本發(fā)明涉及人工智能,尤其涉及銀行風險控制場景的特征選擇方法及裝置。
背景技術:
1、本部分旨在為權利要求書中陳述的本發(fā)明實施例提供背景或上下文。此處的描述不因為包括在本部分中就承認是現(xiàn)有技術。
2、在風險控制領域,建立準確可靠的風控模型對于金融機構具有重要意義。特征選擇是構建高效風控模型的關鍵步驟之一。通過選擇與目標變量相關性高且具有穩(wěn)定性的特征,可以提高模型的預測性能、降低過擬合風險,并增強模型的可解釋性。特征選擇可以分為以下幾個階段:
3、1.特征獲取階段:收集和獲取與業(yè)務目標相關的特征數(shù)據(jù)。特征可以來自各種來源,如原始數(shù)據(jù)集、外部數(shù)據(jù)源或領域知識。
4、2.特征預處理階段:對獲取的特征數(shù)據(jù)進行預處理和清洗。這包括處理缺失值、異常值、重復值,進行數(shù)據(jù)平滑、歸一化或標準化,以及進行特征編碼或轉換等操作。
5、3.特征選擇階段:根據(jù)特定的評估指標或算法,對預處理后的特征進行選擇。目標是從所有特征中選擇出最具有預測能力或相關性的特征子集。
6、4.特征評估階段:在這個階段,對經(jīng)過特征選擇的特征子集進行進一步評估和排序,以確定每個特征的重要性或貢獻度。這可以通過統(tǒng)計方法、機器學習算法或領域?qū)<抑R來實現(xiàn)。
7、在傳統(tǒng)的特征選擇方法中,只考慮單一指標,無法全面評估特征質(zhì)量,篩選出的特征可能存在冗余,并且缺乏自適應性,無法根據(jù)不同場景和數(shù)據(jù)集的特點進行調(diào)整和優(yōu)化。
技術實現(xiàn)思路
1、本發(fā)明實施例提供一種銀行風險控制場景的特征選擇方法,用以提高特征選擇的準確性、靈活性,該方法包括:
2、將待分析數(shù)據(jù)集輸入預先訓練好的元學習模型,得到第一機器學習模型選擇結果;其中,元學習模型未根據(jù)歷史數(shù)據(jù)集、以及各機器學習模型針對每一歷史數(shù)據(jù)集的性能指標訓練得到;
3、根據(jù)待分析數(shù)據(jù)集與數(shù)據(jù)庫中歷史數(shù)據(jù)集的相似度、以及各機器學習模型針對每一歷史數(shù)據(jù)集的性能指標,得到第二機器學習模型選擇結果;
4、根據(jù)第一機器學習模型選擇結果、以及第二機器學習模型選擇結果,得到特征分析模型;其中,特征分析模型為從第一機器學習模型選擇結果、以及第二機器學習模型選擇結果中確定的機器學習模型;
5、采用特征分析模型對待分析數(shù)據(jù)集進行分析,得到待分析數(shù)據(jù)集的第一特征排序結果;其中,待分析數(shù)據(jù)集中包含多個特征;
6、計算待分析數(shù)據(jù)集中各特征的風險相關度、卡方值、iv值,根據(jù)待分析數(shù)據(jù)集中每個特征的風險相關度、卡方值、iv值,對每個特征進行排序,得到第二特征排序結果;
7、根據(jù)第一特征排序結果、以及第二特征排序結果,得到待分析數(shù)據(jù)集的最終特征選擇結果。
8、本發(fā)明實施例還提供一種銀行風險控制場景的特征選擇裝置,用以提高特征選擇的準確性、靈活性,該裝置包括:
9、第一模型選擇模塊,用于將待分析數(shù)據(jù)集輸入預先訓練好的元學習模型,得到第一機器學習模型選擇結果;其中,元學習模型未根據(jù)歷史數(shù)據(jù)集、以及各機器學習模型針對每一歷史數(shù)據(jù)集的性能指標訓練得到;
10、第二模型選擇模塊,用于根據(jù)待分析數(shù)據(jù)集與數(shù)據(jù)庫中歷史數(shù)據(jù)集的相似度、以及各機器學習模型針對每一歷史數(shù)據(jù)集的性能指標,得到第二機器學習模型選擇結果;
11、第三模型選擇模塊,用于根據(jù)第一機器學習模型選擇結果、以及第二機器學習模型選擇結果,得到特征分析模型;其中,特征分析模型為從第一機器學習模型選擇結果、以及第二機器學習模型選擇結果中確定的機器學習模型;
12、第一處理模塊,用于采用特征分析模型對待分析數(shù)據(jù)集進行分析,得到待分析數(shù)據(jù)集的第一特征排序結果;其中,待分析數(shù)據(jù)集中包含多個特征;
13、第二處理模塊,用于計算待分析數(shù)據(jù)集中各特征的風險相關度、卡方值、iv值,根據(jù)待分析數(shù)據(jù)集中每個特征的風險相關度、卡方值、iv值,對每個特征進行排序,得到第二特征排序結果;
14、第三處理模塊,用于根據(jù)第一特征排序結果、以及第二特征排序結果,得到待分析數(shù)據(jù)集的最終特征選擇結果。
15、本發(fā)明實施例還提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述銀行風險控制場景的特征選擇方法。
16、本發(fā)明實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述銀行風險控制場景的特征選擇方法。
17、本發(fā)明實施例還提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述銀行風險控制場景的特征選擇方法。
18、本發(fā)明實施例中,將待分析數(shù)據(jù)集輸入預先訓練好的元學習模型,得到第一機器學習模型選擇結果;其中,元學習模型未根據(jù)歷史數(shù)據(jù)集、以及各機器學習模型針對每一歷史數(shù)據(jù)集的性能指標訓練得到;根據(jù)待分析數(shù)據(jù)集與數(shù)據(jù)庫中歷史數(shù)據(jù)集的相似度、以及各機器學習模型針對每一歷史數(shù)據(jù)集的性能指標,得到第二機器學習模型選擇結果;根據(jù)第一機器學習模型選擇結果、以及第二機器學習模型選擇結果,得到特征分析模型;其中,特征分析模型為從第一機器學習模型選擇結果、以及第二機器學習模型選擇結果中確定的機器學習模型;采用特征分析模型對待分析數(shù)據(jù)集進行分析,得到待分析數(shù)據(jù)集的第一特征排序結果;其中,待分析數(shù)據(jù)集中包含多個特征;計算待分析數(shù)據(jù)集中各特征的風險相關度、卡方值、iv值,根據(jù)待分析數(shù)據(jù)集中每個特征的風險相關度、卡方值、iv值,對每個特征進行排序,得到第二特征排序結果;根據(jù)第一特征排序結果、以及第二特征排序結果,得到待分析數(shù)據(jù)集的最終特征選擇結果。這樣,先通過元學習模型和性能指標數(shù)據(jù)庫確定特征分析模型,提高特征分析模型選擇的準確性,然后同時考慮多指標(如風險相關度、卡方值、iv值)、以及特征分析模型選擇的結果,能夠得到更全面和綜合的特征選擇結果,提升了特征選擇的準確性、靈活性。
1.一種銀行風險控制場景的特征選擇方法,其特征在于,包括:
2.如權利要求1所述的銀行風險控制場景的特征選擇方法,其特征在于,還包括:
3.如權利要求2所述的銀行風險控制場景的特征選擇方法,其特征在于,第一機器學習模型選擇結果包括:元學習模型選擇的多個第一機器學習模型、以及每一第一機器學習模型對應的性能指標;第二機器學習模型選擇結果,包括:根據(jù)待分析數(shù)據(jù)集與數(shù)據(jù)庫選擇出的多個第二機器學習模型、以及每一第二機器學習模型對應的性能指標;
4.如權利要求1所述的銀行風險控制場景的特征選擇方法,其特征在于,計算待分析數(shù)據(jù)集中各特征的風險相關度,包括:
5.如權利要求1所述的銀行風險控制場景的特征選擇方法,其特征在于,第二特征排序結果,包括:待分析數(shù)據(jù)集中每個特征的風險相關度排序結果、待分析數(shù)據(jù)集中每個特征的卡方值排序結果、以及待分析數(shù)據(jù)集中每個特征的iv值排序結果;
6.一種銀行風險控制場景的特征選擇裝置,其特征在于,包括:
7.如權利要求6所述的銀行風險控制場景的特征選擇裝置,其特征在于,還包括:
8.如權利要求7所述的銀行風險控制場景的特征選擇裝置,其特征在于,第一機器學習模型選擇結果包括:元學習模型選擇的多個第一機器學習模型、以及每一第一機器學習模型對應的性能指標;第二機器學習模型選擇結果,包括:根據(jù)待分析數(shù)據(jù)集與數(shù)據(jù)庫選擇出的多個第二機器學習模型、以及每一第二機器學習模型對應的性能指標;
9.如權利要求6所述的銀行風險控制場景的特征選擇裝置,其特征在于,第二處理模塊,具體用于統(tǒng)計待分析數(shù)據(jù)集中每一特征在待分析數(shù)據(jù)集中發(fā)生風險事件的次數(shù),得到待分析數(shù)據(jù)集中每一特征的風險率;
10.如權利要求6所述的銀行風險控制場景的特征選擇裝置,其特征在于,第二特征排序結果,包括:待分析數(shù)據(jù)集中每個特征的風險相關度排序結果、待分析數(shù)據(jù)集中每個特征的卡方值排序結果、以及待分析數(shù)據(jù)集中每個特征的iv值排序結果;
11.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至5任一所述方法。
12.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至5任一所述方法。
13.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至5任一所述方法。