本公開的實(shí)施例涉及模型訓(xùn)練,具體地,涉及基于拒絕推斷的模型訓(xùn)練方法、裝置、設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、在家裝分期貸款領(lǐng)域,用戶準(zhǔn)入預(yù)測是金融機(jī)構(gòu)為確保貸款安全和合規(guī)性所關(guān)注的重要環(huán)節(jié)。確保借款人的還款能力和信用狀況符合要求,是維護(hù)金融機(jī)構(gòu)資產(chǎn)質(zhì)量的關(guān)鍵任務(wù)。
2、由于家裝分期場景的特殊性,可用于訓(xùn)練的樣本相對有限。這一稀缺性使得傳統(tǒng)的機(jī)器學(xué)習(xí)方法在實(shí)現(xiàn)準(zhǔn)確的用戶準(zhǔn)入預(yù)測方面面臨挑戰(zhàn),特別是在需要考慮多維度金融信息的情況下。信用良好的客戶相對較多,不良信用客戶相對較少,這導(dǎo)致了模型直接在負(fù)樣本較少的樣本訓(xùn)練,存在較大的不穩(wěn)定,難以保證模型的一致性和魯棒性。
技術(shù)實(shí)現(xiàn)思路
1、本文中描述的實(shí)施例提供了一種基于拒絕推斷的模型訓(xùn)練方法、裝置、設(shè)備和存儲介質(zhì),能夠?qū)ω?fù)樣本進(jìn)行擴(kuò)充,提高樣本訓(xùn)練中負(fù)樣本的數(shù)量,從而提高模型的一致性和魯棒性。
2、第一方面,本公開提供了一種基于拒絕推斷的模型訓(xùn)練方法,包括:
3、基于同一訓(xùn)練數(shù)據(jù)集訓(xùn)練多個不同的基礎(chǔ)模型;基于訓(xùn)練后的各所述基礎(chǔ)模型對同一目標(biāo)數(shù)據(jù)集進(jìn)行預(yù)測,得到元特征矩陣,其中,所述目標(biāo)數(shù)據(jù)集為驗(yàn)證數(shù)據(jù)集和/或測試數(shù)據(jù)集,所述元特征矩陣中的一列為一個訓(xùn)練后的所述基礎(chǔ)模型對所述目標(biāo)數(shù)據(jù)集的預(yù)測結(jié)果;基于所述元特征矩陣訓(xùn)練元模型;基于訓(xùn)練后的各所述基礎(chǔ)模型和訓(xùn)練后的所述元模型對多個拒絕樣本進(jìn)行預(yù)測,得到所有所述拒絕樣本中的負(fù)樣本;將負(fù)樣本數(shù)據(jù)加入所述訓(xùn)練數(shù)據(jù)集中,并返回執(zhí)行所述基于同一訓(xùn)練數(shù)據(jù)集訓(xùn)練多個不同的基礎(chǔ)模型。
4、在本公開的一些實(shí)施例中,所述基于同一訓(xùn)練數(shù)據(jù)集訓(xùn)練多個不同的基礎(chǔ)模型之前,還包括:
5、獲取參與過申請業(yè)務(wù)的所有用戶的數(shù)據(jù)信息以及各用戶對應(yīng)的標(biāo)簽,所述數(shù)據(jù)信息包括個人信息、業(yè)務(wù)信息、征信信息和還款表現(xiàn)信息;從各所述用戶的所述數(shù)據(jù)信息中提取目標(biāo)特征,得到所述訓(xùn)練數(shù)據(jù)集。
6、在本公開的一些實(shí)施例中,所述獲取參與過申請業(yè)務(wù)的所有用戶的數(shù)據(jù)信息以及各用戶對應(yīng)的標(biāo)簽包括:
7、采集參與過所述申請業(yè)務(wù)的所有所述用戶的所述數(shù)據(jù)信息;基于各所述用戶的所述還款表現(xiàn)信息,確定各所述用戶對應(yīng)的標(biāo)簽。
8、在本公開的一些實(shí)施例中,所述從各所述用戶的所述數(shù)據(jù)信息中提取目標(biāo)特征,得到所述訓(xùn)練數(shù)據(jù)集包括:
9、對所有所述用戶的所述數(shù)據(jù)信息中的缺失值、異常值和重復(fù)值進(jìn)行處理;基于處理后的各所述用戶的所述數(shù)據(jù)信息,確定各所述用戶的所述目標(biāo)特征;基于所有所述用戶的目標(biāo)特征,確定所述訓(xùn)練數(shù)據(jù)集和所述目標(biāo)數(shù)據(jù)集。
10、在本公開的一些實(shí)施例中,所述基于處理后的各所述用戶的所述數(shù)據(jù)信息,確定各所述用戶的所述目標(biāo)特征包括:
11、基于處理后的各所述用戶的所述數(shù)據(jù)信息進(jìn)行特征衍生,得到初始特征;將各所述用戶的所述初始特征進(jìn)行編碼,得到模型可識別的中間特征;從各所述用戶的所述中間特征中篩選出各所述用戶的所述目標(biāo)特征。
12、在本公開的一些實(shí)施例中,多個不同的所述基礎(chǔ)模型為不同算法的模型,和/或同一算法的不同超參量配置的模型。
13、在本公開的一些實(shí)施例中,所述基于訓(xùn)練后的各所述基礎(chǔ)模型和訓(xùn)練后的所述元模型對多個拒絕樣本進(jìn)行預(yù)測,得到所有所述拒絕樣本中的負(fù)樣本包括:
14、將所有拒絕樣本數(shù)據(jù)輸入至訓(xùn)練后的所有所述基礎(chǔ)模型,得到所有所述拒絕樣本對應(yīng)的所述元特征矩陣;將所有所述拒絕樣本對應(yīng)的所述元特征矩陣輸入至訓(xùn)練后的所述元模型,得到所有所述拒絕樣本各自對應(yīng)的預(yù)測概率,所述預(yù)測概率用于表征對應(yīng)的所述拒絕樣本為正類別的概率;將所述預(yù)測概率小于概率閾值的所述拒絕樣本確定為所述負(fù)樣本
15、第二方面,本公開提供了一種基于拒絕推斷的模型訓(xùn)練裝置,包括:
16、訓(xùn)練模塊,用于基于同一訓(xùn)練數(shù)據(jù)集訓(xùn)練多個不同的基礎(chǔ)模型。
17、預(yù)測模塊,用于基于訓(xùn)練后的各所述基礎(chǔ)模型對同一目標(biāo)數(shù)據(jù)集進(jìn)行預(yù)測,得到元特征矩陣,其中,所述目標(biāo)數(shù)據(jù)集為驗(yàn)證數(shù)據(jù)集和/或測試數(shù)據(jù)集,所述元特征矩陣中的一列為一個訓(xùn)練后的所述基礎(chǔ)模型對所述目標(biāo)數(shù)據(jù)集的預(yù)測結(jié)果。
18、所述訓(xùn)練模塊,還用于基于所述元特征矩陣訓(xùn)練元模型。
19、所述預(yù)測模塊,還用于基于訓(xùn)練后的各所述基礎(chǔ)模型和訓(xùn)練后的所述元模型對多個拒絕樣本進(jìn)行預(yù)測。
20、確定模塊,用于得到所有所述拒絕樣本中的負(fù)樣本,并將負(fù)樣本數(shù)據(jù)加入所述訓(xùn)練數(shù)據(jù)集中。
21、第三方面,本公開提供了一種電子設(shè)備,包括處理器,所述處理器用于執(zhí)行存儲于存儲器的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)第一方面提供的任一方法的步驟。
22、第四方面,本公開提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,計(jì)算機(jī)程序在由處理器執(zhí)行時實(shí)現(xiàn)第一方面提供的任一方法的步驟。
23、本公開提供的技術(shù)方案中,基于同一訓(xùn)練數(shù)據(jù)集訓(xùn)練多個不同的基礎(chǔ)模型,基于訓(xùn)練后的各基礎(chǔ)模型對同一目標(biāo)數(shù)據(jù)集進(jìn)行預(yù)測,得到元特征矩陣,基于元特征矩陣訓(xùn)練元模型,基于訓(xùn)練后的各基礎(chǔ)模型和訓(xùn)練后的元模型對多個拒絕樣本進(jìn)行預(yù)測,得到所有拒絕樣本中的負(fù)樣本,將負(fù)樣本數(shù)據(jù)加入訓(xùn)練數(shù)據(jù)集中,并返回執(zhí)行基于同一訓(xùn)練數(shù)據(jù)集訓(xùn)練多個不同的基礎(chǔ)模型,能夠?qū)ω?fù)樣本進(jìn)行擴(kuò)充,提升樣本訓(xùn)練中負(fù)樣本的數(shù)量,從而能夠提高模型的一致性和魯棒性。
1.一種基于拒絕推斷的模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于同一訓(xùn)練數(shù)據(jù)集訓(xùn)練多個不同的基礎(chǔ)模型之前,還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取參與過申請業(yè)務(wù)的所有用戶的數(shù)據(jù)信息以及各用戶對應(yīng)的標(biāo)簽包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從各所述用戶的所述數(shù)據(jù)信息中提取目標(biāo)特征,得到所述訓(xùn)練數(shù)據(jù)集包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于處理后的各所述用戶的所述數(shù)據(jù)信息,確定各所述用戶的所述目標(biāo)特征包括:
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,多個不同的所述基礎(chǔ)模型為不同算法的模型,和/或同一算法的不同超參量配置的模型。
7.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,所述基于訓(xùn)練后的各所述基礎(chǔ)模型和訓(xùn)練后的所述元模型對多個拒絕樣本進(jìn)行預(yù)測,得到所有所述拒絕樣本中的負(fù)樣本包括:
8.一種基于拒絕推斷的模型訓(xùn)練裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:處理器,所述處理器用于執(zhí)行存儲于存儲器的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-7任一項(xiàng)所述方法的步驟。
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-7任一項(xiàng)所述方法的步驟。