所屬的技術人員能夠理解,本發(fā)明的各個方面可以實現(xiàn)為系統(tǒng)、方法或程序產品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。下面參照圖9來描述根據(jù)本發(fā)明的這種實施方式的分類模型訓練裝置900。圖9所示的分類模型訓練裝置900僅僅是一個示例,不應對本發(fā)明實施例的功能和使用范圍帶來任何限制。分類模型訓練裝置900以硬件模塊的形式表現(xiàn)。分類模型訓練裝置900的組件可以包括但不限于:第一模型訓練模塊902,用于基于初始訓練樣本對第一模型進行訓練,生成基礎分類模型;獲取模塊904,用于獲取基礎分類模型對初始訓練樣本的分類結果;第二模型訓練模塊906,用于將分類結果中的預測正樣本確定為增強訓練樣本,將基礎分類模型的分類特征確定為訓練特征,將預測正樣本中的真正例和假正例進行分離確定為訓練目標,對第二模型進行訓練,生成增強分類模型,以由增強分類模型生成篩選規(guī)則,篩選規(guī)則用于從增強訓練樣本中篩選出多個目標子集,多個目標子集的精確率大于目標精確率。下面參照圖10來描述根據(jù)本發(fā)明的這種實施方式的分類目標識別裝置1000。圖10所示的分類目標識別裝置1000僅僅是一個示例,不應對本發(fā)明實施例的功能和使用范圍帶來任何限制。分類目標識別裝置1000以硬件模塊的形式表現(xiàn)。分類目標識別裝置1000的組件可以包括但不限于:輸入模塊1002,用于將待識別數(shù)據(jù)輸入基礎分類模型,輸出識別結果和識別概率;提取模塊1004,用于提取識別結果中的正向識別結果;輸出模塊1006,用于將正向識別結果和所述識別概率輸入增強分類模型,基于增強分類模型的篩選規(guī)則從正向識別結果中篩選出多個識別目標子集,多個識別目標子集的精確率大于目標精確率。下面參照圖11來描述根據(jù)本發(fā)明的這種實施方式的電子設備1100。圖11顯示的電子設備1100僅僅是一個示例,不應對本發(fā)明實施例的功能和使用范圍帶來任何限制。如圖11所示,電子設備1100以通用計算設備的形式表現(xiàn)。電子設備1100的組件可以包括但不限于:上述至少一個處理單元1110、上述至少一個存儲單元1120、連接不同系統(tǒng)組件(包括存儲單元1120和處理單元1110)的總線1130。其中,存儲單元存儲有程序代碼,程序代碼可以被處理單元1110執(zhí)行,使得處理單元1110執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明各種示例性實施方式的步驟。例如,處理單元1110可以執(zhí)行如圖1中所示的步驟s202和步驟s206,以及本公開的分類模型訓練方法中限定的其他步驟。存儲單元1120可以包括易失性存儲單元形式的可讀介質,例如隨機存取存儲單元(ram)11201和/或高速緩存存儲單元11202,還可以進一步包括只讀存儲單元(rom)11203。存儲單元1120還可以包括具有一組(至少一個)程序模塊11205的程序/實用工具11204,這樣的程序模塊11205包括但不限于:操作系統(tǒng)、一個或者多個應用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡環(huán)境的實現(xiàn)??偩€1130可以為表示幾類總線結構中的一種或多種,包括存儲單元總線或者存儲單元控制器、外圍總線、圖形加速端口、處理單元或者使用多種總線結構中的任意總線結構的局域總線。電子設備1100也可以與一個或多個外部設備1160(例如鍵盤、指向設備、藍牙設備等)通信,還可與一個或者多個使得用戶能與該電子設備交互的設備通信,和/或與使得該電子設備1100能與一個或多個其它計算設備進行通信的任何設備(例如路由器、調制解調器等等)通信。這種通信可以通過輸入/輸出(i/o)接口1150進行。并且,電子設備1100還可以通過網(wǎng)絡適配器1150與一個或者多個網(wǎng)絡(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡,例如因特網(wǎng))通信。如圖所示,網(wǎng)絡適配器1150通過總線1130與電子設備1100的其它模塊通信。應當明白,盡管圖中未示出,可以結合電子設備使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅動器、冗余處理單元、外部磁盤驅動陣列、raid系統(tǒng)、磁帶驅動器以及數(shù)據(jù)備份存儲系統(tǒng)等。通過以上的實施方式的描述,本領域的技術人員易于理解,這里描述的示例實施方式可以通過軟件實現(xiàn),也可以通過軟件結合必要的硬件的方式來實現(xiàn)。因此,根據(jù)本公開實施方式的技術方案可以以軟件產品的形式體現(xiàn)出來,該軟件產品可以存儲在一個非易失性存儲介質(可以是cd-rom,u盤,移動硬盤等)中或網(wǎng)絡上,包括若干指令以使得一臺計算設備(可以是個人計算機、服務器、終端裝置、或者網(wǎng)絡設備等)執(zhí)行根據(jù)本公開實施方式的方法。在本公開的示例性實施例中,還提供了一種計算機可讀存儲介質,其上存儲有能夠實現(xiàn)本說明書上述方法的程序產品。在一些可能的實施方式中,本發(fā)明的各個方面還可以實現(xiàn)為一種程序產品的形式,其包括程序代碼,當程序產品在終端設備上運行時,程序代碼用于使終端設備執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明各種示例性實施方式的步驟。根據(jù)本發(fā)明的實施方式的用于實現(xiàn)上述方法的程序產品,其可以采用便攜式緊湊盤只讀存儲器(cd-rom)并包括程序代碼,并可以在終端設備,例如個人電腦上運行。然而,本發(fā)明的程序產品不限于此,在本文件中,可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用。計算機可讀信號介質可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了可讀程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合??勺x信號介質還可以是可讀存儲介質以外的任何可讀介質,該可讀介質可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用的程序。可讀介質上包含的程序代碼可以用任何適當?shù)慕橘|傳輸,包括但不限于無線、有線、光纜、rf等等,或者上述的任意合適的組合??梢砸砸环N或多種程序設計語言的任意組合來編寫用于執(zhí)行本發(fā)明操作的程序代碼,所述程序設計語言包括面向對象的程序設計語言—諸如java、c++等,還包括常規(guī)的過程式程序設計語言—諸如“c”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算設備上執(zhí)行、部分地在用戶設備上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算設備上部分在遠程計算設備上執(zhí)行、或者完全在遠程計算設備或服務器上執(zhí)行。在涉及遠程計算設備的情形中,遠程計算設備可以通過任意種類的網(wǎng)絡,包括局域網(wǎng)(lan)或廣域網(wǎng)(wan),連接到用戶計算設備,或者,可以連接到外部計算設備(例如利用因特網(wǎng)服務提供商來通過因特網(wǎng)連接)。應當注意,盡管在上文詳細描述中提及了用于動作執(zhí)行的設備的若干模塊或者單元,但是這種劃分并非強制性的。實際上,根據(jù)本公開的實施方式,上文描述的兩個或更多模塊或者單元的特征和功能可以在一個模塊或者單元中具體化。反之,上文描述的一個模塊或者單元的特征和功能可以進一步劃分為由多個模塊或者單元來具體化。此外,盡管在附圖中以特定順序描述了本公開中方法的各個步驟,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些步驟,或是必須執(zhí)行全部所示的步驟才能實現(xiàn)期望的結果。附加的或備選的,可以省略某些步驟,將多個步驟合并為一個步驟執(zhí)行,以及/或者將一個步驟分解為多個步驟執(zhí)行等。通過以上的實施方式的描述,本領域的技術人員易于理解,這里描述的示例實施方式可以通過軟件實現(xiàn),也可以通過軟件結合必要的硬件的方式來實現(xiàn)。因此,根據(jù)本公開實施方式的技術方案可以以軟件產品的形式體現(xiàn)出來,該軟件產品可以存儲在一個非易失性存儲介質(可以是cd-rom,u盤,移動硬盤等)中或網(wǎng)絡上,包括若干指令以使得一臺計算設備(可以是個人計算機、服務器、移動終端、或者網(wǎng)絡設備等)執(zhí)行根據(jù)本公開實施方式的方法。本領域技術人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本公開的其它實施方案。本技術旨在涵蓋本公開的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本公開的一般性原理并包括本公開未公開的本中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由所附的權利要求指出。
背景技術:
1、分類模型在數(shù)據(jù)挖掘中主要用于預測事件的發(fā)生并估計事件的傾向,在實際應用場景中,分類模型需要在保證召回率的前提下,保證較高的精確率,比如垃圾郵件的識別模型只有在精確率很高的情況下,才能防止有用郵件被忽視,又如還款期逾期客戶預測模型,對有較大逾期風險的客戶,平臺銷售人員會進行催款,若預測模型的精確率不高,會影響客戶體驗。
2、相關技術中,通過對算法或特征建設進行優(yōu)化提升分類模型的精確率,但是基于算法的優(yōu)化需要持續(xù)較長時間,短時間內沒有明顯效果,而基于特征的優(yōu)化收到復雜的業(yè)務場景以及數(shù)據(jù)丟失等因素的限制,也無法得到理想的優(yōu)化效果,因此亟需一種能夠保證召回率的前提下,提升分類模型的精確率的優(yōu)化方案。
3、需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現(xiàn)有技術的信息。
技術實現(xiàn)思路
1、本公開的目的在于提供一種分類模型訓練方法、分類模型訓練裝置、分類目標識別方法、分類目標識別裝置、電子設備和計算機可讀存儲介質,至少在一定程度上能夠改善相關技術中的分類模型無法同時兼顧模型召回率和模型識別精確率的問題。
2、本公開的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
3、根據(jù)本公開的一個方面,提供一種分類模型訓練方法,包括:基于初始訓練樣本對第一模型進行訓練,生成基礎分類模型;獲取所述基礎分類模型對所述初始訓練樣本的分類結果;將所述分類結果中的預測正樣本確定為增強訓練樣本,將所述基礎分類模型的分類特征確定為訓練特征,將所述預測正樣本中的真正例和假正例進行分離確定為訓練目標,對第二模型進行訓練,生成增強分類模型,以由所述增強分類模型生成篩選規(guī)則,所述篩選規(guī)則用于從所述增強訓練樣本中篩選出多個目標子集,所述多個目標子集的精確率大于目標精確率。
4、在一個實施例中,所述將所述分類結果中的預測正樣本確定為增強訓練樣本包括:對所述預測正樣本添加樣本標記得到所述增強訓練樣本,其中,對真正例添加第一標記,對所述假正例添加第二標記。
5、在一個實施例中,所述將所述基礎分類模型的分類特征確定為訓練特征包括:將所述初始訓練樣本的樣本特征,以及所述基礎分類模型輸出的所述分類結果對應的預測概率確定為所述分類特征,以得到所述訓練特征。
6、在一個實施例中,所述第二模型為決策樹分類模型,所述對第二模型進行訓練,生成增強分類模型包括:基于所述樣本標記計算每個所述樣本特征的信息增益率,以將具有最大信息增益率的所述樣本特征確定為分裂屬性,以生成所述決策樹分類模型的根節(jié)點;基于所述分裂屬性對應的所述預測概率對所述根節(jié)點進行分割,生成下一層的決策樹分支,并基于所述增強訓練樣本劃分出對應的子集;繼續(xù)基于其它樣本特征的所述信息增益率配置所述決策樹分類模型的子節(jié)點所述分裂屬性,以繼續(xù)生成再下一層的所述決策樹分支以及劃分出對應的所述子集;檢測到所述決策樹分類模型達到指定深度,生成所述增強分類模型。
7、在一個實施例中,基于所述決策樹分類模型的目標擬合效果配置所述指定深度。
8、在一個實施例中,所述由所述增強分類模型生成篩選規(guī)則包括:分別計算每個所述子集的精確率;基于所述子集的精確率和所述目標精確率之間的關系,以及所述目標子集的數(shù)量從所述子集中篩選所述目標子集;基于所述目標子集對應的所述預測概率的限定范圍,生成所述篩選規(guī)則,其中,所述目標子集的數(shù)量與所述多個目標子集的召回率正相關。
9、在一個實施例中,所述基于初始訓練樣本對第一模型進行訓練,生成基礎分類模型包括:將所述初始訓練樣本劃分為正樣本和負樣本;提取所述正樣本的第一樣本特征和所述負樣本的第二樣本特征,以基于所述第一樣本特征和所述第二樣本特征生成訓練集;基于所述訓練集對所述第一模型進行訓練,得到所述基礎分類模型,其中,所述第一模型包括極度梯度提升樹xgboost模型、分布式梯度提升樹lightgbm模型和對稱決策樹catboost模型中的任意一種。
10、根據(jù)本公開的另一個方面,提供一種分類目標識別方法,包括:將待識別數(shù)據(jù)輸入基礎分類模型,輸出識別結果和識別概率;提取所述識別結果中的正向識別結果;將所述正向識別結果和所述識別概率輸入增強分類模型,基于所述增強分類模型的篩選規(guī)則從所述正向識別結果中篩選出多個識別目標子集,所述多個識別目標子集的精確率大于目標精確率。
11、在一個實施例中,所述增強分類模型基于決策樹分類模型訓練生成,所述將所述正向識別結果和所述識別概率輸入增強分類模型,基于所述增強分類模型的篩選規(guī)則從所述正向識別結果中篩選出多個識別目標子集包括:將所述正向識別結果和所述識別概率輸入所述增強分類模型,以由所述增強分類模型基于所述正向識別結果的樣本特征和所述識別概率將所述正向識別結果劃分為多個待識別子集;基于所述篩選規(guī)則從所述多個待識別子集中篩選出所述多個識別目標子集。
12、根據(jù)本公開的再一個方面,提供一種分類模型訓練裝置,包括:第一模型訓練模塊,用于基于初始訓練樣本對第一模型進行訓練,生成基礎分類模型;獲取模塊,用于獲取所述基礎分類模型對所述初始訓練樣本的分類結果;第二模型訓練模塊,用于將所述分類結果中的預測正樣本確定為增強訓練樣本,將所述基礎分類模型的分類特征確定為訓練特征,將所述預測正樣本中的真正例和假正例進行分離確定為訓練目標,對第二模型進行訓練,生成增強分類模型,以由所述增強分類模型生成篩選規(guī)則,所述篩選規(guī)則用于從所述增強訓練樣本中篩選出多個目標子集,所述多個目標子集的精確率大于目標精確率。
13、根據(jù)本公開的又一個方面,提供一種分類目標識別裝置,包括:輸入模塊,用于將待識別數(shù)據(jù)輸入基礎分類模型,輸出識別結果和識別概率;提取模塊,用于提取所述識別結果中的正向識別結果;輸出模塊,用于將所述正向識別結果和所述識別概率輸入增強分類模型,基于所述增強分類模型的篩選規(guī)則從所述正向識別結果中篩選出多個識別目標子集,所述多個識別目標子集的精確率大于目標精確率。
14、根據(jù)本公開的又一個方面,提供一種電子設備,包括:處理器;以及存儲器,用于存儲處理器的可執(zhí)行指令;其中,處理器配置為經由執(zhí)行可執(zhí)行指令來執(zhí)行上述任意一項的分類模型訓練方法。
15、根據(jù)本公開的又一個方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述任意一項的分類模型訓練方法。
16、本公開的實施例所提供的分類模型訓練和分類目標識別方案,通過采用基礎分類模型的分類特征以及基礎分類模型的初始分類結果進行增強模型的訓練,得到增強分類模型,增強分類模型能夠將初始分類結果中的預測正樣本進一步進行分離,并基于分離出的多個子集整理出篩選較高精確率的多個目標子集的篩選規(guī)則,從而能夠基于篩選規(guī)則篩選出多個目標子集,通過篩選出較多數(shù)量的目標子集,能夠在保證模型召回率的同時,提升模型識別精確率。
17、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。