基于不平衡分類指標(biāo)與集成學(xué)習(xí)的不平衡數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,設(shè)及集成學(xué)習(xí)分類方法,具體是一種基于不平衡分類 指標(biāo)與集成學(xué)習(xí)的不平衡數(shù)據(jù)分類方法,可用于不平衡數(shù)據(jù)的分類與識別。
【背景技術(shù)】
[0002] 伴隨著全球信息技術(shù)的飛速發(fā)展,功能強大的計算機、數(shù)據(jù)收集設(shè)備和存儲設(shè)備 為人們進(jìn)行事務(wù)管理、信息檢索和數(shù)據(jù)分析提供了大量的數(shù)據(jù)信息。盡管獲得的數(shù)據(jù)量特 別大,但是對人們有用的數(shù)據(jù)往往只占全部數(shù)據(jù)的一小部分。該種某類樣本數(shù)據(jù)數(shù)量明顯 少于其他類樣本的數(shù)據(jù)集被稱作不平衡數(shù)據(jù)集,不平衡數(shù)據(jù)集的分類問題大量存在于現(xiàn)實 生活之中。例如,檢測公民的信用申請是否存在欺詐,一般情況下欺詐申請要遠(yuǎn)少于合法申 請;利用診療數(shù)據(jù)診斷病人的疾病,如屯、臟病患者要遠(yuǎn)少于健康的人。在該些實際應(yīng)用中, 人們更關(guān)屯、的是數(shù)據(jù)集中的少數(shù)類,即樣本數(shù)目遠(yuǎn)少于其他類樣本的一類樣本,而且該些 少數(shù)類的錯分代價往往非常大,因此需要有效提高少數(shù)類的分類精度。
[0003] 近幾年來,不平衡數(shù)據(jù)集的分類問題越來越受到數(shù)據(jù)挖掘和機器學(xué)習(xí)研究領(lǐng)域的 關(guān)注,國內(nèi)外學(xué)者對不平衡數(shù)據(jù)的研究主要有兩個方面;一是基于數(shù)據(jù)采樣的方法,其主要 目的是通過對數(shù)據(jù)進(jìn)行預(yù)處理降低數(shù)據(jù)的不平衡度,如模擬增加少數(shù)類樣本的少數(shù)類樣本 合成過采樣技術(shù)SMOTE ;二是基于分類算法的方法,Veropoulos等人提出的不同懲罰參數(shù) 的支持向量機Biased-SVM,為各類樣本指派不同的懲罰參數(shù),從一定程度上抵消了數(shù)據(jù)不 平衡度對支持向量機的影響。
[0004] 面對不平衡數(shù)據(jù)集的學(xué)習(xí)問題,研究的困難主要來自于不平衡數(shù)據(jù)本身的特點: 不平衡數(shù)據(jù)集中的少數(shù)類樣本不足,樣本的分布并不能很好的反映整個類的實際分布;多 數(shù)類通常會夾雜噪聲數(shù)據(jù),使得兩類樣本往往會出現(xiàn)不同程度的重疊。此外,傳統(tǒng)的機器學(xué) 習(xí)領(lǐng)域的分類方法,在直接應(yīng)用于不平衡數(shù)據(jù)時,如果沒有考慮數(shù)據(jù)的不平衡性,容易將少 數(shù)類樣本錯分為多數(shù)類,盡管整體的分類精度比較高,但對少數(shù)類的分類精度非常低。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于針對上述已有技術(shù)的不足,提出一種基于不平衡分類指標(biāo)與集 成學(xué)習(xí)的不平衡數(shù)據(jù)分類方法,W提高分類器對少數(shù)類的分類精度。
[0006] 為實現(xiàn)上述目的,本發(fā)明技術(shù)方案包括如下步驟:
[0007] (1)輸入一個包含兩類數(shù)據(jù)的不平衡數(shù)據(jù)集,并將樣本較多的類記作多數(shù)類,樣本 較少的類記作少數(shù)類,從該不平衡數(shù)據(jù)集中隨機選取十分之九的樣本作為訓(xùn)練樣本,將剩 余的樣本作為測試樣本,并設(shè)定最大迭代次數(shù)T ;
[000引 似設(shè)訓(xùn)練樣本初始權(quán)重服從均勻分布,即每一個(Xi,yi)GS,A(-1-,.0^) = ^,其 N 中i = 1,2,. . .,N,t = 1,N表示訓(xùn)練樣本的個數(shù),S表示訓(xùn)練集,Xi表示第i個訓(xùn)練樣本, 表示第i個訓(xùn)練樣本的類別標(biāo)識,D t表示第t輪中訓(xùn)練樣本的樣本權(quán)重;
[0009] (3)根據(jù)第t輪中訓(xùn)練樣本的樣本權(quán)重Dt選取第t輪生成的弱分類器的訓(xùn)練樣 本,用選取的訓(xùn)練樣本對支持向量機進(jìn)行訓(xùn)練,獲得第t輪生成的弱分類器、,用弱分類器 、對所有訓(xùn)練樣本進(jìn)行分類,得到訓(xùn)練樣本的預(yù)測類標(biāo)h t (Xi),其中i = 1,2, . . .,N ;
[0010] (4)計算第t輪生成的弱分類器ht在訓(xùn)練集上的錯誤率:
,其 中,Dt(x。yi)表示第t輪中訓(xùn)練樣本Xi的樣本權(quán)重,h t(Xi)表示第t輪訓(xùn)練后生成的弱分 類器、對第i個訓(xùn)練樣本Xi的預(yù)測類標(biāo),y康示第i個訓(xùn)練樣本的類別標(biāo)識;
[0011] (5)將錯誤率Et與設(shè)定的闊值k = 0.5進(jìn)行比較:若e t>k,令最大迭代次數(shù)T =t-1,轉(zhuǎn)到步驟巧);若e t< k,則執(zhí)行步驟化);
[0012] (6)計算不平衡問題的評價指標(biāo)G,用G優(yōu)化£t,得到優(yōu)化后的錯誤率= EtX(l-G)\其中A是懲罰參數(shù);
[001引 (7)根據(jù)優(yōu)化后的錯誤率十算第t輪生成的弱分類器ht的投票權(quán)重:
[0014]做計算第t+1輪中訓(xùn)練樣本權(quán)重:
庚中,
為中間變量,式中Dt(Xi)表示第t輪中訓(xùn)練樣本Xi的 樣本權(quán)重,a t表示第t輪生成的弱分類器的投票權(quán)重,h t (Xi)表示第t輪訓(xùn)練后生成的弱 分類器、對訓(xùn)練樣本Xi的預(yù)測類標(biāo),yi表示第i個訓(xùn)練樣本Xi的類別標(biāo)識,N表示訓(xùn)練樣 本的個數(shù);
[001引 (9)判斷t是否達(dá)到最大迭代次數(shù)T^t<T,則t加1,返回步驟(3) ^t>T, 輸出強分類器
其中,at表示第t輪生成的弱分類器的投票 權(quán)重,Xj.表示第j個測試樣本,y j.表示測試樣本X j.的類別標(biāo)識,ht(Xj.)表示第t輪生成的弱 分類器、對測試樣本Xj.的預(yù)測類標(biāo)。
[0016] 本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點:
[0017] 1)本發(fā)明由于在集成算法中,通過不平衡問題評價指標(biāo)G來優(yōu)化弱分類器在訓(xùn) 練集上錯誤率,并將優(yōu)化后的錯誤率用到訓(xùn)練樣本權(quán)重的更新和弱分類器投票權(quán)重的求取 中,提高了分類器對少數(shù)類的分類精度,使集成算法更適合用于解決不平衡分類問題。
[0018] 2)本發(fā)明由于根據(jù)訓(xùn)練樣本權(quán)重選取部分訓(xùn)練樣本對支持向量機進(jìn)行訓(xùn)練,避免 了過擬合,減少了計算量,提高了計算速度。
[0019] W下結(jié)合附圖對本發(fā)明的實施例及效果作進(jìn)一步詳細(xì)描述。
【附圖說明】
[0020] 圖1是本發(fā)明的實現(xiàn)流程圖;
[0021]圖2是本發(fā)明與現(xiàn)有技術(shù)在不平衡數(shù)據(jù)集上得到的不平衡問題評價指標(biāo)F對比 圖。
【具體實施方式】
[0022] 參照圖1,本發(fā)明的具體實現(xiàn)步驟如下:
[0023] 步驟1,選定訓(xùn)練集和測試集,并設(shè)定最大迭代次數(shù)T。
[0024] 輸入一個包含兩類數(shù)據(jù)的不平衡數(shù)據(jù)集,并將樣本較多的類記作多數(shù)類,樣本較 少的類記作少數(shù)類,從該不平衡數(shù)據(jù)集中隨機選取十分之九的樣本作為訓(xùn)練樣本,將剩余 的樣本作為測試樣本,并設(shè)定最大迭代次數(shù)T。
[0025] 步驟2,初始化訓(xùn)練樣本的權(quán)重。
[0026] 設(shè)訓(xùn)練樣本初始權(quán)重服從均勻分布,即每一個(X。yi)G S,A(x,,.r,) =^,其中i =1,2,. . .,N,t = 1,N表示訓(xùn)練樣本的個數(shù),S表示訓(xùn)練集,Xi表示第i個訓(xùn)練樣本,y i表 示第i個訓(xùn)練樣本的類別標(biāo)識,Dt表示第t輪中訓(xùn)練樣本的樣本權(quán)重。
[0027] 步驟3,從訓(xùn)練集中選取部分訓(xùn)練樣本訓(xùn)練支持向量機。
[002引 (3a)對第t輪中訓(xùn)練樣本的樣本權(quán)重Dt進(jìn)行排序,選擇前n個權(quán)重較大的樣本作 為第t輪生成的弱分類器的訓(xùn)練樣本;
[0029] (3b)用選取的訓(xùn)練樣本對支持向量機進(jìn)行訓(xùn)練,其目標(biāo)函數(shù)為:
,其中,C是懲罰參數(shù),Wt表示通過第t輪訓(xùn)練支持向量機得 到的最優(yōu)分類平面的權(quán)值向量,bt表示其偏置向量,C i為松弛項,Xi表示第i個訓(xùn)練樣本;
[0030] (3c)通過求解上述的目標(biāo)函數(shù),得到第t輪生成的弱分類器ht,用弱分類器、 對所有訓(xùn)練樣本進(jìn)行分類,得到訓(xùn)練樣本Xi的預(yù)測類標(biāo)h t(Xi) = sgn(Wt ? Xi+bt),其中, sgn( ?)是符號函數(shù),Wt表示通過第t輪訓(xùn)練支持向量機得到的最優(yōu)分類平面的權(quán)值向量, bt表不其偏置向量。
[0031] 步驟4,利用下式計算第t輪生成的弱分類器、在訓(xùn)練集上的錯誤率e t;
[0032]
[00對其中,Dt(Xi,yi)表示第t輪中第i個訓(xùn)練樣本Xi的樣本權(quán)重,ht(Xi)表示第t輪 訓(xùn)練后生成的弱分類器、對第i個訓(xùn)練樣本X i的預(yù)測類標(biāo),y i表示第i個訓(xùn)練樣本的類別 標(biāo)識。
[0034]步驟5,將錯誤率et與設(shè)定的闊值k = 0. 5進(jìn)行比較:若e k,令最大迭代次 數(shù)T = t-1,轉(zhuǎn)到步驟10 ;若e t< k,則執(zhí)行步驟6。
[0035]步驟6,計算不平衡問題的評價指標(biāo)G,用G優(yōu)化et。
[0036] 化a)計算少數(shù)類的分類精度
其 中,TP表示預(yù)測類標(biāo)為少數(shù)類且實際類標(biāo)也為少數(shù)類的樣本數(shù)目,F(xiàn)P表示預(yù)測類標(biāo)為少數(shù) 類但實際類標(biāo)為多數(shù)類的樣本數(shù)目,F(xiàn)N表示預(yù)測類標(biāo)為多數(shù)類但實際類標(biāo)為少數(shù)類的樣本 數(shù)目,TN表示預(yù)測類標(biāo)為多數(shù)類且實際類標(biāo)為多數(shù)類的樣本數(shù)目;
[0037] 化b)依據(jù)上述計算得到的Se和Sp,計算Se和Sp的幾何均值G= ?^盡^,該幾 何均值是不平衡問題的評價指標(biāo);
[0038] 化C)依據(jù)上述計算得到的不平衡問題評價指標(biāo)G,優(yōu)化錯誤率£t,即= EtX(l-G)\其中A的數(shù)值根據(jù)交叉驗證方法確定,優(yōu)化后的錯誤率與不僅與被分錯的樣 本的權(quán)重有關(guān),還充分考慮到了不平衡問題的特性,更適合評價不平衡問題分類結(jié)果。
[0039] 步驟7,根據(jù)優(yōu)