背景技術(shù):
1、機(jī)器學(xué)習(xí)和人工智能在圖像識(shí)別和分類,視頻分析、目標(biāo)檢測(cè)等計(jì)算機(jī)視覺任務(wù)中取得了快速的發(fā)展,這些發(fā)展需要保證數(shù)據(jù)集具有可用性。如c?i?far10、c?i?far100數(shù)據(jù)集,數(shù)據(jù)集中每個(gè)類別的樣本數(shù)量都足夠且數(shù)量相近。然而現(xiàn)實(shí)世界中數(shù)據(jù)集是不平衡的,因此,數(shù)據(jù)不平衡成為計(jì)算機(jī)視覺任務(wù)的一個(gè)研究重點(diǎn)。
2、數(shù)據(jù)不平衡是指在一個(gè)數(shù)據(jù)集中存在多個(gè)數(shù)據(jù)類別,每個(gè)類別的數(shù)量存在很大的差異,當(dāng)多數(shù)類樣本的數(shù)量遠(yuǎn)遠(yuǎn)超過少數(shù)類樣本時(shí),就會(huì)出現(xiàn)不平衡問題。數(shù)據(jù)不平衡可以分為長(zhǎng)尾不平衡和階躍不平衡。長(zhǎng)尾不平衡是指每個(gè)數(shù)據(jù)類別的數(shù)量從大類樣本到小類樣本呈梯度下降。隨著樣本類別的增加,少數(shù)類樣本的數(shù)量會(huì)急劇減少,很多情況下少數(shù)類樣本的數(shù)量為個(gè)位數(shù)。階躍不平衡在現(xiàn)實(shí)世界中并不常見,它是將數(shù)據(jù)集分為多個(gè)組別,每個(gè)組別中含有多個(gè)類別,該組內(nèi)每個(gè)數(shù)據(jù)類別的數(shù)量差別很小,不同組之間的類別數(shù)量不同且存在某種程度上的倍數(shù)關(guān)系。在我們的現(xiàn)實(shí)生活中,數(shù)據(jù)集通常以長(zhǎng)尾不平衡的方式存在,研究長(zhǎng)尾不平衡是數(shù)據(jù)不平衡的一個(gè)重要的研究點(diǎn)。
3、在機(jī)器學(xué)習(xí)中,傳統(tǒng)的學(xué)習(xí)算法以整體準(zhǔn)確率為學(xué)習(xí)目標(biāo),這會(huì)忽略少數(shù)類別樣本的重要性,使訓(xùn)練結(jié)果以多數(shù)類樣本為導(dǎo)向。然而,在沒有對(duì)數(shù)據(jù)集和學(xué)習(xí)算法進(jìn)行處理的情況下進(jìn)行學(xué)習(xí)訓(xùn)練,這不僅會(huì)降低模型的泛化能力,也會(huì)降低在少數(shù)類別樣本中的表現(xiàn)能力。在實(shí)際的應(yīng)用場(chǎng)景中,在很多情況下少數(shù)類樣本的價(jià)值是高于多數(shù)類樣本的。在醫(yī)療診斷、軟件缺陷檢測(cè)和欺詐檢測(cè)、網(wǎng)絡(luò)入侵監(jiān)控、故障診斷等應(yīng)用中,都體現(xiàn)了少數(shù)類樣本的重要價(jià)值。利用不平衡數(shù)據(jù)提高識(shí)別性能對(duì)現(xiàn)代深度學(xué)習(xí)方法提出了巨大的挑戰(zhàn),因此,研究多類別長(zhǎng)尾不平衡數(shù)據(jù)分類具有重要的現(xiàn)實(shí)意義。
4、為解決不平衡數(shù)據(jù)的學(xué)習(xí)和分類問題,現(xiàn)有相關(guān)研究方案分為兩個(gè)技術(shù)層面:(1)算法層面:算法層面方法通過修改分類器、設(shè)置權(quán)重、改進(jìn)損失函數(shù)等方法重點(diǎn)關(guān)注少數(shù)類樣本?;蛘咄ㄟ^懲罰機(jī)制調(diào)整模型的訓(xùn)練過程,改進(jìn)小類樣本的訓(xùn)練策略。但這些方法缺乏靈活性,且容易使模型出現(xiàn)過擬合現(xiàn)象。(2)數(shù)據(jù)層面:主要方法有欠采樣、過采樣,也可以將這兩種采樣方法結(jié)合的混合采樣。該類方法主要是從數(shù)據(jù)的角度出發(fā),通過各種方法使各類數(shù)據(jù)達(dá)到理論平衡,從而解決不平衡數(shù)據(jù)問題。該方法不僅易于理解而且高效,同時(shí)又可以保留數(shù)據(jù)的原始特征信息,被認(rèn)為是一種能夠解決數(shù)據(jù)不平衡問題的方法。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問題,本發(fā)明提供了一種基于樣本重要性的不平衡數(shù)據(jù)過采樣方法。
2、本發(fā)明涉及在需要對(duì)不平衡數(shù)據(jù)處理、分類器的訓(xùn)練和模型優(yōu)化的領(lǐng)域,不平衡數(shù)據(jù)分類在疾病監(jiān)測(cè)、漏洞檢測(cè)、視頻分析和目標(biāo)檢測(cè)等場(chǎng)景中存在著廣泛的應(yīng)用,本發(fā)明能夠降低噪聲數(shù)據(jù)的影響,提高少數(shù)類樣本數(shù)據(jù)的質(zhì)量,降低模型的過擬合現(xiàn)象。
3、所述方法包括:
4、確定原始數(shù)據(jù)集的流程;原始數(shù)據(jù)集包括了少數(shù)樣本集、多數(shù)樣本集,原始數(shù)據(jù)集包括若干樣本以及各樣本對(duì)應(yīng)的真實(shí)標(biāo)簽及權(quán)重;
5、確定少數(shù)樣本集中需要進(jìn)行過采樣的樣本的流程;該流程用于基于樣本重要性,從少數(shù)樣本集中確認(rèn)需要進(jìn)行過采樣的樣本;
6、合成新樣本插入到需要過采樣的樣本所屬樣本集的流程;該流程用于通過插值法合成新樣本,并插入到需要過采樣的樣本所屬樣本集。
7、進(jìn)一步的,確定少數(shù)樣本集中需要過采樣的樣本的流程包含的步驟為:
8、步驟2.1:預(yù)先選定神經(jīng)網(wǎng)絡(luò)模型函數(shù)f(x,w),少數(shù)樣本集內(nèi)的樣本及其權(quán)重、真實(shí)標(biāo)簽作為其輸入;
9、步驟2.2:計(jì)算出各樣本的預(yù)測(cè)標(biāo)簽和實(shí)際標(biāo)簽的關(guān)系;
10、設(shè)待計(jì)算樣本為xi,關(guān)系計(jì)算式如下:
11、l(yi,f(x,w))=-∑tyt,ilogft,i?(1)
12、其中,l為樣本真實(shí)標(biāo)簽yi與神經(jīng)網(wǎng)絡(luò)模型函數(shù)f(x,w)預(yù)測(cè)的標(biāo)簽之間的關(guān)系函數(shù),其計(jì)算的結(jié)果為損失值向量,yt,i表示輸入樣本xi經(jīng)神經(jīng)網(wǎng)絡(luò)函數(shù)預(yù)測(cè)的類別為t,ft,i是神經(jīng)網(wǎng)絡(luò)模型函數(shù)預(yù)測(cè)樣本xi屬于類別t的概率;
13、步驟2.3:使用微分函數(shù)來計(jì)算各樣本各維度關(guān)于損失值向量下的梯度,計(jì)算公式如下:
14、
15、式(2)可以得到樣本xi在維度j下的梯度;
16、步驟2.4:將樣本各維度梯度與該維度的權(quán)重向量的乘積進(jìn)行累加運(yùn)算,得到該樣本的總梯度值,其計(jì)算公式如下:
17、
18、其中,表示樣本xi在第j個(gè)特征維度的偏導(dǎo)數(shù),p為樣本的維度數(shù)量,wi,j表示第j個(gè)特征維度的權(quán)重;
19、步驟2.5:將各樣本各自的總梯度值與影響度閾值進(jìn)行比較,大于影響度閾值的樣本作為過采樣的初始樣本。
20、進(jìn)一步的,合成新樣本插入到需要過采樣的樣本所屬樣本集的流程具體為:
21、步驟3.1:選定某個(gè)樣本,利用k近鄰算法評(píng)估樣本之間的相似性,計(jì)算式如下:
22、
23、其中,a、b分別表示同一樣本類別中的任意兩個(gè)樣本,n在此處是表示樣本的特征維度,ai、bi是a、b第i個(gè)維度;
24、步驟3.2:得到距離被選定樣本最近的k個(gè)鄰近樣本;k為預(yù)先確定的整數(shù);
25、步驟3.3:使用隨機(jī)插值的方式,在被選定樣本和其k個(gè)鄰近樣本之間合成新樣本;
26、假定被選定樣本為xi,對(duì)于其中的某個(gè)近鄰樣本xj,合成新的樣本的公式為:
27、
28、其中,是隨機(jī)生成的權(quán)重,xsij表示在樣本xi和xj之間進(jìn)行插值生成的新樣本。
29、進(jìn)一步的,k的取值為3或5。
30、進(jìn)一步的,在合成新樣本插入到需要過采樣的樣本所屬樣本集合中的流程執(zhí)行完后,還需要執(zhí)行過濾合成樣本的流程。
31、進(jìn)一步的,過濾合成樣本的具體方法為:
32、步驟3.1:計(jì)算出各合成樣本的預(yù)測(cè)標(biāo)簽和實(shí)際標(biāo)簽的關(guān)系;
33、步驟3.2:計(jì)算各個(gè)合成樣本各維度關(guān)于損失值向量的梯度;
34、步驟3.3:對(duì)各合成樣本各維度梯度進(jìn)行累加計(jì)算,并乘以合成樣本的權(quán)重向量,得到該合成樣本的總梯度值;
35、步驟3.4:將各個(gè)合成樣本的總梯度值與影響度閾值進(jìn)行比較,過濾掉總梯度值不滿足預(yù)定要求的合成樣本。
36、本發(fā)明的技術(shù)效果為:
37、1.采用影響函數(shù)計(jì)算模型實(shí)現(xiàn)了初始樣本的選擇和合成樣本的過濾;使用樣本過采樣算法對(duì)少數(shù)類樣本進(jìn)行過采樣,增加少數(shù)類樣本數(shù)據(jù)的數(shù)量。
38、2.提供了一種全新的影響度計(jì)算模型,通過計(jì)算模型的損失和梯度,結(jié)合樣本權(quán)重,對(duì)樣本進(jìn)行過濾,降低噪聲樣本影響和過擬合現(xiàn)象。提高模型的泛化能力和分類能力。
1.一種基于樣本重要性的不平衡數(shù)據(jù)過采樣方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的基于樣本重要性的不平衡數(shù)據(jù)過采樣方法,其特征在于,確定少數(shù)樣本集中需要進(jìn)行過采樣的樣本的流程所包含的步驟為:
3.如權(quán)利要求2所述的基于樣本重要性的不平衡數(shù)據(jù)過采樣方法,其特征在于,合成新樣本插入到需要過采樣的樣本所屬樣本集的流程具體為:
4.如權(quán)利要求3所述的基于樣本重要性的不平衡數(shù)據(jù)過采樣方法,其特征在于,k的取值為3或5。
5.如權(quán)利要求1~4任一項(xiàng)所述的基于樣本重要性的不平衡數(shù)據(jù)過采樣方法,其特征在于,在合成新樣本插入到需要過采樣的樣本所屬樣本集合中的流程執(zhí)行完后,還需要執(zhí)行過濾合成樣本的流程。
6.如權(quán)利要求5所述的基于樣本重要性的不平衡數(shù)據(jù)過采樣方法,其特征在于,過濾合成樣本的具體方法為: