国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      適用于支持向量機訓練的不平衡樣本加權(quán)方法

      文檔序號:6639623閱讀:252來源:國知局
      適用于支持向量機訓練的不平衡樣本加權(quán)方法
      【專利摘要】本發(fā)明主要用于人工智能領(lǐng)域,涉及一種適用于支持向量機訓練的不平衡樣本加權(quán)方法。本發(fā)明利用聚類和費歇爾判別率準則對冗余數(shù)據(jù)約減,然后計算約減后的數(shù)據(jù)樣本到模糊分類面的距離,根據(jù)這個距離來賦予相應的權(quán)值,然后用這些加權(quán)后的數(shù)據(jù)樣本進行支持向量機的訓練。本發(fā)明針對傳統(tǒng)的支持向量機在處理大數(shù)據(jù)集或不平衡數(shù)據(jù)樣本上仍有需要改進和提高的地方,本發(fā)明就提出了一種新的算法,在已約減的大樣本數(shù)據(jù)上再進行相應的加權(quán),以此來用于支持向量機的訓練學習,不僅提高了支持向量機的訓練速度,而且還提高了其分類精度,這對于大樣本的數(shù)據(jù)集的分類是大有裨益的。
      【專利說明】適用于支持向量機訓練的不平衡樣本加權(quán)方法

      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明主要用于人工智能領(lǐng)域,尤其是模式識別方面的技術(shù),涉及基于聚類和費 歇爾判別率的冗余數(shù)據(jù)約減以及對不平衡樣本進行加權(quán)的方法,特別是一種適用于支持向 量機訓練的不平衡樣本加權(quán)方法。

      【背景技術(shù)】
      [0002] 數(shù)據(jù)分類一直是模式識別等人工智能領(lǐng)域的重要應用分支,被大量使用在字符識 另IJ、人臉檢測識別等方面?,F(xiàn)在已有的多種分類技術(shù)有判決樹方法,神經(jīng)網(wǎng)絡方法以及支持 向量機方法等,支持向量機方法因其科學的統(tǒng)計學習的理論基礎(chǔ),逐漸的發(fā)展成為當前使 用最普遍、分類效果最為突出的分類器。針對大量的不平衡的數(shù)據(jù)樣本的分類,傳統(tǒng)的支持 向量機不能得到很好的分類性能,支持向量機的學習速度太慢,于是研宄學者們提出了一 些方法,主要分為兩類:1.將原二次規(guī)劃問題分解成若干子二次規(guī)劃問題。例如由Cortes 和Vapnik提出的分塊算法(Chunking),Osuna提出的分解算法,以及Platt提出的序列最 小化(Sequential Minimal Optimization,簡稱SM0)算法和由Keerthi等人提出的改進之 后的SMO算法等。2.從原大樣本數(shù)據(jù)集中選擇一小部分具有代表性的樣本參與訓練學習, 以此來減少訓練樣本點數(shù)量。例如Lee和Mangasarian提出來的利用隨機采樣技術(shù)對訓練 數(shù)據(jù)集進行隨機采樣的約減SVM(即RSVM)的方法以及Tsang等人提出的對最小封閉球取 樣的中心向量機算法等。盡管以上算法在一定程度上加快了支持向量機的訓練速度,但在 處理現(xiàn)實世界中的不平衡數(shù)據(jù)集時,因其選擇的具有代表性的子樣本集并不能準確代表原 始樣本集的分布情況,且對所有參與訓練的樣本數(shù)據(jù)都采用了相同的權(quán)重進行學習,致使 分類精度有所降低。所以如何提升對不平衡數(shù)據(jù)集訓練的分類性能得到了關(guān)注,Lin等人在 2002年提出了一種模糊支持向量機(即Fuzzy SVM,F(xiàn)SVM)算法,該算法為所有樣本都設置 了一個模糊隸屬度值,使得各個樣本對最優(yōu)分類面的訓練的貢獻程度不同;Wu和Wang提出 了一種依據(jù)樣本數(shù)據(jù)到由隨機選擇的樣本子集訓練得到的最優(yōu)分類面的距離為樣本加權(quán) 的策略,該方法旨在反映每個樣本的重要性和改進支持向量機訓練過程;Nguyen,Phung和 Bouzerdoum提出了結(jié)合無監(jiān)督學習和有監(jiān)督學習,只使用所有的聚類中心作為訓練支持向 量機的樣本,并用與各個聚類中心所屬類樣本數(shù)量成比例和所屬聚類樣本數(shù)量成比例的兩 種策略為訓練樣本加權(quán)。
      [0003] 雖然上面提到的算法在傳統(tǒng)支持向量機方法上做了很大的改進,在處理大數(shù)據(jù)和 不平衡數(shù)據(jù)上體現(xiàn)了各自的優(yōu)勢,但忽視了訓練數(shù)據(jù)集中只有處于最終的分類決策面附近 的外層數(shù)據(jù)樣本才可能成為支持向量,而其余的樣本大多在訓練支持向量機的時候起到的 作用很微小或者沒有,為這些實際意義可以忽略的的冗余數(shù)據(jù)進行加權(quán)是一種空間和時間 上的浪費。本文從冗余數(shù)據(jù)約減和為不平衡樣本數(shù)據(jù)分配不同的權(quán)重的角度出發(fā),提出了 一種新的算法,旨在提高支持向量機對不平衡大數(shù)據(jù)集的訓練速度和分類精度。


      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明所要解決技術(shù)問題是,提供一種能夠提高支持向量機的訓練速度,并能提 高其分類精度,有利于大樣本數(shù)據(jù)集分類的適用于支持向量機訓練的不平衡樣本加權(quán)方 法。
      [0005] 本發(fā)明適用于支持向量機訓練的不平衡樣本加權(quán)方法如下:
      [0006] 步驟一:設訓練樣本數(shù)據(jù)為 TD= {(屯山)I Cli ER1UiE {l,...,S},i = l,...,N}; 屯是η維實向量空間Rn上的樣本數(shù)據(jù)對象,L i是樣本數(shù)據(jù)對象d i的類別標簽;訓練樣本 數(shù)據(jù)集合TD中共有N個樣本數(shù)據(jù)對象,這些樣本數(shù)據(jù)對象分屬于S個類別;用K均值聚 類算法將訓練樣本集中N個樣本數(shù)據(jù)對象數(shù)據(jù)聚類成K個子類,所得子類為T = {T。I c = 1,...,K};根據(jù)得到的K個子類中樣本數(shù)據(jù)對象相應的類別分布情況,將這K個子類分為樣 本數(shù)據(jù)對象只含一種類別的純子類UT = Iutj I j = 1,...,P,1彡P(guān)彡K}和包含兩種或以上 類別的混合子類MT = Imtq I q = I,. . .,K-P},K是UT和MT的并集,即有K = UT U MT。將 MT中每個混合子類中的樣本數(shù)據(jù)對象按其相應類別再劃分為多個純子類,第a個混合子類 MTa有兩個類別的樣本數(shù)據(jù)對象,將其再分為兩個純子類,設K-P個混合子類中還有WC個純 子類即UMT = {umtb I b = 1,. . .,WC},這樣最終得到P+W個純子類集合X = UT U UMT。
      [0007] 步驟二:計算集合X上每個純子類的聚類中心,設X集合上第g個純子集的樣本數(shù) 據(jù)集合為{d g,h|h = 1,. . .,m},dg,h為訓練樣本數(shù)據(jù)集合TD經(jīng)聚類后在X集合的第g個子 集上的樣本數(shù)據(jù),設該類樣本有m個樣本數(shù)據(jù)對象且每個樣本數(shù)據(jù)對象的類別標簽都是S h, m 則聚類中心Gh=' Σ?/λ,通過X集合上P+WC個聚類中心及相應的類別標簽組成集合GS = h^l {(Ge,Se) |Se e {1,...,S},e = 1,...P+WC},然后使用Iibsvm來訓練這些類中心,從而得 到相應的模糊分類面f(x) = wTx+C,X是模糊分類面上的支持向量,w是根據(jù)訓練得到的模 糊分類面上支持向量的權(quán)重,c是偏移量;當f(x)>〇時,表示樣本數(shù)據(jù)對象屬于某一類,當 f(x)〈〇時,則屬于另一類,f(x) = 0時,則表示無法判斷樣本數(shù)據(jù)對象屬于任何一類;支持 向量機被設計為兩類問題的分類,當樣本有S個類別時,采用一對一的兩兩分類訓練得到 S (S-I)/2個模糊分類面,對任意一類樣本集合,其模糊分類面都為S-I個。
      [0008] 步驟三:考慮到UMT集合比較靠近分類面,所以其純子類包含支持向量的概率較 大,而由K均值(K-Means)聚類得到的純子類集合UT-般距離分類面較遠,其包含支持向 量的概率較小。本發(fā)明采用類最大最小距離方法對純子類集合UT進行遴選,從其中找到離 分類面較遠的某些純子類,將這些純子類看作是不包含支持向量的,刪除這些子類以減少 集合X中所包含的對訓練作用不大的樣本數(shù)據(jù),得到集合X上約減純類集合后的子集RX^
      [0009] 步驟四:利用費歇爾判別法對遴選后得到的純子類集合RX1繼續(xù)消除子類內(nèi)層冗 余數(shù)據(jù),得到樣本數(shù)據(jù)集RX 2,假設1?2中剩下了 M個子類集合。
      [0010] 步驟五:計算步驟四當中的樣本數(shù)據(jù)集1?2中各個數(shù)據(jù)對象到模糊分類面的距離 Clisi,然后依照樣本加權(quán)公式Vi= (1+dis O' i = 1,. . .,M ;其中\(zhòng)^是相應的權(quán)值,z是經(jīng) 過試驗后得到的一個取值在1. 0-1. 2之間的一個變量;對1?2中剩下的M個子類中所有的數(shù) 據(jù)對象根據(jù)到模糊分類面的遠近分配相應的權(quán)值V i,經(jīng)過加權(quán)之后的樣本數(shù)據(jù)集合1?2最 后變?yōu)槲覀冏罱K用來訓練的樣本數(shù)據(jù)集RX3。
      [0011] 步驟六:對最后保留下來的樣本數(shù)據(jù)集RX3進行SVM訓練,就可以得到最終的支持 向量。
      [0012] 其中步驟三中從集合X上得到約減的純子類集合RX1S程如下:
      [0013] Al:從類別標簽SY = 1開始,選擇UMT中屬于同一類別標簽的若干子集合,UMTsy =={umtxi|xi = 1,...,Xxi}表示該子集合中所有樣本數(shù)據(jù)對象的類別標簽均為SY ;計算 子集合的某個子集如Umtxi中每個樣本數(shù)據(jù)對象到步驟二中得到的S-I個模糊分類面的最 近距離;設子集合Umt xi中的第Z個樣本數(shù)據(jù)對象為d xi, z,其到模糊分類面的最近距離為 |^11乃〇?公)11,其中||:^。((1!£:^)||是樣本數(shù)據(jù)對象(1!£:^到第」〇個模糊分類面的距離,||¥| 是權(quán)重W的距離,本發(fā)明使用的距離都是歐式距離 % ,w# η維向量W的第Q個 NI Kg=I 分量,取Umtxi*全部樣本數(shù)據(jù)對象到模糊分類面的極大值作該類別標簽SY的類最大距離, 設該距離為DistMaxSY;
      [0014] A2:對于純子類集合UT,選擇該集合里所有類別標簽均為SY的子集合,UTsy = {utti|ti = 1,· ··,HtJ,設該子集合上有Hti個純子類,從ti = 1開始,選取集合UTSY>f的一 個純子類Utti,計算該子類中每一個樣本數(shù)據(jù)對象到S-I個模糊分類面的距離,選取所有樣 本數(shù)據(jù)對象中到模糊分類面距離的極小值作為該子類到模糊分類面的距離記為DistMin ti; 此時如判斷DistMinti>DistMaxSY,說明^^子集合中純子類ut ti所包含的樣本數(shù)據(jù)距離模 糊分類面遠,則舍棄Utti,否則應該保留Ut ti;
      [0015] A3:使ti遞增1,并重復A2直到ti =Hti+l,表明集合UTsy中所有的子集都已完 成約減的過程;
      [0016] A4 :將SY遞增,然后選擇下一個類別標簽從Al開始繼續(xù)執(zhí)行,直到SY = S+1,表 明集合UT中所有子集都已完成約減的過程;
      [0017] A5:返回剩余子類和其包含的樣本數(shù)據(jù)集合,設UT中保留了 F個純子類,則最終的 樣本集合包含F(xiàn)+W個純子類,S卩有RX1= {ut ^ . . .,utF, Umt1, . . .,umtw}。
      [0018] 步驟四中利用費歇爾判別法對遴選后的純子類集合RX1進一步消除子類內(nèi)層冗余 數(shù)據(jù),得到樣本數(shù)據(jù)集RX 2的過程如下:
      [0019] BI JAsi= 1開始,選取集合RX1中的一個子類,選擇第S A子類為RXisi和其 相應的樣本數(shù)據(jù)對象集合TDsi,計算該子類中每個樣本對象到該類的聚類中心G si的距離 并排序,設該類樣本數(shù)據(jù)對象有mSi個,得到第S i個子類排序后的距離集合為{dis dx I dx = 1,. . .,mSi},了心按照次距離進行排序后所對應的樣本數(shù)據(jù)對象集為STD si= {std f I e = I,· · ·,rns i};
      [0020] B2:以每個排序的樣本數(shù)據(jù)對象作為參照,記錄小于該樣本數(shù)據(jù)對象到聚類中心 距離內(nèi)的樣本數(shù)據(jù)對象的個數(shù),得到該樣本數(shù)據(jù)對象到聚類中心距離上的樣本密度,設排 序?qū)ο髎tduiSi,其密度為denSui=U1^^,該子類上所有樣本數(shù)據(jù)對象的樣本數(shù)據(jù)密度集 合為 Dens = {densui I ui = 1,· · ·,mSi};
      [0021 ] B3 :設參數(shù)A = 1,AD = In,Dmin= I,D max= m si,AD為迭代的次數(shù),In是設走值,子 類中樣本數(shù)據(jù)量越大,In越大出^和Dniax規(guī)定了樣本數(shù)據(jù)密度集合Dens上應用費歇爾判 別率的取值范圍,即在dis Dmin到disDmax距離范圍內(nèi)的樣本數(shù)據(jù)密度子集中計算費歇爾判別 率的值;
      [0022] B4 :若A〈AD,則表明迭代沒有結(jié)束,繼續(xù)執(zhí)行B5,否則轉(zhuǎn)到B8 ;
      [0023] B5 :確定當前步長len,其中1en ?在disDmin到dis DmJ?離范圍內(nèi) (Dmax ~ Dmin +1)奶-入 的樣本數(shù)據(jù)密度子集中,以Ien計算對應距離上的樣本數(shù)據(jù)密度集合Dens的費歇爾判別率 值Fis= {f gi |gi = l,...,J},J= (Dmax-Dmin)/Ien,在第q個步長上,將樣本數(shù)據(jù)密度集合 Dens在disDmin到dis DmaJii離上分成兩個子集合,分別為B = {dens i,· · ·,densD-giH^J和 C = {densDmin+gi*len,…,densmSi},根據(jù)費歇爾判別率 fgi= ( μ「μ j)2/( δ「δ J2,其中 μ i 是集合B上樣本數(shù)據(jù)密度的均值,Si是集合B上樣本數(shù)據(jù)密度的均方差,μ是集合C上 樣本數(shù)據(jù)密度的均值,P是集合C上樣本數(shù)據(jù)密度的均方差,f gi是第gi個步長上將樣本 數(shù)據(jù)密度集合Dens分成B和C兩個子集后得到的費歇爾判別率的值;
      [0024] B6 :選擇集合Fis上最大的兩個費歇爾判別率的值,得到其對應的排序距離,設為 dismi,dismj,設mi〈mj,將這兩個排序距離的位置mi和mj各自賦給Dmil^P Dmax;
      [0025] B7 :使A遞增1,然后轉(zhuǎn)到繼續(xù)從B4開始執(zhí)行;
      [0026] B8 :將當前排序距離disDmax閥值,去掉樣本數(shù)據(jù)集合RXlsi中所有列到該聚類中 心距離小于dis DmaJ^樣本數(shù)據(jù)對象,保留排序距離集合RD Si= {dis Dmax,. . .,dismi};
      [0027] B9 :使Si遞增1,然后跳轉(zhuǎn)到B2繼續(xù)處理RX i中下一個子類,直到S i = F+W+l,表 明所有的子類處理完畢;
      [0028] BlO :將余下的樣本數(shù)據(jù)集記作RX2= {RD Si}。
      [0029] 本發(fā)明針對傳統(tǒng)的支持向量機在處理大數(shù)據(jù)集或不平衡數(shù)據(jù)樣本上仍有需要改 進和提高的地方,本發(fā)明就提出了一種新的算法,在已約減的大樣本數(shù)據(jù)上再進行相應的 加權(quán),以此來用于支持向量機的訓練學習,不僅提高了支持向量機的訓練速度,而且還提高 了其分類精度,這對于大樣本的數(shù)據(jù)集的分類是大有裨益的。

      【專利附圖】

      【附圖說明】
      [0030] 圖1是本發(fā)明實施例經(jīng)過步驟一得到的樣本數(shù)據(jù)分布圖;
      [0031] 圖2是本發(fā)明實施例經(jīng)過步驟二,三約減冗余子類后的樣本數(shù)據(jù)分布圖;
      [0032] 圖3是本發(fā)明實施例經(jīng)過步驟四得到約減子類內(nèi)部數(shù)據(jù)的數(shù)據(jù)示意圖;
      [0033] 圖4是本發(fā)明實施例經(jīng)過步驟五,六后得到約減后經(jīng)過加權(quán)的數(shù)據(jù)并經(jīng)過訓練得 到最終分類面的示意圖。

      【具體實施方式】
      [0034] 根據(jù)上面的具體步驟,結(jié)合圖1-3,下面給出本發(fā)明的一個具體的實施示例。
      [0035] 圖1是經(jīng)過步驟一進行K均值聚類,令K = 6,可得到6個子類,該樣本數(shù)據(jù)表示的 是兩種類別的數(shù)據(jù),其中正方形代表一類,圓形代表另一類。T = ITi I i = 1,...,6},某一類 別的數(shù)據(jù)使用橢圓虛線包圍。對應得到的6個子類,按照其含數(shù)據(jù)對象相對應的類別的分 布情況,將這6個子類分為僅包含單一類別的純子類記作UT= {T2, T4, T5, T6}和子類包含兩 個或以上多個類別的混合子類MT = {1\,Τ3}。將MT中每個混合子類進一步劃分為多個純子 類,記作 UMT = {T1A,T1B,T3A,T3B},得到 8 個純子類記集合 X = {T2, T4, T5, T6, T1A,T1B,T3A,T3B} 〇
      [0036] 圖2代表使用步驟二,三對集合X進行約減冗余子類后的結(jié)果圖:
      [0037] Al :計算集合X上每個純子類的聚類中心,在圖2中用三角形代表。利用集合X 上得到的7個聚類中心及集合X上純子類所對應的類別記作{(C1A,I) (C1B,2) (C2, I) (C4, 2) (C5, 2) (C3A,I) (C3B,2)},(^表示集合X上第i個子類的聚類中心,I代表正方形樣本數(shù)據(jù),2 代表圓形樣本數(shù)據(jù)。然后對這些樣本數(shù)據(jù)使用LIBSVM工具訓練得到模糊分類面。在圖2 里,用實直線表示該模糊分類面,圖2中兩條虛直線附近的聚類中心則代表到模糊分類面 最近的支撐向量。因為樣本數(shù)據(jù)只有兩類,所以對任意類別的樣本數(shù)據(jù),得出的分類面只有 1個。
      [0038] A2 :從類別標簽SY= 1開始,即為正方形的數(shù)據(jù)子集,選取UMT中屬于同一類別標 簽的SY的子集合,在圖2中為UMT1= {T 1A,T3J,再計算每子集Tia和T 3A中每個數(shù)據(jù)對象到 模糊分類面的最近距離,選取子集Tia和T 3A中所有數(shù)據(jù)對象到模糊分類面的極大值記作該 子集的距離。然后以Tia和T 3A中距離的極大值作為UMT 1類的類最大距離,假設該距離在圖 2 中為 DistMaxltj
      [0039] A3 :在純子類集合UT中,選取類別標簽也為SY的子集合,即選取集合UT1= {T2} 即為正方形數(shù)據(jù)的子集。
      [0040] Α4:從子類T2開始,計算子類1~2中每個數(shù)據(jù)對象到模糊分類面的距離,然后選擇全 部數(shù)據(jù)對象到模糊分類面距離的極小值作為子類T 2到模糊分類面的距離,不妨設該距離為 DistMinT2。由于DistMinT2〈DiStMax1,則表示子類T 2中可能存在支持向量,那么就保留子類 T2。
      [0041] A5 :由于^\中只有一個子類,所以繼續(xù)使SY加1,選取下一個類別標簽,此時SY =2,代表圓形的數(shù)據(jù)子集,轉(zhuǎn)到A2繼續(xù)執(zhí)行,直到SY = 3為止。
      [0042] 經(jīng)過以上處理,我們棄掉了距離模糊分類面較遠的T6子類,然后得到了剩余子類 及其所含樣本數(shù)據(jù)集合 RX1, RX1= {T 2, T4, T5, T1A,T1B,T3A,T3B} 〇
      [0043] 圖3代表使用了步驟四進一步約減子類中內(nèi)部冗余數(shù)據(jù)。在圖3中,RX1*每個子 類刪除的內(nèi)層冗余數(shù)據(jù)用實線圓圈出。實線圓和虛線橢圓之間包含的數(shù)據(jù)為約減后的剩余 數(shù)據(jù)集RX 2。
      [0044] 其中,使用步驟四對RX1集合進一步去除子類內(nèi)層冗余數(shù)據(jù),得到待加權(quán)的數(shù)據(jù)集 RX2的過程如下:
      [0045] Bl :從集合RX1的子類T 2開始,計算該子類T 2中每個數(shù)據(jù)對象到該子類的聚類中 心的距離di Sdx。在圖3中,子類1~2有25個數(shù)據(jù)對象,對這些距離進行排序,得到第子類T 2排 序后的距離集合記作{disdx|dx= 1,. ..,25}和對應的數(shù)據(jù)對象集合記作STDsi= {stdeSl |e 1,···,25}〇
      [0046] Β2:以每個排序的數(shù)據(jù)對象為參考,統(tǒng)計不大于該數(shù)據(jù)對象到聚類中心距離的數(shù) 據(jù)對象個數(shù),從而計算出該數(shù)據(jù)對象到聚類中心距離上的數(shù)據(jù)密度。子類T 2的數(shù)據(jù)密度集 合為 Dens = {densui I ui = 1,. . .,25} 〇
      [0047] B3 :可以設定參數(shù)A = 1,AD = In, Dmin= 1,Dmax= msi。鑒于圖3的子類數(shù)據(jù)較少, 故可設置AD = 2,即只迭代一次。msi是子類所擁有數(shù)據(jù)對象的個數(shù),在T 2中,該數(shù)值為25, 表示對該子類中所有數(shù)據(jù)密度集合計算其費歇爾判別率值。
      [0048] B4 :如果A〈AD,則表明迭代沒有結(jié)束,繼續(xù)執(zhí)行步驟B5 ;否則跳轉(zhuǎn)到步驟I。 -| _ Dmax-Dmin+1
      [0049] B5 :確定當前步長len,其中1en 因為圖3的數(shù)據(jù)量小,len = 1。 (Dmax- Drnin+1) AD-A 在diSftnilJlj diSltaax距離范圍內(nèi)的樣本數(shù)據(jù)密度子集中,以Ien計算對應距離上的樣本數(shù)據(jù) 密度集合Dens的費歇爾判別率值Fis = {fgi I gi = 1,. . .,J}在子類1~2中J = 24。
      [0050] B6 :選擇集合Fis上最大的兩個費歇爾判別率的值,得到其對應的排序距離,假設 為dismi,dis mj (設mi〈mj),將這兩個排序距離的位置mi和mj各自賦給Dmil^P Dmax。
      [0051] B7:使A加1,然后跳到過程M繼續(xù)執(zhí)行。
      [0052] B8 :以當前排序距離disDmax為閾值,去掉數(shù)據(jù)對象集合RXisi中全部到該子類聚類 中心距離小于dis Dmax的數(shù)據(jù)對象。在圖3中,每個子類中實圓圈內(nèi)的數(shù)據(jù)對象即為要去掉 的數(shù)據(jù)對象,那些在實線圓和虛線橢圓之間的數(shù)據(jù)對象即為子類該保留下來的數(shù)據(jù)對象。
      [0053] B9 :跳轉(zhuǎn)到步驟B1,處理集合RX1中的下一個子類1\,直到所有子類都已處理完 畢。
      [0054] BlO :將保留下來的數(shù)據(jù)集合組成集合RX2, RX2= {T 2", T4",T5",T1A",T1B",T 3A",T3B" }作為要用來加權(quán)的數(shù)據(jù)集合。
      [0055] 在圖4中,經(jīng)過步驟五,六對RX2的數(shù)據(jù)集中的所有數(shù)據(jù)對象根據(jù)到模糊分類面的 距離分配相應的權(quán)值V i,得到加權(quán)之后的數(shù)據(jù)集RX3,并使用RX3數(shù)據(jù)集訓練得到的最終分 類面用直線表示。
      [0056] 其中,步驟五中對數(shù)據(jù)集RX3進行加權(quán)的策略如下:
      [0057] Cl :從Si= 1開始,計算數(shù)據(jù)集RX 2中第S i個子類T 2"中所有的數(shù)據(jù)對象到模糊 分類面的距離{disdx |dx= 1,...,11}和對應的數(shù)據(jù)對象集合記作STDsi= {stdeSl |e = 1,. . .,11}。此時T2"中的數(shù)據(jù)對象為11個。
      [0058] C2 :依照子類T2"中所有的數(shù)據(jù)對象到模糊分類面的距離Clisdj^值排序,根據(jù)樣 本加權(quán)公式V i= (l+disdxrz,dx= 1,...,M,賦予相應的權(quán)值Vp
      [0059] C3:然后使SiW 1,繼續(xù)繼續(xù)處理RX2中下一個子類,直到所有的子類加權(quán)完畢,即 可得到最終的數(shù)據(jù)集rx3。
      [0060] 表一原始數(shù)據(jù)
      [0061]

      【權(quán)利要求】
      1. 一種適用于支持向量機訓練的不平衡樣本加權(quán)方法,其特征是:步驟如下: 步驟一:設訓練樣本數(shù)據(jù)為TD= {(屯山)IdiER1UiE{l,...,s},i= 1,···,Ν}Wi 是η維實向量空間Rn上的樣本數(shù)據(jù)對象,Li是樣本數(shù)據(jù)對象di的類別標簽;訓練樣本數(shù)據(jù) 集合TD中共有N個樣本數(shù)據(jù)對象,這些樣本數(shù)據(jù)對象分屬于S個類別;用K均值聚類算法將 訓練樣本集中N個樣本數(shù)據(jù)對象數(shù)據(jù)聚類成K個子類,所得子類為T=ITcJc= 1,...,K}; 根據(jù)得到的K個子類中樣本數(shù)據(jù)對象相應的類別分布情況,將這K個子類分為樣本數(shù)據(jù)對 象只含一種類別的純子類UT=IutjIj= 1,...,Ρ,1彡P(guān)彡Κ}和包含兩種或以上類別的 混合子類MT=ImtqIq= 1,…,K-P},K是UT和MT的并集,即有K=UTUMT;將MT中每 個混合子類中的樣本數(shù)據(jù)對象按其相應類別再劃分為多個純子類,第a個混合子類]\0;有 兩個類別的樣本數(shù)據(jù)對象,就將其再分為兩個純子類,設K-P個混合子類中還有WC個純子 類即UMT= {umtbIb= 1,. . .,WC},最終得到P+W個純子類集合X=UTUUMT; 步驟二:計算集合X上每個純子類的聚類中心,設X集合上第g個純子集的樣本數(shù)據(jù) 集合為{dg,h|h= 1,. . .,m},dg,h為訓練樣本數(shù)據(jù)集合TD經(jīng)聚類后在X集合的第g個子集 上的樣本數(shù)據(jù),設該類樣本有m個樣本數(shù)據(jù)對象且每個樣本數(shù)據(jù)對象的類別標簽都是Sh, m 則聚類中心Gh=^Σ&,通過X集合上P+WC個聚類中心及相應的類別標簽組成集合GS= {(Ge,Se)|See{1,...,S},e= 1,...P+WC},然后使用Iibsvm來訓練這些類中心,從而得 到相應的模糊分類面f(x) =wTx+C,X是模糊分類面上的支持向量,w是根據(jù)訓練得到的模 糊分類面上支持向量的權(quán)重,c是偏移量;當f(x)>〇時,表示樣本數(shù)據(jù)對象屬于某一類,當 f(x)〈〇時,則屬于另一類,f(x) =O時,則表示無法判斷樣本數(shù)據(jù)對象屬于任何一類;支持 向量機被設計為兩類問題的分類,當樣本有S個類別時,采用一對一的兩兩分類訓練得到 S(S-I)/2個模糊分類面,對任意一類樣本集合,其模糊分類面都為S-I個; 步驟三:采用類最大最小距離方法對純子類集合UT進行遴選,從其中找到離分類面較 遠的某些純子類,將這些純子類看作是不包含支持向量的,刪除這些子類以減少集合X中 所包含的對訓練作用不大的樣本數(shù)據(jù),得到集合X上約減純類集合后的子集RX1; 步驟四:利用費歇爾判別法對遴選后得到的純子類集合RX1繼續(xù)消除子類內(nèi)層冗余數(shù) 據(jù),得到樣本數(shù)據(jù)集RX2,假設1?2中剩下了M個子類集合; 步驟五:計算步驟四當中的樣本數(shù)據(jù)集1?2中各個數(shù)據(jù)對象到模糊分類面的距離disi, 然后依照樣本加權(quán)公式\= (1+disΟΛi= 1,. ..,M;其中\(zhòng)^是相應的權(quán)值,z是經(jīng)過試驗 后得到的一個取值在1. 0-1. 2之間的一個變量;對1?2中剩下的M個子類中所有的數(shù)據(jù)對 象根據(jù)到模糊分類面的遠近分配相應的權(quán)值Vi,經(jīng)過加權(quán)之后的樣本數(shù)據(jù)集合RX2最后變 為最終用來訓練的樣本數(shù)據(jù)集RX3; 步驟六:對最后保留下來的樣本數(shù)據(jù)集RX3進行SVM訓練,就可以得到最終的支持向 量。
      2. 根據(jù)權(quán)利要求1所述的適用于支持向量機訓練的不平衡樣本加權(quán)方法,其特征是: 其步驟三中從集合X上得到約減的純子類集合RX1S程如下: Al:從類別標簽SY= 1開始,選擇UMT中屬于同一類別標簽的若干子集合,UMTsy = =Iumtxi|xi= 1,...,Xxi}表示該子集合中所有樣本數(shù)據(jù)對象的類別標簽均為SY;計算子 集合的某個子集如umtxi中每個樣本數(shù)據(jù)對象到步驟二中得到的S-I個模糊分類面的最 近距離;設子集合Umtxi中的第Z個樣本數(shù)據(jù)對象為dxi, z,其到模糊分類面的最近距離為 ^ΙΙ./)(Μ^?)ΙΙ,其中I|fj()(dxi,z)II是樣本數(shù)據(jù)對象dxi,z到第j〇個模糊分類面的距離,I|w| 是權(quán)重W的距離,使用的距離都是歐式距離IMI' ,%是η維向量W的第Q個分量, 取umtxi*全部樣本數(shù)據(jù)對象到模糊分類面的極大值作該類別標簽SY的類最大距離,設該 距離為DistMaxSY; A2:對于純子類集合UT,選擇該集合里所有類別標簽均為SY的子集合,UTsy={uttiIti=1,...,HtJ,設該子集合上有Hti個純子類,從ti= 1開始,選取集合UTsy中的一個純子 類Utti,計算該子類中每一個樣本數(shù)據(jù)對象到S-I個模糊分類面的距離,選取所有樣本數(shù)據(jù) 對象中到模糊分類面距離的極小值作為該子類到模糊分類面的距離記為DistMinti;此時 如判斷DistMinti>DistMaxSY,說明^^子集合中純子類uttiK包含的樣本數(shù)據(jù)距離模糊分 類面遠,則舍棄Utti,否則應該保留Utti; A3 :使ti遞增1,并重復A2直到ti=Hti+1,表明集合UTsy中所有的子集都已完成約 減的過程; A4 :將SY遞增,然后選擇下一個類別標簽從Al開始繼續(xù)執(zhí)行,直到SY=S+1,表明集 合UT中所有子集都已完成約減的過程; A5 :返回剩余子類和其包含的樣本數(shù)據(jù)集合,設UT中保留了F個純子類,則最終的樣本 集合包含F(xiàn)+W個純子類,即有RX1={utp…,utF,Umt1,…,umtw}。
      3.根據(jù)權(quán)利要求1所述的適用于支持向量機訓練的不平衡樣本加權(quán)方法,其特征是: 步驟四中利用費歇爾判別法對遴選后的純子類集合!《^進一步消除子類內(nèi)層冗余數(shù)據(jù),得 到樣本數(shù)據(jù)集RX2的過程如下: BIJASi= 1開始,選取集合RX1中的一個子類,選擇第Sif子類為RXisi和其相應的樣 本數(shù)據(jù)對象集合TDsi,計算該子類中每個樣本對象到該類的聚類中心Gsi的距離并排序,設 該類樣本數(shù)據(jù)對象有mSi個,得到第Si個子類排序后的距離集合為{disdxIdx= 1,. . .,mSi}, 了^按照次距離進行排序后所對應的樣本數(shù)據(jù)對象集為STDsi={stdeSiIe= 1,· · ·,mSi}; B2 :以每個排序的樣本數(shù)據(jù)對象作為參照,記錄小于該樣本數(shù)據(jù)對象到聚類中心距離 內(nèi)的樣本數(shù)據(jù)對象的個數(shù),得到該樣本數(shù)據(jù)對象到聚類中心距離上的樣本密度,設排序?qū)? 象stduiSi,其密度為densul=ui一:""2.,該子類上所有樣本數(shù)據(jù)對象的樣本數(shù)據(jù)密度集合為 Dens= {densuiIui= 1,…,mSi}; B3 :設參數(shù)A= 1,AD=In,Dmin= 1,Dmax=mSi,AD為迭代的次數(shù),1"是設定值,子類中 樣本數(shù)據(jù)量越大,In越大Aniil^PDniax規(guī)定了樣本數(shù)據(jù)密度集合Dens上應用費歇爾判別率 的取值范圍,即在disDmin到disDmax距離范圍內(nèi)的樣本數(shù)據(jù)密度子集中計算費歇爾判別率的 值; B4 :若A〈AD,則表明迭代沒有結(jié)束,繼續(xù)執(zhí)行B5,否則轉(zhuǎn)到B8 ; Ipn= Dmax - Dmin +1 B5 :確定當前步長len,其中 ·在disDmin到disDmJ?離范圍內(nèi)的 (Dmax-Dmin+"AD-A 樣本數(shù)據(jù)密度子集中,以Ien計算對應距離上的樣本數(shù)據(jù)密度集合Dens的費歇爾判別率 值Fis={fgi|gi=l,...,J},J= (Dmax-Dmin)/Ien,在第q個步長上,將樣本數(shù)據(jù)密度集合 Dens在disDmin到disDmaJii離上分成兩個子集合,分別為B={densi,· · ·,densD-giH^J和 C= {densDmin+gi*len,…,densmSi},根據(jù)費歇爾判別率fgi= (μ「μj)2/(δ「δJ2,其中μi 是集合B上樣本數(shù)據(jù)密度的均值,Si是集合B上樣本數(shù)據(jù)密度的均方差,μ」是集合C上 樣本數(shù)據(jù)密度的均值,h是集合C上樣本數(shù)據(jù)密度的均方差,fgi是第gi個步長上將樣本 數(shù)據(jù)密度集合Dens分成B和C兩個子集后得到的費歇爾判別率的值; B6 :選擇集合Fis上最大的兩個費歇爾判別率的值,得到其對應的排序距離,設為dismi,dismj,設mi〈mj,將這兩個排序距離的位置mi和mj各自賦給Dmil^PDmax; B7 :使A遞增1,然后轉(zhuǎn)到繼續(xù)從B4開始執(zhí)行; B8 :將當前排序距離disDmax閥值,去掉樣本數(shù)據(jù)集合RXisi中所有列到該聚類中心距 離小于disDma;^樣本數(shù)據(jù)對象,保留排序距離集合RDSi={disDmax,. . .,dismi}; B9 :使Si遞增1,然后跳轉(zhuǎn)到B2繼續(xù)處理RXi中下一個子類,直到Si=F+W+l,表明所 有的子類處理完畢; BlO:將余下的樣本數(shù)據(jù)集記作RX2={RDSi}。
      【文檔編號】G06K9/62GK104463221SQ201410803911
      【公開日】2015年3月25日 申請日期:2014年12月22日 優(yōu)先權(quán)日:2014年12月22日
      【發(fā)明者】彭長生, 沈項軍, 蔡煒 申請人:江蘇科海智能系統(tǒng)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1