自適應(yīng)向量投影的非線性支持向量選取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于支持向量機(jī)的學(xué)習(xí)方法,具體涉及一種自適應(yīng)向量投影的非線性支持 向量選取方法。
【背景技術(shù)】
[0002] 統(tǒng)計(jì)學(xué)習(xí)理論最早提出于20世紀(jì)60年代,它是針對(duì)小樣本進(jìn)行研宄,20世紀(jì)90 年代中期,Vapnik基于此理論提出了新的學(xué)習(xí)算法--支持向量機(jī)。近年來,支持向量機(jī) 的研宄獲得了越來越多的關(guān)注,支持向量機(jī)已經(jīng)成功應(yīng)用于許多實(shí)際問題,例如人臉識(shí)別、 手寫體識(shí)別,文本分類等。文本分類是信息過濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化 圖書管等領(lǐng)域的技術(shù)基礎(chǔ),而支持向量機(jī)是文本分類的最主要最簡(jiǎn)單的手段之一。
[0003]然而,標(biāo)準(zhǔn)支持向量機(jī)的訓(xùn)練速度比較慢,在實(shí)際應(yīng)用中受到極大限制,通過研 宄發(fā)現(xiàn),支持向量機(jī)在訓(xùn)練的時(shí)候,僅僅由位于邊界的支持向量決定,因此如果能預(yù)先確 定支持向量,能夠極大的加快支持向量機(jī)的訓(xùn)練速度。目前很多相關(guān)的算法被提出,例如 Chunking算法,Decomposing算法和序列最小最優(yōu)化算法,這些算法獲得支持向量需要多 次迭代。為了加快獲得支持向量的時(shí)間,研宄者提出了一種改進(jìn)的支持向量機(jī)BS-SVM(見 參考文獻(xiàn)1)、基于向量投影的支撐向量預(yù)選取方法(見參考文獻(xiàn)2)。然而在實(shí)際中,由于 樣本分布難以預(yù)測(cè),如何選取邊界向量代替支持向量成為研宄的關(guān)鍵。在文獻(xiàn)2中采用類 中心向量作為投影方向,但是當(dāng)樣本分散時(shí),類中心并不能反映該樣本的原始特征,降低分 類精度。
[0004]針對(duì)樣本分布不均勻和離散度大的問題,在選取支持向量時(shí),難以確定包含原始 樣本特征的邊界向量,從而造成分類速度低下。而隨著科技的日益發(fā)展,在信息過濾、信息 檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化圖書管等領(lǐng)域,都其渴望一種更快速、分類更精確的方 法來提尚其彳目息過濾、彳目息檢索、搜索的速率和效果。
[0005] 故一種分類精度高、分類速度快的自適應(yīng)向量投影的非線性支持向量選取方法亟 待提出。
[0006] 參考文獻(xiàn)1 :郭亞琴,王正群,一種改進(jìn)的支持向量機(jī)BS-SVMLJ].微電子學(xué)與計(jì)算 機(jī),2010, 28(6) :54-56。
[0007] 參考文獻(xiàn)2:李青,焦李成,周偉達(dá).基于向量投影的支撐向量預(yù)選取[J].計(jì)算機(jī) 學(xué)報(bào),2005, 28(2) :145-151。
【發(fā)明內(nèi)容】
[0008] 為了解決上述技術(shù)問題,本發(fā)明提出了自適應(yīng)向量投影的非線性支持向量選取方 法,該方法相較于現(xiàn)有的支持向量機(jī)的方法,針對(duì)非線性不可分的數(shù)據(jù),其分類精度更高, 分類速度更快,更適用于人臉識(shí)別、手寫體識(shí)別,文本分類等領(lǐng)域內(nèi)。
[0009]為了達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
[0010]自適應(yīng)向量投影的非線性支持向量選取方法,方法用于非線性數(shù)據(jù)的文本分類, 包括以下步驟:
[0011] (1)將原始樣本映射到高維空間轉(zhuǎn)化為線性樣本;
[0012] (2)計(jì)算線性樣本的中心距離;
[0013] (3)將線性樣本投影到線性樣本的中心向量后,在一維空間內(nèi)選取具有原始特征 的邊界樣本;
[0014] (4)利用支持向量機(jī)對(duì)邊界樣本進(jìn)行訓(xùn)練,得到分類結(jié)果。
[0015] 本發(fā)明一種自適應(yīng)向量投影的非線性支持向量選取方法,運(yùn)用自適應(yīng)投影方法, 從原始樣本中提取出包含樣本特征的邊界樣本作為新的訓(xùn)練樣本,在保證原始樣本所有特 征的同時(shí)限制邊界樣本數(shù)量,以提高訓(xùn)練速度和分類精度。
[0016] 在上述技術(shù)方案的基礎(chǔ)上,還可做如下改進(jìn):
[0017] 作為優(yōu)選的方案,在步驟(2)中,根據(jù)下式來得到線性樣本的中心距離D,
【主權(quán)項(xiàng)】
1. 自適應(yīng)向量投影的非線性支持向量選取方法,所述方法用于非線性數(shù)據(jù)的文本分 類,其特征在于,包括以下步驟: (1) 將原始樣本映射到高維空間轉(zhuǎn)化為線性樣本; (2) 計(jì)算所述線性樣本的中心距離; (3) 將線性樣本投影到所述線性樣本的中心向量后,在一維空間內(nèi)選取具有原始特征 的邊界樣本; (4) 利用支持向量機(jī)對(duì)邊界樣本進(jìn)行訓(xùn)練,得到分類結(jié)果。
2. 根據(jù)權(quán)利要求1所述的自適應(yīng)向量投影的非線性支持向量選取方法,其特征在于, 在所述步驟(2)中,根據(jù)下式來得到所述線性樣本的中心距離D,
其中
%兩類原始樣本,
為原始樣本的均值; Φ ( ·)為非線性映射;K(x,y)為核函數(shù)。
3. 根據(jù)權(quán)利要求2所述的自適應(yīng)向量投影的非線性支持向量選取方法,其特征在 于,在所述步驟(3)中:將所述線性樣本投影到所述中心向量W (^1),w (m2)上后,計(jì)算 Φ (Xli)到Φ (IIi1)的最大距離Dl和Φ (X2j)到Φ (m2)的最大距離D2。
4. 根據(jù)權(quán)利要求3所述的自適應(yīng)向量投影的非線性支持向量選取方法,其特征在于, 利用下式來選取所述邊界樣本: 當(dāng) D1+D2 < D 時(shí), Dl- λ # d( Φ (X η),Φ On1)) < Dl ; D2- λ 2彡 d ( Φ (x 2J),Φ (m2))彡 D2 ; 當(dāng)D1+D2彡D時(shí), D-D2+ λ Dl-d ( Φ (X π),Φ (In1)) < Dl- λ 1; D-Dl+ λ D2_d ( Φ (χ 2j.),φ (m2)) < D2_ λ 2; 其中:λ ^ λ 2。
5. 根據(jù)權(quán)利要求3或4所述的自適應(yīng)向量投影的非線性支持向量選取方法,其特征在 于,采用下式來得到Φ (Xli)到Φ (Hi1)的最大距離D1,
6.根據(jù)權(quán)利要求3或4所述的自適應(yīng)向量投影的非線性支持向量選取方法,其特征在 于,采用下式得到Φ 0?)到Φ (m2)的最大距離D2,
【專利摘要】本發(fā)明公開了自適應(yīng)向量投影的非線性支持向量選取方法,方法用于非線性數(shù)據(jù)的文本分類,包括以下步驟:(1)將原始樣本映射到高維空間轉(zhuǎn)化為線性樣本;(2)計(jì)算線性樣本的中心距離;(3)將線性樣本投影到線性樣本的中心向量后,在一維空間內(nèi)選取具有原始特征的邊界樣本;(4)利用支持向量機(jī)對(duì)邊界樣本進(jìn)行訓(xùn)練,得到分類結(jié)果。本發(fā)明自適應(yīng)向量投影的非線性支持向量選取方法相較于現(xiàn)有的支持向量機(jī)的方法,針對(duì)非線性不可分的數(shù)據(jù),其分類精度更高,分類速度更快,更適用于人臉識(shí)別、手寫體識(shí)別,文本分類等領(lǐng)域內(nèi)。
【IPC分類】G06F17-30
【公開號(hào)】CN104750857
【申請(qǐng)?zhí)枴緾N201510180702
【發(fā)明人】郭亞琴, 秦燕, 王青
【申請(qǐng)人】南通理工學(xué)院
【公開日】2015年7月1日
【申請(qǐng)日】2015年4月16日