一種支持向量機學習新算法
【專利摘要】支持向量機的最優(yōu)化問題由經(jīng)驗風險、正則項兩部分組成,其解的稀疏性取決于正則項中的權值范數(shù)。支持向量機通過核函數(shù)的組合,實現(xiàn)了對多種特征集合的表示,有利于對多源數(shù)據(jù)的處理。本發(fā)明提出的混合范數(shù)支持向量機學習算法,在組內(nèi)的核函數(shù)采用l1范數(shù),相當于僅選擇最重要的核函數(shù)進行組合,以提升稀疏性;在組間采用l2范數(shù),相當于平等地選擇處于不同子空間的核函數(shù),以提高學習和預測的精度。采用粒子群優(yōu)化算法進行參數(shù)優(yōu)化,達到既提高學習精度,又提高學習速度的目的。
【專利說明】
一種支持向量機學習新算法 一、
技術領域
[0001] 統(tǒng)計學習理論是針對小樣本情況下的機器學習理論,其核心思想是通過控制學習 機器的復雜度,實現(xiàn)對學習機器推廣能力的控制。在這一理論基礎上發(fā)展起來的支持向量 機(SVM)是一種新的通用機器學習方法,它較以往方法表現(xiàn)出很多理論和實踐上的優(yōu)勢, 較好地解決了小樣本、非線性、高維和局部極小等問題,在模式識別、回歸估計等很多領域 都得到了廣泛的應用。本發(fā)明屬于智能控制與建模領域,涉及支持向量機(SVM)、最優(yōu)化算 法等方法。 二、
【背景技術】
[0002] 在統(tǒng)計學習理論基礎上發(fā)展起來的支持向量機(SVM)是一種新的通用機器學習 方法,它較以往方法表現(xiàn)出很多理論和實踐上的優(yōu)勢,較好地解決了小樣本、非線性、高維 數(shù)和局部極小等問題,在模式識別、回歸估計、新奇性檢測等很多領域都表現(xiàn)出了良好的性 能。利用多核代替單核能增強決策函數(shù)的可解釋性,并能獲得比單核模型更優(yōu)的性能。在 多核框架下,樣本在特征空間中的表示問題,就轉化成為基本核與權系數(shù)的選擇問題。這里 首要的問題就是如何得到這個組合的特征空間,也就是如何學習得到權系數(shù)。
[0003] 三、專利內(nèi)容:
[0004] 1、專利目的
[0005] 發(fā)明一種支持向量機的學習方法,這種方法既能提高支持向量機的的精度,又能 提高支持向量機的的訓練速度。
[0006] 2、技術解決方案
[0007] 本發(fā)明提出的支持向量機的學習算法,在組內(nèi)的支持向量機核函數(shù)采用h范數(shù), 相當于僅選擇最重要的核函數(shù)進行組合,以提升稀疏性;在支持向量機組間采用1 2范數(shù),相 當于平等地選擇處于不同子空間的核函數(shù),以提高學習和預測的精度。 四、【具體實施方式】
[0008] 支持向量機的的最優(yōu)化問題由兩部分組成[Uw)+;lQ(w)],R M?為 經(jīng)驗風險,用以擬合樣本數(shù)據(jù)。Q (w)為正則項,用以限制決策函數(shù)的復雜度。具體來說,假 設給定的N個樣本(心父);11,其中1 1屬于輸入空間,71屬于輸出空間。對于回歸問題71£1?。 對于核函數(shù)k m KGram矩陣為Km = (kjxi,扎為相應的再生核希爾伯特空間,并假 設I正定。首先考慮固定核權值的學習問題。對于M個非負核權山,(12,…士,組合核的核 _ M 矩陣?<。則決策函數(shù)的12范數(shù)的形式為 m=\
[0010] 則固定核權值的MKL問題歸結為 (1) (2)
[0012] 其中b是決策函數(shù)的閾值。對回歸問題的損失函數(shù)1 (ypf)為max(|y_f |,0)。此 最優(yōu)化問題的目標函數(shù)與核權值4成反比,因為核權值4相應于決策函數(shù)第個m個分量圪 的復雜度。所以需要對核權值4進行正則限制,否則會產(chǎn)生過擬合。因此在優(yōu)化問題的目 標函數(shù)上加一個對dm的懲罰項,則上式第二項變?yōu)?br>?[0014] 上式可對4求最小值,進行化簡后,則上述最優(yōu)化問題變?yōu)?(3)
[0015] h/"Hh=, " ^ +cZii/-ik ⑷
[0016] 此最優(yōu)化問題具有塊li范數(shù)的形式,解具有稀疏性。為了得到非稀疏性的解,考 慮對dm進行單純形約束,即
[0017] f ^ hR Yjfm^Xi) + h) (5)
[0018] 在此基礎上,為了取得正則項為li范數(shù)與ln范數(shù)混合形式,考慮最優(yōu)化問題
(6) M
[0020] 其中/=S/m。可在此框架下構建效率更高的求解算法。當取 m=\
[002i] imu=rimu+(i-oii/iu (7)
[0022] 時,正則項就是h范數(shù)和12范數(shù)的混合,因為
[0023] I mu = r £丨〇1 +(1 (8) m=l m=l
[0024] 只要選擇不同的t,就可以在稀疏性和精度之間做不同的折衷。一般來說t根據(jù) 實際應用的需要進行選取。但更重要的尋求數(shù)據(jù)依賴的自動選取的方法,以達到稀疏性和 精度之間的最優(yōu)。
[0025] 這里采用粒子群優(yōu)化算法(PS0)對SVM的參數(shù)進行優(yōu)化選擇。與遺傳算法相比, 它具有算法簡單、容易實現(xiàn)、計算量小和計算效率高等優(yōu)點。粒子群優(yōu)化算法(PS0)由鳥群 覓食行為的啟發(fā)而得到,鳥群中每個鳥都被看作一個沒有體積和質(zhì)量的粒子,粒子在搜索 空間中以一定的速度飛行,并根據(jù)個體和集體飛行的經(jīng)驗調(diào)整自己的速度和位置。PS0算 法首先初始化一群隨機粒子,每個粒子都代表著優(yōu)化問題的一個可能解,粒子位置坐標對 應的目標函數(shù)值作為該粒子的適應度。在每次迭代中,各個粒子記憶、追隨當前最優(yōu)粒子, 通過跟蹤兩個極值來更新自己:一個是粒子本身所找到的最優(yōu)位置,即個體極值,代表粒子 自身的認知水平。另一個是整個粒子群目前找到的最優(yōu)位置,即全局極值,代表社會認知水 平。在算法迭代初期,粒子在較大的空間內(nèi)進行搜索。隨著迭代次數(shù)的增加,粒子在個體極 值和全局極值的引導下,逐漸收斂到小的范圍。在迭代結束時,整個粒子群的最優(yōu)位置就是 問題的最優(yōu)解。
[0026] 設粒子群在D維空間中搜索,則粒子的迭代公式如下: ^=〇}vi,d+ci-rand ? (p"d -xid)+ci-rand (pks,d ~xij) ,n.
[。。27] Wk (9)
[0028] 其中 Xl = (xia, x1>2, ...,x1>D)、Vi = (via,v1>2, ...,v1>D)、Pi = (pia, p1>2,…,口工, D)分別表示第i個粒子的位置、速度和歷史最優(yōu)位置,p g = (pg>1,pg,2,…,Pg, D)為所有Pl 中的最優(yōu)位置,i = l,2,…,m為粒子的標號,d=l,2,…,D為位置、速度的維數(shù)標號,上 標k表示第k次迭代。是常數(shù),稱為慣性權重。rand為(0,1)上的隨機數(shù),(^、(3 2為(0, 2)上的常數(shù),稱為加速因子。Xl,d e [x_,x_],其中x_,x_是依不同的目標函數(shù)和不同 的搜索空間而不同的常數(shù)。為減少粒子飛離搜索空間的可能性,速度限制于 之間,vT1決定了粒子飛行的最大距離,其中vrfmax=f X;1' 0.1^歹^0.5。位置迭代公式不變, 而改進速度迭代公式,則得到有助于確保PS0算法收斂的壓縮因子模型:
[0029] | = Z( v-+ <P, rand {pf, -x^d) + (p2- rand ? (pkgd -x^))
[0030] 式中x稱為收斂因子,其值是爐=奶+朽的函數(shù)且仍=2.05。于是爐= 4.1,x =0. 729。將該速度迭代公式與基本速度迭代公式進行對比,可得此模型與基本模型參數(shù)取 值為《 = x = 0.729,q=c2=;|:r?灼=1.49445時相同。
【主權項】
1. 發(fā)明的一種支持向量機學習新算法,采用混合范數(shù)作為目標函數(shù)。這種方法既能提 高支持向量機學習的精度,又能提高支持向量機學習的速度。2. 權利要求1所述的一種支持向量機學習新算法,其特征在于:采用粒子群算法進行 參數(shù)優(yōu)化。
【文檔編號】G06N3/00GK105894007SQ201410746753
【公開日】2016年8月24日
【申請日】2014年12月5日
【發(fā)明人】王書舟
【申請人】天津工業(yè)大學