一種基于PCA技術(shù)的AdaBoost優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種機器學(xué)習方法,具體涉及一種新型的基于PCA技術(shù)的AdaBoost優(yōu) 化方法。
【背景技術(shù)】
[0002] 目前的機器學(xué)習方法大多是基于感知機模型的,這類方法在解決非線性分類問題 時,往往借助于多層感知器結(jié)構(gòu),或使用核函數(shù)將高維空間的內(nèi)積運算轉(zhuǎn)換為低維的核函 數(shù)運算。這樣的方法有著收斂緩慢,容易引入高維噪音和泛化能力差等缺點。為了解決以 上所述的問題,本發(fā)明的目的在于提出一種基于PCA的AdaBoost優(yōu)化算法,通過PCA降維 濾去高維噪音,優(yōu)化AdaBoost算法。優(yōu)化后的AdaBoost算法具有收斂快,擬合性能好,泛 化性能好的優(yōu)點。
【發(fā)明內(nèi)容】
[0003] 發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種基于PCA的AdaBoost優(yōu) 化方法,解決了目前機器學(xué)習方法收斂緩慢,容易引入高維噪音和泛化能力差等缺點。
[0004] 技術(shù)方案:一種基于PCA的AdaBoost優(yōu)化方法,包括如下步驟:
[0005] 步驟1 :對于任意維度的樣本輸入,將其進行PCA降維至二維矩陣。
[0006] 步驟2 :取出步驟一所得矩陣的協(xié)方差矩陣前兩個最大的特征值所對應(yīng)的特征向 量,加權(quán)后作為投影軸。將PCA之后的二維樣本投影到所述投影軸上,得到一系列投影點。
[0007] 步驟3 :將步驟2最后得到的投影點的橫坐標規(guī)格化,即映射到[0, 1]空間上,即 取橫坐標最小值為〇,最大值為1,其余的取線性插值,使得投影點之間距離的比例關(guān)系保 持不變。將規(guī)格化之后的結(jié)果從小到大排序。
[0008] 步驟4 :對每個樣本輸入,仿照步驟1-步驟3的步驟,將其投影至投影軸上面,并 規(guī)格化輸入,比較該樣本輸入類別與前一個輸入的類別的符號,如果不相等,就添加一個線 性分類器,該線性分類器閾值為當前輸入。該線性分類器邊界左側(cè)類型為前一個輸入的類 另IJ,邊界右側(cè)類型為當前輸入類別。特別地,如果本次輸入的與上次輸入相同,則對類別加 權(quán)平均。至此完成弱分類器的構(gòu)建。
[0009] 步驟5 :對于樣本輸入的集合,進行AdaBoost迭代訓(xùn)練,對于每個樣本,訓(xùn)練之前 都先要將其投影到投影軸上并且規(guī)格化。迭代訓(xùn)練直到對于每個樣本,AdaBoost都輸出正 確的結(jié)果,訓(xùn)練結(jié)束。
[0010] 其中,
[0011] 1)所述線性分類器:
[0012] 對于閾值V,類型標識{a,b},定義線性分類器gv:
[0013]
,其中X為輸入,left為邊界左側(cè)類型標識,right為邊界右 側(cè)類型標識。本算法為二類分類算法,以left、right的符號來判定類型,以left、right的 絕對值(e [0, 1])來判定該分類器邊界的置信度。
[0014] 2)所述訓(xùn)練數(shù)據(jù)格式:
[0015] 訓(xùn)練數(shù)據(jù)(P,T) = {(PdL),(p2,t2),..,(pn,t n)},其中 pnG Rn為k 維輸入向量, tn為對應(yīng)的輸出。對于訓(xùn)練數(shù)據(jù)集T來說,為使tn滿足tne {-1,1},可使用sgn符號函數(shù) 對tn進行規(guī)格化。
[0016] 3)所述PCA算法即"主成分分析算法",由K-皮爾森首先提出。所述AdaBoost算 法即"自適應(yīng)增強算法",由Yoav Freund和Robert Schapire提出。
[0017] 本發(fā)明采用上述技術(shù)方案,具有以下有益效果:有效減少高維噪音對分類的影響, 訓(xùn)練速度得到顯著提高,訓(xùn)練的泛化能力得到加強。
【具體實施方式】
[0018] 下面結(jié)合具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價 形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0019] 基于PCA的優(yōu)化的AdaBoost方法,其實施過程為:
[0020] 1)對于樣本進行PCA降維至二維,提取協(xié)方差矩陣M特征值最大的兩個特征向量 vl, v2 ;
[0021] 2)以vl+v2*k為投影軸1,其中k為比例因子(通常小于0.5, k的取值不同,算 法收斂速度不同)。將原始樣本逐個投影到投影軸1上得點集(X,Y),其中X= {Xl,x2,… ,xn}, Y = {yj, y2, ???, yn};
[0022] 3)取 xmin= min (X),x max= max (X),對于 x ! G X,取 z ! = (x i-x-) / | xmax_xmin |,得 到集合Z。至此原來的高維變量集合X被映射到了 [0,1]區(qū)間Z上。將Z中元素按從小到 大進行排序。
[0023] 4)對于每個輸入z# Z,當i = 0時,記錄對應(yīng)的輸出t。至臨時變量t pravif,臨 時變量tp_總是等于當前最后一個線性分類器g v的右邊界類型標識。當i辛0時,比較 對應(yīng)的輸出h與臨時變量t PMV,如果兩者不等,則添加一個線性分類器gv,其中閾值v取 (z^+Zi)/%分類器g v左邊界的類型標識為left = t pMV,右邊界的類型標識為right = tp置分類器gv的權(quán)wv= 1,記錄t i至臨時變量tpMV。特別地,當遇到連續(xù)兩個輸入Zh, Zi的值相等,但是151^與t i不等的情況時,對于z i不生成新的分類器,而對上次zh生 成的分類器gv的權(quán)w (出以下更新:w v= w v+l,同時更改右邊界的類型標識rightvS (rightv* (wv-l) +ti) /wv,記錄 sgn (rightv)至 tprev。
[0024] 5)對于訓(xùn)練集Z,進行AdaBoost迭代訓(xùn)練,直到對于每個Zp AdaBoost都輸出正 確的結(jié)果;
[0025] 6)對于測試樣本pn?,仿1) -3)步進行PCA降維、得到投影到投影軸1上的點zn? 之后,用訓(xùn)練完成的AdaBoost分類器進行分類。
【主權(quán)項】
1. 一種基于PCA技術(shù)的AdaBoost優(yōu)化方法,其特征在于,包括如下步驟: 步驟1 ;對于任意維度的樣本輸入,將其進行PCA降維至二維; 步驟2 ;取出其協(xié)方差矩陣前兩個最大的特征值所對應(yīng)的特征向量,加權(quán)后作為投影 軸;將PCA之后的二維樣本投影到所述投影軸上,得到一系列投影點; 步驟3 ;將步驟2最后得到的投影點的橫坐標規(guī)格化; 步驟4 ;對每個樣本輸入,仿照步驟1-步驟3的步驟,將其投影至投影軸上面,并規(guī)格 化輸入,比較其類別與前一個輸入的類別的符號,如果不相等,就添加一個線性分類器,其 闊值為當前輸入;其邊界左側(cè)類型為前一個輸入的類別,邊界右側(cè)類型為當前輸入類別; 特別地,如果本次輸入的與上次輸入相同,則對類別加權(quán)平均;至此完成弱分類器的構(gòu)建; 步驟5 ;對于樣本輸入的集合,進行AdaBoost迭代訓(xùn)練,對于每個樣本,訓(xùn)練之前都先 要將其投影到投影軸上并且規(guī)格化;迭代訓(xùn)練直到對于每個樣本,AdaBoost都輸出正確的 結(jié)果,訓(xùn)練結(jié)束。2. 如權(quán)利要求1所述的基于PCA技術(shù)的AdaBoost優(yōu)化方法,其特征在于,投影點的橫 坐標規(guī)格化即將投影點的橫坐標映射到[0, 1]空間上,取橫坐標最小值為0,最大值為1,其 余的取線性插值;將規(guī)格化之后的結(jié)果從小到大排序。3. 如權(quán)利要求1所述的基于PCA技術(shù)的AdaBoost優(yōu)化方法,其特征在于,其中,所述線 性分類器: 對于闊值V,類型標識{a,b},定義線性分類器gy:其中X為輸入,left為邊界左側(cè)類型標識,ri曲t為邊界右側(cè)類 型標識;本算法為二類分類算法,Wleft、ri曲t的符號來判定類型,Wleft、ri曲t的絕對 值來判定該分類器邊界的置信度。
【專利摘要】本發(fā)明公開一種基于PCA技術(shù)的AdaBoost優(yōu)化方法,包括:對于任意維度的樣本輸入,將其進行PCA降維至二維;取出其協(xié)方差矩陣前兩個最大的特征值所對應(yīng)的特征向量,加權(quán)后作為投影軸;將PCA之后的二維樣本投影到所述投影軸上,得到一系列投影點;將投影點的橫坐標規(guī)格化;對每個樣本輸入,將其投影至投影軸上面,并規(guī)格化輸入,比較其類別與前一個輸入的類別的符號,如果不相等,就添加一個線性分類器,其閾值為當前輸入;其邊界左側(cè)類型為前一個輸入的類別,邊界右側(cè)類型為當前輸入類別;如果本次輸入的與上次輸入相同,則對類別加權(quán)平均;至此完成弱分類器的構(gòu)建;對于樣本輸入的集合,進行AdaBoost迭代訓(xùn)練,AdaBoost都輸出正確的結(jié)果,訓(xùn)練結(jié)束。
【IPC分類】G06K9/62
【公開號】CN104933440
【申請?zhí)枴緾N201510314405
【發(fā)明人】駱融臻, 張雪潔, 范仕良
【申請人】河海大學(xué)
【公開日】2015年9月23日
【申請日】2015年6月9日