本發(fā)明涉及模式識別方法,特別是涉及一種AdaBoost算法中弱分類器的同步選取、加權(quán)、排序方法。
背景技術(shù):
分類算法就是基于分類器模型為待檢測樣本從可選的分類中選取最佳的類別假設(shè),它屬于人工智能中機(jī)器學(xué)習(xí)范疇,已經(jīng)吸引了該領(lǐng)域相關(guān)研究者的極大關(guān)注。人們投入了大量的時間和精力研究諸如C4.5、支持向量機(jī)、貝葉斯算法、AdaBoost算法和K-最近鄰分類算法等分類算法,并將它們應(yīng)用于面部識別、筆跡驗(yàn)證、數(shù)據(jù)分析和醫(yī)學(xué)應(yīng)用等不同領(lǐng)域。
AdaBoost一詞是來源于Adaptive Boosting(自適應(yīng)增強(qiáng))的縮寫,是由Yoav Freund和Robert Schapire提出的機(jī)器學(xué)習(xí)元算法。其設(shè)計(jì)的指導(dǎo)原則為確保當(dāng)前訓(xùn)練樣本有最高分類精度。通過將不同的弱分類器(這里所謂的弱分類器是指分類精度稍稍好于隨機(jī)猜測)合理的組合起來,形成強(qiáng)分類器,盡管每個弱分類器的分類精度不高,但最終的強(qiáng)分類器在分類性能上得到巨大提升。AdaBoost算法在某種意義上講是自適應(yīng)的,通過調(diào)整之前被弱分類器錯分的樣本權(quán)值,提高后續(xù)弱分類器對錯分樣本的重視程度,實(shí)現(xiàn)最終分類器模型的設(shè)計(jì)。正是基于此,一組弱分類器的合理設(shè)計(jì)可以結(jié)合成強(qiáng)分類器,獲得一個整體上令人滿意的分類精度。
很明顯,不同的弱分類器選擇、加權(quán)和不同的弱分類器排序都將導(dǎo)致完全不同的分類效果。尋找最合適的弱分類器組合、加權(quán)方法并為這些分類器選擇最佳的排列順序相當(dāng)重要,決定了分類器是否能擁有更高分類性能。但是,絕大多數(shù)AdaBoost算法應(yīng)用中,研究者通常都直接指定用哪些分類器,這些分類器的排序也直接根據(jù)經(jīng)驗(yàn)確定。顯然,這并不合理。利用GA優(yōu)化算法的并行搜索優(yōu)勢,本專利中以提高分類精度為目標(biāo),同步給出基于AdaBoost分類算法的最佳分類器組合選取、分類器加權(quán)和分類器排序方案。
技術(shù)實(shí)現(xiàn)要素:
針對傳統(tǒng)的AdaBoost算法的分類器組合、加權(quán)與排序方法的不足,提出一種AdaBoost算法中弱分類器的同步選取、加權(quán)、排序方法。算法不同于以往基于人為經(jīng)驗(yàn)的弱分類器組合選取和加權(quán)方法,同時增加了對分類器排序方案考慮,采用GA(Genetic Algorithm,簡稱GA)優(yōu)化算法搜索弱分類器選擇、加權(quán)與排序的最佳方案,使得最終基于AdaBoost算法訓(xùn)練得到的分類器分類效果更佳、分類精度更高。
同時,借助于GA算法并行搜索上的優(yōu)勢,通過智能的方式、基于對分類精度的追求,不但給出了最優(yōu)的弱分類器組合、加權(quán)方案,而且同步的給出了弱分類器排序的最佳方案。通過上述策略,本文最終實(shí)現(xiàn)了基于GA算法的最優(yōu)的AdaBoost分類器模型設(shè)計(jì),確保了分類器模型基于分類精度指標(biāo)上的最優(yōu)設(shè)計(jì)。
一種AdaBoost算法中弱分類器的同步選取、加權(quán)、排序方法,包括如下步驟:
(1)初始化GA(Genetic Algorithm,簡稱GA)算法參數(shù)設(shè)置
設(shè)置基因算子GA(F,S,G,M,N),F(xiàn)表示適應(yīng)度函數(shù),S表示候選方案,G表示代溝因子,M和N分別表示變異率和最大迭代次數(shù);
(2)初始弱分類器集合、權(quán)值與對應(yīng)排列順序設(shè)置
選取初始基因個體,由弱分類器組合、對應(yīng)權(quán)值和排列順序三部分組成,初始個體隨機(jī)產(chǎn)生,稱為第零代;
(3)GA個體更新
用新產(chǎn)生的GA個體更新之前的基因算子;
(4)適應(yīng)度計(jì)算
基于GA優(yōu)化中每一步基因個體對應(yīng)的分類器組合、加權(quán)和排序方案,給出對應(yīng)的分類器模型,進(jìn)而得到分類器精度作為適應(yīng)度;
(5)GA算法實(shí)現(xiàn)
通過交叉、變異產(chǎn)生新一代基因個體。
(6)迭代結(jié)束條件是否滿足判斷
判斷迭代條件是否滿足,如滿足,在所有候選解中選出對應(yīng)最高分類精度的分類器模型所代表的分類器組合、權(quán)值和排序方案;如不滿足,回到步驟(4)。
作為優(yōu)選,步驟(5)中的通過交叉、變異產(chǎn)生新一代基因個體包括:
采用概率方法從S中選取S(1-G)個成員,加入S1;
根據(jù)配對概率p和G,利用交叉算子產(chǎn)生候選基因個體S2;
根據(jù)變異概率M,選取候選方案S1中的個體進(jìn)行變異;
S1與S2組合成新的候選基因個體S3。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下明顯的優(yōu)勢和有益效果:
(1)本發(fā)明提出一種AdaBoost算法中弱分類器的同步選取、加權(quán)、排序方法,算法不同于以往基于人為經(jīng)驗(yàn)的弱分類器組合選取和加權(quán)方法,同時增加了對分類器排序方案的考慮。
(2)本發(fā)明采用GA優(yōu)化算法搜索弱分類器選擇、加權(quán)與排序的最佳方案,使得最終基于AdaBoost算法訓(xùn)練得到的分類器分類效果更佳、分類精度更高。為驗(yàn)證本分類算法,運(yùn)用本發(fā)明方法到筆跡驗(yàn)證試驗(yàn)中,對筆跡書寫人身份進(jìn)行判斷,本文算法分類精度可達(dá)到96.22%。
附圖說明
圖1為本發(fā)明所提出的一種AdaBoost算法中弱分類器的同步選取、加權(quán)、排序方法功能框圖;
圖2為本發(fā)明所涉及方法的流程圖;
圖3為基因個體示意圖,其中,第一部w1w2···wn對應(yīng)一個弱分類器組合,第二部分α1α2···αn對應(yīng)弱分類器的權(quán)值,d表示一個弱分類器的排列。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明做進(jìn)一步的描述。
如圖1、2所示,本發(fā)明實(shí)施例提供一種AdaBoost算法中弱分類器的同步選取、加權(quán)、排序方法,包括以下步驟:
(1)初始化GA(Genetic Algorithm,簡稱GA)算法參數(shù)設(shè)置
設(shè)置基因算子GA(F,S,G,M,N),F(xiàn)表示適應(yīng)度函數(shù),S表示候選方案,G表示代溝因子,M和N分別表示變異率和最大迭代次數(shù);
(2)初始弱分類器集合、權(quán)值與對應(yīng)排列順序設(shè)置
隨機(jī)選取初始階段基因個體,該個體由三部分組成,如圖3所示,包括弱分類器組合、對應(yīng)的權(quán)值和弱分類器的一個排列,這里產(chǎn)生的初始基因個體被稱為第零代;
(3)GA個體更新
用經(jīng)過基因算法獲得的新產(chǎn)生GA個體S3更新之前的基因個體S,初始條件下,用S0為基因個體S賦初值;
(4)適應(yīng)度計(jì)算
基于GA優(yōu)化中產(chǎn)生的基因個體S3,提取其所代表的分類器組合、權(quán)值和排序方案,給出基于該方案和AdaBoost算法訓(xùn)練所得的分類器模型,并基于該模型計(jì)算分類精度作為適應(yīng)度;
(5)GA算法實(shí)現(xiàn)
通過交叉、變異產(chǎn)生新一代基因個體:
用概率方法從S中選取S(1-G)個成員,加入S1;
根據(jù)配對概率p和G,利用交叉算子產(chǎn)生候選基因個體S2;
根據(jù)變異概率M,選取候選方案S1中的個體進(jìn)行變異;
S1與S2組合成新的候選基因個體S3。
(6)迭代結(jié)束條件是否滿足判斷
判斷算法的迭代條件是否滿足(迭代次數(shù)大于N),如滿足,在所有候選解中選出對應(yīng)最高分類精度的分類器模型,并根據(jù)該模型給出其所代表的分類器組合、權(quán)值和排序方案;如不滿足,回到步驟(4)。
運(yùn)用本發(fā)明方法到筆跡驗(yàn)證試驗(yàn)中。本實(shí)驗(yàn)中,設(shè)置GA初始化參數(shù)為S=36,G=0.5,M=0.05,N=200。同時,根據(jù)實(shí)驗(yàn)需求從HIT-MW樣本庫隨機(jī)的選取筆跡樣本作為訓(xùn)練樣本,使用正交驗(yàn)證理論對算法進(jìn)行驗(yàn)證。重復(fù)上述實(shí)驗(yàn),給出該算法構(gòu)建分類器模型的平均分類精度。通過對筆跡書寫人身份進(jìn)行判斷,當(dāng)分類器組合、權(quán)值和排序方案最優(yōu)時,其分類精度可達(dá)到96.22%。