專利名稱:結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法
技術(shù)領(lǐng)域:
本發(fā)明屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,涉及結(jié)合主動(dòng)學(xué)習(xí)的協(xié)同訓(xùn)練,具體是一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,可用于提高半監(jiān)督學(xué)習(xí)中未標(biāo)記樣本的利用率,進(jìn)一步提高半監(jiān)督學(xué)習(xí)的學(xué)習(xí)性能。所提出的方法適用于諸如網(wǎng)頁分類、圖象處理、人臉識別、 入侵監(jiān)測等應(yīng)用領(lǐng)域。
背景技術(shù):
標(biāo)準(zhǔn)協(xié)同訓(xùn)練方法是Blum和Mitchell在1998年提出的。他們提出了標(biāo)準(zhǔn)協(xié)同訓(xùn)練方法基于如下三個(gè)基本假設(shè)(1)屬性集可以被劃分為兩個(gè)集合;(2)每一個(gè)屬性集的子集合都足以訓(xùn)練一個(gè)分類器;C3)在給定類標(biāo)記的情況下,這兩個(gè)屬性集是相互獨(dú)立的。 其中每個(gè)屬性集構(gòu)成一個(gè)視圖,滿足上述假設(shè)的視圖稱為充分冗余的視圖。然后分別對已標(biāo)記的樣本在這兩個(gè)屬性集上訓(xùn)練分類器,這樣得到兩個(gè)分類器,將這兩個(gè)分類器應(yīng)用到未標(biāo)記樣本上,然后選擇每個(gè)分類器對分類結(jié)果置信度高的未標(biāo)記樣本以及該樣本的預(yù)測標(biāo)記加入到另一個(gè)分類器已標(biāo)記樣本集中進(jìn)行下一輪的訓(xùn)練,如此迭代。標(biāo)準(zhǔn)協(xié)同訓(xùn)練方法的前提條件比較苛刻,在真實(shí)的問題中,滿足充分冗余的要求往往很難達(dá)到。就Blum和Mitchell所述的網(wǎng)頁分類而言,因?yàn)榫W(wǎng)頁本身的信息這一視圖與超鏈接上的信息這一視圖很難滿足條件獨(dú)立性,而且大多數(shù)問題不具有足夠大的屬性集, 因此很難滿足該方法有效的前提條件。很多研究人員就嘗試放松這三個(gè)假設(shè)。也有學(xué)者提出了使用不同的分類器在整個(gè)屬性集上訓(xùn)練的方法,訓(xùn)練時(shí),首先利用已標(biāo)記樣本對兩個(gè)不同的分類器在整個(gè)屬性集上進(jìn)行訓(xùn)練,再用這兩個(gè)分類器互相將自己在未標(biāo)記樣本上置信度較高的標(biāo)記加入到對方的訓(xùn)練集中去再訓(xùn)練。此后又將集成學(xué)習(xí)的思想加入到以前的方法中去提高算法性能,基于整個(gè)屬性集訓(xùn)練一組分類器,利用投票機(jī)制對未標(biāo)記樣本進(jìn)行標(biāo)記,加入到已標(biāo)記樣本集中再訓(xùn)練,最后的分類結(jié)果由一種改進(jìn)的加權(quán)投票機(jī)制決定。 但是由于上述的方法挑選未標(biāo)記示例進(jìn)行標(biāo)記的過程中以及選擇分類器對未見示例進(jìn)行預(yù)測的過程中頻繁地使用10倍交叉驗(yàn)證,使得其計(jì)算開銷很大,因此Z. H. Zhou和M. Li在 2005年提出了 tri-training的方法,使用三個(gè)分類器,如果兩個(gè)分類器分類結(jié)果一致,那么就將該未標(biāo)記樣本加入到已標(biāo)記樣本中去,這樣的做法避免了頻繁地計(jì)算10倍交叉驗(yàn)證,節(jié)省了計(jì)算開銷,同時(shí)他們的方法不需要基于冗余的視圖。并且他們基于噪音學(xué)習(xí)理論分析出以較高概率確保這一做法有效的條件,在引入大量未標(biāo)記樣本的情況下,噪聲所帶來的負(fù)面影響可以被抵消。Tri-Training方法的步驟如下輸入未標(biāo)記數(shù)據(jù)集Du,已標(biāo)記數(shù)據(jù)集(初始訓(xùn)練集)D1;測試集T,某種學(xué)習(xí)算法 L0輸出分類的錯(cuò)誤率。Stepl 隨即抽樣D1,抽取三次,得到樣本數(shù)等于|D」的三個(gè)訓(xùn)練集Si, Si, S3,用L 訓(xùn)練出分類器CnCyC315
St印2 對于任一個(gè)由算法L訓(xùn)練出的分類器(;(1 = 1,2,3),維護(hù)其獨(dú)自的訓(xùn)練集 Si (i = 1,2,3),將滿足{χ ι X e Du,且 Cj (χ) = Ck (χ), j, k ^ i}的無標(biāo)記樣本 χ 加入到 Si 中。遍歷完Du后,得到更新后的S/。乂印3:對于每個(gè)(;“ =1,2,3),若ISi' I > I S」,則對Ci利用訓(xùn)練集S/重新訓(xùn)練,得到分類器C/。乂印4:對于每個(gè)Ci,若Ci'興Ci,則轉(zhuǎn)乂印2,直到3個(gè)分類器都不再更新為止。St印5 最終的判決結(jié)果由這3個(gè)分類器的判決結(jié)果組合而成。通過上面的步驟可以看出來,標(biāo)準(zhǔn)的Tri-Training方法,使用的是3個(gè)同構(gòu)的分類器,通過在D1I隨機(jī)抽取樣本大小為ID1I的數(shù)據(jù)來訓(xùn)練出不同的分類器,訓(xùn)練出三個(gè)分類器C1,c2,C3都維護(hù)著各自的訓(xùn)練集。遍歷未標(biāo)記數(shù)據(jù)集Du,對于每一個(gè)樣本,由其中兩個(gè)分類器協(xié)同對其類別進(jìn)行判斷,如果分類一致就加入到第三個(gè)分類器的訓(xùn)練集中,遍歷完后在更新后的訓(xùn)練集上使用學(xué)習(xí)算法重新訓(xùn)練分類器,重復(fù)此過程直到分類器都不再更新為止。在協(xié)同訓(xùn)練方法中,擴(kuò)充訓(xùn)練集的前提是對未標(biāo)記樣本進(jìn)行標(biāo)記,該標(biāo)記的置信度非常重要,如果置信度很低,那會(huì)引入很多“噪聲”,訓(xùn)練出的分類器性能會(huì)降低,用兩個(gè)分類器對一個(gè)未標(biāo)記樣本做判斷,判斷一致的概率很高,考慮一種極端情況,待標(biāo)記樣本只有兩種可能的類別,即使分類器是對樣本隨機(jī)分類的,依然有50%的概率分類一致,因此引入更多的分類器對未標(biāo)記樣本的類別做出判定可以提高被標(biāo)記樣本的置信度,若多個(gè)分類器對一個(gè)樣本的標(biāo)記一致,則該標(biāo)記的置信度會(huì)更高。另一方面,對于兩個(gè)分類器判定不一致的未標(biāo)記樣本,傳統(tǒng)協(xié)同訓(xùn)練方法的做法是舍棄該樣本,這樣會(huì)對未標(biāo)記樣本造成一定程度的浪費(fèi),尤其是當(dāng)兩個(gè)分類器誤識率比較高,數(shù)據(jù)集的類別比較多時(shí),對于未標(biāo)記樣本類別的判定不一致的可能性會(huì)增大。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有協(xié)同訓(xùn)練方法的不足,提出一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,避免了在學(xué)習(xí)過程中引入過多噪聲,提高了對標(biāo)記樣本的利用率,實(shí)現(xiàn)簡單,能夠得到更高的識別率。本發(fā)明是一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,即CTAKollaborative Training with Active Learning)。為了實(shí)現(xiàn)發(fā)明目的,本發(fā)明的技術(shù)方案是采用四個(gè)分類器進(jìn)行協(xié)同訓(xùn)練并結(jié)合主動(dòng)學(xué)習(xí)技術(shù)提高半監(jiān)督學(xué)習(xí)性能,操作步驟包括(1)選取對數(shù)據(jù)集敏感的學(xué)習(xí)算法L ;(2)針對給定的未標(biāo)記數(shù)據(jù)集Du、已標(biāo)記數(shù)據(jù)集(初始訓(xùn)練集、測試集T及學(xué)習(xí)算法LJiD1運(yùn)用Bootstrap技術(shù)抽取四次,得到樣本數(shù)等于!D1I的四個(gè)訓(xùn)練集S1, S2,S3, S4,用L訓(xùn)練出分類器C1, C2, C3, C4 ;(3)對于任一個(gè)由算法L訓(xùn)練出的分類器Ci (i = 1,2,3,4),維護(hù)其獨(dú)自的訓(xùn)練集 Si (i = 1,2,3,4),將滿足{x IX e Du,且 Cj (X) = Ck(x) = Cm(x),j,k,m 興 i}的無標(biāo)記樣本 χ加入到Si中,將滿足{χ I χ e Du,且Cj (χ) Φ Ck (χ)興Cm(χ),j,k,m乒i}的無標(biāo)記樣本χ, 由主動(dòng)學(xué)習(xí)對其類別進(jìn)行標(biāo)記后也加入到Si中,遍歷完Du后,得到更新后的S/ ;(4)對于每個(gè)CiQ = 1,2,3,4),若| > | Si |,則對Ci利用訓(xùn)練集S/重新訓(xùn)練,得到分類器C/ ;(5)對于每個(gè)Ci,若C/ Φ Ci,則轉(zhuǎn)(3),直到四個(gè)分類器都不再更新為止;(6)最終的判決結(jié)果由四個(gè)分類器的判決結(jié)果組合而成,輸出分類的錯(cuò)誤率?,F(xiàn)有的使用三個(gè)分器的Tri-Training技術(shù)中,在更新每一個(gè)分類器的訓(xùn)練集時(shí), 對于每一個(gè)未標(biāo)記樣本,另外兩個(gè)分類器判決結(jié)果一致的可能性很大,使未標(biāo)記樣本的置信度不夠高,會(huì)引入許多噪音;在本發(fā)明中,使用了四個(gè)分類器,提高了未標(biāo)記樣本的置信度,從而避免了引入噪音。在傳統(tǒng)的協(xié)同訓(xùn)練方法中,對于兩個(gè)分類器分類不一致的標(biāo)記樣本,在操作中會(huì)舍棄這個(gè)樣本,在一定程度上造成了對未標(biāo)記樣本的浪費(fèi);本發(fā)明中采取了對訓(xùn)練集敏感的學(xué)習(xí)算法,在分類器對未標(biāo)記樣本分類都不一致時(shí),利用主動(dòng)學(xué)習(xí)對這樣的未標(biāo)記樣本進(jìn)行標(biāo)記并加以利用,從而更有效的利用了未標(biāo)記樣本并且有助于修正各分類器的分類函數(shù)。本發(fā)明的實(shí)現(xiàn)還在于步驟C3)所述的主動(dòng)學(xué)習(xí)對無標(biāo)記樣本χ進(jìn)行標(biāo)記時(shí),是在實(shí)驗(yàn)驗(yàn)證中通過查看原始數(shù)據(jù)集獲取真實(shí)類別實(shí)現(xiàn)的;這樣做可以更有效的利用未標(biāo)記樣本,通過這樣的處理有助于修正各分類器的分類函數(shù)。本發(fā)明的實(shí)現(xiàn)還在于步驟C3)所述的步驟中使用了四個(gè)分類器;根據(jù)未標(biāo)記樣本數(shù)量和分類器的識別率來選擇更合適的分類器數(shù)目;使用多個(gè)分類器,可以提高未標(biāo)記樣本的置信度,避免引入噪音,以得到更好的分類效果。本發(fā)明的實(shí)現(xiàn)還在于步驟(6)所述的四個(gè)分類器的判決結(jié)果組合,采用多數(shù)投票規(guī)則;盡量提高了分類的正確率。本發(fā)明的實(shí)現(xiàn)使用了四個(gè)分類器,在對每一個(gè)分類器的訓(xùn)練集更新的過程中,其它三個(gè)分類器的判決結(jié)果不一致的情況下,使用了主動(dòng)學(xué)習(xí),有效利用了未標(biāo)記樣本,提高了分類的正確率。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果有一、本發(fā)明由于采用四個(gè)基分類器進(jìn)行協(xié)同訓(xùn)練,將三個(gè)分類器的判決都一致的樣本直接添加到訓(xùn)練集中,可以保證在提高未標(biāo)記樣本置信度的同時(shí),避免引入過多噪聲;二、本發(fā)明由于針對難分樣本進(jìn)行主動(dòng)學(xué)習(xí),提高了半監(jiān)督學(xué)習(xí)的效果,其本質(zhì)上就是專家會(huì)診,具有重要的現(xiàn)實(shí)意義,同時(shí)對這類樣本的妥善處理有助于修正各分類器的識別函數(shù);三、本發(fā)明由于將三個(gè)分類器的判決都不一致的樣本作為難分樣本,使得進(jìn)行主動(dòng)學(xué)習(xí)的條件要求較高,且實(shí)現(xiàn)簡單。
圖1是本發(fā)明的流程框圖;圖2是三種半監(jiān)督學(xué)習(xí)算法訓(xùn)練出的集成分類器識別率的對比;圖3是本發(fā)明的結(jié)構(gòu)框具體實(shí)施例方式實(shí)施例1
本發(fā)明是一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,即CTA方法,以i ris為例,給出CTA方法的實(shí)施過程如下輸入包含96個(gè)樣本的未標(biāo)記數(shù)據(jù)集Du,包含M個(gè)樣本的已標(biāo)記數(shù)據(jù)集D1,包含 30個(gè)樣本的測試集T。輸出測試集T上的分類錯(cuò)誤率。①選取對數(shù)據(jù)集敏感的樸素貝葉斯算法L ;②針對取出的包含96個(gè)樣本的未標(biāo)記數(shù)據(jù)集Du、包含M個(gè)樣本的已標(biāo)記數(shù)據(jù)集(初始訓(xùn)練集)D1、包含30個(gè)樣本的測試集T及樸素貝葉斯算法L,結(jié)合圖1對D1運(yùn)用 Bootstrap技術(shù)抽取四次,得到樣本數(shù)等于!D1I的四個(gè)訓(xùn)練集S1, S2, S3,、,用算法L訓(xùn)練出分類器C1 j C2,C3,C4 ;由于選取了對訓(xùn)練集敏感的樸素貝葉斯學(xué)習(xí)算法L,這四個(gè)分類器的差異性足夠大,提高了分類的效果。③結(jié)合圖1對于任一個(gè)由算法L訓(xùn)練出的分類器Ci(i = 1,2,3,4),維護(hù)其獨(dú)自的訓(xùn)練集 Si (i = 1,2,3,4),將滿足{χ |x e Du,且 Cj (x) = Ck (χ) = Cm (χ), j,k,m 乒 i}的未標(biāo)記樣本χ加入到Si中,將滿足{χ I χ e Du,且Cj(X) Φ Ck(X) Φ Cm(X),j,k,m乒i}的無標(biāo)記樣本X,由主動(dòng)學(xué)習(xí)對未標(biāo)記樣本χ進(jìn)行標(biāo)記后也加入到Si中,遍歷完Du后,得到更新后的Si’。在這個(gè)步驟中使用了四個(gè)分類器;在未標(biāo)記樣本數(shù)量U —定的情況下,分類器越多,能夠有效利用(若干個(gè)分類器對無標(biāo)記樣本的分類一致時(shí),這個(gè)樣本就是叫有效利用) 的樣本數(shù)越少;一方面更多的分類器對一個(gè)樣本類別標(biāo)記一致時(shí),該標(biāo)記的置信度更高,另一方面能夠有效利用的樣本數(shù)越多,訓(xùn)練的分類器識別率越高;根據(jù)未標(biāo)記樣本數(shù)量和分類器的識別率來選擇更合適的分類器數(shù)目。在主動(dòng)學(xué)習(xí)對無標(biāo)記樣本χ進(jìn)行標(biāo)記時(shí),是在實(shí)驗(yàn)驗(yàn)證中通過查看原始數(shù)據(jù)集獲取真實(shí)類別實(shí)現(xiàn)的。實(shí)驗(yàn)中,還統(tǒng)計(jì)了在10次實(shí)驗(yàn)中CTA方法通過主動(dòng)學(xué)習(xí)標(biāo)記類別的平均次數(shù); iris的未標(biāo)記樣本數(shù)目為96,通過主動(dòng)學(xué)習(xí)標(biāo)記類別的平均次數(shù)為1. 9 ;可見通過主動(dòng)學(xué)習(xí)標(biāo)記類別的次數(shù)是很少的;④對于每個(gè)CiQ = 1,2,3,4),若!Si' | > | Si |,則對Ci利用訓(xùn)練集S/重新訓(xùn)練,得到分類器C/ ;⑤對于每個(gè)Ci,若C/ Φ Ci,則轉(zhuǎn)(3),直到四個(gè)分類器都不再更新為止;⑥最終的判決結(jié)果由四個(gè)分類器的判決結(jié)果組合而成,輸出分類的錯(cuò)誤率。通過使用三種半監(jiān)督學(xué)習(xí)算法訓(xùn)練出的集成分類器識別率的對比,如圖2所示, CTA方法優(yōu)于Co-Training方法和Tri-Training方法,學(xué)習(xí)效果很好,且主動(dòng)學(xué)習(xí)的次數(shù)很少,表明該方法使用盡可能少的查詢獲得了強(qiáng)泛化能力,是一種效果良好的半監(jiān)督學(xué)習(xí)方法。實(shí)施例2 結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法同實(shí)施例1,以thyroid為例,參見圖3,具體流程如下取出552個(gè)數(shù)據(jù)放入已標(biāo)記數(shù)據(jù)集,取出138個(gè)數(shù)據(jù)放入未標(biāo)記數(shù)據(jù)集,剩下的數(shù)據(jù)放放入測試集。在已標(biāo)記數(shù)據(jù)集的基礎(chǔ)上,用Boostrap方法取出四個(gè)大小為552個(gè)的訓(xùn)練樣本集。用已選取的學(xué)習(xí)算法對這四個(gè)訓(xùn)練樣本集分別訓(xùn)練,得出四個(gè)分類器。用這四個(gè)分類器去判定未標(biāo)記數(shù)據(jù)集中的數(shù)據(jù),對于一個(gè)分類器C來說,如果其他三個(gè)分類器的判決結(jié)果是相同的,那這個(gè)數(shù)據(jù)被標(biāo)記為分類器的判決結(jié)果,然后加入到分類器C相對應(yīng)的訓(xùn)練樣本集里,如果其他三個(gè)分類器的判決結(jié)果彼此都不相同,那么用主動(dòng)學(xué)習(xí)將這個(gè)數(shù)據(jù)標(biāo)記后加入到C相對應(yīng)的訓(xùn)練樣本集中。如果分類器對應(yīng)的訓(xùn)練集有更新,就用新的數(shù)據(jù)集去重新訓(xùn)練相對應(yīng)的分類器,然后驗(yàn)證,直到分類器無更新為止。用訓(xùn)練好的四個(gè)分類器對測試集的數(shù)據(jù)進(jìn)行分類,最后的判決結(jié)果以四個(gè)分類器的判決結(jié)果組合而成。
具體實(shí)施方式
如例1,通過實(shí)驗(yàn)驗(yàn)證,如圖2所示,相對于Co-Training方法和 Tri-Training方法,CTA方法的學(xué)習(xí)效果很好;在CTA的10次實(shí)驗(yàn)中,未標(biāo)記樣本數(shù)為138, 主動(dòng)學(xué)習(xí)的次數(shù)為2. 5次,表明本發(fā)明使用盡可能少的查詢獲得了強(qiáng)泛化能力,是一種避免引入噪聲,識別率更高,效果良好的半監(jiān)督學(xué)習(xí)方法。實(shí)施例3 結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法同實(shí)施例1-2,以wine為例,具體實(shí)施方式
如例1,通過實(shí)驗(yàn)驗(yàn)證,如圖2所示的wine數(shù)據(jù)集的結(jié)果,CTA方法的學(xué)習(xí)效果優(yōu)于 Co-Training方法和Tri-Training方法;在CTA的10實(shí)驗(yàn)中,未標(biāo)記樣本數(shù)為114,主動(dòng)學(xué)習(xí)的平均次數(shù)為1.7次,表明本發(fā)明使用盡可能少的查詢獲得了強(qiáng)泛化能力,是一種實(shí)現(xiàn)簡單,識別率更高,效果良好的半監(jiān)督學(xué)習(xí)方法。實(shí)施例4 結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法同實(shí)施例1 -3以heart為例,具體實(shí)施方式
如例1,通過實(shí)驗(yàn)驗(yàn)證,如圖2所示的heart數(shù)據(jù)集的,CTA方法的學(xué)習(xí)效果優(yōu)于 Co-Training方法和Tri-Training方法;在CTA的10次實(shí)驗(yàn)中,未標(biāo)記樣本數(shù)為173, 由于heart是二分類數(shù)據(jù),所以沒有使用主動(dòng)學(xué)習(xí),但效果要好于Co-Training方法和 Tri-Training方法,表明本發(fā)明是一種強(qiáng)泛化性,效果良好的半監(jiān)督學(xué)習(xí)方法。本發(fā)明公開了一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,涉及結(jié)合主動(dòng)學(xué)習(xí)的協(xié)同訓(xùn)練,屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域。本發(fā)明在實(shí)現(xiàn)過程中使用了四個(gè)分類器,并且使用了主動(dòng)學(xué)習(xí),對協(xié)同訓(xùn)練方法進(jìn)一步的改進(jìn)。本發(fā)明由于采用四個(gè)基分類器進(jìn)行協(xié)同訓(xùn)練,將三個(gè)分類器的判決都一致的樣本直接添加到訓(xùn)練集中,可以保證在提高未標(biāo)記樣本置信度的同時(shí),避免引入過多噪聲;本發(fā)明由于針對難分樣本進(jìn)行主動(dòng)學(xué)習(xí),提高了半監(jiān)督學(xué)習(xí)的效果,同時(shí)對這類樣本的妥善處理有助于修正各分類器的識別函數(shù);本發(fā)明由于將三個(gè)分類器的判決都不一致的樣本作為難分樣本,使得進(jìn)行主動(dòng)學(xué)習(xí)的條件要求較高,且實(shí)現(xiàn)簡單。 本發(fā)明適用于諸如網(wǎng)頁分類、圖象處理、人臉識別、入侵監(jiān)測等應(yīng)用領(lǐng)域。
權(quán)利要求
1.結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,其特征在于采用四個(gè)分類器進(jìn)行協(xié)同訓(xùn)練并結(jié)合主動(dòng)學(xué)習(xí)技術(shù)提高半監(jiān)督學(xué)習(xí)性能,操作步驟包括(1)選取對數(shù)據(jù)集敏感的學(xué)習(xí)算法L;(2)針對給定的未標(biāo)記數(shù)據(jù)集Du、已標(biāo)記數(shù)據(jù)集(初始訓(xùn)練集、測試集T及學(xué)習(xí)算法L,對D1運(yùn)用Bootstrap技術(shù)抽取四次,得到樣本數(shù)等于| D11的四個(gè)訓(xùn)練集S1, S2,S3, S4, 用算法L對四個(gè)訓(xùn)練集分別訓(xùn)練出分類器C1, C2, C3, C4 ;(3)對于任一個(gè)由算法L訓(xùn)練出的分類器Ci(i = 1,2,3,4),維護(hù)其獨(dú)自的訓(xùn)練集SiG =1,2,3,4),將滿足{χ I χ e Du,且 Cj (χ) = Ck(x) = Cm(x),j,k,m 乒 i}的無標(biāo)記樣本 χ 加入到Si中,將滿足{χ I χ e Du,且Cj (Χ) Φ Ck (χ)興Cm (χ),j,k,m乒i}的無標(biāo)記樣本χ,由主動(dòng)學(xué)習(xí)對無標(biāo)記樣本χ進(jìn)行標(biāo)記后也加入到Si中,遍歷完Du后,得到更新后的S/ ;(4)對于每個(gè)分類器CiQ= 1,2,3,4),若ISi' I > ISiI,則對Ci利用訓(xùn)練集S/重新訓(xùn)練,得到分類器C/ ;(5)對于每個(gè)分類器Ci,若C/Φ Ci,則轉(zhuǎn)步驟(3),直到四個(gè)分類器都不再更新為止;(6)最終的判決結(jié)果由四個(gè)分類器的判決結(jié)果組合而成,輸出分類的錯(cuò)誤率。
2.根據(jù)權(quán)利要求1所述的結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,其特征在于,步驟 (3)所述的主動(dòng)學(xué)習(xí)對無標(biāo)記樣本χ進(jìn)行標(biāo)記時(shí),是在實(shí)驗(yàn)驗(yàn)證中通過查看原始數(shù)據(jù)集獲取真實(shí)類別實(shí)現(xiàn)的。
3.根據(jù)權(quán)利要求1所述的結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,其特征在于,步驟 (3)所述的步驟中使用了四個(gè)分類器;根據(jù)未標(biāo)記樣本數(shù)量和分類器的識別率來選擇更合適的分類器數(shù)目。
4.根據(jù)權(quán)利要求1所述的結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,其特征在于,步驟 (6)所述的四個(gè)分類器的判決結(jié)果組合,采用多數(shù)投票規(guī)則。
全文摘要
本發(fā)明公開了一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法,涉及結(jié)合主動(dòng)學(xué)習(xí)的協(xié)同訓(xùn)練,屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域。本發(fā)明在實(shí)現(xiàn)過程中使用了四個(gè)分類器,及主動(dòng)學(xué)習(xí),對協(xié)同訓(xùn)練方法作了進(jìn)一步的改進(jìn)。本發(fā)明由于采用四個(gè)分類器進(jìn)行協(xié)同訓(xùn)練,將三個(gè)分類器的判決都一致的樣本直接添加到訓(xùn)練集中,可以保證在提高未標(biāo)記樣本置信度的同時(shí),避免引入過多噪聲;本發(fā)明由于針對難分樣本進(jìn)行主動(dòng)學(xué)習(xí),提高了學(xué)習(xí)的效果,同時(shí)對這類樣本的妥善處理有助于修正各分類器的識別函數(shù);本發(fā)明由于將三個(gè)分類器的判決都不一致的樣本作為難分樣本,使得進(jìn)行主動(dòng)學(xué)習(xí)的條件要求較高,且實(shí)現(xiàn)簡單。本發(fā)明適用于諸如網(wǎng)頁分類、圖象處理、人臉識別、入侵監(jiān)測等應(yīng)用領(lǐng)域。
文檔編號G06K9/66GK102324046SQ20111025757
公開日2012年1月18日 申請日期2011年9月1日 優(yōu)先權(quán)日2011年9月1日
發(fā)明者楊利英, 王軼初, 盛立杰, 韓玉想 申請人:西安電子科技大學(xué)