結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法

文檔序號：6432239閱讀：615來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法
技術(shù)領(lǐng)域：
本發(fā)明屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域，涉及結(jié)合主動(dòng)學(xué)習(xí)的協(xié)同訓(xùn)練，具體是一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，可用于提高半監(jiān)督學(xué)習(xí)中未標(biāo)記樣本的利用率，進(jìn)一步提高半監(jiān)督學(xué)習(xí)的學(xué)習(xí)性能。所提出的方法適用于諸如網(wǎng)頁分類、圖象處理、人臉識別、入侵監(jiān)測等應(yīng)用領(lǐng)域。
背景技術(shù)：
標(biāo)準(zhǔn)協(xié)同訓(xùn)練方法是Blum和Mitchell在1998年提出的。他們提出了標(biāo)準(zhǔn)協(xié)同訓(xùn)練方法基于如下三個(gè)基本假設(shè)(1)屬性集可以被劃分為兩個(gè)集合；(2)每一個(gè)屬性集的子集合都足以訓(xùn)練一個(gè)分類器；C3)在給定類標(biāo)記的情況下，這兩個(gè)屬性集是相互獨(dú)立的。其中每個(gè)屬性集構(gòu)成一個(gè)視圖，滿足上述假設(shè)的視圖稱為充分冗余的視圖。然后分別對已標(biāo)記的樣本在這兩個(gè)屬性集上訓(xùn)練分類器，這樣得到兩個(gè)分類器，將這兩個(gè)分類器應(yīng)用到未標(biāo)記樣本上，然后選擇每個(gè)分類器對分類結(jié)果置信度高的未標(biāo)記樣本以及該樣本的預(yù)測標(biāo)記加入到另一個(gè)分類器已標(biāo)記樣本集中進(jìn)行下一輪的訓(xùn)練，如此迭代。標(biāo)準(zhǔn)協(xié)同訓(xùn)練方法的前提條件比較苛刻，在真實(shí)的問題中，滿足充分冗余的要求往往很難達(dá)到。就Blum和Mitchell所述的網(wǎng)頁分類而言，因?yàn)榫W(wǎng)頁本身的信息這一視圖與超鏈接上的信息這一視圖很難滿足條件獨(dú)立性，而且大多數(shù)問題不具有足夠大的屬性集，因此很難滿足該方法有效的前提條件。很多研究人員就嘗試放松這三個(gè)假設(shè)。也有學(xué)者提出了使用不同的分類器在整個(gè)屬性集上訓(xùn)練的方法，訓(xùn)練時(shí)，首先利用已標(biāo)記樣本對兩個(gè)不同的分類器在整個(gè)屬性集上進(jìn)行訓(xùn)練，再用這兩個(gè)分類器互相將自己在未標(biāo)記樣本上置信度較高的標(biāo)記加入到對方的訓(xùn)練集中去再訓(xùn)練。此后又將集成學(xué)習(xí)的思想加入到以前的方法中去提高算法性能，基于整個(gè)屬性集訓(xùn)練一組分類器，利用投票機(jī)制對未標(biāo)記樣本進(jìn)行標(biāo)記，加入到已標(biāo)記樣本集中再訓(xùn)練，最后的分類結(jié)果由一種改進(jìn)的加權(quán)投票機(jī)制決定。但是由于上述的方法挑選未標(biāo)記示例進(jìn)行標(biāo)記的過程中以及選擇分類器對未見示例進(jìn)行預(yù)測的過程中頻繁地使用10倍交叉驗(yàn)證，使得其計(jì)算開銷很大，因此Z. H. Zhou和M. Li在 2005年提出了 tri-training的方法，使用三個(gè)分類器，如果兩個(gè)分類器分類結(jié)果一致，那么就將該未標(biāo)記樣本加入到已標(biāo)記樣本中去，這樣的做法避免了頻繁地計(jì)算10倍交叉驗(yàn)證，節(jié)省了計(jì)算開銷，同時(shí)他們的方法不需要基于冗余的視圖。并且他們基于噪音學(xué)習(xí)理論分析出以較高概率確保這一做法有效的條件，在引入大量未標(biāo)記樣本的情況下，噪聲所帶來的負(fù)面影響可以被抵消。Tri-Training方法的步驟如下輸入未標(biāo)記數(shù)據(jù)集Du，已標(biāo)記數(shù)據(jù)集(初始訓(xùn)練集)D1;測試集T，某種學(xué)習(xí)算法 L0輸出分類的錯(cuò)誤率。Stepl 隨即抽樣D1,抽取三次，得到樣本數(shù)等于|D」的三個(gè)訓(xùn)練集Si, Si, S3，用L 訓(xùn)練出分類器CnCyC315
St印2 對于任一個(gè)由算法L訓(xùn)練出的分類器(；(1 = 1，2，3)，維護(hù)其獨(dú)自的訓(xùn)練集 Si (i = 1，2，3)，將滿足{χ ι X e Du，且 Cj (χ) = Ck (χ), j, k ^ i}的無標(biāo)記樣本 χ 加入到 Si 中。遍歷完Du后，得到更新后的S/。乂印3:對于每個(gè)(；“ =1，2，3)，若ISi' I > I S」，則對Ci利用訓(xùn)練集S/重新訓(xùn)練，得到分類器C/。乂印4:對于每個(gè)Ci,若Ci'興Ci,則轉(zhuǎn)乂印2，直到3個(gè)分類器都不再更新為止。St印5 最終的判決結(jié)果由這3個(gè)分類器的判決結(jié)果組合而成。通過上面的步驟可以看出來，標(biāo)準(zhǔn)的Tri-Training方法，使用的是3個(gè)同構(gòu)的分類器，通過在D1I隨機(jī)抽取樣本大小為ID1I的數(shù)據(jù)來訓(xùn)練出不同的分類器，訓(xùn)練出三個(gè)分類器C1,c2，C3都維護(hù)著各自的訓(xùn)練集。遍歷未標(biāo)記數(shù)據(jù)集Du，對于每一個(gè)樣本，由其中兩個(gè)分類器協(xié)同對其類別進(jìn)行判斷，如果分類一致就加入到第三個(gè)分類器的訓(xùn)練集中，遍歷完后在更新后的訓(xùn)練集上使用學(xué)習(xí)算法重新訓(xùn)練分類器，重復(fù)此過程直到分類器都不再更新為止。在協(xié)同訓(xùn)練方法中，擴(kuò)充訓(xùn)練集的前提是對未標(biāo)記樣本進(jìn)行標(biāo)記，該標(biāo)記的置信度非常重要，如果置信度很低，那會(huì)引入很多“噪聲”，訓(xùn)練出的分類器性能會(huì)降低，用兩個(gè)分類器對一個(gè)未標(biāo)記樣本做判斷，判斷一致的概率很高，考慮一種極端情況，待標(biāo)記樣本只有兩種可能的類別，即使分類器是對樣本隨機(jī)分類的，依然有50%的概率分類一致，因此引入更多的分類器對未標(biāo)記樣本的類別做出判定可以提高被標(biāo)記樣本的置信度，若多個(gè)分類器對一個(gè)樣本的標(biāo)記一致，則該標(biāo)記的置信度會(huì)更高。另一方面，對于兩個(gè)分類器判定不一致的未標(biāo)記樣本，傳統(tǒng)協(xié)同訓(xùn)練方法的做法是舍棄該樣本，這樣會(huì)對未標(biāo)記樣本造成一定程度的浪費(fèi)，尤其是當(dāng)兩個(gè)分類器誤識率比較高，數(shù)據(jù)集的類別比較多時(shí)，對于未標(biāo)記樣本類別的判定不一致的可能性會(huì)增大。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有協(xié)同訓(xùn)練方法的不足，提出一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，避免了在學(xué)習(xí)過程中引入過多噪聲，提高了對標(biāo)記樣本的利用率，實(shí)現(xiàn)簡單，能夠得到更高的識別率。本發(fā)明是一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，即CTAKollaborative Training with Active Learning)。為了實(shí)現(xiàn)發(fā)明目的，本發(fā)明的技術(shù)方案是采用四個(gè)分類器進(jìn)行協(xié)同訓(xùn)練并結(jié)合主動(dòng)學(xué)習(xí)技術(shù)提高半監(jiān)督學(xué)習(xí)性能，操作步驟包括(1)選取對數(shù)據(jù)集敏感的學(xué)習(xí)算法L ；(2)針對給定的未標(biāo)記數(shù)據(jù)集Du、已標(biāo)記數(shù)據(jù)集(初始訓(xùn)練集、測試集T及學(xué)習(xí)算法LJiD1運(yùn)用Bootstrap技術(shù)抽取四次，得到樣本數(shù)等于！D1I的四個(gè)訓(xùn)練集S1, S2，S3， S4，用L訓(xùn)練出分類器C1, C2, C3, C4 ；(3)對于任一個(gè)由算法L訓(xùn)練出的分類器Ci (i = 1，2，3，4)，維護(hù)其獨(dú)自的訓(xùn)練集 Si (i = 1，2，3，4)，將滿足{x IX e Du，且 Cj (X) = Ck(x) = Cm(x)，j，k，m 興 i}的無標(biāo)記樣本 χ加入到Si中，將滿足{χ I χ e Du，且Cj (χ) Φ Ck (χ)興Cm(χ)，j，k，m乒i}的無標(biāo)記樣本χ, 由主動(dòng)學(xué)習(xí)對其類別進(jìn)行標(biāo)記后也加入到Si中，遍歷完Du后，得到更新后的S/ ；(4)對于每個(gè)CiQ = 1，2，3，4)，若| > | Si |，則對Ci利用訓(xùn)練集S/重新訓(xùn)練，得到分類器C/ ；(5)對于每個(gè)Ci,若C/ Φ Ci,則轉(zhuǎn)(3)，直到四個(gè)分類器都不再更新為止；(6)最終的判決結(jié)果由四個(gè)分類器的判決結(jié)果組合而成，輸出分類的錯(cuò)誤率?，F(xiàn)有的使用三個(gè)分器的Tri-Training技術(shù)中，在更新每一個(gè)分類器的訓(xùn)練集時(shí)，對于每一個(gè)未標(biāo)記樣本，另外兩個(gè)分類器判決結(jié)果一致的可能性很大，使未標(biāo)記樣本的置信度不夠高，會(huì)引入許多噪音；在本發(fā)明中，使用了四個(gè)分類器，提高了未標(biāo)記樣本的置信度，從而避免了引入噪音。在傳統(tǒng)的協(xié)同訓(xùn)練方法中，對于兩個(gè)分類器分類不一致的標(biāo)記樣本，在操作中會(huì)舍棄這個(gè)樣本，在一定程度上造成了對未標(biāo)記樣本的浪費(fèi)；本發(fā)明中采取了對訓(xùn)練集敏感的學(xué)習(xí)算法，在分類器對未標(biāo)記樣本分類都不一致時(shí)，利用主動(dòng)學(xué)習(xí)對這樣的未標(biāo)記樣本進(jìn)行標(biāo)記并加以利用，從而更有效的利用了未標(biāo)記樣本并且有助于修正各分類器的分類函數(shù)。本發(fā)明的實(shí)現(xiàn)還在于步驟C3)所述的主動(dòng)學(xué)習(xí)對無標(biāo)記樣本χ進(jìn)行標(biāo)記時(shí)，是在實(shí)驗(yàn)驗(yàn)證中通過查看原始數(shù)據(jù)集獲取真實(shí)類別實(shí)現(xiàn)的；這樣做可以更有效的利用未標(biāo)記樣本，通過這樣的處理有助于修正各分類器的分類函數(shù)。本發(fā)明的實(shí)現(xiàn)還在于步驟C3)所述的步驟中使用了四個(gè)分類器；根據(jù)未標(biāo)記樣本數(shù)量和分類器的識別率來選擇更合適的分類器數(shù)目；使用多個(gè)分類器，可以提高未標(biāo)記樣本的置信度，避免引入噪音，以得到更好的分類效果。本發(fā)明的實(shí)現(xiàn)還在于步驟(6)所述的四個(gè)分類器的判決結(jié)果組合，采用多數(shù)投票規(guī)則；盡量提高了分類的正確率。本發(fā)明的實(shí)現(xiàn)使用了四個(gè)分類器，在對每一個(gè)分類器的訓(xùn)練集更新的過程中，其它三個(gè)分類器的判決結(jié)果不一致的情況下，使用了主動(dòng)學(xué)習(xí)，有效利用了未標(biāo)記樣本，提高了分類的正確率。與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果有一、本發(fā)明由于采用四個(gè)基分類器進(jìn)行協(xié)同訓(xùn)練，將三個(gè)分類器的判決都一致的樣本直接添加到訓(xùn)練集中，可以保證在提高未標(biāo)記樣本置信度的同時(shí)，避免引入過多噪聲；二、本發(fā)明由于針對難分樣本進(jìn)行主動(dòng)學(xué)習(xí)，提高了半監(jiān)督學(xué)習(xí)的效果，其本質(zhì)上就是專家會(huì)診，具有重要的現(xiàn)實(shí)意義，同時(shí)對這類樣本的妥善處理有助于修正各分類器的識別函數(shù)；三、本發(fā)明由于將三個(gè)分類器的判決都不一致的樣本作為難分樣本，使得進(jìn)行主動(dòng)學(xué)習(xí)的條件要求較高，且實(shí)現(xiàn)簡單。

圖1是本發(fā)明的流程框圖；圖2是三種半監(jiān)督學(xué)習(xí)算法訓(xùn)練出的集成分類器識別率的對比；圖3是本發(fā)明的結(jié)構(gòu)框具體實(shí)施例方式實(shí)施例1
本發(fā)明是一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，即CTA方法，以i ris為例，給出CTA方法的實(shí)施過程如下輸入包含96個(gè)樣本的未標(biāo)記數(shù)據(jù)集Du，包含M個(gè)樣本的已標(biāo)記數(shù)據(jù)集D1，包含 30個(gè)樣本的測試集T。輸出測試集T上的分類錯(cuò)誤率。①選取對數(shù)據(jù)集敏感的樸素貝葉斯算法L ；②針對取出的包含96個(gè)樣本的未標(biāo)記數(shù)據(jù)集Du、包含M個(gè)樣本的已標(biāo)記數(shù)據(jù)集(初始訓(xùn)練集)D1、包含30個(gè)樣本的測試集T及樸素貝葉斯算法L，結(jié)合圖1對D1運(yùn)用 Bootstrap技術(shù)抽取四次，得到樣本數(shù)等于！D1I的四個(gè)訓(xùn)練集S1, S2, S3,、，用算法L訓(xùn)練出分類器C1 j C2，C3，C4 ；由于選取了對訓(xùn)練集敏感的樸素貝葉斯學(xué)習(xí)算法L，這四個(gè)分類器的差異性足夠大，提高了分類的效果。③結(jié)合圖1對于任一個(gè)由算法L訓(xùn)練出的分類器Ci(i = 1，2，3，4)，維護(hù)其獨(dú)自的訓(xùn)練集 Si (i = 1，2，3，4)，將滿足{χ |x e Du，且 Cj (x) = Ck (χ) = Cm (χ), j，k，m 乒 i}的未標(biāo)記樣本χ加入到Si中，將滿足{χ I χ e Du，且Cj(X) Φ Ck(X) Φ Cm(X)，j，k，m乒i}的無標(biāo)記樣本X，由主動(dòng)學(xué)習(xí)對未標(biāo)記樣本χ進(jìn)行標(biāo)記后也加入到Si中，遍歷完Du后，得到更新后的Si’。在這個(gè)步驟中使用了四個(gè)分類器；在未標(biāo)記樣本數(shù)量U —定的情況下，分類器越多，能夠有效利用(若干個(gè)分類器對無標(biāo)記樣本的分類一致時(shí)，這個(gè)樣本就是叫有效利用) 的樣本數(shù)越少；一方面更多的分類器對一個(gè)樣本類別標(biāo)記一致時(shí)，該標(biāo)記的置信度更高，另一方面能夠有效利用的樣本數(shù)越多，訓(xùn)練的分類器識別率越高；根據(jù)未標(biāo)記樣本數(shù)量和分類器的識別率來選擇更合適的分類器數(shù)目。在主動(dòng)學(xué)習(xí)對無標(biāo)記樣本χ進(jìn)行標(biāo)記時(shí)，是在實(shí)驗(yàn)驗(yàn)證中通過查看原始數(shù)據(jù)集獲取真實(shí)類別實(shí)現(xiàn)的。實(shí)驗(yàn)中，還統(tǒng)計(jì)了在10次實(shí)驗(yàn)中CTA方法通過主動(dòng)學(xué)習(xí)標(biāo)記類別的平均次數(shù)； iris的未標(biāo)記樣本數(shù)目為96，通過主動(dòng)學(xué)習(xí)標(biāo)記類別的平均次數(shù)為1. 9 ；可見通過主動(dòng)學(xué)習(xí)標(biāo)記類別的次數(shù)是很少的；④對于每個(gè)CiQ = 1，2，3，4)，若！Si' | > | Si |，則對Ci利用訓(xùn)練集S/重新訓(xùn)練，得到分類器C/ ；⑤對于每個(gè)Ci,若C/ Φ Ci,則轉(zhuǎn)(3)，直到四個(gè)分類器都不再更新為止；⑥最終的判決結(jié)果由四個(gè)分類器的判決結(jié)果組合而成，輸出分類的錯(cuò)誤率。通過使用三種半監(jiān)督學(xué)習(xí)算法訓(xùn)練出的集成分類器識別率的對比，如圖2所示， CTA方法優(yōu)于Co-Training方法和Tri-Training方法，學(xué)習(xí)效果很好，且主動(dòng)學(xué)習(xí)的次數(shù)很少，表明該方法使用盡可能少的查詢獲得了強(qiáng)泛化能力，是一種效果良好的半監(jiān)督學(xué)習(xí)方法。實(shí)施例2 結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法同實(shí)施例1，以thyroid為例，參見圖3，具體流程如下取出552個(gè)數(shù)據(jù)放入已標(biāo)記數(shù)據(jù)集，取出138個(gè)數(shù)據(jù)放入未標(biāo)記數(shù)據(jù)集，剩下的數(shù)據(jù)放放入測試集。在已標(biāo)記數(shù)據(jù)集的基礎(chǔ)上，用Boostrap方法取出四個(gè)大小為552個(gè)的訓(xùn)練樣本集。用已選取的學(xué)習(xí)算法對這四個(gè)訓(xùn)練樣本集分別訓(xùn)練，得出四個(gè)分類器。用這四個(gè)分類器去判定未標(biāo)記數(shù)據(jù)集中的數(shù)據(jù)，對于一個(gè)分類器C來說，如果其他三個(gè)分類器的判決結(jié)果是相同的，那這個(gè)數(shù)據(jù)被標(biāo)記為分類器的判決結(jié)果，然后加入到分類器C相對應(yīng)的訓(xùn)練樣本集里，如果其他三個(gè)分類器的判決結(jié)果彼此都不相同，那么用主動(dòng)學(xué)習(xí)將這個(gè)數(shù)據(jù)標(biāo)記后加入到C相對應(yīng)的訓(xùn)練樣本集中。如果分類器對應(yīng)的訓(xùn)練集有更新，就用新的數(shù)據(jù)集去重新訓(xùn)練相對應(yīng)的分類器，然后驗(yàn)證，直到分類器無更新為止。用訓(xùn)練好的四個(gè)分類器對測試集的數(shù)據(jù)進(jìn)行分類，最后的判決結(jié)果以四個(gè)分類器的判決結(jié)果組合而成。
具體實(shí)施方式
如例1，通過實(shí)驗(yàn)驗(yàn)證，如圖2所示，相對于Co-Training方法和 Tri-Training方法，CTA方法的學(xué)習(xí)效果很好；在CTA的10次實(shí)驗(yàn)中，未標(biāo)記樣本數(shù)為138，主動(dòng)學(xué)習(xí)的次數(shù)為2. 5次，表明本發(fā)明使用盡可能少的查詢獲得了強(qiáng)泛化能力，是一種避免引入噪聲，識別率更高，效果良好的半監(jiān)督學(xué)習(xí)方法。實(shí)施例3 結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法同實(shí)施例1-2，以wine為例，具體實(shí)施方式
如例1，通過實(shí)驗(yàn)驗(yàn)證，如圖2所示的wine數(shù)據(jù)集的結(jié)果，CTA方法的學(xué)習(xí)效果優(yōu)于 Co-Training方法和Tri-Training方法；在CTA的10實(shí)驗(yàn)中，未標(biāo)記樣本數(shù)為114，主動(dòng)學(xué)習(xí)的平均次數(shù)為1.7次，表明本發(fā)明使用盡可能少的查詢獲得了強(qiáng)泛化能力，是一種實(shí)現(xiàn)簡單，識別率更高，效果良好的半監(jiān)督學(xué)習(xí)方法。實(shí)施例4 結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法同實(shí)施例1 -3以heart為例，具體實(shí)施方式
如例1，通過實(shí)驗(yàn)驗(yàn)證，如圖2所示的heart數(shù)據(jù)集的，CTA方法的學(xué)習(xí)效果優(yōu)于 Co-Training方法和Tri-Training方法；在CTA的10次實(shí)驗(yàn)中，未標(biāo)記樣本數(shù)為173，由于heart是二分類數(shù)據(jù)，所以沒有使用主動(dòng)學(xué)習(xí)，但效果要好于Co-Training方法和 Tri-Training方法，表明本發(fā)明是一種強(qiáng)泛化性，效果良好的半監(jiān)督學(xué)習(xí)方法。本發(fā)明公開了一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，涉及結(jié)合主動(dòng)學(xué)習(xí)的協(xié)同訓(xùn)練，屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域。本發(fā)明在實(shí)現(xiàn)過程中使用了四個(gè)分類器，并且使用了主動(dòng)學(xué)習(xí)，對協(xié)同訓(xùn)練方法進(jìn)一步的改進(jìn)。本發(fā)明由于采用四個(gè)基分類器進(jìn)行協(xié)同訓(xùn)練，將三個(gè)分類器的判決都一致的樣本直接添加到訓(xùn)練集中，可以保證在提高未標(biāo)記樣本置信度的同時(shí)，避免引入過多噪聲；本發(fā)明由于針對難分樣本進(jìn)行主動(dòng)學(xué)習(xí)，提高了半監(jiān)督學(xué)習(xí)的效果，同時(shí)對這類樣本的妥善處理有助于修正各分類器的識別函數(shù)；本發(fā)明由于將三個(gè)分類器的判決都不一致的樣本作為難分樣本，使得進(jìn)行主動(dòng)學(xué)習(xí)的條件要求較高，且實(shí)現(xiàn)簡單。本發(fā)明適用于諸如網(wǎng)頁分類、圖象處理、人臉識別、入侵監(jiān)測等應(yīng)用領(lǐng)域。
權(quán)利要求
1.結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，其特征在于采用四個(gè)分類器進(jìn)行協(xié)同訓(xùn)練并結(jié)合主動(dòng)學(xué)習(xí)技術(shù)提高半監(jiān)督學(xué)習(xí)性能，操作步驟包括(1)選取對數(shù)據(jù)集敏感的學(xué)習(xí)算法L；(2)針對給定的未標(biāo)記數(shù)據(jù)集Du、已標(biāo)記數(shù)據(jù)集(初始訓(xùn)練集、測試集T及學(xué)習(xí)算法L，對D1運(yùn)用Bootstrap技術(shù)抽取四次，得到樣本數(shù)等于| D11的四個(gè)訓(xùn)練集S1, S2，S3, S4, 用算法L對四個(gè)訓(xùn)練集分別訓(xùn)練出分類器C1, C2, C3, C4 ；(3)對于任一個(gè)由算法L訓(xùn)練出的分類器Ci(i = 1，2，3，4)，維護(hù)其獨(dú)自的訓(xùn)練集SiG =1，2，3，4)，將滿足{χ I χ e Du，且 Cj (χ) = Ck(x) = Cm(x)，j，k，m 乒 i}的無標(biāo)記樣本 χ 加入到Si中，將滿足{χ I χ e Du，且Cj (Χ) Φ Ck (χ)興Cm (χ)，j，k，m乒i}的無標(biāo)記樣本χ,由主動(dòng)學(xué)習(xí)對無標(biāo)記樣本χ進(jìn)行標(biāo)記后也加入到Si中，遍歷完Du后，得到更新后的S/ ；(4)對于每個(gè)分類器CiQ= 1，2，3，4)，若ISi' I > ISiI,則對Ci利用訓(xùn)練集S/重新訓(xùn)練，得到分類器C/ ；(5)對于每個(gè)分類器Ci,若C/Φ Ci,則轉(zhuǎn)步驟(3)，直到四個(gè)分類器都不再更新為止；(6)最終的判決結(jié)果由四個(gè)分類器的判決結(jié)果組合而成，輸出分類的錯(cuò)誤率。
2.根據(jù)權(quán)利要求1所述的結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，其特征在于，步驟 (3)所述的主動(dòng)學(xué)習(xí)對無標(biāo)記樣本χ進(jìn)行標(biāo)記時(shí)，是在實(shí)驗(yàn)驗(yàn)證中通過查看原始數(shù)據(jù)集獲取真實(shí)類別實(shí)現(xiàn)的。
3.根據(jù)權(quán)利要求1所述的結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，其特征在于，步驟 (3)所述的步驟中使用了四個(gè)分類器；根據(jù)未標(biāo)記樣本數(shù)量和分類器的識別率來選擇更合適的分類器數(shù)目。
4.根據(jù)權(quán)利要求1所述的結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，其特征在于，步驟 (6)所述的四個(gè)分類器的判決結(jié)果組合，采用多數(shù)投票規(guī)則。
全文摘要
本發(fā)明公開了一種結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法，涉及結(jié)合主動(dòng)學(xué)習(xí)的協(xié)同訓(xùn)練，屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域。本發(fā)明在實(shí)現(xiàn)過程中使用了四個(gè)分類器，及主動(dòng)學(xué)習(xí)，對協(xié)同訓(xùn)練方法作了進(jìn)一步的改進(jìn)。本發(fā)明由于采用四個(gè)分類器進(jìn)行協(xié)同訓(xùn)練，將三個(gè)分類器的判決都一致的樣本直接添加到訓(xùn)練集中，可以保證在提高未標(biāo)記樣本置信度的同時(shí)，避免引入過多噪聲；本發(fā)明由于針對難分樣本進(jìn)行主動(dòng)學(xué)習(xí)，提高了學(xué)習(xí)的效果，同時(shí)對這類樣本的妥善處理有助于修正各分類器的識別函數(shù)；本發(fā)明由于將三個(gè)分類器的判決都不一致的樣本作為難分樣本，使得進(jìn)行主動(dòng)學(xué)習(xí)的條件要求較高，且實(shí)現(xiàn)簡單。本發(fā)明適用于諸如網(wǎng)頁分類、圖象處理、人臉識別、入侵監(jiān)測等應(yīng)用領(lǐng)域。
文檔編號G06K9/66GK102324046SQ20111025757
公開日2012年1月18日申請日期2011年9月1日優(yōu)先權(quán)日2011年9月1日
發(fā)明者楊利英, 王軼初, 盛立杰, 韓玉想申請人:西安電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊利英;王軼初;韓玉想;盛立杰
技術(shù)所有人：西安電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：基于認(rèn)證策略文件和硬件信息收集的可信開機(jī)啟動(dòng)方法
上一篇：一種索引方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

結(jié)合主動(dòng)學(xué)習(xí)的四分類器協(xié)同訓(xùn)練方法