一種用于在線學習的樣本集訓(xùn)練方法
【專利摘要】本發(fā)明公開了一種用于在線學習的樣本集訓(xùn)練方法。該方法將初始樣本集劃分成若干個樣本子集,再將每個樣本子集根據(jù)權(quán)重分布隨機劃分成訓(xùn)練集和測試集。對于訓(xùn)練集,先求取殼向量集,并將其作為新的訓(xùn)練集來進行支持向量機的訓(xùn)練。若生成的支持向量機不滿足收斂條件,則丟棄該支持向量機并重新訓(xùn)練。最后將所有支持向量機利用權(quán)重投票方式產(chǎn)生一個集成的支持向量機。本發(fā)明在樣本集上引入了一定的隨機性,從而間接地提高了支持向量機的多樣性,使得集成后的支持向量機能克服自身“災(zāi)難性遺忘”缺陷,起到支持在線學習的目的。同時在不影響分類精度的情況下,還能大幅減少支持向量機的訓(xùn)練時間。
【專利說明】一種用于在線學習的樣本集訓(xùn)練方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于在線學習【技術(shù)領(lǐng)域】,涉及一種用于在線學習的樣本集訓(xùn)練方法。
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)領(lǐng)域,數(shù)據(jù)集是隨著時間的推移不斷產(chǎn)生的,所以在完整的數(shù)據(jù)集上進行機器學習是個幾乎不可能的事情,這就需要學習器能夠不斷地進行學習,而傳統(tǒng)的機器學習方法已經(jīng)無法滿足這一要求,在線學習就是針對上述情況應(yīng)運而生的。
[0003]支持向量機作為機器學習領(lǐng)域的一個重要研究分支,因為自身完善的數(shù)學理論和良好的實際應(yīng)用效果,目前在很多領(lǐng)域都獲得了應(yīng)用。但傳統(tǒng)的支持向量機屬于性能穩(wěn)定的分類器,有“災(zāi)難性遺忘”缺陷,所以是無法進行在線學習的。
[0004]本發(fā)明針對支持向量機的上述缺陷,提出了新的方法,使支持向量機不僅能支持在線學習,而且還可有效減少支持向量機的訓(xùn)練時間。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足,提供一種用于在線學習的樣本集訓(xùn)練方法,使支持向量機能克服自身缺陷,從而更好地應(yīng)用于在線學習領(lǐng)域。
[0006]本發(fā)明為解決上述技術(shù)問題所采用的技術(shù)方案如下:
[0007]步驟(1)準備一個初始樣本集S,并將其分成K個樣本子集Sk,其中k=l,2,…,K。每個樣本子集Sk有m個樣本(Xi, Yi),i=l, 2,…,m,并且都需要進行Tk次迭代。
[0008]步驟⑵針對每個樣本子集Sk,按照下列步驟依次進行Tk次迭代:
[0009]步驟(2.1)對樣本子集Sk的樣本權(quán)值進行初始化,其中權(quán)值W1 (i) = D1 (i) = I/m0
[0010]步驟(2.2)設(shè)t的初始值為1,執(zhí)行完下列步驟后t值自加一,直至t值大于Tk。
[0011]步驟(2.2.1)對樣本權(quán)值Wt進行歸一化,建立分布馬
【權(quán)利要求】
1.一種用于在線學習的樣本集訓(xùn)練方法,其特征在于該方法包括以下步驟: 步驟(1)準備一個初始樣本集S,并將其分成K個樣本子集Sk,其中k=l,2,…,K ;每個樣本子集Sk有m個樣本(Xi,Yi),i=l, 2,…,m,并且都需要進行Tk次迭代; 步驟(2)針對每個樣本子集Sk,按照下列步驟依次進行Tk次迭代: 步驟(2.1)對樣本子集Sk的樣本權(quán)值進行初始化,其中權(quán)值W1Q) = D1(I) = Ι/m ; 步驟(2.2)設(shè)t的初始值為1,執(zhí)行完下列步驟后t值自加一,直至t值大于Tk ;
步驟(2.2.1)對樣本權(quán)值Wt進行歸一化,建立分布
【文檔編號】G06K9/66GK103886340SQ201410069210
【公開日】2014年6月25日 申請日期:2014年2月27日 優(yōu)先權(quán)日:2014年2月27日
【發(fā)明者】沈海斌, 卞桂龍 申請人:浙江大學