。
【具體實施方式】
[0051] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0052] 由于多標(biāo)簽分類問題的復(fù)雜性,在構(gòu)建分類器模型時需要耗費大量的時間和精力 來說收集帶標(biāo)簽的樣本。但是在真實世界中,獲取標(biāo)注樣本標(biāo)簽是非常少的,而且像在多標(biāo) 簽學(xué)習(xí)框架下,每個對象都對應(yīng)著多個類別,該就更增加了獲取標(biāo)注樣本的難度。面對存在 大量未標(biāo)注樣本的機器學(xué)習(xí)問題,主動學(xué)習(xí)是一種有效的解決方法。
[0053] 基于主動學(xué)習(xí)的多標(biāo)簽分類方法是基于啟發(fā)式學(xué)習(xí)策略的。首先,從海量的未標(biāo) 注樣本集中挑選出少量的高價值的樣本標(biāo)簽進行標(biāo)注,然后利用標(biāo)注的高價值樣本標(biāo)簽得 到較高性能的分類器模型。
[0化4] 多標(biāo)簽主動學(xué)習(xí)分類方法目前主要分為兩類:一類是基于樣本的方法,一類是基 于樣本-標(biāo)簽對的方法。對一個給定的樣本,由于內(nèi)在的標(biāo)簽關(guān)系,不同的標(biāo)簽對提高分類 器性能是不一樣的。在多標(biāo)簽學(xué)習(xí)問題中,學(xué)習(xí)者不僅需要選擇樣本而且還要挑選樣本標(biāo) 簽進行標(biāo)注。所W為了獲得更有效的主動學(xué)習(xí)算法,需要將采樣粒度提升到樣本-標(biāo)簽對 的級別。發(fā)現(xiàn)有價值的樣本標(biāo)簽關(guān)系是很有意義的工作,挖掘有價值的樣本標(biāo)簽關(guān)系能夠 提升算法的性能,有效地降低樣本標(biāo)注的工作量。因此,選擇合適的方法來度量樣本標(biāo)簽 間的關(guān)系是至關(guān)重要的。而且,發(fā)現(xiàn)樣本標(biāo)簽關(guān)系的過程必須有效,因為當(dāng)樣本標(biāo)簽數(shù)增加 時,樣本標(biāo)簽關(guān)系的捜索工作量將會呈指數(shù)級增長。
[0化5] 基于主動學(xué)習(xí)的多標(biāo)簽分類方法,本發(fā)明實施例提供了一種基于概念層次樹標(biāo)簽 關(guān)系推導(dǎo)的多標(biāo)簽主動學(xué)習(xí)分類方法,首先,構(gòu)造一棵概念層次樹用來對標(biāo)簽關(guān)系進行建 模。然后為樣本-標(biāo)簽對信息含量的度量設(shè)計了一個采樣標(biāo)準(zhǔn),采樣標(biāo)準(zhǔn)的設(shè)計思路是最 大化已標(biāo)注數(shù)據(jù)的似然性W及最小化未標(biāo)注數(shù)據(jù)的不確定性,并在原先不確定性考慮的基 礎(chǔ)上引入交叉標(biāo)簽不確定性用W表征樣本-標(biāo)簽對的標(biāo)簽關(guān)系強弱,并根據(jù)交叉標(biāo)簽不確 定性的重要程度,定義了相應(yīng)權(quán)重因子進行調(diào)節(jié)的采樣標(biāo)準(zhǔn)。再根據(jù)采樣標(biāo)準(zhǔn)挑選最優(yōu)的 樣本-標(biāo)簽對進行人工標(biāo)注,最后將標(biāo)注的樣本加入訓(xùn)練集,訓(xùn)練分類器。
[0化6] 請參考圖1,其示出了本發(fā)明實施例提供的一種多標(biāo)簽主動學(xué)習(xí)分類方法的流程 圖,可W包括W下步驟:
[0057] 步驟S101 ;分別采用對數(shù)似然獲取已標(biāo)注樣本標(biāo)簽對的似然度及采用滴的方式 獲取待標(biāo)注樣本標(biāo)簽對的不確定性。
[0化引主動學(xué)習(xí)在迭代過程中每次選擇最有信息含量的未標(biāo)注樣本標(biāo)簽進行人工標(biāo)注, 因此,在每次挑選完樣本標(biāo)簽后,更新后的分類器應(yīng)該能夠最大化已標(biāo)注樣本標(biāo)簽的似然 度W及最小化未標(biāo)注樣本標(biāo)簽的不確定性,便可W用更少的標(biāo)注代價獲得更精準(zhǔn)的分類 器。
[0化9] 具體的,現(xiàn)有的基于多標(biāo)簽主動學(xué)習(xí)分類方法中可W定義如下的得分函數(shù)來衡量 被選樣本標(biāo)簽的信息含量:
[0060]
[006U其中,Xi是樣本,yi是標(biāo)簽,uc是不確定性度量準(zhǔn)則,X,是待選樣本。wt是新的樣 本標(biāo)簽對訓(xùn)練集上獲得的參數(shù)向量。
[0062]基于上述的得分函數(shù),在已標(biāo)注樣本標(biāo)簽上用對數(shù)似然,在未標(biāo)注樣本標(biāo)簽上用 滴的方式定義了得分函數(shù)。因此,上述的得分函數(shù)很容易在多標(biāo)簽分類問題中衡量樣本標(biāo) 簽對的信息含量:
[0065]其中,A(乃Ix,,、如表示樣本標(biāo)簽對(Xj,yi)的滴,與化康示樣本Xj具有類 別標(biāo)簽yi的概率,&(乃U,壤示樣本X;具有類別標(biāo)簽yk的概率。
[0066] 然而W上式子的擴展,僅僅考慮了單個待標(biāo)注樣本標(biāo)簽對不確定性,并未考慮到 交叉標(biāo)簽不確定性。故本發(fā)明在上述考慮單個待標(biāo)注樣本標(biāo)簽不確定性的基礎(chǔ)上,又考慮 了交叉標(biāo)簽不確定性對建立分類器的影響。
[0067] 步驟S102 ;分別計算多個相同樣本的不同標(biāo)簽間的KL距離及多個不同標(biāo)簽間的 權(quán)重因子。
[0068]由于訓(xùn)練集中包括多個樣本,同時每個樣本具有多種標(biāo)簽,故在計算化距離是對 同一樣本的不同標(biāo)簽而言的。
[0069] 其中,交叉標(biāo)簽不確定性為實際觀察到的標(biāo)簽關(guān)系與分類器預(yù)測得到的標(biāo)簽關(guān)系 的信息的不一致。例如,當(dāng)一個圖片中同時存在大海和沙灘時,觀察到圖片的大海和沙灘兩 個標(biāo)簽是高度相關(guān)的,故當(dāng)該兩個標(biāo)簽的預(yù)測概率相沖突時,該兩個標(biāo)簽之間的不確定性 就產(chǎn)生了。
[0070] 為了衡量交叉標(biāo)簽的不確定性,我們采用KuUback-Leibler距離。而對于每個標(biāo) 簽,一定存在與之相關(guān)度較高的那些標(biāo)簽。對于該部分標(biāo)簽,我們應(yīng)該著重考慮它們的影 響。因此,考慮利用權(quán)重因子來度量標(biāo)簽相關(guān)度的高低。
[007U步驟S103 ;將每個化距離和與之相應(yīng)的權(quán)重因子進行乘法運算,獲取相應(yīng)的結(jié) 果,將多個結(jié)果進行相加,獲取與待標(biāo)注樣本標(biāo)簽對相關(guān)的待標(biāo)注樣本標(biāo)簽對的化距離 和,采用化距離和確定交叉標(biāo)簽不確定性。
[0072]在本發(fā)明實施例中采用KuUback-Leibler距離來衡量交叉標(biāo)簽不確定性。對一 個待標(biāo)注樣本標(biāo)簽對來說,除了訓(xùn)練得到的分類器模型,觀察到的標(biāo)簽關(guān)系也可W對該待 標(biāo)注樣本標(biāo)簽對的預(yù)測工作提供幫助。對于上述圖片中既包含大海又包含沙灘的實例而 言,由于大海和沙灘兩個標(biāo)簽高度相關(guān),故預(yù)測對大海標(biāo)簽的預(yù)測也可W作為對沙灘標(biāo)簽 的預(yù)測。其中,大海標(biāo)簽和沙灘標(biāo)簽的不一致性可W用化距離來衡量,即可W按照下式獲 取標(biāo)簽大海與標(biāo)簽沙灘的不一致性:
[007引其中,今V,0,JX)為樣本X具有標(biāo)簽ysaw的概率,成句為樣本X具有標(biāo)簽ysea的概率Dki^是KuUback-Leibler距離。
[0076] 因此,對于某個待標(biāo)注樣本標(biāo)簽對的交叉標(biāo)簽不確定性可W用該標(biāo)簽與其他所有 相關(guān)標(biāo)簽的化距罔和來衡量。
[0077] 需要說明的是,雖然某個待標(biāo)注樣本標(biāo)簽對的交叉標(biāo)簽不確定可W用該標(biāo)簽與其 他所有相關(guān)標(biāo)簽的化距離和來衡量。然而待標(biāo)注樣本標(biāo)簽對的相關(guān)標(biāo)簽的發(fā)現(xiàn)過程是一 個比較困難的過程。雖然可W通過一些現(xiàn)有的數(shù)據(jù)挖掘方法實現(xiàn),但該需要一定的前提條 件,如一些闊值的設(shè)定,但闊值設(shè)定的方法的精度無法得到保障。
[007引針對上述情況,本發(fā)明實施例提供可W種通過調(diào)整權(quán)重來平衡標(biāo)簽間的相關(guān)程 度。在實際計算中,給每組標(biāo)簽間的化距離加上一個權(quán)重因子,其中該權(quán)重因子是用來衡 量相關(guān)標(biāo)簽間的關(guān)系程度的。
[0079] 步驟S104 ;確定待標(biāo)注樣本標(biāo)簽對的最終不確定性。
[0080] 待標(biāo)注樣本標(biāo)簽對的最終不確定性為依據(jù)交叉標(biāo)簽不確定性和待標(biāo)注樣本標(biāo)簽 對的不確定性確定的。
[0081] 步驟S105 ;依據(jù)似然度和待標(biāo)注樣本標(biāo)簽對的最終不確定性獲取得分函數(shù),并依 據(jù)得分函數(shù)確定最優(yōu)待標(biāo)注樣本標(biāo)簽對,并對最優(yōu)待標(biāo)注樣本標(biāo)簽對進行標(biāo)注。
[0082] 利用上述的似然度/待標(biāo)注樣本標(biāo)簽對的最終不確定性便可W按照下式獲取得 分函數(shù):
[0083]
[0084] 其中,是權(quán)重因子。
[0085] 同時可W根據(jù)得分函數(shù)確定最優(yōu)待標(biāo)注樣本標(biāo)簽對,進而通過對最優(yōu)待標(biāo)注樣本 標(biāo)簽對進行人工標(biāo)注。
[0086] 其中,最優(yōu)待標(biāo)注樣本標(biāo)簽對可W按照下述公式獲?。?br>[0087]
[00蝴其中,S巧/最優(yōu)樣本集,Y%最優(yōu)標(biāo)簽集,f做為得分函數(shù)。
[0089] 需要說明的是,在本發(fā)明實施例中所公開的標(biāo)注方式與現(xiàn)有技術(shù)中的標(biāo)注方式可 W相同,在此不再進行詳細(xì)的闡述。
[0090] 可W理解的是,最優(yōu)待標(biāo)注樣本標(biāo)簽對通過得分函數(shù)可W確定信息含量高的待標(biāo) 注樣本標(biāo)簽。
[OOW] 步驟S106 ;將標(biāo)注完成的最優(yōu)待標(biāo)注標(biāo)簽對添加到樣本標(biāo)簽對訓(xùn)練集w獲取新 的樣本標(biāo)簽對訓(xùn)練集,并采用新的樣本標(biāo)簽對訓(xùn)練集訓(xùn)練分類器。
[0092] 其中,本發(fā)明實施例中將標(biāo)注完成后的最優(yōu)待標(biāo)注樣本標(biāo)簽對添加到樣本標(biāo)簽對 訓(xùn)練集中W得到新的樣本標(biāo)簽對訓(xùn)練集,并利用該樣本標(biāo)簽集訓(xùn)練分類器,由于本發(fā)明實 施例在獲取得分函數(shù)的過程中綜合考慮了已標(biāo)注樣本標(biāo)簽對的似然度、待標(biāo)注樣本標(biāo)簽對 的不確定性W及交叉標(biāo)簽不確定性,因此,采用得分函數(shù)獲取的最優(yōu)待標(biāo)注樣本標(biāo)簽對的 信息含量較高,故提高了待標(biāo)注樣本標(biāo)簽對標(biāo)注的效率,同時利用標(biāo)注后的最優(yōu)樣本標(biāo)簽 對訓(xùn)練得到的分類器的分類準(zhǔn)確率度也明顯提高,
[0093]本發(fā)明實施例提供了一種多標(biāo)簽主動學(xué)習(xí)分類方法,首先,分別采用對數(shù)似然獲 取已標(biāo)注樣本標(biāo)簽對的似然度及采用滴的方式獲取待標(biāo)注樣本標(biāo)簽對的不確定性;其次, 通過化距離和權(quán)重因子的關(guān)系獲取化距離和W確定交叉標(biāo)簽不確定性;再者,根據(jù)交叉標(biāo) 簽不確定性和待標(biāo)注樣本標(biāo)簽對的不確定性確定待標(biāo)注樣本標(biāo)簽對的最終不確定性,最后 依據(jù)似然度和待標(biāo)注樣本標(biāo)簽對的最終不確