域自適應(yīng)分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種域自適應(yīng)分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置,其中,該構(gòu)造方法包括:確定構(gòu)造域自適應(yīng)分類器的組合罰目標(biāo)函數(shù),其中,所述域自適應(yīng)分類器是對目標(biāo)域和源域的數(shù)據(jù)進(jìn)行分類的分類器;基于所述組合罰目標(biāo)函數(shù)確定域自適應(yīng)泛化誤差上界;基于所述自適應(yīng)泛化誤差上界,對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練,構(gòu)造出域自適應(yīng)分類器。本發(fā)明解決了現(xiàn)有技術(shù)中源域和目標(biāo)域分布不一致的問題,在保證收斂的前提下可以實(shí)現(xiàn)更為準(zhǔn)確的分類別,大幅度地降低了計(jì)算復(fù)雜度,解決了普通模式識別無法處理的跨領(lǐng)域信息處理的問題。
【專利說明】域自適應(yīng)分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)分類【技術(shù)領(lǐng)域】,特別涉及一種域自適應(yīng)(Domain Adaptation, DA) 分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置。
【背景技術(shù)】
[0002] 人工智能和機(jī)器學(xué)習(xí)的核心問題是:如何表示領(lǐng)域中存在的知識,以及如何利用 已有的知識進(jìn)行分析處理,得到人們所感興趣的知識。在當(dāng)前的機(jī)器學(xué)習(xí)研究領(lǐng)域中存在 著一個關(guān)鍵的問題,即,通常假設(shè)訓(xùn)練樣本和測試樣本來自同一概率分布,通過對訓(xùn)練樣本 進(jìn)行學(xué)習(xí)得到相應(yīng)的模型和判別準(zhǔn)則,對待測試的樣例的輸出進(jìn)行預(yù)測。但是在實(shí)際應(yīng)用 中,訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的分布可能是不同的,這就導(dǎo)致傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練得到的 模型無法有效地對待測試樣本的輸出進(jìn)行學(xué)習(xí)。
[0003] 在一些新出現(xiàn)的應(yīng)用領(lǐng)域(例如:Web數(shù)據(jù)挖掘、故障診斷、圖像處理、語音識別與 信息解碼等)中經(jīng)常會出現(xiàn)無法從這些新應(yīng)用領(lǐng)域中獲得訓(xùn)練數(shù)據(jù)的情況,然而,在這些 領(lǐng)域中與學(xué)習(xí)任務(wù)相關(guān)的數(shù)據(jù)量卻很大,如果要實(shí)現(xiàn)對目標(biāo)領(lǐng)域的學(xué)習(xí)就必須利用與這些 任務(wù)相關(guān)的數(shù)據(jù),然而訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)概率分布的不一致會嚴(yán)重影響傳統(tǒng)機(jī)器學(xué)習(xí)方 法的性能,相反地,即使擁有了大量的、在不同分布下的訓(xùn)練數(shù)據(jù),針對新的興趣領(lǐng)域,完全 丟棄這些訓(xùn)練數(shù)據(jù)而重新構(gòu)建訓(xùn)練數(shù)據(jù)也是非常困難的,而且成本極高。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例提供了一種域自適應(yīng)分類器的構(gòu)造方法,以達(dá)到降低計(jì)算復(fù)雜度, 解決普通模式識別無法處理的跨領(lǐng)域信息處理的問題的目的。該方法包括:
[0005] 確定構(gòu)造域自適應(yīng)分類器的組合罰目標(biāo)函數(shù),其中,所述域自適應(yīng)分類器是對目 標(biāo)域和源域的數(shù)據(jù)進(jìn)行分類的分類器;
[0006] 基于所述組合罰目標(biāo)函數(shù)確定域自適應(yīng)泛化誤差上界;
[0007] 基于所述自適應(yīng)泛化誤差上界,對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練,構(gòu)造出域自適 應(yīng)分類器。
[0008] 在一個實(shí)施例中,確定的所述組合罰目標(biāo)函數(shù)為:
[0009] ε α (h) = α ε T(h) + (l_a ) ε s(h)
[0010] 其中,ε α (h)表示組合罰目標(biāo)函數(shù),ε T(h)表示目標(biāo)域期望誤差,ε s(h)表示源 域期望誤差,a e [0,l],h表示假設(shè)函數(shù)類Η中的參考假設(shè)函數(shù)。
[0011] 在一個實(shí)施例中,所述目標(biāo)域期望誤差和所述源域期望誤差采用以下函數(shù)之一表 示:邏輯斯蒂損失函數(shù)、鉸鏈損失函數(shù)、最小二乘損失函數(shù)。
[0012] 在一個實(shí)施例中,基于所述組合罰目標(biāo)函數(shù)確定的域自適應(yīng)泛化誤差上界為:
[0013] 對于Vsr ,以至少1- δ的概率對所有h e Η成立以下不等式:
【權(quán)利要求】
1. 一種域自適應(yīng)分類器的構(gòu)造方法,其特征在于,包括: 確定構(gòu)造域自適應(yīng)分類器的組合罰目標(biāo)函數(shù),其中,所述域自適應(yīng)分類器是對目標(biāo)域 和源域的數(shù)據(jù)進(jìn)行分類的分類器; 基于所述組合罰目標(biāo)函數(shù)確定域自適應(yīng)泛化誤差上界; 基于所述自適應(yīng)泛化誤差上界,對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練,構(gòu)造出域自適應(yīng)分 類器。
2. 如權(quán)利要求1所述的方法,其特征在于,確定的所述組合罰目標(biāo)函數(shù)為: ε a (h) = α ε T(h) + (l-a ) ε s (h) 其中,εα〇〇表示組合罰目標(biāo)函數(shù),ετ〇!)表示目標(biāo)域期望誤差,es(h)表示源域期 望誤差,a e [〇,l],h表示假設(shè)函數(shù)類Η中的參考假設(shè)函數(shù)。
3. 如權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)域期望誤差和所述源域期望誤差 采用以下函數(shù)之一表示:邏輯斯蒂損失函數(shù)、鉸鏈損失函數(shù)、最小二乘損失函數(shù)。
4. 如權(quán)利要求2所述的方法,其特征在于,基于所述組合罰目標(biāo)函數(shù)確定的域自適應(yīng) 泛化誤差上界為: 對于,^,以至少1- δ的概率對所有h e Η成立以下不等式:
其中,Η表示d維假設(shè)空間的假設(shè)函數(shù)類,d表示維度,S = (ST,Ss)表示包含m個已 標(biāo)識樣例的樣本集,其中&表示來自目標(biāo)域化的βπι個已標(biāo)識樣例集,Ss表示來自源域 Ds的(Ι-β)πι個已標(biāo)識樣例集,US,UT表示m'個未標(biāo)識樣例集,k /?,石表示使組合經(jīng)驗(yàn) 誤差&(/?)取值最小的假設(shè)函數(shù),其中,組合經(jīng)驗(yàn)誤差= + % (/?) 表示目標(biāo)域經(jīng)驗(yàn)誤差,4 (>)表示源域經(jīng)驗(yàn)誤差,¥表示使目標(biāo)域誤差最小的假設(shè)函數(shù), = m/'/yy (/7),v/ (U、.,Uj·)表示源域和目標(biāo)域的經(jīng)驗(yàn)對稱差距離。
5. 如權(quán)利要求4所述的方法,其特征在于,基于所述自適應(yīng)泛化誤差上界,對兩個以上 分類器進(jìn)行協(xié)同訓(xùn)練,包括: 將確定的所述域自適應(yīng)泛化誤差上界轉(zhuǎn)換為如下的替代誤差上界: 對于j >以至少1- δ的概率對所有h e Η成立以下不等式:
其中,目標(biāo)域DT的樣例總個數(shù)為m',其中,已標(biāo)識樣例個數(shù)為,未標(biāo)識樣例個數(shù)為 ,源域Ds的樣例總個數(shù)為m',都是已標(biāo)識樣例; 基于所述替代誤差上界,對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練。
6. 如權(quán)利要求5所述的方法,其特征在于,基于所述替代誤差上界,對兩個以上分類器 進(jìn)行協(xié)同訓(xùn)練,包括: 獲取訓(xùn)練樣本集,其中,所述訓(xùn)練樣本集包括源域的訓(xùn)練樣本和目標(biāo)域的訓(xùn)練樣本; 對每個分類器進(jìn)行初始化,并為每個分類器分配訓(xùn)練樣本; 對每個分類器重復(fù)執(zhí)行以下操作,直至重復(fù)次數(shù)達(dá)到預(yù)定的最高重復(fù)次數(shù)或者各個分 類器的權(quán)值w的值不再變化:按照分類器當(dāng)前的訓(xùn)練樣本和w的值,對未標(biāo)識的目標(biāo)域樣例 進(jìn)行預(yù)測,對預(yù)測到的與其它分類器的預(yù)測結(jié)果不同的樣例進(jìn)行判別,如果滿足判別條件, 則將其它分類器中該樣例的預(yù)測結(jié)果作為已標(biāo)識樣例更新到該分類器的訓(xùn)練樣本中,依次 迭代求得所述目標(biāo)函數(shù)中w取值,將求得的w的取值作為下一次重復(fù)操作時w的取值; 將求得的w的值作為所述目標(biāo)函數(shù)的最優(yōu)解。
7. 如權(quán)利要求6所述的方法,其特征在于,其中,所述判別條件包括:
其中,t表示重復(fù)次數(shù),為正整數(shù)。
8. -種數(shù)據(jù)分類方法,其特征在于,包括: 獲取目標(biāo)域樣本數(shù)據(jù); 通過權(quán)利要求1至7中任一項(xiàng)所述的方法構(gòu)造的域自適應(yīng)分類器對所述樣本數(shù)據(jù)進(jìn)行 分類。
9. 一種域自適應(yīng)分類器的構(gòu)造裝置,其特征在于,包括: 目標(biāo)函數(shù)確定模塊,用于確定構(gòu)造域自適應(yīng)分類器的組合罰目標(biāo)函數(shù),其中,所述域自 適應(yīng)分類器是對目標(biāo)域和源域的數(shù)據(jù)進(jìn)行分類的分類器; 泛化誤差上界確定模塊,用于基于所述組合罰目標(biāo)函數(shù)確定域自適應(yīng)泛化誤差上界; 構(gòu)造模塊,用于基于所述自適應(yīng)泛化誤差上界,對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練,構(gòu)造 出域自適應(yīng)分類器。
10. 如權(quán)利要求9所述的裝置,其特征在于,所述目標(biāo)函數(shù)確定模塊確定的組合罰目標(biāo) 函數(shù)為: ε a (h) = α ε T(h) + (l-a ) ε s (h) 其中,εα〇〇表示組合罰目標(biāo)函數(shù),ετ〇!)表示目標(biāo)域期望誤差,es(h)表示源域期 望誤差,a e [〇,l],h表示假設(shè)函數(shù)類Η中的參考假設(shè)函數(shù)。
11. 如權(quán)利要求10所述的裝置,其特征在于,所述目標(biāo)域期望誤差和所述源域期望誤 差采用以下函數(shù)之一表示:邏輯斯蒂損失函數(shù)、鉸鏈損失函數(shù)、最小二乘損失函數(shù)。
12. 如權(quán)利要求11所述的裝置,其特征在于,所述泛化誤差上界確定模塊基于所述組 合罰目標(biāo)函數(shù)確定的域自適應(yīng)泛化誤差上界為: 對于VSr ¢0,以至少1- δ的概率對所有h e Η成立以下不等式:
其中,Η表示d維假設(shè)空間的假設(shè)函數(shù)類,d表示維度,S = (ST,Ss)表示包含m個已 標(biāo)識樣例的樣本集,其中&表示來自目標(biāo)域化的βπι個已標(biāo)識樣例集,Ss表示來自源域 Ds的(Ι-β)πι個已標(biāo)識樣例集,US,UT表示m'個未標(biāo)識樣例集,k孖,石表示使組合經(jīng)驗(yàn) 誤差4(/〇取值最小的假設(shè)函數(shù),其中,組合經(jīng)驗(yàn)誤差4(/?) = <^(/?)+(1-?)4(/?),4(/?) 表示目標(biāo)域經(jīng)驗(yàn)誤差,4 (/〇表示源域經(jīng)驗(yàn)誤差,< 表示使目標(biāo)域誤差最小的假設(shè)函數(shù), : -/,? (/?),w 1!」表示源域和目標(biāo)域的經(jīng)驗(yàn)對稱差距離。
13. 如權(quán)利要求12所述的裝置,其特征在于,所述構(gòu)造模塊包括: 轉(zhuǎn)換單元,用于將確定的所述域自適應(yīng)泛化誤差上界轉(zhuǎn)換為如下的替代誤差上界: 對于V--:r ¢0,,以至少1- δ的概率對所有h e Η成立以下不等式:
其中,目標(biāo)域DT的樣例總個數(shù)為m',其中,已標(biāo)識樣例個數(shù)為/w1未標(biāo)識樣例個數(shù)為 m'-4 ,源域Ds的樣例總個數(shù)為m',都是已標(biāo)識樣例; 訓(xùn)練單元,用于基于所述替代誤差上界,對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練。
14. 如權(quán)利要求13所述的裝置,其特征在于,所述訓(xùn)練單元包括: 樣本獲取子單元,用于獲取訓(xùn)練樣本集,其中,所述訓(xùn)練樣本集包括源域的訓(xùn)練樣本和 目標(biāo)域的訓(xùn)練樣本; 初始化子單元,用于對每個分類器進(jìn)行初始化,并為每個分類器分配訓(xùn)練樣本; 迭代子單元,用于對每個分類器重復(fù)執(zhí)行以下操作,直至重復(fù)次數(shù)達(dá)到預(yù)定的最高重 復(fù)次數(shù)或者各個分類器的權(quán)值w的值不再變化:按照分類器當(dāng)前的訓(xùn)練樣本和w的值,對未 標(biāo)識的目標(biāo)域樣例進(jìn)行預(yù)測,對預(yù)測到的與其它分類器的預(yù)測結(jié)果不同的樣例進(jìn)行判別, 如果滿足判別條件,則將其它分類器中該樣例的預(yù)測結(jié)果作為已標(biāo)識樣例更新到該分類器 的訓(xùn)練樣本中,依次迭代求得所述目標(biāo)函數(shù)中W取值,將求得的W的取值作為下一次重復(fù)操 作時W的取值; 最優(yōu)解確定子單元,用于將求得的W的值作為所述目標(biāo)函數(shù)的最優(yōu)解。
15. 如權(quán)利要求14所述的裝置,其特征在于,其中,所述判別條件包括:
其中,t表示重復(fù)次數(shù),為正整數(shù)。
16. -種數(shù)據(jù)分類裝置,其特征在于,包括: 數(shù)據(jù)獲取模塊,用于獲取目標(biāo)域樣本數(shù)據(jù); 分類模塊,用于通過權(quán)利要求9至15中任一項(xiàng)所述的裝置構(gòu)造的域自適應(yīng)分類器對所 述樣本數(shù)據(jù)進(jìn)行分類。
【文檔編號】G06K9/62GK104102917SQ201410315895
【公開日】2014年10月15日 申請日期:2014年7月3日 優(yōu)先權(quán)日:2014年7月3日
【發(fā)明者】劉建偉, 孫正康, 羅雄麟 申請人:中國石油大學(xué)(北京)