域自適應(yīng)分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置制造方法

文檔序號：6552226閱讀：417來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

域自適應(yīng)分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種域自適應(yīng)分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置，其中，該構(gòu)造方法包括：確定構(gòu)造域自適應(yīng)分類器的組合罰目標(biāo)函數(shù)，其中，所述域自適應(yīng)分類器是對目標(biāo)域和源域的數(shù)據(jù)進(jìn)行分類的分類器；基于所述組合罰目標(biāo)函數(shù)確定域自適應(yīng)泛化誤差上界；基于所述自適應(yīng)泛化誤差上界，對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練，構(gòu)造出域自適應(yīng)分類器。本發(fā)明解決了現(xiàn)有技術(shù)中源域和目標(biāo)域分布不一致的問題，在保證收斂的前提下可以實(shí)現(xiàn)更為準(zhǔn)確的分類別，大幅度地降低了計(jì)算復(fù)雜度，解決了普通模式識別無法處理的跨領(lǐng)域信息處理的問題。
【專利說明】域自適應(yīng)分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)分類【技術(shù)領(lǐng)域】，特別涉及一種域自適應(yīng)（Domain Adaptation, DA) 分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置。

【背景技術(shù)】
[0002] 人工智能和機(jī)器學(xué)習(xí)的核心問題是：如何表示領(lǐng)域中存在的知識，以及如何利用已有的知識進(jìn)行分析處理，得到人們所感興趣的知識。在當(dāng)前的機(jī)器學(xué)習(xí)研究領(lǐng)域中存在著一個關(guān)鍵的問題，即，通常假設(shè)訓(xùn)練樣本和測試樣本來自同一概率分布，通過對訓(xùn)練樣本進(jìn)行學(xué)習(xí)得到相應(yīng)的模型和判別準(zhǔn)則，對待測試的樣例的輸出進(jìn)行預(yù)測。但是在實(shí)際應(yīng)用中，訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的分布可能是不同的，這就導(dǎo)致傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練得到的模型無法有效地對待測試樣本的輸出進(jìn)行學(xué)習(xí)。
[0003] 在一些新出現(xiàn)的應(yīng)用領(lǐng)域（例如：Web數(shù)據(jù)挖掘、故障診斷、圖像處理、語音識別與信息解碼等）中經(jīng)常會出現(xiàn)無法從這些新應(yīng)用領(lǐng)域中獲得訓(xùn)練數(shù)據(jù)的情況，然而，在這些領(lǐng)域中與學(xué)習(xí)任務(wù)相關(guān)的數(shù)據(jù)量卻很大，如果要實(shí)現(xiàn)對目標(biāo)領(lǐng)域的學(xué)習(xí)就必須利用與這些任務(wù)相關(guān)的數(shù)據(jù)，然而訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)概率分布的不一致會嚴(yán)重影響傳統(tǒng)機(jī)器學(xué)習(xí)方法的性能，相反地，即使擁有了大量的、在不同分布下的訓(xùn)練數(shù)據(jù)，針對新的興趣領(lǐng)域，完全丟棄這些訓(xùn)練數(shù)據(jù)而重新構(gòu)建訓(xùn)練數(shù)據(jù)也是非常困難的，而且成本極高。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明實(shí)施例提供了一種域自適應(yīng)分類器的構(gòu)造方法，以達(dá)到降低計(jì)算復(fù)雜度，解決普通模式識別無法處理的跨領(lǐng)域信息處理的問題的目的。該方法包括：
[0005] 確定構(gòu)造域自適應(yīng)分類器的組合罰目標(biāo)函數(shù)，其中，所述域自適應(yīng)分類器是對目標(biāo)域和源域的數(shù)據(jù)進(jìn)行分類的分類器；
[0006] 基于所述組合罰目標(biāo)函數(shù)確定域自適應(yīng)泛化誤差上界；
[0007] 基于所述自適應(yīng)泛化誤差上界，對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練，構(gòu)造出域自適應(yīng)分類器。
[0008] 在一個實(shí)施例中，確定的所述組合罰目標(biāo)函數(shù)為：
[0009] ε α (h) = α ε T(h) + (l_a ) ε s(h)
[0010] 其中，ε α (h)表示組合罰目標(biāo)函數(shù)，ε T(h)表示目標(biāo)域期望誤差，ε s(h)表示源域期望誤差，a e [0，l]，h表示假設(shè)函數(shù)類Η中的參考假設(shè)函數(shù)。
[0011] 在一個實(shí)施例中，所述目標(biāo)域期望誤差和所述源域期望誤差采用以下函數(shù)之一表示：邏輯斯蒂損失函數(shù)、鉸鏈損失函數(shù)、最小二乘損失函數(shù)。
[0012] 在一個實(shí)施例中，基于所述組合罰目標(biāo)函數(shù)確定的域自適應(yīng)泛化誤差上界為：
[0013] 對于Vsr ，以至少1- δ的概率對所有h e Η成立以下不等式：

【權(quán)利要求】
1. 一種域自適應(yīng)分類器的構(gòu)造方法，其特征在于，包括：確定構(gòu)造域自適應(yīng)分類器的組合罰目標(biāo)函數(shù)，其中，所述域自適應(yīng)分類器是對目標(biāo)域和源域的數(shù)據(jù)進(jìn)行分類的分類器；基于所述組合罰目標(biāo)函數(shù)確定域自適應(yīng)泛化誤差上界；基于所述自適應(yīng)泛化誤差上界，對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練，構(gòu)造出域自適應(yīng)分類器。
2. 如權(quán)利要求1所述的方法，其特征在于，確定的所述組合罰目標(biāo)函數(shù)為： ε a (h) = α ε T(h) + (l-a ) ε s (h) 其中，εα〇〇表示組合罰目標(biāo)函數(shù)，ετ〇!)表示目標(biāo)域期望誤差，es(h)表示源域期望誤差，a e [〇，l]，h表示假設(shè)函數(shù)類Η中的參考假設(shè)函數(shù)。
3. 如權(quán)利要求2所述的方法，其特征在于，所述目標(biāo)域期望誤差和所述源域期望誤差采用以下函數(shù)之一表示：邏輯斯蒂損失函數(shù)、鉸鏈損失函數(shù)、最小二乘損失函數(shù)。
4. 如權(quán)利要求2所述的方法，其特征在于，基于所述組合罰目標(biāo)函數(shù)確定的域自適應(yīng) 泛化誤差上界為：對于，^，以至少1- δ的概率對所有h e Η成立以下不等式：
其中，Η表示d維假設(shè)空間的假設(shè)函數(shù)類，d表示維度，S = (ST，Ss)表示包含m個已標(biāo)識樣例的樣本集，其中&表示來自目標(biāo)域化的βπι個已標(biāo)識樣例集，Ss表示來自源域 Ds的（Ι-β)πι個已標(biāo)識樣例集，US，UT表示m'個未標(biāo)識樣例集，k /?，石表示使組合經(jīng)驗(yàn) 誤差&(/?)取值最小的假設(shè)函數(shù)，其中，組合經(jīng)驗(yàn)誤差= + % (/?) 表示目標(biāo)域經(jīng)驗(yàn)誤差，4 (>)表示源域經(jīng)驗(yàn)誤差，￥表示使目標(biāo)域誤差最小的假設(shè)函數(shù)， = m/'/yy (/7)，v/ (U、.，Uj·)表示源域和目標(biāo)域的經(jīng)驗(yàn)對稱差距離。
5. 如權(quán)利要求4所述的方法，其特征在于，基于所述自適應(yīng)泛化誤差上界，對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練，包括：將確定的所述域自適應(yīng)泛化誤差上界轉(zhuǎn)換為如下的替代誤差上界：對于j >以至少1- δ的概率對所有h e Η成立以下不等式：
其中，目標(biāo)域DT的樣例總個數(shù)為m'，其中，已標(biāo)識樣例個數(shù)為，未標(biāo)識樣例個數(shù)為，源域Ds的樣例總個數(shù)為m'，都是已標(biāo)識樣例；基于所述替代誤差上界，對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練。
6. 如權(quán)利要求5所述的方法，其特征在于，基于所述替代誤差上界，對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練，包括：獲取訓(xùn)練樣本集，其中，所述訓(xùn)練樣本集包括源域的訓(xùn)練樣本和目標(biāo)域的訓(xùn)練樣本；對每個分類器進(jìn)行初始化，并為每個分類器分配訓(xùn)練樣本；對每個分類器重復(fù)執(zhí)行以下操作，直至重復(fù)次數(shù)達(dá)到預(yù)定的最高重復(fù)次數(shù)或者各個分類器的權(quán)值w的值不再變化：按照分類器當(dāng)前的訓(xùn)練樣本和w的值，對未標(biāo)識的目標(biāo)域樣例進(jìn)行預(yù)測，對預(yù)測到的與其它分類器的預(yù)測結(jié)果不同的樣例進(jìn)行判別，如果滿足判別條件，則將其它分類器中該樣例的預(yù)測結(jié)果作為已標(biāo)識樣例更新到該分類器的訓(xùn)練樣本中，依次迭代求得所述目標(biāo)函數(shù)中w取值，將求得的w的取值作為下一次重復(fù)操作時w的取值；將求得的w的值作為所述目標(biāo)函數(shù)的最優(yōu)解。
7. 如權(quán)利要求6所述的方法，其特征在于，其中，所述判別條件包括：
其中，t表示重復(fù)次數(shù)，為正整數(shù)。
8. -種數(shù)據(jù)分類方法，其特征在于，包括：獲取目標(biāo)域樣本數(shù)據(jù)；通過權(quán)利要求1至7中任一項(xiàng)所述的方法構(gòu)造的域自適應(yīng)分類器對所述樣本數(shù)據(jù)進(jìn)行分類。
9. 一種域自適應(yīng)分類器的構(gòu)造裝置，其特征在于，包括：目標(biāo)函數(shù)確定模塊，用于確定構(gòu)造域自適應(yīng)分類器的組合罰目標(biāo)函數(shù)，其中，所述域自適應(yīng)分類器是對目標(biāo)域和源域的數(shù)據(jù)進(jìn)行分類的分類器；泛化誤差上界確定模塊，用于基于所述組合罰目標(biāo)函數(shù)確定域自適應(yīng)泛化誤差上界；構(gòu)造模塊，用于基于所述自適應(yīng)泛化誤差上界，對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練，構(gòu)造出域自適應(yīng)分類器。
10. 如權(quán)利要求9所述的裝置，其特征在于，所述目標(biāo)函數(shù)確定模塊確定的組合罰目標(biāo) 函數(shù)為： ε a (h) = α ε T(h) + (l-a ) ε s (h) 其中，εα〇〇表示組合罰目標(biāo)函數(shù)，ετ〇!)表示目標(biāo)域期望誤差，es(h)表示源域期望誤差，a e [〇，l]，h表示假設(shè)函數(shù)類Η中的參考假設(shè)函數(shù)。
11. 如權(quán)利要求10所述的裝置，其特征在于，所述目標(biāo)域期望誤差和所述源域期望誤差采用以下函數(shù)之一表示：邏輯斯蒂損失函數(shù)、鉸鏈損失函數(shù)、最小二乘損失函數(shù)。
12. 如權(quán)利要求11所述的裝置，其特征在于，所述泛化誤差上界確定模塊基于所述組合罰目標(biāo)函數(shù)確定的域自適應(yīng)泛化誤差上界為：對于VSr ￠0，以至少1- δ的概率對所有h e Η成立以下不等式：
其中，Η表示d維假設(shè)空間的假設(shè)函數(shù)類，d表示維度，S = (ST，Ss)表示包含m個已標(biāo)識樣例的樣本集，其中&表示來自目標(biāo)域化的βπι個已標(biāo)識樣例集，Ss表示來自源域 Ds的（Ι-β)πι個已標(biāo)識樣例集，US，UT表示m'個未標(biāo)識樣例集，k孖，石表示使組合經(jīng)驗(yàn) 誤差4(/〇取值最小的假設(shè)函數(shù)，其中，組合經(jīng)驗(yàn)誤差4(/?) = <^(/?)+(1-?)4(/?)，4(/?) 表示目標(biāo)域經(jīng)驗(yàn)誤差，4 (/〇表示源域經(jīng)驗(yàn)誤差，< 表示使目標(biāo)域誤差最小的假設(shè)函數(shù)， : -/,? (/?)，w 1!」表示源域和目標(biāo)域的經(jīng)驗(yàn)對稱差距離。
13. 如權(quán)利要求12所述的裝置，其特征在于，所述構(gòu)造模塊包括：轉(zhuǎn)換單元，用于將確定的所述域自適應(yīng)泛化誤差上界轉(zhuǎn)換為如下的替代誤差上界：對于V--:r ￠0，，以至少1- δ的概率對所有h e Η成立以下不等式：
其中，目標(biāo)域DT的樣例總個數(shù)為m'，其中，已標(biāo)識樣例個數(shù)為/w1未標(biāo)識樣例個數(shù)為 m'-4 ,源域Ds的樣例總個數(shù)為m'，都是已標(biāo)識樣例；訓(xùn)練單元，用于基于所述替代誤差上界，對兩個以上分類器進(jìn)行協(xié)同訓(xùn)練。
14. 如權(quán)利要求13所述的裝置，其特征在于，所述訓(xùn)練單元包括：樣本獲取子單元，用于獲取訓(xùn)練樣本集，其中，所述訓(xùn)練樣本集包括源域的訓(xùn)練樣本和目標(biāo)域的訓(xùn)練樣本；初始化子單元，用于對每個分類器進(jìn)行初始化，并為每個分類器分配訓(xùn)練樣本；迭代子單元，用于對每個分類器重復(fù)執(zhí)行以下操作，直至重復(fù)次數(shù)達(dá)到預(yù)定的最高重復(fù)次數(shù)或者各個分類器的權(quán)值w的值不再變化：按照分類器當(dāng)前的訓(xùn)練樣本和w的值，對未標(biāo)識的目標(biāo)域樣例進(jìn)行預(yù)測，對預(yù)測到的與其它分類器的預(yù)測結(jié)果不同的樣例進(jìn)行判別，如果滿足判別條件，則將其它分類器中該樣例的預(yù)測結(jié)果作為已標(biāo)識樣例更新到該分類器的訓(xùn)練樣本中，依次迭代求得所述目標(biāo)函數(shù)中W取值，將求得的W的取值作為下一次重復(fù)操作時W的取值；最優(yōu)解確定子單元，用于將求得的W的值作為所述目標(biāo)函數(shù)的最優(yōu)解。
15. 如權(quán)利要求14所述的裝置，其特征在于，其中，所述判別條件包括：
其中，t表示重復(fù)次數(shù)，為正整數(shù)。
16. -種數(shù)據(jù)分類裝置，其特征在于，包括：數(shù)據(jù)獲取模塊，用于獲取目標(biāo)域樣本數(shù)據(jù)；分類模塊，用于通過權(quán)利要求9至15中任一項(xiàng)所述的裝置構(gòu)造的域自適應(yīng)分類器對所述樣本數(shù)據(jù)進(jìn)行分類。
【文檔編號】G06K9/62GK104102917SQ201410315895
【公開日】2014年10月15日申請日期:2014年7月3日優(yōu)先權(quán)日:2014年7月3日
【發(fā)明者】劉建偉, 孫正康, 羅雄麟申請人:中國石油大學(xué)(北京)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉建偉;孫正康;羅雄麟
技術(shù)所有人：中國石油大學(xué)(北京)
我是此專利的發(fā)明人

上一篇：文件推薦方法
上一篇：一種閃存設(shè)備的數(shù)據(jù)處理方法及閃存設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本域高度自適應(yīng)相關(guān)技術(shù)

領(lǐng)域自適應(yīng)相關(guān)技術(shù)

域自適應(yīng)相關(guān)技術(shù)

自適應(yīng)時域均衡器代碼相關(guān)技術(shù)

變論域自適應(yīng)模糊控制相關(guān)技術(shù)

pdf文本域高度自適應(yīng)相關(guān)技術(shù)

文本域自適應(yīng)相關(guān)技術(shù)

時域自適應(yīng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

域自適應(yīng)分類器的構(gòu)造及數(shù)據(jù)分類的方法和裝置制造方法