專利名稱:一種基于多視角學(xué)習(xí)的半監(jiān)督圖像分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多視角學(xué)習(xí)、潛在因子學(xué)習(xí)和半監(jiān)督學(xué)習(xí)領(lǐng)域,特別是一種基于多視角學(xué)習(xí)的半監(jiān)督圖像分類方法。
背景技術(shù):
在現(xiàn)實(shí)圖像分類問題中,圖像數(shù)據(jù)可以從諸如顏色,紋理,形狀等不同視覺角度加以描述。這些不同的圖像特征從不同視角揭示了所研究圖像的不同屬性。對(duì)此類多視角描述對(duì)象的研究在學(xué)術(shù)界稱之為多視角學(xué)習(xí)。合理地探索蘊(yùn)含于多視角數(shù)據(jù)中的互補(bǔ)信息和關(guān)系可以極大提升學(xué)習(xí)效果。一般來說多視角學(xué)習(xí)的研究有兩個(gè)主要方向。第一個(gè)方向是基于互訓(xùn)練(co-training)的方法,其基本思想是分別在兩個(gè)視角內(nèi)訓(xùn)練分類器,把每個(gè)分類器最具信心的分類結(jié)果送給對(duì)方視角分類器作為新的訓(xùn)練樣本。這種方式存在兩個(gè)不合理的地方,一是對(duì)不同視角不作區(qū)別對(duì)待,二是每一輪迭代都必須重新訓(xùn)練,計(jì)算負(fù)擔(dān)巨大。第二個(gè)方向是基于統(tǒng)一潛在因子學(xué)習(xí),最典型的例子就是典型相關(guān)分析(CanonicalCorrelation Analysis, CCA)。本發(fā)明基于后者的思想。大多數(shù)的潛在因子學(xué)習(xí)是無監(jiān)督學(xué)習(xí),因此學(xué)習(xí)到的潛在因子的判別力較弱。在實(shí)際情況中,充分標(biāo)注的數(shù)據(jù)是很昂貴的,并且獲取很困難。而部分標(biāo)注的數(shù)據(jù)往往可以被很方便地獲取到,尤其是在互聯(lián)網(wǎng)應(yīng)用日益普遍,用戶標(biāo)簽迅速增長的情況下。融入部分標(biāo)注數(shù)據(jù)進(jìn)行潛在因子學(xué)習(xí)無疑可以極大地加強(qiáng)潛在因子的判別力。
發(fā)明內(nèi)容
本發(fā)明提出了一種新的基于多視角學(xué)習(xí)的半監(jiān)督圖像分類方法,用以解決在部分類標(biāo)條件下,多視角特征表示的圖像分類問題。本發(fā)明提出的基于多視角學(xué)習(xí)的半監(jiān)督圖像分類方法,其包括:步驟1:獲取包括已標(biāo)注類別和未標(biāo)注類別的圖像樣本數(shù)據(jù)的樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集由多視角特征表示的不同視角樣本數(shù)據(jù)所構(gòu)成;步驟2:通過多視角統(tǒng)一潛在因子和線性分類器的聯(lián)合學(xué)習(xí)獲得對(duì)應(yīng)于所述樣本數(shù)據(jù)集的統(tǒng)一潛在因子和在統(tǒng)一潛在因子空間下的線性分類器;步驟3:根據(jù)所獲得的統(tǒng)一潛在因子和所述線性分類器獲得所述樣本數(shù)據(jù)集中未標(biāo)注類別的圖像樣本數(shù)據(jù)的標(biāo)注類別,進(jìn)而對(duì)所述樣本數(shù)據(jù)集中的圖像樣本數(shù)據(jù)進(jìn)行分類。本發(fā)明還提出了一種基于多視角的半監(jiān)督圖像分類裝置,其包括:樣本獲取裝置,用于獲取包括已標(biāo)注類別和未標(biāo)注類別的圖像樣本數(shù)據(jù)的樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集由多視角特征表示的不同視角樣本數(shù)據(jù)所構(gòu)成;多視角統(tǒng)一潛在因子和線性分類器聯(lián)合學(xué)習(xí)模塊,其通過多視角統(tǒng)一潛在因子和線性分類器的聯(lián)合學(xué)習(xí)獲得對(duì)應(yīng)于所述樣本數(shù)據(jù)集的統(tǒng)一潛在因子和在統(tǒng)一潛在因子空間下的線性分類器;
圖像分類操作模塊,其根據(jù)所獲得的統(tǒng)一潛在因子和所述線性分類器獲得所述樣本數(shù)據(jù)集中未標(biāo)注類別的圖像樣本數(shù)據(jù)的標(biāo)注類別,進(jìn)而對(duì)所述樣本數(shù)據(jù)集中的圖像樣本數(shù)據(jù)進(jìn)行分類。本發(fā)明采用半監(jiān)督學(xué)習(xí)的方式。半監(jiān)督學(xué)習(xí)是同時(shí)使用未標(biāo)注數(shù)據(jù)和標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)的方法,可以極大提升學(xué)習(xí)效果。另外,非負(fù)矩陣分解是一種有效的潛在因子學(xué)習(xí)方法。非負(fù)矩陣分解的非負(fù)性要求導(dǎo)致一種基于局部的表示。這種數(shù)據(jù)表現(xiàn)方式是吻合人類大腦認(rèn)識(shí)過程的,因此在很多實(shí)際應(yīng)用條件下具有很好的效果。本發(fā)明還采用非負(fù)矩陣分解技術(shù)作為基本的潛在因子學(xué)習(xí)方法,并將其擴(kuò)展到了多視角條件下。
圖1是本發(fā)明所提出的基于多視角學(xué)習(xí)的半監(jiān)督圖像分類方法的系統(tǒng)框圖。圖2是本發(fā)明所述的多視角統(tǒng)一潛在因子和線性分類器聯(lián)合學(xué)習(xí)的結(jié)構(gòu)框圖。
具體實(shí)施例方式本發(fā)明實(shí)施例,提供了一種圖像分類方法。在現(xiàn)實(shí)圖像分類任務(wù)中,圖像可由多視角的特征加以描述,圖像的部分類標(biāo)往往是容易得到的,本發(fā)明利用部分類標(biāo)和圖像的多視角特征表示聯(lián)合學(xué)習(xí)統(tǒng)一潛在因子和在統(tǒng)一潛在因子空間下的線性分類器,統(tǒng)一潛在因子經(jīng)線性分類器操作可得樣本屬于不同類別的信心值,根據(jù)信心值大小判定樣本類別,從而達(dá)到圖像分類的目的。為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。如圖1所示,在獲取部分類標(biāo)和圖像多視角特征表示后,本發(fā)明公開的方法包括如下兩個(gè)步驟:1)多視角統(tǒng)一潛在因子和線性分類器聯(lián)合學(xué)習(xí),2)圖像分類操作。用戶將包含N個(gè)樣本的多視角圖像數(shù)據(jù)集{X1,X2,...XpI和類標(biāo)矩陣Y輸入到所述的多視角統(tǒng)一潛在因子和線性分類器聯(lián)合學(xué)習(xí)模塊。其中,XP e R-Xjv是圖像集第P個(gè)視角特征呈現(xiàn)的數(shù)據(jù)矩陣,Mp是第P個(gè)視角特征的維度。圖像數(shù)據(jù)集中的樣本數(shù)據(jù)分屬于C個(gè)類別,且前R個(gè)樣本的類標(biāo)已知。標(biāo)注矩陣Y €以表征該部分監(jiān)督信息,當(dāng)?shù)趓個(gè)樣本數(shù)據(jù)屬于第c類,則Y中的元素ycr為1,否則為O。多視角統(tǒng)一潛在因子和線性分類器聯(lián)合學(xué)習(xí)模塊輸出未標(biāo)注圖像樣本的統(tǒng)一潛在因子特征表不Vul,和在統(tǒng)一潛在因子空間下的線性分類器W。Vul和W被進(jìn)一步輸入到圖像分類操作模塊,通過比較未標(biāo)注圖像樣本在不同類別的信心值,最后輸出未標(biāo)注圖像樣本的類標(biāo)Lul。本發(fā)明實(shí)施例提供的多視角統(tǒng)一潛在因子和線性分類器聯(lián)合學(xué)習(xí)系統(tǒng)利用了多視角協(xié)同非負(fù)矩陣分解模型、考慮2,I范正則項(xiàng)的回歸模型和自適應(yīng)的多視角權(quán)重分配策略。所述的多視角協(xié)同非負(fù)矩陣分解模型如圖2左半部分所示。G Riu 為第P視角樣本數(shù)據(jù)的基矩陣。V G RA'xAf為所有P個(gè)視角所共享的潛在因子矩陣,K為統(tǒng)一潛在因子空間的維度,具體的取值可由用戶經(jīng)驗(yàn)指定。Vz G KA^、V.d €分別指示V中被標(biāo)注的前R個(gè)樣本和未標(biāo)注其余樣本的潛在因子矩陣。多視角協(xié)同非負(fù)矩陣分解模型在第P視角同時(shí)學(xué)習(xí)基矩陣Up和潛在統(tǒng)一因子V,希望能夠盡量好地重構(gòu)第P視角樣本數(shù)據(jù)矩陣xp。多視角協(xié)同非負(fù)矩陣分解模型的目標(biāo)函數(shù)如下:
權(quán)利要求
1.種基于多視角學(xué)習(xí)的半監(jiān)督圖像分類方法,其包括: 步驟1:獲取包括已標(biāo)注類別和未標(biāo)注類別的圖像樣本數(shù)據(jù)的樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集由多視角特征表示的不同視角樣本數(shù)據(jù)所構(gòu)成; 步驟2:通過多視角統(tǒng)一潛在因子和線性分類器的聯(lián)合學(xué)習(xí)獲得對(duì)應(yīng)于所述樣本數(shù)據(jù)集的統(tǒng)一潛在因子和在統(tǒng)一潛在因子空間下的線性分類器; 步驟3:根據(jù)所獲得的統(tǒng)一潛在因子和所述線性分類器獲得所述樣本數(shù)據(jù)集中未標(biāo)注類別的圖像樣本數(shù)據(jù)的標(biāo)注類別,進(jìn)而對(duì)所述樣本數(shù)據(jù)集中的圖像樣本數(shù)據(jù)進(jìn)行分類。
2.權(quán)利要求1所述的方法,其特征在于,步驟2中所述多視角統(tǒng)一潛在因子和線性分類器的聯(lián)合學(xué)習(xí)基于多視角協(xié)同非負(fù)矩陣分解模型、考慮2,I范正則項(xiàng)的回歸模型和自適應(yīng)的多視角權(quán)重分配策略完成;其中所述多視角協(xié)同非負(fù)矩陣分解模型基于不同視角樣本數(shù)據(jù)共享潛在因子的假設(shè),對(duì)所述不同視角樣本數(shù)據(jù)進(jìn)行非負(fù)重構(gòu),最終獲得最小的重構(gòu)誤差;所述考慮2,I范正則項(xiàng)的回歸模型用于通過對(duì)所述樣本數(shù)據(jù)集中已標(biāo)注類別的圖像樣本數(shù)據(jù)在所述統(tǒng)一潛在因子空間下進(jìn)行最小化預(yù)測誤差的限制,構(gòu)建分類器,并根據(jù)所述分類器在統(tǒng)一潛在因子空間下對(duì)未標(biāo)注樣本進(jìn)行分類預(yù)測;所述自適應(yīng)的多視角權(quán)重分配策略以不同視角樣本數(shù)據(jù)的重構(gòu)誤差為依據(jù),為多視角樣本數(shù)據(jù)分配不同的權(quán)重。
3.權(quán)利要求2所述的方法,其特征在于,所述多視角協(xié)同非負(fù)矩陣分解模型如下表示:
4.權(quán)利要求2所述的方法,其特征在于,所述考慮2,I范正則項(xiàng)的回歸模型如下表示:
5.權(quán)利要求2所述的方法,其特征在于,所述自適應(yīng)的多視角權(quán)重分配策略用如下函數(shù)表示:
6.權(quán)利要求2所述的方法,其特征在于,所述基于多視角協(xié)同非負(fù)矩陣分解模型、考慮2,I范正則項(xiàng)的回歸模型和自適應(yīng)的多視角權(quán)重分配策略實(shí)現(xiàn)的所述多視角統(tǒng)一潛在因子和線性分類器的聯(lián)合學(xué)習(xí)用如下函數(shù)表示:
7.權(quán)利要求6所述的方法,其特征在于,將所述迭代求解聯(lián)合學(xué)習(xí)函數(shù)分為四個(gè)優(yōu)化子問題:1)固定V,最小化W, 2)固定V,最小化)固定U:和Π,最小化V和4)固定U和V,最小化Π ; 通過依次迭代更新上述四個(gè)優(yōu)化子問題,最終獲得所述統(tǒng)一潛在因子V和在統(tǒng)一潛在因子空間下的線性分類器W。
8.權(quán)利要求6所述的方法,其特征在于, 第I)個(gè)優(yōu)化子問題如下表示:W = A-1V1Yt 其中,A =+ IE),E是對(duì)角矩陣,且對(duì)角元素^,Wk為W的第k行元素,是之前迭代更新過的值; 第2)個(gè)優(yōu)化 .Η^ Μ\ K.及小:
9.權(quán)利要求1所述的方法,其特征在于,根據(jù)下式獲得未標(biāo)注類別的樣本數(shù)據(jù)的類別標(biāo)注矩陣: Yui = WtVu1 其中,Yw G Κ(、(Λ -Λ)表示未標(biāo)注樣本數(shù)據(jù)類別標(biāo)注矩陣,C為總的類別個(gè)數(shù),N是樣本數(shù)據(jù)個(gè)數(shù),R表示已標(biāo)注類別的樣本數(shù)據(jù)個(gè)數(shù),Vul為未標(biāo)注類別樣本數(shù)據(jù)對(duì)應(yīng)的統(tǒng)一潛在因子,W為統(tǒng)一潛在因子空間下的線性分類器。
10.種基于多視角的半監(jiān)督圖像分類裝置,其包括: 樣本獲取裝置,用于獲取包括已標(biāo)注類別和未標(biāo)注類別的圖像樣本數(shù)據(jù)的樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集由多視角特征表示的不同視角樣本數(shù)據(jù)所構(gòu)成; 多視角統(tǒng)一潛在因子和線性分類器聯(lián)合學(xué)習(xí)模塊,其通過多視角統(tǒng)一潛在因子和線性分類器的聯(lián)合學(xué)習(xí)獲得對(duì)應(yīng)于所述樣本數(shù)據(jù)集的統(tǒng)一潛在因子和在統(tǒng)一潛在因子空間下的線性分類器; 圖像分類操作模塊,其根據(jù)所獲得的統(tǒng)一潛在因子和所述線性分類器獲得所述樣本數(shù)據(jù)集中未標(biāo)注類別的圖像樣本數(shù)據(jù)的標(biāo)注類別,進(jìn)而對(duì)所述樣本數(shù)據(jù)集中的圖像樣本數(shù)據(jù)進(jìn)行分類。
全文摘要
本發(fā)明公開了一種新的基于多視角學(xué)習(xí)的半監(jiān)督圖像分類方法,用以解決帶有部分標(biāo)注的多視角圖像數(shù)據(jù)的分類問題。本發(fā)明提供的圖像分類方法包括根據(jù)用戶輸入的圖像多視角特征表示和部分圖像的類標(biāo),聯(lián)合學(xué)習(xí)圖像多視角特征的統(tǒng)一潛在因子表示和在此統(tǒng)一潛在因子空間下具有判別力的線性分類器,從而對(duì)未標(biāo)注圖像進(jìn)行有效的分類。
文檔編號(hào)G06K9/66GK103093248SQ201310032048
公開日2013年5月8日 申請(qǐng)日期2013年1月28日 優(yōu)先權(quán)日2013年1月28日
發(fā)明者盧漢清, 蔣瑜, 劉靜 申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所