一種基于因子圖模型的圖片中對象識別方法
【專利摘要】本發(fā)明提供一種基于因子圖模型的圖片中對象識別方法,包括對訓練集中每張圖片分別進行圖像分塊,提取各圖像塊的SIFT特征向量,得到圖片的SIFT特征向量集,確定各圖像塊對應的標簽,圖像塊的標簽為正時表示對象存在于該圖像塊中;訓練集中所有圖片的SIFT特征向量集組成集合,基于該集合利用聚類算法,計算SIFT特征向量詞典;針對訓練集中的每張圖片,分別構(gòu)建因子圖模型;進行因子圖模型參數(shù)學習,采用測試集驗證學習所得因子圖模型參數(shù),驗證成功則根據(jù)因子圖模型參數(shù)對任意待識別的圖片進行對象識別。本發(fā)明可提高復雜圖像背景下對象識別的準確度。
【專利說明】—種基于因子圖模型的圖片中對象識別方法
【技術領域】
[0001]本發(fā)明涉及多媒體處理與模式識別【技術領域】,尤其涉及一種基于因子圖模型的圖片中對象識別方法。
【背景技術】
[0002]圖片中對象識別主要判斷對象所處位置和范圍,是視覺識別的一類重要問題。視覺識別的困難主要來自兩點[1]:一是過大的搜索空間,即在不同位置和范圍上搜索對象,計算復雜度很高;二是由于角度、姿態(tài)或光照條件變化,對物體外形進行有效建模比較困難。近年來出現(xiàn)的詞袋方法(Bag-of-Words)[2]顯示了基于圖像塊思路的有效性,將圖像局部特征編碼為視覺單詞的做法得到了廣泛認可。該思路在圖像塊層次上,通過視覺詞典來表征物體外形,是一種稀疏表示方法,在一定程度上降低了學習算法在參數(shù)空間上的搜索復雜度。同時,該思路還能夠有機地結(jié)合一些圖像特征,如SIFT、H0G和LBP等局部特征,從而提高了物體外形建模效果。
[0003]詞袋方法的性能依賴于詞典和特征編碼策略。目前已經(jīng)出現(xiàn)了將稀疏編碼、向量量化編碼、核詞典編碼、顯著性編碼等運用在視覺識別中的編碼技術,并且有將編碼和分類技術結(jié)合起來以訓練面向任務的詞典相關研究。但是,與文字識別、人臉識別等研究相比,在復雜圖像背景下,研究面向物體識別具體任務進行詞典學習的工作才剛剛起步[3]。為提高復雜圖像背景下物體識別的效果,可以采用多種方法。典型的思路就是使用圖像局部關聯(lián)信息,由于圖像塊之間具有關聯(lián)性,將這種關聯(lián)性建模到物體識別中將會有所幫助,開創(chuàng)性的工作為s.Kumar等將條件隨機場(CRF)模型[4]擴展到2維格形結(jié)構(gòu)之后運用到圖像分析中[_。
[0004]在基于CRF模型的詞典學習中,以每一個圖像塊作為節(jié)點,圖像塊形成的格狀網(wǎng)絡作為連邊關系ωΜ。這種建模方法,圖像塊(CRF模型中對應節(jié)點)之間的關聯(lián)性主要以格狀網(wǎng)絡表達,這其實是一種只考慮物理距離關聯(lián)性的方法。這種假設不完全合理,因為在一張圖片中,常常會在不同區(qū)域同時出現(xiàn)同一類物體,而這些物體可能鄰接,也可能會被背景分離。由于格狀網(wǎng)絡只能表征鄰接特征,對于被背景分開的物體之間的關聯(lián)性,則難以表征。因此,必須更加充分地考慮圖像塊之間的連邊關系,比如不同圖像塊之間的相似性,并且將此相似性也作為建模中的重要因素考慮進去,即當一個圖像塊中存在(或不存在)對象時,與之相似的圖像塊中存在(或不存在)對象的概率應該相應增加。為了實現(xiàn)這種建模,本發(fā)明使用因子圖模型mte][9],全面地表征圖像塊之間的相互影響以及圖像塊自身特征與對象之間的關系。
[0005]文中涉及的參考文獻如下:
[0006][I]黃凱奇,任偉強,譚鐵牛.圖像物體分類與檢測算法綜述[J].計算機學報,2014,37(6):1225-1240.
[0007][2]胡事民,張方略,汪淼.片網(wǎng):圖像表示的一種新技術[J].中國計算機學會通訊,2014,(10) 1:54-59.
[0008][3] Yang J M and Yang M H.Top-Down Visual Saliency via Joint CRF andDict1nary Learning[C].1n Proceedings of the IEEE Conference on Computer Vis1nand Pattern Recognit1n, Providence, June, 2012, pp.2296-2303.
[0009][4]Lafferty.Condit1nal Random Fields:Probabi Iistic Models forSegmenting and Labeling Sequence Data [C].1n Proceedings of the 18thInternat1nal Conference on Machine Learning (ICML),2001,pp.282-289.
[0010][5] Kumar S and Hebert M.Discriminative random fields [J].1nternat1nalJournal of Computer Vis1n, 68 (2):179-201.
[0011][6] Quattoni A,Collins Mj Darrel I T.Condit1nal Random Fieldsfor Object Recognit1n [C].1n Advances in Neural Informat1n ProcessingSystems, 2005,pp.1097-1104.
[0012][7] Kschischang F Rj Frey B J and Loeliger H A.Factor graphsand the sum-product algorithm [J].1EEE Transact1ns on Informat1nTheory, 47(2): 498-59,2001.
[0013][8] Wang C,Tang J and Sun J M,et al.Dynamic social influenceanalysis through time-dependent factor graphs[C].1n Proceedings of theInternat1nal Conference on Advances in Social Networks Analysis andMining (ASONAM),Kaohsiung:2011.
[0014][9] Tan C,Tang J and Sun J,et al.Social act1n tracking vianoise tolerant time-varying factor graphs [C].1n Proceedings of the 16thACM SIGKDD Internat1nal Conference on Knowledge Discovery and Datamining(KDD),Washington:2010.
【發(fā)明內(nèi)容】
[0015]針對上述存在的技術問題,本發(fā)明目的是提供一種基于因子圖模型的圖片中對象識別的方法。使用因子圖模型,能夠考察圖像塊之間關聯(lián)性對參數(shù)學習結(jié)果的影響,可以更好地利用局部信息,提高復雜圖像背景下對象識別的準確度。
[0016]為達到上述目的,本發(fā)明釆用如下的技術方案:
[0017]一種基于因子圖模型的圖片中對象識別方法,包括以下步驟:
[0018]步驟1,輸入訓練集,對訓練集中每張圖片分別進行圖像分塊,提取各圖像塊的SIFT特征向量,得到圖片的SIFT特征向量集,確定各圖像塊對應的標簽,圖像塊的標簽為正時表示對象存在于該圖像塊中;
[0019]步驟2,訓練集中所有圖片的SIFT特征向量集組成集合,基于該集合利用聚類算法,計算SIFT特征向量詞典;
[0020]步驟3,針對訓練集中的每張圖片,分別構(gòu)建因子圖模型;
[0021]步驟4,進行因子圖模型參數(shù)學習,包括以下子步驟,
[0022]步驟4.1,運行線性支持向量機,得到因子圖模型參數(shù)的初始值;
[0023]步驟4.2,基于訓練集中的所有圖片,結(jié)合梯度下降算法和信念傳播算法學習因子圖模型參數(shù);
[0024]步驟4.3,判斷步驟4.2所得因子圖模型參數(shù)取值是否收斂,若是則得到參數(shù)學習結(jié)果,進入步驟5,若否,判斷當前是否達到預設的迭代次數(shù),未達到則返回迭代步驟4.2,達到則將本次執(zhí)行步驟4.2所得因子圖模型參數(shù)作為參數(shù)學習結(jié)果,進入步驟5 ;
[0025]步驟5,采用測試集驗證步驟4學習所得因子圖模型參數(shù),驗證成功則根據(jù)因子圖模型參數(shù)對任意待識別的圖片進行對象識別,驗證包括以下子步驟,
[0026]步驟5.1,構(gòu)建測試集中每張圖片的因子圖模型;
[0027]步驟5.2,基于步驟5.1所得因子圖模型和步驟4學習所得因子圖模型參數(shù),使用信念傳播算法,計算測試集中每張圖片各圖像塊對應的標簽預測結(jié)果;
[0028]步驟5.3,確定測試集中圖片各圖像塊的標簽,判斷步驟5.2得到的標簽預測結(jié)果與標簽之間的查準率和查全率,若在預設的接受范圍,驗證通過。
[0029]而且,步驟I和步驟5.3中,確定各圖像塊對應的標簽方式為,若圖像塊中標簽為正的像素數(shù)超過預設閾值,該圖像塊的標簽為正,否則該圖像塊的標簽為負。
[0030]而且,步驟3和步驟5.1中,所述的因子圖模型的結(jié)構(gòu)包括節(jié)點因子和邊因子,
設訓練集或測試集中任一圖片為χω,劃分得到m個圖像塊,圖像塊JCf1對應的標簽為yf",/= I,.., /?,對任一圖片構(gòu)建因子圖模型的方式如下,
[0031]構(gòu)建節(jié)點因子,包括根據(jù)SIFT特征向量詞典,得到圖像塊的稀疏表示,建立稀疏表示與標簽之間的概率映射函數(shù);
[0032]構(gòu)建邊因子,包括計算各圖像塊之間的SIFT特征匹配度,再結(jié)合圖像塊的特征匹配度和位置鄰接關系建立概率映射函數(shù);
[0033]確定因子圖模型優(yōu)化的目標函數(shù)。
[0034]本發(fā)明具有以下優(yōu)點和積極效果:
[0035]I)對于圖像塊建模了長程相關性,使得圖形由鄰接圖像塊之間的格狀網(wǎng)絡轉(zhuǎn)變?yōu)檎嬲木W(wǎng)絡;
[0036]2)將視覺詞袋方法與因子圖模型結(jié)合使用,不僅能夠建模視覺單詞的詞頻信息,還能夠有效地表征網(wǎng)絡結(jié)構(gòu)以及原始圖像塊的相似性特征。
【專利附圖】
【附圖說明】
[0037]圖1是本發(fā)明實施例的總體流程圖;
[0038]圖2是本發(fā)明實施例的訓練集中的圖片對應的標簽示意圖;
[0039]圖3是本發(fā)明實施例中一張圖片具體對應的網(wǎng)絡結(jié)構(gòu)示意圖;
[0040]圖4是本發(fā)明實施例中因子圖模型的變量以及節(jié)點因子、邊因子的可視化示意圖;
[0041]圖5是本發(fā)明實施例在Graz02數(shù)據(jù)集中bike類上識別“自行車”對象的查全率、查準率和查全率-查準率曲線。
【具體實施方式】
[0042]下面結(jié)合附圖和實施例對本發(fā)明作進一步說明。
[0043]本發(fā)明提出的是一種基于因子圖模型的圖片中對象識別方法,參見圖1,實施例包括具體步驟如下:
[0044](I)輸入包括有多張圖片的訓練集,對每張圖片進行圖像分塊,提取各圖像塊的SIFT特征向量。
[0045]實施例中,輸入預先給定的包含N張圖片的訓練集X = {X(n)} |n = Ρ..Ν,對每張圖片Χω進行圖像分塊,提取圖像塊的SIFT特征向量:
[0046]本發(fā)明適于處理不小于128Χ 128像素的圖片,格式一般為bmp和jpg等。將各圖片Χω劃分成64X64像素的圖像塊,設劃分得到m個圖像塊,記為if,λ.Γ,....χΠ ,鄰接圖像塊重疊32個像素。圖片Χω已在像素級別上正確標識出對象標簽,若圖像塊中標簽為正的像素數(shù)超過預設閾值,表示對象存在于該圖像塊中,該圖像塊的標簽為正,否則該圖像塊的標簽為負,即對象不存在于該圖像塊中。具體實施時,本領域技術人員可自行預設閾值,建議取圖像塊像素總數(shù)的3/4。設任一圖像塊Jtf對應的標簽為}ja>, I= I?.., I?,即圖片X(n)
中所有圖像塊對應的標簽集合為0,廣,.^,”<%參見圖2,訓練集中某圖片包括自行車和其他背景,以自行車為對象,則圖2中黑色部分為像素級別上正確標識出對象標簽處。
[0047]使用SIFT特征向量提取算法,計算所有圖像塊;(f的SIFT特征向量sf?則圖片
x(n)的SIFT特征向量集為= {.sfuf ,...,O ?, SIFT特征向量是一種常用的圖像局部特征描述形式,本發(fā)明用來表示圖像塊的原始特征。
[0048](2)預處理:利用聚類算法,計算SIFT特征向量詞典。
[0049]實施例中,聚類算法使用的是k-means算法,利用k_means聚類算法計算SIFT特征向量詞典:
[0050]訓練集中所有圖片的SIFT特征向量集組成集合S = {S(n)} |n = 1,..,N。使用k-means聚類算法,得到k個特征向量子集,k取值可由本領域技術人員預先指定,實施例中設為512。各特征向量子集的中心點組成SIFT特征向量詞典D。k-means聚類算法是已經(jīng)存在的成熟算法,本發(fā)明不予贅述。
[0051](3)針對訓練集中的圖片,構(gòu)建因子圖模型。
[0052]實施例針對訓練集X中的每一個圖片X(n),分別構(gòu)建因子圖模型,因子圖模型包括節(jié)點因子和邊因子兩部分,節(jié)點因子刻畫圖像塊與標簽之間的關系,邊因子刻畫圖像塊之間的影響。具體地,對任一圖片構(gòu)建因子圖模型包括以下子步驟:
[0053](3.1)構(gòu)建節(jié)點因子,即根據(jù)SIFT特征向量詞典,得到圖像塊的稀疏表示,建立稀疏表示與標簽之間的概率映射函數(shù)。
[0054]實施例根據(jù)SIFT特征向量詞典D,運用最小二乘重構(gòu)法,得到圖像塊的稀疏表示,建立稀疏表示與標簽之間的概率映射函數(shù),即節(jié)點因子,其中的具體計算過程如下:
[0055](3.1.1)使用最小二乘重構(gòu)法,即優(yōu)化^ =argmjnIPf-ENfu [f +l|#:w H1?
<;2
得到稀疏表達A(n),其中,D e D,為SIFT特征向量詞典D中的向量;λ為稀疏性控制參數(shù),取0.15,優(yōu)化算法采用稀疏編碼算法,稀疏編碼算法是已經(jīng)存在的成熟算法,本發(fā)明不予贅述。
[0056](3.1.2)針對圖像塊及相應標簽定義節(jié)點因子為:
【權利要求】
1.一種基于因子圖模型的圖片中對象識別方法,其特征在于,包括以下步驟: 步驟1,輸入訓練集,對訓練集中每張圖片分別進行圖像分塊,提取各圖像塊的SIFT特征向量,得到圖片的SIFT特征向量集,確定各圖像塊對應的標簽,圖像塊的標簽為正時表示對象存在于該圖像塊中; 步驟2,訓練集中所有圖片的SIFT特征向量集組成集合,基于該集合利用聚類算法,計算SIFT特征向量詞典; 步驟3,針對訓練集中的每張圖片,分別構(gòu)建因子圖模型; 步驟4,進行因子圖模型參數(shù)學習,包括以下子步驟, 步驟4.1,運行線性支持向量機,得到因子圖模型參數(shù)的初始值; 步驟4.2,基于訓練集中的所有圖片,結(jié)合梯度下降算法和信念傳播算法學習因子圖模型參數(shù); 步驟4.3,判斷步驟4.2所得因子圖模型參數(shù)取值是否收斂,若是則得到參數(shù)學習結(jié)果,進入步驟5,若否則判斷當前是否達到預設的訓練集迭代次數(shù),未達到則返回迭代步驟4.2,達到則將本次執(zhí)行步驟4.2所得因子圖模型參數(shù)作為參數(shù)學習結(jié)果,進入步驟5 ; 步驟5,采用測試集驗證步驟4學習所得因子圖模型參數(shù),驗證成功則根據(jù)因子圖模型參數(shù)對任意待識別的圖片進行對象識別,驗證包括以下子步驟, 步驟5.1,構(gòu)建測試集中每張圖片的因子圖模型; 步驟5.2,基于步驟5.1所得因子圖模型和步驟4學習所得因子圖模型參數(shù),使用信念傳播算法,計算測試集中每張圖片各圖像塊對應的標簽預測結(jié)果; 步驟5.3,確定測試集中圖片各圖像塊的標簽,判斷步驟5.2得到的標簽預測結(jié)果與標簽之間的查準率和查全率,若在預設的接受范圍,驗證通過。
2.根據(jù)權利要求1所述的基于因子圖模型的圖片中對象識別方法,其特征在于:步驟I和步驟5.3中,確定各圖像塊對應的標簽方式為,若圖像塊中標簽為正的像素數(shù)超過預設閾值,該圖像塊的標簽為正,否則該圖像塊的標簽為負。
3.根據(jù)權利要求1所述的基于因子圖模型的圖片中對象識別方法,其特征在于:步驟3和步驟5.1中,所述的因子圖模型的結(jié)構(gòu)包括節(jié)點因子和邊因子,設訓練集或測試集中任一圖片為X(n),劃分得到m個圖像塊,圖像塊Jif對應的標簽為I= I”” ‘對任一圖片構(gòu)建因子圖模型的方式如下, 構(gòu)建節(jié)點因子,包括根據(jù)SIFT特征向量詞典,得到圖像塊的稀疏表示,建立稀疏表示與標簽之間的概率映射函數(shù); 構(gòu)建邊因子,包括計算各圖像塊之間的SIFT特征匹配度,再結(jié)合圖像塊的特征匹配度和位直鄰接關系建立概率映射函數(shù); 確定因子圖模型優(yōu)化的目標函數(shù)。
【文檔編號】G06K9/62GK104200222SQ201410430505
【公開日】2014年12月10日 申請日期:2014年8月28日 優(yōu)先權日:2014年8月28日
【發(fā)明者】吳照林, 張海粟, 戴劍偉, 曾昭文, 朱明東, 文峰, 張勝, 姚遠, 龔建華, 張巖, 馮勤群, 徐飛, 王強 申請人:中國人民解放軍國防信息學院