專利名稱:基于泛化視覺詞典圖的物體識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及模式識別領(lǐng)域,特別涉及一種基于泛化視覺詞典圖的物體識別方法。
背景技術(shù):
近年來,在物體識別領(lǐng)域中,關(guān)于目標(biāo)特征表達(dá)的一個非常重要方法就是采用視覺詞典來編碼圖像特征。這一類方法被統(tǒng)稱為“基于視覺詞典的物體識別方法”。這類方法在當(dāng)前幾乎所有的物體分類數(shù)據(jù)庫和競賽中都取得了最好的成績,是當(dāng)前物體識別研究中占有統(tǒng)治地位的方法。在基于視覺詞典的物體識別方法中,研究得最多的部分就是目標(biāo)特征編碼技術(shù)。 自從2009年開始,短短的兩年時間里,已經(jīng)有十余種編碼技術(shù)被公開發(fā)表在國際主流會議和期刊上。歸納起來,這些編碼方法包括1)基于硬投票的編碼方法;2)基于軟投票的編碼方法。硬投票編碼只在每個局部特征的最近單詞上有響應(yīng),而軟投票編碼可以在每個局部特征的最近的多個單詞上有響應(yīng)。以上這些編碼方法只考慮了特征和詞典的關(guān)系來表征局部特征。實(shí)際上視覺詞典中的每個單詞并不是獨(dú)立的,而與其他單詞有著密切的聯(lián)系,這種視覺詞典中的單詞關(guān)系構(gòu)成視覺詞典圖。結(jié)合上述兩種編碼方法,利用視覺詞典圖可以更好的表征局部特征。而現(xiàn)有的視覺詞典圖技術(shù)僅僅適用于硬編碼方法,使得視覺詞典圖技術(shù)在應(yīng)用上受到了很大的限制。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)存在的問題,本發(fā)明提供一種基于泛化視覺詞典圖的物體識別方法。本發(fā)明提出一種基于泛化視覺詞典圖的物體識別方法,其特征在于,該方法包括以下步驟步驟1,采集多個訓(xùn)練圖像,對多個訓(xùn)練圖像分別進(jìn)行局部采樣并在得到的局部采樣塊上提取尺度不變特征變換SIFT特征,得到訓(xùn)練圖像的SIFT特征集合;步驟2,對得到的SIFT特征集合進(jìn)行聚類生成多個聚類中心,以聚類中心為視覺單詞組成視覺詞典;步驟3,根據(jù)視覺詞典中視覺單詞之間的關(guān)系構(gòu)建視覺詞典圖;步驟4,用視覺詞典圖對提取出來的SIFT特征進(jìn)行泛化編碼,得到一個維度為視覺詞典圖大小的泛化編碼結(jié)果向量;步驟5,對泛化編碼結(jié)果向量進(jìn)行最大聚集操作,生成視覺詞典圖響應(yīng),S卩訓(xùn)練圖像的最終特征表達(dá);步驟6,將所有訓(xùn)練圖像的最終特征表達(dá)送入分類器進(jìn)行訓(xùn)練,生成訓(xùn)練模型;步驟7,輸入待識別圖像,根據(jù)步驟I提取待識別圖像的SIFT特征;步驟8,使用步驟3得到的視覺詞典圖對提取出的SIFT特征進(jìn)行泛化編碼;
步驟9,對步驟8得到的泛化編碼結(jié)果進(jìn)行最大聚集操作生成視覺詞典圖響應(yīng);步驟10,將步驟9得到的視覺詞典圖響應(yīng)送入步驟6生成的訓(xùn)練模型進(jìn)行測試,從而得到待識別圖像中目標(biāo)類別的識別結(jié)果。根據(jù)本發(fā)明的方法,圖像目標(biāo)在復(fù)雜的情況下,仍然可以魯棒地達(dá)到識別的目的。 在智能視覺監(jiān)控系統(tǒng)中,能夠利用本發(fā)明幫助監(jiān)控系統(tǒng)識別場景中目標(biāo)的類別,使得監(jiān)控系統(tǒng)能真正理解場景中正在發(fā)生什么,而且可以根據(jù)不同的目標(biāo)類別采取不同的安全級別控制。本發(fā)明還能夠?qū)Χ嗝襟w數(shù)字內(nèi)容分析中的目標(biāo)進(jìn)行分析,判斷目標(biāo)的類別。
圖I是基于泛化視覺詞典圖的物體識別方法的流程圖。圖2是SIFT特征示意圖。圖3是根據(jù)本發(fā)明的視覺詞典圖示意圖。圖4是泛化視覺詞典圖編碼示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。圖I為基于泛化視覺詞典圖的物體識別方法的流程圖,如圖I所示,本發(fā)明所提出的基于泛化視覺詞典圖的物體識別方法包括以下步驟步驟1,采集多個訓(xùn)練圖像,對多個訓(xùn)練圖像分別進(jìn)行局部采樣并在得到的局部采樣塊上提取尺度不變特征變換(Scale Invariant Feature Transform, SIFT)特征,得到訓(xùn)練圖像的SIFT特征集合;所述步驟I中提取尺度不變特征變化(SIFT)特征進(jìn)一步包括以下步驟步驟I. 1,對于一訓(xùn)練圖像,以多個關(guān)鍵點(diǎn)為中心找到該訓(xùn)練圖像的多個局部采樣塊;關(guān)鍵點(diǎn)可以任選圖像中的多個點(diǎn),本發(fā)明中,關(guān)鍵點(diǎn)取為對每一行像素進(jìn)行 4采樣得到的采樣點(diǎn);局部采樣塊可為小于訓(xùn)練圖像尺寸的任意尺寸,本發(fā)明中取為 16(4X4)。步驟I. 2,對每個局部采樣塊進(jìn)行梯度濾波,得到梯度響應(yīng)圖;本發(fā)明中所使用的
梯度濾波函數(shù)為其中,O為高斯平滑系數(shù),(x,y)為采樣點(diǎn)坐標(biāo)。 2πσ步驟I. 3,根據(jù)梯度響應(yīng)圖統(tǒng)計每個局部采樣塊內(nèi)各像素點(diǎn)的梯度方向和幅度,即在各局部采樣塊內(nèi)統(tǒng)計各方向梯度的信息,得到該訓(xùn)練圖像的SIFT特征;SIFT特征表示形式如圖2所示,圖2左圖表示某個采樣點(diǎn)的各個子區(qū)域的梯度方向,右圖表示在每個4X4的局部采樣塊進(jìn)行8個梯度方向的幅值統(tǒng)計。本發(fā)明設(shè)定取8個梯度方向,取16個(4X4)局部采樣塊,最終構(gòu)成128(8X16) 維的特征向量。步驟I. 4,重復(fù)步驟I. 1-1. 3,得到所有訓(xùn)練圖像的SIFT特征,組成SIFT特征集合
步驟2,對得到的SIFT特征集合進(jìn)行聚類生成多個聚類中心,以聚類中心為視覺單詞組成視覺詞典;傳統(tǒng)的視覺詞典生成主要是通過聚類。聚類,顧名思義就是把相似的數(shù)據(jù)聚在一起,使得數(shù)據(jù)類內(nèi)盡可能相似,類間盡可能不相似。本發(fā)明對提取到的128維SIFT特征向量進(jìn)行聚類,即在128維的特征空間中進(jìn)行聚類。最常用的聚類算法是K均值算法(K-means), 聚類后形成了多個子空間區(qū)域,每個區(qū)域的中心就是區(qū)域中所有數(shù)據(jù)點(diǎn)的均值,稱為聚類中心,也被稱為視覺單詞。K均值聚類算法的基本過程如下所描述首先從η個數(shù)據(jù)樣本點(diǎn)中任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度 (距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到新的聚類中心與老的聚類中心之間的差異收斂為止。步驟3,根據(jù)視覺詞典中視覺單詞之間的關(guān)系構(gòu)建視覺詞典圖;把每個視覺單詞視為頂點(diǎn),而兩個視覺單詞的連接視為一條邊,由此形成的圖稱為視覺詞典圖。特別的,對于某個視覺單詞,本發(fā)明只考慮其與附近幾個視覺單詞之間的連接,根據(jù)本發(fā)明所生成的視覺詞典圖示意圖如圖3所示。步驟4,用視覺詞典圖對每個提取出來的SIFT特征進(jìn)行泛化編碼,得到一個維度為視覺詞典圖大小的泛化編碼結(jié)果向量,此向量表示為P = ^11... ,…,rMl... 其中的字母含義將在下文給出。所述泛化編碼方法示意圖如圖4所示。本發(fā)明采用如下的泛化準(zhǔn)則來表征每個SIFT特征,即對SIFT特征進(jìn)行泛化編碼riq = TiX Ψ [g(x, Ci, ciq)](I)其中,i= I, , M, q = I, ... , Qi在公式(I)和圖4中,X代表一個SIFT特征;Ci (i = 1,. . .,M)集合代表視覺詞典, M為視覺詞典中視覺單詞的個數(shù),Ci代表視覺詞典中的一個視覺單詞;ciq(q= 1,...,Qi) 是與視覺單詞Ci相關(guān)聯(lián)的視覺單詞,Qi是相關(guān)聯(lián)的視覺單詞的個數(shù)是X在Ci上的編碼響應(yīng),而ri(1是X在Citl上的編碼響應(yīng),此處的響應(yīng)反映了兩元素經(jīng)過編碼之后的關(guān)系,響應(yīng)值決定于所采用的編碼策略,當(dāng)前廣泛采用的三種編碼策略可以分為基于距離的編碼,基于重構(gòu)的編碼和基于顯著度的編碼。例如,當(dāng)采用基于距離的編碼時,對于某個SIFT特征, 與它距離最近的視覺單詞賦予響應(yīng)1,而其余視覺單詞響應(yīng)均為O ;g( ·)是度量函數(shù),度量的是兩個物理量的相似度,例如在式(I)中,本發(fā)明采用的物理量是兩個向量之間的角度,
/ xe c c \
度量函數(shù)為arcco八iVq Y,其中,〈·>表示兩個向量的內(nèi)積,I · I表示向量的模;Ψ(·)
Fi I'IciqCi I
是任意形式的函數(shù),在本發(fā)明中,可以是最小值函數(shù)argmin或指數(shù)函數(shù)exp。此外,圖4中的實(shí)線代表每對視覺單詞之間的關(guān)系,而虛線所夾的區(qū)域代表每對視覺單詞關(guān)系的作用區(qū)域。
SIFT特征的泛化編碼可分為單詞投票編碼和單詞關(guān)系投票編碼兩種方式,即圖4 中的層I和層2。而每種編碼方式又可進(jìn)一步分為硬投票和軟投票方式,也就是說,存在以下四種編碼方式(I)單詞硬投票;(2)單詞軟投票;(3)單詞關(guān)系硬投票;(4)單詞關(guān)系軟投票,這四種編碼方式均為上文提出的泛化模型的特例。下面分別對這四種編碼方式進(jìn)行說明I.單詞硬投票當(dāng)Ψ [g(x, Ci, ciq)] = I, Qi = I, M = I時,公式⑴轉(zhuǎn)換為如下的單詞硬投票編riq = T1(2)s. t. i = I, q = I2.單詞軟投票當(dāng)Ψ [g(x, Ci, ciq)] = I, Qi = I, I < K彡M時,公式⑴轉(zhuǎn)換為如下的單詞軟投票編碼方法riq = T1(3)s. t. i = I, · · , K, q = I3.單詞關(guān)系硬投票當(dāng)W=argmin,g = Θ (Xci, CiqCi), I < K < M時,公式(I)轉(zhuǎn)換為如下的單詞關(guān)系硬投票編碼方法riq = T1s. t. q = argmin Θ (Xci, CiqCi)(4)i = I, . . . , K, q = I, . . . , Qi
權(quán)利要求
1.一種基于泛化視覺詞典圖的物體識別方法,其特征在于,該方法包括以下步驟步驟1,采集多個訓(xùn)練圖像,對多個訓(xùn)練圖像分別進(jìn)行局部采樣并在得到的局部采樣塊上提取尺度不變特征變換SIFT特征,得到訓(xùn)練圖像的SIFT特征集合;步驟2,對得到的SIFT特征集合進(jìn)行聚類生成多個聚類中心,以聚類中心為視覺單詞組成視覺詞典;步驟3,根據(jù)視覺詞典中視覺單詞之間的關(guān)系構(gòu)建視覺詞典圖;步驟4,用視覺詞典圖對提取出來的SIFT特征進(jìn)行泛化編碼,得到一個維度為視覺詞典圖大小的泛化編碼結(jié)果向量;步驟5,對泛化編碼結(jié)果向量進(jìn)行最大聚集操作,生成視覺詞典圖響應(yīng),S卩訓(xùn)練圖像的最終特征表達(dá);步驟6,將所有訓(xùn)練圖像的最終特征表達(dá)送入分類器進(jìn)行訓(xùn)練,生成訓(xùn)練模型;步驟7,輸入待識別圖像,根據(jù)步驟I提取待識別圖像的SIFT特征;步驟8,使用步驟3得到的視覺詞典圖對提取出的SIFT特征進(jìn)行泛化編碼;步驟9,對步驟8得到的泛化編碼結(jié)果進(jìn)行最大聚集操作生成視覺詞典圖響應(yīng);步驟10,將步驟9得到的視覺詞典圖響應(yīng)送入步驟6生成的訓(xùn)練模型進(jìn)行測試,從而得到待識別圖像中目標(biāo)類別的識別結(jié)果。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟I中提取尺度不變特征變化 SIFT特征進(jìn)一步包括以下步驟步驟I. 1,對于一訓(xùn)練圖像,以多個關(guān)鍵點(diǎn)為中心找到該訓(xùn)練圖像的多個局部采樣塊; 步驟I. 2,對每個局部采樣塊進(jìn)行梯度濾波,得到梯度響應(yīng)圖;步驟I. 3,根據(jù)梯度響應(yīng)圖統(tǒng)計每個局部采樣塊內(nèi)各像素點(diǎn)的梯度方向和幅度,即在各局部采樣塊內(nèi)統(tǒng)計各方向梯度的信息,得到該訓(xùn)練圖像的SIFT特征;步驟I. 4,重復(fù)步驟I. 1-1. 3,得到所有訓(xùn)練圖像的SIFT特征,組成SIFT特征集合。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述關(guān)鍵點(diǎn)取為對所述訓(xùn)練圖像每一行像素進(jìn)行4采樣得到的采樣點(diǎn)。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟I.2中使用的梯度濾波函數(shù)為(ι2”2)/2σ2),其中,σ為高斯平滑系數(shù),(x,y)為采樣點(diǎn)坐標(biāo)。2πσ
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟2中使用K均值算法對得到的 SIFT特征集合進(jìn)行聚類。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,構(gòu)建所述視覺詞典圖時,把每個視覺單詞視為頂點(diǎn),把兩個視覺單詞的連接視為一條邊。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟4中,使用下式對SIFT特征進(jìn)行泛化編碼riq = TiX Ψ [g(x, Ci, ciq)],其中,X代表一個SIFT特征;Ci (i = I, ... ,Μ)集合代表視覺詞典,M為視覺詞典中視覺單詞的個數(shù),Ci代表視覺詞典中的一個視覺單詞;ciq(q= 1,...,Qi)是與視覺單詞Ci相關(guān)聯(lián)的視覺單詞,Qi是相關(guān)聯(lián)的視覺單詞的個數(shù)是X在Ci上的編碼響應(yīng),而riq是X在 Ciq上的編碼響應(yīng),所述響應(yīng)反映了兩元素經(jīng)過編碼之后的關(guān)系;g( ·)是度量函數(shù);Ψ ( ·)是任意形式的函數(shù)。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述泛化編碼分為單詞投票編碼和單詞關(guān)系投票編碼兩種方式。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述泛化編碼進(jìn)一步為層次化的泛化編碼首先,進(jìn)行單詞投票編碼,所述單詞投票編碼包括單詞硬投票編碼和單詞軟投票編碼;然后,基于單詞投票編碼結(jié)果再進(jìn)行單詞關(guān)系編碼,所述單詞關(guān)系編碼包括單詞關(guān)系硬投票和單詞關(guān)系軟投票。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述單詞硬投票編碼為ri(i= ri,其中,i= I, q = I ;所述單詞軟投票為ri(1 = η,其中,i = I, . . . , K, q = I, I < K ^ M ;所述單詞關(guān)系硬投票為I Ergmin^(XCi9CiqCi) ’其中’ i = I’…’ K’ Q = 1’…’Qi, I < K彡M, XCi和CiqCi分別是X和Ciq到Ci的向量,Θ (XCi, CiqCi)是這兩個向量之間的角度;所述單詞關(guān)系軟投票為riq = Γ Χθχρ[-β SEX Θ (xci; CiqCi)2],其中,i = I, . . . , K, q =1,. . .,Qi, I < K彡Μ,β SK是類高斯函數(shù)的平滑系數(shù)。
11.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟5進(jìn)一步包括以下步驟步驟5. 1,使用SIFT特征在視覺詞典圖上的泛化編碼結(jié)果對每個SIFT特征進(jìn)行描述; 步驟5. 2,取視覺詞典圖中每個單詞關(guān)系上所有SIFT特征響應(yīng)的最大值,組成一個維度為視覺詞典圖大小的向量,作為訓(xùn)練圖像的最終特征表達(dá)。
12.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟6中的分類器為線型SVM分類器。
13.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟6中的SVM分類器為f(w)= sgn {(w · x)+b},其中,sgn是0,I符號函數(shù),x是訓(xùn)練樣本,b是偏置項,w是訓(xùn)練得到的模型。
全文摘要
本發(fā)明公開了一種基于泛化視覺詞典圖編碼的目標(biāo)識別方法,包括以下步驟對已經(jīng)標(biāo)好類別的目標(biāo)圖像進(jìn)行特征提取,對提取的特征在視覺詞典圖上進(jìn)行泛化編碼,對編碼結(jié)果進(jìn)行訓(xùn)練并建模;對未知類別的圖像進(jìn)行特征提取,將提取的特征在視覺詞典圖上進(jìn)行泛化編碼,將編碼結(jié)果輸入到訓(xùn)練得到的模型,獲得圖像中目標(biāo)的類別。該方法采用基于泛化視覺詞典圖的編碼技術(shù)來提高分類精度,可用于智能視覺監(jiān)控系統(tǒng),使得監(jiān)控系統(tǒng)能真正理解場景;可用于多媒體數(shù)字內(nèi)容分析中的目標(biāo)分析,判斷目標(biāo)的類別;可用于分析顧客對特定產(chǎn)品或者特定娛樂項目喜好。
文檔編號G06K9/66GK102609732SQ20121002181
公開日2012年7月25日 申請日期2012年1月31日 優(yōu)先權(quán)日2012年1月31日
發(fā)明者王沖, 譚鐵牛, 黃凱奇, 黃永禎 申請人:中國科學(xué)院自動化研究所