基于泛化視覺詞典圖的物體識別方法

文檔序號：6363839閱讀：243來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于泛化視覺詞典圖的物體識別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及模式識別領(lǐng)域，特別涉及一種基于泛化視覺詞典圖的物體識別方法。
背景技術(shù)：
近年來，在物體識別領(lǐng)域中，關(guān)于目標(biāo)特征表達(dá)的一個非常重要方法就是采用視覺詞典來編碼圖像特征。這一類方法被統(tǒng)稱為“基于視覺詞典的物體識別方法”。這類方法在當(dāng)前幾乎所有的物體分類數(shù)據(jù)庫和競賽中都取得了最好的成績，是當(dāng)前物體識別研究中占有統(tǒng)治地位的方法。在基于視覺詞典的物體識別方法中，研究得最多的部分就是目標(biāo)特征編碼技術(shù)。自從2009年開始，短短的兩年時間里，已經(jīng)有十余種編碼技術(shù)被公開發(fā)表在國際主流會議和期刊上。歸納起來，這些編碼方法包括1)基于硬投票的編碼方法；2)基于軟投票的編碼方法。硬投票編碼只在每個局部特征的最近單詞上有響應(yīng)，而軟投票編碼可以在每個局部特征的最近的多個單詞上有響應(yīng)。以上這些編碼方法只考慮了特征和詞典的關(guān)系來表征局部特征。實(shí)際上視覺詞典中的每個單詞并不是獨(dú)立的，而與其他單詞有著密切的聯(lián)系，這種視覺詞典中的單詞關(guān)系構(gòu)成視覺詞典圖。結(jié)合上述兩種編碼方法，利用視覺詞典圖可以更好的表征局部特征。而現(xiàn)有的視覺詞典圖技術(shù)僅僅適用于硬編碼方法，使得視覺詞典圖技術(shù)在應(yīng)用上受到了很大的限制。

發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)存在的問題，本發(fā)明提供一種基于泛化視覺詞典圖的物體識別方法。本發(fā)明提出一種基于泛化視覺詞典圖的物體識別方法，其特征在于，該方法包括以下步驟步驟1，采集多個訓(xùn)練圖像，對多個訓(xùn)練圖像分別進(jìn)行局部采樣并在得到的局部采樣塊上提取尺度不變特征變換SIFT特征，得到訓(xùn)練圖像的SIFT特征集合；步驟2，對得到的SIFT特征集合進(jìn)行聚類生成多個聚類中心，以聚類中心為視覺單詞組成視覺詞典；步驟3，根據(jù)視覺詞典中視覺單詞之間的關(guān)系構(gòu)建視覺詞典圖；步驟4，用視覺詞典圖對提取出來的SIFT特征進(jìn)行泛化編碼，得到一個維度為視覺詞典圖大小的泛化編碼結(jié)果向量；步驟5，對泛化編碼結(jié)果向量進(jìn)行最大聚集操作，生成視覺詞典圖響應(yīng)，S卩訓(xùn)練圖像的最終特征表達(dá)；步驟6，將所有訓(xùn)練圖像的最終特征表達(dá)送入分類器進(jìn)行訓(xùn)練，生成訓(xùn)練模型；步驟7，輸入待識別圖像，根據(jù)步驟I提取待識別圖像的SIFT特征；步驟8，使用步驟3得到的視覺詞典圖對提取出的SIFT特征進(jìn)行泛化編碼；
步驟9，對步驟8得到的泛化編碼結(jié)果進(jìn)行最大聚集操作生成視覺詞典圖響應(yīng)；步驟10，將步驟9得到的視覺詞典圖響應(yīng)送入步驟6生成的訓(xùn)練模型進(jìn)行測試，從而得到待識別圖像中目標(biāo)類別的識別結(jié)果。根據(jù)本發(fā)明的方法，圖像目標(biāo)在復(fù)雜的情況下，仍然可以魯棒地達(dá)到識別的目的。在智能視覺監(jiān)控系統(tǒng)中，能夠利用本發(fā)明幫助監(jiān)控系統(tǒng)識別場景中目標(biāo)的類別，使得監(jiān)控系統(tǒng)能真正理解場景中正在發(fā)生什么，而且可以根據(jù)不同的目標(biāo)類別采取不同的安全級別控制。本發(fā)明還能夠?qū)Χ嗝襟w數(shù)字內(nèi)容分析中的目標(biāo)進(jìn)行分析，判斷目標(biāo)的類別。

圖I是基于泛化視覺詞典圖的物體識別方法的流程圖。圖2是SIFT特征示意圖。圖3是根據(jù)本發(fā)明的視覺詞典圖示意圖。圖4是泛化視覺詞典圖編碼示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對本發(fā)明進(jìn)一步詳細(xì)說明。圖I為基于泛化視覺詞典圖的物體識別方法的流程圖，如圖I所示，本發(fā)明所提出的基于泛化視覺詞典圖的物體識別方法包括以下步驟步驟1，采集多個訓(xùn)練圖像，對多個訓(xùn)練圖像分別進(jìn)行局部采樣并在得到的局部采樣塊上提取尺度不變特征變換(Scale Invariant Feature Transform, SIFT)特征，得到訓(xùn)練圖像的SIFT特征集合；所述步驟I中提取尺度不變特征變化(SIFT)特征進(jìn)一步包括以下步驟步驟I. 1，對于一訓(xùn)練圖像，以多個關(guān)鍵點(diǎn)為中心找到該訓(xùn)練圖像的多個局部采樣塊；關(guān)鍵點(diǎn)可以任選圖像中的多個點(diǎn)，本發(fā)明中，關(guān)鍵點(diǎn)取為對每一行像素進(jìn)行 4采樣得到的采樣點(diǎn)；局部采樣塊可為小于訓(xùn)練圖像尺寸的任意尺寸，本發(fā)明中取為 16(4X4)。步驟I. 2，對每個局部采樣塊進(jìn)行梯度濾波，得到梯度響應(yīng)圖；本發(fā)明中所使用的
梯度濾波函數(shù)為其中，O為高斯平滑系數(shù)，(x,y)為采樣點(diǎn)坐標(biāo)。 2πσ步驟I. 3，根據(jù)梯度響應(yīng)圖統(tǒng)計每個局部采樣塊內(nèi)各像素點(diǎn)的梯度方向和幅度，即在各局部采樣塊內(nèi)統(tǒng)計各方向梯度的信息，得到該訓(xùn)練圖像的SIFT特征；SIFT特征表示形式如圖2所示，圖2左圖表示某個采樣點(diǎn)的各個子區(qū)域的梯度方向，右圖表示在每個4X4的局部采樣塊進(jìn)行8個梯度方向的幅值統(tǒng)計。本發(fā)明設(shè)定取8個梯度方向，取16個(4X4)局部采樣塊，最終構(gòu)成128(8X16) 維的特征向量。步驟I. 4，重復(fù)步驟I. 1-1. 3，得到所有訓(xùn)練圖像的SIFT特征，組成SIFT特征集合
步驟2，對得到的SIFT特征集合進(jìn)行聚類生成多個聚類中心，以聚類中心為視覺單詞組成視覺詞典；傳統(tǒng)的視覺詞典生成主要是通過聚類。聚類，顧名思義就是把相似的數(shù)據(jù)聚在一起，使得數(shù)據(jù)類內(nèi)盡可能相似，類間盡可能不相似。本發(fā)明對提取到的128維SIFT特征向量進(jìn)行聚類，即在128維的特征空間中進(jìn)行聚類。最常用的聚類算法是K均值算法(K-means)，聚類后形成了多個子空間區(qū)域，每個區(qū)域的中心就是區(qū)域中所有數(shù)據(jù)點(diǎn)的均值，稱為聚類中心,也被稱為視覺單詞。K均值聚類算法的基本過程如下所描述首先從η個數(shù)據(jù)樣本點(diǎn)中任意選擇k個對象作為初始聚類中心；而對于所剩下其它對象，則根據(jù)它們與這些聚類中心的相似度 (距離)，分別將它們分配給與其最相似的(聚類中心所代表的)聚類；然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值)；不斷重復(fù)這一過程直到新的聚類中心與老的聚類中心之間的差異收斂為止。步驟3，根據(jù)視覺詞典中視覺單詞之間的關(guān)系構(gòu)建視覺詞典圖；把每個視覺單詞視為頂點(diǎn)，而兩個視覺單詞的連接視為一條邊，由此形成的圖稱為視覺詞典圖。特別的，對于某個視覺單詞，本發(fā)明只考慮其與附近幾個視覺單詞之間的連接，根據(jù)本發(fā)明所生成的視覺詞典圖示意圖如圖3所示。步驟4，用視覺詞典圖對每個提取出來的SIFT特征進(jìn)行泛化編碼，得到一個維度為視覺詞典圖大小的泛化編碼結(jié)果向量，此向量表示為P = ^11... ，…，rMl... 其中的字母含義將在下文給出。所述泛化編碼方法示意圖如圖4所示。本發(fā)明采用如下的泛化準(zhǔn)則來表征每個SIFT特征，即對SIFT特征進(jìn)行泛化編碼riq = TiX Ψ [g(x, Ci, ciq)](I)其中，i= I, , M, q = I, ... , Qi在公式(I)和圖4中，X代表一個SIFT特征；Ci (i = 1，. . .，M)集合代表視覺詞典， M為視覺詞典中視覺單詞的個數(shù)，Ci代表視覺詞典中的一個視覺單詞；ciq(q= 1，...，Qi) 是與視覺單詞Ci相關(guān)聯(lián)的視覺單詞，Qi是相關(guān)聯(lián)的視覺單詞的個數(shù)是X在Ci上的編碼響應(yīng)，而ri(1是X在Citl上的編碼響應(yīng),此處的響應(yīng)反映了兩元素經(jīng)過編碼之后的關(guān)系，響應(yīng)值決定于所采用的編碼策略，當(dāng)前廣泛采用的三種編碼策略可以分為基于距離的編碼，基于重構(gòu)的編碼和基于顯著度的編碼。例如，當(dāng)采用基于距離的編碼時，對于某個SIFT特征，與它距離最近的視覺單詞賦予響應(yīng)1，而其余視覺單詞響應(yīng)均為O ;g( ·)是度量函數(shù)，度量的是兩個物理量的相似度，例如在式(I)中，本發(fā)明采用的物理量是兩個向量之間的角度，
/ xe c c \
度量函數(shù)為arcco八iVq Y，其中，〈·>表示兩個向量的內(nèi)積，I · I表示向量的模；Ψ(·)
Fi I'IciqCi I
是任意形式的函數(shù)，在本發(fā)明中，可以是最小值函數(shù)argmin或指數(shù)函數(shù)exp。此外，圖4中的實(shí)線代表每對視覺單詞之間的關(guān)系，而虛線所夾的區(qū)域代表每對視覺單詞關(guān)系的作用區(qū)域。
SIFT特征的泛化編碼可分為單詞投票編碼和單詞關(guān)系投票編碼兩種方式，即圖4 中的層I和層2。而每種編碼方式又可進(jìn)一步分為硬投票和軟投票方式，也就是說，存在以下四種編碼方式(I)單詞硬投票；(2)單詞軟投票；(3)單詞關(guān)系硬投票；(4)單詞關(guān)系軟投票，這四種編碼方式均為上文提出的泛化模型的特例。下面分別對這四種編碼方式進(jìn)行說明I.單詞硬投票當(dāng)Ψ [g(x, Ci, ciq)] = I, Qi = I, M = I時,公式⑴轉(zhuǎn)換為如下的單詞硬投票編riq = T1(2)s. t. i = I, q = I2.單詞軟投票當(dāng)Ψ [g(x, Ci, ciq)] = I, Qi = I, I < K彡M時,公式⑴轉(zhuǎn)換為如下的單詞軟投票編碼方法riq = T1(3)s. t. i = I, · · , K, q = I3.單詞關(guān)系硬投票當(dāng)W=argmin,g = Θ (Xci, CiqCi), I < K < M時,公式(I)轉(zhuǎn)換為如下的單詞關(guān)系硬投票編碼方法riq = T1s. t. q = argmin Θ (Xci, CiqCi)(4)i = I, . . . , K, q = I, . . . , Qi
權(quán)利要求
1.一種基于泛化視覺詞典圖的物體識別方法，其特征在于，該方法包括以下步驟步驟1，采集多個訓(xùn)練圖像，對多個訓(xùn)練圖像分別進(jìn)行局部采樣并在得到的局部采樣塊上提取尺度不變特征變換SIFT特征，得到訓(xùn)練圖像的SIFT特征集合；步驟2，對得到的SIFT特征集合進(jìn)行聚類生成多個聚類中心，以聚類中心為視覺單詞組成視覺詞典；步驟3，根據(jù)視覺詞典中視覺單詞之間的關(guān)系構(gòu)建視覺詞典圖；步驟4，用視覺詞典圖對提取出來的SIFT特征進(jìn)行泛化編碼，得到一個維度為視覺詞典圖大小的泛化編碼結(jié)果向量；步驟5，對泛化編碼結(jié)果向量進(jìn)行最大聚集操作，生成視覺詞典圖響應(yīng)，S卩訓(xùn)練圖像的最終特征表達(dá)；步驟6，將所有訓(xùn)練圖像的最終特征表達(dá)送入分類器進(jìn)行訓(xùn)練，生成訓(xùn)練模型；步驟7，輸入待識別圖像，根據(jù)步驟I提取待識別圖像的SIFT特征；步驟8，使用步驟3得到的視覺詞典圖對提取出的SIFT特征進(jìn)行泛化編碼；步驟9，對步驟8得到的泛化編碼結(jié)果進(jìn)行最大聚集操作生成視覺詞典圖響應(yīng)；步驟10，將步驟9得到的視覺詞典圖響應(yīng)送入步驟6生成的訓(xùn)練模型進(jìn)行測試，從而得到待識別圖像中目標(biāo)類別的識別結(jié)果。
2.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟I中提取尺度不變特征變化 SIFT特征進(jìn)一步包括以下步驟步驟I. 1，對于一訓(xùn)練圖像，以多個關(guān)鍵點(diǎn)為中心找到該訓(xùn)練圖像的多個局部采樣塊；步驟I. 2，對每個局部采樣塊進(jìn)行梯度濾波，得到梯度響應(yīng)圖；步驟I. 3，根據(jù)梯度響應(yīng)圖統(tǒng)計每個局部采樣塊內(nèi)各像素點(diǎn)的梯度方向和幅度，即在各局部采樣塊內(nèi)統(tǒng)計各方向梯度的信息，得到該訓(xùn)練圖像的SIFT特征；步驟I. 4，重復(fù)步驟I. 1-1. 3，得到所有訓(xùn)練圖像的SIFT特征，組成SIFT特征集合。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述關(guān)鍵點(diǎn)取為對所述訓(xùn)練圖像每一行像素進(jìn)行4采樣得到的采樣點(diǎn)。
4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述步驟I.2中使用的梯度濾波函數(shù)為(ι2”2)/2σ2)，其中，σ為高斯平滑系數(shù)，(x,y)為采樣點(diǎn)坐標(biāo)。2πσ
5.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟2中使用K均值算法對得到的 SIFT特征集合進(jìn)行聚類。
6.根據(jù)權(quán)利要求I所述的方法，其特征在于，構(gòu)建所述視覺詞典圖時，把每個視覺單詞視為頂點(diǎn)，把兩個視覺單詞的連接視為一條邊。
7.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟4中，使用下式對SIFT特征進(jìn)行泛化編碼riq = TiX Ψ [g(x, Ci, ciq)],其中，X代表一個SIFT特征；Ci (i = I, ... ,Μ)集合代表視覺詞典，M為視覺詞典中視覺單詞的個數(shù)，Ci代表視覺詞典中的一個視覺單詞；ciq(q= 1，...，Qi)是與視覺單詞Ci相關(guān)聯(lián)的視覺單詞，Qi是相關(guān)聯(lián)的視覺單詞的個數(shù)是X在Ci上的編碼響應(yīng)，而riq是X在 Ciq上的編碼響應(yīng)，所述響應(yīng)反映了兩元素經(jīng)過編碼之后的關(guān)系；g( ·)是度量函數(shù)；Ψ ( ·)是任意形式的函數(shù)。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述泛化編碼分為單詞投票編碼和單詞關(guān)系投票編碼兩種方式。
9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述泛化編碼進(jìn)一步為層次化的泛化編碼首先，進(jìn)行單詞投票編碼，所述單詞投票編碼包括單詞硬投票編碼和單詞軟投票編碼；然后，基于單詞投票編碼結(jié)果再進(jìn)行單詞關(guān)系編碼，所述單詞關(guān)系編碼包括單詞關(guān)系硬投票和單詞關(guān)系軟投票。
10.根據(jù)權(quán)利要求9所述的方法，其特征在于，所述單詞硬投票編碼為ri(i= ri，其中，i= I, q = I ;所述單詞軟投票為ri(1 = η,其中，i = I, . . . , K, q = I, I < K ^ M ；所述單詞關(guān)系硬投票為I Ergmin^(XCi9CiqCi) ’其中’ i = I’…’ K’ Q = 1’…’Qi, I < K彡M, XCi和CiqCi分別是X和Ciq到Ci的向量，Θ (XCi, CiqCi)是這兩個向量之間的角度；所述單詞關(guān)系軟投票為riq = Γ Χθχρ[-β SEX Θ (xci； CiqCi)2],其中，i = I, . . . , K, q =1，. . .，Qi, I < K彡Μ，β SK是類高斯函數(shù)的平滑系數(shù)。
11.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟5進(jìn)一步包括以下步驟步驟5. 1，使用SIFT特征在視覺詞典圖上的泛化編碼結(jié)果對每個SIFT特征進(jìn)行描述；步驟5. 2，取視覺詞典圖中每個單詞關(guān)系上所有SIFT特征響應(yīng)的最大值，組成一個維度為視覺詞典圖大小的向量，作為訓(xùn)練圖像的最終特征表達(dá)。
12.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟6中的分類器為線型SVM分類器。
13.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟6中的SVM分類器為f(w)= sgn {(w · x)+b}，其中，sgn是0，I符號函數(shù)，x是訓(xùn)練樣本，b是偏置項，w是訓(xùn)練得到的模型。
全文摘要
本發(fā)明公開了一種基于泛化視覺詞典圖編碼的目標(biāo)識別方法，包括以下步驟對已經(jīng)標(biāo)好類別的目標(biāo)圖像進(jìn)行特征提取，對提取的特征在視覺詞典圖上進(jìn)行泛化編碼，對編碼結(jié)果進(jìn)行訓(xùn)練并建模；對未知類別的圖像進(jìn)行特征提取，將提取的特征在視覺詞典圖上進(jìn)行泛化編碼，將編碼結(jié)果輸入到訓(xùn)練得到的模型，獲得圖像中目標(biāo)的類別。該方法采用基于泛化視覺詞典圖的編碼技術(shù)來提高分類精度，可用于智能視覺監(jiān)控系統(tǒng)，使得監(jiān)控系統(tǒng)能真正理解場景；可用于多媒體數(shù)字內(nèi)容分析中的目標(biāo)分析，判斷目標(biāo)的類別；可用于分析顧客對特定產(chǎn)品或者特定娛樂項目喜好。
文檔編號G06K9/66GK102609732SQ20121002181
公開日2012年7月25日申請日期2012年1月31日優(yōu)先權(quán)日2012年1月31日
發(fā)明者王沖, 譚鐵牛, 黃凱奇, 黃永禎申請人:中國科學(xué)院自動化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃凱奇;譚鐵牛;黃永禎;王沖
技術(shù)所有人：中國科學(xué)院自動化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

視覺機(jī)械手抓取物體相關(guān)技術(shù)

使物體懸空的視覺效果相關(guān)技術(shù)

平面設(shè)計視覺詞典相關(guān)技術(shù)

opencv識別特定物體相關(guān)技術(shù)

物體識別相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于泛化視覺詞典圖的物體識別方法