精細(xì)粒度類別識別及物體的部分定位和特征提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種圖像處理技術(shù)領(lǐng)域的方法,具體地說,涉及的是一種精細(xì)粒度類 別識別方法,以及該識別問題中涉及的物體的部分定位和特征提取方法。
【背景技術(shù)】
[0002] 精細(xì)粒度分類問題的目標(biāo)是區(qū)分同一大類下的數(shù)以百計(jì)的多個(gè)子類別,比如說區(qū) 分不同類別的花,鳥,狗等等。對于非專業(yè)人員來說,識別這些子類是非常困難的,精細(xì)粒度 分類問題的提出解決了非專業(yè)人員識別這些相似子類的問題。用戶只需要給定目標(biāo)物體, 通過精細(xì)類別識別方法,就可以返回目標(biāo)物體的類別,進(jìn)而可以獲得該子類一系列特性。不 同于一般類別識別問題(比如說區(qū)分車子和人),由于子類間的差異比較小并且高度局部 化,區(qū)分這些子類是非常困難的。廣泛應(yīng)用于一般類別識別問題的空間金字塔模型由于不 能捕獲這種高度局部化的子類間差異,因而不能達(dá)到滿意的識別結(jié)果。
[0003] 經(jīng)過對現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn),精細(xì)粒度分類問題的難點(diǎn)主要在兩個(gè)方面, 即部分定位以及圖像描述。部分定位廣泛采用的是P. Felzenszwalb在2010年《IEEE Transactions on Pattern Analysis and Machine Intelligence》 上發(fā)表的 ''A discriminatively trained, multiscale,deformable part model",即可變形部分模型以 及它的變種。該模型通過訓(xùn)練模板檢測器尋找目標(biāo)物體或者部分目標(biāo)物體,并且考慮到了 部分模型之間的幾何相關(guān)性。然而,該模型僅僅對形變比較小的部分具有較好的檢測效 果,對形變比較大的部分,諸如鳥的翅膀,部分檢測模型的性能很差。針對圖像描述,大多 米用 D.G. Lowe 在 2004 年發(fā)表在《International Journal of Computer Vision》上的 Distinctive image features from scale-invariant keypoints",艮P尺度不變特征。然 而,該特征僅僅是一些梯度信息的組合,獨(dú)立于具體的數(shù)據(jù)集,不具備較好的區(qū)分能力。其 他的特征諸如 Krizhevsky 在 2010 年發(fā)表在《Neural Information Processing Systems》 上的''Imagenet classification with deep convolutional neural networks",艮P卷及 神經(jīng)網(wǎng)絡(luò)特征,該特征盡管是針對數(shù)據(jù)設(shè)計(jì)的語義豐富的特征,但卻缺乏足夠的尺度以及 平移不變性。當(dāng)檢測的部分物體與真實(shí)位置有較大偏差時(shí),該特征不能很好的克服這種平 移變化。
【發(fā)明內(nèi)容】
[0004] 針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種精細(xì)粒度類別識別及其物體的 部分定位和特征提取方法,提高部分定位的精度以及特征表達(dá)的尺度不變性以及平移不變 性,從而提高精細(xì)類別分類問題的識別精度。
[0005] 本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0006] 根據(jù)本發(fā)明的第一方面,提供一種物體的部分定位方法,是一種針對精細(xì)粒度分 類的部分定位方法,該方法利用物體檢測器和部分檢測器檢測目標(biāo)物體以及它的形變較小 部分,所述檢測器是利用姿態(tài)聚類的有監(jiān)督方法學(xué)習(xí)得到的,考慮到了物體或者部分的姿 態(tài)變化;物體檢測器和部分檢測器是獨(dú)立進(jìn)行的,并返回每個(gè)檢測器中得分高的檢測區(qū)域 作為候選,最終的檢測結(jié)果通過校正物體和部分檢測結(jié)果得到。
[0007] 優(yōu)選的,所述檢測器是利用姿態(tài)聚類的有監(jiān)督方法學(xué)習(xí)得到的,具體為:對于物體 以及每一個(gè)部分,根據(jù)姿態(tài)聚集正例樣本到一些混合模型;
[0008] 假設(shè)每一個(gè)部*Pi都用一個(gè)邊界框扒=定義,整個(gè)物體以邊界框p Q 表達(dá),其中(l,t,r,b)表示邊界框的左側(cè),頂部,右側(cè)以及底部坐標(biāo)位置;通過如下向量,這 些標(biāo)定的部分用來參數(shù)化樣本I的姿態(tài)9 1:
[0009] 9 i= (pri,p' 2, . . . ,p'n)
[0010]
【主權(quán)項(xiàng)】
1. 一種精細(xì)粒度類別識別中物體的部分定位方法,其特征在于,該方法利用物體檢測 器和部分檢測器檢測目標(biāo)物體以及它的形變較小部分,所述檢測器是利用姿態(tài)聚類的有監(jiān) 督方法學(xué)習(xí)得到的,考慮到了物體或者部分的姿態(tài)變化;物體檢測器和部分檢測器是獨(dú)立 進(jìn)行的,并返回每個(gè)檢測器中得分高的檢測區(qū)域作為候選,最終的檢測結(jié)果通過校正物體 和部分檢測結(jié)果得到。
2. 根據(jù)權(quán)利要求1所述的物體的部分定位方法,其特征在于,所述檢測器是利用姿態(tài) 聚類的有監(jiān)督方法學(xué)習(xí)得到的,具體為:對于物體以及每一個(gè)部分,根據(jù)姿態(tài)聚集正例樣本 到一些混合模型; 假設(shè)每一個(gè)部分pjP用一個(gè)邊界框
定義,整個(gè)物體以邊界框Po表 達(dá),其中(l,t,r,b)表示邊界框的左側(cè),頂部,右側(cè)以及底部坐標(biāo)位置;通過如下向量,這些 標(biāo)定的部分用來參數(shù)化樣本I的姿態(tài)0 1: 9 1= (P'pP' 2, ? ? ?,P' n)
其中,w和h表示物體P(l的寬度和高度,n表示物體部分的數(shù)量.p'i是歸一化 表達(dá),這種歸一化的表達(dá)使得可以僅僅考慮部分的相對位置,而忽略不同物體部分之間的 尺度差異;所有的正樣本依據(jù)姿態(tài)特性,利用k-均值聚類方法聚類成C個(gè)成分。
3. 根據(jù)權(quán)利要求2所述的物體的部分定位方法,其特征在于,為解決返回的檢測結(jié)果 中物體部分有可能與物體的位置不一致,所述物體檢測器和部分檢測器返回每個(gè)檢測器中 得分高的檢測區(qū)域作為候選,具體為: 令X={xvXp. . .,xn}表示物體及其相應(yīng)的n個(gè)部分的得分高的檢測結(jié)果,<HX)= {MX),Mxj,. . .,<Hxn)}表示對應(yīng)的卷積特征,給定訓(xùn)練得到的一系列檢測器{wQ, Wp. . .,wn},通過優(yōu)化如下表達(dá)式更新檢測結(jié)果:
▽[?]是一個(gè)非線性函數(shù),把檢測得分映射到范圍[_1,1],[*]£是一個(gè)損失函數(shù);參 數(shù)A,度量部分和物體的重疊度,范圍為[〇,1];加權(quán)項(xiàng)[X 用來懲罰檢測的部分與物體 不一致的情況。
4. 一種精細(xì)粒度類別識別中特征提取方法,其特征在于,在每個(gè)物體部分定位結(jié)果上 提取不變的卷積特征,即在多個(gè)尺度以及多個(gè)視角提取卷積特征,這些卷積特征進(jìn)行融合 得到最終的特征表達(dá),該表達(dá)用于最終的分類。
5. 根據(jù)權(quán)利要求4所述的特征提取方法,其特征在于包括如下步驟: 步驟一:對給定尺度圖像,提取第五個(gè)卷積層特征圖fwxhx。,其中wXh代表卷積圖像大 小,C代表特征圖的通道數(shù);輸入圖像相對于第五個(gè)卷積層的下采樣比例為16,意味著第五 個(gè)卷積層特征圖相對于輸入圖像的步長為16 ; 步驟二:對特征圖的每一個(gè)信道的邊界進(jìn)行補(bǔ)零操作,每側(cè)增加兩個(gè)像素,由此得到補(bǔ) 零以后的特征圖f' w, xh,xc;對補(bǔ)零以后的特征圖f' w, xh, xc,在每個(gè)通道上使用滑動 窗口法以步長1選擇任意子圖fwxhxc,因此總共有5X5個(gè)相對于左上角偏置(Ax,Ay)為 {0,1,2, 3,4}的子圖;然后對每一個(gè)子圖進(jìn)行池化操作,得到目標(biāo)輸出大小為nXn的池化 以后的子圖; 步驟三:使用步驟二中得到的池化子圖計(jì)算后續(xù)全聯(lián)通層特征圖。
6. 根據(jù)權(quán)利要求5所述的特征提取方法,其特征在于上述操作在輸入圖像及其水平翻 轉(zhuǎn)圖像的5個(gè)尺度上進(jìn)行,最后總共得到25X5X2個(gè)特征向量,這些特征向量在每個(gè)尺度 上分別進(jìn)行池化操作以后得到每個(gè)尺度上的單一特征表達(dá),最后級聯(lián)這些多個(gè)尺度上的特 征用于對圖像的最終表達(dá)。
7. -種采用上述任一項(xiàng)權(quán)利要求所述方法的精細(xì)粒度類別識別方法,其特征在于包括 兩個(gè)步驟: 第一步:針對測試圖像,利用物體檢測器和部分檢測器檢測目標(biāo)物體以及它的形變較 小部分,所述檢測器是利用姿態(tài)聚類的有監(jiān)督方法學(xué)習(xí)得到的,考慮到了物體或者部分的 姿態(tài)變化;物體檢測器和部分檢測器是獨(dú)立進(jìn)行的,并返回每個(gè)檢測器中得分高的檢測區(qū) 域作為候選,最終的檢測結(jié)果通過校正物體和部分檢測結(jié)果得到; 第二步,對第一步中每個(gè)檢測到的物體或者部分在多個(gè)尺度以及多個(gè)視角提取卷積特 征,這些卷積特征進(jìn)行融合得到最終的特征表達(dá),該表達(dá)用于最終的分類。
【專利摘要】本發(fā)明提出了一種精細(xì)粒度類別識別及物體的部分定位和特征提取方法,該方法較好地解決了精細(xì)粒度類別識別問題中物體的部分定位問題和特征表達(dá)問題。針對物體的部分定位問題,利用有監(jiān)督學(xué)習(xí)訓(xùn)練一系列的部分檢測器,考慮到定位目標(biāo)的姿態(tài)變化以及形變影響,該方法僅僅檢測形變較小的部分,并且利用姿態(tài)聚類方法對同一個(gè)物體部分訓(xùn)練不同的檢測器,從而把物體的姿態(tài)變化考慮在內(nèi)。針對物體或者部分的特征表達(dá),該方法提出在多個(gè)尺度以及多個(gè)位置提取特征,然后融合這些特征用于最終物體表達(dá),由此使得該特征具有一定的尺度以及平移不變性。本發(fā)明的物體部分定位以及特征表達(dá)間同時(shí)具有一定的互補(bǔ)性,從而能夠有效地提高精細(xì)類別識別問題的精度。
【IPC分類】G06K9-66, G06K9-46
【公開號】CN104573744
【申請?zhí)枴緾N201510026025
【發(fā)明人】熊紅凱, 張曉鵬
【申請人】上海交通大學(xué)
【公開日】2015年4月29日
【申請日】2015年1月19日