本發(fā)明屬于計(jì)算機(jī)視覺領(lǐng)域,涉及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理,尤其涉及一種卷積神經(jīng)網(wǎng)絡(luò)特征的處理方法和裝置。
背景技術(shù):
基于卷積神經(jīng)網(wǎng)絡(luò)(英文:Convolutional Neural Networks,縮寫:CNN)的圖像識(shí)別、物體檢測已經(jīng)成為目前計(jì)算機(jī)視覺領(lǐng)域內(nèi)精度最高的技術(shù)。通常,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別的大致流程包括:首先,用海量圖像樣本訓(xùn)練用于圖像分類或識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)其參數(shù);當(dāng)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練完畢之后,如圖1所示,將一幅待識(shí)別圖像輸入該卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過層層的“卷積”和“降采樣(pooling)”得到一系列小的特征圖(feature map),并通過將這些特征圖一維化成為向量之后輸入已有分類器(比如SVM,Support Vector Machine,支持向量機(jī))來進(jìn)行識(shí)別。
其中,層層“卷積”和“降采樣”將使得最后輸出的特征在原始圖像上的空間信息丟失了。然而,從以往的經(jīng)驗(yàn)來看,在進(jìn)行圖像分類、識(shí)別、檢測等工作時(shí),特征的空間信息是非常重要的。如果能恢復(fù)出基于卷積神經(jīng)網(wǎng)絡(luò)獲得的特征(以下稱為卷積神經(jīng)網(wǎng)絡(luò)特征,又簡寫為CNN特征)在原始圖像上的空間信息,相關(guān)領(lǐng)域的識(shí)別、檢測精度會(huì)得到進(jìn)一步的提升。因此,有必要恢復(fù)CNN特征的空間信息。
現(xiàn)有的工作中,有一些工作致力于恢復(fù)CNN特征在原始圖像上的空間信息,例如非專利文獻(xiàn)1和2、以及本發(fā)明人的申請?zhí)枮?01510106624.6的中國發(fā)明專利申請。然而,這些工作基本上都是用于觀察通過卷積神經(jīng)網(wǎng)絡(luò)最終得到的特征與該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)系,而沒有利用得到的空間信息來重 新組織特征并用于目標(biāo)識(shí)別與檢測。
引證文件列表
非專利文獻(xiàn)
1、Zeiler,M.,Taylor,G.,and Fergus,R.Adaptive deconvolutional networks for mid and high level feature learning.In ICCV,2011.
2、Matthew D.Zeiler,Rob Fergus.Visualizing and Understanding Convolutional Networks.In ECCV,2014.
技術(shù)實(shí)現(xiàn)要素:
技術(shù)問題
有鑒于此,本發(fā)明要解決的技術(shù)問題是,如何對CNN特征進(jìn)行處理,以使得處理后的特征既具有明確的空間含義、又能夠保持較高的區(qū)分性。
解決方案
根據(jù)本發(fā)明的一個(gè)方面,提供了一種卷積神經(jīng)網(wǎng)絡(luò)特征即CNN特征的處理方法,用于對將原始圖像輸入具有N層卷積和降采樣的卷積神經(jīng)網(wǎng)絡(luò)所獲得的M個(gè)特征圖進(jìn)行處理,其中M、N均為整數(shù)并且M≥1、N≥1,其特征在于,包括:恢復(fù)各所述M個(gè)特征圖在所述原始圖像上的空間信息,以獲得所述原始圖像中的各元素對各所述M個(gè)特征圖的貢獻(xiàn)度;基于所獲得的貢獻(xiàn)度計(jì)算各所述M個(gè)特征圖在所述原始圖像上的分布;根據(jù)所述M個(gè)特征圖各自在所述原始圖像上的分布,提取與所述原始圖像中的各元素對應(yīng)的M維向量;針對所述原始圖像中的關(guān)注區(qū)域,將該關(guān)注區(qū)域內(nèi)的所有元素的M維向量相加,以得到與所述關(guān)注區(qū)域?qū)?yīng)的M維向量作為該關(guān)注區(qū)域的區(qū)域描述子。
對于上述CNN特征的處理方法,在一種可能的實(shí)現(xiàn)方式中,所述基于所獲得的貢獻(xiàn)度計(jì)算各所述M個(gè)特征圖在所述原始圖像上的分布包括:將所獲 得的貢獻(xiàn)度分別按元素乘以所述原始圖像,以得到各所述M個(gè)特征圖在所述原始圖像上的分布。
對于上述CNN特征的處理方法,在一種可能的實(shí)現(xiàn)方式中,恢復(fù)各所述M個(gè)特征圖在所述原始圖像上的空間信息,包括針對每一特征圖分別執(zhí)行如下步驟:從K等于N開始,依次根據(jù)所述特征圖在第K層特征圖上的分布重建出所述特征圖在第K-1層特征圖上的分布,其中K為整數(shù)并且0<K≤N,所述特征圖在第0層特征圖上的分布表示所述特征圖在所述原始圖像上的空間信息;并且,根據(jù)所述特征圖在第K層特征圖上的分布重建出所述特征圖在第K-1層特征圖上的分布包括:對所述特征圖在第K層特征圖上的分布進(jìn)行去降采樣,以得到所述特征圖在第K層特征圖上的去降采樣分布;獲取所述去降采樣分布中的每一關(guān)注元素及所述每一關(guān)注元素的值;分別針對每一關(guān)注元素執(zhí)行以下操作:確定關(guān)注元素對應(yīng)的第K-1層特征圖中的區(qū)域;將所述第K-1層特征圖中的該區(qū)域內(nèi)的元素置為與所述關(guān)注元素的值相對應(yīng)的值,并將除該區(qū)域之外的其它區(qū)域中的元素置為非關(guān)注元素的值;就賦值后的所述第K-1層特征圖中的所述關(guān)注元素對應(yīng)的區(qū)域按元素乘以設(shè)定權(quán)重以得到所述關(guān)注元素在第K-1層特征圖上的子分布;其中所述設(shè)定權(quán)重根據(jù)預(yù)存儲(chǔ)的從第K-1層特征圖通過卷積運(yùn)算得到第K層特征圖時(shí)所采用的卷積核生成;將所有關(guān)注元素各自在第K-1層特征圖上的子分布進(jìn)行疊加以生成所述特征圖在第K-1層特征圖上的分布。
對于上述CNN特征的處理方法,在一種可能的實(shí)現(xiàn)方式中,還包括:將從所述原始圖像劃分出的X個(gè)圖像塊的所述區(qū)域描述子按照預(yù)定編碼規(guī)則進(jìn)行編碼,其中X為整數(shù)并且X≥1;根據(jù)所述編碼規(guī)則對X個(gè)所述區(qū)域描述子進(jìn)行映射,以得到用于描述所述原始圖像的圖像描述子。
對于上述CNN特征的處理方法,在一種可能的實(shí)現(xiàn)方式中,所述預(yù)定編碼規(guī)則為K均值聚類算法。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種卷積神經(jīng)網(wǎng)絡(luò)特征即CNN特征的處理裝置,用于對將原始圖像輸入具有N層卷積和降采樣的卷積神經(jīng)網(wǎng)絡(luò)所獲得的M個(gè)特征圖進(jìn)行處理,其中M、N均為整數(shù)并且M≥1、N≥1,其特征在于,包括:空間信息恢復(fù)模塊,被配置為恢復(fù)各所述M個(gè)特征圖在所述原始圖像上的空間信息,以獲得所述原始圖像中的各元素對各所述M個(gè)特征圖的貢獻(xiàn)度;分布計(jì)算模塊,與所述空間信息恢復(fù)模塊連接,被配置為基于所獲得的貢獻(xiàn)度計(jì)算各所述M個(gè)特征圖在所述原始圖像上的分布;特征提取模塊,與所述分布計(jì)算模塊連接,被配置為根據(jù)所述M個(gè)特征圖各自在所述原始圖像上的分布,提取與所述原始圖像中的各元素對應(yīng)的M維向量;區(qū)域描述子提取模塊,與所述特征提取模塊連接,被配置為針對所述原始圖像中的關(guān)注區(qū)域,將該關(guān)注區(qū)域內(nèi)的所有元素的M維向量相加,以得到與所述關(guān)注區(qū)域?qū)?yīng)的M維向量作為該關(guān)注區(qū)域的區(qū)域描述子。
對于上述CNN特征的處理裝置,在一種可能的實(shí)現(xiàn)方式中,所述分布計(jì)算模塊被配置為將所獲得的貢獻(xiàn)度分別按元素乘以所述原始圖像,以得到各所述M個(gè)特征圖在所述原始圖像上的分布。
對于上述CNN特征的處理裝置,在一種可能的實(shí)現(xiàn)方式中,所述空間信息恢復(fù)模塊被配置為針對每一特征圖分別執(zhí)行如下步驟:從K等于N開始,依次根據(jù)所述特征圖在第K層特征圖上的分布重建出所述特征圖在第K-1層特征圖上的分布,其中K為整數(shù)并且0<K≤N,所述特征圖在第0層特征圖上的分布表示所述特征圖在所述原始圖像上的空間信息;并且,所述空間信息恢復(fù)模塊包括:去降采樣單元,被配置為對所述特征圖在第K層特征圖上的分布進(jìn)行去降采樣,以得到所述特征圖在第K層特征圖上的去降采樣分布;重建單元,與所述去降采樣單元連接,并且被配置為,獲取所述去降采樣分布中的每一關(guān)注元素及所述每一關(guān)注元素的值;分別針對每一關(guān)注元素執(zhí)行以下操作:確定關(guān)注元素對應(yīng)的第K-1層特征圖中的區(qū)域;將所述第K-1層特 征圖中的該區(qū)域內(nèi)的元素置為與所述關(guān)注元素的值相對應(yīng)的值,并將除該區(qū)域之外的其它區(qū)域中的元素置為非關(guān)注元素的值;就賦值后的所述第K-1層特征圖中的所述關(guān)注元素對應(yīng)的區(qū)域按元素乘以設(shè)定權(quán)重以得到所述關(guān)注元素在第K-1層特征圖上的子分布;其中所述設(shè)定權(quán)重根據(jù)預(yù)存儲(chǔ)的從第K-1層特征圖通過卷積運(yùn)算得到第K層特征圖時(shí)所采用的卷積核生成;加法單元,與所述重建單元以及所述去降采樣單元連接,被配置為將通過所述重建單元獲得的所有關(guān)注元素各自在第K-1層特征圖上的子分布進(jìn)行疊加,并將相加所得到的結(jié)果作為所述特征圖在第K-1層特征圖上的分布輸出至所述去降采樣單元。
對于上述CNN特征的處理裝置,在一種可能的實(shí)現(xiàn)方式中,還包括:編碼模塊,被配置為將從所述原始圖像劃分出的X個(gè)圖像塊的所述區(qū)域描述子按照預(yù)定編碼規(guī)則進(jìn)行編碼,其中X為整數(shù)并且X≥1;映射模塊,與所述編碼模塊連接,被配置為根據(jù)所述編碼規(guī)則對X個(gè)所述區(qū)域描述子進(jìn)行映射,以得到用于描述所述原始圖像的圖像描述子。
對于上述CNN特征的處理裝置,在一種可能的實(shí)現(xiàn)方式中,所述預(yù)定編碼規(guī)則為K均值聚類算法。
有益效果
本發(fā)明提供了一種CNN特征的處理方法和裝置,能夠基于CNN特征得到本身的區(qū)分力較強(qiáng)、又具有明確的空間含義的新的局部特征,并且通過將該新的局部特征應(yīng)用于目標(biāo)識(shí)別與檢測,能夠大大提高識(shí)別和檢測的精度。
根據(jù)下面參考附圖對示例性實(shí)施例的詳細(xì)說明,本發(fā)明的其它特征及方面將變得清楚。
附圖說明
包含在說明書中并且構(gòu)成說明書的一部分的附圖與說明書一起示出了 本發(fā)明的示例性實(shí)施例、特征和方面,并且用于解釋本發(fā)明的原理。
圖1示出現(xiàn)有技術(shù)使用CNN進(jìn)行圖像識(shí)別的示意圖;
圖2示出根據(jù)本發(fā)明實(shí)施例的CNN特征的處理方法的流程圖;
圖3a~圖3e示出根據(jù)本發(fā)明實(shí)施例的CNN特征的處理方法的各步驟示意圖;
圖4示出根據(jù)本發(fā)明實(shí)施例的CNN特征的處理方法的應(yīng)用例的流程圖;
圖5示出根據(jù)本發(fā)明實(shí)施例的CNN特征的處理方法的應(yīng)用例的各步驟示意圖;
圖6a示出現(xiàn)有技術(shù)采用CNN獲得特征的示意圖;
圖6b示出采用本發(fā)明實(shí)施例的CNN特征的處理方法對傳統(tǒng)CNN特征進(jìn)程重新組織來獲得特征的示意圖;
圖7示出根據(jù)本發(fā)明實(shí)施例的CNN特征的處理裝置的框圖;
圖8示出根據(jù)本發(fā)明實(shí)施例的CNN特征的處理裝置中空間信息恢復(fù)模塊的框圖。
具體實(shí)施方式
以下將參考附圖詳細(xì)說明本發(fā)明的各種示例性實(shí)施例、特征和方面。附圖中相同的附圖標(biāo)記表示功能相同或相似的元件。盡管在附圖中示出了實(shí)施例的各種方面,但是除非特別指出,不必按比例繪制附圖。
在這里專用的詞“示例性”意為“用作例子、實(shí)施例或說明性”。這里作為“示例性”所說明的任何實(shí)施例不必解釋為優(yōu)于或好于其它實(shí)施例。
另外,為了更好的說明本發(fā)明,在下文的具體實(shí)施方式中給出了眾多的具體細(xì)節(jié)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,沒有某些具體細(xì)節(jié),本發(fā)明同樣可以實(shí)施。在一些實(shí)例中,對于本領(lǐng)域技術(shù)人員熟知的方法、手段、元件和電路未作詳細(xì)描述,以便于凸顯本發(fā)明的主旨。
本發(fā)明的CNN特征的處理方法用于對將原始圖像輸入具有N層卷積和降采樣的卷積神經(jīng)網(wǎng)絡(luò)所獲得的M個(gè)特征圖進(jìn)行處理,其中M、N均為整數(shù)并且M≥1、N≥1。這里,M個(gè)特征圖為位于神經(jīng)網(wǎng)絡(luò)最后一層的特征圖,每一張?zhí)卣鲌D具有不同的物理意義,比如在物體圖像分類網(wǎng)絡(luò)中,有的特征圖代表某一種特定物體的響應(yīng)。一般在神經(jīng)網(wǎng)絡(luò)的最后一層,這種特征圖的維度(n×n)很小,比如5×5、3×3、2×2等都很常見,甚至1×1。在傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)中,把最終獲得的M個(gè)特征圖拉成一個(gè)長度為n×n×K的一個(gè)長向量,并用這個(gè)長向量代表原始圖像進(jìn)行運(yùn)算,比如將該長向量作為特征輸入一個(gè)分類器,進(jìn)行圖像搜索等等。
下面參考圖2示出的CNN特征的處理方法的流程圖以及圖3a~3e示出的CNN特征的處理方法的各步驟示意圖,來說明本發(fā)明實(shí)施例的CNN特征的處理方法。如圖2所示,該處理方法主要包括:
步驟S210、基于空間信息恢復(fù)技術(shù),恢復(fù)各所述M個(gè)特征圖在所述原始圖像上的空間信息(spatial layout),以獲得所述原始圖像中的各元素對各所述M個(gè)特征圖的貢獻(xiàn)度;其中,M個(gè)特征圖可以由圖3a中示出的f1~fM來表示,所述原始圖像中的各元素對各所述M個(gè)特征圖的貢獻(xiàn)度可以由圖3a中示出的W1~WM表示,這是M幅稀疏圖像,衡量了原始圖像中的哪些元素對某一特征或者某一特征圖貢獻(xiàn)較大。
步驟S220、基于所獲得的貢獻(xiàn)度計(jì)算各所述M個(gè)特征圖在所述原始圖像上的分布;其中,各所述M個(gè)特征圖在所述原始圖像上的分布可以由圖3a中示出的C1~CM表示,并可以采用將貢獻(xiàn)度與原始圖像按元素相乘的方式來計(jì)算出,即Cm=Wm.*I。這里,I表示原始圖像,m=1,2,3…,M,“.*”表示按元素相乘(element-wise multiplication),即將兩個(gè)矩陣的對應(yīng)的元素分別相乘。
步驟S230、根據(jù)所述M個(gè)特征圖各自在所述原始圖像上的分布,提取與所述原始圖像中的各元素對應(yīng)的M維向量;如在上述步驟S220中所述,如果 是將神經(jīng)網(wǎng)絡(luò)的最后一層的每個(gè)特征圖都還原至原始圖像,那么可以得到M個(gè)分布圖,即Cm,m=1,2,3…,M。那么對于原始圖像的每個(gè)像素p,都可以得到一個(gè)M維的向量,記為FM(p)。參考圖3b,假設(shè)原始圖像I中的任意元素p位于原始圖像I中的第a行第b列,則其對應(yīng)的M維向量FM(p)為[C1(a,b),C2(a,b),…,CM(a,b)],其中,如果原始圖像I的尺寸為A×B,則a為1~A的整數(shù),b為1~B的整數(shù)。
步驟S240、針對所述原始圖像中的關(guān)注區(qū)域,將該關(guān)注區(qū)域內(nèi)的所有元素的M維向量相加,以得到與所述關(guān)注區(qū)域?qū)?yīng)的M維向量作為該關(guān)注區(qū)域的區(qū)域描述子。如圖3c所示,以原始圖像左上角的圓圈示出的區(qū)域A為例,將該區(qū)域中每個(gè)元素對應(yīng)的M維向量相加,就可以得到該區(qū)域A所對于的M維向量FM(A),即其中,如圖3d所示,區(qū)域A可以是以密集規(guī)則模式選取的圖像塊,如圖3e所示,區(qū)域A也可以是任意指定的圖像區(qū)域、例如通過圖像分割方法得到的圖像區(qū)域。另外,圖像區(qū)域的大小、形狀可以通過后續(xù)算法優(yōu)化來確定。
在一種可能的實(shí)現(xiàn)方式中,在步驟S210中,恢復(fù)各所述M個(gè)特征圖在所述原始圖像上的空間信息,包括針對每一特征圖分別執(zhí)行如下步驟:
從K等于N開始,依次根據(jù)所述特征圖在第K層特征圖上的分布重建出所述特征圖在第K-1層特征圖上的分布,其中K為整數(shù)并且0<K≤N,所述特征圖在第0層特征圖上的分布表示所述特征圖在所述原始圖像上的空間信息;并且,根據(jù)所述特征圖在第K層特征圖上的分布重建出所述特征圖在第K-1層特征圖上的分布包括:
對所述特征圖在第K層特征圖上的分布進(jìn)行去降采樣,以得到所述特征圖在第K層特征圖上的去降采樣分布;
獲取所述去降采樣分布中的每一關(guān)注元素及所述每一關(guān)注元素的值;
分別針對每一關(guān)注元素執(zhí)行以下操作:確定關(guān)注元素對應(yīng)的第K-1層特征圖中的區(qū)域;將所述第K-1層特征圖中的該區(qū)域內(nèi)的元素置為與所述關(guān)注元素的值相對應(yīng)的值,并將除該區(qū)域之外的其它區(qū)域中的元素置為非關(guān)注元素的值;就賦值后的所述第K-1層特征圖中的所述關(guān)注元素對應(yīng)的區(qū)域按元素乘以設(shè)定權(quán)重以得到所述關(guān)注元素在第K-1層特征圖上的子分布;其中所述設(shè)定權(quán)重根據(jù)預(yù)存儲(chǔ)的從第K-1層特征圖通過卷積運(yùn)算得到第K層特征圖時(shí)所采用的卷積核生成;
將所有關(guān)注元素各自在第K-1層特征圖上的子分布進(jìn)行疊加以生成所述特征圖在第K-1層特征圖上的分布。
需要說明的是,作為示例,步驟S210使用的是本發(fā)明人在申請?zhí)枮?01510106624.6的中國發(fā)明專利申請中提出的一種不涉及卷積運(yùn)算的新方法,但是本領(lǐng)域術(shù)人員能夠理解,本發(fā)明應(yīng)不限于此。也可以采用其它現(xiàn)有的恢復(fù)CNN特征在所述原始圖像上的空間信息的方法。
這樣,通過上述步驟,根據(jù)本發(fā)明上述實(shí)施例的CNN特征處理方法,能夠基于CNN特征得到本身的區(qū)分力較強(qiáng)、又具有明確的空間含義的新的局部特征。
作為本發(fā)明的CNN特征的處理方法的一個(gè)應(yīng)用例,可以將通過步驟S210~步驟S240得到的區(qū)域描述子替換尺度不變特征轉(zhuǎn)換(英文:Scale-invariant feature transform,縮寫:SIFT)特征,以前一切適用于SIFT的算法依然適用。
下面參考圖4示出的流程圖和圖5示出的示意圖來說明根據(jù)本發(fā)明的CNN特征的處理方法的該應(yīng)用例。在本應(yīng)用例中,假設(shè)已經(jīng)對將原始圖像輸入CNN所獲得的特征進(jìn)行了步驟S210~步驟S230的處理,并提取出與原始圖像中各元素對應(yīng)的M維向量。如圖5所示,其中,(a)表示原始圖像,(b)表示將原始圖像輸入CNN得到M個(gè)特征圖f1~fM的過程,(c)表示對這M個(gè)特 征圖進(jìn)行處理,并得到這M個(gè)特征圖各自在原始圖像上的分布C1~CM。通過分布C1~CM能夠提取出與所述原始圖像中的各元素對應(yīng)的M維向量。
接下來,執(zhí)行步驟S410、將原始圖像劃分為若干小塊,如圖5的(d)所示,所劃分的小塊可以是連續(xù)的、互相有重疊的圖像塊,當(dāng)然也可以是利用特征點(diǎn)檢測得到的稀疏塊。另外,如在步驟S240中所說的,所劃分的小塊可以是以密集規(guī)則模式選取的圖像塊,也可以是任意指定的圖像區(qū)域、例如通過圖像分割方法得到的圖像區(qū)域。并且圖像區(qū)域的大小、形狀可以通過后續(xù)算法優(yōu)化來確定。
然后執(zhí)行步驟S420、針對在步驟S410中劃分出的每一個(gè)小塊,通過步驟S240得到與所述每一小塊對應(yīng)的M維向量,并作為所述每一小塊的區(qū)域描述子。接著執(zhí)行步驟S430、將從所述原始圖像分割出的每一圖像塊的所述區(qū)域描述子按照預(yù)定編碼規(guī)則進(jìn)行編碼;編碼后的區(qū)域描述子可以參見圖5的(e)和(f)。在一種可能的實(shí)現(xiàn)方式中,所述預(yù)定編碼規(guī)則為K均值(K-means)聚類算法,即對圖像的各區(qū)域描述子實(shí)施K均值聚類算法,以將這些區(qū)域描述子分為K類。其中,K取值由實(shí)際應(yīng)用決定,可以為256或者1024。
然后執(zhí)行步驟S440、根據(jù)所述編碼規(guī)則對各所述區(qū)域描述子進(jìn)行映射,以得到用于描述所述原始圖像的圖像描述子。具體地,對于原始圖像,將它的幾十個(gè)(或者幾百個(gè))區(qū)域描述子分區(qū)域投影進(jìn)入K類,從而能夠得到一個(gè)用于描述該圖像的新的描述子。其中,分區(qū)域投影的方法比如有SPM(空間金字塔匹配),DPM(可變型部件模型)等等,可以參見圖5的(g)。
之后對于所述原始圖像的運(yùn)算,比如識(shí)別和搜索等都可以基于在步驟S440中獲取的圖像描述子。例如,在對原始圖像進(jìn)行識(shí)別處理時(shí),可以在預(yù)先設(shè)定的圖像庫中,找出與在步驟S440中獲得的所述圖像描述子相似度最高的圖像描述子,從而識(shí)別出待處理圖像。其中,預(yù)先設(shè)定的圖像庫即為樣本庫,該樣本庫中的圖像已預(yù)先通過上述步驟S410~步驟S440處理,均以圖像 描述子的形式表示。
現(xiàn)有的對圖像特征進(jìn)行空間組織的方法有基于梯度的SIFT(Scale-invariant feature transform)特征,由于該特征屬于底層特征,能夠較為直觀地體現(xiàn)在原始圖像的空間信息,但是區(qū)分度不好。相比較,經(jīng)過CNN得到的特征是較為高級(jí)的、自適應(yīng)的特征,但是空間信息不明確。
因此,本發(fā)明人創(chuàng)新性的想到將兩者結(jié)合起來,并通過上述算法使用一種新的基于CNN的局部特征來取代SIFT特征,該新的局部特征具有SIFT特征的優(yōu)點(diǎn)、即能準(zhǔn)確反應(yīng)特征的空間位置,同時(shí)又能彌補(bǔ)SIFT特征區(qū)分度較差的缺點(diǎn)(或者說兼具普通神經(jīng)網(wǎng)絡(luò)特征的優(yōu)點(diǎn))。由于所述新的特征既有明確的空間含義,特征本身的區(qū)分能力也較強(qiáng)。因此,將該新的特征應(yīng)用于目標(biāo)識(shí)別與檢測,能夠大大提高識(shí)別和檢測的精度。
另外,可以通過圖6a和圖6b更好的說明采用本發(fā)明實(shí)施例的CNN特征處理方法所獲得的特征的優(yōu)異之處。圖6a示出現(xiàn)有技術(shù)采用CNN獲得特征圖fa的示意圖,圖6b示出采用本發(fā)明對傳統(tǒng)CNN特征進(jìn)行重新組織來獲得特征圖fb的示意圖。如圖6a所示,在一種不理想的實(shí)現(xiàn)方式中,可能存在對于卷積核的選取、以及進(jìn)行卷積和降采樣的步長設(shè)置的不合適的情況,使得最終得到的CNN特征圖fa并不能較好的反映原始圖像的信息。
而如圖6b所示,通過首先恢復(fù)該CNN特征圖fa在所述原始圖像上的空間信息,以獲得原始圖像中各元素對該特征圖的貢獻(xiàn)度Wa,然后將原始圖像與所述貢獻(xiàn)度Wa按元素相乘,從而能夠計(jì)算出特征圖fa在原始圖像上的分布,這樣能夠抵消體現(xiàn)在貢獻(xiàn)度Wa中的錯(cuò)誤信息的影響。根據(jù)該分布,能夠提取出與原始圖像中各像素或者各區(qū)域?qū)?yīng)的特征。例如,在原始圖像中心點(diǎn)附近對應(yīng)的特征為fb。明顯可見,fb相比fa更能夠體現(xiàn)原始圖像的特征。
接下來,參考圖7和圖8來說明根據(jù)本發(fā)明實(shí)施例的CNN特征的處理裝置的框圖。本發(fā)明實(shí)施的CNN特征的處理裝置用于對將原始圖像輸入具有N層 卷積和降采樣的卷積神經(jīng)網(wǎng)絡(luò)所獲得的M個(gè)特征圖進(jìn)行處理,其中M、N均為整數(shù)并且M≥1、N≥1。
如圖7所示,本發(fā)明實(shí)施的CNN特征的處理裝置包括:空間信息恢復(fù)模塊710,被配置為恢復(fù)各所述M個(gè)特征圖在所述原始圖像上的空間信息,以獲得所述原始圖像中的各元素對各所述M個(gè)特征圖的貢獻(xiàn)度;分布計(jì)算模塊720,與所述空間信息恢復(fù)模塊710連接,被配置為基于所獲得的貢獻(xiàn)度計(jì)算各所述M個(gè)特征圖在所述原始圖像上的分布;特征提取模塊730,與所述分布計(jì)算模塊720連接,被配置為根據(jù)所述M個(gè)特征圖各自在所述原始圖像上的分布,提取與所述原始圖像中的各元素對應(yīng)的M維向量;以及區(qū)域描述子提取模塊740,與所述特征提取模塊730連接,被配置為針對所述原始圖像中的關(guān)注區(qū)域,將該關(guān)注區(qū)域內(nèi)的所有元素的M維向量相加,以得到與所述關(guān)注區(qū)域?qū)?yīng)的M維向量作為該關(guān)注區(qū)域的區(qū)域描述子。
在一種可能的實(shí)現(xiàn)方式中,所述分布計(jì)算模塊720被配置為將所獲得的貢獻(xiàn)度分別按元素乘以所述原始圖像,以得到各所述M個(gè)特征圖在所述原始圖像上的分布。
在一種可能的實(shí)現(xiàn)方式中,所述空間信息恢復(fù)模塊被配置為針對每一特征圖分別執(zhí)行如下步驟:從K等于N開始,依次根據(jù)所述特征圖在第K層特征圖上的分布重建出所述特征圖在第K-1層特征圖上的分布,其中K為整數(shù)并且0<K≤N,所述特征圖在第0層特征圖上的分布表示所述特征圖在所述原始圖像上的空間信息;并且,如圖8所示,所述空間信息恢復(fù)模塊710包括:去降采樣單元711,被配置為對所述特征圖在第K層特征圖上的分布進(jìn)行去降采樣,以得到所述特征圖在第K層特征圖上的去降采樣分布;重建單元712,與所述去降采樣單元711連接,并且被配置為,獲取所述去降采樣分布中的每一關(guān)注元素及所述每一關(guān)注元素的值;分別針對每一關(guān)注元素執(zhí)行以下操作:確定關(guān)注元素對應(yīng)的第K-1層特征圖中的區(qū)域;將所述第K-1層特征圖中 的該區(qū)域內(nèi)的元素置為與所述關(guān)注元素的值相對應(yīng)的值,并將除該區(qū)域之外的其它區(qū)域中的元素置為非關(guān)注元素的值;就賦值后的所述第K-1層特征圖中的所述關(guān)注元素對應(yīng)的區(qū)域按元素乘以設(shè)定權(quán)重以得到所述關(guān)注元素在第K-1層特征圖上的子分布;其中所述設(shè)定權(quán)重根據(jù)預(yù)存儲(chǔ)的從第K-1層特征圖通過卷積運(yùn)算得到第K層特征圖時(shí)所采用的卷積核生成;加法單元713,與所述重建單元712以及所述去降采樣單元711連接,被配置為將通過所述重建單元712獲得的所有關(guān)注元素各自在第K-1層特征圖上的子分布進(jìn)行疊加,并將相加所得到的結(jié)果作為所述特征圖在第K-1層特征圖上的分布輸出至所述去降采樣單元711。
本發(fā)明實(shí)施例的CNN特征的處理裝置的空間信息恢復(fù)模塊710、分布計(jì)算模塊720、特征提取模塊730、以及區(qū)域描述子提取模塊740的具體實(shí)現(xiàn)機(jī)理可以參考上述步驟S210~步驟S230。并且,通過上述裝置,能夠基于CNN特征得到本身的區(qū)分力較強(qiáng)、又具有明確的空間含義的新的局部特征。
在一種可能的實(shí)現(xiàn)方式中,本發(fā)明實(shí)施例的CNN特征的處理裝置還包括:編碼模塊750,被配置為將從所述原始圖像劃分出的X個(gè)圖像塊的所述區(qū)域描述子按照預(yù)定編碼規(guī)則進(jìn)行編碼,其中X為整數(shù)并且X≥1;映射模塊760,與所述編碼模塊750連接,被配置為根據(jù)所述編碼規(guī)則對X個(gè)所述區(qū)域描述子進(jìn)行映射,以得到用于描述所述原始圖像的圖像描述子。其中,在一種可能的實(shí)現(xiàn)方式中,所述預(yù)定編碼規(guī)則為K均值聚類算法。編碼模塊750與映射模塊760的具體實(shí)現(xiàn)機(jī)理可以參考上述步驟S430和步驟S440。
通過本發(fā)明實(shí)施例的CNN特征的處理裝置還包括的編碼模塊750和映射模塊760,可以用通過空間信息恢復(fù)模塊710、分布計(jì)算模塊720、特征提取模塊730、以及區(qū)域描述子提取模塊740得到的區(qū)域描述子替換SIFT特征,以前一切適用于SIFT的算法依然適用。這樣,由于所得到的區(qū)域描述子既有明確的空間含義,本身的區(qū)分能力也較強(qiáng),因此能夠大大提高識(shí)別和檢測的精 度。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。