本公開涉及圖像處理技術領域,尤其涉及一種圖片中目標物的定位方法及裝置。
背景技術:
當通過已訓練的全卷積神經網絡(Full Convolutional Neural Networks,簡稱為FCN)模型對圖片中的人臉進行檢測時,通過該FCN模型得到一熱度圖(heat map),通過在熱度圖中識別目標物(例如,人臉)所在區(qū)域的概率,然后在原始圖片中進行全圖掃描,由于需要在原始圖片中搜索目標物的位置,導致數(shù)據(jù)處理量大,識別效率低下。
技術實現(xiàn)要素:
為克服相關技術中存在的問題,本公開實施例提供一種圖片中目標物的定位方法及裝置,用以降低圖片處理過程中的數(shù)據(jù)量,提高識別目標物的效率。
根據(jù)本公開實施例的第一方面,提供一種圖片中目標物的定位方法,包括:
從原始圖片中識別出目標物的候選區(qū)域;
將所述候選區(qū)域的圖像內容輸入到已訓練的全卷積神經網絡中,通過所述全卷積神經網絡對所述候選區(qū)域的圖像內容進行卷積處理,輸出所述候選區(qū)域對應的熱度圖,所述熱度圖上每一個坐標點對應的值為所述全卷積神經網絡對所述目標物在所述候選區(qū)域計算出的概率值;
基于所述熱度圖上的每一個坐標點對應的概率值,確定所述目標物在所述原始圖片中的第一候選框集合以及所述第一候選框集合中每一個候選框對應的置信度;
基于所述第一候選框集合每一個候選框對應的置信度,確定所述目標物在所述原始圖片中的位置區(qū)域。
在一實施例中,所述基于所述第一候選框集合中每一個候選框對應的置信度,確定所述目標物在所述原始圖片中的位置區(qū)域,包括:
對所述第一候選框集合進行聚類,合并所述第一候選框集合中的重疊框,得到第二候選框集合;
將所述熱度圖上的概率值大于預設閾值的坐標點映射到所述原始圖片中的對應坐標位置;
基于所述原始圖片中的對應坐標位置確定第三候選框集合;
根據(jù)所述第二候選框集合和所述第三候選框集合,確定所述目標物在所述原始圖片中的位置區(qū)域。
在一實施例中,所述根據(jù)所述第二候選框集合和所述第三候選框集合,確定所述目標物在所述原始圖片中的位置區(qū)域,包括:
基于所述第二候選框集合和所述第三候選框集合中相重合的候選框,確定第四候選框集合;
對所述第四候選框集合中所包含的候選框各自對應的置信度進行排序,得到排序結果;
將所述排序結果中按照置信度最高的前設定個數(shù)的候選框確定為所述目標物所在的第五候選框集合;
基于所述第五候選框集合,確定所述目標物在所述原始圖片中的位置區(qū)域。
在一實施例中,所述方法還包括:
基于非極大值抑制算法,去除所述第三候選框集合中的重疊框。
在一實施例中,所述基于所述熱度圖上的每一個坐標點對應的概率值,確定所述目標物在所述原始圖片中的第一候選框集合,包括:
在所述熱度圖上,確定是否存在概率值大于預設閾值的坐標點;
當存在所述概率值大于第一預設閾值的坐標點時,確定所述概率值大于所述預設閾值的坐標點在所述原始圖片中各自對應的像素點;
基于在所述原始圖片中各自對應的像素點,確定所述目標物在所述原始圖片中的第一候選框集合。
根據(jù)本公開實施例的第二方面,提供一種圖片中目標物的定位裝置,包括:
識別模塊,被配置為從原始圖片中識別出所述目標物的候選區(qū)域;
第一處理模塊,被配置為將所述識別模塊識別到的所述候選區(qū)域的圖像內容輸入到已訓練的全卷積神經網絡中,通過所述全卷積神經網絡對所述候選區(qū)域的圖像內容進行卷積處理,輸出所述候選區(qū)域對應的熱度圖,所述熱度圖上每一個坐標點對應的值為所述全卷積神經網絡對所述目標物在所述候選區(qū)域計算出的概率值;
第一確定模塊,被配置為基于所述第一處理模塊得到的所述熱度圖上的每一個坐標點對應的概率值,確定所述目標物在所述原始圖片中的第一候選框集合以及所述第一候選框集合中每一個候選框對應的置信度;
第二確定模塊,被配置為基于所述第一確定模塊確定的所述第一候選框集合每一個候選框對應的置信度,確定所述目標物在所述原始圖片中的位置區(qū)域。
在一實施例中,所述第二確定模塊包括:
聚類合并子模塊,被配置為對所述第一候選框集合進行聚類,合并所述第一候選框集合中的重疊框,得到第二候選框集合;
映射子模塊,被配置為將所述熱度圖上的概率值大于預設閾值的坐標點映射到所述原始圖片中的對應坐標位置;
第一確定子模塊,被配置為基于所述映射子模塊得到的所述原始圖片中的對應坐標位置確定第三候選框集合;
第二確定子模塊,被配置為根據(jù)所述聚類合并子模塊得到的所述第二候選框集合和所述第一確定子模塊得到的所述第三候選框集合,確定所述目標物在所述原始圖片中的位置區(qū)域。
在一實施例中,所述第二確定子模塊具體被配置為:
基于所述第二候選框集合和所述第三候選框集合中相重合的候選框,確定第四候選框集合;
對所述第四候選框集合中所包含的候選框各自對應的置信度進行排序,得到排序結果;
將所述排序結果中按照置信度最高的前設定個數(shù)的候選框確定為所述目標物所在的第五候選框集合;
基于所述第五候選框集合,確定所述目標物在所述原始圖片中的位置區(qū)域。
在一實施例中,所述裝置還包括:
第二處理模塊,被配置為基于非極大值抑制算法,去除所述第一確定子模塊得到的所述第三候選框集合中的重疊框。
在一實施例中,所述第一確定模塊包括:
第三確定子模塊,被配置為在所述熱度圖上,確定是否存在概率值大于預設閾值的坐標點;
第四確定子模塊,被配置為當所述第三確定子模塊確定存在所述概率值大于第一預設閾值的坐標點時,確定所述概率值大于所述預設閾值的坐標點在所述原始圖片中各自對應的像素點;
第五確定子模塊,被配置為基于在所述第四確定子模塊確定的所述原始圖片中各自對應的像素點,確定所述目標物在所述原始圖片中的第一候選框集合。
根據(jù)本公開實施例的第三方面,提供一種圖片中目標物的定位裝置,包括:
處理器;
用于存儲處理器可執(zhí)行指令的存儲器;
其中,所述處理器被配置為:
從原始圖片中識別出所述目標物的候選區(qū)域;
將所述候選區(qū)域的圖像內容輸入到已訓練的全卷積神經網絡中,通過所述全卷積神經網絡對所述候選區(qū)域的圖像內容進行卷積處理,輸出所述候選區(qū)域對應的熱度圖,所述熱度圖上每一個坐標點對應的值為所述全卷積神經網絡對所述目標物在所述候選區(qū)域計算出的概率值;
基于所述熱度圖上的每一個坐標點對應的概率值,確定所述目標物在所述原始圖片中的第一候選框集合以及所述第一候選框集合中每一個候選框對應的置信度;
基于所述第一候選框集合每一個候選框對應的置信度,確定所述目標物在所述原始圖片中的位置區(qū)域。
本公開的實施例提供的技術方案可以包括以下有益效果:
從原始圖片中先識別出目標物的候選區(qū)域,進而將候選區(qū)域的圖像內容輸入到FCN,得到對應的熱度圖,通過熱度圖確定出的目標物所在的第一候選框集合得到目標物在原始圖片中的位置區(qū)域,由于整個過程僅對原始圖片中的候選區(qū)域進行識別,大大降低了原始圖片在目標物定位過程中的數(shù)據(jù)量,提高了目標物的識別效率,實現(xiàn)了在小區(qū)域內精準定位目標物在原始圖片中的位置。
應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1A是根據(jù)一示例性實施例示出的圖片中目標物的定位方法的流程圖。
圖1B是根據(jù)一示例性實施例示出的圖片中目標物的定位方法的場景圖。
圖2A是根據(jù)一示例性實施例一示出的圖片中目標物的定位方法的流程圖。
圖2B是根據(jù)圖2A所示實施例步驟205的流程圖。
圖3是根據(jù)一示例性實施例二示出的圖片中目標物的定位方法的流程圖。
圖4是根據(jù)一示例性實施例三示出的訓練全卷積神經網絡的流程圖。
圖5是根據(jù)一示例性實施例示出的一種圖片中目標物的定位裝置的框圖。
圖6是根據(jù)一示例性實施例示出的另一種圖片中目標物的定位裝置的框圖。
圖7是根據(jù)一示例性實施例示出的一種適用于圖片中目標物的定位裝置的框圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1A是根據(jù)一示例性實施例示出的圖片中目標物的定位方法的流程圖,圖1B是根據(jù)一示例性實施例示出的圖片中目標物的定位方法的場景圖;該圖片中目標物的定位方法可以應用在電子設備(例如:智能手機、平板電腦)上,可以通過在電子設備上安裝應用的方式實現(xiàn),如圖1A所示,該圖片中目標物的定位方法包括以下步驟101-104:
在步驟101中,從原始圖片中識別存在目標物的候選區(qū)域。
在一實施例中,可以通過相關技術中的圖像分割方法從原始圖片中識別出存在目標物的候選區(qū)域,如圖1B所示的原始圖片111中的虛線框10所示的區(qū)域,本公開對圖像分割的方法不做詳述。
在步驟102中,將候選區(qū)域的圖像內容輸入到已訓練的FCN中,通過FCN對候選區(qū)域的圖像內容進行卷積處理,輸出候選區(qū)域對應的熱度圖,熱度圖上每一個坐標點對應的值為全卷積神經網絡對目標物在候選區(qū)域計算出的概率值。
在一實施例中,可以對候選區(qū)域的圖像內容(即,圖1B所示的虛線框10內的圖像內容)先通過預處理模塊11根據(jù)FCN所支持的輸入維度進行縮放處理,將經過縮放處理后的圖像內容輸入到已訓練的FCN中。在一實施例中,熱度圖112的大小可以由FCN12最后一個卷積層的輸出維度確定,例如,F(xiàn)CN12最后一個卷積層的輸出維度為10*12,熱度圖的大小為10*12。在一實施例中,熱度圖對應的同一顏色的不同深度或者不同的顏色可以表示對應位置是否為目標物的概率值,如圖1B,熱度圖112上,顏色越深,表示該點對應的區(qū)域為目標物的概率值越大。在一實施例中,目標物可以為任何具有設定特征的物體,例如,人臉、車牌號、動物頭像等等,圖1B以目標物為人臉為例進行示例性說明。
在步驟103中,基于熱度圖上的每一個坐標點對應的概率值,確定目標物在原始圖片中的第一候選框集合。
在一實施例中,可以通過目標物選擇性搜索方法(也可稱為ss方法)確定目標物在原始圖片中的第一候選框集合以及第一候選框集合中的每一個候選框對應的置信度,置信度表示第一候選框集合中所包含的候選框存在目標物的概率。
在步驟104中,基于第一候選框集合每一個候選框對應的置信度,確定目標物在原始圖片中的位置區(qū)域。
在一實施例中,可基于每一個候選框對應的置信度,確定第一候選框集合中的置信度最高的候選框,將該候選框視為目標物在原始圖片中的位置區(qū)域。在另一實施例中,可基于每一個候選框對應的置信度,對第一候選框集合基于相關技術中的非極大值抑制-平均值(NMS-AVG)算法進行融合,得到目標物在原始圖片中的位置區(qū)域。
本實施例中,從原始圖片中先識別出目標物的候選區(qū)域,進而將候選區(qū)域的圖像內容輸入到FCN,得到對應的熱度圖,通過熱度圖確定出的目標物所在的第一候選框集合得到目標物在原始圖片中的位置區(qū)域,由于整個過程僅對原始圖片中的候選區(qū)域進行識別,大大降低了原始圖片在目標物定位過程中的數(shù)據(jù)量,提高了目標物的識別效率。
在一實施例中,基于第一候選框集合中每一個候選框對應的置信度,確定目標物在原始圖片中的位置區(qū)域,包括:
對第一候選框集合進行聚類,合并第一候選框集合中的重疊框,得到第二候選框集合;
將熱度圖上的概率值大于預設閾值的坐標點映射到原始圖片中的對應坐標位置;
基于原始圖片中的對應坐標位置確定第三候選框集合;
根據(jù)第二候選框集合和第三候選框集合,確定目標物在原始圖片中的位置區(qū)域。
在一實施例中,根據(jù)第二候選框集合和第三候選框集合,確定目標物在原始圖片中的位置區(qū)域,包括:
基于第二候選框集合和第三候選框集合中相重合的候選框,確定第四候選框集合;
對第四候選框集合中所包含的候選框各自對應的置信度進行排序,得到排序結果;
將排序結果中按照置信度最高的前設定個數(shù)的候選框確定為目標物所在的第五候選框集合;
基于第五候選框集合,確定目標物在原始圖片中的位置區(qū)域。
在一實施例中,方法還包括:
基于非極大值抑制算法,去除第三候選框集合中的重疊框。
在一實施例中,基于熱度圖上的每一個坐標點對應的概率值,確定目標物在原始圖片中的第一候選框集合,包括:
在熱度圖上,確定是否存在概率值大于預設閾值的坐標點;
當存在概率值大于第一預設閾值的坐標點時,確定概率值大于預設閾值的坐標點在原始圖片中各自對應的像素點;
基于在原始圖片中各自對應的像素點,確定目標物在原始圖片中的第一候選框集合。
具體如何定位目標物在圖片中的位置的,請參考后續(xù)實施例。
至此,本公開實施例提供的上述方法,可以大大降低原始圖片在目標物定位過程中的數(shù)據(jù)量,提高目標物的識別效率,實現(xiàn)在小區(qū)域內精準定位目標物在原始圖片中的位置。
下面以具體實施例來說明本公開實施例提供的技術方案。
圖2A是根據(jù)一示例性實施例一示出的圖片中目標物的定位方法的流程圖,圖2B是根據(jù)圖2A所示實施例步驟205的流程圖;本實施例利用本公開實施例提供的上述方法,以如何基于第一候選框集合每一個候選框對應的置信度確定目標物在原始圖片中的位置區(qū)域為例并結合圖1B進行示例性說明,如圖2A所示,包括如下步驟:
在步驟201中,對第一候選框集合進行聚類,合并第一候選框集合中的重疊框,得到第二候選框集合。
在一實施例中,可基于NMS算法對第一候選框集合進行聚類,例如,第一候選框集合中包括了候選框A1、A2、A3、…、An,n為正整數(shù),表示第一候選框集合中包括的候選框的數(shù)量。通過對第一候選框集合進行聚類、合并,得到第二候選框集合,第二候選框集合例如包括了候選框A1、A2、A3、…、Am,m為小于n的正整數(shù)。
在步驟202中,將熱度圖上的概率值大于預設閾值的坐標點映射到原始圖片中的對應坐標位置。
在步驟203中,基于原始圖片中的對應坐標位置確定第三候選框集合。
在一實施例中,當熱度圖上存在坐標點對應的概率值大于預設閾值時,可以將該大于預設閾值的坐標點映射到原始圖片上,例如,熱度圖上的【5,6】、【5,5】、【6,5】等坐標點的概率值大于預設閾值,則可以將【5,6】、【5,5】、【6,5】映射到原始圖片上,可得到如圖1B中所示候選框如虛線框13和虛線框14所示,本領域技術人員可以理解的是,虛線框13和虛線框14對應不同的第三候選框集合,對同一個第三候選框集合而言,其包含了多個候選框,虛線框13或者虛線框14僅為示例性說明,第三候選框集合例如包括候選框B1、B2、B3、…、Bp,p為正整數(shù)。
在步驟204中,基于非極大值抑制算法,去除第三候選框集合中的重疊框。
步驟204中去除第三候選框集合中的重疊框的描述可以參見上述去除第一候選框集合中的重疊框的描述,在此不再詳述。與上述步驟203中的描述相對應,去除第三候選框集合中的重疊框后,第三候選框集合例如可包括候選框B1、B2、B3、…、Bq,q為小于p的正整數(shù)。
在步驟205中,根據(jù)第二候選框集合和第三候選框集合,確定目標物在原始圖片中的位置區(qū)域。
在一實施例中,可以從第二候選框集合(候選框A1、A2、A3、…、Am)和第三候選框集合(B1、B2、B3、…、Bq)中找到重合的候選框,例如候選框A1與候選框B1基本上重合,候選框A2與候選框B2基本上重合,則可以從第二候選框集合和第三候選框集合中找到這些重合的候選框。對這些重合的候選框進行融合后,得到目標物在原始圖片中的位置區(qū)域。本領域技術人員可以理解的是,上述第一候選框集合、第二候選框集合均基于候選區(qū)域而言,可根據(jù)候選區(qū)域在原始圖片中的位置轉將候選框在候選區(qū)域的位置換到原始圖片中,從而可以確定出目標物在原始圖片中的位置區(qū)域。
如圖2B所示,步驟205可包括如下步驟:
在步驟211中,基于第二候選框集合和第三候選框集合中相重合的候選框,確定第四候選框集合。
在一實施例中,相重合的候選框可以根據(jù)上述步驟205中的描述,在此不再詳述,得到的第四候選框集合例如為:候選框A1、A2、A3、…、Ak,在第三候選框集合中對應候選框B1、B2、B3、…、Bk,其中,k為小于m和q的正整數(shù)。
在步驟212中,對第四候選框集合中所包含的候選框各自對應的置信度進行排序,得到排序結果。
在一實施例中,可以對第四候選框集合按照置信度進行由高到底的排序。
在步驟213中,將排序結果中按照置信度最高的前設定個數(shù)的候選框確定為目標物所在的第五候選框集合。
在一實施例中,設定個數(shù)可以根據(jù)目標物識別的難度來確定,對于簡單易識別的目標物,設定個數(shù)可以小些,例如,設定個數(shù)為3,對于復雜不易識別的目標物,設定個數(shù)可以大些,例如,設定個數(shù)為8。例如,從第四候選框集合中確定置信度排在前3的候選框A1、A2、A3,此時,第五候選框集合包括候選框A1、A2、A3。
在步驟214中,基于第五候選框集合,確定目標物在原始圖片中的位置區(qū)域。
在一實施例中,可對第五候選框集合中的候選框進行NMS-AVG算法進行融合,得到目標物在原始圖片中的位置區(qū)域。由于通過上述步驟211-步驟214的處理,可以減少NMS-AVG算法對候選框進行融合過程中參與計算的候選框,大大降低MNS-AVG算法的計算量。
本實施例中,通過對第一候選框集合進行聚類去除重疊框,可以降低后續(xù)計算過程中參與計算的候選框的個數(shù),降低后續(xù)計算復雜度;由于第二候選框集合是基于熱點圖所表示的概率值,第三候選框集合是由熱點圖映射到原始圖片上的候選框,因此通過第二候選框集合和第三候選框集合可從兩個維度來確定是目標物在原始圖片中的精確位置。
圖3是根據(jù)一示例性實施例二示出的圖片中目標物的定位方法的流程圖;本實施例利用本公開實施例提供的上述方法,以如何基于所述熱度圖上的每一個坐標點對應的概率值確定目標物在原始圖片中的第一候選框集合為例進行示例性說明,如圖3所示,包括如下步驟:
在步驟301中,在熱度圖上,確定是否存在概率值大于預設閾值的坐標點。
在一實施例中,概率值越大,表示概率值所在的坐標點為目標物的概率越大,可以通過不同的顏色來表示不同的概率值。如圖1B所示,在熱度圖112的大小為10*12,對應120個概率值,可以將該120個概率值順次與預設閾值進行比較,確定熱度圖112上是否存在大于該預設閾值的概率值。
在步驟302中,當存在概率值大于第一預設閾值的坐標點時,確定概率值大于預設閾值的坐標點在原始圖片中各自對應的像素點。
在一實施例中,可以根據(jù)熱度圖112與候選區(qū)域的映射關系,確定概率值大于預設閾值的坐標點在候選區(qū)域中各自對應的像素點,該映射關系可以通過相關技術中的映射方法來表示,本公開不再詳述。在得到概率值大于預設閾值的坐標點在候選區(qū)域中各自對應的像素點后,將候選區(qū)域的像素點映射到在原始圖片中,即可得到概率值大于預設閾值的坐標點在原始圖片中各自對應的像素點。
在步驟303中,基于在原始圖片中各自對應的像素點,確定目標物在原始圖片中的第一候選框集合。
在一實施例中,對于概率值大于預設閾值的坐標點在原始圖片中各自對應的像素點,可根據(jù)相關技術來確定候選框在原始圖片中的大小,本公開對候選框的具體確定方式不做限制。
本實施例中,通過概率值大于預設閾值的坐標點在原始圖片中各自對應的像素點確定目標物在原始圖片中的第一候選框集合,可以確保第一候選框集合能夠以較高的精度來表示目標物所在的區(qū)域,進而提高后續(xù)對目標物在原始圖片中的位置的識別準確度。
圖4是根據(jù)一示例性實施例三示出的訓練全卷積神經網絡的流程圖;本實施例利用本公開實施例提供的上述方法,以如何訓練得到FCN為例進行示例性說明,如圖4所示,包括如下步驟:
在步驟401中,在得到已訓練的FCN之前,確定需要對未訓練的CNN進行訓練的設定數(shù)量的樣本圖片,設定數(shù)量的樣本圖片中的每一個樣本圖片中均包含目標物,目標物位于相應樣本圖片的中心位置,目標物在樣本圖片中的比例位于設定范圍內。
在步驟402中,將設定數(shù)量的樣本圖片縮放到設定分辨率后,通過縮放到設定分辨率的樣本圖片對未訓練的CNN進行訓練,得到已訓練的CNN。
在步驟403中,修改已訓練的CNN的全連接層,得到已訓練的FCN。
在一示例性場景中,以目標物為人臉進行示例性說明,采集的樣本圖片中,人臉區(qū)域放置在樣本圖片的中心,人臉大小占整個樣本圖片的比例在0.15-1之間,0.15-1為本公開所述的設定范圍,從而可以確保訓練出的FCN模型,在輸入圖片的維度為227*227時,可以檢測到的人臉大概在34-227之間,從而實現(xiàn)多個尺度的人臉檢測。
將不同分辨率大小的樣本圖片縮放處理到256X256,256X256為本公開中所述的設定分辨率,對縮放到設定分辨率的樣本圖片對未訓練的CNN進行訓練。
以CNN為alexNet網絡進行示例性說明,將CNN的第一個全連接(fc6)修改為卷積層,在修改時,fc6的卷積核大小需要和第五卷積層(conv5)的輸出的特征映射層(featuremap)的大小一致。修改后的第一個全連接對應的卷積層fc6_conv的卷積大小為kernel_size=6,修改后的fc6的后續(xù)的全連接層fc7、fc8等的卷積核的大小為1,即:kernel_size=1,最終得到已訓練的FCN。
本實施例中,由于FCN是通過對目標物進行訓練后得到的,因此通過FCN可以快速地確定出目標物在候選區(qū)域的范圍,從而可以通過已訓練的FCN在候選區(qū)域以熱度圖的方式對目標物進行精細定位。
圖5是根據(jù)一示例性實施例示出的一種圖片中目標物的定位裝置的框圖,如圖5所示,圖片中目標物的定位裝置包括:
識別模塊51,被配置為從原始圖片中識別出目標物的候選區(qū)域;
第一處理模塊52,被配置為將識別模塊51識別到的候選區(qū)域的圖像內容輸入到已訓練的全卷積神經網絡中,通過全卷積神經網絡對候選區(qū)域的圖像內容進行卷積處理,輸出候選區(qū)域對應的熱度圖,熱度圖上每一個坐標點對應的值為全卷積神經網絡對目標物在候選區(qū)域計算出的概率值;
第一確定模塊53,被配置為基于第一處理模塊52得到的熱度圖上的每一個坐標點對應的概率值,確定目標物在原始圖片中的第一候選框集合以及第一候選框集合中每一個候選框對應的置信度;
第二確定模塊54,被配置為基于第一確定模塊53確定的第一候選框集合每一個候選框對應的置信度,確定目標物在原始圖片中的位置區(qū)域。
圖6是根據(jù)一示例性實施例示出的另一種圖片中目標物的定位裝置的框圖,如圖6所示,在上述圖5所示實施例的基礎上,第二確定模塊54包括:
聚類合并子模塊541,被配置為對第一候選框集合進行聚類,合并第一候選框集合中的重疊框,得到第二候選框集合;
映射子模塊542,被配置為將熱度圖上的概率值大于預設閾值的坐標點映射到原始圖片中的對應坐標位置;
第一確定子模塊543,被配置為基于映射子模塊542得到的原始圖片中的對應坐標位置確定第三候選框集合;
第二確定子模塊544,被配置為根據(jù)聚類合并子模塊541得到的第二候選框集合和第一確定子模塊543得到的第三候選框集合,確定目標物在原始圖片中的位置區(qū)域。
在一實施例中,第二確定子模塊544具體被配置為:
基于第二候選框集合和第三候選框集合中相重合的候選框,確定第四候選框集合;
對第四候選框集合中所包含的候選框各自對應的置信度進行排序,得到排序結果;
將排序結果中按照置信度最高的前設定個數(shù)的候選框確定為目標物所在的第五候選框集合;
基于第五候選框集合,確定目標物在原始圖片中的位置區(qū)域。
在一實施例中,裝置還包括:
第二處理模塊55,被配置為基于非極大值抑制算法,去除第一確定子模塊543得到的第三候選框集合中的重疊框。
在一實施例中,第一確定模塊53包括:
第三確定子模塊531,被配置為在熱度圖上,確定是否存在概率值大于預設閾值的坐標點;
第四確定子模塊532,被配置為當?shù)谌_定子模塊531確定存在概率值大于第一預設閾值的坐標點時,確定概率值大于預設閾值的坐標點在原始圖片中各自對應的像素點;
第五確定子模塊533,被配置為基于在第四確定子模塊532確定的原始圖片中各自對應的像素點,確定目標物在原始圖片中的第一候選框集合。
關于上述實施例中的裝置,其中各個模塊執(zhí)行操作的具體方式已經在有關該方法的實施例中進行了詳細描述,此處將不做詳細闡述說明。
圖7是根據(jù)一示例性實施例示出的一種適用于圖片中目標物的定位裝置的框圖。例如,裝置700可以是移動電話,計算機,數(shù)字廣播終端,消息收發(fā)設備,游戲控制臺,平板設備,醫(yī)療設備,健身設備,個人數(shù)字助理等。
參照圖7,裝置700可以包括以下一個或多個組件:處理組件702,存儲器704,電源組件706,多媒體組件708,音頻組件710,輸入/輸出(I/O)的接口712,傳感器組件714,以及通信組件716。
處理組件702通??刂蒲b置700的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機操作和記錄操作相關聯(lián)的操作。處理元件702可以包括一個或多個處理器720來執(zhí)行指令,以完成上述的方法的全部或部分步驟。此外,處理組件702可以包括一個或多個模塊,便于處理組件702和其他組件之間的交互。例如,處理部件702可以包括多媒體模塊,以方便多媒體組件708和處理組件702之間的交互。
存儲器704被配置為存儲各種類型的數(shù)據(jù)以支持在設備700的操作。這些數(shù)據(jù)的示例包括用于在裝置700上操作的任何應用程序或方法的指令,聯(lián)系人數(shù)據(jù),電話簿數(shù)據(jù),消息,圖片,視頻等。存儲器704可以由任何類型的易失性或非易失性存儲設備或者它們的組合實現(xiàn),如靜態(tài)隨機存取存儲器(SRAM),電可擦除可編程只讀存儲器(EEPROM),可擦除可編程只讀存儲器(EPROM),可編程只讀存儲器(PROM),只讀存儲器(ROM),磁存儲器,快閃存儲器,磁盤或光盤。
電力組件706為裝置700的各種組件提供電力。電力組件706可以包括電源管理系統(tǒng),一個或多個電源,及其他與為裝置700生成、管理和分配電力相關聯(lián)的組件。
多媒體組件708包括在所述裝置700和用戶之間的提供一個輸出接口的屏幕。在一些實施例中,屏幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果屏幕包括觸摸面板,屏幕可以被實現(xiàn)為觸摸屏,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸傳感器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續(xù)時間和壓力。在一些實施例中,多媒體組件708包括一個前置攝像頭和/或后置攝像頭。當設備700處于操作模式,如拍攝模式或視頻模式時,前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個前置攝像頭和后置攝像頭可以是一個固定的光學透鏡系統(tǒng)或具有焦距和光學變焦能力。
音頻組件710被配置為輸出和/或輸入音頻信號。例如,音頻組件710包括一個麥克風(MIC),當裝置700處于操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步存儲在存儲器704或經由通信組件716發(fā)送。在一些實施例中,音頻組件710還包括一個揚聲器,用于輸出音頻信號。
I/O接口712為處理組件702和外圍接口模塊之間提供接口,上述外圍接口模塊可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
傳感器組件714包括一個或多個傳感器,用于為裝置700提供各個方面的狀態(tài)評估。例如,傳感器組件714可以檢測到設備700的打開/關閉狀態(tài),組件的相對定位,例如所述組件為裝置700的顯示器和小鍵盤,傳感器組件714還可以檢測裝置700或裝置700一個組件的位置改變,用戶與裝置700接觸的存在或不存在,裝置700方位或加速/減速和裝置700的溫度變化。傳感器組件714可以包括接近傳感器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。傳感器組件714還可以包括光傳感器,如CMOS或CCD圖像傳感器,用于在成像應用中使用。在一些實施例中,該傳感器組件714還可以包括加速度傳感器,陀螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。
通信組件716被配置為便于裝置700和其他設備之間有線或無線方式的通信。裝置700可以接入基于通信標準的無線網絡,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信部件716經由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號或廣播相關信息。在一個示例性實施例中,所述通信部件716還包括近場通信(NFC)模塊,以促進短程通信。例如,在NFC模塊可基于射頻識別(RFID)技術,紅外數(shù)據(jù)協(xié)會(IrDA)技術,超寬帶(UWB)技術,藍牙(BT)技術和其他技術來實現(xiàn)。
在示例性實施例中,裝置700可以被一個或多個應用專用集成電路(ASIC)、數(shù)字信號處理器(DSP)、數(shù)字信號處理設備(DSPD)、可編程邏輯器件(PLD)、現(xiàn)場可編程門陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現(xiàn),用于執(zhí)行上述方法。
在示例性實施例中,還提供了一種包括指令的非臨時性計算機可讀存儲介質,例如包括指令的存儲器704,上述指令可由裝置700的處理器720執(zhí)行以完成上述方法。例如,所述非臨時性計算機可讀存儲介質可以是ROM、隨機存取存儲器(RAM)、CD-ROM、磁帶、軟盤和光數(shù)據(jù)存儲設備等。
處理器720被配置為:
從原始圖片中識別出目標物的候選區(qū)域;
將候選區(qū)域的圖像內容輸入到已訓練的全卷積神經網絡中,通過全卷積神經網絡對候選區(qū)域的圖像內容進行卷積處理,輸出候選區(qū)域對應的熱度圖,熱度圖上每一個坐標點對應的值為全卷積神經網絡對目標物在候選區(qū)域計算出的概率值;
基于熱度圖上的每一個坐標點對應的概率值,確定目標物在原始圖片中的第一候選框集合以及第一候選框集合中每一個候選框對應的置信度;
基于第一候選框集合每一個候選框對應的置信度,確定目標物在原始圖片中的位置區(qū)域。
本領域技術人員在考慮說明書及實踐這里公開的公開后,將容易想到本公開的其它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本公開的一般性原理并包括本公開未公開的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由下面的權利要求指出。
應當理解的是,本公開并不局限于上面已經描述并在附圖中示出的精確結構,并且可以在不脫離其范圍進行各種修改和改變。本公開的范圍僅由所附的權利要求來限制。