本文所述的本主題總體上披露了一種用于檢測(cè)圖像中存在的對(duì)象的裝置和方法。換句話說,本技術(shù)披露了用于對(duì)象檢測(cè)的基于軟注意力的顯著性圖生成技術(shù)。
背景技術(shù):
1、有許多用于圖像中的對(duì)象檢測(cè)的算法,比如基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(r-cnn)、fast?r-cnn、faster?r-cnn、yolov2、單次檢測(cè)器(ssd)等。這些最先進(jìn)的算法在整個(gè)圖像中搜索目標(biāo)對(duì)象。這些算法在計(jì)算上效率低下,在生物學(xué)上也不可信。這會(huì)導(dǎo)致評(píng)估指標(biāo)性能較低,訓(xùn)練持續(xù)時(shí)間也較長(zhǎng)。
2、在現(xiàn)實(shí)生活中,當(dāng)人類在圖像中搜索特定對(duì)象時(shí),眼睛會(huì)在注視點(diǎn)之間快速移動(dòng)(稱為掃視),然后才落到目標(biāo)對(duì)象上。眼睛移動(dòng)的軌跡根據(jù)人類觀察者感興趣的對(duì)象而不同。每個(gè)注視點(diǎn)都表示圖像中人類所“關(guān)注”的區(qū)域。人類的視覺注意力被認(rèn)為是隨著眼睛移動(dòng)而移動(dòng)。然而,現(xiàn)有的技術(shù)傾向于處理整個(gè)輸入幀,而不是聚焦/搜索輸入幀中的判別特征。
3、因此,需要一種基于注意力的模型來定位圖像中的對(duì)象。
技術(shù)實(shí)現(xiàn)思路
1、本披露內(nèi)容克服了現(xiàn)有技術(shù)的一個(gè)或多個(gè)缺點(diǎn)并且提供了本披露內(nèi)容中討論的額外優(yōu)點(diǎn)。通過本披露內(nèi)容的技術(shù)實(shí)現(xiàn)了附加的特征和優(yōu)點(diǎn)。本文詳細(xì)描述了本披露內(nèi)容的其他實(shí)施例和方面,并且這些實(shí)施例和方面被視為所要求保護(hù)的本披露內(nèi)容的一部分。
2、在本披露內(nèi)容的一個(gè)非限制性實(shí)施例中,披露了一種用于檢測(cè)圖像中存在的對(duì)象的方法。該方法包括接收包括至少一個(gè)待檢測(cè)對(duì)象的輸入圖像,并通過使用軟注意力技術(shù)修改所接收的圖像的亮度來生成軟注意力圖像。該方法進(jìn)一步敘述了使用第一cnn模型處理所接收的輸入圖像以提取第一特征圖,并使用第二cnn模型處理軟注意力圖像以提取第二特征圖。該方法進(jìn)一步敘述了整合第一特征圖和第二特征圖以生成堆疊特征圖、處理堆疊特征圖以生成顯著性圖以及基于顯著性圖檢測(cè)至少一個(gè)對(duì)象。
3、在另一個(gè)非限制性實(shí)施例中,本披露內(nèi)容敘述了生成軟注意力圖像包括將所接收的輸入圖像的亮度通道乘以多元高斯函數(shù),使得所接收的輸入圖像的亮度被修改為在該多元高斯函數(shù)的中心處較高,并且隨著與該多元高斯函數(shù)中心的距離增加而降低。
4、在另一個(gè)非限制性實(shí)施例中,本披露內(nèi)容敘述了軟注意力圖像是通過以下方式生成的:將所接收的輸入圖像轉(zhuǎn)換為包括亮度通道的hsv圖像;將該hsv圖像的亮度通道乘以多元高斯函數(shù),使得該hsv圖像的亮度被修改為在該多元高斯函數(shù)的中心處較高,并且隨著與該多元高斯函數(shù)中心的距離增加而降低;在修改該hsv圖像的亮度之后,將修改后的hsv圖像轉(zhuǎn)換為rgb圖像,以生成該軟注意力圖像。
5、在另一個(gè)非限制性實(shí)施例中,本披露內(nèi)容敘述了基于顯著性圖檢測(cè)至少一個(gè)對(duì)象包括檢測(cè)該顯著性圖中的最高活動(dòng)度,其中,該最高活動(dòng)度對(duì)應(yīng)于該對(duì)象的位置。
6、在又一個(gè)非限制性實(shí)施例中,本披露內(nèi)容敘述了檢測(cè)顯著性圖中的最高活動(dòng)度包括在該顯著性圖上創(chuàng)建多個(gè)輪廓;通過計(jì)算每個(gè)輪廓內(nèi)的平均像素值來計(jì)算每個(gè)輪廓的密度,其中,選擇密度最高的輪廓作為該對(duì)象的位置。
7、在又一個(gè)非限制性實(shí)施例中,本披露內(nèi)容敘述了該第一特征圖和該第二特征圖分別是使用一個(gè)或多個(gè)特征檢測(cè)器對(duì)所接收的圖像和該軟注意力圖像進(jìn)行卷積運(yùn)算來生成的,并且該第一特征圖和該第二特征圖是矩陣的集合,其中,該矩陣集合包括表示所接收的輸入圖像和該軟注意力圖像的顏色、紋理、形狀和亮度中的至少一者的像素值。
8、在又一個(gè)非限制性實(shí)施例中,本披露內(nèi)容敘述了該堆疊特征圖包括從該第一特征圖和該第二特征圖的矩陣集合中獲得的合并矩陣,其中,合并矩陣包括表示所接收的輸入圖像和該軟注意力圖像的顏色、紋理、形狀和亮度中的至少一者的合并像素值。該顯著性圖包括從這些合并矩陣獲得的顯著性矩陣,其中,這些顯著性矩陣的顯著性像素值是所接收的輸入圖像內(nèi)的指示所接收的輸入圖像中的至少一個(gè)待檢測(cè)對(duì)象的區(qū)域。
9、在又一個(gè)非限制性實(shí)施例中,本披露內(nèi)容披露了一種檢測(cè)圖像中存在的對(duì)象的裝置。該裝置包括輸入/輸出(i/o)接口,其被配置為接收包括至少一個(gè)待檢測(cè)對(duì)象的輸入圖像。該裝置進(jìn)一步包括與該i/o接口操作性地耦合的軟注意力圖像生成單元。該軟注意力生成單元被配置為通過使用軟注意力技術(shù)修改所接收的圖像的亮度來生成軟注意力圖像。該裝置進(jìn)一步包括與該i/o接口和該軟注意力圖像生成單元操作性地耦合的注意力搜索單元。該注意力搜索單元被配置為使用第一cnn模型處理所接收的圖像以提取第一特征圖,使用第二cnn模型處理該軟注意力圖像以提取第二特征圖,使用整合模型整合該第一特征圖和該第二特征圖以生成堆疊特征圖,以及使用圖生成模型處理該堆疊特征圖以生成該顯著性圖。該裝置進(jìn)一步包括與該i/o接口、該軟注意力圖像生成單元和該注意力搜索單元操作性地耦合的處理單元。該處理單元被配置為基于該顯著性圖檢測(cè)該至少一個(gè)對(duì)象。
10、在又一個(gè)非限制性實(shí)施例中,本披露內(nèi)容敘述了生成軟注意力圖像,該軟注意力圖像生成單元被配置為將所接收的輸入圖像的亮度通道乘以多元高斯函數(shù),使得所接收的輸入圖像的亮度被修改為在該多元高斯函數(shù)的中心處較高,并且隨著與該多元高斯函數(shù)中心的距離增加而降低。
11、在又一非限制性實(shí)施例中,本披露內(nèi)容敘述了為了生成軟注意力圖像,該軟注意力圖像生成單元被配置為將所接收的輸入圖像轉(zhuǎn)換為包括亮度通道的hsv圖像;將該hsv圖像的亮度通道乘以多元高斯函數(shù),使得該hsv圖像的亮度被修改為在該多元高斯函數(shù)的中心處較高,并且隨著與該多元高斯函數(shù)中心的距離增加而降低;以及在修改該hsv圖像的亮度之后,將修改后的hsv圖像轉(zhuǎn)換為rgb圖像,以生成該軟注意力圖像。
12、在本披露內(nèi)容的又一個(gè)非限制性實(shí)施例中,為了基于該顯著性圖檢測(cè)該至少一個(gè)對(duì)象,該處理單元被配置為檢測(cè)該顯著性圖中的最高活動(dòng)度,其中,該最高活動(dòng)度對(duì)應(yīng)于該對(duì)象的位置。
13、在本披露內(nèi)容的又一個(gè)非限制性實(shí)施例中,為了檢測(cè)顯著性圖中的最高活動(dòng)度,該處理單元被配置為在該顯著性圖上創(chuàng)建多個(gè)輪廓,并且通過計(jì)算每個(gè)輪廓內(nèi)的平均像素值來計(jì)算每個(gè)輪廓的密度。選擇密度最高的輪廓作為該對(duì)象的位置。
14、在本披露內(nèi)容的又一個(gè)非限制性實(shí)施例中,本技術(shù)披露了該第一特征圖和該第二特征圖分別是使用一個(gè)或多個(gè)特征檢測(cè)器對(duì)所接收的輸入圖像和軟注意力圖像進(jìn)行卷積運(yùn)算來生成的。該第一特征圖和該第二特征圖是矩陣的集合,其中,該矩陣集合包括表示所接收的輸入圖像和該軟注意力圖像的顏色、紋理、形狀和亮度中的至少一者的像素值。
15、
16、在又一非限制性實(shí)施例中,本披露內(nèi)容敘述了該堆疊特征圖包括從該第一特征圖和該第二特征圖的矩陣集合中獲得的合并矩陣,其中,合并矩陣包括表示所接收的輸入圖像和該軟注意力圖像兩者的顏色、紋理、形狀和亮度中的至少一者的合并像素值,并且該顯著性圖包括從這些合并矩陣獲得的顯著性矩陣,其中,這些顯著性矩陣的顯著性像素值是所接收的輸入圖像內(nèi)的指示所接收的輸入圖像中的至少一個(gè)待檢測(cè)對(duì)象的區(qū)域。
17、前面的
技術(shù)實(shí)現(xiàn)要素:
僅是說明性的而不旨在以任何方式進(jìn)行限制。除了以上描述的說明性方面、實(shí)施例和特征之外,通過參考附圖和以下詳細(xì)描述,進(jìn)一步的方面、實(shí)施例和特征將變得顯而易見。