本發(fā)明屬于目標(biāo)檢測,具體涉及到一種基于注入語義注意力的目標(biāo)檢測方法。
背景技術(shù):
1、近年來,隨著人工智能技術(shù)的火熱發(fā)展,計算機視覺在自動駕駛、安防監(jiān)控和機器人等各領(lǐng)域取得了廣泛應(yīng)用。目標(biāo)檢測是計算機視覺領(lǐng)域的重要研究方向,其性能好壞將直接影響目標(biāo)跟蹤、動作識別以及行為理解等后續(xù)任務(wù)的表現(xiàn)。傳統(tǒng)的目標(biāo)檢測方法在處理復(fù)雜場景如行人檢測時,通常面臨著準確性和效率的挑戰(zhàn)。隨著gpu計算能力和深度學(xué)習(xí)算法的快速發(fā)展,目標(biāo)檢測不斷發(fā)展引入了基于深度學(xué)習(xí)的檢測方法,其中包括利用注意力機制來增強特征表示。但還存在原始圖像提供的語義信息較少,單個特征層的信息不夠充分的問題,低層特征圖能呈現(xiàn)目標(biāo)位置但語義信息相對稀缺,高層特征圖語義信息豐富但不準確,導(dǎo)致網(wǎng)絡(luò)難以完全學(xué)習(xí)到目標(biāo)的特征信息,存在識別準確性不足的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于提供一種檢測精度高、準確度高的基于注入語義注意力的目標(biāo)檢測方法。
2、解決上述技術(shù)問題所采用的技術(shù)方案是:一種基于注入語義注意力的目標(biāo)檢測方法,包括以下步驟:
3、步驟1.目標(biāo)數(shù)據(jù)集預(yù)處理
4、獲取目標(biāo)數(shù)據(jù)集,并對數(shù)據(jù)集中的圖像進行縮放和圖像增強處理,以得到目標(biāo)檢測數(shù)據(jù)集;
5、步驟2.獲取多尺度基礎(chǔ)特征圖和語義特征圖
6、將目標(biāo)檢測數(shù)據(jù)集中的待檢測圖像經(jīng)過不同尺度的特征提取,得到第一至第五尺度基礎(chǔ)特征圖,選取深層第一至第三尺度基礎(chǔ)特征圖,經(jīng)過額外卷積層處理后,得到多尺度目標(biāo)基礎(chǔ)特征圖;
7、同時將目標(biāo)檢測數(shù)據(jù)集中的待檢測圖像通過位置感知掩碼注意力模塊和卷積層的共同處理,得到第一至第三尺度的目標(biāo)語義特征圖;
8、步驟3.特征融合得到全局特征融合圖
9、將多尺度目標(biāo)基礎(chǔ)特征圖與目標(biāo)語義特征圖通過注入注意力機制進行特征融合處理得到特征融合圖,特征融合圖經(jīng)過卷積、批歸一化處理,得到全局目標(biāo)特征融合圖;
10、所述注入注意力機制為:
11、zi,c(x)=conv{(1+si,c(x))*fi,c(x)}
12、式中,zi,c(x)是全局目標(biāo)特征融合圖,i是特征空間位置,c是特征通道的索引,s(x)是語義信息特征的注意力信息,取值范圍為[0,1],fi,c(x)是多尺度基礎(chǔ)特征圖,x是特征,conv{}是卷積處理;
13、步驟4.對全局目標(biāo)特征融合圖進行解碼操作得到目標(biāo)檢測結(jié)果
14、對全局目標(biāo)特征融合圖進行解碼操作,將全局目標(biāo)特征融合圖的邊界框坐標(biāo)映射回原始圖像尺度,并通過損失函數(shù)調(diào)整邊界框位置,得到調(diào)整后的目標(biāo)特征圖;
15、通過置信度損失和分類損失確定邊界框中的物體種類和置信度,得到初步的檢測結(jié)果;
16、對檢測結(jié)果進行非極大值抑制處理,去除冗余的邊界框,最終得到目標(biāo)檢測結(jié)果。
17、作為一種優(yōu)選的技術(shù)方案,所述步驟2中位置感知掩碼注意力模塊和卷積層的共同處理的方法為:待檢測圖像經(jīng)不同尺度下采樣處理,得到下采樣第一至第三尺度特征圖,對第三尺度特征圖下采樣得到第四尺度特征圖,對第四尺度特征圖上采樣處理,得到第五尺度上采樣特征圖,對第五尺度上采樣特征圖上采樣處理,得到第六尺度上采樣特征圖,對第六尺度上采樣特征圖上采樣處理,得到第七尺度上采樣特征圖,將下采樣第一、二、三尺度特征圖分別與上采樣第五、六、七尺度特征圖通過殘差連接處理融合特征,將低分辨率、語義強的特征與高分辨率、語義弱的特征相結(jié)合得到語義特征圖。
18、作為一種優(yōu)選的技術(shù)方案,所述步驟3中,語義特征圖與多尺度基礎(chǔ)特征圖的尺度大小不一致時,將語義特征圖的尺度大小調(diào)整至多尺度基礎(chǔ)特征圖的尺度大小。
19、一種基于注入語義注意力的目標(biāo)檢測模型,所述目標(biāo)檢測模型由基礎(chǔ)目標(biāo)特征提取模塊、語義目標(biāo)特征提取模塊、特征分布空間對齊模塊、語義注入注意力模塊、結(jié)果生成模塊構(gòu)成;
20、所述基礎(chǔ)特征提取模塊,用于提取待檢測圖像的目標(biāo)基礎(chǔ)特征,得到目標(biāo)基礎(chǔ)特征圖;
21、所述語義特征提取模塊,用于提取待檢測圖像的目標(biāo)語義特征,得到目標(biāo)語義特征圖;
22、所述特征分布空間對齊模塊,用于將目標(biāo)基礎(chǔ)特征圖和目標(biāo)語義特征圖的空間結(jié)構(gòu)調(diào)整一致;
23、所述語義注入注意力模塊,用于將目標(biāo)語義特征圖通過注意力機制注入到目標(biāo)基礎(chǔ)特征圖中得到全局目標(biāo)特征融合圖;
24、所述結(jié)果生成模塊,使用分類器對目標(biāo)邊界框進行分類和回歸處理,生成目標(biāo)檢測結(jié)果。
25、作為一種優(yōu)選的技術(shù)方案,所述基礎(chǔ)特征提取模塊由卷積網(wǎng)絡(luò)模塊和池化模塊構(gòu)成,所述卷積網(wǎng)絡(luò)模塊對輸入圖像進行空間卷積操作并進行局部目標(biāo)特征提取得到初始目標(biāo)特征圖,所述池化模塊對初始目標(biāo)特征圖進行多個采樣率操作,提取不同尺度區(qū)域的特征信息作為多尺度特征金字塔,并選取后三個尺度作為基礎(chǔ)目標(biāo)特征圖。
26、作為一種優(yōu)選的技術(shù)方案,所述語義特征提取模塊由編碼器和解碼器構(gòu)成,編碼器通過卷積操作對輸入圖像進行空間卷積,提取該層圖像的目標(biāo)特征,獲得不同尺度的目標(biāo)語義特征圖;解碼器將目標(biāo)語義特征圖映射回原始圖像的空間結(jié)構(gòu),同時,編碼器中的目標(biāo)語義特征圖與解碼器中對應(yīng)的特征圖進行殘差連接處理,使解碼器利用不同尺度的語義特征信息,形成語義特征金字塔。
27、本發(fā)明的有益效果如下:
28、本發(fā)明通過對輸入圖像進行基礎(chǔ)特征提取和語義特征提取,可以更準確地提取圖像中的局部和語義特征;利用多尺度特征金字塔,能夠同時考慮不同尺度的特征,有助于檢測不同大小的目標(biāo);通過編碼器和解碼器的殘差連接,可以更好地利用不同尺度的語義信息,提高特征的表達能力;混合注意力機制能夠同時關(guān)注特征圖中的通道和空間信息,進一步提升特征的利用效率;對檢測結(jié)果進行非極大值抑制處理,提高了檢測結(jié)果的準確度。
29、本發(fā)明具有良好的靈活性和適應(yīng)性,能夠適應(yīng)不同的圖像和目標(biāo)檢測任務(wù)。
1.一種基于注入語義注意力的目標(biāo)檢測方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述基于注入語義注意力的目標(biāo)檢測方法,其特征在于,所述步驟2中位置感知掩碼注意力模塊和卷積層的共同處理的方法為:待檢測圖像經(jīng)不同尺度下采樣處理,得到下采樣第一至第三尺度特征圖,對第三尺度特征圖下采樣得到第四尺度特征圖,對第四尺度特征圖上采樣處理,得到第五尺度上采樣特征圖,對第五尺度上采樣特征圖上采樣處理,得到第六尺度上采樣特征圖,對第六尺度上采樣特征圖上采樣處理,得到第七尺度上采樣特征圖,將下采樣第一、二、三尺度特征圖分別與上采樣第五、六、七尺度特征圖通過殘差連接處理融合特征,將低分辨率、語義強的特征與高分辨率、語義弱的特征相結(jié)合得到語義特征圖。
3.根據(jù)權(quán)利要求1所述基于注入語義注意力的目標(biāo)檢測方法,其特征在于,所述步驟3中,語義特征圖與多尺度基礎(chǔ)特征圖的尺度大小不一致時,將語義特征圖的尺度大小調(diào)整至多尺度基礎(chǔ)特征圖的尺度大小。
4.一種基于注入語義注意力的目標(biāo)檢測模型,其特征在于,所述目標(biāo)檢測模型由基礎(chǔ)目標(biāo)特征提取模塊、語義目標(biāo)特征提取模塊、特征分布空間對齊模塊、語義注入注意力模塊、結(jié)果生成模塊構(gòu)成;
5.根據(jù)權(quán)利要求4所述一種基于注入語義注意力的目標(biāo)檢測模型,其特征在于,所述基礎(chǔ)特征提取模塊由卷積網(wǎng)絡(luò)模塊和池化模塊構(gòu)成,所述卷積網(wǎng)絡(luò)模塊對輸入圖像進行空間卷積操作并進行局部目標(biāo)特征提取得到初始目標(biāo)特征圖,所述池化模塊對初始目標(biāo)特征圖進行多個采樣率操作,提取不同尺度區(qū)域的特征信息作為多尺度特征金字塔,并選取后三個尺度作為基礎(chǔ)目標(biāo)特征圖。
6.根據(jù)權(quán)利要求4所述一種基于注入語義注意力的目標(biāo)檢測模型,其特征在于,所述語義特征提取模塊由編碼器和解碼器構(gòu)成,編碼器通過卷積操作對輸入圖像進行空間卷積,提取該層圖像的目標(biāo)特征,獲得不同尺度的目標(biāo)語義特征圖;解碼器將目標(biāo)語義特征圖映射回原始圖像的空間結(jié)構(gòu),同時,編碼器中的目標(biāo)語義特征圖與解碼器中對應(yīng)的特征圖進行殘差連接處理,使解碼器利用不同尺度的語義特征信息,形成語義特征金字塔。