本發(fā)明屬于計算機視覺領(lǐng)域,具體涉及一種基于深度學習的輕量級偽裝目標檢測方法。
背景技術(shù):
1、在自然勘測、野外生存或是軍事演練領(lǐng)域,偽裝物體檢測都是不可或缺的一部分。如何使用計算機快速高效地從復(fù)雜環(huán)境背景中,分辨出幾乎與背景融為一體的目標物體,是計算機視覺領(lǐng)域的熱門話題。
2、偽裝物體檢測的研究背景源于現(xiàn)實世界的復(fù)雜性和不確定性。隨著科技的發(fā)展,偽裝技術(shù)也在不斷進步,使得物體能夠更好地融入背景或改變自身形態(tài),從而逃避視覺系統(tǒng)的檢測。這不僅給人們的生產(chǎn)生活帶來了安全隱患,也增加了安全防護的難度。因此,開發(fā)高效、準確的偽裝物體檢測技術(shù),成為了當前計算機視覺領(lǐng)域亟待解決的問題。
3、偽裝物體檢測的意義在于,其應(yīng)用范圍廣泛,具有重大的實用價值。在安全監(jiān)控領(lǐng)域,它可以用于識別偽裝成普通物體的危險品或違禁品,提高安檢效率;在軍事防御領(lǐng)域,它可以用于檢測偽裝成自然物體的軍事設(shè)施或裝備,增強戰(zhàn)場感知能力;在目標追蹤領(lǐng)域,它可以用于在復(fù)雜環(huán)境中準確追蹤偽裝目標,提升追蹤精度。此外,偽裝物體檢測還有助于推動計算機視覺技術(shù)的發(fā)展和創(chuàng)新,為相關(guān)領(lǐng)域的研究提供新的思路和方法。
4、然而,相比于傳統(tǒng)偽裝物體檢測,輕量化偽裝物體檢測的研究工作目前而言還十分稀少。在顯著性目標檢測sod領(lǐng)域,進行輕量化往往采用更為輕量的骨干網(wǎng)絡(luò)等方法。但是在偽裝物體檢測cod領(lǐng)域,由于目標任務(wù)的更為復(fù)雜性和不確定性,僅僅簡單的運用sod領(lǐng)域的輕量化方法效果并未很好。目前研究該方向的主流方法是基于物體邊緣引導、采用頻域變換等手段。
5、作為顯著性目標檢測的一個分支,盡管以往的偽裝物體檢測已取得相當優(yōu)秀的成果,但是在面對復(fù)雜光照和場景時,傳統(tǒng)的偽裝物體檢測方法則很難準確識別目標結(jié)構(gòu)完整精確的輪廓,且傳統(tǒng)方法使用參數(shù)量龐大的基礎(chǔ)網(wǎng)絡(luò),不適合移動設(shè)備的實時需求。因此,綜合考慮輕量級網(wǎng)絡(luò)以及使用注意力機制可以獲得更優(yōu)秀的檢測效果,輕量化偽裝物體檢測的深度神經(jīng)網(wǎng)絡(luò)實驗具有良好的研究價值和應(yīng)用前景。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的不足,以及傳統(tǒng)檢測網(wǎng)絡(luò)的高昂運算成本和時間成本,本發(fā)明提供了一種基于深度學習的輕量級偽裝目標檢測方法。
2、本發(fā)明方法主要包含三階段,分別為初級特征提取階段、加強特征提取階段、解碼器階段。各個階段具體包括以下步驟:
3、步驟(1).獲取偽裝物體圖像數(shù)據(jù)集,進行預(yù)處理,并劃分為訓練集和測試集。
4、步驟(2).初級特征提取階段,將測試集數(shù)據(jù)輸入初級特征提取網(wǎng)絡(luò),進行初級特征提取,具體方法如下:
5、本發(fā)明以mobilenet?v3-small版本的骨干提取模型,構(gòu)建輕量化的初級特征提取網(wǎng)絡(luò)。將骨干網(wǎng)絡(luò)的11個bneck層根據(jù)通道數(shù)合并為5個單元,輸入訓練集數(shù)據(jù),選取前三個單元的淺層信息和最后一個單元的深層信息,產(chǎn)生f1、f2、f3、f4共四個特征層,對應(yīng)的通道數(shù)分別為16、24、40、96,并送入后續(xù)的加強特征提取階段。
6、步驟(3).加強特征提取階段,依次通過頻譜門控單元、混合注意力機制、全局信息模塊、邊緣感知模塊、邊緣引導模塊,對初級特征進行強化處理具體方法如下:
7、該階段共包含五大類基本模塊,分別為頻譜門控單元(spectral?gatingnetwork,sgn)、混合注意力機制(convolutional?block?attention?module,cbam)、全局信息模塊(global?information?module,gim)、邊緣感知模塊(edge-aware?module,eam)、邊緣引導模塊(edge-guidance?feature?modules,efm)。
8、(1).頻譜門控單元首先接收來自初級特征提取階段的前2個大單元輸出f1、f2,并分別作為自身輸入,負責處理細節(jié)信息更為豐富的淺層數(shù)據(jù),對其中的頻率特征進行學習。該模塊內(nèi)部結(jié)構(gòu)公式如下:
9、
10、
11、其中,ln為層歸一化,fi表示來自骨干網(wǎng)絡(luò)的實域圖像信息,xf表示頻域圖像信息,fft表示快速傅里葉變換,ifft表示快速傅里葉逆變換,mlp為多層感知機,wc表示可學習權(quán)重參數(shù)。頻譜門控單元輸出結(jié)果為fip,i∈{1,2}。
12、(2).混合注意力機制共有四處,分別接收來自兩個頻譜門控單元的輸出以及初級特征提取階段的后兩個單元的輸出f3、f4。該模塊通過串行使用通道注意力和空間注意力,加強重要特征表示,其內(nèi)部結(jié)構(gòu)公式如下:
13、mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))
14、ms(f)=σ(f7×7([avgpool(mc(f));maxpool(mc(f))]))
15、其中,f為輸入特征(包含f3,f4),avgpool表示平均池化操作,maxpool表示最大池化操作,mlp表示多層感知機,σ表示sigmoid激活函數(shù),[;]表示拼接操作?;旌献⒁饬C制輸出結(jié)果為ms(f):包含
16、(3).全局信息模塊位于最深層,接收來自骨干網(wǎng)絡(luò)最后一個單元的輸出f5。在此處使用全局信息模塊來抓取深層級語義特征,并傳入后續(xù)邊緣感知模塊中。其內(nèi)部結(jié)構(gòu)公式如下:
17、f′a0=conv1×1(f5)
18、f′a1=conv3×3,rates=1(f5)
19、f′a2=conv3×3,rates=2(f5)
20、f′a3=conv3×3,rates=3(f5)
21、f′a4=conv3×3,rates=4(f5)
22、fa=conv1×1(cat(f′a0,f′a1,f′a2,f′a3,f′a4))
23、fhigh=up×2(cbr(f5+fa))
24、其中,rates表示擴張卷積操作的膨脹率(例如,當rates=2時,表示卷積核元素之間的距離變?yōu)?,感受野擴大),cat表示concat操作,up×2表示上采樣倍率為2,cbr是卷積conv、批標準化batchnorm、relu激活函數(shù)的組合操作。全局信息模塊輸出結(jié)果為fhigh。
25、(4).邊緣感知模塊接收來自全局信息模塊的輸出特征fhigh以及骨干網(wǎng)絡(luò)第一個單元的輸出f1,作為自身輸入,以實現(xiàn)將淺層信息和深層信息合并來進行物體邊緣識別。該模塊首先采用兩個1×1卷積層改變通道數(shù),并對fhigh進行上采樣;其次,將處理后的f1和fhigh進行concat拼接操作(向量拼接);最后,通過兩個3×3卷積層和一個1×1帶激活函數(shù)的卷積層得到有效的邊緣特征,邊緣感知模塊輸出結(jié)果為邊緣預(yù)測圖fe。
26、(5).邊緣引導模塊接收來自邊緣感知模塊的輸出fe,并結(jié)合來自各級混合注意力機制的輸出來增強物體結(jié)構(gòu)的特征代表性。該模塊首先使用元素乘積、殘差連接、3×3卷積得到融合特征圖。再將該融合特征圖通過全局平均池化gap、一維卷積、sigmoid激活函數(shù),并與未處理過的特征圖進行元素乘積。最后通過1×1卷積得到最終輸出。其內(nèi)部結(jié)構(gòu)公式如下:
27、
28、
29、其中,d表示下采樣,表示元素級相加,表示元素級相乘,是卷積核大小為1的1d卷積,σ是sigmoid激活函數(shù)。邊緣引導模塊輸出結(jié)果為fia,i∈{1,2,3,4}。
30、步驟(4).解碼器階段,基于深度可分離卷積,對強化處理后的初級特征進行解碼,輸出檢測結(jié)果,具體方法如下:
31、對解碼器部分所采用的的普通卷積進行優(yōu)化,使用深度可分離卷積dwconv?;赿wconv的輕量級上下文聚合模塊(dwconv-based?context?aggregation?module,dcam)采用跨尺度交互來增強特征提取能力。
32、該階段共包含三層上下文聚合模塊。對于第i層(i=1,2,3)dcam模塊,其輸入分別為來自第i層的efm輸出fia、第i+1層的efm輸出在dcam內(nèi)部,對輸入進行拼接、經(jīng)過1×1深度可分離卷積得到fm后,將fm根據(jù)通道數(shù)均分為4份分別傳入四條分支進行處理(跨層級相加、擴張的深度可分離卷積),得到其中dwc表示基于深度可分離的卷積操作。dcam的內(nèi)部結(jié)構(gòu)公式如下:
33、
34、其中表示3×3的深度可分離卷積,fdwconv1×1表示1×1深度可分離卷積,表示殘差連接。dcam的輸出結(jié)果為最終的掩膜預(yù)測圖fic,i∈{1,2,3}。
35、將得到不同層級的三張掩膜預(yù)測圖進行l(wèi)oss監(jiān)督訓練,將最底層的輸出最為最終輸出,其余兩張作為模型的中間層輸出,僅用于損失監(jiān)督;訓練結(jié)束后,使用測試集進行驗證。
36、本發(fā)明有益效果如下:
37、本發(fā)明方法主要優(yōu)勢在于五個方面:輕量級骨干網(wǎng)絡(luò),頻域機制,全局信息模塊,注意力機制引入,以及輕量級的上下文聚合模塊進行解碼。
38、本發(fā)明方法首先使用輕量級的骨干網(wǎng)絡(luò)進行特征提取,在盡可能不大幅降低網(wǎng)絡(luò)性能的前提下,從根源上大幅降低網(wǎng)絡(luò)參數(shù)以及運算量。同時將rgb域圖像處理不常用的頻域機制引入網(wǎng)絡(luò),旨在增強頻域特征學習,以便更好地識別偽裝物體。引入的混合注意力機制有效加強了重要特征表示,抑制與任務(wù)無關(guān)的特征。引入的全局信息模塊彌補了輕量級骨干網(wǎng)絡(luò)深層提取能力較弱的缺點,并使用輕量級的上下文聚合模塊進行高效解碼。
39、本發(fā)明方法提供的網(wǎng)絡(luò)模型可以充分利用圖像的rgb特征與頻率特征,并結(jié)合邊界引導實現(xiàn)對偽裝目標的檢測。