本發(fā)明屬于圖像目標識別,具體涉及一種基于泛注意力機制的多光譜特征融合多尺度目標檢測方法。
背景技術:
1、隨著無人機技術的發(fā)展,適用無人機領域的目標檢測與識別技術也逐漸受到關注。傳統(tǒng)的目標檢測的數據源多為可見光圖像,但無人機在空中拍攝的圖像易受到林木遮擋,煙霧掩蓋等影響,且夜間偵察可見光圖像會因光線不足受到極大影響,從而影響檢測結果。
2、隨著機器學習算法的演進,可見光與紅外圖像的多光譜信息融合已經成為目標檢測的熱點技術之一,因為兩種模態(tài)具備不同特征且互補的信息。紅外光具有較強的穿透性,能夠穿透部分遮擋物,如薄霧、煙霧等,因此在惡劣環(huán)境下仍能捕捉到目標的輪廓和位置信息,從而彌補可見光在遮擋、煙霧、可見性差等惡劣環(huán)境下的不足。另一方面,可見光則提供了目標更豐富的紋理特征,彌補了紅外光特征表達能力的不足,為目標的精細識別和分類提供了重要依據。因此,將這兩種模態(tài)的圖像信息進行有機融合,能夠充分利用它們各自的優(yōu)點,提高目標檢測的準確性和魯棒性。
3、考慮到無人機視角下目標尺寸相對較小的特點,適用簡單的特征信息相加或點積的辦法并不能很好的融合兩種模態(tài)的特征信息。zhang?h等人在icip發(fā)表的multispectralfusion?for?object?detection?with?cyclic?fuse-and-refine?blocks文獻中提出了一種新的循環(huán)融合和細化模塊,以改進多光譜特征融合,并考慮到特征的互補性和一致性平衡,但這種方法未能對紅外圖像和可見光圖像的信息進行有效的融合,難以充分挖掘兩種模態(tài)的互補優(yōu)勢。fang?q等人在arxiv發(fā)表的cross-modality?fusion?transformer?formultispectral?object?detection文獻中提出使用transformer融合紅外圖像和可見光圖像的模態(tài)內特征,有效提高了低照度條件下行人目標的檢測精度,但這種方法未對模態(tài)間的特征進行學習,導致融合效果仍有提升空間,另一方面,transformer中的多頭注意力層帶來了較大的計算開銷,限制了其在實際檢測任務重的應用,此外,該網絡對小目標的檢測能力較弱,對無人機視角下的較小目標檢測的適用性較差,難以滿足實際應用中的需求。
4、因此,未來的研究需要更加深入地探索多模態(tài)數據的融合機制,開發(fā)出更加高效、精準且魯棒的融合算法,不僅要求算法能夠充分挖掘和利用兩種模態(tài)的互補信息,還需要考慮算法的計算效率和實際應用場景的需求,從而進一步推動無人機等場景中小目標檢測技術的發(fā)展。
技術實現思路
1、鑒于上述,本發(fā)明的目的是提供一種基于泛注意力機制的多光譜特征融合多尺度目標檢測方法,在主干網絡設計了融合代理注意力、跳過注意力和交叉注意力的新的gft特征融合網絡,在頸部網絡使用bifpn、vovgscsp和gsconv進行改進,提高了對小目標的檢測能力,并在檢測頭前添加repconv模塊,利用重參數化技術提高卷積層的計算效率和準確性,并采用wise?iou?v3損失函數進行模型訓練,提高預測精度,適用于無人機視角下的目標檢測。
2、為實現上述發(fā)明目的,本發(fā)明提供的技術方案如下:
3、本發(fā)明實施例提供的一種基于泛注意力機制的多光譜特征融合多尺度目標檢測方法,其特征在于,包括以下步驟:
4、基于yolov5模型框架搭建包含主干網絡、頸部網絡、檢測頭和輸出層的多光譜雙流檢測網絡;
5、其中,主干網絡讀取可見光圖像和紅外圖像后進行并行的雙流網絡特征提取,構建基于transformer并引入代理注意力、跳過注意力結構和交叉注意力的gft特征融合網絡在不同階段分別對雙流網絡提取的原特征進一步特征提取并通過殘差結構與原特征進行融合得到不同階段的融合特征;
6、頸部網絡引入bifpn模塊、vovgscsp模塊和gsconv模塊對原yolov5頸部網絡的concat級聯(lián)結構、c3模塊和conv模塊進行替換,將不同階段的融合特征作為頸部網絡的輸入并進行特征增強,不同階段的增強后的特征再分別經過repconv模塊捕捉多樣化特征;
7、檢測頭接收不同階段特征對應的repconv模塊的輸出并進行處理生成檢測結果;
8、輸出層融合不同階段特征對應的檢測結果得到最終的目標檢測結果。
9、具體地,在主干網絡中,包括:
10、將可見光圖像fr輸入第一focus模塊提取特征圖fr1,將fr1輸入第一conv+c3模塊提取特征圖fr2,將fr2輸入第二conv+c3模塊提取特征圖后輸入第一gft特征融合網絡進行可見光特征的內部特征融合并通過殘差結構將第二conv+c3模塊的輸出與第一gft特征融合網絡的可見光特征輸出融合得到特征圖fr3,將fr3輸入第三conv+c3模塊提取特征圖后輸入第二gft特征融合網絡進行可見光特征與同階段提取的紅外特征交叉融合并通過殘差結構將第三conv+c3模塊的輸出第二gft特征融合網絡的可見光特征輸出融合得到特征圖fr4,將fr4輸入第一conv+spp+c3模塊提取特征圖后輸入第三gft特征融合網絡進行可見光特征的內部特征融合并通過殘差結構將第一conv+spp+c3模塊的輸出與第三gft特征融合網絡的可見光特征輸出融合得到特征圖fr5;
11、將紅外圖像ft輸入第二focus模塊提取特征圖ft1,將ft1輸入第四conv+c3模塊提取特征圖ft2,將ft2輸入第五conv+c3模塊提取特征圖后輸入第一gft特征融合網絡進行紅外特征的內部特征融合并通過殘差結構將第五conv+c3模塊的輸出與第一gft特征融合網絡的紅外特征輸出融合得到特征圖ft3,將ft3輸入第六conv+c3模塊提取特征圖后輸入第二gft特征融合網絡進行紅外特征與同階段提取的可見光特征交叉融合并通過殘差結構將第六conv+c3模塊的輸出第二gft特征融合網絡的紅外特征輸出融合得到特征圖ft4,將ft4輸入第二conv+spp+c3模塊提取特征圖后輸入第三gft特征融合網絡進行紅外特征的內部特征融合并通過殘差結構將第二conv+spp+c3模塊的輸出與第三gft特征融合網絡的紅外特征輸出融合得到特征圖ft5。
12、具體地,在第一gft特征融合網絡或第三gft特征融合網絡中,包括:
13、使用代理注意力模塊替換transformer各層中的多頭自注意力模塊,在此基礎上實現在代理注意力模塊中引入跳過注意力結構;
14、對于跳過注意力結構,在transformer中的第l-1層代理注意力模塊的輸出表示為在第l層的transformer被表示為一種殘差結構:
15、
16、zl′←mlp(zl)+zl
17、其中,skipat(·)為跳過注意力結構,mlp(·)為多層感知機,zl為第l層的注意力輸出,zl′為第l層的transformer輸出,跳過注意力通過skipat(·)結構作用于使得的特征由前一層的代理注意力模塊提供而不是通過當前層的代理注意力模塊計算得到,skipat(·)作用層的具體公式如下:
18、
19、其中,使用第一全連接層fc1(·)擴展通道維度,后采用深度可分離卷積模塊dwc(·)獲取token間的關系,其結果會被展平為向量并輸入第二全連接層fc2(·)以恢復通道維度,最終通過eca模塊eca(·)計算得到當前層跳過注意力的輸出
20、具體地,eca模塊通過eca-net實現,按照通道維度尺寸利用全局平均池化聚合特征,再按照通道維度執(zhí)行自適應的1×1卷積核,并輸入最后的gelu激活函數。
21、具體地,在第二gft特征融合網絡中,包括:
22、采用基于transformer的交叉注意力機制,定義可見光特征的查詢、鍵和值分別為q1、k1和v1,定義紅外特征的查詢、鍵和值分別為q2、k2和v2,對可見光特征部分通過q1查詢k2并與v2組合進行注意力計算得到可見光部分的注意力輸出,對紅外特征部分通過q2查詢k1并與v1組合進行注意力計算得到紅外部分的注意力輸出。
23、具體地,在頸部網絡中,包括:
24、將fr3和ft3融合得到的特征p3、fr4和ft4融合得到的特征p4、以及fr5和ft5融合得到的特征p5分為三路輸入頸部網絡中,p3依次經第一bifpn模塊、第一vovgscsp模塊和第一repconv模塊進行特征提取,p4依次經第二bifpn模塊、第二vovgscsp模塊、第三bifpn模塊、第三vovgscsp模塊和第二repconv模塊進行特征提取,p5依次經第二gsconv模塊、第四bifpn模塊、第四vovgscsp模塊和第三repconv模塊進行特征提??;
25、其中,第一bifpn模塊還聯(lián)合了由第二vovgscsp模塊的輸出經第一gsconv和第一上采樣模塊后的輸出,第二bifpn模塊還聯(lián)合了由第二gsconv的輸出經第二上采樣模塊后的輸出,第三bifpn模塊還聯(lián)合了p4以及聯(lián)合了由第一vovgscsp模塊的輸出經第一conv模塊后的輸出,第四bifpn模塊還聯(lián)合了第三vovgscsp模塊的輸出經第二conv模塊后的輸出。
26、具體地,在檢測頭中,包括:
27、第一檢測模塊、第二檢測模塊和第三檢測模塊分別接受來自第一repconv模塊、第二repconv模塊和第三repconv模塊的輸出。
28、具體地,在輸出層中,包括:
29、通過對第一檢測模塊、第二檢測模塊和第三檢測模塊的檢測結果進行加權平均計算得到最終的目標檢測結果。
30、具體地,在訓練階段,每個repconv模塊使用多個并行的卷積層以捕捉多樣化的特征:
31、y=x*ws+x*wp+x*wd
32、其中,*表示卷積操作,x表示輸入特征圖,表示ws標準卷積核,wp表示逐點卷積核,wd表示不同填充的卷積核;
33、在推理階段,每個repconv模塊中的卷積層被重參數化為一個單一的卷積層,加速提取多樣化特征:
34、wrep=ws+wp+wd
35、y=x*wrep
36、其中,wrep表示經重參數化得到的單一卷積層。
37、具體地,采用wise?iou?v3損失函數對多光譜雙流檢測網絡進行訓練。
38、與現有技術相比,本發(fā)明具有的有益效果至少包括:
39、本發(fā)明在gft特征融合網絡中的第一gft特征融合網絡和第三gft特征融合網絡部分,利用多頭注意力層之間的相似性實現跳過注意力結構以降低特征融合網絡的開銷,并使用代理注意力模塊替換多頭自注意力模塊,加速各層transformer中注意力模塊的計算;本發(fā)明在gft特征融合網絡中的第而gft特征融合網絡部分的多頭自注意力層使用交叉注意力的結構,增加了模態(tài)間的信息交互,提高了雙流網絡的特征融合能力和檢測精度;本發(fā)明在頸部網絡使用bifpn模塊、vovgscsp模塊和gsconv模塊來提高對小目標檢測的能力,并平衡參數量與檢測精度;在檢測頭前使用repconv提高卷積模塊的計算效率和準確性;使用wise?iou?v3損失函數提高預測框的精度。因此,本發(fā)明提出的一種新的多光譜雙流檢測網絡,適用于雙流圖像的無人機小目標檢測,提高了無人機的目標檢測的魯棒性和檢測精度。