本發(fā)明涉及計算機視覺檢測領(lǐng)域,具體是涉及到一種基于動態(tài)自適應查詢的遙感目標檢測方法與系統(tǒng)。
背景技術(shù):
1、目標檢測是計算機視覺中的基本任務(wù)之一,目標檢測是分類和回歸問題的疊加,是計算機視覺領(lǐng)域最具有挑戰(zhàn)性的問題之一。其中遙感圖像目標檢測是近些年的研究熱點,在車輛檢測、船舶檢測、城市規(guī)劃、環(huán)境監(jiān)測、航空等領(lǐng)域被廣泛應用。不同于普通的rgb圖像,遙感圖像大多來自于衛(wèi)星無人機等多種遙感平臺,遙感圖像包含地球表面的幾何信息和物理信息。因為航空遙感圖像覆蓋范圍廣泛,俯拍下的圖像包含很多方向不定的小目標,圖像的背景復雜度高,一張圖片包含多種多樣的背景,雜亂的背景會嚴重干擾目標檢測的結(jié)果。
2、detr模型首次將cnn與transformer相結(jié)合,將目標檢測視作集合預測問題,實現(xiàn)端到端的目標檢測。通過利用transformer中固有的自注意力機制,detr能夠在圖像中建模全局語境,從而增強其在復雜背景中識別物體的能力。更重要的是,與之前基于cnn的兩階段目標檢測框架相比,detr的端到端訓練范式摒棄了諸如錨框和nms等手工設(shè)計的組件,簡化了檢測過程,并可能減少這訓練策略引入的誤差。
3、盡管detr具有新穎的設(shè)計,但由于detr模型需要對整個圖像進行編碼和解碼,因此計算復雜度較高,而且對查詢的定義不清淅,這些導致detr模型在收斂速度上相對較慢,具體而言,首先detr需要長時間的訓練才能達到收斂,訓練輪次高達500輪,其次,由于detr中的原始注意力機制中對于特征圖上所有像素幾乎擁有統(tǒng)一的權(quán)重,每個query需與所有位置的key進行計算,產(chǎn)生許多無效計算,增加模型計算復雜度。
4、為了加快模型的收斂速度和提高性能。作為detr的變體,deformable?detr(可變形detr)提出多尺度的可變形注意力,可以處理四個不同尺度的特征,每個query,僅在局部位置中采樣key,value也是部分位置的value,只關(guān)注參考點周圍的一小部分關(guān)鍵采樣點,大大提高了收斂速度。deformable?detr在小目標的檢測性能方面取得了較大的突破,但由于deformable?detr中每個查詢都負責一個相對較大的區(qū)域不可避免地會導致多個查詢之間的內(nèi)部沖突,給模型帶來了模糊的空間先驗。近幾年學者們開始對查詢的設(shè)計改進,dabdetr(動態(tài)錨框detr)重新定義detr中的object?query(對象查詢),使用4維的anchorbox(錨框),將object?queries定義中加入寬高來進行尺寸調(diào)制,除此之外還引入動態(tài)查詢設(shè)計,object?queries會逐層進行更新。
5、盡管detr在遙感目標檢測中展現(xiàn)出了巨大的潛力,但它也面臨一些挑戰(zhàn)。detr系列變體不適用在背景雜亂,目標密集的遙感圖像中,因為detr變體不考慮查詢設(shè)定,對所有的輸入樣本都用同一組初始化查詢,針對不同的輸入查詢是單一不變的,所以detr模型在處理遙感圖像時性能會下降,尤其對小目標和重疊目標檢測效果不佳。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:本發(fā)明目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于動態(tài)自適應查詢的遙感目標檢測方法,基于detr及其變體進行改進,解決其查詢內(nèi)容單一,以及無法自適應輸入的問題。
2、本發(fā)明另一方面在于,提供一種基于動態(tài)自適應查詢的遙感目標檢測系統(tǒng)。
3、為了達到上述目的,本發(fā)明首先提供基于動態(tài)自適應查詢的遙感目標檢測方法,包括如下步驟:
4、s1、獲取目標檢測數(shù)據(jù)集,并對目標檢測數(shù)據(jù)集進行預處理;
5、s2、構(gòu)建由resnet50卷積神經(jīng)網(wǎng)絡(luò)與transformer自注意力機制組合而成的初始網(wǎng)絡(luò)結(jié)構(gòu);同時采用動態(tài)態(tài)自適應位置查詢代替原有位置查詢;
6、s3、利用預處理后的目標檢測數(shù)據(jù)集對初始網(wǎng)絡(luò)結(jié)構(gòu)進行訓練,獲得訓練完成的目標檢測網(wǎng)絡(luò)模型;
7、s4、利用目標檢測網(wǎng)絡(luò)模型識別遙感圖像中目標。
8、本發(fā)明進一步優(yōu)選地技術(shù)方案為,步驟s1中獲取的目標檢測數(shù)據(jù)集,包括coco數(shù)據(jù)集和rsod遙感數(shù)據(jù)集。
9、作為優(yōu)選,步驟s1所述對目標檢測數(shù)據(jù)集進行預處理,具體步驟為:
10、s11、將目標檢測數(shù)據(jù)集中的圖像尺寸調(diào)整為1024×1024;
11、s12、圖像首先經(jīng)過特征提取網(wǎng)絡(luò)得到多尺度圖像特征,再對多尺度圖像特征進行變換,形成特征金字塔網(wǎng)絡(luò);
12、s13、將變換后的多尺度特征和相應的位置編碼一起經(jīng)過編碼器得到編碼器加強過的特征。
13、作為優(yōu)選,步驟s2所述構(gòu)建由resnet50卷積神經(jīng)網(wǎng)絡(luò)與transformer自注意力機制組合而成的初始網(wǎng)絡(luò)結(jié)構(gòu);同時采用動態(tài)自適應位置查詢代替原有位置查詢;具體方法為:
14、該網(wǎng)絡(luò)結(jié)構(gòu)包括特征提取網(wǎng)絡(luò)、transformer編碼器和解碼器,以及動態(tài)自適應權(quán)重生成模塊;
15、s21、選擇resnet50作為特征提取網(wǎng)絡(luò),取特征金字塔網(wǎng)絡(luò)的最上層的特征作為動態(tài)自適應權(quán)重生成模塊的輸入,得到一組動態(tài)權(quán)重;初始化一組查詢,將這組查詢與動態(tài)自適應權(quán)重生成模塊得到的動態(tài)權(quán)重進行線性組合得到動態(tài)自適應位置查詢;
16、s22、將編碼器特征和動態(tài)自適應查詢送入解碼器進行注意力操作;最后,解碼器通過堆疊多個注意力操作后再經(jīng)過分類頭與回歸頭得到預測集合。
17、作為優(yōu)選,通過動態(tài)自適應權(quán)重生成模塊得到動態(tài)權(quán)重,具體方法為:
18、s211、使用全局自適應平均池化層得到全局特征,再通過兩個全連接層和relu激活函數(shù)得到一組未歸一化的權(quán)重,對生成的權(quán)重應用softmax函數(shù),將輸入值映射為0-1之間的概率實數(shù),并通過溫度系數(shù)進行縮放,得到每組相應的權(quán)重值;權(quán)重生成方法為:
19、
20、其中f"為模塊中第二層fc層的輸出,τ為設(shè)置的溫度系數(shù)。f-為表示這組權(quán)重中的第j個元素的原始權(quán)重值。k是一個特定的索引,用于從這組權(quán)重中選擇一個特定的元素進行softmax計算,j為是一個遍歷這組權(quán)重中所有元素的索引,用于計算softmax函數(shù)的歸一化因子。
21、作為優(yōu)選,獲得動態(tài)自適應位置查詢的具體方法為:
22、s212、首先,重新定義object?query,object?query為一組預先定義的向量,每個object?query都代表一個目標類別和位置的描述,在初始化的時候設(shè)置n組可學習的隨機的向量;
23、s213、將輸入到解碼器第一層的初始位置查詢定義為:
24、
25、其中qk代表初始化的一組隨機向量,ωk代表一組權(quán)重,這組權(quán)重為動態(tài)自適應權(quán)重生成模塊根據(jù)輸入得到的動態(tài)權(quán)重,由此將原有位置查詢變成動態(tài)自適應位置查詢。
26、作為優(yōu)選,步驟s3所述利用預處理后的目標檢測數(shù)據(jù)集對初始網(wǎng)絡(luò)結(jié)構(gòu)進行訓練,獲得訓練完成的目標檢測網(wǎng)絡(luò)模型;具體方法為:
27、s31、使用coco數(shù)據(jù)集的訓練集在rtx?4090上對模型訓練50輪次,查詢數(shù)量設(shè)置為300個,模型在coco數(shù)據(jù)集訓練結(jié)束后會生成相應的權(quán)重文件,將在coco數(shù)據(jù)集訓練過的模型作為預訓練模型;
28、s32、導入訓練好的權(quán)重的預訓練模型,根據(jù)rsod遙感數(shù)據(jù)集的訓練集再次進行訓練,微調(diào)模型的參數(shù),獲得訓練完成的目標檢測網(wǎng)絡(luò)模型;
29、s33、采用coco數(shù)據(jù)集和rsod遙感數(shù)據(jù)集的驗證集驗證所述目標檢測網(wǎng)絡(luò)模型。
30、作為優(yōu)選,步驟s3中所述目標檢測網(wǎng)絡(luò)模型訓練中設(shè)置的超參數(shù)為:
31、設(shè)置輸入圖像的尺寸大小為1024×1024,coco數(shù)據(jù)集中檢測對象的類別為80,rsod遙感數(shù)據(jù)集中檢測對象的類別為4,batch?size設(shè)置為2;該模型共訓練了50個epoch,在第40個epoch,學習率下降到0.1;初始學習率為0.0001,權(quán)重衰減為0.0001,查詢個數(shù)設(shè)置為300個。
32、本發(fā)明再一方面提供一種基于動態(tài)自適應查詢的遙感目標檢測系統(tǒng),包括:
33、數(shù)據(jù)預處理模塊,用于獲取目標檢測數(shù)據(jù)集,并對目標檢測數(shù)據(jù)集進行預處理;
34、模型構(gòu)建模塊,用于構(gòu)建由resnet50卷積神經(jīng)網(wǎng)絡(luò)與transformer自注意力機制組合而成的初始網(wǎng)絡(luò)結(jié)構(gòu),采用動態(tài)自適應位置查詢代替原有位置查詢;
35、模型訓練模塊,用于設(shè)置模型參數(shù),利用預處理后的目標檢測數(shù)據(jù)集對初始網(wǎng)絡(luò)結(jié)構(gòu)進行訓練,獲得訓練完成的目標檢測網(wǎng)絡(luò)模型;
36、目標檢測模塊,用于利用目標檢測網(wǎng)絡(luò)模型識別遙感圖像中目標。
37、優(yōu)選地,所述模型訓練模塊在設(shè)置模型參數(shù)時,根據(jù)實際使用的硬件設(shè)備,以及預期要達到的檢測結(jié)果配置合適的模型參數(shù),包括批次大小、優(yōu)化器、學習率、訓練輪數(shù)、調(diào)整學習率的訓練輪數(shù)和特征提取網(wǎng)絡(luò);
38、所述目標檢測模塊對于待檢測的圖像,利用訓練好的目標檢測網(wǎng)絡(luò)模型及相應的權(quán)重文件,對待檢測的圖像進行檢測得到目標檢測結(jié)果,并比較檢測結(jié)果與推理fps是否達到預期。
39、有益效果:(1)本發(fā)明基本框架使用的dab-deformable-detr網(wǎng)絡(luò)結(jié)構(gòu),并重新定義detr中的object?query,使用動態(tài)自適應位置查詢代替原有的位置查詢。使用動態(tài)自適應查詢可以提供更好的位置先驗,使得detr系列模型對不同圖像能夠動態(tài)調(diào)整位置查詢,模型在預測目標位置時更加精確,能夠更準確地捕捉目標的邊界。圖像中的細節(jié)更加敏感,能夠捕捉到更多的細微差別,能夠針對復雜背景下的遙感圖像做出更準確的預測。本方法不僅提高目標檢測精度,同時還能提升模型收斂速度。
40、(2)本發(fā)明針對查詢內(nèi)容固定單一的問題,設(shè)計了一個動態(tài)自適應權(quán)重生成模塊,根據(jù)輸入動態(tài)調(diào)整權(quán)重,從全局角度考慮上下文信息進行適應各種目標,為模型訓練迭代提供更準確的位置先驗。
41、(3)本發(fā)明采用動態(tài)自適應查詢,根據(jù)輸入圖像特征自適應動態(tài)調(diào)整查詢,使得每個查詢負責的區(qū)域更適應圖像,預測框更貼合目標。尤其是對背景復雜的遙感圖像,本發(fā)明提出的方法能夠更好的識別密集或者有重疊的目標實例,實現(xiàn)更精確的查詢優(yōu)化。此外,本發(fā)明提出的方法可以很容易集成到其他現(xiàn)有的detr變體中,進一步提高遙感圖像目標的檢測性能。