国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于動態(tài)自適應查詢的遙感目標檢測方法與系統(tǒng)

      文檔序號:40386458發(fā)布日期:2024-12-20 12:09閱讀:4來源:國知局
      基于動態(tài)自適應查詢的遙感目標檢測方法與系統(tǒng)

      本發(fā)明涉及計算機視覺檢測領(lǐng)域,具體是涉及到一種基于動態(tài)自適應查詢的遙感目標檢測方法與系統(tǒng)。


      背景技術(shù):

      1、目標檢測是計算機視覺中的基本任務(wù)之一,目標檢測是分類和回歸問題的疊加,是計算機視覺領(lǐng)域最具有挑戰(zhàn)性的問題之一。其中遙感圖像目標檢測是近些年的研究熱點,在車輛檢測、船舶檢測、城市規(guī)劃、環(huán)境監(jiān)測、航空等領(lǐng)域被廣泛應用。不同于普通的rgb圖像,遙感圖像大多來自于衛(wèi)星無人機等多種遙感平臺,遙感圖像包含地球表面的幾何信息和物理信息。因為航空遙感圖像覆蓋范圍廣泛,俯拍下的圖像包含很多方向不定的小目標,圖像的背景復雜度高,一張圖片包含多種多樣的背景,雜亂的背景會嚴重干擾目標檢測的結(jié)果。

      2、detr模型首次將cnn與transformer相結(jié)合,將目標檢測視作集合預測問題,實現(xiàn)端到端的目標檢測。通過利用transformer中固有的自注意力機制,detr能夠在圖像中建模全局語境,從而增強其在復雜背景中識別物體的能力。更重要的是,與之前基于cnn的兩階段目標檢測框架相比,detr的端到端訓練范式摒棄了諸如錨框和nms等手工設(shè)計的組件,簡化了檢測過程,并可能減少這訓練策略引入的誤差。

      3、盡管detr具有新穎的設(shè)計,但由于detr模型需要對整個圖像進行編碼和解碼,因此計算復雜度較高,而且對查詢的定義不清淅,這些導致detr模型在收斂速度上相對較慢,具體而言,首先detr需要長時間的訓練才能達到收斂,訓練輪次高達500輪,其次,由于detr中的原始注意力機制中對于特征圖上所有像素幾乎擁有統(tǒng)一的權(quán)重,每個query需與所有位置的key進行計算,產(chǎn)生許多無效計算,增加模型計算復雜度。

      4、為了加快模型的收斂速度和提高性能。作為detr的變體,deformable?detr(可變形detr)提出多尺度的可變形注意力,可以處理四個不同尺度的特征,每個query,僅在局部位置中采樣key,value也是部分位置的value,只關(guān)注參考點周圍的一小部分關(guān)鍵采樣點,大大提高了收斂速度。deformable?detr在小目標的檢測性能方面取得了較大的突破,但由于deformable?detr中每個查詢都負責一個相對較大的區(qū)域不可避免地會導致多個查詢之間的內(nèi)部沖突,給模型帶來了模糊的空間先驗。近幾年學者們開始對查詢的設(shè)計改進,dabdetr(動態(tài)錨框detr)重新定義detr中的object?query(對象查詢),使用4維的anchorbox(錨框),將object?queries定義中加入寬高來進行尺寸調(diào)制,除此之外還引入動態(tài)查詢設(shè)計,object?queries會逐層進行更新。

      5、盡管detr在遙感目標檢測中展現(xiàn)出了巨大的潛力,但它也面臨一些挑戰(zhàn)。detr系列變體不適用在背景雜亂,目標密集的遙感圖像中,因為detr變體不考慮查詢設(shè)定,對所有的輸入樣本都用同一組初始化查詢,針對不同的輸入查詢是單一不變的,所以detr模型在處理遙感圖像時性能會下降,尤其對小目標和重疊目標檢測效果不佳。


      技術(shù)實現(xiàn)思路

      1、發(fā)明目的:本發(fā)明目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于動態(tài)自適應查詢的遙感目標檢測方法,基于detr及其變體進行改進,解決其查詢內(nèi)容單一,以及無法自適應輸入的問題。

      2、本發(fā)明另一方面在于,提供一種基于動態(tài)自適應查詢的遙感目標檢測系統(tǒng)。

      3、為了達到上述目的,本發(fā)明首先提供基于動態(tài)自適應查詢的遙感目標檢測方法,包括如下步驟:

      4、s1、獲取目標檢測數(shù)據(jù)集,并對目標檢測數(shù)據(jù)集進行預處理;

      5、s2、構(gòu)建由resnet50卷積神經(jīng)網(wǎng)絡(luò)與transformer自注意力機制組合而成的初始網(wǎng)絡(luò)結(jié)構(gòu);同時采用動態(tài)態(tài)自適應位置查詢代替原有位置查詢;

      6、s3、利用預處理后的目標檢測數(shù)據(jù)集對初始網(wǎng)絡(luò)結(jié)構(gòu)進行訓練,獲得訓練完成的目標檢測網(wǎng)絡(luò)模型;

      7、s4、利用目標檢測網(wǎng)絡(luò)模型識別遙感圖像中目標。

      8、本發(fā)明進一步優(yōu)選地技術(shù)方案為,步驟s1中獲取的目標檢測數(shù)據(jù)集,包括coco數(shù)據(jù)集和rsod遙感數(shù)據(jù)集。

      9、作為優(yōu)選,步驟s1所述對目標檢測數(shù)據(jù)集進行預處理,具體步驟為:

      10、s11、將目標檢測數(shù)據(jù)集中的圖像尺寸調(diào)整為1024×1024;

      11、s12、圖像首先經(jīng)過特征提取網(wǎng)絡(luò)得到多尺度圖像特征,再對多尺度圖像特征進行變換,形成特征金字塔網(wǎng)絡(luò);

      12、s13、將變換后的多尺度特征和相應的位置編碼一起經(jīng)過編碼器得到編碼器加強過的特征。

      13、作為優(yōu)選,步驟s2所述構(gòu)建由resnet50卷積神經(jīng)網(wǎng)絡(luò)與transformer自注意力機制組合而成的初始網(wǎng)絡(luò)結(jié)構(gòu);同時采用動態(tài)自適應位置查詢代替原有位置查詢;具體方法為:

      14、該網(wǎng)絡(luò)結(jié)構(gòu)包括特征提取網(wǎng)絡(luò)、transformer編碼器和解碼器,以及動態(tài)自適應權(quán)重生成模塊;

      15、s21、選擇resnet50作為特征提取網(wǎng)絡(luò),取特征金字塔網(wǎng)絡(luò)的最上層的特征作為動態(tài)自適應權(quán)重生成模塊的輸入,得到一組動態(tài)權(quán)重;初始化一組查詢,將這組查詢與動態(tài)自適應權(quán)重生成模塊得到的動態(tài)權(quán)重進行線性組合得到動態(tài)自適應位置查詢;

      16、s22、將編碼器特征和動態(tài)自適應查詢送入解碼器進行注意力操作;最后,解碼器通過堆疊多個注意力操作后再經(jīng)過分類頭與回歸頭得到預測集合。

      17、作為優(yōu)選,通過動態(tài)自適應權(quán)重生成模塊得到動態(tài)權(quán)重,具體方法為:

      18、s211、使用全局自適應平均池化層得到全局特征,再通過兩個全連接層和relu激活函數(shù)得到一組未歸一化的權(quán)重,對生成的權(quán)重應用softmax函數(shù),將輸入值映射為0-1之間的概率實數(shù),并通過溫度系數(shù)進行縮放,得到每組相應的權(quán)重值;權(quán)重生成方法為:

      19、

      20、其中f"為模塊中第二層fc層的輸出,τ為設(shè)置的溫度系數(shù)。f-為表示這組權(quán)重中的第j個元素的原始權(quán)重值。k是一個特定的索引,用于從這組權(quán)重中選擇一個特定的元素進行softmax計算,j為是一個遍歷這組權(quán)重中所有元素的索引,用于計算softmax函數(shù)的歸一化因子。

      21、作為優(yōu)選,獲得動態(tài)自適應位置查詢的具體方法為:

      22、s212、首先,重新定義object?query,object?query為一組預先定義的向量,每個object?query都代表一個目標類別和位置的描述,在初始化的時候設(shè)置n組可學習的隨機的向量;

      23、s213、將輸入到解碼器第一層的初始位置查詢定義為:

      24、

      25、其中qk代表初始化的一組隨機向量,ωk代表一組權(quán)重,這組權(quán)重為動態(tài)自適應權(quán)重生成模塊根據(jù)輸入得到的動態(tài)權(quán)重,由此將原有位置查詢變成動態(tài)自適應位置查詢。

      26、作為優(yōu)選,步驟s3所述利用預處理后的目標檢測數(shù)據(jù)集對初始網(wǎng)絡(luò)結(jié)構(gòu)進行訓練,獲得訓練完成的目標檢測網(wǎng)絡(luò)模型;具體方法為:

      27、s31、使用coco數(shù)據(jù)集的訓練集在rtx?4090上對模型訓練50輪次,查詢數(shù)量設(shè)置為300個,模型在coco數(shù)據(jù)集訓練結(jié)束后會生成相應的權(quán)重文件,將在coco數(shù)據(jù)集訓練過的模型作為預訓練模型;

      28、s32、導入訓練好的權(quán)重的預訓練模型,根據(jù)rsod遙感數(shù)據(jù)集的訓練集再次進行訓練,微調(diào)模型的參數(shù),獲得訓練完成的目標檢測網(wǎng)絡(luò)模型;

      29、s33、采用coco數(shù)據(jù)集和rsod遙感數(shù)據(jù)集的驗證集驗證所述目標檢測網(wǎng)絡(luò)模型。

      30、作為優(yōu)選,步驟s3中所述目標檢測網(wǎng)絡(luò)模型訓練中設(shè)置的超參數(shù)為:

      31、設(shè)置輸入圖像的尺寸大小為1024×1024,coco數(shù)據(jù)集中檢測對象的類別為80,rsod遙感數(shù)據(jù)集中檢測對象的類別為4,batch?size設(shè)置為2;該模型共訓練了50個epoch,在第40個epoch,學習率下降到0.1;初始學習率為0.0001,權(quán)重衰減為0.0001,查詢個數(shù)設(shè)置為300個。

      32、本發(fā)明再一方面提供一種基于動態(tài)自適應查詢的遙感目標檢測系統(tǒng),包括:

      33、數(shù)據(jù)預處理模塊,用于獲取目標檢測數(shù)據(jù)集,并對目標檢測數(shù)據(jù)集進行預處理;

      34、模型構(gòu)建模塊,用于構(gòu)建由resnet50卷積神經(jīng)網(wǎng)絡(luò)與transformer自注意力機制組合而成的初始網(wǎng)絡(luò)結(jié)構(gòu),采用動態(tài)自適應位置查詢代替原有位置查詢;

      35、模型訓練模塊,用于設(shè)置模型參數(shù),利用預處理后的目標檢測數(shù)據(jù)集對初始網(wǎng)絡(luò)結(jié)構(gòu)進行訓練,獲得訓練完成的目標檢測網(wǎng)絡(luò)模型;

      36、目標檢測模塊,用于利用目標檢測網(wǎng)絡(luò)模型識別遙感圖像中目標。

      37、優(yōu)選地,所述模型訓練模塊在設(shè)置模型參數(shù)時,根據(jù)實際使用的硬件設(shè)備,以及預期要達到的檢測結(jié)果配置合適的模型參數(shù),包括批次大小、優(yōu)化器、學習率、訓練輪數(shù)、調(diào)整學習率的訓練輪數(shù)和特征提取網(wǎng)絡(luò);

      38、所述目標檢測模塊對于待檢測的圖像,利用訓練好的目標檢測網(wǎng)絡(luò)模型及相應的權(quán)重文件,對待檢測的圖像進行檢測得到目標檢測結(jié)果,并比較檢測結(jié)果與推理fps是否達到預期。

      39、有益效果:(1)本發(fā)明基本框架使用的dab-deformable-detr網(wǎng)絡(luò)結(jié)構(gòu),并重新定義detr中的object?query,使用動態(tài)自適應位置查詢代替原有的位置查詢。使用動態(tài)自適應查詢可以提供更好的位置先驗,使得detr系列模型對不同圖像能夠動態(tài)調(diào)整位置查詢,模型在預測目標位置時更加精確,能夠更準確地捕捉目標的邊界。圖像中的細節(jié)更加敏感,能夠捕捉到更多的細微差別,能夠針對復雜背景下的遙感圖像做出更準確的預測。本方法不僅提高目標檢測精度,同時還能提升模型收斂速度。

      40、(2)本發(fā)明針對查詢內(nèi)容固定單一的問題,設(shè)計了一個動態(tài)自適應權(quán)重生成模塊,根據(jù)輸入動態(tài)調(diào)整權(quán)重,從全局角度考慮上下文信息進行適應各種目標,為模型訓練迭代提供更準確的位置先驗。

      41、(3)本發(fā)明采用動態(tài)自適應查詢,根據(jù)輸入圖像特征自適應動態(tài)調(diào)整查詢,使得每個查詢負責的區(qū)域更適應圖像,預測框更貼合目標。尤其是對背景復雜的遙感圖像,本發(fā)明提出的方法能夠更好的識別密集或者有重疊的目標實例,實現(xiàn)更精確的查詢優(yōu)化。此外,本發(fā)明提出的方法可以很容易集成到其他現(xiàn)有的detr變體中,進一步提高遙感圖像目標的檢測性能。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1