国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于輕量級網(wǎng)絡(luò)的多目標跟蹤方法

      文檔序號:40007055發(fā)布日期:2024-11-19 13:36閱讀:9來源:國知局
      一種基于輕量級網(wǎng)絡(luò)的多目標跟蹤方法

      本發(fā)明涉及計算機視覺領(lǐng)域,尤其是從降低模型復雜度角度提出一種基于輕量級網(wǎng)絡(luò)的多目標跟蹤方法。


      背景技術(shù):

      1、在人工智能的發(fā)展過程中,計算機視覺已經(jīng)成為了一個相當重要的分支,尤其是圖像識別與分類技術(shù)。計算機視覺圖像識別任務(wù)是指利用計算機算法來識別和分類圖像中的物體、場景、人臉等。單目標跟蹤具體的意思是根據(jù)一段輸入的視頻序列,對其中某一個需要關(guān)注的目標實現(xiàn)關(guān)聯(lián)。多目標跟蹤作為目標檢測的一種拓展性任務(wù),廣泛應用于智能安防、智慧交通和自動駕駛。本發(fā)明也聚焦于多目標跟蹤任務(wù)上做探索和研究。

      2、與單目標跟蹤相比,多目標跟蹤面臨著更多挑戰(zhàn)。一方面,由于目標數(shù)量的多樣性,算法需要具備檢測新目標和終止舊目標的能力。另一方面,不同目標之間可能發(fā)生遮擋、重疊,目標本身也可能出現(xiàn)形變、光照變化等,這些都給目標關(guān)聯(lián)帶來了極大困難。此外,復雜動態(tài)背景中的干擾噪聲,也是多目標跟蹤需要應對的一大挑戰(zhàn)。

      3、傳統(tǒng)的多目標跟蹤算法多采用"檢測-關(guān)聯(lián)"兩階段策略。首先利用檢測器如yolo、faster?r-cnn等在每一幀提取目標候選框,得到目標外觀和運動特征。然后使用數(shù)據(jù)關(guān)聯(lián)技術(shù)如匈牙利算法、聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波等,將當前幀檢測結(jié)果與上一幀的跟蹤軌跡進行匹配,實現(xiàn)身份傳遞。這種分步方法簡單直觀,但由于檢測和關(guān)聯(lián)相對獨立,難以很好地傳遞上下文信息,容易導致錯誤累積,影響整體性能。

      4、近年來,基于端到端框架的多目標跟蹤方法取得了長足進步,其中基于transformer的方法成為研究熱點。transformer借助自注意力機制,能夠充分挖掘輸入數(shù)據(jù)的長程依賴關(guān)系,很好地解決了目標遮擋、重疊的難題。同時,將檢測和跟蹤統(tǒng)一建模為序列到序列的過程,檢測目標和跟蹤對象通過查詢對齊自動綁定,使整個過程簡潔高效。

      5、典型的基于transformer的方法,通常將檢測目標作為解碼器的目標查詢,將已有目標的跟蹤作為軌跡查詢,利用編碼器對視頻幀建模,解碼器對兩類查詢進行解碼并輸出預測結(jié)果。但transformer模型本身的巨大計算量和參數(shù)量,也成為了這些方法推廣的瓶頸,限制了它們的實用性和推廣能力。

      6、除了上述計算復雜度的挑戰(zhàn),多目標跟蹤領(lǐng)域還面臨著其他一些值得關(guān)注的難題和研究方向。比如如何充分利用多模態(tài)信息(圖像、語音、文本等)來提高跟蹤的魯棒性;如何結(jié)合先驗知識,提升對復雜場景和不確定因素的適應能力;如何設(shè)計更加高效的數(shù)據(jù)關(guān)聯(lián)策略,降低目標切換和身份漂移的風險;如何將跟蹤系統(tǒng)部署到邊緣設(shè)備,滿足實時性和低功耗需求等。這些問題的解決,將極大推動多目標跟蹤技術(shù)的發(fā)展和實際應用落地。

      7、總的來說,多目標跟蹤作為計算機視覺的核心基礎(chǔ)問題,不僅在學術(shù)界受到廣泛關(guān)注,同時也與現(xiàn)實生活的諸多領(lǐng)域密切相關(guān),在安防監(jiān)控、智能交通、機器人導航、增強現(xiàn)實等方面都有重要應用價值。隨著算力的快速提升和深度學習技術(shù)的發(fā)展,相信多目標跟蹤一定能在未來取得越來越多創(chuàng)新性的突破,為人工智能賦予更強的感知理解能力。因此,如何在保持性能的前提下,降低模型復雜度、實現(xiàn)高效輕量化,是當前這一領(lǐng)域急需解決的重要問題。


      技術(shù)實現(xiàn)思路

      1、由于目前的一些基于transformer的多目標跟蹤方法所造成的巨大的參數(shù)量和浮點運算次數(shù),導致模型的訓練需要花費大量的時間和計算資源。實際應用中也很難部署到邊緣設(shè)備中。因此,本發(fā)明提出了一種基于輕量級網(wǎng)絡(luò)的多目標跟蹤方法在保持原有精度的情況下,大大降低了模型的浮點運算次數(shù)和參數(shù)量。首先,將視頻逐幀輸入到cnn網(wǎng)絡(luò)中提取多尺度特征。其次利用評分網(wǎng)絡(luò)對特征進行篩選后輸入到編碼器中,最后在解碼器中同時解碼目標查詢和軌跡查詢,預測對應的邊框和類別,形成該幀的所有檢測和跟蹤結(jié)果。

      2、本發(fā)明是通過以下技術(shù)方案來實現(xiàn)的:

      3、一種基于輕量級網(wǎng)絡(luò)的多目標跟蹤方法,包括以下步驟:

      4、步驟一:將cnn提取的多尺度特征通過經(jīng)過可學習的評分網(wǎng)絡(luò)篩選前百分之ρ的特征輸入編碼器中。

      5、步驟二:在編碼器輸出特征之后,篩選出k個目標對象查詢;同時初始化100個跟蹤對象查詢一同輸入到解碼器中。

      6、步驟三:每個查詢通過多層感知機進行處理,輸入到解碼器中以預測對應的邊框和類別,形成該幀的所有檢測和跟蹤結(jié)果。同時生成解碼器交叉注意力映射圖。

      7、步驟四:新檢測出的目標將初始化新的跟蹤對象查詢,每一幀的跟蹤對象查詢會傳遞到下一幀,攜帶目標的空間和身份信息,從而完成跟蹤過程。

      8、步驟一中,我們有一個評分網(wǎng)絡(luò)g,用于測量特征圖xfeat中每個特征的顯著性。我們?yōu)槟切┰u分屬于前百分之ρ的特征定義一個顯著區(qū)域,對于給定的ρ,顯著區(qū)域的大小由以下公式算出。編碼器中每層特征更新方式表示如下

      9、

      10、

      11、如果當前j不在顯著區(qū)域ω中,直接保留上一層的特征不變;如果在顯著區(qū)域中則更新為。其中defattn指的是可變形注意力,ln指的是層歸一化,而ffn指的是前饋網(wǎng)絡(luò)。

      12、步驟二中,我們在編碼器輸出的尾端添加了一個輔助檢測頭,目的是計算編碼器每個輸出特征的目標性類別得分,以反映每個特征是否包含目標信息。根據(jù)這些類別得分,我們對編碼器的所有輸出進行排序,并選擇得分最高的前k個特征。同時我們在這些選中的特征上應用匈牙利損失來加快編碼器的收斂,提高了檢測性能。最終,這些前k個編碼器特征直接作為解碼器模塊的目標查詢輸入。n是預測目標數(shù)量,表示第i個預測與真實目標的最優(yōu)匹配,是代價之和。

      13、

      14、步驟三中,為了確定編碼器?xfeat?的每個特征的顯著性,我們需要聚合所有對象查詢和編碼器輸出之間的解碼器交叉注意力。該過程產(chǎn)生一個與主干特征圖相同大小的單一映射,被定義為解碼器交叉注意力圖。在密集注意力的情況下,解碼器交叉注意力圖可以通過對每個解碼器層的注意力圖求和來輕松獲得。在可變形注意力的情況下,對于每個編碼器標記,解碼器交叉注意力圖的相應值可以通過累積解碼器對象查詢的注意力權(quán)重來獲得,這些權(quán)重的注意力偏移指向編碼器輸出標記。由于在可變形注意力中計算的注意力偏移是一個分數(shù)位置,可變形注意力使用雙線性插值來獲取值。因此,我們也使用雙線性插值來獲取解碼器交叉注意力圖。假設(shè)解碼器對象查詢?q?的注意力偏移、權(quán)重和參考點分別為p、a?和?r。那么,可變形注意力的取值為

      15、

      16、其中v表示的是鍵值,x?枚舉了特征圖中的所有整數(shù)空間位置,是雙線性插值核函數(shù),定義為如下。

      17、

      18、我們將x位置的dam值累加表示如下:

      19、

      20、同時為了訓練評分網(wǎng)絡(luò),我們將解碼器交叉注意力權(quán)重進行二值化,以便僅保留編碼器特征的前百分之ρ的部分。這是因為我們的目標是找到解碼器最常引用的一小部分編碼器特征,而不是精確地預測解碼器將引用每個編碼器特征的程度。這個二值化的解碼器交叉注意力圖暗示了一個獨熱目標,指示每個編碼器特征是否包含在前百分之ρ里最常被引用的編碼器tokens中。并且網(wǎng)絡(luò)通過最小化二元交叉熵損失來進行訓練,該損失是二值化的解碼器交叉注意力權(quán)重和預測之間的損失。其中n是特征圖中的特征總數(shù),是第i個特征的評分,是第i個特征的解碼器交叉注意力權(quán)重二值化值(0或1),bce是二元交叉熵損失。

      21、

      22、步驟四中,對于不是第一幀的后續(xù)幀而言,編碼器輸入的查詢不僅有每幀初始化用于檢測的目標查詢,還有上一幀已經(jīng)成功檢測到的軌跡查詢。在經(jīng)過解碼器解碼之后,軌跡查詢查到的目標如果成功檢測到了,那就賦予同一個標簽,沒檢測到則表示目標消失,那些目標查詢檢測成功的則作為新目標。接著,這些新舊目標的解碼器輸出一起作為下一幀的軌跡查詢。這樣,以一種相對優(yōu)雅的方式完成了數(shù)據(jù)關(guān)聯(lián)以致整個跟蹤任務(wù)。

      23、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

      24、本發(fā)明提出了一種基于輕量級網(wǎng)絡(luò)的多目標跟蹤方法,在保持原有精度的情況下,大大降低了模型的浮點運算次數(shù)和參數(shù)量。一方面,通過評分網(wǎng)絡(luò)來篩選部分特征,大大降低了transformer的計算量;另一方面通過選擇性地更新編碼器特征,可以在不降低性能的情況下減少計算成本。通過驗證,本發(fā)明所提供的一種基于輕量級網(wǎng)絡(luò)的多目標跟蹤方法可以大大降低模型的浮點運算次數(shù)以及參數(shù)量,同時保證了跟蹤的精度。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1