本發(fā)明涉及涉及智能識別領域,具體的,涉及基于transformer的無人機跟蹤方法。
背景技術:
1、無人機(uav)目標跟蹤旨在根據(jù)目標的初始狀態(tài),對無人機視頻每一幀判斷目標的位置,其應用于森林防火、災情檢測、危難搜救等。由于無人機的高機動性,無人機目標跟蹤會頻繁面臨極端視角、相似背景干擾和嚴重遮擋等挑戰(zhàn)。此外,無人機負載電池、計算資源有限,對其跟蹤輕量化提出更嚴格的要求。因此,優(yōu)越的無人機跟蹤器必須滿足高效率、高精度兩個要求。
2、目前,無人機目標跟蹤方法主要分為基于相關濾波(cf)的跟蹤器和基于深度卷積神經(jīng)網(wǎng)絡(cnn)的跟蹤器?;谙嚓P濾波器通過將空間域相似性轉換為傅里葉域中元素計算,獲得較高的跟蹤效率。相比之下,基于深度卷積神經(jīng)網(wǎng)絡跟蹤器通過學習目標的語義信息和外觀特征,獲得更高的跟蹤精度,但也需要大量的計算資源。因此,基于判別相關濾波器因其高效跟蹤速率在無人機目標跟蹤領域占主導地位.許多方法在保證跟蹤效率的基礎上,通過抑制背景異常響應信息、夜間光照增強、構建時空正則化和增強空間特征學習等策略提高跟蹤精度。此外,一些基于siamese網(wǎng)絡的輕量級深度卷積神經(jīng)網(wǎng)絡跟蹤器被提出用于uav跟蹤,通過探索增強目標特征學習、挖掘時空信息或修剪秩信息等方法進一步提高siamese網(wǎng)絡無人機跟蹤方法的精度和效率。
3、由于基于siamese網(wǎng)絡的跟蹤器忽略了全局信息,容易導致局部優(yōu)化,基于vit網(wǎng)絡框架被應用于目標跟蹤,并展現(xiàn)出卓越性能。得益于其優(yōu)秀的注意力機制和上下文關系捕捉能力,多種基于?vit?的跟蹤方法被提出,并展現(xiàn)出比基于?cnn?的跟蹤器更出色的性能。然而,由于當前transformer網(wǎng)絡通過將輸入圖像分割成規(guī)則且固定的圖像塊,且對輸入所有圖像塊賦予相同的注意力并進行信息交互,導致跟蹤器學習到的目標表示不具有足夠的判別力,在無人機目標跟蹤場景中容易混淆目標和背景。這說明固定圖像塊的輸入在無人機跟蹤是次優(yōu)的。正如在人的視覺分析跟蹤中,視線會聚焦于目標附近和與目標相似的物體,而并自動忽略其余區(qū)域。
4、對此,本文提出一種聚焦關鍵信息的具有目標感知能力的transformer跟蹤方法(target-aware?uav?transformer?tracker?focusing?on?key?information,tuttfki),簡稱tuttfki。首先,將特征學習和模板搜索集成到一個單流視覺transformer網(wǎng)絡中,進行高效學習推理.這種單流視覺transformer網(wǎng)絡不僅簡化跟蹤過程,同時增強了特征學習和模板搜索在跟蹤過程中的相互作用,使學習到的特征包含更多目標和背景關系信息,更好地捕捉相關性。其次,構建自適應關系建模機制,將搜索區(qū)域的令牌與目標模板令牌進行關系建模并劃分為背景令牌和目標令牌,阻斷標記為背景令牌的推理和學習,使跟蹤器只關注與目標更為相似的區(qū)域,從而加強對重點區(qū)域的關注,并減少背景信息對特征學習的干擾,進一步模型學習的判別能力。最后,構建特征聚合模塊,由于固定的圖像塊輸入方式會導致部分目標特征劃分至背景令牌被終止從而提前丟棄。本技術通過保留每一層網(wǎng)絡的圖像細節(jié),并在最后推理階段逐步從前一層聚合標記的令牌特征,進一步加強跟蹤器學習到的特征表示的判別力,最終通過預測頭輸出目標二維特征圖。通過在uav123、dtb70和uavdark135三個主流無人機數(shù)據(jù)集上進行對比實驗,tuttfki實現(xiàn)了以每秒69.73幀的跟蹤速度取得0.863、0.859和0.746的跟蹤精度。
技術實現(xiàn)思路
1、本發(fā)明提出一種聚焦關鍵信息的目標感知transformer無人機跟蹤方法,解決了現(xiàn)有技術中跟蹤識別精度和速度的問題。
2、本發(fā)明的技術方案如下:一種聚焦關鍵信息的目標感知transformer無人機跟蹤方法,(target-aware?uav?transformer?tracker?focusing?on?key?information,tuttfki),簡稱tuttfki;
3、首先,構建一個集成了特征學習和目標搜索的單流跟蹤框架,提高令牌之間的信息交互;其次,構建一個自適應關系建模機制,對目標模板令牌和搜索區(qū)域令牌進行關系建模并劃分類型標記,提前終止標記為背景的令牌的后續(xù)推理和學習,進而關注重點區(qū)域的關鍵信息;最后,構建一個多層特征聚合模塊,保留目標的細節(jié)特征從而進一步加強特征表示的判別力,最終通過預測頭輸出目標二維特征圖。
4、所述構建一個集成了特征學習和目標搜索的單流跟蹤框架為基于vit的單流跟蹤框架,其步驟為:1、將目標模板設定為,其公式為,將搜索圖像設定為,其公式為:,目標模板圖像以目標對象為中心,搜索圖像代表包含目標的后續(xù)幀中的較大區(qū)域;然后將目標模板和搜索圖像通過補丁嵌入層進行分割并平展成圖像塊序列,然后經(jīng)過可訓練的線性投影層產(chǎn)生個令牌,其公式為其中,是每個令牌的嵌入維數(shù),這些令牌輸入到編碼器中,設為第層的transformer塊,則令牌通過第層transformer解碼器輸出為:,來自最后一個編碼器層的輸出搜索令牌被解耦并重新按照它們的原始空間位置重新形狀為一個二維特征圖。
5、所述圖像塊序列為圖像塊序列,數(shù)量分別為:和。
6、所述每個編碼器層通過一個多頭注意力模塊和一個前饋網(wǎng)絡更新輸入令牌。
7、所述自適應關系建模機制在多層感知器層中分配一個神經(jīng)元來完成關系建模,然后令牌嵌入的關系信息合并到單流主干跟蹤網(wǎng)絡中;所述輸入的令牌分為兩類,分別為目標令牌和背景令牌對層處的令牌,自適應關系建模機制計算其分類概率得分,由下公式定義:。
8、所述是通過transformer的多層感知器層的關系建模操作,是邏輯s型函數(shù),表示在維度的,和是令牌移位和縮放參數(shù),其針對所有令牌參數(shù)跨層共享.通過關系建模操作,每個令牌分類為:其中是一個非常小的常數(shù),且允許,當令牌終止得分超過時,我們就認為該令牌屬于背景令牌,反之則為目標令牌;為避免類別為的背景令牌干擾模型目標特征的學習,自適應關系建模機制會終止類別為的令牌,將對該令牌值清零并阻止其關注其他令牌,并且此后不會對該令牌進行更新。所述令牌關系建模過程中,每個令牌被分配到目標和背景類中,特征聚合模塊記錄了標記為目標的令牌之間的關系;在標記上采樣過程中,根據(jù)令牌的標記,將網(wǎng)絡保存的令牌特征復制到相應的上采樣標記中,特征聚合模塊繼續(xù)將前一層網(wǎng)絡提取的令牌特征添加到上采樣的令牌中;這些目標令牌由變換器塊進行學習處理;通過逐步執(zhí)行該操作,直到所有標記為目標類別令牌都被聚合;通過特征聚合模塊,可以很容易地將各圖像塊的局部特征重塑為跟蹤目標的全局特征圖以進行后續(xù)的目標跟蹤。
9、將二維特征圖作為目標邊界框預測的卷積頭部的輸入,通過一個由多個卷積層-批量歸一化層-激活函數(shù)層組成完全基于卷積網(wǎng)絡的預測頭,直接估計目標的邊界框,產(chǎn)生目標分類得分、局部偏移以及歸一化邊界框大??;目標位置由最高分類分數(shù)確定:;并且通過以下公式估計最終目標邊界框;對于跟蹤任務,引入加權焦點損失進行目標分類,并采用損失和進行邊界框回歸;總損失函數(shù)為:。
10、所述跟蹤方法的算法如下:
11、1)輸入第一幀目標初始化模板和搜索圖像;
12、2)將輸入圖像和目標分割平展成k個圖像塊,通過圖像嵌入操作公式:為每個圖像塊生成令牌嵌入;
13、3)初始化每個令牌的分類;
14、4)通過公式算出每個令牌在層的分類概率;
15、5)對于類別分類為背景的令牌,通過公式,得分超過的令牌賦值為零;
16、6)通過特征聚合模塊將每層標記為目標的令牌特征進行聚合;
17、7)將最后一個編碼器層的輸出解耦并重新按照它們的原始空間位置重新形狀為一個二維特征圖;
18、8)通過預測頭公式:得出目標位置及預測邊界框;
19、9)如果是最后一幀則停止算法;否則重復執(zhí)行步驟3)~8);
20、10)返回跟蹤結果。
21、本發(fā)明的工作原理及有益效果為:1)提出一種集成特征學習和目標搜索的單流無人機跟蹤方法,實現(xiàn)以更快的跟蹤速率進行精準跟蹤;
22、2)基于人的視覺分析,構建了自適應關系建模機制對搜索區(qū)域令牌進行關系建模,將其劃分為目前和背景令牌,對背景令牌進行終止推理,從而聚焦重點區(qū)域的關鍵信息,進一步提高模型提取的特征判別力;
23、3)構建特征聚合模塊,保留每一層網(wǎng)絡的圖像細節(jié),并通過逐步聚合上一層標記的令牌特征,從而進一步加強跟蹤器的特征表示。