本發(fā)明涉及視覺目標(biāo)跟蹤,尤其涉及一種基于稀疏transformer的視覺目標(biāo)跟蹤方法。
背景技術(shù):
1、視覺目標(biāo)跟蹤是計算機視覺領(lǐng)域的一個重要研究內(nèi)容,目的是在視頻序列中連續(xù)捕獲目標(biāo)對象的位置,并在目標(biāo)對象發(fā)生遮擋、變形等挑戰(zhàn)情況下仍然能夠準(zhǔn)確跟蹤目標(biāo)。隨著科技的發(fā)展,視覺目標(biāo)跟蹤技術(shù)在視頻監(jiān)控、智能交通、軍事制導(dǎo)等領(lǐng)域有著廣泛的應(yīng)用。
2、目前,單目標(biāo)跟蹤領(lǐng)域的主流算法可以分為基于分類和回歸的跟蹤以及基于角點預(yù)測的跟蹤兩大類。chen等人使用基于分類和回歸的跟蹤算法進行目標(biāo)跟蹤,設(shè)計分類頭來定位目標(biāo),預(yù)測目標(biāo)的前景和背景,設(shè)計回歸頭估計目標(biāo)的尺度,每個頭部網(wǎng)絡(luò)都需要一個或多個損失函數(shù),這增加了跟蹤框架的復(fù)雜性。yan等人使用基于角點預(yù)測的跟蹤算法進行目標(biāo)跟蹤,設(shè)計頭部網(wǎng)絡(luò),實現(xiàn)對目標(biāo)對象的邊界框角點的預(yù)測,同樣,這些頭部網(wǎng)絡(luò)的設(shè)計也需要大量的損失函數(shù),使得超參數(shù)的數(shù)量增加,進而導(dǎo)致訓(xùn)練的難度增加。
3、transformer模型最初是用于自然語言處理任務(wù),特別是機器翻譯。通過引入注意力機制,取代了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),提高了處理速度和翻譯質(zhì)量。隨著transformer模型在自然語言處理中的成功,研究人員開始探索其在計算機視覺領(lǐng)域的應(yīng)用。目前已經(jīng)成功引入到目標(biāo)跟蹤中。transformer中的多頭注意力機制能夠讓模型更加靈活和高效地處理復(fù)雜的依賴關(guān)系和全局信息,提升生成序列的質(zhì)量。但在處理包含大量背景信息或其他復(fù)雜場景時,其全局關(guān)注能力會導(dǎo)致重要信息(如搜索區(qū)域內(nèi)的目標(biāo))的權(quán)重被稀釋,分配不必要的注意力給背景信息,從而降低跟蹤性能。
4、現(xiàn)有的單目標(biāo)跟蹤算法通常存在下述三方面問題:
5、1)需要設(shè)計定制化的頭部網(wǎng)絡(luò),增加框架的復(fù)雜性。
6、2)多個損失函數(shù)的引入需要調(diào)整更多的超參數(shù),增加模型調(diào)優(yōu)的難度和不確定性。
7、3)多頭注意力機制在處理復(fù)雜場景時,其全局關(guān)注能力降低模型對關(guān)鍵信息的關(guān)注。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于稀疏transformer的視覺目標(biāo)跟蹤方法;本方法將目標(biāo)跟蹤問題轉(zhuǎn)化為序列生成問題,首先使用了一種簡單的基于transformer的編碼器-解碼器架構(gòu),消除了額外的頭網(wǎng)絡(luò),簡化了跟蹤架構(gòu);其次,將稀疏注意力機制加入到解碼器中,使模型更多的關(guān)注關(guān)鍵信息,提高前景和背景之間的區(qū)分度;實驗表明,面向具有嚴(yán)重遮擋、光照和尺度變化、目標(biāo)突變運動等挑戰(zhàn)性的標(biāo)準(zhǔn)跟蹤數(shù)據(jù)集,提出算法能完成復(fù)雜場景下的跟蹤任務(wù);
2、一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,包括以下步驟:
3、步驟1:構(gòu)造網(wǎng)絡(luò)模型;
4、所述網(wǎng)絡(luò)模型包括線性投影層、視覺嵌入層、編碼器、解碼器,所述線性投影層將圖像補丁映射到視覺嵌入層;所述視覺嵌入層將添加位置信息后的視覺嵌入輸入到編碼器;所述編碼器提取視覺特征;所述解碼器生成目標(biāo)的邊界框值;
5、所述編碼器包括多頭自注意層以及word?to?embedding層,所述多頭自注意層用于對搜索圖像和模板圖像中的視覺特征進行聯(lián)合提??;所述word?to?embedding層用于將離散的坐標(biāo)轉(zhuǎn)換為連續(xù)的詞嵌入;
6、所述解碼器包括掩碼多頭注意層、稀疏多頭注意層、前饋神經(jīng)網(wǎng)絡(luò)層以及embedding?to?word層;所述掩碼多頭注意層限制每個序列元素的輸出只依賴于先前的元素;所述稀疏多頭注意層用于掩碼多頭注意的輸出與編碼器的輸出結(jié)合,使模型更關(guān)注重要信息;所述前饋神經(jīng)網(wǎng)絡(luò)層為下一個解碼器塊生成嵌入。embedding?to?word層,用于將解碼器的輸出轉(zhuǎn)換回離散的坐標(biāo),以生成最終的預(yù)測結(jié)果。
7、步驟2:構(gòu)造稀疏注意力機制,將所述稀疏注意力機制融入網(wǎng)絡(luò)模型中的解碼器中;
8、步驟2.1:將查詢與鍵進行矩陣乘法操作,得到注意力矩陣;
9、步驟2.2:將注意力矩陣除以縮放因子進行縮放;所述縮放因子為鍵的維度;
10、步驟2.3:對縮放后的注意力矩陣每行中前k個最大的元素進行歸一化處理,其它元素全部用0代替;
11、步驟2.4:將歸一化后的矩陣與值矩陣相乘,得到最后的輸出;
12、步驟3:依據(jù)損失函數(shù),使生成的目標(biāo)序列與實際目標(biāo)序列之間的對數(shù)似然最大化,對網(wǎng)絡(luò)模型進行訓(xùn)練;
13、所述損失函數(shù)如下:
14、
15、其中,p(·)表示softmax的概率,s和t分別表示搜索圖像和模板圖像,j表示當(dāng)前正在生成的令牌在序列中的位置,zj表示當(dāng)前預(yù)測出的目標(biāo)序列,z<j表示j之前的目標(biāo)序列,l表示目標(biāo)序列的長度。
16、步驟3.1:將搜索圖像和模板圖像劃分為圖像塊,然后通過線性投影層將圖像塊轉(zhuǎn)換為視覺嵌入;
17、步驟3.2:在視覺嵌入層中增加位置嵌入以保留目標(biāo)的位置信息;
18、步驟3.3:將添加位置信息后的視覺嵌入輸入到編碼器進行視覺特征提取;
19、所述步驟3.3具體為:通過編碼器的多頭自注意層對搜索圖像和模板圖像中的視覺特征進行聯(lián)合提取,學(xué)習(xí)它們之間的特征對應(yīng)關(guān)系,只將搜索圖像的特征輸入到解碼器。
20、所述編碼器在標(biāo)準(zhǔn)的視覺transformer架構(gòu)基礎(chǔ)上,進行兩處優(yōu)化:
21、(1)刪除了class令牌;
22、(2)在最后一層增加一個線性投影,使編碼器和解碼器的特征維度對齊;
23、步驟3.4:將目標(biāo)邊界框轉(zhuǎn)換為一系列離散的令牌,輸入到word?to?embedding層;
24、步驟3.5:在word?to?embedding層中加入位置嵌入,融合后的嵌入輸入到解碼器的掩碼多頭注意層;
25、步驟3.6:掩碼多頭注意層輸出的詞嵌入與編碼器輸出的視覺特征共同輸入到解碼器的稀疏多頭注意層;
26、步驟3.7:通過embedding?to?word層,將解碼器的輸出轉(zhuǎn)換回離散的坐標(biāo),以生成最終的目標(biāo)邊界坐標(biāo);
27、步驟4:利用訓(xùn)練得到的網(wǎng)絡(luò)模型,對視頻中的目標(biāo)進行跟蹤,獲得跟蹤結(jié)果。
28、采用上述技術(shù)方案所產(chǎn)生的有益效果在于:
29、本發(fā)明提供一種基于稀疏transformer的視覺目標(biāo)跟蹤方法。針對現(xiàn)有跟蹤框架復(fù)雜度高的問題,使用一種簡單的基于transformer的編碼器-解碼器架構(gòu),不需要定制化的頭部網(wǎng)絡(luò),簡化了跟蹤框架。針對現(xiàn)有跟蹤方法中損失函數(shù)的冗余導(dǎo)致需要調(diào)整更多的超參數(shù),增加模型調(diào)優(yōu)的難度和不確定性的問題,僅使用交叉熵?fù)p失最大化生成的目標(biāo)序列與實際目標(biāo)序列之間的對數(shù)似然,而無需其它損失函數(shù)。針對注意力機制在處理復(fù)雜場景時,其全局關(guān)注能力降低模型對關(guān)鍵信息的關(guān)注的問題,引入了稀疏注意力機制,在處理包含大量背景信息或其他復(fù)雜場景時,使模型更加關(guān)注關(guān)鍵信息,提高前景和背景的區(qū)分度。
1.一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述網(wǎng)絡(luò)模型包括線性投影層、視覺嵌入層、編碼器、解碼器,所述線性投影層將圖像補丁映射到視覺嵌入層;所述視覺嵌入層將添加位置信息后的視覺嵌入輸入到編碼器;所述編碼器提取視覺特征;所述解碼器生成目標(biāo)的邊界框值。
3.根據(jù)權(quán)利要求2所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述編碼器包括多頭自注意層以及word?to?embedding層,所述多頭自注意層用于對搜索圖像和模板圖像中的視覺特征進行聯(lián)合提??;所述word?to?embedding層用于將離散的坐標(biāo)轉(zhuǎn)換為連續(xù)的詞嵌入;
4.根據(jù)權(quán)利要求1所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述步驟2具體包括以下步驟:
5.根據(jù)權(quán)利要求1所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,步驟3中所述損失函數(shù)如下:
6.根據(jù)權(quán)利要求1所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述步驟3具體包括以下步驟:
7.根據(jù)權(quán)利要求6所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,所述步驟3.3具體為:通過編碼器的多頭自注意層對搜索圖像和模板圖像中的視覺特征進行聯(lián)合提取,學(xué)習(xí)它們之間的特征對應(yīng)關(guān)系,只將搜索圖像的特征輸入到解碼器。
8.根據(jù)權(quán)利要求6所述的一種基于稀疏transformer的視覺目標(biāo)跟蹤方法,其特征在于,步驟3.3中對所述編碼器在標(biāo)準(zhǔn)的視覺transformer架構(gòu)基礎(chǔ)上,進行兩處優(yōu)化: