本發(fā)明屬于rgb-t(可見(jiàn)光-紅外)目標(biāo)跟蹤領(lǐng)域,特別涉及多模態(tài)圖像的特征提取與融合。
背景技術(shù):
1、隨著熱紅外成像技術(shù)的不斷發(fā)展,基于可見(jiàn)光和紅外圖像融合的rgb-t目標(biāo)跟蹤領(lǐng)域正日益成為計(jì)算機(jī)視覺(jué)研究的焦點(diǎn)。這一方向的重要性在于其對(duì)單模態(tài)跟蹤中常見(jiàn)問(wèn)題的有效解決,例如光照變化、雨霧干擾等。在自動(dòng)駕駛、智能安防和機(jī)器人等領(lǐng)域,rgb-t目標(biāo)跟蹤已經(jīng)取得了顯著進(jìn)展,為實(shí)際應(yīng)用提供了強(qiáng)大的支持。
2、在復(fù)雜環(huán)境條件下,如低光照、惡劣天氣和部分遮擋等情況下,傳統(tǒng)的rgb目標(biāo)跟蹤技術(shù)往往無(wú)法令人滿意,導(dǎo)致跟蹤算法性能下降,甚至失效。相對(duì)于rgb圖像,熱紅外圖像具有對(duì)光照變化不敏感的特點(diǎn),尤其在光照昏暗和惡劣天氣等條件下表現(xiàn)出色。然而,它也存在局限性,如缺失物體的細(xì)節(jié)信息,導(dǎo)致熱交叉現(xiàn)象。rgb-t目標(biāo)跟蹤致力于克服這些問(wèn)題,更好地利用兩種模態(tài)圖像的互補(bǔ)信息,提高跟蹤的準(zhǔn)確性和魯棒性。
3、目前,主流的基于深度學(xué)習(xí)的rgb-t跟蹤框架主要分為基于多域網(wǎng)絡(luò)(multi-domain?network,mdnet)的目標(biāo)跟蹤算法和基于孿生網(wǎng)絡(luò)(siamese?network)的目標(biāo)跟蹤算法。近幾年,隨著transformer模型在各種計(jì)算機(jī)視覺(jué)任務(wù)中的優(yōu)異表現(xiàn),基于transformer的rgb-t目標(biāo)跟蹤算法也成為新的主流方法。這些算法通過(guò)引入自注意力機(jī)制和交互學(xué)習(xí),有效地提升了特征提取和融合的能力。
4、然而,現(xiàn)有的研究中,rgb和紅外圖像的多模態(tài)特征融合常常存在不足。主要表現(xiàn)在以下幾個(gè)方面:
5、特征提取獨(dú)立性強(qiáng):現(xiàn)有方法通常在單獨(dú)的特征提取模塊中分別處理rgb和紅外圖像,這種獨(dú)立處理方式未能充分考慮兩種模態(tài)之間的關(guān)聯(lián)性和互補(bǔ)性,導(dǎo)致特征融合效果有限。
6、融合策略簡(jiǎn)單:多模態(tài)特征融合策略通常較為簡(jiǎn)單,例如直接拼接或加權(quán)平均,忽略了rgb和紅外圖像在信息內(nèi)容和分布上的差異,未能充分利用不同模態(tài)的互補(bǔ)信息。這種簡(jiǎn)單的融合方法無(wú)法有效挖掘和利用多模態(tài)特征的潛在關(guān)聯(lián),導(dǎo)致跟蹤性能的提升受限。
7、交互學(xué)習(xí)不足:許多現(xiàn)有方法缺乏有效的交互學(xué)習(xí)機(jī)制,無(wú)法動(dòng)態(tài)調(diào)整和優(yōu)化多模態(tài)特征的融合過(guò)程。rgb和紅外圖像在不同環(huán)境和場(chǎng)景下具有不同的顯著性特征,交互學(xué)習(xí)機(jī)制不足使得跟蹤算法難以自適應(yīng)地調(diào)整特征權(quán)重,導(dǎo)致融合結(jié)果的不穩(wěn)定性。
8、層次特征融合不充分:現(xiàn)有方法多集中于單一層次的特征融合,忽視了低級(jí)特征和高級(jí)特征在不同模態(tài)下的互補(bǔ)作用。低級(jí)特征(如邊緣、角點(diǎn))對(duì)于精確定位目標(biāo)位置至關(guān)重要,而高級(jí)特征(如語(yǔ)義信息)則有助于區(qū)分目標(biāo)與背景。未能充分融合不同層次的特征信息,限制了跟蹤算法的整體性能。
技術(shù)實(shí)現(xiàn)思路
1、為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,采用基于transformer的多模態(tài)特征提取和融合技術(shù),通過(guò)自注意力機(jī)制和交互學(xué)習(xí),能夠更好地捕捉和利用rgb和紅外圖像的互補(bǔ)信息,有效融合rgb和紅外圖像的多模態(tài)特征,實(shí)現(xiàn)對(duì)多模態(tài)特征的深層次融合,解決現(xiàn)有技術(shù)中多模態(tài)信息提取不足和多模態(tài)特征融合不充分的問(wèn)題,提高rgb-t目標(biāo)跟蹤的準(zhǔn)確性和魯棒性。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
3、一種基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,包括如下步驟:
4、步驟1,以rgb-tir圖像對(duì)為輸入,各圖像均劃分為搜索區(qū)域和模板區(qū)域,分別提取rgb圖像的特征和tir圖像的特征,得到rgb特征向量和tir特征向量,并處理使其形狀相同;
5、步驟2,以步驟1處理后的特征向量為輸入,融合模板區(qū)域特征和搜索區(qū)域特征,分別得到rgb圖像和tir圖像的初始視覺(jué)提示向量;
6、步驟3,以步驟1處理后的特征向量以及步驟2所得初始視覺(jué)提示向量為輸入,利用特征權(quán)重分配模塊交互學(xué)習(xí)融合rgb特征和tir特征,得到具有交互融合信息的加權(quán)特征。
7、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
8、本發(fā)明采用獨(dú)立的特征提取模塊分別處理rgb和tir圖像,通過(guò)重構(gòu)的resnet網(wǎng)絡(luò)捕捉rgb和tir圖像在不同場(chǎng)景下的表征,充分利用rgb圖像的紋理細(xì)節(jié)和tir圖像的溫度信息,提升了特征提取的準(zhǔn)確性和魯棒性。
9、本發(fā)明通過(guò)多層疊加的特征權(quán)重分配模塊,提取更深層次的交互信息,增強(qiáng)特征的融合效果,使得最終提取的多模態(tài)特征具有更高的語(yǔ)義信息和魯棒性。
10、本發(fā)明在每層輸出的特征與前一層進(jìn)行殘差連接,提高了網(wǎng)絡(luò)的訓(xùn)練效率和穩(wěn)定性,避免了深度網(wǎng)絡(luò)中的梯度消失問(wèn)題,確保了特征融合的穩(wěn)定性和有效性。
11、本發(fā)明能夠通過(guò)特征權(quán)重分配,學(xué)習(xí)到不同場(chǎng)景下rgb和紅外圖像的權(quán)重大小,例如再在光照充足、白天等環(huán)境良好的情況下,rgb提供的顏色、輪廓等信息更加充足,在此場(chǎng)景下rgb圖像應(yīng)該擁有更大的權(quán)重。在夜晚、雨雪等惡劣天氣下,紅外圖像能夠根據(jù)溫度提供更多的信息,此時(shí)紅外圖像應(yīng)該占據(jù)更大的權(quán)重。
1.一種基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,其特征在于,所述步驟1,利用rgb特征提取模塊提取rgb圖像的特征得到rgb特征向量,利用tir特征提取模塊提取tir圖像的特征得到tir特征向量;所述rgb特征提取模塊,通過(guò)刪除resnet50網(wǎng)絡(luò)的最大池化層、線性轉(zhuǎn)換層和最后一個(gè)sequential層得到;所述tir特征提取模塊,使用resnet50的前六層網(wǎng)絡(luò),并將原有的3*3卷積核替換為5*5。
3.根據(jù)權(quán)利要求1所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,其特征在于,所述步驟1,將所述rgb特征向量和tir特征向量通過(guò)不同的通道卷積和形狀變換映射使其形狀相同。
4.根據(jù)權(quán)利要求1所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,其特征在于,所述步驟2,將步驟1處理后的rgb特征向量和tir特征向量進(jìn)行投影,分別得到rgb注意力和tir注意力然后進(jìn)行矩陣相乘以聚合特征,生成rgb圖像的初始視覺(jué)提示向量和紅外圖像的初始視覺(jué)提示向量其中,為rgb圖像的模板區(qū)域特征,為rgb圖像的搜索區(qū)域特征,為tir圖像的模板區(qū)域特征,為tir圖像的搜索區(qū)域特征,其中,vr0代表rgb特征的查詢向量、鍵向量和值向量,vt0代表tir特征的查詢向量、鍵向量和值向量。
5.根據(jù)權(quán)利要求4所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,其特征在于,所述rgb圖像的初始視覺(jué)提示向量和紅外圖像的初始視覺(jué)提示向量的計(jì)算式如下:
6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,其特征在于,所述特征權(quán)重分配模塊包括n層級(jí)聯(lián)殘差連接的transformer編碼器,第i層transformer編碼器的輸出為:
7.根據(jù)權(quán)利要求6所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,其特征在于,所述特征權(quán)重分配模塊共有m個(gè),級(jí)聯(lián)殘差連接,第j個(gè)特征權(quán)重分配模塊的輸出如下:
8.根據(jù)權(quán)利要求7所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法,其特征在于,所述m=6。