一種基于Transformer的RGB-T視覺(jué)多模態(tài)特征提取方法

文檔序號(hào)：39617684發(fā)布日期：2024-10-11 13:31閱讀：41來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于Transformer的RGB-T視覺(jué)多模態(tài)特征提取方法

本發(fā)明屬于rgb-t(可見(jiàn)光-紅外)目標(biāo)跟蹤領(lǐng)域，特別涉及多模態(tài)圖像的特征提取與融合。

背景技術(shù)：

1、隨著熱紅外成像技術(shù)的不斷發(fā)展，基于可見(jiàn)光和紅外圖像融合的rgb-t目標(biāo)跟蹤領(lǐng)域正日益成為計(jì)算機(jī)視覺(jué)研究的焦點(diǎn)。這一方向的重要性在于其對(duì)單模態(tài)跟蹤中常見(jiàn)問(wèn)題的有效解決，例如光照變化、雨霧干擾等。在自動(dòng)駕駛、智能安防和機(jī)器人等領(lǐng)域，rgb-t目標(biāo)跟蹤已經(jīng)取得了顯著進(jìn)展，為實(shí)際應(yīng)用提供了強(qiáng)大的支持。

2、在復(fù)雜環(huán)境條件下，如低光照、惡劣天氣和部分遮擋等情況下，傳統(tǒng)的rgb目標(biāo)跟蹤技術(shù)往往無(wú)法令人滿意，導(dǎo)致跟蹤算法性能下降，甚至失效。相對(duì)于rgb圖像，熱紅外圖像具有對(duì)光照變化不敏感的特點(diǎn)，尤其在光照昏暗和惡劣天氣等條件下表現(xiàn)出色。然而，它也存在局限性，如缺失物體的細(xì)節(jié)信息，導(dǎo)致熱交叉現(xiàn)象。rgb-t目標(biāo)跟蹤致力于克服這些問(wèn)題，更好地利用兩種模態(tài)圖像的互補(bǔ)信息，提高跟蹤的準(zhǔn)確性和魯棒性。

3、目前，主流的基于深度學(xué)習(xí)的rgb-t跟蹤框架主要分為基于多域網(wǎng)絡(luò)(multi-domain?network,mdnet)的目標(biāo)跟蹤算法和基于孿生網(wǎng)絡(luò)(siamese?network)的目標(biāo)跟蹤算法。近幾年，隨著transformer模型在各種計(jì)算機(jī)視覺(jué)任務(wù)中的優(yōu)異表現(xiàn)，基于transformer的rgb-t目標(biāo)跟蹤算法也成為新的主流方法。這些算法通過(guò)引入自注意力機(jī)制和交互學(xué)習(xí)，有效地提升了特征提取和融合的能力。

4、然而，現(xiàn)有的研究中，rgb和紅外圖像的多模態(tài)特征融合常常存在不足。主要表現(xiàn)在以下幾個(gè)方面：

5、特征提取獨(dú)立性強(qiáng)：現(xiàn)有方法通常在單獨(dú)的特征提取模塊中分別處理rgb和紅外圖像，這種獨(dú)立處理方式未能充分考慮兩種模態(tài)之間的關(guān)聯(lián)性和互補(bǔ)性，導(dǎo)致特征融合效果有限。

6、融合策略簡(jiǎn)單：多模態(tài)特征融合策略通常較為簡(jiǎn)單，例如直接拼接或加權(quán)平均，忽略了rgb和紅外圖像在信息內(nèi)容和分布上的差異，未能充分利用不同模態(tài)的互補(bǔ)信息。這種簡(jiǎn)單的融合方法無(wú)法有效挖掘和利用多模態(tài)特征的潛在關(guān)聯(lián)，導(dǎo)致跟蹤性能的提升受限。

7、交互學(xué)習(xí)不足：許多現(xiàn)有方法缺乏有效的交互學(xué)習(xí)機(jī)制，無(wú)法動(dòng)態(tài)調(diào)整和優(yōu)化多模態(tài)特征的融合過(guò)程。rgb和紅外圖像在不同環(huán)境和場(chǎng)景下具有不同的顯著性特征，交互學(xué)習(xí)機(jī)制不足使得跟蹤算法難以自適應(yīng)地調(diào)整特征權(quán)重，導(dǎo)致融合結(jié)果的不穩(wěn)定性。

8、層次特征融合不充分：現(xiàn)有方法多集中于單一層次的特征融合，忽視了低級(jí)特征和高級(jí)特征在不同模態(tài)下的互補(bǔ)作用。低級(jí)特征(如邊緣、角點(diǎn))對(duì)于精確定位目標(biāo)位置至關(guān)重要，而高級(jí)特征(如語(yǔ)義信息)則有助于區(qū)分目標(biāo)與背景。未能充分融合不同層次的特征信息，限制了跟蹤算法的整體性能。

技術(shù)實(shí)現(xiàn)思路

1、為了克服上述現(xiàn)有技術(shù)的缺點(diǎn)，本發(fā)明的目的在于提供一種基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，采用基于transformer的多模態(tài)特征提取和融合技術(shù)，通過(guò)自注意力機(jī)制和交互學(xué)習(xí)，能夠更好地捕捉和利用rgb和紅外圖像的互補(bǔ)信息，有效融合rgb和紅外圖像的多模態(tài)特征，實(shí)現(xiàn)對(duì)多模態(tài)特征的深層次融合，解決現(xiàn)有技術(shù)中多模態(tài)信息提取不足和多模態(tài)特征融合不充分的問(wèn)題，提高rgb-t目標(biāo)跟蹤的準(zhǔn)確性和魯棒性。

2、為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案是：

3、一種基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，包括如下步驟：

4、步驟1，以rgb-tir圖像對(duì)為輸入，各圖像均劃分為搜索區(qū)域和模板區(qū)域，分別提取rgb圖像的特征和tir圖像的特征，得到rgb特征向量和tir特征向量，并處理使其形狀相同；

5、步驟2，以步驟1處理后的特征向量為輸入，融合模板區(qū)域特征和搜索區(qū)域特征，分別得到rgb圖像和tir圖像的初始視覺(jué)提示向量；

6、步驟3，以步驟1處理后的特征向量以及步驟2所得初始視覺(jué)提示向量為輸入，利用特征權(quán)重分配模塊交互學(xué)習(xí)融合rgb特征和tir特征，得到具有交互融合信息的加權(quán)特征。

7、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

8、本發(fā)明采用獨(dú)立的特征提取模塊分別處理rgb和tir圖像，通過(guò)重構(gòu)的resnet網(wǎng)絡(luò)捕捉rgb和tir圖像在不同場(chǎng)景下的表征，充分利用rgb圖像的紋理細(xì)節(jié)和tir圖像的溫度信息，提升了特征提取的準(zhǔn)確性和魯棒性。

9、本發(fā)明通過(guò)多層疊加的特征權(quán)重分配模塊，提取更深層次的交互信息，增強(qiáng)特征的融合效果，使得最終提取的多模態(tài)特征具有更高的語(yǔ)義信息和魯棒性。

10、本發(fā)明在每層輸出的特征與前一層進(jìn)行殘差連接，提高了網(wǎng)絡(luò)的訓(xùn)練效率和穩(wěn)定性，避免了深度網(wǎng)絡(luò)中的梯度消失問(wèn)題，確保了特征融合的穩(wěn)定性和有效性。

11、本發(fā)明能夠通過(guò)特征權(quán)重分配，學(xué)習(xí)到不同場(chǎng)景下rgb和紅外圖像的權(quán)重大小，例如再在光照充足、白天等環(huán)境良好的情況下，rgb提供的顏色、輪廓等信息更加充足，在此場(chǎng)景下rgb圖像應(yīng)該擁有更大的權(quán)重。在夜晚、雨雪等惡劣天氣下，紅外圖像能夠根據(jù)溫度提供更多的信息，此時(shí)紅外圖像應(yīng)該占據(jù)更大的權(quán)重。

技術(shù)特征：

1.一種基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，其特征在于，包括如下步驟：

2.根據(jù)權(quán)利要求1所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，其特征在于，所述步驟1，利用rgb特征提取模塊提取rgb圖像的特征得到rgb特征向量，利用tir特征提取模塊提取tir圖像的特征得到tir特征向量；所述rgb特征提取模塊，通過(guò)刪除resnet50網(wǎng)絡(luò)的最大池化層、線性轉(zhuǎn)換層和最后一個(gè)sequential層得到；所述tir特征提取模塊，使用resnet50的前六層網(wǎng)絡(luò)，并將原有的3*3卷積核替換為5*5。

3.根據(jù)權(quán)利要求1所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，其特征在于，所述步驟1，將所述rgb特征向量和tir特征向量通過(guò)不同的通道卷積和形狀變換映射使其形狀相同。

4.根據(jù)權(quán)利要求1所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，其特征在于，所述步驟2，將步驟1處理后的rgb特征向量和tir特征向量進(jìn)行投影，分別得到rgb注意力和tir注意力然后進(jìn)行矩陣相乘以聚合特征，生成rgb圖像的初始視覺(jué)提示向量和紅外圖像的初始視覺(jué)提示向量其中，為rgb圖像的模板區(qū)域特征，為rgb圖像的搜索區(qū)域特征，為tir圖像的模板區(qū)域特征，為tir圖像的搜索區(qū)域特征，其中，vr0代表rgb特征的查詢向量、鍵向量和值向量，vt0代表tir特征的查詢向量、鍵向量和值向量。

5.根據(jù)權(quán)利要求4所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，其特征在于，所述rgb圖像的初始視覺(jué)提示向量和紅外圖像的初始視覺(jué)提示向量的計(jì)算式如下：

6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，其特征在于，所述特征權(quán)重分配模塊包括n層級(jí)聯(lián)殘差連接的transformer編碼器，第i層transformer編碼器的輸出為：

7.根據(jù)權(quán)利要求6所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，其特征在于，所述特征權(quán)重分配模塊共有m個(gè)，級(jí)聯(lián)殘差連接，第j個(gè)特征權(quán)重分配模塊的輸出如下：

8.根據(jù)權(quán)利要求7所述基于transformer的rgb-t視覺(jué)多模態(tài)特征提取方法，其特征在于，所述m＝6。

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于Transformer的RGB?T視覺(jué)多模態(tài)特征提取方法，主要解決現(xiàn)有技術(shù)在RGB?T目標(biāo)跟蹤領(lǐng)域存在的多模態(tài)信息提取不足、多模態(tài)特征融合不充分的問(wèn)題。方案包括：以RGB?TIR圖像對(duì)為輸入，分別提取RGB圖像的特征和TIR圖像的特征，得到RGB特征向量和TIR特征向量，并處理使其形狀相同；以處理后的特征向量為輸入，融合模板區(qū)域特征和搜索區(qū)域特征，分別得到RGB圖像和TIR圖像的初始視覺(jué)提示向量；利用特征權(quán)重分配模塊交互學(xué)習(xí)融合RGB特征和TIR特征，得到具有交互融合信息的加權(quán)特征，本發(fā)明能夠有效提取可見(jiàn)光和紅外圖像的多模態(tài)信息，可用于RGB?T目標(biāo)跟蹤領(lǐng)域。

技術(shù)研發(fā)人員：宋建鋒,任國(guó)棟,苗啟廣,權(quán)義寧,趙佩佩,張晨陽(yáng)
受保護(hù)的技術(shù)使用者：西安電子科技大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宋建鋒,任國(guó)棟,苗啟廣,權(quán)義寧,趙佩佩,張晨陽(yáng)
技術(shù)所有人：西安電子科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

圖像特征提取相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于Transformer的RGB-T視覺(jué)多模態(tài)特征提取方法