本發(fā)明涉及圖像融合,具體為一種紅外與可見(jiàn)光圖像融合網(wǎng)絡(luò)系統(tǒng)及其應(yīng)用方法。
背景技術(shù):
1、圖像融合技術(shù)通過(guò)將多源圖像的信息綜合起來(lái),生成一幅新的圖像,這種方法在多個(gè)領(lǐng)域展現(xiàn)出了其獨(dú)特的價(jià)值。圖像融合任務(wù)一般包括紅外與可見(jiàn)光圖像融合、醫(yī)學(xué)圖像融合、多曝光圖像融合和多聚焦圖像融合。多模態(tài)圖像融合一般分為特征提取、特征融合和特征重構(gòu)。生成的融合圖像不僅信息量更大、細(xì)節(jié)更豐富,而且具有更強(qiáng)的魯棒性,它能夠提供更全面的場(chǎng)景描述,從而為后續(xù)的圖像處理和分析任務(wù)打下堅(jiān)實(shí)的基礎(chǔ)。這種技術(shù)特別適用于高級(jí)視覺(jué)系統(tǒng),如軍事偵察、目標(biāo)識(shí)別、目標(biāo)追蹤和語(yǔ)義分割等。它不僅能有效減少數(shù)據(jù)的重復(fù)性,還能顯著提升數(shù)據(jù)處理的效率和準(zhǔn)確性。因此,圖像融合在現(xiàn)代視覺(jué)任務(wù)的預(yù)處理階段扮演著至關(guān)重要的角色,為各種應(yīng)用提供了強(qiáng)有力的支持,推動(dòng)了相關(guān)技術(shù)的發(fā)展和決策的優(yōu)化。
2、紅外與可見(jiàn)光圖像融合是圖像處理領(lǐng)域的一個(gè)重要課題,在軍事和安全領(lǐng)域有著廣泛的應(yīng)用。因?yàn)榧t外圖像和可見(jiàn)光圖像的實(shí)用性,現(xiàn)有的圖像融合方法大致可以分為兩類(lèi),即傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的圖像融合方法主要集中在對(duì)原始圖像的特征提取上。傳統(tǒng)的圖像融合方法還包括基于稀疏表示的方法、基于子空間的方法、基于顯著性的方法和基于全變分的方法。傳統(tǒng)方法雖然經(jīng)過(guò)較長(zhǎng)的發(fā)展周期也能獲得較好的融合效果,但存在諸多缺陷。由于傳統(tǒng)方法的不足,研究人員開(kāi)發(fā)了基于深度學(xué)習(xí)的新融合方法,以解決傳統(tǒng)圖像融合方法的一些固有問(wèn)題?;谏疃葘W(xué)習(xí)的融合方法大致可以分為三類(lèi):基于卷積神經(jīng)網(wǎng)絡(luò)(cnn)的方法,基于自動(dòng)編碼器(ae)的方法和基于生成對(duì)抗網(wǎng)絡(luò)(gan)的方法。
3、現(xiàn)有的深度學(xué)習(xí)模型基本上都是以cnn或者gan網(wǎng)絡(luò)為基礎(chǔ)來(lái)構(gòu)建的,基于深度學(xué)習(xí)的圖像融合方法在特征提取階段使用cnn進(jìn)行特定操作。由于cnn的感受野很小,很難對(duì)圖像的長(zhǎng)程依賴(lài)性進(jìn)行建模。感受野的限制直接影響融合圖像的質(zhì)量,因此我們需要對(duì)全局依賴(lài)性進(jìn)行建模。2023年,chen等人提出了一種結(jié)合cnn和vision?transformer的端到端圖像融合方法來(lái)解決上述問(wèn)題。上述方法在保留cnn提取局部特征優(yōu)點(diǎn)的同時(shí),提高了圖像的全局依賴(lài)性,以獲得更好的融合圖像。
4、為了提升紅外與可見(jiàn)光圖像融合的效果,應(yīng)用空間和通道注意力機(jī)制能夠通過(guò)分配不同的權(quán)重放大圖像中的有用信息并抑制有害信息的干擾通過(guò)為不同區(qū)域和特征通道分配差異化的權(quán)重,并顯著提升模型捕獲長(zhǎng)距離依賴(lài)信息的能力。通過(guò)該方法可以?xún)?yōu)化融合過(guò)程,從而生成具有豐富細(xì)節(jié)和高度一致性的融合圖像。senet是一種通過(guò)引入squeeze-and-excitation模塊來(lái)提升卷積神經(jīng)網(wǎng)絡(luò)性能的模型,"squeeze"(壓縮)和"excitation"(激勵(lì))——來(lái)實(shí)現(xiàn)對(duì)通道級(jí)特征的顯式建模和自適應(yīng)校準(zhǔn)。"squeeze"操作通過(guò)全局平均池化將每個(gè)通道的信息壓縮成一個(gè)單一的數(shù)值,而"excitation"操作則利用這個(gè)壓縮后的信息來(lái)計(jì)算每個(gè)通道的權(quán)重,從而對(duì)特征圖進(jìn)行重標(biāo)定,強(qiáng)化有用的特征并抑制無(wú)關(guān)的特征。cbam(convolutional?block?attention?module)是一種用于增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)特征表示能力的注意力機(jī)制。cbam的設(shè)計(jì)靈感來(lái)源于senet的se塊,但cbam進(jìn)一步擴(kuò)展了這種注意力機(jī)制,使其能夠更細(xì)致地捕捉空間和通道兩個(gè)維度上的特征關(guān)系。
5、現(xiàn)有技術(shù)的客觀(guān)缺點(diǎn):
6、1)傳統(tǒng)的圖像融合技術(shù)受限于人工特征提取的局限性,難以適應(yīng)復(fù)雜的圖像融合需求。這種方法在處理簡(jiǎn)單場(chǎng)景時(shí)尚可,但在多變環(huán)境和復(fù)雜場(chǎng)景中,其性能提升受限,無(wú)法有效捕捉圖像中的細(xì)微特征,從而影響融合效果。
7、2)在紅外與可見(jiàn)光圖像融合任務(wù)中,關(guān)鍵步驟是從這兩種圖像中提取關(guān)鍵特征,如紋理和邊緣。然而,現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)在提取這些特征時(shí)存在局限性,它們往往難以捕捉到圖像中的細(xì)微細(xì)節(jié),同時(shí)容易受到熱輻射等干擾因素的影響,這會(huì)降低最終融合圖像的質(zhì)量。為了提高融合效果,需要進(jìn)一步研究和開(kāi)發(fā)能夠更有效地整合不同尺度的紋理特征,并減少無(wú)關(guān)信息干擾的融合技術(shù)。
8、3)在圖像融合領(lǐng)域,cnn及其變體由于其強(qiáng)大的特征提取能力和泛化能力而得到廣泛應(yīng)用。不僅如此,其網(wǎng)絡(luò)結(jié)構(gòu)成熟,相應(yīng)的計(jì)算設(shè)備可以加速其計(jì)算。但cnn也有自己的缺陷。cnn摧毀遠(yuǎn)程圖像的相關(guān)性和固有的小感受野不能有效地提取全局信息,進(jìn)而影響圖像融合的結(jié)果。遺憾的是,幾乎所有現(xiàn)有的圖像融合框架都使用cnn網(wǎng)絡(luò)作為特征提取器,而沒(méi)有在圖像中建立長(zhǎng)相關(guān)性。
9、因此需要對(duì)以上問(wèn)題提出一種新的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種紅外與可見(jiàn)光圖像融合網(wǎng)絡(luò)系統(tǒng)及其應(yīng)用方法,通過(guò)結(jié)合空間和通道注意力機(jī)制以及多尺度特征提取技術(shù),專(zhuān)門(mén)用于處理紅外與可見(jiàn)光圖像的融合任務(wù),且該網(wǎng)絡(luò)的設(shè)計(jì)核心在于通過(guò)精細(xì)的特征整合,提升融合圖像的質(zhì)量,同時(shí)保持操作的高效性,以解決背景技術(shù)中提出的技術(shù)問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種紅外與可見(jiàn)光圖像融合網(wǎng)絡(luò)系統(tǒng),至少包括輸入部分、逐像素?fù)p失模塊、特征提取模塊、空間通道協(xié)作注意力模塊、圖像重建模塊和感知損失函數(shù);
3、所述輸入部分用于將紅外圖像和可見(jiàn)光圖像進(jìn)行輸入;
4、所述逐像素?fù)p失模塊用于計(jì)算重建圖像與真實(shí)圖像每個(gè)像素點(diǎn)之間的差異,用于評(píng)估圖像質(zhì)量;
5、所述特征提取模塊用于將輸入的紅外圖像和可見(jiàn)光圖像進(jìn)行拼接融合,進(jìn)而增強(qiáng)對(duì)圖像中關(guān)鍵特征的識(shí)別和整合,生成具有豐富細(xì)節(jié)和顯著對(duì)象信息的高質(zhì)量融合圖像;
6、所述空間通道協(xié)作注意力模塊結(jié)合了空間注意力和通道注意力的優(yōu)勢(shì),捕獲空間和通道維度中的特征相互依賴(lài)性,用于對(duì)輸入特征的全面重構(gòu),為后續(xù)處理步驟提供了綜合的特征表示;
7、所述圖像重建模塊用于將處理后的信息融合或還原成最終圖像,將不同來(lái)源或?qū)哟蔚男畔⒄铣梢粋€(gè)清晰且完整的圖像;
8、所述感知損失函數(shù)基于vgg19網(wǎng)絡(luò),所述感知損失函數(shù)為用于評(píng)估圖像感知質(zhì)量的損失函數(shù)。
9、進(jìn)一步地,所述特征提取模塊采用雙分支策略,所述雙分支策略包括第一分支和第二分支;
10、所述第一個(gè)分支中搭載有結(jié)合了藍(lán)圖分離卷積與多尺度卷積結(jié)構(gòu)的多尺度可分離卷積模塊,所述多尺度可分離卷積模塊用于通過(guò)多尺度卷積增強(qiáng)特征圖的表征能力和圖像分辨率,并有效提取圖像的多尺度特征;
11、所述第二個(gè)分支則包括由四個(gè)可變形卷積層通過(guò)密集連接構(gòu)成的模塊,所述第二個(gè)分支中的模塊用于專(zhuān)門(mén)提取融合圖像中的顯著對(duì)象特征,所述第二個(gè)分支中引入了密集連接技術(shù),確保每一層可變形卷積的輸出都能累積地貢獻(xiàn)給后續(xù)層,實(shí)現(xiàn)網(wǎng)絡(luò)中的高效信息流動(dòng)和特征整合。
12、進(jìn)一步地,所述多尺度可分離卷積模塊采用三種不同尺寸的卷積核,所述多尺度可分離卷積模塊通過(guò)conv2d層執(zhí)行深度可分離卷積。
13、進(jìn)一步地,所述空間通道協(xié)作注意力模塊的總體架構(gòu)包括第一分支、第二分支和第三個(gè)分支;
14、所述第一分支為頂部分支,所述第一分支為處理圖像的水平空間維度w,即為高度分支;
15、所述第二分支為中間分支,所述第二分支為處理垂直空間維度h,即為寬度分支;
16、所述第三分支為底部分支,所述第三分支注于特征的通道維度交互,即為通道分支;
17、所述頂部分支和中間分支用于捕獲空間維度中的特征相互依賴(lài)性,所述底部分支用于捕獲通道間的交互。
18、一種紅外與可見(jiàn)光圖像融合網(wǎng)絡(luò)系統(tǒng)的應(yīng)用方法,至少包括以下步驟:
19、s1:通過(guò)輸入部分向特征提取塊輸出紅外圖像和可見(jiàn)光圖像;
20、s2:在特征提取塊中將輸入的紅外圖像和可見(jiàn)光圖像進(jìn)行拼接融合,經(jīng)過(guò)多尺度可分離卷積模塊和四個(gè)可變形卷積層通過(guò)密集連接構(gòu)成的模塊,通過(guò)多尺度特征提取技術(shù)使得網(wǎng)絡(luò)能夠同時(shí)捕獲圖像的局部細(xì)節(jié)和全局上下文;
21、s3:將融合圖像輸入到的空間通道協(xié)作注意力模塊做細(xì)化處理,進(jìn)一步增強(qiáng)對(duì)圖像中關(guān)鍵特征的識(shí)別和整合;
22、s4:利用每像素?fù)p失和感知損失來(lái)確保在融合過(guò)程中圖像的重要視覺(jué)信息得以保留。
23、進(jìn)一步地,所述特征提取塊的應(yīng)用至少包括以下步驟:
24、將第一個(gè)分支集成了四個(gè)多尺度可分離卷積和1×1卷積,即為多尺度可分離卷積塊,并在第二個(gè)分支中設(shè)置四個(gè)可變形卷積層通過(guò)密集連接構(gòu)成的模塊;
25、通過(guò)在第二個(gè)分支中引入了密集連接技術(shù);
26、使得兩個(gè)分支的操作同時(shí)進(jìn)行;
27、最終,通過(guò)在通道維度上應(yīng)用concat操作,將兩個(gè)分支得到的特征圖進(jìn)行拼接,以獲得更為精細(xì)的特征表示。
28、進(jìn)一步地,所述多尺度可分離卷積模塊的應(yīng)用至少包括以下步驟:
29、首先利用mssconv對(duì)輸入特征圖進(jìn)行深度卷積,通過(guò)不同尺寸的卷積核來(lái)捕獲不同尺度的空間特征;
30、然后,通過(guò)串聯(lián)多次應(yīng)用mssconv的結(jié)果以及原始輸入特征圖,實(shí)現(xiàn)了特征圖的多尺度和多深度層次的融合;
31、接著,特征圖通過(guò)一個(gè)1x1卷積層進(jìn)一步處理,以調(diào)整通道數(shù)并整合信息;
32、最終,為網(wǎng)絡(luò)的下一層提供了更加豐富和具有區(qū)分性的特征表示。
33、進(jìn)一步地,所述空間通道協(xié)作注意力模塊的應(yīng)用至少包括以下步驟:
34、首先,輸入數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)后,通過(guò)一些初步的卷積層處理,這些層負(fù)責(zé)提取圖像的初步特征;
35、接著,網(wǎng)絡(luò)采用殘差連接來(lái)幫助梯度在深層網(wǎng)絡(luò)中傳播,防止訓(xùn)練過(guò)程中的梯度消失或爆炸問(wèn)題;
36、通過(guò)高度分支,確保了數(shù)據(jù)在模型中的流動(dòng)性和適應(yīng)性,還為模型提供了靈活性,使其能夠針對(duì)特定的視覺(jué)任務(wù)優(yōu)化特征提取過(guò)程;
37、通過(guò)寬度分支,操作流程與空間分支類(lèi)似,但將排列操作將寬度放到前面,后面只注重對(duì)特征寬度的變換和提??;
38、通過(guò)所述通道分支調(diào)整和融合不同尺度的特征;
39、最終,采用空間通道協(xié)作注意力模塊將高度分支、寬度分支和寬度分支得到的特征進(jìn)行融合;
40、如果啟用了空間交互,則通道交互的結(jié)果將與空間維度上提取的特征相結(jié)合,通過(guò)加權(quán)平均的方式進(jìn)行融合;
41、如果不啟用空間交互,則只對(duì)高度和寬度上的特征進(jìn)行平均融合;
42、這樣,空間通道協(xié)作注意力模塊能夠輸出一個(gè)綜合了空間和通道維度信息的全面特征表示,為后續(xù)的網(wǎng)絡(luò)層提供了豐富的特征圖。
43、進(jìn)一步地,所述通過(guò)高度分支,確保了數(shù)據(jù)在模型中的流動(dòng)性和適應(yīng)性,還為模型提供了靈活性,使其能夠針對(duì)特定的視覺(jué)任務(wù)優(yōu)化特征提取過(guò)程至少包括以下步驟:
44、輸入數(shù)據(jù)首先進(jìn)入模型,經(jīng)歷初步的特征提取階段;
45、接著,通過(guò)殘差連接來(lái)幫助網(wǎng)絡(luò)在深層訓(xùn)練中維持有效的梯度流動(dòng);
46、在這個(gè)階段,數(shù)據(jù)經(jīng)過(guò)排列操作(permute),以調(diào)整特征映射的維度順序,使之適應(yīng)后續(xù)操作的要求,隨后,對(duì)特征進(jìn)行池化操作,所述池化操作包括平均池化和標(biāo)準(zhǔn)差池化,用于提取特征的統(tǒng)計(jì)信息,增強(qiáng)特征的表達(dá)能力,并且有助于減少過(guò)擬合;
47、緊接著,進(jìn)行層歸一化操作,以穩(wěn)定學(xué)習(xí)過(guò)程并提高模型的泛化性能;
48、在特征提取的核心部分,模型使用尺寸為k的卷積核來(lái)捕捉圖像的特征,用于在高度方向上進(jìn)一步細(xì)化特征提??;
49、這里的k可能代表不同的數(shù)值,由使用者自行設(shè)定;
50、在完成卷積操作后,特征映射再次經(jīng)過(guò)排列操作,并與第一個(gè)排列操作得到值進(jìn)行相乘操作進(jìn)行特征的整合;
51、最終,特征映射再次經(jīng)過(guò)排列操作,以準(zhǔn)備進(jìn)行最終的輸出或進(jìn)一步的處理;
52、整個(gè)高度分支的流程是一個(gè)逐步提取和整合高度方向上特征的過(guò)程,多次排列操作在模型中發(fā)揮著關(guān)鍵作用,它們?cè)试S模型動(dòng)態(tài)調(diào)整數(shù)據(jù)的維度順序,以適應(yīng)不同層的處理需求。
53、進(jìn)一步地,所述通過(guò)所述通道分支調(diào)整和融合不同尺度的特征至少包括以下步驟:
54、將通道分支分為第一個(gè)分支和第二個(gè)分支;
55、所述通道分支的第一個(gè)分支與高度分支和寬度分支類(lèi)似,只是少了一個(gè)排列操作,這個(gè)分支注重對(duì)特征通道上的變換和提?。?/p>
56、為了增強(qiáng)通道特征的表達(dá),所述通道分支的第二個(gè)分支利用多尺度交叉注意力來(lái)提取通道特征;
57、通過(guò)不同尺寸的卷積核和相應(yīng)的填充來(lái)捕獲多尺度的特征;
58、多尺度交叉注意力首先應(yīng)用深度卷積層,然后通過(guò)多個(gè)獨(dú)立卷積核進(jìn)一步細(xì)化特征;
59、最終通過(guò)卷積核大小為1的卷積層進(jìn)行通道混合,以調(diào)整和融合不同尺度的特征。
60、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
61、本發(fā)明優(yōu)先通過(guò)構(gòu)建特征提取塊,在特征提取塊中設(shè)置結(jié)合多尺度可分離卷積模塊和可變形卷積,從而提高對(duì)融合后的特征圖中環(huán)境信息以及突出信息的提取;
62、然后,通過(guò)引入空間通道協(xié)作注意力模塊,對(duì)特征圖的通道信息和空間信息進(jìn)行細(xì)化的同時(shí),讓通道信息與空間信息進(jìn)行交互來(lái)聚合更多的信息,提高對(duì)特征圖的信息捕獲能力;
63、且通過(guò)實(shí)驗(yàn)結(jié)果表明,所提出的方法在msrs數(shù)據(jù)集上的表現(xiàn)優(yōu)于最先進(jìn)的方法,突出了未來(lái)潛在研究方向,以提升融合圖像的精度,同時(shí)促進(jìn)高級(jí)視覺(jué)任務(wù)的發(fā)展。