一種基于Transformer、Mamba和擴(kuò)散模型的多源遙感圖像語義分割方法

文檔序號：40389472發(fā)布日期：2024-12-20 12:12閱讀：3來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于Transformer、Mamba和擴(kuò)散模型的多源遙感圖像語義分割方法

本發(fā)明涉及一種遙感圖像語義分割方法，特別涉及一種擴(kuò)散模型和mamba以及注意力機(jī)制的遙感圖像方法，屬于電數(shù)字?jǐn)?shù)據(jù)處理、圖形數(shù)據(jù)讀取和圖像數(shù)據(jù)處理。

背景技術(shù)：

1、遙感圖像是指通過航空器、衛(wèi)星或者無人機(jī)等遙感或者高空平臺(tái)獲取的地球表面的圖像數(shù)據(jù)。它們可以提供廣泛的空間和頻率信息，用于研究地球表面的特征、變化和地物分類等應(yīng)用。遙感圖像在地理信息系統(tǒng)、環(huán)境監(jiān)測、城市規(guī)劃和農(nóng)業(yè)監(jiān)測中有著廣泛的應(yīng)用，為研究地表特征、變化和土地覆蓋分類提供了豐富的時(shí)空信息。而遙感圖像語義分割是一種將遙感圖像中的每個(gè)像素分類為不同地物類別的任務(wù)，通過為感興趣的地面物體提供語義和定位信息線索。這種分割在道路提取、城市規(guī)劃和環(huán)境監(jiān)測等應(yīng)用中起著至關(guān)重要的作用。面臨的挑戰(zhàn)包括遙感圖像種類多、空間分布廣、空間相關(guān)性強(qiáng)、背景復(fù)雜和類內(nèi)差異大等。傳統(tǒng)方法依賴于圖像處理和機(jī)器學(xué)習(xí)技術(shù)，通常需要手動(dòng)特征提取和分類器參數(shù)調(diào)優(yōu)，這可能會(huì)限制其有效性，特別是在大規(guī)模高分辨率圖像中的復(fù)雜類別和噪聲背景下。此外，傳統(tǒng)的分割方法難以處理圖像的全局信息、計(jì)算量過大且難以利用更多額外信息。

2、卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中具有重要地位，是一種成熟的特征提取方法。通過多層卷積，能夠從原始像素中提取地物的紋理、形狀和光譜特征，并且能夠有效捕捉像素與其周圍像素的局部位置信息關(guān)系。例如，全卷積網(wǎng)絡(luò)u-net，通過編碼器-解碼器結(jié)構(gòu)設(shè)計(jì)，將輸入圖像逐漸降采樣編碼為低維特征表示，再逐漸上采樣解碼為與輸入圖像大小相同的分割結(jié)果，從而實(shí)現(xiàn)精確分割。另一種算法deeplab則通過空洞卷積結(jié)構(gòu)引入可變的空間膨脹率，擴(kuò)大感受野，捕捉更廣闊的上下文信息。金字塔池化網(wǎng)絡(luò)(pspnet)使用不同尺度的池化操作提取全局上下文信息，并通過金字塔池化模塊融合多尺度特征。盡管卷積神經(jīng)網(wǎng)絡(luò)在語義分割運(yùn)用廣泛，但仍存在一些缺陷。由于局部感受野的限制，當(dāng)圖像的類內(nèi)方差較大時(shí)，卷積神經(jīng)網(wǎng)絡(luò)提取全局上下文和空間關(guān)聯(lián)性信息方面較弱，并且對大范圍物體邊界和細(xì)節(jié)的分割效果不佳。

3、擴(kuò)散模型在生成任務(wù)中占據(jù)了重要地位，是生成高質(zhì)量數(shù)據(jù)的有效方法之一。擴(kuò)散模型利用逐步添加噪聲和去噪的過程，通過預(yù)定義的擴(kuò)散過程將數(shù)據(jù)逐步轉(zhuǎn)化為噪聲，再通過反向擴(kuò)散過程從噪聲中生成數(shù)據(jù)。這種雙向過程能夠捕捉數(shù)據(jù)的復(fù)雜分布特征，從而生成高保真度的樣本。這些擴(kuò)散模型最初廣泛應(yīng)用于圖像生成、音頻合成和文本生成等領(lǐng)域。自2023年初，擴(kuò)散模型在語義分割中的應(yīng)用逐漸成熟，研究者們提出了一些改進(jìn)方法，大多數(shù)側(cè)重于設(shè)計(jì)高效的去噪模型結(jié)構(gòu)，例如變分自編碼器(vae)、生成對抗網(wǎng)絡(luò)(gan)或transformer架構(gòu)。擴(kuò)散模型的成功得益于結(jié)合了這些先進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)，從而顯著提升了其性能。通過雙向的噪聲添加和去噪過程，擴(kuò)散模型能夠有效捕捉數(shù)據(jù)的復(fù)雜分布特征，生成高保真度的圖像樣本。這些模型在圖像分割領(lǐng)域顯示出顯著優(yōu)勢，尤其在醫(yī)學(xué)圖像、自動(dòng)駕駛和遙感圖像等領(lǐng)域的語義分割任務(wù)中得到了廣泛應(yīng)用。盡管擴(kuò)散模型在語義分割領(lǐng)域有一定應(yīng)用空間，但是在處理高維數(shù)據(jù)(如高分辨率圖像)和長程依賴關(guān)系時(shí)仍面臨挑戰(zhàn)，并且應(yīng)用于遙感圖像的擴(kuò)散模型所采用的u型網(wǎng)絡(luò)均基于卷積運(yùn)算，參數(shù)量和計(jì)算量過大。

4、transformer是一種基于注意力機(jī)制的深度學(xué)習(xí)模型，能夠準(zhǔn)確捕捉輸入序列中不同位置的依賴關(guān)系。transformer利用注意力機(jī)制有效地捕捉圖像中像素之間的長距離依賴關(guān)系，從而更好地理解遙感圖像的地理特征和空間結(jié)構(gòu)。注意力機(jī)制通過計(jì)算圖像中所有像素之間的相似性來捕捉全局信息。每個(gè)像素的位置和特征都與其他所有像素的位置和特征進(jìn)行比較，以確定它們之間的依賴關(guān)系。注意力機(jī)制的核心優(yōu)勢在于其適合并行計(jì)算，效率高，同時(shí)能夠捕捉序列中遠(yuǎn)距離元素之間的依賴關(guān)系，克服了卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)在處理長距離依賴關(guān)系上的局限性。注意力機(jī)制被廣泛應(yīng)用于圖像分類、目標(biāo)檢測和語義分割等視覺任務(wù)中，例如視覺transformer(vit)等模型利用注意力機(jī)制在圖像分類和分割任務(wù)中取得了優(yōu)異的性能。交叉注意力機(jī)制用于處理多模態(tài)數(shù)據(jù)，通過一個(gè)模態(tài)的信息來引導(dǎo)和調(diào)整另一個(gè)模態(tài)的信息。然而，純注意力機(jī)制方式可能難以完整捕獲復(fù)雜的空間和背景細(xì)節(jié)信息，尤其是在處理具有復(fù)雜背景和大內(nèi)部差異的遙感圖像時(shí)。此外，由于遙感圖像通常具有高分辨率和大尺寸，使用注意力機(jī)制進(jìn)行語義分割可能需要大量的計(jì)算資源和時(shí)間，因此計(jì)算復(fù)雜性也是需要面對的挑戰(zhàn)。

5、拉普拉斯金字塔的優(yōu)勢在于它能夠在不同尺度上分解圖像，從而保留圖像的局部和全局結(jié)構(gòu)信息。在圖像處理和計(jì)算機(jī)視覺任務(wù)中，拉普拉斯金字塔可以通過多尺度表示有效地分離出圖像的細(xì)節(jié)信息，這對于圖像增強(qiáng)、邊緣檢測和圖像壓縮等應(yīng)用尤為重要。在語義分割任務(wù)中，拉普拉斯金字塔能夠幫助模型更好地捕捉圖像的層次特征，從而提升分割結(jié)果的準(zhǔn)確性。例如，在遙感圖像處理中，利用拉普拉斯金字塔分解后的圖像，可以更精細(xì)地處理建筑物、道路等目標(biāo)的邊緣信息，提高語義分割的精度。然而，拉普拉斯金字塔的多尺度分解也增加了計(jì)算復(fù)雜度。

6、mamba模型是計(jì)算機(jī)視覺領(lǐng)域的先進(jìn)模型系列，專注于視覺狀態(tài)空間建模，旨在提升圖像和視頻分析任務(wù)的性能。mamba模型通過全局感受野和動(dòng)態(tài)加權(quán)，提供了長距離依賴關(guān)系建模能力，相比于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)和transformer，在特定任務(wù)中表現(xiàn)出更高的計(jì)算效率。此外，相比于卷積神經(jīng)網(wǎng)絡(luò)和transformer，mamba模型擅長處理多模態(tài)數(shù)據(jù)，能夠?qū)碜圆煌瑐鞲衅鞯臄?shù)據(jù)融合在一起，從而提升分割效果。具體應(yīng)用方面，視覺mamba(vmamba)在目標(biāo)檢測、圖像去噪、圖像超分辨率等視覺狀態(tài)空間建模任務(wù)中領(lǐng)域表現(xiàn)出卓越性能。mamba模型在全局特征提取和長程依賴關(guān)系建模方面具有一定優(yōu)勢，但在不同任務(wù)和數(shù)據(jù)集上的適應(yīng)性和泛化能力有時(shí)可能較弱。

7、多源數(shù)據(jù)方法的優(yōu)勢在于它能夠綜合利用來自不同傳感器或數(shù)據(jù)源的信息，從而提供更全面和準(zhǔn)確的分析結(jié)果。在遙感圖像語義分割的數(shù)據(jù)中添加深度信息(dsm)，能夠利用多源數(shù)據(jù)減少單一數(shù)據(jù)源中的噪聲和錯(cuò)誤對結(jié)果的影響，增強(qiáng)模型的魯棒性和穩(wěn)定性，并且多源數(shù)據(jù)能夠提供更詳細(xì)的背景和環(huán)境信息，有助于更準(zhǔn)確地進(jìn)行語義分割，提高分割結(jié)果的精度。多源數(shù)據(jù)的方法應(yīng)用廣泛。例如，在醫(yī)學(xué)圖像分析中，結(jié)合計(jì)算機(jī)斷層掃描(ct)、磁共振成像(mri)和超聲波等多種影像技術(shù)，可以提高腫瘤檢測和器官分割的準(zhǔn)確性以及診斷效果。在自動(dòng)駕駛中，使用攝像頭、激光雷達(dá)和雷達(dá)等多源數(shù)據(jù)進(jìn)行道路、行人和車輛的精確分割，能夠增強(qiáng)自動(dòng)駕駛系統(tǒng)的感知能力。然而，使用多源數(shù)據(jù)可能會(huì)導(dǎo)致計(jì)算量增加，因此需要采用更加輕量化的特征提取和融合網(wǎng)絡(luò)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種基于transformer、mamba和擴(kuò)散模型的多源遙感圖像語義分割方法，以解決現(xiàn)有技術(shù)中遙感語義分割方法未能充分利用多源信息的方向性信息、全局信息和局部信息以及多源信息整合困難、計(jì)算量過大的問題，從而提升遙感圖像的語義分割效果。

2、一種基于transformer、mamba和擴(kuò)散模型的多源遙感圖像語義分割方法，包含準(zhǔn)備數(shù)據(jù)集、正向加噪、構(gòu)建網(wǎng)絡(luò)模型、訓(xùn)練網(wǎng)絡(luò)模型、驗(yàn)證網(wǎng)絡(luò)模型和輸出語義分割；構(gòu)建遙感圖像語義分割網(wǎng)絡(luò)模型包括，設(shè)計(jì)基于transformer、mamba的編碼器-解碼器混合架構(gòu)，編碼器由rgb信息分支、深度信息分支和含噪聲語義分割信息分支并行組成，將三個(gè)分支的特征融合之后經(jīng)解碼器得到遙感圖像的語義分割圖；

3、對時(shí)間步長位置編碼進(jìn)行改進(jìn)，結(jié)合高斯位置編碼和三角函數(shù)位置編碼，將時(shí)間步長嵌入模型；

4、構(gòu)建行列池化transformer模塊，使用行列池化transformer模塊中的行列注意力來提取rgb信息、深度信息和含噪聲語義分割信息的垂直和水平方向的細(xì)節(jié)信息及大尺度結(jié)構(gòu)信息，并融合這些方向上的信息；

5、構(gòu)建交叉mamba注意力特征融合模塊，rgb信息分支和深度信息分支同步處理輸入的特征圖，并使用拉普拉斯金字塔生成高分辨率和低分辨率的特征圖；通過多分辨率交叉mamba模塊將同一分辨率的rgb特征和深度特征之間進(jìn)行交叉增強(qiáng)，并合并不同分辨率的特征圖；使用特征加權(quán)掩碼注意力融合模塊進(jìn)行rgb信息分支和深度信息分支之間的特征融合；

6、構(gòu)建多分辨率交叉mamba模塊，通過交叉選擇性掃描mamba模塊對同一分辨率的rgb特征和深度特征進(jìn)行交叉增強(qiáng)；

7、構(gòu)建特征加權(quán)掩碼注意力融合模塊，引入特征加權(quán)掩碼，通過賦予重要的特征信息更高的權(quán)重來加強(qiáng)特征融合的效果；

8、構(gòu)建解碼器模塊，實(shí)現(xiàn)特征的下采樣。

9、時(shí)間步長的嵌入流程包括高斯位置編碼、三角函數(shù)位置編碼、swish激活函數(shù)和2個(gè)線性層：

10、pe＝linear(swish(linear(peg+λpes)))；

11、式中是時(shí)間步長位置編碼，linear(.)表示線性層，swish表示swish激活函數(shù)，peg是高斯位置編碼，pes是三角函數(shù)位置編碼，λ是自定義可變參數(shù)；

12、高斯位置編碼部分：

13、μt,i＝xt+yi+z；σt,i＝at+bi+c；

14、式中，i是這個(gè)序列的第i個(gè)元素，x、y、z、a、b、c均為自適應(yīng)參數(shù)，t是時(shí)間步長t在這個(gè)序列中的具體位置,均值μ表示高斯分布的中心位置；標(biāo)準(zhǔn)差σ表示高斯分布的寬度或擴(kuò)展范圍，其中均值μ和標(biāo)準(zhǔn)差σ為(1,t,dmodel)的矩陣，其中，dmodel是特征圖的嵌入維度，peg是高斯位置編碼；

15、三角函數(shù)位置編碼部分：

16、

17、其中，t是時(shí)間步長t在這個(gè)序列中的具體位置，2i表示偶數(shù)，2i+1表示奇數(shù)，dmodel是數(shù)據(jù)的維度。

18、行列池化transformer模塊包括線性層、均方根層歸一化、行列池化注意力模塊、多層感知機(jī)和跳躍連接；

19、對于x,通過非線性激活函數(shù)和均方根層歸一化嵌入時(shí)間步長位置編碼，通過分別將不同尺度特征行池化和特征列池化進(jìn)行、列注意力運(yùn)算，并在行列池化transformer模塊中加入了快捷連接：

20、a＝rcattention(rms(sqrtswish(x),linear(pe)))；

21、y＝sum(a,mlp(rms(a,linear(pe))))；

22、式中，sqrtswish(x)表示本發(fā)明swish激活函數(shù)，rms(.)表示均方根層歸一化，將時(shí)間步長位置編碼嵌入輸入特征并進(jìn)行均方根層歸一化，rcattention(.)表示行列池化注意力模塊，a是行列池化注意力模塊的輸出特征，mlp(.)表示多層感知機(jī)，sum(.)表示維度相加。

23、均方根層歸一化(rms?norm)取代傳統(tǒng)transformer模塊的層歸一化層，可學(xué)習(xí)的參數(shù)不僅包括通過輸入特征得到的縮放因子σ和偏移量β，還包括通過時(shí)間步長t的嵌入向量來回歸獲得的縮放因子ω和偏移量ξ；這些嵌入向量經(jīng)過非線性激活函數(shù)(swish激活函數(shù))處理，向量通過swish激活函數(shù)對輸入值進(jìn)行加權(quán)，并輸出加權(quán)后的結(jié)果：

24、

25、其中，xi表示輸入特征一個(gè)向量表示，r(x)表示輸入特征的均方根，表示未經(jīng)縮放和偏移的一個(gè)向量表示的均方根，rms(xi,t)i表示經(jīng)過縮放和偏移的均方根，ε是一個(gè)微小的常數(shù)用于數(shù)值穩(wěn)定性，δ和β根據(jù)輸入特征的統(tǒng)計(jì)特征自適應(yīng)地調(diào)整得到的歸一化參數(shù)，ω和ξ是從時(shí)間步長位置編碼中線性回歸得到的縮放因子和偏移量。

26、行列池化注意力模塊中，將注意力機(jī)制分為兩個(gè)部分：輸入特征分別輸入到列池化注意力模塊和行池化注意力模塊，并嵌入時(shí)間步長位置編碼；行池化注意力模塊和列池化注意力模塊分別生成尺度為和的輸出特征矩陣，將兩者進(jìn)行矩陣乘法，從而融合垂直方向和水平方向的輸出特征，使模型獲得方向信息，生成尺度為的輸出特征，同時(shí)實(shí)現(xiàn)了下采樣：

27、ra＝rattention(linear(pe),conv1*1(x))；ca＝cattention(linear(pe),conv1*1(x))；

28、a＝ca*ra；

29、式中x表示行列池化注意力模塊的輸入特征，conv1*1(.)表示1*1卷積，表示時(shí)間步長位置編碼的線性變化，分別在行池化注意力模塊和列池化注意力模塊加入了時(shí)間信息；rattention(.)和cattention分別表示行池化注意力模塊和列池化注意力模塊，ra、ca是兩個(gè)模塊的輸出特征，a是行列池化注意力模塊整體的輸出特征；行池化注意力模塊和列池化注意力模塊是對稱的模塊。

30、行池化注意力模塊將輸入特征進(jìn)行不同尺度的行池化操作，產(chǎn)生三個(gè)不同尺度的輸入x1、x2、x3，它們的尺度大小分別是使用x1、x2、x3和時(shí)間步長位置編碼分別生成注意力機(jī)制的查詢q、鍵k、和值v，尺度大小分別是然后由輸入x經(jīng)過線性層生成映射矩陣d，d的行數(shù)、列數(shù)均為n，然后將查詢q和映射矩陣d進(jìn)行矩陣乘法，得到尺度為的結(jié)果，鍵k和映射矩陣d進(jìn)行矩陣乘法，得到尺度為的結(jié)果，經(jīng)線性插值將其尺度調(diào)整為最后將它們分別和值v的轉(zhuǎn)置相乘并維度相加，生成尺度為的輸出矩陣：

31、x1＝maxpool2*1(x)；x2＝maxpool4*1(x)；x3＝maxpool8*1(x)；

32、q＝wq*(x1+linear(pe(t)))；k＝wk*(x2+linear(pe(t)))；v＝wv*(x3+linear(pe(t)))；

33、d＝linear(x)；

34、式中x表示行列池化注意力模塊的輸入特征，maxpool(.)2*1、maxpool(.)4*1和maxpool(.)8*1分別表示2*1、4*1、8*1的行最大池化，x1、x2、x3分別是對應(yīng)的池化結(jié)果，q、k、v分別表示查詢矩陣、鍵矩陣和值矩陣，wq、wk、wv分別表示q、k、v的權(quán)重矩陣，表示通過線性層對時(shí)間步長位置編碼進(jìn)行縮放；映射矩陣d由輸入x經(jīng)過線性層生成；rulu(.)是激活函數(shù)，表示值矩陣v的轉(zhuǎn)置，li表示線性插值。

35、交叉mamba注意力特征融合模塊包括均方根層歸一化、深度可分離卷積、拉普拉斯金字塔模塊、多分辨率交叉mamba、特征加權(quán)掩碼注意力融合模塊；輸入特征為rgb特征和深度特征，這一模塊接受兩個(gè)特征作為輸入并最終產(chǎn)生一個(gè)輸出特征：

36、lrh,lrl＝laplacian(conv(rms(xr，pe))；ldh,ldl＝laplacian(conv(rms(xd，pe))；

37、cr,cd＝mcmamba(lrh,lrl,ldh,ldl)；zr,zd＝sum(conv(rms(cr,cd)),rms(xr,xd))；

38、w＝maskattention(zr,zd)；

39、式中，分別表示對rgb特征和深度特征分別進(jìn)行均方根層歸一化并嵌入時(shí)間步長位置編碼，conv(.)表示深度可分離卷積，laplacian(.)表示拉普拉斯金字塔模塊，lrh、lrl、ldh、ldl分別是rgb特征的高分辨率特征、rgb特征的低分辨率特征、深度信息的高分辨率特征以及深度信息的低分辨率特征，mcmamba(.)表示多分辨率交叉mamba模塊，cr、cd表示多分辨率交叉mamba模塊的輸出特征，sum(.)表示維度相加；多分辨率交叉mamba模塊是一個(gè)四輸入雙輸出的系統(tǒng)，通過交叉mamba，該模塊實(shí)現(xiàn)了雙通道多分辨率數(shù)據(jù)的交叉增強(qiáng)；maskattention(.)表示特征加權(quán)掩碼注意力融合模塊，w是該模塊的輸出，特征加權(quán)掩碼注意力融合模塊將經(jīng)過交叉增強(qiáng)的rgb特征和深度特征進(jìn)行深度特征融合。

40、拉普拉斯金字塔模塊通過高斯模糊和下采樣生成6個(gè)不同分辨率的特征圖，再通過雙線性變換和通道拼接處理成高分辨率和低分辨率特征圖：

41、g0＝x；l0＝x；

42、gi＝reduce(gi-1),(i＞0)；li＝gi-expand(gi+1),(i＞0)；

43、hc＝channel(l0,bi(l1),bi(l2))；lc＝channel(l3,bi(l4),bi(l5))；

44、hx＝channel(hc,bi(lc))；lx＝channel(maxpool8*8(hc),lc)；

45、式中g(shù)i表示高斯金字塔的第i層，x是輸入特征，reduce(.)表示高斯模糊并下采樣操作；li表示拉普拉斯金字塔的第i層，expand(.)表示上采樣，將圖像從的gi+1尺寸擴(kuò)展到gi的尺寸；channel(.)表示通道拼接，bi(.)表示雙線性插值，hc和lc分別是輸入特征較高、較低分辨率特征圖的拼接結(jié)果，channel(hc，bi(lc))和channel(maxpool8*8(hc)，lc)結(jié)合了高分辨率和低分辨率的特征圖，hx和lx表示1金字塔模塊最終輸出的高分辨率特征圖和低分辨率特征圖。

46、多分辨率交叉mamba模塊包括兩個(gè)交叉選擇性掃描mamba模塊，兩個(gè)雙線性插值和兩個(gè)通道拼接；該模塊通過交叉選擇性掃描mamba模塊對高分辨率的rgb特征和深度特征進(jìn)行特征交叉增強(qiáng)，同時(shí)使用另一個(gè)獨(dú)立的交叉選擇性掃描mamba模塊對低分辨率的rgb特征和深度特征進(jìn)行特征交叉增強(qiáng)；隨后，將高分辨率和低分辨率的rgb特征進(jìn)行雙線性插值和通道拼接，同樣處理深度特征，最終生成rgb特征輸出和深度特征輸出：

47、hyrgb,hydsm＝csmamba(hxrgb,hxdsm)；lyrgb,lydsm＝csmamba(lxrgb,lxdsm)；

48、yrgb＝channel(hyrgb,bi(lyrgb))；ydsm＝channel(hydsm,bi(lydsm))；

49、式中hxrgb和hxdsm分別是高分辨率的rgb特征輸入和深度特征輸入，csmamba(.)表示交叉選擇性掃描mamba模塊，hxrgb和hxdsm分別對應(yīng)是高分辨率的rgb和深度特征輸入，hyrgb和hydsm分別對應(yīng)是高分辨率的rgb和深度特征輸出，lxrgb和lxdsm分別是低分辨率的rgb特征輸入和深度特征輸入，lyrgb和lydsm分別是低分辨率的rgb特征輸入和深度特征輸出，channel(.)表示通道拼接，bi(.)表示雙線性插值；yrgb和ydsm分別是高、低分辨率的rgb特征和深度特征的融合特征。

50、交叉選擇性掃描mamba模塊不同于經(jīng)典二維選擇性掃描模塊所采用的不連續(xù)的四向掃描方法，本發(fā)明分別以橫向和縱向的方向進(jìn)行連續(xù)掃描，當(dāng)掃描到每一行(或者列)的末尾時(shí)，下一個(gè)要掃描的標(biāo)記是下一行(或者列)與之臨近的標(biāo)記；rgb特征和深度特征經(jīng)過連續(xù)掃描后得到四個(gè)序列，將四個(gè)序列中掃描方向相同的兩個(gè)序列輸入交叉mamba增強(qiáng)模塊獨(dú)立處理，隨后，再將結(jié)果分別反向掃描并合并作為最終輸出特征，將輸入特征x1和x2進(jìn)行交叉增強(qiáng)；最后，分別將兩個(gè)輸入的四個(gè)序列反向重建對應(yīng)維度相加：

51、ch1,cv1＝hs(z1)；ch2,cv2＝hs(z2)；

52、h1,h2＝cssm(ci1,ci2)；v1,v2＝cssm(co1,co2)；

53、y1＝sum(re(h1,v1))；y2＝sum(re(h2,v2))；

54、式中hs(z1,z2),表示兩個(gè)方向的連續(xù)掃描，ch1、cv1分別是輸入特征z1橫向和縱向掃描的輸出序列，ch2、cv2分別是輸入特征z2橫向和縱向掃描的輸出序列；cssm(.)表示交叉mamba增強(qiáng)模塊，h1、h2分別是z1、z2的橫向輸出序列經(jīng)由交叉mamba增強(qiáng)模塊產(chǎn)生的輸出結(jié)果，v1、o2分別是z1、z2的縱向輸出序列經(jīng)由交叉mamba增強(qiáng)模塊產(chǎn)生的輸出特征序列，re(.)表示重新排列處理后的序列，是連續(xù)掃描hs(.)的逆變換，sum(re(.))是將處理后的序列重新排列成二維特征圖，并將兩條路徑進(jìn)行維度相加；y1、y2分別是兩個(gè)輸入特征經(jīng)過交叉選擇性掃描mamba模塊的輸出特征。

55、交叉mamba增強(qiáng)模塊能夠?qū)崿F(xiàn)兩個(gè)輸入的信息交互和交叉增強(qiáng)；以兩個(gè)輸入特征橫向掃描得到的兩個(gè)序列ch1、ch2為例，分別記ch1、ch2為x1、x2，b1、c1、d1、δ1都是序列x1的函數(shù)，b2、c2、d2、δ2都是序列x2的函數(shù)，參數(shù)a1和a2是演化參數(shù)，由hippo連續(xù)時(shí)間記憶理論構(gòu)建而來它存儲(chǔ)了由系數(shù)矩陣表示的所有先前的歷史信息，參數(shù)δ1、δ2是采樣時(shí)間尺度參數(shù)δ1用于將連續(xù)參數(shù)a1、b1轉(zhuǎn)換為離散參數(shù)，δ2用于將連續(xù)參數(shù)a2、b2轉(zhuǎn)換為離散參數(shù)，并確定了先前隱藏狀態(tài)對用于更新下一個(gè)時(shí)刻隱藏狀態(tài)空間狀態(tài)的隱藏狀態(tài)的影響程度，然后進(jìn)行狀態(tài)空間方程運(yùn)算：

56、

57、

58、

59、

60、式中x1,t、x2,t、分別是當(dāng)前狀態(tài)的兩個(gè)輸入特征，h1,t、h2,t是當(dāng)前狀態(tài)，h1,t-1、h2,t-1是上一步狀態(tài)；是結(jié)構(gòu)化的卷積核，分別是rgb特征的狀態(tài)空間模型中離散后的演化參數(shù)，分別是深度特征的狀態(tài)空間模型中離散后的演化參數(shù)，y1、y2分別表示兩個(gè)狀態(tài)空間模型的輸出特征，交叉mamba增強(qiáng)模塊通過交換兩個(gè)狀態(tài)空間模型輸出矩陣c1、c2和直接傳遞矩陣d1、d2從而實(shí)現(xiàn)兩個(gè)輸入序列的信息交互和交叉增強(qiáng)。

61、本發(fā)明中的特征加權(quán)掩碼注意力融合模塊將rgb特征和深度特征分別進(jìn)行加權(quán)處理以突出重要的特征區(qū)域，然后進(jìn)行交叉注意力融合特征；特征加權(quán)掩碼注意力融合模塊接受兩個(gè)特征作為輸入最終產(chǎn)生一個(gè)輸出特征：

62、amask,bmask＝softmax(dsconv(a,b))；aout,bout＝reshape(a,b)*reshape(amask,bmask)；

63、m＝reshape(sum(aout,bout))；q＝wight(reshape(a))；k,v＝wight(m)；

64、y＝attention(q,k,v)；

65、式中dsconv(.)表示深度可分離卷積，softmax(.)是softmax激活函數(shù)，softmax函數(shù)將輸入向量轉(zhuǎn)換為一個(gè)概率分布，每個(gè)輸出值的范圍在[0,1]之間，且所有輸出值的總和為1；amask、bmask為權(quán)重掩碼，用于賦予重要特征更高的權(quán)重；reshape(.)表示重塑操作，假設(shè)輸入a、b的形狀為c*h*w，將預(yù)測的amask和bmask重塑為k*(h*w)，a、b重塑為(h*w)*c，然后執(zhí)行矩陣乘法提取k個(gè)全局上下文特征，k是自定義參數(shù)；aout、bout為加權(quán)掩碼操作的輸出結(jié)果，形狀為k*c，sum(.)表示維度相加，m為aout、bout維度相加后重塑的輸出特征，形狀為c*2k，k，v＝wight(m)表示根據(jù)m得出注意力機(jī)制的鍵k和值v，q＝wight(reshape(a)表示根據(jù)輸入a得出注意力機(jī)制的查詢q，y＝attention(q,k,v)表示將鍵k、值v和查詢q輸入交叉注意力機(jī)制。

66、解碼器模塊由卷積層、線性層、上采樣、非線性激活函數(shù)(sigmoid)組成：

67、y＝sigmoid(upsamping(linear(dsconv(x))))；

68、式中sdconv(.)是深度可分離卷積，linear(.)是線性層，upsamping(.)是上采樣sigmoid(.)是激活函數(shù)，y是解碼器模塊的輸出特征,上采樣模塊采用雙線性插值的方法。

69、完成遙感圖像語義分割網(wǎng)絡(luò)模型的構(gòu)建后進(jìn)行訓(xùn)練，從訓(xùn)練數(shù)據(jù)中抽樣出一個(gè)遙感圖像語義分割的標(biāo)簽，然后隨機(jī)選擇一個(gè)時(shí)間步長t，從高斯分布中隨機(jī)抽取一個(gè)噪聲樣本ε，這個(gè)噪聲樣本代表在特定時(shí)間步下可能出現(xiàn)的噪聲，是模型需要學(xué)習(xí)去除的干擾；將隨機(jī)抽取的噪聲加到遙感圖像語義分割的標(biāo)簽中，得到含噪聲的輸入數(shù)據(jù)，為模型提供更接近真實(shí)情況的訓(xùn)練樣本；將噪聲數(shù)據(jù)ε輸入遙感圖像語義分割網(wǎng)絡(luò)模型；模型通過學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪聲特征，預(yù)測出噪聲估計(jì)∈t，該估計(jì)反映模型對于輸入數(shù)據(jù)中噪聲的理解和預(yù)測，擴(kuò)散模型輸出的分割圖像與實(shí)際分割圖像進(jìn)行對比，同時(shí)計(jì)算二者的誤差，如果誤差大于設(shè)置的閾值，就反向傳播更新參數(shù)，反復(fù)迭代直至誤差小于設(shè)置的閾值，停止更新參數(shù)并保存網(wǎng)絡(luò)參數(shù)，采用adam算法進(jìn)行參數(shù)求解，在誤差反向傳播時(shí)根據(jù)梯度信息對參數(shù)進(jìn)行更新；

70、把測試集中的缺損數(shù)據(jù)輸入到已經(jīng)訓(xùn)練好并驗(yàn)證過的遙感圖像語義分割網(wǎng)絡(luò)模型中，得到重建后的地震數(shù)據(jù)。

71、相對比現(xiàn)有技術(shù)，本發(fā)明具有以下有益效果：本發(fā)明將transformer、mamba、擴(kuò)散模型和多源數(shù)據(jù)的方法相結(jié)合，綜合提取遙感圖像中的rgb數(shù)據(jù)和深度數(shù)據(jù)的方向性特征、局部特征和全局特征，并進(jìn)行交叉增強(qiáng)，來提高遙感圖像的語義分割效果。具體而言，使用行列池化transformer模塊中的行列注意力來提取rgb數(shù)據(jù)和深度數(shù)據(jù)的垂直和水平方向的細(xì)節(jié)信息及大尺度結(jié)構(gòu)信息，并融合這些方向上的信息，同時(shí)降低了計(jì)算復(fù)雜度。使用交叉mamba注意力特征融合模塊中的拉普拉斯金字塔通過高斯模糊和下采樣生成多個(gè)分辨率的特征圖，然后將這些特征圖組合為高分辨率和低分辨率的特征圖。高分辨率特征圖保留了更多的細(xì)節(jié)信息和局部信息，而低分辨率特征圖包含了更多的全局信息，多分辨率交叉mamba模塊將同一分辨率的rgb特征和深度特征之間進(jìn)行交叉增強(qiáng)，可以有效地利用不同模態(tài)之間的互補(bǔ)信息，從而提升整體特征表達(dá)的豐富性，然后，通過雙線性插值和通道拼接將同一數(shù)據(jù)源的不同分辨率特征圖進(jìn)行融合，從而實(shí)現(xiàn)了局部和全局信息的整合。最后使用交叉注意力進(jìn)行多源數(shù)據(jù)之間的特征融合，同時(shí)引入特征加權(quán)掩碼，通過賦予重要的特征信息更高的權(quán)重來加強(qiáng)特征融合的效果，從而提升整體特征表達(dá)的準(zhǔn)確性，實(shí)現(xiàn)更好的語義分割結(jié)果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宋夢辰,王珺
技術(shù)所有人：中國石油大學(xué)（華東）
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于Transformer、Mamba和擴(kuò)散模型的多源遙感圖像語義分割方法

一種基于Transformer、Mamba和擴(kuò)散模型的多源遙感圖像語義分割方法