本發(fā)明屬于數(shù)字圖像處理和機(jī)器視覺(jué)領(lǐng)域,尤其涉及一種基于跨尺度令牌交互的transformer單圖像超分辨率重建方法。
背景技術(shù):
1、在數(shù)字圖像處理和計(jì)算機(jī)視覺(jué)領(lǐng)域,圖像超分辨率(super-resolution,?sr)技術(shù)致力于從低分辨率(low-resolution,?lr)圖像中恢復(fù)高分辨率(high-resolution,?hr)圖像,從而提升圖像質(zhì)量和細(xì)節(jié)。由于成像設(shè)備限制、存儲(chǔ)和傳輸約束以及外界干擾,獲取高質(zhì)量圖像面臨諸多挑戰(zhàn),而圖像超分辨率技術(shù)不僅能有效降低成本和縮短時(shí)間,還在醫(yī)學(xué)成像、衛(wèi)星攝影、安防監(jiān)控、工業(yè)檢測(cè)等領(lǐng)域具有廣泛應(yīng)用。
2、圖像超分辨率重建是一個(gè)病態(tài)反問(wèn)題,存在較大不確定性。主要方法分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法包括插值、重建和傳統(tǒng)機(jī)器學(xué)習(xí)方法。插值方法通過(guò)估算缺失像素值來(lái)放大圖像,但常導(dǎo)致模糊結(jié)果;重建方法利用多張低分辨率圖像重建高分辨率圖像,但計(jì)算復(fù)雜度較高;傳統(tǒng)機(jī)器學(xué)習(xí)方法依靠手工設(shè)計(jì)特征,效果受限于特征選擇。盡管這些方法各自有優(yōu)缺點(diǎn),但在處理高頻細(xì)節(jié)和復(fù)雜圖像結(jié)構(gòu)時(shí)表現(xiàn)有限?;谏疃葘W(xué)習(xí)的方法通過(guò)深層神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)lr和hr圖像間的復(fù)雜映射關(guān)系,顯著提升圖像質(zhì)量,在生成清晰細(xì)膩的高分辨率圖像方面效果優(yōu)異。
3、隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大成功,2014年dong[dong?c,?loy?cc,?he?k,?et?al.?image?super-resolution?using?deep?convolutional?networks[j].ieee?transactions?on?pattern?analysis?and?machine?intelligence,?2015,?38(2):295-307.]等人首次將深度學(xué)習(xí)方法引入圖像超分辨率重建任務(wù),借助神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,取得了優(yōu)于傳統(tǒng)方法的成績(jī)。隨后研究者們提出了一系列不斷優(yōu)化的算法模型,從最早的基于卷積神經(jīng)網(wǎng)絡(luò)的srcnn?(super-resolution?convolutional?neural?network)模型,到基于生成對(duì)抗網(wǎng)絡(luò)的srgan?(super-resolution?generative?adversarialnetwork)?模型,再到基于transformer的ttsr?(texture?transformer?network?for?sr)模型,基于深度學(xué)習(xí)的圖像超分辨率重建技術(shù)不斷取得新的突破。然而,這些方法也存在一些問(wèn)題和挑戰(zhàn)。srcnn雖然簡(jiǎn)單易用,但難以捕捉高頻細(xì)節(jié)和復(fù)雜紋理。srgan引入了對(duì)抗訓(xùn)練機(jī)制,生成的圖像質(zhì)量更高,但訓(xùn)練過(guò)程不穩(wěn)定且容易產(chǎn)生偽影。ttsr通過(guò)transformer捕捉長(zhǎng)距離依賴(lài)關(guān)系,增強(qiáng)了細(xì)節(jié)和紋理重建,但計(jì)算復(fù)雜度較高,導(dǎo)致訓(xùn)練和推理時(shí)間長(zhǎng),資源消耗大。
4、由于基于transformer的模型普遍具有較大的內(nèi)存和計(jì)算開(kāi)銷(xiāo),因此內(nèi)存和計(jì)算開(kāi)銷(xiāo)更小的基于swin?transformer的模型成為研究的主流。swin?transformer采用滑動(dòng)窗口機(jī)制,在每個(gè)窗口內(nèi)執(zhí)行自注意力操作,并通過(guò)窗口的位移來(lái)實(shí)現(xiàn)全局信息的捕捉。這樣的設(shè)計(jì)大大減少了計(jì)算復(fù)雜度和內(nèi)存消耗,使得swin?transformer在保持高性能的同時(shí)更加高效和輕量化。目前的研究大多基于swinir?(image?restoration?using?swintransformer)?基線(xiàn)模型。盡管swin?transformer具有顯著的優(yōu)點(diǎn),但它也存在一些問(wèn)題和局限。首先,盡管滑動(dòng)窗口機(jī)制提高了計(jì)算效率,但在跨窗口的信息交互和全局信息交互方面仍然存在不足,導(dǎo)致在處理大尺度圖像時(shí)效果不佳。此外,滑動(dòng)窗口操作可能導(dǎo)致邊界效應(yīng),影響重建結(jié)果的連續(xù)性和一致性。其次,現(xiàn)有的swinir模型往往無(wú)法充分利用圖像中的跨尺度相似信息,這些信息對(duì)于進(jìn)一步提升圖像超分辨率重建效果至關(guān)重要。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:本發(fā)明的目的在于提供一種基于跨尺度令牌交互的transformer單圖像超分辨率重建方法,實(shí)現(xiàn)不同層級(jí)令牌信息之間的交互,充分挖掘和融合圖像中的跨尺度信息,并加強(qiáng)全局信息的交互。
2、技術(shù)方案:本發(fā)明的一種基于跨尺度令牌交互的transformer單圖像超分辨率重建方法,包括如下步驟:
3、步驟1、獲取低分辨率圖像,使用淺層特征提取模塊sfe從低分辨率圖像中提取初步的淺層特征;
4、步驟2、基于若干深度特征提取塊dfe構(gòu)建主干網(wǎng)絡(luò),其中,深度特征提取塊dfe包含若干跨尺度令牌交互transformer層cstitl(cross-scale?token?interactiontransformer?layer),將淺層特征輸入主干網(wǎng)絡(luò)中提取深層特征;
5、步驟3、將提取的淺層特征和深層特征融合后重建得到高分辨率圖像。
6、?進(jìn)一步的,步驟1具體為:使用一層?標(biāo)準(zhǔn)卷積將低分辨率圖像映射到高位的特征空間,得到淺層特征,其中c表示通道數(shù),表示特征圖大小,公式如下:
7、
8、進(jìn)一步的,步驟2具體包括如下步驟:
9、步驟201、每個(gè)深度特征提取塊分別輸出,最后通過(guò)一個(gè)卷積層得到深層特征圖,公式如下:
10、
11、
12、步驟202、主干網(wǎng)絡(luò)中的深度特征提取塊包含l個(gè)跨尺度令牌交互transformer層cstitl,用于實(shí)現(xiàn)全局和多層次信息融合,以及一個(gè)3×3卷積層,專(zhuān)注于局部信息的聚合,公式如下:
13、
14、步驟203、考慮到多尺度信息的提取,跨尺度令牌交互transformer層cstitl中的多尺度信息提取模塊msie對(duì)輸入特征圖,先進(jìn)行逐步的池化下采樣得到區(qū)域令牌特征圖和全局令牌特征圖,然后分別進(jìn)行滑動(dòng)窗口自注意力wsa的計(jì)算得到;
15、步驟204、跨尺度令牌交互transformer層cstitl中的跨尺度信息融合模塊csif首先對(duì)像素令牌和區(qū)域令牌的跨尺度信息進(jìn)行融合,首先取出對(duì)應(yīng)于像素特征圖(i,j)位置的像素令牌鄰近的個(gè)區(qū)域令牌,以像素令牌為查詢(xún)q,區(qū)域令牌為鍵k和值v,在計(jì)算特征圖前先通過(guò)線(xiàn)性層對(duì)q,k的特征維度進(jìn)行壓縮以減少計(jì)算量,然后進(jìn)行注意力的計(jì)算得到融合區(qū)域信息的像素令牌,補(bǔ)充特征圖中的區(qū)域信息;
16、步驟205、接著使用跨尺度信息融合模塊csif對(duì)像素令牌和全局令牌的跨尺度信息進(jìn)行融合,融合過(guò)程與像素令牌和區(qū)域令牌的交互同理,唯一的區(qū)別僅在于每個(gè)像素令牌都要和所有的全局令牌進(jìn)行注意力的計(jì)算,由此得到融合全局信息的像素令牌;
17、步驟206、得到后,將它們相加送入深度卷積門(mén)控前向傳播層dwconvffl提取深層特征。
18、進(jìn)一步的,步驟203具體為:先進(jìn)行逐步的池化下采樣得到區(qū)域令牌特征圖和全局令牌特征圖,考慮到不增加額外的參數(shù),其共享線(xiàn)性層的參數(shù),公式如下:
19、
20、
21、
22、窗口注意力即將給定輸入劃分為的不重疊窗口,然后分別計(jì)算每個(gè)窗口的標(biāo)準(zhǔn)自注意力后還原,輸入窗口特征圖,自注意力的計(jì)算公式如下:
23、
24、其中,r是可學(xué)習(xí)相對(duì)位置編碼,q是查詢(xún),k是鍵,v是值,t表示矩陣轉(zhuǎn)置操作,d表示縮放系數(shù)。
25、進(jìn)一步的,步驟204中,以像素令牌為查詢(xún)q,區(qū)域令牌為鍵k和值v,在計(jì)算特征圖前先通過(guò)線(xiàn)性層對(duì)q,k的特征維度進(jìn)行壓縮以減少計(jì)算量,然后進(jìn)行注意力的計(jì)算得到融合了區(qū)域信息的像素令牌,具體公式如下:
26、
27、
28、其中,表示從像素令牌中取出第p個(gè)令牌,表示從區(qū)域令牌中取出的與空間上最接近的n2個(gè)區(qū)域令牌,循環(huán)這個(gè)過(guò)程直到所有像素令牌都完成計(jì)算。
29、進(jìn)一步的,步驟206中,所述深度卷積門(mén)控前向傳播層dwconvffl為線(xiàn)性變換層兩個(gè)平行路徑的逐元素乘積,其中之一通過(guò)?gelu?非線(xiàn)性激活,在其中加入深度卷積以對(duì)空間相鄰像素位置的信息進(jìn)行編碼,公式如下:
30、
31、
32、
33、其中,表示逐元素乘積,深度卷積門(mén)控前項(xiàng)傳播控制著我們管道中各個(gè)層級(jí)的信息流,從而允許每個(gè)級(jí)別專(zhuān)注于與其他級(jí)別互補(bǔ)的細(xì)節(jié)。
34、進(jìn)一步的,步驟3具體為:將步驟2得到的淺層特征與步驟3得到的深層特征通過(guò)跳躍連接進(jìn)行特征融合,然后采用亞像素卷積上采樣,得到重建后高分辨率圖像,公式如下:
35、
36、本發(fā)明還公開(kāi)一種計(jì)算機(jī)裝置,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)本發(fā)明方法的步驟。
37、本發(fā)明還公開(kāi)一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明方法的步驟。
38、本發(fā)明還公開(kāi)一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明方法的步驟。
39、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明具有如下顯著優(yōu)點(diǎn):
40、1、在多尺度信息提取方面,設(shè)計(jì)了多尺度信息提取模塊首先對(duì)原始像素令牌進(jìn)行池化,生成區(qū)域令牌和全局令牌,然后分別進(jìn)行(滑動(dòng))窗口自注意力(wsa)的計(jì)算,從而實(shí)現(xiàn)多尺度信息的有效提取,并加強(qiáng)了全局信息的交互;
41、2、在跨尺度信息融合方面,設(shè)計(jì)了跨尺度信息融合模塊對(duì)跨尺度令牌進(jìn)行注意力計(jì)算,實(shí)現(xiàn)了不同層級(jí)令牌信息之間的交互,充分挖掘和融合了圖像中的跨尺度信息,并加強(qiáng)了全局信息的交互;
42、3、在輕量化的優(yōu)化方面,在多尺度信息提取時(shí)共享線(xiàn)性層參數(shù)以減少參數(shù)量,在計(jì)算跨尺度令牌特征圖前先通過(guò)線(xiàn)性層對(duì)查詢(xún)(q)和鍵(k)的值進(jìn)行壓縮,從而減少計(jì)算量。