本發(fā)明屬于超高清圖像內(nèi)容生成領(lǐng)域,具體涉及一種基于深度學(xué)習(xí)的超高清轉(zhuǎn)換方法。
背景技術(shù):
1、隨著5g技術(shù)的突破,超高清視頻產(chǎn)業(yè)發(fā)展迅速,4k超高清電視用戶應(yīng)用普及。與高清視頻(720p/1080p)相比,超高清視頻的分辨率從1080p增長到4k/8k,畫質(zhì)從標(biāo)準(zhǔn)動態(tài)范圍(sdr)視頻提高為高動態(tài)范圍(hdr)。然而,目前的數(shù)字電視和互聯(lián)網(wǎng)電視服務(wù)仍然主要提供高清分辨率和標(biāo)準(zhǔn)動態(tài)范圍的傳統(tǒng)視頻內(nèi)容,傳統(tǒng)高清視頻內(nèi)容必須支持在超高清電視顯示器上以4k/8k?hdr標(biāo)準(zhǔn)呈現(xiàn),因此在終端電視需要一種技術(shù)將高清視頻轉(zhuǎn)換為超高清視頻以滿足用戶需求。此外,超高清設(shè)備昂貴且制作周期長,高質(zhì)量的新媒體服務(wù)同樣面臨超高清片源短缺等問題。因此,將已有的優(yōu)質(zhì)高清視頻轉(zhuǎn)換成超高清視頻的視頻增強(qiáng)技術(shù),已經(jīng)成為超高清領(lǐng)域的研究熱點(diǎn),其能短期內(nèi)擴(kuò)大和積累高質(zhì)量超高清片源,滿足廣大用戶的超高清觀看需求。
2、超高清圖像轉(zhuǎn)換是一個(gè)針對分辨率、色域以及亮度動態(tài)范圍的多任務(wù)轉(zhuǎn)換問題(分辨率→4k,色域bt.709→bt.2020,動態(tài)范圍sdr→hdr),所需要的核心技術(shù)主要包括超分辨技術(shù)和hdr技術(shù),前者實(shí)現(xiàn)分辨率的超分,后者實(shí)現(xiàn)色域和亮度動態(tài)范圍的提高。超分辨方面以基于神經(jīng)網(wǎng)絡(luò)的研究最為廣泛,分為兩類研究—單幀圖像超分辨和視頻超分辨。針對單幀圖像超分辨提出了各種深度卷積網(wǎng)絡(luò)體系結(jié)構(gòu),如:具有殘差學(xué)習(xí)的深層網(wǎng)絡(luò)、殘差拉普拉斯金字塔網(wǎng)絡(luò)結(jié)構(gòu)、遞歸學(xué)習(xí)和密集連接網(wǎng)絡(luò)結(jié)構(gòu)、深度反投影結(jié)構(gòu)以及殘差密集網(wǎng)絡(luò)結(jié)構(gòu)等等。視頻超分辨不同于單幀超分辨模型,其關(guān)鍵是利用連續(xù)幀間的時(shí)空信息生成連貫性視頻,需經(jīng)過運(yùn)動估計(jì)、運(yùn)動補(bǔ)償、信息融合和上采樣等一系列步驟。如,慕尼黑工業(yè)大學(xué)學(xué)者提出新型損失函數(shù),并設(shè)計(jì)基于生成對抗網(wǎng)絡(luò)的視頻超分辨模型,可以有效移除循環(huán)網(wǎng)絡(luò)中的時(shí)間偽影,且不會降低視覺質(zhì)量。國內(nèi)學(xué)者提出基于視頻重建的混合cnn-transformer網(wǎng)絡(luò)方法,通過cnn提供精細(xì)的局部信息,設(shè)計(jì)transformer學(xué)習(xí)全局特征,在多個(gè)真實(shí)數(shù)據(jù)集上取得了優(yōu)異的性能。然而,視頻超分辨嚴(yán)重依賴于運(yùn)動估計(jì)的準(zhǔn)確性,運(yùn)動估計(jì)和補(bǔ)償?shù)恼`差會累積到后續(xù)重建的進(jìn)一步失真,影響最終的超分辨性能,同時(shí)增加的運(yùn)動估計(jì)模型會導(dǎo)致超分辨網(wǎng)絡(luò)厚重,計(jì)算量較大。hdr技術(shù)通過逆色調(diào)映射技術(shù)來實(shí)現(xiàn)亮度動態(tài)和色域范圍的轉(zhuǎn)換。傳統(tǒng)方法通過國際標(biāo)準(zhǔn)itu發(fā)布的色域轉(zhuǎn)換建議書bt.2087,基于電光轉(zhuǎn)換函數(shù)及其反函數(shù)進(jìn)行bt.709到bt.2020的色域轉(zhuǎn)換,但人工調(diào)參費(fèi)時(shí)費(fèi)力。目前,通過深度學(xué)習(xí)方法來實(shí)現(xiàn)hdr轉(zhuǎn)換,已成為當(dāng)今國內(nèi)外研究最廣泛的方法,主要分為多曝光hdr重構(gòu)和單幀hdr重構(gòu)。多曝光hdr重構(gòu)方法是通過融合由傳統(tǒng)相機(jī)在不同曝光下生成的一系列sdr圖像來重建高動態(tài)范圍圖像。然而,這種方法需要靜態(tài)場景的多個(gè)不同曝光的圖像,針對高清視頻來說不具有此條件,因此單幀hdr研究仍是主流。單幀hdr重構(gòu)方法僅使用一幅sdr圖像通過深度網(wǎng)絡(luò)模型重建hdr圖像,可以繞過多曝光圖像匹配問題。目前,將高清轉(zhuǎn)換成超高清視頻任務(wù)多采用超分辨和hdr算法級聯(lián)完成,但分任務(wù)分步驟級聯(lián)的方法解決一個(gè)復(fù)雜的多任務(wù)轉(zhuǎn)換存在明顯弊端,即誤差累積、系統(tǒng)復(fù)雜度高及各模塊訓(xùn)練目標(biāo)不一致使轉(zhuǎn)換很難達(dá)到最優(yōu)性能。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提出一種基于深度學(xué)習(xí)的超高清轉(zhuǎn)換方法,通過建立基于超分和hdr的聯(lián)合端到端模型,實(shí)現(xiàn)分辨率、色域和動態(tài)范圍的同步轉(zhuǎn)換,獲取高質(zhì)量的超高清圖像畫面。
2、一種基于深度學(xué)習(xí)的超高清轉(zhuǎn)換方法,應(yīng)用于將高清圖像(1920×1080sdr、bt.709)轉(zhuǎn)換為超高清圖像(3840×2160hdr、bt.2020),該方法由以下步驟實(shí)現(xiàn),網(wǎng)絡(luò)結(jié)構(gòu)流程步驟如下:
3、步驟一、建立三個(gè)3d查找表,輸入圖像分別與3d查找表中的系數(shù)進(jìn)行插值運(yùn)算,獲得三通道特征圖像;同時(shí)設(shè)計(jì)圖像引導(dǎo)的可學(xué)習(xí)網(wǎng)絡(luò),將輸入圖像通過可學(xué)習(xí)網(wǎng)絡(luò)模型獲取三通道參數(shù)
4、步驟二、設(shè)計(jì)深度多尺度增強(qiáng)網(wǎng)絡(luò)模塊,將步驟一的三通道特征圖像分別通過深度多尺度增強(qiáng)網(wǎng)絡(luò)獲得特征增強(qiáng)圖像,再與步驟一的三通道參數(shù)乘積運(yùn)算后進(jìn)行線性相加,獲得融合圖像;
5、步驟三、設(shè)計(jì)可學(xué)習(xí)導(dǎo)向?yàn)V波模塊,將步驟二的融合圖像與輸入圖像經(jīng)過可學(xué)習(xí)導(dǎo)向?yàn)V波網(wǎng)絡(luò)后,得到最終的超高清圖像;
6、步驟四、超高清聯(lián)合模型通過以上步驟搭建,在網(wǎng)絡(luò)模型訓(xùn)練過程中,本發(fā)明設(shè)計(jì)將內(nèi)容損失、hdr損失和平滑損失構(gòu)建本網(wǎng)絡(luò)模型的的聯(lián)合損失函數(shù)。
7、所述步驟一中,所述的建立三個(gè)基礎(chǔ)3d查找表,輸入圖像分別與3d查找表系數(shù)進(jìn)行插值運(yùn)算,其具體內(nèi)容如下:每個(gè)3d查找表由333個(gè)元素組成的三維網(wǎng)格,需要數(shù)據(jù)集訓(xùn)練學(xué)習(xí)最優(yōu)的3d網(wǎng)格參數(shù)值;如式即:輸入像素的紅、綠、藍(lán)三通道分量根據(jù)據(jù)其顏色查找3dlut中最近的采樣點(diǎn),并通過插值計(jì)算h轉(zhuǎn)換得到輸出的紅、綠、藍(lán)三通道分量i,j,k是索引值;
8、所述的圖像引導(dǎo)的可學(xué)習(xí)網(wǎng)絡(luò)(iglm)由convmlp網(wǎng)絡(luò)層和跳躍連接設(shè)計(jì)完成,包括四個(gè)卷積網(wǎng)絡(luò)層、全局均值池層、全連接層;所述的四個(gè)卷積網(wǎng)絡(luò)層的輸出設(shè)置了跳躍連接,將四個(gè)輸出進(jìn)行特征層級聯(lián)作為全局均值池化層的輸入;
9、所述步驟二中,所述的深度多尺度增強(qiáng)網(wǎng)絡(luò)由四個(gè)stage塊級聯(lián)組成,并將每個(gè)stage塊的輸出concatenate?along?channel(沿著通道連接),再經(jīng)過卷積層輸出。所述的stage塊由三層下采樣卷積層(layerd1、layerd2、layerd3)、三層上采樣卷積層(layerup1、layerup2、layerup3)和多尺度卷積塊(mn?block)組成;
10、所述步驟三中,所述的可學(xué)習(xí)導(dǎo)向?yàn)V波網(wǎng)絡(luò)由lgf(引導(dǎo)圖像學(xué)習(xí)網(wǎng)絡(luò))、上采樣網(wǎng)絡(luò)和導(dǎo)向?yàn)V波運(yùn)算組成。lgf設(shè)計(jì)兩層卷積網(wǎng)絡(luò),學(xué)習(xí)引導(dǎo)圖像ii;上采樣網(wǎng)絡(luò)通過轉(zhuǎn)置卷積實(shí)現(xiàn)分辨率提升,作為導(dǎo)向?yàn)V波運(yùn)算的輸入圖像pi;ii和qi經(jīng)過導(dǎo)向?yàn)V波運(yùn)算獲得邊緣增強(qiáng)后的超高清圖像。導(dǎo)向?yàn)V波運(yùn)算主要由局部線性模型驅(qū)動,計(jì)算如下式所示
11、
12、ii和qi分別是引導(dǎo)圖像和輸出圖像;i是像素索引,ωk是滑動窗,k是滑動窗的索引;ak和bk由引導(dǎo)圖像和輸入圖像計(jì)算獲取的系數(shù)。
13、所述步驟四中,設(shè)計(jì)的聯(lián)合損失函數(shù),計(jì)算如下,
14、l=lmse+ltm+λls
15、
16、
17、式中,lmse是內(nèi)容損失,ltm是hdr損失,是μ-law函數(shù),用于線性hdr域中,可得到較小的誤差值,μ是參數(shù),設(shè)置為5000,yi代表原始超高清圖像,代表通過本發(fā)明網(wǎng)絡(luò)結(jié)構(gòu)生成的超高清圖像;ls是平滑損失,ωn是步驟一中iglm模型預(yù)測的參數(shù),ls是對預(yù)測參數(shù)引入的l2范數(shù)正則化,以提高平滑性;λ和λd是平衡不同損失項(xiàng)的系數(shù)。
18、本發(fā)明的有益效果:
19、本發(fā)明首先建立三個(gè)基礎(chǔ)3dlut,輸入圖像分別與3dlut表參數(shù)進(jìn)行插值運(yùn)算得到三通道特征圖像,并且通過可學(xué)習(xí)網(wǎng)絡(luò)模型獲取三通道參數(shù);將三通道特征圖像分別通過深度多尺度增強(qiáng)網(wǎng)絡(luò)獲得特征增強(qiáng)圖像,再與三通道參數(shù)乘性相加獲得融合圖像;最后融合圖像與輸入圖像經(jīng)過可學(xué)習(xí)導(dǎo)向?yàn)V波網(wǎng)絡(luò)后,得到最終的超高清圖像;其中損失項(xiàng)引入內(nèi)容損失、hdr損失和平滑損失組成本網(wǎng)絡(luò)結(jié)構(gòu)的聯(lián)合損失函數(shù),使網(wǎng)絡(luò)模型監(jiān)督式學(xué)習(xí)收斂,同時(shí)保證超高清轉(zhuǎn)換圖像與原始圖像的一致性。本發(fā)明模型構(gòu)建合理,算法魯棒性強(qiáng),超高清轉(zhuǎn)換圖像細(xì)節(jié)清晰自然,符合超高清顯示需求。
20、本發(fā)明將3d查找表理論、超分辨增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)以及導(dǎo)向?yàn)V波相結(jié)合,設(shè)計(jì)了一種端到端的超分辨-hdr聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)模型。其中圖像引導(dǎo)的可學(xué)習(xí)網(wǎng)絡(luò)將convmlp網(wǎng)絡(luò)層和跳躍連接結(jié)合,可以進(jìn)行局部信息交互,能夠得到更高的抽象,泛化能力更強(qiáng);深度多尺度增強(qiáng)網(wǎng)絡(luò)引入多尺度卷積塊,可以提取不同感受野的多尺度紋理特征,最后一層1×1卷積將多尺度特征進(jìn)行融合,減小了參數(shù)量和網(wǎng)絡(luò)復(fù)雜度;同時(shí)設(shè)計(jì)的可學(xué)習(xí)導(dǎo)向?yàn)V波網(wǎng)絡(luò)能進(jìn)一步增強(qiáng)輸出圖像的質(zhì)量。本文發(fā)明模型復(fù)雜度低,可實(shí)現(xiàn)分辨率、亮度動態(tài)范圍的多任務(wù)同步轉(zhuǎn)換,轉(zhuǎn)換后的超高清圖像清晰自然,符合要求,有著廣泛的應(yīng)用前景。