本發(fā)明屬于圖像處理,尤其涉及一種復(fù)雜景觀多狀態(tài)圖像生成方法、裝置及程序產(chǎn)品。
背景技術(shù):
1、風(fēng)格遷移在圖像處理和藝術(shù)創(chuàng)作領(lǐng)域扮演著重要角色,通過將一幅圖像的風(fēng)格轉(zhuǎn)移到另一幅圖像上,可以創(chuàng)建出富有藝術(shù)感染力的新圖像,探索和創(chuàng)造出全新的藝術(shù)作品。通過將不同風(fēng)格的景觀圖像相結(jié)合,可以創(chuàng)造出獨特且引人注目的視覺效果,在城市規(guī)劃、景觀設(shè)計等領(lǐng)域具有重要意義。
2、圖像風(fēng)格遷移的現(xiàn)有技術(shù)的技術(shù)方案,主要可分基于神經(jīng)網(wǎng)絡(luò)的方法、優(yōu)化算法方法和基于統(tǒng)計學(xué)的方法。
3、(1)基于神經(jīng)網(wǎng)絡(luò)的方法
4、基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移方法是現(xiàn)代計算機視覺領(lǐng)域的重要研究方向之一。這類方法主要使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?networks,cnns)來實現(xiàn)圖像風(fēng)格的轉(zhuǎn)換。卷積神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)圖像的高層次特征(如邊緣、紋理等),能夠在保持內(nèi)容圖像結(jié)構(gòu)特征的同時,將目標(biāo)風(fēng)格圖像的藝術(shù)風(fēng)格應(yīng)用到內(nèi)容圖像上。
5、神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移通常由兩個部分組成:內(nèi)容損失和風(fēng)格損失。
6、內(nèi)容損失衡量合成圖像與內(nèi)容圖像之間在高層次特征上的相似度,而風(fēng)格損失則衡量合成圖像與風(fēng)格圖像在低層次特征(如顏色和紋理分布)上的相似度。通過最小化這兩個損失函數(shù),可以生成既保留內(nèi)容圖像結(jié)構(gòu),又具有風(fēng)格圖像藝術(shù)效果的合成圖像。
7、近年來,生成對抗網(wǎng)絡(luò)(generative?adversarial?networks,gans)也被廣泛應(yīng)用于圖像風(fēng)格遷移。gans通過一個生成器和一個判別器的對抗訓(xùn)練,能夠?qū)W習(xí)到復(fù)雜的風(fēng)格轉(zhuǎn)換過程,并生成高質(zhì)量的合成圖像。
8、但是,基于神經(jīng)網(wǎng)絡(luò)的方法需要大量的計算資源和長時間的訓(xùn)練,特別是對于復(fù)雜的風(fēng)格轉(zhuǎn)換任務(wù)。此外,由于神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,其內(nèi)部機制難以解釋,并且在訓(xùn)練過程中可能會出現(xiàn)過擬合問題,導(dǎo)致模型在處理新圖像時表現(xiàn)不佳,因此,導(dǎo)致實現(xiàn)復(fù)雜圖像風(fēng)格遷移時時間較長。
9、(2)優(yōu)化算法方法
10、優(yōu)化算法在圖像風(fēng)格遷移中的應(yīng)用主要體現(xiàn)在損失函數(shù)的優(yōu)化過程中。通常,通過定義內(nèi)容損失和風(fēng)格損失,并采用數(shù)值優(yōu)化方法(如梯度下降法、l-bfgs算法等)來最小化這些損失,從而生成最優(yōu)的合成圖像。在傳統(tǒng)的神經(jīng)風(fēng)格遷移中,梯度下降法常用于逐步調(diào)整合成圖像的像素值,使其滿足內(nèi)容和風(fēng)格的要求。梯度下降法通過計算損失函數(shù)的梯度,并沿著梯度的反方向調(diào)整圖像像素,從而逐步逼近損失函數(shù)的最小值。l-bfgs(limited-memory?broyden-fletcher-goldfarb-shanno)是一種準(zhǔn)牛頓優(yōu)化算法,能夠在內(nèi)存限制下高效地進(jìn)行優(yōu)化。相比于標(biāo)準(zhǔn)梯度下降法,l-bfgs算法通常具有更快的收斂速度和更好的優(yōu)化效果。
11、但是,優(yōu)化算法在圖像風(fēng)格遷移中常常面臨收斂速度慢的問題,尤其是標(biāo)準(zhǔn)梯度下降法在高維空間中表現(xiàn)不佳,同時優(yōu)化過程容易陷入局部最優(yōu)解,影響最終圖像質(zhì)量;此外,這些算法對初始合成圖像和超參數(shù)調(diào)節(jié)較為敏感,需要大量實驗來進(jìn)行調(diào)優(yōu),因此,導(dǎo)致實現(xiàn)復(fù)雜圖像風(fēng)格遷移時間較長。
12、(3)基于統(tǒng)計學(xué)的方法
13、基于統(tǒng)計學(xué)的圖像風(fēng)格遷移方法通過分析和建模圖像特征的統(tǒng)計分布(如顏色直方圖、紋理統(tǒng)計特征等)來實現(xiàn)風(fēng)格的轉(zhuǎn)移。這些方法通常涉及對圖像特征的統(tǒng)計分析和協(xié)方差矩陣、譜分解等統(tǒng)計學(xué)概念。這類方法通過提取風(fēng)格圖像的統(tǒng)計特征(如顏色分布、紋理模式等),并將這些統(tǒng)計特征應(yīng)用到內(nèi)容圖像上,從而實現(xiàn)風(fēng)格的轉(zhuǎn)換。例如,可以計算風(fēng)格圖像和內(nèi)容圖像的gram矩陣,通過調(diào)整內(nèi)容圖像的特征使其gram矩陣接近風(fēng)格圖像的gram矩陣,從而實現(xiàn)風(fēng)格遷移。
14、但是,基于統(tǒng)計學(xué)的方法在捕捉圖像細(xì)節(jié)和全局一致性方面能力有限,對于復(fù)雜的風(fēng)格轉(zhuǎn)換任務(wù)可能需要大量訓(xùn)練數(shù)據(jù)來精確建模統(tǒng)計特征,并且在處理不同類型圖像或風(fēng)格時適應(yīng)性較差,可能需要針對性地調(diào)整算法或參數(shù),因此,導(dǎo)致實現(xiàn)復(fù)雜圖像風(fēng)格遷移時時間較長。
15、故此亟需開發(fā)一種復(fù)雜景觀多狀態(tài)圖像生成方法、裝置及程序產(chǎn)品來解決現(xiàn)有技術(shù)中的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明目的在于提供一種復(fù)雜景觀多狀態(tài)圖像生成方法,通過使用語義分割及風(fēng)格遷移模型,以解決上述背景技術(shù)中提出的現(xiàn)有圖像風(fēng)格遷移方法在實現(xiàn)復(fù)雜圖像風(fēng)格遷移時時間較長的問題。
2、為解決上述技術(shù)問題,本發(fā)明的具體技術(shù)方案如下:
3、一種復(fù)雜景觀多狀態(tài)圖像生成方法,包括如下步驟:
4、獲取原始復(fù)雜景觀圖像;
5、對原始復(fù)雜景觀圖像進(jìn)行語義分割,得到多種類別的初始語義對象;
6、將初始語義對象輸入至風(fēng)格遷移模型,得到多種遷移效果的風(fēng)格遷移對象;
7、將風(fēng)格遷移對象與原始景觀圖像進(jìn)行融合,得到風(fēng)格遷移景觀圖像。
8、進(jìn)一步,所述風(fēng)格遷移模型包括兩個生成器和兩個判別器,所述生成器用于對初始語義對象進(jìn)行風(fēng)格遷移,以得到風(fēng)格遷移對象,所述判別器用于判斷風(fēng)格遷移對象是否真實。
9、進(jìn)一步,所述生成器包括多個特征提取塊,所述特征提取塊為gated-mlp塊。
10、進(jìn)一步,所述判別器也包括多個特征提取塊,所述特征提取塊為gated-mlp塊。
11、進(jìn)一步,將圖像輸入gated-mlp塊中后,所述gated-mlp塊的步驟包括如下:
12、采用歸一化的線性感知機提取每個圖像塊的抽象語義特征,輸出圖像的特征圖f;
13、通過多層感知機對特征圖做通道映射,得到特征圖f在通道方向上的上下文信息fc;
14、將所述上下文信息fc在通道方向上切分為兩個同等大小的切分特征圖u和切分特征圖v,通過多層感知機對切分特征圖u做空間映射并與切分特征圖v的標(biāo)量乘積得到上下文信息fc在空間方向的上下文fcs;
15、將上下文fcs與特征圖f通過標(biāo)量加進(jìn)行殘差連接,以作為gated-mlp的輸出。
16、進(jìn)一步,所述生成器還包括初始卷積層、下采樣層、上采樣層和最終卷積層,所述判別器還包括初始卷積層、下采樣層和全連接層。
17、進(jìn)一步,所述的對原始復(fù)雜景觀圖像進(jìn)行語義分割,得到多種類別的初始語義對象,通過pspnet模型實現(xiàn)。
18、進(jìn)一步,所述的將風(fēng)格遷移對象與原始景觀圖像進(jìn)行融合時,所述風(fēng)格遷移對象通過圖像矩陣的標(biāo)量積與原始圖像進(jìn)行融合。
19、一種計算機裝置,包括存儲器、處理器及存儲在存儲器上的計算機程序,所述處理器執(zhí)行所述計算機程序以實現(xiàn)所述方法的步驟。
20、一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)所述方法的步驟。
21、本發(fā)明具有以下優(yōu)點:
22、本技術(shù)對原始復(fù)雜景觀圖像進(jìn)行語義分割,確定各個不同區(qū)域的語義類別,再使用風(fēng)格遷移模型,針對不同語義類別的初始語義對象分別進(jìn)行針對性的風(fēng)格遷移,最后將風(fēng)格遷移后的對象根據(jù)原圖進(jìn)行合并,實現(xiàn)了整個圖像的風(fēng)格遷移。無需大量的計算資源或長時間的訓(xùn)練,在訓(xùn)練過程中不會出現(xiàn)過擬合問題,風(fēng)格遷移后的圖像質(zhì)量較佳。
23、進(jìn)一步,本技術(shù)的風(fēng)格遷移模型結(jié)合gated-mlp與cyclegan模型,能夠全局建模輸入圖像的語義信息和上下文關(guān)系,更好地捕捉圖像的全局依賴性,從而提高整體圖像結(jié)構(gòu)的理解能力,其結(jié)構(gòu)相似度指數(shù)可達(dá)80.27%,峰值信噪比可達(dá)28.4020,同時單張圖像生成時間可縮至23.352799ms。
24、本發(fā)明的其他特點和優(yōu)點將會在下面的具體實施方式、附圖中詳細(xì)的揭露。