本發(fā)明涉及圖像轉(zhuǎn)化領(lǐng)域,尤其是涉及了一種使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非成對(duì)圖像轉(zhuǎn)化方法。
背景技術(shù):
圖像到圖像之間的轉(zhuǎn)換是一類視覺(jué)和圖形問(wèn)題,其目標(biāo)是通過(guò)訓(xùn)練學(xué)習(xí)輸入圖片的風(fēng)格,將其映射到框架類似的輸出圖片中。對(duì)于當(dāng)前業(yè)界及研究機(jī)構(gòu)所擁有的數(shù)據(jù)來(lái)講,多數(shù)處于配對(duì)狀態(tài),即圖像的屬性具有對(duì)稱性,如一雙鞋子的左右腳般。但實(shí)際應(yīng)用中,大多數(shù)數(shù)據(jù)都不存在先驗(yàn)配對(duì)知識(shí),這樣的非成對(duì)圖像進(jìn)行視覺(jué)轉(zhuǎn)移在當(dāng)前業(yè)界尚未出現(xiàn)完成的例子。本發(fā)明提出的對(duì)于非成對(duì)圖像之間進(jìn)行風(fēng)格遷移、材質(zhì)改變、季節(jié)變化、圖像增強(qiáng)等操作都有成功演示,體現(xiàn)出獨(dú)有優(yōu)越性,在考古文物模擬、醫(yī)學(xué)圖像仿真、農(nóng)作物生長(zhǎng)演化等方面都有可用的潛在價(jià)值,此外,該發(fā)明可激發(fā)遙感圖像增強(qiáng)、機(jī)器人視覺(jué)融合等高尖科技領(lǐng)域的關(guān)鍵技術(shù)研究。
圖像之間的特性轉(zhuǎn)化仍舊是一個(gè)開放的問(wèn)題。從圖像轉(zhuǎn)化的不可逆到可逆,其基本信息必須被保護(hù)不被破壞,同時(shí)加上或者還原的特性必須是線性可加,同時(shí)還要考慮到原圖像的像素分布、紋理結(jié)構(gòu)等問(wèn)題,給直接的尤其非配對(duì)的圖像轉(zhuǎn)化帶來(lái)難度。
本發(fā)明提出了一種基于二次建模損失函數(shù)最小化的新框架。使用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行分辨器的建模,同時(shí)對(duì)原集合域x設(shè)計(jì)映射函數(shù),使得生成圖像具有目標(biāo)集合域y的圖像特性,并且對(duì)轉(zhuǎn)化過(guò)程進(jìn)行二次損失函數(shù)建模,通過(guò)最小化損失函數(shù),以至于讓分類器越來(lái)越難以分辨生成圖像,同時(shí)提高非成對(duì)圖像的轉(zhuǎn)化成功率。本發(fā)明可以處理不同風(fēng)格的照片或者圖像,提供一個(gè)最小二乘法及最大似然概率來(lái)最小化損失函數(shù),同時(shí)提高了圖像轉(zhuǎn)化的仿真度。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)解決在不同風(fēng)格圖像之間進(jìn)行特性轉(zhuǎn)化的問(wèn)題,本發(fā)明的目的在于提供一種使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非成對(duì)圖像轉(zhuǎn)化方法,提出了一種基于二次建模損失函數(shù)最小化的新框架。
為解決上述問(wèn)題,本發(fā)明提供一種使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非成對(duì)圖像轉(zhuǎn)化方法,其主要內(nèi)容包括:
(一)一般模塊;
(二)損失函數(shù)模塊;
(三)目標(biāo)函數(shù)模塊;
(四)訓(xùn)練網(wǎng)絡(luò)模塊。
其中,所述的一般模型,給定兩個(gè)集合域x和y,建立映射函數(shù)模型g:x→y和f:y→x,將x和y中的訓(xùn)練樣本
所述的損失函數(shù)模塊,包括對(duì)抗損失函數(shù)和循環(huán)一致?lián)p失函數(shù)。
所述的對(duì)抗損失函數(shù),對(duì)映射函數(shù)模型g:x→y及其分類器dy,具體的對(duì)抗損失函數(shù)為:
其中,g試圖生成跟集合域y相似的圖像,但同時(shí)也要經(jīng)受分類器dy的對(duì)抗,即需要進(jìn)行分辨生成樣本與真實(shí)樣本,因此對(duì)映射函數(shù)g需要最小化而對(duì)分類器dy要最大化,即:
g*=argmingmaxdylgan(g,dy,x,y)(2)
相似地,對(duì)映射函數(shù)f有:
f*=argminfmaxdxlgan(g,dx,y,x)(3)
其中,dx是逆向的分類器。
所述的循環(huán)一致?lián)p失函數(shù),映射函數(shù)具有可逆性,在原始圖像轉(zhuǎn)化為生成圖像后,也能轉(zhuǎn)化回原始圖像,即x→g(x)→f(g(x))≈x,上述步驟全部完成一次則為一個(gè)前向循環(huán)一致行為,相似地,對(duì)于被匹配圖像y,有y→f(y)→g(f(y))≈y,上述步驟全部完成一次則為一個(gè)反向循環(huán)一致行為,合并后的過(guò)程中,其循環(huán)一致?lián)p失函數(shù)為:
其中,‖‖1表示一階范數(shù)。
所述的目標(biāo)函數(shù)模塊,引入常量控制兩個(gè)不同損失函數(shù)對(duì)總體函數(shù)模塊的比重,即總體損失函數(shù)為,
由此,引入目標(biāo)函數(shù)為:
其中,常量λ是比重控制因子。
所述的訓(xùn)練網(wǎng)絡(luò)模塊,包括網(wǎng)絡(luò)結(jié)構(gòu)、模型穩(wěn)定過(guò)程和網(wǎng)絡(luò)調(diào)試。
所述的網(wǎng)絡(luò)結(jié)構(gòu),使用兩層步長(zhǎng)為2的卷積網(wǎng)絡(luò)層、n層殘差網(wǎng)絡(luò)和兩層步長(zhǎng)為1/2的卷積網(wǎng)絡(luò)層作為主體架構(gòu),其中當(dāng)輸入圖像尺寸為128×128時(shí)n=6,尺寸為256×256或者更高時(shí)n=9。
所述的模型穩(wěn)定過(guò)程,對(duì)公式(1)中的負(fù)對(duì)數(shù)似然函數(shù),用最小二乘法損失函數(shù)替代,即:
此外,在訓(xùn)練過(guò)程中儲(chǔ)存一個(gè)緩沖區(qū),里面設(shè)有50張此前生成過(guò)的圖像,用來(lái)更新dx和dy的分辨能力。
所述的網(wǎng)絡(luò)調(diào)試,對(duì)圖像每次訓(xùn)練圖像數(shù)量限定為1,同時(shí)使用亞當(dāng)解釋器的網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置初始值為0.002,待經(jīng)過(guò)100次迭代后逐漸衰減接近零值,此外,公式(5)中的λ設(shè)置為10。
附圖說(shuō)明
圖1是本發(fā)明一種使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非成對(duì)圖像轉(zhuǎn)化方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非成對(duì)圖像轉(zhuǎn)化方法的轉(zhuǎn)換及重構(gòu)圖。
圖3是本發(fā)明一種使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非成對(duì)圖像轉(zhuǎn)化方法的一對(duì)多轉(zhuǎn)換圖。
具體實(shí)施方式
需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
圖1是本發(fā)明一種使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非成對(duì)圖像轉(zhuǎn)化方法的系統(tǒng)流程圖。主要一般模塊;損失函數(shù)模塊;目標(biāo)函數(shù)模塊;訓(xùn)練網(wǎng)絡(luò)模塊。
其中,一般模型,給定兩個(gè)集合域x和y,建立映射函數(shù)模型g:x→y和f:y→x,將x和y中的訓(xùn)練樣本
損失函數(shù)模塊,包括對(duì)抗損失函數(shù)和循環(huán)一致?lián)p失函數(shù)。
對(duì)抗損失函數(shù),對(duì)映射函數(shù)模型g:x→y及其分類器dy,具體的對(duì)抗損失函數(shù)為:
其中,g試圖生成跟集合域y相似的圖像,但同時(shí)也要經(jīng)受分類器dy的對(duì)抗,即需要進(jìn)行分辨生成樣本與真實(shí)樣本,因此對(duì)映射函數(shù)g需要最小化而對(duì)分類器dy要最大化,即:
g*=argmingmaxdylgan(g,dy,x,y)(2)
相似地,對(duì)映射函數(shù)f有:
f*=argminfmaxdxlgan(g,dx,y,x)(3)
其中,dx是逆向的分類器。
循環(huán)一致?lián)p失函數(shù),映射函數(shù)具有可逆性,在原始圖像轉(zhuǎn)化為生成圖像后,也能轉(zhuǎn)化回原始圖像,即x→g(x)→f(g(x))≈x,上述步驟全部完成一次則為一個(gè)前向循環(huán)一致行為,相似地,對(duì)于被匹配圖像y,有y→f(y)→g(f(y))≈y,上述步驟全部完成一次則為一個(gè)反向循環(huán)一致行為,合并后的過(guò)程中,其循環(huán)一致?lián)p失函數(shù)為:
其中,‖‖1表示一階范數(shù)。
目標(biāo)函數(shù)模塊,引入常量控制兩個(gè)不同損失函數(shù)對(duì)總體函數(shù)模塊的比重,即總體損失函數(shù)為,
由此,引入目標(biāo)函數(shù)為:
其中,常量λ是比重控制因子。
訓(xùn)練網(wǎng)絡(luò)模塊,包括網(wǎng)絡(luò)結(jié)構(gòu)、模型穩(wěn)定過(guò)程和網(wǎng)絡(luò)調(diào)試。
網(wǎng)絡(luò)結(jié)構(gòu),使用兩層步長(zhǎng)為2的卷積網(wǎng)絡(luò)層、n層殘差網(wǎng)絡(luò)和兩層步長(zhǎng)為1/2的卷積網(wǎng)絡(luò)層作為主體架構(gòu),其中當(dāng)輸入圖像尺寸為128×128時(shí)n=6,尺寸為256×256或者更高時(shí)n=9。
模型穩(wěn)定過(guò)程,對(duì)公式(1)中的負(fù)對(duì)數(shù)似然函數(shù),用最小二乘法損失函數(shù)替代,即:
此外,在訓(xùn)練過(guò)程中儲(chǔ)存一個(gè)緩沖區(qū),里面設(shè)有50張此前生成過(guò)的圖像,用來(lái)更新dx和dy的分辨能力。
網(wǎng)絡(luò)調(diào)試,對(duì)圖像每次訓(xùn)練圖像數(shù)量限定為1,同時(shí)使用亞當(dāng)解釋器的網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置初始值為0.002,待經(jīng)過(guò)100次迭代后逐漸衰減接近零值,此外,公式(5)中的λ設(shè)置為10。
圖2是本發(fā)明一種使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非成對(duì)圖像轉(zhuǎn)化方法的轉(zhuǎn)換及重構(gòu)圖。如圖所示,可以觀察到第一行是正常風(fēng)景圖與莫泰油畫風(fēng)格的轉(zhuǎn)化,第二行是正常馬匹與斑馬的轉(zhuǎn)化,第三行是地域航拍圖及所對(duì)應(yīng)地圖軟件線路圖的轉(zhuǎn)化。
圖3是本發(fā)明一種使用循環(huán)一致對(duì)抗網(wǎng)絡(luò)的非成對(duì)圖像轉(zhuǎn)化方法的一對(duì)多轉(zhuǎn)換圖。如圖所示,在一幅輸入圖像為田園風(fēng)景照的圖像后,依照本發(fā)明的方法,可依次將其轉(zhuǎn)換為莫奈風(fēng)格、梵高風(fēng)格、塞尚風(fēng)格及浮世繪風(fēng)格的圖像。
對(duì)于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。