国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于擴(kuò)散模型的虛擬換發(fā)型方法與流程

      文檔序號(hào):40365997發(fā)布日期:2024-12-18 13:53閱讀:25來(lái)源:國(guó)知局
      本發(fā)明涉及虛擬換發(fā),特別是一種基于擴(kuò)散模型的虛擬換發(fā)型方法。
      背景技術(shù)
      ::1、隨著科技發(fā)展,虛擬現(xiàn)實(shí)技術(shù)逐漸成熟,隨之帶來(lái)的是更多令人便利的虛擬現(xiàn)實(shí)應(yīng)用,虛擬試穿一直以來(lái)是受大眾歡迎的虛擬現(xiàn)實(shí)應(yīng)用,而虛擬換發(fā)型技術(shù)即這個(gè)領(lǐng)域中一項(xiàng)更受矚目且更具挑戰(zhàn)的應(yīng)用,用戶可以根據(jù)自己的喜好,選擇不同的發(fā)型、顏色和紋理,進(jìn)行個(gè)性化的搭配和嘗試,這種技術(shù)的應(yīng)用,極大地豐富了用戶的美發(fā)體驗(yàn),同時(shí)也避免了因理發(fā)效果不理想而帶來(lái)的失望和經(jīng)濟(jì)損失,這項(xiàng)任務(wù)的重點(diǎn)在于將目標(biāo)發(fā)型的形狀、顏色和紋理完好地轉(zhuǎn)換到用戶的頭上,同時(shí)保證用戶的身份信息和背景不發(fā)生變動(dòng),2、近年來(lái),大部分虛擬換發(fā)型技術(shù)大都是基于gan的方法,然而隨之帶來(lái)的問(wèn)題是它無(wú)法處理紋理復(fù)雜的發(fā)型,容易忽略掉細(xì)節(jié),或者產(chǎn)生偽影,基于上述原因,本發(fā)明提出了基于擴(kuò)散模型的虛擬換發(fā)型技術(shù)。技術(shù)實(shí)現(xiàn)思路1、鑒于上述現(xiàn)有存在的問(wèn)題,提出了本發(fā)明。2、因此,本發(fā)明提供了一種基于擴(kuò)散模型的虛擬換發(fā)型方法解決無(wú)法處理紋理復(fù)雜的發(fā)型,容易忽略掉細(xì)節(jié),或者產(chǎn)生偽影的問(wèn)題。3、為解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案:4、一方面,本發(fā)明提供了一種基于擴(kuò)散模型的虛擬換發(fā)型系統(tǒng),其包括,5、一階段圖像處理模塊,處理輸入的源圖片和發(fā)型參考圖片,執(zhí)行人臉檢測(cè)、對(duì)齊和圖像裁剪操作;6、禿頂生成器,用于生成源圖片中人物禿頂圖片,即沒(méi)有頭發(fā)的圖片;7、發(fā)型參考網(wǎng)絡(luò),從發(fā)型參考圖片中提取發(fā)型細(xì)節(jié),該網(wǎng)絡(luò)通過(guò)隱空間編碼和交叉注意力機(jī)制提取發(fā)型信息,并將發(fā)型信息細(xì)節(jié)注入到發(fā)型生成擴(kuò)散模型中;8、發(fā)型生成擴(kuò)散模型,基于禿頂生成器生成的禿頂圖片和發(fā)型參考網(wǎng)絡(luò)提供的發(fā)型細(xì)節(jié),生成粗糙換發(fā)型圖片,捕捉發(fā)型的整體輪廓;9、二階段圖像處理模塊,是對(duì)粗糙換發(fā)型圖片進(jìn)行處理,包括人臉檢測(cè)、對(duì)齊和裁剪操作,此外還生成發(fā)型二值掩碼;10、發(fā)型重繪擴(kuò)散模型,將第一階段生成的粗糙換發(fā)型圖片進(jìn)行精細(xì)化重繪,結(jié)合發(fā)型lora訓(xùn)練的發(fā)型特征,重新繪制發(fā)型區(qū)域,使發(fā)型與其他部分和諧融合,輸出精細(xì)發(fā)型圖片。11、另一方面,本發(fā)明提供了一種基于擴(kuò)散模型的虛擬換發(fā)型方法,包括,12、步驟s1,在訓(xùn)練時(shí)選取同一人不同發(fā)型的圖片,例如sketchhairsalon數(shù)據(jù)集;13、步驟s2,從同一人不同發(fā)型圖片中,隨機(jī)選取一張圖片作為源圖片,一張圖片作為發(fā)型參考圖片,然后經(jīng)過(guò)圖像處理模塊處理成所需格式;14、步驟s3,將源圖片isrc輸入到禿頂生成器中,得到禿頂圖片ibald;15、步驟s4,將發(fā)型參考圖片iref輸入到發(fā)型參考網(wǎng)絡(luò)中,提取發(fā)型相關(guān)細(xì)節(jié);16、步驟s5,將禿頂圖片ibald輸入到發(fā)型生成擴(kuò)散模型中,提取的發(fā)型細(xì)節(jié)通過(guò)交叉注意力機(jī)制輸入到發(fā)型生成擴(kuò)散模型中,最終得到粗糙換發(fā)型圖片;17、步驟s6,為每款發(fā)型準(zhǔn)備510張不同角度圖片(不需要背面)作為發(fā)型lora發(fā)型訓(xùn)練集,將發(fā)型訓(xùn)練集中的圖片輸入到圖像處理模塊,得到發(fā)型圖片和發(fā)型描述詞;18、步驟s7,將步驟s6得到的發(fā)型圖片和發(fā)型描述詞輸入到擴(kuò)散模型中,進(jìn)行針對(duì)性發(fā)型的lora訓(xùn)練;19、步驟s8,經(jīng)過(guò)vae解碼器生成精細(xì)換發(fā)型圖片;20、步驟s1-步驟s5為一階段發(fā)型生成步驟,步驟s6-步驟s8為二階段發(fā)型生成步驟;21、由于一階段生成出來(lái)的發(fā)型圖片比較粗糙,所以采用兩階段虛擬換發(fā)型圖片的生成方式;22、第一階段使用訓(xùn)練好的發(fā)型生成擴(kuò)散模型生成粗糙的換發(fā)型圖片,第二階段使用發(fā)型重繪擴(kuò)散模型對(duì)粗糙的換發(fā)型圖片的發(fā)型區(qū)域進(jìn)行重繪,得到最終更加精細(xì)換發(fā)型圖片;23、此處的粗糙和精細(xì)為相對(duì)而言。24、進(jìn)一步的,一階段圖像處理模塊中:25、將源圖片isrc,發(fā)型參考圖片iref輸入到圖像處理模塊,檢測(cè)人臉,再進(jìn)行人臉對(duì)齊,裁剪調(diào)整大小到所需尺寸;26、一階段中的禿頂生成器包含一個(gè)vae編碼器ε、禿頂生成擴(kuò)散模型∈b、禿頂controlnetτb、禿頂生成擴(kuò)散模型和一個(gè)vae解碼器;27、禿頂生成擴(kuò)散模型為隱空間擴(kuò)散模型stablediffusion,采用sdv1.5的預(yù)訓(xùn)練權(quán)重,stablediffusion是經(jīng)典的隱空間擴(kuò)散模型(ldm,latentdiffusionmodel),ldm采用變分自編碼器vae,給定輸入圖片,先經(jīng)過(guò)編碼器將圖片映射到隱空間,使得擴(kuò)散在隱空間中進(jìn)行,在擴(kuò)散的前向過(guò)程中,高斯噪聲會(huì)在t次迭代中逐步添加到隱變量上,反向擴(kuò)散過(guò)程是為了逐步去噪,最后再經(jīng)過(guò)解碼器恢復(fù)到rgb空間,得到最終圖片;28、controlnet分支創(chuàng)建可訓(xùn)練的擴(kuò)散模型unet編碼塊和中間塊的副本,并添加額外的零卷積層,controlnet的編碼塊、中間塊與擴(kuò)散模型的解碼塊、中間塊進(jìn)行相加,此處的擴(kuò)散模型即為禿頂生成擴(kuò)散模型,將每個(gè)副本塊的輸出添加到原始擴(kuò)散模型unet的跳躍連接中;29、隨機(jī)采樣4通道的隱空間高斯噪聲輸入到禿頂生成擴(kuò)散模型中;30、將源圖片輸入到vae編碼器中,得到隱空間編碼zsrc=ε(isrc),將隱空間編碼zsrc輸入到禿頂controlnet中,即禿頂生成擴(kuò)散模型的解碼塊和中間塊的可訓(xùn)練副本,經(jīng)過(guò)零卷積層,通過(guò)殘差連接將禿頂controlnet的編碼塊和中間塊與禿頂生成擴(kuò)散模型的解碼塊和中間塊相加,將源圖片的參考信息輸入到禿頂生成擴(kuò)散模型中;31、最終禿頂生成擴(kuò)散模型的輸出,經(jīng)過(guò)vae解碼器,輸出rgb空間的源圖片中人物的禿頂圖片ib;32、在訓(xùn)練禿頂生成器的過(guò)程中,只訓(xùn)練禿頂controlnet,禿頂生成擴(kuò)散模型、vae編碼器和vae解碼器的權(quán)重固定,采用sdv1.5的預(yù)訓(xùn)練權(quán)重,禿頂controlnet參與訓(xùn)練,初始權(quán)重也采用sdv1.5的預(yù)訓(xùn)練權(quán)重,通過(guò)最小化損失函數(shù),使用adam優(yōu)化器進(jìn)行優(yōu)化迭代,訓(xùn)練禿頂生成器的損失函數(shù)為:其中,表示損失函數(shù),表示期望值,即在給定源圖片isrc的隱空間編碼、從標(biāo)準(zhǔn)高斯分布采樣的噪聲∈,以及時(shí)間步長(zhǎng)t下的期望,∈b表示禿頂生成擴(kuò)散模型的噪聲估計(jì)器,負(fù)責(zé)在每個(gè)時(shí)間步長(zhǎng)t下預(yù)測(cè)輸入的噪聲分布,τb(ε(isrc)表示由禿頂controlnet模型τb生成的輸入源圖片的禿頂特征,經(jīng)過(guò)vae編碼器ε對(duì)源圖片isrc進(jìn)行隱空間編碼,并在時(shí)間步長(zhǎng)t進(jìn)行處理,∈表示高斯噪聲,表示l2范數(shù)。33、進(jìn)一步的,一階段中的發(fā)型參考網(wǎng)絡(luò)中,34、發(fā)型參考網(wǎng)絡(luò)τh是基于隱空間擴(kuò)散模型stablediffusion訓(xùn)練得到:35、將發(fā)型參考圖片iref輸入到預(yù)訓(xùn)練的vae編碼器ε中,得到隱空間編碼z=ε(iref);36、將隱空間編碼z輸入到發(fā)型參考網(wǎng)絡(luò)τh中,提取到發(fā)型細(xì)節(jié)特征ch,通過(guò)交叉注意力機(jī)制輸入到發(fā)型生成擴(kuò)散模型中,交叉注意力機(jī)制計(jì)算方式為:37、其中,z″表示交叉注意力機(jī)制的輸出結(jié)果,q=zwq,k′=chw′k,v′=chw′v分別為圖片特征的查詢、鍵和值矩陣,wq、w′k和w′v為可訓(xùn)練的線性映射層,查詢矩陣采用的是和自注意力機(jī)制相同的查詢矩陣,d表示特征維度,t表示轉(zhuǎn)置操作。38、進(jìn)一步的,一階段中的發(fā)型生成擴(kuò)散模型中,39、發(fā)型生成擴(kuò)散模型∈b是基于預(yù)訓(xùn)練的stablediffusion模型訓(xùn)練得到:40、將禿頂生成器生成的禿頂圖片ib輸入到預(yù)訓(xùn)練的vae編碼器中,得到隱空間編碼zb=ε(iref);41、隨機(jī)生成隱空間高斯噪聲加上得到的隱空間編碼zb,輸入到發(fā)型生成擴(kuò)散模型中,經(jīng)過(guò)特征層得到特征z,經(jīng)過(guò)自注意力機(jī)制進(jìn)行注意力計(jì)算:42、其中,q=zwq,k=zwk,v=zwv分別為圖片特征的查詢、鍵和值矩陣,wk和wv為可訓(xùn)練的線性映射層,查詢矩陣q采用的是和發(fā)型參考網(wǎng)絡(luò)發(fā)型交叉注意力機(jī)制相同的查詢矩陣,經(jīng)過(guò)自注意力機(jī)制后,再經(jīng)過(guò)交叉注意力機(jī)制z′,將得到的注意力相加:znew=z′+z″,得到新的注意力znew,將頭發(fā)準(zhǔn)確地轉(zhuǎn)移到源圖像中區(qū)域;43、經(jīng)過(guò)后續(xù)的特征層,將最終輸出的隱空間特征層輸入到預(yù)訓(xùn)練的vae解碼器中,得到rgb空間的粗糙的換發(fā)型圖片。44、進(jìn)一步的,二階段的發(fā)型生成訓(xùn)練過(guò)程中:45、針對(duì)每一款發(fā)型訓(xùn)練了一個(gè)lora小模型:w=w0+δw=w0+ba,其中,w表示微調(diào)后的權(quán)重矩陣,δw表示權(quán)重更新量,預(yù)訓(xùn)練權(quán)重為w0∈rd×k,另外的低秩矩陣b∈rd×r,a∈rr×k,并且秩r<<min(d,k),d,k分別表示特征維度和輸出維度,減少訓(xùn)練負(fù)擔(dān),而且使得模型能夠快速捕捉到每款發(fā)型的獨(dú)特特征,從而在保持訓(xùn)練效率的同時(shí),顯著提升了生成圖片的質(zhì)量。46、進(jìn)一步的,二階段的圖像處理模塊中:47、使用大模型對(duì)輸入的發(fā)型進(jìn)行打標(biāo),即得到對(duì)發(fā)型的描述詞;48、采用開(kāi)源的圖像分割模型sam對(duì)頭發(fā)進(jìn)行分割,得到發(fā)型圖片ih。49、進(jìn)一步的,二階段的lora訓(xùn)練過(guò)程中,擴(kuò)散模型∈θ采用預(yù)訓(xùn)練的sdv1.5作為預(yù)訓(xùn)練權(quán)重:50、將二階段圖像處理模塊得到的發(fā)型描述詞輸入到預(yù)訓(xùn)練的clip文本編碼器中,得到文本編碼ct,通過(guò)文本交叉注意力機(jī)制輸入到擴(kuò)散模型中;51、將二階段圖像處理模塊得到的發(fā)型圖片輸入到vae編碼器中,得到隱空間編碼zh=ε(ih),加上隨機(jī)生成隱空間高斯噪聲輸入到擴(kuò)散模型中,將發(fā)型lora的權(quán)重應(yīng)用到擴(kuò)散模型上;52、擴(kuò)散模型的最后特征層輸出,經(jīng)過(guò)vae解碼器,得到rgb空間的發(fā)型圖片;53、在訓(xùn)練過(guò)程中,通過(guò)最小化損失函數(shù),使用adam優(yōu)化器進(jìn)行優(yōu)化迭代,擴(kuò)散模型的權(quán)重固定,只訓(xùn)練發(fā)型lora,訓(xùn)練發(fā)型lora的損失函數(shù)為:54、其中,為損失函數(shù),表示期望值,∈θ+δθ表示發(fā)型lora集成的擴(kuò)散模型,經(jīng)過(guò)權(quán)重調(diào)整θ+δθ后對(duì)噪聲進(jìn)行估計(jì),δθ表示lora模型訓(xùn)練中微調(diào)的權(quán)重增量,zt表示隱空間的發(fā)型圖片編碼結(jié)果,ct表示文本描述詞的編碼結(jié)果,∈表示高斯噪聲。55、進(jìn)一步的,二階段的圖像處理模塊中:56、在推理階段,與訓(xùn)練階段不同的是擴(kuò)散模型采用的是預(yù)訓(xùn)練的stablediffusion重繪模型;57、重繪擴(kuò)散模型的目標(biāo)為在一張圖片的用戶指定區(qū)域,重新繪制用戶所需的圖像,且保證繪制區(qū)域能與原始圖像和諧融合,重繪擴(kuò)散模型用在虛擬換發(fā)型上,旨在將源圖片的發(fā)型剝離,將發(fā)型lora訓(xùn)練的目標(biāo)發(fā)型重新繪制在模特身上,使得其他部分保留在原始狀態(tài),生成的發(fā)型更加真實(shí)自然;58、在推理階段,圖像處理模塊首先對(duì)輸入粗糙換發(fā)型圖片進(jìn)行人臉檢測(cè)、人臉對(duì)齊,裁剪調(diào)整到所需尺寸;59、再使用開(kāi)源圖像分割方法sam將發(fā)型從源圖片、粗糙換發(fā)型圖片中分割出來(lái),疊加得到發(fā)型二值掩碼i′m,再將發(fā)型二值掩碼進(jìn)行擴(kuò)張,得到擴(kuò)張之后的發(fā)型二值掩碼im;60、將發(fā)型二值掩碼im與粗糙換發(fā)型圖片疊加得到遮擋發(fā)型的圖片ibg;61、獲取lora訓(xùn)練過(guò)程中達(dá)標(biāo)得到的針對(duì)此次發(fā)型的描述詞。62、進(jìn)一步的,二階段的發(fā)型重繪擴(kuò)散模型中:63、將發(fā)型描述詞輸入到clip文本編碼器中,得到文本編碼ct;64、將遮擋發(fā)型的模特圖片ibg輸入到vae編碼器ε中,得到4通道的重繪背景隱編碼zbg=ε(ibg),生成隱空間隨機(jī)高斯噪聲將4通道的重繪背景隱編碼zbg、4通道的隱空間噪聲∈和二階段的圖像處理模塊得到的1通道的發(fā)型二值掩碼圖im,沿通道拼接,得到9通道的輸入;65、將9通道輸入輸入到發(fā)型lora集成的發(fā)型重繪擴(kuò)散模型中,經(jīng)過(guò)循環(huán)去噪,發(fā)型重繪擴(kuò)散模型輸出的特征層,最后經(jīng)過(guò)vae解碼器,得到精細(xì)換發(fā)型圖片。66、本發(fā)明有益效果為:67、本發(fā)明,通過(guò)兩階段的生成方法,第一階段生成較粗糙的發(fā)型圖片,而第二階段通過(guò)重繪機(jī)制將其精細(xì)化,使生成的發(fā)型圖片具有更高的細(xì)節(jié)保真度,第二階段采用發(fā)型重繪擴(kuò)散模型,使得發(fā)型在復(fù)雜的紋理和細(xì)節(jié)上能夠更好地呈現(xiàn),避免出現(xiàn)傳統(tǒng)方法中生成發(fā)型圖片容易出現(xiàn)模糊或細(xì)節(jié)丟失。68、本發(fā)明,針對(duì)傳統(tǒng)基于gan的方法往往難以處理復(fù)雜紋理的發(fā)型,容易產(chǎn)生偽影或忽略細(xì)節(jié)一問(wèn)題,基于擴(kuò)散模型的方案,結(jié)合交叉注意力機(jī)制,更好地捕捉發(fā)型細(xì)節(jié),通過(guò)在生成過(guò)程中注入發(fā)型參考信息,保證發(fā)型細(xì)節(jié)的傳遞,可以處理更加復(fù)雜的發(fā)型樣式,并且保持較高的穩(wěn)定性。69、本發(fā)明,在第二階段中引入lora模型進(jìn)行發(fā)型微調(diào),減少了訓(xùn)練參數(shù)的數(shù)量,提高了訓(xùn)練效率,輕量化的微調(diào)方法能夠快速適應(yīng)不同發(fā)型的生成需求,且不需要完全重新訓(xùn)練整個(gè)模型,節(jié)省計(jì)算資源和時(shí)間,適合個(gè)性化發(fā)型生成的需求。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1