本發(fā)明涉及計算機(jī)視覺,尤其涉及一種生成指定人像圖片的系統(tǒng)和方法。
背景技術(shù):
::1、近年來,隨著科技的迅猛發(fā)展和社會的不斷進(jìn)步,基于大模型的生成式技術(shù)在圖像生成領(lǐng)域取得了顯著的進(jìn)展。這些技術(shù)不僅在學(xué)術(shù)研究中占據(jù)了重要地位,也在實(shí)際應(yīng)用中展現(xiàn)出了巨大的潛力和價值。其中,stable?diffusion作為一種新興的圖像生成方法,以其高效、穩(wěn)定和靈活的特性,同時開代碼源不斷更新的優(yōu)勢,迅速引起了廣泛關(guān)注和應(yīng)用。2、stable?diffusion是一種基于擴(kuò)散過程的生成模型,它通過逐步去噪和重構(gòu)輸入數(shù)據(jù)來生成高質(zhì)量的圖像。相比傳統(tǒng)的生成對抗網(wǎng)絡(luò)(gans)和變分自編碼器(vaes),stable?diffusion具有更強(qiáng)的生成能力和更高的穩(wěn)定性。這使得它在處理復(fù)雜的圖像生成任務(wù)時,能夠更加精準(zhǔn)地捕捉圖像的細(xì)節(jié)和紋理,從而生成更加逼真和細(xì)膩的圖像。3、但是現(xiàn)有的stable?diffusion技術(shù)都存在隨機(jī)生成的問題,無法指定生成的人臉信息,因此目前處于只能隨機(jī)生成人臉圖像的問題,無法生成指定人臉的圖片(如全身照,風(fēng)景照等)。由于生成過程是隱性的生成,通過文本來籠統(tǒng)地描述,無法準(zhǔn)確地表達(dá)出希望獲得地圖像。同時如果想要生成風(fēng)格不同地相同人物,則更需要大量的文本來定位風(fēng)格。這種方式不僅耗時耗力,生成的結(jié)果還不穩(wěn)定。4、同時,現(xiàn)有技術(shù)對于人像生成的細(xì)節(jié)沒有進(jìn)行約束,對于生成的結(jié)果沒有辦法進(jìn)行指定生成。這種隨機(jī)性蘊(yùn)含在生成的方法中,只有將給定信息注入生成過程中,同時將人像等細(xì)節(jié)提取出來,才可以達(dá)到指定人像生成的效果。5、因此,本領(lǐng)域的技術(shù)人員致力于開發(fā)一種生成指定人像圖片的系統(tǒng)和方法。技術(shù)實(shí)現(xiàn)思路1、有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是如何準(zhǔn)確獲取人臉圖像提供的信息,避免生成圖像與提供圖像的形象要素相差過大和生成圖像細(xì)節(jié)不足。2、stable?diffusion是一種基于逆擴(kuò)散過程的生成模型,通過逐步去噪和重構(gòu)輸入數(shù)據(jù)生成高質(zhì)量的圖像。具體地,首先對人臉圖片和文本進(jìn)行預(yù)處理,提取人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量,然后進(jìn)行融合,得到多模態(tài)信息特征向量,再通過逆擴(kuò)散過程得到去噪圖像特征向量,將去噪圖像特征向量解碼后進(jìn)行超分辨率操作,得到指定人像圖片。3、本發(fā)明的一個實(shí)施例中,提供了一種生成指定人像圖片的系統(tǒng),包括:4、信息預(yù)處理模塊,預(yù)處理人臉圖片和文本,提取人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量,發(fā)送到多模態(tài)信息融合模塊;5、多模態(tài)信息融合模塊,接收并引導(dǎo)人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量相互融合,得到多模態(tài)信息特征向量,發(fā)送到圖像生成模塊;6、圖像生成模塊,接收多模態(tài)信息特征向量,通過逆擴(kuò)散過程得到去噪圖像特征向量,發(fā)送到后處理模塊;7、后處理模塊,接收去噪圖像特征向量,進(jìn)行圖像恢復(fù)和超分辨率操作,得到指定人像圖片;8、信息預(yù)處理模塊、多模態(tài)信息融合模塊、圖像生成模塊和后處理模塊依次通信連接;9、信息預(yù)處理模塊對人臉圖片和文本進(jìn)行預(yù)處理,提取人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量,發(fā)送到多模態(tài)信息融合模塊進(jìn)行融合,得到多模態(tài)信息特征向量,發(fā)送到圖像生成模塊,通過逆擴(kuò)散過程得到去噪圖像特征向量,發(fā)送到后處理模塊,進(jìn)行超分辨率操作,得到指定人像圖片。10、可選地,在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中,信息預(yù)處理模塊包括:11、人臉檢測提取單元,使用人臉檢測模型,確定人臉位置信息,進(jìn)行裁剪得到單獨(dú)人臉,利用多層卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征向量;12、文本編碼器單元,使用編碼技術(shù),將自然語言描述轉(zhuǎn)化為高維度的語義特征向量,捕捉文本的語義和上下文信息,提取文本特征向量;13、噪聲注入單元,使用噪聲注入方法,向參考圖像中注入隨機(jī)噪聲,得到擴(kuò)散后的噪聲圖像,作為逆擴(kuò)散過程的起點(diǎn),提取噪聲特征向量;14、圖像編碼器單元,使用多層卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的有用特征,轉(zhuǎn)換為潛在向量空間表示,提取參考圖像特征向量。15、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中,人臉檢測模型基于卷積神經(jīng)網(wǎng)絡(luò)。16、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中,人臉特征向量包含豐富的人臉語義信息,包括面部細(xì)節(jié)、性別、發(fā)型,保留目標(biāo)人物的身份信息。17、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中,編碼技術(shù)使用clip(contrastive?language-image?pre-training,多模態(tài)預(yù)訓(xùn)練)模型,在大規(guī)模文本語料庫上進(jìn)行無監(jiān)督學(xué)習(xí),獲得豐富的語言表征能力。18、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中,clip模型利用多層transformer編碼器對嵌入向量進(jìn)行編碼,生成固定長度的文本特征向量,編碼層通過自注意力機(jī)制,捕捉句子中詞與詞之間的關(guān)系和上下文依賴。19、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中,隨機(jī)噪聲采用標(biāo)準(zhǔn)高斯噪聲,通過生成高斯分布的隨機(jī)向量注入到初始圖像中。20、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中,噪聲注入方法為直接將噪聲向量添加到圖像像素值中。21、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中,潛在向量空間表示將用于指導(dǎo)生成新圖像的過程。22、可選地,在上述任一實(shí)施例中的生成指定人像圖片的系統(tǒng)中,多模態(tài)信息融合模塊包括:23、交叉注意力單元,接收并引導(dǎo)人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量相互融合。24、可選地,在上述任一實(shí)施例中的生成指定人像圖片的系統(tǒng)中,圖像生成模塊包括:25、條件生成網(wǎng)絡(luò)單元,利用文本特征向量和人臉特征向量引導(dǎo)生成過程,使生成圖像與輸入文本描述相符,同時包含指定人臉信息,得到融合文本特征向量和人臉特征向量的噪聲圖像;26、逆擴(kuò)散過程單元,針對融合文本特征向量和人臉特征向量的噪聲圖像逐步去噪,生成去噪圖像特征向量。27、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中,條件生成網(wǎng)絡(luò)單元包含下采樣部分和上采樣部分,其中下采樣部分融合文本特征向量和噪聲圖像指導(dǎo)生成過程,上采樣部分融合人臉特征向量和下采樣部分處理后的噪聲圖像指導(dǎo)生成過程,得到融合文本特征向量和人臉特征向量的噪聲圖像。28、可選地,在上述任一實(shí)施例中的生成指定人像圖片的系統(tǒng)中,后處理模塊包括:29、圖像解碼器單元,使用多層卷積神經(jīng)網(wǎng)絡(luò)將去噪圖像特征向量轉(zhuǎn)換為像素級別的真實(shí)圖像;30、超分辨率單元,將像素級別的真實(shí)圖像進(jìn)行超分辨率操作,提高分辨率和清晰度,從低分辨率圖像生成高分辨率圖像,得到指定人像圖片。31、基于上述任一實(shí)施例,本發(fā)明的另一個實(shí)施例中,提供了一種生成指定人像圖片的方法,包括如下步驟:32、s100、人臉圖像預(yù)處理,使用人臉檢測模型,確定人臉位置信息,進(jìn)行裁剪得到單獨(dú)人臉,利用多層卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征向量;33、s200、文本預(yù)處理,使用編碼技術(shù),將自然語言描述轉(zhuǎn)化為高維度的語義特征向量,捕捉文本的語義和上下文信息,提取文本特征向量;34、s300、噪聲注入預(yù)處理,使用噪聲注入方法,向參考圖像中注入隨機(jī)噪聲,得到擴(kuò)散后的噪聲圖像,作為逆擴(kuò)散過程的起點(diǎn),提取噪聲特征向量;35、s400、參考圖像預(yù)處理,使用多層卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的有用特征,轉(zhuǎn)換為潛在向量空間表示,提取參考圖像特征向量;36、s500、多模態(tài)特征信息融合,接收并引導(dǎo)人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量相互融合,得到多模態(tài)信息特征向量;37、s600、去噪圖像特征向量獲取,接收多模態(tài)信息特征向量,通過逆擴(kuò)散過程得到去噪圖像特征向量;38、s700、圖像恢復(fù),使用多層卷積神經(jīng)網(wǎng)絡(luò)將去噪圖像特征向量轉(zhuǎn)換為像素級別的真實(shí)圖像;39、s800、圖像后處理,將真實(shí)圖像進(jìn)行超分辨率操作,提高分辨率和清晰度,得到指定人像圖片。40、可選地,在上述實(shí)施例中的生成指定人像圖片的方法中,步驟s100包括:41、s110、人臉圖像檢測,使用人臉檢測模型確定人臉位置信息;42、s120、人臉裁剪,去除其他干擾信息,進(jìn)行人臉裁剪得到單獨(dú)人臉;43、s130、人臉特征向量提取,利用多層卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征向量。44、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的方法中,人臉檢測模型基于卷積神經(jīng)網(wǎng)絡(luò)。45、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的方法中,編碼技術(shù)使用clip(contrastive?language-image?pre-training,多模態(tài)預(yù)訓(xùn)練)模型,在大規(guī)模文本語料庫上進(jìn)行無監(jiān)督學(xué)習(xí),獲得豐富的語言表征能力。46、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的方法中,clip模型利用多層transformer編碼器對嵌入向量進(jìn)行編碼,生成固定長度的文本特征向量,編碼層通過自注意力機(jī)制,捕捉句子中詞與詞之間的關(guān)系和上下文依賴。47、可選地,在上述任一實(shí)施例中的生成指定人像圖片的方法中,步驟s300中噪聲注入方法包括采用標(biāo)準(zhǔn)高斯噪聲,通過生成高斯分布的隨機(jī)向量注入到初始圖像中。48、可選地,在上述任一實(shí)施例中的生成指定人像圖片的方法中,步驟s500包括:49、s510、噪聲圖像生成,利用文本特征向量和人臉特征向量引導(dǎo)生成過程,使生成圖像與輸入文本描述相符,同時包含指定人臉信息,得到融合文本特征向量和人臉特征向量的噪聲圖像;50、s520、去噪圖像特征向量生成,針對融合文本特征向量和人臉特征向量的噪聲圖像逐步去噪,生成去噪圖像特征向量。51、進(jìn)一步地,在上述實(shí)施例中的生成指定人像圖片的方法中,步驟s510包括:52、s511、下采樣,融合文本特征向量和噪聲圖像指導(dǎo)生成過程;53、s512、上采樣,融合人臉特征向量和噪聲圖像指導(dǎo)生成過程,得到融合文本特征向量和人臉特征向量的噪聲圖像。54、本發(fā)明使用人臉檢測模型、編碼技術(shù)、噪聲注入方法、多層卷積神經(jīng)網(wǎng)絡(luò)依次對臉圖像進(jìn)行處理,然后進(jìn)行多模態(tài)特征信息融合,通過逆擴(kuò)散過程去噪,進(jìn)行圖像恢復(fù)和超分辨率操作,得到指定人像圖片,準(zhǔn)確獲取人臉圖像提供的信息,避免了生成圖像與提供圖像的形象要素相差過大和生成圖像細(xì)節(jié)不足,降低了噪聲,提高了圖像分辨率。55、以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說明,以充分地了解本發(fā)明的目的、特征和效果。當(dāng)前第1頁12當(dāng)前第1頁12