一種生成指定人像圖片的系統(tǒng)和方法

文檔序號：40353065發(fā)布日期：2024-12-18 13:30閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計算機(jī)視覺，尤其涉及一種生成指定人像圖片的系統(tǒng)和方法。
背景技術(shù)：
：：1、近年來，隨著科技的迅猛發(fā)展和社會的不斷進(jìn)步，基于大模型的生成式技術(shù)在圖像生成領(lǐng)域取得了顯著的進(jìn)展。這些技術(shù)不僅在學(xué)術(shù)研究中占據(jù)了重要地位，也在實(shí)際應(yīng)用中展現(xiàn)出了巨大的潛力和價值。其中，stable?diffusion作為一種新興的圖像生成方法，以其高效、穩(wěn)定和靈活的特性，同時開代碼源不斷更新的優(yōu)勢，迅速引起了廣泛關(guān)注和應(yīng)用。2、stable?diffusion是一種基于擴(kuò)散過程的生成模型，它通過逐步去噪和重構(gòu)輸入數(shù)據(jù)來生成高質(zhì)量的圖像。相比傳統(tǒng)的生成對抗網(wǎng)絡(luò)(gans)和變分自編碼器(vaes)，stable?diffusion具有更強(qiáng)的生成能力和更高的穩(wěn)定性。這使得它在處理復(fù)雜的圖像生成任務(wù)時，能夠更加精準(zhǔn)地捕捉圖像的細(xì)節(jié)和紋理，從而生成更加逼真和細(xì)膩的圖像。3、但是現(xiàn)有的stable?diffusion技術(shù)都存在隨機(jī)生成的問題，無法指定生成的人臉信息，因此目前處于只能隨機(jī)生成人臉圖像的問題，無法生成指定人臉的圖片(如全身照，風(fēng)景照等)。由于生成過程是隱性的生成，通過文本來籠統(tǒng)地描述，無法準(zhǔn)確地表達(dá)出希望獲得地圖像。同時如果想要生成風(fēng)格不同地相同人物，則更需要大量的文本來定位風(fēng)格。這種方式不僅耗時耗力，生成的結(jié)果還不穩(wěn)定。4、同時，現(xiàn)有技術(shù)對于人像生成的細(xì)節(jié)沒有進(jìn)行約束，對于生成的結(jié)果沒有辦法進(jìn)行指定生成。這種隨機(jī)性蘊(yùn)含在生成的方法中，只有將給定信息注入生成過程中，同時將人像等細(xì)節(jié)提取出來，才可以達(dá)到指定人像生成的效果。5、因此，本領(lǐng)域的技術(shù)人員致力于開發(fā)一種生成指定人像圖片的系統(tǒng)和方法。技術(shù)實(shí)現(xiàn)思路1、有鑒于現(xiàn)有技術(shù)的上述缺陷，本發(fā)明所要解決的技術(shù)問題是如何準(zhǔn)確獲取人臉圖像提供的信息，避免生成圖像與提供圖像的形象要素相差過大和生成圖像細(xì)節(jié)不足。2、stable?diffusion是一種基于逆擴(kuò)散過程的生成模型，通過逐步去噪和重構(gòu)輸入數(shù)據(jù)生成高質(zhì)量的圖像。具體地，首先對人臉圖片和文本進(jìn)行預(yù)處理，提取人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量，然后進(jìn)行融合，得到多模態(tài)信息特征向量，再通過逆擴(kuò)散過程得到去噪圖像特征向量，將去噪圖像特征向量解碼后進(jìn)行超分辨率操作，得到指定人像圖片。3、本發(fā)明的一個實(shí)施例中，提供了一種生成指定人像圖片的系統(tǒng)，包括：4、信息預(yù)處理模塊，預(yù)處理人臉圖片和文本，提取人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量，發(fā)送到多模態(tài)信息融合模塊；5、多模態(tài)信息融合模塊，接收并引導(dǎo)人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量相互融合，得到多模態(tài)信息特征向量，發(fā)送到圖像生成模塊；6、圖像生成模塊，接收多模態(tài)信息特征向量，通過逆擴(kuò)散過程得到去噪圖像特征向量，發(fā)送到后處理模塊；7、后處理模塊，接收去噪圖像特征向量，進(jìn)行圖像恢復(fù)和超分辨率操作，得到指定人像圖片；8、信息預(yù)處理模塊、多模態(tài)信息融合模塊、圖像生成模塊和后處理模塊依次通信連接；9、信息預(yù)處理模塊對人臉圖片和文本進(jìn)行預(yù)處理，提取人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量，發(fā)送到多模態(tài)信息融合模塊進(jìn)行融合，得到多模態(tài)信息特征向量，發(fā)送到圖像生成模塊，通過逆擴(kuò)散過程得到去噪圖像特征向量，發(fā)送到后處理模塊，進(jìn)行超分辨率操作，得到指定人像圖片。10、可選地，在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中，信息預(yù)處理模塊包括：11、人臉檢測提取單元，使用人臉檢測模型，確定人臉位置信息，進(jìn)行裁剪得到單獨(dú)人臉，利用多層卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征向量；12、文本編碼器單元，使用編碼技術(shù)，將自然語言描述轉(zhuǎn)化為高維度的語義特征向量，捕捉文本的語義和上下文信息，提取文本特征向量；13、噪聲注入單元，使用噪聲注入方法，向參考圖像中注入隨機(jī)噪聲，得到擴(kuò)散后的噪聲圖像，作為逆擴(kuò)散過程的起點(diǎn)，提取噪聲特征向量；14、圖像編碼器單元，使用多層卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的有用特征，轉(zhuǎn)換為潛在向量空間表示，提取參考圖像特征向量。15、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中，人臉檢測模型基于卷積神經(jīng)網(wǎng)絡(luò)。16、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中，人臉特征向量包含豐富的人臉語義信息，包括面部細(xì)節(jié)、性別、發(fā)型，保留目標(biāo)人物的身份信息。17、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中，編碼技術(shù)使用clip(contrastive?language-image?pre-training，多模態(tài)預(yù)訓(xùn)練)模型，在大規(guī)模文本語料庫上進(jìn)行無監(jiān)督學(xué)習(xí)，獲得豐富的語言表征能力。18、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中，clip模型利用多層transformer編碼器對嵌入向量進(jìn)行編碼，生成固定長度的文本特征向量，編碼層通過自注意力機(jī)制，捕捉句子中詞與詞之間的關(guān)系和上下文依賴。19、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中，隨機(jī)噪聲采用標(biāo)準(zhǔn)高斯噪聲，通過生成高斯分布的隨機(jī)向量注入到初始圖像中。20、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中，噪聲注入方法為直接將噪聲向量添加到圖像像素值中。21、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中，潛在向量空間表示將用于指導(dǎo)生成新圖像的過程。22、可選地，在上述任一實(shí)施例中的生成指定人像圖片的系統(tǒng)中，多模態(tài)信息融合模塊包括：23、交叉注意力單元，接收并引導(dǎo)人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量相互融合。24、可選地，在上述任一實(shí)施例中的生成指定人像圖片的系統(tǒng)中，圖像生成模塊包括：25、條件生成網(wǎng)絡(luò)單元，利用文本特征向量和人臉特征向量引導(dǎo)生成過程，使生成圖像與輸入文本描述相符，同時包含指定人臉信息，得到融合文本特征向量和人臉特征向量的噪聲圖像；26、逆擴(kuò)散過程單元，針對融合文本特征向量和人臉特征向量的噪聲圖像逐步去噪，生成去噪圖像特征向量。27、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的系統(tǒng)中，條件生成網(wǎng)絡(luò)單元包含下采樣部分和上采樣部分，其中下采樣部分融合文本特征向量和噪聲圖像指導(dǎo)生成過程，上采樣部分融合人臉特征向量和下采樣部分處理后的噪聲圖像指導(dǎo)生成過程，得到融合文本特征向量和人臉特征向量的噪聲圖像。28、可選地，在上述任一實(shí)施例中的生成指定人像圖片的系統(tǒng)中，后處理模塊包括：29、圖像解碼器單元，使用多層卷積神經(jīng)網(wǎng)絡(luò)將去噪圖像特征向量轉(zhuǎn)換為像素級別的真實(shí)圖像；30、超分辨率單元，將像素級別的真實(shí)圖像進(jìn)行超分辨率操作，提高分辨率和清晰度，從低分辨率圖像生成高分辨率圖像，得到指定人像圖片。31、基于上述任一實(shí)施例，本發(fā)明的另一個實(shí)施例中，提供了一種生成指定人像圖片的方法，包括如下步驟：32、s100、人臉圖像預(yù)處理，使用人臉檢測模型，確定人臉位置信息，進(jìn)行裁剪得到單獨(dú)人臉，利用多層卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征向量；33、s200、文本預(yù)處理，使用編碼技術(shù)，將自然語言描述轉(zhuǎn)化為高維度的語義特征向量，捕捉文本的語義和上下文信息，提取文本特征向量；34、s300、噪聲注入預(yù)處理，使用噪聲注入方法，向參考圖像中注入隨機(jī)噪聲，得到擴(kuò)散后的噪聲圖像，作為逆擴(kuò)散過程的起點(diǎn)，提取噪聲特征向量；35、s400、參考圖像預(yù)處理，使用多層卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的有用特征，轉(zhuǎn)換為潛在向量空間表示，提取參考圖像特征向量；36、s500、多模態(tài)特征信息融合，接收并引導(dǎo)人臉特征向量、文本特征向量、噪聲特征向量和參考圖像特征向量相互融合，得到多模態(tài)信息特征向量；37、s600、去噪圖像特征向量獲取，接收多模態(tài)信息特征向量，通過逆擴(kuò)散過程得到去噪圖像特征向量；38、s700、圖像恢復(fù)，使用多層卷積神經(jīng)網(wǎng)絡(luò)將去噪圖像特征向量轉(zhuǎn)換為像素級別的真實(shí)圖像；39、s800、圖像后處理，將真實(shí)圖像進(jìn)行超分辨率操作，提高分辨率和清晰度，得到指定人像圖片。40、可選地，在上述實(shí)施例中的生成指定人像圖片的方法中，步驟s100包括：41、s110、人臉圖像檢測，使用人臉檢測模型確定人臉位置信息；42、s120、人臉裁剪，去除其他干擾信息，進(jìn)行人臉裁剪得到單獨(dú)人臉；43、s130、人臉特征向量提取，利用多層卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征向量。44、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的方法中，人臉檢測模型基于卷積神經(jīng)網(wǎng)絡(luò)。45、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的方法中，編碼技術(shù)使用clip(contrastive?language-image?pre-training，多模態(tài)預(yù)訓(xùn)練)模型，在大規(guī)模文本語料庫上進(jìn)行無監(jiān)督學(xué)習(xí)，獲得豐富的語言表征能力。46、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的方法中，clip模型利用多層transformer編碼器對嵌入向量進(jìn)行編碼，生成固定長度的文本特征向量，編碼層通過自注意力機(jī)制，捕捉句子中詞與詞之間的關(guān)系和上下文依賴。47、可選地，在上述任一實(shí)施例中的生成指定人像圖片的方法中，步驟s300中噪聲注入方法包括采用標(biāo)準(zhǔn)高斯噪聲，通過生成高斯分布的隨機(jī)向量注入到初始圖像中。48、可選地，在上述任一實(shí)施例中的生成指定人像圖片的方法中，步驟s500包括：49、s510、噪聲圖像生成，利用文本特征向量和人臉特征向量引導(dǎo)生成過程，使生成圖像與輸入文本描述相符，同時包含指定人臉信息，得到融合文本特征向量和人臉特征向量的噪聲圖像；50、s520、去噪圖像特征向量生成，針對融合文本特征向量和人臉特征向量的噪聲圖像逐步去噪，生成去噪圖像特征向量。51、進(jìn)一步地，在上述實(shí)施例中的生成指定人像圖片的方法中，步驟s510包括：52、s511、下采樣，融合文本特征向量和噪聲圖像指導(dǎo)生成過程；53、s512、上采樣，融合人臉特征向量和噪聲圖像指導(dǎo)生成過程，得到融合文本特征向量和人臉特征向量的噪聲圖像。54、本發(fā)明使用人臉檢測模型、編碼技術(shù)、噪聲注入方法、多層卷積神經(jīng)網(wǎng)絡(luò)依次對臉圖像進(jìn)行處理，然后進(jìn)行多模態(tài)特征信息融合，通過逆擴(kuò)散過程去噪，進(jìn)行圖像恢復(fù)和超分辨率操作，得到指定人像圖片，準(zhǔn)確獲取人臉圖像提供的信息，避免了生成圖像與提供圖像的形象要素相差過大和生成圖像細(xì)節(jié)不足，降低了噪聲，提高了圖像分辨率。55、以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說明，以充分地了解本發(fā)明的目的、特征和效果。當(dāng)前第1頁12當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：魏澤冰,王成光,楊根科,褚健
技術(shù)所有人：上海交通大學(xué)寧波人工智能研究院
我是此專利的發(fā)明人

上一篇：一種工業(yè)余氯儀用的吸藥結(jié)構(gòu)的制作方法
上一篇：一種電視機(jī)支架焊接夾具的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種生成指定人像圖片的系統(tǒng)和方法