本技術(shù)涉及人工智能和金融科技,尤其涉及一種人臉生成方法和裝置、電子設(shè)備、存儲介質(zhì)。
背景技術(shù):
1、人臉生成是一種計算機圖形學(xué)和人工智能的技術(shù),人臉生成技術(shù)可以用于生成與面部特征匹配的圖像。人臉生成技術(shù)可以應(yīng)用于說話人臉合成,從而合成與語音內(nèi)容匹配的圖像或者動畫,以實現(xiàn)將語音內(nèi)容和人臉圖片轉(zhuǎn)換為人臉動畫,說話人臉合成技術(shù)可以用于視頻游戲、虛擬主持人、語音助手等場景。當(dāng)前的說話人臉合成技術(shù)中,主要是基于深度學(xué)習(xí)技術(shù),需要依賴于較多的訓(xùn)練樣本,且所生成的人臉不準確、比較僵硬。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的主要目的在于提出一種人臉生成方法和裝置、電子設(shè)備、存儲介質(zhì),旨在提高人臉生成的準確性。
2、為實現(xiàn)上述目的,本技術(shù)實施例的第一方面提出了一種人臉生成方法,所述方法包括:
3、獲取目標對象的當(dāng)前人臉數(shù)據(jù);其中,所述當(dāng)前人臉數(shù)據(jù)包括第一人臉圖像、第二人臉圖像、遮擋人臉圖像,所述第一人臉圖像具有所述目標對象的第一頭部姿勢,所述第二人臉圖像具有所述目標對象的第二頭部姿勢,所述第一頭部姿勢和所述第二頭部姿勢不相同,所述遮擋人臉圖像是由對所述第一人臉圖像遮擋嘴部得到的圖像;
4、對所述第一人臉圖像進行加噪處理,得到具有所述第一頭部姿勢的加噪人臉圖像;
5、對所述遮擋人臉圖像進行編碼處理得到具有所述第一頭部姿勢的第一嵌入圖像,對所述第二人臉圖像進行編碼處理,得到具有所述第二頭部姿勢的第二嵌入圖像;
6、對所述加噪人臉圖像、所述第一嵌入圖像、所述第二嵌入圖像進行圖像合并,得到人臉合并圖像;
7、獲取目標語音數(shù)據(jù),并對所述目標語音數(shù)據(jù)進行編碼處理,得到目標語音嵌入數(shù)據(jù);
8、基于所述目標語音嵌入數(shù)據(jù)和目標人臉關(guān)鍵點嵌入數(shù)據(jù)對所述人臉合并圖像進行人臉重構(gòu),得到目標人臉圖像;其中,所述目標人臉關(guān)鍵點嵌入數(shù)據(jù)是基于對所述目標對象的人臉關(guān)鍵點進行編碼得到。
9、在一些實施例,所述基于所述目標語音嵌入數(shù)據(jù)和目標人臉關(guān)鍵點嵌入數(shù)據(jù)對所述人臉合并圖像進行人臉重構(gòu),得到目標人臉圖像,包括:
10、對所述目標語音嵌入數(shù)據(jù)進行語音特征提取,得到語音特征序列;
11、對所述目標人臉關(guān)鍵點嵌入數(shù)據(jù)進行關(guān)鍵點特征提取,得到關(guān)鍵點特征序列;
12、基于所述語音特征序列和所述關(guān)鍵點特征序列對所述人臉合并圖像進行去噪處理,得到所述目標人臉圖像。
13、在一些實施例,所述基于所述語音特征序列和所述關(guān)鍵點特征序列對所述人臉合并圖像進行去噪處理,得到所述目標人臉圖像,包括:
14、獲取預(yù)先訓(xùn)練的目標擴散模型;其中,所述目標擴散模型包括具有交叉注意力機制的注意力網(wǎng)絡(luò)層;
15、基于所述注意力網(wǎng)絡(luò)層對所述語音特征序列和所述關(guān)鍵點特征序列進行交叉注意力計算,得到圖像注意力權(quán)重數(shù)據(jù);
16、基于所述圖像注意力權(quán)重數(shù)據(jù)對所述人臉合并圖像進行去噪處理,得到所述目標人臉圖像。
17、在一些實施例,所述目標擴散模型還包括加噪網(wǎng)絡(luò)層,所述對所述第一人臉圖像進行加噪處理,得到加噪人臉圖像,包括:
18、通過預(yù)設(shè)的圖像編碼器將第一人臉圖像映射到目標隱空間;
19、在所述目標隱空間中,基于所述加噪網(wǎng)絡(luò)層對第一人臉圖像進行加噪處理,得到所述加噪人臉圖像。
20、在一些實施例,所述方法還包括訓(xùn)練所述目標擴散模型,具體包括:
21、獲取樣本對象的人臉圖像樣本;其中,所述人臉圖像樣本包括第一人臉樣本、第二人臉樣本像、遮擋人臉樣本,所述第一人臉樣本是具有所述樣本對象的第一姿勢的圖像,所述第二人臉樣本具有所述樣本對象的第二姿勢的圖像,所述第一姿勢和所述第二姿勢均為所述樣本對象的頭部姿勢且所述第一姿勢和所述第二姿勢均不相同,所述遮擋人臉樣本是由對所述第一人臉樣本遮擋嘴部得到的圖像;
22、對所述第一人臉樣本進行加噪處理,得到加噪人臉樣本;
23、對所述遮擋人臉樣本進行編碼處理得到第一嵌入樣本,對所述第二人臉樣本進行編碼處理,得到第二嵌入樣本;
24、對所述加噪人臉樣本、所述第一嵌入樣本、所述第二嵌入樣本進行圖像合并,得到人臉合并樣本;
25、獲取語音樣本,并對所述語音樣本進行編碼處理,得到語音嵌入樣本;
26、獲取所述樣本對象的人臉關(guān)鍵點得到人臉關(guān)鍵點特征樣本,并對所述人臉關(guān)鍵點特征樣本進行編碼,得到人臉關(guān)鍵點嵌入樣本;
27、將所述語音嵌入樣本作為所述注意力網(wǎng)絡(luò)層的鍵、將所述人臉關(guān)鍵點嵌入樣本作為所述注意力網(wǎng)絡(luò)層的值對所述人臉合并樣本進行去噪處理,得到目標去噪圖像;其中,將所述目標去噪圖像作為所述人臉圖像樣本。
28、在一些實施例,所述對所述加噪人臉圖像、所述第一嵌入圖像、所述第二嵌入圖像進行圖像合并,得到人臉合并圖像,包括:
29、將所述第一頭部姿勢和所述第二頭部姿勢進行姿勢合并,得到姿勢合并信息;
30、將所述姿勢合并信息和所述目標對象的目標身份信息添加至所述加噪人臉圖像,得到加噪合并圖像;其中,所述目標身份信息用于指示所述目標對象的身份;
31、將所述加噪合并圖像、所述第一嵌入圖像、所述第二嵌入圖像進行圖像合并,得到所述人臉合并圖像。
32、在一些實施例,所述基于所述目標語音嵌入數(shù)據(jù)和目標人臉關(guān)鍵點嵌入數(shù)據(jù)對所述人臉合并圖像進行人臉重構(gòu),得到目標人臉圖像之前,所述方法還包括:
33、獲取所述目標對象的第三人臉圖像;其中,將所述第一人臉圖像或所述第二人臉圖像作為所述第三人臉圖像;
34、對所述第三人臉圖像進行人臉關(guān)鍵點提取,得到目標關(guān)鍵點特征;
35、對所述目標關(guān)鍵點特征進行坐標編碼,得到所述目標人臉關(guān)鍵點嵌入數(shù)據(jù)。
36、為實現(xiàn)上述目的,本技術(shù)實施例的第二方面提出了一種人臉生成裝置,所述裝置包括:
37、人臉數(shù)據(jù)獲取模塊,用于獲取目標對象的當(dāng)前人臉數(shù)據(jù);其中,所述當(dāng)前人臉數(shù)據(jù)包括第一人臉圖像、第二人臉圖像、遮擋人臉圖像,所述第一人臉圖像具有所述目標對象的第一頭部姿勢,所述第二人臉圖像具有所述目標對象的第二頭部姿勢,所述第一頭部姿勢和所述第二頭部姿勢不相同,所述遮擋人臉圖像是由對所述第一人臉圖像遮擋嘴部得到的圖像;
38、圖像加噪模塊,用于對所述第一人臉圖像進行加噪處理,得到具有所述第一頭部姿勢的加噪人臉圖像;
39、圖像編碼模塊,用于對所述遮擋人臉圖像進行編碼處理得到具有所述第一頭部姿勢的第一嵌入圖像,對所述第二人臉圖像進行編碼處理,得到具有所述第二頭部姿勢的第二嵌入圖像;
40、圖像疊加模塊,用于對所述加噪人臉圖像、所述第一嵌入圖像、所述第二嵌入圖像進行圖像合并,得到人臉合并圖像;
41、語音數(shù)據(jù)處理模塊,用于:獲取目標語音數(shù)據(jù),并對所述目標語音數(shù)據(jù)進行編碼處理,得到目標語音嵌入數(shù)據(jù);
42、人臉合成模塊,用于基于所述目標語音嵌入數(shù)據(jù)和目標人臉關(guān)鍵點嵌入數(shù)據(jù)對所述人臉合并圖像進行人臉重構(gòu),得到目標人臉圖像;其中,所述目標人臉關(guān)鍵點嵌入數(shù)據(jù)是基于對所述目標對象的人臉關(guān)鍵點進行編碼得到。
43、為實現(xiàn)上述目的,本技術(shù)實施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述第一方面所述的方法。
44、為實現(xiàn)上述目的,本技術(shù)實施例的第四方面提出了一種存儲介質(zhì),所述存儲介質(zhì)為計算機可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面所述的方法。
45、本技術(shù)實施例提出的人臉生成方法和裝置、電子設(shè)備、存儲介質(zhì),其通過獲取目標對象的當(dāng)前人臉數(shù)據(jù),該當(dāng)前人臉數(shù)據(jù)包括具有第一頭部姿勢的第一人臉圖像、具有第二頭部姿勢的第二人臉圖像、由對所述第一人臉圖像遮擋嘴部得到的遮擋人臉圖像,對第一人臉圖像進行加噪處理得到具有第一頭部姿勢的加噪人臉圖像,對遮擋人臉圖像進行編碼處理得到具有第一頭部姿勢的第一嵌入圖像,對第二人臉圖像進行編碼處理,得到具有第二頭部姿勢的第二嵌入圖像,并對所述加噪人臉圖像、所述第一嵌入圖像、所述第二嵌入圖像進行圖像合并,得到人臉合并圖像,并基于目標語音嵌入數(shù)據(jù)和目標人臉關(guān)鍵點嵌入數(shù)據(jù)對所述人臉合并圖像進行人臉重構(gòu),得到目標人臉圖像,可以提高人臉合成的準確性。