国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置與流程

      文檔序號:40384686發(fā)布日期:2024-12-20 12:07閱讀:4來源:國知局
      數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置與流程

      本申請涉及人工智能中的數(shù)字人生成,尤其涉及一種數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置。


      背景技術(shù):

      1、二維(2-dimention,2d)數(shù)字人生成技術(shù)是指采集一段視頻或者一張照片,通過機(jī)器學(xué)習(xí)的方式快速識別綁定面部表情和肢體動作,然后采用語音驅(qū)動,生成一段擬人視頻?,F(xiàn)有的2d數(shù)字人生成思路有基于生成對抗網(wǎng)絡(luò)(generative?adversarial?network,gan)的編碼—解碼思路,音頻到唇形同步(wav2lip)、形變修復(fù)網(wǎng)絡(luò)(deformable-iterativenetwork,dinet)是其代表性模型。由于wav2lip和dinet的訓(xùn)練數(shù)據(jù)的限制,它們驅(qū)動形象的姿態(tài)是不可控制的,即現(xiàn)有的一些預(yù)訓(xùn)練模型難以實現(xiàn)姿態(tài)可控的2d數(shù)字人生成。


      技術(shù)實現(xiàn)思路

      1、針對上述問題,本申請?zhí)峁┝艘环N數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置,能夠生成姿態(tài)可控的數(shù)字人視頻。

      2、第一方面,本申請實施例提供了一種數(shù)字人的生成模型訓(xùn)練方法,該方法包括:

      3、獲取第一對象的第一視頻段、第二視頻段、第三視頻段和第一音頻數(shù)據(jù);第一視頻段與第二視頻段和第三視頻段的幀數(shù)相同;

      4、對于第一視頻段中的任意一幀第一圖像,從第一圖像中去除第一對象的身份信息,以得到第一對象的姿態(tài)特征;

      5、從第一音頻數(shù)據(jù)中提取出第一對象的音頻特征;

      6、對于第二視頻段中與第一圖像幀序?qū)?yīng)的第二圖像,從第二圖像中提取出第一對象的第一身份特征;

      7、將姿態(tài)特征、音頻特征與第一身份特征進(jìn)行融合,得到第一融合特征;

      8、對于第三視頻段中與第二圖像幀序?qū)?yīng)的第三圖像,基于第一融合特征生成第三圖像對應(yīng)的模擬數(shù)字人圖像;

      9、將第三視頻段中每幀第三圖像對應(yīng)的模擬數(shù)字人圖像組成第一模擬數(shù)字人視頻;

      10、基于所述第一模擬數(shù)字人視頻對神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,得到訓(xùn)練好的數(shù)字人生成模型。

      11、第二方面,本申請實施例提供了一種數(shù)字人的生成方法,該方法包括:

      12、獲取第二音頻數(shù)據(jù)、第二對象的第六視頻段、第三對象的第七視頻段和第八視頻段;第六視頻段與第七視頻段和第八視頻段的幀數(shù)相同;

      13、將第二音頻數(shù)據(jù)、第六視頻段、第七視頻段和第八視頻段輸入數(shù)字人生成模型,以生成第三模擬數(shù)字人視頻;

      14、其中,數(shù)字人生成模型是基于如上述第一方面任意一個實施例的訓(xùn)練方法訓(xùn)練得到的。

      15、第三方面,本申請實施例提供了一種數(shù)字人的生成模型訓(xùn)練裝置,該裝置包括第一獲取單元和第一處理單元,其中:

      16、第一獲取單元,用于獲取第一對象的第一視頻段、第二視頻段、第三視頻段和第一音頻數(shù)據(jù);第一視頻段與第二視頻段和第三視頻段的幀數(shù)相同;

      17、第一處理單元,用于對于第一視頻段中的任意一幀第一圖像,從第一圖像中去除第一對象的身份信息,以得到第一對象的姿態(tài)特征;從第一音頻數(shù)據(jù)中提取出第一對象的音頻特征;對于第二視頻段中與第一圖像幀序?qū)?yīng)的第二圖像,從第二圖像中提取出第一對象的第一身份特征;將姿態(tài)特征、音頻特征與第一身份特征進(jìn)行融合,得到第一融合特征;對于第三視頻段中與第二圖像幀序?qū)?yīng)的第三圖像,基于第一融合特征生成第三圖像對應(yīng)的模擬數(shù)字人圖像;將第三視頻段中每幀第三圖像對應(yīng)的模擬數(shù)字人圖像組成第一模擬數(shù)字人視頻;基于第一模擬數(shù)字人視頻對神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,得到訓(xùn)練好的數(shù)字人生成模型。

      18、應(yīng)理解,由于方法實施例與裝置實施例為相同技術(shù)構(gòu)思的不同呈現(xiàn)形式,因此,本申請實施例第一方面的內(nèi)容應(yīng)同步適配于本申請實施例第三方面,且能達(dá)到相同或相似的有益效果,此處不再贅述。

      19、第四方面,本申請實施例提供了一種數(shù)字人的生成裝置,該裝置包括第二獲取單元和第二處理單元,其中:

      20、第二獲取單元,用于獲取第二音頻數(shù)據(jù)、第二對象的第六視頻段、第三對象的第七視頻段和第八視頻段;第六視頻段與第七視頻段和第八視頻段的幀數(shù)相同;

      21、第二處理單元,用于將第二音頻數(shù)據(jù)、第六視頻段、第七視頻段和第八視頻段輸入數(shù)字人生成模型,以生成第三模擬數(shù)字人視頻;

      22、其中,數(shù)字人生成模型是基于如上述第一方面任意一個實施例的訓(xùn)練方法訓(xùn)練得到的。

      23、應(yīng)理解,由于方法實施例與裝置實施例為相同技術(shù)構(gòu)思的不同呈現(xiàn)形式,因此,本申請實施例第二方面的內(nèi)容應(yīng)同步適配于本申請實施例第四方面,且能達(dá)到相同或相似的有益效果,此處不再贅述。

      24、第五方面,本申請實施例提供了一種計算機(jī)設(shè)備,該計算機(jī)設(shè)備包括:

      25、處理器;以及

      26、存儲有計算機(jī)可執(zhí)行指令的存儲器,可執(zhí)行指令被配置由處理器執(zhí)行,可執(zhí)行指令包括用于執(zhí)行如上述第一方面或第二方面任意一個實施例所述的方法中的步驟。

      27、第六方面,本申請實施例提供了一種計算機(jī)可讀存儲介質(zhì),計算機(jī)可讀存儲介質(zhì)存儲有用于設(shè)備執(zhí)行的計算機(jī)程序,計算機(jī)程序被執(zhí)行時實現(xiàn)如上述第一方面或第二方面任意一個實施例所述的方法中的步驟。

      28、第七方面,本申請實施例提供了一種計算機(jī)程序產(chǎn)品,當(dāng)計算機(jī)程序產(chǎn)品被設(shè)備運(yùn)行,使得設(shè)備執(zhí)行上述第一方面或第二方面任意一個實施例所述的方法中的步驟。

      29、本申請的上述方案至少包括以下有益效果:

      30、本申請實施例中,第一視頻段中的圖像幀為樣本數(shù)據(jù)中第一對象的姿態(tài)幀,第二視頻段中的圖像幀為姿態(tài)幀對應(yīng)的參考幀,在獲取到第一對象的第一視頻段、第二視頻段、第三視頻段和第一音頻數(shù)據(jù)后,計算機(jī)設(shè)備從姿態(tài)幀(如第一圖像)中去除第一對象的身份信息,以得到姿態(tài)特征,相當(dāng)于對姿態(tài)特征進(jìn)行了增強(qiáng),即該姿態(tài)特征能夠顯式地表征各姿態(tài)幀之間的姿態(tài)變化;計算機(jī)設(shè)備將增強(qiáng)后的姿態(tài)特征、第一音頻數(shù)據(jù)中提取出的音頻特征與對應(yīng)的參考幀(如第二圖像)中提取出的身份特征(即第一身份特征)進(jìn)行融合,有利于神經(jīng)網(wǎng)絡(luò)對融合特征(即第一融合特征)中的姿態(tài)特征的細(xì)微變化進(jìn)行感知,從而能夠使基于融合特征生成的輸入圖像(如第三圖像)對應(yīng)的圖像(如模擬數(shù)字人圖像)在人臉姿態(tài)上更具區(qū)分度。這樣以額外的增強(qiáng)姿態(tài)特征對神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督,有利于降低輸入圖像中的人臉姿態(tài)對神經(jīng)網(wǎng)絡(luò)的影響,從而實現(xiàn)姿態(tài)可控?;谏傻囊曨l(如第一模擬數(shù)字人視頻)對神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,能夠訓(xùn)練出人臉姿態(tài)可控的數(shù)字人生成模型,利用該數(shù)字人生成模型能夠生成更形象、更真實的數(shù)字人視頻。



      技術(shù)特征:

      1.一種數(shù)字人的生成模型訓(xùn)練方法,其特征在于,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一模擬數(shù)字人視頻對神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,得到訓(xùn)練好的數(shù)字人生成模型,包括:

      3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述將所述姿態(tài)特征、所述音頻特征與所述第一身份特征進(jìn)行融合,得到第一融合特征,包括:

      4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一視頻段和所述第二視頻段為同一批次的樣本數(shù)據(jù)中所述第一對象的樣本對;所述樣本數(shù)據(jù)中包括至少兩個對象的樣本對,每個對象存在至少兩個樣本對。

      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第二視頻段為所述第一視頻段的參考視頻段,所述樣本數(shù)據(jù)的每個樣本對中包括一個參考視頻段;

      6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述第一模擬數(shù)字人視頻確定同步性損失、第一l1損失、第一感知損失、第一結(jié)構(gòu)相似性損失和第一紋理損失,包括:

      7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于所述第一模擬數(shù)字人視頻中的每一幀模擬數(shù)字人圖像和所述每一幀模擬數(shù)字人圖像對應(yīng)的真值圖像,確定第一l1損失,包括:

      8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于所述每一幀模擬數(shù)字人圖像和所述真值圖像,確定第一感知損失,包括:

      9.根據(jù)權(quán)利要求6所述的方法,其特征在于,基于所述每一幀模擬數(shù)字人圖像和所述真值圖像,確定第一結(jié)構(gòu)相似性損失,包括:

      10.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于所述每一幀模擬數(shù)字人圖像和所述真值圖像,確定第一紋理損失,包括:

      11.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述第一身份特征和所述樣本數(shù)據(jù)的每個樣本對中的參考視頻段,確定身份信息的第一對比學(xué)習(xí)損失,包括:

      12.根據(jù)權(quán)利要求1-11任一項所述的方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)為u型網(wǎng)絡(luò),所述第一模擬數(shù)字人視頻為所述u型網(wǎng)絡(luò)的解碼器的最后一層輸出的視頻段;

      13.根據(jù)權(quán)利要求12所述的方法,其特征在于,所述基于至少一個第二模擬數(shù)字人視頻確定至少一個第二損失,包括:

      14.一種數(shù)字人的生成方法,其特征在于,所述方法包括:

      15.一種數(shù)字人的生成模型訓(xùn)練裝置,其特征在于,所述裝置包括第一獲取單元和第一處理單元,其中:

      16.一種數(shù)字人的生成裝置,其特征在于,所述裝置包括第二獲取單元和第二處理單元,其中:

      17.一種計算機(jī)設(shè)備,其特征在于,所述計算機(jī)設(shè)備包括:

      18.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)存儲有用于設(shè)備執(zhí)行的計算機(jī)程序,所述計算機(jī)程序被執(zhí)行時實現(xiàn)如權(quán)利要求1-13任一項或權(quán)利要求14所述的方法中的步驟。


      技術(shù)總結(jié)
      本申請?zhí)峁┝艘环N數(shù)字人的生成模型訓(xùn)練方法、生成方法及相關(guān)裝置,該數(shù)字人的生成模型訓(xùn)練方法從第一圖像中去除第一對象的身份信息,以得到姿態(tài)特征;第一圖像為第一視頻段中的任意一幀;從第一音頻數(shù)據(jù)中提取出音頻特征;從第二圖像中提取出第一對象的第一身份特征;第二圖像為第二視頻段中與第一圖像對應(yīng)的一幀;將姿態(tài)特征、音頻特征與第一身份特征進(jìn)行融合,得到第一融合特征,基于第一融合特征訓(xùn)練數(shù)字人生成模型,能夠得到人臉姿態(tài)可控的數(shù)字人生成模型,利用該數(shù)字人生成模型能夠生成更形象、更真實的數(shù)字人視頻。

      技術(shù)研發(fā)人員:周聰,張良國,曾定衡
      受保護(hù)的技術(shù)使用者:馬上消費(fèi)金融股份有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1