国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種語(yǔ)音合成方法和裝置

      文檔序號(hào):40384758發(fā)布日期:2024-12-20 12:07閱讀:11來(lái)源:國(guó)知局
      一種語(yǔ)音合成方法和裝置

      本發(fā)明涉及語(yǔ)音處理,尤其涉及一種語(yǔ)音合成方法和裝置。


      背景技術(shù):

      1、在人工智能生成內(nèi)容(aigc)時(shí)代,人工智能技術(shù)正在生成越來(lái)越多的多媒體內(nèi)容。例如生成視頻內(nèi)容,這一過(guò)程旨在將以人為中心的靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)的會(huì)說(shuō)話的動(dòng)畫。為了增強(qiáng)生成的視頻的生動(dòng)性,確保輸入圖像中的視覺(jué)信息與音頻中的語(yǔ)音特征和諧是至關(guān)重要的。

      2、現(xiàn)有研究主要集中在利用面部信息來(lái)推斷說(shuō)話者的基本特征,如性別、年齡和情緒,但它們往往忽略了圖像中存在的大量額外線索,無(wú)法生成細(xì)粒度語(yǔ)音風(fēng)格的音頻。

      3、如何通過(guò)給定的圖像模擬合成更細(xì)粒度語(yǔ)音風(fēng)格的音頻,是目前需要解決的技術(shù)問(wèn)題。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明提供一種語(yǔ)音合成方法和裝置,用以解決現(xiàn)有技術(shù)中存在的缺陷。

      2、本發(fā)明提供一種語(yǔ)音合成方法,包括如下步驟:

      3、獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;

      4、其中,所述目標(biāo)圖像包含多個(gè)視覺(jué)信息,所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。

      5、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述語(yǔ)音合成模型包括圖像編碼器、語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former;

      6、所述圖像編碼器用于提取所述目標(biāo)圖像中的多個(gè)視覺(jué)信息;

      7、所述語(yǔ)音解碼器用于生成所述目標(biāo)合成語(yǔ)音中的多個(gè)聲學(xué)特征;

      8、所述查詢轉(zhuǎn)換器q-former用于進(jìn)行模態(tài)交互訓(xùn)練。

      9、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述語(yǔ)音合成模型的訓(xùn)練過(guò)程,包括:

      10、基于所述多模態(tài)數(shù)據(jù)集對(duì)所述語(yǔ)音解碼器進(jìn)行第一階段訓(xùn)練,并得到所述語(yǔ)音解碼器的訓(xùn)練損失值;其中,所述第一階段訓(xùn)練為無(wú)監(jiān)督語(yǔ)音風(fēng)格學(xué)習(xí)訓(xùn)練;

      11、基于所述多模態(tài)數(shù)據(jù)集對(duì)所述查詢轉(zhuǎn)換器q-former進(jìn)行第二階段訓(xùn)練;其中,所述第二階段訓(xùn)練為與語(yǔ)音風(fēng)格相關(guān)的視覺(jué)表征學(xué)習(xí)訓(xùn)練;

      12、連接進(jìn)行第一階段訓(xùn)練后的語(yǔ)音解碼器和進(jìn)行第二階段訓(xùn)練后的查詢轉(zhuǎn)換器q-former,并基于所述語(yǔ)音解碼器的訓(xùn)練損失值對(duì)連接后的語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former進(jìn)行第三階段訓(xùn)練;其中,所述第三階段訓(xùn)練為視覺(jué)條件下的語(yǔ)音風(fēng)格控制訓(xùn)練。

      13、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音,包括:

      14、獲取目標(biāo)圖像和說(shuō)話文稿,并提取所述目標(biāo)圖像的多個(gè)關(guān)鍵幀;其中,所述關(guān)鍵幀表示以所述目標(biāo)圖像中說(shuō)話人為中心的圖像序列;

      15、將所述目標(biāo)圖像的多個(gè)關(guān)鍵幀和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到多個(gè)語(yǔ)音音頻;

      16、基于所述多個(gè)語(yǔ)音音頻,合成所述目標(biāo)合成語(yǔ)音。

      17、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述獲取目標(biāo)圖像和說(shuō)話文稿之前,所述方法還包括:

      18、獲取目標(biāo)數(shù)據(jù)集,對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng),得到所述多模態(tài)數(shù)據(jù)集;其中,所述目標(biāo)數(shù)據(jù)集為自然語(yǔ)言提示語(yǔ)音數(shù)據(jù)集。

      19、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述目標(biāo)數(shù)據(jù)集包括多個(gè)語(yǔ)音片段以及每個(gè)語(yǔ)音片段對(duì)應(yīng)的語(yǔ)音描述;

      20、所述對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng),得到所述多模態(tài)數(shù)據(jù)集,包括:

      21、將所述目標(biāo)數(shù)據(jù)集中的語(yǔ)音描述輸入至預(yù)訓(xùn)練的文本模態(tài)轉(zhuǎn)換模型,得到所述語(yǔ)音描述對(duì)應(yīng)的視覺(jué)描述;其中,所述語(yǔ)音描述表示所述目標(biāo)數(shù)據(jù)集語(yǔ)音特征對(duì)應(yīng)的文字描述,所述視覺(jué)描述表示所述目標(biāo)數(shù)據(jù)集語(yǔ)音場(chǎng)景對(duì)應(yīng)的圖片說(shuō)明;

      22、將所述視覺(jué)描述輸入至預(yù)訓(xùn)練的圖像生成模型中,得到對(duì)應(yīng)的目標(biāo)圖像。

      23、本發(fā)明還提供一種語(yǔ)音合成裝置,包括如下模塊:

      24、語(yǔ)音合成模塊,用于獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;

      25、其中,所述目標(biāo)圖像包含多個(gè)視覺(jué)信息,所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。

      26、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。

      27、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。

      28、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。

      29、本發(fā)明提供的一種語(yǔ)音合成方法和裝置,通過(guò)獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;其中,所述目標(biāo)圖像包含多個(gè)視覺(jué)信息,所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。由此可知,本發(fā)明通過(guò)對(duì)現(xiàn)有語(yǔ)音數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)構(gòu)建多模態(tài)數(shù)據(jù)集,解決數(shù)據(jù)集稀缺的問(wèn)題;根據(jù)靜態(tài)圖像中的視覺(jué)信息與語(yǔ)音音頻中的聲學(xué)特征之間的一一對(duì)應(yīng)關(guān)系,基于通過(guò)多模態(tài)數(shù)據(jù)集訓(xùn)練得到的語(yǔ)音合成模型,使合成的目標(biāo)合成語(yǔ)音具有更細(xì)粒度的語(yǔ)音風(fēng)格。



      技術(shù)特征:

      1.一種語(yǔ)音合成方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法,其特征在于,所述語(yǔ)音合成模型包括圖像編碼器、語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former;

      3.根據(jù)權(quán)利要求2所述的語(yǔ)音合成方法,其特征在于,所述語(yǔ)音合成模型的訓(xùn)練過(guò)程,包括:

      4.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法,其特征在于,所述獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音,包括:

      5.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法,其特征在于,所述獲取目標(biāo)圖像和說(shuō)話文稿之前,所述方法還包括:

      6.根據(jù)權(quán)利要求5所述的語(yǔ)音合成方法,其特征在于,所述目標(biāo)數(shù)據(jù)集包括多個(gè)語(yǔ)音片段以及每個(gè)語(yǔ)音片段對(duì)應(yīng)的語(yǔ)音描述;

      7.一種語(yǔ)音合成裝置,其特征在于,包括:

      8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。

      9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。

      10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。


      技術(shù)總結(jié)
      本發(fā)明提供一種語(yǔ)音合成方法和裝置,涉及語(yǔ)音處理技術(shù)領(lǐng)域,方法包括:獲取目標(biāo)圖像和說(shuō)話文稿,并將目標(biāo)圖像和說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;其中,目標(biāo)圖像包含多個(gè)視覺(jué)信息,目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。通過(guò)本發(fā)明提供的方法,對(duì)現(xiàn)有語(yǔ)音數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)構(gòu)建多模態(tài)數(shù)據(jù)集,解決數(shù)據(jù)集稀缺的問(wèn)題;根據(jù)靜態(tài)圖像中的視覺(jué)信息與語(yǔ)音音頻中的聲學(xué)特征之間的一一對(duì)應(yīng)關(guān)系,基于通過(guò)多模態(tài)數(shù)據(jù)集訓(xùn)練得到的語(yǔ)音合成模型,使合成的目標(biāo)合成語(yǔ)音具有更細(xì)粒度的語(yǔ)音風(fēng)格。

      技術(shù)研發(fā)人員:周松濤,秦霄羽,賈珈,周逸軒,王琦鑫,吳志勇
      受保護(hù)的技術(shù)使用者:清華大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1