一種語(yǔ)音合成方法和裝置

文檔序號(hào)：40384758發(fā)布日期：2024-12-20 12:07閱讀：11來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語(yǔ)音處理，尤其涉及一種語(yǔ)音合成方法和裝置。

背景技術(shù)：

1、在人工智能生成內(nèi)容（aigc）時(shí)代，人工智能技術(shù)正在生成越來(lái)越多的多媒體內(nèi)容。例如生成視頻內(nèi)容，這一過(guò)程旨在將以人為中心的靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)的會(huì)說(shuō)話的動(dòng)畫。為了增強(qiáng)生成的視頻的生動(dòng)性，確保輸入圖像中的視覺(jué)信息與音頻中的語(yǔ)音特征和諧是至關(guān)重要的。

2、現(xiàn)有研究主要集中在利用面部信息來(lái)推斷說(shuō)話者的基本特征，如性別、年齡和情緒，但它們往往忽略了圖像中存在的大量額外線索，無(wú)法生成細(xì)粒度語(yǔ)音風(fēng)格的音頻。

3、如何通過(guò)給定的圖像模擬合成更細(xì)粒度語(yǔ)音風(fēng)格的音頻，是目前需要解決的技術(shù)問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種語(yǔ)音合成方法和裝置，用以解決現(xiàn)有技術(shù)中存在的缺陷。

2、本發(fā)明提供一種語(yǔ)音合成方法，包括如下步驟：

3、獲取目標(biāo)圖像和說(shuō)話文稿，并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型，得到目標(biāo)合成語(yǔ)音；

4、其中，所述目標(biāo)圖像包含多個(gè)視覺(jué)信息，所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征，一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征；所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到，所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。

5、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法，所述語(yǔ)音合成模型包括圖像編碼器、語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former；

6、所述圖像編碼器用于提取所述目標(biāo)圖像中的多個(gè)視覺(jué)信息；

7、所述語(yǔ)音解碼器用于生成所述目標(biāo)合成語(yǔ)音中的多個(gè)聲學(xué)特征；

8、所述查詢轉(zhuǎn)換器q-former用于進(jìn)行模態(tài)交互訓(xùn)練。

9、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法，所述語(yǔ)音合成模型的訓(xùn)練過(guò)程，包括：

10、基于所述多模態(tài)數(shù)據(jù)集對(duì)所述語(yǔ)音解碼器進(jìn)行第一階段訓(xùn)練，并得到所述語(yǔ)音解碼器的訓(xùn)練損失值；其中，所述第一階段訓(xùn)練為無(wú)監(jiān)督語(yǔ)音風(fēng)格學(xué)習(xí)訓(xùn)練；

11、基于所述多模態(tài)數(shù)據(jù)集對(duì)所述查詢轉(zhuǎn)換器q-former進(jìn)行第二階段訓(xùn)練；其中，所述第二階段訓(xùn)練為與語(yǔ)音風(fēng)格相關(guān)的視覺(jué)表征學(xué)習(xí)訓(xùn)練；

12、連接進(jìn)行第一階段訓(xùn)練后的語(yǔ)音解碼器和進(jìn)行第二階段訓(xùn)練后的查詢轉(zhuǎn)換器q-former，并基于所述語(yǔ)音解碼器的訓(xùn)練損失值對(duì)連接后的語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former進(jìn)行第三階段訓(xùn)練；其中，所述第三階段訓(xùn)練為視覺(jué)條件下的語(yǔ)音風(fēng)格控制訓(xùn)練。

13、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法，所述獲取目標(biāo)圖像和說(shuō)話文稿，并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型，得到目標(biāo)合成語(yǔ)音，包括：

14、獲取目標(biāo)圖像和說(shuō)話文稿，并提取所述目標(biāo)圖像的多個(gè)關(guān)鍵幀；其中，所述關(guān)鍵幀表示以所述目標(biāo)圖像中說(shuō)話人為中心的圖像序列；

15、將所述目標(biāo)圖像的多個(gè)關(guān)鍵幀和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型，得到多個(gè)語(yǔ)音音頻；

16、基于所述多個(gè)語(yǔ)音音頻，合成所述目標(biāo)合成語(yǔ)音。

17、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法，所述獲取目標(biāo)圖像和說(shuō)話文稿之前，所述方法還包括：

18、獲取目標(biāo)數(shù)據(jù)集，對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)，得到所述多模態(tài)數(shù)據(jù)集；其中，所述目標(biāo)數(shù)據(jù)集為自然語(yǔ)言提示語(yǔ)音數(shù)據(jù)集。

19、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法，所述目標(biāo)數(shù)據(jù)集包括多個(gè)語(yǔ)音片段以及每個(gè)語(yǔ)音片段對(duì)應(yīng)的語(yǔ)音描述；

20、所述對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)，得到所述多模態(tài)數(shù)據(jù)集，包括：

21、將所述目標(biāo)數(shù)據(jù)集中的語(yǔ)音描述輸入至預(yù)訓(xùn)練的文本模態(tài)轉(zhuǎn)換模型，得到所述語(yǔ)音描述對(duì)應(yīng)的視覺(jué)描述；其中，所述語(yǔ)音描述表示所述目標(biāo)數(shù)據(jù)集語(yǔ)音特征對(duì)應(yīng)的文字描述，所述視覺(jué)描述表示所述目標(biāo)數(shù)據(jù)集語(yǔ)音場(chǎng)景對(duì)應(yīng)的圖片說(shuō)明；

22、將所述視覺(jué)描述輸入至預(yù)訓(xùn)練的圖像生成模型中，得到對(duì)應(yīng)的目標(biāo)圖像。

23、本發(fā)明還提供一種語(yǔ)音合成裝置，包括如下模塊：

24、語(yǔ)音合成模塊，用于獲取目標(biāo)圖像和說(shuō)話文稿，并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型，得到目標(biāo)合成語(yǔ)音；

25、其中，所述目標(biāo)圖像包含多個(gè)視覺(jué)信息，所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征，一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征；所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到，所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。

26、本發(fā)明還提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。

27、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。

28、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。

29、本發(fā)明提供的一種語(yǔ)音合成方法和裝置，通過(guò)獲取目標(biāo)圖像和說(shuō)話文稿，并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型，得到目標(biāo)合成語(yǔ)音；其中，所述目標(biāo)圖像包含多個(gè)視覺(jué)信息，所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征，一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征；所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到，所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。由此可知，本發(fā)明通過(guò)對(duì)現(xiàn)有語(yǔ)音數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)構(gòu)建多模態(tài)數(shù)據(jù)集，解決數(shù)據(jù)集稀缺的問(wèn)題；根據(jù)靜態(tài)圖像中的視覺(jué)信息與語(yǔ)音音頻中的聲學(xué)特征之間的一一對(duì)應(yīng)關(guān)系，基于通過(guò)多模態(tài)數(shù)據(jù)集訓(xùn)練得到的語(yǔ)音合成模型，使合成的目標(biāo)合成語(yǔ)音具有更細(xì)粒度的語(yǔ)音風(fēng)格。

技術(shù)特征：

1.一種語(yǔ)音合成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法，其特征在于，所述語(yǔ)音合成模型包括圖像編碼器、語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former；

3.根據(jù)權(quán)利要求2所述的語(yǔ)音合成方法，其特征在于，所述語(yǔ)音合成模型的訓(xùn)練過(guò)程，包括：

4.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法，其特征在于，所述獲取目標(biāo)圖像和說(shuō)話文稿，并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型，得到目標(biāo)合成語(yǔ)音，包括：

5.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法，其特征在于，所述獲取目標(biāo)圖像和說(shuō)話文稿之前，所述方法還包括：

6.根據(jù)權(quán)利要求5所述的語(yǔ)音合成方法，其特征在于，所述目標(biāo)數(shù)據(jù)集包括多個(gè)語(yǔ)音片段以及每個(gè)語(yǔ)音片段對(duì)應(yīng)的語(yǔ)音描述；

7.一種語(yǔ)音合成裝置，其特征在于，包括：

8.一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。

技術(shù)總結(jié)
本發(fā)明提供一種語(yǔ)音合成方法和裝置，涉及語(yǔ)音處理技術(shù)領(lǐng)域，方法包括：獲取目標(biāo)圖像和說(shuō)話文稿，并將目標(biāo)圖像和說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型，得到目標(biāo)合成語(yǔ)音；其中，目標(biāo)圖像包含多個(gè)視覺(jué)信息，目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征，一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征；語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到，多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。通過(guò)本發(fā)明提供的方法，對(duì)現(xiàn)有語(yǔ)音數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)構(gòu)建多模態(tài)數(shù)據(jù)集，解決數(shù)據(jù)集稀缺的問(wèn)題；根據(jù)靜態(tài)圖像中的視覺(jué)信息與語(yǔ)音音頻中的聲學(xué)特征之間的一一對(duì)應(yīng)關(guān)系，基于通過(guò)多模態(tài)數(shù)據(jù)集訓(xùn)練得到的語(yǔ)音合成模型，使合成的目標(biāo)合成語(yǔ)音具有更細(xì)粒度的語(yǔ)音風(fēng)格。

技術(shù)研發(fā)人員：周松濤,秦霄羽,賈珈,周逸軒,王琦鑫,吳志勇
受保護(hù)的技術(shù)使用者：清華大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周松濤,秦霄羽,賈珈,周逸軒,王琦鑫,吳志勇
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

上一篇：一種設(shè)備架的制作方法
上一篇：一種機(jī)器人塑料導(dǎo)管注塑模具的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種語(yǔ)音合成方法和裝置