本發(fā)明涉及語(yǔ)音處理,尤其涉及一種語(yǔ)音合成方法和裝置。
背景技術(shù):
1、在人工智能生成內(nèi)容(aigc)時(shí)代,人工智能技術(shù)正在生成越來(lái)越多的多媒體內(nèi)容。例如生成視頻內(nèi)容,這一過(guò)程旨在將以人為中心的靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)的會(huì)說(shuō)話的動(dòng)畫。為了增強(qiáng)生成的視頻的生動(dòng)性,確保輸入圖像中的視覺(jué)信息與音頻中的語(yǔ)音特征和諧是至關(guān)重要的。
2、現(xiàn)有研究主要集中在利用面部信息來(lái)推斷說(shuō)話者的基本特征,如性別、年齡和情緒,但它們往往忽略了圖像中存在的大量額外線索,無(wú)法生成細(xì)粒度語(yǔ)音風(fēng)格的音頻。
3、如何通過(guò)給定的圖像模擬合成更細(xì)粒度語(yǔ)音風(fēng)格的音頻,是目前需要解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種語(yǔ)音合成方法和裝置,用以解決現(xiàn)有技術(shù)中存在的缺陷。
2、本發(fā)明提供一種語(yǔ)音合成方法,包括如下步驟:
3、獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;
4、其中,所述目標(biāo)圖像包含多個(gè)視覺(jué)信息,所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。
5、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述語(yǔ)音合成模型包括圖像編碼器、語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former;
6、所述圖像編碼器用于提取所述目標(biāo)圖像中的多個(gè)視覺(jué)信息;
7、所述語(yǔ)音解碼器用于生成所述目標(biāo)合成語(yǔ)音中的多個(gè)聲學(xué)特征;
8、所述查詢轉(zhuǎn)換器q-former用于進(jìn)行模態(tài)交互訓(xùn)練。
9、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述語(yǔ)音合成模型的訓(xùn)練過(guò)程,包括:
10、基于所述多模態(tài)數(shù)據(jù)集對(duì)所述語(yǔ)音解碼器進(jìn)行第一階段訓(xùn)練,并得到所述語(yǔ)音解碼器的訓(xùn)練損失值;其中,所述第一階段訓(xùn)練為無(wú)監(jiān)督語(yǔ)音風(fēng)格學(xué)習(xí)訓(xùn)練;
11、基于所述多模態(tài)數(shù)據(jù)集對(duì)所述查詢轉(zhuǎn)換器q-former進(jìn)行第二階段訓(xùn)練;其中,所述第二階段訓(xùn)練為與語(yǔ)音風(fēng)格相關(guān)的視覺(jué)表征學(xué)習(xí)訓(xùn)練;
12、連接進(jìn)行第一階段訓(xùn)練后的語(yǔ)音解碼器和進(jìn)行第二階段訓(xùn)練后的查詢轉(zhuǎn)換器q-former,并基于所述語(yǔ)音解碼器的訓(xùn)練損失值對(duì)連接后的語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former進(jìn)行第三階段訓(xùn)練;其中,所述第三階段訓(xùn)練為視覺(jué)條件下的語(yǔ)音風(fēng)格控制訓(xùn)練。
13、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音,包括:
14、獲取目標(biāo)圖像和說(shuō)話文稿,并提取所述目標(biāo)圖像的多個(gè)關(guān)鍵幀;其中,所述關(guān)鍵幀表示以所述目標(biāo)圖像中說(shuō)話人為中心的圖像序列;
15、將所述目標(biāo)圖像的多個(gè)關(guān)鍵幀和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到多個(gè)語(yǔ)音音頻;
16、基于所述多個(gè)語(yǔ)音音頻,合成所述目標(biāo)合成語(yǔ)音。
17、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述獲取目標(biāo)圖像和說(shuō)話文稿之前,所述方法還包括:
18、獲取目標(biāo)數(shù)據(jù)集,對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng),得到所述多模態(tài)數(shù)據(jù)集;其中,所述目標(biāo)數(shù)據(jù)集為自然語(yǔ)言提示語(yǔ)音數(shù)據(jù)集。
19、根據(jù)本發(fā)明提供的一種語(yǔ)音合成方法,所述目標(biāo)數(shù)據(jù)集包括多個(gè)語(yǔ)音片段以及每個(gè)語(yǔ)音片段對(duì)應(yīng)的語(yǔ)音描述;
20、所述對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng),得到所述多模態(tài)數(shù)據(jù)集,包括:
21、將所述目標(biāo)數(shù)據(jù)集中的語(yǔ)音描述輸入至預(yù)訓(xùn)練的文本模態(tài)轉(zhuǎn)換模型,得到所述語(yǔ)音描述對(duì)應(yīng)的視覺(jué)描述;其中,所述語(yǔ)音描述表示所述目標(biāo)數(shù)據(jù)集語(yǔ)音特征對(duì)應(yīng)的文字描述,所述視覺(jué)描述表示所述目標(biāo)數(shù)據(jù)集語(yǔ)音場(chǎng)景對(duì)應(yīng)的圖片說(shuō)明;
22、將所述視覺(jué)描述輸入至預(yù)訓(xùn)練的圖像生成模型中,得到對(duì)應(yīng)的目標(biāo)圖像。
23、本發(fā)明還提供一種語(yǔ)音合成裝置,包括如下模塊:
24、語(yǔ)音合成模塊,用于獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;
25、其中,所述目標(biāo)圖像包含多個(gè)視覺(jué)信息,所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。
26、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。
27、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。
28、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)音合成方法。
29、本發(fā)明提供的一種語(yǔ)音合成方法和裝置,通過(guò)獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音;其中,所述目標(biāo)圖像包含多個(gè)視覺(jué)信息,所述目標(biāo)合成語(yǔ)音包含多個(gè)聲學(xué)特征,一個(gè)視覺(jué)信息對(duì)應(yīng)至少一個(gè)聲學(xué)特征;所述語(yǔ)音合成模型為基于多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述多模態(tài)數(shù)據(jù)集為對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)得到。由此可知,本發(fā)明通過(guò)對(duì)現(xiàn)有語(yǔ)音數(shù)據(jù)集進(jìn)行模態(tài)增強(qiáng)構(gòu)建多模態(tài)數(shù)據(jù)集,解決數(shù)據(jù)集稀缺的問(wèn)題;根據(jù)靜態(tài)圖像中的視覺(jué)信息與語(yǔ)音音頻中的聲學(xué)特征之間的一一對(duì)應(yīng)關(guān)系,基于通過(guò)多模態(tài)數(shù)據(jù)集訓(xùn)練得到的語(yǔ)音合成模型,使合成的目標(biāo)合成語(yǔ)音具有更細(xì)粒度的語(yǔ)音風(fēng)格。
1.一種語(yǔ)音合成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法,其特征在于,所述語(yǔ)音合成模型包括圖像編碼器、語(yǔ)音解碼器和查詢轉(zhuǎn)換器q-former;
3.根據(jù)權(quán)利要求2所述的語(yǔ)音合成方法,其特征在于,所述語(yǔ)音合成模型的訓(xùn)練過(guò)程,包括:
4.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法,其特征在于,所述獲取目標(biāo)圖像和說(shuō)話文稿,并將所述目標(biāo)圖像和所述說(shuō)話文稿輸入至預(yù)訓(xùn)練的語(yǔ)音合成模型,得到目標(biāo)合成語(yǔ)音,包括:
5.根據(jù)權(quán)利要求1所述的語(yǔ)音合成方法,其特征在于,所述獲取目標(biāo)圖像和說(shuō)話文稿之前,所述方法還包括:
6.根據(jù)權(quán)利要求5所述的語(yǔ)音合成方法,其特征在于,所述目標(biāo)數(shù)據(jù)集包括多個(gè)語(yǔ)音片段以及每個(gè)語(yǔ)音片段對(duì)應(yīng)的語(yǔ)音描述;
7.一種語(yǔ)音合成裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)音合成方法。