本申請涉及人工智能,具體涉及一種語音合成模型的訓(xùn)練方法、語音合成方法及相關(guān)裝置。
背景技術(shù):
1、從文本到語音(textto?speech,tts)技術(shù)可以使機(jī)器說話。非自回歸語音合成tts模型通過學(xué)習(xí)語音特征從而得到合成語音。合成語音時(shí),語音中的抑揚(yáng)頓挫、聲音強(qiáng)度、音高等韻律特征十分重要?;诖?,在合成語音時(shí),如何基于語音中的韻律特征去提升語音合成的自然度和擬人程度成為了亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例提供一種語音合成模型的訓(xùn)練方法、語音合成方法及相關(guān)裝置,用以提高語音合成的自然度和擬人程度。
2、第一方面,本申請實(shí)施例提供一種語音合成模型的訓(xùn)練方法,所述方法包括:
3、將音素序列樣本中音素的韻律特征輸入到語音合成模型中進(jìn)行特征運(yùn)算,得到所述音素序列樣本的參考韻律特征;
4、將所述音素序列樣本的文本特征輸入到所述語音合成模型中進(jìn)行特征提取,得到所述音素序列樣本的預(yù)測韻律特征;
5、基于所述參考韻律特征和所述預(yù)測韻律特征確定損失值,并基于所述損失值訓(xùn)練所述語音合成模型。
6、本申請實(shí)施例中,在訓(xùn)練語音合成模型時(shí),結(jié)合音素序列樣本中音素的韻律特征和音素序列樣本的文本特征訓(xùn)練語音合成模型,不僅使用到根據(jù)音素序列樣本的文本特征進(jìn)行特征提取得到的預(yù)測韻律特征,還使用到對音素序列樣本中音素的韻律特征進(jìn)行特征運(yùn)算后得到的參考韻律特征,使得訓(xùn)練出的語音合成模型不僅關(guān)注音素序列樣本的文本特征和音素的韻律特征,還關(guān)注音素序列樣本的參考韻律特征,基于該方法訓(xùn)練的語音合成模型進(jìn)行語音合成,得到的合成語音更加自然,韻律感更好,提高了語音合成的自然度和擬人程度。
7、第二方面,本申請實(shí)施例提供一種語音合成方法,所述方法包括:
8、通過語音合成模型對待合成音素序列的文本特征進(jìn)行韻律特征提取,得到所述待合成音素序列的目標(biāo)韻律特征;所述語音合成模型是根據(jù)上述第一方面所述的語音合成模型的訓(xùn)練方法訓(xùn)練得到的;
9、基于所述待合成音素序列的文本特征和所述目標(biāo)韻律特征,對所述待合成音素序列進(jìn)行語音合成。
10、本申請實(shí)施例中,使用上述第一方面所述的語音合成模型的訓(xùn)練方法訓(xùn)練得到的語音合成模型進(jìn)行語音合成,因?yàn)檎Z音合成模型在訓(xùn)練時(shí)不僅使用到根據(jù)音素序列樣本的文本特征進(jìn)行特征提取得到的預(yù)測韻律特征,還使用到對音素序列樣本中音素的韻律特征進(jìn)行特征運(yùn)算后得到的參考韻律特征,因此基于得到語音合成模型進(jìn)行語音合成后得到的合成語音更加自然,韻律感更好,提高了語音合成的自然度和擬人程度。
11、第三方面,本申請實(shí)施例提供一種語音合成模型的訓(xùn)練裝置,所述裝置包括:
12、計(jì)算單元,用于將音素序列樣本中音素的韻律特征輸入到語音合成模型中進(jìn)行特征運(yùn)算,得到所述音素序列樣本的參考韻律特征;
13、預(yù)測單元,用于將所述音素序列樣本的文本特征輸入到所述語音合成模型中進(jìn)行特征提取,得到所述音素序列樣本的預(yù)測韻律特征;
14、訓(xùn)練單元,用于基于所述參考韻律特征和所述預(yù)測韻律特征確定損失值,并基于所述損失值訓(xùn)練所述語音合成模型。
15、第四方面,本申請實(shí)施例提供一種語音合成裝置,所述裝置包括:
16、特征提取單元,用于對待合成音素序列的文本特征進(jìn)行韻律特征提取,得到所述待合成音素序列的目標(biāo)韻律特征;
17、語音合成單元,用于基于所述待合成音素序列的文本特征和所述目標(biāo)韻律特征,對所述待合成音素序列進(jìn)行語音合成。
18、第五方面,本申請實(shí)施例提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如第一方面和第二方面中所述的方法。
19、第六方面,本申請實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括程序代碼,當(dāng)程序產(chǎn)品在電子設(shè)備上運(yùn)行時(shí),所述程序代碼用于使所述電子設(shè)備執(zhí)行如第一方面和第二方面中所述的方法。
20、第七方面,本申請實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包含有計(jì)算機(jī)指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得上述第一方面和第二方面中所述的方法被實(shí)現(xiàn)。
21、本申請的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本申請而了解。本申請的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
1.一種語音合成模型的訓(xùn)練方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述韻律特征包括n個(gè)韻律子特征,所述參考韻律特征包括n個(gè)參考韻律子特征;所述將音素序列樣本中音素的韻律特征輸入到語音合成模型中進(jìn)行特征運(yùn)算,得到所述音素序列樣本的參考韻律特征,包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述韻律特征包括m個(gè)維度的子特征;所述m個(gè)維度包括音高和音量;所述n個(gè)韻律子特征包括n個(gè)音高子特征和n個(gè)音量子特征;所述n個(gè)參考韻律子特征包括n個(gè)參考音高子特征和n個(gè)參考音量子特征;所述將所述音素序列樣本中音素的n個(gè)韻律子特征輸入到所述語音合成模型中進(jìn)行特征運(yùn)算,得到所述音素序列樣本的n個(gè)參考韻律子特征,包括:
4.如權(quán)利要求2所述的方法,其特征在于,所述將所述音素序列樣本中音素的n個(gè)韻律子特征輸入到所述語音合成模型中進(jìn)行特征運(yùn)算,得到所述音素序列樣本的n個(gè)參考韻律子特征,包括:
5.如權(quán)利要求1所述的方法,其特征在于,所述將所述音素序列樣本的文本特征輸入到所述語音合成模型中進(jìn)行特征提取,得到所述音素序列樣本的預(yù)測韻律特征,包括:
6.如權(quán)利要求5所述的方法,其特征在于,所述預(yù)測韻律特征包括m個(gè)維度的特征;所述m個(gè)維度包括音高和音量;則所述對所述音素序列樣本的文本特征進(jìn)行局部特征提取和全局特征提取,得到所述音素序列樣本的預(yù)測韻律特征,包括:
7.如權(quán)利要求6所述的方法,其特征在于,所述參考韻律特征包括m個(gè)維度的特征;所述m個(gè)維度包括音高和音量,則所述基于所述參考韻律特征和所述預(yù)測韻律特征確定損失值,并基于所述損失值訓(xùn)練所述語音合成模型,包括:
8.一種語音合成方法,其特征在于,所述方法包括:
9.一種語音合成模型的訓(xùn)練裝置,其特征在于,所述裝置包括:
10.一種語音合成裝置,其特征在于,所述裝置包括:
11.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1~8中任一項(xiàng)所述方法的步驟。
12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其包括程序代碼,當(dāng)程序產(chǎn)品在電子設(shè)備上運(yùn)行時(shí),所述程序代碼用于使所述電子設(shè)備執(zhí)行如權(quán)利要求1~8中任一項(xiàng)所述方法的步驟。
13.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包含有計(jì)算機(jī)指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得上述權(quán)利要求1-8中任一項(xiàng)所述方法被實(shí)現(xiàn)。