本申請涉及人工智能,具體涉及一種模型生成方法及相關(guān)設(shè)備。
背景技術(shù):
1、從文本到語音(text?to?speech,tts)技術(shù)可以使機(jī)器說話。非自回歸語音合成tts模型通過學(xué)習(xí)語音特征從而得到合成語音。合成語音的韻律感十分重要,韻律指的是語音中的抑揚(yáng)頓挫、聲音強(qiáng)度、音高等特征,富有韻律感的合成語音擬人程度高,較為自然。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例提供一種模型生成方法及相關(guān)設(shè)備,用于提高語音合成的準(zhǔn)確性。
2、第一方面,本申請實(shí)施例提供一種模型生成方法,包括:
3、將樣本音素序列中音素的韻律特征輸入至語音合成模型的第一模塊中進(jìn)行第一處理,得到樣本音素序列的第一全局特征;
4、將樣本音素序列對應(yīng)的樣本文本輸入至語音合成模型的第二模塊中得到樣本音素序列的第二全局特征;
5、基于樣本音素序列的第一全局特征與第二全局特征確定損失值;
6、基于損失值調(diào)整語音合成模型的參數(shù)。
7、第二方面,本申請實(shí)施例提供了一種語音合成方法,包括:
8、將目標(biāo)音素序列中音素的韻律特征輸入至語音合成模型的第一模塊進(jìn)行第一處理,得到目標(biāo)音素序列的第一全局特征;和/或,將目標(biāo)音素序列對應(yīng)的目標(biāo)文本輸入至語音合成模型的第二模塊進(jìn)行第二處理,得到目標(biāo)音素序列的第二全局特征;
9、基于目標(biāo)音素序列的第一全局特征和/或第二全局特征,確定目標(biāo)音素序列的梅爾頻譜;
10、基于目標(biāo)音素序列的梅爾頻譜進(jìn)行語音合成。
11、第三方面,本申請實(shí)施例提供一種模型生成裝置,包括:
12、獲取單元,用于將樣本音素序列中音素的韻律特征輸入至語音合成模型的第一模塊中進(jìn)行第一處理,得到樣本音素序列的第一全局特征;將樣本音素序列對應(yīng)的樣本文本輸入至語音合成模型的第二模塊中進(jìn)行第二處理,得到樣本音素序列的第二全局特征;
13、處理單元,用于基于樣本音素序列的第一全局特征與第二全局特征確定損失值;基于損失值調(diào)整語音合成模型的參數(shù)。
14、第四方面,本申請實(shí)施例提供了一種語音合成裝置,包括:
15、獲取單元,用于:將目標(biāo)音素序列中音素的韻律特征輸入至語音合成模型的第一模塊進(jìn)行第一處理,得到目標(biāo)音素序列的第一全局特征;和/或,將目標(biāo)音素序列對應(yīng)的目標(biāo)文本輸入至語音合成模型的第二模塊進(jìn)行第二處理,得到目標(biāo)音素序列的第二全局特征;
16、處理單元,用于:基于目標(biāo)音素序列的第一全局特征和/或第二全局特征,確定目標(biāo)音素序列的梅爾頻譜;
17、合成單元,用于:基于目標(biāo)音素序列的梅爾頻譜進(jìn)行語音合成。
18、第五方面,本申請實(shí)施例提供一種電子設(shè)備,包括處理器和存儲器,其中,所述存儲器存儲有程序代碼,當(dāng)所述程序代碼被所述處理器執(zhí)行時,使得所述處理器執(zhí)行上述模型生成方法或上述語音合成方法。
19、第六方面,本申請實(shí)施例提供一種計算機(jī)可讀存儲介質(zhì),其包括程序代碼,當(dāng)所述程序產(chǎn)品在電子設(shè)備上運(yùn)行時,所述程序代碼用于使所述電子設(shè)備執(zhí)行上述模型生成方法或上述語音合成方法。
20、第七方面,本申請實(shí)施例提供一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括:計算機(jī)程序代碼,當(dāng)所述計算機(jī)程序代碼在計算機(jī)上運(yùn)行時,使得計算機(jī)執(zhí)行上述模型生成方法或上述語音合成方法。
21、本申請有益效果如下:
22、本申請實(shí)施例中,第一全局特征是基于韻律特征確定的,第二全局特征是基于文本確定的,使得確定的第一全局特征與第二全局特征分別從語音角度與文字角度反映了一個文本的情感特征,基于第一全局特征和第二全局特征訓(xùn)練語音合成模型,使得訓(xùn)練后的語音合成模型能從語音角度與文字角度關(guān)注情感特征,最終使得基于語音合成模型進(jìn)行語音合成能夠得到較為自然的合成語音,提高了語音合成的準(zhǔn)確性。
23、本申請的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本申請而了解。本申請的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
1.一種模型生成方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述韻律特征包括第一維度的多個第一子特征;所述第一處理,包括:
3.如權(quán)利要求1所述的方法,其特征在于,所述第二處理,包括:
4.如權(quán)利要求1~3任一項(xiàng)所述的方法,其特征在于,所述樣本音素序列有多個,在多個所述樣本音素序列中目標(biāo)樣本音素序列的數(shù)量大于或等于預(yù)設(shè)閾值的情況下,參數(shù)調(diào)整得到的語音合成模型不包括所述第二模塊;所述目標(biāo)樣本音素序列中的每個音素都具備所述韻律特征。
5.一種語音合成方法,其特征在于,包括:
6.一種模型生成裝置,其特征在于,所述裝置包括:
7.一種語音合成裝置,其特征在于,所述裝置包括:
8.一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)權(quán)利要求1~4任一項(xiàng)或權(quán)利要求5所述方法的步驟。
9.一種計算機(jī)可讀存儲介質(zhì),其特征在于,其包括程序代碼,當(dāng)程序產(chǎn)品在電子設(shè)備上運(yùn)行時,所述程序代碼用于使所述電子設(shè)備執(zhí)行權(quán)利要求1~4中任一項(xiàng)或權(quán)利要求5所述方法的步驟。
10.一種計算機(jī)程序產(chǎn)品,其特征在于,所述計算機(jī)程序產(chǎn)品包括:計算機(jī)程序代碼,當(dāng)所述計算機(jī)程序代碼在計算機(jī)上運(yùn)行時,使得計算機(jī)執(zhí)行如權(quán)利要求1~4任一項(xiàng)或權(quán)利要求5所述的方法。