一種模型生成方法及相關(guān)設(shè)備與流程

文檔序號：40402491發(fā)布日期：2024-12-20 12:26閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請涉及人工智能，具體涉及一種模型生成方法及相關(guān)設(shè)備。

背景技術(shù)：

1、從文本到語音(text?to?speech，tts)技術(shù)可以使機(jī)器說話。非自回歸語音合成tts模型通過學(xué)習(xí)語音特征從而得到合成語音。合成語音的韻律感十分重要，韻律指的是語音中的抑揚(yáng)頓挫、聲音強(qiáng)度、音高等特征，富有韻律感的合成語音擬人程度高，較為自然。

技術(shù)實(shí)現(xiàn)思路

1、本申請實(shí)施例提供一種模型生成方法及相關(guān)設(shè)備，用于提高語音合成的準(zhǔn)確性。

2、第一方面，本申請實(shí)施例提供一種模型生成方法，包括：

3、將樣本音素序列中音素的韻律特征輸入至語音合成模型的第一模塊中進(jìn)行第一處理，得到樣本音素序列的第一全局特征；

4、將樣本音素序列對應(yīng)的樣本文本輸入至語音合成模型的第二模塊中得到樣本音素序列的第二全局特征；

5、基于樣本音素序列的第一全局特征與第二全局特征確定損失值；

6、基于損失值調(diào)整語音合成模型的參數(shù)。

7、第二方面，本申請實(shí)施例提供了一種語音合成方法，包括：

8、將目標(biāo)音素序列中音素的韻律特征輸入至語音合成模型的第一模塊進(jìn)行第一處理，得到目標(biāo)音素序列的第一全局特征；和/或，將目標(biāo)音素序列對應(yīng)的目標(biāo)文本輸入至語音合成模型的第二模塊進(jìn)行第二處理，得到目標(biāo)音素序列的第二全局特征；

9、基于目標(biāo)音素序列的第一全局特征和/或第二全局特征，確定目標(biāo)音素序列的梅爾頻譜；

10、基于目標(biāo)音素序列的梅爾頻譜進(jìn)行語音合成。

11、第三方面，本申請實(shí)施例提供一種模型生成裝置，包括：

12、獲取單元，用于將樣本音素序列中音素的韻律特征輸入至語音合成模型的第一模塊中進(jìn)行第一處理，得到樣本音素序列的第一全局特征；將樣本音素序列對應(yīng)的樣本文本輸入至語音合成模型的第二模塊中進(jìn)行第二處理，得到樣本音素序列的第二全局特征；

13、處理單元，用于基于樣本音素序列的第一全局特征與第二全局特征確定損失值；基于損失值調(diào)整語音合成模型的參數(shù)。

14、第四方面，本申請實(shí)施例提供了一種語音合成裝置，包括：

15、獲取單元，用于：將目標(biāo)音素序列中音素的韻律特征輸入至語音合成模型的第一模塊進(jìn)行第一處理，得到目標(biāo)音素序列的第一全局特征；和/或，將目標(biāo)音素序列對應(yīng)的目標(biāo)文本輸入至語音合成模型的第二模塊進(jìn)行第二處理，得到目標(biāo)音素序列的第二全局特征；

16、處理單元，用于：基于目標(biāo)音素序列的第一全局特征和/或第二全局特征，確定目標(biāo)音素序列的梅爾頻譜；

17、合成單元，用于：基于目標(biāo)音素序列的梅爾頻譜進(jìn)行語音合成。

18、第五方面，本申請實(shí)施例提供一種電子設(shè)備，包括處理器和存儲器，其中，所述存儲器存儲有程序代碼，當(dāng)所述程序代碼被所述處理器執(zhí)行時，使得所述處理器執(zhí)行上述模型生成方法或上述語音合成方法。

19、第六方面，本申請實(shí)施例提供一種計算機(jī)可讀存儲介質(zhì)，其包括程序代碼，當(dāng)所述程序產(chǎn)品在電子設(shè)備上運(yùn)行時，所述程序代碼用于使所述電子設(shè)備執(zhí)行上述模型生成方法或上述語音合成方法。

20、第七方面，本申請實(shí)施例提供一種計算機(jī)程序產(chǎn)品，所述計算機(jī)程序產(chǎn)品包括：計算機(jī)程序代碼，當(dāng)所述計算機(jī)程序代碼在計算機(jī)上運(yùn)行時，使得計算機(jī)執(zhí)行上述模型生成方法或上述語音合成方法。

21、本申請有益效果如下：

22、本申請實(shí)施例中，第一全局特征是基于韻律特征確定的，第二全局特征是基于文本確定的，使得確定的第一全局特征與第二全局特征分別從語音角度與文字角度反映了一個文本的情感特征，基于第一全局特征和第二全局特征訓(xùn)練語音合成模型，使得訓(xùn)練后的語音合成模型能從語音角度與文字角度關(guān)注情感特征，最終使得基于語音合成模型進(jìn)行語音合成能夠得到較為自然的合成語音，提高了語音合成的準(zhǔn)確性。

23、本申請的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述，并且，部分地從說明書中變得顯而易見，或者通過實(shí)施本申請而了解。本申請的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。

技術(shù)特征：

1.一種模型生成方法，其特征在于，所述方法包括：

2.如權(quán)利要求1所述的方法，其特征在于，所述韻律特征包括第一維度的多個第一子特征；所述第一處理，包括：

3.如權(quán)利要求1所述的方法，其特征在于，所述第二處理，包括：

4.如權(quán)利要求1～3任一項(xiàng)所述的方法，其特征在于，所述樣本音素序列有多個，在多個所述樣本音素序列中目標(biāo)樣本音素序列的數(shù)量大于或等于預(yù)設(shè)閾值的情況下，參數(shù)調(diào)整得到的語音合成模型不包括所述第二模塊；所述目標(biāo)樣本音素序列中的每個音素都具備所述韻律特征。

5.一種語音合成方法，其特征在于，包括：

6.一種模型生成裝置，其特征在于，所述裝置包括：

7.一種語音合成裝置，其特征在于，所述裝置包括：

8.一種電子設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序，其特征在于，所述處理器執(zhí)行所述程序時實(shí)現(xiàn)權(quán)利要求1～4任一項(xiàng)或權(quán)利要求5所述方法的步驟。

9.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，其包括程序代碼，當(dāng)程序產(chǎn)品在電子設(shè)備上運(yùn)行時，所述程序代碼用于使所述電子設(shè)備執(zhí)行權(quán)利要求1～4中任一項(xiàng)或權(quán)利要求5所述方法的步驟。

10.一種計算機(jī)程序產(chǎn)品，其特征在于，所述計算機(jī)程序產(chǎn)品包括：計算機(jī)程序代碼，當(dāng)所述計算機(jī)程序代碼在計算機(jī)上運(yùn)行時，使得計算機(jī)執(zhí)行如權(quán)利要求1～4任一項(xiàng)或權(quán)利要求5所述的方法。

技術(shù)總結(jié)
本申請公開一種模型生成方法及相關(guān)設(shè)備，用于提高語音合成的準(zhǔn)確性。所述方法包括：將樣本音素序列中音素的韻律特征輸入至語音合成模型的第一模塊中進(jìn)行第一處理，得到所述樣本音素序列的第一全局特征；將所述樣本音素序列對應(yīng)的樣本文本輸入至所述語音合成模型的第二模塊中進(jìn)行第二處理，得到所述樣本音素序列的第二全局特征；基于所述樣本音素序列的第一全局特征與第二全局特征確定損失值；基于所述損失值調(diào)整所述語音合成模型的參數(shù)。

技術(shù)研發(fā)人員：劉鵬飛
受保護(hù)的技術(shù)使用者：馬上消費(fèi)金融股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉鵬飛
技術(shù)所有人：馬上消費(fèi)金融股份有限公司
我是此專利的發(fā)明人

上一篇：一種可轉(zhuǎn)動的洗澡椅的制作方法
上一篇：一種高舒適性的高彈合成革的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種模型生成方法及相關(guān)設(shè)備與流程