文本轉(zhuǎn)語音方法及裝置與流程

文檔序號：40279291發(fā)布日期：2024-12-11 13:16閱讀：27來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開涉及智能家居和智慧家庭的，例如涉及一種文本轉(zhuǎn)語音方法及裝置。

背景技術(shù)：

1、文本轉(zhuǎn)語音(text-to-speech，tts)模型可以將輸入的文本轉(zhuǎn)換為自然流暢的人類語音，在智能家居、語音助手、車載系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用?？梢岳斫獾氖牵谋巨D(zhuǎn)語音模型需要基于語料庫進(jìn)行訓(xùn)練后，才可以具備轉(zhuǎn)換語音的能力。

2、在相關(guān)技術(shù)中，為了提高文本轉(zhuǎn)語音模型的輸出結(jié)果的準(zhǔn)確性，語料庫的數(shù)據(jù)量通常較大。然而，使用數(shù)據(jù)量大的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練，需要使用較多的計算資源且需要耗費(fèi)較長的時間，導(dǎo)致模型訓(xùn)練成本較高。因此，相關(guān)技術(shù)存在無法同時兼顧文本轉(zhuǎn)語音模型較高的準(zhǔn)確性和降低模型訓(xùn)練成本這兩方面的需求。

3、需要說明的是，在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對本公開的背景的理解，因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。

技術(shù)實(shí)現(xiàn)思路

1、為了對披露的實(shí)施例的一些方面有基本的理解，下面給出了簡單的概括。所述概括不是泛泛評述，也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍，而是作為后面的詳細(xì)說明的序言。

2、本公開實(shí)施例提供了一種文本轉(zhuǎn)語音方法及裝置，可以兼顧文本轉(zhuǎn)語音模型較高的準(zhǔn)確性和降低模型訓(xùn)練成本這兩方面的需求。

3、根據(jù)本公開的第一方面，提供了一種文本轉(zhuǎn)語音方法，包括：

4、獲取語料庫中的每個單位對象的重要程度值，其中，單位對象包括音素和功能詞；

5、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練，其中，文本轉(zhuǎn)語音模型為非自回歸模型；

6、將待轉(zhuǎn)換的目標(biāo)文本輸入到訓(xùn)練好的文本轉(zhuǎn)語音模型，利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音。

7、在一些實(shí)施例中，獲取語料庫中的每個單位對象的重要程度值，包括：

8、獲取語料庫中的每個單位對象的頻率比重，其中，每個單位對象的頻率比重與該單位對象的出現(xiàn)次數(shù)成正相關(guān)；

9、基于各單位對象的頻率比重，確定出每個單位對象的重要程度值。

10、每個單位對象的頻率比重，是該單位對象的出現(xiàn)次數(shù)與語料庫中所有單位對象的出現(xiàn)次數(shù)總和的比值。

11、在一些實(shí)施例中，基于各單位對象的頻率比重，確定出每個單位對象的重要程度值，包括：

12、在各單位對象的頻率比重中，確定出最大頻率比重和最小頻率比重；

13、計算最大頻率比重與最小頻率比重的第一差值，以及每個單位對象的頻率比重與最小頻率比重的第二差值；

14、將每個單位對象對應(yīng)的第二差值與第一差值的比值，作為該單位對象的重要程度值。

15、在一些實(shí)施例中，將每個單位對象對應(yīng)的第二差值與第一差值的比值，作為該單位對象的重要程度值，包括：

16、計算每個單位對象對應(yīng)的第二差值與第一差值的第一比值；

17、將每個單位對象對應(yīng)的第一比值與預(yù)設(shè)的控制參數(shù)的乘積，作為該單位對象的重要程度值，其中，控制參數(shù)需要根據(jù)文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息動態(tài)調(diào)整。

18、在一些實(shí)施例中，基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練，包括：

19、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練；

20、確定文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息，基于訓(xùn)練結(jié)果信息調(diào)整文本轉(zhuǎn)語音模型的模型參數(shù)和控制參數(shù)；

21、重新獲取語料庫中的每個單位對象的重要程度值；

22、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練。

23、在一些實(shí)施例中，獲取語料庫中的每個單位對象的重要程度值，包括：

24、獲取語料庫中的每個單位對象的信息熵；

25、將每個單位對象的信息熵作為該單位對象的重要程度值。

26、在一些實(shí)施例中，基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，包括：

27、將重要程度值符合刪除條件的單位對象確定為可刪除對象；

28、將語料庫中的可刪除對象剔除以實(shí)現(xiàn)壓縮，得到壓縮后的語料庫。

29、在一些實(shí)施例中，將重要程度值符合刪除條件的單位對象確定為可刪除對象，包括：

30、按照重要程度值從大到小的順序，對各單位對象進(jìn)行排序；

31、將排在第n個單位對象之后的其他單位對象確定為可刪除對象，其中，n為大于1的整數(shù)。

32、在一些實(shí)施例中，將重要程度值符合刪除條件的單位對象確定為可刪除對象，包括：

33、將每個單位對象的重要程度值與預(yù)設(shè)的壓縮閾值進(jìn)行對比；

34、將重要程度值小于壓縮閾值的單位對象確定為可刪除對象。

35、在一些實(shí)施例中，壓縮閾值需要根據(jù)文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息動態(tài)調(diào)整。

36、在一些實(shí)施例中，基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練，包括：

37、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練；

38、確定文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息，基于訓(xùn)練結(jié)果信息調(diào)整文本轉(zhuǎn)語音模型的模型參數(shù)和壓縮閾值；

39、重新獲取語料庫中的每個單位對象的重要程度值；

40、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練。

41、在一些實(shí)施例中，文本轉(zhuǎn)語音模型包括：

42、多層次韻律建模單元，用于在輸入的文本中提取出音素級特征和詞級特征，基于音素級特征和詞級特征獲得多層次韻律特征；

43、頻譜圖細(xì)化單元，用于生成梅爾頻譜圖，對初始生成的梅爾頻譜圖進(jìn)行細(xì)化以得到目標(biāo)梅爾頻譜圖；

44、語音生成單元，用于基于多層次韻律特征和目標(biāo)梅爾頻譜圖生成相應(yīng)的語音。

45、在一些實(shí)施例中，文本轉(zhuǎn)語音方法還包括：

46、在基于壓縮后的語料庫對文本轉(zhuǎn)語音模型完成訓(xùn)練之后，在語料庫中嵌入目標(biāo)用戶的風(fēng)格特征以得到專屬語料庫；

47、基于專屬語料庫對文本轉(zhuǎn)語音模型進(jìn)行微調(diào)。

48、在一些實(shí)施例中，將待轉(zhuǎn)換的目標(biāo)文本輸入到訓(xùn)練好的文本轉(zhuǎn)語音模型，利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音，包括：將待轉(zhuǎn)換的目標(biāo)文本輸入到微調(diào)后的文本轉(zhuǎn)語音模型，利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音。

49、根據(jù)本公開的第二方面，提供了一種文本轉(zhuǎn)語音裝置，包括：

50、初始重要度確定模塊，被配置為獲取語料庫中的每個單位對象的重要程度值，單位對象包括音素和功能詞；

51、轉(zhuǎn)換模型訓(xùn)練模塊，被配置為基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練，文本轉(zhuǎn)語音模型為非自回歸模型；

52、文本語音轉(zhuǎn)換模塊，被配置為將待轉(zhuǎn)換的目標(biāo)文本輸入到訓(xùn)練好的文本轉(zhuǎn)語音模型，利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音。

53、根據(jù)本公開的第三方面，提供了一種文本轉(zhuǎn)語音裝置，包括處理器和存儲有程序指令的存儲器，處理器被配置為在運(yùn)行程序指令時，執(zhí)行本公開的第一方面提供的文本轉(zhuǎn)語音方法。

54、本公開實(shí)施例提供的文本轉(zhuǎn)語音方法及裝置，可以實(shí)現(xiàn)以下技術(shù)效果：

55、本公開實(shí)施例提供的文本轉(zhuǎn)語音方法，基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮，可以去除語料庫中重要性較低的信息，有助于在盡可能保留語料庫中有效數(shù)據(jù)的情況下，減少語料庫的數(shù)據(jù)量。由于壓縮后的語料庫相比于原始的語料庫的數(shù)據(jù)量較小，因此基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練，可以節(jié)省計算資源，縮短訓(xùn)練時間，有助于降低模型訓(xùn)練成本。此外，壓縮后的語料庫盡可能地保留了語料庫中有效數(shù)據(jù)的，有助于確保文本轉(zhuǎn)語音模型具有較高的準(zhǔn)確性。因此，基于本公開實(shí)施例提供的文本轉(zhuǎn)語音方法，可以兼顧文本轉(zhuǎn)語音模型較高的準(zhǔn)確性和降低模型訓(xùn)練成本這兩方面的需求。

56、以上的總體描述和下文中的描述僅是示例性和解釋性的，不用于限制本公開。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：田云龍,杜永杰,鄧邱偉,崔原,欒天祥,牛麗
技術(shù)所有人：青島海爾科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

文本轉(zhuǎn)語音方法及裝置與流程