本公開涉及智能家居和智慧家庭的,例如涉及一種文本轉(zhuǎn)語音方法及裝置。
背景技術(shù):
1、文本轉(zhuǎn)語音(text-to-speech,tts)模型可以將輸入的文本轉(zhuǎn)換為自然流暢的人類語音,在智能家居、語音助手、車載系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用??梢岳斫獾氖牵谋巨D(zhuǎn)語音模型需要基于語料庫進(jìn)行訓(xùn)練后,才可以具備轉(zhuǎn)換語音的能力。
2、在相關(guān)技術(shù)中,為了提高文本轉(zhuǎn)語音模型的輸出結(jié)果的準(zhǔn)確性,語料庫的數(shù)據(jù)量通常較大。然而,使用數(shù)據(jù)量大的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,需要使用較多的計算資源且需要耗費(fèi)較長的時間,導(dǎo)致模型訓(xùn)練成本較高。因此,相關(guān)技術(shù)存在無法同時兼顧文本轉(zhuǎn)語音模型較高的準(zhǔn)確性和降低模型訓(xùn)練成本這兩方面的需求。
3、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、為了對披露的實(shí)施例的一些方面有基本的理解,下面給出了簡單的概括。所述概括不是泛泛評述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍,而是作為后面的詳細(xì)說明的序言。
2、本公開實(shí)施例提供了一種文本轉(zhuǎn)語音方法及裝置,可以兼顧文本轉(zhuǎn)語音模型較高的準(zhǔn)確性和降低模型訓(xùn)練成本這兩方面的需求。
3、根據(jù)本公開的第一方面,提供了一種文本轉(zhuǎn)語音方法,包括:
4、獲取語料庫中的每個單位對象的重要程度值,其中,單位對象包括音素和功能詞;
5、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,其中,文本轉(zhuǎn)語音模型為非自回歸模型;
6、將待轉(zhuǎn)換的目標(biāo)文本輸入到訓(xùn)練好的文本轉(zhuǎn)語音模型,利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音。
7、在一些實(shí)施例中,獲取語料庫中的每個單位對象的重要程度值,包括:
8、獲取語料庫中的每個單位對象的頻率比重,其中,每個單位對象的頻率比重與該單位對象的出現(xiàn)次數(shù)成正相關(guān);
9、基于各單位對象的頻率比重,確定出每個單位對象的重要程度值。
10、每個單位對象的頻率比重,是該單位對象的出現(xiàn)次數(shù)與語料庫中所有單位對象的出現(xiàn)次數(shù)總和的比值。
11、在一些實(shí)施例中,基于各單位對象的頻率比重,確定出每個單位對象的重要程度值,包括:
12、在各單位對象的頻率比重中,確定出最大頻率比重和最小頻率比重;
13、計算最大頻率比重與最小頻率比重的第一差值,以及每個單位對象的頻率比重與最小頻率比重的第二差值;
14、將每個單位對象對應(yīng)的第二差值與第一差值的比值,作為該單位對象的重要程度值。
15、在一些實(shí)施例中,將每個單位對象對應(yīng)的第二差值與第一差值的比值,作為該單位對象的重要程度值,包括:
16、計算每個單位對象對應(yīng)的第二差值與第一差值的第一比值;
17、將每個單位對象對應(yīng)的第一比值與預(yù)設(shè)的控制參數(shù)的乘積,作為該單位對象的重要程度值,其中,控制參數(shù)需要根據(jù)文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息動態(tài)調(diào)整。
18、在一些實(shí)施例中,基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,包括:
19、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練;
20、確定文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息,基于訓(xùn)練結(jié)果信息調(diào)整文本轉(zhuǎn)語音模型的模型參數(shù)和控制參數(shù);
21、重新獲取語料庫中的每個單位對象的重要程度值;
22、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練。
23、在一些實(shí)施例中,獲取語料庫中的每個單位對象的重要程度值,包括:
24、獲取語料庫中的每個單位對象的信息熵;
25、將每個單位對象的信息熵作為該單位對象的重要程度值。
26、在一些實(shí)施例中,基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,包括:
27、將重要程度值符合刪除條件的單位對象確定為可刪除對象;
28、將語料庫中的可刪除對象剔除以實(shí)現(xiàn)壓縮,得到壓縮后的語料庫。
29、在一些實(shí)施例中,將重要程度值符合刪除條件的單位對象確定為可刪除對象,包括:
30、按照重要程度值從大到小的順序,對各單位對象進(jìn)行排序;
31、將排在第n個單位對象之后的其他單位對象確定為可刪除對象,其中,n為大于1的整數(shù)。
32、在一些實(shí)施例中,將重要程度值符合刪除條件的單位對象確定為可刪除對象,包括:
33、將每個單位對象的重要程度值與預(yù)設(shè)的壓縮閾值進(jìn)行對比;
34、將重要程度值小于壓縮閾值的單位對象確定為可刪除對象。
35、在一些實(shí)施例中,壓縮閾值需要根據(jù)文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息動態(tài)調(diào)整。
36、在一些實(shí)施例中,基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,包括:
37、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練;
38、確定文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息,基于訓(xùn)練結(jié)果信息調(diào)整文本轉(zhuǎn)語音模型的模型參數(shù)和壓縮閾值;
39、重新獲取語料庫中的每個單位對象的重要程度值;
40、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練。
41、在一些實(shí)施例中,文本轉(zhuǎn)語音模型包括:
42、多層次韻律建模單元,用于在輸入的文本中提取出音素級特征和詞級特征,基于音素級特征和詞級特征獲得多層次韻律特征;
43、頻譜圖細(xì)化單元,用于生成梅爾頻譜圖,對初始生成的梅爾頻譜圖進(jìn)行細(xì)化以得到目標(biāo)梅爾頻譜圖;
44、語音生成單元,用于基于多層次韻律特征和目標(biāo)梅爾頻譜圖生成相應(yīng)的語音。
45、在一些實(shí)施例中,文本轉(zhuǎn)語音方法還包括:
46、在基于壓縮后的語料庫對文本轉(zhuǎn)語音模型完成訓(xùn)練之后,在語料庫中嵌入目標(biāo)用戶的風(fēng)格特征以得到專屬語料庫;
47、基于專屬語料庫對文本轉(zhuǎn)語音模型進(jìn)行微調(diào)。
48、在一些實(shí)施例中,將待轉(zhuǎn)換的目標(biāo)文本輸入到訓(xùn)練好的文本轉(zhuǎn)語音模型,利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音,包括:將待轉(zhuǎn)換的目標(biāo)文本輸入到微調(diào)后的文本轉(zhuǎn)語音模型,利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音。
49、根據(jù)本公開的第二方面,提供了一種文本轉(zhuǎn)語音裝置,包括:
50、初始重要度確定模塊,被配置為獲取語料庫中的每個單位對象的重要程度值,單位對象包括音素和功能詞;
51、轉(zhuǎn)換模型訓(xùn)練模塊,被配置為基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,文本轉(zhuǎn)語音模型為非自回歸模型;
52、文本語音轉(zhuǎn)換模塊,被配置為將待轉(zhuǎn)換的目標(biāo)文本輸入到訓(xùn)練好的文本轉(zhuǎn)語音模型,利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音。
53、根據(jù)本公開的第三方面,提供了一種文本轉(zhuǎn)語音裝置,包括處理器和存儲有程序指令的存儲器,處理器被配置為在運(yùn)行程序指令時,執(zhí)行本公開的第一方面提供的文本轉(zhuǎn)語音方法。
54、本公開實(shí)施例提供的文本轉(zhuǎn)語音方法及裝置,可以實(shí)現(xiàn)以下技術(shù)效果:
55、本公開實(shí)施例提供的文本轉(zhuǎn)語音方法,基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,可以去除語料庫中重要性較低的信息,有助于在盡可能保留語料庫中有效數(shù)據(jù)的情況下,減少語料庫的數(shù)據(jù)量。由于壓縮后的語料庫相比于原始的語料庫的數(shù)據(jù)量較小,因此基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,可以節(jié)省計算資源,縮短訓(xùn)練時間,有助于降低模型訓(xùn)練成本。此外,壓縮后的語料庫盡可能地保留了語料庫中有效數(shù)據(jù)的,有助于確保文本轉(zhuǎn)語音模型具有較高的準(zhǔn)確性。因此,基于本公開實(shí)施例提供的文本轉(zhuǎn)語音方法,可以兼顧文本轉(zhuǎn)語音模型較高的準(zhǔn)確性和降低模型訓(xùn)練成本這兩方面的需求。
56、以上的總體描述和下文中的描述僅是示例性和解釋性的,不用于限制本公開。