本申請涉及語音合成,具體涉及一種音素序列確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)(計算機(jī)可讀存儲介質(zhì))。
背景技術(shù):
1、tts(text?to?speech,即文本到語音的合成技術(shù)),也即通過一定方法,對輸入的文本形式內(nèi)容進(jìn)行處理,得到特定說話人的語音發(fā)音結(jié)果,目前已廣泛用于語音提示、電子書等領(lǐng)域中。目前,大部分tts技術(shù)都是由前后端兩部分組成,其中前端主要用于將輸入的文本轉(zhuǎn)化為消除歧義的發(fā)音表示,也就是音素,而后端則主要通過聲學(xué)模型或是聲碼器將音素合成為語音進(jìn)行輸出,可見,將文本轉(zhuǎn)化為合理的音素序列會影響到整個文本語音合成技術(shù)的穩(wěn)定性。
2、目前前端處理大多數(shù)都是通過不同的功能模塊實現(xiàn)對文本的不同處理步驟,例如清洗模塊用于對不發(fā)音的字符提前進(jìn)行清洗、歸一化模塊用于將不規(guī)范的文本表示,例如數(shù)值,規(guī)約成中文漢字序列表示、漢字-拼音轉(zhuǎn)換模塊用于通過發(fā)音詞典將歸一化后的文本轉(zhuǎn)換為拼音序列等等。然而,上述方式依賴于不同功能模塊之前的順序依賴關(guān)系,且模塊存在噪聲傳遞,從而導(dǎo)致最終生成的音素序列不夠準(zhǔn)確,影響后續(xù)文本語音合成的效果。
技術(shù)實現(xiàn)思路
1、針對上述技術(shù)問題,本申請實施例提供一種音素序列確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)。
2、第一方面,本申請實施例提供一種音素序列確定方法,包括:
3、將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列;
4、根據(jù)所述目標(biāo)文本中的字詞生成所述目標(biāo)文本的第一編碼特征,以及根據(jù)所述候選音素序列中的音素生成所述候選音素序列的第二編碼特征;
5、將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型,得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度,其中,所述目標(biāo)相似度包括所述目標(biāo)文本中每一字詞和所述候選音素序列中每一音素之間的相似度;
6、根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列。
7、第二方面,本申請實施例提供一種音素序列確定裝置,包括:
8、輸入模塊,用于將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列;
9、編碼模塊,用于根據(jù)所述目標(biāo)文本中的字詞生成所述目標(biāo)文本的第一編碼特征,以及根據(jù)所述候選音素序列中的音素生成所述候選音素序列的第二編碼特征;
10、處理模塊,用于將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型,得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度,其中,所述目標(biāo)相似度包括所述目標(biāo)文本中每一字詞和所述候選音素序列中每一音素之間的相似度;
11、篩選模塊,用于根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列。
12、第三方面,本申請實施例還提供一種計算機(jī)設(shè)備,包括存儲器存儲有多條指令;處理器從存儲器中加載指令,以執(zhí)行本申請實施例所提供的任一種音素序列確定方法的步驟。
13、第四方面,本申請實施例還提供一種計算機(jī)可讀存儲介質(zhì),計算機(jī)可讀存儲介質(zhì)存儲有多條指令,指令適于處理器進(jìn)行加載,以執(zhí)行本申請實施例所提供的任一種音素序列確定方法的步驟。
14、第五方面,本申請實施例還提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序或指令,計算機(jī)程序或指令被處理器執(zhí)行時實現(xiàn)本申請實施例所提供的任一種音素序列確定方法中的步驟。
15、采用申請實施例的方案,通過預(yù)設(shè)第一模型來對目標(biāo)文本進(jìn)行處理以得到可能的多個候選音素序列,然后利用候選音素序列和文本的編碼特征確定出目標(biāo)文本和不同候選音素序列之間的相似度,后續(xù)就可以基于相似度從候選音素序列中確定目標(biāo)文本的目標(biāo)音素序列。由于本申請實施例提供的預(yù)設(shè)第一模型直接建立了由文本到音素序列的生成關(guān)系,能夠保證所生成的候選音素序列的效果,同時利用相似度對音素序列作出篩選,進(jìn)一步保證了所生成的音素序列的準(zhǔn)確度,從而提高了后續(xù)語音合成的效果。
1.一種音素序列確定方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型,得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)第一模型是通過如下步驟訓(xùn)練得到:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述預(yù)測序列和所述樣本序列計算所述初始第一模型的第一模型損失值,包括:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述預(yù)測序列和所述樣本序列計算所述初始第一模型的第一模型損失值的步驟之后,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)第二模型是通過如下步驟訓(xùn)練得到:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述預(yù)測相似度矩陣中的矩陣元素包括對角線元素以及非對角線元素;
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所述預(yù)測相似度矩陣中的矩陣元素確定所述初始第二模型對應(yīng)的第二模型損失值的步驟之后,所述方法還包括:
10.根據(jù)權(quán)利要求1~9任一項所述的方法,其特征在于,所述根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列的步驟之后,所述方法還包括:
11.一種音素序列確定裝置,其特征在于,包括:
12.一種計算機(jī)設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器存儲有多條指令;所述處理器從所述存儲器中加載指令,以執(zhí)行如權(quán)利要求1~10任一項所述的音素序列確定方法的步驟。
13.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)存儲有多條指令,所述指令適于處理器進(jìn)行加載,以執(zhí)行如權(quán)利要求1~10任一項所述的音素序列確定方法的步驟。