本發(fā)明涉及語音合成,更具體地說,涉及語音合成系統(tǒng)的說話風(fēng)格的交互式修改。
背景技術(shù):
1、語音合成,也稱為文本到語音(tts)轉(zhuǎn)換,涉及接收待說出(即合成)的文本輸入的表示,例如,以單詞序列或子單詞單元的形式,并將該輸入表示轉(zhuǎn)換為音頻輸出的表示,例如,以音頻波形的形式或作為時頻能量表示(“聲譜圖”),以呈現(xiàn)給聽眾來傳達(dá)輸入文本??梢允褂酶鞣N方法,包括依賴于訓(xùn)練數(shù)據(jù)的技術(shù),訓(xùn)練數(shù)據(jù)包括用于確定參數(shù)化轉(zhuǎn)換的配置參數(shù)值(即“訓(xùn)練”)的文本輸入和相應(yīng)音頻輸出的成對表示。例如,人工神經(jīng)網(wǎng)絡(luò)(ann)可以用作執(zhí)行文本到語音轉(zhuǎn)換的參數(shù)化轉(zhuǎn)換。在某些實現(xiàn)中,如果所有訓(xùn)練數(shù)據(jù)都來自具有特定說話風(fēng)格的單個說話者,則生成的tts系統(tǒng)將表現(xiàn)出相同的說話風(fēng)格。
2、一些方法利用包括不同說話風(fēng)格和/或來自不同說話者的子集的訓(xùn)練數(shù)據(jù)。一些方法使用每個子集的表示來允許在轉(zhuǎn)換文本時選擇這些風(fēng)格或說話者之一的表示(例如,通過向轉(zhuǎn)換過程提供額外的輸入)。也就是說,轉(zhuǎn)換過程的輸入包括待轉(zhuǎn)換的文本的表示和待再現(xiàn)(即復(fù)制或“克隆”)的說話者或風(fēng)格的表示。一些方法允許分析不在訓(xùn)練數(shù)據(jù)中的新語音樣本,以確定用于tts轉(zhuǎn)換的該新樣本的表示。
3、已經(jīng)提出了對合成語音風(fēng)格的特定方面的控制,例如,通過在參數(shù)化變換的訓(xùn)練時明確考慮這些特征來控制韻律特性(例如音高、音量和語速的變化)。
技術(shù)實現(xiàn)思路
1、在一般方面,本文所述的方法提供了對tts系統(tǒng)的說話風(fēng)格的控制,而不一定要求tts轉(zhuǎn)換過程的訓(xùn)練(例如,用于轉(zhuǎn)換的ann)考慮訓(xùn)練數(shù)據(jù)的說話風(fēng)格。例如,tts系統(tǒng)可以允許調(diào)整說話風(fēng)格的特征,如語速、可感知的“善意”程度、平均音高、音高變化和停頓持續(xù)時間。在一些示例中,語音設(shè)計器可以具有多個獨(dú)立的控件,這些控件可以改變相應(yīng)的特征,而不一定改變其它特征。一旦設(shè)計器基于這些可控特征配置了所需的整體說話風(fēng)格,tts系統(tǒng)就可以配置為使用該說話風(fēng)格來部署tts系統(tǒng)。例如,tts系統(tǒng)可用于語音助手(例如車載語音助手)中的音頻輸出。
2、本文所述的方法提供了優(yōu)于現(xiàn)有技術(shù)的優(yōu)點(diǎn)。首先,可以實現(xiàn)風(fēng)格的連續(xù)性,而不需要從tts訓(xùn)練數(shù)據(jù)中表示的一組風(fēng)格中進(jìn)行選擇。其次,語音設(shè)計器能夠交互式地調(diào)整風(fēng)格直到風(fēng)格接近所需,而不需要進(jìn)一步的錄音或訓(xùn)練tts系統(tǒng)。第三,語音設(shè)計器獲得的風(fēng)格可以被約束為保持在訓(xùn)練集中包含的風(fēng)格分布附近,這意味著調(diào)諧后的語音輸出聽起來仍然很自然。例如,語速的增加可能會導(dǎo)致發(fā)音精度的降低,其降低程度與人類說話者顯示的程度相同。
3、在一個方面,通常,一種用于配置語音合成(也稱為“文本到語音”(tts))系統(tǒng)的說話風(fēng)格的方法包括根據(jù)多個可配置參數(shù)的值配置總結(jié)單元和合成單元。例如,這些可配置參數(shù)是從第一組訓(xùn)練項目中確定的,每個項目包括文本表示和相應(yīng)的音頻表示。這種確定可以稱為“訓(xùn)練”總結(jié)單元和合成單元。將此訓(xùn)練與其它步驟分開的優(yōu)點(diǎn)是,第一組訓(xùn)練項目不一定保留,可配置參數(shù)可以保持固定。
4、第二組訓(xùn)練項目用于確定每個項目的風(fēng)格匯總,其作為訓(xùn)練項目音頻表示的總結(jié)單元的輸出,并確定訓(xùn)練項目的多個測量值作為測量單元的輸出,每個測量值是項目的文本表示和該項目的音頻表示中的至少一個的函數(shù)。第二組訓(xùn)練項目可以與第一組訓(xùn)練項目相同,但可以是單獨(dú)的一組,即使在總結(jié)單元和合成單元的訓(xùn)練之后也可以收集。測量值和總結(jié)單元的輸出之間的關(guān)系用于確定風(fēng)格基礎(chǔ)。
5、接受說話風(fēng)格的多個特性目標(biāo),并使用風(fēng)格基礎(chǔ)對這些特性目標(biāo)進(jìn)行變換以產(chǎn)生目標(biāo)風(fēng)格特征。根據(jù)目標(biāo)風(fēng)格特征配置語音合成系統(tǒng)。有利地,由特性目標(biāo)控制的調(diào)整語音合成系統(tǒng)的輸出的說話風(fēng)格不需要對合成單元進(jìn)行再訓(xùn)練。
6、這些方面可以包括以下一個或更多個相互兼容的特征的組合。
7、每個特性目標(biāo)對應(yīng)于合成語音的不同特性。例如,特性目標(biāo)包括來自由音高、音高變化、音量和語速組成的組中的至少一個特性(或兩個或更多個特性)。
8、選擇風(fēng)格基礎(chǔ),使得隨著第一特性目標(biāo)的變化,與其它特性目標(biāo)相對應(yīng)的合成語音的特性變化被最小化。
9、被接受的特性目標(biāo)的范圍被限制為與第二訓(xùn)練集中的范圍相對應(yīng)。
10、總結(jié)單元被配置為接受音頻輸入,并產(chǎn)生所述輸入的固定長度表示作為風(fēng)格匯總。在某些情況下,使用序列到向量的變換(例如遞歸神經(jīng)網(wǎng)絡(luò)(rnn))。有利地,風(fēng)格匯總的分量不必與語音特性有明顯的關(guān)系,即使作為一個整體,這些特性被編碼在可能的風(fēng)格匯總的空間中。
11、該方法還包括使用配置的語音合成系統(tǒng)來計算合成發(fā)音,并向用戶呈現(xiàn)合成發(fā)音。響應(yīng)于呈現(xiàn),從用戶接收特性目標(biāo)的修改。例如,重復(fù)這些步驟,直到用戶確定已經(jīng)實現(xiàn)了所需的整體語音特征。有利地,當(dāng)每個目標(biāo)特性輸入控制輸出說話風(fēng)格中的不同特性時,用戶可以快速集中到所需的自然說話風(fēng)格。
12、使用測量值和總結(jié)單元的輸出之間的關(guān)系來確定風(fēng)格基礎(chǔ)包括:確定風(fēng)格基礎(chǔ),用于從特性目標(biāo)到風(fēng)格特征的計算映射。例如,確定風(fēng)格基礎(chǔ)包括:計算從特性目標(biāo)的向量表示到風(fēng)格特征的向量表示的線性(或等效仿射)映射。測量值和風(fēng)格特征的相關(guān)性可用于確定映射。
13、可選地,使用風(fēng)格基礎(chǔ)將特性目標(biāo)變換為目標(biāo)風(fēng)格特征包括使用與參考風(fēng)格對應(yīng)的參考風(fēng)格特征。通過這種方式,特性目標(biāo)表示與參考風(fēng)格的偏差。例如,參考風(fēng)格可以是具有接近用戶所需風(fēng)格的語音風(fēng)格的語音的風(fēng)格特征。
14、在另一方面,一般而言,語音設(shè)計系統(tǒng)包括:風(fēng)格修改單元,用于向用戶提供用戶接口,風(fēng)格修改組件通過該用戶接口從用戶接收調(diào)整值,并響應(yīng)于調(diào)整值產(chǎn)生風(fēng)格嵌入。該系統(tǒng)還包括:合成單元,其被配置為從風(fēng)格修改組件接收風(fēng)格嵌入,并根據(jù)風(fēng)格嵌入產(chǎn)生用于呈現(xiàn)給用戶的音頻信號。風(fēng)格修改單元可配置有風(fēng)格基礎(chǔ),該風(fēng)格基礎(chǔ)用于變換調(diào)整值以生成風(fēng)格嵌入。風(fēng)格修改單元可以可選地根據(jù)初始嵌入進(jìn)一步配置,在這種情況下,風(fēng)格修改單元根據(jù)相對于初始嵌入的調(diào)整值產(chǎn)生系統(tǒng)嵌入。
15、語音設(shè)計系統(tǒng)還可以包括:基礎(chǔ)計算單元,其被配置為使用訓(xùn)練項目來確定風(fēng)格基礎(chǔ)。這種確定包括使用訓(xùn)練項目的每個項目的波形表示以及基于所述項目的文本表示和波形表示中的至少一個的測量值來確定風(fēng)格基礎(chǔ)。
16、本發(fā)明的其它特征和優(yōu)點(diǎn)從以下描述和權(quán)利要求中顯而易見。
1.一種用于配置語音合成系統(tǒng)的說話風(fēng)格的方法:
2.根據(jù)權(quán)利要求1所述的方法,其中,每個特性目標(biāo)對應(yīng)于合成語音的不同特性。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述特性目標(biāo)包括來自由音高、音高變化、音量和語速組成的組中的至少一個特性。
4.根據(jù)權(quán)利要求2所述的方法,其中,選擇所述風(fēng)格基礎(chǔ),使得隨著第一特性目標(biāo)的變化,與其它特性目標(biāo)對應(yīng)的合成語音的特性變化被最小化。
5.根據(jù)權(quán)利要求1所述的方法,其中,所接受的特性目標(biāo)的范圍被限制為對應(yīng)于第二訓(xùn)練集中的范圍。
6.根據(jù)權(quán)利要求1所述的方法,還包括從第一組訓(xùn)練項目(110)中確定所述可配置參數(shù),每個項目包括文本表示和相應(yīng)的音頻表示。
7.根據(jù)權(quán)利要求1所述的方法,其中,所述總結(jié)單元(130)被配置為接受音頻輸入,并產(chǎn)生所述輸入的固定長度表示作為風(fēng)格匯總。
8.根據(jù)權(quán)利要求1所述的方法,還包括:
9.根據(jù)權(quán)利要求1所述的方法,其中,使用所述測量值和所述總結(jié)單元的輸出之間的關(guān)系來確定風(fēng)格基礎(chǔ)包括:確定所述風(fēng)格基礎(chǔ),用于從特性目標(biāo)到風(fēng)格特征的計算映射。
10.根據(jù)權(quán)利要求9所述的方法,其中,確定所述風(fēng)格基礎(chǔ)包括:計算從特性目標(biāo)的向量表示到風(fēng)格特征的向量表示的線性映射。
11.根據(jù)權(quán)利要求9所述的方法,還包括:使用所述測量值和所述風(fēng)格特征的相關(guān)性來確定映射。
12.根據(jù)權(quán)利要求1所述的方法,其中,使用所述風(fēng)格基礎(chǔ)將所述特性目標(biāo)變換為目標(biāo)風(fēng)格特征包括使用與參考風(fēng)格對應(yīng)的參考風(fēng)格特征,其中,所述特性目標(biāo)表示與參考風(fēng)格的偏差。
13.一種語音設(shè)計系統(tǒng)(300),包括:
14.根據(jù)權(quán)利要求13所述的語音設(shè)計系統(tǒng),其中,根據(jù)初始嵌入(331)對所述風(fēng)格修改單元進(jìn)行配置,其中,所述風(fēng)格修改單元根據(jù)相對于所述初始嵌入的所述調(diào)整值產(chǎn)生系統(tǒng)嵌入。
15.根據(jù)權(quán)利要求13所述的語音設(shè)計系統(tǒng),還包括: