專利名稱:用于合成語音的方法、設(shè)備以及用于語音合成的聲學(xué)模型訓(xùn)練方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音合成,更具體地,涉及中文多音字的合成。
背景技術(shù):
由人工通過一定的機器設(shè)備產(chǎn)生出語音稱為語音合成。語音合成是人機語音通信 的ー個重要組成部分。利用語音合成技術(shù)可以讓機器象人那樣說話,使ー些以其它方式表示或存儲的信息能轉(zhuǎn)換為語音,從而人們可以通過聽覺方便地獲得這些信息。目前展開大量研究和應(yīng)用的是文語轉(zhuǎn)換TTS系統(tǒng),在該系統(tǒng)中通常輸入待合成的文本,系統(tǒng)包含的文本分析器對之進(jìn)行處理,輸出發(fā)音描述符號,其包括音段層面的注音符號與超音段層面的韻律符號。該文本分析器首先根據(jù)發(fā)音字典,將待合成文本分解為帶有屬性標(biāo)注的詞及其讀音符號,再根據(jù)語義規(guī)則和語音規(guī)則,為每ー個詞、每ー個音節(jié)確定語句結(jié)構(gòu)及語調(diào),以及停頓詞性距離等目標(biāo)語音的語言學(xué)以及韻律特征。之后將發(fā)音描述符號輸入到該系統(tǒng)包含的合成器,通過語音合成,輸出合成的語音。在現(xiàn)有技術(shù)中,基于隱馬爾科夫HMM聲學(xué)模型已經(jīng)廣泛應(yīng)用于語音合成技術(shù),可以容易地修改和變換合成的聲音。語音合成通常分為模型訓(xùn)練和合成部分。在模型訓(xùn)練階段,對語音庫中各語音單元包含的聲學(xué)參數(shù)以及對應(yīng)的音段、韻律等標(biāo)注屬性,進(jìn)行統(tǒng)計模型的訓(xùn)練。這些標(biāo)注來源于語言和聲學(xué)知識,其組成的上下文特征(context feature)描述了對應(yīng)的語音屬性(例如聲調(diào)、詞性等)。在HMM聲學(xué)模型的訓(xùn)練階段,對模型參數(shù)的估計來自對這些語音單元參數(shù)的統(tǒng)計計算。在現(xiàn)有技術(shù)中,考慮到如此多、具有大量變化的上下文組合,一般采用決策樹的樹聚類方法來處理。決策樹可以將上下文特征和聲學(xué)特征相似的候選基元聚成ー類,從而有效地避免了數(shù)據(jù)稀疏,并有效地減少了模型的數(shù)量。問題集是供決策樹構(gòu)造使用的問題的集合,結(jié)點分裂時所選中的問題與此結(jié)點綁定,從而決定哪些基元進(jìn)入同一個葉子結(jié)點。聚類的過程參考預(yù)先定義的問題集,決策樹的每個結(jié)點都綁定ー個“Yes/No”問題,所有允許進(jìn)入根節(jié)點的候選基元都要回答結(jié)點上綁定的問題,根據(jù)回答結(jié)果選擇進(jìn)入左分支還是右分支。因此,每個將具有相同或者接近上下文特征的音節(jié)或音素處在決策樹的同一個葉子結(jié)點中,節(jié)點對應(yīng)的模型通??梢允荋MM模型或狀態(tài),模型由參數(shù)描述。同時,聚類也是ー個學(xué)習(xí)處理在合成中遇到新情況的過程,從而可以實現(xiàn)最優(yōu)的匹配。通過對訓(xùn)練數(shù)據(jù)的訓(xùn)練以及聚類得到隱馬爾科夫(HMM)模型以及對應(yīng)模型的決策樹。在合成階段,通過文本分析器和上下文標(biāo)注生成器得到多音字的上下文特征標(biāo)注。針對該上下文特征標(biāo)注在訓(xùn)練好的決策樹上找到相應(yīng)的聲學(xué)模型參數(shù)(例如HMM聲學(xué)模型的狀態(tài)序列)。然后該模型參數(shù)經(jīng)過參數(shù)生成算法得到相應(yīng)的語音參數(shù),從而通過合成器(Vocoder)合成語音。語音合成系統(tǒng)的目標(biāo)就是能夠合成跟人聲一祥智能和自然的聲音。但是對于中文語音合成系統(tǒng),多音字的讀音預(yù)測準(zhǔn)確率很難保證,因為多音字的發(fā)音往往根據(jù)語義確定,而語義理解又是ー個具有挑戰(zhàn)性的課題。這樣相互依賴的關(guān)系導(dǎo)致多音字預(yù)測的難以取得令人滿意的高準(zhǔn)確性。在現(xiàn)有技術(shù)中,即使對這個讀音的預(yù)測沒有足夠把握,語音合成系統(tǒng)一般都會對該多音字給出ー個確定的發(fā)音。在中文中,不同的讀音代表了不同的意義。如果語音合成系統(tǒng)給出錯誤的發(fā)音,將會引起聽者理解上的歧義,給聽者很不好的感受。從而對于在生活、工作以及科學(xué)研究(例如車載導(dǎo)航、自動聲訊服務(wù)、廣播、機器人模擬等)中應(yīng)用的語音合成系統(tǒng),將會由于明顯錯誤的多音字讀音而造成不好的用戶體驗,甚至使用的不便。因此,在語音合成領(lǐng)域中存在對改進(jìn)的多音字的語音合成方法以及系統(tǒng)的需要。
發(fā)明內(nèi)容
為此,提供了本發(fā)明的實施例的用于語音合成的方法及其系統(tǒng)以及訓(xùn)練用于語音 合成的聲學(xué)模型的方法。通過實施本發(fā)明的實施例,可以具有以下優(yōu)點可以在系統(tǒng)沒有足夠把握給出正確讀音的情況下,模糊化多音字的讀音,并且不影響整個系統(tǒng)其他正常聲音的質(zhì)量,此方法將會避免明顯的錯誤,從而提高合成系統(tǒng)的整體主觀聽感。根據(jù)本發(fā)明的ー個方面,提供了ー種用于語音合成的方法,可以包括確定文本分析生成的數(shù)據(jù)為模糊多音字?jǐn)?shù)據(jù);對所述模糊多音字?jǐn)?shù)據(jù)進(jìn)行模糊多音字預(yù)測,以輸出所述模糊多音字?jǐn)?shù)據(jù)的多個候選發(fā)音及其概率;基于所述多個候選發(fā)音及其概率,生成模糊上下文特征標(biāo)注;基于確定的具有模糊決策樹的聲學(xué)模型,針對所述模糊上下文特征標(biāo)注確定模型參數(shù);對所述模型參數(shù)生成語音參數(shù);以及將所述語音參數(shù)合成為語音。優(yōu)選的,生成模糊上下文特征標(biāo)注的步驟可以進(jìn)一歩包括基于所述概率確定所述模糊多音字?jǐn)?shù)據(jù)的候選發(fā)音的上下文標(biāo)注落入分類的程度;以及通過量化轉(zhuǎn)換所述程度以生成所述模糊上下文特征標(biāo)注,其中所述模糊上下文特征標(biāo)注為所述候選發(fā)音的上下文標(biāo)注的聯(lián)合表示。根據(jù)本發(fā)明的另外的方面,提供一種用于合成語音的設(shè)備,可以包括多音字預(yù)測単元,用于預(yù)測模糊多音字?jǐn)?shù)據(jù)的發(fā)音,以輸出所述模糊多音字?jǐn)?shù)據(jù)的多個候選發(fā)音以及預(yù)測概率;模糊上下文特征標(biāo)注生成単元,用于基于所述多個候選發(fā)音及其概率,生成模糊上下文特征標(biāo)注;確定單元,用于基于確定的具有模糊決策樹的聲學(xué)模型,針對所述模糊上下文特征標(biāo)注確定模型參數(shù);參數(shù)生成器,用于針對所述模型參數(shù)生成語音參數(shù);以及合成器,用于將所述語音參數(shù)合成為語音。優(yōu)選的,所述模糊上下文特征標(biāo)注生成単元可以進(jìn)一歩被配置為基于所述概率確定所述模糊多音字?jǐn)?shù)據(jù)的候選發(fā)音的上下文標(biāo)注落入分類的程度;以及通過量化轉(zhuǎn)換所述程度以生成所述模糊上下文特征標(biāo)注,其中所述模糊上下文特征標(biāo)注為所述候選發(fā)音的上下文標(biāo)注的聯(lián)合表示。根據(jù)本發(fā)明的另外的方面,提供一種用于合成語音的系統(tǒng),可以包括用于確定文本分析生成的數(shù)據(jù)為模糊多音字?jǐn)?shù)據(jù)的裝置;用于對所述模糊多音字?jǐn)?shù)據(jù)進(jìn)行模糊多音字預(yù)測,以輸出所述模糊多音字?jǐn)?shù)據(jù)的多個候選發(fā)音及其概率的裝置;用于基于所述多個候選發(fā)音及其概率,生成模糊上下文特征標(biāo)注的裝置;用于基于具有模糊決策樹的聲學(xué)模型,針對所述模糊上下文特征標(biāo)注確定模型參數(shù)的裝置;用于對所述模型參數(shù)生成語音參數(shù)的裝置;以及用于將所述語音參數(shù)合成為語音的裝置。
根據(jù)本發(fā)明的另外的方面,提供一種用于訓(xùn)練聲學(xué)模型的方法,可以包括訓(xùn)練語音庫中各語音單元,以生成聲學(xué)模型,所述語音單元包含聲學(xué)參數(shù)以及上下文標(biāo)注;對于上下文組合,進(jìn)行決策樹聚類處理以生成具有決策樹的聲學(xué)模型;基于所述具有決策樹的聲學(xué)模型,確定語音庫中的模糊數(shù)據(jù);針對所述模糊數(shù)據(jù),生成模糊上下文特征標(biāo)注;以及基于所述模糊上下文特征標(biāo)注,對所述語音庫進(jìn)行聚類訓(xùn)練,以生成具有模糊決策樹的聲學(xué)模型。優(yōu)選的,確定模糊數(shù)據(jù)的步驟可以進(jìn)一步包括評估語音單元;以及確定所述語音單元的候選上下文標(biāo)注落入分類的程度;以及如果所述程度滿足預(yù)定閾值,則確定所述語音單元為模糊數(shù)據(jù)。
優(yōu)選的,評估語音單元的步驟可以進(jìn)一步包括通過模型后驗概率或模型生成參數(shù)與語音單元參數(shù)之間的距離來評估所述語音單元的候選發(fā)音的上下文特征標(biāo)注的分值。優(yōu)選的,生成模糊上下文特征標(biāo)注的步驟可以進(jìn)一步包括通過評估所述語音單元來確定所述語音單元發(fā)音的對應(yīng)候選上下文特征標(biāo)注的分值;基于所述分值確定所述語音單元的候選上下文標(biāo)注落入分類的程度;以及通過量化轉(zhuǎn)換所述程度以生成所述模糊上下文特征標(biāo)注,其中所述模糊上下文特征標(biāo)注為所述候選發(fā)音的上下文標(biāo)注的聯(lián)合表示。優(yōu)選的,所述基于所述模糊上下文特征標(biāo)注,進(jìn)行聚類訓(xùn)練的步驟可以進(jìn)一步包括以下之一基于所述模糊上下文特征標(biāo)注和預(yù)設(shè)的模糊問題集,訓(xùn)練包括所述模糊數(shù)據(jù)的訓(xùn)練集以生成具有所述模糊決策樹的聲學(xué)模型;以及基于問題集和上下文特征標(biāo)注再次訓(xùn)練所述語音庫中的各語音單元,其中所述問題集還包括預(yù)設(shè)的模糊問題集,以及所述語音庫中的模糊數(shù)據(jù)的上下文特征標(biāo)注為所述模糊上下文特征標(biāo)注。
結(jié)合附圖,從下面對本發(fā)明的實施例的詳細(xì)描述中本發(fā)明的目的、特點和優(yōu)點將顯而易見,其中圖I示出了根據(jù)本發(fā)明實施例的用于訓(xùn)練具有模糊決策樹的聲學(xué)模型的方法的流程圖。圖2示出了根據(jù)本發(fā)明實施例的方法的確定模糊數(shù)據(jù)的處理流程圖。圖3示出了根據(jù)本發(fā)明的實施例的方法的通過模型后驗概率評估訓(xùn)練數(shù)據(jù)的操作。圖4示出了根據(jù)本發(fā)明的實施例的方法的通過模型生成參數(shù)與真實參數(shù)之間的距離來評估訓(xùn)練數(shù)據(jù)的操作。圖5例示了根據(jù)本發(fā)明的實施例的對模糊數(shù)據(jù)進(jìn)行量化轉(zhuǎn)換操作以生成模糊上下文。圖6例示了根據(jù)本發(fā)明的實施例的合成語音的方法。圖7是根據(jù)本發(fā)明實施例的用于合成語音的設(shè)備的框圖。
具體實施例方式下面,結(jié)合附圖對本發(fā)明的實施例進(jìn)行詳細(xì)描述。一般地,本發(fā)明實施例涉及在電子設(shè)備(例如電話系統(tǒng)、移動終端、車載交通工具、自動聲訊服務(wù)系統(tǒng)、廣播系統(tǒng)、機器人等和/或類似物)中合成語音的方法及其系統(tǒng)以及訓(xùn)練聲學(xué)模型的方法。概括而言,本發(fā)明的基本構(gòu)思是針對中文多音字合成,不選擇確定的唯一候選發(fā)音,而是對模糊多音字的語音進(jìn)行模糊化處理,從而避免了事先就給出武斷甚至錯誤的抉擇。在本發(fā)明的實施例中,模糊多音字是指現(xiàn)有技術(shù)中的多音字預(yù)測單元難以預(yù)測處理的多音字;而模糊數(shù)據(jù)是在訓(xùn)練語音庫中的、由于發(fā)音人的連續(xù)語音協(xié)同發(fā)音的影響以及偶然的發(fā)音失誤所產(chǎn)生的語音數(shù)據(jù),其滿足模糊條件(通??梢愿鶕?jù)成員函數(shù)定義模糊閾值)以及用于模型訓(xùn)練,相應(yīng)地,這種不易確定候選發(fā)音的語音稱為模糊語音??梢栽谟?xùn)練和合成階段引入模糊決策樹以較好地實現(xiàn)這一過程,模糊決策樹通常用來處理不確定性,能夠在復(fù)雜和模糊的邊界幫助推導(dǎo)出更智能的決策,從而做出模糊情況下的最優(yōu)選擇。而模糊化的讀音旨在包含每個候選發(fā)音的特征,特別是那些概率較大的候選發(fā)音,這樣可以避免產(chǎn)生候選發(fā)音的判斷錯誤,從而減少合成刺耳或錯誤的語音的概率。 在本發(fā)明的實施例中,在模型訓(xùn)練階段,可以引入模糊決策樹,對包括模糊數(shù)據(jù)的語音庫進(jìn)一步訓(xùn)練,得到聲學(xué)模型(例如HMM聲學(xué)模型)以及該模型對應(yīng)的模糊決策樹(例如具有模糊決策樹的HMM聲學(xué)模型);在合成階段,當(dāng)多音字預(yù)測單元不能給出合適的選擇時,則對此字的發(fā)音進(jìn)行模糊化處理,以在合成器合成對應(yīng)的語音,從而使合成的聲音更接近預(yù)測可能性大的候選。合成階段的處理可以操作如下經(jīng)過多音字預(yù)測單元獲得多個候選發(fā)音的概率,進(jìn)行模糊上下文特征處理得到具有多候選模糊特征的模糊上下文標(biāo)注,基于訓(xùn)練生成的具有模糊決策樹的聲學(xué)模型、根據(jù)該模糊上下文標(biāo)注獲得對應(yīng)模型參數(shù),該模型參數(shù)經(jīng)過參數(shù)生成算法得到相應(yīng)的語音參數(shù),從而通過合成器將該語音參數(shù)合成為語
曰 圖I示出了根據(jù)本發(fā)明實施例的用于訓(xùn)練具有模糊決策樹的聲學(xué)模型的方法的流程圖。如圖I所示,在步驟S110,訓(xùn)練語音庫中各語音單元,以生成聲學(xué)模型。在本發(fā)明的實施例中,語音庫一般是預(yù)先錄制的、通過語音輸入端口輸入的參考語音。各語音單元包含聲學(xué)參數(shù)以及描述對應(yīng)的音段、韻律屬性的上下文標(biāo)注。以HMM聲學(xué)模型為例,在該模型的訓(xùn)練階段,對模型參數(shù)的估計來自對這些語音單元參數(shù)的統(tǒng)計計算,這是本領(lǐng)域中廣泛使用的成熟的技術(shù),在此不再贅述。在步驟S120,對于具有大量變化的上下文組合,通常采用決策樹的樹聚類方法處理聲學(xué)模型以生成具有決策樹的聲學(xué)模型,例如CART (Classification and RegressionTree) 0采用聚類方法可以有效地避免數(shù)據(jù)稀疏,并減少模型的數(shù)量。同時,聚類也是學(xué)習(xí)處理在合成中遇到新情況的過程,可以實現(xiàn)最優(yōu)的匹配。聚類的過程參考預(yù)先定義的問題集。問題集是供決策樹構(gòu)造使用的問題的集合,結(jié)點分裂時所選中的問題與此結(jié)點綁定,從而決定哪些基元進(jìn)入同一個葉子結(jié)點。其問題集可以根據(jù)具體應(yīng)用環(huán)境不同。例如中文中具有5類聲調(diào){1,2,3,4,5},每一類可以作為決策樹的一個問題,在對多音字確定聲調(diào)的情況下,問題集可如表一所示來設(shè)置
權(quán)利要求
1.ー種用于語音合成的方法,包括 確定文本分析生成的數(shù)據(jù)為模糊多音字?jǐn)?shù)據(jù); 對所述模糊多音字?jǐn)?shù)據(jù)進(jìn)行模糊多音字預(yù)測,以輸出所述模糊多音字?jǐn)?shù)據(jù)的多個候選發(fā)音及其概率; 基于所述多個候選發(fā)音及其概率,生成模糊上下文特征標(biāo)注; 基于具有模糊決策樹的聲學(xué)模型,針對所述模糊上下文特征標(biāo)注確定模型參數(shù); 對所述模型參數(shù)生成語音參數(shù);以及 將所述語音參數(shù)合成為語音。
2.如權(quán)利要求I所述的方法,其中生成模糊上下文特征標(biāo)注的步驟進(jìn)ー步包括 基于所述概率確定所述模糊多音字?jǐn)?shù)據(jù)的候選發(fā)音的上下文標(biāo)注落入分類的程度;以及 通過量化轉(zhuǎn)換所述程度以生成所述模糊上下文特征標(biāo)注,其中所述模糊上下文特征標(biāo)注為所述候選發(fā)音的上下文標(biāo)注的聯(lián)合表示。
3.一種用于合成語音的設(shè)備,包括 多音字預(yù)測單元,用于模糊預(yù)測模糊多音字?jǐn)?shù)據(jù)的發(fā)音,以輸出所述模糊多音字?jǐn)?shù)據(jù)的多個候選發(fā)音以及預(yù)測概率; 模糊上下文特征標(biāo)注生成単元,用于基于所述多個候選發(fā)音及其概率,生成模糊上下文特征標(biāo)注; 確定單元,用于基于具有模糊決策樹的聲學(xué)模型,針對所述模糊上下文特征標(biāo)注確定模型參數(shù); 參數(shù)生成器,用于針對所述模型參數(shù)生成語音參數(shù);以及 合成器,用于將所述語音參數(shù)合成語音。
4.如權(quán)利要求3所述的設(shè)備,其中所述模糊上下文特征標(biāo)注生成単元進(jìn)ー步被配置為 基于所述概率確定所述模糊多音字?jǐn)?shù)據(jù)的候選發(fā)音的上下文標(biāo)注落入分類的程度;以及 通過量化轉(zhuǎn)換所述程度以生成所述模糊上下文特征標(biāo)注,其中所述模糊上下文特征標(biāo)注為所述候選發(fā)音的上下文標(biāo)注的聯(lián)合表示。
5.一種用于合成語音的系統(tǒng),包括 用于確定文本分析生成的數(shù)據(jù)為模糊多音字?jǐn)?shù)據(jù)的裝置; 用于對所述模糊多音字?jǐn)?shù)據(jù)進(jìn)行模糊多音字預(yù)測,以輸出所述模糊多音字?jǐn)?shù)據(jù)的多個候選發(fā)音及其概率的裝置; 用于基于所述多個候選發(fā)音及其概率,生成模糊上下文特征標(biāo)注的裝置; 用于基于具有模糊決策樹的聲學(xué)模型,針對所述模糊上下文特征標(biāo)注確定模型參數(shù)的裝置; 用于對所述模型參數(shù)生成語音參數(shù)的裝置;以及 用于將所述語音參數(shù)合成為語音的裝置。
6.一種用于訓(xùn)練聲學(xué)模型的方法,包括 訓(xùn)練語音庫中各語音單元,以生成聲學(xué)模型,所述語音単元包含聲學(xué)參數(shù)以及上下文標(biāo)注; 對于上下文組合,進(jìn)行決策樹聚類處理以生成具有決策樹的聲學(xué)模型; 基于所述具有決策樹的聲學(xué)模型,確定語音庫中的模糊數(shù)據(jù); 針對所述模糊數(shù)據(jù),生成模糊上下文特征標(biāo)注;以及 基于所述模糊上下文特征標(biāo)注,對所述語音庫進(jìn)行聚類訓(xùn)練,以生成具有模糊決策樹的聲學(xué)模型。
7.如權(quán)利要求6所述的方法,其中確定模糊數(shù)據(jù)的步驟進(jìn)一歩包括 評估語音単元;以及 確定所述語音単元的候選上下文標(biāo)注落入分類的程度;以及 如果所述程度滿足預(yù)定閾值,則確定所述語音單元為模糊數(shù)據(jù)。
8.如權(quán)利要求7所述的方法,其中評估語音単元的步驟進(jìn)一歩包括 通過模型后驗概率或模型生成參數(shù)與語音單元參數(shù)之間的距離來評估所述語音単元的候選發(fā)音的上下文特征標(biāo)注的分值。
9.如權(quán)利要求6所述的方法,其中生成模糊上下文特征標(biāo)注的步驟進(jìn)ー步包括 通過評估所述語音單元來確定所述語音単元的候選發(fā)音的上下文特征標(biāo)注的分值; 基于所述分值確定所述語音単元的候選上下文標(biāo)注落入分類的程度;以及 通過量化轉(zhuǎn)換所述程度以生成所述模糊上下文特征標(biāo)注,其中所述模糊上下文特征標(biāo)注為所述候選發(fā)音的上下文標(biāo)注的聯(lián)合表示。
10.如權(quán)利要求6所述的方法,其中基于所述模糊上下文特征標(biāo)注,進(jìn)行聚類訓(xùn)練的步驟進(jìn)一歩包括以下之一 基于所述模糊上下文特征標(biāo)注和預(yù)設(shè)的模糊問題集,訓(xùn)練包括所述模糊數(shù)據(jù)的訓(xùn)練集以生成具有所述模糊決策樹的聲學(xué)模型;以及 基于問題集和上下文特征標(biāo)注再次訓(xùn)練所述語音庫中的各語音單元,其中所述問題集還包括預(yù)設(shè)的模糊問題集,以及所述語音庫中的模糊數(shù)據(jù)的上下文特征標(biāo)注為所述模糊上下文特征標(biāo)注。
全文摘要
本發(fā)明涉及一種用于合成語音的方法、設(shè)備以及用于訓(xùn)練在語音合成中使用的聲學(xué)模型的方法。所述用于合成語音的方法可以包括確定文本分析生成的數(shù)據(jù)為模糊多音字?jǐn)?shù)據(jù);對所述模糊多音字?jǐn)?shù)據(jù)進(jìn)行模糊多音字預(yù)測,以輸出所述模糊多音字?jǐn)?shù)據(jù)的多個候選發(fā)音及其概率;基于所述多個候選發(fā)音及其概率,生成模糊上下文特征標(biāo)注;基于具有模糊決策樹的聲學(xué)模型,針對所述模糊上下文特征標(biāo)注確定模型參數(shù);對所述模型參數(shù)生成語音參數(shù);以及將所述語音參數(shù)合成為語音。根據(jù)本發(fā)明的實施例的方法和設(shè)備,可以對中文中難以預(yù)測的多音字進(jìn)行模糊化處理,從而改善中文多音字合成的質(zhì)量。
文檔編號G10L13/02GK102651217SQ201110046580
公開日2012年8月29日 申請日期2011年2月25日 優(yōu)先權(quán)日2011年2月25日
發(fā)明者李健, 樓曉雁, 汪曦 申請人:株式會社東芝