用于波形拼接語音合成的選音方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音合成技術(shù)領(lǐng)域,尤其涉及一種用于波形拼接語音合成的選音方法和裝置。
【背景技術(shù)】
[0002]語音合成,又稱文語轉(zhuǎn)換(Textto Speech)技術(shù),解決的主要問題是如何將文字信息轉(zhuǎn)化為可聽的聲音信息。
[0003]在語音合成時,需要先對輸入的文本進行前端處理,再進行聲學參數(shù)預測得到聲學參數(shù),最后利用聲學參數(shù)直接通過聲碼器合成聲音,或者從音庫中挑選單元進行波形拼接。相對于聲碼器合成的聲音,基于波形拼接的合成聲音有更高的音質(zhì),以及更好保持了原發(fā)音人的風格。
[0004]在構(gòu)建基于波形拼接的語音合成系統(tǒng)過程中,相關(guān)技術(shù)中,通常是先根據(jù)標注信息獲取候選音子波形片斷,再在候選音子波形片斷中進行一系列的預選,包括:時長預選、韻律位置預選、上下文預選、Kul Iback-Leibler距離(KLD)預選和鄰居預選等,之后再從預選得到的波形片斷中選擇出最優(yōu)音子波形片斷序列,之后根據(jù)最優(yōu)音子波形片斷序列拼接合成得到合成語音。
[0005]相關(guān)技術(shù)中的上述方案會存在如下問題:
[0006](I)各個預選過程相互獨立,沒有把這些信息綜合起來充分考慮,因此難以取得很好的預選效果;
[0007](2)上述預選過程需要調(diào)整閾值和權(quán)重,而調(diào)整閾值和權(quán)重的工作需要大量的細致的人工工作,容易顧此失彼,針對一個音庫調(diào)整好閾值和權(quán)重后,換一個音庫往往需要重新調(diào)整這些參數(shù);
[0008](3)需要進行多步預選,計算量較大(特別是KLD預選);
[0009](4)該方法的工程實現(xiàn)較為繁瑣,涉及到大量參數(shù)的維護,代碼復雜度高,較難維護。
【發(fā)明內(nèi)容】
[0010]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0011]為此,本發(fā)明的一個目的在于提出一種用于波形拼接語音合成的選音方法,該方法可以提高語音合成時預選音子的預選效果。
[0012]本發(fā)明的另一個目的在于提出一種用于波形拼接語音合成的選音裝置。
[0013]為達到上述目的,本發(fā)明第一方面實施例提出的用于波形拼接語音合成的選音方法,包括:獲取標注信息,所述標注信息是對待合成文本進行前端處理后得到的;獲取預先生成的機器學習模型;根據(jù)所述標注信息和所述機器學習模型進行機器學習預選,得到候選音子波形片斷。
[0014]本發(fā)明第一方面實施例提出的用于波形拼接語音合成的選音方法,通過采用機器學習模型進行預選,可以將各種信息綜合起來考慮,從而提高語音合成時的預選效果。
[0015]為達到上述目的,本發(fā)明第二方面實施例提出的用于波形拼接語音合成的選音裝置,包括:第一獲取模塊,用于獲取標注信息,所述標注信息是對待合成文本進行前端處理后得到的;第二獲取模塊,用于獲取預先生成的機器學習模型;預選模塊,用于根據(jù)所述標注信息和所述機器學習模型進行機器學習預選,得到候選音子波形片斷。
[0016]本發(fā)明第二方面實施例提出的用于波形拼接語音合成的選音裝置,通過采用機器學習模型進行預選,可以將各種信息綜合起來考慮,從而提高語音合成時的預選效果。
[0017]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0018]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0019]圖1是本發(fā)明一實施例提出的用于波形拼接語音合成的選音方法的流程示意圖;
[0020]圖2是本發(fā)明另一實施例提出的用于波形拼接語音合成的選音方法的流程示意圖;
[0021]圖3是本發(fā)明實施例中一種音子樹的示意圖;
[0022]圖4是本發(fā)明實施例中語音合成方法的流程示意圖;
[0023]圖5是本發(fā)明另一實施例提出的用于波形拼接語音合成的選音裝置的結(jié)構(gòu)示意圖;
[0024]圖6是本發(fā)明另一實施例提出的用于波形拼接語音合成的選音裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0025]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0026]圖1是本發(fā)明一實施例提出的用于波形拼接語音合成的選音方法的流程示意圖。參見圖1,該方法包括:
[0027]Sll:獲取標注信息,所述標注信息是對待合成文本進行前端處理后得到的。
[0028]其中,前端處理主要包括:預處理、分詞、詞性標注、注音、韻律層級預測等。
[0029]標注信息主要包括:音子的上下文信息、韻律位置信息、聲調(diào)信息等。
[0030]S12:獲取預先生成的機器學習模型。
[0031]可選的,機器學習模型可以是音子樹或者深度神經(jīng)網(wǎng)絡(luò)模型。
[0032]機器學習模型可以是在訓練階段,根據(jù)音子樣本的標注信息和語音數(shù)據(jù)訓練生成的。
[0033]本實施例中,以機器學習模型是音子樹為例。
[0034]相應(yīng)的,參見圖2,一些實施例中,該方法還包括:
[0035]S21:獲取音子樣本的標注信息及音子樣本的波形片斷,并根據(jù)所述音子樣本的標注信息,訓練得到隱馬爾可夫模型(Hidden Markov Model,HMM),以及,建立HMM與波形片斷的對應(yīng)關(guān)系。
[0036]其中,訓練HMM時可以采用隱馬爾可夫模型工具包(HMM Tool Kit,HTK)的基于HMM的語音合成(HMM-based Speech Synthesis System,HTS)來實現(xiàn)。
[0037]訓練完成后,訓練數(shù)據(jù)中每個音子的樣本都會對應(yīng)到一個HMM,每個HMM以標注信息來命名。
[0038]在訓練數(shù)據(jù)中,同一個音子,一般對應(yīng)一個HMM;極少數(shù)情況下存在一個HMM對應(yīng)多個音子的情況。
[0039]例如,韻母音子ai4,對應(yīng)的HMM聲學模型的名稱可以簡單表示為:k-ai+b,t_ai+h,s-ai+n等??梢岳斫獾氖?,完整的HMM名稱,即音子標注,還包含大量其他信息。
[0040]S22:對應(yīng)每個音子,對所述音子對應(yīng)的HMM進行決策樹聚類,得到所述音子對應(yīng)的音子樹。
[0041]對于特定音子,比如“ai4”,使用其所有的HMM進行決策樹聚類。
[0042]通過決策樹聚類,構(gòu)建的音子樹中,每個非葉子節(jié)點對應(yīng)一個最優(yōu)的分裂問題,每個葉子節(jié)點關(guān)聯(lián)一部分的HMM。
[0043]聚類時使用的問題是韻律位置、上下文等標注信息。
[0044]—開始所有的HMM都在根節(jié)點上,然后選擇使得分裂前后對數(shù)似然值增量最大的問題作為最優(yōu)分裂問題,把根節(jié)點關(guān)聯(lián)的HMM分裂成兩部分;然后子節(jié)點再繼續(xù)分裂。當分裂前后對數(shù)似然增量小于某一閾值時,就停止分裂。其中,閾值由最小描述長度(MinimumDescript1n distance,MDL)準則確定。
[0045]—種音子樹聚類過程可以如圖3所示。圖3中每個非葉子節(jié)點對應(yīng)一個最優(yōu)的分裂問題,每個葉子節(jié)點關(guān)聯(lián)一部分的HMM。
[0046]其中,圖3中的“L”和“R”分別表示當前音子的左側(cè)和右側(cè)的音子,voice表示韻母、siIence表示靜音,V’和“g”表示兩個具體的音子。
[0047]例如,在圖3中,根節(jié)點上使用的最優(yōu)分裂問題是判斷當前音子的左側(cè)的音子是否是韻