專利名稱:基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及了語音技術(shù)領(lǐng)域,尤其涉及了一種基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法。
背景技術(shù):
基于統(tǒng)計參數(shù)模型的語音合成方法是目前主流的語音合成技術(shù)之一。基于統(tǒng)計參數(shù)模型的語音合成方法[A. Black, Statistical parametric speech synthesis, 2007], 首先需要對語音信號進行參數(shù)化分析,一般包括表征激勵信息的基音頻率參數(shù)及非周期成分和表征聲道濾波器譜特征的頻譜參數(shù),然后對分析所得的參數(shù)進行統(tǒng)計建模,統(tǒng)計模型一般采用隱馬爾科夫模型(HMM)。在合成時利用訓(xùn)練的模型進行相關(guān)聲學(xué)參數(shù)的預(yù)測,最終通過參數(shù)合成器還原語音信號。這種方法的自動化程度較高,可以在不需要人工干預(yù)的情況下,自動快速地構(gòu)建合成系統(tǒng),而且對于不同發(fā)音人、不同發(fā)音風(fēng)格、甚至不同發(fā)音語種的依賴性非常小,并且能夠取得較好的合成語音的流暢度和自然度。但是由于在傳統(tǒng)基于HMM語音合成中,參與模型訓(xùn)練的聲學(xué)參數(shù)要同時結(jié)合前后幀參數(shù)之間的動態(tài)關(guān)聯(lián)信息,因此HMM —般是針對待合成的整段或整句進行建模,導(dǎo)致在實際應(yīng)用中一般需要等到整個句子完全生成后,才能進行下一步的播放或傳送;如果對合成文本進行隨機地分段,每次只生成一小段語音,合成語音的質(zhì)量則會有較大下降,這使得傳統(tǒng)基于HMM的語音合成無法適用于實時性要求較高的在線應(yīng)用。對于這一問題,目前國內(nèi)外研究的技術(shù)解決方案較少,主要方法是強制捆綁若干音素模型序列來分段合成語音[T. Dutoit, A Streaming Architecture for Statistical Parametric Speech Synthesis, 2011],捆綁音素的數(shù)目是人為設(shè)定的,不夠靈活,且對合成質(zhì)量有較大影響。國內(nèi)外尚未有相關(guān)專利涉及這一問題。本發(fā)明針對傳統(tǒng)HMM語音合成中的這一問題,提出依據(jù)模型參數(shù)方差閾值對合成內(nèi)容進行合理分段的方法,增量式地生成合成語音。本發(fā)明提出的分段準則較為靈活,可以調(diào)整合成速度,并最大程度保證最終合成語音的質(zhì)量沒有下降。
發(fā)明內(nèi)容
本發(fā)明主要是針對現(xiàn)有技術(shù)的不足,提供了一種實時性強、質(zhì)量更好的基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法。為了實現(xiàn)上述目的,本發(fā)明提供以下技術(shù)方案
一種基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法,包括文本分析,獲得用戶輸入合成文本對應(yīng)的整段模型序列參數(shù);狀態(tài)序列分段,尋找聲學(xué)模型狀態(tài)序列的最佳分段位置, 并根據(jù)分段位置對狀態(tài)序列進行切分;將分段后的各個狀態(tài)級參數(shù)序列片段,依照文本順序以流水線方式依次進行參數(shù)生成、語音合成和音頻播放/傳輸三個步驟,并在線輸出連續(xù)的合成語音。作為本發(fā)明的一優(yōu)選實施例,所述狀態(tài)序列分段包括以下步驟第一級模型序列分組,根據(jù)合成文本中的標點符號,將各個聲學(xué)特征模型序列切分成對應(yīng)的組;
第二級模型狀態(tài)序列分段,確定聲學(xué)模型狀態(tài)序列的分段位置,對經(jīng)過標點符號分組后的每組模型序列,確定譜特征模型中動態(tài)特征參數(shù)的方差小于給定閾值的狀態(tài)位置為候選狀態(tài)分段位置;
聲學(xué)模型狀態(tài)序列分段,根據(jù)預(yù)設(shè)的分段數(shù)從候選狀態(tài)分段位置中選擇最優(yōu)分段位置,將該組中各聲學(xué)特征的模型狀態(tài)序列切分為對應(yīng)的狀態(tài)序列片段流。作為本發(fā)明的一優(yōu)選實施例,所述的各種聲學(xué)特征包括基頻特征、譜特征和非周期能量成分特征。作為本發(fā)明的一優(yōu)選實施例,所述的譜特征模型中動態(tài)特征參數(shù)的方差根據(jù)下式來計算
權(quán)利要求
1.一種基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法,其特征在于,包括文本分析,獲得用戶輸入合成文本對應(yīng)的整段模型序列參數(shù);狀態(tài)序列分段,尋找聲學(xué)模型狀態(tài)序列的最佳分段位置,并根據(jù)分段位置對狀態(tài)序列進行切分;將分段后的各個狀態(tài)級參數(shù)序列片段,依照文本順序以流水線方式依次進行參數(shù)生成、語音合成和音頻播放/傳輸三個步驟,并在線輸出連續(xù)的合成語音。
2.根據(jù)權(quán)利要求I所述的基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法,其特征在于,所述狀態(tài)序列分段包括以下步驟第一級模型序列分組,根據(jù)合成文本中的標點符號,將各個聲學(xué)特征模型序列切分成對應(yīng)的組;第二級模型狀態(tài)序列分段,確定聲學(xué)模型狀態(tài)序列的分段位置,對經(jīng)過標點符號分組后的每組模型序列,確定譜特征模型中動態(tài)特征參數(shù)的方差小于給定閾值的狀態(tài)位置為候選狀態(tài)分段位置;聲學(xué)模型狀態(tài)序列分段,根據(jù)預(yù)設(shè)的分段數(shù)從候選狀態(tài)分段位置中選擇最優(yōu)分段位置,將該組中各聲學(xué)特征的模型狀態(tài)序列切分為對應(yīng)的狀態(tài)序列片段流。
3.根據(jù)權(quán)利要求2所述的基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法,其特征在于,所述的各種聲學(xué)特征包括基頻特征、譜特征和非周期能量成分特征。
4.根據(jù)權(quán)利要求2所述的增量式的基于統(tǒng)計參數(shù)模型的語音在線合成方法,其特征在于,所述的譜特征模型中動態(tài)特征參數(shù)的方差可根據(jù)下式來計算其中,《”(幻為^時刻對應(yīng)模型狀態(tài)上第d維譜特征的第《階動態(tài)特征的方差參數(shù), 為特征總維數(shù)。
5.根據(jù)權(quán)利要求I所述的基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法,其特征在于,參數(shù)生成、語音合成和音頻播放/傳輸三個步驟具體包括參數(shù)生成,按最大似然參數(shù)生成準則,生成每段聲學(xué)模型狀態(tài)序列對應(yīng)的語音參數(shù)序列,并利用上一段語音參數(shù)序列的段尾部分數(shù)據(jù)對當(dāng)前分段生成的語音參數(shù)序列的段首部分進行平滑處理;語音合成,將當(dāng)前分段的語音參數(shù)序列送入?yún)?shù)化語音合成濾波器中合成出當(dāng)前分段對應(yīng)的語音信號;音頻播放/傳輸,將當(dāng)前分段生成的語音信號進行播放或傳輸,同時生成后續(xù)分段的語音參數(shù)和語音信號。
6.根據(jù)權(quán)利要求5所述的基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法,其特征在于,分段邊界處的語音參數(shù)平滑處理通過利用前一段段尾語音參數(shù)對當(dāng)前段段首若干幀聲學(xué)特征的靜態(tài)參數(shù)按維進行插值操作來完成。
7.根據(jù)權(quán)利要求I所述的基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法,其特征在于,通過分段數(shù)目和方差閾值兩個參數(shù)來調(diào)控合成延遲和合成質(zhì)量之間的平衡。
8.根據(jù)權(quán)利要求I所述的增量式的基于統(tǒng)計參數(shù)模型的語音在線合成方法,其特征在于,對分段后的聲學(xué)模型狀態(tài)序列片段流進行后處理如果當(dāng)前狀態(tài)序列片段的時長大于前一狀態(tài)序列片段時長的設(shè)定倍數(shù),則合并當(dāng)前片段和前一片段。
全文摘要
本發(fā)明公開了一種基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法,其步驟包括文本分析,獲得用戶輸入合成文本對應(yīng)的模型狀態(tài)集參數(shù)序列;狀態(tài)序列分段,尋找聲學(xué)模型狀態(tài)序列的最佳分段位置,并依照分段位置對狀態(tài)級參數(shù)序列進行切分;將分段后的各個狀態(tài)級參數(shù)序列片段,依照文本順序以流水線方式依次進行參數(shù)生成、語音合成和音頻播放/傳輸,在線輸出連續(xù)的合成語音。本發(fā)明所述的基于統(tǒng)計參數(shù)模型的增量式語音在線合成方法,縮短了合成一段文本語音并播放或傳輸所需的時間延遲,并可以根據(jù)實際需要非常靈活地改變合成速度,同時其最大程度地控制了分段造成的動態(tài)信息損失,保證了合成語音的質(zhì)量。
文檔編號G10L15/26GK102592594SQ201210057609
公開日2012年7月18日 申請日期2012年4月6日 優(yōu)先權(quán)日2012年4月6日
發(fā)明者俞凱, 王歡良, 錢詩君 申請人:蘇州思必馳信息科技有限公司