国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于混合隱馬爾可夫模型的語音合成系統(tǒng)的制作方法

      文檔序號:2837547閱讀:533來源:國知局
      專利名稱:一種基于混合隱馬爾可夫模型的語音合成系統(tǒng)的制作方法
      技術領域
      本發(fā)明涉及一種語音合成系統(tǒng),具體地涉及基于混合隱馬爾可夫 模型的語音合成系統(tǒng)。
      背景技術
      語音合成系統(tǒng)又稱文語轉(zhuǎn)換系統(tǒng)(TTS系統(tǒng)),它的主要功能是將 計算機接收到的或輸入的任意文字串轉(zhuǎn)換成語音輸出。傳統(tǒng)的語音合 成系統(tǒng)是基于單元拼接的,其音質(zhì)表現(xiàn)好,但是所需音庫資源比較大, 導致其在嵌入式設備上的應用遇到瓶頸。而基于隱馬爾可夫模型的語 音合成系統(tǒng)從本質(zhì)上來說是一種參數(shù)合成系統(tǒng),具有靈活性高和所需 存儲資源小的優(yōu)點。但是,由于其參數(shù)化的本質(zhì),其音質(zhì)表現(xiàn)通常大 大遜于基于拼接的合成系統(tǒng),這也正是當前基于隱馬爾可夫模型的語 音合成系統(tǒng)難以大規(guī)模應用的瓶頸所在。
      基于隱馬爾可夫模型的語音合成系統(tǒng)音質(zhì)表現(xiàn)差的原因主要是
      來自于模型生成頻譜參數(shù)的兩個過平滑問題時域過平滑問題和頻域
      過平滑問題。頻域上的過平滑現(xiàn)象導致合成的語音共振峰不清晰,進 而導致了聽感上的模糊。產(chǎn)生這種現(xiàn)象的原因是在傳統(tǒng)基于隱馬爾可 夫語音合成系統(tǒng)訓練過程中,大量的統(tǒng)計操作使得高斯函數(shù)均值所表 征的頻譜丟失了太多的細節(jié)信息。而時域上的過平滑現(xiàn)象則導致頻譜 變化過程中損失了太多細節(jié),這是由連續(xù)隱馬爾可夫模型的本質(zhì)所導
      致的。在傳統(tǒng)方法中, 一個音素往往由3個或5個狀態(tài)來表示。如果 某個狀態(tài)的持續(xù)時間較長,僅僅依靠該狀態(tài)對應的高斯函數(shù)均值無法 描述該狀態(tài)內(nèi)部語音參數(shù)變化的細節(jié),這引起了嚴重的時域過平滑問 題。因此,需要一種新的算法,可以盡可能地保證頻譜信息的精確度, 這樣,才能夠構建自然、流暢的參數(shù)化語音合成系統(tǒng)
      發(fā)明內(nèi)容
      為了解決現(xiàn)有技術問題,本發(fā)明的目的是要提出一種算法,可以 最大程度上保證頻譜信息的精確,從而保證輸出語音的清晰度。為此, 本發(fā)明構建一種基于混合隱馬爾可夫模型的語音合成系統(tǒng)。
      為實現(xiàn)上述目的,本發(fā)明的一種基于混合隱馬爾可夫模型的語音 合成系統(tǒng),利用各種電腦終端及數(shù)字移動設備,將系統(tǒng)接收的或輸入 的任意文字串轉(zhuǎn)換成語音輸出,由頻譜信息生成模塊、基頻信息生成 模塊、參數(shù)語音合成器模塊、離線訓練部分組成,其中
      具有一頻譜信息生成模塊,輸入端接收任意文本信息,負責根據(jù) 指標來選取表征頻譜信息的碼本矢量并產(chǎn)生完整的頻譜信息;具有一 輸出端輸出完整的頻譜信息;
      具有一基頻信息生成模塊,輸入端接收文本信息,負責預測待合
      成句子的音高變化;具有一輸出端輸出完整的基頻曲線;
      具有一參數(shù)語音合成器模塊,輸入端接收來自于頻譜信息生成模
      塊的頻譜信息和來自于基頻信息生成模塊的基頻信息;具有一輸出端
      輸出合成的語音結果;
      具有一離線訓練模塊,負責各種隱馬爾可夫模型的訓練。 根據(jù)本發(fā)明的實施例,所述頻譜信息生成模塊包括 具有一隱馬爾可夫模型映射模塊,接受任意文本信息,將其表征
      為帶有韻律信息標注的音素序列,找到與其最符合的隱馬爾可夫模
      型;具有一輸出端輸出隱馬爾可夫模型狀態(tài)序列;
      具有一離散隱馬爾可夫模型模塊,根據(jù)訓練得到的離散隱馬爾可
      夫模型得到當前狀態(tài)下碼本矢量的輸出概率;具有一輸出端輸出當前
      狀態(tài)下碼本矢量的輸出概率;根據(jù)該輸出概率進行碼本的選擇,保證
      碼本選擇的正確性;
      具有一有關共振峰軌跡的多空間概率隱馬爾可夫模型模塊,根據(jù)
      訓練得到的多空間概率隱馬爾可夫模型得到當前狀態(tài)下的共振峰軌
      跡;具有一輸出端輸出當前狀態(tài)下的共振峰軌跡;合成語音的共振峰
      軌跡應該與該理想的共振峰軌跡相吻合,保證語音的清晰度;
      具有一拼接概率模塊,具有一輸出端輸出相鄰狀態(tài)之間所有碼本
      矢量的輸出概率;依據(jù)兩兩候選碼本之間相鄰的概率進行碼本選擇,使頻譜在時域上具有多樣性;
      具有一有關能量軌跡的連續(xù)隱馬爾可夫模型模塊,根據(jù)訓練得到 的連續(xù)隱馬爾可夫模型得到當前狀態(tài)下的能量軌跡;具有一輸出端輸
      出當前狀態(tài)下的能量軌跡;
      具有一碼本選擇模塊,根據(jù)離散隱馬爾可夫模型模塊、有關共振 峰軌跡的多空間概率隱馬爾可夫模型模塊和拼接概率模塊的輸出結
      果使用動態(tài)規(guī)劃算法進行碼本的選擇;具有一輸出端輸出選擇得到的 碼本序列;
      碼本選擇模塊的輸出和有關能量軌跡的連續(xù)隱馬爾可夫模型模 塊的輸出,兩者結合,獲得完整的頻譜信息。
      根據(jù)本發(fā)明的實施例,所述基頻信息生成模塊包括 具有一有關基頻曲線的多空間概率分布隱馬爾可夫模塊,根據(jù)訓
      練得到的多空間概率分布隱馬爾可夫模型得到待合成語句的基頻曲
      線;具有一輸出端輸出待合成語句的基頻曲線。
      根據(jù)本發(fā)明的實施例,所述參數(shù)語音合成器模塊包括 具有一基于帶權頻譜自適應插值的語音參數(shù)合成器模塊,接受來
      自頻譜信息生成模塊和基頻信息生成模塊的輸出;具有一輸出端輸出
      合成的語音。
      根據(jù)本發(fā)明的實施例,所述離線訓練模塊包括
      具有一離散隱馬爾可夫模型訓練模塊,負責對所有頻譜矢量進行
      矢量量化,并進行離散隱馬爾可夫模型的訓練;
      具有一連續(xù)隱馬爾可夫模型訓練模塊,使用連續(xù)隱馬爾可夫模型
      進行能量軌跡的訓練;
      具有一多空間隱馬爾可夫模型訓練模塊,使用多空間概率隱馬爾 可夫模型進行基頻曲線、共振峰軌跡的訓練。
      根據(jù)本發(fā)明的實施例,所述離散隱馬爾可夫模型訓練模塊包括
      具有一矢量量化模塊,負責將語料中所有頻譜矢量表示為有限的
      類別數(shù),具有一輸出端用于輸出頻譜矢量有限的類別數(shù);
      具有一訓練模塊具有一輸入端與矢量量化模塊的輸出端連接,接 收頻譜矢量有限的類別數(shù),用于訓練離散隱馬爾可夫模型得到每個狀態(tài)下碼本矢量對應的輸出概率,具有一輸出端用于輸出碼本概率。
      本發(fā)明的有益效果本發(fā)明的的第一方面,為實現(xiàn)上述目的,在 該框架中,通過混合使用連續(xù)隱馬爾可夫模型和離散隱馬爾可夫模型 來解決前面所述的時域過平滑問題和頻域過平滑問題。首先,通過矢 量量化算法,將連續(xù)的頻譜特征參數(shù)表征為離散的碼本矢量。碼本矢 量來自于真實的頻譜,因此它必然精確表征了包括共振峰位置和帶寬 在內(nèi)的各種信息。而在傳統(tǒng)的基于隱馬爾可夫模型的合成系統(tǒng)中,頻 譜包絡是使用訓練得到的高斯函數(shù)均值來表示的,訓練過程中必然丟 失了大量的細節(jié)特征。通過使用來自于真實頻譜的碼本矢量替換丟失 大量細節(jié)的高斯函數(shù)均值,頻譜過平滑的問題得到了極大的改善。
      本發(fā)明的第二方面,為實現(xiàn)上述目的,本發(fā)明在合成階段,系統(tǒng) 使用了一個精心設計的碼本矢量選取算法利用離散隱馬爾可夫模型 可以得到每一個狀態(tài)的碼本輸出概率,利用該輸出概率指導碼本選取 可以保證可懂度。利用多空間概率分布隱馬爾可夫模型可以得到待合 成語音的共振峰軌跡,利用共振峰軌跡指導碼本選取可以保證清晰 度。除此之外,不同碼本矢量之間的拼接概率也被考慮在內(nèi),可以保 證頻譜在時域上有更多的多樣性。通過上述一系列指標,通過使用來 自于真實語音的碼本矢量替代高斯函數(shù)均值來表征頻譜信息,這樣解 決了傳統(tǒng)基于隱馬爾可夫模型合成系統(tǒng)的頻域過平滑問題;通過使用 精心設計的碼本選取算法替代類似于插值的參數(shù)生成算法,這樣解決 了傳統(tǒng)基于隱馬爾可夫模型系統(tǒng)的時域過平滑問題。總而言之,通過 上述兩種手段,合成系統(tǒng)的音質(zhì)得到明顯提高,幾乎接近基于拼接合 成系統(tǒng)的音質(zhì)表現(xiàn)。


      通過以下結合附圖的詳細描述,本發(fā)明的上述和其它方面、特征 和優(yōu)點將變得更加顯而易見。附圖中
      圖1是本發(fā)明所提出的基于混合隱馬爾可夫模型的語音合成系統(tǒng) 的總體框圖。圖2是本發(fā)明頻譜信息生成模塊的框圖。 圖3是本發(fā)明碼本選擇模塊的框圖。 圖4是本發(fā)明離線訓練模塊的框圖。
      圖5是本發(fā)明離散隱馬爾可夫模型訓練模塊的框圖。
      具體實施例方式
      下面結合附圖和實例對本發(fā)明進一步說明,通過結合附圖對系統(tǒng) 各組成部件的詳細說明將會更好地描述實現(xiàn)本發(fā)明的步驟和過程。應 該指出,所描述的實例僅僅視為說明的目的,而不是對本發(fā)明的限制。
      圖1是本發(fā)明基于混合隱馬爾可夫模型的語音合成系統(tǒng)示意圖,
      系統(tǒng)以C語言編寫,在windows平臺下可使用visual studio編譯 運行,在linux平臺下可使用gcc編譯運行。在附圖1本發(fā)明的優(yōu)選 實施方案中,本系統(tǒng)被分為四部分頻譜信息生成模塊l、基頻信息 生成模塊2、參數(shù)語音合成器模塊3、離線訓練模塊4組成。其中,
      頻譜信息生成模塊1和基頻信息生成模塊2與參數(shù)語音合成器模塊3 相連接。離線訓練模塊4與其他部分無連接。
      具有一頻譜信息生成模塊1,輸入端接收任意文本信息,負責根 據(jù)一系列精心設計的指標來選取表征頻譜信息的碼本矢量;具有一輸 出端輸出完整的頻譜信息。
      具有一基頻信息生成模塊2,輸入端接收任意文本信息,負責預
      測待合成句子的音高變化;具有一輸出端輸出完整的基頻曲線。
      具有一參數(shù)語音合成器模塊3,輸入端接收來自于頻譜信息生成 模塊的頻譜信息和來自于基頻信息生成模塊的基頻信息;具有一輸出 端輸出合成的語音結果。本實例中采用基于帶權頻譜自適應插值的語 音參數(shù)合成算法。
      具有一離線訓練模塊4,負責各種隱馬爾可夫模型的訓練。 如圖2頻譜信息生成模塊的框圖所示頻譜信息生成模塊1由隱 馬爾可夫模型映射模塊10、離散隱馬爾可夫模型模塊20、有關共振 峰軌跡的多空間概率隱馬爾可夫模型模塊30、拼接概率模塊40、有 關能量軌跡的連續(xù)隱馬爾可夫模型模塊50、碼本選擇模塊60組成。隱馬爾可夫模型映射模塊10:負責接受任意文本信息,將其表征 為帶有韻律信息標注的基元序列,找到與其最符合的隱馬爾可夫模
      型;具有一輸出端輸出隱馬爾可夫模型狀態(tài)序列。在本實例中,采用 無監(jiān)督聚類的方法構建一棵分類樹,可以自動根據(jù)韻律信息標注選擇 得到合適的隱馬爾可夫模型。
      離散隱馬爾可夫模型模塊20:負責根據(jù)訓練得到的離散隱馬爾可
      夫模型得到當前狀態(tài)下碼本矢量的輸出概率;具有一輸出端輸出當前 狀態(tài)下碼本矢量的輸出概率;根據(jù)該輸出概率進行碼本的選擇,可保 證碼本選擇的正確性。在本實例中,所使用的頻譜參數(shù)是24維的線 譜對參數(shù)(LSP)。
      有關共振峰軌跡的多空間概率隱馬爾可夫模型模塊30:負責根據(jù) 訓練得到的多空間概率隱馬爾可夫模型得到當前狀態(tài)下的共振峰軌 跡;具有一輸出端輸出當前狀態(tài)下的共振峰軌跡。合成語音的共振峰 軌跡應該與理想的共振峰軌跡吻合,該準則用于保證語音的清晰度; 本實例中,對第一共振峰和第二共振峰進行了建模,其中第一共振峰 和第二共振峰的權重比為6: 4。
      拼接概率模塊40:具有一輸出端輸出相鄰狀態(tài)之間所有碼本矢量 的輸出概率。依據(jù)兩兩候選碼本之間相鄰的概率進行碼本選擇,使頻 譜在時域上具有多樣性。拼接概率的值被定義為在原始語料中相鄰碼 本同時出現(xiàn)的次數(shù)。
      有關能量軌跡的連續(xù)隱馬爾可夫模型模塊50:,根據(jù)訓練得到的 連續(xù)隱馬爾可夫模型得到當前狀態(tài)下的能量軌跡;具有一輸出端輸出 當前狀態(tài)下的能量軌跡。
      碼本選擇模塊60:根據(jù)前面三個模塊離散隱馬爾可夫模型模塊
      20、有關共振峰軌跡的多空間概率隱馬爾可夫模型模塊30和拼接概
      率模塊40的輸出結果使用動態(tài)規(guī)劃算法進行碼本的選擇;具有一輸
      出端輸出選擇得到的碼本序列。
      碼本選擇模塊60的輸出和有關能量軌跡的連續(xù)隱馬爾可夫模型 模塊的輸出,兩者結合,即為完整的頻譜信息。 '
      如圖3碼本選擇模塊的框圖所示,負責根據(jù)碼本選取準則來選擇最合適的碼本序列,主要有三個準則;
      三個準則分別是離散隱馬爾可夫模型對應的碼本輸出概率110,
      多空間概率分布隱馬爾可夫模型所得到的共振峰軌跡120,不同碼本 相鄰出現(xiàn)的概率130。在本實例中,三個準則所占權重比為4:4:2。
      離散隱馬爾可夫模型對應的碼本輸出概率110:按照離散隱馬爾 可夫模型每個狀態(tài)對應的碼本矢量輸出概率進行選擇。當碼本矢量的
      輸出概率超過一個閾值時,就將其作為基元選取的一個候選,并且輸 出概率本身就作為代價函數(shù)之一。在僅僅考慮這一準則的情況下,系 統(tǒng)可以依照最大輸出概率得到碼本序列,但是由于沒有考慮到共振峰 的信息,合成的結果并不理想,僅僅具有可懂度,但是音質(zhì)不清晰。
      Cost 1 = 1 — output_probability
      多空間概率分布隱馬爾可夫模型所得到的共振峰軌跡120:根據(jù) 語音編碼領域的知識,共振峰位置信息是否準確對合成語音的音質(zhì)高 低有著非常重要的影響。本發(fā)明中,由多空間概率分布隱馬爾可夫模 型生成的共振峰軌跡是一個理想的共振峰軌跡,合成語音的共振峰軌 跡應該與它吻合。所以,在碼本選取中,候選碼本的共振峰數(shù)值與多 空間概率分布隱馬爾可夫模型預測共振峰軌跡在這一時間點上的數(shù) 值的差值可以作為代價函數(shù)的另一個標準,該標準可保證語音的清晰 度。
      Cost2二formant_difference
      不同碼本相鄰出現(xiàn)的概率130:拼接概率描述的是兩個候選碼本 之間相鄰的概率,可以通過對大規(guī)模語料數(shù)據(jù)的統(tǒng)計分析來得到。拼 接概率用于代價函數(shù)的作用類似于傳統(tǒng)隱馬爾可夫模型參數(shù)生成算 法中動態(tài)參數(shù)的作用,都是為了使頻譜在時域上具有多樣性。
      Cost3二l-concatenation—probability
      基于以上這些準則,通過動態(tài)規(guī)劃算法,可以得到碼本序列,進 而得到待合成語音的線譜對參數(shù)軌跡。所表征的頻譜克服了傳統(tǒng)基于 隱馬爾可夫模型參數(shù)合成系統(tǒng)所遇到的時域過平滑和頻域過平滑問 題。
      如圖4離線訓練模塊的框圖所示離線訓練模塊4由離散隱馬爾可夫模型訓練模塊70、連續(xù)隱馬爾可夫模型訓練模塊80、多空間隱 馬爾可夫模型訓練模塊90組成。
      離散隱馬爾可夫模型訓練模塊70,負責對所有頻譜矢量進行矢量
      量化,并進行離散隱馬爾可夫模型的訓練。
      具有一連續(xù)隱馬爾可夫模型訓練模塊80:,使用連續(xù)隱馬爾可夫
      模型進行能量軌跡的訓練。
      具有一多空間隱馬爾可夫模型訓練模塊90:使用多空間概率隱馬 爾可夫模型進行基頻曲線、共振峰軌跡的訓練?;l曲線和共振峰軌 跡在靜音段和清音段沒有取值,只能用一個符號代替(可以看作是一
      個o維信號),所以無法直接使用連續(xù)隱馬爾可夫模型進行對其進行
      建模。為了解決這個問題, 一種多空間概率分布隱馬爾可夫模型被提
      出用來描述參數(shù)維數(shù)不固定的對象(包括一個o維的符號)。這樣,
      它就非常適合用來描述這一類參數(shù)。實際上,多空間概率分布隱馬爾 可夫模型可以看成是不同維數(shù)連續(xù)隱馬爾可夫模型和離散隱馬爾可 夫模型的計權混合。
      如圖5離散隱馬爾可夫模型訓練模塊所示,離散隱馬爾可夫模型 訓練模塊由矢量量化模塊140和訓練模塊150組成,矢量量化模塊140 和訓練模塊150順序電連接。
      矢量量化模塊140:負責將語料中所有頻譜矢量表示為有限的類 別數(shù),具有一輸出端用于輸出頻譜矢量有限的類別數(shù);根據(jù)矢量量化 將連續(xù)的線譜對(LSP)矢量表征為離散的碼本序號。矢量量化過程 中,如果直接使用較多的碼本矢量,會遇到一些計算復雜度的問題。 為了解決這個問題,本發(fā)明采用了基于分級矢量量化的方法。在這種 方法中,第二級矢量量化對第一級量化所產(chǎn)生的誤差進行量化。在該 實例中,共聚類得到2'3種類別數(shù),其中一級矢量量化聚為26類,二 次矢量量化對每一類再聚為27類。需要再次說明的一點是,所有碼本 矢量均來自于真實的頻譜,因此保留了完整頻譜的各種細節(jié)信息。因 此,通過這樣的手段,可以解決頻域上的過平滑問題。
      訓練模塊150:碼本構建完成后,將語料中的每一幀用其相應的 碼本矢量序號來表示,然后進行離散隱馬爾可夫模型訓練。訓練模塊20具有一輸入端與矢量量化模塊的輸出端連接,接收頻譜矢量有限的 類別數(shù),用于訓練離散隱馬爾可夫模型得到每個狀態(tài)下碼本矢量對應 的輸出概率,具有一輸出端用于輸出碼本概率。本發(fā)明中離散隱馬爾 可夫模型的訓練同標準離散隱馬爾可夫模型訓練并無太大差別,唯一 的不同就是在隱馬爾可夫模型狀態(tài)聚類過程中涉及了更多的上下文 信息。在該實例中,使用的上下文信息包括前后聲調(diào)信息、前后因素 類型信息、在韻律詞和韻律短語中的位置信息、韻律詞和韻律短語的 長度等。通過離散隱馬爾可夫模型訓練可以得到每一個狀態(tài)對應的碼 本輸出概率,這是碼本選取算法中最重要的指導準則。
      上述實施例為本發(fā)明的較佳實施例,本發(fā)明的應用不僅限于電腦 終端,還可應用到多種手持式移動設備或其它形式的移動設備。根據(jù) 本發(fā)明的主要構思,本領域普通技術人員均可以產(chǎn)生多種相類似的或 等價的應用,為此,本發(fā)明的范圍不應由該描述來限定。本領域的技 術人員應該理解,在不脫離本發(fā)明的范圍的任何修改或局部替換,均 屬于本發(fā)明權利要求來限定的范圍。
      權利要求
      1、一種基于混合隱馬爾可夫模型的語音合成系統(tǒng),利用各種電腦終端及數(shù)字移動設備,將系統(tǒng)接收的或輸入的任意文字串轉(zhuǎn)換成語音輸出,其特征在于由頻譜信息生成模塊、基頻信息生成模塊、參數(shù)語音合成器模塊、離線訓練部分組成,其中具有一頻譜信息生成模塊,輸入端接收任意文本信息,負責根據(jù)指標來選取表征頻譜信息的碼本矢量并產(chǎn)生完整的頻譜信息;具有一輸出端輸出完整的頻譜信息;具有一基頻信息生成模塊,輸入端接收文本信息,負責預測待合成句子的音高變化;具有一輸出端輸出完整的基頻曲線;具有一參數(shù)語音合成器模塊,輸入端接收來自于頻譜信息生成模塊的頻譜信息和來自于基頻信息生成模塊的基頻信息;具有一輸出端輸出合成的語音結果;具有一離線訓練模塊,負責各種隱馬爾可夫模型的訓練。
      2、 根據(jù)權利要求1所述的基于混合隱馬爾可夫模型的語音合成系統(tǒng),其特征在于所述頻譜信息生成模塊包括具有一隱馬爾可夫模型映射模塊,接受任意文本信息,將其表征 為帶有韻律信息標注的音素序列,找到與其最符合的隱馬爾可夫模型;具有一輸出端輸出隱馬爾可夫模型狀態(tài)序列;具有一離散隱馬爾可夫模型模塊,根據(jù)訓練得到的離散隱馬爾可 夫模型得到當前狀態(tài)下碼本矢量的輸出概率;具有一輸出端輸出當前 狀態(tài)下碼本矢量的輸出概率;根據(jù)該輸出概率進行碼本的選擇,保證 碼本選擇的正確性;具有一有關共振峰軌跡的多空間概率隱馬爾可夫模型模塊,根據(jù) 訓練得到的多空間概率隱馬爾可夫模型得到當前狀態(tài)下的共振峰軌 跡;具有一輸出端輸出當前狀態(tài)下的共振峰軌跡;合成語音的共振峰 軌跡應該與該理想的共振峰軌跡相吻合,保證語音的清晰度;具有一拼接概率模塊,具有一輸出端輸出相鄰狀態(tài)之間所有碼本 矢量的輸出概率;依據(jù)兩兩候選碼本之間相鄰的概率進行碼本選擇,使頻譜在時域上具有多樣性;具有一有關能量軌跡的連續(xù)隱馬爾可夫模型模塊,根據(jù)訓練得到 的連續(xù)隱馬爾可夫模型得到當前狀態(tài)下的能量軌跡;具有一輸出端輸出當前狀態(tài)下的能量軌跡;具有一碼本選擇模塊,根據(jù)離散隱馬爾可夫模型模塊、有關共振 峰軌跡的多空間概率隱馬爾可夫模型模塊和拼接概率模塊的輸出結果使用動態(tài)規(guī)劃算法進行碼本的選擇;具有一輸出端輸出選擇得到的 碼本序列;碼本選擇模塊的輸出和有關能量軌跡的連續(xù)隱馬爾可夫模型模 塊的輸出,兩者結合,獲得完整的頻譜信息。
      3、 根據(jù)權利要求1所述的基于混合隱馬爾可夫模型的語音合成系統(tǒng),其特征在于所述基頻信息生成模塊包括具有一有關基頻曲線的多空間概率分布隱馬爾可夫模塊,根據(jù)訓 練得到的多空間概率分布隱馬爾可夫模型得到待合成語句的基頻曲 線;具有一輸出端輸出待合成語句的基頻曲線。
      4、 根據(jù)權利要求1所述的基于混合隱馬爾可夫模型的語音合成 系統(tǒng),其特征在于所述參數(shù)語音合成器模塊包括具有一語音參數(shù)合成器模塊,接受來自頻譜信息生成模塊和基頻 信息生成模塊的輸出;具有一輸出端輸出合成的語音。
      5、 根據(jù)權利要求1所述的基于混合隱馬爾可夫模型的語音合成系統(tǒng),其特征在于所述離線訓練模塊包括具有一離散隱馬爾可夫模型訓練模塊,負責對所有頻譜矢量進行 矢量量化,并進行離散隱馬爾可夫模型的訓練;具有一連續(xù)隱馬爾可夫模型訓練模塊,使用連續(xù)隱馬爾可夫模型 進行能量軌跡的訓練;具有 一 多空間隱馬爾可夫模型訓練模塊,使用多空間概率隱馬爾 可夫模型進行基頻曲線、共振峰軌跡的訓練。
      6、根據(jù)權利要求1所述的基于混合隱馬爾可夫模型的語音合成 系統(tǒng),其特征在于所述離散隱馬爾可夫模型訓練模塊包括具有一矢量量化模塊,負責將語料中所有頻譜矢量表示為有限的類別數(shù),具有一輸出端用于輸出頻譜矢量有限的類別數(shù);具有一訓練模塊具有一輸入端與矢量量化模塊的輸出端連接,接 收頻譜矢量有限的類別數(shù),用于訓練離散隱馬爾可夫模型得到每個狀 態(tài)下碼本矢量對應的輸出概率,具有一輸出端用于輸出碼本概率。
      全文摘要
      本發(fā)明基于混合隱馬爾可夫模型的語音合成系統(tǒng),有頻譜信息生成模塊接收任意文本信息,根據(jù)指標來選取表征頻譜信息的碼本矢量并輸出頻譜信息;基頻信息生成模塊接收文本信息,負責預測待合成句子的音高變化,輸出基頻曲線;參數(shù)語音合成器模塊接收頻譜信息生成模塊的頻譜信息和基頻信息生成模塊的基頻信息,輸出合成的語音結果;離線訓練模塊負責各種隱馬爾可夫模型的訓練,離散隱馬爾可夫模型得到真實頻譜矢量的輸出概率,保證頻譜信息的準確度;碼本選擇算法保證生成的頻譜不會產(chǎn)生時域過平滑現(xiàn)象。依據(jù)本發(fā)明提高參數(shù)語音合成系統(tǒng)輸出語音的清晰度,從而使得輸出語音的保真度得到大幅提高,幾乎接近基于拼接語音合成系統(tǒng)的語音質(zhì)量。
      文檔編號G10L13/00GK101471071SQ20071030422
      公開日2009年7月1日 申請日期2007年12月26日 優(yōu)先權日2007年12月26日
      發(fā)明者劍 于, 蒙 張, 陶建華 申請人:中國科學院自動化研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1