一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備,包括:根據(jù)原始語音波形文件中每一個音節(jié)的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表值,利用離散余弦變換方法得到該音節(jié)在選擇頻帶信息上的非周期成分譜擬合曲線,生成包含了所述原始語音波形文件的每一個音節(jié)在不同頻帶信息上的非周期成分譜擬合曲線的非周期成分音節(jié)模型,這樣將音節(jié)模型中包含頻段數(shù)量*音節(jié)幀數(shù)的數(shù)據(jù)信息,轉(zhuǎn)換成為包含頻段數(shù)量的擬合曲線,縮小了語音建模的規(guī)模,節(jié)省了系統(tǒng)資源,同時在建立每一音節(jié)的非周期成分譜擬合曲線,充分考慮了音節(jié)的幀與幀之間的連續(xù)性,使得擬合曲線保留了音節(jié)原有的音質(zhì),并在合成時提高了合成語音的質(zhì)量。
【專利說明】一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音處理【技術(shù)領(lǐng)域】,尤其涉及一種非周期成分音節(jié)模型建立、及語音 合成的方法和設(shè)備。
【背景技術(shù)】
[0002] 語音合成技術(shù)是指通過機械的、電子的方法產(chǎn)生人造語音的技術(shù)。例如:TTS(Text To Speech,文語轉(zhuǎn)換)技術(shù),即將文本信息轉(zhuǎn)換成為語音信息,并通過放音設(shè)備播放轉(zhuǎn)換后 的語音信息的技術(shù)。
[0003] 語音合成的前提是對語音信息進行分析,例如:語音參數(shù)化分析。所謂語音參數(shù)化 分析的方法包括直接波形分析法和語音參數(shù)化分析法。目前比較通用的語音分析方法是語 音參數(shù)化分析法。所謂語音參數(shù)化分析法是指對提取到的語音參數(shù)進行分析的方法,其中, 在對語音信息進行語音參數(shù)提取后,得到的語音參數(shù)包括:語音聲道譜參數(shù)(例如:線性預(yù) 測系數(shù)、美爾道譜系數(shù)以及線譜對等等)、語音聲源參數(shù)(例如:基譜、非周期成分譜等)。通 過對這些語音參數(shù)的分析,全面了解語音攜帶的信息,為語音合成做準(zhǔn)備。
[0004] 例如:現(xiàn)有技術(shù)中存在的自適應(yīng)加權(quán)普內(nèi)插技術(shù)(即STRAIGHT分析技術(shù)),有效地 將語音聲源以及聲道信息分離,得到聲道譜SP參數(shù),基譜曲線R)參數(shù)以及非周期成分譜AP 參數(shù)。
[0005] 在語音參數(shù)化分析的基礎(chǔ)上,統(tǒng)計參數(shù)語音合成技術(shù)發(fā)展迅猛,逐漸取代了拼接 語音合成技術(shù),成為語音合成技術(shù)的主流。所謂統(tǒng)計參數(shù)語音合成技術(shù)是通過語音識別處 理方法將大量的語音數(shù)據(jù)標(biāo)注后訓(xùn)練成模型,然后在進行語音合成時利用參數(shù)生成算法得 到語音參數(shù),最后通過線性預(yù)測過濾技術(shù)得到語音波形。
[0006] 其中,在統(tǒng)計參數(shù)語音合成技術(shù)中涉及到HMM (Hidden Markov Model,隱馬爾可 夫)語音模型建立和LPC語音波形的形成。
[0007] 具體地,所述HMM語音模型建立的具體包括:
[0008] 第一,提取每一個音節(jié)的非周期成分譜。
[0009] 第二,將一幀內(nèi)的非周期成分譜按照設(shè)定的頻段進行劃分。
[0010] 例如,設(shè)定的頻段為5段,分別是0?1000MHz,1000?2000Mhz,2000?4000MHz, 4000 ?6000MHz,6000 ?8000MHz。
[0011] 第三,將得到的每一個頻段內(nèi)的非周期成分譜進行平均運算,得到每一個頻段的 非周期成分頻帶代表值。
[0012] 最后,針對每一個音節(jié)的每一幀,得到5個非周期成分頻帶代表值,相對于對于每 一音節(jié)的每一巾貞進行了巾貞內(nèi)建模。
[0013] 利用HMM語音模型對語音進行合成,將出現(xiàn)以下問題:
[0014] 1、HMM語音模型建立的語音模型的數(shù)據(jù)量比較大,不適合在嵌入式系統(tǒng)中使用。
[0015] HMM語音模型建立后,當(dāng)劃分頻段數(shù)量為N時,針對每一個音節(jié)的每一幀,將出現(xiàn)N 個非周期成分頻帶代表值對應(yīng),也就是說,當(dāng)每一個音節(jié)包含Μ幀時,HMM語音模型中針對 一個音節(jié)將出現(xiàn)M*N各非周期成分頻帶代表值,數(shù)據(jù)量太大,不適合嵌入式系統(tǒng)使用。
[0016] 2、現(xiàn)有的HMM語音模型在建立時,以一個音節(jié)的每一幀為單位確定非周期成分頻 帶代表值,并沒有考慮幀與幀之間非周期成分譜之間的相關(guān)性,使得合成后的語音信息的 非周期成分譜的連貫性較差,使得合成音的音質(zhì)不高。
【發(fā)明內(nèi)容】
[0017] 本發(fā)明實施例提供了一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備, 用于解決現(xiàn)有技術(shù)中存在的HMM語音模型數(shù)據(jù)量大、且合成后的語音信息的非周期成分譜 的連貫性差,導(dǎo)致合成音的音質(zhì)不高的問題。
[0018] -種非周期成分音節(jié)模型建立的方法,包括:
[0019] 分解語音數(shù)據(jù)庫中的原始語音波形文件,得到所述原始語音波形文件中每一個音 節(jié)的非周期成分譜信息、基頻信息和聲道譜信息;
[0020] 根據(jù)預(yù)設(shè)的為音節(jié)的每一幀劃分的至少一個頻帶信息和音節(jié)的非周期成分譜信 息,計算所述原始語音波形文件中每一個音節(jié)的每一幀在劃分得到的每一個頻帶信息上的 非周期成分代表值;
[0021] 針對所述原始語音波形文件中任意一個音節(jié),依次執(zhí)行以下操作,直至得到所述 原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線:
[0022] 選擇一個頻帶信息,查找在該頻帶信息上該音節(jié)對應(yīng)的每一幀的非周期成分代表 值,并根據(jù)查找到的非周期成分代表值,利用離散余弦變換方法得到該音節(jié)在選擇的頻帶 信息上的非周期成分譜擬合曲線;
[0023] 判斷該音節(jié)是否已得到劃分的每一個頻帶信息上的非周期成分譜擬合曲線,若 是,則選擇下一個音節(jié),繼續(xù)執(zhí)行得到該音節(jié)在劃分的每一個頻帶信息上非周期成分?jǐn)M合 曲線的操作;否則,選擇下一個頻帶信息,繼續(xù)執(zhí)行得到該音節(jié)在選擇的下一個頻帶信息上 非周期成分?jǐn)M合曲線的操作;
[0024] 在得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非 周期成分譜擬合曲線后,建立原始語音波形文件的標(biāo)注文件與所述原始語音波形文件的每 一個音節(jié)信息之間的對應(yīng)關(guān)系,并根據(jù)建立的對應(yīng)關(guān)系生成非周期成分音節(jié)模型,其中,所 述每一個音節(jié)信息中包含了每一個音節(jié)的基頻信息、聲道譜信息以及在不同頻帶信息上的 非周期成分譜擬合曲線。
[0025] 所述根據(jù)查找到的非周期成分代表值,利用離散余弦變換方法得到該音節(jié)在選擇 的頻帶信息上的非周期成分譜擬合曲線,具體包括:
[0026] 利用查找到的非周期成分代表值,通過以下方式計算得到該音節(jié)在選擇的頻帶信 息上的非周期成分譜擬合曲線:
[0027]
【權(quán)利要求】
1. 一種非周期成分音節(jié)模型建立的方法,其特征在于,包括: 分解語音數(shù)據(jù)庫中的原始語音波形文件,得到所述原始語音波形文件中每一個音節(jié)的 非周期成分譜信息、基頻信息和聲道譜信息; 根據(jù)預(yù)設(shè)的為音節(jié)的每一幀劃分的至少一個頻帶信息和音節(jié)的非周期成分譜信息,計 算所述原始語音波形文件中每一個音節(jié)的每一幀在劃分得到的每一個頻帶信息上的非周 期成分代表值; 針對所述原始語音波形文件中任意一個音節(jié),依次執(zhí)行以下操作,直至得到所述原始 語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線: 選擇一個頻帶信息,查找在該頻帶信息上該音節(jié)對應(yīng)的每一幀的非周期成分代表值, 并根據(jù)查找到的非周期成分代表值,利用離散余弦變換方法得到該音節(jié)在選擇的頻帶信息 上的非周期成分譜擬合曲線; 判斷該音節(jié)是否已得到劃分的每一個頻帶信息上的非周期成分譜擬合曲線,若是,則 選擇下一個音節(jié),繼續(xù)執(zhí)行得到該音節(jié)在劃分的每一個頻帶信息上非周期成分?jǐn)M合曲線的 操作;否則,選擇下一個頻帶信息,繼續(xù)執(zhí)行得到該音節(jié)在選擇的下一個頻帶信息上非周期 成分?jǐn)M合曲線的操作; 在得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期 成分譜擬合曲線后,建立原始語音波形文件的標(biāo)注文件與所述原始語音波形文件的每一個 音節(jié)信息之間的對應(yīng)關(guān)系,并根據(jù)建立的對應(yīng)關(guān)系生成非周期成分音節(jié)模型,其中,所述每 一個音節(jié)信息中包含了每一個音節(jié)的基頻信息、聲道譜信息以及在不同頻帶信息上的非周 期成分譜擬合曲線。
2. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)查找到的非周期成分代表值,利用 離散余弦變換方法得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線,具體包括: 利用查找到的非周期成分代表值,通過以下方式計算得到該音節(jié)在選擇的頻帶信息上 的非周期成分譜擬合曲線: 2 π 1 = -l^bap(n)t cos[-?/(/ +-)]; 丄 1 - 其中,(^為該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線,τ為該音節(jié)的幀數(shù), bap (n) t為該音節(jié)的第t幀在選擇的頻帶信息上的非周期成分代表值,η為選擇的頻帶信息 的頻段標(biāo)識,d和D為離散余弦變換的階數(shù),取值范圍是1?D-l, t為音節(jié)的巾貞數(shù),取值為 0 ?T-1。
3. 如權(quán)利要求1或2所述的方法,其特征在于,在得到的所述原始語音波形文件中每一 個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線后,根據(jù)建立的對應(yīng)關(guān)系生成 非周期成分音節(jié)模型之前,所述方法還包括: 利用聚類算法,將得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信 息上的非周期成分譜擬合曲線進行聚類處理,確定所述原始語音波形文件中每一個音節(jié)的 非周期成分聚類曲線組; 所述建立原始語音波形文件標(biāo)識與所述原始語音波形文件的每一個音節(jié)信息之間的 對應(yīng)關(guān)系,具體包括: 建立原始語音波形文件的標(biāo)注文件、所述原始語音波形文件的每一個音節(jié)的非周期成 分聚類曲線組、每一個音節(jié)的基頻信息以及每一個音節(jié)的聲道譜信息之間的對應(yīng)關(guān)系。
4. 一種基于非周期成分音節(jié)模型的語音合成方法,其特征在于,包括: 利用文本分析設(shè)備將獲取的待語音合成的文本信息轉(zhuǎn)換成原始語音波形文件,并根據(jù) 轉(zhuǎn)換得到的原始語音波形文件得到該原始語音波形文件的標(biāo)注文件; 根據(jù)非周期成分音節(jié)模型中建立的原始語音波形文件的標(biāo)注文件與原始語音波形文 件的每一個音節(jié)信息之間的對應(yīng)關(guān)系,確定轉(zhuǎn)換得到的原始語音波形文件的標(biāo)注文件對應(yīng) 的每一個音節(jié)的非周期成分譜擬合曲線、基頻信息和聲道譜信息; 根據(jù)確定的每一個音節(jié)的非周期成分譜擬合曲線,計算得到所述原始語音波形文件中 每一個音節(jié)的每一幀在不同頻帶信息上的非周期成分代表值; 利用所述每一個音節(jié)的每一幀在不同頻帶信息上的非周期成分代表值、每一個音節(jié)的 基頻信息以及每一個音節(jié)的聲道譜信息執(zhí)行激勵操作,并合成語音。
5. 如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)確定的每一個音節(jié)的非周期成分 譜擬合曲線,計算得到所述原始語音波形文件中每一個音節(jié)的每一幀在不同頻帶信息上的 非周期成分代表值,具體包括: 利用確定的每一個音節(jié)的非周期成分譜擬合曲線通過以下方式計算得到所述原始語 音波形文件中每一個音節(jié)的每一幀在一個頻帶信息上的非周期成分代表值: hap{n), = |c0 cos[^(/ +? ; 其中,bap (n)t為一個音節(jié)的第t幀在頻段標(biāo)識為n的頻帶信息上的非周期成分代表 值,cd為該音節(jié)在頻段標(biāo)識為η的頻帶信息的非周期成分譜擬合曲線,C(l為該音節(jié)在頻段 標(biāo)識為η的頻帶信息上的非周期成分譜擬合曲線的因子,η為頻段標(biāo)識,d和D為離散余弦 變換的階數(shù),取值范圍是1?D-l,t為音節(jié)的幀數(shù),取值為0?T-1。
6. -種非周期成分音節(jié)模型建立設(shè)備,其特征在于,所述設(shè)備包括: 非周期成分代表值確定模塊,用于分解語音數(shù)據(jù)庫中的原始語音波形文件,得到所述 原始語音波形文件中每一個音節(jié)的非周期成分譜信息、基頻信息和聲道譜信息;并根據(jù)預(yù) 設(shè)的為音節(jié)的每一幀劃分的至少一個頻帶信息和音節(jié)的非周期成分譜信息,計算所述原始 語音波形文件中每一個音節(jié)的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表 值; 非周期成分譜擬合曲線生成模塊,用于針對所述原始語音波形文件中任意一個音節(jié), 依次執(zhí)行以下操作,直至得到所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信 息上的非周期成分譜擬合曲線: 選擇一個頻帶信息,查找在該頻帶信息上該音節(jié)對應(yīng)的每一幀的非周期成分代表值, 并根據(jù)查找到的非周期成分代表值,利用離散余弦變換方法得到該音節(jié)在選擇的頻帶信息 上的非周期成分譜擬合曲線;判斷該音節(jié)是否已得到劃分的每一個頻帶信息上的非周期成 分譜擬合曲線,若是,則選擇下一個音節(jié),繼續(xù)執(zhí)行得到該音節(jié)在劃分的每一個頻帶信息上 非周期成分?jǐn)M合曲線的操作;否則,選擇下一個頻帶信息,繼續(xù)執(zhí)行得到該音節(jié)在選擇的下 一個頻帶信息上非周期成分?jǐn)M合曲線的操作; 非周期成分音節(jié)模型建立模塊,用于在得到的所述原始語音波形文件中每一個音節(jié)在 劃分的每一個頻帶信息上的非周期成分譜擬合曲線后,建立原始語音波形文件的標(biāo)注文件 與所述原始語音波形文件的每一個音節(jié)信息之間的對應(yīng)關(guān)系,并根據(jù)建立的對應(yīng)關(guān)系生成 非周期成分音節(jié)模型,其中,所述每一個音節(jié)信息中包含了每一個音節(jié)的基頻信息、聲道譜 信息以及在不同頻帶信息上的非周期成分譜擬合曲線。
7. 如權(quán)利要求6所述的設(shè)備,其特征在于, 所述非周期成分譜擬合曲線生成模塊,具體用于利用查找到的非周期成分代表值,通 過以下方式計算得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線: 心=⑷< cos[7rf('+ 令]; I t=Q 1 2 其中,(^為該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線,T為該音節(jié)的幀數(shù), bap (n) t為該音節(jié)的第t幀在選擇的頻帶信息上的非周期成分代表值,η為選擇的頻帶信息 的頻段標(biāo)識,d和D為離散余弦變換的階數(shù),取值范圍是1?D-l, t為音節(jié)的巾貞數(shù),取值為 0 ?T-1。
8. 如權(quán)利要求6或7所述的設(shè)備,其特征在于,所述設(shè)備還包括: 所述非周期成分聚類曲線組生成模塊,用于在得到的所述原始語音波形文件中每一個 音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線后,根據(jù)建立的對應(yīng)關(guān)系生成非 周期成分音節(jié)模型之前,利用聚類算法,將得到的所述原始語音波形文件中每一個音節(jié)在 劃分的每一個頻帶信息上的非周期成分譜擬合曲線進行聚類處理,確定所述原始語音波形 文件中每一個音節(jié)的非周期成分聚類曲線組; 所述非周期成分音節(jié)模型建立模塊,具體用于建立原始語音波形文件的標(biāo)注文件、所 述原始語音波形文件的每一個音節(jié)的非周期成分聚類曲線組、每一個音節(jié)的基頻信息以及 每一個音節(jié)的聲道譜信息之間的對應(yīng)關(guān)系。
9. 一種基于非周期成分音節(jié)模型的語音合成設(shè)備,其特征在于,所述設(shè)備包括: 文件獲取模塊,用于利用文本分析設(shè)備將獲取的待語音合成的文本信息轉(zhuǎn)換成原始語 音波形文件,并根據(jù)轉(zhuǎn)換得到的原始語音波形文件得到該原始語音波形文件的標(biāo)注文件; 音節(jié)信息確定模塊,用于根據(jù)非周期成分音節(jié)模型中建立的原始語音波形文件的標(biāo)注 文件與原始語音波形文件的每一個音節(jié)信息之間的對應(yīng)關(guān)系,確定轉(zhuǎn)換得到的原始語音波 形文件的標(biāo)注文件對應(yīng)的每一個音節(jié)的非周期成分譜擬合曲線、基頻信息和聲道譜信息; 非周期成分代表值確定模塊,用于根據(jù)確定的每一個音節(jié)的非周期成分譜擬合曲線, 計算得到所述原始語音波形文件中每一個音節(jié)的每一幀在不同頻帶信息上的非周期成分 代表值; 語音合成模塊,用于利用所述每一個音節(jié)的每一幀在不同頻帶信息上的非周期成分代 表值、每一個音節(jié)的基頻信息以及每一個音節(jié)的聲道譜信息執(zhí)行激勵操作,并合成語音。
10. 如權(quán)利要求9所述的設(shè)備,其特征在于, 所述非周期成分代表值確定模塊,具體用于利用確定的每一個音節(jié)的非周期成分譜擬 合曲線通過以下方式計算得到所述原始語音波形文件中每一個音節(jié)的每一幀在一個頻帶 信息上的非周期成分代表值: J .七j· 露 ] hap(n)i = - c0 + 2^crf cos[-1/(/ + -)]; 2 ',. , / 2 其中,bap (n)t為一個音節(jié)的第t幀在頻段標(biāo)識為n的頻帶信息上的非周期成分代表 值,cd為該音節(jié)在頻段標(biāo)識為η的頻帶信息的非周期成分譜擬合曲線,C(l為該音節(jié)在頻段 標(biāo)識為η的頻帶信息上的非周期成分譜擬合曲線的因子,η為頻段標(biāo)識,d和D為離散余弦 變換的階數(shù),取值范圍是1?D-l,t為音節(jié)的幀數(shù),取值為0?T-1。
【文檔編號】G10L13/02GK104282300SQ201310282732
【公開日】2015年1月14日 申請日期:2013年7月5日 優(yōu)先權(quán)日:2013年7月5日
【發(fā)明者】王朝民, 劉琨, 焦偉 申請人:中國移動通信集團公司