一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備的制作方法

文檔序號：2826071閱讀：258來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備，包括：根據(jù)原始語音波形文件中每一個音節(jié)的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表值，利用離散余弦變換方法得到該音節(jié)在選擇頻帶信息上的非周期成分譜擬合曲線，生成包含了所述原始語音波形文件的每一個音節(jié)在不同頻帶信息上的非周期成分譜擬合曲線的非周期成分音節(jié)模型，這樣將音節(jié)模型中包含頻段數(shù)量*音節(jié)幀數(shù)的數(shù)據(jù)信息，轉(zhuǎn)換成為包含頻段數(shù)量的擬合曲線，縮小了語音建模的規(guī)模，節(jié)省了系統(tǒng)資源，同時在建立每一音節(jié)的非周期成分譜擬合曲線，充分考慮了音節(jié)的幀與幀之間的連續(xù)性，使得擬合曲線保留了音節(jié)原有的音質(zhì)，并在合成時提高了合成語音的質(zhì)量。
【專利說明】一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音處理【技術(shù)領(lǐng)域】，尤其涉及一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備。

【背景技術(shù)】
[0002] 語音合成技術(shù)是指通過機械的、電子的方法產(chǎn)生人造語音的技術(shù)。例如：TTS(Text To Speech，文語轉(zhuǎn)換）技術(shù)，即將文本信息轉(zhuǎn)換成為語音信息，并通過放音設(shè)備播放轉(zhuǎn)換后的語音信息的技術(shù)。
[0003] 語音合成的前提是對語音信息進行分析，例如：語音參數(shù)化分析。所謂語音參數(shù)化分析的方法包括直接波形分析法和語音參數(shù)化分析法。目前比較通用的語音分析方法是語音參數(shù)化分析法。所謂語音參數(shù)化分析法是指對提取到的語音參數(shù)進行分析的方法，其中，在對語音信息進行語音參數(shù)提取后，得到的語音參數(shù)包括：語音聲道譜參數(shù)(例如：線性預(yù) 測系數(shù)、美爾道譜系數(shù)以及線譜對等等)、語音聲源參數(shù)(例如：基譜、非周期成分譜等)。通過對這些語音參數(shù)的分析，全面了解語音攜帶的信息，為語音合成做準(zhǔn)備。
[0004] 例如：現(xiàn)有技術(shù)中存在的自適應(yīng)加權(quán)普內(nèi)插技術(shù)（即STRAIGHT分析技術(shù))，有效地將語音聲源以及聲道信息分離，得到聲道譜SP參數(shù)，基譜曲線R)參數(shù)以及非周期成分譜AP 參數(shù)。
[0005] 在語音參數(shù)化分析的基礎(chǔ)上，統(tǒng)計參數(shù)語音合成技術(shù)發(fā)展迅猛，逐漸取代了拼接語音合成技術(shù)，成為語音合成技術(shù)的主流。所謂統(tǒng)計參數(shù)語音合成技術(shù)是通過語音識別處理方法將大量的語音數(shù)據(jù)標(biāo)注后訓(xùn)練成模型，然后在進行語音合成時利用參數(shù)生成算法得到語音參數(shù)，最后通過線性預(yù)測過濾技術(shù)得到語音波形。
[0006] 其中，在統(tǒng)計參數(shù)語音合成技術(shù)中涉及到HMM (Hidden Markov Model,隱馬爾可夫）語音模型建立和LPC語音波形的形成。
[0007] 具體地，所述HMM語音模型建立的具體包括：
[0008] 第一，提取每一個音節(jié)的非周期成分譜。
[0009] 第二，將一幀內(nèi)的非周期成分譜按照設(shè)定的頻段進行劃分。
[0010] 例如，設(shè)定的頻段為5段，分別是0?1000MHz，1000?2000Mhz，2000?4000MHz， 4000 ?6000MHz,6000 ?8000MHz。
[0011] 第三，將得到的每一個頻段內(nèi)的非周期成分譜進行平均運算，得到每一個頻段的非周期成分頻帶代表值。
[0012] 最后，針對每一個音節(jié)的每一幀，得到5個非周期成分頻帶代表值，相對于對于每一音節(jié)的每一巾貞進行了巾貞內(nèi)建模。
[0013] 利用HMM語音模型對語音進行合成，將出現(xiàn)以下問題：
[0014] 1、HMM語音模型建立的語音模型的數(shù)據(jù)量比較大，不適合在嵌入式系統(tǒng)中使用。
[0015] HMM語音模型建立后，當(dāng)劃分頻段數(shù)量為N時，針對每一個音節(jié)的每一幀，將出現(xiàn)N 個非周期成分頻帶代表值對應(yīng)，也就是說，當(dāng)每一個音節(jié)包含Μ幀時，HMM語音模型中針對一個音節(jié)將出現(xiàn)M*N各非周期成分頻帶代表值，數(shù)據(jù)量太大，不適合嵌入式系統(tǒng)使用。
[0016] 2、現(xiàn)有的HMM語音模型在建立時，以一個音節(jié)的每一幀為單位確定非周期成分頻帶代表值，并沒有考慮幀與幀之間非周期成分譜之間的相關(guān)性，使得合成后的語音信息的非周期成分譜的連貫性較差，使得合成音的音質(zhì)不高。

【發(fā)明內(nèi)容】

[0017] 本發(fā)明實施例提供了一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備，用于解決現(xiàn)有技術(shù)中存在的HMM語音模型數(shù)據(jù)量大、且合成后的語音信息的非周期成分譜的連貫性差，導(dǎo)致合成音的音質(zhì)不高的問題。
[0018] -種非周期成分音節(jié)模型建立的方法，包括：
[0019] 分解語音數(shù)據(jù)庫中的原始語音波形文件，得到所述原始語音波形文件中每一個音節(jié)的非周期成分譜信息、基頻信息和聲道譜信息；
[0020] 根據(jù)預(yù)設(shè)的為音節(jié)的每一幀劃分的至少一個頻帶信息和音節(jié)的非周期成分譜信息，計算所述原始語音波形文件中每一個音節(jié)的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表值；
[0021] 針對所述原始語音波形文件中任意一個音節(jié)，依次執(zhí)行以下操作，直至得到所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線：
[0022] 選擇一個頻帶信息，查找在該頻帶信息上該音節(jié)對應(yīng)的每一幀的非周期成分代表值，并根據(jù)查找到的非周期成分代表值，利用離散余弦變換方法得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線；
[0023] 判斷該音節(jié)是否已得到劃分的每一個頻帶信息上的非周期成分譜擬合曲線，若是，則選擇下一個音節(jié)，繼續(xù)執(zhí)行得到該音節(jié)在劃分的每一個頻帶信息上非周期成分?jǐn)M合曲線的操作；否則，選擇下一個頻帶信息，繼續(xù)執(zhí)行得到該音節(jié)在選擇的下一個頻帶信息上非周期成分?jǐn)M合曲線的操作；
[0024] 在得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線后，建立原始語音波形文件的標(biāo)注文件與所述原始語音波形文件的每一個音節(jié)信息之間的對應(yīng)關(guān)系，并根據(jù)建立的對應(yīng)關(guān)系生成非周期成分音節(jié)模型，其中，所述每一個音節(jié)信息中包含了每一個音節(jié)的基頻信息、聲道譜信息以及在不同頻帶信息上的非周期成分譜擬合曲線。
[0025] 所述根據(jù)查找到的非周期成分代表值，利用離散余弦變換方法得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線，具體包括：
[0026] 利用查找到的非周期成分代表值，通過以下方式計算得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線：
[0027]

【權(quán)利要求】
1. 一種非周期成分音節(jié)模型建立的方法，其特征在于，包括：分解語音數(shù)據(jù)庫中的原始語音波形文件，得到所述原始語音波形文件中每一個音節(jié)的非周期成分譜信息、基頻信息和聲道譜信息；根據(jù)預(yù)設(shè)的為音節(jié)的每一幀劃分的至少一個頻帶信息和音節(jié)的非周期成分譜信息，計算所述原始語音波形文件中每一個音節(jié)的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表值；針對所述原始語音波形文件中任意一個音節(jié)，依次執(zhí)行以下操作，直至得到所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線：選擇一個頻帶信息，查找在該頻帶信息上該音節(jié)對應(yīng)的每一幀的非周期成分代表值，并根據(jù)查找到的非周期成分代表值，利用離散余弦變換方法得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線；判斷該音節(jié)是否已得到劃分的每一個頻帶信息上的非周期成分譜擬合曲線，若是，則選擇下一個音節(jié)，繼續(xù)執(zhí)行得到該音節(jié)在劃分的每一個頻帶信息上非周期成分?jǐn)M合曲線的操作；否則，選擇下一個頻帶信息，繼續(xù)執(zhí)行得到該音節(jié)在選擇的下一個頻帶信息上非周期成分?jǐn)M合曲線的操作；在得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線后，建立原始語音波形文件的標(biāo)注文件與所述原始語音波形文件的每一個音節(jié)信息之間的對應(yīng)關(guān)系，并根據(jù)建立的對應(yīng)關(guān)系生成非周期成分音節(jié)模型，其中，所述每一個音節(jié)信息中包含了每一個音節(jié)的基頻信息、聲道譜信息以及在不同頻帶信息上的非周期成分譜擬合曲線。
2. 如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)查找到的非周期成分代表值，利用離散余弦變換方法得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線，具體包括：利用查找到的非周期成分代表值，通過以下方式計算得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線： 2 π 1 = -l^bap(n)t cos[-?/(/ +-)]；丄 1 - 其中，（^為該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線，τ為該音節(jié)的幀數(shù)， bap (n) t為該音節(jié)的第t幀在選擇的頻帶信息上的非周期成分代表值，η為選擇的頻帶信息的頻段標(biāo)識，d和D為離散余弦變換的階數(shù)，取值范圍是1?D-l, t為音節(jié)的巾貞數(shù),取值為 0 ?T-1。
3. 如權(quán)利要求1或2所述的方法，其特征在于，在得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線后，根據(jù)建立的對應(yīng)關(guān)系生成非周期成分音節(jié)模型之前，所述方法還包括：利用聚類算法，將得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線進行聚類處理，確定所述原始語音波形文件中每一個音節(jié)的非周期成分聚類曲線組；所述建立原始語音波形文件標(biāo)識與所述原始語音波形文件的每一個音節(jié)信息之間的對應(yīng)關(guān)系，具體包括：建立原始語音波形文件的標(biāo)注文件、所述原始語音波形文件的每一個音節(jié)的非周期成分聚類曲線組、每一個音節(jié)的基頻信息以及每一個音節(jié)的聲道譜信息之間的對應(yīng)關(guān)系。
4. 一種基于非周期成分音節(jié)模型的語音合成方法，其特征在于，包括：利用文本分析設(shè)備將獲取的待語音合成的文本信息轉(zhuǎn)換成原始語音波形文件，并根據(jù) 轉(zhuǎn)換得到的原始語音波形文件得到該原始語音波形文件的標(biāo)注文件；根據(jù)非周期成分音節(jié)模型中建立的原始語音波形文件的標(biāo)注文件與原始語音波形文件的每一個音節(jié)信息之間的對應(yīng)關(guān)系，確定轉(zhuǎn)換得到的原始語音波形文件的標(biāo)注文件對應(yīng) 的每一個音節(jié)的非周期成分譜擬合曲線、基頻信息和聲道譜信息；根據(jù)確定的每一個音節(jié)的非周期成分譜擬合曲線，計算得到所述原始語音波形文件中每一個音節(jié)的每一幀在不同頻帶信息上的非周期成分代表值；利用所述每一個音節(jié)的每一幀在不同頻帶信息上的非周期成分代表值、每一個音節(jié)的基頻信息以及每一個音節(jié)的聲道譜信息執(zhí)行激勵操作，并合成語音。
5. 如權(quán)利要求4所述的方法，其特征在于，所述根據(jù)確定的每一個音節(jié)的非周期成分譜擬合曲線，計算得到所述原始語音波形文件中每一個音節(jié)的每一幀在不同頻帶信息上的非周期成分代表值，具體包括：利用確定的每一個音節(jié)的非周期成分譜擬合曲線通過以下方式計算得到所述原始語音波形文件中每一個音節(jié)的每一幀在一個頻帶信息上的非周期成分代表值： hap{n), = |c0 cos[^(/ +? ；其中，bap (n)t為一個音節(jié)的第t幀在頻段標(biāo)識為n的頻帶信息上的非周期成分代表值，cd為該音節(jié)在頻段標(biāo)識為η的頻帶信息的非周期成分譜擬合曲線，C(l為該音節(jié)在頻段標(biāo)識為η的頻帶信息上的非周期成分譜擬合曲線的因子，η為頻段標(biāo)識，d和D為離散余弦變換的階數(shù)，取值范圍是1?D-l，t為音節(jié)的幀數(shù)，取值為0?T-1。
6. -種非周期成分音節(jié)模型建立設(shè)備，其特征在于，所述設(shè)備包括：非周期成分代表值確定模塊，用于分解語音數(shù)據(jù)庫中的原始語音波形文件，得到所述原始語音波形文件中每一個音節(jié)的非周期成分譜信息、基頻信息和聲道譜信息；并根據(jù)預(yù) 設(shè)的為音節(jié)的每一幀劃分的至少一個頻帶信息和音節(jié)的非周期成分譜信息，計算所述原始語音波形文件中每一個音節(jié)的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表值；非周期成分譜擬合曲線生成模塊，用于針對所述原始語音波形文件中任意一個音節(jié)，依次執(zhí)行以下操作，直至得到所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線：選擇一個頻帶信息，查找在該頻帶信息上該音節(jié)對應(yīng)的每一幀的非周期成分代表值，并根據(jù)查找到的非周期成分代表值，利用離散余弦變換方法得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線；判斷該音節(jié)是否已得到劃分的每一個頻帶信息上的非周期成分譜擬合曲線，若是，則選擇下一個音節(jié)，繼續(xù)執(zhí)行得到該音節(jié)在劃分的每一個頻帶信息上非周期成分?jǐn)M合曲線的操作；否則，選擇下一個頻帶信息，繼續(xù)執(zhí)行得到該音節(jié)在選擇的下一個頻帶信息上非周期成分?jǐn)M合曲線的操作；非周期成分音節(jié)模型建立模塊，用于在得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線后，建立原始語音波形文件的標(biāo)注文件與所述原始語音波形文件的每一個音節(jié)信息之間的對應(yīng)關(guān)系，并根據(jù)建立的對應(yīng)關(guān)系生成非周期成分音節(jié)模型，其中，所述每一個音節(jié)信息中包含了每一個音節(jié)的基頻信息、聲道譜信息以及在不同頻帶信息上的非周期成分譜擬合曲線。
7. 如權(quán)利要求6所述的設(shè)備，其特征在于，所述非周期成分譜擬合曲線生成模塊，具體用于利用查找到的非周期成分代表值，通過以下方式計算得到該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線：心=⑷< cos[7rf('+ 令]; I t=Q 1 2 其中，（^為該音節(jié)在選擇的頻帶信息上的非周期成分譜擬合曲線，T為該音節(jié)的幀數(shù)， bap (n) t為該音節(jié)的第t幀在選擇的頻帶信息上的非周期成分代表值，η為選擇的頻帶信息的頻段標(biāo)識，d和D為離散余弦變換的階數(shù)，取值范圍是1?D-l, t為音節(jié)的巾貞數(shù),取值為 0 ?T-1。
8. 如權(quán)利要求6或7所述的設(shè)備，其特征在于，所述設(shè)備還包括：所述非周期成分聚類曲線組生成模塊，用于在得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線后，根據(jù)建立的對應(yīng)關(guān)系生成非周期成分音節(jié)模型之前，利用聚類算法，將得到的所述原始語音波形文件中每一個音節(jié)在劃分的每一個頻帶信息上的非周期成分譜擬合曲線進行聚類處理，確定所述原始語音波形文件中每一個音節(jié)的非周期成分聚類曲線組；所述非周期成分音節(jié)模型建立模塊，具體用于建立原始語音波形文件的標(biāo)注文件、所述原始語音波形文件的每一個音節(jié)的非周期成分聚類曲線組、每一個音節(jié)的基頻信息以及每一個音節(jié)的聲道譜信息之間的對應(yīng)關(guān)系。
9. 一種基于非周期成分音節(jié)模型的語音合成設(shè)備，其特征在于，所述設(shè)備包括：文件獲取模塊，用于利用文本分析設(shè)備將獲取的待語音合成的文本信息轉(zhuǎn)換成原始語音波形文件，并根據(jù)轉(zhuǎn)換得到的原始語音波形文件得到該原始語音波形文件的標(biāo)注文件；音節(jié)信息確定模塊，用于根據(jù)非周期成分音節(jié)模型中建立的原始語音波形文件的標(biāo)注文件與原始語音波形文件的每一個音節(jié)信息之間的對應(yīng)關(guān)系，確定轉(zhuǎn)換得到的原始語音波形文件的標(biāo)注文件對應(yīng)的每一個音節(jié)的非周期成分譜擬合曲線、基頻信息和聲道譜信息；非周期成分代表值確定模塊，用于根據(jù)確定的每一個音節(jié)的非周期成分譜擬合曲線，計算得到所述原始語音波形文件中每一個音節(jié)的每一幀在不同頻帶信息上的非周期成分代表值；語音合成模塊，用于利用所述每一個音節(jié)的每一幀在不同頻帶信息上的非周期成分代表值、每一個音節(jié)的基頻信息以及每一個音節(jié)的聲道譜信息執(zhí)行激勵操作，并合成語音。
10. 如權(quán)利要求9所述的設(shè)備，其特征在于，所述非周期成分代表值確定模塊，具體用于利用確定的每一個音節(jié)的非周期成分譜擬合曲線通過以下方式計算得到所述原始語音波形文件中每一個音節(jié)的每一幀在一個頻帶信息上的非周期成分代表值： J .七j· 露 ] hap(n)i = - c0 + 2^crf cos[-1/(/ + -)]； 2 '，. , / 2 其中，bap (n)t為一個音節(jié)的第t幀在頻段標(biāo)識為n的頻帶信息上的非周期成分代表值，cd為該音節(jié)在頻段標(biāo)識為η的頻帶信息的非周期成分譜擬合曲線，C(l為該音節(jié)在頻段標(biāo)識為η的頻帶信息上的非周期成分譜擬合曲線的因子，η為頻段標(biāo)識，d和D為離散余弦變換的階數(shù)，取值范圍是1?D-l，t為音節(jié)的幀數(shù)，取值為0?T-1。
【文檔編號】G10L13/02GK104282300SQ201310282732
【公開日】2015年1月14日申請日期:2013年7月5日優(yōu)先權(quán)日:2013年7月5日
【發(fā)明者】王朝民, 劉琨, 焦偉申請人:中國移動通信集團公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王朝民;劉琨;焦偉
技術(shù)所有人：中國移動通信集團公司
我是此專利的發(fā)明人

上一篇：鍵盤樂器和控制鍵盤樂器中的致動器的方法
上一篇：丟包掩蔽裝置和方法以及音頻處理系統(tǒng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

用戶生命周期模型相關(guān)技術(shù)

生命周期模型相關(guān)技術(shù)

用戶生命周期管理模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種非周期成分音節(jié)模型建立、及語音合成的方法和設(shè)備的制作方法