語(yǔ)音合成中預(yù)測(cè)基頻幀的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音合成領(lǐng)域,特指一種語(yǔ)音合成中預(yù)測(cè)基頻幀的方法及系統(tǒng)。
【背景技術(shù)】
[0002]語(yǔ)音合成是指將輸入的文本信息轉(zhuǎn)化為聲音的系統(tǒng),語(yǔ)音合成系統(tǒng)分為兩個(gè)模塊,前端處理模塊和后端模塊。在前端中對(duì)文本進(jìn)行分析,輸出帶有發(fā)音以及分詞、詞性等和韻律停頓相關(guān)的信息。后端模塊利用前端模塊的輸出信息和原始語(yǔ)音提出的特征,分別訓(xùn)練倒譜模型,基頻模型和時(shí)長(zhǎng)模型。
[0003]為了描述方便,含有基頻信息的語(yǔ)音特征幀稱之為基頻幀,不含基頻信息的語(yǔ)音特征幀稱之為非基頻幀。在合成時(shí),合成系統(tǒng)的后端模塊中需要對(duì)當(dāng)前語(yǔ)音特征幀(幀長(zhǎng)一般為5ms)是否是基頻幀做出預(yù)測(cè)?;l幀其預(yù)測(cè)的數(shù)值接近于1,非基頻幀其預(yù)測(cè)的數(shù)值接近于O?,F(xiàn)有的做法是采取固定的閾值判斷,典型的閾值為0.5,預(yù)測(cè)值高于閾值0.5,系統(tǒng)判斷為基頻幀,預(yù)測(cè)值低于閾值0.5,系統(tǒng)判斷為非基頻幀。
[0004]這種判斷方式,在兩個(gè)音素的邊界點(diǎn)處的準(zhǔn)確率較低,而將基頻幀誤判為非基頻幀會(huì)導(dǎo)致相應(yīng)的語(yǔ)音聽(tīng)起來(lái)不連續(xù)和沙啞,合成系統(tǒng)語(yǔ)音的自然度較差,效果不佳。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷,提供一種語(yǔ)音合成中預(yù)測(cè)基頻幀的方法及系統(tǒng),解決現(xiàn)有技術(shù)中基頻幀的判斷準(zhǔn)確率低,使得合成后的語(yǔ)音存在發(fā)音不連續(xù)、沙啞、和自然度較差的問(wèn)題。
[0006]實(shí)現(xiàn)上述目的的技術(shù)方案是:
[0007]本發(fā)明一種語(yǔ)音合成中預(yù)測(cè)基頻幀的方法,包括:
[0008]輸入待合成語(yǔ)音的文本信息;
[0009]將所述文本信息轉(zhuǎn)化為語(yǔ)音特征幀序列;
[0010]預(yù)測(cè)所述語(yǔ)音特征幀序列中的每一語(yǔ)音特征幀是否為基頻幀,以形成基頻預(yù)測(cè)結(jié)果;
[0011 ]將所述文本信息轉(zhuǎn)化為音素信息序列;
[0012]判斷所述音素信息序列中每一音素是否為含基頻信息音素,以形成輔助信息,每一音素對(duì)應(yīng)多個(gè)語(yǔ)音特征幀;以及
[0013]將所述音素信息序列與所述語(yǔ)音特征幀序列相對(duì)應(yīng),并根據(jù)所述輔助信息修正所述基頻預(yù)測(cè)結(jié)果以形成語(yǔ)音特征幀是否含有基頻信息的結(jié)果。
[0014]本發(fā)明從輸入的文本信息中提取音素信息,利用音素信息是否帶基頻作為輔助信息,對(duì)基頻預(yù)測(cè)結(jié)果進(jìn)行修正,實(shí)現(xiàn)提高基頻幀預(yù)測(cè)的準(zhǔn)確率,進(jìn)而提高合成后的語(yǔ)音的自然度,優(yōu)化聲音效果。
[0015]本發(fā)明語(yǔ)音合成中預(yù)測(cè)基頻幀的方法的進(jìn)一步改進(jìn)在于,預(yù)測(cè)所述語(yǔ)音特征幀序列中的每一語(yǔ)音特征幀是否為基頻幀,以形成基頻預(yù)測(cè)結(jié)果,包括:
[0016]計(jì)算每一語(yǔ)音特征幀是否為基頻幀的概率,形成對(duì)應(yīng)所述語(yǔ)音特征幀序列的概率序列;
[0017]設(shè)定預(yù)測(cè)閾值,將所述概率序列中高于所述預(yù)測(cè)閾值的概率所對(duì)應(yīng)的語(yǔ)音特征幀判斷為基頻幀,將所述概率序列中低于所述預(yù)測(cè)閾值的概率所對(duì)應(yīng)的語(yǔ)音特征幀判斷為非基頻幀,從而形成了對(duì)應(yīng)所述語(yǔ)音特征幀序列的所述基頻預(yù)測(cè)結(jié)果。
[0018]本發(fā)明語(yǔ)音合成中預(yù)測(cè)基頻幀的方法的進(jìn)一步改進(jìn)在于,判斷所述音素信息序列中每一音素是否為含基頻信息音素,以形成輔助信息,包括:
[0019]將語(yǔ)言中的所有音素以是否帶基頻進(jìn)行分類,形成含基頻信息音素集合和無(wú)基頻信息音素集合;
[0020]將所述音素信息序列中的每一音素與所述含基頻信息音素集合和無(wú)基頻信息音素集合進(jìn)行比對(duì),以得出所述音素是否為含基頻信息音素,進(jìn)而形成對(duì)應(yīng)所述音素信息序列的輔助信息。
[0021]本發(fā)明語(yǔ)音合成中預(yù)測(cè)基頻幀的方法的進(jìn)一步改進(jìn)在于,根據(jù)所述輔助信息修正所述基頻預(yù)測(cè)結(jié)果以形成基頻識(shí)別結(jié)果,包括:
[0022]獲取所述輔助信息中的所有含基頻信息音素;
[0023]獲取所有含基頻信息音素所對(duì)應(yīng)的語(yǔ)音特征幀,對(duì)所獲取的語(yǔ)音特征幀中為非基頻幀的語(yǔ)音特征幀進(jìn)行修正。
[0024]本發(fā)明語(yǔ)音合成中預(yù)測(cè)基頻幀的方法的進(jìn)一步改進(jìn)在于,獲取所有含基頻信息音素所對(duì)應(yīng)的語(yǔ)音特征幀,對(duì)所獲取的語(yǔ)音特征幀中為非基頻幀的語(yǔ)音特征幀進(jìn)行修正,包括:
[0025]對(duì)每一含基頻信息音素對(duì)應(yīng)的語(yǔ)音特征幀所形成的語(yǔ)音特征幀范圍進(jìn)行位置劃分,劃分為前部位置、中部位置、以及后部位置;
[0026]判斷當(dāng)前的語(yǔ)音特征幀在對(duì)應(yīng)的語(yǔ)音特征幀范圍內(nèi)的位置,若當(dāng)前的語(yǔ)音特征幀在所述中部位置,則對(duì)當(dāng)前的語(yǔ)音特征幀的基頻預(yù)測(cè)結(jié)果不進(jìn)行修正;
[0027]若當(dāng)前的語(yǔ)音特征幀在所述前部位置,且在音素信息序列中與當(dāng)前的語(yǔ)音特征幀所在的音素相鄰的前一音素為含基頻信息音素,則將當(dāng)前語(yǔ)音特征幀修正為基頻幀;
[0028]若當(dāng)前的語(yǔ)音特征幀在所述后部位置,且在音素信息序列中與當(dāng)前的語(yǔ)音特征幀所在的音素相鄰的后一音素為含基頻信息音素,則將當(dāng)前語(yǔ)音特征幀修正為基頻幀。
[0029]本發(fā)明還提供了一種語(yǔ)音合成中預(yù)測(cè)基頻幀的系統(tǒng),包括:
[0030]文本輸入模塊,用于輸入待合成語(yǔ)音的文本信息;
[0031]預(yù)測(cè)判斷模塊,與所述文本輸入模塊連接,用于將所述文本信息轉(zhuǎn)化為語(yǔ)音特征幀序列,并預(yù)測(cè)所述語(yǔ)音特征幀序列中的每一語(yǔ)音特征幀是否為基頻幀,以形成基頻預(yù)測(cè)結(jié)果;
[0032]音素判斷模塊,與所述文本輸入模塊連接,用于將所述文本信息轉(zhuǎn)化為音素信息序列,并判斷所述音素信息序列中每一音素是否為含基頻信息音素,以形成輔助信息;以及
[0033]基頻修正模塊,與所述預(yù)測(cè)判斷模塊和所述音素判斷模塊連接,用于將所述音素信息序列中的音素和所述語(yǔ)音特征幀序列中的語(yǔ)音特征幀相對(duì)應(yīng),并根據(jù)所述輔助信息修正所述基頻預(yù)測(cè)結(jié)果以形成語(yǔ)音特征幀是否含有基頻信息的結(jié)果,每一音素對(duì)應(yīng)多個(gè)語(yǔ)音特征幀。
[0034]本發(fā)明語(yǔ)音合成中預(yù)測(cè)基頻幀的系統(tǒng)的進(jìn)一步改進(jìn)在于,所述預(yù)測(cè)判斷模塊中包括有計(jì)算子模塊、存儲(chǔ)子模塊、以及判斷子模塊;
[0035]所述計(jì)算子模塊用于將所述文本信息轉(zhuǎn)化為語(yǔ)音特征幀序列,并計(jì)算每一語(yǔ)音特征幀是否為基頻幀的概率以形成概率序列;
[0036]所述存儲(chǔ)子模塊內(nèi)存儲(chǔ)有設(shè)定的預(yù)測(cè)閾值;
[0037]所述判斷子模塊與所述計(jì)算子模塊和所述存儲(chǔ)子模塊連接,用于比較對(duì)應(yīng)所述語(yǔ)音特征幀的所述概率與所述預(yù)測(cè)閾值的大小,當(dāng)所述語(yǔ)音特征幀對(duì)應(yīng)的所述概率大于所述預(yù)測(cè)閾值時(shí),判斷所述語(yǔ)音特征幀為基頻幀,當(dāng)所述語(yǔ)音特征幀對(duì)應(yīng)的概率小于所述預(yù)測(cè)閾值時(shí),判斷所述語(yǔ)音特征幀為非基頻幀,以形成所述基頻預(yù)測(cè)結(jié)果。
[0038]本發(fā)明語(yǔ)音合成中預(yù)測(cè)基頻幀的系統(tǒng)的進(jìn)一步改進(jìn)在于,所述音素判斷模塊中包括有含基頻信息音素集合表、無(wú)基頻信息音素集合表、以及音素處理子模塊;
[0039]所述含基頻信息音素集合表中存儲(chǔ)有語(yǔ)言中所有帶基頻的音素;
[0040]所述無(wú)基頻信息音素集合表中存儲(chǔ)有語(yǔ)言中所有不帶基頻的音素;
[0041]所述音素處理子模塊與所述含基頻信息音素集合表和所述無(wú)基頻信息音素集合表連接,用于將所述文本信息轉(zhuǎn)化為音素信息序列,并將所述音素信息序列中的每一音素與所述含基頻信息音素集合表和所述無(wú)基頻信息音素集合表進(jìn)行比對(duì),若所述音素信息序列中的音素在所述含基頻信息音素集合表中,則判斷為含基頻信息音素,若所述音素信息序列中的音素在所述無(wú)基頻信息音素集合表中,則判斷為無(wú)基頻信