本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,具體涉及一種基頻建模方法及系統(tǒng)。
背景技術(shù):
基頻特征作為語音合成技術(shù)的重要特征之一,既包括了短時語音段的韻律信息,也包括了長時語音段的韻律信息(超音段的韻律信息),如聲調(diào)信息。如何能夠更自然地預(yù)測出基頻特征是語音合成效果的重要目標(biāo)之一。
目前普遍采取的基頻建模方法為分層基頻建模方法,即從韻律的產(chǎn)生機(jī)理以及l(fā)og域基頻特征產(chǎn)生的可加性出發(fā)進(jìn)行建模,如式(1)和圖1所示:
F0all=F0state+F0phone+F0syllable+F0word (1)
對韻律層進(jìn)行層次劃分,從高到低依次劃分為:單詞層、音節(jié)層、音素層、狀態(tài)層,如圖1所示,其中每一層的基頻特征都對應(yīng)著不同的韻律變化?,F(xiàn)有方案從韻律的產(chǎn)生機(jī)理出發(fā),對受不同層次上下文屬性影響的韻律變化進(jìn)行有針對性的建模。
然而,現(xiàn)有的分層基頻建模方法并沒有考慮更高層韻律單元的韻律變化,如短語層的韻律變化,導(dǎo)致合成語音的整個句子起伏感不強(qiáng),聽起來沒有什么情感。此外,現(xiàn)有分層基頻建模方法的建模順序為自高向低逐層建模,并沒有考慮聲調(diào)語言的聲調(diào)信息對較高韻律層建模效果的影響,導(dǎo)致傳統(tǒng)的隱馬爾可夫模型(Hidden Markov Model,HMM)建模方法不能很好地捕捉較高韻律層的基頻特征,如單詞層信息、短語層信息,使得較高韻律層基頻特征建模效果大大下降。以上原因?qū)е卢F(xiàn)有基頻建模方法不能更自然地預(yù)測出基頻特征。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種基頻建模方法及系統(tǒng),以解決現(xiàn)有的基頻建模方法不能更自然地預(yù)測出基頻特征的問題。
為此,本發(fā)明實施例提供如下技術(shù)方案:
一種基頻建模方法,包括:
將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并確定各層韻律單元,所述短語層和所述單詞層為較高韻律層,所述音節(jié)層、所述音素層和所述狀態(tài)層為較低韻律層;
確定所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響;
根據(jù)所述韻律單元的基頻特征采用迭代方式從高到低逐層構(gòu)建基頻模型,并且對于較高韻律層,在構(gòu)建基頻模型時去除所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響。
優(yōu)選地,所述確定所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響包括:
將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各音節(jié)單元對應(yīng)的自然基頻值;
對所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對應(yīng)的自然基頻特征;
根據(jù)所述自然基頻特征獲得各音節(jié)單元的預(yù)測基頻值。
優(yōu)選地,所述對所述自然基頻值進(jìn)行參數(shù)化包括:
使用優(yōu)化后的DCT變換對所述自然基頻值進(jìn)行參數(shù)化,所述優(yōu)化后的DCT變換是指以生成基頻特征與自然基頻特征差的平方和作為目標(biāo)函數(shù)的,對DCT變換系數(shù)進(jìn)行估計;
所述根據(jù)所述自然基頻特征獲得各音節(jié)單元預(yù)測基頻值包括:
根據(jù)各音節(jié)單元對應(yīng)的上下文屬性信息和所述自然基頻特征,對各音節(jié)單元對應(yīng)的自然基頻特征進(jìn)行基頻建模;
根據(jù)所述基頻模型,將各音節(jié)單元所屬模型均值作為所述音節(jié)單元的預(yù)測基頻特征;
對所述預(yù)測基頻特征進(jìn)行DCT反變換,得到各音節(jié)單元的預(yù)測基頻值。
優(yōu)選地,構(gòu)建短語層基頻模型包括:
將所述音節(jié)單元對應(yīng)的自然基頻值減去所述音節(jié)單元的預(yù)測基頻值,得到用于去除音節(jié)層影響后的短語層建模的自然殘差基頻值;
將所述自然殘差基頻值以短語為單位進(jìn)行劃分,得到各短語單元對應(yīng)的自然基頻值;
對所述自然基頻值進(jìn)行參數(shù)化,得到各短語單元對應(yīng)的自然基頻特征;
利用所述各短語單元對應(yīng)的自然基頻特征構(gòu)建短語層基頻模型,得到各短語單元的預(yù)測基頻特征。
優(yōu)選地,構(gòu)建單詞層基頻模型包括:
將所述短語單元對應(yīng)的自然基頻值減去所述短語單元的預(yù)測基頻值,得到用于單詞層建模的自然殘差基頻值;
將所述自然殘差基頻值以單詞為單位進(jìn)行劃分,得到各單詞單元對應(yīng)的自然基頻值;
對所述自然基頻值進(jìn)行參數(shù)化,得到各單詞單元對應(yīng)的自然基頻特征;
利用所述各單詞單元對應(yīng)的自然基頻特征構(gòu)建單詞層基頻模型,得到各單詞單元的預(yù)測基頻特征。
優(yōu)選地,所述方法還包括:
使用DCT參數(shù)表征短語單元和單詞單元對應(yīng)的自然基頻特征。
優(yōu)選地,所述方法還包括:基于DNN的方法對各韻律層的基頻模型參數(shù)進(jìn)行優(yōu)化。
一種基頻建模系統(tǒng),包括:
韻律層劃分模塊,用于將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并確定各層韻律單元,所述短語層和所述單詞層為較高韻律層,所述音節(jié)層、所述音素層和所述狀態(tài)層為較低韻律層;
影響確定模塊,用于確定所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響;
建模模塊,用于根據(jù)所述韻律單元的基頻特征采用迭代方式從高到低逐層構(gòu)建基頻模型,并且對于較高韻律層,在構(gòu)建基頻模型時去除所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響,所述建模模塊包括:短語層建模模塊,單詞層建模模塊,低層建模模塊。
優(yōu)選地,所述影響確定模塊包括:
自然基頻劃分單元,用于將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各音節(jié)單元對應(yīng)的自然基頻值;
參數(shù)化單元,用于對所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對應(yīng)的 自然基頻特征;
預(yù)測基頻值獲取單元,用于根據(jù)所述自然基頻特征獲得各音節(jié)單元的預(yù)測基頻值。
優(yōu)選地,所述參數(shù)化單元,具體用于使用優(yōu)化后的DCT變換對所述自然基頻值進(jìn)行參數(shù)化,所述優(yōu)化后的DCT變換是指以生成基頻特征與自然基頻特征差的平方和作為目標(biāo)函數(shù)的,對DCT變換系數(shù)進(jìn)行估計;
所述預(yù)測基頻值獲取單元包括:
基頻建模子單元,用于根據(jù)各音節(jié)單元對應(yīng)的上下文屬性信息和所述自然基頻特征,對各音節(jié)單元對應(yīng)的自然基頻特征進(jìn)行基頻建模;
預(yù)測子單元,用于根據(jù)所述基頻模型,將各音節(jié)單元所屬模型均值作為所述音節(jié)單元的預(yù)測基頻特征;
DCT反變換子單元,用于對所述預(yù)測基頻特征進(jìn)行DCT反變換,得到各音節(jié)單元的預(yù)測基頻值。
優(yōu)選地,所述短語層建模模塊包括:
短語層獲取單元,用于將所述音節(jié)單元對應(yīng)的自然基頻值減去所述音節(jié)單元的預(yù)測基頻值,得到用于去除音節(jié)層影響后的短語層建模的自然殘差基頻值;
短語層劃分單元,用于將所述自然殘差基頻值以短語為單位進(jìn)行劃分,得到各短語單元對應(yīng)的自然基頻值;
短語層參數(shù)化單元,用于對所述自然基頻值進(jìn)行參數(shù)化,得到各短語單元對應(yīng)的自然基頻特征;
短語層預(yù)測單元,用于利用所述各短語單元對應(yīng)的自然基頻特征構(gòu)建短語層基頻模型,得到各短語單元的預(yù)測基頻特征。
優(yōu)選地,所述單詞層建模模塊包括:
單詞層獲取單元,用于將所述短語單元對應(yīng)的自然基頻值減去所述短語單元的預(yù)測基頻值,得到用于單詞層建模的自然殘差基頻值;
單詞層劃分單元,用于將所述自然殘差基頻值以單詞為單位進(jìn)行劃分,得到各單詞單元對應(yīng)的自然基頻值;
單詞層參數(shù)化單元,用于對所述自然基頻值進(jìn)行參數(shù)化,得到各單詞單元 對應(yīng)的自然基頻特征;
單詞層預(yù)測單元,用于利用所述各單詞單元對應(yīng)的自然基頻特征構(gòu)建單詞層基頻模型,得到各單詞單元的預(yù)測基頻特征。
優(yōu)選地,所述系統(tǒng)還包括:
模型參數(shù)優(yōu)化模塊,用于基于DNN的方法對各韻律層的基頻模型參數(shù)進(jìn)行優(yōu)化。
本發(fā)明實施例提供的基頻建模方法及系統(tǒng),通過將韻律層從高到低劃分為包括短語層的各韻律層,增加對短語層基頻特征的建模,從而可以增強(qiáng)合成語句的起伏感,并在對較高韻律層(短語層、單詞層)的基頻特征進(jìn)行建模之前,去除了聲調(diào)信息對較高韻律層基頻建模的影響,提高了較高韻律層基頻特征建模的效果。
進(jìn)一步地,對較高韻律層的基頻特征采用優(yōu)化后的DCT變換系數(shù)表征,可以更好地體現(xiàn)整個韻律單元基頻特征的變化,有效保證了建模后預(yù)測的基頻特征更接近自然基頻特征。
進(jìn)一步地,基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)對韻律層初始化后的基頻模型參數(shù)進(jìn)行優(yōu)化,由于DNN的非線性層級結(jié)構(gòu)可以更好地表征文本屬性組合,不容易出現(xiàn)過擬合,同時DNN在訓(xùn)練時不會對數(shù)據(jù)進(jìn)行劃分,可以更好地體現(xiàn)出整個數(shù)據(jù)空間的制約關(guān)系,有效防止數(shù)據(jù)稀疏問題。
附圖說明
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是現(xiàn)有的分層基頻建模原理示意圖;
圖2是本發(fā)明實施例基頻建模方法的流程圖;
圖3是本發(fā)明實施例基頻建模方法中基頻值參數(shù)化的流程圖;
圖4是本發(fā)明實施例中確定音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響的流程圖;
圖5是本發(fā)明實施例中采用迭代方式構(gòu)建基頻模型的流程圖;
圖6是本發(fā)明實施例基頻建模系統(tǒng)的一種結(jié)構(gòu)示意圖;
圖7是本發(fā)明實施例基頻建模系統(tǒng)中影響確定模塊的一種具體結(jié)構(gòu)示意圖;
圖8是本發(fā)明實施例基頻建模系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例的方案,下面結(jié)合附圖和實施方式對本發(fā)明實施例作進(jìn)一步的詳細(xì)說明。
本發(fā)明實施例的基頻建模方法將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,使得短語層的長時韻律變化能被很好的描述,進(jìn)而增強(qiáng)合成語音整個句子的起伏感;并且在基頻建模前,通過去除聲調(diào)信息對較高韻律層基頻建模的影響,有效防止了聲調(diào)信息對較高韻律層建模的影響,提高了合成語音的自然度。
如圖2所示,是本發(fā)明實施例基頻建模方法的一種流程圖,包括以下步驟:
步驟201,將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并確定各層韻律單元,所述短語層和所述單詞層為較高韻律層,所述音節(jié)層、所述音素層和所述狀態(tài)層為較低韻律層。
在本實施例中,將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并設(shè)計各層韻律單元的上下文屬性及其對應(yīng)的上下文屬性問題。
然后,對所述上下文屬性及其對應(yīng)的上下文屬性問題,通過采用傳統(tǒng)的HMM的方法對訓(xùn)練數(shù)據(jù)進(jìn)行音素時長的建模,得到每個音素的時長信息。
接著,利用每個音素的時長信息及上下文屬性進(jìn)行每層韻律單元的上下文屬性分析,進(jìn)而得到各層韻律單元的時長信息。
比如,對于漢語的音節(jié)單元,如果當(dāng)前上下文屬性為“當(dāng)前音素在音節(jié)中的相對位置”為1或0時,則可以認(rèn)為所述音素第一狀態(tài)對應(yīng)的初始時間點為所述音節(jié)單元的起始;當(dāng)遇到上下文屬性為“當(dāng)前音素在音節(jié)中的相對位置” 為3(設(shè)計上下文屬性時,規(guī)定漢語一個音節(jié)中最多含有三個音素)或0時,則所述音素最終狀態(tài)對應(yīng)的末端時間點為音節(jié)的結(jié)尾,上下文屬性分析結(jié)束后得到音節(jié)單元對應(yīng)的起始、結(jié)尾位置。其他韻律層單元的劃分與之類似。
步驟202,確定所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響。
為了去除聲調(diào)信息對較高韻律層的韻律變化的影響,首先對音節(jié)層進(jìn)行預(yù)處理。例如,可以將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各音節(jié)單元對應(yīng)的自然基頻值;然后對所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對應(yīng)的自然基頻特征;接著,根據(jù)所述自然基頻特征獲得各音節(jié)單元的預(yù)測基頻值。
在本發(fā)明實施例中,可以利用離散余弦變換(Discrete Cosine Transform,DCT)對所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對應(yīng)的自然基頻特征。然后,根據(jù)各音節(jié)單元對應(yīng)的上下文屬性信息和所述自然基頻特征,對各音節(jié)單元對應(yīng)的自然基頻特征進(jìn)行基頻建模;根據(jù)所述基頻模型,將各音節(jié)單元所屬模型均值作為所述音節(jié)單元的預(yù)測基頻特征;然后對所述預(yù)測基頻特征進(jìn)行DCT反變換,得到各音節(jié)單元的預(yù)測基頻值。
進(jìn)一步地,還可以對現(xiàn)有的DCT變換參數(shù)化方法進(jìn)行優(yōu)化,利用優(yōu)化后的DCT變換參數(shù)化方法對所述自然基頻值進(jìn)行參數(shù)化。所述優(yōu)化后的DCT變換參數(shù)化方法是以生成基頻特征與自然基頻特征差的平方和作為目標(biāo)函數(shù),對DCT變換系數(shù)進(jìn)行估計,進(jìn)一步保證建模后預(yù)測得到的基頻特征更接近自然基頻特征。下面對本發(fā)明實施例提出的優(yōu)化后的DCT變換參數(shù)化方法進(jìn)行詳細(xì)說明。
如圖3所示,是本發(fā)明實施例中利用優(yōu)化后的DCT變換對自然基頻值參數(shù)化的流程,包括以下步驟:
步驟301,設(shè)定目標(biāo)函數(shù)。
本實施例為了使建模后的預(yù)測基頻特征更接近于自然基頻特征,將目標(biāo)函數(shù)L設(shè)為自然基頻特征與生成基頻特征差的平方和,如式(1)所示:
其中,st為在第t幀的自然基頻值,為在第t幀的預(yù)測基頻值,V表示自然基頻特征與生成基頻特征同時為濁音的幀序數(shù),C表示DCT變換系數(shù)矢 量序列。
步驟302,將目標(biāo)函數(shù)進(jìn)行傳統(tǒng)DCT變換。
根據(jù)傳統(tǒng)的DCT變換,可以將式(1)中的表示為常值矢量D(t)和DCT系數(shù)矢量C的乘積,則式(1)可轉(zhuǎn)換為式(2):
其中,
N表示DCT變換的維數(shù)。
步驟303,最小化變換后的目標(biāo)函數(shù)。
估計式(2)中的DCT系數(shù)C,具體如式(4)所示:
步驟304,根據(jù)最小化后的目標(biāo)函數(shù)計算得到估計后的DCT系數(shù)C*,具體如式(5)所示:
C*=R-1q (5)
其中,
優(yōu)化后的DCT變換參數(shù)化方法估計出的DCT系數(shù)為閉合解,從數(shù)學(xué)上看,此閉合解對基頻特征的擬合效果可以達(dá)到最優(yōu),因此,可以保證建模后的DCT變換系數(shù)建模后預(yù)測得到的基頻特征相比于傳統(tǒng)方法更接近自然基頻特征。
基于上述優(yōu)化后的DCT變換參數(shù)化方法,本發(fā)明實施例中確定音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響的流程如圖4所示,包括以下步驟:
步驟401,將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各音節(jié)單元對應(yīng)的自然基頻值。
步驟402,使用優(yōu)化后的DCT變換對各音節(jié)單元對應(yīng)的自然基頻值進(jìn)行 參數(shù)化,得到DCT變換后的自然基頻特征。
步驟403,根據(jù)各音節(jié)單元對應(yīng)的上下文屬性信息和DCT變換后的自然基頻特征,對各音節(jié)單元對應(yīng)的自然基頻特征進(jìn)行決策樹聚類,得到聚類后的模型均值。
在實際應(yīng)用中,可以采用單高斯模型描述各個聚類中基頻特征的分布。
步驟404,將各音節(jié)單元所屬聚類模型均值作為所述音節(jié)單元預(yù)測基頻特征,通過DCT反變換對所述預(yù)測基頻特征進(jìn)行反變換后得到各音節(jié)單元預(yù)測基頻值。
步驟203,根據(jù)所述韻律單元的基頻特征采用迭代方式從高到低逐層構(gòu)建基頻模型,并且對于較高韻律層,在構(gòu)建基頻模型時去除所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響。
在實際應(yīng)用中,對于較高韻律層,可以采用幀級基頻值進(jìn)行建模,也可以采用DCT參數(shù)表征的基頻值進(jìn)行建模;而對于較低韻律層,可以直接采用幀級基頻值進(jìn)行建模。
如圖5所示,是本發(fā)明實施例中采用迭代方式構(gòu)建基頻模型的流程圖,包括以下步驟:
(1)短語層建模
首先,將音節(jié)層每個音節(jié)單元對應(yīng)的自然基頻值減去所述音節(jié)單元的預(yù)測基頻值,得到用于去除音節(jié)層影響后的短語層建模的自然殘差基頻值,然后執(zhí)行以下步驟:
步a)將用于短語層建模的自然殘差基頻值以短語為單位進(jìn)行劃分,得到對應(yīng)各短語單元的自然基頻值;
步b)利用DCT變換對短語單元的自然基頻值進(jìn)行參數(shù)化,得到變換后的各短語單元對應(yīng)的自然基頻特征DCT_F0phrase,優(yōu)選地,可以利用前面描述的優(yōu)化后的DCT變換對短語單元的自然基頻值進(jìn)行參數(shù)化;
步c)依據(jù)各短語單元對應(yīng)的上下文屬性信息和其對應(yīng)的自然基頻特征DCT_F0phrase,采用預(yù)先設(shè)定的所述短語單元對應(yīng)上下文屬性問題集對各短語單元基頻特征進(jìn)行決策樹聚類,可以采用單高斯模型描述各個聚類中基頻特征的分布,得到聚類后的模型均值;
步d)根據(jù)決策樹聚類結(jié)果,將各短語單元所屬聚類模型均值作為所述短語單元預(yù)測基頻特征(此處為DCT變換系數(shù)),通過DCT反變換對所述預(yù)測基頻特征進(jìn)行反變換后得到各短語單元預(yù)測基頻值。
(2)單詞層建模
首先,將短語層每個短語單元對應(yīng)的自然基頻值減去所述短語單元的預(yù)測基頻值,得到用于單詞層建模的自然殘差基頻值,然后執(zhí)行以下步驟:
步a)將用于單詞層建模的自然殘差基頻值以單詞為單位進(jìn)行劃分,得到對應(yīng)各單詞單元的自然基頻值;
步b)使用DCT變換對單詞單元的自然基頻值進(jìn)行參數(shù)化,得到變換后的各單詞單元對應(yīng)的自然基頻特征DCT_F0word,優(yōu)選地,可以利用前面描述的優(yōu)化后的DCT變換對單詞單元的自然基頻值進(jìn)行參數(shù)化;
步c)依據(jù)各單詞單元對應(yīng)的上下文屬性信息和其對應(yīng)的自然基頻特征DCT_F0word,采用預(yù)先設(shè)定的單詞單元對應(yīng)上下文屬性問題集對各單詞單元基頻特征進(jìn)行決策樹聚類,可以采用單高斯模型描述各個聚類中基頻特征的分布,得到聚類后的模型均值;
步d)依據(jù)決策樹聚類結(jié)果,將各單詞單元所屬聚類模型均值作為所述單詞單元預(yù)測基頻特征(此處為DCT變換系數(shù)),通過DCT反變換對所述預(yù)測基頻特征進(jìn)行反變換后得到各單詞單元預(yù)測基頻值;
(3)較低韻律層建模
首先,用自然基頻值減去短語層和單詞層預(yù)測基頻值,從而得到用于較低韻律層(音節(jié)層、音素層、狀態(tài)層)建模的自然殘差基頻值。
較低韻律層包含音節(jié)層、音素層、狀態(tài)層,不同于較高韻律層的參數(shù)化,較低韻律層可以直接采用幀級基頻值進(jìn)行建模,具體建模步驟如下:
步a)將用于較低韻律層建模的自然殘差基頻值,對較低韻律層韻律單元進(jìn)行HMM建模,得到聚類后的模型;
步b)根據(jù)聚類后的模型,使用最大似然參數(shù)生成算法對基頻特征進(jìn)行預(yù)測,從而得到較低韻律層的預(yù)測基頻值。
(4)用自然基頻值減去低層的預(yù)測基頻值,作為下一次迭代時短語層的建模對象,迭代進(jìn)行短語層、單詞層及低層的建模,從而可以優(yōu)化各層基頻參 數(shù),最小均方誤差最小時,迭代結(jié)束。根據(jù)經(jīng)驗一般迭代2次,最小均方誤差即可達(dá)到最小。
在上述建模過程中,各韻律層基頻建模是基于假設(shè)各韻律層基頻模型之間是獨立的,然而研究人員證明各韻律層模型參數(shù)是有聯(lián)系的,這就造成了基于此假設(shè)而構(gòu)建的基頻模型和實際情況有偏差。因此,本發(fā)明還可進(jìn)一步對上述構(gòu)建的各韻律層基頻模型參數(shù)進(jìn)行優(yōu)化。
具體地,可以采用現(xiàn)有的基于決策樹的方法對各韻律層基頻模型參數(shù)進(jìn)行優(yōu)化。另外,本發(fā)明實施例還提供一種采用基于基頻特征的最小生成誤差準(zhǔn)則訓(xùn)練方法,對各韻律層的基頻特征使用DNN模型進(jìn)行全局參數(shù)優(yōu)化,以解決上述偏差問題。
本實施例使用三個DNN網(wǎng)絡(luò)來分別優(yōu)化短語層、單詞層、較低韻律層的基頻模型參數(shù),具體過程如下:
首先,進(jìn)行數(shù)據(jù)準(zhǔn)備,包括:確定輸入/輸出數(shù)據(jù)形式、訓(xùn)練數(shù)據(jù)以及測試數(shù)據(jù)等,具體可以為:
確定輸入數(shù)據(jù)形式:分別將短語層、單詞層以及較低韻律層(音節(jié)層、音素層、狀態(tài)層)建模時對應(yīng)的上下文相關(guān)屬性問題的回答作為輸入特征,所述輸入特征共兩種形式:數(shù)字文本特征和二值文本特征。數(shù)字文本特征的特征值為多種數(shù)字形式,如7、5、4等,二值文本特征的特征值只有0或1兩種形式。
確定輸出數(shù)據(jù)形式:各韻律層單元初始化后的基頻特征作為DNN網(wǎng)絡(luò)的輸出特征,其中短語層及單詞層的基頻特征使用優(yōu)化后的DCT變換系數(shù)表示,低層基頻特征使用幀級基頻值表示。
然后,確定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),具體可以為:
短語層DNN網(wǎng)絡(luò)輸入節(jié)點個數(shù)為14維(5維的數(shù)字文本特征和9維的二值文本特征)。數(shù)字文本特征如對“當(dāng)前短語包含多少個單詞”問題的回答。二值文本特征如對“當(dāng)前短語在句子中的相對位置是否為1”問題的回答。輸出節(jié)點為5維DCT系數(shù),短語層DNN網(wǎng)絡(luò)共使用2個隱層,每個隱層節(jié)點為512個。
單詞層DNN網(wǎng)絡(luò)輸入節(jié)點個數(shù)為241維(21維的數(shù)字文本特征和220維 的二值文本特征),數(shù)字文本特征如對“當(dāng)前單詞包含多少個音節(jié)”問題的回答。二值文本特征如對“當(dāng)前單詞在短語中的相對位置是否為1”問題的回答。輸出節(jié)點為3維DCT系數(shù),單詞層DNN網(wǎng)絡(luò)共使用2個隱層,隱層節(jié)點為1024個。
較低韻律層DNN網(wǎng)絡(luò)輸入節(jié)點個數(shù)為570個(29維的數(shù)字文本特征和541維的二值文本特征),數(shù)字文本特征如對“當(dāng)前音節(jié)在單詞中的前向位置為多少”問題的回答,二值文本特征如對“當(dāng)前音素是否為‘g’”問題的回答。輸出為3維幀級基頻值(當(dāng)前幀的靜態(tài)、一階和二階動態(tài)特征),較低韻律層DNN網(wǎng)絡(luò)共使用了3個隱層,隱層節(jié)點為1024。
接著,進(jìn)行模型訓(xùn)練。使用自然基頻特征減去當(dāng)前層外的其余各韻律層預(yù)測基頻特征,并基于最小生成誤差準(zhǔn)則進(jìn)行當(dāng)前層模型參數(shù)更新,以使各分層基頻特征疊加后預(yù)測的基頻特征更接近自然基頻特征。
例如,對于短語層模型訓(xùn)練時,在DNN反向傳播的第i個周期內(nèi),首先使用自然基頻值減去反向傳播第i-1個周期內(nèi),單詞單元預(yù)測基頻特征DCT反變換后得到的基頻值以及較低韻律層DNN網(wǎng)絡(luò)預(yù)測得到的幀級基頻值,得到短語層自然殘差基頻值特征;接著,將所述短語層自然殘差基頻值進(jìn)行優(yōu)化后的DCT變換,得到變換后的DCT系數(shù),將所述DCT系數(shù)作為短語層DNN模型訓(xùn)練新的輸出特征;然后使用傳統(tǒng)DNN參數(shù)更新方法對短語層DNN模型參數(shù)進(jìn)行更新;接著,根據(jù)參數(shù)更新后的基頻模型,預(yù)測短語層基頻特征,并將其用于后續(xù)單詞層DNN模型參數(shù)更新及較低韻律層DNN模型參數(shù)更新。
經(jīng)過數(shù)次上述循環(huán),在基于最小生成誤差準(zhǔn)則的思想下,就可以對所有層DNN模型參數(shù)進(jìn)行統(tǒng)一更新,從而使各分層基頻特征疊加后預(yù)測的基頻特征更接近自然基頻特征。
本發(fā)明實施例提供的基頻建模方法,通過將韻律層從高到低劃分為包括短語層的各韻律層,增加對短語層基頻特征的建模,從而可以增強(qiáng)合成語句的起伏感,并在對較高韻律層(短語層、單詞層)的基頻特征進(jìn)行建模之前,去除了聲調(diào)信息對較高韻律層基頻建模的影響,提高了較高韻律層基頻特征建模的效果。
進(jìn)一步地,對較高韻律層的基頻特征采用優(yōu)化后的DCT變換系數(shù)表征,可以更好地體現(xiàn)整個韻律單元基頻特征的變化,有效保證了建模后預(yù)測的基頻特征更接近自然基頻特征。
進(jìn)一步地,基于DNN對韻律層初始化后的基頻模型參數(shù)進(jìn)行優(yōu)化,由于DNN的非線性層級結(jié)構(gòu)可以更好地表征文本屬性組合,不容易出現(xiàn)過擬合,同時DNN在訓(xùn)練時不會對數(shù)據(jù)進(jìn)行劃分,可以更好地體現(xiàn)出整個數(shù)據(jù)空間的制約關(guān)系,有效防止數(shù)據(jù)稀疏問題。
相應(yīng)地,本發(fā)明實施例還提供一種基頻建模系統(tǒng),如圖6所示,是本發(fā)明實施例基頻建模系統(tǒng)的結(jié)構(gòu)示意圖。
該系統(tǒng)包括:
韻律層劃分模塊601,用于將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并確定各層韻律單元,所述短語層和所述單詞層為較高韻律層,所述音節(jié)層、所述音素層和所述狀態(tài)層為較低韻律層;
影響確定模塊602,用于確定所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響;
建模模塊603,用于根據(jù)所述韻律單元的基頻特征采用迭代方式從高到低逐層構(gòu)建基頻模型,并且對于較高韻律層,在構(gòu)建基頻模型時去除所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響,所述建模模塊包括:短語層建模模塊631,單詞層建模模塊632,低層建模模塊633。
上述韻律層劃分模塊601具體可以根據(jù)各層韻律單元的上下文屬性及其對應(yīng)的上下文屬性問題,通過采用傳統(tǒng)的HMM的方法對訓(xùn)練數(shù)據(jù)進(jìn)行音素時長的建模,得到每個音素的時長信息,然后利用每個音素的時長信息及上下文屬性進(jìn)行每層韻律單元的上下文屬性分析,進(jìn)而得到各層韻律單元的時長信息,從而確定各層的韻律單元。
上述影響確定模塊602在確定所述音節(jié)層包含的聲調(diào)信息對較高韻律層基頻建模的影響時,主要是需要計算音節(jié)層各音節(jié)單元的預(yù)測基頻值。影響確定模塊602的一種具體結(jié)構(gòu)如圖7所示,包括以下各單元:
自然基頻劃分單元701,用于將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各 音節(jié)單元對應(yīng)的自然基頻值;
參數(shù)化單元702,用于對所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對應(yīng)的自然基頻特征;
預(yù)測基頻值獲取單元703,用于根據(jù)所述自然基頻特征獲得各音節(jié)單元的預(yù)測基頻值。
在實際應(yīng)用中,上述參數(shù)化單元702可以采用現(xiàn)有的DCT變換對所述自然基頻值進(jìn)行參數(shù)化,也可以采用前面提到的優(yōu)化后的DCT變換對所述自然基頻值進(jìn)行參數(shù)化,即以生成基頻特征與自然基頻特征差的平方和作為目標(biāo)函數(shù)的,對DCT變換系數(shù)進(jìn)行估計,具體過程可參見前面本發(fā)明方法實施例中的描述,在此不再贅述。
上述預(yù)測基頻值獲取單元703可以包括以下各子單元:
基頻建模子單元,用于根據(jù)各音節(jié)單元對應(yīng)的上下文屬性信息和所述自然基頻特征,對各音節(jié)單元對應(yīng)的自然基頻特征進(jìn)行基頻建模;
預(yù)測子單元,用于根據(jù)所述基頻模型,將各音節(jié)單元所屬模型均值作為所述音節(jié)單元的預(yù)測基頻特征;
DCT反變換子單元,用于對所述預(yù)測基頻特征進(jìn)行DCT反變換,得到各音節(jié)單元的預(yù)測基頻值。
本發(fā)明實施例提供的基頻建模系統(tǒng),通過將韻律層從高到低劃分為包括短語層的各韻律層,增加對短語層基頻特征的建模,從而可以增強(qiáng)合成語句的起伏感,并在對較高韻律層(短語層、單詞層)的基頻特征進(jìn)行建模之前,去除了聲調(diào)信息對較高韻律層基頻建模的影響,提高了較高韻律層基頻特征建模的效果。
上述短語層建模模塊631的一種具體結(jié)構(gòu)可以包括以下各單元:
短語層獲取單元,用于將所述音節(jié)單元對應(yīng)的自然基頻值減去所述音節(jié)單元的預(yù)測基頻值,得到用于去除音節(jié)層影響后的短語層建模的自然殘差基頻值;
短語層劃分單元,用于將所述自然殘差基頻值以短語為單位進(jìn)行劃分,得到各短語單元對應(yīng)的自然基頻值;
短語層參數(shù)化單元,用于對所述自然基頻值進(jìn)行參數(shù)化,得到各短語單元 對應(yīng)的自然基頻特征;
短語層預(yù)測單元,用于利用所述各短語單元對應(yīng)的自然基頻特征構(gòu)建短語層基頻模型,得到各短語單元的預(yù)測基頻特征。
利用上述各單元構(gòu)建短語層基頻模型的具體過程可參照前面本發(fā)明方法實施例中的描述,在此不再贅述。
上述單詞層建模模塊632的一種具體結(jié)構(gòu)可以包括以下各單元:
單詞層獲取單元,用于將所述短語單元對應(yīng)的自然基頻值減去所述短語單元的預(yù)測基頻值,得到用于單詞層建模的自然殘差基頻值;
單詞層劃分單元,用于將所述自然殘差基頻值以單詞為單位進(jìn)行劃分,得到各單詞單元對應(yīng)的自然基頻值;
單詞層參數(shù)化單元,用于對所述自然基頻值進(jìn)行參數(shù)化,得到各單詞單元對應(yīng)的自然基頻特征;
單詞層預(yù)測單元,用于利用所述各單詞單元對應(yīng)的自然基頻特征構(gòu)建單詞層基頻模型,得到各單詞單元的預(yù)測基頻特征。
利用上述各單元構(gòu)建單詞層基頻模型的具體過程可參照前面本發(fā)明方法實施例中的描述,在此不再贅述。
需要說明的是,在實際應(yīng)用中,上述短語層建模模塊631和單詞層建模模塊632,可以采用幀級基頻值進(jìn)行建模,也可以采用DCT參數(shù)表征的基頻值進(jìn)行建模。
而對于較低韻律層,低層建模模塊633可以直接采用幀級基頻值進(jìn)行建模.具體地,用自然基頻值減去短語層和單詞層預(yù)測基頻值,得到用于較低韻律層(音節(jié)層、音素層、狀態(tài)層)建模的自然殘差基頻值,然后利用該較低韻律層建模的自然殘差基頻值構(gòu)建較低韻律層的基頻模型。
本發(fā)明實施例的基頻建模系統(tǒng),對較高韻律層的基頻特征采用優(yōu)化后的DCT變換系數(shù)表征,可以更好地體現(xiàn)整個韻律單元基頻特征的變化,有效保證了建模后預(yù)測的基頻特征更接近自然基頻特征。
在建模過程中,各韻律層基頻建模是基于假設(shè)各韻律層基頻模型之間是獨立的,然而研究人員證明各韻律層模型參數(shù)是有聯(lián)系的,這就造成了基于此假設(shè)而構(gòu)建的基頻模型和實際情況有偏差。因此,如圖8所示,在本發(fā)明基頻建 模系統(tǒng)的另一實施例中,所述系統(tǒng)還可進(jìn)一步包括:
模型參數(shù)優(yōu)化模塊604,用于基于DNN的方法對各韻律層的基頻模型參數(shù)進(jìn)行優(yōu)化,具體優(yōu)化過程可參照前面本發(fā)明方法實施例中的描述,在此不再贅述。
本發(fā)明實施例的基頻建模系統(tǒng),進(jìn)一步基于DNN對韻律層初始化后的基頻模型參數(shù)進(jìn)行優(yōu)化,由于DNN的非線性層級結(jié)構(gòu)可以更好地表征文本屬性組合,不容易出現(xiàn)過擬合,同時DNN在訓(xùn)練時不會對數(shù)據(jù)進(jìn)行劃分,可以更好地體現(xiàn)出整個數(shù)據(jù)空間的制約關(guān)系,有效防止數(shù)據(jù)稀疏問題。
本說明書中的各個實施例均采用遞進(jìn)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
以上對本發(fā)明實施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體實施方式對本發(fā)明進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及系統(tǒng);同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。