專利名稱:音調(diào)模式生成方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于例如文本到語音的合成的語音合成方法和裝置,具體地,涉及一種對合成語音的逼真度(naturalness)有很大影響的音調(diào)模式(pitch pattern)生成方法及其裝置。
背景技術(shù):
近年來,用于從任意句子人工地生成語音信號的文本到語音的合成系統(tǒng)取得了發(fā)展。一般而言,文本到語音的合成系統(tǒng)包括三個模塊,即語言處理部分、韻律(prosody)生成部分和語音信號生成部分。在這些模塊中,韻律生成部分的性能關(guān)系到合成語音的逼真度,并且特別地,作為話音高度(音調(diào))的變化模式的音調(diào)模式,對合成語音的逼真度有很大影響。在常規(guī)的文本到語音的合成的音調(diào)模式生成方法中,由于音調(diào)模式是通過利用相對簡單的模型而生成的,所以聲調(diào)不自然,并且生成了機(jī)械的合成語音。
為解決這個問題,已提出了這樣的方法,在其中按照原樣使用了大量從自然語音提取的音調(diào)模式(例如,參見日本申請2002-297175)。這使得從自然語音提取的音調(diào)模式被存儲在音調(diào)模式數(shù)據(jù)庫中,并且根據(jù)對應(yīng)于輸入文本的屬性信息,從所述音調(diào)模式數(shù)據(jù)庫中選擇一個最佳的音調(diào)模式,從而生成音調(diào)模式。
此外,還考慮了這樣的方法,在其中分別地控制音調(diào)模式的模式形狀和指示整體音調(diào)模式的高度的偏移(例如,參見ONKOURON 1-P-10,2001.10)。這使得與音調(diào)模式的模式形狀相分離地,通過利用諸如離線生成的數(shù)量化理論I類(quantification method type I)的統(tǒng)計(jì)模型,來估計(jì)所述指示音調(diào)模式的高度的偏移值,并且基于這個估計(jì)的偏移值來確定所述音調(diào)模式的高度。
在其中按照原樣使用了從音調(diào)模式數(shù)據(jù)庫中選擇的音調(diào)模式的方法中,由于音調(diào)模式的模式形狀和指示整體模式的高度的偏移不彼此分離,所以有可能使所述選擇被局限于僅這樣的音調(diào)模式,使得盡管模式形狀合適而整體高度不自然,或者相反,盡管整體高度合適而模式形狀不自然,并且存在這樣的問題,即由于音調(diào)模式中的變化不足,降低了合成語音的逼真度。
另一方面,在其中從模式形狀分離地通過利用統(tǒng)計(jì)模型來估計(jì)偏移值的方法中,由于用于偏移值和音調(diào)模式的估計(jì)標(biāo)準(zhǔn)(評價標(biāo)準(zhǔn))互不相同,所以存在這樣的問題,即由于在所述估計(jì)的偏移值和所述模式形狀之間不匹配而產(chǎn)生不自然的音調(diào)模式。此外,由于利用了諸如預(yù)先離線生成的數(shù)量化理論I類的統(tǒng)計(jì)模型,與在線選擇的模式形狀相比,其很難估計(jì)對應(yīng)于各種輸入文本的變化的偏移值,并且作為結(jié)果,存在這樣的可能性,即生成的音調(diào)模式的逼真度變得不足。
這樣,鑒于上述,本發(fā)明的目的是提供一種音調(diào)模式生成方法和裝置,其能通過生成對模式形狀有高親和性(affinity)的偏移值,來生成具有高逼真度的穩(wěn)定的音調(diào)模式。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的實(shí)施例,一種音調(diào)模式生成方法,其改變用于語音合成的韻律控制單元的原始的音調(diào)模式,并且利用語音合成產(chǎn)生新的音調(diào)模式,所述方法包括以下操作存儲指示從自然語音提取的各韻律控制單元的音調(diào)模式的高度的偏移值,存儲對應(yīng)于所述偏移值的第一屬性信息到存儲器中,通過分析將被進(jìn)行的語音合成所針對的文本獲得第二屬性信息,基于所述第一屬性信息和所述第二屬性信息從所述存儲器中為每一個所述韻律控制單元選擇多個偏移值,獲得所述多個偏移值的統(tǒng)計(jì)數(shù)據(jù)(statisticalprofile),以及基于所述統(tǒng)計(jì)數(shù)據(jù)改變作為每一個所述韻律控制單元的原型的音調(diào)模式。
進(jìn)一步,根據(jù)本發(fā)明的實(shí)施例,一種音調(diào)模式生成方法,包括將從自然語音提取的第一音調(diào)模式和已被制成以對應(yīng)于所述第一音調(diào)模式的第一屬性信息存儲到存儲器中,通過分析將被進(jìn)行的語音合成所針對的文本獲得第二屬性信息,基于所述第一屬性信息和所述第二屬性信息從所述存儲器中為每一個所述韻律控制單元選擇多個第一音調(diào)模式,基于所述多個第一音調(diào)模式獲得指示所述第一音調(diào)模式的高度的偏移值的統(tǒng)計(jì)數(shù)據(jù),基于所述偏移值的統(tǒng)計(jì)數(shù)據(jù)生成所述韻律控制單元的第二音調(diào)模式,以及通過連接所述韻律控制單元的所述第二音調(diào)模式來生成對應(yīng)于所述文本的音調(diào)模式。
圖1為框圖,示出了根據(jù)本發(fā)明實(shí)施例的文本到語音的合成系統(tǒng)的結(jié)構(gòu);圖2為框圖,示出了音調(diào)模式生成部分的結(jié)構(gòu)實(shí)例;圖3為視圖,示出了存儲在音調(diào)模式存儲部分中的音調(diào)模式的存儲實(shí)例;圖4為流程圖,示出了在音調(diào)模式生成部分中的處理過程的實(shí)例;圖5為流程圖,示出了模式選擇部分的處理過程的實(shí)例;圖6為流程圖,示出了模式形狀形成部分的處理過程的實(shí)例;圖7A和7B為視圖,用于解釋統(tǒng)一多個音調(diào)模式的長度的處理方法;圖8為視圖,用于解釋通過融合多個音調(diào)模式來生成新的音調(diào)模式的處理方法;圖9為視圖,用于解釋在時間軸方向上的音調(diào)模式的擴(kuò)展或收縮處理的方法;圖10為流程圖,示出了偏移控制部分的處理過程的實(shí)例;圖11為視圖,用于解釋偏移控制部分的處理方法;圖12為框圖,示出了根據(jù)變型例11的音調(diào)模式生成部分的結(jié)構(gòu)實(shí)例;
圖13為框圖,示出了根據(jù)變型例11的另一實(shí)例的音調(diào)模式生成部分的結(jié)構(gòu)實(shí)例。
具體實(shí)施例方式
以下,將參考圖1到11詳細(xì)描述本發(fā)明的實(shí)施例。
(1)術(shù)語解釋首先,描述在本實(shí)施例中使用的術(shù)語。
偏移值表示指示對應(yīng)于韻律控制單元的整體音調(diào)模式的高度的信息,所述韻律控制單元作為用于控制語音的韻律特征的單元,并且所述信息例如所述模式中的音調(diào)的平均值、中心值、最大/最小值、在前或在后模式的變化量。
韻律控制單元是用于控制對應(yīng)于輸入文本的語音的韻律特征的單元,包括例如,半音素、音素、音節(jié)、語素、單字、重音短語(accent phrase)、呼吸群(breath group),等等,并且可將這些混合在一起,從而使其長度可變。
語言屬性信息是能夠通過進(jìn)行諸如語素分析或語法分析的語言分析處理,從輸入文本提取的信息,并且所述信息例如,音素符號線(phonemic symbol line)、部分語音、重音類型、修改目的(modificationdestination)、停頓、句中位置,等等。
偏移值的統(tǒng)計(jì)量是從多個選擇的偏移值計(jì)算的統(tǒng)計(jì)量,例如,平均值、中心值、加權(quán)和(加權(quán)相加值)、方差值、偏差值,等等。
模式屬性信息是有關(guān)音調(diào)模式屬性的集合,包括例如重音類型、音節(jié)數(shù)量、句中位置、重音音素種類、在前重音類型、后續(xù)重音類型、在前邊界條件、后續(xù)邊界條件,等等。
(2)文本到語音的合成系統(tǒng)的結(jié)構(gòu)圖1示出根據(jù)本發(fā)明實(shí)施例的文本到語音的合成系統(tǒng)的結(jié)構(gòu)實(shí)例,并且粗略地包括三個模塊,即,語言處理部分20、韻律生成部分21和語音信號生成部分22。
首先,在語言處理部分20中,對輸入文本201進(jìn)行諸如語素分析或語法分析的語言處理,并且輸出諸如音素符號線、重音類型、部分語音、句中位置等的語言屬性信息100。
接下來,在韻律生成部分21中,生成指示對應(yīng)于輸入文本201的語音的韻律特征的信息,即,例如,音素持續(xù)時間(phonetic duration)、指示隨著時間的經(jīng)過的基頻(音調(diào))的變化的模式等。韻律生成部分21包括音素持續(xù)時間生成部分23和音調(diào)模式生成部分1。音素持續(xù)時間生成部分23參考語言屬性信息100,生成每一個音素的音素持續(xù)時間111,并將其輸出。音調(diào)模式生成部分1接收語言屬性信息100和音素持續(xù)時間111,并且輸出作為話音高度(height of voice)的變化模式的音調(diào)模式121。
最后,語音信號生成部分22基于在韻律生成部分21中生成的韻律信息,生成對應(yīng)于輸入文本201的合成語音,并且將其合成為語音信號202。
(3)音調(diào)模式生成部分1的結(jié)構(gòu)這個實(shí)施例的特征在于音調(diào)模式生成部分1的結(jié)構(gòu)及其處理操作,隨后將對其進(jìn)行描述。附帶地,在此,將進(jìn)行這樣的描述,其中韻律控制單元是重音短語的情況被用作為一個例子。
圖2示出了圖1的音調(diào)模式生成部分1的結(jié)構(gòu)實(shí)例,并且在圖2中,音調(diào)模式生成部分包括模式選擇部分10,模式形狀生成部分11,偏移控制部分12,模式連接部分13和音調(diào)模式存儲部分14。
(3-1)音調(diào)模式存儲部分14在音調(diào)模式存儲部分14中,存儲了從自然語音提取的大量的用于每一重音短語的音調(diào)模式,連同對應(yīng)于每個音調(diào)模式的模式屬性信息。
圖3是視圖,示出了存儲在音調(diào)模式存儲部分14中的信息的實(shí)例。
音調(diào)模式是表示對應(yīng)于所述重音短語的音調(diào)(基頻)的時間變化的音調(diào)系列(pitch series),或者是表示其特征的參數(shù)系列。盡管在清音部分中不存在音調(diào),仍希望通過例如插入濁音部分的音調(diào)的值,來形成連續(xù)的系列。
附帶地,從自然語音提取的音調(diào)模式可被存儲為量化的或近似的信息,例如利用預(yù)先生成的碼本通過向量量化而獲得的信息。
(3-2)模式選擇部分10模式選擇部分10基于語言屬性信息100和音素持續(xù)時間111,從存儲在音調(diào)模式存儲部分14的音調(diào)模式中,為每一個重音短語選擇N個音調(diào)模式101和M個音調(diào)模式103(M≥N>1)。
(3-3)模式形狀生成部分11模式形狀生成部分11通過融合N個音調(diào)模式101來生成融合的音調(diào)模式,并且進(jìn)一步依照音素持續(xù)時間111,在時間軸方向上對所述融合的音調(diào)模式進(jìn)行擴(kuò)展或收縮,并生成音調(diào)模式102,所述N個音調(diào)模式101是由模式選擇部分10基于語言屬性信息100選擇的。
在此,所述音調(diào)模式的融合是指依照某些規(guī)則從多個音調(diào)模式生成新的音調(diào)模式的操作,并且該操作由例如多個音調(diào)模式的加權(quán)相加處理來實(shí)現(xiàn)。
(3-4)偏移控制部分12偏移控制部分12從由模式選擇部分10選擇的M個音調(diào)模式103計(jì)算偏移值的統(tǒng)計(jì)量,并且依照所述統(tǒng)計(jì)量,在頻率軸上平移音調(diào)模式102,并且輸出音調(diào)模式104。
(3-5)模式連接部分13模式連接部分13連接為每一個重音短語生成的音調(diào)模式104,進(jìn)行平滑處理以防止連接邊界部分出現(xiàn)的不連續(xù),并且輸出句子音調(diào)模式121。
(4)音調(diào)模式生成部分1的處理接下來,將參考圖4的流程圖詳細(xì)描述音調(diào)模式生成部分1的各個處理,圖4示出了音調(diào)模式生成部分1中的處理流程。
(4-1)模式選擇首先,在步驟S41,基于語言屬性信息100和音素持續(xù)時間111,模式選擇部分10從存儲在音調(diào)模式存儲部分14的音調(diào)模式中為每一個重音短語選擇N個音調(diào)模式101和M個音調(diào)模式103。
為每一個重音短語選擇的N個音調(diào)模式101和M個音調(diào)模式103是這樣的音調(diào)模式,在其中,模式屬性信息與對應(yīng)于所述重音短語的語言屬性信息100相一致或相似。這可以用例如這樣的方式來實(shí)現(xiàn),即,從目標(biāo)重音短語的語言屬性信息100和每一個模式屬性信息,來估計(jì)通過量化每一個音調(diào)模式到目標(biāo)音調(diào)變化的差異度而獲得的代價(cost),選擇代價盡量小的音調(diào)模式。在此,作為例子,從其中模式屬性信息與所述目標(biāo)重音短語的重音類型和音節(jié)數(shù)目相一致的音調(diào)模式,選擇出M和N個具有小代價的音調(diào)模式。
(4-1-1)代價估計(jì)通過計(jì)算例如類似于常規(guī)語音合成裝置中的那種代價函數(shù),來執(zhí)行代價估計(jì)。也就是說,例如,為音調(diào)模式形狀或偏移進(jìn)行變化的每個因素,或者為當(dāng)音調(diào)模式被變形/連接時產(chǎn)生的失真的每個因素,定義子代價函數(shù)Cl(ui,ui-1,ti)(l=1到L,L表示子代價函數(shù)的數(shù)目),并且將它們的加權(quán)和定義為重音短語代價函數(shù)。
C(ui,ui-1,ti)=Σi=lLwiCi(ui,ui-1,ti)...(1)]]>其中,ti表示當(dāng)對應(yīng)于輸入文本和語言屬性信息的目標(biāo)音調(diào)模式是t=(t1,…,tl)時,對應(yīng)于第i個重音短語的部分的音調(diào)模式的目標(biāo)語言屬性信息,并且ui表示從存儲在音調(diào)模式存儲部分14的音調(diào)模式選擇的一個音調(diào)模式的模式屬性信息。此外,wl表示每一個子代價函數(shù)的權(quán)重。
所述子代價函數(shù)用于計(jì)算在使用存儲在音調(diào)模式存儲部分14中的音調(diào)模式的情況下用于估計(jì)對目標(biāo)音調(diào)模式的差異度的代價。為計(jì)算所述代價,在此,作為特定例子,設(shè)置兩類(L=2)子代價,即目標(biāo)代價和連接代價,其中目標(biāo)代價用于估計(jì)由通過使用音調(diào)模式而產(chǎn)生的對目標(biāo)音調(diào)變化的差異度,連接代價用于估計(jì)當(dāng)所述重音短語的音調(diào)模式被連接到另一個重音短語的音調(diào)模式時產(chǎn)生的失真度。
作為目標(biāo)代價的例子,有關(guān)語言屬性信息和模式屬性信息的句中位置的子代價函數(shù)可被定義為如下的表達(dá)式。
C1(ui,ui-1,ti)=δ(f(ui),∫(ti)) (2)
其中,f表示這樣的函數(shù),其用以從存儲在音調(diào)模式存儲部分14中的音調(diào)模式的模式屬性信息或所述目標(biāo)語言屬性信息提取有關(guān)句中位置的信息,并且δ表示這樣的函數(shù),其用以在兩條信息相互一致的情況下輸出0,在其它情況下輸出1。
此外,作為連接代價的例子,有關(guān)在連接邊界的音調(diào)的差別(差異)的子代價函數(shù)被定義為如下表達(dá)式。
C2(ui,ui-1,ti)={g(ui)-g(ui-1)}2(3)其中,g表示這樣的函數(shù),其用以從模式屬性信息中提取連接邊界的音調(diào)。
從表達(dá)式(1)計(jì)算輸入文本的各個重音短語的重音短語代價,通過相加關(guān)于所有重音短語的重音短語代價的所得結(jié)果的被稱為代價,并且,用于計(jì)算所述代價的代價函數(shù)被定義為如下表達(dá)式。
Cost=Σi=1lC(ui,ui-1,ti)...(4)]]>利用表達(dá)式(1)到(4)所指示的代價函數(shù),經(jīng)過兩個階段從音調(diào)模式存儲部分14選擇用于每一個重音短語的多個音調(diào)模式。
(4-1-2)經(jīng)過兩個階段的選擇處理圖5是流程圖,用于解釋通過兩個階段的選擇處理過程的實(shí)例。
首先,作為第一階段的音調(diào)模式選擇,在步驟S51,從音調(diào)模式存儲部分14獲得由表達(dá)式(4)計(jì)算的代價值最小的一系列音調(diào)模式。代價最小的音調(diào)模式的組合被稱為最佳音調(diào)模式系列。附帶地,可以利用動態(tài)規(guī)劃來有效地進(jìn)行對最佳音調(diào)模式系列的搜索。
接下來,前進(jìn)到步驟S52,并且在第二階段音調(diào)模式選擇,通過利用所述最佳音調(diào)模式系列為每一個重音短語選擇多個音調(diào)模式。在此,假設(shè)在輸入文本中的重音短語的數(shù)目是I,并且為每一個重音短語選擇了用于計(jì)算偏移值的統(tǒng)計(jì)量的M個音調(diào)模式103,和用于生成融合的音調(diào)模式的N個音調(diào)模式101,下面將描述步驟S52的細(xì)節(jié)。
從步驟S521到S523,將所述I個重音短語的一個作為目標(biāo)重音短語。重復(fù)從步驟S521到S523的處理I次,并且進(jìn)行處理使得I個重音短語的每一個均成為目標(biāo)重音短語一次。首先,在步驟S521,對于不是目標(biāo)重音短語的重音短語,為其每一個固定所述最佳音調(diào)模式系列的音調(diào)模式。在此狀態(tài)下,關(guān)于所述目標(biāo)重音短語,根據(jù)表達(dá)式(4)的代價值,將存儲在音調(diào)模式存儲部分14中的音調(diào)模式排序。在此,進(jìn)行排序使得,例如,其代價值最低的音調(diào)模式具有高順位。接下來,在步驟S522,選擇順位最高的M個音調(diào)模式,用于計(jì)算偏移值的統(tǒng)計(jì)量,并且進(jìn)一步,在步驟S523,選擇順位最高的N(N≤M)個音調(diào)模式,用于生成融合的音調(diào)模式。
通過上述過程,關(guān)于每一個重音短語,從音調(diào)模式存儲部分14選出了M個音調(diào)模式103和N個音調(diào)模式101,并且接下來,前進(jìn)到步驟S42。
(4-2)模式形狀生成在步驟S42,模式形狀生成部分11基于語言屬性信息100融合由模式選擇部分10選擇的N個音調(diào)模式101,并生成融合的音調(diào)模式,并且進(jìn)一步根據(jù)音素持續(xù)時間111在時間軸方向上對所述融合的音調(diào)模式進(jìn)行擴(kuò)展或收縮,并生成新的音調(diào)模式102。
在此,將參考圖6的流程圖描述在這樣的情況下的處理過程的實(shí)例,即關(guān)于多個重音短語中的一個重音短語,對由模式選擇部分10選擇的N個音調(diào)模式進(jìn)行融合,并在時間軸方向上進(jìn)行擴(kuò)展或收縮,以生成一個新的音調(diào)模式102。
首先,在步驟S61,通過擴(kuò)展音節(jié)中的模式,使其與該N個音調(diào)模式中的最長的一致,來統(tǒng)一所述N個音調(diào)模式的各音節(jié)的長度。圖7A和7B示出了這樣的狀態(tài),在其中從重音短語的N(例如,3)個音調(diào)模式p1到p3(見圖7A)的每一個,生成了其中各個音節(jié)的模式長度被統(tǒng)一了的音調(diào)模式p1′到p3′(見圖7B)。在圖7A和7B的實(shí)例中,通過對指示一個音節(jié)的數(shù)據(jù)進(jìn)行線性內(nèi)插來實(shí)現(xiàn)音節(jié)中的模式擴(kuò)展(見圖7B中的雙環(huán)標(biāo)記部分)。
接下來,在步驟S62,通過對長度統(tǒng)一的N個音調(diào)模式進(jìn)行加權(quán)相加,來生成融合的音調(diào)模式。可以根據(jù),例如,對應(yīng)于重音短語的語言屬性信息100與每一個音調(diào)模式的模式屬性信息之間的相似性,來設(shè)置權(quán)重。在此,當(dāng)考慮利用由模式選擇部分10計(jì)算的每一個音調(diào)模式pi的代價Ci的倒數(shù),對被估計(jì)為更適合于目標(biāo)音調(diào)變化的音調(diào)模式,即小代價的模式,給出更大的權(quán)重時,可以由以下表達(dá)式計(jì)算對每一個音調(diào)模式pi的權(quán)重wi。
wi=1Ci×Σj=1N1Cj...(5)]]>通過將N個音調(diào)模式的每一個與權(quán)重相乘并相加,生成了融合的音調(diào)模式。圖8示出了這樣的狀態(tài),在其中,通過加權(quán)相加重音短語的N(例如,3)個長度統(tǒng)一的音調(diào)模式,來生成融合的音調(diào)模式。
接下來,在步驟S63,依照音素持續(xù)時間111在時間軸方向上對融合的音調(diào)模式進(jìn)行擴(kuò)展或收縮,以生成新的音調(diào)模式102。圖9示出了這樣的狀態(tài),在其中,依照音素持續(xù)時間111在時間軸方向上對所述融合的音調(diào)模式的各音節(jié)的長度進(jìn)行擴(kuò)展或收縮,并生成音調(diào)模式102。
如上所述,關(guān)于與輸入文本對應(yīng)的多個重音短語的每一個,融合了為重音短語選擇的N個音調(diào)模式,并且進(jìn)行了在時間軸方向上的擴(kuò)展或收縮,以生成新的音調(diào)模式102,并且接下來,前進(jìn)到步驟S43。
(4-3)偏移控制在步驟S43,偏移控制部分13從由模式選擇部分10選擇的M個音調(diào)模式103計(jì)算偏移值的統(tǒng)計(jì)量,依照所述偏移值的統(tǒng)計(jì)量在頻率軸上平移音調(diào)模式102,并且生成音調(diào)模式104。
在此,作為例子,將參考圖10的流程圖描述在這樣的情況下的處理過程,即關(guān)于多個重音短語的一個重音短語,依照從由模式選擇部分10選擇的M個音調(diào)模式103計(jì)算的偏移值的平均值在頻率軸上平移音調(diào)模式102,以生成音調(diào)模式104。
首先,在步驟S101,得到M個選出的音調(diào)模式的平均偏移值。各個音調(diào)模式的平均偏移值Oi由Oi=1TiΣi=1Tipi(t)...(6)]]>得到,并且所得的各個音調(diào)模式的平均偏移值Oi(1≤i≤M)的平均值Oave由Oave=1MΣi=1MOi...(7)]]>得到,并且得到M個音調(diào)模式的平均偏移值。在此,pi(n)表示第i個音調(diào)模式的對數(shù)基頻,Ti表示其采樣數(shù)目。
接下來,在步驟S102,對音調(diào)模式進(jìn)行變形,使得音調(diào)模式102的偏移值變成平均偏移值Oave。音調(diào)模式102的平均偏移值Or由表達(dá)式(6)得到,并且該偏移值的校正量Odiff由Odiff=Oave-Or(8)得到。通過將校正量Odiff加到整體音調(diào)模式102上,在頻率軸上平移所述音調(diào)模式102,并且生成音調(diào)模式104。
圖11示出了偏移控制的實(shí)例。
在這個實(shí)例中,M=7,N=3,并且O1到O7表示各個選擇的音調(diào)模式的平均偏移值。在步驟S42生成的音調(diào)模式102的平均偏移值Or是7.7[八音度],7個音調(diào)模式103的平均偏移值Oave是7.5[八音度],且偏移值的校正量Odiff變?yōu)?0.2[八音度]。校正量Odiff被加到整體音調(diào)模式102上,從而生成了在其中偏移值被控制的音調(diào)模式104。
如上所述,根據(jù)從M個音調(diào)模式103計(jì)算的偏移值的統(tǒng)計(jì)量,在頻率軸上平移音調(diào)模式102,并且生成音調(diào)模式104,接下來,前進(jìn)到圖4的步驟S44。
(4-4)模式連接在步驟S44,模式連接部分13連接為每一個重音短語生成的音調(diào)模式104,并且生成句子音調(diào)模式121,作為對應(yīng)于輸入文本201的語音的韻律特征中的一個。當(dāng)各個重音短語的音調(diào)模式104被相互連接時,進(jìn)行平滑等處理,從而使得在重音短語邊界處不會發(fā)生不連貫,并且輸出句子音調(diào)模式121。
(5)所述實(shí)施例的效果如上所述,根據(jù)所述實(shí)施例,在模式選擇部分10中,基于對應(yīng)于輸入文本的語言屬性信息,從存儲了從自然語音提取的大量音調(diào)模式的音調(diào)模式存儲部分14,為每一個韻律控制單元選擇M和N個音調(diào)模式,并且進(jìn)一步,在偏移控制部分12中,基于從為每一個韻律控制單元所選擇的M個音調(diào)模式103計(jì)算的偏移值的統(tǒng)計(jì)量,可以控制音調(diào)模式的偏移。
由于除了模式形狀外,整體音調(diào)模式的高度也是被控制的,所以可以減小音調(diào)模式的高度不匹配的離差(dispersion),而無需過度地鈍化所述模式形狀。
由于作為用于生成模式形狀的數(shù)據(jù)的音調(diào)模式101,和作為用于生成偏移值的統(tǒng)計(jì)量的數(shù)據(jù)的音調(diào)模式103,是由模式選擇部分10依照相同的標(biāo)準(zhǔn)(評價標(biāo)準(zhǔn))選擇的,所以與在其中用不同的方法從模式形狀的生成中單獨(dú)地估計(jì)偏移值的方法相比,與模式形狀有很高親和性的偏移控制變得可能。
由于通過選擇和利用從自然語音在線提取的音調(diào)模式,可以生成各種變化的音調(diào)模式,所以可以生成適合輸入文本且接近人發(fā)出的聲音的音調(diào)變化的音調(diào)模式,并且作為結(jié)果,可以合成具有高逼真度的語音。
在模式選擇部分10中,即使在不能唯一地選擇出最佳音調(diào)模式的情況下,也能利用從多個適當(dāng)?shù)囊粽{(diào)模式得到的偏移值的統(tǒng)計(jì)量來修改音調(diào)模式,從而可以生成更穩(wěn)定的音調(diào)模式。
變型例1在所述實(shí)施例中,在圖10的步驟S101,在融合音調(diào)模式時利用的權(quán)重被定義為代價值的函數(shù),但是,并不局限于此。
例如,可以想到這樣的辦法,在其中,關(guān)于由模式選擇部分10所選擇的多個音調(diào)模式101,獲取形心(centroid),并且根據(jù)所述形心與每一個音調(diào)模式之間的距離來確定權(quán)重。
這時,即使在選擇的音調(diào)模式中突然混入了壞的模式的情況下,也可以進(jìn)行音調(diào)模式的生成,在其中抑制了所述壞的影響。
此外,還描述了在其中為整體韻律控制單元施加統(tǒng)一的權(quán)重的例子,然而,本發(fā)明并不局限于此,并且也有可能為音調(diào)模式的各部分設(shè)置不同的權(quán)重,并融合它們,例如,僅為重音部分改變加權(quán)的方法。
變型例2下面將描述所述實(shí)施例的變型例2。
在所述實(shí)施例中,在圖4的模式選擇步驟S41,為每一個韻律控制單元選擇M和N個音調(diào)模式,然而,并不局限于此。
可以改變?yōu)槊恳粋€韻律控制單元選擇的模式的數(shù)目,并且也可以根據(jù)諸如所述代價值或存儲在音調(diào)模式存儲部分14中的音調(diào)模式的數(shù)目的因素,適當(dāng)?shù)卮_定選擇的模式的數(shù)目。
此外,盡管是從其中模式屬性信息與重音類型和重音短語的音節(jié)數(shù)目相符的音調(diào)模式中進(jìn)行選擇的,但本發(fā)明并不局限于此,并且在音調(diào)模式數(shù)據(jù)庫中沒有相符的音調(diào)模式或者音調(diào)模式很少的情況下,也可以從類似的音調(diào)模式的候選中進(jìn)行選擇。
進(jìn)一步,在N=1的情況下,即從一個最佳音調(diào)模式101也可以生成模式形狀。在這種情況下,在圖6的步驟S61和S62的音調(diào)模式101的融合處理變得不必要。
變型例3下面將描述所述實(shí)施例的變型例3。
在所述實(shí)施例中,盡管實(shí)例顯示,屬性信息中的關(guān)于句中位置的信息被用作為在模式選擇部分10中的目標(biāo)代價,但并不局限于此。
例如,可以將包括在屬性信息中的其它各種信息差異轉(zhuǎn)換成數(shù)字并利用,或者,可以利用音調(diào)模式的每一個音素持續(xù)時間和目標(biāo)音素持續(xù)時間之間的差別(差異)。
變型例4
下面將描述所述實(shí)施例的變型例4。
盡管所述實(shí)施例示出了這樣的實(shí)例,即在連接邊界的音調(diào)之間的差異被用作為模式選擇部分10中的連接代價,但并不局限于此。
例如,可以利用在連接邊界的音調(diào)變化的傾斜之間的差別(差異)等。
此外,在所述實(shí)施例中,作為模式選擇部分10中的代價函數(shù),利用了作為子代價函數(shù)的加權(quán)和的韻律控制單元代價的和,然而,本發(fā)明并不局限于此,可以使用任何將所述子代價函數(shù)用作為自變量的函數(shù)。
變型例5下面將描述所述實(shí)施例的變型例5。
在所述實(shí)施例中,作為模式選擇部分10中的代價的估計(jì)方法,通過計(jì)算代價函數(shù)的方法只是被用作為例子,然而,并不局限于此。
例如,也可以通過利用已熟知的諸如數(shù)量化理論I類的統(tǒng)計(jì)方法,從所述語言屬性信息和所述模式屬性信息進(jìn)行估計(jì)。
變型例6下面將描述所述實(shí)施例的變型例6。
在所述實(shí)施例中,在圖6的步驟S61,當(dāng)統(tǒng)一多個選擇的音調(diào)模式101的長度時,依照每個音節(jié)的音調(diào)模式中最長的來擴(kuò)展模式,然而,并不局限于此。
例如,通過結(jié)合步驟S63的處理,也可以根據(jù)音素持續(xù)時間111,并且依照實(shí)際所需的長度,統(tǒng)一各個音調(diào)模式。
此外,可以在每個音節(jié)等的長度被預(yù)先標(biāo)準(zhǔn)化之后,存儲音調(diào)模式存儲部分14的音調(diào)模式。
變型例7下面將描述所述實(shí)施例的變型例7。
在所述實(shí)施例中,首先生成模式形狀,并且控制偏移,然而,此處理過程并不局限于此。
例如,通過交換步驟S42和步驟S43的處理的順序,首先,從M個音調(diào)模式103計(jì)算平均偏移值Oave,基于該平均偏移值Oave,控制N個音調(diào)模式101的各偏移值(模式被變形),然后融合N個被變形的音調(diào)模式,這樣也可以生成每一個韻律控制單元的音調(diào)模式。
變型例8下面將描述所述實(shí)施例的變型例8。
在所述實(shí)施例中,在圖4的步驟S43,根據(jù)表達(dá)式(7)從M個音調(diào)模式103的各個偏移值計(jì)算的平均偏移值Oave被作為偏移值的統(tǒng)計(jì)量,然而,并不局限于此。
例如,可以利用M個音調(diào)模式103的偏移值的中心值,或者利用基于如由表達(dá)式(5)所得的每一個模式的代價值,利用權(quán)重wi,來對M個音調(diào)模式的各個偏移值加權(quán)并相加所得的結(jié)果。
此外,生成了其中融合了M個音調(diào)模式103的音調(diào)模式,并且基于使融合的模式與音調(diào)模式102之間的誤差最小化的標(biāo)準(zhǔn),也可以得到用于偏移控制的移動量。
變型例9下面將描述所述實(shí)施例的變型例9。
在所述實(shí)施例中,在圖10的步驟102,盡管基于偏移值的統(tǒng)計(jì)量的音調(diào)模式的變形是通過在頻率軸上平移整體音調(diào)來實(shí)現(xiàn)的,但并不局限于此。
例如,通過用基于所述偏移值的統(tǒng)計(jì)量的系數(shù)乘以音調(diào)模式,以改變該音調(diào)模式的動態(tài)范圍,并且也可以控制偏移值。
變型例10下面將描述所述實(shí)施例的變型例10。
在所述實(shí)施例中,在圖6的步驟S62,盡管在融合音調(diào)模式時將權(quán)重定義為代價值的函數(shù),但并不局限于此。
例如,可以想到這樣的方法,在其中,由從M個音調(diào)模式103計(jì)算的偏移值的統(tǒng)計(jì)量來確定融和權(quán)重。在這種情況下,首先,得到M個音調(diào)模式103的偏移值的均值μ和離差σ2。
然后,得到用于模式融合的N個音調(diào)模式的每一個偏移值Oi的似然性(likelihood)P(Oi|μ,σ2)。例如,假設(shè)建立的是高斯分布,可以通過以下表達(dá)式得到所述似然性。
p(Oi|μ,σ2)=12πσexp(-(Oi-μ)22σ2)...(9)]]>由表達(dá)式(9)得到的似然性P(Oi|μ,σ2)被以下表達(dá)式標(biāo)準(zhǔn)化,并且被作為融合時的權(quán)重。
wi=p(Oi|μ,σ2)Σj=1Np(Oi|μ,σ2)...(10)]]>隨著N個音調(diào)模式的各個偏移值變得更接近于從M個音調(diào)模式的偏移值得到的分布的平均時,這個權(quán)重Wi變得更大,當(dāng)其遠(yuǎn)離所述平均時,所述權(quán)重變得更小。這樣,在將被融合的N個音調(diào)模式中,可以使偏移值遠(yuǎn)離平均值的模式的融合權(quán)重較小,并且可以減小由于融合偏移值差異很大的模式所引起的整體音調(diào)模式的高度波動,并減小逼真度的降低。
變型例11下面將描述所述實(shí)施例的變型例11。
在所述實(shí)施例中,為了計(jì)算所述偏移值的統(tǒng)計(jì)量,在圖5的步驟S522,從音調(diào)模式存儲部分14選擇模式,并且在圖10的步驟S101,從M個選擇的音調(diào)模式103計(jì)算所述平均偏移值。
可以采用這樣的結(jié)構(gòu)來進(jìn)行替代,即預(yù)先離線得到各個音調(diào)模式的偏移值,并且從存儲這些的偏移值存儲部分選擇多個偏移值,并將其用于偏移值控制。
例如,如圖12所示,可以是這樣的結(jié)構(gòu),即除了用于存儲每一個重音短語的音調(diào)模式和對應(yīng)于每個音調(diào)模式的屬性信息的音調(diào)模式存儲部分14外,設(shè)置了用于存儲每一個重音短語的偏移值和相應(yīng)的屬性信息的偏移值存儲部分16。在這個結(jié)構(gòu)中,模式&偏移值選擇部分15分別從音調(diào)模式存儲部分14和偏移值存儲部分16選擇N個音調(diào)模式101和M個偏移值105,并且偏移控制部分12基于該M個選擇的偏移值105的統(tǒng)計(jì)量,對音調(diào)模式102進(jìn)行變形。
此外,如圖13所示,也可以是這樣的結(jié)構(gòu),即音調(diào)模式選擇部分10和偏移值選擇部分17是彼此分離的。如上所述,當(dāng)基于從偏移值存儲部分在線選擇的多個偏移值的統(tǒng)計(jì)量進(jìn)行偏移控制時,可以生成具有對應(yīng)于各種輸入文本的變化的自然偏移值的音調(diào)模式。
變型例12所述各個實(shí)施例的功能也可以由硬件實(shí)現(xiàn)。
此外,在所述實(shí)施例中公開的方法可被存儲為可由計(jì)算機(jī)執(zhí)行的程序,被存儲于諸如磁盤、光盤或半導(dǎo)體存儲器的記錄介質(zhì)中,或者也可以通過網(wǎng)絡(luò)被分發(fā)。
進(jìn)一步,各個功能被描述為軟件,并且也可以通過由具有適當(dāng)機(jī)構(gòu)的計(jì)算機(jī)裝置進(jìn)行處理來實(shí)現(xiàn)。
附帶地,本發(fā)明不局限于所述實(shí)施例,并且在實(shí)踐階段,可以在不背離主旨的范圍內(nèi)修改構(gòu)成元素并使其具體化。此外,可以通過適當(dāng)?shù)亟M合在所述實(shí)施例中公開的多個構(gòu)成元素來形成多種發(fā)明。例如,某些構(gòu)成元素可以被從所述實(shí)施例中公開的所有構(gòu)成元素中刪除。進(jìn)一步地,不同實(shí)施例中的構(gòu)成元素可以被適當(dāng)?shù)亟M合。
權(quán)利要求
1.一種音調(diào)模式生成方法,其通過改變韻律控制單元的原始音調(diào)模式,來生成用于語音合成的音調(diào)模式,所述方法包括以下步驟將指示已從自然語音提取的各個所述韻律控制單元的音調(diào)模式的高度的偏移值和與所述偏移值相對應(yīng)的第一屬性信息存儲到存儲器中;通過分析將被進(jìn)行的語音合成所針對的文本來獲得第二屬性信息;基于所述第一屬性信息和所述第二屬性信息,從所述存儲器中為每一個所述韻律控制單元選擇多個所述偏移值;獲得所述多個偏移值的統(tǒng)計(jì)數(shù)據(jù);以及基于所述統(tǒng)計(jì)數(shù)據(jù),改變所述韻律控制單元的原始音調(diào)模式。
2.一種音調(diào)模式生成方法,包括以下步驟將從自然語音提取的第一音調(diào)模式和對應(yīng)于所述第一音調(diào)模式的第一屬性信息存儲到存儲器中;通過分析將被進(jìn)行的語音合成所針對的文本來獲得第二屬性信息;基于所述第一屬性信息和所述第二屬性信息,從所述存儲器中為每一個所述韻律控制單元選擇多個所述第一音調(diào)模式;基于所述多個第一音調(diào)模式,獲得指示所述第一音調(diào)模式的高度的偏移值的統(tǒng)計(jì)數(shù)據(jù);基于所述偏移值的統(tǒng)計(jì)數(shù)據(jù),生成所述韻律控制單元的第二音調(diào)模式;以及通過連接所述韻律控制單元的所述第二音調(diào)模式,生成對應(yīng)于所述文本的音調(diào)模式。
3.根據(jù)權(quán)利要求2的音調(diào)模式生成方法,其中,當(dāng)從所述存儲器中選擇所述多個第一音調(diào)模式時,分別選擇M個所述第一音調(diào)模式和N(M≥N>1)個所述第一音調(diào)模式,并且當(dāng)生成所述第二音調(diào)模式時,(1)從所述M個第一音調(diào)模式獲得所述偏移值的統(tǒng)計(jì)數(shù)據(jù),(2)通過融合所述N個第一音調(diào)模式生成融合的音調(diào)模式,以及(3)通過基于所述偏移值的統(tǒng)計(jì)數(shù)據(jù)改變所述融合的音調(diào)模式,來生成所述第二音調(diào)模式。
4.根據(jù)權(quán)利要求2的音調(diào)模式生成方法,其中,當(dāng)選擇所述多個第一音調(diào)模式時,分別選擇M個所述第一音調(diào)模式和N(M≥N>1)個所述第一音調(diào)模式,并且當(dāng)生成所述第二音調(diào)模式時,(1)從所述M個第一音調(diào)模式獲得所述偏移值的統(tǒng)計(jì)數(shù)據(jù),(2)基于所述偏移值的統(tǒng)計(jì)數(shù)據(jù),改變所述N個第一音調(diào)模式,以及(3)通過融合所述N個改變的第一音調(diào)模式,來生成所述第二音調(diào)模式。
5.根據(jù)權(quán)利要求2的音調(diào)模式生成方法,其中,當(dāng)選擇所述多個第一音調(diào)模式時,分別選擇M個所述第一音調(diào)模式和一個所述第一音調(diào)模式,并且當(dāng)生成所述第二音調(diào)模式時,(1)從所述M個第一音調(diào)模式獲得所述偏移值的統(tǒng)計(jì)數(shù)據(jù),以及(2)通過基于所述偏移值的統(tǒng)計(jì)數(shù)據(jù)改變所述一個選擇的第一音調(diào)模式,來生成所述第二音調(diào)模式。
6.根據(jù)權(quán)利要求1到5中的任何一項(xiàng)的音調(diào)模式生成方法,其中,所述偏移值的統(tǒng)計(jì)數(shù)據(jù)包括平均值、中值以及加權(quán)和。
7.根據(jù)權(quán)利要求2的音調(diào)模式生成方法,其中,當(dāng)將要選擇所述多個第一音調(diào)模式時,分別選擇M個所述第一音調(diào)模式和N(M≥N>1)個所述第一模式,并且當(dāng)將要生成所述第二音調(diào)模式時,(1)從所述M個第一音調(diào)模式獲得所述偏移值的統(tǒng)計(jì)數(shù)據(jù),(2)基于所述N個第一音調(diào)模式的各個偏移值及所述統(tǒng)計(jì)數(shù)據(jù),確定將被給予所述N個第一音調(diào)模式各自的權(quán)重,以及(3)通過基于所述權(quán)重融合所述N個第一音調(diào)模式,來生成所述第二音調(diào)模式。
8.根據(jù)權(quán)利要求1的音調(diào)模式生成方法,其中,在所述存儲器中,存儲所述指示從自然語音提取的音調(diào)模式的高度的偏移值,或者存儲所述提取的偏移值的量化值。
9.根據(jù)權(quán)利要求2的音調(diào)模式生成方法,其中,在所述存儲器中,存儲從自然語音提取的所述第一音調(diào)模式,存儲所述第一音調(diào)模式的量化值,或者存儲所述第一音調(diào)模式的近似值。
10.根據(jù)權(quán)利要求2的音調(diào)模式生成方法,其中,在選擇所述多個第一音調(diào)模式的情況下,(1)利用代價函數(shù)從所述第一屬性信息和所述第二屬性信息估計(jì)代價,以及(2)選擇所述代價小的所述多個第一音調(diào)模式。
11.一種音調(diào)模式生成裝置,用于通過改變韻律控制單元的原始音調(diào)模式來生成用于語音合成的音調(diào)模式,所述裝置包括存儲器,存儲用于指示已從自然語音提取的各個所述韻律控制單元的音調(diào)模式的高度的偏移值和與所述偏移值相對應(yīng)的第一屬性信息;第二屬性信息分析處理器單元,其通過分析將被進(jìn)行的語音合成所針對的文本來獲得第二屬性信息;偏移值選擇處理器單元,其基于所述第一屬性信息和所述第二屬性信息,從所述存儲器中為每一個所述韻律控制單元選擇多個所述偏移值;統(tǒng)計(jì)數(shù)據(jù)計(jì)算單元,其獲得所述多個偏移值的統(tǒng)計(jì)數(shù)據(jù);以及音調(diào)模式變形處理器單元,其基于所述統(tǒng)計(jì)數(shù)據(jù),改變所述韻律控制單元的原始音調(diào)模式。
12.一種音調(diào)模式生成裝置,包括存儲器,在其中存儲從自然語音提取的第一音調(diào)模式和對應(yīng)于所述第一音調(diào)模式的第一屬性信息;第二屬性信息分析處理器單元,其通過分析將被進(jìn)行的語音合成所針對的文本獲得第二屬性信息;第一音調(diào)模式選擇處理器單元,其基于所述第一屬性信息和所述第二屬性信息,從所述存儲器中為每一個所述韻律控制單元選擇多個所述第一音調(diào)模式;統(tǒng)計(jì)數(shù)據(jù)計(jì)算單元,其基于所述多個第一音調(diào)模式,獲得指示所述第一音調(diào)模式的高度的偏移值的統(tǒng)計(jì)數(shù)據(jù);第二音調(diào)模式生成處理器單元,其基于所述統(tǒng)計(jì)數(shù)據(jù),生成所述韻律控制單元的第二音調(diào)模式;以及音調(diào)模式生成處理器單元,其通過連接所述韻律控制單元的所述第二音調(diào)模式,生成對應(yīng)于所述文本的音調(diào)模式。
全文摘要
能夠生成具有高逼真度的穩(wěn)定音調(diào)模式的音調(diào)模式生成方法,模式選擇部分10基于通過分析文本和音素持續(xù)時間111獲得的語言屬性信息100從存儲在音調(diào)模式存儲部分14中的音調(diào)模式為每個韻律控制單元選擇N個音調(diào)模式101和M個音調(diào)模式103;模式形狀生成部分11基于語言屬性信息100融合N個選擇的音調(diào)模式101以生成融合的音調(diào)模式并根據(jù)音素持續(xù)時間111在時間軸上對該融合的音調(diào)模式進(jìn)行擴(kuò)展或收縮以生成新的音調(diào)模式102;偏移控制部分12從M個選擇的音調(diào)模式103計(jì)算偏移值的統(tǒng)計(jì)量并根據(jù)該統(tǒng)計(jì)量對音調(diào)模式102進(jìn)行變形以輸出音調(diào)模式104;模式連接部分13連接為每個韻律控制單元生成的音調(diào)模式104,進(jìn)行平滑處理使得在連接邊界部分不會出現(xiàn)不連貫,并輸出句子模式121。
文檔編號G10L13/04GK1870130SQ20061008093
公開日2006年11月29日 申請日期2006年5月23日 優(yōu)先權(quán)日2005年5月24日
發(fā)明者平林剛, 籠島岳彥 申請人:株式會社東芝