專利名稱:從包括若干語音段的語音信號中確定語言的語音塊的代表的方法
技術領域:
本發(fā)明涉及從一個包括若干語音段(Lautabschnitt)的語音信號中確定一種語言的語音塊(Sprachbaustein)的代表(Repraesentant)的方法。
對于專家來說已知,由一個人說出的信號,即一個語音信號是可以分成為語音段(分段)的,其中每個語音段包括語音信號的一部分。
一種語言從它那方面來說可以被描述成為很多模塊化的語音塊的組合。
一個隸屬關系函數說明,一個語音段用什么樣的隸屬關系尺度代表一個相應的語音塊。
為了從數據庫中選擇語音塊存在許多方法。其中經韻律學的[1],語言學的[2]或連續(xù)性準則[3]進行一種優(yōu)化。在文獻[4]中敘述了自動生成的數據庫。
在文獻[5]中已知幾種隱含-馬爾科夫-模型(HMMs)。
一個語音信號的分段可以借助于按語音信號訓練的HMMs(見文獻[4])用“快速-維特比-調整”進行。
用手動方法將語音信號分成各個語音段是有缺點的,因為這要求極大的費用和經驗,而且必須對每個講話的人單獨進行。
此外還有更嚴重的缺點是,沒有對被選擇的代表(Repraesentant)的適用性進行檢驗,并且因此由于選擇一個不良的代表作為一個語音塊,相應地語音合成的結果也是壞的。
作為本發(fā)明基礎的任務在于,從一個包括若干語音段的語音信號中確定代表一種語言的語音塊的方法。這種方法避免了上述缺點并且確保改善代表的選擇。
對一種分段評價是借助于單個語音段進行的統(tǒng)計評價,從而可以把有關語音段的一個統(tǒng)計上“好的”代表確定為一個段。
本發(fā)明的任務是按照權利要求1的特征解決的。
按照本發(fā)明指出了從一個包括若干語音段的語音信號中確定代表一種語言的語音塊的方法。在本方法中語音信號的語音段根據語音塊的隸屬關系,總是被綜合在屬于這個被選定的語音塊的一個組里。從而人們得到對于多個語音塊各自具有至少一個語音段的一個組。選擇尺度用作為,從語音信號中求得語音段的選擇值,并且確定有關組的語音段取得的選擇值的頻度。借助于如此取得的頻度確定隸屬關系函數,一個組中的每個語音段的隸屬關系函數給出隸屬關系尺度,而隸屬關系尺度則說明,是否這個語音段可以被用作為一個代表(即一個被選定的語音段)?,F在語音段被確定為有關被選定的語音塊的組的代表,其隸屬關系尺度位于預先規(guī)定的閾值以上。
這種方法的一個大優(yōu)點在于,不是從被選定的語音塊的組里取出任何一個代表,而是求出一個代表,而這個代表具有足夠高的品質因素來描述被選定的語音塊(相當高的隸屬關系尺度)。
屬于一個語音塊的一個組的語音段,涉及到其可使用性,統(tǒng)計地被分散在語音信號里。而語音信號優(yōu)先由自然的談話語言作為一個長的語言樣件供計算機使用。對于有關被選定的語音塊有所謂“好的”和“壞的”語音段。用本發(fā)明特別可以避免,確定一個壞的語音段作為被選定的語音塊的代表。
本發(fā)明的一個擴展,至少使用語音段的一個另外的選擇尺度。在其中對于每個語音段各自得出至少一個另外的選擇值。對于語音段的每個組(即對于每個被選定的語音塊)求出所有選擇值的或然率,并且如上所述由這些或然率得出一個隸屬關系函數。
在一個附加的擴展中,從語音段的組中確定被選定的語音塊的代表,在其中每個隸屬關系尺度(對于每個選擇尺度得出具有一個隸屬關系尺度的隸屬關系函數)相乘為一個總尺度。如果各個語音段的總尺度位于一個預先規(guī)定的總閾值之上,則這個語音段適合作為被選定的語音塊的代表,并且從語音段的組中被選定。而該語音段是屬于這個被選定的語音塊的。
確定多個選擇尺度來確定代表的優(yōu)點是,因為這樣可以確保沒有太壞的選擇值。在總尺度中隸屬關系尺度相乘加權相當于或然率密度函數的一個與-邏輯運算。代表則可以足夠的品質因素滿足所有選擇尺度。
另外本發(fā)明的一個擴展是,語音段是一種語言的音素,雙音,三音,音節(jié)半音節(jié)或字。由這些所述的語音段的組合也是可能的。
一個另外的擴展在于,語音段是從屬于隱含-馬爾科夫-模型(HMM)的單個狀態(tài)的。
還有一個擴展是,選擇尺度是由以下列舉的量確定的。
a)各個語音段的能量;b)各個語音段的長度;c)各個語音段的基頻;d)各個語音段的長度控制;e)適合于各個語音段的統(tǒng)計學尺度。
本發(fā)明的一個特殊的擴展在于,從被求得的代表中產生合成語音。按照本發(fā)明求出語音塊的代表,借助于這些代表可以以完全新的關系組合成由語音塊確定的語言。從而得出一個合成的語音輸出,其中由各個代表(語音段)體現的語音塊以新的依次排列被輸出。
本發(fā)明還有一個擴展是,確定語音段作為被選定的語音塊的代表,其隸屬關系尺度具有最高的數值或者如果考慮用多個選擇尺度時,其總尺度具有最高值。這樣就在有關被選定的語音塊的語音段的組中得到“最佳的”語音段。
本發(fā)明的擴展也可以由從屬權利要求中得到。
借助于下面的附圖進一步敘述本發(fā)明的實施例。
它們表示附
圖1表示從包括一個語音段的語音信號中,確定代表一種語言的語音塊的方法的各個步驟的框圖,附圖2表示一種語言結構及其在語音信號上的映象,特別是朗讀文本的一個簡圖,附圖3表示‘長度控制’選擇尺度的一個簡圖,附圖4表示‘基頻’選擇尺度的一個簡圖,附圖5表示‘能量’選擇尺度的一個簡圖,附圖6表示‘SCORE得分’選擇尺度的一個簡圖。
從一個語音信號,最好是從一個講話人的一個足夠長的語音試樣中,確定語音塊對于一個拼接的語音合成來說是重要的,就是將被找到的語音塊重新排列成新的語義的語音排列。從語音信號中“剪裁”下來的各個語音段愈準確,則合成語音的品質也愈高。
在附圖1中表示,從包括一個語音段的語音信號中確定代表一種語言的語音塊的方法的單個步驟。在101步驟中,將語音信號的語音段對應于語音塊的隸屬關系,綜合成為每個語音塊各一個組。這種綜合可以自動地進行,和例如在文獻[4]中敘述的。優(yōu)先按語音信號進行HMM(=隱含-馬爾科夫-模型)訓練。語音信號可以是大約長度為一小時至三小時的一種任意的語音試樣。在101步驟進行以后語音段被綜合成組,其中每個組至少包括一個語音段,該語音段是屬于語言的一個預先規(guī)定的語音塊的。
在每個這樣的組里多半包括有多個語音段,此時為了語音合成應該從每個組中確定一個代表。在一個組里的各個語音段并不是所有的都一樣,而是遵循統(tǒng)計分布。下面將利用分布的知識,以便找到和選定在一個組里的語音段的一個合適的代表。
為此,根據預先規(guī)定的選擇尺度計算語音段,其中對每個選擇尺度的每個語音段得出一個選擇值。最好對于各個語音段按不同的選擇尺度進行估算,對于每個選擇尺度得出一個特有的選擇值(對于每個語音段)(見步驟102)。
對于每個組求出這個組的所有語音段的被求出的選擇值的頻度(見步驟103)。這相當于在二維圖上繪圖,其中橫坐標是選擇尺度數值和縱坐標表示頻度。對于組里所有語音段的每個選擇尺度產生這樣一幅圖,其中這圖表示根據選擇尺度計算出的語音段的一個統(tǒng)計分布。
在下一個步驟104中利用被求得的頻度,以便求得隸屬關系函數(對于每個上述的圖)。隸屬關系函數最好在選擇值的統(tǒng)計分布的頻度上面畫出一條包絡線。這個步驟也還是要對每個組的選擇尺度進行的。如上所述,一個組包括表達預先規(guī)定的語音塊的所有語音段。從隸屬關系函數可以求出對每個語音段的一個隸屬關系尺度。隸屬關系尺度表示,作為代表各個選擇尺度的組中各個語音段的可使用性的一個尺度。
隨后在步驟105中選擇語音段作為代表,其隸屬關系尺度位于一個預先規(guī)定的閾值之上。如上所述,最好使用多個選擇尺度,這樣對于每個語音段就得出多個隸屬關系尺度。多個隸屬關系尺度邏輯相乘運算,得出一個總尺度。然后相應地選定語音段作為組的代表,其總尺度位于一個預先規(guī)定的總閾值之上。
為了清晰起見,附圖2表示了包括有語音塊SBSi(i=1,2,…,n)的語言SPR,和包括綜合在組GRi中的語音段LAi-j(j=1,2…,n)的語音信號SSI之間的關系。
用邏輯運算201表示,語音塊SBS1可以用語音段LA1-1,AL1-2,LA1-3,…,LA1-m表達。這個從屬于語音塊SBS1的語音段是綜合在組GR1中的。組GR1中各個的語音段是由語音信號中得到的并且描述所有的語音塊SBS1。根據語音信號,與不同的選擇尺度有關各個語音段各自具有不同的品質因素。因此目標是,從組GR1的語音段中得出一個“可使用的”代表。這個代表在合成語音時可以實現語音塊SBS1。
同樣的關系相似地適合于邏輯運算202。一個任意的語音塊SBSn可以用大量的(在這里是‘p’)綜合在一個組GR2中的語音段來表達。
隨后應對上述的選擇尺度進行研究。對于這樣的選擇尺度有多種可能性,其中在這里推薦一種選擇。這種選擇可以使用單個的,或相互組合的,或也可以與另外的選擇尺度組合的,以便有可能從語音段組中有利地確定一個代表。
附圖3表示將長度控制作為選擇尺度,即語音段原本的持續(xù)時間相對于語音段合成的持續(xù)時間的一個尺度。直到對每一個閾值LUG和上閾值LOG的偏差都被認為是沒有問題的。超出這個閾值,即小于下閾值LUG或大于上閾值LOG,則隸屬關系函數Zl_syn指數地下降。此時隸屬關系函數Zl_syn是通過以下公式來確定的
(1).
通過將平均長度lΦ規(guī)一化為1,則偏差為相對的。隸屬關系函數Zl_syn也規(guī)一化為1。ZG表示隸屬關系尺度。
附圖4表示將基頻-控制作為選擇尺度。在其中語音段的基頻對一個目標-基頻(在合成語音時)的偏差應該是最小。隸屬關系函數Zl-syn具有下面的形式
(2).
在這里為了清晰起見也將對頻率f規(guī)一化為平均頻率fΦ。也將隸屬關系函數Zl-syn規(guī)一化為1。頻率的上參數用fOG和頻率的下參數用fUG表示。
在附圖5中表示將語音段的能量作為選擇尺度。這個能量對能量的一個平均值的相對偏差是隸屬關系函數ZE-al的判據
(3).
能量E的平均值是EΦ(期望值),EUG是能量的一個下閾值,EOG是能量的一個上閾值,和σE是能量的變量。將隸屬關系函數ZE_al規(guī)一化為1。
人們使用語音段的長度代替能量作為選擇尺度,這樣與附圖5類似地產生一個隸屬關系函數Zl-al用來評價語音段長度改變的相對偏差。如果也存在一個上閾值LOG,一個下閾值LUG和一個長度的方差σ1,則隸屬關系函數Zl_al為
(4).在附圖6中表示了得分SCORE作為選擇尺度。得分SCORE是一個語音段適合作為代表的一個尺度,也就是說一個準備選定的語音段是一個典型的,有特征的按字節(jié)發(fā)音的語音段,因此‘適合’從而作為相應的語音塊的代表。
在具有“最佳的”(Zs(smax)=1)和具有“最差的”(Zs(smin)=1-sG)得分SCORE選擇尺度的語音段之間的隸屬關系函數Zs(s)被假設是線性的(見附圖6中相應曲線Zs(s))。這個隸屬關系函數Zs(s)可以按下面的公式確定
為了判斷,一個語音段是否適合作為相應的語音塊的一個代表,最好考慮多個已經建立的隸屬關系函數。為了確保,被選定的一個代表,沒有一個隸屬關系函數的數值位于預先規(guī)定的閾值以下,則將單個的隸屬關系尺度進行與-邏輯運算。這是由各個的隸屬關系尺度相乘為一個總尺度實現的。在考慮上面列舉的隸屬關系函數情況下得出
關于在隸屬關系函數ZE-al和Zl-al對所有狀態(tài)的相乘是指在用于描述語音段的一種HMMs內的各個狀態(tài)。各根據模型化,可以使用具有不同數量狀態(tài)的HMMs,其中對每個語音段而言所有這些狀態(tài)單個地載入由隸屬關系函數Zges得出的總尺度中。
在本文范圍內引用了以下文獻[1]Nick Campell,Alan W Black“Prosody and the Selectionof Source Units for Concatenative Synthesis”,inProgress Speechsynthesis,ISBN 0-387-94701-9,SpringerVerlag New York,1997,S.279-292尼克.堪培爾,阿蘭.維.布萊克“用于拼接合成的源單元的韻律學和選擇”語言合成會議文集,ISBN 0-387-94701-9,斯普林格出版社,紐約,1997年第279-292頁[2]Andrew J.Hunt,Alan W.Black“Unit Selection in aconcatenative speechsynthesis system using a largespeech data base”,Proc.EUROSPEECH 1995,Madrid,S.373-376。
安德列夫.捷.琿特,阿蘭.維.布萊克“在使用一個大的語言數據庫的拼接的語言合成系統(tǒng)中的單元選擇”歐洲語言1995會議文集,馬德里,第373-376頁。Alistair D.Conkie,Stephen Isard“Optimal Couplingof Diphones”,in Progress in Speechsynthesis,ISBN0-387-94701-9,Springer Verlag New York,1997,S.293-304。
阿利斯泰爾.德.康科,斯提凡.易薩爾“雙音的最佳耦合”,語言合成會議文集,ISBN 0-387-94701-9,斯普林格出版社,紐約,1997年第279-292頁。R.E.Donovan,P.C.Woodland“Improvements in an HMM-based speechsynthesiser”,Proc.ICASSP 1995,Michigan,S.573-576。
阿.埃.斗訥萬,皮.希.武特蘭德“在HMM-基礎上的語音合成器的改進”,ICASSP 1995會議文集,密執(zhí)安,第573-576頁[5]G.Ruske“Automati sche SpracherkennungMethoden derKlassifikation u.Merkmalsextraktion”,OldenbourgVerlag,Muenchen,1988,S.160-171。
葛.魯斯科“自動語音識別分類和特征提取方法”,歐倫堡出版社,慕尼黑,1988,第160-171頁。
權利要求
1.從一個包括若干語音段的語音信號中確定一種語言的預先規(guī)定的語音塊的代表的方法,a)其中,將語音信號的語音段對應于語言的語音塊綜合成各一個組,b)其中,對于各個組的語音段按照一種預先規(guī)定的選擇尺度從語音信號中求出選擇值,c)其中,確定組的選擇值的頻度,d)其中,借助于頻度確定隸屬關系函數,該隸屬關系函數是說明有關組的有關語音段可使用性的一個隸屬關系尺度,e)其中,從被選定的語音塊的語音段的組中確定,其隸屬關系尺度位于一個預先規(guī)定的閾值以上的,那個語音段作為代表。
2.按照權利要求1的方法,其中,借助于至少一個另外的選擇尺度求出組中語音段的另外的選擇值,和確定另外選擇值的其它頻度,并且對于每個另外的頻度,確定具有相應的另外的隸屬關系尺度的一個另外的隸屬關系函數。
3.按照權利要求2的方法,其中,每個隸屬關系尺度相乘地進入總尺度,并且從語音段的組中求出代表,其總尺度位于預先規(guī)定的總閾值以上。
4.按照上述權利要求之一的方法,其中,語音段是語言的音素,雙音,三音,音節(jié),半音節(jié),字或這些的組合。
5.按照上述權利要求之一的方法,其中,語音段是歸屬于隱含—馬爾科夫—模型的單個狀態(tài)的。
6.按照上述權利要求之一的方法,其中,選擇尺度是下面列舉的量中的一個a)各個語音段的能量;b)各個語音段的長度;c)各個語音段的基頻;d)各個語音段的長度控制;e)對各個語音段配合的統(tǒng)計尺度。
7.按照上述權利要求之一的方法,其中,從得到的代表組合成為語言。
8.按照上述權利要求之一的方法,其中,確定語音段為語音塊的代表,其隸屬關系尺度具有最高的數值,或如果考慮多個選擇尺度,其總尺度具有最高的數值。
全文摘要
將一個語音信號分成單個的語音段以后,將各表示語言的一個語音塊的語音段綜合成為一個組。在一個組內多個語音段常常是程度不同好地描述一個語音塊。推薦了不同的選擇尺度,借助于選擇尺度對各個語音段可以在可使用性方面進行評價。選擇尺度的組合的優(yōu)點是,從語音段中選定一個代表時可以考慮多個不同的評價準則。對于每個選擇尺度有一個隸屬關系函數,該隸屬關系函數指出適合于作為組的代表的每個單個語音段的可使用性。語音段被優(yōu)先確定為相應的語音塊的代表時,這個語音段由隸屬關系函數得出的隸屬關系尺度是組中語音段中的一個最大值。
文檔編號G10L15/16GK1267384SQ98808350
公開日2000年9月20日 申請日期1998年7月27日 優(yōu)先權日1997年8月21日
發(fā)明者M·霍澤普菲爾 申請人:西門子公司