專利名稱:一種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音信息處理及計(jì)算機(jī)輔助教學(xué)技術(shù)領(lǐng)域,尤其涉及一種對(duì)語(yǔ)調(diào)進(jìn)行
評(píng)估的方法。
背景技術(shù):
隨著語(yǔ)音技術(shù)的不斷發(fā)展,利用計(jì)算機(jī)輔助口語(yǔ)教學(xué)的應(yīng)用已經(jīng)在國(guó)內(nèi)外悄然興 起。專利號(hào)200410074445公開(kāi)了一種基于語(yǔ)音識(shí)別及語(yǔ)音分析的發(fā)音評(píng)估方法,提出了對(duì) 每個(gè)音節(jié)的發(fā)音評(píng)估的方法。然而該方法沒(méi)有對(duì)漢語(yǔ)的語(yǔ)調(diào)層次的評(píng)估進(jìn)行描述。專利號(hào) 200510082059提出了一種語(yǔ)調(diào)相似性的匹配框架,但是沒(méi)有對(duì)具體方法進(jìn)行詳細(xì)描述,特 別是涉及到如何匹配的部分,原專利描述含糊不清,并沒(méi)有對(duì)如何計(jì)算相似性作出合理的 描述。而專利中提到的對(duì)提取不出基頻的位置進(jìn)行基頻平均化,本身也不是解決基頻提取 問(wèn)題的根本途徑。該專利提出的方法,其主要缺點(diǎn)如下 1.專利號(hào)200510082059的方法以詞組為單位進(jìn)行重新劃分和處理音調(diào)數(shù)據(jù)。這 樣做有兩個(gè)弊端。首先,詞組的長(zhǎng)度是非常不穩(wěn)定的,有的詞只含有一個(gè)音節(jié),但有的詞可 以含有多個(gè)音節(jié),這非常不利于語(yǔ)速歸一化和調(diào)型歸一化。其次,詞組如果含有多個(gè)音節(jié), 中間可能出現(xiàn)清輔音和短靜音,基頻曲線在一個(gè)詞組內(nèi)部不能保證完全連續(xù),因而不得不 采用插值方法對(duì)無(wú)基頻處進(jìn)行插值修正,但這些修正都是會(huì)帶來(lái)誤差的,必然影響整體性 能。 2.專利號(hào)200510082059的方法中的標(biāo)準(zhǔn)化和均勻化是在提取音調(diào)數(shù)據(jù)之后直接 做的。這樣做并沒(méi)有充分利用好語(yǔ)音自動(dòng)切分模塊提供的邊界信息,當(dāng)靜音長(zhǎng)度發(fā)生變化 時(shí),必然影響基頻規(guī)整化的結(jié)果。 3.專利號(hào)200510082059的方法中對(duì)標(biāo)準(zhǔn)化的描述含糊不清。雖然提到了標(biāo)準(zhǔn)化, 但是標(biāo)準(zhǔn)化的概念是模糊的,零均值化、方差化為一、分布化為正態(tài)分布等等,都可以稱為 標(biāo)準(zhǔn)化。對(duì)于音調(diào)來(lái)說(shuō),不同人有不同的音高,特別是男女聲大概相差一個(gè)八度音,因此,均 值規(guī)整化是必要的。實(shí)驗(yàn)語(yǔ)音學(xué)成果還表明,不同人的調(diào)域也是不同的,特別是女聲的調(diào)域 大約是男聲的1.5倍,因此,音高的方差規(guī)整化也是必要的。而分布的規(guī)整化只對(duì)聲調(diào)識(shí)別 有用,是不必要的。 4.專利號(hào)200510082059的方法中對(duì)處理音調(diào)數(shù)據(jù)沒(méi)有詳細(xì)描述,該方法談及了 通過(guò)切分結(jié)果,可以把每個(gè)詞對(duì)應(yīng)上。但是,每個(gè)詞的長(zhǎng)短是不一的,即使同個(gè)人讀同一句 話兩次,也無(wú)法保證兩句話的長(zhǎng)度一直,如何解決長(zhǎng)短不一的兩個(gè)句子在時(shí)間上一一對(duì)應(yīng) 問(wèn)題,對(duì)解決語(yǔ)調(diào)的對(duì)比評(píng)估非常重要。 5.專利號(hào)200510082059的方法中提到,可以給出語(yǔ)調(diào)的相似度,但沒(méi)有給出具體 方案。相似度的度量,并不是一個(gè)唯一確定的值,可以用歐幾里德距離、馬氏距離、相關(guān)系 數(shù)、偏相關(guān)系數(shù)、平均誤差、均方誤差等等無(wú)窮盡的方法。不同方法的性能是有差異的。本 發(fā)明的實(shí)驗(yàn)表明,采用相關(guān)系數(shù)法和均方誤差法比較好,并且相關(guān)系數(shù)法比均方誤差法要 好很多。但是這兩種方法對(duì)基頻提取性能的要求很高,當(dāng)基頻提取錯(cuò)誤率上升到25%的時(shí)候,相關(guān)系數(shù)和均方誤差法評(píng)估的等級(jí)劃分錯(cuò)誤率提升到40% 。也就是說(shuō),這些方法對(duì)基頻 提取性能要求較高,隨著基頻提取性能下降,該方法性能下降非常快。 可見(jiàn),如何評(píng)估語(yǔ)調(diào)的好壞,還未有比較可行的解決方案。本發(fā)明正是針對(duì)現(xiàn)有方 案的問(wèn)題,提出了一種可靠的語(yǔ)調(diào)的評(píng)估方法,用以解決語(yǔ)調(diào)評(píng)估問(wèn)題。該發(fā)明在國(guó)際上首 次提出"排序誤差矢量"這種專門(mén)用于語(yǔ)調(diào)評(píng)估的特征。
發(fā)明內(nèi)容
( — )要解決的技術(shù)問(wèn)題 有鑒于此,本發(fā)明的主要目的在于提出一種對(duì)語(yǔ)調(diào)進(jìn)行自動(dòng)評(píng)估的方法,用以解 決現(xiàn)有的計(jì)算機(jī)輔助語(yǔ)言教學(xué)技術(shù)中的語(yǔ)調(diào)評(píng)估問(wèn)題,該方法還可用于語(yǔ)音合成中的語(yǔ)調(diào) 自動(dòng)評(píng)估。 (二)技術(shù)方案 為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下 —種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,該方法包括 對(duì)輸入的語(yǔ)音進(jìn)行基頻提取,獲得連續(xù)不斷的基頻曲線; 對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割,獲得聲韻母邊界,并對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整化處理, 獲得規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線; 將該規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線與標(biāo)準(zhǔn)音的規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線進(jìn) 行比較,計(jì)算出輸入語(yǔ)音的音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差值; 將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序,并抽取出有代表性的點(diǎn),形成音高排序誤 差矢量和時(shí)長(zhǎng)排序誤差矢量; 以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。 上述方案中,所述對(duì)輸入的語(yǔ)音進(jìn)行基頻提取,獲得連續(xù)不斷的基頻曲線,具體包
括對(duì)輸入的語(yǔ)音先做初步提取,再利用頻譜上的諧波亮紋,對(duì)提取過(guò)程產(chǎn)生的倍頻和半頻
進(jìn)行修正,對(duì)提不出基頻的部分,利用嘎裂音基頻提取辦法對(duì)基頻進(jìn)行提取,再用樣條函數(shù)
對(duì)沒(méi)有基頻的位置進(jìn)行插值,從而獲得連續(xù)不斷的基頻曲線。 上述方案中,所述對(duì)輸入的語(yǔ)音做初步提取,采用Praat的自相關(guān)法、AMDF算法、 YIN算法或基于統(tǒng)計(jì)模型的基頻識(shí)別方法。 上述方案中,所述對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割,是以建模單元為單位對(duì)邊界進(jìn)行 對(duì)齊,使待測(cè)語(yǔ)音與標(biāo)準(zhǔn)音的各個(gè)建模單元邊界一一對(duì)齊;對(duì)漢語(yǔ)建模單元來(lái)說(shuō),是使聲韻 母邊界對(duì)齊,包括聲母與聲母對(duì)齊、韻母與韻母對(duì)齊。 上述方案中,所述對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割,獲得聲韻母邊界,是采用動(dòng)態(tài)時(shí)間 規(guī)整DTW將輸入語(yǔ)音與標(biāo)注好邊界的標(biāo)準(zhǔn)音進(jìn)行對(duì)齊,或是采用維特比Viterbi切分分別 求出輸入語(yǔ)音和標(biāo)準(zhǔn)音的聲韻母邊界。 上述方案中,所述對(duì)音高進(jìn)行規(guī)整化處理,包括對(duì)音高均值的規(guī)整化和音高方差 的規(guī)整化。 上述方案中,所述對(duì)音高進(jìn)行規(guī)整化處理,獲得規(guī)整音高曲線,具體包括將音高 的單位轉(zhuǎn)換成半音,然后在每個(gè)韻母內(nèi)部將每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整,首先計(jì)算 所有韻母段的平均基頻M,并計(jì)算所有韻母段基頻的標(biāo)準(zhǔn)差,然后將每個(gè)韻母段的基頻減去平均基頻M,并將得到的差值除以R, R表示調(diào)域,然后將每個(gè)韻母段的基頻規(guī)整化為N點(diǎn), 則每個(gè)韻母都會(huì)形成一個(gè)N點(diǎn)基頻曲線,把每個(gè)字的N點(diǎn)基頻曲線連起來(lái),形成規(guī)整的音高 曲線。 上述方案中,所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理,包括建模單元層次的時(shí)長(zhǎng)規(guī)整化和句 子層次的時(shí)長(zhǎng)規(guī)整化。 上述方案中,所述對(duì)建模單元層次的時(shí)長(zhǎng)規(guī)整化,采用N等分元音建模單元處基 頻曲線的方法對(duì)每個(gè)元音建模單元的基頻的重采樣。 上述方案中,所述對(duì)句子層次的時(shí)長(zhǎng)規(guī)整化,是采用一定方法消除語(yǔ)速對(duì)語(yǔ)調(diào)評(píng) 估的影響;實(shí)現(xiàn)該過(guò)程,通過(guò)定義全句的所有建模單元的平均時(shí)長(zhǎng)為1對(duì)每個(gè)建模單元時(shí) 長(zhǎng)進(jìn)行規(guī)整化,從而獲得各個(gè)建模單元的相對(duì)時(shí)長(zhǎng)。 上述方案中,所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理,獲得規(guī)整時(shí)長(zhǎng)曲線,具體包括將音高 的單位轉(zhuǎn)換成半音,然后將不同的韻母的時(shí)長(zhǎng)除以所有韻母的平均時(shí)長(zhǎng),獲得每個(gè)韻母的 相對(duì)時(shí)長(zhǎng)信息,利用該相對(duì)時(shí)長(zhǎng)信息形成規(guī)整的時(shí)長(zhǎng)曲線。 上述方案中,所述將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序,并抽取出有代表性的點(diǎn), 形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量,具體包括將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行 排序,然后對(duì)該排序進(jìn)行任意N等分并抽取N個(gè)特征點(diǎn),形成N維的音高排序誤差矢量和時(shí) 長(zhǎng)排序誤差矢量,N為自然數(shù)。 上述方案中,所述以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng) 估,具體包括將音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量作為語(yǔ)調(diào)得分計(jì)算的一個(gè)重要特 征,利用該特征對(duì)語(yǔ)調(diào)得分進(jìn)行擬合,實(shí)現(xiàn)對(duì)語(yǔ)調(diào)等級(jí)的分類,進(jìn)而實(shí)現(xiàn)對(duì)語(yǔ)調(diào)的評(píng)估。
(三)有益效果 從上述技術(shù)方案可以看出,本發(fā)明具有以下有益效果 1、本發(fā)明采用語(yǔ)音建模單元為分塊單位,建模單位的長(zhǎng)度比較穩(wěn)定的,不受詞組 長(zhǎng)短的影響,因此很適合進(jìn)行語(yǔ)速歸一化和調(diào)型歸一化。 2、從目前的研究成果看,有調(diào)語(yǔ)言中對(duì)聲調(diào)的感知的貢獻(xiàn)是在元音段的,因此本 發(fā)明提倡將建模單元分為輔音建模單元和元音建模單元,輔音建模單元的基頻是不予考慮 的,只考慮元音建模單元的基頻。 3、本發(fā)明將標(biāo)準(zhǔn)化和均勻化放在邊界切分之后進(jìn)行,此時(shí)標(biāo)準(zhǔn)化可以利用邊界信 息,剔除靜音段(無(wú)基頻段)以及輔音段(無(wú)需考慮基頻的段)。這樣無(wú)論靜音、停頓的長(zhǎng) 度如何,都不會(huì)影響基頻規(guī)整化的最終結(jié)果。 4、本發(fā)明提出的規(guī)整化包含均值和方差的規(guī)整化過(guò)程,考慮到句子音高不一定覆 蓋整個(gè)調(diào)域,本發(fā)明還采用了方差規(guī)整門(mén)限解決此問(wèn)題。 5、本發(fā)明提出將基頻曲線一分為二的思想,將一條基頻曲線,劃分成"表示調(diào)型的 曲線"和"表示時(shí)長(zhǎng)的曲線"兩條曲線,這樣做既可以對(duì)比兩句化的調(diào)型差異,又可以對(duì)比兩 句話中每個(gè)建模單元的長(zhǎng)短差異,既解決了一一對(duì)應(yīng)問(wèn)題,又使得每條曲線的物理意義更 加明確。 6、本發(fā)明中提出了一種新的特征——排序誤差矢量,這種特征對(duì)基頻提取性能的 影響不太敏感,在基頻提取錯(cuò)誤率上升到25%的時(shí)候,還能保證等級(jí)劃分錯(cuò)誤率在23%的 水平。
圖1是本發(fā)明提供的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法流程圖; 圖2是依照本發(fā)明實(shí)施例對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法流程圖; 圖3是依照本發(fā)明實(shí)施例對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整的方法流程圖; 圖4是依照本發(fā)明實(shí)施例對(duì)每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整的方法流程圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
本發(fā)明的基本構(gòu)思為提取語(yǔ)音的基頻特征,通過(guò)對(duì)齊和規(guī)整后,與標(biāo)準(zhǔn)音進(jìn)行音
高誤差和時(shí)長(zhǎng)誤差統(tǒng)計(jì),得到排序誤差矢量,通過(guò)排序誤差矢量來(lái)描述的句子語(yǔ)調(diào)的好壞,
用排序誤差矢量解決句子長(zhǎng)短不一的問(wèn)題,并最終用排序誤差矢量對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。 如圖1所示,圖1是本發(fā)明提供的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法流程圖,該方法包括 步驟101 :對(duì)輸入的語(yǔ)音進(jìn)行基頻提取,獲得連續(xù)不斷的基頻曲線; 步驟102 :對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割,獲得聲韻母邊界,并對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)
整化處理,獲得規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線; 步驟103 :將該規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線與標(biāo)準(zhǔn)音的規(guī)整音高曲線和規(guī)整時(shí)
長(zhǎng)曲線進(jìn)行比較,計(jì)算出輸入語(yǔ)音的音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差值; 步驟104 :將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序,并抽取出有代表性的點(diǎn),形成音
高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量; 步驟105 :以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。
上述步驟101中所述對(duì)輸入的語(yǔ)音進(jìn)行基頻提取,獲得連續(xù)不斷的基頻曲線,具 體包括對(duì)輸入的語(yǔ)音先做初步提取,再利用頻譜上的諧波亮紋,對(duì)提取過(guò)程產(chǎn)生的倍頻和 半頻進(jìn)行修正,對(duì)提不出基頻的部分,利用嘎裂音基頻提取辦法對(duì)基頻進(jìn)行提取,再用樣條 函數(shù)對(duì)沒(méi)有基頻的位置進(jìn)行插值,從而獲得連續(xù)不斷的基頻曲線。此處,對(duì)輸入的語(yǔ)音做初 步提取,可以采用任何一種非頻域的算法,例如Praat的自相關(guān)法、AMDF算法、YIN算法以及 基于統(tǒng)計(jì)模型的基頻識(shí)別算法等。其中,Praat是一個(gè)軟件的名稱,Praat在1993年提出的 基頻提取算法;AMDF是平均幅度差函數(shù)(average magnitude difference function) ;YIN 是日本人提出的算法,是根據(jù)中國(guó)"陰陽(yáng)相生相克"的思想做出來(lái)的,所以稱"YIN"。
上述步驟102中所述對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割,是以建模單元為單位對(duì)邊界進(jìn) 行對(duì)齊,使待測(cè)語(yǔ)音與標(biāo)準(zhǔn)音的各個(gè)建模單元邊界一一對(duì)齊;對(duì)漢語(yǔ)建模單元來(lái)說(shuō),是使聲 韻母邊界對(duì)齊,包括聲母與聲母對(duì)齊、韻母與韻母對(duì)齊。所述對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割, 獲得聲韻母邊界,是采用動(dòng)態(tài)時(shí)間規(guī)整(DTW)將輸入語(yǔ)音與標(biāo)注好邊界的標(biāo)準(zhǔn)音進(jìn)行對(duì) 齊,或是采用維特比(Viterbi)切分分別求出輸入語(yǔ)音和標(biāo)準(zhǔn)音的聲韻母邊界。
上述步驟103中所述對(duì)音高進(jìn)行規(guī)整化處理,包括對(duì)音高均值的規(guī)整化和音高方 差的規(guī)整化。所述對(duì)音高進(jìn)行規(guī)整化處理,獲得規(guī)整音高曲線,具體包括將音高的單位轉(zhuǎn) 換成半音,然后在每個(gè)韻母內(nèi)部將每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整,首先計(jì)算所有韻母 段的平均基頻M,并計(jì)算所有韻母段基頻的標(biāo)準(zhǔn)差,然后將每個(gè)韻母段的基頻減去平均基頻M,并將得到的差值除以R(R為range,即表示調(diào)域),然后將每個(gè)韻母段的基頻規(guī)整化為N 點(diǎn),則每個(gè)韻母都會(huì)形成一個(gè)N點(diǎn)基頻曲線,把每個(gè)字的N點(diǎn)基頻曲線連起來(lái),形成規(guī)整的 音高曲線。 所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理,包括建模單元層次的時(shí)長(zhǎng)規(guī)整化和句子層次的時(shí)長(zhǎng) 規(guī)整化。所述對(duì)建模單元層次的時(shí)長(zhǎng)規(guī)整化,采用N等分元音建模單元處基頻曲線的方法 對(duì)每個(gè)元音建模單元的基頻的重采樣。所述對(duì)句子層次的時(shí)長(zhǎng)規(guī)整化,是采用一定方法消
除語(yǔ)速對(duì)語(yǔ)調(diào)評(píng)估的影響;實(shí)現(xiàn)該過(guò)程,通過(guò)定義全句的所有建模單元的平均時(shí)長(zhǎng)為1對(duì) 每個(gè)建模單元時(shí)長(zhǎng)進(jìn)行規(guī)整化,從而獲得各個(gè)建模單元的相對(duì)時(shí)長(zhǎng)。 上述步驟103中所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理,獲得規(guī)整時(shí)長(zhǎng)曲線,具體包括將音 高的單位轉(zhuǎn)換成半音,然后將不同的韻母的時(shí)長(zhǎng)除以所有韻母的平均時(shí)長(zhǎng),獲得每個(gè)韻母 的相對(duì)時(shí)長(zhǎng)信息,利用該相對(duì)時(shí)長(zhǎng)信息形成規(guī)整的時(shí)長(zhǎng)曲線。 上述步驟104中所述將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序,并抽取出有代表性的 點(diǎn),形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量,具體包括將音高和時(shí)長(zhǎng)的誤差值分別進(jìn) 行排序,然后對(duì)該排序進(jìn)行任意N等分并抽取N個(gè)特征點(diǎn),形成N維的音高排序誤差矢量
和時(shí)長(zhǎng)排序誤差矢量,N為自然數(shù)。 一種可行的辦法是分別抽取10%、20%、30%........
100%處的誤差值,形成10維的音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量。 上述步驟105中所述以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)
行評(píng)估,具體包括將音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量作為語(yǔ)調(diào)得分計(jì)算的一個(gè)重
要特征,利用該特征對(duì)語(yǔ)調(diào)得分進(jìn)行擬合,實(shí)現(xiàn)對(duì)語(yǔ)調(diào)等級(jí)的分類,進(jìn)而實(shí)現(xiàn)對(duì)語(yǔ)調(diào)的評(píng)估。 下面以漢語(yǔ)普通話的語(yǔ)調(diào)評(píng)估為例。如圖2所示,圖2是依照本發(fā)明實(shí)施例對(duì)語(yǔ) 調(diào)進(jìn)行評(píng)估的方法流程圖。從210處輸入的語(yǔ)音要通過(guò)220提取基頻,要通過(guò)270獲得聲 韻母邊界,然后在230處對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整化處理,在240處求出規(guī)整化的音高和規(guī)整 化的時(shí)長(zhǎng)跟標(biāo)準(zhǔn)音比較的誤差,在250處將這些誤差值排序,抽取出有代表性的點(diǎn),形成排 序誤差適量,再通過(guò)260對(duì)語(yǔ)調(diào)的好壞進(jìn)行評(píng)估和診斷。 在210處輸入的語(yǔ)音,既可以是錄音設(shè)備實(shí)時(shí)地輸入,也可以是從已經(jīng)存盤(pán)的文 件中讀取出來(lái)。 在220處提取基頻,可以采用Praat的自相關(guān)法先做初步提取,再利用頻譜上的諧 波亮紋,對(duì)提取過(guò)程產(chǎn)生的倍頻和半頻進(jìn)行修正,對(duì)提不出基頻的部分,利用嘎裂音基頻提 取辦法對(duì)基頻進(jìn)行提取,再用樣條函數(shù)對(duì)沒(méi)有基頻的位置進(jìn)行插值。從而獲得連續(xù)不斷的 基頻曲線。 在270處對(duì)語(yǔ)音進(jìn)行對(duì)齊分割,可以采用動(dòng)態(tài)時(shí)間規(guī)整(DTW)把輸入語(yǔ)音與標(biāo)注 好邊界的標(biāo)準(zhǔn)音進(jìn)行對(duì)齊,也可以采用維特比(Viterbi)切分分別求出輸入語(yǔ)音和標(biāo)準(zhǔn)音 的聲韻母邊界。 在230處進(jìn)行音高和時(shí)長(zhǎng)規(guī)整化,一種可行的辦法是將音高的單位轉(zhuǎn)換成半音 (semitone),然后按照?qǐng)D3所示方法進(jìn)行規(guī)整。圖3是依照本發(fā)明實(shí)施例對(duì)音高和時(shí)長(zhǎng)進(jìn) 行規(guī)整的方法流程圖。首先在320處進(jìn)行時(shí)長(zhǎng)規(guī)整,不同的韻母的時(shí)長(zhǎng)除以所有韻母的平 均時(shí)長(zhǎng),獲得每個(gè)韻母的相對(duì)時(shí)長(zhǎng)信息,該信息輸出為340處的"規(guī)整的時(shí)長(zhǎng)曲線"。而對(duì) 每個(gè)韻母內(nèi)部,則在330按照?qǐng)D4所示方法把每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整,圖4是依照本發(fā)明實(shí)施例對(duì)每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整的方法流程圖。首先在410處計(jì)算所 有韻母段的平均基頻M,在420處計(jì)算所有韻母段基頻的標(biāo)準(zhǔn)差,在430處把每個(gè)韻母段的 基頻減去平均基頻M,在450處把430的輸出除以R(注意450處把每個(gè)基頻除以R而不是 S,是因?yàn)楫?dāng)整句話都是第一聲時(shí),S遠(yuǎn)遠(yuǎn)小于真實(shí)調(diào)域,所以需要統(tǒng)計(jì)人的調(diào)域門(mén)限 來(lái) 輔助修正這個(gè)不足),然后在460處把每個(gè)韻母段的基頻規(guī)整化為N點(diǎn),則每個(gè)韻母都會(huì)在 470處形成一個(gè)N點(diǎn)基頻曲線,把每個(gè)字的N點(diǎn)基頻曲線連起來(lái),在350處形成規(guī)整的句子 音高曲線。 在240處,通過(guò)對(duì)比標(biāo)準(zhǔn)音的"規(guī)整音高曲線"和"規(guī)整時(shí)長(zhǎng)曲線",可以一一對(duì)應(yīng) 地計(jì)算出音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差。 然后在250處,將音高的誤差值進(jìn)行排序,將時(shí)長(zhǎng)的誤差值進(jìn)行排序,分別抽取
10%,20%,30%,......,100%處的誤差值,形成10維的音高排序誤差矢量和時(shí)長(zhǎng)排序誤
差矢量,以這兩個(gè)排序誤差矢量為特征輸入到260處進(jìn)行語(yǔ)調(diào)評(píng)估。 此方法不僅可以對(duì)整句進(jìn)行語(yǔ)調(diào)評(píng)估,還可以對(duì)句子中指定的韻律詞,韻律短語(yǔ) 等小片段進(jìn)行評(píng)估,按照260的輸出結(jié)果,可以知道具體錯(cuò)誤在哪個(gè)韻律詞或者哪個(gè)韻律 短語(yǔ),從而完成語(yǔ)調(diào)錯(cuò)誤位置的具體診斷。 此方法還可以應(yīng)用在語(yǔ)音合成中,對(duì)合成的語(yǔ)調(diào)進(jìn)行自動(dòng)評(píng)估。 以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳
細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡
在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保
護(hù)范圍之內(nèi)。
權(quán)利要求
一種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,該方法包括對(duì)輸入的語(yǔ)音進(jìn)行基頻提取,獲得連續(xù)不斷的基頻曲線;對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割,獲得聲韻母邊界,并對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整化處理,獲得規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線;將該規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線與標(biāo)準(zhǔn)音的規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線進(jìn)行比較,計(jì)算出輸入語(yǔ)音的音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差值;將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序,并抽取出有代表性的點(diǎn),形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量;以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。
2. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)輸入的語(yǔ)音進(jìn) 行基頻提取,獲得連續(xù)不斷的基頻曲線,具體包括對(duì)輸入的語(yǔ)音先做初步提取,再利用頻譜上的諧波亮紋,對(duì)提取過(guò)程產(chǎn)生的倍頻和半 頻進(jìn)行修正,對(duì)提不出基頻的部分,利用嘎裂音基頻提取辦法對(duì)基頻進(jìn)行提取,再用樣條函 數(shù)對(duì)沒(méi)有基頻的位置進(jìn)行插值,從而獲得連續(xù)不斷的基頻曲線。
3. 根據(jù)權(quán)利要求2所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)輸入的語(yǔ)音做 初步提取,采用Praat的自相關(guān)法、AMDF算法、YIN算法或基于統(tǒng)計(jì)模型的基頻識(shí)別方法。
4 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)輸入的語(yǔ)音進(jìn) 行對(duì)齊分割,是以建模單元為單位對(duì)邊界進(jìn)行對(duì)齊,使待測(cè)語(yǔ)音與標(biāo)準(zhǔn)音的各個(gè)建模單元 邊界一一對(duì)齊;對(duì)漢語(yǔ)建模單元來(lái)說(shuō),是使聲韻母邊界對(duì)齊,包括聲母與聲母對(duì)齊、韻母與 韻母對(duì)齊。
5. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)輸入的語(yǔ)音進(jìn) 行對(duì)齊分割,獲得聲韻母邊界,是采用動(dòng)態(tài)時(shí)間規(guī)整DTW將輸入語(yǔ)音與標(biāo)注好邊界的標(biāo)準(zhǔn) 音進(jìn)行對(duì)齊,或是采用維特比Viterbi切分分別求出輸入語(yǔ)音和標(biāo)準(zhǔn)音的聲韻母邊界。
6. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)音高進(jìn)行規(guī)整 化處理,包括對(duì)音高均值的規(guī)整化和音高方差的規(guī)整化。
7. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)音高進(jìn)行規(guī)整 化處理,獲得規(guī)整音高曲線,具體包括將音高的單位轉(zhuǎn)換成半音,然后在每個(gè)韻母內(nèi)部將每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī) 整,首先計(jì)算所有韻母段的平均基頻M,并計(jì)算所有韻母段基頻的標(biāo)準(zhǔn)差,然后將每個(gè)韻母 段的基頻減去平均基頻M,并將得到的差值除以R,R表示調(diào)域,然后將每個(gè)韻母段的基頻規(guī) 整化為N點(diǎn),則每個(gè)韻母都會(huì)形成一個(gè)N點(diǎn)基頻曲線,把每個(gè)字的N點(diǎn)基頻曲線連起來(lái),形 成規(guī)整的音高曲線。
8. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整 化處理,包括建模單元層次的時(shí)長(zhǎng)規(guī)整化和句子層次的時(shí)長(zhǎng)規(guī)整化。
9. 根據(jù)權(quán)利要求8所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)建模單元層次 的時(shí)長(zhǎng)規(guī)整化,采用N等分元音建模單元處基頻曲線的方法對(duì)每個(gè)元音建模單元的基頻的 重采樣。
10. 根據(jù)權(quán)利要求8所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)句子層次的時(shí) 長(zhǎng)規(guī)整化,是采用一定方法消除語(yǔ)速對(duì)語(yǔ)調(diào)評(píng)估的影響;實(shí)現(xiàn)該過(guò)程,通過(guò)定義全句的所有建模單元的平均時(shí)長(zhǎng)為1對(duì)每個(gè)建模單元時(shí)長(zhǎng)進(jìn)行規(guī)整化,從而獲得各個(gè)建模單元的相對(duì)時(shí)長(zhǎng)。
11. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理,獲得規(guī)整時(shí)長(zhǎng)曲線,具體包括將音高的單位轉(zhuǎn)換成半音,然后將不同的韻母的時(shí)長(zhǎng)除以所有韻母的平均時(shí)長(zhǎng),獲得每個(gè)韻母的相對(duì)時(shí)長(zhǎng)信息,利用該相對(duì)時(shí)長(zhǎng)信息形成規(guī)整的時(shí)長(zhǎng)曲線。
12. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序,并抽取出有代表性的點(diǎn),形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量,具體包括將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序,然后對(duì)該排序進(jìn)行任意N等分并抽取N個(gè)特征點(diǎn),形成N維的音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量,N為自然數(shù)。
13. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,其特征在于,所述以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估,具體包括將音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量作為語(yǔ)調(diào)得分計(jì)算的一個(gè)重要特征,利用該特征對(duì)語(yǔ)調(diào)得分進(jìn)行擬合,實(shí)現(xiàn)對(duì)語(yǔ)調(diào)等級(jí)的分類,進(jìn)而實(shí)現(xiàn)對(duì)語(yǔ)調(diào)的評(píng)估。
全文摘要
本發(fā)明公開(kāi)了一種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法,該方法包括對(duì)輸入的語(yǔ)音進(jìn)行基頻提取,獲得連續(xù)不斷的基頻曲線;對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割,獲得聲韻母邊界,并對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整化處理,獲得規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線;將該規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線與標(biāo)準(zhǔn)音的規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線進(jìn)行比較,計(jì)算出輸入語(yǔ)音的音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差值;將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序,并抽取出有代表性的點(diǎn),形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量;以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。利用本發(fā)明,解決了現(xiàn)有的計(jì)算機(jī)輔助語(yǔ)言教學(xué)技術(shù)中的語(yǔ)調(diào)評(píng)估問(wèn)題。
文檔編號(hào)G09B19/06GK101727902SQ20081022540
公開(kāi)日2010年6月9日 申請(qǐng)日期2008年10月29日 優(yōu)先權(quán)日2008年10月29日
發(fā)明者徐波, 柯登峰, 浦劍濤, 陳振標(biāo) 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所