一種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法

文檔序號(hào)：2555306閱讀：255來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>辦公文教;裝訂;廣告設(shè)備的制造及其產(chǎn)品制作工藝

專利名稱：一種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音信息處理及計(jì)算機(jī)輔助教學(xué)技術(shù)領(lǐng)域，尤其涉及一種對(duì)語(yǔ)調(diào)進(jìn)行
評(píng)估的方法。
背景技術(shù)：
隨著語(yǔ)音技術(shù)的不斷發(fā)展，利用計(jì)算機(jī)輔助口語(yǔ)教學(xué)的應(yīng)用已經(jīng)在國(guó)內(nèi)外悄然興起。專利號(hào)200410074445公開(kāi)了一種基于語(yǔ)音識(shí)別及語(yǔ)音分析的發(fā)音評(píng)估方法，提出了對(duì) 每個(gè)音節(jié)的發(fā)音評(píng)估的方法。然而該方法沒(méi)有對(duì)漢語(yǔ)的語(yǔ)調(diào)層次的評(píng)估進(jìn)行描述。專利號(hào) 200510082059提出了一種語(yǔ)調(diào)相似性的匹配框架，但是沒(méi)有對(duì)具體方法進(jìn)行詳細(xì)描述，特別是涉及到如何匹配的部分，原專利描述含糊不清，并沒(méi)有對(duì)如何計(jì)算相似性作出合理的描述。而專利中提到的對(duì)提取不出基頻的位置進(jìn)行基頻平均化，本身也不是解決基頻提取問(wèn)題的根本途徑。該專利提出的方法，其主要缺點(diǎn)如下 1.專利號(hào)200510082059的方法以詞組為單位進(jìn)行重新劃分和處理音調(diào)數(shù)據(jù)。這樣做有兩個(gè)弊端。首先，詞組的長(zhǎng)度是非常不穩(wěn)定的，有的詞只含有一個(gè)音節(jié)，但有的詞可以含有多個(gè)音節(jié)，這非常不利于語(yǔ)速歸一化和調(diào)型歸一化。其次，詞組如果含有多個(gè)音節(jié)，中間可能出現(xiàn)清輔音和短靜音，基頻曲線在一個(gè)詞組內(nèi)部不能保證完全連續(xù)，因而不得不采用插值方法對(duì)無(wú)基頻處進(jìn)行插值修正，但這些修正都是會(huì)帶來(lái)誤差的，必然影響整體性能。 2.專利號(hào)200510082059的方法中的標(biāo)準(zhǔn)化和均勻化是在提取音調(diào)數(shù)據(jù)之后直接做的。這樣做并沒(méi)有充分利用好語(yǔ)音自動(dòng)切分模塊提供的邊界信息，當(dāng)靜音長(zhǎng)度發(fā)生變化時(shí)，必然影響基頻規(guī)整化的結(jié)果。 3.專利號(hào)200510082059的方法中對(duì)標(biāo)準(zhǔn)化的描述含糊不清。雖然提到了標(biāo)準(zhǔn)化，但是標(biāo)準(zhǔn)化的概念是模糊的，零均值化、方差化為一、分布化為正態(tài)分布等等，都可以稱為標(biāo)準(zhǔn)化。對(duì)于音調(diào)來(lái)說(shuō)，不同人有不同的音高，特別是男女聲大概相差一個(gè)八度音，因此，均值規(guī)整化是必要的。實(shí)驗(yàn)語(yǔ)音學(xué)成果還表明，不同人的調(diào)域也是不同的，特別是女聲的調(diào)域大約是男聲的1.5倍，因此，音高的方差規(guī)整化也是必要的。而分布的規(guī)整化只對(duì)聲調(diào)識(shí)別有用，是不必要的。 4.專利號(hào)200510082059的方法中對(duì)處理音調(diào)數(shù)據(jù)沒(méi)有詳細(xì)描述，該方法談及了通過(guò)切分結(jié)果，可以把每個(gè)詞對(duì)應(yīng)上。但是，每個(gè)詞的長(zhǎng)短是不一的，即使同個(gè)人讀同一句話兩次，也無(wú)法保證兩句話的長(zhǎng)度一直，如何解決長(zhǎng)短不一的兩個(gè)句子在時(shí)間上一一對(duì)應(yīng) 問(wèn)題，對(duì)解決語(yǔ)調(diào)的對(duì)比評(píng)估非常重要。 5.專利號(hào)200510082059的方法中提到，可以給出語(yǔ)調(diào)的相似度，但沒(méi)有給出具體方案。相似度的度量，并不是一個(gè)唯一確定的值，可以用歐幾里德距離、馬氏距離、相關(guān)系數(shù)、偏相關(guān)系數(shù)、平均誤差、均方誤差等等無(wú)窮盡的方法。不同方法的性能是有差異的。本發(fā)明的實(shí)驗(yàn)表明，采用相關(guān)系數(shù)法和均方誤差法比較好，并且相關(guān)系數(shù)法比均方誤差法要好很多。但是這兩種方法對(duì)基頻提取性能的要求很高，當(dāng)基頻提取錯(cuò)誤率上升到25%的時(shí)候，相關(guān)系數(shù)和均方誤差法評(píng)估的等級(jí)劃分錯(cuò)誤率提升到40% 。也就是說(shuō)，這些方法對(duì)基頻提取性能要求較高，隨著基頻提取性能下降，該方法性能下降非常快。可見(jiàn)，如何評(píng)估語(yǔ)調(diào)的好壞，還未有比較可行的解決方案。本發(fā)明正是針對(duì)現(xiàn)有方案的問(wèn)題，提出了一種可靠的語(yǔ)調(diào)的評(píng)估方法，用以解決語(yǔ)調(diào)評(píng)估問(wèn)題。該發(fā)明在國(guó)際上首次提出"排序誤差矢量"這種專門(mén)用于語(yǔ)調(diào)評(píng)估的特征。

發(fā)明內(nèi)容
( — )要解決的技術(shù)問(wèn)題有鑒于此，本發(fā)明的主要目的在于提出一種對(duì)語(yǔ)調(diào)進(jìn)行自動(dòng)評(píng)估的方法，用以解決現(xiàn)有的計(jì)算機(jī)輔助語(yǔ)言教學(xué)技術(shù)中的語(yǔ)調(diào)評(píng)估問(wèn)題，該方法還可用于語(yǔ)音合成中的語(yǔ)調(diào) 自動(dòng)評(píng)估。 (二)技術(shù)方案為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下 —種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，該方法包括對(duì)輸入的語(yǔ)音進(jìn)行基頻提取，獲得連續(xù)不斷的基頻曲線；對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割，獲得聲韻母邊界，并對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，獲得規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線；將該規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線與標(biāo)準(zhǔn)音的規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線進(jìn) 行比較，計(jì)算出輸入語(yǔ)音的音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差值；將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序，并抽取出有代表性的點(diǎn)，形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量；以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。上述方案中，所述對(duì)輸入的語(yǔ)音進(jìn)行基頻提取，獲得連續(xù)不斷的基頻曲線，具體包
括對(duì)輸入的語(yǔ)音先做初步提取，再利用頻譜上的諧波亮紋，對(duì)提取過(guò)程產(chǎn)生的倍頻和半頻
進(jìn)行修正，對(duì)提不出基頻的部分，利用嘎裂音基頻提取辦法對(duì)基頻進(jìn)行提取，再用樣條函數(shù)
對(duì)沒(méi)有基頻的位置進(jìn)行插值，從而獲得連續(xù)不斷的基頻曲線。上述方案中，所述對(duì)輸入的語(yǔ)音做初步提取，采用Praat的自相關(guān)法、AMDF算法、 YIN算法或基于統(tǒng)計(jì)模型的基頻識(shí)別方法。上述方案中，所述對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割，是以建模單元為單位對(duì)邊界進(jìn)行對(duì)齊，使待測(cè)語(yǔ)音與標(biāo)準(zhǔn)音的各個(gè)建模單元邊界一一對(duì)齊；對(duì)漢語(yǔ)建模單元來(lái)說(shuō)，是使聲韻母邊界對(duì)齊，包括聲母與聲母對(duì)齊、韻母與韻母對(duì)齊。上述方案中，所述對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割，獲得聲韻母邊界，是采用動(dòng)態(tài)時(shí)間規(guī)整DTW將輸入語(yǔ)音與標(biāo)注好邊界的標(biāo)準(zhǔn)音進(jìn)行對(duì)齊，或是采用維特比Viterbi切分分別求出輸入語(yǔ)音和標(biāo)準(zhǔn)音的聲韻母邊界。上述方案中，所述對(duì)音高進(jìn)行規(guī)整化處理，包括對(duì)音高均值的規(guī)整化和音高方差的規(guī)整化。上述方案中，所述對(duì)音高進(jìn)行規(guī)整化處理，獲得規(guī)整音高曲線，具體包括將音高的單位轉(zhuǎn)換成半音，然后在每個(gè)韻母內(nèi)部將每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整，首先計(jì)算所有韻母段的平均基頻M，并計(jì)算所有韻母段基頻的標(biāo)準(zhǔn)差，然后將每個(gè)韻母段的基頻減去平均基頻M，并將得到的差值除以R， R表示調(diào)域，然后將每個(gè)韻母段的基頻規(guī)整化為N點(diǎn)，則每個(gè)韻母都會(huì)形成一個(gè)N點(diǎn)基頻曲線，把每個(gè)字的N點(diǎn)基頻曲線連起來(lái)，形成規(guī)整的音高曲線。上述方案中，所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，包括建模單元層次的時(shí)長(zhǎng)規(guī)整化和句子層次的時(shí)長(zhǎng)規(guī)整化。上述方案中，所述對(duì)建模單元層次的時(shí)長(zhǎng)規(guī)整化，采用N等分元音建模單元處基頻曲線的方法對(duì)每個(gè)元音建模單元的基頻的重采樣。上述方案中，所述對(duì)句子層次的時(shí)長(zhǎng)規(guī)整化，是采用一定方法消除語(yǔ)速對(duì)語(yǔ)調(diào)評(píng) 估的影響；實(shí)現(xiàn)該過(guò)程，通過(guò)定義全句的所有建模單元的平均時(shí)長(zhǎng)為1對(duì)每個(gè)建模單元時(shí) 長(zhǎng)進(jìn)行規(guī)整化，從而獲得各個(gè)建模單元的相對(duì)時(shí)長(zhǎng)。上述方案中，所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，獲得規(guī)整時(shí)長(zhǎng)曲線，具體包括將音高的單位轉(zhuǎn)換成半音，然后將不同的韻母的時(shí)長(zhǎng)除以所有韻母的平均時(shí)長(zhǎng)，獲得每個(gè)韻母的相對(duì)時(shí)長(zhǎng)信息，利用該相對(duì)時(shí)長(zhǎng)信息形成規(guī)整的時(shí)長(zhǎng)曲線。上述方案中，所述將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序，并抽取出有代表性的點(diǎn)，形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量，具體包括將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序，然后對(duì)該排序進(jìn)行任意N等分并抽取N個(gè)特征點(diǎn)，形成N維的音高排序誤差矢量和時(shí) 長(zhǎng)排序誤差矢量，N為自然數(shù)。上述方案中，所述以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng) 估，具體包括將音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量作為語(yǔ)調(diào)得分計(jì)算的一個(gè)重要特征，利用該特征對(duì)語(yǔ)調(diào)得分進(jìn)行擬合，實(shí)現(xiàn)對(duì)語(yǔ)調(diào)等級(jí)的分類，進(jìn)而實(shí)現(xiàn)對(duì)語(yǔ)調(diào)的評(píng)估。
(三)有益效果從上述技術(shù)方案可以看出，本發(fā)明具有以下有益效果 1、本發(fā)明采用語(yǔ)音建模單元為分塊單位，建模單位的長(zhǎng)度比較穩(wěn)定的，不受詞組長(zhǎng)短的影響，因此很適合進(jìn)行語(yǔ)速歸一化和調(diào)型歸一化。 2、從目前的研究成果看，有調(diào)語(yǔ)言中對(duì)聲調(diào)的感知的貢獻(xiàn)是在元音段的，因此本發(fā)明提倡將建模單元分為輔音建模單元和元音建模單元，輔音建模單元的基頻是不予考慮的，只考慮元音建模單元的基頻。 3、本發(fā)明將標(biāo)準(zhǔn)化和均勻化放在邊界切分之后進(jìn)行，此時(shí)標(biāo)準(zhǔn)化可以利用邊界信息，剔除靜音段(無(wú)基頻段)以及輔音段(無(wú)需考慮基頻的段)。這樣無(wú)論靜音、停頓的長(zhǎng) 度如何，都不會(huì)影響基頻規(guī)整化的最終結(jié)果。 4、本發(fā)明提出的規(guī)整化包含均值和方差的規(guī)整化過(guò)程，考慮到句子音高不一定覆蓋整個(gè)調(diào)域，本發(fā)明還采用了方差規(guī)整門(mén)限解決此問(wèn)題。 5、本發(fā)明提出將基頻曲線一分為二的思想，將一條基頻曲線，劃分成"表示調(diào)型的曲線"和"表示時(shí)長(zhǎng)的曲線"兩條曲線，這樣做既可以對(duì)比兩句化的調(diào)型差異，又可以對(duì)比兩句話中每個(gè)建模單元的長(zhǎng)短差異，既解決了一一對(duì)應(yīng)問(wèn)題，又使得每條曲線的物理意義更加明確。 6、本發(fā)明中提出了一種新的特征——排序誤差矢量，這種特征對(duì)基頻提取性能的影響不太敏感，在基頻提取錯(cuò)誤率上升到25%的時(shí)候，還能保證等級(jí)劃分錯(cuò)誤率在23%的水平。

圖1是本發(fā)明提供的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法流程圖；圖2是依照本發(fā)明實(shí)施例對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法流程圖；圖3是依照本發(fā)明實(shí)施例對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整的方法流程圖；圖4是依照本發(fā)明實(shí)施例對(duì)每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整的方法流程圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
本發(fā)明的基本構(gòu)思為提取語(yǔ)音的基頻特征，通過(guò)對(duì)齊和規(guī)整后，與標(biāo)準(zhǔn)音進(jìn)行音
高誤差和時(shí)長(zhǎng)誤差統(tǒng)計(jì)，得到排序誤差矢量，通過(guò)排序誤差矢量來(lái)描述的句子語(yǔ)調(diào)的好壞，
用排序誤差矢量解決句子長(zhǎng)短不一的問(wèn)題，并最終用排序誤差矢量對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。如圖1所示，圖1是本發(fā)明提供的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法流程圖，該方法包括步驟101 :對(duì)輸入的語(yǔ)音進(jìn)行基頻提取，獲得連續(xù)不斷的基頻曲線；步驟102 :對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割，獲得聲韻母邊界，并對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)
整化處理，獲得規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線；步驟103 :將該規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線與標(biāo)準(zhǔn)音的規(guī)整音高曲線和規(guī)整時(shí)
長(zhǎng)曲線進(jìn)行比較，計(jì)算出輸入語(yǔ)音的音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差值；步驟104 :將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序，并抽取出有代表性的點(diǎn)，形成音
高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量；步驟105 :以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。
上述步驟101中所述對(duì)輸入的語(yǔ)音進(jìn)行基頻提取，獲得連續(xù)不斷的基頻曲線，具體包括對(duì)輸入的語(yǔ)音先做初步提取，再利用頻譜上的諧波亮紋，對(duì)提取過(guò)程產(chǎn)生的倍頻和半頻進(jìn)行修正，對(duì)提不出基頻的部分，利用嘎裂音基頻提取辦法對(duì)基頻進(jìn)行提取，再用樣條函數(shù)對(duì)沒(méi)有基頻的位置進(jìn)行插值，從而獲得連續(xù)不斷的基頻曲線。此處，對(duì)輸入的語(yǔ)音做初步提取，可以采用任何一種非頻域的算法，例如Praat的自相關(guān)法、AMDF算法、YIN算法以及基于統(tǒng)計(jì)模型的基頻識(shí)別算法等。其中，Praat是一個(gè)軟件的名稱，Praat在1993年提出的基頻提取算法；AMDF是平均幅度差函數(shù)(average magnitude difference function) ;YIN 是日本人提出的算法，是根據(jù)中國(guó)"陰陽(yáng)相生相克"的思想做出來(lái)的，所以稱"YIN"。
上述步驟102中所述對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割，是以建模單元為單位對(duì)邊界進(jìn) 行對(duì)齊，使待測(cè)語(yǔ)音與標(biāo)準(zhǔn)音的各個(gè)建模單元邊界一一對(duì)齊；對(duì)漢語(yǔ)建模單元來(lái)說(shuō)，是使聲韻母邊界對(duì)齊，包括聲母與聲母對(duì)齊、韻母與韻母對(duì)齊。所述對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割，獲得聲韻母邊界，是采用動(dòng)態(tài)時(shí)間規(guī)整(DTW)將輸入語(yǔ)音與標(biāo)注好邊界的標(biāo)準(zhǔn)音進(jìn)行對(duì) 齊，或是采用維特比(Viterbi)切分分別求出輸入語(yǔ)音和標(biāo)準(zhǔn)音的聲韻母邊界。
上述步驟103中所述對(duì)音高進(jìn)行規(guī)整化處理，包括對(duì)音高均值的規(guī)整化和音高方差的規(guī)整化。所述對(duì)音高進(jìn)行規(guī)整化處理，獲得規(guī)整音高曲線，具體包括將音高的單位轉(zhuǎn) 換成半音，然后在每個(gè)韻母內(nèi)部將每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整，首先計(jì)算所有韻母段的平均基頻M，并計(jì)算所有韻母段基頻的標(biāo)準(zhǔn)差，然后將每個(gè)韻母段的基頻減去平均基頻M，并將得到的差值除以R(R為range,即表示調(diào)域)，然后將每個(gè)韻母段的基頻規(guī)整化為N 點(diǎn)，則每個(gè)韻母都會(huì)形成一個(gè)N點(diǎn)基頻曲線，把每個(gè)字的N點(diǎn)基頻曲線連起來(lái)，形成規(guī)整的音高曲線。所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，包括建模單元層次的時(shí)長(zhǎng)規(guī)整化和句子層次的時(shí)長(zhǎng) 規(guī)整化。所述對(duì)建模單元層次的時(shí)長(zhǎng)規(guī)整化，采用N等分元音建模單元處基頻曲線的方法對(duì)每個(gè)元音建模單元的基頻的重采樣。所述對(duì)句子層次的時(shí)長(zhǎng)規(guī)整化，是采用一定方法消
除語(yǔ)速對(duì)語(yǔ)調(diào)評(píng)估的影響；實(shí)現(xiàn)該過(guò)程，通過(guò)定義全句的所有建模單元的平均時(shí)長(zhǎng)為1對(duì) 每個(gè)建模單元時(shí)長(zhǎng)進(jìn)行規(guī)整化，從而獲得各個(gè)建模單元的相對(duì)時(shí)長(zhǎng)。上述步驟103中所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，獲得規(guī)整時(shí)長(zhǎng)曲線，具體包括將音高的單位轉(zhuǎn)換成半音，然后將不同的韻母的時(shí)長(zhǎng)除以所有韻母的平均時(shí)長(zhǎng)，獲得每個(gè)韻母的相對(duì)時(shí)長(zhǎng)信息，利用該相對(duì)時(shí)長(zhǎng)信息形成規(guī)整的時(shí)長(zhǎng)曲線。上述步驟104中所述將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序，并抽取出有代表性的點(diǎn)，形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量，具體包括將音高和時(shí)長(zhǎng)的誤差值分別進(jìn) 行排序，然后對(duì)該排序進(jìn)行任意N等分并抽取N個(gè)特征點(diǎn)，形成N維的音高排序誤差矢量
和時(shí)長(zhǎng)排序誤差矢量，N為自然數(shù)。一種可行的辦法是分別抽取10%、20%、30%........
100%處的誤差值，形成10維的音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量。上述步驟105中所述以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)
行評(píng)估，具體包括將音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量作為語(yǔ)調(diào)得分計(jì)算的一個(gè)重
要特征，利用該特征對(duì)語(yǔ)調(diào)得分進(jìn)行擬合，實(shí)現(xiàn)對(duì)語(yǔ)調(diào)等級(jí)的分類，進(jìn)而實(shí)現(xiàn)對(duì)語(yǔ)調(diào)的評(píng)估。下面以漢語(yǔ)普通話的語(yǔ)調(diào)評(píng)估為例。如圖2所示，圖2是依照本發(fā)明實(shí)施例對(duì)語(yǔ) 調(diào)進(jìn)行評(píng)估的方法流程圖。從210處輸入的語(yǔ)音要通過(guò)220提取基頻，要通過(guò)270獲得聲韻母邊界，然后在230處對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，在240處求出規(guī)整化的音高和規(guī)整化的時(shí)長(zhǎng)跟標(biāo)準(zhǔn)音比較的誤差，在250處將這些誤差值排序，抽取出有代表性的點(diǎn)，形成排序誤差適量，再通過(guò)260對(duì)語(yǔ)調(diào)的好壞進(jìn)行評(píng)估和診斷。在210處輸入的語(yǔ)音，既可以是錄音設(shè)備實(shí)時(shí)地輸入，也可以是從已經(jīng)存盤(pán)的文件中讀取出來(lái)。在220處提取基頻，可以采用Praat的自相關(guān)法先做初步提取，再利用頻譜上的諧波亮紋，對(duì)提取過(guò)程產(chǎn)生的倍頻和半頻進(jìn)行修正，對(duì)提不出基頻的部分，利用嘎裂音基頻提取辦法對(duì)基頻進(jìn)行提取，再用樣條函數(shù)對(duì)沒(méi)有基頻的位置進(jìn)行插值。從而獲得連續(xù)不斷的基頻曲線。在270處對(duì)語(yǔ)音進(jìn)行對(duì)齊分割，可以采用動(dòng)態(tài)時(shí)間規(guī)整(DTW)把輸入語(yǔ)音與標(biāo)注好邊界的標(biāo)準(zhǔn)音進(jìn)行對(duì)齊，也可以采用維特比(Viterbi)切分分別求出輸入語(yǔ)音和標(biāo)準(zhǔn)音的聲韻母邊界。在230處進(jìn)行音高和時(shí)長(zhǎng)規(guī)整化，一種可行的辦法是將音高的單位轉(zhuǎn)換成半音 (semitone)，然后按照?qǐng)D3所示方法進(jìn)行規(guī)整。圖3是依照本發(fā)明實(shí)施例對(duì)音高和時(shí)長(zhǎng)進(jìn) 行規(guī)整的方法流程圖。首先在320處進(jìn)行時(shí)長(zhǎng)規(guī)整，不同的韻母的時(shí)長(zhǎng)除以所有韻母的平均時(shí)長(zhǎng)，獲得每個(gè)韻母的相對(duì)時(shí)長(zhǎng)信息，該信息輸出為340處的"規(guī)整的時(shí)長(zhǎng)曲線"。而對(duì) 每個(gè)韻母內(nèi)部，則在330按照?qǐng)D4所示方法把每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整，圖4是依照本發(fā)明實(shí)施例對(duì)每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī)整的方法流程圖。首先在410處計(jì)算所有韻母段的平均基頻M，在420處計(jì)算所有韻母段基頻的標(biāo)準(zhǔn)差，在430處把每個(gè)韻母段的基頻減去平均基頻M，在450處把430的輸出除以R(注意450處把每個(gè)基頻除以R而不是 S，是因?yàn)楫?dāng)整句話都是第一聲時(shí)，S遠(yuǎn)遠(yuǎn)小于真實(shí)調(diào)域，所以需要統(tǒng)計(jì)人的調(diào)域門(mén)限來(lái) 輔助修正這個(gè)不足)，然后在460處把每個(gè)韻母段的基頻規(guī)整化為N點(diǎn)，則每個(gè)韻母都會(huì)在 470處形成一個(gè)N點(diǎn)基頻曲線，把每個(gè)字的N點(diǎn)基頻曲線連起來(lái)，在350處形成規(guī)整的句子音高曲線。在240處，通過(guò)對(duì)比標(biāo)準(zhǔn)音的"規(guī)整音高曲線"和"規(guī)整時(shí)長(zhǎng)曲線"，可以一一對(duì)應(yīng) 地計(jì)算出音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差。然后在250處，將音高的誤差值進(jìn)行排序，將時(shí)長(zhǎng)的誤差值進(jìn)行排序，分別抽取
10%，20%，30%，......，100%處的誤差值，形成10維的音高排序誤差矢量和時(shí)長(zhǎng)排序誤
差矢量，以這兩個(gè)排序誤差矢量為特征輸入到260處進(jìn)行語(yǔ)調(diào)評(píng)估。此方法不僅可以對(duì)整句進(jìn)行語(yǔ)調(diào)評(píng)估，還可以對(duì)句子中指定的韻律詞，韻律短語(yǔ) 等小片段進(jìn)行評(píng)估，按照260的輸出結(jié)果，可以知道具體錯(cuò)誤在哪個(gè)韻律詞或者哪個(gè)韻律短語(yǔ)，從而完成語(yǔ)調(diào)錯(cuò)誤位置的具體診斷。此方法還可以應(yīng)用在語(yǔ)音合成中，對(duì)合成的語(yǔ)調(diào)進(jìn)行自動(dòng)評(píng)估。以上所述的具體實(shí)施例，對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳
細(xì)說(shuō)明，所應(yīng)理解的是，以上所述僅為本發(fā)明的具體實(shí)施例而已，并不用于限制本發(fā)明，凡
在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保
護(hù)范圍之內(nèi)。
權(quán)利要求
一種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，該方法包括對(duì)輸入的語(yǔ)音進(jìn)行基頻提取，獲得連續(xù)不斷的基頻曲線；對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割，獲得聲韻母邊界，并對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，獲得規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線；將該規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線與標(biāo)準(zhǔn)音的規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線進(jìn)行比較，計(jì)算出輸入語(yǔ)音的音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差值；將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序，并抽取出有代表性的點(diǎn)，形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量；以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。
2. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)輸入的語(yǔ)音進(jìn) 行基頻提取，獲得連續(xù)不斷的基頻曲線，具體包括對(duì)輸入的語(yǔ)音先做初步提取，再利用頻譜上的諧波亮紋，對(duì)提取過(guò)程產(chǎn)生的倍頻和半頻進(jìn)行修正，對(duì)提不出基頻的部分，利用嘎裂音基頻提取辦法對(duì)基頻進(jìn)行提取，再用樣條函數(shù)對(duì)沒(méi)有基頻的位置進(jìn)行插值，從而獲得連續(xù)不斷的基頻曲線。
3. 根據(jù)權(quán)利要求2所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)輸入的語(yǔ)音做初步提取，采用Praat的自相關(guān)法、AMDF算法、YIN算法或基于統(tǒng)計(jì)模型的基頻識(shí)別方法。
4 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)輸入的語(yǔ)音進(jìn) 行對(duì)齊分割，是以建模單元為單位對(duì)邊界進(jìn)行對(duì)齊，使待測(cè)語(yǔ)音與標(biāo)準(zhǔn)音的各個(gè)建模單元邊界一一對(duì)齊；對(duì)漢語(yǔ)建模單元來(lái)說(shuō)，是使聲韻母邊界對(duì)齊，包括聲母與聲母對(duì)齊、韻母與韻母對(duì)齊。
5. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)輸入的語(yǔ)音進(jìn) 行對(duì)齊分割，獲得聲韻母邊界，是采用動(dòng)態(tài)時(shí)間規(guī)整DTW將輸入語(yǔ)音與標(biāo)注好邊界的標(biāo)準(zhǔn) 音進(jìn)行對(duì)齊，或是采用維特比Viterbi切分分別求出輸入語(yǔ)音和標(biāo)準(zhǔn)音的聲韻母邊界。
6. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)音高進(jìn)行規(guī)整化處理，包括對(duì)音高均值的規(guī)整化和音高方差的規(guī)整化。
7. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)音高進(jìn)行規(guī)整化處理，獲得規(guī)整音高曲線，具體包括將音高的單位轉(zhuǎn)換成半音，然后在每個(gè)韻母內(nèi)部將每個(gè)建模單元內(nèi)部的音高進(jìn)行規(guī) 整，首先計(jì)算所有韻母段的平均基頻M，并計(jì)算所有韻母段基頻的標(biāo)準(zhǔn)差，然后將每個(gè)韻母段的基頻減去平均基頻M，并將得到的差值除以R，R表示調(diào)域，然后將每個(gè)韻母段的基頻規(guī) 整化為N點(diǎn)，則每個(gè)韻母都會(huì)形成一個(gè)N點(diǎn)基頻曲線，把每個(gè)字的N點(diǎn)基頻曲線連起來(lái)，形成規(guī)整的音高曲線。
8. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，包括建模單元層次的時(shí)長(zhǎng)規(guī)整化和句子層次的時(shí)長(zhǎng)規(guī)整化。
9. 根據(jù)權(quán)利要求8所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)建模單元層次的時(shí)長(zhǎng)規(guī)整化，采用N等分元音建模單元處基頻曲線的方法對(duì)每個(gè)元音建模單元的基頻的重采樣。
10. 根據(jù)權(quán)利要求8所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)句子層次的時(shí) 長(zhǎng)規(guī)整化，是采用一定方法消除語(yǔ)速對(duì)語(yǔ)調(diào)評(píng)估的影響；實(shí)現(xiàn)該過(guò)程，通過(guò)定義全句的所有建模單元的平均時(shí)長(zhǎng)為1對(duì)每個(gè)建模單元時(shí)長(zhǎng)進(jìn)行規(guī)整化，從而獲得各個(gè)建模單元的相對(duì)時(shí)長(zhǎng)。
11. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述對(duì)時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，獲得規(guī)整時(shí)長(zhǎng)曲線，具體包括將音高的單位轉(zhuǎn)換成半音，然后將不同的韻母的時(shí)長(zhǎng)除以所有韻母的平均時(shí)長(zhǎng)，獲得每個(gè)韻母的相對(duì)時(shí)長(zhǎng)信息，利用該相對(duì)時(shí)長(zhǎng)信息形成規(guī)整的時(shí)長(zhǎng)曲線。
12. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序，并抽取出有代表性的點(diǎn)，形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量，具體包括將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序，然后對(duì)該排序進(jìn)行任意N等分并抽取N個(gè)特征點(diǎn)，形成N維的音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量，N為自然數(shù)。
13. 根據(jù)權(quán)利要求1所述的對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，其特征在于，所述以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估，具體包括將音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量作為語(yǔ)調(diào)得分計(jì)算的一個(gè)重要特征，利用該特征對(duì)語(yǔ)調(diào)得分進(jìn)行擬合，實(shí)現(xiàn)對(duì)語(yǔ)調(diào)等級(jí)的分類，進(jìn)而實(shí)現(xiàn)對(duì)語(yǔ)調(diào)的評(píng)估。
全文摘要
本發(fā)明公開(kāi)了一種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法，該方法包括對(duì)輸入的語(yǔ)音進(jìn)行基頻提取，獲得連續(xù)不斷的基頻曲線；對(duì)輸入的語(yǔ)音進(jìn)行對(duì)齊分割，獲得聲韻母邊界，并對(duì)音高和時(shí)長(zhǎng)進(jìn)行規(guī)整化處理，獲得規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線；將該規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線與標(biāo)準(zhǔn)音的規(guī)整音高曲線和規(guī)整時(shí)長(zhǎng)曲線進(jìn)行比較，計(jì)算出輸入語(yǔ)音的音高和時(shí)長(zhǎng)相對(duì)于標(biāo)準(zhǔn)音的誤差值；將音高和時(shí)長(zhǎng)的誤差值分別進(jìn)行排序，并抽取出有代表性的點(diǎn)，形成音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量；以音高排序誤差矢量和時(shí)長(zhǎng)排序誤差矢量為特征對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估。利用本發(fā)明，解決了現(xiàn)有的計(jì)算機(jī)輔助語(yǔ)言教學(xué)技術(shù)中的語(yǔ)調(diào)評(píng)估問(wèn)題。
文檔編號(hào)G09B19/06GK101727902SQ20081022540
公開(kāi)日2010年6月9日申請(qǐng)日期2008年10月29日優(yōu)先權(quán)日2008年10月29日
發(fā)明者徐波, 柯登峰, 浦劍濤, 陳振標(biāo) 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：柯登峰;陳振標(biāo);浦劍濤;徐波
技術(shù)所有人：中國(guó)科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)調(diào)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種對(duì)語(yǔ)調(diào)進(jìn)行評(píng)估的方法