一種運用人工神經(jīng)網(wǎng)絡(luò)進行前端處理的語音檢錯方法

文檔序號：2830181閱讀：414來源：國知局

專利名稱：一種運用人工神經(jīng)網(wǎng)絡(luò)進行前端處理的語音檢錯方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識別評測領(lǐng)域，具體是在使用計算機對發(fā)音人水平進行評測時綜合運用語音識別方法、語音學知識和人工神經(jīng)網(wǎng)絡(luò)知識等有效地提升語音識別系統(tǒng)的檢錯性能。
背景技術(shù)：
普通話水平測試是推廣普通話工作的重要方法，是使用推廣普通話工作逐步走向科學化、規(guī)范化、制度化的重要舉措。《中華人民共和國國家通用語言文字法》規(guī)定，以普通話作為工作語言的播音員、節(jié)目主持人、影視話劇演員、教師、國家機關(guān)工作人員必須參加普通話水平測試并達到國家規(guī)定的等級標準。目前進行的普通話水平測試工作全部采用人工評分的方式，一般每個普通話測試考場需要安排2-3名測試員，由測試員對考生說話的聲音進行評分，一個考場一天只能測試30人，一個上千人的普通話水平測試常常需要在短時間內(nèi)組織上百名測試員，不僅費時費力，測試成本高，而且效率低。由于全部采用人工的方式評分，測試員的主觀性很強，在一定程度上存在測試結(jié)果的公正性問題。因此，結(jié)合現(xiàn)代計算機技術(shù)的發(fā)展，研究開發(fā)如何將先進的信息技術(shù)應(yīng)用于普通話水平測試，全部替代或部分替代人工的評測員，從而彌補傳統(tǒng)的普通話水平測試方法的不足，對于節(jié)省人力物力等成本和提高測試的公正性、效率方面都具有重大的意義。計算機普通話水平測試系統(tǒng)的研究本身對于基礎(chǔ)資源庫、跨學科的合作等方法的要求很高，存在較大的難度。正是由于缺乏系統(tǒng)的指導和廣泛合作，計算機的方式實現(xiàn)普通話水平測試長期以來一直沒有得到研究人員的關(guān)注。中國科學技術(shù)大學訊飛語音實驗室承擔了國家語言文字應(yīng)用“十五”重點項目——“智能語音技術(shù)在普通話輔助學習中的應(yīng)用”。目前已完成主要方言語料庫的收集、標注、整理工作，在部分省市利用項目成果進行的計算機普通話水平測試已達到了較高的精度，可以對普通話口語面貌進行比較準確的評測，測試水平已經(jīng)達到省級測試員的水平，可在今后的普通話水平測試中逐步推廣使用。目前國際上針對語言學習的系統(tǒng)大都是基于計算機輔助語言學習(CALL)的評測學習系統(tǒng)，雖然也有在中文學習和評測方面的應(yīng)用，但此類的評測系統(tǒng)，由于沒有對中文進行針對性的處理，系統(tǒng)普適性和檢錯性能有待改進。如果能在評測系統(tǒng)中運用語音識別的通用原理，利用人工神經(jīng)網(wǎng)絡(luò)強大的模式分類能力，以及針對漢語的特點分析和音韻結(jié)構(gòu) 分析，將可以使評測系統(tǒng)的檢錯性能得到很大的提升，滿足漢語自動評測的推廣應(yīng)用需求。

發(fā)明內(nèi)容
本發(fā)明公開了一種運用人工神經(jīng)網(wǎng)絡(luò)進行前端處理的語音檢錯方法，在語音識別系統(tǒng)的框架下，使用多層感知器(MLP)提取出具有良好區(qū)分性的高維特征，利用機器主動地對學習者的發(fā)音進行分析和評判，指出發(fā)音人的錯誤及其錯誤程度，同時針對發(fā)音人的錯誤自動生成相應(yīng)的學習文本或語音樣例供發(fā)音人聯(lián)系。完整的運用人工神經(jīng)網(wǎng)絡(luò)進行前端處理的語音檢錯系統(tǒng)由兩部分組成特征提取部分和檢錯指導部分。特征提取部分首先對輸入的語音信號進行預(yù)處理，從中提取出原始的聲學特征 (一般采用的是39維MFCC特征)，經(jīng)過滑動窗口的選擇，選中輸入特征的當前幀和該幀前后各4幀，共計9幀進行擴展，組成一個351維的大向量作為多層感知器(MLP)的輸入。在神經(jīng)網(wǎng)絡(luò)訓練階段MLP使用反向傳播(BackPropagation，BP)算法和最小交叉熵準則 (Minimum Cross Entropy Criterion)利用帶標注的特征得到了所有的網(wǎng)絡(luò)權(quán)重參數(shù)，在之后的測試中MLP輸出的是后驗特征。這里MLP的輸出特征很自由，既可以是狀態(tài)級后驗概率也可以是音素級后驗概率。由于MLP的輸出特征呈偏斜分布(Skewed Distribution) 且具有高度的相關(guān)性，所以并不能直接作為后續(xù)HMM/GMM框架的輸入特征，必須經(jīng)過一些后處理模塊的操作，可以使用柔性最大值傳輸(softmax)函數(shù)對MLP的輸出特征進行處理，再取對數(shù)運算，其目的就是要修正后驗概率分布的偏斜性，使之更趨向于一個正態(tài)分布。之后經(jīng)過KL(Karhimen Loeve)變換，其作用一是去除維之間的相關(guān)性，二是降低維數(shù)，僅保留那些對全局方差有貢獻的特征分量，刪除冗余的數(shù)據(jù)信息?？紤]到原始特征與MLP及其后續(xù)模塊處理得到的特征之間具有互補性，為了提升系統(tǒng)的性能，最終的特征是由KL變化輸出的25維特征和原始39維特征拼接起來得到的。將融合后的64維特征作為后續(xù)檢錯系統(tǒng)的輸入特征，從而可以進一步完成語音評測的過程。檢錯指導部分首先采用已獲得的64維新特征訓練出標準發(fā)音HMM模型，并獲得標準發(fā)音的HMM參數(shù)分布。于是，對于系統(tǒng)輸入的文本相關(guān)的測試語音，可知其標準發(fā)音的 HMM模型，通過計算測試發(fā)音相對于標準發(fā)音的距離，生成錯誤檢測度量得分G0P，GOP作為后驗概率算法的一種變形，被定義在音素層面。假設(shè)某個待檢測的音素ρ對應(yīng)的觀測矢量是οΛ則音素ρ的GOP被定義為下式(假設(shè)各音素等概率出現(xiàn)，并且使用最大值近似累加項)。其中，N是所有模型單元的數(shù)目，Q為所有音素的模型集合。
權(quán)利要求
1.一種運用人工神經(jīng)網(wǎng)絡(luò)進行前端處理的語音檢錯方法，其特征是首先建立針對發(fā)音檢錯的標準數(shù)據(jù)庫，包括單字、短語和連續(xù)語流的標準發(fā)音；同時采集待檢錯的語料，對此進行細致到音素的人工標注；將標準語料和待檢錯語料分幀，按幀計算語音的Mel倒譜系數(shù)參數(shù)(MFCC)，利用人工神經(jīng)網(wǎng)絡(luò)強大的模式分類能力，產(chǎn)生新的具有良好區(qū)分性的前端特征；之后，在標準數(shù)據(jù)庫上使用HTK搭建基于隱馬爾可夫模型(HMM)的語音識別器；對于系統(tǒng)輸入的文本相關(guān)的測試語音，可知其標準發(fā)音的HMM模型，通過計算測試發(fā)音相對于標準發(fā)音的距離，生成錯誤檢測度量得分，進而判斷其發(fā)音是否準確。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于先將39維原始MFCC特征和相應(yīng)的人工標注提供給多層感知器(MLP)進行訓練，同時合理地設(shè)置相關(guān)參數(shù)，如將滑動窗口的大小設(shè) 置為9幀，又如使隱層節(jié)點數(shù)目的設(shè)置滿足MLP平均每個權(quán)重至少分到20幀數(shù)據(jù)的要求。接著，對MLP解碼得到的輸出特征進行去相關(guān)和高斯化操作，將特征降至25維。最后，把KL 變換輸出的25維特征和原始39維MFCC特征進行拼接，合并成64維的新特征，并轉(zhuǎn)換成 HTK格式。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于通過使用區(qū)分性訓練的神經(jīng)網(wǎng)絡(luò)去估計音素級后驗概率，將64維的新特征作為基于HMM統(tǒng)計模型的發(fā)音檢錯系統(tǒng)的輸入，語音識別器利用事先訓練好的聲學模型對輸入的聲學特征進行計算，得到檢錯所需要的檢錯特征，檢錯模塊利用得到的檢錯特征和事先訓練好的檢錯模型得出最終的檢錯結(jié)果。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于采用GOP(Goodness of !Pronunciation)作為錯誤檢測度量。GOP作為后驗概率(Posterior Probability,PP)算法的一種變形，被定義在音素層面。假設(shè)某個待檢測的音素P對應(yīng)的觀測矢量是οΛ則音素P的GOP被定義為下式(假設(shè)各音素等概率出現(xiàn)，并且使用最大值近似累加項)。其中，N是所有模型單元的數(shù)目，Q為所有音素的模型集合。GOP(p) = \og P(p\ol) =1 Ρ(0[\Ρ)Ρ(Ρ) log—S max:,尸(《I W
5.根據(jù)權(quán)利要求1所述的方法，其特征在于對采用最大似然線性回歸(MLLR)對基于隱馬爾可夫模型(HMM)的語音識別器的識別結(jié)果進行說話人自適應(yīng)，以提高系統(tǒng)的檢錯性能。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于1)建立音素平衡的標準發(fā)音人語音庫a)根據(jù)普通話檢錯要求的音素平衡原則設(shè)計錄音文本；b)分性別和年齡，尋找一批適合的標準發(fā)音人；c)安排標準發(fā)音人進行錄音工作。2)建立測試語料的語音庫a)在普通話水平測試的現(xiàn)場，選取不同性別、年齡、地域的一批考生；b)對這批考生的考試發(fā)音進行錄音，同時保存錄音試題，將錄音文件與錄音試題進行關(guān)聯(lián)。3)建立音段模型和音調(diào)模型a)運用標準發(fā)音人語料庫及相應(yīng)的文本信息，訓練標準語音的音段模型，可以是音素模型，也可以是上下文相關(guān)的音節(jié)模型。模型的訓練步驟為將語音分幀，幀長為250ms，幀移為10ms，按幀計算語音的MFCC參數(shù)，之后訓練各種音段的基于MFCC參數(shù)的HMM模型。b)運用標準發(fā)音人語料庫及相應(yīng)的文本信息，訓練標準語音的音調(diào)模型，可以是單純的四聲音調(diào)模型，也可以是與前后掉以及韻母相關(guān)的音調(diào)模型。模型的訓練步驟為將語音分幀，幀長為250ms，幀移為10ms，按幀計算語音的基頻參數(shù)，之后訓練各種音調(diào)的基于音頻參數(shù)的HMM模型。4)詳細標注發(fā)音錯誤即詳細標注語音庫中的每個字的聲母、韻母以及聲調(diào)的發(fā)音正確與否，并對每個不正確聲母、韻母及調(diào)型標識出其正確的聲母、韻母和聲調(diào)。5)針對漢語的聲韻母結(jié)構(gòu)和時長特性進行分析，得到、聲韻母時長與檢錯系統(tǒng)評測性能的關(guān)系，引入了針對漢語聲韻母結(jié)構(gòu)和時長處理策略。用標準音段模型和聲調(diào)模型對語音進行音段識別和音調(diào)識別，得到識別結(jié)果和對應(yīng)的音段識別似然度和音調(diào)識別似然度，之后計算出錯誤檢測度量G0P。
7.根據(jù)權(quán)利要求1所述的方法，其特征在于選擇合適的一個閾值，當某音素或音調(diào)的錯誤檢測度量GOP大于該閾值是就認為此音素或音調(diào)發(fā)音正確，否則認為發(fā)音錯誤。
全文摘要
一種運用人工神經(jīng)網(wǎng)絡(luò)進行前端處理的語音檢錯方法，包括使用多層感知器MLP從39維Mel倒譜系數(shù)參數(shù)中提取出擁有強大模式識別能力、具有良好區(qū)分性的64維新特征，在此基礎(chǔ)上對測試數(shù)據(jù)進行機器語音識別，生成錯誤檢測度量得分GOP，根據(jù)設(shè)定的閾值指出發(fā)音錯誤及其錯誤程度，并針對發(fā)音中的錯誤進行指導學習。
文檔編號G10L15/16GK102122507SQ201010046520
公開日2011年7月13日申請日期2010年1月8日優(yōu)先權(quán)日2010年1月8日
發(fā)明者龔澍申請人:龔澍

完整全部詳細技術(shù)資料下載