基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法

文檔序號：8261268閱讀：1092來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語言識別領(lǐng)域，涉及一種基于深度神經(jīng)網(wǎng)絡(luò)算法的口語發(fā)音評測方法。
【背景技術(shù)】
[0002] 在不同語言的地區(qū)的人們當前的全球化加速了對外語水平的要求，對于英語作為第二語言的學(xué)習(xí)者，電腦輔助語言學(xué)習(xí)是非常有幫助的。計算機輔助發(fā)音訓(xùn)練，旨在評估學(xué) 生的語音水平和檢測或識別一個高精度的發(fā)音錯誤或不足，其仍然是一個具有挑戰(zhàn)性的研宄領(lǐng)域。
[0003] 傳統(tǒng)口語評測方案，目的是給出一個以音素為基本單位的分數(shù)。在計算這個分數(shù) 時，假設(shè)有一GMM+HMM模型能夠很好地根據(jù)某些聲學(xué)片段確定這些片段所對應(yīng)音素的似然概率，然后通過似然差來衡量對應(yīng)音素的發(fā)音質(zhì)量，其計算復(fù)雜度消耗主要在
[0004] (1)強制對齊（FA):受約束的音素序列的Viterbi解碼過程。
[0005] (2)識別（REC):不受約束的音素序列的Viterbi解碼過程。
[0006] 由于REC是不受約束的音素序列的Viterbi解碼過程，相對于FA音素解碼網(wǎng)絡(luò)更大，更耗時。
[0007] 同時，傳統(tǒng)口語評測方案，質(zhì)量主要依賴于聲學(xué)模型的質(zhì)量，因為基于的假設(shè)是一些GMM+HMM模型能夠很好地根據(jù)某些聲學(xué)片段確定這些片段所對應(yīng)音素的似然概率。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明所要解決的技術(shù)問題是提供一種基于深度神經(jīng)網(wǎng)絡(luò)算法的口語發(fā)音評測方法和系統(tǒng)，用以提高語音識別的性能，且基于深讀神經(jīng)網(wǎng)絡(luò)算法的口語發(fā)音評測方法，其計算復(fù)雜度相對較低。
[0009] 本發(fā)明解決上述技術(shù)問題所采取的技術(shù)方案如下：
[0010] 一種基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法，包括：
[0011] 步驟一：將語音按幀提取為音頻特征向量序列；
[0012] 步驟二：將音頻特征輸入事先訓(xùn)練好的模型和口語評測文本、相應(yīng)單詞發(fā)音字典，確定音素狀態(tài)的時間邊界，該模型為DNN+HMM模型；
[0013] 步驟三：在確定時間邊界后，提取時間邊界內(nèi)所有幀，按語音幀的幀長取平均值，作為該音素狀態(tài)的后驗概率，并按照以下公式得到基于音素狀態(tài)后驗的單詞后驗得分：
[0014] P(word) =iEf=〇p(s{) ^1 ^
[0015] 其中，P(word)為單詞的后驗得分，為該單詞的第j個音素狀態(tài)的第i幀， PCS/)為S/的后驗概率，k為音素狀態(tài)所占的幀長，n為該單詞所包含的音素狀態(tài)個數(shù)，即音素狀態(tài)的后驗得分為其每一幀的后驗概率累加按所占幀長取平均，單詞的后驗得分則為其所含的音素狀態(tài)后驗得分的平均值。
[0016] 所述音頻特征包括選取感知線性預(yù)測特征PLP或者梅爾倒譜系數(shù)MFCC特征。
[0017] 還包括步驟四：按照以下公式得到基于音素狀態(tài)后驗的句子級后驗得分，計算如下：
[0018]
【主權(quán)項】
1. 一種基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法，包括：步驟一：將語音按幀提取為音頻特征向量序列；步驟二：將音頻特征輸入事先訓(xùn)練好的模型和口語評測文本、相應(yīng)單詞發(fā)音字典，確定音素狀態(tài)的時間邊界；步驟三：在確定時間邊界后，提取時間邊界內(nèi)所有幀，按語音幀的幀長取平均值，作為該音素狀態(tài)的后驗概率，并按照以下公式得到基于音素狀態(tài)后驗的單詞后驗得分：
其中，P(W〇rd)為單詞的后驗得分，5/為該單詞的第j個音素狀態(tài)的第i幀，PCS/)為 ?S/的后驗概率，k為音素狀態(tài)所占的幀長，n為該單詞所包含的音素狀態(tài)個數(shù)，S卩音素狀態(tài) 的后驗得分為其每一幀的后驗概率累加按所占幀長取平均，單詞的后驗得分則為其所含的音素狀態(tài)后驗得分的平均值。
2. 根據(jù)權(quán)利要求1或2所述的口語發(fā)音評測方法，其特征在于，還包括步驟四：按照以下公式得到基于音素狀態(tài)后驗的句子級后驗得分，計算如下：
其中，P(sent)為句子的后驗得分，P(Si)為該句中第i幀的對應(yīng)音素狀態(tài)后驗概率，句子的后驗得分便為其所有幀對應(yīng)音素狀態(tài)的后驗概率平均；步驟五：通過預(yù)先設(shè)定的映射函數(shù)，將單詞級和句子級的后驗得分映射到所需要的分數(shù)段。
3. 根據(jù)權(quán)利要求1所述的口語發(fā)音評測方法，其特征在于，進一步包括：將擁有相同上下文的音素狀態(tài)的后驗概率進行累加，作為當前音素狀態(tài)的后驗概率。
4. 根據(jù)權(quán)利要求1所述的口語發(fā)音評測方法，其特征在于，進一步包括：根據(jù)訓(xùn)練數(shù)據(jù)確定好的各個音素狀態(tài)后驗概率分布，對音素狀態(tài)的后驗概率進行歸一化；由訓(xùn)練數(shù)據(jù)統(tǒng)計出當前音素狀態(tài)后驗概率在訓(xùn)練集上的均值與標準差，將當前音素狀態(tài)的后驗概率減去其均值除以標準差，使其后驗概率歸一化到標準正太分布，用這歸一化后的值作為它最終計算評分的后驗概率值。
5. 根據(jù)權(quán)利要求1所述的口語發(fā)音評測方法，其特征在于，進一步包括：將每個音素的所有上下文不同的音素狀態(tài)累加起來，作為該音素后驗概率，以加強該音素與其它音素的區(qū)分性。
6. 根據(jù)權(quán)利要求1所述的口語發(fā)音評測方法，其特征在于，進一步包括：將擁有相同中心音素的狀態(tài)后驗概率進行累加，來代表該輸出結(jié)點狀態(tài)的后驗概率。
7. 根據(jù)權(quán)利要求2或3所述的口語發(fā)音評測方法，其特征在于，進一步包括：通過訓(xùn)練數(shù)據(jù)估計各個音素狀態(tài)的在訓(xùn)練集上的后驗概率分布，將所有輸出音素狀態(tài) 的后驗概率進行歸一化。
【專利摘要】本發(fā)明公開了一種基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法，包括：步驟一：將語音按幀提取為音頻特征向量序列；步驟二：將音頻特征輸入事先訓(xùn)練好的模型和口語評測文本、相應(yīng)單詞發(fā)音字典，確定音素狀態(tài)的時間邊界，該模型為DNN+HMM模型；步驟三：在確定時間邊界后，提取時間邊界內(nèi)所有幀，按語音幀的幀長取平均值，作為該音素狀態(tài)的后驗概率，并得到基于音素狀態(tài)后驗的單詞后驗得分，單詞的后驗得分則為其所含的音素狀態(tài)后驗得分的平均值。
【IPC分類】G10L25-69, G10L15-00, G10L15-06, G10L15-14
【公開號】CN104575490
【申請?zhí)枴緾N201410840991
【發(fā)明人】惠寅華, 王歡良, 楊嵩, 代大明, 袁軍峰, 林遠東
【申請人】蘇州馳聲信息科技有限公司
【公開日】2015年4月29日
【申請日】2014年12月30日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：惠寅華;王歡良;楊嵩;代大明;袁軍峰;林遠東;
技術(shù)所有人：蘇州馳聲信息科技有限公司;
我是此專利的發(fā)明人

上一篇：識別和分類車輛上的損壞事件的方法和用于該方法的裝置的制造方法
上一篇：機器人識別系統(tǒng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

英語口語發(fā)音相關(guān)技術(shù)

英語口語發(fā)音教程相關(guān)技術(shù)

口語發(fā)音相關(guān)技術(shù)

英語口語發(fā)音糾正相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法