基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語言識別領(lǐng)域,涉及一種基于深度神經(jīng)網(wǎng)絡(luò)算法的口語發(fā)音評測方 法。
【背景技術(shù)】
[0002] 在不同語言的地區(qū)的人們當前的全球化加速了對外語水平的要求,對于英語作為 第二語言的學(xué)習(xí)者,電腦輔助語言學(xué)習(xí)是非常有幫助的。計算機輔助發(fā)音訓(xùn)練,旨在評估學(xué) 生的語音水平和檢測或識別一個高精度的發(fā)音錯誤或不足,其仍然是一個具有挑戰(zhàn)性的研 宄領(lǐng)域。
[0003] 傳統(tǒng)口語評測方案,目的是給出一個以音素為基本單位的分數(shù)。在計算這個分數(shù) 時,假設(shè)有一GMM+HMM模型能夠很好地根據(jù)某些聲學(xué)片段確定這些片段所對應(yīng)音素的似然 概率,然后通過似然差來衡量對應(yīng)音素的發(fā)音質(zhì)量,其計算復(fù)雜度消耗主要在
[0004] (1)強制對齊(FA):受約束的音素序列的Viterbi解碼過程。
[0005] (2)識別(REC):不受約束的音素序列的Viterbi解碼過程。
[0006] 由于REC是不受約束的音素序列的Viterbi解碼過程,相對于FA音素解碼網(wǎng)絡(luò)更 大,更耗時。
[0007] 同時,傳統(tǒng)口語評測方案,質(zhì)量主要依賴于聲學(xué)模型的質(zhì)量,因為基于的假設(shè)是一 些GMM+HMM模型能夠很好地根據(jù)某些聲學(xué)片段確定這些片段所對應(yīng)音素的似然概率。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明所要解決的技術(shù)問題是提供一種基于深度神經(jīng)網(wǎng)絡(luò)算法的口語發(fā)音評測 方法和系統(tǒng),用以提高語音識別的性能,且基于深讀神經(jīng)網(wǎng)絡(luò)算法的口語發(fā)音評測方法,其 計算復(fù)雜度相對較低。
[0009] 本發(fā)明解決上述技術(shù)問題所采取的技術(shù)方案如下:
[0010] 一種基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,包括:
[0011] 步驟一:將語音按幀提取為音頻特征向量序列;
[0012] 步驟二:將音頻特征輸入事先訓(xùn)練好的模型和口語評測文本、相應(yīng)單詞發(fā)音字典, 確定音素狀態(tài)的時間邊界,該模型為DNN+HMM模型;
[0013] 步驟三:在確定時間邊界后,提取時間邊界內(nèi)所有幀,按語音幀的幀長取平均值, 作為該音素狀態(tài)的后驗概率,并按照以下公式得到基于音素狀態(tài)后驗的單詞后驗得分:
[0014] P(word) =iEf=〇p(s{) ^1 ^
[0015] 其中,P(word)為單詞的后驗得分,為該單詞的第j個音素狀態(tài)的第i幀, PCS/)為S/的后驗概率,k為音素狀態(tài)所占的幀長,n為該單詞所包含的音素狀態(tài)個數(shù),即 音素狀態(tài)的后驗得分為其每一幀的后驗概率累加按所占幀長取平均,單詞的后驗得分則為 其所含的音素狀態(tài)后驗得分的平均值。
[0016] 所述音頻特征包括選取感知線性預(yù)測特征PLP或者梅爾倒譜系數(shù)MFCC特征。
[0017] 還包括步驟四:按照以下公式得到基于音素狀態(tài)后驗的句子級后驗得分,計算如 下:
[0018]
【主權(quán)項】
1. 一種基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,包括: 步驟一:將語音按幀提取為音頻特征向量序列; 步驟二:將音頻特征輸入事先訓(xùn)練好的模型和口語評測文本、相應(yīng)單詞發(fā)音字典,確定 音素狀態(tài)的時間邊界; 步驟三:在確定時間邊界后,提取時間邊界內(nèi)所有幀,按語音幀的幀長取平均值,作為 該音素狀態(tài)的后驗概率,并按照以下公式得到基于音素狀態(tài)后驗的單詞后驗得分:
其中,P(W〇rd)為單詞的后驗得分,5/為該單詞的第j個音素狀態(tài)的第i幀,PCS/)為 ?S/的后驗概率,k為音素狀態(tài)所占的幀長,n為該單詞所包含的音素狀態(tài)個數(shù),S卩音素狀態(tài) 的后驗得分為其每一幀的后驗概率累加按所占幀長取平均,單詞的后驗得分則為其所含的 音素狀態(tài)后驗得分的平均值。
2. 根據(jù)權(quán)利要求1或2所述的口語發(fā)音評測方法,其特征在于,還包括步驟四:按照以 下公式得到基于音素狀態(tài)后驗的句子級后驗得分,計算如下:
其中,P(sent)為句子的后驗得分,P(Si)為該句中第i幀的對應(yīng)音素狀態(tài)后驗概率,句 子的后驗得分便為其所有幀對應(yīng)音素狀態(tài)的后驗概率平均; 步驟五:通過預(yù)先設(shè)定的映射函數(shù),將單詞級和句子級的后驗得分映射到所需要的分 數(shù)段。
3. 根據(jù)權(quán)利要求1所述的口語發(fā)音評測方法,其特征在于,進一步包括: 將擁有相同上下文的音素狀態(tài)的后驗概率進行累加,作為當前音素狀態(tài)的后驗概率。
4. 根據(jù)權(quán)利要求1所述的口語發(fā)音評測方法,其特征在于,進一步包括: 根據(jù)訓(xùn)練數(shù)據(jù)確定好的各個音素狀態(tài)后驗概率分布,對音素狀態(tài)的后驗概率進行歸一 化; 由訓(xùn)練數(shù)據(jù)統(tǒng)計出當前音素狀態(tài)后驗概率在訓(xùn)練集上的均值與標準差,將當前音素狀 態(tài)的后驗概率減去其均值除以標準差,使其后驗概率歸一化到標準正太分布,用這歸一化 后的值作為它最終計算評分的后驗概率值。
5. 根據(jù)權(quán)利要求1所述的口語發(fā)音評測方法,其特征在于,進一步包括: 將每個音素的所有上下文不同的音素狀態(tài)累加起來,作為該音素后驗概率,以加強該 音素與其它音素的區(qū)分性。
6. 根據(jù)權(quán)利要求1所述的口語發(fā)音評測方法,其特征在于,進一步包括: 將擁有相同中心音素的狀態(tài)后驗概率進行累加,來代表該輸出結(jié)點狀態(tài)的后驗概率。
7. 根據(jù)權(quán)利要求2或3所述的口語發(fā)音評測方法,其特征在于,進一步包括: 通過訓(xùn)練數(shù)據(jù)估計各個音素狀態(tài)的在訓(xùn)練集上的后驗概率分布,將所有輸出音素狀態(tài) 的后驗概率進行歸一化。
【專利摘要】本發(fā)明公開了一種基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,包括:步驟一:將語音按幀提取為音頻特征向量序列;步驟二:將音頻特征輸入事先訓(xùn)練好的模型和口語評測文本、相應(yīng)單詞發(fā)音字典,確定音素狀態(tài)的時間邊界,該模型為DNN+HMM模型;步驟三:在確定時間邊界后,提取時間邊界內(nèi)所有幀,按語音幀的幀長取平均值,作為該音素狀態(tài)的后驗概率,并得到基于音素狀態(tài)后驗的單詞后驗得分,單詞的后驗得分則為其所含的音素狀態(tài)后驗得分的平均值。
【IPC分類】G10L25-69, G10L15-00, G10L15-06, G10L15-14
【公開號】CN104575490
【申請?zhí)枴緾N201410840991
【發(fā)明人】惠寅華, 王歡良, 楊嵩, 代大明, 袁軍峰, 林遠東
【申請人】蘇州馳聲信息科技有限公司
【公開日】2015年4月29日
【申請日】2014年12月30日