專利名稱:一種突發(fā)事件語音檢測方法
技術(shù)領(lǐng)域:
本發(fā)明屬于音頻檢測技術(shù)領(lǐng)域,具體涉及一種突發(fā)事件語音檢測方法。
背景技術(shù):
通常的語音識別系統(tǒng)由語音特征參數(shù)提取算法和模式匹配算法構(gòu)成。1)語音特征參數(shù)用于語音分類的特征參數(shù)很多,可以歸納為三大類時域特征參數(shù)、頻域特征參數(shù),同態(tài)(倒譜)特征參數(shù)。時域特征參數(shù)包括短時信號能量,短時信號平均過零率,信號短時自相關(guān)函數(shù)和平均幅度差函數(shù)。時域特征參數(shù)的特點是提取算法都不復雜,缺點是對信號的可鑒別能力有限,適用范圍有端點檢測和語音分幀。頻域特征參數(shù)包括傅里葉變換,離散余弦變換,線性預測分析。頻域特征參數(shù)與人類聽覺系統(tǒng)有一定的關(guān)系,但是頻域特征參數(shù)適用于加性信號,對于復雜的乘積性組合信號處理能力不好。同態(tài)(倒譜)特征參數(shù)非線性系統(tǒng)分析起來非常困難,需要進行同態(tài)分析,設(shè)法將非線性問題轉(zhuǎn)化為線性問題來處理,對音頻信號進行同態(tài)分析后,可得到音頻信號的倒譜系數(shù),因此同態(tài)分析也稱倒譜分析。倒譜分析通常采用線性預測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient, LPCC)和 Mel 頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC) LPCC算法的特點是高階系數(shù)可以由低階系數(shù)推到而得,所以計算量小,缺點是沒有考慮人耳的聽覺特性,故識別率不高。MFCC的特點是通過Mel濾波器組和對數(shù)運算的設(shè)計,模擬人耳聽覺模型,識別效果相對較好,缺點是由于必須通過FFT運算,所以計算量較大。另外,由于LPCC算法和MFCC算法有共同的假設(shè)前提,即一個語音信號完整的出現(xiàn)在一個樣本周期內(nèi),如圖1所示。但在實際情況中,一個完整的語音信號不一定就出現(xiàn)在一個周期內(nèi),可能在兩個取樣周期中出現(xiàn),如圖2所示。在這種情況下,無論是LPCC算法還是 MFCC算法所提取的特征系數(shù)都不能完全體現(xiàn)此語音信號的特征,會影響后來的匹配和判決過程。2)模式匹配及模型訓練技術(shù)語音識別所應用的模式匹配和模型訓練技術(shù)主要有動態(tài)時間歸正技術(shù)(Dynamic Time Warping, DTW)、隱馬爾可夫模型(Hidden Markov Model, HMM)和人工神經(jīng)元網(wǎng)絡 (Artificial Neural Networks,ANN)。DTW是較早的一種模式匹配和模型訓練技術(shù),它應用動態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在簡短詞語音識別中獲得了良好性能。人們有時候通常會發(fā)出某些特殊的語音,比如尖叫聲,語音突發(fā)事件檢測通過對這種特殊聲音進行識別來實現(xiàn)事件檢測,屬于孤立詞,特定人,小詞匯量的語音識別系統(tǒng)。 對于語音突發(fā)事件的檢測,由于輸入信號類似于單音信號,因此所需要的匹配模板可以較少。用于此類識別時,DTW算法與HMM算法在相同的條件下,識別效果相差不大,但HMM算法更復雜,主要體現(xiàn)在HMM算法在訓練階段需要提供大量的語音數(shù)據(jù),通過反復計算才能得到的模型參數(shù),而DTW算法的訓練中幾乎不需要額外的計算。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的上述不足,提供一種能夠提高判斷速率和語音識別正確率的突發(fā)事件語音檢測方法。為此,本發(fā)明采用如下的技術(shù)方案一種突發(fā)事件語音檢測方法,包括下列步驟1)確定合適的采集頻率,采集對突發(fā)事件應激反應所產(chǎn)生的語音模板信號,對其進行分幀處理;2)分別提取模板信號的MFCC和LPCC的特征系數(shù);3)采用相同的采集頻率采集待檢測信號;4)提取待檢測信號兩個連續(xù)幀中的第一幀的MFCC特征系數(shù),設(shè)模板信號的MFCC 特征系數(shù)和待檢測信號的MFCC特征系數(shù)的匹配距離為distl,若匹配距離distl低于預設(shè)的第一判決門限Tl時,判斷認為該待檢測信號與模板信號相匹配,為目標信號,結(jié)束本次檢測,否則,執(zhí)行下一步;5)若匹配距離大于Tl但小于預設(shè)的第二判決門限T2,則判斷該信號有極大可能性是目標信號,并執(zhí)行下一步,否則,認為該信號不是目標信號,結(jié)束本次檢測;6)對于待檢測信號的下一幀,提取其LPCC特征系數(shù),利用動態(tài)時間歸正模式識別方法,計算模板信號的LPCC特征系數(shù)和待檢測信號的LPCC特征系數(shù)的匹配距離dist2,若 dist2小于預設(shè)的第三判決門限T3,則認為該信號為目標信號,否則,判斷該信號不是目標信號。作為優(yōu)選實施方式,本發(fā)明的突發(fā)事件語音檢測方法,在提取MFCC或LPCC特征系數(shù)時候,還包括對模板或待檢測信號的一階差分信號進行特征提取。本發(fā)明的突發(fā)事件語音檢測通過預判斷方法和設(shè)置多個語音匹配判決門限,將 MFCC、LPCC譜系數(shù)和快速DTW(FDTW)算法相結(jié)合,兼顧了系統(tǒng)計算量和識別率,能夠提高突發(fā)事件語音檢測的整體效率。在基于DSP平臺的測試結(jié)果表明,新的事件檢測方法不但平均運算時間比MFCC&FDTW算法短,而且檢測方法的識別正確率也更高。本發(fā)明可應用于基于事件語音檢測的報警系統(tǒng),大大提高了準確率,降低了漏判率,具有更好的魯棒性。
圖1是樣本周期內(nèi)出現(xiàn)完整語音信號示意圖;圖2是樣本周期內(nèi)出現(xiàn)非完整語音信號示意圖;圖3是本發(fā)明提出的事件檢測新方法的程序流程圖。
具體實施例方式就語音突發(fā)信號而言,盡管一個完整的語音信號不一定就出現(xiàn)在一個樣本周期內(nèi),但是相鄰的樣本周期的信號之間有很強的相關(guān)性,因此,可以利用前一個樣本的的結(jié)果來預判斷下一個樣本的結(jié)果,從而選擇合適的語音特征系數(shù)提取的方法。本發(fā)明大致分為以下幾個步驟第一步采集模板信號,對其進行分幀處理。按照fs的采樣頻率采集模板信號,量
4化精度為16位,并且以一個固定數(shù)量的采樣點做為一幀,將采樣得到的模板信號劃分為多個幀。第二步提取模板信號每一幀的MFCC和LPCC的特征系數(shù)。分別求出模板信號每一幀的N階(N —般取12-16)的MFCC和LPCC特征系數(shù),也可上加上一階差分信號?,F(xiàn)有技術(shù)中,MFCC和LPCC特征系數(shù)的提取已經(jīng)有成熟的算法。在語音識別系統(tǒng)中,LPCC特征系數(shù)是由LPC系數(shù)推導出的,下面介紹常用的特征提取方法。在線性預測(LPC)分析中,聲道模型可表示為
權(quán)利要求
1.一種突發(fā)事件語音檢測方法,包括下列步驟1)確定合適的采集頻率,采集對突發(fā)事件應激反應所產(chǎn)生的語音模板信號,對其進行分幀處理;2)分別提取模板信號的MFCC和LPCC的特征系數(shù);3)采用相同的采集頻率采集待檢測信號;4)提取待檢測信號兩個連續(xù)幀中的第一幀的MFCC特征系數(shù),設(shè)模板信號的MFCC特征系數(shù)和待檢測信號的MFCC特征系數(shù)的匹配距離為distl,若匹配距離distl低于預設(shè)的第一判決門限Tl時,則判斷該待檢測信號與模板信號相匹配,為目標信號,結(jié)束本次檢測,否則,執(zhí)行下一步;5)若匹配距離大于Tl但小于預設(shè)的第二判決門限T2,則判斷該信號有極大可能性是目標信號,并執(zhí)行下一步,否則,認為該信號不是目標信號,結(jié)束本次檢測。6)對于待檢測信號的下一幀,提取其LPCC特征系數(shù),利用動態(tài)時間歸正模式識別方法,計算模板信號的LPCC特征系數(shù)和待檢測信號的LPCC特征系數(shù)的匹配距離dist2,若 dist2小于預設(shè)的第三判決門限T3,則認為該信號為目標信號,否則,判斷該信號不是目標信號。
2.根據(jù)權(quán)利要求1所述的突發(fā)事件音頻檢測方法,其特征在于,在提取MFCC或LPCC特征系數(shù)時候,還包括對模板或待檢測信號的一階差分信號進行特征提取。
全文摘要
本發(fā)明屬于音頻檢測技術(shù)領(lǐng)域,涉及一種突發(fā)事件語音檢測方法,包括下列步驟1)采集模板信號;2)分別提取模板信號的MFCC和LPCC的特征系數(shù);3)采集待檢測信號;4)提取待檢測信號兩個連續(xù)幀中的第一幀的MFCC特征系數(shù),若其與模板信號的MFCC特征系數(shù)的匹配距離dist1低于門限T1時,判斷其為目標信號,否則,若匹配距離大于T1但小于預設(shè)的第二判決門限T2,則判斷該信號有極大可能性是目標信號,并提取下一幀的LPCC特征系數(shù),計算其與模板信號的匹配距離dist2,若dist2小于門限T3,則認為該信號為目標信號。本發(fā)明能夠提高突發(fā)事件語音檢測判斷速率和語音識別正確率。
文檔編號G10L11/00GK102201230SQ20111016009
公開日2011年9月28日 申請日期2011年6月15日 優(yōu)先權(quán)日2011年6月15日
發(fā)明者全浩軍, 孫文博, 張濤, 楊雪, 王贊 申請人:天津大學