可以設(shè)定一個閾值S與LR的值比較來確定當(dāng)前幀為語音段或非語音段,滿足:
其中,K為頻帶總數(shù),從式(5)中可以看出LR的值與先驗信噪比、后驗信噪比有密切的 關(guān)系,當(dāng)后驗信噪比很大,即時,則LR的值也因此變得很大,_-:!;而當(dāng)后驗 信噪比時,先驗信噪比就成了計算LR的關(guān)鍵參數(shù)。
[0018]整個基于語音增強的語音端點檢測系統(tǒng)的流程框圖如圖3所示,從上述推導(dǎo)可知m 幀的對數(shù)似然比(LLR)為:
假設(shè)|故'二:& 乂:歸磁.乂, 表示以k為中心的連續(xù)2Μ+1幀,則以這2Μ+1個LLRs為 對象的判決規(guī)則為:
對于其中的第k頻段下的對數(shù)似然比我們可以將觀測信號在和_的概率代 入其中得到:
這是因為先驗信噪比可以根據(jù)后驗信噪比通過最大似然(ML)估計算法得到:
因此,可以簡單地將對數(shù)似然比LLR看成是后驗信噪比的函數(shù),即LLR的值取決 于噪聲能量譜長)。
[0019]另一方面,當(dāng)信噪比很低時,即噪聲能量譜i4(nvk}變大時,需要一個較小的閾值 S來降低發(fā)聲段誤判概率;反之需要大閾值^來和強信噪比信號進行匹配。從上面的分析中 可以看出,對數(shù)似然比LLR主要取決于噪聲能量譜的精確度。因此將閾值與當(dāng)前幀的最小噪 聲能量譜建立某種聯(lián)系,不僅可以使得VAD算法對于各種信噪比環(huán)境具有更好的魯棒性,同 時因為估計得到的最小噪聲能量譜小于ii_ji而保證了發(fā)聲段正確估計的冗余度。
[0020]假設(shè)能量譜是帶噪信號功率譜平滑得到,平滑因子aim,fe)是一 個時頻相關(guān)函數(shù),則:
此時,可以利用國外作者提出的基于最小統(tǒng)計的噪聲估計就可以得到每幀信號最小噪 聲功率譜。
[0021 ] 定義噪聲能量譜相關(guān)的閾值釋_為:
其中馬是該閾值的一個常系數(shù)。
[0022] 對所提出的VAD方法的性能進行驗證:在實驗中,采用錄制的非廣播干凈語料,共 2906句,采樣率為fs=8kHz;將該語料與平穩(wěn)、非平穩(wěn)噪聲混合得到不同信噪比下的帶噪語 音;其中平穩(wěn)噪聲來自于實際環(huán)境下的采集與錄制,而非平穩(wěn)噪聲(汽車噪聲和babble噪 聲)分另 1J來自于 http : //www · freesound · com和http ://spib.rice. edu/spib/data/ signals /noise/babble .htm;L用長為200的漢寧窗作為分析窗和分析窗,頻段總數(shù)K=256; 在噪聲估計中,平滑因子懸=_|:,先驗的語音概率P(羅)=Ρ(Η δ),并令方程(10)中的 ,連續(xù)的LLR個數(shù)為2Μ+1=17。
[0023] 雖然受試者操作特性(ROC)曲線在VAD算法的性能驗證中是一個通用的方法, 但該方法僅僅只能在幀級對VAD性能做出判斷,即它只能強調(diào)正確估計了多少幀的語音/ 非語音幀,卻對語音段/非語音段的判斷毫無辦法。比如,在Sohn的VAD算法中,它的R0C 曲線做得相對比較完美,但是在實際情況下,基于Sohn的VAD方法卻會出現(xiàn)很多碎片。 以一句帶噪語音來說明該情況,如圖1所示。
[0024] 從圖1(a)至圖1(d)中,我們可以看到采用Sohn的方法在低信噪比的環(huán)境下并不 能保證語音段的完整性,會出現(xiàn)很多細小的碎片;Tan在該方面的性能卻要更好一些。但過 多小碎片的存在使得這兩種方法不能保證自動語音識別在噪聲環(huán)境下的有效應(yīng)用。因此, 本發(fā)明為了驗證VAD算法的有效性,不僅考慮了幀級的性能,同時考慮了段級的性能。 [0025]圖2(a)至圖2(c)顯示了在平穩(wěn)噪聲不同信噪比下的VAD結(jié)果;從圖2(c)中我們 可以看到,本文提出的算法在語音幀的檢測正確個數(shù)4上與Sohn的VAD方法近似,且好 于Tan提出的VAD方法;而圖2(a)則說明了在語音段/非語音段的檢測中要遠遠好于其他兩 種方法。
[0026]汽車噪聲環(huán)境下的語音幀正確檢測數(shù)示意表格如下:
不同非平穩(wěn)噪聲下的性能比較示意表格如下:
上述兩表格給出了不同VAD算法在不同非平穩(wěn)噪聲下的性能;從第一個表格可以看到 Sohn的方法在語音幀數(shù)的檢測上具有最好的效果,然后正如上面所指出的,過分強調(diào)幀的 語音幀的正確性并不能說明該VAD算法就是最優(yōu)的;從第二個表格可以得出以下結(jié)論: 本發(fā)明所提出的VAD算法與基于諧波特征的M0LRT算法具有相似的SBR正確率,但卻比 基于諧波特征的M0LRT算法具有更為優(yōu)異的多VAcc,這也就說明了本發(fā)明中提出的端點檢 測方法要比傳統(tǒng)的方法具有更好的性能。
[0027]本發(fā)明提出的VAD算法在15dB和25dB的信噪比下具有相似的性能,這也就說了本 發(fā)明的VAD算法對噪聲具有很好的魯棒性。
[0028]上面結(jié)合附圖對本發(fā)明的實施方式作了詳細說明,但是本發(fā)明并不限于上述實施 方式,在本領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下 做出各種變化。
【主權(quán)項】
1. 一種基于似然比測試的噪聲魯棒性的檢測方法,包括W下步驟: 51、 通過維納濾波器對帶噪語音信號進行語音增強,W便減弱帶噪語音中的噪聲信號 對干凈語音的影響,且提高過濾后的噪聲信號的平穩(wěn)特性;經(jīng)過維納濾波器語音增強后的 帶噪語音信號4的可杖通過干凈語音S(R)和干擾噪聲說縣藝細禱到騎:疑吊識資:寺;礙韓 其中,η為時間采樣索引,且此時通過維納濾波器后的干凈語音信號和干擾噪聲可W具 備統(tǒng)計獨立且均值為零的特性; 52、 對帶噪語音進行傅立葉變換,經(jīng)過濾波的帶噪語音信號在頻譜域上通過干凈語音 信號的頻譜因子疊加干擾噪聲的頻譜因子得到;(1) 其中,擁纖錢、絲攘纖和褒錢嵌潑為每帖信號的短時傅立葉因子,m為帖索引,k為帖內(nèi)的 各個頻段值,S巧日^^分別表示非語音帖和語音帖; 53、 計算似然比,干凈語音信號和噪聲信號的概率密度都滿足高斯分布時,觀測信號 戮;犧轉(zhuǎn)在鷄和靖下的概率密度函數(shù)為其中毅聽游磯:二議錢瓣纖臟為語音信號的功率譜,續(xù)(娩轉(zhuǎn)二巧恢奸α)巧為噪聲 信號的功率譜; 該帖第k頻段的似然比值為:(3) 其中,:觀:成二賊餅V誠如誠分別表示先驗信噪比和 后驗信噪比,且先驗信噪比為繞和后驗信噪比豁聚在直接決策估計器中存在著W下關(guān)系:(4) 其中婦語^帶請觀聲穩(wěn)園秉里紛:-部縣謙示雜一賴城環(huán)替僞號趙峰,::蠻獄一車,嫁寨示燕 一帖的噪聲功率譜; 54、 進行噪聲估計,并設(shè)定闊值巧,將闊值與似然比的值相比較來確定當(dāng)前帖為語音 段或非語音段,當(dāng)似然比的值大于闊值時,初次判定該帖為語音帖,而當(dāng)似然比的值小于闊 值時,就認定該帖為非語音帖,具體可W通過如下公式表示:(5) 其中,K為頻帶總數(shù);群3和類分別表示非語音帖和語音帖; 55、 確定決策規(guī)則,m帖的對數(shù)似然比為:k 扁fc-恐:姆"、;!《識表示?為中必的連續(xù)2M+1帖,則W運2M+1個對數(shù)似然比 為對象的判決規(guī)則為:其中務(wù)指代每一巾扣對于其中的第k頻段下的對數(shù)似然比!饌無a:,將觀測信號在靖和藝 的概率代入其中得到:先驗信噪比后驗信噪比通過最大似然估計算法得到,即:因此,對數(shù)似然比的值取決于噪聲能量譜;錄|:游> 錢; S6、拖尾失真消除,當(dāng)信噪比低時,噪聲能量譜纔務(wù)游:錢變大,通過降低選取的闊值舞來 降低發(fā)聲段誤判概率;反之,通過增大闊值9來和高信噪比信號進行匹配; 帶噪語音功率譜譜0如兩由帶噪信號功率譜動諭猶P平滑得到,平滑因子機1編為 時頻相關(guān)函數(shù),則·其滅銅編疆一個攝騎頻捆黑酷聚賴國諭,利用基于最小統(tǒng)計的噪聲估計就可W得到每 帖信號最小噪聲功率譜^^:1賄賴,與所述噪聲能量譜相關(guān)的闊值鷄?^為:其中礙是該闊值的一個常系數(shù)。
【專利摘要】本發(fā)明公開了一種基于似然比測試的噪聲魯棒性的檢測方法,分別從信噪比的估計、閾值的魯棒性設(shè)置和拖尾失真消除三個方面進行改進,使得提出的算法相對于現(xiàn)有技術(shù)在低信噪比環(huán)境下尤其是非平穩(wěn)噪聲環(huán)境下具有更好的檢測性能。本發(fā)明所述的方法與基于諧波特征的多觀測似然比測試算法具有相似的語音邊界檢測正確率,但卻比基于諧波特征的多觀測似然比測試算法具有更好的聲音檢測精度,從而驗證本方法要比傳統(tǒng)的方法在性能上更為優(yōu)異;同時,本方法在15dB和25dB的信噪比下具有相似的性能,說明它對噪聲具有很好的魯棒性;本發(fā)明在實際環(huán)境中可以作為語音識別或者聲紋識別系統(tǒng)的前端預(yù)處理重要的有效方法,擁有很好的應(yīng)用價值。
【IPC分類】G10L25/87, G10L21/0232, G10L25/18, G10L25/21
【公開號】CN105575406
【申請?zhí)枴緾N201610008285
【發(fā)明人】李為, 朱杰, 包旭雷
【申請人】深圳市音加密科技有限公司
【公開日】2016年5月11日
【申請日】2016年1月7日