一種基于似然比測試的噪聲魯棒性的檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音處理和信號處理領(lǐng)域,特別指一種基于似然比測試的噪聲魯棒性 的檢測方法。
【背景技術(shù)】
[0002] 語音端點檢測(VAD)是語音處理相關(guān)技術(shù)中的一個非常關(guān)鍵的部分,它不僅可 用于語音增強中的語音/非語音檢測,而且可應(yīng)用于特征提取和語音信號去混響等過程中。 現(xiàn)有的語音信號端點檢測算法主要分為三大類:基于時間域的端點檢測方法、基于頻率域 的端點檢測方法和基于模型統(tǒng)計的端點檢測方法。
[0003] 實際應(yīng)用中,高精度的語音端點檢測對后續(xù)的語音增強、端點檢測、語音識別或聲 紋識別都有極其重要的作用。然而,現(xiàn)有的語音端點檢測技術(shù)仍然存在著一些問題和不足, 尤其在實際信道環(huán)境下,由于語音信號清音和摩擦音成分的頻譜特征與噪音具有很大相似 性,而現(xiàn)有大部分端點檢測算法都是基于語音本身音節(jié)特征實現(xiàn)對語音和噪音的區(qū)分,因 此在檢測端點的過程中,可能會丟失語音起始音或收尾音導(dǎo)致截斷效應(yīng)。同時,大多數(shù)算法 無法完整保留所有語音信息,當信噪比降低時,檢測性能也將明顯下降。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的缺陷,提供分別從信噪比的估計、 閾值的魯棒性設(shè)置和拖尾失真消除三個方面進行改進,使得提出的算法相對于現(xiàn)有的算法 在低信噪比環(huán)境下尤其是非平穩(wěn)噪聲環(huán)境下具有更好檢測性能的基于似然比測試的噪聲 魯棒性的檢測方法。
[0005] 本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:一種基于似然比測試的噪聲魯棒 性的檢測方法,包括以下步驟: 51、 通過維納濾波器對帶噪語音信號進行語音增強,以便減弱帶噪語音中的噪聲信號 對干凈語音的影響,且提高過濾后的噪聲信號的平穩(wěn)特性;經(jīng)過維納濾波器語音增強后的 帶噪語音信號可以通過干凈語音s(n)和干擾噪聲痛禱藝加養(yǎng)到:. 其中,η為時間采樣索引,且此時通過維納濾波器后的干凈語音信號和干擾噪聲可以具 備統(tǒng)計獨立且均值為零的特性; 52、 對帶噪語音進行傅立葉變換,經(jīng)過濾波的帶噪語音信號在頻譜域上通過干凈語音 信號的頻譜因子疊加干擾噪聲的頻譜因子得到;
其中,__!#、_尾:_和___:為每幀信號的短時傅立葉因子,m為幀索引,k為幀內(nèi) 的各個頻段值,?和釋3分別表示非語音幀和語音幀; 53、 計算似然比,干凈語音信號和噪聲信號的概率密度都滿足高斯分布時,觀測信號 Χ(η\ k)在Ηβ和%下的概率密度函數(shù)為
其中= 為語音信號的功率譜,權(quán)|_i:繼夂麵繼麵為噪聲 信號的功率譜; 該幀第k頻段的似然比值為:
其中,^ 儀_,樣 i:S_ 后驗?目噪比,且先驗?目噪比IUa和后驗?目噪比Iw#:在直接決策估計器中存在著以下關(guān)系:
其中炫鍾一令_數(shù)平穩(wěn)因 穿場前一?_的:語音:_號金計 一幀的噪聲功率譜; 54、 進行噪聲估計,并設(shè)定閾值_,將閾值_與似然比的值相比較來確定當前幀為語音 段或非語音段,當似然比的值大于閾值時,初次判定該幀為語音幀,而當似然比的值小于閾 值時,就認定該幀為非語音幀,具體可以通過如下公式表示:
其中,Κ為頻帶總數(shù);%和分別表示非語音幀和語音幀; 55、 確定決策規(guī)則,m幀的對數(shù)似然比為:
表示以In為中心的連續(xù)2M+1幀,則以這2M+1個對數(shù)似然比 為對象的判決規(guī)則為:
其中旨賴對于其中的第k頻段下的對數(shù)似然比1_魏^:,將觀測信號在祖和 的概率代入其中得到:
先驗信噪比龜后驗信噪比通過最大似然估計算法得到,即:
因此,對數(shù)似然比的值取決于噪聲能量譜 se、拖尾失真消除,當信噪比低時,噪聲能量譜變大,通過降低選取的閾值符來 降低發(fā)聲段誤判概率;反之,通過增大閾值q來和高信噪比信號進行匹配; 帶噪語音功率譜譜由帶噪信號功率譜編平滑得到,平滑因子 為時頻相關(guān)函數(shù),則:
其麵_%_蠢一,與:__1目髮通·論觀矛利用基于最小統(tǒng)計的噪聲估計就可以得到 每幀信號最小噪聲功率譜。與所述噪聲能量譜相關(guān)的閾值符^為:
其中%是該閾值的一個常系數(shù)。
[0006]本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:本發(fā)明所提出的 VAD算法與基于諧波特征的M0LRT算法具有相似的SBR正確率,但卻比基于諧波特征的M0LRT 算法具有更為優(yōu)異的多VAcc;本發(fā)明提出的VAD算法在15dB和25dB的信噪比下具有相似的 性能,說明本方法對噪聲具有很好的魯棒性。
【附圖說明】
[0007]圖1(a)是干凈語音的示意圖。
[0008] 圖1(b)是基于Sohn的VAD結(jié)果示意圖。
[0009] 圖1(c)是基于Tan的VAD結(jié)果示意圖。
[0010]圖1(d)是基于本發(fā)明所述方法的VAD結(jié)果示意圖。
[0011] 圖2(a)是不同信噪比下的段級性能比較。
[0012] 圖2(b)是不同信噪比下的幀級性能比較。
[0013] 圖2(c)是不同信噪比下語音幀的正確個數(shù)。
[0014] 圖3是本發(fā)明中基于語音增強的語音端點檢測框架示意圖。
【具體實施方式】
[0015] 下面結(jié)合附圖對本發(fā)明的技術(shù)方案做進一步的詳細說明: 如圖3所示,本發(fā)明采取的技術(shù)方案如下:一種基于似然比測試的噪聲魯棒性的檢測方 法,包括以下步驟: S1、通過維納濾波器對帶噪語音信號進行語音增強,以便減弱帶噪語音中的噪聲信號 對干凈語音的影響,且提高過濾后的噪聲信號的平穩(wěn)特性;經(jīng)過維納濾波器語音增強后的 帶噪語音信號可以通過干凈語音s(n)和干擾噪聲痛_基加養(yǎng):??爸:讀 其中,η為時間采樣索引,且此時通過維納濾波器后的干凈語音信號和干擾噪聲可以具 備統(tǒng)計獨立且均值為零的特性; 52、 對帶噪語音進行傅立葉變換,經(jīng)過濾波的帶噪語音信號在頻譜域上通過干凈語音 信號的頻譜因子疊加干擾噪聲的頻譜因子得到;
其中,物爾和斷紙鮮為每幀信號的短時傅立葉因子,m為幀索引,k為幀內(nèi) 的各個頻段值,ft和分別表示非語音幀和語音幀; 53、 計算似然比,干凈語音信號和噪聲信號的概率密度都滿足高斯分布時,觀測信號 ___在拓和%下的概率密度函數(shù)為
其中___:::二_〖|_漏誦為語音信號的功率譜,_驗:徽=::麵 信號的功率譜; 該幀第k頻段的似然比值為:
其中,s 后驗?目噪比,且先驗?目噪比和后驗?目噪比^^&在直接決策估計器中存在著以下關(guān)系:
其中吞逶一,霜數(shù)因編:_:表麵一語音傷號愈計,:fe _表承_ 一幀的噪聲功率譜; 54、 進行噪聲估計,并設(shè)定閾值S,將閾值q與似然比的值相比較來確定當前幀為語音 段或非語音段,當似然比的值大于閾值時,初次判定該幀為語音幀,而當似然比的值小于閾 值時,就認定該幀為非語音幀,具體可以通過如下公式表示:
其中,K為頻帶總數(shù);_和醒:分別表示非語音幀和語音幀; 55、 確定決策規(guī)則,m幀的對數(shù)似然比為:
I?:種表示以L為中心的連續(xù)2M+1幀,則以這2M+1個對數(shù)似然比 為對象的判決規(guī)則為:
其中厶指代每一齓對于其中的第k頻段下的對數(shù)似然比__^丄,將觀測信號在観和 観的概率代入其中得到:
先驗信噪比由后驗信噪比通過最大似然估計算法得到,即:
因此,對數(shù)似然比的值取決于噪聲能量譜 se、拖尾失真消除,當信噪比低時,噪聲能量譜變大,通過降低選取的閾值^|來 降低發(fā)聲段誤判概率;反之,通過增大閾值η來和高信噪比信號進行匹配; 帶噪語音功率譜譜__雜由帶噪信號功率譜隱平滑得到,平滑因子#|儀|為 時頻相關(guān)函數(shù),則:
其日賴_|_的,穩(wěn):因:識利用基于最小統(tǒng)計的噪聲估計就可以得到 每幀信號最小噪聲功率譜每憂I,與所述噪聲能量譜相關(guān)的閾值1u為:
其中_是該閾值的一個常系數(shù)。
[0016 ]具體地,本發(fā)明帶噪語音爾由干凈語音_ii和干擾噪聲d(n)疊加得到:
其中,η為時間采樣索引。
[0017]假定干凈語音和干擾噪聲具有統(tǒng)計獨立和均值為零的特點,且?guī)г胝Z音的傅立葉 變換可以表示為
其中,__爾、5(故f |和輔_ ||為每幀信號的短時傅立葉因子,m為幀索引,k為幀內(nèi) 的各個頻段值,?和A分別表示非語音幀和語音幀。假設(shè)干凈語音信號和噪聲信號的概率 密度都滿足高斯分布,那么觀測信號麵__在_和_:下的概率密度函數(shù)為:
其中= '濃.婦門分別為語音信號和噪聲信 號的功率譜。于是該幀第k頻段的似然比(LR)值就為:
其中= %2 ('取處/# (取衫,=丨幻丨(?n4)分別表示先驗信噪比和 后驗信噪比,且先驗信噪比1義:和后驗信噪比在直接決策(DD)估計器中存在著以下關(guān) 系:
假設(shè)