專利名稱:降低語(yǔ)音信號(hào)中噪聲的方法和檢測(cè)噪聲域的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及降低語(yǔ)音信號(hào)中噪聲的方法以及檢測(cè)噪聲域的方法。更準(zhǔn)確地說(shuō),是涉及一種通過自適應(yīng)控制用于根據(jù)語(yǔ)音出現(xiàn)概率和按輸入語(yǔ)音信號(hào)計(jì)算的信噪比計(jì)算語(yǔ)音分量的最大似然濾波器而達(dá)到噪聲抑制的降低語(yǔ)音信號(hào)中噪聲的方法,以及適用于該降噪方法的噪聲域檢測(cè)方法。
在便攜式電話或語(yǔ)音識(shí)別中,認(rèn)為有必要抑制收集的語(yǔ)音信號(hào)中所含的環(huán)境噪音或背景噪聲并增強(qiáng)語(yǔ)音分量。
作為增強(qiáng)語(yǔ)音或降低噪聲的技術(shù),在IEEE文集“Acoust,Speech,Signal Processing”的1980年4月第28卷第137-145頁(yè)R.J.McAulay和M.L.Malpass所著“利用軟判定(Soft-Decision)噪聲抑制濾波器實(shí)現(xiàn)語(yǔ)音增強(qiáng)”以及IEEE ICASSP 1993年4月第二卷第363-366頁(yè)J.Yang所著“移動(dòng)電話系統(tǒng)中頻域噪聲抑制方法”中說(shuō)明了利用條件概率函數(shù)調(diào)整衰減因子的技術(shù)。
利用這些噪聲抑制技術(shù),常常會(huì)出現(xiàn)這樣的情況,由于基于不適當(dāng)?shù)墓潭ㄐ旁氡?S/N)或不適當(dāng)?shù)囊种埔蜃拥牟僮鞫a(chǎn)生不自然的音調(diào)或畸變的語(yǔ)音。在實(shí)際應(yīng)用中,在達(dá)到最佳性能的噪聲抑制系統(tǒng)的參數(shù)中用戶不希望調(diào)節(jié)信噪比。此外,用常規(guī)語(yǔ)音信號(hào)增強(qiáng)技術(shù)難于在不附帶產(chǎn)生對(duì)短期信噪比相當(dāng)大起伏敏感的語(yǔ)音信號(hào)畸變的情況下充分地消除噪聲。
對(duì)于上述語(yǔ)音增強(qiáng)或降噪方法而言,用到了檢測(cè)噪聲域的技術(shù),其中將輸入電平或功率與用于區(qū)分噪聲域的預(yù)定閾值相比較。然而,如果為防止跟蹤語(yǔ)音而增大閾值的時(shí)間常數(shù),跟隨噪聲電平的變化尤其是噪聲電平的增加就變得不可能,由此導(dǎo)至錯(cuò)誤區(qū)分。
鑒于以上所述,本發(fā)明的目的是提供一種降低語(yǔ)音信號(hào)中噪聲的方法,根據(jù)輸入語(yǔ)音信號(hào),將抑制因子調(diào)節(jié)到相對(duì)實(shí)際輸入的信噪比最佳的值,并達(dá)到充分消除噪聲而不產(chǎn)生作為附加效應(yīng)的畸變或不必由用戶預(yù)先調(diào)節(jié)。
本發(fā)明的另一目的是提供一種檢測(cè)噪聲域的方法,按照響應(yīng)輸入信號(hào)的最佳閾值實(shí)現(xiàn)噪聲域區(qū)分,即使在噪聲電平起伏時(shí)也可排除錯(cuò)誤區(qū)分。
一方面,本發(fā)明提供降低輸入語(yǔ)音信號(hào)中噪聲的方法,通過自適應(yīng)控制適用于根據(jù)語(yǔ)音出現(xiàn)概率和按輸入語(yǔ)音信號(hào)計(jì)算的信噪比計(jì)算語(yǔ)音分量的最大似然濾波器而實(shí)現(xiàn)噪聲抑制。特別地,在計(jì)算語(yǔ)音出現(xiàn)概率時(shí)利用頻譜差,亦即輸入信號(hào)的頻譜減去預(yù)計(jì)噪聲譜。
最好不管哪個(gè)值較大用上述頻譜差值或預(yù)定值來(lái)計(jì)算語(yǔ)音出現(xiàn)的概率。最好不管哪個(gè)值較大對(duì)當(dāng)前幀及以前幀計(jì)算上述差值或預(yù)定值,用預(yù)定衰減系數(shù)乘以前幀的值,不管哪個(gè)值較大,用當(dāng)前幀值或以預(yù)定衰減系數(shù)乘以前幀的值計(jì)算語(yǔ)音出現(xiàn)的概率。
用沿頻率軸或時(shí)間軸的平滑濾波處理最大似然濾波器的特性。最好用最大似然濾波器在所考慮頻率范圍內(nèi)特性和最大似然濾波器在相鄰左和右邊頻率范圍內(nèi)的中值特性進(jìn)行沿頻率軸的平滑濾波。
另一方面,本發(fā)明提供通過按幀劃分輸入語(yǔ)音信號(hào),按幀得出RMS值并將RMS值與用于檢測(cè)噪聲域的閾值Th1相比檢測(cè)噪聲域的方法。尤其,不管哪個(gè)值較小,用當(dāng)前幀和以系數(shù)α乘的以前幀的RMS值來(lái)計(jì)算用于得出閾值Th1的值th,系數(shù)α依據(jù)當(dāng)前幀的RMS值就化。在下列實(shí)施例中,閾值Th1為Noise RMSthres[k],而得出它的值th為MinNoiseshert[k],其中k是幀號(hào)。如將在方程(7)中說(shuō)明的,將以系數(shù)α[k]乘的以前幀的值MinNoiseshert[k-1]與當(dāng)前幀的RMS值RMS[k]相比較,并將這二者中的較小值設(shè)定為MinNoiseshert[k]。系數(shù)[k]依照RMS值RMS[k]從1到0變化或相反。
最好是,得出閾值Th1的值th可以是當(dāng)前幀的RMS值與以前幀值用系數(shù)α乘的值th二者中較小的值,亦即如后文說(shuō)明的MinNoiseshert[k],或多個(gè)幀中的最小RMS值,即MinNoiselong[k],不管哪個(gè)大些。
此外,根據(jù)用閾值th2進(jìn)行當(dāng)前幀的相對(duì)能量區(qū)分的結(jié)果檢測(cè)噪聲域,閾值Th2是利用輸入語(yǔ)音信號(hào)的最大信噪聲比和RMS值與閾值Th1的比較結(jié)果來(lái)計(jì)算的。在以下實(shí)施例中,閾值Th2為dBthresrel[k],基于幀的相對(duì)能量為dBrel。相對(duì)能量dBrel是相應(yīng)于正如前一信號(hào)能量本身峰值的相對(duì)值,并描述當(dāng)前信號(hào)能量。
在按照本發(fā)明的降噪方法中最好利用上述噪聲域檢測(cè)方法。
對(duì)于本發(fā)明的語(yǔ)音信號(hào)降噪方法來(lái)說(shuō),由于語(yǔ)音出現(xiàn)概率是用從輸入信號(hào)頻譜中減去估計(jì)噪聲頻譜的頻譜減法來(lái)計(jì)算的,并按照計(jì)算出的語(yǔ)音出現(xiàn)概率自適應(yīng)控制最大似然濾波器,依照輸入語(yǔ)音信號(hào)的信噪的比完成最佳抑制因子的調(diào)節(jié),因此用戶無(wú)需在實(shí)際應(yīng)用之前進(jìn)行調(diào)整。
另外,對(duì)按照本發(fā)明的檢測(cè)噪聲域的方法而言,由于用于得出作噪聲域鑒別的閾值Th1的值th是用當(dāng)前幀的RMS值或以系數(shù)α乘的以前幀值th來(lái)計(jì)算的,不管哪個(gè)值小些,而且系數(shù)α是依照當(dāng)前幀的RMS值變化的,從而可實(shí)現(xiàn)用響應(yīng)輸入信號(hào)的最佳閾值進(jìn)行的噪聲域鑒別,即使在噪聲電平起伏時(shí)也不會(huì)產(chǎn)生錯(cuò)誤判斷。
圖1是說(shuō)明用于實(shí)現(xiàn)按照本發(fā)明實(shí)施例的語(yǔ)音信號(hào)降噪方法的電路布局的電路框圖。
圖2是表明圖1所示實(shí)施例中所用噪聲估算電路的說(shuō)明性實(shí)例的電路方塊圖。
圖3是說(shuō)明圖1所示實(shí)施例中能量E[k]和衰減能量Edecay[k]的實(shí)例的曲線圖。
圖4是說(shuō)明圖1實(shí)施例中短期RMS值RMS[k],最小噪聲RMS值MinNoise[k]和最大信號(hào)RMS值MaxSignal[k]的實(shí)例的曲線圖。
圖5是說(shuō)明以dB表示的相對(duì)能量dBrel[k],最大信噪比值MaxSNR[k]和作為噪聲鑒別的閾值之一的dBthresrel[k]的實(shí)例的曲線圖。
圖6是表示圖1所示實(shí)施例中作為相應(yīng)于最大信噪比值MaxSNR[k]定義的函數(shù)的NR電平[k]的曲線圖。
參見附圖,詳細(xì)說(shuō)明本發(fā)明語(yǔ)音信號(hào)降噪方法的最佳實(shí)施例。
在圖1中,以方塊電路圖示出了按照本發(fā)明最佳實(shí)施例實(shí)現(xiàn)語(yǔ)音信號(hào)降噪方法的降噪裝置的示意性布局。
參見圖1,包括語(yǔ)音分量和噪聲分量的輸入信號(hào)y[t]施加于輸入端11。為具有抽樣頻率FS的數(shù)字信號(hào)的輸入信號(hào)y[t]饋入成幀/開窗電路12,在其中將它劃分為各具有等于FL抽樣的長(zhǎng)度的幀,由此按幀順序處理輸入信號(hào)。成幀間隔亦即沿時(shí)間軸的幀移動(dòng)量是FI抽樣,這些在FL個(gè)樣本之后如由第K幀起開始第(k+1)個(gè)抽樣。在由下一電路快速傅里葉交換(FFT)電路13處理之前,成幀/開窗電路12以開窗函數(shù)進(jìn)行幀基準(zhǔn)信號(hào)的開窗。同時(shí),逆傅里葉變換或IFFT之后在幀基準(zhǔn)信號(hào)的最后信號(hào)處理階段,通過用開窗函數(shù)Woutput進(jìn)行開窗來(lái)處理輸出信號(hào)。開窗函數(shù)Winput和Woutput的實(shí)例由下列方程(1)和(2)給出Winput[j]=(12-12·cos(2·π·jFL))14]]>0≤j≤FL---(1)]]>Woutput[j]=(12-12·cos(2·π·jFL))34]]>
0≤j≤FL……(2)若抽樣頻率FS是8000Hz=8KHz,或幀間隔FI是80和160個(gè)樣本,則成幀間隔分別為10毫秒和20毫秒。
FFT電路13以256點(diǎn)執(zhí)行FFT以產(chǎn)生被頻率劃分電路14劃分為18個(gè)頻帶的頻譜幅度值。下列表1示出了各頻帶頻率范圍的實(shí)例。
表1
這些頻率的設(shè)置是基于以下事實(shí),即人的聽覺系統(tǒng)的分辨率降低到較高頻率側(cè)。作為各個(gè)范圍的幅度,運(yùn)用各個(gè)頻率范圍內(nèi)的最大FFT幅度。
噪聲估值電路15區(qū)分輸入信號(hào)y[t]中的語(yǔ)音與噪聲并檢測(cè)估計(jì)為噪聲的幀。估計(jì)噪聲域或檢測(cè)噪聲幀的操作是通過組合三類檢測(cè)操作來(lái)實(shí)現(xiàn)的。以下參照?qǐng)D2說(shuō)明噪聲域估計(jì)的說(shuō)明性實(shí)例。
在該圖中,進(jìn)入輸入端11的輸入信號(hào)y[t]饋入均方根值(RMS)計(jì)算電路15A,該電路15A按幀基準(zhǔn)計(jì)算短期RMS值。RMS計(jì)算電路15A的輸出加到相對(duì)能量計(jì)算電路15B、最小RMS計(jì)算電路15C、最大信號(hào)計(jì)算電路15D及噪聲譜估計(jì)電路15E。噪聲譜估計(jì)電路15E還與相對(duì)能量計(jì)算電路15B、最小RMS計(jì)算電路15C及最大信號(hào)計(jì)算電路15D的輸出相連,同時(shí)還與頻率劃分電路14的輸出端相連。
RMS計(jì)算電路15A計(jì)算幀基準(zhǔn)信號(hào)的RMS值。第k幀的RMS值RMS[k]用下列方程計(jì)算RMS[k]=1FL·Σt=1FLy2[t]]]>………(3)相對(duì)能量計(jì)算電路15B計(jì)算第k幀的相對(duì)能量dBrel[k]。以dB為單位的相對(duì)能量dBrel[k]由下列方程(4)計(jì)算dBrel[K]=10log10( (Edecay[K])/(E[K]) )…………(4)
在以上方程(4)中,能量值E[k]和衰減能量值Edecay[k]可分別用方程(5)和(6)計(jì)算E[k]=Σt=1FLy2[t]]]>…………(5)Edecay[k]=max(E[k],e-FL0.65*FSEdecay[k-1])]]>…………(6)由于方程(5)可用EL·(RMS[k])2表示,所以可以使用RMS計(jì)算電路15A的輸出RMS[k]。然而,在RMS計(jì)算電路15A中方程(3)計(jì)算過程中得到的方程(5)的值可直接傳輸?shù)较鄬?duì)能量計(jì)算電路15B。在方程(6)中,作為舉例衰減時(shí)間僅設(shè)置為0.65秒。
圖3示出了能量E[k]和衰減能量Edecay[k]的實(shí)例。
最小RMS計(jì)算電路15C得出適用于估計(jì)背景噪聲電平的最小RMS值。幀基上基于幀的最小短期RMS值和最小長(zhǎng)期RMS值,亦即許多幀上的最小RMS值也得出。當(dāng)短期值不能跟蹤或跟隨噪聲電平的顯著變化時(shí)用長(zhǎng)期值。最小短期RMS噪聲值MinMoiseshert用下列方程(7)計(jì)算
a(k)=1 RMS[k]<MAX_NOISE_RMS,andRMS[k]<3 MinNoiseshort[k-1]0其它設(shè)置最小短期RMS噪聲值MinNoiseshort相對(duì)背景噪聲增大,背景噪聲是與語(yǔ)音無(wú)關(guān)的周圍噪聲。當(dāng)高噪聲電平的上升率為指數(shù)時(shí),產(chǎn)生較大上升率的低噪聲電平用固定上升率。
每0.6秒計(jì)算最小長(zhǎng)期RMS噪聲值MinNoiselong。MinNoiselong是在dBrel>19dB的幀RMS值的前1.8秒上最小。如果在前1.8秒中,不存在dBrel>19的RMS值,則不用MinNoiselong,因?yàn)樾盘?hào)的前一秒可能不含僅有背景噪聲的任何幀。在每0.6秒間隔上,若MinNoiselong>MinNoiseshort則將該間隔上的MinNoiseshort設(shè)置為MinNoiselong。
最大信號(hào)計(jì)算電路15D計(jì)算最大RMS值或SNR(信噪比)的最大值。最大RMS值用來(lái)計(jì)算最佳或最大SNR值。對(duì)最大RMS值而言,既計(jì)算短期也計(jì)算長(zhǎng)期。短期最大RMS值MaxSignalshort由下列方程(8)得出 ………(8)在例如0.4秒間隔上計(jì)算最大長(zhǎng)期RMS噪聲值MzxSignallong。該值MaxSignallong是暫時(shí)超過當(dāng)前時(shí)間點(diǎn)0.8秒期間幀RMS值的最大值。在每-0.4秒范疇內(nèi),如果MaxSingallong小于MaxSignalshert,則將MaxSignalshert值設(shè)定為(0.7MaxSignalshert+0.3MaxSignallong)的值。
圖4示出短期RMS值[k],最小噪聲RMS值MinNoise[k]以及最大信號(hào)RMS值MaxSignal[k]。在圖4中,最小噪聲RMS值MinNoise[k]表示考慮長(zhǎng)期值MinNoiselong的短期值MinNoiseshert。此外,最大信號(hào)RMS值MaxSignal[k]表示考慮長(zhǎng)期值MaxSignallong的短期值MaxSignalshert。
可利用短期最大信號(hào)RMS值MaxSignalshert和短期最小噪聲RMS值MinNoiseshert來(lái)估算最大信號(hào)SNR值。噪聲抑制特性及噪聲域鑒別的域值按該估值修改,以減小造成無(wú)噪聲純語(yǔ)音信號(hào)畸變的可能性。用下列方程計(jì)算最大SNR值MaxSNRMaxSNR[k]=20.0·log10( (max(1000.0,MaxSignalshort[k]))/(max(0.5,MinNoisesnort[k]) -1.0)………(9)由MaxSNR值計(jì)算在0到1范圍內(nèi)表示相對(duì)噪聲電平的歸一化參數(shù)NR-level。下面運(yùn)用NT-level方程。
NR_level[k]=( 1/2 + 1/2 cos(π· (MaxSNR[k]-30)/20 ))×(1-0.002(MaxSNR[k]-30)2)
30<MaxSNR[k]≤500.0 MaxSNR[k]>501.0 其它 (10)現(xiàn)對(duì)噪聲譜估計(jì)電路15E的工作加以解釋。由相對(duì)能量計(jì)算電路15B、最小RMS計(jì)算電路15C及最大信號(hào)計(jì)算電路15D計(jì)算的值用于將語(yǔ)音與背景噪聲分開。如果滿足下列條件,第k幀的信號(hào)歸為背景噪聲。
((RMS[k]<NoiseRMSthres[k])或 (dBrel[k]>dBthresrel[k]))and(RMS[k]<RMS[k-1]+200)(11)其中 NoiseRMSrel[k]=min(1.05+0.45·NR_level[k])MinNoise[k],MinNoise[k]+Max_△_NOISE_RMS)dBthresrel[k]=max(MaxSNR[k]-4.0,0.9·MaxSNR[k])圖5示出了以上方程(11)中的相對(duì)能量dBrel[k],最大SNR值MaxSNR[k]和作為噪聲鑒別閾值之一的dBthresrel[k]的值。
圖6示出方程(10)中作為MaxSNR[k]的函數(shù)的NR-level[k]。
若將第k幀歸類為背景噪聲或噪聲,則噪聲譜Y[w,k]的時(shí)間平均估計(jì)值由當(dāng)前幀的信號(hào)譜Y[w,k]更新,如下列方程(12)所示N[w,k]=α·max(N[w,k-1],Y[w,k])+(1-α)·min(N[w,k-1],Y[w,k]) ……(12)a=e-FL0.5*FS]]>其中W表示頻帶分離的頻帶號(hào)。
如果第k幀歸類為語(yǔ)音,N[w,k-1]的值直接用作N[w,k]。
圖2所示噪聲估計(jì)電路15的輸出傳輸?shù)秸Z(yǔ)音估計(jì)電路16,Pr[Sp]計(jì)算電路17,Pr[Sp/Y]計(jì)算電路18并傳輸?shù)阶畲笏迫粸V波器19。
在噪聲估值電路15的噪聲譜估計(jì)電路15E中進(jìn)行算術(shù)-邏輯運(yùn)算時(shí),可至少利用相對(duì)能量計(jì)算電路15B、最小RMS計(jì)算電路15C及最大信號(hào)計(jì)算電路15D的輸出數(shù)據(jù)之一進(jìn)行算術(shù)-邏輯運(yùn)算。雖然估計(jì)電路15E產(chǎn)生的數(shù)據(jù)精度下降,但只需較小電路規(guī)模的噪聲估計(jì)電路15就足夠了。當(dāng)然,可利用三個(gè)計(jì)算電路15B,15C及15D的所有輸出數(shù)據(jù)產(chǎn)生估計(jì)電路15E的高精度輸出數(shù)據(jù)。但是,可用計(jì)算電路15B,15C及15D中兩個(gè)電路進(jìn)行估計(jì)電路15E的算術(shù)-邏輯運(yùn)算。
語(yǔ)音估算電路16計(jì)算頻帶基上的信噪比。語(yǔ)音估算電路16饋接來(lái)自頻帶分離電14的頻譜幅度數(shù)據(jù)Y[w.k]和來(lái)自噪聲估計(jì)電路15的估計(jì)噪聲譜譜幅度數(shù)據(jù)。估計(jì)的語(yǔ)音譜數(shù)據(jù)S[w,k]由這些數(shù)據(jù)導(dǎo)出。如后面說(shuō)明的無(wú)噪聲純語(yǔ)音頻譜的粗略估計(jì)值可用來(lái)計(jì)算概率Pr[Sp/Y]。通過按下列方程(13)取頻譜值的差計(jì)算該值。
S′[W,k]=max(O,Y[W,k]2-ρ·N[W,k]2)]]>……(13)然后,運(yùn)用如由上述方程(13)計(jì)算的語(yǔ)音譜粗略估值S′[w,k],按照下列方程(14)計(jì)算在頻帶基上取時(shí)間平均的語(yǔ)音譜的估算值S[w,k]S[w,k]=max(S′[w,k],S′[w,k-1]·decay_rate) ……(14)當(dāng)方程(14)中,利用此處所示出的decay-rate。
按照下列方程(15)計(jì)算基于頻帶的信噪比SNR[w,k]=20·log10( (0.2·S[w-1,k]+0.6·S[w,k]+0.2S[w+1,k])/(0.2·N[w+1,k]+0.6·N[w,k]+0.2N[w-1,k])…… (15)其中可分別由方程(12)和(14)得出噪聲譜N[]的估算值和語(yǔ)音譜的估算值。
說(shuō)明Pr(Sp)計(jì)算電路17的操作。概率Pr(Sp)是在假定輸入信號(hào)中出現(xiàn)的語(yǔ)音信號(hào)的概率。該概率迄今恒定于0.5。對(duì)于具有高信噪比的信號(hào)而言,概率Pr[Sp]可增大以防止音質(zhì)畸變。可按照下列方程(16)計(jì)算這種概率Pr(Sp)
運(yùn)用最大信號(hào)計(jì)算電路15D計(jì)算的NR_level方程。
現(xiàn)說(shuō)明Pr(Sp/Y)計(jì)算電路18的操作。Pr(Sp/Y)值是輸入信號(hào)Y[t]中存在的語(yǔ)音信號(hào)的概率,并是用Pr(Sp)和SNR[w,k]計(jì)算的。用值Pr(Sp/Y)將無(wú)語(yǔ)音域減小為較窄值。為進(jìn)行計(jì)算,利用1980年4月出版的IEEE文集“Acouso,Speech,and Signal Processing”ASSP-28卷2號(hào)中R.J.McAulay和M.L.Malpass所著“利用軟判定噪聲抑制濾波器實(shí)現(xiàn)語(yǔ)音增強(qiáng)”公開的方法,現(xiàn)參照方程(17)至(20)加以說(shuō)明。
Pr(Hl︱Y)[w,k]= (Pr(Hl)·P(Y︱Hl))/(Pr(Hl)·P(Y︱Hl)+Pr(HO)·P(Y︱HO))(Bayes 規(guī)則)……(17)P(Y|HO)=2·Yσ·e-Y1σ]]>(Rayleigh pdf)---(18)]]>p(Y|Hl)=-2·Yσ·e-Y1+S1v·I0(2·S·Yσ)]]>(Rician pdf)---(19)]]>I0(|X|)=12π∫02πe(e-jθ)d6]]>(修正第一類Bessel方程)……(20)在上述方程(17)至(20)中,HO表示無(wú)語(yǔ)音事件,亦即輸入信號(hào)y(t)是噪聲n(t)的事件,而H1表示語(yǔ)音事件,即輸入信號(hào)y(t)是語(yǔ)音信號(hào)S(t)與噪聲信號(hào)n(t)之和且S(t)不等于0的事件。此外,w,k,Y,S和δ分別表示頻帶號(hào)、幀號(hào)、輸入信號(hào)[w,k],語(yǔ)音信號(hào)S[w,k]的估計(jì)值以及估算噪聲信號(hào)N[w,k]2的平方值。
由方程(17)計(jì)算Pr(H1~Y)[w,k],而方程(17)中的P(Y/HO)和P(Y/H1)可由方程(19)導(dǎo)出,由方程(20)計(jì)算Bessel方程I。(|X|)。
可用于列方程(21)近似Bessel方程I0=(|X|)= 至此,為導(dǎo)出Pr(H1/Y)利用了信噪比的固定值,如SNR=5,而不用估算的語(yǔ)音信號(hào)值S[w,k]。因此簡(jiǎn)化了P(Y/H1),如下列方程(22)所示p(Y|Hl)=2σ·e-Y1σSNR1·I0(2·SNR·Yσ)]]>……(22)瞬時(shí)信噪比低于計(jì)算P(Y/H1)中所用信噪比值SNR的信號(hào)得到顯著抑制。如果假定信噪比的值SNR設(shè)定為過高值,則攙雜有低電平噪聲的語(yǔ)音在其低電平語(yǔ)音部分被過于削弱,于是產(chǎn)生的語(yǔ)音變得不自然。反之,若將信噪比的值SNR設(shè)定為過低值,摻雜有較高電平噪聲的語(yǔ)音的噪聲抑制率低,甚至在其低電平部分都聽得到噪音。這樣如在本實(shí)施例中一樣利用信噪比的變化值SNRnew[w.k]代替信噪比的固定值得到滿足寬范圍背景/語(yǔ)音電平的值P(Y/H1)??蓮南铝蟹匠?23)得出SNRnew[w.k]值SNRmew[w,k]=max(MIN_SNR[w,k]), (S′[w,k])/(N[w,k])……(23)其中MIN-SNR值由方程(24)得出MIN_SNR(x)=3- (x-10)/35 ·1.5,10≤X≤451.5,其它 ……(24)值SNRnew[w,k]是第k幀中的瞬時(shí)SNR,其中對(duì)最小,值加有限制。對(duì)于總體上具有高信噪比的信號(hào)來(lái)說(shuō),可將SNRnew[w,k]值減小到1.5。在這種情況下,對(duì)具有低瞬時(shí)信噪比的段不進(jìn)行抑制??傊畬?duì)于低瞬時(shí)信噪比的信號(hào)值SNRnew[w,k]不能減小到3以下。因此,對(duì)具有低瞬時(shí)信噪比的段可保證足夠的抑制。
現(xiàn)對(duì)最大似然濾波器19的操作加以說(shuō)明。最大似然濾波器19是為分離噪聲信號(hào)的相應(yīng)輸入信號(hào)頻率而提供的預(yù)濾波器之一。在最大似然濾波器19中,利用來(lái)自噪聲估值電路15的噪聲譜幅度數(shù)據(jù)N[w,k]將來(lái)自頻帶分離濾波器14的頻譜幅度數(shù)據(jù)Y[w.k]轉(zhuǎn)換為信號(hào)H[w,k]。按照下列方程(25)計(jì)算信號(hào)H[w,k]
H[w,k]=a+(1-a)·(Y2-N2)12Y,Y>oandY≥N]]>其它α=0.7-0.4·NR_level[k]. ……(25)盡管通常將上述方程(25)右的值α設(shè)置為1/2,噪聲抑制度可依賴于SNR變化,因?yàn)镾NR的近似值是已知的。
下面說(shuō)明軟判定抑制電路20的操作。軟判定抑制電路20是用于增強(qiáng)信號(hào)語(yǔ)音部分的預(yù)濾波器之一。利用來(lái)自Pr(Sp/Y)計(jì)算電路18的信號(hào)H[w,k]和值Pr[H1/Y]用下列方程(26)所表示的方法進(jìn)行變換H[w,k] - Pr(H1|Y)[w,k]·H[w,k]+(1-Pr(H1|Y[w,k]·MIN_GAIN(26)在上述方程(26)中,MIN-GAIN是表示最小增益的參數(shù),可設(shè)定為例如0.1,即-15dB。
現(xiàn)說(shuō)明濾波器處理電路21的操作。沿頻率軸和時(shí)間軸對(duì)來(lái)自軟判定抑制電路20的信號(hào)H[w,k]濾波。沿頻率軸的濾波具有縮短信號(hào)H[w,k]的有效脈沖響應(yīng)長(zhǎng)度的效果。這消除了頻域中與乘法濾波相關(guān)聯(lián)的環(huán)形卷積混淆效應(yīng)。沿時(shí)間軸的濾波具有在抑制噪聲脈沖中限制濾波器變化率的效應(yīng)。
現(xiàn)在說(shuō)明沿頻率軸的濾波。對(duì)由頻帶劃分得出的18個(gè)頻帶每一頻帶的信號(hào)H[w,k]進(jìn)行中值濾波。該方法由下列方程(27)和(28)說(shuō)明步驟1H1[w,k]=max(median(H[w-1,k],H[w,k],H[w+1,k],H[w,k] (27)
其中H1[w,k]=H[w,k]如果(w-1)或(w+1)不存在步驟2H2[w,k]=min(median(H[w-1,k],H[w,k],H[w+1,k],H[w,k]其中H2[w,k]=H1[w,k]如果(w-1)或(w+1)不存在在步驟1中,H1[w,k]是無(wú)信號(hào)帶零點(diǎn)的H[w,k]。在步驟2中,H2[w,k]是不存在單獨(dú)頻帶峰值的H1[w,k]。由沿頻率軸濾波得出的信號(hào)是H2[w,k]。
其次說(shuō)明沿時(shí)間軸的濾波。沿時(shí)間軸濾波考慮輸入語(yǔ)音信號(hào)即語(yǔ)音、背景噪聲及為語(yǔ)音上升部分的瞬態(tài)三個(gè)狀態(tài)。語(yǔ)音信號(hào)沿時(shí)間軸平滑如下列方程(29)所示Hspeech[w,k]=0.7·H2[w,k]+0.3·H2[w,k-1] (29)沿時(shí)間軸平滑背景噪聲的下列方程(30)所示Hnoise[w,k]=0.7·Min_H+0.3·Max_H (30)其中Min_H和Max_H為Min_H=min(H2[w,k],H2[w,k-1]Max_H=max(H2[w,k],H2[w,k-1]對(duì)于瞬時(shí)信號(hào),不進(jìn)行沿時(shí)間軸的平滑。最后,用于列方程(31)計(jì)算產(chǎn)生平滑的輸出信號(hào)Ht_smooth[w,k]Ht_smooth[w,k]=(1-αtr)(αsp·Hspeech[w,k]+(1-αsp)·Hnoise[w,k]+αtr·H2[w,k](31)
分別由方程(32)和(33)得出方程(31)中的αsp和αtrαsp=1.0,SNRinst>4.0(SNRinst-1)· 1/3 ,1.0<SNRinst<4.00,其它(32)其中SNRinst= (RMS[k])/(MinNoise[k])αtr=1.0,δrms>3.5(δrms-2)· 2/3 ,2.0<δrms<3.50,其它(33)其中δrms=RMSlocal[k]RMSlocal[k-1],RMSlocal[k]=1FI·Σt=FI|2FL-FI|2y2[t]]]>說(shuō)明頻帶轉(zhuǎn)換電路22的操作。來(lái)自濾波電路21的18頻帶信號(hào)Ht-smooth[w,k]被插入例如128頻帶信號(hào)H128[w,k]。以兩個(gè)階段進(jìn)行插入,即用零階保持進(jìn)行由18到64頻帶的插入,用低通濾波器內(nèi)插實(shí)現(xiàn)自64到128頻帶的內(nèi)插。
現(xiàn)說(shuō)明頻譜校正電路23的操作。在FFT溻路13得到的輸入信號(hào)FFT系數(shù)的實(shí)部和虛部與上述信號(hào)H128[w,k]相乘,以進(jìn)行頻譜校正。結(jié)果是頻譜幅度得到校正,而不對(duì)頻譜進(jìn)行相位修正。
IFFT電路24對(duì)在頻譜校正電路23獲得的信號(hào)進(jìn)行逆FFT變換。
疊加電路25將基于幀的輸出信號(hào)的幀邊緣部分疊加。通過上述過程在輸出端26獲得噪聲下降的輸出信號(hào)。
這樣獲得的輸出信號(hào)傳輸給手提電話的多個(gè)編碼器或語(yǔ)音識(shí)別裝置的信號(hào)處理電路。另一方面,可用本發(fā)明的降噪方法處理手提電話設(shè)備的解碼輸出信號(hào)。
本發(fā)明不限于以上實(shí)施例。例如,在利用最大似然濾波器的常規(guī)噪聲抑制技術(shù)中可利用上述用濾波電路21實(shí)現(xiàn)的濾波。用濾波器處理電路15實(shí)現(xiàn)的噪聲域檢測(cè)方法可用在除噪聲抑制裝置以外的多種裝置中。
權(quán)利要求
1.一種降低輸入語(yǔ)音信號(hào)噪聲的方法,通過自適應(yīng)控制適用于根據(jù)語(yǔ)音出現(xiàn)的概率和按輸入語(yǔ)音信號(hào)計(jì)算的信噪比來(lái)計(jì)算語(yǔ)音分量的最大似然濾波器進(jìn)行噪聲抑制,其特征在于改進(jìn)部分包含計(jì)算語(yǔ)音出現(xiàn)概率時(shí)用輸入信號(hào)頻譜減去估計(jì)噪聲頻譜。
2.如權(quán)利要求1所述的方法,其特征在于不管哪個(gè)值較大上述差值成預(yù)定值用于計(jì)算語(yǔ)音出現(xiàn)的概率。
3.如權(quán)利要求1所述的方法,其特征在于不管哪個(gè)值較大上述差值成預(yù)定值由當(dāng)前幀和以前幀得出,對(duì)應(yīng)以前幀的值用預(yù)定衰減系數(shù)相乘,不管哪個(gè)值較大用當(dāng)前幀的值或以前幀乘以預(yù)定衰減系數(shù)的值計(jì)算語(yǔ)音出現(xiàn)的概率。
4.如權(quán)利要求1所述的方法,其特征在于用沿頻率軸和時(shí)間軸的平滑濾波處理最大似然濾波器的特性。
5.如權(quán)利要求1所述的方法,其特征在于為得出語(yǔ)音出現(xiàn)概率通過比較基于幀的RMS值與閾值Th1檢測(cè)噪聲域,用于導(dǎo)出閾值Th1的值th按照當(dāng)前幀的RMS值或以前幀的值th乘以系數(shù)α導(dǎo)出,而不管哪個(gè)值較小,系數(shù)α依據(jù)當(dāng)前幀的RMS值變化。
6.如權(quán)利要求5所述的方法,其特征在于利用當(dāng)前幀的RMS值和以前幀的th乘以系數(shù)α之一,不管哪個(gè)值較小,或多個(gè)幀上RMS值的最小值,不管哪個(gè)值較大,導(dǎo)出得出閾值Th1的值th。
7.如權(quán)利要求6所述的方法,其特征在于通過利用用輸入語(yǔ)音信號(hào)最大信噪聲計(jì)算的閾值Th2鑒別當(dāng)前幀的相對(duì)能量進(jìn)行噪聲域檢測(cè)。
8.一種降低輸入語(yǔ)音信號(hào)中噪聲的方法,通過自適應(yīng)控制適用于根據(jù)語(yǔ)音出現(xiàn)概率和按輸入語(yǔ)音信號(hào)計(jì)算的信噪比計(jì)算語(yǔ)音分量的最大似然濾波器實(shí)現(xiàn)噪聲抑制,其特征在于改進(jìn)部分包括沿頻率軸和時(shí)間軸對(duì)最大似然濾波器的特性進(jìn)行平滑濾波。
9.如權(quán)利要求8所述的方法,其特征在于最大似然濾波器在所考慮頻率范圍內(nèi)的特性以及最大似然濾波器在相鄰左邊和右邊頻率范圍內(nèi)的特性的中值用作沿頻率軸平滑濾波。
10.如權(quán)利要求8所述的方法,其特征在于沿頻率軸的平滑濾波包括以下步驟選擇中值或最大似然濾波器在所考慮頻率范圍內(nèi)的特性,不管哪個(gè)值較大,所考慮頻率范圍的中值對(duì)應(yīng)于處理結(jié)果或最大似然濾波器在頻率范圍中的特性,不管哪個(gè)較小。
11.如權(quán)利要求9所述的方法,其特征在于沿時(shí)間軸的平滑濾波包括對(duì)語(yǔ)音部分信號(hào)的平滑和噪聲部分信號(hào)的平滑。
12.一種檢測(cè)噪聲域的方法,通過劃分幀基準(zhǔn)上的輸入語(yǔ)音信號(hào),找出幀基準(zhǔn)上的RMS值并將該RMS值與用于檢測(cè)噪聲域的閾值Th1比較,其特征在于改進(jìn)部分包括計(jì)算當(dāng)前幀利用RMS值得出閾值Th1的值th和以前幀被系數(shù)α相乘的值th,不管哪個(gè)值較小,并依據(jù)當(dāng)前幀的RMS值變更系數(shù)α。
13.如權(quán)利要求12所述的方法,其特征在于包括計(jì)算當(dāng)前幀的用較小RMS值導(dǎo)出閾值Th1的值th以及以前幀乘以系數(shù)α的值th,或多個(gè)幀上的最小RMS值,不管哪個(gè)值大些。
14.如權(quán)利要求13所述的方法,其特征在于根據(jù)利用用輸入語(yǔ)音信號(hào)最大信噪比計(jì)算的閾值鑒別當(dāng)前幀的相對(duì)能量所得的結(jié)果和將RMS值與閾值Th1比較所得結(jié)果檢測(cè)噪聲域。
全文摘要
一種語(yǔ)音信號(hào)降噪方法,通過用輸入信號(hào)頻譜減去估計(jì)噪聲譜的譜減法計(jì)算語(yǔ)音出現(xiàn)概率,按計(jì)算的語(yǔ)音出現(xiàn)概率自適應(yīng)控制最大似然濾波器。按輸入信號(hào)的信噪比獲得最佳抑制因子,因此用戶不必要在實(shí)際應(yīng)用前實(shí)行調(diào)節(jié)。此外,一種檢測(cè)噪聲域的方法,利用當(dāng)前幀RMS值或以前幀乘以系數(shù)α的值th,不管哪個(gè)值較小來(lái)計(jì)算為實(shí)際噪聲域鑒別用于得出閾值Th1的值th,系數(shù)α依據(jù)當(dāng)前幀的RMS值而變。
文檔編號(hào)G10L11/02GK1113335SQ9510484
公開日1995年12月13日 申請(qǐng)日期1995年5月12日 優(yōu)先權(quán)日1994年5月13日
發(fā)明者陳志浩, 西口正之 申請(qǐng)人:索尼公司