專利名稱:一種單通道語音去混響裝置的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型涉及語音增強(qiáng)領(lǐng)域,特別涉及單通道語音去混響裝置。
背景技術(shù):
在遠(yuǎn)距離語音通訊中,麥克風(fēng)端接收的信號容易受到環(huán)境混響的影響。比如,在房間內(nèi),語音經(jīng)過墻面、地板和家具等多次放射,麥克風(fēng)端接收到的信號是直達(dá)聲和反射聲的混合信號。這部分反射聲就是混響信號。當(dāng)說話人距離麥克風(fēng)比較遠(yuǎn),且通話環(huán)境是一個(gè)相對封閉的空間時(shí),就很容易產(chǎn)生混響?;祉憞?yán)重時(shí),會導(dǎo)致語音不清楚,影響通話質(zhì)量。另夕卜,混響帶來的干擾,還會導(dǎo)致聲學(xué)接收系統(tǒng)性能變差,語音識別系統(tǒng)性能顯著下降等。
早期的去混響裝置主要是利用反卷積來進(jìn)行去混響的。這類裝置需要提前知道準(zhǔn)確的混響環(huán)境(房間或辦公室等)的沖激響應(yīng)或傳遞函數(shù)。混響環(huán)境的沖激響應(yīng)可以通過某種特別的裝置提前測量得到,也可以通過其它裝置單獨(dú)估計(jì)得到。然后利用這個(gè)已知的混響環(huán)境沖激響應(yīng),估計(jì)逆濾波器,實(shí)現(xiàn)對混響信號的反卷積,從而實(shí)現(xiàn)去混響。這類裝置的問題是,混響環(huán)境的沖激響應(yīng)往往很難提前獲得,且求取逆濾波器的過程本身可能引入新的不穩(wěn)定因素。另一類去混響裝置,不需要估計(jì)混響環(huán)境的沖激響應(yīng),因此不需要計(jì)算逆濾波器和進(jìn)行逆濾波運(yùn)算,也被稱為盲去混響裝置。這類裝置通?;谡Z音模型假設(shè),比如混響導(dǎo)致接收的濁音激勵(lì)脈沖發(fā)生變化,使得周期性變得不那么明顯,從而影響語音清晰度。這類裝置一般基于LPC (Linear Prediction Coding,線性預(yù)測編碼)模型,假定產(chǎn)生語音的模型是一個(gè)全極點(diǎn)模型,而混響或其它加性噪聲在整個(gè)系統(tǒng)中引入了新的零點(diǎn),從而干擾了濁音激勵(lì)脈沖,但并不影響全極點(diǎn)濾波器。去混響裝置是估計(jì)信號的LPC殘差,然后按照基因同步粹發(fā)準(zhǔn)則(pitch-synchronous clustering criterion)或峰度(Kurtosis)最大化準(zhǔn)則等,來估計(jì)干凈的脈沖激勵(lì)序列,從而實(shí)現(xiàn)去混響。這類裝置的問題是計(jì)算復(fù)雜度往往非常高,且對于混響只影響全零點(diǎn)濾波器的假設(shè),與實(shí)驗(yàn)分析存在不相符的情況。利用譜減法去混響是一個(gè)較佳的方案,語音信號包括直達(dá)聲、早期反射聲和晚期反射聲,采用譜減法將晚期反射聲的功率譜從整個(gè)語音的功率譜中除去能夠提高語音質(zhì)量。但其中的關(guān)鍵問題在于晚期反射聲的譜的估計(jì),即如何獲得比較準(zhǔn)確的晚期反射聲的功率譜,從而在將晚期反射聲的成份有效去除的同時(shí)又不損傷語音。在單通道語音去混響中,因?yàn)橹挥幸宦符溈孙L(fēng)信息可用,因此估計(jì)混響環(huán)境的傳遞函數(shù)或估計(jì)混響時(shí)間(RT60)非常困難。
實(shí)用新型內(nèi)容本實(shí)用新型提供的一種單通道語音去混響的裝置,以解決單通道語音去混響中估計(jì)混響環(huán)境的傳遞函數(shù)或估計(jì)混響時(shí)間困難的問題。本實(shí)用新型還公開了一種單通道語音去混響的裝置,所述裝置包括用于對輸入的單通道語音信號進(jìn)行分幀,按時(shí)間順序向傅里葉變換器輸出幀信號的分巾貞器;用于對接收的當(dāng)前幀進(jìn)行短時(shí)傅里葉變換,獲得當(dāng)前幀的功率譜和相位譜,向譜減器和譜估計(jì)器輸出當(dāng)前幀的功率譜,向傅里葉逆變換器輸出當(dāng)前幀的相位譜的傅里葉變換器;用于將當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀的功率譜進(jìn)行線性疊加,估計(jì)出當(dāng)前幀的晚期反射聲的功率譜,向譜減器輸出估計(jì)的當(dāng)前幀的晚期反射聲的功率譜的譜估計(jì)器;用于通過譜減法從傅里葉變換器獲得的當(dāng)前幀的功率譜中去除從譜估計(jì)器獲得的當(dāng)前幀的晚期反射聲的功率譜,得到當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜,向傅里葉逆變換器輸出當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜的譜減器;用于將從譜減器獲得的當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜與從傅里葉變換器獲得的當(dāng)前幀的相位譜一起進(jìn)行短時(shí)傅里葉逆變換,輸出當(dāng)前幀去混響后的信號的傅里葉逆變換器;所述分幀器與所述傅里葉變換器連接;所述傅里葉變換器與所述譜減器、所述譜估計(jì)器和所述傅里葉逆變換器連接;所述譜估計(jì)器與譜減器連接;所述譜減器與所述傅里葉逆變換器連接。較佳地,所述譜估計(jì)器具體用于,依據(jù)晚期反射聲的衰減特性設(shè)置所述時(shí)長范圍的上限值。較佳地,所述譜估計(jì)器具體用于,依據(jù)語音相關(guān)特性及直達(dá)聲和早期反射聲在混響環(huán)境下的沖擊響應(yīng)分布區(qū)域設(shè)置所述時(shí)長范圍的下限值。較佳地,所述譜估計(jì)器具體用于,選擇所述時(shí)長范圍的上限值為0. 3秒5秒之間的值。較佳地,所述譜估計(jì)器具體用于,選擇所述時(shí)長范圍的下限值為50毫秒 80毫秒之間的值。較佳地,所述譜估計(jì)器具體用于對于當(dāng)前幀之前的、到當(dāng)前幀的距離在所述設(shè)置的時(shí)長范圍內(nèi)的若干幀,應(yīng)用自回歸AR模型將這些幀的功率譜中全部成分進(jìn)行線性疊加估計(jì)出當(dāng)前幀的晚期反射聲的功率譜。較佳地,所述譜估計(jì)器具體用于對于當(dāng)前幀之前的、到當(dāng)前幀的距離在所述設(shè)置的時(shí)長范圍內(nèi)的若干幀,應(yīng)用滑動(dòng)平均MA模型將這些幀的功率譜中直達(dá)聲和早期反射聲成分進(jìn)行線性疊加估計(jì)出當(dāng)前幀的晚期反射聲的功率譜。較佳地,所述譜估計(jì)器具體用于對于當(dāng)前幀之前的、到當(dāng)前幀的距離在所述設(shè)置的時(shí)長范圍內(nèi)的若干幀,應(yīng)用自回歸AR模型將這些幀的功率譜中全部成分進(jìn)行線性疊加,并且應(yīng)用滑動(dòng)平均MA模型將這些幀的功率譜中直達(dá)聲和早期反射聲成分進(jìn)行線性疊加,估計(jì)出當(dāng)前幀的晚期反射聲的功率譜。本實(shí)用新型實(shí)施例的有益效果是通過選取當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀,將這些幀的功率譜進(jìn)行線性疊加估計(jì)出當(dāng)前幀的晚期反射聲的功率譜,能夠不需估計(jì)混響環(huán)境的傳遞函數(shù)或混響時(shí)間,便可以估計(jì)出當(dāng)前幀的晚期反射聲的功率譜,進(jìn)而利用譜減法進(jìn)行去混響,簡化了去混響的操作復(fù)雜度,使得實(shí)現(xiàn)更為簡單;依據(jù)語音相關(guān)特性及直達(dá)聲和早期反射聲在混響環(huán)境下的沖擊響應(yīng)分布區(qū)域設(shè)置時(shí)長范圍的下限值,能夠在去除混響的同時(shí)更好保留有用的直達(dá)聲和早期反射聲,提高話音質(zhì)量;依據(jù)晚期反射聲的衰減特性設(shè)置時(shí)長范圍的上限值,能夠在保證估計(jì)的晚期反射聲的功率譜的準(zhǔn)確性的同時(shí),減少疊加運(yùn)算量;本實(shí)用新型實(shí)施例將上限值選擇為0. 3秒5秒之間的值,該上限值為通過實(shí)驗(yàn)獲得的門限值,在混響環(huán)境發(fā)生變化時(shí),無需調(diào)整該上限值,都能夠獲得較好的去混響效果;本實(shí)用新型實(shí)施例將下限值設(shè)置在50毫秒 80毫秒之間,在混響環(huán)境變化時(shí),無需改變下限值,便能夠有效避開直達(dá)聲和早期反射聲進(jìn)行疊加,使得疊加結(jié)果中基本不包含直達(dá)聲和早期反射聲,從而在去混響的同時(shí)保留有用的直達(dá)聲和早期反射聲,取得較好的話音質(zhì)量。上述混響環(huán)境的變化包括從無混響的消聲室到混響非常嚴(yán)重的大禮堂。
圖1為本實(shí)用新型單通道語音去混響裝置的結(jié)構(gòu)圖;圖2為真實(shí)房間的沖激響應(yīng)的示意圖;圖3為本實(shí)用新型單通道語音去混響裝置具體實(shí)施方式
的結(jié)構(gòu)圖;圖4為本實(shí)用新型實(shí)施效果示意圖,圖4 (a)為混響信號時(shí)域示意圖,圖4 (b)為去混響后的信號的時(shí)域示意圖。
具體實(shí)施方式
為使本實(shí)用新型的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本實(shí)用新型實(shí)施方式作進(jìn)一步地詳細(xì)描述。本實(shí)用新型的裝置如圖1所示,單通道語音去混響的裝置包括如下器。用于對輸入的單通道語音信號進(jìn)行分幀,按時(shí)間順序向傅里葉變換器200輸出幀信號的分巾貞器100。用于對接收的當(dāng)前幀進(jìn)行短時(shí)傅里葉變換,獲得當(dāng)前幀的功率譜和相位譜,向譜減器400和譜估計(jì)器300輸出當(dāng)前幀的功率譜,向傅里葉逆變換器500輸出相位譜的傅里葉變換器200。用于將當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀的功率譜進(jìn)行線性疊加,估計(jì)出當(dāng)前幀的晚期反射聲的功率譜,向譜減器400輸出估計(jì)的當(dāng)前幀的晚期反射聲的功率譜的譜估計(jì)器300。用于通過譜減法從傅里葉變換器200獲得的當(dāng)前幀的功率譜中去除從譜估計(jì)器300獲得的當(dāng)前幀的晚期反射聲的功率譜,得到當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜,向傅里葉逆變換器500輸出當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜的譜減器400。用于將從譜減器400獲得的當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜與從傅里葉變換器200獲得的當(dāng)前幀的相位譜一起進(jìn)行短時(shí)傅里葉逆變換,輸出當(dāng)前幀去混響后的信號的傅里葉逆變換器500。分幀器100與傅里葉變換器200連接;傅里葉變換器200與譜減器400、譜估計(jì)器300和傅里葉逆變換器500連接;譜估計(jì)器300與譜減器400連接;譜減器400與傅里葉逆變換器500連接。在混響環(huán)境中,麥克風(fēng)采集到的信號x(t),即單通道語音信號,是直達(dá)聲和反射聲的混合,可用如下混響模型表示X (t) = h*s (t) +n (t)其中,s(t)是從聲源發(fā)出的信號,h是從聲源位置到麥克風(fēng)位置兩點(diǎn)之間的房間沖激響應(yīng),*表示卷積運(yùn)算,n(t)表示混響環(huán)境內(nèi)的其它加性噪聲。一個(gè)真實(shí)房間的沖激響應(yīng),如圖2所示。可以將它劃分為3個(gè)部分,直達(dá)峰hd、早期反射he和晚期反射hi。hd和s(t)的卷積可以簡單地認(rèn)為是聲源發(fā)出的信號經(jīng)過一定的延遲后在麥克風(fēng)端的再現(xiàn),對應(yīng)于X(t)中的直達(dá)聲部分。早期反射部分的沖擊響應(yīng)對應(yīng)于hd之后一段時(shí)長的部分,該時(shí)長的 結(jié)束時(shí)間點(diǎn)為50ms至80ms中的某個(gè)時(shí)間點(diǎn)。一般認(rèn)為這一部分和s(t)卷積所產(chǎn)生的早期反射聲對直達(dá)聲有加強(qiáng)和改善音質(zhì)的作用。晚期反射聲部分的沖擊響應(yīng)是去除hd和he后房間沖激響應(yīng)余下的長長的拖尾部分,這一部分與信號s(t)卷積所產(chǎn)生的反射聲,就是會對聽感造成影響的混響成份。去混響算法主要是去除這一部分的影響。因此,混響模型也可表示為X (t) = (hd+he) *s (t)+hl*s (t)+n (t)hi部分符合指數(shù)衰減模型,可用如下方程近似
權(quán)利要求1.一種單通道語音去混響裝置,其特征在于,所述裝置包括 用于對輸入的單通道語音信號進(jìn)行分幀,按時(shí)間順序向傅里葉變換器輸出幀信號的分中貞器; 用于對接收的當(dāng)前幀進(jìn)行短時(shí)傅里葉變換,獲得當(dāng)前幀的功率譜和相位譜,向譜減器和譜估計(jì)器輸出當(dāng)前幀的功率譜,向傅里葉逆變換器輸出當(dāng)前幀的相位譜的傅里葉變換器; 用于將當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀的功率譜進(jìn)行線性疊加,估計(jì)出當(dāng)前幀的晚期反射聲的功率譜,向譜減器輸出估計(jì)的當(dāng)前幀的晚期反射聲的功率譜的譜估計(jì)器; 用于通過譜減法從傅里葉變換器獲得的當(dāng)前幀的功率譜中去除從譜估計(jì)器獲得的當(dāng)前幀的晚期反射聲的功率譜,得到當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜,向傅里葉逆變換器輸出當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜的譜減器; 用于將從譜減器獲得的當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜與從傅里葉變換器獲得的當(dāng)前幀的相位譜一起進(jìn)行短時(shí)傅里葉逆變換,輸出當(dāng)前幀去混響后的信號的傅里葉逆變換器; 所述分幀器與所述傅里葉變換器連接; 所述傅里葉變換器與所述譜減器、所述譜估計(jì)器和所述傅里葉逆變換器連接; 所述譜估計(jì)器與譜減器連接; 所述譜減器與所述傅里葉逆變換器連接。
專利摘要本實(shí)用新型公開一種單通道語音去混響裝置,包括用于對輸入的單通道語音信號進(jìn)行分幀,按時(shí)間順序輸出幀信號的分幀器;用于對接收的當(dāng)前幀進(jìn)行短時(shí)傅里葉變換,獲得當(dāng)前幀的功率譜和相位譜的傅里葉變換器;用于將當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀的功率譜進(jìn)行線性疊加,估計(jì)出當(dāng)前幀的晚期反射聲的功率譜的譜估計(jì)器;用于通過譜減法從功率譜中去除晚期反射聲的功率譜,得到直達(dá)聲和早期反射聲的功率譜的譜減器;用于將去除后的功率譜與獲得的當(dāng)前幀的相位譜一起進(jìn)行短時(shí)傅里葉逆變換,輸出當(dāng)前幀去混響后的信號的傅里葉逆變換器。本實(shí)用新型能夠解決單通道語音去混響中估計(jì)混響環(huán)境的傳遞函數(shù)或估計(jì)混響時(shí)間困難的問題。
文檔編號G10L21/0208GK202887704SQ20122028768
公開日2013年4月17日 申請日期2012年6月18日 優(yōu)先權(quán)日2012年6月18日
發(fā)明者樓廈廈, 吳曉婕, 李波 申請人:歌爾聲學(xué)股份有限公司