一種單通道語音去混響裝置的制作方法

文檔序號：2834190閱讀：293來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種單通道語音去混響裝置的制作方法
技術(shù)領(lǐng)域：
本實(shí)用新型涉及語音增強(qiáng)領(lǐng)域，特別涉及單通道語音去混響裝置。
背景技術(shù)：
在遠(yuǎn)距離語音通訊中，麥克風(fēng)端接收的信號容易受到環(huán)境混響的影響。比如，在房間內(nèi)，語音經(jīng)過墻面、地板和家具等多次放射，麥克風(fēng)端接收到的信號是直達(dá)聲和反射聲的混合信號。這部分反射聲就是混響信號。當(dāng)說話人距離麥克風(fēng)比較遠(yuǎn)，且通話環(huán)境是一個(gè)相對封閉的空間時(shí)，就很容易產(chǎn)生混響?；祉憞?yán)重時(shí)，會導(dǎo)致語音不清楚，影響通話質(zhì)量。另夕卜，混響帶來的干擾，還會導(dǎo)致聲學(xué)接收系統(tǒng)性能變差，語音識別系統(tǒng)性能顯著下降等。
早期的去混響裝置主要是利用反卷積來進(jìn)行去混響的。這類裝置需要提前知道準(zhǔn)確的混響環(huán)境(房間或辦公室等)的沖激響應(yīng)或傳遞函數(shù)。混響環(huán)境的沖激響應(yīng)可以通過某種特別的裝置提前測量得到，也可以通過其它裝置單獨(dú)估計(jì)得到。然后利用這個(gè)已知的混響環(huán)境沖激響應(yīng)，估計(jì)逆濾波器，實(shí)現(xiàn)對混響信號的反卷積，從而實(shí)現(xiàn)去混響。這類裝置的問題是，混響環(huán)境的沖激響應(yīng)往往很難提前獲得，且求取逆濾波器的過程本身可能引入新的不穩(wěn)定因素。另一類去混響裝置，不需要估計(jì)混響環(huán)境的沖激響應(yīng)，因此不需要計(jì)算逆濾波器和進(jìn)行逆濾波運(yùn)算，也被稱為盲去混響裝置。這類裝置通?；谡Z音模型假設(shè)，比如混響導(dǎo)致接收的濁音激勵(lì)脈沖發(fā)生變化，使得周期性變得不那么明顯，從而影響語音清晰度。這類裝置一般基于LPC (Linear Prediction Coding,線性預(yù)測編碼)模型,假定產(chǎn)生語音的模型是一個(gè)全極點(diǎn)模型，而混響或其它加性噪聲在整個(gè)系統(tǒng)中引入了新的零點(diǎn)，從而干擾了濁音激勵(lì)脈沖，但并不影響全極點(diǎn)濾波器。去混響裝置是估計(jì)信號的LPC殘差，然后按照基因同步粹發(fā)準(zhǔn)則(pitch-synchronous clustering criterion)或峰度(Kurtosis)最大化準(zhǔn)則等，來估計(jì)干凈的脈沖激勵(lì)序列，從而實(shí)現(xiàn)去混響。這類裝置的問題是計(jì)算復(fù)雜度往往非常高，且對于混響只影響全零點(diǎn)濾波器的假設(shè)，與實(shí)驗(yàn)分析存在不相符的情況。利用譜減法去混響是一個(gè)較佳的方案，語音信號包括直達(dá)聲、早期反射聲和晚期反射聲，采用譜減法將晚期反射聲的功率譜從整個(gè)語音的功率譜中除去能夠提高語音質(zhì)量。但其中的關(guān)鍵問題在于晚期反射聲的譜的估計(jì)，即如何獲得比較準(zhǔn)確的晚期反射聲的功率譜，從而在將晚期反射聲的成份有效去除的同時(shí)又不損傷語音。在單通道語音去混響中，因?yàn)橹挥幸宦符溈孙L(fēng)信息可用，因此估計(jì)混響環(huán)境的傳遞函數(shù)或估計(jì)混響時(shí)間(RT60)非常困難。

實(shí)用新型內(nèi)容本實(shí)用新型提供的一種單通道語音去混響的裝置，以解決單通道語音去混響中估計(jì)混響環(huán)境的傳遞函數(shù)或估計(jì)混響時(shí)間困難的問題。本實(shí)用新型還公開了一種單通道語音去混響的裝置，所述裝置包括用于對輸入的單通道語音信號進(jìn)行分幀，按時(shí)間順序向傅里葉變換器輸出幀信號的分巾貞器；用于對接收的當(dāng)前幀進(jìn)行短時(shí)傅里葉變換，獲得當(dāng)前幀的功率譜和相位譜，向譜減器和譜估計(jì)器輸出當(dāng)前幀的功率譜，向傅里葉逆變換器輸出當(dāng)前幀的相位譜的傅里葉變換器；用于將當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀的功率譜進(jìn)行線性疊加，估計(jì)出當(dāng)前幀的晚期反射聲的功率譜，向譜減器輸出估計(jì)的當(dāng)前幀的晚期反射聲的功率譜的譜估計(jì)器；用于通過譜減法從傅里葉變換器獲得的當(dāng)前幀的功率譜中去除從譜估計(jì)器獲得的當(dāng)前幀的晚期反射聲的功率譜，得到當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜，向傅里葉逆變換器輸出當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜的譜減器；用于將從譜減器獲得的當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜與從傅里葉變換器獲得的當(dāng)前幀的相位譜一起進(jìn)行短時(shí)傅里葉逆變換，輸出當(dāng)前幀去混響后的信號的傅里葉逆變換器；所述分幀器與所述傅里葉變換器連接；所述傅里葉變換器與所述譜減器、所述譜估計(jì)器和所述傅里葉逆變換器連接；所述譜估計(jì)器與譜減器連接；所述譜減器與所述傅里葉逆變換器連接。較佳地，所述譜估計(jì)器具體用于，依據(jù)晚期反射聲的衰減特性設(shè)置所述時(shí)長范圍的上限值。較佳地，所述譜估計(jì)器具體用于，依據(jù)語音相關(guān)特性及直達(dá)聲和早期反射聲在混響環(huán)境下的沖擊響應(yīng)分布區(qū)域設(shè)置所述時(shí)長范圍的下限值。較佳地，所述譜估計(jì)器具體用于，選擇所述時(shí)長范圍的上限值為0. 3秒5秒之間的值。較佳地，所述譜估計(jì)器具體用于，選擇所述時(shí)長范圍的下限值為50毫秒 80毫秒之間的值。較佳地，所述譜估計(jì)器具體用于對于當(dāng)前幀之前的、到當(dāng)前幀的距離在所述設(shè)置的時(shí)長范圍內(nèi)的若干幀，應(yīng)用自回歸AR模型將這些幀的功率譜中全部成分進(jìn)行線性疊加估計(jì)出當(dāng)前幀的晚期反射聲的功率譜。較佳地，所述譜估計(jì)器具體用于對于當(dāng)前幀之前的、到當(dāng)前幀的距離在所述設(shè)置的時(shí)長范圍內(nèi)的若干幀，應(yīng)用滑動(dòng)平均MA模型將這些幀的功率譜中直達(dá)聲和早期反射聲成分進(jìn)行線性疊加估計(jì)出當(dāng)前幀的晚期反射聲的功率譜。較佳地，所述譜估計(jì)器具體用于對于當(dāng)前幀之前的、到當(dāng)前幀的距離在所述設(shè)置的時(shí)長范圍內(nèi)的若干幀，應(yīng)用自回歸AR模型將這些幀的功率譜中全部成分進(jìn)行線性疊加，并且應(yīng)用滑動(dòng)平均MA模型將這些幀的功率譜中直達(dá)聲和早期反射聲成分進(jìn)行線性疊加，估計(jì)出當(dāng)前幀的晚期反射聲的功率譜。本實(shí)用新型實(shí)施例的有益效果是通過選取當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀，將這些幀的功率譜進(jìn)行線性疊加估計(jì)出當(dāng)前幀的晚期反射聲的功率譜，能夠不需估計(jì)混響環(huán)境的傳遞函數(shù)或混響時(shí)間，便可以估計(jì)出當(dāng)前幀的晚期反射聲的功率譜，進(jìn)而利用譜減法進(jìn)行去混響，簡化了去混響的操作復(fù)雜度，使得實(shí)現(xiàn)更為簡單；依據(jù)語音相關(guān)特性及直達(dá)聲和早期反射聲在混響環(huán)境下的沖擊響應(yīng)分布區(qū)域設(shè)置時(shí)長范圍的下限值，能夠在去除混響的同時(shí)更好保留有用的直達(dá)聲和早期反射聲，提高話音質(zhì)量；依據(jù)晚期反射聲的衰減特性設(shè)置時(shí)長范圍的上限值，能夠在保證估計(jì)的晚期反射聲的功率譜的準(zhǔn)確性的同時(shí)，減少疊加運(yùn)算量；本實(shí)用新型實(shí)施例將上限值選擇為0. 3秒5秒之間的值，該上限值為通過實(shí)驗(yàn)獲得的門限值，在混響環(huán)境發(fā)生變化時(shí)，無需調(diào)整該上限值，都能夠獲得較好的去混響效果;本實(shí)用新型實(shí)施例將下限值設(shè)置在50毫秒 80毫秒之間，在混響環(huán)境變化時(shí)，無需改變下限值，便能夠有效避開直達(dá)聲和早期反射聲進(jìn)行疊加，使得疊加結(jié)果中基本不包含直達(dá)聲和早期反射聲，從而在去混響的同時(shí)保留有用的直達(dá)聲和早期反射聲，取得較好的話音質(zhì)量。上述混響環(huán)境的變化包括從無混響的消聲室到混響非常嚴(yán)重的大禮堂。

圖1為本實(shí)用新型單通道語音去混響裝置的結(jié)構(gòu)圖；圖2為真實(shí)房間的沖激響應(yīng)的示意圖；圖3為本實(shí)用新型單通道語音去混響裝置具體實(shí)施方式
的結(jié)構(gòu)圖；圖4為本實(shí)用新型實(shí)施效果示意圖，圖4 (a)為混響信號時(shí)域示意圖，圖4 (b)為去混響后的信號的時(shí)域示意圖。
具體實(shí)施方式
為使本實(shí)用新型的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對本實(shí)用新型實(shí)施方式作進(jìn)一步地詳細(xì)描述。本實(shí)用新型的裝置如圖1所示，單通道語音去混響的裝置包括如下器。用于對輸入的單通道語音信號進(jìn)行分幀，按時(shí)間順序向傅里葉變換器200輸出幀信號的分巾貞器100。用于對接收的當(dāng)前幀進(jìn)行短時(shí)傅里葉變換，獲得當(dāng)前幀的功率譜和相位譜，向譜減器400和譜估計(jì)器300輸出當(dāng)前幀的功率譜，向傅里葉逆變換器500輸出相位譜的傅里葉變換器200。用于將當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀的功率譜進(jìn)行線性疊加，估計(jì)出當(dāng)前幀的晚期反射聲的功率譜，向譜減器400輸出估計(jì)的當(dāng)前幀的晚期反射聲的功率譜的譜估計(jì)器300。用于通過譜減法從傅里葉變換器200獲得的當(dāng)前幀的功率譜中去除從譜估計(jì)器300獲得的當(dāng)前幀的晚期反射聲的功率譜,得到當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜，向傅里葉逆變換器500輸出當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜的譜減器400。用于將從譜減器400獲得的當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜與從傅里葉變換器200獲得的當(dāng)前幀的相位譜一起進(jìn)行短時(shí)傅里葉逆變換，輸出當(dāng)前幀去混響后的信號的傅里葉逆變換器500。分幀器100與傅里葉變換器200連接；傅里葉變換器200與譜減器400、譜估計(jì)器300和傅里葉逆變換器500連接；譜估計(jì)器300與譜減器400連接；譜減器400與傅里葉逆變換器500連接。在混響環(huán)境中，麥克風(fēng)采集到的信號x(t)，即單通道語音信號，是直達(dá)聲和反射聲的混合，可用如下混響模型表示X (t) = h*s (t) +n (t)其中，s(t)是從聲源發(fā)出的信號，h是從聲源位置到麥克風(fēng)位置兩點(diǎn)之間的房間沖激響應(yīng)，*表示卷積運(yùn)算，n(t)表示混響環(huán)境內(nèi)的其它加性噪聲。一個(gè)真實(shí)房間的沖激響應(yīng)，如圖2所示。可以將它劃分為3個(gè)部分，直達(dá)峰hd、早期反射he和晚期反射hi。hd和s(t)的卷積可以簡單地認(rèn)為是聲源發(fā)出的信號經(jīng)過一定的延遲后在麥克風(fēng)端的再現(xiàn)，對應(yīng)于X(t)中的直達(dá)聲部分。早期反射部分的沖擊響應(yīng)對應(yīng)于hd之后一段時(shí)長的部分，該時(shí)長的結(jié)束時(shí)間點(diǎn)為50ms至80ms中的某個(gè)時(shí)間點(diǎn)。一般認(rèn)為這一部分和s(t)卷積所產(chǎn)生的早期反射聲對直達(dá)聲有加強(qiáng)和改善音質(zhì)的作用。晚期反射聲部分的沖擊響應(yīng)是去除hd和he后房間沖激響應(yīng)余下的長長的拖尾部分，這一部分與信號s(t)卷積所產(chǎn)生的反射聲，就是會對聽感造成影響的混響成份。去混響算法主要是去除這一部分的影響。因此，混響模型也可表示為X (t) = (hd+he) *s (t)+hl*s (t)+n (t)hi部分符合指數(shù)衰減模型，可用如下方程近似
權(quán)利要求1.一種單通道語音去混響裝置，其特征在于，所述裝置包括用于對輸入的單通道語音信號進(jìn)行分幀，按時(shí)間順序向傅里葉變換器輸出幀信號的分中貞器；用于對接收的當(dāng)前幀進(jìn)行短時(shí)傅里葉變換，獲得當(dāng)前幀的功率譜和相位譜，向譜減器和譜估計(jì)器輸出當(dāng)前幀的功率譜，向傅里葉逆變換器輸出當(dāng)前幀的相位譜的傅里葉變換器；用于將當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀的功率譜進(jìn)行線性疊加，估計(jì)出當(dāng)前幀的晚期反射聲的功率譜，向譜減器輸出估計(jì)的當(dāng)前幀的晚期反射聲的功率譜的譜估計(jì)器；用于通過譜減法從傅里葉變換器獲得的當(dāng)前幀的功率譜中去除從譜估計(jì)器獲得的當(dāng)前幀的晚期反射聲的功率譜，得到當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜，向傅里葉逆變換器輸出當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜的譜減器；用于將從譜減器獲得的當(dāng)前幀的直達(dá)聲和早期反射聲的功率譜與從傅里葉變換器獲得的當(dāng)前幀的相位譜一起進(jìn)行短時(shí)傅里葉逆變換，輸出當(dāng)前幀去混響后的信號的傅里葉逆變換器；所述分幀器與所述傅里葉變換器連接；所述傅里葉變換器與所述譜減器、所述譜估計(jì)器和所述傅里葉逆變換器連接；所述譜估計(jì)器與譜減器連接；所述譜減器與所述傅里葉逆變換器連接。
專利摘要本實(shí)用新型公開一種單通道語音去混響裝置，包括用于對輸入的單通道語音信號進(jìn)行分幀，按時(shí)間順序輸出幀信號的分幀器；用于對接收的當(dāng)前幀進(jìn)行短時(shí)傅里葉變換，獲得當(dāng)前幀的功率譜和相位譜的傅里葉變換器；用于將當(dāng)前幀之前的、到當(dāng)前幀的距離在設(shè)置的時(shí)長范圍內(nèi)的若干幀的功率譜進(jìn)行線性疊加，估計(jì)出當(dāng)前幀的晚期反射聲的功率譜的譜估計(jì)器；用于通過譜減法從功率譜中去除晚期反射聲的功率譜，得到直達(dá)聲和早期反射聲的功率譜的譜減器；用于將去除后的功率譜與獲得的當(dāng)前幀的相位譜一起進(jìn)行短時(shí)傅里葉逆變換，輸出當(dāng)前幀去混響后的信號的傅里葉逆變換器。本實(shí)用新型能夠解決單通道語音去混響中估計(jì)混響環(huán)境的傳遞函數(shù)或估計(jì)混響時(shí)間困難的問題。
文檔編號G10L21/0208GK202887704SQ20122028768
公開日2013年4月17日申請日期2012年6月18日優(yōu)先權(quán)日2012年6月18日
發(fā)明者樓廈廈, 吳曉婕, 李波申請人:歌爾聲學(xué)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：樓廈廈;吳曉婕;李波
技術(shù)所有人：歌爾聲學(xué)股份有限公司
我是此專利的發(fā)明人

上一篇：吉他拍錘的制作方法
上一篇：一種便攜式聾人語言交流機(jī)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

單通道語音增強(qiáng)相關(guān)技術(shù)

去混響相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種單通道語音去混響裝置的制作方法