專利名稱:電信網(wǎng)絡(luò)中的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在語音和音頻編碼中使用的后置濾波器算法。具體地 說,本發(fā)明涉及用于提供改進(jìn)的后置濾波器的方法和裝置。
背景技術(shù):
在傳送語音或音頻的通信網(wǎng)絡(luò)中,原語音IOO或音頻由在傳送器 的編碼器101編碼,并且將編碼的比特流102傳送到如圖3所示的接 收器。在接收器,編碼的比特流102由解碼器103解碼,解碼器將原 語音和音頻信號重新構(gòu)建為重新構(gòu)建的語音(或音頻)104信號。語 音和音頻編碼引入了量化噪聲,量化噪聲損害了重新構(gòu)建的語音的質(zhì) 量。因此,引入了后置濾波器算法105。目前發(fā)展水平的后置濾波器 算法105為量化噪聲定形,使得它變得更不可聽到。因此,現(xiàn)有后置 濾波器改進(jìn)解碼器重新構(gòu)建的語音信號的感知質(zhì)量,^f吏得增強(qiáng)的語音 信號106得以提供。在J. H. Chen和A. Gersho的"Adaptive postfiltering for quality enhancement of coded speech" (IEEE Trans. Speech Audio Process,巻3,第58-71頁,1985 )中能找到后置濾波器技術(shù)的;f既述。
所有現(xiàn)有后置濾波器利用信號掩蔽的概念。它是在人類聽覺系統(tǒng) 中的一個重要現(xiàn)象。它意味著聲音在存在更強(qiáng)的聲音時是不可聽到 的。通常,掩蔽閾值具有在音調(diào)(tone)的頻率處的峰值,并且在峰 值的兩側(cè)單調(diào)降低。這意味著允許在音調(diào)頻率(語音共振峰)附近的 噪聲分量具有比更遠(yuǎn)(頻語谷)的其它噪聲分量更高的強(qiáng)度。這就是 現(xiàn)有后置濾波器在幀基礎(chǔ)上以自回歸(AR)系數(shù)和/或基音周期形式 適應(yīng)語音中的基音結(jié)構(gòu)和/或共振峰的原因。
最通用的后置濾波器是共振峰(短期)后置濾波器和基音(長期)后置濾波器。共振峰后置濾波器通過強(qiáng)調(diào)共振峰頻率和降低頻譜谷的 重要性,降低了量化噪聲的效應(yīng)。這在圖l中示出,其中,連續(xù)線示 出在后置濾波前信號的自回歸包絡(luò),并且虛線示出后置濾波后信號的 自回歸包絡(luò)。基音后置濾波器強(qiáng)調(diào)在基音諧振峰的頻率分量,這在圖
2中示出。圖2的連續(xù)線示出在后置濾波前信號的頻語,而虛線示出 后置濾波后信號的頻譜。圖1和2的曲線涉及來自窄帶信號的30ms 塊。還應(yīng)注意的是,圖l和2的曲線不表示實際后置濾波器參數(shù),而 僅表示后置濾波的概念。
共振峰和/或基音指示能量在一個幀中如何分布,這意味著指示了 ^皮掩蔽的信號部分(其更不可聽到或完全可聽到)。因此,現(xiàn)有后置 濾波器參數(shù)自適應(yīng)利用信號掩蔽概念,并且因此適用于象共振峰頻率 和基音諧振峰等語音結(jié)構(gòu)。這些全部是幀內(nèi)特征(如給出基音諧振峰 的基音周期和確定共振峰的自回歸系數(shù)),它們基于對于當(dāng)前幀語音 (例如,20毫秒語音)是平穩(wěn)的假設(shè)來計算。
除信號掩蔽外, 一個重要的心理聲學(xué)現(xiàn)象是如果信號動力(signal dynamics)高,則失真更不令人反感。它意味著通過語音信號中的快 速變化在聽覺上掩蔽了噪聲。通過語音信號中的快速變化在聽覺上掩 蔽噪聲的概念已經(jīng)在H. Knagenhjelm和W.B. Kleijn的"Spectral dynamics is more important than spectral distortion" (ICASSP, 第1巻, 732-735頁,1995)中用于語音編碼,并在T. Quateri和R. Dunn的 "Speech enhancement based on auditory spectral change" (ICASSP,第 1 巻,257-260頁,2002)中用于增強(qiáng)。在H. Knagenhjelm和W.B. Kleijn 的文章中,在線i普頻率(LSF )量化中使用對語動力(spectral dynamics) 的自適應(yīng)。在T. Quateri和R. Dunn的文章中,在用于背景噪聲衰減 的預(yù)處理器中使用對i普動力的自適應(yīng)。
發(fā)明內(nèi)容
然而,現(xiàn)有后置濾波器解決方案未將以下事實考慮在內(nèi)在語音信息內(nèi)容高時,應(yīng)執(zhí)行更少的抑制,并且當(dāng)信號在穩(wěn)態(tài)模式中時,應(yīng) 執(zhí)行更多抑制。
因此,本發(fā)明的一個目的是改進(jìn)重新構(gòu)建的語音的感知質(zhì)量。 本發(fā)明借助于改進(jìn)的后置濾波器控制參數(shù)實現(xiàn)了此目的,其中,
基于信號平穩(wěn)性確定的系數(shù)應(yīng)用到常規(guī)后置濾波器控制參數(shù)以獲得
改進(jìn)的后置濾波器控制參數(shù)。
根據(jù)本發(fā)明的第一方面,提供一種用于后置濾波器控制的方法。
該方法改進(jìn)在語音解碼器重新構(gòu)建的語音的感知質(zhì)量,并包括以下步
驟測量在解碼器重新構(gòu)建的語音信號的平穩(wěn)性;基于測量的平穩(wěn)性 確定對于后置濾波器控制參數(shù)的系數(shù);以及將確定的系數(shù)傳送到后置 濾波器,使得后置濾波器能通過將確定的系數(shù)應(yīng)用到后置濾波器控制 參數(shù)來處理重新構(gòu)建的語音信號以獲得增強(qiáng)的語音信號。
根據(jù)本發(fā)明的第二方面,提供了一種在用于改進(jìn)在語音解碼器重 新構(gòu)建的語音的感知質(zhì)量的后置濾波器中的方法。該方法包括以下步 驟將確定的系數(shù)接收到后置濾波器;以及通過將確定的系數(shù)應(yīng)用到 后置濾波器控制參數(shù)來處理重新構(gòu)建的語音信號以獲得增強(qiáng)的語音 信號,其中系數(shù)基于在解碼器重新構(gòu)建的語音信號的測量的平穩(wěn)性來 確定。
根據(jù)本發(fā)明的第三方面,提供了一種要與用于改進(jìn)在語音解碼器 重新構(gòu)建的語音的感知質(zhì)量的后置濾波器相關(guān)聯(lián)的后置濾波器控制。 所述后置濾波器控制包括用于測量在解碼器重新構(gòu)建的語音信號的 平穩(wěn)性的部件、用于基于測量的平穩(wěn)性確定對于后置濾波器控制參數(shù) 的系數(shù)的部件、以及用于將確定的系數(shù)傳送到后置濾波器的部件,使 得后置濾波器能通過將確定的系數(shù)應(yīng)用到后置濾波器控制參數(shù)來處 理重新構(gòu)建的語音信號以獲得增強(qiáng)的語音信號。
根據(jù)本發(fā)明的第四方面,提供了 一種用于改進(jìn)在語音解碼器重新 構(gòu)建的語音的感知質(zhì)量的后置濾波器。所述后置濾波器包括用于將確 定的系數(shù)接收到后置濾波器的部件和用于通過將確定的系數(shù)應(yīng)用到后置濾波器控制參數(shù)來處理重新構(gòu)建的語音信號以獲得增強(qiáng)的語音 信號的處理器,其中系數(shù)基于在解碼器重新構(gòu)建的語音信號的測量的 平穩(wěn)性來確定。
本發(fā)明的優(yōu)勢在于后置濾波器參數(shù)對i普動力的自適應(yīng)提供了與現(xiàn) 有后置濾波器兼容的簡單方案。
圖1示出根據(jù)現(xiàn)有技術(shù)的共振峰后置濾波器在重新構(gòu)建的信號上 的凌支應(yīng)。
圖2示出根據(jù)現(xiàn)有技術(shù)的基音后置濾波器在重新構(gòu)建的信號上的 效應(yīng)。
圖3示意示出根據(jù)現(xiàn)有技術(shù)的具有后置濾波器的編碼器-解碼器。 圖4示意示出具有本發(fā)明的一個實施例的后置濾波器控制的根據(jù)
圖1的編碼器-解碼器。
圖5示意示出才艮據(jù)本發(fā)明的一個實施例的后置濾波器和后置濾波
器控制。
圖6a和6b是根據(jù)本發(fā)明的方法的流程圖。
具體實施例方式
本發(fā)明的基本概念是修改現(xiàn)有后置濾波器,使得它適用解碼的語 音信號的語動力。(應(yīng)注意的是,即使在本文中使用了術(shù)語語音,說 明書也涉及任何音頻信號。)譜動力暗示信號的平穩(wěn)性的度量,定義 為在兩個相鄰語音段的譜密度之間的歐幾里德距離。如果兩個語音段 之間的歐幾里德距離高,則與歐幾里德距離低時的情況相比,應(yīng)降低 衰減。
根據(jù)本發(fā)明的修改的后置濾波器使得可能在動力低時抑制更多噪 聲,并且在動力高時,例如,在共振峰遷移(formant transition)和元 音開始(vowel onset)期間,抑制更少噪聲。這說明了以下事實量化噪聲的平均水平可能在時間上不迅速變 化,但在信號的一些部分中,噪聲將比在其它部分中更可聽到。
應(yīng)注意的是,后置濾波器控制不替代信號掩蔽現(xiàn)象激發(fā)的常規(guī)后 置濾波器自適應(yīng),而是利用人類聽覺系統(tǒng)的另外屬性的補(bǔ)充自適應(yīng), 從而改進(jìn)常規(guī)后置濾波器解決方案的質(zhì)量。
因此,根據(jù)本發(fā)明引入了使后置濾波器適應(yīng)解碼信號的鐠動力的 后置濾波器控制。本發(fā)明的一個實施例在圖4中示出。圖4示出解碼 器201和后置濾波器202。編碼的比特流203輸入到解碼器201,并 且解碼器201將編碼的比特流203解碼并重新構(gòu)建語音信號204。后 置濾波器控制206測量信號平穩(wěn)性,并確定要傳送到后置濾波器202 的系數(shù)208 (下面表示為K)。后置濾波器202通過使用由后置濾波 器控制206的系數(shù)208修改的常規(guī)后置濾波器參數(shù),處理重新構(gòu)建的 語音信號,使得后置濾波器適應(yīng)解碼信號的譜動力。
在下文中,公開了根據(jù)一個實施例的后置濾波器控制的實現(xiàn)。此 實現(xiàn)基于US2005/0165603 Al中描述的基音后置濾波器。此后置濾波 器也在3GPP2 C.S0052誦A: "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Option 62 or 63 for Spread Spectrum Systems" (2005,第154頁(等式6.3.1-1和6.3. 1-2))中 描述。基音后置濾波器具有以下形式
= (i - a )柳+!(雄- r)+砂+r))
!^后置濾波器輸出205 §后置濾波器輸入204
r基音周期
A是在一個幀中的語音樣本的索引
a衰減控制參數(shù)208 (這可以是如在3GPP2 C.S0052-A: "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Option 62 or 63 for Spread Spectrum Systems"(2005)中的歸一化基音相關(guān)的函數(shù))。
所有后置濾波器具有調(diào)整為獲得增強(qiáng)語音的至少一個控制參數(shù) a。應(yīng)注意的是,此控制參數(shù)不限于3GPP2C.S0052-A中所述的a。 a 的此調(diào)整可基于聽力測試。在上述基音后置濾波器中,控制參數(shù)a的 值取決于基音的穩(wěn)定性(濁音度(degree of voiceness)),因為基音 存在于濁音幀(voicedframe)中。
由于復(fù)雜性原因,在此實現(xiàn)中確定導(dǎo)抗-潛頻率(immitance spectral frequency) (ISF)距離,而不是相鄰幀之間的語距離。ISF是自回歸 系數(shù)(也稱為線性預(yù)測系數(shù))的表示。
另 一常用的表示是線譜頻率(LSF )。相鄰幀的ISF或LSF之間 的距離是譜動力的近似,因為這些是譜包絡(luò)的參數(shù)表示。
在3GPP2 C.S0052-A: "Source controlled Variable-rate multimode wideband speech codec (VMR-WB), Service options 62 or 63 for spread spectrum systems" (2005)中的第151頁上,ISF距離被計算并轉(zhuǎn)換為
穩(wěn)定性因子e:
<formula>formula see original document page 10</formula>
此穩(wěn)定性因子e只是iSF距離的歸一化,因此在本發(fā)明的實施例
中用于確定語動力。然而,應(yīng)注意的是,諸如LSF等其它度量也能用 于確定譜動力。符號"past"指示它是來自前面語音幀的ISF向量。通過
使用此e和表示為e—smooth的e的低通版本,確定兩個參數(shù)^和\|/2。
e一smooth由于測量在當(dāng)前幀和前面幀外的信號平穩(wěn)性,因此,它是重 要的。這兩個參數(shù)vi和V2用于確定用于衰減控制參數(shù)的系數(shù)K。根 據(jù)此實施例,系凄t表示為
<formula>formula see original document page 10</formula>并且新控制參數(shù)a加^。rf取=K a.
從上面等式確定的a^6一。卻,替代常規(guī)控制參數(shù)。K被定義為v^和 ¥2的線性組合。v(/r測量在當(dāng)前幀與前面幀之間的語距離。\)/2測量該距離到過去幀的低通距離(e員。。,j有多遠(yuǎn)。 即
a—。p,= -2,(VP2)a
平2 = P訓(xùn)。。,A -6 I
因此,本發(fā)明涉及如圖5所示的后置濾波器控制。后置濾波器控 制300包括用于測量在解碼器重新構(gòu)建的語音信號的平穩(wěn)性的部件 301、用于基于測量的平穩(wěn)性確定對于后置濾波器控制參數(shù)的系數(shù)K 的部件302,以及用于將確定的系數(shù)傳送到后置濾波器的部件303, 使得后置濾波器能通過使用確定的系數(shù)來處理重新構(gòu)建的語音信號 以獲得增強(qiáng)的語音信號。
另外,本發(fā)明的后置濾波器304包4舌后置濾波器處理器305和用 于接收到后置濾波器的確定系數(shù)K的部件306,并且后置濾波器處理 器305包括用于通過應(yīng)用確定的系數(shù)K來處理重新構(gòu)建的語音信號以 獲得增強(qiáng)的語音信號的部件307,其中,系數(shù)K基于在解碼器重新構(gòu) 建的語音信號的測量的平穩(wěn)性來確定。
此外,本發(fā)明還涉及在后置濾波器控制中的方法。該方法在圖4a 的流程圖中示出并包括以下步驟
401. 測量在解碼器重新構(gòu)建的語音信號的平穩(wěn)性。
402. 基于測量的平穩(wěn)性確定對于后置濾波器控制參數(shù)的系數(shù)。
403. 將確定的系數(shù)傳送到后置濾波器,使得后置濾波器能通過將 確定的系數(shù)應(yīng)用到后置濾波器控制參數(shù)來處理重新構(gòu)建的語音信號, 以獲得增強(qiáng)的語音信號。
如圖4b的流程圖所示,還提供了用于后置濾波器的方法。該方 法包括以下步驟
404. 將確定的系數(shù)接收到后置濾波器。405.通過將確定的系數(shù)應(yīng)用到后置濾波器控制參數(shù)來處理重新 構(gòu)建的語音信號以獲得增強(qiáng)的語音信號,其中系數(shù)基于在解碼器重新 構(gòu)建的語音信號的測量的平穩(wěn)性來確定。
本發(fā)明不限于上述優(yōu)選實施例。各種備選、修改和等效物可使用。
權(quán)利要求
1.一種用于改進(jìn)在語音解碼器重新構(gòu)建的語音的感知質(zhì)量的方法,所述方法包括以下步驟-測量在解碼器重新構(gòu)建的語音信號的平穩(wěn)性,-基于所測量的平穩(wěn)性來確定對于后置濾波器控制參數(shù)的系數(shù),以及-將所確定的系數(shù)傳送到后置濾波器,使得所述后置濾波器能通過將所確定的系數(shù)應(yīng)用到所述后置濾波器控制參數(shù)來處理所重新構(gòu)建的語音信號以獲得增強(qiáng)的語音信號。
2 . 如權(quán)利要求1所述的方法,其中所確定的系凄這于譜動力的近似。
3. 如權(quán)利要求2所述的方法,其中譜動力的所述近似是導(dǎo)抗語頻率。
4. 如權(quán)利要求1-3的任一項所述的方法,其中所確定的系數(shù)是第 一參數(shù)和第二參數(shù)的線性組合,所述第一參數(shù)是當(dāng)前幀和前面幀之間 的語距離的測量,.所述第二參數(shù)是所述鐠距離到過去幀的低通i普距離1。w有多遠(yuǎn)的測量。
5. 如權(quán)利要求1所述的方法,其中所述后置濾波器控制參數(shù)是歸 一化基音相關(guān)的函數(shù)。
6. —種在用于改進(jìn)在語音解碼器重新構(gòu)建的語音的感知質(zhì)量的 后置濾波器中的方法,所述方法包括以下步驟-將確定的系數(shù)接收到所述后置濾波器,以及-通過將所述確定的系數(shù)應(yīng)用到所述后置濾波器控制參數(shù)來處 理所重新構(gòu)建的語音信號以獲得增強(qiáng)的語音信號,其中所述系數(shù)基于 在解碼器重新構(gòu)建的所述語音信號的測量的平穩(wěn)性來確定。
7. 如權(quán)利要求6所述的方法,其中所述確定的系tt于語動力的 近似。
8. 如權(quán)利要求7所述的方法,其中i普動力的所述近似是導(dǎo)抗譜頻率。
9. 如權(quán)利要求6-8的任一項所述的方法,其中所述確定的系數(shù)是 第 一參數(shù)和第二參數(shù)的線性組合,所述第 一參數(shù)是當(dāng)前幀和前面幀之 間的譜距離的測量,所述第二參數(shù)是所述語距離到過去幀的低通譜距離e^。w有多遠(yuǎn)的測量。
10. 如權(quán)利要求6所述的方法,其中所述后置濾波器控制參數(shù)是 歸一化基音相關(guān)的函數(shù)。
11. 一種要與用于改進(jìn)在語音解碼器重新構(gòu)建的語音的感知質(zhì)量 的后置濾波器相關(guān)聯(lián)的后置濾波器控制,所述后置濾波器控制包括用 于測量在解碼器重新構(gòu)建的語音信號的平穩(wěn)性的部件、用于基于所測 量的平穩(wěn)性確定對于后置濾波器控制參數(shù)的系數(shù)的部件,以及用于將 所確定的系數(shù)傳送到后置濾波器的部件,使得所述后置濾波器能通過 將所確定的系數(shù)應(yīng)用到所述后置濾波器控制參數(shù)來處理所重新構(gòu)建 的語音信號以獲得增強(qiáng)的語音信號。
12. 如權(quán)利要求11所述的后置濾波器控制,其中它包括用于基于 譜動力的近似來確定所述系數(shù)的部件。
13. 如權(quán)利要求12所述的后置濾波器控制,其中譜動力的所述近 似是導(dǎo)抗語頻率。
14. 如權(quán)利要求11-13的任一項所述的后置濾波器控制,其中所 確定的系數(shù)是第 一參數(shù)和第二參數(shù)的線性組合,所述第 一參數(shù)是當(dāng)前 幀和前面幀之間的語距離的測量,所述第二參數(shù)是所述"i普距離到過去 幀的低通i普距離e皿。。M有多遠(yuǎn)的測量。
15. 如權(quán)利要求11所述的后置濾波器控制,其中所述后置濾波器 控制參數(shù)是歸 一化基音相關(guān)的函數(shù)。
16. —種用于改進(jìn)在語音解碼器重新構(gòu)建的語音的感知質(zhì)量的后 置濾波器,所述后置濾波器控制包括用于將確定的系數(shù)接收到所述后 置濾波器的部件和用于通過將所述確定的系數(shù)應(yīng)用到所述后置濾波器控制參數(shù)來處理所重新構(gòu)建的語音信號以獲得增強(qiáng)的語音信號的 處理器,其中所述系數(shù)基于在解碼器重新構(gòu)建的所述語音信號的測量 的平穩(wěn)性來確定。
17. 如權(quán)利要求16所述的后置濾波器,其中所述確定的系數(shù)基于 i普動力的近4以。
18. 如權(quán)利要求17所述的后置濾波器,其中語動力的所述近似是 導(dǎo)抗i普頻率。
19. 如權(quán)利要求16-18的任一項所述的后置濾波器,其中所述確 定的系數(shù)是第 一參數(shù)和第二參數(shù)的線性組合,所述第 一參數(shù)是當(dāng)前幀 和前面幀之間的i普距離的測量,所述第二參數(shù)是所述i普距離到過去幀的低通譜距離e^。^有多遠(yuǎn)的測量。
20. 如權(quán)利要求16所述的后置濾波器,其中所述后置濾波器控制 參數(shù)是歸 一化基音相關(guān)的函數(shù)。
全文摘要
本發(fā)明涉及后置濾波器和要與用于改進(jìn)在語音解碼器重新構(gòu)建的語音的感知質(zhì)量的后置濾波器相關(guān)聯(lián)的后置濾波器控制。后置濾波器控制包括用于測量在解碼器重新構(gòu)建的語音信號的平穩(wěn)性的部件、用于基于測量的平穩(wěn)性來確定對于后置濾波器控制參數(shù)的系數(shù)的部件及用于將確定的系數(shù)傳送到后置濾波器的部件,使得后置濾波器能通過將確定的系數(shù)應(yīng)用到后置濾波器控制參數(shù)來處理重新構(gòu)建的語音信號以獲得增強(qiáng)的語音信號。
文檔編號G10L19/14GK101622668SQ200780051970
公開日2010年1月6日 申請日期2007年11月1日 優(yōu)先權(quán)日2007年3月2日
發(fā)明者V·格蘭查羅夫 申請人:艾利森電話股份有限公司