用于降低時(shí)域解碼器中的量化噪聲的裝置和方法
【技術(shù)領(lǐng)域】
[0001] 本公開(kāi)涉及聲音處理領(lǐng)域,更具體地,本公開(kāi)涉及降低聲音信號(hào)中的量化噪聲。
【背景技術(shù)】
[0002] 現(xiàn)有技術(shù)的傳統(tǒng)編解碼器在大約8kbps的比特速率處表現(xiàn)出質(zhì)量非常良好的干 凈語(yǔ)音信號(hào),并且在16kbps的比特速率處接近透明。為了在低比特速率處維持該高語(yǔ)音質(zhì) 量,通常使用多模編碼方案。通常輸入信號(hào)被分為反映其特性的不同類別。不同類別包括例 如嗓音語(yǔ)音(voiced speech)、非嗓音語(yǔ)音(unvoiced speech)、嗓音進(jìn)攻(voiced onset) 等。編解碼器隨后使用針對(duì)這些類別優(yōu)化的不同編碼模式。
[0003] 基于語(yǔ)音模式的編解碼器通常不能很好地呈現(xiàn)(render)例如音樂(lè)的通常音頻信 號(hào)。因此,一些部署的語(yǔ)音編解碼器不能高質(zhì)量地表示音樂(lè),尤其在低比特速率處。當(dāng)部署 編解碼器時(shí),由于比特流被標(biāo)準(zhǔn)化并且對(duì)比特流的任何修改將打破編解碼器的互操作性的 事實(shí),難以修改編碼器。
[0004] 因此,存在改進(jìn)基于語(yǔ)音模式的編解碼器(例如基于線性預(yù)測(cè)(LP)編解碼器)的 音樂(lè)內(nèi)容呈現(xiàn)的需要。
【發(fā)明內(nèi)容】
[0005] 根據(jù)本公開(kāi),提供一種用于降低在由時(shí)域解碼器解碼的時(shí)域激勵(lì)中包含的信號(hào)中 的量化噪聲的裝置。所述裝置包括將解碼后的時(shí)域激勵(lì)轉(zhuǎn)換為頻域激勵(lì)的轉(zhuǎn)換器。還包括 產(chǎn)生用于取回在量化噪聲中丟失的頻譜信息的加權(quán)掩模的掩模構(gòu)造器。所述裝置還包括頻 域激勵(lì)的修改器,通過(guò)應(yīng)用加權(quán)掩模增大頻譜動(dòng)態(tài)。所述裝置還包括將修改的頻域激勵(lì)轉(zhuǎn) 換為修改的時(shí)域激勵(lì)的轉(zhuǎn)換器。
[0006] 本公開(kāi)還涉及一種用于降低在由時(shí)域解碼器解碼的時(shí)域激勵(lì)中包含的信號(hào)中的 量化噪聲方法。解碼后的時(shí)域激勵(lì)被時(shí)域解碼器轉(zhuǎn)換為頻域激勵(lì)。產(chǎn)生加權(quán)掩模用于取回 在量化噪聲中丟失的頻譜信息。通過(guò)應(yīng)用加權(quán)掩模修改頻域激勵(lì)以增大頻譜動(dòng)態(tài)。修改的 頻域激勵(lì)被轉(zhuǎn)換為修改的時(shí)域激勵(lì)。
[0007] 上述和其他特征在閱讀下列參考附圖僅通過(guò)示例給出的其示意性實(shí)施例的非限 制性描述時(shí)變得更加清楚。
【附圖說(shuō)明】
[0008] 將參考附圖僅通過(guò)示例描述本公開(kāi)的實(shí)施例,其中:
[0009] 圖1是示出根據(jù)實(shí)施例的用于降低在由時(shí)域解碼器解碼的時(shí)域激勵(lì)中包含的信 號(hào)中的量化噪聲的方法的操作的流程圖;
[0010] 圖2a和2b (統(tǒng)稱為圖2)是具有用于降低音樂(lè)信號(hào)和其他聲音信號(hào)中的量化噪聲 的頻域后處理能力的解碼器的簡(jiǎn)化示意圖;以及
[0011] 圖3是形成圖2的解碼器的硬件組件的示例配置的簡(jiǎn)化框圖。
【具體實(shí)施方式】
[0012] 本公開(kāi)的各種方面一般通過(guò)降低音樂(lè)信號(hào)中的量化噪聲來(lái)解決改進(jìn)基于語(yǔ)音模 式的編解碼器(例如基于線性預(yù)測(cè)(LP)的編解碼器)的音樂(lè)內(nèi)容呈現(xiàn)的問(wèn)題中的一個(gè)或 多個(gè)。應(yīng)記住的是本公開(kāi)的教導(dǎo)也可以應(yīng)用于其他聲音信號(hào),例如除了音樂(lè)之外的通用音 頻信號(hào)。
[0013] 對(duì)解碼器的修改可以改進(jìn)接收器側(cè)的感知質(zhì)量。本公開(kāi)公開(kāi)一種在解碼器側(cè)實(shí)現(xiàn) 用于音樂(lè)信號(hào)和其他聲音信號(hào)的頻域后處理,其降低解碼后的合體(synthesis)的頻譜中 的量化噪聲的。后處理可以在沒(méi)有任何額外的編碼延遲的情況下實(shí)現(xiàn)。
[0014] 這里使用的頻譜諧波之間的量化噪聲的頻域移除和頻域后處理的原理基于 Vaillancourt等的、2009年09月11日的PCT專利公布W02009/109050A1 (在下文中為 "Vaillancourt' 050"),其公開(kāi)通過(guò)引用合并于此。一般地,對(duì)解碼后的合體應(yīng)用這種頻域 后處理,并且這種頻域后處理需要增加處理延遲以便包括重疊并且增加處理以得到顯著的 質(zhì)量增益。此外,使用傳統(tǒng)頻域后處理能力,由于有限的頻率分辨率,增加的延遲越短(即 變換窗口越短),后處理效果越差。根據(jù)本公開(kāi),頻域后處理實(shí)現(xiàn)更高的頻率分辨率(使用 更長(zhǎng)的頻率變換),而不對(duì)合體增加延遲。此外,利用過(guò)去幀頻率能量中存在的信息來(lái)創(chuàng)建 應(yīng)用于當(dāng)前幀頻譜的加權(quán)掩模,以取回,即增強(qiáng),在編碼噪聲中丟失的頻譜信息。為了在不 對(duì)合體增加延遲的情況下實(shí)現(xiàn)該后處理,在該示例中,使用對(duì)稱的梯形窗口。其中心在窗口 是平的(flat)的當(dāng)前幀(其具有值為1的固定值),并且外推被用于創(chuàng)建未來(lái)信號(hào)。雖然 后處理一般可能被直接應(yīng)用于任何編解碼器的合成信號(hào),但是本公開(kāi)引入示意性實(shí)施例, 其中后處理被應(yīng)用于在編碼激勵(lì)線性預(yù)測(cè)(CELP)編解碼器的架構(gòu)中的激勵(lì)信號(hào),其被描 述在標(biāo)題為"Adaptive Multi-Rate - Wideband(AMR-WB) "的、第三代合作伙伴項(xiàng)目(3GPP) 的技術(shù)規(guī)范(TS) 26. 190中,3GPP網(wǎng)站上可獲取該技術(shù)規(guī)范,且通過(guò)引用將其全部?jī)?nèi)容合并 于此。對(duì)激勵(lì)信號(hào)而非合成信號(hào)進(jìn)行工作的優(yōu)點(diǎn)在于由后處理引入的任何潛在不連續(xù)性被 隨后應(yīng)用CELP合成濾波器而平滑掉。
[0015] 在本公開(kāi)中,具有12. 8kHz的內(nèi)采樣頻率的AMR-WB用于示例目的。然而,本公開(kāi) 可以應(yīng)用于其中由通過(guò)合成濾波器(例如LP合成(synthesis)濾波器)濾波的激勵(lì)信號(hào) 獲得合體的其他低比特速率語(yǔ)音解碼器。其也可以應(yīng)用于其中使用時(shí)域和頻域激勵(lì)的組合 對(duì)音樂(lè)進(jìn)行編碼的多模式編解碼器上。下面總結(jié)后濾波器的操作。然后是使用AMR-WB的 示意性實(shí)施例的詳細(xì)描述。
[0016] 首先,與在其公開(kāi)通過(guò)引用合并于此的Jelinek等的、2003年12月11日的 PCT專利公開(kāi)W02003/102921、Vaillancourt等的、2007年07月05日的PCT專利公開(kāi) W02007/073604A1、以及Vaillancourt等名下的、2012年11月01日提交的PCT國(guó)際申請(qǐng) PCT/CA2012/001011 (在下文中為" Vai 1 lancourt ' 011")中公開(kāi)的類似,對(duì)完整比特流進(jìn)行 解碼并且通過(guò)第一級(jí)分類器處理當(dāng)前幀合體。出于本公開(kāi)的目的,該第一級(jí)分類器分析幀 并且將非活動(dòng)(INACTIVE)幀和例如對(duì)應(yīng)于活動(dòng)非嗓音語(yǔ)音的幀的非嗓音(UNVOICED)幀分 開(kāi)。使用第二級(jí)分類器分析在第一級(jí)中沒(méi)有被分類為非活動(dòng)幀或非嗓音幀的全部幀。第二 級(jí)分類器決定是否應(yīng)用后處理以及應(yīng)用到何種程度。當(dāng)不應(yīng)用后處理時(shí),僅更新與后處理 有關(guān)的存儲(chǔ)器。
[0017] 對(duì)于沒(méi)有被第一級(jí)分類器分類為非活動(dòng)幀或活動(dòng)非嗓音語(yǔ)音幀的全部幀,使用過(guò) 去的解碼后的激勵(lì)、當(dāng)前幀解碼的激勵(lì)和未來(lái)激勵(lì)的外推形成向量。過(guò)去的解碼后的激勵(lì) 和外推的激勵(lì)的長(zhǎng)度相同并且取決于頻率變換的期望分辨率。在該示例中,使用的頻率變 換的長(zhǎng)度是640個(gè)樣本。使用過(guò)去和外推的激勵(lì)創(chuàng)建向量允許增大頻率分辨率。在本示例 中,過(guò)去的和外推的激勵(lì)的長(zhǎng)度相同,但是后濾波器不一定需要窗口對(duì)稱來(lái)高效地工作。
[0018] 然后,使用第二級(jí)分類器分析連結(jié)的激勵(lì)(包括過(guò)去的解碼后的激勵(lì)、當(dāng)前幀解 碼后的激勵(lì)和未來(lái)激勵(lì)的外推)的頻率表示的能量穩(wěn)定性,以確定存在音樂(lè)的可能性。在 該示例中,在兩級(jí)處理中進(jìn)行存在音樂(lè)的確定。然而,音樂(lè)檢測(cè)可以以不同方式進(jìn)行,例如 可能在頻率變換之前的單個(gè)操作中進(jìn)行,或甚至在編碼器中確定并且在比特流中傳送。
[0019] 與在Vaillancourt'050中類似,通過(guò)估計(jì)每個(gè)頻率點(diǎn)(bin)的信噪比(SNR)以及 通過(guò)根據(jù)其SNR對(duì)每一個(gè)頻率點(diǎn)(bin)應(yīng)用增益來(lái)降低諧波間量化噪聲。然而,在本公開(kāi) 中,與在Vaillancourt' 050中教導(dǎo)的不同地完成噪聲能量估計(jì)。
[0020] 然后,使用取回在編碼噪聲中丟失的信息并且進(jìn)一步增大頻譜的動(dòng)態(tài)的額外處 理。該處理以能量頻譜的〇和1之間的標(biāo)準(zhǔn)化開(kāi)始。然后,常數(shù)偏移被加到標(biāo)準(zhǔn)化后的能 量頻譜。最后,對(duì)修改的能量頻譜的每一個(gè)頻率點(diǎn)應(yīng)用8的冪。通過(guò)平均函數(shù)沿頻率軸從 低頻到高頻處理得到的縮放后的能量頻譜。最后,逐點(diǎn)進(jìn)行頻譜在時(shí)間上的長(zhǎng)期平滑處理。
[0021] 處理的該第二部分導(dǎo)致其中波峰對(duì)應(yīng)于重要的頻譜信息并且波谷對(duì)應(yīng)于編碼噪 聲的掩模。隨后使用該掩模,通過(guò)稍微增大波峰區(qū)域處的頻譜點(diǎn)幅度同時(shí)衰減在波谷中的 點(diǎn)幅度,從而增大峰谷比,來(lái)濾除噪聲和增大頻譜動(dòng)態(tài)。使用高頻分辨率完成這兩個(gè)操作, 而不對(duì)輸出合體增加延遲。
[0022] 在增強(qiáng)連結(jié)的激勵(lì)向量的頻率表示之后(其噪聲降低并且其頻譜動(dòng)態(tài)增大),進(jìn) 行逆頻率變換以創(chuàng)建連結(jié)的激勵(lì)的增強(qiáng)版本。在本公開(kāi)中,對(duì)應(yīng)于當(dāng)前幀的變換窗口的部 分是基本上平的,并且僅應(yīng)用于過(guò)去的和外推的激勵(lì)信號(hào)的窗口的部分需要被錐形化。這 使得可以在逆變換之后消除增強(qiáng)的激勵(lì)的當(dāng)前幀。該上一操縱類似于在當(dāng)前幀的位置處將 時(shí)域增強(qiáng)的激勵(lì)與矩形窗口相乘。雖然在沒(méi)有增加重要的塊假象(artifact)的情況下在 合成域中不能完成該操作,但是這可以可替換地在激勵(lì)域中完成,因?yàn)長(zhǎng)P合成濾波器有助 于對(duì)從一個(gè)塊到另一個(gè)塊的轉(zhuǎn)變進(jìn)行平滑處理,如Vaillancourt' 011中所示。
[0023] 示例AMR-WB實(shí)施例的描沭
[0024] 這里描述的后處理應(yīng)用于LP合成濾波器的解碼后的激勵(lì),用于如音樂(lè)或回響語(yǔ) 音的信號(hào)??梢酝ㄟ^(guò)向解碼器發(fā)送分類信息作為AMR-WB比特流的一部分的編碼器用信號(hào) 通知關(guān)于信號(hào)(語(yǔ)音、音樂(lè)和回響語(yǔ)音等)的性質(zhì)的決定和關(guān)于應(yīng)用后處理的決定。如果 不是這種情況,則可替換地可以在解碼器側(cè)上完成信號(hào)分類。取決于復(fù)雜度和分類可靠性 權(quán)衡,合成濾波器可以可選地應(yīng)用于當(dāng)前激勵(lì)以得到臨時(shí)合體和更好的分類分析。在該配 置中,如果分類導(dǎo)致應(yīng)用后濾波的類別,則覆寫合體。為了使得增加的復(fù)雜度最小化,還可 以在過(guò)去的幀合體上完成分類,并且在后處理之后,應(yīng)用一次合成濾波器。
[0025] 現(xiàn)在參考附圖,圖1是示出根據(jù)實(shí)施例的用于降低在由時(shí)域解碼器解碼的時(shí)域激 勵(lì)中包含的信號(hào)中的量化噪聲的方法的操作的流程圖。圖1中,序列10包括可以以可變順 序執(zhí)行的多個(gè)操作,所述操作中的一些可以同時(shí)執(zhí)行,所述操作中的一些是可選的。在操作 12處,時(shí)域解碼器取回并解碼由編碼器產(chǎn)生的比特流,比特流包括以參數(shù)的形式的、可用于 重建時(shí)域激勵(lì)的時(shí)域激勵(lì)信息。對(duì)此,時(shí)域解碼器可以通過(guò)輸入接口接收比特流或從存儲(chǔ) 器讀取比特流。在操作16處,時(shí)域解碼器將解碼后的時(shí)域激勵(lì)轉(zhuǎn)換為頻域激勵(lì)。在操作 16處將激勵(lì)信號(hào)從時(shí)域轉(zhuǎn)換為頻域之前,可以在操作14處外推未來(lái)的時(shí)域激勵(lì),使得時(shí)域 激勵(lì)到頻域激勵(lì)的轉(zhuǎn)換變?yōu)闊o(wú)延遲的。也就是說(shuō),在不需要額外延遲的情況下,進(jìn)行更好的 頻率分析。為此,過(guò)去的、當(dāng)前的和預(yù)測(cè)的未來(lái)的時(shí)域激勵(lì)信號(hào)可以在轉(zhuǎn)換為頻域之前被連 結(jié)。在操作18處,時(shí)域解碼器隨后產(chǎn)生用于取回在量化噪聲中丟失的頻譜信息的加權(quán)掩 模。在操作20處,時(shí)域解碼器修改頻域激勵(lì)以通過(guò)加權(quán)掩模的應(yīng)用來(lái)增大頻譜動(dòng)態(tài)。在操 作22處,時(shí)域解碼器將修改的頻域激勵(lì)轉(zhuǎn)換為修改的時(shí)域激勵(lì)。時(shí)域解碼器可以隨后在操 作24處產(chǎn)生修改的時(shí)域激勵(lì)的合體并且在操作26處從解碼的時(shí)域激勵(lì)的合體和修改的時(shí) 域激勵(lì)的合體中的一個(gè)生成聲音信號(hào)。
[0026] 可以使用若干可選特征修改圖1中示出的方法。例如,解碼后的時(shí)域激勵(lì)的合體 可以被分類為第一組激勵(lì)類別和第二組激勵(lì)類別中的一個(gè),其中第二組激勵(lì)類別包括非活 動(dòng)或非嗓音類別,而第一組激勵(lì)類別包括其他類