改善低速率碼激勵線性預(yù)測解碼器的非語音內(nèi)容的制作方法
【專利摘要】一種用于修正由時域解碼器解碼的時域激勵的合成的方法和設(shè)備,其中解碼的時域激勵的合成被分類到多個類別之一。將解碼的時域激勵轉(zhuǎn)換成頻域激勵,并作為解碼的時域激勵的合成被分類到的類別的函數(shù),對頻域激勵進(jìn)行修正。將修正的頻域激勵轉(zhuǎn)換成修正的時域激勵,并向合成濾波器提供修正的時域激勵,以產(chǎn)生解碼的時域激勵的修正的合成。
【專利說明】改善低速率碼激勵線性預(yù)測解碼器的非語音內(nèi)容
【技術(shù)領(lǐng)域】
[0001]本公開涉及一種裝置和方法,用于修正由時域解碼器解碼的時域激勵的合成。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)的會話編解碼器可以用非常好的質(zhì)量表現(xiàn)具有大約8kbps比特率的干凈語音信號和16kbps比特率的近似透明度。為了維持這樣的高語音質(zhì)量,即使在低比特率,也可以使用多模態(tài)編碼方案。通常,輸入聲音信號被分離成反映其特性的不同類別。例如,不同的類別可以包括池音(voiced)、清音(unvoiced)和起始(onset)。編解碼器對所有這些類別使用優(yōu)化的不同的編碼模式。
[0003]然而,一些部署的語音編解碼器不使用這種多模態(tài)方法,導(dǎo)致對不同于干凈語音的聲音信號的次優(yōu)質(zhì)量(特別是在低比特率)。由于比特流被標(biāo)準(zhǔn)化,并且對比特流的任何修正都將破壞編解碼器的互操作性的事實,因此在部署編解碼器時,很難對編碼器進(jìn)行修正。然而,對解碼器進(jìn)行修正可以被實現(xiàn)用來改善在接收器側(cè)感知到的質(zhì)量。
【發(fā)明內(nèi)容】
[0004]根據(jù)第一方面,本公開涉及一種用于修正由時域解碼器解碼的時域激勵的合成的設(shè)備,包括:分類器,用于將解碼的時域激勵的合成分類到多個類別之一;用于將解碼的時域激勵轉(zhuǎn)換到頻域激勵的轉(zhuǎn)換器;修正器,作為通過分類器將解碼的時域激勵的合成分類到的類別的函數(shù)來修正頻域激勵;用于將修正的頻域激勵轉(zhuǎn)換到修正的時域激勵的轉(zhuǎn)換器;以及合成濾波器,被提供修正的時域激勵以產(chǎn)生解碼的時域激勵的修正的合成。
[0005]根據(jù)另一個方面,本公開涉及一種用于解碼通過編碼參數(shù)編碼的聲音信號的設(shè)備,包括:響應(yīng)于聲音信號編碼參數(shù)對時域激勵進(jìn)行解碼的解碼器;合成濾波器,響應(yīng)于解碼的時域激勵產(chǎn)生所述時域激勵的合成;以及上述用于修正時域激勵的合成的設(shè)備。
[0006]根據(jù)第三方面,本公開涉及一種用于修正由時域解碼器解碼的時域激勵的合成的方法,包括:將解碼的時域激勵的合成分類到多個類別之一中;將解碼的時域激勵轉(zhuǎn)換到頻域激勵;作為解碼的時域激勵的合成被分類到的類別的函數(shù)來修改頻域激勵;將修正的頻域激勵轉(zhuǎn)換成修正的時域激勵;以及合成修正的時域激勵以產(chǎn)生解碼的時域激勵的修正的合成。
[0007]根據(jù)進(jìn)一步的方面,本公開涉及一種用于解碼通過編碼參數(shù)編碼的聲音信號的方法,包括:響應(yīng)于聲音信號編碼參數(shù)解碼時域激勵;合成解碼的時域激勵以產(chǎn)生所述時域激勵的合成;以及上述用于修正時域激勵的合成的方法。
[0008]在閱讀參照附圖以非限制性示例的方式給出的下面的非限制性描述之后,用于修正時域激勵的合成的設(shè)備和方法的前述和其他特征將變得更加明顯。
【專利附圖】
【附圖說明】
[0009]在附圖中:[0010]圖1是示出用于無效(inactive)和有效(active)的清音巾貞改善的CELP解碼器的變型的簡化示意圖;
[0011]圖2是示出用于無效和有效的清音幀改善的CELP解碼器變型的詳細(xì)示意圖;
[0012]圖3是示出用于通用音頻幀改善的CELP解碼器的變型的簡化示意圖;以及
[0013]圖4是示出用于通用音頻幀改善的CELP解碼器變型的詳細(xì)示意圖。
【具體實施方式】
[0014]本公開涉及一種在解碼器側(cè)實現(xiàn)多模態(tài)解碼以維持互操作性并提升感知質(zhì)量的方法。在本公開中,雖然如在參考文獻(xiàn)[3GPP TS26.190,((AdaptiveMult1-Rate_Wideband(AMR-WB)speech codec ;Transcoding funct1ns))]中描述的 AMR-WB用作示例性示例,但應(yīng)該切記的是,這種方法也可以應(yīng)用到其他類型的低比特率語音解碼器,該參考文獻(xiàn)的全部內(nèi)容通過引用并入本文。
[0015]參照圖1,為了實現(xiàn)這種多模態(tài)解碼,時域激勵解碼器102首先對接收到的比特流101進(jìn)行整體解碼,例如AMR-WB比特流,以獲得完整的時域碼本激勵線性預(yù)測(CELP)解碼的激勵。解碼的時域激勵通過線性預(yù)測(LP)合成濾波器103進(jìn)行處理,以獲得解碼器內(nèi)部采樣頻率的語音/聲音信號時域合成。對于AMR-WB,該內(nèi)部采樣頻率為12.8kHz,但對另一編解碼器,它可能是不同的。
[0016]來自LP合成濾波器103的當(dāng)前幀的時域合成通過分類器104-105-106-301(圖1、圖2和圖3)進(jìn)行處理,其中向所述分類器提供來自比特流101的話音有效性檢測(VAD)信息109。分類器104-105-106-301分析時域合成并將其分類成無效語音、有效濁音語音、有效清音或通用音頻。無效語音(在1051檢測到)包括語音突發(fā)、表示主動語音突發(fā)期間具有濁音特性的幀的有效濁音語音(在1061檢測到)、表示在語音突發(fā)期間具有清音特性的幀的有效的清音語音(在1062檢測到)、以及表示音樂或混響語音的通用音頻(在3010檢測到)之間的所有的背景噪音。其他的類別可以添加或從上述類別得到。所公開的方法的目的是改進(jìn)尤其(但并非排他性地)是無效的語音、有效的清音語音和通用音頻的感知質(zhì)量。
[0017]一旦確定了時域合成的類別,轉(zhuǎn)換器/修正器107就使用非重疊頻率變換將來自時域激勵解碼器102的解碼的激勵轉(zhuǎn)換到頻域。也可以使用重疊變換,但它意味著增加了端到端延遲,這在大多數(shù)情況下是不希望的。然后,在轉(zhuǎn)換器/修正器107中,將激勵的頻率表示分離到不同的頻帶。頻帶可以有固定的大小,可以依賴于臨界頻帶[[J.D.Johnston,“Transform coding of aud1 signal using perceptual noise criteria,,,IEEE J.Select.Areas Commun.,第6卷,第314-323頁,1988年2月](其全部內(nèi)容通過引入并入本文),或任何其他的組合。然后,計算每個頻帶的能量,并將其保存在轉(zhuǎn)換器/修正器107的存儲器中,以在整形(resample)處理后使用,以確保修正不改變?nèi)值膸芰考墶?br>
[0018]轉(zhuǎn)換器/修正器107執(zhí)行的頻域中的激勵的修正可能會隨著合成的分類而不同。對于無效的語音和有效的清音語音,整形可以包括對低頻歸一化再添加噪聲,以及僅用噪聲替換高頻內(nèi)容。解碼的時域合成的截止頻率、低頻和高頻之間的界限可以固定在約I至
1.2kHz的值。當(dāng)在未修正的幀和修正的幀之間進(jìn)行切換時,保持解碼的時域合成的一些低頻內(nèi)容以防止偽像。也可以通過選擇頻率區(qū)間(frequency bin)作為來自時域激勵解碼器102的解碼的基音(pitch)的函數(shù)而使得截止頻率逐幀可變化。修正處理具有除去與低比特率語音編解碼器相關(guān)聯(lián)的電噪聲種類的效果。修正處理后,應(yīng)用每頻帶的增益匹配,以取回每個頻帶的初始能量級,其中稍微增加6kHz以上的頻率的能量,以補(bǔ)償在這些頻率上的LP濾波器增益下降。
[0019]對于被歸類為通用音頻的幀,轉(zhuǎn)換器/修正器107中的處理是不同的。首先,對所有頻帶的每一個頻帶進(jìn)行歸一化。在歸一化操作中,頻帶中低于頻帶內(nèi)最大頻率值的一部分的所有區(qū)間都被設(shè)置為零。對于更高的頻段,每個頻段內(nèi)更多的區(qū)間歸零。這以較高的比特預(yù)算模擬了頻率量化方案,但更多的比特分配給了較低的頻率。歸一化處理后,可以應(yīng)用噪聲填充,用隨機(jī)噪聲替換歸零的區(qū)間,但取決于不同的比特率,并不總是使用噪聲填充。修正處理后,應(yīng)用每頻帶的增益匹配,以取回每個頻帶的初始能量級,并沿頻帶應(yīng)用取決于比特率的傾斜校正,以補(bǔ)償在通用音頻輸入情形中對LP濾波器的系統(tǒng)性低估。通用音頻路徑的另一個不同來自于增益匹配并非應(yīng)用在所有的頻率區(qū)間上的事實。由于通用音頻的頻譜通常比語音更加多尖峰,因此當(dāng)可以識別頻譜脈沖并對其加重時,改善了感知質(zhì)量。要做到這一點(diǎn),只對頻帶內(nèi)的最高能量區(qū)間應(yīng)用具有傾斜校正的全增益匹配。對于最低能量區(qū)間,對這些區(qū)間只應(yīng)用一部分增益匹配。這導(dǎo)致增加頻譜動態(tài)。
[0020]在激勵頻率整形和增益匹配之后,轉(zhuǎn)換器/修正器107應(yīng)用逆頻率變換,以獲得修正的時域激勵。該修正的激勵通過LP合成濾波器108處理,以得到修正的時域合成。在去加重濾波器和重采樣器112中最終去加重和重采樣至16kHz (對于AMR-WB的示例)之前,取決于時域解碼合成的 分類,覆寫器110簡單地用來自LP合成濾波器108的修正后的時域合成覆寫來自LP合成濾波器103的時域解碼合成。
[0021]在無效的語音的情形中,與有效的清音語音的修正相比,唯一的區(qū)別是使用平滑器111用于平滑LP合成濾波器108以給出更平滑的噪聲變化。其余的修正都與有效的清音路徑相同。在下面的文本中,參照圖2描述實現(xiàn)公開的方法的更詳細(xì)的示例。
[0022]I)信號分類
[0023]參照圖2,分類器104-105-106-301對于應(yīng)用了修正的比特率在解碼器執(zhí)行如上文描述的語音/聲音信號的時域合成的分類1021。為了簡化附圖的目的,圖2沒有示出LP濾波器103。解碼器處的分類與如在參考文獻(xiàn)[Milan Jelinek和Philippe Gournay ;PCT專利申請 W003102921A1, “A method and device for efficient frame erasure concealmentin linear predictive based speech codecs”]和[T.Vaillancourt 等人,PCT 專利申請W02007073604A1,“Method and device for efficient frame erasure concealment in speechcodecs”]中描述的相似(這些參考文獻(xiàn)的全部內(nèi)容通過引用并入本文),加上對通用音頻檢測的一些適配。下面的參數(shù)用于在解碼器處對幀進(jìn)行分類:歸一化的相關(guān)性!^、頻譜傾斜度量et、基音穩(wěn)定性計數(shù)器pc、在當(dāng)前幀Es結(jié)束處聲音信號的相對幀能量和過零計數(shù)器ZC0這些用于對信號進(jìn)行分類的參數(shù)的計算在下面說明。
[0024]歸一化的相關(guān)性rx在幀結(jié)束處基于語音/聲音信號的時域合成Swt (η)計算。使用來自時域激勵解碼器102的最后一個子幀的基音滯后(lag)。更具體地,歸一化的相關(guān)性rx基音同步地計算如下:
【權(quán)利要求】
1.一種用于修正由時域解碼器解碼的時域激勵的合成的設(shè)備,包括: 分類器,用于將解碼的時域激勵的合成分類到多個類別之一; 用于將解碼的時域激勵轉(zhuǎn)換到頻域激勵的轉(zhuǎn)換器; 修正器,作為通過分類器將解碼的時域激勵的合成分類到的類別的函數(shù)來修正頻域激勵; 用于將修正的頻域激勵轉(zhuǎn) 換到修正的時域激勵的轉(zhuǎn)換器;以及 合成濾波器,被提供修正的時域激勵以產(chǎn)生解碼的時域激勵的修正的合成。
2.如權(quán)利要求1所述的用于修正時域激勵的合成的設(shè)備,其中所述修正器包括: 用于計算停止使用時域激勵貢獻(xiàn)的截止頻率的計算器。
3.如權(quán)利要求2所述的用于修正時域激勵的合成的設(shè)備,其中所述修正器包括: 用于將所述截止頻率以上的頻域激勵歸零的歸零器;以及 用于將所述截止頻率以下的頻域激勵歸一化以產(chǎn)生歸一化的頻域激勵的歸一化器。
4.如權(quán)利要求3所述的用于修正時域激勵的合成的設(shè)備,其中所述修正器包括:隨機(jī)噪聲產(chǎn)生器和將隨機(jī)噪聲添加到歸一化的頻域激勵的添加器。
5.如權(quán)利要求3和4中任一項所述的用于修正時域激勵的合成的設(shè)備,其中所述修正器包括: 使用修正前和修正后的頻域激勵的能量計算匹配增益的計算器,該計算器將匹配增益應(yīng)用到歸一化的頻域激勵以產(chǎn)生修正的頻域激勵。
6.如權(quán)利要求2至5中任一項所述的用于修正時域激勵的合成的設(shè)備,其中所述分類器將解碼的時域激勵的合成分類為無效或有效的清音。
7.如權(quán)利要求1至6中任一項所述的用于修正時域激勵的合成的設(shè)備,包括當(dāng)解碼的時域激勵的合成通過分類器分類為給定的一個類別時對合成濾波器進(jìn)行平滑的平滑器。
8.如權(quán)利要求1至7中任一項所述的用于修正時域激勵的合成的設(shè)備,其中頻域激勵被劃分成多個頻帶,每個頻帶劃分成多個頻率區(qū)間,并且其中所述修正器包括: 使用隨頻帶變化的歸一化因子對頻域激勵進(jìn)行歸一化以產(chǎn)生歸一化的頻域激勵的歸一化器。
9.如權(quán)利要求8所述的用于修正時域激勵的合成的設(shè)備,其中歸一化器包括對包含多個頻率區(qū)間的頻帶中的歸一化的頻域激勵的最大值的一部分以下的頻率區(qū)間進(jìn)行歸零的歸零器。
10.如權(quán)利要求8或9所述的用于修正時域激勵的合成的設(shè)備,其中所述修正器包括: 使用修正前和修正后的頻域激勵的能量計算每個頻帶的匹配增益的計算器。
11.如權(quán)利要求10所述的用于修正時域激勵的合成的設(shè)備,其中所述修正器包括對于第一頻率以下的頻帶,將匹配增益應(yīng)用到歸一化的頻域激勵以產(chǎn)生修正的頻域激勵的計算器。
12.如權(quán)利要求10所述的用于修正時域激勵的合成的設(shè)備,對于第一較低頻率和第二較高頻率之間的頻帶包括: 用于查找歸一化的頻域激勵在每個頻帶的最大值的查找器; 放大器,用于當(dāng)頻率區(qū)間中歸一化的頻域激勵等于或高于與頻帶的所述最大值成比例的值時,在每個頻率區(qū)間將匹配增益放大一放大因子;以及用于將放大的匹配增益應(yīng)用到頻率區(qū)間中歸一化的頻域激勵以在所述頻率區(qū)間中產(chǎn)生修正的頻域激勵的計算器。
13.如權(quán)利要求10所述的用于修正時域激勵的合成的設(shè)備,對于第一較低頻率和第二較高頻率之間的頻帶包括: 用于查找歸一化的頻域激勵在每個頻帶的最大值的查找器; 衰減器,用于當(dāng)頻率區(qū)間中歸一化的頻域激勵低于與頻帶的所述最大值成比例的值時,在每個頻帶的頻率區(qū)間將匹配增益衰減一衰減因子; 用于將衰減的匹配增益應(yīng)用到所述頻率區(qū)間中歸一化的頻域激勵以在所述頻率區(qū)間中產(chǎn)生修正的頻域激勵的計算器。
14.如權(quán)利要求10所述的用于修正時域激勵的合成的設(shè)備,對于給定頻率以上的頻帶包括: 用于查找歸一化的頻域激勵在每個頻帶的最大值的查找器; 用于當(dāng)頻率區(qū)間中歸一化的頻域激勵高于與頻帶的所述最大值成比例的值時,計算匹配增益的傾斜的計算器,所述計算器將計算出的傾斜應(yīng)用到匹配增益;以及 用于將已經(jīng)應(yīng)用了計算出的傾斜的匹配增益應(yīng)用到所述頻率區(qū)間中歸一化的頻域激勵以在所述頻率區(qū)間中產(chǎn)生修正的頻域激勵的計算器。
15.如權(quán)利要求 10所述的用于修正時域激勵的合成的設(shè)備,對于給定頻率以上的頻帶包括: 用于查找歸一化的頻域激勵在每個頻帶的最大值的查找器; 衰減器,用于當(dāng)頻域區(qū)間中的歸一化的頻域激勵低于與頻帶的最大值成比例的值時,在頻帶的每個頻率區(qū)間將匹配增益衰減一放大因子;以及 用于將衰減的匹配增益應(yīng)用到所述頻率區(qū)間中歸一化的頻域激勵以在所述頻率區(qū)間中產(chǎn)生修正的頻域激勵的計算器。
16.一種用于解碼通過編碼參數(shù)編碼的聲音信號的設(shè)備,包括: 響應(yīng)于聲音信號編碼參數(shù)對時域激勵進(jìn)行解碼的解碼器; 合成濾波器,響應(yīng)于解碼的時域激勵產(chǎn)生所述時域激勵的合成;以及 根據(jù)權(quán)利要求1至15中任一項所述的用于修正時域激勵的合成的設(shè)備。
17.一種用于修正由時域解碼器解碼的時域激勵的合成的方法,包括: 將解碼的時域激勵的合成分類到多個類別之一中; 將解碼的時域激勵轉(zhuǎn)換到頻域激勵; 作為解碼的時域激勵的合成被分類到的類別的函數(shù)來修正頻域激勵; 將修正的頻域激勵轉(zhuǎn)換成修正的時域激勵;以及 合成修正的時域激勵以產(chǎn)生解碼的時域激勵的修正的合成。
18.如權(quán)利要求17所述的用于修正時域激勵的合成的方法,其中修正頻域激勵包括: 計算停止使用時域激勵貢獻(xiàn)的截止頻率。
19.如權(quán)利要求18所述的用于修正時域激勵的合成的方法,其中修正頻域激勵包括: 將截止頻率以上的頻域激勵歸零; 將截止頻率以下的頻域激勵歸一化,以產(chǎn)生歸一化的頻域激勵。
20.如權(quán)利要求19所述的用于修正時域激勵的合成的方法,其中修正頻域激勵包括產(chǎn)生隨機(jī)噪聲并將該隨機(jī)噪聲添加到歸一化的頻域激勵。
21.如權(quán)利要求19或20所述的用于修正時域激勵的合成的方法,其中修正頻域激勵包括: 使用修正前和修正后的頻域激勵的能量計算匹配增益,并將該匹配增益應(yīng)用到歸一化的頻域激勵以產(chǎn)生修正的頻域激勵。
22.如權(quán)利要求18至21中任一項所述的用于修正時域激勵的合成的方法,其中將解碼的時域激勵的合成分類為無效或有效清音。
23.如權(quán)利要求17至22中任一項所述的用于修正時域激勵的合成的方法,包括當(dāng)解碼的時域激勵的合成通過分類器分類為給定的一個類別時對執(zhí)行修正的時域激勵的合成的合成濾波器進(jìn)行平滑。
24.如權(quán)利要求17至23中任一項所述的用于修正時域激勵的合成的方法,其中頻域激勵被劃分成多個頻帶,每個頻帶劃分成多個頻率區(qū)間,并且其中修正頻域激勵包括: 使用隨頻帶變化的歸一化因子歸一化頻域激勵以產(chǎn)生歸一化的頻域激勵。
25.如權(quán)利要求24所述的用于修正時域激勵的合成的方法,其中修正頻域激勵包括對包含多個頻率區(qū)間的頻帶中的歸一化的頻域激勵的最大值的一部分以下的頻率區(qū)間進(jìn)行歸零。
26.如權(quán)利要求24 或25所述的用于修正時域激勵的合成的方法,其中修正頻域激勵包括: 使用修正前和修正后的頻域激勵的能量計算每個頻帶的匹配增益。
27.如權(quán)利要求26所述的用于修正時域激勵的合成的方法,其中修正頻域激勵包括對于第一頻率以下的頻帶,將匹配增益應(yīng)用到歸一化的頻域激勵以產(chǎn)生修正的頻域激勵。
28.如權(quán)利要求26所述的用于修正時域激勵的合成的方法,包括對于第一較低頻率和第二較高頻率之間的頻帶: 查找歸一化的頻域激勵在每個頻帶的最大值; 當(dāng)頻率區(qū)間中歸一化的頻域激勵等于或高于與頻帶的所述最大值成比例的值時,在每個頻率區(qū)間將匹配增益放大一放大因子;以及 將放大的匹配增益應(yīng)用到頻率區(qū)間中歸一化的頻域激勵以在所述頻率區(qū)間中產(chǎn)生修正的頻域激勵。
29.如權(quán)利要求26所述的用于修正時域激勵的合成的方法,包括對第一較低頻率和第二較高頻率之間的頻帶: 查找歸一化的頻域激勵在每個頻帶的最大值; 當(dāng)頻率區(qū)間中歸一化的頻域激勵低于與頻帶的所述最大值成比例的值時,在頻帶的每個頻率區(qū)間將匹配增益衰減一衰減因子; 將衰減的匹配增益應(yīng)用到所述頻率區(qū)間中歸一化的頻域激勵以在所述頻率區(qū)間中產(chǎn)生修正的頻域激勵。
30.如權(quán)利要求26所述的用于修正時域激勵的合成的方法,包括對于給定頻率以上的頻帶: 查找歸一化的頻域激勵在每個頻帶的最大值; 當(dāng)頻率區(qū)間中歸一化的頻域激勵高于與頻帶的所述最大值成比例的值時,計算匹配增益的傾斜,并將計算出的傾斜應(yīng)用到匹配增益;以及 將已經(jīng)應(yīng)用了計算出的傾斜的匹配增益應(yīng)用到所述頻率區(qū)間中歸一化的頻域激勵以在所述頻率區(qū)間中產(chǎn)生修正的頻域激勵。
31.如權(quán)利要求26所述的用于修正時域激勵的合成的方法,包括對給定頻率以上的頻帶: 查找歸一化的頻域激勵在每個頻帶的最大值; 當(dāng)頻域區(qū)間中的歸一化的頻域激勵低于與頻帶的最大值成比例的值時,在頻帶的每個頻率區(qū)間將匹配增益衰減一放大因子;以及 將衰減的匹配增益應(yīng)用到所述頻率區(qū)間中歸一化的頻域激勵,以在所述頻率區(qū)間中產(chǎn)生修正的頻域激勵。
32.一種用于解碼通過編碼參數(shù)編碼的聲音信號的方法,包括: 響應(yīng)于聲音信號編碼參數(shù)解碼時域激勵; 合成解碼的時域激勵以產(chǎn)生所述時域激勵的合成;以及 根據(jù)權(quán)利要求17至3 1中任一項所述的用于修正時域激勵的合成的方法。
【文檔編號】G10L19/08GK104040624SQ201280065936
【公開日】2014年9月10日 申請日期:2012年11月1日 優(yōu)先權(quán)日:2011年11月3日
【發(fā)明者】T.瓦蘭考特, M.杰里尼克 申請人:沃伊斯亞吉公司