專利名稱:一種控制變速率多模式寬帶編碼速率的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及變速率多模式寬帶VMR-WB編碼中的編碼速率的確定方法,具體涉及到話音激 活檢測、清濁音區(qū)分和是否為穩(wěn)定濁音的判決的對象和方法問題。
背景技術(shù):
碼激勵線性預(yù)測編碼器自1985年被提出以來得到了廣泛的應(yīng)用。在碼分多址(CDMA)和 通用移動通信系統(tǒng)(UMTS)的聲碼器中都使用了碼激勵線性預(yù)測編碼器的技術(shù)。
碼激勵線性預(yù)測包括了線性預(yù)測和量化、自適應(yīng)碼書搜索和固定碼書搜索。因為語音本 身有靜默期,可以通過降低這些靜默期間的數(shù)據(jù)速率有效壓縮語音數(shù)據(jù)的傳輸速率,高通公 司的申請?zhí)枮?2104618. 9的可變速率聲碼器的專利就是關(guān)于上述方法的一個方案。除此之外 還有其他的根據(jù)話音的特性來決定編碼速率的方法。
3GPP2 (第三代移動通信伙伴計劃2)為了滿足寬帶語音編碼的需要選擇了變速率多模式 寬帶(VMR-WB)聲碼器作為標準,VMR-WB也采用了碼激勵線性預(yù)測的編碼方法,VMR-WB根據(jù) 每一幀輸入信號的特征和選擇的運行模式,通過內(nèi)置的速率選擇機制來選擇一個對應(yīng)的編碼 類型,可選擇的編碼類型的編碼速率為13.3kb/s (千比特/秒)的全速率(FR), 6.2kb/s (千比特/秒)的半速率(HR), 2.7kb/s (千比特/秒)的四分之一速率(QR), 1.0kb/s (千 比特/秒)的八分之一速率(ER)。
線性預(yù)測和量化包括了將采樣得到的話音信號幀或經(jīng)過預(yù)處理的話音信號幀組成一個 序列,用一個窗函數(shù)乘該序列中的聲音樣本,以提供一個加窗的聲音數(shù)據(jù)幀;由所述加窗的 聲音數(shù)據(jù)幀計算一組自相關(guān)系數(shù);用萊文遜一杜賓(Levinson-Durbin)算法由所述自相關(guān)系 數(shù)組計算一組線性預(yù)測系數(shù)將所述線性預(yù)測系數(shù)組轉(zhuǎn)換到另一個頻譜域;根據(jù)編碼指令中 的速率量化所述轉(zhuǎn)換到另一個頻譜域上的系數(shù)組-16階的一組聲抗納頻譜對(ISP)的值。
在碼激勵線性預(yù)測編碼過程中,自適應(yīng)碼書搜索和固定碼書搜索得到的最佳碼書信號乘 以各自的最佳增益后相加,其和為激勵信號。激勵信號是編碼過程中一定要使用的,碼激勵 線性預(yù)測編碼是搜索與原始語音之間誤差最小的基于激勵信號的合成語音。
VMR-WB包括自適應(yīng)碼書搜索的過程,3GPP2的C. S0052-A的5. 16節(jié)對此作了說明。自適 應(yīng)碼書搜索包含了基于基音(pitch)延遲的搜索和此后的按基音延遲或延遲計數(shù)器中的延遲 值進行的內(nèi)插以前激勵信號最終得到自適應(yīng)碼書的計算,詳細內(nèi)容可參見3GPP2的C. S0052-A 的5. 16節(jié),所謂以前的激勵信號就是前一幀的離當前幀最近的231+17個樣本點上激勵信號。
VMR-WB語音解碼過程中,對每一幀都進行LP(線性預(yù)測)濾波器參數(shù)解碼,從而形成用于 重構(gòu)每一子幀的語音信號的每個子幀的LP濾波器系數(shù);每個子幀的激勵信號的構(gòu)造方法是
對于使用自適應(yīng)碼書搜索的FR和普通(Generic)服編碼類型和使用信號修改和延時輪廓的 濁音ffi 編碼類型下,將自適應(yīng)碼書信號按自適應(yīng)碼書增益值放大后得到的信號,同固定碼書 信號按固定碼書增益值放大后得到的信號進行疊加,這里的自適應(yīng)碼書增益值和固定碼書信 號是按照解碼得到的自適應(yīng)碼書增益索引和固定碼書索引從量化表找到的量化值;所述的自 適應(yīng)碼書信號是基于上一個子幀的激勵信號的合成信號,B卩,解碼自適應(yīng)碼書索引得到的的 整數(shù)和分數(shù)基音延遲,按所述整數(shù)和分數(shù)基音延遲對上一個子幀的激勵信號進行內(nèi)插得到自 適應(yīng)碼書激勵信號,再根據(jù)編碼幀中信號路徑參數(shù)來線性內(nèi)插自適應(yīng)碼書激勵信號得到自適 應(yīng)碼書信號,該信號路徑是編碼方執(zhí)行頻率依賴基音預(yù)測(根據(jù)基音預(yù)測誤差決定2種之一 的信號路徑)時得到并寫入VMR-TO編碼幀的,這里需要指出的是在RS-1 (速率集-l)的濁 音FR及普通FR模式下有2個自適應(yīng)碼書增益(參見3GPP2的C. S0052-A的5. 20. 2節(jié))及對 應(yīng)的自適應(yīng)碼書信號。在不使用自適應(yīng)碼書搜索的清音編碼類型、QR或ER編碼條件下,激 勵信號由固定碼書信號按固定碼書增益值放大后得到的信號所確定。
VMR-WB固定碼書增益量化包括基于以前子幀的量化能量預(yù)測誤差(quantified prediction error)得到的預(yù)測增益,以及固定碼書增益和所述的預(yù)測增益之間的修正因子 的量化。子幀的量化能量預(yù)測誤差(quantified prediction error)就是所述修正因子的對 數(shù)值。
VMR-WB固定碼書增益量化在3GPP2的C.S0052-A的5.20節(jié)中有說明,下面的式(1)和 (2)說明量化能量預(yù)測誤差和FR、通用(Generic) HR和濁音HR的預(yù)測增益的關(guān)系,
<formula>formula see original document page 8</formula>
式(1)是第n個子幀預(yù)測能量(predicted energy)戮")的定義,取值為
的[bl b2 b3 b4]是移動平均(MA)預(yù)測系數(shù),剁/fc)就是第k個子幀的量化能量預(yù)測誤差; 式(2)是線性域的預(yù)測增益(predicted gain) A的定義,式(3)是預(yù)測增益(predicted gain) G'c的定義,玄是取值為30分貝(dB)的更新能量(innovation energy)的平均值,五,是 平均更新能量(mean innovation energy)。固定碼書增益和線性域的預(yù)測增益之間的修正因 子為前者與后者的比值;能量預(yù)測誤差R (n)就是20乘上述修正因子的對數(shù),量化能量預(yù) 測誤差則是20乘量化修正因子的對數(shù)。
增益預(yù)測誤差如何影響清音服或清音QR的同樣在3GPP2的C. S0052-A的5. 20節(jié)中有說 明,3GPP2的C. S0052-Avl. 0版本的5. 20.1節(jié)中5. 20. 1-4式給出了量化預(yù)測誤差的定義, 5.20.1-5式給出了量化的線性域增益的定義,從中可以得出量化的對數(shù)增益和(3)所給出
的預(yù)測增益的差就是量化預(yù)測誤差。
采樣數(shù)字話音幀經(jīng)預(yù)處理后形成的數(shù)字話音幀經(jīng)過線性預(yù)測和量化、自適應(yīng)碼書搜索和 固定碼書搜索后所形成的合成數(shù)字話音幀的共振峰主要由線性預(yù)測所使用的線性預(yù)測分析 (LPC)所決定,更確切一點,對VMR-冊來說,就是ISP轉(zhuǎn)換為預(yù)測(LP)系數(shù)后, 一個16 階線性預(yù)測合成濾波器也可以按式(4)確定,其中的^ (/=/m, m=16)是量化了的線性 預(yù)測(LP)系數(shù)。
<formula>formula see original document page 9</formula> (4)
1 + D
將激勵信號通過線性預(yù)測合成濾波器濾波后的輸出就是合成數(shù)字話音幀,所以,線性預(yù) 測合成濾波器的極點對應(yīng)了合成數(shù)字話音幀的共振峰的頻率和帶寬,這些共振峰反映在時域 上的波形的強度上,對聽覺影響很大。
根據(jù)發(fā)表在Proc. IEEE (進展.電氣電子工程師協(xié)會).1975, 63(4) :561-580的文獻"線 性預(yù)測入門性的回顧(Linear Prediction: A Tutorial Review)"可以知道,采用線性 預(yù)測的方法得到的譜包絡(luò)的峰值比較接近諧波峰值而常常偏離真正的共振峰的位置,也就是 說,根據(jù)線性預(yù)測合成濾波器得到的合成數(shù)字話音幀的譜包絡(luò)和原來的數(shù)字話音信號幀的譜 包絡(luò)并不是一致的。
在電子工業(yè)出版社2004年出版的作者是美國的夸特爾瑞的〈<離散時間語音信號處理:原 理與應(yīng)用(Discrete-Time Speech Signal Processing:Principle and Practice) >>的5. 3-4 節(jié)——Levinson (萊文遜)遞歸及其相關(guān)特性中指出線性預(yù)測所使用的全極點模型和自相 關(guān)方法會使(4)式的所有極點落在單位圓內(nèi)是最小相位系統(tǒng);序列的自相關(guān)法的解的傅立葉 變換的相位函數(shù)是失真的;線性預(yù)測的自相關(guān)引起聲門最大相位極點向最小相位極點的轉(zhuǎn)變; 建立合成語音波形時,自相關(guān)變換造成的相位函數(shù)失真可能對語音感知有影響,即,合成數(shù) 字話音信號的波形和原來數(shù)字話音信號的波形的偏離。在該書的5.6節(jié)一基于全極點模型 的語音綜合中指出基于線性預(yù)測自相關(guān)法的合成信號看起來像語音,但同時由于其最小相 位特性而失去了絕對相位結(jié)構(gòu);書中的圖5.18中的例子所示,重建語音信號的尖峰比原始信 號更為突出,并且,假定為最小相位的理想聲門波是時間翻轉(zhuǎn)的,并具有比實際聲門波更陡 的上升沿。
目前VMR-WB聲碼器采用了速率選擇的方法來確定編碼速率,即通過分成多個階段的分類 過程把輸入聲音信號幀區(qū)分為非活動話音、清音、穩(wěn)定的濁音和不穩(wěn)定的濁音中的一種,分 類過程用到了話音激活檢測(VAD)方法、清濁音區(qū)分方法和穩(wěn)定濁音區(qū)分方法。
目前的話音激活檢測(VAD)方法是先計算預(yù)處理后的輸入信號的電平和背景噪聲估計值 之間的差值,再計算出VAD判決閾值,VAD初始判決是通過比較所述差值和判決閾值來實現(xiàn) 的,當前者大于后者時初始判決為有話音幀,當前者小于等于后者時初始判決為無話音幀, VAD的最終判決是將初始判決和預(yù)處理后的數(shù)字話音信號音調(diào)等其它檢測的結(jié)果綜合后的判 決。
發(fā)明內(nèi)容
要解決的技術(shù)問題
現(xiàn)有技術(shù)采用的VAD、清濁音區(qū)分和穩(wěn)定濁音區(qū)分所針對的對象是采樣話音輸入后形成 的數(shù)字話音信號幀或采樣后數(shù)字話音信號幀再經(jīng)預(yù)處理后形成的預(yù)處理后的數(shù)字話音信號 幀,但根據(jù)采用碼激勵線性預(yù)測技術(shù)的VMR-WB編碼所產(chǎn)生的編碼幀所產(chǎn)生的合成數(shù)字話音幀 和原數(shù)字話音信號幀的語音特征并不一致,關(guān)于這一點已經(jīng)在背景技術(shù)中已經(jīng)指出,即以 線性預(yù)測分析方法來估計共振峰常常發(fā)生所得到的譜包絡(luò)的峰值位置偏離真正的共振峰;線 性預(yù)測所使用的全極點模型和自相關(guān)方法會使模型的所有極點落在單位圓內(nèi),從而造成合成 數(shù)字話音信號的傅立葉變換的相位函數(shù)失真,這會使合成數(shù)字話音信號的形狀和原來數(shù)字話 音信號的形狀的偏離。
以線性預(yù)測分析和碼書激勵的方式編碼產(chǎn)生的連續(xù)的編碼幀經(jīng)譯碼后產(chǎn)生的合成數(shù)字話 音信號的波形上的峰值位置常常會偏離原數(shù)字信號(或預(yù)處理后的數(shù)字話音信號)的波形上 的峰值位置的可以在3GPP2的VMR-WB聲音編碼器執(zhí)行AMR-WB互操作模式的兼容 AMR-WB12. 65kb/s速率的13.3kb/s編碼時找到實例驗證,3GPP的TS26074-500. zip (zip是 文件的后綴名)文件中的TS—AMR_500—DTX. zip文件的DTX—400. zip中DTX4. INP(INP-文件的 后綴名)文件所對應(yīng)的語音信號的波形中的7.83秒和7.84秒之間的最大峰值位置同以 DTX4. INP文件所對應(yīng)的語音信號為輸入以AMR12. 65kb/s為編碼速率進行編碼和譯碼后形成 的合成數(shù)字話音信號的波形上的對應(yīng)峰值位置所屬的幀不是相互對應(yīng)的,下面就是關(guān)于這一 點的說明
如圖1所示,DTX4. INP文件所對應(yīng)的語音信號的波形中的7. 83秒和7. 84秒之間的最大 峰值在圖中的392幀(圖中7. 84秒之前)中找到,并且預(yù)處理后的數(shù)字話音幀中仍可以找到對 應(yīng)的最大峰值,但對于譯碼后的合成數(shù)字語音信號而言,如圖2所示,對應(yīng)的波形的峰值出現(xiàn) 在以13. 3 kb/s速率編碼的編碼幀經(jīng)譯碼后產(chǎn)生的合成數(shù)字話音信號393幀(7. 84秒之后)中, 合成數(shù)字話音信號幀393是比對應(yīng)的392幀晚了一幀,如果非穩(wěn)定濁音檢測可以檢測到 DTX4. INP文件所對應(yīng)的數(shù)字話音信號經(jīng)預(yù)處理后的數(shù)字話音信號的392幀的波形峰值,這樣 盡管預(yù)處理后的數(shù)字話音信號以13. 3kb/s速率方式編碼,但該數(shù)字話音信號的以13.3kb/s 速率編碼的編碼幀被譯碼后產(chǎn)生的合成數(shù)字話音信號的392幀中卻沒有原信號的392幀中的 明顯影響聽覺的對應(yīng)波形峰值。
所以,預(yù)處理后的數(shù)字話音幀和其對應(yīng)的合成數(shù)字話音信號幀不一定具有一致的語音特 征,預(yù)處理后的數(shù)字話音幀(或采樣數(shù)字話音幀)的VAD、清濁音檢測及不穩(wěn)定濁音檢測的 結(jié)果也并不意味著合成數(shù)字話音信號幀具有與之相同的結(jié)果,特別是在當一個數(shù)字話音輸入 幀上的所有的可被檢測出的共振峰經(jīng)編碼操作被映射到其相鄰的后一個數(shù)字話音輸入幀所對 應(yīng)的合成數(shù)字話音幀上的情況下。
正如背景技術(shù)所述,現(xiàn)有的VAD、清濁音檢測及不穩(wěn)定濁音檢測技術(shù)中不檢測預(yù)處理后 的數(shù)字話音幀(或采樣數(shù)字話音幀)中的共振峰,目前的技術(shù)中的分成多個頻率子帶分別檢
測信號電平、音調(diào)檢測、基音檢測、復(fù)雜信號檢測這些技術(shù)都不直接涉及共振峰的檢測,而 VMR-WB編碼以基于LPC所得到的LP系數(shù)的預(yù)測合成濾波器的極點對應(yīng)共振峰以形成對聽覺 有很大影響的諧振峰,這樣共振峰的頻率位置就被編碼操作映射到這些諧振峰上去了。
在語音信號非常微弱時,語音信號的共振峰的幅度和能量很小幾乎被背景噪聲淹沒,艮卩, 原始采樣數(shù)字話音信號或預(yù)處理后的數(shù)字話音信號中背景噪聲的電平或能量同微弱的共振峰 的電平或能量接近使得VAD結(jié)果為無話音,多子帶電平檢測、音調(diào)檢測、基音檢測也無法檢 測,由于現(xiàn)有技術(shù)中VAD等操作被安排在基音延遲參數(shù)和更新碼書(innovative codebook) 計算之前進行,現(xiàn)有的VMR-WB技術(shù)中的LPC沒有被用來檢測出對應(yīng)共振峰的那些極點的頻率 和帶寬,更沒有去檢測在對應(yīng)于預(yù)測合成濾波器極點處的波形峰值處的波形的振幅和能量, 盡管這些波形峰值處的波形的振幅和能量的大小對語音感知影響很大。
技術(shù)方案
為了使VAD、清濁音檢測及不穩(wěn)定濁音檢測的結(jié)果更精確地反映根據(jù)VMR-WB編碼幀所得 到的合成數(shù)字話音幀是否有話音、是否為濁音以及是否為不穩(wěn)定的濁音,本發(fā)明將這些檢測 的對象直接定位在對應(yīng)VMR-WB編碼幀的合成數(shù)字話音信號上。為了使對聽覺影響大的對應(yīng)于 原來數(shù)字話音信號的共振峰的合成數(shù)字話音信號的諧振峰不在VAD及其它檢測過程中被遺 漏,本發(fā)明還在VAD、清濁音檢測及不穩(wěn)定濁音檢測中將直接檢測向線性預(yù)測合成濾波器輸 入激勵信號所產(chǎn)生的輸出信號-合成數(shù)字話音信號中的振幅或能量,這樣,雖然不能直接檢測 到對應(yīng)于線性預(yù)測合成濾波器極點的波形峰值處的波形的振幅或能量,但只要合成數(shù)字信號 頻譜中的諧振峰反映到時域波形上的振幅或短時能量(或平均幅度)超過規(guī)定的檢測閾值就 不會漏檢合成數(shù)字話音信號頻譜中的諧振峰。
為解決上述的檢測不針對對應(yīng)VMR-WB編碼幀譯碼后的話音幀的語音特性的問題,本發(fā)明 給出先編碼后檢測的方法,由于編碼在VAD之前,下面的方法中對輸入話音信號幀進行的編 碼操作不涉及VAD編碼參數(shù)的計算,下面方法中對輸入話音信號幀所進行的編碼指獲取線性 預(yù)測分析和量化后的編碼參數(shù)、自適應(yīng)碼書搜索所得到基音(Pitch)延遲等編碼參數(shù)和固定 碼書搜索所得到的固定碼書等參數(shù)。
下面是最多時需要執(zhí)行四種編碼速率編碼和至少需要執(zhí)行三種編碼速率的確定編碼速率 的方法
以清音QR、濁音HR和FR編碼類型分別對輸入話音信號幀進行編碼并根據(jù)編碼所產(chǎn)生的 激勵信號分別輸出合成數(shù)字話音信號幀,對清音QR的合成數(shù)字話音信號幀進行VAD,在VAD 檢測結(jié)果是無話音時以CNG-ER編碼類型編碼話音輸入信號幀并生成VMR-WB編碼幀為輸出編 碼幀;對濁音冊的合成數(shù)字話音信號幀進行清濁音檢測,如果清濁音檢測的檢測結(jié)果是清音 則以所述的清音QR編碼類型為話音輸入信號幀生成VMR-WB編碼幀作為輸出編碼幀;對FR的
合成數(shù)字話音信號幀進行穩(wěn)定濁音檢測,如果穩(wěn)定濁音檢測的檢測結(jié)果是穩(wěn)定濁音則以所述 的濁音冊編碼類型為話音輸入信號幀生成VMR-WB編碼幀作為輸出編碼幀;如果穩(wěn)定濁音檢 測的檢測結(jié)果不是穩(wěn)定濁音(例如該幀包含非平穩(wěn)的語音段或快速轉(zhuǎn)換階段的濁音信號)則 以所述的FR編碼類型為話音輸入信號幀生成VMR-WB編碼幀作為輸出編碼幀。
以FR的編碼速率對話音輸入幀進行編碼并執(zhí)行按編碼所產(chǎn)生的激勵信號生成合成數(shù)字 話音幀的操作,再根據(jù)該FR編碼速率的合成數(shù)字話音幀進行穩(wěn)定濁音檢測;以服的編碼速 率對話音輸入幀進行編碼并執(zhí)行按編碼所產(chǎn)生的激勵信號生成合成數(shù)字話音幀的操作,再根 據(jù)該冊編碼速率的合成數(shù)字話音幀進行清濁音檢測;以QR的編碼速率對話音輸入幀進行編 碼并執(zhí)行按編碼所產(chǎn)生的激勵信號生成合成數(shù)字話音幀的操作,根據(jù)該QR編碼速率的合成數(shù) 字話音幀進行話音激活檢測(VAD);若穩(wěn)定濁音檢測結(jié)果是不穩(wěn)定濁音則以FR編碼速率生成 的VMR-WB編碼幀為輸出編碼幀;若穩(wěn)定濁音檢測結(jié)果是穩(wěn)定濁音,則當清濁音檢測結(jié)果是濁 音時以HR編碼速率生成的VMR-WB編碼幀為輸出編碼幀;若清濁音檢測結(jié)果是清音且話音激 活檢測結(jié)果是有話音則以QR編碼速率生成的VMR-WB編碼幀為輸出編碼幀,否則以CNG-ER編 碼速率編碼。
除了這兩個方法外,還有下面是類似3GPP2的C. S0052-A的5.10節(jié)信號分類相應(yīng)的方法
以清音冊或清音QR的編碼類型對話音輸入信號幀進行編碼并按編碼所產(chǎn)生的激勵信號 生成合成數(shù)字話音幀,用激勵信號產(chǎn)生合成數(shù)字話音幀的方法為將激勵信號通過LP合成濾波 器,對以所述清音服或清音QR的編碼類型編碼所對應(yīng)的合成數(shù)字話音幀進行話音激活檢測
(VAD),如果檢測結(jié)果是無話音則以CNG-ER編碼速率編碼話音輸入信號幀并以生成的VMR-WB 編碼幀為輸出編碼幀;如果VAD的檢測結(jié)果是有話音則以濁音冊的編碼類型對話音輸入信號 幀進行編碼并按編碼所產(chǎn)生的激勵信號生成合成數(shù)字話音幀,對以所述濁音服的編碼類型編 碼所對應(yīng)的合成數(shù)字話音幀進行清濁音檢測,如果清濁音檢測的檢測結(jié)果是清音則以所述的 清音冊或清音QR的編碼類型為話音輸入信號幀生成VMR-WB編碼幀作為輸出編碼幀;如果清 濁音檢測的檢測結(jié)果是濁音則以FR的編碼類型對話音輸入信號幀進行編碼并按編碼所產(chǎn)生 的激勵信號生成合成數(shù)字話音幀,對以所述FR的編碼類型編碼所對應(yīng)的合成數(shù)字話音幀進行 穩(wěn)定濁音檢測,如果穩(wěn)定濁音檢測的檢測結(jié)果是穩(wěn)定濁音則以所述的濁音冊編碼類型為話音 輸入信號幀生成VMR-WB編碼幀作為輸出編碼幀,如果穩(wěn)定濁音檢測的檢測結(jié)果不是穩(wěn)定濁音
(例如該幀包含非平穩(wěn)的語音段或快速轉(zhuǎn)換階段的濁音信號)則以所述的FR編碼類型為話音 輸入信號幀生成VMR-WB編碼幀作為輸出編碼幀。
上述這種首先執(zhí)行話音激活檢測方法再執(zhí)行濁音和FR編碼的方法使得對話型的語音信 號的運算量大為減少,因為一旦檢測到無話音時只需要再執(zhí)行一次CNG-ER編碼即可。
由于語音的起始端發(fā)生在緊接語音靜默期之后,所以改變上述這種執(zhí)行檢測的次序,按 圖5所示的次序確定編碼類型和輸出編碼幀,就有下面的方法
以清音HR或清音QR的編碼類型對話音輸入信號幀進行編碼并將按編碼所確定的激勵
信號通過按編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該清音HR或清 音QR的編碼類型編碼的合成數(shù)字話音幀進行話音激活檢測(VAD),如果檢測結(jié)果是無話音 則以CNG-ER編碼速率編碼話音輸入信號幀并以生成的VMR-WB編碼幀為輸出編碼幀;如 果VAD的檢測結(jié)果是有話音則以FR的編碼類型對話音輸入信號幀進行編碼并將按編碼所確 定的激勵信號通過按編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該FR 的編碼類型的合成數(shù)字話音幀進行穩(wěn)定濁音檢測,如果穩(wěn)定濁音檢測的檢測結(jié)果不是穩(wěn)定濁 音則以所述的FR編碼類型為話音輸入信號幀生成VMR-WB編碼幀作為輸出編碼幀;如果穩(wěn) 定濁音檢測的檢測結(jié)果是穩(wěn)定濁音就以濁音HR的編碼類型對話音輸入信號幀進行編碼并將 按編碼所確定的激勵信號通過按編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀, 根據(jù)該濁音HR的編碼類型的合成數(shù)字話音幀進行清濁音檢測,如果清濁音檢測的檢測結(jié)果 是清音則以所述的清音HR或清音QR的編碼類型為話音輸入信號幀生成VMR-WB編碼幀作 為輸出編碼幀;如果清濁音檢測的檢測結(jié)果是濁音,則以所述的濁音HR編碼類型為話音輸 入信號幀生成VMR-WB編碼幀作為輸出編碼幀。 還有一種方法就是先進行清濁音檢測,即
以濁音HR的編碼類型對話音輸入信號幀進行編碼并將按編碼所確定的激勵信號通過按 編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該濁音HR的編碼類型的合 成數(shù)字話音幀進行清濁音檢測,如果清濁音檢測的檢測結(jié)果是清音就以清音HR或清音QR 的編碼類型對話音輸入信號幀進行編碼并將按編碼所確定的激勵信號通過按編碼所確定的線 性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該清音HR或清音QR的編碼類型編碼的合 成數(shù)字話音幀進行話音激活檢測(VAD);如果清濁音檢測的檢測結(jié)果是濁音就以FR的編碼 類型對話音輸入信號幀進行編碼并將按編碼所確定的激勵信號通過按編碼所確定的線性預(yù)測 LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該FR的編碼類型的合成數(shù)字話音幀進行穩(wěn)定濁音 檢測;
如果VAD結(jié)果是無話音則以CNG-ER編碼速率編碼話音輸入信號幀并以生成的 VMR-WB編碼幀為輸出編碼幀;如果VAD的檢測結(jié)果是有話音則以清音HR或清音QR的 編碼類型為話音輸入信號幀生成VMR-WB編碼幀作為輸出編碼幀;如果穩(wěn)定濁音檢測的檢 測結(jié)果不是穩(wěn)定濁音則以所述的FR編碼類型為話音輸入信號幀生成VMR-WB編碼幀作為輸 出編碼幀,如果穩(wěn)定濁音檢測的檢測結(jié)果是穩(wěn)定濁音就以所述的則以所述的濁音HR編碼類 型為話音輸入信號幀生成VMR-WB編碼幀作為輸出編碼幀。
就以上所有這些確定編碼速率的方法來說,都涉及以多個編碼速率進行編碼,以多個編 碼類型編碼話音信號幀及合成數(shù)字話音信號過程中所得到的新的多個編碼類型的激勵信號、 量化能量預(yù)測誤差等參數(shù)在下一幀編碼時僅能使用編碼輸出的那種編碼類型編碼幀的過程所 產(chǎn)生的參數(shù),編碼不被輸出的編碼類型的VMR-WB幀時新產(chǎn)生的所有狀態(tài)變量要全部棄用并還 原到未更新前的狀態(tài)。
除了上述的狀態(tài)變量處理方法之外,對于多速率編碼產(chǎn)生的狀態(tài)變量的保存和使用的問
題,本發(fā)明還有下面的分析和解決的方法。
對于VMR-WB聲碼器來說,在前面式(3)所示的預(yù)測增益G:的計算式和式(2)所示的 線性域的預(yù)測增益A的計算式中的相關(guān)變量,只有子幀的預(yù)測能量(predicted energy) 依賴于和前面的子幀的編碼有關(guān)的狀態(tài)值一量化能量預(yù)測誤差,更新能量的平均值玄的取值 不變,平均更新能量五,僅和固定碼書有關(guān)。
VMR-WB譯碼器對語音編碼模塊產(chǎn)生的編碼幀譯碼,根據(jù)式(3),因為針對同一個編碼幀, 所以譯碼器和該語音編碼模塊雙方的更新能量的平均值£和平均更新能量五,完全一致,如果 使用同樣的上一幀的四個子幀的量化預(yù)測誤差,雙方的預(yù)測增益G'c完全一致,線性域的預(yù)測 增益A也完全一致。
當編碼器第一次以多編碼速率的方式編碼話音信號幀時,編碼器中的每個語音編碼模塊 能參照和譯碼器一致的初始的激勵信號和量化預(yù)測誤差,并且,編碼器中總有一個語音編碼 模塊產(chǎn)生的編碼幀要被譯碼器收到
在該編碼模塊產(chǎn)生的編碼幀是FR、普通(Generic)冊或濁音冊編碼幀的情況下,譯碼 器從收到的FR或濁音朋編碼幀中直接得到和該語音編碼模塊一致的基音延遲、 一致的自適 應(yīng)碼書量化增益、 一致的固定碼書和一致的量化修正因子,將線性域的預(yù)測增益g'c乘一致的 量化的修正因子得到量化固定碼書增益;因為譯碼器和該語音編碼模塊參照一致的量化能量 預(yù)測誤差且針對同樣的編碼幀,它們的線性域的預(yù)測增益gV完全一致,所以它們的量化固定 碼書增益也完全一致;譯碼器根據(jù)一致的上一幀子幀的激勵信號和基音延遲合成一致的自適 應(yīng)碼書,并將自適應(yīng)碼書和固定碼書乘以各自的量化增益后相加的和作為新的子幀的激勵信 號,新的子幀的激勵信號和該語音編碼模塊的激勵信號完全一致;
在該編碼模塊產(chǎn)生的編碼幀是清音服或清音QR編碼幀的情況下,譯碼器從收到的清音 服或清音QR編碼幀中直接得到和該語音編碼模塊一致的固定碼書和一致的量化固定碼書增 益,譯碼器將固定碼書乘以一致的量化固定碼書增益作為新的子幀的激勵信號,新的子幀的 激勵信號和該語音編碼模塊的激勵信號完全一致V同樣,因為針對同一個編碼幀,所以譯碼 器和該語音編碼模塊雙方的更新能量的平均值E和平均更新能量&'完全一致,并且使用一致 的上一幀的四個子幀的量化預(yù)測誤差,雙方的預(yù)測增益G'c完全一致,根據(jù)一致的固定碼書量 化增益可以確定它們的量化預(yù)測誤差也是一致的,這可從下面的式(5)得出,式(5)等同于 3GPP2的C. S0052-Avl. 0的(5. 20.1-5)式,r是量化預(yù)測誤差,gc是量化固定碼書增益;
gc= i0。. 。5") (5)
在該編碼模塊產(chǎn)生的編碼幀是CNG-ER或CNG-QR編碼幀的情況下,該編碼模塊將激勵信 號復(fù)位,譯碼器在收到CNG-ER或CNG-QR編碼幀后也將激勵信號復(fù)位,雙方的激勵信號因此 取得了一致,執(zhí)行CNG類型編碼時不生成新的量化預(yù)測誤差所以雙方的量化預(yù)測誤差也是一 致的。
編碼器在其VAD、清濁音及穩(wěn)定濁音檢測結(jié)果給出指定輸出VMR-WB編碼幀的編碼速率指 示后就確定了和譯碼器的新的子幀的激勵信號有一致關(guān)系的語音編碼模塊,當編碼器得到它 第一次多編碼速率編碼的話音信號幀的編碼速率指定指示后,和譯碼器的新的子幀的激勵信 號取得一致的語音編碼模塊被確定,所有其他語音編碼模塊都參照該語音編碼模塊的子幀的 激勵信號和量化預(yù)測誤差。這一過程不斷重復(fù),所以,編碼器在使用和譯碼器一致的上一幀 子幀的激勵信號的條件下能合成新的一致的下一幀子幀的激勵信號,激勵信號的一致性也會 逐幀傳遞,激勵信號的一致性也能得到較長時間的保持。
只要編譯碼雙方基于一致的激勵信號,它們的合成數(shù)字話音信號也會趨于一致,這是因 為盡管LP參數(shù)會有不一致的時候,但用于構(gòu)造LP合成濾波器的LP參數(shù)的不一致不具有傳遞 性,即,只要有編碼連續(xù)幾個幀時編碼方所使用LP參數(shù)與譯碼方一致,兩者的構(gòu)造LP合成 濾波器的LP參數(shù)就可以一致。
這樣在上述的確定VMR-WB編碼速率的方法中,按編碼上一幀輸入話音信號幀的輸出 VMR-WB編碼幀所產(chǎn)生的新的激勵信號來編碼當前的輸入話音信號幀;若編碼上一幀輸入話音 信號幀的輸出VMR-TO編碼幀產(chǎn)生了新的量化預(yù)測誤差則按該量化預(yù)測誤差來編碼當前的輸 入話音信號幀,否則按編碼上一幀輸入話音信號幀之前的量化預(yù)測誤差來編碼當前的輸入話 音信號幀。
為了減少合成數(shù)字話音信號幀的計算量,可以把合成數(shù)字話音信號幀的操作減少到僅僅 按一種FR來生成合成數(shù)字話音信號幀,根據(jù)該FR的合成數(shù)字話音信號幀進行VAD、清濁音 檢測及不穩(wěn)定濁音檢測,因為FR的合成數(shù)字話音信號幀和服速率的合成數(shù)字話音信號幀的 語音特征比較接近。這樣就有以下的方案
一種確定VMR-冊編碼速率的方法,按FR的編碼速率對聲音數(shù)字采樣幀或?qū)ζ漕A(yù)處理后 的數(shù)字信號幀進行線性預(yù)測、自適應(yīng)碼書搜索和更新碼書搜索得到激勵信號,并將由線性預(yù) 測所確定的線性預(yù)測合成濾波器對該激勵信號進行濾波得到合成聲音數(shù)字信號幀,根據(jù)該合 成聲音數(shù)字信號幀進行話音激活檢測(VAD),當VAD結(jié)果是有話音時根據(jù)該合成聲音數(shù)字信 號幀進行清濁音檢測,當清濁音檢測結(jié)果是濁音時根據(jù)該合成聲音數(shù)字信號幀進行穩(wěn)定濁音 檢測,當VAD結(jié)果是無話音時按CNG-ER編碼并生成VMR-TO編碼幀,當清濁音檢測結(jié)果是清 音時按清音冊或清音QR編碼并生成VMR-WB編碼幀,當穩(wěn)定濁音檢測結(jié)果是穩(wěn)定濁音時按 HR速率編碼VMR-冊編碼幀,當穩(wěn)定濁音檢測結(jié)果是不穩(wěn)定濁音時按FR編碼并生成VMR-WB 編碼幀。
VMR-WB工作在AMR-WB互操作模式時,就有下面這兩種支持冊和不支持冊的編碼方法 一種確定AMR-WB互操作模式的VMR-WB編碼速率的方法,按FR的編碼速率對聲音數(shù)字采 樣幀或?qū)ζ漕A(yù)處理后的數(shù)字信號幀進行線性預(yù)測、自適應(yīng)碼書搜索和更新(innovative)碼 書搜索得到激勵信號,并將由線性預(yù)測所確定的線性預(yù)測合成濾波器對該激勵信號進行濾波 得到合成聲音數(shù)字信號幀,根據(jù)該合成聲音數(shù)字信號幀進行話音激活檢測(VAD),當VAD結(jié) 果是有話音時根據(jù)該合成聲音數(shù)字信號幀進行清濁音檢測,當VAD結(jié)果是無話音時按CNG-ER
或CNG-QR編碼并生成VMR-WB編碼幀,當清濁音檢測結(jié)果是清音時按清音服速率編碼VMR-WB 編碼幀,當清濁音檢測結(jié)果是濁音時按FR編碼并生成VMR-WB編碼幀。
一種確定AMR-WB互操作模式的VMR-ffB編碼速率的方法,按FR對聲音數(shù)字采樣幀或?qū)ζ?預(yù)處理后的數(shù)字信號幀進行線性預(yù)測、自適應(yīng)碼書搜索和更新碼書搜索得到激勵信號,并將 由線性預(yù)測所確定的線性預(yù)測合成濾波器對該激勵信號進行濾波得到合成聲音數(shù)字信號幀, 根據(jù)該合成聲音數(shù)字信號幀進行話音激活檢測(VAD),當VAD結(jié)果是無話音時按CNG-ER或 CNG-QR編碼并生成VMR-WB編碼幀,當VAD結(jié)果是有話音時按FR速率編碼并生成VMR-WB編 碼幀。
現(xiàn)有技術(shù)中的話音激活檢測方法、清濁音檢測及穩(wěn)定濁音檢測的方法對合成數(shù)字話音信 號仍然適用。
此外,由于合成數(shù)字話音信號在預(yù)測合成濾波器極點對應(yīng)的諧振峰處有較高的能量,在 對合成數(shù)字話音信號幀進行話音激活檢測時可以檢測其波峰的振幅,如果其波峰的上升沿和 下降沿的幅度都超過或其中之一超過閾值就將該幀判決為有話音,這樣, 一旦所述的極點所 對應(yīng)的諧振峰反映在波形上的振蕩的波峰的幅度超過閾值,合成數(shù)字話音信號幀就不會在VAD 檢測時被漏掉。當出現(xiàn)背景技術(shù)中指出的合成數(shù)字話音信號尖峰比原始信號更為突出的現(xiàn)象 時那些突出的尖峰可以較容易地用與閾值比較的方法被檢出。用來與波峰的上升沿或下降沿 比較的閾值的設(shè)定方法不是唯一的,該閾值的確定可以用固定值,也可以和波峰所在的合成 數(shù)字話音信號幀有關(guān),比如,可以參考合成數(shù)字話音信號幀的平均幅度——幀內(nèi)樣本點上的 信號值的絕對值的和。
本發(fā)明提出的一種VAD方法是針對合成數(shù)字話音信號的波形中的振幅是否超過閾值,如 果超過則將合成數(shù)字話音信號判決為有話音。這樣那些對應(yīng)于原數(shù)字話音信號共振峰的波形 一旦其振幅超過閾值就不會被遺漏而會被檢測出來,就不會將其所在的合成數(shù)字話音信號幀 用背景噪聲編碼幀來代替并向譯碼方發(fā)送了 。另一種檢測方法是檢測合成數(shù)字話音信號的短
時平均能量或短時平均幅度的峰值是否超過閾值,如果超過則將合成數(shù)字話音信號判決為有 話音,這樣那些對應(yīng)于原數(shù)字話音信號共振峰的波形的短時平均能量或短時平均幅度的峰值 一旦超過閾值就不是會遺漏而是會被檢測出來。
清濁音檢測也可以直接針對合成數(shù)字話音的時域的波形,濁音的短時平均能量或短時平 均幅度高于清音的對應(yīng)值,因為短時平均能量或短時平均幅度的定義的需要先給出矩形窗w (n)的定義,N是窗口的大小
<formula>formula see original document page 16</formula>本發(fā)明的短時平均能量En的定義如下
n<formula>formula see original document page 16</formula>
本發(fā)明的短時平均幅度Mn的定義如下
<formula>formula see original document page 17</formula> (8) 本發(fā)明提出按短時平均能量或短時平均幅度對合成數(shù)字話音信號幀進行清濁音檢測的方
法
設(shè)定窗口 N的大小及短時平均能量閾值,當合成數(shù)字話音信號幀中該窗口的短時平均能 量超過該短時平均能量閾值,將該幀的清濁音檢測結(jié)果定為濁音幀。
設(shè)定窗口 N的大小及短時平均能量閾值和超越閾值的計數(shù)閾值,當合成數(shù)字話音信號幀 中該窗口的短時平均能量超過該短時平均能量閾值的次數(shù)超過計數(shù)閾值,將該幀的清濁音檢 測結(jié)果定為濁音幀。
設(shè)定窗口 N的大小及短時平均幅度閾值,當合成數(shù)字話音信號幀中該窗口的短時平均幅 度超過該短時平均幅度閾值,將該幀的清濁音檢測結(jié)果定為濁音幀。
設(shè)定窗口 N的大小及短時平均幅度閾值和超越閾值的計數(shù)閾值,當合成數(shù)字話音信號幀 中該窗口的短時平均幅度超過該短時平均幅度閾值的次數(shù)超過計數(shù)閾值,將該幀的清濁音檢 測結(jié)果定為濁音幀。
短時平均能量或短時平均幅度還可以用于穩(wěn)定濁音的檢測,當處于語音的起始端或清濁 音的轉(zhuǎn)換階段,短時平均能量或短時平均幅度就會比在此前的值有明顯的增大,于是就有下 面的檢測方法
設(shè)定窗口 N的大小,當FR合成數(shù)字話音信號幀中該窗口的短時平均能量超過該幀之前若 干幀中的最大的該窗口的短時平均能量,將該幀的穩(wěn)定濁音檢測結(jié)果定為不穩(wěn)定濁音幀,如 果該FR合成數(shù)字話音信號幀之前存在同樣的FR合成數(shù)字話音信號幀,所述該幀之前若干幀 就可以采用FR合成數(shù)字話音信號幀,否則若干幀就要包括服或QR的合成數(shù)字話音信號幀。
設(shè)定窗口 N的大小,當合成數(shù)字話音信號幀中該窗口的短時平均幅度超過該幀之前若干 幀中的最大的該窗口的短時平均幅度,將該幀的穩(wěn)定濁音檢測結(jié)果定為不穩(wěn)定濁音幀。
有益效果
由于采用了先執(zhí)行線性預(yù)測和碼書搜索再執(zhí)行語音特征檢測(VAD、清濁音檢測和穩(wěn)定濁 音檢測)的方法,這樣,按FR或其它非ER編碼速率所生成的激勵信號的出現(xiàn)就先于VAD、 清濁音檢測和穩(wěn)定濁音檢測等操作,針對激勵信號通過線性預(yù)測合成濾波器的輸出進行VAD、 清濁音檢測和穩(wěn)定濁音檢測,這樣VAD、清濁音檢測和穩(wěn)定濁音檢測的結(jié)果可以將原始數(shù)字 聲音幀經(jīng)過線性預(yù)測、自適應(yīng)碼書搜索和固定碼書搜索處理后的語音特征包括進去,譯碼方 收到的非CNG編碼類型的VMR-WB編碼幀經(jīng)譯碼后產(chǎn)生的數(shù)字語音信號幀的語音特征與編碼方
的該編碼類型的用于檢測的合成數(shù)字語音信號幀的語音特征相似;編碼方在無法檢測到具有 活動話音、清音、濁音或不穩(wěn)定濁音的合成數(shù)字語音信號的情況下才有可能產(chǎn)生CNG編碼類 型的VMR-TO編碼幀。由于譯碼方收到的非CNG編碼類型的VMR-WB編碼幀經(jīng)譯碼后產(chǎn)生的數(shù) 字語音信號幀的語音特征與編碼方的的FR編碼類型的用于檢測的合成數(shù)字語音信號的語音 :征也有比較好的相似性,所以也僅安排FR編碼類型的合成數(shù)字語音信號用于語音特征的檢
本發(fā)明方法根據(jù)合成數(shù)字語音信號進行檢測的另一個好處在于,在原來預(yù)處理后的數(shù)字 信號經(jīng)線性預(yù)測和碼書搜索處理后喪失了可以被檢測出的活動話音、濁音或不穩(wěn)定濁音等語 音特征的情況下,VMR-WB編碼的對語音的壓縮率可進一歩提高。
本發(fā)明的將合成數(shù)字話音信號的波峰的幅度同閾值比較的VAD方法可以在預(yù)測合成濾波 器極點對應(yīng)的諧振峰反映在波形上的波峰的幅度高于閾值時檢出該波峰所在的合成數(shù)字話音 信號幀。當背景技術(shù)中提到的合成數(shù)字話音信號的尖峰比原始信號更為突出這一現(xiàn)象體現(xiàn)在 對應(yīng)原始信號共振峰的合成數(shù)字話音信號的波形中的尖峰的上升沿或下降沿比原始信號的更 大時,上述的將合成數(shù)字話音信號的波峰的幅度同閾值比較的方法可以檢測出無法通過檢測 原始信號波形的尖峰而檢出的幀。同樣,當前面提到的合成數(shù)字話音信號的上升沿比原始信 號更為陡這一現(xiàn)象體現(xiàn)在對應(yīng)原始信號共振峰的合成數(shù)字話音信號的波形中的尖峰的上升沿 比原始信號的更大時,本發(fā)明的將合成數(shù)字話音信號的波峰的上升沿同閾值比較的方法可以 檢測出原來無法檢出的幀。同樣,當前面提到的合成數(shù)字話音信號的上升沿比原始信號更為 陡這一現(xiàn)象體現(xiàn)在對應(yīng)原始信號共振峰的合成數(shù)字話音信號的波形中的尖峰的上升沿的斜率 比原始信號更大時,將合成數(shù)字話音信號的波峰的上升沿的斜率同闊值比較的方法可以檢測 出原來無法檢出的幀。
圖1是DTX4. INP文件所對應(yīng)的語音信號中的7. 83秒和7. 84秒之間的波形。
圖2是DTX4. INP文件所對應(yīng)的語音信號經(jīng)VMR-WB編碼器以全速率編碼信號譯碼后形成的數(shù)
字語音信號的7. 83秒和7. 84秒之間的波形。
圖3是根據(jù)全速率合成數(shù)字話音信號確定編碼速率VMR-WB編碼器的原理框圖。
圖4是根據(jù)多種速率合成數(shù)字話音信號之上的檢測結(jié)果確定編碼速率VMR-WB編碼器的原理框圖。
圖5是VMR-WB編碼器根據(jù)合成數(shù)字話音信號確定編碼速率的功能框圖。
具體實施例方式
實施例1, 一個RS-II模式的VMR-NB編碼器,如圖3所示,話音采樣率為8kHz (千赫茲) 的脈沖調(diào)制(PCM)信號幀1經(jīng)過采樣模塊的過采樣(叩-sampling)操作形成12.8kHz的信號 幀2同時向全速率語音合成模塊和語音編碼模塊輸出,或者,話音采樣率為16kHz (千赫茲)
脈沖調(diào)制(PCM)信號幀1經(jīng)過采樣模塊的欠采樣(down-sampling)操作形成12.8kHz的信號 幀2同時向全速率語音合成模塊和語音編碼模塊輸出。全速率語音合成模塊對信號幀2進行 線性預(yù)測和ISP變換生成ISP系數(shù)及用于構(gòu)造線性預(yù)測合成濾波器的LP系數(shù),接著,對信號 幀2的子幀執(zhí)行開環(huán)基音分析和基音跟蹤(Open-loop Pitch Analysis and Pitch Tracking) 確定半幀基音延遲,3GPP2的C. S0052-A的5. 8節(jié)對此操作作了詳細說明;然后,進行全速 率自適應(yīng)碼書搜索產(chǎn)生自適應(yīng)碼書向量和自適應(yīng)碼書增益,關(guān)于自適應(yīng)碼書搜索的目標信號 的獲取在3GPP2的C.S0052-A的5.15節(jié)有詳細的說明,關(guān)于自適應(yīng)碼書搜索在3GPP2的 C. S0052-A的5.16節(jié)有詳細的說明,自適應(yīng)碼書搜索之后,執(zhí)行3GPP2的C. S0052-A的5. 17 節(jié)所規(guī)定的FR固定碼書搜索,在完成FR自適應(yīng)碼書搜索和FR固定碼書搜索后,可以計算出 子幀的激勵信號,將自適應(yīng)碼書信號按自適應(yīng)碼書增益值放大后得到的信號,同固定碼書信 號按固定碼書增益值放大后得到的信號進行疊加即可。將得到信號幀的所有子幀的激勵信號 通過線性預(yù)測合成濾波器得到FR速率的合成數(shù)字信號幀3,合成數(shù)字信號幀3輸出到穩(wěn)定濁 音檢測模塊、清濁音檢測模塊、話音激活檢測模塊。穩(wěn)定濁音檢測模塊輸出穩(wěn)定濁音檢測結(jié) 果6到編碼幀輸出選擇模塊,清濁音檢測模塊輸出清濁音檢測結(jié)果7到編碼幀輸出選擇模塊, 話音激活檢測模塊輸出話音激活檢測結(jié)果8到編碼幀輸出選擇模塊。編碼幀輸出選擇模塊在 話音激活檢測結(jié)果8是無話音時發(fā)出內(nèi)容為CNG-ER (舒適噪聲-八分之一速率)編碼的編碼 命令信號9到語音編碼模塊,編碼幀輸出選擇模塊在話音激活檢測結(jié)果8是有話音且清濁音 檢測結(jié)果7是清音時發(fā)出編碼速率是QR的編碼命令信號9到語音編碼模塊,編碼幀輸出選擇 模塊在話音激活檢測結(jié)果8是有話音、清濁音檢測結(jié)果7是濁音且穩(wěn)定濁音檢測結(jié)果是穩(wěn)定 濁音時發(fā)出編碼速率是冊的編碼命令信號9到語音編碼模塊,編碼幀輸出選擇模塊在話音激 活檢測結(jié)果8是有話音、清濁音檢測結(jié)果7是濁音且穩(wěn)定濁音檢測結(jié)果是不穩(wěn)定濁音時發(fā)出 編碼速率是FR的編碼命令信號9到語音編碼模塊。語音編碼模塊按照編碼命令信號9所給出 的編碼速率對信號幀2進行編碼生成該速率的VMR-WB編碼幀,關(guān)于RS-II模式的各種編碼速 率的詳細編碼操作步驟3GPP2的C. S0052-A有詳細的描述,且3GPP2也給出了 VMR-冊編碼器 的源代碼。
實施例2, 一個RS-II模式的VMR-NB編碼器,如圖2所示,與實施例1不同之處在于它 沒有語音合成模塊,由三種速率的編碼模塊合成的三種合成數(shù)字語音信號分別對應(yīng)了三種速 率的編碼幀。話音采樣率為8kHz (千赫茲)的脈沖調(diào)制(PCM)信號幀1經(jīng)過采樣模塊的過采 樣(up-sampling)操作形成12.8kHz的信號幀2同時向FR (全速率)編碼模塊、濁音半速 率(voiced-HR)編碼模塊、清音四分之一速率(unvoiced-QR)編碼模塊和CNG-ER (舒適噪 聲-八分之一速率)語音編碼模塊輸出,或者,話音采樣率為16kHz (千赫茲)的脈沖調(diào)制(PCM) 信號幀1經(jīng)過采樣模塊的欠采樣(down-sampling)操作形成12. 8kHz的信號幀2同時向四種 速率的語音編碼模塊輸出。四種速率的語音編碼模塊分別對信號幀2執(zhí)行編碼操作,關(guān)于這 四種速率的語音編碼在3GPP2的C. S0052-A有詳細的描述,且3GPP2也給出了 VMR-冊編碼器 的源代碼,本發(fā)明的特別地方是每個速率的語音編碼模塊都設(shè)置了存放前一幀激勵信號的緩 存和前一幀預(yù)測誤差的緩存,每個語音編碼模塊在開始一幀的編碼前接收激勵緩沖器發(fā)送的 前一幀激勵信號35并把它放到存放前一幀激勵信號的緩存中,同樣每個語音編碼模塊在開始 一幀的編碼前接收預(yù)測誤差緩存器發(fā)送的前一幀預(yù)測誤差37并把它放到存放前一幀預(yù)測誤 差的緩存中;每個語音編碼模塊完成了一幀的編碼和合成數(shù)字語音信號的生成后,將它所產(chǎn) 生的當前幀的激勵信號和預(yù)測誤差向激勵緩沖器和預(yù)測誤差緩存器分別發(fā)送,除CNG-ER語音 編碼模塊之外的三個語音編碼模塊根據(jù)它們各自編碼所產(chǎn)生的激勵信號生成對應(yīng)的合成數(shù)字 語音信號,就是激勵信號經(jīng)過線性預(yù)測合成濾波器的濾波后信號(在3GPP2的C. S0052-Avl. 0 的5.21節(jié)可以找到該描述)。這里需要指出,盡管在CNG-ER編碼時不使用上一幀的激勵信號 但會將激勵信號復(fù)位成固定值,所以要將復(fù)位后的激勵信號17發(fā)送到激勵緩沖器,盡管在 CNG-ER編碼時不使用上一幀的預(yù)測誤差但仍然把它所收到的上一幀預(yù)測誤差作為當前幀的預(yù) 測誤差18發(fā)送到量化預(yù)測誤差緩存器。對于清音QR (四分之一速率)語音編碼器來說,它 完成一幀的編碼后,將產(chǎn)生的激勵信號15向激勵緩沖器輸出,將產(chǎn)生的預(yù)測誤差17發(fā)送到 量化預(yù)測誤差緩存器。對于濁音HR (半速率)語音編碼器來說,它完成一幀的編碼后,將產(chǎn) 生的激勵信號13向激勵緩沖器輸出,將產(chǎn)生的量化能量預(yù)測誤差14發(fā)送到量化預(yù)測誤差緩 存器。對于FR (全速率)語音編碼器來說,它完成一幀的編碼后,將產(chǎn)生的激勵信號11向 激勵緩沖器輸出,將產(chǎn)生的量化能量預(yù)測誤差12發(fā)送到量化預(yù)測誤差緩存器。
話音激活檢測模塊接收清音QR (四分之一速率)語音編碼器完成一幀的編碼后生成的QR 合成數(shù)字話音信號幀5并對它進行話音激活檢測,將話音激活檢測的結(jié)果8向編碼幀輸出選 擇模塊輸出;清濁音檢測模塊接收濁音HR (半速率)語音編碼器完成一幀的編碼后生成的冊 合成數(shù)字話音信號幀4并對它進行清濁音檢測,將清濁音檢測的結(jié)果7向編碼幀輸出選擇模 塊輸出;穩(wěn)定濁音檢測模塊接收FR (全速率)語音編碼器完成一幀的編碼后生成的FR合成 數(shù)字話音信號幀3并對它進行穩(wěn)定濁音檢測,將穩(wěn)定濁音檢測的結(jié)果6向編碼幀輸出選擇模 塊輸出;編碼幀輸出選擇模塊在VAD檢測結(jié)果是無話音時將以CNG-ER編碼類型編碼話音輸入 信號幀生成的VMR-WB編碼幀20為輸出編碼幀10,并用激勵和預(yù)測誤差更新信號9指示激勵 緩沖器用當前幀的激勵信號17更新其前一幀的激勵信號和指示量化預(yù)測誤差緩存器用當前 幀的預(yù)測誤差18更新其前一幀的量化預(yù)測誤差;如果清濁音檢測的檢測結(jié)果是清音則以所述 的清音QR編碼類型為話音輸入信號幀生成VMR-WB編碼幀21為輸出編碼幀10,并用激勵和 預(yù)測誤差更新信號9指示激勵緩沖器用當前幀的激勵信號15更新其前一幀的激勵信號和指示 量化預(yù)測誤差緩存器用當前幀的預(yù)測誤差16更新其前一幀的量化預(yù)測誤差;如果穩(wěn)定濁音檢 測的檢測結(jié)果是穩(wěn)定濁音則以所述的濁音HR編碼類型為話音輸入信號幀生成VMR-WB編碼幀 22為輸出編碼幀10,并用激勵和預(yù)測誤差更新信號9指示激勵緩沖器用當前幀的激勵信號 13更新其前一幀的激勵信號和指示量化預(yù)測誤差緩存器用當前幀的預(yù)測誤差14更新其前一 幀的量化預(yù)測誤差;如果穩(wěn)定濁音檢測的檢測結(jié)果不是穩(wěn)定濁音(例如該幀包含非平穩(wěn)的語 音段或快速轉(zhuǎn)換階段的濁音信號)則以所述的FR編碼類型為話音輸入信號幀生成VMR-WB編 碼幀23為輸出編碼幀10,并用激勵和預(yù)測誤差更新信號9指示激勵緩沖器用當前幀的激勵 信號11更新其前一幀的激勵信號和指示量化預(yù)測誤差緩存器用當前幀的預(yù)測誤差12更新其 前一幀的量化預(yù)測誤差。如果輸出編碼幀10不是CNG-ER或CNG-QR編碼類型編碼輸出幀10 中的話音激活檢測標志VAD"flag由編碼幀輸出選擇模塊根據(jù)話音激活檢測的結(jié)果8來設(shè)定。
權(quán)利要求
1.一種確定輸出變速率多模式寬帶VMR-WB編碼幀編碼類型的方法,其特征在于以清音四分之一QR、濁音半速率HR和全速率FR編碼類型分別對輸入話音信號幀進行編碼,并根據(jù)各自編碼所確定的線性預(yù)測合成濾波器對各自編碼所確定的激勵信號的響應(yīng)——合成數(shù)字話音信號幀進行語音特征的檢測,即,對清音QR的合成數(shù)字話音信號幀進行話音激活檢測VAD,對濁音HR的合成數(shù)字話音信號幀進行清濁音檢測,對FR的合成數(shù)字話音信號幀進行穩(wěn)定濁音檢測,如果VAD結(jié)果是無話音就以舒適噪聲-八分之一CNG-ER編碼類型編碼輸入話音信號幀并生成VMR-WB編碼幀作為輸出編碼幀;如果清濁音檢測的檢測結(jié)果是清音則以所述的以清音四分之一QR編碼類型為輸入話音信號幀生成VMR-WB編碼幀作為輸出編碼幀;如果穩(wěn)定濁音檢測的檢測結(jié)果是穩(wěn)定濁音則以所述的濁音HR編碼類型為輸入話音信號幀生成VMR-WB編碼幀作為輸出編碼幀;如果穩(wěn)定濁音檢測的檢測結(jié)果不是穩(wěn)定濁音則以所述的FR編碼類型為輸入話音信號幀生成VMR-WB編碼幀作為輸出編碼幀。
2. —種確定輸出VMR-WB編碼幀編碼類型的方法,其特征在于以FR的編碼類型對輸入話音信號幀進行編碼并將按編碼所確定的激勵信號通過按編 碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,再根據(jù)該FR編碼類型的合成 數(shù)字話音幀進行穩(wěn)定濁音檢測;以普通HR或濁音HR的編碼類型對輸入話音信號幀進行 編碼并將按編碼所確定的激勵信號通過按編碼所確定的LP合成濾波器生成合成數(shù)字話 音幀,再根據(jù)該普通HR或濁音HR的編碼類型的合成數(shù)字話音幀進行清濁音檢測;以清 音QR的編碼類型對話音輸入幀進行編碼并將按編碼所確定的激勵信號通過按編碼所確 定的LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該QR編碼類型的合成數(shù)字話音幀進行話 音激活檢測VAD;若穩(wěn)定濁音檢測結(jié)果是不穩(wěn)定濁音則以FR編碼類型為輸入話音信號 幀生成VMR-WB編碼幀作為輸出編碼幀;若穩(wěn)定濁音檢測結(jié)果是穩(wěn)定濁音,當清濁音檢 測結(jié)果是濁音時以普通HR或濁音冊的編碼類型為輸入話音信號幀生成VMR-WB編碼幀 作為輸出編碼幀;若清濁音檢測結(jié)果是清音且話音激活檢測結(jié)果是有話音,則以清音 QR編碼類型為輸入話音信號幀生成VMR-冊編碼幀作為輸出編碼幀,否則以CNG-ER編 碼類型編碼并生成VMR-WB編碼幀。
3. —種確定輸出VMR-WB編碼幀編碼類型的方法,其特征在于以清音HR或清音QR的編碼類型對輸入話音信號幀進行編碼并將按編碼所確定的激 勵信號通過按編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該清音 冊或清音QR的編碼類型編碼的合成數(shù)字話音幀進行話音激活檢測VAD,如果VAD結(jié)果 是無話音則以CNG-ER編碼類型編碼輸入話音信號幀并生成VMR-WB編碼幀作為輸出編碼 幀;如果VAD的檢測結(jié)果是有話音則以濁音冊的編碼類型對輸入話音信號幀進行編碼 并將按編碼所確定的激勵信號通過按編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該濁音HR的編碼類型的合成數(shù)字話音幀進行清濁音檢測,如果清濁音 檢測的檢測結(jié)果是清音則以所述的清音HR或清音QR的編碼類型為輸入話音信號幀生成 VMR-WB編碼幀作為輸出編碼幀;如果清濁音檢測的檢測結(jié)果是濁音則以FR的編碼類型 對輸入話音信號幀進行編碼并將按編碼所確定的激勵信號通過按編碼所確定的線性預(yù) 測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該FR的編碼類型的合成數(shù)字話音幀進行穩(wěn) 定濁音檢測,如果穩(wěn)定濁音檢測的檢測結(jié)果是穩(wěn)定濁音則以所述的濁音HR編碼類型為 輸入話音信號幀生成VMR-WB編碼幀作為輸出編碼幀,如果穩(wěn)定濁音檢測的檢測結(jié)果不 是穩(wěn)定濁音則以所述的FR的編碼類型為輸入話音信號幀生成VMR1B編碼幀作為輸出編 碼幀。
4. 一種確定輸出VMR-!TO編碼幀編碼類型的方法,其特征在于以清音冊或清音QR的編碼類型對輸入話音信號幀進行編碼并將按編碼所確定的激 勵信號通過按編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該清音 HR或清音QR的編碼類型編碼的合成數(shù)字話音幀進行話音激活檢測VAD,如果VAD的結(jié) 果是無話音則以CNG-ER編碼類型編碼輸入話音信號幀并生成VMR-WB編碼幀為輸出編碼 幀;如果VAD的結(jié)果是有話音則以FR的編碼類型對輸入話音信號幀進行編碼并將按編 碼所確定的激勵信號通過按編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音 幀,根據(jù)該FR的編碼類型的合成數(shù)字話音幀進行穩(wěn)定濁音檢測,如果穩(wěn)定濁音檢測的 檢測結(jié)果不是穩(wěn)定濁音則以所述的FR編碼類型為輸入話音信號幀生成VMR-WB編碼幀作 為輸出編碼幀;如果穩(wěn)定濁音檢測的檢測結(jié)果是穩(wěn)定濁音就以濁音服的編碼類型對輸 入話音信號幀進行編碼并將按編碼所確定的激勵信號通過按編碼所確定的線性預(yù)測LP 合成濾波器生成合成數(shù)字話音幀,根據(jù)該濁音服的編碼類型的合成數(shù)字話音幀進行清 濁音檢測,如果清濁音檢測的檢測結(jié)果是清音則以所述的清音HR或清音QR的編碼類型 為輸入話音信號幀生成VMR-TO編碼幀作為輸出編碼幀;如果清濁音檢測的檢測結(jié)果是 濁音,則以所述的濁音HR編碼類型為輸入話音信號幀生成VMR-WB編碼幀作為輸出編碼 幀。
5. —種確定輸出VMR-WB編碼幀編碼類型的方法,其特征在于以濁音HR的編碼類型對輸入話音信號幀進行編碼并將按編碼所確定的激勵信號通 過按編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該濁音HR的編碼 類型的合成數(shù)字話音幀進行清濁音檢測,如果清濁音檢測的檢測結(jié)果是清音就以清音 HR或清音QR的編碼類型對輸入話音信號幀進行編碼并將按編碼所確定的激勵信號通過 按編碼所確定的線性預(yù)測LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該清音HR或清音 QR的編碼類型編碼的合成數(shù)字話音幀進行話音激活檢測VAD;如果清濁音檢測的檢測結(jié) 果是濁音就以FR的編碼類型對輸入話音信號幀進行編碼并將按編碼所確定的激勵信號 通過按編碼所確定的線性預(yù)S8 LP合成濾波器生成合成數(shù)字話音幀,根據(jù)該FR的編碼類 型的合成數(shù)字話音幀進行穩(wěn)定濁音檢渕;如果VAD結(jié)果是無話音則以CNG-ER編碼類型 編碼輸入話音信號幀并以生成的VMR-冊編碼幀為輸出編碼幀;如果VAD的檢測結(jié)果是 有話音則以清音冊或清音QR的編碼類型為輸入話音信號楨生成VMR-冊編碼幀作為輸 出編碼幀;如果穩(wěn)定濁音檢溯的檢測結(jié)果不是穩(wěn)定濁音則以所述的FR編碼類型為輸入 話音信號幀生成VMR-冊編碼幀作為輸出編碼幀,如果穩(wěn)定濁音檢渕的檢淵結(jié)果是穩(wěn)定 濁音就以所述的則以所述的濁音服編碼類型為輸入話音信號幀生成VMR-冊編碼幀作為 輸出編碼幀。
6. 根據(jù)權(quán)利要求1至5中任一項的方法,其特征在于,將輸出編碼幀的編碼類型的激勵信號作為所述輸入話音信號楨的激勵信號,將輸出 編碼幀的編碼類型的四個子幀的量化預(yù)測誤差作為所述輸入話音信號幀的四個子幀的 量化預(yù)測誤差,即若輸出編碼幀的編碼類型是FR、普通半速率Generic服或濁音冊,所述輸出編 碼幀的編碼類型的激勵信號是自適應(yīng)碼書信號和固定碼書信號乘以各自的量化增益后 相加的和,輸出編碼幀的編碼類型的子幀的量化預(yù)渕誤差是20乘輸出編碼幀給出的量 化修正因子的對數(shù);若輸出編碼幀的編碼類型是清音冊或清音QR,所述輸出編碼幀的 編碼類型的激勵信號是固定碼書信號乘以量化的固定碼書增益,輸出編碼幀的編碼類型 的子幀的量化預(yù)測誤差是輸出編碼幀給出的量化固定碼書增益的對數(shù)值與預(yù)測增益的 差;若輸出編碼楨的編碼類型是CNG~QR或CNG-ER,所述輸出編碼幀的編碼類型的激勵 信號是復(fù)位成的初始值,將輸出編碼幀的相鄰的前一輸出編碼幀的子楨的量化預(yù)搠誤差 作為輸出編碼幀的編碼類型的子幀的量化預(yù)溯誤差。
7. —種確定輸出VMR-冊編碼幀編碼類型的方法,其特征在于按FR對聲音數(shù)字采樣楨或?qū)ζ漤溙幚砗蟮臄?shù)字信號幀進行線性預(yù)測、自適應(yīng)碼書搜 索和更新碼書搜索得到激勵信號,并將由線性預(yù)溯所確定的線性預(yù)淵合成濾波器對該激 勵信號進行濾波得到合成聲音數(shù)字信號楨,根據(jù)該合成聲音數(shù)字信號楨進行話音激活檢 溯VAD,當VAD結(jié)果是有話音時根據(jù)該合成聲音數(shù)字信號幀進行清濁音檢獮,當清濁音檢 測結(jié)果是濁音時根據(jù)該合成聲音數(shù)字信號幀進行穩(wěn)定濁音檢測,當VAD結(jié)果是無話音時 按CNG-ER編碼類型編碼并生成VMR-冊編碼幀,當清濁音檢測結(jié)果是清音時按清音HR或 清音QR速率編碼并生成VMR-冊編碼幀,當穩(wěn)定濁音檢測結(jié)果是穩(wěn)定濁音時按濁音HR編 碼并生成VMR-冊編碼楨,當穩(wěn)定濁音檢測結(jié)果是不穩(wěn)定濁音時按FR編碼并生成VMR-冊 編碼幀。
8. —種確定AMR-冊互操作模式的輸出VMR-冊編碼幀編碼類型的方法,其特征在于 按FR對聲音數(shù)字采樣幀或?qū)ζ漕A(yù)處理后的數(shù)字信號幀進行線性預(yù)測、自適應(yīng)碼書搜 索和更新innovative碼書搜索得到激勵信號,并將由線性預(yù)測所確定的線性預(yù)測合成濾 波器對該激勵信號進行濾波得到合成聲音數(shù)字信號幀,根據(jù)該合成聲音數(shù)字信號幀進行 話音激活檢測VAD,當VAD結(jié)果是有話音時根據(jù)該合成聲音數(shù)字信號幀進行清濁音檢測, 當VAD結(jié)果是無話音時按CNG-ER或CNG-QR編碼并生成VMR-WB編碼幀,當清濁音檢測結(jié) 果是清音時按清音HR速率編碼VMR-WB編碼幀,當清濁音檢測結(jié)果是濁音時按FR編碼并 生成VMR-WB編碼幀。
9. 一種確定AMR-WB互操作模式的輸出VMR-WB編碼幀編碼類型的方法,其特征在于按FR對聲音數(shù)字采樣幀或?qū)ζ漕A(yù)處理后的數(shù)字信號幀進行線性預(yù)測、自適應(yīng)碼書搜 索和更新碼書搜索得到激勵信號,并將由線性預(yù)測所確定的線性預(yù)測合成濾波器對該激 勵信號進行濾波得到合成聲音數(shù)字信號幀,根據(jù)該合成聲音數(shù)字信號幀進行話音激活檢 測VAD,當VAD結(jié)果是無話音時按CNG-ER或CNG-QR編碼并生成VMR-WB編碼幀,當VAD 結(jié)果是有話音時按FR速率編碼并生成VMR-WB編碼幀。
10. 根據(jù)權(quán)利要求1至9中任一項的方法,其特征在于若所述話音激活檢測所根據(jù)的所述合成數(shù)字聲音信號幀中的波形中的波峰的上升沿 的幅度超過閾值,就將所述話音激活檢測的結(jié)果設(shè)定為有話音。
11. 根據(jù)權(quán)利要求1至9中任一項的方法,其特征在于若所述話音激活檢測所根據(jù)的所述合成數(shù)字聲音信號幀中的波形的波峰的上升沿和 下降沿的幅度分別超過為它們分別設(shè)定的閾值,就將所述話音激活檢測的結(jié)果設(shè)定為有 話音。
12. 根據(jù)權(quán)利要求10的方法,其特征在于根據(jù)所述話音激活檢測所根據(jù)的所述合成數(shù)字聲音信號幀確定所述的閾值。
13. 根據(jù)權(quán)利要求11的方法,其特征在于根據(jù)所述話音激活檢測所根據(jù)的所述合成數(shù)字聲音信號幀確定所述的分別設(shè)定的閾值。
14. 根據(jù)權(quán)利要求1至7中任一項的方法,其特征在于設(shè)定窗口的大小及短時平均能量閾值和超越閾值的計數(shù)閾值,當所述清濁音檢測所 根據(jù)的所述合成數(shù)字聲音信號幀中該窗口的短時平均能量超過該短時平均能量閾值的次 數(shù)超過計數(shù)閾值,將該幀的清濁音檢測結(jié)果定為濁音幀。
15. 根據(jù)權(quán)利要求1至7中任一項的方法,其特征在于 設(shè)定窗口的大小及短時平均幅度閾值和超越閾值的計數(shù)閾值,當所述清濁音檢測所 根據(jù)的所述合成數(shù)字聲音信號幀中該窗口的短時平均幅度超過該短時平均幅度閾值的次 數(shù)超過計數(shù)閾值,將該幀的清濁音檢測結(jié)果定為濁音幀。
16.根據(jù)權(quán)利要求1至7中任一項的方法,其特征在于設(shè)定窗口的大小,當所述穩(wěn)定濁音檢測所根據(jù)的所述合成數(shù)字聲音信號幀中該窗口 的最大短時平均幅度超過該幀之前若干個合成數(shù)字聲音信號幀中的最大的該窗口的短時 平均幅度,將該幀的穩(wěn)定濁音檢測結(jié)果定為不穩(wěn)定濁音幀。
全文摘要
本發(fā)明提出一種采用新的變速率寬帶編碼器和編碼方法,在本方法中變速率寬帶編碼器在確定輸出編碼速率之前按對個編碼速率進行數(shù)字話音信號的合成,然后根據(jù)對合成數(shù)字話音信號的話音激活和清濁音檢測的結(jié)果確定輸出編碼速率,從而使譯碼器合成的聲音信號能準確地反映原始聲音的聽覺效果。本發(fā)明可直接應(yīng)用于第三代移動通信系統(tǒng)的話音編碼技術(shù)中。
文檔編號H04L1/00GK101359978SQ200710153938
公開日2009年2月4日 申請日期2007年9月14日 優(yōu)先權(quán)日2007年7月30日
發(fā)明者為 向 申請人:為 向