專利名稱:聲音編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通過把表示輸入聲音信號短期預(yù)測系數(shù)的參數(shù)或短期預(yù)測殘差矢量量化或矩陣量化而編碼的聲音編碼方法。
背景技術(shù):
已知很多種利用音頻信號(包括聲音信號和音響信號)時域和頻域中的統(tǒng)計特性和人的聽覺特性,進行信號壓縮的編碼方法。作為這種編碼方法,大致可以分為時域編碼、頻域編碼、分析合成編碼等。
在作為聲音信號等的高效率編碼之例的多帶激勵(以下,稱為MBE)編碼、單帶激勵(以下,稱為SBE)編碼、諧波編碼、子帶編碼(以下,稱為SBC)、線性預(yù)測編碼(以下,稱為LPC)、或離散余弦變換(DCT)、改進型DCT(MDCT)、快速傅里葉變換(FFT)等中,在把頻譜幅度及其參數(shù)(LSP參數(shù)、α參數(shù)、K參數(shù)等)之類的各種信息數(shù)據(jù)量化時,過去大多是進行標(biāo)量量化。
在這種標(biāo)量量化的情況下,當(dāng)比特率降低到例如3~4kps左右時,如果進一步提高量化效率,則量化噪聲和量化失真將變大,難以實用化。因此,不把這些編碼時所接收的時間軸數(shù)據(jù)、頻率軸數(shù)據(jù)、濾波器系數(shù)的數(shù)據(jù)等分別量化,而是把多個數(shù)據(jù)匯集成矢量,或者,把連續(xù)多個幀的矢量匯集成矩陣,采用進行矢量量化和矩陣量化的方法。
例如,在碼激勵線性預(yù)測(CELP)編碼中,把LPC殘差作為直接的時間波形,進行矢量量化和矩陣量化。還有,在上述MBE編碼中的頻譜包絡(luò)等的量化時,也采用矢量量化和矩陣量化。
可是,當(dāng)進一步降低比特率時,為了把表示LPC殘差和頻譜包絡(luò)的參數(shù)量化,如不使用較多的比特就會引起質(zhì)量劣化。
本發(fā)明就是鑒于這樣的情況而提出的,目的在于提供一種以少量比特也能得到良好的量化特性的聲音編碼方法。
發(fā)明的公開與本發(fā)明有關(guān)的聲音編碼方法是把聲音信號的多個特性參數(shù)中的一個或多個參數(shù)的組合作為基準(zhǔn)參數(shù),與該基準(zhǔn)參數(shù)有關(guān),把表示短期預(yù)測值的參數(shù)分成兩個部分,設(shè)置這樣形成的第一和第二碼簿。而且,根據(jù)輸入的聲音信號產(chǎn)生短期預(yù)測值,與輸入聲音信號的基準(zhǔn)參數(shù)有關(guān),選擇第一和第二碼簿之一,參照所選定的碼簿、把短期預(yù)測值量化,借此,把輸入聲音信號編碼。
在這里,上述短期預(yù)測值為短期預(yù)測系數(shù)或短期預(yù)測誤差。還有,上述多個特性參數(shù)為聲音的音調(diào)值、音調(diào)強度、幀功率、有聲音和無聲音的判別標(biāo)志、以及信號頻譜的斜率。還有,上述量化為矢量量化或矩陣量化。另外,上述基準(zhǔn)參數(shù)為聲音信號的音調(diào)值,根據(jù)輸入聲音信號的音調(diào)值與給定音調(diào)值的大小關(guān)系來選擇第一和第二碼簿之一。
而且,在本發(fā)明中,參照所選定的第一碼簿或第二碼簿,對根據(jù)輸入聲音信號產(chǎn)生的短期預(yù)測值進行量化,借此,可以提高量化效率。
附圖的簡單說明
圖1為表示作為應(yīng)用與本發(fā)明有關(guān)的聲音編碼方法的裝置的具體例子的聲音信號編碼裝置的概略結(jié)構(gòu)框圖;圖2為表示出可用于圖1中的音調(diào)檢測電路上的振波器之一例的電路圖;圖3為用于說明矢量量化時所用碼簿的形成(練習(xí)用)方法的方框圖。
用來實施發(fā)明的最佳形態(tài)以下,說明與本發(fā)明有關(guān)的令人滿意的實施例。
圖1為采用與本發(fā)明有關(guān)的聲音編碼方法的聲音信號編碼裝置的概略結(jié)構(gòu)框圖。
在該聲音信號編碼裝置中,把供給輸入端11的聲音信號供給線性預(yù)測編碼(以下,稱為LPC)分析電路12、反濾波電路21和聽覺加權(quán)濾波運算電路23。
LPC分析電路12以約256個取樣長度作為1個塊、使輸入信號波形通過加重平均窗口,借助于自相關(guān)法求線性預(yù)測系數(shù),即所謂α參數(shù)。在作為數(shù)據(jù)輸出單位的1幀期間內(nèi),例如可以包括160個取樣。這時,例如,如果取樣頻率為8Khz,則1幀期間為20ms。
來自LPC分析電路12的α參數(shù)被供給α→LSP變換電路13,將其變換成線狀頻譜對(以下,稱為LSP)參數(shù)。即,例如把作為直接型濾波系數(shù)求出的10個α參數(shù),變換成5對LSP參數(shù)。這一變換例如采用牛頓-拉夫遜法進行。之所以變換成這種LSP參數(shù),是因為LSP參數(shù)的內(nèi)插特性優(yōu)于α參數(shù)。
來自α→LSP變換電路13的LSP參數(shù),通過LSP矢量量化器14進行矢量量化。這時,也可得出幀間差分后進行矢量量化?;蛘?,也可把多個幀匯集起來進行矩陣量化。這里的量化,假定以20ms為1幀,對每20ms算出的LSP參數(shù)進行矢量量化。在進行矢量量化或矩陣量化時,根據(jù)音調(diào)進行切換開關(guān)16的切換以利用后述的男聲用碼簿15M和女聲用碼簿15F。
把來自LSP矢量量化器14的量化輸出,即把LSP矢量量化的索引送到外部、把其它已量化的LSP矢量供給LSP→α變換電路17,通過LSP→α變換電路17變換成直接型濾波系數(shù),即α參數(shù)。根據(jù)來自該LSP→α變換電路17的輸出,算出碼激勵線性預(yù)測(CELP)編碼中聽覺加權(quán)合成濾波器31的濾波系數(shù)。
這里,為了進行碼激勵線性預(yù)測(CELP)編碼,使來自所謂動態(tài)碼簿(亦稱為音調(diào)碼簿、自適應(yīng)碼簿)32的輸出,通過系數(shù)乘法器33乘以增益g0后供給加法器34,還有,使來自所謂隨機碼簿(亦稱為噪聲碼簿、概率碼簿)35的輸出,通過系數(shù)乘法器36乘以g1后送到加法器34上,把來自加法器34的相加輸出作為激勵信號,供給聽覺加權(quán)合成濾波器31。
在動態(tài)碼簿32中,保存著過去的激勵信號。把在音調(diào)周期內(nèi)讀出的該激勵信號乘以各增益g0后所得之值,與對來自動態(tài)碼簿35的信號乘以各增益g1后所得之值,在加法器34中相加,通過該相加輸出、激勵聽覺加權(quán)合成濾波器31。還有,通過把來自加法器34的相加輸出反饋到動態(tài)碼簿32上,構(gòu)成一種IIR濾波器。如后面所述,隨機碼簿35的結(jié)構(gòu)為,利用切換開關(guān)35S、切換選擇到男聲用碼簿35M和女聲用碼簿35F之一上。還有,根據(jù)來自增益碼簿37的輸出,控制各系數(shù)乘法器33和36的增益,使之成為各增益g0和g1。把來自聽覺加權(quán)合成濾波器31的輸出作為相減信號,供給加法器38。把來自加法器38的輸出信號供給波形失真(歐幾里得距離)最小化電路39,根據(jù)來自該波形失真最小化電路39的輸出,控制加法器38的輸出即控制從各碼簿32、35、37進行的讀出,以便使加權(quán)波形失真最小化。
在反濾波電路21中,通過來自LPC分析電路12的α參數(shù)、對來自輸入端11的輸入聲音信號進行反濾波處理以后,將其供給音調(diào)檢測電路22,進行音調(diào)檢測。根據(jù)來自該音調(diào)檢測電路22的音調(diào)檢測結(jié)果,控制切換開關(guān)16和切換開關(guān)35S的切換,進行上述男聲用碼簿35M和女聲用碼簿35F的切換選擇。
還有,在聽覺加權(quán)濾波運算電路23中,利用來自LPC分析電路12的輸出,對來自輸入端11的輸入聲音信號算出聽覺加權(quán)濾波系數(shù),把已聽覺加權(quán)的信號供給加法器24。把來自零輸入響應(yīng)電路25的輸出作為相減信號,供給加法器24。該零輸入響應(yīng)電路25是利用加權(quán)合成濾波器合成并輸出前一幀的應(yīng)答的電路,通過從聽覺加權(quán)的信號中減掉零輸入響應(yīng)電路25的輸出,來抵消在聽覺加權(quán)合成濾波器31中剩余的前一幀的濾波響應(yīng),取出所需的信號作為解碼器新的輸入。把來自該加法器24的相加輸出供給加法器38,從該相加輸出中把來自聽覺加權(quán)合成濾波器31的輸出減掉。
在具有上述那種結(jié)構(gòu)的聲音信號編碼裝置中,假定,來自輸入端11的輸入信號為x(n),LPC系數(shù)即α參數(shù)為αi,預(yù)測殘差為res(n)。假定分析次數(shù)為P時,i滿足1≤i≤P。這里,借助于反濾波電路21、對輸入信號x(n)進行(1)式所示的反濾波,例如在0≤n≤N-1的范圍內(nèi),求預(yù)測殘差res(n)。H(z)=1+Σj=1pα1z-i---(1)]]>這里,N是與作為編碼單位的幀長相當(dāng)?shù)娜觽€數(shù),例如,N=160。
其次,在音調(diào)檢出電路22中,使從反濾波電路21接收的預(yù)測殘差res(n)通過低通濾波器(以下,稱為LPF)后得到resl(n)。通常,取樣時鐘頻率fs為8KHz時,采用截止頻率fc為1KHz左右的LPF。其次,根據(jù)(2)式算出resl(n)的自相關(guān)函數(shù)中Φresl(i)φresl(i)=Σn=0N-i-1resl(n)resl(n+1)---(2)]]>(Lmin≤i≤Lmax)這里,通常采用Lmin=20、Lmax=147左右。把跟蹤提供自相關(guān)函數(shù)Φresl(i)峰值的i、或通過適當(dāng)處理提供峰值的i而求出的音調(diào),作為當(dāng)前幀的音調(diào)。例如,把第k幀的音調(diào)、具體地講即把音調(diào)滯后設(shè)為p(k)。還有,用(3)式定義音調(diào)的可靠性或音調(diào)強度p1(k)P1(k)=Φresl(P(k))/Φresl(0) …(3)即,用Φresl(o)定義歸一化的自相關(guān)強度。
另外,在通常的碼激勵線性預(yù)測(CELP)編碼中,借助于(4)式,算出幀功率Ro(k)Ro(k)=1NΣi=0N-1x2(n)---(4)]]>這里,k表示幀序號。
利用這些音調(diào)滯后p(k)、音調(diào)強度p1(k)、幀功率Ro(k)之值,把{αi}的量化表或α參數(shù)變換成LSP(線狀頻譜對)以后,對所形成的量化表,在男聲用和女聲用之間進行切換。在圖1的例子中,是把對LSP進行矢量量化用的LSP矢量量化器14的量化表,在男聲用碼簿15M與女聲用碼簿15F之間切換。
例如,當(dāng)假定用來區(qū)別男聲與女聲的音調(diào)滯后p(k)的門限值為pth,用來判別音調(diào)可靠性的音調(diào)強度p1(k)和幀功率Ro(k)的門限值為p1th和Roth時,(1)當(dāng)p(k)≥pth、且p1(k)>p1th、且Ro(k)>Roth時,使用第一碼簿,例如,男聲用碼簿15M;(2)當(dāng)p(k)≤pth、且p1(k)>p1th、且Ro(k)>Roth時,使用第二碼簿,例如,女聲用碼簿15F;(3)在上述(1)、(2)以外的情況下,使用第三碼簿。
雖然可以準(zhǔn)備與上述男聲用碼簿15M和女聲用碼簿15F都不同的另一個碼簿作為第三碼簿,但是,例如也可以使用男聲用碼簿15M和女聲用碼簿15F中的任一者。
再者,作為上述各門限值的具體值,可以列舉例如,pth=45、p1th=0.7、Ro(k)=(滿刻度-40dB)。
或者,當(dāng)p1(k)>p1th、且Ro(k)>Roth時,即在有聲音的區(qū)間內(nèi),保存過去幾幀的音調(diào)可靠性高的各音調(diào)滯后p(k),求出這些n幀的p(k)的平均值,也可利用給定的門限值pth來判別該平均值,進行碼簿的切換。
或者,還可以把滿足上述條件的音調(diào)滯后p(k)供給圖2所示的濾波器,通過利用門限值pth來判別該濾波輸出,進行碼簿的切換。再者,當(dāng)未提供輸入數(shù)據(jù),即音調(diào)滯后p(k)時,圖2的濾波器保持這樣的狀態(tài)把在乘法器41中在輸入數(shù)據(jù)上乘以0.2后所得之值,與在延時電路42中把輸出數(shù)據(jù)延時1幀后在乘法器43中乘以0.8所得之值,在加法器44中相加后取出。
這樣的切換和組合以后,進而根據(jù)有聲音/無聲音的判斷,或者,根據(jù)音調(diào)強度p1(k)之值及幀功率Ro(k)之值,進行碼簿的切換即可。
這樣,從已穩(wěn)定的音調(diào)區(qū)間提取音調(diào)平均值,判斷是男聲還是女聲,進行男聲用碼簿和女聲用碼簿的切換。這是因為,在男聲和女聲中,元音共振峰的頻率分布不平衡,特別是通過在元音部分進行男聲和女聲的切換,可以減小用于量化的矢量存在的空間,即,可以減少矢量的分散,能夠進行良好的練習(xí),即,可以學(xué)到減小量化誤差。
還有,根據(jù)上述條件,也可以進行在碼激勵線性預(yù)測(CELP)編碼中的隨機碼簿的切換。在圖1例中,作為隨機碼簿35,根據(jù)上述條件,通過切換控制切換開關(guān)35s,來選擇男聲用碼簿35M和女聲用碼簿35F中的一個。
可是,在碼簿的學(xué)習(xí)中,最好在編碼和解碼時以同樣的基準(zhǔn),把練習(xí)數(shù)據(jù)分成兩個部分,對每部分練習(xí)數(shù)據(jù),例如借助于所謂LBG法進行最佳化。
即,在圖3中,把練習(xí)用的例如由幾部分聲音信號構(gòu)成的來自練習(xí)接收機51的信號,供給線狀頻譜對(LSP)運算電路52和音調(diào)判別電路53。LSP運算電路52相當(dāng)于例如圖1的線性預(yù)測編碼(LPC)分析電路12和α→LSP變換電路13;音調(diào)判別電路53相當(dāng)于圖1的反濾波電路21和音調(diào)檢測電路22。在音調(diào)判別電路53中,如上所述,分別借助于上述各門限值pth、P1th、Roth對音調(diào)滯后p(k)、音調(diào)強度p1(k)和幀功率Ro(k)進行鑒別,分成上述條件(1)、(2)、(3)等三種情況。具體地講,至少判別出條件(1)的男聲情況和條件(2)的女聲情況即可。或者,如上所述,也可在有聲音的區(qū)間內(nèi),保存過去n幀的音調(diào)可靠性高的各音調(diào)滯后p(k),求出這n幀的p(k)平均值,利用門限值pth來判別該平均值。還可利用門限值pth判別來自圖2中的濾波器的輸出。
來自LSP運算電路52的LSP數(shù)據(jù)被送給練習(xí)數(shù)據(jù)分配電路54,根據(jù)來自音調(diào)判別電路53的判別輸出,將其分成男聲用練習(xí)數(shù)據(jù)55和女聲用練習(xí)數(shù)據(jù)56兩個部分。把這些練習(xí)數(shù)據(jù)分別供給練習(xí)處理部57和58,借助于例如所謂LBG法進行練習(xí)處理,借此,產(chǎn)生圖1的男聲用碼簿15M和女聲用碼簿15F。這里,所謂LBG法是在“矢量量化器設(shè)計的一種算法”(“An Algorithm for Vector QuantizerDesign”,Linde,Y.,Buzo,A.and Gray,R.M.,IEEE Trans.Comm.,Com-28,pp.84-95,Jan.1980)中提出的碼簿練習(xí)法,是利用所謂練習(xí)系列,對概率密度函數(shù)未知的信息源,設(shè)計其局部最佳的矢量量化器的技術(shù)。
這樣產(chǎn)生的男聲用碼簿15M和女聲用碼簿15F,在由圖1中的LSP矢量量化器14進行的矢量量化時,可借助于切換開關(guān)16,經(jīng)切換選擇以后使用。根據(jù)由音調(diào)檢測電路22進行的上述那樣的判別結(jié)果,對切換開關(guān)16進行切換控制。
把來自LSP矢量量化器14的量化輸出的索引信息,即代表矢量的代碼,作為用來傳送的數(shù)據(jù)取出;把其它輸出矢量的已量化的LSP數(shù)據(jù),在LSP→α變換電路17中變換成α參數(shù),送給聽覺加權(quán)合成濾波器31。聽覺加權(quán)合成濾波器31的特性1/A(Z)用(5)式表示1A(z)=11+Σi=1pαiz-1×W(z)---(5)]]>在(5)中,W(Z)表示聽覺加權(quán)特性。
在這樣的碼激勵線性預(yù)測(CELP)編碼中,作為用來傳送的數(shù)據(jù),除了LSP矢量量化器14中的代表LSP的矢量索引信息以外,還可以舉出動態(tài)碼簿32和隨機碼簿35的各索引信息,增益碼簿37的索引信息,音調(diào)檢測電路22的音調(diào)信息等。這樣,因為音調(diào)值或者動態(tài)碼簿的索引本來就是通常CELP編碼中必須傳送的參數(shù),所以,不會使傳送信息量或傳送速率增大。但是,本來不傳送的參數(shù),例如,在男聲用碼簿/女聲用碼簿的切換中使用的音調(diào)強度,就必須用另一種方法傳送碼切換信息了。
在這里,上述男聲、女聲的判別沒有必要必須與講話人的性別一致,只要把練習(xí)數(shù)據(jù)分成兩個部分,采用同一基準(zhǔn)選擇碼簿即可。在本實施例中,稱為男聲用碼簿/女聲用碼簿,是為了便于說明。在本實施例中,利用音調(diào)值切換碼簿,這是利用在音調(diào)值與頻譜包絡(luò)形狀之間的相關(guān)性。
再者,本發(fā)明并不局限于上述實施例,例如,有關(guān)圖1的結(jié)構(gòu),雖然是把各部作為硬件描述的,但是,也可以利用所謂DSP(數(shù)字信號處理器)等,借助于軟件程序來實現(xiàn)。還可以把子帶矢量量化低頻一側(cè)的碼簿,多級矢量量化中的一部分碼簿,在男聲用和女聲用的多個碼簿之間切換。還可以把多個幀的數(shù)據(jù)匯集起來進行矩陣量化,來代替矢量量化。另外,應(yīng)用本發(fā)明的聲音編碼方法并不局限于利用碼激勵的線性預(yù)測編碼方法,還可以應(yīng)用在有聲音的部分中采用正弦波合成,根據(jù)噪聲信號合成無聲音部分的各種聲音編碼方法;作為用途,也并不局限于傳送和記錄再生,當(dāng)然可以應(yīng)用于音調(diào)變換和速度變換、基本聲音的合成、或者噪聲抑制等各種用途。
產(chǎn)業(yè)上利用的可能性從以上說明可知,在與本發(fā)明有關(guān)的聲音編碼方法中,把聲音信號多個特性參數(shù)中的一個或多個的組合作為基準(zhǔn)參數(shù),與該基準(zhǔn)參數(shù)有關(guān),設(shè)置把表示短期預(yù)測值的參數(shù)分成兩個部分而形成的第一和第二碼簿。而且,根據(jù)輸入聲音信號產(chǎn)生短期預(yù)測值,與輸入聲音信號的基準(zhǔn)參數(shù)有關(guān),選擇第一和第二碼簿之一,通過參照該選定的碼簿、把短期預(yù)測值量化,進行輸入聲音信號編碼。因此,可以提高量化效率,可以謀求不提高傳送比特率而改善質(zhì)量,或者,能夠在抑制質(zhì)量劣化的同時,進一步降低傳送比特率。
權(quán)利要求
1.一種聲音編碼方法,其特征在于,根據(jù)輸入聲音信號,產(chǎn)生短期預(yù)測值;把聲音信號的多個特性參數(shù)中的一個或多個的組合作為基準(zhǔn)參數(shù),與所述基準(zhǔn)參數(shù)有關(guān),設(shè)置把表示短期預(yù)測值的參數(shù)分成兩個部分而形成的第一和第二碼簿;與所述輸入聲音信號的所述基準(zhǔn)參數(shù)有關(guān),選擇所述第一和第二碼簿之一;通過參照所述選定的碼簿,使所述短期預(yù)測值量化,對所述輸入聲音信號進行編碼。
2.根據(jù)權(quán)利要求1所述的聲音編碼方法,其特征在于,所述短期預(yù)測值為短期預(yù)測系數(shù)。
3.根據(jù)權(quán)利要求1所述的聲音編碼方法,其特征在于,所述短期預(yù)測值為短期預(yù)測誤差。
4.根據(jù)權(quán)利要求1所述的聲音編碼方法,其特征在于,所述多個特性參數(shù)為聲音信號的音調(diào)值、音調(diào)強度、幀功率、有聲音和無聲音的判別標(biāo)志、以及信號頻譜的斜率。
5.根據(jù)權(quán)利要求1所述的聲音編碼方法,其特征在于,把所述短期預(yù)測值矢量量化,借此,對所述輸入聲音信號進行編碼。
6.根據(jù)權(quán)利要求1所述的聲音編碼方法,其特征在于,把所述短期預(yù)測值矩陣量化,借此,對所述輸入聲音信號進行編碼。
7.根據(jù)權(quán)利要求1所述的聲音編碼方法,其特征在于,所述基準(zhǔn)參數(shù)為聲音信號的音調(diào)值,根據(jù)所述輸入聲音信號的音調(diào)值與給定音調(diào)值的大小關(guān)系,選擇所述第一和第二碼簿之一。
全文摘要
在本發(fā)明中,例如,在進行碼激勵線性預(yù)測(CELP)編碼時,利用線性預(yù)測碼(LPC)分析電路12,從輸入聲音信號中取出α參數(shù);利用α→LSP變換電路13,把α參數(shù)變換成線狀頻譜對(LSP)參數(shù);利用LSP矢量量化器14,對這種線狀頻譜對(LSP)參數(shù)矢量進行矢量量化。這時,根據(jù)由音調(diào)檢測電路22檢測的音調(diào)值、控制切換開關(guān)16,選擇使用男聲用碼簿15M和女聲用碼簿15F中的某一者,因此,不增大傳送比特率、就能夠提高量化特性。
文檔編號H03M7/30GK1141684SQ9519173
公開日1997年1月29日 申請日期1995年12月19日 優(yōu)先權(quán)日1994年12月21日
發(fā)明者西口正之 申請人:索尼公司