語音編碼裝置和語音編碼方法

文檔序號：2829990閱讀：213來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音編碼裝置和語音編碼方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音編碼裝置和語音編碼方法，特別涉及由立體聲的語音輸入信號生成單聲道信號并進行編碼的語音編碼裝置和語音編碼方法。

背景技術(shù)：
隨著在移動通信和IP通信中的傳輸頻帶的寬帶化以及服務(wù)的多樣化，在語音通信中，對高音質(zhì)化和更強的現(xiàn)場感的需求日益增高。例如，今后可以預(yù)料對下述的服務(wù)的需求會增多，即，電視電話服務(wù)中的免提(Handsfree)形式的通話、在電視會議中的語音通信、例如在多個地點多個說話者同時進行會話等的多地點語音通信、在保持現(xiàn)場感的同時能夠傳輸周圍的聲音環(huán)境的語音通信等的服務(wù)。那時，人們期待例如比單聲道信號現(xiàn)場感更強并能夠識別多個說話者的說話位置的使用立體聲語音的語音通信的實現(xiàn)。為了實現(xiàn)這樣的使用立體聲語音的語音通信，必須進行對立體聲語音的編碼。
另外，在IP網(wǎng)絡(luò)上的語音數(shù)據(jù)通信中，為了實現(xiàn)網(wǎng)絡(luò)上的業(yè)務(wù)控制和組播通信，具有可擴展結(jié)構(gòu)的語音編碼備受期望?？蓴U展結(jié)構(gòu)是指在接收端只從一部分編碼數(shù)據(jù)也可解碼語音數(shù)據(jù)的結(jié)構(gòu)。
因此，在對立體聲語音進行編碼并傳輸時，也期望具有在單聲道/立體聲之間可擴展結(jié)構(gòu)(單聲道/立體聲可擴展結(jié)構(gòu))的編碼，其可以在接收端選擇立體聲信號的解碼或單聲道信號的解碼。
在這樣的具有單聲道/立體聲可擴展結(jié)構(gòu)的語音編碼中，由立體聲的輸入信號生成單聲道信號。作為單聲道信號的生成方法，例如有對立體聲信號的各個聲道的信號簡單地進行平均，從而獲得單聲道信號的方法(參照非專利文獻1)。 ISO/IEC 14496-3，”Information Technology-Coding ofaudio-visual objects-Part 3Audio”，subpart-4，4.B.14 Scalable AAC with corecoder，pp.304-305，Sep.2000.

發(fā)明內(nèi)容
發(fā)明需要解決的問題然而，在僅通過對立體聲信號的各個聲道的信號直接進行平均而生成單聲道信號時，尤其是在語音方面，有時變成強弱不明顯且難以收聽的單聲道信號。
本發(fā)明的目的為提供語音編碼裝置和語音編碼方法，該裝置和方法在由立體聲信號生成單聲道信號時，能夠生成富有清晰性和可理解性且強弱明顯的適當(dāng)?shù)膯温暤佬盘枴?br> 解決該問題的方案本發(fā)明的語音編碼裝置所采用的結(jié)構(gòu)包括加權(quán)單元，通過對應(yīng)于立體聲信號的各個聲道的信號的語音信息量的加權(quán)系數(shù)，對所述各個聲道的信號進行加權(quán)；生成單元，對加權(quán)后的所述各個聲道的信號進行平均，生成單聲道信號；編碼單元，對所述單聲道信號進行編碼。
發(fā)明的有益效果根據(jù)本發(fā)明，在由立體聲信號生成單聲道信號時，能夠生成富有清晰性和可理解性且強弱明顯的適當(dāng)?shù)膯温暤佬盘枴?br>

圖1是表示本發(fā)明實施方式1的語音編碼裝置的結(jié)構(gòu)的方框圖。
圖2是表示本發(fā)明實施方式1的加權(quán)單元的結(jié)構(gòu)的方框圖。
圖3是本發(fā)明實施方式1的L聲道信號的波形例。
圖4是本發(fā)明實施方式1的R聲道信號的波形例。

具體實施例方式 下面，參照附圖詳細說明本發(fā)明的實施方式。
(實施方式1) 圖1表示本實施方式的語音編碼裝置的結(jié)構(gòu)。圖1所示的語音編碼裝置10包括加權(quán)單元11、單聲道信號生成單元12、單聲道信號編碼單元13、單聲道信號解碼單元14、差分信號生成單元15和立體聲信號編碼單元16。
立體聲語音信號的L聲道(左聲道)信號XL和R聲道(右聲道)信號XR，被輸入至加權(quán)單元11和差分信號生成單元15。
加權(quán)單元11對L聲道信號XL和R聲道信號XR分別進行加權(quán)。至于加權(quán)的具體方法將后述。加權(quán)后的L聲道信號XLW和R聲道信號XRW被輸入至單聲道信號生成單元12。
單聲道信號生成單元12通過對L聲道信號XLW和R聲道信號XRW進行平均，生成單聲道信號XMW。該單聲道信號XMW被輸入至單聲道信號編碼單元13。
單聲道信號編碼單元13對單聲道信號XMW進行編碼，并輸出單聲道信號XMW的編碼參數(shù)(單聲道信號編碼參數(shù))。將該單聲道信號編碼參數(shù)與從立體聲信號編碼單元16輸出的立體聲信號編碼參數(shù)進行復(fù)用后，被傳輸至語音解碼裝置。另外，單聲道信號編碼參數(shù)被輸入至單聲道信號解碼單元14。
單聲道信號解碼單元14通過對單聲道信號編碼參數(shù)進行解碼，獲得單聲道信號。該單聲道信號被輸入至差分信號生成單元15。
差分信號生成單元15生成L聲道信號XL和單聲道信號之間的差分信號ΔXL及R聲道信號XR和單聲道信號之間的差分信號ΔXR。這些差分信號ΔXL和ΔXR被輸入至立體聲信號編碼單元16。
立體聲信號編碼單元16對L聲道的差分信號ΔXL和R聲道的差分聲道ΔXR進行編碼，并輸出這些差分信號的編碼參數(shù)(立體聲信號編碼參數(shù))。
接著，使用圖2詳細說明加權(quán)單元11。如該圖所示，加權(quán)單元11包括指標(biāo)計算單元111、加權(quán)系數(shù)計算單元112和乘法單元113。
立體聲語音信號的L聲道信號XL和R聲道信號XR被輸入至指標(biāo)計算單元111和乘法單元113。
指標(biāo)計算單元111將表示各個聲道的信號XL和XR的語音信息量比例的指標(biāo)IL和IR，對每一定區(qū)間(例如，以各個幀、多個幀為單位等)進行計算。將L聲道信號的指標(biāo)IL和R聲道信號的指標(biāo)IR設(shè)為表示在時間上相同的區(qū)間的數(shù)值。這些指標(biāo)IL和IR被輸入至加權(quán)系數(shù)計算單元112。另外，關(guān)于指標(biāo)IL和IR的具體內(nèi)容，將在后述的實施方式中進行說明。
加權(quán)系數(shù)計算單元112基于指標(biāo)IL和IR，計算對于立體聲信號的各個聲道的信號的加權(quán)系數(shù)。加權(quán)系數(shù)計算單元112基于式(1)和(2)，計算對于L聲道信號XL的每一定區(qū)間的加權(quán)系數(shù)WL和對于R聲道信號XR的每一定區(qū)間的加權(quán)系數(shù)WR。另外，這里所述的一定區(qū)間與在指標(biāo)計算單元111計算了指標(biāo)IL和IR時的一定區(qū)間相同。這些加權(quán)系數(shù)WL和WR被輸入至乘法單元113。
...式(1) ...式(2) 乘法單元113將立體聲信號的各個聲道的信號的振幅乘以加權(quán)系數(shù)。由此，立體聲信號的各個聲道的信號通過對應(yīng)于各個聲道的信號的語音信息量的加權(quán)系數(shù)，被進行加權(quán)。具體而言，在將L聲道信號的一定區(qū)間內(nèi)的第i個樣本設(shè)為XL(i)以及將R聲道信號的第i個樣本設(shè)為XR(i)時，可以基于式(3)和(4)來求加權(quán)后的L聲道信號的第i個樣本XLW(i)和加權(quán)后的R聲道信號的第i個樣本XRW(i)。加權(quán)后的各個聲道的信號XLW和XRW被輸入至單聲道信號生成單元12。
XLW(i)＝WL·XL(i)...式(3) XRW(i)＝WR·XR(i)...式(4) 然后，圖1所示的單聲道信號生成單元12，計算加權(quán)后的L聲道信號XLW和加權(quán)后的R聲道信號XRW的平均值，并將該平均值作為單聲道信號XMW。單聲道信號生成單元12基于式(5)，生成單聲道信號的第i個樣本XMW(i)。
...式(5) 單聲道信號編碼單元13對單聲道信號XMW(i)進行編碼。單聲道信號解碼單元14通過對單聲道信號編碼參數(shù)進行解碼，獲得單聲道信號。
差分信號生成單元15在將L聲道信號的第i個樣本設(shè)為XL(i)、將R聲道信號的第i個樣本設(shè)為XR(i)以及將單聲道信號的第i個樣本設(shè)為XMW(i)時，基于式(6)和(7)，求L聲道信號的第i個樣本的差分信號ΔXL(i)和R聲道信號的第i個樣本的差分信號ΔXR(i)。
ΔXL(i)＝XL(i)-XMW(i) ...式(6) ΔXR(i)＝XR(i)-XMW(i) ...式(7) 然后，在立體聲信號編碼單元16，對于差分信號ΔXL(i)和ΔXR(i)分別進行編碼。至于差分信號的編碼方法，使用例如差分PCM編碼等適合于對語音差分信號進行編碼的方法。
這里，例如，在L聲道信號如圖3所示由語音信號所構(gòu)成，并且R聲道信號如圖4所示由無聲(只有DC分量)所構(gòu)成時，由語音信號所構(gòu)成的L聲道信號比起無聲(只有DC分量)所構(gòu)成的R聲道信號，向接收端的收聽者提供較多的信息。因此，如以往一樣，在只通過對各個聲道的信號直接進行平均而生成單聲道信號時，該單聲道信號成為使L聲道信號的振幅為二分之一的信號，由此可以推測該信號成為缺乏清晰性和可理解性的信號。
相對于此，在本實施方式中，由通過加權(quán)系數(shù)而進行加權(quán)的各個聲道的信號來生成單聲道信號，該加權(quán)系數(shù)為基于表示各個聲道的信號的語音信息量比例的指標(biāo)。可以推測，語音信息量越多，在接收端對單聲道信號進行解碼和再現(xiàn)時的單聲道信號的清晰性和可理解性越高。因此，通過如本實施方式生成單聲道信號，能夠生成富有清晰性和可理解性且強弱明顯的適當(dāng)?shù)膯温暤佬盘枴?br> 另外，在本實施方式中，基于如此生成的單聲道信號，進行具有單聲道/立體聲可擴展結(jié)構(gòu)的編碼，由此使得語音信息量的比例較大的聲道的信號和單聲道信號之間的差分信號的功率，比起在將各個聲道的信號的平均值作為單聲道信號時的功率較小(即，使得語音信息量的比例較大的聲道的信號和單聲道信號之間的相似程度較高)。其結(jié)果，能夠降低對于該聲道的信號的編碼失真。語音信息量的比例較小的另一個聲道的信號和單聲道信號之間的差分信號的功率，雖然比起在將各個聲道的信號的平均值作為單聲道信號時的功率較大，但是在聲道與聲道之間，能夠使各個聲道的編碼失真不均等，所以能夠使語音信息量較多的聲道的信號的編碼失真更小。因此，能夠使在接收端被解碼的整個立體聲信號的聽覺上的失真感較小。
(實施方式2) 在本實施方式中，對將各個聲道的信號的熵作為表示語音信息量比例的指標(biāo)來使用的情況，進行說明。在這個情況，指標(biāo)計算單元111通過如下方式計算熵。加權(quán)系數(shù)計算單元112通過如下方式計算加權(quán)系數(shù)。另外，被進行編碼的立體聲信號，實際上是被樣本化的離散值，但是即使將它作為連續(xù)值來處理也具有同樣性質(zhì)，所以在以下的說明中，將該信號作為連續(xù)值來進行說明。
具有概率密度函數(shù)p(x)的連續(xù)樣本值x的熵被以式(8)來定義。
(比特/樣本值)...式(8) 指標(biāo)計算單元111基于式(8)對各個聲道的信號計算熵H(X)。語音信號通常能夠以式(9)所示的指數(shù)分布(拉普拉斯分布)來進行近似，這里，利用此計算熵H(X)。另外，α被以后述的式(12)來定義。
...式(9) 通過使用式(9)，能夠以式(10)來計算出式(8)所示的熵H(X)。也就是說，可由式(10)求出的熵H(X)表示為了表現(xiàn)一個樣本值時所需要的比特數(shù)，因此，能夠作為表示語音信息量比例的指標(biāo)來使用。另外，在式(10)中，如式(11)所示，將語音信號的振幅的絕對值的平均值視為0。
H(X)＝1-log2α (比特/樣本值)...式(10) ...式(11) 另外，在指數(shù)分布的情況，在將語音信號的標(biāo)準(zhǔn)偏差設(shè)為σx時，α被以式(12)來表示。
...式(12) 如上述，語音信號的振幅的絕對值的平均值被視為0，因此，標(biāo)準(zhǔn)偏差可使用語音信號的功率P來表示為如式(13)所示。
...式(13) 在使用式(12)和式(13)時，式(10)變成如式(14)。
...式(14) 因此，L聲道信號的每一定區(qū)間的熵HL，在將L聲道信號的功率設(shè)為PL時，可以基于式(15)來求。
(比特/樣本值)...式(15) 相同地，R聲道信號的每一定區(qū)間的熵HR，在將R聲道信號的功率設(shè)為PR時，可以基于式(16)來求。
(比特/樣本值)...式(16) 如此，由指標(biāo)計算單元111求各個聲道的信號的熵HL和HR，而這些熵被輸入至加權(quán)系數(shù)計算單元112。
另外，在上述說明中，將語音信號的分布假設(shè)為指數(shù)分布來求熵，但也可以基于實際的信號的樣本xi和由該信號的發(fā)生頻率計算出的發(fā)生概率p(xi)，計算各個聲道的信號的熵HL和HR。
然后，在加權(quán)系數(shù)計算單元112，將熵HL和HR作為在實施方式1所示的指標(biāo)IL和IR來使用，并基于式(17)和(18)計算加權(quán)系數(shù)WL和WR。這些加權(quán)系數(shù)WL和WR被輸入至乘法單元113。
...式(17) ...式(18) 如此，在本實施方式中，通過將熵作為表示語音信息量(比特數(shù))的指標(biāo)來使用，并對各個聲道的信號進行基于熵的加權(quán)，能夠生成語音信息量較多的聲道的信號被強調(diào)、且強弱明顯的單聲道信號。
(實施方式3) 在本實施方式中，對將各個聲道的信號的S/N比作為表示語音信息量比例的指標(biāo)來使用的情況進行說明。在這個情況，指標(biāo)計算單元111通過如下方式計算S/N比，而加權(quán)系數(shù)計算單元112則通過如下方式計算加權(quán)系數(shù)。
在本實施方式中使用的S/N比，是輸入信號中作為主要的信號S和除此之外的信號N的比例。例如，在輸入信號為語音信號時，是主要的語音信號S和周圍的背景噪聲信號N的比例。具體而言，將基于式(19)求出的輸入語音信號的平均功率(對輸入語音信號的以幀為單位的功率進行時間平均而求的功率)PS和在非語音區(qū)間(只有噪聲的區(qū)間)的噪聲信號的平均功率(對非語音區(qū)間的以幀為單位的功率進行時間平均而求出的功率)PE的比例，逐次計算并更新，而將其作為S/N比。另外，對收聽者而言，語音信號S通常是比噪聲信號N更需要的信息的情況較多，所以通過將S/N比作為指標(biāo)來使用，能夠生成收聽者所需要的信息被強調(diào)的單聲道信號。因此，在本實施方式中，將S/N比作為表示語音信息量比例的指標(biāo)來使用。
...式(19) 基于式(19)，L聲道信號的S/N比(S/N)L使用L聲道信號的語音信號的平均功率(PS)L和L聲道信號的噪聲信號的平均功率(PE)L，以式(20)來表示。
...式(20) 同樣地，R聲道信號的S/N比(S/N)R使用R聲道信號的語音信號的平均功率(PS)R和R聲道信號的噪聲信號的平均功率(PE)R，以式(21)來表示。
...式(21) 但是，在(S/N)L和(S/N)R為負(fù)時，將負(fù)的S/N比置換為預(yù)先規(guī)定的正的下限值。
如此，在指標(biāo)計算單元111，求各個聲道的信號的S/N比(S/N)L和(S/N)R，而這些S/N比被輸入至加權(quán)系數(shù)計算單元112。
然后，在加權(quán)系數(shù)計算單元112，將S/N比(S/N)L和(S/N)R作為在實施方式1所示的指標(biāo)IL和IR來使用，并基于式(22)和(23)計算加權(quán)系數(shù)WL和WR。這些加權(quán)系數(shù)WL和WR被輸入至乘法單元113。
...式(22) ...式(23) 另外，也可以使用以下方式來計算加權(quán)系數(shù)。即，也可以使用不紀(jì)錄log的S/N比來求加權(quán)系數(shù)，以代替使用式(20)和(21)所示的log區(qū)域的S/N比來求加權(quán)系數(shù)。此外，也可以預(yù)先準(zhǔn)備如S/N比越大加權(quán)系數(shù)越大的表示S/N比和加權(quán)系數(shù)的對應(yīng)關(guān)系的表，而基于S/N比參照該表來求加權(quán)系數(shù)，以代替使用式(22)和(23)來計算加權(quán)系數(shù)。
如此，在本實施方式中，通過將S/N比作為表示語音信息量的指標(biāo)來使用，并基于S/N比對各個聲道的信號進行加權(quán)，能夠生成語音信息量較多的聲道的信號被強調(diào)且強弱明顯的單聲道信號。
另外，作為表示語音信息量比例的指標(biāo)，還可使用語音波形的規(guī)則性(基于不規(guī)則性越大語音信息量越多)和頻譜包絡(luò)的時間性變化量(基于變化量越大語音信息量越多)等。
另外，將上述各個實施方式的語音編碼裝置，可裝載于移動通信系統(tǒng)中所使用的無線通信移動臺裝置和無線通信基站裝置等無線通信裝置。
另外，在上述實施方式，舉例說明了以硬件構(gòu)成本發(fā)明的情況，但本發(fā)明也可通過軟件來實現(xiàn)。
另外，用于上述實施方式的說明中的各功能塊，通常被作為集成電路的LSI來實現(xiàn)。這些塊既可以被單獨地集成為一個芯片，也可以一部分或全部被集成為一個芯片。
雖然此處稱為LSI，但根據(jù)集成程度，可以被稱為IC、系統(tǒng)LSI、超大LSI(Super LSI)或特大LSI(Ultra LSI)。
另外，實現(xiàn)集成電路化的方法不僅限于LSI，也可使用專用電路或通用處理器來實現(xiàn)。也可以使用在LSI制造后可編程的FPGA(Field ProgrammableGate Array)，或者可重構(gòu)LSI內(nèi)部的電路單元的連接和設(shè)定的可重構(gòu)處理器。
再者，隨著半導(dǎo)體的技術(shù)進步或隨之派生的其他技術(shù)的出現(xiàn)，如果能夠出現(xiàn)替代LSI集成電路化的新技術(shù)，當(dāng)然可利用新技術(shù)進行功能塊的集成化。還存在著適用生物技術(shù)等的可能性。
本說明書是基于2005年1月26日申請的日本專利申請第2005-018150號。其內(nèi)容全部包含于此。
工業(yè)實用性本發(fā)明可以適用于移動通信系統(tǒng)和采用因特網(wǎng)協(xié)議的分組通信系統(tǒng)等中的通信裝置。
權(quán)利要求
1.一種語音編碼裝置，包括
加權(quán)單元，通過基于立體聲信號的各個聲道的信號的語音信息量的加權(quán)系數(shù)，對所述各個聲道的信號進行加權(quán)；
生成單元，對加權(quán)后的所述各個聲道的信號進行平均，生成單聲道信號；以及
編碼單元，對所述單聲道信號進行編碼。
2.如權(quán)利要求1所述的語音編碼裝置，其中，
所述加權(quán)單元將各個聲道的信號的熵作為所述語音信息量來使用，計算所述加權(quán)系數(shù)。
3.如權(quán)利要求1所述的語音編碼裝置，其中，
所述加權(quán)單元將各個聲道的信號的S/N比作為所述語音信息量來使用，計算所述加權(quán)系數(shù)。
4.一種無線通信移動臺裝置，包括如權(quán)利要求1所述的語音編碼裝置。
5.一種無線通信基站裝置，包括如權(quán)利要求1所述的語音編碼裝置。
6.一種語音編碼方法，包括
加權(quán)步驟，通過對應(yīng)于立體聲信號的各個聲道的信號的語音信息量的加權(quán)系數(shù)，對所述各個聲道的信號進行加權(quán)；
生成步驟，對加權(quán)后的所述各個聲道的信號進行平均，生成單聲道信號；以及
編碼步驟，對所述單聲道信號進行編碼。
全文摘要
在由立體聲信號生成單聲道信號時，能夠生成富有清晰性和可理解性且強弱明顯的適當(dāng)?shù)膯温暤佬盘柕恼Z音編碼裝置。在該裝置中，加權(quán)單元(11)對L聲道信號(XL)和R聲道信號(XR)分別進行加權(quán)，并將加權(quán)后的L聲道信號(XLW)和R聲道信號(XRW)輸入至單聲道信號生成單元(12)；單聲道信號生成單元(12)通過對L聲道信號(XLW)和R聲道信號(XRW)進行平均，生成單聲道信號(XMW)，并將其輸入至單聲道信號編碼單元(13)；單聲道信號編碼單元(13)對單聲道信號(XMW)進行編碼，并輸出單聲道信號(XMW)的編碼參數(shù)(單聲道信號編碼參數(shù))。
文檔編號G10L19/00GK101107505SQ20068000328
公開日2008年1月16日申請日期2006年1月25日優(yōu)先權(quán)日2005年1月26日
發(fā)明者后藤道代, 吉田幸司申請人:松下電器產(chǎn)業(yè)株式會社

完整全部詳細技術(shù)資料下載