專利名稱:多聲道音頻擴展支持的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多聲道音頻編碼以及多聲道音頻編碼中的多聲道音頻擴展。更具體地,本發(fā)明涉及一種用于支持多聲道音頻編碼系統(tǒng)編碼端的多聲道音頻擴展的方法,一種用于支持多聲道音頻編碼系統(tǒng)解碼端的多聲道音頻擴展的方法,一種多聲道音頻編碼器和一種用于多聲道音頻編碼器地多聲道擴展編碼器,一種多聲道音頻解碼器和一種用于多聲道音頻解碼器的多聲道擴展解碼器,以及最后地,一種多聲道音頻編碼系統(tǒng)。
背景技術(shù):
從現(xiàn)有技術(shù)可了解到音頻編碼系統(tǒng)。它們尤其用于傳送或存儲音頻信號。
圖1表示用于音頻信號傳輸?shù)囊纛l編碼系統(tǒng)的基本結(jié)構(gòu)。音頻編碼系統(tǒng)包括發(fā)送端的編碼器10和接收端的解碼器11。將要傳送的音頻信號提供給編碼器10。編碼器負責將輸入的音頻數(shù)據(jù)速率調(diào)整到一個不會違反傳輸信道帶寬條件的比特率等級。理想地,在這個編碼過程中,編碼器10只丟棄音頻信號中不相關(guān)的信息。然后由音頻編碼系統(tǒng)的發(fā)送端傳送已編碼的音頻信號,并在音頻編碼系統(tǒng)的接收端進行接收。接收端的解碼器11執(zhí)行與編碼相反的過程,以獲得解碼的音頻信號,其具有很小或沒有人耳能察覺的退化。
可選地,圖1的音頻編碼系統(tǒng)可用于存檔音頻數(shù)據(jù)。在這種情況下,編碼器10提供的已編碼音頻數(shù)據(jù)存儲在某個存儲單元中,并且解碼器11對從這個存儲單元取回的音頻數(shù)據(jù)進行解碼。在這個可供選擇的方式中,目標在于編碼器獲得盡可能低的比特率,以節(jié)省存儲空間。
要處理的原始音頻信號可以是單音頻信號,或者是至少包含第一聲道信號和第二聲道信號的多聲道音頻信號。多聲道音頻信號的一個實例是由左聲道信號和右聲道信號組成的立體聲音頻信號。
根據(jù)所允許的比特率,可以將不同的編碼方案應用于立體聲音頻信號。例如,左、右聲道信號可以相互獨立地編碼。但是通常地,左、右聲道信號之間存在相關(guān)性,而且最高級編碼方案利用這種相關(guān)性,以獲得比特率的進一步降低。
低比特率立體聲擴展方法尤其適用于降低比特率。在立體聲擴展方法中,將立體聲音頻信號編碼為高比特率單聲道信號,其與為立體聲擴展保留的某種邊信息一起由編碼器提供。在解碼器中,則在利用邊信息的立體聲擴展中,從高比特率單聲道信號重建立體聲音頻信號。典型地,邊信息僅占總比特率的幾千比特每秒。
如果立體聲擴展方案的目標在于運行于低比特率,則在解碼過程中就不能獲得原始立體聲音頻信號的確切復制。為了由此所需的原始立體聲音頻信號的近似值,有效的編碼模型是必要的。
最常用的立體聲音頻編碼方案是中側(cè)(MS)立體聲和強度立體聲(IS)。
在MS立體聲中,將左、右聲道信號變換為和、差信號,例如J.D.Johnston和A.J.Ferreira在ICASSP-92 Conference Record,1992,pp.569-572發(fā)表的名為“Sum-difference stereo transform coding”的文章所述。為了獲得最大的編碼效率,以頻率和時間相關(guān)兩種方式進行這種變換。MS立體聲對高質(zhì)量、高比特率立體聲編碼尤其有用。
為了嘗試獲得較低的比特率,已經(jīng)將IS與這種MS編碼結(jié)合使用,其中IS構(gòu)成一種立體聲擴展方案。在IS編碼中,部分頻譜僅以單聲道模式編碼,并通過另外提供用于左、右聲道的不同比例因子,重建立體聲音頻信號,例如,在文件US 5,539,829和US 5,606,618中所述的。
已經(jīng)提出另外兩種具有非常低比特率的立體聲擴展方案,心理聲學編碼(BCC)和帶寬擴展(BWE)。在BCC中,用IS對整個頻譜進行編碼,參見F.Baumgarte和C.Faller在AES 112th Convention,May 10-13,2002,Preprint 5575發(fā)表的名為“Why Binaural Cue Codingis Better than Intensity Stereo Coding”的文章。在BWE編碼中,帶寬擴展用于將單聲道信號擴展為立體聲信號,參見2002年10月ISO/IECJTC1/SC29/WG11(MPEG-4)N5203(MPEG第62次會議文獻),名為“Text of ISO/IEC 14496-32001/FPDAM 1,Bandwidth Extension”的文章。
而且,文獻US 6,016,473提出一種低比特率空間編碼系統(tǒng),用于對代表聲場的多個音頻流進行編碼。在編碼器端,將音頻流分為多個子帶信號,代表各自的頻率子帶。然后,生成一個代表這些子帶信號組合的合成信號。另外,生成操縱控制信號,其指示在各子帶中聲場的主方向,例如,以加權(quán)矢量的形式。在解碼端,基于合成信號和相關(guān)聯(lián)的操縱控制信號,生成兩個聲道中的音頻流。
發(fā)明內(nèi)容
本發(fā)明的目的在于支持基于邊信息以有效的方式將單音頻信號擴展為多聲道音頻信號。
對于多聲道音頻編碼系統(tǒng)的編碼端,提出用于支持多聲道音頻擴展的第一方法。所提出的第一方法一方面包括,至少對多聲道音頻信號的較高頻率,生成并提供第一多聲道擴展信息,這個第一多聲道擴展信息允許基于可用于多聲道音頻信號的單音頻信號,至少重建多聲道音頻信號的較高頻率。所提出的第二方法另一方面包括,對多聲道音頻信號的較低頻率生成并提供第二多聲道擴展信息,這個第二多聲道擴展信息允許基于單音頻信號重建多聲道音頻信號的較低頻率,而且精確性高于第一多聲道擴展信息允許至少重建多聲道音頻信號的較高頻率。
另外,提出一種多聲道音頻編碼器以及一種用于多聲道音頻編碼器的擴展編碼器,其包括一種裝置,用于實現(xiàn)所提出的第一方法。
對于多聲道音頻編碼系統(tǒng)的解碼端,提出補充的第二方法,用于支持多聲道音頻擴展。所提出的第二方法一方面包括,基于所接收的用于多聲道音頻信號的單音頻信號和所接收的用于多聲道音頻信號的第一多聲道擴展信息,至少重建多聲道音頻信號的較高頻率。所提出的第二方法另一方面包括,基于所接收的單音頻信號和所接收的第二多聲道擴展信息,以高于較高頻率的精確性重建多聲道音頻信號的較低頻率。所提出的第二方法進一步包括將重建的較高頻率和重建的較低頻率合并為重建的多聲道音頻信號的步驟。
另外,提出一種多聲道音頻解碼器和一種用于多聲道音頻解碼器的擴展解碼器,其包括一種裝置,用于實現(xiàn)所提出的第二方法。
最后,提出一種多聲道音頻編碼系統(tǒng),其包括所提出的多聲道音頻編碼器以及所提出的多聲道音頻解碼器。
本發(fā)明首先考慮到,人類聽覺系統(tǒng)在低頻對立體聲感覺非常挑剔且靈敏。在中、高頻率,空間聽覺主要依賴于幅度等級差,所以,獲得相對低的比特率的立體聲擴展方法在中、高頻率運行最佳。這些方法不能以獲得優(yōu)良立體聲感覺所需要的精確性等級重建低頻。因此,提議以高于多聲道音頻信號較高頻率的效率對多聲道音頻信號的較低頻率進行編碼。通過提供用于整個多聲道音頻信號或用于多聲道音頻信號較高頻率的通用多聲道擴展信息,以及通過另外提供用于較低頻率的專用多聲道擴展信息實現(xiàn)這一目的,其中專用多聲道擴展信息比通用多聲道擴展信息產(chǎn)生更精確的重建。
本發(fā)明的優(yōu)點在于,其允許獲得優(yōu)良立體聲輸出所需要的很重要的低頻進行有效的編碼,同時避免整個頻譜所需比特的普遍增加。
本發(fā)明提供具有中等附加復雜性的已知解決方法的擴展。
依照所附權(quán)利要求書,可使本發(fā)明的優(yōu)選實施方式變得明顯。
多聲道音頻信號尤其可以是具有左聲道信號和右聲道信號的立體聲音頻信號。如果多聲道音頻信號包括多于兩個聲道,可將第一和第二多聲道擴展信息提供給各自的聲道對。
在優(yōu)選的實施方式中,第一和第二多聲道擴展信息都生成于頻域內(nèi),并在頻域內(nèi)執(zhí)行較高和較低頻率的重建以及重建的較高和較低頻率的合并。
可以用不同類型的變換獲得時域到頻域以及頻域到時域的所需變換,例如,使用變址離散余弦變換(MDCT)和逆MDCT(IMDCT),快速傅立葉變換(FFT)和快速傅立葉逆變換(IFFT)或者離散余弦變換(DCT)和離散余弦逆變換(IDCT)。例如,J.P.Princen和A.B.Bradley在IEEE Trans.Acoustics,Speech,and Signal Processing,1986,Vol.ASSP-34,No.5,Oct.1986,pp.1153-1161發(fā)表的名為“Analysis/synthesis filter bank design based on time domain aliasingcancellation”的文章中,以及S.Shlien在IEEE Trans.Speech,andAudio Processing,Vol.5,No.4,Jul.1997,pp.359-366發(fā)表的名為“Themodulated lapped transform,its time-varying forms,and its applicationsto audio coding standards”的文章中詳細描述了MDCT。
本發(fā)明可以使用多種編解碼,尤其是適用于高音頻質(zhì)量的自適應多速率寬帶擴展(AMR-WB+)。
本發(fā)明可以進一步實現(xiàn)于軟件中或使用專用硬件方法實現(xiàn)。由于所用的多聲道音頻擴展是編碼系統(tǒng)的一部分,最好以與整個編碼系統(tǒng)相同的方式實現(xiàn)。
本發(fā)明尤其可以用于存儲目的以及用于例如,去往和來自移動終端的傳輸。
通過結(jié)合附圖考慮的本發(fā)明的示例性實施方式的詳細描述,本發(fā)明的其它目的和特性將變得更加明顯。
圖1是表示音頻編碼系統(tǒng)通用結(jié)構(gòu)的框圖2是依照本發(fā)明的立體聲音頻編碼系統(tǒng)一個實施方式的高級框圖3是說明圖2立體聲音頻編碼系統(tǒng)的低頻效應立體聲編碼器的框圖;以及
圖4是說明圖2立體聲音頻編碼系統(tǒng)的低頻效應立體聲解碼器的框圖。
具體實施例方式
圖1已經(jīng)在上面進行了描述。
將參照圖2至4描述本發(fā)明的一個實施方式。
圖2表示依照本發(fā)明的立體聲音頻編碼系統(tǒng)一個實施方式的通用結(jié)構(gòu)。立體聲音頻編碼系統(tǒng)可以用于傳送由左聲道信號和右聲道信號組成的立體聲音頻信號。
圖2的立體聲音頻編碼系統(tǒng)包括立體聲編碼器20和立體聲解碼器21。立體聲編碼器20對立體聲音頻信號進行編碼,并將其傳送至立體聲解碼器21,而立體聲解碼器21接收已編碼的信號,對其進行解碼,并使其再次成為可用的立體聲音頻信號??蛇x地,還可由立體聲編碼器20提供已編碼的立體聲音頻信號,以存儲在存儲單元中,從其中可以由立體聲解碼器21再提取出已編碼的立體聲音頻信號。
立體聲編碼器20包括相加點202,其經(jīng)由縮放比例單元203與AMR-WB+單聲道編碼器組件204相連。AMR-WB+單聲道編碼器組件204進一步與AMR-WB+比特流復用器(MUX)205相連。另外,立體聲編碼器20包括立體聲擴展編碼器206和低頻效應立體聲編碼器207,它們同樣都與AMR-WB+比特流復用器205相連。而且,AMR-WB+單聲道編碼器組件204可與立體聲擴展編碼器206相連。立體聲編碼器20構(gòu)成依照本發(fā)明的多聲道音頻編碼器的一個實施方式,而立體聲擴展編碼器206和低頻效應立體聲編碼器207共同組成依照本發(fā)明的擴展編碼器的一個實施方式。
立體聲解碼器21包括AMR-WB+比特流解復用器(DEMUX)215,其與AMR-WB+單聲道解碼器組件214相連、與立體聲擴展解碼器216相連以及與低頻效應立體聲解碼器217相連。AMR-WB+單聲道解碼器組件214進一步與立體聲擴展解碼器216以及與低頻效應立體聲解碼器217相連。立體聲擴展解碼器216同樣與低頻效應立體聲解碼器217相連。立體聲解碼器21構(gòu)成依照本發(fā)明的多聲道音頻解碼器的一個實施方式,而立體聲擴展解碼器216和低頻效應立體聲解碼器217共同組成依照本發(fā)明的擴展解碼器的一個實施方式。
當要傳送立體聲音頻信號時,將立體聲音頻信號的左聲道信號L和右聲道信號R提供給立體聲編碼器20。假設(shè)左聲道信號L和右聲道信號R設(shè)置在幀中。
相加點202將左、右聲道信號L、R相加,并在縮放比例單元203中用0.5的因子進行縮放,以形成單音頻信號M。AMR-WB+單聲道編碼器組件204則負責以已知的方式對單音頻信號進行編碼,以獲得單聲道信號比特流。
提供給立體聲編碼器20的左、右聲道信號L、R進一步在立體聲擴展編碼器206中進行處理,以獲得包含用于立體聲擴展的邊信息的比特流。在所示的實施方式中,立體聲擴展編碼器206在頻域生成這種邊信息,其對于中、高頻率很有效,并且同時需要低的計算負荷,并產(chǎn)生低比特率。該邊信息構(gòu)成第一多聲道擴展信息。
立體聲擴展編碼器206首先通過MDCT方式將所接收的左、右聲道信號L、R變換到頻域,以獲得頻譜左、右聲道信號。然后,立體聲擴展編碼器206針對于多個相鄰頻帶中的每個確定在各個頻帶中是左聲道譜信號占優(yōu)、右聲道譜信號占優(yōu),還是這些信號都不占優(yōu)。最后,立體聲擴展編碼器206在邊信息比特流中,為每個頻帶提供相應的狀態(tài)信息。
另外,立體聲擴展編碼器206可在所提供的邊信息比特流中包括各種補充信息。例如,邊信息比特流可包括等級修正增益,其指示左或右聲道信號在每幀中或者甚至在每幀的每個頻帶中主導地位的擴展??烧{(diào)節(jié)的等級修正增益允許從單音頻信號M在頻帶內(nèi)很好地重建立體聲音頻信號。同樣,可包括用于量化這種等級修正增益的量化增益。此外,邊信息比特流可包括增強信息,其一方面在取樣的基礎(chǔ)上反映原始左、右聲道信號之間的差值,另一方面反映基于提供的邊信息重建的左、右聲道信號。為了可以在編碼器側(cè)進行這種重建,AMR-WB+單聲道編碼器組件204最好向立體聲擴展編碼器206提供單音頻信號
可以將用于增強信息以及增強信息質(zhì)量的比特率調(diào)整為分別可用的比特率??商峁┯糜趯Πㄔ谶呅畔⒈忍亓髦械娜魏涡畔⑦M行編碼的編碼方案的指示。
提供給立體聲編碼器20的左、右聲道信號L、R進一步在低頻效應立體聲編碼器207中進行處理,以另外獲得包含低頻數(shù)據(jù)的比特流,其中低頻數(shù)據(jù)可進行專用于立體聲音頻信號較低頻率的立體聲擴展,如在下面進一步詳細說明的。這個低頻數(shù)據(jù)構(gòu)成第二多聲道擴展信息。
由AMR-WB+單聲道編碼器組件204、立體聲擴展編碼器206和低頻效應立體聲編碼器207提供的比特流則由AMR-WB+比特流復用器205進行復用,以進行傳輸。
所傳送的復用比特流由立體聲解碼器21接收,再由AMR-WB+比特流解復用器215將其解復用為單聲道信號比特流、邊信息比特流和低頻數(shù)據(jù)比特流。將單聲道信號比特流轉(zhuǎn)發(fā)至AMR-WB+單聲道解碼器組件214,將邊信息比特流轉(zhuǎn)發(fā)至立體聲擴展解碼器216,并將低頻數(shù)據(jù)比特流轉(zhuǎn)發(fā)至低頻效應立體聲解碼器217。
由ARM-WB+單聲道解碼器組件214以已知的方式對單聲道信號比特流進行解碼。將所得的單音頻信號
提供給立體聲擴展解碼器216和低頻效應立體聲解碼器217。
立體聲擴展解碼器216對邊信息比特流進行解碼,并通過基于所得邊信息和包括在所接收邊信息比特流中的任何補充信息擴展所接收的單音頻信號
在頻域重建原始的左聲道信號和原始的右聲道信號。例如,在所示的實施方式中,如果狀態(tài)標志指示對于這個頻帶沒有主導信號,則通過在這個頻帶中使用單音頻信號
獲得特定頻帶中的頻譜左聲道信號
如果狀態(tài)標志指示對于這個頻帶主導信號是左聲道信號,則通過在這個頻帶中利用所接收的增益值乘以單音頻信號
獲得特定頻帶中的頻譜左聲道信號
以及,如果狀態(tài)標志指示對于這個頻帶主導信號是右聲道信號,則通過在這個頻帶中用所接收的增益值去除單音頻信號
獲得特定頻帶中的頻譜左聲道信號
以相應的方式獲得特定頻帶中的頻譜右聲道信號
如果邊信息比特流包括增強信息,則這個增強信息可以用于在取樣基礎(chǔ)上改善重建的頻譜聲道信號。
然后將重建的頻譜左、右聲道信號
提供給低頻效應立體聲解碼器217。
低頻效應立體聲解碼器217對包含用于低頻立體聲擴展的邊信息的低頻數(shù)據(jù)比特流進行解碼,并通過基于所得的邊信息擴展所接收的單音頻信號
重建原始低頻聲道信號。然后,低頻效應立體聲解碼器217將重建的低頻帶和立體聲擴展解碼器216提供的左聲道信號
和右聲道信號
的較高頻帶合并。
最后,低頻效應立體聲解碼器217將所得的頻譜左、右聲道信號轉(zhuǎn)換到時域,并作為立體聲音頻信號的重建的左、右聲道信號
由立體聲解碼器21輸出。
低頻效應立體聲編碼器207和低頻效應立體聲解碼器217的結(jié)構(gòu)和操作將在下面參照圖3和圖4進行描述。
圖3是低頻立體聲編碼器207的示意框圖。
低頻立體聲編碼器207包括第一MDCT部分30、第二MDCT部分31和核心低頻效應編碼器32。核心低頻效應編碼器32包括邊信號生成部分321,并且第一MDCT部分30和第二MDCT部分31的輸出與這個邊信號生成部分321相連。在核心低頻效應編碼器32中,邊信號生成部分321經(jīng)由量化循環(huán)部分322、選擇部分323和哈夫曼循環(huán)部分324與復用器MUX 325相連。邊信號生成部分321還經(jīng)由排序部分326與哈夫曼循環(huán)部分324相連。而且,量化循環(huán)部分322同樣直接與復用器325相連。低頻立體聲編碼器207進一步包括標志生成部分327,并且第一MDCT部分30和第二MDCT部分31的輸出同樣與這個標志生成部分327相連。在核心低頻效應編碼器32中,標志生成部分327與選擇部分323和哈夫曼循環(huán)部分324相連。復用器325的輸出經(jīng)由核心低頻效應編碼器32的輸出和低頻效應立體聲編碼器207的輸出與AMR-WB+比特流復用器205相連。
首先由第一MDCT部分30通過基于幀的MDCT方式,將低頻效應立體聲編碼器207接收的左聲道信號L變換到頻域,得到頻譜左聲道信號Lf。同時,第二MDCT部分31通過基于幀的MDCT方式,將所接收的右聲道信號R變換到頻域,得到頻譜右聲道信號Rf。然后,將所得的頻譜聲道信號提供給邊信號生成部分321。
基于所接收的頻譜左、右聲道信號Lf和Rf,邊信號生成部分321依照下列等式生成頻譜邊信號S
其中,i是識別各個頻譜取樣的索引,M和N是描述要量化的頻譜取樣的開始和結(jié)束索引的參數(shù)。在當前的實現(xiàn)方式中,分別將M和N設(shè)定為4和30。從而,邊信號S僅包括較低頻帶的N-M個取樣值。如果頻帶總數(shù)示例性地為27,頻帶中的取樣分布為{3,3,3,3,3,3,3,4,4,5,5,5,6,6,7,7,8,9,9,10,11,14,14,15,15,17,18},從而,將對第二至第十個頻帶中的取樣生成邊信號S。
一方面將生成的頻譜邊信號S饋入到排序部分326。
排序部分326依照下列等式計算邊信號S頻譜取樣的能量
ES(i)=S(i)·S(i),0≤i<N-M (2)
然后,排序部分326用函數(shù)SORT(ES)對所得到的能量數(shù)組按照計算的能量ES(i)降序排序。還將輔助變量用于排序操作,以確保核心低頻效應編碼器32知道所排列數(shù)組中的第一能量對應于哪個頻譜位置,所排列數(shù)組中的第二能量對應于哪個頻譜位置,等等。這個輔助變量并未被明確指示。
排序部分326將所排序的能量數(shù)組ES提供給哈夫曼循環(huán)部分324。
將邊信號生成部分321生成的頻譜邊信號S一方面饋入量化循環(huán)部分322。
量化循環(huán)部分322量化邊信號S,使得,量化取樣的最大絕對值位于某個閾值T以下。在所示的實施方式中,將閾值T設(shè)定為3。這個量化所需的量化器增益與用于在解碼器重建頻譜邊信號S的量化頻譜相關(guān)聯(lián)。
為了加速量化,初始量化器值gstart計算如下
在這個等式中,max是一個函數(shù),其返回所輸入數(shù)組中的最大值,也就是,這種情況下的頻譜邊信號S所有取樣中的最大值。
接下來,在循環(huán)中增加量化器值gstart,直至量化頻譜中所有值都位于閾值T以下。
在極其簡單的量化循環(huán)中,首先,依照下列等式量化頻譜邊信號S,以獲得量化的頻譜邊信號
現(xiàn)在,確定所得量化頻譜邊信號
的最大絕對值。如果這個最大絕對值小于閾值T,則當前量化器值gstart構(gòu)成最終的量化器增益qGain。否則,當前量化器值gstart增加1,并用新量化器值gstart重復依照等式(4)的量化,直至所得量化頻譜邊信號
的最大絕對值小于閾值T。
在所示實施方式使用的更加有效的量化循環(huán)中,首先以較大的步長改變量化器值gstart,以加速過程,如下列偽C代碼所示
Quantization Loop 2:
stepSize=A;
bigSteps=TRUE;
fineSteps=FALSE;
start:
Quantize S using Equation(4);
Find maximum absotute value of the
quantized specta
If(max absolute value of){
bigSteps=FALSE;
If(fineSteps==TRUE)
goto exit;
else
{
fineSteps=TRUE;
gstart=gstart-stepSize
}
} else{
If(bigSteps==TRUE)
gstart=gstart+stepSize
else
gstart=gstar+1
}
goto start:
exit;
從而,只要所得量化頻譜邊信號
的最大絕對值不小于閾值T,就將量化器值gstart增加步長量A。一旦所得量化頻譜邊信號
的最大絕對值小于閾值T,則將量化器值gstart再減少一個步長量A,然后將量化器值gstart增加1,直至所得量化頻譜邊信號
的最大絕對值再次小于閾值T。這個循環(huán)中最后的量化器值gstart則構(gòu)成最終量化器值gGain。在所示的實施方式中,將步長量A設(shè)定為8。此外,用6比特對最終的量化器增益qGain進行編碼,增益的范圍為22至85之間。如果量化器增益qGain小于允許的最小增益值,則將量化頻譜邊信號
的取樣設(shè)定為零。
在已經(jīng)將頻譜量化為閾值T以下之后,將量化頻譜邊信號
和所用的量化器增益qGain提供給選擇部分323。在選擇部分323中,修正量化的頻譜邊信號
使得,只考慮對立體聲圖像的生成具有重要貢獻的頻譜區(qū)域。將量化頻譜邊信號
中所有不在對立體聲圖像的生成具有重要貢獻的頻譜區(qū)域的取樣設(shè)定為零。依照下列等式進行這種修正
其中,
和
分別是相對于當前幀的前一幀和下一幀的量化頻譜取樣。假設(shè)位于0≤i<N-M范圍之外的頻譜取樣具有零值。經(jīng)由前向編碼獲得下一幀的量化取樣,其中下一幀的取樣總是量化為閾值T以下,不過,將隨后的哈夫曼編碼循環(huán)應用于那一幀之前的量化取樣。
如果頻譜左、右聲道信號的平均能量等級tLevel低于預先確定的閾值,則將量化的頻譜邊信號
的所有取樣設(shè)定為零
在標志生成部分327中生成tLevel值,并將其提供給選擇部分323。如下面將詳細描述的。
選擇部分323將修正的量化頻譜邊信號
和接收自量化循環(huán)部分322的量化器增益qGain一起提供給哈夫曼循環(huán)部分324。
同時,標志生成部分327為每幀生成空間強度標志,指示對于較低頻率,反量化的頻譜邊信號應該完全屬于左聲道還是屬于右聲道,或者是否平均地分布在左、右聲道上。
空間強度標志hPanning計算如下
其中,
還分別對當前幀的前一幀和后一幀的取樣計算空間強度。將這些空間強度考慮在內(nèi),用于計算當前幀的最終空間強度標志,如下
其中,hPanningn-1和hPanningn+1分別是前一幀和下一幀的空間強度標志。因此,保證了在各幀之間進行一致的判決。
所得空間強度標志hPanning為‘0’,則對于特定幀指示,立體聲信息平均分布在左、右聲道,所得空間強度標志為‘1’,則對于特定幀指示,左聲道信號明顯強于右聲道信號,并且空間強度標志為‘2’,則對于特定幀指示,右聲道信號明顯強于左聲道信號。
對所得空間強度標志hPanning編碼,使得,‘0’比特代表空間強度標志hPanning為‘0’,‘1’比特指示左聲道或者右聲道信號應該使用反量化的頻譜邊信號重建。在后一種情況下,后面會跟一個附加比特,其中‘0’比特代表空間強度標志hPanning為‘2’,而‘1’比特代表空間強度標志hPanning為‘1’。
標志生成部分327向哈夫曼循環(huán)部分324提供已編碼的空間強度標志。而且,標志生成部分327向選擇部分323提供來自等式(7)的中間值tLevel,其如上所述用于等式(6)中。
哈夫曼循環(huán)部分324負責對接收自選擇部分323的修正的量化頻譜邊信號
的取樣進行調(diào)整,使得用于低頻數(shù)據(jù)比特流的比特數(shù)低于允許用于相應幀的比特數(shù)。
在所示的實施方式中,使用三種不同的哈夫曼編碼方案,用于對量化的頻譜取樣進行有效的編碼。對于每一幀,利用每種編碼方案對量化的頻譜邊信號
進行編碼,然后,選擇獲得最低所需比特數(shù)的編碼方案。固定比特分配將只得到僅僅具有幾個非零頻譜取樣的非常稀疏頻譜。
第一哈夫曼編碼方案(HUF1)通過從哈夫曼表中取回與各個值相關(guān)聯(lián)的碼,對那些除具有零值的取樣之外的所有可用量化頻譜取樣進行編碼。取樣是否具有零值是由單個比特指示的。這個第一哈夫曼編碼方案所需的比特數(shù)out_bits用下列等式進行計算
在這些等式中,a是0和5之間的幅度值,位于-3和+3之間的各個量化頻譜取樣值
映射為這些幅度值,零值除外。hufLowCoefTabe為六種可能的幅度值a中的每個定義了分別作為第一值的哈夫曼編碼字長度和作為第二值的相關(guān)聯(lián)的哈夫曼碼字,如下表所示
hufLowCoefTable[6][2]=({3,0},(3,3),{2,3),(2,2),{3,2),{3,1}}.
在等式(9)中,hufLowCoefTable[a]
的值由為各個幅度值a定義的哈夫曼碼字長度所給出,也就是既是可以是2,也可以是3。
為了進行傳輸,對這個編碼方案得到的比特流進行組織,使得,可以基于下列語法進行解碼
HUF1_Decode(int16 *S_dec) { for(i=M;i<N;i++) { int16 sBinPresent=BsGetBits(1); if(sBinPresent==1) S_dec[i]=0; else { int16 q= HufDecodeSymbol(hufLowCoefTable); q=(q>2) q-2:q-3; S_dec[i]=q; } } }
在這個語法中,BsGetBits(n)從比特流緩沖器中讀取n個比特。sBinPresent指示一個碼是否是當前用于特定取樣索引的,HufDecodeSymbol()對來自比特流的下一個哈夫曼碼字進行解碼,并返回對應于這個碼字的符號,而S_dec[i]是各個解碼的量化頻譜取樣值。
第二哈夫曼編碼方案(HUF2)通過從哈夫曼表中取回與各個值相關(guān)聯(lián)的碼,對所有量化的頻譜取樣進行編碼,包括那些具有零值的取樣。但是,如果具有最高索引的取樣具有零值,將這個取樣和所有具有零值的連續(xù)相鄰取樣排除在編碼之外。用5比特對未被排除的取樣的最高索引進行編碼。第二哈夫曼編碼方案(HUF2)所需的比特數(shù)out_bits用下列等式計算
在這些等式中,last_bin定義所有已編碼取樣中的最高索引。HufLowCoefTable_12為通過將各個量化取樣值
增加值3而獲得的在0和6之間的每個幅度值定義了哈夫曼碼字長度和相關(guān)聯(lián)的哈夫曼碼字,如下表所示
hufLowCoefTable[7][2]={{4,8},{4,10},{2,1),{2,3},{2,0),{4,11},{4,9}}。
為了傳輸,對這個編碼方案得到的比特流進行組織,使得,可以基于下列語法進行解碼
HUF2_Decode(int16 *S_dec)
{
int16 last_bin=BsGetBits(5);
for(i=M;i<last_bin;i++)
S_dec[i]=
HufDecodeSymbol(hufLowCoefTable_12)-3;
}
在這個語法中,BsGetBits(n)從比特流緩沖器中讀取n個比特。HufDecodeSymbol()對來自比特流的下一個哈夫曼碼字進行解碼,并返回對應于這個碼字的符號,S_dec[i]是各個解碼的量化頻譜取樣值。
如果少于17個取樣值是非零值,則第三哈夫曼編碼方案(HUF3)對連續(xù)零值的量化頻譜取樣值和非零值量化頻譜取樣值分別進行編碼。用4比特指示幀中非零值的數(shù)量。這個第三以及最后的哈夫曼編碼方案所需的比特數(shù)out_bits用下列等式進行計算
其中
out_bits0=0;out_bits1=0; for(i=M;i<N;i++) { int16 zeroRun=0; /*--計數(shù)零值長度。--*/ for(;i<N;i++) { if(S^[i]==0) zeroRun++; else break; } if(!(i==N && S^[i-1]==0)) { int16 qCoef; /*--零值部分的哈夫曼碼字。--*/ out_bits0+=hufLowTable2[zeroRun]
; out_bits1+=hufLowTable3[zeroRun]
; /*--非零幅度的哈夫曼碼字。--*/ qCoef=(S^[i]<0) S^[i]+3:S^[i]+2; out_bits0+=hufLowCoefTable[qCoef]
; out_bits1+=hufLowCoefTable[qCoef]
; } }
HufLowTable2和HufLowTable3都為頻譜內(nèi)的零值部分定義了哈夫曼碼字長度和相關(guān)聯(lián)的哈夫曼碼字。這就是說,對于當前頻譜內(nèi)的零值編碼提供了具有不同統(tǒng)計分布的兩個表。兩個表表示如下
hufLowTable2[25][2]={{1,1},{2,0},{4,7},{4,4},
{5,11},{6,27},{6,21},{6,20},{7,48},{8,98},{9,
215},{9,213},{9,212},{9,205},{9,204},{9,207},
{9,206},{9,201},{9,200},{9,203},{9,202},{9,
209},{9,208},{9,211},{9,210}}.
hufLowTable3[25][2]={{1,0},{3,6},{4,15},{4,14},
{4,9},{5,23},{5,22},{5,20},{5,16},{6,42},
{6,34},{7,86},{7,70},{8,174},{8,142},{9,350},
{9,286},{10,702},{10,574},{11,1406},{11,1151},
{11,1150},{12,2814},{13,5631},{13,5630}}.
用這兩個表對零值進行編碼,然后選擇那些可帶來較低比特總數(shù)的碼。一個幀最終使用哪個表由單個比特指示。這個HufLowCoefTable對應于上述用于第一哈夫曼編碼方案HUF1的HufLowCoefTable,并對于每個非零幅度值定義哈夫曼碼字長度以及相關(guān)聯(lián)的哈夫曼碼字。
為了進行傳輸,對這個編碼方案所得的比特流進行組織,使得,可以基于下列語法進行解碼
HUF3_Decode(int16*S_dec) { int16 qOffset,nonZeroCount,hTbl; nonZeroCount=BsGetBits(4); hTbl=BsGetBits(1); for(i=M,qOffset=-1;i<nonZeroCount;i++) { int16 qCoef;<!-- SIPO <DP n="19"> --><dp n="d19"/> int16 run=HutDecodeSymbol((hTbl==1) hufLowTable2:hufLowTable3); qOffset+=run+1; qCoef=HufDecodeSymbol(hufLowCoefTable); qCoef=(qCoef>2) qCoef-2:qCoef-3; S_dec[qOffset]=qCoef; } }
在這個語法中,BsGetBits(n)從比特流緩沖器中讀取n個比特。nonZeroCount指示量化頻譜邊信號取樣中非零值的個數(shù),hTbl指示選擇哪個哈夫曼表,用于對零值進行編碼??紤]各自使用的哈夫曼表,HufDecodeSymbol()對來自比特流的下一個哈夫曼碼字進行解碼,并返回對應于這個碼字的符號。S_dec[i]是各個解碼的量化頻譜取樣值。
現(xiàn)在,可以進入實際的哈夫曼編碼循環(huán)。
在第一步驟中,確定所有編碼方案HUF1、HUF2、HUF3所需的比特數(shù)G_bits。這些比特包括用于量化器增益qGain的比特和其它邊信息比特。其它邊信息比特包括指示量化頻譜邊信號是否只包括零值的標志比特,以及由標志生成部分327提供的已編碼空間強度標志。
在下一步驟中,確定三種哈夫曼編碼方案HUF1、HUF2和HUF3中的每種所需的比特總數(shù)。這個比特總數(shù)包括確定的比特數(shù)G_bits,確定的各個哈夫曼編碼自身所需的比特數(shù)out_bits,以及用于指示所用哈夫曼編碼方案所需的附加信令比特數(shù)。比特形式‘1’用于HUF3方案,比特形式‘01’用于HUF2方案,而比特形式‘00’用于HUF1方案。
現(xiàn)在,確定對于當前幀需要比特總數(shù)最小的哈夫曼編碼方案。如果比特總數(shù)未超過允許的比特數(shù),則選用這個哈夫曼編碼方案。否則,修正量化頻譜。
更具體地,修正量化頻譜,使得,將最不重要的量化頻譜取樣值設(shè)定為零,如下所示
其中,leastIdx是具有最小能量的頻譜取樣的索引。這個索引是從得自排序部分326的排序能量ES數(shù)組中取回的,如上文所述。一旦已經(jīng)將取樣設(shè)定為零,就從排序的能量數(shù)組ES中除去對這個索引的輸入,使得,總是可以除去剩余頻譜取樣中最小的頻譜取樣。
然后,基于修正的頻譜,重復哈夫曼循環(huán)所需的所有計算,包括根據(jù)等式(9)至(11)的計算,直至至少對于其中一種哈夫曼編碼方案,比特總數(shù)不再超出允許的比特數(shù)。
在所示的實施方式中,對用于低頻數(shù)據(jù)比特流的元件進行組織,以進行傳輸,使得,可以基于下列語法對其進行解碼
Low_StereoData(S_dec,M,N,hPanning,qGain) { samplesPresent=BsGetBits(1); if(samplesPresent) { hPanning=BsGetBits(1); if(hPanning==1)hPanning=(BsGetBits(1) ==0) 2∶1; qGain=BsGetBits(6)+22; if(BsGetBits(1) Huf3_Decode(S_dec); else if(BsGetBits(1) Huf2_Decode(S_dec); else Huf1_Decode(S_dec); } } }
可以看出,比特流包括一個比特作為比特流中是否存在任何取樣的samples Present指示,一個或兩個用于空間強度標志hPanning的比特,六個用于所用量化增益qGain的比特,一個或兩個用于指示使用哪種哈夫曼編碼方案的比特,以及所用哈夫曼編碼方案所需的比特。分別對HUF1、HUF2和HUF3編碼方案定義了函數(shù)Huf1Decode()、Huf2Decode()和Huf3Decode()。
低頻效應立體聲編碼器207向AMR-WB+比特流復用器205提供這個低頻數(shù)據(jù)比特流。
AMR-WB+比特流復用器205將從立體聲擴展編碼器206接收的邊信息比特流和從低頻效應立體聲編碼器207接收的比特流和單聲道信號比特流一起進行復用,以進行傳輸,如上參照圖2所述。
傳送的比特流由圖2的立體聲解碼器21接收,并由AMR-WB+比特流解復用器215分配給AMR-WB+單聲道解碼器組件214、立體聲擴展解碼器216和低頻效應立體聲解碼器217。AMR-WB+單聲道解碼器組件214和立體聲擴展解碼器216對接收到的部分比特流進行處理,如上述參照圖2所述。
圖4是低頻效應立體聲解碼器217的示意框圖。
低頻效應立體聲解碼器217包括核心低頻效應解碼器40、MDCT部分41、MS逆矩陣42、第一IMDCT部分43和第二IMDCT部分44。核心低頻效應解碼器40包括解復用器DEMUX 401,并且立體聲解碼器21的AMR-WB+比特流解復用器215的輸出與這個解復用器401相連。在核心低頻效應解碼器40內(nèi),解復用器401經(jīng)由哈夫曼解碼器部分402與反量化器403相連,還與反量化器403直接相連。此外,解復用器401與MS逆矩陣42相連。反量化器403同樣與MS逆矩陣42相連。立體聲解碼器21的立體聲擴展解碼器216的兩個輸出同樣與MS逆矩陣42相連。立體聲解碼器21的AMR-WB+單聲道解碼器組件214的輸出經(jīng)由MDCT部分41與MS逆矩陣42相連。
低頻效應立體聲編碼器207生成的低頻數(shù)據(jù)比特流由AMR-WB+比特流解復用器215提供給解復用器401。由解復用器401根據(jù)上述語法對比特流進行解析。解復用器401向哈夫曼解碼器部分402提供取回的哈夫曼碼,向反量化器403提供取回的量化器增益,并向MS逆矩陣42提供取回的空間強度標志hPanning。
哈夫曼解碼器部分402基于上面定義的哈夫曼表hufLowCoefTable[6][21、hufLowCoefTable_12[7][22、{hufLowTable2[25][2]、hufLowTable3[25][3]以及hufLowCoefTable中適當?shù)谋韺邮盏降墓蚵a進行解碼,得到量化的頻譜邊信號
所得的量化頻譜邊信號
由哈夫曼解碼器部分402提供給反量化器403。
反量化器403根據(jù)下列等式對量化的頻譜邊信號
反量化
其中,變量gain是從解復用器401接收的解碼的量化器增益值。所得的反量化頻譜邊信號
由反量化器403提供給MS逆矩陣42。
同時,ARM-WB+單聲道解碼器組件214向MDCT部分41提供解碼的單音頻信號
由MDCT部分41通過基于幀的MDCT方式,將解碼的單音頻信號
變換到頻域,而且將所得的頻譜單音頻信號
提供給MS逆矩陣42。
另外,立體聲擴展解碼器216向MS逆矩陣42提供重建的頻譜左聲道信號
和重建的頻譜右聲道信號
在MS逆矩陣42中,首先估計所接收的空間強度標志hPanning。
如果解碼的空間強度標志hPanning具有值‘1’,指示發(fā)現(xiàn)左聲道信號空間上強于右聲道信號,或者值‘2’,指示發(fā)現(xiàn)右聲道信號空間上強于左聲道信號,則根據(jù)下列等式計算對于較弱聲道信號的衰落增益gLow
然后,對低頻空間左Lf和右Rf聲道取樣進行重建,如下
從頻譜取樣索引N-M開始,將接收自立體聲擴展解碼器216的空間左
和右
聲道取樣加到所得的低頻空間左Lf和右Rf聲道取樣上。
最后,由IMDCT部分43通過基于幀的IMDCT方式,將合并的頻譜左聲道信號變換到時域,以獲得恢復的左聲道信號
然后再由立體聲解碼器21輸出。由IMDCT部分44通過基于幀的IMDCT方式,將合并的頻譜右聲道信號變換到時域,以獲得恢復的右聲道信號
然后同樣由立體聲解碼器21輸出。
所示的低頻擴展方法有效地以低比特率對重要的低頻進行編碼,并用所用的通用立體聲音頻擴展方法進行平滑合并。其在低于1000Hz的低頻處效果最好,在那里空間聽覺是挑剔且敏感的。
顯然,所描述的實施方式可以多種方式變化。一種關(guān)于對邊信號生成部分321生成的邊信號S進行量化的可能變形將在下面描述。
在上述方法中,對頻譜取樣進行量化,使得,量化的頻譜取樣的最大絕對值低于閾值T,而這個閾值設(shè)定為固定值T=3。在這種方法的變形中,閾值T可以取兩個值中的一個,例如,T=3或T=4中的一個。
所述變形的目的在于對可用比特進行特別有效的利用。
使用固定閾值T用于頻譜邊信號S編碼可以產(chǎn)生一種編碼操作之后所用的比特數(shù)遠遠小于可用的比特數(shù)的情況。從立體聲感覺的角度,希望盡可能充分利用所有可用的比特用于編碼目的,從而,使未使用的比特數(shù)最小化。當運行于固定比特率條件下時,未使用的比特必須作為填充(stuffing and/or padding)比特發(fā)送,這將使整個編碼系統(tǒng)的效率下降。
本發(fā)明各種實施方式中的整個編碼操作可在兩個階段編碼循環(huán)中執(zhí)行。
在第一階段中,使用第一較低閾值T,也就是,當前示例中的閾值T=3,對頻譜邊信號進行量化和哈夫曼編碼。這個第一階段的處理正對應于上述低頻立體聲編碼器207的量化循環(huán)部分322、選擇部分323和哈夫曼循環(huán)部分324進行的編碼。
只有當?shù)谝浑A段的編碼操作指示增加閾值T可能是有利的,以便獲得較好的頻譜分辨率時,才進入第二階段。在哈夫曼編碼之后,由此確定是否閾值T=3,以及未使用的比特數(shù)是否大于14,并且通過將最不重要的頻譜取樣設(shè)定為零,不執(zhí)行頻譜丟棄。如果所有這些條件都滿足,則編碼器獲知,為了最小化未使用的比特數(shù)必須增加閾值T。從而,在當前示例中,將閾值T增加1,成為T=4。只有在這種情況下,才進入編碼的第二階段。在第二階段中,首先由量化循環(huán)部分322對頻譜邊信號進行重新量化,如上所述,只是在這次量化中,計算和調(diào)整量化器增益值,使得,量化頻譜邊信號的最大絕對值位于值4以下。如上所述在選擇部分323中處理之后,再次進入上述的哈夫曼循環(huán)。由于已經(jīng)為在-3至3之間的幅度值設(shè)計了哈夫曼幅度表HufLowCoefTable和HufLowCoefTable_12,所以不需要對實際的編碼步驟進行修正。這些同樣可應用于解碼器部分。
然后,退出編碼循環(huán)。
從而,如果在編碼期間選擇第二階段,則用閾值T=4生成輸出比特流,否則,用閾值T=3生成輸出比特流。
必須注意,所述實施方式僅構(gòu)成本發(fā)明可能實施方式中的一個變形。
權(quán)利要求
1.一種用于支持多聲道音頻編碼系統(tǒng)編碼端的多聲道音頻擴展的方法,所述方法包括
-至少對于多聲道音頻信號(L、R)的較高頻率,生成并提供第一多聲道擴展信息,這個第一多聲道擴展信息允許基于可用于所述多聲道音頻信號(L、R)的單音頻信號
重建至少所述多聲道音頻信號(L、R)的所述較高頻率;以及
-對于所述多聲道音頻信號(L、R)的較低頻率,生成并提供第二多聲道擴展信息,這個第二多聲道擴展信息允許基于所述單音頻信號
重建所述多聲道音頻信號(L、R)的所述較低頻率,其精確性高于所述第一多聲道擴展信息允許重建至少所述多聲道音頻信號(L、R)的所述較高頻率。
2.根據(jù)權(quán)利要求1所述的方法,其中生成并提供所述第二多聲道擴展信息包括
-將多聲道音頻信號的第一聲道信號(L)變換到頻域,得到頻譜第一聲道信號(Lf);
-將所述多聲道音頻信號的第二聲道信號(R)變換到頻域,得到頻譜第二聲道信號(Rf);
-生成頻譜邊信號(S),代表所述頻譜第一聲道信號(Lf)和所述頻譜第二聲道信號(Rf)之間的差值;
-量化所述頻譜邊信號(S),以獲得量化的頻譜邊信號;
-對所述量化的頻譜邊信號進行編碼,并提供所述已編碼的量化頻譜邊信號,作為所述第二多聲道擴展信息的一部分。
3.根據(jù)權(quán)利要求2所述的方法,其中所述量化包括在循環(huán)中量化所述頻譜邊信號(S),在這個循環(huán)中,改變量化增益,使得,獲得其最大絕對值低于預先確定的閾值的量化頻譜邊信號。
4.根據(jù)權(quán)利要求3所述的方法,其中調(diào)整所述預先確定的閾值,以確保對所述量化頻譜邊信號的所述編碼獲得小于預先確定的比特數(shù)的比特數(shù),而預先確定的比特數(shù)低于可用的比特數(shù)。
5.根據(jù)權(quán)利要求3或4所述的方法,進一步包括,如果所述得到的量化頻譜邊信號所需的量化增益(qGain)低于第二預先確定的閾值,則將所述量化頻譜邊信號的所有值設(shè)定為零。
6.根據(jù)權(quán)利要求2至5中一個權(quán)利要求所述的方法,進一步包括,如果所述頻譜第一和第二聲道信號(Lf、Rf)的所述較低頻率的平均能量(tLevel)低于預先確定的閾值,則將所述量化頻譜邊信號的所有值設(shè)定為零。
7.根據(jù)權(quán)利要求2至6中一個權(quán)利要求所述的方法,進一步包括將所述量化頻譜邊信號中不屬于向所述多聲道音頻信號中的多聲道圖像做出顯著貢獻的頻譜環(huán)境的那些值設(shè)定為零。
8.根據(jù)權(quán)利要求2至7中一個權(quán)利要求所述的方法,其中所述編碼基于哈夫曼編碼方案。
9.根據(jù)權(quán)利要求2至8中一個權(quán)利要求所述的方法,其中所述編碼包括從至少兩種編碼方案中選擇一個方案,對于所述量化頻譜邊信號,所選的編碼方案得到最少的比特數(shù)。
10.根據(jù)權(quán)利要求2至9中一個權(quán)利要求所述的方法,其中所述編碼包括,如果對所述全部量化的頻譜邊信號進行編碼產(chǎn)生超過可用的比特數(shù)的比特數(shù),則至少丟棄所述量化頻譜邊信號中具有最低能量的取樣。
11.根據(jù)前述權(quán)利要求中一個權(quán)利要求所述的方法,進一步包括生成并提供一個指示(hPanning),其指示在所述多聲道音頻信號的所述較低頻率處,所述多聲道音頻信號中的任何聲道(L、R)是否明顯強于所述多聲道音頻信號中的另一個聲道(R、L)。
12.根據(jù)前述權(quán)利要求中一個權(quán)利要求所述的方法,其中以頻帶為單位在頻域中生成所述第一多聲道擴展信息,以及,其中以取樣為單位在頻域中生成所述第二多聲道擴展信息。
13.根據(jù)前述權(quán)利要求中一個權(quán)利要求所述的方法,還包括
-將所述多聲道音頻信號的第一聲道信號(L)和第二聲道信號(R)合并為單音頻信號(M),并將所述單音頻信號(M)編碼為單聲道信號比特流;以及
-至少將所述單聲道信號比特流、所述提供的第一多聲道擴展信息和所述提供的第二多聲道擴展信息復用為單個比特流。
14.一種用于支持多聲道音頻編碼系統(tǒng)解碼端的多聲道音頻擴展方法,所述方法包括
-基于所接收的用于所述多聲道音頻信號的第一多聲道擴展信息和基于所接收的用于所述多聲道音頻信號(L、R)的單音頻信號
重建至少多聲道音頻信號(L、R)的較高頻率;以及
-基于所接收的第二多聲道擴展信息和基于所述接收的單音頻信號
以高于所述較高頻率的精確性重建所述多聲道音頻信號(L、R)的較低頻率;以及
-將所述重建的較高頻率和所述重建的較低頻率合并為重建的多聲道音頻信號
15.根據(jù)權(quán)利要求14所述的方法,其中重建所述多聲道音頻信號(L、R)的較低頻率包括
-對包括在所述第二多聲道擴展信息中的量化頻譜邊信號進行解碼;
-對所述量化頻譜邊信號進行反量化,以獲得反量化的頻譜邊信號;以及
-用所述反量化的頻譜邊信號擴展所述接收到的單音頻信號
以獲得所述多聲道音頻信號(L、R)的頻譜第一聲道信號和頻譜第二聲道信號的重建的較低頻率。
16.根據(jù)權(quán)利要求15所述的方法,進一步包括,在所述較低頻率上衰減所述頻譜聲道信號中的一個信號,如果所述第二多聲道擴展信息進一步包括一個指示,其指示在將要在所述較低頻率重建的所述多聲道音頻信號(L、R)中所述頻譜聲道信號中的另一個信號明顯較強的話。
17.根據(jù)權(quán)利要求14至16中一個權(quán)利要求所述的方法,其中在頻域中執(zhí)行對所述重建的較高頻率和所述重建的較低頻率的合并,以獲得重建的頻譜聲道信號
其包括較高和較低頻率,并將所述重建的頻譜聲道信號
變換到時域,以獲得所述重建的多聲道音頻信號
18.根據(jù)權(quán)利要求14至17中一個權(quán)利要求所述的方法,其中以頻帶為單位在頻域中重建所述多聲道音頻信號(L、R)的所述較高頻率,以及,其中以取樣為單位在頻域中重建所述多聲道音頻信號(L、R)的所述較低頻率。
19.根據(jù)權(quán)利要求14至18中一個權(quán)利要求所述的方法,進一步包括接收比特流,以及將所述比特流解復用為包括所述單音頻信號
的第一比特流、包括所述第一多聲道擴展信息的第二比特流和包括所述第二多聲道擴展信息的第三比特流。
20.多聲道音頻編碼器(20),包括用于實現(xiàn)權(quán)利要求1至13中一個權(quán)利要求所述方法的步驟的裝置(202-207,30-32,321-327)。
21.用于多聲道音頻編碼器(20)的多聲道擴展編碼器(206、207),所述多聲道擴展編碼器(206、207)包括用于實現(xiàn)權(quán)利要求1至12中一個權(quán)利要求所述方法的步驟的裝置(30-32,321-327)。
22.多聲道音頻解碼器(21),包括用于實現(xiàn)權(quán)利要求14至19中一個權(quán)利要求所述方法的步驟的裝置(215-217,40-44,401-403)。
23.用于多聲道音頻解碼器(21)的多聲道擴展解碼器(216、217),所述多聲道擴展解碼器(216、217)包括用于實現(xiàn)權(quán)利要求14至18中一個權(quán)利要求所述方法的步驟的裝置(40-44,401-403)。
24.多聲道音頻編碼系統(tǒng),包括帶有用于實現(xiàn)權(quán)利要求1至13中一個權(quán)利要求所述方法的步驟的裝置(202-207,30-32,321-327)的編碼器(20),以及帶有用于實現(xiàn)權(quán)利要求14至19中一個權(quán)利要求所述方法的步驟的裝置(215-217,40-44,401-403)的解碼器(21)。
全文摘要
本發(fā)明涉及在多聲道音頻編碼系統(tǒng)中支持多聲道音頻擴展的方法和單元。為了允許對多聲道音頻信號L/R的可用單音頻信號進行有效的擴展,提出除了至少用于多聲道音頻信號L/R較高頻率的多聲道擴展信息之外,多聲道音頻編碼系統(tǒng)的編碼端提供用于多聲道音頻信號L/R較低頻率的專用多聲道擴展信息。這個專用的多聲道擴展信息使多聲道音頻編碼系統(tǒng)的解碼端以高于多聲道音頻信號L/R的較高頻率的精確性,重建多聲道音頻信號L/R的較低頻率。
文檔編號G10L19/008GK1765072SQ03826338
公開日2006年4月26日 申請日期2003年4月30日 優(yōu)先權(quán)日2003年4月30日
發(fā)明者尤哈·奧雅佩阿 申請人:諾基亞公司