具有多個子流的多聲道音頻信號的有效編碼和解碼的制作方法
【專利摘要】本文檔涉及音頻編碼/解碼。具體地,本文檔涉及用于提高編碼的多聲道音頻信號的質(zhì)量的方法和系統(tǒng)。描述了配置為根據(jù)總的可用數(shù)據(jù)速率編碼多聲道音頻信號的音頻編碼器。多聲道音頻信號能表示為用于根據(jù)基本聲道配置呈現(xiàn)多聲道音頻信號的聲道的基本組(121),并且能表示為聲道的擴展組(122),該擴展組與基本組(121)相結(jié)合地用于根據(jù)擴展聲道配置呈現(xiàn)多聲道音頻信號。基本聲道配置與擴展聲道配置彼此不同。
【專利說明】具有多個子流的多聲道音頻信號的有效編碼和解碼
[0001]對相關(guān)申請的交叉引用
[0002]本申請要求于2012年5月15日提交的美國臨時專利申請序列號61/647,226的優(yōu)先權(quán)利益,該申請的全部內(nèi)容通過引用被結(jié)合于此。
【技術(shù)領(lǐng)域】
[0003]本文檔涉及音頻編碼/解碼。具體地,本文檔涉及用于提高編碼的多聲道音頻信號的質(zhì)量的方法和系統(tǒng)。
【背景技術(shù)】
[0004]諸如5.1,7.1或9.1多聲道音頻呈現(xiàn)系統(tǒng)的各種多聲道音頻呈現(xiàn)系統(tǒng)目前被使用。多聲道音頻呈現(xiàn)系統(tǒng)允許分別源自5+1、7+1或9+1個揚聲器位置的環(huán)繞聲的生成。為了相應(yīng)多聲道音頻信號的有效傳送或者為了其有效存儲,諸如杜比數(shù)字(Dolby Digital)或杜比數(shù)字加(Dolby Digital Plus)的多聲道音頻編解碼器(編碼器/解碼器)系統(tǒng)被使用。這些多聲道音頻編解碼器系統(tǒng)通常是向下兼容的,以便允許N.1多聲道音頻解碼器(例如,N = 5)解碼并呈現(xiàn)M.1多聲道音頻信號(例如,M = 7)的至少一部分,其中M大于N。更具體地,由多聲道音頻編解碼器系統(tǒng)生成的位流(bitstream)通常是向下兼容的,以便允許N.1多聲道音頻解碼器(例如,N = 5)解碼并呈現(xiàn)M.1多聲道音頻信號(例如,M =7)的至少一部分。作為例子,7.1多聲道音頻信號的編碼位流應(yīng)當可以被5.1多聲道音頻解碼器解碼。實現(xiàn)這種向下兼容的一種可能途徑是把M.1多聲道音頻信號編碼成多個子流(例如,編碼成獨立子流(在下文中被稱為“IS”)并且編碼成一個或多個從屬子流(在下文中被稱為“DS”))。IS可以包括基本編碼的N.1多聲道音頻信號(例如,編碼的5.1音頻信號)并且一個或多個DS可以包括用于呈現(xiàn)完整的M.1多聲道音頻信號的替換和/或擴展聲道(如以下將更詳細概述的)。此外,位流可以包括多個IS(S卩,多個獨立子流),每個獨立子流具有一個或多個關(guān)聯(lián)的DS。這多個IS及關(guān)聯(lián)的DS可以例如分別用來攜帶多個不同的廣播節(jié)目或者多個關(guān)聯(lián)的音頻曲目(諸如用于不同的語言或者用于不同的導演評論(director comment)等等)。
[0005]本文檔解決多聲道音頻信號的多個子流(例如,一個IS和一個或多個關(guān)聯(lián)的DS,或者多個IS和相應(yīng)的一個或多個關(guān)聯(lián)的DS)的有效編碼這方面。
【發(fā)明內(nèi)容】
[0006]根據(jù)一方面,描述了配置為根據(jù)總的可用數(shù)據(jù)速率編碼多聲道音頻信號的音頻編碼器。多聲道音頻信號可以是例如9.1、7.1或5.1多聲道音頻信號。音頻編碼器可以是基于幀的音頻編碼器,配置為編碼多聲道音頻信號的幀序列,由此產(chǎn)生相應(yīng)的編碼幀序列。具體地,編碼器可以配置為根據(jù)杜比數(shù)字加標準來執(zhí)行編碼。
[0007]多聲道音頻信號能表示為用于根據(jù)基本聲道配置呈現(xiàn)多聲道音頻信號的聲道的基本組,并且能表示為聲道的擴展組,該擴展組與基本組相結(jié)合地用于根據(jù)擴展聲道配置呈現(xiàn)多聲道音頻信號。通常,基本聲道配置和擴展聲道配置彼此不同。具體地,擴展聲道配置通常包括比基本聲道配置更高數(shù)量的聲道。作為例子,基本聲道配置和聲道的基本組可以包括N個聲道。擴展聲道配置可以包括M個聲道,其中M大于N。在這種情況下,聲道的擴展組可以包括一個或多個擴展聲道,以便把基本聲道配置擴展成擴展聲道配置。此外,聲道的擴展組可以包括一個或多個替換聲道,當在擴展聲道配置中呈現(xiàn)時,這些替換聲道替換聲道的基本組的一個或多個聲道。
[0008]在實施例中,多聲道音頻信號是7.1音頻信號,包括中、左前、右前、左環(huán)繞、右環(huán)繞、左后環(huán)繞、右后環(huán)繞聲道以及低頻效果聲道。在這種情況下,聲道的基本組可以包括中、左前和右前聲道,以及降混(downmixed)左環(huán)繞聲道和降混右環(huán)繞聲道,由此使得能夠以5.1聲道配置(基本配置)呈現(xiàn)多聲道音頻信號。降混左環(huán)繞聲道和降混右環(huán)繞聲道可以從左環(huán)繞、右環(huán)繞、左后環(huán)繞和右后環(huán)繞聲道得出(例如,作為左環(huán)繞、右環(huán)繞、左后環(huán)繞和右后環(huán)繞聲道的一些或全部的和)。聲道的擴展組可以包括左環(huán)繞、右環(huán)繞、左后和右后聲道,由此使得能夠以7.1聲道配置(擴展聲道配置)呈現(xiàn)基本聲道和擴展聲道。應(yīng)當指出,以上提到的7.1聲道配置僅僅是可能的7.1聲道配置的一個例子。作為例子,左環(huán)繞和右環(huán)繞聲道可以標記為左和右側(cè)聲道(關(guān)于收聽者頭部前方的中線放在+/-90度)。以類似的方式,后聲道可以被稱為左和右后環(huán)繞聲道。
[0009]音頻編碼器包括基本編碼器,該基本編碼器配置為根據(jù)IS (獨立子流)數(shù)據(jù)速率編碼聲道的基本組,由此產(chǎn)生獨立子流。獨立子流可以包括IS幀的序列,其包括代表聲道的基本組的編碼數(shù)據(jù)。此外,音頻編碼器包括擴展編碼器,該擴展編碼器配置為根據(jù)DS (從屬子流)數(shù)據(jù)速率編碼聲道的擴展組,由此產(chǎn)生從屬子流。從屬子流可以包括DS幀的序列,其包括代表聲道的擴展組的編碼數(shù)據(jù)。在實施例中,基本編碼器和/或擴展編碼器配置為執(zhí)行杜比數(shù)字加編碼。
[0010]此外,音頻編碼器包括速率控制單元,該速率控制單元配置為基于聲道的基本組的瞬時IS編碼質(zhì)量指標和/或基于聲道的擴展組的瞬時DS編碼質(zhì)量指標來定期修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。IS數(shù)據(jù)速率和DS數(shù)據(jù)速率可以被修改成使得IS數(shù)據(jù)速率和DS數(shù)據(jù)速率之和基本上對應(yīng)于(例如,等于)總的可用數(shù)據(jù)速率。具體地,速率控制單元可以配置為確定IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得瞬時IS編碼質(zhì)量指標與瞬時DS編碼質(zhì)量指標之差減小。在可用總位速率的約束下,這會對聲道的基本組和擴展組的組合產(chǎn)生提高的音頻質(zhì)量。
[0011]瞬時IS編碼質(zhì)量指標和/或瞬時DS編碼質(zhì)量指標可以指示在特定時刻多聲道音頻信號的編碼復(fù)雜度。作為例子,多聲道音頻信號可以表示為音頻幀的序列。在這種情況下,瞬時IS編碼質(zhì)量指標和/或瞬時DS編碼質(zhì)量指標可以指示用于編碼多聲道音頻信號的一個或多個音頻幀的復(fù)雜度。照此,瞬時IS編碼質(zhì)量指標和/或瞬時DS編碼質(zhì)量指標可以逐幀變化。由此,速率控制單元可以配置為逐幀修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率(依賴于變化的瞬時IS編碼質(zhì)量指標和/或瞬時DS編碼質(zhì)量指標)。換句話說,速率控制單元可以配置為對多聲道音頻信號的幀序列的每一幀修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。
[0012]瞬時IS編碼質(zhì)量指標和/或瞬時DS編碼質(zhì)量指標可以分別包括基本編碼器和/或擴展編碼器的編碼參數(shù)。作為例子,在杜比數(shù)字加編碼的情況下,瞬時IS編碼質(zhì)量指標和/或瞬時DS編碼質(zhì)量指標可以分別包括基本編碼器和/或擴展編碼器的瞬時SNR偏移量。作為替代或者此外,IS編碼質(zhì)量指標可以包括以下一個或多個:基本組的當前(第一)幀的感知熵;基本組的第一幀的音調(diào)(tonality);基本組的第一幀的瞬態(tài)特性;基本組的第一幀的頻譜帶寬;基本組的第一幀中瞬態(tài)的存在;基本組的聲道之間的相關(guān)度;以及基本組的第一幀的能量。以類似的方式,DS編碼質(zhì)量指標可以包括以下一個或多個:擴展組的第一幀的感知熵;擴展組的第一幀的音調(diào);擴展組的第一幀的瞬態(tài)特性;擴展組的第一幀的頻譜帶寬;擴展組的第一幀中瞬態(tài)的存在;擴展組的聲道之間的相關(guān)度;以及擴展組的第一幀的能量。
[0013]在基于幀的音頻編碼器的情況下,基本編碼器可以配置為確定多聲道信號的幀序列的IS幀的序列。以類似的方式,擴展編碼器可以配置為確定多聲道信號的幀序列的DS幀的序列。在這種情況下,IS編碼質(zhì)量指標可以包括相應(yīng)的IS幀的序列的IS編碼質(zhì)量指標的序列。以類似的方式,DS編碼質(zhì)量指標可以包括相應(yīng)的DS幀的序列的DS編碼質(zhì)量指標的序列。于是,速率控制單元可以配置為基于IS編碼質(zhì)量指標的序列中的至少一個和/或基于DS編碼質(zhì)量指標的序列當中的至少一個確定用于IS幀的序列的IS幀的IS數(shù)據(jù)速率和用于DS幀的序列的DS幀的DS數(shù)據(jù)速率。用于IS幀的IS數(shù)據(jù)速率和用于相應(yīng)的DS幀的DS數(shù)據(jù)速率可以被修改成使得用于IS幀的IS數(shù)據(jù)速率和用于相應(yīng)的DS幀的DS數(shù)據(jù)速率之和基本上是用于多聲道音頻信號的音頻幀的總可用數(shù)據(jù)速率。
[0014]編碼器可以包括編碼難度確定單元,該編碼難度確定單元配置為基于聲道的基本組的第一幀確定IS編碼質(zhì)量指標,和/或基于聲道的擴展組的相應(yīng)的第一幀確定DS編碼質(zhì)量指標。第一幀可以是要為其確定IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的幀。照此,編碼難度確定單元可以配置為分析聲道的基本組的和/或聲道的擴展組的要編碼的幀并且確定可以被速率控制單元用來修改用于要編碼的幀的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的IS/DS編碼質(zhì)量指標。
[0015]基本編碼器可以包括配置為從基本組的第一幀確定變換系數(shù)的基本塊的變換單元。以類似的方式,擴展編碼器可以包括配置為從擴展組的第一幀確定變換系數(shù)的擴展塊的變換單元。變換單元可以配置為應(yīng)用時間到頻率變換,例如,修正的離散余弦變換(MDCT)。第一幀可以被再分成多個塊(例如,具有重疊)并且變換單元可以配置為變換從相應(yīng)的第一幀得到的樣本塊。
[0016]此外,基本編碼器可以包括配置為從變換系數(shù)的基本塊確定指數(shù)(exponent)的基本塊和尾數(shù)(mantissa)的基本塊的浮點編碼單元。以類似的方式,擴展編碼器可以包括配置為從變換系數(shù)的擴展塊確定指數(shù)的擴展塊和尾數(shù)的擴展塊的浮點編碼單元。速率控制單元可以配置為基于總的可用數(shù)據(jù)速率確定用于編碼尾數(shù)的基本塊和尾數(shù)的擴展塊的可用尾數(shù)位總數(shù)。為此,速率控制單元可以考慮從總的可用數(shù)據(jù)速率得出的總可用位數(shù)并且從總的可用位數(shù)中減去用于編碼指數(shù)和/或其它與尾數(shù)不相關(guān)的編碼參數(shù)的位數(shù)。剩余的位可以是可用尾數(shù)位的總數(shù)。此外,速率控制單元可以配置為基于瞬時IS編碼質(zhì)量指標和瞬時DS編碼質(zhì)量指標把可用尾數(shù)位的總數(shù)分發(fā)給尾數(shù)的基本塊和尾數(shù)的擴展塊,由此修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。
[0017]具體地,速率控制單元可以配置為確定變換系數(shù)的基本塊的基本功率譜密度(PSD)分布。以類似的方式,速率控制單元可以確定變換系數(shù)的擴展塊的擴展PSD分布。此夕卜,速率控制單元可以確定變換系數(shù)的基本塊的基本掩蔽曲線(masking curve)并且和變換系數(shù)的擴展塊的擴展掩蔽曲線。速率控制單元可以使用基本PSD分布、擴展PSD分布、基本掩蔽曲線和擴展掩蔽曲線把可用尾數(shù)位的總數(shù)分發(fā)給尾數(shù)的基本塊和尾數(shù)的擴展塊。
[0018]甚至更具體地,速率控制單元可以配置為通過使用IS偏移量(也稱為“IS SNR偏移量”)偏移基本掩蔽曲線來確定偏移基本掩蔽曲線。以類似的方式,速率控制單元可以配置為通過使用DS偏移量(也稱為“DS SNR偏移量”)偏移擴展掩蔽曲線來確定偏移擴展掩蔽曲線。此外,速率控制單元可以配置為比較基本PSD分布與偏移基本掩蔽曲線,并且基于比較的結(jié)果把基本數(shù)量的尾數(shù)位分配給尾數(shù)的基本塊。此外,速率控制單元可以配置為比較擴展PSD分布與偏移擴展掩蔽曲線,并且基于比較的結(jié)果把擴展數(shù)量的尾數(shù)位分配給尾數(shù)的擴展塊。
[0019]所分配尾數(shù)位的總數(shù)可以確定為基本數(shù)量的尾數(shù)位和擴展數(shù)量的尾數(shù)位之和。于是,速率控制單元可以配置為調(diào)整IS偏移量和DS偏移量,使得所分配尾數(shù)位的總數(shù)與可用尾數(shù)位的總數(shù)之差低于預(yù)定的位閾值。為此,速率控制單元可以使用迭代搜索方案,以便確定滿足以上提到的條件的IS偏移量和DS偏移量。具體地,速率控制單元可以配置為調(diào)整IS偏移量和DS偏移量,使得IS偏移量和DS偏移量對于多聲道音頻信號的幀的序列是相等的,由此對多聲道音頻信號的幀序列的每一幀修改IS偏移量和DS偏移量。如已經(jīng)指出的,瞬時IS編碼質(zhì)量指標可以包括IS偏移量和/或瞬時DS編碼質(zhì)量指標可以包括DS偏移量。
[0020]照此,音頻編碼器可以配置為對聲道的基本組并且對聲道的擴展組執(zhí)行聯(lián)合位分配處理。換句話說,基本編碼器和擴展編碼器可以使用組合的位分配處理,由此定期地(例如,一幀一幀地)修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。
[0021]速率控制單??梢耘渲脼閷Χ嗦暤酪纛l信號的第一巾貞確定IS偏移量和DS偏移量。作為例子,IS偏移量和DS偏移量可以分別在基本編碼器和擴展編碼器的輸出分別從IS幀和DS幀提取。此外,速率控制單元可以配置為基于第一幀的IS偏移量和DS偏移量調(diào)整用于編碼多聲道音頻信號的第二幀的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。通常,第一幀在第二幀前。具體地,第二幀可以直接跟在第一幀后面,在第一和第二幀之間沒有任何居間的幀。換句話說,用于前面的并且有可能是用于直接前面的第一幀的IS偏移量和DS偏移量可以用于確定用于編碼當前第二幀的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。再換句話說,提出使用前面第一幀的編碼質(zhì)量的指示來調(diào)整用于編碼當前第二幀的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。
[0022]具體地,速率控制單元可以配置為調(diào)整用于編碼多聲道音頻信號的第二幀的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得IS偏移量與DS偏移量之差減小(例如,跨多個音頻幀平均地減小)。為此,可以使用調(diào)節(jié)回路,其中該調(diào)節(jié)回路適于調(diào)節(jié)IS偏移量與DS偏移量之差。作為例子,速率控制單元可以配置為確定用于第一幀的IS偏移量與DS偏移量之差。此外,速率控制單元可以配置為與用于第一幀的IS數(shù)據(jù)速率相比改變用于第二幀的IS數(shù)據(jù)速率一速率偏移量,并且與用于第一幀的DS數(shù)據(jù)速率相比改變用于第二幀的DS數(shù)據(jù)速率負的所述一速率偏移量。速率偏移量(尤其是速率偏移量的符號)可以依賴于所確定的差。
[0023]音頻編碼器可以配置為編碼多個(關(guān)聯(lián)的)多聲道音頻信號。這多個信號當中的每個多聲道音頻信號可以,例如,對應(yīng)于不同的廣播節(jié)目或?qū)?yīng)于不同的語言。這對于讓數(shù)字視頻盤(DVD)為電影提供多個不同的多聲道音頻信號(例如,不同的語言)會是有利的。多個(關(guān)聯(lián)的)多聲道音頻信號可以具有相應(yīng)的幀(代表多個關(guān)聯(lián)的多聲道音頻信號的相應(yīng)時間間隔)。多個多聲道音頻信號中的每一個能表示為用于根據(jù)基本聲道配置呈現(xiàn)相應(yīng)的多聲道音頻信號的聲道的基本組,由此提供多個基本組。此外,多個多聲道音頻信號中的每一個能表示為聲道的擴展組,該擴展組與基本組相結(jié)合地用于根據(jù)擴展聲道配置呈現(xiàn)相應(yīng)的多聲道音頻信號,由此提供多個擴展組。
[0024]音頻編碼器可以包括用于根據(jù)多個IS數(shù)據(jù)速率編碼多個基本組的多個基本編碼器,由此產(chǎn)生相應(yīng)的多個IS。應(yīng)當指出,組合的基本編碼器可以配置為編碼多個基本組,以產(chǎn)生相應(yīng)的多個IS。以類似的方式,音頻編碼器可以包括用于根據(jù)多個DS數(shù)據(jù)速率編碼多個擴展組的多個擴展編碼器,由此產(chǎn)生相應(yīng)的多個DS。應(yīng)當指出,組合的擴展編碼器可以配置為編碼多個擴展組,以產(chǎn)生相應(yīng)的多個DS。
[0025]于是,速率控制單元可以配置為基于聲道的多個基本組的一個或多個瞬時IS編碼質(zhì)量指標和/或基于聲道的多個擴展組的一個或多個瞬時DS編碼質(zhì)量指標來定期修改多個IS數(shù)據(jù)速率和多個DS數(shù)據(jù)速率,使得這多個IS數(shù)據(jù)速率和多個DS數(shù)據(jù)速率之和基本上對應(yīng)于總的可用數(shù)據(jù)速率。瞬時編碼質(zhì)量指標可以是例如用于編碼多個基本組/擴展組的SNR偏移量。具體地,速率控制單元可以配置為把本文檔中所描述的速率分配/位分配方案應(yīng)用到多個IS和相應(yīng)的多個DS。照此,每個IS和每個DS可以具有變化的數(shù)據(jù)速率(例如,逐幀變化),而用于多個編碼的多聲道音頻信號(即,用于多個IS和DS)的整體位速率保持恒定。
[0026]根據(jù)另一方面,描述了用于根據(jù)總的可用數(shù)據(jù)速率編碼多聲道音頻信號的方法。多聲道音頻信號能表示為用于根據(jù)基本聲道配置呈現(xiàn)多聲道音頻信號的聲道的基本組,并且能表示為聲道的擴展組,擴展組與基本組相結(jié)合地用于根據(jù)擴展聲道配置呈現(xiàn)多聲道音頻信號。基本聲道配置和擴展聲道配置可以彼此不同。
[0027]該方法可以包括根據(jù)IS數(shù)據(jù)速率編碼聲道的基本組,由此產(chǎn)生獨立子流。該方法還可以包括根據(jù)DS數(shù)據(jù)速率編碼聲道的擴展組,由此產(chǎn)生從屬子流。此外,該方法可以包括基于聲道的基本組的瞬時IS編碼質(zhì)量指標和/或基于聲道的擴展組的瞬時DS編碼質(zhì)量指標來定期修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得IS數(shù)據(jù)速率和DS數(shù)據(jù)速率之和基本上對應(yīng)于總的可用數(shù)據(jù)速率。
[0028]該方法還可以包括基于聲道的基本組的選段(excerpt)來確定IS編碼質(zhì)量指標,和/或基于聲道的擴展組的相應(yīng)選段來確定DS編碼質(zhì)量指標。基本組/擴展組的選段可以是例如基本組/擴展組的一個或多個幀。照此,IS編碼質(zhì)量指標和/或DS編碼質(zhì)量指標可以基于到音頻編碼器的輸入信號來確定。作為例子,編碼質(zhì)量指標可以基于以下來確定:基本/擴展組的選段的感知熵;基本/擴展組的選段的音調(diào);基本/擴展組的選段的瞬變特性;基本/擴展組的選段的頻譜帶寬;基本/擴展組的選段中瞬變的存在;基本/擴展組的聲道之間的相關(guān)度;和/或基本/擴展組的選段的能量。
[0029]作為替代或者此外,IS編碼質(zhì)量指標可以指示獨立子流的選段的感知質(zhì)量(即,指示編碼信號的感知質(zhì)量)。以類似的方式,DS編碼質(zhì)量指標可以指示從屬子流的選段的感知質(zhì)量(即,指示編碼信號的感知質(zhì)量)。
[0030]在這種情況下,修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率可以包括修改用于編碼獨立子流的選段和從屬子流的選段的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得IS編碼質(zhì)量指標與DS編碼質(zhì)量指標之間的絕對差低于差閾值。作為例子,差閾值可以基本為零。如以上概述的,當編碼獨立子流的選段和從屬子流的選段時,IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的修改可以通過使用聯(lián)合位分配來實現(xiàn)。
[0031]可替代地,修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率可以包括基于IS編碼質(zhì)量指標與DS編碼質(zhì)量指標之間的差來修改用于編碼獨立子流的另一選段和從屬子流的相應(yīng)的另一選段的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。基本和擴展組的這另一選段可以在基本和擴展組的所述選段之后。作為例子,基本和擴展組的這另一選段可以直接跟在基本和擴展組的所述選段之后,沒有居間的選段。照此,IS數(shù)據(jù)速率和DS數(shù)據(jù)速率可以基于反饋的IS/DS編碼質(zhì)量指標逐選段修改。
[0032]根據(jù)另一方面,描述軟件程序。該軟件程序可以適于在處理器上執(zhí)行并且當在處理器上執(zhí)行時適于執(zhí)行在本文檔中概述的方法步驟。
[0033]根據(jù)另一方面,描述存儲介質(zhì)。該存儲介質(zhì)可以包括適于在處理器上執(zhí)行并且當在處理器上執(zhí)行時適于執(zhí)行在本文檔中概述的方法步驟的軟件程序。
[0034]根據(jù)另一方面,描述計算機程序產(chǎn)品。計算機程序可以包括當在計算機上執(zhí)行時用于執(zhí)行在本文檔中概述的方法步驟的可執(zhí)行指令。
[0035]應(yīng)當指出,包括如在本專利申請中概述的優(yōu)選實施例的所述方法和系統(tǒng)可以單獨地或者與本文檔中公開的其它方法和系統(tǒng)組合地使用。此外,在本專利申請中概述的方法和系統(tǒng)的所有方面都可以任意組合。具體地,權(quán)利要求的特征可以按任意方式彼此組合。此夕卜,雖然方法的步驟是以特定次序提供的,但是所述步驟可以不按所提供的次序組合或執(zhí)行。
【專利附圖】
【附圖說明】
[0036]以下參考附圖以示例性的方式說明本發(fā)明,其中
[0037]圖1a示出示例多聲道音頻編碼器的高層級框圖;
[0038]圖1b示出編碼的幀的示例序列;
[0039]圖2a示出示例多聲道音頻解碼器的高層級框圖;
[0040]圖2b不出用于7.1多聲道音頻信號的不例喇機布置;
[0041]圖3圖不出多聲道首頻編碼器的不例部件的框圖;
[0042]圖4a至4e圖示出示例多聲道音頻編碼器的特定方面;
[0043]圖5a示出包括聯(lián)合(joint)速率控制的示例多聲道音頻編碼器的框圖;
[0044]圖5b示出示例多聲道編碼方案的流程圖;
[0045]圖5c示出包括聯(lián)合速率控制的另一示例多聲道音頻編碼器的框圖;及
[0046]圖6示出包括聯(lián)合速率控制的另一示例多聲道音頻編碼器的框圖。
【具體實施方式】
[0047]如在介紹部分中所概述的,期望提供生成關(guān)于被特定多聲道音頻解碼器解碼的聲道個數(shù)向下兼容的位流的多聲道音頻編解碼器系統(tǒng)。具體地,期望編碼M.1多聲道音頻信號,使得它可以被N.1多聲道音頻解碼器解碼,其中N〈M。作為例子,期望編碼7.1音頻信號,使得它可以被5.1音頻解碼器解碼。為了允許向下兼容,多聲道音頻編解碼器系統(tǒng)通常把M.1多聲道音頻信號編碼成包括減少數(shù)量的聲道(例如,N.1聲道)的獨立(子)流(“IS”),并且編碼成包括替換和/或擴展聲道以便解碼并呈現(xiàn)完全M.1音頻信號的一個或多個從屬(子)流(“DS”)。
[0048]在這種背景下,期望允許IS和一個或多個DS的有效編碼。本文檔描述使得能夠在維持IS和一個或多個DS的獨立性的同時對IS和一個或多個DS進行有效編碼以便維持多聲道音頻編解碼器系統(tǒng)的向下兼容的方法和系統(tǒng)。方法和系統(tǒng)是基于杜比數(shù)字加(DD+)編解碼器系統(tǒng)(也稱為增強AC-3)來描述的。DD+編解碼器系統(tǒng)是在高級電視標準委員會(ATSC) 2010 年 11 月 22 日的文檔 A/52:2010 “Digital Aud1 Compress1nStandard (AC-3, E-AC-3) ”中規(guī)定的,其內(nèi)容通過引用被結(jié)合于此。但是,應(yīng)當指出,本文檔中所描述的方法和系統(tǒng)是一般適用的并且可以應(yīng)用到把多聲道音頻信號編碼成多個子流的其它音頻編解碼器系統(tǒng)。
[0049]常用的多聲道配置(和多聲道音頻信號)是7.1配置和5.1配置。5.1多聲道配置通常包括L (左前)、C (中前)、R(右前)、Ls (左環(huán)繞)、Rs (右環(huán)繞)和LFE (低頻效果)聲道。7.1多聲道配置還包括Lb (左后環(huán)繞)和Rb (右后環(huán)繞)聲道。示例7.1多聲道配置在圖2b中圖示。為了在DD+中傳送7.1聲道,使用兩個子流。第一個子流(稱為獨立子流,“IS”)包括5.1聲道混合,而第二個子流(稱為從屬子流,“DS”)包括擴展聲道和替換聲道。例如,為了編碼和傳送具有后環(huán)繞聲道Lb和Rb的7.1多聲道音頻信號,獨立子流攜帶聲道L (左前)、C (中前)、R(右前)、Lst (左環(huán)繞降混)、Rst (右環(huán)繞降混)、LFE (低頻效果),而從屬聲道攜帶擴展聲道Lb (左后環(huán)繞)、Rb (右后環(huán)繞)和替換聲道Ls (左環(huán)繞)、Rs (右環(huán)繞)。當執(zhí)行完全7.1信號解碼時,來自從屬子流的Ls和Rs聲道代替來自獨立子流的Lst和Rst聲道。
[0050]圖1a示出圖示出5.1和7.1聲道之間關(guān)系的示例DD+7.1多聲道音頻編碼器100的高層級框圖。多聲道音頻信號的七(7)加一 (I)個音頻聲道101仏、(:、1?、1^、1^、1^和此加LFE)被分成兩組音頻聲道。聲道的基本組121包括音頻聲道L、C、R和LFE,以及通常從7.1環(huán)繞聲道Ls、Rs和7.1后聲道Lb、Rb得到的降混環(huán)繞聲道Lst 102和Rst 103。作為例子,降混環(huán)繞聲道102、103是通過在降混單元109中把Lb和Rb聲道以及7.1環(huán)繞聲道Ls,Rs中的一些或全部相加而得到的。應(yīng)當指出,降混環(huán)繞聲道Lst 102和Rstl03可以按其它方式確定。作為例子,降混環(huán)繞聲道Lst 102和Rstl03可以直接從兩個7.1聲道(例如7.1環(huán)繞聲道Ls、Rs)確定。
[0051]聲道的基本組121在DD+5.1音頻編碼器105中編碼,由此產(chǎn)生在DD+核心幀151中傳送的獨立子流(“IS”)110 (見圖lb)。核心幀151也稱為IS幀。音頻聲道的第二個組122包括7.1環(huán)繞聲道Ls、Rs和7.1后環(huán)繞聲道Lb、Rb。聲道的第二個組122在DD+4.0音頻編碼器中編碼,由此產(chǎn)生在一個或多個DD+擴展幀152、153中傳送的從屬子流(“DS”)120(見圖1b)。聲道的第二個組122在本文中也稱為聲道的擴展組122并且擴展幀 152、153 被稱為 DS 幀 152、153。
[0052]圖1b圖示出編碼音頻幀151、152、153、161、162的示例序列150。所圖示的例子包括分別包括IS幀151和161的兩個獨立子流ISO和ISl。多個IS (以及相應(yīng)的DS)可以用來提供多個關(guān)聯(lián)的音頻信號(例如,用于電影的不同語言或者用于不同的節(jié)目)。每個獨立子流分別包括一個或多個從屬子流DSO、DSl。每個從屬子流包括相應(yīng)的DS幀152、153和162。此外,圖1b還指示多聲道音頻信號的完整音頻幀的時間長度170。音頻幀的時間長度170可以是32ms (例如,以采樣速率fs = 48kHz)。換句話說,圖1b指示編碼成一個或多個IS幀151、161及相應(yīng)DS幀152、153、162的音頻幀的時間長度170。
[0053]圖2a圖示出示例多聲道解碼器系統(tǒng)200、210的高層級框圖。具體地,圖2a示出接收編碼的IS 201的示例5.1多聲道解碼器系統(tǒng)200,其中編碼的IS 201包括編碼的聲道的基本組121。編碼的IS201取自接收到的位流的IS幀151 (例如,利用未示出的解多路復(fù)用器)。IS幀151包括編碼的聲道的基本組121并且利用5.1多聲道解碼器205來解碼,由此產(chǎn)生解碼的5.1多聲道音頻信號,該解碼的信號包括解碼的聲道的基本組221。此外,圖2a示出接收編碼的IS201和編碼的DS 202的示例7.1多聲道解碼器系統(tǒng)210,其中編碼的IS 201包括編碼的聲道的基本組121,編碼的DS 202包括編碼的聲道的擴展組122。如以上概述的,編碼的IS 201可以取自接收到的位流的IS幀151并且編碼的DS 202可以取自接收到的位流的DS幀152、153 (例如,利用未示出的解多路復(fù)用器)。在解碼之后,獲得解碼的7.1多聲道音頻信號,該信號包括解碼的聲道的基本組221和解碼的聲道的擴展組222。應(yīng)當指出,降混環(huán)繞聲道Lst、Rst 211可以被丟棄,因為7.1多聲道解碼器215代替地使用解碼的聲道的擴展組222。7.1多聲道音頻信號的典型呈現(xiàn)位置232在圖2b的多聲道配置230中示出,圖2b還圖示出收聽者的示例位置231以及用于視頻呈現(xiàn)的屏幕的示例位置233。
[0054]目前,DD+中7.1聲道音頻信號的編碼是由第一核心5.1聲道DD+編碼器105和第二 DD+編碼器106執(zhí)行的。第一 DD+編碼器105編碼基本組121的5.1聲道(并且因此可以被稱為5.1聲道編碼器),而第二 DD+編碼器106編碼擴展組122的4.0聲道(并且因此可以被稱為4.0聲道編碼器)。用于聲道的基本組121和擴展組122的編碼器105、106通常彼此沒有任何認知。為兩個編碼器105、106中每一個提供對應(yīng)于總可用數(shù)據(jù)速率的固定部分的數(shù)據(jù)速率。換句話說,為用于IS的編碼器105和用于DS的編碼器106提供總可用數(shù)據(jù)速率的固定的一部分(例如,用于IS編碼器105的總可用數(shù)據(jù)速率的X% (稱為“IS數(shù)據(jù)速率”)以及用于DS編碼器106的總可用數(shù)據(jù)速率的100%-X% (稱為“DS數(shù)據(jù)速率”),例如X = 50)。利用分別指派的數(shù)據(jù)速率(即,IS數(shù)據(jù)速率和DS數(shù)據(jù)速率),IS編碼器105和DS編碼器106分別執(zhí)行聲道的基本組121和聲道的擴展組122的獨立編碼。
[0055]在本文檔中,提出在IS編碼器105和DS編碼器106之間創(chuàng)建依賴性并且由此提高整個多聲道編碼器100的效率。具體地,提出基于聲道的基本組121和聲道的擴展組122的特性或狀況來提供IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的適應(yīng)性指派。
[0056]在下文中,在圖3的背景下描述關(guān)于IS編碼器105和DS編碼器106的部件的更多細節(jié),圖3示出示例DD+多聲道編碼器300的框圖。IS編碼器105和/或DS編碼器106可以由圖3的DD+多聲道編碼器300實現(xiàn)。在描述編碼器300的部件之后,描述多聲道編碼器300如何可以適于允許以上提到的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的適應(yīng)性指派。
[0057]多聲道編碼器300接收對應(yīng)于多聲道輸入信號(例如,5.1輸入信號)的不同聲道的PCM樣本的流311。PCM樣本的流311可以布置到PCM樣本的幀中。每個幀可以包括多聲道音頻信號的特定聲道的預(yù)定數(shù)量的PCM樣本(例如,1536個樣本)。照此,對于多聲道音頻信號的每個時間段,為多聲道音頻信號的每個不同聲道提供不同的音頻幀。下面描述用于多聲道音頻信號的特定聲道的多聲道音頻編碼器300。但是,應(yīng)當指出,結(jié)果產(chǎn)生的AC-3幀318通常包括多聲道音頻信號的所有聲道的編碼數(shù)據(jù)。
[0058]包括PCM樣本311的音頻幀可以在輸入信號調(diào)節(jié)單元301中被濾波。隨后,(濾波后的)樣本311可以在時間到頻率變換單元302中從時間域變換到頻域。為此,音頻幀可以被再分成多個樣本塊。這些塊可以具有預(yù)定的長度L(例如,每塊256個樣本)。此外,相鄰的塊可以具有來自音頻幀的樣本的一定程度的重疊(例如,50%重疊)。每個音頻幀的塊數(shù)可以依賴于音頻幀的特性(例如,瞬變(transient)的存在)。通常,時間到頻率變換單元302對從音頻幀得到的每塊PCM樣本應(yīng)用時間到頻率變換(例如,MDCT (修正的離散余弦變換)變換)。照此,對于每塊樣本,在時間到頻率變換單元302的輸出獲得變換系數(shù)312的塊。
[0059]多聲道輸入信號的每個聲道可以被分別處理,由此為多聲道輸入信號的不同聲道提供變換系數(shù)312的塊的單獨序列。鑒于多聲道輸入信號的一些聲道之間的相關(guān)性(例如,環(huán)繞信號Ls和Rs之間的相關(guān)性),可以在聯(lián)合聲道處理單元303中執(zhí)行聯(lián)合聲道處理。在示例實施例中,聯(lián)合聲道處理單元303執(zhí)行聲道耦合,由此把一組耦合的聲道轉(zhuǎn)換成單個復(fù)合聲道加耦合側(cè)信息,該信息可以由相應(yīng)的解碼器系統(tǒng)200、210用來從單個復(fù)合聲道重構(gòu)個體聲道。作為例子,5.1音頻信號的Ls和Rs聲道可以耦合或者L、C、R、Ls和Rs聲道可以耦合。如果在單元303中使用耦合,則只有單個復(fù)合聲道提交給圖3中所示的進一步處理單元。否則,個體聲道(即,變換系數(shù)312的塊的個體序列)傳遞到編碼器300的進一步處理單元。
[0060]在下文中,描述編碼器中用于變換系數(shù)312的塊的示例性序列的進一步處理單元。該描述適用于要編碼的每一個聲道(例如,適用于多聲道輸入信號的個體聲道或者適用于從聲道耦合得到的一個或多個復(fù)合聲道)。
[0061 ] 塊浮點編碼單元304配置為把聲道的變換系數(shù)312 (適用于所有聲道,包括全帶寬聲道(例如,L、C和R聲道)、LFE (低頻效果)聲道以及耦合聲道)轉(zhuǎn)換成指數(shù)/尾數(shù)格式。通過把變換系數(shù)312轉(zhuǎn)換成指數(shù)/尾數(shù)格式,可以使從變換系數(shù)312的量化得到的量化噪聲獨立于絕對輸入信號電平。
[0062]通常,在單元304中執(zhí)行的塊浮點編碼可以把每個變換系數(shù)312轉(zhuǎn)換成指數(shù)和尾數(shù)。指數(shù)應(yīng)當盡可能有效地編碼,以便減小傳送編碼的指數(shù)313所需的數(shù)據(jù)速率開銷。同時,指數(shù)應(yīng)當盡可能準確地編碼,以便避免丟失變換系數(shù)312的頻譜分辨率。在下文中,簡要描述用于在DD+中實現(xiàn)以上提到的目標的示例性塊浮點編碼方案。對關(guān)于DD+編碼方案(并且尤其是由DD+使用的塊浮點編碼方案)的更多細節(jié),參考文檔Fielder,L.D.etal.“Introduct1n to Dolby Digital Plus, and Enhancement to Dolby Digital CodingSystem”,AEC Convent1n, 28-31 October 2004,其內(nèi)容通過引用被結(jié)合于此。
[0063]在塊浮點編碼的第一步中,可以為變換系數(shù)312的塊確定原始指數(shù)。這在圖4a中圖示,其中圖示出變換系數(shù)402的示例塊的原始指數(shù)401的塊。假設(shè)變換系數(shù)402具有值X,其中變換系數(shù)402可以被規(guī)格化(normalize),使得X小于或等于I。值X可以按尾數(shù)/指數(shù)格式表示X = m*2(-e),其中m是尾數(shù)(m〈 = I)并且e是指數(shù)。在實施例中,原始指數(shù)401可以取O和24之間的值,由此覆蓋超過144db的動態(tài)范圍(即,2(_0)至2 (-24))。
[0064]為了進一步減少編碼(原始)指數(shù)401所需的位數(shù),可以應(yīng)用各種方案,諸如指數(shù)跨完整音頻幀的變換系數(shù)312的塊(通常是每個音頻幀六塊)的時間共享。此外,指數(shù)可以跨頻率(即,在變換/頻域中跨相鄰的頻率槽(frequency bin))共享。作為例子,指數(shù)可以跨兩個或四個頻率槽共享。此外,變換系數(shù)312的塊的指數(shù)可以被連續(xù)化(tented),以便確保相鄰指數(shù)之差不超過預(yù)定的最大值,例如+/_2。這允許變換系數(shù)312的塊的指數(shù)的有效差分編碼(例如,使用五個差額)。以上提到的用于減小編碼指數(shù)所需的數(shù)據(jù)速率的方案(即,時間共享、頻率共享、連續(xù)化和差分編碼)可以以不同方式組合,以定義不同的指數(shù)編碼模式,從而產(chǎn)生用于編碼指數(shù)的不同數(shù)據(jù)速率。作為以上所提到的指數(shù)編碼的結(jié)果,獲得音頻幀的變換系數(shù)312塊(例如,每個音頻幀六塊)的編碼的指數(shù)313的序列。
[0065]作為在單元304中執(zhí)行的塊浮點編碼方案的另一步,原始變換系數(shù)402的尾數(shù)m’被相應(yīng)的結(jié)果產(chǎn)生的編碼的指數(shù)e’規(guī)格化。該結(jié)果產(chǎn)生的編碼的指數(shù)e’可以與以上提到的原始指數(shù)e不同(由于時間共享、頻率共享和/或連續(xù)化步驟)。對于圖4a的每個變換系數(shù)402,規(guī)格化的尾數(shù)m’可以確定為X = m’ *2 (_e’),其中X是原始變換系數(shù)402的值。用于音頻幀的塊的規(guī)格化的尾數(shù)m’ 314傳遞到量化單元306,用于尾數(shù)314的量化。尾數(shù)314的量化,即,量化的尾數(shù)317的準確性,依賴于可用于尾數(shù)量化的數(shù)據(jù)速率??捎玫臄?shù)據(jù)速率在位分配單元305中確定。
[0066]在單元305中執(zhí)行的位分配處理根據(jù)心理聲學原理確定可分配給每個規(guī)格化的尾數(shù)314的位數(shù)。位分配處理包括確定用于量化音頻幀的規(guī)格化的尾數(shù)的可用位計數(shù)的步驟。此外,位分配處理確定用于每個聲道的功率譜密度(PSD)分布和頻域掩蔽曲線(基于心理聲學模型)。PSD分布和頻域掩蔽曲線用來確定可用位到音頻幀的不同規(guī)格化的尾數(shù)314的基本上最佳分配。
[0067]位分配處理中的第一步是確定有多少尾數(shù)位可用于編碼規(guī)格化的尾數(shù)314。目標數(shù)據(jù)速率變換成可用于編碼當前音頻幀的總位數(shù)。具體地,目標數(shù)據(jù)速率規(guī)定用于編碼的多聲道音頻信號的數(shù)k位/秒。考慮T秒的幀長度,總位數(shù)可以確定為T*k。通過減去已經(jīng)用于編碼音頻幀的位,諸如元數(shù)據(jù)、塊切換標記(用于發(fā)信號通知檢測到的瞬變和選定的塊長度)、耦合縮放因子、指數(shù)等,可用的尾數(shù)位數(shù)可以從總位數(shù)確定。位分配處理還可以減去仍然可能需要分配給其它方面的位,諸如位分配參數(shù)315 (見下)。因此,可以確定可用尾數(shù)位的總數(shù)。然后,可用尾數(shù)位的總數(shù)可以在音頻幀的所有(例如,一個、兩個、三個或六個)塊之上在所有聲道(例如,主聲道、LFE聲道,以及耦合聲道)之間分配。
[0068]作為另一步,可以確定變換系數(shù)312塊的功率譜密度(“PSD”)分布。PSD是輸入信號的每個變換系數(shù)頻率槽內(nèi)信號能量的量度。PSD可以基于編碼的指數(shù)313來確定,由此使得相應(yīng)的多聲道音頻解碼器系統(tǒng)200、210能夠以與多聲道音頻編碼器300相同的方式確定PSD。圖4b圖示出已經(jīng)從編碼的指數(shù)313得出的變換系數(shù)312的塊的PSD分布410。PSD分布410可以用來計算變換系數(shù)312的塊的頻域掩蔽曲線431 (見圖4d)。頻域掩蔽曲線431考慮到了心理聲學掩蔽效應(yīng),這種效應(yīng)描述掩蔽頻率掩蔽在該掩蔽頻率直接附近的頻率的現(xiàn)象,由此,如果掩蔽頻率直接附近的頻率的能量低于一定掩蔽閾值,則使得其不可聽見。圖4c示出掩蔽頻率421和用于附近頻率的掩蔽閾值曲線422。實際的掩蔽閾值曲線422可以通過在DD+編碼器中使用的(兩段式)(按段線性的)掩蔽模板423來建模。
[0069]已經(jīng)觀察到,在例如由Zwicker定義的臨界帶刻度上(或者在對數(shù)刻度上),掩蔽閾值曲線422 (并且因此還有掩蔽模板423)的形狀對于不同的掩蔽頻率保持基本不變?;谶@種觀察,DD+編碼器把掩蔽模板423應(yīng)用到按帶劃分的(banded) PSD分布(其中按帶劃分的PSD分布對應(yīng)于臨界帶刻度上的PSD分布,其中帶大致是臨界帶寬度的一半)。在按帶劃分的PSD分布的情況下,確定臨界帶刻度上(或者對數(shù)刻度上)的多個帶中的每個帶的單個PSD值。圖4d圖示出用于圖4b的線性隔開PSD分布410的示例按帶劃分的PSD分布430。通過組合(例如,使用對數(shù)-加運算)來自臨界帶刻度上(或者對數(shù)刻度上)的落在相同帶中的線性隔開PSD分布410的PSD值,按帶劃分的PSD分布430可以從線性隔開的PSD分布410確定。掩蔽模板423可以應(yīng)用到按帶劃分的PSD分布430的每個PSD值,由此產(chǎn)生臨界帶刻度上(或者對數(shù)刻度上)的變換系數(shù)402的塊的整體頻域掩蔽曲線431 (見圖 4d)。
[0070]圖4d的整體頻域掩蔽曲線431可以擴展回線性頻率分辨率并且可以與圖4b中所示的變換系數(shù)402的塊的線性PSD分布410進行比較。這在圖4e中圖示,圖4e示出關(guān)于線性分辨率的頻域掩蔽曲線441,以及關(guān)于線性分辨率的PSD分布410。應(yīng)當指出,頻域掩蔽曲線441還可以考慮聽力曲線的絕對閾值。用于編碼特定頻率槽的變換系數(shù)402的尾數(shù)的位數(shù)可以基于PSD分布410并基于掩蔽曲線441來確定。具體地,落在掩蔽曲線441之下的PSD分布410的PSD值對應(yīng)于感知無關(guān)的尾數(shù)(因為這種頻率槽中的音頻信號的頻率成分被其附近的掩蔽頻率掩蔽)。因此,這種變換系數(shù)402的尾數(shù)根本不需要被指派任何位。另一方面,掩蔽曲線441之上的PSD分布410的PSD值指示這些頻率槽中的變換系數(shù)402的尾數(shù)應(yīng)當被指派用于編碼的位。指派給這種尾數(shù)的位數(shù)應(yīng)當隨著PSD分布410的PSD值與掩蔽曲線441的值之差的增大而增加。以上提到的位分配處理實現(xiàn)位向不同變換系數(shù)402的分配442,如圖4e中所示。
[0071]以上提到的位分配處理對音頻幀的所有聲道(例如,直接聲道、LFE聲道和耦合聲道)并且對所有塊執(zhí)行,由此產(chǎn)生所分配位的(初步)總數(shù)。所分配的位的這種初步總數(shù)不大可能匹配(例如,等于)可用尾數(shù)位的總數(shù)。在有些情況下(例如,對于復(fù)雜的音頻信號),所分配的位的初步總數(shù)可能超過可用尾數(shù)位的數(shù)目(位饑餓)。在其它情況下,所分配的位的初步總數(shù)可能低于可用尾數(shù)位的總數(shù)(位過剩)。編碼器300通常設(shè)法盡可能接近地匹配所分配的位的(最終)總數(shù)與可用尾數(shù)位的數(shù)目。為此,編碼器300可以使用所謂SNR偏移量參數(shù)。通過相對于PSD分布410上下移動掩蔽曲線441,SNR偏移量允許掩蔽曲線441的調(diào)整。通過上下移動掩蔽曲線441,所分配的位的(初步)數(shù)目分別可能減小或增大。照此,SNR偏移量可以按迭代的方式調(diào)整,直到滿足終止標準(例如,所分配的位的初步數(shù)目盡可能接近(但低于)可用位數(shù)的標準;或者已經(jīng)執(zhí)行了預(yù)定的最大迭代次數(shù)的標準)為止。
[0072]如以上所指出的,對SNR偏移量的迭代搜索可以使用二進制搜索,其中該迭代搜索允許所分配的位的最終數(shù)目與可用位數(shù)之間的最佳匹配。在每次迭代,確定所分配的位的初步數(shù)目是否超過可用的位數(shù)。基于這個確定步驟,SNR偏移量被修改并且執(zhí)行另一次迭代。二進制搜索配置為利用(1g2 (K)+1)次迭代確定最佳匹配(和相應(yīng)的SNR偏移量),其中K是可能的SNR偏移量的個數(shù)。在迭代搜索終止之后,獲得所分配的位的最終數(shù)目(這通常對應(yīng)于之前確定的所分配位的初步數(shù)目)。應(yīng)當指出,所分配的位的最終數(shù)目可以(稍微)小于可用位數(shù)。在這種情況下,略過位(skip bit)可以用來完全對準所分配的位的最終數(shù)目與可用位數(shù)。
[0073]SNR偏移量可以這樣定義:零SNR偏移量產(chǎn)生如下編碼的尾數(shù),其致使在原始音頻信號和編碼的信號之間的已知為“臨界可見差別”的編碼狀況。換句話說,在零SNR偏移量,編碼器300根據(jù)感知模型工作。SNR偏移量的正值可以把掩蔽曲線441向下移動,由此增加所分配的位數(shù)(通常沒有任何可注意到的質(zhì)量提高)。SNR偏移量的負值可以把掩蔽曲線441向上移動,由此減少所分配的位數(shù)(并且由此通常增加可聽見的量化噪聲)。SNR偏移量可以是例如具有從-48到+144dB的有效范圍的10位參數(shù)。為了找出最優(yōu)的SNR偏移量值,編碼器300可以執(zhí)行迭代二進制搜索。于是,迭代二進制搜索可能需要多達PSD分布410/掩蔽曲線441比較的11次迭代(在10位參數(shù)的情況下)。實際使用的SNR偏移量值可以作為位分配參數(shù)315傳送到相應(yīng)的解碼器。此外,尾數(shù)是根據(jù)(最終的)所分配位編碼的,由此產(chǎn)生一組編碼尾數(shù)317。
[0074]照此,SNR(信噪比)偏移量參數(shù)可以用作編碼的多聲道音頻信號的編碼質(zhì)量的指標。根據(jù)以上提到的SNR偏移量的約定,零SNR偏移量指示編碼的多聲道音頻信號具有相對于原始多聲道音頻信號的“臨界可見差別”。正SNR偏移量指示編碼的多聲道音頻信號具有至少是相對于原始多聲道音頻信號的“臨界可見差別”的質(zhì)量。負SNR偏移量指示編碼的多聲道音頻信號具有低于相對于原始多聲道音頻信號的“臨界可見差別”的質(zhì)量。應(yīng)當指出,SNR偏移量參數(shù)的其它約定也是可能的(例如,反向約定)。
[0075]編碼器300還包括配置為把編碼的指數(shù)313、編碼的尾數(shù)317、位分配參數(shù)315以及其它編碼數(shù)據(jù)(例如,塊切換標記、元數(shù)據(jù)、耦合縮放因子等)布置到預(yù)定幀結(jié)構(gòu)(例如,AC-3幀結(jié)構(gòu))中的位流打包單元307,由此產(chǎn)生多聲道音頻信號的音頻幀的編碼幀318。
[0076]如已經(jīng)概述的,并且如在圖1a中示出的,7.1 DD+流通常是通過利用IS編碼器105獨立地編碼聲道的基本組121由此產(chǎn)生IS 110并且利用DS編碼器106編碼擴展組122由此產(chǎn)生DS 120來編碼的。通常為IS編碼器105和DS編碼器106提供總數(shù)據(jù)速率的固定部分,即,每個編碼器105、106執(zhí)行獨立的位分配處理而不在兩個編碼器105、106之間進行任何交互。通常,IS編碼器105被指派總數(shù)據(jù)速率的X%,而為DS編碼器106提供總數(shù)據(jù)速率的100% _X%,其中X是固定的值,例如,X = 50。
[0077]如上所述,多聲道編碼器300調(diào)整SNR偏移量,使得所分配的位的(最終)總數(shù)(盡可能接近地)匹配可用位的總數(shù)。在這種位分配處理的背景下,SNR偏移量可以被調(diào)整(例如,增大/減小),使得所分配的位數(shù)增加/減少。但是,如果編碼器300分配比實現(xiàn)“臨界可見差別”所需的更多位,則額外分配的位實際上被浪費了,因為額外分配的位通常不帶來察覺到的編碼音頻信號的質(zhì)量的提高。鑒于此,提出為IS編碼器105和DS編碼器106提供靈活且組合的位分配處理,由此允許兩個編碼器105、106沿著時間線(根據(jù)多聲道音頻信號的需求)動態(tài)調(diào)整總數(shù)據(jù)速率中用于IS編碼器105的部分(被稱為“IS數(shù)據(jù)速率”)和總數(shù)據(jù)速率中用于DS編碼器106的部分(被稱為“DS數(shù)據(jù)速率”)。IS數(shù)據(jù)速率和DS數(shù)據(jù)速率優(yōu)選地被調(diào)整成使得它們之和一直對應(yīng)于總數(shù)據(jù)速率。組合的位分配處理在圖5a中圖示。圖5a示出IS編碼器105和DS編碼器106。此外,圖5a示出速率控制單元501,該單元配置為基于從IS編碼器105反饋回的輸出數(shù)據(jù)505和從DS編碼器106反饋回的輸出數(shù)據(jù)506來確定IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。輸出數(shù)據(jù)505、506可以分別是例如編碼的IS 110和編碼的DS 120;和/或相應(yīng)編碼器105、106的SNR偏移量。照此,速率控制單元501可以考慮來自兩個編碼器105、106的輸出數(shù)據(jù)505、506,來動態(tài)確定IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。在優(yōu)選實施例中,執(zhí)行IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的可變指派,使得可變指派對相應(yīng)的多聲道音頻解碼器系統(tǒng)200、210沒有影響。換句話說,可變指派對于相應(yīng)的多聲道音頻解碼器系統(tǒng)200、210應(yīng)當是透明的。
[0078]實現(xiàn)IS/DS數(shù)據(jù)速率的可變指派的一種可能方式是實現(xiàn)用于分配尾數(shù)位的共享位分配處理。IS編碼器105和DS編碼器106可以獨立地執(zhí)行在(在位分配單元305中執(zhí)行的)尾數(shù)位分配處理之前的編碼步驟。具體地,塊切換標記、耦合縮放因子、指數(shù)、頻譜擴展等的編碼可以在IS編碼器105和DS編碼器106中以獨立的方式執(zhí)行。另一方面,在IS編碼器105和DS編碼器106的相應(yīng)單元305中執(zhí)行的位分配處理可以聯(lián)合執(zhí)行。通常,IS和DS的位中有大約80%用于尾數(shù)的編碼。因此,即使IS和DS編碼器105、106對于除尾數(shù)位分配之外的編碼獨立地工作,編碼的絕大部分(即,尾數(shù)位分配)也是聯(lián)合執(zhí)行的。
[0079]換句話說,提出獨立地編碼每組聲道的“固定”數(shù)據(jù)(例如,指數(shù)、耦合坐標、頻譜擴展等)。隨后,利用全部剩余的位對基本組121和擴展組122執(zhí)行單個位分配處理。然后,兩個流的尾數(shù)都被量化并打包,以產(chǎn)生IS的編碼幀151 (稱為IS幀151)和DS的編碼幀152 (稱為DS幀152)。作為組合位分配處理的結(jié)果,IS幀151的大小沿時間線可以變化(由于變化的IS數(shù)據(jù)速率)。以類似的方式,DS幀的大小沿時間線可以變化(由于變化的IS數(shù)據(jù)速率)。但是,對于每個時間片段170 (即,對于多聲道音頻信號的每個音頻幀),IS幀151和DS幀152的大小之和應(yīng)當基本上是恒定的(由于恒定的總數(shù)據(jù)速率)。此外,作為組合位分配處理的結(jié)果,IS和DS的SNR偏移量應(yīng)當是完全相同的,因為在聯(lián)合位分配單元305執(zhí)行的聯(lián)合位分配處理調(diào)整聯(lián)合SNR偏移量,以便匹配(對IS和DS聯(lián)合地)分配的尾數(shù)位數(shù)與(對IS和DS聯(lián)合地)可用尾數(shù)位數(shù)。通過如果并且當其它子流(例如,DS)過剩時允許最位饑餓的子流(例如,IS)使用額外的位,對IS和DS具有完全相同的SNR偏移量的事實應(yīng)當提高整體質(zhì)量。
[0080]圖5b圖示出示例組合IS/DS編碼方法510的流程圖。該方法包括分離分別用于基本組121和擴展組122的信號幀的信號調(diào)節(jié)步驟521、531。方法510繼續(xù)去分離分別用于來自基本組121的塊和用于來自擴展組122的塊的時間到頻率變換步驟522、532。隨后,聯(lián)合聲道處理步驟523、533可以分別對基本組121和擴展組122執(zhí)行。作為例子,在基本組121的情況下,Lst和Rst聲道或者(除LFE聲道之外的)所有聲道可以被耦合(步驟523),其中,對于擴展組122,Ls和Rs,和/或Lb和Rb聲道可以被耦合(步驟533),由此產(chǎn)生相應(yīng)的耦合的聲道和耦合參數(shù)。此外,塊浮點編碼524、534可以分別對基本組121的塊并對擴展組122的塊執(zhí)行。因此,分別為基本組121和擴展組122獲得編碼的指數(shù)313。以上提到的處理步驟可以如在圖3背景下概述的那樣執(zhí)行。
[0081]方法510包括聯(lián)合位分配步驟540。聯(lián)合位分配步驟540包括用于確定可用尾數(shù)位的聯(lián)合步驟541,即,用于確定可用于編碼基本組121和擴展組122的尾數(shù)的總位數(shù)。此夕卜,方法510包括分別用于基本組121的塊和用于擴展組122的塊的PSD分布確定步驟525、535。此外,方法510包括分別用于基本組121和擴展組122的掩蔽曲線確定步驟526、536。如以上概述的,PSD分布和掩蔽曲線為多聲道信號的每個聲道并且為信號幀的每個塊確定。在PSD/掩蔽比較步驟527、537的背景下(分別對于基本組121和擴展組122),PSD分布和掩蔽曲線進行比較并且位分別分配給基本組121和擴展組122的尾數(shù)。這些步驟對每個聲道并對每個塊執(zhí)行。此外,這些步驟對給定的SNR偏移量執(zhí)行(對于PSD/掩蔽比較步驟527和537,該SNR偏移量相等)。
[0082]在利用給定的SNR偏移量把位分配給尾數(shù)之后,方法510前進到聯(lián)合匹配步驟542,該步驟確定所分配的尾數(shù)位的總數(shù)。此外,在步驟542的背景下確定所分配的尾數(shù)位的總數(shù)是否匹配(在步驟541中確定的)可用尾數(shù)位的總數(shù)。如果已經(jīng)確定了最優(yōu)匹配,則方法510繼續(xù)基于步驟527、537中確定的尾數(shù)位的分配分別進行基本組121和擴展組122的尾數(shù)的量化528、538。此外,IS幀151和DS幀152分別在位流打包步驟529、539中確定。另一方面,如果最優(yōu)匹配還沒有確定,則SNR偏移量被修改并且PSD/掩蔽比較步驟527、537和匹配步驟542重復(fù)。步驟527、537和542被迭代,直到確定最優(yōu)匹配為止和/或直到到達終止條件(例如,最大迭代次數(shù))為止。
[0083]應(yīng)當指出,PSD確定步驟525、535,掩蔽曲線確定步驟526、536,以及PSD/掩蔽比較步驟527、537對多聲道信號的每個聲道并且對信號幀的每個塊執(zhí)行。因此,這些步驟(通過定義)是對基本組121和擴展組122分開執(zhí)行的。事實上,這些步驟是對多聲道信號的每個聲道分開執(zhí)行的。
[0084]整體而言,編碼方法510帶來數(shù)據(jù)速率向IS和DS的改進分配(與獨立的位分配處理相比)。因此,所察覺到的編碼的多聲道信號(包括IS和至少一個DS)的質(zhì)量得以提高(與利用單獨的IS和DS編碼器105、106編碼的編碼多聲道信號相比)。
[0085]應(yīng)當指出,通過方法510生成的IS幀151和DS幀152可以按與分別由獨立的IS和DS編碼器105、106生成的IS幀和DS幀兼容的方式布置。具體地,IS和DS幀151、152每個都可以包括位分配參數(shù),該參數(shù)允許常規(guī)的多聲道解碼器系統(tǒng)200、210單獨地解碼IS和DS幀151、152。具體地,(相同的)SNR偏移量值可以插入IS幀151和DS幀152中。由此,基于510的方法的多聲道編碼器可以結(jié)合常規(guī)的多聲道解碼器系統(tǒng)200、210來使用。
[0086]可以期望使用標準的IS編碼器105和標準的DS編碼器106用于分別編碼基本組121和擴展組122。出于成本的原因,這會是有利的。此外,在某些情況下,可能不能實現(xiàn)在圖5b的背景下描述的聯(lián)合位分配處理540。不管怎樣,都期望允許IS數(shù)據(jù)速率和DS數(shù)據(jù)速率適應(yīng)多聲道音頻信號并由此提高編碼的多聲道音頻信號的整體質(zhì)量。
[0087]為了允許在不修改IS編碼器105和DS編碼器106的情況下修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,例如,基于針對特定幀估計的相對流編碼難度,IS數(shù)據(jù)速率和DS數(shù)據(jù)速率可以在IS/DS編碼器105、106外部被控制。對特定幀的相對編碼難度可以例如基于感知熵、基于音調(diào)或基于能量來估計。編碼難度可以基于與要編碼的當前幀相關(guān)的編碼器輸入PCM樣本來計算。根據(jù)任何后續(xù)的編碼時間延遲(例如,由LFE濾波器、HP濾波器、左和右環(huán)繞聲道的90ο相移和/或時間預(yù)噪聲處理(TPNP)造成的),這可能需要PCM樣本的正確時間對齊。用于編碼難度的指標的例子可以是信號功率、頻譜平坦度、音調(diào)估計、瞬態(tài)估計和/或感知熵。感知熵量度編碼其量化噪聲剛好低于掩蔽閾值的信號頻譜所需的位數(shù)。感知熵的越聞的值指不越聞的編碼難度。具有首調(diào)特點的聲首(即,具有聞首調(diào)估計的聲首)通常更難被編碼,如在IS0/IEC 11172-3 MPEG-1心理聲學模型的隱蔽曲線計算中所反映的。照此,高音調(diào)估計可以指示高編碼難度(并且反之亦然)。用于編碼難度的簡單指標可以基于聲道的基本組和/或聲道的擴展組的平均信號功率。
[0088]基本組的當前幀和擴展組的相應(yīng)的當前幀的估計編碼難度可以進行比較并且IS數(shù)據(jù)速率/DS數(shù)據(jù)速率(及相應(yīng)尾數(shù)位)可以相應(yīng)地分配。用于確定DS數(shù)據(jù)速率/IS數(shù)據(jù)速率的一個可能公式可以是:
[0089]Mts =Rt1-——-1 和 R =r(——1--......'1........................................1
V (,)? + ,),?.Nm) J V (Γ)ι% Nk + Dds) J
[0090]其中Rds是DS數(shù)據(jù)速率,Rt是總數(shù)據(jù)速率,Ris是IS數(shù)據(jù)速率,Dis是基本組的聲道的編碼難度(例如,基本組的聲道的平均編碼難度),Dds是擴展組的聲道的編碼難度(例如,擴展組的聲道的平均編碼難度),Nis是基本組中的聲道個數(shù),而Nds是擴展組中的聲道個數(shù)。
[0091]所確定的DS和IS數(shù)據(jù)速率可以確定為使得用于IS和/或DS的位數(shù)不低于用于IS幀和/或用于DS幀的固定的最小位數(shù)。照此,對IS和/或DS可以確保最小質(zhì)量。具體地,用于IS幀和/或用于DS幀的固定的最小位數(shù)可以由編碼與尾數(shù)分開的所有數(shù)據(jù)(例如,指數(shù)等)所需的位數(shù)來限制。
[0092]在另一種方法中,中值(或平均值)編碼難度差(IS對DS)可以對大的相關(guān)多聲道內(nèi)容的集合確定。數(shù)據(jù)速率分配的控制可以是這樣的:對于典型的幀(具有在中值編碼難度差的預(yù)定范圍內(nèi)的編碼難度差),使用默認的數(shù)據(jù)速率分布(例如,X%和100% -X% )。否則,根據(jù)實際編碼難度差與中值編碼難度差的偏離,數(shù)據(jù)速率分配可以偏離該默認值。
[0093]基于編碼難度修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的編碼器550在圖5c中圖示。編碼器550包括編碼難度確定單元551,該單元551接收多聲道音頻信號552 (和/或聲道的基本組121和聲道的擴展組122)。編碼難度確定單元551分析基本組121和擴展組122的相應(yīng)信號幀并且確定基本組121和擴展組122的幀的相對編碼難度。該相對編碼難度傳遞到速率控制單元553,該單元553配置為基于相對編碼難度確定IS數(shù)據(jù)速率561和DS數(shù)據(jù)速率562。作為例子,如果相對編碼難度指示與擴展組122相比對于基本組121有更高的編碼難度,則IS數(shù)據(jù)速率561增大并且DS數(shù)據(jù)速率562減小(并且反之亦然)。
[0094]在不修改IS編碼器105和DS編碼器106的情況下用于修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的另一種方法是從IS/DS幀151、152提取一個或多個編碼器參數(shù)并且使用這一個或多個編碼器參數(shù)來修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。作為例子,提取出的信號幀(n-1)的IS/DS巾貞151、152的一個或多個編碼器參數(shù)可以被考慮在內(nèi)來確定用于編碼下一信號中貞(η)的IS/DS數(shù)據(jù)速率。這一個或多個編碼器參數(shù)可以有關(guān)于編碼的IS 110和編碼的DS120的感知質(zhì)量。作為例子,這一個或多個編碼器參數(shù)可以是在IS編碼器105中使用的DD/DD+SNR偏移量(稱為IS SNR偏移量)和在DS編碼器106中使用的SNR偏移量(稱為DSSNR偏移量)。照此,取自(在時刻(η-l)的)前一 IS/DS幀151、152的IS/DS SNR偏移量可以用來適應(yīng)性地控制(在時刻(η)的)后一信號幀的IS/DS數(shù)據(jù)速率,使IS/DS SNR偏移量跨多聲道音頻信號流相等。更一般地說,可以說取自(在時刻(η-l)的)IS/DS幀151、152的一個或多個編碼器參數(shù)可以用來適應(yīng)性地控制(在時刻(η)的)后一信號幀的IS/DS數(shù)據(jù)速率,使這一個或多個編碼器參數(shù)跨多聲道音頻信號流相等。由此,目標是為編碼的多聲道信號的不同組提供相同的質(zhì)量。換句話說,目標是確保編碼的子流的質(zhì)量對于多聲道音頻信號流的所有子流都盡可能接近。這個目標應(yīng)當對音頻信號的每一幀(即,對信號的所有時刻或者對所有幀)實現(xiàn)。
[0095]圖6示出包括外部IS/DS數(shù)據(jù)速率修改方案的示例編碼器600的框圖。編碼器600包括可以根據(jù)圖3中所圖示的編碼器300配置的IS編碼器105和DS編碼器106。對于信號幀(n-1)并且對于在時刻(η-1)或幀號(η-1)指派的IS數(shù)據(jù)速率(n_l)和DS數(shù)據(jù)速率(n-1),IS/DS編碼器105、106分別提供編碼的IS幀(η-1)和編碼的DS幀(η-1)。IS編碼器105使用IS SNR偏移量(n-Ι)并且DS編碼器106使用DS SNR偏移量(n_l)來分別向尾數(shù)分配IS數(shù)據(jù)速率(n-Ι)和DS數(shù)據(jù)速率(n-Ι)。IS SNR偏移量(n_l)和DSSNR偏移量(n-Ι)可以分別從IS幀(n-Ι)和DS幀(n_l)提取。為了跨流(即,沿著幀號(η))確保ISSNR偏移量和DS SNR偏移量之間的對齊,IS SNR偏移量(η_1)和DS SNR偏移量(η_1)可以反饋回到IS/DS編碼器105、106的輸入,以便修改用于編碼后一信號幀(η)的IS數(shù)據(jù)速率(η)和DS數(shù)據(jù)速率(η)。
[0096]具體地,編碼器600包括配置為確定IS SNR偏移量(η_1)和DS SNR偏移量(η_1)之差的SNR偏移量偏差單元601。該差值可以用來控制(用于后一信號幀的)IS/DS數(shù)據(jù)速率(η)。在實施例中,小于DS SNR偏移量(n-Ι)的IS SNR偏移量(n_l) ( S卩,差為負)指示IS的感知質(zhì)量很可能低于DS的感知質(zhì)量。因此,DS數(shù)據(jù)速率(η)應(yīng)當關(guān)于DS數(shù)據(jù)速率(n-Ι)減小,以便降低后一信號幀(η)中的IS的感知質(zhì)量(或者有可能不受影響)。同時,IS數(shù)據(jù)速率(η)應(yīng)當關(guān)于IS數(shù)據(jù)速率(n-Ι)增加,以便提高后一信號幀(η)中IS的感知質(zhì)量并且也為了滿足總的數(shù)據(jù)速率需求。基于IS SNR偏移量(n-Ι)對IS數(shù)據(jù)速率(η)的修改是基于如由ISSNR偏移量(n-Ι)參數(shù)反映的編碼難度在兩個連續(xù)的幀之間不顯著變化的假設(shè)。以類似的方式,大于DS SNR偏移量(n-Ι)的IS SNR偏移量(n_l) ( S卩,差為正)可以指示IS的感知質(zhì)量高于DS的感知質(zhì)量。IS數(shù)據(jù)速率(η)和DS數(shù)據(jù)速率(η)可以關(guān)于IS數(shù)據(jù)速率(n-Ι)和DS數(shù)據(jù)速率(n-Ι)來修改,使得IS的感知質(zhì)量降低(或者不受影響)而DS的感知質(zhì)量提高。
[0097]以上提到的控制機制可以按各種方式實現(xiàn)。編碼器600包括符號確定單元602,該單元配置為確定IS SNR偏移量(n-Ι)和DS SNR偏移量(n_l)之差的符號。此外,編碼器600使用預(yù)定的數(shù)據(jù)速率偏移量603 (例如,總的可用數(shù)據(jù)速率的一百分比,例如,總的可用數(shù)據(jù)速率的大約0.5%、1%、2%、3%、4%、5%或10% ),該預(yù)定數(shù)據(jù)速率偏移量可用來在IS數(shù)據(jù)速率修改單元605和DS數(shù)據(jù)速率修改單元606中相對于IS數(shù)據(jù)速率(n_l)和DS數(shù)據(jù)速率(n-Ι)修改IS數(shù)據(jù)速率(η)和DS數(shù)據(jù)速率(η)。作為例子,如果差值為負,則IS數(shù)據(jù)速率修改單元605確定IS數(shù)據(jù)速率(n) = IS數(shù)據(jù)速率(η_1) +速率偏移量,并且DS數(shù)據(jù)速率修改單元606確定DS數(shù)據(jù)速率(n) = DS數(shù)據(jù)速率(η_1)_速率偏移量(并且在正差值的情況下反過來成立)。
[0098]以上提到的用于修改總數(shù)據(jù)速率向IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的指派的外部控制方案致力于減小IS SNR偏移量與DS SNR偏移量之差。換句話說,以上提到的控制方案設(shè)法對齊IS SNR偏移量與DS SNR偏移量,由此對齊編碼的IS和編碼的DS的察覺到的質(zhì)量。因此,編碼的多聲道信號(包括編碼的IS和編碼的DS)的整體察覺到的質(zhì)量得以提高(與使用固定IS/DS數(shù)據(jù)速率的編碼器100相比)。
[0099]在本文檔中,描述了用于編碼多聲道音頻信號的方法和系統(tǒng)。所述方法和系統(tǒng)把多聲道音頻信號編碼到多個子流中,其中這多個子流使得能夠?qū)Χ嗦暤酪纛l信號的聲道的不同組合進行有效解碼。此外,所述方法和系統(tǒng)允許跨多個子流進行尾數(shù)位的聯(lián)合分配,由此提高編碼的(并且隨后解碼的)多聲道音頻信號的察覺到的質(zhì)量。所述方法和系統(tǒng)可以配置為使得編碼的子流與傳統(tǒng)的多聲道音頻解碼器兼容。
[0100]具體地,本文檔描述了 DD+中的7.1聲道在兩個子流中傳送,其中第一個“獨立”子流包括5.1聲道混合,而第二個“從屬”子流包括“擴展”和/或“替換”聲道。目前,7.1流的編碼通常是由彼此不了解的兩個核心5.1編碼器執(zhí)行的。給予這兩個核心5.1編碼器數(shù)據(jù)速率(總的可用數(shù)據(jù)速率的固定部分)并且獨立地執(zhí)行兩個子流的編碼。
[0101]在本文檔中,已經(jīng)提出在(至少)兩個子流之間共享尾數(shù)位。在實施例中,每個流的“固定”數(shù)據(jù)(指數(shù)、耦合坐標等)被獨立地編碼。隨后,利用剩余的位對兩個流執(zhí)行單個位分配處理。最后,兩個流的尾數(shù)可以被量化并打包。通過這么做,編碼信號的每個時間片段的大小是相同的,但是個體編碼幀(例如,IS幀和/或DS幀)可以變化。而且,獨立和從屬流的SNR偏移量可以相同(或者它們的差值可以減小)。通過這么做,通過如果/當其它子流過剩時允許最位饑餓的子流使用額外的位,整體編碼質(zhì)量可以提高。
[0102]應(yīng)當指出,雖然已經(jīng)在7.1 DD+音頻編碼器的背景下描述了方法和系統(tǒng),但是所述方法和系統(tǒng)可適用于創(chuàng)建包括多個子流的DD+位流的其它編碼器。此外,所述方法和系統(tǒng)可適用于利用位池、多子流概念以及對整體數(shù)據(jù)速率具有約束(例如,要求恒定數(shù)據(jù)速率)的其它音頻/視頻編解碼器。對相關(guān)子流操作的音頻/視頻編解碼器可以根據(jù)需要對相關(guān)子流應(yīng)用共享位池,并且在保持總數(shù)據(jù)速率恒定的同時改變子流數(shù)據(jù)速率。
[0103]本文檔中所描述的方法和系統(tǒng)可以實現(xiàn)為軟件、固件和/或硬件。某些部件可以例如實現(xiàn)為運行在數(shù)字信號處理器或微處理器上的軟件。其它部件可以例如實現(xiàn)為硬件和/或?qū)崿F(xiàn)為應(yīng)用專用集成電路。在所述方法和系統(tǒng)中遇到的信號可以存儲在諸如隨機存取存儲器或光學存儲介質(zhì)的介質(zhì)上。它們可以經(jīng)網(wǎng)絡(luò)傳送,諸如無線電網(wǎng)絡(luò)、衛(wèi)星網(wǎng)絡(luò)、無線網(wǎng)絡(luò)或有線網(wǎng)絡(luò),像互聯(lián)網(wǎng)。使用本文檔中所描述的方法和系統(tǒng)的典型設(shè)備是用來存儲和/或呈現(xiàn)音頻信號的便攜式電子設(shè)備或其它消費類設(shè)備。
【權(quán)利要求】
1.一種音頻編碼器,配置為根據(jù)總的可用數(shù)據(jù)速率編碼多聲道音頻信號;其中多聲道音頻信號能表示為用于根據(jù)基本聲道配置呈現(xiàn)多聲道音頻信號的聲道的基本組(121),并且能表示為聲道的擴展組(122),該擴展組與基本組(121)相結(jié)合地用于根據(jù)擴展聲道配置呈現(xiàn)多聲道音頻信號;其中基本聲道配置與擴展聲道配置彼此不同;該音頻編碼器包括 -基本編碼器(105),配置為根據(jù)IS數(shù)據(jù)速率編碼聲道的基本組(121),由此產(chǎn)生獨立子流(110),該獨立子流被稱為IS ; -擴展編碼器(106),配置為根據(jù)DS數(shù)據(jù)速率編碼聲道的擴展組(122),由此產(chǎn)生從屬子流(120),該從屬子流被稱為DS ;及 -速率控制單元(501),配置為基于聲道的基本組(121)的瞬時IS編碼質(zhì)量指標和/或基于聲道的擴展組(122)的瞬時DS編碼質(zhì)量指標來定期修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的和基本上對應(yīng)于總的可用數(shù)據(jù)速率。
2.如權(quán)利要求1所述的編碼器,其中速率控制單元(501)配置為確定IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得瞬時IS編碼質(zhì)量指標和瞬時DS編碼質(zhì)量指標之間的差減小。
3.如前面任何一項權(quán)利要求所述的編碼器,其中基本編碼器(105)和擴展編碼器(106)是基于幀的音頻編碼器,該基于幀的音頻編碼器配置為編碼多聲道音頻信號的幀的序列,由此分別產(chǎn)生獨立子流(110)和從屬子流(120)的IS中貞(151)和DS幀(152)的相應(yīng)序列。
4.如權(quán)利要求3所述的編碼器,其中速率控制單元(501)配置為修改多聲道音頻信號的幀的序列的每一幀的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。
5.如權(quán)利要求3至4中任何一項所述的編碼器,其中 -1S編碼質(zhì)量指標包括IS巾貞(151)的相應(yīng)序列的IS編碼質(zhì)量指標的序列; -DS編碼質(zhì)量指標包括DS巾貞(152)的相應(yīng)序列的DS編碼質(zhì)量指標的序列; -速率控制單元(501)配置為基于IS編碼質(zhì)量指標的序列和DS編碼質(zhì)量指標的序列來確定用于IS幀(151)的序列的IS幀(151)的IS數(shù)據(jù)速率和用于DS幀(152)的序列的DS幀的DS數(shù)據(jù)速率,使得用于IS幀(151)的IS數(shù)據(jù)速率和用于DS幀的DS數(shù)據(jù)速率的和基本上是總的可用數(shù)據(jù)速率。
6.如權(quán)利要求5所述的編碼器,還包括 -編碼難度確定單元(551),配置為基于聲道的基本組(121)的第一幀確定IS編碼質(zhì)量指標,和/或基于聲道的擴展組(121)的相應(yīng)的第一幀確定DS編碼質(zhì)量指標。
7.如權(quán)利要求6所述的編碼器,其中 -1S編碼質(zhì)量指標是以下一個或多個:基本組(121)的第一幀的感知熵;基本組(121)的第一幀的音調(diào);基本組(121)的第一幀的頻譜帶寬;基本組(121)的第一幀中瞬態(tài)的存在;基本組(121)的聲道之間的相關(guān)度;以及基本組(121)的第一幀的能量;及 -DS編碼質(zhì)量指標是以下一個或多個:擴展組(122)的第一幀的感知熵;擴展組(122)的第一幀的音調(diào);擴展組(122)的第一幀的頻譜帶寬;擴展組(122)的第一幀中瞬態(tài)的存在;擴展組(122)的聲道之間的相關(guān)度;以及擴展組(122)的第一幀的能量。
8.如權(quán)利要求5所述的編碼器,其中 -基本編碼器(105)包括配置為從基本組(121)的第一幀確定變換系數(shù)(402)的基本塊的變換單元(302); -擴展編碼器(106)包括配置為從擴展組(122)的相應(yīng)的第一幀確定變換系數(shù)(402)的擴展塊的變換單元(302); -基本編碼器(105)包括配置為從變換系數(shù)(402)的基本塊確定指數(shù)的基本塊和尾數(shù)的基本塊的浮點編碼單元(304); -擴展編碼器(106)包括配置為從變換系數(shù)(402)的擴展塊確定指數(shù)的擴展塊和尾數(shù)的擴展塊的浮點編碼單元(304); -速率控制單元(501)配置為 -基于總的可用數(shù)據(jù)速率,確定用于編碼尾數(shù)的基本塊和尾數(shù)的擴展塊的可用尾數(shù)位的總數(shù) '及 -基于瞬時IS編碼質(zhì)量指標和瞬時DS編碼質(zhì)量指標,把可用尾數(shù)位的總數(shù)分發(fā)給尾數(shù)的基本塊和尾數(shù)的擴展塊,由此修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。
9.如權(quán)利要求8所述的編碼器,其中速率控制單元(501)配置為 -確定變換系數(shù)(402)的基本塊的基本功率譜密度分布(410),其中功率譜密度被稱為PSD ; -確定變換系數(shù)(402)的擴展塊的擴展PSD分布(410); -確定變換系數(shù)(402)的基本塊的基本掩蔽曲線(441); -確定變換系數(shù)(402)的擴展塊的擴展掩蔽曲線(402);及 -基于基本PSD分布(410)、擴展PSD分布(410)、基本掩蔽曲線(441)和擴展掩蔽曲線(441)把可用尾數(shù)位的總數(shù)分發(fā)給尾數(shù)的基本塊和尾數(shù)的擴展塊。
10.如權(quán)利要求9所述的編碼器,其中速率控制單元(501)配置為 -通過使用IS偏移量偏移基本掩蔽曲線(441)來確定偏移基本掩蔽曲線(441); -基于基本PSD分布(410)與偏移基本掩蔽曲線(441)的比較,把基本數(shù)量的尾數(shù)位分配給尾數(shù)的基本塊; -通過使用DS偏移量偏移擴展掩蔽曲線(441)來確定偏移擴展掩蔽曲線(441); -基于擴展PSD分布(410)與偏移擴展掩蔽曲線(441)的比較,把擴展數(shù)量的尾數(shù)位分配給尾數(shù)的擴展塊; -確定作為基本數(shù)量的尾數(shù)位和擴展數(shù)量的尾數(shù)位的和的所分配尾數(shù)位的總數(shù);及-調(diào)整IS偏移量和DS偏移量,使得所分配尾數(shù)位的總數(shù)與可用尾數(shù)位的總數(shù)的差低于預(yù)定的位閾值。
11.如權(quán)利要求10所述的編碼器,其中 -瞬時IS編碼質(zhì)量指標包括IS偏移量;及 -瞬時DS編碼質(zhì)量指標包括DS偏移量。
12.如權(quán)利要求11所述的編碼器,其中速率控制單元(501)配置為 -調(diào)整IS偏移量和DS偏移量,使得IS偏移量和DS偏移量對于多聲道音頻信號的幀序列是相等的,由此修改多聲道音頻信號的幀序列的每一幀的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率。
13.如權(quán)利要求10所述的編碼器,其中速率控制單元(501)配置為 -確定多聲道音頻信號的第一幀的IS偏移量和DS偏移量; -基于第一巾貞的IS偏移量和DS偏移量,調(diào)整用于編碼多聲道音頻信號的第二巾貞的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,其中第一幀在第二幀前。
14.如權(quán)利要求13所述的編碼器,其中速率控制單元(501)配置為 -調(diào)整用于編碼多聲道音頻信號的第二幀的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得IS偏移量與DS偏移量之間的差減小。
15.如權(quán)利要求13至14中任何一項所述所述的編碼器,其中速率控制單元(501)配置為 -確定第一幀的IS偏移量與DS偏移量之間的差; -與第一幀的IS數(shù)據(jù)速率相比將第二幀的IS數(shù)據(jù)速率改變一速率偏移量,并且,與第一幀的DS數(shù)據(jù)速率相比將第二幀的DS數(shù)據(jù)速率改變負的所述一速率偏移量;其中速率偏移量依賴于所確定的差。
16.如前面任何一項權(quán)利要求所述的編碼器,其中 -基本編碼器(105)和擴展編碼器(106)配置為執(zhí)行杜比數(shù)字加編碼。
17.如前面任何一項權(quán)利要求所述的編碼器,其中 -基本聲道配置和聲道的基本組(121)包括N個聲道; -擴展聲道配置包括M個聲道,其中M大于N ; -聲道的擴展組(122)包括一個或多個擴展聲道,以便把基本聲道配置擴展成擴展聲道配置。
18.如權(quán)利要求17所述的編碼器,其中聲道的擴展組(122)包括一個或多個替換聲道,該一個或多個替換聲道當在擴展聲道配置中被呈現(xiàn)時替換聲道的基本組(121)的一個或多個聲道。
19.如前面任何一項權(quán)利要求所述的編碼器,其中 -多聲道音頻信號是包括中、左、右、左環(huán)繞、右環(huán)繞、左后環(huán)繞、右后環(huán)繞聲道以及低頻效果聲道的7.1音頻信號; -聲道的基本組(121)包括中、左和右聲道,以及降混左環(huán)繞聲道和降混右環(huán)繞聲道;-降混左環(huán)繞聲道和降混右環(huán)繞聲道是從左環(huán)繞、右環(huán)繞、左后環(huán)繞和右后環(huán)繞聲道得出的; -聲道的擴展組(122)包括左環(huán)繞、右環(huán)繞、左后和右后聲道; -基本聲道配置是5.1聲道配置;及 -擴展聲道配置是7.1聲道配置。
20.如前面任何一項權(quán)利要求所述的音頻編碼器,配置為根據(jù)總的可用數(shù)據(jù)速率編碼多個多聲道音頻信號;其中這多個多聲道音頻信號中的每一個能表示為用于根據(jù)基本聲道配置呈現(xiàn)相應(yīng)的多聲道音頻信號的聲道的基本組(121),并且能表示為聲道的擴展組(122),該擴展組與相應(yīng)的基本組(121)相結(jié)合地用于根據(jù)擴展聲道配置呈現(xiàn)相應(yīng)的多聲道音頻信號;其中: -基本編碼器(105)配置為根據(jù)相應(yīng)的多個IS數(shù)據(jù)速率編碼多個多聲道音頻信號的基本組(121),由此產(chǎn)生相應(yīng)的多個獨立子流(110); -擴展編碼器(106)配置為根據(jù)相應(yīng)的多個DS數(shù)據(jù)速率編碼多個多聲道音頻信號的擴展組(122),由此產(chǎn)生相應(yīng)的多個從屬子流(120);及 -速率控制單元(501)配置為基于基本組(121)的一個或多個瞬時IS編碼質(zhì)量指標和/或基于擴展組(122)的一個或多個瞬時DS編碼質(zhì)量指標來定期修改所述多個IS數(shù)據(jù)速率和所述多個DS數(shù)據(jù)速率,使得所述多個IS數(shù)據(jù)速率和所述多個DS數(shù)據(jù)速率的和基本上對應(yīng)于總的可用數(shù)據(jù)速率。
21.一種用于根據(jù)總的可用數(shù)據(jù)速率編碼多聲道音頻信號的方法;其中多聲道音頻信號能表示為用于根據(jù)基本聲道配置呈現(xiàn)多聲道音頻信號的聲道的基本組(121),并且能表示為聲道的擴展組(122),該擴展組與基本組(122)相結(jié)合地用于根據(jù)擴展聲道配置呈現(xiàn)多聲道音頻信號;其中基本聲道配置與擴展聲道配置彼此不同;該方法包括: -根據(jù)IS數(shù)據(jù)速率編碼聲道的基本組(121),由此產(chǎn)生獨立子流(110),該獨立子流被稱為IS ; -根據(jù)DS數(shù)據(jù)速率編碼聲道的擴展組(122),由此產(chǎn)生從屬子流(120),該從屬子流稱為DS ;及 -基于聲道的基本組(121)的瞬時IS編碼質(zhì)量指標和/或基于聲道的擴展組(122)的瞬時DS編碼質(zhì)量指標來定期修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的和基本上對應(yīng)于總的可用數(shù)據(jù)速率。
22.如權(quán)利要求21所述的方法,還包括: -基于聲道的基本組(121)的選段來確定IS編碼質(zhì)量指標,和/或基于聲道的擴展組(122)的相應(yīng)選段來確定DS編碼質(zhì)量指標。
23.如權(quán)利要求21至22中任何一項所述的方法,其中 -1S編碼質(zhì)量指標指示獨立子流的選段的感知質(zhì)量 '及 -DS編碼質(zhì)量指標指示從屬子流的選段的感知質(zhì)量。
24.如權(quán)利要求23所述的方法,其中修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率包括 -修改用于編碼獨立子流的選段和從屬子流的選段的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得IS編碼質(zhì)量指標和DS編碼質(zhì)量指標之間的絕對差低于差閾值。
25.如權(quán)利要求23所述的方法,其中修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率包括 -基于IS編碼質(zhì)量指標和DS編碼質(zhì)量指標之間的差低于差閾值,修改用于編碼獨立子流的另一選段和從屬子流的相應(yīng)的另一選段的IS數(shù)據(jù)速率和DS數(shù)據(jù)速率;其中所述另一選段在所述選段后。
26.一種軟件程序,適于在處理器上執(zhí)行并且當在處理器上執(zhí)行時適于執(zhí)行如權(quán)利要求21至25中任何一項所述的方法步驟。
27.一種存儲介質(zhì),包括適于在處理器上執(zhí)行并且當在處理器上執(zhí)行時適于執(zhí)行如權(quán)利要求21至25中任何一項所述的方法步驟的軟件程序。
28.一種計算機程序產(chǎn)品,包括當在計算機上執(zhí)行時用于執(zhí)行如權(quán)利要求21至25中任何一項所述的方法步驟的可執(zhí)行指令。
29.一種用于解碼編碼的音頻數(shù)據(jù)的方法,包括步驟: 接收指示編碼的音頻數(shù)據(jù)的信號;及 解碼編碼的音頻數(shù)據(jù)以生成指示音頻數(shù)據(jù)的信號, 其中編碼的音頻數(shù)據(jù)是通過以下生成的: (a)根據(jù)IS數(shù)據(jù)速率編碼聲道的基本組(121),由此產(chǎn)生獨立子流(110); (b)根據(jù)DS數(shù)據(jù)速率編碼聲道的擴展組(122),由此產(chǎn)生從屬子流(120);及 (c)基于聲道的基本組(121)的瞬時IS編碼質(zhì)量指標和/或基于聲道的擴展組(122)的瞬時DS編碼質(zhì)量指標來定期修改IS數(shù)據(jù)速率和DS數(shù)據(jù)速率,使得IS數(shù)據(jù)速率和DS數(shù)據(jù)速率的和基本上對應(yīng)于總的可用數(shù)據(jù)速率。
30.如權(quán)利要求29所述的方法,其中編碼的音頻數(shù)據(jù)進一步通過以下生成:基于聲道的基本組(121)的選段來確定瞬時IS編碼質(zhì)量指標,和/或基于聲道的擴展組(121)的相應(yīng)選段來確定瞬時DS編碼質(zhì)量指標。
31.如權(quán)利要求29至30中任何一項所述的方法,其中瞬時IS編碼質(zhì)量指標指示獨立子流的選段的感知質(zhì)量;并且瞬時DS編碼質(zhì)量指標指示從屬子流的選段的感知質(zhì)量。
32.—種軟件程序,適于在處理器上執(zhí)行并且當在處理器上執(zhí)行時適于執(zhí)行如權(quán)利要求29至31中任何一項所述的方法步驟。
33.一種存儲介質(zhì),包括適于在處理器上執(zhí)行并且當在處理器上執(zhí)行時適于執(zhí)行如權(quán)利要求29至31中任何一項所述的方法步驟的軟件程序。
34.一種音頻解碼器,配置為根據(jù)如權(quán)利要求29至31中任何一項所述的方法步驟解碼音頻數(shù)據(jù)。
【文檔編號】G10L19/008GK104285253SQ201380025178
【公開日】2015年1月14日 申請日期:2013年5月14日 優(yōu)先權(quán)日:2012年5月15日
【發(fā)明者】H·姆恩特, J·瑞德米勒, K·J·羅爾登, M·沃德, P·威廉姆斯 申請人:杜比實驗室特許公司, 杜比國際公司