專利名稱:使用網(wǎng)格降低mpeg-2高級音頻編碼的比例因子傳輸成本的制作方法
背景技術(shù):
典型的變換和濾波器組音頻編碼技術(shù),諸如MPEG-1的1到3層,Dolby AC3(也稱為Dolby Digital)(Dolby、Dolby Digital和Dolby AC-3是Dolby實(shí)驗(yàn)室許可公司的商標(biāo))和MPEG-2高級音頻編碼(AAC)通過在時域和頻域動態(tài)地分配比特以消除音頻信號中聽不見的冗余來降低傳輸數(shù)據(jù)速率。該比特的動態(tài)分配典型地基于與信號相關(guān)的心理聲學(xué)原理。Dolby AC3的進(jìn)一步細(xì)節(jié)可以在1994年11月10日批準(zhǔn)的數(shù)字音頻壓縮(AC-3)標(biāo)準(zhǔn)、(Rev 1)1995年4月12日增加的附件A、(Rev 2)1995年5月24日增加的13個勘誤以及(Rev 3)1995年12月20日增加的附件B和C中找到。AAC的更進(jìn)一步細(xì)節(jié)可以在“ISO/IEC MPEG-2 Audio Coding by Bosi et al,presented at the 101st Convention 1996 November 8-11,Los Angeles,Audio Engineering Society Preprint 4382)找到。
在AAC中,使用比特流所包含的全局增益參數(shù)和比例因子來實(shí)現(xiàn)比特分配。使用眾所周知的修改的離散余弦變換(MDCT)即通常所知的時域混疊消除(TDAC)(參見Princen et al,“Analysis/synthesisfilter bank design based on time domain aliasing cancellation”,IEEETrans. Acoust.,Speech,Signal Processing,Vol. ASSP-34,pp.1153-1161,October 1986)轉(zhuǎn)換的音頻頻譜,被劃分為大約一半臨界帶寬的頻帶,并且相乘地應(yīng)用比例因子。比例因子和全局增益聯(lián)合表示1.5dB步長或大約四分之一比特增量的比特分配(根據(jù)音頻信號的隨機(jī)特征獲得準(zhǔn)確的比特分配,并進(jìn)一步被結(jié)合在AAC的非線性量化器復(fù)雜化)。增加頻帶中的比例因子,通過分配更多的比特到頻帶,有效地降低該頻帶中的量化噪聲。相反地,減少比例因子,通過減少分配到特定頻帶的比特,增加了該特定頻帶的量化噪聲。
因?yàn)锳AC是前向自適應(yīng)音頻編碼系統(tǒng),所以比例因子被傳遞到解碼器。這通過對比例因子差分編碼然后對該差進(jìn)行霍夫曼編碼來實(shí)現(xiàn)的。AAC標(biāo)準(zhǔn)中定義的霍夫曼碼,頻帶到頻帶的比例因子參數(shù)的很大的變化,導(dǎo)致邊信息形式的可用比特的過份消耗,這使比例因子推導(dǎo)變得復(fù)雜,如下節(jié)所述。
比例因子計(jì)算由于改變比例因子實(shí)現(xiàn)的噪聲分配的不確定性和使用非線性量化器臺階,計(jì)算AAC編碼器中的比例因子是非常困難的問題。在AAC中通常使用兩種技術(shù)以計(jì)算比例因子,即分析綜合法和直接從掩蔽模型(masking model)估計(jì)法,這在以下將介紹。雖然比例因子的選擇可以是任意的,但是在由標(biāo)準(zhǔn)提出的一些限制中這兩種技術(shù)是最公知的。
使用分析綜合法計(jì)算比例因子使用分析綜合法的比例因子計(jì)算是通過兩種嵌套循環(huán)實(shí)現(xiàn)的,負(fù)責(zé)量化和比特計(jì)算的內(nèi)循環(huán)和分析內(nèi)循環(huán)的結(jié)果并相應(yīng)地改變比例因子的外循環(huán)。
內(nèi)循環(huán)改變AAC比特流包含的全局增益參數(shù)以確保用來編碼音頻頻譜的比特?cái)?shù)不超過可用比特的數(shù)。全局增益被設(shè)置為初始值,頻譜被量化。然后計(jì)算使用的比特?cái)?shù)。如果使用的比特?cái)?shù)大于可用比特?cái)?shù),那么全局增益被增加,頻譜被再一次量化,并且使用的比特?cái)?shù)被重新計(jì)算。重復(fù)該過程直到使用的比特?cái)?shù)小于可用比特?cái)?shù)。因?yàn)閮?nèi)循環(huán)控制編碼比特速率,所以內(nèi)循環(huán)通常被稱為“速率循環(huán)”。
外循環(huán)分析由內(nèi)循環(huán)得到的結(jié)果并改變比例因子,使得在每個頻帶的量化噪聲盡可能地滿足心理聲學(xué)需求。外循環(huán)開始于所有比例因子被設(shè)置為零,內(nèi)循環(huán)被調(diào)用來量化該頻譜。然后計(jì)算每個頻帶的失真(量化噪聲),并將其與由心理聲學(xué)模型計(jì)算的每個頻帶的噪聲要求相比較。如果在任何頻帶的失真大于心理聲學(xué)模型計(jì)算的允許的失真,那么那個頻帶的比例因子被增加。使用調(diào)整的比例因子再一次調(diào)用內(nèi)循環(huán),重復(fù)該過程直到(1)所有頻帶的失真小于心理聲學(xué)模型計(jì)算的掩蔽級別或者(2)所有的比例因子已經(jīng)被增加。
分析綜合技術(shù)遭遇幾個問題;首先該技術(shù)非常復(fù)雜,因而不適合復(fù)雜度受限的應(yīng)用。此外,上述的雙循環(huán)處理不能保證收斂于最佳解決方案;然而,在較高的數(shù)據(jù)速率,它已經(jīng)顯示了產(chǎn)生極好的結(jié)果。
從掩蔽級別估計(jì)比例因子通過假設(shè)在頻帶中將比例因子增加一個單元導(dǎo)致在該頻帶中量化失真減少1.5dB(信噪比的增加)(全局增益和比例因子都以1.5dB的步長量化),比例因子可以直接從“Increased efficiency MPEG-2AAC Encoding”,by Smithers et al,Audio Engineering SocietyConvention Paper,Presented at the 111thConvention,2001September 21-24,New York描述的掩蔽模型中推導(dǎo)。對于該技術(shù),比例因子首先直接從掩蔽模型計(jì)算,例如,通過使用下面等式1的表達(dá)式,其中si是第i個頻帶的比例因子,mi是心理聲學(xué)模型計(jì)算的第i個頻帶的掩蔽級別。
si=-2log10(2)·log10(mi)]]>(等式1)然后該頻譜被前一部分描述的內(nèi)循環(huán)(或速率循環(huán))量化,從而消除對高復(fù)雜性外循環(huán)的需求。雖然該技術(shù)比前面描述的分析綜合技術(shù)簡單的多,從而適合復(fù)雜度受限的系統(tǒng),但是從掩蔽模型計(jì)算比例因子產(chǎn)生的比例因子,其比2循環(huán)分析綜合技術(shù)產(chǎn)生的比例因子示出了較高的頻帶到頻帶的變化。因?yàn)樵摫壤蜃颖徊罘志幋a,然后被霍夫曼編碼(較大的差意味著較長的霍夫曼碼字),比例因子的高變化意味著傳輸比例因子的比特成本非常高,這降低了掩蔽級別技術(shù)的比例因子估計(jì)的性能。
發(fā)明內(nèi)容
本發(fā)明提供了一種方法,用來降低采用自適應(yīng)比特分配的感覺音頻編碼器的總比特成本,其中音頻信號的時域表達(dá)被分為連續(xù)的時間塊,每個時間塊被分割為頻帶,為每一個頻帶分配一個比例因子,其中表示每個塊所需的比特?cái)?shù)隨著比例因子值的增加而增加,并隨著頻帶到頻帶的比例因子值的變化的增加而增加。確定每一個頻帶的初始比例因子,并優(yōu)化每一個頻帶的比例因子,該優(yōu)化包括對于一個或多個頻帶,將比例因子的值增加到大于的初始比例因子值的值,使得所述增加導(dǎo)致的比特成本的增加等于或小于因?yàn)橐粋€或多個頻帶的比例因子的增加所導(dǎo)致的頻帶到頻帶的比例因子值的變化的減少而導(dǎo)致的比特成本的減少。
上述計(jì)算AAC中比例因子的技術(shù)中沒有一個明確地考慮到傳輸比例因子到解碼器的成本。特別地,較簡單的直接推導(dǎo)技術(shù)能使得比例因子傳輸成本超過整個可用于音頻傳輸?shù)臄?shù)據(jù)速率的10%(在立體聲素材的128kbps),因此降低了解碼性能。為了解決該問題,本發(fā)明采用動態(tài)編程優(yōu)化技術(shù),包括,例如,格子和維特比搜索算法,以減少在AAC(MPEG-2/4高級音頻編碼)傳輸比例因子信息的比特成本。本發(fā)明最小化了成本函數(shù),在傳輸比例因子的成本和從初始比例因子計(jì)算技術(shù)得到的初始值改變該比例因子的成本之間折衷。具體地,為了減小從一個比例因子頻帶到下一個的比例因子值的變化的范圍,具有比其他比例因子更低的值的比例因子可以被改變到更高值。雖然比例因子值的增加引起更多的比特分配到比例因子頻帶,但是因?yàn)轭l帶到頻帶的差被霍夫曼編碼使得碼長隨著頻帶頻帶的變化的增加而增加,所以降低頻帶到頻帶的比例因子比例因子的變化程度,節(jié)省了總比特量??偙忍毓?jié)省使得更多比特可用于量化器以分配到這樣的比例因子頻帶,這些頻帶不同于那些其中為了減小頻帶到頻帶的變化而增加比例因子值的頻帶,因此引起了感覺音頻質(zhì)量的改進(jìn)。
雖然本發(fā)明可用于在量化器中采用2個嵌套循環(huán)的AAC形式以獲得初始比例因子,所述的2個嵌套循環(huán)是內(nèi)迭代循環(huán)和外迭代循環(huán)(在上述Bosi et al的論文中所描述的),但是當(dāng)采用其中省略了使用分析綜合法計(jì)算量化誤差和推導(dǎo)比例因子的外循環(huán)的AAC形式,并且使用由AAC編碼器的感覺模型部分推導(dǎo)的掩蔽閾值估計(jì)初始比例因子時,本發(fā)明特別有用。該修改的AAC形式在上述的Smithers et al的會議論文中描述。根據(jù)本發(fā)明的動態(tài)編程技術(shù)在計(jì)算復(fù)雜度方面基本上比省略外循環(huán)的低,但是產(chǎn)生了具有與采用兩個嵌套循環(huán)的AAC編碼器產(chǎn)生的編碼信號基本上相同質(zhì)量的編碼信號。
圖1是根據(jù)本發(fā)明的結(jié)合了動態(tài)編程比例因子優(yōu)化的編碼處理的功能性示意方框圖。
圖2是顯示將維特比搜索算法應(yīng)用到本發(fā)明優(yōu)選采用的類型的比特成本等式的簡化流程圖。
圖3是在直接比例因子估計(jì)技術(shù)產(chǎn)生初始比例因子和根據(jù)本發(fā)明的比特成本優(yōu)化產(chǎn)生的被調(diào)整比例因子的情況下,示例性比例因子值相對于比例因子頻帶的圖。
圖4是示例性波形圖,該波圖形顯示直接比例因子估計(jì)技術(shù)產(chǎn)生的每個幀的比例因子的比特成本和從根據(jù)本發(fā)明的比特成本優(yōu)化產(chǎn)生的調(diào)整的比例因子的比特成本。
具體實(shí)施例方式
圖1顯示了根據(jù)本發(fā)明的結(jié)合了動態(tài)編程比例因子優(yōu)化的AAC編碼過程的簡單的、高級示意圖。該圖顯示了結(jié)合從上述模型信息直接比例因子估計(jì)的根據(jù)本發(fā)明的比例因子優(yōu)化。雖然使用本發(fā)明的技術(shù)可以改進(jìn)其他比例因子推導(dǎo)技術(shù),但是本發(fā)明尤其適合于使用該直接估計(jì)技術(shù)。
在圖1中,輸入音頻使用MDCT2轉(zhuǎn)換,接著是預(yù)處理4(例如時域噪聲整形(TNS),立體聲應(yīng)用中的預(yù)測和中間側(cè)面編碼(MS))。該輸入也能傳遞給心理聲學(xué)模型6,其計(jì)算掩蔽級別。如上所述,掩蔽模型被直接用來計(jì)算每個頻帶的比例因子(“比例因子計(jì)算”8)。雖然該技術(shù)推導(dǎo)的初始比例因子十分接近地估計(jì)了心理聲學(xué)需求,但是高的頻帶到頻帶的比例因子值的變化導(dǎo)致了高傳輸成本。為了最小化該成本,根據(jù)本發(fā)明的比例因子優(yōu)化10在將初始比例因子應(yīng)用在速率循環(huán)12中的MDCT頻譜和無噪聲編碼(差分霍夫曼編碼)14之前處理初始因子。
假設(shè)在頻帶中將比例因子值增加一個單元將在該頻帶中使用的比特?cái)?shù)每個MDCT系數(shù)增加1/4比特。雖然由于信號未知的隨機(jī)特性以及AAC使用的非均勻量化器,這并不總是精確的,但是平均來說這是合理的假設(shè)。進(jìn)一步假設(shè),初始比例因子已經(jīng)被分析綜合或直接掩蔽估計(jì)技術(shù)確定用于合適的心里聲學(xué)性能。以下成本公式折衷了比例因子傳輸?shù)某杀竞蛻?yīng)用更多比特到特殊頻帶的成本。以下等式2給出成本函數(shù)。
C=Σi(αi(s~i-si)4Bi+D(s~i-s~i-1)-D(si-si-1))]]>(等式2)在等式2中,C是改變比例因子的總成本,為了減少比例因子傳輸?shù)南鄬Τ杀?,C盡可能的設(shè)為負(fù)。符號si表示例如為了心理聲學(xué)的考慮由上述的任一技術(shù)推導(dǎo)的初始比例因子。此外, 是等式2中新的一組比例因子,Bi是第i個比例因子頻帶的系數(shù)的個數(shù)。函數(shù)D()是差分編碼比例因子的霍夫曼查找。每個頻帶比例αi是0到1之間的值,其估計(jì)要被量化為非零值的MDCT系數(shù)的數(shù)量。參數(shù)αi是比例因子值的函數(shù),是可選擇的(如果省略的話,其被等于1的常數(shù)值代替)但是如果精確估計(jì)的話其能大大地改進(jìn)算法的性能。在這個等式中,如果該比例因子只是從初始值輕微地修改,則假設(shè)αi是常數(shù)。為了簡便起見,這可以通過計(jì)算具有大于某預(yù)定閾值的絕對值的頻帶中的MDCT系數(shù)的數(shù)量的獲得。
對于等式2中的比例因子比特成本,新的比例因子只被允許采取大于或等于初始值的值,因此如果增加的比例因子產(chǎn)生的附加比特比比例因子差分編碼成本要低,則該系統(tǒng)不能減少分配到頻帶的比特,而只能增加比特的數(shù)量。函數(shù)D(si-si-1)是應(yīng)用于初始比例因子組的差分編碼的比例因子的霍夫曼查找,在等式2中是常數(shù),并在實(shí)踐中可以被刪除。
期望優(yōu)化每個比例因子頻帶的比例因子值,以最小化所需比特的總數(shù)量。一個合適的優(yōu)化可以這樣實(shí)現(xiàn),即通過增加格子(有時被稱為“網(wǎng)格”),使得它的在每個連續(xù)的級或級別處的節(jié)點(diǎn)(比例因子頻帶“i”)是該級的可能的狀態(tài)(比例因子“k”),并且通過使用合適的搜索算法來獲得,諸如維特比搜索算法,其是尤其適合于格子的最小成本搜索技術(shù)。在本文中,維特比算法確定了通過格子的最小比特路徑,因此優(yōu)化了每個比例因子頻帶的比例因子。該維特比算法通過從前一個節(jié)點(diǎn)(比例因子值)發(fā)現(xiàn)最好擴(kuò)展(最低比特率)來計(jì)算到每一級(比例因子頻帶)的每個節(jié)點(diǎn)(比例因子值)的最佳(最便宜的)路徑。為每一級(比例因子頻帶)執(zhí)行這樣的計(jì)算直到最后一級。在每一級(比例因子頻帶),該算法跟蹤(1)到每個節(jié)點(diǎn)(比例因子值)中的最佳路徑,和(2)直到該節(jié)點(diǎn)(比例因子值)的累積成本。知道到一個節(jié)點(diǎn)中的最佳路徑等于知道在每個節(jié)點(diǎn)(比例因子)值的最佳在先節(jié)點(diǎn)(比例因子)值,因此確定通過該格子的最佳路徑并最小化所需比特的總量。對于數(shù)字音頻的每個連續(xù)幀(塊)優(yōu)化每個比例因子頻帶的比例因子。該維特比搜索算法是眾所周知的。例如參見Chapter 15(“Tree and Trellis Encoding”)of Vector Quantization andSignal Compression by Allen Gersho and Robert M.Gray,KluwerAcademic Publishers,Boston,1992,pp.555-586。
更具體地,為了最小化等式2中的成本函數(shù),可以如下采用動態(tài)編程優(yōu)化技術(shù),諸如維特比算法。格子或網(wǎng)格是使用第i級的第k格表示為Sk,i的狀態(tài)構(gòu)建,在任何狀態(tài)k和級i的累積成本表示為Ck,i。網(wǎng)格中每個狀態(tài)表示了在優(yōu)化之后設(shè)置的新比例因子的可能值。然后使用下面兩步計(jì)算該算法1)初始化i=0和Ck,i=02)對于所有使得Sk,i>si的k(si是初始比例因子組)找出Ck,i=min(αi(Sk,i-si)4Bi+D(Sk,i-Sl,i-1)+Cl,i-1)∀l]]>(等式3)3)如果i<比例因子頻帶的數(shù)量,i=i+1,返回到步驟2該新的一組比例因子 是通過網(wǎng)格的路徑,使得Ck,i在最后一級被最小化。維特比搜索算法是公知的,有效實(shí)現(xiàn)技術(shù)是廣泛可用的。維特比搜索算法的替代算法可以是例如其他網(wǎng)格優(yōu)化技術(shù)。
等式3的維特比搜索算法的應(yīng)用實(shí)例現(xiàn)在結(jié)合圖2的流程圖描述。
圖2顯示了采用維特比搜索算法以為每個數(shù)字音頻幀最小化等式3的成本函數(shù)的處理的流程圖。如塊102所示,首先,考慮心理聲學(xué)的需求估計(jì)每個比例因子頻帶的比例因子。這可以通過例如上面提到的Smithers et al的論文中描述的方法實(shí)現(xiàn)。
每個比例因子頻帶的比例因子表示為陣列,SF[i],其中變量“i”的范圍可以是0到N-1,其中N是音頻幀中的比例因子頻帶的數(shù)量。第二陣列,Cost[k],表示通過網(wǎng)格的路徑的累積成本。矩陣,History[i][k],存儲到格子中的一個級(比例因子頻帶)中的每個節(jié)點(diǎn)(比例因子值)的最便宜路徑。變量“k”(比例因子值)的范圍可以是從0到MAX-1,其中MAX是比例因子值的數(shù)量。
級(比例因子頻帶)計(jì)數(shù)器“i”在初始化塊104中被初始化為0,其除了將比例因子頻帶“i”初始化為0,還將History[i][k]初始化為0,Cost[k]初始化為0。該級計(jì)數(shù)器在塊116中被增加,直到判決塊114確定所有的比例因子頻帶i被處理。
對于格子中的每一級(比例因子頻帶)i,確定到該級中的每一節(jié)點(diǎn)(比例因子值)k的最便宜路徑。這使用兩個嵌套的循環(huán),即循環(huán)108和循環(huán)110來實(shí)現(xiàn)。
判決塊118中的變量k被塊116初始化為0,并被第一嵌套循環(huán)108即“k”循環(huán)的塊128增加,直到由第i級(第i個比例因子頻帶)的節(jié)點(diǎn)表示的所有可能的比例因子值被使用第二嵌套循環(huán)110,“m”循環(huán)來檢查成本。在塊130,如果第i個比例因子頻帶的比例因子值大于或等于該比例因子頻帶的初始比例因子估計(jì)值(塊102),那么第二嵌套循環(huán)110根據(jù)等式3計(jì)算從第i-1級(第i-1比例因子頻帶)到第i級(第i比例因子頻帶)的累積路徑成本。如果比例因子不是大于或等于該比例因子頻帶的初始比例因子,那么該比例因子頻帶的累積成本被設(shè)置為例如任意大的值以確保通過該格子的路徑是不可能的。判決塊124的編碼m被塊122初始化為0,并被第二嵌套循環(huán)110的塊132增加。變量m(過去的路徑的節(jié)點(diǎn)數(shù)量)的范圍可以是0到MAX-1,其中MAX是過去的路徑節(jié)點(diǎn)的數(shù)量。
每個過去的路徑節(jié)點(diǎn)的組的累積成本被存儲在臨時的陣列,TempCost[m],其值由下式給出TempCost[m]=Cost[m]+Alpha[i]*(k-SF[i])*B[i]/4+D(k-m),其中Alpha[i]是每個比例因子頻帶比例用于補(bǔ)償0量化MDCT系數(shù)(參見等式3的αi),B[i]是比例因子頻帶(參見等式3的Bi),D()是比例因子傳輸成本的霍夫曼查找表(參見等式3)。在塊130計(jì)算和存儲過去的路徑圖節(jié)點(diǎn)m的所有可能值的臨時累積成本。一旦計(jì)算了從每個可能的過去路徑m轉(zhuǎn)換到現(xiàn)在節(jié)點(diǎn)k的累積成本,如判決塊124確定,那么就在塊126找到最小成本并將其存儲在Cost2[k]中。此外,在塊126到第i級和第k節(jié)點(diǎn)的最便宜的路徑被存儲矩陣在History[i][k]中。
一旦在第i級的所有現(xiàn)在的節(jié)點(diǎn)k已經(jīng)被處理,如被判決塊118確定,那么在塊120,陣列Cost2[k]被復(fù)制到嵌套的i循環(huán)陣列Cost[k]中,并重復(fù)處理直到所有的比例因子頻帶被處理。
一旦所有的頻帶被處理,如被判決塊114確定,陣列Cost[k]包括通過格子的每個路徑的累積成本。陣列Cost[k]的最小值由塊134確定,并且到該值(L)的索引標(biāo)識最后比例因子頻帶(i=N-1)的新的被調(diào)整的比例因子值?!癷”計(jì)數(shù)器然后從i=N-1開始被第二(非嵌套的)i循環(huán)112的塊140重復(fù)地遞減。矩陣History[i][k]用來隨著比例因子頻帶i從N-1退回到0通過格子追溯以發(fā)現(xiàn)沿著最便宜路徑的每個在先節(jié)點(diǎn),從而為每個比例因子頻帶識別最佳比特成本比例因子值,其被提供在輸出146。這通過在循環(huán)112中的塊140中重復(fù)遞減i并在塊142中為每個比例因子頻帶i確定歷史最佳比例因子值k來實(shí)現(xiàn)。塊144隨著i從N-1遞減到0為每個向后連續(xù)比例因子頻帶識別新的、被調(diào)整的比例因子值。
圖3顯示了將本發(fā)明的比例因子優(yōu)化應(yīng)用到通過對單個AAC音頻幀的直接估計(jì)技術(shù)獲得的初始比例因子的效果。圖3中圓圈代表未調(diào)整的比例因子;加號繪出的點(diǎn)代表根據(jù)本發(fā)明的應(yīng)用方法調(diào)整過的比例因子。根據(jù)本發(fā)明的該比例因子優(yōu)化技術(shù)大大減小了比例因子的變化。此外,被調(diào)整的比例因子總是被增加,不僅僅節(jié)省比特總量,而且作為總比特節(jié)省的結(jié)果降低量化噪聲,這不僅僅發(fā)生在比例因子增加的頻帶,還發(fā)生在其它頻帶(從而允許更多的比特分配到其他頻帶)。比特節(jié)省通過圖4所示的技術(shù)獲得,其繪出了使用和不使用根據(jù)本發(fā)明的優(yōu)化技術(shù)單個音頻片斷的每個幀的比例因子的傳輸成本。圖4中上面的一條線是不應(yīng)用本發(fā)明的傳輸成本,而底下的那條線顯示了使用本發(fā)明的比特傳輸成本。從圖4中,可以看出用于比例因子傳輸?shù)拿繋谋忍爻杀颈槐景l(fā)明大大地減少了。
應(yīng)當(dāng)理解,本發(fā)明的其他變換和修改的實(shí)現(xiàn)和其各個方面對于本領(lǐng)域的技術(shù)人員來說是清楚的,本發(fā)明不是由上述的具體實(shí)施例所限定。因此可以預(yù)期本發(fā)明覆蓋任何的和所有的落在公開的和這里要求保護(hù)的基本原理的真實(shí)精神和范圍內(nèi)的修改、變化或等價物。
本發(fā)明和它的各個方面可以作為在數(shù)字信號處理器、可編程通用數(shù)字計(jì)算機(jī)和/或?qū)S脭?shù)字計(jì)算機(jī)中的執(zhí)行的軟件功能實(shí)現(xiàn)。模擬和數(shù)字信號流之間的接口可以在合適的硬件和/或作為軟件和/或固件的功能執(zhí)行。
權(quán)利要求
1.一種降低采用自適應(yīng)比特分配的感覺音頻編碼器的總比特成本的方法,其中音頻信號的時域表達(dá)被分割為連續(xù)的時間塊,每個時間塊被分割為頻帶,為每一個所述頻帶分配比例因子,其中表示每個塊所需的比特?cái)?shù)隨著所述比例因子值的增加而增加,并隨著頻帶到頻帶的比例因子值的變化的增加而增加,所述方法包括確定每一個所述頻帶的初始比例因子,以及優(yōu)化每一個所述頻帶的所述比例因子,所述優(yōu)化包括對于一個或多個所述頻帶將所述比例因子的值增加到大于所述初始比例因子值的值,使得所述增加導(dǎo)致的比特成本的增加等于或小于因?yàn)橐粋€或多個所述頻帶的比例因子的增加所導(dǎo)致的頻帶到頻帶的比例因子值的變化的減少而導(dǎo)致的比特成本的降低。
2.如權(quán)利要求1所述的方法,其中所述優(yōu)化步驟包括最小化比特成本函數(shù)。
3.如權(quán)利要求2所述的方法,其中所述最小化步驟將通過格子的路徑的比特成本最小化,其中所述格子的節(jié)點(diǎn)是每個連續(xù)的比例因子頻帶的可能的比例因子值。
4.如權(quán)利要求3所述的方法,其中所述最小化步驟由維特比搜索算法執(zhí)行。
5.如權(quán)利要求1-4任何一個所述的方法,其中所述感覺音頻編碼器對相鄰頻帶的比例因子值之間的差進(jìn)行霍夫曼編碼,其中頻帶到頻帶的比例因子值的變化的增加增加了所述霍夫曼編碼所需的比特?cái)?shù)。
6.如權(quán)利要求1-5任何一個所述的方法,其中所述為所述每個頻帶推導(dǎo)初始比例因子的步驟采用至少一個迭代循環(huán)。
7.如權(quán)利要求6所述的方法,其中所述感覺音頻編碼器產(chǎn)生掩蔽模型,并且所述推導(dǎo)步驟采用一個迭代循環(huán)并基于所述掩蔽模型計(jì)算比例因子。
全文摘要
感覺編碼器將音頻信號劃分為連續(xù)的時間塊,每個時間塊被分割為頻帶,為每一個頻帶分配一個比例因子。每個塊的比特隨著比例因子值的增加而增加,并隨著頻帶到頻帶的比例因子值的變化的增加而增加。確定每一個頻帶的初始比例因子,并優(yōu)化每一個頻帶的比例因子,該優(yōu)化包括對于一個或多個的頻帶將比例因子的值增加到大于初始比例因子值的值,使得所述增加導(dǎo)致的比特成本的增加等于或小于因?yàn)橐粋€或多個頻帶的比例因子的增加所導(dǎo)致的頻帶到頻帶的比例因子值的變化的減少而導(dǎo)致的比特成本的減少。
文檔編號G10L19/02GK1735925SQ200380108172
公開日2006年2月15日 申請日期2003年12月16日 優(yōu)先權(quán)日2003年1月2日
發(fā)明者馬克·S.·溫登 申請人:杜比實(shí)驗(yàn)室特許公司