專利名稱:多信道音頻編碼的制作方法
技術領域:
本發(fā)明一般涉及音頻信號處理。本發(fā)明尤其適用于低比特率和甚低比特率音頻信號處理。具體地說,本發(fā)明的方面涉及編碼器(或編碼過程),解碼器(或解碼過程),和音頻信號的編碼/解碼系統(tǒng)(或編碼/解碼過程),其中多個音頻信道用復合單聲音頻信道和輔助(“側(cè)鏈”)信息來表示?;蛘?,多個音頻信道用多個音頻信道和側(cè)鏈信息來表示。 本發(fā)明的方面還涉及多信道-復合單聲信道下混合器(或下混合過程),單聲信道-多信道上混合器(或上混合過程),和單聲信道_多信道解相關器(或解相關過程)。本發(fā)明其他方面涉及多信道_多信道下混合器(或下混合過程),多信道_多信道上混合器(或上混合過程),和解相關器(或解相關過程)。
背景技術:
在AC-3數(shù)字音頻編碼和解碼系統(tǒng)中,當系統(tǒng)缺少比特時,可以有選擇地在高頻對信道進行合并或“耦合”。AC-3系統(tǒng)的細節(jié)在本技術領域是眾所周知的,例如參見ATSC Standard A52/A :Digital Audio Compression Standard(A C_3), Revision A, Advanced Television Systems Committee, 20 Aug. 2001。A/52A文獻可以從萬維網(wǎng)上的http://www. atsc. org/standards. html得到。A/52A文獻在此全部包含作為參考。AC-3系統(tǒng)根據(jù)需要以高于某一頻率對信道進行合并,這一頻率被稱為“耦合”頻率。高于耦合頻率時,所耦合的信道被合并成“耦合”或復合信道。編碼器為每一信道中高于耦合頻率的每一子帶產(chǎn)生“耦合坐標”(振幅比例因子)。耦合坐標表示每一耦合信道子帶的原始能量與復合信道中相應子帶的能量的比率。低于耦合頻率時,信道被分立地編碼。 為了減少異相信號分量抵消,耦合信道的子帶的相位極性在該信道與一個或多個其他耦合信道合并之前可以先被反向。復合信道與側(cè)鏈信息(按每一子帶含有耦合坐標以及信道相位是否反向)一起被發(fā)送到解碼器。實際上,AC-3系統(tǒng)的商用實施方式中所用的耦合頻率的范圍是從約 IOkHz 到約 3500Hzο 美國專利 5,583,962,5, 633,981,5, 727,119,5, 909,664 和6,021,386包括一些教導,涉及將多個音頻信道合并成復合信道以及輔助或側(cè)鏈信息, 和由此恢復出原始多個信道的近似。所述專利中的每一個在此全部包含作為參考。
發(fā)明內(nèi)容
本發(fā)明的方面可以被認為是AC-3編碼和解碼系統(tǒng)的“耦合”技術的改進,同時也是如下其他技術的改進將多個音頻信道合并成單聲復合信號,或合并成多個音頻信道連同相關輔助信息,以及重建多個音頻信道。本發(fā)明的方面還可以被認為是這樣一些技術的改進將多個音頻信道下混合到單聲音頻信號或下混合到多個音頻信道,和將從單聲音頻信道或從多個音頻信道得到的多個音頻信道解相關。
本發(fā)明的方面可以用于N: 1 :N的空間音頻編碼技術中(其中“N”是音頻信道數(shù)) 或M: 1 :N的空間音頻編碼技術中(其中“M”是編碼的音頻信道數(shù)而“N”是解碼的音頻信道數(shù)),這些技術尤其通過提供改進的相位補償、解相關機制和與信號相關的可變時間常數(shù)來改進信道耦合。本發(fā)明的方面還可以用于N:X:N和M:X:N的空間音頻編碼技術中(其中 “X”可以是1或大于1)。目的在于,在下混合之前通過調(diào)整信道間相對相位來減小編碼過程中的耦合抵消人為產(chǎn)物,和通過在解碼器中恢復相角和解相關度來改進再現(xiàn)信號的空間維度。本發(fā)明的方面在實際實施方式中體現(xiàn)時,應當考慮到連續(xù)不斷的而不是請求式的信道耦合以及比例如AC-3系統(tǒng)中更低的耦合頻率,從而降低所需的數(shù)據(jù)率。
圖1是示出體現(xiàn)本發(fā)明的方面的N: 1編碼配置的主要功能或設備的理想化框圖。
圖2是示出體現(xiàn)本發(fā)明的方面的1:N解碼配置的主要功能或設備的理想化框圖。圖3示出了下述內(nèi)容的簡化的概念性結(jié)構的一個例子沿(縱向)頻率軸的bin 和子帶,和沿(橫向)時間軸的塊和幀。該圖沒有按比例繪制。圖4具有混合流程圖和功能框圖的性質(zhì),示出了用于實現(xiàn)體現(xiàn)本發(fā)明的方面的編碼配置的功能的編碼步驟或設備。圖5具有混合流程圖和功能框圖的性質(zhì),示出了用于實現(xiàn)體現(xiàn)本發(fā)明的方面的解碼配置的功能的解碼步驟或設備。圖6是示出體現(xiàn)本發(fā)明的方面的第一種N:X編碼配置的主要功能或設備的理想化框圖。圖7是示出體現(xiàn)本發(fā)明的方面的x:M解碼配置的主要功能或設備的理想化框圖。圖8是示出體現(xiàn)本發(fā)明的方面的第一種可選X:M解碼配置的主要功能或設備的理想化框圖。圖9是示出體現(xiàn)本發(fā)明的方面的第二種可選x:M解碼配置的主要功能或設備的理想化框圖。
具體實施例方式基本N: 1編碼器參照圖1,示出了體現(xiàn)本發(fā)明的方面的N:1編碼器功能或設備。該圖是作為體現(xiàn)本發(fā)明的方面的基本編碼器所實現(xiàn)的功能或結(jié)構的一個例子。實施本發(fā)明的方面的其他功能或結(jié)構配置也可以使用,包括如下所述的可選和/或等價的功能或結(jié)構配置。兩個或兩個以上音頻輸入信道輸入到編碼器。盡管原則上本發(fā)明的方面可以用模擬、數(shù)字或混合模擬/數(shù)字實施方式來實施,但本文所公開的例子是數(shù)字實施方式。因此, 輸入信號可以是已從模擬音頻信號中得到的時間樣值。時間樣值可以被編碼成線性脈碼調(diào)制(PCM)信號。每個線性PCM音頻輸入信道都由具有同相和正交輸出的濾波器組功能或設備進行處理,比如通過512點開窗的正向離散傅里葉變換(DFT)(由快速傅里葉變換(FFT) 所實現(xiàn))進行處理。濾波器組可以被認為是一種時域-頻域變換。圖1示出了各自輸入到濾波器組功能或設備“濾波器組” 2的第一 PCM信道輸入 (信道“1”)和輸入到另一濾波器組功能或設備“濾波器組” 4的第二 PCM信道輸入(信道“η”)??梢杂小唉恰眰€輸入信道,其中“η”是大于等于2的正整數(shù)。因此,相應地有“η”個濾波器組,每個都接收“η”個輸入信道中的唯一一個信道。為了便于說明,圖1只示出了兩個輸入信道“1”和“η”。當用FFT實現(xiàn)濾波器組時,輸入時域信號被分割成連續(xù)的塊,然后通常以交疊的塊進行處理。FFT的離散頻率輸出(變換系數(shù))稱之為bin,每個bin都有一個具有實部和虛部(分別相應于同相和正交分量)的復值。鄰接的變換bin可以組合成接近于人耳聽覺臨界帶寬的子帶,并且由編碼器產(chǎn)生的大部分側(cè)鏈信息(如下所述)可以按每一子帶進行計算和發(fā)送,以便最大限度地減少處理資源和降低比特率。多個連續(xù)的時域塊可以組合成幀,單個塊的值在每幀上進行平均或反過來進行合并或累積,以便最大限度地降低側(cè)鏈數(shù)據(jù)率。在本文所述的例子中,每一濾波器組都通過FFT實現(xiàn),鄰接的變換bin被組合成子帶, 塊被組合成幀,而側(cè)鏈數(shù)據(jù)每幀發(fā)送一次?;蛘?,側(cè)鏈數(shù)據(jù)可以每幀發(fā)送一次以上(如每塊一次)。例如參見以下圖3及其描述。眾所周知,在發(fā)送側(cè)鏈信息的頻率與所需的比特率之間有一個折衷。當使用48kHz采樣率時,本發(fā)明的方面的一種適宜的實際實現(xiàn)方式可以使用約32 毫秒的固定長度幀,每一幀有6個相互間隔約為5. 3毫秒的塊(例如采用持續(xù)時間約為 10. 6毫秒有50%交疊的塊)。然而,假如這里所述的按每幀發(fā)送的信息以不低于約每隔40 毫秒的頻率發(fā)送,那么這種時序、固定長度幀的使用及其固定個數(shù)的塊的劃分對實施本發(fā)明的方面而言都不是關鍵所在。幀可以具有任意長度,而且其長度可以動態(tài)變化。正如上述AC-3系統(tǒng)中那樣,可以使用可變塊長度。條件是在此要參照“幀”和“塊”。實際上,如果復合單聲或多信道信號或者復合單聲或多信道信號和離散低頻信道通過例如感覺編碼器來編碼(如下所述),那么可以方便地使用感覺編碼器中所用的相同的幀和塊結(jié)構。此外,如果該編碼器使用可變塊長度使得可以隨時從一個塊長度切換到另一個塊長度,那么,當這種塊切換發(fā)生時,最好更新本文所述的一個或多個側(cè)鏈信息。為了使數(shù)據(jù)開銷增量最小,當隨著這種切換的發(fā)生而更新側(cè)鏈信息時,可以降低所更新側(cè)鏈信息的頻率分辨率。圖3示出了下述內(nèi)容的簡化的概念性結(jié)構的一個例子沿(縱向)頻率軸的bin 和子帶,和沿(橫向)時間軸的塊和幀。當一些bin被劃分為接近于臨界頻帶的子帶時,最低頻率子帶具有最少的bin(比如1個),而每一子帶的bin個數(shù)隨頻率提高而增加?;氐綀D1,由每個信道的各自濾波器組(本例中的濾波器組2和4)所產(chǎn)生的η個時域輸入信道中的每一個的頻域形式通過加性合并功能或設備“加性合并器”6被一起合并 (“下混合”)為單聲復合音頻信號。下混合可以應用于輸入音頻信號的整個頻率帶寬,或者它可以可選地限于給定 “耦合”頻率以上的頻率,因為下混合過程的人為產(chǎn)物在中頻到低頻可聽得更清楚。在這些情況下,在耦合頻率以下信道可以離散傳送。這種策略即使在處理人為產(chǎn)物不成問題時也能合乎要求,這是因為,將變換bin組合成臨界頻帶類的子帶(寬度與頻率大致成比例)所構成的中/低頻子帶使得在低頻時有較少的變換bin(在甚低頻只有一個bin),并可以直接用少數(shù)幾個比特或比發(fā)送具有側(cè)鏈信息的下混合單聲音頻信號所需更少的比特來編碼。低至4kHz、2300Hz、1000Hz甚至低至輸入到編碼器的音頻信號的頻帶的最低頻率的耦合或過渡頻率可適用于某些應用,尤其適用于甚低比特率顯得重要的應用。其他頻率可以在節(jié)省比特與聽眾接受之間提供有益的平衡。具體耦合頻率的選擇對本發(fā)明來說并不是關鍵。耦合頻率可以變化,而且如果變化,那么該頻率可以例如直接或間接地取決于輸入信號特性。本發(fā)明的一個方面在于,在下混合之前改進信道彼此之間的相角對準,以便當信道被合并時減少異相信號分量抵消并提供改進的單聲復合信道。這可以通過隨時間可控地對這些信道中 的一些信道上的某些或所有變換bin的“絕對角度”進行偏移來實現(xiàn)。例如, 必要時,在每一信道中或者當以某個信道作參考時在除該參考信道外的所有信道中,隨時間可控地對表示高于耦合頻率的音頻(從而規(guī)定了所關心的頻帶)的所有變換bin進行偏移。bin的“絕對角度”可以認為是濾波器組所產(chǎn)生的每一復值變換bin的幅度-角度表達式中的角度。信道中的bin的絕對角度的可控偏移可以利用角度轉(zhuǎn)動功能或設備(“轉(zhuǎn)動角度”)來實現(xiàn)。濾波器組2的輸出在被應用于加性合并器6所提供的下混合合并之前, 轉(zhuǎn)動角度8先對其進行處理,而濾波器組4的輸出在被應用于加性合并器6之前,轉(zhuǎn)動角度 10先對其進行處理。應當理解,在某些信號條件下,特定的變換bin在某一時間段(在這里所述的例子中為一幀的時間段)上可以不需要角度轉(zhuǎn)動。低于耦合頻率時,信道信息可以離散編碼(圖1中未示出)。原則上,信道彼此之間的相角對準的改善可以通過在所關心的整個頻帶上的每個塊中使每個變換bin或子帶偏移其絕對相角的負值來完成。盡管這樣基本上避免了異相信號分量抵消,然而,尤其當孤立傾聽所得到的單聲復合信號時,往往會造成可聽得見的人為產(chǎn)物。因此,最好采用“最少處理”原則根據(jù)需要只對信道中bin的絕對角度進行偏移,以便最大限度地減少下混合過程中的異相抵消和最大限度地減少解碼器所重建的多信道信號的空間聲像崩潰。一些用于確定這種角度偏移的技術如下所述。這些技術包括時間和頻率平滑方法以及信號處理對發(fā)生瞬變作出響應的方式。此外,如下所述,還可以在編碼器中按每一 bin進行能量歸一化,以進一步減少孤立bin的其余任意異相抵消。如下進一步所述,還可以(在解碼器中)按每一子帶進行能量歸一化,以確保單聲復合信號的能量等于起作用信道的能量總和。每一輸入信道都有一個與其相關的音頻分析器功能或設備(“音頻分析器”),用于產(chǎn)生該信道的側(cè)鏈信息,和用于在控制了應用于信道的角度轉(zhuǎn)動量或度數(shù)之后才將其輸入到下混合合并6。信道1和η的濾波器組輸出分別輸入到音頻分析器12和音頻分析器14。 音頻分析器12產(chǎn)生信道1的側(cè)鏈信息和信道1的相角轉(zhuǎn)動量。音頻分析器14產(chǎn)生信道η 的側(cè)鏈信息和信道η的相角轉(zhuǎn)動量。應當理解,本文中這些所謂“角度”指的是相角。每個信道的音頻分析器所產(chǎn)生的每個信道的側(cè)鏈信息可以包括振幅比例因子(“振幅SF” ),角度控制參數(shù),解相關比例因子(“解相關SF” ),瞬變標志,和可選內(nèi)插標志。這樣的側(cè)鏈信息可以表征為“空間參數(shù)”,表示信道的空間特性和/或表示可能與空間處理有關的信號特性(比如瞬變)。在每種情況下,側(cè)鏈信息都將應用于單個子帶(除了瞬變標志和內(nèi)插標志之外,每一側(cè)鏈信息都將應用于信道內(nèi)的所有子帶),并且可以每幀更新一次(如以下例子中所述)或者當在相關編碼器中出現(xiàn)塊切換時進行更新。各種空間參數(shù)的進一步的細節(jié)如下所述。編碼器中的具體信道的角度轉(zhuǎn)動可以被認為是極性反向的角度控制參數(shù),它是側(cè)鏈信息的一部分。如果使用參考信道,那么該信道可以不需要音頻分析器,或者可以需要只產(chǎn)生振幅比例因子側(cè)鏈信息的音頻分析器。如果解碼器可以根據(jù)其他非參考信道的振幅比例因子推斷出具有足夠精度的振幅比例因子,那么未必發(fā)送該振幅比例因子。如下所述,如果編碼器中的能量歸一化確保任意子帶內(nèi)的所有信道上的比例因子實際平方和為1,那么在解碼器中可以推斷出參考信道的振幅比例因子的近似值。由于振幅比例因子的相對粗量化導致所再現(xiàn)的多信道音頻中的聲像移位,因此推斷出的近似參考信道振幅比例因子值可能有誤差。然而,在低數(shù)據(jù)率情況下,這種人為產(chǎn)物與使用比特來發(fā)送參考信道的振幅比例因子的情況相比更可接受。不過,在某些情況下,參考信道最好使用至少能產(chǎn)生振幅比例因子側(cè)鏈信息的音頻分析器。圖1用虛線來表示到每個音頻分析器的可選輸入(從PCM時域輸入到該信道中的音頻分析器)。音頻分析器利用這一輸入來檢測某一時間段(在這里所述的例子中為一個塊或幀的時間段)上的瞬變,并響應這一瞬變產(chǎn)生瞬變指示符(例如1比特“瞬變標志”)。 或者,如以下圖4的步驟408的解釋中所述,可以在頻域中檢測瞬變,這樣,音頻分析器不必接收時域輸入。單聲復合音頻信號和所有信道(或除參考信道外的所有信道)的側(cè)鏈信息可被存儲、傳送或者存儲和傳送到解碼過程或設備(“解碼器”)。在進行存儲、傳送或者存儲和傳送之前,各種音頻信號和各種側(cè)鏈信息可以被復用和打包到一個或多個適用于存儲、傳送或者存儲和傳送媒介或媒體的比特流中。在進行存儲、傳送或者存儲和傳送之前,單聲復合音頻可以輸入到數(shù)據(jù)率下降編碼過程或設備(比如感覺編碼器)或者輸入到感覺編碼器和熵編碼器(比如算術或霍夫曼編碼器)(有時也稱之為“無損”編碼器)。此外,如上所述, 只對于高于某一頻率(“耦合”頻率)的音頻,才可以從多個輸入信道中得到單聲復合音頻和相關側(cè)鏈信息。在這種情況下,多個輸入信道的每一個中的低于耦合頻率的音頻可以作為離散信道進行存儲、傳送或者存儲和傳送,或者可以按與這里所述不同的某種方式進行合并或處理。這些離散的或反過來合并的信道也可以輸入到數(shù)據(jù)下降編碼過程或設備(比如感覺編碼器,或者感覺編碼器和熵編碼器)。單聲復合音頻和離散多信道音頻都可以輸入到綜合感覺編碼或者感覺和熵編碼過程或設備。在編碼器比特流中載送側(cè)鏈信息的具體方式對本發(fā)明而言并不是關鍵。需要時, 側(cè)鏈信息可以按比如比特流與老式解碼器兼容(即比特流是向后兼容的)的方式進行載送。完成這項工作的許多合適技術是已知的。例如,許多編碼器產(chǎn)生了具有解碼器忽略的未用或無效比特的比特流。這種配置的一個例子如美國專利6,807,528B1中所述,該專利在此全部包含作為參考,它由Truman等人于2004年10月19日申請,名稱為“Adding Data to a Compressed Data Frame”。這些比特可以用側(cè)鏈信息來代替。另一個例子是,側(cè)鏈信息可以在編碼器的比特流中進行加密編碼。此外,還可利用允許這種側(cè)鏈信息和與老式解碼器兼容的單聲/立體聲比特流一同傳送或存儲的任意技術,將側(cè)鏈信息與向后兼容的比特流分別存儲或傳送?;? N和1 M解碼器
參照圖2,示出了體現(xiàn)本發(fā)明的方面的1:N解碼器功能或設備(“解碼器”)。該圖是作為體現(xiàn)本發(fā)明的方面的基本解碼器所實現(xiàn)的功能或結(jié)構的一個例子。實施本發(fā)明的方面的其他功能或結(jié)構配置也可以使用,包括如下所述的可選和/或等價的功能或結(jié)構配置。解碼器接收單聲復合音頻信號和所有信道(或除參考信道外的所有信道)的側(cè)鏈信息。必要時,將復合音頻信號和相關側(cè)鏈信息去復用、拆分和/或解碼。解碼可以采用查尋表。目的是要從單聲復合音頻信道中得到與輸入到圖1的編碼器的音頻信道中的各個信道接近的多個單獨音頻信道,以遵照本文所述的本發(fā)明的比特率下降技術。當然,可以選擇不恢復輸入到編碼器的所有信道或者只使用單聲復合信號。此外, 利用如下申請中所述發(fā)明的方面,還可以從根據(jù)本發(fā)明的方面的解碼器的輸出中得到除了這些輸入到編碼器的信道以外的信道于2002年2月7日申請并于2002年8月15日公布的指定美國的國際申請PCT/US02/03619,及其于2003年8月5日申請的相應美國國家申請系列號10/467,213 ;和于2003年8月6日申請并于2001年3月4日公布為WO 2004/019656 的指定美國的國際申請PCT/US03/24570,及其于2005年1月27日申請的相應美國國家申請系列號10/522,515。所述申請在此全部包含作為參考。實施本發(fā)明的方面的解碼器所恢復的信道尤其可以與所述參考的申請中的信道相乘技術結(jié)合起來使用,這是因為,所恢復信道不僅具有有用的信道間振幅關系,而且還具有有用的信道間相位關系。信道相乘的另一種變通辦法是使用矩陣解碼器來得到附加信道。本發(fā)明的信道間振幅和相位保持的方面使得體現(xiàn)本發(fā)明的方面的解碼器的輸出信道尤其適用于對振幅和相位敏感的矩陣解碼器。 許多這樣的矩陣解碼器使用寬帶控制電路,這種控制電路嚴格地僅當輸入給它的信號在整個信號帶寬上都是立體聲時才工作。因此,如果在N等于2的N: 1:N系統(tǒng)中體現(xiàn)本發(fā)明的方面,那么解碼器所恢復的兩個信道可以輸入到2:M的有源矩陣解碼器。如上所述,低于耦合頻率時,這些信道可以是離散信道。許多合適的有源矩陣解碼器在技術上是眾所周知的,包括例如稱為“Pro Logic”和“Pro Logic II”解碼器的矩陣解碼器("Pro Logic”是Dolby Laboratories Licensing Corporation的商標)。Pro Logic角軍碼器的有關方面如美國專利4,799,260和4,941,177中所公開,這些專利中的每一個在此全部包含作為參考。Pro Logic II解碼器的有關方面如以下專利申請所公開=Fosgate于2000年3月22日申請并于2001年6月7日公布為WO 01/41504的未決美國專利申請系列號09/532,711,名稱為 "Method for Deriving at Least Three Audio Signals from Two Input Audio Signals"; 和Fosgate等人于2003年2月25日申請并于2004年7月1日公布為US 2004/0125960A1的未決美國專利申請系列號 10/362,786,名稱為“Method for Apparatus for Audio Matrix Decoding”。所述申請中的每一個在此全部包含作為參考。例如,在Roger Dressier的論文"Dolby Surround Pro Logic Decoder Principles of Operation,,禾口 Jim Hilson 的論文“Mixing with Dolby Pro Logic II Technology,,中,角軍釋了 Dolby Pro Logic 禾口 Pro Logic II解碼器的操作的某些方面,這些論文可以從Dolby Laboratories的網(wǎng)站(www. dolby.com)上得到。其他合適的有源矩陣解碼器可以包括下列美國專利和公開的國際申請(每個都指定美國)中的一個或多個中所述的有源矩陣解碼器,這些專利和申請中的每一個在此全部包含作為參考5,046,098 ;5,274,740 ;5,400,433 ;5,625,696 ;5,644,640 ; 5,504,819 ;5,428,687 ;5,172,415 ;和 WO 02/19768。
8
再回到圖2,接收到的單聲復合音頻信道應用于多個信號通道,從中得到所恢復的多個音頻信道中的各自一個信道。各信道得到通道包括(按任一次序)振幅調(diào)整功能或設備(“調(diào)整振幅”)和角度轉(zhuǎn)動功能或設備(“轉(zhuǎn)動角度”)。調(diào)整振幅是對單聲復合信號施加增益或衰減,這樣,在某些信號條件下,從復合信號中得到的輸出信道的相對輸出幅度(或能量)類似于編碼器輸入端的信道的幅度(或能量)。此外,如下所述,在強加“隨機”角度變動時的某些信號條件下,還可以對所恢復信道的振幅強加一個可控的“隨機”振幅變動量,從而改進它相對于所恢復信道中的其他信道的解相關性。轉(zhuǎn)動角度應用了相位轉(zhuǎn)動,這樣,在某些信號條件下,從單聲復合信號中得到的輸出信道的相對相角類似于編碼器輸入端的信道的相角。最好,在某些信號條件下,還可以對所恢復信道的角度強加一個可控的“隨機”角度變動量,從而改進它相對于所恢復信道中的其他信道的 解相關性。如以下進一步所述,“隨機”角度振幅變動不僅包括偽隨機和真隨機變動,而且包括確定性產(chǎn)生的變動(具有減小信道之間的互相關的作用)。這還將在以下圖5A的步驟 505的解釋中作進一步的討論。從概念上講,具體信道的調(diào)整振幅和轉(zhuǎn)動角度是要確定單聲復合音頻DFT系數(shù), 以便得到信道的重建變換bin值。每個信道的調(diào)整振幅可以至少由具體信道的所恢復側(cè)鏈振幅比例因子進行控制, 或者,在有參考信道的情況下,既根據(jù)參考信道的所恢復側(cè)鏈振幅比例因子又根據(jù)從其他非參考信道的所恢復側(cè)鏈振幅比例因子中推斷出的振幅比例因子進行控制??蛇x地,為了增強所恢復信道的解相關性,調(diào)整振幅還可以由從具體信道的所恢復側(cè)鏈解相關比例因子以及具體信道的所恢復側(cè)鏈瞬變標志中得出的隨機振幅比例因子參數(shù)進行控制。每個信道的轉(zhuǎn)動角度可以至少由所恢復的側(cè)鏈角度控制參數(shù)進行控制(在這種情況下,解碼器中的轉(zhuǎn)動角度基本上可以取消編碼器中的轉(zhuǎn)動角度所提供的角度轉(zhuǎn)動)。為了增強所恢復信道的解相關性,轉(zhuǎn)動角度還可以由從具體信道的所恢復側(cè)鏈解相關比例因子以及具體信道的所恢復側(cè)鏈瞬變標志中得出的隨機角度控制參數(shù)進行控制。信道的隨機角度控制參數(shù)以及信道的隨機振幅比例因子(如果使用該因子的話)可以由可控的解相關器功能或設備(“可控解相關器”)從信道的所恢復解相關比例因子和信道的所恢復瞬變標志中得出ο參照圖2中的例子,所恢復的單聲復合音頻輸入到第一信道音頻恢復通道22,通道22得出信道1音頻;同時輸入到第二信道音頻恢復通道24,通道24得出信道η音頻。 音頻通道22包括調(diào)整振幅26、轉(zhuǎn)動角度28和反向濾波器組功能或設備(“反向濾波器組”)30 (如果需要PCM輸出的話)。同樣,音頻通道24包括調(diào)整振幅32、轉(zhuǎn)動角度34和反向濾波器組功能或設備(“反向濾波器組”)36(如果需要PCM輸出的話)。至于圖1中的情況,為了便于說明,只示出了兩個信道,應當理解可以有兩個以上的信道。第一信道(信道1)的所恢復側(cè)鏈信息可以包括振幅比例因子、角度控制參數(shù)、解相關比例因子、瞬變標志和可選內(nèi)插標志(如以上結(jié)合基本編碼器的描述中所述)。振幅比例因子輸入到調(diào)整振幅26。如果使用可選內(nèi)插標志,那么可以使用可選頻率內(nèi)插器或內(nèi)插器功能(“內(nèi)插器”)27在整個頻率上(例如信道的每一子帶中的所有bin上)內(nèi)插角度控制參數(shù)。這種內(nèi)插可以是例如每個子帶中心點之間的bin角度的線性內(nèi)插。1比特內(nèi)插標志的狀態(tài)可以選擇是否在頻率上進行內(nèi)插,如以下進一步所述。瞬變標志和解相關比例因子輸入到可控解相關器38,該解相關器根據(jù)這一輸入產(chǎn)生一個隨機角度控制參數(shù)。1比特瞬變標志的狀態(tài)可以選擇隨機角度解相關的兩種復方式之一,如以下進一步所述??稍谡麄€頻率上進行內(nèi)插(如果使用內(nèi)插標志和內(nèi)插器的話)的角度控制參數(shù)和隨機角度控制參數(shù)通過加性合并器或合并功能40相加在一起,以便提供用于轉(zhuǎn)動角度28的控制信號??蛇x地,可控解相關器38除了產(chǎn)生隨機角度控制參數(shù)之外,還可以根據(jù)瞬變標志和解相關比例因子產(chǎn)生一個隨機振幅比例因子。振幅比例因子與這種隨機振幅比例因子通過加性合并器或合并功能(未示出)相加在一起,以便提供用于調(diào)整振幅26的控制信號。同樣,第二信道(信道η)的所恢復側(cè)鏈信息也可以包括振幅比例因子、角度控制參數(shù)、解相關比例因子、瞬變標志和可選內(nèi)插標志(如以上結(jié)合基本編碼器的描述中所述)。振幅比例因子輸入到調(diào)整振幅32??梢允褂妙l率內(nèi)插器或內(nèi)插器功能(“內(nèi)插器”)33 在整個頻率上內(nèi)插角度控制參數(shù)。與信道1的情況一樣,1比特內(nèi)插標志的狀態(tài)可以選擇是否在整個頻率上進行內(nèi)插。瞬變標志和解相關比例因子輸入到可控解相關器42,該解相關器根據(jù)這一輸入產(chǎn)生一個隨機角度控制參數(shù)。與信道1的情況一樣,1比特瞬變標志的狀態(tài)可以選擇隨機角度解相關的兩種復方式之一,如以下進一步所述。角度控制參數(shù)和隨機角度控制參數(shù)通過加性合并器或合并功能44相加在一起,以便提供用于轉(zhuǎn)動角度34的控制信號??蛇x地,如以上結(jié)合信道1所述,可控解相關器42除了產(chǎn)生隨機角度控制參數(shù)之外, 還可以根據(jù)瞬變標志和解相關比例因子產(chǎn)生一個隨機振幅比例因子。振幅比例因子與隨機振幅比例因子通過加性合并器或合并功能(未示出)相加在一起,以便提供用于調(diào)整振幅 32的控制信號。盡管剛剛所述的過程或布局便于理解,然而,實際上利用能達到相同或類似結(jié)果的其他過程或布局也可以得到相同的結(jié)果。例如,調(diào)整振幅26(32)和轉(zhuǎn)動角度28(34)的次序可以反過來,和/或可以有一個以上的轉(zhuǎn)動角度(一個用于響應角度控制參數(shù),而另一個用于響應隨機角度控制參數(shù))。轉(zhuǎn)動角度還可以被認為是三個(而不是一個或兩個)功能或設備,如以下圖5的例子中所述。如果使用隨機振幅比例因子,那么,可以有一個以上的調(diào)整振幅(一個用于響應振幅比例因子,而另一個用于響應隨機振幅比例因子)。由于人耳聽覺對振幅比對相位更敏感,因此,如果使用隨機振幅比例因子,那么,最好調(diào)整隨機振幅比例因子的影響相對于隨機角度控制參數(shù)的影響的比例,使得隨機振幅比例因子對振幅的影響小于隨機角度控制參數(shù)對相角的影響。作為另一種可選的過程或布局,解相關比例因子還可以用來控制隨機相角與基本相角的比例(而不是將表示隨機相角的參數(shù)與表示基本相角的參數(shù)相加),以及(如果使用的話)隨機振幅變動與基本振幅變動的比例(而不是將表示隨機振幅的比例因子與表示基本振幅的比例因子相加)(即每種情況下的可變疊化)。如果使用參考信道,那么,如以上結(jié)合基本編碼器所述,由于參考信道的側(cè)鏈信息可能只包括振幅比例因子(或者,如果該側(cè)鏈信息不含參考信道的振幅比例因子,那么,當編碼器中的能量歸一化確保子帶內(nèi)的所有信道上的比例因子平方和為1時,該振幅比例因子可以從其他信道的振幅比例因子中推斷出),因此可以省略該信道的可控解相關器和加性合并器。為參考信道提供振幅調(diào)整,并且可以由接收到的或所得出的參考信道的振幅比例因子來該控制振幅調(diào)整。無論參考信道的振幅比例因子是從該側(cè)鏈中得出還是在解碼器中推斷出,所恢復參考信道都是單聲復合信道的振幅定標形式。因此它不需要角度轉(zhuǎn)動,這是因為它是其他信道的轉(zhuǎn)動的參考。盡管調(diào)整所恢復信道的相對振幅可以提供適度的解相關,然而,如果使用單獨的振幅調(diào)整很可能導致許多信號條件下再現(xiàn)的聲場實際上缺乏空間化或映像(例如“崩潰” 的聲場)。振幅調(diào)整可能影響耳邊的耳間電平差,這只是耳朵所用的心理聲學定向提示之一。因此,根據(jù)本發(fā)明的方面,可以根據(jù)信號條件使用某些角度調(diào)整技術,以提供附加的解相關。可以參照表1,表中給出了簡要解釋,這些解釋便于理解根據(jù)本發(fā)明的方面所采用的多種角度調(diào)整解相關技術或操作模式。除了表1中的技術之外,還可以采用其他解相關技術(如以下結(jié)合圖8和9的例子所述)。
實際上,實施角度轉(zhuǎn)動和幅度變更可能導致循環(huán)回旋(circular convolution) (也稱為循環(huán)性或周期性回旋)。盡管通常要求避免循環(huán)回旋,然而,在編碼器和解碼器中通過互補角度偏移可以稍微減輕循環(huán)回旋所帶來的令人不快的聽得見的人為產(chǎn)物。此外, 在本發(fā)明的方面的低成本實現(xiàn)方式中,尤其是在只有部分音頻頻帶(比如1500Hz以上)下混合到單聲或多個信道的那些實現(xiàn)方式中(這種情況下聽得見的循環(huán)回旋的影響最小), 可以容忍這種循環(huán)回旋的影響??蛇x地,利用任意合適的技術(包括例如適當使用“0”填充)可以避免或最大限度地減小循環(huán)回旋。使用“0”填充的一種方式是將所提出的頻域變動(表示角度轉(zhuǎn)動和振幅定標)變換到時域,對其開窗(利用任意窗口),為其填充一些 “0”,然后再變換回到頻域并乘以所要處理的音頻的頻域形式(該音頻不必被開窗)。表 1角度調(diào)整解相關技術
1權利要求
1.一種用于對M個編碼音頻信道以及一組一個或多個空間參數(shù)進行解碼的方法,所述 M個編碼音頻信道表示N個音頻信道,其中N大于等于2,其中該組一個或多個空間參數(shù)中的一個或多個被差分編碼,所述方法包括以下步驟a)接收所述M個編碼音頻信道以及該組一個或多個空間參數(shù);b)對于一個或多個被差分編碼的空間參數(shù)應用差分解碼處理,c)從所述M個編碼音頻信道得到N個音頻信號,其中各音頻信號被劃分成多個頻帶,其中各頻帶包括一個或多個頻譜分量,以及d)從所述N個音頻信號以及已被應用了差分解碼處理的空間參數(shù)生成多信道輸出信號,其中,M大于等于2,所述N個音頻信號中的至少一個是從所述M個編碼音頻信道中的至少兩個的加權組合得出的相關信號,該組一個或多個空間參數(shù)包括指示要與相關信號混合的不相關信號的量的第一參數(shù),以及步驟d)包括從所述至少一個相關信號得到至少一個不相關信號,并且響應于已被應用了差分解碼處理的空間參數(shù)中的一個或多個控制在所述多信道輸出信號的至少一個信道中的所述至少一個相關信號與所述至少一個不相關信號的比例,其中所述控制至少部分地依照所述第一參數(shù)進行。
2.根據(jù)權利要求1所述的方法,其中,所述差分解碼處理被在整個時間上應用。
3.根據(jù)權利要求1所述的方法,其中,所述差分解碼處理被在整個頻率上應用。
4.根據(jù)權利要求1所述的方法,其中,所述差分解碼處理被在整個時間上和整個頻率上應用。
全文摘要
將多個音頻信道合并成單聲復合信號,或合并成多個音頻信道,連同用于重建多個音頻信道的相關輔助信息,包括改進的下混合將多個音頻信道下混合到單聲音頻信號或下混合到多個音頻信道,和改進的解相關將從單聲音頻信道或從多個音頻信道得到的多個音頻信道解相關。所公開的本發(fā)明的方面可用于音頻編碼器、解碼器、編碼/解碼系統(tǒng)、下混合器、上混合器和解相關器。
文檔編號H04S3/02GK102169693SQ201110104718
公開日2011年8月31日 申請日期2005年2月28日 優(yōu)先權日2004年3月1日
發(fā)明者馬克·F·戴維斯 申請人:杜比實驗室特許公司