專利名稱:音頻編碼的制作方法
技術領域:
本發(fā)明涉及音頻編碼。
背景技術:
在傳統(tǒng)的基于波形的音頻編碼方案、如MPEG-LII、mp3和AAC(MPEG-2高級音頻編碼)中,通過把兩個單聲道音頻信號編碼為一個比特流來對立體聲信號編碼。但是,通過以諸如中/側(cè)立體聲編碼和強度編碼之類的技術利用信道間相關性和不相關性,可進行比特率節(jié)省。
在中/側(cè)立體聲編碼的情況下,具有大量單聲道內(nèi)容的立體聲信號可分為和M=(L+R)/2以及差S=(L-R)/2信號。這個分解有時與主要分量分析或時變比例因子結合。然后,通過參數(shù)編碼器或者波形編碼器(例如變換或子帶編碼器)獨立地將這些信號編碼。對于某些頻率范圍,這種技術可能為M或S信號產(chǎn)生略高的能量。但是,對于某些頻率范圍,可為M或S信號獲得能量的顯著減少。通過這種技術得到的信息量減少主要取決于源信號的空間屬性。例如,如果源信號為單聲道的,則差信號為零并且可被丟棄。但是,如果左和右音頻信號的相關性很低(對于較高頻率范圍,常常是這樣),則這個方案幾乎未提供優(yōu)點。
在強度立體聲編碼的情況下,對于某些頻率范圍,僅一個信號I=(L+R)/2與L和R信號的強度信息一起編碼。在解碼器側(cè),在利用對應的強度信息對這個信號I進行縮放之后將其用于L和R信號。在這種技術中,高頻(通常在5kHz以上)由單一音頻信號(即單聲道)表示,與時變和頻率相關比例因子結合。
音頻信號的參數(shù)描述在過去數(shù)年中已經(jīng)受到關注,尤其是在音頻編碼領域。已經(jīng)表明,描述音頻信號的傳輸(量化)參數(shù)只要極少的傳送容量在接收端重新合成感覺相等的信號。但是,當前的參數(shù)音頻編碼器重點放在對單聲道信號編碼,而立體聲信號則常常作為雙單聲道來處理。
EP-A-1107232公開一種產(chǎn)生由左聲道信號和右聲道信號組成的立體聲音頻信號的表示的參數(shù)編碼方案。為了有效地利用傳輸帶寬,這種表示包含僅與或者是左聲道信號或者是右聲道信號的單聲道信號有關的信息以及參數(shù)信息。另一個立體聲信號可根據(jù)單聲道信號結合參數(shù)信息來恢復。參數(shù)信息包含立體聲音頻信號的定位線索,包括左右聲道的強度和相位特性。
在雙聲道立體聲編碼中,與強度立體聲編碼相似,僅對一個單聲道進行編碼。附加側(cè)信息保存參數(shù)以便檢索左、右信號。2002年4月提交的歐洲專利申請第02076588.9號(代理人檔案號PHNL020356)公開了多聲道音頻的參數(shù)描述,它涉及Breebaart等人在以下文獻中提出的雙聲道處理模型“Binaural processing model based oncontralateral inhibition.I.Model setup”,J.Acoust.Soc.Am.,110,1074-1088,2001年8月;“Binaural processing model based on contralateralinhibition.II.Dependence on spectral parameters”,J.Acoust.Soc.Am.,110,1089-1104,2001年8月;以及“Binaural processing model based oncontralateral inhibition.III.Dependence on temporal parameters” ,J.Acoust.Soc.Am.,110,1105-1117,2001年8月,公開了一種雙聲道處理模型。這包括把輸入音頻信號分為若干限帶信號,它們按照(等效矩形帶寬)ERB速率比例來線性間隔。這些信號的帶寬取決于中心頻率,跟隨ERB速率。隨后,對于每個頻帶,分析輸入信號的以下屬性由出自左、右耳的限帶信號的相對電平所定義的耳間電平差(ILD),
耳間時間(或相位)差(ITD或IPD),由對應于耳間互相關函數(shù)中的峰值的耳間延遲(或相移)來定義,以及無法通過ITD或ILD說明的波形相似性(相異性),可通過最大耳間互相關(即在最大峰值的位置的互相關值)來參數(shù)化。因此,從以上公開中知道,任何多聲道音頻信號的空間屬性可通過指定ILD、ITD(或IPD)以及最大相關、作為時間和頻率的函數(shù)來描述。
這種參數(shù)編碼技術為一般的音頻信號提供相當優(yōu)良的質(zhì)量。但是,特別是對于具有較高不穩(wěn)定性能的信號,例如響板、大鍵琴、鐘琴等,該技術就會遇到前回聲人工信號。
本發(fā)明的一個目的是提供一種音頻編碼器和解碼器以及相應的方法,它們減少與參數(shù)多聲道編碼有關的人工信號。
發(fā)明公開根據(jù)本發(fā)明,提供一種如權利要求1所述的對音頻信號編碼的方法以及一種如權利要求13所述的對比特流解碼的方法。
根據(jù)本發(fā)明的一個方面,對多聲道音頻信號的空間屬性進行參數(shù)化??臻g屬性最好包括左右信號之間的電平差、時間差以及相關性。
利用本發(fā)明,瞬態(tài)位置直接或間接地從單聲道信號中提取,并鏈接到參數(shù)多聲道表示層。在參數(shù)多聲道層中利用這個瞬態(tài)信息提供提高的性能。
普遍認為,在許多音頻編碼器中,用瞬態(tài)信息來指導編碼過程以取得更好的性能。例如,在WO01/69593-A1中所述的正弦編碼器中,瞬態(tài)位置被編碼到比特流中。編碼器可把這些瞬態(tài)位置用于比特流的自適應分段(自適應組幀)。另外,在解碼器中,這些位置可用來指導正弦和噪聲合成的開窗。但是,這些技術一直局限于單聲道信號。
在本發(fā)明的優(yōu)選實施例中,在對已經(jīng)由這種正弦編碼器產(chǎn)生了單聲道內(nèi)容的比特流進行解碼時,瞬態(tài)位置可直接從比特流中得出。
在波形編碼器、如mp3和AAC中,瞬態(tài)位置不是直接編碼在比特流中;而是假定例如在mp3的情況下,通過在單聲道層中交換到更短的窗口長度(窗口交換)來標記瞬態(tài)間隔,因此可根據(jù)例如mp3窗口交換標志等參數(shù)來估算瞬態(tài)位置。
附圖簡介下面將通過實例,參照附圖來描述本發(fā)明的優(yōu)選實施例,附圖中
圖1是示意圖,說明根據(jù)本發(fā)明的一個實施例的編碼器;圖2是示意圖,說明根據(jù)本發(fā)明的一個實施例的解碼器;圖3表示編碼在單聲道信號的各個子幀以及多聲道層的對應幀中的瞬態(tài)位置;以及圖4表示來自單聲道編碼層的瞬態(tài)位置用于對參數(shù)多聲道層解碼的實例。
優(yōu)選實施例說明現(xiàn)在參照圖1,圖中表示根據(jù)本發(fā)明的一個優(yōu)選實施例的編碼器10,它用于對包含左(L)和右(R)輸入信號的立體聲音頻信號編碼。在優(yōu)選實施例中,如2002年4月提交的歐洲專利申請第02076588.9號(代理人檔案號PHNL020356)中所述,編碼器用以下各項描述多聲道音頻信號一個單聲道信號12,包括多個輸入音頻信號的組合,以及對于各個附加聲道,一組空間參數(shù)14包括最好是用于每個時間/頻率間隙的兩個定位線索(ILD和ITD或IPD)以及描述無法通過ILD和/或ITD說明的波形相似性或相異性(例如互相關函數(shù)的最大值)的參數(shù)(r)。
空間參數(shù)集可被音頻編碼器用作增強層。例如,如果僅允許低比特率,則傳送單聲道信號,同時,通過包含空間增強層,解碼器可再現(xiàn)立體聲或多聲道聲音。
可以看到,雖然在本實施例中,一個空間參數(shù)集與單聲道(單一信道)音頻編碼器結合,以便對立體聲音頻信號編碼,但整體思想可應用于n聲道音頻信號,其中n>1。因此,如果傳送(n-1)個空間參數(shù)集,則本發(fā)明原則上可用于從一個單聲道信號產(chǎn)生n個聲道。在這些情況下,空間參數(shù)描述如何從單一單聲道信號形成n個不同的音頻聲道。因此,在解碼器中,通過將空間參數(shù)的后續(xù)集與單聲道編碼信號結合,得到后續(xù)聲道。
分析方法一般來說,編碼器10包括相應的變換模塊20,它把各輸入信號(L,R)分為子帶信號16(最好是采用隨頻率而增加的帶寬)。在優(yōu)選實施例中,模塊20采用開時間窗,然后是變換運算,從而執(zhí)行時間/頻率分片,但是也可使用時間連續(xù)方法(例如濾波器組)。
確定和信號12以及提取參數(shù)14的后續(xù)步驟在分析模塊18中執(zhí)行,并且包括求出對應子帶信號16的電平差(ILD),求出對應子帶信號16的時間差(ITD或IPD),以及描述無法通過ILD或ITD說明的波形相似性或相異性的量。
ILD的分析ILD由對于給定頻帶在某個時刻的信號的電平差來確定。確定ILD的一種方法是測量兩個輸入聲道的對應頻帶的均方根值,以及計算這些均方根值的比率(最好以dB表示)。
ITD的分析ITD通過提供兩個聲道的波形之間最佳匹配的時間或相位對準來確定。獲得ITD的一種方法是計算兩個對應子帶信號之間的互相關函數(shù)并找出最大值。與互相關函數(shù)中這個最大值對應的延遲可用作ITD值。
第二種方法是計算左右子帶的分析信號(即計算相位和包絡值),以及使用聲道之間的相位差作為IPD參數(shù)。這里,采用復合濾波器組(例如FFT),通過查看某個倉位(頻率范圍),可隨時間過去而得出相位函數(shù)。通過對左右聲道進行這個操作,可估算相位差IPD(而不是把兩個濾波后信號互相關)。
相關性的分析通過首先找出提供對應子帶信號之間最佳匹配的ILD和ITD,然后在對ITD和/或ILD補償之后再測量波形的相似性,得到相關性。因此,在這個構架中,相關性被定義為無法歸因于ILD和/或ITD的對應子帶信號的相似性或相異性。此參數(shù)的適當量度是互相關函數(shù)的最大值(即一組延遲中的最大值)。但是,也可采用其它量度,例如ILD和/或ITD補償之后的差信號與對應子帶的和信號(最好也對ILD和/或ITD進行了補償)相比的相對能量。這個差值參數(shù)基本上是(最大)相關性的線性變換。
參數(shù)量化參數(shù)傳輸?shù)囊粋€重要問題是參數(shù)表示的準確度(即量化誤差的大小),它與必需的傳輸容量和音頻質(zhì)量直接相關。在這個部分,將論述關于空間參數(shù)的量化的若干問題?;舅枷胧亲屃炕`差基于空間線索的所謂的恰可察覺差異(JND)。更明確地說,量化誤差由人的聽覺系統(tǒng)對參數(shù)變化的靈敏度來決定。由于眾所周知,對參數(shù)變化的靈敏度很大程度上取決于參數(shù)本身的值,因此應用以下方法來確定離散量化步長。
ILD的量化通過心理聲學研究得知,對ILD變化的靈敏度取決于ILD本身。如果ILD以dB表示,則與0dB參考的大約1dB的偏差是可檢測的,而如果參考電平差達到20dB,則要求大約3dB的變化。因此,如果左右聲道的信號具有較大的電平差,則量化誤差可以較大。例如,可通過首先測量聲道之間的電平差,然后再對所得電平差進行非線性(壓縮)變換以及隨后的線性量化過程,或者通過利用查找表找到具有非線性分布的可用ILD值,從而應用這個方法。在優(yōu)選實施例中,ILD(單位為dB)被量化為來自以下集合I的最接近值I=[-19-16-13-10-8-6-4-2 0 2 4 6 8 10 13 16 19]ITD的量化人類主體對ITD變化的靈敏度可表征為具有恒定相位門限。這意味著,在延遲時間方面,ITD的量化步長應當隨頻率而減小?;蛘?,如果ITD以相位差的形式表示,則量化步長應當與頻率無關。實現(xiàn)這一點的一個方法是把固定相位差作為量化步長,并確定各頻帶的相應時延。這個ITD值則被用作量化步長。在優(yōu)選實施例中,ITD量化步長由0.1弧度(rad)的各子帶中的恒定相位差來確定。因此,對于各子帶,對應于子帶中心頻率的0.1弧度的時間差被用作量化步長。對于2kHz以上的頻率,沒有傳送任何ITD信息。
另一種方法是傳送按照頻率無關量化方案的相位差。大家還知道,在某個頻率以上,人的聽覺系統(tǒng)不易感受精細結構波形中的ITD??赏ㄟ^僅傳送一直到某個頻率(通常為2kHz)的ITD參數(shù)來利用這個現(xiàn)象。
比特流減小的第三種方法是結合取決于ILD和/或相同子帶的相關性參數(shù)的ITD量化步長。對于大ILD,可對ITD以較低精確度進行編碼。此外,如果相關性極低,則已知人對ITD變化的靈敏度減小。因此,如果相關性小,則可應用更大的ITD量化誤差。這種思想的一個極端實例是,如果相關性低于一定的門限,則根本不傳送任何ITD。
相關性的量化相關性的量化誤差取決于(1)相關值本身,以及可能(2)取決于ILD。接近+1的相關值以高精確度進行編碼(即小量化步長),而接近0的相關值則以低精確度進行編碼(即大量化步長)。在優(yōu)選實施例中,一組非線性分布的相關值(r)被量化為以下集合R的最接近值R=[1 0.95 0.9 0.82 0.75 0.6 0.3 0]以及這對每個相關值耗用另外3位。
如果當前子帶的(量化)ILD的絕對值達到19dB,則對于此子帶,不傳送任何ITD和相關值。如果某個子帶的(量化)相關值等于零,則對該子帶不傳送任何ITD值。
這樣,各幀要求最多233位來傳送空間參數(shù)。對于1024個樣本的更新幀長以及44.1kHz的采樣率,傳輸?shù)淖畲蟊忍芈实陀?0.25千比特/秒[233*44100/1024=10.034千比特/秒]。(應當指出,利用熵編碼或差分編碼,這個比特率還可進一步減小。)第二種可能性是使用取決于相同子帶的測量ILD的相關性的量化步長對于大ILD(即一個聲道在能量上占主導地位),相關性中的量化誤差變得較大。這個原理的一個極端實例是,如果某個子帶的IID的絕對值超過某個門限,則根本不傳送那個子帶的任何相關值。
詳細實現(xiàn)更具體來說,在模塊20中,左右輸入信號被分離為各種時間幀(44.1kHz采樣率的2048個樣本)以及采用平方根漢寧窗進行開窗。隨后計算FFT。負FFT頻率被丟棄,以及所得FFT被細分為FFT倉位的組或子帶16。組合成子帶g的FFT倉位的數(shù)量取決于頻率在較高頻率上比在較低頻率上組合更多倉位。在當前實現(xiàn)中,對應于大約1.8ERB的FFT倉位被組成組,產(chǎn)生20個子帶以表示整個可聽的頻率范圍。各后續(xù)子帶的所得FFT倉位數(shù)量S[g](從最低頻率開始)為S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]這樣,前三個子帶包含4個FFT倉位、第四個子帶包含5個FFT倉位等等。對于各子帶,分析模塊18計算對應的ILD、ITD及相關性(r)。ITD和相關性僅通過把屬于其它組的所有FFT倉位設置為零、把來自左右聲道的所得(限帶)FFT相乘、然后進行FFT逆變換來計算。掃描所得的互相關函數(shù),尋找-64與+63樣本之間的聲道間延遲中的峰值。對應于該峰值的內(nèi)部延遲被用作ITD值,此峰值處的互相關函數(shù)的值被用作這個子帶的聲道間相關值。最后,僅通過取各子帶的左右聲道的功率比來計算ILD。
和信號的產(chǎn)生分析器18包含和信號生成器17,它在對信號求和之前對左右子帶執(zhí)行相位校正(時間對準)。這個相位校正是根據(jù)該子帶的所計算ITD得出的,并包括把左聲道子帶延遲ITD/2以及把右聲道子帶延遲-ITD/2。通過適當修改各FFT倉位的相位角在頻域中執(zhí)行該延遲。然后,通過相加左右子帶信號的相位修改后形式來計算和信號。最后,為了補償不相關或相關加法,和信號的各子帶與sqrt(2/(1+r))、與對應子帶的相關性(r)相乘以產(chǎn)生最終的和信號12。必要時,和信號可通過以下方式轉(zhuǎn)換到時域(1)在負頻率上插入復共軛,(2)逆FFT,(3)開窗,以及(4)疊加。
如上所述,給定時域和/或頻域中的和信號12的表示,信號可以任何數(shù)量的傳統(tǒng)方式編碼在比特流50的單聲道層40中。例如,mp3編碼器可用來產(chǎn)生比特流的單聲道層40。當這種編碼器檢測到輸入信號的快速變化時,它可改變它用于那個特定時間周期的窗口長度,從而在對輸入信號的那個部分編碼時改進時間和/或頻率定位。然后,窗口交換標志被嵌入比特流中,以便向稍后合成信號的解碼器指明這個交換。為了本發(fā)明的目的,這個窗口交換標志被用作輸入信號中瞬態(tài)位置的估算值。
但是,在優(yōu)選實施例中,WO01/69593-A1中所述類型的正弦編碼器30被用來產(chǎn)生單聲道層40。編碼器30包括瞬態(tài)編碼器11、正弦編碼器13以及噪聲編碼器15。
當信號12進入瞬態(tài)編碼器11時,對于各更新間隔,編碼器估算在分析窗口內(nèi)是否存在瞬態(tài)信號分量及其位置(到樣本精確度)。如果瞬態(tài)信號分量的位置被確定,則編碼器11嘗試提取瞬態(tài)信號分量(的主要部分)。它通過采用例如幾個(少量)正弦分量把形狀函數(shù)與最好是從估算的開始位置開始的信號段進行匹配,以及確定形狀函數(shù)下的內(nèi)容,并把這個信息包含在瞬態(tài)編碼CT中。
減去瞬態(tài)分量的和信號12被提供給正弦編碼器13,在其中對它進行分析以確定(確定性)正弦分量。簡言之,正弦編碼器把輸入信號編碼為從一個幀段鏈接到下一個的正弦分量的軌跡。這些軌跡最初由在給定段中開始的正弦的開始頻率、開始幅度以及開始相位表示(誕生)。此后,軌跡在后續(xù)段中由頻率差、幅度差以及可能的相位差(連續(xù))表示,直到軌跡在其中結束的段為止(死去),以及把這個信息包含在正弦代碼CS中。
減去瞬態(tài)和正弦分量的信號被假定為主要包含噪聲,以及優(yōu)選實施例的噪聲分析器15產(chǎn)生表示這個噪聲的噪聲代碼CN。按照傳統(tǒng)方法,例如WO01/89086-A1中所述,噪聲的頻譜由噪聲編碼器根據(jù)等效矩形帶寬(ERB)比例、采用組合的AR(自回歸)MA(移動平均)濾波器參數(shù)(pi,qi)來建模。在解碼器中,濾波器參數(shù)被饋入噪聲合成器,噪聲合成器主要是具有近似于噪聲頻譜的頻率響應的濾波器。合成器通過采用ARMA濾波參數(shù)(pi,qi)對白噪聲信號進行濾波來產(chǎn)生重構噪聲,以及隨后把它加入合成的瞬態(tài)和正弦信號,從而產(chǎn)生原始和信號的估算值。
多路復用器41產(chǎn)生單聲道音頻層40,它分為幀42,這些幀表示長度為16ms的重疊時間段以及每8ms被更新,如圖4所示。各幀包含相應代碼CT、CS和CN,以及在解碼器中,當合成單聲道和信號時,連續(xù)幀的代碼在其重疊區(qū)域中被混合。在本實施例中,假定各幀僅可包含最多1個瞬態(tài)代碼CT,這種瞬態(tài)的一個實例由標號44表示。
空間參數(shù)集的生成分析器18還包括空間參數(shù)層生成器19。這個組件對各空間參數(shù)幀執(zhí)行空間參數(shù)量化,如上所述。一般來說,生成器19把各空間層聲道14分為幀46,這些幀表示長度為64ms的重疊時間段以及每32ms被更新,如圖4所示。各幀包含相應的ILD、ITD或IPD以及相關系數(shù),而在解碼器中,當合成信號時,連續(xù)幀的值在其重疊區(qū)域中被混合,以便確定任何給定時間的空間層參數(shù)。
在優(yōu)選實施例中,瞬態(tài)編碼器11在單聲道層40中(或者由對應分析器模塊在和信號12中)檢測的瞬態(tài)位置由生成器19用來確定是否需要空間參數(shù)層14中的不均勻時間分段。如果編碼器正使用mp3編碼器產(chǎn)生單聲道層,則單聲道流中的窗口交換標志的存在由生成器用作瞬態(tài)位置的估算值。
參照圖4,生成器19可接收瞬態(tài)44需要被編碼在與要為其產(chǎn)生幀的空間參數(shù)層的時間窗口對應的單聲道層的后續(xù)幀之一中的指示??梢钥吹?,由于各空間參數(shù)層包含表示重疊時間段的幀,因此對于任何給定時間,生成器將對于每個空間參數(shù)層產(chǎn)生兩幀。在任何情況下,生成器繼續(xù)對表示瞬態(tài)位置周圍的較短長度窗口48的幀產(chǎn)生空間參數(shù)。應當指出,這個幀將與正??臻g參數(shù)層幀的格式相同,并以同樣方式計算,但它涉及瞬態(tài)位置44周圍的較短時間窗口。這個短窗口長度幀為多信道圖像提供增加的時間分辨率。然后,在瞬態(tài)窗口幀之前和之后原本已產(chǎn)生的幀用來表示特殊瞬態(tài)窗口47、49,它們把短瞬態(tài)窗口48連接到正常幀表示的窗口46。
在優(yōu)選實施例中,表示瞬態(tài)窗口48的幀是空間表示層比特流14中的附加幀,但是,由于瞬態(tài)很少出現(xiàn),所以它對整體比特率增加極少。不過關鍵的是,讀取利用優(yōu)選實施例產(chǎn)生的比特流的解碼器考慮這個附加幀,否則單聲道和空間表示層的同步將會受到損害。
在本實施例中還假定,由于瞬態(tài)很少出現(xiàn),使得正常幀46的窗口長度中只有一個瞬態(tài)可能與空間參數(shù)層表示相關。即使在正常幀的周期中確實出現(xiàn)兩個瞬態(tài),也假定不均勻分段將出現(xiàn)在第一瞬態(tài)周圍,如圖3所示。這里,表示了三個瞬態(tài)44,它們編碼在相應的單聲道幀中。但是,正是第二瞬態(tài)而不是第三瞬態(tài)將用來表明,表示相同時間周期的空間參數(shù)層幀(表示在這些瞬態(tài)之下)應當用作第一瞬態(tài)窗口,在由編碼器插入的附加空間參數(shù)層幀得出的瞬態(tài)窗口之前,以及其后又跟隨表示第二瞬態(tài)窗口的幀。
但有可能的是,并非單聲道層中編碼的所有瞬態(tài)位置對于空間參數(shù)層都是相關的,如圖3中的第一瞬態(tài)44的情況那樣。因此,單聲道或者空間表示層的比特流語法可包括對于空間表示層是相關或不相關的瞬態(tài)位置的指示符。
在優(yōu)選實施例中,正是生成器19通過考察從圍繞瞬態(tài)位置44的較大窗口(例如1024個樣本)得出的估算空間參數(shù)(ILD、ITD及相關性(r))與從圍繞瞬態(tài)位置的較短窗口48得出的那些參數(shù)之間的差,確定對于空間表示層的瞬態(tài)的相關性。如果在來自短和粗略時間間隔的參數(shù)之間存在明顯變化,則在瞬態(tài)位置周圍估算的額外空間參數(shù)被插入表示短時間窗口48的附加幀中。如果存在極少差異,則沒有選擇瞬態(tài)位置以用于空間表示中,以及指示相應地被包含在比特流中。
最后,一旦已經(jīng)產(chǎn)生單聲道40和空間表示14層,它們又由多路復用器43寫入比特流50。這個音頻流50又被提供給例如數(shù)據(jù)總線、天線系統(tǒng)、存儲媒體等。
合成現(xiàn)在參照圖2,解碼器60包括多路分離器62,它把輸入音頻流50分為單聲道層40’以及在這種情況下的單一空間表示層14’。單聲道層40’由對應于產(chǎn)生了該層的編碼器的傳統(tǒng)合成器64讀取,從而提供原始和信號12’的時域估算。
然后,多路分離器62提取的空間參數(shù)14’由后處理模塊66應用于和信號12’,以產(chǎn)生左右輸出信號。優(yōu)選實施例的后處理模塊還讀取單聲道層14’信息,以便在這個信號中定位瞬態(tài)的位置。(或者,合成器64可向后處理器提供這種指示;但是,這將要求對其它方式的傳統(tǒng)合成器64略作修改。)在任何情況下,當后處理器檢測到與待處理的空間參數(shù)層14’的幀的正常時間窗口對應的單聲道層幀42內(nèi)的瞬態(tài)44時,它知道這個幀表示短瞬態(tài)窗口48之前的瞬態(tài)窗口47。后處理器知道瞬態(tài)44的時間位置,因此知道該瞬態(tài)窗口之前的瞬態(tài)窗口47的長度,還知道瞬態(tài)窗口48之后的瞬態(tài)窗口49的長度。在優(yōu)選實施例中,后處理器66包括混合模塊68,在合成空間表示層時,它對于窗口47的第一部分混合窗口47的參數(shù)與前一幀的那些參數(shù)。從當時直到瞬態(tài)窗口48的開始,只有表示窗口47的幀的參數(shù)用于合成空間表示層。對于瞬態(tài)窗口48的第一部分,瞬態(tài)窗口47和瞬態(tài)窗口48的參數(shù)被混合,以及對于瞬態(tài)窗口48的第二部分,瞬態(tài)窗口49和瞬態(tài)窗口48的參數(shù)被混合,等等,直到瞬態(tài)窗口49的中間為止,此后,幀間混合照常繼續(xù)進行。
如上所述,在任何給定時間所用的空間參數(shù)是兩個正常窗口46幀的參數(shù)的混合,正常46和瞬態(tài)幀47、49的參數(shù)的混合,單獨的瞬態(tài)窗口幀47、49的參數(shù),或者瞬態(tài)窗口幀47、49的參數(shù)與瞬態(tài)窗口幀48的參數(shù)的混合。利用空間表示層的語法,模塊68可選擇表明空間表示層的不均勻時間分段的那些瞬態(tài),以及在這些適當?shù)乃矐B(tài)位置上,短長度瞬態(tài)窗口提供多信道圖像的更好的時間定位。
在后處理器66內(nèi),假定如分析部分中所述的,和信號12’的頻域表示可用于處理。這個表示可通過對合成器64產(chǎn)生的時域波形進行分窗和FFT運算來獲得。然后,和信號被復制到左、右輸出信號通路。隨后,左和右信號之間的相關性通過去相關器69’、69”利用參數(shù)r進行修改。關于這如何可實現(xiàn)的詳細描述,參照標題為“信號合成”、2002年7月12日提交、D.J.Breebaart為第一發(fā)明人的歐洲專利申請(我方參考號PHNL020639)。該歐洲專利申請公開了一種從輸入信號合成第一和第二輸出信號的方法,該方法包括對輸入信號濾波以產(chǎn)生濾波信號、得到相關性參數(shù)、得到指示第一和第二輸出信號之間預期電平差的電平參數(shù)、以及通過矩陣運算把輸入信號和濾波信號變換為第一和第二輸出信號,其中矩陣運算取決于相關性參數(shù)和電平參數(shù)。隨后,在各級70’、70”,給定對應該子帶的(量化)ITD,左信號的各子帶被延遲-ITD/2,右信號被延遲ITD/2。最后,左和右子帶根據(jù)該子帶的ILD在各級71’、71”中被縮放。然后,各變換級72’、72”通過執(zhí)行以下步驟把輸出信號轉(zhuǎn)換到時域(1)在負頻率上插入復共軛,(2)逆FFT,(3)開窗,以及(4)疊加。
已經(jīng)就產(chǎn)生作為兩個信號的組合的單聲道信號(主要在只有單聲道信號用于解碼器的情況下)描述了解碼器和編碼器的優(yōu)選實施例。但應當看到,本發(fā)明不限于這些實施例,以及單聲道信號可相當于單一輸入和/或輸出信道,其中空間參數(shù)層被應用于這個信道的相應副本以產(chǎn)生附加的信道。
可以看出,本發(fā)明可通過專用硬件、運行于DSP(數(shù)字信號處理器)或通用計算機上的軟件來實現(xiàn)。本發(fā)明可包含在攜帶用于執(zhí)行根據(jù)本發(fā)明的編碼方法的計算機程序的實際媒體、如CD-ROM或DVD-ROM中。本發(fā)明還可作為通過例如因特網(wǎng)等數(shù)據(jù)網(wǎng)傳送的信號、或者作為通過廣播服務傳送的信號來實施。本發(fā)明特別適用于以下領域因特網(wǎng)下載,因特網(wǎng)無線電臺,固態(tài)音頻(SSA),帶寬擴展方案,例如mp3PRO、CT-aacPlus等(參見www.codingtechnologies.com)以及大部分音頻編碼方案。
權利要求
1.一種對音頻信號編碼的方法,所述方法包括產(chǎn)生單聲道信號,分析至少兩個音頻信道的空間特性以得到連續(xù)時隙的一個或多個空間參數(shù)集,響應在給定時間包含瞬態(tài)的所述單聲道信號,為包含所述瞬態(tài)時間的周期確定所述空間參數(shù)集的不均勻時間分段,以及產(chǎn)生包含所述單聲道信號和所述一個或多個空間參數(shù)集的編碼信號。
2.如權利要求1所述的方法,其特征在于,所述單聲道信號包括至少兩個輸入音頻信道的組合。
3.如權利要求1所述的方法,其特征在于,采用參數(shù)正弦編碼器來產(chǎn)生所述單聲道信號,所述編碼器產(chǎn)生與所述單聲道信號的連續(xù)時隙對應的幀,至少一部分所述幀包含表示在所述幀表示的相應時隙中出現(xiàn)的瞬態(tài)的參數(shù)。
4.如權利要求1所述的方法,其特征在于,采用波形編碼器產(chǎn)生所述單聲道信號,所述編碼器為包含所述瞬態(tài)時間的周期確定所述單聲道信號的不均勻時間分段。
5.如權利要求4所述的方法,其特征在于,所述波形編碼器是mp3編碼器。
6.如權利要求1所述的方法,其特征在于,所述空間參數(shù)集包括至少兩個定位線索。
7.如權利要求6所述的方法,其特征在于,所述空間參數(shù)集還包括描述無法通過所述定位線索說明的波形的相似性或相異性的參數(shù)。
8.如權利要求7所述的方法,其特征在于,所述參數(shù)為互相關函數(shù)的最大值。
9.一種用于對音頻信號編碼的編碼器,所述編碼器包括用于產(chǎn)生單聲道信號的部件,用于分析至少兩個音頻信道的空間特性以得到連續(xù)時隙的一個或多個空間參數(shù)集的部件,響應在給定時間包含瞬態(tài)的所述單聲道信號、用于為包含所述瞬態(tài)時間的周期確定所述空間參數(shù)集的不均勻時間分段的部件,以及用于產(chǎn)生包含所述單聲道信號和所述一個或多個空間參數(shù)集的編碼信號的部件。
10.一種用于提供音頻信號的設備,所述設備包括用于接收音頻信號的輸入端,用于對所述音頻信號編碼以得到編碼音頻信號的如權利要求9所述的編碼器,以及用于提供所述編碼音頻信號的輸出端。
11.一種編碼音頻信號,所述信號包括單聲道信號,包含在給定時間在所述單聲道信號中出現(xiàn)的瞬態(tài)的至少一個指示;以及用于所述信號的連續(xù)時隙的一個或多個空間參數(shù)集,所述空間參數(shù)集為包含所述瞬態(tài)時間的周期提供音頻信號的不均勻時間分段。
12.一種存儲媒體,其中已經(jīng)存儲如權利要求11所述的編碼信號。
13.一種對編碼音頻信號解碼的方法,所述方法包括從所述編碼音頻信號得到單聲道信號,從所述編碼音頻信號得到一個或多個空間參數(shù)集,以及響應在給定時間包含瞬態(tài)的所述單聲道信號,為包含所述瞬態(tài)時間的周期確定所述空間參數(shù)集的不均勻時間分段,以及把所述一個或多個空間參數(shù)集應用于所述單聲道信號以產(chǎn)生多信道輸出信號。
14.一種用于對編碼音頻信號解碼的解碼器,包括用于從所述編碼音頻信號得到單聲道信號的部件,用于從所述編碼音頻信號得到一個或多個空間參數(shù)集的部件,以及響應在給定時間包含瞬態(tài)的所述單聲道信號、用于為包含所述瞬態(tài)時間的周期確定所述空間參數(shù)集的不均勻時間分段的部件,以及用于把所述一個或多個空間參數(shù)集應用于所述單聲道信號以產(chǎn)生多信道輸出信號的部件。
15.一種用于提供解碼音頻信號的設備,所述設備包括用于接收編碼音頻信號的輸入端,用于對所述編碼音頻信號解碼以得到多信道輸出信號的如權利要求14所述的解碼器,用于提供或再現(xiàn)所述多信道輸出信號的輸出端。
全文摘要
在雙聲道立體聲編碼中,僅對一個單聲道進行編碼。附加層保存參數(shù)以便檢索左、右信號。公開一種編碼器,它把從單聲道編碼信號提取的瞬態(tài)信息鏈接到參數(shù)多聲道層,從而提供增加的性能。瞬態(tài)位置可以直接從比特流中得到,或者也可從其它編碼參數(shù)(例如mp3中的窗口交換標志)中估算。
文檔編號G10L19/008GK1669358SQ03816440
公開日2005年9月14日 申請日期2003年7月1日 優(yōu)先權日2002年7月16日
發(fā)明者E·G·P·舒杰斯, A·W·J·奧門 申請人:皇家飛利浦電子股份有限公司