專利名稱:音頻編碼器和解碼器的制作方法
技術領域:
本發(fā)明涉及音頻信號的編碼,具體而言,涉及對不僅限于語音、音樂或者其組合的任何音頻信號的編碼。
背景技術:
在現(xiàn)有技術中,有專門設計為通過將編碼基于信號的源模型,S卩,人的發(fā)音系統(tǒng),來對語音信號進行編碼的語音編碼器。這些編碼器不能處理諸如音樂或任何其他非語音信號之類的任意音頻信號。另外,在現(xiàn)有技術中還有通常被稱為音頻編碼器的音樂編碼器,它們將編碼基于人的聽覺系統(tǒng)的構想,而不是基于信號的源模型。這些編碼器可以很好地處理任意信號,但是對于低比特率 的語音信號,專用的語音編碼器提供了優(yōu)良的音頻質量。因此,到目前為止,還不存在用于編碼任意音頻信號的通用的編碼結構,并且當以低比特率操作時,其既能作為針對語音的語音編碼器又能作為針對音樂的音樂編碼器。因此,需要一種能改善音頻質量和/或降低比特率的增強型音頻編碼器和解碼器。
發(fā)明內容
本發(fā)明涉及以等于或好于專門針對特定信號定制的的系統(tǒng)的質量水平的質量水平有效地編碼任意首頻/[目號。本發(fā)明涉及包含線性預測編碼(LPC)和對經(jīng)LPC處理的信號進行操作的變換編碼器部分的音頻編碼解碼器算法。本發(fā)明進一步涉及取決于變換幀大小的量化策略。此外,還提出了使用算術編碼的基于模型的熵約束量化器。另外,還可在均勻標量量化器中插入隨機偏移。本發(fā)明進一步建議了使用算術編碼的基于模型的量化器,例如,熵約束量化器(ECQ)。本發(fā)明進一步涉及通過利用LPC數(shù)據(jù)的存在來有效地編碼音頻編碼器變換編碼部分中的比例因子。本發(fā)明進一步涉及有效地利用帶有可變幀大小的音頻編碼器中的比特儲存器(reservoir)。本發(fā)明進一步涉及用于對音頻信號進行編碼并生成比特流的編碼器,以及用于對比特流進行解碼并生成感覺上與輸入的音頻信號難區(qū)分的重構的音頻信號的解碼器。本發(fā)明的第一方面涉及變換編碼器中的、例如應用改進離散余弦變換(MDCT)的量化。所提出的量化器優(yōu)選地量化MDCT線。不論編碼器是否進一步使用線性預測編碼(LPC)分析或額外的長期預測(LTP),此方面都適用。本發(fā)明提供了一種音頻編碼系統(tǒng),包括用于基于自適應濾波器過濾(濾波)輸入信號的線性預測單元;用于將所述經(jīng)濾波(filter)的輸入信號的幀轉換為變換域的變換單元;以及,用于量化所述變換域信號的量化單元。所述量化單元,基于輸入信號特征,決定利用基于模型的量化器或非基于模型的量化器來編碼所述變換域信號。優(yōu)選地,決定是基于變換單元應用的幀大小來作出的。然而,也可以預見用于切換量化策略的其他輸入信號依賴的準則,它們都在本申請的范圍內。本發(fā)明的另一個重要方面是量化器可以是自適應的。具體而言,基于模型的量化器中的模型可以是自適應的,以調整到輸入音頻信號。模型可以隨著時間而變化,例如,取決于輸入信號特征。這可以降低量化失真,并如此會改善編碼質量。根據(jù)一個實施例,所提出的量化策略取決于幀大小。還提出了,量化單元可以基于由變換單元應用的幀大小,決定利用基于模型的量化器或非基于模型的量化器來編碼所述變換域信號。優(yōu)選地,量化單元被配置成通過基于模型的熵約束量化,為幀大小小于閾值的幀編碼變換域信號?;谀P偷牧炕梢匀Q于分類的參數(shù)。大幀可以,例如通過帶有例如基于赫夫曼的熵編碼的標量量化器,來進行量化,如在,例如,AAC編解碼器中所使用的。音頻編碼系統(tǒng)還可以進一步包括長期預測(LTP)單元,用于基于所述經(jīng)濾波的輸入信號的前面的段的重構,來估計所述經(jīng)濾波的輸入信號的所述幀,以及變換域信號組合單元,用于在所述變換域中,組合所述長期預測估計和所述經(jīng)變換的輸入信號,以生成輸入到量化單元中的所述變換域信號。MDCT線的不同的量化方法之間的切換是本發(fā)明的優(yōu)選實施例的另一個方面。通過對于不同的變換大小而使用不同的量化策略,編解碼器可以在MDCT域中執(zhí)行所有量化和編碼,無需與變換域編解碼器并聯(lián)地或串聯(lián)地運行特定的時域語音編碼器。本發(fā)明教導了,對于有LTP增益的語音之類的信號,優(yōu)選地,使用短的變換和基于模型的量化器來對信號進行編碼?;谀P偷牧炕魈貏e適合于短變換,并且如稍后將概述的,提供了時域語音特定的矢量量化器(VQ)的優(yōu)點,而仍在MDCT域中操作,并且沒有輸入信號是語音信號的要求。換言之,當基于模型的量化器與LTP相結合地用于短變換段時,保留了專用時域語音編碼器VQ的效率,而沒有失去通用性,也沒有離開MDCT域。另外,對于更靜止的音樂信號,優(yōu)選使用相對較大的變換,如通常在音頻編解碼器中所使用的,以及可以利用通過大變換來判別的稀疏的譜線的量化方案。因此,本發(fā)明教導了對于長變換使用這種量化方案。如此,根據(jù)幀大小來切換量化策略,可使編解碼器既可保留專用語音編解碼器的屬性,又可保留專用音頻編解碼器的屬性,只需通過選擇變換大小即可。這就避免了力圖同樣以低速率處理語音和音頻信號的現(xiàn)有技術系統(tǒng)中的所有問題,因為這些系統(tǒng)不可避免地遇到有效地將時域編碼(語音編碼器)與頻域編碼(音頻編碼器)組合的問題和困難。根據(jù)本發(fā)明的另一個方面,量化使用自適應步長。優(yōu)選地,變換域信號的分量的量化步長是基于線性預測和/或長期預測參數(shù)而自適應的。量化步長還可以進一步被配置成依賴于頻率。在本發(fā)明的各實施例中,量化步長是基于下列各項中的至少一項確定的自適應濾波器的多項式、編碼速率控制參數(shù)、長期預測增益值,以及輸入信號方差。優(yōu)選地,量化單元包括用于量化變換域信號分量的均勻標量量化器。每一標量量化器都例如基于概率模型,向MDCT線應用均勻量化。概率模型可以是拉普拉斯或高斯模型,或適于信號特征的任何其他概率模型。量化單元還可以進一步將隨機偏移插入到均勻標量量化器中。隨機偏移插入向均勻標量量化器提供了矢量量化優(yōu)點。根據(jù)一個實施例,隨機偏移是基于量化失真的優(yōu)化而確定的,優(yōu)選地,在感知域中和/或考慮到按照對量化指數(shù)進行編碼所需的比特的數(shù)量的成本。量化單元還可以進一步包括用于編碼由均勻標量量化器所生成的量化指數(shù)的算術編碼器。這就獲得了趨近于由信號熵所給出的可能的最小值的低比特率。量化單元還可以進一步包括殘余量化器,用于量化由均勻標量量化器而產(chǎn)生的殘余量化信號,以便進一步降低總失真。殘余量化器優(yōu)選是固定速率矢量量化器??梢栽诰幋a器的去量化單元中和/或解碼器中的反量化器中使用多個量化重構點。例如,可以使用最小均方誤差(麗SE)和/或中心點(中點)重構點,來基于其量化指數(shù)重構量化值。量化重構點還可以進一步基于中心點和MMSE點之間的可能通過數(shù)據(jù)的特征來控制的動態(tài)內插。這允許控制噪聲插入,并避免由于為了低比特率而向零量化條(bin)指定MDCT線所造成的頻譜缺陷(hole)。在確定量化失真以便向特定頻率分量設置不同的權重時優(yōu)選地應用變換域中的感知加權。感知權重可以有效地來源于線性預測參數(shù)。本發(fā)明的另一個獨立的方面涉及利用LPC和SCF (比例因子)數(shù)據(jù)的共存的一般概念。在例如應用改進離散余弦變換(MDCT)的基于變換的編碼器中,可以在量化中使用比例因子來控制量化步長。在現(xiàn)有技術中,這些比例因子是根據(jù)原始信號估計的,以確定掩蔽曲線?,F(xiàn)在建議,借助于感知濾波器或根據(jù)LPC數(shù)據(jù)計算出的心理聲學模型來估計第二組比例因子。這允許通過只傳輸/存儲實際應用的比例因子與LPC估計的比例因子之間的差代替?zhèn)鬏?存儲真實的比例因子,降低用于傳輸/存儲比例因子的成本。如此,在包含諸如,例如LPC之類的語音編碼元件,以及諸如MDCT之類的變換編碼元件的音頻編碼系統(tǒng)中,本發(fā)明通過利用由LPC所提供的數(shù)據(jù),降低用于傳輸編解碼器的變換編碼部分所需的比例因子信息的成本。應當注意,此方面獨立于所提出的音頻編碼系統(tǒng)的其他方面,并也可以在其他音頻編碼系統(tǒng)中實現(xiàn)。例如,可以基于自適應濾波器的參數(shù)來估計感知掩蔽曲線?;诰€性預測的第二組比例因子可以基于估計的感知掩蔽曲線來確定。然后,基于在量化中實際使用的比例因子和根據(jù)基于LPC的感知掩蔽曲線計算出的比例因子之間的差,來確定存儲的/傳輸?shù)谋壤蜃有畔?。這就從存儲的/傳輸?shù)男畔⒅袆h除動態(tài)特性和冗余,以便存儲/傳輸比例因子所需的比特更少。在LPC和MDCT不以相同幀速率操作的情況下,即,具有不同的幀大小,則可以基于內插的線性預測參數(shù),估計變換域信號的幀的基于線性預測的比例因子,以便對應于由MDCT幀所覆蓋的時間窗口(window)。因此,本發(fā)明提供了基于變換編碼器、并包括來自語音編碼器的基本預測和整形模塊的音頻編碼系統(tǒng)。本發(fā)明的系統(tǒng)包括用于基于自適應濾波器過濾輸入信號的線性預測單元;用于將所述經(jīng)濾波的輸入信號的幀轉換為變換域的變換單元;用于量化變換域信號的量化單元;比例因子確定單元,用于基于掩蔽閾值曲線,生成比例因子,供在量化所述變換域信號時在所述量化單元中使用;線性預測比例因子估計單元,用于基于所述自適應濾波器的參數(shù),估計基于線性預測的比例因子;以及比例因子編碼器,用于編碼所述基于掩蔽閾值曲線的比例因子和所述基于線性預測的比例因子之間的差。通過編碼應用的比例因子和可以基于可用的線性預測信息而在解碼器中確定的比例因子之間的差,編碼和存儲效率可以得到提高,并且只需要存儲/傳輸更少的比特。本發(fā)明的另一個獨立編碼器特定的方面涉及對于可變幀大小的比特儲存器處理。在可以對可變長度的幀進行編碼的音頻編碼系統(tǒng)中,通過在多個幀之間分布可用的比特,控制比特儲存器。在給定各個幀的合理難度測度和定義的大小的比特儲存器的情況下,與所要求的恒定比特率的某一偏差允許更好的總質量,而不會違犯由比特儲存器大小施加的緩沖區(qū)要求。本發(fā)明將使用比特儲存器的概念擴展到針對帶有可變幀大小的一般化音頻編解碼器的比特儲存器控制。因此,音頻編碼系統(tǒng)可以包括比特儲存器控制單元,用于基于幀的長度和幀的難度測度,確定許可用于編碼經(jīng)濾波的信號的幀的比特的數(shù)量。優(yōu)選地,比特儲存器控制單元對于不同的幀難度測度和/或不同的幀大小,具有單獨的控制方程。不同的幀大小的難度測度可以被歸一化,如此,可以更加容易地對它們進行比較。為了控制對于可變速率編碼器的比特分配,比特儲存器控制單元優(yōu)選將許可的比特控制算法的較低的允許限制設置到最大允許的幀大小的比特的平均數(shù)。本發(fā)明的進一步方面涉及使用基于模型的量化器,例如,熵約束量化器(ECQ)的編碼器中的比特儲存器的處理。建議最小化ECQ步長的變化。建議了將量化器步長與ECQ速率相關聯(lián)的特定控制方程。用于過濾輸入信號的自適應濾波器,優(yōu)選地基于線性預測編碼(LPC)分析,包括產(chǎn)生白化輸入信號的LPC濾波器。輸入數(shù)據(jù)的當前幀的LPC參數(shù)可以通過本領域已知的算法來確定。LPC參數(shù)估計單元可以對于輸入數(shù)據(jù)的幀,計算任何合適的LPC參數(shù)表示,如多項式、傳輸函數(shù)、反射系數(shù)、線譜頻率等等。用于編碼或其他處理的特定類型的LPC參數(shù)表示取決于相應的要求。如本領域技術人員已知的,某些表示比其他表示更加適合于某些運算,因此,某些表示對于實現(xiàn)這些運算是優(yōu)選的。線性預測單元可以以固定的(例如,20毫秒)第一幀長度來操作。線性預測過濾還可以進一步在扭曲頻率軸上操作,以有選擇地相對于其他頻率強調某些頻率范圍,如低頻率。應用于經(jīng)濾波的輸入信號的幀的變換,優(yōu)選是以可變第二幀長度來操作的改進離散余弦變換(MDCT)。音頻編碼系統(tǒng)可以包括窗口序列控制單元,該單元通過對于包括數(shù)個幀的整個輸入信號塊最小化編碼成本函數(shù),優(yōu)選為簡單化的感知熵,來對于輸入信號塊,確定用于重疊MDCT窗口的幀長度。如此,導出將輸入信號塊分割為具有相應的第二幀長度的MDCT窗口的最優(yōu)分割法。因此,提出了一種變換域編碼結構,包括帶有自適應長度MDCT幀的語音編碼器元件,只作為LPC除外的所有處理的基本單位。由于MDCT幀長度可以呈現(xiàn)許多不同的值,因此,可以發(fā)現(xiàn)最佳的序列,并且可以避免如在只應用小窗口大小和大窗口大小的現(xiàn)有技術中常用的那樣的突變(abrupt)的幀大小變化。另外,也不需要如在某些現(xiàn)有技術的小的和大的窗口大小之間的過渡的方法中所使用的那樣的具有鋒利的邊的過渡變換窗口。優(yōu)選地,連續(xù)的MDCT窗口長度至多按因子(2)來變化,和/或MDCT窗口長度是二元值。更具體地,MDCT窗口長度可以是輸入信號塊的二元分區(qū)。因此,MDCT窗口序列僅限于易于利用少量的比特編碼的預定的序列。另外,窗口序列也具有幀大小的平穩(wěn)過渡,從而排除了突變的幀大小變化。窗口序列控制單元可以進一步被配置成,當搜索對于輸入信號塊而最小化編碼成本函數(shù)的MDCT窗口長度的序列時,對于窗口長度候選考慮通過長期預測單元所生成的長期預測估計。在此實施例中,當確定MDCT窗口長度時,長期預測循環(huán)是封閉的,這會導致改善適合于編碼的MDCT窗口的序列。音頻編碼系統(tǒng)還可以進一步包括LPC編碼器,用于以可變速率遞歸地編碼由線性預測單元生成的線譜頻率或其他適當?shù)腖PC參數(shù)表示,以便存儲和/或傳輸?shù)浇獯a器。根據(jù)一個實施例,提供了線性預測內插單元,用于內插以對應于第一幀長度的速率生成的線性預測參數(shù),以便匹配變換域信號的可變幀長度。根據(jù)本發(fā)明的一個方面,音頻編碼系統(tǒng)可以包括感知建模單元,該單元通過對于LPC幀啁啾和/或傾斜由線性預測單元生成的LPC多項式,修改自適應濾波器的特征。通過對自適應濾波器特征的修改而接收到的感知模型可以在系統(tǒng)中用于許多目的。例如,它可以作為量化或長期預測中的感知加權函數(shù)來應用。本發(fā)明的另一個方面涉及長期預測(LTP),具體而言,涉及MDCT域中的長期預測、MDCT幀自適應的LTP和MDCT加權的LTP搜索。不論在變換編碼器的上游是否存在LPC分析,這些方面都是適用的。根據(jù)一個實施例,音頻編碼系統(tǒng)進一步包括反量化和逆變換單元,用于生成經(jīng)濾波的輸入信號的幀時域重構。此外,還可以提供用于存儲經(jīng)濾波的輸入信號的前面的幀的時域重構的長期預測緩沖區(qū)。這些單元可以以從量化單元到長期預測提取單元的反饋回路的方式排列,該反饋回路在長期預測緩沖區(qū)中搜索最佳匹配經(jīng)濾波的輸入信號的當前幀的重構的段。另外,還可以提供長期預測增益估計單元,用于調整來自長期預測緩沖區(qū)的所選段的增益,以便它最佳匹配當前幀。優(yōu)選地,從變換域中的經(jīng)變換的輸入信號中減去長期預測估計。因此,可以提供用于將所選段變換為變換域的第二變換單元。長期預測循環(huán)還可以包括在反量化之后并且在逆變換為時域之前,將變換域中的長期預測估計添加到反饋信號。如此,可以使用反向自適應長期預測方案,該方案在變換域中,基于前面的幀預測經(jīng)濾波的輸入信號的當前幀。為了更有效,可以以不同的方式進一步適應(adapt)長期預測方案,如下面對于某些示例所提出的。根據(jù)一個實施例,長期預測單元包括長期預測提取器,用于確定滯后值,該值指定了最佳適合經(jīng)濾波的信號的當前幀的經(jīng)濾波的信號的重構的段。長期預測增益估計器可以估計應用于經(jīng)濾波的信號的所選段的信號的增益值。優(yōu)選地,如此確定滯后值和增益值,以便最小化涉及感知域中的長期預測估計與變換的輸入信號的差的失真準則。當最小化失真準則時,可以將修改過的線性預測多項式作為MDCT域均衡增益曲線來應用。長期預測單元可以包括變換單元,用于將來自LTP緩沖區(qū)的段的重構信號變換為變換域。為有效實現(xiàn)MDCT變換,優(yōu)選地,變換是IV類型離散余弦變換。本發(fā)明的另一個方面涉及用于解碼由上面的編碼器的實施例生成的比特流的音頻解碼器。根據(jù)一個實施例的解碼器包括去量化單元,用于基于比例因子去量化輸入比特流的幀;逆變換單元,用于逆向地變換變換域信號;用于過濾所述逆向地變換的變換域信號的線性預測單元;以及比例因子解碼單元,用于基于接收到的比例因子增量(deltaA)信息,生成去量化中所使用的所述比例因子,其編碼了在所述編碼器中應用的所述比例因子和基于所述自適應濾波器的參數(shù)而生成的比例因子之間的差。解碼器還可以進一步包括比例因子確定單元,用于基于來源于當前幀的線性預測參數(shù)的掩蔽閾值曲線,生成比例因子。比例因子解碼單元可以組合接收到的比例因子增量信息和所生成的基于線性預測的比例因子,以生成用于輸入到去量化單元的比例因子。根據(jù)另一個實施例的解碼器包括基于模型的去量化單元,用于去量化輸入比特流的幀;逆變換單元,用于逆向地變換變換域信號;以及用于過濾逆向地變換的變換域信號的線性預測單元。去量化單元可以包括非基于模型的去量化器和基于模型的去量化器。優(yōu)選地,去量化單元包括至少一個自適應概率模型。去量化單元可以被配置成作為傳輸?shù)男盘柼卣鞯暮瘮?shù)來自適應去量化。去量化單元還可以進一步基于經(jīng)解碼的幀的控制數(shù)據(jù),來決定去量化策略。優(yōu)選地,去量化控制數(shù)據(jù)是與比特流一起接收到的,或來源于接收到的數(shù)據(jù)。例如,去量化單元基于幀的變換大小來決定去量化策略。根據(jù)另一個方面,去量化單元包括自適應重構點。去量化單元可以包括均勻標量去量化器,它們被配置成每個量化區(qū)間使用兩個去量化重構點,具體而言,中點和MMSE重構點。根據(jù)一個實施例,去量化單元與算術編碼相結合地使用基于模型的量化器。另外,解碼器可以包括如上文對于編碼器所公開的許多方面。一般而言,解碼器將鏡像(miiTor)編碼器的操作,雖然某些操作只在編碼器中執(zhí)行,而在解碼器中沒有對應的組件。如此,如果沒有以別的方式陳述,對于編碼器所公開的內容被視為也適用于解碼器。本發(fā)明的上面的方面可以作為裝置、設備、方法或在可編程裝置上操作的計算機程序來實現(xiàn)。本發(fā)明的方面還可以進一步以信號、數(shù)據(jù)結構和比特流來實現(xiàn)。如此,本申請進一步公開了音頻編碼方法和音頻解碼方法。示例性音頻編碼方法包括下列步驟基于自適應濾波器過濾輸入信號;將所述經(jīng)濾波的輸入信號的幀轉換為變換域;量化所述變換域信號;基于掩蔽閾值曲線,生成比例因子,供在量化所述變換域信號時在所述量化單元中使用;基于所述自適應濾波器的參數(shù),估計基于線性預測的比例因子;以及編碼所述基于掩蔽閾值曲線的比例因子和所述基于線性預測的比例因子之間的差。另一個音頻編碼方法包括下列步驟基于自適應濾波器過濾輸入信號;將所述經(jīng)濾波的輸入信號的幀轉換為變換域;以及量化所述變換域信號;其中所述量化單元基于輸入信號特征,決定利用基于模型的量化器或非基于模型的量化器來編碼所述變換域信號。示例性音頻解碼方法包括下列步驟基于比例因子,去量化輸入比特流的幀;逆向地變換變換域信號;線性預測過濾所述逆向地變換的變換域信號;基于所述自適應濾波器的參數(shù),估計第二比例因子;以及基于接收到的比例因子差信息和所估計的第二比例因子,生成去量化中所使用的所述比例因子。另一個音頻編碼方法包括下列步驟去量化輸入比特流的幀;逆向地變換變換域信號;以及線性預測過濾所述逆向地變換的變換域信號;其中,所述去量化使用非基于模型的去量化器和基于模型的去量化器。這些只是本申請教導的優(yōu)選的音頻編碼/解碼方法和計算機程序的示例,所屬技術領域的專業(yè)人員可以從下面對示例性實施例的描述中導出其他方法。
現(xiàn)在將參考附圖,以只作為說明性示例而非限制本發(fā)明的范圍或精神的方式,對本發(fā)明進行描述,其中
圖1示出了根據(jù)本發(fā)明的編碼器和解碼器的優(yōu)選實施例;圖2示出了根據(jù)本發(fā)明的編碼器和解碼器的比較詳細的視圖;圖3示出了根據(jù)本發(fā)明的編碼器的另一個實施例;圖4示出了根據(jù)本發(fā)明的編碼器的優(yōu)選實施例;圖5示出了根據(jù)本發(fā)明的解碼器的優(yōu)選實施例;圖6示出了根據(jù)本發(fā)明的MDCT線路編碼和解碼的優(yōu)選實施例;圖7示出了根據(jù)本發(fā)明的編碼器和解碼器的優(yōu)選實施例,以及從一個傳輸?shù)搅硪粋€的相關控制數(shù)據(jù)的示例;圖7a是根據(jù)本發(fā)明的實施例的編碼器的方面的另一個例圖;圖8示出了根據(jù)本發(fā)明的實施例的LPC數(shù)據(jù)和MDCT數(shù)據(jù)之間的窗口序列和關系的示例;圖9示出了根據(jù)本發(fā)明的比例因子數(shù)據(jù)和LPC數(shù)據(jù)的組合;圖9a示出了根據(jù)本發(fā)明的比例因子數(shù)據(jù)和LPC數(shù)據(jù)的組合的另一個實施例;圖9b示出了根據(jù)本發(fā)明的編碼器和解碼器的另一個簡化框圖;圖10示出了根據(jù)本發(fā)明將LPC多項式轉換為MDCT增益曲線的優(yōu)選實施例;圖11示出了根據(jù)本發(fā)明的將恒定的更新速率LPC參數(shù)映射到自適應MDCT窗口序列數(shù)據(jù)的優(yōu)選實施例;圖12示出了根據(jù)本發(fā)明的基于量化器的變換大小和類型自適應感知加權濾波器計算的優(yōu)選實施例;圖13示出了根據(jù)本發(fā)明的自適應取決于幀大小的量化器的優(yōu)選實施例;圖14示出了根據(jù)本發(fā)明的自適應取決于幀大小的量化器的優(yōu)選實施例;圖15示出了根據(jù)本發(fā)明的作為LPC和LTP數(shù)據(jù)的函數(shù)來自適應量化步長的優(yōu)選實施例;圖15a示出了如何通過增量自適應模塊從LPC和LTP參數(shù)導出增量曲線;圖16示出了根據(jù)本發(fā)明的利用隨機偏移的基于模型的量化器的優(yōu)選實施例;圖17示出了根據(jù)本發(fā)明的基于模型的量化器的優(yōu)選實施例;圖17a示出了根據(jù)本發(fā)明的基于模型的量化器的另一個優(yōu)選實施例;圖17b概要地示出了根據(jù)本發(fā)明的一個實施例的基于模型的MDCT線解碼器2150 ;圖17c示出了根據(jù)本發(fā)明的一個實施例的量化器預處理的方面;圖17d概要地示出了根據(jù)本發(fā)明的一個實施例的步長的方面;圖17e概要地示出了根據(jù)本發(fā)明的一個實施例的基于模型的熵約束編碼器;圖17f概要地示出了均勻標量量化器(USQ)的操作;圖17g概要地示出了根據(jù)本發(fā)明的一個實施例的概率計算;圖17h示出了根據(jù)本發(fā)明的一個實施例的去量化過程;圖18示出了根據(jù)本發(fā)明的比特儲存器控制的一個優(yōu)選實施例;圖18a示出了比特儲存器控制的基本概念;圖18b示出了根據(jù)本發(fā)明的可變幀大小的比特儲存器控制的概念;圖18c示出了根據(jù)一個實施例的比特儲存器控制的示例性控制曲線;
圖19示出了根據(jù)本發(fā)明的使用不同的重構點的反量化器的一個優(yōu)選實施例。
具體實施例方式下面所描述的實施例只是本發(fā)明的音頻編碼器和解碼器的原理的說明。應該理解,對此處所描述的布局和細節(jié)的修改和變體對本領域技術人員是明顯的。因此,意圖僅在于由所附專利權利要求的范圍加以限制,而不由其中作為實施例的描述和說明而呈現(xiàn)的具體細節(jié)加以限制。實施例的類似的組件通過類似的附圖標記來進行編號。在圖1中,示出了編碼器101和解碼器102。編碼器101獲取時域輸入信號,并產(chǎn)生隨后發(fā)送到解碼器102的比特流103。解碼器102基于接收到的比特流103,產(chǎn)生輸出波形。輸出信號在心理聲學方面類似于原始輸入信號。在圖2中,示出了編碼器200和解碼器210的一個優(yōu)選實施例。編碼器200中的輸入信號被傳遞通過LPC (線性預測編碼)模塊201,該模塊201為具有第一幀長度的LPC幀生成白化殘余信號,以及對應的線性預測參數(shù)。另外,在LPC模塊201中還可以包括增益歸一化。來自LPC的殘余信號被以第二可變幀長度操作的MDCT (改進離散余弦變換)模塊202轉換成頻域。在圖2中所描繪的編碼器200中,包括了 LTP (長期預測)模塊205。在本發(fā)明的又一實施例中,將詳細說明LTP。MDCT線被量化203,還被去量化204,以便在其對解碼器210可用時向LTP緩沖區(qū)饋送經(jīng)解碼的輸出的副本。由于量化失真,此副本叫做相應的輸入信號的重構。在圖2下部,描繪了解碼器210。解碼器210取已量化的MDCT線,將它們去量化211,添加來自LTP模塊214的貢獻,并執(zhí)行逆MDCT變換212,接下來是LPC合成濾波器213。上面的實施例的一個重要方面是,MDCT幀是用于編碼的唯一基本單位,雖然LPC具有其自己的(并且在一個實施例中恒定的)幀大小,并且也編碼LPC參數(shù)。該實施例從變換編碼器開始,并引入來自語音編碼器的基本預測和整形模塊。如稍后所討論的,MDCT幀大小是可變的,并通過最小化簡單化的感知熵成本函數(shù),確定整個塊的最佳MDCT窗口序列,使其適用于輸入信號塊。這可使縮放(scale)維持最佳時間/頻率控制。此外,所提出的統(tǒng)一的結構避免了不同的編碼范例的切換或分層的組合。在圖3中,比較詳細地概要地描述了編碼器300的部分。從圖2的編碼器中的LPC模塊201輸出的白化信號被輸入到MDCT濾波器組302。MDCT分析可以可任選地是時間扭曲的MDCT分析,該分析確保在MDCT變換窗口內信號的音高恒定(如果信號是周期性并帶有明確定義的音高)。在圖3中,比較詳細地描繪了 LTP模塊310。它包括保留了前面的輸出信號段的重構的時域樣本的LTP緩沖區(qū)311。在給定當前輸入段的情況下,LTP提取器312查找LTP緩沖區(qū)311中的最佳匹配段。在從當前輸入到量化器303的段中減去此段之前,由增益單元313向此段應用合適的增益值。顯然,為了在量化之前執(zhí)行減法,但是LTP提取器312還將所選定的信號段變換到MDCT域。當將重構的前面的輸出信號段與經(jīng)變換的MDCT域輸入幀組合時,LTP提取器312搜索最小化感知域中的誤差函數(shù)的最佳增益和滯后值。例如,優(yōu)化來自LTP模塊310的經(jīng)變換的重構的段和經(jīng)變換的輸入幀(即,減法之后的殘余信號)之間的均方誤差(MSE)函數(shù)。此優(yōu)化可以在感知域中執(zhí)行,在那里根據(jù)它們的感知重要性,力口權頻率分量(即,MDCT線)。LTP模塊310在MDCT幀單元中操作,而編碼器300 —次考慮一個MDCT幀殘余,例如,對于量化模塊303中的量化??梢栽诟兄蛑袌?zhí)行滯后和增益搜索??扇芜x地,LTP可以是可選擇頻率的,S卩,對頻率自適應增益和/或滯后。描繪了反量化單元304和逆MDCT單元306。如后面所解釋的,MDCT可以是時間扭曲的。在圖4中,示出了編碼器400的另一個實施例。除圖3之外,為闡明而包括了 LPC分析401。示出了用來將選定信號段變換為MDCT域的DCT-1V變換414。另外,還示出了計算進行LTP段選擇的最小誤差的數(shù)種方式。除如圖4所示的殘余信號的最小化之外(在圖4中標識為LTP2),還示出了在被逆向地變換到重構的時域信號以便存儲在LTP緩沖區(qū)411中之前經(jīng)變換的輸入信號和去量化的MDCT域信號之間的差的最小化(表示為LTP3)。此MSE函數(shù)的最小化將把LTP貢獻引導向經(jīng)變換的輸入信號和用于存儲在LTP緩沖區(qū)411中的重構的輸入信號的最佳(盡可能地)相似度。另一個替代誤差函數(shù)(表示為LTP I)基于時域中的這些信號的差。在此情況下,LPC濾波的輸入幀和LTP緩沖區(qū)411中的對應的時域重構之間的MSE被最小化。優(yōu)選地,MSE是基于MDCT幀大小計算的,MDCT幀大小可以不同于LPC幀大小。另外,量化器和去量化器塊被替換為頻譜編碼塊403和頻譜解碼塊404(“Specenc”和“Spec dec”),它們可以包含除量化之外的額外的模塊,如在圖6中所描繪的。再次,MDCT和逆MDCT可以是時間扭曲的(WMDCT,IWMDCT)。在圖5中,示出了所提出的解碼器500。來自接收到的比特流的頻譜數(shù)據(jù)被逆向地量化511,并添加(add )來自LTP緩沖區(qū)515的由LTP提取器所提供的LTP貢獻。還示出了解碼器500中的LTP提取器516和LTP增益單元517。總計的MDCT線被MDCT合成塊合成到時域,而時域信號被LPC合成濾波器513進行頻譜整形。在圖6中,比較詳細地描述了圖4的“Spec dec”和“Spec enc”塊403、404。在一個實施例中,在該圖的右邊所示出的“Spec enc”塊603包括諧波預測分析模塊610、TNS分析(時域噪聲整形)模塊611,接下來是MDCT線的比例因子縮放模塊612,最后是編碼線模塊613中的線的量化和編碼。在該圖的左邊所示出的解碼器“Spec Dec”塊604執(zhí)行逆過程,即,接收到的MDCT線在解碼線模塊620中被去量化,并是比例因子(SCF)縮放模塊621撤銷縮放。應用TNS合成622和諧波預測合成623。在圖7中,描繪了本發(fā)明的編碼系統(tǒng)的非常一般的例圖。示例性編碼器取輸入信號,并產(chǎn)生比特流,除了別的數(shù)據(jù)之外,還包含 已量化的MDCT線;·比例因子;· LPC多項式表示;·信號段能量(例如,信號方差); 窗口序列;.LTP 數(shù)據(jù)。根據(jù)實施例的解碼器讀取所提供的比特流,并產(chǎn)生在心理聲學方面類似于原始信號的音頻輸出信號。圖7a是根據(jù)本發(fā)明的一個實施例的編碼器700的方面的另一個例圖。編碼器700包括LPC模塊701、MDCT模塊704、LTP模塊705 (只簡要示出)、量化模塊703和用于將重構的信號反饋到LTP模塊705的反量化模塊70 4。進一步提供了用于估計輸入信號的音高的音高估計模塊750,以及用于為更大輸入信號塊確定最佳MDCT窗口序列(例如,I秒)的窗口序列確定模塊751。在此實施例中,MDCT窗口序列是基于開環(huán)方法確定的,在該方法中,確定最小化編碼成本函數(shù),例如簡單化的感知熵的MDCT窗口大小候選的序列。當搜索最佳MDCT窗口序列時,可以可任選地考慮LTP模塊705對被窗口序列確定模塊751最小化的編碼成本函數(shù)的貢獻。優(yōu)選地,對于每一個已評估的窗口大小候選,確定對于對應于窗口大小候選的MDCT幀的最佳長期預測貢獻,并估計相應的編碼成本。一般而言,短MDCT幀大小更適合于語音輸入,而具有精細頻譜分辨率的長變換窗口對于音頻信號為優(yōu)選。感知權重或感知加權函數(shù)是基于由LPC模塊701計算出的LPC參數(shù)確定的,下面將更詳細地對其進行說明。將感知權重提供到兩者都在MDCT域中操作的LTP模塊705和量化模塊703,以便根據(jù)它們相應的感知重要性加權頻率分量的誤差或失真貢獻(contribution)。圖7a還示出了哪些編碼參數(shù)優(yōu)選地由稍后將討論的適當編碼方案傳輸?shù)浇獯a器。接下來,將討論LPC和MDCT數(shù)據(jù)的共存和MDCT中的LPC的效果的模擬,兩者都為了反作用和實際濾波省略。根據(jù)一個實施例,LP模塊過濾輸入信號,以便移除信號的譜形,LP模塊的隨后的輸出是頻譜平坦的信號。這對于例如LTP的操作是有利的。然而,對頻譜平坦的信號進行操作的編解碼器的其他部分可以受益于知道在進行LP濾波之前原始信號的譜形是什么樣子。因為編碼器模塊在濾波之后,對頻譜平坦的信號的MDCT變換進行操作,本發(fā)明教導了在進行LP濾波之前原始信號的譜形可以,如果需要的話,通過將所使用的LP濾波器的傳輸函數(shù)(即,原始信號的頻譜包絡)映射到對頻譜平坦信號的MDCT表示的頻點(bin)應用的增益曲線或均衡曲線,被重新施加于頻譜平坦信號的MDCT表示。相反,LP模塊可以省略實際濾波,并只估計隨后被映射到增益曲線的傳輸函數(shù),該增益曲線可以被施加于信號的MDCT表示,如此消除了對輸入信號進行時域濾波的必要性。本發(fā)明的各實施例的一個突出的方面是,對LPC白化信號使用靈活的窗口分割(segmentation)來操作基于MDCT的變換編碼器。在圖8中對此進行了描繪,在該圖中,與LPC的加窗一起,給出了示例性MDCT窗口序列。因此,從該圖可以清楚地看出,LPC對恒定幀大小(例如,20ms )進行操作,而MDCT對可變窗口序列(例如,4到128ms )進行操作。這允許獨立地為LPC選擇最佳窗口長度,而為MDCT選擇最佳窗口序列。圖8還示出了 LPC數(shù)據(jù)和MDCT數(shù)據(jù)之間的關系,該LPC數(shù)據(jù)具體為以第一幀速率生成的LPC參數(shù),該MDCT數(shù)據(jù)具體為以第二可變速率生成的MDCT線。該圖中的向下的箭頭代表被內插在LPC幀(圓圈)之間的LPC數(shù)據(jù),以便匹配對應的MDCT幀。例如,為如MDCT窗口序列所確定的時間實例,內插LPC生成的感知加權函數(shù)。向上的箭頭代表用于MDCT線編碼的細化數(shù)據(jù)(即,控制數(shù)據(jù))。對于AAC幀,此數(shù)據(jù)通常是比例因子,而對于ECQ幀,該數(shù)據(jù)通常是方差校正數(shù)據(jù)等等。實線對虛線代表在給定某一量化器的情況下,哪些數(shù)據(jù)對于MDCT線編碼是最“重要的”數(shù)據(jù)。雙向下箭頭代表編解碼器譜線。可以利用編碼器中的LPC和MDCT數(shù)據(jù)的共存,例如,來通過考慮根據(jù)LPC參數(shù)所估計的感知掩蔽曲線,降低編碼MDCT比例因子的比特要求。此外,當確定量化失真時,還可以使用LPC導出的感知加權。如圖所示并如下面將討論的,取決于接收到的數(shù)據(jù)的幀大小,即對應于MDCT幀或窗口大小,量化器以兩種模式操作,并生成兩種類型的幀(ECQ幀和AAC幀)。圖11示出了將恒定速率LPC參數(shù)映射到自適應MDCT窗口序列數(shù)據(jù)的一個優(yōu)選實施例。LPC映射模塊1100根據(jù)LPC更新速率接收LPC參數(shù)。另外,LPC映射模塊1100還接收有關MDCT窗口序列的信息。然后,它生成LPC到MDCT的映射,例如,用于將基于LPC的心理聲學數(shù)據(jù)映射到以可變的MDCT幀速率生成的相應的MDCT幀。例如,LPC映射模塊內插LPC多項式或對應于MDCT幀的時間實例的相關數(shù)據(jù),用作例如,LTP模塊或量化器中的感知權重?,F(xiàn)在,通過參考圖9,討論基于LPC的感知模型的細節(jié)。在本發(fā)明的一個實施例中,自適應LPC模塊901,以通過對于16kHz采樣速率信號,使用例如階16的線性預測,來產(chǎn)生白色輸出信號。例如,圖2中的來自LPC模塊201的輸出是在進行LPC參數(shù)估計和濾波之后的殘余。如在圖9的左下部概要地示出的所估計的LPC多項式A(z),可以通過帶寬擴展系數(shù)被啁啾,在本發(fā)明的一種實現(xiàn)中,還可以通過修改對應的LPC多項式的第一反射系數(shù),被傾斜(tilt)。通過將多項式的極點向內移動到單位圓中,啁啾可以擴展LPC傳輸函數(shù)中的峰值的帶寬,如此導致更軟的峰值。傾斜可使LPC傳輸函數(shù)更平,以便平衡較低和較高的頻率的影響。這些修改力求從已估計的LPC參數(shù)生成將在系統(tǒng)的編碼器和解碼器兩側可用的感知掩蔽曲線A’ (z)0在下面的圖12中呈現(xiàn)了 LPC多項式的操縱的細節(jié)。對LPC殘余操作的MDCT編碼,在本發(fā)明的一種實現(xiàn)中,具有控制量化器的分辨率或量化步長(以及如此,由量化所引入的噪聲)的比例因子。這些比例因子是由比例因子估計模塊960對原始輸入信號來進行估計的。例如,比例因子是從根據(jù)原始信號估計的感知掩蔽閾值曲線導出的。在一個實施例中,可以使用單獨的頻率變換(可能具有不同的頻率分辨率)來確定掩蔽閾值曲線,但是,這并不總是必需的??闪磉x地,根據(jù)由變換模塊所生成的MDCT線,來估計掩蔽閾值曲線。圖9的右下部概要地示出了由比例因子估計模塊960所生成的比例因子,用于控制量化,以便所引入的量化噪聲僅限于聽不見的失真。
如果LPC濾波器連接到MDCT變換模塊的上游,則將白化信號變換到MDCT域。由于此信號具有白譜,因此,不太適合從它導出感知掩蔽曲線。如此,當估計掩蔽閾值曲線和/或比例因子時,可以使用生成的用于補償頻譜的白化的MDCT域均衡增益曲線。這是因為,需要對具有原始信號的絕對頻譜屬性的信號來估計比例因子,以便正確地估計感覺上的掩蔽。下面將參考圖10比較詳細地討論從LPC多項式計算MDCT域均衡增益曲線。圖9a中描繪了上面概述的比例因子估計圖式的一個實施例。在此實施例中,輸入信號被輸入到估計通過A(Z)所描述的輸入信號的頻譜包絡的LP模塊901,并輸出所述多項式以及輸入信號的經(jīng)濾波的版本。利用A(Z)的逆對輸入信號進行濾波,以便獲取如編碼器的其他部分所使用的頻譜白信號。經(jīng)濾波的信號 )被輸入到MDCT變換單元902,而A(Z)多項式被輸入到MDCT增益曲線計算單元970 (如圖14中所描繪的)。向MDCT系數(shù)或線應用從LP多項式估計的增益曲線,以便在進行比例因子估計之前保留原始輸入信號的頻譜包絡。經(jīng)增益調整的MDCT線被輸入到為輸入信號估計比例因子的比例因子估計模塊960。通過使用上面所概述的方法,在編碼器和解碼器之間傳輸?shù)臄?shù)據(jù)包含LP多項式以及在變換編解碼器中通常使用的比例因子,當使用基于模型的量化器時,可以從LP多項式導出相關感知信息以及信號模型。詳細來說,返回到圖9,該圖中的LPC模塊901從輸入信號來估計信號的頻譜包絡A(z),并從此導出感知表達A’ (z)。另外,對輸入信號來估計通常在基于變換的感知音頻編解碼器中所使用的比例因子,或者,如果在比例因子估計中考慮LP濾波器的傳輸函數(shù),也可以對由LP濾波器所產(chǎn)生的白信號估計它們(如在下面的圖10的上下文中所描述的)。然后,可以在給定LP多項式的情況下,在比例因子自適應模塊961中自適應比例因子,如下面所概述的,以便降低傳輸比例因子所需的比特率。通常,比例因子被傳輸?shù)浇獯a器,LP多項式也是如此。現(xiàn)在,假定它們兩者都是從原始輸入信號估計的,并且它們兩者都在某種程度上與原始輸入信號的絕對頻譜屬性相關聯(lián),提出了編碼兩者之間的增量表達,以便消除在兩者分開傳輸?shù)那闆r下可能會產(chǎn)生的任何冗余。根據(jù)一個實施例,按如下方式利用此關聯(lián)。由于LPC多項式,當被正確地啁啾和傾斜之后,力求代表掩蔽閾值曲線,因此,可以將兩種表達組合起來,以便變換編碼器的已傳輸?shù)谋壤蜃哟硭M谋壤蜃雍涂梢詮囊褌鬏數(shù)腖PC多項式導出的那些比例因子之間的差。因此,如圖9所示的比例因子自適應模塊961計算從原始輸入信號所生成的所希望的比例因子和LPC導出的比例因子之間的差。此方面保留了在LPC結構內具有對LPC殘余進行操作的基于MDCT的量化器(該量化器具有變換編碼器中所通常使用的比例因子的概念)的能力,并且仍具有切換到僅僅從線性預測數(shù)據(jù)導出量化步長的基于模型的量化器的可能性。在圖9b中,給出了根據(jù)一個實施例的編碼器和解碼器的簡化框圖。編碼器中的輸入信號被傳遞通過生成白化殘余信號和對應的線性預測參數(shù)的LPC模塊901。另外,在LPC模塊901中還可以包括增益歸一化。來自LPC的殘余信號被MDCT變換902轉換成頻率域。在圖9b右邊,描繪了解碼器。解碼器取已量化的MDCT線,將它們去量化911,并應用逆MDCT變換912,接下來是LPC合成濾波913。從圖9b的編碼器中的LPC模塊901輸出的白化信號被輸入到MDCT濾波器組902。MDCT線由于MDCT分析,被利用包括為MDCT頻譜的不同的部分引導所期望的量化步長的感知模型的變換編碼算法而變換編碼。確定量化步長的值叫做“比例因子”,對于MDCT頻譜的名為比例因子帶的每一分區(qū),有一個比例因子值。在現(xiàn)有技術變換編碼算法中,比例因子通過比特流被傳輸?shù)浇獯a器。根據(jù)本發(fā)明的一個方面,當編碼量化中所使用的比例因子時,使用如參考圖9所說明的從LPC參數(shù)估計的感知掩蔽曲線。估計感知掩蔽曲線的另一種可能性是對于MDCT線上的能量分布的估計,使用未修改的LPC濾波系數(shù)。利用此能量估算,可以在編碼器和解碼器兩者中應用如在變換編碼方案中所使用的心理聲學模型,以獲得掩蔽曲線的估計。然后,將掩蔽曲線的兩種表達組合起來,以便變換編碼器的要傳輸?shù)谋壤蜃哟硭谕谋壤蜃雍涂梢詮囊褌鬏數(shù)腖PC多項式或基于LPC的心理聲學模型導出的那些比例因子之間的差。此特征保留了在LPC結構內具有對LPC殘余進行操作的基于MDCT的量化器(該量化器具有變換編碼器中所通常使用的比例因子的概念)的能力,并且仍具有根據(jù)變換編碼器的心理聲學模型以每個比例因子帶為基礎地控制量化噪聲的可能性。優(yōu)點是,與傳輸絕對比例因子值而不考慮已經(jīng)存在的LPC數(shù)據(jù)相比,傳輸比例因子的差將花費較少的比特。取決于比特率、幀大小或其他參數(shù),可以選擇要傳輸?shù)谋壤蜃託堄嗟牧俊榫哂袑γ恳槐壤蜃訋У耐耆刂?,可以利用適當?shù)臒o噪編碼方案來傳輸比例因子增量。在其他情況下,用于傳輸比例因子的成本可以通過比例因子差的更粗略的表達來進一步降低。具有最低的開銷的特殊情況是當對于所有頻帶比例因子差都被設置為O,并且不傳輸額外的信息時。圖10示出了根據(jù)本發(fā)明將LPC多項式轉換為MDCT增益曲線的一個優(yōu)選實施例。如圖2所描繪的,MDCT對由LPC濾波器1001進行白化的白化信號進行操作。為了保留原始輸入信號的頻譜包絡,由MDCT增益曲線模塊1070來計算MDCT增益曲線。對于由MDCT變換中的點(bin)所表示的頻率,可以通過估計由LPC濾波器所描述的頻譜包絡的幅度響應,來獲得MDCT域均衡增益曲線。然后,可以對MDCT數(shù)據(jù)應用增益曲線,例如,當如圖3所描繪的計算最小均方誤差時,或當如上文參考圖9所描繪的估計用于進行比例因子確定的感知掩蔽曲線時。圖12示出了基于量化器的變換大小和/或類型自適應感知加權濾波器計算的一個優(yōu)選實施例。由圖16中的LPC模塊1201來估計LP多項式A (z)。LPC參數(shù)修改模塊1271接收諸如LPC多項式A (z)的LPC參數(shù),并通過修改LPC參數(shù)來生成感知加權濾波器A’ (z)。例如,擴展LPC多項式A(Z)的帶寬,和/或傾斜該多項式。輸入到自適應啁啾與傾斜模塊1272的參數(shù)是默認啁啾和傾斜值P和Y。在給定預定規(guī)則的情況下,基于所使用的變換大小,和/或所使用的量化策略Q,來修改這些值。經(jīng)修改的啁啾和傾斜參數(shù)P’和Y’被輸入到LPC參數(shù)修改模塊1271,該模塊1271將由A(Z)所表示的輸入信號頻譜包絡轉換為由A’(z)所表示的感知掩蔽曲線。下面,將說明根據(jù)本發(fā)明的一個實施例的取決于幀大小的量化策略,以及取決于分類的參數(shù)的基于模型的量化。本發(fā)明的一個方面是,它對于不同的變換大小或幀大小,利用不同的量化策略。這在圖13中示出,在該圖中,幀大小被用作使用基于模型的量化器或非基于模型的量化器的選擇參數(shù)。值得注意的是,此量化方面獨立于所公開的編碼器/解碼器的其他方面,并且也可以應用于其他編解碼器中。非基于模型的量化器的一個示例是AAC音頻編碼標準中所使用的基于霍夫曼碼表的量化器?;谀P偷牧炕骺梢允鞘褂盟阈g編碼的熵約束量化器(ECQ)。然而,也可以本發(fā)明的各實施例中使用其他量化器。
根據(jù)本發(fā)明的一個獨立方面,提出了在給定特定幀大小的情況下,作為幀大小的函數(shù)來在不同的量化策略之間進行切換以便能夠使用最佳量化策略。作為示例,窗口序列可以規(guī)定對于信號的非常靜止的音調音樂段,使用長變換。對于此特定信號類型,使用長變換,使用可以利用信號譜中的“稀少的”字符(即,定義明確的離散的音調)的量化策略是十分有益的。將AAC中所使用的量化方法與也如AAC中所使用的霍夫曼碼表和譜線組相結合,是非常有益的。然而,相反,對于語音段,在給定LTP的編碼增益的情況下,窗口序列可以規(guī)定使用短變換。對于此信號類型和變換大小,使用不試圖查找或引入頻譜中的稀少性,但是卻維持了寬帶能量(在給定LTP的情況下,將保留如原始輸入信號的字符的脈沖)的量化策略是有益的。圖14給出了此概念的更一般的圖示,在該圖中,輸入信號被轉換成MDCT域,隨后被由用于MDCT變換的變換大小或幀大小控制的量化器量化。根據(jù)本發(fā)明的另一個方面,作為LPC和/或LTP數(shù)據(jù)的函數(shù)來自適應量化器步長。這允許根據(jù)幀的難度來確定步長,并控制被分配用于對幀進行編碼的比特的數(shù)量。在圖15中,給出了有關如何通過LPC和LTP數(shù)據(jù)來控制基于模型的量化的例圖。在圖15的頂部,給出了 MDCT線的示意圖示。下面,描繪了作為頻率的函數(shù)的量化步長增量Λ。從此特定示例很清楚地看出,量化步長隨著頻率而增大,即,對于較高的頻率,會產(chǎn)生更多的量化失真。通過圖15a中所描繪的增量自適應模塊從LPC和LTP參數(shù)導出增量曲線。如參考圖13所說明的,增量曲線還可以進一步通過啁啾和/或傾斜從預測多項式A(Z)導出。在下面的等式中給出了來源于LPC數(shù)據(jù)的優(yōu)選感知加權函數(shù)
_4]其中,A (Z)是LPC多項式,τ是傾斜參數(shù),P控制啁啾,而F1是根據(jù)A (Z)多項式計算出的第一反射系數(shù)。應當注意,可以對于不同的表達式的分類,再計算A(Z)多項式,以便從多項式中提取相關信息。如果某人對頻譜斜率感興趣,以便應用“傾斜”來對抗頻譜的斜率,則將多項式再計算為反射系數(shù)是優(yōu)選的,因為第一反射系數(shù)代表頻譜的斜率。另外,還可以作為輸入信號方差σ、LTP增益g以及來源于預測多項式的第一反射系數(shù)A的函數(shù),自適應增量值Λ。例如,自適應可以基于下面的等式Λ ' = Λ (l+rjl-g2))下面,概述了根據(jù)本發(fā)明的一個實施例的基于模型的量化器的各方面。在圖16中,示出了基于模型的量化器的各方面的一個方面。使用均勻標量量化器,將MDCT線輸入到量化器。另外,還將隨機偏移輸入到量化器,并將其用作移動區(qū)間邊界的量化區(qū)間的偏移值。所提出的量化器提供了矢量量化優(yōu)點,而又維持了標量量化器的可搜索性。量化器對一組不同的偏移值進行迭代,并對于這些偏移值,計算量化誤差。使用對于被量化的特定MDCT線最小化了量化失真的偏移值(或偏移值矢量)來進行量化。然后,將偏移值與已量化的MDCT線一起傳輸?shù)浇獯a器。隨機偏移的使用在去量化的解碼信號中引入了噪聲填充,通過這樣做,避免了量化頻譜中的頻譜缺陷。對于其中許多MDCT線被以別的方式量化到零值的低比特率,這特別重要,零值將會導致在重構的信號的頻譜中有聽得見的缺陷。
圖17概要地示出了根據(jù)本發(fā)明的一個實施例的基于模型的MDCT線量化器(MBMLQ)。圖17的頂部描繪了 MBMLQ編碼器1700。MBMLQ編碼器1700以MDCT幀中的MDCT線或LTP殘余的MDCT線(如果LTP存在于系統(tǒng)中的話)作為輸入。MBMLQ使用MDCT線的統(tǒng)計模型,使源代碼以逐MDCT幀為基礎地適應于信號屬性,產(chǎn)生到比特流的有效的壓縮??梢宰鳛镸DCT線的RMS值來估計MDCT線的局部增益,并且,在被輸入到MBMLQ編碼器1700之前,MDCT線在增益歸一化模塊1720中被歸一化。局部增益歸一化MDCT線,并且是對LP增益歸一化的補充。LP增益適應于較大的時標上的信號電平變化,而局部增益適應于較小時標的變化,會改善瞬態(tài)聲的品質和語音中的開始(on-sets)。局部增益是通過固定速率或可變速率編碼來進行編碼的,并被傳輸?shù)浇獯a器??梢允褂盟俾士刂颇K1710來控制用于對MDCT幀進行編碼的比特的數(shù)量。速率控制指數(shù)控制所使用的比特的數(shù)量。速率控制指數(shù)指向額定量化器步長的列表??梢园床介L的降序對表進行排序(參見圖17g)。利用一組不同速率控制指數(shù)來運行MBMLQ編碼器,對于幀,產(chǎn)生低于由比特儲存器控制給出的許可的比特的數(shù)量的比特計數(shù)的速率控制指數(shù)。速率控制指數(shù)慢慢地變化,這可以被用來降低搜索復雜性,并有效地對指數(shù)進行編碼。如果測試圍繞前面的MDCT幀的指數(shù)啟動,則可以降低測試的該組指數(shù)。同樣,如果概率圍繞指數(shù)的前一值達到峰值,則獲得該指數(shù)的有效的熵編碼。例如,對于32個步長的列表,可以使用平均為每個MDCT幀2個比特來編碼速率控制指數(shù)。圖17還概要地示出MBMLQ解碼器1750,在該圖中,如果在編碼器1700中估計了局部增益,則MDCT幀被增益重新歸一化。圖17a概要地示出了根據(jù)一個實施例的基于模型的MDCT線編碼器1700。它包括量化器預處理模塊1730 (參見圖17c),基于模型的熵約束編碼器1740 (參見圖17e),以及可以是現(xiàn)有技術的算術編碼器的算術編碼器1720。量化器預處理模塊1730的任務是以逐MDCT幀為基礎地使MBMLQ編碼器自適應信號統(tǒng)計信息。它取其他編解碼器參數(shù)作為輸入,并從它們導出有關信號的可以用來修改基于模型的熵約束編碼器1740的行為的有用統(tǒng)計信息。基于模型的熵約束編碼器1740,例如,通過一組控制參數(shù)來加以控制量化器步長Λ(增量,間隔長度),MDCT線的一組方差估計V (矢量^fMDCT線,一個估計值),感知掩蔽曲線Pnwd,(隨機)偏移的矩陣或表,以及描述了 MDCT線的分布的形狀以及它們的相互依賴關系的MDCT線的統(tǒng)計模型。所有上文所提及的控制參數(shù)都可以在各MDCT幀之間變化。圖17b概要地示出了根據(jù)本發(fā)明的一個實施例的基于模型的MDCT線解碼器1750。它取來自比特流的邊信息比特作為輸入,并將它們解碼為被輸入到量化器預處理模塊1760的參數(shù)(參見圖17c)。量化器預處理模塊1760優(yōu)選地在編碼器1700中具有與解碼器1750中的完全相同的功能。被輸入到量化器預處理模塊1760的參數(shù)在編碼器中與在解碼器中完全相同。量化器預處理模塊1760輸出一組控制參數(shù)(與在編碼器1700中相同),并將這些控制參數(shù)輸入到概率計算模塊1770 (參見圖17g ;與在編碼器中相同,參見圖17e),并輸入到去量化模塊1780 (參見圖17h;與在編碼器中相同,參見圖17e)。在給定用于量化的增量以及信號的方差的情況下,來自概率計算模塊1770的代表所有MDCT線的概率密度函數(shù)的cdf表,被輸入到算術解碼器(可以是為本領域的技術人員所知的任何算術編碼器),然后,該算術解碼器將MDCT線比特解碼為MDCT線指數(shù)。然后,通過去量化模塊1780將MDCT線指數(shù)去量化為MDCT線。圖17c概要地示出了根據(jù)本發(fā)明的一個實施例的量化器預處理的方面,包括i)步長計算, )感知掩蔽曲線修改,iii)MDCT線方差估計,iv)偏移表構建。在圖17d中更加詳細地說明了步長計算。它包括i)表查詢,其中,到步長的表中的速率控制指數(shù)點產(chǎn)生額定步長Amm(delta_norn),低能量自適應,以及iii)高通自適應。增益歸一化通常導致高能量聲音和低能量聲音利用相同段SNR編碼。這會導致過多的比特數(shù)用于低能量聲音上。所提出的低能量自適應允許在低能量和高能量聲音之間細化(fine)調節(jié)中。當信號能量如在圖17d-1i)中所描繪的那樣變低時,可以增大步長,在這些圖中,示出了信號能量(增益g)和控制因子I之間的關系的示例性曲線。信號增益g可以作為輸入信號本身或LP殘余的RMS值來計算。圖17d-1i)中的控制曲線只是一個示例,可以使用用于增大低能量信號的步長的其他控制功能。在所描繪的示例中,控制功能是通過由閾值T1和T2以及步長因子L所定義的逐步線性區(qū)段來確定的。高通聲音感覺上沒有低通聲音重要。當MDCT幀是高通時,S卩,當本MDCT幀中的信號的能量被集中到較高頻率時,高通自適 應功能增大步長,導致在這種幀上花費更少的比特。如果LTP存在并且如果LTP增益gLTP接近于1,則LTP殘余能變?yōu)楦咄?;在這種情況下,不增大步長是有利的。在圖17d-1ii)中描繪了此機制,其中,r是來自LPC的第一反射系數(shù)。所提出的高通自適應可以使用下面的等式
權利要求
1.一種音頻編碼系統(tǒng),包括 線性預測單元,用于基于自適應濾波器過濾輸入信號; 變換單元,用于將所述經(jīng)過濾的輸入信號的幀轉換至變換域; 量化單元,用于量化所述變換域信號; 比例因子確定單元,用于基于掩蔽閾值曲線生成比例因子,供在量化所述變換域信號時在所述量化單元中使用; 線性預測比例因子估計單元,用于基于所述自適應濾波器的參數(shù),估計基于線性預測的比例因子;以及 比例因子編碼器,用于編碼所述基于掩蔽閾值曲線的比例因子和所述基于線性預測的比例因子之間的差。
2.根據(jù)權利要求1所述的音頻編碼系統(tǒng),其中,所述線性預測比例因子估計單元包括感知掩蔽曲線估計單元,用于基于所述自適應濾波器的所述參數(shù)來估計感知掩蔽曲線,其中,所述基于線性預測的比例因子是基于所估計的感知掩蔽曲線而確定的。
3.根據(jù)權利要求1所述的音頻編碼系統(tǒng),其中,所述變換域信號的幀的所述基于線性預測的比例因子是基于內插的線性預測參數(shù)而估計的。
4.根據(jù)權利要求1所述的音頻編碼系統(tǒng),包括 長期預測單元,用于基于所述經(jīng)濾波的輸入信號的先前的段的重構,確定所述經(jīng)濾波的輸入信號的所述幀的估計;以及 變換域信號組合單元,用于在所述變換域中組合所述長期預測估計和經(jīng)變換的輸入信號,以生成所述變換域信號。
5.根據(jù)權利要求1所述的音頻編碼系統(tǒng),包括比特儲存器控制單元,用于基于所述幀的長度和所述幀的難度測度,確定用于編碼所述經(jīng)濾波的信號的幀的被許可的比特的數(shù)量。
6.根據(jù)權利要求5所述的音頻編碼系統(tǒng),其中,所述比特儲存器控制單元對于不同的幀難度測度和/或不同的幀大小,具有單獨的控制方程。
7.根據(jù)權利要求5或6所述的音頻編碼系統(tǒng),其中,所述比特儲存器控制單元歸一化不同的幀大小的難度測度。
8.根據(jù)權利要求5或6所述的音頻編碼系統(tǒng),其中,所述比特儲存器控制單元將所許可的比特控制算法的允許下限設置到最大允許的幀大小的比特的平均數(shù)。
9.一種音頻解碼器,包括 去量化單元,用于基于比例因子,去量化輸入比特流的幀; 逆變換單元,用于逆向地變換變換域信號; 線性預測單元,用于過濾經(jīng)逆向地變換的變換域信號;以及 比例因子解碼單元,用于基于接收到的比例因子增量信息,生成去量化中所使用的比例因子,該比例因子增量信息對在編碼器中應用的比例因子和基于自適應濾波器的參數(shù)而生成的比例因子之間的差進行編碼。
10.根據(jù)權利要求9所述的音頻解碼器,包括 比例因子確定單元,用于基于來源于當前幀的線性預測參數(shù)的掩蔽閾值曲線,生成比例因子,其中,所述比例因子解碼單元組合所述接收到的比例因子增量信息和所生成的基于線性預測的比例因子,以生成用于輸入到所述去量化單元的比例因子。
11.一種音頻編碼方法,包括下列步驟 基于自適應濾波器過濾輸入信號; 將經(jīng)濾波的輸入信號的幀轉換至變換域; 量化所述變換域信號; 基于掩蔽閾值曲線生成比例因子,供在量化所述變換域信號時在量化單元中使用; 基于所述自適應濾波器的參數(shù),估計基于線性預測的比例因子;以及 編碼所述基于掩蔽閾值曲線的比例因子和所述基于線性預測的比例因子之間的差。
12.—種音頻解碼方法,包括下列步驟 基于比例因子,去量化輸入比特流的幀; 逆向地變換變換域信號; 線性預測過濾經(jīng)逆向地變換的變換域信號; 基于自適應濾波器的參數(shù),估計第二比例因子;以及 基于接收到的比例因子差信息和所估計的第二比例因子,生成去量化中所使用的比例因子。
13.—種音頻解碼設備,包括 用于基于比例因子,去量化輸入比特流的幀的裝置; 用于逆向地變換變換域信號的裝置; 用于線性預測過濾經(jīng)逆向地變換的變換域信號的裝置; 用于基于自適應濾波器的參數(shù),估計第二比例因子的裝置;以及用于基于接收到的比例因子差信息和所估計的第二比例因子,生成去量化中所使用的比例因子的裝置。
14.一種音頻解碼方法,包括 去量化步驟,用于基于比例因子,去量化輸入比特流的幀; 逆變換步驟,用于逆向地變換變換域信號; 線性預測步驟,用于過濾經(jīng)逆向地變換的變換域信號;以及 比例因子解碼步驟,用于基于接收到的比例因子增量信息,生成去量化中所使用的比例因子,所述比例因子增量信息對在編碼器中應用的比例因子和基于自適應濾波器的參數(shù)而生成的比例因子之間的差進行編碼。
全文摘要
本發(fā)明涉及音頻編碼器和解碼器。本發(fā)明教導了可以以低比特率對一般音頻和語音信號進行編碼的新的音頻編碼系統(tǒng)。所提出的音頻編碼系統(tǒng)包括用于基于自適應濾波器過濾輸入信號的線性預測單元;用于將經(jīng)濾波的輸入信號的幀轉換為變換域的變換單元;以及用于量化所述變換域信號的量化單元。所述量化單元基于輸入信號特征,決定利用基于模型的量化器或非基于模型的量化器來編碼所述變換域信號。優(yōu)選地,決定是基于變換單元應用的幀大小的。
文檔編號G10L19/00GK103065637SQ20131000550
公開日2013年4月24日 申請日期2008年12月30日 優(yōu)先權日2008年1月4日
發(fā)明者P·H·海德林, P·J·卡爾森, J·L·薩繆爾森, M·舒格 申請人:杜比國際公司