專利名稱:立體聲音頻編碼方法及裝置,音頻流解碼方法及裝置的制作方法
技術(shù)領域:
本發(fā)明涉及編碼和解碼音頻數(shù)據(jù),并且尤其是涉及對從多個通道中獲得的音頻數(shù)據(jù)即立體聲音頻數(shù)據(jù)進行編碼的方法及其裝置,用于解碼音頻流的方法及其裝置。
背景技術(shù):
立體聲音頻,即由多個通道提供的音頻信號的組合信號,與從單個通道提供的單一音頻相比,其為聽眾提供立體聲并具有高的需求。
然而,存儲或傳送立體聲音頻,即由多個通道提供的多個單一音頻信號的組合信號,與存儲或傳送單一音頻相比是復雜的和昂貴的。
發(fā)明內(nèi)容
本發(fā)明提供用于編碼/解碼具有可伸縮性的音頻數(shù)據(jù)的方法和裝置,由此可以提供細粒度可伸縮性(FGS)同時具有較低復雜性。
本發(fā)明也提供用于編碼/解碼具有可伸縮性的音頻數(shù)據(jù)的方法和裝置,由此即使在較低的層中也能提供更好的音頻質(zhì)量同時提供FGS。
根據(jù)本發(fā)明的一方面,提供一種用于編碼具有可伸縮性的音頻數(shù)據(jù)的方法,其中包括立體聲音頻編碼方法,該方法包括對從n通道中得到的n個音頻采樣執(zhí)行子波變換,利用n*n去相關(guān)矩陣從n個子波變換的音頻采樣中消除通道間冗余信息,量化從中消除了冗余信息的采樣,并且無損地編碼該量化的采樣,這里n是大于或等于2的整數(shù)。
消除通道間冗余信息包括根據(jù)預定的代價函數(shù)選擇立體聲處理模式或正常模式,如果選擇該立體聲處理模式,通過將n個變換的音頻采樣與具有被確定以使熵最小化的n*n個元素的n*n去相關(guān)矩陣相乘來獲得一個或多個去相關(guān)采樣,以便最小化熵,并且量化該采樣包括量化該去相關(guān)采樣。
根據(jù)本發(fā)明的另一方面,提供一種立體聲音頻編碼方法,包括變換左和右音頻采樣,通過將左和右變換的音頻采樣乘以由公式1表示的去相關(guān)矩陣來獲得從中消除了通道間冗余信息的去相關(guān)采樣,公式1abcd...1]]>其中a、b、c和d是實數(shù),量化該去相關(guān)采樣,并且無損地編碼該量化的采樣。
乘以該左和右變換的音頻采樣包括根據(jù)預定的代價函數(shù)選擇立體聲處理模式或正常模式,如果選擇該立體聲處理模式,通過將n個變換音頻采樣乘以具有被確定以便最小化熵的a、b、c和d元素的去相關(guān)矩陣來獲得一個或多個去相關(guān)采樣。
該立體聲音頻編碼方法進一步包括編碼用于指示該立體聲處理模式是否被選擇的標志信息以及包含通知去相關(guān)矩陣的元素a、b、c和d的矩陣元素信息的立體聲處理信息,并且將該立體聲處理信息和通過無損編碼獲得的采樣打包在幀單元中。
在獲得去相關(guān)采樣中,利用由公式2表示的去相關(guān)矩陣通過中間/側(cè)面立體聲處理來獲得去相關(guān)采樣,公式2111-1...2]]>在獲得去相關(guān)采樣中,利用由公式3表示的去相關(guān)矩陣通過強度處理來獲得去相關(guān)采樣,公式31000...3]]>并且無損編碼該量化采樣進一步包括將左和右音頻采樣之間的電平差編碼作為附加信息。
在獲得去相關(guān)采樣中,利用由公式4表示的去相關(guān)矩陣來獲得去相關(guān)采樣,公式4cosθ-sinθsinθcosθ...4]]>其中θ表示左和右音頻采樣的聲音源方向。
在去相關(guān)采樣的量化中,基于心理聲學模型執(zhí)行量化。
而且,該量化采樣的無損編碼是算術(shù)編碼或霍夫曼編碼,并且該量化采樣的無損編碼包括基于具有可伸縮性的多個預定層對量化采樣進行編碼。
根據(jù)本發(fā)明的再一個方面,提供一種用于解碼音頻流的方法,包括通過無損地解碼該音頻流來獲得量化的采樣,通過逆量化該量化的采樣來獲得n個采樣,通過將n個采樣乘以n*n相關(guān)矩陣來獲得n個變換的音頻采樣,以及通過在n個變換的音頻采樣上執(zhí)行逆子波變換來獲得對應于n通道的n個音頻采樣,其中n是大于或等于2的整數(shù)。
獲得n個變換的音頻采樣包括確定是否選擇了立體聲處理模式,并且如果選擇該立體聲處理模式,通過將該n個采樣乘以相關(guān)矩陣來獲得n個變換的音頻采樣。
根據(jù)本發(fā)明的另一個方面,提供一種用于解碼音頻流的方法,包括通過無損解碼該音頻流來獲得量化的采樣,通過逆量化該量化的采樣獲得去相關(guān)采樣,通過將2個去相關(guān)采樣乘以公式4表示的相關(guān)矩陣來獲得左和右變換的音頻采樣,公式4abcd-1...4]]>其中,a、b、c和d是實數(shù),并且通過逆變換該左和右變換的音頻采樣來獲得左和右音頻采樣。
在獲得左和右變換的音頻采樣中,利用如下公式5表示的相關(guān)矩陣通過中間/側(cè)面立體聲處理來獲得該左和右變換的采樣,公式5111-1-1...5]]>獲得左和右變換的音頻采樣包括利用如下公式6表示的相關(guān)矩陣通過強度處理來獲得左和右音頻變換的采樣,公式610level_diff0...6]]>冗余信其中,level_diff是左和右音頻采樣之間的電平差,逆變換該電平差,并且從逆變換的電平差中獲得左和右音頻采樣。
在獲得左和右變換的音頻采樣中,利用如下公式7表示的相關(guān)矩陣獲得該左和右變換的采樣,公式7cosθ-sinθsinθcosθ-1...7]]>
其中θ表示左和右音頻采樣的方向。
該音頻流的無損解碼是算術(shù)解碼或霍夫曼解碼,并且包括為具有可伸縮性的多個預定層對音頻流進行解碼。
根據(jù)本發(fā)明的另一個方面,提供一種立體聲音頻編碼裝置,包括在分別從n通道中獲得的n個音頻采樣上執(zhí)行子波變換的變換單元,通過將n個變換的音頻采樣乘以n*n去相關(guān)矩陣來除去通道間冗余信息的冗余信息消除單元,對從中消除了冗余信息的采樣進行量化的量化單元,以及通過無損編碼該量化采樣來執(zhí)行位打包的位打包單元,其中n是大于或等于2的整數(shù)。
該冗余信息消除單元根據(jù)預定的代價函數(shù)選擇立體聲處理模式或正常模式,如果選擇該立體聲處理模式,通過將n個變換的音頻采樣乘以具有這樣確定的n*n個元素的矩陣來獲得一個或多個去相關(guān)采樣,以便在除去通道間冗余信息之后獲得的采樣的熵最小化,并且量化單元量化該去相關(guān)采樣。
根據(jù)本發(fā)明再一個方面,提供一種立體聲音頻編碼裝置,包括提供有關(guān)心理聲學模型信息的心理聲學單元,基于有關(guān)心理聲學模型信息變換左和右音頻采樣的變換單元,通過將左和右變換的音頻采樣乘以由公式1表示的去相關(guān)矩陣來獲得從中消除了通道間冗余信息的去相關(guān)采樣的冗余信息消除單元,公式1abcd...1]]>其中a、b、c和d是實數(shù),量化單元基于心理聲學模型信息量化該去相關(guān)采樣,并且位打包單元通過無損編碼該量化的采樣將位打包成幀的單元。
該冗余信息消除單元根據(jù)預定的代價函數(shù)選擇立體聲處理模式或正常模式,并且如果選擇了立體聲處理模式,通過將變換的音頻采樣乘以包括這樣確定的元素a、b、c和d的去相關(guān)矩陣來獲得一個或更多的去相關(guān)采樣,以便在除去通道間冗余信息之后獲得的采樣的熵最小化。
該位打包單元編碼指示立體聲處理模式是否被選擇的標志信息以及包含通知去相關(guān)矩陣的元素a、b、c和d的矩陣元素信息的立體聲處理信息。
該冗余信息消除單元獲取去相關(guān)采樣,通過中間/側(cè)面立體聲處理利用由公式2表示的去相關(guān)矩陣來獲得該去相關(guān)采樣,公式2
111-1...2]]>該冗余信息消除單元通過強度處理利用由公式3表示的去相關(guān)矩陣來獲得去相關(guān)采樣,公式31000...3]]>并且位打包單元對左和右音頻采樣之間的電平差進行編碼作為附加信息。
該冗余信息消除單元利用如下公式4表示的去相關(guān)矩陣來獲得去相關(guān)采樣,公式4cosθ-sinθsinθcosθ...4]]>其中θ表示左和右音頻采樣的聲音源的方向。
位打包單元為具有可伸縮性的多個預定層編碼該量化采樣。
可替換的,提供一種用于解碼音頻流的裝置,包括通過無損解碼該音頻流來獲得量化的采樣的拆包單元,通過逆量化該量化的采樣以獲得n個采樣的逆量化單元,通過將n個采樣乘以n*n相關(guān)矩陣來獲得n個變換的音頻采樣的冗余信息恢復單元,以及通過在n個變換的音頻采樣上執(zhí)行逆子波變換來獲得對應n通道的n個音頻采樣的逆變換單元,其中n是大于或等于2的整數(shù)。
而且,提供一種用于解碼音頻流的裝置,包括通過無損解碼該音頻流來獲得量化采樣的拆包單元,通過逆量化該量化采樣來獲得去相關(guān)采樣的逆量化單元,通過將由公式4表示的相關(guān)矩陣乘以2個去相關(guān)采樣來獲得左和右變換的音頻采樣的冗余信息恢復單元,公式4abcd-1...4]]>其中a、b、c和d是實數(shù),以及通過逆變換該左和右變換的音頻采樣來獲得左和右音頻采樣的逆變換單元。
該冗余信息恢復單元利用如下公式5表示的相關(guān)矩陣獲得左和右變換的音頻采樣,公式5111-1-1...5]]>
而且,該冗余信息恢復單元利用如下公式7表示的相關(guān)矩陣來獲得左和右變換的音頻采樣,公式7cosθ-sinθsinθcosθ-1...7]]>其中θ表示左和右音頻采樣的方向。
可替換的,提供一種用于解碼音頻流的裝置,包括通過無損解碼該音頻流來獲得量化采樣的拆包單元,通過逆量化該量化采樣來獲得n個采樣的逆量化單元,利用如下公式6表示的相關(guān)矩陣通過強度處理來獲得左和右音頻變換的采樣的冗余信息恢復單元,公式610level_diff0...6]]>其中l(wèi)evel_diff是左和右音頻采樣之間的電平差,以及逆向變換該電平差并從逆向變換的電平差中獲得左和右音頻采樣的逆向變換單元。
該拆包單元執(zhí)行算術(shù)解碼或霍夫曼解碼,并且為具有可伸縮性的多個預定層解碼該音頻流。
通過參考附圖詳細描述本發(fā)明的優(yōu)選實施例,本發(fā)明的上述目標和優(yōu)點將變得更加清楚,其中圖1是根據(jù)本發(fā)明優(yōu)選實施例的編碼裝置的框圖;圖2是圖1中冗余信息消除單元的詳細框圖;圖3是根據(jù)心理聲學模型構(gòu)造的子波示圖;圖4是更詳細解釋立體聲處理模式中冗余信息消除單元操作的參考圖;圖5是形成根據(jù)本發(fā)明編碼的音頻流的幀結(jié)構(gòu)圖;圖6是根據(jù)本發(fā)明的解碼裝置的框圖;圖7是圖6中冗余信息恢復單元的詳細框圖;圖8是解釋根據(jù)本發(fā)明一個實施例的編碼方法的流程圖;圖9是解釋根據(jù)本發(fā)明另一實施例的編碼方法的流程圖;圖10是解釋根據(jù)本發(fā)明再一個實施例的編碼方法的流程圖;圖11是解釋根據(jù)本發(fā)明一個實施例的解碼方法的流程圖;圖12是解釋根據(jù)本發(fā)明另一實施例的解碼方法的流程圖;
圖13是解釋根據(jù)本發(fā)明再一個實施例的解碼方法的流程圖;具體實施方式
現(xiàn)在將參考附圖詳細描述本發(fā)明的優(yōu)選實施例。
圖1是根據(jù)本發(fā)明優(yōu)選實施例的編碼裝置的框圖;參考圖1,該編碼裝置通過消除通道間冗余數(shù)據(jù)將音頻數(shù)據(jù)編碼成較少的位,并且包括變換單元11,心理聲學單元12,量化單元13,位打包單元14和冗余信息消除單元15。
該變換單元11變換從多個通道獲得的音頻采樣。更詳細的,該變換單元11接收為時域音頻信號的脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù),并且參考有關(guān)由心理聲學單元12提供的心理聲學模型的信息將該信號變換為頻域信號。當人能夠感覺的音頻信號的特性之間的差別在時域中不是太大時,在通過變換獲得的頻域音頻信號中人能夠感覺的信號的特性與人不能感覺的信號的特性之間有很大差別。因此,通過差分被分配到各自頻帶的位數(shù),可以提高壓縮的效率。在該實施例中,變換單元11根據(jù)圖3所示的由心理聲學模型構(gòu)造的子波結(jié)構(gòu)在左和右音頻采樣上執(zhí)行子波變換。左音頻采樣是從左通道中獲得的PCM音頻數(shù)據(jù),而右音頻采樣是從右通道中獲得的PCM音頻數(shù)據(jù)。在MDCT中,由于在低頻帶中不必要的高頻分解,即使輕微的失真也能引起人耳可以感覺的降低。然而,在子波變換中,時間/頻率分解更合適,以便在具有低頻帶的低層中也能提供更穩(wěn)定的音頻質(zhì)量。因此,該子波變換為聽眾提供更高質(zhì)量的聲音。
該心理聲學單元12為變換單元11提供有關(guān)心理聲學模型的信息諸如沖擊感覺信息,并且將變換單元11變換的音頻信號分組成合適的子帶信號。而且該心理聲學單元12通過使用在各自信號之間的相互作用引起的掩蔽效果計算每個子帶中的掩蔽閾值,并且提供該閾值給量化單元13。該掩蔽閾值是由于音頻信號之間的相互作用人不能感覺的信號的最大值。在該實施例中,該心理聲學單元12通過使用雙耳掩蔽電平壓低(BMLD)計算立體聲分量的掩蔽閾值。
該冗余信息消除單元15通過將來自相應通道的多個變換音頻采樣乘以去相關(guān)矩陣以消除通道間冗余信息。當通道的數(shù)量是n時,該去相關(guān)矩陣是具有n*n元素的n維矩陣,并且具有逆矩陣。該n*n元素被確定以便在消除冗余信息之后得到的音頻采樣的熵被最小化。該去相關(guān)矩陣可以提供給用于子波變換的每個終端節(jié)點,或提供在形成編碼音頻流的幀的單元中。從中消除了冗余信息的采樣稱為去相關(guān)采樣。去相關(guān)采樣的數(shù)量小于或等于通道的數(shù)量。在該實施例中,沒有必要所有的音頻采樣都提供給冗余消息消除單元15用于冗余信息的消除。在存在相對大量冗余信息的情況中,數(shù)據(jù)壓縮的效率提高了。然而,在存在相對小量冗余信息的情況中,數(shù)據(jù)壓縮的效率可忽略,而加大了處理的復雜性。因此,考慮到冗余信息的量,確定是否音頻采樣被送到冗余信息消除單元15用于立體聲處理。
由于子波變換的音頻采樣的時間/頻率分解率不是恒定的,不容易通過頻率線執(zhí)行音頻采樣操作。因此,基于波形變換消除通道間冗余信息的效率與其他傳統(tǒng)方法相比并不高。另一方面,根據(jù)本發(fā)明,該冗余信息消除單元15利用乘以去相關(guān)矩陣,由此在從子波變換的音頻采樣中除去通道間冗余信息中獲得更高效率。
量化單元13基于對應于音頻信號的比例因子信息,標量量化在每個頻帶中的音頻信號,以便頻帶中量化噪音的大小小于心理聲學單元12提供的掩蔽閾值,以便人不能感覺該噪音。然后,該量化單元13輸出該量化的采樣。就是說,通過使用在心理聲學單元12中計算的掩蔽閾值以及在每個頻帶中產(chǎn)生的噪聲比率即噪聲掩蔽比(NMR),該量化單元13執(zhí)行量化以便在整個頻帶中NMR值是0分貝或更小。該NMR是0分貝或更小意味著人不能感覺該量化噪聲。
該位打包單元14無損編碼該量化采樣并且將編碼的采樣以幀為單位打包。無損編碼的代表性實例包括算術(shù)編碼和霍夫曼編碼。一個幀是構(gòu)成編碼位流的基本單元??梢杂酶鞣N方式確定幀的格式。指示冗余信息消除單元15的處理是否被應用的標志信息,以及有關(guān)去相關(guān)矩陣的信息是一種附加信息,其被編碼并打包在幀的單元中并傳送給解碼系統(tǒng)。在冗余信息消除單元15的立體聲處理被設置為始終執(zhí)行的情況下,如果解碼系統(tǒng)了解或可以了解有關(guān)立體聲處理是否被應用的信息,則沒有必要傳送該信息給解碼系統(tǒng)。
尤其是,該位打包單元14對附加信息以及屬于每一層的量化采樣進行編碼,并將編碼的信號打包在分層結(jié)構(gòu)中。該附加信息包括比例頻帶信息、編碼頻帶信息、它們的比例因素信息,以及在每層中的編碼模型信息。該比例頻帶信息和編碼頻帶信息可以打包作為標題信息,并且之后傳送給解碼裝置。另外,該比例頻帶信息和編碼頻帶信息可以被編碼并打包作為每層的附加信息,并之后傳送給解碼裝置。該比例頻帶信息和編碼頻帶信息可以不傳送給解碼裝置,因為在某些情況下他們對于解碼系統(tǒng)來洗是了解的。
圖2是冗余信息消除單元15的詳細框圖。
參考圖2,該冗余信息消除單元根據(jù)預定的代價函數(shù)選擇立體聲處理模式或正常模式。該代價函數(shù)確定是否能提供給人耳更高質(zhì)量音頻,就是說,基于心理聲學模型選擇該立體聲處理模式。如果選擇正常模式,輸入采樣不經(jīng)任何處理而被輸出。如果選擇立體聲處理模式,該輸入采樣乘以本發(fā)明的去相關(guān)矩陣并輸出作為一個或多個去相關(guān)采樣。
圖4是更詳細解釋在立體聲處理模式中冗余信息消除單元15的操作的參考圖。
參考圖4,該嗽息消除單元15接收左變換音頻采樣left,和右變換音頻采樣right,并且乘以公式1表示的去相關(guān)矩陣,并輸出去相關(guān)采樣s1和s2。
s1s2=abcdleftright...1]]>其中 是去相關(guān)矩陣。在該矩陣中,元素a、b、c和d被優(yōu)化,以便最小化該去相關(guān)采樣s1和s2的熵。因此,高級音頻編碼(AAC)的中間/側(cè)面立體聲處理以及強度立體聲處理可以利用去相關(guān)矩陣表示。
例如,該冗余信息消除單元15基于中間/側(cè)面立體聲處理使用公式2可以獲得去相關(guān)采樣s1和s2s1s2=111-1leftright...2]]>并且i亥冗余信息消除單元15基于強度立體聲處理使用公式3也可以獲得去相關(guān)采樣s1和s2s1s2=1000leftright]]>或s1s2=0100leftright...3]]>其中l(wèi)eft表示左變換音頻采樣,right表示右變換音頻采樣,并且 和 是去相關(guān)矩陣。在使用公式3表示的去相關(guān)矩陣的情況下,該位打包單元14對左和右音頻采樣之間的電平差進行編碼,并且將該編碼信號打包成幀??梢杂酶鞣N方式確定左音頻采樣和右音頻采樣之間的電平差在幀中的打包位置。尤其是,由于去相關(guān)矩陣 和 不具有逆矩陣,因此在解碼中應該使用預定的矩陣,這將在后面描述。
進一步,當在左變換音頻采樣left和右變換音頻采樣right中存在定向性,該冗余信息消除單元15可以利用如下公式4獲得去相關(guān)采樣s1s2=cosθ-sinθsinθcosθleftright...4]]>其中 是去相關(guān)矩陣,并且θ表示左音頻采樣和右音頻采樣的方向。
圖5是形成根據(jù)本發(fā)明編碼的音頻流的幀的結(jié)構(gòu)圖。
參考圖5,一個幀包括標題信息、附加信息和根據(jù)本發(fā)明編碼的音頻數(shù)據(jù)。
該附加信息包括立體聲處理信息,該信息是在根據(jù)本發(fā)明編碼立體聲音頻中有關(guān)通道間冗余信息消除的信息。該立體聲處理信息包括標志信息和矩陣元素信息。該標志信息通知在編碼期間,立體聲處理模式是否被選擇,以及消除通道間冗余信息的步驟是否已經(jīng)執(zhí)行。該矩陣元素信息通知形成所用去相關(guān)矩陣的元素。可替換的,在始終選擇立體聲處理模式的情況下,可以省略該標志信息。
圖6是根據(jù)本發(fā)明的解碼裝置的框圖。
參考圖6,該解碼裝置對在消除通道間冗余信息之后編碼的音頻流進行解碼,并且包括拆包單元21、逆量化單元22、逆變換單元23和冗余信息恢復單元25。
該拆包單元21從構(gòu)成音頻流的幀中分離標題信息、附加信息和編碼的音頻數(shù)據(jù),并且解碼它們。尤其是,無損解碼該編碼音頻數(shù)據(jù)。在本發(fā)明中,該拆包單元21算術(shù)解碼或霍夫曼解碼該編碼的音頻數(shù)據(jù)并獲得量化采樣。
尤其是,該拆包單元21拆分位流到目標層,并且對每層中的位流進行解碼。就是說,包含對應每層的比例因素信息和編碼模型信息的附加信息被解碼,并且之后基于得到的編碼模型信息,對屬于每層的編碼量化采樣進行解碼并且恢復該量化采樣。
其間,通過解碼每層中的附加信息或從位流的標題信息中獲得該比例頻帶信息和編碼頻帶信息??商鎿Q的,該解碼裝置可以預先存儲該比例頻帶信息和編碼頻帶信息。
該逆量化單元22根據(jù)對應于各采樣的比例因素信息,對拆包單元21得到的量化采樣進行逆量化,并且獲得去相關(guān)采樣。
該冗余信息恢復單元25通過將n個去相關(guān)采樣乘以相關(guān)矩陣來獲得n個變換的音頻采樣。更詳細的,該冗余信息恢復單元25通過參包含在由拆包單元21解碼的附加信息中的立體聲處理信息中的標志信息,來確定立體聲處理模式是否被選擇。如果該立體聲處理模式被選擇,該冗余信息恢復單元21通過將n個去相關(guān)采樣乘以基于矩陣元素信息得到的相關(guān)矩陣來獲得n個變換的音頻采樣。例如,該冗余信息恢復單元25通過將2個去相關(guān)采樣乘以2*2相關(guān)矩陣來獲得左變換音頻采樣和右變換音頻采樣。
該逆變換單元23對n個變換音頻采樣執(zhí)行逆子波變換,并獲得對應于n通道的n個音頻采樣(n是大于或等于2的整數(shù))。例如,該逆變換單元23對左變換音頻采樣和右變換音頻采樣執(zhí)行逆變換,并獲得左和右音頻采樣。換句話說,該逆變換單元23恢復在編碼期間已經(jīng)被消除的通道間冗余信息,頻率/時間映射對應于各個通道的音頻采樣,將其變換為PCM音頻數(shù)據(jù)并輸出該變換數(shù)據(jù)。
圖7是圖6中冗余信息恢復單元的詳細框圖。
參考圖7,該冗余信息恢復單元25接收去相關(guān)采樣s1和s2,并輸出具有通過公式5恢復的冗余信息的采樣,即,該左和右變換采樣分別是leftright=abcd-1s1s2...5]]>其中 是相關(guān)矩陣。該相關(guān)矩陣可以提供在用于逆子波變換的每個終端節(jié)點上或提供在構(gòu)成音頻流的每一幀中。這里,從包含在附加信息中的立體聲處理信息內(nèi)的矩陣元素信息中獲得矩陣元素a、b、c和d。因此,通過AAC的中間/側(cè)面立體聲處理以及強度立體聲處理從中消除了通道間冗余信息的采樣可以利用相關(guān)矩陣被恢復成對應于各個通道的采樣。
作為公式5的實例,該冗余信息恢復單元25可以基于公式6從通過AAC的中間/側(cè)面立體聲處理從中消除了通道間冗余信息的采樣恢復該左和右變換采樣leftright=111-1-1s1s2...6]]>而且,基于公式7可以將通過強度處理從中消除了通道間冗余信息的采樣恢復為該左和右變換采樣leftright=10level_diff0s1s2]]>或leftright=010level_diffs1s2...7]]>其中l(wèi)eft表示左變換音頻采樣,right表示右變換音頻采樣,并且 和 分別是相關(guān)矩陣。尤其是, 和 不是在編碼中使用的去相關(guān)矩陣的逆矩陣,并且level_diff是左和右音頻采樣之間的電平差,并且從編碼系統(tǒng)傳送。
進一步,該冗余信息恢復單元25利用如下公式8可以變換基于聲音源的方向性從中消除了通道間冗余信息的采樣,將采樣恢復成左和右變換采樣。
leftright=cosθsinθ-sinθcosθs1s2...8]]>其中 是去相關(guān)矩陣,并且θ表示左和右音頻采樣的方向性。
基于上述結(jié)構(gòu),將描述根據(jù)本發(fā)明的編碼/解碼立體聲音頻采樣的方法。
圖8是解釋根據(jù)本發(fā)明實施例的編碼方法的流程圖。
參考圖8,在步驟801中,對構(gòu)成立體聲音頻的PCM音頻數(shù)據(jù),即從n通道中得到的n個音頻采樣執(zhí)行子波變換。在步驟802中,利用n*n去相關(guān)矩陣消除該n個子波變換音頻采樣的通道間冗余信息。這里,n*n矩陣元素被確定以便在消除通道間冗余信息之后獲得的采樣的熵最小化。下面,在步驟803中,通過參考心理聲學模型對從中消除了通道間冗余信息的采樣執(zhí)行量化。在步驟804中,無損編碼該量化的采樣。這里,n是大于或等于2的整數(shù)。
圖9是解釋根據(jù)本發(fā)明另一實施例的編碼方法的流程圖。
參考圖9,在步驟901中,對構(gòu)成立體聲音頻的PCM音頻數(shù)據(jù),即從n通道中得到的n個音頻采樣執(zhí)行子波變換。在步驟902中,確定基于預定的代價函數(shù)選擇了立體聲處理模式還是正常模式。如果選擇了立體聲處理模式,在步驟903中,利用去相關(guān)矩陣從子波變換采樣中消除通道間冗余信息。在去相關(guān)矩陣中,矩陣元素被確定以便在消除通道間冗余信息之后獲得的采樣的熵最小化。下面,在步驟904中,通過參考心理聲學模型從中消除了冗余信息的采樣執(zhí)行量化。在步驟905中,無損編碼該量化的采樣。如果選擇了正常模式,消除通道間冗余信息的步驟903被略過,在步驟904中量化該子波變換采樣,并且在步驟905無損編碼該量化采樣。
圖10是解釋根據(jù)本發(fā)明再一實施例的編碼方法的流程圖。
參考圖10,在步驟1001中,對構(gòu)成立體聲音頻的PCM音頻數(shù)據(jù),即左和右音頻采樣執(zhí)行子波變換。在步驟1002中,通過將子波變換音頻數(shù)據(jù)乘以去相關(guān)矩陣 來消除通道間冗余信息。矩陣元素a、b、c和d被確定以便在消除通道間冗余信息之后獲得的采樣的熵最小化。下面,在步驟1003中,通過參考心理聲學模型對從中消除了冗余信息的采樣執(zhí)行量化。在步驟1004中,無損編碼該量化的采樣。在步驟1005中,對于預定的目標層,即多層,可擴縮地執(zhí)行位打包。
圖11是解釋根據(jù)本發(fā)明實施例的解碼方法的流程圖。
參考圖11,在1101中接收音頻流并且無損地解碼,并且獲得量化的采樣。在步驟1102中,該量化的采樣被逆量化。之后在步驟1103中,通過將n個逆量化采樣乘以n*n相關(guān)矩陣來獲得n個變換音頻采樣。在步驟1104中,該n個變換音頻采樣被逆子波變換,并且獲得對應于n通道的n個音頻采樣。這里,n是大于或等于2的整數(shù)。
圖12是解釋根據(jù)本發(fā)明另一實施例的解碼方法的流程圖。
參考圖12,在步驟1201中接收音頻流并且以幀為單位無損解碼,并且獲得量化的采樣。在步驟1202中,該量化的采樣被逆量化以獲得n個采樣。在步驟1203中,通過參考包含在幀中的附加信息中的立體聲處理信息來確定是否選擇了立體聲處理模式。如果選擇了立體聲處理模式,在步驟1204中通過參考立體聲處理信息來獲得n*n相關(guān)矩陣,并且將其乘以n個采樣。該相關(guān)矩陣提供在用于逆子波變換的每個節(jié)點上或提供在每個幀處。在步驟1205中,n個變換音頻采樣被逆子波變換并且獲得對應于n通道的n個音頻采樣。這里,n是大于或等于2的整數(shù)。如果選擇了正常模式,恢復通道間冗余信息的步驟1204被略過,處理直接進入到步驟1205。
圖13是解釋根據(jù)本發(fā)明再一實施例的解碼方法的流程圖。
參考圖13,在步驟1301中接收音頻流并且以幀為單位無損解碼,并且獲得量化的采樣。在步驟1302中,該量化的采樣被逆量化以獲得去相關(guān)采樣。在步驟1303中,通過參考包含在幀中的附加信息中的立體聲處理信息的矩陣元素信息來獲得相關(guān)矩陣 并且將該矩陣乘以2個去相關(guān)采樣,由此獲得左和右變換采樣。該相關(guān)矩陣提供在用于逆子波變換的每個節(jié)點上或提供在每個幀處。在步驟1304中,左和右變換音頻采樣被逆子波變換,并且獲得對應2通道的左和右音頻采樣。
如果接收的音頻流是以分層結(jié)構(gòu)打包以具有可伸縮性的位流,在圖12所示的步驟1201以及圖13所示的步驟1301之前,可以執(zhí)行到預定目標層的拆包。
如上所述,根據(jù)本發(fā)明,在低頻帶中可以提供更穩(wěn)定的音頻質(zhì)量,并且立體聲音頻可以用較少的位進行編碼,而將很好地考慮人的心理聲學特性。換句話說,通過很好地描述人的心理聲學特性可以提高音頻質(zhì)量,并且利用對應的矩陣可以有效地消除和恢復通道間冗余信息。
在現(xiàn)有技術(shù)中,例如,中間/側(cè)面立體聲處理或強度立體聲處理被用于象MDCT的高頻分解,對于時間/頻率分解率不是恒定的情況,這種數(shù)據(jù)處理是不容易的。然而,根據(jù)本發(fā)明,引入矩陣運算用于子波變換,由此有效消除通道間冗余信息以及實現(xiàn)中間/側(cè)面立體聲或強度立體聲處理。
權(quán)利要求
1.一種立體聲音頻編碼方法,包括對從n通道中獲得的n個音頻采樣執(zhí)行子波變換;利用n*n去相關(guān)矩陣從n個子波變換的音頻采樣中消除通道間冗余信息;量化從中消除了冗余信息的采樣;以及無損編碼已量化的采樣,其中n是大于或等于2的整數(shù)。
2.如權(quán)利要求1所述的立體聲音頻編碼方法,其中消除通道間冗余信息包括根據(jù)預定的代價函數(shù)選擇立體聲處理模式或正常模式;以及如果選擇該立體聲處理模式,通過將n個變換的音頻采樣乘以具有這樣確定的n*n個元素的n*n去相關(guān)矩陣來獲得一個或多個去相關(guān)采樣,以使熵最小化,并且量化所述采樣包括量化所述去相關(guān)采樣。
3.如權(quán)利要求1所述的立體聲音頻編碼方法,其中去相關(guān)矩陣被提供在用于子波變換的每個終端節(jié)點上,或被提供在無損編碼之后得到的每個幀處。
4.如權(quán)利要求1所述的立體聲音頻編碼方法,其中該代價函數(shù)根據(jù)更高質(zhì)量音頻是否可以被提供給人耳來確定是否選擇該立體聲處理模式。
5.一種立體聲音頻編碼方法,包括變換左和右音頻采樣;通過將左和右變換的音頻采樣乘以由如下公式1表示的去相關(guān)矩陣來獲得從中消除了通道間冗余信息的去相關(guān)采樣abcd...1]]>其中a、b、c和d是實數(shù);量化所述去相關(guān)采樣;以及無損編碼已量化的采樣。
6.如權(quán)利要求5所述的立體聲音頻編碼方法,其中乘以該左和右變換的音頻采樣包括根據(jù)預定的代價函數(shù)選擇立體聲處理模式或正常模式;以及如果選擇該立體聲處理模式,通過將n個變換音頻采樣乘以具有這樣確定的a、b、c和d元素的去相關(guān)矩陣來獲得一個或多個去相關(guān)采樣,以使熵最小化。
7.如權(quán)利要求6所述的立體聲音頻編碼方法,進一步包括編碼表示該立體聲處理模式是否被選擇的標志信息,以及包含通知去相關(guān)矩陣的元素a、b、c和d的矩陣元素信息的立體聲處理信息;以及將該立體聲處理信息和通過無損編碼獲得的采樣打包在幀單元中。
8.如權(quán)利要 求7所述的立體聲音頻編碼方法,其中去相關(guān)矩陣被提供在用于子波變換的每個終端節(jié)點上,或被提供在無損編碼之后得到的每個幀處。
9.如權(quán)利要求5所述的立體聲音頻編碼方法,其中在獲得去相關(guān)采樣中,利用如下公式2表示的去相關(guān)矩陣通過中間/側(cè)面立體聲處理來獲得該去相關(guān)采樣111-1...2]]>
10.如權(quán)利要求5所述的立體聲音頻編碼方法,其中在獲得去相關(guān)采樣中,利用如下公式3表示的去相關(guān)矩陣通過強度處理來獲得去相關(guān)采樣1000...3]]>并且無損編碼該量化采樣進一步包括將左和右音頻采樣之間的電平差編碼作為附加信息。
11.如權(quán)利要求5所述的立體聲音頻編碼方法,其中在獲得去相關(guān)采樣中,利用如下公式4表示的去相關(guān)矩陣獲得去相關(guān)采樣cosθ-sinθsinθcosθ...4]]>其中θ表示左和右音頻采樣的聲音源的方向。
12.如權(quán)利要求5所述的立體聲音頻編碼方法,其中該代價函數(shù)根據(jù)更高質(zhì)量音頻是否可以被提供給人耳來確定是否選擇該立體聲處理模式。
13.如權(quán)利要求5所述的立體聲音頻編碼方法,其中在去相關(guān)采樣的量化中,基于心理聲學模型執(zhí)行量化。
14.如權(quán)利要求5所述的立體聲音頻編碼方法,其中量化采樣的無損編碼是算術(shù)編碼或霍夫曼編碼,
15.如權(quán)利要求5所述的立體聲音頻編碼方法,其中量化采樣的無損編碼包括基于具有可伸縮性的多個預定層對量化采樣進行編碼。
16.一種用于解碼音頻流的方法,包括 通過無損解碼音頻流來獲得量化的采樣;通過逆量化所述量化的采樣來獲得n個采樣;通過將n個采樣乘以n*n相關(guān)矩陣來獲得n個變換的音頻采樣;以及通過對n個變換的音頻采樣執(zhí)行逆子波變換來獲得對應于n通道的n個音頻采樣,其中n是大于或等于2的整數(shù)。
17.如權(quán)利要求16所述的解碼方法,其中獲得n個變換的音頻采樣包括確定是否選擇了立體聲處理模式;以及如果選擇了該立體聲處理模式,通過將所述n個采樣乘以相關(guān)矩陣來獲得n個變換的音頻采樣。
18.一種用于解碼音頻流的方法包括通過無損解碼音頻流來獲得量化的采樣;通過逆量化所述量化的采樣來獲得去相關(guān)采樣;通過將2個去相關(guān)采樣乘以由如下公式4表示的相關(guān)矩陣來獲得左和右變換的音頻采樣abcd-1...4]]>其中a、b、c和d是實數(shù);以及通過逆變換該左和右變換的音頻采樣來獲得左和右音頻采樣。
19.如權(quán)利要求18所述的解碼方法,其中相關(guān)矩陣被提供在用于逆子波變換的每個節(jié)點上,或被提供在每個幀處。
20.如權(quán)利要求18所述的解碼方法,其中在獲得左和右變換的音頻采樣中,利用如下公式5表示的相關(guān)矩陣通過中間/側(cè)面立體聲處理來獲得左和右變換的采樣111-1-1...5]]>
21.如權(quán)利要求18所述的解碼方法,其中獲得左和右變換的音頻采樣包括利用如下公式6表示的相關(guān)矩陣通過強度處理來獲得左和右音頻變換的采樣10level_diff0...6]]>其中,level_diff是左和右音頻采樣之間的電平差;逆變換該電平差;以及從逆變換的電平差中獲得左和右音頻采樣。
22.如權(quán)利要求18所述的解碼方法,其中在獲得左和右變換的音頻采樣中,利用如下公式7表示的相關(guān)矩陣獲得該左和右變換的采樣cosθ-sinθsinθcosθ-1...7]]>其中θ表示左和右音頻采樣的方向。
23.如權(quán)利 要求18所述的解碼方法,其中音頻流的無損解碼是算術(shù)解碼或霍夫曼解碼。
24.如權(quán)利要求18所述的解碼方法,其中音頻流的無損解碼包括為具有可伸縮性的多個預定層對音頻流進行解碼。
25.一種立體聲音頻編碼裝置,包括對分別從n通道中獲得的n個音頻采樣執(zhí)行子波變換的變換單元;通過將n個變換的音頻采樣乘以n*n去相關(guān)矩陣來消除通道間冗余信息的冗余信息消除單元;對從中消除了冗余信息的采樣進行量化的量化單元;以及通過無損編碼所述量化采樣來執(zhí)行位打包的位打包單元,其中n是大于或等于2的整數(shù)。
26.如權(quán)利要 求25的立體聲音頻編碼裝置,其中該冗余信息消除單元根據(jù)預定的代價函數(shù)選擇立體聲處理模式或正常模式,并且如果選擇該立體聲處理模式,通過將n個變換的音頻采樣乘以具有這樣確定的n*n個元素的矩陣來獲得一個或多個去相關(guān)采樣,以使得在除去通道間冗余信息之后得到的采樣的熵最小化,并且量化單元量化所述去相關(guān)采樣。
27.一種立體聲音頻編碼裝置,包括提供有關(guān)心理聲學模型信息的心理聲學單元;基于有關(guān)心理聲學模型的信息變換左和右音頻采樣的變換單元;通過將左和右變換的音頻采樣乘以由如下公式1表示的去相關(guān)矩陣來獲得從中消除了通道間冗余信息的去相關(guān)采樣的冗余信息消除單元abcd...1]]>其中a、b、c和d是實數(shù);基于有關(guān)心理聲學模型的信息來量化所述去相關(guān)采樣的量化單元;以及通過無損編碼所述量化的采樣以幀為單位將位打包的位打包單元。
28.如權(quán)利要求27的立體聲音頻編碼裝置,其中該冗余信息消除單元根據(jù)預定的代價函數(shù)選擇立體聲處理模式或正常模式,并且如果選擇了立體聲處理模式,通過將變換的音頻采樣乘以包括這樣確定的元素a、b、c和d的去相關(guān)矩陣來獲得一個或更多的去相關(guān)采樣,以使得在消除通道間冗余信息之后獲得的采樣的熵最小化。
29.如權(quán)利要求27的立體聲音頻編碼裝置,其中該位打包單元對表示立體聲處理模式是否被選擇的標志信息以及包含通知去相關(guān)矩陣的元素a、b、c和d的矩陣元素信息的立體聲處理信息進行編碼。
30.如權(quán)利要求29的立體聲音頻編碼裝置,其中該冗余信息消除單元 得到去相關(guān)采樣,通過中間/側(cè)面立體聲處理利用如下公式2表示的去相關(guān)矩陣來獲得該去相關(guān)采樣111-1...2]]>
31.如權(quán)利要求29的立體聲音頻編碼裝置,其中該冗余信息消除單元通過強度處理利用如下公式3表示的去相關(guān)矩陣來獲得去相關(guān)采樣1000...3]]>并且位打包單元將左和右音頻采樣之間的電平差編碼作為附加信息。
32.如權(quán)利要求29的立體聲音頻編碼裝置,其中該冗余信息消除單元利用如下公式4表示的去相關(guān)矩陣獲得去相關(guān)采樣cosθ-sinθsinθcosθ...4]]>其中θ表示左和右音頻采樣的聲音源的方向。
33.如權(quán)利要求29的立體聲音頻編碼裝置,其中該位打包單元執(zhí)行算術(shù)編碼或霍夫曼編碼。
34.如權(quán)利要求29的立體聲音頻編碼裝置,其中位打包單元為具有可伸縮性的多個預定層編碼該量化采樣。
35.一種用于解碼音頻流的裝置,包括通過無損解碼音頻流來獲得量化采樣的拆包單元;通過逆量化所述量化的采樣來獲得n個采樣的逆量化單元;通過將n個采樣乘以n*n相關(guān)矩陣來獲得n個變換的音頻采樣的冗余信息恢復單元;以及通過對n個變換的音頻采樣執(zhí)行逆子波變換來獲得對應n通道的n個音頻采樣的逆變換單元,其中n是大于或等于2的整數(shù)。
36.如權(quán)利要求35的解碼裝置,其中該冗余信息恢復單元確定是否選擇了立體聲處理模式,并且如果選擇了該立體聲處理模式,通過將n個采樣乘以相關(guān)矩陣來獲得n個變換音頻采樣。
37.一種用于解碼音頻流的裝置,包括通過無損解碼音頻流來獲得量化采樣的拆包單元;通過逆量化所述量化采樣來獲得去相關(guān)采樣的逆量化單元;通過將2個去相關(guān)采樣乘以由如下公式4表示的相關(guān)矩陣來獲得左和右變換的音頻采樣的冗余信息恢復單元abcd-1...4]]>其中a、b、c和d是實數(shù);以及通過逆變換該左和右變換的音頻采樣來獲得左和右音頻采樣的逆變換單元。
38.如權(quán)利要求37的解碼裝置,其中相關(guān)矩陣被提供在用于逆子波變換的每個節(jié)點上,或被提供在每個幀處。
39.如權(quán)利要求37的解碼裝置,其中該冗余信息恢復單元利用如下公式5表示的相關(guān)矩陣獲得左和右變換的音頻采樣111-1-1...5]]>
40.如權(quán)利要求37的解碼裝置,其中該冗余信息恢復單元利用如下公式7表示的相關(guān)矩陣來獲得左和右變換的音頻采樣cosθ-sinθsinθcosθ-1...7]]>其中θ表示左和右音頻采樣的方向。
41.一種用于解碼音頻流的裝置,包括通過無損解碼音頻流來獲得量化采樣的拆包單元;通過逆量化所述量化采樣來獲得n個采樣的逆量化單元;利用如下公式6表示的相關(guān)矩陣通過強度處理來獲得左和右音頻變換采樣的冗余信息恢復單元10level_diff0...6]]>其中l(wèi)evel_diff是左和右音頻采樣之間的電平差;以及逆變換該電平差并從逆變換的電平差中獲得左和右音頻采樣的逆變換單元。
42.如權(quán)利要求37的解碼裝置,其中拆包單元執(zhí)行算術(shù)解碼或霍夫曼解碼。
43.如權(quán)利要求37的解碼裝置,其中拆包單元為具有可伸縮性的多個預定層解碼音頻流。
全文摘要
提供一種用于編碼/解碼具有可伸縮性的立體聲音頻數(shù)據(jù)的方法和裝置。用于編碼立體聲音頻數(shù)據(jù)的方法包括對從n通道中獲得的n個音頻采樣執(zhí)行子波變換,利用n*n去相關(guān)矩陣從n個子波變換的音頻采樣中消除通道間冗余信息,量化從中消除了冗余信息的采樣,以及無損編碼該量化的采樣,其中n是大于或等于2的整數(shù)。因此,在低頻帶中可以提供更穩(wěn)定的音頻質(zhì)量,并且立體聲音頻可用更少的位編碼,同時很好地考慮人的心理聲學特性。
文檔編號H04R5/04GK1525438SQ03165038
公開日2004年9月1日 申請日期2003年9月19日 優(yōu)先權(quán)日2002年12月14日
發(fā)明者金重會, 金尚煜, 吳殷美 申請人:三星電子株式會社