專利名稱:用于編碼多對象音頻信號的設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及ー種用于對具有各種聲道的多對象音頻信號進(jìn)行編碼和解碼的設(shè)備和方法;且更具體地,涉及ー種包括邊信息(side information)比特流轉(zhuǎn)換的用于對具有各種聲道的多對象音頻信號進(jìn)行編碼和解碼的設(shè)備和方法,所述邊信息比特流轉(zhuǎn)換用于變換邊信息比特流、并基于變換后的邊信息比特流來恢復(fù)具有所期望的輸出信號(即,各種聲道)的多對象音頻信號。具有各種聲道的多對象音頻信號表示用于針對每個(gè)音頻對象具有不同聲道(例如,單聲道、立體聲和5.1聲道)的多對象的音頻信號。這項(xiàng)工作受MIC/IITA 的 IT R&D 規(guī)劃[2005-S-403-02,“Development ofSuper-1ntelligent Multimedia Anytime-anywhere Realistic TV SmarTV Technology(超智能多媒體任何時(shí)間任何地點(diǎn)逼真TV智能TV技術(shù)的開發(fā))”]支持。
背景技術(shù):
根據(jù)傳統(tǒng)的音頻編碼/解碼技術(shù),用戶應(yīng)該被動地(inactively)聆聽音頻內(nèi)容。這樣,需要開發(fā)ー種用于對在用于多個(gè)音頻對象的多聲道中的音頻信號進(jìn)行編碼和解碼的設(shè)備和方法,使得可以通過根據(jù)用戶的需要而控制其每ー個(gè)具有不同聲道的音頻對象并以各種方法而組合一個(gè)音頻內(nèi)容,來消費(fèi)各種音頻對象。傳統(tǒng)的空間音頻編碼(SAC)是ー種用于將多聲道音頻信號代表、傳送、和恢復(fù)為縮混后的單聲道或立體聲信號的技木,并且它可以以低比特率來傳送高質(zhì)量的多聲道音頻信號。然而,由于傳統(tǒng)的SAC能夠?qū)υ趦H用于一個(gè)音頻對象的多聲道中的信號進(jìn)行編碼和解碼,所以它不能編碼/解碼多聲道和多對象音頻信號,例如,用于多聲道(例如,單聲道、立體聲和5.1聲道)中的各種對象的音頻信號。此外,傳統(tǒng)的心理聲學(xué)編碼(BCC:Binaural Cue Coding)技術(shù)可以編碼/解碼用于多對象的音頻信號。然而,由于音頻對象的聲道限于單聲道,所以不能對具有包括單聲道的各種聲道的多對象音頻信號進(jìn)行編碼/解碼??傊?,由于傳統(tǒng)的技術(shù)僅可以編碼/解碼具有單個(gè)聲道的多對象音頻信號、或者具有多聲道的單對象音頻信號,所以不能對具有各種聲道的多對象音頻信號進(jìn)行編碼/解碼。因此,根據(jù)傳統(tǒng)的音頻編碼/解碼技術(shù),用戶應(yīng)該被動地聆聽音頻內(nèi)容。相應(yīng)地,需要開發(fā)ー種用于對在用于每個(gè)多音頻對象的各種聲道中的音頻信號進(jìn)行編碼和解碼的設(shè)備和方法,以通過控制根據(jù)用戶的需要而不同的多聲道中的每個(gè)音頻對象、并根據(jù)各種方法而組合一個(gè)音頻內(nèi)容來消費(fèi)各種音頻對象。
此外,需要一種用于將多對象音頻比特流轉(zhuǎn)換為傳統(tǒng)的SAC比特流并且反之亦然的設(shè)備和方法,以提供在多對象音頻編碼器中創(chuàng)建的邊信息比特流與傳統(tǒng)的SAC編碼器/解碼器的邊信息比特流之間的后向兼容性。如上所述,作為用于通過單獨(dú)控制具有不同聲道的多個(gè)音頻對象并根據(jù)各種方法而組合一個(gè)音頻內(nèi)容來對各種聲道的多對象音頻信號進(jìn)行編碼和解碼的設(shè)備和方法,需要開發(fā)ー種可執(zhí)行比特流轉(zhuǎn)換的多聲道和多對象音頻編碼和解碼設(shè)備及方法,以提供與傳統(tǒng)SAC比特流的后向兼容性,并控制具有多聲道的每個(gè)多音頻對象,從而以多祥的方法來組合ー個(gè)音頻對象。
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明的實(shí)施例g在提供ー種用于對具有各種聲道的多對象音頻信號進(jìn)行編碼和解碼、以提供與傳統(tǒng)的空間音頻編碼(SAC)比特流的后向兼容性的設(shè)備和方法。技術(shù)解決方案根據(jù)本發(fā)明的一方面,提供了ー種用于編碼多對象音頻信號的設(shè)備,包括:音頻對象編碼單元,用于基于空間線索(spatial cue)來編碼輸入到編碼設(shè)備的音頻對象信號,并創(chuàng)建用于編碼后的音頻對象信號的渲染信息,其中所述渲染信息包括用于音頻對象信號的空間線索信息、音頻對象信號的聲道信息和音頻對象信號的標(biāo)識信息。根據(jù)本發(fā)明的又一方面,提供了一種用于創(chuàng)建渲染信息來解碼多對象音頻信號的代碼轉(zhuǎn)換設(shè)備,包括:第一矩陣單元,用于基于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息,該渲染信息包括用于已編碼音頻對象信號的功率増益信息和輸出位置信息;和渲染單元,用于基于第一矩陣單元所創(chuàng)建的渲染信息和用于從編碼設(shè)備輸入的已編碼音頻對象信號的渲染信息,來創(chuàng)建用于要從解碼設(shè)備輸出的音頻信號的空間線索信知、O根據(jù)本發(fā)明的又一方面,提供了一種用于創(chuàng)建多聲道音頻信號和用于解碼多聲道音頻信號的渲染信息的代碼轉(zhuǎn)換設(shè)備,包括:解析単元,用于從用于由編碼設(shè)備輸入的已編碼音頻信號的渲染信息中分出用于已編碼音頻對象信號的渲染信息和用于多聲道音頻信號的渲染信息;第一矩陣單元,用于基于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息,該渲染信息包括用于已編碼音頻對象信號的功率増益信息和輸出位置信息;第二矩陣單元,用于基于由解析単元單獨(dú)獲取的用于已編碼多聲道音頻信號的渲染信息,來創(chuàng)建包括用于多聲道音頻信號的每個(gè)聲道的功率増益信息的渲染信息,和渲染單元,用于基于第一矩陣單元所創(chuàng)建的渲染信息、第二矩陣單元所創(chuàng)建的渲染信息、和由解析單元單獨(dú)獲取的用于已編碼音頻對象信號的渲染信息,來創(chuàng)建用于從解碼設(shè)備輸出的音頻信號的空間線索信息。根據(jù)本發(fā)明的又一方面,提供了ー種用于編碼多對象音頻信號的方法,包括如下步驟:基于空間線索來對所輸入的音頻對象信號進(jìn)行編碼,并創(chuàng)建用于編碼后的音頻對象信號的渲染信息,其中所述渲染信息包括用于音頻對象信號的空間線索信息、音頻對象信號的聲道信息和音頻對象信號的標(biāo)識信息。根據(jù)本發(fā)明的又一方面,提供了一種用于創(chuàng)建渲染信息來解碼多對象音頻信號的代碼轉(zhuǎn)換方法,包括如下步驟:基于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息,該渲染信息包括用于已編碼音頻對象信號的功率増益信息和輸出位置信息;和基于在所述創(chuàng)建渲染信息的步驟中創(chuàng)建的渲染信息和用于在編碼之后輸入的已編碼音頻對象信號的渲染信息,來創(chuàng)建用于要在解碼之后輸出的音頻信號的空間線索信息。根據(jù)本發(fā)明的又一方面,提供了一種用于創(chuàng)建渲染信息以解碼多聲道音頻信號和多對象音頻信號的代碼轉(zhuǎn)換方法,包括如下步驟:從用于在編碼之后輸入的已編碼音頻信號的渲染信息中分出用于已編碼音頻對象信號的渲染信息和用于多聲道音頻信號的渲染信息;基于用于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息,該渲染信息包括用于已編碼音頻對象信號的功率増益信息和輸出位置信息;基于在所述分出渲染信息的步驟中單獨(dú)獲取的用于已編碼多聲道音頻信號的渲染信息,來創(chuàng)建包括用于多聲道音頻信號的每個(gè)聲道的功率増益信息的渲染信息,和基于在所述創(chuàng)建包括功率増益信息和輸出位置信息的渲染信息的步驟中創(chuàng)建的渲染信息、在所述創(chuàng)建包括用于多聲道音頻信號的每個(gè)聲道的功率増益信息的渲染信息的步驟中創(chuàng)建的渲染信息、和在所述分出渲染信息的步驟中單獨(dú)獲取的用于已編碼音頻對象信號的渲染信息,來創(chuàng)建用于要在解碼之后輸出的音頻信號的空間線索信息。根據(jù)本發(fā)明的又一方面,提供了ー種用于編碼多對象音頻信號的設(shè)備,包括:預(yù)設(shè)生成裝置,用于創(chuàng)建用于多聲道音頻信號和音頻對象信號中的至少ー個(gè)的預(yù)設(shè)信息;和比特流生成裝置,用于創(chuàng)建比特流,該比特流包括所述預(yù)設(shè)信息、以及用于所述多聲道音頻信號的渲染信息和用于所述音頻對象信號的渲染信息中的至少ー個(gè)。有利效果通過提供一種能夠執(zhí)行邊信息比特流轉(zhuǎn)換的用于編碼和解碼具有各種聲道的多對象音頻信號的設(shè)備和方法,本發(fā)明可通過有效地編碼和解碼各種聲道中的多對象音頻內(nèi)容而根據(jù)用戶的需要來主動地消費(fèi)音頻內(nèi)容。此外,本發(fā)明可通過提供與傳統(tǒng)上使用的比特流的后向兼容性,來提供與傳統(tǒng)編碼和解碼設(shè)備的兼容性。
圖1是示出了根據(jù)本發(fā)明實(shí)施例的多對象音頻編碼器和多對象解碼器的框圖。圖2是示出了根據(jù)本發(fā)明實(shí)施例的多對象音頻編碼器和多對象解碼器的框圖。圖3是圖示了根據(jù)本發(fā)明實(shí)施例的圖2的代碼轉(zhuǎn)換器(transcoder) 103的框圖。圖4圖示了根據(jù)本發(fā)明實(shí)施例的由圖2的比特流格式器(formatter) 205創(chuàng)建的代表性空間音頻對象編碼(SAOC)比特流。圖5示出了根據(jù)本發(fā)明另ー實(shí)施例的圖2的代表性SAOC比特流。圖6是示出了根據(jù)本發(fā)明另ー實(shí)施例的圖2的代碼轉(zhuǎn)換器103的框圖。圖7是示出了在圖2的多對象音頻編碼器和解碼器中另外包括音頻對象去除器701的情況的框圖。圖8是示出了用MPEG環(huán)繞編碼器和解碼器來替換圖2的SAC編碼器201和SAC解碼器105的情況的框圖。
具體實(shí)施方式
根據(jù)下文中陳述的參考附圖的以下實(shí)施例描述,本發(fā)明的優(yōu)點(diǎn)、特征和方面將變明顯。下文中將參考附圖來詳細(xì)描述本發(fā)明的特定實(shí)施例。圖1是示出了根據(jù)本發(fā)明實(shí)施例的多對象音頻編碼器和多對象解碼器的框圖。參考圖1,本發(fā)明包括:空間音頻對象編碼器(SAOC) 101、代碼轉(zhuǎn)換器103、和空間音頻編碼(SAC) 105。根據(jù)SAOC方法,輸入到編碼器的信號被編碼為音頻對象。每個(gè)音頻對象不由解碼器恢復(fù)并獨(dú)立地播放。然而,用于音頻對象的信息被渲染(render)以形成所期望的音頻場景,并輸出具有各種聲道的多對象音頻信號。因此,SAC解碼器需要用于渲染被輸入以獲取所期望的音頻場景的用于音頻對象的信息的設(shè)備。SAOC編碼器101是基于空間線索的編碼器,并將輸入音頻信號編碼為音頻對象。所述音頻對象是向SAOC編碼器101輸入的單聲道或立體聲信號。SAOC編碼器101輸出來自多于一個(gè)輸入音頻對象的縮混信號,并通過提取空間線索和邊信息來創(chuàng)建SAOC比特流。所輸出的縮混信號是單聲道或立體聲信號。SAOC編碼器101基干“異類布局SA0C”或者“ Faller”技術(shù)來分析所輸入的音頻對象信號。所提取的SAOC比特流包括空間線索和邊信息,并且所述邊信息包括輸入音頻對象的空間信息。一般基于頻率區(qū)域子帶單位來分析并提取所述空間線索。所述空間線索是在編碼和解碼音頻信號中使用的信息。它提取自頻率區(qū)域,并包括用于所輸入的兩個(gè)信號之間的大小差、延遲差和相關(guān)性的信息。例如,空間線索包括:用于示出音頻信號的功率増益信息的、音頻信號之間的聲道電平差(CLD);音頻信號之間的聲道間電平差(ICLD);音頻信號之間的聲道間時(shí)間差(ICTD);用于示出音頻信號之間的相關(guān)信息的、音頻信號之間的相關(guān)聲道間相關(guān)(ICC);和音頻信號之間的虛擬源位置信息,但是不限于這些示例。此外,所述邊信息包括用于恢復(fù)并控制空間線索和音頻信號的信息。所述邊信息包括標(biāo)首信息。所述標(biāo)首信息包括用于恢復(fù)并播放具有各種聲道的多對象音頻信號的信息,并且可通過定義用于音頻對象的聲道信息和音頻對象的標(biāo)識(ID)來提供用于具有單聲道、立體聲或多聲道的音頻對象的解碼信息。例如,定義用于每個(gè)對象的ID和信息,以標(biāo)識已編碼的特定音頻對象是單聲道音頻信號還是立體聲音頻信號。作為實(shí)施例,所述標(biāo)首信息可包括:空間音頻編碼(SAC)標(biāo)首信息、音頻對象信息和預(yù)設(shè)信息。代碼轉(zhuǎn)換器103渲染被輸入到SAOC編碼器101的音頻對象,并基于從外部輸入的控制信號(即,姆個(gè)對象的聲音信息和播放環(huán)境信息)來將從SAOC編碼器101提取的SAOC比特流變換為SAC比特流。也就是說,代碼轉(zhuǎn)換器103基于所提取的SAOC比特流執(zhí)行渲染,以將輸入到SAOC編碼器101的音頻對象恢復(fù)為具有各種聲道的多對象音頻信號??梢栽趨?shù)區(qū)域執(zhí)行基于邊信息的渲染。此外,代碼轉(zhuǎn)換器103將SAOC比特流變換為SAC比特流。所述代碼轉(zhuǎn)換器103從SAOC比特流獲得輸入音頻對象的信息,并與所期望的音頻場景對應(yīng)地渲染輸入音頻對象的信息。在渲染過程中,代碼轉(zhuǎn)換器103預(yù)測與所期望的音頻場景對應(yīng)的空間信息,變換并輸出已預(yù)測的空間信息作為SAC邊信息比特流。將參考圖3來詳細(xì)描述代碼轉(zhuǎn)換器103。
SAC解碼器105是基于空間線索的多聲道音頻解碼器,基于從代碼轉(zhuǎn)換器103輸出的SAC比特流而將從SAOC編碼器101輸出的縮混信號恢復(fù)為每個(gè)對象的音頻信號,并將每個(gè)對象的音頻信號恢復(fù)為具有各種聲道的多對象音頻信號。SAC解碼器105可以用運(yùn)動圖象專家組(MPEG)環(huán)繞解碼器和心理聲學(xué)編碼(BCC)解碼器來替換。圖2是示出了根據(jù)本發(fā)明實(shí)施例的多對象音頻編碼器和多對象解碼器的框圖,并示出了輸入信號是具有各種聲道的多對象音頻信號的情況。參考圖2和圖1,本發(fā)明包括:SAOC編碼器101、代碼轉(zhuǎn)換器103、SAC解碼器105、SAC編碼器201、預(yù)設(shè)音頻場景信息(ASI) 203和比特流格式器205。當(dāng)SAOC編碼器101僅支持單聲道或立體聲音頻對象吋,SAC編碼器201從所輸入的多聲道音頻信號輸出ー個(gè)音頻對象。所輸出的音頻對象是縮混后的單聲道或立體聲信號。此外,SAC編碼器201提取空間線索和邊信息,并創(chuàng)建SAC比特流。SAOC編碼器101從包括由SAC編碼器201輸出的一個(gè)音頻對象的多于ー個(gè)音頻對象輸出代表性縮混信號,提取空間線索和邊信息,并創(chuàng)建SAOC比特流。預(yù)設(shè)ASI203將從外部輸入的控制信號(S卩,每個(gè)對象的聲音信息和播放環(huán)境信息)形成為預(yù)設(shè)ASI,并創(chuàng)建包括預(yù)設(shè)ASI的預(yù)設(shè)ASI比特流。將參考圖4來詳細(xì)描述預(yù)設(shè)ASI。比特流格式器205基于由SAOC編碼器101創(chuàng)建的SAOC比特流、由SAC編碼器201創(chuàng)建的SAC比特流、和由預(yù)設(shè)ASI203創(chuàng)建的預(yù)設(shè)ASI比特流,來創(chuàng)建代表性SAOC比特流。代碼轉(zhuǎn)換器103渲染向SAOC編碼器101輸入的音頻對象,并基于從外部輸入的每個(gè)對象的聲音信息和播放環(huán)境信息來將比特流格式器205所創(chuàng)建的代表性SAOC比特流變換為代表性SAC比特流。代碼轉(zhuǎn)換器103被包括在SAC解碼器105中并如上所述地起作用。SAC解碼器105基于從代碼轉(zhuǎn)換器103輸出的SAC比特流,來將從SAOC編碼器101輸出的縮混信號恢復(fù)為具有各種聲道的多對象音頻信號。SAC解碼器105可以用MPEG環(huán)繞解碼器和BCC解碼器來替換。圖3是圖示了根據(jù)本發(fā)明實(shí)施例的圖2的代碼轉(zhuǎn)換器103的框圖。參考圖3,代碼轉(zhuǎn)換器103包括:解析單元301、渲染單元303、第二矩陣單元311、和第一矩陣單元313,并將代表性SAOC比特流變換為代表性SAC比特流。在圖1中,代碼轉(zhuǎn)換器103將SAOC比特流變換為SAC比特流。解析単元301解析由比特流格式器205創(chuàng)建的代表性SAOC比特流或者由圖1的SAOC編碼器101創(chuàng)建的SAOC比特流,并劃分在所述代表性SAOC比特流中包括的SAOC比特流和SAC比特流。此外,解析單元301從已劃分SAOC比特流中提取用于輸入到SAOC編碼器101的音頻對象數(shù)目的信息。由于當(dāng)解析由圖1的SAOC編碼器101創(chuàng)建的SAOC比特流時(shí)沒有SAC比特流,所以不必劃分SAC比特流。第二矩陣單元311基于由解析単元301劃分的SAC比特流創(chuàng)建第二矩陣。第二矩陣是關(guān)于輸入到SAC編碼器201的多聲道音頻信號的行列式。當(dāng)在代表性SAOC比特流中不包括SAC比特流吋,即當(dāng)解析由圖1的SAOC編碼器101創(chuàng)建的SAOC比特流吋,不需要第ニ矩陣單元311。第二矩陣示出了輸入到SAC編碼器201的多聲道音頻信號的功率増益值,并示出在等式I中。
權(quán)利要求
1.ー種用于編碼多對象音頻信號的設(shè)備,包括: 預(yù)設(shè)生成裝置,用于創(chuàng)建用于多聲道音頻信號和音頻對象信號中的至少ー個(gè)的預(yù)設(shè)信息;和 比特流生成裝置,用于創(chuàng)建比特流,該比特流包括所述預(yù)設(shè)信息、以及用于所述多聲道音頻信號的渲染信息和用于所述音頻對象信號的渲染信息中的至少ー個(gè)。
2.根據(jù)權(quán)利要求1的設(shè)備,還包括: 音頻聲道編碼裝置,用于將所述多聲道音頻信號變換為音頻對象信號,并且創(chuàng)建用于所述多聲道音頻信號的渲染信息;和 音頻對象編碼裝置,用于基于空間線索來編碼輸入的音頻對象信號和從所述音頻聲道編碼裝置輸出的音頻對象信號,并且創(chuàng)建用于已編碼音頻對象信號的渲染信息,其中,用于已編碼音頻對象信號的渲染信息要被包括在所述比特流中。
3.根據(jù)權(quán)利要求2的設(shè)備,其中所述音頻聲道編碼裝置是運(yùn)動圖象專家組(MPEG)環(huán)繞編碼器。
全文摘要
提供了一種用于編碼和解碼具有各種聲道的多對象音頻信號的設(shè)備和方法,所述設(shè)備和方法提供了與傳統(tǒng)的空間音頻編碼(SAC)比特流的后向兼容性。所述設(shè)備包括音頻對象編碼單元,用于基于空間線索來編碼輸入到編碼設(shè)備的音頻對象信號,并創(chuàng)建用于編碼后的音頻對象信號的渲染信息,其中所述渲染信息提供了包括用于音頻對象信號的空間線索信息、音頻對象信號的聲道信息和音頻對象信號的標(biāo)識信息的編碼設(shè)備,并且所述編碼設(shè)備使用在音頻信號的編碼和解碼中。
文檔編號H04S7/00GK103137132SQ20131005624
公開日2013年6月5日 申請日期2007年12月27日 優(yōu)先權(quán)日2006年12月27日
發(fā)明者白承權(quán), 徐廷一, 李泰辰, 李用主, 張大永, 洪鎮(zhèn)佑, 金鎮(zhèn)雄, 姜京玉 申請人:韓國電子通信研究院