高效率對象元數(shù)據(jù)編碼的裝置及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻編碼/解碼,特別地涉及空間音頻編碼以及空間音頻對象編碼,更 特別地涉及高效率對象元數(shù)據(jù)編碼。
【背景技術(shù)】
[0002] 空間音頻編碼工具是此技術(shù)領(lǐng)域中所熟知的,例如,在環(huán)繞MPEG標(biāo)準(zhǔn)中已有標(biāo)準(zhǔn) 化規(guī)范??臻g音頻編碼從原始輸入聲道開始,例如在再現(xiàn)裝備中根據(jù)其位置而識別的五個 或七個聲道,即左聲道、中間聲道、右聲道、左環(huán)繞聲道、右環(huán)繞聲道以及低頻增強聲道???間音頻編碼器通常從原始聲道得到至少一個降混合聲道,以及另外得到關(guān)于空間線索的參 數(shù)數(shù)據(jù),例如聲道相干數(shù)值的聲道間水平差異、聲道間相位差異、聲道間時間差異等等。至 少一個降混合聲道與指示空間線索的參數(shù)化輔助信息(parametric side information,或 稱為參數(shù)邊信息、參數(shù)側(cè)信息或參數(shù)側(cè)邊信息)一起傳送到空間音頻解碼器,空間音頻解碼 器解碼降混聲道以及相關(guān)聯(lián)的參數(shù)數(shù)據(jù),最后獲得為原始輸入聲道的近似版本的輸出聲 道。聲道在輸出裝備中的放置通常為固定,例如,5.1聲道格式或7.1聲道格式等等。
[0003] 此種基于聲道的音頻格式廣泛使用于儲存或者傳送多聲道音頻內(nèi)容,而每一個聲 道關(guān)于在給定位置的特定揚聲器。這些種類格式的忠實再現(xiàn),需要揚聲器設(shè)備,其中揚聲器 放置在與音頻信號生產(chǎn)期間使用的揚聲器相同的位置。增加揚聲器數(shù)量可改進真實三維虛 擬現(xiàn)實場景,但是滿足此要求是越來越困難的,尤其是在家庭環(huán)境中,像是客廳。
[0004] 可用于對象為基礎(chǔ)的方法來克服對特殊揚聲器設(shè)備的需求,在以對象為基礎(chǔ)的方 法中揚聲器信號特別針對播放方案來渲染。
[0005] 例如,空間音頻對象編碼工具是此技術(shù)領(lǐng)域中所熟知的且在MPEG SAOC(SA0C = spatial audio object coding空間音頻對象編碼)標(biāo)準(zhǔn)中已成標(biāo)準(zhǔn)。相比于空間音頻編碼 從原始聲道開始,空間音頻對象編碼從非自動專為特定渲染再現(xiàn)裝備的音頻對象開始。代 替地,音頻對象在再現(xiàn)場景中的位置可變化,且可由使用者通過將特定的渲染信息輸入至 空間音頻對象編碼解碼器來確定??蛇x地或另外,渲染信息,即在再現(xiàn)裝備中特定音頻對象 待放置的位置信息,以額外的輔助信息或元數(shù)據(jù)來傳送。為了獲得特定的數(shù)據(jù)壓縮,由SA0C 編碼器來編碼多個音頻對象,SA0C編碼器根據(jù)特定的降混合信息來降混合對象以從輸入對 象計算至少一個傳輸聲道。此外,SA0C編碼器計算參數(shù)化輔助信息,其代表對象間線索,例 如對象水平差異(0LD)、對象相干數(shù)值等等。當(dāng)在空間音頻編碼(SAC)中,對象間參數(shù)數(shù)據(jù)針 對單獨時間平鋪/頻率平鋪來計算,即,針對音頻信號的特定幀(例如,1024或2048個樣本), 考慮多個頻帶(例如24、32或64個頻帶等等),使得對于每一幀以及每一頻帶皆存在參數(shù)數(shù) 據(jù)。作為舉例,當(dāng)音頻片具有20個幀且當(dāng)每一幀細分成32個頻帶,則時間/頻率平鋪的數(shù)量 為640。
[0006] 在以對象為基礎(chǔ)的方法中,以分離式音頻對象來描述音場。此需要對象元數(shù)據(jù),其 描述在3D空間中每一個聲源的時變位置。
[0007] 在現(xiàn)有技術(shù)中,第一元數(shù)據(jù)編碼編碼概念為空間聲音描述交換格式(SpatDIF),而 音頻場景描述格式目前尚在開發(fā)中[1 ]。音頻場景描述格式為以對象為基礎(chǔ)的聲音場景交 換格式,其并沒有提供任何壓縮對象軌跡的方法。SpatDIF將以文字為基礎(chǔ)的開放性聲音控 制(OSC)格式使用于對象元數(shù)據(jù)的結(jié)構(gòu)[2]。然而,簡單以文字為基礎(chǔ)的表現(xiàn)并非為對象軌 跡的壓縮傳輸?shù)倪x項。
[0008] 在現(xiàn)有技術(shù)中,另一個元數(shù)據(jù)概念為音頻場景描述格式(ASDF)[3],其是具有相同 的缺點的以文字為基礎(chǔ)的解決方案。此數(shù)據(jù)通過同步多介質(zhì)集成語言(SMIL)的延伸所建 構(gòu),該同步多介質(zhì)集成語言(SMIL)為可延伸標(biāo)記式語言(XML)[4,5]的子集合。
[0009] 在現(xiàn)有技術(shù)中的另一個元數(shù)據(jù)概念為場景的音頻二進制格式(AudioBIFS),為 MPEG-4標(biāo)準(zhǔn)的一部分的二進制格式[6,7]。其高度關(guān)于基于XML的虛擬現(xiàn)實建模語言 (VRML),其已開發(fā)應(yīng)用于音頻虛擬3D場景以及交互式虛擬現(xiàn)實[8]。復(fù)雜的AudioBIFS標(biāo)準(zhǔn) 使用場景圖以指定對象移動的路徑。AudioBIFS主要的缺點在于并非設(shè)計用于實時操作,其 中會使有限的系統(tǒng)延遲并且需要隨機讀取數(shù)據(jù)流。此外,對象位置的編碼不運用受限的聽 者的定位能力。在音頻虛擬場景中的聽者有固定位置時,則對象數(shù)據(jù)可量化成較低的位數(shù)
[9] 。因此,應(yīng)用于AudioBIFS的對象元數(shù)據(jù)的編碼對于數(shù)據(jù)壓縮是無效的。
[0010] 如果能提供改善的高效率的對象元數(shù)據(jù)編碼概念,將會獲得高度的贊賞。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明的目的用于提供改善的高效率的對象元數(shù)據(jù)編碼的概念。本發(fā)明的目的通 過權(quán)利要求1的裝置、權(quán)利要求8的裝置、權(quán)利要求14的系統(tǒng)、權(quán)利要求15的方法、權(quán)利要求 16的方法以及權(quán)利要求17的計算機程序來達成。
[0012] 本發(fā)明提供一種用于產(chǎn)生至少一個音頻聲道的裝置。該裝置包含元數(shù)據(jù)解壓縮 器,用于接收至少一個壓縮元數(shù)據(jù)信號。每一個壓縮元數(shù)據(jù)信號包含多個第一元數(shù)據(jù)樣本。 每一個壓縮元數(shù)據(jù)信號中的第一元數(shù)據(jù)樣本指示與至少一個音頻對象信號中的音頻對象 信號相關(guān)聯(lián)的信息。元數(shù)據(jù)解碼器用于產(chǎn)生至少一個重建元數(shù)據(jù)信號,使得每一個重建元 數(shù)據(jù)信號包含至少一個壓縮元數(shù)據(jù)信號中的其中一個的多個第一元數(shù)據(jù)樣本以及進一步 包含多個第二元數(shù)據(jù)樣本。元數(shù)據(jù)解碼器用于根據(jù)重建元數(shù)據(jù)信號的至少兩個第一元數(shù)據(jù) 樣本,產(chǎn)生每一個重建元數(shù)據(jù)信號的每一個第二元數(shù)據(jù)樣本。此外,該裝置包含音頻聲道發(fā) 生器,音頻聲道發(fā)生器用于根據(jù)至少一個音頻對象信號以及至少一個重建元數(shù)據(jù)信號而產(chǎn) 生至少一個音頻聲道。
[0013] 此外,本發(fā)明提供一種用于產(chǎn)生編碼音頻信息的裝置,該編碼音頻信息包含至少 一個編碼音頻信號以及至少一個壓縮元數(shù)據(jù)信號。此裝置包含:元數(shù)據(jù)編碼器,用于接收至 少一個原始元數(shù)據(jù)信號。每一個原始元數(shù)據(jù)信號包含多個元數(shù)據(jù)樣本。每一個原始元數(shù)據(jù) 信號中的元數(shù)據(jù)樣本指示與至少一個音頻對象信號中的音頻對象信號相關(guān)聯(lián)的信息。元數(shù) 據(jù)編碼器用于產(chǎn)生至少一個壓縮元數(shù)據(jù)信號,使得每一壓縮元數(shù)據(jù)信號包含一個原始元數(shù) 據(jù)信號的至少兩個元數(shù)據(jù)樣本的第一組,以及使得壓縮元數(shù)據(jù)信號不包含所述一個原始元 數(shù)據(jù)信號的另外至少兩個元數(shù)據(jù)樣本的第二組的任何元數(shù)據(jù)樣本。此外,該裝置包含音頻 編碼器,該音頻編碼器用于編碼至少一個音頻對象信號以獲得至少一個編碼音頻信號。 [0014]此外,提供了一種系統(tǒng)。該系統(tǒng)包含用于產(chǎn)生編碼音頻信息的裝置,該編碼音頻信 息包含至少一個編碼音頻信號以及至少一個壓縮元數(shù)據(jù)信號,如上所述。此外,該系統(tǒng)包含 用于接收至少一個編碼音頻信號以及至少一個壓縮元數(shù)據(jù)信號的裝置,該裝置用于根據(jù)至 少一個編碼音頻信號以及至少一個壓縮元數(shù)據(jù)信號產(chǎn)生至少一個音頻聲道,如上所述。
[0015] 根據(jù)實施例,提供用于對象元數(shù)據(jù)的數(shù)據(jù)壓縮概念,其達成用于具有限的數(shù)據(jù)速 率的傳輸聲道為有效的壓縮機制。此外,對于純方位變化的良好壓縮率得以實現(xiàn),例如照相 機旋轉(zhuǎn)。此外,該提供的概念支持不連續(xù)的軌跡,例如位置的跳躍。此外,也能實現(xiàn)低解碼復(fù) 雜度。此外,可實現(xiàn)有限的重新初始化時間下的隨機存取。
[0016] 此外,本發(fā)明提供一種用于產(chǎn)生至少一個音頻聲道的方法。該方法包含:
[0017] -接收至少一個壓縮元數(shù)據(jù)信號,其中每一個壓縮元數(shù)據(jù)信號包含多個第一元數(shù) 據(jù)樣本,其中每一個壓縮元數(shù)據(jù)信號中的第一元數(shù)據(jù)樣本指示與至少一個音頻對象信號中 的音頻對象信號相關(guān)聯(lián)的信息;
[0018] -產(chǎn)生至少一個重建元數(shù)據(jù)信號,使得每一個重建元數(shù)據(jù)信號包含至少一個壓縮 元數(shù)據(jù)信號中的其中一個的第一元數(shù)據(jù)樣本,以及進一步包含多個第二元數(shù)據(jù)樣本,其中 產(chǎn)生至少一個重建元數(shù)據(jù)信號的步驟包含根據(jù)重建元數(shù)據(jù)信號的至少兩個第一元數(shù)據(jù)樣 本產(chǎn)生每一個重建元數(shù)據(jù)信號的每一個第二元數(shù)據(jù)樣本的步驟;
[0019] -根據(jù)至少一個音頻對象信號以及至少一個重建元數(shù)據(jù)信號產(chǎn)生至少一個音頻聲 道。
[0020] 此外,提供了一種用于產(chǎn)生編碼音頻信息的方法,編碼音頻信息包含至少一個編 碼音頻信號以及至少一個壓縮元數(shù)據(jù)信號。此方法包含:
[0021] -接收至少一個原始元數(shù)據(jù)信號,其中每一原始元數(shù)據(jù)信號包含多個元數(shù)據(jù)樣本, 其中每一原始元數(shù)據(jù)信號的元數(shù)據(jù)樣本指示與至少一個音頻對象信號中的音頻對象信號 相關(guān)聯(lián)的息;
[0022] -產(chǎn)生至少一個壓縮元數(shù)據(jù)信號,使得每一壓縮元數(shù)據(jù)信號包含一個原始元數(shù)據(jù) 信號的至少兩個元數(shù)據(jù)樣本的第一組,以及使得壓縮元數(shù)據(jù)信號不包含所述一個原始元數(shù) 據(jù)信號的另外至少兩個元數(shù)據(jù)樣本的第二組的任何元數(shù)據(jù)樣本;
[0023] -編碼至少一個音頻對象信號以獲得至少一個編碼音頻信號。
[0024] 此外,本發(fā)明提供一種計算機程序,當(dāng)此計算機程序于計算機或者信號處理器上 執(zhí)行時,計算機程序用于實現(xiàn)上述的方法。
【附圖說明】
[0025] 下面參考附圖討論本發(fā)明的實施例,其中:
[0026] 圖1示出根據(jù)實施例的用于產(chǎn)生至少一個音頻聲道的裝置;
[0027] 圖2示出根據(jù)實施例的用于產(chǎn)生編碼音頻信息的裝置,編碼音頻信息包含至少一 個編碼音頻信號以及至少一個壓縮元數(shù)據(jù)信號;
[0028]圖3示出根據(jù)實施例的系統(tǒng);
[0029] 圖4示出在從原點開始的三維空間中通過方位角、仰角以及半徑表示的音頻對象 的位置;
[0030] 圖5示出音頻聲道發(fā)生器采用的音頻對象以及揚聲器裝備的位置;
[0031] 圖6示出根據(jù)實施例的元數(shù)據(jù)編碼;
[0032]圖7示出根據(jù)實施例的元數(shù)據(jù)解碼;
[0033] 圖8示出根據(jù)另一實施例的元數(shù)據(jù)編碼;
[0034] 圖9示出根據(jù)另一實施例的元數(shù)據(jù)解碼;
[0035] 圖10示出根據(jù)另一實施例的元數(shù)據(jù)編碼;
[0036] 圖11示出根據(jù)另一實施例的元數(shù)據(jù)解碼;
[0037]圖12示出3D音頻編碼器的第一實施例;
[0038]圖13示出3D音頻解碼器的第一實施例;
[0039]圖14示出3D音頻編碼器的第二實施例;
[0040]圖15示出3D音頻解碼器的第二實施例;
[00411圖16示出3D音頻編碼器的第三實施例;
[0042]圖17示出3D音頻解碼器的第三實施例。
【具體實施方式】
[0043]圖2示出根據(jù)實施例的用于產(chǎn)生編碼音頻信息的裝置250,編碼音頻信息包含至少 一個編碼音頻信號以及至少一個壓縮元數(shù)據(jù)信號。
[0044]裝置250包含元數(shù)據(jù)編碼器210,用于接收至少一個原始元數(shù)據(jù)信號。每一個原始 元數(shù)據(jù)信號包含多個元數(shù)據(jù)樣本。至少一個原始元數(shù)據(jù)信號中的每一個的元數(shù)據(jù)樣本指示 與至少一個音頻對象信號中的音頻對象信號相關(guān)聯(lián)的信息。元數(shù)據(jù)編碼器210用于產(chǎn)生至 少一個壓縮元數(shù)據(jù)信號,使得每一壓縮元數(shù)據(jù)信號能包含一個原始元數(shù)據(jù)信號的至少兩個 元數(shù)據(jù)樣本的第一組,以及使得壓縮元數(shù)據(jù)信號不包含該一個原始元數(shù)據(jù)信號的另外至少 兩個元數(shù)據(jù)樣本的第二組的任何元數(shù)據(jù)樣本。
[0045] 此外,裝置250包含音頻編碼器220,用于編碼至少一個音頻對象信號以獲得至少 一個編碼音頻信號。例如,音頻聲道發(fā)生器可包含SA0C編碼器,該SA0C編碼器根據(jù)現(xiàn)有技術(shù) 編碼至少一個音頻對象信號,以獲得至少一個SA0C傳輸聲道并作為至少一個編碼音頻信 號。各種其他用于編碼至少一個音頻對象聲道的編碼技術(shù)可替換或額外地用于編碼所述至 少一個音頻對象聲道。
[0046] 圖1示出根據(jù)實施例的用于產(chǎn)生至少一個音頻聲道的裝置100。
[0047] 裝置100包含元數(shù)據(jù)解碼器110,用于接收至少一個壓縮元數(shù)據(jù)信號。每一個壓縮 元數(shù)據(jù)信號包含多個第一元數(shù)據(jù)樣本。每一個壓縮元數(shù)據(jù)信號的第一元數(shù)據(jù)樣本指示與至 少一個音頻對象信號中的音頻對象信號相關(guān)聯(lián)的信息。元數(shù)據(jù)解碼器110用于產(chǎn)生至少一 個重建元數(shù)據(jù)信號,使得每一個重建元數(shù)據(jù)信號包含至少一個壓縮元數(shù)據(jù)信號中的其中一 個的第一元數(shù)據(jù)樣本以及進一步包含多個第二元數(shù)據(jù)樣本。此外,元數(shù)據(jù)解碼器110用于根 據(jù)重建元數(shù)據(jù)信號的至少兩個第一元數(shù)據(jù)樣本,產(chǎn)生每一個重建元數(shù)據(jù)信號的每一個第二 元數(shù)據(jù)樣本。
[0048]此外,裝置100包含音頻聲道發(fā)生器120,該音頻聲道發(fā)生器120用于根據(jù)至少一個 音頻對象信號以及至少一個重建元數(shù)據(jù)信號而產(chǎn)生至少一個音頻聲道。
[0049]當(dāng)參閱元數(shù)據(jù)樣本時,應(yīng)當(dāng)注意的是,元數(shù)據(jù)樣本的特征在于其元數(shù)據(jù)樣本值以 及與其相關(guān)的時間點。例如,此類時間點可與音頻序列或其相似物的起始相關(guān)。例如,指數(shù)η 或k可辨識在元數(shù)據(jù)信號內(nèi)的元數(shù)據(jù)樣本的位置,并因此指示出(相關(guān)的)時間點(其與起始 時間相關(guān))。應(yīng)當(dāng)注意的是,當(dāng)兩個元數(shù)據(jù)樣本與不同時間點相關(guān)時,該兩個元數(shù)據(jù)樣本不 同于其他的元數(shù)據(jù)樣本,即使當(dāng)它們的元數(shù)據(jù)樣本值相同時,有時也會出現(xiàn)這樣的情況。
[0050] 上述的實施例基于以下發(fā)現(xiàn):與音頻對象信號相關(guān)聯(lián)的(包含于元數(shù)據(jù)信號的)元 數(shù)據(jù)信息常變化緩慢。
[0051] 例如,元數(shù)據(jù)信號可指示音頻對象的位置信息(例如用于定義音頻對象的位置的 方位角、仰角或半徑)??梢约僭O(shè)音頻對象的位置在大部分的時間不會改變或僅緩慢地改 變。
[0052] 或者,元數(shù)據(jù)信號可例如指示音頻對象的音量(例如增益),并且也可以假設(shè)音頻 對象的音量在大部分的時間緩慢地改變。
[0053] 基于這個原因,在每個時間點并不需要傳遞(完整的)元數(shù)據(jù)信息。相反地,(完整 的)元數(shù)據(jù)信息僅在特定時間點傳遞,例如周期性地,例如在每N個時間點,例如在時間點0、 N、2N、3N等。在解碼器側(cè)上,對于中間的時間點(例如時間點1、2...N-1),元數(shù)據(jù)可接著基于 至少兩個時間點的元數(shù)據(jù)樣本進行近似。在解碼器側(cè)上,例如,時間點1、2···Ν-1的元數(shù)據(jù)樣 本可根據(jù)時間點〇以及Ν的元數(shù)據(jù)樣本進行近似,例如采用線性內(nèi)插法。如前所述,此類方法 基于以下發(fā)現(xiàn):音頻對象的元數(shù)據(jù)信息通常緩慢地改變。
[0054] 例如,在實施例中,三個元數(shù)據(jù)信號指定在3D空間中的音頻對象的