由CH所指示的多個音頻聲道和由OBJ所指示的多個音頻對象。此外,如圖10所示,輸入 接口 1100額外地接收與多個音頻對象OBJ中的一個或多個相關(guān)的元數(shù)據(jù)。此外,3D音頻編碼 器包括混合器200,該混合器200用于混合多個對象和多個聲道以獲得多個預(yù)混合的聲道, 其中每個預(yù)混合的聲道包括聲道的音頻數(shù)據(jù)和至少一個對象的音頻數(shù)據(jù)。
[0168] 此外,3D音頻編碼器包括:核心編碼器300,用于對核心編碼器輸入數(shù)據(jù)進(jìn)行核心 編碼;以及元數(shù)據(jù)壓縮器400,用于壓縮與多個音頻對象中的一個或多個相關(guān)的元數(shù)據(jù)。
[0169] 此外,3D音頻編碼器可包括模式控制器600,其用于在一些操作模式中的一個下控 制混合器、核心編碼器和/或輸出接口 500,其中在第一模式下,核心編碼器用于對多個音頻 聲道以及由輸入接口 1100所接收的多個音頻對象進(jìn)行編碼而未受到混合器的任何影響(即 沒有經(jīng)過混合器200的任意混合)。然而,在第二模式下混合器200是活躍的,核心編碼器對 多個混合的聲道(即由區(qū)塊200所生成的輸出)進(jìn)行編碼。在后者的情況下,優(yōu)選地,不再對 任何對象數(shù)據(jù)進(jìn)行編碼。相反地,指示音頻對象的位置的元數(shù)據(jù)已被混合器200用于將對象 渲染至元數(shù)據(jù)所指示的聲道上。換句話說,混合器200使用與多個音頻對象相關(guān)的元數(shù)據(jù)以 預(yù)渲染音頻對象,然后預(yù)渲染的音頻對象與聲道混和以在混合器的輸出處獲得混合的聲 道。在此實(shí)施例中,可以不必傳輸任何對象,此也請求作為區(qū)塊400的輸出的經(jīng)壓縮的元數(shù) 據(jù)。然而,如果并非輸入至接口 1100的所有對象都被混合而僅特定數(shù)量的對象被混合,則僅 維持未被混合的對象以及相關(guān)聯(lián)的元數(shù)據(jù)仍分別被傳輸至核心編碼器300或元數(shù)據(jù)壓縮器 400 〇
[0170] 在圖10中,元數(shù)據(jù)壓縮器400為根據(jù)上述實(shí)施例中的一個的用于生成編碼的音頻 信息的裝置250的元數(shù)據(jù)編碼器210。此外,在圖10中,混合器200和核心編碼器300-起形成 根據(jù)上述實(shí)施例中的一個的用于生成編碼的音頻信息的裝置250的音頻編碼器220。
[0171] 圖12示出3D音頻編碼器的另一實(shí)施例,3D音頻編碼器額外地包括SA0C編碼器800。 該SA0C編碼器800用于從空間音頻對象編碼器輸入數(shù)據(jù)生成一個或多個傳輸聲道和參數(shù)化 數(shù)據(jù)。如圖12所示,空間音頻對象編碼器輸入數(shù)據(jù)為尚未經(jīng)由預(yù)渲染器/混合器處理的對 象??蛇x地,提供如在單獨(dú)的聲道/對象編碼是活躍的模式一之下的預(yù)渲染器/混合器已被 旁路,SA0C編碼器800對輸入至輸入接口 1100的所有對象進(jìn)行編碼。
[0172] 此外,如圖12所示,優(yōu)選地,核心編碼器300被實(shí)現(xiàn)為USAC編碼器,即作為如MPEG-USAC標(biāo)準(zhǔn)(USAC =聯(lián)合語音和音頻編碼)中所定義和標(biāo)準(zhǔn)化的編碼器。圖12中示出的整個3D 音頻編碼器的輸出為具有用于單獨(dú)的數(shù)據(jù)類型的容器狀結(jié)構(gòu)的MPEG 4數(shù)據(jù)流。此外,元數(shù) 據(jù)被指示為"0ΑΜ"數(shù)據(jù),且圖10中的元數(shù)據(jù)壓縮器400與0ΑΜ編碼器400相對應(yīng),以獲得輸入 至USAC編碼器300的經(jīng)壓縮的0ΑΜ數(shù)據(jù),如從圖12中可看出的,USAC編碼器300額外地包括輸 出接口,以獲得具有編碼的聲道/對象數(shù)據(jù)和具有經(jīng)壓縮的0ΑΜ數(shù)據(jù)的MP4輸出數(shù)據(jù)流。 [0173]在圖12中,0ΑΜ編碼器400為根據(jù)上述實(shí)施例中的一個的用于生成編碼的音頻信息 的裝置250的元數(shù)據(jù)編碼器210。此外,在圖12中,SA0C編碼器800和USAC編碼器300-起形成 根據(jù)上述實(shí)施例中的一個的用于生成編碼的音頻信息的裝置250的音頻編碼器220。
[0174] 圖14示出3D音頻編碼器的另一實(shí)施例,其中相對于圖12, SA0C編碼器可用于利用 SA0C編碼算法對在于此模式下不活躍的預(yù)渲染器/混合器200處所提供的聲道進(jìn)行編碼, 或,可選地,對加入對象的預(yù)渲染的聲道進(jìn)行SA0C編碼。因此,在圖14中,SA0C編碼器800可 對三種不同種類的輸入數(shù)據(jù)進(jìn)行操作,即不具有任何預(yù)渲染的對象的聲道、聲道和預(yù)渲染 的對象,或獨(dú)自的對象。此外,優(yōu)選地,在圖14中提供附加的0崖解碼器420,以使得SA0C編碼 器800使用與在解碼器側(cè)上相同的數(shù)據(jù)(即通過有損壓縮而獲得的數(shù)據(jù),而非原始的0ΑΜ數(shù) 據(jù))用于其處理。
[0175] 圖14的3D音頻編碼器可在一些單獨(dú)的模式下操作。
[0176] 除了在圖10的上下文中所描述的第一模式和第二模式之外,圖14的3D音頻編碼器 可額外地在第三模式下操作,在此模式下,當(dāng)預(yù)渲染器/混合器200不活躍時,核心編碼器從 單獨(dú)的對象生成一個或多個傳輸聲道。可選地或此外地,在此第三模式下,當(dāng)對應(yīng)于圖10的 混合器200的預(yù)渲染器/混合器200不活躍時,SA0C編碼器800從原始聲道生成一個或多個可 選的或額外的傳輸聲道。
[0177] 最后,當(dāng)3D音頻編碼器用于第四模式下時,SA0C編碼器800可對加入由預(yù)渲染器/ 混合器所生成的預(yù)渲染的對象的聲道進(jìn)行編碼。因此,由于在第四模式下聲道和對象已被 完全地變換至單獨(dú)的SA0C傳輸聲道且不必傳輸如在圖3和5中被指示為"SA0C-SI"的相關(guān)聯(lián) 的邊信息,以及此外地任何經(jīng)壓縮的元數(shù)據(jù)的事實(shí),在此第四模式下最低比特速率應(yīng)用將 提供良好的品質(zhì)。
[0178] 在圖14中,0ΑΜ編碼器400為根據(jù)上述實(shí)施例中的一個的用于生成編碼的音頻信息 的裝置250的元數(shù)據(jù)編碼器210。此外,在圖14中,SA0C編碼器800和USAC編碼器300-起形成 根據(jù)上述實(shí)施例中的一個的用于生成編碼的音頻信息的裝置250的音頻編碼器220。
[0179] 根據(jù)實(shí)施例,提供一種用于對音頻輸入數(shù)據(jù)101進(jìn)行編碼以獲得音頻輸出數(shù)據(jù)501 的裝置,用于對音頻輸入數(shù)據(jù)101進(jìn)行編碼的裝置包括:
[0180] -輸入接口 1100,用于接收多個音頻聲道、多個音頻對象以及與多個音頻對象中的 一個或多個相關(guān)的元數(shù)據(jù);
[0181] -混合器200,用于混合多個對象和多個聲道以獲得多個預(yù)混合的聲道,每個預(yù)混 合的聲道包括聲道的音頻數(shù)據(jù)和至少一個對象的音頻數(shù)據(jù);以及
[0182] -裝置250,用于生成編碼的音頻信息,其包括如上所述的元數(shù)據(jù)編碼器和音頻編 碼器。
[0183] 用于生成編碼的音頻信息的裝置250的音頻編碼器220為核心編碼器(300),其用 于對核心編碼器輸入數(shù)據(jù)進(jìn)行核心編碼。
[0184] 用于生成編碼的音頻信息的裝置250的元數(shù)據(jù)編碼器210為用于對與多個音頻對 象中的一個或多個相關(guān)的元數(shù)據(jù)進(jìn)行壓縮的元數(shù)據(jù)壓縮器400。
[0185] 圖11示出根據(jù)本發(fā)明的實(shí)施例的3D音頻解碼器。3D音頻解碼器接收編碼的音頻數(shù) 據(jù)(即圖10的數(shù)據(jù)501)作為輸入。
[0186] 3D音頻解碼器包括元數(shù)據(jù)解壓縮器1400、核心解碼器1300、對象處理器1200、模式 控制器1600以及后處理器1700。
[0187] 具體地,3D音頻解碼器用于對編碼的音頻數(shù)據(jù)進(jìn)行解碼,且輸入接口用于接收編 碼的音頻數(shù)據(jù),編碼的音頻數(shù)據(jù)包括多個編碼的聲道和多個編碼的對象以及在特定的模式 下與多個對象相關(guān)的經(jīng)壓縮的元數(shù)據(jù)。
[0188] 此外,核心解碼器1300用于對多個編碼的聲道和多個編碼的對象進(jìn)行解碼,以及, 此外地,元數(shù)據(jù)解壓縮器用于對經(jīng)壓縮的元數(shù)據(jù)進(jìn)行解壓縮。
[0189] 此外,對象處理器1200用于使用經(jīng)解壓縮的元數(shù)據(jù)對由核心解碼器1300所生成的 多個解碼的對象進(jìn)行處理,以獲得包括對象數(shù)據(jù)和解碼的聲道的預(yù)定數(shù)目的輸出聲道。如 在1205處所指示的這些輸出聲道之后被輸入后處理器1700。后處理器1700用于將多個輸出 聲道1205轉(zhuǎn)換成特定輸出格式,該特定的輸出格式可以為雙聲道輸出格式或揚(yáng)聲器輸出格 式,如5.U7.1等輸出格式。
[0190] 優(yōu)選地,3D音頻解碼器包括模式控制器1600,該模式控制器1600用于分析編碼的 數(shù)據(jù)以檢測模式指示。因此,模式控制器1600連接到圖11中的輸入接口 1100。然而,可選地, 模式控制器在此并非為必要的。相反地,可通過任何其他種類的控制數(shù)據(jù)(如用戶輸入或任 何其他控制)預(yù)設(shè)置靈活的音頻解碼器。優(yōu)選地,由模式控制器1600控制的圖11中的3D音頻 解碼器用于旁路對象處理器并將多個解碼的聲道饋入后處理器1700。即當(dāng)模式2已被應(yīng)用 于圖10的3D音頻編碼器時,此為模式2下的操作,即其中僅接收到預(yù)渲染的聲道??蛇x地,當(dāng) 模式1已被應(yīng)用于3D音頻編碼器時,即當(dāng)3D音頻編碼器已執(zhí)行單獨(dú)的聲道/對象編碼時,則 對象處理器1200不會被旁路,而多個解碼的聲道和多個解碼的對象與由元數(shù)據(jù)解壓縮器 1400所生成的經(jīng)解壓縮的元數(shù)據(jù)一起被饋入對象處理器1200。
[0191] 優(yōu)選地,是否將應(yīng)用模式1或模式2的指示被包含在編碼的音頻數(shù)據(jù)中,然后模式 控制器1600分析編碼的數(shù)據(jù)以檢測模式指示。當(dāng)模式指示表示編碼的音頻數(shù)據(jù)包括編碼的 聲道和編碼的對象時,使用模式1;而當(dāng)模式指示表示編碼的音頻數(shù)據(jù)不包含任何音頻對象 (即僅包含由圖10的3D音頻編碼器的模式2獲得的預(yù)渲染的聲道)時,使用模式2。
[0192] 在圖11中,元數(shù)據(jù)解壓縮器1400為根據(jù)上述實(shí)施例中的一個的用于生成一個或多 個音頻聲道的裝置100的元數(shù)據(jù)解碼器110。此外,在圖11中,核心解碼器1300、對象處理器 1200以及后處理器1700-起形成根據(jù)上述實(shí)施例中的一個的用于生成一個或多個音頻聲 道的裝置100的音頻解碼器120。
[0193] 圖13示出相對于圖11的3D音頻解碼器的優(yōu)選實(shí)施例,且圖13的實(shí)施例與圖12的3D 音頻編碼器相對應(yīng)。除了圖11的3D音頻解碼器的實(shí)施方式之外,圖13中的3D音頻解碼器包 括SA0C解碼器1800。此外,圖11的對象處理器1200被實(shí)施為分離的對象渲染器1210和混合 器1220,而取決于模式,對象渲染器1210的功能也可由SA0C解碼器1800來實(shí)施。
[0194] 此外,后處理器1700可被實(shí)施為雙聲道渲染器1710或格式轉(zhuǎn)換器1720??蛇x地,也 可如1730所示地實(shí)施圖11的數(shù)據(jù)1205的直接輸出。因此,為了具有靈活性以及在需要較小 的格式時的之后的后處理,優(yōu)選地在解碼器內(nèi)對最高數(shù)目的(例如22.2或32)的聲道執(zhí)行處 理。然而,當(dāng)從一開始就清楚僅需要小格式(例如5.1格式)時,為了避免不必要的升混合操 作以及隨后的降混合操作,則優(yōu)選地,如圖11或6的簡化操作1727所示,可施加跨越SA0C解 碼器和/或USAC解碼器的特定控制。
[0195] 在本發(fā)明的優(yōu)選實(shí)施例中,對象處理器1200包括SA0C解碼器1800,且該SA0C解碼 器1800用于對核心解碼器所輸出的一個或多個傳輸聲道以及相關(guān)聯(lián)的參數(shù)化數(shù)據(jù)進(jìn)行解 碼,并使用經(jīng)解壓縮的元數(shù)據(jù)以獲得多個渲染的音頻對象。至此,0ΑΜ輸出連接至方塊1800。
[0196] 此外,對象處理器1200用于渲染由核心解碼器所輸出的解碼的對象,其并未被編 碼于SA0C傳輸聲道,而被單獨(dú)地編碼于如對象渲染器1210所指示的典型單個的聲道元件。 此外,解碼器包括與輸出1730相對應(yīng)的用于將混合器的輸出輸出至揚(yáng)聲器的輸出接口。
[0197] 在另一實(shí)施例中,對象處理器1200包括空間音頻對象編碼解碼器1800,用于對一 個或多個傳輸聲道以及表示編碼的音頻信號或編碼的音頻聲道的相關(guān)聯(lián)的參數(shù)化邊信息 進(jìn)行解碼,其中空間音頻對象編碼解碼器用于將相關(guān)聯(lián)的參數(shù)化信息以及經(jīng)解壓縮的元數(shù) 據(jù)轉(zhuǎn)碼成可用于直接地渲染輸出格式的經(jīng)轉(zhuǎn)碼的參數(shù)化邊信息,例如在SA0C的早期版本中 所定義的。后處理器1700用于使用解碼的傳輸聲道和經(jīng)轉(zhuǎn)碼的參數(shù)化邊信息計算輸出格式 的音頻聲道。后處理器所執(zhí)行的處理可類似于MPEG環(huán)繞處理或可以為任何其他的處理,如 BCC處理等。
[0198] 在另一實(shí)施例中,對象處理器1200包括空間音頻對象編碼解碼器1800,其用于使 用(由核心解碼器)解碼的傳輸聲道和參數(shù)化邊信息直接地升混合并渲染用于輸出格式的 聲道信號。
[0199] 此外,重要的是,圖11的對象處理器1200額外地包括混合器1220,當(dāng)存在與聲道混 合的預(yù)渲染的對象時(即當(dāng)圖10的混合器200活躍時),混合器1220直接地接收USAC解碼器 1300所輸出的數(shù)據(jù)作為輸入。此外,混合器1220從執(zhí)行對象渲染的對象渲染器接收未經(jīng) SA0C解碼的數(shù)據(jù)。此外,混合器接收SA0C解碼器輸出數(shù)據(jù),即SA0C渲染的對象。
[0200] 混合器1220連接到輸出接口 1730、雙聲道渲染器1710以及格式轉(zhuǎn)換器1720。雙聲 道渲染器1710用于使用頭部相關(guān)的傳遞函數(shù)或雙耳空間脈沖響應(yīng)(BRIR)將輸出聲道渲染 成兩個雙耳聲道。格式轉(zhuǎn)換器1720用于將輸出聲道轉(zhuǎn)換成輸出格式,該輸出格式具有比混 合器的輸出聲道1205較少的數(shù)目的聲道,且格式轉(zhuǎn)換器1720需要再現(xiàn)布局(例如5.1揚(yáng)聲器 等)的信息。
[0201] 在圖13中,0ΑΜ解碼器1400為根據(jù)上述實(shí)施例中的一個的用于生成一個或多個音 頻聲道的裝置100的元數(shù)據(jù)解碼器110。此外,在圖13中,對象渲染器1210、USAC解碼器1300 以及混合器1220-起形成根據(jù)上述實(shí)施例中的一個的用于生成一個或多個音頻聲道的裝 置100的音頻解碼器120。
[0202]圖15的3D音頻解碼器與圖13的3D音頻解碼器的不同之處在于,SA0C解碼器不僅能 生成渲染的對象也能生成渲染的聲道,且此為這樣的情況:圖14的3D音頻編碼器已被使用 且在聲道/預(yù)渲染的對象與SA0C編碼器800的輸入接口之間的連接900是活躍的。
[0203] 此外,基于矢量的幅度平移(VBAP)級1810用于從SA0C解碼器接收再現(xiàn)布局的信 息,并將渲染矩陣輸出至SA0C解碼器,以使得SA0C解碼器最終能以1205( 即32個揚(yáng)聲器)的 高聲道格式來提供渲染的聲道,而無需混合器的任何其他操作。
[0204]優(yōu)選地,VBAP方