本申請(qǐng)為2013年1月29日提交的申請(qǐng)?zhí)枮?01310034592.4、發(fā)明名稱為“利用響度處理狀態(tài)元數(shù)據(jù)的音頻編碼器和解碼器”的發(fā)明專利申請(qǐng)的分案申請(qǐng)。
相關(guān)申請(qǐng)的交叉引用
本申請(qǐng)要求于2013年1月21日提交的、題為“利用響度處理狀態(tài)元數(shù)據(jù)的音頻編碼器和解碼器”、發(fā)明人為michaelward和jeffreyriedmiller的美國(guó)臨時(shí)專利申請(qǐng)no.61/754,882的優(yōu)先權(quán)。
本發(fā)明涉及音頻信號(hào)處理,更具體地,本發(fā)明涉及使用表示音頻內(nèi)容的響度處理狀態(tài)的元數(shù)據(jù)對(duì)音頻數(shù)據(jù)比特流進(jìn)行編碼和解碼。本發(fā)明的一些實(shí)施例生成或解碼作為“杜比數(shù)字(dolbydigital)(ac-3)”、“杜比數(shù)字+(dolbydigitalplus)(增強(qiáng)型ac-3或e-ac-3)”或者“杜比e(dolbye)”已知的格式之一的音頻數(shù)據(jù)。
背景技術(shù):
“杜比”、“杜比數(shù)字”、“杜比數(shù)字+”和“杜比e”是杜比實(shí)驗(yàn)室特許公司的商標(biāo)。杜比實(shí)驗(yàn)室提供分別作為“杜比數(shù)字”和“杜比數(shù)字+”已知的ac-3和e-ac-3的專有實(shí)施。
音頻數(shù)據(jù)處理單元通常以盲目的方式來操作,并且不注意在數(shù)據(jù)被接收之前出現(xiàn)的音頻數(shù)據(jù)的處理歷史。這可能在以下處理框架內(nèi)起作用:其中,單個(gè)實(shí)體進(jìn)行各種各樣的目標(biāo)媒體渲染裝置的所有的音頻數(shù)據(jù)處理和編碼,同時(shí),目標(biāo)媒體渲染裝置進(jìn)行對(duì)編碼音頻數(shù)據(jù)的所有的解碼和渲染。然而,該盲目的處理在以下情況下不能很好地起作用(或者一點(diǎn)都不起作用):其中,多個(gè)音頻處理單元散布在多種多樣的網(wǎng)絡(luò)上或者串聯(lián)放置(即,鏈?zhǔn)椒胖?并被期望最優(yōu)地執(zhí)行它們各自類型的音頻處理。例如,某些音頻數(shù)據(jù)可以被編碼以用于高性能的媒體系統(tǒng)并且可能必須沿著媒體處理鏈被轉(zhuǎn)換成適合移動(dòng)裝置的縮減形式。因而,音頻處理單元可能不必對(duì)已經(jīng)被執(zhí)行了某種類型的處理的音頻數(shù)據(jù)執(zhí)行該類型的音頻處理。例如,音量調(diào)節(jié)(volumeleveling)單元可以對(duì)輸入音頻剪輯執(zhí)行處理,而不管是否之前已經(jīng)對(duì)輸入音頻剪輯執(zhí)行了相同的或類似的音量調(diào)節(jié)。因此,音量調(diào)節(jié)單元可能在不需要時(shí)執(zhí)行調(diào)節(jié)。該非必要的處理還可能引起在對(duì)音頻數(shù)據(jù)的內(nèi)容進(jìn)行渲染時(shí)的特定特征的去除和/或降級(jí)。
音頻數(shù)據(jù)的典型的流包括音頻內(nèi)容(如,音頻內(nèi)容的一個(gè)或更多個(gè)通道)和表示音頻內(nèi)容的至少一個(gè)特征的元數(shù)據(jù)二者。例如,在ac-3比特流中,存在若干音頻元數(shù)據(jù)參數(shù),這些音頻元數(shù)據(jù)參數(shù)具體地意在用于改變被遞送到傾聽環(huán)境的節(jié)目的聲音。元數(shù)據(jù)參數(shù)之一是“dialnorm”參數(shù),其意在表示出現(xiàn)音頻節(jié)目的會(huì)話的平均電平,并且用于確定音頻回放信號(hào)電平。
在包括不同的音頻節(jié)目分段(每個(gè)音頻節(jié)目分段具有不同的dialnorm參數(shù))序列的比特流的回放期間,ac-3解碼器使用每個(gè)分段的dialnorm參數(shù)來執(zhí)行某種類型的響度處理,其中,其修改回放電平或響度,使得分段序列的會(huì)話的感知響度處于恒定的電平。編碼音頻項(xiàng)的序列中的每個(gè)編碼音頻分段(項(xiàng))會(huì)(通常)具有不同的dialnorm參數(shù),并且解碼器可以對(duì)其中每個(gè)項(xiàng)的電平進(jìn)行縮放,使得每個(gè)項(xiàng)的會(huì)話的回放電平或響度相同或者非常類似,雖然這可能需要在回放期間將不同量的增益應(yīng)用于不同的項(xiàng)。
dialnorm通常由用戶來設(shè)置,并且不是自動(dòng)生成的,雖然如果用戶沒有設(shè)置任何值時(shí)則存在默認(rèn)的dialnorm值。例如,內(nèi)容產(chǎn)生器可以用ac-3編碼器外部的裝置來進(jìn)行響度測(cè)量,并且接著將(表示音頻節(jié)目的口語會(huì)話的響度的)結(jié)果傳輸給編碼器以設(shè)置dialnorm值。因此,存在為了正確地設(shè)置dialnorm參數(shù)而對(duì)內(nèi)容產(chǎn)生器的依賴。
ac-3比特流中的dialnorm參數(shù)可能不正確的原因有若干不同的原因。首先,如果內(nèi)容產(chǎn)生器沒有設(shè)置dialnorm值,則每個(gè)ac-3編碼器具有在比特流的生成期間使用的默認(rèn)的dialnorm值。該默認(rèn)值可能與音頻的實(shí)際會(huì)話響度電平相當(dāng)不同。第二,即使內(nèi)容產(chǎn)生器測(cè)量響度并且相應(yīng)地設(shè)置dialnorm值,也可能使用不遵守推薦的ac-3響度測(cè)量方法的響度測(cè)量算法或儀表,從而導(dǎo)致錯(cuò)誤的dialnorm值。第三,即使已經(jīng)利用內(nèi)容產(chǎn)生器正確地測(cè)量的并且設(shè)置的dialnorm值產(chǎn)生了ac-3比特流,其可能在比特流的傳輸和/或存儲(chǔ)期間已經(jīng)被改為錯(cuò)誤的值。例如,在電視廣播應(yīng)用中,使用錯(cuò)誤的dialnorm元數(shù)據(jù)信息來對(duì)ac-3比特流進(jìn)行解碼、修改和接著重新編碼不是不常見。因此,ac-3比特流中所包括的dialnorm值可能是不正確的或者不準(zhǔn)確的,因此可能對(duì)于傾聽體驗(yàn)的質(zhì)量有負(fù)面影響。
此外,dialnorm參數(shù)不指示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(如,已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行了什么類型的響度處理)。在本發(fā)明之前,音頻比特流一直沒有以本公開中描述的類型的格式包括元數(shù)據(jù),所述元數(shù)據(jù)表示音頻比特流的音頻內(nèi)容的響度處理狀態(tài)(如,所應(yīng)用的響度處理的類型)、或者比特流的音頻內(nèi)容的響度處理狀態(tài)和響度。這樣的格式的響度處理狀態(tài)元數(shù)據(jù)用于以特別有效的方式便利對(duì)音頻比特流的自適應(yīng)響度處理和/或音頻內(nèi)容的響度處理狀態(tài)和響度的有效性的驗(yàn)證。
國(guó)際提交日為2011年12月1日并且被受讓給本申請(qǐng)的受讓人的公開號(hào)為wo2012/075246a2的pct國(guó)際申請(qǐng)公開了用于生成、解碼和處理包括表示音頻內(nèi)容的處理狀態(tài)(如,響度處理狀態(tài))和特性(如,響度)的元數(shù)據(jù)在內(nèi)的音頻比特流的方法和系統(tǒng)。該參考文獻(xiàn)還描述了使用元數(shù)據(jù)執(zhí)行的對(duì)比特流的音頻內(nèi)容的自適應(yīng)處理、以及使用元數(shù)據(jù)執(zhí)行的對(duì)比特流的音頻內(nèi)容的響度處理狀態(tài)和響度的有效性的驗(yàn)證。然而,該參考文獻(xiàn)沒有描述以本公開內(nèi)容中描述的類型的格式在音頻比特流中包括表示音頻內(nèi)容的響度處理狀態(tài)和響度的元數(shù)據(jù)(lpsm)。如所注意到的,這樣的格式的lpsm用于以特別有效的方式便利對(duì)流的自適應(yīng)響度處理和/或音頻內(nèi)容的響度處理狀態(tài)和響度的有效性的驗(yàn)證。
雖然本發(fā)明不限于與ac-3比特流、e-ac-3比特流或者杜比e比特流一起使用,然而,為了方便,將在實(shí)施例中對(duì)其進(jìn)行描述,在實(shí)施例中,其生成、解碼或者處理這樣的包括響度處理狀態(tài)元數(shù)據(jù)在內(nèi)的比特流。
ac-3編碼比特流包括元數(shù)據(jù)以及音頻內(nèi)容的一至六個(gè)通道。音頻內(nèi)容是已經(jīng)使用感知音頻編碼被壓縮的音頻數(shù)據(jù)。元數(shù)據(jù)包括意在用于改變被遞送給傾聽環(huán)境的節(jié)目的聲音的若干音頻元數(shù)據(jù)參數(shù)。
ac-3(也稱為杜比數(shù)字)編碼的細(xì)節(jié)是公知的,并且在很多公開參考文獻(xiàn)中被闡明,這些公開的參考文獻(xiàn)包括:
atscstandarda52/a:digitalaudiocompressionstandard(ac-3),revisiona,advancedtelevisionsystemscommittee,20aug.2001;以及
美國(guó)專利5,583,962、5,632,005、5,633,981、5,727,119和6,021,386。
“introductiontodolbydigitalplus,anenhancementtothedolbydigitalcodingsystem”,aesconventionpaper6191,117thaesconvention,october28,2004中闡明了杜比數(shù)字+(e-ac-3)編碼的細(xì)節(jié)。
“efficientbitallocation,quantization,andcodinginanaudiodistributionsystem”,aespreprint5068,107thaesconference,august1999和“professionalaudiocoderoptimizedforusewithvideo”,aespreprint5033,107thaesconferenceaugust1999中闡明了杜比e編碼的細(xì)節(jié)。
ac-3編碼音頻比特流的每個(gè)幀包含用于數(shù)字音頻的1536個(gè)樣本的音頻內(nèi)容和元數(shù)據(jù)。對(duì)于48khz的采樣速率,這表示32毫秒的數(shù)字音頻或者音頻的每秒31.25個(gè)幀的速率。
取決于幀包含一個(gè)、兩個(gè)、三個(gè)還是六個(gè)音頻數(shù)據(jù)塊,e-ac-3編碼音頻比特流的每個(gè)幀分別包含用于數(shù)字音頻的256、512、768或1536個(gè)樣本的音頻內(nèi)容和元數(shù)據(jù)。對(duì)于48khz的采樣速率,這分別表示5.333、10.667、16或32毫秒的數(shù)字音頻或者音頻的每秒189.9、93.75、62.5或31.25個(gè)幀的速率。
如圖4所示,每個(gè)ac-3幀被分成區(qū)段(分段),包括:同步信息(si)區(qū)段,其包含(如圖5所示)同步字(sw)和兩個(gè)糾錯(cuò)字中的第一糾錯(cuò)字(crc1);比特流信息(bsi)區(qū)段,其包含元數(shù)據(jù)的大多數(shù);一個(gè)至六個(gè)之間的音頻塊(ab0至ab5),其包含數(shù)據(jù)壓縮的音頻內(nèi)容(也可以包括元數(shù)據(jù));浪費(fèi)比特(w),其包含在音頻內(nèi)容被壓縮之后留下的任意的未使用的比特;輔助(aux)信息區(qū)段,其可以包含更多的元數(shù)據(jù);以及兩個(gè)糾錯(cuò)字中的第二糾錯(cuò)字(crc2)。
如圖7所示,每個(gè)e-ac-3幀被劃分成區(qū)段(分段),包括:同步信息(si)區(qū)段,其包含(如圖5所示)同步字(sw);比特流信息(bsi)區(qū)段,其包含元數(shù)據(jù)的大多數(shù);一個(gè)至六個(gè)之間的音頻塊(ab0至ab5),其包含數(shù)據(jù)壓縮的音頻內(nèi)容(也可以包括元數(shù)據(jù));浪費(fèi)比特(w),其包含在音頻內(nèi)容被壓縮之后留下的任意的未使用的比特;輔助(aux)信息區(qū)段,其可以包含更多的元數(shù)據(jù);以及糾錯(cuò)字(crc)。
在ac-3(或者e-ac-3)比特流中,存在若干音頻元數(shù)據(jù)參數(shù),該音頻元數(shù)據(jù)參數(shù)具體地意在用于改變被遞送給傾聽環(huán)境的節(jié)目的聲音。元數(shù)據(jù)參數(shù)之一是dialnorm參數(shù),其包括在bsi區(qū)段中。
如圖6所示,ac-3幀的bsi區(qū)段包括五比特的參數(shù)(“dialnorm”),其指示用于該節(jié)目的dialnorm值。如果ac-3幀的音頻編碼模式(“acmod”)為“0”,指示使用雙-單或者“1+1”通道配置,則包括用于指示同一ac-3幀中承載的第二音頻節(jié)目的dialnorm值的五比特的參數(shù)(“dialnorm2”)。
bsi分段還包括:用于表示跟隨“addbsie”比特的附加比特流信息的存在(或不存在)的標(biāo)志(“addbsie”)、用于表示跟隨“addbsil”值的任意附加比特流信息的長(zhǎng)度的參數(shù)(“addbsil”)、以及跟隨“addbsil”值的最高達(dá)64比特的附加比特流信息(“addbsi”)。
bsi分段包括沒有在圖6中具體示出的其他元數(shù)據(jù)值。
技術(shù)實(shí)現(xiàn)要素:
在一類實(shí)施例中,本發(fā)明是一種包括以下步驟的方法:通過在比特流的至少一個(gè)幀的至少一個(gè)分段中包括響度處理狀態(tài)元數(shù)據(jù)(lpsm)并且在該幀的至少一個(gè)其他分段中包括音頻數(shù)據(jù),對(duì)音頻數(shù)據(jù)進(jìn)行編碼以生成包括響度處理狀態(tài)元數(shù)據(jù)和音頻數(shù)據(jù)在內(nèi)的編碼音頻比特流。在典型的實(shí)施例中,該方法包括步驟:在比特流的每個(gè)幀中復(fù)用音頻數(shù)據(jù)與lpsm。在典型的解碼中,解碼器(通過解析和解復(fù)用lpsm和音頻數(shù)據(jù))從包括lpsm和音頻數(shù)據(jù)的比特流中提取lpsm,并且對(duì)音頻數(shù)據(jù)進(jìn)行處理以生成解碼音頻數(shù)據(jù)流(并且,在某些情況下,還使用lpsm執(zhí)行對(duì)音頻數(shù)據(jù)的自適應(yīng)響度處理或者對(duì)lpsm和/或音頻數(shù)據(jù)的認(rèn)證和/或驗(yàn)證中的至少一個(gè))。在某些情況下,解碼音頻數(shù)據(jù)和lpsm從解碼器轉(zhuǎn)發(fā)給后處理器,后處理器被配置成使用lpsm對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。自適應(yīng)響度處理可以包括動(dòng)態(tài)范圍和/或響度控制(如,會(huì)話響度調(diào)節(jié)或其他音量調(diào)節(jié)),或者自適應(yīng)響度處理可以由動(dòng)態(tài)范圍和/或響度控制構(gòu)成。響應(yīng)于lpsm,音頻處理單元可以禁止(如lpsm所示)已經(jīng)對(duì)相應(yīng)的音頻內(nèi)容執(zhí)行的響度處理。
可以對(duì)根據(jù)本發(fā)明的典型的實(shí)施例的嵌入在音頻比特流中的響度處理狀態(tài)元數(shù)據(jù)進(jìn)行認(rèn)證和驗(yàn)證,如使能響度調(diào)節(jié)實(shí)體來驗(yàn)證具體的節(jié)目的響度是否已經(jīng)在指定的范圍內(nèi)以及相應(yīng)的音頻數(shù)據(jù)本身是否還沒有被修改過(從而確保符合可應(yīng)用的規(guī)則)??梢宰x取包括響度處理狀態(tài)元數(shù)據(jù)在內(nèi)的數(shù)據(jù)塊中所包括的響度值,以對(duì)其進(jìn)行驗(yàn)證,代替再次計(jì)算響度。響應(yīng)于lpsm,管理機(jī)構(gòu)可以判定相應(yīng)的音頻內(nèi)容是否符合(如lpsm所示)響度法規(guī)和/或管理要求(如,在商業(yè)廣告響度降低法案(commercialadvertisementloudnessmitigationact),也稱為“calm”法案下公布的規(guī)則),而不需要計(jì)算音頻內(nèi)容的響度。
本發(fā)明的另外的方面是被配置成執(zhí)行本發(fā)明的方法的任意實(shí)施例的音頻處理單元(apu)。在另一類實(shí)施例中,本發(fā)明是包括緩沖存儲(chǔ)器(緩沖器)的apu,緩沖存儲(chǔ)器(如,以非暫時(shí)性方式)存儲(chǔ)已經(jīng)由本發(fā)明的方法的任意實(shí)施例生成的編碼音頻比特流的至少一個(gè)幀。apu的示例包括但不限于編碼器(如,轉(zhuǎn)碼器)、解碼器、編解碼器、預(yù)處理系統(tǒng)(預(yù)處理器)、后處理系統(tǒng)(后處理器)、音頻比特流處理系統(tǒng)以及這樣的元件的組合。
在另一類實(shí)施例中,本發(fā)明是被配置成生成包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的編碼音頻比特流的音頻處理單元(apu),其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),并且至少部分元數(shù)據(jù)分段中的每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)(lpsm)。通常,比特流的幀中的至少一個(gè)這樣的元數(shù)據(jù)分段包括:lpsm的表示是否已經(jīng)對(duì)幀的音頻數(shù)據(jù)(即在所述幀的至少一個(gè)音頻數(shù)據(jù)分段中的音頻數(shù)據(jù))執(zhí)行了第一類型的響度處理的至少一個(gè)分段;以及l(fā)psm的表示幀的音頻數(shù)據(jù)中的至少一些的響度(如,表示會(huì)話的幀的音頻數(shù)據(jù)中的至少一些的會(huì)話響度)的至少一個(gè)其他分段。在這種類型的一個(gè)實(shí)施例中,apu是一種被配置成對(duì)輸入音頻進(jìn)行編碼以生成編碼音頻的編碼器,音頻數(shù)據(jù)分段包括編碼音頻。在這種類型的典型實(shí)施例中,每個(gè)元數(shù)據(jù)分段具有本文中要描述的優(yōu)選格式。
在一種優(yōu)選格式中,編碼比特流是ac-3比特流或者e-ac-3比特流,并且,每個(gè)包括lpsm的元數(shù)據(jù)分段作為附加比特流信息被包括在比特流的幀的比特流信息(“bsi”)分段的“addbsi”域中。每個(gè)包括lpsm的元數(shù)據(jù)分段具有本文中在以下參考表1和表2指定的格式(即,其包括表1所示的核心元素或者其變型,核心元素或者其變型之后跟隨有效載荷id(將元數(shù)據(jù)標(biāo)識(shí)為lpsm)和有效載荷尺寸值,有效載荷id和有效載荷尺寸值之后跟隨有效載荷(如本文中所述的具有如表2所示的格式或者表2的變型所示的格式的lpsm數(shù)據(jù)))。
在另一優(yōu)選格式中,編碼比特流是ac-3比特流或者e-ac-3比特流,并且,每個(gè)包括lpsm的元數(shù)據(jù)分段被包括在比特流的幀的比特流信息(“bsi”)分段的“addbsi”域中,或者被包括在比特流的幀的端部處的auxdata(輔助數(shù)據(jù))域(如,圖4所示的aux分段)中。幀可以包括一個(gè)或兩個(gè)元數(shù)據(jù)分段,每個(gè)元數(shù)據(jù)分段包括lpsm,并且,如果幀包括兩個(gè)元數(shù)據(jù)分段,則其中一個(gè)元數(shù)據(jù)分段存在于幀的addbsi域中,而另一個(gè)元數(shù)據(jù)分段存在于幀的aux域中。包括lpsm的每個(gè)元數(shù)據(jù)分段具有本文中在以下參考表1和表2指出的格式(即,其包括表1所示的核心元素或者其變型,之后跟隨有效載荷id(將元數(shù)據(jù)標(biāo)識(shí)為lpsm))和有效載荷尺寸值,之后跟隨有效載荷(如本文中所述的具有如表2所示的格式或者表2的變型所示的格式的lpsm數(shù)據(jù))。
在另一優(yōu)選格式中,編碼比特流是一種并非ac-3比特流或者e-ac-3比特流的比特流,并且,包括lpsm的元數(shù)據(jù)分段中的每個(gè)被包括在被保留用于存儲(chǔ)附加數(shù)據(jù)的比特流的分段(或域、或時(shí)隙)中。包括lpsm的每個(gè)元數(shù)據(jù)分段可以具有與本文中在以下參考表1和表2指出的格式類似或相同的格式(即,其包括與表1所示的核心元素類似或相同的核心元素,之后跟隨有效載荷id(將元數(shù)據(jù)標(biāo)識(shí)為lpsm)和有效載荷尺寸值,之后跟隨有效載荷(具有與如本文中所述的如表2所示的格式或者表2的變型所示的格式類似或相同的格式的lpsm數(shù)據(jù)))。
在某些實(shí)施例中,編碼比特流包括幀的序列,每個(gè)幀包括比特流信息(“bsi”)分段和auxdata域或時(shí)隙(如,編碼比特流是ac-3比特流或者e-ac-3比特流),其中,比特流信息(“bsi”)分段包括“addbsi”域(有時(shí)稱為分段或時(shí)隙),并且,每個(gè)幀包括音頻數(shù)據(jù)分段(如,圖4所示的幀的ab0-ab5分段)和元數(shù)據(jù)分段,其中,元數(shù)據(jù)分段表示音頻數(shù)據(jù),至少部分元數(shù)據(jù)分段的每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)(lpsm)。lpsm以以下格式存在于比特流中。包括lpsm的元數(shù)據(jù)分段中的每個(gè)被包括在比特流的幀的bsi分段的“addbsi”域中,或者被包括在比特流的幀的auxdata域中。比特流的幀可以包括一個(gè)或兩個(gè)元數(shù)據(jù)分段,每個(gè)元數(shù)據(jù)分段包括lpsm,并且,如果幀包括兩個(gè)元數(shù)據(jù)分段,則其中一個(gè)元數(shù)據(jù)分段存在于幀的addbsi域中,而另一個(gè)存在于幀的aux域中。包括lpsm的每個(gè)元數(shù)據(jù)分段包括具有以下格式的lpsm有效載荷(或容器)分段:
首部(通常包括至少一個(gè)標(biāo)識(shí)值,如以下表2中所示的lpsm格式版本、長(zhǎng)度、周期、計(jì)數(shù)和子流關(guān)聯(lián)值);以及
在首部之后的:
至少一個(gè)會(huì)話指示值(如,表2的參數(shù)“會(huì)話通道”),其指示相應(yīng)的音頻數(shù)據(jù)是指示會(huì)話還是不指示會(huì)話(如,相應(yīng)的音頻數(shù)據(jù)的哪個(gè)通道指示會(huì)話)。會(huì)話指示值可以指示會(huì)話是否存在于相應(yīng)的音頻數(shù)據(jù)的通道的任意組合或所有通道中;
至少一個(gè)響度調(diào)節(jié)相符值(如,表2的參數(shù)“響度調(diào)節(jié)類型”),其指示相應(yīng)的音頻數(shù)據(jù)是否與所指示的響度調(diào)節(jié)的集合相符;
至少一個(gè)響度處理值(如,表2的參數(shù)“會(huì)話選通的響度校正標(biāo)志”、“響度校正類型”中的一個(gè)或更多個(gè)),其指示已經(jīng)對(duì)相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及
至少一個(gè)響度值(如,表2的參數(shù)“itu相對(duì)選通的響度”、“itu語音選通的響度”、“itu(ebu3341)短期3s響度”和“真實(shí)峰值”中的一個(gè)或更多個(gè)),其指示相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)響度(如,峰值或者平均響度)特性。
在本發(fā)明的專注、使用或者生成表示相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)響度值的任意實(shí)施例中,響度值可以指示用于處理音頻數(shù)據(jù)的響度和/或動(dòng)態(tài)范圍的至少一個(gè)響度測(cè)量特性。
在一些實(shí)現(xiàn)中,比特流的幀的“addbsi”域或auxdata域中的每個(gè)元數(shù)據(jù)分段具有以下格式:
核心首部(通常包括標(biāo)識(shí)元數(shù)據(jù)分段的開始的同步字,其后跟隨標(biāo)識(shí)值,如以下表1中所示的核心元素版本、長(zhǎng)度和周期、擴(kuò)展元素計(jì)數(shù)以及子流關(guān)聯(lián)值);以及
在核心首部之后的至少一個(gè)保護(hù)值(如,hmac摘要和音頻指紋值,其中,hmac摘要可以是基于整個(gè)幀的音頻數(shù)據(jù)、核心元素和所有的擴(kuò)展元素計(jì)算的256比特的hmac摘要(使用sha-2算法),如表1所示,其用于響度處理狀態(tài)元數(shù)據(jù)或相應(yīng)的音頻數(shù)據(jù)中的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一個(gè));以及
如果元數(shù)據(jù)分段包括lpsm,則也在核心首部之后的lpsm有效載荷標(biāo)識(shí)(id)和lpsm有效載荷尺寸值,其將跟隨的元數(shù)據(jù)標(biāo)識(shí)為lpsm有效載荷并且指示lpsm有效載荷的尺寸。lpsm有效載荷分段(優(yōu)選地具有上述格式)跟隨lpsm有效載荷id和lpsm有效載荷尺寸值。
在以上段落中描述的類型的一些實(shí)施例中,幀的auxdata域(或者“addbsi”域)中的每個(gè)元數(shù)據(jù)分段具有三層結(jié)構(gòu):
高層結(jié)構(gòu),包括:指示auxdata(或addbsi)域是否包括元數(shù)據(jù)的標(biāo)志;指示存在的是什么類型的元數(shù)據(jù)的至少一個(gè)id值;以及通常還包括指示存在多少比特的元數(shù)據(jù)(如,每種類型的元數(shù)據(jù))的值(如果存在元數(shù)據(jù))??赡艽嬖诘囊环N類型的元數(shù)據(jù)是lpsm,可能存在的另一種類型的元數(shù)據(jù)是媒體研究元數(shù)據(jù)(如,尼爾森(nielsen)媒體研究元數(shù)據(jù));
中層結(jié)構(gòu),包括用于每個(gè)標(biāo)識(shí)的類型的元數(shù)據(jù)的核心元素(如,對(duì)于每種標(biāo)識(shí)的類型的元數(shù)據(jù)如上述類型的核心首部、保護(hù)值和有效載荷id以及有效載荷尺寸值);以及
低層結(jié)構(gòu),包括用于一個(gè)核心元素的每個(gè)有效載荷(如,如果核心元素將其標(biāo)識(shí)為存在,則是lpsm有效載荷,和/或,如果核心元素將其標(biāo)識(shí)為存在,則是另一種類型的元數(shù)據(jù)有效載荷)。
可以對(duì)在這樣的三層結(jié)構(gòu)中的數(shù)據(jù)值進(jìn)行嵌套。例如,可以在由核心元素標(biāo)識(shí)的有效載荷之后(從而在核心元素的核心首部之后),包括用于lpsm有效載荷和/或由核心元素標(biāo)識(shí)的另一元數(shù)據(jù)有效載荷的保護(hù)值。在一種示例中,核心首部可以標(biāo)識(shí)lpsm有效載荷與另一元數(shù)據(jù)有效載荷,用于第一有效載荷(如,lpsm有效載荷)的有效載荷id和有效載荷尺寸值可以跟隨核心首部,第一有效載荷本身可以跟隨該id和尺寸值,用于第二有效載荷的有效載荷id和有效載荷尺寸值可以跟隨第一有效載荷,第二有效載荷本身可以跟隨這些id和尺寸值,并且,兩種有效載荷之一或兩者(或者核心元素值和兩種有效載荷之一或兩者)的保護(hù)值可以跟隨最后的有效載荷。
在一些實(shí)施例中,幀的auxdata域(或“addbsi”域)中的元數(shù)據(jù)分段的核心元素包括核心首部(通常包括標(biāo)識(shí)值,如核心元素版本),并且在核心首部之后包括:指示指紋數(shù)據(jù)是否被包括用于元數(shù)據(jù)分段的元數(shù)據(jù)的值、指示是否存在外部數(shù)據(jù)(與對(duì)應(yīng)于元數(shù)據(jù)分段的元數(shù)據(jù)的音頻數(shù)據(jù)有關(guān))的值、由核心元素標(biāo)識(shí)的每種類型的元數(shù)據(jù)(如,lpsm和/或除了lpsm之外的類型的元數(shù)據(jù))的有效載荷id和有效載荷尺寸值、以及由核心元素標(biāo)識(shí)的至少一種類型的元數(shù)據(jù)的保護(hù)值。元數(shù)據(jù)分段的元數(shù)據(jù)有效載荷跟隨核心首部,并且(在一些情況下)被嵌套在核心元素的值內(nèi)。在另一優(yōu)選格式中,編碼比特流是杜比e比特流,并且,包括lpsm的元數(shù)據(jù)分段中的每個(gè)被包括在杜比e保護(hù)帶間隔的前n個(gè)樣本位置中。
在另一類型的實(shí)施例中,本發(fā)明是apu(如,解碼器),apu被耦接和配置來接收包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的編碼音頻比特流的,其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),并且至少部分元數(shù)據(jù)分段中的每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)(lpsm),并且apu被耦接和配置來從比特流中提取lpsm,響應(yīng)于音頻數(shù)據(jù)來生成解碼音頻數(shù)據(jù)、以及使用lpsm對(duì)音頻數(shù)據(jù)執(zhí)行至少一個(gè)自適應(yīng)響度處理操作。這種類型中的某些實(shí)施例還包括耦接至apu的后處理器,其中,后處理器被耦接和配置來使用lpsm對(duì)音頻數(shù)據(jù)執(zhí)行至少一個(gè)自適應(yīng)響度處理操作。
在另一類型的實(shí)施例中,本發(fā)明是包括緩沖存儲(chǔ)器(緩沖器)和耦接至緩沖器的處理子系統(tǒng)的音頻處理單元(apu)。其中,apu被耦接成接收包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的編碼音頻比特流,其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),并且至少部分元數(shù)據(jù)分段中的每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)(lpsm)、緩沖器(如,以非暫時(shí)性方式)存儲(chǔ)編碼音頻比特流的至少一個(gè)幀,并且處理子系統(tǒng)被配置成從比特流中提取lpsm以及使用lpsm對(duì)音頻數(shù)據(jù)執(zhí)行至少一個(gè)自適應(yīng)響度處理操作。在這種類型中的典型的實(shí)施例中,apu是編碼器、解碼器和后處理器中的一種。
在本發(fā)明的方法的一些實(shí)現(xiàn)中,所生成的音頻比特流是ac-3編碼比特流、e-ac-3比特流或者杜比e比特流中的一種,包括響度處理狀態(tài)元數(shù)據(jù)以及其他元數(shù)據(jù)(如,dialnorm元數(shù)據(jù)參數(shù)、動(dòng)態(tài)范圍控制元數(shù)據(jù)參數(shù)和其他元數(shù)據(jù)參數(shù))。在方法的一些其他實(shí)現(xiàn)中,所生成的音頻比特流是另一類型的編碼比特流。
本發(fā)明的各個(gè)方面包括被配置(或編程)成執(zhí)行本發(fā)明的方法的任意實(shí)施例的系統(tǒng)或裝置、以及(如,以非暫時(shí)性方式)存儲(chǔ)用于實(shí)現(xiàn)本發(fā)明的方法或其步驟的任意實(shí)施例的代碼的計(jì)算機(jī)可讀介質(zhì)(如,磁盤)。例如,本發(fā)明的系統(tǒng)可以是或者包括用軟件或固件編程的可編程通用處理器、數(shù)字信號(hào)處理器或微處理器,和/或被配置成執(zhí)行對(duì)數(shù)據(jù)的各種操作中的任意操作,包括發(fā)明的方法或其步驟的實(shí)施例。這樣的通用處理器可以是或者包括如下計(jì)算機(jī)系統(tǒng):其包括輸入裝置、存儲(chǔ)器和處理電路,其被編程為(和/或被配置成)響應(yīng)于向其傳送的數(shù)據(jù)來執(zhí)行本發(fā)明的方法(或步驟)的實(shí)施例。
附圖說明
圖1是可以被配置成執(zhí)行本發(fā)明的方法的實(shí)施例的系統(tǒng)的實(shí)施例的框圖;
圖2是作為本發(fā)明的音頻處理單元的實(shí)施例的編碼器的框圖;
圖3是作為本發(fā)明的音頻處理單元的實(shí)施例的解碼器以及作為本發(fā)明的音頻處理單元的另一實(shí)施例的與解碼器耦接的后處理器的框圖;
圖4是ac-3幀的圖,包括其被劃分成的分段;
圖5是ac-3幀的同步信息(si)分段的圖,包括其被劃分成的分段;
圖6是ac-3幀的比特流信息(bsi)分段的圖,包括其被劃分成的分段;以及
圖7是e-ac-3幀的圖,包括其被劃分成的分段。
符號(hào)和命名
貫穿本公開,包括在權(quán)利要求中,在廣義上使用“對(duì)”信號(hào)或數(shù)據(jù)執(zhí)行操作(如,對(duì)信號(hào)或數(shù)據(jù)進(jìn)行濾波、縮放、變換或施加增益)的表述來表示直接對(duì)信號(hào)或數(shù)據(jù)、或者對(duì)信號(hào)或數(shù)據(jù)的已處理版本(如,對(duì)在對(duì)其執(zhí)行該操作之前已經(jīng)經(jīng)歷了初步的濾波或預(yù)處理的信號(hào)的版本)執(zhí)行該操作。
貫穿本公開,包括在權(quán)利要求中,在廣義上使用表述“系統(tǒng)”來表示裝置、系統(tǒng)或子系統(tǒng)。例如,實(shí)現(xiàn)解碼器的子系統(tǒng)可以被稱為解碼器系統(tǒng),包括這樣的子系統(tǒng)的系統(tǒng)(如,響應(yīng)于多個(gè)輸入生成x個(gè)輸出信號(hào)的系統(tǒng),其中,子系統(tǒng)生成m個(gè)輸入,其他x-m個(gè)輸入從外部源來接收)也可以被稱為解碼器系統(tǒng)。
貫穿本公開,包括在權(quán)利要求中,在廣義上使用術(shù)語“處理器”來表示可編程或者否則可(利用軟件或固件)配置以對(duì)數(shù)據(jù)(如,音頻或視頻或其他圖像數(shù)據(jù))執(zhí)行操作的系統(tǒng)或裝置。處理器的示例包括現(xiàn)場(chǎng)可編程門陣列(或者其他可配置集成電路或芯片組)、被編程和/或否則被配置成對(duì)音頻或其他聲音數(shù)據(jù)執(zhí)行流水線處理的數(shù)字信號(hào)處理器、可編程通用處理器或計(jì)算機(jī)、以及可編程微處理器芯片或芯片組。
貫穿本公開,包括在權(quán)利要求中,表述“音頻處理器”和“音頻處理單元”被可交換地使用,并且在廣義上被用來表示被配置成處理音頻數(shù)據(jù)的系統(tǒng)。音頻處理單元的示例包括但不限于編碼器(如,轉(zhuǎn)碼器)、解碼器、編解碼器、預(yù)處理系統(tǒng)、后處理系統(tǒng)和比特流處理系統(tǒng)(有時(shí)被稱為比特流處理工具)。
貫穿本公開,包括在權(quán)利要求中,表述“處理狀態(tài)元數(shù)據(jù)”(如,在表述“響度處理狀態(tài)元數(shù)據(jù)”中)指與相應(yīng)的音頻數(shù)據(jù)(也包括處理狀態(tài)元數(shù)據(jù)在內(nèi)的音頻數(shù)據(jù)流的音頻內(nèi)容)分離的且不同的數(shù)據(jù)。處理狀態(tài)元數(shù)據(jù)與音頻數(shù)據(jù)相關(guān)聯(lián),指示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(如,已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行了什么類型的處理),并且通常還指示音頻數(shù)據(jù)的至少一個(gè)特征或特性。處理狀態(tài)元數(shù)據(jù)與音頻數(shù)據(jù)的關(guān)聯(lián)是時(shí)間同步的。因此,當(dāng)前(最近接收的或更新的)處理狀態(tài)元數(shù)據(jù)指示相應(yīng)的音頻數(shù)據(jù)同時(shí)包括指示類型的音頻數(shù)據(jù)處理的結(jié)果。在某些情況下,處理狀態(tài)元數(shù)據(jù)可以包括處理歷史和/或用在指示類型的處理中和/或根據(jù)指示類型的處理得到的參數(shù)中的一些或全部。附加地,處理狀態(tài)元數(shù)據(jù)可以包括相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)特征或特性,所述至少一個(gè)特征或特性已經(jīng)根據(jù)音頻數(shù)據(jù)計(jì)算出或從音頻數(shù)據(jù)中提取到。處理狀態(tài)元數(shù)據(jù)還可以包括不是與相應(yīng)的音頻數(shù)據(jù)的任意處理相關(guān)的或者不是從相應(yīng)的音頻數(shù)據(jù)的任意處理中得到的其他元數(shù)據(jù)。例如,可以通過具體的音頻處理單元來添加第三方數(shù)據(jù)、樂曲(tracking)信息、標(biāo)識(shí)符、專有權(quán)或標(biāo)準(zhǔn)信息、用戶注解數(shù)據(jù)、用戶偏好數(shù)據(jù)等,以傳遞給其他音頻處理單元。
貫穿本公開,包括在權(quán)利要求中,表述“響度處理狀態(tài)元數(shù)據(jù)”(或“l(fā)psm”)表示如下處理狀態(tài)元數(shù)據(jù):其表示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(如,已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行了什么類型的響度處理),并且通常還表示相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)特征或特性(如,響度)。響度處理狀態(tài)元數(shù)據(jù)可以包括不是(即,當(dāng)其被單獨(dú)考慮時(shí))響度處理狀態(tài)元數(shù)據(jù)的數(shù)據(jù)(如,其他元數(shù)據(jù))。
貫穿本公開,包括在權(quán)利要求中,使用術(shù)語“耦接(couples)”或“被耦接(coupled)”來表示直接連接或間接連接。因此,如果第一裝置耦接至第二裝置,則該連接可以是直接連接或者是通過其他裝置和連接實(shí)現(xiàn)的間接連接。
具體實(shí)施方式
根據(jù)本發(fā)明的典型的實(shí)施例,響度處理狀態(tài)元數(shù)據(jù)(lpsm)嵌入在音頻比特流的元數(shù)據(jù)分段的一個(gè)或多個(gè)保留的域(或時(shí)隙)中,該音頻比特流在其他分段(音頻數(shù)據(jù)分段)中也包括音頻數(shù)據(jù)。通常,比特流的每個(gè)幀的至少一個(gè)分段包括lpsm,該幀的至少一個(gè)其他分段包括相應(yīng)的音頻數(shù)據(jù)(即,由lpsm指示其響度處理狀態(tài)和響度的音頻數(shù)據(jù))。在一些實(shí)施例中,lpsm的數(shù)據(jù)量可以充分小以在不影響被分配用于承載音頻數(shù)據(jù)的比特速率的情況下被承載。
當(dāng)兩個(gè)或更多個(gè)音頻處理單元需要遍及處理鏈(或內(nèi)容生命周期)彼此串聯(lián)工作時(shí),在音頻數(shù)據(jù)處理鏈中傳送響度處理狀態(tài)元數(shù)據(jù)特別有用。在音頻比特流中不包括響度處理狀態(tài)元數(shù)據(jù)的情況下,例如,當(dāng)在鏈中使用兩個(gè)或更多個(gè)音頻編解碼器并且在比特流的至媒體消耗裝置(或者比特流的音頻內(nèi)容的渲染點(diǎn))的行程期間不止一次施加單端音量調(diào)節(jié)時(shí),可能出現(xiàn)嚴(yán)重的媒體處理問題,如質(zhì)量、電平和空間的降級(jí)。
圖1是示例性音頻處理鏈(音頻數(shù)據(jù)處理系統(tǒng))的框圖,其中,可以根據(jù)本發(fā)明的實(shí)施例配置系統(tǒng)的元件中的一個(gè)或更多個(gè)。該系統(tǒng)包括如所示出地那樣耦接在一起的以下元件:預(yù)處理單元、編碼器、信號(hào)分析和元數(shù)據(jù)校正單元、轉(zhuǎn)碼器、解碼器和預(yù)處理單元。在所示出的系統(tǒng)的變型中,省略了其中一個(gè)或多個(gè)元件,或者包括附加的音頻數(shù)據(jù)處理單元。
在一些實(shí)現(xiàn)中,圖1的預(yù)處理單元被配置成:接受包括音頻內(nèi)容在內(nèi)的pcm(時(shí)域)樣本作為輸入;以及輸出經(jīng)處理的pcm樣本。編碼器可以被配置成:接受pcm樣本作為輸入;以及輸出表示音頻內(nèi)容的編碼比特流(如,壓縮)音頻比特流。表示音頻內(nèi)容的比特流的數(shù)據(jù)有時(shí)在本文中被稱為“音頻數(shù)據(jù)”。如果編碼器根據(jù)本發(fā)明的典型的實(shí)施例來配置,則從編碼器輸出的音頻比特流包括響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))以及音頻數(shù)據(jù)。
圖1的信號(hào)分析和元數(shù)據(jù)校正單元可以接受一個(gè)或更多個(gè)編碼音頻比特流作為輸入,并且通過執(zhí)行信號(hào)分析來判定(如,驗(yàn)證)在每個(gè)編碼音頻比特流中的處理狀態(tài)元數(shù)據(jù)是否正確。如果信號(hào)分析和元數(shù)據(jù)校正單元發(fā)現(xiàn)所包括的元數(shù)據(jù)無效,則其通常用根據(jù)信號(hào)分析獲得的正確的值來替代錯(cuò)誤的值。因此,從信號(hào)分析和元數(shù)據(jù)校正單元輸出的每個(gè)編碼音頻比特流可以包括已校正(或未校正)處理狀態(tài)元數(shù)據(jù)以及編碼比特流音頻數(shù)據(jù)。
圖1的轉(zhuǎn)碼器可以接受編碼音頻比特流作為輸入,并且相應(yīng)地輸出已修改(如,不同地編碼的)音頻比特流(如,通過對(duì)輸入流進(jìn)行解碼并且以不同的編碼格式對(duì)解碼流進(jìn)行重新編碼)。如果轉(zhuǎn)碼器根據(jù)本發(fā)明的典型的實(shí)施例來配置,則從轉(zhuǎn)碼器輸出的音頻比特流包括響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))以及編碼比特流音頻數(shù)據(jù)。元數(shù)據(jù)已經(jīng)被包括在比特流中。
圖1的解碼器可以接受編碼(如,壓縮)音頻比特流作為輸入,并且(相應(yīng)地)輸出解碼pcm音頻樣本的流。如果解碼器根據(jù)本發(fā)明的典型的實(shí)施例來配置,則典型的操作中的解碼器的輸出是或者包括以下中的任一個(gè):
音頻樣本的流、以及從輸入編碼比特流中提取的響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))的相應(yīng)的流;或者
音頻樣本的流、以及根據(jù)從輸入編碼比特流中提取的響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))確定的相應(yīng)的控制比特的流;或者
在沒有處理狀態(tài)元數(shù)據(jù)或根據(jù)處理狀態(tài)元數(shù)據(jù)確定的控制比特的相應(yīng)的流的情況下的音頻樣本的流。在該最后的情況下,解碼器可以從輸入編碼比特流中提取響度處理狀態(tài)元數(shù)據(jù)(和/或其他元數(shù)據(jù)),以及對(duì)所提取的元數(shù)據(jù)執(zhí)行至少一次操作(如,驗(yàn)證),雖然其沒有輸出所提取的元數(shù)據(jù)或者根據(jù)其確定的控制比特。
通過根據(jù)本發(fā)明的典型的實(shí)施例來配置圖1的后處理單元,后處理單元被配置成接受解碼pcm音頻樣本的流,并且使用與樣本一起接收的響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))或者與樣本一起接收的控制比特(其由解碼器根據(jù)響度處理狀態(tài)元數(shù)據(jù)并且通常還根據(jù)其他元數(shù)據(jù)確定)來對(duì)其執(zhí)行后處理(即,音頻內(nèi)容的音量調(diào)節(jié))。后處理單元通常還被配置成對(duì)經(jīng)后處理的音頻內(nèi)容進(jìn)行渲染以由一個(gè)或更多個(gè)揚(yáng)聲器回放。
本發(fā)明的典型的實(shí)施例提供了增強(qiáng)型音頻處理鏈,其中,根據(jù)由通過音頻處理單元分別接收的響度處理狀態(tài)元數(shù)據(jù)指示的元數(shù)據(jù)的同時(shí)期的狀態(tài),音頻處理單元(如,編碼器、解碼器、轉(zhuǎn)碼器、預(yù)處理單元和后處理單元)適配待施加給音頻數(shù)據(jù)的它們的各個(gè)處理。
輸入到圖1的系統(tǒng)的任意音頻處理單元(如,圖1的編碼器或轉(zhuǎn)碼器)的音頻數(shù)據(jù)可以包括響度處理狀態(tài)元數(shù)據(jù)(還可選地包括其他元數(shù)據(jù))以及音頻數(shù)據(jù)(如,編碼音頻數(shù)據(jù))。根據(jù)本發(fā)明的實(shí)施例,該元數(shù)據(jù)可以已經(jīng)通過圖1的系統(tǒng)的另一元件(或者圖1中未示出的另一源)被包括在輸入音頻中。接收(具有元數(shù)據(jù)的)輸入音頻的處理單元可以被配置成對(duì)元數(shù)據(jù)執(zhí)行至少一個(gè)操作(如,驗(yàn)證)或者響應(yīng)于元數(shù)據(jù)執(zhí)行至少一個(gè)操作(如,對(duì)輸入音頻的自適應(yīng)處理),并且通常還被配置成在其輸出音頻中包括元數(shù)據(jù)、元數(shù)據(jù)的已處理版本或者根據(jù)元數(shù)據(jù)確定的控制比特。
本發(fā)明的音頻處理單元(或音頻處理器)的典型實(shí)施例被配置成基于由與音頻數(shù)據(jù)對(duì)應(yīng)的響度處理狀態(tài)元數(shù)據(jù)指示的音頻數(shù)據(jù)的狀態(tài)來執(zhí)行對(duì)音頻數(shù)據(jù)的自適應(yīng)處理。在一些實(shí)施例中,自適應(yīng)處理是(或者包括)響度處理(如果元數(shù)據(jù)指示還沒有對(duì)音頻數(shù)據(jù)執(zhí)行響度處理或者與其類似的處理),并且不是(或者不包括)響度處理(如果元數(shù)據(jù)指示已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行了這樣的響度處理或者與其類似的處理)。在一些實(shí)施例中,自適應(yīng)處理是或者包括元數(shù)據(jù)驗(yàn)證(如,在元數(shù)據(jù)驗(yàn)證子單元中執(zhí)行的元數(shù)據(jù)驗(yàn)證),以確保音頻處理單元基于由響度處理狀態(tài)元數(shù)據(jù)指示的音頻數(shù)據(jù)的狀態(tài)來執(zhí)行對(duì)音頻數(shù)據(jù)的其他自適應(yīng)處理。在一些實(shí)施例中,驗(yàn)證判定與該音頻數(shù)據(jù)相關(guān)聯(lián)(如,包括在具有該音頻數(shù)據(jù)的比特流中)的響度處理狀態(tài)元數(shù)據(jù)的可靠性。例如,如果元數(shù)據(jù)被驗(yàn)證為可靠,則可以重復(fù)使用來自某種類型的事先執(zhí)行的音頻處理的結(jié)果,并且可以避免同一類型的音頻處理的新的執(zhí)行。另一方面,如果發(fā)現(xiàn)元數(shù)據(jù)已經(jīng)被篡改(或者不可靠),則可以由音頻處理單元來重復(fù)據(jù)稱事先被執(zhí)行的這種類型的媒體處理(如不可靠的元數(shù)據(jù)指示的那樣),和/或可以由音頻處理單元對(duì)元數(shù)據(jù)和/或音頻數(shù)據(jù)執(zhí)行其他處理。音頻處理單元還可以被配置成如果音頻處理單元判定處理狀態(tài)元數(shù)據(jù)有效(如,基于所提取的密碼值與參考密碼值的匹配),則向增強(qiáng)型媒體處理鏈中的下游的其他音頻處理單元示意響度處理狀態(tài)元數(shù)據(jù)(如,存在于媒體比特流中的響度處理狀態(tài)元數(shù)據(jù))是有效的。
圖2是作為本發(fā)明的音頻處理單元的實(shí)施例的編碼器(100)的框圖。編碼器100的任意部件或元件都可以用硬件、軟件或硬件與軟件的組合實(shí)現(xiàn)為一個(gè)或更多個(gè)處理和/或一個(gè)或更多個(gè)電路(如,asic、fpga或其他集成電路)。編碼器100包括如所示地連接的幀緩沖器110、解析器111、解碼器101、音頻狀態(tài)驗(yàn)證器102、響度處理級(jí)103、音頻流選擇級(jí)104、編碼器105、填充器/格式器級(jí)107、元數(shù)據(jù)生成級(jí)106、會(huì)話響度測(cè)量子系統(tǒng)108和幀緩沖器109。通常,編碼器100還包括其他處理元件(未示出)。
編碼器100(作為轉(zhuǎn)碼器)被配置成通過使用輸入比特流中所包括的響度處理狀態(tài)元數(shù)據(jù)執(zhí)行自適應(yīng)和自動(dòng)響度處理,來將輸入音頻比特流(例如,可以是ac-3比特流、e-ac-3比特流或杜比e比特流中的一種)轉(zhuǎn)換成包括響度處理狀態(tài)元數(shù)據(jù)的編碼輸出音頻比特流(例如,可以是ac-3比特流、e-ac-3比特流或杜比e比特流中的另一種)。例如,編碼器100可以被配置成將輸入的杜比e比特流(通常用在制作和廣播設(shè)施而非接收已經(jīng)向其廣播的音頻節(jié)目的消費(fèi)者裝置中的格式)轉(zhuǎn)換成ac-3或e-ac-3格式的編碼輸出音頻比特流(適于廣播給用戶裝置)。
圖2的系統(tǒng)還包括編碼音頻遞送子系統(tǒng)150(其存儲(chǔ)和/或遞送從編碼器100輸出的編碼比特流)和解碼器152。從編碼器100輸出的編碼音頻比特流可以由子系統(tǒng)150來存儲(chǔ)(如,以dvd或藍(lán)光光盤的形式)、或者由子系統(tǒng)150來發(fā)送(其可以實(shí)現(xiàn)發(fā)送鏈路或網(wǎng)絡(luò))、或者可以由子系統(tǒng)150來存儲(chǔ)和發(fā)送。解碼器152被配置成通過從比特流的每個(gè)幀中提取響度處理狀態(tài)元數(shù)據(jù)(lpsm)、以及生成解碼音頻數(shù)據(jù),來對(duì)其通過子系統(tǒng)150接收的(由編碼器100生成的)包括響度處理狀態(tài)元數(shù)據(jù)的編碼音頻比特流進(jìn)行解碼。通常,解碼器152被配置成使用lpsm對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理,和/或?qū)⒔獯a音頻數(shù)據(jù)和lpsm轉(zhuǎn)發(fā)給后處理器,后處理器被配置成使用lpsm對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。通常,解碼器152包括用于(如,以非暫時(shí)性方式)存儲(chǔ)從子系統(tǒng)150接收的編碼音頻比特流的緩沖器。
編碼器100和解碼器152的各種實(shí)現(xiàn)可以被配置成執(zhí)行本發(fā)明的方法的不同的實(shí)施例。
幀緩沖器110是被耦接成接收編碼輸入音頻比特流的緩沖存儲(chǔ)器。在操作中,緩沖器110(如,以非暫時(shí)性方式)存儲(chǔ)編碼音頻比特流的至少一個(gè)幀,并且,編碼音頻比特流的幀的序列被從緩沖器110向解析器111傳送(assert)。
解析器111被耦接和配置來從編碼輸入音頻的每個(gè)幀中提取響度處理狀態(tài)元數(shù)據(jù)(lpsm)和其他元數(shù)據(jù),以向音頻狀態(tài)驗(yàn)證器102、響度處理級(jí)103、級(jí)106和子系統(tǒng)108傳送至少lpsm,以從編碼輸入音頻中提取音頻數(shù)據(jù),以及以向解碼器101傳送音頻數(shù)據(jù)。編碼器100的解碼器101被配置成對(duì)音頻數(shù)據(jù)進(jìn)行解碼以生成解碼音頻數(shù)據(jù),以及向響度處理級(jí)103、音頻流選擇級(jí)104、子系統(tǒng)108以及通常也向狀態(tài)驗(yàn)證器102傳送解碼音頻數(shù)據(jù)。
狀態(tài)驗(yàn)證器102被配置成對(duì)向其傳送的lpsm(通常還有其他元數(shù)據(jù))進(jìn)行認(rèn)證和驗(yàn)證。在一些實(shí)施例中,lpsm是已經(jīng)被包括在(如,根據(jù)本發(fā)明的實(shí)施例的)輸入比特流中的數(shù)據(jù)塊(或者被包括在已經(jīng)被包括在輸入比特流中的數(shù)據(jù)塊中)。該塊可以包括用于處理lpsm(以及可選地還有其他元數(shù)據(jù))和/或潛在的(從解碼器101提供給驗(yàn)證器102的)音頻數(shù)據(jù)的加密散列(基于散列的消息認(rèn)證代碼或“hmac”)。該數(shù)據(jù)塊在這些實(shí)施例中可以以數(shù)字形式標(biāo)記,使得下游音頻處理單元可以相對(duì)容易地認(rèn)證和驗(yàn)證處理狀態(tài)元數(shù)據(jù)。
例如,使用hmac來生成摘要(digest),并且,包括在本發(fā)明的比特流中的保護(hù)值可以包括摘要??梢匀缦箩槍?duì)ac-3幀生成摘要:
1.在ac-3數(shù)據(jù)和lpsm被編碼之后,使用幀數(shù)據(jù)字節(jié)(級(jí)聯(lián)的frame_data#1和frame_data#2)和lpsm數(shù)據(jù)字節(jié)作為用于散列函數(shù)hmac的輸入。在計(jì)算摘要時(shí)不考慮可能存在于auxdata域中的其他數(shù)據(jù)。這樣的其他數(shù)據(jù)可以是既不屬于ac-3數(shù)據(jù)也不屬于lspsm數(shù)據(jù)的字節(jié)??梢栽谟?jì)算hmac摘要時(shí)不考慮lpsm中所包括的保護(hù)比特。
2.在計(jì)算摘要之后,將其寫入被保留用于保護(hù)比特的域中的比特流中。
3.完整的ac-3幀的生成的最后的步驟是計(jì)算crc校驗(yàn)。其被寫在幀的最末端,并且,將屬于該幀的所有的數(shù)據(jù)都考慮在內(nèi),包括lpsm比特。
可以將包括但不限于一種或更多種非hmac加密方法中的任一種的其他加密算法用于lpsm的驗(yàn)證(如,在驗(yàn)證器102中),以確保對(duì)于lpsm和/或潛在的音頻數(shù)據(jù)的安全的發(fā)送和接收。例如,可以在接收本發(fā)明的音頻比特流的實(shí)施例的每個(gè)音頻處理單元中執(zhí)行驗(yàn)證(使用這樣的加密方法的驗(yàn)證),以判定包括在比特流中的響度處理狀態(tài)元數(shù)據(jù)和相應(yīng)的音頻數(shù)據(jù)是否已經(jīng)經(jīng)歷了(由元數(shù)據(jù)指示的)特定的響度處理(和/或是否已經(jīng)從特定的響度處理得到)以及是否在這樣的特定的響度處理執(zhí)行之后尚未被修改。
狀態(tài)驗(yàn)證器102向音頻流選擇級(jí)104、元數(shù)據(jù)生成器106和會(huì)話響度測(cè)量子系統(tǒng)108傳送控制數(shù)據(jù),以指示驗(yàn)證操作的結(jié)果。響應(yīng)于控制數(shù)據(jù),級(jí)104可以選擇以下中的任一項(xiàng)(并且將其傳送給編碼器105):
響度處理級(jí)103的經(jīng)自適應(yīng)處理的輸出(如,當(dāng)lpsm指示從解碼器101輸出的音頻數(shù)據(jù)尚未經(jīng)歷特定類型的響度處理,并且來自驗(yàn)證器102的控制比特指示lpsm有效時(shí));或者
從解碼器101輸出的音頻數(shù)據(jù)(如,當(dāng)lpsm指示從解碼器101輸出的音頻數(shù)據(jù)已經(jīng)經(jīng)歷了可以由級(jí)103來執(zhí)行的特定類型的響度處理,并且來自驗(yàn)證器102的控制比特指示lpsm有效時(shí))。
編碼器100的級(jí)103被配置成基于由解碼器101提取的lpsm所指示的一個(gè)或更多個(gè)音頻數(shù)據(jù)特性,對(duì)從解碼器101輸出的解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。級(jí)103可以是自適應(yīng)變換域?qū)崟r(shí)響度和動(dòng)態(tài)范圍控制處理器。級(jí)103可以接收用戶輸入(如,用戶目標(biāo)響度/動(dòng)態(tài)范圍值或dialnorm值)、或者其他元數(shù)據(jù)輸入(如,一種或多種類型的第三方數(shù)據(jù)、樂曲信息、標(biāo)識(shí)符、專有權(quán)或標(biāo)準(zhǔn)信息、用戶注解數(shù)據(jù)、用戶偏好數(shù)據(jù)等)和/或其他輸入(如,來自指紋處理的其他輸入),并且使用這樣的輸入來對(duì)從解碼器101輸出的解碼音頻數(shù)據(jù)進(jìn)行處理。
當(dāng)來自驗(yàn)證器102的控制比特指示lpsm無效時(shí),會(huì)話響度測(cè)量子系統(tǒng)108可以操作以使用如由解碼器101提取的lpsm(和/或其他元數(shù)據(jù))來確定指示會(huì)話(或其他語音)的解碼音頻(來自解碼器101)的分段的響度。當(dāng)來自驗(yàn)證器102的控制比特指示lpsm有效時(shí)當(dāng)lpsm指示之前確定的解碼音頻(來自解碼器101)的會(huì)話(或其他語音)分段的響度時(shí),可以禁止會(huì)話響度測(cè)量子系統(tǒng)108的操作。
存在有用的工具(如,杜比lm100響度儀表),用于方便且容易地測(cè)量音頻內(nèi)容中的會(huì)話的電平。本發(fā)明的apu(如,編碼器100的級(jí)108)的一些實(shí)施例被實(shí)現(xiàn)為包括這樣的工具(或執(zhí)行這樣的工具的功能)以測(cè)量音頻比特流的音頻內(nèi)容的平均會(huì)話響度(如,從編碼器100的解碼器101向級(jí)108傳送的解碼ac-3比特流)。
如果級(jí)108被實(shí)現(xiàn)為測(cè)量音頻數(shù)據(jù)的真實(shí)的平均會(huì)話響度,則測(cè)量可以包括步驟:隔離音頻內(nèi)容的主要包含語音的分段。接著,根據(jù)響度測(cè)量算法對(duì)主要為語音的音頻分段進(jìn)行處理。對(duì)于從ac-3比特流解碼的音頻數(shù)據(jù),該算法可以是標(biāo)準(zhǔn)的k加權(quán)的響度測(cè)量(根據(jù)國(guó)際標(biāo)準(zhǔn)itu-rbs.1770)??商孢x地,可以使用其他響度測(cè)量(如,基于響度的心理聲學(xué)模型的響度測(cè)量)。
語音分段的隔離對(duì)于測(cè)量音頻數(shù)據(jù)的平均會(huì)話響度而言并不是至關(guān)重要的。然而,從傾聽者的角度來說,其提高了測(cè)量的精度并且通常提供更令人滿意的結(jié)果。由于并非所有的音頻內(nèi)容都包含會(huì)話(語音),所以整個(gè)音頻內(nèi)容的響度測(cè)量可以提供對(duì)音頻的會(huì)話電平的充分的近似,如果語音出現(xiàn)的話。
元數(shù)據(jù)生成器106生成要被級(jí)107包括在編碼比特流中以從編碼器100輸出的元數(shù)據(jù)。元數(shù)據(jù)生成器106可以將由解碼器101提取的lpsm(和/或其他元數(shù)據(jù))傳遞給級(jí)107(如,當(dāng)來自驗(yàn)證器102的控制比特指示lpsm和/或其他元數(shù)據(jù)有效時(shí)),或者生成新的lpsm(和/或其他元數(shù)據(jù))并且向級(jí)107傳送新的元數(shù)據(jù)(如,當(dāng)來自驗(yàn)證器102的控制比特指示由解碼器101提取的lpsm和/或其他元數(shù)據(jù)無效時(shí)),或者其可以向級(jí)107傳送由解碼器101提取的元數(shù)據(jù)與新生成的元數(shù)據(jù)的組合。元數(shù)據(jù)生成器106可以在其向級(jí)107傳送的lpsm中包括由子系統(tǒng)108生成的響度數(shù)據(jù)以及表示由子系統(tǒng)108執(zhí)行的響度處理的類型的至少一個(gè)值,以包括在要從編碼器100輸出的編碼比特流中。
元數(shù)據(jù)生成器106可以生成保護(hù)比特(其可以包括基于散列的消息認(rèn)證代碼或“hmac”或者由基于散列的消息認(rèn)證代碼或“hmac”構(gòu)成),保護(hù)比特對(duì)于要被包括在編碼比特流中的lpsm(可選地還有其他元數(shù)據(jù))和/或要被包括在編碼比特流中的潛在的音頻數(shù)據(jù)的解密、認(rèn)證或驗(yàn)證中的至少一個(gè)而言是很有用的。元數(shù)據(jù)生成器106可以向級(jí)107提供這樣的保護(hù)比特,以包括在編碼比特流中。
在典型的操作中,會(huì)話響度測(cè)量子系統(tǒng)108對(duì)從解碼器101輸出的音頻數(shù)據(jù)進(jìn)行處理以響應(yīng)于其生成響度值(如,選通和未選通會(huì)話響度值)以及動(dòng)態(tài)范圍值。響應(yīng)于這些值,元數(shù)據(jù)生成器106可以生成響度處理狀態(tài)元數(shù)據(jù)(lpsm),以(由填充器/格式器107)包括在要從編碼器100輸出的編碼比特流中。
附加地,可選地,或者可替選地,編碼器100的子系統(tǒng)106和/或108可以執(zhí)行對(duì)音頻數(shù)據(jù)的附加分析以生成表示音頻數(shù)據(jù)的至少一個(gè)特性的元數(shù)據(jù),以包括在要從級(jí)107輸出的編碼比特流中。
編碼器105對(duì)從選擇級(jí)104輸出的音頻數(shù)據(jù)進(jìn)行編碼(如,通過對(duì)其執(zhí)行壓縮),并且向級(jí)107傳送編碼音頻,以包括在要從級(jí)107輸出的編碼比特流中。
級(jí)107對(duì)來自編碼器105的編碼音頻和來自生成器106的元數(shù)據(jù)(包括lpsm)進(jìn)行復(fù)用以生成要從級(jí)107輸出的編碼比特流,優(yōu)選地使得編碼比特流具有本發(fā)明的優(yōu)選實(shí)施例指定的格式。
幀緩沖器109是(如,以非暫時(shí)性方式)存儲(chǔ)從級(jí)107輸出的編碼音頻比特流的至少一個(gè)幀的緩沖存儲(chǔ)器,接著,編碼音頻比特流的幀的序列作為來自編碼器100的輸出從緩沖器109向遞送系統(tǒng)150傳送。
由元數(shù)據(jù)生成器106生成的并且由級(jí)107包括在編碼比特流中的lpsm表示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(如,已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行了什么類型的響度處理)以及相應(yīng)的音頻數(shù)據(jù)的響度(如,測(cè)量的會(huì)話響度、選通的和/或未選通的響度、和/或動(dòng)態(tài)范圍)。
本文中,對(duì)音頻數(shù)據(jù)執(zhí)行的響度和/或電平測(cè)量的“選通(gating)”指超過閾值的計(jì)算值被包括在最終的測(cè)量中的情況下的具體的電平或響度閾值(如,在最終的測(cè)量值中忽略低于-60dbfs的短期響度值)。絕對(duì)值的選通指固定的電平或響度,而相對(duì)值的選通指取決于當(dāng)前“非選通(ungated)”測(cè)量值的值。
在編碼器100的一些實(shí)現(xiàn)中,被緩沖在存儲(chǔ)器109中(并且被輸出給遞送系統(tǒng)150)的編碼比特流是ac-3比特流或e-ac-3比特流,并且包括音頻數(shù)據(jù)分段(如,圖4所示的幀的ab0至ab5分段)和元數(shù)據(jù)分段,其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),至少部分元數(shù)據(jù)分段中的每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)(lpsm)。級(jí)107按以下格式將lpsm插入比特流中。包括lpsm的元數(shù)據(jù)分段中的每個(gè)被包括在比特流的幀的比特流信息(“bsi”)分段的“addbsi”域中,或者被包括在比特流的幀的端部處的auxdata域(如,圖4所示的aux分段)中。比特流的幀可以包括一個(gè)或兩個(gè)元數(shù)據(jù)分段,其中每個(gè)包括lpsm,并且,如果幀包括兩個(gè)元數(shù)據(jù)分段,則其中一個(gè)存在于幀的addbsi域中,而另一個(gè)存在于幀的aux域中。包括lpsm的每個(gè)元數(shù)據(jù)分段包括具有以下格式的lpsm有效載荷(或容器)分段:
首部(通常包括標(biāo)識(shí)lpsm有效載荷的開始的同步字,其后跟隨至少一個(gè)標(biāo)識(shí)值,如下面的表2所示的lpsm格式版本、長(zhǎng)度、周期、計(jì)數(shù)和子流關(guān)聯(lián)值);以及
在首部之后,
至少一個(gè)會(huì)話指示值(如,表2的參數(shù)“會(huì)話通道”),其指示相應(yīng)的音頻數(shù)據(jù)是指示會(huì)話還是不指示會(huì)話(如,相應(yīng)的音頻數(shù)據(jù)的哪個(gè)通道指示會(huì)話);
至少一個(gè)響度調(diào)節(jié)相符值(如,表2的參數(shù)“響度調(diào)節(jié)類型”),其指示相應(yīng)的音頻數(shù)據(jù)是否與所指示的響度調(diào)節(jié)的集合相符;
至少一個(gè)響度處理值(如,表2的參數(shù)“會(huì)話選通的響度校正標(biāo)志”、“響度校正類型”中的一個(gè)或更多個(gè)),其表示已經(jīng)對(duì)相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及
至少一個(gè)響度值(如,表2的參數(shù)“itu相對(duì)選通的響度”、“itu語音選通的響度”、“itu(ebu3341)短期3s響度”和“真實(shí)峰值”中的一個(gè)或更多個(gè)),其表示相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)響度(如,峰值或者平均響度)特性。
在一些實(shí)施方式中,由級(jí)107插入到比特流的幀的“addbsi”域或者auxdata域中的元數(shù)據(jù)分段中的每個(gè)具有以下格式:
核心首部(通常包括標(biāo)識(shí)元數(shù)據(jù)分段的開始的同步字,其后跟隨標(biāo)識(shí)值,如下面的表1中所示的核心元素版本、長(zhǎng)度和周期、擴(kuò)展元素計(jì)數(shù)以及子流關(guān)聯(lián)值);以及
在核心首部之后的至少一個(gè)保護(hù)值(如,表1的hmac摘要和音頻指紋值,其對(duì)于響度處理狀態(tài)元數(shù)據(jù)或相應(yīng)的音頻數(shù)據(jù)中的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一個(gè)而言是很有用的);以及
如果元數(shù)據(jù)分段包括lpsm,則也在核心首部之后的lpsm有效載荷標(biāo)識(shí)(id)和lpsm有效載荷尺寸值,其將跟隨的元數(shù)據(jù)標(biāo)識(shí)為lpsm有效載荷并且指示lpsm有效載荷的尺寸。
(優(yōu)選地具有上述格式的)lpsm有效載荷(或容器)分段跟隨lpsm有效載荷id和lpsm有效載荷尺寸值。
在一些實(shí)施例中,幀的auxdata域(或“addbsi”域)中的每個(gè)元數(shù)據(jù)分段具有三層結(jié)構(gòu):
高層結(jié)構(gòu),包括:表示auxdata(或addbsi)域是否包括元數(shù)據(jù)的標(biāo)志;指示存在的是什么類型的元數(shù)據(jù)的至少一個(gè)id值;以及通常還包括指示存在了多少比特的元數(shù)據(jù)(如,每種類型的元數(shù)據(jù))的值(如果存在元數(shù)據(jù))??赡艽嬖诘囊环N類型的元數(shù)據(jù)是lpsm,可能存在的另一種類型的元數(shù)據(jù)是媒體研究元數(shù)據(jù)(如,nielsen媒體研究元數(shù)據(jù));
中層結(jié)構(gòu),包括用于每個(gè)標(biāo)識(shí)的類型的元數(shù)據(jù)的核心元素(如,對(duì)于每種標(biāo)識(shí)的類型的元數(shù)據(jù)如上述類型的核心首部、保護(hù)值和lpsm有效載荷id以及有效載荷尺寸值);以及
低層結(jié)構(gòu),包括用于一個(gè)核心元素的每個(gè)有效載荷(如,如果核心元素將其標(biāo)識(shí)為存在,則是lpsm有效載荷,和/或,如果核心元素將其標(biāo)識(shí)為存在,則是另一種類型的元數(shù)據(jù)有效載荷)。
可以對(duì)在這樣的三層結(jié)構(gòu)中的數(shù)據(jù)值進(jìn)行嵌套。例如,可以在由核心元素標(biāo)識(shí)的有效載荷之后(從而在核心元素的核心首部之后),包括用于lpsm有效載荷和/或由核心元素標(biāo)識(shí)的另一元數(shù)據(jù)有效載荷的保護(hù)值。在一種示例中,核心首部可以標(biāo)識(shí)lpsm有效載荷與另一元數(shù)據(jù)有效載荷,用于第一有效載荷(如,lpsm有效載荷)的有效載荷id和有效載荷尺寸值可以跟隨核心首部,第一有效載荷本身可以跟隨該id和尺寸值,用于第二有效載荷的有效載荷id和有效載荷尺寸值可以跟隨第一有效載荷,第二有效載荷本身可以跟隨這些id和尺寸值,并且,兩種有效載荷(或者核心元素值和兩種有效載荷)的保護(hù)值可以跟隨最后的有效載荷。
在一些實(shí)施例中,如果解碼器101接收具有加密散列的根據(jù)本發(fā)明的實(shí)施例生成的音頻比特流,則解碼器被配置成從根據(jù)比特流確定的數(shù)據(jù)塊中解析并取回加密散列,上述塊包括響度處理狀態(tài)元數(shù)據(jù)(lpsm)。驗(yàn)證器102可以使用加密散列來驗(yàn)證所接收的比特流和/或相關(guān)聯(lián)的元數(shù)據(jù)。例如,驗(yàn)證器102基于參考加密散列與從數(shù)據(jù)塊中取回的加密散列之間的匹配發(fā)現(xiàn)lpsm是有效的,則其可以禁止處理器103對(duì)于相應(yīng)的音頻數(shù)據(jù)的操作并且使得選擇級(jí)104通過(未改變的)音頻數(shù)據(jù)。附加地,可選地,或者可替選地,可以使用其他類型的加密技術(shù)來替代基于加密散列的方法。
圖2的編碼器100可以判定(響應(yīng)于由解碼器101提取的lpsm)后處理/預(yù)處理單元已經(jīng)對(duì)要被編碼的音頻數(shù)據(jù)執(zhí)行了某種類型的響度處理(在元件105、106和107中),因此可以產(chǎn)生(在生成器106中)響度處理狀態(tài)元數(shù)據(jù),該響度處理狀態(tài)元數(shù)據(jù)包括用于事先執(zhí)行的響度處理和/或從事先執(zhí)行的響度處理中提取的具體的參數(shù)。在一些實(shí)現(xiàn)中,編碼器100可以產(chǎn)生(并且在從其輸出的編碼比特流中包括)表示對(duì)音頻內(nèi)容的處理歷史的處理狀態(tài)元數(shù)據(jù),只要編碼器知曉已經(jīng)對(duì)音頻內(nèi)容執(zhí)行的處理的類型。
圖3是作為本發(fā)明的音頻處理單元的實(shí)施例的解碼器(200)的框圖、以及耦接至編碼器200的后處理器(300)的框圖。后處理器(300)也是本發(fā)明的音頻處理單元的實(shí)施例。解碼器200和后處理器300的任意部件或元件都可以用硬件、軟件或硬件與軟件的組合實(shí)現(xiàn)為一個(gè)或更多個(gè)處理和/或一個(gè)或更多個(gè)電路(如,asic、fpga或其他集成電路)。解碼器200包括如所示地連接的幀緩沖器210、解析器205、音頻解碼器202、音頻狀態(tài)驗(yàn)證級(jí)(驗(yàn)證器)203和控制比特生成級(jí)204。通常,解碼器200還包括其他處理元件(未示出)。
幀緩沖器201(緩沖存儲(chǔ)器)(以非暫時(shí)性方式)存儲(chǔ)由解碼器200接收的編碼音頻比特流的至少一個(gè)幀。從緩沖器201向解析器205傳送編碼音頻比特流的幀的序列。
解析器205被耦接和配置來從編碼輸入音頻的每個(gè)幀中提取響度處理狀態(tài)元數(shù)據(jù)(lpsm)和其他元數(shù)據(jù)、向音頻狀態(tài)驗(yàn)證器203和級(jí)204傳送至少lpsm、將lpsm作為輸出(如,給后處理器300的輸出)傳送、從編碼輸入音頻中提取音頻數(shù)據(jù)、以及向解碼器202傳送所提取的音頻數(shù)據(jù)。
輸入給解碼器200的編碼音頻比特流可以是ac-3比特流、e-ac-3比特流或杜比e比特流中的一種。
圖3的系統(tǒng)還包括后處理器300。后處理器300包括幀緩沖器301和其他處理元件(未示出),包括耦接至緩沖器301的至少一個(gè)處理元件。幀緩沖器301(如,以非暫時(shí)性方式)存儲(chǔ)由后處理器300從解碼器200接收的解碼音頻比特流的至少一個(gè)幀。后處理器300的處理元件被耦接和配置來使用從解碼器202輸出的元數(shù)據(jù)(包括lpsm值)和/或從解碼器200的級(jí)204輸出的控制比特,來接收并且自適應(yīng)地處理從緩沖器301輸出的解碼音頻比特流的幀的序列。通常,后處理器300被配置成(如,基于由lpsm指示的響度處理狀態(tài)和/或一個(gè)或更多個(gè)音頻數(shù)據(jù)特性)使用lpsm值來對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。
解碼器200和后處理器300的各種實(shí)現(xiàn)都被配置成執(zhí)行本發(fā)明的方法的不同的實(shí)施例。
解碼器200的音頻解碼器202被配置成對(duì)由解析器205提取的音頻數(shù)據(jù)進(jìn)行解碼以生成解碼音頻數(shù)據(jù),并且被配置成將解碼音頻數(shù)據(jù)作為輸出(如,至后處理器300的輸出)傳送。
狀態(tài)驗(yàn)證器203被配置成對(duì)向其傳送的lpsm(通常還有其他元數(shù)據(jù))進(jìn)行認(rèn)證和驗(yàn)證。在一些實(shí)施例中,lpsm是已經(jīng)被包括在(如,根據(jù)本發(fā)明的實(shí)施例的)輸入比特流中的數(shù)據(jù)塊(或者被包括在已經(jīng)被包括在輸入比特流中的數(shù)據(jù)塊中)。該塊可以包括用于處理lpsm(以及可選地還處理其他元數(shù)據(jù))和/或潛在的音頻數(shù)據(jù)(從解析器205和/或解碼器202提供給驗(yàn)證器203)的加密散列(基于散列的消息認(rèn)證代碼或“hmac”)。該數(shù)據(jù)塊在這些實(shí)施例中可以用數(shù)字標(biāo)記,使得下游音頻處理單元可以相對(duì)容易地認(rèn)證和驗(yàn)證處理狀態(tài)元數(shù)據(jù)。
可以將包括但不限于一種或更多種非hmac加密方法中的任一種的其他加密算法用于lpsm的驗(yàn)證(如,在驗(yàn)證器203中),以確保對(duì)于lpsm和/或潛在的音頻數(shù)據(jù)的安全的發(fā)送和接收。例如,可以在接收本發(fā)明的音頻比特流的實(shí)施例的每個(gè)音頻處理單元中執(zhí)行驗(yàn)證(使用這樣的加密方法的驗(yàn)證),以判定包括在比特流中的響度處理狀態(tài)元數(shù)據(jù)和相應(yīng)的音頻數(shù)據(jù)是否已經(jīng)經(jīng)歷了(由元數(shù)據(jù)指示的)特定的響度處理(和/或是否已經(jīng)從特定的響度處理得到)以及是否在這樣的特定的響度處理執(zhí)行之后尚未被修改。
狀態(tài)驗(yàn)證器203向控制比特生成器204傳送控制數(shù)據(jù),和/或傳送控制數(shù)據(jù)作為輸出(如,至后處理器300的輸出),以指示驗(yàn)證操作的結(jié)果。響應(yīng)于控制數(shù)據(jù)(以及可選地也響應(yīng)于從輸入比特流中提取的其他元數(shù)據(jù)),級(jí)204可以生成以下中的任一項(xiàng)(并且將其傳送給后處理器300):
指示從解碼器202輸出的解碼音頻數(shù)據(jù)已經(jīng)經(jīng)歷了特定類型的響度處理的控制比特(當(dāng)lpsm指示從解碼器202輸出的音頻數(shù)據(jù)已經(jīng)經(jīng)歷了特定類型的響度處理,并且來自驗(yàn)證器203的控制比特指示lpsm有效時(shí));或者
指示從解碼器202輸出的解碼音頻數(shù)據(jù)應(yīng)當(dāng)經(jīng)歷特定類型的響度處理的控制比特(如,當(dāng)lpsm指示從解碼器202輸出的音頻數(shù)據(jù)尚未經(jīng)歷特定類型的響度處理時(shí),或者當(dāng)lpsm指示從解碼器202輸出的音頻數(shù)據(jù)已經(jīng)經(jīng)歷了特定類型的響度處理而來自驗(yàn)證器203的控制比特指示lpsm無效時(shí))。
可替選地,解碼器200向后處理器300傳送由解碼器202從輸入比特流中提取的lpsm(以及任意其他元數(shù)據(jù)),并且,后處理器300使用lpsm對(duì)解碼音頻數(shù)據(jù)執(zhí)行響度處理,或者執(zhí)行l(wèi)psm的驗(yàn)證,接著,如果驗(yàn)證指示lpsm有效,則使用lpsm對(duì)解碼音頻數(shù)據(jù)執(zhí)行響度處理。
在一些實(shí)施例中,如果解碼器201來接收具有加密散列的根據(jù)本發(fā)明的實(shí)施例生成的音頻比特流,則解碼器被配置成從根據(jù)比特流確定的數(shù)據(jù)塊來解析和取回加密散列,上述塊包括響度處理狀態(tài)元數(shù)據(jù)(lpsm)。驗(yàn)證器203可以使用加密散列來驗(yàn)證所接收的比特流和/或相關(guān)聯(lián)的元數(shù)據(jù)。例如,如果驗(yàn)證器203基于參考加密散列與從數(shù)據(jù)塊中取回的加密散列之間的匹配發(fā)現(xiàn)lpsm是有效的,則其可以向下游音頻處理單元(如,后處理器300,其可以是或者包括音量調(diào)節(jié)單元)發(fā)信號(hào),以傳遞(未改變)比特流的音頻數(shù)據(jù)。附加地,可選地,或者可替選地,可以使用其他類型的加密技術(shù)來替代基于加密散列的方法。
在解碼器200的一些實(shí)現(xiàn)中,所接收(并且被緩沖在存儲(chǔ)器201中)的編碼比特流是ac-3比特流或e-ac-3比特流,并且包括音頻數(shù)據(jù)分段(如,圖4所示的幀的ab0至ab5分段)和元數(shù)據(jù)分段,其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),至少部分元數(shù)據(jù)分段中的每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)(lpsm)。解碼器級(jí)202被配置成從比特流中提取具有以下格式的lpsm。包括lpsm的元數(shù)據(jù)分段中的每個(gè)被包括在比特流的幀的比特流信息(“bsi”)分段的“addbsi”域中,或者被包括在比特流的幀的端部處的auxdata域(如,圖4所示的aux分段)中。比特流的幀可以包括一個(gè)或兩個(gè)元數(shù)據(jù)分段,其中每個(gè)包括lpsm,并且,如果幀包括兩個(gè)元數(shù)據(jù)分段,則其中一個(gè)存在于幀的addbsi域中,而另一個(gè)存在于幀的aux域中。包括lpsm的每個(gè)元數(shù)據(jù)分段包括具有以下格式的lpsm有效載荷(或容器)分段:
首部(通常包括標(biāo)識(shí)lpsm有效載荷的開始的同步字,其后跟隨標(biāo)識(shí)值,如下面的表2所示的lpsm格式版本、長(zhǎng)度、周期、計(jì)數(shù)和子流關(guān)聯(lián)值);以及
在首部之后,
至少一個(gè)會(huì)話指示值(如,表2的參數(shù)“會(huì)話通道”),其指示相應(yīng)的音頻數(shù)據(jù)是指示會(huì)話還是不指示會(huì)話(如,相應(yīng)的音頻數(shù)據(jù)的哪個(gè)通道指示會(huì)話);
至少一個(gè)響度調(diào)節(jié)相符值(如,表2的參數(shù)“響度調(diào)節(jié)類型”),其指示相應(yīng)的音頻數(shù)據(jù)是否與指示的響度調(diào)節(jié)的集合相符;
至少一個(gè)響度處理值(如,表2的參數(shù)“會(huì)話選通的響度校正標(biāo)志”、“響度校正類型”中的一個(gè)或更多個(gè)),其指示已經(jīng)對(duì)相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及
至少一個(gè)響度值(如,表2的參數(shù)“itu相對(duì)選通的響度”、“itu語音選通的響度”、“itu(ebu3341)短期3s響度”和“真實(shí)峰值”中的一個(gè)或更多個(gè)),其指示相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)響度(如,峰值或者平均響度)特性。
在一些實(shí)施中,解碼器級(jí)202被配置成從比特流的幀的“addbsi”域或auxdata域中提取具有以下格式的每個(gè)元數(shù)據(jù)分段:
核心首部(通常包括標(biāo)識(shí)元數(shù)據(jù)分段的開始的同步字,其后跟隨至少一個(gè)標(biāo)識(shí)值,如下面的表1中所示的核心元素版本、長(zhǎng)度和周期、擴(kuò)展元素計(jì)數(shù)以及子流關(guān)聯(lián)值);以及
在核心首部之后的至少一個(gè)保護(hù)值(如,表1的hmac摘要和音頻指紋值),其對(duì)于響度處理狀態(tài)元數(shù)據(jù)或相應(yīng)的音頻數(shù)據(jù)中的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一個(gè)而言是很有用的;以及
如果元數(shù)據(jù)分段包括lpsm,則也在核心首部之后的lpsm有效載荷標(biāo)識(shí)(id)和lpsm有效載荷尺寸值,其將以下元數(shù)據(jù)標(biāo)識(shí)為lpsm有效載荷并且指示lpsm有效載荷的尺寸。
(優(yōu)選地具有上述格式的)lpsm有效載荷(或容器)分段跟隨lpsm有效載荷id和lpsm有效載荷尺寸值。
更一般地,由本發(fā)明的優(yōu)選實(shí)施例生成的編碼音頻比特流具有如下結(jié)構(gòu):其向標(biāo)簽元數(shù)據(jù)元素和子元素提供機(jī)制作為核心(強(qiáng)制)或擴(kuò)展(可選元素)。這使得比特流(包括其元數(shù)據(jù))的數(shù)據(jù)速率能夠跨大量的應(yīng)用來縮放。優(yōu)選的比特流句法的核心(強(qiáng)制)元素應(yīng)當(dāng)能夠發(fā)信號(hào)告知與音頻內(nèi)容相關(guān)聯(lián)的擴(kuò)展(可選)元素存在(在帶內(nèi))和/或在遠(yuǎn)處(在帶外)。
需要核心元素存在于比特流的每個(gè)幀中。核心元素的一些子元素是可選的并且可以以任意組合存在。擴(kuò)展元素不需要存在于每個(gè)幀中(以防止比特速率過高)。因此,擴(kuò)展元素可以存在于某些幀中而不存在于其他幀中。擴(kuò)展元素的某些子元素是可選的并且可以以任意組合存在,而擴(kuò)展元素的某些子元素可以是強(qiáng)制的(即,如果擴(kuò)展元素存在于比特流的幀中)。
在一類實(shí)施例中,(如,由實(shí)施本發(fā)明的音頻處理單元)生成包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的序列的編碼音頻比特流。音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),元數(shù)據(jù)分段中的至少某些中的每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)(lpsm),音頻數(shù)據(jù)分段與元數(shù)據(jù)分段時(shí)分復(fù)用。在這種類型的優(yōu)選實(shí)施例中,每個(gè)元數(shù)據(jù)分段具有要在本文中描述的優(yōu)選格式。
在一種優(yōu)選格式中,編碼比特流是ac-3比特流或e-ac-3比特流,并且,包括lpsm的每個(gè)元數(shù)據(jù)分段作為附加比特流信息被(如,編碼器100的優(yōu)選實(shí)現(xiàn)的級(jí)107)包括在比特流的幀的比特流信息(“bsi”)分段的“addbsi”域(如圖6所示)中,或者被包括在比特流的幀的auxdata域中。
在該優(yōu)選格式中,每個(gè)幀在幀的addbsi域中包括具有如以下表1所示的格式的核心元素:
表1
在優(yōu)選格式中,包含lpsm的每個(gè)addbsi(或auxdata)域包含核心首部(可選地還有附加核心元素),并且在核心首部(或者核心首部和其他核心元素)之后,還包含以下lpsm值(參數(shù)):
在核心元素值之后跟隨的有效載荷id(將元數(shù)據(jù)標(biāo)識(shí)為lpsm)(如表1所示);
在有效載荷id之后跟隨的有效載荷尺寸(指示lpsm有效載荷的尺寸);以及
具有如下面的表(表2)所示的格式的lpsm數(shù)據(jù)(跟隨有效載荷id和有效載荷尺寸值):
表2
在根據(jù)本發(fā)明生成的編碼比特流的另一優(yōu)選格式中,比特流是ac-3比特流或e-ac-3比特流,并且,包括lpsm的每個(gè)元數(shù)據(jù)分段(如,通過編碼器100的優(yōu)選實(shí)現(xiàn)的級(jí)107)被包括在以下任一個(gè)中:比特流的幀的比特流信息(“bsi”)分段的“addbsi”域(如圖6所示);或者比特流的幀的端部處的auxdata域(如,圖4所示的aux分段)。幀可以包括一個(gè)或兩個(gè)元數(shù)據(jù)分段,每個(gè)元數(shù)據(jù)分段包括lpsm,并且,如果幀包括兩個(gè)元數(shù)據(jù)分段,則其中一個(gè)元數(shù)據(jù)分段存在于幀的addbsi域中,而另一個(gè)存在于幀的aux域中。包括lpsm的每個(gè)元數(shù)據(jù)分段具有以上參考表1和表2指出的格式(即,其包括:表1所示的核心元素,其后跟隨有效載荷id(將元數(shù)據(jù)標(biāo)識(shí)為lpsm);以及上述有效載荷尺寸值,其后跟隨有效載荷(具有表2所示的格式的lpsm數(shù)據(jù)))。
在另一優(yōu)選格式中,編碼比特流是杜比e比特流,并且,每個(gè)包括lpsm的元數(shù)據(jù)分段是杜比e保護(hù)帶間隔的前n個(gè)樣本位置。包括這樣的元數(shù)據(jù)分段(其包括lpsm)的杜比e比特流優(yōu)選地包括表示在smpte337m前序的pd字中示意的lpsm有效載荷長(zhǎng)度的值(smpte337mpa字重復(fù)速率優(yōu)選地保持與相關(guān)聯(lián)的視頻幀速率一致)。
在其中編碼比特流是e-ac-3比特流的優(yōu)選格式中,每個(gè)包括lpsm的元數(shù)據(jù)分段作為附加比特流信息(如,通過編碼器100的優(yōu)選實(shí)現(xiàn)的級(jí)107)被包括在比特流的幀的比特流信息(“bsi”)分段的“addbsi”域中。接下來描述具有這種優(yōu)選格式的lpsm的e-ac-3比特流的編碼的另外的方面:
1.在e-ac-3比特流的生成期間,當(dāng)e-ac-3編碼器(其將lpsm值插入到比特流中)為“有效”時(shí),對(duì)于所生成的每個(gè)幀(同步幀),比特流應(yīng)當(dāng)包括承載在幀的addbsi域中的元數(shù)據(jù)塊(包括lpsm)。承載元數(shù)據(jù)塊所需的比特不應(yīng)當(dāng)增加編碼器比特速率(幀長(zhǎng)度);
2.每個(gè)元數(shù)據(jù)塊(包含lpsm)應(yīng)當(dāng)包含以下信息:
1.loudness_correction_type_flag:其中,“1”指示從編碼器的上游對(duì)相應(yīng)的音頻數(shù)據(jù)的響度進(jìn)行校正,“0”指示由嵌入在編碼器中的響度校正器(如,圖2的編碼器100的響度處理器103)來對(duì)響度進(jìn)行校正;
2.speech_channel:指示哪個(gè)源通道包含語音(在之前的0.5秒內(nèi))。如果沒有檢測(cè)到任何語音,則應(yīng)這樣指示這一點(diǎn);
3.speech_loudness:指示包含語音的每個(gè)相應(yīng)的音頻通道的整體的語音響度(在之前的0.5秒內(nèi));
4.itu_loudness:指示每個(gè)相應(yīng)的音頻信道的整體的itubs.1770-2響度;
5.gain:用于解碼器中的反轉(zhuǎn)的響度合成增益(以示出反轉(zhuǎn)性);
3.當(dāng)e-ac-3編碼器(其將lpsm值插入到比特流中)為“有效”并且接收具有“信任”標(biāo)志的ac-3幀時(shí),編碼器中的響度控制器(如,圖2的編碼器100的響度處理器103)應(yīng)當(dāng)被旁路?!靶湃蔚摹痹磀ialnorm和drc值應(yīng)當(dāng)被傳遞(如,通過編碼器100的生成器106)給e-ac-3編碼器部件(如,編碼器100的級(jí)107)。lpsm塊生成繼續(xù),并且loudness_correction_type_flag被設(shè)置成“1”。響度控制器旁路序列必須與出現(xiàn)“信任”標(biāo)志的解碼ac-3幀的開始同步。響度控制器旁路序列應(yīng)當(dāng)如下來實(shí)現(xiàn):在10個(gè)音頻塊周期(即,53.3毫秒)內(nèi)從值9到值0遞減leveler_amount控制,并且將leveler_back_end_meter控制置于旁路模式下(該操作應(yīng)當(dāng)導(dǎo)致無縫過渡)。術(shù)語校準(zhǔn)器的“信任的”旁路表示源比特流的dialnorm值也在編碼器的輸出端處被重新使用。(即,如果“信任的”源比特流的dialnorm值為-30,則編碼器的輸出應(yīng)當(dāng)將-30用于輸出的dialnorm值);
4.當(dāng)e-ac-3編碼器(其將lpsm值插入到比特流中)為“有效”并且接收沒有“信任”標(biāo)志的ac-3幀時(shí),嵌入在編碼器中的響度控制器(如,圖2的編碼器100的響度處理器103)應(yīng)當(dāng)是有效的。lpsm塊生成繼續(xù),并且loudness_correction_type_flag被設(shè)置為“0”。響度控制器激活序列應(yīng)當(dāng)與“信任”標(biāo)志消失的解碼ac-3幀的開始同步。響度控制器激活序列應(yīng)當(dāng)如下來實(shí)現(xiàn):在1個(gè)音頻塊周期(即,5.3毫秒)內(nèi)從值0到值9遞增leveler_amount控制,并且將leveler_back_end_meter控制置于“有效”模式下(該操作應(yīng)當(dāng)導(dǎo)致無縫過渡并且包括back_end_meter整體重置);以及
5.在編碼期間,圖形用戶接口(gui)應(yīng)當(dāng)向用戶指明以下參數(shù):“輸入音頻節(jié)目:[信任的/不信任的]”——該參數(shù)的狀態(tài)基于輸入信號(hào)內(nèi)的“信任”標(biāo)志的存在;以及“實(shí)時(shí)響度校正:[使能/禁止]”——該參數(shù)的狀態(tài)基于嵌入在編碼器中的該響度控制器是否有效。
當(dāng)對(duì)具有包括在比特流的每個(gè)幀的比特流信息(“bsi”)分段的“addbsi”域中的lpsm(優(yōu)選格式的lpsm)的ac-3或e-ac-3比特流進(jìn)行解碼時(shí),解碼器應(yīng)當(dāng)解析lpsm塊數(shù)據(jù)(addbsi域中的lpsm塊數(shù)據(jù))并且將所有的所提取的lpsm值傳遞給圖形用戶界面(gui)。每幀對(duì)所提取的lpsm值的組進(jìn)行更新。
在根據(jù)本發(fā)明生成的編碼比特流的另一優(yōu)選格式中,編碼比特流是ac-3比特流或e-ac-3比特流,并且,包括lpsm的每個(gè)元數(shù)據(jù)分段作為附加比特流信息(如,通過編碼器100的優(yōu)選實(shí)現(xiàn)的級(jí)107)被包括在比特流的幀的比特流信息(“bsi”)分段的“addbsi”域(如圖6所示)中(或aux分段中)。在該格式(其是以上參考表1和表2所述的格式的變型)中,每個(gè)包含lpsm的addbsi(或aux)域包含以下lpsm值:
表1所示的核心元素,其后跟隨有效載荷id(將元數(shù)據(jù)標(biāo)識(shí)為lpsm)和有效載荷尺寸值,其后跟隨具有以下格式的有效載荷(lpsm數(shù)據(jù))(類似于上述表2所示的強(qiáng)制元素):
lpsm有效載荷的版本:指示lpsm有效載荷的版本的2比特域;
dialchan:指示相應(yīng)的音頻數(shù)據(jù)的左通道、右通道和/或中心通道是否包含口語會(huì)話的3比特域。dialchan域的比特分配可以如下:指示左通道中的會(huì)話的存在的比特0被存儲(chǔ)在dialchan域的最高有效比特中;指示中心通道中的會(huì)話的存在的比特2被存儲(chǔ)在dialchan域的最低有效比特中。如果相應(yīng)的通道在節(jié)目的在前的0.5秒期間包含口語會(huì)話,則dialchan域的每個(gè)比特被設(shè)置為“1”。
loudregtyp:指示節(jié)目響度符合哪個(gè)響度調(diào)節(jié)標(biāo)準(zhǔn)的3比特域。將“l(fā)oudregtyp”域設(shè)置為“000”指示lpsm不指示響度調(diào)節(jié)相符性。例如,該域的一個(gè)值(如,000)可以指示與響度調(diào)節(jié)標(biāo)準(zhǔn)的相符性沒有被示出,該域的另一個(gè)值(如,001)可以指示節(jié)目的音頻數(shù)據(jù)符合atsca/85標(biāo)準(zhǔn),該域的另一個(gè)值(如,010)可以指示節(jié)目的音頻數(shù)據(jù)符合ebur128標(biāo)準(zhǔn)。在示例中,如果域被設(shè)置為除了“000”以外的任意值,則loudcorrdialgat域和loudcorrtyp域應(yīng)當(dāng)在有效載荷中跟隨。
loudcorrdialgat:指示是否已經(jīng)應(yīng)用了會(huì)話選通的響度校正的1比特域。如果已經(jīng)使用會(huì)話選通對(duì)節(jié)目的響度進(jìn)行了校正,則loudcorrdialgat域的值被設(shè)置為“1”。否則,其被設(shè)置為“0”。
loudcorrtyp:指示被應(yīng)用于節(jié)目的響度校正的類型的1比特域。如果已經(jīng)用無限的預(yù)測(cè)未來(基于文件)響度校正處理對(duì)節(jié)目的響度進(jìn)行了校正,則loudcorrtyp域的值被設(shè)置為“0”。如果已經(jīng)使用實(shí)時(shí)響度測(cè)量和動(dòng)態(tài)范圍控制的組合對(duì)節(jié)目的響度進(jìn)行了校正,則該域的值被設(shè)置為“1”;
loudrelgate:指示是否存在有關(guān)的選通響度數(shù)據(jù)(itu)的1比特域。如果loudrelgate域被設(shè)置為“1”,則7比特的ituloudrelgat域應(yīng)當(dāng)在有效載荷中跟隨;
loudrelgat:指示有關(guān)的選通節(jié)目響度(itu)的7比特域。該域指示由于所應(yīng)用的dialnorm和動(dòng)態(tài)范圍壓縮、在沒有任何增益調(diào)節(jié)的情況下根據(jù)itu-rbs.1770-2測(cè)量的音頻節(jié)目的整體的響度。0至127的值被理解為-58lkfs至+5.5lkfs,步長(zhǎng)為0.5lkfs;
loudspchgate:指示語音選通的響度數(shù)據(jù)(itu)是否存在的1比特域。如果loudspchgate域被設(shè)置為“1”,則7比特的loudspchgat域應(yīng)當(dāng)在有效載荷中跟隨;
loudspchgat:指示語音選通的節(jié)目響度的7比特域。該域指示由于所應(yīng)用的dialnorm和動(dòng)態(tài)范圍壓縮、在沒有任何增益調(diào)節(jié)的情況下根據(jù)itu-rbs.1770-3的公式(2)測(cè)量的整個(gè)相應(yīng)的音頻節(jié)目的整體的響度。0至127的值被理解為-58lkfs至+5.5lkfs,步長(zhǎng)為0.5lkfs;
loudstrm3se:指示是否存在短期(3秒)響度數(shù)據(jù)的1比特域。如果該域被設(shè)置為“1”,則7比特的loudstrm3s域應(yīng)當(dāng)在有效載荷中跟隨;
loudstrm3s:指示由于所應(yīng)用的dialnorm和動(dòng)態(tài)范圍壓縮、在沒有任何增益調(diào)節(jié)的情況下根據(jù)itu-rbs.1771-1測(cè)量的相應(yīng)的音頻節(jié)目的在前的3秒的未選通的響度的7比特域。0至256的值被理解為-116lkfs至+11.5lkfs,步長(zhǎng)為0.5lkfs;
truepke:指示是否存在真實(shí)的峰值響度數(shù)據(jù)的1比特域。如果truepke域被設(shè)置為“1”,則8比特的truepk域應(yīng)當(dāng)在有效載荷中跟隨;以及
truepk:指示由于所應(yīng)用的dialnorm和動(dòng)態(tài)范圍壓縮、在沒有任何增益調(diào)節(jié)的情況下根據(jù)itu-rbs.1770-3的附件2測(cè)量的節(jié)目的真實(shí)的峰值樣本值的8比特域。0至256的值被理解為-116lkfs至+11.5lkfs,步長(zhǎng)為0.5lkfs。
在一些實(shí)施例中,ac-3比特流或e-ac-3比特流的幀的auxdata域(或“addbsi”域)中的元數(shù)據(jù)分段的核心元素包括核心首部(通常包括標(biāo)識(shí)值,如核心元素版本),并且,在核心首部之后,包括:指示指紋數(shù)據(jù)(或者其他保護(hù)值)是否被包括用于元數(shù)據(jù)分段的元數(shù)據(jù)的值、指示是否存在(與元數(shù)據(jù)分段的元數(shù)據(jù)所對(duì)應(yīng)的音頻數(shù)據(jù)有關(guān)的)外部數(shù)據(jù)的值、用于由核心元素來標(biāo)識(shí)的每種類型的元數(shù)據(jù)(如,lpsm和/或除了lpsm之外的其他類型的元數(shù)據(jù))的有效載荷id和有效載荷尺寸值、以及用于由核心元素來標(biāo)識(shí)的至少一種類型的元數(shù)據(jù)的保護(hù)值。元數(shù)據(jù)分段的元數(shù)據(jù)有效載荷跟隨核心首部,并且(在某些情況下)嵌套在核心元素的值內(nèi)。
本發(fā)明的實(shí)施例可以用硬件、固件或軟件或者其組合(如,作為可編程邏輯陣列)來實(shí)現(xiàn)。除非特別指出,否則被包括作為本發(fā)明的一部分的算法或處理并非固有地與任意具體的計(jì)算機(jī)或其他裝置有關(guān)。具體地,各種通用機(jī)器可以與根據(jù)本文中的教導(dǎo)寫出的程序一起使用,或者,構(gòu)造更專門的設(shè)備(如,集成電路)來執(zhí)行所需要的方法步驟可能更為方便。因此,本發(fā)明可以在一個(gè)或更多個(gè)可編程計(jì)算機(jī)系統(tǒng)上執(zhí)行的一個(gè)或更多個(gè)計(jì)算機(jī)程序中實(shí)現(xiàn)(如,圖1的元件、或圖2的編碼器100(或其元件)、或圖3的解碼器200(或其元件)或圖3的后處理器300(或其元件)中的任一個(gè)的實(shí)現(xiàn)),每個(gè)可編程計(jì)算機(jī)系統(tǒng)包括至少一個(gè)處理器、至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)(包括易失性和非易失性存儲(chǔ)器和/或存儲(chǔ)元件)、至少一個(gè)輸入裝置或端口、以及至少一個(gè)輸出裝置或端口。應(yīng)用節(jié)目代碼,以輸入數(shù)據(jù),從而執(zhí)行本文中所描述的功能并且生成輸出信息。輸出信息以公知的方式應(yīng)用于一個(gè)或更多個(gè)輸出裝置。
可以用任意期望的計(jì)算機(jī)語言(包括機(jī)器、匯編或高層過程、邏輯或面向?qū)ο缶幊陶Z言)來實(shí)現(xiàn)每個(gè)這樣的程序,以與計(jì)算機(jī)系統(tǒng)通信。在任何情況下,語言可以是編譯語言或解釋語言。
例如,當(dāng)用計(jì)算機(jī)軟件指令序列來實(shí)現(xiàn)時(shí),可以用在合適的數(shù)字信號(hào)處理硬件中運(yùn)行的多線程軟件指令序列來實(shí)現(xiàn)本發(fā)明的實(shí)施例的各種功能和步驟,在這種情況下,實(shí)施例的各種裝置、步驟和功能可以對(duì)應(yīng)于軟件指令的一部分。
每個(gè)這樣的計(jì)算機(jī)程序優(yōu)選地存儲(chǔ)在或者下載到由通用或?qū)S每删幊逃?jì)算機(jī)可讀的存儲(chǔ)介質(zhì)或裝置(如固態(tài)存儲(chǔ)器或媒體、或者磁性或光學(xué)媒體),以在計(jì)算機(jī)系統(tǒng)讀取存儲(chǔ)介質(zhì)和裝置以執(zhí)行本文中所述的過程時(shí),對(duì)計(jì)算機(jī)進(jìn)行配置和操作。本發(fā)明的系統(tǒng)還可以實(shí)現(xiàn)為計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì),其配置有(即,存儲(chǔ))計(jì)算機(jī)程序,其中,這樣配置的存儲(chǔ)介質(zhì)使得計(jì)算機(jī)系統(tǒng)以具體和預(yù)定的方式操作以執(zhí)行本文中所述的功能。
已經(jīng)描述了本發(fā)明的大量實(shí)施例。然而,應(yīng)當(dāng)理解,可以在不偏離本發(fā)明的精神和范圍的情況下作出各種修改。鑒于以上教導(dǎo),對(duì)本發(fā)明的大量修改和變化是可能的。應(yīng)當(dāng)理解,可以在所附權(quán)利要求的范圍內(nèi),以除了如本文中具體地描述的方式之外的方式來實(shí)踐本發(fā)明。
附記
1.一種音頻處理單元,包括:
緩沖存儲(chǔ)器;以及
至少一個(gè)處理子系統(tǒng),所述至少一個(gè)處理子系統(tǒng)耦接至所述緩沖存儲(chǔ)器,其中,所述緩沖存儲(chǔ)器存儲(chǔ)編碼音頻比特流的至少一個(gè)幀,所述幀在所述幀的至少一個(gè)元數(shù)據(jù)分段中包括響度處理狀態(tài)元數(shù)據(jù),并且在所述幀的至少一個(gè)其他分段中包括音頻數(shù)據(jù),其中,所述處理子系統(tǒng)被耦接和配置為執(zhí)行所述比特流的生成、對(duì)所述比特流的解碼、或者使用所述比特流的響度處理狀態(tài)元數(shù)據(jù)對(duì)所述比特流的音頻數(shù)據(jù)進(jìn)行的自適應(yīng)響度處理中的至少一個(gè),或者使用所述比特流的響度處理狀態(tài)元數(shù)據(jù)來執(zhí)行對(duì)所述比特流的音頻數(shù)據(jù)或響度處理狀態(tài)元數(shù)據(jù)中的至少一個(gè)的認(rèn)證或驗(yàn)證中的至少一個(gè),
其中,所述編碼音頻比特流包括幀的序列,所述幀中的每個(gè)包括至少一個(gè)元數(shù)據(jù)分段和至少一個(gè)音頻分段,每個(gè)所述音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),至少一個(gè)所述元數(shù)據(jù)分段包括含有響度處理狀態(tài)元數(shù)據(jù)的響度處理狀態(tài)元數(shù)據(jù)有效載荷,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷包括:
首部;以及
在所述首部之后的:至少一個(gè)會(huì)話指示值,所述至少一個(gè)會(huì)話指示值表示相應(yīng)的音頻數(shù)據(jù)是指示會(huì)話還是不指示會(huì)話;至少一個(gè)響度調(diào)節(jié)相符值,所述至少一個(gè)響度調(diào)節(jié)相符值指示所述相應(yīng)的音頻數(shù)據(jù)是否與所指示的響度調(diào)節(jié)的集合相符;至少一個(gè)響度處理值,所述至少一個(gè)響度處理值表示已經(jīng)對(duì)所述相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及至少一個(gè)響度值,所述至少一個(gè)響度值表示所述相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)響度特性。
2.根據(jù)附記1所述的音頻處理單元,其中,每個(gè)包括一個(gè)所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述元數(shù)據(jù)分段包括:
核心首部;
在所述核心首部之后的至少一個(gè)保護(hù)值,所述至少一個(gè)保護(hù)值用于所述響度處理狀態(tài)元數(shù)據(jù)或者所述相應(yīng)的音頻數(shù)據(jù)中的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一個(gè);以及
在所述核心首部之后的響度處理狀態(tài)元數(shù)據(jù)標(biāo)識(shí)和有效載荷尺寸值,其中,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷在所述響度處理狀態(tài)元數(shù)據(jù)有效載荷標(biāo)識(shí)和有效載荷尺寸值之后。
3.根據(jù)附記2所述的音頻處理單元,其中,所述核心首部包括標(biāo)識(shí)所述元數(shù)據(jù)分段的開始的同步字以及跟隨所述同步字的至少一個(gè)標(biāo)識(shí)值,并且所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述首部包括至少一個(gè)標(biāo)識(shí)值。
4.根據(jù)附記1所述的音頻處理單元,其中,所述編碼音頻比特流是ac-3比特流或者e-ac-3比特流,所述編碼音頻比特流的所述幀中的每個(gè)包括比特流信息分段和輔助數(shù)據(jù)auxdata域,所述比特流信息分段包括附加比特流信息addbsi域,并且每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)有效載荷在內(nèi)的所述元數(shù)據(jù)分段被包括在一個(gè)所述addbsi域或者一個(gè)所述auxdata域中。
5.根據(jù)附記1所述的音頻處理單元,其中,所述編碼音頻比特流是ac-3比特流、e-ac-3比特流或者杜比e比特流中的一種。
6.根據(jù)附記1所述的音頻處理單元,其中,所述緩沖存儲(chǔ)器以非暫時(shí)性方式存儲(chǔ)所述幀。
7.根據(jù)附記1所述的音頻處理單元,其中,所述音頻處理單元是編碼器。
8.根據(jù)附記7所述的音頻處理單元,其中,所述編碼器包括:
解碼子系統(tǒng),所述解碼子系統(tǒng)被配置成接收輸入音頻比特流以及從所述輸入音頻比特流中提取輸入響度處理狀態(tài)元數(shù)據(jù)和輸入音頻數(shù)據(jù);
自適應(yīng)響度處理子系統(tǒng),所述自適應(yīng)響度處理子系統(tǒng)被耦接和配置為使用所述輸入響度處理狀態(tài)元數(shù)據(jù)對(duì)所述輸入音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理,從而生成已處理音頻數(shù)據(jù);以及
編碼子系統(tǒng),所述編碼子系統(tǒng)被耦接和配置為:通過在所述編碼音頻比特流中包括所述響度處理狀態(tài)元數(shù)據(jù)、或者所述響度處理狀態(tài)元數(shù)據(jù)的更新版本,來響應(yīng)于所述已處理音頻數(shù)據(jù)生成包括所述響度處理狀態(tài)元數(shù)據(jù)、或者所述響度處理狀態(tài)元數(shù)據(jù)的更新版本在內(nèi)的所述編碼音頻比特流;以及將所述編碼音頻比特流送往所述緩沖存儲(chǔ)器。
9.根據(jù)附記7所述的音頻處理單元,其中,所述解碼子系統(tǒng)包括狀態(tài)驗(yàn)證級(jí),所述狀態(tài)驗(yàn)證級(jí)被耦接和配置為認(rèn)證和驗(yàn)證所述響度處理狀態(tài)元數(shù)據(jù)。
10.根據(jù)附記1所述的音頻處理單元,其中,所述音頻處理單元是解碼器。
11.根據(jù)附記10所述的音頻處理單元,其中,所述處理子系統(tǒng)是解碼子系統(tǒng),所述解碼子系統(tǒng)耦接至所述緩沖存儲(chǔ)器并且被配置成從所述編碼音頻比特流中提取所述響度處理狀態(tài)元數(shù)據(jù),并且所述解碼器還包括狀態(tài)驗(yàn)證級(jí),所述狀態(tài)驗(yàn)證級(jí)耦接至所述解碼子系統(tǒng)并且被配置成認(rèn)證和驗(yàn)證所述響度處理狀態(tài)元數(shù)據(jù)。
12.根據(jù)附記1所述的音頻處理單元,包括:
解碼器,所述解碼器耦接至所述緩沖存儲(chǔ)器并且被配置成從所述編碼音頻比特流中提取所述響度處理狀態(tài)元數(shù)據(jù)和所述音頻數(shù)據(jù);以及
后處理器,所述后處理器耦接至所述解碼器并且被配置成使用從所述編碼音頻比特流中提取的所述響度處理狀態(tài)元數(shù)據(jù)來對(duì)從所述編碼音頻比特流中提取的所述音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。
13.根據(jù)附記1所述的音頻處理單元,其中,所述音頻處理單元是數(shù)字信號(hào)處理器。
14.根據(jù)附記1所述的音頻處理單元,其中,所述音頻處理單元是預(yù)處理器,所述預(yù)處理器被配置成:從所述編碼音頻比特流中提取所述響度處理狀態(tài)元數(shù)據(jù)和所述音頻數(shù)據(jù);以及使用從所述編碼音頻比特流中提取的所述響度處理狀態(tài)元數(shù)據(jù)來對(duì)從所述編碼音頻比特流中提取的所述音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。
15.一種音頻處理單元,包括:
至少一個(gè)輸入端,所述至少一個(gè)輸入端被耦接成接收輸入音頻比特流;以及
處理子系統(tǒng),所述處理子系統(tǒng)耦接至所述至少一個(gè)輸入端并且被配置成響應(yīng)于所述輸入音頻比特流來生成包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的編碼音頻比特流,其中,所述編碼音頻比特流包括幀的序列,所述幀中的每個(gè)包括至少一個(gè)元數(shù)據(jù)分段和至少一個(gè)音頻分段,每個(gè)所述音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),至少一個(gè)所述元數(shù)據(jù)分段包括含響度處理狀態(tài)元數(shù)據(jù)的響度處理狀態(tài)元數(shù)據(jù)有效載荷,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷包括:
首部;以及
在所述首部之后的:至少一個(gè)會(huì)話指示值,所述至少一個(gè)會(huì)話指示值表示相應(yīng)的音頻數(shù)據(jù)是指示會(huì)話還是不指示會(huì)話;至少一個(gè)響度調(diào)節(jié)相符值,所述至少一個(gè)響度調(diào)節(jié)相符值指示所述相應(yīng)的音頻數(shù)據(jù)是否與所指示的響度調(diào)節(jié)的集合相符;至少一個(gè)響度處理值,所述至少一個(gè)響度處理值表示已經(jīng)對(duì)所述相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及至少一個(gè)響度值,所述至少一個(gè)響度值表示所述相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)響度特性。
16.根據(jù)附記15所述的音頻處理單元,其中,每個(gè)包括一個(gè)所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述元數(shù)據(jù)分段包括:
核心首部;
在所述核心首部之后的至少一個(gè)保護(hù)值,所述至少一個(gè)保護(hù)值用于所述響度處理狀態(tài)元數(shù)據(jù)或者所述相應(yīng)的音頻數(shù)據(jù)中的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一個(gè);以及
在所述核心首部之后的響度處理狀態(tài)元數(shù)據(jù)標(biāo)識(shí)和有效載荷尺寸值,其中,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷在所述響度處理狀態(tài)元數(shù)據(jù)有效載荷標(biāo)識(shí)和有效載荷尺寸值之后。
17.根據(jù)附記16所述的音頻處理單元,其中,所述核心首部包括標(biāo)識(shí)所述元數(shù)據(jù)分段的開始的同步字以及跟隨所述同步字的至少一個(gè)標(biāo)識(shí)值,并且所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述首部包括至少一個(gè)標(biāo)識(shí)值。
18.根據(jù)附記15所述的音頻處理單元,其中,所述編碼音頻比特流是ac-3比特流或者e-ac-3比特流,所述編碼音頻比特流的所述幀中的每個(gè)包括比特流信息分段和輔助數(shù)據(jù)auxdata域,所述比特流信息分段包括附加比特流信息addbsi域,并且每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)有效載荷在內(nèi)的所述元數(shù)據(jù)分段被包括在一個(gè)所述addbsi域或者一個(gè)所述auxdata域中。
19.根據(jù)附記15所述的音頻處理單元,其中,所述編碼音頻比特流是ac-3比特流、e-ac-3比特流或者杜比e比特流中的一種。
20.根據(jù)附記15所述的音頻處理單元,其中,所述音頻處理單元是數(shù)字信號(hào)處理器。
21.一種音頻處理單元,包括:
處理子系統(tǒng),所述處理子系統(tǒng)被耦接和配置為接收編碼音頻比特流以及從所述編碼音頻比特流中提取響度處理狀態(tài)元數(shù)據(jù)和音頻數(shù)據(jù),
其中,所述編碼音頻比特流包括幀的序列,所述幀中的每個(gè)包括至少一個(gè)元數(shù)據(jù)分段和至少一個(gè)音頻分段,每個(gè)所述音頻數(shù)據(jù)分段表示至少部分所述音頻數(shù)據(jù),至少一個(gè)所述元數(shù)據(jù)分段包括響度處理狀態(tài)元數(shù)據(jù)有效載荷,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷包括至少部分所述響度處理狀態(tài)元數(shù)據(jù),所述響度處理狀態(tài)元數(shù)據(jù)有效載荷包括:
首部;以及
在所述首部之后的:至少一個(gè)會(huì)話指示值,所述至少一個(gè)會(huì)話指示值表示相應(yīng)的音頻數(shù)據(jù)是指示會(huì)話還是不指示會(huì)話;至少一個(gè)響度調(diào)節(jié)相符值,所述至少一個(gè)響度調(diào)節(jié)相符值指示所述相應(yīng)的音頻數(shù)據(jù)是否與所指示的響度調(diào)節(jié)的集合相符;至少一個(gè)響度處理值,所述至少一個(gè)響度處理值表示已經(jīng)對(duì)所述相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及至少一個(gè)響度值,所述至少一個(gè)響度值表示所述相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)響度特性。
22.根據(jù)附記21所述的音頻處理單元,其中,每個(gè)包括一個(gè)所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述元數(shù)據(jù)分段包括:
核心首部;
在所述核心首部之后的至少一個(gè)保護(hù)值,所述至少一個(gè)保護(hù)值所述響度處理狀態(tài)元數(shù)據(jù)或者所述相應(yīng)的音頻數(shù)據(jù)中的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一個(gè);以及
在所述核心首部之后的響度處理狀態(tài)元數(shù)據(jù)標(biāo)識(shí)和有效載荷尺寸值,其中,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷在所述響度處理狀態(tài)元數(shù)據(jù)有效載荷標(biāo)識(shí)和有效載荷尺寸值之后。
23.根據(jù)附記22所述的音頻處理單元,其中,所述核心首部包括標(biāo)識(shí)所述元數(shù)據(jù)分段的開始的同步字以及跟隨所述同步字的至少一個(gè)標(biāo)識(shí)值,并且所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述首部包括至少一個(gè)標(biāo)識(shí)值。
24.根據(jù)附記21所述的音頻處理單元,其中,所述編碼比特流是ac-3比特流或者e-ac-3比特流,所述編碼音頻比特流的所述幀中的每個(gè)包括比特流信息分段和輔助數(shù)據(jù)auxdata域,所述比特流信息分段包括附加比特流信息addbsi域,并且每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)有效載荷在內(nèi)的所述元數(shù)據(jù)分段被包括在一個(gè)所述addbsi域或者一個(gè)所述auxdata域中。
25.根據(jù)附記21所述的音頻處理單元,其中,所述編碼音頻比特流是ac-3比特流、e-ac-3比特流或者杜比e比特流中的一種。
26.根據(jù)附記21所述的音頻處理單元,還包括:
狀態(tài)驗(yàn)證級(jí),所述狀態(tài)驗(yàn)證級(jí)耦接至所述處理子系統(tǒng)并且被配置成認(rèn)證和驗(yàn)證所述響度處理狀態(tài)元數(shù)據(jù)。
27.根據(jù)附記21所述的音頻處理單元,還包括:
響度處理級(jí),所述響度處理級(jí)耦接至所述處理子系統(tǒng)并且被配置成使用從所述編碼音頻比特流中提取的所述響度處理狀態(tài)元數(shù)據(jù)來對(duì)從所述編碼音頻比特流中提取的所述音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。
28.根據(jù)附記21所述的音頻處理單元,還包括:
后處理器,所述后處理器耦接至所述音頻處理單元并且被配置成使用從所述編碼音頻比特流中提取的所述響度處理狀態(tài)元數(shù)據(jù)來對(duì)從所述編碼音頻比特流中提取的所述音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。
29.根據(jù)附記21所述的音頻處理單元,其中,所述音頻處理單元是數(shù)字信號(hào)處理器。
30.一種用于生成包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的編碼音頻比特流的方法,所述方法包括下列步驟:
提供音頻數(shù)據(jù);
生成表示所述音頻數(shù)據(jù)的響度處理狀態(tài)元數(shù)據(jù);以及
復(fù)用所述編碼音頻數(shù)據(jù)與所述響度處理狀態(tài)元數(shù)據(jù),以生成所述編碼音頻比特流,使得所述編碼音頻比特流包括幀的序列,所述幀中的每個(gè)包括至少一個(gè)元數(shù)據(jù)分段和至少一個(gè)音頻分段,每個(gè)所述音頻數(shù)據(jù)分段表示至少部分所述音頻數(shù)據(jù),至少一個(gè)所述元數(shù)據(jù)分段包括響度處理狀態(tài)元數(shù)據(jù)有效載荷,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷包括至少部分所述響度處理狀態(tài)元數(shù)據(jù),所述響度處理狀態(tài)元數(shù)據(jù)有效載荷包括:
首部;以及
在所述首部之后的:至少一個(gè)會(huì)話指示值,所述至少一個(gè)會(huì)話指示值表示相應(yīng)的音頻數(shù)據(jù)是指示會(huì)話還是不指示會(huì)話;至少一個(gè)響度調(diào)節(jié)相符值,所述至少一個(gè)響度調(diào)節(jié)相符值指示所述相應(yīng)的音頻數(shù)據(jù)是否與所指示的響度調(diào)節(jié)的集合相符;至少一個(gè)響度處理值,所述至少一個(gè)響度處理值表示已經(jīng)對(duì)所述相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及至少一個(gè)響度值,所述至少一個(gè)響度值表示所述相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)響度特性。
31.根據(jù)附記30所述的方法,其中,每個(gè)包括一個(gè)所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述元數(shù)據(jù)分段包括:
核心首部;
在所述核心首部之后的至少一個(gè)保護(hù)值,所述至少一個(gè)保護(hù)值用于所述響度處理狀態(tài)元數(shù)據(jù)或者所述相應(yīng)的音頻數(shù)據(jù)中的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一個(gè);以及
在所述核心首部之后的響度處理狀態(tài)元數(shù)據(jù)標(biāo)識(shí)和有效載荷尺寸值,其中,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷在所述響度處理狀態(tài)元數(shù)據(jù)有效載荷標(biāo)識(shí)和有效載荷尺寸值之后。
32.根據(jù)附記31所述的方法,其中,所述核心首部包括標(biāo)識(shí)所述元數(shù)據(jù)分段的開始的同步字以及跟隨所述同步字的至少一個(gè)標(biāo)識(shí)值,并且所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述首部包括至少一個(gè)標(biāo)識(shí)值。
33.根據(jù)附記30所述的方法,其中,所述編碼音頻比特流是ac-3比特流或者e-ac-3比特流,所述編碼音頻比特流的所述幀中的每個(gè)包括比特流信息分段和輔助數(shù)據(jù)auxdata域,所述比特流信息分段包括附加比特流信息addbsi域,并且每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)有效載荷在內(nèi)的所述元數(shù)據(jù)分段被包括在一個(gè)所述addbsi域或者一個(gè)所述auxdata域中。
34.根據(jù)附記30所述的方法,其中,所述編碼音頻比特流是ac-3比特流、e-ac-3比特流或者杜比e比特流中的一種。
35.一種用于對(duì)包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的編碼音頻比特流進(jìn)行解碼的方法,所述方法包括步驟:
接收編碼音頻比特流;以及
從所述編碼音頻比特流中提取響度處理狀態(tài)元數(shù)據(jù)和音頻數(shù)據(jù),
其中,所述編碼音頻比特流包括幀的序列,所述幀中的每個(gè)包括至少一個(gè)元數(shù)據(jù)分段和至少一個(gè)音頻分段,每個(gè)所述音頻數(shù)據(jù)分段表示至少部分所述音頻數(shù)據(jù),至少一個(gè)所述元數(shù)據(jù)分段包括響度處理狀態(tài)元數(shù)據(jù)有效載荷,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷包括至少部分所述響度處理狀態(tài)元數(shù)據(jù),所述響度處理狀態(tài)元數(shù)據(jù)有效載荷包括:
首部;以及
在所述首部之后的:至少一個(gè)會(huì)話指示值,所述至少一個(gè)會(huì)話指示值表示相應(yīng)的音頻數(shù)據(jù)是指示會(huì)話還是不指示會(huì)話;至少一個(gè)響度調(diào)節(jié)相符值,所述至少一個(gè)響度調(diào)節(jié)相符值指示所述相應(yīng)的音頻數(shù)據(jù)是否與所指示的響度調(diào)節(jié)的集合相符;至少一個(gè)響度處理值,所述至少一個(gè)響度處理值表示已經(jīng)對(duì)所述相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及至少一個(gè)響度值,所述至少一個(gè)響度值表示所述相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)響度特性。
36.根據(jù)附記35所述的方法,其中,每個(gè)包括一個(gè)所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述元數(shù)據(jù)分段包括:
核心首部;
在所述核心首部之后的至少一個(gè)保護(hù)值,所述至少一個(gè)保護(hù)值用于所述響度處理狀態(tài)元數(shù)據(jù)或者所述相應(yīng)的音頻數(shù)據(jù)中的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一個(gè);以及
在所述核心首部之后的響度處理狀態(tài)元數(shù)據(jù)標(biāo)識(shí)和有效載荷尺寸值,其中,所述響度處理狀態(tài)元數(shù)據(jù)有效載荷在所述響度處理狀態(tài)元數(shù)據(jù)有效載荷標(biāo)識(shí)和有效載荷尺寸值之后。
37.根據(jù)附記35所述的方法,其中,所述核心首部包括標(biāo)識(shí)所述元數(shù)據(jù)分段的開始的同步字以及跟隨所述同步字的至少一個(gè)標(biāo)識(shí)值,并且所述響度處理狀態(tài)元數(shù)據(jù)有效載荷的所述首部包括至少一個(gè)標(biāo)識(shí)值。
38.根據(jù)附記36所述的方法,其中,所述編碼比特流是ac-3比特流或者e-ac-3比特流,所述編碼音頻比特流的所述幀中的每個(gè)包括比特流信息分段和輔助數(shù)據(jù)auxdata域,所述比特流信息分段包括附加比特流信息addbsi域,并且每個(gè)包括響度處理狀態(tài)元數(shù)據(jù)有效載荷在內(nèi)的所述元數(shù)據(jù)分段被包括在一個(gè)所述addbsi域或者一個(gè)所述auxdata域中。
39.根據(jù)附記36所述的方法,其中,所述編碼音頻比特流是ac-3比特流、e-ac-3比特流或者杜比e比特流中的一種。
40.根據(jù)附記36所述的方法,還包括步驟:
使用從所述編碼音頻比特流中提取的所述響度處理狀態(tài)元數(shù)據(jù)來對(duì)從所述編碼音頻比特流中提取的所述音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。