国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于利用響度處理狀態(tài)元數(shù)據(jù)處理音頻的音頻解碼器的制作方法

      文檔序號:2835187閱讀:447來源:國知局
      專利名稱:用于利用響度處理狀態(tài)元數(shù)據(jù)處理音頻的音頻解碼器的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及音頻信號處理,更具體地,本發(fā)明涉及使用表示音頻內(nèi)容的響度處理狀態(tài)的元數(shù)據(jù)對音頻數(shù)據(jù)比特流進行編碼和解碼。本發(fā)明的一些實施例生成或解碼作為“杜比數(shù)字(Dolby Digital) (AC-3)”、“杜比數(shù)字 + (Dolby Digital Plus)(增強型 AC-3或E-AC-3)”或者“杜比E (DolbyE)"已知的格式之一的音頻數(shù)據(jù)。
      背景技術(shù)
      “杜比”、“杜比數(shù)字”、“杜比數(shù)字+”和“杜比E”是杜比實驗室特許公司的商標(biāo)。杜比實驗室提供分別作為“杜比數(shù)字”和“杜比數(shù)字+”已知的AC-3和E-AC-3的專有實施。音頻數(shù)據(jù)處理單元通常以盲目的方式來操作,并且不注意在數(shù)據(jù)被接收之前出現(xiàn)的音頻數(shù)據(jù)的處理歷史。這可能在以下處理框架內(nèi)起作用:其中,單個實體進行各種各樣的目標(biāo)媒體渲染裝置的所有的音頻數(shù)據(jù)處理和編碼,同時,目標(biāo)媒體渲染裝置進行對編碼音頻數(shù)據(jù)的所有的解碼和渲染。然而,該盲目的處理在以下情況下不能很好地起作用(或者一點都不起作用):其中,多個音頻處理單元散布在多種多樣的網(wǎng)絡(luò)上或者串聯(lián)放置(即,鏈?zhǔn)椒胖?并被期望最優(yōu)地執(zhí)行它們各自類型的音頻處理。例如,某些音頻數(shù)據(jù)可以被編碼以用于高性能的媒體系統(tǒng)并且 可能必須沿著媒體處理鏈被轉(zhuǎn)換成適合移動裝置的縮減形式。因而,音頻處理單元可能不必對已經(jīng)被執(zhí)行了某種類型的處理的音頻數(shù)據(jù)執(zhí)行該類型的音頻處理。例如,音量調(diào)節(jié)(volume leveling)單元可以對輸入音頻剪輯執(zhí)行處理,而不管是否之前已經(jīng)對輸入音頻剪輯執(zhí)行了相同的或類似的音量調(diào)節(jié)。因此,音量調(diào)節(jié)單元可能在不需要時執(zhí)行調(diào)節(jié)。該非必要的處理還可能引起在對音頻數(shù)據(jù)的內(nèi)容進行渲染時的特定特征的去除和/或降級。音頻數(shù)據(jù)的典型的流包括音頻內(nèi)容(如,音頻內(nèi)容的一個或更多個通道)和表示音頻內(nèi)容的至少一個特征的元數(shù)據(jù)二者。例如,在AC-3比特流中,存在若干音頻元數(shù)據(jù)參數(shù),這些音頻元數(shù)據(jù)參數(shù)具體地意在用于改變被遞送到傾聽環(huán)境的節(jié)目的聲音。元數(shù)據(jù)參數(shù)之一是“DIALN0RM”參數(shù),其意在表示出現(xiàn)音頻節(jié)目的會話的平均電平,并且用于確定音頻回放信號電平。在包括不同的音頻節(jié)目分段(每個音頻節(jié)目分段具有不同的DIALN0RM參數(shù))序列的比特流的回放期間,AC-3解碼器使用每個分段的DIALN0RM參數(shù)來執(zhí)行某種類型的響度處理,其中,其修改回放電平或響度,使得分段序列的會話的感知響度處于恒定的電平。編碼音頻項的序列中的每個編碼音頻分段(項)會(通常)具有不同的DIALN0RM參數(shù),并且解碼器可以對其中每個項的電平進行縮放,使得每個項的會話的回放電平或響度相同或者非常類似,雖然這可能需要在回放期間將不同量的增益應(yīng)用于不同的項。DIALN0RM通常由用戶來設(shè)置,并且不是自動生成的,雖然如果用戶沒有設(shè)置任何值時則存在默認的DIALN0RM值。例如,內(nèi)容產(chǎn)生器可以用AC-3編碼器外部的裝置來進行響度測量,并且接著將(表示音頻節(jié)目的口語會話的響度的)結(jié)果傳輸給編碼器以設(shè)置DIALN0RM值。因此,存在為了正確地設(shè)置DIALN0RM參數(shù)而對內(nèi)容產(chǎn)生器的依賴。AC-3比特流中的DIALN0RM參數(shù)可能不正確的原因有若干不同的原因。首先,如果內(nèi)容產(chǎn)生器沒有設(shè)置DIALN0RM值,則每個AC-3編碼器具有在比特流的生成期間使用的默認的DIALN0RM值。該默認值可能與音頻的實際會話響度電平相當(dāng)不同。第二,即使內(nèi)容產(chǎn)生器測量響度并且相應(yīng)地設(shè)置DIALN0RM值,也可能使用不遵守推薦的AC-3響度測量方法的響度測量算法或儀表,從而導(dǎo)致錯誤的DIALN0RM值。第三,即使已經(jīng)利用內(nèi)容產(chǎn)生器正確地測量的并且設(shè)置的DIALN0RM值產(chǎn)生了 AC-3比特流,其可能在比特流的傳輸和/或存儲期間已經(jīng)被改為錯誤的值。例如,在電視廣播應(yīng)用中,使用錯誤的DIALN0RM元數(shù)據(jù)信息來對AC-3比特流進行解碼、修改和接著重新編碼不是不常見。因此,AC-3比特流中所包括的DIALN0RM值可能是不正確的或者不準(zhǔn)確的,因此可能對于傾聽體驗的質(zhì)量有負面影響。此外,DIALN0RM參數(shù)不指示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(如,已經(jīng)對音頻數(shù)據(jù)執(zhí)行了什么類型的響度處理)。在本發(fā)明之前,音頻比特流一直沒有以本公開中描述的類型的格式包括元數(shù)據(jù),所述元數(shù)據(jù)表示音頻比特流的音頻內(nèi)容的響度處理狀態(tài)(如,所應(yīng)用的響度處理的類型)、或者比特流的音頻內(nèi)容的響度處理狀態(tài)和響度。這樣的格式的響度處理狀態(tài)元數(shù)據(jù)用于以特別有效的方式便利對音頻比特流的自適應(yīng)響度處理和/或音頻內(nèi)容的響度處理狀態(tài)和響度的有效性的驗證。國際提交日為2011年12月I日并且被受讓給本申請的受讓人的公開號為W02012/075246A2的PCT國際申請公開了用于生成、解碼和處理包括表示音頻內(nèi)容的處理狀態(tài)(如,響度處理狀態(tài))和特性(如,響度)的元數(shù)據(jù)在內(nèi)的音頻比特流的方法和系統(tǒng)。該參考文獻還描述了使用元數(shù)據(jù)執(zhí)行的對比特流的音頻內(nèi)容的自適應(yīng)處理、以及使用元數(shù)據(jù)執(zhí)行的對比特流的音頻內(nèi)容的響度處理狀態(tài)和響度的有效性的驗證。然而,該參考文獻沒有描述以本公開內(nèi)容中描述的類型的格式在音頻比特流中包括表示音頻內(nèi)容的響度處理狀態(tài)和響度的元數(shù)據(jù)(LPSM)。如所注意到的,這樣的格式的LPSM用于以特別有效的方式便利對流的自適應(yīng)響度處理和/或音頻內(nèi)容的響度處理狀態(tài)和響度的有效性的驗證。雖然本發(fā)明不限于與AC-3比特流、E-AC-3比特流或者杜比E比特流一起使用,然而,為了方便,將在實施例中對其進行描述,在實施例中,其生成、解碼或者處理這樣的包括響度處理狀態(tài)元數(shù)據(jù)在內(nèi)的比特流。AC-3編碼比特流包括元數(shù)據(jù)以及音頻內(nèi)容的一至六個通道。音頻內(nèi)容是已經(jīng)使用感知音頻編碼被壓縮的音頻數(shù)據(jù)。元數(shù)據(jù)包括意在用于改變被遞送給傾聽環(huán)境的節(jié)目的聲音的若干音頻元數(shù)據(jù)參數(shù)。AC-3 (也稱為杜比數(shù)字)編碼的細節(jié)是公知的,并且在很多公開參考文獻中被闡明,這些公開的參考文獻包括:ATSC Standard A52/A:Digital Audio Compression Standard(AC-3), RevisionA,Advanced Television Sy stems Committee, 20Aug.2001 ;以及美國專利5,583,962,5, 632,005,5, 633,981,5, 727,119 和 6,021,386。[0017]“Introduction to Dolby Digital Plus, an Enhancement to the Dolby DigitalCoding System”,AES Convention Paper6191, 117th AESConvention, October28, 2OO4 中闡明了杜比數(shù)字+ (E-AC-3)編碼的細節(jié)?!癊fficient Bit Allocation, Quantization, and Coding in an AudioDistribution System”,AES Preprint5068,107th AES conference, Augustl999 和“Professional Audio Coder Optimized for Use with Video”,AES Preprint5033, 107thAES Conference Augustl999中闡明了杜比E編碼的細節(jié)。AC-3編碼音頻比特流的每個幀包含用于數(shù)字音頻的1536個樣本的音頻內(nèi)容和元數(shù)據(jù)。對于48kHz的采樣速率,這表示32毫秒的數(shù)字音頻或者音頻的每秒31.25個幀的速率。取決于幀包含一個、兩個、三個還是六個音頻數(shù)據(jù)塊,E-AC-3編碼音頻比特流的每個幀分別包含用于數(shù)字音頻的256、512、768或1536個樣本的音頻內(nèi)容和元數(shù)據(jù)。對于48kHz的采樣速率,這分別表示5.333、10.667、16或32毫秒的數(shù)字音頻或者音頻的每秒189.9,93.75,62.5 或 31.25 個幀的速率。如圖4所示,每個AC-3幀被分成區(qū)段(分段),包括:同步信息(SI)區(qū)段,其包含(如圖5所示)同步字(SW)和兩個糾錯字中的第一糾錯字(CRCl);比特流信息(BSI)區(qū)段,其包含元數(shù)據(jù)的大多數(shù);一個至六個之間的音頻塊(AB0至AB5),其包含數(shù)據(jù)壓縮的音頻內(nèi)容(也可以包括元數(shù)據(jù));浪費比特(W),其包含在音頻內(nèi)容被壓縮之后留下的任意的未使用的比特;輔助(AUX)信息區(qū)段,其可以包含更多的元數(shù)據(jù);以及兩個糾錯字中的第二糾錯字(CRC2)。 如圖7所示,每個E-AC-3幀被劃分成區(qū)段(分段),包括:同步信息(SI)區(qū)段,其包含(如圖5所示)同步字(SW);比特流信息(BSI)區(qū)段,其包含元數(shù)據(jù)的大多數(shù);一個至六個之間的音頻塊(AB0至AB5),其包含數(shù)據(jù)壓縮的音頻內(nèi)容(也可以包括元數(shù)據(jù));浪費比特(W),其包含在音頻內(nèi)容被壓縮之后留下的任意的未使用的比特;輔助(AUX)信息區(qū)段,其可以包含更多的元數(shù)據(jù);以及糾錯字(CRC)。在AC-3 (或者E-AC-3)比特流中,存在若干音頻元數(shù)據(jù)參數(shù),該音頻元數(shù)據(jù)參數(shù)具體地意在用于改變被遞送給傾聽環(huán)境的節(jié)目的聲音。元數(shù)據(jù)參數(shù)之一是DIALN0RM參數(shù),其包括在BSI區(qū)段中。如圖6所示,AC-3幀的BSI區(qū)段包括五比特的參數(shù)(“DIALN0RM”),其指示用于該節(jié)目的DIALN0RM值。如果AC-3幀的音頻編碼模式(“acmod”)為“0”,指示使用雙-單或者“ 1+1”通道配置,則包括用于指示同一 AC-3幀中承載的第二音頻節(jié)目的DIALN0RM值的五比特的參數(shù)(“DIALN0RM2,,)。BSI分段還包括:用于表示跟隨“addbsie”比特的附加比特流信息的存在(或不存在)的標(biāo)志(“addbsie”)、用于表示跟隨“addbsil”值的任意附加比特流信息的長度的參數(shù)(“addbsil”)、以及跟隨“addbsil”值的最高達64比特的附加比特流信息(“addbsi ”)。BSI分段包括沒有在圖6中具體示出的其他元數(shù)據(jù)值。

      實用新型內(nèi)容在一類實施例中,本發(fā)明是一種包括以下步驟的方法:通過在比特流的至少一個幀的至少一個分段中包括響度處理狀態(tài)元數(shù)據(jù)(LPSM)并且在該幀的至少一個其他分段中包括音頻數(shù)據(jù),對音頻數(shù)據(jù)進行編碼以生成包括響度處理狀態(tài)元數(shù)據(jù)和音頻數(shù)據(jù)在內(nèi)的編碼音頻比特流。在典型的實施例中,該方法包括步驟:在比特流的每個幀中復(fù)用音頻數(shù)據(jù)與LPSM。在典型的解碼中,解碼器(通過解析和解復(fù)用LPSM和音頻數(shù)據(jù))從包括LPSM和音頻數(shù)據(jù)的比特流中提取LPSM,并且對音頻數(shù)據(jù)進行處理以生成解碼音頻數(shù)據(jù)流(并且,在某些情況下,還使用LPSM執(zhí)行對音頻數(shù)據(jù)的自適應(yīng)響度處理或者對LPSM和/或音頻數(shù)據(jù)的認證和/或驗證中的至少一個)。在某些情況下,解碼音頻數(shù)據(jù)和LPSM從解碼器轉(zhuǎn)發(fā)給后處理器,后處理器被配置成使用LPSM對解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。自適應(yīng)響度處理可以包括動態(tài)范圍和/或響度控制(如,會話響度調(diào)節(jié)或其他音量調(diào)節(jié)),或者自適應(yīng)響度處理可以由動態(tài)范圍和/或響度控制構(gòu)成。響應(yīng)于LPSM,音頻處理單元可以禁止(如LPSM所示)已經(jīng)對相應(yīng)的音頻內(nèi)容執(zhí)行的響度處理??梢詫Ω鶕?jù)本發(fā)明的典型的實施例的嵌入在音頻比特流中的響度處理狀態(tài)元數(shù)據(jù)進行認證和驗證,如使能響度調(diào)節(jié)實體來驗證具體的節(jié)目的響度是否已經(jīng)在指定的范圍內(nèi)以及相應(yīng)的音頻數(shù)據(jù)本身是否還沒有被修改過(從而確保符合可應(yīng)用的規(guī)則)??梢宰x取包括響度處理狀態(tài)元數(shù)據(jù)在內(nèi)的數(shù)據(jù)塊中所包括的響度值,以對其進行驗證,代替再次計算響度。響應(yīng)于LPSM,管理機構(gòu)可以判定相應(yīng)的音頻內(nèi)容是否符合(如LPSM所示)響度法規(guī)和/或管理要求(如,在商業(yè)廣告響度降低法案(Commercial Advertisement LoudnessMitigation Act),也稱為“CALM”法案下公布的規(guī)則),而不需要計算音頻內(nèi)容的響度。本發(fā)明的另外的方面是被配置成執(zhí)行本發(fā)明的方法的任意實施例的音頻處理單元(APU)。在另一類實施例中,本發(fā)明是包括緩沖存儲器(緩沖器)的APU,緩沖存儲器(如,以非暫時性方式)存儲已經(jīng)由本發(fā)明的方法的任意實施例生成的編碼音頻比特流的至少一個幀。APU的示例包括但不限于編碼器(如,轉(zhuǎn)碼器)、解碼器、編解碼器、預(yù)處理系統(tǒng)(預(yù)處理器)、后處理系統(tǒng)(后處理器)、音頻比特流處理系統(tǒng)以及這樣的元件的組合。在另一類實施例中,本發(fā)明是被配置成生成包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的編碼音頻比特流的音頻處理單元(APU),其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),并且至少部分元數(shù)據(jù)分段中的每個包括響 度處理狀態(tài)元數(shù)據(jù)(LPSM)。通常,比特流的幀中的至少一個這樣的元數(shù)據(jù)分段包括=LPSM的表示是否已經(jīng)對幀的音頻數(shù)據(jù)(即在所述幀的至少一個音頻數(shù)據(jù)分段中的音頻數(shù)據(jù))執(zhí)行了第一類型的響度處理的至少一個分段;以及LPSM的表示幀的音頻數(shù)據(jù)中的至少一些的響度(如,表示會話的幀的音頻數(shù)據(jù)中的至少一些的會話響度)的至少一個其他分段。在這種類型的一個實施例中,APU是一種被配置成對輸入音頻進行編碼以生成編碼音頻的編碼器,音頻數(shù)據(jù)分段包括編碼音頻。在這種類型的典型實施例中,每個元數(shù)據(jù)分段具有本文中要描述的優(yōu)選格式。在一種優(yōu)選格式中,編碼比特流是AC-3比特流或者E-AC-3比特流,并且,每個包括LPSM的元數(shù)據(jù)分段作為附加比特流信息被包括在比特流的幀的比特流信息(“BSI”)分段的“addbsi”域中。每個包括LPSM的元數(shù)據(jù)分段具有本文中在以下參考表I和表2指定的格式(即,其包括表I所示的核心元素或者其變型,核心元素或者其變型之后跟隨有效載荷ID (將元數(shù)據(jù)標(biāo)識為LPSM)和有效載荷尺寸值,有效載荷ID和有效載荷尺寸值之后跟隨有效載荷(如本文中所述的具有如表2所示的格式或者表2的變型所示的格式的LPSM數(shù)據(jù)))。[0032]在另一優(yōu)選格式中,編碼比特流是AC-3比特流或者E-AC-3比特流,并且,每個包括LPSM的元數(shù)據(jù)分段被包括在比特流的幀的比特流信息(“BSI ”)分段的“addbsi ”域中,或者被包括在比特流的幀的端部處的auxdata (輔助數(shù)據(jù))域(如,圖4所示的AUX分段)中。幀可以包括一個或兩個元數(shù)據(jù)分段,每個元數(shù)據(jù)分段包括LPSM,并且,如果幀包括兩個元數(shù)據(jù)分段,則其中一個元數(shù)據(jù)分段存在于幀的addbsi域中,而另一個元數(shù)據(jù)分段存在于幀的AUX域中。包括LPSM的每個元數(shù)據(jù)分段具有本文中在以下參考表I和表2指出的格式(即,其包括表I所示的核心元素或者其變型,之后跟隨有效載荷ID (將元數(shù)據(jù)標(biāo)識為LPSM))和有效載荷尺寸值,之后跟隨有效載荷(如本文中所述的具有如表2所示的格式或者表2的變型所示的格式的LPSM數(shù)據(jù))。在另一優(yōu)選格式中,編碼比特流是一種并非AC-3比特流或者E-AC-3比特流的比特流,并且,包括LPSM的元數(shù)據(jù)分段中的每個被包括在被保留用于存儲附加數(shù)據(jù)的比特流的分段(或域、或時隙)中。包括LPSM的每個元數(shù)據(jù)分段可以具有與本文中在以下參考表I和表2指出的格式類似或相同的格式(S卩,其包括與表I所示的核心元素類似或相同的核心元素,之后跟隨有效載荷ID (將元數(shù)據(jù)標(biāo)識為LPSM)和有效載荷尺寸值,之后跟隨有效載荷(具有與如本文中所述的如表2所示的格式或者表2的變型所示的格式類似或相同的格式的LPSM數(shù)據(jù)))。在某些實施例中,編碼比特流包括幀的序列,每個幀包括比特流信息(“BSI ”)分段和auxdata域或時隙(如,編碼比特流是AC_3比特流或者E_AC_3比特流),其中,比特流信息(“BSI ”)分段包括“addbsi ”域(有時稱為分段或時隙),并且,每個幀包括音頻數(shù)據(jù)分段(如,圖4所示的幀的AB0-AB5分段)和元數(shù)據(jù)分段,其中,元數(shù)據(jù)分段表示音頻數(shù)據(jù),至少部分元數(shù)據(jù)分段的每個包括響度處理狀態(tài)元數(shù)據(jù)(LPSM)。LPSM以以下格式存在于比特流中。包括LPSM的元數(shù)據(jù)分段中的每個被包括在比特流的幀的BSI分段的“addbsi”域中,或者被包括在比特流的巾貞的auxdata域中。比特流的巾貞可以包括一個或兩個元數(shù)據(jù)分段,每個元數(shù)據(jù)分段包括LPSM,并且,如果幀包括兩個元數(shù)據(jù)分段,則其中一個元數(shù)據(jù)分段存在于幀的addbsi域中,而另一個存在于 幀的AUX域中。包括LPSM的每個元數(shù)據(jù)分段包括具有以下格式的LPSM有效載荷(或容器)分段:首部(通常包括至少一個標(biāo)識值,如以下表2中所示的LPSM格式版本、長度、周期、計數(shù)和子流關(guān)聯(lián)值);以及在首部之后的:至少一個會話指示值(如,表2的參數(shù)“會話通道”),其指示相應(yīng)的音頻數(shù)據(jù)是指示會話還是不指示會話(如,相應(yīng)的音頻數(shù)據(jù)的哪個通道指示會話)。會話指示值可以指示會話是否存在于相應(yīng)的音頻數(shù)據(jù)的通道的任意組合或所有通道中;至少一個響度調(diào)節(jié)相符值(如,表2的參數(shù)“響度調(diào)節(jié)類型”),其指示相應(yīng)的音頻數(shù)據(jù)是否與所指示的響度調(diào)節(jié)的集合相符;至少一個響度處理值(如,表2的參數(shù)“會話選通的響度校正標(biāo)志”、“響度校正類型”中的一個或更多個),其指示已經(jīng)對相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及至少一個響度值(如,表2的參數(shù)“ ITU相對選通的響度”、“ ITU語音選通的響度”、“ITU (EBU3341)短期3s響度”和“真實峰值”中的一個或更多個),其指示相應(yīng)的音頻數(shù)據(jù)的至少一個響度(如,峰值或者平均響度)特性。在本發(fā)明的專注、使用或者生成表示相應(yīng)的音頻數(shù)據(jù)的至少一個響度值的任意實施例中,響度值可以指示用于處理音頻數(shù)據(jù)的響度和/或動態(tài)范圍的至少一個響度測量特性。在一些實現(xiàn)中,比特流的巾貞的“addbsi”域或auxdata域中的每個元數(shù)據(jù)分段具有以下格式:核心首部(通常包括標(biāo)識元數(shù)據(jù)分段的開始的同步字,其后跟隨標(biāo)識值,如以下表I中所示的核心元素版本、長度和周期、擴展元素計數(shù)以及子流關(guān)聯(lián)值);以及在核心首部之后的至少一個保護值(如,HMAC摘要和音頻指紋值,其中,HMAC摘要可以是基于整個幀的音頻數(shù)據(jù)、核心元素和所有的擴展元素計算的256比特的HMAC摘要(使用SHA-2算法),如表I所示,其用于響度處理狀態(tài)元數(shù)據(jù)或相應(yīng)的音頻數(shù)據(jù)中的至少一個的解密、認證或驗證中的至少一個);以及如果元數(shù)據(jù)分段包括LPSM,則也在核心首部之后的LPSM有效載荷標(biāo)識(ID)和LPSM有效載荷尺寸值,其將跟隨的元數(shù)據(jù)標(biāo)識為LPSM有效載荷并且指示LPSM有效載荷的尺寸。LPSM有效載荷分段(優(yōu)選地具有上述格式)跟隨LPSM有效載荷ID和LPSM有效載荷尺寸值。在以上段落中描述的類型的一些實施例中,幀的auxdata域(或者“addbsi”域)中的每個元數(shù)據(jù)分段具有三層結(jié)構(gòu):高層結(jié)構(gòu),包括:指示auxdata(或addbsi)域是否包括元數(shù)據(jù)的標(biāo)志;指示存在的是什么類型的元數(shù)據(jù)的至少一個ID值;以及通常還包括指示存在多少比特的元數(shù)據(jù)(如,每種類型的元數(shù)據(jù))的值(如果存在元數(shù)據(jù))??赡艽嬖诘囊环N類型的元數(shù)據(jù)是LPSM,可能存在的另一種類型的元數(shù)據(jù)是媒體研究元數(shù)據(jù)(如,尼爾森(Nielsen)媒體研究元數(shù)據(jù));中層結(jié)構(gòu),包括用于每個標(biāo)識的類型的元數(shù)據(jù)的核心元素(如,對于每種標(biāo)識的類型的元數(shù)據(jù)如上述類型的核心首部、保護值和有效載荷ID以及有效載荷尺寸值);以及低層結(jié)構(gòu),包括用于一個核心元素的每個有效載荷(如,如果核心元素將其標(biāo)識為存在,則是LPSM有效載荷,和/或,如果核心元素將其標(biāo)識為存在,則是另一種類型的元數(shù)據(jù)有效載荷)??梢詫υ谶@樣的三層結(jié)構(gòu)中的數(shù)據(jù)值進行嵌套。例如,可以在由核心元素標(biāo)識的有效載荷之后(從而在核心元素的核心首部之后),包括用于LPSM有效載荷和/或由核心元素標(biāo)識的另一元數(shù)據(jù) 有效載荷的保護值。在一種示例中,核心首部可以標(biāo)識LPSM有效載荷與另一元數(shù)據(jù)有效載荷,用于第一有效載荷(如,LPSM有效載荷)的有效載荷ID和有效載荷尺寸值可以跟隨核心首部,第一有效載荷本身可以跟隨該ID和尺寸值,用于第二有效載荷的有效載荷ID和有效載荷尺寸值可以跟隨第一有效載荷,第二有效載荷本身可以跟隨這些ID和尺寸值,并且,兩種有效載荷之一或兩者(或者核心元素值和兩種有效載荷之一或兩者)的保護值可以跟隨最后的有效載荷。在一些實施例中,幀的auxdata域(或“addbsi”域)中的元數(shù)據(jù)分段的核心元素包括核心首部(通常包括標(biāo)識值,如核心元素版本),并且在核心首部之后包括:指示指紋數(shù)據(jù)是否被包括用于元數(shù)據(jù)分段的元數(shù)據(jù)的值、指示是否存在外部數(shù)據(jù)(與對應(yīng)于元數(shù)據(jù)分段的元數(shù)據(jù)的音頻數(shù)據(jù)有關(guān))的值、由核心元素標(biāo)識的每種類型的元數(shù)據(jù)(如,LPSM和/或除了 LPSM之外的類型的元數(shù)據(jù))的有效載荷ID和有效載荷尺寸值、以及由核心元素標(biāo)識的至少一種類型的元數(shù)據(jù)的保護值。元數(shù)據(jù)分段的元數(shù)據(jù)有效載荷跟隨核心首部,并且(在一些情況下)被嵌套在核心元素的值內(nèi)。在另一優(yōu)選格式中,編碼比特流是杜比E比特流,并且,包括LPSM的元數(shù)據(jù)分段中的每個被包括在杜比E保護帶間隔的前N個樣本位置中。在另一類型的實施例中,本發(fā)明是APU (如,解碼器),APU被耦接和配置來接收包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的編碼音頻比特流的,其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),并且至少部分元數(shù)據(jù)分段中的每個包括響度處理狀態(tài)元數(shù)據(jù)(LPSM),并且APU被耦接和配置來從比特流中提取LPSM,響應(yīng)于音頻數(shù)據(jù)來生成解碼音頻數(shù)據(jù)、以及使用LPSM對音頻數(shù)據(jù)執(zhí)行至少一個自適應(yīng)響度處理操作。這種類型中的某些實施例還包括耦接至APU的后處理器,其中,后處理器被耦接和配置來使用LPSM對音頻數(shù)據(jù)執(zhí)行至少一個自適應(yīng)響度處理操作。在另一類型的實施例中,本發(fā)明是包括緩沖存儲器(緩沖器)和耦接至緩沖器的處理子系統(tǒng)的音頻處理單元(APU)。其中,APU被耦接成接收包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的編碼音頻比特流,其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),并且至少部分元數(shù)據(jù)分段中的每個包括響度處理狀態(tài)元數(shù)據(jù)(LPSM)、緩沖器(如,以非暫時性方式)存儲編碼音頻比特流的至少一個幀,并且處理子系統(tǒng)被配置成從比特流中提取LPSM以及使用LPSM對音頻數(shù)據(jù)執(zhí)行至少一個自適應(yīng)響度處理操作。在這種類型中的典型的實施例中,APU是編碼器、解碼器和后處理器中的一種。在本發(fā)明的方法的一些實現(xiàn)中,所生成的音頻比特流是AC-3編碼比特流、E-AC-3比特流或者杜比E比特流中的一種,包括響度處理狀態(tài)元數(shù)據(jù)以及其他元數(shù)據(jù)(如,DIALN0RM元數(shù)據(jù)參數(shù)、動態(tài)范圍控制元數(shù)據(jù)參數(shù)和其他元數(shù)據(jù)參數(shù))。在方法的一些其他實現(xiàn)中,所生成的音頻比特流是另一類型的編碼比特流。本發(fā)明的各個方面包括被配置(或編程)成執(zhí)行本發(fā)明的方法的任意實施例的系統(tǒng)或裝置、以及(如,以非暫 時性方式)存儲用于實現(xiàn)本發(fā)明的方法或其步驟的任意實施例的代碼的計算機可讀介質(zhì)(如,磁盤)。例如,本發(fā)明的系統(tǒng)可以是或者包括用軟件或固件編程的可編程通用處理器、數(shù)字信號處理器或微處理器,和/或被配置成執(zhí)行對數(shù)據(jù)的各種操作中的任意操作,包括發(fā)明的方法或其步驟的實施例。這樣的通用處理器可以是或者包括如下計算機系統(tǒng):其包括輸入裝置、存儲器和處理電路,其被編程為(和/或被配置成)響應(yīng)于向其傳送的數(shù)據(jù)來執(zhí)行本發(fā)明的方法(或步驟)的實施例。

      圖1是可以被配置成執(zhí)行本發(fā)明的方法的實施例的系統(tǒng)的實施例的框圖;圖2是作為本發(fā)明的音頻處理單元的實施例的編碼器的框圖;圖3是作為本發(fā)明的音頻處理單元的實施例的解碼器以及作為本發(fā)明的音頻處理單元的另一實施例的與解碼器耦接的后處理器的框圖;圖4是AC-3幀的圖,包括其被劃分成的分段;圖5是AC-3幀的同步信息(SI)分段的圖,包括其被劃分成的分段;圖6是AC-3幀的比特流信息(BSI)分段的圖,包括其被劃分成的分段;以及圖7是E-AC-3幀的圖,包括其被劃分成的分段。[0063]符號和命名貫穿本公開,包括在權(quán)利要求中,在廣義上使用“對”信號或數(shù)據(jù)執(zhí)行操作(如,對信號或數(shù)據(jù)進行濾波、縮放、變換或施加增益)的表述來表示直接對信號或數(shù)據(jù)、或者對信號或數(shù)據(jù)的已處理版本(如,對在對其執(zhí)行該操作之前已經(jīng)經(jīng)歷了初步的濾波或預(yù)處理的信號的版本)執(zhí)行該操作。貫穿本公開,包括在權(quán)利要求中,在廣義上使用表述“系統(tǒng)”來表示裝置、系統(tǒng)或子系統(tǒng)。例如,實現(xiàn)解碼器的子系統(tǒng)可以被稱為解碼器系統(tǒng),包括這樣的子系統(tǒng)的系統(tǒng)(如,響應(yīng)于多個輸入生成X個輸出信號的系統(tǒng),其中,子系統(tǒng)生成M個輸入,其他X-M個輸入從外部源來接收)也可以被稱為解碼器系統(tǒng)。貫穿本公開,包括在權(quán)利要求中,在廣義上使用術(shù)語“處理器”來表示可編程或者否則可(利用軟件或固件)配置以對數(shù)據(jù)(如,音頻或視頻或其他圖像數(shù)據(jù))執(zhí)行操作的系統(tǒng)或裝置。處理器的示例包括現(xiàn)場可編程門陣列(或者其他可配置集成電路或芯片組)、被編程和/或否則被配置成對音頻或其他聲音數(shù)據(jù)執(zhí)行流水線處理的數(shù)字信號處理器、可編程通用處理器或計算機、以及可編程微處理器芯片或芯片組。貫穿本公開,包括在權(quán)利要求中,表述“音頻處理器”和“音頻處理單元”被可交換地使用,并且在廣義上被用來表示被配置成處理音頻數(shù)據(jù)的系統(tǒng)。音頻處理單元的示例包括但不限于編碼器(如,轉(zhuǎn)碼器)、解碼器、編解碼器、預(yù)處理系統(tǒng)、后處理系統(tǒng)和比特流處理系統(tǒng)(有時被稱為比特流處理工具)。貫穿本公開,包括在權(quán)利要求中,表述“處理狀態(tài)元數(shù)據(jù)”(如,在表述“響度處理狀態(tài)元數(shù)據(jù)”中)指與相應(yīng)的音頻數(shù)據(jù)(也包括處理狀態(tài)元數(shù)據(jù)在內(nèi)的音頻數(shù)據(jù)流的音頻內(nèi)容)分離的且不同的數(shù)據(jù)。處理狀態(tài)元數(shù)據(jù)與音頻數(shù)據(jù)相關(guān)聯(lián),指示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(如,已經(jīng)對音頻數(shù)據(jù)執(zhí)行了什么類型的處理),并且通常還指示音頻數(shù)據(jù)的至少一個特征或特性。處理狀態(tài)元數(shù)據(jù)與音頻數(shù)據(jù)的關(guān)聯(lián)是時間同步的。因此,當(dāng)前(最近接收的或更新的)處理狀態(tài)元數(shù)據(jù)指 示相應(yīng)的音頻數(shù)據(jù)同時包括指示類型的音頻數(shù)據(jù)處理的結(jié)果。在某些情況下,處理狀態(tài)元數(shù)據(jù)可以包括處理歷史和/或用在指示類型的處理中和/或根據(jù)指示類型的處理得到的參數(shù)中的一些或全部。附加地,處理狀態(tài)元數(shù)據(jù)可以包括相應(yīng)的音頻數(shù)據(jù)的至少一個特征或特性,所述至少一個特征或特性已經(jīng)根據(jù)音頻數(shù)據(jù)計算出或從音頻數(shù)據(jù)中提取到。處理狀態(tài)元數(shù)據(jù)還可以包括不是與相應(yīng)的音頻數(shù)據(jù)的任意處理相關(guān)的或者不是從相應(yīng)的音頻數(shù)據(jù)的任意處理中得到的其他元數(shù)據(jù)。例如,可以通過具體的音頻處理單元來添加第三方數(shù)據(jù)、樂曲(tracking)信息、標(biāo)識符、專有權(quán)或標(biāo)準(zhǔn)信息、用戶注解數(shù)據(jù)、用戶偏好數(shù)據(jù)等,以傳遞給其他音頻處理單元。貫穿本公開,包括在權(quán)利要求中,表述“響度處理狀態(tài)元數(shù)據(jù)”(或“LPSM”)表示如下處理狀態(tài)元數(shù)據(jù):其表示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(如,已經(jīng)對音頻數(shù)據(jù)執(zhí)行了什么類型的響度處理),并且通常還表示相應(yīng)的音頻數(shù)據(jù)的至少一個特征或特性(如,響度)。響度處理狀態(tài)元數(shù)據(jù)可以包括不是(即,當(dāng)其被單獨考慮時)響度處理狀態(tài)元數(shù)據(jù)的數(shù)據(jù)(如,其他元數(shù)據(jù))。貫穿本公開,包括在權(quán)利要求中,使用術(shù)語“耦接(couples)”或“被耦接(coupled)”來表示直接連接或間接連接。因此,如果第一裝置耦接至第二裝置,則該連接可以是直接連接或者是通過其他裝置和連接實現(xiàn)的間接連接。
      具體實施方式
      根據(jù)本發(fā)明的典型的實施例,響度處理狀態(tài)元數(shù)據(jù)(LPSM)嵌入在音頻比特流的元數(shù)據(jù)分段的一個或多個保留的域(或時隙)中,該音頻比特流在其他分段(音頻數(shù)據(jù)分段)中也包括音頻數(shù)據(jù)。通常,比特流的每個幀的至少一個分段包括LPSM,該幀的至少一個其他分段包括相應(yīng)的音頻數(shù)據(jù)(即,由LPSM指示其響度處理狀態(tài)和響度的音頻數(shù)據(jù))。在一些實施例中,LPSM的數(shù)據(jù)量可以充分小以在不影響被分配用于承載音頻數(shù)據(jù)的比特速率的情況下被承載。當(dāng)兩個或更多個音頻處理單元需要遍及處理鏈(或內(nèi)容生命周期)彼此串聯(lián)工作時,在音頻數(shù)據(jù)處理鏈中傳送響度處理狀態(tài)元數(shù)據(jù)特別有用。在音頻比特流中不包括響度處理狀態(tài)元數(shù)據(jù)的情況下,例如,當(dāng)在鏈中使用兩個或更多個音頻編解碼器并且在比特流的至媒體消耗裝置(或者比特流的音頻內(nèi)容的渲染點)的行程期間不止一次施加單端音量調(diào)節(jié)時,可能出現(xiàn)嚴重的媒體處理問題,如質(zhì)量、電平和空間的降級。圖1是示例性音頻處理鏈(音頻數(shù)據(jù)處理系統(tǒng))的框圖,其中,可以根據(jù)本發(fā)明的實施例配置系統(tǒng)的元件中的一個或更多個。該系統(tǒng)包括如所示出地那樣耦接在一起的以下元件:預(yù)處理單元、編碼器、信號分析和元數(shù)據(jù)校正單元、轉(zhuǎn)碼器、解碼器和預(yù)處理單元。在所示出的系統(tǒng)的變型中,省略了其中一個或多個元件,或者包括附加的音頻數(shù)據(jù)處理單元。在一些實現(xiàn)中,圖1的預(yù)處理單元被配置成:接受包括音頻內(nèi)容在內(nèi)的PCM(時域)樣本作為輸入;以及輸出經(jīng)處理的PCM樣本。編碼器可以被配置成:接受PCM樣本作為輸A ;以及輸出表示音頻內(nèi)容的編碼比特流(如,壓縮)音頻比特流。表示音頻內(nèi)容的比特流的數(shù)據(jù)有時在本文中被稱為“音頻數(shù)據(jù)”。如果編碼器根據(jù)本發(fā)明的典型的實施例來配置,則從編碼器輸出的音頻比特流包括響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))以及音頻數(shù)據(jù)。圖1的信號分析和元數(shù)據(jù)校正單元可以接受一個或更多個編碼音頻比特流作為輸入,并且通過執(zhí)行信號·分析來判定(如,驗證)在每個編碼音頻比特流中的處理狀態(tài)元數(shù)據(jù)是否正確。如果信號分析和元數(shù)據(jù)校正單元發(fā)現(xiàn)所包括的元數(shù)據(jù)無效,則其通常用根據(jù)信號分析獲得的正確的值來替代錯誤的值。因此,從信號分析和元數(shù)據(jù)校正單元輸出的每個編碼音頻比特流可以包括已校正(或未校正)處理狀態(tài)元數(shù)據(jù)以及編碼比特流音頻數(shù)據(jù)。圖1的轉(zhuǎn)碼器可以接受編碼音頻比特流作為輸入,并且相應(yīng)地輸出已修改(如,不同地編碼的)音頻比特流(如,通過對輸入流進行解碼并且以不同的編碼格式對解碼流進行重新編碼)。如果轉(zhuǎn)碼器根據(jù)本發(fā)明的典型的實施例來配置,則從轉(zhuǎn)碼器輸出的音頻比特流包括響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))以及編碼比特流音頻數(shù)據(jù)。元數(shù)據(jù)已經(jīng)被包括在比特流中。圖1的解碼器可以接受編碼(如,壓縮)音頻比特流作為輸入,并且(相應(yīng)地)輸出解碼PCM音頻樣本的流。如果解碼器根據(jù)本發(fā)明的典型的實施例來配置,則典型的操作中的解碼器的輸出是或者包括以下中的任一個:音頻樣本的流、以及從輸入編碼比特流中提取的響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))的相應(yīng)的流;或者音頻樣本的流、以及根據(jù)從輸入編碼比特流中提取的響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))確定的相應(yīng)的控制比特的流;或者在沒有處理狀態(tài)元數(shù)據(jù)或根據(jù)處理狀態(tài)元數(shù)據(jù)確定的控制比特的相應(yīng)的流的情況下的音頻樣本的流。在該最后的情況下,解碼器可以從輸入編碼比特流中提取響度處理狀態(tài)元數(shù)據(jù)(和/或其他元數(shù)據(jù)),以及對所提取的元數(shù)據(jù)執(zhí)行至少一次操作(如,驗證),雖然其沒有輸出所提取的元數(shù)據(jù)或者根據(jù)其確定的控制比特。通過根據(jù)本發(fā)明的典型的實施例來配置圖1的后處理單元,后處理單元被配置成接受解碼PCM音頻樣本的流,并且使用與樣本一起接收的響度處理狀態(tài)元數(shù)據(jù)(通常還有其他元數(shù)據(jù))或者與樣本一起接收的控制比特(其由解碼器根據(jù)響度處理狀態(tài)元數(shù)據(jù)并且通常還根據(jù)其他元數(shù)據(jù)確定)來對其執(zhí)行后處理(即,音頻內(nèi)容的音量調(diào)節(jié))。后處理單元通常還被配置成對經(jīng)后處理的音頻內(nèi)容進行渲染以由一個或更多個揚聲器回放。本發(fā)明的典型的實施例提供了增強型音頻處理鏈,其中,根據(jù)由通過音頻處理單元分別接收的響度處理狀態(tài)元數(shù)據(jù)指示的元數(shù)據(jù)的同時期的狀態(tài),音頻處理單元(如,編碼器、解碼器、轉(zhuǎn)碼器、預(yù)處理單元和后處理單元)適配待施加給音頻數(shù)據(jù)的它們的各個處理。輸入到圖1的系統(tǒng)的任意音頻處理單元(如,圖1的編碼器或轉(zhuǎn)碼器)的音頻數(shù)據(jù)可以包括響度處理狀態(tài)元數(shù)據(jù)(還可選地包括其他元數(shù)據(jù))以及音頻數(shù)據(jù)(如,編碼音頻數(shù)據(jù))。根據(jù)本發(fā)明的實施例,該元數(shù)據(jù)可以已經(jīng)通過圖1的系統(tǒng)的另一元件(或者圖1中未示出的另一源)被包括在輸入音頻中。接收(具有元數(shù)據(jù)的)輸入音頻的處理單元可以被配置成對元數(shù)據(jù)執(zhí)行至少一個操作(如,驗證)或者響應(yīng)于元數(shù)據(jù)執(zhí)行至少一個操作(如,對輸入音頻的自適應(yīng)處理),并且通常還被配置成在其輸出音頻中包括元數(shù)據(jù)、元數(shù)據(jù)的已處理版本或者根據(jù)元數(shù)據(jù)確定的控制比特。本發(fā)明的音頻處理單元(或音頻處理器)的典型實施例被配置成基于由與音頻數(shù)據(jù)對應(yīng)的響度處理狀態(tài)元數(shù)據(jù)指示的音頻數(shù)據(jù)的狀態(tài)來執(zhí)行對音頻數(shù)據(jù)的自適應(yīng)處理。在一些實施例中,自適應(yīng)處理是(或者包括)響度處理(如果元數(shù)據(jù)指示還沒有對音頻數(shù)據(jù)執(zhí)行響度處理或者與其類似的處理),并且不是(或者不包括)響度處理(如果元數(shù)據(jù)指示已經(jīng)對音頻數(shù)據(jù)執(zhí)行了這樣的響度處理或者與其類似的處理)。在一些實施例中,自適應(yīng)處理是或者包括元數(shù)據(jù)驗證(如,在元數(shù)據(jù)驗證子單元中執(zhí)行的元數(shù)據(jù)驗證),以確保音頻處理單元基于由響度處理狀態(tài)元數(shù)據(jù)指示的音頻數(shù)據(jù)的狀態(tài)來執(zhí)行對音頻數(shù)據(jù)的其他自適應(yīng)處理。在一些實施例中,驗證判定與該音頻數(shù)據(jù)相關(guān)聯(lián)(如,包括在具有該音頻數(shù)據(jù)的比特流中)的響度處理狀態(tài)元數(shù)據(jù)的可靠性。例如,如果元數(shù)據(jù)被驗證為可靠,則可以重復(fù)使用來自某種類型的事先執(zhí)行的音頻處理的結(jié)果,并且可以避免同一類型的音頻處理的新的執(zhí)行。另一方面,如果發(fā)現(xiàn)元數(shù)據(jù)已經(jīng)被篡改(或者不可靠),則可以由音頻處理單元來重復(fù)據(jù)稱事先被執(zhí)行的這種類型的媒體處理(如不可靠的元數(shù)據(jù)指示的那樣),和/或可以由音頻處理單元對元數(shù)據(jù)和/或音頻數(shù)據(jù)執(zhí)行其他處理。音頻處理單元還可以被配置成如果音頻處理單元判定處理狀態(tài)元數(shù)據(jù)有效(如,基于所提取的密碼值與參考密碼值的匹配),則向增強型媒體處理鏈中的下游的其他音頻處理單元示意響度處理狀態(tài)元數(shù)據(jù)(如,存在于媒體比特流中的響度處理狀態(tài)元數(shù)據(jù))是有效的。圖2是作為本發(fā)明的音頻處理單元的實施例的編碼器(100)的框圖。編碼器100的任意部件或元件都可以用硬件、軟件或硬件與軟件的組合實現(xiàn)為一個或更多個處理和/或一個或 更多個電路(如,ASIC、FPGA或其他集成電路)。編碼器100包括如所示地連接的幀緩沖器110、解析器111、解碼器101、音頻狀態(tài)驗證器102、響度處理級103、音頻流選擇級104、編碼器105、填充器/格式器級107、元數(shù)據(jù)生成級106、會話響度測量子系統(tǒng)108和幀緩沖器109。通常,編碼器100還包括其他處理元件(未示出)。編碼器100 (作為轉(zhuǎn)碼器)被配置成通過使用輸入比特流中所包括的響度處理狀態(tài)元數(shù)據(jù)執(zhí)行自適應(yīng)和自動響度處理,來將輸入音頻比特流(例如,可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的一種)轉(zhuǎn)換成包括響度處理狀態(tài)元數(shù)據(jù)的編碼輸出音頻比特流(例如,可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的另一種)。例如,編碼器100可以被配置成將輸入的杜比E比特流(通常用在制作和廣播設(shè)施而非接收已經(jīng)向其廣播的音頻節(jié)目的消費者裝置中的格式)轉(zhuǎn)換成AC-3或E-AC-3格式的編碼輸出音頻比特流(適于廣播給用戶裝置)。圖2的系統(tǒng)還包括編碼音頻遞送子系統(tǒng)150 (其存儲和/或遞送從編碼器100輸出的編碼比特流)和解碼器152。從編碼器100輸出的編碼音頻比特流可以由子系統(tǒng)150來存儲(如,以DVD或藍光光盤的形式)、或者由子系統(tǒng)150來發(fā)送(其可以實現(xiàn)發(fā)送鏈路或網(wǎng)絡(luò))、或者可以由子系統(tǒng)150來存儲和發(fā)送。解碼器152被配置成通過從比特流的每個幀中提取響度處理狀態(tài)元數(shù)據(jù)(LPSM)、以及生成解碼音頻數(shù)據(jù),來對其通過子系統(tǒng)150接收的(由編碼器100生成的)包括響度處理狀態(tài)元數(shù)據(jù)的編碼音頻比特流進行解碼。通常,解碼器152被配置成使用LPSM對解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理,和/或?qū)⒔獯a音頻數(shù)據(jù)和LPSM轉(zhuǎn)發(fā)給后處理器,后處理器被配置成使用LPSM對解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。通常,解碼器152包括用于(如,以非暫時性方式)存儲從子系統(tǒng)150接收的編碼音頻比特流的緩沖器。編碼器100和解碼器152的各種實現(xiàn)可以被配置成執(zhí)行本發(fā)明的方法的不同的實施例。幀緩沖器110是被耦接成接收編碼輸入音頻比特流的緩沖存儲器。在操作中,緩沖器110 (如,以非暫時性方式)存儲編碼音頻比特流的至少一個幀,并且,編碼音頻比特流的幀的序列被從緩沖器110向解析器111傳送(assert)。解析器111被耦接和配置來從編碼輸入音頻的每個幀中提取響度處理狀態(tài)元數(shù)據(jù)(LPSM)和其他元數(shù)據(jù),以向音頻狀態(tài)驗證器102、響度處理級103、級106和子系統(tǒng)108傳送至少LPSM,以從編碼輸入音頻中提取音頻數(shù)據(jù),以及以向解碼器101傳送音頻數(shù)據(jù)。編碼器100的解碼器101被配置成對音頻數(shù)據(jù)進行解碼以生成解碼音頻數(shù)據(jù),以及向響度處理級103、音頻流選擇級104、子系統(tǒng)108以及通常也向狀態(tài)驗證器102傳送解碼音頻數(shù)據(jù)。狀態(tài)驗證器102被配置成對向其傳送的LPSM (通常還有其他元數(shù)據(jù))進行認證和驗證。在一些實施例中,LPSM是已經(jīng)被包括在(如,根據(jù)本發(fā)明的實施例的)輸入比特流中的數(shù)據(jù)塊(或者被包括在已經(jīng)被包括在輸入比特流中的數(shù)據(jù)塊中)。該塊可以包括用于處理LPSM (以及可選地還有其他元數(shù)據(jù))和/或潛在的(從解碼器101提供給驗證器102的)音頻數(shù)據(jù)的加密散列(基于散列的消息認證代碼或“HMAC”)。該數(shù)據(jù)塊在這些實施例中可以以數(shù)字形式標(biāo)記,使得下游音頻處理單元可以相對容易地認證和驗證處理狀態(tài)元數(shù)據(jù)。例如,使用HMAC來生成摘要(digest),并且,包括在本發(fā)明的比特流中的保護值可以包括摘要??梢匀缦箩槍C-3幀生成摘要:1.在AC-3數(shù)據(jù)和 LPSM被編碼之后,使用幀數(shù)據(jù)字節(jié)(級聯(lián)的frame_data#l和frame_data#2)和LPSM數(shù)據(jù)字節(jié)作為用于散列函數(shù)HMAC的輸入。在計算摘要時不考慮可能存在于auxdata域中的其他數(shù)據(jù)。這樣的其他數(shù)據(jù)可以是既不屬于AC_3數(shù)據(jù)也不屬于LSPSM數(shù)據(jù)的字節(jié)??梢栽谟嬎鉎MAC摘要時不考慮LPSM中所包括的保護比特。2.在計算摘要之后,將其寫入被保留用于保護比特的域中的比特流中。3.完整的AC-3幀的生成的最后的步驟是計算CRC校驗。其被寫在幀的最末端,并且,將屬于該幀的所有的數(shù)據(jù)都考慮在內(nèi),包括LPSM比特。可以將包括但不限于一種或更多種非HMAC加密方法中的任一種的其他加密算法用于LPSM的驗證(如,在驗證器102中),以確保對于LPSM和/或潛在的音頻數(shù)據(jù)的安全的發(fā)送和接收。例如,可以在接收本發(fā)明的音頻比特流的實施例的每個音頻處理單元中執(zhí)行驗證(使用這樣的加密方法的驗證),以判定包括在比特流中的響度處理狀態(tài)元數(shù)據(jù)和相應(yīng)的音頻數(shù)據(jù)是否已經(jīng)經(jīng)歷了(由元數(shù)據(jù)指示的)特定的響度處理(和/或是否已經(jīng)從特定的響度處理得到)以及是否在這樣的特定的響度處理執(zhí)行之后尚未被修改。狀態(tài)驗 證器102向音頻流選擇級104、元數(shù)據(jù)生成器106和會話響度測量子系統(tǒng)108傳送控制數(shù)據(jù),以指示驗證操作的結(jié)果。響應(yīng)于控制數(shù)據(jù),級104可以選擇以下中的任一項(并且將其傳送給編碼器105):響度處理級103的經(jīng)自適應(yīng)處理的輸出(如,當(dāng)LPSM指示從解碼器101輸出的音頻數(shù)據(jù)尚未經(jīng)歷特定類型的響度處理,并且來自驗證器102的控制比特指示LPSM有效時);或者從解碼器101輸出的音頻數(shù)據(jù)(如,當(dāng)LPSM指示從解碼器101輸出的音頻數(shù)據(jù)已經(jīng)經(jīng)歷了可以由級103來執(zhí)行的特定類型的響度處理,并且來自驗證器102的控制比特指示LPSM有效時)。編碼器100的級103被配置成基于由解碼器101提取的LPSM所指示的一個或更多個音頻數(shù)據(jù)特性,對從解碼器101輸出的解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。級103可以是自適應(yīng)變換域?qū)崟r響度和動態(tài)范圍控制處理器。級103可以接收用戶輸入(如,用戶目標(biāo)響度/動態(tài)范圍值或dialnorm值)、或者其他元數(shù)據(jù)輸入(如,一種或多種類型的第三方數(shù)據(jù)、樂曲信息、標(biāo)識符、專有權(quán)或標(biāo)準(zhǔn)信息、用戶注解數(shù)據(jù)、用戶偏好數(shù)據(jù)等)和/或其他輸入(如,來自指紋處理的其他輸入),并且使用這樣的輸入來對從解碼器101輸出的解碼音頻數(shù)據(jù)進行處理。當(dāng)來自驗證器102的控制比特指示LPSM無效時,會話響度測量子系統(tǒng)108可以操作以使用如由解碼器101提取的LPSM (和/或其他元數(shù)據(jù))來確定指示會話(或其他語音)的解碼音頻(來自解碼器101)的分段的響度。當(dāng)來自驗證器102的控制比特指示LPSM有效時當(dāng)LPSM指示之前確定的解碼音頻(來自解碼器101)的會話(或其他語音)分段的響度時,可以禁止會話響度測量子系統(tǒng)108的操作。存在有用的工具(如,杜比LM100響度儀表),用于方便且容易地測量音頻內(nèi)容中的會話的電平。本發(fā)明的APU (如,編碼器100的級108)的一些實施例被實現(xiàn)為包括這樣的工具(或執(zhí)行這樣的工具的功能)以測量音頻比特流的音頻內(nèi)容的平均會話響度(如,從編碼器100的解碼器101向級108傳送的解碼AC-3比特流)。如果級108被實現(xiàn)為測量音頻數(shù)據(jù)的真實的平均會話響度,則測量可以包括步驟:隔離音頻內(nèi)容的主要包含語音的分段。接著,根據(jù)響度測量算法對主要為語音的音頻分段進行處理。對于從AC-3比特流解碼的音頻數(shù)據(jù),該算法可以是標(biāo)準(zhǔn)的K加權(quán)的響度測量(根據(jù)國際標(biāo)準(zhǔn)ITU-RBS.1770)??商孢x地,可以使用其他響度測量(如,基于響度的心理聲學(xué)模型的響度測量)。語音分段的隔離對于測量音頻數(shù)據(jù)的平均會話響度而言并不是至關(guān)重要的。然而,從傾聽者的角度來說,其提高了測量的精度并且通常提供更令人滿意的結(jié)果。由于并非所有的音頻內(nèi)容都包含會話(語音),所以整個音頻內(nèi)容的響度測量可以提供對音頻的會話電平的充分的近似,如果語音出現(xiàn)的話。元數(shù)據(jù)生成器106生成要被級107包括在編碼比特流中以從編碼器100輸出的元數(shù)據(jù)。元數(shù)據(jù)生成器106可以將由解碼器101提取的LPSM (和/或其他元數(shù)據(jù))傳遞給級107(如,當(dāng)來自驗證器102的控制比特指示LPSM和/或其他元數(shù)據(jù)有效時),或者生成新的LPSM (和/或其他元數(shù)據(jù))并且向級107傳送新的元數(shù)據(jù)(如,當(dāng)來自驗證器102的控制比特指示由解碼器101提取的LPSM和/或其他元數(shù)據(jù)無效時),或者其可以向級107傳送由解碼器101提取的元數(shù)據(jù)與新生成的元數(shù)據(jù)的組合。元數(shù)據(jù)生成器106可以在其向級107傳送的LPSM中包括由子系統(tǒng)108生成的響度數(shù)據(jù)以及表示由子系統(tǒng)108執(zhí)行的響度處理的類型的至少一個值,以包括在要從編碼器100輸出的編碼比特流中。元數(shù)據(jù)生成器106可以生成保護比特(其可以包括基于散列的消息認證代碼或“HMAC”或者由基于散列的消息認證代碼或“HMAC”構(gòu)成),保護比特對于要被包括在編碼比特流中的LPSM (可選地還有其他元數(shù)據(jù))和/或要被包括在編碼比特流中的潛在的音頻數(shù)據(jù)的解密、認證或驗證中的至少一個而言是很有用的。元數(shù)據(jù)生成器106可以向級107提供這樣的保護比特,以包括在編碼比特流中。在典型的操作 中,會話響度測量子系統(tǒng)108對從解碼器101輸出的音頻數(shù)據(jù)進行處理以響應(yīng)于其生成響度值(如,選通和未選通會話響度值)以及動態(tài)范圍值。響應(yīng)于這些值,元數(shù)據(jù)生成器106可以生成響度處理狀態(tài)元數(shù)據(jù)(LPSM),以(由填充器/格式器107)包括在要從編碼器100輸出的編碼比特流中。附加地,可選地,或者可替選地,編碼器100的子系統(tǒng)106和/或108可以執(zhí)行對音頻數(shù)據(jù)的附加分析以生成表示音頻數(shù)據(jù)的至少一個特性的元數(shù)據(jù),以包括在要從級107輸出的編碼比特流中。編碼器105對從選擇級104輸出的音頻數(shù)據(jù)進行編碼(如,通過對其執(zhí)行壓縮),并且向級107傳送編碼音頻,以包括在要從級107輸出的編碼比特流中。級107對來自編碼器105的編碼音頻和來自生成器106的元數(shù)據(jù)(包括LPSM)進行復(fù)用以生成要從級107輸出的編碼比特流,優(yōu)選地使得編碼比特流具有本發(fā)明的優(yōu)選實施例指定的格式。幀緩沖器109是(如,以非暫時性方式)存儲從級107輸出的編碼音頻比特流的至少一個幀的緩沖存儲器,接著,編碼音頻比特流的幀的序列作為來自編碼器100的輸出從緩沖器109向遞送系統(tǒng)150傳送。由元數(shù)據(jù)生成器106生成的并且由級107包括在編碼比特流中的LPSM表示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(如,已經(jīng)對音頻數(shù)據(jù)執(zhí)行了什么類型的響度處理)以及相應(yīng)的音頻數(shù)據(jù)的響度(如,測量的會話響度、選通的和/或未選通的響度、和/或動態(tài)范圍)。本文中,對音頻數(shù)據(jù)執(zhí)行的響度和/或電平測量的“選通(gating)”指超過閾值的計算值被包括在最終的測量中的情況下的具體的電平或響度閾值(如,在最終的測量值中忽略低于_60dBFS的短期響度值)。絕對值的選通指固定的電平或響度,而相對值的選通指取決于當(dāng)前“非選通(ungated)”測量值的值。在編碼器100的一些實現(xiàn)中,被緩沖在存儲器109中(并且被輸出給遞送系統(tǒng)150)的編碼比特流是AC-3比特流或E-AC-3比特流,并且包括音頻數(shù)據(jù)分段(如,圖4所示的幀的ABO至AB5分段)和元數(shù)據(jù)分段,其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),至少部分元數(shù)據(jù)分段中的每個包括響度處理狀態(tài)元數(shù)據(jù)(LPSM)。級107按以下格式將LPSM插入比特流中。包括LPSM的元數(shù)據(jù)分段中的每個被包括在比特流的幀的比特流信息(“BSI”)分段的“addbsi”域中,或者被包括在比特流的巾貞的端部處的auxdata域(如,圖4所示的AUX分段)中。比特流的幀可以包括一個或兩個元數(shù)據(jù)分段,其中每個包括LPSM,并且,如果幀包括兩個元數(shù)據(jù)分段,則其中一個存在于幀的addbsi域中,而另一個存在于幀的AUX域中。包括LPSM的每個元數(shù)據(jù)分段包括具有以下格式的LPSM有效載荷(或容器)分段:首部(通常包括標(biāo)識LPSM有效載荷的開始的同步字,其后跟隨至少一個標(biāo)識值,如下面的表2所示的LPSM格式版本、長度、周期、計數(shù)和子流關(guān)聯(lián)值);以及在首部之后,至少一個會話指示值(如,表2的參數(shù)“會話通道”),其指示相應(yīng)的音頻數(shù)據(jù)是指示會話還是不指示會話(如,相應(yīng)的音頻數(shù)據(jù)的哪個通道指示會話);至少一個響度調(diào)節(jié)相符值(如,表2的參數(shù)“響度調(diào)節(jié)類型”),其指示相應(yīng)的音頻數(shù)據(jù)是否與所指示的響度調(diào)節(jié)的集合相符;至少一個響度處理值(如,表2的參數(shù)“會話選通的響度校正標(biāo)志”、“響度校正類型”中的一個或更多個), 其表示已經(jīng)對相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及至少一個響度值(如,表2的參數(shù)“ITU相對選通的響度”、“ITU語音選通的響度”、“ITU (EBU3341)短期3s響度”和“真實峰值”中的一個或更多個),其表示相應(yīng)的音頻數(shù)據(jù)的至少一個響度(如,峰值或者平均響度)特性。在一些實施方式中,由級107插入到比特流的巾貞的“addbsi”域或者auxdata域中的元數(shù)據(jù)分段中的每個具有以下格式:核心首部(通常包括標(biāo)識元數(shù)據(jù)分段的開始的同步字,其后跟隨標(biāo)識值,如下面的表I中所示的核心元素版本、長度和周期、擴展元素計數(shù)以及子流關(guān)聯(lián)值);以及在核心首部之后的至少一個保護值(如,表I的HMAC摘要和音頻指紋值,其對于響度處理狀態(tài)元數(shù)據(jù)或相應(yīng)的音頻數(shù)據(jù)中的至少一個的解密、認證或驗證中的至少一個而言是很有用的);以及如果元數(shù)據(jù)分段包括LPSM,則也在核心首部之后的LPSM有效載荷標(biāo)識(ID)和LPSM有效載荷尺寸值,其將跟隨的元數(shù)據(jù)標(biāo)識為LPSM有效載荷并且指示LPSM有效載荷的尺寸。(優(yōu)選地具有上述格式的)LPSM有效載荷(或容器)分段跟隨LPSM有效載荷ID和LPSM有效載荷尺寸值。在一些實施例中,巾貞的auxdata域(或“addbsi”域)中的每個元數(shù)據(jù)分段具有三層結(jié)構(gòu):[0127]高層結(jié)構(gòu),包括:表示auxdata (或addbsi)域是否包括元數(shù)據(jù)的標(biāo)志;指示存在的是什么類型的元數(shù)據(jù)的至少一個ID值;以及通常還包括指示存在了多少比特的元數(shù)據(jù)(如,每種類型的元數(shù)據(jù))的值(如果存在元數(shù)據(jù))??赡艽嬖诘囊环N類型的元數(shù)據(jù)是LPSM,可能存在的另一種類型的元數(shù)據(jù)是媒體研究元數(shù)據(jù)(如,Nielsen媒體研究元數(shù)據(jù));中層結(jié)構(gòu),包括用于每個標(biāo)識的類型的元數(shù)據(jù)的核心元素(如,對于每種標(biāo)識的類型的元數(shù)據(jù)如上述類型的核心首部、保護值和LPSM有效載荷ID以及有效載荷尺寸值);以及低層結(jié)構(gòu),包括用于一個核心元素的每個有效載荷(如,如果核心元素將其標(biāo)識為存在,則是LPSM有效載荷,和/或,如果核心元素將其標(biāo)識為存在,則是另一種類型的元數(shù)據(jù)有效載荷)??梢詫υ谶@樣的三層結(jié)構(gòu)中的數(shù)據(jù)值進行嵌套。例如,可以在由核心元素標(biāo)識的有效載荷之后(從而在核心元素的核心首部之后),包括用于LPSM有效載荷和/或由核心元素標(biāo)識的另一元數(shù)據(jù)有效載荷的保護值。在一種示例中,核心首部可以標(biāo)識LPSM有效載荷與另一元數(shù)據(jù)有效載荷,用于第一有效載荷(如,LPSM有效載荷)的有效載荷ID和有效載荷尺寸值可以跟隨核心首部,第一有效載荷本身可以跟隨該ID和尺寸值,用于第二有效載荷的有效載荷ID和有效載荷尺寸值可以跟隨第一有效載荷,第二有效載荷本身可以跟隨這些ID和尺寸值,并且,兩種有效載荷(或者核心元素值和兩種有效載荷)的保護值可以跟隨最后的有效載荷。在一些實施例中,如果解碼器101接收具有加密散列的根據(jù)本發(fā)明的實施例生成的音頻比特流,則解碼器被配置成從根據(jù)比特流確定的數(shù)據(jù)塊中解析并取回加密散列,上述塊包括響度處理狀態(tài)元數(shù)據(jù)(LPSM)。驗證器102可以使用加密散列來驗證所接收的比特流和/或相關(guān)聯(lián)的元數(shù)據(jù)。例如,驗證器102基于參考加密散列與從數(shù)據(jù)塊中取回的加密散列之間的匹配發(fā)現(xiàn)LPSM是有效的,則其可以禁止處理器103對于相應(yīng)的音頻數(shù)據(jù)的操作并且使得選擇級104通過(未 改變的)音頻數(shù)據(jù)。附加地,可選地,或者可替選地,可以使用其他類型的加密技術(shù)來替代基于加密散列的方法。圖2的編碼器100可以判定(響應(yīng)于由解碼器101提取的LPSM)后處理/預(yù)處理單元已經(jīng)對要被編碼的音頻數(shù)據(jù)執(zhí)行了某種類型的響度處理(在元件105、106和107中),因此可以產(chǎn)生(在生成器106中)響度處理狀態(tài)元數(shù)據(jù),該響度處理狀態(tài)元數(shù)據(jù)包括用于事先執(zhí)行的響度處理和/或從事先執(zhí)行的響度處理中提取的具體的參數(shù)。在一些實現(xiàn)中,編碼器100可以產(chǎn)生(并且在從其輸出的編碼比特流中包括)表示對音頻內(nèi)容的處理歷史的處理狀態(tài)元數(shù)據(jù),只要編碼器知曉已經(jīng)對音頻內(nèi)容執(zhí)行的處理的類型。圖3是作為本發(fā)明的音頻處理單元的實施例的解碼器(200)的框圖、以及耦接至編碼器200的后處理器(300)的框圖。后處理器(300)也是本發(fā)明的音頻處理單元的實施例。解碼器200和后處理器300的任意部件或元件都可以用硬件、軟件或硬件與軟件的組合實現(xiàn)為一個或更多個處理和/或一個或更多個電路(如,ASIC、FPGA或其他集成電路)。解碼器200包括如所示地連接的幀緩沖器210、解析器205、音頻解碼器202、音頻狀態(tài)驗證級(驗證器)203和控制比特生成級204。通常,解碼器200還包括其他處理元件(未示出)。幀緩沖器201 (緩沖存儲器)(以非暫時性方式)存儲由解碼器200接收的編碼音頻比特流的至少一個幀。從緩沖器201向解析器205傳送編碼音頻比特流的幀的序列。[0135]解析器205被耦接和配置來從編碼輸入音頻的每個幀中提取響度處理狀態(tài)元數(shù)據(jù)(LPSM)和其他元數(shù)據(jù)、向音頻狀態(tài)驗證器203和級204傳送至少LPSMjf LPSM作為輸出(如,給后處理器300的輸出)傳送、從編碼輸入音頻中提取音頻數(shù)據(jù)、以及向解碼器202傳送所提取的音頻數(shù)據(jù)。輸入給解碼器200的編碼音頻比特流可以是AC-3比特流、E_AC_3比特流或杜比E比特流中的一種。圖3的系統(tǒng)還包括后處理器300。后處理器300包括幀緩沖器301和其他處理元件(未示出),包括耦接至緩沖器301的至少一個處理元件。幀緩沖器301 (如,以非暫時性方式)存儲由后處理器300從解碼器200接收的解碼音頻比特流的至少一個幀。后處理器300的處理元件被耦接和配置來使用從解碼器202輸出的元數(shù)據(jù)(包括LPSM值)和/或從解碼器200的級204輸出的控制比特,來接收并且自適應(yīng)地處理從緩沖器301輸出的解碼音頻比特流的幀的序列。通常,后處理器300被配置成(如,基于由LPSM指示的響度處理狀態(tài)和/或一個或更多個音頻數(shù)據(jù)特性)使用LPSM值來對解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。解碼器200和后處 理器300的各種實現(xiàn)都被配置成執(zhí)行本發(fā)明的方法的不同的實施例。解碼器200的音頻解碼器202被配置成對由解析器205提取的音頻數(shù)據(jù)進行解碼以生成解碼音頻數(shù)據(jù),并且被配置成將解碼音頻數(shù)據(jù)作為輸出(如,至后處理器300的輸出)傳送。狀態(tài)驗證器203被配置成對向其傳送的LPSM (通常還有其他元數(shù)據(jù))進行認證和驗證。在一些實施例中,LPSM是已經(jīng)被包括在(如,根據(jù)本發(fā)明的實施例的)輸入比特流中的數(shù)據(jù)塊(或者被包括在已經(jīng)被包括在輸入比特流中的數(shù)據(jù)塊中)。該塊可以包括用于處理LPSM (以及可選地還處理其他元數(shù)據(jù))和/或潛在的音頻數(shù)據(jù)(從解析器205和/或解碼器202提供給驗證器203)的加密散列(基于散列的消息認證代碼或“HMAC”)。該數(shù)據(jù)塊在這些實施例中可以用數(shù)字標(biāo)記,使得下游音頻處理單元可以相對容易地認證和驗證處理狀態(tài)元數(shù)據(jù)??梢詫ǖ幌抻谝环N或更多種非HMAC加密方法中的任一種的其他加密算法用于LPSM的驗證(如,在驗證器203中),以確保對于LPSM和/或潛在的音頻數(shù)據(jù)的安全的發(fā)送和接收。例如,可以在接收本發(fā)明的音頻比特流的實施例的每個音頻處理單元中執(zhí)行驗證(使用這樣的加密方法的驗證),以判定包括在比特流中的響度處理狀態(tài)元數(shù)據(jù)和相應(yīng)的音頻數(shù)據(jù)是否已經(jīng)經(jīng)歷了(由元數(shù)據(jù)指示的)特定的響度處理(和/或是否已經(jīng)從特定的響度處理得到)以及是否在這樣的特定的響度處理執(zhí)行之后尚未被修改。狀態(tài)驗證器203向控制比特生成器204傳送控制數(shù)據(jù),和/或傳送控制數(shù)據(jù)作為輸出(如,至后處理器300的輸出),以指示驗證操作的結(jié)果。響應(yīng)于控制數(shù)據(jù)(以及可選地也響應(yīng)于從輸入比特流中提取的其他元數(shù)據(jù)),級204可以生成以下中的任一項(并且將其傳送給后處理器300):指示從解碼器202輸出的解碼音頻數(shù)據(jù)已經(jīng)經(jīng)歷了特定類型的響度處理的控制比特(當(dāng)LPSM指示從解碼器202輸出的音頻數(shù)據(jù)已經(jīng)經(jīng)歷了特定類型的響度處理,并且來自驗證器203的控制比特指示LPSM有效時);或者指示從解碼器202輸出的解碼音頻數(shù)據(jù)應(yīng)當(dāng)經(jīng)歷特定類型的響度處理的控制比特(如,當(dāng)LPSM指示從解碼器202輸出的音頻數(shù)據(jù)尚未經(jīng)歷特定類型的響度處理時,或者當(dāng)LPSM指示從解碼器202輸出的音頻數(shù)據(jù)已經(jīng)經(jīng)歷了特定類型的響度處理而來自驗證器203的控制比特指示LPSM無效時)??商孢x地,解碼器200向后處理器300傳送由解碼器202從輸入比特流中提取的LPSM(以及任意其他元數(shù)據(jù)),并且,后處理器300使用LPSM對解碼音頻數(shù)據(jù)執(zhí)行響度處理,或者執(zhí)行LPSM的驗證,接著,如果驗證指示LPSM有效,則使用LPSM對解碼音頻數(shù)據(jù)執(zhí)行響度處理。在一些實施例中,如果解碼器201來接收具有加密散列的根據(jù)本發(fā)明的實施例生成的音頻比特流,則解碼器被配置成從根據(jù)比特流確定的數(shù)據(jù)塊來解析和取回加密散列,上述塊包括響度處理狀態(tài)元數(shù)據(jù)(LPSM)。驗證器203可以使用加密散列來驗證所接收的比特流和/或相關(guān)聯(lián)的元數(shù)據(jù)。例如,如果驗證器203基于參考加密散列與從數(shù)據(jù)塊中取回的加密散列之間的匹配發(fā)現(xiàn)LPSM是有效的,則其可以向下游音頻處理單元(如,后處理器300,其可以是或者包括音量調(diào)節(jié)單元)發(fā)信號,以傳遞(未改變)比特流的音頻數(shù)據(jù)。附加地,可選地,或者可替選地,可以使用其他類型的加密技術(shù)來替代基于加密散列的方法。在解碼器200的一些實現(xiàn)中,所接收(并且被緩沖在存儲器201中)的編碼比特流是AC-3比特流或E-AC-3比特流,并且包括音頻數(shù)據(jù)分段(如,圖4所示的幀的ABO至AB5分段)和元數(shù)據(jù)分段,其中,音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),至少部分元數(shù)據(jù)分段中的每個包括響度處理狀態(tài)元數(shù)據(jù)(LPSM)。解碼器級202被配置成從比特流中提取具有以下格式的LPSM0包括 LPSM的元數(shù)據(jù)分段中的每個被包括在比特流的幀的比特流信息(“BSI ”)分段的“addbsi”域中,或者被包括在比特流的巾貞的端部處的auxdata域(如,圖4所示的AUX分段)中。比特流的幀可以包括一個或兩個元數(shù)據(jù)分段,其中每個包括LPSM,并且,如果幀包括兩個元數(shù)據(jù)分段,則其中一個存在于幀的addbsi域中,而另一個存在于幀的AUX域中。包括LPSM的每個元數(shù)據(jù)分段包括具有以下格式的LPSM有效載荷(或容器)分段:首部(通常包括標(biāo)識LPSM有效載荷的開始的同步字,其后跟隨標(biāo)識值,如下面的表2所示的LPSM格式版本、長度、周期、計數(shù)和子流關(guān)聯(lián)值);以及在首部之后,至少一個會話指示值(如,表2的參數(shù)“會話通道”),其指示相應(yīng)的音頻數(shù)據(jù)是指示會話還是不指示會話(如,相應(yīng)的音頻數(shù)據(jù)的哪個通道指示會話);至少一個響度調(diào)節(jié)相符值(如,表2的參數(shù)“響度調(diào)節(jié)類型”),其指示相應(yīng)的音頻數(shù)據(jù)是否與指示的響度調(diào)節(jié)的集合相符;至少一個響度處理值(如,表2的參數(shù)“會話選通的響度校正標(biāo)志”、“響度校正類型”中的一個或更多個),其指示已經(jīng)對相應(yīng)的音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理;以及至少一個響度值(如,表2的參數(shù)“ITU相對選通的響度”、“ITU語音選通的響度”、“ITU (EBU3341)短期3s響度”和“真實峰值”中的一個或更多個),其指示相應(yīng)的音頻數(shù)據(jù)的至少一個響度(如,峰值或者平均響度)特性。在一些實施中,解碼器級202被配置成從比特流的幀的“addbsi”域或auxdata域中提取具有以下格式的每個元數(shù)據(jù)分段:核心首部(通常包括標(biāo)識元數(shù)據(jù)分段的開始的同步字,其后跟隨至少一個標(biāo)識值,如下面的表I中所示的核心元素版本、長度和周期、擴展元素計數(shù)以及子流關(guān)聯(lián)值);以及在核心首部之后的至少一個保護值(如,表I的HMAC摘要和音頻指紋值),其對于響度處理狀態(tài)元數(shù)據(jù)或相應(yīng)的音頻數(shù)據(jù)中的至少一個的解密、認證或驗證中的至少一個而言是很有用的;以及如果元數(shù)據(jù)分段包括LPSM,則也在核心首部之后的LPSM有效載荷標(biāo)識(ID)和LPSM有效載荷尺寸值,其將以下元數(shù)據(jù)標(biāo)識為LPSM有效載荷并且指示LPSM有效載荷的尺寸。(優(yōu)選地具有上述格式的)LPSM有效載荷(或容器)分段跟隨LPSM有效載荷ID和LPSM有效載荷尺寸值。更一般地,由本發(fā)明的優(yōu)選實施例生成的編碼音頻比特流具有如下結(jié)構(gòu):其向標(biāo)簽元數(shù)據(jù)元素和子元素提供機制作為核心(強制)或擴展(可選元素)。這使得比特流(包括其元數(shù)據(jù))的數(shù)據(jù)速率能夠跨大量的應(yīng)用來縮放。優(yōu)選的比特流句法的核心(強制)元素應(yīng)當(dāng)能夠發(fā)信號告知與音頻內(nèi)容相關(guān)聯(lián)的擴展(可選)元素存在(在帶內(nèi))和/或在遠處(在帶外)。需要核心元素存在于比特流的每個幀中。核心元素的一些子元素是可選的并且可以以任意組合存在。擴展元素不需要存在于每個幀中(以防止比特速率過高)。因此,擴展元素可以存在于某些幀中而不存在于其他幀中。擴展元素的某些子元素是可選的并且可以以任意組合存在,而擴展元素的某些子元素可以是強制的(即,如果擴展元素存在于比特流的幀中)。在一類實施例中,(如,由實施本發(fā)明的音頻處理單元)生成包括音頻數(shù)據(jù)分段和元數(shù)據(jù)分段的序列的編碼音頻比特流。音頻數(shù)據(jù)分段表示音頻數(shù)據(jù),元數(shù)據(jù)分段中的至少某些中的每個包括響度處理狀態(tài)元數(shù)據(jù)(LPSM),音頻數(shù)據(jù)分段與元數(shù)據(jù)分段時分復(fù)用。在這種類型的優(yōu)選實施例中,每個元 數(shù)據(jù)分段具有要在本文中描述的優(yōu)選格式。在一種優(yōu)選格式中,編碼比特流是AC-3比特流或E-AC-3比特流,并且,包括LPSM的每個元數(shù)據(jù)分段作為附加比特流信息被(如,編碼器100的優(yōu)選實現(xiàn)的級107)包括在比特流的幀的比特流信息(“BSI ”)分段的“addbsi ”域(如圖6所示)中,或者被包括在比特流的中貞的auxdata域中。在該優(yōu)選格式中,每個幀在幀的addbsi域中包括具有如以下表I所示的格式的核心元素:表I
      參數(shù)I猶迷I強制/可選
      SYMCfIDl強制
      ■心元素版本強制核心元素長度
      權(quán)利要求1.一種音頻處理設(shè)備,包括: 輸入緩沖存儲器,用于存儲包括響度處理狀態(tài)元數(shù)據(jù)LPSM和音頻數(shù)據(jù)的編碼音頻比特流的至少一個巾貞; 解析器,耦接至所述輸入緩沖存儲器,用于提取所述編碼音頻比特流和/或所述LPSM ; AC-3或E-AC-3解碼器,耦接至所述解析器,用于生成解碼音頻數(shù)據(jù)的流;以及 輸出緩沖存儲器,耦接至所述解碼器,用于存儲所述解碼音頻數(shù)據(jù)。
      2.根據(jù)權(quán)利要求1所述的音頻處理設(shè)備,還包括響度處理器,所述響度處理器耦接至所述AC-3或E-AC-3解碼器,用于使用所述LPSM執(zhí)行對所述解碼音頻數(shù)據(jù)的流的自適應(yīng)響度處理。
      3.根據(jù)權(quán)利要求2所述的音頻處理設(shè)備,還包括音頻狀態(tài)驗證器,所述音頻狀態(tài)驗證器耦接至所述AC-3或E-AC-3解碼器,用于使用所述LPSM認證和/或驗證所述LPSM和/或所述解碼音頻數(shù)據(jù)的流, 其中,所述音頻狀態(tài)驗證器還耦接至所述響度處理器以控制所述響度處理器的所述自適應(yīng)響度處理。
      4.根據(jù)權(quán)利要求2所述的音頻處理設(shè)備,還包括后處理器,所述后處理器耦接至所述AC-3或E-AC-3解碼器,用于使用所述LPSM執(zhí)行對所述解碼音頻數(shù)據(jù)的流的自適應(yīng)響度處理。
      5.根據(jù)權(quán)利要求4所述的音頻處理設(shè)備,還包括音頻狀態(tài)驗證器,所述音頻狀態(tài)驗證器耦接至所述AC-3或E-AC-3解碼器,用于使用所述LPSM認證和/或驗證所述LPSM和/或所述解碼音頻數(shù)據(jù)的流, 其中,所述音頻狀態(tài)驗證器還耦接至所述響度處理器和所述后處理器以控制所述響度處理器和所述后處理器的所述自適應(yīng)響度處理。
      6.根據(jù)權(quán)利要求1所述的音頻處理設(shè)備,其中,所述LPSM是在所述至少一個幀中位于首部之后的一個或更多個響度處理狀態(tài)元數(shù)據(jù)的容器。
      7.根據(jù)權(quán)利要求1所述的音頻處理設(shè)備,其中,所述LPSM包括響度調(diào)節(jié)類型的時隙。
      8.根據(jù)權(quán)利要求1所述的音頻處理設(shè)備,其中,所述LPSM包括響度校正類型的時隙。
      專利摘要本實用新型公開了用于利用響度處理狀態(tài)元數(shù)據(jù)處理音頻的音頻解碼器。具體公開一種音頻處理設(shè)備,其包括輸入緩沖存儲器,用于存儲包括響度處理狀態(tài)元數(shù)據(jù)LPSM和音頻數(shù)據(jù)的編碼音頻比特流的至少一個幀;解析器,耦接至所述輸入緩沖存儲器,用于提取所述編碼音頻比特流和/或所述LPSM;AC-3或E-AC-3解碼器,耦接至所述解析器,用于生成解碼音頻數(shù)據(jù)的流;以及輸出緩沖存儲器,耦接至所述解碼器,用于存儲所述解碼音頻數(shù)據(jù)。
      文檔編號G10L19/16GK203134365SQ20132005051
      公開日2013年8月14日 申請日期2013年1月29日 優(yōu)先權(quán)日2013年1月21日
      發(fā)明者杰弗里·里德米勒, 邁克爾·沃德 申請人:杜比實驗室特許公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1