頻域中的音頻信號響度確定和修改的制作方法
【專利摘要】用于在頻域信息的頻率分辨率以及相應(yīng)時間覆蓋范圍不恒定的情況下確定和修改頻域音頻信號的感知響度的方法和設(shè)備,以及上面具有當(dāng)被執(zhí)行時使得實(shí)施這些方法的指令的計(jì)算機(jī)可讀介質(zhì)。將感知響度處理的頻率(以及因而時間)分辨率在最長塊尺寸處保持恒定。一種方法包括塊組合器和響度修改內(nèi)插器。
【專利說明】頻域中的音頻信號響度確定和修改
[0001] 本申請是申請日為2009年12月22日、申請?zhí)枮?00980151996. 3、發(fā)明名稱為"頻 域中的音頻信號響度確定和修改"的發(fā)明專利申請的分案申請。
[0002] 對相關(guān)申請的交叉引用
[0003] 本申請要求在2008年12月24日提交的美國臨時專利申請No. 61/140,791的權(quán) 益,在此以引用方式并入其全部內(nèi)容。
【技術(shù)領(lǐng)域】
[0004] 本公開一般涉及音頻信號處理,特別地,涉及感知音頻編碼。
【背景技術(shù)】
[0005] 存在許多用于客觀地確定音頻信號的感知響度的方法。也已知用于使用例如感知 響度模型以希望的量縮放音頻信號的感知響度的方法。也已知這樣的方法,所述方法包括 縮放各單個頻帶的響度,由此保存感知響度譜或音品,同時調(diào)整總體感知響度。這些方法典 型地將與數(shù)字化的音頻信號對應(yīng)的采樣分割成被變換到頻域的重疊塊。被這樣向重疊的數(shù) 據(jù)塊施加的變換被稱為"重疊變換(lapped transform)"。用于確定以及可能地更改感知 響度的方法使用如短時離散傅立葉變換或(短時)變型的離散余弦變換的這些重疊變換。
[0006] 用于壓縮數(shù)字化音頻信號的感知編碼方法也是已知的,這些編碼方法包括將與數(shù) 字化音頻信號對應(yīng)的采樣分割成被變換到頻域的重疊塊。
[0007] 希望確定以及可能地修改可能被感知編碼的音頻信號的感知響度。感知編碼方 法常常具有隨時間改變的塊長度。AC-3(也已知作為Dolby Digital)和AAC(也已知作為 MPEG-2/AAC和MPEG-4/AAC,或者簡單地被稱為MPEG/AAC音頻)各使用兩個塊尺寸。在可 改變的音頻信號塊尺寸的情況下有效率地確定以及可能地修改頻域音頻信號的感知響度 可能是復(fù)雜的操作。
【專利附圖】
【附圖說明】
[0008] 圖1示出感知音頻解碼器的簡化功能框圖。
[0009] 圖2示出包含MDCT域中的響度處理的感知音頻解碼器的簡化框圖。
[0010] 圖3示出更詳細(xì)地描述圖2的響度處理元件的實(shí)施例中的一些處理的簡化框圖。 [0011] 圖4示出被配置為在頻域(例如MDCT域)中確定響度以及修改響度的本發(fā)明的 一個設(shè)備實(shí)施例。
[0012] 圖5A?5E示出在使用利用從示例性響板擊打的Dolby Digital信號獲得的MDCT 譜的本發(fā)明的實(shí)施例的組合中涉及的不同MDCT譜。
[0013] 圖6示出使用MDCT數(shù)據(jù)并且用于本發(fā)明的一些實(shí)施例中的響度確定的例子的簡 單框圖。
[0014] 圖7A和圖7B示出對于由使用內(nèi)插(圖7A)和使用復(fù)制(圖7B)從短塊確定的長 塊獲得的Dolby Digital數(shù)據(jù)的以宋(sone)為單位確定的響度的比較。
[0015] 圖8示出使用MDCT數(shù)據(jù)并且用于本發(fā)明的一些實(shí)施例中的用于水平調(diào)節(jié) (1 eve 1 ing)的響度確定和修改的例子的簡單框圖。
[0016] 圖9通過簡單的例子圖示適用于使用256時域采樣的短塊長度和512時域采樣的 長塊長度的感知編碼數(shù)據(jù)(例如Dolby Digital)的增益內(nèi)插。
[0017] 圖10通過簡單的例子圖示適用于使用256時域采樣的短塊長度和2048時域采樣 的長塊長度的感知編碼數(shù)據(jù)(例如MPEG-2/AAC和MPEG-4/AAC)的增益內(nèi)插。
[0018] 圖11示出包括處理系統(tǒng)的一個設(shè)備實(shí)施例的簡化框圖,所述處理系統(tǒng)在操作中 被配置為實(shí)施本發(fā)明的方法實(shí)施例。該設(shè)備包括被配置有指令的計(jì)算機(jī)可讀介質(zhì),該指令 在被執(zhí)行時使得實(shí)施本發(fā)明的方法實(shí)施例。
【具體實(shí)施方式】
[0019] 概要
[0020] 本發(fā)明涉及用于在頻域信息的頻率分辨率以及相應(yīng)時間覆蓋范圍不恒定的情況 下確定和修改頻域音頻信號的感知響度的方法和設(shè)備,以及上面具有當(dāng)被執(zhí)行時使得實(shí)施 這些方法的指令的計(jì)算機(jī)可讀介質(zhì)。這直接適用于使用改變的塊尺寸的情況下的感知音頻 編碼器,這種可變塊尺寸有助于提高瞬變音頻信號的聲音質(zhì)量。
[0021] 用于包括多種塊尺寸的數(shù)據(jù)的一個方面包括:將感知響度處理的頻率(以及因而 時間)分辨率在最長塊尺寸處保持恒定,其包括:對于比最長塊尺寸短的一個或更多個塊 尺寸中的特定短塊尺寸的數(shù)據(jù),組合所述特定短塊尺寸的多個塊的頻域信息以形成用于輸 入到響度處理的最長塊尺寸數(shù)據(jù),以及內(nèi)插從對這種所形成的最長塊尺寸數(shù)據(jù)的響度處理 輸出的增益信息,以用于與所述特定短塊尺寸的頻域信號相乘。
[0022] 特定的實(shí)施例包括音頻數(shù)據(jù)的處理方法,所述音頻數(shù)據(jù)包含通過以多種塊尺寸進(jìn) 行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該方法包括:接受多種塊尺寸的頻域音頻數(shù)據(jù) 塊。對于比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的接受的數(shù)據(jù)塊,該方 法包括:組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊。該方 法還包括:實(shí)施最長塊尺寸的接受的塊的感知響度處理。實(shí)施所述感知響度處理包括:確 定一個或更多個感知響度參數(shù)。所述響度處理可包括確定要應(yīng)用于接受的頻域數(shù)據(jù)塊或其 延遲形態(tài)的至少一個響度修改。所述至少一個響度修改的確定使用所述一個或更多個確定 的感知響度參數(shù)。
[0023] 該方法可包括:對于以所形成的最長塊尺寸確定的所述至少一個響度修改,內(nèi)插 所確定的至少一個響度修改,以將其應(yīng)用于被用于形成所確定的至少一個響度修改的所述 特定短塊尺寸的接受的數(shù)據(jù)塊;和將所確定的至少一個響度修改或至少一個內(nèi)插的響度修 改應(yīng)用于接受的頻域數(shù)據(jù)塊。該方法可包括延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響度 修改或內(nèi)插的修改被應(yīng)用于頻域數(shù)據(jù)塊的延遲形態(tài)。
[0024] 在一些實(shí)施例中,所述至少一個響度修改包括一組增益,因此,所述內(nèi)插確定內(nèi)插 的增益,并且,應(yīng)用所確定的至少一個響度修改或內(nèi)插的響度修改包括應(yīng)用所述一組增益 或一組內(nèi)插的增益。在其中至少一個響度修改包括一組增益的一些實(shí)施例中,所述內(nèi)插確 定內(nèi)插的增益并且使用所確定的增益值之間的線性內(nèi)插。
[0025] -些實(shí)施例中的組合特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域 數(shù)據(jù)包括:交織所述特定短塊尺寸的頻域數(shù)據(jù)。在其它的實(shí)施例中,所述組合包括:復(fù)制所 述特定短塊尺寸的頻域數(shù)據(jù)的值以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。例如,最近的(latest)特 定短塊尺寸塊的特定短塊尺寸的頻域數(shù)據(jù)被用于創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
[0026] 所述一個或更多個感知響度參數(shù)可包括音頻數(shù)據(jù)的激勵(excitation)和音頻數(shù) 據(jù)的特性響度(specific loudness)。實(shí)施感知響度處理可包括響度水平調(diào)節(jié)、增益控制、噪 聲補(bǔ)償和/或動態(tài)均衡化中的一個或更多個。
[0027] 所述變換可以是重疊變換,例如,短時離散傅立葉變換(SIDFT),或者變型的離散 余弦變換(MDCT),或者短時離散正弦變換。也可使用其它的重疊變換。
[0028] 所述數(shù)據(jù)可來自通過使用多于一個塊尺寸的感知編碼器編碼的編碼音頻數(shù)據(jù)。例 子包括AC-3和AAC。
[0029] 特定的實(shí)施例包括一種設(shè)備,該設(shè)備包括至少包含處理器的處理系統(tǒng)和計(jì)算機(jī)可 讀介質(zhì),該處理系統(tǒng)在操作中被配置為實(shí)施音頻數(shù)據(jù)的感知響度處理的方法,所述音頻數(shù) 據(jù)包括通過以多種塊尺寸進(jìn)行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該方法包括:接受 多種塊尺寸的頻域音頻數(shù)據(jù)塊。對于比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊 尺寸的接受的數(shù)據(jù)塊,該方法包括:組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長 塊尺寸的頻域數(shù)據(jù)塊。該方法還包括:實(shí)施最長塊尺寸的接受的塊的感知響度處理。實(shí)施 所述感知響度處理包括:確定一個或更多個感知響度參數(shù)。該方法可包括:對于以所形成 的最長塊尺寸確定的所述至少一個響度修改,內(nèi)插所確定的至少一個響度修改,以將其應(yīng) 用于被用于形成所確定的至少一個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù)塊;和將所 確定的至少一個響度修改或至少一個內(nèi)插的響度修改應(yīng)用于接受的頻域數(shù)據(jù)塊。該方法可 包括延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響度修改或內(nèi)插的修改被應(yīng)用于頻域數(shù)據(jù)塊 的延遲形態(tài)。不同的實(shí)施例可包括以上在此概要部分或本文的其它部分中描述的特征中的 一個或更多個。
[0030] 特定的實(shí)施例包括配置有指令的計(jì)算機(jī)可讀介質(zhì),該指令在被至少一個處理器執(zhí) 行時實(shí)施音頻數(shù)據(jù)的感知響度處理的方法,所述音頻數(shù)據(jù)包括通過以多種塊尺寸進(jìn)行例如 重疊變換的變換所確定的頻域數(shù)據(jù)。該方法包括:接受多種塊尺寸的頻域音頻數(shù)據(jù)塊。對 于比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的接受的數(shù)據(jù)塊,該方法包 括:組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊。該方法還 包括:實(shí)施最長塊尺寸的接受的塊的感知響度處理。實(shí)施所述感知響度處理包括:確定一 個或更多個感知響度參數(shù)。該方法可包括:對于以所形成的最長塊尺寸確定的所述至少一 個響度修改,內(nèi)插所確定的至少一個響度修改,以將其應(yīng)用于被用于形成所確定的至少一 個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù)塊;和將所確定的至少一個響度修改或至少 一個內(nèi)插的響度修改應(yīng)用于接受的頻域數(shù)據(jù)塊。該方法可包括延遲頻域音頻數(shù)據(jù)塊,使得 所述至少一個響度修改或內(nèi)插的修改被應(yīng)用于頻域數(shù)據(jù)塊的延遲形態(tài)。不同的實(shí)施例可包 括以上在此概要部分或本文的其它部分中描述的特征中的一個或更多個。
[0031] 特定的實(shí)施例包括程序邏輯,當(dāng)該程序邏輯被至少一個處理器執(zhí)行時使得實(shí)施音 頻數(shù)據(jù)的感知響度處理的方法,所述音頻數(shù)據(jù)包括通過以多種塊尺寸進(jìn)行例如重疊變換的 變換所確定的頻域數(shù)據(jù)。該方法包括:接受多種塊尺寸的頻域音頻數(shù)據(jù)塊。對于比最長塊 尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的接受的數(shù)據(jù)塊,該方法包括:組合所述 特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊。該方法還包括:實(shí)施最 長塊尺寸的接受的塊的感知響度處理。實(shí)施所述感知響度處理包括:確定一個或更多個感 知響度參數(shù)。該方法可包括:對于以所形成的最長塊尺寸確定的所述至少一個響度修改,內(nèi) 插所確定的至少一個響度修改,以將其應(yīng)用于被用于形成所確定的至少一個響度修改的所 述特定短塊尺寸的接受的數(shù)據(jù)塊;和將所確定的至少一個響度修改或至少一個內(nèi)插的響度 修改應(yīng)用于接受的頻域數(shù)據(jù)塊。該方法可包括延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響 度修改或內(nèi)插的修改被應(yīng)用于頻域數(shù)據(jù)塊的延遲形態(tài)。不同的實(shí)施例可包括以上在此概要 部分或本文的其它部分中描述的特征中的一個或更多個。
[0032] 特定的實(shí)施例包括用于音頻數(shù)據(jù)的感知響度處理的設(shè)備,所述音頻數(shù)據(jù)包含通過 以多種塊尺寸進(jìn)行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該設(shè)備包括用于接受多種塊尺 寸的頻域音頻數(shù)據(jù)塊的裝置。該設(shè)備還包括:用于組合特定短塊尺寸的多個接受的頻域數(shù) 據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊的裝置。該設(shè)備還包括:用于處理的裝置,所述處理 被配置為實(shí)施最長塊尺寸的接受的塊的感知響度處理。通過所述用于處理的裝置實(shí)施所述 感知響度處理包括:確定一個或更多個感知響度參數(shù)。該設(shè)備可進(jìn)一步包括:用于使用一 個或更多個所確定的感知響度參數(shù)來確定至少一個響度修改的裝置,所述至少一個響度修 改用于應(yīng)用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)。這種情況下的該設(shè)備進(jìn)一步包括與用于確 定所述至少一個響度修改的所述裝置耦合的用于內(nèi)插響度修改的裝置,使得對于以所形成 的最長塊尺寸確定的所述至少一個響度修改中的任何一個,所確定的至少一個響度修改被 內(nèi)插,以應(yīng)用于被用于形成所確定的至少一個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù) 塊。這種情況下的該設(shè)備進(jìn)一步包括用于將所確定的至少一個響度修改或內(nèi)插的修改應(yīng)用 于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)的裝置。所述修改可以具有一組增益的形式。
[0033] 特定的實(shí)施例包括用于音頻數(shù)據(jù)的感知響度處理的設(shè)備,所述音頻數(shù)據(jù)包含通過 以多種塊尺寸進(jìn)行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該設(shè)備包括塊組合器,所述塊 組合器被配置為接受頻域音頻數(shù)據(jù)塊,每個塊具有多種塊尺寸之一,包含接受比最長塊尺 寸短的一個或更多個塊尺寸中的特定短塊尺寸的數(shù)據(jù)塊。所述塊組合器被進(jìn)一步配置為組 合所述特定短塊尺寸的多個接受的頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊。該設(shè)備還 包括頻域信號處理器,所述頻域信號處理器被配置為實(shí)施最長塊尺寸的接受的塊的感知響 度處理。通過頻域信號處理器實(shí)施所述感知響度處理包括確定一個或更多個感知響度參 數(shù)。所述頻域信號處理器可包括響度修改確定器,所述響度修改確定器被配置為確定要應(yīng) 用于由塊組合器接受的頻域數(shù)據(jù)塊或其延遲形態(tài)的至少一個響度修改。這種響度修改確定 器使用所述一個或更多個確定的感知響度參數(shù)。包括所述響度修改確定器的該設(shè)備包括響 度修改內(nèi)插器,所述響度修改內(nèi)插器與頻域信號處理器耦合,并且被配置為對于以所形成 的最長塊尺寸確定的一個或更多個響度修改的任一組而內(nèi)插所確定的至少一個響度修改, 以將其應(yīng)用于被用于形成所確定的至少一個響度修改的特定短塊尺寸的接受的數(shù)據(jù)塊。包 括所述響度修改確定器的該設(shè)備還包括響度修改器,所述響度修改器與響度修改內(nèi)插器耦 合,以及,與塊組合器的輸入端耦合或與和塊組合器的輸入端耦合的延遲元件耦合。響度修 改確定器被配置為將所確定的至少一個響度修改或內(nèi)插的修改應(yīng)用于接受的頻域數(shù)據(jù)塊 或其延遲形態(tài)。所述修改可以具有一組增益的形式。
[0034] 特定的實(shí)施例可提供這些方面、特征或優(yōu)點(diǎn)中的全部或一些或根本不提供它們。 特定的實(shí)施例可提供一個或更多個其它的方面、特征或優(yōu)點(diǎn),本領(lǐng)域技術(shù)人員從本文的附 圖、描述和權(quán)利要求中可容易地理解這些方面、特征或優(yōu)點(diǎn)中的一個或更多個。
[0035] 感知響度和感知編碼
[0036] 存在許多用于客觀地確定音頻信號的感知響度的方法。方法的例子包含包括應(yīng) 用強(qiáng)調(diào)在感知上比較敏感的頻率并且不強(qiáng)調(diào)在感知上比較不敏感的頻率的預(yù)定濾波器 的響度的A加權(quán)、B加權(quán)和C加權(quán)功率測量以及諸如在標(biāo)題為"Acoustics-Method for calculating loudness level"(1975)的ISO 532中描述的響度的心理聲學(xué)模型,所述心 理聲學(xué)模型嘗試通過將信號劃分成頻帶并且然后在考慮諸如頻率掩蓋和時間掩蓋之類的 心理聲學(xué)現(xiàn)象以及作為信號強(qiáng)度的函數(shù)的響度感知的非線性的同時操縱和統(tǒng)合這些頻帶 而將耳朵的內(nèi)部工作模型化。
[0037] 指定美國、作為W0 2004111994公布、在美國作為US 20070092089公布并且名 稱為 METHOD, APPARATUS AND COMPUTER PROGRAM FOR CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS OF AN AUDIO SIGNAL 的國際申請 No. PCT/US2004/016964(以下稱為 "TO 2004111994")描述了一種感知方法,該感知方法不僅進(jìn)行響度確定并且以希望的量 提供音頻信號的感知響度的縮放。在W0 2004111994中描述的一個實(shí)施例中,通過反轉(zhuǎn)感 知響度模型而從感知響度的希望的改變來計(jì)算寬帶增益。指定美國、作為W0 2006047600 公布、還在美國作為US 20070291959公布并且名稱為CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS AND/OR THE PERCEIVED SPECTRAL BALANCE OF AN AUDIO SIGNAL 的 國際申請No. PCT/US2005/038579(以下稱為"TO 2006047600")特別描述了一種方法,該方 法通過縮放各單個頻帶的響度而甚至更進(jìn)一步,由此保存感知響度譜或音品,同時調(diào)整總 體感知響度。在W0 2006047600中描述的一個實(shí)施例中,從對多個頻率響度帶施加的感知 響度的希望的改變來計(jì)算多個頻帶增益。
[0038] 將W0 2004111994和W0 2006047600中的每一個的內(nèi)容通過引用方式并入在本文 中。
[0039] W0 2004111994和W0 2006047600描述了各包括通過首先將音頻內(nèi)容變換到頻域 表現(xiàn)來分析音頻信號的方法,所述變換典型地使用重疊變換,例如離散傅立葉變換的重疊 加窗形式一短時離散傅立葉變換(STDFT),由于其有效率的實(shí)現(xiàn)而常常被提到;快速傅立 葉變換(FFT)和短時快速傅立葉變換(STFFT)。如果希望進(jìn)行感知響度調(diào)整,那么這些申請 的實(shí)施例描述從反轉(zhuǎn)響度模型而計(jì)算出的增益如何與頻域信息相乘,所述頻域信息隨后通 過由于其有效率的實(shí)現(xiàn)而常常被提到的相應(yīng)的逆離散傅立葉變換(IDFT);逆快速傅立葉 變換(IFFT)變換回時域音頻信號。
[0040] 另一時頻變換是離散余弦變換(DCT)。DCT變換提供信號的更緊湊的譜表現(xiàn),并且 因而被廣泛用于也被稱為壓縮方法的圖像、視頻和音頻編碼方法中。當(dāng)被用于音頻編碼中 時,DCT以具有50%重疊的加窗重疊和修改的形式被使用,并且被臨界地采樣以實(shí)現(xiàn)時域 混疊消除。這種重疊和修改的DCT -般被稱為變型的DCT (MDCT)。假設(shè)窗口為2N個采樣 長。MDCT并不是完美可逆的,在于2N采樣的窗口的MDCT如果經(jīng)受逆MDCTaMDCT)則不產(chǎn) 生相同的2N數(shù)據(jù)采樣。但是,當(dāng)逆變換數(shù)據(jù)的隨后塊被添加時,通過使用50%重疊,由變換 引入的誤差被消除。這是時域混疊消除(TDAC)特性。得益于重疊特征,MDCT對于量化非常 有用;例如,它有效地去除否則可容易地檢測到的變換塊之間的分塊偽信息,并且被廣泛用 于諸如Dolby Digital (也被稱為AC-3)和MPEG/AAC之類的音頻編碼方法以及諸如ITU-T H. 261、H. 263、MPEG-l、MPEG-2視頻和JPEG之類的圖像編碼系統(tǒng)中。Dolby Digital是杜比 特許實(shí)驗(yàn)室公司(Dolby Licensing Laboratories Corporation)的商標(biāo)。這種編碼包括 將一個或多個待編碼音頻信號劃分成重疊加窗時間段,在這里被稱為音頻塊。各段的MDCT 變換被感知編碼,并且被量化以壓縮信息。量化的數(shù)據(jù)被封裝成編碼位流。在解碼期間,各 段各被解封裝,并且通過逆MDCT (MDCT)變換(具有重疊相加),以重新創(chuàng)建時域PCM音頻 信號。Dolby Digital例如使用512采樣的長塊尺寸,這里,所述塊的每一半與相鄰塊的一 半重疊。
[0041] 指定美國、作為W0 2007120452公布并且名稱為AUDIO SIGNAL LOUDNESS MEASUREMENT AND MODIFICATION IN THE MDCT DOMAIN 的國際申請 No. PCT/ US2007/007945(以下稱為"W0 2007120452")特別描述了可如何使用通過使用變型離散余 弦變換(MDCT)獲得的信息來執(zhí)行感知響度測量和修改。這允許例如感知響度確定和修改 與典型地使用MDCT的低位率音頻解碼器有效率地統(tǒng)合。將W0 2007120452的內(nèi)容以引用 方式并入在本文中。
[0042] 注意,W0 2007120452將此處以及通常稱為MDCT的概念用術(shù)語STMDCT來稱呼,以 便與使用STDFT來描述以重疊方式加窗的數(shù)據(jù)塊的DFT的方式一致。應(yīng)當(dāng)理解,本文中使 用的MDCT是被臨界地采樣并且實(shí)現(xiàn)TDAC的重疊加窗余弦變換。
[0043] 感知音頻編碼方法常常被設(shè)計(jì)為使用多于一個的塊長度的重疊變換數(shù)據(jù),其中所 述塊長度根據(jù)音頻信號的一個或更多個特定特性而被更改。例如,Dolby Digital使用兩 個塊尺寸;512采樣的長塊(例如用于明顯的靜止信號)和256采樣的短塊(例如用于上 升的瞬變音頻信號)。結(jié)果是,頻帶的數(shù)量和寬度以及MDCT譜值的相應(yīng)數(shù)量在塊之間改變。 再次使用Dolby Digital作為例子,當(dāng)塊尺寸為512時域采樣時,存在256個頻帶(頻率單 元,frequency bin),并且,當(dāng)塊尺寸為256時域采樣時,存在128個頻帶(頻率單元)。使 用這種短塊尺寸和長塊尺寸兩者的原因是因?yàn)楦兄幋a器根據(jù)它們的天性由于量化而引 入誤差或噪聲,因?yàn)樗鼈儔嚎s或降低音頻信號的信息速率。量化誤差或噪聲,特別是來自瞬 變信號的量化誤差或噪聲,跨音頻采樣的塊的長度而擴(kuò)展并且變得可聽。當(dāng)使用短(時間) 采樣塊時,噪聲擴(kuò)展在時間上更加局部化,因此不那么可聽。
[0044] 使用多于一個的塊尺寸的感知音頻編碼器表現(xiàn)出對于將響度確定和修改與音頻 解碼器組合的困難。W0 2007120452簡短地討論了修改反量化(de-quantization)過程以 通過將多個較小的塊組合或平均化為較大的塊而總是以恒定的塊速率輸出恒定數(shù)量的帶, 使得可以對恒定的塊尺寸執(zhí)行響度確定。W0 2007120452還簡短地討論了修改響度確定過 程以接受改變的塊尺寸。響度確定典型地包括濾波、激勵計(jì)算、特性響度計(jì)算、平均化和加 和,并且,W0 2007120452建議改變它們。這需要超出例如允許塊尺寸維持恒定所需要的復(fù) 雜度的附加的復(fù)雜度以及組合較短的塊。
[0045] 希望形成用于利用不同的塊長度數(shù)據(jù)執(zhí)行組合或平均化以及當(dāng)塊尺寸改變時如 何確定增益并且將這些增益應(yīng)用于音頻信號以用于感知響度修改的實(shí)際方法。
[0046] 一些實(shí)施例
[0047] 這里描述的是用于確定和修改頻域音頻信號的響度的方法和設(shè)備以及軟件(例 如,在計(jì)算機(jī)可讀介質(zhì)中實(shí)施的處理器可執(zhí)行的指令),其中,音頻信號塊尺寸可改變。
[0048] 在這里詳細(xì)描述的實(shí)施例假設(shè)使用由感知音頻編碼器使用的MDCT譜。但是,本發(fā) 明的方面也適用于在第一線性空間域一時域到線性空間第二域一頻率之間變換的其它變 換。這些其它變換包括但不限于前面討論的DFT、STDFT (STFFT)、DCT (離散余弦變換)以及 其它,包括這些變換的逆變換。對于本領(lǐng)域技術(shù)人員來說,如何修改這里描述的實(shí)現(xiàn)以使用 和/或適用于這些其它變換將是清楚和直接的,并且,不意味著權(quán)利要求被限于MDCT或逆 MDCT (MDCT),除非明確聲明這樣限制。
[0049] 圖1示出感知音頻解碼器的簡化功能框圖。雖然一般來說諸如圖1所示的解碼器 是現(xiàn)有技術(shù),但是包括這里描述的任何發(fā)明要素的這種解碼器不是現(xiàn)有技術(shù)。從一個或更 多個音頻信號(音頻信道)的感知編碼位流101開始,第一元件103產(chǎn)生各信道的MDCT譜, 并且包括將位流解封裝為碼字、將碼字反量化以及從反量化的碼字重構(gòu)這種各音頻信道的 MDCT譜105。MDCT譜信息105包括音頻的變換的重疊塊的變換系數(shù)。這種譜信息然后通過 元件107使用頂DCT并且將信息的逆變換塊去重疊而被變換到時域,以產(chǎn)生解碼的數(shù)字音 頻。更特別地,頂DCT被計(jì)算,然后,得到的時間采樣被加窗,并且,加窗的采樣的前一半被 加到先前塊的后一半,以創(chuàng)建最終的輸出PCM時間采樣109。本領(lǐng)域技術(shù)人員將理解,發(fā)生 去重疊,并且每當(dāng)頂DCT功能被描述時暗示去重疊以產(chǎn)生PCM音頻。
[0050] 在頻域105中(在頂DCT功能之前)存在解碼的音頻。如在W0 2007120452中描 述的那樣,可在MDCT之前執(zhí)行響度確定和修改。圖2示出包括MDCT域中的響度處理的感 知音頻解碼器的簡化框圖。雖然一般來說諸如圖2所示的解碼器是現(xiàn)有技術(shù),但是包括這 里描述的任何本發(fā)明的要素的這種解碼器不是現(xiàn)有技術(shù)。響度處理元件203被配置為根據(jù) 一個或更多個響度修改參數(shù)201來實(shí)施音頻信號的響度確定和修改兩者,以產(chǎn)生在逆處理 之后得到輸出音頻數(shù)據(jù)209的修改的譜數(shù)據(jù)205。
[0051] 圖3示出更詳細(xì)地描述響度處理元件203的一個實(shí)施例中的一些處理元件的簡 化框圖。響度處理元件203包括頻域信號處理器301,所述頻域信號處理器301包括響度 參數(shù)確定器303,所述響度參數(shù)確定器303被配置為確定一個或更多個感知響度參數(shù),例 如MDCT音頻信號105的感知響度域中的激勵和特性響度。例如根據(jù)規(guī)定對響度的希望的 改變的所述一個或更多個參數(shù)201,通過響度修改確定器305來修改所得到的感知響度參 數(shù)。例如,如果響度處理包括噪聲補(bǔ)償,那么響度修改參數(shù)包括噪聲補(bǔ)償?shù)牧?、噪聲的譜值 和希望的特性響度水平等。在一個實(shí)施例中,響度修改確定器305產(chǎn)生被表達(dá)為一組增益 值或增益譜的對特性響度的修改,例如,對于各音頻信道中的各MDCT頻帶有一個增益值, 并且,通過包括乘法器元件的響度修改器309使用所確定的增益來計(jì)算這種修改??稍赪0 2004111994和W0 2006047600中、特別是在W0 2007120452中的MCDCT域中找到響度參數(shù) 確定和響度修改計(jì)算的特定的細(xì)節(jié),并且,為了不使本發(fā)明的發(fā)明方面模糊,這里不詳細(xì)給 出這些特定的細(xì)節(jié)。MDCT音頻信號105可由延遲元件307延遲,以向響度確定器303和響 度修改確定器305提供一些向前的展望,即預(yù)期音頻信號的改變的能力,使得在乘法器元 件309中向延遲的譜數(shù)據(jù)施加增益以產(chǎn)生修改的MDCT音頻信號205。
[0052] 圖3的設(shè)備和由其實(shí)現(xiàn)的方法對于恒定的MDCT塊尺寸工作良好。如果塊尺寸隨 時間改變,那么響度確定器303和響度修改確定器305需要適應(yīng)于新的塊尺寸。這實(shí)現(xiàn)起 來會是復(fù)雜的。參見W02007120452。
[0053] 圖4示出被配置為在頻域(例如,MDCT域)中確定響度以及修改響度的本發(fā)明的 一個設(shè)備實(shí)施例400。本發(fā)明的實(shí)施例的一個特征包括操作操作頻域信號處理器405,該頻 域信號處理器405包括響度參數(shù)確定器元件406和響度修改確定器元件407,并且,對與所 使用的最大MDCT塊尺寸(例如,在確定和修改是用于來自解碼器的數(shù)據(jù)的情況下,為音頻 解碼器中的最大MDCT塊尺寸)相同的塊尺寸或塊速率的數(shù)據(jù)進(jìn)行操作。該設(shè)備包括塊組 合器403,所述塊組合器403被配置為在通過頻域信號處理器405的響度參數(shù)確定器406進(jìn) 行響度參數(shù)確定之前,組合比最大塊尺寸小的塊,以形成最大塊尺寸的塊。實(shí)施例還包括用 于內(nèi)插由響度修改確定器407確定的修改的修改內(nèi)插器409,例如,用于內(nèi)插對于通過組合 較小塊尺寸的塊而獲得的最大尺寸塊確定的增益的增益內(nèi)插器。延遲元件411負(fù)責(zé)塊403、 406、407和409中涉及的處理延遲,使得向響度修改器元件413呈遞的數(shù)據(jù)被時間對準(zhǔn)。
[0054] 組合塊
[0055] 塊組合器403實(shí)施塊組合,并且被配置為從多個較小的塊尺寸譜構(gòu)造用于大塊尺 寸譜一"長塊"譜一的大塊尺寸MDCT譜,所述較小的塊尺寸未必都是相對于最大塊尺寸的 相同的短塊尺寸。
[0056] 使用多于一個的塊長度的典型的感知音頻編碼器通常使用較短塊的倍數(shù),其MDCT 譜值的總數(shù)相當(dāng)于單個相對長塊中的譜值的數(shù)量。以不同的方式表達(dá),用于計(jì)算短MDCT譜 的序列的不同采樣時間PCM音頻采樣的總數(shù)相當(dāng)于用于計(jì)算單個長MDCT譜的不同采樣時 間PCM音頻采樣的數(shù)量。作為一個例子,Dolby Digital使用512個采樣的長塊尺寸,所述 512個采樣由與先前的長塊重疊的256個采樣和與下一個長塊重疊的256個附加采樣構(gòu)成, 這導(dǎo)致256個MDCT譜值(頻率單元)。當(dāng)Dolby Digital使用短塊時,它按照第一和第二 短塊的對來使用短塊。第一短塊包括與先前的塊重疊的256個采樣,所述先前的塊在應(yīng)用 MDCT之后導(dǎo)致128個MDCT譜值(頻率單元)。第二短塊也是與下一個256長塊重疊的256 個采樣,所述下一個256長塊也導(dǎo)致128個MDCT譜值(頻率單元)。
[0057] 另一例子是MPEG/AAC,其使用給出1024個MDCT值的2048個采樣的長塊尺寸和給 出128個MDCT值的256個采樣的短塊尺寸。當(dāng)MPEG/AAC使用短塊時,它總是使用八個短 塊的倍數(shù)一塊的八重組(octet),使得在這種八重組中存在8 X 128 = 1024個MDCT值(頻 率單元),數(shù)量與單一長塊的數(shù)量相同。
[0058] 雖然可以有實(shí)施組合步驟塊組合器403的許多方式而不背離本發(fā)明的實(shí)質(zhì),但是 這里描述兩個示例性方法。第一示例性方法包括交織較短塊的MDCT值以創(chuàng)建長塊的單個 譜。第二方法使用短塊譜的子集,并且包括復(fù)制值以創(chuàng)建長塊的單一譜。在使用復(fù)制的一 些這樣的示例性方法中,使用最近的較短譜來創(chuàng)建長塊的單一譜。
[0059] 實(shí)施例如組合元件403的組合的替代性實(shí)施例包括在短塊尺寸的頻域數(shù)據(jù)的值 之間進(jìn)行內(nèi)插,以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。對之后的數(shù)據(jù)也可如此。
[0060] 圖5A?5E示出基于示例性響板擊打的Dolby Digital數(shù)據(jù)的示例性MDCT譜。 特別地,圖5A和圖5B示出各具有128個值的兩個連續(xù)短塊MDCT譜。可以看出,這顯然是 上升瞬變,因?yàn)橄鄬τ贛DCT數(shù)據(jù)的第二塊中的能量的量,在第一短塊中的所有頻帶中存在 相對很少的能量。圖5C示出利用交織從圖5A和圖5B的譜確定的具有256個頻域值的譜。 圖示出通過復(fù)制圖5B的第二短譜的相鄰值而創(chuàng)建的長塊譜。由于當(dāng)音頻信號能量特別 是高頻能量迅速上升時如Dolby Digital那樣的編碼器選擇使用短塊,因此考慮這一點(diǎn)是 有用的。這指示音頻信號中的瞬變。結(jié)果,第二短譜是用于創(chuàng)建兩個短塊譜的音頻信號的 總體譜的較好的代表。當(dāng)與圖5E比較時,可以看到這一點(diǎn)。
[0061] 實(shí)施例如組合元件403的組合的替代性實(shí)施例包括在短塊尺寸的頻域數(shù)據(jù)的值 之間進(jìn)行內(nèi)插,以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。對之后的數(shù)據(jù)也可如此。
[0062] 最后,作為參照,圖5E示出從用于計(jì)算圖5A和圖5B中的兩個較短MDCT譜的相同 的采樣計(jì)算的長MDCT譜。這代表理想化的情況,在該理想化的情況下,Dolby Digital能 夠以高于正常數(shù)據(jù)速率的數(shù)據(jù)速率運(yùn)行,并且因此將不需要使用較短塊來使瞬變信號的量 化噪聲的可聽性最小化。Dolby Digital實(shí)際上將既不計(jì)算也不使用圖5E中的譜,但它代 表如果編碼器限于僅使用長塊的情況下會發(fā)生什么。
[0063] 對于AAC和類似的編碼方法,長塊的長度是多于兩個短塊的倍數(shù),例如,對于AAC 為8,并且/或者,存在多種類型的長塊,例如,對于AAC為3種,假定對于不同類型的長塊中 的每一個,以基本上相同的方式確定響度。用于這樣的多種塊尺寸的本發(fā)明的一些實(shí)施例 選擇最大尺寸,并且,使用交織來從多個短數(shù)據(jù)塊確定長數(shù)據(jù)塊。
[0064] 注意,對于上升的瞬變,較后的短塊具有增大的功率。如已知的那樣,由于下降的 瞬變的感知掩蓋,瞬變的短塊包括上升的瞬變的短塊。在其中長塊具有短塊長度的整數(shù)倍 (大于兩倍)的長度(例如,對于AAC為8倍)的一些實(shí)施例中,使用交織來形成具有高于 預(yù)定閾值的總體能量的連續(xù)的較后的塊的子組(subgroup),然后,使用復(fù)制或交織將這些 連續(xù)的較后的塊與較早的塊進(jìn)行組合,以給出具有長塊的塊的組合譜。在一些實(shí)施例中,所 述預(yù)定閾值為最后的長塊尺寸塊的總頻域能量的一半。
[0065] 確定感知響度
[0066] W0 2004111994描述了基于心理聲學(xué)模型的感知響度的客觀測量。雖然TO 2004111994描述使用獲得的對數(shù)功率譜,例如使用短時DFT,但是,來自一組MDCT譜的功率 確定也是已知的??紤]時間采樣x[n,t]的時變加窗塊的STDFT,這里,n是塊內(nèi)的時間索 引,t是參照該時間的索引。對于長度為T個采樣的塊,使用STDFT的功率譜時變估計(jì)的一 種常用的計(jì)算是
【權(quán)利要求】
1. 一種使用信號處理裝置來確定音頻信號的感知響度的方法,該方法包含: 將頻域音頻數(shù)據(jù)的塊接受到所述信號處理裝置中,所述頻域音頻數(shù)據(jù)是通過對音頻信 號的對應(yīng)的時間采樣塊進(jìn)行變換得到的,所述塊包括至少兩個不同塊尺寸的塊,所述至少 兩個不同塊尺寸包括最小塊尺寸和最長塊尺寸,各個接受的塊尺寸為所述最小塊尺寸或者 所述最小塊尺寸的大于2的相應(yīng)整數(shù)倍大,其中最長塊尺寸是所接受的塊的所有塊尺寸之 中最長的; 對于短于最長塊尺寸的各個塊尺寸,所述信號處理裝置組合具有相應(yīng)的塊尺寸的多個 接受的塊以形成頻域信息的相應(yīng)形成的最長塊尺寸的塊;以及 所述信號處理裝置確定或接受所接受的塊或其延遲形態(tài)的一個或更多個感知響度參 數(shù),各參數(shù)在與最長塊尺寸對應(yīng)的頻率分辨率處包含用于臨界頻帶組中的每一個的相應(yīng)的 參數(shù)值,所述一個或更多個感知響度參數(shù)包括臨界帶功率譜以及/或者針對所述臨界頻帶 組的所接受的塊或其延遲形態(tài)的特性響度。
2. 如權(quán)利要求1所述的方法,還包括: 使用與最長塊尺寸對應(yīng)的頻率分辨率處的一個或更多個感知響度參數(shù),由信號處理裝 置確定能夠應(yīng)用于對應(yīng)的頻率分辨率處的頻域信息的至少一個感知響度修改, 對于各接受的最長塊尺寸之外的塊尺寸的數(shù)據(jù),內(nèi)插所確定的應(yīng)用于具有所述各塊尺 寸的接受的數(shù)據(jù)塊或延遲的接受的數(shù)據(jù)塊的至少一個響度修改,以及 將所確定的至少一個響度修改或至少一個內(nèi)插的響度修改應(yīng)用于所接受的頻域數(shù)據(jù) 塊或者其延遲形態(tài)。
3. 如權(quán)利要求2所述的方法,其中,針對短于最長塊尺寸的各個塊尺寸的組合包括: 交織相應(yīng)的短塊尺寸的頻域數(shù)據(jù),以及/或者, 復(fù)制相應(yīng)的短塊尺寸的頻域數(shù)據(jù)的值,以及/或者, 在相應(yīng)短塊尺寸的頻域數(shù)據(jù)的值之間進(jìn)行內(nèi)插,以及/或者, 對于最長塊尺寸是特定塊尺寸的大于2的特定整數(shù)倍的特定塊尺寸,使用交織來組合 向著所述多個塊的末尾出現(xiàn)并且具有高于預(yù)定閾值的總體能量的連續(xù)塊的頻域數(shù)據(jù)子組 以形成中間尺寸塊的頻域數(shù)據(jù),以及通過復(fù)制或交織而將中間尺寸塊的頻域數(shù)據(jù)與不具有 高于所述預(yù)定閾值的能量的多個頻域數(shù)據(jù)塊進(jìn)行組合以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
4. 如權(quán)利要求2或3所述的方法,還包括:延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響 度修改或內(nèi)插的修改被應(yīng)用于頻域數(shù)據(jù)塊的延遲形態(tài)。
5. 如權(quán)利要求2或3所述的方法,其中,各個所確定的響度修改包括對應(yīng)的一組增益, 其中,所述內(nèi)插確定內(nèi)插的增益,并且其中,應(yīng)用所確定的至少一個響度修改或內(nèi)插的響度 修改包括應(yīng)用所述一組增益或一組內(nèi)插的增益。
6. 如權(quán)利要求2或3所述的方法,其中,所述一個或更多個感知響度參數(shù)包括音頻數(shù)據(jù) 的激勵和音頻數(shù)據(jù)的特性響度,并且其中,實(shí)施所述感知響度處理包括響度水平調(diào)節(jié)、增益 控制、噪聲補(bǔ)償和/或動態(tài)均衡化中的一個或更多個。
7. 如權(quán)利要求2或3所述的方法,其中,所述變換是被應(yīng)用到重疊的時間樣本塊的重疊 變換。
8. 如權(quán)利要求7所述的方法,其中,所述變換是短時離散傅立葉變換、短時離散正弦變 換、或者變型離散余弦變換。
9. 如權(quán)利要求2或3所述的方法,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù) 據(jù)通過使用多于一種塊尺寸的感知編碼器被編碼。
10. 如權(quán)利要求9所述的方法,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù) 通過使用256個時域采樣的短塊尺寸和512個時域采樣的長塊尺寸的感知編碼器被編碼。
11. 如權(quán)利要求9所述的方法,其中,所接受的頻域數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼 音頻數(shù)據(jù)通過使用256個時域采樣的短塊尺寸和2048個時域采樣的長塊尺寸的感知編碼 器被編碼。
12. -種用于確定音頻信號的感知響度的裝置,該裝置包含: 用于將頻域音頻數(shù)據(jù)的塊接受到所述裝置中的部件,所述頻域音頻數(shù)據(jù)是通過對音頻 信號的對應(yīng)的時間采樣塊進(jìn)行變換得到的,所述塊包括至少兩個不同塊尺寸的塊,所述至 少兩個不同塊尺寸包括最小塊尺寸和最長塊尺寸,各個接受的塊尺寸為所述最小塊尺寸或 者所述最小塊尺寸的大于2的相應(yīng)整數(shù)倍大,其中最長塊尺寸是所接受的塊的所有塊尺寸 之中最長的; 用于對于短于最長塊尺寸的各個塊尺寸進(jìn)行組合的部件,組合具有相應(yīng)的塊尺寸的多 個接受的塊以形成頻域信息的相應(yīng)形成的最長塊尺寸的塊;以及 用于確定或接受所接受的塊或其延遲形態(tài)的一個或更多個感知響度參數(shù)的部件,各參 數(shù)在與最長塊尺寸對應(yīng)的頻率分辨率處包含用于臨界頻帶組中的每一個的相應(yīng)的參數(shù)值, 所述一個或更多個感知響度參數(shù)包括臨界帶功率譜以及/或者針對所述臨界頻帶組的所 接受的塊或其延遲形態(tài)的特性響度。
13. 如權(quán)利要求12所述的裝置,還包括: 用于確定能夠應(yīng)用于對應(yīng)的頻率分辨率處的頻域信息的至少一個感知響度修改的部 件,該用于確定所述至少一個感知響度修改的部件使用與最長塊尺寸對應(yīng)的頻率分辨率處 的一個或更多個感知響度參數(shù), 用于對于各接受的最長塊尺寸之外的塊尺寸的數(shù)據(jù),內(nèi)插所確定的應(yīng)用于具有所述各 塊尺寸的接受的數(shù)據(jù)塊或延遲的接受的數(shù)據(jù)塊的至少一個響度修改的部件,以及 用于將所確定的至少一個響度修改或至少一個內(nèi)插的響度修改應(yīng)用于所接受的頻域 數(shù)據(jù)塊或者其延遲形態(tài)的部件。
14. 如權(quán)利要求13所述的裝置,其中,用于對于短于最長塊尺寸的各個塊尺寸進(jìn)行組 合的部件能夠操作用于: 交織相應(yīng)的短塊尺寸的頻域數(shù)據(jù),以及/或者, 復(fù)制相應(yīng)的短塊尺寸的頻域數(shù)據(jù)的值,以及/或者, 在相應(yīng)短塊尺寸的頻域數(shù)據(jù)的值之間進(jìn)行內(nèi)插,以及/或者, 對于最長塊尺寸是特定塊尺寸的大于2的特定整數(shù)倍的特定塊尺寸,使用交織來組合 向著所述多個塊的末尾出現(xiàn)并且具有高于預(yù)定閾值的總體能量的連續(xù)塊的頻域數(shù)據(jù)子組 以形成中間尺寸塊的頻域數(shù)據(jù),以及通過復(fù)制或交織而將中間尺寸塊的頻域數(shù)據(jù)與不具有 高于所述預(yù)定閾值的能量的多個頻域數(shù)據(jù)塊進(jìn)行組合以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
15. 如權(quán)利要求13或14所述的裝置,還包括: 用于延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響度修改或內(nèi)插的修改被應(yīng)用于頻域數(shù) 據(jù)塊的延遲形態(tài)的部件。
16. 如權(quán)利要求13或14所述的裝置,其中,各個所確定的響度修改包括對應(yīng)的一組增 益,其中,所述用于內(nèi)插的部件確定內(nèi)插的增益,并且其中,用于應(yīng)用所確定的至少一個響 度修改或內(nèi)插的響度修改的部件應(yīng)用所述一組增益或一組內(nèi)插的增益。
17. 如權(quán)利要求13或14所述的裝置,其中,所述一個或更多個感知響度參數(shù)包括音頻 數(shù)據(jù)的激勵和音頻數(shù)據(jù)的特性響度,并且其中,實(shí)施所述感知響度處理包括響度水平調(diào)節(jié)、 增益控制、噪聲補(bǔ)償和/或動態(tài)均衡化中的一個或更多個。
18. 如權(quán)利要求13或14所述的裝置,其中,所述變換是被應(yīng)用到重疊的時間樣本塊的 重疊變換。
19. 如權(quán)利要求18所述的裝置,其中,所述變換是短時離散傅立葉變換、短時離散正弦 變換、或者變型離散余弦變換。
20. 如權(quán)利要求13或14所述的裝置,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻 數(shù)據(jù)通過使用多于一種塊尺寸的感知編碼器被編碼。
21. 如權(quán)利要求20所述的裝置,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù) 通過使用256個時域采樣的短塊尺寸和512個時域采樣的長塊尺寸的感知編碼器被編碼。
22. 如權(quán)利要求20所述的裝置,其中,所接受的頻域數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼 音頻數(shù)據(jù)通過使用256個時域采樣的短塊尺寸和2048個時域采樣的長塊尺寸的感知編碼 器被編碼。
23. -種用于確定音頻信號的感知響度的裝置,該裝置包含: 包括一個或更多個處理器和存儲器的處理引擎,被配置為執(zhí)行包含下列內(nèi)容的方法: 將頻域音頻數(shù)據(jù)的塊接受到所述裝置中,所述頻域音頻數(shù)據(jù)是通過對音頻信號的對 應(yīng)的時間采樣塊進(jìn)行變換得到的,所述塊包括至少兩個不同塊尺寸的塊,所述至少兩個不 同塊尺寸包括最小塊尺寸和最長塊尺寸,各個接受的塊尺寸為所述最小塊尺寸或者所述最 小塊尺寸的大于2的相應(yīng)整數(shù)倍大,其中最長塊尺寸是所接受的塊的所有塊尺寸之中最長 的; 對于短于最長塊尺寸的各個塊尺寸,組合具有相應(yīng)的塊尺寸的多個接受的塊以形成頻 域信息的相應(yīng)形成的最長塊尺寸的塊;以及 確定或接受所接受的塊或其延遲形態(tài)的一個或更多個感知響度參數(shù),各參數(shù)在與最長 塊尺寸對應(yīng)的頻率分辨率處包含用于臨界頻帶組中的每一個的相應(yīng)的參數(shù)值,所述一個或 更多個感知響度參數(shù)包括臨界帶功率譜以及/或者針對所述臨界頻帶組的所接受的塊或 其延遲形態(tài)的特性響度; 確定能夠應(yīng)用于與最長塊尺寸對應(yīng)的頻率分辨率處的頻域信息的至少一個感知響度 修改,該確定使用與最長塊尺寸對應(yīng)的頻率分辨率處的一個或更多個感知響度參數(shù); 對于各接受的最長塊尺寸之外的塊尺寸的數(shù)據(jù),內(nèi)插所確定的應(yīng)用于具有所述各塊尺 寸的接受的數(shù)據(jù)塊或延遲的接受的數(shù)據(jù)塊的至少一個響度修改,以及 將所確定的至少一個響度修改或至少一個內(nèi)插的響度修改應(yīng)用于所接受的頻域數(shù)據(jù) 塊或者其延遲形態(tài)。
24. 如權(quán)利要求23所述的裝置,還包含: 使用與最長塊尺寸對應(yīng)的頻率分辨率處的一個或更多個感知響度參數(shù),由所述裝置確 定能夠應(yīng)用于對應(yīng)的頻率分辨率處的頻域信息的至少一個感知響度修改, 對于各接受的最長塊尺寸之外的塊尺寸的數(shù)據(jù),內(nèi)插所確定的應(yīng)用于具有所述各塊尺 寸的接受的數(shù)據(jù)塊或延遲的接受的數(shù)據(jù)塊的至少一個響度修改,以及 將所確定的至少一個響度修改或至少一個內(nèi)插的響度修改應(yīng)用于所接受的頻域數(shù)據(jù) 塊。
25. 如權(quán)利要求24所述的裝置,其中,對于短于最長塊尺寸的各個塊尺寸進(jìn)行組合包 括: 交織相應(yīng)的短塊尺寸的頻域數(shù)據(jù),以及/或者, 復(fù)制相應(yīng)的短塊尺寸的頻域數(shù)據(jù)的值,以及/或者, 在相應(yīng)短塊尺寸的頻域數(shù)據(jù)的值之間進(jìn)行內(nèi)插,以及/或者, 對于最長塊尺寸是特定塊尺寸的大于2的特定整數(shù)倍的特定塊尺寸,使用交織來組合 向著所述多個塊的末尾出現(xiàn)并且具有高于預(yù)定閾值的總體能量的連續(xù)塊的頻域數(shù)據(jù)子組 以形成中間尺寸塊的頻域數(shù)據(jù),以及通過復(fù)制或交織而將中間尺寸塊的頻域數(shù)據(jù)與不具有 高于所述預(yù)定閾值的能量的多個頻域數(shù)據(jù)塊進(jìn)行組合以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
26. 如權(quán)利要求24或25所述的裝置,其中所述方法還包括:延遲頻域音頻數(shù)據(jù)塊,使 得所述至少一個響度修改或內(nèi)插的修改被應(yīng)用于頻域數(shù)據(jù)塊的延遲形態(tài)。
27. 如權(quán)利要求24或25所述的裝置,其中,各個所確定的響度修改包括對應(yīng)的一組增 益,其中,所述內(nèi)插確定內(nèi)插的增益,并且其中,應(yīng)用所確定的至少一個響度修改或內(nèi)插的 響度修改包括應(yīng)用所述一組增益或一組內(nèi)插的增益。
28. 如權(quán)利要求24或25所述的裝置,其中,所述一個或更多個感知響度參數(shù)包括音頻 數(shù)據(jù)的激勵和音頻數(shù)據(jù)的特性響度,并且其中,實(shí)施所述感知響度處理包括響度水平調(diào)節(jié)、 增益控制、噪聲補(bǔ)償和/或動態(tài)均衡化中的一個或更多個。
29. 如權(quán)利要求24或25所述的裝置,其中,所述變換是被應(yīng)用到重疊的時間樣本塊的 重疊變換。
30. 如權(quán)利要求29所述的裝置,其中,所述變換是短時離散傅立葉變換、短時離散正弦 變換、或者變型離散余弦變換。
31. 如權(quán)利要求24或25所述的裝置,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻 數(shù)據(jù)通過使用多于一種塊尺寸的感知編碼器被編碼。
32. 如權(quán)利要求31所述的裝置,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù) 通過使用256個時域采樣的短塊尺寸和512個時域采樣的長塊尺寸的感知編碼器被編碼。
33. 如權(quán)利要求31所述的裝置,其中,所接受的頻域數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼 音頻數(shù)據(jù)通過使用256個時域采樣的短塊尺寸和2048個時域采樣的長塊尺寸的感知編碼 器被編碼。
【文檔編號】H03G9/02GK104378075SQ201410743139
【公開日】2015年2月25日 申請日期:2009年12月22日 優(yōu)先權(quán)日:2008年12月24日
【發(fā)明者】M·J·斯米澤斯 申請人:杜比實(shí)驗(yàn)室特許公司