国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      提供時間扭曲激活信號以及使用該時間扭曲激活信號對音頻信號編碼的制作方法

      文檔序號:2823197閱讀:233來源:國知局
      專利名稱:提供時間扭曲激活信號以及使用該時間扭曲激活信號對音頻信號編碼的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及音頻編碼和解碼,并且具體地針對具有諧波或語音內(nèi)容的、可受到時 間扭曲處理的音頻信號的編碼/解碼。
      背景技術(shù)
      在下文中,將給出對時間扭曲音頻編碼的領(lǐng)域的簡要說明,該編碼的概念可結(jié)合 本發(fā)明的一些實施例一起應(yīng)用。近年來,技術(shù)上的發(fā)展可將音頻信號變換為頻域表示,并且例如考慮到感知屏蔽 閾值,可以對該頻域表示進行有效地編碼。如果發(fā)送編碼頻譜系數(shù)組的塊長度很長,且如果 僅相當小數(shù)目的頻譜系數(shù)遠在該全局屏蔽閾值之上,同時很大數(shù)目的頻譜系數(shù)在該全局屏 蔽閾值附近或之下并可能因而被忽略(或以最小碼長進行編碼)時,該音頻信號編碼的概 念特別有效。例如,基于余弦或基于正弦的調(diào)制的重疊變換通常由于它們的能量壓縮性質(zhì)而用 于源編碼的應(yīng)用。即,對于具有恒定基本頻率(音調(diào))的諧音而言,它們將信號能量濃縮于 小數(shù)目的頻譜分量(子頻帶)中,這導(dǎo)致了有效的信號表示。大體而言,應(yīng)當將信號的(基本)音調(diào)理解為可與該信號頻譜相區(qū)別的最低主頻 率。在普通語音模型中,該音調(diào)是由人類喉嚨調(diào)制的激勵信號的頻率。如果僅一個單一基 本頻率存在,該頻譜將極其簡單,僅包括該基本頻率及泛音??梢愿咝У貙@種頻譜編碼。 然而,對于具有變化音調(diào)的信號,對應(yīng)于每個諧波分量的能量散布于若干變換系數(shù)上,因而 導(dǎo)致編碼效率的減少。為了克服編碼效率的減少,在不均勻時間網(wǎng)格上對要編碼的音頻信號有效地重新 采樣。在隨后的處理中,對通過不均勻重新采樣所獲得的采樣位置就好像它們表示均勻時 間網(wǎng)格上的值一樣進行處理。該操作一般由短語“時間扭曲”來表示??扇Q于該音調(diào)的 時間變化來有利地選擇采樣時間,使得該音頻信號的時間扭曲版本中的音調(diào)變化小于該音 頻信號的原始版本(時間扭曲前)中的音調(diào)變化。該音調(diào)變化也可用短語“時間扭曲輪廓” 表示。在音頻信號的時間扭曲之后,將該音頻信號的時間扭曲版本轉(zhuǎn)換為頻域。該依賴于 音調(diào)的時間扭曲具有如下效果時間扭曲音頻信號的頻域表示一般地顯示出將能量壓縮成 遠遠小于該原始音頻信號(未被時間扭曲)的頻域表示的頻譜分量數(shù)目。在解碼器側(cè),將該時間扭曲音頻信號的頻域表示轉(zhuǎn)換回時域,使得該時間扭曲音 頻信號的時域表示在解碼器側(cè)可用。然而,在解碼器側(cè)重建時間扭曲音頻信號的時域表示 中,不包括該編碼器側(cè)輸入音頻信號的原始音調(diào)變化。因此,通過對時間扭曲音頻信號的 解碼器側(cè)重建時域表示進行重新采樣,來應(yīng)用另一時間扭曲。為了在解碼器處獲得對編碼 器側(cè)輸入音頻信號的良好重建,需要解碼器側(cè)時間扭曲至少近似編碼器側(cè)時間扭曲的反操 作。為了獲得恰當?shù)臅r間扭曲,需要讓允許調(diào)整解碼器側(cè)時間扭曲的信息在解碼器處可用。因為一般要求將這種信息從音頻信號編碼器傳輸至音頻信號解碼器,需要將該發(fā)送所需的比特率保持為小,同時仍允許在解碼器側(cè)可靠重建所需的時間扭曲信息。鑒于上述討論,需要創(chuàng)建一種概念,其允許有效應(yīng)用音頻編碼器中時間扭曲概念 的比特率。

      發(fā)明內(nèi)容
      本發(fā)明的目的是創(chuàng)建以下概念基于在時間扭曲音頻信號編碼器或時間扭曲音頻 信號解碼器中可用的信息,來增強由編碼音頻信號所提供的聽覺印象。由根據(jù)權(quán)利要求1所述的用于基于音頻信號的表示來提供時間扭曲激活信號的 時間扭曲激活信號提供器、根據(jù)權(quán)利要求12所述的用于對輸入音頻信號編碼的音頻信號 編碼器、根據(jù)權(quán)利要求14所述的用于提供時間扭曲激活信號的方法、根據(jù)權(quán)利要求15所 述的用于提供輸入音頻信號的編碼表示的方法、或根據(jù)權(quán)利要求16所述的計算機程序來 達成該目的。本發(fā)明的另一目的是提供一種增強的音頻編碼/解碼方案,該方案提供較高的質(zhì) 量或較低的比特率。由根據(jù)權(quán)利要求17、26、32、37所述的音頻編碼器、根據(jù)權(quán)利要求20所述的音頻解 碼器、根據(jù)權(quán)利要求23、30、35或37所述的音頻編碼方法、根據(jù)權(quán)利要求M所述的解碼方 法、或根據(jù)權(quán)利要求25、31、36或43所述的計算機程序來達成該目的。根據(jù)本發(fā)明的實施例與用于時間扭曲MDCT變換編碼器的方法相關(guān)。一些實施例 僅與編碼器工具相關(guān)。然而,其它實施例還與解碼器工具相關(guān)。本發(fā)明的實施例創(chuàng)建時間扭曲激活信號提供器,其用于基于音頻信號的表示來提 供時間扭曲激活信號。該時間扭曲激活信號提供器包括能量壓縮信息提供器,被配置為提 供能量壓縮信息,該信息描述音頻信號的時間扭曲變換頻譜表示中的能量壓縮。該時間扭 曲激活信號提供器還包括比較器,該比較器被配置為將能量壓縮信息與參考值相比較,且 取決于比較結(jié)果來提供時間扭曲激活信號。該實施例基于如下發(fā)現(xiàn)如果音頻信號的時間扭曲變換頻譜表示由于將能量濃縮 于一個或多個頻譜區(qū)域(或頻譜線)而包括充分壓縮的能量分布,則從編碼音頻信號的比 特率減少的意義上來說,音頻信號編碼器中的時間扭曲功能性的使用一般帶來增強。這是 由于如下的事實通過將模糊頻譜(例如音頻幀的模糊頻譜)變換為具有一個或多個可辨 別波峰的頻譜,且因此變換為具有比原始(未時間扭曲)音頻信號的頻譜更高的能量壓縮 的頻譜,則成功的時間扭曲帶來減少比特率的效果。關(guān)于此問題,應(yīng)理解音頻信號幀(在該幀中音頻信號的音調(diào)顯著地變化)包括模 糊頻譜。音頻信號的時間變化音調(diào)具有如下效果在音頻信號幀上執(zhí)行的時域到頻域的變 換導(dǎo)致信號能量在頻域,具體地在較高頻域,上的模糊分布。因此,這種原始(未時間扭曲) 音頻信號的頻譜表示包括低能量壓縮,且一般在該頻譜的較高頻率部分不顯示頻譜波峰, 或僅在頻譜中較高頻率部分顯示相對小的頻譜波峰。相對地,如果時間扭曲成功(就提供 該編碼效率的增強而言),該原始音頻信號的時間扭曲產(chǎn)生具有相對較高且清晰的波峰的 頻譜(具體地在該頻譜的較高頻率部分中)的時間扭曲音頻信號。這是由于以下事實將 具有時間變化音調(diào)的音頻信號變換為具有較小音調(diào)變化或甚至近似恒定音調(diào)的時間扭曲 音頻信號。因此,該時間扭曲音頻信號的頻譜表示(可以將其視為該音頻信號的時間扭曲變換頻譜表示)包括一個或多個清晰頻譜波峰。換言之,通過成功的時間扭曲操作來減少 該原始音頻信號(具有在時間上變化的音調(diào))頻譜的模糊,使得該音頻信號的時間扭曲變 換頻譜表示包括比原始音頻信號的頻譜更高的能量壓縮。然而,時間扭曲在增強編碼效率 中并不總是成功。例如,如果輸入音頻信號包括大的噪聲分量,或如果所提取的時間扭曲輪 廓不精確,則時間扭曲不增強編碼效率。鑒于該情況,由能量壓縮信息提供器提供的能量壓縮信息就減少比特率而言是判 定該時間扭曲是否成功的有價值指示符。本發(fā)明的實施例創(chuàng)建時間扭曲激活信號提供器,用于基于音頻信號的表示提供時 間扭曲激活信號。該時間扭曲激活提供器包括兩個時間扭曲表示提供器,所述兩個時間扭 曲標識提供器被配置為使用不同的時間扭曲輪廓信息來提供該相同音頻信號的兩個時間 扭曲表示。因此,該時間扭曲表示提供器可以用相同的方式配置(在結(jié)構(gòu)上或功能上),且 使用相同音頻信號但是不同的時間扭曲輪廓信息。該時間扭曲激活信號提供器還包括兩個 能量壓縮信息提供器,所述兩個能量壓縮信息提供器被配置為基于第一時間扭曲表示提供 第一能量壓縮信息,且基于第二時間扭曲表示提供第二能量壓縮信息。該能量壓縮信息提 供器可以用相同方式配置,但是使用不同的時間扭曲表示。此外,該時間扭曲激活信號提供 器包括比較器,以將兩個不同能量壓縮信息進行比較,且提供取決于比較結(jié)果的時間扭曲 激活信號。在優(yōu)選實施例中,該能量壓縮信息提供器被配置為提供作為能量壓縮信息的頻譜 平坦度度量,該頻譜平坦度度量描述該音頻信號的時間扭曲變換頻譜表示。已發(fā)現(xiàn)如果時 間扭曲將輸入音頻信號變換為表示該輸入音頻信號的時間扭曲版本的較不平坦的時間扭 曲頻譜時,就減少比特率而言,時間扭曲是成功的。因此,頻譜平坦度度量可以用于判定在 不執(zhí)行全頻譜編碼處理的情況下,應(yīng)當激活還是停用時間扭曲。在優(yōu)選實施例中,該能量壓縮信息提供器被配置為計算該時間扭曲變換功率頻譜 的幾何平均與該時間扭曲變換功率頻譜的算術(shù)平均的商,以獲得頻譜平坦度度量。已發(fā)現(xiàn) 該商是非常適于描述通過時間扭曲來獲得的可能比特率節(jié)約的頻譜平坦度度量。在另一優(yōu)選實施例中,該能量壓縮信息提供器被配置為當與時間扭曲變換頻譜表 示的較低頻率部分相比時,強調(diào)時間扭曲變換頻譜表示的較高頻率部分,以獲得該能量壓 縮信息。該概念基于如下發(fā)現(xiàn)時間扭曲在較高頻率范圍上一般比在較低頻率范圍上具有 更大的影響。因此,為了確定使用頻譜平坦度度量的時間扭曲的有效性,主要評估該較高頻 率范圍是恰當?shù)摹4送?,典型的音頻信號顯示諧波內(nèi)容(包括基本頻率的諧波),其隨頻率 的增加在強度上衰減。當與時間扭曲變換頻譜表示的較低頻率部分相比時,強調(diào)該時間扭 曲變換頻譜表示的較高頻率部分也有助于補償該頻譜線隨頻率增加的這種典型衰減。總而 言之,對頻譜的較高頻率部分的強調(diào)導(dǎo)致了能量壓縮信息的可靠性增加,并因此允許更可 靠地提供時間扭曲激活信號。在另一優(yōu)選實施例中,能量壓縮信息提供器被配置為提供頻譜平坦度的多個逐頻 帶度量,且被配置為計算頻譜平坦度的多個逐頻帶度量的平均值,以獲得該能量壓縮信息。 已發(fā)現(xiàn)逐頻帶頻譜平坦度度量的考慮導(dǎo)致了與時間扭曲是否有效減少編碼音頻信號比特 率的特別可靠信息。首先,一般以逐頻帶方式來執(zhí)行對時間扭曲變換頻譜表示的編碼,使得 頻譜平坦度的該逐頻帶度量的組合非常適于該編碼,且因此以良好精確度表示可獲得的比特率增強。此外,頻譜平坦度度量的逐頻帶計算實質(zhì)上消除了能量壓縮信息對諧波分布的 依賴性。例如,即使較高頻帶包括相對小的能量(小于較低頻帶的能量),該較高頻帶可能 仍然在感知上是相關(guān)的。然而,如果不以逐頻帶方式來計算該頻譜平坦度度量,則在該較 高頻帶上的時間扭曲的積極影響(從該頻譜線的模糊的減少的意義上說)可能僅因該較高 頻帶上的能量小而被認為是小的。相對地,通過應(yīng)用逐頻帶計算,可以用恰當?shù)臋?quán)重來考慮 時間扭曲的積極影響,因為該逐頻帶頻譜平坦度度量獨立于各自頻帶中的絕對能量。在另一優(yōu)選實施例中,該時間扭曲激活信號提供器包括參考值計算器,所述參考 值計算器被配置為計算頻譜平坦度度量,以獲得該參考值,該度量描述音頻信號的未時間 扭曲的頻譜表示。因此,可基于輸入音頻信號的未時間扭曲(或“未扭曲的”)版本的頻譜 平坦度與輸入音頻信號的時間扭曲版本的頻譜平坦度的比較來提供該時間扭曲激活信號。在另一優(yōu)選實施例中,該能量壓縮信息提供器被配置為提供作為能量壓縮信息的 感知熵度量,該度量描述音頻信號的時間扭曲變換頻譜表示。此概念基于下述發(fā)現(xiàn)時間扭 曲變換頻譜表示的感知熵是對編碼該時間扭曲變換頻譜所需要的比特數(shù)目(或比特率)的 良好估計。因此,甚至由于如果使用時間扭曲,則必須對附加時間扭曲信息編碼,該時間扭 曲變換頻譜表示的感知熵度量是是否可通過時間扭曲來預(yù)期比特率減少的良好度量。在另一優(yōu)選實施例中,該能量壓縮信息提供器被配置為提供作為能量壓縮信息的 自相關(guān)度量,該度量描述音頻信號的時間扭曲表示的自相關(guān)。該概念基于如下發(fā)現(xiàn)可以基 于時間扭曲(或不均勻重新采樣)的時域信號來測量(或至少估計)時間扭曲的效率(就 減少比特率而言)。已發(fā)現(xiàn)如果時間扭曲時域信號包括由自相關(guān)度量反映的相對高度的周 期性,則時間扭曲是有效率的。相對地,如果時間扭曲時域信號不包括顯著的周期性,則可 以推斷該時間扭曲是無效率的。該發(fā)現(xiàn)基于如下事實有效時間扭曲將變化頻率(不包括周期性)的正弦信號的 一部分變換為接近恒定頻率(包括高度的周期性)的正弦信號的一部分。相對地,如果時 間扭曲不能提供具有高度周期性的時域信號,那么可預(yù)期時間扭曲也不提供可證明其應(yīng)用 可行的顯著比特率節(jié)約。在優(yōu)選實施例中,該能量壓縮信息提供器被配置為確定音頻信號的時間扭曲表示 的歸一化自相關(guān)函數(shù)的絕對值之和(對多個延遲值),以獲得該能量壓縮信息。已發(fā)現(xiàn)在估 計時間扭曲的效率上不要求對自相關(guān)峰值的計算復(fù)雜的確定。而是,已發(fā)現(xiàn)對(大)范圍 的自相關(guān)延遲值上的自相關(guān)的求和評估也產(chǎn)生非??煽康慕Y(jié)果。這是由于如下事實時間 扭曲實際上將變化頻率的多個信號分量(例如,基本頻率及其諧波)變換為周期性信號分 量。因此,這種時間扭曲信號的自相關(guān)在多個自相關(guān)延遲值處顯示波峰。因此,求和形式是 從自相關(guān)提取能量壓縮信息的計算上高效率的方式。在另一優(yōu)選實施例中,該時間扭曲激活信號提供器包括參考值計算器,所述參考 值計算器被配置為基于音頻信號的未時間扭曲頻譜表示,或基于音頻信號的未時間扭曲時 域表示,來計算參考值。在該情況中,比較器一般被配置為使用能量壓縮信息及參考值形成 比值,該能量壓縮信息描述音頻信號的時間扭曲變換頻譜的能量壓縮。該比較器也被配置 為將該比值與一個或多個閾值進行比較,以獲得時間扭曲激活信號。已發(fā)現(xiàn)在未時間扭曲 情況中的能量壓縮信息與在時間扭曲情況中的能量壓縮信息之間的比率允許產(chǎn)生計算上 高效率但仍充分可靠的時間扭曲激活信號。
      本發(fā)明的另一優(yōu)選實施例創(chuàng)建音頻信號編碼器,用于對輸入音頻信號編碼,以獲 得該輸入音頻信號的編碼表示。音頻信號編碼器包括時間扭曲變換器,被配置為基于輸入 音頻信號,提供時間扭曲變換頻譜表示。該音頻信號編碼器還包括如上所述的時間扭曲激 活信號提供器。該時間扭曲激活信號提供器被配置為接收輸入音頻信號,且提供能量壓縮 信息,使得該能量壓縮信息描述該輸入音頻信號的時間扭曲變換頻譜表示中的能量壓縮。 該音頻信號編碼器還包括控制器,被配置為取決于時間扭曲激活信號,向時間扭曲變換器 選擇性地提供發(fā)現(xiàn)的非恒定(變化)時間扭曲輪廓部分或時間扭曲信息,或標準恒定(不 變)時間扭曲輪廓部分或時間扭曲信息。這樣,有可能選擇性地接受或拒絕由該輸入音頻 信號的編碼音頻信號表示推導(dǎo)出的發(fā)現(xiàn)的非恒定時間扭曲輪廓部分。該概念基于下述發(fā)現(xiàn)將時間扭曲信息引入該輸入音頻信號的編碼表示并不總是 有效,因為要求相當可觀數(shù)目的比特用于編碼該時間扭曲信息。此外,已發(fā)現(xiàn)由時間扭曲激 活信號提供器計算出的能量壓縮信息是判定將該發(fā)現(xiàn)的變化(非恒定)時間扭曲估計部分 還是標準(不變、恒定)時間扭曲輪廓提供給時間扭曲變換器是否有利的一種計算上高效 率的度量。已注意到當該時間扭曲變換器包括重疊變換時,可在兩個或更多隨后的變換塊 的計算中使用發(fā)現(xiàn)的時間扭曲輪廓部分。具體地,已發(fā)現(xiàn)為了能做出時間扭曲是否允許比 特率的節(jié)約的判定,并無必要使用新發(fā)現(xiàn)的變化時間扭曲輪廓部分對該輸入音頻信號的時 間扭曲變換頻譜表示版本進行完全編碼,以及并無必要使用標準(不變)時間扭曲輪廓部 分對該輸入音頻信號的時間扭曲變換頻譜表示版本進行完全編碼。而是,已發(fā)現(xiàn)對輸入音 頻信號的時間扭曲變換頻譜表示的能量壓縮的評估形成了該判定的可靠基礎(chǔ)。因此,可以 將所需的比特率保持為小。在又一優(yōu)選實施例中,該音頻信號編碼器包括輸出接口,被配置為取決于時間扭 曲激活信號,選擇性地包括時間扭曲輪廓信息,該信息將發(fā)現(xiàn)的變化時間扭曲輪廓表示為 該音頻信號的編碼表示。因此,可獲得高效的音頻信號編碼,而不管該輸入信號是否非常適 合于時間扭曲。根據(jù)本發(fā)明的另一實施例創(chuàng)建一種基于音頻信號來提供時間扭曲激活信號的方 法。該方法實現(xiàn)時間扭曲激活信號提供器的功能,且可由本文中與時間扭曲激活信號提供 器相關(guān)描述的任何特征及功能來補充。根據(jù)本發(fā)明的另一實施例創(chuàng)建一種用于對輸入音頻信號編碼,以獲得輸入音頻信 號的編碼表示的方法。該方法可由本文中與音頻信號編碼器相關(guān)描述的任何特征及功能來 補充。根據(jù)本發(fā)明的另一實施例創(chuàng)建一種用于執(zhí)行本文所述方法的計算機程序。根據(jù)本發(fā)明的第一方面,一種音頻信號分析,有利地使用音頻信號是具有諧波特 性還是語音特性,用于控制編碼器側(cè)和/或解碼器側(cè)的噪聲填充處理。在使用時間扭曲功 能的系統(tǒng)中易于獲得該音頻信號分析,因為時間扭曲功能一般包括音調(diào)追蹤器和/或信號 分類器,用于區(qū)分語音與音樂,和/或區(qū)分有發(fā)音語音與無發(fā)音語音。因為該信息在這種上 下文中可用而不需任何此外的成本,因此可用的信息有利地用于控制該噪聲填充特征,使 得尤其對于語音信號,可減少諧波線之間的噪聲填充,或具體地對于語音信號,甚至消除諧 波線之間的噪聲填充。甚至在獲得強諧波內(nèi)容但是語音檢測器沒有直接檢測到語音的情況 中,噪聲填充的減少仍然將導(dǎo)致更高的感知質(zhì)量。雖然該特征在無論如何也執(zhí)行諧波/語音分析的系統(tǒng)中特別有用,且因此該信息可用且不需任何附加成本,甚至當必須將特定信 號分析器插入該系統(tǒng)中時,對基于信號具有諧波還是語音特性的信號分析的噪聲填充方案 的控制也是附加有用的,因為增強質(zhì)量而比特率沒有增加,或換言之,比特率減少而質(zhì)量沒 有損失,因此當減少可從編碼器發(fā)送至解碼器的噪聲填充級別本身時,減少了用于對該噪 聲填充級別編碼所需的比特。在本發(fā)明另一方面中,信號分析結(jié)果,即信號是諧波信號還是語音信號,用于控制 音頻編碼器的窗口函數(shù)處理。已發(fā)現(xiàn)在語音信號或諧波信號開始的情況中,簡單編碼器將 從長窗口切換至短窗口的可能性是很高的。然而這些短窗口具有對應(yīng)地減少的頻譜解析 度,另一方面,該頻率解析度將減少強諧波信號的編碼增益,且因此增加對這種信號部分編 碼所需的比特數(shù)目。鑒于此,當檢測到語音或諧波信號開始時,在本方面中定義的本發(fā)明使 用比短窗口更長的窗口。備選地,選擇具有與該長窗口大致相似長度的但具有更短重疊的 窗口,以有效地減少前回聲。大體上,音頻信號的時幀具有諧波還是語音特性的信號特性用 于選擇針對該時幀的窗口函數(shù)。根據(jù)本發(fā)明的另一方面,基于底層信號是基于時間扭曲操作還是在線性域中來控 制TNS(時域噪聲修整)工具。一般地,已通過時間扭曲操作來處理的信號將具有強諧波內(nèi) 容。否則,與時間扭曲級相關(guān)聯(lián)的音調(diào)追蹤器將不會輸出有效音調(diào)輪廓,且在缺少這種有效 音調(diào)輪廓時,對與音頻信號的該時幀將停用時間扭曲功能。然而,諧波信號將一般不適于經(jīng) 受TNS處理。當由TNS級處理的信號具有相當平坦的頻譜時,TNS處理特別有用且產(chǎn)生比 特率/質(zhì)量上的重要增益。然而,當該信號的外觀是音調(diào)的(tonal),即非平坦的,如同在具 有諧波內(nèi)容或有發(fā)音內(nèi)容的頻譜的情況中,則將減少由TNS工具提供的質(zhì)量/比特率上的 增益。因此,不使用該TNS工具的發(fā)明性修改,時間扭曲部分一般不由TNS處理,但是會在 不使用TNS濾波的情況下來處理。另一方面,TNS的噪聲修整特征仍然提供增強的質(zhì)量,特 別是在信號在振幅/功率上變化的情況中。在諧波信號或語音信號的開始存在,以及實施 了塊切換特征使得維持長窗口或者至少長于短窗口的窗口、而非該起始的情況中,該幀的 時域噪聲修整特征的激活將導(dǎo)致語音開始周圍的噪聲的濃縮,這有效地減少可能由于在隨 后的編碼器處理中發(fā)生的幀量化而在語音開始之前發(fā)生的前回聲。根據(jù)本發(fā)明的另一方面,由音頻編碼設(shè)備中的量化器/熵編碼器來處理可變數(shù)目 的線,以計入可變帶寬,通過執(zhí)行具有可變時間扭曲特性/扭曲輪廓的時間扭曲操作來引 入該可變帶寬。當該時間扭曲操作導(dǎo)致增加了時間扭曲幀中包括的幀時間(以線性)時, 減少了單一頻率線的帶寬,且,對于恒定總帶寬,在未時間扭曲情況下將增加要處理的頻率 線數(shù)目。另一方面,當時間扭曲操作導(dǎo)致在該時間扭曲域中音頻信號的實際時間相對于在 線性域中的音頻信號塊長度減少時,增加了單一頻率線的頻率帶寬,且因此在未時間扭曲 情況下,必須減少由源編碼器處理的線數(shù)目,以具有減少的帶寬變化或最好沒有帶寬變化。


      隨后通過附圖來描述優(yōu)選實施例,其中圖1示出了根據(jù)本發(fā)明的實施例的時間扭曲激活信號提供器的示意框圖;圖加示出了根據(jù)本發(fā)明的實施例的音頻信號編碼器的示意框圖;圖2b示出了根據(jù)本發(fā)明的實施例的時間扭曲激活信號提供器的另一示意框14
      圖3a示出了音頻信號的未時間扭曲版本的頻譜的圖形表示;圖3b音頻信號的時間扭曲版本的頻譜的圖形表示;圖3c示出了針對不同頻帶的頻譜平坦度度量的個別計算的圖形表示;圖3d示出了僅考慮頻譜的較高頻帶部分的頻譜平坦度度量的計算的圖形表示;圖3e示出了使用頻譜表示的頻譜平坦度度量的計算的圖形表示,在該頻譜表示 中,相對于較低頻率部分強調(diào)了較高頻率部分;圖3際出了根據(jù)本發(fā)明的另一實施例的能量壓縮信息提供器的示意框圖;圖3g示出了在時域中具有時間上可變音調(diào)的音頻信號的圖形表示;圖3h了圖3g的音頻信號的時間扭曲(不均勻重新采樣的)版本的圖形表 示;圖3i示出了根據(jù)圖3g的音頻信號的自相關(guān)函數(shù)的圖形表示;圖3j示出了根據(jù)圖池的音頻信號的自相關(guān)函數(shù)的圖形表示;圖3k示出了根據(jù)本發(fā)明另一實施例的能量壓縮信息提供器的示意框圖;圖4a示出了用于基于音頻信號來提供時間扭曲激活信號的方法的流程圖;圖4b示出了根據(jù)本發(fā)明的實施例的用于對輸入音頻信號編碼,以獲得該輸入音 頻信號的編碼表示的方法的流程圖;圖5a示出了具有創(chuàng)造性方面的音頻編碼器的優(yōu)選實施例;圖5b示出了具有創(chuàng)造性方面的音頻解碼器的優(yōu)選實施例;圖6a示出了本發(fā)明的噪聲填充方面的優(yōu)選實施例;圖6b示出了定義由噪聲填充級別操縱器所執(zhí)行的控制操作的表格;圖7a示出了根據(jù)本發(fā)明的用于執(zhí)行基于時間扭曲的塊切換的優(yōu)選實施例;圖7b示出了影響窗口函數(shù)的備選實施例;圖7c示出了用于基于時間扭曲信息來說明窗口函數(shù)的另一備選實施例;圖7d示出了在有發(fā)音啟動處的正常AAC行為的窗口序列;圖7e示出了根據(jù)本發(fā)明的優(yōu)選實施例獲得的備選窗口序列;圖示出了 TNS (時域噪聲整修)工具的基于時間扭曲的控制的優(yōu)選實施例;圖8b示出了定義圖8a中閾值控制信號產(chǎn)生器中所執(zhí)行的控制步驟的表格;圖9a_9e示出了不同的時間扭曲特性以及在解碼器側(cè)時間扭曲操作之后發(fā)生的 對音頻信號的帶寬上的對應(yīng)影響;圖1Oa示出了用于控制編碼處理器中的線的數(shù)目的控制器的優(yōu)選實施例;圖1Ob示出了針對采樣率要丟棄/添加的線的數(shù)目之間的依賴性;圖11示出了線性時間尺度與扭曲時間尺度之間的比較;圖12a示出了在帶寬擴展的上下文中的實施;以及圖12b示出了表,該表示出了在時間扭曲域中的本地采樣率與頻譜系數(shù)的控制之 間的依賴性。
      具體實施例方式圖1示出了根據(jù)本發(fā)明的實施例的時間扭曲激活信號提供器的示意框圖。該時間 扭曲激活信號提供器100被配置為接收音頻信號的表示110,且基于該表示110提供時間扭曲激活信號112。時間扭曲激活信號提供器100包括能量壓縮信息提供器120,被配置為提 供能量壓縮信息122,該信息122描述該音頻信號的時間扭曲變換頻譜表示的能量的壓縮。 時間扭曲激活信號提供器100還包括比較器130,被配置為將能量壓縮信息122與參考值 132作比較,以取決于該比較的結(jié)果提供時間扭曲激活信號112。如上所述,已發(fā)現(xiàn)能量壓縮信息是允許對時間扭曲是否帶來比特節(jié)約的計算上高 效率估計的有價值信息。已發(fā)現(xiàn)比特節(jié)約的存在性與該時間扭曲是否導(dǎo)致能量壓縮的問題 密切相關(guān)。圖加示出了根據(jù)本發(fā)明的實施例的音頻信號編碼器200的示意框圖。音頻信號 編碼器200被配置為接收輸入音頻信號210 (也以a(t)標明),且基于該輸入音頻信號210 提供該輸入音頻信號210的編碼表示212。音頻信號編碼器200包括時間扭曲變換器220, 被配置為接收輸入音頻信號210 (可在時域中表示該信號),且基于輸入音頻信號210提供 該輸入音頻信號210的時間扭曲變換頻譜表示222。音頻信號編碼器200還包括時間扭曲 分析器觀4,被配置為分析輸入音頻信號210,且基于該輸入音頻信號210,提供時間扭曲輪 廓信息觀6(例如絕對或相對時間扭曲輪廓信息)。音頻信號編碼器200還包括切換機制,例如具有受控開關(guān)240的形式的切換機制, 以判定是發(fā)現(xiàn)的時間扭曲輪廓信息286還是標準時間扭曲輪廓信息288用于進一步的處 理。因此,該切換機制240被配置為取決于時間扭曲激活信息,選擇性地將發(fā)現(xiàn)的時間扭曲 輪廓信息286或標準時間扭曲輪廓信息288作為新時間扭曲輪廓信息242提供給例如時間 扭曲變換器220用于進一步的處理。應(yīng)注意,時間扭曲變換器220可例如針對音頻幀的時 間扭曲來使用新時間扭曲輪廓信息例如新時間扭曲輪廓部分),且此外使用之前獲得 的時間扭曲信息(例如一個或多個之前獲得的時間扭曲輪廓部分)。該可選的頻譜后處理 可包括例如時域噪聲整修和/或噪聲填充分析。音頻信號編碼器200還包括量化器/編碼 器沈0,被配置為接收頻譜表示222 (可選地由頻譜后處理250來處理),且量化及編碼該變 換頻譜表示222。為此,量化器/編碼器260可與感知模型270耦合,且從感知模型270接 收感知關(guān)聯(lián)信息272,以考慮感知屏蔽且根據(jù)人類感知以不同的頻率槽來調(diào)整量化精確度。 音頻信號編碼器200還包括輸出接口觀0,被配置為基于由量化器/編碼器260所提供的已 量化且編碼的頻譜表示沈2,提供該音頻信號的編碼表示212。音頻信號編碼器200還包括時間扭曲激活信號提供器230,被配置為提供時間扭 曲激活信號232。時間扭曲激活信號232例如可用于控制切換機制M0,以判定新發(fā)現(xiàn)時間 扭曲輪廓信息286還是標準時間扭曲輪廓信息288用于進一步的處理步驟中(例如由時間 扭曲變換器220)。此外,時間扭曲激活信息232可用于開關(guān)觀0中,以判定輸入音頻信號 210的編碼表示212是否包括已選擇的新時間扭曲輪廓信息從新發(fā)現(xiàn)時間扭曲輪廓 信息286及標準時間扭曲輪廓信息中選擇的)。一般地,如果已選擇時間扭曲輪廓信息描 述非恒定(變化)時間扭曲輪廓,則時間扭曲輪廓信息僅被包括在該音頻信號的編碼表示 212中。同樣,編碼表示212可包括時間扭曲激活信息232其本身,例如具有指示該時間扭 曲激活或停用的一比特旗標的形式。為了利于理解,應(yīng)注意時間扭曲變換器220 —般包括分析加窗器220a、重新采樣 器或“時間扭曲器”220b及頻譜域變換器(或時間/頻率轉(zhuǎn)換器)220c。然而,視實施而定, 可將時間扭曲器220b放置于在信號處理方向上的分析加窗器220a之前。然而,在一些實施例中可將時間扭曲及時域到頻譜域變換結(jié)合在單一單元中。在下文中,將描述關(guān)于時間扭曲激活信號提供器230的操作的細節(jié)。應(yīng)注意時間 扭曲激活信號提供器230可等效于時間扭曲激活信號提供器100。時間扭曲激活信號提供器230優(yōu)選地被配置為接收時域音頻信號表示210(也以 a(t)標明)、新發(fā)現(xiàn)時間扭曲輪廓信息觀6,及標準時間扭曲輪廓信息觀8。時間扭曲激活 信號提供器230也被配置為使用時域音頻信號210、新發(fā)現(xiàn)時間扭曲輪廓信息觀6及標準時 間扭曲輪廓信息觀8,來獲得描述由于新發(fā)現(xiàn)時間扭曲輪廓信息286而產(chǎn)生的能量壓縮的 能量壓縮信息,且基于該能量壓縮信息來提供時間扭曲激活信號232。圖2b示出了根據(jù)本發(fā)明的實施例的時間扭曲激活信號提供器234的示意框圖。時 間扭曲激活信號提供器234在一些實施例中可發(fā)揮時間扭曲激活信號提供器230的作用。 時間扭曲激活信號提供器234被配置為接收輸入音頻信號210,及兩個時間扭曲輪廓信息 286與觀8,且基于它們來提供時間扭曲激活信號234p。時間扭曲激活信號234p可發(fā)揮時 間扭曲激活信號232的作用。時間扭曲激活信號提供器包括兩個相同的時間扭曲表示提供 器23^、234g,被配置為分別接收輸入音頻信號210及時間扭曲輪廓信息觀6與觀8,且基 于它們分別提供兩個時間扭曲表示23 及234k。時間扭曲激活信號提供器234還包括兩個 相同的能量壓縮信息提供器234f及2341,被配置為分別接收時間扭曲表示23 及234k, 且基于它們分別提供能量壓縮信息23 !及23如。時間扭曲激活信號提供器還包括比較器 234ο,被配置為接收能量壓縮信息23細及23 ,且基于它們提供時間扭曲激活信號234p。為了利于理解,應(yīng)注意時間扭曲表示提供器234a與234g —般包括(可選)相同 的分析加窗器234b及234h、相同的重新采樣器或時間扭曲器23 及234i,及(可選)相 同的頻譜域變換器234d及234 j。在下文中,將討論用于獲得能量壓縮信息的不同概念。事先將做介紹以說明典型 音頻信號上的時間扭曲效果。在下文中,將參考圖3a及北來描述音頻信號上時間扭曲的效果。圖3a示出了音 頻信號的頻譜的圖形表示。橫坐標301描述頻率,縱坐標302描述該音頻信號的強度。曲 線303描述了與頻率f相關(guān)的非時間扭曲音頻信號的強度。圖北示出了圖3a中表示的音頻信號的時間扭曲版本的頻譜的圖形表示。同樣, 橫坐標306描述頻率,縱坐標307描述該音頻信號的扭曲版本的強度。曲線308描述該音 頻信號的時間扭曲版本的強度對頻率。從圖3a與北的圖形表示的比較可看出,該音頻信 號的未時間扭曲(“未扭曲”)版本包括模糊頻譜,具體地在較高頻域中。相對地,該輸入音 頻信號的時間扭曲版本包括具有清晰可區(qū)分的頻譜波峰的頻譜,甚至在較高頻域中。此外, 甚至可在該輸入音頻信號的時間扭曲版本的較低頻譜域中看到頻譜波峰的中等銳化。應(yīng)注意圖北中所示的輸入音頻信號的時間扭曲版本的頻譜可由例如量化器/編 碼器沈0以比圖3a所示的未扭曲輸入音頻信號的頻譜更低的比特率來量化及編碼。這是 由于如下事實模糊頻譜一般包括很大數(shù)目的感知相關(guān)頻譜系數(shù)(即相對很小數(shù)目的被量 化為零或被量化為很小值的頻譜系數(shù)),同時如圖3所示的“不那么平坦的”頻譜一般包括 較大數(shù)目被量化為零或被量化為很小值的頻譜系數(shù)??梢杂帽缺涣炕癁檩^高值的頻譜系 數(shù)更少的比特來對被量化為零或被量化為很小值的頻譜系數(shù)進行編碼,使得可使用比圖3a 的頻譜更少的比特對圖北的頻譜編碼。
      然而,還應(yīng)注意到時間扭曲的使用不總是導(dǎo)致時間扭曲信號的編碼效率的顯著 增強。因此,在一些情況中,對時間扭曲信息(例如時間扭曲輪廓)編碼所需的價格(在比 特率的意義上)可能超出用于對時間扭曲變換頻譜編碼的節(jié)約(在比特率的意義上)(當 與編碼非時間扭曲變換頻譜相比較時)。在此情況中,優(yōu)選地使用標準(不變)時間扭曲 輪廓提供該音頻信號的編碼表示,以控制該時間扭曲變換。因此,可忽略任何時間扭曲信息 (即時間扭曲輪廓信息)的發(fā)送(除指示該時間扭曲的停用的旗標之外),從而保持該比特 率很低。在下文中,將參考圖3c_;3k來描述用于對時間扭曲激活信號112、232、234p的可靠 且計算上高效率的計算的不同概念。然而,在此之前,將簡短概括該創(chuàng)造性概念的背景?;炯俣ㄊ菍哂凶兓粽{(diào)的諧波信號應(yīng)用時間扭曲使得該音調(diào)恒定,且使該音 調(diào)恒定增強了通過隨后的時間頻率變換所獲得的頻譜的編碼,因為僅有限數(shù)目的重要的線 保留(參見圖北),而不是若干頻譜容量上不同諧波的模糊(參見圖3a)。然而,即使當檢 測到音調(diào)變化時,可忽略(例如,如果在諧波信號下有強噪聲,或如果該變化太小以至較高 諧波的模糊沒有問題)編碼增益上的增強(即所節(jié)約的比特的數(shù)量),或編碼增益上的增強 可少于需要將時間扭曲輪廓傳輸至解碼器的比特的數(shù)量,或可簡單地是錯的。在這些情況 中,優(yōu)選地拒絕由時間扭曲輪廓編碼器產(chǎn)生的變化時間扭曲輪廓(例如觀6),而相反使用 有效的一比特信令,以信號方式發(fā)送標準(不變)時間扭曲輪廓。本發(fā)明的范圍包括創(chuàng)建一種判定已獲得的時間扭曲輪廓部分是否提供足夠的編 碼增益(例如足以補償時間扭曲輪廓編碼所需的開銷的編碼增益)的方法。如上所述,時間扭曲的最重要的方面是較少數(shù)目線的頻譜能量壓縮(參見圖3a及 3b) 0它們示出了能量壓縮還對應(yīng)于“不那么平坦的”的頻譜(參見圖3a及北),因為增加 了該頻譜的波峰與波谷之間的差。將該能量濃縮于較少的線處,所述較少的線在具有比之 前更少能量的線之間。圖3a與北示出了具有強諧波及音調(diào)變化的幀的未扭曲頻譜(圖3a)與同一幀的 時間扭曲版本的頻譜(圖北)的示意性示例。鑒于該情況,已發(fā)現(xiàn)將頻譜平坦度度量用作該時間扭曲效率的可能的度量是有利 的??衫缤ㄟ^功率頻譜的幾何平均除以功率頻譜的算術(shù)平均來計算該頻譜平坦度。 例如,可根據(jù)如下公式來計算該頻譜平坦度(也以“平坦度”簡短地標明)
      權(quán)利要求
      1.一種用于基于音頻信號的表示(110 ;234e ;234k)來提供時間扭曲激活信號(112 ; 232 ;234p)的時間扭曲激活信號提供器(100 ;230 ;234),所述時間扭曲激活信號提供器包 括能量壓縮信息提供器(120 ;234f ;2341 ;325 ;370),被配置為提供能量壓縮信息(122 ; 234m ;234η ;326 ;374),所述能量壓縮信息描述所述音頻信號的時間扭曲變換頻譜表示 (222)的能量壓縮;以及比較器(130 ;234ο),被配置為將所述能量壓縮信息(122 ;234m ;234η ;326 ;374)與參 考值相比較,以及被配置為取決于比較結(jié)果提供時間扭曲激活信號(112 ;232 ;234ρ)。
      2.根據(jù)權(quán)利要求1所述的時間扭曲激活信號提供器(100;230;234),其中,所述能 量壓縮信息提供器(120 ;234f ;2341)被配置為提供作為所述能量壓縮信息(122 ;234m ; 234η)的頻譜平坦度度量,所述頻譜平坦度度量描述所述音頻信號的時間扭曲變換頻譜表 示(234e ; 234k)。
      3.根據(jù)權(quán)利要求2所述的時間扭曲激活信號提供器(100;230 ;234),其中,所述能量 壓縮信息提供器(120 ;234f ;2341)被配置為計算所述音頻信號的時間扭曲變換功率頻譜 (234e ;234k)的幾何平均與所述音頻信號的時間扭曲變換功率頻譜(23 ;234k)的算術(shù)平 均的商,以獲得所述頻譜平坦度度量。
      4.根據(jù)權(quán)利要求1至3中任一項所述的時間扭曲激活信號提供器(100;230 ;234),其 中,所述能量壓縮信息提供器(120 ;234f ;2341)被配置為與所述時間扭曲變換頻譜表示 (234e ;234k)的較低頻率部分相比時,強調(diào)所述時間扭曲變換頻譜表示;234k)的較 高頻率部分,以獲得所述能量壓縮信息(122 ;234m ;234η)。
      5.根據(jù)權(quán)利要求1至4中任一項所述的時間扭曲激活信號提供器(100;230 ;234),其 中,所述能量壓縮信息提供器(120 ;234m ;234η)被配置為獲得頻譜平坦度的多個逐頻帶度 量,以及被配置為計算所述頻譜平坦度的多個逐頻帶度量的平均值,以獲得所述能量壓縮 信息(122,234m ;234η)。
      6.根據(jù)權(quán)利要求1所述的時間扭曲激活信號提供器(100;230 ;234),其中,所述能量 壓縮信息提供器(120 ;234f ;2341 ;325)被配置為提供作為所述能量壓縮信息(122 ;234m ; 234η)的感知熵(pe)度量,所述感知熵(pe)度量描述所述音頻信號的時間扭曲變換頻譜表 示(234e ; 234k)。
      7.根據(jù)權(quán)利要求6所述的時間扭曲激活信號提供器(100;230;234;235),其中,所述 能量壓縮信息提供器(120 ;234f ;2341 ;325)被配置為基于擴縮因子頻帶的波形因子信息 (ffaC(n)),計算所述音頻信號的時間扭曲變換頻譜表示(2Me;234k)的一個或多個擴縮 因子頻帶的非零線的估計數(shù)目(nl),以及被配置為將非零線的所述估計數(shù)目(nl)與在考 察的擴縮因子頻帶的能量度量相乘,來計算所考察的所述擴縮因子頻帶的感知熵(326)度 量。
      8.根據(jù)權(quán)利要求1所述的時間扭曲激活信號提供器(100;230 ;234),其中,所述能量 壓縮信息提供器(120 ;234f ;2341 ;370)被配置為提供作為所述能量壓縮信息的自相關(guān)度 量(374),所述自相關(guān)度量(374)描述所述音頻信號的時間扭曲時域表示;234k)的 自相關(guān)。
      9.根據(jù)權(quán)利要求8所述的時間扭曲激活信號提供器(100;230;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341 ;370)被配置為確定所述音頻信號的時間扭曲表示 (234e ;234k)的歸一化自相關(guān)函數(shù)的絕對值之和,以獲得所述能量壓縮信息。
      10.根據(jù)權(quán)利要求1至9中任一項所述的時間扭曲激活信號提供器(100;230),其中, 所述時間扭曲激活信號提供器包括參考值計算器,所述參考值計算器被配置為基于所述音 頻信號的未扭曲頻譜表示010)、或基于所述音頻信號的未扭曲時域表示010),來計算所 述參考值;以及其中,所述比較器被配置為使用描述所述音頻信號的時間扭曲變換頻譜表示的能量壓 縮的能量壓縮信息(122)以及所述參考值,來形成比值,以及被配置為將所述比值與一個 或多個閾值進行比較,以獲得作為比較結(jié)果的所述時間扭曲激活信號。
      11.根據(jù)權(quán)利要求1至9中任一項所述的時間扭曲激活信號提供器O30;234),其中, 所述時間扭曲激活信號提供器包括參考值計算器,所述參考值計算器被配置為基于輸入信 號的時間扭曲表示(210)來計算所述參考值,所述輸入信號O10)的時間扭曲表示(210) 是使用標準時間扭曲輪廓信息(觀8)來進行時間扭曲的;以及其中,所述比較器被配置為使用描述所述音頻信號的時間扭曲表示的能量壓縮的所述 能量壓縮信息034e)以及所述參考值,來形成比值,以及被配置為將所述比值與一個或多 個閾值進行比較,以獲得作為比較結(jié)果的所述時間扭曲激活信號。
      12.一種用于對輸入音頻信號(210)編碼以獲得所述輸入音頻信號的編碼表示(212) 的音頻信號編碼器O00),所述音頻信號編碼器包括時間扭曲變換器020),被配置為基于所述輸入音頻信號010),使用時間扭曲輪廓來 提供時間扭曲變換頻譜表示022);根據(jù)權(quán)利要求1至11中任一項所述的時間扭曲激活信號提供器(100 ;230 ;234),其 中,所述時間扭曲激活信號提供器被配置為接收所述輸入音頻信號(210),以及被配置為提 供所述時間扭曲激活信號(112 ;232 ;234p);以及控制器040),被配置為取決于所述時間扭曲激活信號(112 ;232 ;234p),選擇性地向 所述時間扭曲變換器(220)提供描述非恒定時間扭曲輪廓部分的新發(fā)現(xiàn)的時間扭曲輪廓 信息086),或提供描述恒定時間扭曲輪廓部分的標準時間扭曲輪廓信息088),以描述由 所述時間扭曲變換器(220)所使用的時間扭曲輪廓。
      13.根據(jù)權(quán)利要求12所述的音頻信號編碼器,其中,所述音頻信號編碼器包括輸出接 口 080),所述輸出接口(觀0)被配置為將所述時間扭曲變換頻譜表示(22 包括在所述音 頻信號的編碼表示012)中,以及被配置為取決于所述時間扭曲激活信號(232)選擇性地將時間扭曲輪廓信息包括在 所述音頻信號的編碼表示012)中。
      14.一種基于音頻信號提供時間扭曲激活信號的方法G00),所述方法包括提供(410)描述所述音頻信號的時間扭曲變換頻譜表示的能量壓縮的能量壓縮信息;將所述能量壓縮信息與參考值相比較G20);以及取決于比較結(jié)果來提供(430)所述時間扭曲激活信號。
      15. 一種用于對輸入音頻信號編碼以獲得所述輸入音頻信號的編碼表示的方法 G50),所述方法包括提供(470)根據(jù)權(quán)利要求14的時間扭曲激活信號,其中,能量壓縮信息描述所述輸入音頻信號的時間扭曲變換頻譜表示的能量壓縮;以及取決于所述時間扭曲激活信號,選擇性地提供(480)所述輸入音頻信號的時間扭曲變 換頻譜表示的描述或所述輸入音頻信號的非時間扭曲變換頻譜表示的描述,以將其包括在 所述輸入音頻信號的編碼表示中。
      16.一種計算機程序,當所述計算機程序在計算機上運行時,用于執(zhí)行權(quán)利要求14或 15所述的方法。
      17.一種用于對音頻信號編碼的音頻編碼器,包括量化器(512),用于量化音頻值,其中,所述量化器被配置為將量化閾值之下的音頻值 量化為零;噪聲填充計算器(5M),用于針對所述音頻信號的時幀來估計被量化為零的音頻值的 能量的度量;音頻信號分析器(516、520),用于分析所述音頻信號的時幀具有諧波還是語音特性; 操縱器(602),用于取決于所述音頻信號的諧波或語音特性來操縱噪聲填充度量,以獲 得經(jīng)操縱的噪聲填充度量;以及輸出接(522),用于產(chǎn)生用于發(fā)送或存儲的編碼信號,所述編碼信號包括所述經(jīng)操縱的 噪聲填充度量(530)。
      18.根據(jù)權(quán)利要求17所述的音頻編碼器,其中,所述音頻信號分析器(516、520)包括音調(diào)觸發(fā)器,用于當在所述音頻信號的時 幀中發(fā)現(xiàn)音調(diào)時,產(chǎn)生音調(diào)的指示,以及其中,所述操縱器(60 被配置為當發(fā)現(xiàn)音調(diào)時,減少所述噪聲填充度量。
      19.根據(jù)權(quán)利要求17或18所述的音頻編碼器,其中,所述音頻信號分析器包括有發(fā)音/無發(fā)音檢測器(520),用于檢測是否所述時幀 的至少一部分是有發(fā)音的,其中,所述操縱器(60 被配置為用于當檢測到一部分為有發(fā)音時,減少所述噪聲填 充度量,或?qū)⑺鲈肼曁畛涠攘繗w零,以及其中,所述操縱器(60 被配置為當檢測到一部分為無發(fā)音時,不操縱或以較小程度 操縱所述噪聲填充度量。
      20.一種用于對編碼音頻信號解碼的解碼器,包括輸入接口(539),用于處理所述編碼音頻信號,以獲得噪聲填充度量( 和編碼音頻 數(shù)據(jù)(546);解碼器/重新量化器(547、550),用于產(chǎn)生重新量化數(shù)據(jù);信號分析器(600),用于檢索所述音頻數(shù)據(jù)的時幀具有諧波還是語音特性的信息;以及噪聲填充器(552),用于產(chǎn)生噪聲填充音頻數(shù)據(jù),其中,所述噪聲填充器( 被配置為響應(yīng)于所述噪聲填充度量以及所述音頻數(shù)據(jù)的 諧波或語音特性而產(chǎn)生噪聲填充數(shù)據(jù);以及處理器(556、558、560),用于處理所述重新量化數(shù)據(jù)以及所述噪聲填充音頻數(shù)據(jù),以獲 得解碼音頻信號(564)。
      21.根據(jù)權(quán)利要求20所述的解碼器,其中,所述編碼音頻信號包括指示所述音頻數(shù)據(jù)的時幀具有諧波還是語音特性的數(shù)據(jù) (542、541),以及其中,所述信號分析器(600)被配置為分析所述編碼音頻信號,以檢索指示所述音頻 數(shù)據(jù)的時幀具有諧波還是語音特性的數(shù)據(jù)。
      22.根據(jù)權(quán)利要求21所述的解碼器,其中,所述數(shù)據(jù)是對所述時間部分已受到時間扭 曲處理的指示,以及其中,所述處理器包括時間反扭曲器(558),用于對從噪聲填充數(shù)據(jù)和重新量化數(shù)據(jù)導(dǎo) 出的音頻信號進行時間反扭曲。
      23.一種用于對音頻信號編碼的方法,包括量化(51 音頻值,其中,量化器被配置為將量化閾值之下的音頻值量化為零; 針對所述音頻信號的時幀,估計(524)被量化為零的音頻值的能量的度量; 分析(516、520)所述音頻信號的時幀具有諧波還是語音特性; 取決于所述音頻信號的諧波或語音特性,操縱(60 所述噪聲填充度量,以獲得經(jīng)操 縱的噪聲填充度量;以及產(chǎn)生(52 用于發(fā)送或存儲的編碼信號,所述編碼信號包括所述經(jīng)操縱的噪聲填充度 量(530)。
      24.一種用于對編碼音頻信號解碼的方法,包括處(539)所述編碼音頻信號,以獲得噪聲填充度量( 和編碼音頻數(shù)據(jù)(546); 產(chǎn)生(M7、550)重新量化數(shù)據(jù);檢索(600)所述音頻數(shù)據(jù)的時幀具有諧波還是語音特性的信息;以及 響應(yīng)于所述噪聲填充度量和所述音頻數(shù)據(jù)的諧波或語音特性,產(chǎn)生(552)噪聲填充音 頻數(shù)據(jù);以及處(556、558、560)所述重新量化數(shù)據(jù)和所述噪聲填充音頻數(shù)據(jù),以獲得解碼音頻信號 (564)。
      25.一種具有程序代碼的計算機程序,當所述程序代碼在計算機上運行時,所述程序代 碼用于執(zhí)行權(quán)利要求23所述的方法或權(quán)利要求M所述的方法。
      26.一種用于產(chǎn)生編碼音頻信號的音頻編碼器,包括音頻信號分析器(516、520),用于分析所述音頻信號的時幀具有諧波還是語音特性; 窗口函數(shù)控制器(504),用于取決于所述音頻信號的諧波或語音特性來選擇窗口函數(shù);加窗器(502),用于使用所選擇的窗口函數(shù)將所述音頻信號窗口化,以獲得窗口化幀;以及處理器(508、512),用于進一步處理所述窗口化幀,以獲得所述編碼音頻信號。
      27.根據(jù)權(quán)利要求沈所述的音頻編碼器,其中,所述窗口函數(shù)控制器(504)包括用于檢 測瞬變的瞬變檢測器(700),所述窗口函數(shù)控制器被配置為用于當檢測到瞬變且所述音頻 信號分析器(516、520)未發(fā)現(xiàn)諧波或語音特性時,從針對長塊的窗口函數(shù)切換至針對短塊 的窗口函數(shù),以及被配置為用于當檢測到瞬變且所述音頻信號分析器(516、520)發(fā)現(xiàn)諧波 或語音特性時,不切換至針對短塊的窗口函數(shù)。
      28.根據(jù)權(quán)利要求沈或27所述的音頻編碼器,其中,所述瞬變檢測器(700)被配置為用于檢測所述音頻信號的定量特性,以及被配置為將所述定量特性與可控閾值相比較,當 所述定量特性具有與所述可控閾值的預(yù)定關(guān)系時,檢測到瞬變,以及其中,所述音頻信號分析器被配置為用于控制所述可變閾值,使得當所述音頻信號分 析器(516、520)已經(jīng)發(fā)現(xiàn)諧波或語音特性時,減少切換至針對短塊的窗口函數(shù)的可能性。
      29.根據(jù)權(quán)利要求27或觀所述的音頻編碼器,其中,所述窗口函數(shù)控制器(504)被配置為用于當檢測到瞬變且所述信號具有諧波或 語音特性時,切換至比針對短塊的窗口函數(shù)(712)更長的窗口函數(shù)(706、707),或切換至比 針對長塊的窗口函數(shù)(714)具有更短重疊的窗口函數(shù)(712)。
      30.一種用于產(chǎn)生編碼音頻信號的方法,包括分析(516、520)所述音頻信號的時幀具有諧波還是語音特性; 取決于所述音頻信號的諧波或語音特性來選擇(504)窗口函數(shù); 使用所選擇的窗口函數(shù)將所述音頻信號窗口化(50 ,以獲得窗口化幀;以及 處理(508、51幻所述窗口化幀,以獲得所述編碼音頻信號。
      31.一種具有程序代碼的計算機程序,當所述程序代碼在計算機上運行時,所述程序代 碼用于執(zhí)行權(quán)利要求30所述的方法。
      32.一種用于產(chǎn)生音頻信號的音頻編碼器,包括可控時間扭曲器(506),用于對所述音頻信號進行時間扭曲,以獲得時間扭曲音頻信號;時間/頻率轉(zhuǎn)換器(508),用于將所述時間扭曲音頻信號的至少一部分轉(zhuǎn)換為頻譜表示;時域噪聲修整級,用于根據(jù)時域噪聲修整控制指令(803),執(zhí)行對所述頻譜表示的頻率 的預(yù)測濾波,其中,當所述時域噪聲修整控制指令不存在時,不執(zhí)行所述預(yù)測濾波;時域噪聲修整控制器(800、802、804),用于基于所述頻譜表示產(chǎn)生所述時域噪聲修整 控制指令,其中,所述時域噪聲修整控制器被配置為用于當所述頻譜表示基于時間扭曲音頻信號 時,增加在頻率上執(zhí)行所述預(yù)測濾波的可能性,或者被配置為用于當所述頻譜表示不基于 時間扭曲音頻信號時,減少在頻率上執(zhí)行所述預(yù)測濾波的可能性;以及處理器(512),用于進一步處理所述時域噪聲修整級的輸出,以獲得所述編碼音頻信號 (532)。
      33.根據(jù)權(quán)利要求32所述的音頻編碼器,其中,所述時域噪聲修整控制器(800、802、804)被配置為當所述音頻信號受到所述時 域噪聲修整級(510)進行的所述預(yù)測濾波時,估計比特率或質(zhì)量上的增益,以將所述估計 增益與判定閾值相比較(802),以及為了所述預(yù)測濾波,判定何時所述估計增益與所述判定閾值具有預(yù)定關(guān)系, 其中,所述時域噪聲修整控制器還被配置為用于改變(804)所述判定閾值,使得對于 相同的估計增益,當所述頻譜表示基于時間扭曲信號時,激活所述預(yù)測濾波,以及當所述頻 譜表示不基于非時間扭曲音頻信號時,不激活所述預(yù)測濾波。
      34.根據(jù)權(quán)利要求32或33所述的音頻編碼器,其中,所述時間扭曲器包括用于檢測有 發(fā)音或無發(fā)音語音的信號分類器(520),以及其中,所述時域噪聲修整控制器(800、802、804)被配置為用于當檢測到有發(fā)音語音 時,或當檢測到無發(fā)音語音且所述頻譜表示基于所述時間扭曲音頻信號時,增加所述可能 性。
      35.一種用于產(chǎn)生音頻信號的方法,包括對所述音頻信號進行時間扭曲(506),以獲得時間扭曲音頻信號; 將所述時間扭曲音頻信號的至少一部分轉(zhuǎn)換(508)為頻譜表示; 根據(jù)時域噪聲修整控制指令(803),在所述頻譜表示的頻率上執(zhí)行預(yù)測濾波,其中,當 所述時域噪聲修整控制指令不存在時,不執(zhí)行所述預(yù)測濾波;基于所述頻譜表示來產(chǎn)生(800、802、804)所述時域噪聲修整控制指令, 其中,所述時域噪聲修整控制器被配置為用于當所述頻譜表示基于時間扭曲音頻信號 時,增加在頻率上執(zhí)行所述預(yù)測濾波的可能性,或當所述頻譜表示不基于非時間扭曲音頻 信號時,減少在頻率上執(zhí)行所述預(yù)測濾波的可能性;以及處理(51 所述時域噪聲修整級的輸出,以獲得所述編碼音頻信號(532)。
      36.一種具有程序代碼的計算機程序,當所述程序代碼在計算機上運行時,所述程序代 碼執(zhí)行權(quán)利要求35所述的方法。
      37.一種用于對音頻信號編碼的音頻編碼器,包括時間扭曲器(506),用于使用可變時間扭曲特性對音頻信號進行扭曲; 時間/頻率轉(zhuǎn)換器(508),用于將時間扭曲音頻信號轉(zhuǎn)換為具有一定數(shù)目的頻譜系數(shù) 的頻譜表示;以及處理器(512),用于處理可變數(shù)目的頻譜系數(shù),以產(chǎn)生編碼音頻信號, 其中所述處理器(512、1000)被配置為用于基于所述幀的時間扭曲特性,可變地設(shè)置 所述音頻信號的幀的一定數(shù)目的頻譜系數(shù),使得減少或消除幀和幀之間的由已處理數(shù)目的 頻率系數(shù)所表示的帶寬變化。
      38.根據(jù)權(quán)利要求37所述的音頻編碼器,其中,所述可變時間扭曲特性包括幀的本地采樣頻率(fSK),以及 其中,所述處理器(512、1000)被配置為當增加所述本地采樣頻率時,增加頻譜系數(shù)的 數(shù)目,或所述處理器(512、1000)被配置為用于當減少所述本地采樣頻率時,減少頻譜系數(shù) 的數(shù)目。
      39.根據(jù)權(quán)利要求37或38所述的音頻編碼器,還包括帶寬擴展編碼器,所述帶寬擴展 編碼器用于使用從交叉頻率(1200)之上的頻帶的音頻信號導(dǎo)出的參數(shù)來對所述交叉頻率 (1200)之上的頻帶進行編碼,其中,所述交叉頻率是每幀的目標帶寬的最大頻率。
      40.根據(jù)權(quán)利要求37至39中任一項所述的音頻編碼器,其中,在對所述音頻信號進行 時間扭曲之前,使用正常采樣頻率(fN)對所述音頻信號采樣,以及所述處理器(512、1000) 被配置為當所述本地采樣頻率等于所述正常采樣頻率時,使用從所述交叉頻率及所述正常 采樣頻率導(dǎo)出的預(yù)定數(shù)目的頻譜系數(shù)(Nn),或被配置為當所述本地采樣頻率高于所述正常 采樣頻率(fN)時,使用比頻譜系數(shù)的所述預(yù)定數(shù)目(Nn)更高數(shù)目的頻譜系數(shù),或被配置為 當所述本地采樣頻率低于所述正常采樣頻率(fN)時,使用比頻譜系數(shù)的所述預(yù)定數(shù)目更低 的數(shù)目。
      41.根據(jù)權(quán)利要求37至40中任一項所述的音頻編碼器,其中,所述處理器包括量化器,所述量化器用于量化所述頻譜系數(shù),以獲得量化頻譜系 數(shù),以及包括熵編碼器,所述熵編碼器用于對所述量化頻譜系數(shù)進行熵編碼,其中,所述處理器(512、1000)包括選擇器,用于在量化之前或之后丟棄不包括在所設(shè) 置數(shù)目的頻譜系數(shù)中的頻譜系數(shù),使得所述編碼音頻信號僅包括還未被丟棄的頻譜系數(shù), 或者其中,所述處理器包括選擇器,用于在量化之前或之后添加所設(shè)置數(shù)目的頻譜系數(shù)所 需的頻譜系數(shù),使得所述編碼音頻信號附加地包括所添加的頻譜系數(shù)。
      42.一種用于對音頻信號編碼的方法,包括使用可變時間扭曲特性對音頻信號進行時間扭曲(506);將時間扭曲音頻信號轉(zhuǎn)換(508)為具有一定數(shù)目頻譜系數(shù)的頻譜表示;以及處理(51 可變數(shù)目的頻譜系數(shù),以產(chǎn)生編碼音頻信號,其中,基于所述幀的時間扭曲特性來設(shè)置所述音頻信號的幀的可變數(shù)目的頻譜系數(shù), 使得減少或消除幀和幀之間的由已處理數(shù)目的頻率系數(shù)所表示的帶寬變化。
      43.一種具有程序代碼的計算機程序,當所述程序代碼在計算機上運行時,所述程序代 碼執(zhí)行權(quán)利要求42所述的方法。
      全文摘要
      音頻編碼器包括窗口函數(shù)控制器(504)、加窗器(502)、具有最終質(zhì)量檢查功能的時間扭曲器(506)、時間/頻率轉(zhuǎn)換器(508)、TNS級(510)或量化器編碼器(512),由時間扭曲分析器(516)或信號分類器(520)獲得的信號分析結(jié)果來控制所述窗口函數(shù)控制器(504)、所述時間扭曲器(506)、所述TNS級(510)或附加的噪聲填充分析器(524)。此外,解碼器使用取決于音頻信號的諧波或語音特性的經(jīng)操縱的噪聲填充估計來應(yīng)用噪聲填充操作。
      文檔編號G10L21/04GK102150201SQ200980135837
      公開日2011年8月10日 申請日期2009年7月6日 優(yōu)先權(quán)日2008年7月11日
      發(fā)明者拉爾夫·蓋格爾, 斯特凡·拜爾, 杰拉爾德·舒勒, 紀堯姆·??怂? 薩沙·迪施, 貝恩德·埃德勒, 馬克斯·諾伊恩多夫 申請人:弗勞恩霍夫應(yīng)用研究促進協(xié)會
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1