12,其包含低頻部分的解碼表示及帶寬擴(kuò)展信 號(其中,可(例如)將帶寬擴(kuò)展信號添加至低頻部分的解碼表示422以藉此獲得解碼音 頻信息412)。
[0092] 因此,音頻解碼器400有助于獲得音頻質(zhì)量與比特率之間的良好取舍。
[0093] 下文將(例如)參看圖5來描述音頻解碼器400的另一可選改良。
[0094] 4.根據(jù)圖5的音頻解碼器
[0095] 圖5展示根據(jù)本發(fā)明的另一實(shí)施例的音頻解碼器500的方塊示意圖。音頻解碼器 500接收編碼音頻信息(亦指定為編碼音頻表示)510,且基于編碼音頻信息提供解碼音頻 信息(亦指定為解碼音頻表示)512。音頻解碼器500包含低頻解碼器520,其可相當(dāng)于低 頻解碼器420且可實(shí)現(xiàn)相當(dāng)?shù)墓δ苄浴R虼?,低頻解碼器500提供由編碼音頻信息510表 示的音頻內(nèi)容的低頻部分的解碼表示522。音頻解碼器500亦包含帶寬擴(kuò)展530,其可實(shí)現(xiàn) 與帶寬擴(kuò)展430相同的功能性。
[0096] 因此,帶寬擴(kuò)展530可提供帶寬擴(kuò)展信號532,其通常與低頻部分的解碼表示522 組合(例如,添加至該解碼表示)以藉此獲得解碼音頻信息512。帶寬擴(kuò)展530可(例如) 接收低頻部分522的解碼表示522。然而替代地,帶寬擴(kuò)展532可接收由低頻解碼器520提 供的控制信息(其亦將被視為輔助信息或中間信息)524。輔助信息或控制信息或中間信 息524可(例如)表示音頻內(nèi)容的低頻部分的頻譜形狀、低頻部分的解碼表示的過零率,或 由低頻解碼器520使用的有助于帶寬擴(kuò)展程序的任何其他中間量。此外,音頻解碼器包括 控制部分540,被配置為提供指示應(yīng)由帶寬擴(kuò)展530執(zhí)行盲帶寬擴(kuò)展或參數(shù)導(dǎo)引式帶寬擴(kuò) 展的控制信息542??刂撇糠?40可使用不同類型的信息以用于提供控制信息542。舉例 而言,控制部分540可接收可包括于編碼音頻信息510中的帶寬擴(kuò)展模式比特流旗標(biāo)。舉 例而言,針對編碼音頻信息的每一部分(例如,幀)可存在一個帶寬擴(kuò)展模式比特流旗標(biāo), 該帶寬擴(kuò)展模式比特流旗標(biāo)可由控制部分540自編碼音頻信息擷取且可用以導(dǎo)出控制信 息542 (或可直接構(gòu)成控制信息542)。然而替代地,控制部分540可接收表示低頻部分及 /或描述如何解碼低頻部分(且因此亦指定為"低頻部分解碼信息")的信息。替代地或另 外,控制部分540可自低頻解碼器接收控制信息或輔助信息或中間信息524,其可(例如) 攜載關(guān)于低頻部分的頻譜包絡(luò)的信息及/或關(guān)于低頻部分的解碼表示的過零率的信息。然 而,控制信息或輔助信息或中間信息524亦可攜載關(guān)于低頻部分的解碼表示522的統(tǒng)計(jì)的 信息,或可表示由低頻解碼器520自低頻部分的解碼表示(亦指定為低頻部分解碼信息) 導(dǎo)出的任何其他中間信息。
[0097] 替代地或另外,控制部分540可接收低頻部分的解碼表示522,且自身可自低頻部 分的解碼表示522導(dǎo)出特征值(例如,過零率信息、頻譜包絡(luò)信息、頻譜傾斜量信息,或其類 似者)。
[0098] 因此,若比特流旗標(biāo)(用信號通知應(yīng)使用盲帶寬擴(kuò)展或參數(shù)導(dǎo)引式帶寬擴(kuò)展)包 括于編碼音頻信息510中,則控制部分540可評估此比特流旗標(biāo)以提供盲/參數(shù)導(dǎo)引式控 制信息542。然而,若此比特流旗標(biāo)不包括于編碼音頻信息510中(例如,以減小比特率), 則控制部分540通常基于其他信息判定使用盲帶寬擴(kuò)展或參數(shù)導(dǎo)引式帶寬擴(kuò)展。為此目 的,可由控制部分540評估低頻部分解碼信息(其可等于低頻部分的編碼表示,或其子集)。 替代地或另外,控制部分可考慮低頻部分的解碼表示522以用于作出使用盲帶寬擴(kuò)展或參 數(shù)導(dǎo)引式帶寬擴(kuò)展的決策,亦即,用于提供控制信息542。此外,控制部分540可視情況使用 由低頻解碼器520提供的控制信息或輔助信息或中間信息524,其限制條件為低頻解碼器 520提供可由控制部分540使用的任何中間量。
[0099] 因此,控制部分540可在盲帶寬擴(kuò)展與參數(shù)導(dǎo)引式帶寬擴(kuò)展之間切換帶寬擴(kuò)展。
[0100] 在盲帶寬擴(kuò)展的狀況下,帶寬擴(kuò)展530可在不評估任何額外比特流參數(shù)的情況下 基于低頻部分的解碼表示522來提供帶寬擴(kuò)展信號532。相比之下,在參數(shù)導(dǎo)引式帶寬擴(kuò) 展的狀況下,帶寬擴(kuò)展530可提供考慮額外(專用)帶寬擴(kuò)展比特流參數(shù)的帶寬擴(kuò)展信號 532,該參數(shù)輔助判定音頻內(nèi)容的高頻部分的特性(亦即,帶寬擴(kuò)展信號的特性)。然而,帶 寬擴(kuò)展530亦可使用由低頻解碼器520提供的低頻部分的解碼表示522及/或控制信息或 輔助信息或中間信息524,以提供帶寬擴(kuò)展信號532。
[0101]因此,在使用盲帶寬擴(kuò)展與使用參數(shù)導(dǎo)引式帶寬擴(kuò)展之間的決策有效地判定是否 應(yīng)用專用帶寬擴(kuò)展參數(shù)(其通常不由低頻解碼器520使用以提供低頻部分的解碼表示)以 獲得帶寬擴(kuò)展信號(其通常描述由編碼音頻信息表示的音頻內(nèi)容的高頻部分)。
[0102] 為概述以上內(nèi)容,音頻解碼器500可被配置為在逐幀基礎(chǔ)上(其中"幀"為音頻內(nèi) 容的部分的實(shí)例,且其中幀可(例如)包含在IOms與40ms之間的持續(xù)時間,且可較佳具有 大約20m S±2ms的持續(xù)時間)決定使用盲帶寬擴(kuò)展或使用參數(shù)導(dǎo)引式帶寬擴(kuò)展來獲得帶寬 擴(kuò)展信號532。因此,音頻解碼器可被配置為以極精細(xì)時間粒度在盲帶寬擴(kuò)展與參數(shù)導(dǎo)引式 帶寬擴(kuò)展之間切換。
[0103] 又,應(yīng)注意音頻解碼器500通常能夠在連續(xù)音頻內(nèi)容片段內(nèi)在使用盲帶寬擴(kuò)展與 使用參數(shù)導(dǎo)引式帶寬擴(kuò)展之間切換。因此,可在連續(xù)音頻內(nèi)容片段內(nèi)實(shí)質(zhì)上在任何時間 (當(dāng)然考慮成框)執(zhí)行盲帶寬擴(kuò)展與參數(shù)導(dǎo)引式帶寬擴(kuò)展之間的切換,以使帶寬擴(kuò)展適于 單音頻內(nèi)容片段的不同部分的(改變)特性。
[0104] 如上文所提及,音頻解碼器(較佳控制部分540)可被配置為針對音頻內(nèi)容的不同 部分(例如,幀)而評估包括于編碼音頻信息510中的旗標(biāo)(例如,每幀一個單一比特旗 標(biāo)),以決定使用盲帶寬擴(kuò)展或參數(shù)導(dǎo)引式帶寬擴(kuò)展。在此狀況下,控制部分540可保持為 極簡單的,代價為針對音頻內(nèi)容的每一部分必須將信令旗標(biāo)包括于編碼音頻信息中。然而 替代地,控制部分540可被配置為在不評估(專用)帶寬擴(kuò)展模式信令旗標(biāo)的情況下基于 低頻部分的編碼表示(其可包括使用由低頻解碼器520自低頻部分的該編碼表示導(dǎo)出的控 制信息或輔助信息或中間信息524,且還可包括使用由低頻解碼器520自低頻部分的編碼 表示導(dǎo)出的解碼表示522)來決定使用盲帶寬擴(kuò)展或參數(shù)導(dǎo)引式帶寬擴(kuò)展。因此,甚至在比 特流中無信令附加項(xiàng)的情況下仍可執(zhí)行盲帶寬擴(kuò)展與參數(shù)導(dǎo)引式帶寬擴(kuò)展之間的切換。
[0105] 音頻解碼器(或控制部分540)可被配置為基于低頻部分的解碼表示的一或多個 特征來決定使用盲帶寬擴(kuò)展或參數(shù)導(dǎo)引式帶寬擴(kuò)展。可自低頻部分的解碼表示522擷取此 等特征(例如,如頻譜傾斜量信息、過零率信息或其類似者),或可由控制信息/輔助信息/ 中間信息524來用信號通知此等特征。舉例而言,音頻解碼器(或控制部分540)可被配置 為基于量化線性預(yù)測系數(shù)(例如,其可包括于控制信息/輔助信息/中間信息524中)及 /或根據(jù)低頻部分的解碼表示522的時域統(tǒng)計(jì)來決定使用盲帶寬擴(kuò)展或參數(shù)導(dǎo)引式帶寬擴(kuò) 展。
[0106] 在下文中,將描述如何達(dá)成帶寬擴(kuò)展的一些概念。舉例而言,帶寬擴(kuò)展可被配置為 針對(輸入)音頻內(nèi)容的無帶寬擴(kuò)展參數(shù)包括于編碼音頻信息中的時間部分而使用低頻部 分的解碼表示522的一或多個特征及/或低頻解碼器520的一或多個參數(shù)(其可由控制信 息/輔助信息/中間信息524用信號通知)來獲得帶寬擴(kuò)展信號532。因此,帶寬擴(kuò)展530 可執(zhí)行盲帶寬擴(kuò)展,其基于自低頻部分的解碼表示推斷由編碼音頻信息表示的音頻內(nèi)容的 高頻部分的想法。舉例而言,帶寬擴(kuò)展530可被配置為針對輸入音頻內(nèi)容的無帶寬擴(kuò)展參 數(shù)包括于編碼音頻信息510中的時間部分而使用頻譜矩心信息及/或使用能量信息及/或 使用(例如,寫碼)濾波器系數(shù)來獲得帶寬擴(kuò)展信號532。因此,可達(dá)成良好的盲帶寬擴(kuò)展。
[0107] 然而,當(dāng)然亦可應(yīng)用不同的盲帶寬擴(kuò)展概念。
[0108] 然而,帶寬擴(kuò)展可被配置為針對音頻內(nèi)容的有帶寬擴(kuò)展參數(shù)包括于編碼音頻信息 中的時間部分而使用描述高頻部分的頻譜包絡(luò)的比特流參數(shù)來獲得帶寬擴(kuò)展信號532。換 言之,可使用描述高頻部分的頻譜包絡(luò)的比特流參數(shù)來執(zhí)行參數(shù)導(dǎo)引式帶寬擴(kuò)展。描述高 頻部分的頻譜包絡(luò)的比特流參數(shù)可支持參數(shù)導(dǎo)引式帶寬擴(kuò)展(然而,其可另外依賴于由盲 帶寬擴(kuò)展使用的量中的一些或全部)。
[0109] 舉例而言,已發(fā)現(xiàn),帶寬擴(kuò)展較佳應(yīng)被配置為評估三個至五個比特流參數(shù),以便獲 得帶寬擴(kuò)展信號,該比特流參數(shù)描述具有在300Hz與500Hz之間的帶寬的高頻信號部分的 強(qiáng)度。使用此等相對少量的比特流參數(shù)并不實(shí)質(zhì)上增加比特率,但在"困難"信號部分的狀 況下仍帶來帶寬擴(kuò)展的足夠改良,使得可針對"困難"信號部分而由因此導(dǎo)引的帶寬擴(kuò)展達(dá) 成的質(zhì)量與可針對"容易"信號部分而使用盲帶寬擴(kuò)展獲得的質(zhì)量相當(dāng)(其中"困難"信號 部分為盲帶寬擴(kuò)展將不導(dǎo)致良好或可接受音頻質(zhì)量的信號部分,而"容易"信號部分為盲帶 寬擴(kuò)展帶來足夠結(jié)果的信號部分)。
[0110] 因此,較佳以兩個或三個比特的分辨率標(biāo)量量化描述具有在300Hz與500Hz之間 的帶寬的高頻信號部分的強(qiáng)度的三個至五個比特流參數(shù),使得每幀存在6個至15個比特的 帶寬擴(kuò)展頻譜成形參數(shù)。已發(fā)現(xiàn),帶寬擴(kuò)展信息的此低比特率已足以在音頻內(nèi)容的"困難" 部分的狀況下獲得合理的良好帶寬擴(kuò)展。
[0111] 視情況,帶寬擴(kuò)展530可被配置為在自盲帶寬擴(kuò)展切換至參數(shù)導(dǎo)引式帶寬擴(kuò)展及 /或在自參數(shù)導(dǎo)引式帶寬擴(kuò)展切換至盲帶寬擴(kuò)展時執(zhí)行帶寬擴(kuò)展信號的能量的平滑。因此, 減少在盲帶寬擴(kuò)展與參數(shù)導(dǎo)引式帶寬擴(kuò)展之間切換時的頻譜形狀的不連續(xù)性。舉例而言, 帶寬擴(kuò)展可被配置為針對在音頻內(nèi)容的應(yīng)用有盲帶寬擴(kuò)展的部分之后的音頻內(nèi)容的應(yīng)用 有參數(shù)導(dǎo)引式帶寬擴(kuò)展的部分使帶寬擴(kuò)展信號的高頻部分衰減。又,帶寬擴(kuò)展可被配置為 針對在音頻內(nèi)容的應(yīng)用有參數(shù)導(dǎo)引式帶寬擴(kuò)展的部分之后的音頻內(nèi)容的應(yīng)用有盲帶寬擴(kuò) 展的部分減少對帶寬擴(kuò)展信號的高頻部分的衰減(亦即,稍微著重強(qiáng)調(diào)帶寬擴(kuò)展信號的高 頻部分)。然而,亦可藉由減少在帶寬擴(kuò)展模式之間切換時的高頻部分的頻譜形狀的不連續(xù) 性的任何其他操作來執(zhí)行平滑。因此,藉由減少偽訊來改良音頻質(zhì)量。
[0112] 總之,音頻解碼器500允許在帶寬擴(kuò)展信息提供于編碼音頻信息中的狀況與無帶 寬擴(kuò)展信息提供于編碼音頻信息中的狀況兩者下對音頻內(nèi)容的良好質(zhì)量解碼。音頻解碼器 可以精細(xì)時間粒度(例如,在逐幀基礎(chǔ)上)而在盲帶寬擴(kuò)展與參數(shù)導(dǎo)引式帶寬擴(kuò)展之間切 換,其中偽訊保持為小的。
[0113] 5.根據(jù)圖6的用于基于輸入音頻信息提供編碼音頻信息的方法
[0114] 圖6展示用于基于輸入音頻信息提供編碼音頻信息的方法600的流程圖。該方法 600包含編碼610輸入音頻信息的低頻部分以獲得低頻部分的編碼表示。該方法600亦包 含基于輸入音頻信息提供620帶寬擴(kuò)展信息,其中以信號適應(yīng)性方式選擇性地將帶寬擴(kuò)展 信息包括至編碼音頻信息中。
[0115] 應(yīng)注意,可藉由本文中關(guān)于音頻編碼器(且還關(guān)于音頻解碼器)所描述的特征及 功能性中的任一者補(bǔ)充根據(jù)圖6的方法600。
[0116] 6.根據(jù)圖7的用于提供解碼音頻信息的方法
[0117] 圖7展示根據(jù)本發(fā)明的實(shí)施例的用于提供解碼音頻信息的方法的流程圖。該方法 700包含解碼710低頻部分的編碼表示以獲得低頻部分的解碼表示。該方法700亦包含針 對音頻內(nèi)容的無帶寬擴(kuò)展參數(shù)包括于編碼音頻信息中的部分而使用盲帶寬擴(kuò)展來獲得720 帶寬擴(kuò)展信號。此外,該方法700包含針對音頻內(nèi)容的有帶寬擴(kuò)展參數(shù)包括于編碼音頻信 息中的部分而使用參數(shù)導(dǎo)引式帶寬擴(kuò)展來獲得730帶寬擴(kuò)展信號。
[0118] 應(yīng)注意,可藉由本文中關(guān)于音頻解碼器(且還關(guān)于音頻編碼器)所描述的特征及 功能性中的任一者補(bǔ)充根據(jù)圖7的方法700。
[0119] 7.根據(jù)圖8的編碼音頻表示
[0120] 圖8展示表示音頻信息的編碼音頻表示800的示意性說明。
[0121] 編碼音頻表示(亦指定為編碼音頻信息)包含音頻信息的低頻部分的編碼表示。 舉例而言,針對音頻信息的第一部分(例如,針對音頻信息的第一幀)而提供音頻信息的低 頻部分的編碼表示810。此外,亦針對音頻信息的第二部分(例如,第二幀)而提供音頻信 息的低頻部分的編碼表示。然而,編碼音頻表示800亦包含帶寬擴(kuò)展信息,其中針對音頻信 息的一些但非所有部分而以信號適應(yīng)性方式將帶寬擴(kuò)展信息包括于編碼音頻表示中。舉例 而言,針對音頻信息的第一部分而包括帶寬擴(kuò)展信息812。相比之下,針對音頻信息的第二 部分而不提供帶寬擴(kuò)展信息。
[0122] 總之,通常藉由本文中所描述的音頻編碼器提供且藉由本文中所描述的音頻解碼 器評估編碼音頻表示800。當(dāng)然,編碼音頻表示可儲存于非暫時性計(jì)算機(jī)可讀媒體或其類似 者上。此外,應(yīng)注意,可藉由關(guān)于音頻編碼器及音頻解碼器所描述的特征、信息項(xiàng)目等中的 任一者補(bǔ)充編碼音頻表示800。
[0123] 8.結(jié)論及其他態(tài)樣
[0124] 根據(jù)本發(fā)明的實(shí)施例藉由提議作為盲帶寬擴(kuò)展與參數(shù)導(dǎo)引式帶寬擴(kuò)展的組合的 "微導(dǎo)引式"帶寬擴(kuò)展來處理在極低比特率音頻寫碼中的習(xí)知帶寬擴(kuò)展的問題及現(xiàn)有習(xí)知 帶寬擴(kuò)展技術(shù)的缺點(diǎn),該"微導(dǎo)引式"帶寬擴(kuò)展?jié)M足以下情形:
[0125] 魯僅在不可自低頻音頻(例如,音頻內(nèi)容的低頻部分)足夠良好地重建構(gòu)輸入音 頻的高頻內(nèi)容(例如,高頻部分)的情況下才使用導(dǎo)引式帶寬擴(kuò)展,亦即,每20ms(例如,每 音頻幀)傳輸數(shù)字元的旁側(cè)信息,
[0126] 魯否則使用盲帶寬擴(kuò)展,亦即,高頻分量(例如,高頻部分)自諸如頻譜矩心、能 量、傾斜量、編碼濾波器系數(shù)的低頻核心特征(例如,重建構(gòu)低頻部分的特征)的經(jīng)典重建 構(gòu),
[0127] 魯藉由利用旁側(cè)信息的標(biāo)量而非向量量化且藉由避免涉及大量數(shù)據(jù)點(diǎn)的操作 (諸如,傅立葉變換及自相關(guān)及/或?yàn)V波器計(jì)算)來展現(xiàn)極低計(jì)算復(fù)雜度,
[0128] 魯關(guān)于輸入信號特性為穩(wěn)固的,亦即,并未針對諸如安靜環(huán)境中的成人語音的特 定輸入信號而優(yōu)化,以便對所有類型的語音以及音樂良好地起作用。
[0129] 仍待解決在根據(jù)本發(fā)明的實(shí)施例的導(dǎo)引式帶寬擴(kuò)展部分中將哪一(哪些)參數(shù)作 為旁側(cè)信息來傳輸及何時傳輸該參數(shù)的問題。
[0130] 已發(fā)現(xiàn),在諸如AMR-WB的寬帶編碼解碼器中,在核心寫碼器區(qū)域上方的高頻區(qū)域 的頻譜包絡(luò)表示以適當(dāng)質(zhì)量執(zhí)行帶寬擴(kuò)