本發(fā)明涉及音頻信號(hào)編碼、處理及解碼,特別地涉及,針對(duì)切換式音頻編碼系統(tǒng)在錯(cuò)誤隱藏過(guò)程中的改良信號(hào)衰落的裝置及方法。
背景技術(shù):
在下文中,描述關(guān)于封包丟失隱藏(PLC)過(guò)程中的語(yǔ)音及音頻編碼解碼器衰落的現(xiàn)有技術(shù)的狀態(tài)。關(guān)于現(xiàn)有技術(shù)的狀態(tài)的解釋始于G系列(G.718、G.719、G.722、G.722.1、G.729、G.729.1)的ITU-T編碼解碼器,接著為3GPP編碼解碼器(AMR、AMR-WB、AMR-WB+)及IETF編碼解碼器(OPUS),且以兩種MPEG編碼解碼器(E-AAC、HILN)結(jié)束(ITU=國(guó)際電信協(xié)會(huì);3GPP=第三代合作伙伴計(jì)劃;AMR=適應(yīng)性多速率;WB=寬帶;IETF=因特網(wǎng)工程任務(wù)小組)。隨后,分析關(guān)于追蹤背景噪聲水平的現(xiàn)有技術(shù)的狀態(tài),接著為提供概述的總結(jié)。
首先,考慮G.718。G.718為支持DTX/CNG(DTX=數(shù)字影院系統(tǒng);CNG=舒緩噪聲產(chǎn)生)的窄頻及寬帶語(yǔ)音編碼解碼器。作為尤其涉及低延遲碼的實(shí)施例,此處,將更詳細(xì)地描述低延遲版本模式。
考慮ACELP(層1)(ACELP=代數(shù)碼激發(fā)線性預(yù)測(cè)),ITU-T為G.718[ITU08a,章節(jié)7.11]推薦了用以控制衰落速度的線性預(yù)測(cè)域中的適應(yīng)性衰落。大體而言,隱藏遵循此原理:
根據(jù)G.718,在幀擦除的狀況下,隱藏策略可總結(jié)為將信號(hào)能量及頻譜包絡(luò)收斂至背景噪聲的所估計(jì)參數(shù)。將信號(hào)的周期性收斂為零。收斂速度取決于最后正確地接收的幀的參數(shù)及連續(xù)被擦除的幀的數(shù)目,并由衰減因子α控制。衰減因子α進(jìn)一步取決于用于無(wú)聲幀的LP(LP=線性預(yù)測(cè))濾波器的穩(wěn)定性θ。大體而言,若接收到的最后良好幀處于穩(wěn)定分段中,則收斂是緩慢的,且若幀處于轉(zhuǎn)變分段中,則收斂是快速的。
衰減因子α取決于[ITU08a,章節(jié)6.8.1.3.1及7.11.1.1]中所描述的信號(hào)分類得到的語(yǔ)音信號(hào)類別?;卩徑麵SF(導(dǎo)抗頻譜頻率)濾波器之間的距離度量計(jì)算穩(wěn)定性因子θ[ITU08a,章節(jié)7.1.2.4.2]。
表1展示α的計(jì)算方案:
表1:衰減因子α的值,值θ為自鄰近LP濾波器之間的距離度量所計(jì)算的穩(wěn)定性因子[ITU08a,章節(jié)7.1.2.4.2]。
此外,G.718提供衰落方法以便修改的頻譜包絡(luò)。一般想法為使最后的ISF參數(shù)朝向適應(yīng)性ISF均值向量收斂。首先,從最后3個(gè)已知的ISF向量計(jì)算出平均ISF向量。接著,將平均ISF向量與脫機(jī)訓(xùn)練的長(zhǎng)期ISF向量(其為常數(shù)向量)再次平均[ITU08a,章節(jié)7.11.1.2]。
此外,G.718提供衰落方法,以控制長(zhǎng)期行為且因此控制與背景噪聲的相互作用,其中將音高激發(fā)能量(且因此激發(fā)周期性)收斂為0,而隨機(jī)激發(fā)能量收斂為CNG激發(fā)能量[ITU08a,章節(jié)7.11.1.6]。如下計(jì)算創(chuàng)新增益衰落:
其中為下一個(gè)幀的開(kāi)始處的創(chuàng)新增益,為當(dāng)前幀的開(kāi)始處的創(chuàng)新增益,gn為舒緩噪聲產(chǎn)生過(guò)程中所使用的激發(fā)增益及衰減因子α。
類似于周期性激發(fā)衰落,從開(kāi)始,并在下一個(gè)幀的開(kāi)始處到達(dá)逐個(gè)樣本地貫穿幀以使增益線性衰減。
圖2概述G.718的解碼器結(jié)構(gòu)。特別地,圖2說(shuō)明用于PLC的具有高通濾波器的高階G.718解碼器結(jié)構(gòu)。
通過(guò)G.718的上文所描述的方法,對(duì)于封包丟失的較長(zhǎng)突發(fā),創(chuàng)新增益gs收斂為舒緩噪聲產(chǎn)生過(guò)程中所使用的增益gn。如[ITU08a,章節(jié)6.12.3]中所描述,舒緩噪聲增益gn給定為能量的平方根。并不詳細(xì)描述的更新條件。遵循參考實(shí)施(浮點(diǎn)C碼,stat_noise_uv_mod.c),如下得到
其中unvoiced_vad包含語(yǔ)音活動(dòng)檢測(cè),其中unv_cnt包含成列的無(wú)聲幀的數(shù)目,其中l(wèi)p_gainc包含固定碼簿的低通增益,且其中l(wèi)p_ener包含初始化為0的低通CNG能量估計(jì)
此外,若最后的良好幀的信號(hào)分類為不同于無(wú)聲的信號(hào),則G.718提供引入至無(wú)聲激發(fā)的信號(hào)路徑中的高通濾波器,參見(jiàn)圖2,亦參見(jiàn)[ITU08a,章節(jié)7.11.1.6]。此濾波器具有低擱板特性,其在DC處的頻率響應(yīng)比奈奎斯頻率處的頻率響應(yīng)低大約5dB。
此外,G.718提出解耦式LTP反饋回路(LTP=長(zhǎng)期預(yù)測(cè)):雖然在正常操作過(guò)程中,基于完全激發(fā)逐子幀地更新用于適應(yīng)性碼簿的反饋回路([ITU08a,章節(jié)7.1.2.1.4])。在隱藏過(guò)程中,僅基于有聲激發(fā),逐幀地更新此反饋回路(參見(jiàn)[ITU08a,章節(jié)7.11.1.4、7.11.2.4、7.11.1.6、7.11.2.6;dec_GV_exc@dec_gen_voic.c及syn_bfi_post@syn_bfi_pre_post.c])。借助于此方法,適應(yīng)性碼簿未被噪聲「污染」,該噪聲的起源在于隨機(jī)選擇的創(chuàng)新激發(fā)。
關(guān)于G.718的變換編碼增強(qiáng)層(3至5),在隱藏過(guò)程中,解碼器的關(guān)于高層解碼的行為類似于正常操作,只是MDCT(改良型離散余弦轉(zhuǎn)換)頻譜被設(shè)定為零。在隱藏過(guò)程中并未應(yīng)用特定的衰落行為。
關(guān)于CNG,在G.718中,按以下次序完成CNG合成。首先,對(duì)舒緩噪聲幀的參數(shù)進(jìn)行解碼。接著,合成舒緩噪聲幀。然后重置音高緩沖器。接著,儲(chǔ)存用于FER(幀錯(cuò)誤恢復(fù))分類的合成。然后,進(jìn)行頻譜去加重。接著進(jìn)行低頻后濾波。接著,更新CNG變量。
在隱藏的狀況下,執(zhí)行完全一樣的步驟,除了從比特串流中解碼CNG參數(shù)。這意味在幀丟失的過(guò)程中不更新參數(shù),而是使用來(lái)自最后良好SID(靜默插入描述符)幀的解碼參數(shù)。
現(xiàn)在考慮G.719?;赟iren 22的G.719為基于變換的全頻帶音頻編碼解碼器。ITU-T為G.719推薦了在頻譜域中具有幀重復(fù)的衰落[ITU08b,章節(jié)8.6]。根據(jù)G.719,將幀擦除隱藏機(jī)制并入到解碼器中。當(dāng)正確地接收到幀時(shí),將重建變換系數(shù)儲(chǔ)存于緩沖器中。若通知解碼器幀已丟失或幀被損毀,則在最近接收的幀中重建的變換系數(shù)以因子0.5按比例遞減,且接著被用作當(dāng)前幀的重建變換系數(shù)。解碼器通過(guò)將這些系數(shù)變換至?xí)r域及執(zhí)行開(kāi)窗重迭相加操作而繼續(xù)進(jìn)行。
在下文中,描述了G.722。G.722為50至7000Hz編碼系統(tǒng),其使用在高達(dá)64kbit/s(千位/秒)的比特率內(nèi)的子頻帶適應(yīng)性差分脈碼調(diào)制(SB-ADPCM)。使用QMF分析(QMF=正交鏡像濾波)將信號(hào)拆分成較高及較低子頻帶。兩個(gè)所得頻帶為ADPCM編碼的(ADPCM=適應(yīng)性差分脈碼調(diào)制)。
對(duì)于G.722,在附錄III[ITU06a]中指定用于封包丟失隱藏的高復(fù)雜性算法,及在附錄IV[ITU07]中指定用于封包丟失隱藏的低復(fù)雜性算法。G.722-附錄III([ITU06a,章節(jié)III.5])提出逐步執(zhí)行的靜音,其在幀丟失20ms之后開(kāi)始,在幀丟失60ms之后完成。此外,G.722-附錄IV提出衰落技術(shù),其「對(duì)每一個(gè)樣本」應(yīng)用「逐樣本地計(jì)算及調(diào)適的增益因子」[ITU07,章節(jié)IV.6.1.2.7]。
在G.722中,就在QMF合成之前,靜音程序發(fā)生于子頻帶域中,且作為PLC模塊的最后步驟。使用來(lái)自信號(hào)分類器的類別信息執(zhí)行靜音因子的計(jì)算,該信號(hào)分類器亦為PLC模塊的部分。在類別TRANSIENT、UV_TRANSITION與其他類別之間進(jìn)行區(qū)別。此外,在10ms幀的單次丟失與其他狀況(10ms幀的多次丟失及20ms幀的單次/多次丟失)之間進(jìn)行區(qū)別。
由圖3說(shuō)明此情形。特別地,圖3描繪G.722的衰落因子取決于類別信息且其中80個(gè)樣本等效于10ms的情境。
根據(jù)G.722,PLC模塊產(chǎn)生用于遺漏幀的信號(hào)及應(yīng)該與下一良好幀交叉衰落的某一額外信號(hào)(10ms)。針對(duì)此額外信號(hào)的靜音遵循相同規(guī)則。在G.722的高頻帶隱藏中,交叉衰落并未發(fā)生。
在下文中,考慮G.722.1?;赟iren 7的G.722.1為具有超寬帶帶擴(kuò)展模式的基于變換的寬帶帶音頻編碼解碼器,其被稱作G.722.1C。G.722.1C自身基于Siren 14。ITU T為G.722.1推薦具有后續(xù)靜音的幀重復(fù)[ITU05,章節(jié)4.7]。若借助于此推薦中未定義的外部發(fā)信號(hào)機(jī)制來(lái)通知解碼器幀已丟失或損毀,則解碼器重復(fù)先前幀的解碼MLT(調(diào)制重迭變換)系數(shù)。該解碼器通過(guò)將該系數(shù)變換至?xí)r域及執(zhí)行與先前及下一幀的解碼信息的重迭及相加操作來(lái)繼續(xù)進(jìn)行。若先前幀亦丟失或損毀,則解碼器將所有當(dāng)前幀MLT系數(shù)設(shè)定為零。
現(xiàn)在考慮G.729。G.729為用于語(yǔ)音的音頻數(shù)據(jù)壓縮算法,其壓縮10毫秒持續(xù)時(shí)間的封包中的數(shù)字語(yǔ)音。其被正式地描述為使用碼激發(fā)線性預(yù)測(cè)語(yǔ)音編碼碼(CS-ACELP)的在8kbit/s下的語(yǔ)音編碼[ITU12]。
如[CPK08]中所概述,G.729推薦LP域中的衰落。G.729標(biāo)準(zhǔn)中所使用的PLC算法基于先前接收的語(yǔ)音信息來(lái)重建用于當(dāng)前幀的語(yǔ)音信號(hào)。換言之,PLC算法用先前接收的幀的等效特性來(lái)代替遺漏激發(fā),但激發(fā)能量最終逐漸衰減,適應(yīng)性及固定碼簿的增益按常數(shù)因子衰減。
通過(guò)以下等式來(lái)給出衰減的固定碼簿增益:
其中m為子幀索引。
適應(yīng)性碼簿增益是基于先前適應(yīng)性碼簿增益的衰減版本:
限制為
Nam in Park等人針對(duì)G.729提議使用借助于線性回歸的預(yù)測(cè)的信號(hào)振幅控制[CPK08,PKJ+11]。其用于突發(fā)封包丟失,且使用線性回歸作為核心技術(shù)。線性回歸是基于如下線性模型:
g′i=a+bi (2)
其中,g′i為新預(yù)測(cè)的當(dāng)前振幅,a及b為用于一階線性函數(shù)的系數(shù),且i為幀的索引。為了找到優(yōu)化系數(shù)a*及b*,使平方預(yù)測(cè)誤差的總和最小化:
ε為平方誤差,gj為原始的過(guò)去第j個(gè)振幅。為了使此誤差最小化,簡(jiǎn)單地將關(guān)于a及b的導(dǎo)數(shù)設(shè)定為零。通過(guò)使用優(yōu)化參數(shù)a*及b*,每一個(gè)的估計(jì)由以下等式來(lái)表示:
圖4展示通過(guò)使用線性回歸的振幅預(yù)測(cè),特別地,振幅的預(yù)測(cè)。
為了獲得丟失封包i的振幅A′i,將比率σi
與比例因子Si相乘:
A′i=Si*σi (6)
其中比例因子Si取決于連續(xù)隱藏幀的數(shù)目l(i):
在[PKJ+11]中,提出了略有不同的按比例縮放。
根據(jù)G.729,然后A′i將被平滑化以防止幀邊界處的離散衰減。將最終平滑化振幅Ai(n)與自先前PLC組件獲得的激發(fā)相乘。
在下文中,考慮G.729.1。G.729.1為基于G.729的嵌入式可變比特率編碼器:可與G.729互操作的8至32kbit/s可調(diào)式寬帶編碼器比特串流[ITU06b]。
根據(jù)G.729.1,如在G.718(參見(jiàn)上文)中,提出適應(yīng)性衰落,其取決于信號(hào)特性的穩(wěn)定性([ITU06b,章節(jié)7.6.1])。在隱藏的過(guò)程中,信號(hào)通常是基于衰減因子α而衰減的,衰減因子α取決于最后良好接收的幀類別的參數(shù)及連續(xù)被擦除幀的數(shù)目。衰減因子α進(jìn)一步取決于用于無(wú)聲幀的LP濾波器的穩(wěn)定性。大體而言,若最后良好接收幀處于穩(wěn)定分段中,則衰減是緩慢的,且若幀處于轉(zhuǎn)變分段中,則衰減是快速的。
此外,衰減因子α取決于每一子幀的平均音高增益([ITU06b,等式163,164]):
其中為子幀i中的音高增益。
表2展示α的計(jì)算方案,其中
在隱藏程序的過(guò)程中,α被用于以下隱藏工具中:
表2:衰減因子α的值,值θ為自鄰近LP濾波器之間的距離度量所計(jì)算的穩(wěn)定性因子。[ITU06b,章節(jié)7.6.1]。
根據(jù)G.729.1,關(guān)于喉脈沖再同步,因?yàn)橄惹皫募ぐl(fā)的最后脈沖是用于建構(gòu)周期性部分,所以其增益在隱藏的幀的開(kāi)始處大約是正確的,且可被設(shè)定為1。增益接著在整個(gè)幀中逐樣本地線性衰減,從而達(dá)成在幀的結(jié)束處的α的值。通過(guò)使用最后良好幀的每一子幀的音高激發(fā)增益值來(lái)外插有聲片段的能量演進(jìn)。大體而言,若這些增益大于1,則信號(hào)能量正在增加,若這些增益小于1,則能量正在減少。α因此被設(shè)定為如上文所描述,參見(jiàn)[ITU06b,等式163,164]。β的值被限于0.98與0.85之間,從而避免強(qiáng)能量增加及減少,參見(jiàn)[ITU06b,章節(jié)7.6.4]。
關(guān)于激發(fā)的隨機(jī)部分的建構(gòu),根據(jù)G.729.1,在被擦除區(qū)塊的開(kāi)始處,通過(guò)使用最后良好幀的每一子幀的創(chuàng)新激發(fā)增益來(lái)初始化創(chuàng)新增益gs:
gs=0.1g(0)+0.2g(1)+0.3g(2)+0.4g(3)
其中g(shù)(0)、g(1)、g(2)及g(3)為最后正確地接收的幀的四個(gè)子幀的固定碼簿增益或創(chuàng)新增益。如下進(jìn)行創(chuàng)新增益衰減:
其中為在下一幀的開(kāi)始處的創(chuàng)新增益,為在當(dāng)前幀的開(kāi)始處的創(chuàng)新增益,且α是如上文表2中所定義。類似于周期性激發(fā)衰減,增益因此在整個(gè)幀中逐樣本地線性衰減,以開(kāi)始,且直至?xí)谙乱粠拈_(kāi)始處達(dá)成的的值。
根據(jù)G.729.1,若最后良好幀為無(wú)聲,則僅使用創(chuàng)新激發(fā)且其進(jìn)一步按0.8的因子衰減。在此狀況下,用創(chuàng)新激發(fā)來(lái)更新過(guò)去激發(fā)緩沖器,因?yàn)榧ぐl(fā)的周期性部分是不可用的,參見(jiàn)[ITU06b,章節(jié)7.6.6]。
在下文中,考慮AMR。3GPP AMR[3GP12b]為利用ACELP算法的語(yǔ)音編碼解碼器。AMR能夠編碼具有8000個(gè)樣本/s的采樣率及4.75與12.2kbit/s之間的比特率的語(yǔ)音,且支持靜默描述符幀的發(fā)信號(hào)(DTX/CNG)。
在AMR中,在錯(cuò)誤隱藏的過(guò)程中(參見(jiàn)[3GP12a]),區(qū)別了易于出錯(cuò)(位錯(cuò)誤)的幀與完全丟失(完全沒(méi)有資料)的幀。
對(duì)于ACELP隱藏,AMR引入估計(jì)頻道質(zhì)量的狀態(tài)機(jī):狀態(tài)計(jì)數(shù)器的值愈大,頻道質(zhì)量愈差。系統(tǒng)在狀態(tài)0開(kāi)始。每次檢測(cè)到不良幀,狀態(tài)計(jì)數(shù)器便遞增1,且在其達(dá)到6時(shí)飽和。每次檢測(cè)到良好語(yǔ)音幀,狀態(tài)計(jì)數(shù)器便被重置為零,不過(guò)在狀態(tài)為6時(shí)除外,此時(shí)狀態(tài)計(jì)數(shù)器被設(shè)定為5。狀態(tài)機(jī)的控制流程可由以下C程序代碼描述(BFI為不良幀指示符,State為狀態(tài)變量):
除了此狀態(tài)機(jī)之外,在AMR中,檢查來(lái)自當(dāng)前及先前幀的不良幀旗標(biāo)(prevBFI)。
三個(gè)不同組合為可能的:
三個(gè)組合中的第一個(gè)為BFI=0,prevBFI=0,State=0:在所接收的語(yǔ)音幀或在先前接收的語(yǔ)音幀中并未檢測(cè)到錯(cuò)誤。所接收的語(yǔ)音參數(shù)以正常方式用于語(yǔ)音合成中。儲(chǔ)存語(yǔ)音參數(shù)的當(dāng)前幀。
三個(gè)組合中的第二者為BFI=0,prevBFI=1,State=0或5:在所接收的語(yǔ)音幀中并未檢測(cè)到錯(cuò)誤,但先前接收的語(yǔ)音幀是不良的。限制LTP增益及固定碼簿增益使其低于用于最后接收的良好子幀的值:
其中g(shù)p=當(dāng)前解碼LTP增益,gp(-1)=用于最后良好子幀的LTP增益(BFI=0),且
其中g(shù)c=當(dāng)前解碼固定碼簿增益,且gc(-1)=用于最后良好子幀的固定碼簿增益(BFI=0)。
所接收的語(yǔ)音參數(shù)的剩余部分被正常地用于語(yǔ)音合成中。儲(chǔ)存語(yǔ)音參數(shù)的當(dāng)前幀。
三個(gè)組合中的第三者為BFI=1,prevBFI=0或1,State=1……6:在所接收的語(yǔ)音幀中檢測(cè)到錯(cuò)誤,且開(kāi)始替換及靜音程序。LTP增益及固定碼簿增益由來(lái)自先前子幀的衰減值代替:
其中g(shù)p指示當(dāng)前解碼LTP增益,且gp(-1),……,gp(-n)指示用于最后n個(gè)子幀的LTP增益,且median5()指示5點(diǎn)中值運(yùn)算,且
P(state)=衰減因子,
其中(P(1)=0.98,P(2)=0.98,P(3)=0.8,P(4)=0.3,P(5)=0.2,P(6)=0.2)且state=狀態(tài)號(hào),且
其中g(shù)c指示當(dāng)前解碼固定碼簿增益,且gc(-1),……,gc(-n)指示用于最后n個(gè)子幀的固定碼簿增益,且median5()指示5點(diǎn)中值運(yùn)算,且C(state)=衰減因子,其中(C(1)=0.98,C(2)=0.98,C(3)=0.98,C(4)=0.98,C(5)=0.98,C(6)=0.7)且state=狀態(tài)號(hào)。
在AMR中,LTP滯后值(LTP=長(zhǎng)期預(yù)測(cè))由來(lái)自先前幀的第4個(gè)子幀的過(guò)去值(12.2模式)或基于最后正確接收的值略作修改的值(所有其他模式)代替。
根據(jù)AMR,在接收到損毀資料時(shí)按接收到固定碼簿創(chuàng)新脈沖時(shí)的狀態(tài)使用來(lái)自錯(cuò)誤幀的所接收脈沖。在并未接收到數(shù)據(jù)的狀況下,應(yīng)使用隨機(jī)固定碼簿索引。
關(guān)于AMR中的CNG,根據(jù)[3GP12a,章節(jié)6.4],通過(guò)使用來(lái)自較早接收的有效SID幀的SID信息來(lái)替換每一個(gè)第一丟失的SID幀,且應(yīng)用用于有效SID幀的程序。對(duì)于后續(xù)丟失的SID幀,將衰減技術(shù)應(yīng)用于舒緩噪聲,該舒緩噪聲將逐漸減少輸出水平。因此,檢查最后SID更新是否是在超過(guò)50個(gè)幀(=1s)以前,若是如此,則將使輸出靜音(每一幀水平衰減-6/8dB[3GP12d,dtx_dec{}@sp_dec.c],其每秒產(chǎn)生37.5dB)。應(yīng)注意在LP域中執(zhí)行應(yīng)用于CNG的衰落。
在下文中,考慮AMR-WB。適應(yīng)性多速率WB[ITU03,3GP09c]為基于AMR的語(yǔ)音編碼解碼器,ACELP(參見(jiàn)章節(jié)1.8)。其使用參數(shù)帶寬擴(kuò)展且亦支持DTX/CNG。在標(biāo)準(zhǔn)[3GP12g]的描述中,給出了隱藏實(shí)例解決方案,其與AMR[3GP12a]下的狀況相同,具有微小的偏差。因此,此處僅描述與AMR的不同之處。針對(duì)標(biāo)準(zhǔn)描述,參見(jiàn)上文的描述。
關(guān)于ACELP,在AMR-WB中,基于參考源代碼,通過(guò)修改音高增益gp(針對(duì)上文的AMR,被稱作LTP增益)及通過(guò)修改碼增益gc執(zhí)行ACELP衰落[3GP12c]。
在丟失幀的狀況下,用于第一子幀的音高增益gp與最后良好幀中的音高增益相同,不過(guò)其被限于0.95與0.5之間。對(duì)于第二、第三及以后的子幀,音高增益gp以0.95的因子減小,且再次受限制。
AMR-WB提出:在隱藏的幀中,gc是基于最后gc:
gc,current=gc,past*(1.4-gp,past) (14)
為了隱藏LTP滯后,在AMR-WB中,將五個(gè)最后良好LTP滯后及LTP增益的歷史用于尋找在幀丟失的狀況下進(jìn)行更新的最佳方法。在接收到具有位錯(cuò)誤的幀的情況下,不論所接收的LTP滯后是否可使用,皆執(zhí)行預(yù)測(cè)[3GP12g]。
關(guān)于CNG,在AMR-WB中,若最后正確地接收的幀為SID幀,且?guī)诸悶閬G失,則其應(yīng)由最后有效的SID幀信息來(lái)替換,且應(yīng)該應(yīng)用用于有效SID幀的程序。
對(duì)于后續(xù)丟失SID幀,AMR-WB提出將衰減技術(shù)應(yīng)用于舒緩噪聲,該舒緩噪聲將逐漸減少輸出水平。因此,檢查最后SID更新是否是在超過(guò)50個(gè)幀(=1s)以前,若是如此,則將輸出靜音(每一幀水平衰減-3/8dB[3GP12f,dtx_dec{}@dtx.c],其每秒產(chǎn)生18.75dB)。應(yīng)注意在LP域中執(zhí)行應(yīng)用于CNG的衰落。
現(xiàn)在考慮AMR-WB+。適應(yīng)性多速率WB+[3GP09a]為使用ACELP及TCX(TCX=9變換編碼激發(fā))作為核心編碼解碼器的切換式編碼解碼器。其使用參數(shù)帶寬擴(kuò)展且亦支持DTX/CNG。
在AMR-WB+中,應(yīng)用模式外插邏輯以在失真超幀內(nèi)外插丟失幀的模式。此模式外插是基于在模式指示符的定義中存在冗余的事實(shí)。由AMR-WB+提出的決策邏輯(在[3GP09a,圖18]中給出)如下:
-定義向量模式(m-1,m0,m1,m2,m3),其中m-1指示先前超幀的最后幀的模式,且m0、m1、m2、m3指示當(dāng)前超幀(自比特串流解碼)中的幀的模式,其中mk=-1、0、1、2或3(-1:丟失,0:ACELP,1:TCX20,2:TCX40,3:TCX80),且其中丟失幀的數(shù)目nloss可在0與4之間。
-若m-1=3,且?guī)?至3的模式指示符中的兩者等于三,則所有指示符將被設(shè)定為三,因?yàn)榻又煽隙ㄔ诔瑤瑑?nèi)指示了一個(gè)TCX80幀。
-若幀0至3中的僅一個(gè)指示符為三(且丟失幀的數(shù)目nloss為三),則模式將被設(shè)定為(1,1,1,1),因?yàn)榻又鳷CX80目標(biāo)頻譜的3/4丟失且極有可能全局TCX增益丟失。
-若模式指示(x,2,-1,x,x)或(x,-1,2,x,x),則其將被外插為(x,2,2,x,x),從而指示TCX40幀。若模式指示(x,x,x,2,-1)或(x,x,-1,2),則其將被外插為(x,x,x,2,2),亦指示TCX40幀。應(yīng)注意(x,[0,1],2,2,[0,1])為無(wú)效配置。
-之后,對(duì)于丟失的每一幀(模式=-1),若前一幀為ACELP,將模式設(shè)定為ACELP(模式=0),且針對(duì)所有其他狀況,將模式設(shè)定為TCX20(模式=1)。
關(guān)于ACELP,根據(jù)AMR-WB+,若丟失幀模式導(dǎo)致在模式外插之后mk=0,則針對(duì)此幀應(yīng)用與[3GP12g]中相同的方法(參見(jiàn)上文)。
在AMR-WB+中,取決于丟失幀的數(shù)目及外插之模式,區(qū)別進(jìn)行以下TCX相關(guān)隱藏方法(TCX=經(jīng)變換編碼激發(fā)):
-若整個(gè)幀丟失,則應(yīng)用類似ACELP的隱藏:重復(fù)最后激發(fā),且使用隱藏的ISF系數(shù)(朝向其適應(yīng)性均值稍微移位)以合成時(shí)域信號(hào)。另外,就在LPC(線性預(yù)測(cè)編碼)合成之前,在線性預(yù)測(cè)域中乘以每一幀(20ms)0.7的衰落因子[3GP09b,dec_tcx.c]。
-若最后模式為TCX80,以及(部分丟失)超幀的外插模式為TCX80(nloss=[1,2],模式=(3,3,3,3,3)),則考慮到最后正確地接收的幀,利用相位及振幅外插在FFT域中執(zhí)行隱藏。此處,相位信息的外插方法并不被關(guān)注(與衰落策略無(wú)關(guān)),且因此未進(jìn)行描述。對(duì)于進(jìn)一步細(xì)節(jié),參見(jiàn)[3GP09a,章節(jié)6.5.1.2.4]。關(guān)于AMR-WB+的振幅修改,針對(duì)TCX隱藏所執(zhí)行的方法由以下步驟構(gòu)成[3GP09a,章節(jié)6.5.1.2.3]:
-計(jì)算先前幀量級(jí)頻譜:
-計(jì)算當(dāng)前幀量級(jí)頻譜:
-計(jì)算先前與當(dāng)前幀之間的非丟失頻譜系數(shù)的能量的增益差:
-使用如下等式來(lái)外插遺漏頻譜系數(shù)的振幅:
若(lost[k])A[k]=gain·oldA[k]
-在mk=[2,3]的丟失幀的每一其他狀況中,使用所有可用的信息(包括全局TCX增益)來(lái)合成TCX目標(biāo)(解碼頻譜加噪聲填充(使用自比特串流解碼的噪聲水平)的反FFT)。在此狀況下并不應(yīng)用衰落。
關(guān)于AMR-WB+中的CNG,使用與AMR-WB中相同的方法(參見(jiàn)上文)。
在下文中,考慮OPUS。OPUS[IET12]并有來(lái)自兩種編碼解碼器的技術(shù):語(yǔ)音導(dǎo)向式SILK(其被稱為Skype編碼解碼器)及低潛時(shí)CELT(CELT=受約束的能量重迭變換)??稍诟呒暗捅忍芈手g順暢地調(diào)整Opus,且在內(nèi)部,Opus在處于較低比特率下的線性預(yù)測(cè)編碼解碼器(SILK)與處于較高比特率下的變換編碼解碼器(CELT)以及用于短重迭的混合體之間切換。
關(guān)于SILK音訊數(shù)據(jù)壓縮及解壓縮,在OPUS中,若干參數(shù)在SILK解碼器例程中的隱藏的過(guò)程中受到衰減。在使用來(lái)自先前幀的激發(fā)的最后音高循環(huán)積累起激發(fā)的情況下,取決于連續(xù)丟失幀的數(shù)目,通過(guò)對(duì)于每一幀將所有LPC系數(shù)與0.99、0.95抑或0.90相乘使LTP增益參數(shù)衰減。音高滯后參數(shù)在連續(xù)丟失的過(guò)程中極緩慢地增大。對(duì)于單次丟失,與最后幀相比較,音高滯后參數(shù)保持恒定。此外,激發(fā)增益參數(shù)按每一幀指數(shù)地衰減,使得對(duì)于第一激發(fā)增益參數(shù),激發(fā)增益參數(shù)為0.99,使得對(duì)于第二激發(fā)增益參數(shù),激發(fā)增益參數(shù)為0.992等等。使用隨機(jī)數(shù)產(chǎn)生器產(chǎn)生激發(fā),該隨機(jī)數(shù)產(chǎn)生器通過(guò)變量溢出產(chǎn)生白噪聲。此外,基于最后正確地接收的系數(shù)集合外插LPC系數(shù)/對(duì)LPC系數(shù)求平均值。在產(chǎn)生衰減的激發(fā)向量之后,在OPUS中使用隱藏的LPC系數(shù)以合成時(shí)域輸出信號(hào)。
現(xiàn)在,在OPUS的上下文中,考慮CELT。CELT為基于變換的編碼解碼器。CELT的隱藏以基于音高的PLC方法為特征,該方法應(yīng)用于多達(dá)五個(gè)連續(xù)丟失幀。從幀6開(kāi)始,應(yīng)用類似噪聲的隱藏方法,該方法產(chǎn)生背景噪聲,該背景噪聲的特性應(yīng)該聽(tīng)起來(lái)好像先前背景噪聲。
圖5說(shuō)明CELT的突發(fā)丟失行為。特別地,圖5描繪CELT隱藏語(yǔ)音分段的頻譜圖(x軸:時(shí)間;y軸:頻率)。淺灰色方框指示前5個(gè)連續(xù)丟失幀,其中應(yīng)用基于音高的PLC方法。除此之外,展示了類似噪聲的隱藏。應(yīng)注意的是即刻執(zhí)行切換,該切換并非平滑地轉(zhuǎn)變。
關(guān)于基于音高的隱藏,在OPUS中,基于音高的隱藏由通過(guò)自相關(guān)發(fā)現(xiàn)解碼信號(hào)中的周期性及使用音高偏移(音高滯后)重復(fù)窗化波形(在使用LPC分析及合成的激發(fā)域中)構(gòu)成。窗化波形以保留時(shí)域混迭消除的方式與先前幀及下一幀重迭[IET12]。另外,通過(guò)以下程序代碼得到及應(yīng)用衰落因子:
在此程序代碼中,exc含有激發(fā)信號(hào),該激發(fā)信號(hào)多達(dá)在丟失之前的MAX_PERIOD個(gè)樣本。
激發(fā)信號(hào)稍后與衰減相乘,接著經(jīng)由LPC合成而被合成及輸出。
用于時(shí)域方法的衰落算法可概述如下:
-找到在丟失之前的最后音高循環(huán)的音高同步能量。
-找到在丟失之前的倒數(shù)第二音高循環(huán)的音高同步能量。
-若能量增大,則對(duì)其進(jìn)行限制以保持恒定:衰減=1
-若能量減少,則在隱藏的過(guò)程中繼續(xù)相同的衰減。
關(guān)于類似噪聲的隱藏,根據(jù)OPUS,對(duì)于第六個(gè)及以后的連續(xù)丟失幀,執(zhí)行MDCT域中的噪聲替換方法,以便對(duì)舒緩背景噪聲進(jìn)行仿真。
關(guān)于背景噪聲水平及形狀的追蹤,在OPUS中,背景噪聲估計(jì)執(zhí)行如下:在MDCT分析之后,計(jì)算每一頻帶的MDCT頻帶能量的平方根,其中根據(jù)[IET12,表55],MDCT頻率倉(cāng)(bin)的分組遵循巴克尺度(bark scale)。接著通過(guò)以下等式將能量的平方根變換至log2域:
bandLogE[i]=log2(e)·loge(bandE[i]-eMeans[i])其中i=0...21 (18)
其中e為歐拉數(shù),bandE為MDCT頻帶的平方根,且eMeans為常數(shù)向量(其為得到導(dǎo)致增強(qiáng)的編碼增益的結(jié)果零均值所必要的)。
在OPUS中,如下在解碼器側(cè)上對(duì)背景噪聲求對(duì)數(shù)[IET12,amp2Log2及l(fā)og2Amp@quant_bands.c]:
backgroundLogE[i]=min(backgroundLogE[i]+8·0.001,bandLogE[i])其中i=0…21 (19)
所追蹤的最小能量基本上是由當(dāng)前幀的頻帶的能量的平方根來(lái)判定的,但自一個(gè)幀至下一幀的增加限于0.05dB。
關(guān)于背景噪聲水平及形狀的應(yīng)用,根據(jù)OPUS,若應(yīng)用類似PLC的噪聲,則使用如在最后良好幀中得到的backgroundLogE,且將其反向轉(zhuǎn)換至線性域:
其中e為歐拉數(shù),且eMeans為與用于“線性至對(duì)數(shù)”變換的常數(shù)向量相同的常數(shù)向量。
當(dāng)前隱藏程序?qū)⒂糜呻S機(jī)數(shù)產(chǎn)生器產(chǎn)生的白噪聲填充MDCT幀,且以該白噪聲逐頻帶地匹配bandE的能量的方式按比例調(diào)整此白噪聲。隨后,應(yīng)用產(chǎn)生時(shí)域信號(hào)的反MDCT。在重迭相加及去加重(如在常規(guī)解碼中)之后,放出時(shí)域信號(hào)。
在下文中,考慮MPEG-4HE-AAC(MPEG=動(dòng)畫(huà)專業(yè)團(tuán)體;HE-AAC=高效率進(jìn)階音訊編碼)。高效率進(jìn)階音訊編碼由補(bǔ)充了參數(shù)帶寬擴(kuò)展(SBR)的基于變換的音頻編碼解碼器(AAC)構(gòu)成。
關(guān)于AAC(AAC=進(jìn)階音訊編碼),DAB聯(lián)盟針對(duì)DAB+中的AAC指定了在頻域中至零的衰落[EBU10,章節(jié)A1.2](DAB=數(shù)位音頻傳輸)。例如衰減斜坡的衰落行為可能為固定的或可由使用者調(diào)整。來(lái)自最后AU(AU=存取單元)的頻譜系數(shù)按對(duì)應(yīng)于衰落特性的因子衰減,且接著被傳遞至頻率至?xí)r間映像。取決于衰減斜坡,隱藏在數(shù)個(gè)連續(xù)無(wú)效AU之后切換至靜音,其意味完整頻譜將被設(shè)定為0。
DRM(DRM=數(shù)字版權(quán)管理)聯(lián)盟針對(duì)DRM中的AAC指定了在頻域中的衰落[EBU12,章節(jié)5.3.3]。隱藏剛好在最終的頻率至?xí)r間轉(zhuǎn)換之前對(duì)頻譜數(shù)據(jù)起作用。若多個(gè)幀被損毀,隱藏首先基于來(lái)自最后有效幀的略作修改的頻譜值實(shí)施衰落。此外,類似于DAB+,例如衰減斜坡的衰落行為可能為固定的或可由使用者調(diào)整。來(lái)自最后幀的頻譜系數(shù)按對(duì)應(yīng)于衰落特性的因子衰減,且接著被傳遞至頻率至?xí)r間映像。取決于衰減斜坡,隱藏在數(shù)個(gè)連續(xù)無(wú)效幀之后切換至靜音,其意味完整頻譜將被設(shè)定為0。
3GPP為增強(qiáng)型aacPlus中的AAC引入了類似于DRM的在頻域中的衰落[3GP12e,章節(jié)5.1]。隱藏剛好在最終的頻率至?xí)r間轉(zhuǎn)換之前對(duì)頻譜數(shù)據(jù)起作用。若多個(gè)幀被損毀,隱藏首先基于來(lái)自最后良好幀的略作修改的頻譜值實(shí)施衰落。完整衰落歷時(shí)5個(gè)幀。復(fù)制來(lái)自最后良好幀的頻譜系數(shù),且其按如下因子衰減:
衰落因子=2-(nFadeOutFrame/2)
其中nFadeOutFrame作為自最后良好幀以來(lái)的幀計(jì)數(shù)器。在歷時(shí)五個(gè)幀的衰落之后,隱藏切換至靜音,此意味完整頻譜將被設(shè)定為0。
Lauber及Sperschneider為AAC引入了基于能量外插的MDCT頻譜的逐幀衰落[LS01,章節(jié)4.4]。前一頻譜的能量形狀可能被用以外插所估計(jì)頻譜的形狀??瑟?dú)立于隱藏技術(shù),作為一種后隱藏來(lái)執(zhí)行能量外插。
關(guān)于AAC,在比例因子頻帶的基礎(chǔ)上執(zhí)行能量計(jì)算以便接近人類聽(tīng)覺(jué)系統(tǒng)的關(guān)鍵頻帶。個(gè)別能量值被逐幀地減小以便平滑地降低音量,例如使信號(hào)衰落。由于所估計(jì)值表示當(dāng)前信號(hào)隨時(shí)間流逝而快速降低,所以此情形變得有必要。
為了產(chǎn)生待饋出的頻譜,Lauber及Sperschneider提議幀重復(fù)或噪聲替換[LS01,章節(jié)3.2及3.3]。
Quackenbusch及Driesen針對(duì)AAC提議至零的指數(shù)逐幀衰落[QD03]。提出了時(shí)間/頻率系數(shù)的鄰近集合的重復(fù),其中每一重復(fù)具有指數(shù)地增加的衰減,因此在延長(zhǎng)的中斷的狀況下逐漸衰落至靜音。
關(guān)于MPEG-4HE-AAC中的SBR(SBR=頻譜帶復(fù)制),3GPP針對(duì)增強(qiáng)型aacPlus中的SBR提議了對(duì)解碼包絡(luò)數(shù)據(jù)進(jìn)行緩沖,且在幀丟失的狀況下,再次使用所傳輸?shù)陌j(luò)數(shù)據(jù)的緩沖能量,且針對(duì)每一隱藏的幀使能量按3dB的恒定比率減少。將結(jié)果反饋至正常解碼程序中,其中包絡(luò)調(diào)整器用其計(jì)算增益,這些增益用于調(diào)整由HF產(chǎn)生器產(chǎn)生的修補(bǔ)高頻帶。SBR解碼接著照常發(fā)生。此外,增量(δ)編碼的噪聲底限及正弦水平值被刪除。因?yàn)榕c先前信息的差別不再可用,所以解碼噪聲底限及正弦水平保持與HF產(chǎn)生的信號(hào)的能量成正比[3GP12e,章節(jié)5.2]。
DRM聯(lián)盟針對(duì)結(jié)合AAC的SBR指定與3GPP相同的技術(shù)[EBU12,章節(jié)5.6.3.1]。此外,DAB聯(lián)盟針對(duì)DAB+中的SBR指定與3GPP相同的技術(shù)[EBU10,章節(jié)A2]。
在下文中,考慮MPEG-4CELP及MPEG-4HVXC(HVXC=諧波向量激發(fā)編碼)。DRM聯(lián)盟針對(duì)結(jié)合CELP及HVXC的SBR[EBU12,章節(jié)5.6.3.2]指定不管何時(shí)檢測(cè)到損毀的SBR幀,用于語(yǔ)音編碼解碼器的SBR的最低要求隱藏應(yīng)用于數(shù)據(jù)值的預(yù)定集合。那些值產(chǎn)生在低相對(duì)播放水平處的靜態(tài)高頻帶頻譜包絡(luò),從而展現(xiàn)出朝向較高頻率的滾降。目標(biāo)僅為借助于插入“舒緩噪聲”(與嚴(yán)格的靜音相對(duì)照)而確保沒(méi)有不良的、潛在大聲的音訊突發(fā)到達(dá)聽(tīng)者的耳朵。此實(shí)際上并非真正的衰落,而是跳轉(zhuǎn)至某一能量水平以便插入某一種類的舒緩噪聲。
隨后,提到替代例[EBU12,章節(jié)5.6.3.2],其再次使用最后正確地解碼數(shù)據(jù)且使水平(L)朝向0緩慢地衰落,這類似于AAC+SBR狀況。
現(xiàn)在,考慮MPEG-4HILN(HILN=諧波及個(gè)別線加噪聲)。Meine等人引入了在參數(shù)域中用于參數(shù)MPEG-4HILN編碼解碼器[ISO09]的衰落[MEP01]。對(duì)于持續(xù)諧波分量,用于代替損毀的差分編碼參數(shù)的良好默認(rèn)行為是保持頻率恒定,使振幅按衰減因子(例如,-6dB)減少,及令頻譜包絡(luò)朝向具有平均化的低通特性的頻譜包絡(luò)收斂。用于頻譜包絡(luò)的替代例將為使其保持不變。關(guān)于振幅及頻譜包絡(luò),可以與對(duì)待諧波分量相同的方式來(lái)對(duì)待噪聲分量。
在下文中,考慮現(xiàn)有技術(shù)中的背景噪聲水平的追蹤。Rangachari及Loizou[RL06]提供對(duì)若干方法的良好概述且論述其中一些的限制。用于追蹤背景噪聲水平的方法為(例如)最小值跟蹤程序[RL06][Coh03][SFB00][Dob95],基于VAD(VAD=語(yǔ)音活動(dòng)檢測(cè));卡爾曼濾波[Gan05][BJH06],子空間分解[BP06][HJH08];軟決策[SS98][MPC89][HE95]及最小值統(tǒng)計(jì)。
最小值統(tǒng)計(jì)方法被選擇用于USAC-2(USAC=統(tǒng)一語(yǔ)音及音訊編碼)的范疇內(nèi),且隨后更詳細(xì)概述。
基于最佳平滑及最小值統(tǒng)計(jì)的噪聲功率譜密度估計(jì)[Mar01]引入噪聲估計(jì)式,該噪聲估計(jì)式能夠獨(dú)立于信號(hào)為作用中語(yǔ)音或背景噪聲的情況而工作。與其他方法相對(duì)比,最小值統(tǒng)計(jì)算法并不使用任何顯式臨限值在語(yǔ)音活動(dòng)與語(yǔ)音暫停之間進(jìn)行區(qū)分,且因此相較于與傳統(tǒng)的語(yǔ)音活動(dòng)檢測(cè)方法相關(guān)的程度,與軟決策方法相關(guān)的程度更高。類似于軟決策方法,其亦可在語(yǔ)音活動(dòng)的過(guò)程中更新所估計(jì)噪聲PSD(功率譜密度)。
最小值統(tǒng)計(jì)方法根據(jù)兩個(gè)觀測(cè),亦即語(yǔ)音及噪聲通常在統(tǒng)計(jì)上獨(dú)立且有噪聲語(yǔ)音信號(hào)的功率頻繁衰減至噪聲的功率水平。因此有可能通過(guò)跟蹤有噪聲信號(hào)PSD的最小值而得到準(zhǔn)確的噪聲PSD(PSD=功率譜密度)估計(jì)。因?yàn)樽钚≈敌∮?或在其他狀況下等于)平均值,所以最小值跟蹤方法需要偏差補(bǔ)償。
偏差為平滑化信號(hào)PSD的方差的函數(shù),且因而取決于PSD估計(jì)式的平滑參數(shù)。與對(duì)最小值跟蹤的較早期研究(其利用恒定平滑參數(shù)及恒定最小偏差校正)相對(duì)比,使用基于時(shí)間及頻率的PSD平滑,其亦需要基于時(shí)間及頻率的偏差補(bǔ)償。
使用最小值跟蹤提供對(duì)噪聲功率的粗略估計(jì)。然而,存在一些缺點(diǎn)。具有固定平滑參數(shù)的平滑化加寬了平滑化PSD估計(jì)的語(yǔ)音活動(dòng)的峰值。此將產(chǎn)生不準(zhǔn)確的噪聲估計(jì),因?yàn)橛糜谧钚≈邓褜さ幕瑒?dòng)窗可能滑到寬峰值中。因此,無(wú)法使用接近于一的平滑參數(shù),且因此,噪聲估計(jì)將具有相對(duì)較大的方差。此外,使噪聲估計(jì)偏向較低值。此外,在增加噪聲功率的狀況下,最小值跟蹤落在后面。
具有低復(fù)雜性的基于MMSE的噪聲PSD跟蹤[HHJ10]引入了背景噪聲PSD方法,該方法利用了用于DFT(離散傅立葉變換)頻譜上的MMSE搜尋。該算法由這些處理步驟構(gòu)成:
-基于先前幀的噪聲PSD計(jì)算最大可能性估計(jì)式。
-計(jì)算最小均方估計(jì)式。
-使用決策導(dǎo)向方法[EM84]來(lái)估計(jì)最大可能性估計(jì)式。
-在假定語(yǔ)音及噪聲DFT系數(shù)為高斯分布的情況下計(jì)算反偏差因子。
-所估計(jì)噪聲功率譜密度為平滑的。
亦應(yīng)用安全網(wǎng)方法以便避免算法的完全死鎖。
基于數(shù)據(jù)驅(qū)動(dòng)的遞歸噪聲功率估計(jì)來(lái)跟蹤非穩(wěn)定噪聲[EH08]引入了用于根據(jù)由極不穩(wěn)定噪聲源污染的語(yǔ)音信號(hào)估計(jì)噪聲頻譜方差的方法。此方法亦使用在時(shí)間/頻率方向上的平滑。
基于噪聲功率估計(jì)的平滑及估計(jì)偏差校正的低復(fù)雜性噪聲估計(jì)算法[Yu09]增強(qiáng)了[EH08]中所引入的方法。主要的差別在于,用于噪聲功率估計(jì)的頻譜增益函數(shù)是由迭代數(shù)據(jù)驅(qū)動(dòng)方法發(fā)現(xiàn)的。
用于噪聲語(yǔ)音增強(qiáng)的統(tǒng)計(jì)方法[Mar03]組合[Mar01]中給出的最小值統(tǒng)計(jì)方法、軟決策增益修改[MCA99]、先驗(yàn)SNR的估計(jì)[MCA99]、適應(yīng)性增益限制[MC99]以及MMSE對(duì)數(shù)頻譜振幅估計(jì)式[EM85]。
對(duì)于多個(gè)語(yǔ)音及音頻編碼解碼器而言,衰落是備受關(guān)注的,這些編碼解碼器特別地為AMR(參見(jiàn)[3GP12b])(包括ACELP及CNG)、AMR-WB(參見(jiàn)[3GP09c])(包括ACELP及CNG)、AMR-WB+(參見(jiàn)[3GP09a])(包括ACELP、TCX及CNG)、G.718(參見(jiàn)[ITU08a])、G.719(參見(jiàn)[ITU08b])、G.722(參見(jiàn)[ITU07])、G.722.1(參見(jiàn)[ITU05])、G.729(參見(jiàn)[ITU12、CPK08、PKJ+11])、MPEG-4HE-AAC/增強(qiáng)型aacPlus(參見(jiàn)[EBU10、EBU12、3GP12e、LS01、QD03])(包括AAC及SBR)、MPEG-4HILN(參見(jiàn)[ISO09、MEP01])及OPUS(參見(jiàn)[IET12])(包括SILK及CELT)。
取決于編碼解碼器,在不同域中執(zhí)行衰落:
對(duì)于利用LPC的編碼解碼器,在線性預(yù)測(cè)域(亦稱為激發(fā)域)中執(zhí)行衰落。對(duì)于基于ACELP的編碼解碼器(例如,AMR、AMR-WB、AMR-WB+的ACELP核心、G.718、G.729、G.729.1、OPUS中的SILK核心);使用時(shí)間-頻率變換進(jìn)一步處理激發(fā)信號(hào)的編碼解碼器(例如AMR-WB+的TCX核心、OPUS中的CELT核心)及在線性預(yù)測(cè)域中操作的舒緩噪聲產(chǎn)生(CNG)方案(例如,AMR中的CNG、AMR-WB中的CNG、AMR-WB+中的CNG)而言,此情形同樣適用。
對(duì)于將時(shí)間信號(hào)直接變換至頻域的編碼解碼器,在頻譜/子頻帶域中執(zhí)行衰落。對(duì)于基于MDCT或類似變換的編碼解碼器(諸如,MPEG-4HE-AAC中的AAC、G.719、G.722(子頻帶域)及G.722.1)而言,此情形同樣適用。
對(duì)于參數(shù)編碼解碼器,在參數(shù)域中應(yīng)用衰落。對(duì)于MPEG-4HILN而言,此情形同樣適用。
關(guān)于衰落速度及衰落曲線,衰落通常是通過(guò)應(yīng)用衰減因子而實(shí)現(xiàn),該衰減因子被應(yīng)用于適當(dāng)域中的信號(hào)表示。衰減因子的大小控制著衰落速度及衰落曲線。在大多數(shù)狀況下,逐幀地應(yīng)用衰減因子,但亦利用逐樣本應(yīng)用,參見(jiàn)例如G.718及G.722。
可能以兩個(gè)方式(絕對(duì)及相對(duì))提供用于某一信號(hào)分段的衰減因子。
在絕對(duì)地提供衰減因子的狀況下,參考水平總是為最后接收的幀的水平。絕對(duì)衰減因子通常以用于緊接在最后良好幀之后的信號(hào)分段的接近1的值開(kāi)始,且接著朝向0較快地或較慢地降級(jí)。衰落曲線直接取決于這些因子。此為例如G.722的附錄IV中所描述的隱藏的狀況(特別地參見(jiàn)[ITU07,圖IV.7]),其中可能的衰落曲線為線性或逐漸線性的??紤]增益因子g(n)(而g(0)表示最后良好幀的增益因子)、絕對(duì)衰減因子αabs(n),任何后續(xù)丟失幀的增益因子可得到為:
g(n)=αabs(n)·g(0) (21)
在相對(duì)地提供衰減因子的狀況下,參考水平為來(lái)自先前幀的水平。此情形在遞歸隱藏程序的狀況下(例如,在已經(jīng)衰減的信號(hào)被進(jìn)一步處理及再次衰減的情況下)具有優(yōu)點(diǎn)。
若遞歸地應(yīng)用衰減因子,則此因子可能為獨(dú)立于連續(xù)丟失幀的數(shù)目的固定值,例如針對(duì)G.719的0.5(參見(jiàn)上文);與連續(xù)丟失幀的數(shù)目有關(guān)的固定值,例如,如在[CPK08]中針對(duì)G.729所提出的:針對(duì)前兩個(gè)幀的1.0、針對(duì)接下來(lái)兩個(gè)幀的0.9、針對(duì)幀5及6的0.8及針對(duì)所有后續(xù)幀的0(參見(jiàn)上文);或與連續(xù)丟失幀的數(shù)目有關(guān)且取決于信號(hào)特性的值,例如用于不穩(wěn)定的信號(hào)的較快衰落及用于穩(wěn)定信號(hào)的較慢衰落,例如G.718(參見(jiàn)上文的章節(jié)及[ITU08a,表44]);
假設(shè)相對(duì)衰落因子0≤αrel(n)≤1,而n為丟失幀的數(shù)目(n≥1);任何后續(xù)幀的增益因子可被得到為:
g(n)=αrel(n)·g(n-1) (22)
從而導(dǎo)致指數(shù)衰落。
關(guān)于衰落程序,通常指定衰減因子,但在一些應(yīng)用標(biāo)準(zhǔn)(DRM、DAB+)中,衰減因子的指定被留給制造者完成。
若不同信號(hào)部分被單獨(dú)地衰落,則可能應(yīng)用不同衰減因子例如以用某一速度衰減音調(diào)分量及用另一速度衰減類似噪聲的分量(例如,AMR、SILK)。
通常,將某一增益應(yīng)用于整個(gè)幀。當(dāng)在頻譜域中執(zhí)行衰落時(shí),此情形是僅有的可能方式。然而,若在時(shí)域或線性預(yù)測(cè)域中進(jìn)行衰落,則可能進(jìn)行更細(xì)致化的衰落。此更細(xì)致化的衰落應(yīng)用于G.718中,其中通過(guò)最后幀的增益因子與當(dāng)前幀的增益因子之間的線性內(nèi)插針對(duì)每一樣本得到個(gè)體增益因子。
對(duì)于具有可變幀持續(xù)時(shí)間的編碼解碼器,恒定的相對(duì)衰減因子導(dǎo)致取決于幀持續(xù)時(shí)間的不同衰落速度。例如對(duì)于AAC就是此狀況,其中幀持續(xù)時(shí)間取決于采樣率。
為了對(duì)最后接收的信號(hào)的時(shí)間形狀采用所應(yīng)用的衰落曲線,可能進(jìn)一步調(diào)整(靜態(tài))衰落因子。例如針對(duì)AMR應(yīng)用此進(jìn)一步動(dòng)態(tài)調(diào)整,其中考慮先前五個(gè)增益因子的中值(參見(jiàn)[3GP12b]及章節(jié)1.8.1)。在執(zhí)行任何衰減之前,若中值小于最后增益,則將當(dāng)前增益設(shè)定為中值,否則使用最后增益。此外,例如針對(duì)G729應(yīng)用此進(jìn)一步動(dòng)態(tài)調(diào)整,其中使用先前增益因子的線性回歸來(lái)預(yù)測(cè)振幅(參見(jiàn)[CPK08、PKJ+11]及章節(jié)1.6)。在此狀況下,用于第一隱藏幀的所得增益因子可能超出最后接收的幀的增益因子。
關(guān)于衰落的目標(biāo)水平,對(duì)于所有所分析的編碼解碼器(包括那些編碼解碼器的舒緩噪聲產(chǎn)生(CNG)),目標(biāo)水平為0(G.718及CELT例外)。
在G.718中,單獨(dú)地執(zhí)行音高激發(fā)(表示音調(diào)分量)的衰落及隨機(jī)激發(fā)(表示類似噪聲的分量)的衰落。在音高增益因子衰落至零的同時(shí),創(chuàng)新增益因子衰落至CNG激發(fā)能量。
假設(shè)給出相對(duì)衰減因子,此基于公式(23)而導(dǎo)致以下絕對(duì)衰減因子:
g(n)=αrel(n)·g(n-1)+(1-αrel(n))·gn (25)
其中g(shù)n為在舒緩噪聲產(chǎn)生的過(guò)程中使用的激發(fā)的增益。當(dāng)gn=0時(shí),此公式對(duì)應(yīng)于公式(23)。
G.718在DTX/CNG的狀況下不執(zhí)行衰落。
在CELT中,不存在朝向目標(biāo)水平的衰落,但在歷時(shí)5個(gè)幀的音調(diào)隱藏(包括衰落)之后,水平在第6個(gè)連續(xù)丟失幀處即刻切換至目標(biāo)水平。使用公式(19)逐頻帶地得到水平。
關(guān)于衰落的目標(biāo)頻譜形狀,所有所分析的純粹基于變換的編碼解碼器(AAC、G.719、G.722、G.722.1)以及SBR僅僅在衰落的過(guò)程中延長(zhǎng)最后良好幀的頻譜形狀。
各種語(yǔ)音編碼解碼器使用LPC合成將頻譜形狀衰落至均值。均值可能為靜態(tài)(AMR)或適應(yīng)性的(AMR-WB、AMR-WB+、G.718),而適應(yīng)性均值系自靜態(tài)均值及短期均值得到(通過(guò)求最后n個(gè)LP系數(shù)集合的平均值來(lái)得到)(LP=線性預(yù)測(cè))。
所論述的編碼解碼器AMR、AMR-WB、AMR-WB+、G.718中的所有CNG模塊皆在衰落的過(guò)程中延長(zhǎng)最后良好幀的頻譜形狀。
關(guān)于背景噪聲水平追蹤,自文獻(xiàn)中已知五個(gè)不同方法:
-基于語(yǔ)音活動(dòng)檢測(cè)器:基于SNR/VAD,但極難以調(diào)諧,且難以用于低SNR語(yǔ)音。
-軟決策方案:軟決策方法考慮到語(yǔ)音存在的機(jī)率[SS98][MPC89][HE95]。
-最小值統(tǒng)計(jì):跟蹤PSD的最小值,在緩沖器中隨時(shí)間的流逝保持一定量的值,因此使得能夠從過(guò)去樣本中找到最小噪聲[Mar01][HHJ10][EH08][Yu09]。
-卡爾曼濾波:算法使用隨時(shí)間的流逝觀測(cè)到的含有噪聲(隨機(jī)變化)的一系列量測(cè),且產(chǎn)生傾向于比單獨(dú)基于單一量測(cè)的估計(jì)更精確的噪聲PSD的估計(jì)??柭鼮V波器對(duì)有噪聲輸入數(shù)據(jù)的串流進(jìn)行遞歸操作,以產(chǎn)生系統(tǒng)狀態(tài)的統(tǒng)計(jì)學(xué)上的最佳估計(jì)[Gan05][BJH06]。
-子空間分解:此方法試圖利用例如KLT(卡忽南-拉維(Karhunen-Loève)變換,其亦稱為主分量分析)及/或DFT(離散時(shí)間傅立葉變換)將類似噪聲的信號(hào)分解成干凈的語(yǔ)音信號(hào)及噪聲部分。接著可使用任意平滑算法追蹤本征向量/本征值[BP06][HJH08]。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供用于音頻編碼系統(tǒng)的改良概念。。
提供用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置。裝置包括用于接收多個(gè)幀的接收接口、用于儲(chǔ)存解碼音頻信號(hào)的音頻信號(hào)樣本的延遲緩沖器、用于自儲(chǔ)存于延遲緩沖器中的音頻信號(hào)樣本選擇多個(gè)選定音頻信號(hào)樣本的樣本選擇器,及用于處理選定音頻信號(hào)樣本以獲得重建音頻信號(hào)的重建音頻信號(hào)樣本的樣本處理器。樣本選擇器用于在當(dāng)前幀由接收接口接收的情況下及在由接收接口接收的當(dāng)前幀未被損毀的情況下,根據(jù)由當(dāng)前幀所包含的音高滯后信息自儲(chǔ)存于延遲緩沖器中的音頻信號(hào)樣本選擇多個(gè)選定音頻信號(hào)樣本。此外,樣本選擇器用于在當(dāng)前幀不由接收接口接收的情況下或在由接收接口接收的當(dāng)前幀被損毀的情況下,根據(jù)先前由接收接口所接收的另一幀所包含的音高滯后信息自儲(chǔ)存于延遲緩沖器中的音頻信號(hào)樣本選擇多個(gè)選定音頻信號(hào)樣本。
根據(jù)實(shí)施例,樣本處理器可例如用于在當(dāng)前幀由接收接口接收的情況下及在由接收接口接收的當(dāng)前幀未被損毀的情況下,通過(guò)根據(jù)由當(dāng)前幀所包含的增益信息重新按比例調(diào)整選定音頻信號(hào)樣本而獲得重建音頻信號(hào)樣本。此外,樣本處理器可例如用于在當(dāng)前幀不由接收接口接收的情況下或在由接收接口接收的當(dāng)前幀被損毀的情況下,通過(guò)根據(jù)先前由接收接口所接收的該另一幀所包含的增益信息重新按比例調(diào)整選定音頻信號(hào)樣本而獲得重建音頻信號(hào)樣本。
在實(shí)施例中,樣本處理器可例如用于在當(dāng)前幀由接收接口接收的情況下及在由接收接口接收的當(dāng)前幀未被損毀的情況下,通過(guò)將選定音頻信號(hào)樣本與取決于由當(dāng)前幀所包含的增益信息的值相乘而獲得重建音頻信號(hào)樣本。此外,樣本處理器用于在當(dāng)前幀不由接收接口接收的情況下或在由接收接口接收的當(dāng)前幀被損毀的情況下,通過(guò)將選定音頻信號(hào)樣本與取決于先前由接收接口所接收的該另一幀所包含的增益信息的值相乘而獲得重建音頻信號(hào)樣本。
根據(jù)實(shí)施例,樣本處理器可例如用于將重建音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器中。
在實(shí)施例中,樣本處理器可例如用于在由接收接口接收另一幀之前將重建音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器中。
根據(jù)實(shí)施例,樣本處理器可例如用于在由接收接口接收另一幀之后將重建音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器中。
在實(shí)施例中,樣本處理器可例如用于根據(jù)增益信息重新按比例調(diào)整選定音頻信號(hào)樣本以獲得重新按比例調(diào)整的音頻信號(hào)樣本及通過(guò)組合重新按比例調(diào)整的音頻信號(hào)樣本與輸入音頻信號(hào)樣本以獲得處理音頻信號(hào)樣本。
根據(jù)實(shí)施例,樣本處理器可例如用于在當(dāng)前幀由接收接口接收的情況下及在由接收接口接收的當(dāng)前幀未被損毀的情況下,將指示重新按比例調(diào)整的音頻信號(hào)樣本與輸入音頻信號(hào)樣本的組合的處理音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器中,且不將重新按比例調(diào)整的音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器中。此外,樣本處理器用于在當(dāng)前幀不由接收接口接收的情況下或在由接收接口接收的當(dāng)前幀被損毀的情況下,將重新按比例調(diào)整的音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器中且不將處理音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器中。
根據(jù)另一實(shí)施例,樣本處理器可例如用于在當(dāng)前幀不由接收接口接收的情況下或在由接收接口接收的當(dāng)前幀被損毀的情況下,將處理音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器中。
在實(shí)施例中,樣本處理器可例如用于通過(guò)根據(jù)修改的增益重新按比例調(diào)整選定音頻信號(hào)樣本而獲得重建音頻信號(hào)樣本,其中修改的增益系根據(jù)如下公式來(lái)定義的:
gain=gain_past*damping;
其中g(shù)ain為修改的增益,gain_past為在先前幀中應(yīng)用的增益,其中樣本處理器可例如用于在gain已被計(jì)算之后將gain_past設(shè)定為gain,且其中damping為實(shí)值。
根據(jù)實(shí)施例,樣本處理器可例如用于計(jì)算修改的增益。
在實(shí)施例中,damping可例如根據(jù)下式來(lái)定義:0≤damping≤1。
根據(jù)實(shí)施例,在自最后一次幀由接收接口接收以來(lái)至少預(yù)定義數(shù)目的幀尚未由接收接口接收的情況下,修改的增益gain可例如被設(shè)定為零。
此外,提供用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的方法。該方法包括:
-接收多個(gè)幀。
-儲(chǔ)存解碼音頻信號(hào)的音頻信號(hào)樣本。
-自儲(chǔ)存于延遲緩沖器中的音頻信號(hào)樣本選擇多個(gè)選定音頻信號(hào)樣本。及:
-處理選定音頻信號(hào)樣本以獲得重建音頻信號(hào)的重建音頻信號(hào)樣本。
在當(dāng)前幀被接收的情況下及在所接收的當(dāng)前幀未被損毀的情況下,根據(jù)由當(dāng)前幀所包含的音高滯后信息而進(jìn)行自儲(chǔ)存于延遲緩沖器中的音頻信號(hào)樣本選擇多個(gè)選定音頻信號(hào)樣本的步驟。此外,在當(dāng)前幀未被接收的情況下或在所接收的當(dāng)前幀被損毀的情況下,根據(jù)先前由接收接口所接收的另一幀所包含的音高滯后信息而進(jìn)行自儲(chǔ)存于延遲緩沖器中的音頻信號(hào)樣本選擇多個(gè)選定音頻信號(hào)樣本的步驟。
此外,提供用于在執(zhí)行于計(jì)算機(jī)或信號(hào)處理器上時(shí)實(shí)施上文所描述的方法的計(jì)算機(jī)程序。
實(shí)施例使用TCX LTP(TXC LTP=經(jīng)變換編碼激發(fā)長(zhǎng)期預(yù)測(cè))。在正常操作的過(guò)程中,用合成的信號(hào)更新TCX LTP內(nèi)存,該合成的信號(hào)含有噪聲及重建音調(diào)分量。
代替在隱藏的過(guò)程中停用TCX LTP,可在隱藏的過(guò)程中以在最后良好幀中接收的參數(shù)繼續(xù)其正常操作。此保留信號(hào)的頻譜形狀,特別地,由LTP濾波器模型化的那些音調(diào)分量。
此外,實(shí)施例解耦TCX LTP反饋回路。正常TCX LTP操作的簡(jiǎn)單繼續(xù)會(huì)引入額外噪聲,因?yàn)殡S著每一更新步驟都會(huì)引入來(lái)自LTP激發(fā)的其他隨機(jī)產(chǎn)生的噪聲。音調(diào)分量因此隨時(shí)間的流逝因添加的噪聲而愈來(lái)愈失真。
為了克服此情形,可僅反饋更新的TCX LTP緩沖器(在不添加噪聲的情況下),以便不會(huì)以不合需要的隨機(jī)噪聲污染音調(diào)信息。
此外,根據(jù)實(shí)施例,將TCX LTP增益衰落至零。
這些實(shí)施例是基于如下發(fā)現(xiàn):繼續(xù)TCX LTP有助于短期地保留信號(hào)特性,但就長(zhǎng)期而言具有以下缺點(diǎn):在隱藏的過(guò)程中播出的信號(hào)將包括在丟失之前存在的發(fā)聲/音調(diào)信息。尤其對(duì)于干凈的語(yǔ)音或有背景噪聲的語(yǔ)音,音調(diào)或諧波極不可能在極長(zhǎng)的時(shí)間內(nèi)極慢地衰減。通過(guò)在隱藏的過(guò)程中繼續(xù)TCX LTP操作,特別地在解耦LTP內(nèi)存更新(僅反饋音調(diào)分量而不反饋符號(hào)加擾部分)的情況下,發(fā)聲/音調(diào)信息將在整個(gè)丟失之內(nèi)保持存在于隱藏的信號(hào)中,僅通過(guò)整體衰落至舒緩噪聲水平而衰減。此外,在突發(fā)丟失的過(guò)程中應(yīng)用TCX LTP而不隨時(shí)間的流逝衰減的情況下,不可能在突發(fā)封包丟失的過(guò)程中達(dá)到舒緩噪聲包絡(luò),因?yàn)樾盘?hào)將接著總是并有LTP的發(fā)聲信息。
因此,使TCX LTP增益朝向零衰落,以使得由LTP表示的音調(diào)分量將衰落至零,同時(shí)信號(hào)衰落至背景信號(hào)水平及形狀,且使得衰落達(dá)到所要的頻譜背景包絡(luò)(舒緩噪聲)而不并有不合需要的音調(diào)分量。
在實(shí)施例中,對(duì)于LTP增益衰落使用與白噪聲衰落相同的衰落速度。
相比之下,在現(xiàn)有技術(shù)中,不存在在隱藏的過(guò)程中使用LTP的已知的變換編碼解碼器。對(duì)于MPEG-4LTP[ISO09],現(xiàn)有技術(shù)中并不存在隱藏方法。利用LTP的現(xiàn)有技術(shù)的另一基于MDCT的編碼解碼器為CELT,但此編碼解碼器針對(duì)前五個(gè)幀使用類似ACELP的隱藏,且針對(duì)所有后續(xù)幀產(chǎn)生背景噪聲,此舉并不利用LTP。不使用TCX LTP的現(xiàn)有技術(shù)的缺點(diǎn)為用LTP模型化的所有音調(diào)分量會(huì)突然消失。此外,在現(xiàn)有技術(shù)的基于ACELP的編碼解碼器中,在隱藏的過(guò)程中延長(zhǎng)LTP操作,且使適應(yīng)性碼簿的增益朝向零衰落。關(guān)于反饋回路操作,現(xiàn)有技術(shù)使用兩個(gè)方法:反饋整個(gè)激發(fā),例如創(chuàng)新及適應(yīng)性激發(fā)的總和(AMR-WB);抑或僅反饋經(jīng)更新的適應(yīng)性激發(fā),例如音調(diào)信號(hào)部分(G.718)。上文所提及的實(shí)施例克服現(xiàn)有技術(shù)的缺點(diǎn)。
此外,提供用于解碼音頻信號(hào)的裝置。
裝置包含接收接口。接收接口用于接收多個(gè)幀,其中該接收接口用于接收多個(gè)幀中的第一幀,該第一幀包含音頻信號(hào)的第一音頻信號(hào)部分,該第一音頻信號(hào)部分被表示于第一域中,且其中接收接口用于接收多個(gè)幀中的第二幀,該第二幀包含音頻信號(hào)的第二音頻信號(hào)部分。
此外,裝置包含變換單元,該變換單元用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值或信號(hào)自第二域變換至追蹤域,以獲得第二信號(hào)部分信息,其中第二域不同于第一域,其中追蹤域不同于第二域,且其中追蹤域等于或不同于第一域。
此外,裝置包含噪聲水平追蹤單元,其中噪聲水平追蹤單元用于接收在追蹤域中表示的第一信號(hào)部分信息,其中第一信號(hào)部分信息取決于第一音頻信號(hào)部分。噪聲水平追蹤單元用于接收在追蹤域中表示的第二信號(hào)部分,且其中噪聲水平追蹤單元用于取決于在追蹤域中表示的第一信號(hào)部分信息及取決于在追蹤域中表示的第二信號(hào)部分信息而判定噪聲水平信息。
此外,裝置包含重建單元,該重建單元用于在多個(gè)幀中的第三幀不由接收接口接收而是被損毀的情況下,取決于噪聲水平信息而重建音頻信號(hào)的第三音頻信號(hào)部分。
音頻信號(hào)可例如為語(yǔ)音信號(hào)或音樂(lè)信號(hào),或包含語(yǔ)音及音樂(lè)的信號(hào)等。
第一信號(hào)部分信息取決于第一音頻信號(hào)部分的陳述意味:第一信號(hào)部分信息為第一音頻信號(hào)部分或已取決于第一音頻信號(hào)部分而獲得/產(chǎn)生第一信號(hào)部分信息抑或第一信號(hào)部分信息以某一其他方式取決于第一音頻信號(hào)部分。舉例而言,第一音頻信號(hào)部分可能已自一個(gè)域變換至另一域以獲得第一信號(hào)部分信息。
同樣,第二信號(hào)部分信息取決于第二音頻信號(hào)部分的陳述意味:第二信號(hào)部分信息為第二音頻信號(hào)部分抑或已取決于第二音頻信號(hào)部分而獲得/產(chǎn)生第二信號(hào)部分信息抑或第二信號(hào)部分信息以某一其他方式取決于第二音頻信號(hào)部分。舉例而言,第二音頻信號(hào)部分可能已自一個(gè)域變換至另一域以獲得第二信號(hào)部分信息。
在實(shí)施例中,第一音頻信號(hào)部分可例如表示于作為第一域的時(shí)域中。此外,變換單元可例如用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值自為第二域的激發(fā)域變換至為追蹤域的時(shí)域。此外,噪聲水平追蹤單元可例如用于接收在作為追蹤域的時(shí)域中表示的第一信號(hào)部分信息。此外,噪聲水平追蹤單元可例如用于接收在作為追蹤域的時(shí)域中表示的第二信號(hào)部分。
根據(jù)實(shí)施例,第一音頻信號(hào)部分可例如表示于作為第一域的激發(fā)域中。此外,變換單元可例如用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值自為第二域的時(shí)域變換至為追蹤域的激發(fā)域。此外,噪聲水平追蹤單元可例如用于接收在作為追蹤域的激發(fā)域中表示的第一信號(hào)部分信息。此外,噪聲水平追蹤單元可例如用于接收在作為追蹤域的激發(fā)域中表示的第二信號(hào)部分。
在實(shí)施例中,第一音頻信號(hào)部分可例如表示于作為第一域的激發(fā)域中,其中噪聲水平追蹤單元可例如用于接收第一信號(hào)部分信息,其中該第一信號(hào)部分信息被表示于為追蹤域的FFT域中,且其中該第一信號(hào)部分信息取決于在激發(fā)域中表示的該第一音頻信號(hào)部分,其中變換單元可例如用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值自為第二域的時(shí)域變換至為追蹤域的FFT域,且其中噪聲水平追蹤單元可例如用于接收在FFT域中表示的第二音頻信號(hào)部分。
在實(shí)施例中,裝置可例如進(jìn)一步包含用于取決于第一音頻信號(hào)部分而判定第一聚合值的第一聚合單元。此外,裝置可例如進(jìn)一步包含用于取決于第二音頻信號(hào)部分而將第二聚合值判定為自第二音頻信號(hào)部分得到的值的第二聚合單元。此外,噪聲水平追蹤單元可例如用于接收第一聚合值作為在追蹤域中表示的第一信號(hào)部分信息,其中噪聲水平追蹤單元可例如用于接收第二聚合值作為在追蹤域中表示的第二信號(hào)部分信息,且其中噪聲水平追蹤單元可例如用于取決于在追蹤域中表示的第一聚合值及取決于在追蹤域中表示的第二聚合值而判定噪聲水平信息。
根據(jù)實(shí)施例,第一聚合單元可例如用于判定第一聚合值以使得第一聚合值指示第一音頻信號(hào)部分或自第一音頻信號(hào)部分得到的信號(hào)的均方根。此外,第二聚合單元可例如用于判定第二聚合值以使得第二聚合值指示第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的信號(hào)的均方根。
在實(shí)施例中,變換單元可例如用于通過(guò)對(duì)自第二音頻信號(hào)部分得到的值應(yīng)用增益值而將自第二音頻信號(hào)部分得到的值自第二域變換至追蹤域。
根據(jù)實(shí)施例,增益值可例如指示由線性預(yù)測(cè)編碼合成引入的增益,或增益值可例如指示由線性預(yù)測(cè)編碼合成及去加重引入的增益。
在實(shí)施例中,噪聲水平追蹤單元可例如用于通過(guò)應(yīng)用最小值統(tǒng)計(jì)方法判定噪聲水平信息。
根據(jù)實(shí)施例,噪聲水平追蹤單元可例如用于將舒緩噪聲水平判定為噪聲水平信息。重建單元可例如用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下或在該第三幀由接收接口接收但被損毀的情況下,取決于噪聲水平信息而重建第三音頻信號(hào)部分。
在實(shí)施例中,噪聲水平追蹤單元可例如用于將舒緩噪聲水平判定為自噪聲水平頻譜得到的噪聲水平信息,其中該噪聲水平頻譜是通過(guò)應(yīng)用最小值統(tǒng)計(jì)方法而獲得。重建單元可例如用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下或在該第三幀由接收接口接收但被損毀的情況下,取決于多個(gè)線性預(yù)測(cè)系數(shù)而重建第三音頻信號(hào)部分。
根據(jù)另一實(shí)施例,噪聲水平追蹤單元可例如用于將指示舒緩噪聲水平的多個(gè)線性預(yù)測(cè)系數(shù)判定作為噪聲水平信息,且重建單元可例如用于取決于多個(gè)線性預(yù)測(cè)系數(shù)而重建第三音頻信號(hào)部分。
在實(shí)施例中,噪聲水平追蹤單元用于將指示舒緩噪聲水平的多個(gè)FFT系數(shù)判定作為噪聲水平信息,且第一重建單元用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下或在該第三幀由接收接口接收但被損毀的情況下,取決于自這些FFT系數(shù)得到的舒緩噪聲水平而重建第三音頻信號(hào)部分。
在實(shí)施例中,重建單元可例如用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下或在該第三幀由接收接口接收但被損毀的情況下,取決于噪聲水平信息及取決于第一音頻信號(hào)部分而重建第三音頻信號(hào)部分。
根據(jù)實(shí)施例,重建單元可例如用于通過(guò)減小或放大自第一或第二音頻信號(hào)部分得到的信號(hào)來(lái)重建第三音頻信號(hào)部分。
在實(shí)施例中,裝置可例如進(jìn)一步包含長(zhǎng)期預(yù)測(cè)單元,該長(zhǎng)期預(yù)測(cè)單元包含延遲緩沖器。此外,長(zhǎng)期預(yù)測(cè)單元可例如用于取決于第一或第二音頻信號(hào)部分、取決于儲(chǔ)存于延遲緩沖器中的延遲緩沖器輸入及取決于長(zhǎng)期預(yù)測(cè)增益而產(chǎn)生被處理信號(hào)。此外,長(zhǎng)期預(yù)測(cè)單元可例如用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下或在該第三幀由接收接口接收但被損毀的情況下,使長(zhǎng)期預(yù)測(cè)增益朝向零衰落。
根據(jù)實(shí)施例,長(zhǎng)期預(yù)測(cè)單元可例如用于使長(zhǎng)期預(yù)測(cè)增益朝向零衰落,其中長(zhǎng)期預(yù)測(cè)增益衰落至零的速度取決于衰落因子。
在實(shí)施例中,長(zhǎng)期預(yù)測(cè)單元可例如用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下或在該第三幀由接收接口接收但被損毀的情況下,通過(guò)將產(chǎn)生的被處理信號(hào)儲(chǔ)存于延遲緩沖器中來(lái)更新延遲緩沖器輸入。
根據(jù)實(shí)施例,變換單元可例如為第一變換單元,及重建單元為第一重建單元。裝置進(jìn)一步包含第二變換單元及第二重建單元。第二變換單元可例如用于在多個(gè)幀中的第四幀不由接收接口接收的情況下或在該第四幀由接收接口接收但被損毀的情況下,將噪聲水平信息自追蹤域變換至第二域。此外,第二重建單元可例如用于在多個(gè)幀中的該第四幀不由接收接口接收的情況下或在該第四幀由接收接口接收但被損毀的情況下,取決于在第二域中表示的噪聲水平信息而重建音頻信號(hào)的第四音頻信號(hào)部分。
在實(shí)施例中,第二重建單元可例如用于取決于噪聲水平信息及取決于第二音頻信號(hào)部分重建第四音頻信號(hào)部分。
根據(jù)實(shí)施例,重建單元可例如用于通過(guò)減小或放大自第一或第二音頻信號(hào)部分得到的信號(hào)來(lái)重建第四音頻信號(hào)部分。
此外,提供用于解碼音頻信號(hào)的方法。
該方法包括:
-接收多個(gè)幀中的第一幀,該第一幀包含音頻信號(hào)的第一音頻信號(hào)部分,該第一音頻信號(hào)部分被表示于第一域中。
-接收多個(gè)幀中的第二幀,該第二幀包含音頻信號(hào)的第二音頻信號(hào)部分。
-將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值或信號(hào)自第二域變換至追蹤域以獲得第二信號(hào)部分信息,其中第二域不同于第一域,其中追蹤域不同于第二域,且其中追蹤域等于或不同于第一域。
-取決于在追蹤域中表示的第一信號(hào)部分信息及取決于在追蹤域中表示的第二信號(hào)部分信息而判定噪聲水平信息,其中第一信號(hào)部分信息取決于第一音頻信號(hào)部分。及:
-在多個(gè)幀中的第三幀不被接收的情況下或在該第三幀被接收但被損毀的情況下,取決于在追蹤域中表示的噪聲水平信息而重建音頻信號(hào)的第三音頻信號(hào)部分。
此外,提供用于在執(zhí)行于計(jì)算機(jī)或信號(hào)處理器上時(shí)實(shí)施上文所描述的方法的計(jì)算機(jī)程序。
本發(fā)明的實(shí)施例中的一些提供時(shí)間變化平滑參數(shù),以使得經(jīng)平滑化周期圖的跟蹤能力及其方差受到較好地平衡,以開(kāi)發(fā)用于偏差補(bǔ)償?shù)乃惴按篌w上加速噪聲跟蹤。
本發(fā)明的實(shí)施例是基于如下發(fā)現(xiàn),關(guān)于衰落,關(guān)注以下參數(shù):衰落域;衰落速度,或更一般地,衰落曲線;衰落的目標(biāo)水平;衰落的目標(biāo)頻譜形狀;及/或背景噪聲水平追蹤。在此上下文中,實(shí)施例是基于現(xiàn)有技術(shù)具有顯著缺點(diǎn)的發(fā)現(xiàn)。
提供針對(duì)切換式音頻編碼系統(tǒng)的在錯(cuò)誤隱藏過(guò)程中的改良信號(hào)衰落的裝置及方法。
此外,提供用于在執(zhí)行于計(jì)算機(jī)或信號(hào)處理器上時(shí)實(shí)施上文所描述的方法的計(jì)算機(jī)程序。
實(shí)施例實(shí)現(xiàn)衰落至舒緩噪聲水平。根據(jù)實(shí)施例,實(shí)現(xiàn)在激發(fā)域中的共同舒緩噪聲水平追蹤。不管所使用的核心編碼器(ACELP/TCX)如何,在突發(fā)封包丟失的過(guò)程中被設(shè)定為目標(biāo)的舒緩噪聲水平將是相同的,且該舒緩噪聲水平將總是最新的。共同噪聲水平追蹤是必要的,還不存在該現(xiàn)有技術(shù)。實(shí)施例提供切換式編碼解碼器在突發(fā)封包丟失的過(guò)程中至類似舒緩噪聲的信號(hào)的衰落。
此外,實(shí)施例實(shí)現(xiàn)了總復(fù)雜性與具有兩個(gè)獨(dú)立噪聲水平追蹤模塊的情況相比將較低,因?yàn)榭晒蚕砉δ?PROM)及內(nèi)存。
在實(shí)施例中,在語(yǔ)音起作用的過(guò)程中,激發(fā)域中的水平得到(與時(shí)域中的水平得到相比較)提供更多的最小值,因?yàn)檎Z(yǔ)音信息的部分由LP系數(shù)涵蓋。
在ACELP的狀況下,根據(jù)實(shí)施例,水平得到發(fā)生于激發(fā)域中。在TCX的狀況下,在實(shí)施例中,在時(shí)域中得到水平,且作為校正因子應(yīng)用LPC合成及去加重的增益,以便模型化激發(fā)域中的能量水平。追蹤激發(fā)域中的水平(例如在FDNS之前)理論上亦將為可能的,但TCX激發(fā)域與ACELP激發(fā)域之間的水平補(bǔ)償被認(rèn)為是相當(dāng)復(fù)雜的。
現(xiàn)有技術(shù)并未并有在不同域中的這種共同背景水平追蹤。現(xiàn)有技術(shù)并不具有在切換式編碼解碼器系統(tǒng)中的例如在激發(fā)域中的這種共同舒緩噪聲水平追蹤。因此,實(shí)施例相比于現(xiàn)有技術(shù)是有利的,因?yàn)閷?duì)于現(xiàn)有技術(shù),在突發(fā)封包丟失的過(guò)程中被設(shè)定為目標(biāo)的舒緩噪聲水平可取決于水平受到追蹤的先前編碼模式(ACELP/TCX)而不同;因?yàn)樵诂F(xiàn)有技術(shù)中,針對(duì)每一編碼模式為單獨(dú)的追蹤將導(dǎo)致不必要的附加項(xiàng)及額外計(jì)算復(fù)雜性;及因?yàn)樵诂F(xiàn)有技術(shù)中,最新舒緩噪聲水平在任一核心中歸因于最近切換至此核心可能并不可用。
根據(jù)一些實(shí)施例,在激發(fā)域中進(jìn)行水平追蹤,但在時(shí)域中進(jìn)行TCX衰落。通過(guò)時(shí)域中的衰落,避免TDAC的失效,這些失效將導(dǎo)致頻迭。當(dāng)隱藏音調(diào)信號(hào)分量時(shí),此情形變得備受關(guān)注。此外,避免ACELP激發(fā)域與MDCT頻譜域之間的水平轉(zhuǎn)換,且因此例如節(jié)省了計(jì)算資源。由于激發(fā)域與時(shí)域之間的切換,在激發(fā)域與時(shí)域之間需要水平調(diào)整。通過(guò)得到將由LPC合成及預(yù)強(qiáng)調(diào)引入的增益及使用此增益作為校正因子來(lái)使水平在兩個(gè)域之間轉(zhuǎn)換來(lái)解決此情形。
相比之下,現(xiàn)有技術(shù)并不進(jìn)行在激發(fā)域中的水平追蹤及在時(shí)域中的TCX衰落。關(guān)于目前先進(jìn)技術(shù)的基于變換的編碼解碼器,在激發(fā)域(針對(duì)時(shí)域/類似ACELP隱藏方法,參見(jiàn)[3GP09a])中抑或在頻域(針對(duì)如幀重復(fù)或噪聲替換的頻域方法,參見(jiàn)[LS01])中應(yīng)用衰減因子。在頻域中應(yīng)用衰減因子的現(xiàn)有技術(shù)的方法的缺點(diǎn)為在時(shí)域中的重迭相加區(qū)中將導(dǎo)致頻迭。對(duì)于被應(yīng)用不同衰減因子的鄰近幀將出現(xiàn)此狀況,因?yàn)樗ヂ涑绦蚴筎DAC(時(shí)域頻迭消除)失效。此在隱藏音調(diào)信號(hào)分量時(shí)尤其相關(guān)。上文所提及的實(shí)施例因此相比于現(xiàn)有技術(shù)是有利的。
實(shí)施例補(bǔ)償高通濾波器對(duì)LPC合成增益的影響。根據(jù)實(shí)施例,為了補(bǔ)償由經(jīng)高通濾波無(wú)聲激發(fā)引起的LPC分析及強(qiáng)調(diào)的非吾人所樂(lè)見(jiàn)的增益改變,得到校正因子。此校正因子考慮此非吾人所樂(lè)見(jiàn)的增益改變,且修改激發(fā)域中的目標(biāo)舒緩噪聲水平以使得在時(shí)域中達(dá)到正確目標(biāo)水平。
相比之下,若未將最后良好幀的信號(hào)分類為無(wú)聲,則例如G.718[ITU08a]的現(xiàn)有技術(shù)將高通濾波器引入至無(wú)聲激發(fā)的信號(hào)路徑中,如圖2中所描繪。由此,現(xiàn)有技術(shù)導(dǎo)致非吾人所樂(lè)見(jiàn)的副效應(yīng),因?yàn)楹罄m(xù)LPC合成的增益取決于由該高通濾波器更改的信號(hào)特性。因?yàn)樵诩ぐl(fā)域中追蹤及應(yīng)用背景水平,所以算法依賴于LPC合成增益,LPC合成增益又再次取決于激發(fā)信號(hào)的特性。換言之,如由現(xiàn)有技術(shù)所進(jìn)行的,歸因于高通濾波的激發(fā)的信號(hào)特性的修改可產(chǎn)生LPC合成的修改(通常減少的)增益。此情形導(dǎo)致錯(cuò)誤的輸出水平,即使激發(fā)水平是正確的。
實(shí)施例克服現(xiàn)有技術(shù)的這些缺點(diǎn)。
特別地,實(shí)施例實(shí)現(xiàn)舒緩噪聲的適應(yīng)性頻譜形狀。與G.718相對(duì)比,通過(guò)追蹤背景噪聲的頻譜形狀及通過(guò)在突發(fā)封包丟失的過(guò)程中應(yīng)用(衰落至)此形狀,先前背景噪聲的噪聲特性將為匹配的,導(dǎo)致舒緩噪聲的合意的噪聲特性。此情形避免可通過(guò)使用頻譜包絡(luò)引入的頻譜形狀的突兀的錯(cuò)配,該頻譜包絡(luò)是由脫機(jī)訓(xùn)練及/或最后接收的幀的頻譜形狀得到。
此外,提供用于解碼音頻信號(hào)的裝置。裝置包含接收接口,其中接收接口用于接收包含音頻信號(hào)的第一音頻信號(hào)部分的第一幀,且其中接收接口用于接收包含音頻信號(hào)的第二音頻信號(hào)部分的第二幀。
此外,裝置包含噪聲水平追蹤單元,其中噪聲水平追蹤單元用于取決于第一音頻信號(hào)部分及第二音頻信號(hào)部分中的至少一個(gè)(此意味:取決于第一音頻信號(hào)部分及/或第二音頻信號(hào)部分)判定噪聲水平信息,其中噪聲水平信息被表示于追蹤域中。
此外,裝置包含第一重建單元,該第一重建單元用于在多個(gè)幀中的第三幀不由接收接口接收的情況下,或在該第三幀由接收接口接收但被損毀的情況下,取決于噪聲水平信息而在第一重建域中重建音頻信號(hào)的第三音頻信號(hào)部分,其中第一重建域不同于或等于追蹤域。
此外,裝置包含變換單元,該變換單元用于在多個(gè)幀中的第四幀不由接收接口接收的情況下,或在該第四幀由接收接口接收但被損毀的情況下,將噪聲水平信息自追蹤域變換至第二重建域,其中第二重建域不同于追蹤域,且其中第二重建域不同于第一重建域,及
此外,裝置包含第二重建單元,該第二重建單元用于在多個(gè)幀中的該第四幀不由接收接口接收的情況下,或在該第四幀由接收接口接收但被損毀的情況下,取決于在第二重建域中表示的噪聲水平信息而在第二重建域中重建音頻信號(hào)的第四音頻信號(hào)部分。
根據(jù)一些實(shí)施例,追蹤域可例如其中追蹤域?yàn)闀r(shí)域、頻譜域、FFT域、MDCT域或激發(fā)域。第一重建域可例如為時(shí)域、頻譜域、FFT域、MDCT域或激發(fā)域。第二重建域可例如為時(shí)域、頻譜域、FFT域、MDCT域或激發(fā)域。
在實(shí)施例中,追蹤域可例如為FFT域,第一重建域可例如為時(shí)域,及第二重建域可例如為激發(fā)域。
在另一實(shí)施例中,追蹤域可例如為時(shí)域,第一重建域可例如為時(shí)域,及第二重建域可例如為激發(fā)域。
根據(jù)實(shí)施例,該第一音頻信號(hào)部分可例如被表示于第一輸入域中,及該第二音頻信號(hào)部分可例如被表示于第二輸入域中。變換單元可例如為第二變換單元。裝置可例如進(jìn)一步包含用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值或信號(hào)自第二輸入域變換至追蹤域以獲得第二信號(hào)部分信息的第一變換單元。噪聲水平追蹤單元可例如用于接收在追蹤域中表示的第一信號(hào)部分信息,其中第一信號(hào)部分信息取決于第一音頻信號(hào)部分,其中噪聲水平追蹤單元用于接收在追蹤域中表示的第二信號(hào)部分,且其中噪聲水平追蹤單元用于取決于在追蹤域中表示的第一信號(hào)部分信息及取決于在追蹤域中表示的第二信號(hào)部分信息判定噪聲水平信息。
根據(jù)實(shí)施例,第一輸入域可例如為激發(fā)域,及第二輸入域可例如為MDCT域。
在另一實(shí)施例中,第一輸入域可例如為MDCT域,且其中第二輸入域可例如為MDCT域。
根據(jù)實(shí)施例,第一重建單元可例如用于通過(guò)進(jìn)行至類似噪聲的頻譜的第一衰落而重建第三音頻信號(hào)部分。第二重建單元可例如用于通過(guò)進(jìn)行至類似噪聲的頻譜的第二衰落及/或LTP增益的第二衰落來(lái)重建第四音頻信號(hào)部分。此外,第一重建單元及第二重建單元可例如用于在相同衰落速度的情況下進(jìn)行至類似噪聲的頻譜的第一衰落及第二衰落及/或LTP增益的第二衰落。
在實(shí)施例中,裝置可例如進(jìn)一步包含用于取決于第一音頻信號(hào)部分而判定第一聚合值的第一聚合單元。此外,裝置可例如進(jìn)一步包含用于取決于第二音頻信號(hào)部分而將第二聚合值判定為自第二音頻信號(hào)部分得到的值的第二聚合單元。噪聲水平追蹤單元可例如用于接收第一聚合值作為在追蹤域中表示的第一信號(hào)部分信息,其中噪聲水平追蹤單元可例如用于接收第二聚合值作為在追蹤域中表示的第二信號(hào)部分信息,且其中噪聲水平追蹤單元用于取決于在追蹤域中表示的第一聚合值及取決于在追蹤域中表示的第二聚合值而判定噪聲水平信息。
根據(jù)實(shí)施例,第一聚合單元可例如用于判定第一聚合值以使得第一聚合值指示第一音頻信號(hào)部分或自第一音頻信號(hào)部分得到的信號(hào)的均方根。第二聚合單元用于判定第二聚合值以使得第二聚合值指示第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的信號(hào)的均方根。
在實(shí)施例中,第一變換單元可例如用于通過(guò)對(duì)自第二音頻信號(hào)部分得到的值應(yīng)用增益值,而將自第二音頻信號(hào)部分得到的值自第二輸入域變換至追蹤域。
根據(jù)實(shí)施例,增益值可例如指示由線性預(yù)測(cè)編碼合成引入的增益,或其中增益值指示由線性預(yù)測(cè)編碼合成及去加重引入的增益。
在實(shí)施例中,噪聲水平追蹤單元可例如用于通過(guò)應(yīng)用最小值統(tǒng)計(jì)方法判定噪聲水平信息。
根據(jù)實(shí)施例,噪聲水平追蹤單元可例如用于將舒緩噪聲水平判定為噪聲水平信息。重建單元可例如用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下,或在該第三幀由接收接口接收但被損毀的情況下,取決于噪聲水平信息而重建第三音頻信號(hào)部分。
在實(shí)施例中,噪聲水平追蹤單元可例如用于將舒緩噪聲水平判定為自噪聲水平頻譜得到的噪聲水平信息,其中該噪聲水平頻譜系通過(guò)應(yīng)用最小值統(tǒng)計(jì)方法而獲得。重建單元可例如用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下,或在該第三幀由接收接口接收但被損毀的情況下,取決于多個(gè)線性預(yù)測(cè)系數(shù)而重建第三音頻信號(hào)部分。
根據(jù)實(shí)施例,第一重建單元可例如用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下,或在該第三幀由接收接口接收但被損毀的情況下,取決于噪聲水平信息及取決于第一音頻信號(hào)部分而重建第三音頻信號(hào)部分。
在實(shí)施例中,第一重建單元可例如用于通過(guò)減小或放大第一音頻信號(hào)部分來(lái)重建第三音頻信號(hào)部分。
根據(jù)實(shí)施例,第二重建單元可例如用于取決于噪聲水平信息及取決于第二音頻信號(hào)部分重建第四音頻信號(hào)部分。
在實(shí)施例中,第二重建單元可例如用于通過(guò)減小或放大第二音頻信號(hào)部分來(lái)重建第四音頻信號(hào)部分。
根據(jù)實(shí)施例,裝置可例如進(jìn)一步包含長(zhǎng)期預(yù)測(cè)單元,該長(zhǎng)期預(yù)測(cè)單元包含延遲緩沖器,其中長(zhǎng)期預(yù)測(cè)單元可例如用于取決于第一音頻信號(hào)部分或第二音頻信號(hào)部分、取決于儲(chǔ)存于延遲緩沖器中的延遲緩沖器輸入及取決于長(zhǎng)期預(yù)測(cè)增益而產(chǎn)生處理信號(hào),且其中長(zhǎng)期預(yù)測(cè)單元用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下,或在該第三幀由接收接口接收但被損毀的情況下,使長(zhǎng)期預(yù)測(cè)增益朝向零衰落。
在實(shí)施例中,長(zhǎng)期預(yù)測(cè)單元可例如用于使長(zhǎng)期預(yù)測(cè)增益朝向零衰落,其中長(zhǎng)期預(yù)測(cè)增益衰落至零的速度取決于衰落因子。
在實(shí)施例中,長(zhǎng)期預(yù)測(cè)單元可例如用于在多個(gè)幀中的該第三幀不由接收接口接收的情況下,或在該第三幀由接收接口接收但被損毀的情況下,通過(guò)將產(chǎn)生的處理信號(hào)儲(chǔ)存于延遲緩沖器中來(lái)更新延遲緩沖器輸入。
此外,提供用于解碼音頻信號(hào)的方法。該方法包括:
-接收包含音頻信號(hào)的第一音頻信號(hào)部分的第一幀,及接收包含音頻信號(hào)的第二音頻信號(hào)部分的第二幀。
-取決于第一音頻信號(hào)部分及第二音頻信號(hào)部分中的至少一個(gè)判定噪聲水平信息,其中噪聲水平信息被表示于追蹤域中。
-在多個(gè)幀中的第三幀未被接收的情況下,或在該第三幀被接收但被損毀的情況下,取決于噪聲水平信息而在第一重建域中重建音頻信號(hào)的第三音頻信號(hào)部分,其中第一重建域不同于或等于追蹤域。
-在多個(gè)幀中的第四幀未被接收的情況下,或在該第四幀被接收但被損毀的情況下,將噪聲水平信息自追蹤域變換至第二重建域,其中第二重建域不同于追蹤域,且其中第二重建域不同于第一重建域。及:
-在多個(gè)幀中的該第四幀未被接收的情況下,或在該第四幀被接收但被損毀的情況下,取決于在第二重建域中表示的噪聲水平信息而在第二重建域中重建音頻信號(hào)的第四音頻信號(hào)部分。
此外,提供用于在執(zhí)行于計(jì)算機(jī)或信號(hào)處理器上時(shí)實(shí)施上文所描述的方法的計(jì)算機(jī)程序。
此外,提供用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置。裝置包括用于接收一個(gè)或多個(gè)幀的接收接口、系數(shù)產(chǎn)生器及信號(hào)重建器。系數(shù)產(chǎn)生器用于在一個(gè)或多個(gè)幀中的當(dāng)前幀由接收接口接收的情況下及在由接收接口接收的當(dāng)前幀未被損毀的情況下,判定由當(dāng)前幀包含的一個(gè)或多個(gè)第一音頻信號(hào)系數(shù),其中該一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)指示編碼音頻信號(hào)的特性,及判定指示編碼音頻信號(hào)的背景噪聲的一個(gè)或多個(gè)噪聲系數(shù)。此外,系數(shù)產(chǎn)生器用于在當(dāng)前幀不由接收接口接收的情況下或在由接收接口接收的當(dāng)前幀被損毀的情況下,取決于一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)及取決于一個(gè)或多個(gè)噪聲系數(shù)而產(chǎn)生一個(gè)或多個(gè)第二音頻信號(hào)系數(shù)。音頻信號(hào)重建器用于在當(dāng)前幀由接收接口接收的情況下及在由接收接口接收的當(dāng)前幀未被損毀的情況下取決于一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)而重建重建音頻信號(hào)的第一部分。此外,音頻信號(hào)重建器用于在當(dāng)前幀不由接收接口接收的情況下或在由接收接口接收的當(dāng)前幀被損毀的情況下,取決于一個(gè)或多個(gè)第二音頻信號(hào)系數(shù)而重建重建音頻信號(hào)的第二部分。
在一些實(shí)施例中,一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)可例如為編碼音頻信號(hào)的一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù)。在一些實(shí)施例中,一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)可例如為編碼音頻信號(hào)的一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù)。
根據(jù)實(shí)施例,一個(gè)或多個(gè)噪聲系數(shù)可例如為指示編碼音頻信號(hào)的背景噪聲的一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù)。在實(shí)施例中,一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù)可例如表示背景噪聲的頻譜形狀。
在實(shí)施例中,系數(shù)產(chǎn)生器可例如用于判定一個(gè)或多個(gè)第二音頻信號(hào)部分以使得一個(gè)或多個(gè)第二音頻信號(hào)部分為重建音頻信號(hào)的一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù),或使得一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)為重建音頻信號(hào)的一個(gè)或多個(gè)導(dǎo)抗頻譜對(duì)。
根據(jù)實(shí)施例,系數(shù)產(chǎn)生器可例如用于通過(guò)應(yīng)用如下公式而產(chǎn)生一個(gè)或多個(gè)第二音頻信號(hào)系數(shù):
fcurrent[i]=α·flast[i]+(1-α)·ptmean[i]
其中fcurrent[i]指示一個(gè)或多個(gè)第二音頻信號(hào)系數(shù)中的一個(gè),其中flast[i]指示一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)中的一個(gè),其中ptmean[i]為一個(gè)或多個(gè)噪聲系數(shù)中的一個(gè),其中α為實(shí)數(shù),其中0≤α≤1,且其中i為索引。在實(shí)施例中,0<α<1。
根據(jù)實(shí)施例,flast[i]指示編碼音頻信號(hào)的線性預(yù)測(cè)濾波器系數(shù),且其中fcurrent[i]指示重建音頻信號(hào)的線性預(yù)測(cè)濾波器系數(shù)。
在實(shí)施例中,ptmean[i]可例如指示編碼音頻信號(hào)的背景噪聲。
在實(shí)施例中,系數(shù)產(chǎn)生器可例如用于在一個(gè)或多個(gè)幀中的當(dāng)前幀由接收接口接收的情況下及在由接收接口接收的當(dāng)前幀未被損毀的情況下,通過(guò)判定編碼音頻信號(hào)的噪聲頻譜來(lái)判定一個(gè)或多個(gè)噪聲系數(shù)。
根據(jù)實(shí)施例,系數(shù)產(chǎn)生器可例如用于通過(guò)對(duì)信號(hào)頻譜使用最小值統(tǒng)計(jì)方法來(lái)判定背景噪聲頻譜及通過(guò)自背景噪聲頻譜計(jì)算表示背景噪聲形狀的LPC系數(shù)來(lái)判定表示背景噪聲的LPC系數(shù)。
此外,提供用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的方法。該方法包括:
-接收一個(gè)或多個(gè)幀。
-在一個(gè)或多個(gè)幀中的當(dāng)前幀被接收的情況下及在所接收的當(dāng)前幀未被損毀的情況下,判定由當(dāng)前幀所包含一個(gè)或多個(gè)第一音頻信號(hào)系數(shù),其中該一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)指示編碼音頻信號(hào)的特性,及判定指示編碼音頻信號(hào)的背景噪聲的一個(gè)或多個(gè)噪聲系數(shù)。
-在當(dāng)前幀未被接收的情況下或在所接收的當(dāng)前幀被損毀的情況下,取決于一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)及取決于一個(gè)或多個(gè)噪聲系數(shù)而產(chǎn)生一個(gè)或多個(gè)第二音頻信號(hào)系數(shù)。
-在當(dāng)前幀被接收的情況下及在所接收的當(dāng)前幀未被損毀的情況下,取決于一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)而重建重建音頻信號(hào)的第一部分。及:
-在當(dāng)前幀未被接收的情況下或在所接收的當(dāng)前幀被損毀的情況,取決于一個(gè)或多個(gè)第二音頻信號(hào)系數(shù)重建重建音頻信號(hào)的第二部分。
此外,提供用于在執(zhí)行于計(jì)算機(jī)或信號(hào)處理器上時(shí)實(shí)施上文所描述的方法的計(jì)算機(jī)程序。
具有在衰落的過(guò)程中追蹤及應(yīng)用舒緩噪聲的頻譜形狀的共同手段具有若干優(yōu)點(diǎn)。通過(guò)追蹤及應(yīng)用頻譜形狀以使得頻譜形狀對(duì)于兩個(gè)核心編碼解碼器而言可類似地實(shí)現(xiàn),允許了簡(jiǎn)單的共同方法。CELT僅教示頻譜域中的能量的逐頻帶追蹤及頻譜域中的頻譜形狀的逐頻帶形成,此對(duì)于CELP核心而言是不可能的。
相比之下,在現(xiàn)有技術(shù)中,在突發(fā)丟失的過(guò)程中引入的舒緩噪聲的頻譜形狀是完全靜態(tài)的抑或部分靜態(tài)的且部分適應(yīng)于頻譜形狀的短期均值(如G.718中所實(shí)現(xiàn)[ITU08a]),且通常將與在封包丟失之前在信號(hào)中的背景噪聲不匹配。舒緩噪聲特性的此錯(cuò)配可能造成麻煩。根據(jù)現(xiàn)有技術(shù),可使用經(jīng)脫機(jī)訓(xùn)練的(靜態(tài))背景噪聲形狀,其針對(duì)特定信號(hào)而言可聽(tīng)起來(lái)是合意的,但針對(duì)其他信號(hào)而言不太合意,例如,汽車噪聲聽(tīng)起來(lái)與辦公室噪聲完全不同。
此外,在現(xiàn)有技術(shù)中,可使用對(duì)先前接收的幀的頻譜形狀的短期均值的調(diào)適,其可能使信號(hào)特性更接近于之前接收的信號(hào),但不一定更接近于背景噪聲特性。在現(xiàn)有技術(shù)中,在頻譜域中逐頻帶地追蹤頻譜形狀(如CELT[IET12]中所實(shí)現(xiàn))并不適用于不僅使用基于MDCT域的核心(TCX)而且使用基于ACELP的核心的切換式編碼解碼器。上文所提及的實(shí)施例因此相比于現(xiàn)有技術(shù)是有利的。
此外,提供用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置。裝置包含用于接收包括關(guān)于編碼音頻信號(hào)的音頻信號(hào)頻譜的多個(gè)音頻信號(hào)樣本的信息的一個(gè)或多個(gè)幀的接收接口,及用于產(chǎn)生重建音頻信號(hào)的處理器。處理器用于,在當(dāng)前幀不由接收接口接收的情況下或在當(dāng)前幀由接收接口接收但被損毀的情況下,通過(guò)將修改的頻譜衰落至目標(biāo)頻譜來(lái)產(chǎn)生重建音頻信號(hào),其中修改的頻譜包含多個(gè)修改的信號(hào)樣本,其中對(duì)于修改的頻譜的每個(gè)修改的信號(hào)樣本,該修改的信號(hào)樣本的絕對(duì)值等于音頻信號(hào)頻譜的音頻信號(hào)樣本中一個(gè)的絕對(duì)值。此外,處理器用于,在一個(gè)或多個(gè)幀中的當(dāng)前幀由接收接口接收的情況下以及由接收接口接收的當(dāng)前幀未被損毀的情況下,不將修改的頻譜衰減至目標(biāo)頻譜。
根據(jù)實(shí)施例,目標(biāo)頻譜可例如為類似噪聲的頻譜。
在實(shí)施例中,類似噪聲的頻譜可例如表示白噪聲。
根據(jù)實(shí)施例,類似噪聲的頻譜可例如被成形。
在實(shí)施例中,類似噪聲的頻譜的形狀可例如取決于先前接收的信號(hào)的音頻信號(hào)頻譜。
根據(jù)實(shí)施例,類似噪聲的頻譜可例如取決于音頻信號(hào)頻譜的形狀而成形。
在實(shí)施例中,處理器可例如使用傾斜因子來(lái)使類似噪聲的頻譜成形。
根據(jù)實(shí)施例,處理器可例如使用如下公式:
shaped_noise[i]=noise*power(tilt_factor,i/N)
其中N指示樣本的數(shù)目,其中i為索引,其中0<=i<N,其中tilt_factor>0,且其中power為功率函數(shù)。
power(x,y)指示xy
若tilt_factor小于1,則此情形意味在i增加的情況下的衰減。若tilt_factor大于1,則意味在i增加的情況下的放大。
根據(jù)另一實(shí)施例,處理器可例如使用如下公式:
shaped_noise[i]=noise*(1+i/(N-1)*(tilt_factor-1))
其中N指示樣本的數(shù)目,其中i為索引,其中0<=i<N,其中tilt_factor>0。
若tilt_factor小于1,則此情形意味在i增加的情況下的衰減。若tilt_factor大于1,則意味在i增加的情況下的放大。
根據(jù)實(shí)施例,處理器可例如用于,在當(dāng)前幀不由接收接口接收的情況下或在由接收接口接收的當(dāng)前幀被損毀的情況下,通過(guò)改變音頻信號(hào)頻譜的音頻信號(hào)樣本中的一個(gè)或多個(gè)的符號(hào)來(lái)產(chǎn)生修改的頻譜。
在實(shí)施例中,音頻信號(hào)頻譜的音頻信號(hào)樣本中的每一個(gè)可例如由實(shí)數(shù)表示,但不由虛數(shù)表示。
根據(jù)實(shí)施例,音頻信號(hào)頻譜的音頻信號(hào)樣本可例如被表示在修改離散余弦變換域中。
在另一實(shí)施例中,音頻信號(hào)頻譜的音頻信號(hào)樣本可例如被表示在修改離散正弦變換域中。
根據(jù)實(shí)施例,處理器可例如用于通過(guò)使用隨機(jī)或偽隨機(jī)輸出第一值抑或第二值的隨機(jī)符號(hào)函數(shù)產(chǎn)生修改的頻譜。
在實(shí)施例中,處理器可例如用于通過(guò)隨后減小衰減因子而將修改的頻譜衰落至目標(biāo)頻譜。
根據(jù)實(shí)施例,處理器可例如用于通過(guò)隨后增加衰減因子而將修改的頻譜衰落至目標(biāo)頻譜。
在實(shí)施例中,在當(dāng)前幀不由接收接口接收的情況下或在由接收接口接收的當(dāng)前幀被損毀的情況下,處理器可例如用于通過(guò)使用如下公式產(chǎn)生重建音頻信號(hào):
x[i]=(1-cum_damping)*noise[i]+cum_damping*random_sign()*x_old[i]其中i為索引,其中x[i]指示重建音頻信號(hào)的樣本,其中cum_damping為衰減因子,其中x_old[i]指示編碼音頻信號(hào)的音頻信號(hào)頻譜的音頻信號(hào)樣本中的一個(gè),其中random_sign()返回1或-1,且其中noise為指示目標(biāo)頻譜的隨機(jī)向量。
在實(shí)施例中,該隨機(jī)向量noise可例如被按比例調(diào)整以使得其二次均值類似于由接收接口最后所接收的幀中的一個(gè)幀所包含的編碼音頻信號(hào)的頻譜的二次均值。
根據(jù)一般實(shí)施例,處理器可例如用于通過(guò)使用隨機(jī)向量產(chǎn)生重建音頻信號(hào),按比例調(diào)整該隨機(jī)向量以使得其二次均值類似于由接收接口最后所接收的幀中的一個(gè)幀所包含的編碼音頻信號(hào)的頻譜的二次均值。
此外,提供用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的方法。該方法包括:
-接收包括關(guān)于編碼音頻信號(hào)的音頻信號(hào)頻譜的多個(gè)音頻信號(hào)樣本的信息的一個(gè)或多個(gè)幀。及:
-產(chǎn)生重建音頻信號(hào)。
在當(dāng)前幀未被接收的情況下或在當(dāng)前幀被接收但被損毀的情況下,通過(guò)將修改的頻譜衰落至目標(biāo)頻譜進(jìn)行產(chǎn)生重建音頻信號(hào),其中修改的頻譜包含多個(gè)修改的信號(hào)樣本,其中對(duì)于修改的頻譜的每個(gè)修改的信號(hào)樣本,該修改的信號(hào)樣本的絕對(duì)值等于音頻信號(hào)頻譜的音頻信號(hào)樣本中的一個(gè)的絕對(duì)值。在一個(gè)或多個(gè)幀中的當(dāng)前幀被接收的情況下及在所接收的當(dāng)前幀未被損毀的情況下,不將修改的頻譜衰落至白噪聲頻譜。
此外,提供用于在執(zhí)行于計(jì)算機(jī)或信號(hào)處理器上時(shí)實(shí)施上文所描述的方法的計(jì)算機(jī)程序。
實(shí)施例實(shí)現(xiàn)在FDNS應(yīng)用(FDNS=頻域噪聲替換)之前使MDCT頻譜衰落至白噪聲。
根據(jù)現(xiàn)有技術(shù),在基于ACELP的編碼解碼器中,用隨機(jī)向量(例如,用噪聲)來(lái)代替創(chuàng)新碼簿。在實(shí)施例中,對(duì)TCX解碼器結(jié)構(gòu)采用由用隨機(jī)向量(例如,用噪聲)代替創(chuàng)新碼簿構(gòu)成的ACELP方法。此處,創(chuàng)新碼簿的等效物為通常在比特串流內(nèi)被接收且被反饋至FDNS中的MDCT頻譜。
經(jīng)典MDCT隱藏方法將為簡(jiǎn)單地照原樣重復(fù)此頻譜或應(yīng)用某一隨機(jī)化程序,該隨機(jī)化程序基本上延長(zhǎng)最后接收的幀的頻譜形狀[LS01]。此情形的缺點(diǎn)是延長(zhǎng)了短期的頻譜形狀,從而頻繁地導(dǎo)致反復(fù)的金屬聲音,該聲音并不類似背景噪聲,且因此無(wú)法被用作舒緩噪聲。
使用所提出的方法,通過(guò)FDNS及TCX LTP執(zhí)行短期頻譜成形,僅通過(guò)FDNS執(zhí)行長(zhǎng)期頻譜成形。由FDNS進(jìn)行的成形自短期頻譜形狀衰落至背景噪聲的追蹤的長(zhǎng)期頻譜形狀,且將TCX LTP衰落至零。
將FDNS系數(shù)衰落至追蹤的背景噪聲系數(shù),導(dǎo)致在最后良好頻譜包絡(luò)與長(zhǎng)遠(yuǎn)來(lái)看應(yīng)被設(shè)定為目標(biāo)的頻譜背景包絡(luò)之間具有平滑轉(zhuǎn)變,以便在長(zhǎng)突發(fā)幀丟失的狀況下達(dá)成合意的背景噪聲。
相比之下,根據(jù)現(xiàn)有技術(shù)的狀態(tài),對(duì)于基于變換的編碼解碼器,通過(guò)頻域中的幀重復(fù)或噪聲替換來(lái)進(jìn)行類似噪聲的隱藏[LS01]。在現(xiàn)有技術(shù)中,噪聲替換通常由頻譜倉(cāng)的符號(hào)加擾來(lái)執(zhí)行。若在隱藏的過(guò)程中使用現(xiàn)有技術(shù)TCX(頻域)符號(hào)加擾,則再次使用最后接收的MDCT系數(shù),且在頻譜被反向變換至?xí)r域之前使每一符號(hào)隨機(jī)化。現(xiàn)有技術(shù)的此程序的缺點(diǎn)為對(duì)于連續(xù)丟失的幀,一次又一次地使用相同頻譜,其僅僅是具有不同的符號(hào)隨機(jī)化及全局衰減。當(dāng)在粗時(shí)間網(wǎng)格上查看隨時(shí)間的流逝的頻譜包絡(luò)時(shí),可以看見(jiàn)包絡(luò)在連續(xù)幀丟失的過(guò)程中大約為恒定的,因?yàn)轭l帶能量在幀內(nèi)相對(duì)于彼此保持恒定,且僅全局地衰減。在所使用的編碼系統(tǒng)中,根據(jù)現(xiàn)有技術(shù),使用FDNS來(lái)處理頻譜值,以便恢復(fù)原始頻譜。此意味在想要將MDCT頻譜衰落至某一頻譜包絡(luò)(使用例如描述當(dāng)前背景噪聲的FDNS系數(shù))的情況下,結(jié)果不僅取決于FDNS系數(shù),而且取決于被符號(hào)加擾的先前解碼的頻譜。上文所提及的實(shí)施例克服現(xiàn)有技術(shù)的這些缺點(diǎn)。
實(shí)施例是基于有必要在將頻譜反饋至FDNS處理之前將用于符號(hào)加擾的頻譜衰落至白噪聲的發(fā)現(xiàn)。否則,輸出的頻譜將決不匹配用于FDNS處理的目標(biāo)包絡(luò)。
在實(shí)施例中,對(duì)于LTP增益衰落使用與白噪聲衰落相同的衰落速度。
附圖說(shuō)明
在下文中,參考附圖更詳細(xì)地描述本發(fā)明的實(shí)施例,其中:
圖1a說(shuō)明根據(jù)實(shí)施例的用于對(duì)音頻信號(hào)進(jìn)行解碼的裝置;
圖1b說(shuō)明根據(jù)另一實(shí)施例的用于對(duì)音頻信號(hào)進(jìn)行解碼的裝置;
圖1c說(shuō)明根據(jù)另一實(shí)施例的用于對(duì)音頻信號(hào)進(jìn)行解碼的裝置,其中裝置進(jìn)一步包含第一聚合單元及第二聚合單元;
圖1d說(shuō)明根據(jù)另一實(shí)施例的用于對(duì)音頻信號(hào)進(jìn)行解碼的裝置,其中裝置更包含長(zhǎng)期預(yù)測(cè)單元,該長(zhǎng)期預(yù)測(cè)單元包含延遲緩沖器;
圖2說(shuō)明G.718的解碼器結(jié)構(gòu);
圖3描繪G.722的衰落因子取決于類別信息的情境;
圖4展示用于使用線性回歸進(jìn)行振幅預(yù)測(cè)的方法;
圖5說(shuō)明受約束的能量重迭變換(CELT)的突發(fā)丟失行為;
圖6展示在無(wú)錯(cuò)誤操作模式的過(guò)程中在解碼器中的根據(jù)實(shí)施例的背景噪聲水平追蹤;
圖7說(shuō)明根據(jù)實(shí)施例的LPC合成及去加重的增益推導(dǎo);
圖8描繪根據(jù)實(shí)施例的在封包丟失的過(guò)程中的舒緩噪聲水平應(yīng)用;
圖9說(shuō)明根據(jù)實(shí)施例的在ACELP隱藏的過(guò)程中的進(jìn)階高通增益補(bǔ)償;
圖10描繪根據(jù)實(shí)施例的在隱藏的過(guò)程中的LTP反饋回路的解耦;
圖11說(shuō)明根據(jù)實(shí)施例的于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置;
圖12展示根據(jù)另一實(shí)施例的用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置;及
圖13說(shuō)明另一實(shí)施例的用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置;及
圖14說(shuō)明另一實(shí)施例的用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置。
具體實(shí)施方式
圖1a說(shuō)明根據(jù)實(shí)施例的用于對(duì)音頻信號(hào)進(jìn)行解碼的裝置。
裝置包含接收接口110。接收接口用于接收多個(gè)幀,其中接收接口110用于接收多個(gè)幀中的第一幀,該第一幀包含音頻信號(hào)的第一音頻信號(hào)部分,該第一音頻信號(hào)部分被表示于第一域中。此外,接收接口110用于接收多個(gè)幀中的第二幀,該第二幀包含音頻信號(hào)的第二音頻信號(hào)部分。
此外,裝置包含變換單元120,該變換單元用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值或信號(hào)自第二域變換至追蹤域,以獲得第二信號(hào)部分信息,其中第二域不同于第一域,其中追蹤域不同于第二域,且其中追蹤域等于或不同于第一域。
此外,裝置包含噪聲水平追蹤單元130,其中噪聲水平追蹤單元用于接收在追蹤域中表示的第一信號(hào)部分信息,其中第一信號(hào)部分信息取決于第一音頻信號(hào)部分,其中噪聲水平追蹤單元用于接收在追蹤域中表示的第二信號(hào)部分,且其中噪聲水平追蹤單元用于取決于在追蹤域中表示的第一信號(hào)部分信息及取決于在追蹤域中表示的第二信號(hào)部分信息而判定噪聲水平信息。
此外,裝置包含重建單元,該重建單元用于在多個(gè)幀中的第三幀不由接收接口接收而是被損毀的情況下,取決于噪聲水平信息而重建音頻信號(hào)的第三音頻信號(hào)部分。
關(guān)于第一及/或第二音頻信號(hào)部分,例如第一及/或第二音頻信號(hào)部分可例如被反饋至一個(gè)或多個(gè)處理單元(未示出)中以用于產(chǎn)生用于一個(gè)或多個(gè)揚(yáng)聲器的一個(gè)或多個(gè)揚(yáng)聲器信號(hào),使得可重新播放由第一及/或第二音頻信號(hào)部分包含的所接收的聲音信息。
然而,此外,第一及第二音頻信號(hào)部分亦用于隱藏,例如在后續(xù)幀并未到達(dá)接收器的狀況下或在彼后續(xù)幀不正確的狀況下。
尤其,本發(fā)明是基于噪聲水平追蹤應(yīng)在共同域(本文中被稱作“追蹤域”)中進(jìn)行的發(fā)現(xiàn)。追蹤域可例如為激發(fā)域,例如由LPC(LPC=線性預(yù)測(cè)系數(shù))或由ISP(ISP=導(dǎo)抗頻譜對(duì))表示信號(hào)的域,如AMR-WB及AMR-WB+中所描述(參見(jiàn)[3GP12a]、[3GP12b]、[3GP09a]、[3GP09b]、[3GP09c])。在單一域中追蹤噪聲水平尤其具有如下優(yōu)點(diǎn):當(dāng)信號(hào)在第一域中的第一表示與第二域中的第二表示之間切換時(shí)(例如,當(dāng)信號(hào)表示自ACELP切換至TCX或自TCX切換至ACELP時(shí)),避免了頻迭效應(yīng)。
關(guān)于變換單元120,所變換的是第二音頻信號(hào)部分自身,或自第二音頻信號(hào)部分得到的信號(hào)(例如,已被處理第二音頻信號(hào)部分以獲得得到的信號(hào)),或自第二音頻信號(hào)部分得到的值(例如,已處理第二音頻信號(hào)部分以獲得得到的值)。
關(guān)于第一音頻信號(hào)部分,在一些實(shí)施例中,第一音頻信號(hào)部分可經(jīng)處理及/或變換至追蹤域。
然而,在其他實(shí)施例中,第一音頻信號(hào)部分可已經(jīng)被表示于追蹤域中。
在一些實(shí)施例中,第一信號(hào)部分信息等同于第一音頻信號(hào)部分。在其他實(shí)施例中,第一信號(hào)部分信息為例如取決于第一音頻信號(hào)部分的聚合值。
現(xiàn)在,首先更詳細(xì)地考慮至舒緩噪聲水平的衰落。
所描述的衰落方法可例如實(shí)施于xHE-AAC[NMR+12]的低延遲版本(xHE-AAC=擴(kuò)展高效率AAC)中,該版本能夠在逐幀的基礎(chǔ)上在ACELP(語(yǔ)音)與MDCT(音樂(lè)/噪聲)編碼之間順暢地切換。
關(guān)于在追蹤域(例如激發(fā)域)中的共同水平追蹤,為了在封包丟失的過(guò)程中應(yīng)用至適當(dāng)舒緩噪聲水平的平滑衰落,需要在正常解碼程序的過(guò)程中識(shí)別此舒緩噪聲水平??衫缂僭O(shè)類似于背景噪聲的噪聲水平大部分為舒緩的。因此,可在正常解碼的過(guò)程中得到及連續(xù)更新背景噪聲水平。
本發(fā)明是基于以下發(fā)現(xiàn):當(dāng)具有切換式核心編碼解碼器(例如,ACELP及TCX)時(shí),考慮獨(dú)立于所選擇核心編碼器的共同背景噪聲水平為特別合適的。
圖6描繪在無(wú)錯(cuò)誤操作模式的過(guò)程中(例如在正常解碼的過(guò)程中)在解碼器中的根據(jù)較佳實(shí)施例的背景噪聲水平追蹤。
追蹤自身可例如使用最小值統(tǒng)計(jì)方法來(lái)執(zhí)行(參見(jiàn)[Mar01])。
此被追蹤的背景噪聲水平可例如被認(rèn)為是上文所提及的噪聲水平信息。
舉例而言,文獻(xiàn)“Rainer Martin的Noise power spectral density estimation based on optimal smoothing and minimum statistics(基于優(yōu)化光滑和最小值統(tǒng)計(jì)的噪聲功率譜密度估計(jì))(IEEE Transactions on Speech and Audio Processing(語(yǔ)音處理及音頻處理)9(2001),第5期,第504至512頁(yè))”中呈現(xiàn)的最小值統(tǒng)計(jì)噪聲估計(jì)[Mar01]可用于背景噪聲水平追蹤。
相應(yīng)地,在一些實(shí)施例中,噪聲水平追蹤單元130用于通過(guò)應(yīng)用最小值統(tǒng)計(jì)方法(例如通過(guò)使用[Mar01]的最小值統(tǒng)計(jì)噪聲估計(jì))來(lái)判定噪聲水平信息。
隨后,描述此追蹤方法的一些考慮因素及細(xì)節(jié)。
關(guān)于水平追蹤,背景應(yīng)該為類似噪聲的。因此較佳地執(zhí)行在激發(fā)域中的水平追蹤以避免追蹤由LPC取出的前景音調(diào)分量。舉例而言,ACELP噪聲填充亦可使用激發(fā)域中的背景噪聲水平。在激發(fā)域中進(jìn)行追蹤的情況下,對(duì)背景噪聲水平的僅一個(gè)單次追蹤可起到兩個(gè)用途,從而減小計(jì)算復(fù)雜性。在較佳實(shí)施例中,在ACELP激發(fā)域中執(zhí)行追蹤。
圖7說(shuō)明根據(jù)實(shí)施例的LPC合成及去加重的增益推導(dǎo)。
關(guān)于水平得到,水平得到可例如在時(shí)域中抑或在激發(fā)域中抑或在任何其他合適的域中進(jìn)行。在用于水平得到及水平追蹤的域不同的情況下,可例如需要增益補(bǔ)償。
在較佳實(shí)施例中,在激發(fā)域中執(zhí)行用于ACELP的水平得到。因此,并不需要增益補(bǔ)償。
對(duì)于TCX,可例如需要增益補(bǔ)償以將得到的水平調(diào)整至ACELP激發(fā)域。
在較佳實(shí)施例中,用于TCX的水平得到在時(shí)域中發(fā)生。發(fā)現(xiàn)了用于此方法的易管理的增益補(bǔ)償:如圖7中所示得到由LPC合成及去加重引入的增益,且將得到的水平除以此增益。
或者,可在TCX激發(fā)域中執(zhí)行用于TCX的水平得到。然而,TCX激發(fā)域與ACELP激發(fā)域之間的增益補(bǔ)償被認(rèn)為太復(fù)雜。
因此返回到圖1a,在一些實(shí)施例中,第一音頻信號(hào)部分被表示于作為第一域的時(shí)域中。變換單元120用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值自為第二域的激發(fā)域變換至為追蹤域的時(shí)域。在這些實(shí)施例中,噪聲水平追蹤單元130用于接收在作為追蹤域的時(shí)域中表示的第一信號(hào)部分信息。此外,噪聲水平追蹤單元130用于接收在作為追蹤域的時(shí)域中表示的第二信號(hào)部分。
在其他實(shí)施例中,第一音頻信號(hào)部分被表示于作為第一域的激發(fā)域中。變換單元120用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值自為第二域的時(shí)域變換至為追蹤域的激發(fā)域。在這些實(shí)施例中,噪聲水平追蹤單元130用于接收在作為追蹤域的激發(fā)域中表示的第一信號(hào)部分信息。此外,噪聲水平追蹤單元130用于接收在作為追蹤域的激發(fā)域中表示的第二信號(hào)部分。
在實(shí)施例中,第一音頻信號(hào)部分可例如被表示于作為第一域的激發(fā)域中,其中噪聲水平追蹤單元130可例如用于接收第一信號(hào)部分信息,其中該第一信號(hào)部分信息被表示于為追蹤域的FFT域中,且其中該第一信號(hào)部分信息取決于在激發(fā)域中表示的該第一音頻信號(hào)部分,其中變換單元120可例如用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值自為第二域的時(shí)域變換至為追蹤域的FFT域,且其中噪聲水平追蹤單元130可例如用于接收在FFT域中表示的第二音頻信號(hào)部分。
圖1b說(shuō)明根據(jù)另一實(shí)施例的裝置。在圖1b中,圖1a的變換單元120為第一變換單元120,及圖1a的重建單元140為第一重建單元140。裝置進(jìn)一步包含第二變換單元121及第二重建單元141。
第二變換單元121用于在多個(gè)幀中的第四幀不由接收接口接收的情況下或在該第四幀由接收接口接收但被損毀的情況下,將噪聲水平信息自追蹤域變換至第二域。
此外,第二重建單元141用于在多個(gè)幀中的該第四幀不由接收接口接收的情況下或在該第四幀由接收接口接收但被損毀的情況下,取決于在第二域中表示的噪聲水平信息而重建音頻信號(hào)的第四音頻信號(hào)部分。
圖1c說(shuō)明根據(jù)另一實(shí)施例的用于對(duì)音頻信號(hào)進(jìn)行解碼的裝置。裝置進(jìn)一步包含用于取決于第一音頻信號(hào)部分而判定第一聚合值的第一聚合單元150。此外,圖1c的裝置進(jìn)一步包含用于取決于第二音頻信號(hào)部分而將第二聚合值判定為自第二音頻信號(hào)部分得到的值的第二聚合單元160。在圖1c的實(shí)施例中,噪聲水平追蹤單元130用于接收第一聚合值作為在追蹤域中表示的第一信號(hào)部分信息,其中噪聲水平追蹤單元130用于接收第二聚合值作為在追蹤域中表示的第二信號(hào)部分信息。噪聲水平追蹤單元130用于取決于在追蹤域中表示的第一聚合值及取決于在追蹤域中表示的第二聚合值而判定噪聲水平信息。
在實(shí)施例中,第一聚合單元150用于判定第一聚合值以使得第一聚合值指示第一音頻信號(hào)部分或自第一音頻信號(hào)部分得到的信號(hào)的均方根。此外,第二聚合單元160用于判定第二聚合值以使得第二聚合值指示第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的信號(hào)的均方根。
圖6說(shuō)明根據(jù)另一實(shí)施例的用于對(duì)音頻信號(hào)進(jìn)行解碼的裝置。
在圖6中,背景水平追蹤單元630實(shí)施根據(jù)圖1a的噪聲水平追蹤單元130。
此外,在圖6中,RMS單元650(RMS=均方根)為第一聚合單元,且RMS單元660為第二聚合單元。
根據(jù)一些實(shí)施例,圖1a、圖1b及圖1c的(第一)變換單元120用于通過(guò)對(duì)自第二音頻信號(hào)部分得到的值應(yīng)用增益值(x)(例如,通過(guò)將自第二音頻信號(hào)部分得到的值除以增益值(x))將自第二音頻信號(hào)部分得到的值自第二域變換至追蹤域。在其他實(shí)施例中,可例如乘以增益值。
在一些實(shí)施例中,增益值(x)可例如指示由線性預(yù)測(cè)編碼合成引入的增益,或增益值(x)可例如指示由線性預(yù)測(cè)編碼合成及去加重引入的增益。
在圖6中,單元622提供指示由線性預(yù)測(cè)編碼合成及去加重引入的增益的值(x)。單元622接著將由第二聚合單元660提供的值(其為自第二音頻信號(hào)部分得到的值)除以所提供的增益值(x)(例如,通過(guò)除以x,抑或通過(guò)乘以值1/x)。因此,圖6的包含單元621及622的單元620實(shí)施圖1a、圖1b或圖1c的第一變換單元。
圖6的裝置接收具有第一音頻信號(hào)部分的第一幀,該第一音頻信號(hào)部分為有聲激發(fā)及/或無(wú)聲激發(fā)且被表示于追蹤域中(在圖6中,(ACELP)LPC域)。將第一音頻信號(hào)部分反饋至LPC合成及去加重單元671中以進(jìn)行處理,從而獲得時(shí)域第一音頻信號(hào)部分輸出。此外,將第一音頻信號(hào)部分反饋至RMS模塊650中以獲得指示第一音頻信號(hào)部分的均方根的第一值。此第一值(第一RMS值)被表示于追蹤域中。接著將在追蹤域中表示的第一RMS值反饋至噪聲水平追蹤單元630中。
此外,圖6的裝置接收具有第二音頻信號(hào)部分的第二幀,該第二音頻信號(hào)部分包含MDCT頻譜且被表示于MDCT域中。噪聲填充由噪聲填充模塊681進(jìn)行,頻域噪聲成形由頻域噪聲成形模塊682進(jìn)行,至?xí)r域的變換由iMDCT/OLA模塊683(OLA=重迭相加)進(jìn)行,且長(zhǎng)期預(yù)測(cè)由長(zhǎng)期預(yù)測(cè)單元684進(jìn)行。長(zhǎng)期預(yù)測(cè)單元可例如包含延遲緩沖器(圖6中未圖示)。
接著將自第二音頻信號(hào)部分得到的信號(hào)反饋至RMS模塊660中以獲得第二值,該第二值指示獲得自第二音頻信號(hào)部分得到的那個(gè)信號(hào)的均方根。此第二值(第二RMS值)仍被表示于時(shí)域中。單元620接著將第二RMS值自時(shí)域變換至追蹤域,此處追蹤域?yàn)?ACELP)LPC域。接著將在追蹤域中表示的第二RMS值反饋至噪聲水平追蹤單元630中。
在實(shí)施例中,在激發(fā)域中進(jìn)行水平追蹤,但在時(shí)域中進(jìn)行TCX衰落。
盡管在正常解碼的過(guò)程中追蹤背景噪聲水平,但背景噪聲水平可例如在封包丟失的過(guò)程中用作最后接收的信號(hào)平滑地逐水平衰落至的適當(dāng)舒緩噪聲水平的指示符。
得到用于追蹤的水平及應(yīng)用水平衰落大體而言為彼此獨(dú)立的,且可在不同域中執(zhí)行。在較佳實(shí)施例中,在與水平得到相同的域中執(zhí)行水平應(yīng)用,從而導(dǎo)致相同的益處:對(duì)于ACELP而言,不需要增益補(bǔ)償,且對(duì)于TCX而言,需要關(guān)于水平得到的反增益補(bǔ)償(參見(jiàn)圖6)且因此可使用相同增益得到,如由圖7所說(shuō)明。
在下文中,描述根據(jù)實(shí)施例的高通濾波器對(duì)LPC合成增益的影響的補(bǔ)償。
圖8概述此方法。特別地,圖8說(shuō)明在封包丟失的過(guò)程中的舒緩噪聲水平應(yīng)用。
在圖8中,高通增益濾波器單元643、乘法單元644、衰落單元645、高通濾波器單元646、衰落單元647及組合單元648一起形成第一重建單元。
此外,在圖8中,背景水平供應(yīng)單元631提供噪聲水平信息。舉例而言,背景水平供應(yīng)單元631可同樣實(shí)施為圖6的背景水平追蹤單元630。
此外,在圖8中,LPC合成及去加重增益單元649及乘法單元641一起用于第二變換單元640。
此外,在圖8中,衰落單元642表示第二重建單元。
在圖8的實(shí)施例中,有聲及無(wú)聲激發(fā)被單獨(dú)地衰落:有聲激發(fā)衰落至零,但無(wú)聲激發(fā)朝向舒緩噪聲水平衰落。圖8此外描繪高通濾波器,其在除了當(dāng)信號(hào)被分類為無(wú)聲時(shí)之外的所有狀況下被引入至無(wú)聲激發(fā)的信號(hào)鏈中以抑制低頻分量。
為了將高通濾波器的影響模型化,將在LPC合成及去加重之后的水平在有高通濾波器的情況下計(jì)算一次,且在無(wú)高通濾波器的情況下計(jì)算一次。隨后,得到那些兩個(gè)水平之比且將其用以更改所應(yīng)用的背景水平。
此情形由圖9說(shuō)明。特別地,圖9描繪根據(jù)實(shí)施例的在ACELP隱藏的過(guò)程中的進(jìn)階高通增益補(bǔ)償。
代替當(dāng)前激發(fā)信號(hào),僅將簡(jiǎn)單脈沖用作此計(jì)算的輸入。這允許復(fù)雜性減少,因?yàn)槊}沖響應(yīng)快速衰減,且因此可在較短時(shí)間范圍內(nèi)執(zhí)行RMS得到。實(shí)際上,使用僅一個(gè)子幀而非整個(gè)幀。
根據(jù)實(shí)施例,噪聲水平追蹤單元130用于將舒緩噪聲水平判定為噪聲水平信息。重建單元140用于在多個(gè)幀中的該第三幀不由接收接口110接收的情況下或在該第三幀由接收接口110接收但被損毀的情況下,取決于噪聲水平信息而重建第三音頻信號(hào)部分。
在實(shí)施例中,噪聲水平追蹤單元130用于將舒緩噪聲水平判定為自噪聲水平頻譜得到的噪聲水平信息,其中該噪聲水平頻譜系通過(guò)應(yīng)用最小值統(tǒng)計(jì)方法而獲得的。重建單元140用于在多個(gè)幀中的該第三幀不由接收接口110接收的情況下或在該第三幀由接收接口110接收但被損毀的情況下,取決于多個(gè)線性預(yù)測(cè)系數(shù)而重建第三音頻信號(hào)部分。
在實(shí)施例中,(第一及/或第二)重建單元140、141可例如用于在多個(gè)幀中的該第三(第四)幀不由接收接口110接收的情況下或在該第三(第四)幀由接收接口110接收但被損毀的情況下,取決于噪聲水平信息及取決于第一音頻信號(hào)部分而重建第三音頻信號(hào)部分。
根據(jù)實(shí)施例,(第一及/或第二)重建單元140、141可例如用于通過(guò)減小或放大第一音頻信號(hào)部分來(lái)重建第三(或第四)音頻信號(hào)部分。
圖14說(shuō)明用于對(duì)音頻信號(hào)進(jìn)行解碼的裝置。裝置包含接收接口110,其中接收接口110用于接收包含音頻信號(hào)的第一音頻信號(hào)部分的第一幀,且其中接收接口110用于接收包含音頻信號(hào)的第二音頻信號(hào)部分的第二幀。
此外,裝置包含噪聲水平追蹤單元130,其中噪聲水平追蹤單元130用于取決于第一音頻信號(hào)部分及第二音頻信號(hào)部分中的至少一個(gè)(此意味:取決于第一音頻信號(hào)部分及/或第二音頻信號(hào)部分)判定噪聲水平信息,其中噪聲水平信息被表示于追蹤域中。
此外,裝置包含第一重建單元140,該第一重建單元用于在多個(gè)幀中的第三幀不由接收接口110接收的情況下或在該第三幀由接收接口110接收但被損毀的情況下,取決于噪聲水平信息而在第一重建域中重建音頻信號(hào)的第三音頻信號(hào)部分,其中第一重建域不同于或等于追蹤域。
此外,裝置包含變換單元121,該變換單元用于在多個(gè)幀中的第四幀不由接收接口110接收的情況下或在該第四幀由接收接口110接收但被損毀的情況下,將噪聲水平信息自追蹤域變換至第二重建域,其中第二重建域不同于追蹤域,且其中第二重建域不同于第一重建域,及
此外,裝置包含第二重建單元141,該第二重建單元用于在多個(gè)幀中的該第四幀不由接收接口110接收的情況下或在該第四幀由接收接口110接收但被損毀的情況下,取決于在第二重建域中表示的噪聲水平信息而在第二重建域中重建音頻信號(hào)的第四音頻信號(hào)部分。
根據(jù)一些實(shí)施例,追蹤域可例如其中追蹤域?yàn)闀r(shí)域、頻譜域、FFT域、MDCT域或激發(fā)域。第一重建域可例如為時(shí)域、頻譜域、FFT域、MDCT域或激發(fā)域。第二重建域可例如為時(shí)域、頻譜域、FFT域、MDCT域或激發(fā)域。
在實(shí)施例中,追蹤域可例如為FFT域,第一重建域可例如為時(shí)域,及第二重建域可例如為激發(fā)域。
在另一實(shí)施例中,追蹤域可例如為時(shí)域,第一重建域可例如為時(shí)域,及第二重建域可例如為激發(fā)域。
根據(jù)實(shí)施例,該第一音頻信號(hào)部分可例如被表示于第一輸入域中,及該第二音頻信號(hào)部分可例如被表示于第二輸入域中。變換單元可例如為第二變換單元。裝置可例如進(jìn)一步包含用于將第二音頻信號(hào)部分或自第二音頻信號(hào)部分得到的值或信號(hào)自第二輸入域變換至追蹤域以獲得第二信號(hào)部分信息的第一變換單元。噪聲水平追蹤單元可例如用于接收在追蹤域中表示的第一信號(hào)部分信息,其中第一信號(hào)部分信息取決于第一音頻信號(hào)部分,其中噪聲水平追蹤單元用于接收在追蹤域中表示的第二信號(hào)部分,且其中噪聲水平追蹤單元用于取決于在追蹤域中表示的第一信號(hào)部分信息及取決于在追蹤域中表示的第二信號(hào)部分信息判定噪聲水平信息。
根據(jù)實(shí)施例,第一輸入域可例如為激發(fā)域,及第二輸入域可例如為MDCT域。
在另一實(shí)施例中,第一輸入域可例如為MDCT域,且其中第二輸入域可例如為MDCT域。
在例如在時(shí)域中表示信號(hào)的情況下,信號(hào)可例如由信號(hào)的時(shí)域樣本表示?;蚶?,在頻譜域中表示信號(hào)的情況下,信號(hào)可例如由信號(hào)的頻譜的頻譜樣本表示。
在實(shí)施例中,追蹤域可例如為FFT域,第一重建域可例如為時(shí)域,及第二重建域可例如為激發(fā)域。
在另一實(shí)施例中,追蹤域可例如為時(shí)域,第一重建域可例如為時(shí)域,及第二重建域可例如為激發(fā)域。
在一些實(shí)施例中,圖14中所說(shuō)明的單元可例如按針對(duì)圖1a、圖1b、圖1c及圖1d所描述的配置。
關(guān)于特別的實(shí)施例,在例如低速率模式中,根據(jù)實(shí)施例的裝置可例如接收ACELP幀作為輸入,這些ACELP幀被表示于激發(fā)域中且接著經(jīng)由LPC合成變換至?xí)r域。此外,在低速率模式中,根據(jù)實(shí)施例的裝置可例如接收TCX幀作為輸入,這些TCX幀被表示于MDCT域中,且接著經(jīng)由反MDCT而變換至?xí)r域。
接著在FFT域中進(jìn)行追蹤,其中通過(guò)進(jìn)行FFT(快速傅立葉變換)自時(shí)域信號(hào)得到FFT信號(hào)??衫缤ㄟ^(guò)對(duì)于所有頻譜線分開(kāi)進(jìn)行最小值統(tǒng)計(jì)方法來(lái)進(jìn)行追蹤以獲得舒緩噪聲頻譜。
接著通過(guò)基于舒緩噪聲頻譜進(jìn)行水平得到來(lái)進(jìn)行隱藏。基于舒緩噪聲頻譜進(jìn)行水平得到。對(duì)于FD TCX PLC進(jìn)行至?xí)r域中的水平轉(zhuǎn)換。進(jìn)行在時(shí)域中的衰落。針對(duì)ACELP PLC及針對(duì)TD TCX PLC(類似ACELP)進(jìn)行至激發(fā)域中的水平得到。接著進(jìn)行在激發(fā)域中的衰落。
以下清單概述此情形:
低速率:
●輸入:
○acelp(激發(fā)域->時(shí)域,經(jīng)由lpc合成)
○tcx(mdct域->時(shí)域,經(jīng)由反MDCT)
●追蹤:
○fft域,經(jīng)由FFT自時(shí)域得到
○最小值統(tǒng)計(jì),對(duì)于所有頻譜線分開(kāi)進(jìn)行->舒緩噪聲頻譜
●隱藏:
○基于舒緩噪聲頻譜的水平得到
○對(duì)于以下PLC水平轉(zhuǎn)換至?xí)r域中
■FD TCX PLC->在時(shí)域中衰落
○對(duì)于以下PLC水平轉(zhuǎn)換至激發(fā)域中
■ACELP PLC
■TD TCX PLC(類似ACELP)->在激發(fā)域中衰落
在例如高速率模式中,其可例如接收TCX幀作為輸入,這些TCX幀被表示于MDCT域中,且接著經(jīng)由反MDCT而變換至?xí)r域。
接著可在時(shí)域中進(jìn)行追蹤??衫缤ㄟ^(guò)基于能量水平進(jìn)行最小值統(tǒng)計(jì)方法來(lái)進(jìn)行追蹤以獲得舒緩噪聲水平。
對(duì)于隱藏,對(duì)于FD TCX PLC而言,水平可被照原樣使用,且可僅進(jìn)行時(shí)域中的衰落。對(duì)于TD TCX PLC(類似ACELP),進(jìn)行至激發(fā)域的水平轉(zhuǎn)換及在激發(fā)域中的衰落。
以下清單概述此情形:
高速率:
●輸入:
○tcx(mdct域->時(shí)域,經(jīng)由反MDCT)
●追蹤:
○時(shí)域
○基于能量水平的最小值統(tǒng)計(jì)->舒緩噪聲水平
●隱藏:
○「照原樣」使用水平
■FD TCX PLC->在時(shí)域中衰落
○對(duì)于以下PLC水平轉(zhuǎn)換至激發(fā)域中
■TD TCX PLC(類似ACELP)->在激發(fā)域中衰落
FFT域及MDCT域皆為頻譜域,而激發(fā)域?yàn)槟撤N時(shí)域。
根據(jù)實(shí)施例,第一重建單元140可例如用于通過(guò)進(jìn)行至類似噪聲的頻譜的第一衰落而重建第三音頻信號(hào)部分。第二重建單元141可例如用于通過(guò)進(jìn)行至類似噪聲的頻譜的第二衰落及/或LTP增益的第二衰落來(lái)重建第四音頻信號(hào)部分。此外,第一重建單元140及第二重建單元141可例如用于按相同衰落速度進(jìn)行至類似噪聲的頻譜的第一衰落及至類似噪聲的頻譜的第二衰落及/或LTP增益的第二衰落。
現(xiàn)在考慮舒緩噪聲的適應(yīng)性頻譜成形。
為了達(dá)成在突發(fā)封包丟失的過(guò)程中至舒緩噪聲的適應(yīng)性成形,作為第一步驟,可進(jìn)行對(duì)表示背景噪聲的適當(dāng)LPC系數(shù)的發(fā)現(xiàn)??稍谄鹱饔谜Z(yǔ)音的過(guò)程中使用用于發(fā)現(xiàn)背景噪聲頻譜的最小值統(tǒng)計(jì)方法及接著通過(guò)使用文獻(xiàn)中已知的用于LPC得到的任意算法而自背景噪聲頻譜計(jì)算LPC系數(shù)來(lái)得到這些LPC系數(shù)。例如,一些實(shí)施例可直接將背景噪聲頻譜轉(zhuǎn)換成可直接用于MDCT域中的FDNS的表示。
至舒緩噪聲的衰落可在ISF域中進(jìn)行(在LSF域中亦可適用;LSF線譜頻率):
fcurrent[i]=α·flast[i]+(1-α)·ptmean[i] i=0...16 (26)
通過(guò)將ptmean設(shè)定為描述舒緩噪聲的適當(dāng)LP系數(shù)。
關(guān)于舒緩噪聲的上文所描述的適應(yīng)性頻譜成形,由圖11說(shuō)明更一般實(shí)施例。
圖11說(shuō)明根據(jù)實(shí)施例的用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置。
裝置包含用于接收一個(gè)或多個(gè)幀的接收接口1110、系數(shù)產(chǎn)生器1120及信號(hào)重建器1130。
系數(shù)產(chǎn)生器1120用于在一個(gè)或多個(gè)幀中的當(dāng)前幀由接收接口1110接收的情況下及在由接收接口1110接收的當(dāng)前幀并非被損毀/不正確的情況下,判定由當(dāng)前幀包含一個(gè)或多個(gè)第一音頻信號(hào)系數(shù),其中該一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)指示編碼音頻信號(hào)的特性,且判定指示編碼音頻信號(hào)的背景噪聲的一個(gè)或多個(gè)噪聲系數(shù)。此外,系數(shù)產(chǎn)生器1120用于在當(dāng)前幀不由接收接口1110接收的情況下或在由接收接口1110接收的當(dāng)前幀被損毀/不正確的情況下,取決于一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)及取決于一個(gè)或多個(gè)噪聲系數(shù)而產(chǎn)生一個(gè)或多個(gè)第二音頻信號(hào)系數(shù)。
音頻信號(hào)重建器1130用于在當(dāng)前幀由接收接口1110接收的情況下及在由接收接口1110接收的當(dāng)前幀未被損毀的情況下,取決于一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)而重建重建音頻信號(hào)的第一部分。此外,音頻信號(hào)重建器1130用于在當(dāng)前幀不由接收接口1110接收的情況下或在由接收接口1110接收的當(dāng)前幀被損毀的情況下,取決于一個(gè)或多個(gè)第二音頻信號(hào)系數(shù)而重建重建音頻信號(hào)的第二部分。
判定背景噪聲在現(xiàn)有技術(shù)中是熟知的(參見(jiàn)例如[Mar01]:Rainer Martin的“Noise power spectral density estimation based on optimal smoothing and minimum statistics(基于優(yōu)化光滑和最小值統(tǒng)計(jì)的噪聲功率譜密度估計(jì))”,IEEE Transactions on Speech and Audio Processing(語(yǔ)音處理及音頻處理)9(2001)第5期,第504至512頁(yè)),且在實(shí)施例中,裝置相應(yīng)地繼續(xù)進(jìn)行。
在一些實(shí)施例中,一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)可例如為編碼音頻信號(hào)的一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù)。在一些實(shí)施例中,一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)可例如為編碼音頻信號(hào)的一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù)。
現(xiàn)有技術(shù)中已知如何自線性預(yù)測(cè)濾波器系數(shù)或自導(dǎo)抗頻譜對(duì)重建音頻信號(hào)(例如,語(yǔ)音信號(hào))(參見(jiàn)例如,[3GP09c]:Speech codec speech processing functions(語(yǔ)音編碼解碼器的語(yǔ)音處理功能);adaptive multi-rate-wideband(AMRWB)speech codec(自適應(yīng)多速率寬帶語(yǔ)音編碼解碼器);transcoding functions(編碼變換功能),3GPP TS26.190,第三代合作伙伴計(jì)劃,2009),且在實(shí)施例中,信號(hào)重建器相應(yīng)地繼續(xù)進(jìn)行。
根據(jù)實(shí)施例,一個(gè)或多個(gè)噪聲系數(shù)可例如為指示編碼音頻信號(hào)的背景噪聲的一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù)。在實(shí)施例中,一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù)可例如表示背景噪聲的頻譜形狀。
在實(shí)施例中,系數(shù)產(chǎn)生器1120可例如用于判定一個(gè)或多個(gè)第二音頻信號(hào)部分以使得一個(gè)或多個(gè)第二音頻信號(hào)部分為重建音頻信號(hào)的一個(gè)或多個(gè)線性預(yù)測(cè)濾波器系數(shù),或使得一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)為重建音頻信號(hào)的一個(gè)或多個(gè)導(dǎo)抗頻譜對(duì)。
根據(jù)實(shí)施例,系數(shù)產(chǎn)生器1120可例如用于通過(guò)應(yīng)用如下公式而產(chǎn)生一個(gè)或多個(gè)第二音頻信號(hào)系數(shù):
fcurrent[i]=α·flast[i]+(1-α)·ptmean[i]
其中fcurrent[i]指示一個(gè)或多個(gè)第二音頻信號(hào)系數(shù)中的一個(gè),其中flast[i]指示一個(gè)或多個(gè)第一音頻信號(hào)系數(shù)中的一個(gè),其中ptmean[i]為一個(gè)或多個(gè)噪聲系數(shù)中的一個(gè),其中α為實(shí)數(shù),其中0≤α≤1,且其中i為索引。
根據(jù)實(shí)施例,flast[i]指示編碼音頻信號(hào)的線性預(yù)測(cè)濾波器系數(shù),且其中fcurrent[i]指示重建音頻信號(hào)的線性預(yù)測(cè)濾波器系數(shù)。
在實(shí)施例中,ptmean[i]可例如為線性預(yù)測(cè)濾波器系數(shù),其指示編碼音頻信號(hào)的背景噪聲。
根據(jù)實(shí)施例,系數(shù)產(chǎn)生器1120可例如用于產(chǎn)生至少10個(gè)第二音頻信號(hào)系數(shù)作為一個(gè)或多個(gè)第二音頻信號(hào)系數(shù)。
在實(shí)施例中,系數(shù)產(chǎn)生器1120可例如用于在一個(gè)或多個(gè)幀中的當(dāng)前幀由接收接口1110接收的情況下及在由接收接口1110接收的當(dāng)前幀未被損毀的情況下,通過(guò)判定編碼音頻信號(hào)的噪聲頻譜來(lái)判定一個(gè)或多個(gè)噪聲系數(shù)。
在下文中,考慮在FDNS應(yīng)用之前將MDCT頻譜衰落至白噪聲。
代替隨機(jī)修改MDCT頻率倉(cāng)的符號(hào)(符號(hào)加擾),用使用FDNS成形的白噪聲來(lái)填充完整頻譜。為了避免頻譜特性中的實(shí)時(shí)改變,應(yīng)用符號(hào)加擾與噪聲填充之間的交叉衰落??扇缦聦?shí)現(xiàn)交叉衰落:
其中:
cum_damping為(絕對(duì))衰減因子,其在幀之間減少,自1開(kāi)始且朝向0減少
x_old為最后接收的幀的頻譜
random_sign返回1或-1
noise含有隨機(jī)向量(白噪聲),其被按比例調(diào)整以使得其二次均值(RMS)類似于最后良好頻譜。
術(shù)語(yǔ)random_sign()*old_x[i]表征用以使相位隨機(jī)化且如此避免諧波重復(fù)的符號(hào)加擾程序。
隨后,可在交叉衰落之后執(zhí)行能量水平的另一歸一化以確保總能量不會(huì)歸因于兩個(gè)向量的相關(guān)而發(fā)生偏離。
根據(jù)實(shí)施例,第一重建單元140可例如用于取決于噪聲水平信息及取決于第一音頻信號(hào)部分重建第三音頻信號(hào)部分。在特定實(shí)施例中,第一重建單元140可例如用于通過(guò)減小或放大第一音頻信號(hào)部分來(lái)重建第三音頻信號(hào)部分。
在一些實(shí)施例中,第二重建單元141可例如用于取決于噪聲水平信息及取決于第二音頻信號(hào)部分重建第四音頻信號(hào)部分。在特別的實(shí)施例中,第二重建單元141可例如用于通過(guò)減小或放大第二音頻信號(hào)部分來(lái)重建第四音頻信號(hào)部分。
關(guān)于上文所描述的在FDNS應(yīng)用之前MDCT頻譜至白噪聲的衰落,由圖12說(shuō)明更一般的實(shí)施例。
圖12說(shuō)明根據(jù)實(shí)施例的用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置。
裝置包含用于接收包含關(guān)于編碼音頻信號(hào)的音頻信號(hào)頻譜的多個(gè)音頻信號(hào)樣本的信息的一個(gè)或多個(gè)幀的接收接口1210,及用于產(chǎn)生重建音頻信號(hào)的處理器1220。
處理器1220用于在當(dāng)前幀不由接收接口1210接收的情況下或在當(dāng)前幀由接收接口1210接收但被損毀的情況下,通過(guò)將修改的頻譜衰落至目標(biāo)頻譜來(lái)產(chǎn)生重建音頻信號(hào),其中修改的頻譜包含多個(gè)修改的信號(hào)樣本,其中針對(duì)修改的頻譜的每個(gè)修改的信號(hào)樣本,該修改的信號(hào)樣本的絕對(duì)值等于音頻信號(hào)頻譜的音頻信號(hào)樣本中的一個(gè)的絕對(duì)值。
此外,處理器1220用于在一個(gè)或多個(gè)幀中的當(dāng)前幀由接收接口1210接收的情況下及在由接收接口1210接收的當(dāng)前幀未被損毀的情況下,不將修改的頻譜衰落至目標(biāo)頻譜。
根據(jù)實(shí)施例,目標(biāo)頻譜為類似噪聲的頻譜。
在實(shí)施例中,類似噪聲的頻譜表示白噪聲。
根據(jù)實(shí)施例,類似噪聲的頻譜被成形。
在實(shí)施例中,類似噪聲的頻譜的形狀取決于先前接收的信號(hào)的音頻信號(hào)頻譜。
根據(jù)實(shí)施例,取決于音頻信號(hào)頻譜的形狀而成形類似噪聲的頻譜。
在實(shí)施例中,處理器1220使用傾斜因子來(lái)使類似噪聲的頻譜成形。
根據(jù)實(shí)施例,處理器1220使用如下公式:
shaped_noise[i]=noise*power(tilt_factor,i/N)
其中N指示樣本的數(shù)目,
其中i為索引,
其中0<=i<N,其中tilt_factor>0,
其中power為功率函數(shù)。
若tilt_factor小于1,則此情形意味在i增加的情況下的衰減。若tilt_factor大于1,則意味在i增加的情況下的放大。
根據(jù)另一實(shí)施例,處理器1220可使用如下公式:
shaped_noise[i]=noise*(1+i/(N-1)*(tilt_factor-1))
其中N指示樣本的數(shù)目,
其中i為索引,其中0<=i<N,
其中tilt_factor>0。
根據(jù)實(shí)施例,處理器1220用于在當(dāng)前幀不由接收接口1210接收的情況下或在由接收接口1210接收的當(dāng)前幀被損毀的情況下,通過(guò)改變音頻信號(hào)頻譜的音頻信號(hào)樣本中的一個(gè)或多個(gè)的符號(hào)來(lái)產(chǎn)生修改的頻譜。
在實(shí)施例中,音頻信號(hào)頻譜的音頻信號(hào)樣本中的每一個(gè)由實(shí)數(shù)表示,但不由虛數(shù)表示。
根據(jù)實(shí)施例,音頻信號(hào)頻譜的音頻信號(hào)樣本被表示在修改離散余弦變換域中。
在另一實(shí)施例中,音頻信號(hào)頻譜的音頻信號(hào)樣本被表示在經(jīng)修改離散正弦變換域中。
根據(jù)實(shí)施例,處理器1220用于通過(guò)使用隨機(jī)或偽隨機(jī)輸出第一值抑或第二值的隨機(jī)符號(hào)函數(shù)產(chǎn)生修改的頻譜。
在實(shí)施例中,處理器1220用于通過(guò)隨后減小衰減因子而將修改的頻譜衰落至目標(biāo)頻譜。
根據(jù)實(shí)施例,處理器1220用于通過(guò)隨后增加衰減因子而將修改的頻譜衰落至目標(biāo)頻譜。
在實(shí)施例中,在當(dāng)前幀不由接收接口1210接收的情況下或在由接收接口1210接收的當(dāng)前幀被損毀的情況下,處理器1220用于通過(guò)使用如下公式產(chǎn)生重建音頻信號(hào):
x[i]=(1-cum_damping)*noise[i]+cum_damping*random_sign()*x_old[i]
其中i為索引,其中x[i]指示重建音頻信號(hào)的樣本,其中cum_damping為衰減因子,其中x_old[i]指示編碼音頻信號(hào)的音頻信號(hào)頻譜的音頻信號(hào)樣本中的一個(gè),其中random_sign()返回1或-1,且其中noise為指示目標(biāo)頻譜的隨機(jī)向量。
一些實(shí)施例繼續(xù)TCX LTP操作。在那些實(shí)施例中,在隱藏的過(guò)程中用自最后良好幀得到的LTP參數(shù)(LTP滯后及LTP增益)繼續(xù)TCX LTP操作。
LTP操作可概述如下:
-基于先前得到的輸出對(duì)LTP延遲緩沖器進(jìn)行反饋。
-基于LTP滯后:從LTP延遲緩沖器當(dāng)中選擇被用作LTP貢獻(xiàn)以使當(dāng)前信號(hào)成形的適當(dāng)信號(hào)部分。
-使用LTP增益重新按比例調(diào)整此LTP貢獻(xiàn)。
-將此重新按比例調(diào)整的LTP貢獻(xiàn)與LTP輸入信號(hào)相加以產(chǎn)生LTP輸出信號(hào)。
關(guān)于執(zhí)行LTP延遲緩沖器更新的時(shí)間,可考慮不同方法:
作為使用來(lái)自最后幀n-1的輸出的在幀n中的第一LTP操作。這對(duì)在幀n中的LTP處理的過(guò)程中待使用的在幀n中的LTP延遲緩沖器進(jìn)行更新。
作為使用來(lái)自當(dāng)前幀n的輸出的在幀n中的最后LTP操作。這對(duì)在幀n+1中的LTP處理的過(guò)程中待使用的在幀n中的LTP延遲緩沖器進(jìn)行更新。
在下文中,考慮TCX LTP反饋回路的解耦。
解耦TCX LTP反饋回路避免了在處于隱藏模式中時(shí)在LTP解碼器的每一反饋回路的過(guò)程中額外噪聲的引入(由應(yīng)用于LPT輸入信號(hào)的噪聲替換產(chǎn)生)。
圖10說(shuō)明此解耦。特別地,圖10描繪在隱藏的過(guò)程中的LTP反饋回路的解耦(bfi=1)。
圖10說(shuō)明延遲緩沖器1020、樣本選擇器1030及樣本處理器1040(樣本處理器1040由虛線指示)。
到執(zhí)行LTP延遲緩沖器1020更新的時(shí)間,一些實(shí)施例如下繼續(xù)進(jìn)行:
-對(duì)于正常操作:按第一LTP操作更新LTP延遲緩沖器1020可能為較佳的,因?yàn)橥ǔ3掷m(xù)地儲(chǔ)存經(jīng)求和的輸出信號(hào)。通過(guò)此方法,可省略專用緩沖器。
-對(duì)于解耦操作:按最后LTP操作更新LTP延遲緩沖器1020可能為較佳的,因?yàn)橥ǔH暫時(shí)地儲(chǔ)存對(duì)信號(hào)的LTP貢獻(xiàn)。通過(guò)此方法,保留了暫時(shí)性LTP貢獻(xiàn)信號(hào)。就實(shí)施而言,完全可使此LTP貢獻(xiàn)緩沖器為持續(xù)性的。
假設(shè)在任何狀況下使用后一方法(正常操作及隱藏),實(shí)施例可例如實(shí)施以下情形:
-在正常操作的過(guò)程中:在添加至LTP輸入信號(hào)之后的LTP解碼器的時(shí)域信號(hào)輸出被用以對(duì)LTP延遲緩沖器進(jìn)行反饋。
-在隱藏的過(guò)程中:在添加至LTP輸入信號(hào)之前的LTP解碼器的時(shí)域信號(hào)輸出被用以對(duì)LTP延遲緩沖器進(jìn)行反饋。
一些實(shí)施例使TCX LTP增益朝向零衰落。在此實(shí)施例中,TCX LTP增益可例如按某一信號(hào)適應(yīng)性衰落因子朝向零衰落。例如,此情形可例如根據(jù)以下偽碼迭代地進(jìn)行:
gain=gain_past*damping;
[...]
gain_past=gain;
其中:
gain為在當(dāng)前幀中應(yīng)用的TCX LTP解碼器增益;
gain_past為在先前幀中應(yīng)用的TCX LTP解碼器增益;
damping為(相對(duì))衰落因子。
圖1d說(shuō)明根據(jù)另一實(shí)施例的裝置,其中裝置進(jìn)一步包含長(zhǎng)期預(yù)測(cè)單元170,該長(zhǎng)期預(yù)測(cè)單元170包含延遲緩沖器180。長(zhǎng)期預(yù)測(cè)單元170用于取決于第二音頻信號(hào)部分、取決于儲(chǔ)存于延遲緩沖器180中的延遲緩沖器輸入及取決于長(zhǎng)期預(yù)測(cè)增益而產(chǎn)生處理信號(hào)。此外,長(zhǎng)期預(yù)測(cè)單元用于在多個(gè)幀中的該第三幀不由接收接口110接收的情況下或在該第三幀由接收接口110接收但被損毀的情況下,使長(zhǎng)期預(yù)測(cè)增益朝向零衰落。
在其他實(shí)施例中(未示出),長(zhǎng)期預(yù)測(cè)單元可例如用于取決于第一音頻信號(hào)部分、取決于儲(chǔ)存于延遲緩沖器中的延遲緩沖器輸入及取決于長(zhǎng)期預(yù)測(cè)增益而產(chǎn)生處理信號(hào)。
在圖1d中,此外,第一重建單元140可例如取決于處理信號(hào)產(chǎn)生第三音頻信號(hào)部分。
在實(shí)施例中,長(zhǎng)期預(yù)測(cè)單元170可例如用于使長(zhǎng)期預(yù)測(cè)增益朝向零衰落,其中長(zhǎng)期預(yù)測(cè)增益衰落至零的速度取決于衰落因子。
可選地或另外,長(zhǎng)期預(yù)測(cè)單元170可例如用于在多個(gè)幀中的該第三幀不由接收接口110接收的情況下或在該第三幀由接收接口110接收但被損毀的情況下,通過(guò)將所產(chǎn)生的處理信號(hào)儲(chǔ)存于延遲緩沖器180中來(lái)更新延遲緩沖器180輸入。
關(guān)于TCX LTP的上文所描述的使用,由圖13說(shuō)明更一般的實(shí)施例。
圖13說(shuō)明用于對(duì)編碼音頻信號(hào)進(jìn)行解碼以獲得重建音頻信號(hào)的裝置。
裝置包含用于接收多個(gè)幀的接收接口1310、用于儲(chǔ)存解碼音頻信號(hào)的音頻信號(hào)樣本的延遲緩沖器1320、用于自儲(chǔ)存于延遲緩沖器1320中的音頻信號(hào)樣本選擇多個(gè)選定音頻信號(hào)樣本的樣本選擇器1330及用于處理選定音頻信號(hào)樣本以獲得重建音頻信號(hào)的重建音頻信號(hào)樣本的樣本處理器1340。
樣本選擇器1330用于在當(dāng)前幀由接收接口1310接收的情況下及在由接收接口1310接收的當(dāng)前幀未被損毀的情況下,取決于由當(dāng)前幀包含的音高滯后信息自儲(chǔ)存于延遲緩沖器1320中的音頻信號(hào)樣本選擇多個(gè)選定音頻信號(hào)樣本。此外,樣本選擇器1330用于在當(dāng)前幀不由接收接口1310接收的情況下或在由接收接口1310接收的當(dāng)前幀被損毀的情況下,取決于由先前由接收接口1310所接收的另一幀所包含的音高滯后信息自儲(chǔ)存于延遲緩沖器1320中的音頻信號(hào)樣本選擇多個(gè)選定音頻信號(hào)樣本。
根據(jù)實(shí)施例,樣本處理器1340可例如用于在當(dāng)前幀由接收接口1310接收的情況下及在由接收接口1310接收的當(dāng)前幀未被損毀的情況下,通過(guò)取決于由當(dāng)前幀所包含的增益信息重新按比例調(diào)整選定音頻信號(hào)樣本而獲得重建音頻信號(hào)樣本。此外,樣本處理器1340可例如用于在當(dāng)前幀不由接收接口1310接收的情況下或在由接收接口1310接收的當(dāng)前幀被損毀的情況下,通過(guò)取決于由先前由接收接口1310所接收的該另一幀所包含的增益信息重新按比例調(diào)整選定音頻信號(hào)樣本而獲得重建音頻信號(hào)樣本。
在實(shí)施例中,樣本處理器1340可例如用于在當(dāng)前幀由接收接口1310接收的情況下及在由接收接口1310接收的當(dāng)前幀未被損毀的情況下,通過(guò)將選定音頻信號(hào)樣本與取決于由當(dāng)前幀所包含的增益信息的值相乘而獲得重建音頻信號(hào)樣本。此外,樣本處理器1340用于在當(dāng)前幀不由接收接口1310接收的情況下或在由接收接口1310接收的當(dāng)前幀被損毀的情況下,通過(guò)將選定音頻信號(hào)樣本與取決于由先前由接收接口1310所接收的該另一幀所包含的增益信息的值相乘而獲得重建音頻信號(hào)樣本。
根據(jù)實(shí)施例,樣本處理器1340可例如用于將重建音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器1320中。
在實(shí)施例中,樣本處理器1340可例如用于在由接收接口1310接收另一幀之前將重建音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器1320中。
根據(jù)實(shí)施例,樣本處理器1340可例如用于在由接收接口1310接收另一幀之后將重建音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器1320中。
在實(shí)施例中,樣本處理器1340可例如用于取決于增益信息來(lái)重新按比例調(diào)整選定音頻信號(hào)樣本以獲得重新按比例調(diào)整的音頻信號(hào)樣本,及通過(guò)組合重新按比例調(diào)整的音頻信號(hào)樣本與輸入音頻信號(hào)樣本以獲得處理音頻信號(hào)樣本。
根據(jù)實(shí)施例,樣本處理器1340可例如用于在當(dāng)前幀由接收接口1310接收的情況下及在由接收接口1310接收的當(dāng)前幀未被損毀的情況下,將指示重新按比例調(diào)整的音頻信號(hào)樣本與輸入音頻信號(hào)樣本的組合的處理音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器1320中,且不將重新按比例調(diào)整的音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器1320中。此外,樣本處理器1340用于在當(dāng)前幀不由接收接口1310接收的情況下或在由接收接口1310接收的當(dāng)前幀被損毀的情況下,將重新按比例調(diào)整的音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器1320中,且不將處理音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器1320中。
根據(jù)另一實(shí)施例,樣本處理器1340可例如用于在當(dāng)前幀不由接收接口1310接收的情況下或在由接收接口1310接收的當(dāng)前幀被損毀的情況下,將處理音頻信號(hào)樣本儲(chǔ)存于延遲緩沖器1320中。
在實(shí)施例中,樣本處理器1340可例如用于通過(guò)取決于修改的增益重新按比例調(diào)整選定音頻信號(hào)樣本而獲得重建音頻信號(hào)樣本,其中修改的增益是根據(jù)如下公式來(lái)定義的:
gain=gain_past*damping;
其中g(shù)ain為修改的增益,gain_past為在先前幀中應(yīng)用的增益,其中樣本處理器1340可例如用于在gain已被計(jì)算之后將gain_past設(shè)定為gain,且其中damping為實(shí)數(shù)。
根據(jù)實(shí)施例,樣本處理器1340可例如用于計(jì)算修改的增益。
在實(shí)施例中,damping可例如根據(jù)下式來(lái)定義:0<damping<1。
根據(jù)實(shí)施例,在自最后一幀由接收接口1310接收以來(lái)至少預(yù)定義數(shù)目的幀尚未由接收接口1310接收的情況下,修改的增益gain可例如被設(shè)定為零。
在下文中,考慮衰落速度。存在應(yīng)用某種衰落的若干隱藏模塊。雖然此衰落的速度可能在那些模塊中被不同地進(jìn)行選擇,但對(duì)于一個(gè)核心(ACELP或TCX)的所有隱藏模塊使用相同衰落速度系有益的。舉例而言:
對(duì)于ACELP,特別地,針對(duì)適應(yīng)性碼簿(通過(guò)更改增益)及/或針對(duì)創(chuàng)新碼簿信號(hào)(通過(guò)更改增益),應(yīng)使用相同衰落速度。
又,對(duì)于TCX,特別地,針對(duì)時(shí)域信號(hào)及/或針對(duì)LTP增益(衰落至零)及/或針對(duì)LPC加權(quán)(衰落至一)及/或針對(duì)LP系數(shù)(衰落至背景頻譜形狀)及/或針對(duì)至白噪聲的交叉衰落,應(yīng)使用相同衰落速度。
針對(duì)ACELP及TCX亦使用相同衰落速度可能進(jìn)一步為較佳的,但歸因于核心的不同性質(zhì),亦可能選擇使用不同衰落速度。
此衰落速度可能為靜態(tài)的,但較佳地適應(yīng)于信號(hào)特性。舉例而言,衰落速度可例如取決于LPC穩(wěn)定性因子(TCX)及/或分類及/或連續(xù)丟失幀的數(shù)目。
衰落速度可例如取決于衰減因子來(lái)判定,該衰減因子可能被絕對(duì)地或相對(duì)地給出,且亦可能在某一衰落的過(guò)程中隨時(shí)間的流逝而改變。
在實(shí)施例中,對(duì)于LTP增益衰落使用與白噪聲衰落相同的衰落速度。
已提供用于產(chǎn)生如上文所描述的舒緩噪聲信號(hào)的裝置、方法及計(jì)算機(jī)程序。
盡管已在裝置的上下文中描述一些方面,但顯然,這些方面亦表示對(duì)應(yīng)方法的描述,其中區(qū)塊或器件對(duì)應(yīng)于方法步驟或方法步驟的特征。類似地,在方法步驟的上下文中所描述的方面亦表示對(duì)應(yīng)裝置的對(duì)應(yīng)區(qū)塊或項(xiàng)目或特征的描述。
本發(fā)明的分解的信號(hào)可儲(chǔ)存于數(shù)字儲(chǔ)存媒體上或可在諸如無(wú)線傳輸媒體的傳輸媒體或諸如因特網(wǎng)的有線傳輸媒體上傳輸。
取決于某些實(shí)施要求,本發(fā)明的實(shí)施例可以硬件或軟件實(shí)施。實(shí)施可使用數(shù)字儲(chǔ)存媒體來(lái)執(zhí)行,該媒體例如軟性磁盤(pán)、DVD、CD、ROM、PROM、EPROM、EEPROM或閃存,該媒體上儲(chǔ)存有電子可讀控制信號(hào),這些電子可讀控制信號(hào)與可編程計(jì)算機(jī)系統(tǒng)協(xié)作(或能夠協(xié)作)以使得執(zhí)行各個(gè)方法。
根據(jù)本發(fā)明的一些實(shí)施例包含具有電子可讀控制信號(hào)的非暫時(shí)性數(shù)據(jù)載體,這些電子可讀控制信號(hào)能夠與可編程計(jì)算機(jī)系統(tǒng)協(xié)作,使得執(zhí)行本文中所描述的方法中的一個(gè)。
大體而言,本發(fā)明的實(shí)施例可實(shí)施為具有程序代碼的計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序產(chǎn)品執(zhí)行于計(jì)算機(jī)上時(shí),程序代碼操作性地用于執(zhí)行這些方法中的一個(gè)。程序代碼可(例如)儲(chǔ)存于機(jī)器可讀載體上。
其他實(shí)施例包含儲(chǔ)存于機(jī)器可讀載體上的用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序。
換言之,因此,本發(fā)明方法的實(shí)施例為具有程序代碼的計(jì)算機(jī)程序,當(dāng)計(jì)算機(jī)程序執(zhí)行于計(jì)算機(jī)上時(shí),該程序代碼用于執(zhí)行本文中所描述的方法中的一個(gè)。
因此,本發(fā)明方法的另一實(shí)施例為包含記錄于其上的,用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序的數(shù)據(jù)載體(或數(shù)字儲(chǔ)存媒體,或計(jì)算機(jī)可讀媒體)。
因此,本發(fā)明方法的另一實(shí)施例為表示用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序的數(shù)據(jù)串流或信號(hào)序列。數(shù)據(jù)串流或信號(hào)序列可例如用于經(jīng)由數(shù)據(jù)通信連接(例如,經(jīng)由因特網(wǎng))而傳送。
另一實(shí)施例包含用于或經(jīng)調(diào)適以執(zhí)行本文中所描述的方法中的一個(gè)的處理構(gòu)件,例如,計(jì)算機(jī)或可編程邏輯器件。
另一實(shí)施例包含安裝有用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序的計(jì)算機(jī)。
在一些實(shí)施例中,可編程邏輯器件(例如,場(chǎng)可編程門陣列)可用于執(zhí)行本文中所描述的方法的功能性中的一些或所有。在一些實(shí)施例中,場(chǎng)可編程門陣列可與微處理器協(xié)作,以便執(zhí)行本文中所描述的方法中的一個(gè)。大體而言,較佳地由任何硬件裝置執(zhí)行這些方法。
上文所描述的實(shí)施例僅僅說(shuō)明本發(fā)明的原理。應(yīng)理解,對(duì)本文中所描述的配置及細(xì)節(jié)的修改及變型對(duì)本領(lǐng)域技術(shù)人員而言將是顯而易見(jiàn)。因此,僅意欲由待決專利的權(quán)利要求的范圍限制,而不由通過(guò)本文的實(shí)施例的描述及解釋而提出的特定細(xì)節(jié)限制。
參考文獻(xiàn)
[3GP09a]3GPP;Technical Specification Group Services and System Aspects,Extended adaptive multi-rate-wideband(AMR-WB+)codec,3GPP TS 26.290,3rd Generation Partnership Project,2009.
[3GP09b]Extended adaptive multi-rate-wideband(AMR-WB+)codec;floating-point ANSI-C code,3GPP TS 26.304,3rd Generation Partnership Project,2009.
[3GP09c]Speech codec speech processing functions;adaptive multi-rate-wideband(AMRWB)speech codec;transcoding functions,3GPP TS 26.190,3rd Generation Partnership Project,2009.
[3GP12a]Adaptive multi-rate(AMR)speech codec;error concealment of lost frames(release 11),3GPP TS 26.091,3rd Generation Partnership Project,Sep 2012.
[3GP12b]Adaptive multi-rate(AMR)speech codec;transcoding functions(release 11),3GPP TS 26.090,3rd Generation Partnership Project,Sep 2012.[3GP12c],ANSI-C code for the adaptive multi-rate-wideband(AMR-WB)speech codec,3GPP TS 26.173,3rd Generation Partnership Project,Sep2012.
[3GP12d]ANSI-C code for the floating-point adaptive multi-rate(AMR)speech codec(release11),3GPP TS 26.104,3rd Generation Partnership Project,Sep 2012.
[3GP12e]General audio codec audio processing functions;Enhanced aacPlus general audio codec;additional decoder tools(release 11),3GPP TS26.402,3rd Generation Partnership Project,Sep 2012.
[3GP12f]Speech codec speech processing functions;adaptive multi-rate-wideband(amr-wb)speech codec;ansi-c code,3GPP TS 26.204,3rd Generation Partnership Project,2012.
[3GP12g]Speech codec speech processing functions;adaptive multi-rate-wideband(AMR-WB)speech codec;error concealment of erroneous or lost frames,3GPP TS 26.191,3rd Generation Partnership Project,Sep 2012.
[BJH06]I.Batina,J.Jensen,and R.Heusdens,Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics,in Proc.IEEE Int.Conf.Acoust.,Speech,Signal Process.3(2006),1064–1067.
[BP06]A.Borowicz and A.Petrovsky,Minima controlled noise estimation for klt-based speech enhancement,CD-ROM,2006,Italy,Florence.
[Coh03]I.Cohen,Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging,IEEE Trans.Speech Audio Process.11(2003),no.5,466–475.
[CPK08]Choong Sang Cho,Nam In Park,and Hong Kook Kim,A packet loss concealment algorithm robust to burst packet loss for celp-type speech coders,Tech.report,Korea Enectronics Technology Institute,Gwang Institute of Science and Technology,2008,The 23rd International Technical Conference on Circuits/Systems,Computers and Communications(ITC-CSCC 2008).
[Dob95]G.Doblinger,Computationally efficient speech enhancement by spectral minima tracking in subbands,in Proc.Eurospeech(1995),1513–1516.
[EBU10]EBU/ETSI JTC Broadcast,Digital audio broadcasting(DAB);transport of advanced audio coding(AAC)audio,ETSI TS 102 563,European Broadcasting Union,May 2010.
[EBU12]Digital radio mondiale(DRM);system specification,ETSI ES 201 980,ETSI,Jun 2012.
[EH08]Jan S.Erkelens and Richards Heusdens,Tracking of Nonstationary Noise Based on Data-Driven Recursive Noise Power Estimation,Audio,Speech,and Language Processing,IEEE Transactions on 16(2008),no.6,1112–1123.
[EM84]Y.Ephraim and D.Malah,Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,IEEE Trans.Acoustics,Speech and Signal Processing 32(1984),no.6,1109–1121.
[EM85]Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,IEEE Trans.Acoustics,Speech and Signal Processing 33(1985),443–445.
[Gan05]S.Gannot,Speech enhancement:Application of the kalman filter in the estimate-maximize(em framework),Springer,2005.
[HE95]H.G.Hirsch and C.Ehrlicher,Noise estimation techniques for robust speech recognition,Proc.IEEE Int.Conf.Acoustics,Speech,Signal Processing,no.pp.153-156,IEEE,1995.
[HHJ10]Richard C.Hendriks,Richard Heusdens,and Jesper Jensen,MMSE based noise PSD tracking with low complexity,Acoustics Speech and Signal Processing(ICASSP),2010 IEEE International Conference on,Mar 2010,pp.4266–4269.
[HJH08]Richard C.Hendriks,Jesper Jensen,and Richard Heusdens,Noise tracking using dft domain subspace decompositions,IEEE Trans.Audio,Speech,Lang.Process.16(2008),no.3,541–553.
[IET12]IETF,Definition of the Opus Audio Codec,Tech.Report RFC 6716,Internet Engineering Task Force,Sep 2012.
[ISO09]ISO/IEC JTC1/SC29/WG11,Information technology–coding of audio-visual objects–part 3:Audio,ISO/IEC IS 14496-3,International Organization for Standardization,2009.
[ITU03]ITU-T,Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband(amr-wb),Recommendation ITU-T G.722.2,Telecommunication Standardization Sector of ITU,Jul 2003.
[ITU05]Low-complexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss,Recommendation ITU-T G.722.1,Telecommunication Standardization Sector of ITU,May 2005.
[ITU06a]G.722 Appendix III:A high-complexity algorithm for packet loss concealment for G.722,ITU-T Recommendation,ITU-T,Nov 2006.
[ITU06b]G.729.1:G.729-based embedded variable bit-rate coder:An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729,Recommendation ITU-T G.729.1,Telecommunication Standardization Sector of ITU,May 2006.
[ITU07]G.722 Appendix IV:A low-complexity algorithm for packet loss concealment with G.722,ITU-T Recommendation,ITU-T,Aug 2007.
[ITU08a]G.718:Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s,Recommendation ITU-T G.718,Telecommunication Standardization Sector of ITU,Jun2008.
[ITU08b]G.719:Low-complexity,full-band audio coding for high-quality,conversational applications,Recommendation ITU-T G.719,Telecommunication Standardization Sector of ITU,Jun 2008.
[ITU12]G.729:Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction(cs-acelp),Recommendation ITU-T G.729,Telecommunication Standardization Sector of ITU,June2012.
[LS01]Pierre Lauber and Ralph Sperschneider,Error concealment for compressed digital audio,Audio Engineering Society Convention 111,no.5460,Sep 2001.
[Mar01]Rainer Martin,Noise power spectral density estimation based on optimal smoothing and minimum statistics,IEEE Transactions on Speech and Audio Processing 9(2001),no.5,504–512.
[Mar03]Statistical methods for the enhancement of noisy speech,International Workshop on Acoustic Echo and Noise Control(IWAENC2003),Technical University of Braunschweig,Sep 2003.
[MC99]R.Martin and R.Cox,New speech enhancement techniques for low bit rate speech coding,in Proc.IEEE Workshop on Speech Coding(1999),165–167.
[MCA99]D.Malah,R.V.Cox,and A.J.Accardi,Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments,Proc.IEEE Int.Conf.on Acoustics Speech and Signal Processing(1999),789–792.
[MEP01]Nikolaus Meine,Bernd Edler,and Heiko Purnhagen,Error protection and concealment for HILN MPEG-4 parametric audio coding,Audio Engineering Society Convention 110,no.5300,May 2001.
[MPC89]Y.Mahieux,J.-P.Petit,and A.Charbonnier,Transform coding of audio signals using correlation between successive transform blocks,Acoustics,Speech,and Signal Processing,1989.ICASSP-89.,1989International Conference on,1989,pp.2021–2024 vol.3.
[NMR+12]Max Neuendorf,Markus Multrus,Nikolaus Rettelbach,Guillaume Fuchs,Julien Robilliard,Jérémie Lecomte,Stephan Wilde,Stefan Bayer,Sascha Disch,Christian Helmrich,Roch Lefebvre,Philippe Gournay,Bruno Bessette,Jimmy Lapierre,Kristopfer Heiko Purnhagen,Lars Villemoes,Werner Oomen,Erik Schuijers,Kei Kikuiri,Toru Chinen,Takeshi Norimatsu,Chong Kok Seng,Eunmi Oh,Miyoung Kim,Schuyler Quackenbush,and Berndhard Grill,MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types,Convention Paper 8654,AES,April 2012,Presented at the 132nd Convention Budapest,Hungary.
[PKJ+11]Nam In Park,Hong Kook Kim,Min A Jung,Seong Ro Lee,and Seung Ho Choi,Burst packet loss concealment using multiple codebooks and comfort noise for celp-type speech coders in wireless sensor networks,Sensors11(2011),5323–5336.
[QD03]Schuyler Quackenbush and Peter F.Driessen,Error mitigation in MPEG-4audio packet communication systems,Audio Engineering Society Convention 115,no.5981,Oct 2003.
[RL06]S.Rangachari and P.C.Loizou,A noise-estimation algorithm for highly non-stationary environments,Speech Commun.48(2006),220–231.
[SFB00]V.Stahl,A.Fischer,and R.Bippus,Quantile based noise estimation for spectral subtraction and wiener filtering,in Proc.IEEE Int.Conf.Acoust.,Speech and Signal Process.(2000),1875–1878.
[SS98]J.Sohn and W.Sung,A voice activity detector employing soft decision based noise spectrum adaptation,Proc.IEEE Int.Conf.Acoustics,Speech,Signal Processing,no.pp.365-368,IEEE,1998.
[Yu09]Rongshan Yu,A low-complexity noise estimation algorithm based on smoothing of noise power estimation and estimation bias correction,Acoustics,Speech and Signal Processing,2009.ICASSP 2009.IEEE International Conference on,Apr 2009,pp.4421–4424.