專利名稱:一種mp3壓縮域音頻自適應(yīng)降噪方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種MP3壓縮域音頻自適應(yīng)降噪方法,主要是在不同高斯白噪聲條件 下,對(duì)含有噪聲的MP3音頻,直接在MP3壓縮域?qū)崿F(xiàn)對(duì)MP3音頻的自適應(yīng)降噪處理的方法。
背景技術(shù):
音頻降噪技術(shù),是指利用信號(hào)處理和模式識(shí)別的方法,從含有噪聲的音頻中將噪 聲去除,使去除噪聲后的音頻有較高的信噪比和較好的質(zhì)量。音頻降噪是音頻信號(hào)處理領(lǐng) 域需要解決的關(guān)鍵技術(shù)之一。互聯(lián)網(wǎng)以及各種數(shù)據(jù)庫(kù)中存在的大量音頻數(shù)據(jù)都是以壓縮格式存儲(chǔ),如何對(duì)壓縮 域中的音頻數(shù)據(jù)進(jìn)行處理已成為音頻研究領(lǐng)域的一大熱點(diǎn)。國(guó)內(nèi)外學(xué)者已針對(duì)壓縮音頻的 分割、分類、檢索算法進(jìn)行了大量的研究,并且能獲得與非壓縮音頻處理相近的實(shí)驗(yàn)結(jié)果。 但在壓縮音頻中混有噪聲的情況下,音頻分類檢索算法的精度卻受到嚴(yán)重的影響。通常,先 對(duì)含有噪聲的壓縮域音頻解壓縮,再進(jìn)行降噪處理,耗費(fèi)的時(shí)間較多,這必然降低對(duì)壓縮音 頻進(jìn)行各種處理的效率。因此,研究如何直接基于壓縮域?qū)崿F(xiàn)音頻的降噪處理,以最小計(jì)算 代價(jià)實(shí)現(xiàn)降噪來(lái)提高壓縮域音頻的檢索效率顯得尤為重要。在對(duì)音頻進(jìn)行壓縮處理時(shí)考慮了人耳的聽覺掩蔽特性,通過第二心理聲學(xué)模型來(lái) 選擇修正的離散余弦變換(MDCT)的窗函數(shù)。同時(shí),MDCT變換也是FFT變換的一種修正,且 MDCT系數(shù)具有稀疏特性。因此,我們可以從壓縮域音頻中提取MDCT系數(shù),然后試圖尋找一 種能擬合稀疏分布的模型函數(shù)用于對(duì)MDCT系數(shù)進(jìn)行先驗(yàn)建模,然后構(gòu)建濾波器,實(shí)現(xiàn)對(duì)壓 縮域音頻的降噪處理。本發(fā)明正是采用上述的方法,從MPEGl標(biāo)準(zhǔn)聲音第三層壓縮技術(shù)MP3 壓縮域音頻中提取MDCT系數(shù),采用正態(tài)反高斯函數(shù)對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模,構(gòu)建 最大后驗(yàn)概率估計(jì)函數(shù),實(shí)現(xiàn)壓縮域音頻的降噪。本發(fā)明所提出的降噪方法解決了 MP3壓縮域中含有噪聲的音頻降噪問題,可進(jìn)一 步應(yīng)用于MP3音頻的語(yǔ)音識(shí)別和分類檢索系統(tǒng)中。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種MP3壓縮域音頻自適應(yīng)降噪方法,通過從MP3音頻提 取MDCT系數(shù),對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模,并構(gòu)建估計(jì)器,實(shí)現(xiàn)對(duì)含有噪聲的MP3音 頻進(jìn)行降噪處理。本發(fā)明解決其技術(shù)問題采用的技術(shù)方案為先從MP3音頻數(shù)據(jù)中提取MDCT系數(shù), 再對(duì)MDCT系數(shù)進(jìn)行先驗(yàn)概率建模,然后構(gòu)造噪聲衰減估計(jì)器。同時(shí),對(duì)MP3音頻進(jìn)行靜音 段檢測(cè),根據(jù)靜音段的衰減比重來(lái)調(diào)整對(duì)含噪音頻段進(jìn)行噪聲衰減的程度。本發(fā)明解決其技術(shù)問題采用的技術(shù)方案還可以進(jìn)一步完善。首先從MP3音頻數(shù)據(jù) 中提取MDCT系數(shù),再分析MDCT系數(shù)的特性,根據(jù)MDCT系數(shù)的特性選擇適用于對(duì)MDCT系數(shù) 分布進(jìn)行先驗(yàn)概率建模的正態(tài)反高斯分布函數(shù),然后根據(jù)貝葉斯最大后驗(yàn)概率理論來(lái)構(gòu)造 噪聲衰減估計(jì)器。同時(shí),利用MDCT譜能量特征對(duì)MP3音頻進(jìn)行靜音段檢測(cè),根據(jù)靜音段的衰減比重來(lái)調(diào)整降噪處理時(shí)對(duì)噪聲衰減的程度。該方法具體包括如下步驟1)、含有噪聲的MP3壓縮音頻的預(yù)處理,包括對(duì)MP3幀頭進(jìn)行解碼、邊信息獲取、獲 取主數(shù)據(jù)和縮放因子、哈夫曼解碼和反量化四個(gè)部分;2)、提取MDCT系數(shù),并進(jìn)行幅值映射處理從反量化后的MP3幀中找出每一幀兩個(gè) 粒度的MDCT系數(shù),對(duì)兩個(gè)顆粒的MDCT系數(shù)按頻率點(diǎn)求平均,構(gòu)建每幀音頻的MDCT譜系數(shù), 并將MDCT系數(shù)的幅值范圍映射到O-L之間;3)、對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模并構(gòu)造最大后驗(yàn)概率估計(jì)器分別對(duì)不含噪 聲的MDCT系數(shù)和含有噪聲的MDCT系數(shù)的分布情況進(jìn)行分析,獲得不含噪聲的MDCT系數(shù)的 統(tǒng)計(jì)特性。根據(jù)MDCT系數(shù)的稀疏統(tǒng)計(jì)特性,利用正態(tài)反高斯(OTG)分布函數(shù)對(duì)MDCT系數(shù) 進(jìn)行先驗(yàn)建模。根據(jù)貝葉斯最大后驗(yàn)概率準(zhǔn)則,推導(dǎo)出基于NIG先驗(yàn)分布模型的估計(jì)器。4)、靜音段檢測(cè)提取基于MDCT系數(shù)的譜能量特征,根據(jù)能量特征參數(shù)檢測(cè)MP3音 頻中的靜音段;5)、自適應(yīng)迭代估計(jì)利用3)中的估計(jì)器對(duì)含有噪聲的MP3進(jìn)行估計(jì),并通過4) 中檢測(cè)到的靜音段的衰減因子自適應(yīng)地調(diào)整迭代估計(jì)的次數(shù)。本發(fā)明有益的效果是直接基于MP3壓縮域?qū)P3音頻進(jìn)行降噪處理,比傳統(tǒng)的將 MP3壓縮音頻解碼為非壓縮的wave音頻再進(jìn)行降噪處理的方法而言,本發(fā)明提出的方法更 簡(jiǎn)單,且節(jié)省計(jì)算時(shí)間;研究MP3音頻的MDCT系數(shù)的分布特性,選擇適用于對(duì)MDCT系數(shù)的 分布進(jìn)行先驗(yàn)建模的函數(shù),實(shí)驗(yàn)結(jié)果表明所選擇的函數(shù)能有效的擬合MDCT系數(shù)的分布;并 且,基于MDCT系數(shù)的先驗(yàn)概率分布函數(shù)設(shè)計(jì)的噪聲衰減估計(jì)器能有效地實(shí)現(xiàn)MP3壓縮音頻 的降噪;同時(shí),利用MDCT譜能量特征檢測(cè)MP3音頻中的靜音段,再由靜音段的衰減因子自適 應(yīng)控制衰減噪聲的程度,不僅能有效的解決降噪過程中過衰減或欠衰減導(dǎo)致引入音頻噪聲 的問題,而且降噪后的音頻具有良好的效果。
圖1是本發(fā)明方法的流程圖。
具體實(shí)施例方式本發(fā)明一種MP3壓縮域音頻自適應(yīng)降噪方法的一個(gè)優(yōu)選實(shí)施例結(jié)合
如 下一種MP3壓縮域音頻自適應(yīng)降噪方法共分為五步第一步含有噪聲的MP3壓縮音頻的預(yù)處理含有噪聲的MP3壓縮音頻的預(yù)處理,包括對(duì)MP3幀頭進(jìn)行解碼、邊信息獲取、讀取 主數(shù)據(jù)和縮放因子、哈夫曼解碼和反量化四個(gè)部分。1、同步數(shù)據(jù)流和幀頭信息的獲取A)、根據(jù)MP3編碼格式,從MP3數(shù)據(jù)流中搜索同步信息;B)、根據(jù)同步信息,找到MP3數(shù)據(jù)流中各幀數(shù)據(jù)的起始位置;C)、確定數(shù)據(jù)幀的起始位置后,獲取幀頭信息Head ;2、邊信息的獲取A)、根據(jù)MP3幀頭的編碼格式,確定MP3幀頭中邊信息的起始位置;B)、從MP3幀頭信息Head中獲取邊信息Side ;
3、MP3主數(shù)據(jù)和縮放因子的讀取A)、根據(jù)邊信息Side計(jì)算主數(shù)據(jù)的長(zhǎng)度L ;B)、根據(jù)幀頭信息Head中主數(shù)據(jù)的偏移量,確定MP3主數(shù)據(jù)的起始位置;C)、從當(dāng)前幀中獲取總長(zhǎng)度為L(zhǎng)的主數(shù)據(jù)D ;D)、從主數(shù)據(jù)D中提取縮放因子Scale ;4、哈夫曼解碼和反量化A)、根據(jù)邊信息Side確定哈夫曼解碼數(shù)據(jù)的起始和結(jié)束位置;B)、對(duì)MP3主數(shù)據(jù)D進(jìn)行哈夫曼解碼,得到32*18維的哈夫曼解碼結(jié)果F[32,18];C)、對(duì)哈夫曼解碼結(jié)果F[32,18]中的數(shù)據(jù)進(jìn)行反量化。第二步MDCT系數(shù)提取及幅值映射處理1、構(gòu)建每幀音頻的修正離散余弦變換MDCT系數(shù)A)、分配用于存放一幀MP3音頻兩個(gè)粒度的MDCT系數(shù)的n*576大小的存儲(chǔ)空間 MDCT0 [η, 576], MDCT1 [η, 576]中,其中 η 為 ΜΡ3 音頻的幀數(shù);B)、從數(shù)組F中分別找到同一幀音頻兩個(gè)粒度的MDCT系數(shù),按頻率從低到高的原 則重新排列,得到MDCT0 [i,j],MDCT1 [i,j]中;C)、計(jì)算同一幀音頻中兩個(gè)粒度相同頻率點(diǎn)處的MDCT系數(shù)的平均值,作為這一幀 音頻的MDCT系數(shù)值M[i,j];M[iJ] = MDCUiJ^MDCTx{i,n其中,MDCT。[i,j] ,MDCT1 [i,j]分別第i幀音頻的第0個(gè)粒度和第1個(gè)粒度的第j 個(gè)MDCT譜值。M[i,j]為第i幀音頻的第j個(gè)平均MDCT譜值。2、MDCT系數(shù)幅值范圍映射將MDCT系數(shù)的幅值在0-1的范圍線性映射到0_P之間,便于研究MDCT系數(shù)的統(tǒng) 計(jì)分布和相應(yīng)的擬合函數(shù) 式中,χ' u為幅值映射后的第i幀音頻的第j個(gè)MDCT譜值,M[i,j]為由1中得 到的第i幀音頻的第j個(gè)平均MDCT譜值,Mmin為最小的MDCT譜系數(shù),Mmax為最大的MDCT譜 系數(shù),P為映射后的最大幅值。第三步MDCT系數(shù)的先驗(yàn)建模和最大后驗(yàn)概率估計(jì)器1、分析MDCT的分布特性2、計(jì)算MDCT系數(shù)的概率分布函數(shù)通過1的分析得到MDCT的分布具有稀疏特性后,采用正態(tài)反高斯分布函數(shù)模擬 MDCT系數(shù)的分布,得到MDCT概率分布函數(shù)表示為 式中入⑷=全fV-'exp〔-全φ + ^^,Μ.)是索引為λ的第二階修正
貝塞爾函數(shù),&(·)是索引為1的第二階修正貝塞爾函數(shù),Kx) = ^/ 2-/ 2+/ 。-q(x) = ^2+(χ-//)2 , 0 ^ I β I < α,δ > 0,-οο< μ <οο。其中,α 為衰減因子,δ 為 尺度因子,μ為均值,β為傾斜因子。3、分析參數(shù)[α,δ, β, μ ]τ對(duì)正態(tài)反高斯分布特性的影響4、參數(shù)估計(jì)采用2中的正態(tài)反高斯分布函數(shù)來(lái)擬合MDCT系數(shù)的概率分布,需要對(duì)參數(shù)[α, δ, β, μ ]Τ進(jìn)行估計(jì)。Α)、計(jì)算方差 2,均值μ,傾斜因子β假設(shè)加入的噪聲為零均值高斯白噪聲,含噪 音頻的前幾幀為純?cè)肼晭杉冊(cè)肼晭烙?jì)噪聲MDCT系數(shù)的方差,并對(duì)含有噪聲的MDCT 系數(shù)計(jì)算均值μ。ΜΡ3音頻信號(hào)的MDCT系數(shù)呈對(duì)稱分布,因此,假設(shè)傾斜因子β = 0。B)、計(jì)算衰減因子α、尺度因子δ不含噪聲的MDCT系數(shù)的NIG分布模型的偏斜系數(shù)為慫虜/2 ,峭度系數(shù)為 爲(wèi)=5之// 22,其中Α=|4-4|。相應(yīng)的衰減因子α、尺度因子δ可通過如下式子進(jìn)行估 計(jì)δ = €χχ^γβ2\\-η2α^2χβ^2β4其中,毛、&分別為含有噪聲的MDCT系數(shù)的2至4階累積量, γ = {5β,-β γ P =C2為用于控制衰減因子α、尺度因子δ的幅值,使NIG能
有效地?cái)M合MDCT系數(shù)的分布。C)、估計(jì)參數(shù)(^和(2對(duì)不同音頻類型,不同信噪比條件下,統(tǒng)計(jì)(^、(2不同取值對(duì)MDCT系數(shù)分布的模擬 誤差,最后得到最佳的值C1 = 0. 1,C2 = 0. 1 ;故有衰減因子α、尺度因子δ的估計(jì)式為 5、設(shè)計(jì)衰減估計(jì)器根據(jù)貝葉斯最大后驗(yàn)概率準(zhǔn)則,設(shè)計(jì)基于NIG先驗(yàn)分布模型的估計(jì)函數(shù)
a K0 (aq(x)) + K2 jaqix)) 1 _8]式中,G^f ^^^^ + 爾 ’_ = -")2,Κλ(·)是
索引為λ的第二階修正貝塞爾函數(shù),^為對(duì)含有噪聲的ΜΡ3音頻數(shù)據(jù)y進(jìn)行衰減得到的無(wú) 噪MP3音頻數(shù)據(jù)。相應(yīng),可得到含有噪聲的MP3音頻的衰減因子為 第四步靜音段檢測(cè)1、MDCT譜特征的提取MDCT系數(shù)的譜能量計(jì)算如下 其中,EM⑴為第i幀音頻的MDCT譜能量,M(i,j)為第i幀音頻的第j個(gè)MDCT譜 均值,N為一幀音頻的MDCT系數(shù)的點(diǎn)數(shù)N = 576。對(duì)整個(gè)MP3音頻段,音頻段各幀的MDCT 譜能量組成相應(yīng)的特征矢量EM = [EM(O), EM(I), ... EM(N-I)],即EM為音頻段的MDCT譜
能量包絡(luò)。2、判決門限的調(diào)整A)、初始化判決門限,以整個(gè)信號(hào)的MDCT譜能量包絡(luò)的均值作為初始判決門限Lth 式中,EM(i)為第i幀音頻的MDCT譜能量,N表示音頻段的幀數(shù),Lth為初始判決門 限。B)、門限調(diào)整將音頻段的MDCT譜包絡(luò)EM中所有小于判決門限Lth的幀做為噪聲 幀處理,有EMnoise(i) = EM(i)if EM(i) < Ith式中,EMn。isJi)表示第i幀音頻的MDCT譜能量值為噪聲幀的MDCT譜能量值。初始化噪聲譜序列的均值和均方差,分別記為L(zhǎng)n。ise和Sn。ise, 式中,EMn。ise⑴表示第i個(gè)噪聲幀的MDCT譜能量值,Lnoise, Snoise分別為噪聲能量 序列的均值和均方差,M為噪聲段的幀數(shù)。在得到噪聲幀能量序列的均值Ln。ise和均方差Sn。ise基礎(chǔ)上,重新調(diào)整判決門限Lth。Lth = C0X(Lnois^C1XSnoise)其中,CO和Cl為經(jīng)驗(yàn)常數(shù),實(shí)驗(yàn)中取CO = 1.001,Cl值取在1.5 2.0之間調(diào)
整。調(diào)整完判決門限值Lth后,再重新區(qū)分噪聲和語(yǔ)音幀,并重新計(jì)算噪聲譜能量序列的均 值Ln。ise和均方差Sn。ise,然后調(diào)整判決門限值。如此重復(fù)至判決門限穩(wěn)定。3、活性端點(diǎn)的融合A)、根據(jù)門限判斷靜音幀/非靜音幀
J0, EM[q < LthEf M = {其中,Etype[i]為第i幀音頻的類型,EM[i]為第i幀音頻的MDCT譜能量值;音頻 類型EtypJi]值為0表示靜音幀,類型EtypJi]值為1表示活性音頻幀。B)、計(jì)算靜音段中所包含的幀數(shù)Fn ;
11
C)、gFN< 10,該段為連續(xù)活性音頻段間的停頓,合并入對(duì)應(yīng)的音頻段中;第五步自適應(yīng)迭代衰減1、由第三步得到的衰減函數(shù)對(duì)第四步中檢測(cè)到的靜音段計(jì)算靜音段的衰減值;2、計(jì)算1中靜音段的平均衰減值歹;3、使用第三步得到的衰減函數(shù)對(duì)含有噪聲的MP3音頻的MDCT系數(shù)進(jìn)行衰減;4、由靜音段的平均衰減值了自適應(yīng)調(diào)整迭代估計(jì)的次數(shù)重復(fù)步驟1、2、3,當(dāng)滿足 下面條件,則停止迭代,降噪完成 其中,7為靜音段的平均衰減值,amin為整段音頻的最小衰減因子,可以通過MDCT 系數(shù)的高頻段獲得。C用于控制余留分量,取C = 0.001,見附圖1。實(shí)驗(yàn)結(jié)果本實(shí)驗(yàn)使用了中央電視臺(tái)廣播音頻資料進(jìn)行了試驗(yàn)。音頻資料的格式為MP3,采樣 頻率為44. ΙΚΗζ。音頻類型有語(yǔ)音、音樂、語(yǔ)音和音樂混合的音頻。每種類型的音頻各選 擇20首。分別對(duì)各種類型的音頻加入不同程度的高斯白噪聲,采用本研究提出的自適應(yīng)降 噪算法對(duì)含有噪聲的MP3音頻進(jìn)行處理。降噪處理后的信噪比SNR采用的計(jì)算方法為 其中,x(n)為不含噪聲的MP3音頻解碼得到的PCM數(shù)據(jù),為降噪處理后的MP3 音頻解碼得到的PCM數(shù)據(jù)。降噪處理前后的信噪比SNR對(duì)比結(jié)果如表1所示表1 對(duì)MP3音頻降噪前后的信噪比SNR對(duì)比 大量的統(tǒng)計(jì)實(shí)驗(yàn)表明,本發(fā)明的基于MP3壓縮域音頻的降噪方法能直接基于MP3 壓縮域,有效實(shí)現(xiàn)對(duì)不同類型的含有噪聲的MP3音頻進(jìn)行降噪處理。降噪處理后的MP3音 頻的信噪比得到很大提高,并且處理后的音頻有良好的聽覺感知效果。本研究解決了直接 基于MP3壓縮域音頻的降噪問題,也為MP3音頻分類檢索的抗噪算法研究提出了一個(gè)新的 思路。
權(quán)利要求
一種MP3壓縮域音頻自適應(yīng)降噪方法,其特征在于首先從MP3壓縮音頻中提取體現(xiàn)原始音頻頻域特性的MDCT系數(shù),然后分析MDCT系數(shù)的稀疏統(tǒng)計(jì)特性,采用正態(tài)反高斯(NIG)分布函數(shù)對(duì)MDCT系數(shù)進(jìn)行先驗(yàn)建模,再利用貝葉斯準(zhǔn)則設(shè)計(jì)基于NIG先驗(yàn)概率模型的最大后驗(yàn)概率估計(jì)器,得到相應(yīng)音頻段的衰減因子;最后在降噪部分,利用MDCT譜能量特征檢測(cè)MP3音頻中的靜音段,并通過檢測(cè)出的靜音段的衰減權(quán)重自適應(yīng)控制衰減噪聲的迭代次數(shù),由此實(shí)現(xiàn)對(duì)MP3壓縮音頻的自適應(yīng)降噪。
2.根據(jù)權(quán)利要求1所述的MP3壓縮域音頻自適應(yīng)降噪方法,其特征在于具體操作步 驟如下1)、含有噪聲的MP3壓縮音頻的預(yù)處理,包括對(duì)MP3幀頭進(jìn)行解碼、邊信息獲取、獲取主 數(shù)據(jù)和縮放因子、哈夫曼解碼和反量化;2)、提取MDCT系數(shù),并進(jìn)行幅值映射處理從反量化后的MP3幀中找出每一幀兩個(gè)粒度 的MDCT系數(shù),對(duì)兩個(gè)顆粒的MDCT系數(shù)按頻率點(diǎn)求平均,構(gòu)建每幀音頻的MDCT譜系數(shù),并將 MDCT系數(shù)的幅值范圍映射到O-L之間;3)、對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模并構(gòu)造最大后驗(yàn)概率估計(jì)器分別對(duì)不含噪聲的 MDCT系數(shù)和含有噪聲的MDCT系數(shù)的分布情況進(jìn)行分析,獲得不含噪聲的MDCT系數(shù)的統(tǒng)計(jì) 特性;根據(jù)MDCT系數(shù)的稀疏統(tǒng)計(jì)特性,利用正態(tài)反高斯(NIG)分布函數(shù)對(duì)MDCT系數(shù)進(jìn)行先 驗(yàn)建模;根據(jù)貝葉斯最大后驗(yàn)概率準(zhǔn)則,設(shè)計(jì)基于NIG先驗(yàn)分布模型的噪聲衰減估計(jì)器;4)、靜音段檢測(cè)提取基于MDCT系數(shù)的譜能量特征,根據(jù)MDCT譜能量特征參數(shù)檢測(cè) MP3音頻中的靜音段;5)、自適應(yīng)迭代估計(jì)利用步驟3)中的估計(jì)器對(duì)含有噪聲的MP3進(jìn)行估計(jì),并通過步驟 4)中檢測(cè)到的靜音段的衰減因子自適應(yīng)地調(diào)整迭代估計(jì)的次數(shù)。
3.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法,其特征在于所述步驟1)中 的進(jìn)行MP3壓縮音頻預(yù)處理具體步驟如下①、同步數(shù)據(jù)流和幀頭信息的獲??;A)、根據(jù)MP3編碼格式,從MP3數(shù)據(jù)流中搜索同步信息;B)、根據(jù)同步信息,找到MP3數(shù)據(jù)流中各幀數(shù)據(jù)的起始位置;C)、確定數(shù)據(jù)幀的起始位置后,獲取幀頭信息Head;②、從解碼得到的幀頭信息中獲取邊信息A)、根據(jù)MP3幀頭的編碼格式,確定MP3幀頭中邊信息的起始位置;B)、從MP3幀頭信息Head中獲取邊信息Side;③、提取MP3主數(shù)據(jù)和縮放因子A)、根據(jù)邊信息Side計(jì)算主數(shù)據(jù)的長(zhǎng)度L;B)、根據(jù)幀頭信息Head中主數(shù)據(jù)的偏移量,確定MP3主數(shù)據(jù)的起始位置;C)、從當(dāng)前幀中獲取總長(zhǎng)度為L(zhǎng)的主數(shù)據(jù)D;D)、從主數(shù)據(jù)D中提取縮放因子Scale;④、對(duì)MP3主數(shù)據(jù)流進(jìn)行哈夫曼解碼和反量化A)、根據(jù)邊信息Side確定哈夫曼解碼數(shù)據(jù)的起始和結(jié)束位置;B)、對(duì)MP3主數(shù)據(jù)D進(jìn)行哈夫曼解碼,得到32*18維的哈夫曼解碼結(jié)果F[32,18];C)、對(duì)哈夫曼解碼結(jié)果F[32,18]中的數(shù)據(jù)進(jìn)行反量化。
4.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法,其特征在于所述步驟2)中 的MDCT系數(shù)提取及幅值映射處理具體步驟如下①、構(gòu)建每幀音頻的修正離散余弦變換MDCT系數(shù)A)、分配用于存放一幀MP3音頻兩個(gè)粒度的MDCT系數(shù)的n*576大小的存儲(chǔ)空間 MDCT。[n,576],MDCTjn,576]中,其中 n 為 MP3 音頻的幀數(shù);B)、從數(shù)組F中分別找到同一幀音頻兩個(gè)粒度的MDCT系數(shù),按頻率從低到高的原則重 新排列,得到 MDCT。[i,j],MDCT, [i,j];C)、計(jì)算同一幀音頻中兩個(gè)粒度相同頻率點(diǎn)處的MDCT系數(shù)的平均值,作為這一幀音頻 的MDCT系數(shù)值M[i,j];M[. n 二 MDCT0[i,n + MDCT\i,n其中,MDCT0[i, j],MDCT^i, j]分別第i幀音頻的第0個(gè)粒度和第1個(gè)粒度的第j個(gè) MDCT譜值;M[i,j]為第i幀音頻的第j個(gè)平均MDCT譜值;②、MDCT系數(shù)幅值范圍映射將MDCT系數(shù)的幅值在0-1的范圍線性映射到0-P之間, 便于研究MDCT系數(shù)的統(tǒng)計(jì)分布和相應(yīng)的擬合函數(shù)x' _ M[iJ]-Mmm ^ “Mmax-Mmm式中X' 為幅值映射后的第i幀音頻的第j個(gè)MDCT譜值,M[i,j]為由①得到的第 i幀音頻的第j個(gè)平均MDCT譜值,為最小的MDCT譜系數(shù),M_為最大的MDCT譜系數(shù),P 為映射后的最大幅值。
5.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法,其特征在于所述步驟3)中 對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模并構(gòu)造最大后驗(yàn)概率估計(jì)器具體步驟如下①、分析MDCT的分布特性②、計(jì)算MDCT系數(shù)的概率分布函數(shù)通過步驟①的分析得到MDCT的分布具有稀疏特性后,采用正態(tài)反高斯分布函數(shù)模擬 MDCT系數(shù)的分布,得到MDCT概率分布函數(shù)表示為-^^expf/zO)]、[aq{x)]式中&(《)=去_[>一-16鄧〔-全+ +廠1)>,1(“.)是索引為入的第二階修正貝塞爾函數(shù),是索引為1的第二階修正貝塞爾函數(shù),=礦+々(x-//),q(x) = ^jS2+(x-juf , 0 ^ ^ | < a , 6 > 0,- °o< p <00。其中,a 為衰減因子,6 為尺度因子,P為均值,0為傾斜因子。③、分析衰減因子a、尺度因子S,均值y,傾斜因子0四個(gè)參數(shù)對(duì)正態(tài)反高斯分布特 性的影響④、參數(shù)估計(jì)采用步驟②中的正態(tài)反高斯分布函數(shù)來(lái)擬合MDCT系數(shù)的概率分布,需要對(duì)決定正態(tài) 反高斯分布形狀的四個(gè)參數(shù)[a,S,0,y ]T進(jìn)行估計(jì)八)、計(jì)算方差口〗,均值μ,傾斜因子β假設(shè)加入的噪聲為零均值高斯白噪聲,含噪音頻 的前幾幀為純?cè)肼晭杉冊(cè)肼晭烙?jì)噪聲MDCT系數(shù)的方差σε2,并對(duì)含有噪聲的MDCT系數(shù) 計(jì)算均值μ,ΜΡ3音頻信號(hào)的MDCT系數(shù)呈對(duì)稱分布,因此,假設(shè)傾斜因子β = 0 ;B)、計(jì)算衰減因子α、尺度因子δ采用NIG分布模型的偏斜系數(shù)和峭度系數(shù)來(lái)估計(jì)衰減因子α和尺度因子δ ;不含噪 聲的MDCT系數(shù)的NIG分布模型的偏斜系數(shù)為/ 3 = 4/A3'2,峭度系數(shù)為A = ^JPl ,其中總二I之-σ〗|;相應(yīng)的衰減因子α、尺度因子δ通過如下式子進(jìn)行估計(jì)其中,總、夂、乞分別為含有噪聲的MDCT系數(shù)的2至4階累積量,/ = (5慫-慮)_1, 7 = | Α//2,參數(shù)C1, C2為衰減因子α、尺度因子δ的權(quán)值,通過選擇合適的C1, C2值,使NIG能有效地?cái)M合MDCT系數(shù)的分布;C)、估計(jì)衰減因子和尺度因子的權(quán)值C”C2對(duì)不同音頻類型,不同信噪比條件下,統(tǒng)計(jì)C1W2取不同值時(shí)對(duì)MDCT系數(shù)分布的擬合誤 差,最后得到最佳的值C1 = 0. 1,C2 = 0. 1 ;故有衰減因子α、尺度因子δ的估計(jì)式為“O.lx—2|l-"2Iα=0.\χβ^2β4⑤、根據(jù)貝葉斯最大后驗(yàn)概率準(zhǔn)則,設(shè)計(jì)基于NIG先驗(yàn)分布模型的噪聲衰減函數(shù) χ-——^—τ—χ ν + σ β)=——χ^,一 a K0 (ocq(x)) + K2 (aq(x)) 1 式中, = Χ 2K,{aq{x)) + [q(x)f ’φ、= — μγ,Μ·)是索引為λ的第二階修正貝塞爾函數(shù)d為對(duì)含有噪聲的ΜΡ3音頻數(shù)據(jù)y進(jìn)行衰減得到的無(wú)噪ΜΡ3 音頻數(shù)據(jù);相應(yīng),可得到含有噪聲的MP3音頻的衰減因子為
6.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法,其特征在于所述步驟4)靜 音段檢測(cè)具體步驟如下①、提取基于MDCT系數(shù)的譜特征^ 7=0其中,EM⑴為第i幀音頻的MDCT譜能量,M(i,j)為第i幀音頻的第j個(gè)MDCT譜均 值,N為一幀音頻的MDCT系數(shù)的點(diǎn)數(shù)N = 576,對(duì)整個(gè)MP3音頻段,音頻段各幀的MDCT譜能4量組成相應(yīng)的特征矢量EM = [EM(O),EM⑴,· · ·,EM (N-I)],即EM為音頻段的MDCT譜能量 包絡(luò);②、根據(jù)MDCT譜能量特征調(diào)整判決門限A)、初始化判決門限,以整個(gè)信號(hào)的MDCT譜能量包絡(luò)的均值作為初始判決門限Lth 式中,EM(i)為第i幀音頻的MDCT譜能量,N表示音頻段的幀數(shù),Lth為初始判決門限;B)、門限調(diào)整將音頻段的MDCT譜包絡(luò)EM中所有小于判決門限Lth的幀做為噪聲幀處 式中,EMn。ise(i)表示第i幀音頻的MDCT譜能量值為噪聲幀的MDCT譜能量值, 初始化噪聲譜序列的均值和均方差,分別記為L(zhǎng)n。ise和Sn。ise, 式中,EMn。ise⑴表示第i個(gè)噪聲幀的MDCT譜能量值,Lnoise, Snoise分別為噪聲能量序列 的均值和均方差,M為噪聲段的幀數(shù);在得到噪聲幀能量序列的均值Ln。ise和均方差Sn。ise基礎(chǔ)上,重新調(diào)整判決門限Lth, Lth — C0X (L11Oise+C1 X Snoise)其中,CO和Cl為經(jīng)驗(yàn)常數(shù),實(shí)驗(yàn)中取CO = 1. 001,Cl值取在1. 5 2. O之間調(diào)整;調(diào) 整完判決門限值Lth后,再重新區(qū)分噪聲和語(yǔ)音幀,并重新計(jì)算噪聲譜能量序列的均值Ln。ise 和均方差Sn。ise,然后調(diào)整判決門限值;如此重復(fù)至判決門限穩(wěn)定;③、活性端點(diǎn)的融合A)、根據(jù)門限判斷靜音幀/非靜音幀 Etype[i]為第i幀音頻的類型,EM[i]為第i幀音頻的MDCT譜能量值;音頻類型Etype[i] 值為O表示靜音幀,類型EtypJi]值為1表示活性音頻幀;B)、計(jì)算靜音段中所包含的幀數(shù)Fn;C)、若Fn< 10,該段為連續(xù)活性音頻段間的停頓,合并入對(duì)應(yīng)的音頻段中。
7.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法,其特征在于所述步驟5)自 適應(yīng)迭代估計(jì)具體步驟如下①、由權(quán)利要求5中的步驟⑤得到的衰減函數(shù)對(duì)權(quán)利要求6中檢測(cè)到的靜音段計(jì)算靜 音段的衰減值;②、計(jì)算步驟①中靜音段的平均衰減值孑;③、使用權(quán)利要求5得到的衰減函數(shù)對(duì)含有噪聲的MP3音頻的MDCT系數(shù)進(jìn)行衰減;④、由靜音段的平均衰減值α自適應(yīng)調(diào)整迭代估計(jì)的次數(shù)重復(fù)步驟①、②、⑤,當(dāng)滿足以下條件下,停止迭代,降噪完成 -a為靜音段的平均衰減值,amin為整段音頻的最小衰減因子,可以通過MDCT系數(shù)的高頻 段獲得,C用于控制余留分量,取C = 0. 001。
全文摘要
本發(fā)明涉及一種MP3壓縮域音頻自適應(yīng)降噪方法。本方法直接基于MP3壓縮域進(jìn)行降噪。首先,對(duì)含有噪聲的MP3音頻數(shù)據(jù)提取MDCT系數(shù),基于MDCT譜能量特征對(duì)MP3音頻進(jìn)行活性檢測(cè),區(qū)分出活性音頻段和靜音段。同時(shí),在從MP3壓縮音頻數(shù)據(jù)中提取MDCT系數(shù)后,根據(jù)MDCT系數(shù)的稀疏特性,采用正態(tài)反高斯(NIG)分布函數(shù)對(duì)MDCT系數(shù)進(jìn)行先驗(yàn)統(tǒng)計(jì)建模。然后根據(jù)貝葉斯理論,設(shè)計(jì)基于NIG先驗(yàn)概率模型的最大后驗(yàn)概率估計(jì)器,得到相應(yīng)音頻段的衰減因子。在衰減噪聲部分,利用衰減因子對(duì)音頻段的噪聲進(jìn)行衰減,并根據(jù)靜音段音頻的衰減權(quán)重自適應(yīng)地調(diào)整衰減的迭代次數(shù)以實(shí)現(xiàn)降噪。實(shí)驗(yàn)結(jié)果表明,采用本發(fā)明的降噪算法能有效去除MP3音頻中的噪聲,提高壓縮音頻的信噪比,且降噪后的MP3音頻質(zhì)量良好。
文檔編號(hào)G10L21/02GK101930746SQ20101021540
公開日2010年12月29日 申請(qǐng)日期2010年6月29日 優(yōu)先權(quán)日2010年6月29日
發(fā)明者萬(wàn)旺根, 余小清, 劉軍偉, 張靜, 許雪瓊 申請(qǐng)人:上海大學(xué)