一種mp3壓縮域音頻自適應(yīng)降噪方法

文檔序號(hào)：2823674閱讀：292來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種mp3壓縮域音頻自適應(yīng)降噪方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種MP3壓縮域音頻自適應(yīng)降噪方法，主要是在不同高斯白噪聲條件下，對(duì)含有噪聲的MP3音頻，直接在MP3壓縮域?qū)崿F(xiàn)對(duì)MP3音頻的自適應(yīng)降噪處理的方法。
背景技術(shù)：
音頻降噪技術(shù)，是指利用信號(hào)處理和模式識(shí)別的方法，從含有噪聲的音頻中將噪聲去除，使去除噪聲后的音頻有較高的信噪比和較好的質(zhì)量。音頻降噪是音頻信號(hào)處理領(lǐng) 域需要解決的關(guān)鍵技術(shù)之一。互聯(lián)網(wǎng)以及各種數(shù)據(jù)庫(kù)中存在的大量音頻數(shù)據(jù)都是以壓縮格式存儲(chǔ)，如何對(duì)壓縮域中的音頻數(shù)據(jù)進(jìn)行處理已成為音頻研究領(lǐng)域的一大熱點(diǎn)。國(guó)內(nèi)外學(xué)者已針對(duì)壓縮音頻的分割、分類、檢索算法進(jìn)行了大量的研究，并且能獲得與非壓縮音頻處理相近的實(shí)驗(yàn)結(jié)果。但在壓縮音頻中混有噪聲的情況下，音頻分類檢索算法的精度卻受到嚴(yán)重的影響。通常，先對(duì)含有噪聲的壓縮域音頻解壓縮，再進(jìn)行降噪處理，耗費(fèi)的時(shí)間較多，這必然降低對(duì)壓縮音頻進(jìn)行各種處理的效率。因此，研究如何直接基于壓縮域?qū)崿F(xiàn)音頻的降噪處理，以最小計(jì)算代價(jià)實(shí)現(xiàn)降噪來(lái)提高壓縮域音頻的檢索效率顯得尤為重要。在對(duì)音頻進(jìn)行壓縮處理時(shí)考慮了人耳的聽覺掩蔽特性，通過第二心理聲學(xué)模型來(lái) 選擇修正的離散余弦變換(MDCT)的窗函數(shù)。同時(shí)，MDCT變換也是FFT變換的一種修正，且 MDCT系數(shù)具有稀疏特性。因此，我們可以從壓縮域音頻中提取MDCT系數(shù)，然后試圖尋找一種能擬合稀疏分布的模型函數(shù)用于對(duì)MDCT系數(shù)進(jìn)行先驗(yàn)建模，然后構(gòu)建濾波器，實(shí)現(xiàn)對(duì)壓縮域音頻的降噪處理。本發(fā)明正是采用上述的方法，從MPEGl標(biāo)準(zhǔn)聲音第三層壓縮技術(shù)MP3 壓縮域音頻中提取MDCT系數(shù)，采用正態(tài)反高斯函數(shù)對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模，構(gòu)建最大后驗(yàn)概率估計(jì)函數(shù)，實(shí)現(xiàn)壓縮域音頻的降噪。本發(fā)明所提出的降噪方法解決了 MP3壓縮域中含有噪聲的音頻降噪問題，可進(jìn)一步應(yīng)用于MP3音頻的語(yǔ)音識(shí)別和分類檢索系統(tǒng)中。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種MP3壓縮域音頻自適應(yīng)降噪方法，通過從MP3音頻提取MDCT系數(shù)，對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模，并構(gòu)建估計(jì)器，實(shí)現(xiàn)對(duì)含有噪聲的MP3音頻進(jìn)行降噪處理。本發(fā)明解決其技術(shù)問題采用的技術(shù)方案為先從MP3音頻數(shù)據(jù)中提取MDCT系數(shù)，再對(duì)MDCT系數(shù)進(jìn)行先驗(yàn)概率建模，然后構(gòu)造噪聲衰減估計(jì)器。同時(shí)，對(duì)MP3音頻進(jìn)行靜音段檢測(cè)，根據(jù)靜音段的衰減比重來(lái)調(diào)整對(duì)含噪音頻段進(jìn)行噪聲衰減的程度。本發(fā)明解決其技術(shù)問題采用的技術(shù)方案還可以進(jìn)一步完善。首先從MP3音頻數(shù)據(jù) 中提取MDCT系數(shù)，再分析MDCT系數(shù)的特性，根據(jù)MDCT系數(shù)的特性選擇適用于對(duì)MDCT系數(shù) 分布進(jìn)行先驗(yàn)概率建模的正態(tài)反高斯分布函數(shù)，然后根據(jù)貝葉斯最大后驗(yàn)概率理論來(lái)構(gòu)造噪聲衰減估計(jì)器。同時(shí)，利用MDCT譜能量特征對(duì)MP3音頻進(jìn)行靜音段檢測(cè)，根據(jù)靜音段的衰減比重來(lái)調(diào)整降噪處理時(shí)對(duì)噪聲衰減的程度。該方法具體包括如下步驟1)、含有噪聲的MP3壓縮音頻的預(yù)處理，包括對(duì)MP3幀頭進(jìn)行解碼、邊信息獲取、獲取主數(shù)據(jù)和縮放因子、哈夫曼解碼和反量化四個(gè)部分；2)、提取MDCT系數(shù)，并進(jìn)行幅值映射處理從反量化后的MP3幀中找出每一幀兩個(gè) 粒度的MDCT系數(shù)，對(duì)兩個(gè)顆粒的MDCT系數(shù)按頻率點(diǎn)求平均，構(gòu)建每幀音頻的MDCT譜系數(shù)，并將MDCT系數(shù)的幅值范圍映射到O-L之間；3)、對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模并構(gòu)造最大后驗(yàn)概率估計(jì)器分別對(duì)不含噪聲的MDCT系數(shù)和含有噪聲的MDCT系數(shù)的分布情況進(jìn)行分析，獲得不含噪聲的MDCT系數(shù)的統(tǒng)計(jì)特性。根據(jù)MDCT系數(shù)的稀疏統(tǒng)計(jì)特性，利用正態(tài)反高斯(OTG)分布函數(shù)對(duì)MDCT系數(shù) 進(jìn)行先驗(yàn)建模。根據(jù)貝葉斯最大后驗(yàn)概率準(zhǔn)則，推導(dǎo)出基于NIG先驗(yàn)分布模型的估計(jì)器。4)、靜音段檢測(cè)提取基于MDCT系數(shù)的譜能量特征，根據(jù)能量特征參數(shù)檢測(cè)MP3音頻中的靜音段；5)、自適應(yīng)迭代估計(jì)利用3)中的估計(jì)器對(duì)含有噪聲的MP3進(jìn)行估計(jì)，并通過4) 中檢測(cè)到的靜音段的衰減因子自適應(yīng)地調(diào)整迭代估計(jì)的次數(shù)。本發(fā)明有益的效果是直接基于MP3壓縮域?qū)P3音頻進(jìn)行降噪處理，比傳統(tǒng)的將 MP3壓縮音頻解碼為非壓縮的wave音頻再進(jìn)行降噪處理的方法而言，本發(fā)明提出的方法更簡(jiǎn)單，且節(jié)省計(jì)算時(shí)間；研究MP3音頻的MDCT系數(shù)的分布特性，選擇適用于對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模的函數(shù)，實(shí)驗(yàn)結(jié)果表明所選擇的函數(shù)能有效的擬合MDCT系數(shù)的分布；并且，基于MDCT系數(shù)的先驗(yàn)概率分布函數(shù)設(shè)計(jì)的噪聲衰減估計(jì)器能有效地實(shí)現(xiàn)MP3壓縮音頻的降噪；同時(shí)，利用MDCT譜能量特征檢測(cè)MP3音頻中的靜音段，再由靜音段的衰減因子自適應(yīng)控制衰減噪聲的程度，不僅能有效的解決降噪過程中過衰減或欠衰減導(dǎo)致引入音頻噪聲的問題，而且降噪后的音頻具有良好的效果。

圖1是本發(fā)明方法的流程圖。
具體實(shí)施例方式本發(fā)明一種MP3壓縮域音頻自適應(yīng)降噪方法的一個(gè)優(yōu)選實(shí)施例結(jié)合

如下一種MP3壓縮域音頻自適應(yīng)降噪方法共分為五步第一步含有噪聲的MP3壓縮音頻的預(yù)處理含有噪聲的MP3壓縮音頻的預(yù)處理，包括對(duì)MP3幀頭進(jìn)行解碼、邊信息獲取、讀取主數(shù)據(jù)和縮放因子、哈夫曼解碼和反量化四個(gè)部分。1、同步數(shù)據(jù)流和幀頭信息的獲取A)、根據(jù)MP3編碼格式，從MP3數(shù)據(jù)流中搜索同步信息；B)、根據(jù)同步信息，找到MP3數(shù)據(jù)流中各幀數(shù)據(jù)的起始位置；C)、確定數(shù)據(jù)幀的起始位置后，獲取幀頭信息Head ；2、邊信息的獲取A)、根據(jù)MP3幀頭的編碼格式，確定MP3幀頭中邊信息的起始位置；B)、從MP3幀頭信息Head中獲取邊信息Side ；
3、MP3主數(shù)據(jù)和縮放因子的讀取A)、根據(jù)邊信息Side計(jì)算主數(shù)據(jù)的長(zhǎng)度L ；B)、根據(jù)幀頭信息Head中主數(shù)據(jù)的偏移量，確定MP3主數(shù)據(jù)的起始位置；C)、從當(dāng)前幀中獲取總長(zhǎng)度為L(zhǎng)的主數(shù)據(jù)D ；D)、從主數(shù)據(jù)D中提取縮放因子Scale ；4、哈夫曼解碼和反量化A)、根據(jù)邊信息Side確定哈夫曼解碼數(shù)據(jù)的起始和結(jié)束位置；B)、對(duì)MP3主數(shù)據(jù)D進(jìn)行哈夫曼解碼，得到32*18維的哈夫曼解碼結(jié)果F[32，18]；C)、對(duì)哈夫曼解碼結(jié)果F[32，18]中的數(shù)據(jù)進(jìn)行反量化。第二步MDCT系數(shù)提取及幅值映射處理1、構(gòu)建每幀音頻的修正離散余弦變換MDCT系數(shù)A)、分配用于存放一幀MP3音頻兩個(gè)粒度的MDCT系數(shù)的n*576大小的存儲(chǔ)空間 MDCT0 [η, 576], MDCT1 [η, 576]中，其中 η 為 ΜΡ3 音頻的幀數(shù)；B)、從數(shù)組F中分別找到同一幀音頻兩個(gè)粒度的MDCT系數(shù)，按頻率從低到高的原則重新排列，得到MDCT0 [i，j]，MDCT1 [i，j]中；C)、計(jì)算同一幀音頻中兩個(gè)粒度相同頻率點(diǎn)處的MDCT系數(shù)的平均值，作為這一幀音頻的MDCT系數(shù)值M[i，j]；M[iJ] = MDCUiJ^MDCTx{i,n其中，MDCT。[i，j] ,MDCT1 [i，j]分別第i幀音頻的第0個(gè)粒度和第1個(gè)粒度的第j 個(gè)MDCT譜值。M[i，j]為第i幀音頻的第j個(gè)平均MDCT譜值。2、MDCT系數(shù)幅值范圍映射將MDCT系數(shù)的幅值在0-1的范圍線性映射到0_P之間，便于研究MDCT系數(shù)的統(tǒng) 計(jì)分布和相應(yīng)的擬合函數(shù) 式中，χ' u為幅值映射后的第i幀音頻的第j個(gè)MDCT譜值，M[i，j]為由1中得到的第i幀音頻的第j個(gè)平均MDCT譜值，Mmin為最小的MDCT譜系數(shù)，Mmax為最大的MDCT譜系數(shù)，P為映射后的最大幅值。第三步MDCT系數(shù)的先驗(yàn)建模和最大后驗(yàn)概率估計(jì)器1、分析MDCT的分布特性2、計(jì)算MDCT系數(shù)的概率分布函數(shù)通過1的分析得到MDCT的分布具有稀疏特性后，采用正態(tài)反高斯分布函數(shù)模擬 MDCT系數(shù)的分布，得到MDCT概率分布函數(shù)表示為式中入⑷=全fV-'exp〔-全φ + ^^,Μ.)是索引為λ的第二階修正
貝塞爾函數(shù)，&(·)是索引為1的第二階修正貝塞爾函數(shù)，Kx) = ^/ 2-/ 2+/ 。-q(x) = ^2+(χ-//)2 , 0 ^ I β I < α，δ > 0，-οο< μ <οο。其中，α 為衰減因子，δ 為尺度因子，μ為均值，β為傾斜因子。3、分析參數(shù)[α，δ, β, μ ]τ對(duì)正態(tài)反高斯分布特性的影響4、參數(shù)估計(jì)采用2中的正態(tài)反高斯分布函數(shù)來(lái)擬合MDCT系數(shù)的概率分布，需要對(duì)參數(shù)[α， δ, β, μ ]Τ進(jìn)行估計(jì)。Α)、計(jì)算方差 2，均值μ，傾斜因子β假設(shè)加入的噪聲為零均值高斯白噪聲，含噪音頻的前幾幀為純?cè)肼晭杉冊(cè)肼晭烙?jì)噪聲MDCT系數(shù)的方差，并對(duì)含有噪聲的MDCT 系數(shù)計(jì)算均值μ。ΜΡ3音頻信號(hào)的MDCT系數(shù)呈對(duì)稱分布，因此，假設(shè)傾斜因子β = 0。B)、計(jì)算衰減因子α、尺度因子δ不含噪聲的MDCT系數(shù)的NIG分布模型的偏斜系數(shù)為慫虜/2 ,峭度系數(shù)為爲(wèi)=5之// 22，其中Α=|4-4|。相應(yīng)的衰減因子α、尺度因子δ可通過如下式子進(jìn)行估計(jì)δ = €χχ^γβ2\\-η2α^2χβ^2β4其中，毛、&分別為含有噪聲的MDCT系數(shù)的2至4階累積量， γ = {5β,-β γ P =C2為用于控制衰減因子α、尺度因子δ的幅值，使NIG能
有效地?cái)M合MDCT系數(shù)的分布。C)、估計(jì)參數(shù)(^和(2對(duì)不同音頻類型，不同信噪比條件下，統(tǒng)計(jì)(^、(2不同取值對(duì)MDCT系數(shù)分布的模擬誤差，最后得到最佳的值C1 = 0. 1，C2 = 0. 1 ；故有衰減因子α、尺度因子δ的估計(jì)式為 5、設(shè)計(jì)衰減估計(jì)器根據(jù)貝葉斯最大后驗(yàn)概率準(zhǔn)則，設(shè)計(jì)基于NIG先驗(yàn)分布模型的估計(jì)函數(shù)
a K0 (aq(x)) + K2 jaqix)) 1 _8]式中，G^f ^^^^ + 爾 ’_ = -")2，Κλ(·)是
索引為λ的第二階修正貝塞爾函數(shù)，^為對(duì)含有噪聲的ΜΡ3音頻數(shù)據(jù)y進(jìn)行衰減得到的無(wú) 噪MP3音頻數(shù)據(jù)。相應(yīng)，可得到含有噪聲的MP3音頻的衰減因子為第四步靜音段檢測(cè)1、MDCT譜特征的提取MDCT系數(shù)的譜能量計(jì)算如下其中，EM⑴為第i幀音頻的MDCT譜能量，M(i，j)為第i幀音頻的第j個(gè)MDCT譜均值，N為一幀音頻的MDCT系數(shù)的點(diǎn)數(shù)N = 576。對(duì)整個(gè)MP3音頻段，音頻段各幀的MDCT 譜能量組成相應(yīng)的特征矢量EM = [EM(O), EM(I), ... EM(N-I)]，即EM為音頻段的MDCT譜
能量包絡(luò)。2、判決門限的調(diào)整A)、初始化判決門限，以整個(gè)信號(hào)的MDCT譜能量包絡(luò)的均值作為初始判決門限Lth 式中，EM(i)為第i幀音頻的MDCT譜能量，N表示音頻段的幀數(shù)，Lth為初始判決門限。B)、門限調(diào)整將音頻段的MDCT譜包絡(luò)EM中所有小于判決門限Lth的幀做為噪聲幀處理，有EMnoise(i) = EM(i)if EM(i) < Ith式中，EMn。isJi)表示第i幀音頻的MDCT譜能量值為噪聲幀的MDCT譜能量值。初始化噪聲譜序列的均值和均方差，分別記為L(zhǎng)n。ise和Sn。ise，式中，EMn。ise⑴表示第i個(gè)噪聲幀的MDCT譜能量值，Lnoise, Snoise分別為噪聲能量序列的均值和均方差，M為噪聲段的幀數(shù)。在得到噪聲幀能量序列的均值Ln。ise和均方差Sn。ise基礎(chǔ)上，重新調(diào)整判決門限Lth。Lth = C0X(Lnois^C1XSnoise)其中，CO和Cl為經(jīng)驗(yàn)常數(shù)，實(shí)驗(yàn)中取CO = 1.001，Cl值取在1.5 2.0之間調(diào)
整。調(diào)整完判決門限值Lth后，再重新區(qū)分噪聲和語(yǔ)音幀，并重新計(jì)算噪聲譜能量序列的均值Ln。ise和均方差Sn。ise，然后調(diào)整判決門限值。如此重復(fù)至判決門限穩(wěn)定。3、活性端點(diǎn)的融合A)、根據(jù)門限判斷靜音幀/非靜音幀
J0, EM[q < LthEf M = {其中，Etype[i]為第i幀音頻的類型，EM[i]為第i幀音頻的MDCT譜能量值；音頻類型EtypJi]值為0表示靜音幀，類型EtypJi]值為1表示活性音頻幀。B)、計(jì)算靜音段中所包含的幀數(shù)Fn ；
11
C)、gFN< 10，該段為連續(xù)活性音頻段間的停頓，合并入對(duì)應(yīng)的音頻段中；第五步自適應(yīng)迭代衰減1、由第三步得到的衰減函數(shù)對(duì)第四步中檢測(cè)到的靜音段計(jì)算靜音段的衰減值；2、計(jì)算1中靜音段的平均衰減值歹；3、使用第三步得到的衰減函數(shù)對(duì)含有噪聲的MP3音頻的MDCT系數(shù)進(jìn)行衰減；4、由靜音段的平均衰減值了自適應(yīng)調(diào)整迭代估計(jì)的次數(shù)重復(fù)步驟1、2、3，當(dāng)滿足下面條件，則停止迭代，降噪完成其中，7為靜音段的平均衰減值，amin為整段音頻的最小衰減因子，可以通過MDCT 系數(shù)的高頻段獲得。C用于控制余留分量，取C = 0.001，見附圖1。實(shí)驗(yàn)結(jié)果本實(shí)驗(yàn)使用了中央電視臺(tái)廣播音頻資料進(jìn)行了試驗(yàn)。音頻資料的格式為MP3，采樣頻率為44. ΙΚΗζ。音頻類型有語(yǔ)音、音樂、語(yǔ)音和音樂混合的音頻。每種類型的音頻各選擇20首。分別對(duì)各種類型的音頻加入不同程度的高斯白噪聲，采用本研究提出的自適應(yīng)降噪算法對(duì)含有噪聲的MP3音頻進(jìn)行處理。降噪處理后的信噪比SNR采用的計(jì)算方法為其中，x(n)為不含噪聲的MP3音頻解碼得到的PCM數(shù)據(jù)，為降噪處理后的MP3 音頻解碼得到的PCM數(shù)據(jù)。降噪處理前后的信噪比SNR對(duì)比結(jié)果如表1所示表1 對(duì)MP3音頻降噪前后的信噪比SNR對(duì)比大量的統(tǒng)計(jì)實(shí)驗(yàn)表明，本發(fā)明的基于MP3壓縮域音頻的降噪方法能直接基于MP3 壓縮域，有效實(shí)現(xiàn)對(duì)不同類型的含有噪聲的MP3音頻進(jìn)行降噪處理。降噪處理后的MP3音頻的信噪比得到很大提高，并且處理后的音頻有良好的聽覺感知效果。本研究解決了直接基于MP3壓縮域音頻的降噪問題，也為MP3音頻分類檢索的抗噪算法研究提出了一個(gè)新的思路。
權(quán)利要求
一種MP3壓縮域音頻自適應(yīng)降噪方法，其特征在于首先從MP3壓縮音頻中提取體現(xiàn)原始音頻頻域特性的MDCT系數(shù)，然后分析MDCT系數(shù)的稀疏統(tǒng)計(jì)特性，采用正態(tài)反高斯(NIG)分布函數(shù)對(duì)MDCT系數(shù)進(jìn)行先驗(yàn)建模，再利用貝葉斯準(zhǔn)則設(shè)計(jì)基于NIG先驗(yàn)概率模型的最大后驗(yàn)概率估計(jì)器，得到相應(yīng)音頻段的衰減因子；最后在降噪部分，利用MDCT譜能量特征檢測(cè)MP3音頻中的靜音段，并通過檢測(cè)出的靜音段的衰減權(quán)重自適應(yīng)控制衰減噪聲的迭代次數(shù)，由此實(shí)現(xiàn)對(duì)MP3壓縮音頻的自適應(yīng)降噪。
2.根據(jù)權(quán)利要求1所述的MP3壓縮域音頻自適應(yīng)降噪方法，其特征在于具體操作步驟如下1)、含有噪聲的MP3壓縮音頻的預(yù)處理，包括對(duì)MP3幀頭進(jìn)行解碼、邊信息獲取、獲取主數(shù)據(jù)和縮放因子、哈夫曼解碼和反量化；2)、提取MDCT系數(shù)，并進(jìn)行幅值映射處理從反量化后的MP3幀中找出每一幀兩個(gè)粒度的MDCT系數(shù)，對(duì)兩個(gè)顆粒的MDCT系數(shù)按頻率點(diǎn)求平均，構(gòu)建每幀音頻的MDCT譜系數(shù)，并將 MDCT系數(shù)的幅值范圍映射到O-L之間；3)、對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模并構(gòu)造最大后驗(yàn)概率估計(jì)器分別對(duì)不含噪聲的 MDCT系數(shù)和含有噪聲的MDCT系數(shù)的分布情況進(jìn)行分析，獲得不含噪聲的MDCT系數(shù)的統(tǒng)計(jì) 特性；根據(jù)MDCT系數(shù)的稀疏統(tǒng)計(jì)特性，利用正態(tài)反高斯(NIG)分布函數(shù)對(duì)MDCT系數(shù)進(jìn)行先驗(yàn)建模；根據(jù)貝葉斯最大后驗(yàn)概率準(zhǔn)則，設(shè)計(jì)基于NIG先驗(yàn)分布模型的噪聲衰減估計(jì)器；4)、靜音段檢測(cè)提取基于MDCT系數(shù)的譜能量特征，根據(jù)MDCT譜能量特征參數(shù)檢測(cè) MP3音頻中的靜音段；5)、自適應(yīng)迭代估計(jì)利用步驟3)中的估計(jì)器對(duì)含有噪聲的MP3進(jìn)行估計(jì)，并通過步驟 4)中檢測(cè)到的靜音段的衰減因子自適應(yīng)地調(diào)整迭代估計(jì)的次數(shù)。
3.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法，其特征在于所述步驟1)中的進(jìn)行MP3壓縮音頻預(yù)處理具體步驟如下①、同步數(shù)據(jù)流和幀頭信息的獲??；A)、根據(jù)MP3編碼格式，從MP3數(shù)據(jù)流中搜索同步信息；B)、根據(jù)同步信息，找到MP3數(shù)據(jù)流中各幀數(shù)據(jù)的起始位置；C)、確定數(shù)據(jù)幀的起始位置后，獲取幀頭信息Head；②、從解碼得到的幀頭信息中獲取邊信息A)、根據(jù)MP3幀頭的編碼格式，確定MP3幀頭中邊信息的起始位置；B)、從MP3幀頭信息Head中獲取邊信息Side；③、提取MP3主數(shù)據(jù)和縮放因子A)、根據(jù)邊信息Side計(jì)算主數(shù)據(jù)的長(zhǎng)度L；B)、根據(jù)幀頭信息Head中主數(shù)據(jù)的偏移量，確定MP3主數(shù)據(jù)的起始位置；C)、從當(dāng)前幀中獲取總長(zhǎng)度為L(zhǎng)的主數(shù)據(jù)D；D)、從主數(shù)據(jù)D中提取縮放因子Scale；④、對(duì)MP3主數(shù)據(jù)流進(jìn)行哈夫曼解碼和反量化A)、根據(jù)邊信息Side確定哈夫曼解碼數(shù)據(jù)的起始和結(jié)束位置；B)、對(duì)MP3主數(shù)據(jù)D進(jìn)行哈夫曼解碼，得到32*18維的哈夫曼解碼結(jié)果F[32，18]；C)、對(duì)哈夫曼解碼結(jié)果F[32，18]中的數(shù)據(jù)進(jìn)行反量化。
4.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法，其特征在于所述步驟2)中的MDCT系數(shù)提取及幅值映射處理具體步驟如下①、構(gòu)建每幀音頻的修正離散余弦變換MDCT系數(shù)A)、分配用于存放一幀MP3音頻兩個(gè)粒度的MDCT系數(shù)的n*576大小的存儲(chǔ)空間 MDCT。[n，576]，MDCTjn，576]中，其中 n 為 MP3 音頻的幀數(shù)；B)、從數(shù)組F中分別找到同一幀音頻兩個(gè)粒度的MDCT系數(shù)，按頻率從低到高的原則重新排列，得到 MDCT。[i，j]，MDCT, [i，j]；C)、計(jì)算同一幀音頻中兩個(gè)粒度相同頻率點(diǎn)處的MDCT系數(shù)的平均值，作為這一幀音頻的MDCT系數(shù)值M[i，j]；M[. n 二 MDCT0[i,n + MDCT\i,n其中，MDCT0[i, j]，MDCT^i, j]分別第i幀音頻的第0個(gè)粒度和第1個(gè)粒度的第j個(gè) MDCT譜值；M[i，j]為第i幀音頻的第j個(gè)平均MDCT譜值；②、MDCT系數(shù)幅值范圍映射將MDCT系數(shù)的幅值在0-1的范圍線性映射到0-P之間，便于研究MDCT系數(shù)的統(tǒng)計(jì)分布和相應(yīng)的擬合函數(shù)x' _ M[iJ]-Mmm ^ “Mmax-Mmm式中X' 為幅值映射后的第i幀音頻的第j個(gè)MDCT譜值，M[i，j]為由①得到的第 i幀音頻的第j個(gè)平均MDCT譜值，為最小的MDCT譜系數(shù)，M_為最大的MDCT譜系數(shù)，P 為映射后的最大幅值。
5.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法，其特征在于所述步驟3)中對(duì)MDCT系數(shù)的分布進(jìn)行先驗(yàn)建模并構(gòu)造最大后驗(yàn)概率估計(jì)器具體步驟如下①、分析MDCT的分布特性②、計(jì)算MDCT系數(shù)的概率分布函數(shù)通過步驟①的分析得到MDCT的分布具有稀疏特性后，采用正態(tài)反高斯分布函數(shù)模擬 MDCT系數(shù)的分布，得到MDCT概率分布函數(shù)表示為-^^expf/zO)]、[aq{x)]式中&(《)=去_[>一-16鄧〔-全+ +廠1)>，1(“.)是索引為入的第二階修正貝塞爾函數(shù)，是索引為1的第二階修正貝塞爾函數(shù)，=礦+々(x-//),q(x) = ^jS2+(x-juf , 0 ^ ^ | < a , 6 > 0,- °o< p <00。其中，a 為衰減因子，6 為尺度因子，P為均值，0為傾斜因子。③、分析衰減因子a、尺度因子S，均值y，傾斜因子0四個(gè)參數(shù)對(duì)正態(tài)反高斯分布特性的影響④、參數(shù)估計(jì)采用步驟②中的正態(tài)反高斯分布函數(shù)來(lái)擬合MDCT系數(shù)的概率分布，需要對(duì)決定正態(tài) 反高斯分布形狀的四個(gè)參數(shù)[a，S，0，y ]T進(jìn)行估計(jì)八)、計(jì)算方差口〗，均值μ，傾斜因子β假設(shè)加入的噪聲為零均值高斯白噪聲，含噪音頻的前幾幀為純?cè)肼晭杉冊(cè)肼晭烙?jì)噪聲MDCT系數(shù)的方差σε2，并對(duì)含有噪聲的MDCT系數(shù) 計(jì)算均值μ，ΜΡ3音頻信號(hào)的MDCT系數(shù)呈對(duì)稱分布，因此，假設(shè)傾斜因子β = 0 ；B)、計(jì)算衰減因子α、尺度因子δ采用NIG分布模型的偏斜系數(shù)和峭度系數(shù)來(lái)估計(jì)衰減因子α和尺度因子δ ；不含噪聲的MDCT系數(shù)的NIG分布模型的偏斜系數(shù)為/ 3 = 4/A3'2，峭度系數(shù)為A = ^JPl ,其中總二I之-σ〗|;相應(yīng)的衰減因子α、尺度因子δ通過如下式子進(jìn)行估計(jì)其中，總、夂、乞分別為含有噪聲的MDCT系數(shù)的2至4階累積量，/ = (5慫-慮)_1， 7 = | Α//2，參數(shù)C1, C2為衰減因子α、尺度因子δ的權(quán)值，通過選擇合適的C1, C2值，使NIG能有效地?cái)M合MDCT系數(shù)的分布；C)、估計(jì)衰減因子和尺度因子的權(quán)值C”C2對(duì)不同音頻類型，不同信噪比條件下，統(tǒng)計(jì)C1W2取不同值時(shí)對(duì)MDCT系數(shù)分布的擬合誤差，最后得到最佳的值C1 = 0. 1，C2 = 0. 1 ；故有衰減因子α、尺度因子δ的估計(jì)式為“O.lx—2|l-"2Iα=0.\χβ^2β4⑤、根據(jù)貝葉斯最大后驗(yàn)概率準(zhǔn)則，設(shè)計(jì)基于NIG先驗(yàn)分布模型的噪聲衰減函數(shù) χ-——^—τ—χ ν + σ β)=——χ^,一 a K0 (ocq(x)) + K2 (aq(x)) 1 式中， = Χ 2K,{aq{x)) + [q(x)f ’φ、= — μγ，Μ·)是索引為λ的第二階修正貝塞爾函數(shù)d為對(duì)含有噪聲的ΜΡ3音頻數(shù)據(jù)y進(jìn)行衰減得到的無(wú)噪ΜΡ3 音頻數(shù)據(jù)；相應(yīng)，可得到含有噪聲的MP3音頻的衰減因子為
6.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法，其特征在于所述步驟4)靜音段檢測(cè)具體步驟如下①、提取基于MDCT系數(shù)的譜特征^ 7=0其中，EM⑴為第i幀音頻的MDCT譜能量，M(i，j)為第i幀音頻的第j個(gè)MDCT譜均值，N為一幀音頻的MDCT系數(shù)的點(diǎn)數(shù)N = 576，對(duì)整個(gè)MP3音頻段，音頻段各幀的MDCT譜能4量組成相應(yīng)的特征矢量EM = [EM(O)，EM⑴，· · ·，EM (N-I)]，即EM為音頻段的MDCT譜能量包絡(luò)；②、根據(jù)MDCT譜能量特征調(diào)整判決門限A)、初始化判決門限，以整個(gè)信號(hào)的MDCT譜能量包絡(luò)的均值作為初始判決門限Lth 式中，EM(i)為第i幀音頻的MDCT譜能量，N表示音頻段的幀數(shù)，Lth為初始判決門限；B)、門限調(diào)整將音頻段的MDCT譜包絡(luò)EM中所有小于判決門限Lth的幀做為噪聲幀處式中，EMn。ise(i)表示第i幀音頻的MDCT譜能量值為噪聲幀的MDCT譜能量值，初始化噪聲譜序列的均值和均方差，分別記為L(zhǎng)n。ise和Sn。ise，式中，EMn。ise⑴表示第i個(gè)噪聲幀的MDCT譜能量值，Lnoise, Snoise分別為噪聲能量序列的均值和均方差，M為噪聲段的幀數(shù)；在得到噪聲幀能量序列的均值Ln。ise和均方差Sn。ise基礎(chǔ)上，重新調(diào)整判決門限Lth， Lth — C0X (L11Oise+C1 X Snoise)其中，CO和Cl為經(jīng)驗(yàn)常數(shù)，實(shí)驗(yàn)中取CO = 1. 001，Cl值取在1. 5 2. O之間調(diào)整；調(diào) 整完判決門限值Lth后，再重新區(qū)分噪聲和語(yǔ)音幀，并重新計(jì)算噪聲譜能量序列的均值Ln。ise 和均方差Sn。ise，然后調(diào)整判決門限值；如此重復(fù)至判決門限穩(wěn)定；③、活性端點(diǎn)的融合A)、根據(jù)門限判斷靜音幀/非靜音幀 Etype[i]為第i幀音頻的類型，EM[i]為第i幀音頻的MDCT譜能量值；音頻類型Etype[i] 值為O表示靜音幀，類型EtypJi]值為1表示活性音頻幀；B)、計(jì)算靜音段中所包含的幀數(shù)Fn；C)、若Fn< 10，該段為連續(xù)活性音頻段間的停頓，合并入對(duì)應(yīng)的音頻段中。
7.根據(jù)權(quán)利要求2所述的MP3壓縮域音頻降噪處理方法，其特征在于所述步驟5)自適應(yīng)迭代估計(jì)具體步驟如下①、由權(quán)利要求5中的步驟⑤得到的衰減函數(shù)對(duì)權(quán)利要求6中檢測(cè)到的靜音段計(jì)算靜音段的衰減值；②、計(jì)算步驟①中靜音段的平均衰減值孑；③、使用權(quán)利要求5得到的衰減函數(shù)對(duì)含有噪聲的MP3音頻的MDCT系數(shù)進(jìn)行衰減；④、由靜音段的平均衰減值α自適應(yīng)調(diào)整迭代估計(jì)的次數(shù)重復(fù)步驟①、②、⑤，當(dāng)滿足以下條件下，停止迭代，降噪完成－a為靜音段的平均衰減值，amin為整段音頻的最小衰減因子，可以通過MDCT系數(shù)的高頻段獲得，C用于控制余留分量，取C = 0. 001。
全文摘要
本發(fā)明涉及一種MP3壓縮域音頻自適應(yīng)降噪方法。本方法直接基于MP3壓縮域進(jìn)行降噪。首先，對(duì)含有噪聲的MP3音頻數(shù)據(jù)提取MDCT系數(shù)，基于MDCT譜能量特征對(duì)MP3音頻進(jìn)行活性檢測(cè)，區(qū)分出活性音頻段和靜音段。同時(shí)，在從MP3壓縮音頻數(shù)據(jù)中提取MDCT系數(shù)后，根據(jù)MDCT系數(shù)的稀疏特性，采用正態(tài)反高斯(NIG)分布函數(shù)對(duì)MDCT系數(shù)進(jìn)行先驗(yàn)統(tǒng)計(jì)建模。然后根據(jù)貝葉斯理論，設(shè)計(jì)基于NIG先驗(yàn)概率模型的最大后驗(yàn)概率估計(jì)器，得到相應(yīng)音頻段的衰減因子。在衰減噪聲部分，利用衰減因子對(duì)音頻段的噪聲進(jìn)行衰減，并根據(jù)靜音段音頻的衰減權(quán)重自適應(yīng)地調(diào)整衰減的迭代次數(shù)以實(shí)現(xiàn)降噪。實(shí)驗(yàn)結(jié)果表明，采用本發(fā)明的降噪算法能有效去除MP3音頻中的噪聲，提高壓縮音頻的信噪比，且降噪后的MP3音頻質(zhì)量良好。
文檔編號(hào)G10L21/02GK101930746SQ20101021540
公開日2010年12月29日申請(qǐng)日期2010年6月29日優(yōu)先權(quán)日2010年6月29日
發(fā)明者萬(wàn)旺根, 余小清, 劉軍偉, 張靜, 許雪瓊申請(qǐng)人:上海大學(xué)

完整全部詳細(xì)技術(shù)資料下載