一種用于聲源分離的編解碼方法

文檔序號：2829138閱讀：746來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種用于聲源分離的編解碼方法
技術(shù)領(lǐng)域：
本發(fā)明涉及多媒體領(lǐng)域，具體涉及一種聲源分離技術(shù)方案，從單聲道、立體聲、或者多聲道音頻信號中分離出獨(dú)立的聲源。
背景技術(shù)：
音頻信號，特別是音樂信號，通常包含多個聲源，例如人聲、各個伴奏樂器聲、以及環(huán)境聲。如何有效的從混合的音頻信號中提取各個獨(dú)立的聲源是一個重要的理論問題，也是一個重要的應(yīng)用問題。在卡拉OK中，人聲部分需要被部分或完全消除；在移動通話中，環(huán)境噪音需要被盡可能的消除以提高通話質(zhì)量；在主動音樂欣賞(Active Listening ofMusic)中，各個樂器聲需要不同的增益和相位調(diào)整以合成用戶期待的空間音場。在上述應(yīng)用中，聲源分離都是關(guān)鍵性的技術(shù)。聲源分離系統(tǒng)可以分為兩大類，一類是盲聲源分離(Blind Source Separation)系統(tǒng)，另一類是有參考信息的聲源分離(Informed Source Separation)系統(tǒng)。前者一般僅基于對聲源統(tǒng)計特性的基本假設(shè)，例如高斯分布或者稀疏分布，而不需要參考信息協(xié)助分離聲源。后者則需要占據(jù)一定帶寬(比特率)的參考信息以協(xié)助分離聲源。盲聲源分離系統(tǒng)相對有參考信息的聲源分離系統(tǒng)具有更廣泛的適應(yīng)性并且節(jié)約帶寬，但其缺點(diǎn)是聲源分離效果較差，具體反映在分離后的聲源失真大，并且聲源間的串?dāng)_大。從信號處理的角度看，聲源分離問題是一類特定信號估計問題:觀察到的信號為混合信號，這個信號是各個獨(dú)立聲源的某種疊加，例如加權(quán)或非加權(quán)、線性或非線性、時變或非時變、卷積或非卷積(瞬時)；待估計的信號是各個獨(dú)立聲源。在數(shù)學(xué)上，聲源分離通常是不定解問題，即存在若個(有限或無限)組解，每組解作為待定的獨(dú)立聲源都可以得到給定的混合信號。因此，聲源分離的關(guān)鍵是基于一個合理的假設(shè)從所有可能的解中找到最可能的解。音頻信號，特別是語音和音樂信號，在離散傅立葉變換(Discrete FourierTransform, DFT)域、離散余弦變換(Discrete Cosine Transform, DCT)域、等變換域通常呈現(xiàn)一定的稀疏性，即所有的變換系數(shù)中，只有少量系數(shù)具有較大的絕對值，而其余系數(shù)為O或絕對值較小。利用這個特性，首先遍歷所有可能的解，然后從中選擇最稀疏的解即可作為盲聲源分離問題的解。現(xiàn)有技術(shù)中，一般利用1-范數(shù)，即各分量的絕對值之和，衡量稀疏的程度:1-范數(shù)越小，稀疏度越高。在數(shù)學(xué)上，如果信號服從拉普拉斯分布，那么1-范數(shù)越小就對應(yīng)著概率密度越高。有參考信息的聲源分離也可以利用音頻信號在特定變換域的稀疏性。例如5個獨(dú)立聲源線性下混為雙聲道(即立體聲，包括左右兩個聲道)混合信號。如果在同一時刻同一頻率(變換系數(shù)指標(biāo))下，最多有兩個聲源非零，那么只要知道5個聲源里哪兩個非零這個參考信息就可以通過求解2元一次線性方程組確定唯一的聲源分離的解。

然而基于信號稀疏性的聲源分離技術(shù)，如上所述，不是基于待分離信號特定的概率分布，而是一般性的假定為拉普拉斯分布，或者直接假定在每個時頻點(diǎn)某些聲源一定為O，這種假設(shè)與實(shí)際的不匹配降低了聲源分離的性能；另一方面，盲聲源分離技術(shù)受制于不能使用參考信息的約束，分離后聲源的音質(zhì)受到極大的限制；而有參考信息的聲源分離技術(shù)在參考信息超過信道帶寬時又無法工作。這些問題都限制了聲源分離系統(tǒng)在實(shí)際場合的應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明需要解決的技術(shù)問題是，基于音頻信號實(shí)際分布特性的聲源分離，輔助聲源分離的參考信息的帶寬可以在O到一定范圍內(nèi)連續(xù)調(diào)整。本發(fā)明的技術(shù)方案為一種用于聲源分離的編碼方法，對參考信息進(jìn)行編碼，包括獲取每個聲源和下混信號每個聲道的時頻變換系數(shù)，并按幀和頻率排列構(gòu)成二維時頻圖；根據(jù)活躍聲源數(shù)遍歷每一種活躍聲源的組合方案并求得對應(yīng)的備選解；計算各備選解的失真，取失真最小的備選解所對應(yīng)的組合的標(biāo)號作為聲源分離的參考信息；根據(jù)下混信號判定參考信息的重要性；根據(jù)重要性重新組織參考信息；最后對重新組織的參考信息進(jìn)行熵編碼得到參考信息碼流。而且，根據(jù)活躍聲源數(shù)遍歷每一種活躍聲源的組合并求得對應(yīng)的備選解，實(shí)現(xiàn)方法如下，

首先，根據(jù)事先設(shè)定的活躍聲源數(shù)K，V < K < U，且V < U，遍歷在U個聲源中選出K個活躍聲源所有的, = f j種組合方案，并記這W個組合方案為OliO2i^w，其下標(biāo)采用的標(biāo)號稱為活躍聲源組合指標(biāo)；然后，在時頻點(diǎn)(t，f)處求所有組合方案01，02，...，0 下聲源分離問題的解51^，0，W= 1,2,..., ff, Sw (t, f)是一個U維聲源矢量，分三種情況求解，(a) K = V,在每個組合方案Ow下，聲源混合方程A (t, f) S (t, f) T=X (t, f)τ有唯一的解，這個解為3￥^0，通過線性方程組解法得到，其中4^0為下混矩陣，S(t, f)為待求的聲源矢量，X(t，f)為下混信號矢量，τ表示轉(zhuǎn)秩；(b)V < K < U，在每個組合方案Ow下，聲源混合方程A(t，f)S(t，f)T=X(t，f)τ有無窮多解，從中選取一個解作為sw(t，f)，選取Sw(t，f)=E[S(t，f) |X(t，f)]時，E [S (t, f) IX (t, f)]表示滿足下混方程解S (t, f)在后驗(yàn)概率分布P (S (t, f) IX (t, f))下數(shù)學(xué)
期望；(C)K = U,此時W = I,僅有一個組合方案,聲源混合方程A(t, f)S(t, f)T=X(t, f)τ有無窮多解，從中選取一個解作為Sw(t，f)，選取Sw(t，f)=E[S(t，f) |X(t，f)]時，E [S (t, f) IX (t, f)]表示滿足下混方程解S (t, f)在后驗(yàn)概率分布P (S (t, f) IX (t, f))下數(shù)學(xué)期望。而且，計算各備選解的失真包括以下兩種方式，(I)根據(jù)以下2-范數(shù)公式計算，<(/,/)-5,,(/,/))2}.
其中，&(/，/)和\匕f)分別為備選聲源矢量Sw(t，f)和實(shí)際聲源矢量S(t，f)的第U維分量，(2)根據(jù)心理聲學(xué)掩蔽門限計算噪掩比，
權(quán)利要求
1.一種用于聲源分離的編碼方法，其特征在于:對參考信息進(jìn)行編碼，包括獲取每個聲源和下混信號每個聲道的時頻變換系數(shù)，并按幀和頻率排列構(gòu)成二維時頻圖；根據(jù)活躍聲源數(shù)遍歷每一種活躍聲源的組合方案并求得對應(yīng)的備選解；計算各備選解的失真，取失真最小的備選解所對應(yīng)的組合的標(biāo)號作為聲源分離的參考信息；根據(jù)下混信號判定參考信息的重要性；根據(jù)重要性重新組織參考信息；最后對重新組織的參考信息進(jìn)行熵編碼得到參考息碼流。
2.根據(jù)權(quán)利要求1所述用于聲源分離的編碼方法，其特征在于:根據(jù)活躍聲源數(shù)遍歷每一種活躍聲源的組合并求得對應(yīng)的備選解，實(shí)現(xiàn)方法如下，首先，根據(jù)事先設(shè)定的活躍聲源數(shù)K，V < K < U，且V < U，遍歷在U個聲源中選出K個活躍聲源所有的,-_種組合方案，并記這W個組合方案為O1, O2,, Off,其下標(biāo)采用的標(biāo)號稱為活躍聲源組合指標(biāo)；然后，在時頻點(diǎn)(t, f)處求所有組合方案O1, O2,...，Ow下聲源分離問題的解Sw (t, f) ,W=1，2，...，W，Sw (t, f)是一個U維聲源矢量，分三種情況求解， (a)K = V,在每個組合方案Ow下，聲源混合方程A (t, f) S (t, f) T=X (t, f)τ有唯一的解，這個解為3￥^0，通過線性方程組解法得到，其中4^0為下混矩陣，S(t，f)為待求的聲源矢量，X(t，f)為下混信號矢量，τ表示轉(zhuǎn)秩； (b)V < K < U，在每個組合方案Ow下，聲源混合方程A (t, f) S (t, f) T=X (t, f)τ有無窮多解，從中選取一個解作為 Sw(t，f)，選取Sw(t，f)=E[S(t，f) X(t, f)]時，E[S(t, f) X(t, f)]表示滿足下混方程解S (t, f)在后驗(yàn)概率分布P (S (t, f) IX (t, f))下數(shù)學(xué)期望； (C)K = U，此時W = 1，僅有一個組合方`案，聲源混合方程A(t，f)S(t，f)T=X(t，f)τ有無窮多解，從中選取一個解作為Sw(t，f)，選取Sw(t，f)=E[S(t，f) |X(t，f)]時，E [S (t, f) IX (t, f)]表示滿足下混方程解S (t, f)在后驗(yàn)概率分布P (S (t, f) IX (t, f))下數(shù)學(xué)期望。
3.根據(jù)權(quán)利要求1所述用于聲源分離的編碼方法，其特征在于:計算各備選解的失真包括以下兩種方式， (1)根據(jù)以下2-范數(shù)公式計算，=Il SJtJ) — S(IJ)Il2= |￡(,^(/,/) — Sw(/,/))'| , 其中，仏/)和Su(t，f)分別為備選聲源矢量Sw(t，f)和實(shí)際聲源矢量S(t，f)的第u維分量， (2)根據(jù)心理聲學(xué)掩蔽門限計算噪掩比，其中，Masku(t，f)是聲源的在時頻點(diǎn)處的掩蔽門限。
4.一種用于聲源分離的解碼方法，其特征在于:對參考信息進(jìn)行解碼進(jìn)行聲源分離，包括從參考信息碼流進(jìn)行熵解碼得到重新組織后的參考信息；根據(jù)下混信號判定參考信息的重要性；根據(jù)重要性將參考信息映射到相應(yīng)的頻率上，其余頻率標(biāo)定為無參考信息；對每幀每個頻率根據(jù)有無參考信息實(shí)施聲源分離；最后將分離后每個聲源的時頻變換系數(shù)通過時頻逆變換得到分離后聲源的時域樣點(diǎn)。
5.根據(jù)權(quán)利要求4所述用于聲源分離的解碼方法，其特征在于:對每幀每個頻率根據(jù)有無參考信息實(shí)施聲源分離的實(shí)現(xiàn)方式為， (a)有參考信息wmin(t，f)，當(dāng)活躍聲源數(shù)K=V時，求組合方案Owmin(t，f)下唯一的聲源分離解乂仏/):當(dāng)活躍聲源數(shù)V < K < U時，求后驗(yàn)條件概率密度函數(shù)P (S (t, f) IX (t, f))下最小均方差估計解 ▲ ft/) 5 (b)無參考信息，設(shè)定活躍聲源數(shù)K=U，求后驗(yàn)條件概率密度函數(shù)P(S(t，f) X(t, f))下最小均方差估計解S1 (t，f)。
全文摘要
本發(fā)明公開了一種用于聲源分離的編解碼方法，通過提取實(shí)際信號的分布參數(shù)并結(jié)合心理聲學(xué)模型，可以在無參考信息或有參考信息的條件下實(shí)現(xiàn)音頻信號的聲源分離，不僅提高了分離后聲源的音質(zhì)而且可以適應(yīng)廣泛的帶寬條件，從而提高了聲源分離系統(tǒng)的實(shí)用性。
文檔編號G10L19/00GK103236264SQ20131016049
公開日2013年8月7日申請日期2013年5月3日優(yōu)先權(quán)日2013年5月3日
發(fā)明者吳釗申請人:湖北文理學(xué)院

完整全部詳細(xì)技術(shù)資料下載