專利名稱:一種基于三維空間音頻感知的音源分離方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音源分離技術(shù)領(lǐng)域,尤其是涉及一種基于三維空間音頻感知的音源分離方法。
背景技術(shù):
近年來,隨著“911事件”、“英國倫敦大爆炸”、新疆暴力事件等恐怖事件的增多,世界各國對安全防范系統(tǒng)更為重視,紛紛通過大幅增加財(cái)政投入,大量部署安全防范系統(tǒng),來增強(qiáng)對突發(fā)事件的應(yīng)對能力。2009年我國的安防監(jiān)控市場總體上處于平穩(wěn)上升的趨勢。據(jù)安防行業(yè)的調(diào)查報(bào)告顯示,在平安城市、城市報(bào)警與監(jiān)控系統(tǒng)(“3111”工程)、奧會運(yùn)、世博會、國慶60周年慶典等大型項(xiàng)目的推動(dòng)下,2009年我國仍處于安防設(shè)施建設(shè)的高峰期,行業(yè)整體發(fā)展勢頭良好, 與2008年相比增長約在10%,市場總體規(guī)模保持在1500億元左右。傳統(tǒng)安防技術(shù)通常倚重于視頻監(jiān)控資源,然而音頻監(jiān)控資源卻能提供一些視頻監(jiān)控資源無法提供的信息。例如,犯罪嫌疑人的聲音特征、作案工具聲音特征(槍聲)等,可為刑偵破案提供有效的技術(shù)支撐。然而,在實(shí)際安防、刑偵工作中,音頻監(jiān)控信號往往是多個(gè)信號成分混和在一起的,并且還包括噪聲干擾。由于源信號混合方式未知,源信號也不能被觀測,因此必須采用音源分離技術(shù)對混合音頻信號進(jìn)行處理,以分離出對刑偵破案有用的音源信號。傳統(tǒng)音源分離技術(shù)把多輸入多輸出聲學(xué)系統(tǒng)當(dāng)作一個(gè)“黑匣子”,在恢復(fù)源信號的過程中不考慮系統(tǒng)的內(nèi)部結(jié)構(gòu),即不考慮空間聲學(xué)的特性如獨(dú)立語音源的方位,從而無法適用于實(shí)際復(fù)雜多變的安防監(jiān)控環(huán)境。綜上所述,提升在復(fù)雜多變、噪聲干擾的實(shí)際安防監(jiān)控環(huán)境中的音源分離效果,是目前音源分離技術(shù)領(lǐng)域的關(guān)鍵瓶頸問題,是急需解決的重大難題。
發(fā)明內(nèi)容
為了提升在實(shí)際復(fù)雜多變的安防監(jiān)控環(huán)境中的音源分離效果,本發(fā)明提出了一種基于三維空間音頻感知的音源分離方法。本發(fā)明提出的基于三維空間音頻感知的音源分離方法,包括以下步驟
步驟1,輸入《聲道的音頻信
號,將音頻信號變換至變換域,《>2 ;
步驟2,基于空間三維空間音頻感知理論和人耳空間聽覺理論,在W個(gè)聲道的變換域中提取各音源信號的空間線索;
步驟3,根據(jù)各音源信號的空間線索的分布概率,在該變換域中分離各音源信號; 步驟4,將步驟3所得變換域中各分離的音源信號還原至?xí)r域,得到基于三維空間音頻感知的音源分離結(jié)果。而且,所述變換域?yàn)闀r(shí)頻域,所述空間線索為耳間相對延時(shí)和耳間相對衰減。而且,步驟3的具體實(shí)現(xiàn)方式如下,根據(jù)各音源信號的空間線索的分布概率,構(gòu)造概率分布的二維直方圖; 所述二維直方圖的二維平面中的橫坐標(biāo)和縱坐標(biāo)分別為耳間相對延時(shí)和耳間相對衰減,豎軸是音源信號的空間線索的分布概率;
根據(jù)二維直方圖中的峰值坐標(biāo),通過聚類算法將距離峰值坐標(biāo)最近的時(shí)頻點(diǎn)劃歸為一類;使用二進(jìn)制時(shí)頻掩碼技術(shù)將音源信號根據(jù)時(shí)頻點(diǎn)的分類標(biāo)記,在時(shí)頻域?qū)崿F(xiàn)音源分離。綜上所述,針對實(shí)際安防監(jiān)控環(huán)境的復(fù)雜多變性,本發(fā)明將三維音頻、空間音頻與音源分離技術(shù)相交叉、結(jié)合,研究多個(gè)音源的空間線索的混合規(guī)律,提出了一種基于三維空間音頻感知的音源分離方法,從而能夠在復(fù)雜多變、噪聲干擾的實(shí)際監(jiān)控環(huán)境中分離人聲、 槍聲等對刑偵破案有用的重點(diǎn)音源信號,為多媒體安防、刑偵監(jiān)控提供了新的技術(shù)支持。
圖1是本發(fā)明實(shí)施例的流程圖。圖2是本發(fā)明實(shí)施例的時(shí)頻變換步驟示意圖。圖3是本發(fā)明實(shí)施例的空間線索提取步驟示意圖。圖4是本發(fā)明實(shí)施例的空間線索分布概率的二維直方圖。圖5是本發(fā)明實(shí)施例的時(shí)頻域分離步驟示意圖。圖6是本發(fā)明實(shí)施例的逆時(shí)頻變換步驟示意圖。
具體實(shí)施例方式
以下結(jié)合附圖和實(shí)施例詳細(xì)說明本發(fā)明技術(shù)方案。本發(fā)明實(shí)施例提供的基于三維空間音頻感知的音源分離方法包括以下幾個(gè)步驟, 流程圖參見圖1
步驟1,輸入《聲道(《22 )的音頻信號,將其變換至某一特定變換域; 實(shí)施例中,《取值為2,即包含左聲道和右聲道的雙聲道立體聲音頻信號和而(0 ,如圖2所示,采用短時(shí)傅里葉變化(Short Time Fourier iTransf orm,簡記STFT )將立體聲音頻信號巧(0、5(0變換到時(shí)頻域,得到信號巧&釣、巧象勸。其中變量代表時(shí)間, 象勸代表時(shí)頻域,變量I代表時(shí)間、Φ代表頻率、。具體變換實(shí)現(xiàn)采用現(xiàn)有短時(shí)傅里葉變換(傅里葉級數(shù))的公式即可,分別如式1、式 2所示,將輸入的時(shí)域立體聲音頻信號巧(0、巧(0加載漢明窗函數(shù),(O后變換到時(shí)頻域,
得到時(shí)頻域的信號巧良 )、巧久 )。&(l, ) = Fw[;q(0] = ~^=廠 Ψ(β'- )Χι(β^' '(1)
42π “
其中,W(t'-t)表示對音頻信號加載滑動(dòng)窗函數(shù)、^irf是傅里葉變換中的角頻率、
PwU表示對信號加載漢明窗函數(shù)后并進(jìn)行傅里葉變換,即短時(shí)傅里葉變換。具體實(shí)施時(shí),還可變換到其他變換域。
步驟2,基于空間三維空間音頻感知理論和人耳空間聽覺理論,在η個(gè)聲道的變換域中提取各音源信號的空間線索。三維空間音頻感知是基于人耳空間聽覺的生理聲學(xué)和心理聲學(xué),包括了耳間相對延時(shí)、耳間相對衰減,以及耳間相關(guān)度等空間線索參數(shù)。其中,耳間相對延時(shí)表示同一個(gè)聲源發(fā)出的聲音到達(dá)左、右耳的時(shí)間差,耳間相對衰減表示同一個(gè)聲源發(fā)出的聲音到達(dá)左、右耳的強(qiáng)度差,耳間相關(guān)度表示同一聲源發(fā)出的聲音到達(dá)左、右耳的信號相關(guān)度。本發(fā)明實(shí)施例選擇耳間相對延時(shí)和耳間相對衰減。具體實(shí)施時(shí),還可選擇其他參數(shù)。實(shí)施例中,立體聲音頻信號包含了 5個(gè)音源信號,如圖3所示,提取各分離
音源信號的空間線索參數(shù),記為空間線索辦勸、空同線索辦 )、空間線索辦 )、 空間線索4( , )、空間線索。具體實(shí)施時(shí),采用了部分空間線索參數(shù),包括了耳間相對延時(shí)5( , )與耳間相對衰減0^ 勸。如式3所示,提取各分離音源的相對延時(shí)5(1^ ;如式4所示,提取各分離音源的相對衰減勸;
其中,Z表示求復(fù)數(shù)的相位角。步驟3,根據(jù)各音源信號的空間線索的分布概率,在該變換域中分離各音源信號。實(shí)施例中,根據(jù)各音源的空間線索的分布概率,構(gòu)造概率分布的二維直方圖,如圖4所示,圖中的每一個(gè)峰值代表各個(gè)分離的音源,峰值的橫縱坐標(biāo)分別表示音源信號的空間線索(耳間相對延時(shí)與耳間相對衰減釣)。如圖4中,二維平面的一個(gè)軸是巧化 )和她 )的耳間相對衰減(Symmetric attenuation),即α( ,ω),另一個(gè)軸是;T1(I1OJ)和χ2( ,ω)的耳間相對延時(shí)(Relative delay),即δ(β,ω),豎軸是分布概率
(weight)。每一個(gè)時(shí)頻點(diǎn)象勸上可以提取耳間相對延時(shí)與耳間相對衰減^^, ),然
后綜合所有變化到時(shí)頻域所得時(shí)頻點(diǎn),就能夠按比例分配計(jì)算出空間線索的分布概率。例如,總共有1000個(gè)時(shí)頻點(diǎn),從其中的100個(gè)時(shí)頻點(diǎn)中提取了空間線索”從200個(gè)時(shí)頻點(diǎn)中提取了空間線索2,從300個(gè)時(shí)頻點(diǎn)中提取了空間線索3,則空間線索i的分布概率就是10%, 空間線索2的分布概率就是20%,空間線索3的分布概率就是30%。具體實(shí)施時(shí),首先通過K-means聚類算法或其他現(xiàn)有聚類算法,在二維直方圖中確定代表各分離音源信號的峰值的坐標(biāo);然后,計(jì)算出二維直方圖中的二維平面上的各個(gè)時(shí)頻點(diǎn)仏勁與各分離音源信號的峰值坐標(biāo)的歐氏距離,將距離峰值坐標(biāo)最近的時(shí)頻點(diǎn)劃歸為一類;最后,使用二進(jìn)制時(shí)頻掩碼技術(shù)將各個(gè)音源信號標(biāo)記,在時(shí)頻域?qū)崿F(xiàn)音源分離。其中,二進(jìn)制時(shí)頻掩碼技術(shù)為現(xiàn)有技術(shù)。具體實(shí)現(xiàn)為每一個(gè)時(shí)頻點(diǎn)被劃分到哪個(gè)音源信號,通過二進(jìn)制時(shí)頻掩碼控制,其中,^.¢!,^€{0,1}。若 Mj(i,ω) = ,則巧良 )不被劃分到音源;若!^象 )=〗,則而象 )被劃分到音源信號勺。Χ, β,Φ)、κ2( ,Φ)包含的音源信號是一樣的,中比,的多了空間線索, 通過提取空間線索,采用時(shí)頻掩碼技術(shù),在巧良勸中將各音源分離,因?yàn)榍蓙?)中的音源和巧仏勸中的音源信號是一樣的(都是同一聲源發(fā)出的聲音,只是被不同的麥克風(fēng)接收而已),所以對^2 (β> 無需處理。如圖5所示根據(jù)空間線索々, )、空間線索2良 )、空間線索3沃 )、 空間線索4良 )、空間線索少,釣和信號巧(丨,勸、巧象 ),分離出5個(gè)被二進(jìn)制時(shí)頻掩碼標(biāo)記的音源信號巧象 )、S2O)、Φ為、、s5(i,ai)。當(dāng)2時(shí),先兩兩互相處理,然后綜合各分離音源信號。例如《 = 3時(shí),記立體聲音頻信號巧幻、而(0、々(0變換到時(shí)頻域,得到信號巧良 )、巧仏 )、%象 ),則進(jìn)行以下處理
(1)對巧良 )和,根據(jù)而良釣和巧(1, )的處理耳間相對衰減和耳間相對延時(shí)建立二維直方圖,進(jìn)行分類;
(2)對巧0,釣和巧&妁,根據(jù)和的處理耳間相對衰減和耳間相對延時(shí)建立二維直方圖,進(jìn)行分類;
(3)對巧(〖,釣和巧( , ),根據(jù)而包勸和巧仏 )的處理耳間相對衰減和耳間相對延時(shí)
建立二維直方圖,進(jìn)行分類;
對某個(gè)音源信號,將(1) (2) (3)處理所得的相應(yīng)結(jié)果相加取平均值,即可得到分離的音源信號。步驟4,將步驟3所得變換域中各分離的音源信號還原至?xí)r域,得到基于三維空間音頻感知的音源分離結(jié)果。如圖6,實(shí)施例中分別將5個(gè)被二進(jìn)制時(shí)頻掩碼標(biāo)記的音源信號、 S2Ci, 0)、S3(i,a)、s從 φ)、ε從 φ),采用逆短時(shí)傅里葉變換(Inverse Short Time Fourier Transform,簡記:I-STFT)從時(shí)頻域還原到時(shí)域,得到信號si(i)、s2(f)、s3(f)
W)、&(◎,實(shí)現(xiàn)一種基于三維空間音頻感知的音源分離方法。短時(shí)傅里葉變化和逆短時(shí)傅里葉變換為現(xiàn)有技術(shù),本發(fā)明不予贅述。本文中所描述的具體實(shí)施例僅僅是對本發(fā)明精神作舉例說明。本發(fā)明所屬技術(shù)領(lǐng)域的技術(shù)人員可以對所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代,但并不會偏離本發(fā)明的精神或者超越所附權(quán)利要求書所定義的范圍。
權(quán)利要求
1.一種基于三維空間音頻感知的音源分離方法,其特征在于,包括以下步驟步驟1,輸入'聲道的音頻信號,將音頻信號變換至變換域,《>2 ;步驟2,基于空間三維空間音頻感知理論和人耳空間聽覺理論,在〃個(gè)聲道的變換域中提取各音源信號的空間線索;步驟3,根據(jù)各音源信號的空間線索的分布概率,在該變換域中分離各音源信號; 步驟4,將步驟3所得變換域中各分離的音源信號還原至?xí)r域,得到基于三維空間音頻感知的音源分離結(jié)果。
2.如權(quán)利要求1所述基于三維空間音頻感知的音源分離方法,其特征在于所述變換域?yàn)闀r(shí)頻域,所述空間線索為耳間相對延時(shí)和耳間相對衰減。
3.如權(quán)利要求2所述基于三維空間音頻感知的音源分離方法,其特征在于步驟3的具體實(shí)現(xiàn)方式如下,根據(jù)各音源信號的空間線索的分布概率,構(gòu)造概率分布的二維直方圖; 所述二維直方圖的二維平面中的橫坐標(biāo)和縱坐標(biāo)分別為耳間相對延時(shí)和耳間相對衰減,豎軸是音源信號的空間線索的分布概率;根據(jù)二維直方圖中的峰值坐標(biāo),通過聚類算法將距離峰值坐標(biāo)最近的時(shí)頻點(diǎn)劃歸為一類;使用二進(jìn)制時(shí)頻掩碼技術(shù)將音源信號根據(jù)時(shí)頻點(diǎn)的分類標(biāo)記,在時(shí)頻域?qū)崿F(xiàn)音源分離。
全文摘要
本發(fā)明提出一種基于三維空間音頻感知的音源分離方法,輸入聲道的音頻信號,將其變換至某一特定變換域;基于空間三維空間音頻感知理論和人耳空間聽覺理論,在個(gè)聲道的變換域中提取各音源信號的空間線索;根據(jù)各音源信號的空間線索的分布概率,在該變換域中分離各音源信號;將變換域中的各分離音源信號還原至?xí)r域,實(shí)現(xiàn)一種基于空間線索的音源分離方法。本發(fā)明針對實(shí)際安防監(jiān)控環(huán)境的復(fù)雜多變性,將三維音頻、空間音頻與音源分離技術(shù)相交叉、結(jié)合,研究多個(gè)音源的空間線索的混合規(guī)律,提出了一種基于三維空間音頻感知的音源分離方法,從而能夠在復(fù)雜多變、噪聲干擾的實(shí)際監(jiān)控環(huán)境中分離出重點(diǎn)音源信號,為多媒體安防、刑偵監(jiān)控提供了新的技術(shù)支持。
文檔編號G10L21/02GK102522093SQ20121000364
公開日2012年6月27日 申請日期2012年1月9日 優(yōu)先權(quán)日2012年1月9日
發(fā)明者常迪, 楊婉怡, 楊玉紅, 林霞, 涂衛(wèi)平, 王曉晨, 胡瑞敏, 董石 申請人:武漢大學(xué)