音頻事件檢測系統(tǒng)及方法

文檔序號：2823329閱讀：371來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音頻事件檢測系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻檢測技術(shù)領(lǐng)域，尤其涉及一種音頻事件檢測系統(tǒng)及方法。
背景技術(shù)：
智能的音頻監(jiān)控中需要對突發(fā)事件進(jìn)行檢測，進(jìn)而采取報(bào)警、高質(zhì)量編碼等操作。當(dāng)前事件檢測技術(shù)主要應(yīng)用于離線檢測，對音頻信號直接應(yīng)用高斯混合模型(GMM)、隱馬爾可夫模型(HMM)等方法進(jìn)行事件匹配。由于當(dāng)前事件檢測技術(shù)在檢測音頻信號中是否包含突發(fā)事件時(shí)，需對音頻信號中每一幀信號進(jìn)行相同的處理，故計(jì)算復(fù)雜度較高；且當(dāng)前事件檢測技術(shù)在對音頻信號進(jìn)行突發(fā)事件檢測的過程中通常是以數(shù)幀作為一個(gè)檢測窗同時(shí)進(jìn) 行處理，故對突發(fā)事件進(jìn)行檢測的響應(yīng)延時(shí)較長。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種音頻事件檢測系統(tǒng)及方法，以檢測出音頻突發(fā)事件。為達(dá)到上述目的，本發(fā)明采用如下的技術(shù)方案一種音頻事件檢測系統(tǒng)，其特征在于，包括取樣模塊，用于取樣來自音頻輸入設(shè)備的單聲道或多聲道的輸入信號，得到當(dāng)前幀的音頻信號，并將所獲得的當(dāng)前幀的音頻信號分兩路輸出，一路輸出連接音頻顯著度分析模塊，一路輸出連接音頻信號篩選模塊；音頻顯著度分析模塊，用于提取音頻的特征并對取樣模塊輸入的當(dāng)前幀的音頻信號進(jìn)行顯著度分析，得到當(dāng)前音頻信號的顯著度，并將當(dāng)前幀的音頻信號的顯著度輸出給音頻信號篩選模塊；音頻信號篩選模塊，用于根據(jù)音頻顯著度分析模塊輸入的當(dāng)前音頻信號的顯著度，得到需要進(jìn)一步進(jìn)行事件匹配的待匹配音頻信號和待判音頻信號顯著度，并相應(yīng)地分兩路輸出，一路將待匹配音頻信號輸出至事件匹配模塊，另一路將待判音頻信號顯著度輸出至綜合判別模塊；事件匹配模塊，用于根據(jù)音頻信號篩選模塊輸入的待匹配音頻信號，判斷待選音頻信號是否包含特定的音頻事件，輸出匹配事件類型和匹配信號似然度，并分別將所得的匹配事件類型、匹配信號似然度分兩路輸出給綜合判別模塊；綜合判別模塊，用于根據(jù)音頻信號篩選模塊輸入的待判音頻信號顯著度、事件匹配模塊輸入的匹配事件類型和匹配信號似然度，綜合判別后，如果當(dāng)前音頻信號包含突發(fā) 事件，則輸出匹配事件類型和事件判定結(jié)果。一種音頻事件檢測方法，包括以下步驟①由取樣模塊取樣來自音頻輸入設(shè)備的單聲道或多聲道的輸入信號；②由①所得的第k幀的信號求得第k幀信號的能量1_，<formula>formula see original document page 3</formula>
其中s (η)為當(dāng)前幀單聲道采樣信號，N為每一幀的采樣點(diǎn)數(shù)；③由②得到第k幀的信號求得第k幀信號的能量Icot，設(shè)定一閾值M1，設(shè)定另一閾值M2，若I· < M1,重復(fù)步驟①，否則進(jìn)入步驟④；④將①中取樣所得的第k幀的信號進(jìn)行音頻特征提取，得到第k幀待匹配音頻信號的特征矢量P;⑤將④得到的第k幀的信號的特征矢量^分別與槍聲和尖叫聲對應(yīng)的兩類GMM計(jì) 算對數(shù)似然度，得到第k幀的信號與槍聲GMM匹配的對數(shù)似然度Sgm，以及與尖叫聲GMM匹配的對數(shù)似然度ss。Mam ；設(shè)定一閾值S，當(dāng)或ss。ream大于s時(shí)，若Sgm > Sscreaffl則第k幀的信號匹配為槍聲，若Ss。ream > Sgun則第k幀的信號匹配為尖叫聲；當(dāng)Sgm和Ssraeam都小于S時(shí)則第k幀的信號不包含任何音頻匹配事件；⑥若且由⑤得到第k幀的信號不包含任何音頻匹配事件，轉(zhuǎn)步驟⑦，否則轉(zhuǎn)步驟 ⑧；⑦若由③得到I。ur < M2，轉(zhuǎn)步驟①，否則轉(zhuǎn)步驟⑨；⑧由⑤得到第k幀的信號的音頻匹配事件類型，標(biāo)注第k幀的信號的音頻匹配事件類型；⑨標(biāo)注第k幀的信號包含突發(fā)事件。本發(fā)明具有以下優(yōu)點(diǎn)和積極效果1)考慮了音頻信號顯著度對音頻事件檢測的影響，能夠在較低計(jì)算復(fù)雜度下達(dá)到較高的檢出率。

圖1是本發(fā)明提供的音頻事件檢測系統(tǒng)結(jié)構(gòu)框圖。圖2是本發(fā)明提供的音頻事件檢測方法流程圖。其中，1-取樣模塊，2-音頻顯著度分析模塊，3-音頻信號篩選模塊，4-事件匹配模塊， 5-綜合判別模塊，6-輸入信號，7-音頻信號，8-顯著度，9-待匹配音頻信號，10-匹配事件類型，11-匹配信號似然度，12-待判信號顯著度，13-匹配事件類型，14-事件判定結(jié)果。
具體實(shí)施例方式下面以具體實(shí)施例結(jié)合附圖對本發(fā)明作進(jìn)一步說明本發(fā)明提供的音頻事件檢測系統(tǒng)，具體采用如下的技術(shù)方案，參見圖1，該音頻事件檢測系統(tǒng)包括取樣模塊1、音頻顯著度分析模塊2、音頻信號篩選模塊3、事件匹配模塊4、綜合判別模塊5 ；取樣模塊1用于取樣來自音頻輸入設(shè)備的輸入信號6，以獲得當(dāng)前幀的音頻信號，其中音頻輸入設(shè)備一般采用麥克風(fēng)，但不限于麥克風(fēng)，取樣模塊1可以從單聲道輸入音頻信號取樣完畢后，逐幀送往其它模塊處理，取樣模塊1還可以邊取樣邊將取得的一幀信號送往其它模塊處理，其中因?yàn)橹饚幚?，所以?dāng)前正在處理的幀被稱為當(dāng)前幀，上述的音頻采樣技術(shù)屬于本領(lǐng)域常用的技術(shù)，在此不予贅述；取樣模塊1獲得的當(dāng)前幀的音頻信號7，分兩路輸出，一路輸出連接音頻顯著度分析模塊2，一路輸出連接音頻信號篩選模塊3 ；音頻顯著度分析模塊2用于根據(jù)取樣模塊1輸入的的當(dāng)前幀的音頻信號，計(jì)算當(dāng) 前幀信號的能量1_，并根據(jù)當(dāng)前幀信號的能量得到當(dāng)前幀信號的顯著度M = Icur,<formula>formula see original document page 5</formula>其中，s(n)為當(dāng)前幀單聲道采樣信號，N為每一幀的采樣點(diǎn)數(shù)，音頻顯著度分析模塊2輸出當(dāng)前幀的音頻信號的顯著度8給音頻信號篩選模塊3 ；音頻信號篩選模塊3用于根據(jù)音頻顯著度分析模塊2輸入的的當(dāng)前幀的音頻信號的顯著度8，采用一種篩選方法，對取樣模塊得到的音頻信號篩選得到需要進(jìn)一步進(jìn)行事件匹配的待匹配音頻信號9，同時(shí)根據(jù)音頻顯著度分析分析模塊2得到的當(dāng)前幀的音頻信號的顯著度8，采用另一種篩選方法，對音頻顯著度分析分析模塊2得到的當(dāng)前幀的音頻信號的顯著度8篩選得到包含突發(fā)音頻事件的待判音頻信號顯著度12，音頻信號篩選模塊3相應(yīng)地分兩路輸出，一路將待匹配音頻信號9輸出至事件匹配模塊4，另一路將待判音頻信號顯著度12輸出至綜合判別模塊5 ；具體實(shí)施時(shí)，音頻信號篩選模塊3設(shè)定兩閾值M1和M2 (1 < M2)用于在當(dāng)輸入該模塊的當(dāng)前幀音頻顯著度M大于不同閾值時(shí)在后續(xù)模塊進(jìn)行不同的處理；其中，將11與虬比較作為一種篩選方法，當(dāng)M1 < M時(shí)，將音頻信號輸出為待匹配音頻信號9 ；將與比較作為另一種篩選方法，當(dāng)M2 < M時(shí)，音頻顯著度分析分析模塊得到的當(dāng)前幀的音頻信號的顯著度8 輸出為待判音頻信號顯著度12 ；事件匹配模塊4用于根據(jù)音頻信號篩選模塊3得到的待匹配音頻信號9，使用模式識別等方法判斷待選音頻信號是否包含特定的音頻事件，如果待匹配音頻信號9包含特定的音頻事件，則待匹配音頻信號9輸出為匹配音頻信號，并輸出匹配事件類型10和匹配信號似然度11 具體實(shí)施時(shí)，由于可選用不同的模型，如GMM、HMM等對待匹配事件進(jìn)行建模，因此該模塊可根據(jù)所選模型采取不同的匹配方法，本發(fā)明的一個(gè)實(shí)施例采用的是以GMM對待匹配事件每一幀的信號提取特征并進(jìn)行建模共兩類突發(fā)音頻事件，槍聲與尖叫聲，各對應(yīng)一類GMM，具體匹配步驟如下首先對音頻信號篩選模塊得到的待匹配音頻信號進(jìn)行音頻特征提取，得到當(dāng)前幀待匹配音頻信號的特征矢量V ；然后將上一步得到的當(dāng)前幀待匹配音頻信號的特征矢量 7分別與槍聲和尖叫聲對應(yīng)的兩類GMM計(jì)算對數(shù)似然度，得到當(dāng)前幀音頻信號與槍聲GMM匹配的對數(shù)似然度Sgm，以及與尖叫聲GMM匹配的對數(shù)似然度ss。Mam，設(shè)定一閾值s，當(dāng)Sgun或Ss。Mam大于s時(shí)，若Sgun > ss。ream則當(dāng)前幀音頻信號匹配為槍聲，否則匹配為尖叫聲；事件匹配模塊4分別將所得的匹配事件類型10、匹配信號似然度11分兩路輸出給綜合判別模塊5 ；綜合判別模塊5用于根據(jù)音頻信號篩選模塊3得到的待判音頻信號顯著度12和事件匹配模塊4輸出的匹配事件類型10和匹配信號似然度11，綜合判別后，如果當(dāng)前音頻信號包含突發(fā)事件，則輸出匹配事件類型13和事件判定結(jié)果14。
本發(fā)明提供的音頻事件檢測方法，具體采用以下的技術(shù)方案，參見圖2所示，包括以下步驟③由取樣模塊取樣來自麥克風(fēng)的信號，采樣率為32000Hz ；④由①所得的第k幀的信號求得第k幀信號的能量1_，<formula>formula see original document page 6</formula>其中s (η)為當(dāng)前幀單聲道采樣信號，N為每一幀的采樣點(diǎn)數(shù)，由①可得N = 640 ；③由②得到第k幀的信號求得第k幀信號的能量Ieur，設(shè)定一閾值M1 = 102°，設(shè)定另一閾值M1 = 103°，若Icot < M1，重復(fù)步驟①，否則進(jìn)入步驟④；④將①中取樣所得的第k幀的信號進(jìn)行音頻特征提取，得到第k幀待匹配音頻信號的特征矢量交；⑤將④得到的第k幀的信號的特征矢量；分別與槍聲和尖叫聲對應(yīng)的兩類GMM計(jì) 算對數(shù)似然度，得到第k幀的信號與槍聲GMM匹配的對數(shù)似然度Sgm，以及與尖叫聲GMM匹配的對數(shù)似然度ss。ream。設(shè)定一閾值s = 15，當(dāng)Sgun或Ssraeam大于s時(shí)，若Sgun > Sscream則第 k幀的信號匹配為槍聲，若ss。ream > Sgun則第k幀的信號匹配為尖叫聲；當(dāng)和Ss。Mam都小于s時(shí)則第k幀的信號不包含任何音頻匹配事件；⑥若且由⑤得到第k幀的信號不包含任何音頻匹配事件，轉(zhuǎn)步驟⑦，否則轉(zhuǎn)步驟 ⑧；⑦若由③得到Icur < M2，轉(zhuǎn)步驟①，否則轉(zhuǎn)步驟⑨；⑧由⑤得到第k幀的信號的音頻匹配事件類型，標(biāo)注第k幀的信號的音頻匹配事件類型；⑨標(biāo)注第k幀的信號包含突發(fā)事件。
權(quán)利要求
一種音頻事件檢測系統(tǒng)，其特征在于包括取樣模塊(1)，用于取樣來自音頻輸入設(shè)備的單聲道或多聲道的輸入信號(6)，得到當(dāng)前幀的音頻信號(7)，并將所獲得的當(dāng)前幀的音頻信號(7)分兩路輸出，一路輸出連接音頻顯著度分析模塊(2)，一路輸出連接音頻信號篩選模塊(3)；音頻顯著度分析模塊(2)，用于提取音頻的特征并對取樣模塊(1)輸入的當(dāng)前幀的音頻信號(7)進(jìn)行顯著度分析，得到當(dāng)前音頻信號的顯著度(8)，并將當(dāng)前幀的音頻信號的顯著度(8)輸出給音頻信號篩選模塊(3)；音頻信號篩選模塊(3)，用于根據(jù)音頻顯著度分析模塊(2)輸入的當(dāng)前音頻信號的顯著度(8)，得到需要進(jìn)一步進(jìn)行事件匹配的待匹配音頻信號(9)和待判音頻信號顯著度(12)，并相應(yīng)地分兩路輸出，一路將待匹配音頻信號(9)輸出至事件匹配模塊(4)，另一路將待判音頻信號顯著度(12)輸出至綜合判別模塊(5)；事件匹配模塊(4)，用于根據(jù)音頻信號篩選模塊(3)輸入的待匹配音頻信號(9)，判斷待選音頻信號是否包含特定的音頻事件，輸出匹配事件類型(10)和匹配信號似然度(11)，并分別將所得的匹配事件類型(10)、匹配信號似然度(11)分兩路輸出給綜合判別模塊(5)；綜合判別模塊(5)，用于根據(jù)音頻信號篩選模塊(3)輸入的待判音頻信號顯著度(12)、事件匹配模塊(4)輸入的匹配事件類型(10)和匹配信號似然度(11)，綜合判別后，如果當(dāng)前音頻信號包含突發(fā)事件，則輸出匹配事件類型(13)和事件判定結(jié)果(14)。
2.一種音頻事件檢測方法，其特征在于，包括以下步驟①由取樣模塊取樣來自音頻輸入設(shè)備的單聲道或多聲道的輸入信號；②由①所得的第k幀的信號求得第k幀信號的能量<formula>formula see original document page 0</formula> 其中S (Π)為當(dāng)前幀單聲道采樣信號，N為每一幀的采樣點(diǎn)數(shù)；③由②得到第k幀的信號求得第k幀信號的能量Icm，設(shè)定一閾值M1,設(shè)定另一閾值M2, 若< M1，重復(fù)步驟①，否則進(jìn)入步驟④；④將①中取樣所得的第k幀的信號進(jìn)行音頻特征提取，得到第k幀待匹配音頻信號的特征矢量P ；⑤將④得到的第k幀的信號的特征矢量分別與槍聲和尖叫聲對應(yīng)的兩類GMM計(jì)算對數(shù)似然度，得到第k幀的信號與槍聲GMM匹配的對數(shù)似然度s_，以及與尖叫聲GMM匹配的對數(shù)似然度Ssraeam ；設(shè)定一閾值s，當(dāng)或ss。ream大于s時(shí)，若Sgm > Sscreaffl則第k幀的信號匹配為槍聲，若> Sglm則第k幀的信號匹配為尖叫聲；當(dāng)S-和ss。ream都小于s時(shí)則第k幀的信號不包含任何音頻匹配事件；⑥若且由⑤得到第k幀的信號不包含任何音頻匹配事件，轉(zhuǎn)步驟⑦，否則轉(zhuǎn)步驟⑧；⑦若由③得到Icot< M2，轉(zhuǎn)步驟①，否則轉(zhuǎn)步驟⑨；⑧由⑤得到第k幀的信號的音頻匹配事件類型，標(biāo)注第k幀的信號的音頻匹配事件類型；⑨標(biāo)注第k幀的信號包含突發(fā)事件。
全文摘要
本發(fā)明音頻檢測技術(shù)領(lǐng)域，尤其涉及一種音頻事件檢測系統(tǒng)及方法。本發(fā)明的音頻事件檢測系統(tǒng)包括取樣模塊，用于取樣來自音頻輸入設(shè)備的單聲道或多聲道的輸入信號，得到當(dāng)前幀的音頻信號，音頻顯著度分析模塊，用于對當(dāng)前幀的音頻信號進(jìn)行顯著度分析，得到當(dāng)前音頻信號的顯著度，音頻信號篩選模塊，用于得到需要進(jìn)一步進(jìn)行事件匹配的待匹配音頻信號和待判音頻信號顯著度，事件匹配模塊，判斷待選音頻信號是否包含特定的音頻事件，輸出匹配事件類型和匹配信號似然度，綜合判別模塊，綜合判別當(dāng)前音頻信號是否包含突發(fā)事件。本發(fā)明考慮了音頻信號在頻域上的子帶能量分布變化，能夠在較低計(jì)算復(fù)雜度下達(dá)到較高的檢出率。
文檔編號G10L15/02GK101819770SQ20101010363
公開日2010年9月1日申請日期2010年1月27日優(yōu)先權(quán)日2010年1月27日
發(fā)明者周成, 楊玉紅, 杭波, 王曉晨, 胡瑞敏, 馬曄, 高戈申請人:武漢大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡瑞敏;杭波;馬曄;高戈;楊玉紅;周成;王曉晨
技術(shù)所有人：武漢大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

手機(jī)音頻測試系統(tǒng)相關(guān)技術(shù)

音頻檢測相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

音頻事件檢測系統(tǒng)及方法