音頻信號(hào)處理裝置和方法以及監(jiān)控系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)一種音頻信號(hào)處理裝置和方法以及監(jiān)控系統(tǒng)。所述音頻信號(hào)處理裝置包括:分窗單元,用于利用滑動(dòng)窗順次讀取輸入的音頻信號(hào);能量計(jì)算單元,用于計(jì)算每一窗中的音頻信號(hào)的每一幀的能量;分段單元,用于根據(jù)每一窗中的音頻信號(hào)的每一幀的能量的分布將所述窗中的音頻信號(hào)劃分為多個(gè)段,使得每個(gè)段中包括能量接近的連續(xù)幀;分類單元,用于利用至少一個(gè)聲音模型對(duì)每個(gè)段中的音頻信號(hào)進(jìn)行分類;以及識(shí)別單元,用于根據(jù)分類單元的分類結(jié)果來(lái)識(shí)別每個(gè)段中的音頻信號(hào)的聲音類別。
【專利說(shuō)明】音頻信號(hào)處理裝置和方法以及監(jiān)控系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及音頻處理領(lǐng)域,更具體而言,本發(fā)明涉及一種音頻信號(hào)處理裝 置和方法以及一種監(jiān)控系統(tǒng)。
【背景技術(shù)】
[0002] 對(duì)音頻信號(hào)進(jìn)行處理以準(zhǔn)確地識(shí)別音頻信號(hào)中的聲音類別,從而提取出特定的音 頻事件,是音頻處理領(lǐng)域的一個(gè)重要議題。將音頻信號(hào)劃分為連續(xù)的片段是音頻信號(hào)識(shí)別 的基礎(chǔ)。音頻信號(hào)分段的效果直接影響音頻信號(hào)識(shí)別的精度。如何改進(jìn)音頻信號(hào)分段技術(shù) 以提高分段的準(zhǔn)確性、避免虛假分割點(diǎn)過(guò)多、運(yùn)算量大、誤檢率與漏檢率高等問(wèn)題成為目前 本領(lǐng)域研究的重要方面。
【發(fā)明內(nèi)容】
[0003] 在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本 理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的 關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概 念,以此作為稍后論述的更詳細(xì)描述的前序。
[0004] 本發(fā)明的目的是提供一種音頻信號(hào)處理裝置和方法以及一種監(jiān)控系統(tǒng),以便克服 現(xiàn)有技術(shù)的上述問(wèn)題中的至少一個(gè)。
[0005] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種音頻信號(hào)處理裝置,包括:分窗單元,用于利 用滑動(dòng)窗順次讀取輸入的音頻信號(hào);能量計(jì)算單元,用于計(jì)算每一窗中的音頻信號(hào)的每一 中貞的能量;分段單兀,用于根據(jù)每一窗中的音頻信號(hào)的每一巾貞的能量的分布將所述窗中的 音頻信號(hào)劃分為多個(gè)段,使得每個(gè)段中包括能量接近的連續(xù)幀;分類單元,用于利用至少一 個(gè)聲音模型對(duì)每個(gè)段中的音頻信號(hào)進(jìn)行分類;以及識(shí)別單元,用于根據(jù)分類單元的分類結(jié) 果來(lái)識(shí)別每個(gè)段中的音頻信號(hào)的聲音類別。
[0006] 根據(jù)本發(fā)明的另一方面,提供了一種音頻信號(hào)處理方法,包括:利用滑動(dòng)窗順次讀 取輸入的音頻信號(hào);計(jì)算每一窗中的音頻信號(hào)的每一幀的能量;根據(jù)每一窗中的音頻信號(hào) 的每一幀的能量的分布將所述窗中的音頻信號(hào)劃分為多個(gè)段,使得每個(gè)段中包括能量接近 的連續(xù)幀;利用至少一個(gè)聲音模型對(duì)每個(gè)段中的音頻信號(hào)進(jìn)行分類;以及根據(jù)分類結(jié)果來(lái) 識(shí)別每個(gè)段中的音頻信號(hào)的聲音類別。
[0007] 根據(jù)本發(fā)明的又一方面,提供了一種監(jiān)控系統(tǒng),包括:音頻采集裝置,用于采集音 頻信號(hào);音頻信號(hào)處理裝置,用于對(duì)所述音頻信號(hào)進(jìn)行處理,以識(shí)別所述音頻信所包含的聲 音類別;以及報(bào)警裝置,用于當(dāng)音頻信號(hào)處理裝置識(shí)別到所述音頻信號(hào)中包含預(yù)定類型的 聲音類別時(shí),產(chǎn)生并發(fā)送報(bào)警信息,其中,所述音頻信號(hào)處理裝置是根據(jù)本發(fā)明的以上方面 的音頻信號(hào)處理裝置。
[0008] 在本發(fā)明的上述方面的音頻信號(hào)處理裝置和方法以及監(jiān)控系統(tǒng)中,根據(jù)每一窗中 的音頻信號(hào)的每一幀的能量的分布將所述窗中的音頻信號(hào)劃分為多個(gè)段,使得每個(gè)段中包 括能量接近的連續(xù)幀,并對(duì)每個(gè)段中的音頻信號(hào)進(jìn)行分類。這樣,可以對(duì)音頻信號(hào)快速地進(jìn) 行前端分割,不需要提前訓(xùn)練分割用的聲學(xué)模型,并且由于每個(gè)段中包括能量接近的連續(xù) 幀,使得每個(gè)段中包含的聲音類別相對(duì)單一,從而有助于提高后續(xù)音頻信號(hào)識(shí)別的準(zhǔn)確率。
【專利附圖】
【附圖說(shuō)明】
[0009] 本發(fā)明可以通過(guò)參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所 有附圖中使用了相同或相似的附圖標(biāo)記來(lái)表示相同或者相似的部件。所述附圖連同下面的 詳細(xì)說(shuō)明一起包含在本說(shuō)明書中并且形成本說(shuō)明書的一部分,而且用來(lái)進(jìn)一步舉例說(shuō)明本 發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中:
[0010] 圖1示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻信號(hào)處理裝置的示意性框圖;
[0011] 圖2示出圖1所示的音頻信號(hào)處理裝置的示意性工作流程圖;
[0012] 圖3示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的分段單元的示意性框圖;
[0013] 圖4示出圖3所示的分段單元的示意性工作流程圖;
[0014] 圖5示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的分段處理示例的示意性流程圖;
[0015] 圖6示出根據(jù)本發(fā)明的另一個(gè)實(shí)施例的分段單元的示意性框圖;
[0016] 圖7示出根據(jù)本發(fā)明的另一個(gè)實(shí)施例的音頻信號(hào)處理裝置的示意性框圖;
[0017] 圖8示出圖7所示的音頻信號(hào)處理裝置的示意性工作流程圖;
[0018] 圖9示出根據(jù)本發(fā)明的又一實(shí)施例的音頻信號(hào)處理裝置的示意性框圖;
[0019] 圖10示出圖9所示的音頻信號(hào)處理裝置的示意性工作流程圖;
[0020] 圖11示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的監(jiān)控系統(tǒng)的示意性框圖;以及
[0021] 圖12示出可以實(shí)現(xiàn)本發(fā)明的實(shí)施例/示例的計(jì)算機(jī)的結(jié)構(gòu)的示例性框圖。
【具體實(shí)施方式】
[0022] 下面將參照附圖來(lái)說(shuō)明本發(fā)明的實(shí)施例。在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中 描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。 應(yīng)當(dāng)注意,為了清楚的目的,附圖和說(shuō)明中省略了與本發(fā)明無(wú)關(guān)的、本領(lǐng)域普通技術(shù)人員已 知的部件和處理的表示和描述。
[0023] 圖1示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的音頻信號(hào)處理裝置的示意性框圖。如圖1所 示,音頻信號(hào)處理裝置1〇〇包括分窗單元110、能量計(jì)算單元120、分段單元130、分類單元 140和識(shí)別單元150。以下結(jié)合圖2來(lái)描述音頻信號(hào)處理裝置100的示意性工作流程圖。
[0024] 圖2示出圖1所示的音頻信號(hào)處理裝置100的示意性工作流程圖,即根據(jù)本發(fā)明 的一個(gè)實(shí)施例的音頻信號(hào)處理方法。如圖2所示,在方法P200中,在步驟S210中,利用滑 動(dòng)窗順次讀取輸入的音頻信號(hào)。每一窗信號(hào)作為后續(xù)的分段、分類和識(shí)別等操作的一個(gè)處 理單元,依次處理每一窗音頻信號(hào)。在步驟S220中,計(jì)算每一窗中的音頻信號(hào)的每一幀的 能量。幀是音頻信號(hào)的基本單位,每幀音頻信號(hào)具有預(yù)定時(shí)長(zhǎng)。在步驟S230中,根據(jù)每一 窗中的音頻信號(hào)的每一幀的能量的分布將窗中的音頻信號(hào)劃分為多個(gè)段,使得每個(gè)段中包 括能量接近的連續(xù)幀。也就是說(shuō),每個(gè)段的中的幀的能量變化相對(duì)比較平緩。在步驟S240 中,利用至少一個(gè)聲音模型對(duì)每個(gè)段中的音頻信號(hào)進(jìn)行分類。聲音模型可以是預(yù)先訓(xùn)練好 的模型,每種聲音模型對(duì)應(yīng)于相應(yīng)的聲音類別。通過(guò)分類來(lái)確定每段中的音頻信號(hào)相對(duì)于 所述至少一個(gè)聲音模型的相似度(例如似然值或分值),作為分類結(jié)果。在本實(shí)施例中,所采 用的具體分類方法沒(méi)有限制。例如,可以利用聲音模型對(duì)每段的音頻信號(hào)整體的特征參數(shù) 進(jìn)行分類,從而獲得該段的分類結(jié)果;或者,也可以利用聲音模型對(duì)每個(gè)段中的音頻信號(hào)的 每一幀的特征參數(shù)進(jìn)行分類,并根據(jù)段中各個(gè)幀的分類結(jié)果確定該段的分類結(jié)果。在步驟 S250中,根據(jù)分類結(jié)果來(lái)識(shí)別每個(gè)段中的音頻信號(hào)的聲音類別。具體而言,音頻信號(hào)關(guān)于 哪種聲音模型的相似度高,就可以確定音頻信號(hào)屬于該種聲音模型對(duì)應(yīng)的聲音類別。這里, 步驟S210可以由分窗單元110執(zhí)行,步驟S220可以由能量計(jì)算單元120執(zhí)行,步驟S230 可以由分段單元130執(zhí)行,步驟S240可以由分類單元240執(zhí)行,步驟S250可以由識(shí)別單元 150執(zhí)行。
[0025] 由此,可以對(duì)音頻信號(hào)快速地進(jìn)行前端分割,不需要提前訓(xùn)練分割用的聲學(xué)模型。 能量比較接近的連續(xù)幀可以被認(rèn)為具有相同的類別,能量差異較大的連續(xù)幀則被認(rèn)為是具 有不同的類別。由于每個(gè)段中包括能量接近的連續(xù)幀,使得每個(gè)段中包含的聲音類別相對(duì) 單一,從而有助于提高后續(xù)音頻信號(hào)識(shí)別的準(zhǔn)確率。
[0026] 應(yīng)當(dāng)理解,在方法P200中,能量計(jì)算步驟S220的執(zhí)行時(shí)機(jī)不限于圖2所示,而是 也可以在分窗步驟S210之前針對(duì)音頻信號(hào)中的每一幀計(jì)算能量。
[0027] 分窗單元110可以使用現(xiàn)有的或?qū)㈤_(kāi)發(fā)的任何適當(dāng)?shù)募夹g(shù)來(lái)在輸入的音頻信號(hào) 上移動(dòng)滑動(dòng)窗(分窗操作)。例如,可以使用預(yù)定的固定長(zhǎng)度的滑動(dòng)窗來(lái)讀取音頻信號(hào)。或 者,也可以采用可變長(zhǎng)度的滑動(dòng)窗來(lái)讀取音頻信號(hào)。
[0028] 作為可變長(zhǎng)度滑動(dòng)窗的示例,分窗單元110可以以預(yù)定幀數(shù)作為初始滑動(dòng)窗的長(zhǎng) 度,每次遞增固定步長(zhǎng)(固定幀數(shù))并以初始滑動(dòng)窗的后邊界為中心滑動(dòng),尋找音頻信號(hào)的 能量包絡(luò)的最小極值點(diǎn)作為下一窗的前邊界。為了防止擾動(dòng)產(chǎn)生的誤判,最小極值點(diǎn)不包 括由于微小擾動(dòng)產(chǎn)生的極值點(diǎn)。這里,滑動(dòng)窗的兩個(gè)邊界中時(shí)間靠前的邊界稱為前邊界,時(shí) 間靠后的邊界稱為后邊界。
[0029] 能量計(jì)算單元120可以使用各種適當(dāng)?shù)姆椒▉?lái)計(jì)算每一幀音頻信號(hào)的能量。例 如,可以采用以下公式來(lái)計(jì)算一幀音頻信號(hào)的能量:
【權(quán)利要求】
1. 一種音頻信號(hào)處理裝置,包括: 分窗單元,用于利用滑動(dòng)窗順次讀取輸入的音頻信號(hào); 能量計(jì)算單元,用于計(jì)算每一窗中的音頻信號(hào)的每一峽的能量; 分段單元,用于根據(jù)每一窗中的音頻信號(hào)的每一峽的能量的分布將所述窗中的音頻信 號(hào)劃分為多個(gè)段,使得每個(gè)段中包括能量接近的連續(xù)峽; 分類單元,用于利用至少一個(gè)聲音模型對(duì)每個(gè)段中的音頻信號(hào)進(jìn)行分類;W及 識(shí)別單元,用于根據(jù)所述分類單元的分類結(jié)果來(lái)識(shí)別每個(gè)段中的音頻信號(hào)的聲音類 別。
2. 根據(jù)權(quán)利要求1的音頻信號(hào)處理裝置,其中,所述分段單元包括: 聚類單元,用于將所述窗中的峽的能量按大小聚類為多個(gè)簇,每個(gè)簇中包含大小接近 的多個(gè)能量;W及 段形成單元,用于將同一簇中的連續(xù)峽形成一個(gè)段。
3. 根據(jù)權(quán)利要求2的音頻信號(hào)處理裝置,其中,所述聚類單元分別W所述窗的能量序 列中的最大能量和最小能量為中也,根據(jù)最近鄰原則將所述窗的能量序列聚類為兩個(gè)簇, W及分別W每個(gè)簇的能量序列中的最大能量和最小能量為中也,根據(jù)最近鄰原則迭代地對(duì) 每個(gè)簇的能量序列進(jìn)行聚類,直到不再滿足聚類條件為止, 其中,所述窗中的峽的能量組成的序列作為所述窗的能量序列,每個(gè)簇中的峽的能量 組成的序列作為所述簇的能量序列,并且所述聚類條件為所聚類出的兩個(gè)簇的能量序列的 分布與單高斯分布的相似度之和高于從中聚類出所述兩個(gè)簇的窗或簇的能量序列的分布 與單高斯分布的相似度達(dá)預(yù)定程度。
4. 根據(jù)權(quán)利要求2的音頻信號(hào)處理裝置,其中,所述分段單元還包括: 能量規(guī)整單元,用于在所述聚類單元進(jìn)行聚類之前對(duì)所述窗中的峽的能量組成的序列 進(jìn)行規(guī)整,W增大所述序列中的能量之間的差異性。
5. 根據(jù)權(quán)利要求1的音頻信號(hào)處理裝置,其中, 所述分類單元利用異常聲音模型和背景聲音模型對(duì)每個(gè)段中的音頻信號(hào)的每一峽進(jìn) 行分類, 所述音頻信號(hào)處理裝置還包括加權(quán)單元,用于根據(jù)每一峽屬于異常聲音的可信度對(duì)所 述分類單元對(duì)每一峽的分類結(jié)果進(jìn)行加權(quán),其中可信度越大,分類結(jié)果的權(quán)重越高,并且 所述識(shí)別單元根據(jù)每一峽加權(quán)后的分類結(jié)果來(lái)識(shí)別每個(gè)段中的音頻信號(hào)的聲音類別。
6. 根據(jù)權(quán)利要求5的音頻信號(hào)處理裝置,其中,所述加權(quán)單元使用W下H項(xiàng)中的任意 一項(xiàng)或任意多項(xiàng)的組合作為每一峽屬于異常聲音的可信度: 每一峽音頻信號(hào)相對(duì)于前一峽音頻信號(hào)的能量變化; 每一峽音頻信號(hào)與異常聲音模型的相似度和所述峽音頻信號(hào)與背景聲音模型的相似 度的差;W及 每一峽所在的段中包含的連續(xù)峽的個(gè)數(shù)。
7. 根據(jù)權(quán)利要求1的音頻信號(hào)處理裝置,還包括能量平滑單元,用于在所述分段單元 對(duì)所述窗中的音頻信號(hào)進(jìn)行劃分之前,對(duì)所述窗中的音頻信號(hào)的每一峽的能量進(jìn)行平滑。
8. -種音頻信號(hào)處理方法,包括: 利用滑動(dòng)窗順次讀取輸入的音頻信號(hào); 計(jì)算每一窗中的音頻信號(hào)的每一峽的能量; 根據(jù)每一窗中的音頻信號(hào)的每一峽的能量的分布將所述窗中的音頻信號(hào)劃分為多個(gè) 段,使得每個(gè)段中包括能量接近的連續(xù)峽; 利用至少一個(gè)聲音模型對(duì)每個(gè)段中的音頻信號(hào)進(jìn)行分類;W及 根據(jù)分類結(jié)果來(lái)識(shí)別每個(gè)段中的音頻信號(hào)的聲音類別。
9. 根據(jù)權(quán)利要求8的音頻信號(hào)處理方法,其中,根據(jù)每一窗中的音頻信號(hào)的每一峽的 能量的分布將所述窗中的音頻信號(hào)劃分為多個(gè)段包括: 將所述窗中的峽的能量按大小聚類為多個(gè)簇,每個(gè)簇中包含大小接近的多個(gè)能量;W 及 將同一簇中的連續(xù)峽形成一個(gè)段。
10. 根據(jù)權(quán)利要求9的音頻信號(hào)處理方法,其中,將所述窗中的峽的能量按大小聚類為 多個(gè)簇包括: 分別W所述窗的能量序列中的最大能量和最小能量為中也,根據(jù)最近鄰原則將所述 窗的能量序列聚類為兩個(gè)簇,W及分別W每個(gè)簇的能量序列中的最大能量和最小能量為中 也,根據(jù)最近鄰原則迭代地對(duì)每個(gè)簇的能量序列進(jìn)行聚類,直到不再滿足聚類條件為止, 其中,所述窗中的峽的能量組成的序列作為所述窗的能量序列,每個(gè)簇中的峽的能量 組成的序列作為所述簇的能量序列,并且所述聚類條件為所聚類出的兩個(gè)簇的能量序列的 分布與單高斯分布的相似度之和高于從中聚類出所述兩個(gè)簇的窗或簇的能量序列的分布 與單高斯分布的相似度達(dá)預(yù)定程度。
11. 根據(jù)權(quán)利要求9的音頻信號(hào)處理方法,還包括: 在進(jìn)行聚類之前對(duì)所述窗中的峽的能量組成的序列進(jìn)行規(guī)整,W增大所述序列中的能 量之間的差異性。
12. 根據(jù)權(quán)利要求8的音頻信號(hào)處理方法,其中,利用異常聲音模型和背景聲音模型對(duì) 每個(gè)段中的音頻信號(hào)的每一峽進(jìn)行分類, 所述方法還包括: 根據(jù)每一峽屬于異常聲音的可信度對(duì)每一峽的分類結(jié)果進(jìn)行加權(quán),其中可信度越大, 分類結(jié)果的權(quán)重越高,并且 其中,根據(jù)每一峽加權(quán)后的分類結(jié)果來(lái)識(shí)別每個(gè)段中的音頻信號(hào)的聲音類別。
13. 根據(jù)權(quán)利要求12的音頻信號(hào)處理方法,其中,使用W下H項(xiàng)中的任意一項(xiàng)或任意 多項(xiàng)的組合作為每一峽屬于異常聲音的可信度: 每一峽音頻信號(hào)相對(duì)于前一峽音頻信號(hào)的能量變化; 每一峽音頻信號(hào)與異常聲音模型的相似度和所述峽音頻信號(hào)與背景聲音模型的相似 度的差;W及 每一峽所在的段中包含的連續(xù)峽的個(gè)數(shù)。
14. 根據(jù)權(quán)利要求8的音頻信號(hào)處理方法,還包括: 在對(duì)所述窗中的音頻信號(hào)進(jìn)行劃分之前,對(duì)所述窗中的音頻信號(hào)的每一峽的能量進(jìn)行 平滑。
15. -種監(jiān)控系統(tǒng),包括: 音頻采集裝置,用于采集音頻信號(hào); 音頻信號(hào)處理裝置,用于對(duì)所述音頻信號(hào)進(jìn)行處理,w識(shí)別所述音頻信所包含的聲音 類別;W及 報(bào)警裝置,用于當(dāng)所述音頻信號(hào)處理裝置識(shí)別到所述音頻信號(hào)中包含預(yù)定類型的聲音 類別時(shí),產(chǎn)生并發(fā)送報(bào)警信息, 其中,所述音頻信號(hào)處理裝置是根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的音頻信號(hào)處理裝 置。
【文檔編號(hào)】G10L15/08GK104347068SQ201310344110
【公開(kāi)日】2015年2月11日 申請(qǐng)日期:2013年8月8日 優(yōu)先權(quán)日:2013年8月8日
【發(fā)明者】劉昆 申請(qǐng)人:索尼公司