国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于聲譜圖顯著性檢測的音頻識別方法

      文檔序號:8300079閱讀:733來源:國知局
      一種基于聲譜圖顯著性檢測的音頻識別方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明屬于音頻識別領(lǐng)域,具體地說是一種基于聲譜圖顯著性檢測的音頻識別方 法。
      【背景技術(shù)】
      [0002] 隨著互聯(lián)網(wǎng)的高速發(fā)展,涌現(xiàn)大量的音頻、視頻和圖像信息。但是音頻信息的研究 速度遠(yuǎn)遠(yuǎn)比不上視頻和圖像的研究,而且對大量音頻信息的識別工作,單靠人工標(biāo)注是一 件龐大而又繁瑣的工程,因此,實現(xiàn)對音頻信號的自動識別,是音頻領(lǐng)域的研究重點。
      [0003] 目前存在的音頻信號的自動識別方法主要通過提取特征和選擇分類器兩大步驟 進(jìn)行,其中研究提取音頻信號的聲音特征為傳統(tǒng)常用的音頻識別方法。然而對大量未知復(fù) 雜的音頻數(shù)據(jù),若不先對音頻進(jìn)行細(xì)化分類,針對不同類型的音頻數(shù)據(jù)采取不同的處理過 程,傳統(tǒng)的音頻識別方法存在明顯不足。尤其是原始音頻具有極其復(fù)雜的表示方式,缺少語 義背景內(nèi)容和結(jié)構(gòu)化的組織,在間斷、多源和噪聲干擾等復(fù)雜的環(huán)境下如何選擇能夠準(zhǔn)確 表示此類音頻的特征信息,并且運用何種識別方法將未知音頻正確分類識別是音頻識別的 重要研究問題。
      [0004] 近年來,隨著人類聽覺神經(jīng)科學(xué)認(rèn)識的逐漸深入,越來越多的研究者將注意力放 在基于聲譜圖的時頻模型上。研究結(jié)果認(rèn)為:聲譜圖中的時頻結(jié)構(gòu)反映了信號時域和空域 結(jié)構(gòu),可W形成聲學(xué)感知的稀疏基函數(shù)。該與大腦聽覺感知系統(tǒng)有效去除冗余,利用較少的 神經(jīng)元表達(dá)更多的外界聲音信息的思想一致。德國奧登堡大學(xué)的Kleinschmi化提出適合 自動音頻識別的新特征:聲譜圖中的局部時頻結(jié)構(gòu)特征。研究者認(rèn)為該特征與聽覺神經(jīng)元 的時頻感受野特性相似,具有有效表達(dá)如共振峰的聲學(xué)參數(shù)、較少加性噪聲的影響和很好 的泛化性。但是,該局部時頻結(jié)構(gòu)是通過研究者在聲譜圖中人工選取的,針對多聲源和加性 噪聲存在的聲譜圖中,如何讓計算機自動有效提取分離出主要聲源的局部時頻結(jié)構(gòu)仍待解 決。麻省理工學(xué)院的Schutte利用boosting分類器通過聲譜圖的局部時頻結(jié)構(gòu)識別音頻。 然而boosting分類器太過依賴人為設(shè)定和調(diào)節(jié)闊值,通過該方法對識別復(fù)雜環(huán)境下未知 音頻類型的音頻數(shù)據(jù)來說并不實用。

      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明是為了克服現(xiàn)有技術(shù)存在的不足之處,提供一種可靠、自動化、快速且強大 的基于聲譜圖顯著性檢測的音頻識別方法,W期能有效表征復(fù)雜環(huán)境下未知音頻類型的特 征信息,同時能夠?qū)崿F(xiàn)快速自動的音頻識別。
      [0006] 本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案;
      [0007] 本發(fā)明一種基于聲譜圖顯著性檢測的音頻識別方法的特點是如下步驟進(jìn)行:
      [000引步驟1、獲取像素為MXN的n種不同聲源的聲譜圖,每種聲譜圖獲取m幅,從而獲 得mXn幅聲譜圖D = {di, d2,…,中,…,dmxnl ;di表示第i幅聲譜圖;i e [I'mXn];
      [0009] 對所述mXn幅聲譜圖D分別進(jìn)行特征提取,獲得基本特征集合;所述基本特征集 合包括:RGBY色度特征集合C =咕,C2,…,。,…,Cmx。}、方向特征集合0 = {〇1,〇2,…,0?!?,〇mXn)和亮度特征集合I = 屯表示第i幅聲譜圖di的RGBY色度 特征;0康示第i幅聲譜圖d i的方向特征;I康示第i幅聲譜圖d i的亮度特征;
      [0010] 步驟2、根據(jù)所述基本特征集合利用GBVS算法對所述第i幅聲譜圖di進(jìn)行顯著性 提取,獲得第i幅顯著性圖Si;根據(jù)所述第i幅顯著性圖S i利用主圖分離方法提取所述第 i幅聲譜圖中的主圖SMi,所述第i幅主圖SMi是由R基色圖R(SMi)、G基色圖G(SMi)和B 基色圖B (SMi)構(gòu)成的像素為1 X 1的S維基色圖;從而獲得mXn幅聲譜圖D的主圖集合SM =怯Ml, SM2,…,SM。…,SMmxnl ;1 < M,1 < N ;
      [0011] 步驟3、利用式(1)提取所述第i幅主圖SMi的層次對比圖SMRi,從而獲得mXn幅 聲譜圖D的層次對比圖集合SMR =怯MR。SMR2,…,SMR。…,SMRmx。}:
      [0012]
      【主權(quán)項】
      1.一種基于聲譜圖顯著性檢測的音頻識別方法,其特征是如下步驟進(jìn)行: 步驟1、獲取像素為MXN的n種不同聲源的聲譜圖,每種聲譜圖獲取m幅,從而獲得mXn幅聲譜圖D= {屯,d2,…,屯,…,dmXn}表示第i幅聲譜圖;iG[l,mXn]; 對所述mXn幅聲譜圖D分別進(jìn)行特征提取,獲得基本特征集合;所述基本特征集合 包括:RGBY色度特征集合C=IA,C2,…,Q,…,CmXn}、方向特征集合0 =IA,02,…,〇i,… ,〇mXJ和亮度特征集合I=仏,、,…,Ii,…,ImXJ 表示第i幅聲譜圖d^RGBY色度 特征;〇i表示第i幅聲譜圖di的方向特征;Ii表示第i幅聲譜圖di的亮度特征; 步驟2、根據(jù)所述基本特征集合利用GBVS算法對所述第i幅聲譜圖屯進(jìn)行顯著性提 取,獲得第i幅顯著性圖Si;根據(jù)所述第i幅顯著性圖Sjlj用主圖分離方法提取所述第i幅 聲譜圖屯的主圖SMi,所述第i幅主圖SMi是由R基色圖R(SMJ、G基色圖G(SMi)和B基色 圖B(SMi)構(gòu)成的像素為1X1的三維基色圖;從而獲得mXn幅聲譜圖D的主圖集合SM= {SM"SM2,…,SM" …,SMmXn} ;1 <M,1 <N; 步驟3、利用式(1)提取所述第i幅主圖SMi的層次對比圖SMRp從而獲得mXn幅聲譜 圖D的層次對比圖集合SMR=ISMR,.SMR。.….
      SMR,.….SMFL」: 步驟4、利用式(2)獲得所述第i幅層次對比圖SMRi的PCA特征圖SMRPi,從而獲得mXn幅聲譜圖D的PCA特征圖集合SMRP= {SMRPi,SMRP2,…,SMRPi,…,SMRPmXn}: SMRPi=(dimj(Aj))TSMRi (2) 式(2)中,化表示所述第i幅層次對比圖SMRd^協(xié)方差矩陣,dim^Ai)表示所述協(xié)方 差矩陣A的前j個特征向量所組成的矩陣;并有:
      式(3)中,@表示第i幅層次對比圖SMRi中第a個像素值;aG[1,1]; 以所述第i幅層次對比圖SMRi和第i幅PCA特征圖SMRPi作為特征描述集表征所述第i幅聲譜圖屯的聲源,從而獲得所述mXn幅聲譜圖D中n類聲源的所有特征描述集表征, 所述n類聲源中的每類聲源均包含m個特征描述集; 步驟5、建立n種不同聲源的GCNN聲源模型; 步驟5. 1、在深度卷積神經(jīng)網(wǎng)絡(luò)CNN中增加內(nèi)部輸入層,從而形成所述改進(jìn)的深度卷積 神經(jīng)網(wǎng)絡(luò)GCNN: 所述深度卷積神經(jīng)網(wǎng)絡(luò)CNN包含外部輸入層、p個卷積層IA,C2,…,Cp}、p個降采樣層 {Si,S2,…,Sp}以及全連接softmax分類層;所述p個卷積層{Ci,C2,…,Cp}中的每個卷積 層與p個降采樣層{SpS2,…,Sp}中的每個降采樣層為互相交錯設(shè)置,所述外部輸入層連接 第1個卷積層C1;第p個降采樣層Sp連接所述全連接softmax分類層; 在所述第1個卷積層q與第1個降采樣層Si之間設(shè)置所述內(nèi)部輸入層,從而構(gòu)成所述 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)GCNN; 步驟5. 2、以所述層次對比圖集合SMR={SMRpSMR2,…,SMRi,…,SMRmXn}作為所述外 部輸入層的輸入;以所述PCA特征圖集合SMRP={SMRPpSMRP2,…,SMRPi,…,SMRPmXn}作 為所述內(nèi)部輸入層的輸入;通過所述改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)GCNN進(jìn)行訓(xùn)練和建模,從而 獲得n種不同聲源的GCNN聲源模型; 步驟6、利用所述n種不同聲源的GCNN聲源模型識別待測試聲譜圖d'的聲源: 步驟6. 1、對所述待測試聲譜圖d'按照步驟2-步驟4依次進(jìn)行處理,獲得所述待測試 聲譜圖d'的層次對比圖SMRd,和PCA特征圖SMRPd,; 步驟6. 2、以所述待測試聲譜圖d'的層次對比圖SMRd,作為所述外部輸入層的輸入圖 像;以所述待測試聲譜圖d'的PCA特征圖SMRPd,作為所述內(nèi)部輸入層的輸入圖像;從而利 用所述n種不同聲源的GCNN聲源模型識別所述待測試聲譜圖d'所屬的聲源。
      2.根據(jù)權(quán)利要求1所述的基于聲譜圖顯著性檢測的音頻識別方法,其特征是,所述步 驟2中的主圖分離方法是按如下步驟進(jìn)行: 步驟2. 1、假設(shè)所述第i幅顯著性圖Si中包含Q個注意焦點,將所述Q個注意焦點進(jìn)行 降序排序獲得注意焦點集合FOA={FOApFOA2,…,F(xiàn)OAq,…,F(xiàn)OAQ} ;FOAq表示第q個注意 焦點;獲取所述注意焦點集合F0A中每個注意焦點在所述第i幅顯著性圖Si中各自的位置 L= {Li,L2,…,Lq,…,LJ;Lq表示所述第q個注意焦點FOA^所述第i幅顯著性圖Si中的 位置;1彡q彡Q; 步驟2. 2、初始化q= 1 ; 步驟2. 3、利用所述第q個注意焦點F0Aq在顯著性圖中的位置Lq,獲得所述第q個注意 焦點?(^(1在所述第i幅聲譜圖di中所對應(yīng)的位置Lq' ; 步驟2. 4、提取所述對應(yīng)的位置Lq'的色度特征,所述色度特征包括:紅色特征Rq、綠色 特征Gq、藍(lán)色特征Bq和黃色特征Yq; 步驟2. 5、判斷所述紅色特征&是否滿足在所述色度特征中為最大值,且所述色特征Gq、藍(lán)色特征Bq和黃色特征Yq均為0 ;若滿足,則執(zhí)行步驟2. 6,否則,判斷q=Q是否成立; 若成立,則表示所述第i幅顯著性圖Si中沒有有效聲源;否則,將q+1的值賦給q,并返回步 驟2. 3執(zhí)行; 步驟2. 6、從與所述第i幅顯著性圖Si所對應(yīng)的第i幅聲譜圖di中分離出以1X1為 邊長,并以對應(yīng)的位置Lq'為中心的正方框,判斷所述正方框是否超出所述第i幅聲譜圖屯 的邊界,若超出,則以所述超出的邊界作為所述正方框的邊,形成新的1X1的矩形框,以所 述新的1X1的矩形框作為所述第i幅聲譜圖屯的主圖SMi;否則,以所述正方框作為所述 第i幅聲譜圖屯的主圖SMp
      【專利摘要】發(fā)明公開了一種基于聲譜圖顯著性檢測的音頻識別方法,其特征是如下步驟進(jìn)行:1獲取不同聲源的聲譜圖并進(jìn)行特征提取,獲得基本特征集合;2、利用GBVS算法獲得顯著性圖,再利用主圖分離方法提取主圖;3、提取層次對比圖;4、獲得PCA特征圖;5建立不同聲源的GCNN聲源模型;6、利用GCNN聲源模型識別待測試聲譜圖的聲源。本發(fā)明能有效表征復(fù)雜環(huán)境下未知音頻類型的特征信息,同時能夠?qū)崿F(xiàn)快速自動的音頻識別。
      【IPC分類】G10L25-03, G10L25-48
      【公開號】CN104616664
      【申請?zhí)枴緾N201510054228
      【發(fā)明人】陳雁翔, 弓彥婷, 任洪梅, 王猛
      【申請人】合肥工業(yè)大學(xué)
      【公開日】2015年5月13日
      【申請日】2015年2月2日
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1