本發(fā)明屬于鳥聲音頻處理識(shí)別領(lǐng)域,具體涉及一種低信噪比下基于三通道深度神經(jīng)網(wǎng)絡(luò)的鳥聲目標(biāo)識(shí)別方法。
背景技術(shù):
1、鳥聲音頻識(shí)別是鳥類保護(hù)等領(lǐng)域的重要技術(shù)之一。然而,在復(fù)雜的野外環(huán)境中,由于鳥類因懼怕而遠(yuǎn)離人類、噪聲干擾和信號(hào)衰減等因素的影響,采集鳥聲音頻信號(hào)的信噪比往往較低,導(dǎo)致音頻識(shí)別精度和穩(wěn)定性下降。因此,如何在低信噪比條件下實(shí)現(xiàn)準(zhǔn)確、快速的鳥聲音頻識(shí)別,是當(dāng)前亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提供了一種低信噪比下基于三通道深度神經(jīng)網(wǎng)絡(luò)的鳥聲目標(biāo)識(shí)別方法。本發(fā)明要解決的技術(shù)問題通過以下技術(shù)方案實(shí)現(xiàn):
2、一種低信噪比下基于三通道深度神經(jīng)網(wǎng)絡(luò)的鳥聲目標(biāo)識(shí)別方法,包括:
3、對(duì)采集的鳥聲音頻信號(hào)進(jìn)行分幀處理,對(duì)得到的一幀信號(hào)分別計(jì)算三維度特征,所述三維度特征包括分?jǐn)?shù)階mfcc特征、高階累積量特征和mfcc熵特征;
4、獲取預(yù)先訓(xùn)練完成的三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò),所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)包括三個(gè)通道,第一通道為cnn卷積神經(jīng)網(wǎng)絡(luò),第二通道為lstm長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),第三通道為bilstm雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò);所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值是利用帶有目標(biāo)類別標(biāo)簽的若干樣本鳥聲音頻信號(hào)所得到的三維度特征進(jìn)行網(wǎng)絡(luò)訓(xùn)練后確定的,所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)的超參數(shù)是利用霸王龍捕食算法優(yōu)化得到的;
5、將所述一幀信號(hào)得到的分?jǐn)?shù)階mfcc特征、高階累積量特征和mfcc熵特征分別對(duì)應(yīng)輸入所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)的三個(gè)通道,基于三個(gè)通道的輸出特征得到該幀信號(hào)對(duì)應(yīng)的鳥聲音頻分類結(jié)果。
6、本發(fā)明實(shí)施例所提供的低信噪比下基于三通道深度神經(jīng)網(wǎng)絡(luò)的鳥聲目標(biāo)識(shí)別方法,首先對(duì)采集的鳥聲音頻信號(hào)進(jìn)行分幀處理,對(duì)得到的一幀信號(hào)分別計(jì)算三維度特征,所述三維度特征包括分?jǐn)?shù)階mfcc特征、高階累積量特征和mfcc熵特征;然后獲取預(yù)先訓(xùn)練完成的三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò),所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)包括三個(gè)通道,第一通道為cnn卷積神經(jīng)網(wǎng)絡(luò),第二通道為lstm長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),第三通道為bilstm雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò);所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值是利用帶有目標(biāo)類別標(biāo)簽的若干樣本鳥聲信號(hào)所得到的三維度特征進(jìn)行網(wǎng)絡(luò)訓(xùn)練后確定的,所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)的超參數(shù)是利用霸王龍捕食算法優(yōu)化得到的;最后將所述一幀信號(hào)得到的分?jǐn)?shù)階mfcc特征、高階累積量特征和mfcc熵特征分別對(duì)應(yīng)輸入所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)的三個(gè)通道,基于三個(gè)通道的輸出特征得到該幀信號(hào)對(duì)應(yīng)的鳥聲音頻分類結(jié)果。
7、本發(fā)明通過三維度特征提取,分別從捕捉信號(hào)的頻率、統(tǒng)計(jì)特性和動(dòng)態(tài)變化等角度捕捉鳥聲音頻信號(hào)的不同信息,能夠更有效地刻畫低信噪比下不同類別鳥聲音頻的差異特性,提高了識(shí)別準(zhǔn)確率;此外,三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)允許對(duì)每個(gè)維度特征進(jìn)行獨(dú)立處理和學(xué)習(xí),這種網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地利用每種特征的優(yōu)勢(shì),進(jìn)一步提高識(shí)別準(zhǔn)確率。最后,超參數(shù)的選擇對(duì)深度神經(jīng)網(wǎng)絡(luò)的性能至關(guān)重要。霸王龍捕食算法作為一種優(yōu)化算法,能夠有效地在復(fù)雜的搜索空間中尋找最優(yōu)的超參數(shù)組合。通過自動(dòng)優(yōu)化超參數(shù),可以避免手動(dòng)調(diào)參的繁瑣和主觀性,同時(shí)確保網(wǎng)絡(luò)能夠在給定的數(shù)據(jù)集上達(dá)到最佳性能。本發(fā)明解決了現(xiàn)有技術(shù)條件下低信噪比環(huán)境中鳥聲音頻識(shí)別準(zhǔn)確率低的問題,可用于鳥類保護(hù)以及生物多樣性監(jiān)測(cè)等方面,具有良好的應(yīng)用效果。
1.一種低信噪比下基于三通道深度神經(jīng)網(wǎng)絡(luò)的鳥聲目標(biāo)識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的鳥聲目標(biāo)識(shí)別方法,其特征在于,對(duì)得到的一幀信號(hào),計(jì)算得到分?jǐn)?shù)階mfcc特征的過程,包括:
3.根據(jù)權(quán)利要求1所述的鳥聲目標(biāo)識(shí)別方法,其特征在于,對(duì)得到的一幀信號(hào),計(jì)算得到高階累積量特征的過程,包括:
4.根據(jù)權(quán)利要求1所述的鳥聲目標(biāo)識(shí)別方法,其特征在于,對(duì)得到的一幀信號(hào),計(jì)算得到mfcc熵特征的過程,包括:
5.根據(jù)權(quán)利要求4所述的鳥聲目標(biāo)識(shí)別方法,其特征在于,所述熵特征包括,包括:
6.根據(jù)權(quán)利要求1所述的鳥聲目標(biāo)識(shí)別方法,其特征在于,所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)的超參數(shù),包括:
7.根據(jù)權(quán)利要求1所述的鳥聲目標(biāo)識(shí)別方法,其特征在于,利用霸王龍捕食算法優(yōu)化得到所述三通道異構(gòu)深度神經(jīng)網(wǎng)絡(luò)的超參數(shù)的過程,包括:
8.根據(jù)權(quán)利要求7所述的鳥聲目標(biāo)識(shí)別方法,其特征在于,所述超參數(shù)上界向量表示為:[1e-2,5,50,50,1e-1];所述超參數(shù)下界向量表示為:[1e-3,1,10,10,1e-4]。
9.根據(jù)權(quán)利要求7所述的鳥聲目標(biāo)識(shí)別方法,其特征在于,步驟a3,包括:
10.根據(jù)權(quán)利要求4所述的鳥聲目標(biāo)識(shí)別方法,其特征在于,所述基于三個(gè)通道的輸出特征得到該幀信號(hào)對(duì)應(yīng)的鳥聲音頻分類結(jié)果,包括: