一種音頻翻錄檢測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息安全領(lǐng)域范疇,具體而言,是一種基于深度學(xué)習(xí)的音頻翻錄檢測技術(shù)。
【背景技術(shù)】
[0002]近年來,隨著數(shù)字音頻處理技術(shù)和硬件設(shè)備的發(fā)展,音頻可以實(shí)現(xiàn)高保真的翻錄,由此帶來了一系列關(guān)于數(shù)字音頻數(shù)據(jù)的原始性和安全性等問題,例如利用翻錄音頻實(shí)現(xiàn)音頻指紋的拷貝,將翻錄音頻發(fā)布到互聯(lián)網(wǎng)上等涉及媒體信息的版權(quán)保護(hù)問題,然而在不借助任何輔助信息的情況下,目前并沒有可靠的方法來實(shí)現(xiàn)音頻翻錄檢測,深度學(xué)習(xí)方法為我們解決這些問題提供了一種可行的路線。
[0003]由于音頻翻錄通常不涉及音頻內(nèi)容的完整性,其安全性問題一直沒有得到重視。人們更多地關(guān)注于音頻翻錄帶來的好處,確切地說是數(shù)字化帶來的優(yōu)勢(shì),例如通過音頻的高保真翻錄能夠克服磁帶等因?yàn)楸4鏃l件和使用年限長而失效的問題。然而近年來熱門的聲紋識(shí)別技術(shù)以及愈發(fā)嚴(yán)重的版權(quán)保護(hù)問題,音頻數(shù)據(jù)的安全性面臨著嚴(yán)峻的挑戰(zhàn)。
[0004]脆弱水印技術(shù)可在原始音頻數(shù)據(jù)中嵌入有意義的認(rèn)證信息(水印),借助于該信息的完整和真實(shí)性也可實(shí)現(xiàn)翻錄檢測。例如,在翻錄后的錄音信號(hào)中無法檢測到水印。然而目前的錄音設(shè)備大多不支持這種技術(shù),因此在不借助輔助信息下的盲檢測方法實(shí)用性更高。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是提供一種翻錄音頻的檢測方法,對(duì)于一段待檢測音頻,能夠可靠鑒別其是原始音頻或是翻錄音頻。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種翻錄音頻的檢測方法,將翻錄音頻檢測等效為一個(gè)二分類問題,采用基于深度學(xué)習(xí)的方法進(jìn)行分類器的訓(xùn)練和樣本分類,翻錄音頻的檢測包括以下幾個(gè)步驟:
51.音頻預(yù)處理,對(duì)任意采樣率的音頻進(jìn)行降采樣,對(duì)降采樣后的音頻信號(hào)進(jìn)行濾波,去除語音內(nèi)容的干擾,得到音頻攜帶的電網(wǎng)頻率基波及諧波分量;該濾波過程是采用電網(wǎng)頻率的基波和各次諧波頻率為帶通中心的窄帶濾波;
52.構(gòu)建訓(xùn)練樣本,將上述濾波后的信號(hào)進(jìn)行短時(shí)傅里葉變換,得到電網(wǎng)頻率信號(hào)的時(shí)頻特征;利用深度學(xué)習(xí)算法對(duì)電網(wǎng)頻率信號(hào)的時(shí)頻特征進(jìn)行更精細(xì)的學(xué)習(xí),該方法是有監(jiān)督學(xué)習(xí)的二分類方法,利用預(yù)先標(biāo)定的正負(fù)樣本,將正負(fù)樣本的電網(wǎng)頻率信號(hào)時(shí)頻特征作為輸入,訓(xùn)練一個(gè)多層神經(jīng)網(wǎng)絡(luò)模型,正樣本為翻錄音頻,負(fù)樣本為原始音頻;
53.翻錄檢測:對(duì)待檢測音頻進(jìn)行分段,將每個(gè)分段的時(shí)頻特征輸入訓(xùn)練好的分類器,網(wǎng)絡(luò)將自動(dòng)標(biāo)記出每個(gè)分段的類別;若多數(shù)分段被標(biāo)記為正樣本,則該音頻被判斷為翻錄首頻,否則為原始首頻。
[0007]電網(wǎng)頻率信號(hào)的分析和學(xué)習(xí):電網(wǎng)頻率信號(hào)分析過程如下:1)降采樣,由于我國使用的電網(wǎng)頻率為50Hz,而錄音信號(hào)的采樣頻率遠(yuǎn)高于電網(wǎng)頻率,因此降采樣可以有效降低該方法的運(yùn)算復(fù)雜度;2)濾波,去除語音內(nèi)容的干擾,只留下與電網(wǎng)頻率信號(hào)有關(guān)的成分。對(duì)降采樣后的信號(hào),分別采用以電網(wǎng)頻率的基波和各次諧波頻率為帶通中心的窄帶濾波。經(jīng)過窄帶濾波后,剩下的主要成分為音頻攜帶的電網(wǎng)頻率基波分量及其諧波分量。
[0008]上述電網(wǎng)頻率信號(hào)特征的學(xué)習(xí)過程:1)是將上述濾波后的信號(hào)進(jìn)行短時(shí)傅里葉變換,得到電網(wǎng)頻率信號(hào)的時(shí)頻特征;2)利用深度學(xué)習(xí)算法對(duì)電網(wǎng)頻率信號(hào)的時(shí)頻特征進(jìn)行更精細(xì)的學(xué)習(xí),該方法是有監(jiān)督學(xué)習(xí)的二分類方法,利用預(yù)先標(biāo)定的正負(fù)樣本,將正負(fù)樣本的電網(wǎng)頻率信號(hào)時(shí)頻特征作為輸入,訓(xùn)練一個(gè)多層神經(jīng)網(wǎng)絡(luò),正樣本為翻錄音頻,負(fù)樣本為原始音頻;3)翻錄檢測:對(duì)待檢測音頻進(jìn)行分段,將每個(gè)分段的時(shí)頻特征輸入訓(xùn)練好的分類器,網(wǎng)絡(luò)將自動(dòng)標(biāo)記出每個(gè)分段的類別;4)若多數(shù)分段被標(biāo)記為正樣本,則該音頻被判斷為翻錄首頻,否則為原始首頻。
[0009]對(duì)于音頻信號(hào),將其進(jìn)行短時(shí)傅里葉變換得到語譜圖作為神經(jīng)網(wǎng)絡(luò)的輸入,可以充分利用其時(shí)頻特征;并且濾波后的信號(hào)語譜圖可視為電網(wǎng)頻率信號(hào)的圖像表示,后續(xù)的訓(xùn)練和學(xué)習(xí)分類過程都可利用卷積神經(jīng)網(wǎng)絡(luò),這類網(wǎng)絡(luò)常用于圖像的分類。
[0010]原始音頻只記錄了一次電網(wǎng)頻率信號(hào),翻錄音頻記錄了兩次電網(wǎng)頻率信號(hào)。兩個(gè)電網(wǎng)頻率信號(hào)距離相近甚至發(fā)生混疊,因此用傳統(tǒng)的信號(hào)處理方法難以進(jìn)行區(qū)分。深度學(xué)習(xí)網(wǎng)絡(luò)由于使用了多核卷積操作,能夠?qū)蝹€(gè)電網(wǎng)頻率和兩個(gè)電網(wǎng)頻率信號(hào)作更精細(xì)的區(qū)分。
[0011]采用電網(wǎng)頻率的基波及其諧波成分合成多通道作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入,可以充分利用各諧波成分的能量特征以及頻率分辨率提高識(shí)別性能。
[0012]判斷一段長的語音數(shù)據(jù)是否為翻錄音頻可采取的方法:將長音頻按照深度學(xué)習(xí)網(wǎng)絡(luò)的輸入要求進(jìn)行分段,隨機(jī)選取多段音頻進(jìn)行判斷,若多數(shù)被標(biāo)記為正樣本,則該音頻被判斷為翻錄音頻,否則為原始音頻。該方法可以提高檢測速度。
[0013]進(jìn)一步的,所述步驟SI對(duì)音頻進(jìn)行預(yù)處理時(shí),將音頻均降采樣為1000Hz,分別通過三個(gè)帶通中心為50Hz,150Hz和250Hz的窄帶濾波器,濾除語音成分,提取所需的電網(wǎng)頻率基波成分及其第三、第五次諧波分量成分并計(jì)算得到三個(gè)通道的時(shí)頻特征圖。
[0014]進(jìn)一步的,所述音頻數(shù)據(jù)均采用wav格式。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:(1)由于利用音頻中包含的電網(wǎng)頻率成分進(jìn)行分析,因此不受音頻內(nèi)容、采樣率的影響,可接受任何采樣率的■格式音頻輸入;
(2)由于采用圖像的方式來解釋音頻,并且借助深度學(xué)習(xí)的方法訓(xùn)練分類器,克服了短時(shí)音頻頻率分辨率低的缺點(diǎn),可用于檢測短音頻;(3)檢測可靠性高;(4) 一旦分類器訓(xùn)練完成,不需要人工設(shè)置任何參數(shù)。
【附圖說明】
[0016]圖1是本發(fā)明所述音頻翻錄檢測方法的流程圖。
[0017]圖2是本發(fā)明所述音頻輸入預(yù)處理(步驟SI)的流程圖。
[0018]圖3是本發(fā)明采用的分類器網(wǎng)絡(luò)結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0019]下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的描述,但本發(fā)明的實(shí)施方式并不限于此。
[0020]一種翻錄音頻的檢測方法,將翻錄音頻檢測等效為一個(gè)二分類問題,采用基于深度學(xué)習(xí)的方法進(jìn)行分類器的訓(xùn)練和樣本分類,音頻數(shù)據(jù)均采用wav格式;翻錄音頻的檢測包括以下幾個(gè)步驟:
S1:音頻預(yù)處理,對(duì)任意采樣率的音頻均降采樣到1000Hz,分別通過三個(gè)帶通中心為50Hz,150Hz和250Hz的窄帶濾波器,濾除語音成分,提取所需的電網(wǎng)頻率成分及其第三、第五次諧波分量成分并計(jì)算得到三個(gè)通道的時(shí)頻特征圖。
[0021]S2:構(gòu)建訓(xùn)練樣本,正樣本為翻錄音頻,負(fù)樣本為原始音頻(一次錄音),采用步驟SI得到的多層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
[0022]S3:翻錄檢測:將待檢測音頻按照訓(xùn)練樣本的長度進(jìn)行切分,根據(jù)步驟SI得到時(shí)頻特征圖,將三個(gè)通道的特征圖作為已訓(xùn)練好的深度學(xué)習(xí)網(wǎng)絡(luò)的輸入,經(jīng)由網(wǎng)絡(luò)得到輸出標(biāo)記,若輸出為1,則判定音頻為翻錄音頻,否則為原始音頻。
[0023]實(shí)施例1
一種翻錄音頻的檢測方法,具體為:
(O訓(xùn)練樣本的構(gòu)建:采用5000段長度為2秒的原始錄音作為負(fù)樣本,5000段長度同為2秒的翻錄音頻作為正樣本訓(xùn)練網(wǎng)絡(luò)。翻錄音頻與原始音頻均采用8000Hz的采樣率,量化位數(shù)16。
[0024](2)利用CUDA加速多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程。和通用處理器相比,GPU在單位面積/單位功耗上擁有更高的計(jì)算能力和吞吐帶寬。對(duì)于本發(fā)明中采用的多核卷積操作,基于CUDA的編程技術(shù)能充分利用GPU提供的并行計(jì)算能力從而有效提升網(wǎng)絡(luò)的學(xué)習(xí)速度。
[0025](3)分類器的構(gòu)建及訓(xùn)練:構(gòu)造如圖3所示的卷積深度學(xué)習(xí)網(wǎng)絡(luò)。第一個(gè)卷積層采用16個(gè)卷積核,每個(gè)卷積核的大小均為1X14。第一個(gè)池化層采用的池化核大小為1X4,池化方式為最大池化。即每四個(gè)相鄰結(jié)點(diǎn)中抽取值最大的結(jié)點(diǎn)。第二個(gè)卷積層采用32個(gè)卷積核,每個(gè)卷積核的大小均為2X6。第二個(gè)池化層采用的池化核大小為1X3。每次池化操作后都對(duì)各個(gè)神經(jīng)元結(jié)點(diǎn)進(jìn)行一次非線性操作。全連接層使用700個(gè)神經(jīng)元。
[0026](4)將待檢測音頻按照2秒的長度進(jìn)行分段,對(duì)分段后的短音頻進(jìn)行步驟SI所述的預(yù)處理,處理后得到的時(shí)頻特征圖輸入到已訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò),由網(wǎng)絡(luò)自動(dòng)給出O和I的判決結(jié)果。采用多數(shù)投票表決機(jī)制得到最終的檢測結(jié)果。若I出現(xiàn)的頻率高,則認(rèn)為該音頻是翻錄音頻,否則為原始音頻。
[0027]本發(fā)明公開的一種翻錄音頻的檢測方法,屬于信息安全技術(shù)領(lǐng)域。將機(jī)器學(xué)習(xí)與信號(hào)處理方法巧妙結(jié)合,使最終學(xué)習(xí)到的音頻特征能夠區(qū)分原始音頻和翻錄音頻。具體為:原始音頻在錄制過程中記錄了當(dāng)時(shí)電網(wǎng)頻率的變化情況,音頻在回放并翻錄的過程中再次記錄了當(dāng)時(shí)的電網(wǎng)頻率。利用機(jī)器學(xué)習(xí)的方法辨別音頻中包含一個(gè)或兩個(gè)電網(wǎng)頻率信號(hào),從而鑒別原始音頻和翻錄音頻。本發(fā)明只需對(duì)音頻中攜帶的電網(wǎng)頻率成分進(jìn)行分析,不受語音內(nèi)容的影響,具有檢測準(zhǔn)確率高的優(yōu)點(diǎn)。
[0028]以上所述的本發(fā)明的實(shí)施方式,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限定。任何在本發(fā)明的精神原則之內(nèi)所作出的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種翻錄音頻檢測方法,其特征在于,包括以下步驟: 51.音頻預(yù)處理,對(duì)任意采樣率的音頻進(jìn)行降采樣,對(duì)降采樣后的音頻信號(hào)進(jìn)行濾波,去除語音內(nèi)容的干擾,得到音頻攜帶的電網(wǎng)頻率基波及諧波分量;該濾波過程是采用電網(wǎng)頻率的基波和各次諧波頻率為帶通中心的窄帶濾波; 52.構(gòu)建訓(xùn)練樣本,將上述濾波后的信號(hào)進(jìn)行短時(shí)傅里葉變換,得到電網(wǎng)頻率信號(hào)的時(shí)頻特征;利用深度學(xué)習(xí)算法對(duì)電網(wǎng)頻率信號(hào)的時(shí)頻特征進(jìn)行更精細(xì)的學(xué)習(xí),該方法是有監(jiān)督學(xué)習(xí)的二分類方法,利用預(yù)先標(biāo)定的正負(fù)樣本,將正負(fù)樣本的電網(wǎng)頻率信號(hào)時(shí)頻特征作為輸入,訓(xùn)練一個(gè)多層神經(jīng)網(wǎng)絡(luò)模型,正樣本為翻錄音頻,負(fù)樣本為原始音頻; 53.翻錄檢測:對(duì)待檢測音頻進(jìn)行分段,將每個(gè)分段的時(shí)頻特征輸入訓(xùn)練好的分類器,網(wǎng)絡(luò)將自動(dòng)標(biāo)記出每個(gè)分段的類別;若多數(shù)分段被標(biāo)記為正樣本,則該音頻被判斷為翻錄首頻,否則為原始首頻。2.根據(jù)權(quán)利要求1所述的翻錄音頻檢測方法,其特征在于,所述步驟SI對(duì)音頻進(jìn)行預(yù)處理時(shí),將音頻均降采樣為1000Hz,分別通過三個(gè)帶通中心為50Hz,150Hz和250Hz的窄帶濾波器,濾除語音成分,提取所需的電網(wǎng)頻率基波成分及其第三、第五次諧波分量成分并計(jì)算得到三個(gè)通道的時(shí)頻特征圖。3.根據(jù)權(quán)利要求1所述的翻錄音頻檢測方法,其特征在于,所述音頻數(shù)據(jù)均采用wav格式。
【專利摘要】本發(fā)明公開了一種翻錄音頻的檢測方法,屬于信息安全技術(shù)領(lǐng)域。將機(jī)器學(xué)習(xí)與信號(hào)處理方法巧妙結(jié)合,使最終學(xué)習(xí)到的音頻特征能夠區(qū)分原始音頻和翻錄音頻。具體為:原始音頻在錄制過程中記錄了當(dāng)時(shí)電網(wǎng)頻率的變化情況,音頻在回放并翻錄的過程中再次記錄了當(dāng)時(shí)的電網(wǎng)頻率。利用機(jī)器學(xué)習(xí)的方法辨別音頻中包含一個(gè)或兩個(gè)電網(wǎng)頻率信號(hào),從而鑒別原始音頻和翻錄音頻。本發(fā)明只需對(duì)音頻中攜帶的電網(wǎng)頻率成分進(jìn)行分析,不受語音內(nèi)容的影響,具有檢測準(zhǔn)確率高的優(yōu)點(diǎn)。
【IPC分類】G10L15/08, G10L15/04, G10L15/16, G10L19/018
【公開號(hào)】CN105118503
【申請(qǐng)?zhí)枴緾N201510407042
【發(fā)明人】康顯桂, 林曉丹
【申請(qǐng)人】中山大學(xué)
【公開日】2015年12月2日
【申請(qǐng)日】2015年7月13日