一種基于邊信息統(tǒng)計特性的mp3錄音文件來源識別方法

文檔序號：9867737閱讀：1331來源：國知局

一種基于邊信息統(tǒng)計特性的mp3錄音文件來源識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及MP3錄音文件來源的識別方法，具體是指一種基于邊信息統(tǒng)計特性的 MP3錄音文件來源識別方法。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時代的來臨，數(shù)字多媒體呈現(xiàn)爆炸式地增長。但同時，多媒體數(shù)據(jù)量級和使用頻率的增長也促使多媒體編輯軟件得到了飛速發(fā)展，這就使得多媒體數(shù)據(jù)的偽造和篡改變得越來越容易。正因為此，我們的生活中充斥著大量的不真實、不可信的多媒體數(shù) 據(jù)。為了驗證多媒體數(shù)據(jù)的原始性、真實性和完整性，多媒體取證技術(shù)應運而生。目前，國內(nèi) 外對數(shù)字多媒體取證的研究主要集中在圖像領(lǐng)域，而針對數(shù)字音頻取證技術(shù)的研究起步相對較晚，但作為多媒體取證的重要組成部分，其實際需求仍在不斷增長，也正在受到越來越多的關(guān)注。
[0003] 音頻來源辨識是音頻取證的第一步工作，其目的是對音頻的原始性進行驗證，由于智能手機的快速普及，錄音行為的發(fā)生變得越來越方便。在日常生活中，人們更愿意用手機這種時刻隨身攜帶的設(shè)備去記錄聲音；因此，鑒別一個錄音文件來自于哪款品牌型號的手機是目前音頻來源取證領(lǐng)域里的一個熱點問題，而且近些年來也已有少量學者和研究團隊在這方面作了一些研究工作。例如C. Hanilci等人使用美爾倒譜系數(shù)(MFCC)作為特征對 14個不同型號手機的錄音文件進行區(qū)分，該方法的檢測準確率達到了 96.42%。在此基礎(chǔ)上，他們對比了包括MFCC在內(nèi)的4種聲學特征（另外3種分別為線性倒譜系數(shù)LFCC、巴克倒譜系數(shù)BFCC和線性預測倒譜系數(shù)LPCC)在設(shè)備來源識別方面的性能。根據(jù)對比結(jié)果，他們?nèi)匀徽J 為MFCC是最好的特征。C. L. Kotropoulos通過使用稀疏表示對2049維的對數(shù)語譜特征和 2816維的高斯超向量特征成功進行了降維，并使用對應降維后的850維和120維特征對21種不同型號的手機進行了分類，在使用3種不同分類器的情況下，前者檢測準確率均超過了 94 · 84%，后者則為 98 · 41%-100%。
[0004] 這些方法雖然在音頻來源設(shè)備識別方面都取得了較好的識別效果，但據(jù)我們所知，利用錄音文件的碼流結(jié)構(gòu)以及編碼參數(shù)特性實現(xiàn)手機來源辨識還未見報道。而目前絕大多數(shù)智能手機默認的錄音格式均為壓縮格式，且壓縮標準主要是MP3和AAC;另外，不同廠家、甚至相同廠家生產(chǎn)的不同型號的設(shè)備，其音頻模塊的硬件和軟件部分均有所差別，壓縮算法的具體實現(xiàn)以及與硬件的配合也有各自的特點，這就導致不同品牌型號手機對拾取的聲音信號進行壓縮編碼時，對各種編碼參數(shù)的選擇和使用存在著差異，而通常這些編碼參數(shù)都保存在壓縮格式音頻每幀中的邊信息中；因此，基于邊信息統(tǒng)計特性來識別MP3錄音文件來源無疑是一種非?？煽康淖R別方法。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)的缺陷而提供一種特征集構(gòu)建過程較為簡便快速、算法復雜度低、識別準確度高、實時性好、便于操作的一種基于邊信息統(tǒng) 計特性的MP3錄音文件來源識別方法。
[0006]本發(fā)明的技術(shù)問題通過以下技術(shù)方案實現(xiàn)：一種基于邊信息統(tǒng)計特性的MP3錄音文件來源識別方法，該識別方法包括如下步驟：步驟一、選擇多款品牌下各系列型號手機錄制的MP3錄音文件作為訓練樣本，并使用 MP3編解碼器Lame-3.99.5提取該訓練樣本的邊信息參數(shù);所述的邊信息參數(shù)包含主數(shù)據(jù)起始位置、比例因子選擇信息、及顆粒〇和顆粒1的邊信息，且主數(shù)據(jù)起始位置和比例因子選擇信息構(gòu)成兩個顆粒的公用參數(shù)，顆粒〇或顆粒1的邊信息均稱為獨立參數(shù)，分析該邊信息參數(shù)的使用情況和統(tǒng)計特性，建立手機型號與兩個顆粒的公用參數(shù)使用情況對照表，并使用獨立參數(shù)的部分統(tǒng)計量針對同品牌的手機構(gòu)建模型；步驟二、使用MP3編解碼器Lame-3.99.5提取待測MP3錄音文件的邊信息參數(shù)，檢測主數(shù) 據(jù)起始位置的值是否全為〇,進而與步驟一建立的對照表進行比對，初步圈定待測MP3錄音文件來源的手機品牌；步驟三、檢測待測MP3錄音文件邊信息中比例因子選擇信息在顆粒0的左聲道和右聲道中的值，通過該值與步驟一建立的對照表進行比對，并從步驟二初步圈定的待測MP3錄音文件來源的幾個手機品牌中進一步選定具體的手機品牌或某個手機品牌下的具體系列；步驟四、檢測待測MP3錄音文件邊信息中比例因子選擇信息在顆粒1的左聲道和右聲道中的值，通過該值與步驟一建立的對照表進行比對，并從步驟三確定的手機品牌中進一步確定具體系列或步驟三確定的手機系列中進一步確定具體型號；步驟五、繼續(xù)分析待測MP3錄音文件邊信息中的每個顆粒獨立使用參數(shù)的參數(shù)值，根據(jù) 每個顆粒獨立使用參數(shù)的參數(shù)值的部分統(tǒng)計量構(gòu)建特征，所述的每個顆粒獨立使用參數(shù)的參數(shù)值的部分統(tǒng)計量與步驟一中針對訓練樣本提取的統(tǒng)計量相一致;在此基礎(chǔ)上，通過使用LibSVM分類器，并結(jié)合步驟一中針對特定品牌手機構(gòu)建的模型，最終確定待測MP3錄音文件來自該手機品牌下哪個型號的手機。
[0007]所述的每個顆粒獨立使用參數(shù)包括6個參數(shù)，分別為part2_3_length、big_ values、global_gain、scalefac_compress、regionl_start、region2_start〇
[0008] 所述的語音樣本庫分為兩個集合，其中一個集合作為訓練集，另一個集合作為測試集，訓練集和測試集各包含1480個時長約為3秒的樣本，另外在使用分類器對待測MP3錄音文件的邊信息參數(shù)特征進行訓練和測試之前，對所有樣本的每一維特征都進行歸一化處理，以降低不同特征值變化范圍不一致對分類器性能的不利影響。
[0009] 與現(xiàn)有技術(shù)相比，本發(fā)明的設(shè)計思路是通過分析MP3錄音文件碼流、也即MP3錄音文件幀中邊信息中各參數(shù)的使用特點及統(tǒng)計特性，從中找出不同品牌型號手機在生成MP3 錄音文件時使用這些參數(shù)的傾向或特點，從而實現(xiàn)對MP3錄音文件來源的辨識，即辨別給定的MP3文件是哪種品牌型號的手機錄制的，這種識別方法具有特征集構(gòu)建過程較為簡便快速、算法復雜度低、識別準確度高、實時性好、便于操作等優(yōu)點。
【附圖說明】
[001 0]圖1為本發(fā)明實施例的步驟流程示意圖。
[0011 ] 圖2為參數(shù)ain_data_begin的分布示意圖。
[0012] 圖3為MP3塊的分區(qū)示意圖。
[0013] 圖4為參數(shù)big_values的分布示意圖。
[0014] 圖5為參數(shù)global_gain的分布示意圖。
[0015]圖6為大值區(qū)的子區(qū)示意圖。
[0016] 圖7為參數(shù)regionl_start的分布示意圖。
[0017] 圖8為參數(shù)region2_start的分布示意圖。
[0018] 圖9為參數(shù)part2_3_length的分布示意圖。
[0019] 圖10為參數(shù)scalefac_compress的分布不意圖。
[0020] 圖11為大值區(qū)碼表索引分布示意圖。
[0021 ] 圖12為regionO區(qū)碼表索引分布示意圖。
[0022] 圖13為regionl區(qū)碼表索引分布示意圖。
[0023] 圖14為region2區(qū)碼表索引分布示意圖。
【具體實施方式】
[0024] 下面將按上述附圖對本發(fā)明實施例再作詳細說明。
[0025] 一種基于邊信息統(tǒng)計特性的MP3錄音文件來源識別方法，涉及的是通過研究MP3錄音文件邊信息中編碼參數(shù)的使用特點和統(tǒng)計特性，從而判斷一個MP3錄音文件是哪個品牌品牌下哪個型號的手機所錄制。
[0026] 在該識別方法中涉及了關(guān)于MP3錄音文件的概念說明，具體為： MP3編碼標準 MP3全稱為MPEGl Layer-3，是MPEG標準中的音頻部分。MP3雖是有損壓縮，但它近CD的音質(zhì)、高壓縮比、開放性和易用性等優(yōu)勢使其從誕生一來便迅速成為主流的音頻格式，而且目前仍是數(shù)字音頻領(lǐng)域使用最為普遍的格式之一。MP3核心的編碼模塊主要由5部分組成，分別為子帶濾波器組、MDCT變換、心理聲學模型、量化和編碼、數(shù)據(jù)流封裝。具體過程是:輸入聲音信號一路經(jīng)過32個子帶濾波器組和MDCT變換進行時頻轉(zhuǎn)換，同時另一路通過"心理聲學模型"計算每個子帶的信號能量和SMR。"量化和編碼"模塊利用SMR來決定分配給子帶信號的量化位數(shù)，使得量化噪音低于掩蔽閾值，最后通過"數(shù)據(jù)流幀包裝"將子帶的樣本及其他附加數(shù)據(jù)按幀的格式組裝成位比特流。
[0027] MP3幀結(jié)構(gòu) MP3數(shù)據(jù)流是以幀為最小單位進行封裝，每幀數(shù)據(jù)通常包含幀頭(header)、冗余校驗 (CRC)、邊信息（side information)、主數(shù)據(jù)(main data)和輔助數(shù)據(jù)(ancillary data)5個部分。幀頭由32比特的數(shù)據(jù)構(gòu)成，解碼時首先通過幀頭中的同步字確定解碼開始的位置，并從幀頭中提取該MP3的相關(guān)信息為后續(xù)的進一步解碼鋪墊，如音頻信號的采樣率、聲道模式、比特率等。CRC校驗是一個16位的奇偶校驗字，用于檢查該幀數(shù)據(jù)在傳輸過程中是否出現(xiàn)了錯誤。這是一個可選的信息，當幀頭中的保護位為"Γ時表明有CRC校驗，反之則沒有。邊信息中保存了主數(shù)據(jù)解碼需要使用的各種參數(shù)，如量化步長、哈夫曼碼表索引等，邊信息的大小為130(單聲道)或246(雙聲道)位比特。緊接著邊信息的是主數(shù)據(jù)，也即原始音頻樣本編碼后的數(shù)據(jù)流。每一幀的主數(shù)據(jù)分為顆粒(Kgranule 0)和顆粒Ugranule 1)兩部分，每部分又由比例因子（scale factor)和哈夫曼碼字(Huffman codes)組成。最后的輔助數(shù) 據(jù)也是可選的，由用戶自己定義，里面存放一些與解碼無關(guān)音頻信息，如歌曲名、歌手、專輯之等信息。
[0028] 邊信息中參數(shù) 錄音設(shè)備錄制的聲音從PCM/PDM采樣值經(jīng)過壓縮編碼到最后形成MP3文件的過程均是基于上述流程，但不同型號設(shè)備在具體實現(xiàn)MP3標準的各個模塊時可能存在著差異，因此最后生成的MP3的碼流結(jié)構(gòu)及其參數(shù)統(tǒng)計特性也會有所區(qū)別。所以本發(fā)明的識別方法期望深入分析不同設(shè)備錄制的MP3文件邊信息中各參數(shù)的統(tǒng)計特性，從而找出各設(shè)備使用參數(shù)的特點。
[0029] 邊信息主要存儲了用于主數(shù)據(jù)解碼的參數(shù)，通常包括主數(shù)據(jù)起始位置（main_ data_begin)、比列因子選擇信息(scfsi)、以及顆粒0和顆粒1的邊信息，如表1所示。
[0030] 表1.邊信息結(jié)構(gòu)
根據(jù)表1對主要參數(shù)的作用進行詳細介紹 (1)兩個顆粒共用的參數(shù)： mai

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王讓定;金超;嚴迪群;陶表犁;陳亞楠;張立;
技術(shù)所有人：寧波大學;
我是此專利的發(fā)明人

上一篇：具有低磁矩和高垂直磁各向異性材料的自旋力矩振蕩器的制造方法
上一篇：一種發(fā)音檢錯方法及裝置的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于邊信息統(tǒng)計特性的mp3錄音文件來源識別方法