專利名稱:一種固定音頻檢索方法
技術領域:
本發(fā)明涉及多媒體技術領域,尤其涉及ー種固定音頻檢索方法。
背景技術:
伴隨信息時代的發(fā)展、多媒體資料的增多,日益呈現海量化的規(guī)模。當人們在瀏覽和理解這些內容時,作為多媒體數據中標志性部分的音頻,為人們的感知提供了重要的線索。為了從這些資料獲取感興趣的內容,需要進行信息提取和檢索查詢,其中固定音頻檢索就是ー種比較實用的技木。固定音頻檢索是指在待檢音頻中檢測和定位與給定查詢音頻同源的音頻片段,它是多媒體檢索中的基本問題之一。固定音頻檢測技術涉及模式識別、音頻信號處理,語音處理等多項技木。該項技術具有非常廣泛的應用前景,可以廣泛應用于節(jié)目、音樂、廣告等的檢索和定位,版權保護和評價音頻的壓縮質量及某些具有軍事用途的音頻信號解碼與監(jiān)聽等方面。隨著技術的不斷成熟以及計算機硬件水平的發(fā)展,可以預見,在不久的將來,該技術將迅速走進大眾的生活,它將改變人們學習、工作和生活娛樂的方式,從而產生巨大的經濟效益和社會效益。在音頻檢索領域,基于音頻指紋檢索系統(tǒng)是常用的ー種系統(tǒng)。它主要通過信號處理的方法,將音頻中每隔ー個固定時間的音頻信號轉為個固定字節(jié)大小的音頻指紋,用這種方法將音頻數據轉化成ー個音頻指紋數據。然后系統(tǒng)對所有音頻指紋數據建立索引表,從而對音頻數據建立了快速檢索。基于音頻指紋檢索系統(tǒng)在音頻數據比較少的情況下,可以將所有的指紋數據調入內存中,進行索引后,可方便地進行快速檢索。在實際情況下,音頻數據的量很大,而且數量還在不斷的增長,同時固定音頻檢索系統(tǒng),當查詢的模板數比較多時,或者查詢的模板長度比較長時,計算復雜度就會高,效率就會直線下降,面對海量查詢庫時更明顯。固定音頻檢索查詢庫在建立時沒有考慮到數據的特性,導致查詢庫本身很大,同時沒有考慮檢索目標數據特性,當檢索目標較長時,檢索時間會變得很長。
發(fā)明內容
本發(fā)明的目的在于提出ー種固定音頻檢索方法,能夠極大地減少計算復雜度,提高音頻數據查詢的效率。為達此目的,本發(fā)明采用以下技術方案
ー種固定音頻檢索方法,包括以下步驟
A、通過靜音段對音頻數據進行分段,形成非靜音的音頻數據檢測段;
B、對音頻數據檢測段進行諧波檢測,并對音頻數據檢測段進行分類,形成音頻數據指紋段分類索引; C、將音頻數據檢測段分成固定長度的音頻數據指紋段,根據信息量對音頻數據指紋段進行標識分類,形成音頻數據指紋段索引;D、對每個音頻數據指紋段提取音頻數據指紋特征,建立音頻數據指紋索引;
E、通過靜音段對待檢索音頻數據進行分段,形成非靜音的待檢索音頻數據檢測段,從中選取不少于一段時間最長的待檢索音頻數據檢測段作為查詢音頻數據檢測段;
F、對查詢音頻數據檢測段進行諧波檢測,確定查詢音頻數據檢測段的類別,通過音頻指紋段分類索引,找到查詢音頻數據檢測段對應的音頻數據檢測段;
G、將查詢音頻數據檢測段分成固定長度的查詢音頻數據指紋段,逐段評估查詢音頻數據指紋段的信息量,選取信息量超過預設閾值的最長連續(xù)查詢音頻數據指紋段作為查詢音頻數據段;
H、在所述的對應的音頻數據檢測段中,通過音頻數據指紋段索引,獲得查詢音頻數據段在所述對應的音頻數據檢測段中的候選位置;
I、通過音頻數據指紋索引,將查詢音頻數據段與所述對應的音頻數據檢測段中的候選位置進行匹配,獲得音頻檢索結果。步驟B中,對包含諧波結構的音頻數據檢測段分成語音段或者音樂段,對不包含諧波結構的音頻數據檢測段分成噪音段或者無效音段。步驟F中,對包含諧波結構的查詢音頻數據檢測段分成語音段或者音樂段,對不包含諧波結構的查詢音頻數據檢測段分成噪音段或者無效音段。步驟A中,通過音頻數據當前段的能量與總體能量的比值,判斷是否靜音段還是有效聲音段。步驟E中,通過待檢索音頻數據當前段的能量與總體能量的比值,判斷是否靜音段還是有效聲首段。采用了本發(fā)明的技術方案,通過對音頻數據庫進行高質量索引,查詢時采用粗細結合分級別查詢方式,可以大大減少計算復雜度,提高查詢效率。
圖I是本發(fā)明具體實施方式
中固定音頻檢索流程圖。
具體實施例方式下面結合附圖并通過具體實施方式
來進一步說明本發(fā)明的技術方案。本發(fā)明技術方案的主要思想是基于音頻數據指紋檢索系統(tǒng),首先對音頻數據進行一個預處理,對音頻數據按檢測段進行分類,比如音樂、說話聲、靜音和其它聲音等;然后對音頻數據檢測段按固定時間段按信息量進行一個簡單的分類。在建立音頻數據檢索數據庫時,首先按檢測段提取音頻數據的特征建立索引表,然后對音頻數據指紋段中信息量比較高的音頻段建立二級索引。在檢索目標音頻數據階段先根據目標音頻數據的分類對待檢索 的目標音頻數據進行分段,對信息量比較高的音頻數據段進行快速查詢得到可能的候選位置,然后用目標音頻數據在候選位置附近進行精細查詢。圖I是本發(fā)明具體實施方式
中固定音頻檢索流程圖。如圖I所示,該固定音頻檢索流程包括以下步驟
第一階段是建設音頻數據庫過程,即將容量龐大的音頻庫轉換成多級索引音頻指紋庫。
步驟101、通過音頻數據當前段的能量與總體能量的比值,判斷是否靜音段還是有效聲音段,再通過靜音段對音頻數據進行分段,形成非靜音的音頻數據檢測段。步驟102、對音頻數據檢測段進行諧波檢測,對音頻數據檢測段進行分類,形成音頻數據指紋段分類索引。其中,對包含諧波結構的音頻數據檢測段分成語音段或者音樂段,對不包含諧波結構的音頻數據檢測段分成噪音段或者無效音段。步驟103、將音頻數據檢測段分成固定長度的音頻數據指紋段,根據信息量對音頻數據指紋段進行標識分類,形成音頻數據指紋段索引。即對固定長度的音頻數據指紋段逐段評估信息量,然后對其中信息量比較高的段做標識。步驟104、對每個音頻數據指紋段提取音頻數據指紋特征,建立音頻數據指紋索引。第二階段是音頻檢索過程,是基于輸入的待檢索音頻數據進行匹配檢索,從音頻數據庫中獲得用戶所需要的音頻數據。步驟105、通過待檢索音頻數據當前段的能量與總體能量的比值,判斷是否靜音段還是有效聲音段,再通過靜音段對待檢索音頻數據進行分段,形成非靜音的待檢索音頻數據檢測段,從中選取不少于一段時間最長的待檢索音頻數據檢測段作為查詢音頻數據檢測段。步驟106、對查詢音頻數據檢測段進行諧波檢測,確定查詢音頻數據檢測段的類另IJ,對包含諧波結構的查詢音頻數據檢測段分成語音段或者音樂段,對不包含諧波結構的查詢音頻數據檢測段分成噪音段或者無效音段。通過音頻指紋段分類索引,找到查詢音頻數據檢測段對應的音頻數據檢測段。步驟107、將查詢音頻數據檢測段分成固定長度的查詢音頻數據指紋段,逐段評估查詢音頻數據指紋段的信息量,選取信息量超過預設閾值的最長連續(xù)查詢音頻數據指紋段作為查詢音頻數據段。步驟108、在所述的對應的音頻數據檢測段中,通過音頻數據指紋段索引,獲得查詢音頻數據段在所述對應的音頻數據檢測段中的候選位置。這里一般會給ー個比較寬松的門限,讓候選結果盡可能包含其中。步驟109、通過音頻數據指紋索引,將查詢音頻數據段與所述對應的音頻數據檢測段中的候選位置進行匹配,獲得音頻檢索結果。 以上所述,僅為本發(fā)明較佳的具體實施方式
,但本發(fā)明的保護范圍并不局限于此,任何熟悉該技術的人在本發(fā)明所揭露的技術范圍內,可輕易想到的變化或替換,都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應該以權利要求的保護范圍為準。
權利要求
1. 一種固定音頻檢索方法,其特征在于,包括以下步驟 A、通過靜音段對音頻數據進行分段,形成非靜音的音頻數據檢測段; B、對音頻數據檢測段進行諧波檢測,并對音頻數據檢測段進行分類,形成音頻數據指紋段分類索引; C、將音頻數據檢測段分成固定長度的音頻數據指紋段,根據信息量對音頻數據指紋段進行標識分類,形成音頻數據指紋段索引; D、對每個音頻數據指紋段提取音頻數據指紋特征,建立音頻數據指紋索引; E、通過靜音段對待檢索音頻數據進行分段,形成非靜音的待檢索音頻數據檢測段,從中選取不少于一段時間最長的待檢索音頻數據檢測段作為查詢音頻數據檢測段; F、對查詢音頻數據檢測段進行諧波檢測,確定查詢音頻數據檢測段的類別,通過音頻指紋段分類索引,找到查詢音頻數據檢測段對應的音頻數據檢測段; G、將查詢音頻數據檢測段分成固定長度的查詢音頻數據指紋段,逐段評估查詢音頻數據指紋段的信息量,選取信息量超過預設閾值的最長連續(xù)查詢音頻數據指紋段作為查詢音頻數據段; H、在所述的對應的音頻數據檢測段中,通過音頻數據指紋段索引,獲得查詢音頻數據段在所述對應的音頻數據檢測段中的候選位置; I、通過音頻數據指紋索引,將查詢音頻數據段與所述對應的音頻數據檢測段中的候選位置進行匹配,獲得音頻檢索結果。
2.根據權利要求I所述的一種固定音頻檢索方法,其特征在于,步驟B中,對包含諧波結構的音頻數據檢測段分成語音段或者音樂段,對不包含諧波結構的音頻數據檢測段分成噪音段或者無效音段。
3.根據權利要求I所述的一種固定音頻檢索方法,其特征在于,步驟F中,對包含諧波結構的查詢音頻數據檢測段分成語音段或者音樂段,對不包含諧波結構的查詢音頻數據檢測段分成噪音段或者無效音段。
4.根據權利要求I所述的一種固定音頻檢索方法,其特征在于,步驟A中,通過音頻數據當前段的能量與總體能量的比值,判斷是否靜音段還是有效聲音段。
5.根據權利要求I所述的一種固定音頻檢索方法,其特征在于,步驟E中,通過待檢索音頻數據當前段的能量與總體能量的比值,判斷是否靜音段還是有效聲音段。
全文摘要
本發(fā)明公開了一種固定音頻檢索方法,在建立音頻數據檢索數據庫時,首先按檢測段提取音頻數據的特征建立索引表,然后對音頻數據指紋段中信息量比較高的音頻段建立二級索引。在檢索目標音頻數據階段先根據目標音頻數據的分類對待檢索的目標音頻數據進行分段,對信息量比較高的音頻數據段進行快速查詢得到可能的候選位置,然后用目標音頻數據在候選位置附近進行精細查詢。采用了本發(fā)明的技術方案,通過對音頻數據庫進行高質量索引,查詢時采用粗細結合分級別查詢方式,可以大大減少計算復雜度,提高查詢效率。
文檔編號G06F17/30GK102622353SQ201110028979
公開日2012年8月1日 申請日期2011年1月27日 優(yōu)先權日2011年1月27日
發(fā)明者劉趙杰 申請人:天脈聚源(北京)傳媒科技有限公司