專利名稱::用于按照索引信息搜索音頻指紋的系統(tǒng)和方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種音頻指紋(fingerprint)搜索技術(shù),且更具體地,涉及如下的系統(tǒng)和方法,該系統(tǒng)和方法用于通過對音頻指紋進(jìn)行編索引(indexing),基于編索引搜索預(yù)定的音頻指紋、并驗(yàn)證所搜索的音頻指紋,來按照索引信息搜索音頻指紋,以改善識(shí)別性能并增加搜索速度。這項(xiàng)工作受MIC(弟國信息通信部)/IITA(韓國信息技術(shù)促進(jìn)協(xié)會(huì))的信息技術(shù)(IT)研究開發(fā)計(jì)劃[2007-S-017-01,"Developmentofuser-centriccontentsprotectionanddistributiontechnology(用戶中心內(nèi)容保護(hù)和分布技術(shù)的開發(fā))"]支持。
背景技術(shù):
:音頻指紋系統(tǒng)的目標(biāo)是通過接收音頻信號(hào)并利用預(yù)先構(gòu)建的音頻指紋數(shù)據(jù)庫搜索對應(yīng)的音頻來識(shí)別預(yù)定的音頻。根據(jù)應(yīng)用領(lǐng)域,音頻指紋系統(tǒng)已經(jīng)用于廣播監(jiān)視器、CF識(shí)別、和文件過濾。為了在所述應(yīng)用領(lǐng)域中有效地使用音頻指紋系統(tǒng),甚至在各種失真情況下,也需要高識(shí)別率和快的搜索速度。具體地,為了在P2P或UCC領(lǐng)域中過濾文件,需要迅速且準(zhǔn)確地搜索由其每一個(gè)具有自己的版權(quán)的幾十萬個(gè)音頻文件形成的音頻指紋數(shù)據(jù)。對于在基于大容量音頻指紋數(shù)據(jù)庫進(jìn)行操作的廣播監(jiān)視和文件過濾領(lǐng)域中的實(shí)時(shí)處理,識(shí)別速度是最重要因素之一。此外,根據(jù)音頻指紋系統(tǒng)的應(yīng)用領(lǐng)域,還要求音頻指紋系統(tǒng)具有高識(shí)別性能(盡管音頻數(shù)據(jù)通過重新采樣、過濾、均衡、和壓縮而被變形)、以及快的識(shí)別速度。在名稱為"Methodforsearchinaudiodatabase(用于音頻數(shù)據(jù)庫中的搜索的方法)"的韓國專利公開第2003-7001489號(hào)中介紹了根據(jù)現(xiàn)有技術(shù)的搜索方法。在用于音頻數(shù)據(jù)庫中的搜索的方法中,提取界標(biāo)(landmark)和指紋,并使用界標(biāo)和指紋的對應(yīng)關(guān)系來搜索預(yù)定的音頻數(shù)據(jù)。在所述方法中,除了指紋之外還計(jì)算界標(biāo),將所計(jì)算的界標(biāo)存儲(chǔ)為索引、和在界標(biāo)與使用界標(biāo)位置中的指紋的音樂ID之間的候選列表。然后,基于其線性關(guān)系來識(shí)別音頻。然而,盡管在所述方法中基于指紋來搜索音頻信號(hào),但是沒有考慮指紋的特性。此外,作為補(bǔ)充特征,所述方法需要界標(biāo)來識(shí)別預(yù)定音頻。在名稱為"Fingerprintproducingmethodandaudiofingerprintingsystembasedonnormalizedspectralsubbandcentroids(基于頭見才各化的"i普子帶矩心的指紋產(chǎn)生方法和音頻指紋識(shí)別系統(tǒng))"的韓國專利公開第2007-0031765號(hào)中介紹了根據(jù)現(xiàn)有技術(shù)的音頻搜索系統(tǒng)。所述指紋產(chǎn)生方法和音頻指紋識(shí)別系統(tǒng)基于規(guī)格化的譜子帶矩心來生成指紋,并通過比較指紋的距離來搜索預(yù)定的音頻。所述指紋產(chǎn)生方法和音頻指紋識(shí)別系統(tǒng)沒有考慮用于音頻搜索的指紋的特性,盡管所述指紋產(chǎn)生方法和音頻指紋識(shí)別系統(tǒng)具有比MP3的典型指紋的MFCC和音調(diào)、均衡、以及隨機(jī)開始更好的識(shí)別性能。
發(fā)明內(nèi)容技術(shù)問題相應(yīng)地,本發(fā)明旨在一種用于根據(jù)索引信息來搜索音頻指紋的系統(tǒng)和方法,其實(shí)質(zhì)上排除了由于現(xiàn)有技術(shù)的限制和缺點(diǎn)所導(dǎo)致的一個(gè)或多個(gè)問題。本發(fā)明的目標(biāo)是提供一種使用索引信息搜索音頻指紋的系統(tǒng)和方法,以通過使用音頻指紋特征信息的統(tǒng)計(jì)特性來生成索引并使用生成的索引來搜索預(yù)定音頻,來改善音頻識(shí)別性能并增加搜索速度。-技術(shù)解決方案為了實(shí)現(xiàn)這些目標(biāo)和其它優(yōu)點(diǎn)并且4艮據(jù)本發(fā)明的目的,如在這里所實(shí)施和廣泛描述的,提供了一種用于搜索音頻指紋的系統(tǒng),該系統(tǒng)包括DB組,用于基于音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成索引,并連續(xù)地匹配索引、音頻指紋、和音樂信息;和音頻指紋搜索設(shè)備,用于基于新輸入音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成新索引,并通過從DB組中搜索新索引來搜索用于新輸入音頻文件的對應(yīng)音樂信息。根據(jù)本發(fā)明的另一目的,提供了一種用于使用索引信息來搜索音頻指紋的方法,包括如下步驟a)基于音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成索引,并準(zhǔn)備用于存儲(chǔ)位置信息的DB組,該DB組連續(xù)地匹配所生成的索引、音頻指紋、和音樂信息;b)基于新輸入音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成索引;以及c)通過從DB組中搜索在步驟b)中生成的已生成索引來搜索用于新輸入音頻文件的對應(yīng)音樂信息。有益效果根據(jù)本發(fā)明的用于按照索引信息來搜索音頻指紋的系統(tǒng)和方法使用音頻指紋的統(tǒng)計(jì)特性來生成索引,并基于所生成的索引來搜索音頻指紋。因此,根據(jù)本發(fā)明的用于按照索引信息來搜索音頻指紋的系統(tǒng)和方法可以支持快的搜索時(shí)間,并可以應(yīng)用于過濾和監(jiān)視大容量數(shù)據(jù)庫中的文件。此外,用于按照索引信息來搜索音頻指紋的系統(tǒng)和方法創(chuàng)建了包括可變位置的索引比特的候選索引以便補(bǔ)償失真,這是因?yàn)槿绻麑⑺饕苯佑糜谒阉鞫鴽]有補(bǔ)償,則由于失真而急劇地降低識(shí)別率。因此,用于按照索引信息來搜索音頻指紋的系統(tǒng)和方法可以通過校正由于比特索引而可生成的誤差來改善識(shí)別率。在這個(gè)申請的部分中合并了附圖,并且所述附圖構(gòu)成這個(gè)申請的部分,包括所述附圖以提供本發(fā)明的進(jìn)一步理解,所述附示了本發(fā)明的實(shí)施例,并且與描述一起用于說明本發(fā)明的原理。在附圖中圖1是圖示了根據(jù)本發(fā)明的實(shí)施例的、用于搜索音頻指紋的系統(tǒng)的框圖2是圖示了根據(jù)本發(fā)明的實(shí)施例的索引處理器的框圖3是圖示了在根據(jù)本發(fā)明實(shí)施例的用于搜索音頻指紋的系統(tǒng)中使用的DB文件中的關(guān)系的圖4是圖示了用于生成指紋索引所使用的概率分布的圖5是圖示了使用從音頻搜索處理提取的指紋來生成指紋索引并基于所生成的指紋索引來搜索預(yù)定音頻的過程的圖6是圖示了在音頻搜索處理中生成候選索引的過程的圖;以及圖7是圖示了使用在音頻搜索處理中生成的候選索引來搜索最終結(jié)果的過程的圖。具體實(shí)施例方式現(xiàn)在,將詳細(xì)參考在附圖中圖示了其示例的本發(fā)明的優(yōu)選實(shí)施例。圖1是圖示了根據(jù)本發(fā)明的實(shí)施例的、用于搜索音頻指紋的系統(tǒng)的框圖。參考圖1,根據(jù)本實(shí)施例的用于搜索音頻指紋的系統(tǒng)包括音頻指紋搜索設(shè)備l。所述音頻指紋搜索設(shè)備1包括指紋提取單元ll,用于提取用于音頻文件的音頻指紋;候選索引搜索單元12,用于通過按照所提取的音頻指紋值與在生成索引時(shí)使用的平均值(meanvalue)之間的差的絕對值的升序來排序所提取的指紋的值,而考慮可變位置地生成候選索引;指紋匹配單元13,用于與候選索《1對應(yīng)地匹配音頻指紋和已提取音頻指紋;以及結(jié)果驗(yàn)證單元14,用于如果音頻指紋之間的距離處于預(yù)定值范圍中,則驗(yàn)證搜索結(jié)果是對應(yīng)的音樂信息。由于索引^L用于搜索,所以用于搜索指紋的系統(tǒng)還包括DB組2,用于存儲(chǔ)音頻指紋,所述音頻指紋具有與所述音頻指紋匹配的對應(yīng)索引。為了操作根據(jù)本發(fā)明的音頻指紋搜索設(shè)備l,首先需要建立相關(guān)的數(shù)據(jù)庫。因此,優(yōu)選地,將DB組2形成為具有指紋DB21、音樂信息DB22、和指紋索引DB23。此外,為了匹配并存儲(chǔ)音頻指紋與對應(yīng)的索引,需要對音頻文件執(zhí)行預(yù)處理。優(yōu)選地,還包括索引處理器3,用于在預(yù)處理中接收音頻文件和音樂ID信息,并將音頻指紋與對應(yīng)的索引匹配。如上所述,根據(jù)本實(shí)施例的用于搜索音頻指紋的系統(tǒng)被劃分為DB生成區(qū)域,用于生成指紋索引并建立其數(shù)據(jù)庫,以及DB搜索區(qū)域,用于通過編索引進(jìn)行搜索。也就是說,在DB生成步驟中,相關(guān)的信息被存儲(chǔ)在指紋DB21、音樂信息DB22、和指紋索引DB23中。在基于索引進(jìn)行搜索的步驟中,執(zhí)行指紋提取、通過編索引進(jìn)行的候選搜索和匹配、以及結(jié)果驗(yàn)證。盡管根據(jù)本實(shí)施例的用于搜索音頻指紋的系統(tǒng)被劃分為兩個(gè)區(qū)域,但是對于本領(lǐng)域技術(shù)人員而言明顯的是,所述兩個(gè)區(qū)域可以在一個(gè)區(qū)域中執(zhí)行。圖2是圖示了根據(jù)本發(fā)明的實(shí)施例的索引處理器的框圖。參考圖2,索引處理器3包括指紋提取器31、指紋統(tǒng)計(jì)分析器32、指紋二進(jìn)制化器33、和指紋編索引器(indexer)34。指紋提取器31使用指紋提取算法從輸入的音頻文件中提取音頻指紋,并且指紋統(tǒng)計(jì)分析器32分析音頻指紋的統(tǒng)計(jì)特性并計(jì)算概率分布。也就是說,指紋統(tǒng)計(jì)分析器32通過計(jì)算音頻指紋的平均數(shù)(mean)以及指紋分布來將所提取的音頻指紋近似為概率模型。然后,指紋二進(jìn)制化器33通過分析音頻指紋的統(tǒng)計(jì)特性來將指紋二進(jìn)制化為具有概率性上同一的分布,并且指紋編索引器34生成索引。這里,指故提取算法可以是過零率(ZCR:zerocrossingrate)、能量差、譜平坦度、美爾頻率倒譜系數(shù)(MFCC:melfr叫uencycepstralcoefficients)和頻率矩心(frequencycentroide)中的一個(gè)。圖3是圖示了與在根據(jù)本發(fā)明實(shí)施例的用于搜索音頻指紋的系統(tǒng)中使用的DB文件的結(jié)構(gòu)的關(guān)系的圖。參考圖3,根據(jù)本實(shí)施例的DB組2包括指紋DB21、音樂信息DB22、和指紋索引DB23。指紋DB21存儲(chǔ)音樂中的指紋音頻值和位置信息。音樂信息DB22存儲(chǔ)關(guān)于音樂ID的信息和指紋的數(shù)目。指紋索引DB23根據(jù)二進(jìn)制化的指紋值來存儲(chǔ)指紋DB21中的關(guān)于位置的信息。當(dāng)根據(jù)本實(shí)施例的用于搜索音頻指紋的系統(tǒng)在每個(gè)DB存儲(chǔ)對應(yīng)信息之后、接收搜索預(yù)定音頻文件的請求時(shí),所述系統(tǒng)通過圖2中所示的編索引步驟來生成候選索引,從指紋索引DB23中搜索所生成的候選索引,并檢測候選索引的指紋位置信息。然后,所述系統(tǒng)檢測在指紋DB21中存儲(chǔ)的、與指紋位置信息對應(yīng)的指紋信息,并輸出在音樂信息DB22中存儲(chǔ)的、與音樂的位置信息對應(yīng)的音樂信息。圖4是圖示了用于生成指紋索引所使用的概率分布的曲線圖。參考圖4,所述曲線圖示出了規(guī)格化的頻率矩心值的直方圖分布。所述曲線圖清楚地示出了平均值接近于0。圖5是圖示了使用從音頻搜索處理提取的指紋來生成指紋索引并基于所生成的指紋索引來搜索預(yù)定音頻的過程的圖。像圖3中一樣,從音頻文件中準(zhǔn)備三個(gè)DB文件。所述音頻指紋搜索設(shè)備1使用三個(gè)DB文件來執(zhí)行搜索服務(wù)。參考圖5,當(dāng)預(yù)定音頻文件輸入時(shí),與用于從音頻文件生成DB的方法一樣地依次執(zhí)行提取音頻指紋的步驟、基于從所提取的指紋獲得的索引來計(jì)算候選指紋的步驟、匹配所提取的音頻指紋和與所計(jì)算的候選指紋索引對應(yīng)的音頻指紋的步驟、以及使用匹配結(jié)果來驗(yàn)證搜索結(jié)果的步驟。這些步驟將如下描述。如果輸入音頻文件,則通過使用上述方法提取音頻指紋來生成索引。也就是說,指紋提取器11使用指紋提取算法從輸入的音頻文件中提取音頻指紋,并且指紋統(tǒng)計(jì)分析器32分析音頻指紋的統(tǒng)計(jì)特性,并計(jì)算具有概率性上同一的分布的概率分布。也就是說,指紋統(tǒng)計(jì)分析器32通過計(jì)算音頻指紋的平均數(shù)和分布來將指紋近似為概率模型。然后,指紋二進(jìn)制化器33分析音頻指紋的統(tǒng)計(jì)特性,并將音頻指紋二進(jìn)制化為具有概率性上同一的分布。然后,指紋編索引器34生成索引。為了獲得候選指紋值以用于音頻搜索,荻得指紋DB21中的關(guān)于位置的信息,所述位置信息具有指紋索引DB23的對應(yīng)索引值。其間,如果音頻失真,則從其提取的指紋也可能失真。相應(yīng)地,指紋的索引值可能改變。所述索引值可能由于噪聲、均衡、壓縮、模數(shù)轉(zhuǎn)換、和數(shù)模轉(zhuǎn)換而變化。為索引值變化生成候選索引。在生成候選索引之后,指紋索引DB23獲得關(guān)于具有指紋DB21中的對應(yīng)候選索引值的位置的信息。然后,通過匹配和'瞼證指紋的步驟來輸出搜索對應(yīng)音樂信息的結(jié)果。圖6是圖示了在音頻搜索處理中生成候選索引的過程的圖。如圖6中所示,如果存在N維指紋值,則基于與用于生成索引的平均值的差的絕對值、按照升序來排列N維指紋值。根據(jù)概率分布形狀來決定閾值,決定可變位置,并且考慮可變位置來生成候選索引。圖7是圖示了使用音頻搜索步驟中的所生成的候選索?1來搜索最終結(jié)果的步驟的圖。如圖7中所示,調(diào)用與所生成的候選索引值匹配的指纟丈值,并計(jì)算在要搜索的目標(biāo)音頻指紋與具有所調(diào)用的指紋值的位置之間的距離。然后,將所計(jì)算的距離與預(yù)定閾值比較。如果最小值小于闊值,則存儲(chǔ)一個(gè)結(jié)杲。為了提供高度可靠的結(jié)果,在不同位置中的指紋處重復(fù)地執(zhí)行上述步驟。然后,通過對結(jié)果進(jìn)行驗(yàn)證來輸出所述最終結(jié)果。在本實(shí)施例中,假設(shè)所提取的音頻指紋具有浮點(diǎn)實(shí)數(shù)值,并且指紋的所估計(jì)的概率模型具有如圖4所示的鐘形分布,該鐘形分布具有平均值"0"。這里,如等式l中所示,可使用平均值"0"來將N維指紋表達(dá)為N個(gè)二進(jìn)制數(shù)。通過等式2來將用二進(jìn)制數(shù)表示的指紋轉(zhuǎn)換為十進(jìn)制^t。所述十進(jìn)制指紋數(shù)目被用作數(shù)據(jù)庫的索引。10[等式2]<formula>formulaseeoriginaldocumentpage11</formula>例如,在N為16的情況下,16維音頻指紋;故表示為0到65535之間的一個(gè)值,并且這個(gè)值被用作數(shù)據(jù)庫中的索引。根據(jù)本實(shí)施例的音頻指紋系統(tǒng)生成用于音頻搜索的三個(gè)數(shù)據(jù)庫文件。如圖3中所示,三個(gè)數(shù)據(jù)庫文件被形成為指紋DB21、音樂信息DB22、和指紋索引DB23。指紋DB21存儲(chǔ)所提取的指紋值。也就是說,指紋DB21按照原樣存儲(chǔ)所提取的指紋值。音樂信息DB22存儲(chǔ)關(guān)于如下音樂的信息,即基于在生成指紋時(shí)提供的信息而從其提取指紋的音樂。例如,音樂信息DB22可存儲(chǔ)各種信息,諸如音樂ID、版權(quán)信息、指紋的長度。指紋索引DB23通過等式1和等式2將指紋變換為索引,并根據(jù)指紋DB21中的位置信息來存儲(chǔ)作為索引的指紋值。例如,在16維指紋的情況下,如圖3中所示,與位置4言息一起依次存儲(chǔ)指紋。還與它們一起存儲(chǔ)音樂信息和指紋信息。通過與具有圖3所示的對應(yīng)索引值的指紋的位置信息一起存儲(chǔ)指紋索引,而將所述指紋索引用于音頻搜索。在從音頻文件準(zhǔn)備三個(gè)DB文件之后,音頻指紋系統(tǒng)使用所準(zhǔn)備的DB文件執(zhí)行搜索服務(wù)。也就是說,如果輸入了預(yù)定的音頻文件,則依次執(zhí)行使用用于從音頻文件生成DB的上述方法來提取音頻指紋的步驟、通過從所提取的指紋計(jì)算索引來計(jì)算候選指紋的步驟、匹配候選指紋的步驟、以及使用匹配結(jié)果來進(jìn)行驗(yàn)證的步驟。這些步驟將如下更詳細(xì)地描述。當(dāng)輸入音頻文件時(shí),使用音頻指紋提取方法來提取音頻指紋,并基于所提取的音頻指紋來生成索引。為了獲得候選指紋值以用于音頻搜索,獲得關(guān)于指紋DB21中的位置的信息,其具有指紋索引DB23的對應(yīng)索引值。其間,如果音頻失真,則從其提取的指紋也可能失真。相應(yīng)地,指紋的索引值可能改變。所述索引值可能由于噪聲、均衡、壓縮、模數(shù)轉(zhuǎn)換、和數(shù)模轉(zhuǎn)換而變化。為索引值變化生成候選索引。在生成候選索引之后,與候選索引對應(yīng)地獲得指紋DB21中的的位置信息,該位置信息具有指紋索引DB23中的對應(yīng)候選索引值。然后,在指紋匹配和驗(yàn)證步驟之后輸出對應(yīng)音樂信息的搜索結(jié)果。下文中,將更詳細(xì)地描述生成候選索引的步驟。在N維指紋的情況下,按照與用于生成索引的概率分布的平均值(例如,本實(shí)施例中的平均值"0")最近距離的順序來排列N維值。這里,可以依次計(jì)算根據(jù)概率分布而具有改變的大概率的位置??梢赃x擇在通過概率分布的預(yù)定距離范圍中的位置。此外,可以在沒有任何條件的情況下選擇預(yù)定數(shù)目的位置。等式[3]如果在先前使用的音頻指紋中具有鐘形概率分布的閾值:故決定為常數(shù),則可以獲得關(guān)于能根據(jù)指紋而改變的位置的信息。在決定位置之后,使用在提取指紋的步驟中使用的索引生成方法來生成索引。此外,與可變位置對應(yīng)地生成所有可能的索引。例如,如果4維音頻指紋值是(-0.2,0.1,0.4,0.2),如果決定索引的值是0,并且如果第二個(gè)位置具有要改變的大概率,則其索引是Olll,并且候選索引是OOll,這是因?yàn)榈诙€(gè)位置可能改變。在如上所述地計(jì)算候選索引之后,參考在指紋DB21中的位置信息從對應(yīng)的索引中獲得候選指紋,并且通過根據(jù)位置信息而比較距要搜索的目標(biāo)音頻指紋的距離來排列所獲得候選指紋。這里,基于與作為參考的參考位置對應(yīng)的值來去除冗余,并計(jì)算從具有預(yù)定長度的K個(gè)預(yù)定音頻指紋到指紋DB21的指紋值的距離。例如,計(jì)算歐幾里得距離,并且將所計(jì)算的歐幾里得距離與闊值比較。如果所計(jì)算的距離小于閾值,則在音樂信息DB22中搜索音樂信息,并輸出搜索結(jié)果。如果不小于,則作為結(jié)果而輸出指明沒有搜索到音樂的基本信息值。參考圖7來很好地描述了上述的步驟。如等式4所示,作為可靠性的結(jié)果值由指示數(shù)據(jù)庫中的音樂信息的MusicID(音樂ID)、指示時(shí)間位置的Position(位置)、和指示3巨離差的Distance(距離)形成。R[n]={MusicID[n],Position[n],Distance[n]}當(dāng)音樂ID的值小于閾值時(shí),使用指紋索引DB23中的位置信息來計(jì)算音樂ID的值。由于音樂信息DB22存儲(chǔ)了每個(gè)音樂的指紋數(shù)目,所以如果第m個(gè)音樂ID是結(jié)果、則位置的值大于上至第(m-l)個(gè)音樂的指紋數(shù)目之和。此外,位置的值小于上至第(m+l)個(gè)音樂的音樂的指紋數(shù)目之和。利用這個(gè)事實(shí),計(jì)算音樂ID的值。[等式5]m-lm+l一般系統(tǒng)可多次執(zhí)行搜索步驟,以便改善搜索的可靠性。在計(jì)算預(yù)定位置處的候選索引之后,可再次搜索另一位置處的候選索引,并重復(fù)地執(zhí)行用以搜索候選指紋的步驟,以獲得結(jié)果?;谟上到y(tǒng)選擇的參數(shù)值來決定這樣的結(jié)果,并且與執(zhí)行搜索步驟的次數(shù)一樣多地存儲(chǔ)搜索結(jié)果。在驗(yàn)證步驟之后,輸出所存儲(chǔ)的結(jié)果作為最終搜索結(jié)果。在驗(yàn)證步驟中,從要搜索的預(yù)定音頻信號(hào)中提取的指紋是時(shí)域上的連續(xù)值。也就是說,在時(shí)間上依次提取指紋。類似地,在時(shí)間上依次提取指紋并將其存儲(chǔ)在所生成的指紋DB21中。也就是說,使用預(yù)定位置處的指紋進(jìn)行搜索的結(jié)果和使用下一位置處的指紋進(jìn)行搜索的結(jié)果具有時(shí)間上同一的距離差?;谶@個(gè)事實(shí),使用等式6驗(yàn)證搜索結(jié)果。如果MusicID[n+p]=MusicID[n],則p-l^Position[n+p]—Position[n]Sp+l也就是說,如果p位置的搜索結(jié)果相同,則位置信息的差必須大于p-l并小于p+l?;谶@個(gè)事實(shí),驗(yàn)證了重復(fù)獲得的結(jié)果。如果滿足所述條件,則將該結(jié)果輸出為最終結(jié)果。對于其每一個(gè)具有40秒長度的27,000個(gè)音頻文件生成測試數(shù)據(jù)庫,以用于驗(yàn)證。然后,從測試數(shù)據(jù)庫中搜索被壓縮為其每一個(gè)具有20秒長度的32kbps的MP3音頻文件的100個(gè)音頻文件。揭—耳又在本實(shí)施例中描述的用于16維的指紋,并使用所提取的指紋。為了比較距離,使用52個(gè)指紋。此外,將搜索步驟執(zhí)行5次以用于驗(yàn)證。為了比較性能,在相同條件下執(zhí)行依次搜索。在依次搜索中,在DB中搜索所有指紋,并且將通過比較距離具有最小值的結(jié)果確定為最終結(jié)果。<table>tableseeoriginaldocumentpage14</column></row><table>如表格l中所示,根據(jù)本實(shí)施例的基于索引的搜索的搜索速度比依次搜索的搜索速度快很多。此外,用于比特索引值的識(shí)別率的惡化可通過調(diào)整決定候選索?1的參數(shù)值來克服,盡管總搜索時(shí)間擴(kuò)展少許。也就是說,盡管總搜索時(shí)間擴(kuò)展大約IO秒長,但是識(shí)別率可以從87%改善到96%??蓽p少搜索時(shí)間達(dá)到依次搜索的總搜索時(shí)間的1/9?;诳斓乃阉鲿r(shí)間和高識(shí)別率,根據(jù)本實(shí)施例的用于按照索引信息搜索音頻指紋的系統(tǒng)和方法可應(yīng)用于在大容量數(shù)據(jù)庫中的文件的過濾和監(jiān)視。具體地,根據(jù)本實(shí)施例的用于按照索引信息搜索音頻指紋的系統(tǒng)和方法可應(yīng)用對于本領(lǐng)域技術(shù)人員而言顯然的是,可以在本發(fā)明中進(jìn)行各種修改和變化。這樣,只要本發(fā)明的修改和變化落入所附權(quán)利要求和它們的等效物的范圍內(nèi),本發(fā)明就意欲覆蓋這些修改和變化。權(quán)利要求1.一種用于搜索音頻指紋的系統(tǒng),包括DB組,用于基于音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成索引,并連續(xù)地匹配索引、音頻指紋、和音樂信息;和音頻指紋搜索設(shè)備,用于基于新輸入音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成新索引,并通過從DB組中搜索新索引來搜索用于新輸入音頻文件的對應(yīng)音樂信息。2.根據(jù)權(quán)利要求l的系統(tǒng),其中所述DB組包括指紋DB,用于存儲(chǔ)音頻文件的音頻指紋和音樂信息的位置信息;音樂信息DB,用于存儲(chǔ)音樂信息的音樂ID和關(guān)于指紋數(shù)目的信息;以及指紋索引DB,用于存儲(chǔ)與索引對應(yīng)的指紋DB中的關(guān)于音頻指紋位置的信息。3.根據(jù)權(quán)利要求2的系統(tǒng),還包括索引處理器,用于將通過從音頻文件中提取音頻指紋而提取的音頻指紋和音樂信息轉(zhuǎn)移到對應(yīng)的DB。4.根據(jù)權(quán)利要求3的系統(tǒng),其中所述索引處理器包括指紋提取器,用于使用指紋提取算法來提取音頻指紋;指紋統(tǒng)計(jì)分析器,用于通過對于所提取的音頻指紋獲得音頻指紋的平均數(shù)和分布來將指紋近似為概率模型;指紋二進(jìn)制化器,用于通過分析音頻指紋的統(tǒng)計(jì)特性并執(zhí)行二進(jìn)制化,以具有概率性上同一的分布;以及指紋編索引器,用于匹配二進(jìn)制化結(jié)果與索引。5.根據(jù)權(quán)利要求4的系統(tǒng),其中所述指紋提取算法是過零率(ZCR)、能量差、譜平坦度、美爾頻率倒譜系數(shù)(MFCC)、和頻率矩心之一。6.根據(jù)權(quán)利要求4的系統(tǒng),其中基于統(tǒng)計(jì)特性之中的平均值來執(zhí)行二進(jìn)制化。7.根據(jù)權(quán)利要求l的系統(tǒng),其中所述音頻指紋搜索設(shè)備包括指紋提取器,用于提取新音頻文件的音頻指紋;候選索引搜索單元,用于通過按照所提取的音頻指紋值與用于生成新索引而使用的平均值之間的差的絕對值的升序來排序所提取的音頻指紋的值、并考慮可變位置,來生成候選索引;指紋匹配單元,用于與候選索《I對應(yīng)地匹配音頻指紋和已提取音頻指玟;以及結(jié)果驗(yàn)證單元,用于測量音頻指紋之間的距離,并且如果所測量的距離處于預(yù)定值范圍中,則通過時(shí)間信息驗(yàn)證結(jié)果。8.根據(jù)權(quán)利要求7的系統(tǒng),其中所述可變位置是通過在概率分布形狀中的閾值設(shè)置來決定的。9.一種用于使用索引信息來搜索音頻指紋的方法,包括如下步驟a)基于音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成索引,并準(zhǔn)備用于存儲(chǔ)位置信息的DB組,該DB組連續(xù)地匹配所生成的索引、音頻指紋、和音樂信息;b)基于新輸入音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成索引;以及c)通過從DB組中搜索在步驟b)中生成的已生成索引來搜索用于新輸入音頻文件的對應(yīng)音樂信息。10.根據(jù)權(quán)利要求9的方法,其中在步驟a)和b)中的索引生成中包括如下步驟使用指紋提取算法來提取音頻指紋;通過對于所提取的音頻指紋計(jì)算音頻指紋的平均值和分布來將指紋近似為概率模型;以及通過分析音頻指紋的統(tǒng)計(jì)特性、并執(zhí)行二進(jìn)制化以具有概率性上同一的分布,來生成索引。11.根據(jù)權(quán)利要求9的方法,其中步驟a)包括如下步驟在指紋DB處存儲(chǔ)音頻文件的音頻指紋和音樂信息的位置信息;在音樂信息DB處存儲(chǔ)作為音樂信息的唯一ID的音樂ID和包括指紋數(shù)目的信息;以及在指紋索引DB處存儲(chǔ)與索引對應(yīng)的指紋DB中的關(guān)于音頻指紋位置的信息。12.根據(jù)權(quán)利要求9的方法,其中所述步驟c)包括如下步驟通過按照所提取的音頻指紋值與在步驟b)中用于生成索引而使用的平均值之間的差的絕對值的升序來排序所提取的音頻指紋的值、并考慮可變位置,來生成候選索引;匹配與候選索?1對應(yīng)的音頻指紋和已提取音頻指紋;以及通過測量音頻指紋之間的距離,并且所測量的距離處于預(yù)定值范圍中,來利用時(shí)間信息驗(yàn)證結(jié)果。13.根據(jù)權(quán)利要求12的方法,其中在按照升序來排序與用于生成索引的平均值的差的絕對值、并且通過根據(jù)閾值決定接近于平均值的維的位置來改變對應(yīng)位置的比特值之后,生成候選索引。14.根據(jù)權(quán)利要求13的方法,其中參考指紋DB來與預(yù)定次數(shù)一樣多地計(jì)算從候選索引計(jì)算的指紋位置信息與從新輸入音頻文件獲得的指紋之間的歐幾里得距離,并且搜索具有最小距離的音樂信息。15.根據(jù)權(quán)利要求14的方法,其中如果所測量的距離處于候選索引中的閾值范圍中,則作為結(jié)果而輸出具有最小距離的指紋位置的音樂信息。16.根據(jù)權(quán)利要求15的方法,其中如果新輸入音頻文件中的指紋之間的距離差等于結(jié)果的位置信息差,則使用其它位置的指紋來輸出音樂信息搜索作為最終結(jié)果。全文摘要提供了一種用于按照索引信息來搜索音頻指紋的系統(tǒng)和方法。所述系統(tǒng)包括DB組,用于基于音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成索引,并連續(xù)地匹配索引、音頻指紋、和音樂信息;和音頻指紋搜索設(shè)備,用于基于新輸入音頻文件的音頻指紋的統(tǒng)計(jì)特性來生成新索引,并通過從DB組中搜索新索引來搜索用于新輸入音頻文件的對應(yīng)音樂信息。文檔編號(hào)G11B27/10GK101663708SQ200880012639公開日2010年3月3日申請日期2008年4月14日優(yōu)先權(quán)日2007年4月17日發(fā)明者俞元英,吳元根,尹英錫,徐庸碩,徐泳浩,徐鎮(zhèn)洙,李承宰,李相光申請人:韓國電子通信研究院