專利名稱:用于在音頻幀序列中檢測重復模式的方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及音頻信號處理。更具體地,本發(fā)明的實施例涉及用于在音頻幀序列中檢測重復模式的方法及設(shè)備。
背景技術(shù):
音頻信號,尤其是音樂信號,通常顯示出重復的特性在音頻信號中,一個音頻部分在后面將會重復。對音頻信號中這些重復部分的檢測已引起很多關(guān)注,因為這種檢測是一個基礎(chǔ)性步驟,并且可以用于各種應(yīng)用,諸如音樂檢測、音樂副歌檢測、音樂縮略或音樂概括以及音樂結(jié)構(gòu)分析。關(guān)于術(shù)語“重復部分”,在不同文獻中可以使用具有類似含義的不同術(shù)語,諸如“反·復出現(xiàn)”、“重復”、“重復模式”或“反復模式”。在本公開中,可以互換地使用這些術(shù)語,而不會引起任何混淆。為了檢測重復部分,各種方案能夠涉及計算相似度(或距離)矩陣,并在矩陣中找到重復模式。相似度矩陣包括幀t與t+Ι之間的相似度值s(t,l),其中I代表相似度值s(t,I)的偏移。一般的思路是,估計固定閾值并用它將矩陣二值化。即,對于相似度矩陣中的每個像素,如果其相似度值大于固定閾值,則將該像素二值化為1,表明該像素表示重復;否則,將該像素設(shè)置為O。二值化之后,通過在每個偏移中檢測包含連續(xù)“I”的線,可容易地檢測重復模式(參見 M. Goto. “A chorus-section detecting method for musicalaudio signals,,,Proc. Acoustics, Speech, and Signal Processing, 2003,其通過弓I用并入于此以用于全部目的)。本章節(jié)中描述的方案是能夠采用的方案,但不一定是先前已經(jīng)構(gòu)思或采用的方案。因此,除非另外指出,不應(yīng)僅因為被包含在本章節(jié)中就假定本章節(jié)描述的任何方案適合作為現(xiàn)有技術(shù)。類似地,根據(jù)本章節(jié)而關(guān)于一個或更多個方案發(fā)現(xiàn)的問題不應(yīng)被假定為任何現(xiàn)有技術(shù)中已經(jīng)認識到的問題,除非另外指出。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個實施例,提供了一種在音頻幀序列中檢測重復模式的方法。根據(jù)該方法,計算該序列的具有第一分辨率的第一相似度矩陣的相似度值。根據(jù)相似度值估計自適應(yīng)閾值,用于將相似度值分類為重復或非重復。針對第二相似度矩陣的一個或更多個偏移中的每一個,計算第二相似度矩陣中與該偏移相對應(yīng)的相似度值,其中第二相似度矩陣具有高于第一分辨率的第二分辨率。利用自適應(yīng)閾值對計算出的相似度值進行分類,以獲得二值化數(shù)據(jù)。從二值化數(shù)據(jù)中檢測重復模式。根據(jù)本發(fā)明的另一實施例,提供了一種用于在音頻幀序列中檢測重復模式的設(shè)備。該設(shè)備包括計算器、估計器以及檢測器。計算器計算該序列的具有第一分辨率的第一相似度矩陣的相似度值。估計器根據(jù)相似度值估計自適應(yīng)閾值,用于將相似度值分類為重復或非重復。檢測器針對具有高于第一分辨率的第二分辨率的第二相似度矩陣的一個或更多個偏移中的每一個,計算第二相似度矩陣中與該偏移相對應(yīng)的相似度值,利用自適應(yīng)閾值對計算出的相似度值進行分類以獲得二值化數(shù)據(jù),并從二值化數(shù)據(jù)中檢測重復模式。根據(jù)本發(fā)明的另一實施例,提供了一種記錄有計算機程序指令的計算機可讀介質(zhì)。這些指令在由處理器執(zhí)行時使得該處理器能夠進行一種在音頻幀序列中檢測重復模式的方法。根據(jù)該方法,計算該序列的具有第一分辨率的第一相似度矩陣的相似度值。根據(jù)相似度值估計自適應(yīng)閾值,用于將相似度值分類為重復或非重復。針對第二相似度矩陣的一個或更多個偏移中的每一個,計算第二相似度矩陣中與該偏移相對應(yīng)的相似度值,其中第二相似度矩陣具有高于第一分辨率的第二分辨率。利用自適應(yīng)閾值對計算出的相似度值進行分類,以獲得二值化數(shù)據(jù)。從二值化數(shù)據(jù)中檢測重復模式。根據(jù)本發(fā)明的另一實施例,提供了一種在音頻幀序列中檢測重復模式的方法。計算該序列的第一相似度矩陣的相似度值。針對第一相似度矩陣的各偏移中的每一個,基于第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值,計算重要性得分,所述重要性得分用于評估檢測到與該偏移相對應(yīng)的重復模式的可能性。將重要性得分與和該偏移相關(guān)聯(lián) 的閾值進行比較。如果重要性得分大于所述閾值,則將該偏移確定為重要偏移。在緩沖器中存儲第一相似度矩陣中與重要偏移相對應(yīng)的相似度值。根據(jù)相似度值估計自適應(yīng)閾值,用于將相似度值分類為重復或非重復。針對與第一相似度矩陣具有相同分辨率的第二相似度矩陣,從緩沖器讀取第一相似度矩陣中對應(yīng)于重要偏移的相似度值,以作為第二相似度矩陣中要計算的相似度值。利用自適應(yīng)閾值對讀取出的相似度值進行分類,以獲得二值化數(shù)據(jù)。從二值化數(shù)據(jù)中檢測重復模式。根據(jù)本發(fā)明的另一實施例,提供了一種在音頻幀序列中檢測重復模式的設(shè)備。設(shè)備包括計算器、估計器以及檢測器。計算器計算該序列的第一相似度矩陣的相似度值。針對第一相似度矩陣的各偏移中的每一個,計算器基于第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值,計算重要性得分,所述重要性得分用于評估檢測到與該偏移相對應(yīng)的重復模式的可能性。計算器也將重要性得分與和該偏移相關(guān)聯(lián)的閾值進行比較。如果重要性得分大于閾值,則計算器將該偏移確定為重要偏移。計算器還在緩沖器中存儲第一相似度矩陣中與重要偏移相對應(yīng)的相似度值。估計器根據(jù)相似度值估計自適應(yīng)閾值,用于將相似度值分類為重復或非重復。針對與第一相似度矩陣具有相同分辨率的第二相似度矩陣,檢測器從緩沖器讀取第一相似度矩陣中對應(yīng)于重要偏移的相似度值,以作為第二相似度矩陣中要計算的相似度值。檢測器利用自適應(yīng)閾值對讀取出的相似度值進行分類,以獲得二值化數(shù)據(jù),并且從二值化數(shù)據(jù)中檢測所述重復模式。下面參考附圖詳細描述本發(fā)明的進一步特性和優(yōu)點,以及本發(fā)明各個實施例的結(jié)構(gòu)和操作。應(yīng)當注意,本發(fā)明不限于這里描述的具體實施例。在這里出現(xiàn)這樣的實施例只是出于說明的目的。相關(guān)領(lǐng)域技術(shù)人員根據(jù)這里包含的指導會想到其它實施例。
在附圖的各圖中通過示例來圖解本發(fā)明,但這些示例不對本發(fā)明產(chǎn)生限制,附圖中類似的附圖標記表示類似的元件,其中圖1(a)圖示相似度矩陣的示例,且圖1(b)圖示從圖1(a)所示的矩陣轉(zhuǎn)換得到的時滯相似度矩陣的示例;
圖2是圖示根據(jù)本發(fā)明實施例的用于在音頻幀序列中檢測重復模式的示例設(shè)備的框圖;圖3是圖示根據(jù)本發(fā)明實施例的在音頻幀序列中檢測重復模式的示例方法的流程圖;以及圖4是圖示用于實施本發(fā)明的各個方面的示例性系統(tǒng)的框圖。
具體實施例方式下面參考附圖描述本發(fā)明實施例。應(yīng)注意,為清楚起見,在附圖和描述中省略了關(guān)于本領(lǐng)域技術(shù)人員已知但是與本發(fā)明無關(guān)的組件和過程的陳述和描述。本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的各方面可以被實施為系統(tǒng)(例如在線數(shù)字媒體商店、云計算服務(wù)、流媒體服務(wù)、電信網(wǎng)絡(luò)等)、裝置(例如蜂窩電話、便攜媒體播放器、個人計算機、電視機頂盒、或數(shù)字錄像機、或任意其它媒體播放器)、方法或計算機程序 產(chǎn)品。因此,本發(fā)明的各方面可以采取以下形式完全硬件實施例、完全軟件實施例(包括固件、駐留軟件、微代碼等)或組合軟件部分與硬件部分的實施例,本文可以一般地稱之為“電路”、“模塊”或“系統(tǒng)”。此外,本發(fā)明的各方面可以采取體現(xiàn)為一個或更多個計算機可讀介質(zhì)的計算機程序產(chǎn)品的形式,該計算機可讀介質(zhì)上體現(xiàn)有計算機可讀程序代碼??梢允褂靡粋€或更多個計算機可讀介質(zhì)的任何組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是(但不限于)電的、磁的、光的、電磁的、紅外線的、或半導體的系統(tǒng)、設(shè)備或裝置、或前述各項的任何適當?shù)慕M合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括以下有一個或更多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲裝置、磁存儲裝置、或前述各項的任何適當?shù)慕M合。在本文語境中,計算機可讀存儲介質(zhì)可以是任何含有或存儲供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相聯(lián)系的程序的有形介質(zhì)。計算機可讀信號介質(zhì)可以包括例如在基帶中或作為載波的一部分傳播的、其中帶有計算機可讀程序代碼的數(shù)據(jù)信號。這樣的傳播信號可以采取任何適當?shù)男问?,包括但不限于電磁的、光的或其任何適當?shù)慕M合。計算機可讀信號介質(zhì)可以是不同于計算機可讀存儲介質(zhì)的、能夠傳達、傳播或傳輸供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相聯(lián)系的程序的任何一種計算機可讀介質(zhì)。體現(xiàn)在計算機可讀介質(zhì)中的程序代碼可以采用任何適當?shù)慕橘|(zhì)傳輸,包括但不限于無線、有線、光纜、射頻等等、或上述各項的任何適當?shù)慕M合。用于執(zhí)行本發(fā)明各方面的操作的計算機程序代碼可以以一種或多種程序設(shè)計語言的任何組合來編寫,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言,諸如Java、SmalltalKC++之類,還包括常規(guī)的過程式程序設(shè)計語言,諸如“C”程序設(shè)計語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶的計算機上執(zhí)行、部分地在用戶的計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶的計算機上并且部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務(wù)器上執(zhí)行。在后一種情形中,遠程計算機可以通過任何種類的網(wǎng)絡(luò),包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN),連接到用戶的計算機,或者,可以(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng))連接到外部計算機。以下參照按照本發(fā)明實施例的方法、設(shè)備(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或框圖來描述本發(fā)明的各個方面。應(yīng)當理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理設(shè)備的處理器以生產(chǎn)出一種機器,使得通過計算機或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令產(chǎn)生用于實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。也可以把這些計算機程序指令存儲在能夠指引計算機或其它可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀介質(zhì)中,使得存儲在計算機可讀介質(zhì)中的指令產(chǎn)生一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令的制造品。也可以把計算機程序指令加載到計算機、其它可編程數(shù)據(jù)處理設(shè)備(例如蜂窩電話、便攜媒體播放器、個人計算機、電視機頂盒、或數(shù)字錄像機、或任意媒體播放器)或其它裝置上,導致在計算機或其它可編程數(shù)據(jù)處理設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的過程,使得在計算機或其它可編程設(shè)備上執(zhí)行的指令提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。通過將音頻信號劃分為多個幀并測量每兩個幀之間的相似度,可以計算代表該音頻信號的自相似度的相似度矩陣。例如,圖1(a)圖示了相似度矩陣的示例,其中每個像素
的像素值代表幀\和\之間的相似度。兩個幀越相似,則在該圖中像素就越白??梢郧宄乜吹?,平行于矩陣對角線的每個不同的線均代表重復模式。由于相似度矩陣和距離矩陣完全等同,因此在以下部分中,將只把相似度矩陣作為示例。 為了在后續(xù)步驟中容易處理,相似度矩陣通常是以時滯相似度矩陣的形式來表示的,其中水平軸(時間軸)代表時間戳(或幀)t而垂直軸(偏移軸)為時間偏移(或時滯)1。即,時滯矩陣中的每個像素(t,I)的像素值是時間(或幀)t與t+Ι之間的相似度值。重復模式成為矩陣中的水平線。圖1(b)圖示從圖1(a)所示的矩陣轉(zhuǎn)換得到的時滯相似度矩陣的示例。如圖I所示,相似度矩陣通常為NXN矩陣,其中N是音頻信號中的幀的數(shù)目。例如,針對以100毫秒的非交疊窗口劃分成幀的5分鐘的音頻信號,該音頻信號中存在3000幀,而相似度矩陣的大小可為3000X3000/2 = 4. 5M(考慮到相似度矩陣是對稱的)。在相似度矩陣中每個值以2-4字節(jié)來存儲的情況下,相似度矩陣的整個大小為9-18MB(兆字節(jié))。在諸如嵌入式系統(tǒng)的存儲器容量有限的應(yīng)用中,無法負擔這種存儲器成本。例如,嵌入式系統(tǒng)中的應(yīng)用的典型存儲器成本為大約100KB或更少。為了使得算法在嵌入式系統(tǒng)中可行,需要在不損害重復模式檢測的準確度的情況下大大減小存儲器成本的方案。通過耜分辨率相似度矩陣估計自適應(yīng)閾倌通常,計算并存儲整個相似度矩陣,以通過利用該相似度矩陣中的相似度值的全局分布來估計自適應(yīng)閾值。具體地,根據(jù)相似度矩陣中的相似度值來計算諸如均值和概率以及百分比的統(tǒng)計信息,并根據(jù)這些統(tǒng)計信息估計自適應(yīng)閾值。如果相似度矩陣在偏移軸或時間軸中的一個或更多個中具有低于逐幀分辨率的分辨率,則該相似度矩陣被稱為具有粗分辨率的相似度矩陣(也稱為粗分辨率相似度矩陣)。在偏移軸和時間軸二者均具有逐幀分辨率的相似度矩陣稱為具有高分辨率的相似度矩陣(也稱為高分辨率相似度矩陣)。盡管與高分辨率相似度矩陣相比,粗分辨率相似度矩陣中包括更少的樣本,然而粗分辨率相似度矩陣中的相似度值的動態(tài)范圍和統(tǒng)計信息與高分辨率相似度矩陣是類似的。因此,可根據(jù)粗分辨率相似度矩陣估計自適應(yīng)閾值。這樣獲得的自適應(yīng)閾值可接近于根據(jù)高分辨率相似度矩陣獲得的自適應(yīng)閾值。為了保證高準確度,并不直接在這種粗分辨率相似度矩陣上檢測反復模式,而是在反復模式檢測中使用另一相似度矩陣,其分辨率高于粗分辨率相似度矩陣的分辨率。高于粗分辨率的較聞分辨率是指,在偏移軸和時間軸二者中均 不低于粗分辨率并在偏移軸和時間軸中的至少一個上高于粗分辨率的分辨率。在具有較高分辨率的相似度矩陣中,可獲得與相似度矩陣的每一偏移相對應(yīng)的相似度值(即,具有較高分辨率的時滯相似度矩陣中的一行)。針對每個偏移,所估計的自適應(yīng)閾值被用于將所獲得的相似度值二值化,以檢測該偏移中的重復模式。以此方式,只需要存儲粗分辨率相似度矩陣并且只需要存儲相似度值的一行,與存儲高分辨率相似度矩陣并從高分辨率相似度矩陣中檢測重復模式相比,這減小了存儲器成本。圖2是圖示根據(jù)本發(fā)明實施例的用于在音頻幀序列中檢測重復模式的示例設(shè)備200的框圖。如圖2所示,設(shè)備200包括計算器201、估計器202和檢測器203。計算器201計算該序列的具有粗分辨率的相似度矩陣M1的相似度值s (t,I)。耜分辨率該序列包括若干音頻幀。音頻幀包括音頻樣本。相似度矩陣的偏移是以音頻幀為單位來度量的。相似度矩陣M2在偏移軸和/或時間軸上具有比相似度矩陣M1高的分辨率。在第一示例中,與相似度矩陣M2相比,相似度矩陣M1可以在時間軸中具有比相似度矩陣M2低的分辨率。在這種情況下,相似度矩陣M1可以具有逐段分辨率,而一個分段包括至少兩個音頻幀。在下文中,將始于音頻幀t的分段稱為分段t。每個分段都是音頻幀的序列,因此,可以采用各種用于計算音頻幀序列之間的相似度值的方法來計算分段之間的相似度值。作為一個計算分段t和t+Ι之間的相似度值s(t,I),I > O的示例,可計算分段t的音頻幀t+i和分段t+Ι的音頻幀t+1+i之間的相似度值sh(t+i,I),0 ( i ( W-I,其中W(例如W= 10)是以音頻幀為單位的分段的長度。可以將相似度值Sh(t+i,I)進行平均以作為相似度值S(t,I)。例如,可以將相似度值s(t,I)計算為
W-Is(tj) =^w(i)sh (t + i, I)⑴
/=O其中,w⑴為對應(yīng)的加權(quán)因子,它可以是均勻分布函數(shù)、高斯函數(shù)、三角函數(shù)或其它類型的函數(shù)。作為一個計算分段t和t+Ι之間的相似度值s (t,I),I > O的示例,可從分段t的幀t,. . .,t+ff-1獲得數(shù)目為N的子樣本\并從分段t+Ι的幀t+1,t+1+ff-l獲得數(shù)目為N的子樣本ti+Ι,即,& = g⑴,其中g(shù)()是下采樣函數(shù)。一個示例是,g(i) = t+i Xff/N,0^ i ^N-I0可替選地,g()也可以是非線性下采樣函數(shù)。在這種情況下,可計算分段t的音頻幀\和分段t+Ι的音頻幀\+1之間的相似度值sh(ti,I),0彡i彡N-1。可以將相似度值Sh (ti,I)進行平均以作為相似度值S (t,I)。例如,可以將相似度值s(t,I)計算為
權(quán)利要求
1.一種在音頻幀序列中檢測重復模式的方法,包括 計算該序列的第一相似度矩陣的相似度值,所述第一相似度矩陣具有第一分辨率;根據(jù)所述相似度值估計自適應(yīng)閾值,用于將所述相似度值分類為重復或非重復;以及針對具有高于所述第一分辨率的第二分辨率的第二相似度矩陣的一個或更多個偏移中的每一個, 計算所述第二相似度矩陣中與該偏移相對應(yīng)的相似度值; 利用所述自適應(yīng)閾值對計算出的相似度值進行分類,以獲得二值化數(shù)據(jù);以及 從所述二值化數(shù)據(jù)中檢測所述重復模式。
2.根據(jù)權(quán)利要求I所述的方法,其中,在以幀為單位的情況下,所述第一相似度矩陣的偏移是不連續(xù)的。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述第一相似度矩陣的偏移是取自集合O={1,. . .,L}的子樣本,其中L是以幀為單位的該序列的長度。
4.根據(jù)權(quán)利要求2或3所述的方法,其中,所述第一相似度矩陣和所述第二相似度矩陣中的至少一個的偏移軸具有逐段分辨率,并且與所述逐段分辨率相對應(yīng)的分段包括預定數(shù)目的音頻幀,并且 其中,針對始于音頻幀t和t+Ι的兩個分段之間的相似度值sa(t,I),I > O中的每一個,所述計算包括 針對從Ι-m至1+n的范圍中的每個偏移Ii,計算分別始于時間t和t+h的兩個分段之間的相似度值s (t, Ii), m, η彡O且m+n關(guān)O,以及 將相似度值s (t,Ii),1-m彡Ii彡1+n進行平均以作為相似度值sa(t, I)。
5.根據(jù)權(quán)利要求I或2所述的方法,其中,所述第一相似度矩陣和所述第二相似度矩陣中的至少一個的時間軸具有逐段分辨率,且與所述逐段分辨率相對應(yīng)的分段包括至少兩個音頻幀。
6.根據(jù)權(quán)利要求I所述的方法,其中,所述第一相似度矩陣的相似度值的所述計算包括 當計算所述相似度值中的每一個時,更新所述相似度值的統(tǒng)計信息,所述統(tǒng)計信息用于估計所述自適應(yīng)閾值,并且其中所述估計包括 基于所述統(tǒng)計信息,估計所述自適應(yīng)閾值。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述統(tǒng)計信息包括直方圖,所述直方圖用于累計落入各相似度值區(qū)間的每一個中的相似度值的數(shù)目。
8.根據(jù)權(quán)利要求I所述的方法,其中,所述第一相似度矩陣在時間軸上具有與所述第二相似度矩陣相同的分辨率,所述方法進一步包括 在緩沖器中存儲所述第一相似度矩陣中與所述第一相似度矩陣的各偏移中的至少一部分相對應(yīng)的相似度值,以及 其中所述第二相似度矩陣中與該偏移相對應(yīng)的相似度值的所述計算包括 確定所述第一相似度矩陣中與所述第二相似度矩陣中要計算的相似度值對應(yīng)于相同偏移的相似度值是否被存儲在所述緩沖器中;以及 如果所述第一相似度矩陣中對應(yīng)于所述相同偏移的相似度值被存儲在所述緩沖器中,則從所述緩沖器讀取所述第一相似度矩陣中對應(yīng)于所述相同偏移的相似度值,以作為所述第二相似度矩陣中要計算的相似度值。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述第一相似度矩陣的相似度值的所述計算包括 針對所述第一相似度矩陣的各偏移中的每一個,基于所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值,計算重要性得分,所述重要性得分用于評估檢測到與該偏移相對應(yīng)的重復模式的可能性; 將所述重要性得分與和該偏移相關(guān)聯(lián)的閾值進行比較;以及 如果所述重要性得分大于所述閾值,則將該偏移確定為重要偏移,以及 其中所述重要偏移被包括在所述各偏移的所述至少一部分中。
10.根據(jù)權(quán)利要求I所述的方法,其中,所述第一相似度矩陣的相似度值的所述計算包括 針對所述第一相似度矩陣的各偏移中的每一個,基于所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值,計算重要性得分,所述重要性得分用于評估檢測到與該偏移相對應(yīng)的重復模式的可能性; 將所述重要性得分與和該偏移相關(guān)聯(lián)的閾值進行比較;以及如果所述重要性得分大于所述閾值,則將該偏移確定為重要偏移,以及其中所述第二相似度矩陣的落入圍繞所述重要偏移的范圍內(nèi)的偏移被包括在所述一個或更多個偏移中。
11.根據(jù)權(quán)利要求9或10所述的方法,其中,所述重要性得分被計算為 所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值上的移動窗口中的最大平均值,所述計算出的相似度值是按照用于計算所述計算出的相似度值的幀的最小時間的順序來排列的,或者 所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值的平均值。
12.根據(jù)權(quán)利要求9或10所述的方法,其中,和該偏移相關(guān)聯(lián)的所述閾值被計算為與該偏移周圍預定數(shù)目的偏移相對應(yīng)的、計算出的重要性得分的平均值。
13.一種用于在音頻幀序列中檢測重復模式的設(shè)備,包括 計算器,其計算該序列的第一相似度矩陣的相似度值,所述第一相似度矩陣具有第一分辨率; 估計器,其根據(jù)所述相似度值估計自適應(yīng)閾值,用于將所述相似度值分類為重復或非重復;以及 檢測器,其針對具有高于所述第一分辨率的第二分辨率的第二相似度矩陣的一個或更多個偏移中的每一個, 計算所述第二相似度矩陣中與該偏移相對應(yīng)的相似度值; 利用所述自適應(yīng)閾值對計算出的相似度值進行分類,以獲得二值化數(shù)據(jù);以及 從所述二值化數(shù)據(jù)中檢測所述重復模式。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中,在以幀為單位的情況下,所述第一相似度矩陣的偏移是不連續(xù)的。
15.根據(jù)權(quán)利要求14所述的設(shè)備,其中,所述第一相似度矩陣的偏移是取自集合.0={1,. . .,L}的子樣本,其中L是以幀為單位的該序列的長度。
16.根據(jù)權(quán)利要求15所述的設(shè)備,其中,所述第一相似度矩陣和所述第二相似度矩陣中的至少一個的偏移軸具有逐段分辨率,并且與所述逐段分辨率相對應(yīng)的分段包括預定數(shù)目的音頻幀,并且 其中,針對始于音頻幀t和t+Ι的兩個分段之間的相似度值sa(t,I),I > O中的每一個,所述計算器被配置為 針對從Ι-m至1+n的范圍中的每個偏移Ii,計算分別始于時間t和t+h的兩個分段之間的相似度值s (t, Ii), m, η彡O且m+n關(guān)O,以及 將相似度值s (t,Ii),Ι-m彡Ii彡1+n進行平均以作為相似度值sa(t, I)。
17.根據(jù)權(quán)利要求13或14所述的設(shè)備,其中,所述第一相似度矩陣和所述第二相似度矩陣中的至少一個的時間軸具有逐段分辨率,且與所述逐段分辨率相對應(yīng)的分段包括至少兩個音頻幀。
18.根據(jù)權(quán)利要求13所述的設(shè)備,其中,所述計算器被配置為,當計算所述相似度值中的每一個時,更新所述相似度值的統(tǒng)計信息,所述統(tǒng)計信息用于估計所述自適應(yīng)閾值,并且 其中所述估計器被配置為基于所述統(tǒng)計信息估計所述自適應(yīng)閾值。
19.根據(jù)權(quán)利要求18所述的設(shè)備,其中,所述統(tǒng)計信息包括直方圖,所述直方圖用于累計落入各相似度值區(qū)間的每一個中的相似度值的數(shù)目。
20.根據(jù)權(quán)利要求13所述的設(shè)備,其中,所述第一相似度矩陣在時間軸上具有與所述第二相似度矩陣相同的分辨率,所述設(shè)備進一步包括 緩沖器,并且 所述計算器被配置為在所述緩沖器中存儲所述第一相似度矩陣中與所述第一相似度矩陣的各偏移中的至少一部分相對應(yīng)的相似度值,并且其中所述檢測器被配置為 確定所述第一相似度矩陣中與所述第二相似度矩陣中要計算的相似度值對應(yīng)于相同偏移的相似度值是否被存儲在所述緩沖器中;以及 如果所述第一相似度矩陣中對應(yīng)于所述相同偏移的相似度值被存儲在所述緩沖器中,則從所述緩沖器讀取所述第一相似度矩陣中對應(yīng)于所述相同偏移的相似度值,以作為所述第二相似度矩陣中要計算的相似度值。
21.根據(jù)權(quán)利要求20所述的設(shè)備,其中,所述計算器被進一步配置為 針對所述第一相似度矩陣的各偏移中的每一個,基于所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值,計算重要性得分,所述重要性得分用于評估檢測到與該偏移相對應(yīng)的重復模式的可能性; 將所述重要性得分與和該偏移相關(guān)聯(lián)的閾值進行比較;以及 如果所述重要性得分大于所述閾值,則將該偏移確定為重要偏移,以及 其中所述重要偏移被包括在所述各偏移的所述至少一部分中。
22.根據(jù)權(quán)利要求13所述的設(shè)備,其中,所述計算器被配置為 針對所述第一相似度矩陣的各偏移中的每一個,基于所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值,計算重要性得分,所述重要性得分用于評估檢測到與該偏移相對應(yīng)的重復模式的可能性;將所述重要性得分與和該偏移相關(guān)聯(lián)的閾值進行比較;以及如果所述重要性得分大于所述閾值,則將該偏移確定為重要偏移,以及其中所述第二相似度矩陣的落入圍繞所述重要偏移的范圍內(nèi)的偏移被包括在所述一個或更多個偏移中。
23.根據(jù)權(quán)利要求21或22所述的設(shè)備,其中,所述重要性得分被計算為 所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值上的移動窗口中的最大平均值,所述計算出的相似度值是按照用于計算所述計算出的相似度值的幀的最小時間的順序來排列的,或者 所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值的平均值。
24.根據(jù)權(quán)利要求21或22所述的設(shè)備,其中,所述計算器被進一步配置為,將和該偏移相關(guān)聯(lián)的所述閾值計算為與該偏移周圍預定數(shù)目的偏移相對應(yīng)的、計算出的重要性得分的平均值。
25.—種在音頻幀序列中檢測重復模式的方法,包括 計算該序列的第一相似度矩陣的相似度值,包括 針對所述第一相似度矩陣的各偏移中的每一個,基于所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值,計算重要性得分,所述重要性得分用于評估檢測到與該偏移相對應(yīng)的重復模式的可能性; 將所述重要性得分與和該偏移相關(guān)聯(lián)的閾值進行比較;以及 如果所述重要性得分大于所述閾值,則將該偏移確定為重要偏移;以及 在緩沖器中存儲所述第一相似度矩陣中與所述重要偏移相對應(yīng)的相似度值; 根據(jù)所述相似度值估計自適應(yīng)閾值,用于將所述相似度值分類為重復或非重復; 針對與所述第一相似度矩陣具有相同分辨率的第二相似度矩陣, 從所述緩沖器讀取所述第一相似度矩陣中對應(yīng)于所述重要偏移的相似度值,以作為所述第二相似度矩陣中要計算的相似度值; 利用所述自適應(yīng)閾值對讀取出的相似度值進行分類,以獲得二值化數(shù)據(jù);以及 從所述二值化數(shù)據(jù)中檢測所述重復模式。
26.—種在音頻幀序列中檢測重復模式的設(shè)備,包括 計算器,其計算該序列的第一相似度矩陣的相似度值,其中針對所述第一相似度矩陣的各偏移中的每一個,所述計算器 基于所述第一相似度矩陣中與該偏移相對應(yīng)的、計算出的相似度值,計算重要性得分,所述重要性得分用于評估檢測到與該偏移相對應(yīng)的重復模式的可能性; 將所述重要性得分與和該偏移相關(guān)聯(lián)的閾值進行比較;以及 如果所述重要性得分大于所述閾值,則將該偏移確定為重要偏移;以及 在緩沖器中存儲所述第一相似度矩陣中與所述重要偏移相對應(yīng)的相似度值; 估計器,其根據(jù)所述相似度值估計自適應(yīng)閾值,用于將所述相似度值分類為重復或非重復; 檢測器,其針對與所述第一相似度矩陣具有相同分辨率的第二相似度矩陣, 從所述緩沖器讀取所述第一相似度矩陣中對應(yīng)于所述重要偏移的相似度值,以作為所述第二相似度矩陣中要計算的相似度值;利用所述自適應(yīng)閾值對讀取出的相似度值進行分類,以獲得二值化數(shù)據(jù);以及從所述二值化數(shù)據(jù)中檢測所 述重復模式。
全文摘要
描述了用于在音頻幀序列中檢測重復模式的方法及設(shè)備。計算該序列的具有第一分辨率的第一相似度矩陣的相似度值。根據(jù)相似度值估計自適應(yīng)閾值,用于將相似度值分類為重復或非重復。針對第二相似度矩陣的一個或更多個偏移中的每一個,計算第二相似度矩陣中與該偏移相對應(yīng)的相似度值,其中第二相似度矩陣具有高于第一分辨率的第二分辨率。然后,利用自適應(yīng)閾值對計算出的相似度值進行分類,以獲得二值化數(shù)據(jù)。最后,從二值化數(shù)據(jù)中檢測重復模式。由于在重復模式檢測中存儲的數(shù)據(jù)更少,因此可以減小對存儲器的要求。
文檔編號G10L25/60GK102956238SQ201110243088
公開日2013年3月6日 申請日期2011年8月19日 優(yōu)先權(quán)日2011年8月19日
發(fā)明者蘆烈, 程斌 申請人:杜比實驗室特許公司