專利名稱:利用基于聽覺事件的表征比較音頻的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號。更具體地說,本發(fā)明涉及表征音頻信號,并利用表征(characterization)確定一個音頻信號是否來源于另一音頻信號,或者兩個音頻信號是否來源于相同的音頻信號。
背景技術(shù):
把聲音分成被感知為獨(dú)立的單元有時被稱為“聽覺事件分析”或“聽覺情景分析”(“ASA”)。Albert S.Bregman在他的著作Auditory Scene Analysis-The Perceptual Organization of Sound,Massachusetts Institute of Technology,1991,F(xiàn)ourth printing2001,Second MIT Press paperback edition中陳述了聽覺情景分析的大量論述。另外,Bhadkamkar等的美國專利6002776(1999年12月14日)把日期回溯到1976的出版物引用為“與借助聽覺情景分析的聲音分離相關(guān)的現(xiàn)有著作”。但是,Bhadkamkar等的專利不贊成聽覺情景分析的實(shí)際應(yīng)用,推定“雖然從科學(xué)觀點(diǎn)來看,作為人類聽覺處理的模型是有趣的,不過在獲得重要進(jìn)展之前,涉及聽覺情景分析的技術(shù)目前計算要求非常大,非常專業(yè)化,以致不能被認(rèn)為是實(shí)用的聲音分離技術(shù)”。
Bregman在一段中指出“當(dāng)聲音在音質(zhì)、音調(diào)、音量或者(在較小的程度上)空間位置方面突然變化時,我們聽到離散的單元?!?Auditory Scene Analysis-The Perceptual Organization of Sound,supra at page 469)。Bregman還討論了當(dāng)在頻率方面分離多個同時發(fā)生的聲音流時,所述多個同時聲音流的感知。
存在用于從音頻抽取特征或特點(diǎn)的多種不同方法。如果恰當(dāng)?shù)囟x了特點(diǎn)或特征,則可利用自動化過程完成特點(diǎn)或特征的抽取。例如“ISO/IEC JTC 1/SC 29/WG 11”(MPEG)目前正在使各種音頻描述符標(biāo)準(zhǔn)化,作為MPEG-7標(biāo)準(zhǔn)的一部分。這些方法的一個常見缺陷是它們忽略了ASA。這些方法試圖定期測量某些“傳統(tǒng)的”信號處理參數(shù),例如音調(diào)、振幅、功率、諧波結(jié)構(gòu)和頻譜平直度。這些參數(shù)雖然提供有用的信息,但是并不把音頻信號分析和表征成根據(jù)人類認(rèn)知獨(dú)立感知的元素。
聽覺情景分析試圖通過識別按照人類認(rèn)知獨(dú)立的元素,以和人類感知相似的方式表征音頻信號。通過研究這種方法,可實(shí)現(xiàn)準(zhǔn)確完成迄今為止需要人類幫助的任務(wù)的自動化過程。
獨(dú)立感知元素的識別允許利用比完整信號本身少得多的信息,唯一地識別音頻信號。例如,可采用基于聽覺事件的簡潔且唯一的識別確定復(fù)制自另一信號(或者復(fù)制自作為另一信號的相同原始信號)的信號。
發(fā)明內(nèi)容
描述了一種產(chǎn)生音頻信號的唯一的簡化信息表征(reduced-information characterization)的方法,所述簡化信息表征可用于識別所述音頻信號。所述表征可被看作音頻信息的“簽名”或“指紋”。根據(jù)本發(fā)明,執(zhí)行聽覺情景分析(ASA),以把聽覺事件識別為表征音頻信號的基礎(chǔ)。理想地,聽覺情景分析識別即使音頻經(jīng)過處理,例如低位速率編碼或者通過揚(yáng)聲器的聲傳輸,聽眾也能感知的聽覺事件。音頻信號可由聽覺事件的邊界位置表征,可選的是,還可由每個聽覺事件的主子頻段表征。所得到的信息模式構(gòu)成簡潔的音頻指紋或簽名,所述音頻指紋或簽名可和一個或多個其它這樣的音頻指紋或簽名比較。確定相應(yīng)簽名的至少一部分相同(按照所需的置信度)表明從其得到相應(yīng)簽名的音頻信號的相關(guān)部分相同,或者源于相同的音頻信號。
根據(jù)本發(fā)明聽覺情景分析方法通過根據(jù)聽覺事件信息,比較簽名,提供一種快速、準(zhǔn)確地比較兩個音頻信號(尤其是音樂)的方法。和傳統(tǒng)的抽取對察覺音頻信號之間相似性不太重要的特征(例如音調(diào)、振幅、功率和諧波結(jié)構(gòu))的特征抽取方法相反,ASA抽取成為相似性察覺的基礎(chǔ)的信息或特征。ASA的應(yīng)用提高了在已經(jīng)歷重要處理,例如低位速率編碼或通過揚(yáng)聲器的聲傳輸?shù)牟牧?material)中發(fā)現(xiàn)相似性的機(jī)會。
雖然實(shí)際上可在模擬或數(shù)字領(lǐng)域(或者它們的某一組合)內(nèi)實(shí)踐本發(fā)明,不過在本發(fā)明的實(shí)際實(shí)施例中,用數(shù)據(jù)的成組采樣表示音頻信號,并在數(shù)字領(lǐng)域中進(jìn)行處理。
參見圖1A,對音頻信號應(yīng)用聽覺情景分析2,以便產(chǎn)生和該信號相關(guān)的“簽名”或“指紋”。這種情況下,關(guān)心的音頻信號有兩個。它們可能是相似的,因?yàn)橐粋€音頻信號可能來源于另一音頻信號,或者這兩個音頻信號先前來源于相同的初始信號,但是事先并不知道這一點(diǎn)。從而,對這兩個信號應(yīng)用聽覺情景分析。為了簡化起見,圖1A只表示了對一個信號應(yīng)用ASA。如圖1B中所示,這兩個音頻信號的簽名,簽名1和簽名2被提供給產(chǎn)生相關(guān)性評分的相關(guān)器或相關(guān)子例程4。用戶可設(shè)置最小相關(guān)性評分,規(guī)定這兩個簽名的至少一部分相同的所需置信度。實(shí)際上,這兩個簽名可以是保存的數(shù)據(jù)。在一種實(shí)際應(yīng)用中,簽名之一可源于,例如音樂作品的擅自復(fù)制,另一簽名可以是數(shù)據(jù)庫中的大量簽名之一(每個簽名源于版權(quán)所有者的音樂作品),對照數(shù)據(jù)庫中的大量簽名,比較擅自復(fù)制的簽名,直到獲得按照所需置信度(如果有的話)的匹配。這可由機(jī)器自動實(shí)現(xiàn),其細(xì)節(jié)在本發(fā)明的范圍之外。
由于簽名代表音頻信號,但是要比簽名源于的音頻信號短得多(即,它們更簡潔或者具有較少的位),因此和確定兩個音頻信號之間的相似性相比,可更快速地確定兩個簽名之間的相似性(或者兩個簽名缺乏相似性)。
下面說明圖1A和1B的其它細(xì)節(jié)。
根據(jù)本發(fā)明的一方面,提供一種把音頻分成被感知為獨(dú)立的時間片斷或“聽覺事件”的高效計算方法。
感知的聽覺事件的起點(diǎn)和終點(diǎn)的有效指示符是頻譜內(nèi)容的改變。為了檢測音質(zhì)和音調(diào)(頻譜內(nèi)容)的變化,作為附屬結(jié)果,振幅方面的某些變化,根據(jù)本發(fā)明一方面的音頻事件檢測方法檢測頻譜成分相對于時間的變化。可選的是,根據(jù)本發(fā)明的另一方面,該方法還可檢測振幅相對于時間的變化,檢測頻譜成分相對于時間的變化檢測不出振幅相對于時間的變化。
在其計算要求最小的實(shí)現(xiàn)中,該方法通過分析音頻信號的整個頻段(全帶寬音頻)或者基本整個頻段(在實(shí)際實(shí)現(xiàn)中,通常采用在頻譜末端的限帶濾波),并向最響亮的音頻信號分量賦予最大權(quán)重,把音頻分成時間片斷。該方法利用了音質(zhì)現(xiàn)象,其中在較小的時標(biāo)(20毫秒及更小)下,耳朵會專注于指定時間的單一聽覺事件。這意味著雖然同一時間可能發(fā)生多個事件,但是一個分量會是知覺上最突出的,并且會被單獨(dú)處理,好象只發(fā)生該唯一事件一樣。利用該效果還允許聽覺事件檢測隨著被處理音頻的復(fù)雜性而縮放。例如,如果被處理的輸入音頻信號是獨(dú)奏曲,那么被識別的音頻事件可能是正在演奏的單個音符。類似地對于輸入的語音信號,語音的各個分量,例如元音和輔音可能被識別為單個的音頻元素。隨著音頻復(fù)雜性的增大,例如具有鼓聲或多種樂器及歌聲的音樂,聽覺事件檢測識別在任意指定時刻最突出(即最響亮的)音頻元素。另一方面,通過考慮到聽覺閾值和頻率響應(yīng),確定“最突出的”音頻元素。
可選的是,根據(jù)本發(fā)明的另一方面,以更大的計算復(fù)雜性為代價,該方法還可考慮離散頻段(固定的或動態(tài)確定的頻段,或者固定和動態(tài)確定的頻段)中,而不是整個帶寬中,頻譜成分相對于時間的變化。這種備選方法會考慮不同頻段中一個以上的音頻流,而不是假定在特定時間,只能感知單個音頻流。
甚至根據(jù)本發(fā)明一個方面的簡單、計算高效的音頻分割方法也可用于識別聽覺事件。
通過把時域音頻波形分成時間間隔或組,隨后利用濾波器組,或者時間-頻率變換,例如離散傅里葉變換(DFT((考慮到速度,實(shí)現(xiàn)為快速傅里葉變換(FFT)),把每組中的數(shù)據(jù)轉(zhuǎn)換到頻域,可實(shí)現(xiàn)本發(fā)明的聽覺事件檢測方法。每組的頻譜內(nèi)容的振幅被歸一化,以便消除或減小振幅變化的影響。得到的頻域表示提供特定組中的音頻的頻譜內(nèi)容(隨頻率變化的振幅)的指示。比較連續(xù)各組的頻譜內(nèi)容,獲得大于閾值的變化,以指示聽覺事件的時間起點(diǎn)或時間終點(diǎn)。
為了使計算復(fù)雜性降至最小,可以只處理時域音頻波形的單一頻帶,最好是頻譜的整個頻帶(就一般質(zhì)量的音樂系統(tǒng)來說,約為50Hz~15kHz)或者大體上是整個頻帶(例如,限帶濾波器可排除高頻或低頻極端)。
頻域數(shù)據(jù)最好被歸一化,如下所述。頻域數(shù)據(jù)需要被歸一化的程度給出振幅的指示。從而,如果該程度的變化超過預(yù)定的閾值,那么該變化也可被用于指示事件邊界。源于頻譜變化和源于振幅變化的事件起點(diǎn)和終點(diǎn)可進(jìn)行“或”運(yùn)算,從而識別源于這兩種變化的事件邊界。
在借助分成組的采樣表示音頻的實(shí)際實(shí)施例中,每個聽覺事件時間起點(diǎn)和終點(diǎn)必須與時域音頻波形分成的組的邊界相符。實(shí)時處理要求(因?yàn)檩^大的組需要較小的處理開銷)和事件位置的分辨率(較小的組提供更詳細(xì)的聽覺事件的位置信息)之間存在折衷。
作為另一種選擇,如上所述,代替處理單一頻帶中時域波形的頻譜內(nèi)容,在頻域轉(zhuǎn)換之前,時域波形的頻譜可被分成兩個或者更多的頻帶,其代價是計算復(fù)雜性較大。隨后把每個頻帶轉(zhuǎn)換到頻域,并如同其是獨(dú)立通道那樣進(jìn)行處理。隨后對得到的事件邊界進(jìn)行“或”運(yùn)算,以便確定該通道的事件邊界。多個頻帶可以是固定頻帶,自適應(yīng)頻帶,或者固定頻帶和自適應(yīng)頻帶的組合。例如,可采用音頻降噪和其它技術(shù)中采用的跟蹤濾波器技術(shù)確定自適應(yīng)頻段(例如,800Hz和2kHz下的同時主正弦波會導(dǎo)致兩個以這兩個頻率為中心的自適應(yīng)確定的頻段)。
本發(fā)明中,也可采用提供聽覺情景分析的其它技術(shù)來識別聽覺事件。
圖1A是表示根據(jù)本發(fā)明,從音頻信號抽取簽名的流程圖。音頻信號可代表,例如音樂(例如音樂作品或者“歌曲”)。
圖1B是圖解說明根據(jù)本發(fā)明,使兩個簽名相關(guān)的流程圖。
圖2是表示根據(jù)本發(fā)明,從音頻信號抽取音頻事件位置,以及可選地,從音頻信號抽取主要子頻段的流程圖。
圖3是描述根據(jù)本發(fā)明的頻譜分析步驟的示意原理圖。
圖4A和4B是根據(jù)本發(fā)明,表示多個音頻事件位置或事件邊界的理想化音頻波形。
圖5是根據(jù)本發(fā)明的圖2的相關(guān)性4,更詳細(xì)地表示使兩個簽名相關(guān)的流程圖。
圖6A-D是根據(jù)本發(fā)明,圖解說明簽名對準(zhǔn)的例子的信號的示意原理圖。圖6A-D未按比例繪制。在數(shù)字音頻信號由采樣表示的情況下,水平軸表示保存在每個簽名陣列中的離散數(shù)據(jù)的順序。
具體實(shí)施例方式
在本發(fā)明的實(shí)際實(shí)施例中,音頻信號由以512個采樣為一組(block)處理的采樣表示,在44.1kHz的采樣頻率下,512個采樣大約對應(yīng)于11.6毫秒的輸入音頻。時間小于可感知的最短聽覺事件(auditory event)的持續(xù)時間(約20毫秒)的組長度是合意的。本發(fā)明的各個方面顯然并不局限于這樣的實(shí)際實(shí)施例。本發(fā)明的原理不要求在確定音頻事件之前,把音頻排列成采樣組,如果音頻被排列成采樣組,也不要求提供恒定長度的采樣組。但是,為了使復(fù)雜性降至最小,出于三個主要原因,512個采樣的固定組長度(或者為2的其它冪的采樣數(shù))是有益的。首先,它為實(shí)時處理應(yīng)用提供可接受的足夠低的等待時間。其次,采樣數(shù)是2的冪,對于快速傅里葉變換(FFT)分析是有益的。第三,提供適當(dāng)大小的窗口大小,以完成有用的聽覺情景分析。
在下面的討論中,輸入信號被假定為振幅值在[-1,+1]范圍內(nèi)的數(shù)據(jù)。
聽覺情景分析2(圖1A)在音頻輸入數(shù)據(jù)分組(未示出)之后,在圖1A的過程2(“聽覺情景分析”)中,輸入音頻信號被分成聽覺事件,每個聽覺事件會感知為是獨(dú)立的。可借助上面討論的聽覺情景分析(ASA)過程完成聽覺情景分析。雖然下面更詳細(xì)地說明了實(shí)現(xiàn)聽覺情景分析的一種恰當(dāng)過程,不過也可采用用于完成ASA的其它有用技術(shù)。
圖2根據(jù)本發(fā)明的技術(shù)概述了可用作圖1A的聽覺情景分析過程的過程。ASA步驟或過程2由三個一般的處理子步驟構(gòu)成。第一子步驟2-1(“執(zhí)行頻譜分析”)獲得音頻信號,把音頻信號分成組,并計算每組的頻譜曲線(spectral profile)或頻譜內(nèi)容。頻譜分析把音頻信號變換到短期(short-term)頻域。這可利用任意過濾器組來實(shí)現(xiàn);基于變換或多組帶通濾波器,并且在線性頻率空間或者在卷曲(warped)的頻率空間(例如更接近于人耳特性的Bark標(biāo)度或臨界頻帶)中。對于任意濾波器組來說,存在時間和頻率之間的折衷。時間分辨率越高,從而時間間隔越短,導(dǎo)致頻率分辨率越低。頻率分辨率越高,從而子頻段越窄,導(dǎo)致時間間隔越長。
第一子步驟2-1計算音頻信號的連續(xù)時間片斷(segment)的頻譜內(nèi)容。在實(shí)際的實(shí)施例中,如下所述,ASA組大小為輸入音頻信號的512個采樣(圖3)。在第二子步驟2-2中,確定組之間頻譜內(nèi)容的差別(“執(zhí)行頻譜曲線差別測量”)。從而,第二子步驟計算音頻信號的連續(xù)時間片段之間頻譜內(nèi)容的差別。在第三子步驟2-3(“識別聽覺事件邊界的位置”)中,當(dāng)一個頻譜曲線組和下一頻譜曲線組之間的頻譜差別大于閾值時,組邊界被認(rèn)為是聽覺事件邊界。從而,當(dāng)連續(xù)時間片段之間的頻譜曲線內(nèi)容的差別超過閾值時,第三子步驟在這樣的連續(xù)時間片段之間設(shè)置聽覺事件邊界。如上所述,感知的聽覺事件的開始或結(jié)束的有效指示符被認(rèn)為是頻譜內(nèi)容方面的變化。事件邊界的位置被保存為簽名(signature)??蛇x的處理步驟2-4(“識別主要(dominant)子頻段”)使用頻譜分析識別也可保存為簽名一部分的主要子頻段。
本實(shí)施例中,聽覺事件邊界確定長度為頻譜曲線組的整數(shù)倍(最小長度為一個頻譜曲線組(本例中為512個采樣))的聽覺事件。原則上,事件邊界無需被這樣限制。
音頻的重疊或非重疊片斷都可被開窗(windowed),并被用于計算輸入音頻的頻譜曲線。重疊導(dǎo)致更好的聽覺事件的位置分辨率,并使得不容易錯過某一事件,例如瞬態(tài)(transient)。但是,隨著時間分辨率的提高,頻率分辨率降低。重疊還會增大計算復(fù)雜性。從而,可忽略重疊。圖3表示了正被開窗,并借助離散傅里葉變換(DFT)轉(zhuǎn)換到頻域的非重疊512采樣組的原理圖。每個采樣組可被開窗,并通過利用DFT(出于速度的考慮,最好實(shí)現(xiàn)為快速傅里葉變換(FFT)),被變換到頻域中。
下述變量可用于計算輸入組的頻譜曲線N=輸入信號中采樣的數(shù)目M=用于計算頻譜曲線的開窗采樣的數(shù)目P=頻譜計算重疊的采樣的數(shù)目Q=計算的頻譜窗口/區(qū)域的數(shù)目一般來說,上述變量可使用任意整數(shù)。但是,如果M被設(shè)置成等于2的冪,從而標(biāo)準(zhǔn)FFT可用于頻譜曲線計算,那么實(shí)現(xiàn)將更高效。在聽覺情景分析過程的實(shí)際實(shí)施例中,列舉的參數(shù)可被設(shè)置為M=512個采樣(或者在44.1kHz下為11.6毫秒)P=0采樣(無重疊)上面列舉的數(shù)值是根據(jù)實(shí)驗(yàn)確定的,并且通常發(fā)現(xiàn)能以足夠的精度確定聽覺事件的位置和持續(xù)時間。但是,已發(fā)現(xiàn)把P的值設(shè)置為256個采樣(50%重疊)有助于識別某些難以發(fā)現(xiàn)的事件。雖然許多不同類型的窗口可被用于使起因于開窗的頻譜非自然信號(artifact)降至最小,不過頻譜曲線計算中使用的窗口是M-pointHanning(漢寧),Kaiser-Bessel或者其它適宜的窗口,最好是非矩形窗口。在大量的實(shí)驗(yàn)分析之后,選擇了上面指出的數(shù)值和Hanning窗口,因?yàn)樗鼈円驯蛔C明可在大量的音頻材料范圍內(nèi),提供極好的結(jié)果。對于低頻率內(nèi)容占主要的音頻信號的處理來說,優(yōu)選非矩形開窗。矩形開窗產(chǎn)生頻譜非自然信號,會導(dǎo)致事件的不正確檢測。和整體重疊/相加過程必須提供恒定電平的某些編譯碼器應(yīng)用不同,這種約束條件不適用于此,可關(guān)于特征,例如其時間/頻率分辨率和帶阻(stop-band rejection)選擇窗口。
在子步驟2-1(圖2)中,通過利用M-point Hanning,Kaiser-Bessel或者其它適宜的窗口對數(shù)據(jù)開窗,利用M-point快速傅里葉變換轉(zhuǎn)換成頻域,并計算FFT系數(shù)的量值,可計算每個M-采樣組的頻譜。所得到的數(shù)據(jù)被歸一化,從而最大的量值被置為1,M個數(shù)字的歸一化陣列被轉(zhuǎn)換到對數(shù)(log)域。該陣列不必被轉(zhuǎn)換到對數(shù)域,但是該轉(zhuǎn)換簡化了子步驟2-2中差別量度的計算。此外,對數(shù)域更緊密地和人類聽覺系統(tǒng)的對數(shù)域振幅本質(zhì)相符。得到的對數(shù)域數(shù)值的范圍為-∞到零。在實(shí)際的實(shí)施例中,可對該范圍的數(shù)值施加一個下限;該下限可以是固定的,例如-60dB,或者可和頻率相關(guān),以便反映低頻率和甚高頻下靜寂聲音的較低可聽度。(注意也可把陣列的大小減小到M/2,因?yàn)镕FT代表負(fù)頻率以及正頻率)。
子步驟2-2計算相鄰組的頻譜之間的差別的量度。對于每組,從前一組的對應(yīng)系數(shù)減去步驟2-1得到的M(對數(shù))頻譜系數(shù)中的每一個系數(shù),并計算差別的量值(忽略符號)。隨后把這M個差值加和成一個數(shù)字。從而,對于整個音頻信號,結(jié)果是一組Q個正數(shù);數(shù)字越大,采樣組和前一采樣組在頻譜方面的差別越大。通過把差別量度(measure)除以求和中使用的頻譜系數(shù)的數(shù)目(這種情況下,M個系數(shù)),也可用每個頻譜系數(shù)的平均差別表示該差別量度。
子步驟2-3通過對子步驟2-2的具有閾值的該組差別量度應(yīng)用閾值,確定聽覺事件邊界的位置。當(dāng)差別量度超過閾值時,認(rèn)為頻譜方面的變化足以表示新的事件,該變化的組編號(number)被記錄為事件邊界。對于上面給出的M和P的數(shù)值,以及對于以dB為單位表示的對數(shù)域數(shù)值(子步驟2-1中),如果比較整個量值FFT(包括鏡像部分),那么閾值可被設(shè)置為2500,如果比較1/2FFT(如上所述,F(xiàn)FT代表負(fù)頻率及正頻率-對于FFT的量值來說,一個量值是另一量值的鏡像),則閾值可被置為1250。根據(jù)實(shí)驗(yàn)選擇該數(shù)值,該數(shù)值提供良好的聽覺事件邊界檢測??筛淖冊搮?shù)值,以便減少(增大閾值)或者增加(降低閾值)事件的檢測。該實(shí)際實(shí)施例的細(xì)節(jié)并不重要。也可采用其它方式計算音頻信號的連續(xù)時間片斷的頻譜內(nèi)容,計算連續(xù)時間片斷之間的差別,并當(dāng)這種連續(xù)時間片斷之間頻譜曲線內(nèi)容的差別超過閾值時,在連續(xù)時間片斷之間的相應(yīng)邊界設(shè)置聽覺事件邊界。
對于由Q組(每組M個采樣)構(gòu)成的音頻信號,圖1A的子例程(function)2的聽覺情景分析過程的輸出是表示聽覺事件邊界的位置的信息陣列B(q),q=0,1,…,Q-1。對于M=512采樣的組大小,P=0采樣的重疊以及44.1kHz的信號采樣速率來說,聽覺情景分析子例程2每秒大約輸出86個數(shù)值。陣列B(q)最好被保存為簽名,從而就其基本形式來說(無可選的主要子頻段頻率信息),音頻信號的簽名是代表一串聽覺事件邊界的陣列B(q)。
圖4A和4B中表示了兩種不同信號的聽覺情景分析的結(jié)果的例子。上面的曲線圖(圖4A)表示聽覺情景處理的結(jié)果,在采樣1024和1536確定了聽覺事件邊界。下面的曲線圖(圖4B)表示了在采樣1024、2048和3072的事件邊界的識別。
識別主要的子頻段(可選)對于每個組,ASA處理(圖2中所示)中的可選附加步驟是從音頻信號抽取指示該組的主頻率“子頻段”的信息(每組中的數(shù)據(jù)向頻域的轉(zhuǎn)換導(dǎo)致分離到頻率子頻段中的信息)?;诮M的信息可被轉(zhuǎn)換成基于聽覺事件的信息,從而關(guān)于每個聽覺事件識別主要的子頻段。除了聽覺事件邊界信息之外,每個聽覺事件的該信息還為相關(guān)性處理(下面說明)提供另外的信息。
可從位于人耳最敏感的頻率范圍或頻帶內(nèi)的多個子頻段,例如3個或4個子頻段,選擇主要的(最大振幅)子頻段。另一方面,可使用其它標(biāo)準(zhǔn)來選擇子頻段。例如,頻譜可被分成三個子頻段。子頻段的優(yōu)選頻率范圍是子頻段1 301Hz~560Hz子頻段2 560Hz~1938Hz子頻段3 1938Hz~9948Hz為了確定主要的子頻段,為每個子頻段計算量值頻譜(或者功率量值頻譜)的平方和。計算每個子頻段的最終和數(shù),并選擇最大的和數(shù)。在選擇最大的和數(shù)之前,子頻段也可被加權(quán)。加權(quán)可采取把每個子頻段的和數(shù)除以該子頻段中頻譜數(shù)值的數(shù)目的形式,或者可采取加法或乘法的形式,以強(qiáng)調(diào)某一頻段和另一頻段相比的重要性。在一些子頻段平均具有比其它子頻段更多的能量,但是在感知上不太重要的情況下,這是有用的。
考慮由Q組構(gòu)成的音頻信號,主子頻段處理的輸出是代表每組中的主子頻段的信息陣列DS(q)(q=0,1,…Q-1)。陣列DS(q)最好和陣列B(q)一起保存在簽名中。從而,借助可選的主子頻段信息,音頻信號的簽名是兩個陣列B(q)和DS(q),分別代表一串聽覺事件邊界和每組內(nèi)的主頻率子頻段。從而,在理想化的例子中,這兩個陣列可具有下述數(shù)值(對于存在三個可能的主子頻段的情況)。
1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0(事件邊界)1 1 2 2 2 2 1 1 1 3 3 3 3 3 3 1 1(主子頻段)多數(shù)情況下,主子頻段在每個聽覺事件內(nèi)保持相同,如本例中所示,或者如果對于事件內(nèi)的所有組來說,它是不均勻的,則具有平均值。從而,可為每個聽覺事件確定一個主子頻段,陣列DS(q)可被修改,以保證相同的主子頻段被分配給事件內(nèi)的每組。
相關(guān)性借助相關(guān)子例程或過程,可確定一個簽名是否和另一保存的簽名相同或者相似。相關(guān)子例程或過程比較兩個簽名,確定它們的相似性。如這可分兩步完成,圖5中所示步驟5-1消除或者使時間漂移或延遲對簽名的影響降至最小,之后的步驟5-2計算簽名間相似性的量度。
首先提及的步驟5-1使兩個簽名之間的任意延遲的影響降至最小。這種延遲可能被故意加到音頻信號上,或者可以是信號處理和/或低位速率音頻編碼的結(jié)果。該步驟的輸出是呈適合于計算它們相似性量度的形式的兩個已修改簽名。
其次提及的步驟5-2比較修改后的兩個簽名,找出它們相似性的定量量度(相關(guān)性評分)。隨后可對照閾值,比較相似性的量度,以確定在所需的置信度下,簽名是相同還是不同。說明了兩種適宜的相關(guān)過程或子例程。這兩種相關(guān)子例程或過程中的任意一種或者其它某一適宜的相關(guān)過程或子例程可用作本發(fā)明的一部分。
第一相關(guān)過程或子例程時間延遲影響的消除該相關(guān)子例程或過程從每個簽名中分離出單一區(qū)域或部分,從而這兩個區(qū)域是相應(yīng)簽名中最相似的部分,并且具有相同的長度。隔離區(qū)域可以是兩個簽名之間的全部重疊區(qū)域,如圖6A-D中的例子中所示,或者隔離區(qū)域可以小于重疊區(qū)域。
優(yōu)選方法使用兩個簽名的整個重疊區(qū)域。圖6中表示了一些例子。兩個簽名的重疊區(qū)域可以是由一個簽名的尾部和另一簽名的頭部構(gòu)成的部分(圖6B和6C)。如果簽名之一小于另一簽名,則這兩個簽名之間的重疊區(qū)域可以是較小簽名的全部和較大簽名的一部分(圖6A和6D)。
從兩個數(shù)據(jù)陣列中分離出公共區(qū)域的不同方法有許多種。標(biāo)準(zhǔn)的數(shù)學(xué)方法涉及使用互相關(guān)查找數(shù)據(jù)陣列之間的時滯(lag)或延遲量度。當(dāng)兩個數(shù)據(jù)陣列中每個數(shù)據(jù)陣列的起點(diǎn)被對準(zhǔn)時,認(rèn)為時滯或延遲為0。當(dāng)兩個數(shù)據(jù)陣列中每個數(shù)據(jù)陣列的起點(diǎn)未被對準(zhǔn)時,時滯或延遲不為0。互相關(guān)計算兩個數(shù)據(jù)陣列之間各個可能的時滯或延遲的量度該量度被保存為陣列(互相關(guān)子例程的輸出)。代表互相關(guān)陣列中峰值的時滯或延遲被認(rèn)為是一個數(shù)據(jù)陣列相對于另一數(shù)據(jù)陣列的時滯或延遲。下面的段落以數(shù)學(xué)方式表示了這種相關(guān)方法。
假定S1(長度N1)是來自簽名1的陣列,S2(長度N2)是來自簽名2的陣列。首先計算互相關(guān)陣列RE1E2(例如,參見John G.Proakis,Dimitris G.Manolakis,Digital Signal ProcessingPrinciples,Algorithms,and Applications,Macmillan PublishingCompany,1992,ISBN 0-02-396815-X)。
RE1E2(l)=Σn=-∞∞S1(n).S2(n-l)----l=0,±1,±2,...----(1)]]>最好利用基于標(biāo)準(zhǔn)FFT的技術(shù)執(zhí)行互相關(guān),以減少執(zhí)行時間。
由于S1和S2被限制范圍,因此RE1E2的長度為N1+N2-1。假定S1和S2相似,對應(yīng)于RE1E2中的最大元素的時滯l代表S2相對于S1的延遲。
對于MAX(RE1E2(l)),lpeak=l (2)由于該時滯代表延遲,簽名S1和S2的公共空間區(qū)域或者空間重疊部分被記為S1′和S2′;分別具有相同的長度N12。
表述為等式,簽名S1和S2的重疊部分S1′和S2′被定義為 S1′和S2′的長度為 第一相關(guān)過程或子例程相似性量度該步驟比較這兩個簽名,找出它們相似性的定量量度。優(yōu)選的方法使用相關(guān)系數(shù)(等式5)。這是一種標(biāo)準(zhǔn)的教課書方法(William Mendenhall,Dennis D.Wackerly,Richard L.Scheaffer,Mathematical Statistics with ApplicationsForth Edition,Duxbury Press,1990,ISBN 0-534-92026-8)。
ρ=Cov(S1′,S2′)σ1σ2----(5)]]>這里σ1和σ2分別是S1′和S2′的標(biāo)準(zhǔn)偏差。
S1′和S2′的協(xié)方差被定義為Cov(S1′,S2′)=Σm=0N12-1(S1′(m)-μ1)(S2′(m)-μ2)N12----(6)]]>這里μ1和μ2分別是S1′和S2′的平均值(means)。
相關(guān)系數(shù),ρ,在-1≤ρ≤1的范圍內(nèi),這里-1和1表示理想相關(guān)。最好,對該量度的絕對值應(yīng)用一個閾值,以便指示正確的匹配。
實(shí)際上,可調(diào)整閾值的數(shù)值(根據(jù)一組大量的訓(xùn)練簽名),以確保可接受的錯誤否定和(rejection)檢測率。
對于具有較大失調(diào)(misalignment)或者延遲的簽名,以及對于其中一個簽名的長度顯著小于另一簽名的長度的簽名,優(yōu)選第一相關(guān)過程或子例程。
第二相關(guān)過程或子例程時間延遲影響的消除第二相關(guān)過程或子例程把簽名從它們的當(dāng)前時域變換到和時間延遲影響無關(guān)的域。該方法導(dǎo)致具有相同長度的兩個修改簽名,從而可使它們直接相關(guān)或者被比較。
按照這種方式變換數(shù)據(jù)的方式有許多種。優(yōu)選的方法使用離散傅里葉變換(DFT)。信號的DFT可被分離成幅度和相位。信號的空間漂移或時間延遲(DFT的輸入)改變DFT的相位,但是不改變幅度。從而,信號的DFT的幅度可被認(rèn)為是信號的非時變表示。
DFT的這種特性允許這兩個簽名中的每個簽名被變換成非時變表示。如果兩個簽名具有相同的長度,則可直接為每個簽名計算幅度DFT,結(jié)果被保存為修改的簽名。如果每個簽名的長度不同,則在計算DFT之前,或者可把較長的簽名截短,以便具有和較短的簽名相同的長度,或者較短的簽名可被補(bǔ)零或延伸,以便具有和較長簽名相同的長度。下面的段落以數(shù)學(xué)形式表示了該方法。
假定S1(長度N1)是來自簽名1的陣列,S2(長度N2)是來自簽名2的陣列。首先,較長的簽名被截短,或者較長的簽名被補(bǔ)零,從而這兩個簽名具有相同的長度N12。通過如下進(jìn)行幅度DFT,產(chǎn)生變換后的簽名陣列S1′和S2′S1′(k)=|Σn=0N12-1S1(n).e-j2πkn/N12|----k=0,1,2,...,N12-1----(8)]]>S2′(k)=|Σn=0N12-1S2(n).e-j2πkn/N12|----k=0,1,2,...,N12-1----(9)]]>實(shí)際上,對于每個簽名,在計算DFT之前,最好減去其平均數(shù)。在進(jìn)行離散傅里葉變換之前,也可對S1和S2簽名應(yīng)用某一開窗,但是,實(shí)際上沒有發(fā)現(xiàn)任何特殊的開窗產(chǎn)生最佳結(jié)果。
第二相關(guān)過程或子例程相似性量度該相似性量度步驟比較這兩個簽名,以便查找它們的相似性的定量量度。優(yōu)選的方法使用相關(guān)系數(shù)(等式9)。這是一種標(biāo)準(zhǔn)的教課書方法(William Mendenhall,Dennis D.Wackerly,Richard L.Scheaffer,Mathematical Statistics with ApplicationsForth Edition,Duxbury Press,1990,ISBN 0-534-92026-8)。
ρ=Cov(S1′,S2′)σ1σ2----(9)]]>這里σ1和σ2分別是S1′和S2′的標(biāo)準(zhǔn)偏差。
S1′和S2′的協(xié)方差被定義為Cov(S1′,S2′)=Σk=0N12-1(S1′(k)-μ1)(S2′(k)-μ2)N12----(10)]]>這里μ1和μ2分別是S1′和S2′的平均值。
相關(guān)系數(shù),ρ,在-1≤ρ≤1的范圍內(nèi),這里-1和1表示理想相關(guān)。最好,對該量度的絕對值應(yīng)用一個閾值,以便指示正確的匹配。
實(shí)際上,可調(diào)整閾值的數(shù)值(根據(jù)一組大量的訓(xùn)練簽名),以確保可接受的錯誤否定和檢測率。
在實(shí)際應(yīng)用中,許多簽名可保存在一起,形成代表“已知的”音頻內(nèi)容的簽名庫。這種情況下,通過計算平均簽名,并分別從比較中的兩個簽名減去該平均簽名,可提高區(qū)別簽名的能力。
例如,在已知包含W個簽名S0′~SW-1′的數(shù)據(jù)庫的情況下,如下計算平均簽名。
SMEAN′(k)=1WΣw=0W-1Sw′(k)----k=0,1,2,...,N12-1----(12)]]>當(dāng)比較兩個簽名時(即使簽名之一不在簽名庫中),在計算協(xié)方差(隨后用在相關(guān)系數(shù)中)之前,從兩個簽名中減去平均簽名。協(xié)方差變成Cov(S1′,S2′)=Σk=0N12-1[(S1′(k)-SMEAN′(k))-μ1].[(S2′(k)-SMEAN′(k)μ2)]N12----(13)]]>這里μ1和μ2分別是S1′-SMEAN′和S2′-SMEAN′的平均值。
對于具有較小失調(diào)或延遲的簽名,以及對于簽名的長度相似的簽名,優(yōu)選第二相關(guān)過程或子例程。它還顯著快于第一相關(guān)過程或子例程。但是,由于不可避免地丟失一些信息(通過丟棄DFT的階段(phase)),它導(dǎo)致準(zhǔn)確性稍差的相似性量度。
應(yīng)用如前簡要所述,本發(fā)明的應(yīng)用能夠搜索音頻數(shù)據(jù)庫;例如錄音公司的曲庫??蔀閹熘械乃懈枨a(chǎn)生簽名,簽名保存在數(shù)據(jù)庫中。本發(fā)明提供獲得未知出處的歌曲,計算其簽名,并對照數(shù)據(jù)庫中的所有簽名,比較其簽名,從而確定該未知歌曲的身份的手段。
實(shí)際上,相似性量度的準(zhǔn)確性(或者置信度)正比于被比較的簽名的大小。簽名的長度越大,則比較中使用的數(shù)據(jù)的量越大,從而相似性量度的置信度或準(zhǔn)確性越大。已發(fā)現(xiàn)根據(jù)大約30秒的音頻產(chǎn)生的簽名提供良好的辨別力。但是,簽名越大,進(jìn)行比較所需的時間越長。
結(jié)論應(yīng)明白對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明的其它變化和修改的實(shí)現(xiàn)及本發(fā)明的各個方面是顯而易見的,本發(fā)明不受描述的這些具體實(shí)施例限制。于是,本發(fā)明意圖覆蓋落入這里公開和要求的基本原理的精神和范圍內(nèi)的任意修改、變化或等同物。
本發(fā)明及其各個方面可實(shí)現(xiàn)為在數(shù)字信號處理器,程控通用數(shù)字計算機(jī)和/或?qū)S脭?shù)字計算機(jī)中執(zhí)行的軟件子例程??捎眠m當(dāng)?shù)挠布?或作為軟件和/或固件中的子例程,實(shí)現(xiàn)模擬和數(shù)字信號流之間的接口。
權(quán)利要求
1.一種確定一個音頻信號是否源于另一音頻信號,或者兩個音頻信號是否源于相同音頻信號的方法,包括比較所述音頻信號的簡化信息表征,其中所述簡化信息表征以音頻情景分析為基礎(chǔ)。
2.按照權(quán)利要求1所述的方法,其中所述比較包括從表征中消除時間漂移或延遲對音頻信號的影響,或者使表征中時間漂移或延遲對音頻信號的影響降至最小,計算相似性的量度,和對照閾值,比較相似性的量度。
3.按照權(quán)利要求2所述的方法,其中所述消除識別每個所述表征中的一部分,從而各部分是各表征中的最相似部分,并且各部分具有相同長度。
4.按照權(quán)利要求3所述的方法,其中所述消除通過執(zhí)行互相關(guān),識別每個所述表征中的一部分。
5.按照權(quán)利要求4所述的方法,其中所述計算通過計算每個所述表征中識別部分的相關(guān)系數(shù),計算相似性的量度。
6.按照權(quán)利要求2所述的方法,其中所述消除把表征變換到和時間延遲影響無關(guān)的域中。
7.按照權(quán)利要求6所述的方法,其中所述消除把表征變換到頻域中。
8.按照權(quán)利要求7所述的方法,其中所述計算通過計算每個所述表征中識別部分的相關(guān)系數(shù),計算相似性的量度。
9.按照權(quán)利要求1-8任一所述的方法,其中所述表征之一是來自代表已知音頻內(nèi)容的表征庫的表征。
10.按照權(quán)利要求9所述的方法,還包括在所述消除之后、所述比較之前,從兩個表征中減去所述庫中表征的平均值。
11.按照權(quán)利要求1-10任一所述的方法,其中基于聽覺情景分析的所述簡化信息表征是至少代表聽覺事件邊界的位置的多組信息。
12.按照權(quán)利要求11所述的方法,其中確定所述聽覺事件邊界的步驟包括計算所述音頻信號的連續(xù)時間片斷的頻譜內(nèi)容,計算所述音頻信號的連續(xù)時間片斷之間頻譜內(nèi)容的差別,和當(dāng)連續(xù)時間片斷之間頻譜內(nèi)容的差別超過閾值時,把聽覺事件邊界識別為所述連續(xù)時間片斷之間的邊界。
13.按照權(quán)利要求12或13所述的方法,其中所述多組信息還代表每個所述聽覺事件的主子頻段。
全文摘要
用于確定一個音頻信號是否源于另一音頻信號,或者兩個音頻信號是否源于相同音頻信號的方法比較所述音頻信號的簡化信息表征,其中所述簡化信息表征以音頻情景分析為基礎(chǔ)。所述比較從表征中消除時間漂移或延遲對音頻信號的影響,或者使表征中,時間漂移或延遲對音頻信號的影響降至最小(5-1),計算相似性的量度(5-2),和對照閾值,比較相似性的量度。在一種備選方案中,通過使兩個表征互相關(guān),消除時間漂移或延遲的影響或者使之降至最小。在另一種備選方案中,通過把表征變換到和時間延遲影響無關(guān)的域中,例如頻域中,消除時間漂移或延遲的影響或者使之降至最小。在這兩種情況下,通過計算相關(guān)系數(shù),計算相似性的量度。
文檔編號H04N5/04GK1620684SQ02810670
公開日2005年5月25日 申請日期2002年2月22日 優(yōu)先權(quán)日2001年5月25日
發(fā)明者布萊特·G.·克羅克特, 邁克爾·J.·史密斯?fàn)査?申請人:多爾拜實(shí)驗(yàn)特許公司