專利名稱:音頻信號分類方法和系統(tǒng)的制作方法
發(fā)明領(lǐng)域本發(fā)明總體涉及一種識別音頻輸入信號、尤其是音樂軌道的系統(tǒng)和方法,本發(fā)明還涉及一種用于分類音頻輸入信號、尤其是音樂軌道的音頻處理設(shè)備。
發(fā)明背景作為廣播技術(shù)、傳輸帶寬和互聯(lián)網(wǎng)發(fā)展的結(jié)果,并且由于消費存儲設(shè)備的不斷提高的容量,如今的消費者可以使用數(shù)量快速增大的多媒體內(nèi)容。超過10,000個軌道的音樂集合也不例外。隨著多媒體內(nèi)容數(shù)量的所述增大,帶來了對內(nèi)容自動過濾、處理和存儲的需要。從這種大音樂數(shù)據(jù)庫中組織和選擇音樂是非常困難的并且很消耗時間。該問題可以部分地通過包含元數(shù)據(jù)來解決,所述元數(shù)據(jù)可以被理解成以某種方式附著在實際音頻數(shù)據(jù)文件上的附加信息標(biāo)簽。元數(shù)據(jù)有時由服務(wù)提供商提供,但是為了可以使用這些服務(wù),消費者通常需要在線連接到該服務(wù)提供商,該服務(wù)提供商多半會對消費者所取回的數(shù)據(jù)收費。因此,從外部服務(wù)提供商取回元數(shù)據(jù)對于消費者來說并不總是具有吸引力的。
當(dāng)前的自動音頻分類技術(shù)主要依賴于從音頻中提取的相關(guān)特征,可以基于這些相關(guān)特征進行分析。例如,WO01/20483 A2描述了一種在數(shù)據(jù)庫中搜索與第一段音樂相似的第二段音樂的方法。這里,該數(shù)據(jù)庫由歌曲集合組成,每首歌曲與某種具有參數(shù)形式的元數(shù)據(jù)相關(guān)聯(lián)。參數(shù)在第一段音樂中被識別并且被分析,以便在數(shù)據(jù)庫中定位一組匹配的參數(shù)。該方法被限于定位與第一段音樂相似的第二段音樂,因此對那些不太希望聽到完全相同的歌曲的用戶來說僅僅具有非常有限的興趣。
最近的研究顯示,人們的音樂偏好與當(dāng)他們在10到20歲時流行的音樂相符。這就表示許多人偏好來自特定年代(例如80年代)的音樂。找到來自特定時期的歌曲或者找到聽起來像是來自那個年代的歌曲是很困難的。并不是集合中的所有歌曲都可以有表明歌曲的發(fā)行日期的元數(shù)據(jù),這尤其是因為元數(shù)據(jù)的使用是最近剛發(fā)展起來的,因此較老的集合將不具有該元數(shù)據(jù)。
發(fā)明目的和概要因此,本發(fā)明的一個目的是提供一種方法和系統(tǒng),其可以用來簡單地識別音頻片段的發(fā)行日期,而不需要使用元數(shù)據(jù)。
為此,本發(fā)明提供一種根據(jù)音頻輸入信號的發(fā)行日期來分類音頻輸入信號的方法,該方法包括以下步驟提取音頻輸入信號的至少一個特征;基于該至少一個特征為輸入音頻信號導(dǎo)出特征矢量;以及確定該輸入音頻信號的特征矢量落入多個類別當(dāng)中的任何一個之內(nèi)的概率,其中每個類別對應(yīng)于特定的發(fā)行日期信息。這里的“音頻輸入信號”是可以來自音頻數(shù)據(jù)文件、音樂軌道、聲軌、MP3音樂文件等等的信號。該音頻輸入信號也可以是(例如來自麥克風(fēng)的)模擬信號,其優(yōu)選地(但并不是必須)被轉(zhuǎn)換成數(shù)字形式以便進行進一步的數(shù)字信號處理。音頻信號的一個短的選段對于使用本發(fā)明的方法來估計其發(fā)行日期就足夠了。
根據(jù)上述方法的用于分類音頻輸入信號的發(fā)行日期的適當(dāng)系統(tǒng)包括以下裝置用于提取音頻輸入信號的至少一個特征的特征提取單元;用于基于該至少一個特征為輸入音頻信號導(dǎo)出特征矢量的導(dǎo)出單元;以及概率確定單元,其用于確定該輸入音頻信號的特征矢量落入多個類別當(dāng)中的任何一個之內(nèi)的概率,其中每個類別對應(yīng)于特定的發(fā)行日期信息。
所述方法和系統(tǒng)因此提供了一種自動估計音頻輸入信號的發(fā)行日期的簡單方式。由此,“發(fā)行日期”一詞意圖表示特定的歷年,其也可以表示一個時期,諸如“70年代早期”或“1998年前后”,或者表示任何其他時間點(例如特定的日期)。例如,發(fā)行日期可以是發(fā)行年,其被定義為一年,在其之前和之后可能有一段持續(xù)時間,從而定義了一定程度的不確定性,該音頻信號很有可能在這之間發(fā)行。對于特定的音頻信號,包含(framing)所識別的發(fā)行時期的時間跨距的總長度可以被解釋為精確度的度量,即可以確定該音頻信號的日期的精確度。因此,包含所識別的年份的相對較短的時間跨距將表示該相應(yīng)的音頻信號可以被確信地假設(shè)為來自所識別的發(fā)行時期,而較長的時間跨距將允許所提出的音頻信號的產(chǎn)生日期具有一定程度的不確定性。
通過本發(fā)明的適當(dāng)應(yīng)用,甚至可以在實際發(fā)行日期和感覺的發(fā)行日期之間做出區(qū)分。實際的發(fā)行日期就是該特定歌曲被發(fā)行的真實年份,而感覺的發(fā)行日期則是大多數(shù)聽眾在聽到該歌曲時所聯(lián)想到的年份。實際的發(fā)行日期信息對于翻唱版本和原唱版本是不同的,可以基于所提取的特征正確地估計出實際的發(fā)行日期信息。如果翻唱版本非常類似于原唱版本(也就是說翻唱版本在流派特征、風(fēng)格等方面與原唱版本沒有顯著不同)但是很久以后才被發(fā)行,那么如果期望的話,該翻唱版本可以用感覺的發(fā)行日期來分類。
獨立權(quán)利要求
和以下的描述公開了本發(fā)明的特別有利的實施例和特征。
所述“特征”是音頻輸入信號的描述性特征,諸如信號帶寬、信號能量、頻譜跌落頻率、頻譜質(zhì)心等等。在提取所述特征之前,所述音頻信號通常被轉(zhuǎn)換成數(shù)字形式。然后,例如可以從音頻樣本的重疊幀計算所述特征。對所提取的特征執(zhí)行進一步的處理,比如計算功率譜、歸一化該功率譜以及計算在多個不同能量帶上的能量,以便給出多個附加特征。最后,從整個特征組中產(chǎn)生一個特征選集,以便給出對應(yīng)于該音頻輸入信號的特征矢量。
因此,從所述輸入音頻信號中導(dǎo)出的該特征矢量可以被用于分類音頻信號。為此,對該特征矢量執(zhí)行分析,以便確定該特征矢量落入多個可能類別當(dāng)中的任何一個之內(nèi)的概率,其中每個類別對應(yīng)于特定的發(fā)行日期信息。所述類別可以由點簇來圖形地表示,每個點由一個特征矢量表示。所述點簇可以被理解成被安排在n維特征空間中,其中n對應(yīng)于被用來計算每個特征矢量的特征的數(shù)量。每個簇是基于之前為來自一個音頻信號集合的各音頻信號計算的特征矢量而建立的,該音頻信號集合代表關(guān)于某個發(fā)行日期的音頻信號分類。為了確保分類的高成功率,該音頻信號集合優(yōu)選地包括分布在所有期望的發(fā)行日期類別上的足夠大數(shù)量的音頻信號。
在本發(fā)明的一個優(yōu)選實施例中,代表特定發(fā)行日期信息的類別(或者其相應(yīng)的簇)可以用從先前計算的與該發(fā)行日期信息相關(guān)聯(lián)的特征矢量集合中導(dǎo)出的模型來描述。這種模型可以例如是高斯多變量模型,其中的每個類別具有其自身的均值矢量及其自身的協(xié)方差矩陣。為了確保最佳可能的分類結(jié)果,該模型空間的維數(shù)被保持得盡可能低,同時選擇給出在所得到的模型的各類別和各簇之間的最佳可能區(qū)分的特征。已知的特征分級(ranking)和維數(shù)縮減的方法可以被應(yīng)用來產(chǎn)生最佳的特征組以供使用。該特征組被用來基于音頻信號的集合而建立所述類別模型,并且隨后被用來利用該模型為將被分類的任何輸入音頻信號計算特征矢量。
多種已知的方法可用于計算音頻輸入信號的特征矢量落入特定類別(即對特征矢量進行分類)的概率。
在本發(fā)明的一個優(yōu)選實施例中采用了判別分析的方法。利用該分析方法,基于每個類別的平均值和協(xié)方差矩陣,可以使用例如Bayes規(guī)則對特征矢量進行分類以便確定特定類別包含該特征矢量的概率,并且采用先前為每個類別計算的概率密度。如果所述協(xié)方差矩陣在各類別上不同,那么所述判別函數(shù)就是二次的,從而所述判決邊界在特征空間中形成二次曲面。該方法在這種情況下被稱為二次判別分析。如果所述方差矩陣在各類別上是恒定的,那么所述判決邊界在特征空間中形成線性曲面,并且該分析方法被稱作線性判別分析。
使用這些分析方法,就可以“定位”特征矢量在特征空間中的位置,這樣可以確定與其最緊密相關(guān)的類別。如果該特征矢量明顯地趨向位于與特定發(fā)行日期相關(guān)聯(lián)的特定類別的中心,則可以假設(shè)相關(guān)聯(lián)的音頻輸入信號在相應(yīng)的日期(諸如“1970”)被發(fā)行。但是,如果該特征矢量更趨向位于該簇的邊緣或邊界,那么包含該發(fā)行日期的時間跨距就反映了不精確性。例如,對應(yīng)于音頻輸入信號的發(fā)行日期或發(fā)行年份可以分別被報告為“1970±2”。
特征的選擇對于分類方法的成功可能具有很大的影響。因此,在本發(fā)明的一個特別優(yōu)選的實施例中,被用于分類音頻輸入信號的特征矢量包括音頻輸入信號的聽覺濾波器時間包絡(luò)調(diào)制特征和/或心理聲學(xué)特征。
聽覺濾波器時間包絡(luò)(AFTE)調(diào)制特征可以通過使用多個特定類型的濾波器(其被稱作伽馬音調(diào)濾波器,其頻譜形狀類似于人類聽覺系統(tǒng)的頻率分辨率)對輸入音頻信號進行濾波而獲得。對濾波后的信號執(zhí)行進一步的處理,以便給出一組AFTE特征。該AFTE特征組的一個有力的屬性在于,其允許標(biāo)識波形頻譜和包絡(luò)頻譜的那些包含相關(guān)信息的部分,以用于分類的目的。使用標(biāo)準(zhǔn)高斯框架來進行分類,結(jié)果顯示,所述特征的時間行為對于自動音頻分類來說是很重要的。此外,如果基于來自聽覺感覺的模型的特征而不是基于標(biāo)準(zhǔn)特征,那么平均而言分類更好。
心理聲學(xué)特征是基于對粗糙度、銳度、響度等等的感覺。粗糙度是對在大約20-150Hz的范圍內(nèi)的時間包絡(luò)調(diào)制的感覺,并且對于70Hz附近的調(diào)制表現(xiàn)出最大值。響度是對強度的感覺,銳度是與高頻能量的頻譜密度和相對強度相關(guān)的感覺。這些特征在發(fā)行年份分類中尤為有用,因為已經(jīng)觀察到對應(yīng)于記錄和混合設(shè)備的發(fā)展,音樂生產(chǎn)的某些質(zhì)量多年來發(fā)生了改變,并且這些質(zhì)量部分地由心理聲學(xué)特征反映。例如,音樂的響度多年來穩(wěn)定地提高,從而在確定音樂片段的起源日期時,使用響度可以產(chǎn)生良好的效果。
這就允許這里所描述的系統(tǒng)被用于實際的和所感覺的發(fā)行日期分類。如上所述,音樂片段可以被感覺為源自特定時間,即便其產(chǎn)生和發(fā)行時間是在很久之后??梢允褂蒙鲜龇椒▉碜R別實際的發(fā)行日期。
優(yōu)選地,通過反復(fù)地調(diào)節(jié)一些特征(諸如響度等等)并且執(zhí)行分類處理,也可以容易地識別感覺的發(fā)行日期。所述調(diào)節(jié)可以涉及對于各特征適配加權(quán)系數(shù)或者某種類似程序。例如,如果從響度等導(dǎo)出的特征被調(diào)節(jié)成反應(yīng)70年代的典型水平,那么即使Abba樂曲的翻唱版本或者意欲拷貝Abba風(fēng)格的音樂片段是在90年代發(fā)行的,也仍然可以被正確地識別為70年代。另一方面,本發(fā)明可以識別表現(xiàn)出過去流派的典型特征的音樂片段的正確發(fā)行日期,即使它是在很久以后發(fā)行的。
本發(fā)明可以用于多種音頻處理應(yīng)用。例如,在一個優(yōu)選實施例中,如上所述的用于估計音頻輸入信號的發(fā)行年份的分類系統(tǒng)可以被合并到一個音頻處理設(shè)備中,該音頻處理設(shè)備用于根據(jù)特定發(fā)行年份-日期來選擇音頻樣本。該音頻處理設(shè)備可以包括用于根據(jù)發(fā)行日期從數(shù)據(jù)庫中選擇一個或多個音樂數(shù)據(jù)文件的音樂查詢系統(tǒng)。該音頻處理設(shè)備可以解釋用戶輸入,以便在估計發(fā)行日期之前確定將要對于從音樂數(shù)據(jù)文件中提取的音頻信號的特征所執(zhí)行的任何處理步驟。例如,該設(shè)備的用戶可以輸入?yún)?shù),所述參數(shù)指定應(yīng)當(dāng)基于其實際發(fā)行日期來選擇音樂片段,還是基于感覺的發(fā)行日期來選擇音樂片段。按照這種方式,用戶可以容易地建立來自一個或多個流派、來自特定的十年或時間跨距的音樂的集合,或者他可以更愿意指定特定類型的音樂,諸如60年代類型的搖滾樂,而不管其實際的發(fā)行年份。一旦對于特定的音樂片段進行了估計之后,該音頻處理設(shè)備可以在本地或外部數(shù)據(jù)庫中存儲所述實際的和/或感覺的發(fā)行日期信息,以備將來使用。
所述音頻處理設(shè)備的另一個實施例包括自動DJ設(shè)備,其用于根據(jù)所期望的序列從音樂數(shù)據(jù)庫中選擇音樂片段。這種自動DJ設(shè)備可以是錄音室、電臺或電視臺、迪斯科舞廳等場所中的專業(yè)設(shè)備,或者可以被合并入PC、家庭娛樂設(shè)備、PDA、移動電話等等。該自動DJ設(shè)備可以包括用于播放所選擇的音樂片段的音頻輸出端,或者其可以連接到單獨的播放音樂的裝置。該自動DJ設(shè)備的特征在于其可以具有連接到遠(yuǎn)程音樂數(shù)據(jù)庫(例如在因特網(wǎng)中)或者本地音樂數(shù)據(jù)庫(例如家庭娛樂設(shè)備中的MP3文件列表)的裝置。用戶可以指定例如60年代風(fēng)格的搖滾樂,其后是一個不同的流派(諸如70年代風(fēng)格的迪斯科)。該自動DJ設(shè)備在實際的和感覺的發(fā)行日期信息的音樂數(shù)據(jù)庫中搜索指定流派的音樂,并且按照所期望的順序來編輯所述音樂片段的列表。
根據(jù)本發(fā)明的分類系統(tǒng)可以被非常經(jīng)濟地實現(xiàn)為計算機程序。用于確定音樂輸入信號的模糊度的度量的所有組件(例如濾波器組、諧振器濾波器組、能量相加單元、分級單元、節(jié)奏方案編輯器等等)可以被實現(xiàn)為計算機程序模塊的形式。任何所需要的軟件或算法可以在硬件設(shè)備的處理器上進行編碼,從而現(xiàn)有的硬件設(shè)備可以被適配成從本發(fā)明的特征中獲益。替換地,用于確定音樂輸入信號的模糊度的度量的組件同樣可以至少部分地利用硬件模塊來實現(xiàn),從而本發(fā)明可以被應(yīng)用于數(shù)字和/或模擬音樂輸入信號。
在本發(fā)明的一個實施例中,所述音樂數(shù)據(jù)庫可以處于與先前利用上述方法編輯的相關(guān)發(fā)行日期信息列表分開的存儲設(shè)備中,或者二者可以都被存儲在相同的設(shè)備上,例如被存儲在個人計算機、CD或DVD等上。該音樂數(shù)據(jù)庫可以被存儲在一個位置上,或者可以分布在幾個設(shè)備上,例如分布在音樂CD集合中。在本發(fā)明的一個優(yōu)選實施例中,所述音樂數(shù)據(jù)庫和對應(yīng)于該音樂數(shù)據(jù)庫的各單元的發(fā)行日期信息以這樣的方式被存儲只需要最小的努力就能夠首先取回對應(yīng)于特定音樂片段的發(fā)行日期信息。
本發(fā)明的其他目的和特征將通過參考附圖以及下面的詳細(xì)說明而變得更加清楚。但是,應(yīng)當(dāng)理解,附圖僅僅用于說明而不是限制本發(fā)明。
附圖簡述圖1是根據(jù)本發(fā)明一個實施例的用于確定音樂片段的發(fā)行年份的系統(tǒng)的示意框圖。
圖2是在二維特征矢量空間中的多個類別的圖形表示。
實施例描述在圖1中,音頻輸入信號1(在本例中是來自音樂數(shù)據(jù)文件、音樂軌道、MP3文件等等的數(shù)字音樂輸入信號1)被輸入到分類系統(tǒng)4。
在特征提取單元5中,從音頻輸入信號樣本的10個743ms的幀中提取特征2。所述樣本優(yōu)選地是從趨向于軌道或音樂數(shù)據(jù)文件的中間的位置處獲得的,這是因為音樂軌道的開頭和結(jié)尾聽起來常常與主體部分有所不同。
在接下來的導(dǎo)出單元6中,為輸入音頻信號1的10個幀當(dāng)中的每一個的特征2計算一個特征矢量3。
然后在概率確定單元7中對每個特征矢量3進行分類處理,其中執(zhí)行分析步驟以便確定特征矢量3落入多個可能類別中的一個特定類別之內(nèi)的概率。
因此,分類系統(tǒng)4可以訪問包含所述分類處理所需的信息的數(shù)據(jù)庫9。通過例如讓兩個收聽者聽大量歌曲然后根據(jù)預(yù)定義的類別列表(C1,C2,...,Cn)獨立地對它們進行分類來建立和訓(xùn)練數(shù)據(jù)庫9,每個類別對應(yīng)于特定的發(fā)行日期信息,諸如“1966-1970”、“1970-1974”等等。每個歌曲或軌道將用一個分?jǐn)?shù)進行評級,該分?jǐn)?shù)表示該歌曲或軌道與其類別(C1,C2,...,Cn)的對應(yīng)程度。從這些歌曲中識別出一個精簡集合,該精簡集合包括滿足以下標(biāo)準(zhǔn)的所有軌道●由兩個收聽者識別的類別(C1,C2,...,Cn)對于該軌道是相同的;●每個軌道的評級或分?jǐn)?shù)大于預(yù)定義的最小值;●來自每個藝術(shù)家或唱片的最大軌道數(shù)量是2。
以類似于計算輸入信號的特征矢量的方式為所述精簡集合的每一個軌道計算特征矢量。使用這些特征矢量以及由用戶提供的分類信息,可以構(gòu)建一個代表所述類別(C1,C2,...,Cn)的模型。該信息被存儲在數(shù)據(jù)庫9中,以便在所述分類處理中使用。在導(dǎo)出用于訓(xùn)練數(shù)據(jù)庫的特征矢量的過程中所涉及的處理步驟與之后用于從輸入音頻信號1中導(dǎo)出特征矢量以便進行分類的處理步驟相同。
在完成所述分類處理之后,分類系統(tǒng)4以適當(dāng)?shù)姆绞綀蟾娼Y(jié)果8,比如輸出到顯示器,這沒有在圖中顯示。所述輸出可以是“軌道ABC發(fā)行年份1990±2”的形式,其表示被標(biāo)識為“ABC”的軌道最有可能是在1990年發(fā)行的,但是必須考慮2年的不確定性因素。
圖2顯示了由二維特征矢量空間中的簇表示的多個類別(C1,C2)的圖形表示。通常來說,特征矢量的數(shù)量和矢量空間的維數(shù)將高很多,但是這很難在二維空間表示中顯示。因此,為了簡明起見,該圖被限制到由兩個特征f1和f2建立的二維特征空間。
為了說明的目的,假設(shè)分類系統(tǒng)4被用來分類2個音樂軌道“X”和“Y”。進一步假設(shè)分類系統(tǒng)4可以分類到兩個類別1或2的其中之一,其中類別C1表示70年代早期(“1970-1974”)的音樂,而C2表示70年代后期(“1975-1979”)的音樂。如上所述,計算音樂軌道“X”和“Y”的特征矢量Fx、Fy,概率導(dǎo)出單元7現(xiàn)在繼續(xù)定位這兩個特征矢量Fx、Fy所最可能屬于的類別。因為Fx明顯位于類別C1內(nèi),因此該概率確定單元可以確信地得出這樣的結(jié)論音樂軌道“X”源自由類別C1表示的時間跨距的中間,于是報告“1972±1”作為該音樂軌道的分類結(jié)果。另一方面,F(xiàn)y位于類別C1和C2之間,但是比起C2更接近于C1。因此,概率確定單元7得出這樣的結(jié)論已經(jīng)為之計算出這些特征矢量的該音樂軌道源自這些類別之間的某個時間,于是報告估計的發(fā)行年份“1974±4”,這表示該軌道最有可能在1974年前后發(fā)行,但是估計可能在1974年的最多4年前或4年后發(fā)行。該不確定性是特征矢量Fx、Fy與類別C1、C2的質(zhì)心之間的距離的一個度量。
當(dāng)對為輸入信號1計算的特征矢量3進行分類時,概率確定單元7在某些情況下可以得出這樣的結(jié)論如果一些特征2被修改,則可以獲得更好的分類結(jié)果。利用適當(dāng)?shù)男盘?0,概率確定單元7把必要的修改通知給特征提取單元5。在執(zhí)行所述修改之后,特征提取單元5把最新計算的特征2轉(zhuǎn)發(fā)到導(dǎo)出單元6,從而可以使用新的特征矢量3再次執(zhí)行所述分類處理??梢灾貜?fù)該迭代處理,直到概率確定單元7得出結(jié)果8是令人滿意的結(jié)論。
雖然已經(jīng)以優(yōu)選實施例及其變型的形式描述了本發(fā)明,但是應(yīng)當(dāng)理解,可以在不偏離本發(fā)明范圍的情況下做出許多附加的修改和變化。例如,可以使用所述方法來確定任何音頻(比如無線電廣播、電影聲軌等等)的時間。此外,本發(fā)明不限于使用上述的分析方法,而是可以采用任何適當(dāng)?shù)姆治龇椒ā?br>為了清楚起見,還應(yīng)當(dāng)理解,在本申請中使用的“一個”并不排除多個,“包括”一詞并不排除其他步驟或元件?!皢卧笨梢园ǘ鄠€塊或設(shè)備,除非其被明確地描述為單個實體。
權(quán)利要求
1.一種分類音頻輸入信號(1)的方法,該方法包括以下步驟-提取該音頻輸入信號(1)的至少一個特征(2);-基于該至少一個所提取的特征(2)為該輸入音頻信號(1)導(dǎo)出特征矢量(3);-確定該輸入音頻信號(1)的特征矢量(3)落入多個類別(C1,C2,....,Cn)當(dāng)中的任何一個之內(nèi)的概率,其中每個類別對應(yīng)于特定的發(fā)行日期信息。
2.根據(jù)權(quán)利要求
1的方法,其中,表示特定發(fā)行日期信息的類別(C1,C2,...,Cn)是基于先前為來自音頻信號集合中的各音頻信號計算的各特征矢量而定義的,所述特征矢量與該發(fā)行日期信息相關(guān)聯(lián)。
3.根據(jù)權(quán)利要求
2的方法,其中,表示特定發(fā)行日期信息的類別(C1,C2,...,Cn)是由從先前計算的與該發(fā)行日期信息相關(guān)聯(lián)的特征矢量的集合中導(dǎo)出的模型來描述的。
4.根據(jù)之前任何一個權(quán)利要求
的方法,其中,確定所述輸入音頻信號(1)的所述特征矢量(3)落入特定類別(C1,C2,...,Cn)之內(nèi)的概率包括對于該特征矢量(3)執(zhí)行判別分析的步驟。
5.根據(jù)權(quán)利要求
1的方法,其中,所述特征矢量(3)包括-所述音頻輸入信號(1)的心理聲學(xué)特征(2);以及/或者-描述該音頻輸入信號(1)的時間包絡(luò)的聽覺模型表示的特征(2)。
6.根據(jù)權(quán)利要求
1和權(quán)利要求
2的方法,其中,提取特征(2)包括計算每個特征(2)的功率譜,歸一化該功率譜,以及計算在多個不同能量帶上的能量。
7.根據(jù)之前任何一個權(quán)利要求
的方法,其中,所述輸入音頻信號(1)的所述特征(2)在所述分類處理期間被反復(fù)調(diào)節(jié),以便獲得對應(yīng)于該輸入音頻信號(1)的最佳分類的特征矢量(3)。
8.一種用于分類音頻輸入信號(1)的系統(tǒng)(4),所述分類系統(tǒng)包括以下裝置-特征提取單元(5),其用于提取該音頻輸入信號(1)的至少一個特征(2);-導(dǎo)出單元(6),其用于基于該至少一個所提取的特征(2)為該輸入音頻信號(1)導(dǎo)出特征矢量(3);-概率確定單元(7),其用于確定該輸入音頻信號(1)的該特征矢量(3)落入多個類別(C1,C2,...,Cn)中的任何一個之內(nèi)的概率,其中每個類別對應(yīng)于特定的發(fā)行日期信息。
9.一種用于根據(jù)特定發(fā)行日期選擇音頻項目的音頻處理設(shè)備,其包括根據(jù)權(quán)利要求
8的分類系統(tǒng)。
10.一種根據(jù)權(quán)利要求
9的音頻處理設(shè)備,其包括自動DJ設(shè)備以用于根據(jù)用戶定義的發(fā)行日期信息的序列從音樂數(shù)據(jù)庫中選擇音樂片段,從而實現(xiàn)根據(jù)實際的或感覺的發(fā)行日期的音樂分組。
11.一種可直接加載到可編程音頻處理設(shè)備的存儲器中的計算機程序產(chǎn)品,其包括各軟件代碼部分,當(dāng)所述程序在該音頻處理設(shè)備上運行時,所述軟件代碼部分用于執(zhí)行根據(jù)權(quán)利要求
1到7的方法的步驟。
專利摘要
本發(fā)明描述了一種分類音頻輸入信號(1)的方法,該方法包括以下步驟提取該音頻輸入信號(1)的至少一個特征(2);基于該至少一個所提取的特征(2)為該輸入音頻信號(1)導(dǎo)出特征矢量(3);以及確定該輸入音頻信號(1)的該特征矢量(3)落入多個類別(C1,C2,...,Cn)中的任何一個之內(nèi)的概率,其中每個類別對應(yīng)于特定的發(fā)行日期信息。
文檔編號G10L25/48GK1998044SQ200580013638
公開日2007年7月11日 申請日期2005年4月21日
發(fā)明者D·布里巴特, M·麥克金尼 申請人:皇家飛利浦電子股份有限公司導(dǎo)出引文BiBTeX, EndNote, RefMan