国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      音頻信號(hào)分類方法和系統(tǒng)的制作方法

      文檔序號(hào):2829017閱讀:238來(lái)源:國(guó)知局
      專利名稱:音頻信號(hào)分類方法和系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明總體涉及一種識(shí)別音頻輸入信號(hào)、尤其是音樂(lè)軌道的系統(tǒng)和方法,本發(fā)明還涉及一種用于分類音頻輸入信號(hào)、尤其是音樂(lè)軌道的音頻處理設(shè)備。
      背景技術(shù)
      作為廣播技術(shù)、傳輸帶寬和互聯(lián)網(wǎng)發(fā)展的結(jié)果,并且由于消費(fèi)存儲(chǔ)設(shè)備的不斷提高的容量,如今的消費(fèi)者可以使用數(shù)量快速增大的多媒體內(nèi)容。超過(guò)10,000個(gè)軌道的音樂(lè)集合也不例外。隨著多媒體內(nèi)容數(shù)量的所述增大,帶來(lái)了對(duì)內(nèi)容自動(dòng)過(guò)濾、處理和存儲(chǔ)的需要。從這種大音樂(lè)數(shù)據(jù)庫(kù)中組織和選擇音樂(lè)是非常困難的并且很消耗時(shí)間。該問(wèn)題可以部分地通過(guò)包含元數(shù)據(jù)來(lái)解決,所述元數(shù)據(jù)可以被理解成以某種方式附著在實(shí)際音頻數(shù)據(jù)文件上的附加信息標(biāo)簽。元數(shù)據(jù)有時(shí)由服務(wù)提供商提供,但是為了可以使用這些服務(wù),消費(fèi)者通常需要在線連接到該服務(wù)提供商,該服務(wù)提供商多半會(huì)對(duì)消費(fèi)者所取回的數(shù)據(jù)收費(fèi)。因此,從外部服務(wù)提供商取回元數(shù)據(jù)對(duì)于消費(fèi)者來(lái)說(shuō)并不總是具有吸引力的。
      當(dāng)前的自動(dòng)音頻分類技術(shù)主要依賴于從音頻中提取的相關(guān)特征,可以基于這些相關(guān)特征進(jìn)行分析。例如,WO01/20483 A2描述了一種在數(shù)據(jù)庫(kù)中搜索與第一段音樂(lè)相似的第二段音樂(lè)的方法。這里,該數(shù)據(jù)庫(kù)由歌曲集合組成,每首歌曲與某種具有參數(shù)形式的元數(shù)據(jù)相關(guān)聯(lián)。參數(shù)在第一段音樂(lè)中被識(shí)別并且被分析,以便在數(shù)據(jù)庫(kù)中定位一組匹配的參數(shù)。該方法被限于定位與第一段音樂(lè)相似的第二段音樂(lè),因此對(duì)那些不太希望聽(tīng)到完全相同的歌曲的用戶來(lái)說(shuō)僅僅具有非常有限的興趣。
      最近的研究顯示,人們的音樂(lè)偏好與當(dāng)他們?cè)?0到20歲時(shí)流行的音樂(lè)相符。這就表示許多人偏好來(lái)自特定年代(例如80年代)的音樂(lè)。找到來(lái)自特定時(shí)期的歌曲或者找到聽(tīng)起來(lái)像是來(lái)自那個(gè)年代的歌曲是很困難的。并不是集合中的所有歌曲都可以有表明歌曲的發(fā)行日期的元數(shù)據(jù),這尤其是因?yàn)樵獢?shù)據(jù)的使用是最近剛發(fā)展起來(lái)的,因此較老的集合將不具有該元數(shù)據(jù)。
      發(fā)明目的和概要因此,本發(fā)明的一個(gè)目的是提供一種方法和系統(tǒng),其可以用來(lái)簡(jiǎn)單地識(shí)別音頻片段的發(fā)行日期,而不需要使用元數(shù)據(jù)。
      為此,本發(fā)明提供一種根據(jù)音頻輸入信號(hào)的發(fā)行日期來(lái)分類音頻輸入信號(hào)的方法,該方法包括以下步驟提取音頻輸入信號(hào)的至少一個(gè)特征;基于該至少一個(gè)特征為輸入音頻信號(hào)導(dǎo)出特征矢量;以及確定該輸入音頻信號(hào)的特征矢量落入多個(gè)類別當(dāng)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。這里的“音頻輸入信號(hào)”是可以來(lái)自音頻數(shù)據(jù)文件、音樂(lè)軌道、聲軌、MP3音樂(lè)文件等等的信號(hào)。該音頻輸入信號(hào)也可以是(例如來(lái)自麥克風(fēng)的)模擬信號(hào),其優(yōu)選地(但并不是必須)被轉(zhuǎn)換成數(shù)字形式以便進(jìn)行進(jìn)一步的數(shù)字信號(hào)處理。音頻信號(hào)的一個(gè)短的選段對(duì)于使用本發(fā)明的方法來(lái)估計(jì)其發(fā)行日期就足夠了。
      根據(jù)上述方法的用于分類音頻輸入信號(hào)的發(fā)行日期的適當(dāng)系統(tǒng)包括以下裝置用于提取音頻輸入信號(hào)的至少一個(gè)特征的特征提取單元;用于基于該至少一個(gè)特征為輸入音頻信號(hào)導(dǎo)出特征矢量的導(dǎo)出單元;以及概率確定單元,其用于確定該輸入音頻信號(hào)的特征矢量落入多個(gè)類別當(dāng)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。
      所述方法和系統(tǒng)因此提供了一種自動(dòng)估計(jì)音頻輸入信號(hào)的發(fā)行日期的簡(jiǎn)單方式。由此,“發(fā)行日期”一詞意圖表示特定的歷年,其也可以表示一個(gè)時(shí)期,諸如“70年代早期”或“1998年前后”,或者表示任何其他時(shí)間點(diǎn)(例如特定的日期)。例如,發(fā)行日期可以是發(fā)行年,其被定義為一年,在其之前和之后可能有一段持續(xù)時(shí)間,從而定義了一定程度的不確定性,該音頻信號(hào)很有可能在這之間發(fā)行。對(duì)于特定的音頻信號(hào),包含(framing)所識(shí)別的發(fā)行時(shí)期的時(shí)間跨距的總長(zhǎng)度可以被解釋為精確度的度量,即可以確定該音頻信號(hào)的日期的精確度。因此,包含所識(shí)別的年份的相對(duì)較短的時(shí)間跨距將表示該相應(yīng)的音頻信號(hào)可以被確信地假設(shè)為來(lái)自所識(shí)別的發(fā)行時(shí)期,而較長(zhǎng)的時(shí)間跨距將允許所提出的音頻信號(hào)的產(chǎn)生日期具有一定程度的不確定性。
      通過(guò)本發(fā)明的適當(dāng)應(yīng)用,甚至可以在實(shí)際發(fā)行日期和感覺(jué)的發(fā)行日期之間做出區(qū)分。實(shí)際的發(fā)行日期就是該特定歌曲被發(fā)行的真實(shí)年份,而感覺(jué)的發(fā)行日期則是大多數(shù)聽(tīng)眾在聽(tīng)到該歌曲時(shí)所聯(lián)想到的年份。實(shí)際的發(fā)行日期信息對(duì)于翻唱版本和原唱版本是不同的,可以基于所提取的特征正確地估計(jì)出實(shí)際的發(fā)行日期信息。如果翻唱版本非常類似于原唱版本(也就是說(shuō)翻唱版本在流派特征、風(fēng)格等方面與原唱版本沒(méi)有顯著不同)但是很久以后才被發(fā)行,那么如果期望的話,該翻唱版本可以用感覺(jué)的發(fā)行日期來(lái)分類。
      獨(dú)立權(quán)利要求和以下的描述公開(kāi)了本發(fā)明的特別有利的實(shí)施例和特征。
      所述“特征”是音頻輸入信號(hào)的描述性特征,諸如信號(hào)帶寬、信號(hào)能量、頻譜跌落頻率、頻譜質(zhì)心等等。在提取所述特征之前,所述音頻信號(hào)通常被轉(zhuǎn)換成數(shù)字形式。然后,例如可以從音頻樣本的重疊幀計(jì)算所述特征。對(duì)所提取的特征執(zhí)行進(jìn)一步的處理,比如計(jì)算功率譜、歸一化該功率譜以及計(jì)算在多個(gè)不同能量帶上的能量,以便給出多個(gè)附加特征。最后,從整個(gè)特征組中產(chǎn)生一個(gè)特征選集,以便給出對(duì)應(yīng)于該音頻輸入信號(hào)的特征矢量。
      因此,從所述輸入音頻信號(hào)中導(dǎo)出的該特征矢量可以被用于分類音頻信號(hào)。為此,對(duì)該特征矢量執(zhí)行分析,以便確定該特征矢量落入多個(gè)可能類別當(dāng)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。所述類別可以由點(diǎn)簇來(lái)圖形地表示,每個(gè)點(diǎn)由一個(gè)特征矢量表示。所述點(diǎn)簇可以被理解成被安排在n維特征空間中,其中n對(duì)應(yīng)于被用來(lái)計(jì)算每個(gè)特征矢量的特征的數(shù)量。每個(gè)簇是基于之前為來(lái)自一個(gè)音頻信號(hào)集合的各音頻信號(hào)計(jì)算的特征矢量而建立的,該音頻信號(hào)集合代表關(guān)于某個(gè)發(fā)行日期的音頻信號(hào)分類。為了確保分類的高成功率,該音頻信號(hào)集合優(yōu)選地包括分布在所有期望的發(fā)行日期類別上的足夠大數(shù)量的音頻信號(hào)。
      在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,代表特定發(fā)行日期信息的類別(或者其相應(yīng)的簇)可以用從先前計(jì)算的與該發(fā)行日期信息相關(guān)聯(lián)的特征矢量集合中導(dǎo)出的模型來(lái)描述。這種模型可以例如是高斯多變量模型,其中的每個(gè)類別具有其自身的均值矢量及其自身的協(xié)方差矩陣。為了確保最佳可能的分類結(jié)果,該模型空間的維數(shù)被保持得盡可能低,同時(shí)選擇給出在所得到的模型的各類別和各簇之間的最佳可能區(qū)分的特征。已知的特征分級(jí)(ranking)和維數(shù)縮減的方法可以被應(yīng)用來(lái)產(chǎn)生最佳的特征組以供使用。該特征組被用來(lái)基于音頻信號(hào)的集合而建立所述類別模型,并且隨后被用來(lái)利用該模型為將被分類的任何輸入音頻信號(hào)計(jì)算特征矢量。
      多種已知的方法可用于計(jì)算音頻輸入信號(hào)的特征矢量落入特定類別(即對(duì)特征矢量進(jìn)行分類)的概率。
      在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中采用了判別分析的方法。利用該分析方法,基于每個(gè)類別的平均值和協(xié)方差矩陣,可以使用例如Bayes規(guī)則對(duì)特征矢量進(jìn)行分類以便確定特定類別包含該特征矢量的概率,并且采用先前為每個(gè)類別計(jì)算的概率密度。如果所述協(xié)方差矩陣在各類別上不同,那么所述判別函數(shù)就是二次的,從而所述判決邊界在特征空間中形成二次曲面。該方法在這種情況下被稱為二次判別分析。如果所述方差矩陣在各類別上是恒定的,那么所述判決邊界在特征空間中形成線性曲面,并且該分析方法被稱作線性判別分析。
      使用這些分析方法,就可以“定位”特征矢量在特征空間中的位置,這樣可以確定與其最緊密相關(guān)的類別。如果該特征矢量明顯地趨向位于與特定發(fā)行日期相關(guān)聯(lián)的特定類別的中心,則可以假設(shè)相關(guān)聯(lián)的音頻輸入信號(hào)在相應(yīng)的日期(諸如“1970”)被發(fā)行。但是,如果該特征矢量更趨向位于該簇的邊緣或邊界,那么包含該發(fā)行日期的時(shí)間跨距就反映了不精確性。例如,對(duì)應(yīng)于音頻輸入信號(hào)的發(fā)行日期或發(fā)行年份可以分別被報(bào)告為“1970±2”。
      特征的選擇對(duì)于分類方法的成功可能具有很大的影響。因此,在本發(fā)明的一個(gè)特別優(yōu)選的實(shí)施例中,被用于分類音頻輸入信號(hào)的特征矢量包括音頻輸入信號(hào)的聽(tīng)覺(jué)濾波器時(shí)間包絡(luò)調(diào)制特征和/或心理聲學(xué)特征。
      聽(tīng)覺(jué)濾波器時(shí)間包絡(luò)(AFTE)調(diào)制特征可以通過(guò)使用多個(gè)特定類型的濾波器(其被稱作伽馬音調(diào)濾波器,其頻譜形狀類似于人類聽(tīng)覺(jué)系統(tǒng)的頻率分辨率)對(duì)輸入音頻信號(hào)進(jìn)行濾波而獲得。對(duì)濾波后的信號(hào)執(zhí)行進(jìn)一步的處理,以便給出一組AFTE特征。該AFTE特征組的一個(gè)有力的屬性在于,其允許標(biāo)識(shí)波形頻譜和包絡(luò)頻譜的那些包含相關(guān)信息的部分,以用于分類的目的。使用標(biāo)準(zhǔn)高斯框架來(lái)進(jìn)行分類,結(jié)果顯示,所述特征的時(shí)間行為對(duì)于自動(dòng)音頻分類來(lái)說(shuō)是很重要的。此外,如果基于來(lái)自聽(tīng)覺(jué)感覺(jué)的模型的特征而不是基于標(biāo)準(zhǔn)特征,那么平均而言分類更好。
      心理聲學(xué)特征是基于對(duì)粗糙度、銳度、響度等等的感覺(jué)。粗糙度是對(duì)在大約20-150Hz的范圍內(nèi)的時(shí)間包絡(luò)調(diào)制的感覺(jué),并且對(duì)于70Hz附近的調(diào)制表現(xiàn)出最大值。響度是對(duì)強(qiáng)度的感覺(jué),銳度是與高頻能量的頻譜密度和相對(duì)強(qiáng)度相關(guān)的感覺(jué)。這些特征在發(fā)行年份分類中尤為有用,因?yàn)橐呀?jīng)觀察到對(duì)應(yīng)于記錄和混合設(shè)備的發(fā)展,音樂(lè)生產(chǎn)的某些質(zhì)量多年來(lái)發(fā)生了改變,并且這些質(zhì)量部分地由心理聲學(xué)特征反映。例如,音樂(lè)的響度多年來(lái)穩(wěn)定地提高,從而在確定音樂(lè)片段的起源日期時(shí),使用響度可以產(chǎn)生良好的效果。
      這就允許這里所描述的系統(tǒng)被用于實(shí)際的和所感覺(jué)的發(fā)行日期分類。如上所述,音樂(lè)片段可以被感覺(jué)為源自特定時(shí)間,即便其產(chǎn)生和發(fā)行時(shí)間是在很久之后??梢允褂蒙鲜龇椒▉?lái)識(shí)別實(shí)際的發(fā)行日期。
      優(yōu)選地,通過(guò)反復(fù)地調(diào)節(jié)一些特征(諸如響度等等)并且執(zhí)行分類處理,也可以容易地識(shí)別感覺(jué)的發(fā)行日期。所述調(diào)節(jié)可以涉及對(duì)于各特征適配加權(quán)系數(shù)或者某種類似程序。例如,如果從響度等導(dǎo)出的特征被調(diào)節(jié)成反應(yīng)70年代的典型水平,那么即使Abba樂(lè)曲的翻唱版本或者意欲拷貝Abba風(fēng)格的音樂(lè)片段是在90年代發(fā)行的,也仍然可以被正確地識(shí)別為70年代。另一方面,本發(fā)明可以識(shí)別表現(xiàn)出過(guò)去流派的典型特征的音樂(lè)片段的正確發(fā)行日期,即使它是在很久以后發(fā)行的。
      本發(fā)明可以用于多種音頻處理應(yīng)用。例如,在一個(gè)優(yōu)選實(shí)施例中,如上所述的用于估計(jì)音頻輸入信號(hào)的發(fā)行年份的分類系統(tǒng)可以被合并到一個(gè)音頻處理設(shè)備中,該音頻處理設(shè)備用于根據(jù)特定發(fā)行年份-日期來(lái)選擇音頻樣本。該音頻處理設(shè)備可以包括用于根據(jù)發(fā)行日期從數(shù)據(jù)庫(kù)中選擇一個(gè)或多個(gè)音樂(lè)數(shù)據(jù)文件的音樂(lè)查詢系統(tǒng)。該音頻處理設(shè)備可以解釋用戶輸入,以便在估計(jì)發(fā)行日期之前確定將要對(duì)于從音樂(lè)數(shù)據(jù)文件中提取的音頻信號(hào)的特征所執(zhí)行的任何處理步驟。例如,該設(shè)備的用戶可以輸入?yún)?shù),所述參數(shù)指定應(yīng)當(dāng)基于其實(shí)際發(fā)行日期來(lái)選擇音樂(lè)片段,還是基于感覺(jué)的發(fā)行日期來(lái)選擇音樂(lè)片段。按照這種方式,用戶可以容易地建立來(lái)自一個(gè)或多個(gè)流派、來(lái)自特定的十年或時(shí)間跨距的音樂(lè)的集合,或者他可以更愿意指定特定類型的音樂(lè),諸如60年代類型的搖滾樂(lè),而不管其實(shí)際的發(fā)行年份。一旦對(duì)于特定的音樂(lè)片段進(jìn)行了估計(jì)之后,該音頻處理設(shè)備可以在本地或外部數(shù)據(jù)庫(kù)中存儲(chǔ)所述實(shí)際的和/或感覺(jué)的發(fā)行日期信息,以備將來(lái)使用。
      所述音頻處理設(shè)備的另一個(gè)實(shí)施例包括自動(dòng)DJ設(shè)備,其用于根據(jù)所期望的序列從音樂(lè)數(shù)據(jù)庫(kù)中選擇音樂(lè)片段。這種自動(dòng)DJ設(shè)備可以是錄音室、電臺(tái)或電視臺(tái)、迪斯科舞廳等場(chǎng)所中的專業(yè)設(shè)備,或者可以被合并入PC、家庭娛樂(lè)設(shè)備、PDA、移動(dòng)電話等等。該自動(dòng)DJ設(shè)備可以包括用于播放所選擇的音樂(lè)片段的音頻輸出端,或者其可以連接到單獨(dú)的播放音樂(lè)的裝置。該自動(dòng)DJ設(shè)備的特征在于其可以具有連接到遠(yuǎn)程音樂(lè)數(shù)據(jù)庫(kù)(例如在因特網(wǎng)中)或者本地音樂(lè)數(shù)據(jù)庫(kù)(例如家庭娛樂(lè)設(shè)備中的MP3文件列表)的裝置。用戶可以指定例如60年代風(fēng)格的搖滾樂(lè),其后是一個(gè)不同的流派(諸如70年代風(fēng)格的迪斯科)。該自動(dòng)DJ設(shè)備在實(shí)際的和感覺(jué)的發(fā)行日期信息的音樂(lè)數(shù)據(jù)庫(kù)中搜索指定流派的音樂(lè),并且按照所期望的順序來(lái)編輯所述音樂(lè)片段的列表。
      根據(jù)本發(fā)明的分類系統(tǒng)可以被非常經(jīng)濟(jì)地實(shí)現(xiàn)為計(jì)算機(jī)程序。用于確定音樂(lè)輸入信號(hào)的模糊度的度量的所有組件(例如濾波器組、諧振器濾波器組、能量相加單元、分級(jí)單元、節(jié)奏方案編輯器等等)可以被實(shí)現(xiàn)為計(jì)算機(jī)程序模塊的形式。任何所需要的軟件或算法可以在硬件設(shè)備的處理器上進(jìn)行編碼,從而現(xiàn)有的硬件設(shè)備可以被適配成從本發(fā)明的特征中獲益。替換地,用于確定音樂(lè)輸入信號(hào)的模糊度的度量的組件同樣可以至少部分地利用硬件模塊來(lái)實(shí)現(xiàn),從而本發(fā)明可以被應(yīng)用于數(shù)字和/或模擬音樂(lè)輸入信號(hào)。
      在本發(fā)明的一個(gè)實(shí)施例中,所述音樂(lè)數(shù)據(jù)庫(kù)可以處于與先前利用上述方法編輯的相關(guān)發(fā)行日期信息列表分開(kāi)的存儲(chǔ)設(shè)備中,或者二者可以都被存儲(chǔ)在相同的設(shè)備上,例如被存儲(chǔ)在個(gè)人計(jì)算機(jī)、CD或DVD等上。該音樂(lè)數(shù)據(jù)庫(kù)可以被存儲(chǔ)在一個(gè)位置上,或者可以分布在幾個(gè)設(shè)備上,例如分布在音樂(lè)CD集合中。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述音樂(lè)數(shù)據(jù)庫(kù)和對(duì)應(yīng)于該音樂(lè)數(shù)據(jù)庫(kù)的各單元的發(fā)行日期信息以這樣的方式被存儲(chǔ)只需要最小的努力就能夠首先取回對(duì)應(yīng)于特定音樂(lè)片段的發(fā)行日期信息。
      本發(fā)明的其他目的和特征將通過(guò)參考附圖以及下面的詳細(xì)說(shuō)明而變得更加清楚。但是,應(yīng)當(dāng)理解,附圖僅僅用于說(shuō)明而不是限制本發(fā)明。
      附圖簡(jiǎn)述

      圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于確定音樂(lè)片段的發(fā)行年份的系統(tǒng)的示意框圖。
      圖2是在二維特征矢量空間中的多個(gè)類別的圖形表示。
      實(shí)施例描述在圖1中,音頻輸入信號(hào)1(在本例中是來(lái)自音樂(lè)數(shù)據(jù)文件、音樂(lè)軌道、MP3文件等等的數(shù)字音樂(lè)輸入信號(hào)1)被輸入到分類系統(tǒng)4。
      在特征提取單元5中,從音頻輸入信號(hào)樣本的10個(gè)743ms的幀中提取特征2。所述樣本優(yōu)選地是從趨向于軌道或音樂(lè)數(shù)據(jù)文件的中間的位置處獲得的,這是因?yàn)橐魳?lè)軌道的開(kāi)頭和結(jié)尾聽(tīng)起來(lái)常常與主體部分有所不同。
      在接下來(lái)的導(dǎo)出單元6中,為輸入音頻信號(hào)1的10個(gè)幀當(dāng)中的每一個(gè)的特征2計(jì)算一個(gè)特征矢量3。
      然后在概率確定單元7中對(duì)每個(gè)特征矢量3進(jìn)行分類處理,其中執(zhí)行分析步驟以便確定特征矢量3落入多個(gè)可能類別中的一個(gè)特定類別之內(nèi)的概率。
      因此,分類系統(tǒng)4可以訪問(wèn)包含所述分類處理所需的信息的數(shù)據(jù)庫(kù)9。通過(guò)例如讓兩個(gè)收聽(tīng)者聽(tīng)大量歌曲然后根據(jù)預(yù)定義的類別列表(C1,C2,...,Cn)獨(dú)立地對(duì)它們進(jìn)行分類來(lái)建立和訓(xùn)練數(shù)據(jù)庫(kù)9,每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息,諸如“1966-1970”、“1970-1974”等等。每個(gè)歌曲或軌道將用一個(gè)分?jǐn)?shù)進(jìn)行評(píng)級(jí),該分?jǐn)?shù)表示該歌曲或軌道與其類別(C1,C2,...,Cn)的對(duì)應(yīng)程度。從這些歌曲中識(shí)別出一個(gè)精簡(jiǎn)集合,該精簡(jiǎn)集合包括滿足以下標(biāo)準(zhǔn)的所有軌道●由兩個(gè)收聽(tīng)者識(shí)別的類別(C1,C2,...,Cn)對(duì)于該軌道是相同的;●每個(gè)軌道的評(píng)級(jí)或分?jǐn)?shù)大于預(yù)定義的最小值;●來(lái)自每個(gè)藝術(shù)家或唱片的最大軌道數(shù)量是2。
      以類似于計(jì)算輸入信號(hào)的特征矢量的方式為所述精簡(jiǎn)集合的每一個(gè)軌道計(jì)算特征矢量。使用這些特征矢量以及由用戶提供的分類信息,可以構(gòu)建一個(gè)代表所述類別(C1,C2,...,Cn)的模型。該信息被存儲(chǔ)在數(shù)據(jù)庫(kù)9中,以便在所述分類處理中使用。在導(dǎo)出用于訓(xùn)練數(shù)據(jù)庫(kù)的特征矢量的過(guò)程中所涉及的處理步驟與之后用于從輸入音頻信號(hào)1中導(dǎo)出特征矢量以便進(jìn)行分類的處理步驟相同。
      在完成所述分類處理之后,分類系統(tǒng)4以適當(dāng)?shù)姆绞綀?bào)告結(jié)果8,比如輸出到顯示器,這沒(méi)有在圖中顯示。所述輸出可以是“軌道ABC發(fā)行年份1990±2”的形式,其表示被標(biāo)識(shí)為“ABC”的軌道最有可能是在1990年發(fā)行的,但是必須考慮2年的不確定性因素。
      圖2顯示了由二維特征矢量空間中的簇表示的多個(gè)類別(C1,C2)的圖形表示。通常來(lái)說(shuō),特征矢量的數(shù)量和矢量空間的維數(shù)將高很多,但是這很難在二維空間表示中顯示。因此,為了簡(jiǎn)明起見(jiàn),該圖被限制到由兩個(gè)特征f1和f2建立的二維特征空間。
      為了說(shuō)明的目的,假設(shè)分類系統(tǒng)4被用來(lái)分類2個(gè)音樂(lè)軌道“X”和“Y”。進(jìn)一步假設(shè)分類系統(tǒng)4可以分類到兩個(gè)類別1或2的其中之一,其中類別C1表示70年代早期(“1970-1974”)的音樂(lè),而C2表示70年代后期(“1975-1979”)的音樂(lè)。如上所述,計(jì)算音樂(lè)軌道“X”和“Y”的特征矢量Fx、Fy,概率導(dǎo)出單元7現(xiàn)在繼續(xù)定位這兩個(gè)特征矢量Fx、Fy所最可能屬于的類別。因?yàn)镕x明顯位于類別C1內(nèi),因此該概率確定單元可以確信地得出這樣的結(jié)論音樂(lè)軌道“X”源自由類別C1表示的時(shí)間跨距的中間,于是報(bào)告“1972±1”作為該音樂(lè)軌道的分類結(jié)果。另一方面,F(xiàn)y位于類別C1和C2之間,但是比起C2更接近于C1。因此,概率確定單元7得出這樣的結(jié)論已經(jīng)為之計(jì)算出這些特征矢量的該音樂(lè)軌道源自這些類別之間的某個(gè)時(shí)間,于是報(bào)告估計(jì)的發(fā)行年份“1974±4”,這表示該軌道最有可能在1974年前后發(fā)行,但是估計(jì)可能在1974年的最多4年前或4年后發(fā)行。該不確定性是特征矢量Fx、Fy與類別C1、C2的質(zhì)心之間的距離的一個(gè)度量。
      當(dāng)對(duì)為輸入信號(hào)1計(jì)算的特征矢量3進(jìn)行分類時(shí),概率確定單元7在某些情況下可以得出這樣的結(jié)論如果一些特征2被修改,則可以獲得更好的分類結(jié)果。利用適當(dāng)?shù)男盘?hào)10,概率確定單元7把必要的修改通知給特征提取單元5。在執(zhí)行所述修改之后,特征提取單元5把最新計(jì)算的特征2轉(zhuǎn)發(fā)到導(dǎo)出單元6,從而可以使用新的特征矢量3再次執(zhí)行所述分類處理。可以重復(fù)該迭代處理,直到概率確定單元7得出結(jié)果8是令人滿意的結(jié)論。
      雖然已經(jīng)以優(yōu)選實(shí)施例及其變型的形式描述了本發(fā)明,但是應(yīng)當(dāng)理解,可以在不偏離本發(fā)明范圍的情況下做出許多附加的修改和變化。例如,可以使用所述方法來(lái)確定任何音頻(比如無(wú)線電廣播、電影聲軌等等)的時(shí)間。此外,本發(fā)明不限于使用上述的分析方法,而是可以采用任何適當(dāng)?shù)姆治龇椒ā?br> 為了清楚起見(jiàn),還應(yīng)當(dāng)理解,在本申請(qǐng)中使用的“一個(gè)”并不排除多個(gè),“包括”一詞并不排除其他步驟或元件?!皢卧笨梢园ǘ鄠€(gè)塊或設(shè)備,除非其被明確地描述為單個(gè)實(shí)體。
      權(quán)利要求
      1.一種分類音頻輸入信號(hào)(1)的方法,該方法包括以下步驟-提取該音頻輸入信號(hào)(1)的至少一個(gè)特征(2);-基于該至少一個(gè)所提取的特征(2)為該輸入音頻信號(hào)(1)導(dǎo)出特征矢量(3);-確定該輸入音頻信號(hào)(1)的特征矢量(3)落入多個(gè)類別(C1,C2,....,Cn)當(dāng)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。
      2.根據(jù)權(quán)利要求1的方法,其中,表示特定發(fā)行日期信息的類別(C1,C2,...,Cn)是基于先前為來(lái)自音頻信號(hào)集合中的各音頻信號(hào)計(jì)算的各特征矢量而定義的,所述特征矢量與該發(fā)行日期信息相關(guān)聯(lián)。
      3.根據(jù)權(quán)利要求2的方法,其中,表示特定發(fā)行日期信息的類別(C1,C2,...,Cn)是由從先前計(jì)算的與該發(fā)行日期信息相關(guān)聯(lián)的特征矢量的集合中導(dǎo)出的模型來(lái)描述的。
      4.根據(jù)之前任何一個(gè)權(quán)利要求的方法,其中,確定所述輸入音頻信號(hào)(1)的所述特征矢量(3)落入特定類別(C1,C2,...,Cn)之內(nèi)的概率包括對(duì)于該特征矢量(3)執(zhí)行判別分析的步驟。
      5.根據(jù)權(quán)利要求1的方法,其中,所述特征矢量(3)包括-所述音頻輸入信號(hào)(1)的心理聲學(xué)特征(2);以及/或者-描述該音頻輸入信號(hào)(1)的時(shí)間包絡(luò)的聽(tīng)覺(jué)模型表示的特征(2)。
      6.根據(jù)權(quán)利要求1和權(quán)利要求2的方法,其中,提取特征(2)包括計(jì)算每個(gè)特征(2)的功率譜,歸一化該功率譜,以及計(jì)算在多個(gè)不同能量帶上的能量。
      7.根據(jù)之前任何一個(gè)權(quán)利要求的方法,其中,所述輸入音頻信號(hào)(1)的所述特征(2)在所述分類處理期間被反復(fù)調(diào)節(jié),以便獲得對(duì)應(yīng)于該輸入音頻信號(hào)(1)的最佳分類的特征矢量(3)。
      8.一種用于分類音頻輸入信號(hào)(1)的系統(tǒng)(4),所述分類系統(tǒng)包括以下裝置-特征提取單元(5),其用于提取該音頻輸入信號(hào)(1)的至少一個(gè)特征(2);-導(dǎo)出單元(6),其用于基于該至少一個(gè)所提取的特征(2)為該輸入音頻信號(hào)(1)導(dǎo)出特征矢量(3);-概率確定單元(7),其用于確定該輸入音頻信號(hào)(1)的該特征矢量(3)落入多個(gè)類別(C1,C2,...,Cn)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。
      9.一種用于根據(jù)特定發(fā)行日期選擇音頻項(xiàng)目的音頻處理設(shè)備,其包括根據(jù)權(quán)利要求8的分類系統(tǒng)。
      10.一種根據(jù)權(quán)利要求9的音頻處理設(shè)備,其包括自動(dòng)DJ設(shè)備以用于根據(jù)用戶定義的發(fā)行日期信息的序列從音樂(lè)數(shù)據(jù)庫(kù)中選擇音樂(lè)片段,從而實(shí)現(xiàn)根據(jù)實(shí)際的或感覺(jué)的發(fā)行日期的音樂(lè)分組。
      11.一種可直接加載到可編程音頻處理設(shè)備的存儲(chǔ)器中的計(jì)算機(jī)程序產(chǎn)品,其包括各軟件代碼部分,當(dāng)所述程序在該音頻處理設(shè)備上運(yùn)行時(shí),所述軟件代碼部分用于執(zhí)行根據(jù)權(quán)利要求1到7的方法的步驟。
      全文摘要
      本發(fā)明描述了一種分類音頻輸入信號(hào)(1)的方法,該方法包括以下步驟提取該音頻輸入信號(hào)(1)的至少一個(gè)特征(2);基于該至少一個(gè)所提取的特征(2)為該輸入音頻信號(hào)(1)導(dǎo)出特征矢量(3);以及確定該輸入音頻信號(hào)(1)的該特征矢量(3)落入多個(gè)類別(C1,C2,...,Cn)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。
      文檔編號(hào)G10L25/48GK1998044SQ200580013638
      公開(kāi)日2007年7月11日 申請(qǐng)日期2005年4月21日 優(yōu)先權(quán)日2004年4月29日
      發(fā)明者D·布里巴特, M·麥克金尼 申請(qǐng)人:皇家飛利浦電子股份有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1