專利名稱:復雜度可縮放的感知節(jié)拍估計的制作方法
技術領域:
本申請涉及用于估計諸如音頻或組合視頻/音頻信號之類的媒體信號的節(jié)奏(tempo)的方法和系統(tǒng)。特別地,該申請涉及由人類聽眾感知的節(jié)奏的估計,以及用于以可縮放的計算復雜度進行節(jié)奏估計的方法和系統(tǒng)。
背景技術:
例如PDA、智能電話、移動電話和便攜式媒體播放器的便攜式手持設備通常包括音頻和/或視頻再現(xiàn)(render)能力并且已經(jīng)變成重要的娛樂平臺。此發(fā)展由無線或有線傳輸能力在這樣的設備中的逐漸滲透推進。由于諸如HE-AAC格式之類的媒體傳輸和/或存儲協(xié)議的支持,媒體內容可以被連續(xù)下載并存儲到便攜式手持設備上,從而提供實際上無限量的媒體內容。但是,由于有限的計算功率和能量消耗是重要的約束,因此低復雜度的算法對于移動/手持設備是關鍵性的。這些約束對于新興市場中的低端便攜式設備更加關鍵??紤]到在通常的便攜式電子設備上可用的海量媒體文件,為了對媒體文件聚類(cluster)或分類從而使得便攜式電子設備的用戶能夠識別例如音頻、音樂和/或視頻文件的合適的媒體文件,MIR (音樂信息檢索)應用是期望的工具。用于這樣的MIR應用的低復雜度的計算方案是期望的,這是因為否則,它們在具有有限計算和功率資源的便攜式電子設備上的可用性將受到損害。用于各種MIR應用(例如風格(genre)和情感(mood)分類、音樂概括(smnmarization)、音頻縮略化、自動播放列表生成和使用音樂相似性的音樂推薦系統(tǒng)等等)的重要的音樂特征是音樂節(jié)奏。因而,具有低計算復雜度的用于節(jié)奏確定的過程將有助于對于移動設備的所提到的MIR應用的分散實施的發(fā)展。此外,雖然通常通過以BPM (每分鐘拍數(shù))計的活頁樂譜或樂譜上的標記節(jié)奏(notated tempo)來表征音樂節(jié)奏,但是此值通常不對應于感知節(jié)奏(perceptual tempo)。例如,如果一群聽眾(包括熟練的音樂家)被要求評注音樂選段的節(jié)奏,則他們通常給出不同的答案,即他們通常以不同的度量水平(metrical level)拍擊。對于一些音樂選段,感知的節(jié)奏較不含糊,并且所有聽眾通常以相同的度量水平拍擊,但是對于其它音樂選段,節(jié)奏可能是含糊的,并且不同的聽眾識別不同的節(jié)奏。換句話說,感知實驗已經(jīng)顯示感知的節(jié)奏可能不同于標記節(jié)奏。一段音樂可能感覺比它的標記節(jié)奏快或慢,因為占優(yōu)勢的感知的律動(pulse)可能是比標記節(jié)奏高或低的度量水平。鑒于MIR應用應當優(yōu)選地考慮最有可能被用戶感知的節(jié)奏這一事實,自動節(jié)奏提取器應當預測音頻信號的在感知上最突出的節(jié)奏。已知的節(jié)奏估計方法和系統(tǒng)具有各種缺點。在很多情況下,它們限于特別的音頻編解碼器,例如MP3,并且不能應用于利用其他編解碼器編碼的音軌。此外,這樣的節(jié)奏估計方法通常僅僅在應用于具有簡單明了的旋律結構的西方流行音樂上時才能正常工作。另夕卜,已知的節(jié)奏估計方法沒有考慮感知方面,即它們沒有針對估計最有可能被聽眾感知的、節(jié)奏。最后,已知的節(jié)奏估計方案通常在未壓縮PCM域、變換域或壓縮域中的僅僅之一中工作。期望的是提供克服已知節(jié)奏估計方案的上述缺點的節(jié)奏估計方法和系統(tǒng)。特別地,期望的是提供編解碼器不可知的和/或可適用于任何類型的音樂風格的節(jié)奏估計。此夕卜,期望的是提供一種估計音頻信號的在感知上最突出的節(jié)奏的節(jié)奏估計方案。此外,期望一種可應用于上述域(即未壓縮的PCM域、變換域和壓縮域)中的任何一個中的音頻信號的節(jié)奏估計方案。還期望提供具有低計算復雜度的節(jié)奏估計方案。節(jié)奏估計方案可以用于各種應用中。由于節(jié)奏是音樂中的基礎語義信息,因此這樣的節(jié)奏的可靠估計將提高例如自動的基于內容的風格分類、情感分類、音樂相似、音頻縮略化和音樂概括之類的其他MIR應用的性能。此外,感知節(jié)奏的可靠估計對于音樂選擇、t匕較、混合和播放列表化是有用的統(tǒng)計。值得注意的是,對于自動播放列表生成器或音樂導航儀或DJ裝置,感知節(jié)奏或感覺通常比標記的或物理的節(jié)奏更相關(relevant)。此外,對于感知的節(jié)奏的可靠估計可以對游戲應用有用。舉例來說,音帶節(jié)奏可以用于控制相關的游戲參數(shù),例如游戲的速度,反之亦然。這可以用于使用音頻來個性化游戲內容并且用于為用 戶提供增強的體驗。進一步的應用領域可以是基于內容的音頻/視頻同步,其中音樂節(jié)拍(beat)或節(jié)奏是用作用于定時事件的錨標(anchor)的首要信息源。應當注意,在本申請中,術語“節(jié)奏”被理解為觸覺律動(pulse)的速率。此觸覺也被稱為腳拍擊速率,即聽眾在收聽例如音樂信號的音頻信號時拍擊他們的腳的速率。這不同于定義音樂信號的層級結構的音樂計量。
發(fā)明內容
根據(jù)一方面,描述了一種用于從音頻信號的編碼的比特流中提取音頻信號的節(jié)奏信息的方法,其中該編碼的比特流包括譜帶復制數(shù)據(jù)。編碼的比特流可以是HE-AAC比特流或mp3PR0比特流。該音頻信號可以包括音樂信號,并且提取節(jié)奏信息可以包括估計音樂信號的節(jié)奏。該方法可以包括確定對于音頻信號的時間間隔編碼的比特流中所包含的譜帶復制數(shù)據(jù)的量相關聯(lián)的有效載荷量的步驟。值得注意的是,在編碼的比特流是ffi-AAC比特流的情況下,后一步驟可以包括確定在該時間間隔中該編碼的比特流的一個或多個填充元素字段中所包括的數(shù)據(jù)的量,以及基于在該時間間隔中包括在該編碼的比特流的該一個或多個填充元素字段中的數(shù)據(jù)的量來確定有效載荷量。由于譜帶復制數(shù)據(jù)可以使用固定頭部被編碼這一事實,在提取節(jié)奏信息之前去除這樣的頭部可能是有益的。特別地,該方法可以包括確定在該時間間隔中該編碼的比特流的一個或多個填充元素字段中所包含的譜帶復制頭部數(shù)據(jù)的量的步驟。此外,在該時間間隔中該編碼的比特流的該一個或多個填充元素字段中所包含的數(shù)據(jù)的凈量可以通過扣除或減去在該時間間隔中該編碼的比特流的該一個或多個填充元素字段中所包含的譜帶復制頭部數(shù)據(jù)的量來確定。因此,頭部比特已被去掉,并且可以基于數(shù)據(jù)的凈量確定有效載荷量。應當注意,如果譜帶復制頭部具有固定長度,則該方法可以包括對在一時間間隔中譜帶復制頭部的數(shù)目X計數(shù),以及從在該時間間隔中該編碼的比特流的一個或多個填充元素字段中所包含的譜帶復制頭部數(shù)據(jù)的量扣除或減去該頭部的長度的X倍。
在一個實施例中,該有效載荷量與在該時間間隔中編碼的比特流的一個或多個填充元素字段中所包含的譜帶復制數(shù)據(jù)的量或凈量對應??商鎿Q地或附加地,可以從該一個或多個填充元素字段中去掉進一步的開銷數(shù)據(jù),以便確定實際的譜帶復制數(shù)據(jù)。編碼的比特流可以包括多個幀,每個幀與預定時間長度的音頻信號的選段對應。舉例來說,幀可以包括音樂信號的幾毫秒的選段。時間間隔可以與由編碼的比特流的一幀覆蓋的時間長度對應。舉例來說,AAC幀通常包括1024個頻譜值,即MDCT系數(shù)。頻譜值是音頻信號的特定時間實例或時間間隔的頻率表示。時間和頻率之間的關系可以被表示為下式
權利要求
1.一種用于從包括譜帶復制數(shù)據(jù)的音頻信號的編碼的比特流提取該音頻信號的節(jié)奏信息的方法,該方法包括 確定對于該音頻信號的時間間隔該編碼的比特流中所包含的譜帶復制數(shù)據(jù)量相關聯(lián)的有效載荷量; 對于該音頻信號的編碼的比特流的連續(xù)的時間間隔,重復該確定步驟,從而確定有效載荷量的序列; 識別該有效載荷量的序列中的周期性;以及 從所識別的周期性提取該音頻信號的節(jié)奏信息。
2.如權利要求I所述的方法,其中確定有效載荷量包括 確定在該時間間隔中該編碼的比特流的一個或多個填充元素字段中所包含的數(shù)據(jù)量; 以及 基于在該時間間隔中該編碼的比特流的一個或多個填充元素字段中所包含的數(shù)據(jù)量確定該有效載荷量。
3.如權利要求2所述的方法,其中確定有效載荷量包括 確定在該時間間隔中該編碼的比特流的該一個或多個填充元素字段中所包含的譜帶復制頭部數(shù)據(jù)量; 通過扣除在該時間間隔中該編碼的比特流的該一個或多個填充元素字段中所包含的譜帶復制頭部數(shù)據(jù)量,來確定在該時間間隔中該編碼的比特流的該一個或多個填充元素字段中所包含的數(shù)據(jù)的凈量;以及 基于該數(shù)據(jù)的凈量確定該有效載荷量。
4.如權利要求3所述的方法,其中該有效載荷量與該數(shù)據(jù)的凈量對應。
5.如前述任何一個權利要求所述的方法,其中 該編碼的比特流包括多個幀,每個幀與該音頻信號的預定時間長度的選段對應;以及 該時間間隔與該編碼的比特流的一幀對應。
6.如前述任何一個權利要求所述的方法,其中對于該編碼的比特流的所有幀執(zhí)行該重復步驟。
7.如前述任何一個權利要求所述的方法,其中識別周期性包括 識別該有效載荷量的序列中的峰值的周期性。
8.如前述任何一個權利要求所述的方法,其中識別周期性包括 對該有效載荷量的序列執(zhí)行譜分析,從而得到一組功率值和相應的頻率;以及通過確定該組功率值中的相對最大值并且通過將該有效載荷量的序列的周期性選擇為相應的頻率,識別該有效載荷量的序列的周期性。
9.如權利要求8所述的方法,其中執(zhí)行譜分析包括 對該有效載荷量的序列的多個子序列執(zhí)行譜分析,以輸出多組功率值;以及 將該多組功率值求平均。
10.如權利要求9所述的方法,其中該多個子序列部分地重疊。
11.如權利要求8到10中的任何一個所述的方法,其中執(zhí)行譜分析包括執(zhí)行傅里葉變換。
12.如權利要求8到11中的任何一個所述的方法,還包括將該組功率值乘以與它們的相應頻率的人類感知偏好相關聯(lián)的權重。
13.如權利要求8到12中的任何一個所述的方法,其中提取節(jié)奏信息包括 確定與該組功率值的絕對最大值對應的頻率; 其中該頻率與該音頻信號的物理上突出的節(jié)奏對應。
14.如前述任何一個權利要求所述的方法,其中該音頻信號包括音樂信號,以及其中提取節(jié)奏信息包括估計該音樂信號的節(jié)奏。
15.一種用于估計音頻信號的感知突出的節(jié)奏的方法,該方法包括 確定來自該音頻信號的調制譜,其中該調制譜包括多個出現(xiàn)頻率和相應的多個重要性值,其中該重要性值指示在該音頻信號中的相應的出現(xiàn)頻率的相對重要性; 將物理上突出的節(jié)奏確定為與該多個重要性值的最大值對應的出現(xiàn)頻率; 從該調制譜確定音頻信號的節(jié)拍度量; 從該調制譜確定感知節(jié)奏指示符;以及 通過根據(jù)該節(jié)拍度量修改該物理上突出的節(jié)奏來確定感知突出的節(jié)奏, 其中該修改步驟考慮了該感知節(jié)奏指示符和物理上突出的節(jié)奏之間的關系。
16.如權利要求15所述的方法,其中該音頻信號由沿著時間軸的PCM樣本的序列表示,以及其中確定調制譜包括 從PCM樣本的序列中選擇多個接連的、部分重疊的子序列; 對于該多個接連的子序列確定具有譜分辨率的多個接連的功率譜; 利用感知非線性變換濃縮多個接連的功率譜的譜分辨率;以及對該多個接連的濃縮的功率譜執(zhí)行沿著該時間軸的譜分析,從而得到多個重要性值和它們的相應的出現(xiàn)頻率。
17.如權利要求15所述的方法,其中該音頻信號由沿著時間軸的接連的MDCT系數(shù)塊的序列表示,以及其中確定調制譜包括 利用感知非線性變換濃縮塊中的MDCT系數(shù)的數(shù)目;以及 對該接連的濃縮的MDCT系數(shù)塊的序列執(zhí)行沿著該時間軸的譜分析,從而得到多個重要性值和它們的相應的出現(xiàn)頻率。
18.如權利要求15所述的方法,其中該音頻信號由包括譜帶復制數(shù)據(jù)和沿著時間軸的多個接連的幀的編碼的比特流表示,以及其中確定調制譜包括 確定在該編碼的比特流的幀序列中的譜帶復制數(shù)據(jù)量相關聯(lián)的有效載荷量的序列;從該有效載荷量的序列中選擇多個接連的、部分重疊的子序列;以及對該多個接連的子序列執(zhí)行沿著該時間軸的譜分析,從而輸出多個重要性值和它們的相應的出現(xiàn)頻率。
19.如權利要求15到18中的任何一個所述的方法,其中確定調制譜包括 將該多個重要性值乘以與它們的相應出現(xiàn)頻率的人類感知偏好相關聯(lián)的權重。
20.如權利要求15到19中的任何一個所述的方法,其中確定物理上突出的節(jié)奏包括 將物理上突出的節(jié)奏確定為與多個重要性值的絕對最大值對應的出現(xiàn)頻率。
21.如權利要求15到20中的任何一個所述的方法,其中確定節(jié)拍度量包括 確定對于多個非零的頻率滯后的調制譜的自相關; 識別自相關的最大值和相應的頻率滯后;以及基于相應的頻率滯后和物理上突出的節(jié)奏確定節(jié)拍度量。
22.如權利要求15到20中的任何一個所述的方法,其中確定節(jié)拍度量包括 確定調制譜和分別與多個節(jié)拍度量對應的多個合成的拍擊函數(shù)之間的互相關;以及 選擇得到最大互相關的節(jié)拍度量。
23.如權利要求15到22中的任何一個所述的方法,其中該節(jié)拍度量是以下中的一個 在3/4節(jié)拍的情況下,為3;或 在4/4節(jié)拍的情況下,為2。
24.如權利要求15到23中的任何一個所述的方法,其中確定感知節(jié)奏指示符包括 將第一感知節(jié)奏指示符確定為通過該多個重要性值的最大值規(guī)格化的該多個重要性值的均值。
25.如權利要求24所述的方法,其中確定感知突出的節(jié)奏包括 確定第一感知節(jié)奏指示符是否超過第一閾值;以及 只有當?shù)谝婚撝当怀^時,才修改該物理上突出的節(jié)奏。
26.如權利要求15到25中的任何一個所述的方法,其中確定感知節(jié)奏指示符包括 將第二感知節(jié)奏指示符確定為多個重要性值的最大重要性值。
27.如權利要求26所述的方法,其中確定感知突出的節(jié)奏包括 確定第二感知節(jié)奏指示符是否低于第二閾值;以及 如果第二感知節(jié)奏指示符低于第二閾值,則修改物理上突出的節(jié)奏。
28.如權利要求15到27中的任何一個所述的方法,其中確定感知節(jié)奏指示符包括 將第三感知節(jié)奏指示符確定為調制譜的矩心出現(xiàn)頻率。
29.如權利要求28所述的方法,其中確定感知突出的節(jié)奏包括 確定第三感知節(jié)奏指示符和物理上突出的節(jié)奏之間的失配;以及 如果失配被確定,則修改物理上突出的節(jié)奏。
30.如權利要求29所述的方法,其中確定失配包括 確定第三感知節(jié)奏指示符低于第三閾值并且物理上突出的節(jié)奏高于第四閾值;或 確定第三感知節(jié)奏指示符高于第五閾值并且物理上突出的節(jié)奏低于第六閾值; 其中該第三、第四、第五和第六閾值中的至少一個與人類感知節(jié)奏偏好相關聯(lián)。
31.如權利要求15到30中的任何一個所述的方法,其中根據(jù)節(jié)拍度量修改物理上突出的節(jié)奏包括 將節(jié)拍水平增大到基礎節(jié)拍的下一較高的節(jié)拍水平;或 將節(jié)拍水平減小到基礎節(jié)拍的下一較低的節(jié)拍水平。
32.如權利要求31所述的方法,其中增大或減小節(jié)拍水平包括 在3/4節(jié)拍的情況下,將物理上突出的節(jié)奏乘以或除以3 ;以及 在4/4節(jié)拍的情況下,將物理上突出的節(jié)奏乘以或除以2。
33.一種軟件程序,適于在處理器上運行并且當在計算設備上實施時用于執(zhí)行權利要求I到32中的任何一個所述的方法步驟。
34.一種存儲介質,包括適于在處理器上運行并且當在計算設備上實施時用于執(zhí)行權利要求I到32中的任何一個所述的方法步驟的軟件程序。
35.一種計算機程序產(chǎn)品,包括當在計算機上運行時用于執(zhí)行如權利要求I到32中的任何一個所述的方法的可執(zhí)行指令。
36.一種便攜式電子設備,包括 存儲單元,被配置為存儲音頻信號; 音頻再現(xiàn)單元,被配置為再現(xiàn)該音頻信號; 用戶接口,被配置為接收用戶對于關于音頻信號的節(jié)奏信息的請求;以及處理器,被配置為通過對音頻信號執(zhí)行如權利要求I到32中的任何一個所述的方法的步驟來確定節(jié)奏信息。
37.一種被配置為從包括音頻信號的譜帶復制數(shù)據(jù)的編碼的比特流中提取音頻信號的節(jié)奏信息的系統(tǒng),該系統(tǒng)包括 用于確定該音頻信號的時間間隔的該編碼的比特流中所包含的譜帶復制數(shù)據(jù)量相關聯(lián)的有效載荷量的裝置; 用于對于該音頻信號的編碼的比特流的連續(xù)的時間間隔,重復該確定步驟,從而確定有效載荷量的序列的裝置; 用于識別該有效載荷量的序列中的周期性的裝置;以及 用于從所識別的周期性提取該音頻信號的節(jié)奏信息的裝置。
38.一種被配置為估計音頻信號的感知突出的節(jié)奏的系統(tǒng),該系統(tǒng)包括 用于確定該音頻信號的調制譜的裝置,其中該調制譜包括多個出現(xiàn)頻率和相應的多個重要性值,其中該重要性值指示在該音頻信號中的相應的出現(xiàn)頻率的相對重要性; 用于將物理上突出的節(jié)奏確定為與該多個重要性值的最大值對應的出現(xiàn)頻率的裝置; 用于通過分析該調制譜確定音頻信號的節(jié)拍度量的裝置; 用于從該調制譜確定感知節(jié)奏指示符的裝置;以及 用于通過根據(jù)該節(jié)拍度量修改該物理上突出的節(jié)奏來確定感知突出的節(jié)奏的裝置, 其中該修改步驟考慮了該感知節(jié)奏指示符和物理上突出的節(jié)奏之間的關系。
39.一種用于產(chǎn)生包括音頻信號的元數(shù)據(jù)的編碼的比特流的方法,該方法包括 確定與音頻信號的節(jié)奏相關聯(lián)的元數(shù)據(jù);以及 將該元數(shù)據(jù)插入到編碼的比特流中。
40.如權利要求39所述的方法,其中該元數(shù)據(jù)包括表示音頻信號的物理上突出的節(jié)奏和/或感知突出的節(jié)奏的數(shù)據(jù)。
41.如權利要求39和40中的任何一個所述的方法,其中該元數(shù)據(jù)包括代表來自該音頻信號的調制譜的數(shù)據(jù),其中該調制譜包括多個出現(xiàn)頻率和相應的多個重要性值,其中該重要性值指示相應的出現(xiàn)頻率在該音頻信號中的相對重要性。
42.如權利要求39到41中的任何一個所述的方法,還包括 利用 HE-AAC、MP3、AAC、Dolby Digital 或 Dolby Digital Plus 編碼器中的一個,將音頻信號編碼成編碼的比特流的有效載荷數(shù)據(jù)的序列。
43.一種用于從包括音頻信號的元數(shù)據(jù)的編碼的比特流中提取與音頻信號的節(jié)奏相關聯(lián)的數(shù)據(jù)的方法,該方法包括 識別編碼的比特流的元數(shù)據(jù);以及 從編碼的比特流的元數(shù)據(jù)提取與音頻信號的節(jié)奏相關聯(lián)的數(shù)據(jù)。
44.一種包括元數(shù)據(jù)的音頻信號的編碼的比特流,其中該元數(shù)據(jù)包括代表以下中的至少一個的數(shù)據(jù) 該音頻信號的物理上突出的節(jié)奏和/或感知突出的節(jié)奏; 來自于該音頻信號的調制譜,其中該調制譜包括多個出現(xiàn)頻率和相應的多個重要性值,其中該重要性值指示相應的出現(xiàn)頻率在該音頻信號中的相對重要性。
45.一種音頻編碼器,被配置為產(chǎn)生包括音頻信號的元數(shù)據(jù)的編碼的比特流,該編碼器包括 用于確定與音頻信號的節(jié)奏相關聯(lián)的元數(shù)據(jù)的裝置;和 用于將該元數(shù)據(jù)插入到編碼的比特流中的裝置。
46.一種被配置為從包括音頻信號的元數(shù)據(jù)的編碼的比特流中提取與音頻信號的節(jié)奏相關聯(lián)的數(shù)據(jù)的音頻解碼器,該解碼器包括 用于識別編碼的比特流的元數(shù)據(jù)的裝置;和 用于從編碼的比特流的元數(shù)據(jù)提取與音頻信號的節(jié)奏相關聯(lián)的數(shù)據(jù)的裝置。
全文摘要
本申請涉及用于估計諸如音頻或組合視頻/音頻信號之類的媒體信號的節(jié)奏的方法和系統(tǒng)。特別地,本申請涉及由人類聽眾感知的節(jié)奏的估計,以及涉及用于以可縮放的計算復雜度進行節(jié)奏估計的方法和系統(tǒng)。一種用于從包括譜帶復制數(shù)據(jù)的音頻信號的編碼的比特流中提取該音頻信號的節(jié)奏信息的方法和系統(tǒng)。該方法包括以下步驟∶確定對于音頻信號的一時間間隔在該編碼的比特流中包含的譜帶復制數(shù)據(jù)量相關聯(lián)的有效載荷量;對于該音頻信號的編碼的比特流的連續(xù)的時間間隔,重復該確定步驟,從而確定有效載荷量的序列;識別該有效載荷量的序列的周期性;以及從識別的周期性提取音頻信號的節(jié)奏信息。
文檔編號G10H1/40GK102754147SQ201080048994
公開日2012年10月24日 申請日期2010年10月26日 優(yōu)先權日2009年10月30日
發(fā)明者A·比斯沃斯, D·霍洛斯, M·舒格 申請人:杜比國際公司