音頻處理方法和音頻處理裝置以及訓(xùn)練方法
【專利摘要】本申請描述了音頻處理方法和音頻處理裝置以及訓(xùn)練方法。根據(jù)本申請的實施方式,重音識別器用于從多個音頻幀中識別重音幀,產(chǎn)生包括針對多個音頻幀的重音和/或非重音判定的概率得分的重音序列。然后速度估計器用于基于重音序列來估計多個音頻幀的速度序列。所述實施方式可以很好地適應(yīng)于速度的變化,并且可以進(jìn)一步用于正確地跟蹤拍子。
【專利說明】音頻處理方法和音頻處理裝置以及訓(xùn)練方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及音頻信號處理。更具體地,本發(fā)明的實施方式涉及用于估計音 頻片段的速度值的音頻處理方法和音頻處理裝置以及用于訓(xùn)練音頻分類器的訓(xùn)練方法。
【背景技術(shù)】
[0002] 雖然一些現(xiàn)有的速度估計方法非常成功,但是這些方法仍然存在一定的局限性和 問題。例如,這些方法主要適用于范圍有限的流派和樂器,比如具有固定速度的鼓點或具有 "強拍"的流行舞蹈音樂。然而,具有挑戰(zhàn)性的是當(dāng)面對多種多樣的音樂比如具有弱音符的 音樂、拍子速度隨時間變化的音樂或具有非常嘈雜和復(fù)雜的音樂音符特征的音樂時保持性 能/準(zhǔn)確度。
【發(fā)明內(nèi)容】
[0003] 根據(jù)本申請的一種實施方式,提供了一種音頻處理裝置,包括:重音識別器,用于 從多個音頻幀中識別重音幀,產(chǎn)生重音序列,該重音序列包括針對多個音頻幀的重音和/ 或非重音判定的概率得分;以及速度估計器,用于基于該重音序列來估計多個音頻幀的速 度序列。
[0004] 根據(jù)另一種實施方式,提供了一種音頻處理方法,包括:從多個音頻幀中識別重音 幀,產(chǎn)生重音序列,該重音序列包括針對多個音頻幀的重音和/或非重音判定的概率得分; 以及基于該重音序列估計多個音頻幀的速度序列。
[0005] 根據(jù)又一種實施方式,提供了一種用于訓(xùn)練用于識別音頻片段中的重音/非重音 幀的音頻分類器的方法,包括:將訓(xùn)練音頻片段變換成多個幀;對多個幀中的重音幀進(jìn)行 標(biāo)記;從兩個相鄰重音幀之間隨機(jī)地選擇至少一個幀,并且將該幀標(biāo)記為非重音幀;以及 使用重音幀連同非重音幀一起作為訓(xùn)練數(shù)據(jù)集來訓(xùn)練音頻分類器。
[0006] 另一種實施方式涉及一種其上記錄有計算機(jī)程序指令的計算機(jī)可讀介質(zhì),當(dāng)計算 機(jī)程序指令由處理器執(zhí)行時,指令使得處理器能夠執(zhí)行如上所述的音頻處理方法。
[0007] 又一種實施方式涉及一種其上記錄有計算機(jī)程序指令的計算機(jī)可讀介質(zhì),當(dāng)計算 機(jī)程序指令由處理器執(zhí)行時,指令使得處理器能夠執(zhí)行如上所述的用于訓(xùn)練用于識別音頻 片段中的重音/非重音幀的音頻分類器的方法。
[0008] 根據(jù)本申請的各實施方式,音頻處理裝置和方法至少可以很好地適應(yīng)于速度的變 化,并且還可以用于正確地跟蹤拍子。
【專利附圖】
【附圖說明】
[0009] 在附圖中以示例而非限制的方式來說明本發(fā)明,其中相似的附圖標(biāo)記指代相似的 兀件,在附圖中:
[0010] 圖1是示出了根據(jù)本發(fā)明的實施方式的示例音頻處理裝置100的框圖;
[0011] 圖2是示出了音頻處理裝置100中包括的重音識別器200的框圖;
[0012] 圖3是示出了由不同的音頻分類器針對一段舞蹈音樂的輸出的曲線圖;
[0013] 圖4是示出了由不同的音頻分類器針對其中第一段為包含有節(jié)奏拍子的音樂片 段以及后面的一段為沒有拍子的無節(jié)奏音頻的拼接信號的輸出的曲線圖;
[0014] 圖5是示出了用于對在音頻處理裝置的實施方式中使用的音頻分類器進(jìn)行訓(xùn)練 的方法的流程圖;
[0015] 圖6示出了基本沖擊聲音分量的示例集,其中X軸表示頻點(frequency bins)并 且y軸表示分量索引;
[0016] 圖7示出了與音頻處理裝置的實施方式中的第一特征提取器有關(guān)的變型;
[0017] 圖8示出了與音頻處理裝置的實施方式中的第二特征提取器有關(guān)的實施方式和 變型;
[0018] 圖9示出了與音頻處理裝置的實施方式中的速度估計器有關(guān)的實施方式和變型;
[0019] 圖10示出了與音頻處理裝置的實施方式中的路徑度量單元有關(guān)的變型;
[0020] 圖11示出了與音頻處理裝置的實施方式中的拍子跟蹤單元有關(guān)的實施方式;
[0021] 圖12是示出了音頻處理裝置的實施方式中的前趨(predecessor)跟蹤單元的操 作的示意圖;
[0022] 圖13是示出了用于實現(xiàn)本申請的各個方面的示例性系統(tǒng)的框圖;
[0023] 圖14是示出了根據(jù)本申請的音頻處理方法的實施方式的流程圖;
[0024] 圖15是示出了根據(jù)本申請的音頻處理方法中的識別重音幀的操作的實現(xiàn)的流程 圖;
[0025] 圖16是示出了基于重音序列估計速度序列的操作的實現(xiàn)的流程圖;
[0026] 圖17是示出了動態(tài)規(guī)劃算法中使用的路徑度量的計算的流程圖;
[0027] 圖18和圖19是示出了跟蹤拍子序列的操作的實現(xiàn)的流程圖;以及
[0028] 圖20是示出了在跟蹤拍子序列的操作中的跟蹤在前的候選拍子位置的操作的流 程圖。
【具體實施方式】
[0029] 下面參照附圖描述本發(fā)明的實施方式。應(yīng)當(dāng)指出,為了簡潔,在附圖和描述中省略 了與本領(lǐng)域的技術(shù)人員公知的但是對于理解本申請而言并非必需的部件和處理有關(guān)的表 示和描述。
[0030] 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明的各個方面可以實施為系統(tǒng)、設(shè)備(例如移動 電話、便攜式媒體播放器、個人計算機(jī)、服務(wù)器、電視機(jī)機(jī)頂盒或數(shù)字錄像機(jī)或者任意其他 媒體播放器)、方法或者計算機(jī)程序產(chǎn)品。因此,本發(fā)明的各個方面可以采用硬件的實施方 式的形式、軟件的實施方式(包括固件、駐留軟件、微代碼等)的形式或者軟件方面與硬件方 面相結(jié)合的實施方式的形式,在本文中其可以總體上被稱為"電路"、"模塊"或"系統(tǒng)"。此 夕卜,本發(fā)明的各個方面可以采用包括在一個或更多個計算機(jī)可讀介質(zhì)中的計算機(jī)程序產(chǎn)品 的形式,其中,計算機(jī)可讀介質(zhì)上包括有計算機(jī)可讀程序代碼。
[0031] 可以利用一個或更多個計算機(jī)可讀介質(zhì)的任意組合。計算機(jī)可讀介質(zhì)可以是計算 機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)可以是例如但不限于電 子、磁、光學(xué)、電磁、紅外或半導(dǎo)體系統(tǒng)、裝置或設(shè)備、或者以上的任意適當(dāng)?shù)慕M合。計算機(jī)可 讀存儲介質(zhì)的更具體的示例(非窮舉性的列舉)可以包括:具有一條或更多條導(dǎo)線的電氣連 接、便攜式計算機(jī)軟盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦除可編程只 讀存儲器(EPROM或閃存)、光纖、便攜式光盤只讀存儲器(CD-ROM)、光學(xué)存儲設(shè)備、磁性存 儲設(shè)備或者以上的任意適當(dāng)組合。在本文獻(xiàn)的上下文中,計算機(jī)可讀存儲介質(zhì)可以是能夠 包含或者存儲用于由指令執(zhí)行系統(tǒng)、裝置或設(shè)備來使用或者與其結(jié)合使用的程序的任意有 形的介質(zhì)。
[0032] 計算機(jī)可讀信號介質(zhì)可以包括其中包括有計算機(jī)可讀程序代碼的傳播的數(shù)據(jù)信 號,該數(shù)據(jù)信號為基帶信號或者作為載波的一部分。這樣的傳播的信號可以采用各種形式, 包括但不限于電磁信號或光學(xué)信號或者其任意適當(dāng)?shù)慕M合。
[0033] 計算機(jī)可讀信號介質(zhì)可以為不是計算機(jī)可讀存儲介質(zhì)并且可以傳遞、傳播或傳輸 用于由指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或者與其結(jié)合使用的程序的任意計算機(jī)可讀介質(zhì)。 [0034] 包括在計算機(jī)可讀介質(zhì)上的程序代碼可以使用任意適當(dāng)?shù)慕橘|(zhì)發(fā)送,介質(zhì)包括但 不限于無線、有線線路、光纖光纜、射頻(RF)等或者以上的任意適當(dāng)?shù)慕M合。
[0035] 用于執(zhí)行本發(fā)明的各個方面的操作的計算機(jī)程序代碼可以用一種或更多種編程 語目的任意組合來編寫,編程語目包括面向?qū)ο蟮木幊陶Z目比如Java、Smalltalk、C++等 以及傳統(tǒng)的過程編程語言比如"C"編程語言或類似的編程語言。程序代碼可以在用戶的計 算機(jī)上作為單獨軟件包整體執(zhí)行,或者部分在用戶的計算機(jī)上執(zhí)行且部分在遠(yuǎn)程計算機(jī)上 執(zhí)行,或者整體在遠(yuǎn)程計算機(jī)或服務(wù)器上執(zhí)行。在后一種場景中,遠(yuǎn)程計算機(jī)可以通過包括 局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)的任意類型的網(wǎng)絡(luò)連接至用戶的計算機(jī),或者可以連接到外 部計算機(jī)(例如通過使用因特網(wǎng)服務(wù)提供商的因特網(wǎng))。
[0036] 下面參照根據(jù)本發(fā)明的實施方式的方法、裝置(系統(tǒng))和計算機(jī)程序產(chǎn)品的流程圖 和/或框圖來描述本發(fā)明的各個方面。應(yīng)當(dāng)理解,流程圖和/或框圖的每個塊以及流程圖 和/或框圖中的塊的組合可以用計算機(jī)程序指令來實現(xiàn)。這些計算機(jī)程序指令可以被提供 給通用計算機(jī)、專用計算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器,以形成機(jī)器,使得通過計 算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器來執(zhí)行的指令形成用于實現(xiàn)流程圖和/或框圖 的塊或多個塊中所指定的功能/行為的裝置。
[0037] 這些計算機(jī)程序指令還可以存儲在如下計算機(jī)可讀介質(zhì)中:該計算機(jī)可讀介質(zhì)可 以引導(dǎo)計算機(jī)、其他可編程數(shù)據(jù)處理裝置或其他設(shè)備以特定的方式工作,以使得存儲在計 算機(jī)可讀介質(zhì)中的指令產(chǎn)生制品,該制品包括實現(xiàn)流程圖和/或框圖的塊或多個塊中所指 定的功能/行為的指令。
[0038] 計算機(jī)程序指令還可以加載到計算機(jī)、其他可編程數(shù)據(jù)處理裝置或其他設(shè)備上, 以使得在計算機(jī)、其他可編程裝置或其他設(shè)備上執(zhí)行一系列運算步驟,從而產(chǎn)生計算機(jī)實 現(xiàn)的處理,以使得在計算機(jī)或其他可編程裝置上執(zhí)行的指令提供用于實現(xiàn)流程圖和/或框 圖的塊或多個塊中所指定的功能/行為的處理。
[0039] 整體解決方案
[0040] 圖1是示出了根據(jù)本發(fā)明的實施方式的示例音頻處理裝置100的框圖。
[0041] 如圖1所示,在第一實施方式中,音頻處理裝置100可以包括重音識別器200和速 度估計器300。在第二實施方式中,音頻處理裝置100還可以包括將在下文中描述的拍子跟 蹤單元400。
[0042] 下面將對第一實施方式進(jìn)行描述。
[0043] 在重音識別器200中,從多個音頻幀中識別出重音幀,產(chǎn)生包括針對多個音頻幀 的重音和/或非重音判定的概率得分的重音序列。在速度估計器300中,基于由重音識別 器200獲得的重音序列來估計多個音頻幀的速度序列。
[0044] 可以通過任何現(xiàn)有技術(shù)來準(zhǔn)備多個音頻幀。輸入音頻信號可以以預(yù)定采樣速率被 重采樣為單聲道信號,然后被劃分為幀。但本申請并不限于此,也可以使用本申請的解決方 案對多個通道上的音頻幀進(jìn)行處理。
[0045] 為了本申請的目的,音頻幀可以是彼此相繼的,但也可以在一定程度上互相重疊。 作為示例性實施,音頻信號可以被重采樣為44. 1kHz并且被劃分成具有512個樣本的步長 的2048個樣本(0.0464秒)的幀。即,重疊部分占幀的75%。當(dāng)然,重采樣頻率、幀中的樣 本數(shù)量和步長大小(從而重疊比例)可以是其他值。
[0046] 重音識別器200可以工作在時域或頻域中。換言之,多個音頻幀中的每一個可以 是時變信號的形式,或者可以變換成各種譜,比如頻譜或能量譜。例如,每個音頻幀可以轉(zhuǎn) 換到FFT (快速傅里葉變換)頻域。短時傅里葉變換(STFT)可以用于獲得每個音頻幀的譜:
[0047] X(t, k), k=l, 2, ···, K. (1)
[0048] 其中,Κ是音頻幀的傅里葉系數(shù)的數(shù)量,t是音頻幀的時間序列號(索引)。
[0049] 也可以使用其他類型的譜,比如時間校正(time-corrected)瞬時頻譜(TCIF)或 復(fù)數(shù)正交鏡像濾波器(CQMF)變換譜,并且這些譜也可以使用X(t,k)表示。
[0050] 這里使用的術(shù)語"重音"表示在音樂中對特定音符的強調(diào)(emphasi s )。重音有助 于樂句的演奏的發(fā)音和韻律。與周圍的音符相比:1)動力重音或加重重音是使用較響的聲 音來加以強調(diào),通常在聲音的沖擊上最突出;2)聲調(diào)重音是利用音調(diào)較高而非音量較高來 強調(diào)音符;以及3)緩急重音是利用持續(xù)時間較長來加以強調(diào)。另外,在有節(jié)奏的背景下,重 音具有一些感知屬性,例如,通常,打擊聲音、低音等可以被視為重音。
[0051] 本申請不限于音樂中的重音。在一些申請中,"重音"可以表示給予字中的特定音 節(jié)或短語內(nèi)的特定字的語音突出性。當(dāng)該突出性通過較大的動力產(chǎn)生時,通常由幅值(音 量)、音節(jié)或元音長度、元音的完全發(fā)音和音調(diào)的無區(qū)別性變化的組合表示,該結(jié)果稱為加 重重音、動力重音或簡稱為重讀;當(dāng)該突出性僅通過音調(diào)產(chǎn)生時,被稱為音調(diào)重音;以及當(dāng) 該突出性僅通過長度產(chǎn)生時,被稱為音長重音。
[0052] 在除了音樂或語音之外的其他音頻信號中,例如,在心律或鼓掌中,也可以存在重 音,并且可以使用與上面類似的屬性對其進(jìn)行描述。
[0053] 上述"重音"的定義表示音頻信號或音頻幀中的重音的固有屬性?;谶@些固有 屬性,在重音識別器200中可以提取特征并且可以基于特征對音頻幀進(jìn)行分類。換言之,重 音識別器200可以包括基于機(jī)器學(xué)習(xí)的分類器210 (圖2)。
[0054] 特征可以包括,例如,結(jié)合譜幅值和相位信息的復(fù)數(shù)域特征,或反映音樂節(jié)奏屬性 的一個或更多個方面的任何其他特征。更多的特征可以包括由梅爾頻率倒譜系數(shù)(MFCC)、 譜重心、譜滾降中的至少一個構(gòu)成的音色相關(guān)的特征、由譜波動(譜通量)、梅爾能量分布中 的至少一個構(gòu)成的能量相關(guān)的特征以及由低音調(diào)色度和音調(diào)色度構(gòu)成的旋律相關(guān)的特征。 例如,音調(diào)色度的變化的位置通常表示和弦變化,針對某些音樂風(fēng)格和弦變化基本上是強 拍點。
[0055] 可以使用現(xiàn)有技術(shù)提取這些特征。在圖2中使用"特征提取器組"206表示相應(yīng)的 硬件部件或軟件模塊。
[0056] 作為對該實施方式的改進(jìn),重音識別器200可以在特征提取器組206中包括盡可 能多的特征提取器并且獲得包括盡可能多的特征的特征集。然后子集選擇器208 (圖2)可 以用于選擇所提取的特征的適當(dāng)子集以由分類器210用于對當(dāng)前音頻信號或音頻幀進(jìn)行 分類。這可以使用現(xiàn)有的自適應(yīng)分類技術(shù)完成,通過現(xiàn)有的自適應(yīng)分類技術(shù)可以基于待分 類的對象的內(nèi)容來選擇適當(dāng)?shù)奶卣鳌?br>
[0057] 分類器210可以是本領(lǐng)域中任何類型的分類器。在一種實施方式中,可以采用雙 向長短時存儲器(Bidirectional Long Short Term Memory,BLSTM)作為分類器 210。雙 向長短時存儲器是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,其中"雙向"表示輸入被前向和后向提供給兩個單獨 的回歸網(wǎng)絡(luò),這兩個回歸網(wǎng)絡(luò)均連接至相同的輸出層,并且"長短時存儲器"表示能夠?qū)W習(xí) 長期依賴性的替選的神經(jīng)架構(gòu),在我們的實驗中證明"長短時存儲器"很好地適合于諸如重 音/非重音分類的任務(wù)。也可以采用AdaBoost作為用于重音/非重音分類的替選的算法。 在概念上,AdaBoost通過根據(jù)各個弱分類器的差錯率使用針對各個弱分類器的自適應(yīng)權(quán)重 來組合一系列弱分類器,從而建立強分類器。還有大量分類器也可以用于該任務(wù),比如支持 向量機(jī)(SVM)、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)和決策樹(DT )。
[0058] 在各種分類器中,BLSTM優(yōu)選地用于估計重音的后驗概率。其他分類方法比如 AdaBoost和SVM將正類與負(fù)類之間的差異最大化,但在它們之間產(chǎn)生較大的不平衡,尤其 是對于稀少的正樣本(例如,重音樣本)更是如此,而BLSTM沒有這樣的問題。此外,對于諸 如AdaBoost和SVM這樣的分類方法,由于特征比如譜通量和MFCC的一階和二階差分僅帶 有短期序列信息而沒有長期信息,因此長期信息丟失。相反,BLSTM的雙向結(jié)構(gòu)可以在兩個 方向上對長期信息進(jìn)行編碼,因此更適合重音跟蹤任務(wù)。我們的評估顯示,與傳統(tǒng)的分類器 相比,對于中信分類BLSTM總能得到改進(jìn)的性能。圖3示出了由不同的算法針對一段有節(jié) 奏的音樂片段的估計輸出:實線表示BLSTM的激活輸出,短劃線表示AdaBoost的概率輸出, 點虛線表示真實拍子位置。圖3 (橫軸表示幀索引號)顯示,與AdaBoost輸出相比,BLSTM 輸出明顯噪聲較小并且與真實重音位置更對準(zhǔn)。圖4 (橫軸表示幀索引號)示出了針對拼 接信號的估計輸出,在該拼接信號中第一段為包含有節(jié)奏拍子的音樂片段并且后面的一段 為沒有拍子的無節(jié)奏音頻。圖4示出了 BLSTM (實線)的激活輸出在后面的音頻片段中要 顯著低于在前面的音樂片段中,并且與AdaBoost (短劃線)的輸出相比,在后面的片段中包 含少得多的噪聲峰。與圖3類似,點虛線表示真實拍子位置。
[0059] 可以使用任何傳統(tǒng)方法預(yù)先訓(xùn)練分類器210。即,在要訓(xùn)練重音/非重音分類器的 數(shù)據(jù)集中,將該數(shù)據(jù)集中的每個幀標(biāo)記為重音類或非重音類。然而,由于非重音幀遠(yuǎn)多于重 音幀,因此這兩個類非常不平衡。為了緩解不平衡問題,在本申請中提出了通過在每對重音 幀之間隨機(jī)地選擇至少一個幀來生成非重音幀。
[0060] 因此,如圖5所示,在本申請中還提供了一種用于訓(xùn)練用于識別音頻片段中的重 音/非重音幀的音頻分類器的方法。即,首先將訓(xùn)練音頻片段變換成多個幀(步驟502),多 個幀可以彼此重疊或不重疊。在多個幀中,標(biāo)記重音幀(步驟504)。雖然重音幀之間的那些 幀自然是非重音幀,但并不是將所有的非重音幀都加入到訓(xùn)練數(shù)據(jù)集中。而是僅標(biāo)記部分 非重音幀并加入到數(shù)據(jù)集中。例如,可以從兩個相鄰重音幀之間隨機(jī)地選擇至少一個幀,并 且將其標(biāo)記為非重音幀(步驟506)。然后,可以使用標(biāo)記的重音幀和標(biāo)記的非重音幀作為訓(xùn) 練數(shù)據(jù)集來訓(xùn)練音頻分類器(步驟508)。
[0061] 然后,返回圖1,在重音識別器200的處理之后,速度估計器300用于基于由重音識 別器200獲得的重音序列來估計速度序列。
[0062] 在音樂術(shù)語中,速度是給定片段的速率或步調(diào)。通常以每分鐘拍子數(shù)(BPM)表示 速度。這表示將特定的音符值(例如四分音符)指定為拍子,并且每分鐘必須演奏一定數(shù)量 的這種拍子。速度越大,每分鐘內(nèi)必須演奏的拍子的數(shù)量越大,從而必須越快地演奏音樂片 段。拍子是時間的基本單位,是具有量音式(mensural level)的脈沖。拍子與音樂的節(jié)奏 元素有關(guān)。音樂中的節(jié)奏以加重的拍子和未加重的拍子(通常稱為"強拍"和"弱拍")的重 復(fù)序列為特征。
[0063] 本申請不限于音樂。對于音樂之外的其他音頻信號,速度和拍子可以具有類似的 含義以及相應(yīng)的類似的物理屬性。
[0064] 基本上,所有拍子都是重音,但并不是所有重音都是拍子,雖然也存在一些其中一 些拍子不是重音的例外情況??紤]到重音多于拍子,基于重音估計速度將比基于拍子估計 速度更準(zhǔn)確。因此,在本申請中,提出了通過檢測重音來估計速度值。具體地,速度估計器 300基于由重音識別器200獲得的重音序列來估計速度序列。此外,速度估計器300并非估 計單個恒定速度值,而是獲得速度序列,該速度序列可以由隨著幀、也就是隨著時間變化的 速度值的序列構(gòu)成。換言之,每個幀(或每幾個幀)具有其自己的速度值。
[0065] 可以使用任何周期性估計技術(shù)來實現(xiàn)速度估計器300。如果在音頻片段(重音序列 的形式)中發(fā)現(xiàn)周期性,則周期τ與速度值相對應(yīng)。
[0066] 可能的周期性估計技術(shù)可以包括:自相關(guān)函數(shù)(ACF),其中特定的間隔處的自相 關(guān)值反映該間隔(對應(yīng)于周期τ并且進(jìn)一步對應(yīng)于速度值)的概率得分;梳狀濾波,其中特 定的周期/間隔τ處的互相關(guān)值反映該周期/間隔的概率得分;直方圖技術(shù),其中在每兩 個檢測到的重音之間周期/間隔τ的發(fā)生概率/計數(shù)可以反映該周期/間隔的概率得分; 周期性變換比如快速傅立葉變換FFT (這里,經(jīng)受傅立葉變換的是重音序列,而不是原始音 頻信號/幀),其中某一周期/間隔τ處的FFT值可以反映該周期/間隔的概率得分;以及 基于多代理的推理方法,其中,通過在速度跟蹤/估計中使用特定的周期/間隔τ (對應(yīng)于 "代理")而實現(xiàn)的良好度/匹配度可以反映該周期/間隔的概率得分。在每種可能的技術(shù) 中,對于具體的幀或具體的音頻片段,應(yīng)當(dāng)選擇具有最高概率分?jǐn)?shù)的周期/間隔。
[0067] 在第二實施方式中,音頻處理裝置100還包括用于基于速度序列來估計重音序列 的一段中的拍子位置的序列的拍子跟蹤單元400。同樣,由于估計的速度序列可以很好地反 映速度的變化,因此估計的拍子位置將不會具有恒定的周期性,而是可以很好地匹配變化 的速度值。與直接估計拍子位置(然后基于拍子位置估計速度值)的常規(guī)技術(shù)相比較,首先 基于重音估計來估計速度值,然后基于速度值估計拍子位置的本實施方式可以獲得更準(zhǔn)確 的結(jié)果。
[0068] 特定的速度值與特定的周期或拍子間持續(xù)時間(間隔)相對應(yīng)。因此,如果獲得了 一個真實拍子位置,則可以根據(jù)速度序列獲得所有其他的拍子位置。該一個真實拍子位置 可以被稱為拍子位置的"種子"。
[0069] 在本申請中,可以使用任何技術(shù)估計拍子位置種子。例如,可以將重音序列中具有 最高概率分?jǐn)?shù)的重音當(dāng)作拍子位置種子?;蛘呖梢允褂糜糜谂淖庸烙嫷娜魏纹渌F(xiàn)有技 術(shù),但是僅為了獲得種子,而不是所有拍子位置,這是因為將基于速度序列來確定其他拍子 位置。這些現(xiàn)有技術(shù)可以包括但不限于峰值獲得方法、基于機(jī)器學(xué)習(xí)的拍子分類器或基于 模式識別的拍子識別器。
[0070] 沖擊顯著件特征
[0071] 在第三實施方式中,提出了新的特征以豐富分類器210 (和/或子集選擇器208) 使用的特征空間,并且顯著地改進(jìn)分類器210的性能以及從而改進(jìn)重音識別器200的性能。 新特征可以稱為"沖擊顯著性特征",但應(yīng)當(dāng)注意,特征的命名不是要在任何意義上限制該 特征和本申請。
[0072] 因此,將第一特征提取器202 (圖2和圖7)添加至特征提取器組206以用于從每 個音頻幀中提取至少一個沖擊顯著性特征。并且分類器210可以被配置成至少基于至少一 個沖擊顯著性特征來對多個音頻幀進(jìn)行分類,和/或子集選擇器208可以被配置成從至少 包括至少一個沖擊顯著性特征的特征集中選擇適當(dāng)?shù)奶卣鳌?br>
[0073] 簡言之,沖擊顯著性特征表示基本沖擊聲音分量在音頻幀中占的比例。術(shù)語"沖 擊"表示可感知的聲音脈沖或聽覺聲音事件的可感知的起始或音符。"沖擊"聲音的示例可 以包括打擊樂器比如镲(hat)、鈸或包括小軍鼓、底鼓、筒鼓、低音鼓等的鼓的聲音,鼓掌或 跺腳的聲音等。沖擊聲音具有其自己的物理屬性并且可以被分解為一系列基本沖擊聲音分 量,這些基本沖擊聲音分量可以被視為沖擊聲音的表征。因此,基本沖擊聲音分量在音頻中貞 中的比例可以用作沖擊顯著性特征,表示音頻幀在多大程度上聽起來像沖擊聲,從而可能 是重首。
[0074] 基本沖擊聲音分量可以是事先已知的。一方面,基本沖擊聲音分量可以從類似前 面的段落中列出的各種沖擊聲源的集合中學(xué)習(xí)。為此,可以采用任何分解算法或源分離方 法,比如非負(fù)矩陣分解(NMF)算法、主成分分析(PCA)和獨立成分分析(ICA)。即,可以視為 將基于各種沖擊聲源的集合而歸納得到的綜合沖擊聲源被分解成多個基本沖擊聲音分量 (仍采用STFT譜作為示例,但其他譜也是可行的):
[0075] Xs (t, k) =A (t, n) *D (n, k)
[0076] = [Aatt (t,1),Aatt (t,2),...,Aatt (t,N) ] * [Datt (1,k),Datt (2, k),...,Datt (N,k)],
[0077] (2)
[0078] 其中,Xs(t,k)為沖擊聲源,1?=1,2,···,Κ,K為音頻幀的傅里葉系數(shù)的數(shù)量,t是 音頻幀的時間序列號(索引),D (n,k) = [Datt (1,k),Datt (2, k),…,Datt (N,k)] '為基本沖擊 聲音分量,n=l,2, "·,Ν,N是基本沖擊聲音分量的數(shù)量,A(t,n) = [Aatt(t,l),Aatt(t,2),… ,Aatt (t,N)]為相應(yīng)的基本沖擊聲音分量的混合因數(shù)的矩陣。
[0079] 在學(xué)習(xí)階段,通過上述分解算法和源分離方法,但并不限于此,可以獲得混合因數(shù) A(t,n)的矩陣和基本沖擊聲音分量D(n,k)的集合,但我們僅需要D(n,k),從而可以丟棄 A(t,η)。
[0080] 圖6給出了基本沖擊聲音分量的集合的示例,其中X軸表示頻點,y軸表示分量索 弓丨。具有灰度級的條帶表示相應(yīng)的頻點的強度?;叶葪l越暗,強度越高。
[0081] 然后,在重音識別器200中,第一特征提取器202使用相同或類似的分解算法或 源分離方法來分解音頻幀,音頻幀要被處理成在學(xué)習(xí)階段獲得的基本沖擊聲音分量D (n,k) 中的至少一個,得到混合因數(shù)矩陣,所述混合因數(shù)整體地或單獨地作為至少一個沖擊顯著 性特征。艮P,
[0082] X (t, k) =F (t, n) *D (n, k)=
[0083] [Fatt (t,1),F(xiàn)att (t,2),...,F(xiàn)att (t,N) ] * [Datt (1,k),Datt (2, k),...,Datt (N,k)],
[0084] (3)
[0085] 其中,X(t,k)為在等式(1)中獲得的音頻幀,k=l,2, ···,!(,K為音頻幀的傅里葉 系數(shù)的數(shù)量,t為音頻幀的時間序列號(索引),D(n,k)為在等式(2)中獲得的基本沖擊 聲音分量, η=1,2,···,Ν,N為基本沖擊聲音分量的數(shù)量,F(xiàn)(t,n) = [Fatt(t,l),F(xiàn)att(t,2)^·· ,F(xiàn)att(t,N)]為相應(yīng)的基本沖擊聲音分量的混合因數(shù)的矩陣。矩陣F(t,n)整體或矩陣中的 任何元素可以用作至少一個沖擊顯著性特征?;旌弦驍?shù)的矩陣還可以被處理以得到?jīng)_擊顯 著性特征,比如混合因數(shù)的一些統(tǒng)計特性、一些或所有混合因數(shù)的線性/非線性組合等。
[0086] 在實施方式的一種變型中,至少一個基本沖擊聲音分量還可以根據(jù)音樂學(xué)知識通 過手動構(gòu)造事先得到。這是因為沖擊聲源具有其固有的物理屬性并具有其自己的特定譜。 那么,基于關(guān)于沖擊聲源的譜屬性的知識,可以手動構(gòu)造基本沖擊聲音分量。
[0087] 在實施方式的另一種變型中,由于即使沖擊聲源比如打擊樂器也可以包括一些非 沖擊聲首分量,該非沖擊聲首分量也是沖擊聲源比如打擊樂器的特性,因此還可以考慮非 沖擊聲音分量。并且在真實的音樂片段中,是打擊樂器比如鼓的全部聲音而不僅是鼓的一 些分量表示音樂中的重音或拍子。從另一觀點來看,即使非沖擊聲音分量的混合因數(shù)最終 沒有被考慮到?jīng)_擊顯著性特征中,如果分解算法將包括非沖擊聲音分量的所有可能的分量 考慮在內(nèi),則也可以獲得更準(zhǔn)確的結(jié)果;換言之,在將非沖擊分量考慮在內(nèi)的情況下,可以 正確地分解所有類型的音頻信號,即使這些音頻信號包含或多或少的非沖擊聲音分量或者 大部分或完全包括非沖擊聲音分量。
[0088] 因此,在學(xué)習(xí)階段中,聲源可以被如下分解:
[0089] Xs (t, k) =A (t, n) *D (n, k)
[0090] = [Aatt (t, 1), Aatt (t, 2), , Aatt (t, , Anon (t, N^l), Anon (t, ^
[0091] +2),
[0092] [Datt {1,k),Datt (2, k),...,Datt (Nl, k),
[0093] Dnon (N^l, k), Dnon (^+2, k), , Dnon (^+^, k) ]' (4)
[0094] 其中,Xs(t,k)為沖擊聲源,k=l,2, "·,Κ,K為音頻幀的傅里葉系數(shù)的數(shù)量,t為 音頻幀的時間序列號(索引),D (n,k) = [Datt (1,1),Datt (2, k),…,Datt 沉,k),D_汎+1,k), Dnon沉+2, k),...,Dnm沉+?k)] '為基本聲音分量,n=l,2, ...,K+N2,其中K為基本沖擊 聲音分量的數(shù)量并且N2為基本非沖擊聲音分量的數(shù)量,A(t,n) = [Aatt(t,l),Aatt(t,2),… ,Aatt(t,N 1),An。n(t,N1+l),An。 n(t,N1+2),···,An。n(t,N1+N 2)]為相應(yīng)的基本聲音分量的混合因 數(shù)的矩陣。
[0095] 在另一種變型中,在學(xué)習(xí)階段,除了沖擊聲源以外,還可以將一些非沖擊聲源添加 到聲源的集合中。這樣的非沖擊聲源可以包括,例如,非打擊樂器、歌聲等。在這種情況下, 在等式(4)中,Xs(t,k)將包括沖擊聲源和非沖擊聲源兩者。
[0096] 然后,在重音識別器200中,第一特征提取器202使用類似的或相同的分解算法 或源分離方法來分解音頻幀,音頻幀要被處理成在學(xué)習(xí)階段中獲得的基本聲音分量D(n,k) 中的至少一個,得到混合因數(shù)的矩陣,所述混合因數(shù)整體地或單獨地作為至少一個沖擊顯 著性特征。即,
[0097] X (t,k) =F (t,n) *D (n,k) = [Fatt (t,1),F(xiàn)att (t,2),...,F(xiàn)att (t,NJ,F(xiàn)n0n (t,K+
[0098] 1),F(xiàn)non(t,K+2),...,F(xiàn)non(t,Κ+Ν 2) ]*
[0099] [Datt (1,k),Datt (2, k),...,Datt (N" k),0臟(?+1,k),0議(?+
[0100] 2,k),k)]' (5)
[0101] 其中,X(t,k)為等式(1)中獲得的音頻幀,k=l,2, "·,Κ,K為音頻幀的傅里葉系 數(shù)的數(shù)量,t為音頻幀的時間序列號(索引),D(n,k)為等式(2)中獲得的基本聲音分量, n=l,2, ···,&+&,其中&為基本沖擊聲音分量的數(shù)量并且N2為基本非沖擊聲音分量的數(shù) 量,F(xiàn)(t,η)為相應(yīng)的基本聲音分量的混合因數(shù)的矩陣。矩陣F(t,η)整體或矩陣中的任何 元素可以用作至少一個沖擊顯著性特征。混合因數(shù)的矩陣還可以被處理以得到?jīng)_擊顯著性 特征,比如混合因數(shù)的一些統(tǒng)計特性、一些或所有混合因數(shù)的線性/非線性組合等。作為 另一種變型,雖然也獲得了基本非沖擊聲音分量的混合因數(shù),F(xiàn)_(t,Κ+1),F(xiàn)_(t,Κ+2),… 但是當(dāng)?shù)玫經(jīng)_擊顯著性特征時僅考慮基本沖擊聲音分量的混合因數(shù) Fatt (t,1),F(xiàn)att (t,2),...,F(xiàn)att (t,N!)。
[0102] 在圖7中所示的與第一特征提取器202有關(guān)的另一種變型中,第一特征提取器202 可以包括歸一化單元2022,用于使用音頻幀的能量將每個音頻幀的至少一個沖擊顯著性特 征歸一化。為了避免突然的波動,歸一化單元2022可以被配置成使用音頻幀的被在時間 上平滑的能量將每個音頻幀的至少一個沖擊顯著性特征歸一化。"音頻幀的被在時間上平 滑的能量"表示音頻幀的能量在幀索引的維度上被平滑。存在各種用于進(jìn)行時間平滑的方 法。一種是使用移動窗口計算能量的移動平均,即,關(guān)于當(dāng)前幀(幀可以在窗口的開始、中間 或末端處)確定窗口的預(yù)定大小,窗口中的這些幀的能量的平均可以被計算,作為當(dāng)前幀的 平滑后的能量。在其變型中,可以計算移動窗口內(nèi)的加權(quán)平均,以例如對當(dāng)前幀給予更多強 調(diào)等。另一種方法是計算歷史平均。即,當(dāng)前幀的平滑后的能量值是當(dāng)前幀的未經(jīng)平滑的 能量與至少一個較早的(通常是前一個)幀的至少一個平滑后的能量值的加權(quán)和。可以根據(jù) 當(dāng)前幀和較早的幀的重要性調(diào)整權(quán)重。
[0103] 相對強度特征
[0104] 在第四實施方式中,提出了另一種新的特征以豐富由分類器210(和/或子集選擇 器208)使用的特征空間,并且顯著地改進(jìn)分類器210的性能,從而改進(jìn)重音識別器200的 性能。該新特征可以稱為"相對強度特征",但是應(yīng)當(dāng)指出,特征的命名不不是要在任何意義 上限制該特征和本申請。
[0105] 因此,將第二特征提取器202 (圖2和圖8)添加至特征提取器組206以用于從每 個音頻幀中提取至少一個相對強度特征。并且分類器210可以被配置成至少基于至少一個 相對強度特征來對多個音頻幀進(jìn)行分類,和/或子集選擇器208可以被配置成從至少包括 至少一個相對強度特征的特征集中選擇適當(dāng)?shù)奶卣鳌?br>
[0106] 簡言之,音頻幀的相對強度特征表示音頻幀相對于至少一個相鄰音頻幀的強度變 化。根據(jù)重音的定義,知道重音通常比相鄰的(在前的或在后的)幀具有較大的強度,因此可 以使用強度的變化作為用于識別重音幀的特征。如果考慮到實時處理,通常在前的幀可以 用于計算該變化(在本申請中,采用在前的幀作為示例)。然而,如果處理不必須是實時的, 則也可以使用在后的幀?;蛘呖梢允褂脙烧?。
[0107] 可以基于信號能量或譜比如能量譜或STFT譜的變化計算強度變化。為了更準(zhǔn)確 地跟蹤信號分量的瞬時頻率,可以利用FFT譜的改良版來得到相對強度特征。該改良的譜 被稱為時間校正瞬時頻譜(TCIF)。下面給出使用該TCIF譜來提取相對強度特征的處理作 為示例,但本申請并不限于此并且下面的處理可以等同地應(yīng)用于包括能量譜的其他譜。
[0108] 在一種變型中,可以計算兩個所考慮的音頻幀的譜之間的差作為相對強度特征:
[0109] ΔX(t, k) =X(t, k)-X(t~l, k) (6)
[0110] 其中t-1表示在前的幀。
[0111] 在上面的變型的替選中,可以使用有關(guān)的幀的譜之間的比率替代差。
[0112] 在另一種替選中,可以將譜轉(zhuǎn)換到對數(shù)尺度并且可以計算有關(guān)的幀之間的對數(shù)差 作為所述差:
[0113] Xlog(t, k)=log(X(t, k)) (7)
[0114] ΔXlog(t, k) =Xlog(t, k)-Xlog(t~l, k) (8)
[0115] 則對于每個幀,得到K個差(或比率),分別對應(yīng)于頻點。K個差(或比率)中的至少 一個可以用作至少一個相對強度特征。差(或比率)可以被進(jìn)一步處理以得到相對強度特 征,比如差(或比率)的一些統(tǒng)計特性、一些或所有差(或比率)的線性/非線性組合等。例 如,如圖8所示,可以在第二特征提取器204中包括相加單元2044,用于在一些或所有K個 頻點上對有關(guān)的音頻幀之間的差求和。該和可以單獨用作相對強度特征,或可以與K個頻 點上的差一起形成K+1維向量作為相對強度特征。
[0116] 在一種變型中,上述差(包括對數(shù)差和比率)和/或和可以進(jìn)行半波整流以將差和 /或和的平均值大約偏移到零,并且忽略低于平均值的那些值。因此,可以在第二特征提取 器204中設(shè)置第一半波整流器2042(圖8)。具體地,平均值可以是如本公開的前一部分"沖 擊顯著性特征"的結(jié)尾處所討論的移動平均值或歷史平均值。可以使用下面的等式或其任 何數(shù)學(xué)變換來表達(dá)半波整流(采用對數(shù)差作為示例):
[0117]
【權(quán)利要求】
1. 一種音頻處理裝置,包括: 重音識別器,用于從多個音頻幀中識別重音幀,產(chǎn)生重音序列,所述重音序列包括針對 所述多個音頻幀的重音和/或非重音判定的概率得分;以及 速度估計器,用于基于所述重音序列來估計所述多個音頻幀的速度序列。
2. 根據(jù)權(quán)利要求1所述的音頻處理裝置,其中,所述重音識別器包括: 第一特征提取器,用于從每個音頻幀中提取至少一個沖擊顯著性特征,所述至少一個 沖擊顯著性特征表示至少一個基本沖擊聲音分量在所述音頻幀中占的比例;以及 分類器,用于至少基于所述至少一個沖擊顯著性特征來對所述多個音頻幀進(jìn)行分類。
3. 根據(jù)權(quán)利要求2所述的音頻處理裝置,其中,所述第一特征提取器被配置成使用分 解算法來估計每個音頻幀的所述至少一個沖擊顯著性特征:將所述音頻幀分解成至少一個 基本沖擊聲音分量,產(chǎn)生所述至少一個基本沖擊聲音分量的混合因數(shù)的矩陣,所述混合因 數(shù)整體地或單獨地作為所述至少一個沖擊顯著性特征的基礎(chǔ)。
4. 根據(jù)權(quán)利要求2所述的音頻處理裝置,其中,所述第一特征提取器被配置成使用分 解算法來估計所述至少一個沖擊顯著性特征:將每個音頻幀分解成至少一個基本沖擊聲音 分量和至少一個基本非沖擊聲音分量,產(chǎn)生所述至少一個基本沖擊聲音分量和所述至少一 個基本非沖擊聲音分量的混合因數(shù)的矩陣,所述混合因數(shù)整體地或單獨地作為所述至少一 個沖擊顯著性特征的基礎(chǔ)。
5. 根據(jù)權(quán)利要求2所述的音頻處理裝置,其中,所述第一特征提取器還包括歸一化單 元,用于使用所述音頻幀的能量對每個音頻幀的所述至少一個沖擊顯著性特征進(jìn)行歸一 化。
6. 根據(jù)權(quán)利要求1所述的音頻處理裝置,其中,所述重音識別器包括: 第二特征提取器,用于從每個音頻幀中提取至少一個相對強度特征,所述至少一個相 對強度特征表示所述音頻幀相對于至少一個相鄰音頻幀的強度變化;以及 分類器,用于至少基于所述至少一個相對強度特征來對所述多個音頻幀進(jìn)行分類。
7. 根據(jù)權(quán)利要求6所述的音頻處理裝置,其中,所述第二特征提取器被配置成計算每 個音頻幀的譜與至少一個相鄰音頻幀的譜之間的差,作為每個音頻幀的所述至少一個相對 強度特征。
8. 根據(jù)權(quán)利要求7所述的音頻處理裝置,其中,所述第二特征提取器被配置成計算每 個音頻幀的對數(shù)譜與至少一個相鄰音頻幀的對數(shù)譜之間的差,作為每個音頻幀的所述至少 一個相對強度特征。
9. 根據(jù)權(quán)利要求6所述的音頻處理裝置,其中,所述重音識別器包括: 第一特征提取器,用于從每個音頻幀中提取至少一個沖擊顯著性特征,所述至少一個 沖擊顯著性特征表示至少一個基本沖擊聲音分量在所述音頻幀中占的比例; 第二特征提取器,用于從每個音頻幀中提取至少一個相對強度特征,所述至少一個相 對強度特征表示所述音頻幀相對于至少一個相鄰音頻幀的強度變化;以及 分類器,用于至少基于所述至少一個沖擊顯著性特征和所述至少一個相對強度特征中 的一個來對所述多個音頻幀進(jìn)行分類。
10. 根據(jù)權(quán)利要求9所述的音頻處理裝置,其中,所述重音識別器還包括:至少一個附 加特征提取器,用于提取至少一個附加特征;以及子集選擇器,用于從所述至少一個附加特 征、所述至少一個沖擊顯著性特征和所述至少一個相對強度特征中選擇特征子集,并且所 述分類器被配置成通過使用所述特征子集來識別重音幀。
11. 根據(jù)權(quán)利要求2至10中的一項所述的音頻處理裝置,其中,所述分類器包括雙向長 短時存儲器BLSTM。
12. 根據(jù)權(quán)利要求1至10中的一項所述的音頻處理裝置,其中,所述速度估計器包括動 態(tài)規(guī)劃單元,所述動態(tài)規(guī)劃單元將所述重音序列作為輸入并且通過使沿著時間線包括預(yù)定 數(shù)量的候選速度值的路徑的路徑度量最小化來輸出最佳估計速度序列。
13. 根據(jù)權(quán)利要求12所述的音頻處理裝置,其中,所述速度估計器還包括周期性估計 器,用于估計所述重音序列在移動窗口內(nèi)的針對不同的候選速度值的周期性值,并且所述 動態(tài)規(guī)劃單元包括路徑度量單元,用于基于針對不同的候選速度值的所述周期性值來計算 所述路徑度量,其中,針對所述移動窗口的每一步估計速度值,所述移動窗口的大小取決于 所估計的速度值的期望精度,并且所述移動窗口的步長取決于期望的對速度變化的靈敏 度。
14. 根據(jù)權(quán)利要求13所述的音頻處理裝置,其中,所述周期性估計器包括自相關(guān)函數(shù) ACF計算器,用于計算移動窗口內(nèi)的所述重音概率得分的自相關(guān)值,作為所述周期性值。
15. 根據(jù)權(quán)利要求14所述的音頻處理裝置,其中,所述速度估計器還包括增強器,用于 使用間隔為與特定候選速度值相對應(yīng)的間隔的整數(shù)倍的情況下的自相關(guān)值來增強所述特 定候選速度值的所述自相關(guān)值。
16. 根據(jù)權(quán)利要求13所述的音頻處理裝置,其中,所述路徑度量單元被配置成基于周 期性值在給定特定候選速度值的條件下的條件概率、特定候選速度值的先驗概率和從速度 序列中的一個特定速度值到另一個特定速度值的轉(zhuǎn)移概率中的至少一個來計算所述路徑 度量。
17. 根據(jù)權(quán)利要求16所述的音頻處理裝置,其中,所述路徑度量單元包括第一概率計 算器,用于基于與特定候選速度值有關(guān)的周期性值和對于特定移動窗口所有可能的候選速 度值的周期性值,來計算該特定移動窗口的周期性值相對于所述特定候選速度值的條件概 率。
18. 根據(jù)權(quán)利要求16所述的音頻處理裝置,其中,所述路徑度量單元還包括第二概率 計算器,用于:針對特定移動窗口,基于與所述特定移動窗口相對應(yīng)的可能的元數(shù)據(jù)值的概 率和特定速度值在給定所述特定移動窗口的每個可能元數(shù)據(jù)值的條件下的條件概率,來計 算特定候選速度值的先驗概率。
19. 根據(jù)權(quán)利要求18所述的音頻處理裝置,其中,所述元數(shù)據(jù)表示音頻類型。
20. 根據(jù)權(quán)利要求16所述的音頻處理裝置,其中,所述路徑度量單元還包括第三概率 計算器,用于:基于與移動窗口或下一個移動窗口相對應(yīng)的可能的元數(shù)據(jù)值的概率,和針對 所述可能的元數(shù)據(jù)值中的每一個從所述移動窗口的特定速度值轉(zhuǎn)移到所述下一個移動窗 口的特定速度值的概率,來計算從所述移動窗口的特定速度值到所述下一個移動窗口的特 定速度值的轉(zhuǎn)移概率。
21. 根據(jù)權(quán)利要求20所述的音頻處理裝置,其中,所述元數(shù)據(jù)表示音頻類型。
22. 根據(jù)權(quán)利要求12所述的音頻處理裝置,還包括: 拍子跟蹤單元,用于基于所述速度序列來估計所述重音序列的一段中的拍子位置的序 列。
23. 根據(jù)權(quán)利要求22所述的音頻處理裝置,其中,所述拍子跟蹤單元包括: 前趨跟蹤單元,用于在所述重音序列的所述段的第一方向上針對每個錨點位置,在所 述重音序列的所述段的第二方向上跟蹤在前的候選拍子位置,以基于所述在前的候選拍子 位置的得分來更新所述錨點位置的得分;以及 選擇單元,用于選擇具有最高得分的位置作為用作種子的拍子位置,基于所述種子,基 于所述速度序列在所述段的前向方向和后向方向迭代地跟蹤所述段中的其他拍子位置; 其中,所述第一方向是所述前向方向或所述后向方向;相應(yīng)地,所述第二方向是所述后 向方向或所述前向方向。
24. 根據(jù)權(quán)利要求23所述的音頻處理裝置,其中,所述重音序列的所述段中的位置的 初始得分基于所述幀的重音判定的概率得分來確定。
25. 根據(jù)權(quán)利要求23所述的音頻處理裝置,其中,所述前趨跟蹤單元被配置成在所述 第一方向和所述第二方向兩個方向上掃描所有錨點位置,獲取每個位置分別在所述第一方 向和所述第二方向上的兩個得分,并且所述選擇單元被配置成基于根據(jù)所述兩個得分所獲 得的組合得分來選擇所述種子。
26. 根據(jù)權(quán)利要求23所述的音頻處理裝置,其中,所述前趨跟蹤單元被配置成通過搜 索基于所述速度序列中的相應(yīng)的位置處的所述速度值所確定的搜索范圍來跟蹤所述在前 的候選拍子位置。
27. 根據(jù)權(quán)利要求26所述的音頻處理裝置,其中,所述前趨跟蹤單元被配置成基于根 據(jù)所述位置和相應(yīng)的速度值所計算的轉(zhuǎn)移代價來更新所述搜索范圍中的每個位置的得分, 以選擇所述搜索范圍中具有最高得分的位置作為所述在前的候選拍子位置,并且基于所述 搜索范圍中的最高得分來更新所述錨點位置的得分。
28. -種音頻處理方法,包括: 從多個音頻幀中識別重音幀,產(chǎn)生重音序列,所述重音序列包括針對所述多個音頻幀 的重音和/或非重音判定的概率得分;以及 基于所述重音序列估計所述多個音頻幀的速度序列。
29. 根據(jù)權(quán)利要求28所述的音頻處理方法,其中,所述識別操作包括: 從每個音頻幀中提取至少一個沖擊顯著性特征,所述至少一個沖擊顯著性特征表示至 少一個基本沖擊聲音分量在所述音頻幀中占的比例;以及 至少基于所述至少一個沖擊顯著性特征對所述多個音頻幀進(jìn)行分類。
30. 根據(jù)權(quán)利要求29所述的音頻處理方法,其中,所述提取操作包括使用分解算法來 估計每個音頻幀的所述至少一個沖擊顯著性特征:將所述音頻幀分解成至少一個基本沖擊 聲音分量,產(chǎn)生所述至少一個基本沖擊聲音分量的混合因數(shù)的矩陣,所述混合因數(shù)整體地 或單獨地作為所述至少一個沖擊顯著性特征的基礎(chǔ)。
31. 根據(jù)權(quán)利要求29所述的音頻處理方法,其中,所述提取操作包括使用分解算法來 估計所述至少一個沖擊顯著性特征:將每個音頻幀分解成至少一個基本沖擊聲音分量和至 少一個基本非沖擊聲音分量,產(chǎn)生所述至少一個基本沖擊聲音分量和所述至少一個基本非 沖擊聲音分量的混合因數(shù)的矩陣,所述混合因數(shù)整體地或單獨地作為所述至少一個沖擊顯 著性特征的基礎(chǔ)。
32. 根據(jù)權(quán)利要求29所述的音頻處理方法,還包括使用所述音頻幀的能量對每個音頻 幀的所述至少一個沖擊顯著性特征進(jìn)行歸一化。
33. 根據(jù)權(quán)利要求28所述的音頻處理方法,其中,所述識別操作包括: 從每個音頻幀中提取至少一個相對強度特征,所述至少一個相對強度特征表示所述音 頻幀相對于至少一個相鄰音頻幀的強度變化;以及 至少基于所述至少一個相對強度特征對所述多個音頻幀進(jìn)行分類。
34. 根據(jù)權(quán)利要求33所述的音頻處理方法,其中,所述提取操作包括計算每個音頻幀 的譜與至少一個相鄰音頻幀的譜之間的差,作為每個音頻幀的所述至少一個相對強度特 征。
35. 根據(jù)權(quán)利要求34所述的音頻處理方法,其中,所述提取操作包括計算每個音頻幀 的對數(shù)譜與至少一個相鄰音頻幀的對數(shù)譜之間的差,作為每個音頻幀的所述至少一個相對 強度特征。
36. 根據(jù)權(quán)利要求33所述的音頻處理方法,其中,所述識別操作包括: 從每個音頻幀中提取至少一個沖擊顯著性特征,所述至少一個沖擊顯著性特征表示至 少一個基本沖擊聲音分量在所述音頻幀中占的比例; 從每個音頻幀中提取至少一個相對強度特征,所述至少一個相對強度特征表示所述音 頻幀相對于至少一個相鄰音頻幀的強度變化;以及 至少基于所述至少一個沖擊顯著性特征和所述至少一個相對強度特征中的一個對所 述多個音頻幀進(jìn)行分類。
37. 根據(jù)權(quán)利要求36所述的音頻處理方法,其中,所述識別操作還包括提取至少一個 附加特征,以及從所述至少一個附加特征、所述至少一個沖擊顯著性特征和所述至少一個 相對強度特征中選擇特征子集,并且所述分類操作包括通過使用所述特征子集來識別重音 幀。
38. 根據(jù)權(quán)利要求29至37中的一項所述的音頻處理方法,其中,所述分類操作使用雙 向長短時存儲器BLSTM來實現(xiàn)。
39. 根據(jù)權(quán)利要求28至37中的一項所述的音頻處理方法,其中,所述估計操作包括動 態(tài)規(guī)劃算法,所述動態(tài)規(guī)劃算法將所述重音序列作為輸入并且通過使沿著時間線包括預(yù)定 數(shù)量的候選速度值的路徑的路徑度量最小化來輸出最佳估計速度序列。
40. 根據(jù)權(quán)利要求39所述的音頻處理方法,其中,所述估計操作還包括:估計所述重音 序列移動窗口內(nèi)的針對不同的候選速度值的周期性值,并且所述動態(tài)規(guī)劃處理包括:基于 針對不同的候選速度值的所述周期性值來計算所述路徑度量,其中,針對所述移動窗口的 每一步估計速度值,所述移動窗口的大小取決于所估計的速度值的期望精度,并且所述移 動窗口的步長取決于期望的對速度變化的靈敏度。
41. 根據(jù)權(quán)利要求40所述的音頻處理方法,其中,估計所述周期性值的操作包括計算 移動窗口內(nèi)的所述重音概率得分的自相關(guān)值,作為所述周期性值。
42. 根據(jù)權(quán)利要求41所述的音頻處理方法,其中,所述估計操作還包括:使用間隔為與 特定候選速度值相對應(yīng)的間隔的整數(shù)倍的情況下的自相關(guān)值來增強所述特定候選速度值 的所述自相關(guān)值。
43. 根據(jù)權(quán)利要求40所述的音頻處理方法,其中,計算所述路徑度量的所述操作包括 基于周期性值在給定特定候選速度值的條件下的條件概率、特定候選速度值的先驗概率和 從速度序列中的一個特定速度值到另一個特定速度值的轉(zhuǎn)移概率中的至少一個來計算所 述路徑度量。
44. 根據(jù)權(quán)利要求43所述的音頻處理方法,其中,所述計算路徑度量的操作包括:基于 與特定候選速度值有關(guān)的周期性值和對于特定移動窗口所有可能的候選速度值的周期性 值,來計算該特定移動窗口的周期性值相對于所述特定候選速度值的條件概率。
45. 根據(jù)權(quán)利要求43所述的音頻處理方法,其中,所述計算路徑度量的操作包括:針對 特定移動窗口,基于與所述特定移動窗口相對應(yīng)的可能的元數(shù)據(jù)值的概率和特定速度值在 給定所述特定移動窗口的每個可能的元數(shù)據(jù)值的條件下的條件概率來,計算特定候選速度 值的先驗概率。
46. 根據(jù)權(quán)利要求45所述的音頻處理方法,其中,所述元數(shù)據(jù)表示音頻類型。
47. 根據(jù)權(quán)利要求43所述的音頻處理方法,其中,所述計算路徑度量的操作包括:基于 與移動窗口或下一個移動窗口相對應(yīng)的可能的元數(shù)據(jù)值的概率,和針對所述可能的元數(shù)據(jù) 值中的每一個的從所述移動窗口的特定速度值轉(zhuǎn)移到所述下一個移動窗口的特定速度值 的概率,來計算從所述移動窗口的特定速度值到所述下一個移動窗口的特定速度值的轉(zhuǎn)移 概率。
48. 根據(jù)權(quán)利要求47所述的音頻處理方法,其中,所述元數(shù)據(jù)表示音頻類型。
49. 根據(jù)權(quán)利要求39所述的音頻處理方法,還包括: 基于所述速度序列來估計所述重音序列的一段中的拍子位置的序列。
50. 根據(jù)權(quán)利要求49所述的音頻處理方法,其中,估計所述拍子位置的序列的操作包 括: 在所述重音序列的所述段的第一方向上針對每個錨點位置,在所述重音序列的所述段 的第二方向上跟蹤在前的候選拍子位置,以基于所述在前的候選拍子位置的得分來更新所 述錨點位置的得分;以及 選擇具有最高得分的位置作為用作種子的拍子位置,基于所述種子,基于所述速度序 列在所述段的前向方向和后向方向迭代地跟蹤所述段中的其他拍子位置; 其中,所述第一方向是所述前向方向或所述后向方向;相應(yīng)地,所述第二方向是所述后 向方向或所述前向方向。
51. 根據(jù)權(quán)利要求50所述的音頻處理方法,其中,所述重音序列的所述段中的位置的 所述初始得分基于所述幀的重音判定的概率得分來確定。
52. 根據(jù)權(quán)利要求50所述的音頻處理方法,其中,所述跟蹤操作包括在所述第一方向 和所述第二方向兩個方向上掃描所有錨點位置,獲取每個位置分別所述第一方向和所述第 二方向上的兩個得分,并且所述選擇操作包括基于根據(jù)所述兩個得分所獲得的組合得分來 選擇所述種子。
53. 根據(jù)權(quán)利要求50所述的音頻處理方法,其中,所述跟蹤操作包括通過搜索基于所 述速度序列中的相應(yīng)的位置處的所述速度值所確定的搜索范圍來跟蹤所述在前的候選拍 子位置。
54. 根據(jù)權(quán)利要求53所述的音頻處理方法,其中,所述跟蹤操作包括基于根據(jù)所述位 置和相應(yīng)的速度值所計算的轉(zhuǎn)移代價來更新所述搜索范圍中的每個位置的得分,以選擇所 述搜索范圍中具有最高得分的位置作為所述在前的候選拍子位置,并且基于所述搜索范圍 中的最高得分來更新所述錨點位置的得分。
55. -種用于訓(xùn)練用于識別音頻片段中的重音/非重音幀的音頻分類器的方法,包括: 將訓(xùn)練音頻片段變換成多個幀; 標(biāo)記所述多個幀中的重音幀; 在兩個相鄰的重音幀之間隨機(jī)地選擇至少一個幀,并且將所述至少一個幀標(biāo)記為非重 音幀;以及 使用所述重音幀連同所述非重音幀一起作為訓(xùn)練數(shù)據(jù)集,對所述音頻分類器進(jìn)行訓(xùn) 練。
【文檔編號】G10L21/0272GK104217729SQ201310214901
【公開日】2014年12月17日 申請日期:2013年5月31日 優(yōu)先權(quán)日:2013年5月31日
【發(fā)明者】王捃, 蘆烈 申請人:杜比實驗室特許公司