国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于音樂試聽的流行歌曲關(guān)鍵段提取方法

      文檔序號:6386201閱讀:363來源:國知局
      專利名稱:用于音樂試聽的流行歌曲關(guān)鍵段提取方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及音樂信號分析領(lǐng)域,尤其是對流行歌曲關(guān)鍵段的定義和提取。
      背景技術(shù)
      在現(xiàn)代社會,流行音樂越來越廣泛地被人們接受,從人們對流行音樂理解的調(diào)查來看,人們對流行音樂的高潮部分印象最為深刻,而這一高潮部分則可以代表整首歌曲的類型并且包含歌曲的大部分信息。舉一個例子,1998年風(fēng)靡全球的歌曲《My heart will go on》,其中的“you are here,there’s nothing I fear,and I know that my heart will go on;we’ll stay forever this way,you are safe in my heart,and my heart will go on andon”部分是整首歌曲給人印象最為深刻的部分,聽眾在聽到這個部分的時候能完全理解這首愛情歌曲的主題和掌握歌曲蘊(yùn)涵的大部分信息。在此,我們定義這種高潮部分為一首歌曲的關(guān)鍵段。
      從音樂供應(yīng)商和音樂聽眾來說,提取一首歌曲的高潮部分都非常重要提取出歌曲的關(guān)鍵段以后,對音樂供應(yīng)商而言,可以快速地將歌曲分類,或放在網(wǎng)上供聽眾試聽和檢索;對聽眾而言,則可以快速試聽大量歌曲的關(guān)鍵段,從中找到自己喜歡的歌曲類型和曲目。
      本發(fā)明定義音樂關(guān)鍵段并提出提取關(guān)鍵段的算法,在所有可以查到的專利或發(fā)表的文獻(xiàn)中,尚沒有發(fā)現(xiàn)類似的專利和報道。

      發(fā)明內(nèi)容
      本發(fā)明的目的是提出一種實(shí)用快速的關(guān)鍵段提取的方法,用這一方法可以對流行音樂的關(guān)鍵段進(jìn)行快速準(zhǔn)確的提取。
      本發(fā)明的核心思想是通過對流行音樂的波形參數(shù)進(jìn)行分析,找到最能代表關(guān)鍵段的特征——短時能量;再加上輔助特征——關(guān)鍵段長度,利用這些特征將流行音樂關(guān)鍵段快速準(zhǔn)確地從整首音樂中提取出來(見圖1.)。
      我們知道音樂是一種聲音信號,而聲音是以聲波的形式存在的。通過對聲波進(jìn)行采樣和量化,人們把聲音信號以波形的方式保存下來,也就是WAV格式,它是聲音的最基本存儲形式,任何其它類型的音樂信號都可以很容易地轉(zhuǎn)化成這種格式。本發(fā)明針對的對象是采樣率為11025HZ,量化位數(shù)為8位的WAV格式的音樂信號(通過適當(dāng)調(diào)整參數(shù),本方法也可以直接應(yīng)用于其它不同采樣率和量化位數(shù)的WAV數(shù)據(jù))。
      本發(fā)明的核心內(nèi)容包含有以下6個步驟第一步,數(shù)據(jù)分段,把音樂數(shù)據(jù)流按一定的時間間隔長度分成一系列定長的音頻片段;第二步,特征提取,計算每個音頻片段的短時能量和所有音頻片段的平均能量;第三步,把所有音頻片段按時間先后順序分組,每組所包含的音頻片段數(shù)相同。計算每個音頻片段組的短時能量閾值穿越頻率;第四步,對每個音頻片段組的短時能量閾值穿越頻率做二值化,提取可能的關(guān)鍵段部分;第五步,對可能的關(guān)鍵段做長度檢測,將合適長度的段子放入候選集中,若長度大于閾值則將這個段子返回步驟一;第六步,關(guān)鍵段選擇,從關(guān)鍵段候選集中選擇平均能量最高的候選關(guān)鍵段作為最終的流行音樂關(guān)鍵段。
      本發(fā)明的特征在于它依次含有以下步驟(1)計算機(jī)初始化向計算機(jī)輸入與所述流行歌曲對應(yīng)的采樣頻率為11025Hz,量化位數(shù)為8位的WAV格式的音樂信號,即音樂的原始波形信號;(2)對WAV格式的數(shù)據(jù)分段每隔0.2秒即每前進(jìn)2205個采樣點(diǎn)取一個音頻片段,每個音頻片段為1秒,即含11025個采樣點(diǎn);(3)計算每個音頻片段的短時能量和所有音頻片段的平均能量,得到整首音樂的短時能量曲線設(shè)Ei為第i個音頻片段的短時能量,則Ei=1N&Sigma;m=1Nx2(m),]]>其中,N為每個音頻片段的采樣點(diǎn)數(shù),N=11025,x(m)是第i個音頻片段內(nèi)的第m個采樣點(diǎn)所對應(yīng)的波形幅值,其數(shù)值在-1到+1之間;根據(jù)每個音頻片段的短時能量值組成整首音樂的短時能量曲線;(4)把所有音頻片段按時間先后分組,每組所包含的音頻片段數(shù)相同,都是10個,每個音頻片段組的長度為2.8秒,再計算每個音頻片段組的短時能量閾值穿越頻率(4.1)設(shè)t為閾值,它是整首歌曲的平均短時能量的0.9倍,即t=0.9M&Sigma;i=1MEi,]]>
      其中,M為整首歌曲音樂數(shù)據(jù)的片段總數(shù);(4.2)對音樂數(shù)據(jù)中每個音頻片段組計算短時能量閾值穿越頻率,它是指在一個音頻片段組長的音頻信號中,其短時能量值超過上述閾值的次數(shù)除以這段信號所包含的音頻片段數(shù),所述第p個音頻片段組的短時能量閾值穿越頻率TCRp為TCRp=12S&CenterDot;&Sigma;j=1S|sgn(Ej-t)+1|]]>其中,Ej是第p個音頻片段組中的第j個音頻片段的短時能量值,S是音頻片段組中所包含的音頻片段個數(shù),S=10;(4.3)按照上述方法求出每個音頻片段組的短時能量閾值穿越頻率值,從而得到整首歌曲的短時能量閾值穿越頻率曲線;(5)對整首歌曲的短時能量閾值穿越頻率曲線做二值化,提取可能的關(guān)鍵段,形成關(guān)鍵段后選集(5.1)計算二值化的閾值T,它是TCR曲線均值的0.9倍T=0.9P&Sigma;i=1PTCRi,]]>其中,P是短時能量閾值穿越頻率曲線中所對應(yīng)的音頻片段組的總數(shù);(5.2)對上述短時能量閾值穿越頻率曲線進(jìn)行二值化 得到二值化后的短時能量閾值穿越頻率曲線BTCR。在BTCR中每個連續(xù)的“1”值部分所對應(yīng)就是這首流行歌曲的相對高能量區(qū)域,即可能的候選關(guān)鍵段;(6)對可能的后續(xù)關(guān)鍵段做長度檢測,把具有適合長度的片段放入關(guān)鍵段后選集中。
      若其長度大于閾值,則把該段音頻數(shù)據(jù)返回步驟(1)設(shè)定的流行音樂關(guān)鍵段的允許長度范圍為10-40秒,只有連續(xù)“1”值部分所對應(yīng)的音頻片段在此長度范圍內(nèi)才可被用作為候選關(guān)鍵段。長度大于40秒的連續(xù)“1”值部分所對應(yīng)的音頻數(shù)據(jù)將被返回步驟(1);(7)重復(fù)步驟(1)-(6),直到二值化后的所有連續(xù)“1”值部分所對應(yīng)的音頻數(shù)據(jù)的長度沒有超過40秒的為止;(8)從關(guān)鍵段后選集中選擇平均能量最高的候選關(guān)鍵段作為最終的流行音樂關(guān)鍵段設(shè)Ci是候選關(guān)鍵段集合Ψ中的第i個候選關(guān)鍵段,計算每個Ci的平均能量,則Ci的平均能量ECi為E&OverBar;Ci=1NCi&Sigma;m=1NCix2(m),]]>其中,NCi是Ci中所包含的采樣點(diǎn)個數(shù),x(m)是Ci中的第m個采樣點(diǎn)所對應(yīng)的波形幅值。
      若keyseg=argmaxCi&Element;&Psi;(E&OverBar;Ci),]]>則最終的關(guān)鍵段為keyseg。
      本發(fā)明的算法對于長度為5分鐘的流行歌曲在Pentium IV 1,500M HZ CPU的機(jī)器上運(yùn)行只需要470毫秒的時間,除去讀取數(shù)據(jù)時間,實(shí)際算法執(zhí)行時間為90毫秒,因此完全可以實(shí)現(xiàn)在線實(shí)時關(guān)鍵段提取。


      圖1.流行音樂關(guān)鍵段提取算法系統(tǒng)流程圖;圖2.流行音樂《My heart will go on》原始波形圖;圖3.流行音樂《My heart will go on》短時能量曲線圖;圖4.流行音樂《My heart will go on》短時能量閾值穿越頻率曲線圖;圖5.短時能量閾值穿越頻率曲線圖的二值化后的結(jié)果圖;圖6.流行音樂《My heart will go on》最終的關(guān)鍵段波形圖,對應(yīng)的歌詞為“you arehere,there’s nothing I fear,and I know that my heart will go on;we’llstay forever this way,you are safe in my heart,and my heart will go onand on”;
      具體實(shí)施例方式下面具體介紹各個步驟(1)數(shù)據(jù)分段WAV格式的數(shù)據(jù)實(shí)際上是一系列的波形采樣點(diǎn),每個采樣點(diǎn)對應(yīng)著一個波形幅值,其數(shù)值在-1到+1之間。我們首先將整個音樂信號分成若干片段,每個片段包含11025個采樣點(diǎn)(1秒)。為了使下一步所求得的特征值的變化較為平穩(wěn),我們每前進(jìn)2205個采樣點(diǎn)(0.2秒)取一個片段。這樣,相鄰的兩個音頻片段中將包含8820個(0.8秒)重復(fù)的采樣點(diǎn)。
      (2)短時能量計算然后求取音頻片段的短時能量值,計算公式如下Ei=1N&Sigma;m=1Nx2(m)]]>這里N是每個音頻片段所包含的采樣點(diǎn)個數(shù),x(m)是第i個音頻片段內(nèi)的第m個采樣點(diǎn)所對應(yīng)的波形幅值。在求得每個音頻片段的短時能量值后,我們將得到整首音樂的短時能量曲線。
      (3)計算短時能量閾值穿越頻率調(diào)查表明人們通常對歌曲的高潮部分很感興趣,而一首歌曲的高潮部分往往對應(yīng)著這首歌曲的高能量區(qū)域。因此,我們將在下面的步驟中提取出歌曲的若干相對高能量區(qū)域,并把它們作為這首歌曲的候選關(guān)鍵段。由于歌曲的短時能量曲線的變化一般都比較劇烈,使用直接的“閾值法”很難將高能量區(qū)域準(zhǔn)確、完整地提取出來。為此,我們將采用通過計算短時能量閾值穿越頻率的方法提取歌曲的高能量區(qū)域。所謂短時能量閾值穿越頻率是指在一段較長的音頻信號中,其短時能量值大于某個閾值的次數(shù)除以這段音頻信號所包含的音頻片段數(shù)?;诓襟E(2)得到的短時能量曲線,先求取閾值如下t=0.9M&Sigma;i=1MEi]]>這里M是音樂數(shù)據(jù)的片段總數(shù),Ei是第i個片段的短時能量數(shù)值,t是用于計算短時能量閾值穿越頻率的能量閾值,這里t實(shí)際上就是整首歌曲的平均短時能量的0.9倍。
      將音頻片段按時間先后順序分組,每10個音頻片段分為一組,這樣每個音頻片段組的長度為2.8秒(9×0.2+1=2.8)。每個音頻片段都會屬于一個音頻片段組,每個音頻片段組不包含相同的音頻片段。采用如下公式對每個音頻片段組計算短時能量閾值穿越頻率。其中,S是音頻片段組中所包含的音頻片段個數(shù),這里為10,Ej是第p個音頻片段組中的第j個音頻片段的短時能量值。
      TCRp=12S&CenterDot;&Sigma;j=1S|sgn(Ej-t)+1|]]>對每個音頻片段組都求得短時能量閾值穿越頻率后,我們將得到整首歌曲的短時能量閾值穿越頻率曲線。
      (4)對短時能量閾值穿越頻率曲線做二值化基于第(3)步求得的短時能量閾值穿越頻率曲線TCR,計算二值化閾值如下T=0.9P&Sigma;i=1PTCRi]]>這里P是短時能量閾值穿越頻率曲線所對應(yīng)的音樂數(shù)據(jù)中的音頻片段組總數(shù),T實(shí)際上是TCR曲線均值的0.9倍。對上述短時能量閾值穿越頻率曲線進(jìn)行二值化,采用如下公式
      二值化以后我們將得到只有0和1值的曲線BTCR,BTCR中每個連續(xù)的“1”值部分對應(yīng)的就是這首歌曲的相對高能量區(qū)域也就是可能的候選關(guān)鍵段。
      (5)提取候選關(guān)鍵段通過統(tǒng)計人們手工截取的流行音樂關(guān)鍵段的長度分布,我們發(fā)現(xiàn)95%的手工截取的關(guān)鍵段的長度介于10秒-40秒之間。因此,我們將對BTCR中每個連續(xù)的“1”值部分所對應(yīng)的音頻信號做長度檢測,只有長度在10秒到40秒之間的全“1”段才能成為候選關(guān)鍵段。如果長度大于40秒,則將這個大于40秒的連續(xù)“1”值部分所對應(yīng)的音頻數(shù)據(jù)重新送回步驟(1),直到二值化后沒有長度超過40秒的連續(xù)“1”值部分。下面是候選關(guān)鍵段提取的具體方法

      其中,Segi是第i個候選關(guān)鍵段Li是Segi的長度,Ψ是候選關(guān)鍵段集合。
      (6)選擇最終的關(guān)鍵段如果候選關(guān)鍵段集合Ψ為空,則表明該流行歌曲不存在合適的關(guān)鍵段,否則我們將從Ψ中選擇出一個最終的關(guān)鍵段。在最終關(guān)鍵段選擇中,長度已經(jīng)不是選取標(biāo)準(zhǔn),我們將選取平均能量最高的候選關(guān)鍵段作為最終關(guān)鍵段,如下所示E&OverBar;Ci=1NCI&Sigma;m=1NCIx2(m)]]>keyseg=argmaxCi&Element;&Psi;(E&OverBar;Ci),]]>這里Ci是Ψ中的第i個候選關(guān)鍵段,NCi是Ci中所包含的采樣點(diǎn)個數(shù),x(m)是Ci中的第m個采樣點(diǎn)所對應(yīng)的波形幅值。ECi是Ci的平均能量,keyseg是從該流行歌曲中提取出的最終關(guān)鍵段。
      我們的發(fā)明可以在普通PC計算機(jī)、掌上電腦或其它系統(tǒng)上實(shí)現(xiàn),對操作系統(tǒng)沒有要求。下面仍以英文流行歌曲《My heart will go on》為例,說明本方法的具體實(shí)施方式
      。首先,歌曲被保存為采樣率為11025/秒,量化位數(shù)為8位的混和單聲道WAV文件。WAV文件的數(shù)據(jù)為形如“…0.0469 0.0391 0.0391 0.0313 0.0234 0.0156 0.0156-0.0156-0.0156-0.0078-0.0234-0.0391-0.0313…”的數(shù)據(jù)流,每個數(shù)據(jù)代表該采樣點(diǎn)的波形幅值,每秒鐘的音頻流包含11025個這樣的數(shù)據(jù)。歌曲《My heart will go on》的長度約為310.8秒,其WAV文件約為包含3426570個采樣點(diǎn)的數(shù)據(jù)流(見圖2.)。
      (1)數(shù)據(jù)分段我們首先將整首音樂信號分成若干片段,每個片段包含11025個采樣點(diǎn)(1秒)。為了使下一步所求得的特征值的變化較為平穩(wěn),我們每前進(jìn)2205個采樣點(diǎn)(0.2秒)取一個片段。這樣,相鄰的兩個音頻片段中將包含8820個(0.8秒)重復(fù)的采樣點(diǎn)。對于歌曲《My heartwill go on》來說,其片段個數(shù)約為1549。
      (2)短時能量計算然后按照如下公式求取每個音頻片段的短時能量值。
      Ei=1N&Sigma;m=1Nx2(m)]]>這里N是每個音頻片段所包含的采樣點(diǎn)個數(shù),x(m)是第i個音頻片段內(nèi)的第m個采樣點(diǎn)所對應(yīng)的波形幅值。在求得每個音頻片段的短時能量值后,我們將得到整首音樂的短時能量曲線(見圖3.)。短時能量曲線是一系列形如“…53.6411 44.1260 44.1824 38.562937.0142 33.5928 33.3917 32.6293 31.6809 31.2856…”的數(shù)據(jù)流。
      (3)計算短時能量閾值穿越頻率所謂短時能量閾值穿越頻率是指在一段較長的音頻信號中,其短時能量值超過某個閾值的次數(shù)除以這段音頻信號所包含的音頻片段數(shù)?;诓襟E(2)得到的短時能量曲線,先求取閾值如下t=0.9M&Sigma;i=1MEi]]>這里M是音樂數(shù)據(jù)的片段總數(shù),Ei是第i個片段的短時能量數(shù)值,t是用于計算短時能量閾值穿越頻率的能量閾值,實(shí)際上就是整首歌曲的平均短時能量的0.9倍。對于歌曲《My heartwill go on》來說,t=35.0684。
      將音頻片段按時間先后順序分組,每10個音頻片段分為一組,這樣每個音頻片段組的長度為2.8秒(9×0.2+1=2.8)。每個音頻片段都會屬于一個音頻片段組,每個音頻片段組不包含相同的音頻片段。采用如下公式對每個音頻片段組計算短時能量閾值穿越頻率。其中,S是音頻片段組中所包含的音頻片段個數(shù),這里為10,Ej是第p個音頻片段組中的第j個音頻片段的短時能量值。
      TCRp=12S&CenterDot;&Sigma;j=1S|sgn(Ej-t)+1|]]>假設(shè)一個音頻片段組中所包含的短時能量值序列為“53.6411 44.1260 44.1824 38.562937.0142 33.5928 33.3917 32.6293 31.6809 31.2856”,則這個音頻片段組所對應(yīng)的短時能量閾值穿越頻率為0.5。對每個音頻片段組都求得短時能量閾值穿越頻率后,我們將得到整首歌曲的短時能量閾值穿越頻率曲線(見圖4.)。短時能量閾值穿越頻率曲線是一系列介于0,1之間的數(shù)據(jù)流,如“…0.1 0.8 0.6 1.0 0.5 1.0 0.3…”。
      (4)對短時能量閾值穿越頻率曲線做二值化基于第(3)步求得的短時能量閾值穿越頻率曲線TCR,計算二值化閾值如下T=0.9P&Sigma;i=1PTCRi]]>這里P是短時能量閾值穿越頻率曲線所包含的數(shù)據(jù)總數(shù),T實(shí)際上是TCR曲線均值的0.9倍。對上述短時能量閾值穿越頻率曲線進(jìn)行二值化,采用如下公式 二值化以后我們將得到只有“0”和“1”值的曲線BTCR。對于歌曲《My heart will go on》來說,T=0.38571,將上一步中得到的短時能量閾值穿越頻率序列“…0.1 0.8 0.6 1.0 0.51.0 0.3…”做二值化后得到的結(jié)果為“…0 1 1 1 1 1 0…”。其中連續(xù)的“1”值部分對應(yīng)的就是這首歌曲的相對高能量區(qū)域也就是可能的候選關(guān)鍵段(見圖5.)。
      (5)提取候選關(guān)鍵段對BTCR中每個連續(xù)的“1”值部分所對應(yīng)的音頻信號做長度檢測,只有長度在10秒到40秒之間的全“1”段才能成為候選關(guān)鍵段,如果長度大于40秒,則將這個連續(xù)的“1”值部分所對應(yīng)的音頻數(shù)據(jù)重新送回步驟(1),直到二值化后沒有長度超過40秒的連續(xù)“1”值部分。
      (6)選擇最終的關(guān)鍵段在最終關(guān)鍵段選擇中,長度已經(jīng)不是選取標(biāo)準(zhǔn),我們將選取平均能量最高的候選關(guān)鍵段作為最終關(guān)鍵段,如下所示E&OverBar;Ci=1NCi&Sigma;m=1NCix2(m)]]>keyseg=argmaxCi&Element;&Psi;(E&OverBar;Ci),]]>這里Ci是Ψ中的第i個候選關(guān)鍵段,NCi是Ci中所包含的采樣點(diǎn)個數(shù),x(m)是Ci中的第m個采樣點(diǎn)所對應(yīng)的波形幅值。ECi是Ci的平均能量,keyseg是從該流行歌曲中提取出的最終關(guān)鍵段。從流行歌曲《My heart will go on》中最終提取出的關(guān)鍵段長度為36秒,其對應(yīng)的歌詞為“you are here,there’s nothing I fear,and I know that my heart will goon;we’ll stay forever this way,you are safe in my heart,and my heart will goon and on”(見圖6.)。
      權(quán)利要求
      1.用于音樂試聽的流行歌曲關(guān)鍵段的提取方法,其特征在于它依次含有以下步驟(1)計算機(jī)初始化向計算機(jī)輸入與所述流行歌曲對應(yīng)的采樣頻率為11025Hz,量化位數(shù)為8位的WAV格式的音樂信號,即音樂的原始波形信號;(2)對WAV格式的數(shù)據(jù)分段每隔0.2秒即每前進(jìn)2205個采樣點(diǎn)取一個音頻片段,每個音頻片段為1秒,即含11025個采樣點(diǎn);(3)計算每個音頻片段的短時能量和所有音頻片段的平均能量,得到整首音樂的短時能量曲線設(shè)Ei為第i個音頻片段的短時能量,則Ei=1N&Sigma;m=1Nx2(m),]]>其中,N為每個音頻片段的采樣點(diǎn)數(shù),N=11025,x(m)是第i個音頻片段內(nèi)的第m個采樣點(diǎn)所對應(yīng)的波形幅值,其數(shù)值在-1到+1之間;根據(jù)每個音頻片段的短時能量值組成整首音樂的短時能量曲線;(4)把所有音頻片段按時間先后分組,每組所包含的音頻片段數(shù)相同,都是10個,每個音頻片段組的長度為2.8秒,再計算每個音頻片段組的短時能量閾值穿越頻率(4.1)設(shè)t為閾值,它是整首歌曲的平均短時能量的0.9倍,即t=0.9M&Sigma;i=1MEi,]]>其中,M為整首歌曲音樂數(shù)據(jù)的片段總數(shù);(4.2)對音樂數(shù)據(jù)中每個音頻片段組計算短時能量閾值穿越頻率,它是指在一個音頻片段組長的音頻信號中,其短時能量值超過上述閾值的次數(shù)除以這段信號所包含的音頻片段數(shù),所述第p個音頻片段組的短時能量閾值穿越頻率TCRp為TCRp=12S&CenterDot;&Sigma;j=1S|sgn(Ej-t)+1|]]>其中,Ej是第p個音頻片段組中的第j個音頻片段的短時能量值,S是音頻片段組中所包含的音頻片段個數(shù),S=10;(4.3)按照上述方法求出每個音頻片段組的短時能量閾值穿越頻率值,從而得到整首歌曲的短時能量閾值穿越頻率曲線;(5)對整首歌曲的短時能量閾值穿越頻率曲線做二值化,提取可能的關(guān)鍵段,形成關(guān)鍵段后選集(5.1)計算二值化的閾值T,它是TCR曲線均值的0.9倍T=0.9P&Sigma;i=1PTCRi,]]>其中,P是短時能量閾值穿越頻率曲線中所對應(yīng)的音頻片段組的總數(shù);(5.2)對上述短時能量閾值穿越頻率曲線進(jìn)行二值化 得到二值化后的短時能量閾值穿越頻率曲線BTCR。在BTCR中每個連續(xù)的“1”值部分所對應(yīng)就是這首流行歌曲的相對高能量區(qū)域,即可能的候選關(guān)鍵段;(6)對可能的后續(xù)關(guān)鍵段做長度檢測,把具有適合長度的片段放入關(guān)鍵段后選集中。若其長度大于閾值,則把該段音頻數(shù)據(jù)返回步驟(1)設(shè)定的流行音樂關(guān)鍵段的允許長度范圍為10-40秒,只有連續(xù)“1”值部分所對應(yīng)的音頻片段在此長度范圍內(nèi)才可被用作為候選關(guān)鍵段。長度大于40秒的連續(xù)“1”值部分所對應(yīng)的音頻數(shù)據(jù)將被返回步驟(1);(7)重復(fù)步驟(1)-(6),直到二值化后的所有連續(xù)“1”值部分所對應(yīng)的音頻數(shù)據(jù)的長度沒有超過40秒的為止;(8)從關(guān)鍵段后選集中選擇平均能量最高的候選關(guān)鍵段作為最終的流行音樂關(guān)鍵段設(shè)Ci是候選關(guān)鍵段集合ψ中的第i個候選關(guān)鍵段,計算每個Ci的平均能量,則Ci的平均能量ECi為E&OverBar;Ci=1NCi&Sigma;m=1NCix2(m),]]>其中,NCi是Ci中所包含的采樣點(diǎn)個數(shù),x(m)是Ci中的第m個采樣點(diǎn)所對應(yīng)的波形幅值。若keyseg=argmaxCi&Element;&Psi;(E&OverBar;Ci),]]>則最終的關(guān)鍵段為keyseg。
      全文摘要
      用于音樂試聽的流行歌曲關(guān)鍵段提取方法屬于音樂信號分析領(lǐng)域,其特征在于它以采樣率為11025Hz,量化位數(shù)為8的WAV格式音樂信號為對象,先把音樂數(shù)據(jù)流分成一系列定長的音頻片段,提取每個片段的短時能量;再把所有音頻片段按時間先后分組,計算短時能量閾值穿越頻率曲線并二值化,在此基礎(chǔ)上提取可能的候選關(guān)鍵段,并把具有合適長度的候選關(guān)鍵段放入集合中;最后從該集合中選擇平均能量最高的作為最終的流行音樂關(guān)鍵段。處理長度為5分鐘的流行歌曲在Pentium IV 1,500M HZ CPU的機(jī)器上需470毫秒,除去讀取數(shù)據(jù)的時間,其執(zhí)行時間僅為90毫秒,達(dá)到了在線實(shí)時提取關(guān)鍵段的目的。
      文檔編號G06F17/00GK1598923SQ20041000953
      公開日2005年3月23日 申請日期2004年9月10日 優(yōu)先權(quán)日2004年9月10日
      發(fā)明者周杰, 張一彬, 馮上平, 李鑄, 袁菡, 肖晶潔 申請人:清華大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1