通過(guò)哼唱音樂(lè)旋律搜索基于波形的音樂(lè)文件的方法和系統(tǒng)的制作方法

文檔序號(hào)：2837546閱讀：220來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：通過(guò)哼唱音樂(lè)旋律搜索基于波形的音樂(lè)文件的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及自動(dòng)搜索音樂(lè)，更具體地講，涉及一種僅通過(guò)唱或哼唱音樂(lè) 的旋律在多個(gè)音樂(lè)文件中搜索期望的音樂(lè)文件的方法和系統(tǒng)，通過(guò)該方法和裝置，用戶能夠快速一企索到所期望聽到的音樂(lè)。
背景技術(shù)：
傳統(tǒng)上，當(dāng)用戶希望聽音樂(lè)時(shí)，不得不輸入音樂(lè)的名稱、^l手名字或者與音樂(lè)相關(guān)的其他信息，從而在音樂(lè)庫(kù)中檢索特定音樂(lè)。然而，隨著音樂(lè)庫(kù) 中存儲(chǔ)的音樂(lè)的數(shù)量的增加，用戶越來(lái)越難以記住如此眾多的音樂(lè)的相關(guān)信息，以使查找音樂(lè)變得困難。
為了解決這一問(wèn)題，開發(fā)了一種基于內(nèi)容的檢索方法，即哼唱檢索
(QBSH)。 QBSH具體目的在于通過(guò)輸入用戶的哼唱、一段音樂(lè)的錄音或者口哨來(lái)搜索到期望的音樂(lè)，從而能夠幫助用戶從音樂(lè)庫(kù)中找到已經(jīng)忘掉歌詞、歌唱者等信息的音樂(lè)。
在第US20070131094A1號(hào)美國(guó)專利中，4是供了一種哼唱^^索方法。該方法包括(l)記錄搜索語(yǔ)音；(2)分析搜索語(yǔ)音，并從搜索語(yǔ)音中識(shí)別音樂(lè) 關(guān)鍵特征；(3)測(cè)量相似度，即記錄的待搜索旋律與音樂(lè)MIDI文件的旋律相比的相似度。
在第US20060021494A1號(hào)美國(guó)專利中，提取類似于樂(lè)譜的高音階音樂(lè)結(jié) 構(gòu)，并將哼唱等轉(zhuǎn)換成音符序列。該發(fā)明旨在從哼唱語(yǔ)音中估計(jì)哼唱的音符。該發(fā)明僅解決了從搜索部分提取旋律的問(wèn)題。
第US20050086052A1號(hào)美國(guó)專利能將輸入的哼唱信號(hào)轉(zhuǎn)換成音樂(lè)符號(hào) 表示。該發(fā)明從哼唱語(yǔ)音中估計(jì)哼唱的音符，只解決了從搜索部分提取旋律的問(wèn)題。
第6678680B1號(hào)美國(guó)專利的音樂(lè)搜索方法包括(1)通過(guò)確定相鄰音符之間的不同來(lái)產(chǎn)生每一首歌曲的不同順序；(2)對(duì)將要查找的歌曲選擇音符序列；(3)將音符序列的不同自變量與不同序列進(jìn)行比較。該發(fā)明關(guān)注于音2007
符和音符序列，所以該發(fā)明僅針對(duì)MIDI類型的標(biāo)記音樂(lè)文件，而且也是基于音符來(lái)進(jìn)行搜索輸入。
在第US6121530A1號(hào)美國(guó)專利中，提出了一種基于世界范圍的web網(wǎng) 的旋律搜索系統(tǒng)，該系統(tǒng)采用啤唱的旋律作為搜索，并從網(wǎng)絡(luò)上的音樂(lè)數(shù)據(jù) 庫(kù)中來(lái)搜索歌曲。該系統(tǒng)要求網(wǎng)絡(luò)數(shù)據(jù)庫(kù)具有關(guān)于音樂(lè)的基音和跨度的信息，所以，該系統(tǒng)只針對(duì)MIDI類型的標(biāo)記文件。對(duì)于沒(méi)有基音信息的音樂(lè)文件，該系統(tǒng)無(wú)法工作。
綜上所述，可將現(xiàn)有技術(shù)分成兩類。一類僅僅解決搜索信號(hào)，旨在通過(guò) 基音提取算法將搜索轉(zhuǎn)錄為基音或符號(hào)呈現(xiàn)。
另一類型是有關(guān)MIDI類型音樂(lè)文件的啤唱搜索。這種系統(tǒng)需要具有音符或基音信息的數(shù)據(jù)庫(kù)文件。只有MIDI類型的音樂(lè)文件能滿足這種要求。但通常流行音樂(lè)文件，例如MP3、 AC等不具有基音或音符信息。
現(xiàn)有技術(shù)中還沒(méi)有解決從基于波形的音樂(lè)文件(例如MP3、 WAV、 AC、 WMA等)進(jìn)行搜索。
所有的現(xiàn)有技術(shù)提出的都是用于MIDI類型的音樂(lè)文件的系統(tǒng)，這限制了哼唱搜索系統(tǒng)的應(yīng)用。用于一般音樂(lè)文件的哼唱系統(tǒng)的問(wèn)題在于，無(wú)法從音樂(lè)信號(hào)來(lái)估計(jì)旋律信息。因此，如何從音樂(lè)信號(hào)中估計(jì)旋律信息是文本要解決的技術(shù)問(wèn)題。
因此，需要一種^l通過(guò)哼唱音樂(lè)的旋律來(lái)搜索音樂(lè)文件的方法和裝置。這里，音樂(lè)文件表示基于波形的音樂(lè)文件，例如WAV、 MP3、 AC、 WMA等，而不是描述性的音樂(lè)文件，例如MIDI等。由于后者文件的旋律已被轉(zhuǎn)換成文本，因此其旋律估計(jì)直接并且簡(jiǎn)單。但對(duì)于基于波形的音樂(lè)文件，如何通過(guò)旋律來(lái)進(jìn)行搜索仍是一直存在的問(wèn)題。傳統(tǒng)上，在收聽音樂(lè)時(shí)，只有音樂(lè) 家和專業(yè)人員才能在一定程度上寫下旋律。
根據(jù)本發(fā)明的一方面，提供了一種通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的方法，包括輸入基于波形的音樂(lè)文件和哼唱旋律信號(hào)；從輸入的基于波形的音樂(lè)文件中分割出演唱片段；分別對(duì)演唱片段和哼唱旋律信號(hào) 估計(jì)旋律泛音，獲得掩蔽音符圖；將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)
的掩蔽音符圖矢量化，以獲得演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序

發(fā)明內(nèi)容
8列；和將演唱片段的矢量序列和畔唱旋律信號(hào)的矢量序列進(jìn)行比較，以確定演唱片段與口亨唱旋律信號(hào)是否匹配。
根據(jù)本發(fā)明的另一方面，提供了一種通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的系統(tǒng)，包括用于輸入單元，輸入基于波形的音樂(lè)文件和哼唱
旋律信號(hào)；演唱分割單元，用于從輸入的基于波形的音樂(lè)文件中分割出演唱片段；旋律泛音估計(jì)單元，用于分別對(duì)演唱片段和哼唱旋律信號(hào)估計(jì)旋律泛音，獲得掩蔽音符圖；矢量化單元，用于將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)的掩蔽音符圖矢量化，以荻得演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列；和動(dòng)態(tài)匹配單元，用于將演唱片段的矢量序列和啤唱旋律信號(hào)的矢量序列進(jìn)行比較，以確定演唱片段與啤唱旋律信號(hào)是否匹配。

通過(guò)參照附圖對(duì)本發(fā)明示例性實(shí)施例的詳細(xì)描述，本發(fā)明的以上和其他特征和方面將變得更清楚，其中
圖1是示出根據(jù)本發(fā)明示例性實(shí)施例所提供的哼唱搜索系統(tǒng)的框圖；圖2是詳細(xì)示出演唱分割單元的詳細(xì)框圖；圖3示出了旋律泛音估計(jì)單元的詳細(xì)框圖
圖4是示出由高分辨率FFT單元估計(jì)的帶通濾波信號(hào)的頻譜能量的示
圖5示出了三種音符譜，從上到下依次是3個(gè)8度上的歸一化的音符譜、相加到一個(gè)8度上的歸一化的音符譜和疊加的音符譜；圖6表示DP搜索到的主旋律和掩蔽音符譜；
圖7是示出根據(jù)本發(fā)明示例性實(shí)施例所提供的哼唱檢索方法的流程圖8來(lái)詳細(xì)描述圖7中示出的操作S200;和圖9來(lái)詳細(xì)描述圖7中示出的操作S400。
具體實(shí)施例方式
在本發(fā)明中，采用DSP技術(shù)從音樂(lè)信號(hào)估計(jì)旋律泛音。這里，估計(jì)旋律泛音而不是估計(jì)單一的主旋律。在旋律泛音中，不僅包括基本頻率(即，基音)，還包括諧波結(jié)構(gòu)。如果只估計(jì)和匹配旋律的基音，則這被稱為估計(jì)主旋律；而在本發(fā)明中，基音和諧波結(jié)構(gòu)被同時(shí)估計(jì)，用來(lái)表達(dá)旋律信息。
9此外，將搜索樂(lè)曲的旋律泛音和音樂(lè)片段轉(zhuǎn)換成一系列特征矢量。通過(guò) 動(dòng)態(tài)地比較特征矢量來(lái)確定特征矢量是否匹配，從而搜索正確的音樂(lè)片段。
現(xiàn)在將詳細(xì)描述本發(fā)明的示例性實(shí)施例，其示例在附圖中示出，其中，相同的標(biāo)號(hào)始終表示相同的部件。以下通過(guò)參照附圖來(lái)描述所述示例性實(shí)施例以解釋本發(fā)明。
圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的啤唱搜索系統(tǒng)的框圖。
如圖1所示，該畔唱搜索系統(tǒng)包括演唱分割單元100、旋律泛音估計(jì) 單元200、矢量化單元300和動(dòng)態(tài)匹配單元400。
將基于波形的音樂(lè)文件(例如MP3 、 WAV等)輸入到演唱分割單元100 。一般的音樂(lè)文件都由演唱部分和樂(lè)器演奏部分構(gòu)成，演唱分割單元100從輸入的整個(gè)音樂(lè)文件中分割出演唱片段。演唱分割單元IOO執(zhí)行一種在壓縮域中進(jìn)行處理的演唱/樂(lè)器演奏分類方法，以提高處理速度。演唱分割單元100 只保持具有由重要的演唱基音和諧波結(jié)構(gòu)表示的演唱音色的音樂(lè)片段。將參照?qǐng)D2對(duì)演唱分割單元進(jìn)行詳細(xì)描述。
將由演唱分割單元100分割的演唱片段輸入到旋律泛音估計(jì)單元200，旋律泛音估計(jì)單元200估計(jì)演唱片段的基音和諧波的頻率位置。用音符而不是用頻率來(lái)表示旋律泛音。只保持主旋律及其諧波上的音符，而其他音符被掩蔽。因此，旋律泛音估計(jì)單元200通過(guò)輸出掩蔽音符譜來(lái)表示演唱片段的旋律結(jié)構(gòu)。將參照?qǐng)D3來(lái)詳細(xì)描述旋律泛音估計(jì)單元200。
同樣的，將哼唱的語(yǔ)音也輸入到旋律泛音估計(jì)單元200,由旋律泛音估計(jì)單元200估計(jì)所畔唱的旋律信號(hào)的掩蔽音符圖來(lái)表示哼唱的旋律結(jié)構(gòu)。
矢量化單元300將從旋律泛音估計(jì)單元200輸出的掩蔽音符圖(演唱片段的掩蔽音符圖和啐唱旋律信號(hào)的掩蔽音符譜)轉(zhuǎn)換成特征矢量序列，以進(jìn) 行后續(xù)的動(dòng)態(tài)比較。優(yōu)選的，對(duì)于掩蔽音符譜，可使用下面的公式(1)通過(guò) DCT變換來(lái)將每一幀矢量化
"="Cr(7V固^(/)),7V謹(jǐn)wO〕二 7V聰w(/，力J = 1 36
其中，Nmaked(i, j)表示第i幀、第j個(gè)音符的音符譜，Nmaked(i)表示第i幀
的音符譜，這將在下面參照?qǐng)D3進(jìn)行詳細(xì)描述。另外，可通過(guò)實(shí)驗(yàn)來(lái)確定DCT 變換的維數(shù)。
這里，矢量化處理采用DCT變換僅為示例性的。也就是說(shuō)，并不限于 DCT變換，例如還可以是LDA、 PCA變換等。矢量化單元300將掩蔽音符譜變換成特征矢量序列。矢量化單元300將口亨唱的旋律信號(hào)變換成特征矢量序列{ql，q2,...qM}，并將從一段基于波形的音樂(lè)文件(MP3)中分割的演唱片段變換成特征矢量序列(vl，v2，…vT》。矢量化單元300將特征矢量化后的特征矢量輸入到動(dòng)態(tài)匹配單元400。
動(dòng)態(tài)匹配單元400將從矢量化單元300輸出的特征矢量(哼唱旋律信號(hào) 的特征矢量和演唱音樂(lè)片段的特征矢量)進(jìn)行動(dòng)態(tài)比較，以確定二者的旋律是否相似，即是否匹配。
動(dòng)態(tài)匹配單元400可通過(guò)執(zhí)行多種動(dòng)態(tài)匹配方法，將輸入的特征矢量序列進(jìn)行比較，從而確定所輸入的特征矢量序列是否匹配，進(jìn)而基于啤唱的主旋律來(lái)搜索音樂(lè)文件。所述動(dòng)態(tài)匹配方法可包括最簡(jiǎn)單的線性匹配(LA)方法、比較復(fù)雜的動(dòng)態(tài)時(shí)間規(guī)整(DTW)方法和迭代線性匹配(RA)方法等，
所以在此將省略對(duì)其的詳細(xì)描述。并且，可在不同的情況下使用不同的動(dòng)態(tài) 匹配方法以實(shí)現(xiàn)最佳效果。
首先，動(dòng)態(tài)匹配單元400計(jì)算兩個(gè)特征矢量之間的距離。優(yōu)選的，可通過(guò)下面的公式(2)使用角距離來(lái)測(cè)量?jī)蓚€(gè)特征矢量之間的距離
D(仏,v,) =-^-
"orm(仏.)x "o環(huán)(Vy )
然后，用評(píng)價(jià)函數(shù)Measure(x， y)來(lái)評(píng)價(jià)兩個(gè)特征矢量之間的相似度。下面的公式(3)表示可選用LA、 DTW、 RA中的一種方法作為評(píng)價(jià)函數(shù)。
M簡(jiǎn)匿(UU)=
其中，q, M表示M幀的矢量序列，v"N表示N幀的矢量序列，1 M表示 i的取值范圍，1 N表示j的取值范圍。
通過(guò)Measure ( x, y)來(lái)評(píng)價(jià)兩個(gè)特征矢量之間的相似度。Measure ( x， y) 表示兩個(gè)旋律之間的相似度。如果Measure (x,y)的值較高，則兩個(gè)旋律比較相似。根據(jù)評(píng)價(jià)函數(shù)的輸出值，搜索出分割演唱部分的Measure (x,y)輸出值最大的音樂(lè)片段為待查詢的音樂(lè)。
圖1中示出的哼唱搜索系統(tǒng)僅為示例性的，本發(fā)明并不限于此。根據(jù)本
發(fā)明示例性實(shí)施例的啤唱搜索系統(tǒng)還可包括其他的部件，或者在圖1中示出部件可以纟皮集成為更少的部件。例如，在#4居本發(fā)明示例性實(shí)施例的畔唱搜索系統(tǒng)中，還可包括輸入單元，將基于波形的音樂(lè)文件輸入到哼唱搜索系統(tǒng)，或者將用戶所哼唱的旋律輸入到畔唱搜索系統(tǒng)，輸入單元可以是麥克風(fēng)
等輸入裝置；存儲(chǔ)單元，用于存儲(chǔ)輸入到啤唱搜索系統(tǒng)的音樂(lè)文件、所畔唱的旋律、畔唱搜索系統(tǒng)輸出的中間分析值等；和輸出單元，可輸出動(dòng)態(tài)匹配單元400的匹配結(jié)果，如果搜索到與p亨唱旋律信號(hào)相匹配的音樂(lè)文件，則輸出單元可輸出該音樂(lè)文件，或通過(guò)語(yǔ)音提示、文本顯示等方式輸出諸如搜索到匹配的音樂(lè)文件的提示信息，或者以文本等方式直接輸出音樂(lè)的標(biāo)題等其他有關(guān)音樂(lè)文件的信息；如果沒(méi)有搜索到與啤唱旋律信號(hào)相匹配的音樂(lè)文件，則輸出單元可通過(guò)語(yǔ)音提示或文本顯示等方式輸出諸如沒(méi)有搜索到匹配的音樂(lè)文件的提示信息，所述輸出單元可以是音頻播放器、顯示器等。下面將參照?qǐng)D2對(duì)演唱分割單元100的組成和才喿作進(jìn)行詳細(xì)描述。圖2是詳細(xì)示出演唱分割單元100的組成的示圖。如圖2所示，演唱分割單元100包括部分解碼單元101、特征提耳又單元102、統(tǒng)計(jì)特征計(jì)算單元 103、分類單元104、演唱選擇單元105、完全解碼單元106和分割單元107。部分解碼單元101通過(guò)解碼算法(例如，MDCT (^f奮改的離散余弦變換)) 來(lái)對(duì)基于波形的音樂(lè)文件(例如，MP3)數(shù)據(jù)進(jìn)行部分解碼。因部分解碼單元101對(duì)數(shù)據(jù)進(jìn)行部分解碼，所以在后續(xù)的處理是在壓縮域中進(jìn)行的，從而可提高處理速度。
將由部分解碼單元101解碼的音樂(lè)文件輸入到特征提取單元102和完全解碼單元106。
特征提取單元102對(duì)經(jīng)解碼的數(shù)據(jù)(例如，MDCT解碼的幀)進(jìn)行短時(shí) 特征提取。在本發(fā)明的示例性實(shí)施例中，一共提取12個(gè)MFCC ( Mel頻率倒譜系數(shù))特征和4個(gè)音色特征(頻譜質(zhì)心、頻譜帶寬、頻譜滾降和頻譜通量)，但本發(fā)明并不限于此，可提取本領(lǐng)域人員公知的更多特征，或者可提取上述特征的一部分。
統(tǒng)計(jì)特征計(jì)算單元103在相對(duì)長(zhǎng)的片段數(shù)據(jù)中基于特征提取單元102提取的短時(shí)特征計(jì)算其均值和標(biāo)準(zhǔn)方差。在本發(fā)明的示例性實(shí)施例中，優(yōu)選的，對(duì)1.68秒的片段計(jì)算16個(gè)短時(shí)特征的均值和方差，并以0.5秒的步長(zhǎng)移動(dòng)。例如，對(duì)特征提取單元102在1.68秒片段內(nèi)提取的16個(gè)短時(shí)特征中的每一個(gè)取平均來(lái)獲得特征的統(tǒng)計(jì)特征。
12完全解碼單元106對(duì)從部分解碼單元101輸出的經(jīng)部分解碼的音樂(lè)文件
進(jìn)行進(jìn)一步解碼，將經(jīng)完全解碼后的音樂(lè)數(shù)據(jù)稱為PCM信號(hào)。
將PCM信號(hào)輸入到分割單元107，分割單元107基于時(shí)間來(lái)將PCM信號(hào)分割成多個(gè)音樂(lè)片段。例如，以1.68秒為單元來(lái)分割PCM信號(hào)。
將從分割單元107輸出的分割結(jié)果(多個(gè)音樂(lè)片段)和由統(tǒng)計(jì)特征計(jì)算單元103計(jì)算的32個(gè)的統(tǒng)計(jì)特征輸入到分類單元104。分類單元104基于所述統(tǒng)計(jì)特征來(lái)預(yù)測(cè)輸入的音樂(lè)片段是演唱片段還是純樂(lè)器演奏片段。并基于預(yù)測(cè)結(jié)果來(lái)對(duì)整個(gè)音樂(lè)文件的音樂(lè)片段進(jìn)行分類。例如，分類單元104基于統(tǒng)計(jì)特征對(duì)每個(gè)1.68秒的片段分類，從而將整個(gè)音樂(lè)片段歸類為演唱片段和樂(lè)器演奏片段。
優(yōu)選的，分類單元104可基于支持向量機(jī)(SVM)進(jìn)行分類。例如，將分割單元107輸出的多個(gè)音樂(lè)片段輸入到已訓(xùn)練好的SVM分類器，SVM分類器可基于由統(tǒng)計(jì)特征計(jì)算單元103提供的統(tǒng)計(jì)特這對(duì)多個(gè)音樂(lè)片段進(jìn)行分類。另外，分類單元104還可基于高斯混合模型(GMM)、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別等其他分類技術(shù)對(duì)多個(gè)音樂(lè)片段進(jìn)行分類。
演唱選擇單元105從由分類單元104分類的演唱片段中只選擇具有足夠持續(xù)時(shí)間的演唱片段。例如，要求每一演唱片段的持續(xù)時(shí)間不少于3秒。然后，將在歌曲的開始、中間和末尾位置中的最長(zhǎng)的初純樂(lè)器演奏片段分別定位為歌曲的前奏、間奏和結(jié)尾。因此，具有足夠的長(zhǎng)度演唱片段在前奏和間奏之間，或者在間奏和結(jié)尾之間，可能是能估計(jì)主旋律的主歌或副歌部分。下面將參照?qǐng)D3來(lái)詳細(xì)描述旋律泛音估計(jì)單元200的組成和操作。圖3示出了旋律泛音估計(jì)單元200的詳細(xì)組成的框圖。如圖3所示，旋律泛音估計(jì)單元200可包括下采樣單元201、帶通濾波單元202、高分辨率FFT單元203、音符譜歸一化單元204、音符譜疊加單元205、旋律搜索單元206、旋律擴(kuò)展單元207和掩蔽音符譜獲取單元208。
下采樣單元201對(duì)輸入信號(hào)(從演唱分割單元100輸出的演唱片段和哼唱旋律信號(hào))進(jìn)行下采樣以獲得低頻率的信號(hào)。假設(shè)將頻率為44100Hz的輸入信號(hào)下采樣到2KHz的頻率，則下采樣率后獲得的信號(hào)只具有l(wèi)OOOIIz的有效帶寬。對(duì)于從演唱分割單元IOO輸出的演唱片段，下采樣單元201可去除樂(lè)器演奏背景的高頻內(nèi)容，僅保持哼唱的頻率內(nèi)容，從而在低采樣率域內(nèi)加快了后續(xù)處理。對(duì)于畔唱旋律信號(hào)，一方面，下采樣單元201將哼唱旋律信
13號(hào)下采樣到與演唱片段相同的空間，增強(qiáng)二者的可比性；另一方面，可降低信號(hào)的釆樣率，從而在低釆樣率域內(nèi)加快了后續(xù)處理。
例如，使得130.81Hz至987.77Hz之間的頻率范圍的下釆樣信號(hào)通過(guò)。130.81Hz至987.77Hz的頻率范圍覆蓋了從第四個(gè)8度到第六個(gè)8度的36個(gè)音符。在大多數(shù)情況下，哼唱基音及其諧波在該頻率范圍內(nèi)。所以，帶通濾波單元202還盡可能多地去除樂(lè)器演奏干擾，并盡可能地只保持呼唱的頻譜內(nèi)容。
高分辨率FFT單元203對(duì)從帶通濾波單元202輸出的帶通信號(hào)進(jìn)行FFT變換，以獲得帶通信號(hào)的頻譜，估計(jì)信號(hào)的頻語(yǔ)能量。優(yōu)選的，高分辨率FFT單元203使用具有較少高頻分辨率的FFT，以使獲得關(guān)于頻率的清晰的頻譜能量，并有助于提高旋律估計(jì)的精度。
圖4示出了高分辨率FFT單元203估計(jì)的帶通濾波信號(hào)的頻語(yǔ)能量。在圖4中，橫軸表示與時(shí)間對(duì)應(yīng)的幀號(hào)，縱軸表示頻率，單位是Hz。從圖4可以看出，130.81Hz~987.77Hz內(nèi)的帶通信號(hào)主要包括演唱的頻譜內(nèi)容。1KI-Iz以上和150Hz以下的樂(lè)器演奏背景大部分被去除。
將高分辨率FFT單元203估計(jì)的頻譜能量輸入到音符譜歸一化單元204。音符譜歸一化單元204從頻譜能量估計(jì)歸一化的音符譜。
音符譜歸一化單元204將頻譜分成音符。對(duì)于3個(gè)8度，可劃分成36個(gè)音符，每個(gè)8度對(duì)應(yīng)于12個(gè)音符。3個(gè)8度上的每一音符的較低端上的停止頻率、較高端上的中心頻率和停止頻率分別是123.47， 130.81， 138.59;130.81, 138.59, 146.83; 138.59, 146.83， 155.56; 146.83, 155.56， 164.81;155.56, 164.81， 174.61; 164.81, 174.61, 185; 174.61， 185, 196; 185, 196，207.65; 196, 207.65， 220; 207.65, 220, 233.08; 220, 233.08, 246.94; 233.08，246.94， 261.63; 246.94， 261.63, 277.18; 261.63, 277.18, 293.66; 277.18,293.66， 311.13; 293.66， 311.13, 329.63; 311.13, 329.63， 349.23; 329.63,349.23, 369.99; 349.23， 369.99， 392; 369.99, 392， 415.3; 392， 415.3, 440;415.3, 440, 466.16; 440， 466.16， 493.88; 466.16， 493.88， 523.25; 493.88,523.25, 554.37; 523.25， 554.37， 587.33; 554.37, 587.33, 622,25; 587.33,622.25, 659.26; 622.25, 659.26, 698.46; 659.26, 698.46， 739.99; 698.46,739.99, 783.99; 739.99， 783.99， 830.61; 783.99, 830.61, 880; 830.61, 880，
14932.33; 880, 932.33, 987.77; 932.33, 987.77， 1046.5。
通過(guò)對(duì)每一音符上的頻譜能量進(jìn)行平滑來(lái)計(jì)算歸一化的音符謙。優(yōu)選的，可通過(guò)三角窗頻率濾波器進(jìn)行上述平滑處理，但本發(fā)明并不限于此，例如，還可采用方窗頻率濾波器等。在本發(fā)明的示例性實(shí)施例中，通過(guò)下面的公式(4)來(lái)獲得歸一化的音符譜
企乂 -力+全a - /
其中，fl、 fc和fli分別是音符i的較低端上的停止頻率、較高端上的中心頻率和停止頻率。
將經(jīng)歸一化的音符譜輸入到音符語(yǔ)疊加單元205,音符譜疊加單元205將3個(gè)8度上的歸一化的音符音頻相加獲得1個(gè)8度上的一個(gè)跨度來(lái)獲得疊加音符譜，如下面的公式(5)所示
TV", (0 = iV(/1 o"ave3) + jV()' | octove4) + 7V(/1 o加ve5)
這里，i對(duì)應(yīng)于l至36的音符，表示音階B、 A#、 A、 G#、 G、 F#、 F、E、 D#、 D、 C#、 C。通過(guò)上面的公式(2)來(lái)獲得18度上的音符語(yǔ)。通過(guò)將不同8度上的音符基音及其諧波的能量相加來(lái)強(qiáng)調(diào)重要音符上集中的能量。12個(gè)音符用索引1到12表示。
然后，通過(guò)下面的公式(6)分別在3個(gè)8度上復(fù)制相同的音符譜
7V匿("2)，h13 247V匿(/-24),^25 36這里，從1到36的索引i表示3個(gè)8度的36個(gè)音符。將3個(gè)8度上跨越的重復(fù)的音符譜稱為疊加音符譜。直觀地，具有該疊加音符譜上最強(qiáng)能量的最連續(xù)的旋律是最可能的主旋律。
圖5從上到下的三個(gè)子圖分別示出了 3個(gè)8度上的歸一化的音符譜、相加到一個(gè)8度上的歸一化的音符譜和疊加的音符語(yǔ)。在圖5中，橫軸表示與時(shí)間對(duì)應(yīng)的幀號(hào)，縱軸表示音符。與頻譜能量比較，音符譜代表主旋律，其泛音更清晰。這提高了旋律搜索的魯棒性。
旋律搜索單元206通過(guò)DP方法的方式從疊加音符譜搜索主旋律。通過(guò)動(dòng)態(tài)規(guī)劃算法，從擴(kuò)展音符譜中搜索到一條最優(yōu)路徑，該路徑既要有較大的能量積累，又要比較連續(xù)，因此，我們?cè)O(shè)計(jì)了局部節(jié)點(diǎn)評(píng)價(jià)函數(shù)。通過(guò)下面
的公式(7)計(jì)算每一節(jié)點(diǎn)上的評(píng)價(jià)函數(shù)
這里，節(jié)點(diǎn)表示音符。36個(gè)音符的索引從1到36。在score(i,j)中，i
表示幀，j表示字節(jié)(即，音符)。N,。。ped(i，j)是通過(guò)最大和最小值歸一化的疊加音符譜。例如，可使用1= X —mm 。疊加音符譜被歸一化到
之間的值。
該歸一化提高了數(shù)值的魯棒性/穩(wěn)定性。Cost(x)是評(píng)價(jià)音符跳變的損失函數(shù)。這里，可^吏用下面的線性余弦函數(shù)0^(x) = -O.Olxx。
基于評(píng)價(jià)函數(shù)的計(jì)算，對(duì)于歸一化的疊加音符譜，可優(yōu)先搜索評(píng)價(jià)函數(shù)為最大的旋律。評(píng)價(jià)函數(shù)最大表示在該旋律上，音符具有強(qiáng)能量，并且音符被連續(xù)連接。因此，搜索該旋律作為主旋律。
旋律搜索單元206通過(guò)上述操作獲得了主旋律，但搜索到的主旋律可能確實(shí)在旋律基音上，也可能在基音的諧波頻率上。為了能夠得到更加準(zhǔn)確的基音軌跡和其諧波頻率軌跡，旋律擴(kuò)展單元207將搜索到的主旋律軌跡擴(kuò)展到完整的3個(gè)8度上。這里，將這3個(gè)8度上的旋律統(tǒng)稱為旋律泛音。例如，如果主旋律上的音符是440Hz的A，則其一半的220Hz或者其二倍的880Hz是正確的音符或其諧波。因此，還將220Hz和880Hz添加到旋律泛音上的音符中。因此，主旋律被擴(kuò)展到幾個(gè)旋律泛音，跨了3個(gè)8度，包括主旋律和諧波軌跡。
掩蔽音符i普獲取單元208估計(jì)分割旋律泛音軌跡的可能位置。使用歸一
化的疊加的N(i, j)來(lái)決定索引為i的幀是哼唱的片段還是具有弱能量的背景噪
音。如果音符j的歸一化的疊加的N(i,j)小于閾值，則表示給定的幀i在旋律
泛音上具有弱的能量，從旋律泛音中去除該幀。
例如，如果0'，_/) <Y/ o" me/o^y paWafe ,則從旋律泛音中去除幀i。
這里，閾4直&=0.1。
掩蔽音符譜獲取單元208估計(jì)旋律泛音軌跡，從泛音中去除能量弱的幀，并基于估計(jì)的旋律泛音軌跡生成一個(gè)掩蔽函數(shù)(下面的公式(8))，該函數(shù)只在旋律泛音軌跡上有值為1,其他音符位置都為0:
通過(guò)使用下面的公式(9 )將歸一化的音符頻譜乘以掩蔽函數(shù)來(lái)獲得掩蔽音符譜
Nmasked(i，j) = N(i，j).*M(i,j)
其中，.*表示對(duì)應(yīng)位置的標(biāo)量相乘，而不是矢量的相乘。圖6表示DP搜索到的主旋律和掩蔽音符語(yǔ)。在圖6中，橫軸表示與時(shí)間對(duì)應(yīng)的幀號(hào)，縱軸表示音符。圖6的上面的圖表示DP搜索到的主旋律，與圖5相比，已從旋律軌跡中去除了具有弱能量的幀，所以可分割出主旋律。圖6的下面的圖表示掩蔽音符語(yǔ)，掩蔽音符譜可清楚地顯示具有能量分布的主要音符及其諧波，掩蔽音符譜表示旋律信息，可將該掩蔽音符譜用于旋律匹配。
在參照?qǐng)D3對(duì)#4居本發(fā)明示例性實(shí)施例的旋律泛音估計(jì)單元200的描述中，分別針對(duì)3個(gè)8度上的音符譜對(duì)部件204、 205和207進(jìn)行了描述，但其僅為示例性的，本發(fā)明并不限于此?？蓪?duì)不同于3個(gè)8度的音符譜進(jìn)行處理，例^口2個(gè)8度、4個(gè)8度等。
下面，將參照?qǐng)D7至圖9來(lái)描述根據(jù)本發(fā)明示例性實(shí)施例的對(duì)基于波形的音樂(lè)文件的啤唱檢索方法。因?yàn)樵趯?duì)圖1的各個(gè)功能模塊描述時(shí)候已經(jīng)詳細(xì)描述了各功能模塊的操作，所以將省略對(duì)各操作的詳細(xì)描述。
圖7是示出根據(jù)本發(fā)明示例性實(shí)施例的畔唱檢索方法的流程圖。
下面，將參照?qǐng)D1和圖7來(lái)描述畔唱檢索方法。
如圖7所示，在4喿作S100，輸入基于波形的音樂(lè)文件(例如MP3、 WAV等)。在操作S200,演唱分割單元100從輸入的整個(gè)音樂(lè)文件中分割出演唱片段。在操作S300，輸入畔唱旋律信號(hào)。在操作S400,旋律泛音估計(jì)單元200分別對(duì)輸入的演唱片段和畔唱旋律信號(hào)估計(jì)表示其旋律結(jié)構(gòu)的掩蔽音符圖。在操作S500,矢量化單元300將掩蔽音符圖(演唱片段的掩蔽音符圖或畔唱旋律信號(hào)的掩蔽音符圖)矢量化，即將掩蔽音符圖轉(zhuǎn)換成特征矢量序列。在操作S600，動(dòng)態(tài)匹配單元400將哼唱旋律信號(hào)的特征矢量和演唱音樂(lè)片段的特征矢量進(jìn)行動(dòng)態(tài)比較，以確定二者的旋律是否相似，即是否匹配。
以上示出的操作均為示例性的，本發(fā)明并不限于此。例如，可將操作S300并入操作SIOO，即同時(shí)輸入音樂(lè)文件和哼唱旋律信號(hào)。
另外，在根據(jù)本發(fā)明示例性實(shí)施例的口亨唱檢索方法中，還可包括操作S700,在操作S700，如果搜索到與啤唱旋律信號(hào)相匹配的音樂(lè)文件，則可輸出該音樂(lè)文件，或通過(guò)語(yǔ)音提示等方式輸出諸如搜索到匹配的音樂(lè)文件的提
17示信息；如果沒(méi)有搜索到與呼唱旋律信號(hào)相匹配的音樂(lè)文件，則可通過(guò)語(yǔ)音提示等方式輸出諸如沒(méi)有搜索到匹配的音樂(lè)文件的提示信息。
下面將參照?qǐng)D8來(lái)詳細(xì)描述圖7中示出的操作S200。
在操作S201,部分解碼單元101通過(guò)解碼算法對(duì)輸入的基于波形的音樂(lè)文件(例如，MP3)數(shù)據(jù)進(jìn)行部分解碼。在操作S202，特征提取單元102對(duì)經(jīng)解碼的數(shù)據(jù)(例如，MDCT解碼的幀)進(jìn)行短時(shí)特征提取，共提取12個(gè)MFCC (Mel頻率倒譜系數(shù))特征和4個(gè)音色特征(頻鐠質(zhì)心、頻語(yǔ)帶寬、頻譜滾降和頻語(yǔ)通量)。在操作S203，統(tǒng)計(jì)特征計(jì)算單元103在相對(duì)長(zhǎng)的片段數(shù)據(jù)中基于在操作S202中提取的16個(gè)短時(shí)特征計(jì)算其均值和標(biāo)準(zhǔn)方差。在操作S204，完全解碼單元106對(duì)在操作S201中部分解碼的音樂(lè)文件進(jìn)行進(jìn)一步解碼，經(jīng)完全解碼后的音樂(lè)數(shù)據(jù)為PCM信號(hào)。在操作S205，分割單元107基于時(shí)間來(lái)將在操作S204中獲得的PCM信號(hào)分割成多個(gè)音樂(lè)片段。在操作S206，分類單元104基于在操作S203中計(jì)算的統(tǒng)計(jì)特征來(lái)預(yù)測(cè)在操作S205中分割的音樂(lè)片段是演唱片段還是純樂(lè)器演奏片段，并基于預(yù)測(cè)結(jié)果來(lái)對(duì)整個(gè)音樂(lè)文件的音樂(lè)片段進(jìn)行分類。在操作S207,演唱選擇單元105從由分類單元104分類的演唱片段中只選擇具有足夠持續(xù)時(shí)間的演唱片段。
下面將參照?qǐng)D9來(lái)詳細(xì)描述圖7中示出的才喿作S400。
在操作S401,下采樣單元201對(duì)輸入信號(hào)(從演唱分割單元100輸出的演唱片段或畔唱旋律信號(hào))進(jìn)行下采樣以獲得低頻率的信號(hào)。在操作S402，帶通濾波單元202對(duì)在操作S401中下采樣的信號(hào)進(jìn)行帶通濾波，例如，使得130.81Hz至987.77Hz之間的頻率范圍的下采樣信號(hào)通過(guò)。在操作S403,高
從而估計(jì)帶通信號(hào)的頻語(yǔ)能量。在操作S404,音符譜歸一化單元204將頻譜分成音符，通過(guò)經(jīng)三角窗頻率濾波器對(duì)每一音符上的頻譜能量進(jìn)行平滑來(lái)計(jì)算歸一化的音符語(yǔ)。在操作S405,音符譜疊加單元205將3個(gè)8度上的歸一化的音符音頻相加獲得1個(gè)8度上的一個(gè)跨度，獲得疊加音符譜。在操作S406,旋律搜索單元206基于評(píng)價(jià)函數(shù)從疊加音符譜搜索主旋律。在操作S407，旋律擴(kuò)展單元207將搜索到的主旋律軌跡擴(kuò)展到完整的三個(gè)8度上(稱為旋律泛音)。在操作S408，掩蔽音符譜獲取單元208估計(jì)旋律泛音軌跡，從泛音中去除能量弱的幀，基于估計(jì)的旋律泛音軌跡生成一個(gè)掩蔽函數(shù)，并將歸一化的音符頻譜乘以掩蔽函數(shù)來(lái)獲得掩蔽音符譜。流程圖的每一方框可表示模塊、代碼段或代碼部分，其包括用于實(shí)現(xiàn)特定邏輯功能的一個(gè)或多個(gè)可執(zhí)行指令。在一些可選擇的實(shí)現(xiàn)中，在不脫離本發(fā)明的范圍的情況下，在方框中提到的功能可以不以示出的順序出現(xiàn)。例如，順序示出的兩個(gè)方框?qū)嶋H上可以依據(jù)所涉及的功能基本同時(shí)或以相反的順序被執(zhí)行。
本領(lǐng)域的技術(shù)人員應(yīng)該理解，在不脫離本發(fā)明的精神和范圍的情況下，可在形式和細(xì)節(jié)上進(jìn)行各種改變。因此，如上所述的示例性實(shí)施例僅為了示出的目的，而不應(yīng)該被解釋本發(fā)明的限制。發(fā)明的范圍由權(quán)利要求給出，而不是在前的描述，落于本發(fā)明范圍內(nèi)的所有變化和等同物被確定為包括在其中。
權(quán)利要求
1、一種通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的方法，包括輸入基于波形的音樂(lè)文件和哼唱旋律信號(hào)；從輸入的基于波形的音樂(lè)文件中分割出演唱片段；分別對(duì)演唱片段和哼唱旋律信號(hào)估計(jì)旋律泛音，獲得掩蔽音符圖；將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)的掩蔽音符圖矢量化，以獲得演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列；和將演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列進(jìn)行比較，以確定演唱片段與哼唱旋律信號(hào)是否匹配。
2、如權(quán)利要求1所述的方法，其特征在于從輸入的音樂(lè)文件中分割出演唱片段的步驟進(jìn)一步包括對(duì)輸入的音樂(lè)文件進(jìn)行部分解碼；從部分解碼的音樂(lè)文件中提取特征；計(jì)算所提取的特征的統(tǒng)計(jì)特征；對(duì)部分解碼的音樂(lè)文件進(jìn)一步解碼，以將音樂(lè)文件完全解碼；基于時(shí)間將完全解碼的音樂(lè)文件分割成多個(gè)音樂(lè)片段；基于計(jì)算的統(tǒng)計(jì)特征來(lái)對(duì)所述多個(gè)音樂(lè)片段分類；基于分類的結(jié)果，從所述多個(gè)音樂(lè)片段中選擇演唱片段。
3、如權(quán)利要求2所述的方法，其特征在于通過(guò)MDCT變換進(jìn)行所述部分解碼。
4、如權(quán)利要求2所述的方法，其特征在于所述特征包括12個(gè)MFCC特征和4個(gè)音色特4i中的至少一個(gè)。
5、如權(quán)利要求4所述的方法，其特征在于所述4個(gè)音色特征包括頻譜質(zhì)心、頻譜帶寬、頻鐠滾降和頻譜通量。
6、如權(quán)利要求2所述的方法，其特征在于所述統(tǒng)計(jì)特征包括均值和標(biāo)準(zhǔn)方差中的至少一個(gè)。
7、如權(quán)利要求2所述的方法，其特征在于通過(guò)使用經(jīng)過(guò)訓(xùn)練的支持向量機(jī)、高斯混合模型、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別中的任何一種對(duì)所述多個(gè)音樂(lè)片段分類。
8、如權(quán)利要求1所述的方法，其特征在于分別對(duì)演唱片段和哼唱旋律信號(hào)估計(jì)旋律泛音的步驟進(jìn)一步包括分別對(duì)演唱片段和畔唱旋律信號(hào)進(jìn)行下采樣；對(duì)下采樣后的演唱片段和哼唱旋律信號(hào)進(jìn)行帶通濾波；對(duì)帶通濾波后的演唱片段和畔唱旋律信號(hào)進(jìn)行高分辨率的FFT變換，以獲得信號(hào)的頻譜能量；將獲得的頻譜能量歸一化，以獲得歸一化的音符語(yǔ)；將歸一化的音符譜疊加，以獲得疊加音符譜；基于評(píng)價(jià)函數(shù)從疊加音符譜搜索主旋律；擴(kuò)展搜索到的主旋律；將擴(kuò)展的主旋律乘以掩蔽函數(shù)以獲得掩蔽音符圖。
9、如權(quán)利要求8所述的方法，其特征在于在將頻語(yǔ)能量歸一化的步驟中，通過(guò)使用三角窗頻率濾波器對(duì)每一音符上的頻語(yǔ)能量進(jìn)行平滑來(lái)計(jì)算歸一化的音符i普。
10、如權(quán)利要求8所述的方法，其特征在于在音符語(yǔ)疊加步驟中，將3個(gè)8度上的歸一化的音符音頻相加獲得1個(gè)8度上的一個(gè)跨度，獲得疊加音符譜。
11、如權(quán)利要求8所述的方法，其特征在于在擴(kuò)展搜索到的主旋律步驟中，將搜索到的主旋律擴(kuò)展到3個(gè)8度上。
12、如權(quán)利要求l所述的方法，其特征在于通過(guò)DCT、 LDA和PCA變換中的任何一種變換進(jìn)行所述矢量化步驟。
13、如權(quán)利要求l所述的方法，其特征在于通過(guò)最簡(jiǎn)單的線性匹配、比較復(fù)雜的動(dòng)態(tài)時(shí)間規(guī)整和迭代線性匹配中的任何一種來(lái)進(jìn)行所述比較步驟。
14、如權(quán)利要求1或13所述的方法，其特征在于將演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列進(jìn)行比較的步驟包括計(jì)算演唱片段的特征矢量序列和哼唱旋律信號(hào)的特征矢量序列之間的距離；基于計(jì)算的距離通過(guò)使用評(píng)價(jià)函數(shù)來(lái)評(píng)價(jià)上述特征矢量序列之間的相似度。
15、如權(quán)利要求1所述的方法，其特征在于基于波形的音樂(lè)文件是MP3、WAV、 AC、 WMA音樂(lè)文件中的任何一種音樂(lè)文件。
16、如權(quán)利要求l所述的方法，其特征在于還可包括輸出步驟，用來(lái)基于比較結(jié)果輸出提示信息或播放搜索到的音樂(lè)文件。
17、一種通過(guò)啤唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的系統(tǒng)，包括輸入單元，用于輸入基于波形的音樂(lè)文件和哼唱旋律信號(hào)；演唱分割單元，用于從輸入的基于波形的音樂(lè)文件中分割出演唱片段；旋律泛音估計(jì)單元，用于分別對(duì)演唱片段和畔唱旋律信號(hào)估計(jì)旋律泛音，以獲得掩蔽音符圖；矢量化單元，用于將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)的掩蔽音符圖矢量化，以獲得演唱片段的矢量序列和呻唱旋律信號(hào)的矢量序列；和動(dòng)態(tài)匹配單元，用于將演唱片段的矢量序列和啤唱旋律信號(hào)的矢量序列進(jìn)行比較，以確定演唱片段與畔唱旋律信號(hào)是否匹配。
18、如權(quán)利要求17所述的系統(tǒng)，其特征在于演唱分割單元進(jìn)一步包括部分解碼單元，用于對(duì)輸入的音樂(lè)文件進(jìn)行部分解碼；特征提取單元，用于從部分解碼的音樂(lè)文件中提取特征；統(tǒng)計(jì)特征計(jì)算單元，用于計(jì)算特征單元提取的特征的統(tǒng)計(jì)特征；完全解碼單元，用于對(duì)部分解碼的音樂(lè)文件進(jìn)一步解碼，以將音樂(lè)文件完全解碼；分割單元，用于基于時(shí)間將完全解碼的音樂(lè)文件分割成多個(gè)音樂(lè)片段；分類單元，用于基于計(jì)算的統(tǒng)計(jì)特征來(lái)對(duì)所述多個(gè)音樂(lè)片段分類；演唱選擇單元，基于分類的結(jié)果從所述多個(gè)音樂(lè)片段中選擇演唱片段。
19、如權(quán)利要求18所述的系統(tǒng)，其特征在于部分解碼單元通過(guò)MDCT變換對(duì)輸入的音樂(lè)文件進(jìn)行部分解碼。
20、如權(quán)利要求18所述的系統(tǒng)，其特征在于所述特征包括12個(gè)MFCC特征和4個(gè)音色特征中的至少一個(gè)。
21、如權(quán)利要求20所述的系統(tǒng)，其特征在于所述4個(gè)音色特征包括頻譜質(zhì)心、頻譜帶寬、頻譜滾降和頻譜通量。
22、如權(quán)利要求18所述的系統(tǒng)，其特征在于所述統(tǒng)計(jì)特征包括均值和標(biāo)準(zhǔn)方差中的至少一個(gè)。
23、如權(quán)利要求18所述的系統(tǒng)，其特征在于分類單元通過(guò)使用經(jīng)過(guò)訓(xùn)練的支持向量機(jī)、高斯混合模型、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別技術(shù)對(duì)所述多個(gè)音樂(lè)片段進(jìn)行分類。
24、如權(quán)利要求17所述的系統(tǒng)，其特征在于旋律泛音估計(jì)單元進(jìn)一步包括下采樣單元，用于分別對(duì)演唱片段和啐唱旋律信號(hào)進(jìn)行下釆樣；帶通濾波單元，用于對(duì)下采樣后的演唱片段和哼唱旋律信號(hào)進(jìn)行帶通濾波；高分辨率FFT單元，用于對(duì)帶通濾波后的演唱片段和哼唱旋律信號(hào)進(jìn)行高分辨率的FFT變換，以獲得信號(hào)的頻譜能量；音符-潛歸一化單元，用于將獲得的頻:潛能量歸一化，以獲得歸一化的音符語(yǔ)；音符譜疊加單元，用于將歸一化的音符譜疊加，以獲得疊加音符譜；旋律搜索單元，用于基于評(píng)價(jià)函數(shù)從疊加音符譜搜索主旋律；旋律擴(kuò)展單元，擴(kuò)展搜索到的主旋律；音符圖掩蔽單元，用于將擴(kuò)展的主旋律乘以掩蔽函數(shù)以獲得掩蔽音符圖。
25、如權(quán)利要求24所述的系統(tǒng)，其特征在于音符譜歸一化單元通過(guò)使用三角窗頻率濾波器對(duì)每一音符上的頻譜能量進(jìn)行平滑來(lái)計(jì)算歸一化的音符譜。
26、如權(quán)利要求24所述的系統(tǒng)，其特征在于音符譜疊加單元將3個(gè)8度上的歸一化的音符音頻相加獲得1個(gè)8度上的一個(gè)跨度，獲得疊加音符譜。
27、如權(quán)利要求24所述的系統(tǒng)，其特征在于旋律擴(kuò)展單元將搜索到的主旋律擴(kuò)展到3個(gè)8度上。
28、如權(quán)利要求17所述的系統(tǒng)，其特征在于矢量化單元對(duì)將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)的掩蔽音符圖進(jìn)行DCT、 LDA和PCA變換中的任何一種變4灸。
29、如權(quán)利要求17所述的系統(tǒng)，其特征在于動(dòng)態(tài)匹配單元通過(guò)最簡(jiǎn)單的線性匹配、比較復(fù)雜的動(dòng)態(tài)時(shí)間規(guī)整和迭代線性匹配中的任何一種方法來(lái)比較演唱片段的矢量序列和畔唱旋律信號(hào)的矢量序列。
30、如權(quán)利要求17或29所述的系統(tǒng)，其特征在于比較單元計(jì)算演唱片段的特征矢量序列和畔唱旋律信號(hào)的特征矢量序列之間的距離，并基于計(jì)算的距離通過(guò)使用評(píng)價(jià)函數(shù)來(lái)評(píng)價(jià)上述特征矢量序列之間的相似度。
31 、如權(quán)利要求17所述的系統(tǒng)，其特征在于基于波形的音樂(lè)文件是MP3 、WAV、 AC、 WMA音樂(lè)文件中的任何一種音樂(lè)文件。
32、如權(quán)利要求17所述的系統(tǒng)，還可包括輸出單元，用于基于比較結(jié)果輸出提示信息或播放搜索到的音樂(lè)文件。
全文摘要
本發(fā)明提供了一種通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的方法和系統(tǒng)。通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的方法，包括輸入基于波形的音樂(lè)文件和哼唱旋律信號(hào)；從輸入的基于波形的音樂(lè)文件中分割出演唱片段；分別對(duì)演唱片段和哼唱旋律信號(hào)估計(jì)旋律泛音，獲得掩蔽音符圖；將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)的掩蔽音符圖矢量化，以獲得演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列；和將演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列進(jìn)行比較，以確定演唱片段與哼唱旋律信號(hào)是否匹配。
文檔編號(hào)G10H1/00GK101471068SQ20071030176
公開日2009年7月1日申請(qǐng)日期2007年12月26日優(yōu)先權(quán)日2007年12月26日
發(fā)明者嚴(yán)基完, 史媛媛, 璇朱, 李在原, 菁鄧申請(qǐng)人:三星電子株式會(huì)社;北京三星通信技術(shù)研究有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄧菁;李在原;史媛媛;嚴(yán)基完;朱璇
技術(shù)所有人：北京三星通信技術(shù)研究有限公司;三星電子株式會(huì)社
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

波形文件相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

通過(guò)哼唱音樂(lè)旋律搜索基于波形的音樂(lè)文件的方法和系統(tǒng)的制作方法