專利名稱:通過(guò)哼唱音樂(lè)旋律搜索基于波形的音樂(lè)文件的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自動(dòng)搜索音樂(lè),更具體地講,涉及一種僅通過(guò)唱或哼唱音樂(lè) 的旋律在多個(gè)音樂(lè)文件中搜索期望的音樂(lè)文件的方法和系統(tǒng),通過(guò)該方法和 裝置,用戶能夠快速一企索到所期望聽到的音樂(lè)。
背景技術(shù):
傳統(tǒng)上,當(dāng)用戶希望聽音樂(lè)時(shí),不得不輸入音樂(lè)的名稱、^l手名字或者 與音樂(lè)相關(guān)的其他信息,從而在音樂(lè)庫(kù)中檢索特定音樂(lè)。然而,隨著音樂(lè)庫(kù) 中存儲(chǔ)的音樂(lè)的數(shù)量的增加,用戶越來(lái)越難以記住如此眾多的音樂(lè)的相關(guān)信 息,以使查找音樂(lè)變得困難。
為了解決這一問(wèn)題,開發(fā)了一種基于內(nèi)容的檢索方法,即哼唱檢索
(QBSH)。 QBSH具體目的在于通過(guò)輸入用戶的哼唱、 一段音樂(lè)的錄音或者 口哨來(lái)搜索到期望的音樂(lè),從而能夠幫助用戶從音樂(lè)庫(kù)中找到已經(jīng)忘掉歌詞、 歌唱者等信息的音樂(lè)。
在第US20070131094A1號(hào)美國(guó)專利中,4是供了 一種哼唱^^索方法。該方 法包括(l)記錄搜索語(yǔ)音;(2)分析搜索語(yǔ)音,并從搜索語(yǔ)音中識(shí)別音樂(lè) 關(guān)鍵特征;(3)測(cè)量相似度,即記錄的待搜索旋律與音樂(lè)MIDI文件的旋律 相比的相似度。
在第US20060021494A1號(hào)美國(guó)專利中,提取類似于樂(lè)譜的高音階音樂(lè)結(jié) 構(gòu),并將哼唱等轉(zhuǎn)換成音符序列。該發(fā)明旨在從哼唱語(yǔ)音中估計(jì)哼唱的音符。 該發(fā)明僅解決了從搜索部分提取旋律的問(wèn)題。
第US20050086052A1號(hào)美國(guó)專利能將輸入的哼唱信號(hào)轉(zhuǎn)換成音樂(lè)符號(hào) 表示。該發(fā)明從哼唱語(yǔ)音中估計(jì)哼唱的音符,只解決了從搜索部分提取旋律 的問(wèn)題。
第6678680B1號(hào)美國(guó)專利的音樂(lè)搜索方法包括(1)通過(guò)確定相鄰音符 之間的不同來(lái)產(chǎn)生每一首歌曲的不同順序;(2)對(duì)將要查找的歌曲選擇音符 序列;(3)將音符序列的不同自變量與不同序列進(jìn)行比較。該發(fā)明關(guān)注于音2007
符和音符序列,所以該發(fā)明僅針對(duì)MIDI類型的標(biāo)記音樂(lè)文件,而且也是基 于音符來(lái)進(jìn)行搜索輸入。
在第US6121530A1號(hào)美國(guó)專利中,提出了一種基于世界范圍的web網(wǎng) 的旋律搜索系統(tǒng),該系統(tǒng)采用啤唱的旋律作為搜索,并從網(wǎng)絡(luò)上的音樂(lè)數(shù)據(jù) 庫(kù)中來(lái)搜索歌曲。該系統(tǒng)要求網(wǎng)絡(luò)數(shù)據(jù)庫(kù)具有關(guān)于音樂(lè)的基音和跨度的信息, 所以,該系統(tǒng)只針對(duì)MIDI類型的標(biāo)記文件。對(duì)于沒(méi)有基音信息的音樂(lè)文件, 該系統(tǒng)無(wú)法工作。
綜上所述,可將現(xiàn)有技術(shù)分成兩類。 一類僅僅解決搜索信號(hào),旨在通過(guò) 基音提取算法將搜索轉(zhuǎn)錄為基音或符號(hào)呈現(xiàn)。
另一類型是有關(guān)MIDI類型音樂(lè)文件的啤唱搜索。這種系統(tǒng)需要具有音 符或基音信息的數(shù)據(jù)庫(kù)文件。只有MIDI類型的音樂(lè)文件能滿足這種要求。 但通常流行音樂(lè)文件,例如MP3、 AC等不具有基音或音符信息。
現(xiàn)有技術(shù)中還沒(méi)有解決從基于波形的音樂(lè)文件(例如MP3、 WAV、 AC、 WMA等)進(jìn)行搜索。
所有的現(xiàn)有技術(shù)提出的都是用于MIDI類型的音樂(lè)文件的系統(tǒng),這限制 了哼唱搜索系統(tǒng)的應(yīng)用。用于一般音樂(lè)文件的哼唱系統(tǒng)的問(wèn)題在于,無(wú)法從 音樂(lè)信號(hào)來(lái)估計(jì)旋律信息。因此,如何從音樂(lè)信號(hào)中估計(jì)旋律信息是文本要 解決的技術(shù)問(wèn)題。
因此,需要一種^l通過(guò)哼唱音樂(lè)的旋律來(lái)搜索音樂(lè)文件的方法和裝置。 這里,音樂(lè)文件表示基于波形的音樂(lè)文件,例如WAV、 MP3、 AC、 WMA等, 而不是描述性的音樂(lè)文件,例如MIDI等。由于后者文件的旋律已被轉(zhuǎn)換成 文本,因此其旋律估計(jì)直接并且簡(jiǎn)單。但對(duì)于基于波形的音樂(lè)文件,如何通 過(guò)旋律來(lái)進(jìn)行搜索仍是一直存在的問(wèn)題。傳統(tǒng)上,在收聽音樂(lè)時(shí),只有音樂(lè) 家和專業(yè)人員才能在一定程度上寫下旋律。
根據(jù)本發(fā)明的 一 方面,提供了 一種通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形的 音樂(lè)文件的方法,包括輸入基于波形的音樂(lè)文件和哼唱旋律信號(hào);從輸入 的基于波形的音樂(lè)文件中分割出演唱片段;分別對(duì)演唱片段和哼唱旋律信號(hào) 估計(jì)旋律泛音,獲得掩蔽音符圖;將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)
的掩蔽音符圖矢量化,以獲得演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序
發(fā)明內(nèi)容
8列;和將演唱片段的矢量序列和畔唱旋律信號(hào)的矢量序列進(jìn)行比較,以確定 演唱片段與口亨唱旋律信號(hào)是否匹配。
根據(jù)本發(fā)明的另 一方面,提供了 一種通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形 的音樂(lè)文件的系統(tǒng),包括用于輸入單元,輸入基于波形的音樂(lè)文件和哼唱
旋律信號(hào);演唱分割單元,用于從輸入的基于波形的音樂(lè)文件中分割出演唱 片段;旋律泛音估計(jì)單元,用于分別對(duì)演唱片段和哼唱旋律信號(hào)估計(jì)旋律泛 音,獲得掩蔽音符圖;矢量化單元,用于將演唱片段的掩蔽音符圖和哼唱旋 律信號(hào)的掩蔽音符圖矢量化,以荻得演唱片段的矢量序列和哼唱旋律信號(hào)的 矢量序列;和動(dòng)態(tài)匹配單元,用于將演唱片段的矢量序列和啤唱旋律信號(hào)的 矢量序列進(jìn)行比較,以確定演唱片段與啤唱旋律信號(hào)是否匹配。
通過(guò)參照附圖對(duì)本發(fā)明示例性實(shí)施例的詳細(xì)描述,本發(fā)明的以上和其他 特征和方面將變得更清楚,其中
圖1是示出根據(jù)本發(fā)明示例性實(shí)施例所提供的哼唱搜索系統(tǒng)的框圖; 圖2是詳細(xì)示出演唱分割單元的詳細(xì)框圖; 圖3示出了旋律泛音估計(jì)單元的詳細(xì)框圖
圖4是示出由高分辨率FFT單元估計(jì)的帶通濾波信號(hào)的頻譜能量的示
圖5示出了三種音符譜,從上到下依次是3個(gè)8度上的歸一化的音符譜、 相加到一個(gè)8度上的歸一化的音符譜和疊加的音符譜; 圖6表示DP搜索到的主旋律和掩蔽音符譜;
圖7是示出根據(jù)本發(fā)明示例性實(shí)施例所提供的哼唱檢索方法的流程圖8來(lái)詳細(xì)描述圖7中示出的操作S200;和 圖9來(lái)詳細(xì)描述圖7中示出的操作S400。
具體實(shí)施例方式
在本發(fā)明中,采用DSP技術(shù)從音樂(lè)信號(hào)估計(jì)旋律泛音。這里,估計(jì)旋律 泛音而不是估計(jì)單一的主旋律。在旋律泛音中,不僅包括基本頻率(即,基 音),還包括諧波結(jié)構(gòu)。如果只估計(jì)和匹配旋律的基音,則這被稱為估計(jì)主旋 律;而在本發(fā)明中,基音和諧波結(jié)構(gòu)被同時(shí)估計(jì),用來(lái)表達(dá)旋律信息。
9此外,將搜索樂(lè)曲的旋律泛音和音樂(lè)片段轉(zhuǎn)換成一系列特征矢量。通過(guò) 動(dòng)態(tài)地比較特征矢量來(lái)確定特征矢量是否匹配,從而搜索正確的音樂(lè)片段。
現(xiàn)在將詳細(xì)描述本發(fā)明的示例性實(shí)施例,其示例在附圖中示出,其中, 相同的標(biāo)號(hào)始終表示相同的部件。以下通過(guò)參照附圖來(lái)描述所述示例性實(shí)施 例以解釋本發(fā)明。
圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的啤唱搜索系統(tǒng)的框圖。
如圖1所示,該畔唱搜索系統(tǒng)包括演唱分割單元100、旋律泛音估計(jì) 單元200、矢量化單元300和動(dòng)態(tài)匹配單元400。
將基于波形的音樂(lè)文件(例如MP3 、 WAV等)輸入到演唱分割單元100 。 一般的音樂(lè)文件都由演唱部分和樂(lè)器演奏部分構(gòu)成,演唱分割單元100從輸 入的整個(gè)音樂(lè)文件中分割出演唱片段。演唱分割單元IOO執(zhí)行一種在壓縮域 中進(jìn)行處理的演唱/樂(lè)器演奏分類方法,以提高處理速度。演唱分割單元100 只保持具有由重要的演唱基音和諧波結(jié)構(gòu)表示的演唱音色的音樂(lè)片段。將參 照?qǐng)D2對(duì)演唱分割單元進(jìn)行詳細(xì)描述。
將由演唱分割單元100分割的演唱片段輸入到旋律泛音估計(jì)單元200, 旋律泛音估計(jì)單元200估計(jì)演唱片段的基音和諧波的頻率位置。用音符而不 是用頻率來(lái)表示旋律泛音。只保持主旋律及其諧波上的音符,而其他音符被 掩蔽。因此,旋律泛音估計(jì)單元200通過(guò)輸出掩蔽音符譜來(lái)表示演唱片段的 旋律結(jié)構(gòu)。將參照?qǐng)D3來(lái)詳細(xì)描述旋律泛音估計(jì)單元200。
同樣的,將哼唱的語(yǔ)音也輸入到旋律泛音估計(jì)單元200,由旋律泛音估 計(jì)單元200估計(jì)所畔唱的旋律信號(hào)的掩蔽音符圖來(lái)表示哼唱的旋律結(jié)構(gòu)。
矢量化單元300將從旋律泛音估計(jì)單元200輸出的掩蔽音符圖(演唱片 段的掩蔽音符圖和啐唱旋律信號(hào)的掩蔽音符譜)轉(zhuǎn)換成特征矢量序列,以進(jìn) 行后續(xù)的動(dòng)態(tài)比較。優(yōu)選的,對(duì)于掩蔽音符譜,可使用下面的公式(1)通過(guò) DCT變換來(lái)將每一幀矢量化
"="Cr(7V固^(/)),7V謹(jǐn)wO〕 二 7V聰w(/,力J = 1 36
其中,Nmaked(i, j)表示第i幀、第j個(gè)音符的音符譜,Nmaked(i)表示第i幀
的音符譜,這將在下面參照?qǐng)D3進(jìn)行詳細(xì)描述。另外,可通過(guò)實(shí)驗(yàn)來(lái)確定DCT 變換的維數(shù)。
這里,矢量化處理采用DCT變換僅為示例性的。也就是說(shuō),并不限于 DCT變換,例如還可以是LDA、 PCA變換等。矢量化單元300將掩蔽音符譜變換成特征矢量序列。矢量化單元300將 口亨唱的旋律信號(hào)變換成特征矢量序列{ql,q2,...qM},并將從一段基于波形的 音樂(lè)文件(MP3)中分割的演唱片段變換成特征矢量序列(vl,v2,…vT》。矢量 化單元300將特征矢量化后的特征矢量輸入到動(dòng)態(tài)匹配單元400。
動(dòng)態(tài)匹配單元400將從矢量化單元300輸出的特征矢量(哼唱旋律信號(hào) 的特征矢量和演唱音樂(lè)片段的特征矢量)進(jìn)行動(dòng)態(tài)比較,以確定二者的旋律 是否相似,即是否匹配。
動(dòng)態(tài)匹配單元400可通過(guò)執(zhí)行多種動(dòng)態(tài)匹配方法,將輸入的特征矢量序 列進(jìn)行比較,從而確定所輸入的特征矢量序列是否匹配,進(jìn)而基于啤唱的主 旋律來(lái)搜索音樂(lè)文件。所述動(dòng)態(tài)匹配方法可包括最簡(jiǎn)單的線性匹配(LA)方 法、比較復(fù)雜的動(dòng)態(tài)時(shí)間規(guī)整(DTW)方法和迭代線性匹配(RA)方法等,
所以在此將省略對(duì)其的詳細(xì)描述。并且,可在不同的情況下使用不同的動(dòng)態(tài) 匹配方法以實(shí)現(xiàn)最佳效果。
首先,動(dòng)態(tài)匹配單元400計(jì)算兩個(gè)特征矢量之間的距離。優(yōu)選的,可通 過(guò)下面的公式(2)使用角距離來(lái)測(cè)量?jī)蓚€(gè)特征矢量之間的距離
D(仏,v,) =-^-
"orm(仏.)x "o環(huán)(Vy )
然后,用評(píng)價(jià)函數(shù)Measure(x, y)來(lái)評(píng)價(jià)兩個(gè)特征矢量之間的相似度。下 面的公式(3)表示可選用LA、 DTW、 RA中的一種方法作為評(píng)價(jià)函數(shù)。
M簡(jiǎn)匿(UU)=
其中,q, M表示M幀的矢量序列,v"N表示N幀的矢量序列,1 M表示 i的取值范圍,1 N表示j的取值范圍。
通過(guò)Measure ( x, y)來(lái)評(píng)價(jià)兩個(gè)特征矢量之間的相似度。Measure ( x, y) 表示兩個(gè)旋律之間的相似度。如果Measure (x,y)的值較高,則兩個(gè)旋律比 較相似。根據(jù)評(píng)價(jià)函數(shù)的輸出值,搜索出分割演唱部分的Measure (x,y)輸 出值最大的音樂(lè)片段為待查詢的音樂(lè)。
圖1中示出的哼唱搜索系統(tǒng)僅為示例性的,本發(fā)明并不限于此。根據(jù)本
發(fā)明示例性實(shí)施例的啤唱搜索系統(tǒng)還可包括其他的部件,或者在圖1中示出部件可以纟皮集成為更少的部件。例如,在#4居本發(fā)明示例性實(shí)施例的畔唱搜 索系統(tǒng)中,還可包括輸入單元,將基于波形的音樂(lè)文件輸入到哼唱搜索系 統(tǒng),或者將用戶所哼唱的旋律輸入到畔唱搜索系統(tǒng),輸入單元可以是麥克風(fēng)
等輸入裝置;存儲(chǔ)單元,用于存儲(chǔ)輸入到啤唱搜索系統(tǒng)的音樂(lè)文件、所畔唱 的旋律、畔唱搜索系統(tǒng)輸出的中間分析值等;和輸出單元,可輸出動(dòng)態(tài)匹配 單元400的匹配結(jié)果,如果搜索到與p亨唱旋律信號(hào)相匹配的音樂(lè)文件,則輸 出單元可輸出該音樂(lè)文件,或通過(guò)語(yǔ)音提示、文本顯示等方式輸出諸如搜索 到匹配的音樂(lè)文件的提示信息,或者以文本等方式直接輸出音樂(lè)的標(biāo)題等其 他有關(guān)音樂(lè)文件的信息;如果沒(méi)有搜索到與啤唱旋律信號(hào)相匹配的音樂(lè)文件, 則輸出單元可通過(guò)語(yǔ)音提示或文本顯示等方式輸出諸如沒(méi)有搜索到匹配的音 樂(lè)文件的提示信息,所述輸出單元可以是音頻播放器、顯示器等。 下面將參照?qǐng)D2對(duì)演唱分割單元100的組成和才喿作進(jìn)行詳細(xì)描述。 圖2是詳細(xì)示出演唱分割單元100的組成的示圖。如圖2所示,演唱分 割單元100包括部分解碼單元101、特征提耳又單元102、統(tǒng)計(jì)特征計(jì)算單元 103、分類單元104、演唱選擇單元105、完全解碼單元106和分割單元107。 部分解碼單元101通過(guò)解碼算法(例如,MDCT (^f奮改的離散余弦變換)) 來(lái)對(duì)基于波形的音樂(lè)文件(例如,MP3)數(shù)據(jù)進(jìn)行部分解碼。因部分解碼單 元101對(duì)數(shù)據(jù)進(jìn)行部分解碼,所以在后續(xù)的處理是在壓縮域中進(jìn)行的,從而 可提高處理速度。
將由部分解碼單元101解碼的音樂(lè)文件輸入到特征提取單元102和完全 解碼單元106。
特征提取單元102對(duì)經(jīng)解碼的數(shù)據(jù)(例如,MDCT解碼的幀)進(jìn)行短時(shí) 特征提取。在本發(fā)明的示例性實(shí)施例中, 一共提取12個(gè)MFCC ( Mel頻率倒 譜系數(shù))特征和4個(gè)音色特征(頻譜質(zhì)心、頻譜帶寬、頻譜滾降和頻譜通量), 但本發(fā)明并不限于此,可提取本領(lǐng)域人員公知的更多特征,或者可提取上述 特征的一部分。
統(tǒng)計(jì)特征計(jì)算單元103在相對(duì)長(zhǎng)的片段數(shù)據(jù)中基于特征提取單元102提 取的短時(shí)特征計(jì)算其均值和標(biāo)準(zhǔn)方差。在本發(fā)明的示例性實(shí)施例中,優(yōu)選的, 對(duì)1.68秒的片段計(jì)算16個(gè)短時(shí)特征的均值和方差,并以0.5秒的步長(zhǎng)移動(dòng)。 例如,對(duì)特征提取單元102在1.68秒片段內(nèi)提取的16個(gè)短時(shí)特征中的每一 個(gè)取平均來(lái)獲得特征的統(tǒng)計(jì)特征。
12完全解碼單元106對(duì)從部分解碼單元101輸出的經(jīng)部分解碼的音樂(lè)文件
進(jìn)行進(jìn)一步解碼,將經(jīng)完全解碼后的音樂(lè)數(shù)據(jù)稱為PCM信號(hào)。
將PCM信號(hào)輸入到分割單元107,分割單元107基于時(shí)間來(lái)將PCM信號(hào)分割成多個(gè)音樂(lè)片段。例如,以1.68秒為單元來(lái)分割PCM信號(hào)。
將從分割單元107輸出的分割結(jié)果(多個(gè)音樂(lè)片段)和由統(tǒng)計(jì)特征計(jì)算單元103計(jì)算的32個(gè)的統(tǒng)計(jì)特征輸入到分類單元104。分類單元104基于所述統(tǒng)計(jì)特征來(lái)預(yù)測(cè)輸入的音樂(lè)片段是演唱片段還是純樂(lè)器演奏片段。并基于預(yù)測(cè)結(jié)果來(lái)對(duì)整個(gè)音樂(lè)文件的音樂(lè)片段進(jìn)行分類。例如,分類單元104基于統(tǒng)計(jì)特征對(duì)每個(gè)1.68秒的片段分類,從而將整個(gè)音樂(lè)片段歸類為演唱片段和樂(lè)器演奏片段。
優(yōu)選的,分類單元104可基于支持向量機(jī)(SVM)進(jìn)行分類。例如,將分割單元107輸出的多個(gè)音樂(lè)片段輸入到已訓(xùn)練好的SVM分類器,SVM分類器可基于由統(tǒng)計(jì)特征計(jì)算單元103提供的統(tǒng)計(jì)特這對(duì)多個(gè)音樂(lè)片段進(jìn)行分類。另外,分類單元104還可基于高斯混合模型(GMM)、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別等其他分類技術(shù)對(duì)多個(gè)音樂(lè)片段進(jìn)行分類。
演唱選擇單元105從由分類單元104分類的演唱片段中只選擇具有足夠持續(xù)時(shí)間的演唱片段。例如,要求每一演唱片段的持續(xù)時(shí)間不少于3秒。然后,將在歌曲的開始、中間和末尾位置中的最長(zhǎng)的初純樂(lè)器演奏片段分別定位為歌曲的前奏、間奏和結(jié)尾。因此,具有足夠的長(zhǎng)度演唱片段在前奏和間奏之間,或者在間奏和結(jié)尾之間,可能是能估計(jì)主旋律的主歌或副歌部分。下面將參照?qǐng)D3來(lái)詳細(xì)描述旋律泛音估計(jì)單元200的組成和操作。圖3示出了旋律泛音估計(jì)單元200的詳細(xì)組成的框圖。如圖3所示,旋律泛音估計(jì)單元200可包括下采樣單元201、帶通濾波單元202、高分辨率FFT單元203、音符譜歸一化單元204、音符譜疊加單元205、旋律搜索單元206、旋律擴(kuò)展單元207和掩蔽音符譜獲取單元208。
下采樣單元201對(duì)輸入信號(hào)(從演唱分割單元100輸出的演唱片段和哼唱旋律信號(hào))進(jìn)行下采樣以獲得低頻率的信號(hào)。假設(shè)將頻率為44100Hz的輸入信號(hào)下采樣到2KHz的頻率,則下采樣率后獲得的信號(hào)只具有l(wèi)OOOIIz的有效帶寬。對(duì)于從演唱分割單元IOO輸出的演唱片段,下采樣單元201可去除樂(lè)器演奏背景的高頻內(nèi)容,僅保持哼唱的頻率內(nèi)容,從而在低采樣率域內(nèi)加快了后續(xù)處理。對(duì)于畔唱旋律信號(hào), 一方面,下采樣單元201將哼唱旋律信
13號(hào)下采樣到與演唱片段相同的空間,增強(qiáng)二者的可比性;另一方面,可降低信號(hào)的釆樣率,從而在低釆樣率域內(nèi)加快了后續(xù)處理。
例如,使得130.81Hz至987.77Hz之間的頻率范圍的下釆樣信號(hào)通過(guò)。130.81Hz至987.77Hz的頻率范圍覆蓋了從第四個(gè)8度到第六個(gè)8度的36個(gè)音符。在大多數(shù)情況下,哼唱基音及其諧波在該頻率范圍內(nèi)。所以,帶通濾波單元202還盡可能多地去除樂(lè)器演奏干擾,并盡可能地只保持呼唱的頻譜內(nèi)容。
高分辨率FFT單元203對(duì)從帶通濾波單元202輸出的帶通信號(hào)進(jìn)行FFT變換,以獲得帶通信號(hào)的頻譜,估計(jì)信號(hào)的頻語(yǔ)能量。優(yōu)選的,高分辨率FFT單元203使用具有較少高頻分辨率的FFT,以使獲得關(guān)于頻率的清晰的頻譜能量,并有助于提高旋律估計(jì)的精度。
圖4示出了高分辨率FFT單元203估計(jì)的帶通濾波信號(hào)的頻語(yǔ)能量。在圖4中,橫軸表示與時(shí)間對(duì)應(yīng)的幀號(hào),縱軸表示頻率,單位是Hz。從圖4可以看出,130.81Hz~987.77Hz內(nèi)的帶通信號(hào)主要包括演唱的頻譜內(nèi)容。1KI-Iz以上和150Hz以下的樂(lè)器演奏背景大部分被去除。
將高分辨率FFT單元203估計(jì)的頻譜能量輸入到音符譜歸一化單元204。音符譜歸一化單元204從頻譜能量估計(jì)歸一化的音符譜。
音符譜歸一化單元204將頻譜分成音符。對(duì)于3個(gè)8度,可劃分成36個(gè)音符,每個(gè)8度對(duì)應(yīng)于12個(gè)音符。3個(gè)8度上的每一音符的較低端上的停止頻率、較高端上的中心頻率和停止頻率分別是123.47, 130.81, 138.59;130.81, 138.59, 146.83; 138.59, 146.83, 155.56; 146.83, 155.56, 164.81;155.56, 164.81, 174.61; 164.81, 174.61, 185; 174.61, 185, 196; 185, 196,207.65; 196, 207.65, 220; 207.65, 220, 233.08; 220, 233.08, 246.94; 233.08,246.94, 261.63; 246.94, 261.63, 277.18; 261.63, 277.18, 293.66; 277.18,293.66, 311.13; 293.66, 311.13, 329.63; 311.13, 329.63, 349.23; 329.63,349.23, 369.99; 349.23, 369.99, 392; 369.99, 392, 415.3; 392, 415.3, 440;415.3, 440, 466.16; 440, 466.16, 493.88; 466.16, 493.88, 523.25; 493.88,523.25, 554.37; 523.25, 554.37, 587.33; 554.37, 587.33, 622,25; 587.33,622.25, 659.26; 622.25, 659.26, 698.46; 659.26, 698.46, 739.99; 698.46,739.99, 783.99; 739.99, 783.99, 830.61; 783.99, 830.61, 880; 830.61, 880,
14932.33; 880, 932.33, 987.77; 932.33, 987.77, 1046.5。
通過(guò)對(duì)每一音符上的頻譜能量進(jìn)行平滑來(lái)計(jì)算歸一化的音符謙。優(yōu)選的,可通過(guò)三角窗頻率濾波器進(jìn)行上述平滑處理,但本發(fā)明并不限于此,例如,還可采用方窗頻率濾波器等。在本發(fā)明的示例性實(shí)施例中,通過(guò)下面的公式(4)來(lái)獲得歸一化的音符譜
企乂 -力+全a - /
其中,fl、 fc和fli分別是音符i的較低端上的停止頻率、較高端上的中心頻率和停止頻率。
將經(jīng)歸一化的音符譜輸入到音符語(yǔ)疊加單元205,音符譜疊加單元205將3個(gè)8度上的歸一化的音符音頻相加獲得1個(gè)8度上的一個(gè)跨度來(lái)獲得疊加音符譜,如下面的公式(5)所示
TV", (0 = iV(/1 o"ave3) + jV()' | octove4) + 7V(/1 o加ve5)
這里,i對(duì)應(yīng)于l至36的音符,表示音階B、 A#、 A、 G#、 G、 F#、 F、E、 D#、 D、 C#、 C。通過(guò)上面的公式(2)來(lái)獲得18度上的音符語(yǔ)。通過(guò)將不同8度上的音符基音及其諧波的能量相加來(lái)強(qiáng)調(diào)重要音符上集中的能量。12個(gè)音符用索引1到12表示。
然后,通過(guò)下面的公式(6)分別在3個(gè)8度上復(fù)制相同的音符譜
7V匿("2),h13 247V匿(/-24),^25 36這里,從1到36的索引i表示3個(gè)8度的36個(gè)音符。將3個(gè)8度上跨越的重復(fù)的音符譜稱為疊加音符譜。直觀地,具有該疊加音符譜上最強(qiáng)能量的最連續(xù)的旋律是最可能的主旋律。
圖5從上到下的三個(gè)子圖分別示出了 3個(gè)8度上的歸一化的音符譜、相加到一個(gè)8度上的歸一化的音符譜和疊加的音符語(yǔ)。在圖5中,橫軸表示與時(shí)間對(duì)應(yīng)的幀號(hào),縱軸表示音符。與頻譜能量比較,音符譜代表主旋律,其泛音更清晰。這提高了旋律搜索的魯棒性。
旋律搜索單元206通過(guò)DP方法的方式從疊加音符譜搜索主旋律。通過(guò)動(dòng)態(tài)規(guī)劃算法,從擴(kuò)展音符譜中搜索到一條最優(yōu)路徑,該路徑既要有較大的能量積累,又要比較連續(xù),因此,我們?cè)O(shè)計(jì)了局部節(jié)點(diǎn)評(píng)價(jià)函數(shù)。通過(guò)下面
的公式(7)計(jì)算每一節(jié)點(diǎn)上的評(píng)價(jià)函數(shù)
這里,節(jié)點(diǎn)表示音符。36個(gè)音符的索引從1到36。在score(i,j)中,i
表示幀,j表示字節(jié)(即,音符)。N,。。ped(i,j)是通過(guò)最大和最小值歸一化的疊加音符譜。例如,可使用1= X —mm 。疊加音符譜被歸一化到
之間的值。
該歸一化提高了數(shù)值的魯棒性/穩(wěn)定性。Cost(x)是評(píng)價(jià)音符跳變的損失函數(shù)。這里,可^吏用下面的線性余弦函數(shù)0^(x) = -O.Olxx。
基于評(píng)價(jià)函數(shù)的計(jì)算,對(duì)于歸一化的疊加音符譜,可優(yōu)先搜索評(píng)價(jià)函數(shù)為最大的旋律。評(píng)價(jià)函數(shù)最大表示在該旋律上,音符具有強(qiáng)能量,并且音符被連續(xù)連接。因此,搜索該旋律作為主旋律。
旋律搜索單元206通過(guò)上述操作獲得了主旋律,但搜索到的主旋律可能確實(shí)在旋律基音上,也可能在基音的諧波頻率上。為了能夠得到更加準(zhǔn)確的基音軌跡和其諧波頻率軌跡,旋律擴(kuò)展單元207將搜索到的主旋律軌跡擴(kuò)展到完整的3個(gè)8度上。這里,將這3個(gè)8度上的旋律統(tǒng)稱為旋律泛音。例如,如果主旋律上的音符是440Hz的A,則其一半的220Hz或者其二倍的880Hz是正確的音符或其諧波。因此,還將220Hz和880Hz添加到旋律泛音上的音符中。因此,主旋律被擴(kuò)展到幾個(gè)旋律泛音,跨了3個(gè)8度,包括主旋律和諧波軌跡。
掩蔽音符i普獲取單元208估計(jì)分割旋律泛音軌跡的可能位置。使用歸一
化的疊加的N(i, j)來(lái)決定索引為i的幀是哼唱的片段還是具有弱能量的背景噪
音。如果音符j的歸一化的疊加的N(i,j)小于閾值,則表示給定的幀i在旋律
泛音上具有弱的能量,從旋律泛音中去除該幀。
例如,如果0',_/) <Y/ o" me/o^y paWafe ,則從旋律泛音中去除幀i。
這里,閾4直&=0.1。
掩蔽音符譜獲取單元208估計(jì)旋律泛音軌跡,從泛音中去除能量弱的幀,并基于估計(jì)的旋律泛音軌跡生成一個(gè)掩蔽函數(shù)(下面的公式(8)),該函數(shù)只在旋律泛音軌跡上有值為1,其他音符位置都為0:
通過(guò)使用下面的公式(9 )將歸一化的音符頻譜乘以掩蔽函數(shù)來(lái)獲得掩蔽音符譜
Nmasked(i,j) = N(i,j).*M(i,j)
其中,.*表示對(duì)應(yīng)位置的標(biāo)量相乘,而不是矢量的相乘。圖6表示DP搜索到的主旋律和掩蔽音符語(yǔ)。在圖6中,橫軸表示與時(shí)間對(duì)應(yīng)的幀號(hào),縱軸表示音符。圖6的上面的圖表示DP搜索到的主旋律,與圖5相比,已從旋律軌跡中去除了具有弱能量的幀,所以可分割出主旋律。圖6的下面的圖表示掩蔽音符語(yǔ),掩蔽音符譜可清楚地顯示具有能量分布的主要音符及其諧波,掩蔽音符譜表示旋律信息,可將該掩蔽音符譜用于旋律匹配。
在參照?qǐng)D3對(duì)#4居本發(fā)明示例性實(shí)施例的旋律泛音估計(jì)單元200的描述中,分別針對(duì)3個(gè)8度上的音符譜對(duì)部件204、 205和207進(jìn)行了描述,但其僅為示例性的,本發(fā)明并不限于此??蓪?duì)不同于3個(gè)8度的音符譜進(jìn)行處理,例^口2個(gè)8度、4個(gè)8度等。
下面,將參照?qǐng)D7至圖9來(lái)描述根據(jù)本發(fā)明示例性實(shí)施例的對(duì)基于波形的音樂(lè)文件的啤唱檢索方法。因?yàn)樵趯?duì)圖1的各個(gè)功能模塊描述時(shí)候已經(jīng)詳細(xì)描述了各功能模塊的操作,所以將省略對(duì)各操作的詳細(xì)描述。
圖7是示出根據(jù)本發(fā)明示例性實(shí)施例的畔唱檢索方法的流程圖。
下面,將參照?qǐng)D1和圖7來(lái)描述畔唱檢索方法。
如圖7所示,在4喿作S100,輸入基于波形的音樂(lè)文件(例如MP3、 WAV等)。在操作S200,演唱分割單元100從輸入的整個(gè)音樂(lè)文件中分割出演唱片段。在操作S300,輸入畔唱旋律信號(hào)。在操作S400,旋律泛音估計(jì)單元200分別對(duì)輸入的演唱片段和畔唱旋律信號(hào)估計(jì)表示其旋律結(jié)構(gòu)的掩蔽音符圖。在操作S500,矢量化單元300將掩蔽音符圖(演唱片段的掩蔽音符圖或畔唱旋律信號(hào)的掩蔽音符圖)矢量化,即將掩蔽音符圖轉(zhuǎn)換成特征矢量序列。在操作S600,動(dòng)態(tài)匹配單元400將哼唱旋律信號(hào)的特征矢量和演唱音樂(lè)片段的特征矢量進(jìn)行動(dòng)態(tài)比較,以確定二者的旋律是否相似,即是否匹配。
以上示出的操作均為示例性的,本發(fā)明并不限于此。例如,可將操作S300并入操作SIOO,即同時(shí)輸入音樂(lè)文件和哼唱旋律信號(hào)。
另外,在根據(jù)本發(fā)明示例性實(shí)施例的口亨唱檢索方法中,還可包括操作S700,在操作S700,如果搜索到與啤唱旋律信號(hào)相匹配的音樂(lè)文件,則可輸出該音樂(lè)文件,或通過(guò)語(yǔ)音提示等方式輸出諸如搜索到匹配的音樂(lè)文件的提
17示信息;如果沒(méi)有搜索到與呼唱旋律信號(hào)相匹配的音樂(lè)文件,則可通過(guò)語(yǔ)音提示等方式輸出諸如沒(méi)有搜索到匹配的音樂(lè)文件的提示信息。
下面將參照?qǐng)D8來(lái)詳細(xì)描述圖7中示出的操作S200。
在操作S201,部分解碼單元101通過(guò)解碼算法對(duì)輸入的基于波形的音樂(lè)文件(例如,MP3)數(shù)據(jù)進(jìn)行部分解碼。在操作S202,特征提取單元102對(duì)經(jīng)解碼的數(shù)據(jù)(例如,MDCT解碼的幀)進(jìn)行短時(shí)特征提取,共提取12個(gè)MFCC (Mel頻率倒譜系數(shù))特征和4個(gè)音色特征(頻鐠質(zhì)心、頻語(yǔ)帶寬、頻譜滾降和頻語(yǔ)通量)。在操作S203,統(tǒng)計(jì)特征計(jì)算單元103在相對(duì)長(zhǎng)的片段數(shù)據(jù)中基于在操作S202中提取的16個(gè)短時(shí)特征計(jì)算其均值和標(biāo)準(zhǔn)方差。在操作S204,完全解碼單元106對(duì)在操作S201中部分解碼的音樂(lè)文件進(jìn)行進(jìn)一步解碼,經(jīng)完全解碼后的音樂(lè)數(shù)據(jù)為PCM信號(hào)。在操作S205,分割單元107基于時(shí)間來(lái)將在操作S204中獲得的PCM信號(hào)分割成多個(gè)音樂(lè)片段。在操作S206,分類單元104基于在操作S203中計(jì)算的統(tǒng)計(jì)特征來(lái)預(yù)測(cè)在操作S205中分割的音樂(lè)片段是演唱片段還是純樂(lè)器演奏片段,并基于預(yù)測(cè)結(jié)果來(lái)對(duì)整個(gè)音樂(lè)文件的音樂(lè)片段進(jìn)行分類。在操作S207,演唱選擇單元105從由分類單元104分類的演唱片段中只選擇具有足夠持續(xù)時(shí)間的演唱片段。
下面將參照?qǐng)D9來(lái)詳細(xì)描述圖7中示出的才喿作S400。
在操作S401,下采樣單元201對(duì)輸入信號(hào)(從演唱分割單元100輸出的演唱片段或畔唱旋律信號(hào))進(jìn)行下采樣以獲得低頻率的信號(hào)。在操作S402,帶通濾波單元202對(duì)在操作S401中下采樣的信號(hào)進(jìn)行帶通濾波,例如,使得130.81Hz至987.77Hz之間的頻率范圍的下采樣信號(hào)通過(guò)。在操作S403,高
從而估計(jì)帶通信號(hào)的頻語(yǔ)能量。在操作S404,音符譜歸一化單元204將頻譜分成音符,通過(guò)經(jīng)三角窗頻率濾波器對(duì)每一音符上的頻譜能量進(jìn)行平滑來(lái)計(jì)算歸一化的音符語(yǔ)。在操作S405,音符譜疊加單元205將3個(gè)8度上的歸一化的音符音頻相加獲得1個(gè)8度上的一個(gè)跨度,獲得疊加音符譜。在操作S406,旋律搜索單元206基于評(píng)價(jià)函數(shù)從疊加音符譜搜索主旋律。在操作S407,旋律擴(kuò)展單元207將搜索到的主旋律軌跡擴(kuò)展到完整的三個(gè)8度上(稱為旋律泛音)。在操作S408,掩蔽音符譜獲取單元208估計(jì)旋律泛音軌跡,從泛音中去除能量弱的幀,基于估計(jì)的旋律泛音軌跡生成一個(gè)掩蔽函數(shù),并將歸一化的音符頻譜乘以掩蔽函數(shù)來(lái)獲得掩蔽音符譜。流程圖的每一方框可表示模塊、代碼段或代碼部分,其包括用于實(shí)現(xiàn)特 定邏輯功能的一個(gè)或多個(gè)可執(zhí)行指令。在一些可選擇的實(shí)現(xiàn)中,在不脫離本 發(fā)明的范圍的情況下,在方框中提到的功能可以不以示出的順序出現(xiàn)。例如, 順序示出的兩個(gè)方框?qū)嶋H上可以依據(jù)所涉及的功能基本同時(shí)或以相反的順序 被執(zhí)行。
本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離本發(fā)明的精神和范圍的情況下, 可在形式和細(xì)節(jié)上進(jìn)行各種改變。因此,如上所述的示例性實(shí)施例僅為了示 出的目的,而不應(yīng)該被解釋本發(fā)明的限制。發(fā)明的范圍由權(quán)利要求給出,而 不是在前的描述,落于本發(fā)明范圍內(nèi)的所有變化和等同物被確定為包括在其 中。
權(quán)利要求
1、一種通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的方法,包括輸入基于波形的音樂(lè)文件和哼唱旋律信號(hào);從輸入的基于波形的音樂(lè)文件中分割出演唱片段;分別對(duì)演唱片段和哼唱旋律信號(hào)估計(jì)旋律泛音,獲得掩蔽音符圖;將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)的掩蔽音符圖矢量化,以獲得演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列;和將演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列進(jìn)行比較,以確定演唱片段與哼唱旋律信號(hào)是否匹配。
2、 如權(quán)利要求1所述的方法,其特征在于從輸入的音樂(lè)文件中分割出演唱片段的步驟進(jìn)一步包括對(duì)輸入的音樂(lè)文件進(jìn)行部分解碼;從部分解碼的音樂(lè)文件中提取特征;計(jì)算所提取的特征的統(tǒng)計(jì)特征;對(duì)部分解碼的音樂(lè)文件進(jìn)一步解碼,以將音樂(lè)文件完全解碼;基于時(shí)間將完全解碼的音樂(lè)文件分割成多個(gè)音樂(lè)片段;基于計(jì)算的統(tǒng)計(jì)特征來(lái)對(duì)所述多個(gè)音樂(lè)片段分類;基于分類的結(jié)果,從所述多個(gè)音樂(lè)片段中選擇演唱片段。
3、 如權(quán)利要求2所述的方法,其特征在于通過(guò)MDCT變換進(jìn)行所述部分解碼。
4、 如權(quán)利要求2所述的方法,其特征在于所述特征包括12個(gè)MFCC特征和4個(gè)音色特4i中的至少一個(gè)。
5、 如權(quán)利要求4所述的方法,其特征在于所述4個(gè)音色特征包括頻譜質(zhì)心、頻譜帶寬、頻鐠滾降和頻譜通量。
6、 如權(quán)利要求2所述的方法,其特征在于所述統(tǒng)計(jì)特征包括均值和標(biāo)準(zhǔn)方差中的至少一個(gè)。
7、 如權(quán)利要求2所述的方法,其特征在于通過(guò)使用經(jīng)過(guò)訓(xùn)練的支持向量機(jī)、高斯混合模型、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別中的任何一種對(duì)所述多個(gè)音樂(lè)片段分類。
8、 如權(quán)利要求1所述的方法,其特征在于分別對(duì)演唱片段和哼唱旋律信號(hào)估計(jì)旋律泛音的步驟進(jìn)一步包括分別對(duì)演唱片段和畔唱旋律信號(hào)進(jìn)行下采樣;對(duì)下采樣后的演唱片段和哼唱旋律信號(hào)進(jìn)行帶通濾波;對(duì)帶通濾波后的演唱片段和畔唱旋律信號(hào)進(jìn)行高分辨率的FFT變換,以獲得信號(hào)的頻譜能量;將獲得的頻譜能量歸 一化,以獲得歸 一化的音符語(yǔ);將歸一化的音符譜疊加,以獲得疊加音符譜;基于評(píng)價(jià)函數(shù)從疊加音符譜搜索主旋律;擴(kuò)展搜索到的主旋律;將擴(kuò)展的主旋律乘以掩蔽函數(shù)以獲得掩蔽音符圖。
9、 如權(quán)利要求8所述的方法,其特征在于在將頻語(yǔ)能量歸一化的步驟中,通過(guò)使用三角窗頻率濾波器對(duì)每一音符上的頻語(yǔ)能量進(jìn)行平滑來(lái)計(jì)算歸一化的音符i普。
10、 如權(quán)利要求8所述的方法,其特征在于在音符語(yǔ)疊加步驟中,將3個(gè)8度上的歸一化的音符音頻相加獲得1個(gè)8度上的一個(gè)跨度,獲得疊加音符譜。
11、 如權(quán)利要求8所述的方法,其特征在于在擴(kuò)展搜索到的主旋律步驟中,將搜索到的主旋律擴(kuò)展到3個(gè)8度上。
12、 如權(quán)利要求l所述的方法,其特征在于通過(guò)DCT、 LDA和PCA變換中的任何一種變換進(jìn)行所述矢量化步驟。
13、 如權(quán)利要求l所述的方法,其特征在于通過(guò)最簡(jiǎn)單的線性匹配、比較復(fù)雜的動(dòng)態(tài)時(shí)間規(guī)整和迭代線性匹配中的任何一種來(lái)進(jìn)行所述比較步驟。
14、 如權(quán)利要求1或13所述的方法,其特征在于將演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列進(jìn)行比較的步驟包括計(jì)算演唱片段的特征矢量序列和哼唱旋律信號(hào)的特征矢量序列之間的距離;基于計(jì)算的距離通過(guò)使用評(píng)價(jià)函數(shù)來(lái)評(píng)價(jià)上述特征矢量序列之間的相似度。
15、 如權(quán)利要求1所述的方法,其特征在于基于波形的音樂(lè)文件是MP3、WAV、 AC、 WMA音樂(lè)文件中的任何一種音樂(lè)文件。
16、 如權(quán)利要求l所述的方法,其特征在于還可包括輸出步驟,用來(lái)基于比較結(jié)果輸出提示信息或播放搜索到的音樂(lè)文件。
17、 一種通過(guò)啤唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的系統(tǒng),包括輸入單元,用于輸入基于波形的音樂(lè)文件和哼唱旋律信號(hào);演唱分割單元,用于從輸入的基于波形的音樂(lè)文件中分割出演唱片段;旋律泛音估計(jì)單元,用于分別對(duì)演唱片段和畔唱旋律信號(hào)估計(jì)旋律泛音,以獲得掩蔽音符圖;矢量化單元,用于將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)的掩蔽音符圖矢量化,以獲得演唱片段的矢量序列和呻唱旋律信號(hào)的矢量序列;和動(dòng)態(tài)匹配單元,用于將演唱片段的矢量序列和啤唱旋律信號(hào)的矢量序列進(jìn)行比較,以確定演唱片段與畔唱旋律信號(hào)是否匹配。
18、 如權(quán)利要求17所述的系統(tǒng),其特征在于演唱分割單元進(jìn)一步包括部分解碼單元,用于對(duì)輸入的音樂(lè)文件進(jìn)行部分解碼;特征提取單元,用于從部分解碼的音樂(lè)文件中提取特征;統(tǒng)計(jì)特征計(jì)算單元,用于計(jì)算特征單元提取的特征的統(tǒng)計(jì)特征;完全解碼單元,用于對(duì)部分解碼的音樂(lè)文件進(jìn)一步解碼,以將音樂(lè)文件完全解碼;分割單元,用于基于時(shí)間將完全解碼的音樂(lè)文件分割成多個(gè)音樂(lè)片段;分類單元,用于基于計(jì)算的統(tǒng)計(jì)特征來(lái)對(duì)所述多個(gè)音樂(lè)片段分類;演唱選擇單元,基于分類的結(jié)果從所述多個(gè)音樂(lè)片段中選擇演唱片段。
19、 如權(quán)利要求18所述的系統(tǒng),其特征在于部分解碼單元通過(guò)MDCT變換對(duì)輸入的音樂(lè)文件進(jìn)行部分解碼。
20、 如權(quán)利要求18所述的系統(tǒng),其特征在于所述特征包括12個(gè)MFCC特征和4個(gè)音色特征中的至少一個(gè)。
21、 如權(quán)利要求20所述的系統(tǒng),其特征在于所述4個(gè)音色特征包括頻譜質(zhì)心、頻譜帶寬、頻譜滾降和頻譜通量。
22、 如權(quán)利要求18所述的系統(tǒng),其特征在于所述統(tǒng)計(jì)特征包括均值和標(biāo)準(zhǔn)方差中的至少一個(gè)。
23、 如權(quán)利要求18所述的系統(tǒng),其特征在于分類單元通過(guò)使用經(jīng)過(guò)訓(xùn)練的支持向量機(jī)、高斯混合模型、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別技術(shù)對(duì)所述多個(gè)音樂(lè)片段進(jìn)行分類。
24、 如權(quán)利要求17所述的系統(tǒng),其特征在于旋律泛音估計(jì)單元進(jìn)一步包括下采樣單元,用于分別對(duì)演唱片段和啐唱旋律信號(hào)進(jìn)行下釆樣;帶通濾波單元,用于對(duì)下采樣后的演唱片段和哼唱旋律信號(hào)進(jìn)行帶通濾波;高分辨率FFT單元,用于對(duì)帶通濾波后的演唱片段和哼唱旋律信號(hào)進(jìn)行高分辨率的FFT變換,以獲得信號(hào)的頻譜能量;音符-潛歸一化單元,用于將獲得的頻:潛能量歸一化,以獲得歸一化的音符語(yǔ);音符譜疊加單元,用于將歸一化的音符譜疊加,以獲得疊加音符譜;旋律搜索單元,用于基于評(píng)價(jià)函數(shù)從疊加音符譜搜索主旋律;旋律擴(kuò)展單元,擴(kuò)展搜索到的主旋律;音符圖掩蔽單元,用于將擴(kuò)展的主旋律乘以掩蔽函數(shù)以獲得掩蔽音符圖。
25、 如權(quán)利要求24所述的系統(tǒng),其特征在于音符譜歸一化單元通過(guò)使用三角窗頻率濾波器對(duì)每一音符上的頻譜能量進(jìn)行平滑來(lái)計(jì)算歸 一化的音符譜。
26、 如權(quán)利要求24所述的系統(tǒng),其特征在于音符譜疊加單元將3個(gè)8度上的歸一化的音符音頻相加獲得1個(gè)8度上的一個(gè)跨度,獲得疊加音符譜。
27、 如權(quán)利要求24所述的系統(tǒng),其特征在于旋律擴(kuò)展單元將搜索到的主旋律擴(kuò)展到3個(gè)8度上。
28、 如權(quán)利要求17所述的系統(tǒng),其特征在于矢量化單元對(duì)將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)的掩蔽音符圖進(jìn)行DCT、 LDA和PCA變換中的任何一種變4灸。
29、 如權(quán)利要求17所述的系統(tǒng),其特征在于動(dòng)態(tài)匹配單元通過(guò)最簡(jiǎn)單的線性匹配、比較復(fù)雜的動(dòng)態(tài)時(shí)間規(guī)整和迭代線性匹配中的任何一種方法來(lái)比較演唱片段的矢量序列和畔唱旋律信號(hào)的矢量序列。
30、 如權(quán)利要求17或29所述的系統(tǒng),其特征在于比較單元計(jì)算演唱片段的特征矢量序列和畔唱旋律信號(hào)的特征矢量序列之間的距離,并基于計(jì)算的距離通過(guò)使用評(píng)價(jià)函數(shù)來(lái)評(píng)價(jià)上述特征矢量序列之間的相似度。
31 、如權(quán)利要求17所述的系統(tǒng),其特征在于基于波形的音樂(lè)文件是MP3 、WAV、 AC、 WMA音樂(lè)文件中的任何一種音樂(lè)文件。
32、如權(quán)利要求17所述的系統(tǒng),還可包括輸出單元,用于基于比較結(jié)果輸出提示信息或播放搜索到的音樂(lè)文件。
全文摘要
本發(fā)明提供了一種通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的方法和系統(tǒng)。通過(guò)哼唱音樂(lè)旋律來(lái)搜索基于波形的音樂(lè)文件的方法,包括輸入基于波形的音樂(lè)文件和哼唱旋律信號(hào);從輸入的基于波形的音樂(lè)文件中分割出演唱片段;分別對(duì)演唱片段和哼唱旋律信號(hào)估計(jì)旋律泛音,獲得掩蔽音符圖;將演唱片段的掩蔽音符圖和哼唱旋律信號(hào)的掩蔽音符圖矢量化,以獲得演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列;和將演唱片段的矢量序列和哼唱旋律信號(hào)的矢量序列進(jìn)行比較,以確定演唱片段與哼唱旋律信號(hào)是否匹配。
文檔編號(hào)G10H1/00GK101471068SQ20071030176
公開日2009年7月1日 申請(qǐng)日期2007年12月26日 優(yōu)先權(quán)日2007年12月26日
發(fā)明者嚴(yán)基完, 史媛媛, 璇 朱, 李在原, 菁 鄧 申請(qǐng)人:三星電子株式會(huì)社;北京三星通信技術(shù)研究有限公司