專利名稱:長短幀聯(lián)合的混合音頻信號多基音估計方法
技術(shù)領(lǐng)域:
本發(fā)明涉及混合音頻信號多基音估計的方法,此方法有別于傳統(tǒng)單個音頻信號基音的估 計。具體是基于音頻信號的諧波原理,結(jié)合長窗幀和短窗幀的頻譜峰值進行多基音估計,并 將混合信號短時自相關(guān)計算得到的主基音值以及長、短窗共同的第一、第二峰值作為兩個粗 略的基音值,來跟蹤平滑初始估計出的基音值。與傳統(tǒng)的多基音估計相比,本方法結(jié)合了長、 短窗幀,克服了語音信號的短時平穩(wěn)性和短時傅立葉變換頻率分辨率低的矛盾;并利用了兩 步跟蹤平滑方法,使得基音估計值更準確。
背景技術(shù):
單基音估計是音頻信號處理領(lǐng)域重要技術(shù)之一,己經(jīng)發(fā)展得很成熟,但是多基音估計還 是音頻信號處理領(lǐng)域的最難解決的問題之一。隨著音頻信號處理新的研究方向的出現(xiàn),多基 音估計顯得尤為重要,比如單通道音頻信號盲分離,音頻檢索,流行音樂中歌詞的自動獲取 等。
目前多基音估計主要是基于音頻信號的諧波原理在頻域里進行的,或者是利用計算聽覺 場景分析(CASA)在時間-頻率域上進行的。前者對混合信號進行短時傅立葉變換,提取并預(yù)處 理頻譜峰值,然后用迭代的方法或者最大似然的方法進行多基音估計,此方法的缺點是在音 頻信號的短時平穩(wěn)性與短時傅里葉變換的頻率分辨率的選擇上存在矛盾,使得某些靠近的頻 譜峰值相互覆蓋而丟失;后者是根據(jù)人耳的聽覺特性,將信號分解成頻域上非線性分布的一 系列時頻單元,利用時頻單元內(nèi)部的短時自相關(guān)和相鄰時頻單元之間的互相關(guān)進行多基音的 估計,但是各個時頻單元相關(guān)性計算值往往與真實值之間有很大的差異。粒子濾波也是一種 有效的多基音估計方法,但是其計算復(fù)雜度高。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種有效的長短幀聯(lián)合的混合音頻信號的多基音估計方法,克服傳 統(tǒng)方法由于音頻信號的短時平穩(wěn)性和傅立葉變換時頻分辨率相矛盾的而造成的不足,并使得 最終基音結(jié)果得到平滑跟蹤。
為了達到上述目的,本發(fā)明采用下述記述方案
一種長短幀聯(lián)合的混合音頻信號多基音估計方法,其特征在于基于諧波模型并結(jié)合長、 短幀信號的頻譜來對混合音頻信號進行多基音估計,其步驟如下
(1)將混合音頻信號分成幀中心重合的長幀和短幀,分別對每一組長幀和短幀信號進行 短時傅立葉變換,提取各自的頻譜峰值并進行預(yù)處理,得到長窗信號的頻譜峰值之^ ,。^m)以及短窗信號的頻譜峰值《&
(2) 利用長窗信號的頻譜峰值#_一—(^)進行該幀混合信號的主基音初步估計計算
5—。"-,。所有峰值之間的頻率間隔并作為潛在基音向 ^,,w—,再利用
^一。,每個元素與^Lx^)中實際峰值頻率的誤差最小以及諧波數(shù)最多的聯(lián)合約束
條件來計算本幀初始主基音尸;&^^ ;
(3) 利用尸勵—、^_—")以及^>,)判斷本幀信號的個數(shù)狀態(tài),用狀態(tài)向量 ^e^ge(^來表示;其判斷過程是根據(jù)音頻信號的諧波原理以及頻譜峰值和頻譜能量之間的 關(guān)系,將混合信號分為四種情況,分別是情況l,只有一個以戶觸—為基音的信號;情況 2,只有一個以/^c、^的兩倍或更高頻率為基音值的信號;情況3,以高頻基音信號為主能量 信號,而以/^^^為基音的信號非主要能量信號;情況4,有兩個信號且能量相當;
(4) 根據(jù)步驟(3)中個數(shù)狀態(tài)向量S誠a/"rfge^)進行各種狀態(tài)下的基音估計。在諧波原
理的基礎(chǔ)上,利用頻譜峰值&、,。 g、之& 以及潛在基音向量^^^ 。,_,—m.,)在頻率上的整
數(shù)倍關(guān)系,在頻率偏差最小和諧波數(shù)最多的聯(lián)合約束條件下,通過選取最優(yōu)值進行多基音估 計;
(5) 用每一幀的短時自相關(guān)峰值進行估計后的基音的平滑跟蹤;
(6) 選擇每一組對應(yīng)長幀信號和短幀信號頻譜峰值共同的第一峰值和第二峰值(非第一 峰值整數(shù)倍)處的頻譜對步驟(5)中處理過的峰值進行第二次跟蹤平滑;
(7) 利用連續(xù)基音值的相似性和連續(xù)諧波峰值相似性,將以上跟蹤平滑過后的峰值進行 聚類,使其歸屬到各自的信號。
本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見的突出實質(zhì)性特點和顯著優(yōu)點
本發(fā)明采用長、短窗相結(jié)合,克服了短時傅立葉變換中時間分辨率和頻率分辨率之間的 矛盾,避免了由于主瓣太寬而使得某些峰值因相互覆蓋而丟失的缺點。同時兩步跟蹤平滑又 使得某些幀中錯誤估計的基音值得到了校正。
圖1為本發(fā)明所述方法的流程圖;
具體實施例方式
本發(fā)明的一個優(yōu)選實施例結(jié)合附圖詳細描述如下
本方法的流程圖參見圖1,本長短幀聯(lián)合的混合音頻多基音估計方法,是基于諧波模型 并結(jié)合長短幀信號的頻譜來對混合音頻信號進行多碁音估計,其步驟如下。(1) 將信號分解成相應(yīng)的短幀(30頂s)和長幀(90/^)信號,其幀中心重合。分別對長幀 和短幀信號進行短時傅立葉變換。提取并預(yù)處理所有頻譜峰值,為了防止低頻頻譜峰值被誤 刪掉,保留所有500他以下的峰值,而對500泡以上,對其進行200他為間隔進行分段,刪 除小于每個頻段中最大值的1/10的峰值。最后得到預(yù)處理后的峰值分別為^L,。"g以及P 。
(2) 利用長窗信號的頻譜峰值戶^ 進行該幀混合信號的主基音初步估計將
—(們)所有峰值之間的頻率間隔作為潛在基音向量目W-,。一.D ,在&(一們)中分別選 擇^一 ,,。,.—(A^每個元素的整數(shù)倍峰值(允許與理想值有15yfe的頻率偏差)組成與每個潛 在基音值相對應(yīng)的諧波組合,選取長度最長且平均頻率偏差最小的諧波組合所對應(yīng)的潛在基 音值作為本幀初始主基音M^^ 。
(3) 利用P融—、以及乙 判斷本幀信號的個數(shù)狀態(tài),用狀態(tài)向量^^^, 來表示。其判斷過程為計算短窗峰值之^^中所有相鄰峰值的頻率間隔IV,觀察其中是
否有大于2.尸&V^的值,如果有且數(shù)量超過2個,那么說明本幀只有一個高頻基音信號,此
時置S加"喊e(2f[1 Of;如果有,但是數(shù)量不超過2個,那么說明本幀存在一個高頻信號,
且占主要量,此時置S加e/Mfge(^-
、此時不好判斷該幀的信號個數(shù),就按一般的步驟,將 (3)中估計的初始主基音的整數(shù)倍頻譜峰值,從混合信號的長幀頻譜峰值里減去,利用(a)的 方法繼續(xù)從剩余峰值里估計出另 一個信號的基音頻率。(5) 用混合信號的短時自相關(guān)計算得到的主基音值尸to/^。來跟蹤平滑步驟(4)中初步估 計出來的頻譜峰值。根據(jù)戶&/^。中連續(xù)的基音值進行分段用一個分段與其對應(yīng)的初步估計出 來的基音值相對照,如果此此分段符合整個初步估計出的基音值的平均值范圍,就用/%^。 ,。中 的此分段代替其中之一信號的基音值。
(6) 用混合信號的長窗幀和短窗幀的共同的第一峰值和第二峰值(非第一峰值整數(shù)倍, 若是就放棄,繼續(xù)向高頻尋找)作為另一組跟蹤平滑用的粗略基音頻率。將已經(jīng)估計好的基 音值中的孤立的或者缺失的基音值,用此粗略基音頻率來代替。
(7) 基音值聚類,使其歸屬各自的信號。將相鄰幀之間的基音值小于15〃z的基音值歸 并到一個段,再計算每個段的平均值Pte/^,將相鄰段間連續(xù)變化沒有突變的/^d^的段歸并 到一個信號。繼而用基音值所對應(yīng)的諧波組合的相似性進一步聚類。
權(quán)利要求
1.長短幀聯(lián)合的混合音頻信號多基音估計方法,其特征在于基于諧波模型并結(jié)合長、短幀信號的頻譜來對混合音頻信號進行多基音估計,其步驟如下(1)將混合音頻信號分成幀中心相對應(yīng)的長幀和短幀,分別對每一組長幀和短幀信號進行短時傅立葉變換,提取各自的頻譜峰值并進行預(yù)處理,得到長窗信號的頻譜峰值 id="icf0001" file="A2009100503500002C1.tif" wi="16" he="5" top= "58" left = "35" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>以及短窗信號的頻譜峰值 id="icf0002" file="A2009100503500002C2.tif" wi="22" he="5" top= "58" left = "98" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>(2)利用長窗信號的頻譜峰值 id="icf0003" file="A2009100503500002C3.tif" wi="17" he="4" top= "69" left = "89" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>進行該幀混合信號的主基音初步估計計算 id="icf0004" file="A2009100503500002C4.tif" wi="16" he="5" top= "79" left = "35" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>所有峰值之間的頻率間隔并作為潛在基音向量 id="icf0005" file="A2009100503500002C5.tif" wi="27" he="3" top= "79" left = "141" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>再利用 id="icf0006" file="A2009100503500002C6.tif" wi="25" he="4" top= "90" left = "35" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>每個元素與 id="icf0007" file="A2009100503500002C7.tif" wi="17" he="5" top= "90" left = "82" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>中實際峰值頻率的誤差最小以及諧波數(shù)最多的聯(lián)合約束條件來計算本幀初始主基音Pitchpromi;(3)利用Pitchpromi、 id="icf0008" file="A2009100503500002C8.tif" wi="11" he="5" top= "111" left = "72" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>以及 id="icf0009" file="A2009100503500002C9.tif" wi="12" he="5" top= "111" left = "94" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>判斷本幀信號的個數(shù)狀態(tài),用狀態(tài)向量 id="icf0010" file="A2009100503500002C10.tif" wi="19" he="4" top= "122" left = "35" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>來表示;其判斷過程是根據(jù)音頻信號的諧波原理以及頻譜峰值和頻譜能量之間的關(guān)系,將混合信號分為四種情況,分別是情況1,只有一個以Pitchpromi為基音的信號;情況2,只有一個以Pitchpromi的兩倍或更高頻率為基音值的信號;情況3,以高頻基音信號為主能量信號,而以Pitchpromi為基音的信號是非主要能量信號;情況4,有兩個信號且能量相當;(4)根據(jù)步驟(3)中個數(shù)狀態(tài)向量 id="icf0011" file="A2009100503500002C11.tif" wi="19" he="4" top= "171" left = "100" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>進行各種狀態(tài)下的基音估計。在諧波原理的基礎(chǔ)上,利用頻譜峰值 id="icf0012" file="A2009100503500002C12.tif" wi="13" he="4" top= "181" left = "88" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/> id="icf0013" file="A2009100503500002C13.tif" wi="12" he="5" top= "181" left = "105" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>以及潛在基音向量 id="icf0014" file="A2009100503500002C14.tif" wi="26" he="4" top= "181" left = "150" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>在頻率上的整數(shù)倍關(guān)系,在頻率偏差最小和諧波數(shù)最多的聯(lián)合約束條件下,通過選取最優(yōu)值進行多基音估計;(5)用每一幀的短時自相關(guān)峰值進行估計后的基音的平滑跟蹤;(6)選擇每一組對應(yīng)長幀信號和短幀信號頻譜峰值共同的第一峰值和第二峰值(非第一峰值整數(shù)倍)處的頻譜對(5)中處理過的峰值進行第二次跟蹤平滑;(7)利用連續(xù)基音值的相似性和連續(xù)諧波峰值相似性,將以上跟蹤平滑過后的峰值進行聚類,使其歸屬到各自的信號。
全文摘要
本發(fā)明涉及一種長短幀聯(lián)合的混合音頻信號多基音估計方法。本方法首先將混合音頻信號分成幀中心重合的長幀和短幀信號,并分別對其進行短時傅里葉變換;然后通過對長幀和短幀信號的頻譜峰值進行基于諧波原理的迭代處理實現(xiàn)多基音初步估計。為提高基音估計的準確率,還進行了以下兩步跟蹤平滑首先利用短時自相關(guān)方法計算得到的混合信號的主基音值進行跟蹤平滑,然后使用長、短窗信號頻譜中共同的第一峰值處的頻率和非第一峰值整數(shù)倍共同的第二峰值處頻率作為兩個信號的基音值,繼續(xù)平滑跟蹤基音值。本方法的優(yōu)點是長、短窗相結(jié)合,克服了短時傅立葉變換中時間分辨率和頻率分辨率之間的矛盾,避免了由于主瓣太寬而使得某些諧波峰值因相互覆蓋而丟失的缺點。同時兩步跟蹤平滑又使得某些幀中錯誤估計的基音值得到了校正。
文檔編號G05B13/00GK101567188SQ200910050350
公開日2009年10月28日 申請日期2009年4月30日 優(yōu)先權(quán)日2009年4月30日
發(fā)明者王冬梅, 黃青華 申請人:上海大學