音頻信號的瞬態(tài)檢測方法以及基于該方法的時長調(diào)整方法

文檔序號：2823399閱讀：409來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音頻信號的瞬態(tài)檢測方法以及基于該方法的時長調(diào)整方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)字信號處理，尤其涉及一種音頻信號中的瞬態(tài)檢測。
背景技術(shù)：
音頻信號的時長調(diào)整(Time-scale modification, TSM)是在保持音頻原始特性 (諸如基音、音色等)不變的前提下，調(diào)整音頻信號的時間長度。TSM的目的系對聽音速率進行調(diào)整的同時保持其原本的屬性。現(xiàn)已提出多種算法進行高質(zhì)量的音頻時長調(diào)整。采用時域的同步疊加法 (synchronous overlap-and-add, SOLA)的時長調(diào)整算法，如波形相似疊加法(waveform similarity overlap-and-add, WS0LA)，可以以較低的計算開銷達到非常好的效果，因此適用于實時合成系統(tǒng)。由W. Verhelst和M. Roelands提出的“An Overlap-Add TechniqueBased on Waveform Similarity(WSOLA) For High QualityTime-Scale Modification of Speech (IEEE 1993) ” 一文揭露了 WSOLA 算法的例子。然而，當(dāng)進行時長調(diào)整時，諸如起音和衰減之類的瞬態(tài)會被添加至音頻或從音頻去除，這兩種情況都會引入偽差，從而導(dǎo)致可感覺的質(zhì)量降級?？赏ㄟ^保持瞬態(tài)部分不對其進行調(diào)整來而使時長調(diào)整的質(zhì)量有所增進。因此，需要瞬態(tài)的精確檢測。瞬態(tài)系指持續(xù)時間很短的音頻信號，并且通常為高頻噪聲或者能量沖擊的形式。圖1為示出英文單詞“too”的發(fā)音的波形圖。“t”的未發(fā)聲部分被認為是瞬態(tài)。圖2為示出器樂曲中的能量沖擊的波形圖。所述能量沖擊由信號中的尖峰信號表示。^ Shahaf Grofit Hdj W "Time-Scale Modification of AudioSignals Using Enhanced WSOLA With Management of Transients (IEEE 2008) ” 一文揭露了一種與公知 WSOLA算法一起使用的瞬態(tài)檢測方法以達成更佳的聲音質(zhì)量。所述文獻提出了兩種瞬態(tài)定位和選擇方法。第一種方法使用基于Mel 頻率倒譜系數(shù)(Mel frequency cepstrumcoeff icients, MFCC)的距離函數(shù)。Mel倒譜是音頻信號的一種最常見的頻譜表示。其基于人類聽覺系統(tǒng)的特性，如非線性頻率感知和存在臨界頻帶。基于和歸一化互相關(guān)來對瞬態(tài)進行定位和選擇。MFCC已知在多種語音及揚聲器識別算法中非常有效。第二種方法使用歸一化互相關(guān)數(shù)據(jù)，其作為疊加法的一部分進行計算。所述歸一化互相關(guān)可用作瞬態(tài)檢測的附加檢測。然而，這些方法的計算復(fù)雜性較高，且不適用于便攜設(shè)備。因此，需要有改進的方法來檢測音頻信號中的瞬態(tài)。

發(fā)明內(nèi)容
根據(jù)本發(fā)明提供的實施例，克服了上述以及其他問題，并且得到了其他的優(yōu)點。一實施例中，本發(fā)明提供了一種檢測音頻信號瞬態(tài)的方法，其中所述音頻信號被分為多幀以進行處理。所述方法包括獲得所述幀的時域特征并且將所述時域特征與預(yù)定值相比較。若時域特征大于預(yù)定值，所述幀則被認為是瞬態(tài)。若所述時域特征小于所述預(yù)定
4值，所述幀則被認為是非瞬態(tài)。另一實施例中，本發(fā)明提供了一種帶有瞬態(tài)檢測的音頻信號時長調(diào)整方法。所述音頻信號被分為多幀以進行處理，然后如前所述地進行瞬態(tài)幀的檢測。然后對所述多幀進行處理，其中使用相聲碼器或這WSOLA中的一個對非瞬態(tài)幀進行時長調(diào)整，并且對瞬態(tài)幀不進行時長調(diào)整。直接輸出所述未經(jīng)時長調(diào)整的幀。

以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進一步說明，以充分地了解本發(fā)明的目的、特征和效果。其中圖1為單詞“too”之發(fā)音的聲音信號波形圖，其中“t”的未發(fā)聲部分被認為是瞬態(tài)；圖2為示出樂器中能量沖擊的聲音信號波形圖；圖3為示出根據(jù)本發(fā)明實施例的瞬態(tài)檢測的流程圖；及圖4為示出基于WSOLA的優(yōu)化時長調(diào)整處理方法的流程圖，所述方法帶有根據(jù)本發(fā)明實施例的時域瞬態(tài)檢測。
具體實施例方式結(jié)合附圖，下文以示例的方式詳細描述了本發(fā)明的一或多個較佳實施例的。盡管本發(fā)明與這些實施例相聯(lián)系，應(yīng)理解，本發(fā)明并不限于任何實施例。與此相反，本發(fā)明的范圍僅由所附之權(quán)利要求所限定，并且本本發(fā)明涵蓋多種代替、修改及等同物。為了示范之目的，下文的描述中提出了許多具體的細節(jié)，以便完全理解本發(fā)明。本發(fā)明提供了使用基于音頻信號的時域特征測量以及時變閾值的瞬態(tài)檢測方法。所述方法的計數(shù)開銷較小，因此適用于手機、便攜式數(shù)字錄音機等計算能力受限的設(shè)備。一些實施例中，基于時域特征的瞬態(tài)檢測由兩種判定標準的組合來達成，S卩，幀中的能量和過零率(ZCR)。謂幀的能量系指幀的輸出信號強度，并且其很容易計算獲得。過零率是另一種容易計算得到的聲音特征。一般而言，無聲音的過零率大于具有清晰可辨之音高的有聲音的過零率，因此是區(qū)別有聲音與無聲音的重要標志。此外，過零率還反應(yīng)音頻信號的頻域特征。過零率或者能量的巨大變化，都可認為是存在“瞬態(tài)”的良好表征。人的無聲音的能量較低但過零率較高，而音樂起音的過零率較低但能量較高。因此，本發(fā)明既可用于人聲的處理，也可用于音樂的處理。現(xiàn)參考圖3描述根據(jù)本發(fā)明第一實施例的瞬態(tài)檢測方法。第一步驟30中，將音頻信號分為多幀。當(dāng)進行音頻信號處理時，通常以“短時距分析”(Siort-term Analysis)為主，因為音頻信號在短時間內(nèi)是相對穩(wěn)定的，例如每幀20ms左右。幀若太大，就無法抓出音頻信號的隨時間變化的特征；反之，幀若太小，就無法抓出音頻信號的有效聲音特征。一般而言，幀必須能夠包含數(shù)個音頻信號的基本周期。一實施例中，待處理的音頻信號的幀長為業(yè)界常用的20ms幀。瞬態(tài)的持續(xù)時間通常非常短，例如，人聲的不發(fā)聲部分的時間小于20ms，一般持續(xù)4-5ms。因此，為了便于瞬態(tài)檢測，最好將輸入幀分為連續(xù)的等長小段。由此，一實施例中，將所述輸入幀再分為等長的四小段。在步驟S32，提取所述幀的時域信號。一實施例中，所述時域特征包括能量和過零率。提取時域特征的步驟如下所述。計算輸入幀的各段的能量，并且計算所述輸入幀的過零計數(shù)。所述過零計數(shù)為當(dāng)前段中前一樣本與后一樣本的符號發(fā)生變化的次數(shù)。由此，獲得了輸入幀中各段的能量和
過零率。接著，在步驟34中，使用各段的以上述方法提取的特征進行瞬態(tài)檢測。并且，步驟 36和38示出了步驟34的擇一性結(jié)果，即，段(幀)被判定為瞬態(tài)(步驟36)，或者，段(幀) 被判定為非瞬態(tài)(步驟38)。更具體地，若滿足下列條件中的至少之一，輸入幀的段則被判定為瞬態(tài)。比前一段的能量相比，具有預(yù)定量的能量的段被認為是瞬態(tài)。即，與前一段之間的能量差大于等于一個預(yù)定能量差值的段，被認為是瞬態(tài)。過零率過高的段也被認為是瞬態(tài)。更具體地，其過零率大于等于預(yù)定過零率值的段被認為是瞬態(tài)。一實施例中，所述預(yù)定過零率值為輸入音頻信號的平均過零率。步驟40 中，(一實施例中該步驟在步驟36和38之間進行)，更新各幀(也可能是各段)的所述預(yù)定能量差值和預(yù)定過零率值。本發(fā)明的一實施例中，僅在當(dāng)前段未被判定為瞬態(tài)時對所述預(yù)定能量差值和平均過零率進行更新。一些實施例中，一些實施例中，可使用作為經(jīng)驗值的適應(yīng)系數(shù)來計數(shù)平均過零率，以更精確地調(diào)整所述平均過零率。這些閾值(S卩，預(yù)定能量差值和平均過零率)的判定是一種平衡。若選擇的閾值過低，則僅能檢測出很少瞬態(tài)而會對其他瞬態(tài)進行時長調(diào)整，從而導(dǎo)致音頻信號質(zhì)量的降級。若閾值過高，音頻信號中的大部分會不經(jīng)過時長調(diào)整而直接進行輸出，從而導(dǎo)致音速失真。所述設(shè)定值與采樣率以及音頻特性無關(guān)。重復(fù)步驟30-40，直至對所述音頻信號的所有幀進行了處理?，F(xiàn)參考圖4描述根據(jù)本發(fā)明的瞬態(tài)檢測的第二實施例。圖4為示出示于WSOLA的優(yōu)化時長調(diào)整處理方法的流程圖，所述方法帶有根據(jù)本發(fā)明實施例的時域瞬態(tài)檢測。為了舉例說明，本實施例的輸入音頻設(shè)為16位的單聲道/立體聲音頻。然而，如本技術(shù)領(lǐng)域的技術(shù)人員所應(yīng)理解的，本發(fā)明還可應(yīng)用于其他音頻信號，如32位信號。本時長調(diào)整方法可以以運行在處理器上的軟件、軟件和硬件的組合、甚至是定制電路實現(xiàn)。本發(fā)明的較佳實施例中，本方法以在微處理器上執(zhí)行的軟件實現(xiàn)。所述軟件包括一些常量，包括(1)每樣本的段的數(shù)量；( 用于瞬態(tài)檢測的能量比；C3)過零率的高閾值；(4)過零率的低閾值；(5)用于平均過零率計算的適應(yīng)系數(shù)；及(6)輸入音頻信號的兩幀之間的絕對差的最大值。如前所述，將輸入音頻分為多幀，并且將幀分為多段。較佳地，幀長相等(例如， 20ms)，并且段長相等(例如，％is)。如下文將詳述地，數(shù)據(jù)的兩幀可一起用于瞬態(tài)檢測。艮口，若檢測到瞬態(tài)，該幀的數(shù)據(jù)可與前一幀的數(shù)據(jù)的部分或全部進行比較，以用于WSOLA合成。圖4示出了包括兩個基本階段的方法，即瞬態(tài)檢測階段50和WSOLA階段52。首先，接收音頻信號并且將其提供值瞬態(tài)檢測階段50。在第一步驟M中，進行瞬態(tài)檢測，所述瞬態(tài)檢測包括接收音頻數(shù)據(jù)的幀。將接收到的幀分為段，然后以段為單位對所述音頻信號進行分析。若某段的能量比上一段的能量大得多，或者該段的過零率很高，該段則被判定為瞬態(tài)。使用段的能量和過零率來檢測瞬態(tài)，并且當(dāng)未檢測到瞬態(tài)時對用于能量和過零率比較的數(shù)值進行更新。瞬態(tài)檢測步驟M計算當(dāng)前幀的幀能量。步驟56中，若當(dāng)前幀能量大于預(yù)定值，則判定具有瞬態(tài)，并且進行步驟58。反之，若當(dāng)前幀能量未超過預(yù)定值，則未檢測到瞬態(tài)，并且將音頻信號提供值SWOLA階段52。步驟58中，不對瞬態(tài)幀進行調(diào)整而直接輸出，并且更新所述幀能量(預(yù)定幀能量比較值)和所述平均過零率，然后處理返回至步驟M以處理音頻信號數(shù)據(jù)的下一幀。一實施例中，所述預(yù)定能量比較值作為簡單運行平均值計算，而過零率是通過對段中的不同符號數(shù)值(即，表示大于零的正數(shù)和小于零的復(fù)數(shù))出現(xiàn)次數(shù)進行計數(shù)而計算得到。如前所述，若這這個檢測都未示出檢測到瞬態(tài)，則將音頻信號提供值SWOLA階段 52，并且執(zhí)行步驟60。步驟60中，使用相似波形模塊來從先前處理的音頻信號定位相似的波形。這種情況下，相似系指相似波形之間的距離。由于第二聲道與第一聲道類似，僅需在輸入音頻信號的第一聲道進行這一處理。步驟62判定是否滿足相似性要求。若音頻數(shù)據(jù)相似，則在步驟64進行窗分析和交疊。若數(shù)據(jù)信號不相似，則通過業(yè)已描述的步驟58直接輸出輸入音頻幀。再參考步驟60，本方法的目的是找到具有最大波形相似性的波形。為了使得波形相似性計算盡可能地簡單，本發(fā)明的一個實施例中，計算波形之間的絕對差，并且選出與當(dāng)前波形的絕對差最小的波形。若輸入為立體聲聲道，由于第二聲道類除了相差之外與第一聲道類似，因此只需對第一聲道進行這一處理。若經(jīng)判定的最小絕對差大于預(yù)定值，則判定所述波形并不非常相似，并且由此判定進行窗分析和交疊處理(步驟64)可能會使得信號的聲音質(zhì)量降級。在此情況下，本方法進行步驟58，不進行調(diào)整而直接輸出幀。否則，在步驟64中，對音頻數(shù)據(jù)的幀進行窗分析和交疊。盡管依次定義了本方法的步驟，但本技術(shù)領(lǐng)域的技術(shù)人員應(yīng)理解，其中一些步驟或者子步驟可與其他步驟并列進行以減少處理耗時。此外，應(yīng)理解，本發(fā)明可以以多種方式實現(xiàn)，包括方法、裝置、系統(tǒng)、或計算機可讀存儲介質(zhì)之類的計算機可讀介質(zhì)或者通過光纖或電信鏈接發(fā)送程序指令的計算機網(wǎng)絡(luò)。應(yīng)注意，除非明確指出，所揭露之方法的步驟的順序可在本發(fā)明的范圍之內(nèi)變化。此外，應(yīng)理解，本發(fā)明可使用相聲碼器來實現(xiàn)，以代替WSOLA 階段52.由于僅使用能量來檢測瞬態(tài)，因此使用相聲碼器的瞬態(tài)檢測較為簡單。使用不同的算法進行主觀聽覺測試，并且匯編測試結(jié)果。選擇了 7種測試例以進行播放速率不同的時長調(diào)整，所述時長調(diào)整由五種算法進行WS0LA、帶瞬態(tài)檢測的WS0LA、相聲碼器、帶瞬態(tài)檢測的相聲碼器、及Windows媒體播放器(其輸出由計算機記錄)。測試的結(jié)果表示帶有瞬態(tài)檢測的WSOLA的結(jié)果最近，其次是SW0LA、帶有瞬態(tài)檢測的相聲碼器、媒體播放器和相聲碼器。所述測試數(shù)據(jù)還表明，瞬態(tài)檢測所耗費的計算小于SWOLA計算的 10%。本發(fā)明具有如下優(yōu)點(1)提出了一種計算開銷很小的基于時域特征的瞬態(tài)檢測方法；( 將20ms的輸入音頻幀分為5ms的段，以對通常在快速音樂和人聲中發(fā)生的瞬態(tài)進行快速檢測。由此，提供了高精度的檢測；C3) (3)使用過零率來防止無聲音之類的高頻且無音高的音頻段的擴展；(4)用于和瞬態(tài)檢測的平均過零率可包括作為經(jīng)驗值的適應(yīng)系數(shù)，以精確調(diào)整平均過零率；(5)由于本發(fā)明的瞬態(tài)檢測基于時域特征，其可提供用于立體聲的解決方案，而不會影響左右聲道之間的相差；及(6)并不對測得的瞬態(tài)進行調(diào)整(例如，不進行時長調(diào)整)，這使得聲音質(zhì)量膠質(zhì)對所有數(shù)據(jù)幀進行修改的方法的聲音質(zhì)量得以改進。綜上所述，本說明書中所述的只是本發(fā)明的幾種較佳具體實施例。凡本技術(shù)領(lǐng)域中技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實驗可以得到的技術(shù)方案，皆應(yīng)在本發(fā)明的權(quán)利要求保護范圍內(nèi)。
權(quán)利要求
1.一種用于對音頻信號進行時長調(diào)整的方法，包括接收所述音頻信號；將所述音頻信號分為多個幀；獲得各所述幀的至少一個時域特征；分析所述多個幀的當(dāng)前幀以檢測瞬態(tài)，其中所述分析包括將所述當(dāng)前幀的至少一個時域特征與預(yù)定值相比較，其中若所述時域特征大于所述預(yù)定值，所述幀則判定為包括瞬態(tài)；處理所述多個幀，其中對不包括瞬態(tài)的幀進行時長調(diào)整，并且對包括瞬態(tài)的幀不進行時長調(diào)整；并且輸出所述經(jīng)處理的幀。
2.如權(quán)利要求1所述的音頻信號的時長調(diào)整方法，其中根據(jù)波形詳細疊加法(WSOLA) 來進行所述時長調(diào)整。
3.如權(quán)利要求1所述的音頻信號的時長調(diào)整方法，其中根據(jù)相聲碼器來進行所述時長調(diào)整
4.如權(quán)利要求1所述的音頻信號的時長調(diào)整方法，還包括將所述幀分為多個依次等長的段。
5.如權(quán)利要求1所述的音頻信號的時長調(diào)整方法，還包括計算所述段的平均信號能量和平均過零率中的至少一個，其中所述至少一個時域特征包括所述平均信號能量和所述平均過零率中的至少一個。
6.如權(quán)利要求5所述的音頻信號的時長調(diào)整方法，其中所述預(yù)定值包括所述平均信號能量和所述平均過零率中的至少一個，其中若當(dāng)前段的能量差大于所述平均信號能量，則含有所述當(dāng)前段的所述當(dāng)前幀被判定為包括瞬態(tài)，并且若所述當(dāng)前段的過零率超過所述平均過零率，則含有所述當(dāng)前段的所述當(dāng)前幀被判定為包括瞬態(tài)。
7.如權(quán)利要求6所述的音頻信號的時長調(diào)整方法，其中通過使得所述平均過零率與適應(yīng)系數(shù)相乘而調(diào)整所述平均過零率。
8.一種音頻信號的時長調(diào)整方法，所述方法包括接所述收音頻信號；將所述音頻信號分為多個幀；將所述多個幀分為多個段；獲得各所述幀的至少一個時域特征，其中所述至少一個時域特征包括段的能量值和段的過零參考值中的至少一個；判定所獲得的各段的所述至少一個時域特征的平均值；分析所述多個幀的當(dāng)前段以檢測所述當(dāng)前段中的瞬態(tài)，其中所述分析包括將所述當(dāng)前幀的至少一個時域特征與所述至少一個時域特征的所述判定平均值相比較，其中若所述時域特征大于所述判定平均值，所述當(dāng)前幀則判定為包括瞬態(tài)；并且處理所述多個幀，其中對不包括瞬態(tài)的幀進行時長調(diào)整，并且對包括瞬態(tài)的幀不進行時長調(diào)整；并且作為輸入音頻信號輸出所述經(jīng)處理的幀。
9.如權(quán)利要求8所述的時長調(diào)整方法，其中根據(jù)波形詳細疊加法來進行所述時長調(diào)整
10.如權(quán)利要求8所述的時長調(diào)整方法，其中根據(jù)相聲碼器來進行所述時長調(diào)整。
全文摘要
一種用于檢測音頻信號中的瞬態(tài)的方法，所述音頻信號分為幀，所述方法包括獲得所述幀的時域特征以及將所述時域特征與預(yù)定值相比較。若所述時域特征大于所述預(yù)定值，則將所述幀判定為瞬態(tài)，并且若所述時域特征小于所述預(yù)定值，則將所述幀判定為非瞬態(tài)。本方法的計算開銷較小，由此非常適用于處理源受限的設(shè)備。
文檔編號G10L19/14GK102214464SQ20101013999
公開日2011年10月12日申請日期2010年4月2日優(yōu)先權(quán)日2010年4月2日
發(fā)明者商世東, 林中松, 王生九申請人:飛思卡爾半導(dǎo)體公司

完整全部詳細技術(shù)資料下載