国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于保持語(yǔ)音信息的單耳音頻處理系統(tǒng)和方法

      文檔序號(hào):2833223閱讀:523來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):基于保持語(yǔ)音信息的單耳音頻處理系統(tǒng)和方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信號(hào)處理,更具體地,涉及基于保持語(yǔ)音信息的噪聲降低。
      背景技術(shù)
      音頻設(shè)備(例如,手機(jī)、助聽(tīng)器)和具有音頻功能的個(gè)人計(jì)算設(shè)備(例如,上網(wǎng)本、平板電腦、個(gè)人數(shù)字助理(PDA))當(dāng)前被應(yīng)用于各種不同的環(huán)境中。在一些情況下,用戶需要在聲學(xué)特性包括ー些不需要的信號(hào)、典型地被稱(chēng)為“噪聲”的環(huán)境下使用這樣的設(shè)備。目前有許多方法用于音頻噪聲的降低。然而,傳統(tǒng)的方法提供不充分的降低或不令人滿意的生成信號(hào)質(zhì)量。更為如此,終端應(yīng)用是便攜式通信設(shè)備,而且功率受限、尺寸受限并且延遲受限。US2009/0012783教導(dǎo)了改變語(yǔ)音和噪聲模型的維納濾波器的功率估計(jì),并且不利用均方誤差,而是考慮了考慮到心理物理學(xué)掩蔽的語(yǔ)音失真。US2009/0012783處理被稱(chēng)為譜減法的維納濾波器的退化情況,并且生成増益掩碼(gain mask)。US2007/0154031用于多麥克風(fēng)的立體聲增強(qiáng),其以創(chuàng)造語(yǔ)音和噪聲估計(jì)的方式來(lái)使用信號(hào),作為標(biāo)準(zhǔn)維納濾波器的ー種可能的改進(jìn)。在示范性實(shí)施例中,確定了對(duì)由主麥克風(fēng)和次麥克風(fēng)所接收的聲信號(hào)的能量估計(jì),用以計(jì)算麥克風(fēng)間強(qiáng)度差(inter-microphonelevel difference, ILD)。這個(gè)ILD與僅基于主麥克風(fēng)聲信號(hào)的噪聲估計(jì)相結(jié)合,允許得到一濾波器估計(jì)。在一些實(shí)施例中,得到的濾波器估計(jì)可以是光滑的。濾波器估計(jì)接著被施加在來(lái)自主麥克風(fēng)的聲信號(hào)上,以生成ー語(yǔ)音估計(jì)。US20090074311教導(dǎo)了包括跟蹤在內(nèi)的可視數(shù)據(jù)處理,以及在可視域中處理干擾或模糊噪聲的流程??梢曈蚴遣煌该鞯?,因而可以使用試探方法來(lái)“連接”對(duì)象。其顯示了,感覺(jué)信息可以通過(guò)連接流的使用而得到增強(qiáng)。US7016507教導(dǎo)了對(duì)語(yǔ)音存在或不存在的檢測(cè),其計(jì)算ー衰減函數(shù)。盡管有前述噪聲降低/信號(hào)增強(qiáng)的不同方法,在便攜式設(shè)備中仍然有對(duì)于改進(jìn)語(yǔ)音質(zhì)量的增長(zhǎng)的需求。因此,需要提供一種實(shí)現(xiàn)新的噪聲降低技術(shù)并能應(yīng)用于便攜式設(shè)備中的方法和系統(tǒng)。

      發(fā)明內(nèi)容
      本發(fā)明的目標(biāo)是提供一種用于便攜式通信設(shè)備的減少與已存在的系統(tǒng)和方法相關(guān)聯(lián)的問(wèn)題的改進(jìn)的系統(tǒng)和方法。依照當(dāng)前公開(kāi)內(nèi)容的ー個(gè)方面,提供了ー種方法,包括(I)接收噪聲破壞信號(hào);
      (2)將噪聲破壞信號(hào)變換為時(shí)頻域的表示;(3)確定用于運(yùn)算的概率基,概率基是在大量頻帶中的先驗(yàn)并被在線計(jì)算;(4)使較長(zhǎng)期的內(nèi)狀態(tài)適應(yīng)計(jì)算后驗(yàn)分布;(5)計(jì)算符合數(shù)據(jù)的當(dāng)前分布;出)生成使語(yǔ)音熵最小化并使噪聲熵最大化的非線性濾波器,因而在增強(qiáng)語(yǔ)音的同時(shí)降低噪聲的影響;(7)應(yīng)用濾波器,生成頻域上的主輸出;以及(8)將主輸出變換到時(shí)域上,并輸出噪聲抑制信號(hào)。
      依照當(dāng)前公開(kāi)內(nèi)容的另ー個(gè)方面,提供了一種其上包含有程序的機(jī)器可讀介質(zhì),該程序提供了用于在計(jì)算機(jī)中執(zhí)行噪聲降低方法的指令。方法包括接收聲信號(hào);確定用于運(yùn)算的概率基,概率基是跨越在線計(jì)算的大量頻帶的先驗(yàn);生成在信息理論意義上工作以降低噪聲并增強(qiáng)語(yǔ)音的非線性濾波器;應(yīng)用濾波器以生成主聲輸出;以及輸出噪聲抑制信號(hào)。


      本發(fā)明的這些和其它特征將通過(guò)參考了附圖的以下說(shuō)明而變得更為顯而易見(jiàn),其中圖I示出了依照當(dāng)前公開(kāi)內(nèi)容的實(shí)施例的ー個(gè)具有音頻信號(hào)噪聲降低機(jī)制的音頻信號(hào)處理模塊的示例;圖2示出了實(shí)施圖I中的音頻信號(hào)處理模塊所采用的WOLA配置的示例; 圖3示出了圖I模塊中的后驗(yàn)分布計(jì)算中所實(shí)施的迭代的示例;圖4示出了圖I模塊中的當(dāng)前塊后驗(yàn)分布計(jì)算中所建立的后驗(yàn)的示例;圖5示出了 ζ函數(shù)的示例;圖6示出了可與圖I中的音頻信號(hào)處理模塊合并的、具有語(yǔ)音活動(dòng)檢測(cè)器(VAD)的決策模塊的示例;圖7示出了標(biāo)準(zhǔn)差的曲線圖(取自 http://en. wikipedia. org/wiki/No;rmal_dist;ributiorU ;圖8示出了不同β參數(shù)下的曲線形狀;圖9示出了改進(jìn)的ζ函數(shù)的示例;以及圖10示出了關(guān)于均值和協(xié)方差傳播的無(wú)跡變換(unscented transformation,UT)的示例;a)實(shí)際,b) 一階線性化(EKF), c)UT(取自 http://www.cslu.ogi.edu/nsel/ukf/node6. html (Eric Wan 的介紹頁(yè)面))。
      具體實(shí)施例方式通過(guò)示例的方式,已經(jīng)描述了ー個(gè)或多個(gè)當(dāng)前優(yōu)選的實(shí)施例。對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)將顯而易見(jiàn)的是,可以作出大量的變化和修改而不背離如權(quán)利要求中所定義的本發(fā)明的范圍。通過(guò)使用維納濾波器,得到了音頻噪聲降低的ー個(gè)類(lèi)型。這ー類(lèi)型的系統(tǒng)將計(jì)算音頻輸入的信號(hào)(S)和噪聲(N)的功率,并接著應(yīng)用SパS+N)的乘法器(如果是在頻域中實(shí)現(xiàn)的話)。當(dāng)S變得相對(duì)較大時(shí),頻帶的值變?yōu)?,同時(shí)如果帶中的噪聲功率變大,則乘法器變?yōu)镺。因此,相關(guān)的信噪比指示噪聲降低。典型的擴(kuò)展包括具有緩慢變化的S或N的估計(jì)量,使用各種不同的方法例如語(yǔ)音活動(dòng)檢測(cè)器來(lái)改進(jìn)對(duì)于S或N的估計(jì)質(zhì)量,將S或N從功率估計(jì)量改變?yōu)槿缯Z(yǔ)音失真或噪聲反感(noise aversion)的模型,允許那些模型模擬非平穩(wěn)源,特別是噪聲源。對(duì)標(biāo)準(zhǔn)濾波方法的另ー個(gè)較大的添加是將因MPEG3或類(lèi)似編碼而流行的心理物理學(xué)掩蔽類(lèi)型包括在語(yǔ)音失真測(cè)度當(dāng)中。音頻系統(tǒng)中噪聲降低的另ー個(gè)主要類(lèi)型是傳感器(如麥克風(fēng))陣列的使用。通過(guò)將來(lái)自兩個(gè)或更多傳感器的信號(hào)相結(jié)合,可以實(shí)現(xiàn)空間噪聲的降低,而帶來(lái)改善的輸出SNR。例如,如果信號(hào)同時(shí)到達(dá)一個(gè)雙傳感器陣列中的兩個(gè)傳感器,而有ー個(gè)散播的噪聲場(chǎng)在隨機(jī)的時(shí)刻到達(dá)傳感器處,那么將傳感器信號(hào)簡(jiǎn)單地相加到一起將使信號(hào)加倍,但有時(shí)散播場(chǎng)會(huì)建設(shè)性地相加,有時(shí)是破壞性地相加,平均來(lái)說(shuō)將帶來(lái)3dB的SNR改善。對(duì)加法波束形成器的基本改進(jìn)是允許不同頻率響應(yīng)和改進(jìn)的定向的濾波器與求和或者延遲與求和。這一定向的意思是,或者可將波束引向ー個(gè)源,或者可將空信號(hào)引向噪聲源,當(dāng)兩個(gè)傳感器信號(hào)相減時(shí)生成空信號(hào)。通過(guò)計(jì)算到達(dá)方向,ー些智能可被加在空定向上。高級(jí)的技術(shù)以Frost波束形成器開(kāi)始,擴(kuò)展至最小方差無(wú)畸變響應(yīng)(MVDR)波束形成器,并且均為廣義旁瓣消除器(GSC)的退化情況。作為對(duì)照,在非限制性的示例中,依照當(dāng)前公開(kāi)內(nèi)容的實(shí)施例的系統(tǒng)和方法將時(shí)間采樣處理為用于頻率分析的塊,例如,采用加權(quán)疊接相加(WOLA)的濾波器組將時(shí)域信號(hào)變換到時(shí)頻域中。依照當(dāng)前公開(kāi)內(nèi)容的該實(shí)施例的系統(tǒng)和方法獲取頻率數(shù)據(jù),驅(qū)動(dòng)考慮了處理的過(guò)去狀態(tài)的決策裝置,并產(chǎn)生語(yǔ)音和噪聲的概率。這饋送給非線性函數(shù),其在語(yǔ)音概率支配噪聲概率時(shí)達(dá)到最大化。該非線性函數(shù)被語(yǔ)音和噪聲的概率函數(shù)所驅(qū)動(dòng)。由于非線性可能使收聽(tīng)者煩擾,應(yīng)用的非線性處理被設(shè)計(jì)為有限可聽(tīng)失真。
      音頻信號(hào)不阻止其他的音頻信號(hào),它們不是不透明的。音頻信號(hào)線性地結(jié)合,因而需要一個(gè)不是絕對(duì)的并且可以處理具有ー些信號(hào)和噪聲的每個(gè)塊的框架。替代困難的決策,音頻流可以用來(lái)建立時(shí)頻域中的一點(diǎn)是語(yǔ)音還是噪聲的概率以及降噪傳感信息。音頻生態(tài)可以是半透明的。因此,替代了建立幅度譜估計(jì),依照當(dāng)前公開(kāi)內(nèi)容的實(shí)施例的系統(tǒng)和方法建立了概率模型,來(lái)驅(qū)動(dòng)非線性函數(shù)而不是衰減函數(shù)。在另ー個(gè)非限制性示例中,用于運(yùn)算的概率基可被替代為試探法,用以降低計(jì)算負(fù)荷。在這里分布被替代為跟蹤統(tǒng)計(jì)、最低限度識(shí)別均值、方差以及至少另ー個(gè)統(tǒng)計(jì)識(shí)別高階形態(tài)。例如,后驗(yàn)的貝葉斯最優(yōu)適應(yīng)可被取代。非線性決策裝置可被替代為試探式驅(qū)動(dòng)裝置,最簡(jiǎn)單的例子是雙態(tài)掩模(binary mask);當(dāng)輸入為語(yǔ)音的概率大于輸入為噪聲的概率時(shí)的單位増益;否則衰減。大體上,在每ー個(gè)子部分上詳述概率框架,隨后給出一個(gè)或更多的代表試探(proxy heuristics)。參考圖1,其中圖示了具有噪聲降低機(jī)制的信號(hào)處理模塊10的示例。模塊10包括基于保持語(yǔ)音信息的單耳音頻處理。該處理使用語(yǔ)音和噪聲流,用以對(duì)輸入頻率分析進(jìn)行降噪。隨著音頻,所有對(duì)象彼此相加,因而使用例如概率框架來(lái)消除不明確。模塊10計(jì)算非線性核,而非增益掩?;蛩p函數(shù)。非線性核是ー個(gè)參數(shù)化的函數(shù),其形式是在時(shí)間上的輸入統(tǒng)計(jì)函數(shù)。一個(gè)簡(jiǎn)單的例子是Σ増益,其陡度隨著上升的語(yǔ)音概率超過(guò)噪聲概率而增カロ。另ー個(gè)例子可以是取決于語(yǔ)音的哪一部分是有效的而定的ー個(gè)函數(shù)或混合函數(shù),因而在無(wú)聲語(yǔ)音當(dāng)中可以切換至類(lèi)似卡方包絡(luò)(Chi-squared envelope)來(lái)增強(qiáng)時(shí)間信息。圖I中的模塊10可以通過(guò)任意的硬件、軟件及其結(jié)合來(lái)實(shí)現(xiàn)。軟件代碼、指令和/或說(shuō)明的全部或者其中一部分可被存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)器中。進(jìn)ー步地,可嵌入在載波中的、表示軟件代碼、指令和/或說(shuō)明的計(jì)算機(jī)數(shù)據(jù)信號(hào)可以通過(guò)通信網(wǎng)絡(luò)來(lái)傳輸。在模塊10中通過(guò)以下步驟/模塊來(lái)實(shí)現(xiàn)噪聲降低。在圖I的步驟I (麥克風(fēng)模塊I)中,輸入時(shí)間域信號(hào)被阻止進(jìn)入緩存。輸入時(shí)間域信號(hào)典型地為ー噪聲破壞信號(hào)。在圖I的步驟2 (變換器2或分析模塊2)中,執(zhí)行頻率分析。每個(gè)塊數(shù)據(jù)都由例如,但不限干,過(guò)采樣濾波器組基于在來(lái)自多信道的時(shí)間采樣數(shù)據(jù)塊上的加權(quán)疊接相加(WOLA)來(lái)分析(例如,圖2中的N點(diǎn)WOLA分析濾波器組20)。該輸入在公式(I)中描述,該輸出在公式⑵中描述。在圖I的步驟3(統(tǒng)計(jì)決策模塊3)中,確定語(yǔ)音和噪聲的概率。概率基是在大量頻帶中的先驗(yàn),并被在線計(jì)算。輸入來(lái)自前面的塊2,而輸出是用于計(jì)算步驟4、5和6中的分布的基本變量。最小統(tǒng)計(jì)量是每個(gè)頻帶的幅度和相位。這些可能可以被展開(kāi)至它們的ー階導(dǎo)數(shù),或被歸納成任意導(dǎo)數(shù)或矩。在圖I的步驟4(后驗(yàn)分布計(jì)算器4)中,從步驟2和3中計(jì)算出長(zhǎng)期后驗(yàn)分布。適應(yīng)先驗(yàn)或輔助的統(tǒng)計(jì),用以更新語(yǔ)音和噪聲后驗(yàn)的形狀。輸入來(lái)自前面的塊,輸出在公式
      (4)和公式(5)中描述。這些是對(duì)于現(xiàn)實(shí)實(shí)施例的最小的必要先驗(yàn),其他概率分布可以包括有聲語(yǔ)音、無(wú)聲語(yǔ)音、各種不同的非平穩(wěn)噪聲類(lèi)型或音樂(lè)的概率。圖3中示出了ー個(gè)示例迭 代。在圖I的步驟5 (當(dāng)前塊后驗(yàn)分布計(jì)算器5)中,當(dāng)前塊后驗(yàn)分布通過(guò)當(dāng)前和短期數(shù)據(jù)與長(zhǎng)期分布相比較而計(jì)算得到。輸入來(lái)自前面的塊4以及頻率分析。最小輸出在公式
      (6)和公式(7)中描述。直接的實(shí)現(xiàn)方式將是由以每個(gè)dB分組的頻率對(duì)幅度的直方圖所描述的概率質(zhì)量函數(shù)。將會(huì)意識(shí)到,其他后驗(yàn)可以是時(shí)間上的相位一致性和在時(shí)間或頻率中的改變率,或者是兩者的相關(guān)。以每5dB對(duì)聲壓級(jí)分組而建立的示例性后驗(yàn)在圖4中顯示。在圖I的步驟6(増益計(jì)算器6)中,計(jì)算了每個(gè)頻帶的增益。輸入來(lái)自計(jì)算概率的前面的塊5。這ー步驟6依照貝葉斯規(guī)則來(lái)計(jì)算頻率分析,其很可能最低限度地用于語(yǔ)音和噪聲,但也可以如步驟4中一祥被擴(kuò)展。這些驅(qū)動(dòng)了公式(13)中的増益函數(shù)。最簡(jiǎn)單的增益函數(shù)是ニ進(jìn)制掩模。當(dāng)Psprac* >> Pme*時(shí),4 = I ;否則ζ = O。圖5表示了ー個(gè)典型的 函數(shù)。另外利用為每ー級(jí)別計(jì)算的XtHi,可以直接對(duì)估計(jì)降噪。對(duì)于某些聲音,塊與塊之間的相位差是高度確定性的,因而可以發(fā)生相位和増益的平滑。在圖I的步驟7(增益調(diào)整模塊7)中,増益被應(yīng)用在當(dāng)前數(shù)據(jù)塊,或某個(gè)短期先前塊上。在圖I的步驟8 (變換器8或轉(zhuǎn)換器8)中,生成了時(shí)域輸出。這可以例如通過(guò)WOLA合成濾波器組(如圖2中的24)而獲得。在一個(gè)非限制性的示例中,模塊10在步驟6中生成非線性濾波器,其將語(yǔ)音熵最小化并將噪聲熵最大化,從而在增強(qiáng)語(yǔ)音的同時(shí)降低了噪聲的影響。這些濾波器在步驟7中應(yīng)用,生成主輸出。這ー主輸出在步驟8中變換至?xí)r域,并輸出噪聲抑制信號(hào)。步驟6的非線性濾波器可以從高階統(tǒng)計(jì)量中得出。在步驟5中,較長(zhǎng)期內(nèi)狀態(tài)的適應(yīng)可以從最優(yōu)貝葉斯框架中得到。軟判決概率可以是受限的,或者使用硬判決試探來(lái)確定基于信息理論代表的非線性處理。步驟3、4和5中的概率基可以通過(guò)點(diǎn)采樣概率質(zhì)量函數(shù),或直方圖建立函數(shù),或擬合至廣義高斯族曲線的均值、方差和較高階描述統(tǒng)計(jì)量而形成。步驟6可以具有使用高階統(tǒng)計(jì)量的代表,或試探法,或峰度計(jì)算,或擬合廣義高斯與跟蹤參數(shù)β的優(yōu)化函數(shù)。本領(lǐng)域普通技術(shù)人員將會(huì)意識(shí)到,在圖I中模塊10是被示意性說(shuō)明的。模塊10可以包括圖中沒(méi)有示出的部件。噪聲降低統(tǒng)計(jì)的先驗(yàn)知識(shí)可以嵌入在模塊10中。語(yǔ)音增強(qiáng)統(tǒng)計(jì)的先驗(yàn)知識(shí)可以嵌入在模塊10中。濾波器生成中的心理聲學(xué)掩蔽可以在模塊10中實(shí)現(xiàn)。噪聲降低操作之前的空間濾波可以用模塊10實(shí)現(xiàn)。
      參考圖2,示出了在其上實(shí)現(xiàn)模塊10的WOLA濾波器組的示例。WOLA濾波器組系統(tǒng)使用用于分析濾波20的窗口和折疊技術(shù),具有用于調(diào)制和解調(diào)的FFT的子頻帶處理22,以及用于合成濾波24的重疊相加技木。圖I的步驟I實(shí)現(xiàn)于分析濾波器組20,圖I的步驟
      2-7實(shí)現(xiàn)于子頻帶處理模塊22,而圖I的步驟8實(shí)現(xiàn)于合成濾波器組24。參考圖I和2,在下面詳細(xì)描述每ー步驟(模塊)中的操作和處理。在步驟I中,聲音信號(hào)由麥克風(fēng)捕獲,并由模數(shù)轉(zhuǎn)換器(未示出)來(lái)進(jìn)行數(shù)字化,其中每ー個(gè)采樣都被緩沖為順序的數(shù)據(jù)塊。在步驟2中,每個(gè)數(shù)據(jù)塊被轉(zhuǎn)換至?xí)r頻域中。在一個(gè)非限制性示例中,時(shí)至頻域的轉(zhuǎn)換由WOLA分析函數(shù)20來(lái)實(shí)現(xiàn)。WOLA濾波器組的實(shí)現(xiàn)在計(jì)算和存儲(chǔ)資源方面是高效的,由此使得模塊10在低功率便攜式音頻設(shè)備中是有用的。然而,可以應(yīng)用任何頻域變換,其中可以包括但不限于短時(shí)傅里葉變換(STFT)、耳蝸?zhàn)儞Q、子頻帶濾波器組和/或小波(小波變換器)。
      ·
      對(duì)于每個(gè)塊,在下面顯示了變換。本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,對(duì)于復(fù)數(shù)頻域變換的這ー示例可以擴(kuò)展并應(yīng)用于實(shí)數(shù)的情況。{ズ。,X1,~X0,X1,...,XNI…(I)其中Xi表示在時(shí)域上的i信道數(shù)據(jù),而Xi表示i頻帶(子頻帶)數(shù)據(jù)。簡(jiǎn)明地,第m個(gè)塊為{x0, X1, , xN} = Xm …⑵iX0,Xl,...,XN} = Xm …(3)頻域數(shù)據(jù)的當(dāng)前塊具有步驟3中計(jì)算的語(yǔ)音和噪聲的概率。在非限制性的示例中,步驟3中語(yǔ)音和噪聲先驗(yàn)的更新通過(guò),例如但不限于,適合先前計(jì)算的后驗(yàn)函數(shù)的軟判決概率來(lái)控制。本領(lǐng)域普通技術(shù)人員將會(huì)意識(shí)到,可以使用任何決策裝置,包括語(yǔ)音活動(dòng)檢測(cè)器(VAD),分類(lèi)試探法,HMM,或其它。該實(shí)施例使用基于信息理論的非線性處理,其利用語(yǔ)音的時(shí)間特性。Pspeech [m+1] = fi (Pspeech [m],Xm+1) · ⑷Pnoise [m+1] = g! (Pmise [m],Xm+1) ... (5)其中,P是基于頻域數(shù)據(jù)的對(duì)數(shù)幅度的先驗(yàn)分布。Psp^和Pntjise代表了關(guān)于語(yǔ)音或噪聲是如何普遍的概率。在它們最易獲得的形式中,它們是數(shù)字,而且它們的和可以相加為I。函數(shù)も和gl兩者均為更新函數(shù),其將新數(shù)據(jù)的關(guān)系量化至先前的數(shù)據(jù),并更新全部的概率。這ー決策裝置驅(qū)動(dòng)步驟4中的適應(yīng)。最優(yōu)的更新將使用貝葉斯方法,其簡(jiǎn)化形式可以標(biāo)準(zhǔn)化為具有PiPaixmVE P〗。這可能是計(jì)算上的低效處理。已知的替代品具有語(yǔ)音活動(dòng)檢測(cè)器(VAD),例如為も和gl而使用的AMR-2 (參見(jiàn)圖2)。圖2示出了決策裝置的ー個(gè)示例,其公開(kāi)于“ETSI AMR-2VAD :評(píng)價(jià)和超低資源實(shí)現(xiàn)(ETSI AMR-2VAD EVALUATION AND ULTRA LOW RESOURCE IMPLEMENTATION)”, E.Cornu,H. Sheikhzadeh, R. L. Brennan, H. R. Abutalebi, E. C. Y. Tam, P. lies 和 K. ff. Wong, 2003 聲學(xué)語(yǔ)音和信號(hào)處理國(guó)際會(huì)議(2003International Conference on Acoustics Speech andSignal Processing, ICASSP,03)。圖6中,系統(tǒng)將輸入語(yǔ)音轉(zhuǎn)換為FFT頻帶信號(hào)30,并接著估計(jì)信道能量32、譜偏差34、信道SNR36以及背景噪聲38。系統(tǒng)通過(guò)使用峰均比40和估計(jì)的譜偏差來(lái)進(jìn)行噪聲更新決策46。系統(tǒng)進(jìn)一歩執(zhí)行語(yǔ)音量度計(jì)算42和全頻帶SNR計(jì)算44。系統(tǒng)接著執(zhí)行VAD 48。VAD48輸出的VAD標(biāo)記(VAD_f lag) 50是硬判決,當(dāng)其檢測(cè)到語(yǔ)音時(shí)更新Psp_h,當(dāng)沒(méi)有檢測(cè)到時(shí)更新Pntjise。另ー實(shí)施方式將VAD標(biāo)記替換為某種分類(lèi)步驟,例如HMM或試探法。多個(gè)HMM可被訓(xùn)練以輸出關(guān)于輸入Xm如何匹配語(yǔ)音和噪聲或許多不同類(lèi)噪聲的對(duì)數(shù)概率。對(duì)數(shù)概率可給出ー軟判決以更新先驗(yàn),或者較簡(jiǎn)單的實(shí)施方式可以選擇更像VAD標(biāo)記的最可能的分類(lèi)。HMM的標(biāo)準(zhǔn)訓(xùn)練將訓(xùn)練組與輸出之間的互信息最大化。一個(gè)較好的可選方法將語(yǔ)音分類(lèi)HMM與ー個(gè)或更多噪聲分類(lèi)HMM之間的互信息最小化,反之亦然。與在實(shí)踐中已知有益的最大化正確性相対,這確保了在分類(lèi)器中的最大可分性??梢允褂闷渌魏我唤M試探法。大體上是在尋找ー個(gè)具有語(yǔ)音對(duì)噪聲級(jí)的最大可分性的特征空間。顯示了足夠可分性的一個(gè)試探法是跟蹤幅度調(diào)制(AM)包絡(luò)。Drullman,R.,F(xiàn)esten, J. , Plomp, R. (1994), “Effect of reducing slow temporal modulations on speech reception”, J. Acoust. Soc. Am.,95 (5),2670-2680 突出了 低頻幅度調(diào)制對(duì)于語(yǔ)音來(lái)說(shuō)是如何重要。回溯至 Houtgast, T.和 Steeneken, H. (1973) :“The modulationtransfer function in room acoustics as a predictor of speech intelligibility,,,Acustica, 28,66-73,這已經(jīng)是眾所周知的了。著名的語(yǔ)音傳輸指數(shù)來(lái)源于Steeneken,H.和 Houtgast, T. (1980),uK physical method for measuring speech-transmissionquality”,J. Acoust. Soc. Am. ,67,318-326,因此跟蹤低AM率給出了對(duì)于什么是可理解的以及因而什么應(yīng)該是語(yǔ)音的較好的近似。跟蹤慢AM是ー個(gè)低處理但相對(duì)高存儲(chǔ)的任務(wù),并在現(xiàn)實(shí)世界中證明有效。在模塊10中引入了使用這ー跟蹤來(lái)幫助將語(yǔ)音從噪聲中分離出來(lái)。ー些AM檢測(cè)器在文獻(xiàn)中是眾所周知的,例如包絡(luò)檢測(cè)器、乘積檢測(cè)器或試探程序。參考圖I和2,在步驟4中,公式(4)和(5)在整個(gè)輸入頻率分析上計(jì)算。假定干擾源不是相互不同的,實(shí)際上這ー技術(shù)的能力在于處理語(yǔ)音和噪聲的重疊。函數(shù)も和gl通過(guò)包括嵌入的知識(shí)、后驗(yàn)變量和在先狀態(tài)的許多個(gè)因素來(lái)控制先驗(yàn)的改變率。步驟4的關(guān)鍵部分是在每一個(gè)頻帶中更新語(yǔ)音和噪聲后驗(yàn)的形態(tài)。因?yàn)榉仍诿總€(gè)頻帶中都要使用,分布可被概略地表現(xiàn)為卡方,但由于語(yǔ)音不是高斯的,這一點(diǎn)并非嚴(yán)格正確。優(yōu)選的實(shí)施例使用點(diǎn)采樣來(lái)建立概率質(zhì)量函數(shù)(pmfS),但后驗(yàn)可以通過(guò)任何直方圖構(gòu)建函數(shù)來(lái)描述。P (Speech | Xm) = f2 (Xm, Xnrl,Χ『2,· · ·,Xnrt)…(6)P (Noise | Xm) = g2 (Xm, Xm-1, X『2,· · ·,Xnrt) ...(J)其中P是分布,函數(shù)f2和g2使用音頻流的結(jié)構(gòu)。圖4中給出了ー個(gè)長(zhǎng)平均、粗略采樣的P的示例。這些函數(shù)被改變了它們適應(yīng)率的語(yǔ)音和噪聲的先驗(yàn)所參數(shù)化。它們兩者的運(yùn)行不同。f2不對(duì)稱(chēng)地圍繞在語(yǔ)音Pdf高尾部的一個(gè)點(diǎn)的周?chē)?。其?duì)到較高等級(jí)的適應(yīng)進(jìn)行加速,使増加后驗(yàn)峰度的數(shù)據(jù)的高熵部分加重。g2在另一方面最強(qiáng)地適應(yīng)至接近零的超額峰度。因此進(jìn)入數(shù)據(jù)在幅度調(diào)制域中被平滑或削弱,如果其符合噪聲假設(shè),或?qū)⒈患訌?qiáng),如果其符合語(yǔ)音pmf。關(guān)于函數(shù)f2和g2是如何依靠后驗(yàn)表示的選擇而運(yùn)行的,其中有著顯著的不同。f2和&控制適應(yīng)完成了多少,但這是為了具有總體輸入數(shù)據(jù)的全部模型,其中如果數(shù)據(jù)很好地匹配則f2較大地更新,如果后驗(yàn)匹配得不好則g2會(huì)很小。同時(shí)f2和g2也具有包括的存儲(chǔ)器,也就是說(shuō),當(dāng)我們?cè)讴`個(gè)級(jí)別中,我們將可能保持在這ー級(jí)別中,因而更新會(huì)更強(qiáng)。公式(4)和(6)是基礎(chǔ)的貝葉斯規(guī)則操作,由以下描述
      權(quán)利要求
      1.一種噪聲降低的方法,包括步驟 (1)接收噪聲破壞信號(hào); (2)將該噪聲破壞信號(hào)變換為時(shí)頻域的表示; (3)確定用于運(yùn)算的概率基,該概率基是在大量頻帶中的先驗(yàn)并被在線計(jì)算; (4)使較長(zhǎng)期的內(nèi)狀態(tài)適應(yīng)計(jì)算長(zhǎng)期后驗(yàn)分布; (5)計(jì)算符合數(shù)據(jù)的當(dāng)前分布; (6)生成使語(yǔ)音熵最小化并使噪聲熵最大化的非線性濾波器,因而在增強(qiáng)語(yǔ)音的同時(shí)降低噪聲的影響; (7)應(yīng)用所述濾波器以在頻域上生成主輸出;以及 (8)將主輸出變換到時(shí)域上,并輸出噪聲抑制信號(hào)。
      2.如權(quán)利要求I所述的方法,其中所述變換到時(shí)頻域的表示的步驟包括 通過(guò)加權(quán)疊接相加(WOLA)函數(shù)、短時(shí)傅里葉變換(STFT)、耳蝸?zhàn)儞Q或小波來(lái)實(shí)現(xiàn)時(shí)頻域的表示。
      3.如權(quán)利要求I所述的方法,其中所述確定概率基的步驟包括 通過(guò)以下至少ー個(gè)來(lái)更新語(yǔ)音和噪聲先驗(yàn) 符合先前計(jì)算的后驗(yàn)函數(shù)的軟判決概率; 語(yǔ)音活動(dòng)檢測(cè)器; 分類(lèi)試探法; HMM ; 貝葉斯方法。
      4.如權(quán)利要求I所述的方法,其中所述非線性濾波器從高階統(tǒng)計(jì)量中得出。
      5.如權(quán)利要求I所述的方法,其中所述內(nèi)狀態(tài)的適應(yīng)從最優(yōu)貝葉斯框架中得到。
      6.如權(quán)利要求I所述的方法,包括實(shí)現(xiàn) 軟判決概率或硬判決。
      7.如權(quán)利要求6所述的方法,其中所述軟判決概率是受限的,或者所述硬判決試探法被用于確定基于信息理論代表物的非線性處理。
      8.如權(quán)利要求I所述的方法,其中在步驟(3)、(4)和(5)中的所述概率基通過(guò)點(diǎn)采樣概率質(zhì)量函數(shù),或直方圖建立函數(shù),或擬合至廣義高斯曲線族的均值、方差和高階描述統(tǒng)計(jì)量而形成。
      9.如權(quán)利要求I所述的方法,其中所述生成步驟具有優(yōu)化函數(shù),使用高階統(tǒng)計(jì)量的代表物、或者試探法、或者峰度計(jì)算、或者向廣義高斯的擬合以及對(duì)參數(shù)β的跟蹤的。
      10.如權(quán)利要求I所述的方法,進(jìn)ー步包括以下至少ー個(gè) 被嵌入的噪聲降低統(tǒng)計(jì)的先驗(yàn)知識(shí);以及 被嵌入的語(yǔ)音增強(qiáng)統(tǒng)計(jì)的先驗(yàn)知識(shí)。
      11.如權(quán)利要求I所述的方法,包括以下至少ー個(gè) 跟蹤幅度調(diào)制,用于語(yǔ)音從噪聲中的分離; 在所述濾波器生成中心理聲學(xué)掩蔽的増加; 在所述噪聲降低操作之前實(shí)施空間濾波。
      12.如權(quán)利要求I所述的方法,其中用于運(yùn)算的概率基被試探法所取代,以降低計(jì)算負(fù)荷。
      13.如權(quán)利要求12所述的方法,其中分布被替代為跟蹤統(tǒng)計(jì)、最低限度識(shí)別均值、方差以及至少另ー個(gè)統(tǒng)計(jì)識(shí)別高階形態(tài)。
      14.如權(quán)利要求12所述的方法,其中后驗(yàn)的貝葉斯最優(yōu)適應(yīng)被替代為用于適應(yīng)的試探法。
      15.如權(quán)利要求12所述的方法,其中試探式驅(qū)動(dòng)裝置被用于運(yùn)算。
      16.一種其上嵌有程序的機(jī)器可讀介質(zhì),該程序提供了用于在計(jì)算機(jī)上執(zhí)行用于噪聲降低方法的指令,該方法包括 接收聲信號(hào); 確定用于運(yùn)算的概率基,該概率基是跨越多個(gè)頻帶的先驗(yàn),并被在線計(jì)算; 生成在信息理論意義上工作以降低噪聲并增強(qiáng)語(yǔ)音的非線性濾波器; 應(yīng)用濾波器以生成主聲輸出;以及 輸出噪聲抑制信號(hào)。
      17.如權(quán)利要求I所述的方法,其中步驟(4)包括至少ー個(gè)生成
      18.如權(quán)利要求17所述的方法,其中該更新通過(guò)以下來(lái)實(shí)現(xiàn)
      19.如權(quán)利要求18所述的方法,包括將代表噪聲后驗(yàn)的峰度最小化。
      20.如權(quán)利要求I所述的方法,其中所述后驗(yàn)被計(jì)算
      21.權(quán)利要求I所述的方法,其中所述步驟(6)實(shí)現(xiàn),通過(guò)
      22.ー種用于音頻信號(hào)噪聲降低的系統(tǒng),包括 變換器,用于將噪聲破壞信號(hào)變換為時(shí)頻域的表示; 模塊,用于確定用于運(yùn)算的概率基,該概率基是在大量頻帶中的先驗(yàn)并被在線計(jì)算; 模塊,用于使較長(zhǎng)期的內(nèi)狀態(tài)適應(yīng)計(jì)算長(zhǎng)期后驗(yàn)分布; 計(jì)算器,用于計(jì)算符合數(shù)據(jù)的當(dāng)前分布; 生成器,用于生成使語(yǔ)音熵最小化并使噪聲熵最大化的非線性濾波器,因而在增強(qiáng)語(yǔ)音的同時(shí)降低噪聲的影響,應(yīng)用濾波器以生成在頻域上的主輸出;以及變換器,用于將所述主輸出變換到時(shí)域,并輸出噪聲抑制信號(hào)。
      全文摘要
      本發(fā)明提供了一種用于噪聲降低的方法、系統(tǒng)以及機(jī)器可讀介質(zhì)。方法包括(1)接收噪聲破壞信號(hào);(2)將噪聲破壞信號(hào)變換為時(shí)頻域的表示;(3)確定用于運(yùn)算的概率基,概率基是在大量頻帶中的先驗(yàn)并被在線計(jì)算;(4)適應(yīng)該方法的較長(zhǎng)期的內(nèi)狀態(tài);(5)計(jì)算符合數(shù)據(jù)的當(dāng)前分布;(6)生成使語(yǔ)音熵最小化并使噪聲熵最大化的非線性濾波器,因而在增強(qiáng)語(yǔ)音的同時(shí)降低噪聲的影響;(7)應(yīng)用濾波器生成頻域上的主輸出;以及(8)將主輸出變換到時(shí)域上,并輸出噪聲抑制信號(hào)。
      文檔編號(hào)G10L21/02GK102723082SQ201210210428
      公開(kāi)日2012年10月10日 申請(qǐng)日期2012年3月21日 優(yōu)先權(quán)日2011年3月21日
      發(fā)明者J·P·邦迪 申請(qǐng)人:半導(dǎo)體元件工業(yè)有限責(zé)任公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1