專利名稱:回波抑制系統(tǒng)中增強(qiáng)近端語音信號(hào)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信系統(tǒng)中的語音信號(hào)處理,更具體地說,涉及增強(qiáng)信號(hào)中的近端語音,其中所述信號(hào)包括與遠(yuǎn)端語音回波組合的近端語音。
在諸如帶有揚(yáng)聲器電話的電信領(lǐng)域中及在蜂窩電話中,常常希望用戶可操作通信設(shè)備,卻無需持續(xù)使用一只或更多只手。這在諸如汽車的環(huán)境中是一個(gè)重要的因素,在駕駛汽車時(shí),司機(jī)手持電話設(shè)備不但可能危及其自身的安全,而且可能危及同在路上的其他人的安全。在其它應(yīng)用中,不用拿著麥克風(fēng)也有助于騰出手來從事其它工作,諸如通過個(gè)人計(jì)算機(jī)、由計(jì)算機(jī)的語音識(shí)別而進(jìn)行的因特網(wǎng)通信或視聽呈現(xiàn)系統(tǒng)。
為適應(yīng)這些重要的需求,開發(fā)了稱為“免提”的設(shè)備,其中麥克風(fēng)與揚(yáng)聲器安裝在免提環(huán)境中,因而免除了拿著它們的需要。例如,在汽車應(yīng)用中,蜂窩電話的揚(yáng)聲器可安裝在遮光板上,而揚(yáng)聲器可以是儀表板安裝單元,或者可以是與車子的立體聲設(shè)備相關(guān)的一個(gè)裝置。部件以這種方式安裝時(shí),蜂窩電話用戶可以進(jìn)行對(duì)話,卻無需拿著蜂窩單元或其手持機(jī)。同樣地,個(gè)人計(jì)算機(jī)常常裝有麥克風(fēng)和揚(yáng)聲器,例如,彼此相對(duì)極接近安裝在顯示器中。
免提配置的一個(gè)問題是除免提設(shè)備用戶(稱為“近端用戶”)的語音外,麥克風(fēng)往往會(huì)從鄰近的揚(yáng)聲器獲得聲音。這也是一些非免提裝置的問題,諸如手持式移動(dòng)電話,它們正變得越來越小。(因?yàn)槌叽缧?,移?dòng)電話的麥克風(fēng)無法完全不受其揚(yáng)聲器發(fā)出聲音的影響。)麥克風(fēng)對(duì)揚(yáng)聲器所產(chǎn)生聲音的這種感應(yīng)會(huì)在許多類型的應(yīng)用中造成問題。例如,在通信設(shè)備中,通信系統(tǒng)導(dǎo)致的延遲大致上會(huì)使呼叫的另一端的個(gè)人(稱為“遠(yuǎn)端”)從揚(yáng)聲器聽到的聲音為其自己語音的回波。此類回波降低了音頻質(zhì)量,因而希望將其減輕。類似的問題會(huì)存在于諸如自動(dòng)系統(tǒng)中,系統(tǒng)通過揚(yáng)聲器合成語音,并包括語音識(shí)別部件,用于識(shí)別和響應(yīng)麥克風(fēng)檢測(cè)到的口述命令或其它單詞。此類應(yīng)用中,麥克風(fēng)信號(hào)中合成語音回波的存在會(huì)嚴(yán)重降低語音識(shí)別部件的性能。改善此類回波的解決方案包括利用自適應(yīng)回波消除濾波器或回波衰減器。
作為免提設(shè)備的通常代表性示例,示例性“免提”移動(dòng)電話在
圖1中示出,它具有自適應(yīng)濾波器配置形式的常規(guī)回波消除器。例如,免提通信環(huán)境可以是安裝了移動(dòng)電話的汽車內(nèi)部。此類環(huán)境對(duì)其中的聲信號(hào)傳播有影響,影響一般是未知的。今后,此類型的環(huán)境將在此說明書整篇中稱為未知系統(tǒng)H(z)。麥克風(fēng)105用于檢測(cè)用戶的語音,但在檢測(cè)揚(yáng)聲器109發(fā)出的音頻信號(hào)方面也有不希望的效果。正是這個(gè)不希望的作用為系統(tǒng)帶來了回波信號(hào)。
如果不是消除,而是用于降低回波的電路包括諸如自適應(yīng)有限脈沖響應(yīng)(FIR)濾波器的自適應(yīng)濾波器101、諸如最小均方(LMS)互相關(guān)器的自適應(yīng)單元103、及減法器107。操作中,自適應(yīng)濾波器101生成回波估計(jì)信號(hào)102,這通常稱為信號(hào)。回波估計(jì)信號(hào)102是遠(yuǎn)端信號(hào)112和濾波器101的m個(gè)濾波器加權(quán)系數(shù)(hj)的序列的卷積(參見等式1)。u^(n)=Σi=0m-1hix(n-i)----(1)]]>其中x(n)是輸入信號(hào),m是加權(quán)系數(shù)的數(shù)量,以及n是抽樣數(shù)。
加權(quán)系數(shù)設(shè)置正確時(shí),自適應(yīng)濾波器101產(chǎn)生脈沖響應(yīng),它大約等于未知系統(tǒng)H(z)中揚(yáng)聲器109產(chǎn)生的響應(yīng)。從輸入數(shù)字化麥克風(fēng)信號(hào)126(等式2中的指定的u(n))中減去自適應(yīng)濾波器101生成的回波估計(jì)信號(hào)102,以產(chǎn)生誤差信號(hào)e(n)(參見等式2)。
e(n)=u(n)-(n)(2)理想的情況是,通過減去回波估計(jì)信號(hào)102,從數(shù)字化麥克風(fēng)信號(hào)126刪除揚(yáng)聲器109引入的未知系統(tǒng)H(z)中任何回波響應(yīng)。一般的情況是,有效消除回波所需的加權(quán)系數(shù)(以下稱為“系數(shù)”)的數(shù)量將取決于應(yīng)用。對(duì)于手持式電話,少于100個(gè)系數(shù)可能便足夠了。對(duì)于汽車中的免提電話,需要約200到400個(gè)系數(shù)。大的空間可能需要濾波器利用超過1000個(gè)系數(shù),以提供充分的回波消除。
可以看到,回波消除器的效用直接涉及到自適應(yīng)濾波器101能夠復(fù)制未知系統(tǒng)H(z)的脈沖響應(yīng)的程度。這又直接涉及到濾波器101保持的系數(shù)集合hi。
最好是提供一種用于動(dòng)態(tài)更改系數(shù)hi的機(jī)制,以便使自適應(yīng)濾波器101適應(yīng)未知系統(tǒng)H(z)中的變化。在具有免提蜂窩配置的車中,打開或關(guān)上車窗或車門時(shí),此類變化便會(huì)發(fā)生。眾所周知的系數(shù)自適應(yīng)方案是最小均方(LMS)處理,它最早由Widrow和Hoff于1960年提出,由于其有效性和健壯性而得到頻繁地使用。應(yīng)用于回波消除問題時(shí),LMS處理是一種隨機(jī)梯度步驟法(stochastic gradient stepmethod),它使用梯度的粗略(噪音)估計(jì),g(n)=e(n)x(n),以進(jìn)行朝著使麥克風(fēng)信號(hào)e(n)中回波信號(hào)的能量最小的遞增步驟,其中x(n)是以與表達(dá)式x(n)=[x(n)x(n-1)x(n-2)...x(n-m+1)]對(duì)應(yīng)的向量符號(hào)表示。LMS處理產(chǎn)生的更新信息e(n)x(n)用于確定下一抽樣中的系數(shù)值。用于計(jì)算下一系數(shù)值hi(n+l)的表達(dá)式如下hi(n+l)=hi(n)+μe(n)x(n-i),i=0...m-1(3)其中x(n)是數(shù)字化輸入信號(hào)134,(hi)是濾波器加權(quán)系數(shù),i指定特定系數(shù),m是系數(shù)的數(shù)量,n是抽樣數(shù),以及
μ是一個(gè)步長或更新增益參數(shù)。
LMS方法在遞增部分產(chǎn)生信息,每個(gè)部分會(huì)有一個(gè)正值或負(fù)值。由LMS處理產(chǎn)生的信息可提供給濾波器以更新濾波器的系數(shù)。
再參見圖1,常規(guī)回波消除電路包括以LMS互相關(guān)器形式的濾波器自適應(yīng)單元103,用于將系數(shù)更新信息104提供給濾波器101。在此配置中,濾波器自適應(yīng)單元103監(jiān)視糾正信號(hào)e(n),該信號(hào)表示數(shù)字化麥克風(fēng)信號(hào)126減去由濾波器101生成的回波估計(jì)信號(hào)102。如上所述,使用由濾波器自適應(yīng)單元103提供給自適應(yīng)濾波器101的更新信息104來生成回波估計(jì)信號(hào)102。自適應(yīng)濾波器101的系數(shù)hi如等式3所示累積更新信息104。
從麥克風(fēng)信號(hào)減少聲回波的出現(xiàn)后,作為結(jié)果的信號(hào)隨后被提供給其它部件做進(jìn)一步處理,這種處理隨應(yīng)用而定。例如,除諸如上述的聲回波消除電路外,諸如圖1所示的收發(fā)信機(jī)一般還包括近端語音活動(dòng)性檢測(cè)器150,它輸出表示近端用戶是否正在說話的信號(hào)153。執(zhí)行近端語音活動(dòng)性檢測(cè)的最常用方法是采用時(shí)域功率計(jì)算。通常,關(guān)于存在或是不存在語音活動(dòng)性的判決主要是基于閾值能級(jí)(對(duì)應(yīng)于背景噪音)與帶通濾波的信號(hào)能量的量度之間的比較。帶通濾波的目的是消除與背景噪音相關(guān)的信號(hào)能量。
表示存在或是不存在近端語音的信號(hào)對(duì)于多個(gè)使用中的任一個(gè)使用是有用的。首先,在諸如全球移動(dòng)通信系統(tǒng)(GSM)的蜂窩通信系統(tǒng)中,數(shù)字化語音信號(hào)不會(huì)以其原始形式通過網(wǎng)絡(luò)發(fā)送,而是以某種方式被編碼,這降低了實(shí)際需要從一個(gè)地方傳送到另一個(gè)地方的比特?cái)?shù)。在GSM中,正常對(duì)話中每個(gè)參與者平均說話的時(shí)間少于40%的時(shí)間,語音編碼器利用了這一事實(shí)。通過將語音活動(dòng)檢測(cè)器作為語音編碼器機(jī)能的一部分,GSM系統(tǒng)以間斷傳輸模式(DTX)操作,在該模式中,GSM發(fā)射機(jī)在無聲期間不活動(dòng)(即,在近端語音活動(dòng)性檢測(cè)器150指示近端用戶不在說話時(shí))。此方法提供了更長的用戶電池使用壽命,并降低了瞬間無線電干擾。接收端的舒適噪音子系統(tǒng)引入背景噪聲以補(bǔ)償由于DTX而發(fā)生的討厭的轉(zhuǎn)換靜噪。
還可以根據(jù)語音信號(hào)是否包括近端語音分量來采用近端語音活動(dòng)性檢測(cè)器,以便控制活動(dòng)聲回波消除器的衰減因數(shù)。
此外,還可以使用近端語音活動(dòng)性檢測(cè)器以控制自適應(yīng)濾波器101的自適應(yīng)速度。
語音活動(dòng)性檢測(cè)器不是處理表示近端語音的信號(hào)的僅有類型部件。例如,此類信號(hào)可提供給語音識(shí)別器模塊。語音識(shí)別器模塊是眾所周知的,并且在允許用戶通過語音控制來對(duì)裝置或計(jì)算機(jī)進(jìn)行控制的應(yīng)用中以及在允許用戶僅通過口述來創(chuàng)建電子文檔的應(yīng)用中,語音識(shí)別器模塊是有用的。
此外,表示近端語音的信號(hào)還可在系統(tǒng)中被反饋用于控制回波消除濾波器101本身,諸如用于控制自適應(yīng)的速度。
盡管存在如上所述的回波消除電路,供進(jìn)一步處理(例如,用于對(duì)通信系統(tǒng)中遠(yuǎn)端用戶的傳輸,或用于近端語音識(shí)別,或用于控制回波消除濾波器101的操作)而生成的信號(hào)仍會(huì)常常包括回波分量。這種情況會(huì)發(fā)生,例如,因?yàn)樽赃m應(yīng)濾波器仍未收斂到完全自適應(yīng)狀態(tài),或即使在此類收斂后,只要未知環(huán)境H(z)發(fā)生變化,便需要重復(fù)自適應(yīng)過程。信號(hào)中存在強(qiáng)的回波信號(hào)分量可造成下游處理部件的操作降級(jí),甚至出現(xiàn)故障,因?yàn)檫@些回波信號(hào)分量可能被誤認(rèn)為是近端語音。
諸如常規(guī)語音活動(dòng)性檢測(cè)器、語音識(shí)別模塊等的處理近端語音信號(hào)的常規(guī)應(yīng)用程序一般假定要處理的信號(hào)中不存在回波,因此不具有集中注視近端語音以排除回波信號(hào)分量的任何能力,回波信號(hào)分量也可能在人的語音活動(dòng)性的頻率范圍內(nèi)。
發(fā)明概述因此,本發(fā)明的一個(gè)目的是提供生成信號(hào)的方法和裝置,所述信號(hào)中,近端語音分量相對(duì)于回波信號(hào)分量得到增強(qiáng)。
上述和其它目的可在用于生成增強(qiáng)的近端語音信號(hào)的方法和裝置中實(shí)現(xiàn)。按照本發(fā)明的一個(gè)方面,生成增強(qiáng)的近端語音信號(hào)包括接收音頻信號(hào);生成估計(jì)的聲回波信號(hào);以及通過從音頻信號(hào)刪除估計(jì)的聲回波信號(hào)來生成處理信號(hào)。這些步驟在例如免提電話裝置中是有用的,其中從遠(yuǎn)端用戶傳送信息的揚(yáng)聲器信號(hào)被獲得,作為免提電話裝置的麥克風(fēng)的聲回波。下一步,確定近端增強(qiáng)頻譜,其中,近端增強(qiáng)頻譜具有至少一個(gè)范圍的連續(xù)頻率,對(duì)于所述范圍,近端增強(qiáng)頻譜具有大于預(yù)定閾值的量值,而其中所述范圍的連續(xù)頻率是與處理信號(hào)中相對(duì)高的回波損耗(echo return loss)相關(guān)的那些頻率。隨后按照近端增強(qiáng)頻譜對(duì)處理信號(hào)進(jìn)行濾波,由此生成增強(qiáng)近端語音信號(hào)。
按照本發(fā)明的另一方面,對(duì)增強(qiáng)近端語音信號(hào)中包含的能量進(jìn)行測(cè)量。隨后根據(jù)增強(qiáng)的近端語音信號(hào)的測(cè)量能量來檢測(cè)存在或是不存在近端語音活動(dòng)性。
按照本發(fā)明的又一方面,增強(qiáng)的近端語音信號(hào)可以應(yīng)用到近端語音識(shí)別器,由此獲得改進(jìn)的語音識(shí)別性能。
按照本發(fā)明的另一方面,上述過程被定期重復(fù),以致檢測(cè)是否存在近端語音活動(dòng)性可以動(dòng)態(tài)調(diào)整,以便適應(yīng)變化的條件。
按照本發(fā)明的再一方面,確定近端增強(qiáng)頻譜包括將近端增強(qiáng)頻譜確定為加權(quán)頻譜的函數(shù),其中加權(quán)頻譜定義為W(f)=αΓΓmax+βEEmax+γSSmax]]>其中Γ是從遠(yuǎn)端信號(hào)得到的聲回波的估計(jì)的頻譜;E是表示步驟c)的回波消除性能的回波損耗增強(qiáng)頻譜;N是處理信號(hào)的頻譜;S是表示回波路徑的頻譜擴(kuò)展屬性的回波擴(kuò)頻;Γmax=max(Γ),Emax=max(E)和Smax=max(S);以及
α、β和γ是常量,且α+β+γ>0。
在本發(fā)明的另一方面,α+β+γ=1。
在本發(fā)明的又一方面,將近端增強(qiáng)頻譜確定為加權(quán)頻譜的函數(shù)包括根據(jù)以下等式確定檢測(cè)器頻譜C=Σi∫Speechmin(i)Speechmax(i)W(f)df∫0SpectrumtotalmaxW(f)df]]>其中Speechmin(i)是第i個(gè)頻率,其中N超過預(yù)定閾值;Speechmax(i)是第i個(gè)頻率,其中N低于預(yù)定閾值;以及Spectrumtotal max是加權(quán)頻譜W(f)中感興趣的最大頻率。
附圖簡(jiǎn)述通過結(jié)合附圖來閱讀下述詳細(xì)說明,將理解本發(fā)明的目的和優(yōu)點(diǎn),附圖中圖1是常規(guī)免提收發(fā)信機(jī)的方框圖,該收發(fā)信機(jī)包括聲回波消除器和近端語音活動(dòng)性檢測(cè)器;圖2是比較應(yīng)用回波消除前后的語音信號(hào)(一句話)的功率頻譜的圖形;圖3是本發(fā)明示例性實(shí)施例的方框圖;圖4是一個(gè)流程圖,描述按照本發(fā)明執(zhí)行的步驟;圖5是示例性近端頻譜N,說明幾個(gè)非連續(xù)頻帶的情況,對(duì)于這些頻帶,量值超過了預(yù)定閾值級(jí)(threshold level);圖6A是示例性標(biāo)準(zhǔn)化近端語音頻譜N的圖形;圖6B是示例性標(biāo)準(zhǔn)化ERLE頻譜E的圖形;圖6C是示例性標(biāo)準(zhǔn)化揚(yáng)聲器頻譜Γ的圖形;圖6D是按照本發(fā)明一個(gè)方面的示例性加權(quán)頻譜的圖形;圖6E是按照本發(fā)明一個(gè)方面的確定示例性壓縮系數(shù)C的圖形說明;圖7A是另一示例性標(biāo)準(zhǔn)化近端語音頻譜N的圖形;圖7B是另一示例性標(biāo)準(zhǔn)化ERLE頻譜E的圖形;圖7C是另一示例性標(biāo)準(zhǔn)化揚(yáng)聲器頻譜Γ的圖形;圖7D是按照本發(fā)明一個(gè)方面的另一示例性加權(quán)頻譜的圖形;以及圖7E是按照本發(fā)明一個(gè)方面的確定示例性壓縮系數(shù)C的另一圖形說明。
詳細(xì)描述現(xiàn)將關(guān)于附圖來描述本發(fā)明各種特性,附圖中相同的部件用相同的標(biāo)號(hào)來標(biāo)識(shí)。
按照本發(fā)明的一個(gè)方面,通過利用有關(guān)一些頻率的信息來生成相對(duì)于回波信號(hào)分量增強(qiáng)了近端語音分量的信號(hào),其中回波消除器正在所述一些頻率適當(dāng)工作,以確定信號(hào)能量最可能歸因于近端語音活動(dòng)性的頻率帶寬。通過對(duì)已知回波消除在其中有效的那些最初選定的頻率的功率進(jìn)行計(jì)算,而不是對(duì)只是一般與語音活動(dòng)性相關(guān)的更大頻率范圍來計(jì)算功率,可以獲得回波分量與近端語音之間的更大差值。增加此差值可增強(qiáng)被設(shè)計(jì)來處理近端語音的下游部件的性能,這樣的部件諸如有語音活動(dòng)性檢測(cè)器、語音識(shí)別器或用于控制回波消除操作本身的反饋路徑。
用于選擇增強(qiáng)哪些頻率的技術(shù)依賴于正在使用的是哪種回波消除器。例如,在LMS類型回波消除方法中,用于每個(gè)頻率的回波損耗增強(qiáng)(ERLE)依賴于信號(hào)的頻譜功率。在圖2中,實(shí)線201說明在回波消除應(yīng)用之前的語音信號(hào)(一句話)的功率頻譜。為進(jìn)行比較,虛線203說明在回波消除應(yīng)用之后同一語音信號(hào)的功率頻譜。對(duì)于低于250Hz或高于1500Hz的那些頻率,可以觀察到回波消除性能中的實(shí)際損失。因此,將其分析僅限制在250Hz到1500Hz范圍的那些語音信號(hào)頻率的近端語音處理單元(例如,語音活動(dòng)性檢測(cè)器或語音識(shí)別器)不大可能把回波分量誤認(rèn)為近端語音。通常,近端語音處理單元為獲得改進(jìn)的性能而應(yīng)操作的特定頻帶將依賴于信號(hào)頻譜功率以及正在使用的回波消除器類型。
要處理近端語音以排除遠(yuǎn)端回波信號(hào)時(shí),下面是在選擇要增強(qiáng)或集中注視的頻帶時(shí)應(yīng)考慮在內(nèi)的注意事項(xiàng)。必須認(rèn)識(shí)到,由于麥克風(fēng)將近端語音信號(hào)與遠(yuǎn)端回波信號(hào)相混合,因此,近端語音信號(hào)的真實(shí)頻譜還不知道。用于噪聲環(huán)境中檢測(cè)語音的常規(guī)技術(shù)常常包括排除噪聲占優(yōu)勢(shì)的那些頻率(例如,通過濾波)。然而,在具有遠(yuǎn)端回波的情況下,與遠(yuǎn)端回波信號(hào)相關(guān)的頻率本身是與語音相關(guān)的那些頻率。也就是說,在存在其它(例如遠(yuǎn)端)語音的情況下,我們嘗試檢測(cè)近端語音。因此,簡(jiǎn)單地排除與回波相關(guān)的頻率可能也會(huì)排除與近端語音相關(guān)的信號(hào)部分,從而未能實(shí)現(xiàn)目的。
如上所述,得不到近端語音信號(hào)的原始副本,因此不可能獲得近端語音頻譜的量度。(事實(shí)上,如果可得到近端語音信號(hào)的原始副本,現(xiàn)在所述的問題將不存在。)然而,可以得到?jīng)]有混雜近端語音的遠(yuǎn)端語音信號(hào)112,并且這可以有利地被使用。首先,平均算來,回波信號(hào)中所含的頻譜能量對(duì)應(yīng)于近端語音信號(hào)的頻譜能量(因?yàn)閮烧呔鶠檎Z音信號(hào))。因此,在某種程度上,遠(yuǎn)端語音信號(hào)(或從該信號(hào)得到的信號(hào))可用作聚焦近端語音搜索的信息源。
我們也可以獲得回波消除最有效的那些頻率的量度。正是在這些頻率上,近端語音信號(hào)更不大可能由于存在回波語音分量而不明顯,因而該信息也可有利地被用于增強(qiáng)近端語音處理。
要用來計(jì)算近端語音的增強(qiáng)頻譜的頻帶數(shù)量由設(shè)計(jì)人員決定。算得的頻譜中可存在的最大頻帶數(shù)量是計(jì)算頻譜的信號(hào)抽樣數(shù)量的一半。然而,不是總要計(jì)算最大頻帶數(shù)量。通過從相同數(shù)量的信號(hào)抽樣來確定更少的頻帶,可以產(chǎn)生更有意義的數(shù)。例如,假設(shè)頻譜要從正在GSM蜂窩通信系統(tǒng)中傳播的信號(hào)的1600個(gè)抽樣中生成。在GSM中,這1600個(gè)抽樣表示200毫秒的語音。因此,最高可表示的頻率為4000Hz(尼奎斯特頻率)。這1600個(gè)抽樣可分成十組,每組具有160個(gè)抽樣。對(duì)這十組中的每個(gè)組執(zhí)行256點(diǎn)快速傅立葉變換(FFT)將生成十個(gè)頻譜,這些頻譜可使用適當(dāng)?shù)募訖?quán)平均策略進(jìn)行組合。例如,可以使用一種類型的指數(shù)平均,由此,與新生成的頻譜相關(guān)的頻帶具有比以前確定的平均值低得多的加權(quán)(這樣,該平均值對(duì)頻譜隨時(shí)間的變化響應(yīng)緩慢)。這種頻譜組合產(chǎn)生了一個(gè)頻譜,在該頻譜中,每個(gè)點(diǎn)(頻帶)從十倍的信息中生成,好象已對(duì)原1600個(gè)抽樣執(zhí)行單個(gè)FFT,生成更多的頻帶。通過使用加權(quán)組合技術(shù),從抽樣的非典型集合生成的單個(gè)頻譜對(duì)整體操作將不產(chǎn)生實(shí)質(zhì)影響。
在本發(fā)明的一個(gè)實(shí)施例中,設(shè)計(jì)人員可以預(yù)先計(jì)算回波消除器預(yù)期在其中適當(dāng)工作的一個(gè)或多個(gè)頻帶,然后將隨后的近端語音處理安排為僅在這些頻帶中操作。
在另一實(shí)施例中,隨后的近端語音處理操作所處的頻帶可被動(dòng)態(tài)確定。這提供了能使近端語音處理適應(yīng)對(duì)應(yīng)動(dòng)態(tài)變化條件的變化條件的能力,諸如回波消除器的性能變化和遠(yuǎn)端信號(hào)112的頻譜質(zhì)量變化?,F(xiàn)在將參照?qǐng)D3的方框圖來描述按照本發(fā)明這一方面的近端語音增強(qiáng)的示例性實(shí)施例。
示例性聲回波消除配置301包括自適應(yīng)濾波器101、濾波器自適應(yīng)單元103、揚(yáng)聲器109、麥克風(fēng)105、D/A轉(zhuǎn)換器136、A/D轉(zhuǎn)換器124及減法器107,它們的操作與圖1中示出的一樣。因此,在此不重復(fù)對(duì)這些部件的描述。在示例性收發(fā)信機(jī)中示出的還有噪音抑制單元303,雖然此部件是任選的。按照本發(fā)明,當(dāng)存在噪音抑制單元303時(shí),噪音抑制單元303本身可以根據(jù)生成的信息被動(dòng)態(tài)調(diào)節(jié)(例如,噪音抑制單元303的操作可以為是否在減法器107輸出端生成的信號(hào)e(n)中檢測(cè)到近端語音活動(dòng)性的函數(shù))。視具體應(yīng)用而定,遠(yuǎn)端信號(hào)112可由許多源生成。例如,在蜂窩電話中,可在語音解碼器(未示出)的輸出端提供遠(yuǎn)端信號(hào)112,該解碼器從接收信號(hào)生成遠(yuǎn)端信號(hào)112。處理的近端語音信號(hào)313作為聲回波消除配置301的輸出被生成,并可被提供到近端語音處理器(未示出)的輸入端。近端語音處理器的功能隨應(yīng)用而定,在此不做詳細(xì)描述。在蜂窩電話示例中,近端語音處理器可以為語音活動(dòng)性檢測(cè)器(未示出),也可以是語音編碼器(未示出),它生成傳輸?shù)竭h(yuǎn)端用戶的編碼信號(hào)。
按照本發(fā)明,聲回波消除配置301還包括近端增強(qiáng)頻譜生成器309。近端增強(qiáng)頻譜生成器309的輸出可提供給近端語音處理器的控制輸入端,用于增強(qiáng)其性能。例如,在近端語音處理器是語音活動(dòng)性檢測(cè)器的情況下,根據(jù)如近端增強(qiáng)頻譜生成器309所表示的處理的近端語音信號(hào)313的特定頻譜帶的特性,語音活動(dòng)性檢測(cè)器可做出語音活動(dòng)性判決。也就是說,近端增強(qiáng)頻譜生成器309確定將何種類型的濾波應(yīng)用到處理的近端語音信號(hào)313,作為語音活動(dòng)性檢測(cè)策略的一部分。
可以對(duì)諸如語音識(shí)別設(shè)備的其它類型近端語音處理設(shè)備做類似的控制調(diào)節(jié)。
近端增強(qiáng)頻譜生成器309可以體現(xiàn)為多種形式,且每種形式均被視為在本發(fā)明的范圍內(nèi)。這樣的形式包括在計(jì)算機(jī)可用存儲(chǔ)媒體上以信號(hào)體現(xiàn)的計(jì)算機(jī)程序指令,所述計(jì)算機(jī)可用存儲(chǔ)媒體諸如有隨機(jī)訪問存儲(chǔ)器(RAM)、磁存儲(chǔ)媒體(例如,磁盤、軟盤或磁帶)和光存儲(chǔ)媒體(例如光盤只讀存儲(chǔ)器(CD ROM))。另一方面,本發(fā)明可被指定為執(zhí)行這樣的指令的可編程處理器。另一方面,近端增強(qiáng)頻譜生成器309也可以體現(xiàn)為硬連線部件或編程邏輯陣列的許多配置。
為描述近端增強(qiáng)頻譜生成器309的操作,定義了下列術(shù)語估計(jì)回波頻譜(Γ)是估計(jì)回波信號(hào)的頻譜,由自適應(yīng)濾波器101提供的y(n)(即要從數(shù)字化麥克風(fēng)信號(hào)d(n)抽取的信號(hào))。估計(jì)回波頻譜??赏ㄟ^例如FFT從數(shù)字化麥克風(fēng)信號(hào)d(n)生成,因而是頻率f的函數(shù)。估計(jì)回波頻譜Γ一般表示遠(yuǎn)端頻譜回波的本地固定頻譜。在諸如GSM蜂窩電話的應(yīng)用中,這應(yīng)是20毫秒語音的頻譜。考慮到這種情況下語音改變其頻譜內(nèi)容的速度不快于20毫秒,用于計(jì)算估計(jì)回波頻譜Γ的抽樣數(shù)量最好與近端語音處理器(例如,近端語音活動(dòng)性檢測(cè)器)所用的抽樣數(shù)量相同。如果組合技術(shù)(例如,加權(quán)平均)應(yīng)用于估計(jì)回波頻譜Γ的幾種量度,則加權(quán)應(yīng)是使新計(jì)算的估計(jì)回波頻譜Γ迅速影響組合。在一些優(yōu)選實(shí)施例中,相對(duì)于估計(jì)回波頻譜Γ不應(yīng)用取平均值。注意估計(jì)回波頻譜??捎糜谥甘九c相對(duì)高回波損耗相關(guān)的那些頻率。
回波損耗增強(qiáng)(ERLE)頻譜(E)是表示回波消除濾波器的回波消除性能的頻譜。ERLE頻譜E是頻率f的函數(shù)。ERLE頻譜E的幾個(gè)其它量度可以被利用。在一些實(shí)施例中,可根據(jù)以下等式確定來ERLE頻譜E=F{d(n)}-F{e′(n)} (4)其中,F(xiàn)( )表示傅立葉轉(zhuǎn)換,d(n)是包含近端語音及回波與噪音分量的數(shù)字化麥克風(fēng)信號(hào),并且e′(n)是處理的近端語音信號(hào)313。
在其它實(shí)施例中,可按照以下等式先生成時(shí)域量度來確定不同的ERLE頻譜ERLE(n)=10log10{d(n)2e′(n)2}----(5.1)]]>此后,頻域頻譜可按照以下等式生成E=F{ERLE(n)} (5.2)ERLE頻譜E的每個(gè)量度可用于指示與相對(duì)高回波損耗相關(guān)的那些頻率。此外,在這些實(shí)施例的任一實(shí)施例中,可為一組抽樣中的每一個(gè)抽樣及按上所述組合(例如,通過加權(quán)平均)的作為結(jié)果的頻譜分別確定ERLE頻譜E。平均速度(即新計(jì)算的頻譜對(duì)平均值影響較大的速度)最好與自適應(yīng)濾波器101的自適應(yīng)速度大約相同,以便ERLE頻譜E準(zhǔn)確反應(yīng)回波消除性能。
近端頻譜(N)是回波消除和任選的噪音抑制后接收信號(hào)的頻譜(即,它是處理的近端語音信號(hào)313的頻譜)。近端頻譜N是頻率f的函數(shù),并可作為處理的近端語音信號(hào)313(e′(n))的FFT來計(jì)算。最好計(jì)算使用的抽樣數(shù)量與計(jì)算估計(jì)回波頻譜Γ使用的抽樣數(shù)量相同。
回波擴(kuò)頻(S)表示回波路徑的頻譜擴(kuò)展屬性。也就是說,它是對(duì)如何在揚(yáng)聲器109和麥克風(fēng)105之間變換不同頻率的估計(jì)的量度?;夭〝U(kuò)頻S是頻率f的函數(shù),并可作為系數(shù)h(n)的傅立葉變換來計(jì)算,該系數(shù)確定自適應(yīng)濾波器101所執(zhí)行濾波的特性。也就是說,S=F{h(n)}。
如前面所述實(shí)施例中那樣,使用ERLE頻譜(E)確定近端語音處理應(yīng)操作的頻帶(以下稱為“檢測(cè)器頻譜”)改進(jìn)了近端檢測(cè)性能。按照本發(fā)明的另一方面,通過以下方式確定檢測(cè)器頻譜,在估計(jì)回波頻譜(Γ)與E不一致時(shí),可以實(shí)現(xiàn)由使用E頻譜得到的好處而不損失性能參照?qǐng)D4的流程圖,如上所述先確定不同的頻譜Γ、E、S和N(步驟401)。
接著,在步驟403,按照以下等式從估計(jì)回波頻譜Γ、ERLE頻譜E和回波擴(kuò)頻S來確定加權(quán)頻譜W(f)W(f)=αΓΓmax+βEEmax+γSSmax----(6)]]>其中Γmax=max(Γ),Emax=max(E)和Smax=max(S);以及α、β和γ是常量。
在用加權(quán)系數(shù)α、β和γ中相應(yīng)的一個(gè)換算后,按Γ、E和S各自最大值劃分每個(gè)Γ、E和S頻譜的目的是為了生成隨后可組合的標(biāo)準(zhǔn)化頻譜,這容易明白。
在優(yōu)選實(shí)施例中,α+β+γ的和接近于值1(例如,它的范圍可能從接近但不等于0的小數(shù)值到大約為2的值),但這不是嚴(yán)格的要求。
接著,在步驟405,確定壓縮系數(shù)C,對(duì)于這樣的壓縮系數(shù)C而言,加權(quán)頻譜W(f)包括在一個(gè)或多個(gè)頻帶中的功率,而近端頻譜N在這一個(gè)或多個(gè)頻帶中具有其最大有功分量。因?yàn)榻祟l譜N可具有幾個(gè)非連續(xù)頻帶,對(duì)于這些頻帶,量值超過了預(yù)定閾值級(jí),因此可參考一個(gè)或多個(gè)頻帶,如圖5中SPEECHMIN(1)和SPEECHMAX(1)之間的第一頻帶及SPEECHMIN(2)和SPEECHMAX(2)之間的第二頻帶所示。壓縮系數(shù)C由以等式得出C=Σi∫Speechmin(i)Speechmax(t)W(f)df∫0SpectrumtotalmaxW(f)df----(7)]]>其中Speechmin(i)是第i個(gè)頻率,其中N超過預(yù)定閾值,閾值隨應(yīng)用而定,因此由設(shè)計(jì)人員設(shè)置;Speechmax(i)是第i個(gè)頻率,其中N低于預(yù)定閾值;以及Spectrumtotal max是加權(quán)頻譜W(f)中我們感興趣的最大頻率。也就是說,對(duì)所有高于Spectrumtotal max的頻率,可假定函數(shù)W(f)的值等于零。
還要注意的是,雖然壓縮系數(shù)定義為兩個(gè)積分的比率,但實(shí)際上通過使對(duì)應(yīng)的頻譜在不同頻率范圍上幾乎平直,常常容易算得C。這將在下面所示的幾個(gè)示例中進(jìn)一步描述。
確定壓縮系數(shù)C和加權(quán)頻譜W(f)后,隨后在步驟407中,通過計(jì)算以下等式獲得檢測(cè)器頻譜近端增強(qiáng)頻譜=(1+Cx(W(f)-1))(8)可認(rèn)識(shí)到結(jié)果的近端增強(qiáng)頻譜是頻率f的函數(shù)。
隨后,近端增強(qiáng)頻譜可提供到近端語音處理器(未示出)的控制輸入端。例如,在蜂窩電話中,近端增強(qiáng)頻譜可用于確定近端語音活動(dòng)性檢測(cè)器執(zhí)行的帶通濾波。
對(duì)于動(dòng)態(tài)可調(diào)節(jié)操作,定期重復(fù)所述步驟,如圖4所示,再從步驟401開始。例如,在每20毫秒生成一次有160個(gè)抽樣的幀的系統(tǒng)中,新的近端增強(qiáng)頻譜也可每20毫秒確定一次。
現(xiàn)在將介紹幾個(gè)示例以說明上述技術(shù)。在每種情況下,除近端頻譜N外,所有說明的頻譜均已標(biāo)準(zhǔn)化。(未標(biāo)準(zhǔn)化N的原因是為了保持關(guān)于處理的近端語音信號(hào)313的實(shí)際能量級(jí)的信息。)另外,在下述示例中,認(rèn)為擴(kuò)頻均勻分布,這是常常出現(xiàn)的情況。為進(jìn)一步便于理解本發(fā)明,N被示為只有一個(gè)區(qū)域,該區(qū)域中,量值超過了預(yù)定閾值級(jí)。這避免必須合計(jì)分別計(jì)算的積分。
現(xiàn)在將參照?qǐng)D6A至6E描述第一示例。圖6A是近端語音頻譜N的圖形。在從f=0到f=250Hz的間隔中,N=0.25;在從f=250Hz到750Hz的間隔中,N=1.0;并且在f=750Hz到f=1500Hz的間隔中,N=0.25。(注意最大值為1.0的描述僅僅是為了說明的目的;通常N未標(biāo)準(zhǔn)化。)繼續(xù)描述示例,圖6B是標(biāo)準(zhǔn)化ERLE頻譜E的圖形。在從f=0到f=750Hz的間隔中,E=1.0;并且在f=750Hz到f=1500Hz的間隔中,E=0.25。
圖6C顯示了標(biāo)準(zhǔn)化的估計(jì)回波頻譜Γ的圖形。在從f=0到f=750Hz的間隔中,Γ=1.0;并且在f=750Hz到f=1500Hz的間隔中,Γ=0.25。
在此示例中,加權(quán)頻譜由以下等式得出W(f)=12Γ+12E+0]]>(在此示例中,因?yàn)榧訖?quán)系數(shù)γ=0,所以回波擴(kuò)頻S看起來象什么并不相干。)假定有標(biāo)準(zhǔn)化的估計(jì)回波頻譜Γ(如圖6C所示)和標(biāo)準(zhǔn)化的ERLE頻譜E(如圖6B所示),則圖6D所示為此示例的結(jié)果的加權(quán)頻譜W(f)。
接著,我們計(jì)算壓縮系數(shù)C。如果我們假設(shè)預(yù)定閾值為0.25,則從圖6A我們可看到只有一個(gè)頻帶超過此閾值,且這些受限于Speechmin=250Hz;Speechmax=750Hz;以及Spectrumtotal max=1500Hz。因此,按照等式(7)C=Σi∫SpeechtotalmaxSpeechmaxW(f)df∫0SpectrumtotalmaxW(f)df=(750-250)×1(750-0)×1+(1500-750)×0.25=0.5333···]]>因?yàn)榧訖?quán)頻譜W(f)對(duì)于幾個(gè)范圍的每個(gè)范圍是恒定的,因此,積分相對(duì)易于計(jì)算,因而C也相對(duì)易于計(jì)算。
我們現(xiàn)在可按照等式(8)來計(jì)算近端增強(qiáng)頻譜。圖6E中最左側(cè)的頻譜描述此示例的結(jié)果的近端增強(qiáng)頻譜。可以看到在f=0到f=750Hz的范圍中有一個(gè)等于1.0的量值;而在f=750Hz和f=1500Hz之間有一個(gè)等于0.600...的量值。
圖6E還描繪了應(yīng)用此近端增強(qiáng)頻譜以控制諸如語音活動(dòng)性檢測(cè)器的近端語音處理器。這樣的語音活動(dòng)性檢測(cè)器將使其帶通濾波功能被調(diào)節(jié)以與近端增強(qiáng)頻譜一致。結(jié)果,當(dāng)處理的近端語音信號(hào)313施加到語音活動(dòng)性檢測(cè)器時(shí)(參見圖6E的中間頻譜),結(jié)果的語音活動(dòng)性檢測(cè)器頻譜看上去象圖6E右側(cè)所示的頻譜。我們可以看到,在從f=0到f=250Hz的范圍中,結(jié)果的檢測(cè)器頻譜等于0.25;在從f=250Hz到f=750Hz的范圍中,等于1.0;在從f=750Hz到f=1500Hz的范圍中,等于0.15。結(jié)果,對(duì)于回波消除操作良好的那些頻率(即在f=0Hz到f=750Hz之間-參見圖6D中的示例性加權(quán)頻譜),在其操作中將沒有變化。然而,與差的回波消除性能相關(guān)的那些頻率對(duì)近端檢測(cè)器的性能有少得多的影響。結(jié)果,近端檢測(cè)器的性能將得到改進(jìn)。
現(xiàn)在將參照?qǐng)D7A到7E描述第二示例。圖7A是近端語音頻譜N的圖形。在從f=0到f=250Hz的間隔中,N=0.25;在從f=250Hz到750Hz的間隔中,N=1.0;并且在f=750Hz到f=1500Hz的間隔中,N=0.25。(注意最大值為1.0的描述僅僅是為了說明的目的;通常N未被標(biāo)準(zhǔn)化。)繼續(xù)描述示例,圖7B是標(biāo)準(zhǔn)化的ERLE頻譜E的圖形。在從f=0到f=750Hz的間隔中,E=1.0;并且在f=750Hz到f=1500Hz的間隔中,E=0.25。
至此,示例仿效上述關(guān)于圖6A至6E的描述。然而此處,圖7C顯示了不同的標(biāo)準(zhǔn)化的估計(jì)回波頻譜Γ的圖形。在從f=0到f=750Hz的間隔中,Γ=0.25;并且在f=750Hz到f=1500Hz的間隔中,Γ=1.0。
在此示例中,我們將再次假定加權(quán)頻譜由以下等式得出W(f)=12Γ+12E+0]]>(在此示例中,因?yàn)榧訖?quán)系數(shù)γ=0,所以回波擴(kuò)頻S看起來象什么并不相干。)假定有標(biāo)準(zhǔn)化的估計(jì)回波頻譜Γ(如圖7C所示)和標(biāo)準(zhǔn)化的ERLE頻譜E(如圖7B所示),則圖7D所示為此示例的結(jié)果的加權(quán)頻譜W(f)。注意在從f=0到f=1500的整范圍中,它是一個(gè)常量(等于0.625)。
接著,我們計(jì)算壓縮系數(shù)C。從圖7A我們可以看到Speechmin=250Hz;Speechmax=750Hz;以及Spectrumtotal max=1500Hz。
因此,按照等式(7)C=Σi∫SpeechminSpeechmaxW(f)df∫0SpectrumtotalmaxW(f)df=(750-250)×0.625(1500-0)×0.625=13]]>因?yàn)榧訖?quán)頻譜W(f)對(duì)于在f=0和f=1500Hz之間的整個(gè)范圍是恒定的,因此,積分再次相對(duì)易于計(jì)算,因而C也再次相對(duì)易于計(jì)算。
我們現(xiàn)在可按照等式(8)來計(jì)算此示例的近端增強(qiáng)頻譜。圖7E中最左側(cè)的頻譜描述此示例的結(jié)果的近端增強(qiáng)頻譜??梢钥吹?,在f=0到f=1500Hz的整個(gè)范圍有一個(gè)等于0.875的量值。
圖7E還描繪了應(yīng)用此近端增強(qiáng)頻譜以控制諸如語音活動(dòng)性檢測(cè)器的近端語音處理器。這樣的語音活動(dòng)性檢測(cè)器將使其帶通濾波功能被調(diào)節(jié)為與近端增強(qiáng)頻譜一致。結(jié)果,當(dāng)處理的近端語音信號(hào)313施加到語音活動(dòng)性檢測(cè)器時(shí),(參見圖7E的中間頻譜),結(jié)果的語音活動(dòng)性檢測(cè)器頻譜看上去象圖7E右側(cè)所示的頻譜。我們可以看到,在從f=0到f=250Hz的范圍中,結(jié)果的檢測(cè)器頻譜等于0.21875;在從f=250Hz到f=750Hz的范圍中,等于0.875;在從f=750Hz到f=1500Hz的范圍中,又等于0.21875??梢钥吹?,對(duì)于這種情況,ERLE頻譜E與估計(jì)回波頻譜Γ之間的相關(guān)不存在或較低,整個(gè)檢測(cè)器頻譜將衰減。但是,近端檢測(cè)器將仍對(duì)近端頻譜N具有其最大分量的那些頻率最敏感。
本發(fā)明參照特定的實(shí)施例進(jìn)行了描述。然而,本領(lǐng)域的技術(shù)人員容易明白,可以用上述優(yōu)選實(shí)施例形式外的其它形式體現(xiàn)本發(fā)明。這可以在不脫離本發(fā)明精神的情況下來進(jìn)行。
例如,為便于討論本發(fā)明,所示頻譜已理想化。然而,實(shí)際上,任一或所有這些頻譜可能與圖6A至6E和7A至7E中所示的示例性階躍函數(shù)不符。相反地,一些或所有這些頻譜可由更復(fù)雜的數(shù)學(xué)函數(shù)來描述。盡管存在此差異,但卻期望結(jié)果的檢測(cè)器頻譜的特征將表現(xiàn)在連續(xù)頻率的范圍,對(duì)于所述范圍,檢測(cè)器頻譜具有其最大值,其中連續(xù)頻率的所述范圍是與處理的信號(hào)中的相對(duì)高的回波損耗相關(guān)的那些頻率。
因此,優(yōu)選實(shí)施例僅是說明性的,無論如何不應(yīng)視為限制性。本發(fā)明的范圍由后附權(quán)利要求書而不是上述說明來指定,在權(quán)利要求書范圍內(nèi)的所有變化與同等物均包含在內(nèi)。
權(quán)利要求
1.一種生成增強(qiáng)近端語音信號(hào)的方法,它包括以下步驟a)接收音頻信號(hào);b)生成估計(jì)聲回波信號(hào);c)通過從所述音頻信號(hào)刪除所述估計(jì)聲回波信號(hào)來生成處理的信號(hào);d)確定具有連續(xù)頻率范圍的近端增強(qiáng)頻譜,對(duì)于所述連續(xù)頻率范圍,所述近端增強(qiáng)頻譜具有大于預(yù)定閾值的量值,其中所述連續(xù)頻率范圍是與所述處理的信號(hào)中相對(duì)高的回波損耗相關(guān)的頻率;以及e)按照所述近端增強(qiáng)頻譜對(duì)所述處理的信號(hào)進(jìn)行濾波,由此生成所述增強(qiáng)近端語音信號(hào)。
2.如權(quán)利要求1所述的方法,其特征在于還包括以下步驟f)測(cè)量所述增強(qiáng)近端語音信號(hào)中包含多少能量;以及g)根據(jù)所述增強(qiáng)近端語音信號(hào)的所述測(cè)量能量來檢測(cè)是否存在近端語音活動(dòng)性。
3.如權(quán)利要求1所述的方法,其特征在于還包括以下步驟f)識(shí)別所述增強(qiáng)近端語音信號(hào)中包含的近端語音。
4.如權(quán)利要求1所述的方法,其特征在于定期重復(fù)步驟a)至e)。
5.如權(quán)利要求1所述的方法,其特征在于確定所述近端增強(qiáng)頻譜的所述步驟包括將所述近端增強(qiáng)頻譜確定為加權(quán)頻譜的函數(shù),其中所述加權(quán)頻譜被定義為W(f)=αΓΓmax+βEEmax+γSSmax]]>其中Γ是從遠(yuǎn)端信號(hào)得到的聲回波的估計(jì)的頻譜;E是表示步驟c)的回波消除性能的回波損耗增強(qiáng)頻譜;N是所述處理的信號(hào)的頻譜;S是表示所述回波路徑的頻譜擴(kuò)展屬性的回波擴(kuò)頻;Γmax=max(Γ),Emax=max(E)和Smax=max(S);以及α、β和γ是常量,且α+β+γ>0。
6.如權(quán)利要求5所述的方法,其特征在于α+β+γ=1。
7.如權(quán)利要求5所述的方法,其特征在于將所述近端增強(qiáng)頻譜確定為所述加權(quán)頻譜的函數(shù)的所述步驟包括按照以下等式確定所述近端增強(qiáng)頻譜C=Σi∫Speechmin(i)Speechmax(i)W(f)df∫0SpectrumtoialmaxW(f)df]]>其中Speechmin(i)是N超過預(yù)定閾值的第i個(gè)頻率;Speechmax(i)是N低于所述預(yù)定閾值的第i個(gè)頻率;以及Spectrumtotal max是所述加權(quán)頻譜W(f)中感興趣的最大頻率。
8.一種增強(qiáng)近端語音信號(hào)生成器,它包括a)用于接收音頻信號(hào)的裝置;b)用于生成估計(jì)聲回波信號(hào)的裝置;c)用于通過從所述音頻信號(hào)刪除所述估計(jì)聲回波信號(hào)來生成處理的信號(hào)的裝置;d)用于確定具有連續(xù)頻率范圍的近端增強(qiáng)頻譜的裝置,對(duì)于所述連續(xù)頻率范圍,所述近端增強(qiáng)頻譜具有大于預(yù)定閾值的量值,其中所述連續(xù)頻率范圍是與所述處理的信號(hào)中相對(duì)高的回波損耗相關(guān)的頻率;以及e)濾波器,用于按照所述近端增強(qiáng)頻譜對(duì)所述處理的信號(hào)進(jìn)行濾波,由此生成增強(qiáng)近端語音信號(hào)。
9.如權(quán)利要求8所述的增強(qiáng)近端語音信號(hào)生成器,其特征在于還包括f)用于測(cè)量所述增強(qiáng)近端語音信號(hào)中包含多少能量的裝置;以及g)用于根據(jù)所述增強(qiáng)近端語音信號(hào)的所述測(cè)量能量來檢測(cè)是否存在近端語音活動(dòng)性的裝置。
10.如權(quán)利要求8所述的增強(qiáng)近端語音信號(hào)生成器,其特征在于還包括f)被連接來接收所述增強(qiáng)近端語音信號(hào)的語音識(shí)別器。
11.如權(quán)利要求8所述的近端語音活動(dòng)性檢測(cè)器,其特征在于定期地重復(fù)操作部件a)至e)。
12.如權(quán)利要求8所述的增強(qiáng)近端語音信號(hào)生成器,其特征在于用于確定所述近端增強(qiáng)頻譜的所述裝置包括用于將所述近端增強(qiáng)頻譜確定為加權(quán)頻譜的函數(shù)的裝置,其中所述加權(quán)頻譜被定義為W(f)=αΓΓmax+βEEmax+γSSmax]]>其中Γ是從遠(yuǎn)端信號(hào)得到的聲回波的估計(jì)的頻譜;E是表示用于生成處理的信號(hào)的所述裝置的回波消除性能的回波損耗增強(qiáng)頻譜;N是所述處理的信號(hào)的頻譜;S是表示所述回波路徑的頻譜擴(kuò)展屬性的回波擴(kuò)頻;Γmax=max(Γ),Emax=max(E)和Smax=max(S);以及α、β和γ是常量,且α+β+γ>0。13.如權(quán)利要求12所述的增強(qiáng)近端語音信號(hào)生成器,其特征在于α+β+γ=1。
14.如權(quán)利要求12所述的增強(qiáng)近端語音信號(hào)生成器,其特征在于用于將所述近端增強(qiáng)頻譜確定為所述加權(quán)頻譜的函數(shù)的所述裝置包括用于按照以下等式來確定近端增強(qiáng)頻譜的裝置C=Σi∫Speechmin(i)Speechmax(i)W(f)df∫0SpectrumtotalmaxW(f)df]]>其中Speechmin(i)是N超過預(yù)定閾值的第i個(gè)頻率;Speechmax(i)是N低于所述預(yù)定閾值的第i個(gè)頻率;以及Spectrumtotal max是所述加權(quán)頻譜W(f)中感興趣的最大頻率。
全文摘要
通過接收音頻信號(hào)、生成估計(jì)聲回波信號(hào)、并從音頻信號(hào)刪除估計(jì)聲回波信號(hào)來生成處理的信號(hào),可以生成增強(qiáng)近端語音信號(hào)。隨后確定近端增強(qiáng)頻譜,該頻譜具有一個(gè)或多個(gè)連續(xù)頻率范圍,對(duì)于所述連續(xù)頻率范圍,檢測(cè)器頻譜具有其最大值,其中所述連續(xù)頻率范圍是與處理的信號(hào)中相對(duì)高的回波損耗相關(guān)的頻率。按照近端增強(qiáng)頻譜對(duì)處理的信號(hào)進(jìn)行濾波,由此生成增強(qiáng)近端語音信號(hào)。隨后,增強(qiáng)近端語音信號(hào)可施加到要用于處理近端語音的多個(gè)部件的任一部件。例如,當(dāng)應(yīng)用到語音活動(dòng)性檢測(cè)器時(shí),隨后,測(cè)量增強(qiáng)近端語音信號(hào)中包含的能量。隨后,可以根據(jù)增強(qiáng)近端語音信號(hào)的測(cè)量能量來確定存在或是不存在近端語音活動(dòng)性。該處理可以定期地被重復(fù),以實(shí)現(xiàn)動(dòng)態(tài)可調(diào)節(jié)操作。
文檔編號(hào)H04M9/08GK1361972SQ00810367
公開日2002年7月31日 申請(qǐng)日期2000年5月9日 優(yōu)先權(quán)日1999年5月20日
發(fā)明者N·克里斯騰松, J·菲利普松 申請(qǐng)人:艾利森電話股份有限公司