用于通過具有可變頻譜增益和可動態(tài)調(diào)制的硬度的算法對音頻信號隔音的方法
【專利摘要】所述方法包括,在頻域中:對每一當(dāng)前時間幀(y(k))的頻譜(Y(k,l))的每一頻帶,估計(18)信號中的語音存在概率(P(k,l));按照下述各項計算(16)對每一當(dāng)前時間幀的每一頻帶適當(dāng)?shù)念l譜增益(GOMLSA(k,l)):i)在每一頻帶中噪聲能量的估計,ii)在步驟c1)估計的語音存在概率,以及iii)標(biāo)量最小增益值(Gmin);和通過在每一頻帶應(yīng)用所計算的增益,來選擇性地減少噪聲(14)。表示隔音硬度參數(shù)的標(biāo)量最小增益值是可在每一連續(xù)時間幀動態(tài)調(diào)制的值(Gmin(k)),其是針對當(dāng)前時間幀按照鏈接到當(dāng)前時間幀的全局變量而計算的,其中將增量/減量應(yīng)用于最小增益的參數(shù)量標(biāo)量值(Gmin)。
【專利說明】用于通過具有可變頻譜增益和可動態(tài)調(diào)制的硬度的算法對音頻信號隔音的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及在含噪聲的環(huán)境中的語音處理。
[0002]特別是,本發(fā)明涉及由旨在含噪聲的環(huán)境中使用的“免提式”電話設(shè)備拾取的語音信號的處理。
【背景技術(shù)】
[0003]這樣的裝置包括一個或若干個麥克風(fēng),所述麥克風(fēng)不僅拾取用戶的話音,而且還拾取周圍的噪聲,其中噪聲構(gòu)成了干擾元素,在某些情況下,噪聲可以大到使講話者的詞組難以理解。如果希望實現(xiàn)語音識別技術(shù)則情況也是如此,因為很難在高水平噪聲中夾雜的詞組進(jìn)行形狀識別。
[0004]與周圍噪聲的相聯(lián)系的困難在汽車中的“免提”裝置的情況中是特別帶有限制的,而不管它們是以集成了所有信號處理部件和電話通信功能的可移除盒的形式并入到車輛的系統(tǒng)還是的附件中。
[0005]的確,麥克風(fēng)(放置在儀表板處或在乘客室屋頂?shù)纳喜拷?和講話者(其偏遠(yuǎn)程度由驅(qū)動位置限制)之間的巨大距離導(dǎo)致相對于周圍噪聲而只能拾取相對低水平的語音,這使得難以提取嵌入在噪聲中的有用信號。附加于滾動噪聲的永久固定構(gòu)件,機動車輛典型的非常含噪聲的環(huán)境具有非平穩(wěn)的頻譜特性,即不可預(yù)知地演變?yōu)轵?qū)動條件的函數(shù)的特性:在不平的或鵝卵石路面的滾動、操作中的汽車收音機等。
[0006]除了聆聽來自耳機插入的設(shè)備的音頻源(例如音樂)外,當(dāng)所述設(shè)備是用于通信功能、例如“免提”電話功能的組合麥克風(fēng)/耳機類型的音頻耳機時,存在類似的困難。
[0007]在這種情況下,需要提供麥克風(fēng)拾取的所述信號的足夠的清晰度,即鄰近的講話者(耳機佩戴者)的語音信號?,F(xiàn)在,耳機可在含噪聲的環(huán)境(地鐵、繁華街道、火車等)中使用,使得麥克風(fēng)不僅拾取耳機佩戴者的語音,而且還拾取了周圍的雜散噪聲。耳機從噪聲中保護(hù)了佩戴者,尤其是在耳機是具有從外部隔離耳朵的封閉耳機的型號時、甚至在耳機設(shè)置有“有源噪聲控制”的功能時情況如此。但遠(yuǎn)程講話者(在通信信道的另一端)承受麥克風(fēng)拾取的雜散噪聲,疊加到并干擾鄰近講話者(耳機佩戴者)的語音信號。特別是,對理解語音的所必需的話音的某些共振峰通常被嵌入到日常環(huán)境中常遇到的噪聲分量中。
【發(fā)明內(nèi)容】
[0008]本發(fā)明更具體地涉及單信道選擇性隔音技術(shù),即對單個信號操作(與實施多個麥克風(fēng)的技術(shù)相反,所述多個麥克風(fēng)的信號被明智地結(jié)合并且例如通過波束成形類型或其他的技術(shù)受到空間或光譜相干性的分析)。然而,只要本發(fā)明適用于標(biāo)量信號,則其以相同針對性適用于通過波束成形技術(shù)從幾個麥克風(fēng)重構(gòu)的信號。
[0009]在本情況中,需要操作含噪聲的音頻信號選擇性隔音,所述含噪聲的音頻信號通常通過由電話設(shè)備的單個麥克風(fēng)采集到的信號進(jìn)行數(shù)字化后而獲得。[0010]本發(fā)明更具體而言旨在基于在頻域中的信號處理(由比在應(yīng)用傅立葉變換、FFT以后)而添加到降噪改進(jìn)算法的改進(jìn),包括應(yīng)用按照若干語音存在概率估計器所計算的頻譜增益。
[0011]更精確地說,來自麥克風(fēng)的信號y被切割成固定長度的幀,所述幀彼此重疊或沒有重疊,并且索引k的每個幀通過FFT調(diào)換到頻域。所得到的頻率信號Y(k,I)也是離散的,其然后由一組索引I的頻率“瓣”(bin)(頻帶)描述,通常為128個正頻率瓣。
[0012]對每個信號幀,更新多個估計器以確定語音存在的頻率概率P (k,I)。如果該概率高時,則認(rèn)為信號是一種有用的信號(語音),并因此對于所考慮的瓣保留了頻譜增益G(k,I) =1。在相反的情況下,如果該概率低,則該信號被歸類為噪聲,從而通過應(yīng)用遠(yuǎn)小于I的頻譜衰減增益被降低或甚至被抑制。
[0013]換句話說,該算法的原理在于計算“頻率掩模”并將其應(yīng)用到有用信號,該頻率掩模保留了語音信號的有用信息并消除了寄生噪聲信號。特別是這種技術(shù)可以由
OM-LSA(Optimally Modified-Log Spectral Amplitude,(經(jīng)最優(yōu)修訂的-Log 頻譜幅
度))的算法來實現(xiàn),例如在下面那些文獻(xiàn)中所描述的:
[0014][I]1.Cohen and B.Berdugo,“Speech Enhancement tor Non-Stationary NoiseEnvironments”,Signal Processing, Vol.81, Noll,pp.2403-2418, Nov.2001 ;和
[0015][2] 1.Cohen, “Optimal Speech Enhancement Under Signal PresenceUncertainty Using Log-Spectral Amplitude Estimator,,,IEEE Signal ProcessingLetters, Vol.9,No4,pp.113-116,Apr.2002。
[0016]US7454010B1還介紹了一個類似的算法,其為了計算頻譜增益,考慮到了在當(dāng)前時間段內(nèi)存在或不存在語音的信息。
[0017]也可以參考W02007/099222A1 (Parrot),其中描述了 一種實現(xiàn)語音存在概率計算的隔首技術(shù)。
[0018]當(dāng)然,這種技術(shù)的效率在于旨在區(qū)分語音和噪聲的語音存在概率估計器的模型。
[0019]在實際中,這種算法的實現(xiàn)碰到一些缺陷,其中主要兩個缺陷是“音樂噪聲”和“機器人語音”的出現(xiàn)。
[0020]“音樂噪聲,的特點是非均勻的殘留背景噪聲地毯(carpet),其有利于某些特定頻率。噪聲音就不再自然,這使得聽起來令人不安。這種現(xiàn)象是由于該頻率隔音處理是在沒有語音和噪聲之間鑒頻的時間時的相鄰頻率之間的依賴關(guān)系而操作的,因為所述處理沒有整合防止兩個非常不同的鄰近頻譜增益的機制?,F(xiàn)在,僅在噪聲期間,理想地需要均勻的衰減增益以保留噪聲音,但在實際中,如果頻譜增益是不均質(zhì)的,則隨著頻率音符(notes)在較少衰減的頻率處的出現(xiàn),殘留的噪聲變成“音樂的”,這對應(yīng)于錯誤地檢測為包含有用信號的瓣??梢宰⒁獾?,這種現(xiàn)象是更加顯著的,因為高衰減增益的應(yīng)用是經(jīng)認(rèn)可的。
[0021]當(dāng)選擇運行具有高頻譜衰減增益的一個非常激進(jìn)的降噪時,就會發(fā)生“機器人語音,或“金屬聲音”現(xiàn)象。在語音存在時,被錯誤地檢測為噪聲的相應(yīng)于語音的頻率將高度衰減,使聲音不自然,甚至完全人工化(聲音的“機器人化”)。
[0022]這樣的算法所包括的參數(shù)化因此由被認(rèn)為是對隔音激進(jìn)性的一種折衷,從而消除了最大的噪聲而沒有應(yīng)用過高頻譜衰減增益的不期望影響變得太容易感知。然而,后一個標(biāo)準(zhǔn)被證明是非常主觀的,且在相對大的用戶組上,它被證明是很難找到可得到一致批準(zhǔn)的折衷調(diào)整。
[0023]為了盡量減少這種缺陷,為通過應(yīng)用頻譜增益進(jìn)行隔音的技術(shù)所固有的是,“0M-LSA”模型提供了用于施加到標(biāo)識為噪聲的區(qū)域的衰減增益(表示為對數(shù)級,從而所述衰減增益在下文中對應(yīng)為負(fù)值)的下限Gmin的固定化,以便防止過多隔音,以限制上述缺陷的出現(xiàn)。然而,這種解決方案不是最佳的:當(dāng)然,它有助于消除過度降低噪聲的不期望的影響,但同時,它也限制了隔音性能。
[0024]本發(fā)明的問題是補償這種限制,其方式是,使應(yīng)用頻譜增益(通常根據(jù)OM-LSA模型)的噪聲降低的系統(tǒng)更高效,同時遵守上述約束,即有效地降低了噪聲而不改變語音(語音存在)或噪聲(在噪聲存在的情況下)的自然的方面。換句話說,建議使算法處理的不良影響不可被遠(yuǎn)程講話者感知,同時強烈地衰減噪聲。
[0025]本發(fā)明的基本思想在于:通過在全局時間幀而不再是在單個頻率瓣所觀察的全局指標(biāo)來調(diào)制頻譜增益GmsA的計算——其是在頻域中為每一瓣計算出的。
[0026]此調(diào)制將通過如下方式來操作:將衰減增益——其極限是一個標(biāo)量,通常被稱為“隔音硬度”~的下限Gmin的直接轉(zhuǎn)化成時間函數(shù)一所述時間函數(shù)的值將按照時間描述符(或“全局變量”)來確定,其由所述算法的各種估計器的狀態(tài)來反映。這些后者將按照按照它們相關(guān)性來選擇以描述已知隔音硬度Gmin的選擇可以被優(yōu)化的已知情況。
[0027]此后,按照本例,應(yīng)用到該對數(shù)衰減增益Gmin的時間調(diào)制可以對應(yīng)于增量或減量:減量是與降噪的更大硬度相關(guān)聯(lián)(絕對值的較高對數(shù)增益),相反,這個負(fù)對數(shù)增益的增量與較小絕對值、以及由此與降噪的低硬度相關(guān)聯(lián)。
[0028]事實上,可以注意到,在該幀級的觀察可能經(jīng)常使人們有可能糾正算法的某些缺陷,特別是在可能有時錯誤地將噪聲頻率檢測為語音頻率的噪聲非常大的區(qū)域;從而如果單單檢測到噪聲幀(在該幀處),則由于更加均勻的隔音,可以進(jìn)行更激進(jìn)的隔音而不由此引入音樂噪聲。
[0029]相反,在含噪聲的語音的時間段內(nèi),可以進(jìn)行更少隔音以便完美地保留語音同時確保殘留背景噪聲能量的變化是不可感知的。因此我們有一個雙杠桿(硬度和均勻性)以根據(jù)考慮到情況——單單噪聲階段、或者語音階段——來將隔音的強度模塊化,其中上面情況任一之間的區(qū)別是由于時間幀級別的觀察造成的:
[0030]——在第一實施例中,優(yōu)化將包括:在合適的方向上調(diào)制隔音硬度Gniin以便更好地減少在單單噪聲階段的噪聲,并且能夠更好地保留語音階段中的語音;
[0031 ] 更精確地說,本發(fā)明提出了一種通過應(yīng)用具有可變頻譜增益、語音存在概率的函數(shù)以對音頻信號隔音的方法,以本身已知的方式包括下述連續(xù)步驟:
[0032]a)生成數(shù)字化有噪聲的音頻信號的連續(xù)時間幀;
[0033]b)將傅立葉變換應(yīng)用到在步驟a)中生成的幀,以便為時間幀產(chǎn)生具有多個預(yù)定頻帶的信號頻譜;
[0034]c)在頻域中:
[0035]Cl)對每個當(dāng)前時間幀的每個頻帶,估計語音存在概率;
[0036]c3)按照下列各項計算對每個當(dāng)前時間巾貞的每個頻帶合適的頻譜增益,i)在每個頻帶中的噪聲能量估計,ii)在步驟Cl)估計的語音存在概率,和iii)表示隔音硬度參數(shù)的標(biāo)量最小增益值;[0037]c4)通過在每一頻帶應(yīng)用在步驟c3)計算的增益來選擇性地降低噪聲;
[0038]d)將傅立葉逆變換應(yīng)用到包括在步驟c4)中產(chǎn)生的頻帶的信號頻譜,以為每個頻譜遞送隔音信號時間幀;和
[0039]e)從在步驟d)遞送的時間幀中重構(gòu)隔音音頻信號。
[0040]本發(fā)明的特征是:
[0041]——所述標(biāo)量最小增益值是可以在每一個連續(xù)的時間幀被動態(tài)地調(diào)制的值;并且
[0042]—所述方法進(jìn)一步包括:在計算所述頻譜增益步驟c3)之前,以下步驟:
[0043]c2)為當(dāng)前時間幀,按照在當(dāng)前時間幀針對所有頻帶觀察到的全局值來計算所述可調(diào)制的值;和
[0044]——所述步驟c2)的計算包括:對于當(dāng)前時間幀,應(yīng)用增量/減量,所述增量/減量被加到所述最小增益的參數(shù)化的額定值。
[0045]在本發(fā)明的第一實施例中,全局變量是在時域估計的當(dāng)前時間幀的信號噪聲比。
[0046]特別地,可在步驟c2)中通過應(yīng)用下述關(guān)系來計算標(biāo)量最小增益值:
[0047]Gmin(k) =Gmin+Λ Gmin (SNRyGO) [0048]k為當(dāng)前時間幀的索引,
[0049]GniinQO為將應(yīng)用到當(dāng)前時間幀的最小增益,
[0050]Gfflin為最小增益的所述參數(shù)化額定值,
[0051]Δ Gmin (k)為加到Gmin所述增量/減量,和
[0052]SNRy(k)為當(dāng)前時間幀的信號噪聲比。
[0053]在本發(fā)明的第二實施例中,全局變量是在當(dāng)前時間幀估計的平均語音概率。
[0054]特別地,可在步驟c2)中通過應(yīng)用下述關(guān)系的應(yīng)用來計算標(biāo)量最小增益值:
[0055]GniinQO = Gmin+(Pspeech (k)-1).Δ !Gmi^Pspeech (k).A2Gniin
[0056]k為當(dāng)前時間幀的索引,
[0057]Gmin(k)為將應(yīng)用到當(dāng)前時間幀的最小增益,
[0058]Gfflin為最小增益的所述參數(shù)化額定值,
[0059]Pspeech(k)為在當(dāng)前時間幀估計的平均語音概率,
[0060]Δ ^min為在噪聲階段中加到Gmin的所述增量/減量,和
[0061]A2Gfflin為在語音階段中加到Gmin的所述增量/減量。
[0062]特別地,可以在當(dāng)前時間幀通過應(yīng)用下式來估計平均語音概率:
[0063]Pspeech = P (k,?)
[0064]I為頻帶的索引,
[0065]N為頻譜中頻帶的數(shù)目,和
[0066]p(k,I)為在當(dāng)前時間幀的索引I的頻帶中的語音存在概率。
[0067]在本發(fā)明的第三個實施例中,全局變量是檢測當(dāng)前時間幀的語音活動的布爾信號,其是通過分析時間幀和/或借助于外部檢測器在時域中估計的。
[0068]特別地,可在步驟c2)中通過應(yīng)用下式來估計標(biāo)量最小增益值:
[0069]Gmin (k) =Gmin+VAD(k).AGmin
[0070]k為當(dāng)前時間幀的索引,[0071]Gfflin(k)為將應(yīng)用到當(dāng)前時間幀的最小增益,
[0072]Gfflin為最小增益的所述參數(shù)化額定值,VAD(k)為檢測當(dāng)前時間幀的語音活動的布爾信號的值,和
[0073]Δ Gmin為加到Gmin所述增量/減量。
【專利附圖】
【附圖說明】
[0074]參考附圖,現(xiàn)在將說明本發(fā)明裝置的示例性實施例,附圖中相同的參考數(shù)字表示全部附圖中相同或功能相似的部件。
[0075]圖1作為一個功能性方框圖示意性地示出了根據(jù)現(xiàn)有技術(shù)的OM-LSA類型的隔音處理的實現(xiàn)方式。
[0076]圖2示出了本發(fā)明提供的對圖1的隔音技術(shù)的改進(jìn)。
【具體實施方式】
[0077]本發(fā)明的方法是通過軟件手段實施,在附圖中由多個對應(yīng)于由微控制器或數(shù)字信號處理器執(zhí)行的合適的算法的功能塊系統(tǒng)化示出。雖然,為了本發(fā)明的清楚性,不同的功能表示為獨立的模塊,但是它們實現(xiàn)由同一軟件全部執(zhí)行的普通部件和實際中相應(yīng)部件的多個功能。
[0078]根據(jù)現(xiàn)有技術(shù)的OM-LSA隔音算法
[0079]作為一個功能性方框圖,圖1示意性地示出了根據(jù)現(xiàn)有技術(shù)的OM-LSA類型的隔音處理的實現(xiàn)方式。
[0080]數(shù)字信號y (n) =x (n) +d (η)包括語音分量χ (η)和噪聲分量d (η) (η為采樣次序),所述數(shù)字信號被切割(方框10)為重疊或不重疊的固定長度的分段或時間幀y(k) (k為幀索引),通常為以8kHz (窄帶電話交換臺)采樣的信號的256個樣本的幀。
[0081]然后索引k的每個時間幀通過快速傅里葉變換FFT被調(diào)換到頻域(框12):得到的結(jié)果也是離散的信號或頻譜Y (k,I)其然后由一組頻帶或頻率“瓣”描述(I為瓣指數(shù)),
例如128個正頻瓣。,為了提供信號尤0,/),對每個瓣合適的頻譜增益G = Gomlsa (k, I)被應(yīng)
用(框14)到頻率信號Y (k,I):
[0082]
X{k,l)=GOMLSA(k,iyY{k,l)
[0083]一方面按照語音存在概率P (k,I)、另一方面按照參數(shù)Gmin來計算(框16)頻譜增Sgmcsa(k,I),所述語音存在概率P(k,I)是為每一瓣估計(框18)的頻率概率,所述參數(shù)Gmin是標(biāo)量最小增益值,通常稱為“隔音硬度”。這個參數(shù)Gmin固定應(yīng)用到標(biāo)識為噪聲的區(qū)域的衰減增益的下限,從而避免了由于應(yīng)用過高和/或不均勻頻譜衰減增益而導(dǎo)致音樂噪聲和機器人語音變得過于顯著的現(xiàn)象。
[0084]所計算的頻譜增益GmsA(k,I)為下述形式:
[0085]Gomlsa
[0086]因此頻譜增益和語音存在概率的計算有利地實現(xiàn)為OM-LSA(優(yōu)化修正的——Log頻譜幅度)類型的算法,所述算法如在(上述)文章中描述的:[0087][2] I Cohen, “Optimal Speech Enhancement Under Signal PresenceUncertainty Using Log-Spectral Amplitude Estimator,,,IEEE Signal ProcessingLetters, Vol.9,No4, pp.113-116,Apr.2002.[0088]本質(zhì)上,被稱為“LSA (Log頻譜幅度)增益”的增益的應(yīng)用使得可以最小化所估計的信號幅度的對數(shù)與原始語音信號的幅度的對數(shù)之間的均方距離。該標(biāo)準(zhǔn)表明要進(jìn)行適應(yīng),因為所選擇的距離是更好地適應(yīng)人耳的行為,并從而在定性的角度給出了更好的結(jié)
果O
[0089]在所有的情況下重要的是,通過向噪聲非常大的頻率分量應(yīng)用低增益以減少所述分量的能量,同時使那些具有極少含噪聲的或完全不含噪聲的頻率分量保持不變(通過應(yīng)用等于I的增益)。
[0090]為了計算最終增益,“0M-LSA”(優(yōu)化修正LSA)算法通過用條件語音存在概率或SPP p(k,I)對LSA增益進(jìn)行加權(quán)來改進(jìn)了 LSA增益的計算:當(dāng)語音存在概率是低的時,應(yīng)用的噪聲減少全部是較高的(即應(yīng)用的增益全部是較低的)。
[0091]語音存在概率p(k,I)是一個參數(shù),該參數(shù)可以取從O到100%的若干不同的值。此參數(shù)是根據(jù)本身已知的技術(shù)計算出的,在下文中特別公開了其中的例子:
[0092][3]1.Cohen and B.Berdugo, ^Two-Channel Signal Detection and SpeechEnhancement Based on the Transient Beam-to-Reference Ratio,,,IEEE InternationalConference on Acoustics, Speech and Signal Processing ICASSP2003, Hong-Kong,pp.233-236, Apr.2003.[0093]如經(jīng)常在這個領(lǐng)域中的,所描述的方法目標(biāo)不是精確識別哪些幀的哪些頻率分量中不存在語音,而是給予O和I之間的置信指數(shù),值I表示該語音是絕對不存在的(根據(jù)算法),而值O則表示相反。根據(jù)其性質(zhì),該指數(shù)被同化為語音不存在先驗概率,即該語音不存在于所考慮的幀的給定頻率分量的概率。它當(dāng)然是一個非嚴(yán)格的同化,因為即使語音的存在的概率是事先概率,由麥克風(fēng)拾取的信號在每個時刻具有兩個不同狀態(tài)中的僅僅一個:在所考慮的時刻,它可以要么包括語音,要么不包括語音。然而在實際中,這種同化卻給出了良好的結(jié)果,這證明了其用處。
[0094]還可以參考W02007/099222A1 (Parrot),其中詳細(xì)描述了來自于這一原理,實施語音存在概率計算的隔音技術(shù)。
[0095]所得到的信號戈=即頻率掩模G_A(k,I)已被施加到的有用信號Y (k,I),此后經(jīng)歷傅立葉逆變換iFFT (框20),以從頻域變換回時域。然后所獲得的時間幀組合在一起(框22),以得到數(shù)字化的隔音信號。
[0096]根據(jù)本發(fā)明的OM-LSA隔音算法
[0097]圖2示出了引入剛披露的算法的修改。具有相同附圖標(biāo)記的框?qū)?yīng)相同的功能或類似上述公開的功能,正如引用的處理各種信號。
[0098]在圖1已知的實施例中,表示隔音硬度的最小增益的標(biāo)量值Gniin被或多或少地按照經(jīng)驗來選擇,使得聲音的劣化依然是稍微可聽見的,同時確保噪聲的一個可接受的衰減。
[0099]然而如在介紹中披露的,期望單單在噪聲階段執(zhí)行更激進(jìn)的隔音,而不從而引入音樂噪聲;相反,在含噪聲的語音的時間段中,可能進(jìn)行較少隔音以便完美地保留聲音,同時確保殘留背景噪聲能量的變化是不可感知的。[0100]根據(jù)該情況(單單的噪聲階段、或者語音階段),可能存在調(diào)制隔音硬度的雙重利益:后者將通過在合適的方向上動態(tài)改變Gmin標(biāo)量值來調(diào)制,所述合適方向?qū)螁谓档驮肼暻覍⒏玫鼐S護(hù)語音階段中的語音。
[0101]為了這個目的,最初恒定的標(biāo)量值Gmin轉(zhuǎn)化(框24)成時間函數(shù)GminGO,它的值將按照全局變量(也稱為“時間描述符”)來確定,即作為全局地在幀處、而不是頻率瓣處考慮的變量。這個全局變量可以由已經(jīng)由算法計算出的一個或若干不同估計器的狀態(tài)來反映,其將根據(jù)情況按照他們的相關(guān)性來選擇。
[0102]特別地,這些估計可以是:i)信號噪聲比,ii)平均語音存在概率,和/或iii)語音活動檢測。在所有這些例子中,隔音硬度Gmin變?yōu)楣烙嬈鞫x的時間函數(shù)Gmin(k),所述估計器是時間估計器,使得可以描述如下已知情況:期望調(diào)制Gmin的值以便通過動態(tài)修改信號隔音/劣化折衷來影響噪聲的降低。
[0103]順便說一句,應(yīng)當(dāng)指出的是,為了使硬度的這種動態(tài)調(diào)制不被收聽者感知,應(yīng)提供一個機制防止Gmin(k)的突然變化,例如,通過常規(guī)的時間平滑技術(shù)。因而避免了硬度Gmin(k)的時間突變成為在殘留噪聲上可聽的,而殘留噪聲例如在滾動條件下的駕駛員的情況下通常是穩(wěn)定的。
[0104]時間描述符:信號噪聲比
[0105]第一個實施例的出發(fā)點是如下觀察:安靜環(huán)境下拾取的語音信號只有一點點,甚至沒有,需要進(jìn)行隔音,并將強大的隔音應(yīng)用到這樣的信號,會迅速導(dǎo)致聽覺偽像,而沒有從殘留噪聲的單一觀點改善收聽的舒適性。相反,含過多噪聲的信號可能會迅速變得難以理解,或造成收聽的逐漸疲勞;在這種情況下,一個顯著隔音的好處將是不容置疑的,即使以言語可聽劣化(盡管是合理和受控的)為代價。
[0106]換句話說,當(dāng)未經(jīng)處理信號是含噪聲的時,噪聲降低將對有用信號的理解更有益的。
[0107]這可以通過按照經(jīng)處理的信號的當(dāng)前噪聲水平的先驗信號噪聲比調(diào)制硬度參數(shù)Gmin而被加以考慮:
[0108]Gmin(k) =Gmin+Λ Gmin (SNRyGO)
[0109]Gnin(k)是被應(yīng)用到當(dāng)前時間幀的最小增益,
[0110]Gmin是該最小增益的參數(shù)化的額定值,
[0111]AGminOO為加到值Gmin的遞量/減量,和
[0112]SNRy(k)為在時域中評估(框26)的當(dāng)前幀的信號噪聲比,其對應(yīng)于應(yīng)用到框24的輸入η°①的變量(這樣的“輸入”為符號化的,且僅僅具有為了示出本發(fā)明實施例的各種替換可能性的值)。
[0113]時間描述符:平均語音存在概率
[0114]另一個用于調(diào)制降低硬度的相關(guān)準(zhǔn)則,可以是對于所考慮的時間幀的語音的存在。
[0115]在傳統(tǒng)的算法中,當(dāng)試圖增加隔音硬度Gmin時,“機器人語音”現(xiàn)象在“音樂噪聲,之前出現(xiàn)。因此,似乎是可能和有利的是,通過用語音存在全局指標(biāo)簡單地調(diào)制隔音硬度參數(shù),將更大的隔音硬度應(yīng)用到單單噪聲階段;單單在噪聲期間,通過應(yīng)用更大硬度將減小殘留噪聲一其是收聽疲勞的起因一而沒有配對措施,因為在語音階段的硬度可以保持不變。
[0116]由于降噪算法是基于頻率語音存在概率的計算,所以容易在幀的級別上基于各種頻率概率獲得語音存在平均指數(shù),以便從包含有用語音的幀中區(qū)分主要由噪聲構(gòu)成的幀。例如可以使用常規(guī)的估計器:
【權(quán)利要求】
1.一種通過應(yīng)用具有可變頻譜增益的算法的對音頻信號隔音的方法,所述可變頻譜增益是語音存在概率的函數(shù),所述方法包括下述連續(xù)的步驟: a)生成(10)數(shù)字化的含噪聲的音頻信號(y(n))的連續(xù)時間幀(y(k)) b)將傅立葉變換(12)應(yīng)用在步驟a)中生成的幀,以便為每一信號時間幀產(chǎn)生具有多個預(yù)定的頻帶的信號頻譜(Y(k,I)); c)在頻域中: cl)對每一當(dāng)前時間幀的每一頻帶,估計(18)語音存在概率(p(k, I));c3)按照下列各項計算(16)對每一當(dāng)前時間幀的每一頻帶適當(dāng)?shù)念l譜增益(GmsA(k,I)):i)每一頻帶中的噪聲能量的估計,ii)在步驟Cl)估計的語音存在概率,以及iii)表示隔音硬度參數(shù)的標(biāo)量最小增益值(Gmin); c4)通過在每一頻帶應(yīng)用在步驟c3)計算的增益,選擇性地降低噪聲(14); d)將傅立葉逆變換(20)應(yīng)用于包括步驟c4)中產(chǎn)生的每一頻帶的信號頻譜(X(kj)),以為每一頻譜遞送隔音信號時間幀;和 e)從在步驟d)遞送的時間幀中重構(gòu)(22)隔音音頻信號; 所述方法的特征在于: ——所述標(biāo)量最小增益值(Gmin)是能夠在每一連續(xù)時間幀(y(k))處動態(tài)調(diào)制的值(Gmin(k));和 ——在計算所述頻譜增益的步驟C3)前,所述方法進(jìn)一步包括步驟:c2)為所述當(dāng)前時間幀(y(k)),按照針對所有頻帶在當(dāng)前時間幀觀察的全局值(SNRy(k) ;Pspeech(k) ;VAD(k))來計算(24)所述可調(diào)制的值;和 ——步驟c2)的所述計算包括對于當(dāng)前時間幀,應(yīng)用加到所述最小增益(Gmin)的參數(shù)化額定值的增量 / 減量(Λ Gmin (k) ; Δ ^min ; Δ 2Gmin ; Δ Gmin)。
2.根據(jù)權(quán)利要求1的所述方法,其中所述全局變量是在時域評估(26)的當(dāng)前時間幀的信號噪聲比(SNRy (k))。
3.根據(jù)權(quán)利要求2的所述方法,其中在步驟c2)通過應(yīng)用下列關(guān)系計算所述標(biāo)量最小增益值:
Gmin (k) = Gmin+Λ Gmin (SNRyGO)
k是當(dāng)前時間幀的索引, Gfflin(k)是將應(yīng)用到當(dāng)前時間幀的最小增益, Gfflin是最小增益的所述參數(shù)化額定值, Δ Gmin (k)為加到Gmin所述增量/減量,和 SNRy (k)為當(dāng)前時間幀的信號噪聲比。
4.根據(jù)權(quán)利要求1的所述方法,其中所述全局變量是在當(dāng)前時間幀評估(28)的平均語音概率(P_h(k))。
5.根據(jù)權(quán)利要求4的所述方法,其中在步驟c2)通過應(yīng)用下列關(guān)系計算所述標(biāo)量最小增益值:
Gmin (k) = Gmin+(Pspeech(k)-1).Δ !Gmi^Pspeech (k).A2Gniin
k是當(dāng)前時間幀的索引,Gfflin(k)是將應(yīng)用到當(dāng)前時間幀的最小增益, Gfflin是最小增益的所述參數(shù)化額定值, Pspeech (k)是在當(dāng)前時間幀評估的平均語音概率, Δ ^fflin是在噪聲階段中加到Gmin的所述增量/減量,和 Δ 2Gmin是在語音階段中加到Gmin的所述增量/減量。
6.根據(jù)權(quán)利要求4的所述方法,其中通過應(yīng)用下列關(guān)系來在當(dāng)前時間幀評估所述平均語音概率:
7.根據(jù)權(quán)利要求1的所述方法,其中所述全局變量是對當(dāng)前時間幀中的語音活動(VAD(k))檢測的布爾信號,所述布爾信號是在時域通過分析時間幀和/或借助于外部檢測器而被評估(30)。
8.根據(jù)權(quán)利要求7的所述方法,其中在步驟c2)通過應(yīng)用下列關(guān)系估計所述標(biāo)量最小增益值:
Gmin (k) = Gfflin+VAD(k).AGfflin
k是當(dāng)前時間幀的索引, Gfflin(k)是將應(yīng)用到當(dāng)前時間幀的最小增益, Gfflin是最小增益的所述參數(shù)化額定值, VAD(k)是對當(dāng)前時間幀的語音活動的檢測的布爾信號的值,和 Δ Gmin是加到Gmin所述增量/減量。
【文檔編號】G10L21/0232GK104021798SQ201410163809
【公開日】2014年9月3日 申請日期:2014年2月28日 優(yōu)先權(quán)日:2013年2月28日
【發(fā)明者】A·布里奧 申請人:鸚鵡股份有限公司