估計音頻信號中的背景噪聲的制作方法
【專利摘要】本發(fā)明涉及一種背景噪聲估計器及其中的方法,用于支持在音頻信號分段中進(jìn)行聲音活動檢測。所述方法包括:當(dāng)確定音頻信號分段包括音樂并且當(dāng)前背景噪聲估計超過最小值時,減小當(dāng)前背景噪聲估計。以上操作在以下情況下執(zhí)行:當(dāng)音頻信號分段的能量水平比高于長期最小能量水平lt_min的閾值大時,或者當(dāng)音頻信號分段的能量水平比高于lt_min的閾值小,但是在音頻信號分段中沒有檢測到停頓時,其中,所述lt_min是多個在先音頻信號分段所確定的。執(zhí)行所述方法與現(xiàn)有技術(shù)相比實(shí)現(xiàn)基于背景噪聲估計的更準(zhǔn)確的聲音活動檢測。
【專利說明】
估計音頻信號中的背景噪聲
技術(shù)領(lǐng)域
[0001 ]本發(fā)明的實(shí)施例設(shè)及音頻編碼,具體地,設(shè)及估計背景噪聲W用于支持聲音活動 判斷。
【背景技術(shù)】
[0002] 在利用不連續(xù)傳輸(DTX)的通信系統(tǒng)中,找到效率和不降低質(zhì)量之間的平衡是重 要的。在運(yùn)種系統(tǒng)中,活動檢測器用于指示要被活動編碼的活動信號(例如語音或音樂)、W 及具有可W用在接收機(jī)側(cè)產(chǎn)生的舒適噪聲所替代的背景信號的分段。如果活動檢測器在檢 測非活動時效率太高,則它將會在活動信號中引入削波(clipping),當(dāng)削波后的活動分段 被舒適噪聲替代時其將被感知為主觀上的質(zhì)量劣化。同時,如果活動檢測器的效率不夠并 且將背景噪聲分段分類為活動并對背景噪聲進(jìn)行活動編碼而不是利用舒適噪聲進(jìn)入DTX模 式,貝化TX的效率降低。在多數(shù)情況下,削波問題被視為更嚴(yán)重。
[0003] 圖1示出了總體的聲音活動檢測器(SAD)或語音活動檢測器(VAD)的框圖,其采用 音頻信號作為輸入并且產(chǎn)生活動判斷作為輸出。取決于實(shí)施方式,輸出信號被劃分為數(shù)據(jù) 帖(即,例如5-30ms的音頻信號分段),并且每帖產(chǎn)生一個活動判斷作為輸出。
[0004] 由圖1中示出的主檢測器進(jìn)行主判斷"prim"。主判斷基本上只是當(dāng)前帖的特征與 從先前輸入帖估計的背景特征之間的比較。當(dāng)前帖的特征與背景特征之間的差異比闊值大 導(dǎo)致活動主判斷。延遲化angover)加法塊用于基于過去的主判斷擴(kuò)展主判斷W形成最終判 斷"flag"。使用延遲的原因主要是為了減小/移除在活動突發(fā)的中間和后端削波的風(fēng)險。如 圖所示,操作控制器可W根據(jù)輸入信號的特性調(diào)整延遲加法的長度和主檢測器的闊值。使 用背景估計器塊來估計輸入信號中的背景噪聲。在本文中,背景噪聲還可W被稱為"背景" 或者"背景特征"。
[0005] 可W根據(jù)兩個基本不同的原理來進(jìn)行背景特征的估計:通過使用如圖1中的虛線 所示的主判斷(即利用判斷或判斷度量反饋),或者通過使用輸入信號的一些其它特性(即 不使用判斷反饋)。還可W使用運(yùn)兩種策略的組合。
[0006] 使用用于背景估計的判斷反饋的編解碼器的示例是AMR-NB(自適應(yīng)多速率窄帶), 并且不使用判斷反饋的編解碼器的示例是EVRC(增強(qiáng)可變速率CODEC)和G.718。
[0007] 可W使用多種不同的信號特征或特性,但是在VAD中使用的一個公共特征是輸入 信號的頻率特性。通常使用的頻率特性的類型是子帶帖能量,由于其低復(fù)雜度和在低SRN中 的可靠操作。因此假設(shè)輸入信號被分割為不同頻率子帶,并且針對每個子帶估計背景水平。 通過運(yùn)種方式,背景噪聲特征之一是具有針對每個子帶的能量值的矢量,運(yùn)些值用于在頻 域中表征輸入信號中的背景噪聲。
[000引為了實(shí)現(xiàn)對背景噪聲的跟蹤,可至少Ξ種不同方式來進(jìn)行實(shí)際背景噪聲估計 更新。一種方式是針對每個頻率點(diǎn)(frequency bin)使用自動回歸(AR)處理來處理更新。運(yùn) 種編解碼器的示例是AMR-NB和G. 718。基本上,對于運(yùn)種類型的更新,更新的步長與觀察到 的當(dāng)前輸入和當(dāng)前背景估計之間的差成正比。另一種方式是使用當(dāng)前估計的乘法縮放,其 限制是所述估計不能大于當(dāng)前輸入或者小于最小值。運(yùn)意味著估計隨著每帖增加,直到其 高于當(dāng)前輸入。在此情況下,當(dāng)前輸入被用作估計。EVRC是使用該技術(shù)來對VAD功能的背景 估計進(jìn)行更新的編解碼器的示例。應(yīng)注意,EVRC針對VAD和噪聲抑制使用不同的背景估計。 應(yīng)當(dāng)注意的是,可W在除DTXW外的其它情境中使用VAD。例如,在可變速率編解碼器(例如 EVRC)中,VAD可W用作速率確定功能的一部分。
[0009] 第Ξ種方式是使用所謂的最小技術(shù),其中,估計是在先前帖的滑動時間窗口期間 的最小值。運(yùn)基本上給出了使用補(bǔ)償因子被縮放的最小估計,W達(dá)到或近似針對靜止噪聲 的平均估計。
[0010] 在高SNR情況下(其中活動信號的信號水平比背景信號的信號水平高得多),很容 易就能判斷輸入音頻信號是活動還是非活動。然而,很難在低SNR情況下分出活動信號和非 活動信號,尤其是在背景非靜止或者甚至在其特性上與活動信號相似的情況下。
【發(fā)明內(nèi)容】
[0011] 希望更準(zhǔn)確地判斷音頻信號是否包括活動語音或音樂。本文提供了一種用于產(chǎn)生 背景噪聲估計的改進(jìn)方法,其能夠使聲音活動檢測器做出更準(zhǔn)確的判斷。
[0012] 根據(jù)第一方面,提供了一種背景噪聲估計方法,用于支持在音頻信號分段中進(jìn)行 聲音活動檢測。意在由背景噪聲估計器來執(zhí)行所述方法。所述方法包括:當(dāng)確定音頻信號分 段包括音樂并且當(dāng)前背景噪聲估計超過最小值時,減小當(dāng)前背景噪聲估計。W上操作在W 下情況下執(zhí)行:當(dāng)音頻信號分段的能量水平比高于長期最小能量水平的闊值大時, 或者當(dāng)音頻信號分段的能量水平比高于的闊值小,但是在音頻信號分段中沒有檢測 到停頓時,其中,所述通過多個在先音頻信號分段來確定。
[0013] 根據(jù)第二方面,提供了一種背景噪聲估計器,用于支持在音頻信號分段中進(jìn)行聲 音檢測。背景噪聲估計器被配置為:當(dāng)音頻信號分段的能量水平比高于長期最小能量水平 的闊值大時,或者當(dāng)音頻信號分段的能量水平比高于的闊值小,但是在音頻 信號分段中沒有檢測到停頓時:當(dāng)確定音頻信號分段包括音樂并且當(dāng)前背景噪聲估計超過 最小值時,減小當(dāng)前背景噪聲估計。
[0014] 根據(jù)第Ξ方面,提供了一種SAD,其包括根據(jù)第二方面的背景噪聲估計器。
[001引根據(jù)第四方面,提供了一種編解碼器,其包括根據(jù)第二方面的背景噪聲估計器。
[0016] 根據(jù)第五方面,提供了一種通信設(shè)備,其包括根據(jù)第二方面的背景噪聲估計器。
[0017] 根據(jù)第六方面,提供了一種網(wǎng)絡(luò)節(jié)點(diǎn),其包括根據(jù)第二方面的背景噪聲估計器。
[0018] 根據(jù)第屯方面,提供了一種計算機(jī)程序,包括指令,所述指令當(dāng)在至少一個處理器 上執(zhí)行時使所述至少一個處理器執(zhí)行根據(jù)第一方面的方法。
[0019] 根據(jù)第八方面,提供了一種載體,其包含根據(jù)第屯方面的計算機(jī)程序。
【附圖說明】
[0020] 根據(jù)W下對附圖中示出的實(shí)施例更具體的描述,本文公開的技術(shù)的W上或其他目 的、特征、優(yōu)點(diǎn)將顯而易見。附圖不一定按比例繪制,相反重點(diǎn)在于示意此處公開的技術(shù)的 原理。
[0021 ]圖1是示出了活動性檢測器和延遲確定邏輯的框圖。
[0022] 圖2是示出了根據(jù)示例性實(shí)施例的背景更新判斷邏輯的流程圖。
[0023] 圖3和圖4示出了根據(jù)不同示例性實(shí)施例的背景估計器。
[0024] 圖5是示出了子帶能量背景估計器的框圖。
[0025] 圖6至圖9是示出了實(shí)施例如何實(shí)現(xiàn)對音頻信號中的背景噪聲的更好跟蹤的示圖。
【具體實(shí)施方式】
[0026] 本文公開的方案設(shè)及估計音頻信號中的背景噪聲。在圖1中所示的總體活動性檢 測器中,由被表示為"背景估計器"的塊來執(zhí)行估計背景噪聲的功能??蒞在之前公開的 W02011/049514和W02011/049515的方案中找到與本方案相關(guān)的一些實(shí)施例,其通過引用合 并于此。本文公開的方案將與運(yùn)些之前公開的申請的實(shí)施方式進(jìn)行比較。即使W02011/ 049514和W02011/049515中公開的方案是優(yōu)良的方案,但是本文呈現(xiàn)的方案仍然具有相對 于運(yùn)些方案的優(yōu)點(diǎn)。例如,本文呈現(xiàn)的方案具有更低復(fù)雜度的實(shí)施方式,并且其在跟蹤背景 噪聲的操作中更準(zhǔn)確。
[0027] VAD的性能取決于背景噪聲估計器跟蹤背景特性的能力,尤其是在其遇到非靜止 背景的情況下。通過更好的跟蹤,可W使得VAD更高效,同時也不會增加語音削波的風(fēng)險。
[0028] 當(dāng)前噪聲估計方法的一個問題在于為了實(shí)現(xiàn)在低SNR中對背景噪聲進(jìn)行良好跟 蹤,需要可靠的停頓檢測器。對于只有語音的輸入,可W利用音節(jié)速率或者人不可能一直說 話的事實(shí)來找到語音中的停頓。運(yùn)種方案可W設(shè)及在不進(jìn)行背景更新的足夠時間之后,"放 松"對停頓檢測的需要,從而更可能檢測語音中的停頓。運(yùn)允許對噪聲特性或水平中的突然 改變進(jìn)行響應(yīng)。運(yùn)種噪聲恢復(fù)邏輯的一些示例是:1)由于語音話語包含具有高相關(guān)性的分 段,因此在沒有相關(guān)性的足夠帖數(shù)之后,通??蒞假設(shè)在語音中存在停頓。2)當(dāng)信噪比SNR >0時,語音能量高于背景噪聲,所W如果帖能量在長時間(例如1-5秒)內(nèi)接近最小能量,也 可W假設(shè)運(yùn)在語音停頓中。雖然之前的技術(shù)在只有語音的輸入的情況下工作良好,但是它 們在音樂被視為活動輸入的情況下是不夠的。在音樂中,可能存在具有低相關(guān)性的長分段, 但是其仍是音樂。此外,音樂中能量的動態(tài)特性還可W觸發(fā)錯誤的停頓檢測,運(yùn)會導(dǎo)致對背 景噪聲估計的不期望的、錯誤的更新。
[0029] 理想地,會需要活動檢測器的逆功能(或者被稱為"停頓發(fā)生檢測器")來控制噪聲 估計。運(yùn)將確保僅在當(dāng)前帖中不存在活動信號時進(jìn)行對背景噪聲特性的更新。然而,如上所 述,不易于確定音頻信號分段是否包括活動信號。
[0030] 傳統(tǒng)上,當(dāng)已知活動信號是語音信號時,活動檢測器被稱為語音活動檢測器 (VAD)。還在輸入信號可能包括音樂時經(jīng)常使用針對活動檢測器的術(shù)語VAD。然而,在現(xiàn)代編 解碼器中,當(dāng)音樂也被檢測為活動信號時,還通常將活動檢測器稱為聲音活動檢測器 (SAD)。
[0031] 圖1中示出的背景估計器利用來自主檢測器和/或延遲塊的反饋來定位非活動音 頻信號分段。當(dāng)開發(fā)本文所述的技術(shù)時,期望移除或者至少減少對運(yùn)種反饋的依賴性。對于 本文公開的背景估計,發(fā)明人認(rèn)為,當(dāng)只有包括活動信號和背景信號的未知混合在內(nèi)的輸 入信號可用時,能夠找到可靠特征來識別背景信號特性是重要的。發(fā)明人還認(rèn)識到,不能假 設(shè)輸入信號開始于噪聲分段,甚至也不能假設(shè)該輸入信號是混合有噪聲的語音,因?yàn)榛顒?信號也可能是音樂。
[0032] 本文實(shí)施例的優(yōu)于現(xiàn)有技術(shù)的一個貢獻(xiàn)在于對要使用的特征的選擇,甚至于如何 對選擇的特征進(jìn)行組合W實(shí)現(xiàn)針對不同類型的輸入都能可靠地工作的噪聲估計邏輯。
[0033] 從上文我們已經(jīng)知道,存在針對特定條件工作良好的若干特征。困難在于W對噪 聲估計和背景跟蹤有益的方式來對運(yùn)些特征進(jìn)行組合。尤其是在想要避免關(guān)于初始條件的 假設(shè)而僅依賴于目前為止的信號的特性,并且能夠處理語音和音樂都被視為活動輸入的條 件的情況下。
[0034] 圖2是示出了根據(jù)本文提出的技術(shù)的用于背景噪聲估計的方法的示例性實(shí)施例的 流程圖。該方法意在由作為SAD的一部分的背景噪聲估計器來執(zhí)行。背景噪聲估計器和SAD 還可W包括在音頻編碼器中,進(jìn)而包括在無線設(shè)備或網(wǎng)絡(luò)節(jié)點(diǎn)中。對于描述的背景噪聲估 計器,不限制將噪聲估計向下調(diào)節(jié)。對于每帖,計算可能的新子帶噪聲估計,而不管帖是背 景還是活動內(nèi)容,如果新值比當(dāng)前值低,則其被直接用作最可能來自于背景帖。W下的噪聲 估計邏輯是第二步驟,其中判斷子帶噪聲估計是否可W增加并且如果可W增加的話可W增 加多少,所述增加基于之前計算的可能的新子帶噪聲估計?;旧?,該邏輯導(dǎo)致將當(dāng)前帖確 定為背景帖,并且如果其不確定的話,則可W允許比原始所估計的更小的增加。
[0035] 圖2所示的方法包括:當(dāng)音頻信號分段的能量水平比高于(202:1)長期最小能量水 平的闊值大時,或者當(dāng)音頻信號分段的能量水平比高于(202:2)lt_min的闊值小,但 是在音頻信號分段中沒有檢測到停頓(204:1)時:
[0036] -當(dāng)音頻信號分段被確定(203:2)為包括音樂,并且當(dāng)前背景噪聲估計超過最小值 (在圖2中被表示為?',并且在下面的代碼中還被示例化為例如2地_1^)(205:1)時,減少 (206)當(dāng)前背景噪聲估計。
[0037] 通過執(zhí)行W上操作并且向SAD提供背景噪聲估計,SAD能夠執(zhí)行更準(zhǔn)確的聲音活動 檢測。此外,還能夠從錯誤背景噪聲估計更新中恢復(fù)。
[0038] 在上述方法中使用的音頻信號分段的能量水平可W備選地稱為例如當(dāng)前帖能量 化tot),或者被稱為信號分段或帖的能量,其可W通過對當(dāng)前信號分段的子帶能量進(jìn)行求 和來計算。
[0039] 在上述方法中使用的其它能量特征(即長期最小能量水平是一種估計,其 通過多個在先音頻信號分段或帖來確定??蒞備選地表示為例如化ot_l_lp。推導(dǎo) 的一個基本方式是使用若干過去帖的當(dāng)前帖能量的歷史的最小值。如果值被計算 為:"當(dāng)前帖能量-長期最小估計"低于闊值(被表示為例如THR1),則當(dāng)前帖能量在此被視為 接近長期最小能量,或者在長期最小能量附近。也就是說,當(dāng)化tot-lt_min)<THRl時,當(dāng)前 帖能量化tot)可W被確定(202)為在長期最小能量附近。取決于實(shí)施方式,當(dāng)化tot- 1*_111111)=^1?1時的情況可^被稱為判斷202:1或202:2。圖2中是序號202:1指示當(dāng)前帖能 量不在附近的判斷,而序號202:2指示當(dāng)前帖能量在11:_1]1;[]1附近的判斷。圖2中的關(guān) 于形式XXX: Y的其它序號指示相應(yīng)判斷。將在下文進(jìn)一步描述特征
[0040] 當(dāng)前背景噪聲估計要超過的W便被減小的最小值可W被假設(shè)為零或小的正值。例 如,如將在下面的代碼中所解釋的,背景估計的當(dāng)前總能量(可W被表示為"totalNoise"并 被確定為例如10*l〇gl0 I^backdi])需要超過最小值零W在后續(xù)討論中減小。備選地或者 附加地,在包括子帶背景估計的矢量backr[i]中的每個條目可W與最小值巧_MIN)相比較, 用于要被執(zhí)行的減小。在下文的代碼示例中,E_MIN是小的正值。
[0041] 應(yīng)注意的是,根據(jù)本文建議的方案的優(yōu)選實(shí)施例,確定音頻信號分段的能量水平 是否比高于的闊值大僅基于從輸入音頻信號得到的信息,也就是說,其不基于來自 聲音活動檢測器判斷的反饋。
[0042] 可W基于一個或多個準(zhǔn)則按照不同方式來確定(204)當(dāng)前帖是否包括停頓。停頓 準(zhǔn)則還可W被稱為停頓檢測器??蒞應(yīng)用單個停頓檢測器或不同停頓檢測器的組合。在停 頓檢測器的組合的情況下,每個停頓檢測器可W用于檢測不同條件下的停頓。當(dāng)前帖可能 包括停頓(或非活動)的一個指示符是該帖的相關(guān)性特征低,并且多個在先帖也具有低相關(guān) 性特征。如果當(dāng)前能量接近長期最小能量,并且檢測到停頓,則可W根據(jù)當(dāng)前輸入來更新背 景噪聲,如圖2中所示。除了音頻信號分段的能量水平比高于的闊值小之外,可W在 W下情況中視為檢測到停頓:預(yù)定義數(shù)目的連續(xù)在先音頻信號分段已被確定為不包括活動 信號和/或音頻信號的動態(tài)特性超過闊值。運(yùn)還示出在下文的代碼示例中。
[0043] 背景噪聲估計的減?。?06)使得能夠處理背景噪聲估計變得"太高"(即與真實(shí)背 景噪聲相關(guān))的情況。運(yùn)還可W被表達(dá)為背景噪聲估計偏離了實(shí)際背景噪聲。太高的背景噪 聲估計可能會導(dǎo)致SAD的不準(zhǔn)確的判斷,其中,即使包括活動語音或音樂,當(dāng)前信號分段也 被確定為非活動的。背景噪聲估計變得太高的原因在于例如在音樂中的錯誤的或不期望的 背景噪聲更新,其中噪聲估計將音樂誤認(rèn)為背景并且允許噪聲估計增加。公開的方法允許 例如在輸入信號的后續(xù)帖被確定為包括音樂時對錯誤更新的背景噪聲估計進(jìn)行調(diào)整。通過 背景噪聲估計的強(qiáng)制減小(其中噪聲估計被縮減)來進(jìn)行該調(diào)整,即使當(dāng)前輸入信號分段能 量高于例如子帶中的當(dāng)前背景噪聲估計。應(yīng)注意的是,上述用于背景噪聲估計的邏輯用于 控制背景子帶能量的增加。在當(dāng)前帖子帶能量低于背景噪聲估計時,始終允許降低子帶能 量。該功能沒有在圖2中明確地示出。運(yùn)種下降通常具有針對步長的固定設(shè)置。然而,根據(jù)上 述方法,背景噪聲估計應(yīng)該僅被允許與判斷邏輯相關(guān)聯(lián)地增加。當(dāng)檢測到停頓時,還可W使 用能量和相關(guān)性特征來決定(207)在進(jìn)行實(shí)際背景噪聲更新之前,背景估計增加的調(diào)整步 長應(yīng)該多大。
[0044] 如前所述,一些音樂分段可能由于與噪聲很像而難W從背景噪聲中分離出來。因 此,噪聲更新邏輯可能會意外地允許增加子帶能量估計,即使輸入信號是活動信號。運(yùn)會造 成問題,因?yàn)樵肼暪烙嬁赡茏兊帽人鼈兯鶓?yīng)該的高。
[0045] 在現(xiàn)有技術(shù)的背景噪聲估計器中,僅在輸入子帶能量低于當(dāng)前噪聲估計時,子帶 能量估計才能減小。然而,由于一些音樂分段可能由于很像噪聲而難W從背景噪聲中分離 出來,發(fā)明人認(rèn)識到需要針對音樂的恢復(fù)策略。在本文描述的實(shí)施例中,可W通過在輸入信 號回到類似音樂的特性時強(qiáng)制進(jìn)行噪聲估計減小來進(jìn)行運(yùn)種恢復(fù)。也就是說,當(dāng)上文所述 的能量和停頓邏輯防止(202:1、204:1)噪聲估計增加時,測試(203)輸入是否被懷疑是音 樂,如果是(203: 2),則逐帖將子帶能量減小(206)小的量,直到噪聲估計達(dá)到最低水平(205 :2)。
[0046] 本文公開的方案還設(shè)及一種在硬件和/或軟件中實(shí)施的背景估計器。在圖3中示意 性地示出了根據(jù)示例性實(shí)施例的背景估計器500。背景估計器500可W被假設(shè)為包括:輸入 單元502,用于接收能量測量W及可能的相關(guān)性測量;W及輸出單元505,用于提供更新的背 景噪聲估計。背景估計器500還包括處理器503和存儲器504,所述存儲器包含可W由所述處 理器504執(zhí)行的指令507。指令507的執(zhí)行使得所述背景估計器500可操作為執(zhí)行用于上述背 景噪聲估計的方法的至少一個實(shí)施例。換言之,由處理裝置503執(zhí)行指令507使得背景估計 器500操作為:當(dāng)音頻信號分段的能量水平比高于長期最小能量水平其通過多個在 先音頻信號分段來確定)的闊值大時,或者當(dāng)音頻信號分段的能量水平比高于的闊 值小,但是在音頻信號分段中沒有檢測到停頓時:
[0047] -當(dāng)確定音頻信號分段包括音樂并且當(dāng)前背景噪聲估計超過最小值時,減小當(dāng)前 背景噪聲估計;指令507可W存儲為計算機(jī)代碼(例如在本公開的下文中呈現(xiàn)的代碼)的形 式。在被背景估計器存儲和/或執(zhí)行之前,指令或計算機(jī)程序可W由載體承載。運(yùn)種載體可 W是例如電子信號、光信號、無線電信號或者計算機(jī)可讀存儲介質(zhì)。
[0048] 圖4示出了背景估計器的備選實(shí)施。背景估計器400包括輸入/輸出單元401;能量 確定裝置402,被配置為確定當(dāng)前帖能量是否接近長期最小能量估計;停頓檢測器403,被配 置為確定當(dāng)前帖是否包括停頓;音樂檢測器,被配置為確定當(dāng)前帖是否包括音樂。背景估計 器400還包括背景估計器調(diào)整器405,被配置為:當(dāng)音頻信號分段的能量水平比高于長期最 小能量水平的闊值大時,或者當(dāng)音頻信號分段的能量水平比高于的闊值小, 但是在音頻信號分段中沒有檢測到停頓時當(dāng)確定音頻信號分段包括音樂并且當(dāng)前背景 噪聲估計超過最小值時,減小當(dāng)前背景噪聲估計。背景估計器調(diào)整器405還可W配置為執(zhí)行 例如規(guī)則調(diào)整,如圖3中的208所示。
[0049] 如上所述的背景估計器可W包括或者實(shí)施在VAD或SAD和/或編碼器和/或解碼器 中,其中,編碼器和/或解碼器可W被實(shí)施在用戶設(shè)備(例如移動電話、膝上型計算機(jī)、平板 計算機(jī)等)中。背景估計器還可W包括在網(wǎng)絡(luò)節(jié)點(diǎn)(例如媒體網(wǎng)關(guān))中,例如作為編解碼器的 一部分。
[0050] 圖5是示意性示出了根據(jù)示例性實(shí)施例的背景估計器的實(shí)施的框圖。輸入成帖塊 51首先將輸入信號劃分為合適長度(例如5-30ms)的帖。對于每帖,特征提取器52從輸入中 計算至少W下特征:1)特征提取器在頻域中分析帖,并且計算針對子帶集合的能量。子帶是 要用于背景估計的相同子帶。2)特征提取器還在時域中分析帖,并且計算相關(guān)性(被表示為 co;r_est和/或lt_co;r_est),其用于確定帖是否包括活動內(nèi)容。3)特征提取器還利用當(dāng)前帖 總能量(例如被表示為化ot)來更新當(dāng)前和更早的輸入帖的能量歷史的特征,例如長期最小 能量相關(guān)性和能量特征隨后被饋送給更新判斷邏輯塊53。
[0051] 運(yùn)里,根據(jù)本文公開方案的判斷邏輯被實(shí)施在更新判斷邏輯塊53中,其中,相關(guān)性 和能量特征被用于確定當(dāng)前帖能量是否接近長期最小能量;確定當(dāng)前帖是否是停頓(非活 動信號)的一部分;W及確定當(dāng)前帖是否是音樂的一部分。根據(jù)本文描述的實(shí)施例的方案設(shè) 及如何使用運(yùn)些特征和判斷來W魯棒方式更新背景噪聲估計。
[0052] 在下文中,將描述本文公開的方案的實(shí)施例的實(shí)施細(xì)節(jié)。下文的實(shí)施細(xì)節(jié)來自于 基于G.718的編碼器中的實(shí)施例。本實(shí)施例使用在W02011/049514和W02011/049515中描述 與的一些特征,運(yùn)些部分被附進(jìn)本公開。
[0化3] 在W02011/049514中描述的修改的G.718中定義了 W下特征:
[0054] Etot;當(dāng)前輸入帖的總能量 [0化日]化ot_l跟蹤最小能量包絡(luò) [0056] 最小能量包絡(luò)E:tot_l的平滑版本
[0化7] totalNoise;背景估計的當(dāng)前總能量
[0058] bckr[ i ];具有子帶背景估計的矢量;
[0059] tmpN[i];預(yù)計算的潛在新背景估計
[0060] aEn;使用多個特征的背景檢測器(計數(shù)器)
[0061 ] ha;rm_co;r_cnt對從具有相關(guān)性或諧波事件的最后帖開始的帖計數(shù)
[0062] act_pred對僅來自于輸入帖特征的活動的估計
[0063] Cor[i]具有相關(guān)性估計的矢量,其中i = 0是當(dāng)前帖的結(jié)束,
[0064] i = 1是當(dāng)前帖的開始,i = 2是前一帖的結(jié)束
[00化]在W02011/049515中描述的修改的G.718中定義了 W下特征:
[0066] 化ot_h跟蹤最大能量包絡(luò)
[0067] S ign_dyn_lp;平滑后的輸入信號動態(tài)特性
[0068] 在W02011/049514中還定義了特征化ot_v_h,但是在本實(shí)施例中其被修改并且現(xiàn) 在被實(shí)施為W下:
[0069]
[0070] Etot_v測量帖之間的絕對能量變化,即,帖之間的瞬時能量變化的絕對值。在W上 示例中,當(dāng)最后帖能量和當(dāng)前帖能量之間的差小于7個單位時,運(yùn)兩個帖之間的能量變化被 確定為"低"。運(yùn)被用作表明當(dāng)前帖(和先前帖)可能是停頓的一部分(即,僅包括背景噪聲) 的指示符。然而,運(yùn)種低變化還可W在例如突發(fā)語音的中間找到。變量Etot_last是先前帖 的能量水平。
[0071] W上在代碼中描述的步驟可W被執(zhí)行為圖2中的流程圖的"計算/更新相關(guān)性和能 量"步驟的一部分,即,動作201的一部分。在W02011/049514實(shí)施中,VAD標(biāo)記被用于確定當(dāng) 前音頻信號分段是否包括背景噪聲。發(fā)明人認(rèn)識到依賴于反饋信息可能會有問題。在本文 公開的方案中,確定是否更新背景噪聲估計不依賴于VAD(或SAD)判斷。
[0072] 此外,在本文公開的方案中,不是W02011/049514實(shí)施的一部分的W下特征可W被 計算/更新為相同步驟的一部分,即,在圖2中示出的計算/更新相關(guān)性和能量步驟。運(yùn)些特 征還被判斷邏輯用于確定是否更新背景估計。
[0073] 為了實(shí)現(xiàn)更準(zhǔn)確的背景噪聲估計,W下定義多個特征。例如,定義了新的關(guān)于相關(guān) 性的特征co;r_est和It_co;r_est。特征co;r_est是當(dāng)前帖中的相關(guān)性的估計,并且co;r_est還 用于產(chǎn)生It_cor_est,It_cor_est是對相關(guān)性的平滑后的長期估計。
[0074] cor_est = (cor[0]+cor[1]+cor[2])/3. Of;
[00巧]st-> lt_co;r_est = 0.01f*co;r_est+0.99f*st-> lt_co;r_est;
[0076] 如上所述,cor[i]是包括相關(guān)性估計的矢量,cor[0]表示當(dāng)前帖的結(jié)束,cor[l]表 示當(dāng)前帖的開始,并且cor[2]表示先前帖的結(jié)束。
[0077] 此外,計算新特征It_tn_hack,其給出關(guān)于背景估計有多頻繁地接近當(dāng)前帖能量 的長期估計。在當(dāng)前帖足夠接近當(dāng)前背景估計時,其被登記為用信號(1/0)通知是否接近背 景的條件。該信號用于形成長期測量It_tn_track。
[0078] st->lt_tn_track = 0,03f*(Etot-s t->totalNoise< 10)+0.97f*st->lt_tn_ track;
[0079] 在該示例中,在當(dāng)前帖能量接近背景噪聲估計時添加0.03,否則剩下的項(xiàng)只有 0.97乘W先前值。在該示例中,"接近"被定義為當(dāng)前帖能量Etot和背景噪聲估計 totalNoise之間的差小于10個單位。"接近"的其它定義也是可行的。
[0080]此外,當(dāng)前帖能量化ot和當(dāng)前背景估計to化INoise之間的差被用于確定給出對該 距離的長期估計的特征lt_tn_dist。創(chuàng)建類似的特征lt_Ellp_dist用于長期最小能量 Etot_l_lp和當(dāng)前帖能量化ot之間的距離。
[0081 ] st-> lt_tn_dist = 0.03f* 化 tot-st-> totalNoise)+0.97f*st-> lt_tn_dist; [0082] st->lt_Ellp_dist = 0.03f*(Etot-st->Etot_l_lp)+0.97f*st-> lt_El lp_ dist;
[0083]上文引入的特征ha;rm_co;r_cnt用于對從具有相關(guān)性或諧波事件的最近帖開始 (即,從滿足與活動相關(guān)的特定準(zhǔn)則的帖開始)的帖的數(shù)目進(jìn)行計數(shù)。也就是說,當(dāng)條件 ha;rm_co;r_cnt = =0,則其暗示當(dāng)前帖很可能是活動帖,因?yàn)槠滹@示了相關(guān)性或諧波事件。 運(yùn)用于形成對運(yùn)種事件多頻繁發(fā)生的長期平滑估計lt_haco_ev。在此情況下,更新不對稱, 也就是說,在增加或降低估計的情況下使用不同時間常數(shù),如下文所述。
[0084]
[0085] 上文引入的特征It_tn_hack的低值指示針對一些帖,輸入帖能量沒有接近背景 能量。運(yùn)是由于在當(dāng)前帖能量不接近背景能量估計的情況下,It_tn_track針對每個帖而降 低。It_tn_track僅在當(dāng)前帖能量接近背景能量估計時增加,如上所示。為了得到對該"不跟 蹤"(即,帖能量遠(yuǎn)離背景估計)持續(xù)了多久的更好估計,用于不存在跟蹤的帖的數(shù)目的計數(shù) 器 low_tn_track_cnt 被形成為:
[0086]
[0087] 在W上示例中,"低"被定義為低于值0.05。運(yùn)應(yīng)該被視為示例性值,其可W被不同 地選擇。
[0088] 對于在圖2中示出的步驟"形成停頓和音樂判斷",使用W下Ξ個代碼表達(dá)來形成 停頓檢測(還被表示為背景檢測)。在其它實(shí)施例和實(shí)施方式中,還可W添加其它準(zhǔn)則來進(jìn) 行停頓檢測。使用相關(guān)性和能量特征來在代碼中形成實(shí)際音樂判斷。
[0089] 1 :bg_bgd = litot<litot_l_lp+0.6f*st->E;tot_v_h;
[0090] 當(dāng)Etot接近背景噪聲估計時bg_bgd將變?yōu)?Γ或"真"。bg_bgd用作針對其它背景 檢測器的掩碼。也就是說,如果bg_bgd不為"真",則不需要評估下面的背景檢測器2和3。 化〇t_V_h是噪聲變化估計,其可W備選地表示為Nvar。使用化0*_乂從(對數(shù)域中的)輸入總能 量得到Etot_v_h,其中,Etot_v現(xiàn)慢帖之間的絕對能量變化。應(yīng)注意,特征化ot_v_h被限制 為只針對每帖將最大值增加小的常數(shù)值(例如0.2)eEtot_l_lp是最小能量包絡(luò)化ot_l的平 滑版本。
[0091] 2 :aE_bgd = st->aEn= =0;
[0092] 當(dāng)aEn為零時,址_bgd變?yōu)??;?真"。址η是如下計數(shù)器:當(dāng)活動信號被確定為存 在于當(dāng)前帖中時遞增,當(dāng)當(dāng)前帖被確定為不包括活動信號時遞減。aEn可W不遞增多于特定 數(shù)目(例如6),并且不減小到小于零。在多個(例如6個)連續(xù)帖之后,在不存在活動信號的情 況下,a化將等于零。
[0093] 3. sdl_bgd= (31:->3;[即_(17]1_相> 15)&&化tot-st->E;tot_l_lp) <st->E;tot_ v_h&&st->harm_cor_cnt>20 ;
[0094] 在^下;個不同情況是真的情況下,sdl_bgd將為"?;?真":信號動態(tài)特性31即_ dyn_lp高,在此示例中多于15;當(dāng)前帖能量接近背景估計;W及:通過了不具有相關(guān)性或諧 波事件的特定數(shù)目的帖,在該示例中為20帖。
[00M] bg_bgd的功能是用作用于檢測當(dāng)前帖能量接近長期最小能量的標(biāo)記。后兩者址_ bgd和sdl_bgd表示不同條件下的停頓或背景檢測。aE_bgd是運(yùn)兩者中最常用的檢測器,而 sdl_bgd主要檢測高SNR中的語音停頓。
[0096] 根據(jù)本文公開的技術(shù)的實(shí)施例的新判斷邏輯被構(gòu)建在下面的代碼中。判斷邏輯包 括掩碼條件bg_bgdW及兩個停頓檢測器aE_bgd和sdl_bgd。還可存在第Ξ停頓檢測器,其評 估關(guān)于totalNoise跟蹤最小能量估計的性能的長期統(tǒng)計量。在第一行是真的情況下評估的 條件是關(guān)于步長應(yīng)該為多大的判斷邏輯,updt_step和實(shí)際噪聲估計更新是將值指派給 "st->bck;r[i]=-"。應(yīng)注意,tmpN[i]是之前計算的根據(jù)在W02011/049514中描述的方案所 計算的潛在新噪聲水平。下文的判斷邏輯遵循圖2的部分209,其被與下文的代碼相關(guān)聯(lián)地 部分指示
[0097]
[009引
[0099]
[0100] in music…*/開始的最后代碼塊中的代碼分段包含對背景估計的強(qiáng)制 縮減,其在懷疑當(dāng)前輸入是音樂的情況下被使用。運(yùn)被判斷為函數(shù):長期的與最小能量估計 相比的不良跟蹤背景噪聲AND(與)經(jīng)常發(fā)生諧波或相關(guān)性事件AND最后條件"to化lNoise> 0"檢查到背景估計的當(dāng)前總能量大于零,其暗示可W考慮背景估計的減小。此外,確定 "6〇吐[。>2地_11礦是否成立,其中,E_MIN是較小的正值。運(yùn)是為了檢查包括子帶背景估 計在內(nèi)的矢量中的每個條目,從而條目需要超過E_MINW被減小(在該示例中乘W0.98)。進(jìn) 行運(yùn)些檢查W避免將背景估計減小為太小的值。
[0101] 實(shí)施例改善了背景噪聲估計,其使得SAD/VAD能夠W更好的性能實(shí)現(xiàn)高效DTX方 案,并且避免由于削波而引起的語音質(zhì)量或音樂的劣化。
[0102] 通過從化ot_v_h移除在W02011/049514中描述的判斷反饋,可W更好地分離噪聲 估計和SAD。運(yùn)在如果/當(dāng)SAD功能/調(diào)諧改變時而噪聲估計不變的情況下是有益的。也就是 說,背景噪聲估計的確定變得獨(dú)立于SAD的功能。此外,噪聲估計邏輯的調(diào)諧也變得更簡單, 因?yàn)槠洳皇墚?dāng)背景估計改變時來自于SAD的次生效應(yīng)的影響。
[0103] 下文是對示出了利用本文公開的實(shí)施例解決的問題的附圖的描述。
[0104] 圖6是示出了音頻信號的多個帖的能量化ot(點(diǎn))的示圖。示圖示出了利用現(xiàn)有技 術(shù)方案估計的背景(靠下的較細(xì)的曲線V')、W及根據(jù)建議方案的實(shí)施例估計的背景(靠上 的較粗的曲線"+")。該示圖示出了實(shí)施例如何通過將總能量估計保持在較高的水平,并且 通過在例如帖2510(與原始方案中的帖2610相比)附近更快地反應(yīng),來實(shí)現(xiàn)對背景噪聲的更 好跟蹤。
[0105] 圖7也是示出了音頻信號的多個帖的能量化ot(點(diǎn))的示圖。示圖示出了利用現(xiàn)有 技術(shù)方案估計的背景(靠下的較細(xì)的曲線V')、W及根據(jù)建議方案的實(shí)施例估計的背景(靠 上的較粗的曲線V')??蒞看出,根據(jù)本文建議的方案的估計更高效地跟蹤背景噪聲(例如 話語之間的背景噪聲),尤其是在帖數(shù)范圍1600-1700中。
[0106] 圖8也是示出了音頻信號的多個帖的能量化ot(點(diǎn))的示圖。示圖示出了利用現(xiàn)有 技術(shù)方案估計的背景(靠上的較細(xì)的曲線V')、W及根據(jù)建議方案的實(shí)施例估計的背景(靠 下的較粗的曲線V')。示圖還示出了建議的方案與(現(xiàn)有技術(shù))跟蹤背景太高效時相比的優(yōu) 勢。當(dāng)在帖2300和2400之間在背景中存在能量突發(fā)時,話語的前端削波在帖2400處開始的 風(fēng)險增加。
[0107] 圖9也是示出了音頻信號(在此情況下為音樂信號)的多個帖的能量化ot(點(diǎn))的示 圖。該示圖中的音樂文件具有很像噪聲的開始,并且其導(dǎo)致噪聲估計做出了錯誤的判斷,并 且允許對文件(在帖200附近)進(jìn)行一點(diǎn)更新。然而,利用強(qiáng)制背景減小,其開始在帖1700恢 復(fù),并且在帖2100,噪聲估計下降到強(qiáng)制減小的最低水平。從附圖中可W看出,由于針對多 數(shù)帖而言輸入高于背景估計,利用普通更新邏輯不能具有相同的背景水平減小。
[0…引結(jié)論陳述
[0109] 上述背景估計器可W包括在SAD、編解碼器和/或諸如通信設(shè)備的設(shè)備中。通信設(shè) 備可W是用戶設(shè)備(UE),其形式為移動電話、視頻相機(jī)、錄音機(jī)、平板電腦、臺式電腦、膝上 型電腦、TV機(jī)頂盒或家庭服務(wù)器/家庭網(wǎng)關(guān)/家庭接入點(diǎn)/家庭路由器。在一些實(shí)施例中,通 信設(shè)備可W是適于編碼和/或轉(zhuǎn)碼的通信網(wǎng)絡(luò)設(shè)備。運(yùn)種通信網(wǎng)絡(luò)設(shè)備的示例是服務(wù)器,例 如媒體服務(wù)器、應(yīng)用服務(wù)器、網(wǎng)關(guān)和無線電基站。通信設(shè)備還可W適于布置在(即嵌入在)諸 如輪船之類的船艦、無人飛機(jī)、飛機(jī)和諸如汽車、己±或火車之類的道路車輛中。運(yùn)種嵌入 式設(shè)備通常屬于車輛信息設(shè)備單元或車輛信息娛樂系統(tǒng)。
[0110] 本文所述的步驟、功能、過程、模塊、單元和/或塊可W使用任何常規(guī)技術(shù)實(shí)現(xiàn)在硬 件中,例如分立式電路或集成電路技術(shù),包括通用電子電路和專用電路二者。
[0111] 特定示例包括一個或多個合適配置的數(shù)字信號處理器和其他已知電子電路,例如 用于專用特別功能的互連的分立邏輯口、或者應(yīng)用專用集成電路(ASIC)。
[0112] 備選地,上述步驟、功能、過程、模塊、單元和/或塊的至少一部分可W實(shí)現(xiàn)在軟件 中,例如由包括一個或多個處理單元的合適處理電路來執(zhí)行的計算機(jī)程序。在被網(wǎng)絡(luò)節(jié)點(diǎn) 中的計算機(jī)程序使用之前或期間,軟件可W由載體(例如電子信號、光信號、無線電信號或 計算機(jī)可讀存儲介質(zhì))承載。
[0113] 當(dāng)由一個或多個處理器執(zhí)行時,本文提出的流程圖(一個或多個)可被認(rèn)為是計算 機(jī)流程圖(一個或多個)。對應(yīng)的裝置可定義為一組功能模塊,其中由處理器執(zhí)行的每個步 驟對應(yīng)于功能模塊。在運(yùn)種情況下,功能模塊實(shí)現(xiàn)為在處理器上運(yùn)行的計算機(jī)程序。
[0114] 處理電路的示例包括但不限于,一個或多個微處理器、一個或多個數(shù)字信號處理 器化SP)、一個或多個中央處理單元(CPU)和/或任意合適的可編程邏輯電路,例如一個或多 個現(xiàn)場可編程口陣列(FPGA)或者一個或多個可編程邏輯控制器(PLC)。也就是說,在上述不 同節(jié)點(diǎn)中的布置中的單元或模塊可W被實(shí)施為模擬或數(shù)字電路的組合、和/或由存儲在存 儲器中的軟件和/或固件配置的一個或多個處理器。運(yùn)些處理器中的一個或多個W及其它 數(shù)字硬件可W包括在單個專用集成電路(ASIC)中,或者若干個處理器和各種數(shù)字硬件可W 分布在若干個分離的組件上,不論單獨(dú)封裝還是組裝為片上系統(tǒng)(SoC)。
[0115] 也應(yīng)當(dāng)理解,可W重用其中實(shí)現(xiàn)了所提出的技術(shù)的任意傳統(tǒng)設(shè)備或單元的通用處 理能力。還可W例如通過重新編程現(xiàn)有的軟件或者通過添加新的軟件組件來重新使用現(xiàn)有 的軟件。
[0116] 僅作為示例,提出上述實(shí)施例,并且應(yīng)當(dāng)理解,所提出的技術(shù)不限于此。本領(lǐng)域技 術(shù)人員將會理解,在不背離本發(fā)明范圍的情況下,可W對該實(shí)施例進(jìn)行各種修改、合并和改 變。尤其是,不同實(shí)施例中的不同部分的方案可在其他技術(shù)上可行配置中進(jìn)行組合。
[0117] 當(dāng)使用詞語"包括"或"包括……"時,應(yīng)當(dāng)被理解為非限制性的,即意味著"至少包 括"。
[0118] 應(yīng)該注意的是,在一些備選實(shí)施例中,在塊中標(biāo)記的功能/動作可W不W流程圖中 標(biāo)記的順序發(fā)生。例如依賴于所設(shè)及的功能/動作,連續(xù)示出的兩個塊實(shí)際上可W實(shí)質(zhì)上同 時執(zhí)行,或者塊有時候可W按照相反的順序執(zhí)行。此外,可W將流程圖和/或方框圖中的給 定模塊的功能分離成多個塊和/或流程圖的兩個或更多塊的功能和/或可w至少部分地集 成方框圖。最后,可W在不脫離本發(fā)明構(gòu)思的情況下,在示出的塊之間添加/插入其它塊, 和/或可W刪除塊/操作。
[0119] 應(yīng)當(dāng)理解,在本公開內(nèi)對交互單元的選擇W及單元的命名僅用于示例目的,并且 可通過多個備選方式來配置適合于執(zhí)行上述任何方法的節(jié)點(diǎn),從而能夠執(zhí)行所公開的處理 動作。
[0120] 還應(yīng)當(dāng)注意,本公開中描述的單元應(yīng)被認(rèn)為是邏輯實(shí)體,并且不必是分離的物理 實(shí)體。
[0121] 除非明確地闡述,對單數(shù)形式的元件的引用不意圖表示"一個且僅一個",而是"一 個或更多個"。上述優(yōu)選元素實(shí)施例的元素的對于本領(lǐng)域的普通技術(shù)人員已知的所有結(jié)構(gòu) 和功能等同物明確通過引用并入本文,并旨在由本權(quán)利要求所涵蓋。此外,設(shè)備或方法不必 須解決本文公開的技術(shù)所要解決的每個問題,其用于被包含于此。
[0122] 在本文的一些實(shí)例中,省略眾所周知的設(shè)備、電路和方法的詳細(xì)說明,W免不必要 的細(xì)節(jié)模糊所公開技術(shù)的說明。本文中列出所公開技術(shù)的原理、方面和實(shí)施例,W及其具體 實(shí)例的所有陳述旨在包括其結(jié)構(gòu)和功能等同物。此外,不考慮結(jié)構(gòu),希望運(yùn)種等價形式既包 括當(dāng)前已知的等價形式,也包括未來發(fā)展的等價形式,例如執(zhí)行相同功能的發(fā)展的單元。
[0123] 縮寫
[0124] AMR自適應(yīng)多速率 [01巧]DTX不連續(xù)傳輸 [01%] VAD語音活動檢測器
[0127] 3GPP第Ξ代合作伙伴計劃
[0128] SID靜音插入描述符
[0129] SAD語音活動檢測器
[0130] SNR信噪比
[0131] WB 寬帶
【主權(quán)項(xiàng)】
1. 一種用于支持在音頻信號分段中進(jìn)行聲音活動檢測的背景噪聲估計方法,所述方法 包括: 當(dāng)音頻信號分段的能量水平比高于(202:1)長期最小能量水平lt_min的閾值大時,或 者當(dāng)音頻信號分段的能量水平比高于(202:2)lt_min的閾值小,但是在音頻信號分段中沒 有檢測(204:1)到停頓時,其中,所述lt_min是對多個在先音頻信號分段所確定的: -當(dāng)確定(203:2)音頻信號分段包括音樂并且當(dāng)前背景噪聲估計超過最小值(205:1) 時,減小(206)當(dāng)前背景噪聲估計; 從而基于背景噪聲估計實(shí)現(xiàn)更準(zhǔn)確的聲音活動檢測。2. 根據(jù)權(quán)利要求1所述的方法,其中,判斷音頻信號分段的能量水平是否比高于lt_min 的閾值大是基于從輸入音頻信號得到的信息,而不是基于來自聲音活動檢測器的反饋。3. 根據(jù)權(quán)利要求1或2所述的方法,其中,除了音頻信號分段的能量水平比高于lt_min 的閾值小之外,當(dāng)還滿足以下條件之一或兩者時認(rèn)為檢測到停頓: -預(yù)定義數(shù)目的連續(xù)在先音頻信號分段已被確定為不包括活動信號; -音頻信號的動態(tài)特性超過閾值。4. 一種背景噪聲估計器(500),用于支持在音頻信號分段中進(jìn)行聲音檢測,所述背景噪 聲估計器被配置為: 當(dāng)音頻信號分段的能量水平比高于長期最小能量水平lt_min的閾值大時,或者當(dāng)音頻 信號分段的能量水平比高于lt_min的閾值小,但是在音頻信號分段中沒有檢測到停頓時, 其中,所述lt_min是對多個在先音頻信號分段所確定的: -當(dāng)確定音頻信號分段包括音樂并且當(dāng)前背景噪聲估計超過最小值時,減小當(dāng)前背景 噪聲估計。5. 根據(jù)權(quán)利要求4所述的背景噪聲估計器,被配置為基于從輸入音頻信號得到的信息 而不是基于來自聲音活動檢測器的反饋,來判斷音頻信號分段的能量水平是否比高于lt_ min的閾值大。6. 根據(jù)權(quán)利要求4或5所述的背景噪聲估計器,被配置為除了音頻信號分段的能量水平 比高于lt_min的閾值小之外,當(dāng)還滿足以下條件之一或兩者時檢測到停頓: -預(yù)定義數(shù)目的連續(xù)在先音頻信號分段已被確定為不包括活動信號; -音頻信號的動態(tài)特性超過閾值。7. -種聲音活動檢測器SAD,包括根據(jù)權(quán)利要求4-6中任一項(xiàng)所述的背景噪聲估計器。8. -種編解碼器,包括根據(jù)權(quán)利要求4-6中任一項(xiàng)所述的背景噪聲估計器。9. 一種無線設(shè)備,包括根據(jù)權(quán)利要求4-6中任一項(xiàng)所述的背景噪聲估計器。10. -種網(wǎng)絡(luò)節(jié)點(diǎn),包括根據(jù)權(quán)利要求4-6中任一項(xiàng)所述的背景噪聲估計器。11. 一種計算機(jī)程序,包括指令,所述指令當(dāng)在至少一個處理器上執(zhí)行時使所述至少一 個處理器執(zhí)行根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法。12. -種包含前述權(quán)利要求所述的計算機(jī)程序的載體,其中,所述載體是電子信號、光 信號、無線電信號或計算機(jī)可讀存儲介質(zhì)中的一種。
【文檔編號】G10L25/84GK105830154SQ201480067985
【公開日】2016年8月3日
【申請日】2014年12月1日
【發(fā)明人】馬丁·紹爾斯戴德
【申請人】瑞典愛立信有限公司