一些消費(fèi)者和商用電子設(shè)備實(shí)現(xiàn)單信道聲學(xué)降噪(SCANR)以降低來(lái)自單個(gè)音頻信號(hào)流的噪聲(例如,環(huán)境噪聲)。這些設(shè)備使用各種類型的譜減技術(shù)來(lái)降低音頻信號(hào)中的噪聲。譜減技術(shù)在某種程度上只適用于穩(wěn)態(tài)噪聲或非常慢地變化的噪聲。然而,在實(shí)時(shí)用戶環(huán)境中,噪聲不是穩(wěn)態(tài)的且可在一段時(shí)間期間顯著變化。
概述
本公開的各示例描述了知曉用戶環(huán)境的聲學(xué)降噪技術(shù)。變換計(jì)算設(shè)備接收到的有噪信號(hào)并且確定接收到的有噪信號(hào)的特征向量。訪問與多個(gè)用戶環(huán)境相對(duì)應(yīng)的分類數(shù)據(jù)。每一用戶環(huán)境的分類數(shù)據(jù)具有相關(guān)聯(lián)的噪聲模型和語(yǔ)音存在概率。執(zhí)行所確定的特征向量與所訪問的分類數(shù)據(jù)之間的比較以標(biāo)識(shí)當(dāng)前用戶環(huán)境?;谂c所標(biāo)識(shí)的用戶環(huán)境相關(guān)聯(lián)的噪聲模型和語(yǔ)音存在概率來(lái)估計(jì)來(lái)自經(jīng)變換有噪信號(hào)的噪聲水平?;谒烙?jì)的噪聲水平、與所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型以及語(yǔ)音存在概率,降低來(lái)自經(jīng)變換有噪信號(hào)的噪聲水平以輸出增強(qiáng)型信號(hào)。
提供本概述以便以簡(jiǎn)化的形式介紹以下在詳細(xì)描述中進(jìn)一步描述的一些概念。本概述并非旨在標(biāo)識(shí)出要求保護(hù)的主題的關(guān)鍵特征或必要特征,亦非旨在用作輔助確定要求保護(hù)的主題的范圍。
附圖簡(jiǎn)述
圖1是解說通過考慮用戶環(huán)境信息的噪聲估計(jì)和降低的示例性框圖。
圖2是解說用于產(chǎn)生經(jīng)降噪的增強(qiáng)型信號(hào)的體系結(jié)構(gòu)的示例性框圖。
圖3是解說用于從有噪信號(hào)中輸出經(jīng)降噪的增強(qiáng)型信號(hào)的計(jì)算設(shè)備的各組件的示例性框圖。
圖4A是解說計(jì)算設(shè)備的用于訓(xùn)練樣本分類器以將所收集的噪聲樣本分類到各噪聲模型的操作的示例性流程圖。
圖4B是解說計(jì)算設(shè)備的用于訓(xùn)練樣本分類器以將所收集的噪聲樣本分類到各噪聲模型的操作的示例性流程圖。
圖5是解說計(jì)算設(shè)備的用于通過考慮當(dāng)前用戶環(huán)境來(lái)減少來(lái)自有噪信號(hào)的噪聲信號(hào)的操作的示例性流程圖。
在全部附圖中,相應(yīng)的附圖標(biāo)記指示相應(yīng)的部分。
詳細(xì)描述
參考附圖,本公開的各示例啟用用于計(jì)算設(shè)備302的知曉用戶環(huán)境的聲學(xué)降噪。在一些示例中,通過將接收到的有噪信號(hào)(例如,包括語(yǔ)音信號(hào)和噪聲信號(hào))的特征向量與多個(gè)用戶環(huán)境的分類數(shù)據(jù)310相比較來(lái)標(biāo)識(shí)計(jì)算設(shè)備302的當(dāng)前用戶環(huán)境。每一用戶環(huán)境具有與其相關(guān)聯(lián)的至少一個(gè)噪聲模型。與所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型被應(yīng)用以估計(jì)經(jīng)變換有噪信號(hào)中的噪聲水平、語(yǔ)音水平、以及語(yǔ)音存在概率(SPP)。這一估計(jì)是對(duì)計(jì)算設(shè)備302可能在當(dāng)前用戶環(huán)境中遇到的噪聲水平、語(yǔ)音水平、以及SPP的準(zhǔn)確估計(jì),至少因?yàn)樗鶚?biāo)識(shí)的當(dāng)前用戶環(huán)境的噪聲模型使該系統(tǒng)能夠選擇與當(dāng)前用戶環(huán)境相對(duì)應(yīng)的正確閾值和參數(shù)。在一些示例中,這些閾值和參數(shù)應(yīng)變于環(huán)境類型,且針對(duì)多個(gè)用戶環(huán)境中的每一者被預(yù)存儲(chǔ)在存儲(chǔ)器區(qū)域308中?;谒烙?jì)的噪聲水平、語(yǔ)音水平以及與當(dāng)前用戶環(huán)境相關(guān)聯(lián)的SPP和噪聲模型,從經(jīng)變換有噪信號(hào)中減少噪聲信號(hào)。與所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型可以描述任何環(huán)境。例如,噪聲模型可以描述汽車、酒館、咖啡館、粉紅噪聲、清晰語(yǔ)音等等作為當(dāng)前用戶環(huán)境。
本文描述的系統(tǒng)的示例考慮與用戶環(huán)境有關(guān)的知識(shí)來(lái)估計(jì)和降低音頻信號(hào)中的噪聲。本公開的各方面進(jìn)一步允許改進(jìn)信噪比、改進(jìn)經(jīng)處理語(yǔ)音的主觀質(zhì)量(例如,經(jīng)由通過當(dāng)前用戶環(huán)境的噪聲模型確保在降噪過程中語(yǔ)音未失真或變得不自然)和/或改進(jìn)殘余噪聲的主觀質(zhì)量。殘余噪聲的主觀質(zhì)量的改進(jìn)經(jīng)由通過當(dāng)前用戶環(huán)境的噪聲模型確保噪聲被最優(yōu)地降低來(lái)進(jìn)行。如果降噪可導(dǎo)致語(yǔ)音失真或者語(yǔ)音可由于這樣的降噪而表現(xiàn)出不自然,則噪聲可不被降低。通過標(biāo)識(shí)當(dāng)前用戶環(huán)境并使用與所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的閾值和參數(shù),該系統(tǒng)對(duì)該所標(biāo)識(shí)的用戶環(huán)境的信噪比(SNR)的變化而言是穩(wěn)健的。例如,該系統(tǒng)基于環(huán)境中所確定的噪聲類型來(lái)執(zhí)行對(duì)檢測(cè)和跟蹤閾值的實(shí)時(shí)適配。
本公開的各方面提供由于聲學(xué)降噪的知曉用戶環(huán)境的系統(tǒng)。與該系統(tǒng)相關(guān)聯(lián)的處理器304接收有噪信號(hào)并創(chuàng)建對(duì)接收到的有噪信號(hào)的變換。有噪信號(hào)包括語(yǔ)音信號(hào)(例如,有噪信號(hào)中表示用戶的話音的所需部分)和噪聲信號(hào)(例如,有噪信號(hào)中表示用戶環(huán)境中存在的殘余噪聲的不合需要的部分)。接收到的有噪信號(hào)的特征向量被確定并與分類數(shù)據(jù)310(如圖3所示)相比較以標(biāo)識(shí)當(dāng)前用戶環(huán)境?;谂c所標(biāo)識(shí)的用戶環(huán)境相關(guān)聯(lián)的噪聲模型來(lái)估計(jì)經(jīng)變換有噪信號(hào)的噪聲水平、語(yǔ)音水平以及SPP。該估計(jì)可包括基于噪聲模型、經(jīng)變換有噪信號(hào)的噪聲水平以及語(yǔ)音水平來(lái)估計(jì)并使用所估計(jì)的噪聲水平和語(yǔ)音水平來(lái)進(jìn)一步計(jì)算SPP(例如,在運(yùn)行時(shí))。以此方式,SPP被計(jì)算為更準(zhǔn)確SPP,因?yàn)樵撓到y(tǒng)知曉當(dāng)前用戶環(huán)境的噪聲模型。SPP的準(zhǔn)確計(jì)算提供更穩(wěn)健和準(zhǔn)確的降噪。至少因?yàn)樵撓到y(tǒng)知曉可能與接收到的有噪信號(hào)相關(guān)聯(lián)的各種參數(shù),有噪信號(hào)中的噪聲水平的突然井噴(例如,最有可能是假警報(bào))被消除或減少。
此外,基于與所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型和所估計(jì)的噪聲水平、語(yǔ)音水平以及SPP,來(lái)自經(jīng)變換有噪信號(hào)的噪聲信號(hào)被減少。在減少噪聲信號(hào)之后,輸出基于來(lái)自有噪信號(hào)的語(yǔ)音信號(hào)的增強(qiáng)型語(yǔ)音信號(hào)。即,該系統(tǒng)不僅降低了噪聲,它還增強(qiáng)了信號(hào)質(zhì)量。在一些示例中,該系統(tǒng)確認(rèn)當(dāng)前用戶環(huán)境的標(biāo)識(shí)。確認(rèn)所標(biāo)識(shí)的當(dāng)前用戶環(huán)境通過選擇在預(yù)定時(shí)間段(例如,500毫秒期間或某一預(yù)定幀數(shù)期間平滑)期間最頻繁標(biāo)識(shí)的當(dāng)前用戶環(huán)境來(lái)發(fā)生。作為替換或補(bǔ)充,確認(rèn)所標(biāo)識(shí)的當(dāng)前用戶環(huán)境在所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相同達(dá)有噪信號(hào)的至少預(yù)定義數(shù)目的幀(例如,最后5幀中的3幀)時(shí)發(fā)生。
再次參考圖1,示例性框圖解說了通過考慮用戶環(huán)境信息的噪聲估計(jì)和降低。在圖1的示例中,話筒102或其他輸入設(shè)備接收有噪信號(hào),該有噪信號(hào)包括語(yǔ)音信號(hào)和噪聲信號(hào)。其他輸入設(shè)備包括模數(shù)轉(zhuǎn)換器和/或來(lái)自多話筒設(shè)備中的空間處理前端的輸出。在框104中的噪聲估計(jì)和降低是通過考慮與接收到的有噪信號(hào)相關(guān)聯(lián)的用戶環(huán)境信息108來(lái)執(zhí)行的。經(jīng)降噪的語(yǔ)音信號(hào)(例如,增強(qiáng)型信號(hào))通過揚(yáng)聲器106被輸出。本公開的各示例能與一個(gè)話筒或與多個(gè)話筒一起操作。
接著參考圖2,示例性框圖解說了用于根據(jù)有噪信號(hào)來(lái)輸出經(jīng)降噪的增強(qiáng)型信號(hào)的體系結(jié)構(gòu)。由窗202從有噪信號(hào)生成波形。窗202生成表示語(yǔ)音的經(jīng)時(shí)間分割的波形(例如,有噪信號(hào)的樣本)以及非語(yǔ)音片段(例如,表示靜默或沒有語(yǔ)音信號(hào)的片段)。由窗202生成的波形在變換204處被變換成有噪信號(hào)變換域系數(shù)。在一些示例中,變換是到頻域中,但設(shè)想了其他域。來(lái)自由窗202生成的波形的特征向量通過特征計(jì)算206來(lái)計(jì)算。特征向量是在所分析的時(shí)間窗期間的傳入信號(hào)的緊湊表示。特征向量包括例如MFCC、頻域表示、DCT、或任何其他變換或表示。根據(jù)窗202所生成的波形和通過特征計(jì)算206計(jì)算出的特征向量,從環(huán)境分類器214中標(biāo)識(shí)當(dāng)前用戶環(huán)境。環(huán)境分類器214包括環(huán)境分類216、來(lái)自陀螺儀的數(shù)據(jù)218、描述用戶語(yǔ)音的數(shù)據(jù)220以及來(lái)自后端語(yǔ)音識(shí)別的數(shù)據(jù)222。環(huán)境分類器214可包括幫助標(biāo)識(shí)當(dāng)前用戶環(huán)境的其他組件和/或模塊。
每一用戶環(huán)境的分類數(shù)據(jù)310與噪聲模型(例如,在該用戶環(huán)境中的噪聲類型)相關(guān)聯(lián)。通過標(biāo)識(shí)當(dāng)前用戶環(huán)境并且因而標(biāo)識(shí)與當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型,SPP被更準(zhǔn)確地計(jì)算。SPP定義有噪信號(hào)中語(yǔ)音信號(hào)存在的概率。SPP可被定義為標(biāo)識(shí)接收到的有噪信號(hào)中存在靜默、存在語(yǔ)音、僅存在噪聲、或存在語(yǔ)音和噪聲兩者
來(lái)自陀螺儀的數(shù)據(jù)218被利用來(lái)改進(jìn)噪聲檢測(cè)和估計(jì)。來(lái)自陀螺儀的數(shù)據(jù)218提供計(jì)算設(shè)備302的狀態(tài)(例如,固定或移動(dòng))。這一信息可被用作分類數(shù)據(jù)310的一部分以估計(jì)和降低有噪信號(hào)中的噪聲。來(lái)自陀螺儀的數(shù)據(jù)可被用在單話筒設(shè)備和多話筒設(shè)備兩者中。在一些示例中,陀螺儀報(bào)告設(shè)備的三個(gè)坐標(biāo)(例如,x、y以及z)。這一數(shù)據(jù)中的變化指示設(shè)備被保持在固定位置還是正在移動(dòng)/旋轉(zhuǎn)。
如果設(shè)備正在移動(dòng)/旋轉(zhuǎn),則這一知識(shí)可被利用。降噪在經(jīng)變換域(例如,頻率、子帶,等等)中操作。如果存在漫射噪聲源(例如,非有向或全向噪聲源,使得在空間中的幾乎任何位置處存在相同的噪聲水平),則在設(shè)備正在移動(dòng)/旋轉(zhuǎn)時(shí)針對(duì)經(jīng)變換域系數(shù)的信號(hào)水平估計(jì)不顯著變化(不同于存在點(diǎn)源噪聲和/或設(shè)備用戶的所需語(yǔ)音時(shí))。例如,來(lái)自傳感器的連貫數(shù)據(jù)的增量可指示各設(shè)備正在移動(dòng)或旋轉(zhuǎn),但本公開的操作(在執(zhí)行時(shí))指示變換域中的信號(hào)水平估計(jì)沒有多大變化。本公開的各方面得出結(jié)論:對(duì)于固定的那些變換域系數(shù),存在主要漫射的噪聲并且因此噪聲水平估計(jì)器可被更有信心地更新(例如,提高適配速率、降低針對(duì)這些變換域系數(shù)的SPP,等等)。這進(jìn)而改進(jìn)SCANR對(duì)可快速時(shí)變的漫射噪聲的穩(wěn)健性和響應(yīng)性。
如果該設(shè)備在空間中固定(例如,根據(jù)陀螺儀沒有移動(dòng)/旋轉(zhuǎn))并且變換域系數(shù)也在時(shí)間上固定,則本公開的操作(在執(zhí)行時(shí))得出結(jié)論:它很有可能是信號(hào)中的噪聲。本公開的各方面隨后更有信心地更新噪聲水平估計(jì)(例如,提高更新速率)。
如果該設(shè)備在空間中是固定的(例如,來(lái)自陀螺儀的連貫數(shù)據(jù)之間的差異是零或非常小)并且變換域系數(shù)隨時(shí)間快速變化,則本公開的操作(在執(zhí)行時(shí))得出結(jié)論:可能不存在漫射噪聲。因而,存在語(yǔ)音或快速變化的噪聲。本公開的各方面隨后決定減緩/緩和噪聲更新速率。
如果該設(shè)備在空間中不是固定的(例如,來(lái)自陀螺儀的連貫數(shù)據(jù)之間的差異大于閾值)并且變換域系數(shù)隨時(shí)間快速變化,則就是否存在漫射噪聲而言不能得出結(jié)論。在這樣的示例中,SCANR在更新噪聲水平估計(jì)時(shí)更保守(例如,緩慢)。
從用戶語(yǔ)音特性導(dǎo)出的知識(shí)(例如,講話者的語(yǔ)音特性,如性別、年齡、語(yǔ)言,等等)以及來(lái)自后端語(yǔ)音識(shí)別的數(shù)據(jù)222(例如,話音識(shí)別是否失敗)也幫助改進(jìn)噪聲檢測(cè)和估計(jì)。講話者的語(yǔ)音特性和/或講話者標(biāo)識(shí)也可被用作分類數(shù)據(jù)310的一部分以估計(jì)和降低有噪信號(hào)中的噪聲。來(lái)自后端語(yǔ)音識(shí)別的數(shù)據(jù)222可被用于改進(jìn)分類數(shù)據(jù)310,諸如通過從后端語(yǔ)音識(shí)別學(xué)習(xí)接收到的有噪信號(hào)的最可能的用戶環(huán)境。在一些示例中,每一識(shí)別引擎具有前端降噪需求,這可因引擎而不同。來(lái)自這些引擎的降噪可由于不足或過多的噪聲抑制、使語(yǔ)音在頻譜上失真、移除過多所需語(yǔ)音、和/或在語(yǔ)音中引入水平變化而不利地影響語(yǔ)音識(shí)別引擎。這些失真在降噪引擎不具有實(shí)際噪聲的準(zhǔn)確估計(jì)時(shí)發(fā)生。本公開的各方面提供穩(wěn)健、可靠和/或準(zhǔn)確的噪聲估計(jì),從而改進(jìn)后端語(yǔ)音識(shí)別。
以此方式,使用來(lái)自陀螺儀和/或任何其他傳感器的學(xué)習(xí)向本文描述的各組件提供更多信心來(lái)正確地更新經(jīng)變換域中的噪聲水平估計(jì),從而使后端語(yǔ)音識(shí)別引擎獲益。
在框208,從由變換204產(chǎn)生的經(jīng)變換有噪信號(hào)來(lái)估計(jì)和跟蹤噪聲和SNR,并將其與由環(huán)境分類器214所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)???08提供變換域中的噪聲估計(jì),該噪聲估計(jì)連同由環(huán)境分類器214所標(biāo)識(shí)的當(dāng)前用戶環(huán)境一起被框210使用來(lái)進(jìn)行噪聲消除、降低、移除或其他調(diào)整。在一些示例中,降噪可被定義為在語(yǔ)音信號(hào)中引入最少量的可感知失真的同時(shí)產(chǎn)生大于輸入SNR的輸出SNR???10的輸出是變換域中的增強(qiáng)型信號(hào),它隨后在框212被逆變換以生成標(biāo)識(shí)增強(qiáng)型信號(hào)的波形。在一些示例中,來(lái)自框212的所得的增強(qiáng)型信號(hào)作為反饋被循環(huán)回環(huán)境分類器214,以進(jìn)一步改進(jìn)當(dāng)前用戶環(huán)境的噪聲估計(jì)和降低(例如,它可能沒有反映實(shí)際當(dāng)前環(huán)境)。例如,當(dāng)前環(huán)境的標(biāo)識(shí)中的偏差在用于估計(jì)噪聲估計(jì)和降低的操作的一個(gè)或多個(gè)后續(xù)迭代中被校正
接著參考圖3,示例性框圖解說了用于從有噪信號(hào)來(lái)輸出經(jīng)降噪的增強(qiáng)型信號(hào)的計(jì)算設(shè)備302。在圖3的示例中,與用戶相關(guān)聯(lián)的計(jì)算設(shè)備302表示用于提供知曉用戶環(huán)境的聲學(xué)降噪的系統(tǒng)。計(jì)算設(shè)備302表示執(zhí)行指令(例如作為應(yīng)用程序、操作系統(tǒng)功能或這兩者)以實(shí)現(xiàn)本文描述的操作和功能性的任何設(shè)備。計(jì)算設(shè)備302可包括移動(dòng)計(jì)算設(shè)備或任何其它的便攜式設(shè)備。在一些實(shí)施例中,移動(dòng)計(jì)算設(shè)備包括移動(dòng)電話、膝上型計(jì)算機(jī)、平板、計(jì)算板、上網(wǎng)本、游戲設(shè)備、可穿戴設(shè)備、手持機(jī)(例如,藍(lán)牙品牌手持機(jī))和/或便攜式媒體播放器。計(jì)算設(shè)備302還可包括較不便攜的設(shè)備,諸如智能電視機(jī)、臺(tái)式個(gè)人計(jì)算機(jī)、自助服務(wù)終端和桌面設(shè)備。另外,計(jì)算設(shè)備302可以表示一組處理單元或其它計(jì)算設(shè)備。計(jì)算設(shè)備302用于執(zhí)行各種場(chǎng)景中的降噪,包括例如電話(例如,蜂窩、網(wǎng)際協(xié)議語(yǔ)音、藍(lán)牙品牌通信、以及Wi-Fi通信)、語(yǔ)音識(shí)別(例如,如計(jì)算設(shè)備302或云服務(wù)所執(zhí)行的)、家庭傳感器數(shù)據(jù)處理(例如,家庭環(huán)境中具有用于捕捉語(yǔ)音命令的話筒的任何設(shè)備)、和/或醫(yī)療應(yīng)用(例如,移除來(lái)自生物信號(hào)的噪聲)。
在一些示例中,計(jì)算設(shè)備302具有至少一個(gè)處理器304、存儲(chǔ)器區(qū)域308、以及至少一個(gè)用戶界面306。處理器304包括任意數(shù)量的處理單元,并被編程為執(zhí)行用于實(shí)現(xiàn)本公開的各方面的計(jì)算機(jī)可執(zhí)行指令。指令可由處理器304或由在計(jì)算設(shè)備302內(nèi)執(zhí)行的多個(gè)處理器執(zhí)行,或者由計(jì)算設(shè)備302外部的處理器來(lái)執(zhí)行。在一些示例中,處理器304被編程為執(zhí)行諸如各附圖(例如圖4和圖5)中示出的那些指令。作為替換或補(bǔ)充,處理器304可以接收附圖(例如,圖4和圖5)中所示的由計(jì)算設(shè)備302以外的實(shí)體(例如,云服務(wù))執(zhí)行的指令的至少一部分的結(jié)果。
在一些示例中,處理器304表示執(zhí)行在此所述的操作的模擬技術(shù)的一種實(shí)現(xiàn)。例如,所述操作可以由模擬計(jì)算設(shè)備和/或數(shù)字計(jì)算設(shè)備來(lái)執(zhí)行。
計(jì)算設(shè)備302進(jìn)一步具有一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),諸如存儲(chǔ)器區(qū)域308。存儲(chǔ)器區(qū)域308包括任何數(shù)量的、與計(jì)算設(shè)備302相關(guān)聯(lián)或計(jì)算設(shè)備202可訪問的介質(zhì)。存儲(chǔ)器區(qū)域308可以在計(jì)算設(shè)備302的內(nèi)部(如圖3所示)、在計(jì)算設(shè)備302的外部、或兩者。在一些示例中,存儲(chǔ)器區(qū)域308包括只讀存儲(chǔ)器和/或布線到模擬計(jì)算設(shè)備中的存儲(chǔ)器。
存儲(chǔ)器區(qū)域308存儲(chǔ)一個(gè)或多個(gè)應(yīng)用312以及其他數(shù)據(jù)。應(yīng)用312在被處理器304執(zhí)行時(shí)操作以執(zhí)行計(jì)算設(shè)備302上的功能。示例性應(yīng)用312包括郵件應(yīng)用程序、web瀏覽器、日歷應(yīng)用程序、地址簿應(yīng)用程序、消息收發(fā)應(yīng)用程序、媒體應(yīng)用、基于位置的服務(wù)、搜索程序、語(yǔ)音識(shí)別應(yīng)用、話音通信應(yīng)用等。應(yīng)用312可與對(duì)應(yīng)的應(yīng)用或服務(wù)通信,諸如可經(jīng)由網(wǎng)絡(luò)訪問的web服務(wù)。例如,應(yīng)用312可表示與在云中執(zhí)行的服務(wù)器側(cè)服務(wù)相對(duì)應(yīng)的下載的客戶機(jī)側(cè)應(yīng)用。
存儲(chǔ)器區(qū)域308進(jìn)一步存儲(chǔ)與多個(gè)用戶環(huán)境相對(duì)應(yīng)的分類數(shù)據(jù)310。每一用戶環(huán)境的分類數(shù)據(jù)310(例如,UE 1、UE 2、……、UE N)包括與其相關(guān)聯(lián)的噪聲模型。如圖3所示,示例性分類數(shù)據(jù)310示出了與UE 1相關(guān)聯(lián)的噪聲模型1、與UE 2相關(guān)聯(lián)的噪聲模型2、以及與UE N相關(guān)聯(lián)的噪聲模型N。在一些示例中,存儲(chǔ)器區(qū)域308還存儲(chǔ)用戶環(huán)境中的每一者的SNR直方圖(例如,在運(yùn)行時(shí)計(jì)算并被稱為正在運(yùn)行的直方圖)以及與用戶環(huán)境中的每一者相關(guān)聯(lián)的閾值和參數(shù)。環(huán)境分類器214所標(biāo)識(shí)的當(dāng)前用戶環(huán)境幫助選擇與當(dāng)前用戶環(huán)境相關(guān)聯(lián)的閾值和參數(shù)的最接近可能的匹配值。這進(jìn)一步幫助準(zhǔn)確地計(jì)算在一些示例中用來(lái)減少和/或消除來(lái)自有噪信號(hào)的噪聲信號(hào)的SPP。
存儲(chǔ)器區(qū)域308進(jìn)一步存儲(chǔ)包括一個(gè)或多個(gè)計(jì)算機(jī)可執(zhí)行組件的單信道聲學(xué)降噪(SCANR)模塊314。SCANR模塊314中的示例性組件包括變換組件316、確定組件318、分類組件320、標(biāo)識(shí)組件322、估計(jì)組件324、降噪組件326、逆變換組件328、以及反饋組件330。變換組件316在由與計(jì)算設(shè)備302相關(guān)聯(lián)的處理器304執(zhí)行時(shí)使得處理器304變換由計(jì)算設(shè)備302接收到的有噪信號(hào)。變換組件316可以使用本領(lǐng)域已知的任何技術(shù)(例如,快速傅立葉變換,等等)來(lái)變換有噪信號(hào)。例如,接收到的有噪信號(hào)被變換到頻域中,但設(shè)想了其他域。信號(hào)從時(shí)域到另一域的變換使得更易于對(duì)噪聲進(jìn)行分類。環(huán)境分類器214在相同的特征向量集合上被訓(xùn)練,使得當(dāng)前用戶環(huán)境的標(biāo)識(shí)是準(zhǔn)確的確定。確定組件318在由與計(jì)算設(shè)備302相關(guān)聯(lián)的處理器304執(zhí)行時(shí)使得處理器304確定接收到的有噪信號(hào)的特征向量。確定組件318通過計(jì)算梅爾頻率倒譜系數(shù)(MFCC)或MFCC的一階或二階導(dǎo)數(shù)來(lái)確定接收到的有噪信號(hào)的特征向量。表示特征向量的其他方式也被設(shè)想并且在本公開的范圍內(nèi)。
分類組件320在由與計(jì)算設(shè)備302相關(guān)聯(lián)的處理器304執(zhí)行時(shí)使得處理器304蜂窩與多個(gè)用戶環(huán)境相對(duì)應(yīng)的分類數(shù)據(jù)310。每一用戶環(huán)境的分類數(shù)據(jù)310包括與其相關(guān)聯(lián)的噪聲模型。標(biāo)識(shí)組件322在由與計(jì)算設(shè)備302相關(guān)聯(lián)的處理器304執(zhí)行時(shí)使得處理器304基于由確定組件318所確定的特征向量與由分類組件320所訪問的分類數(shù)據(jù)310的比較來(lái)標(biāo)識(shí)計(jì)算設(shè)備302的當(dāng)前用戶環(huán)境。在一些示例中,標(biāo)識(shí)組件322將(在預(yù)定義時(shí)間段期間)一貫地提供分類數(shù)據(jù)310中的最接近匹配的結(jié)果的用戶環(huán)境標(biāo)識(shí)為當(dāng)前用戶環(huán)境。估計(jì)組件324在由與計(jì)算設(shè)備302相關(guān)聯(lián)的處理器304執(zhí)行時(shí)使得處理器304基于與由標(biāo)識(shí)組件322標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型來(lái)估計(jì)經(jīng)變換有噪信號(hào)的噪聲水平、語(yǔ)音水平以及SPP。所估計(jì)的噪聲水平表示當(dāng)時(shí)的噪聲水平和語(yǔ)音水平的準(zhǔn)確估計(jì),因?yàn)檫@一估計(jì)還使用所標(biāo)識(shí)的當(dāng)前用戶環(huán)境的閾值和參數(shù)。所估計(jì)的噪聲水平和語(yǔ)音水平被用于估計(jì)和/或計(jì)算SPP。以此方式,與環(huán)境分類器214所提供的先前粗略估計(jì)相比,所估計(jì)的噪聲水平和語(yǔ)音水平表示對(duì)噪聲水平和語(yǔ)音水平的更好或更確切的估計(jì)。
降噪組件326在由與計(jì)算設(shè)備302相關(guān)聯(lián)的304執(zhí)行時(shí)使得處理器304基于由估計(jì)組件324估計(jì)的噪聲水平、語(yǔ)音水平和SPP以及與由標(biāo)識(shí)組件322標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型來(lái)減少來(lái)自經(jīng)變換有噪信號(hào)的噪聲信號(hào)以輸出增強(qiáng)型信號(hào)。因?yàn)榻翟虢M件326像估計(jì)組件324一樣考慮所標(biāo)識(shí)的當(dāng)前用戶環(huán)境參數(shù)(例如,噪聲模型),所以噪聲被從有噪信號(hào)移除或至少被降低,而沒有影響增強(qiáng)型信號(hào)的主觀質(zhì)量。
逆變換組件328在由與計(jì)算設(shè)備302相關(guān)聯(lián)的處理器304執(zhí)行時(shí)使得處理器304對(duì)降噪組件326所輸出的增強(qiáng)型信號(hào)進(jìn)行逆變換(例如,使用逆快速傅立葉變換)以按波形而非在變換域中輸出增強(qiáng)型信號(hào)。在一些示例中,經(jīng)逆變換的增強(qiáng)型信號(hào)由計(jì)算設(shè)備302的用戶消費(fèi)。作為補(bǔ)充或替換,反饋組件330在由與計(jì)算設(shè)備302相關(guān)聯(lián)的處理器304執(zhí)行時(shí)使得處理器304反饋由逆變換組件328逆變換的增強(qiáng)型信號(hào)以調(diào)整、更新、修訂、或以其他方式改變所標(biāo)識(shí)的當(dāng)前用戶環(huán)境的分類數(shù)據(jù)310。分類數(shù)據(jù)310的調(diào)整造成改進(jìn)分類數(shù)據(jù)310,使得對(duì)用戶環(huán)境的后續(xù)標(biāo)識(shí)(例如,后續(xù)時(shí)間的當(dāng)前用戶環(huán)境)被改進(jìn)。在一些示例中,所標(biāo)識(shí)的當(dāng)前用戶環(huán)境的閾值和參數(shù)通過反饋經(jīng)逆變換的增強(qiáng)型信號(hào)而被更新(或存儲(chǔ)在存儲(chǔ)器區(qū)域308中)。該系統(tǒng)因而實(shí)現(xiàn)學(xué)習(xí)每一用戶環(huán)境的確切參數(shù)的學(xué)習(xí)環(huán)境。
在一些示例中,該系統(tǒng)使用機(jī)器學(xué)習(xí)算法來(lái)表征用戶環(huán)境??珙A(yù)定義大范圍樣本的已知良好的語(yǔ)音信號(hào)(例如,已知包含具有最小噪聲的語(yǔ)音的信號(hào))被施加到一個(gè)或多個(gè)用戶環(huán)境(例如,有噪環(huán)境)。在應(yīng)用已知良好的語(yǔ)音信號(hào)后,本公開的各方面應(yīng)用機(jī)器學(xué)習(xí)算法來(lái)在表征用戶環(huán)境時(shí)改進(jìn)分類數(shù)據(jù)310的質(zhì)量。通過更好地分類用戶環(huán)境,(例如,從經(jīng)變換的有噪信號(hào)確定的)特征向量與準(zhǔn)確地分類的分類數(shù)據(jù)310的比較更準(zhǔn)確地標(biāo)識(shí)當(dāng)前用戶環(huán)境。由此,噪聲水平、語(yǔ)音水平、以及語(yǔ)音存在概率的估計(jì)也更準(zhǔn)確,從而得到更好的降噪。本公開的各方面能與任何形式的機(jī)器學(xué)習(xí)算法一起操作,諸如生成性模型(例如,隱馬爾科夫模型、樸素貝葉斯,等等)、區(qū)別性模型(例如,線性區(qū)別分析、助推、支持向量機(jī),等等)、和/或任何其他類型的機(jī)器學(xué)習(xí)算法。
在一些示例中,標(biāo)識(shí)組件322對(duì)當(dāng)前用戶環(huán)境的標(biāo)識(shí)進(jìn)一步考慮來(lái)自陀螺儀的數(shù)據(jù)、來(lái)自后端語(yǔ)音識(shí)別的數(shù)據(jù)、和/或講話者語(yǔ)音特性。例如,來(lái)自接收到的有噪信號(hào)的當(dāng)前用戶環(huán)境的講話者標(biāo)識(shí)或講話者相關(guān)標(biāo)識(shí)改進(jìn)增強(qiáng)型信號(hào)的質(zhì)量。
在一些示例中,存儲(chǔ)器區(qū)域308進(jìn)一步包括通信接口組件。通信接口組件包括網(wǎng)絡(luò)接口卡和/或用于操作網(wǎng)絡(luò)接口卡的計(jì)算機(jī)可執(zhí)行指令(例如驅(qū)動(dòng)程序)。計(jì)算設(shè)備302和其它設(shè)備之間的通信可使用任何協(xié)議或機(jī)制在任何有線或無(wú)線連接上發(fā)生。在一些示例中,通信接口可用于近場(chǎng)通信(NFC)標(biāo)簽。
在一些示例中,存儲(chǔ)器區(qū)域308進(jìn)一步包括用戶接口306或其他用戶接口組件。用戶接口組件進(jìn)一步包括用于將數(shù)據(jù)顯示給用戶以及從用戶接收數(shù)據(jù)的顯卡。用戶接口組件還可包括用于操作顯卡的計(jì)算機(jī)可執(zhí)行指令(例如驅(qū)動(dòng)程序)。此外,用戶接口組件可包括顯示器(例如,觸摸屏顯示器或自然用戶界面)和/或用于操作該顯示器的計(jì)算機(jī)可執(zhí)行指令(例如驅(qū)動(dòng)程序)。用戶接口組件還可包括以下各項(xiàng)中的一個(gè)或多個(gè)來(lái)將數(shù)據(jù)提供給用戶或從用戶接收數(shù)據(jù):揚(yáng)聲器、聲卡、相機(jī)、話筒、振動(dòng)電機(jī)、一個(gè)或多個(gè)加速度計(jì)、藍(lán)牙通信模塊、全球定位系統(tǒng)(GPS)硬件、和/或感光光傳感器。例如,用戶可通過按特定方式移動(dòng)計(jì)算設(shè)備302來(lái)輸入命令或操縱數(shù)據(jù)。
接著參考圖4A,示例性流程圖解說了計(jì)算設(shè)備302的用于訓(xùn)練樣本分類器以將所收集的噪聲樣本分類到各噪聲模型的操作。在402,收集噪聲樣本和原始和/或清晰語(yǔ)音樣本。所收集的噪聲樣本表示至少預(yù)定義數(shù)目的用戶環(huán)境。這些預(yù)定義數(shù)目的用戶環(huán)境在例如從已知用戶環(huán)境中區(qū)分出新用戶環(huán)境時(shí)被更新。在404,計(jì)算所有所收集的樣本的特征向量。在406,分類技術(shù)(例如,MFCC及其一階和二階導(dǎo)數(shù))被選擇并且樣本分類器被訓(xùn)練以將所收集的噪聲樣本分類到各噪聲模型。每一噪聲模型表示最可能存在于特定用戶環(huán)境中的噪聲類型。噪聲模型是通過使用訓(xùn)練數(shù)據(jù)訓(xùn)練樣本分類器以標(biāo)識(shí)實(shí)時(shí)有噪信號(hào)的當(dāng)前用戶環(huán)境來(lái)分類的。
接著參考圖4B,示例性流程圖解說了計(jì)算設(shè)備302的用于訓(xùn)練樣本分類器以將所收集的噪聲樣本分類到各噪聲模型的操作。在402,收集噪聲樣本和原始和/或清晰語(yǔ)音樣本。所收集的噪聲樣本表示至少預(yù)定義數(shù)目的用戶環(huán)境。這些預(yù)定義數(shù)目的用戶環(huán)境在例如從已知用戶環(huán)境中區(qū)分出新用戶環(huán)境時(shí)被更新。在404,計(jì)算所有所收集的樣本的特征向量。在408,選擇稀疏或緊湊噪聲表示的字典(例如,從變換的字典中選擇,諸如傅立葉變換、小波變換、Gabor變換,等等)。在406,分類技術(shù)(例如,MFCC及其一階和二階導(dǎo)數(shù))被選擇并且樣本分類器被訓(xùn)練以將所收集的噪聲樣本分類到各噪聲模型。每一噪聲模型表示最可能存在于特定用戶環(huán)境中的噪聲類型。噪聲模型是通過使用訓(xùn)練數(shù)據(jù)訓(xùn)練樣本分類器以標(biāo)識(shí)實(shí)時(shí)有噪信號(hào)的當(dāng)前用戶環(huán)境來(lái)分類的。
接著參考圖5,示例性流程圖解說了計(jì)算設(shè)備302通過考慮當(dāng)前用戶環(huán)境來(lái)減小有噪信號(hào)的噪聲分量的操作。在502,變換計(jì)算設(shè)備302接收到的有噪信號(hào)(例如,使用快速傅立葉變換或其他已知技術(shù)來(lái)變換到頻域)。在504,確定接收到的有噪信號(hào)的特征向量(例如,通過計(jì)算MFCC)。在506,訪問與多個(gè)用戶環(huán)境相對(duì)應(yīng)的分類數(shù)據(jù)310。用戶環(huán)境中的每一者的分類數(shù)據(jù)310包括與其相關(guān)聯(lián)的噪聲模型。在508,將在504確定的特征向量與在506訪問的分類數(shù)據(jù)310相比較。如果在508確定特征向量不匹配分類數(shù)據(jù)310達(dá)至少預(yù)定義閾值水平(例如,80%以上,或其他閾值或置信度水平),則有噪信號(hào)與關(guān)聯(lián)于新噪聲模型的新用戶環(huán)境(例如,尚未被包括在分類數(shù)據(jù)310中)相關(guān)聯(lián)。在這樣的場(chǎng)景中,更新分類數(shù)據(jù)310以幫助正確地標(biāo)識(shí)當(dāng)前用戶環(huán)境以用于將來(lái)類似有噪信號(hào)樣本。
然而,如果在508,計(jì)算設(shè)備302確定特征信息匹配分類數(shù)據(jù)310的一部分達(dá)至少預(yù)定義閾值水平,則為有噪信號(hào)從分類數(shù)據(jù)310標(biāo)識(shí)了當(dāng)前用戶環(huán)境。該比較是在概率意義上執(zhí)行的,在于其特征(例如,在某一時(shí)間段期間一貫地)更接近地匹配傳入數(shù)據(jù)的環(huán)境被聲明為表示用戶環(huán)境的最佳候選或最佳匹配。
在512,基于與在510標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型來(lái)估計(jì)經(jīng)變換噪聲信號(hào)的噪聲水平、語(yǔ)音水平以及SPP。在514,基于所估計(jì)的噪聲水平、語(yǔ)音水平以及與所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的SSP和噪聲模型來(lái)減少來(lái)自有噪信號(hào)的噪聲信號(hào),以輸出增強(qiáng)型信號(hào)。增強(qiáng)型信號(hào)可包括在514處的減少之后更少量的噪聲信號(hào)。所輸出的增強(qiáng)型信號(hào)可被逆變換到波形并且被回送以調(diào)整所標(biāo)識(shí)的當(dāng)前用戶環(huán)境的分類數(shù)據(jù)310。
在一些示例中,當(dāng)前用戶環(huán)境的標(biāo)識(shí)是在所標(biāo)識(shí)的當(dāng)前用戶環(huán)境被確定為在預(yù)定義時(shí)段期間最頻繁標(biāo)識(shí)的當(dāng)前用戶環(huán)境或者所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相同達(dá)有噪信號(hào)的至少預(yù)定數(shù)目的幀時(shí)確認(rèn)的。這消除了當(dāng)前用戶環(huán)境的因噪聲和/或語(yǔ)音活動(dòng)的快速變化而造成的偶然假肯定。在一些示例中,標(biāo)識(shí)當(dāng)前用戶環(huán)境的過程在預(yù)定時(shí)間段(例如,40毫秒)之后使用經(jīng)更新的有噪信號(hào)(例如,從有噪信號(hào)另外接收的數(shù)據(jù)幀)重復(fù)。
在一些示例中,存儲(chǔ)器區(qū)域308還存儲(chǔ)每一用戶環(huán)境的SNR直方圖。在這樣的示例中,計(jì)算接收到的有噪信號(hào)的SNR直方圖。SNR直方圖反映該信號(hào)對(duì)應(yīng)于各噪聲類型(例如,酒館、咖啡館,等等)的概率(例如,從0到1)。計(jì)算得到的SNR直方圖與多個(gè)用戶環(huán)境的SNR直方圖(例如存儲(chǔ)在存儲(chǔ)器區(qū)域308中)相比較?;谠摫容^,標(biāo)識(shí)當(dāng)前用戶環(huán)境。在一些示例中,為所有頻帶計(jì)算SNR直方圖。在一些其他示例中,只為最大SNR和/或平均SNR計(jì)算SNR直方圖。來(lái)自計(jì)算得到的SNR直方圖的信息可被用來(lái)修訂/更新所標(biāo)識(shí)的用戶環(huán)境的SPP。接收到的SPP允許對(duì)噪聲水平的更準(zhǔn)確估計(jì)。在一些示例中,為所標(biāo)識(shí)的用戶環(huán)境導(dǎo)出第二話音活動(dòng)檢測(cè)值。例如,可在辦公環(huán)境中的對(duì)話中標(biāo)識(shí)另一講話者的可能在場(chǎng)(例如,同事的話音)。第二話音活動(dòng)檢測(cè)值可另外地用于估計(jì)噪聲水平(例如,在圖5中的操作512)。
在一些示例中,心理聲學(xué)加權(quán)被應(yīng)用于所估計(jì)的噪聲水平以確定每頻帶抑制水平。心理聲學(xué)加權(quán)減小了降噪對(duì)信號(hào)自然性和清晰度的任何不利效果。所確定的抑制水平(例如,使用已知噪聲抑制技術(shù))被應(yīng)用于增強(qiáng)型信號(hào)。增強(qiáng)型信號(hào)被轉(zhuǎn)換到時(shí)域以供諸如揚(yáng)聲器106等設(shè)備消費(fèi)。
其他示例
在一些示例中,在對(duì)話開始時(shí),有噪信號(hào)被假定只包括噪聲信號(hào)達(dá)處理器開始標(biāo)識(shí)當(dāng)前用戶環(huán)境以來(lái)的預(yù)定義時(shí)間段,。例如,在移動(dòng)設(shè)備對(duì)話的情況下,移動(dòng)設(shè)備的話筒102可在對(duì)話開始時(shí)(例如,在呼叫接收者說“hello”之前)開始接收噪聲信號(hào)。對(duì)于這一初始時(shí)間段,有噪信號(hào)被假定只包括噪聲信號(hào),而沒有任何語(yǔ)音信號(hào)(例如,沒有所需音頻信號(hào))。
在一些示例中,本公開的各方面初始計(jì)算噪聲水平和語(yǔ)音水平的粗略估計(jì)。給定知曉用戶環(huán)境(例如,作為環(huán)境分類器214的輸出的所標(biāo)識(shí)的當(dāng)前用戶環(huán)境及其相關(guān)聯(lián)的噪聲模型),選擇與環(huán)境分類器214已標(biāo)識(shí)或檢測(cè)到的用戶環(huán)境的背景噪聲相對(duì)應(yīng)的閾值和參數(shù)集。使用這些閾值和參數(shù),以更可靠的方式計(jì)算SPP。隨后,本公開的各方面重估噪聲水平、語(yǔ)音水平以及SPP(這一次可靠且穩(wěn)健)。
本公開的各方面可與任何形式的噪聲模型一起操作。一些示例性噪聲模型如下描述:
1)基于MFCC:
a)數(shù)據(jù)結(jié)構(gòu)
i.MFCC的均值
ii.MFCC的變化速度(例如,來(lái)自連貫窗的兩個(gè)MFCC集合之間的增量)
iii.加速度:來(lái)自連貫幀的兩個(gè)MFCC集合的速度(ii)之間的增量
2)基于臨界帶中的能量:
a)數(shù)據(jù)結(jié)構(gòu)
i.臨界帶能量的均值
ii.臨界帶能量的變化速度(例如,來(lái)自連貫窗的兩個(gè)臨界帶能量集合之間的增量)
iii.加速度:來(lái)自連貫幀的兩個(gè)臨界帶能量集合的速度(ii)之間的增量
3)基于離散余弦變換(DCT)系數(shù):
a)在對(duì)噪聲開窗之后,計(jì)算相關(guān)矩陣
b)應(yīng)用DCT變換并保持所有系數(shù)或系數(shù)子集
c)對(duì)于噪聲的所有窗對(duì)于所有噪聲計(jì)算以上各項(xiàng)
d)對(duì)于每一噪聲類型:
i.測(cè)量均值
ii.測(cè)量方差
iii.測(cè)量變化速率或速度(語(yǔ)音)
iv.測(cè)量加速度(速度的速率)
e)噪聲模型(對(duì)于每一噪聲類型):
i.DCT系數(shù)的均值以及它們的方差
ii.均值和方差的變化速度
iii.均值和方差的加速度
4)基于γ調(diào)(Gamma tone)濾波器:
a)在對(duì)噪聲開窗之后,計(jì)算相關(guān)矩陣
b)根據(jù)γ調(diào)濾波器(γ調(diào)濾波器是內(nèi)耳聲音分解的緊密逼近)來(lái)分解信號(hào)
c)保持最主導(dǎo)γ調(diào)濾波器的統(tǒng)計(jì)信息以及它們對(duì)跨與手頭上的噪聲/環(huán)境相對(duì)應(yīng)的所有窗的手頭上的噪聲的貢獻(xiàn)。
d)噪聲模型(對(duì)于每一噪聲類型):
i.DCT系數(shù)的均值以及它們的方差
ii.均值和方差的變化速度
iii.均值和方差的加速度
噪聲模型的特定示例被包括在附錄A中。例如,描述了基于第二階高斯混合模型的MFCC噪聲模型。然而,本公開的各方面可與任何形式的噪聲模型一起操作。
在一示例場(chǎng)景中,計(jì)算所確定的特征向量的均值和方差并將計(jì)算得到的均值和方差與分類數(shù)據(jù)310相比較以標(biāo)識(shí)當(dāng)前用戶環(huán)境的噪聲模型。在這樣的場(chǎng)景中,可存在與一個(gè)用戶環(huán)境相關(guān)聯(lián)的多個(gè)噪聲模型。
作為本文所述的其他示例的替代或補(bǔ)充,一些示例包括以下的任何組合:
-在確定所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相同達(dá)有噪信號(hào)的至少預(yù)定義數(shù)目的幀時(shí)和/或通過在預(yù)定義時(shí)間段期間標(biāo)識(shí)最頻繁標(biāo)識(shí)的當(dāng)前用戶環(huán)境,確認(rèn)所標(biāo)識(shí)的當(dāng)前用戶環(huán)境
-其中在開始標(biāo)識(shí)當(dāng)前用戶環(huán)境之際,有噪信號(hào)只包括噪聲信號(hào)達(dá)預(yù)定義時(shí)間段
其中存儲(chǔ)器區(qū)域308進(jìn)一步存儲(chǔ)多個(gè)用戶環(huán)境中的每一者的SNR直方圖,并且處理器304被編程為通過以下操作來(lái)標(biāo)識(shí)當(dāng)前用戶環(huán)境:
計(jì)算接收到的有噪信號(hào)的SNR直方圖;
將計(jì)算得到的SNR直方圖與多個(gè)用戶環(huán)境的SNR直方圖相比較;以及
基于該比較來(lái)標(biāo)識(shí)當(dāng)前用戶環(huán)境
-其中處理器304被進(jìn)一步編程為在預(yù)定義時(shí)段之后基于經(jīng)更新的有噪信號(hào)來(lái)重復(fù)當(dāng)前用戶環(huán)境的標(biāo)識(shí)
-其中與所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型是從包括汽車、酒館、咖啡館、粉紅噪聲、或清晰語(yǔ)音的組中選擇的
-其中處理器304被進(jìn)一步編程為:
計(jì)算所確定的特征向量的均值和方差;以及
將計(jì)算得到的均值和方差與分類數(shù)據(jù)310相比較以標(biāo)識(shí)當(dāng)前用戶環(huán)境的噪聲模型。
-其中處理器被進(jìn)一步編程為:
對(duì)所輸出的增強(qiáng)型語(yǔ)音信號(hào)進(jìn)行逆變換;以及
基于經(jīng)逆變換的增強(qiáng)型語(yǔ)音信號(hào)來(lái)修訂所標(biāo)識(shí)的當(dāng)前用戶環(huán)境的分類數(shù)據(jù)310
-其中處理器304被進(jìn)一步編程為通過考慮從包括來(lái)自陀螺儀的數(shù)據(jù)、來(lái)自后端語(yǔ)音識(shí)別的數(shù)據(jù)、或講話者語(yǔ)音特性的組中選擇的數(shù)據(jù)來(lái)標(biāo)識(shí)當(dāng)前用戶環(huán)境。
-其中處理器304被編程為在頻域中創(chuàng)建對(duì)接收到的有噪信號(hào)的變換,并且其中處理器被編程為通過計(jì)算MFCC來(lái)確定接收到的有噪信號(hào)的特征向量。
附圖中所示的各種元素的至少一部分功能可由附圖中的其他元素或附圖中未示出的實(shí)體(例如,處理器、web服務(wù)、服務(wù)器、應(yīng)用程序、計(jì)算設(shè)備等)執(zhí)行。
在一些示例中,圖4A、4B和5中所示的操作可以以在計(jì)算機(jī)可讀介質(zhì)上編碼的軟件指令、以被編程或設(shè)計(jì)為執(zhí)行操作的硬件或這兩者來(lái)實(shí)現(xiàn)。例如,本公開的各方面可以被實(shí)現(xiàn)為片上系統(tǒng)或包括多個(gè)互連的導(dǎo)電元件的其它電路。
已經(jīng)參考所監(jiān)視的和/或從用戶收集的數(shù)據(jù)來(lái)描述了各示例。在一些示例中,可向用戶提供有關(guān)數(shù)據(jù)收集的通知(例如,經(jīng)由對(duì)話框或偏好設(shè)置),并且給予用戶對(duì)監(jiān)視和/或收集給予同意或拒絕同意的機(jī)會(huì)。該同意可以采用選擇加入同意或選擇退出同意的形式。
盡管已經(jīng)按照各種示例以及它們相關(guān)聯(lián)的操作描述了本公開的各方面,但是本領(lǐng)域技術(shù)人員將理解來(lái)自任何數(shù)量的不同示例的操作的組合也在本公開的各方面內(nèi)。
示例性操作環(huán)境
示例性計(jì)算機(jī)可讀介質(zhì)包括閃存驅(qū)動(dòng)器、數(shù)字多功能盤(DVD)、緊致盤(CD)、軟盤以及磁帶盒。作為示例而非限制,計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以用于存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性與非易失性、可移動(dòng)與不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)以硬件實(shí)現(xiàn),并排除載波和傳播信號(hào)。用于本公開的目的的計(jì)算機(jī)存儲(chǔ)介質(zhì)不是信號(hào)本身。示例性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括硬盤、閃存驅(qū)動(dòng)器和其它固態(tài)存儲(chǔ)器。作為對(duì)比,通信介質(zhì)通常在諸如載波或其他傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號(hào)中體現(xiàn)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù),并包括任何信息傳遞介質(zhì)。
盡管結(jié)合一示例性計(jì)算系統(tǒng)環(huán)境進(jìn)行了描述,但本公開的各示例能夠用眾多其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境、配置或設(shè)備實(shí)現(xiàn)。
適用于本發(fā)明的各方面的公知的計(jì)算系統(tǒng)、環(huán)境和/或配置的示例包括,但不限于:移動(dòng)計(jì)算設(shè)備、個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上型設(shè)備、多處理器系統(tǒng)、游戲控制臺(tái)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、移動(dòng)電話、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括上面的系統(tǒng)或設(shè)備中的任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。這樣的系統(tǒng)或設(shè)備可以以任何方式來(lái)接受來(lái)自用戶的輸入,包括來(lái)自諸如鍵盤或指點(diǎn)設(shè)備之類的輸入設(shè)備、通過姿勢(shì)輸入和/或通過語(yǔ)音輸入。
可以在由一臺(tái)或多臺(tái)計(jì)算機(jī)或其他設(shè)備執(zhí)行的諸如程序模塊之類的計(jì)算機(jī)可執(zhí)行指令的一般上下文中來(lái)描述本發(fā)明的各示例。計(jì)算機(jī)可執(zhí)行指令可以被組織成一個(gè)或多個(gè)計(jì)算機(jī)可執(zhí)行的組件或模塊。一般而言,程序模塊包括但不限于,執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件,以及數(shù)據(jù)結(jié)構(gòu)??梢岳萌魏螖?shù)量的這樣的組件或模塊以及它們的任何組織來(lái)實(shí)現(xiàn)本發(fā)明的各方面。例如,本發(fā)明的各方面不限于附圖中所舉例說明并且在此處所描述的特定計(jì)算機(jī)可執(zhí)行指令或特定組件或模塊。本發(fā)明的其他示例可以包括具有比此處所示出和描述的功能更多或更少功能的不同的計(jì)算機(jī)可執(zhí)行指令或組件。
本發(fā)明的各方面在通用計(jì)算機(jī)被配置成執(zhí)行此處所描述的指令時(shí)將通用計(jì)算機(jī)變換為專用計(jì)算設(shè)備(諸如計(jì)算設(shè)備302)。
本文所解說并描述的各示例以及沒有在此專門描述但在本發(fā)明的各方面的范圍之內(nèi)的各示例構(gòu)成了用于單信道聲學(xué)降噪的示例性方式。例如,圖2和/或圖3中所示的元素(諸如在被編碼以執(zhí)行圖4A、4B和/或圖5中所示的操作時(shí))構(gòu)成:
用于變換由計(jì)算設(shè)備接收到的有噪信號(hào)的示例性裝置;
用于確定接收到的有噪信號(hào)的特征向量的示例性裝置;
用于訪問與多個(gè)用戶環(huán)境相對(duì)應(yīng)的分類數(shù)據(jù)的示例性裝置;
用于將所確定的特征向量與所訪問的分類數(shù)據(jù)進(jìn)行比較以標(biāo)識(shí)當(dāng)前用戶環(huán)境的示例性裝置;
用于基于與所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型和SPP來(lái)估計(jì)來(lái)自經(jīng)變換有噪信號(hào)的噪聲水平的示例性裝置;以及
用于基于所估計(jì)的噪聲水平以及與所標(biāo)識(shí)的當(dāng)前用戶環(huán)境相關(guān)聯(lián)的噪聲模型和SPP來(lái)降低來(lái)自經(jīng)變換有噪信號(hào)的噪聲水平以輸出增強(qiáng)型信號(hào)的示例性裝置。
此處所舉例說明和描述的本發(fā)明的各示例中的操作的執(zhí)行或完成的順序不是必需的,除非另作指定。即,除非另作指定,操作可以以任何順序執(zhí)行,本發(fā)明的各示例可以包括額外的或比此處所公開的操作更少的操作。例如,考慮了在某一個(gè)操作之前、同時(shí)、或之后執(zhí)行或完成另一個(gè)操作也在本發(fā)明的各方面的范圍之內(nèi)。
當(dāng)介紹本發(fā)明的各方面的元素或其示例時(shí),冠詞“一”、“一個(gè)”、“該”、“所述”旨在表示有元素中的一個(gè)或多個(gè)。術(shù)語(yǔ)“包括”、“包含”、以及“具有”旨在是包含性的,并表示除所列出的元素以外可以有額外的元素。術(shù)語(yǔ)“示例性”旨在表示“……的一示例”。短語(yǔ)“下述的一個(gè)或多個(gè):A、B和C”是指“至少一個(gè)A和/或至少一個(gè)B和/或至少一個(gè)C”。
已經(jīng)詳細(xì)地描述了本發(fā)明的各方面,顯然,在不偏離所附權(quán)利要求書所定義的本發(fā)明的各方面的范圍的情況下,各種修改和變型是可能的。在不偏離本發(fā)明的各方面的范圍的情況下,可以在上面的構(gòu)造、產(chǎn)品以及方法中作出各種更改,意圖是上面的描述中所包含的以及各附圖中所示出的所有主題都應(yīng)該解釋為說明性的,而不是限制性的。
附錄A
下文描述了基于第二階高斯混合模型(GMM)的示例性MFCC噪聲模型。本公開的各方面可與其他噪聲模型一起操作,諸如基于DCT或γ調(diào)的那些模型。
接下來(lái)描述的特定噪聲模型是針對(duì)酒館噪聲的,且包括兩個(gè)分量。在這一示例中,MFCC可被直接使用,或者bark譜能量也可被使用,因?yàn)榇嬖贛FCC與bark譜能量之間的一對(duì)一映射。Bark譜能量得自bark帶能量的譜建模。在這一示例中,以下示出的值來(lái)自具有大小為20的向量的Barks譜能量。一階導(dǎo)數(shù)已被包括,所以一行中存在40。
在這一示例中,該混合的各分量的最大量被設(shè)置成2,但設(shè)想了分量的其他量。給定示例性少量數(shù)據(jù),每一GMM的權(quán)重具有對(duì)于GMM的第一分量的均值0.3931以及對(duì)于GMM的第二分量的均值0.6069。形成這些均值的示例性值在下表A1中列出。
表A1.用于計(jì)算GMM的均值的示例性值
形成方差的示例性值在下表A2中列出。第一列示出混合的第一分量且第二列示出混合的第二分量。
表A2.用于計(jì)算GMM的方差的示例性值
上表A1和A2中示出的值提供了在使用bark譜能量時(shí)用于酒館噪聲環(huán)境的值。在其他示例中,GMM可包括附加導(dǎo)數(shù)。例如,如果考慮二階導(dǎo)數(shù),則所有向量將具有60個(gè)元素。