本發(fā)明屬于電器制造技術(shù)領(lǐng)域,尤其涉及語音識別的環(huán)境自適應(yīng)方法,以及語音識別裝置和包括該語音識別裝置的家用電器。
背景技術(shù):
隨著集成電路、人工智能、互聯(lián)網(wǎng)技術(shù)的發(fā)展,傳統(tǒng)的白家電業(yè)出現(xiàn)了新的定位,家電不僅僅具有傳統(tǒng)的功能,也成為家庭智慧網(wǎng)絡(luò)的一部分,可為家庭成員提供更多的智能化服務(wù)。但是,傳統(tǒng)家電的控制方式已經(jīng)不能滿足更便捷的人機交互的需求,語音控制的應(yīng)用成為一種未來的發(fā)展趨勢。
目前,在實驗室環(huán)境中,語音識別的識別率已經(jīng)達(dá)到相當(dāng)高的程度,但是,由于家電工作環(huán)境的復(fù)雜程度較高,環(huán)境噪聲較大,所以識別率存在問題。如果將傳統(tǒng)的語音識別算法直接應(yīng)用于家電系統(tǒng)會收到環(huán)境噪音的影響,目前沒有語音交互系統(tǒng)針對家電的工作環(huán)境給出特定優(yōu)化的方案。因而,提升在類似使用環(huán)境下的語音識別系統(tǒng)的魯棒性是其能夠應(yīng)用的關(guān)鍵。
技術(shù)實現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明需要提出一種語音識別的環(huán)境自適應(yīng)方法,該環(huán)境自適應(yīng)方法,可以降低環(huán)境噪聲對語音識別的影響,提升語音識別的魯棒性。
本發(fā)明還提出一種語音識別裝置和包括該語音識別裝置的家用電器。
為了解決上述問題,本發(fā)明一方面提出的語音識別的環(huán)境自適應(yīng)方法,包括以下步驟:獲取當(dāng)前環(huán)境下的語音信息;提取所述語音信息的語音特征,并對所述語音特征進行環(huán)境自適應(yīng)處理;根據(jù)聲學(xué)模型和語言模型獲得對應(yīng)所述語音特征的最大概率的詞序列。
本發(fā)明實施例的語音識別的環(huán)境自適應(yīng)方法,通過在特征域的環(huán)境自適應(yīng)處理,可以在特征提取過程中去除環(huán)境噪聲,降低實際應(yīng)用環(huán)境下背景噪音對語音識別的影響,可以提升在實際應(yīng)用環(huán)境下語音識別的魯棒性。
在本發(fā)明的一些實施例中,所述根據(jù)聲學(xué)模型和語言模型獲得對應(yīng)所述語音特征的最大概率的詞序列,進一步包括:根據(jù)所述聲學(xué)模型計算所述語音特征的聲學(xué)概率,根據(jù)所述語言模型計算所述語音特征的語言概率;以及根據(jù)所述聲學(xué)概率和所述語言概率進行搜索以獲得對應(yīng)所述語音特征的最大概率的詞序列。
具體地,通過以下方法中的至少一種來對所述語音特征進行環(huán)境自適應(yīng)處理:特征映射方法;聲道長度歸一化方法;倒譜均值歸一化方法。
在本發(fā)明的一些實施例中,該環(huán)境自適應(yīng)方法還包括:在所述聲學(xué)模型的模型訓(xùn)練時,基于訓(xùn)練語音和環(huán)境語音進行模型域的環(huán)境自適應(yīng)處理。模型域的環(huán)境自適應(yīng)處理,可以在模型訓(xùn)練時減小環(huán)境噪聲對語音識別的影響。
具體地,進行模型域的環(huán)境自適應(yīng)處理,進一步包括:對于GMM-HMM(Gaussian Mixture Model-Hidden Markov Model,高斯混合模型-隱馬爾科夫)模型,采用最大后驗概率的方法或者基于變換的方法進行環(huán)境自適應(yīng)處理;
對于DNN-HMM(Deep Neural Networks-Hidden Markov Model,深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型)模型,基于所述訓(xùn)練語音擬合DNN的網(wǎng)絡(luò)權(quán)重,或者在DNN結(jié)構(gòu)中增加變換層,或者采用基于ivector的方法進行環(huán)境自適應(yīng)處理,或者采用基于編碼的方法進行環(huán)境自適應(yīng)處理。
具體地,所述訓(xùn)練語音通過以下方式中的一種進行采集:在實際環(huán)境中分別錄制所述訓(xùn)練語音和所述環(huán)境語音;或者,在所述實際環(huán)境中錄制所述環(huán)境語音,在實驗室里錄制純凈語音,并將所述環(huán)境語音與所述純凈語音進行疊加以獲得所述訓(xùn)練語音。從而可以獲得包含特定環(huán)境噪音的訓(xùn)練語言。
為了解決上述問題,本發(fā)明另一方面提出的語音識別裝置,包括:獲取模塊,用于獲取當(dāng)前環(huán)境下的語音信息;提取模塊,用于提取所述語音信息的語音特征;自適應(yīng)模塊,用于對所述語音特征進行環(huán)境自適應(yīng)處理;模型模塊,用于提供聲學(xué)模型和語言模型;和識別模塊,根據(jù)所述聲學(xué)模型和所述語言模型獲得對應(yīng)所述語音特征的最大概率的詞序列。
本發(fā)明實施例的語音識別裝置,通過自適應(yīng)模塊在特征域的環(huán)境自適應(yīng)處理,可以在特征提取過程中去除環(huán)境噪聲,降低實際應(yīng)用環(huán)境下背景噪音對語音識別的影響,可以提升在實際應(yīng)用環(huán)境下語音識別的魯棒性。
在本發(fā)明的一些實施例中,所述識別模塊進一步用于,根據(jù)所述聲學(xué)模型計算所述語音特征的聲學(xué)概率,根據(jù)所述語言模型計算所述語音特征的語言概率,根據(jù)所述聲學(xué)概率和所述語言概率進行搜索以獲得對應(yīng)所述語音特征的最大概率的詞序列。
具體地,所述自適應(yīng)模塊,通過以下方法中的至少一種來對所述語音特征進行環(huán)境自適應(yīng)處理:特征映射方法;聲道長度歸一化方法;倒譜均值歸一化方法。
在本發(fā)明的一些實施例中,所述自適應(yīng)模塊還用于,在所述聲學(xué)模型的模型訓(xùn)練時,基于訓(xùn)練語音和環(huán)境語音進行模型域的環(huán)境自適應(yīng)處理。模型域的環(huán)境自適應(yīng)處理,可以在模型訓(xùn)練時減小背景噪音對語音識別的影響。
具體地,所述自適應(yīng)模塊進一步用于,對于GMM-HMM模型,采用最大后驗概率的方法或者基于變換的方法進行環(huán)境自適應(yīng)處理,或者,對于DNN-HMM模型,基于所述訓(xùn)練語音擬合DNN的網(wǎng)絡(luò)權(quán)重,或者在DNN結(jié)構(gòu)中增加變換層,或者采用基于ivector的方法進行環(huán)境自適應(yīng)處理,或者采用基于編碼的方法進行環(huán)境自適應(yīng)處理。
在本發(fā)明的一些實施例中,該語音識別裝置還包括:采集模塊,用于通過以下方式中的一種采集所述訓(xùn)練語言:在實際環(huán)境中分別錄制所述訓(xùn)練語音和所述環(huán)境語音,或者,在所述實際環(huán)境中錄制所述環(huán)境語音,在實驗室里錄制純凈語音,并將所述環(huán)境語音與所述純凈語音進行疊加以獲得所述訓(xùn)練語音,從而可以獲得包括特定環(huán)境下噪音的訓(xùn)練語音。
基于上述發(fā)明的語音識別裝置,本發(fā)明再一方面的家用電器,包括:本體;和上述的語音識別裝置。
該家用電器,通過采用上述的語音識別裝置,可以降低背景噪聲對語音識別的影響,提升工作環(huán)境下語音識別的魯棒性。
附圖說明
圖1是根據(jù)本發(fā)明的一個實施例的語音識別的基本框架的示意圖;
圖2是根據(jù)本發(fā)明的GMM-HMM模型的結(jié)構(gòu)示意圖;
圖3是根據(jù)本發(fā)明的DNN-HMM模型的結(jié)構(gòu)示意圖;
圖4是根據(jù)本發(fā)明實施例的語音識別的環(huán)境自適應(yīng)方法的流程圖;
圖5是根據(jù)本發(fā)明的一個具體實施例的DNN網(wǎng)絡(luò)的示意圖;
圖6是根據(jù)本發(fā)明實施例的語音識別裝置的框圖;
圖7是根據(jù)本發(fā)明的一個實施例的語音識別裝置的框圖;以及
圖8是根據(jù)本發(fā)明實施例的家用電器的框圖。
具體實施方式
下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
語音識別作為人類常用的交互方式,一直以來也是人機交互重要的研究方向。語音識別系統(tǒng)也從最初的自動語音識別系統(tǒng)(Automatic Speech Recognition,ASR)發(fā)展為大詞匯量連續(xù)語音識別(large vocabulary continuous speech Recognition,LVCSR)。
首先,對語音識別的基本框架進行介紹。如圖1所示,基于聲學(xué)模型、語言模型和解碼器,聲學(xué)模型通過將訓(xùn)練語音進行特征提取和進行聲學(xué)建模形成,語言模型通過將訓(xùn)練語料進行語言建模形成,輸入語音在提取特征以獲得語音特征之后,通過解碼器根據(jù)語言模型和聲學(xué)模型獲得識別結(jié)果。
其中,語音特征主要包括基于聽覺感知的MFCC(Mel Frequency Cepstrum Coefficient,Mel頻率倒譜系數(shù))參數(shù)、感知線性預(yù)測系數(shù)(Perceptual Linear Predictive,PLP)參數(shù)等。
語言模型是對語言的描述,在基于統(tǒng)計學(xué)習(xí)的語音識別框架中,較常用的是N-gram的統(tǒng)計語言模型,其基本思想是,用馬爾科夫鏈表示詞序列的生成過程,即序列中第k個詞的出現(xiàn)概率緊與之前的n-1個詞相關(guān)。通過收集語料中各個詞和相關(guān)詞組合的頻率,可以以此為基礎(chǔ)估計出語言模型的模型參數(shù)。
解碼器的作用是,結(jié)合通過聲學(xué)模型計算語音特征的聲學(xué)概率和由語言模型計算出的語言概率,通過相關(guān)搜索的方式得到最有可能的次序列。
聲學(xué)模型是對聲音特征的描述,是語音識別系統(tǒng)的核心部分。下面結(jié)合圖2和圖3對幾個聲學(xué)模型進行介紹。
在語音識別領(lǐng)域,傳統(tǒng)的聲學(xué)模型包括GMM-HMM模型,HMM模型可以用兩個狀態(tài)集合和三個轉(zhuǎn)移概率來描述。其中,兩個狀態(tài)集合包括可觀測狀態(tài)0和隱含狀態(tài)S,可觀測狀態(tài)0顧名思義為可以被觀察到的狀態(tài);隱含狀態(tài)S符合馬爾科夫性質(zhì),即t時刻的狀態(tài)只和t-1時刻相關(guān),一般情況下無法被之間觀察到。三個轉(zhuǎn)移概率包括初始狀態(tài)概率矩陣、狀態(tài)轉(zhuǎn)移矩陣和觀測狀態(tài)輸出概率,初始狀態(tài)概率矩陣表達(dá)初始狀態(tài)各隱含狀態(tài)的概率分布,狀態(tài)轉(zhuǎn)移矩陣表達(dá)了t到t+1時刻隱含狀態(tài)之間的轉(zhuǎn)移概率,觀測狀態(tài)輸出概率表達(dá)了隱含狀態(tài)為S的條件下,觀測值為0的概率。HMM模型存在三個問題,其一為評估問題,給定觀測序列和模型,求某一特定輸出的概率。對于語音識別任務(wù)來說,就是根據(jù)語音序列和模型,確認(rèn)該序列是某句話的可能性;其二為解碼問題,給定觀測序列和模型,尋找使觀測高了最大的隱含狀態(tài)序列,對于語音識別任務(wù)來說,就是根據(jù)語音序列和模型,識別出語音內(nèi)容;其三為訓(xùn)練問題,給定觀測序列,調(diào)整模型參數(shù),使產(chǎn)生該觀測序列的概率最大,對于語音識別任務(wù)來說就是根據(jù)大量的語音訓(xùn)練模型參數(shù)。
如圖2所示,為根據(jù)本發(fā)明的一個具體實施例的GMM-HMM模型的結(jié)構(gòu)示意圖,其中,語音信號分幀之后提取特征,用GMM來描述其概率分布,HMM描述隱含狀態(tài)的轉(zhuǎn)移概率及其和GMM的各個觀測值的關(guān)系。
隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,語音識別系統(tǒng)逐漸采用DNN-HMM技術(shù),如圖3所示,為根據(jù)本發(fā)明的一個具體實施例的DNN-HMM模型的結(jié)構(gòu)示意圖,其中,DNN-HMM模型將描述特征發(fā)生概率的模型從GMM替換為深度神經(jīng)網(wǎng)絡(luò)DNN,即DNN來描述特征的觀測概率分布,HMM描述隱含狀態(tài)的轉(zhuǎn)移概率及其和DNN的各個觀測樣本的關(guān)系。
針對相關(guān)技術(shù)中,語音識別由于受到環(huán)境噪聲而影響識別率的問題,本發(fā)明實施例的語音識別的環(huán)境自適應(yīng)方法,分別在特征域和模型域進行環(huán)境自適應(yīng)處理,提升在使用環(huán)境下語音識別的魯棒性。
下面參照附圖4和5描述根據(jù)本發(fā)明實施例的語音識別的環(huán)境自適應(yīng)方法。
圖4是根據(jù)本發(fā)明的一個實施例的語音識別的環(huán)境自適應(yīng)方法的流程圖,如圖4所示,該語音識別的環(huán)境自適應(yīng)方法包括以下步驟:
S1,獲取當(dāng)前環(huán)境下的語音信息。例如,獲取家電例如冰箱通常工作環(huán)境下的語音信息。
S2,提取語音信息的語音特征,并對語音特征進行環(huán)境自適應(yīng)處理。
例如,提取語音信息的MFCC參數(shù)、PLP參數(shù)等,對提取的語音特征進行環(huán)境自適應(yīng)處理,即進行特征域的環(huán)境自適應(yīng)處理,在特征域降低環(huán)境噪聲的影響,也就是在特征提取的過程中去除背景噪聲,從而可以更好地識別實際應(yīng)用環(huán)境下的語音。
在本發(fā)明的實施例中,可以通過以下方法中的至少一種來對語音特征進行環(huán)境自適應(yīng)處理:特征映射方法;聲道長度歸一化方法;倒譜均值歸一化方法,當(dāng)然也可以采用其他可以實現(xiàn)特征域的環(huán)境自適應(yīng)處理的方法,在此不一一列舉。
以最常用的倒譜均值歸一化方法為例,在沒有噪聲影響的環(huán)境下,語音的Mel倒譜系數(shù)服從高斯分布,特性是奇數(shù)階矩(均值等)的期望為0,偶數(shù)階矩(方差等)的期望為一特定常數(shù)。根據(jù)此結(jié)論,可以分別對倒譜的均值、方差進行歸一化操作。具體操作如下:
XCMN(n)=X(n)-E[X(n)]
其中,XCMN(n)表示奇數(shù)階矩倒譜矢量,X(n)是特征參數(shù)(倒譜)矢量,n代表n維,XCVN(n)表示偶數(shù)階矩倒譜矢量,E表示數(shù)學(xué)期望,σ表示標(biāo)準(zhǔn)差。
此外,三四階矩也可以類似進行歸一化操作,使得其分布符合標(biāo)準(zhǔn)高斯分布,消除環(huán)境噪音導(dǎo)致的畸變。對于采用特征映射方法和聲道長度歸一化方法進行環(huán)境自適應(yīng)處理的過程,可以參照相關(guān)技術(shù)中的說明。
S3,根據(jù)聲學(xué)模型和語言模型獲得對應(yīng)該語音特征的最大概率的詞序列。
具體地,根據(jù)聲學(xué)模型計算語音特征的聲學(xué)概率,根據(jù)語言模型計算語音特征的語言概率,根據(jù)聲學(xué)概率和語言概率進行搜索以獲得對應(yīng)該語音特征的最大概率的詞序列,如圖1中基于聲學(xué)模型和語言模型,通過解碼器進行概率計算和通過相關(guān)搜索方式獲得最優(yōu)可能的詞序列,從而實現(xiàn)語音識別,具體計算和搜索過程可以參見相關(guān)技術(shù)記載。
可以看出,本發(fā)明實施例的語音識別的環(huán)境自適應(yīng)方法,通過在特征域的環(huán)境自適應(yīng)處理,可以在特征提取過程中去除環(huán)境噪聲,降低實際應(yīng)用環(huán)境下背景噪音對語音識別的影響,可以提升在實際應(yīng)用環(huán)境下語音識別的魯棒性。
雖然,特征域的環(huán)境自適應(yīng)方法處理比較簡單,可以應(yīng)用于使用此特征的任何模型,但是,并不能從統(tǒng)計意義上真正地消除噪音的影響。
本發(fā)明實施例的語音識別的環(huán)境自適應(yīng)方法,還提出在模型域進行環(huán)境自適應(yīng)操作,即在模型訓(xùn)練時去除環(huán)境的噪聲影響。具體地,在聲學(xué)模型的模型訓(xùn)練時,基于訓(xùn)練語音和環(huán)境語音進行模型域的環(huán)境自適應(yīng)處理。其中,訓(xùn)練語音可以理解為包含所需要的語義的語音的集合,這部分語音需要進行標(biāo)注處理。例如,可以采集使用環(huán)境下很多條“你好”這句話的語音,用來訓(xùn)練“你好”的語音模型。環(huán)境語音可以理解為在該使用環(huán)境下不同語音的集合,可以用來訓(xùn)練背景模型??梢岳斫獾氖牵?xùn)練語音和環(huán)境語音都是帶有環(huán)境噪聲的語音,可以表達(dá)在該使用環(huán)境下語音的分布。
在智能家電的語音識別系統(tǒng)中,環(huán)境噪聲會對識別率造成直接的影響,由于相同型號家電的麥克風(fēng)的位置固定,信道增益接近,工作的環(huán)境噪聲類型有限,因而可以被采集。模型域的環(huán)境自適應(yīng)操作的關(guān)鍵問題是需要建立帶有特定環(huán)境的語音數(shù)據(jù)庫,即采集最接近工作環(huán)境的訓(xùn)練語音。通過采集工作環(huán)境的背景噪聲對其進行自適應(yīng)處理,可以降低噪聲環(huán)境對聲學(xué)模型的影響。
在本發(fā)明的實施例中,訓(xùn)練語音可以通過以下方式的一種進行采集:一種方式是,在實際環(huán)境中分別錄制訓(xùn)練語音和環(huán)境語音,例如,直接使用家電在實際的使用環(huán)境中錄制訓(xùn)練語音以及在該實際環(huán)境下的環(huán)境語音,以方便模型域的環(huán)境自適應(yīng)操作??梢岳斫獾氖?,該訓(xùn)練語音和環(huán)境語音均為帶有該特定實際環(huán)境的語音數(shù)據(jù)?;蛘撸趯嶋H環(huán)境中錄制環(huán)境語音,在實驗室里錄制純凈語音,并將環(huán)境語音與純凈語音進行疊加以獲得訓(xùn)練語音,其中,純凈語音可以理解為沒有背景噪聲的人說話語音。通常情況下,更多時候訓(xùn)練語音的采集是在實驗室環(huán)境下完成的,可以通過家電在實際工作環(huán)境下錄制大量環(huán)境語音,在實驗室內(nèi)將該環(huán)境語音與純凈語音進行疊加,得到在實際工作環(huán)境下即帶有特定環(huán)境噪聲的訓(xùn)練語音和環(huán)境語音。
具體來說,模型域的環(huán)境自適應(yīng)處理,可以針對不同的模型采用不同的方法。
在本發(fā)明的實施例中,對于GMM-HMM模型,可以采用最大后驗概率的方法或者基于變換的方法進行環(huán)境自適應(yīng)處理,當(dāng)然,也可以采用其他可以實現(xiàn)的、合適的自適應(yīng)方法。
其中,基于最大后驗概率的環(huán)境自適應(yīng)方法,其基于貝葉斯準(zhǔn)則,通過先驗概率,修改模型參數(shù),達(dá)到對于觀測數(shù)據(jù)的最大后驗概率。具體來說,首先,通過不同環(huán)境下采集的環(huán)境語音訓(xùn)練出描述包含所有可能環(huán)境情況的模型,由于其涵蓋了大量不同背景下的語音,可以認(rèn)為該模型消除了特定背景的語音的分布;再基于訓(xùn)練語音重估背景模型參數(shù),得到聲學(xué)模型??梢岳斫獾氖牵煌谙嚓P(guān)技術(shù)中通過訓(xùn)練語音直接訓(xùn)練得到聲學(xué)模型,在本申請中,訓(xùn)練出的背景模型是涵蓋了所有訓(xùn)練環(huán)境的語音的分布,獲得的聲學(xué)模型不是基于純凈語音訓(xùn)練,而是包含了各種可能的噪聲環(huán)境,重估出的聲學(xué)模型也是同分布的,因而消除了訓(xùn)練語音的環(huán)境的影響。
基于變換的方法例如最大似然線形回歸方法,是尋找一種變換關(guān)系,對模型參數(shù)進行變換,使得在訓(xùn)練數(shù)據(jù)集上,損失函數(shù)收斂。首先,訓(xùn)練環(huán)境無關(guān)的背景模型,估計目標(biāo)語音與其之間的變換關(guān)系,使其適應(yīng)環(huán)境無關(guān)的語音識別系統(tǒng)。在實際應(yīng)用中,在訓(xùn)練語音的數(shù)據(jù)充分時,基于最大后驗概率的方法的性能較好,在訓(xùn)練語音的數(shù)據(jù)不充分時,基于變換的方法可以取得比基于最大后驗概率的方法更好的效果。
在模型域的環(huán)境自適應(yīng)處理,對于DNN-HMM模型,可以基于訓(xùn)練語音擬合DNN的網(wǎng)絡(luò)權(quán)重,或者在DNN結(jié)構(gòu)中增加變換層,或者采用基于ivector的方法進行環(huán)境自適應(yīng)處理,或者采用基于編碼的方法進行環(huán)境自適應(yīng)處理。當(dāng)然,對于DNN-HMM模型也可以采用其他可以使用的自適應(yīng)方法。
具體來說,由于DNN的結(jié)構(gòu)與GMM的結(jié)構(gòu)不同,所以,上述的基于最大后驗概率的方法和基于變換的方法,對于DNN-HMM模型不能適用。一種方式,可以調(diào)節(jié)DNN網(wǎng)絡(luò)的權(quán)重,最直觀的方法是利用目標(biāo)環(huán)境(實際應(yīng)用環(huán)境)下的語音數(shù)據(jù)直接擬合網(wǎng)絡(luò)權(quán)重,但是,非常容易出現(xiàn)過擬合的現(xiàn)象。一種方式,在DNN結(jié)構(gòu)中增加一個變換層,利用目標(biāo)環(huán)境下的訓(xùn)練語音重估變換層,如圖5所示為根據(jù)本發(fā)明的一個實施例的DNN結(jié)構(gòu)的示意圖,首先,訓(xùn)練好一個DNN網(wǎng)絡(luò),之后,針對輸入層插入線形變換層,針對不同環(huán)境下的訓(xùn)練語音,重估DNN的網(wǎng)絡(luò)參數(shù)。與此類似,可以在輸出層之前插入線形變換層。
綜上,本發(fā)明實施例的語音識別的環(huán)境自適應(yīng)方法,針對家電的語音識別系統(tǒng),揭示了在特定工作環(huán)境下消除背景噪聲影響的自適應(yīng)方案,包括特征域的環(huán)境自適應(yīng)處理和模型域的環(huán)境自適應(yīng)處理,以及訓(xùn)練語音的數(shù)據(jù)采集方式。
下面參照附圖對本發(fā)明實施例的語音識別裝置進行說明。
圖6是根據(jù)本發(fā)明的一個實施例的語音識別裝置的框圖,如圖6所示,該語音識別裝置100包括獲取模塊10、提取模塊20、自適應(yīng)模塊30、模型模塊40和識別模塊50。
其中,獲取模塊10用于獲取當(dāng)前環(huán)境下的語音信息;提取模塊20用于提取語音信息的語音特征,例如,提取語音信息的MFCC參數(shù)、PLP參數(shù)等。
自適應(yīng)模塊30用于對語音特征進行環(huán)境自適應(yīng)處理,即進行特征域的環(huán)境自適應(yīng)處理,在特征域降低環(huán)境噪聲的影響,也就是在特征提取的過程中去除背景噪聲,從而可以更好地識別實際應(yīng)用環(huán)境下的語音。在本發(fā)明的實施例中,自適應(yīng)模塊30可以通過以下方法中的至少一種來對語音特征進行環(huán)境自適應(yīng)處理:特征映射方法;聲道長度歸一化方法;倒譜均值歸一化方法,當(dāng)然也可以采用其他可以實現(xiàn)特征域的環(huán)境自適應(yīng)處理的方法,在此不一一列舉。
模型模塊40用于提供聲學(xué)模型和語言模型。聲學(xué)模型是對聲音特征的描述,是語音識別系統(tǒng)的核心部分,如圖2和3中為典型的聲學(xué)模型的示意圖;語言模型是對語言的描述,在基于統(tǒng)計學(xué)習(xí)的語音識別框架中,較常用的是N-gram的統(tǒng)計語言模型。
識別模塊50根據(jù)聲學(xué)模型和語言模型獲得對應(yīng)語音特征的最大概率的詞序列。具體地,識別模塊50根據(jù)聲學(xué)模型計算語音特征的聲學(xué)概率,根據(jù)語言模型計算語音特征的語言概率,根據(jù)聲學(xué)概率和語言概率進行搜索以獲得對應(yīng)語音特征的最大概率的詞序列,從而實現(xiàn)語音識別,具體計算和搜索過程可以參見相關(guān)技術(shù)記載。
本發(fā)明實施例的語音識別裝置,通過自適應(yīng)模塊在特征域的環(huán)境自適應(yīng)處理,可以在特征提取過程中去除環(huán)境噪聲,降低實際應(yīng)用環(huán)境下背景噪音對語音識別的影響,可以提升在實際應(yīng)用環(huán)境下語音識別的魯棒性。
雖然,特征域的環(huán)境自適應(yīng)方法處理比較簡單,可以應(yīng)用于使用此特征的任何模型,但是,并不能從統(tǒng)計意義上真正地消除噪音的影響。自適應(yīng)模塊30還用于,在聲學(xué)模型的模型訓(xùn)練時,基于訓(xùn)練語音和環(huán)境語音進行模型域的環(huán)境自適應(yīng)處理。
進一步地,如圖7所示,該語音識別裝置100還包括采集模塊60,采集模塊60用于通過以下方式中的一種采集訓(xùn)練語言:一種方式是,在實際環(huán)境中分別錄制訓(xùn)練語音和環(huán)境語音;或者,在實際環(huán)境中錄制環(huán)境語音,在實驗室里錄制純凈語音,并將環(huán)境語音與純凈語音進行疊加以獲得訓(xùn)練語音,其中,純凈語音可以理解為沒有背景噪聲的人說話語音。
具體來說,模型域的環(huán)境自適應(yīng)處理,可以針對不同的模型采用不同的方法。對于GMM-HMM模型,自適應(yīng)模塊30可以采用最大后驗概率的方法或者基于變換的方法進行環(huán)境自適應(yīng)處理。其中,基于最大后驗概率的環(huán)境自適應(yīng)方法,首先,通過不同環(huán)境下采集的環(huán)境語音訓(xùn)練出描述包含所有可能環(huán)境情況的模型,由于其涵蓋了大量不同背景下的語音,可以認(rèn)為該模型消除了特定背景的語音的分布;再基于訓(xùn)練語音重估背景模型參數(shù),得到聲學(xué)模型。基于變換的方法例如最大似然線形回歸方法,首先,訓(xùn)練環(huán)境無關(guān)的背景模型,估計目標(biāo)語音與其之間的變換關(guān)系,使其適應(yīng)環(huán)境無關(guān)的語音識別系統(tǒng)。在實際應(yīng)用中,在訓(xùn)練語音的數(shù)據(jù)充分時,基于最大后驗概率的方法的性能較好,在訓(xùn)練語音的數(shù)據(jù)不充分時,基于變換的方法可以取得比基于最大后驗概率的方法更好的效果。
或者,對于DNN-HMM模型,自適應(yīng)模塊30可以基于訓(xùn)練語音擬合DNN的網(wǎng)絡(luò)權(quán)重,或者,在DNN結(jié)構(gòu)中增加變換層,參照圖5所示,或者,采用基于ivector的方法進行環(huán)境自適應(yīng)處理,或者采用基于編碼的方法進行環(huán)境自適應(yīng)處理。當(dāng)然,對于DNN-HMM模型也可以采用其他可以使用的自適應(yīng)方法。
總之,本發(fā)明實施例的語音識別裝置100,采用環(huán)境自適應(yīng)方法去除環(huán)境噪聲對語音識別的影響,包括特征域的自適應(yīng)操作和模型域的自適應(yīng)操作,將兩種自適應(yīng)技術(shù)同時應(yīng)用于語音識別中,并給出包含環(huán)境噪聲的說話人語音采集方式。
基于上述方面實施例的語音識別裝置,下面參照附圖8描述根據(jù)本發(fā)明實施例提出的家用電器。
如圖8所示,本發(fā)明實施例的家用電器1000,例如冰箱,包括本體200和上述方面提出的語音識別裝置100。
該家用電器1000,通過采用上述的語音識別裝置100,可以降低背景噪聲對語音識別的影響,提升工作環(huán)境下語音識別的魯棒性。
需要說明的是,在本說明書的描述中,流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言,"計算機可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計算機可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(ROM),可擦除可編輯只讀存儲器(EPROM或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(CDROM)。另外,計算機可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因為可以例如通過對紙或其他介質(zhì)進行光學(xué)掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結(jié)合和組合。
盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。