本申請涉及計算機技術(shù)領(lǐng)域,具體涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及語音識別方法和裝置。
背景技術(shù):
隨著計算機技術(shù)的發(fā)展,語音識別技術(shù)被應用于越來越多的領(lǐng)域,如智能家居、工業(yè)控制、終端設備的語音交互系統(tǒng)等。利用語音識別技術(shù)可以使信息的處理和獲取更加便捷,從而提高用戶的工作效率。
然而,現(xiàn)有的語音識別方式通常將待識別的語音信號輸入至基于純凈語音信號訓練所得的聲學模型,進而得到語音識別結(jié)果。由于待識別的語音信號通常與純凈語音信號存在較大差異,因而,這種語音識別方式存在著識別成功率較低的問題。
技術(shù)實現(xiàn)要素:
本申請的目的在于提出一種改進的語音識別方法和裝置,來解決以上背景技術(shù)部分提到的技術(shù)問題。
第一方面,本申請?zhí)峁┝艘环N語音識別方法,上述方法包括:響應于檢測到上述傳聲器接收到包含干擾音信號的語音信號,對上述語音信號進行高通濾波處理;消除經(jīng)高通濾波處理后的語音信號中的干擾音信號;對消除干擾音信號后的語音信號進行自動增益控制處理,得到目標語音信號;從上述目標語音信號中提取特征向量,并將上述特征向量輸入至預先訓練的聲學模型,得到與上述目標語音信號匹配的語音識別結(jié)果,其中,上述聲學模型用于表征特征向量與語音識別結(jié)果的對應關(guān)系。
在一些實施例中,上述終端設備還安裝有揚聲器,上述干擾音信號由回聲信號和噪音信號組成,其中,上述回聲信號是由上述揚聲器發(fā)送并傳送至上述傳聲器的聲音信號。
在一些實施例中,上述消除上述語音信號中的上述干擾音信號,得到目標語音信號,包括:利用時延估計算法對經(jīng)高通濾波處理后的語音信號進行自適應濾波處理,消除回聲信號;利用噪聲抑制算法消除經(jīng)自適應濾波處理后的語音信號中的噪音信號。
在一些實施例中,上述響應于確定上述傳聲器接收到語音信號之前,上述方法還包括:對預先獲取的訓練樣本進行預處理,生成目標訓練樣本,其中,上述目標訓練樣本包括語音標識;從上述目標訓練樣本中提取特征向量;基于卷積神經(jīng)網(wǎng)絡、深度神經(jīng)網(wǎng)絡和受限波爾茲曼機,將從上述目標訓練樣本中提取的特征向量作為輸入,上述語音標識作為輸出,訓練得到上述聲學模型。
在一些實施例中,上述對預先獲取的訓練樣本進行預處理,生成目標訓練樣本,包括:對預先獲取的訓練樣本進行高通濾波處理;對經(jīng)高通濾波處理后的訓練樣本依次進行回聲消除和噪聲抑制處理;對經(jīng)噪聲抑制處理后的訓練樣本進行自動增益控制處理,生成目標訓練樣本。
在一些實施例中,上述響應于確定上述傳聲器接收到語音信號之前,上述方法還包括:利用聚類算法對上述聲學模型輸出的語音標識進行聚類,將聚類后的語音標識確定為與上述訓練樣本匹配的語音識別結(jié)果。
第二方面,本申請?zhí)峁┝艘环N語音識別裝置,上述裝置包括:第一處理單元,配置用于響應于檢測到上述傳聲器接收到包含干擾音信號的語音信號,對上述語音信號進行高通濾波處理;消除單元,配置用于消除經(jīng)高通濾波處理后的語音信號中的干擾音信號;第二處理單元,配置用于對消除干擾音信號后的語音信號進行自動增益控制處理,得到目標語音信號;輸入單元,配置用于從上述目標語音信號中提取特征向量,并將上述特征向量輸入至預先訓練的聲學模型,得到與上述目標語音信號匹配的語音識別結(jié)果,其中,上述聲學模型用于表征特征向量與語音識別結(jié)果的對應關(guān)系。
在一些實施例中,上述終端設備還安裝有揚聲器,上述干擾音信號由回聲信號和噪音信號組成,其中,上述回聲信號是由上述揚聲器發(fā)送并傳送至上述傳聲器的聲音信號。
在一些實施例中,上述消除單元包括:第一消除模塊,配置用于利用時延估計算法對經(jīng)高通濾波處理后的語音信號進行自適應濾波處理,消除回聲信號;第二消除模塊,配置用于利用噪聲抑制算法消除經(jīng)自適應濾波處理后的語音信號中的噪音信號。
在一些實施例中,上述裝置還包括:預處理單元,配置用于對預先獲取的訓練樣本進行預處理,生成目標訓練樣本,其中,上述目標訓練樣本包括語音標識;提取單元,配置用于從上述目標訓練樣本中提取特征向量;訓練單元,配置用于基于卷積神經(jīng)網(wǎng)絡、深度神經(jīng)網(wǎng)絡和受限波爾茲曼機,將從上述目標訓練樣本中提取的特征向量作為輸入,上述語音標識作為輸出,訓練得到上述聲學模型。
在一些實施例中,上述預處理單元包括:第一處理模塊,配置用于對預先獲取的訓練樣本進行高通濾波處理;第二處理模塊,配置用于對經(jīng)高通濾波處理后的訓練樣本依次進行回聲消除和噪聲抑制處理;第三處理模塊,配置用于對經(jīng)噪聲抑制處理后的訓練樣本進行自動增益控制處理,生成目標訓練樣本。
在一些實施例中,上述裝置還包括:聚類單元,配置用于利用聚類算法對上述聲學模型輸出的語音標識進行聚類,將聚類后的語音標識確定為與上述訓練樣本匹配的語音識別結(jié)果。
本申請?zhí)峁┑恼Z音識別方法和裝置,通過對語音信號依次進行高通濾波處理、消除干擾音信號、自動增益控制處理,以便得到目標語音信號,之后從目標語音信號中提取特征向量,并將特征向量輸入至預先訓練的聲學模型,得到與目標語音信號匹配的語音識別結(jié)果,從而提高了語音識別的成功率。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是本申請可以應用于其中的示例性系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本申請的語音識別方法的一個實施例的流程圖;
圖3是根據(jù)本申請的語音識別方法的一個應用場景的示意圖;
圖4是根據(jù)本申請的語音識別方法的又一個實施例的流程圖;
圖5是根據(jù)本申請的語音識別裝置的一個實施例的結(jié)構(gòu)示意圖;
圖6是適于用來實現(xiàn)本申請實施例的終端設備的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
圖1示出了可以應用本申請的語音識別方法或語音識別裝置的示例性系統(tǒng)架構(gòu)100。
如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設備101、102、103和服務器104。另外,上述系統(tǒng)架構(gòu)100還可以包含用以在終端設備101、102、103和服務器104之間提供通信鏈路介質(zhì)的網(wǎng)絡。其中,網(wǎng)絡可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
終端設備101、102、103上可以安裝有各種電子器件,如揚聲器、傳聲器、攝像頭等,也可以安裝有各種通訊客戶端應用,例如語音輸入類應用、網(wǎng)頁瀏覽器應用、購物類應用、搜索類應用、即時通信工具、郵箱客戶端、社交平臺軟件等。
終端設備101、102、103可以檢測所安裝的傳聲器所接收語音信號,并對檢測到的語音信號進行高通濾波、干擾音消除、自動增益控制等處理,并通過網(wǎng)絡與服務器104交互,進而對處理后的語音信號進行識別。其中,上述服務器104可以用于存儲聲學模型。
終端設備101、102、103可以是安裝有傳聲器的各種電子設備,包括但不限于智能手機、平板電腦、電子書閱讀器、MP3播放器(Moving Picture Experts Group Audio Layer III,動態(tài)影像專家壓縮標準音頻層面3)、MP4(Moving Picture Experts Group Audio Layer IV,動態(tài)影像專家壓縮標準音頻層面4)播放器、膝上型便攜計算機和臺式計算機等等。
需要指出的是,終端設備101、102、103也可以直接進行聲學模型的存儲,并對處理后的語音信號進行識別,因而,終端設備101、102、103可以不與服務器104進行交互。此時,上述系統(tǒng)架構(gòu)100中可以不存在服務器104和網(wǎng)絡。
需要說明的是,本申請實施例所提供的語音識別方法一般由終端設備101、102、103執(zhí)行,相應地,語音識別裝置一般設置于終端設備101、102、103中。
應該理解,圖1中的終端設備、網(wǎng)絡和服務器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設備。
繼續(xù)參考圖2,其示出了根據(jù)本申請的用于終端設備的語音識別方法的一個實施例的流程200。所述的語音識別方法,包括以下步驟:
步驟201,響應于檢測到傳聲器接收到包含干擾音信號的語音信號,對語音信號進行高通濾波處理。
在本實施例中,語音識別方法運行于其上的電子設備(例如圖1所示的終端設備101、102、103)可以安裝有傳聲器。實踐中,上述傳聲器可以是將聲波信號轉(zhuǎn)換為相應電信號的傳感器,如麥克風、微音器等。
在本實施例中,上述電子設備可以基于語音活動檢測(Voice Activity Detection,VAD)算法實時檢測所安裝的傳聲器是否接收到語音信號。響應于檢測到上述傳聲器接收到語音信號,上述電子設備可以對上述語音信號進行高通濾波(High-pass Filter,HPF)處理,以阻隔或削弱頻率小于預設頻率閾值(如100Hz、200Hz等)的語音信號。此處,可以將用戶說話過程中經(jīng)空氣等介質(zhì)傳播至上述傳聲器中的聲波信號作為上述語音信號。另外,由于上述電子設備可以處于各種環(huán)境中,因而上述語音信號中通常包含環(huán)境中的、由用戶以外的其他聲源發(fā)出并經(jīng)空氣等介質(zhì)傳播至上述傳聲器的干擾音信號。
實踐中,VAD算法可以用于從聲音信號流里識別和消除長時間的靜音期;高通濾波是一種信號的過濾方式,用于使高于設定臨界值的高頻信號能正常通過,而低于設定臨界值的低頻信號則被阻隔或減弱。需要說明的是,上述VAD算法和高通濾波處理方法是目前廣泛研究和應用的公知技術(shù),在此不再贅述。
步驟202,消除經(jīng)高通濾波處理后的語音信號中的干擾音信號。
在本實施例中,上述電子設備可以利用各種方式消除經(jīng)高通濾波處理后的語音信號中的干擾音信號。
在本實施例的一些可選的實現(xiàn)方式中,上述干擾音信號可以是噪音信號。實踐中,噪音信號可以存在于各種環(huán)境中,例如,公共場所、行駛的車輛內(nèi)等,即使在安靜的環(huán)境中,也可以存在平穩(wěn)背景噪聲。上述電子設備可以采用各種噪聲抑制算法消除經(jīng)高通濾波處理后的語音信號中的噪音信號。作為示例,上述噪聲抑制算法可以是LMS(Least Mean Square,最小均方)濾波算法、李雅普諾夫噪聲主動控制算法等等。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設備可以安裝有揚聲器。用戶在利用上述電子設備播放音樂的情況下,或利用上述電子設備的TTS(Text to Speech,語音合成)播放功能播放聲音(如導航語音、新聞閱讀播報語音)的情況下,上述揚聲器所發(fā)出的聲音可以經(jīng)空氣等介質(zhì)傳輸至上述傳聲器,形成聲學回聲。此時,上述干擾音信號可以是回聲信號,其中,上述回聲信號即由上述揚聲器發(fā)送并傳送至上述傳聲器的聲音信號。上述電子設備可以利用回聲消除(Acoustic Echo Cancellation,AEC)技術(shù)消除經(jīng)高通濾波處理后的語音信號中的回聲信號。具體的,上述電子設備可以按照如下步驟執(zhí)行:首先,對上述揚聲器發(fā)出的聲音信號進行高通濾波處理,以阻隔或削弱頻率小于上述預設頻率閾值的聲音信號。之后,利用各種時延估計(Time Delay Estimation,TDE)算法(例如廣義互相關(guān)函數(shù)法、最小均方自適應濾波法、互功率譜相位法、基于高階統(tǒng)計量的雙譜時延估計法等)計算上述揚聲器發(fā)送聲音信號與上述傳聲器接收到回聲信號的時延,并對上述傳聲器接收到的回聲信號進行時延補償。最后,對經(jīng)高通濾波處理后的語音信號進行自適應濾波處理,消除經(jīng)高通濾波處理后的語音信號中的回聲信號。需要說明的是,上述噪聲抑制算法、回聲消除技術(shù)和時延估計算法是目前廣泛研究和應用的公知技術(shù),在此不再贅述。
在本實施例的一些可選的實現(xiàn)方式中,上述干擾音信號可以由上述回聲信號和上述噪音信號組成。上述電子設備可以首先利用時延估計算法對經(jīng)高通濾波處理后的語音信號進行自適應濾波處理,消除回聲信號;之后,可以利用噪聲消除算法消除經(jīng)自適應濾波處理后的語音信號中的噪音信號。
步驟203,對消除干擾音信號后的語音信號進行自動增益控制處理,得到目標語音信號。
在本實施例中,上述電子設備可以對消除干擾音信號后的語音信號進行自動增益控制(Automatic Gain Control,AGC)處理,將經(jīng)自動增益控制處理后的語音信號確定為目標語音信號。具體的,當消除干擾音信號后的語音信號的強度小于預設的最小幅度閾值時,上述電子設備可以將該語音信號的幅度進行放大;當消除干擾音信號后的語音信號的幅度大于預設的最大幅度閾值時,上述電子設備可以將該語音信號的幅度進行減弱。實踐中,AGC是一種使增益自動隨信號幅度而調(diào)整的自動控制方法,可以通過改變信號輸入輸出壓縮比例自動控制增益的幅度。
在本實施例的一些可選的實現(xiàn)方式中,在對消除干擾音信號后的語音信號進行AGC處理之后,上述電子設備還可以對小于預設幅度的語音信號進行動態(tài)范圍控制(Dynamic Range Control,DRC)處理,以將語音信號的幅度的范圍映射到預設幅度范圍之內(nèi),將DRC處理后的語音信號確定為目標語音信號。
需要說明的是,上述AGC處理方法和DRC處理方法是目前廣泛研究和應用的公知技術(shù),在此不再贅述。
步驟204,從目標語音信號中提取特征向量,并將特征向量輸入至預先訓練的聲學模型,得到與目標語音信號匹配的語音識別結(jié)果。
在本實施例中,上述電子設備可以首先利用各種聲學特征提取方法從上述目標語音信號中提取特征向量;之后,將上述特征向量輸入至預先訓練的聲學模型,得到與目標語音信號匹配的語音識別結(jié)果。其中,上述聲學模型可以用于表征特征向量與語音識別結(jié)果的對應關(guān)系。需要說明的是,上述特征向量可以包含多個數(shù)值;上述語音識別結(jié)果可以是可以用于區(qū)別音素、音節(jié)、詞素或音素狀態(tài)等信息的語音識別標識,上述語音標識可以以各種形式表示,如字母、數(shù)字、符號、文字等等。需要指出的是,上述聲學模型可以基于各種模型而建立,如隱馬爾可夫模型(Hidden Markov Model,HMM)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNN)、深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)等,也可以基于多個模型的結(jié)合而建立。作為示例,基于隱馬爾可夫模型建立聲學模型,可以首先統(tǒng)計文字的發(fā)音概率,建立隱性狀態(tài)的表現(xiàn)概率矩陣,其中,上述隱性狀態(tài)可以是語音信號對應的文字序列;之后,統(tǒng)計字詞之間的轉(zhuǎn)移概率,建立轉(zhuǎn)移概率矩陣,并結(jié)合隱性狀態(tài)的表現(xiàn)概率矩陣得到隱馬爾可夫模型;然后,可以利用前向算法等對該隱馬爾可夫模型進行評估,并通過機器學習方法進行訓練確定隱馬爾可夫模型的參數(shù),得到上述聲學模型。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設備可以基于梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)從上述目標語音信號中提取特征向量。具體的,上述電子設備可以首先利用離散傅氏變換的快速算法(Fast Fourier Transformation,F(xiàn)FT)對上述目標語音信號進行從時域至頻域的轉(zhuǎn)換,得到能量頻率;之后,上述電子設備可以利用三角帶通濾波方法,依照梅爾刻度分布,將上述目標語音信號的能量頻譜進行卷積計算,得到多個輸出對數(shù)能量,最后對上述多個輸出對數(shù)能量構(gòu)成的向量進行離散余弦變換(Discrete Cosine Transform,DCT),生成特征向量。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設備在基于MFCC從上述目標語音信號中提取特征向量之前,還可以對上述目標語音信號進行預加重、加窗等處理。實踐中,由于上述目標語音信號是非平穩(wěn)信號,為了能對上述目標語音信號進行處理,還需要將上述目標語音信號按短時段進行劃分,每個短時段為一幀。其中,每一幀可以與預設的任意時長,如20ms、25ms、30ms等。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設備還可以利用線性預測編碼(Linear Predictive Coding,LPC)方法,通過對上述目標語音信號進行解析,生成聲道激勵和轉(zhuǎn)移函數(shù)的參數(shù),并以所生成的參數(shù)作為特征參數(shù),生成特征向量。
繼續(xù)參見圖3,圖3是根據(jù)本實施例的語音識別方法的應用場景的一個示意圖。在圖3的應用場景中,手機終端301安裝有傳聲器302,當手機終端301檢測到傳聲器301接收到包含干擾音信號的語音信號后,對檢測到的語音信號進行高通濾波處理(如標號303所示);之后,消除經(jīng)高通濾波處理后的語音信號中的干擾音信號(如標號304所示);然后,對消除干擾音信號后的語音信號進行自動增益控制處理(如標號305所示),得到目標語音信號306;最后,手機終端301從上述目標語音信號306中提取特征向量,并將上述特征向量輸入至預先訓練的聲學模型(如標號307所示),得到與上述目標語音信號匹配的語音識別結(jié)果308。
本申請的上述實施例提供的方法通過對語音信號依次進行高通濾波處理、消除干擾音信號、自動增益控制處理,以便得到目標語音信號,之后從目標語音信號中提取特征向量,并將特征向量輸入至預先訓練的聲學模型,得到與目標語音信號匹配的語音識別結(jié)果,從而提高了語音識別的成功率。
進一步參考圖4,其示出了語音識別方法的又一個實施例的流程400。該語音識別方法的流程400,包括以下步驟:
步驟401,對預先獲取的訓練樣本進行預處理,生成目標訓練樣本。
在本實施例中,語音識別方法運行于其上的電子設備(例如圖1所示的終端設備101、102、103)可以預先獲取訓練樣本,其中,上述訓練樣本可以是預先采集的大量語音信號。需要說明的是,上述大量語音信號可以包含噪音信號和/或回聲信號。需要指出的是,上述目標訓練樣本可以包括語音標識。實踐中,上述語音標識可以用于區(qū)別音素、音節(jié)、詞素、音素狀態(tài)等的標識,上述語音標識可以以各種形式表示,如字母、數(shù)字、符號、文字等等。
在本實施例中,上述電子設備可以按照如下步驟對上述訓練樣本進行預處理:首先,對預先獲取的訓練樣本進行高通濾波處理,以阻隔或削弱頻率小于預設頻率閾值的語音信號。之后,上述電子設備可以依次利用回聲消除技術(shù)和噪聲抑制算法,對經(jīng)高通濾波處理后的訓練樣本進行回聲消除處理和噪聲抑制處理,以消除訓練樣本中的干擾音信號。需要說明的是,此處對干擾音信號的消除,也可以是減弱或抑制。最后,上述電子設備可以對經(jīng)噪聲抑制處理后的訓練樣本進行自動增益控制處理,并將自動增益控制處理后的得到的訓練樣本確定為目標訓練樣本。
步驟402,從目標訓練樣本中提取特征向量。
在本實施例中,上述電子設備可以首先對上述目標訓練樣本進行預加重、分幀、加窗等處理,之后,基于MFCC從上述目標語音信號中提取特征向量。具體的,上述電子設備可以首先利用離散傅氏變換的快速算法對上述目標訓練樣本進行從時域至頻域的轉(zhuǎn)換,得到能量頻率;之后,上述電子設備可以利用三角帶通濾波方法,依照梅爾刻度分布,將上述目標訓練樣本的能量頻譜進行卷積計算,得到多個輸出對數(shù)能量,最后對上述多個輸出對數(shù)能量構(gòu)成的向量進行離散余弦變換,生成特征向量。
步驟403,基于卷積神經(jīng)網(wǎng)絡、深度神經(jīng)網(wǎng)絡和受限波爾茲曼機,將從目標訓練樣本中提取的特征向量作為輸入,語音標識作為輸出,訓練得到聲學模型。
本實施例中,可以首先利用卷積神經(jīng)網(wǎng)絡、并以S形函數(shù)(即sigmoid函數(shù))作為非線性激活函數(shù)建立多層神經(jīng)網(wǎng)絡模型。之后,上述電子設備可以將從上述目標訓練樣本中提取的特征向量作為輸入,上述語音標識作為輸出,利用RBM(Restricted Boltzmann Machine,受限波爾茲曼機)對所建立的多層神經(jīng)網(wǎng)絡模型進行訓練得到聲學模型。實踐中,上述神經(jīng)網(wǎng)絡模型可以包括輸入層、卷積層、池化層、全連接層、輸出層,且上述卷積神經(jīng)網(wǎng)絡可以包括多個卷積層和多個池化層。上述受限玻爾茲曼機是一種可通過輸入數(shù)據(jù)集學習概率分布的隨機生成神經(jīng)網(wǎng)絡。上述受限玻爾茲曼機可以由一個可見神經(jīng)元層和一個隱神經(jīng)元層組成,隱層神經(jīng)元之間沒有相互連接,并且隱層神經(jīng)元獨立于上述目標訓練樣本,可見層神經(jīng)元之間也沒有相互連接,通過從上述目標訓練樣本得到的隱層神經(jīng)元狀態(tài)上執(zhí)行馬爾可夫鏈抽樣過程,來估計獨立于數(shù)據(jù)的期望值,并行交替更新所有可見層神經(jīng)元和隱層神經(jīng)元的值。需要說明的是,上述卷積神經(jīng)網(wǎng)絡和受限玻爾茲曼機是目前廣泛研究和應用的公知技術(shù),在此不再贅述。
在本實施例中,得到上述聲學模型后,還可以利用各種聚類算法對上述聲學模型所輸出的語音標識進行聚類,將聚類后的語音標識確定為與上述訓練樣本匹配的語音識別結(jié)果。作為示例,可以基于相對熵(Kullback-Leibler Divergence,KLD)、層次聚類算法、SOM(Self-organizing Maps,自組織映射)聚類算法、FCM(Fuzzy c-means,模糊C均值)聚類算法等對上述聲學模型所輸出的語音標識進行聚類。
需要說明的是,上述聲學模型可以存儲于上述電子設備中,也可以存儲于與上述電子設備相連接的服務器(例如圖1所示的服務器104)中。
步驟404,響應于檢測到傳聲器接收到包含干擾音信號的語音信號,對語音信號進行高通濾波處理。
在本實施例中,上述電子設備可以安裝有傳聲器和揚聲器。上述電子設備可以基于VAD算法實時檢測所安裝的傳聲器是否接收到語音信號。響應于檢測到上述傳聲器接收到語音信號,上述電子設備可以對上述傳聲器所接收到的語音信號進行高通濾波處理,以阻隔或削弱頻率小于步驟401上述的預設頻率閾值的語音信號。需要說明的是,上述傳聲器所接收到的語音信號可以包含由上述回聲信號和上述噪音信號組成的干擾音信號,其中,上述傳聲器所接收到的語音信號所包含得回聲信號可以是由上述揚聲器發(fā)送并傳送至上述傳聲器的聲音信號。
步驟405,利用時延估計算法對經(jīng)高通濾波處理后的語音信號進行自適應濾波處理,消除回聲信號。
在本實施例中,上述電子設備可以首先對上述揚聲器發(fā)出的聲音信號進行高通濾波處理,以阻隔或削弱頻率小于上述預設頻率閾值的語音信號。之后,可以利用時延估計算法計算上述揚聲器發(fā)送聲音信號與上述傳聲器接收到相應的回聲信號的時延,并對上述傳聲器接收到的回聲信號進行時延補償。最后,對經(jīng)高通濾波處理后的語音信號進行自適應濾波處理,消除經(jīng)高通濾波處理后的語音信號中的回聲信號。
步驟406,利用噪聲抑制算法消除經(jīng)自適應濾波處理后的語音信號中的噪音信號。
在本實施例中,上述噪音信號可以是環(huán)境中存在的平穩(wěn)背景噪聲。上述電子設備可以采用噪聲抑制算法消除經(jīng)高通濾波處理后的語音信號中的噪音信號。
步驟407,對消除干擾音信號后的語音信號進行自動增益控制處理,得到目標語音信號。
在本實施例中,上述電子設備可以對消除干擾音信號后的語音信號進行自動增益控制處理,將自動增益控制處理后的語音信號確定為目標語音信號。
步驟408,從目標語音信號中提取特征向量,并將特征向量輸入至預先訓練的聲學模型,得到與目標語音信號匹配的語音識別結(jié)果。
在本實施例中,上述電子設備可以基于MFCC從上述目標語音信號中提取特征向量。之后,將所提取的特征向量輸入至步驟404所訓練的聲學模型,得到與上述目標語音信號相匹配的語音識別結(jié)果。
需要說明的是,上述步驟405-步驟408的具體操作與步驟201-步驟204的具體操作基本相同,在此不再贅述。
從圖4中可以看出,與圖4對應的實施例相比,本實施例中的語音識別方法的流程400突出了對聲學模型的訓練樣本進行預處理的步驟。由此,本實施例描述的方案可以減小訓練聲學模型所使用的訓練樣本與傳聲器所接收到的實際語音信號的差異,從而進一步提高了語音識別的成功率。
進一步參考圖5,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N語音識別裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應用于各種電子設備中。
如圖5所示,本實施例所述的語音識別裝置500包括:第一處理單元501,配置用于響應于檢測到上述傳聲器接收到包含干擾音信號的語音信號,對上述語音信號進行高通濾波處理;消除單元502,配置用于消除經(jīng)高通濾波處理后的語音信號中的干擾音信號;第二處理單元503,配置用于對消除干擾音信號后的語音信號進行自動增益控制處理,得到目標語音信號;輸入單元504,配置用于從上述目標語音信號中提取特征向量,并將上述特征向量輸入至預先訓練的聲學模型,得到與上述目標語音信號匹配的語音識別結(jié)果,其中,上述聲學模型用于表征特征向量與語音識別結(jié)果的對應關(guān)系。
在本實施例中,語音識別裝置500可以安裝有傳聲器。上述語音識別裝置500的第一處理單元501可以基于VAD算法實時檢測所安裝的傳聲器是否接收到語音信號。響應于檢測到上述傳聲器接收到語音信號,上述第一處理單元501可以對上述語音信號進行高通濾波處理,以阻隔或削弱頻率小于預設頻率閾值的語音信號。由于上述電子設備可以處于各種環(huán)境中,因而上述語音信號中通常包含干擾音信號。
在本實施例中,上述消除單元502可以利用各種方式消除經(jīng)高通濾波處理后的語音信號中的干擾音信號。響應于上述干擾音信號是噪音信號,上述消除單元502可以采用NS算法消除經(jīng)高通濾波處理后的語音信號中的噪音信號。響應于上述干擾音信號可以是回聲信號,上述消除單元502可以利用AEC技術(shù)消除經(jīng)高通濾波處理后的語音信號中的回聲信號。
在本實施例的一些可選的實現(xiàn)方式中,上述語音識別裝置500還安裝有揚聲器,上述干擾音信號由回聲信號和噪音信號組成,其中,上述回聲信號是由上述揚聲器發(fā)送并傳送至上述傳聲器的聲音信號。
在本實施例的一些可選的實現(xiàn)方式中,上述消除單元502還可以包括第一消除模塊和第二消除模塊(圖中未示出)。其中,上述第一消除模塊可以配置用于利用時延估計算法對經(jīng)高通濾波處理后的語音信號進行自適應濾波處理,消除回聲信號;上述第二消除模塊可以配置用于利用噪聲抑制算法消除經(jīng)自適應濾波處理后的語音信號中的噪音信號。
在本實施例中,第二處理單元503可以對消除干擾音信號后的語音信號進行自動增益控制處理,將經(jīng)自動增益控制處理后的語音信號確定為目標語音信號。具體的,當消除干擾音信號后的語音信號的強度小于預設的最小幅度閾值時,上述電子設備可以將該語音信號的幅度進行放大;當消除干擾音信號后的語音信號的幅度大于預設的最大幅度閾值時,上述電子設備可以將該語音信號的幅度進行減弱。
在本實施例中,輸入單元504可以首先利用各種聲學特征提取方法從上述目標語音信號中提取特征向量;之后,將上述特征向量輸入至預先訓練的聲學模型,得到與目標語音信號匹配的語音識別結(jié)果。其中,上述聲學模型可以用于表征特征向量與語音識別結(jié)果的對應關(guān)系。
在本實施例的一些可選的實現(xiàn)方式中,上述語音識別裝置500還可以包括預處理單元、提取單元和訓練單元(圖中未示出)。其中,上述預處理單元可以配置用于對預先獲取的訓練樣本進行預處理,生成目標訓練樣本,其中,上述目標訓練樣本包括語音標識;上述提取單元可以配置用于從上述目標訓練樣本中提取特征向量;上述訓練單元可以配置用于基于卷積神經(jīng)網(wǎng)絡、深度神經(jīng)網(wǎng)絡和受限玻爾茲曼機,將從上述目標訓練樣本中提取的特征向量作為輸入,上述語音標識作為輸出,訓練得到上述聲學模型。
在本實施例的一些可選的實現(xiàn)方式中,上述預處理單元還可以包括第一處理模塊、第二處理模塊和第三處理模塊(圖中未示出)。其中,上述第一處理模塊可以配置用于對預先獲取的訓練樣本進行高通濾波處理;上述第二處理模塊可以配置用于對經(jīng)高通濾波處理后的訓練樣本依次進行回聲消除和噪聲抑制處理;上述第三處理模塊可以配置用于對經(jīng)噪聲抑制處理后的訓練樣本進行自動增益控制處理,生成目標訓練樣本。
在本實施例的一些可選的實現(xiàn)方式中,上述語音識別裝置500還可以包括聚類單元(圖中未示出):聚類單元,配置用于利用聚類算法對上述聲學模型輸出的語音標識進行聚類,將聚類后的語音標識確定為與上述訓練樣本匹配的語音識別結(jié)果。
本申請的上述實施例提供的裝置,通過第一處理單元501、消除單元502、第二處理單元503分別對語音信號依次地進行高通濾波處理、消除干擾音信號、自動增益控制處理,以便得到目標語音信號,之后輸入單元504從目標語音信號中提取特征向量,并將特征向量輸入至預先訓練的聲學模型,得到與目標語音信號匹配的語音識別結(jié)果,從而提高了語音識別的成功率。
下面參考圖6,其示出了適于用來實現(xiàn)本申請的終端設備的計算機系統(tǒng)600的結(jié)構(gòu)示意圖。
如圖6所示,計算機系統(tǒng)600包括中央處理單元(CPU)601,其可以根據(jù)存儲在只讀存儲器(ROM)602中的
程序或者從存儲部分608加載到隨機訪問存儲器(RAM)603中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚?。在RAM 603中,還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。CPU 601、ROM 602以及RAM 603通過總線604彼此相連。輸入/輸出(I/O)接口605也連接至總線604。
以下部件連接至I/O接口605:包括觸摸屏、觸摸板等的輸入部分606;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至I/O接口605??刹鹦督橘|(zhì)611,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分608。
特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括有形地包含在機器可讀介質(zhì)上的計算機程序,上述計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網(wǎng)絡上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。在該計算機程序被中央處理單元(CPU)601執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括第一處理單元、消除單元、第二處理單元和輸入單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,第一處理單元還可以被描述為“對語音信號進行高通濾波處理的單元”。
作為另一方面,本申請還提供了一種非易失性計算機存儲介質(zhì),該非易失性計算機存儲介質(zhì)可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質(zhì);也可以是單獨存在,未裝配入終端中的非易失性計算機存儲介質(zhì)。上述非易失性計算機存儲介質(zhì)存儲有一個或者多個程序,當上述一個或者多個程序被一個設備執(zhí)行時,使得上述設備:響應于檢測到傳聲器接收到包含干擾音信號的語音信號,對語音信號進行高通濾波處理;消除經(jīng)高通濾波處理后的語音信號中的干擾音信號;對消除干擾音信號后的語音信號進行自動增益控制處理,得到目標語音信號;從目標語音信號中提取特征向量,并將特征向量輸入至預先訓練的聲學模型,得到與目標語音信號匹配的語音識別結(jié)果,其中,聲學模型用于表征特征向量與語音識別結(jié)果的對應關(guān)系。
以上描述僅為本申請的較佳實施例以及對所運用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應涵蓋在不脫離所述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進行互相替換而形成的技術(shù)方案。