專利名稱:農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法
技術(shù)領(lǐng)域:
本發(fā)明涉及屬于智能信息處理、農(nóng)業(yè)信息技術(shù)領(lǐng)域,尤其是指一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法。
背景技術(shù):
我國地域跨度大,地理環(huán)境復(fù)雜,農(nóng)業(yè)生產(chǎn)水平和科技水平發(fā)展不平衡,移動(dòng)設(shè)備的應(yīng)用多樣性和靈活性可以幫助解決在農(nóng)業(yè)信息化進(jìn)程中所遇到的來源于基層的前端技術(shù)困難,即原始信息的采集和控制問題。語音識別技術(shù)是解決移動(dòng)設(shè)備交互問題的重要途徑,隨著農(nóng)業(yè)現(xiàn)代化進(jìn)程的不斷深入,語音識別技術(shù)在農(nóng)業(yè)信息領(lǐng)域的重要性越來越突出, 在農(nóng)業(yè)科學(xué)研究、農(nóng)業(yè)生產(chǎn)和農(nóng)產(chǎn)品信息采集領(lǐng)域都有著廣泛應(yīng)用。但基于移動(dòng)設(shè)備的語音識別距離實(shí)用化還有一定距離,一方面,移動(dòng)條件下各種不良聲學(xué)環(huán)境的環(huán)境噪聲限制了語音識別技術(shù)的應(yīng)用,另一方面,非特定人連續(xù)語音識別對移動(dòng)設(shè)備的語音識別技術(shù)提出了更高的魯棒性要求?,F(xiàn)有的語音識別魯棒性方法主要面臨以下問題1、語音信號是一種非平穩(wěn)信號,常用的噪聲補(bǔ)償方法都是建立在線性平穩(wěn)信號的假設(shè)上,考慮時(shí)變因素和非線性影響的情形非常復(fù)雜。2、連續(xù)語音信號的聲學(xué)特征隨其前后相連的語音的不同而有很大差異,限制了語音識別在低信噪比移動(dòng)設(shè)備上的實(shí)際應(yīng)用。3、大詞匯量連續(xù)語音識別系統(tǒng)適應(yīng)性差,對環(huán)境的依賴性較強(qiáng),噪聲環(huán)境下語音識別準(zhǔn)確率的提高難度大。在通用領(lǐng)域大詞匯量連續(xù)語音識別的背景下解決上述問題非常困難,在特定領(lǐng)域中小詞匯量的應(yīng)用方面,移動(dòng)設(shè)備的語音識別應(yīng)用需要適應(yīng)小數(shù)據(jù)的新環(huán)境,而桌面語音識別常用的具有復(fù)雜參數(shù)的最大似然線性回歸方法復(fù)雜度又超出了移動(dòng)設(shè)備的計(jì)算能力。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提出一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別魯棒性方法,提高了識別魯棒性,降低了識別難度,改善了農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集語音識別的環(huán)境適應(yīng)性。本發(fā)明的技術(shù)解決方案是一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法,該方法是基于移動(dòng)設(shè)備語音識別特征補(bǔ)償和模型補(bǔ)償相結(jié)合的抗噪方法,針對農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集典型應(yīng)用場景的非平穩(wěn)噪聲環(huán)境,尋找穩(wěn)健的耐噪聲語音特征參數(shù)以及從含噪語音中提取的特征進(jìn)行處理,去除由噪聲引起的含噪語音特征和純凈語音特征之間的偏差,以有效提高系統(tǒng)識別準(zhǔn)確率。本發(fā)明的特點(diǎn)和優(yōu)點(diǎn)是本發(fā)明為提高農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集語音識別的魯棒性,針對農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集典型應(yīng)用場景的非平穩(wěn)噪聲環(huán)境,尋找穩(wěn)健的耐噪聲語音特征參數(shù)以及從含噪語音中提取的特征進(jìn)行處理,提出一種基于移動(dòng)設(shè)備語音識別特征補(bǔ)償和模型補(bǔ)償相結(jié)合的抗噪方法,去除由噪聲引起的含噪語音特征和純凈語音特征之間的偏差,以達(dá)
4到有效提高系統(tǒng)識別準(zhǔn)確率的目的,在農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集領(lǐng)域中小詞匯量低信噪比條件下,本發(fā)明提高了移動(dòng)設(shè)備語音識別在室內(nèi)、室外和野外典型環(huán)境下的抗噪特性,具有一定的可靠性和實(shí)用性。本方法復(fù)雜性低,更容易實(shí)施,同時(shí)由于基于農(nóng)業(yè)特定情景的偏差模式要求的訓(xùn)練數(shù)據(jù)少,實(shí)時(shí)性好,更適合于在移動(dòng)設(shè)備有限的計(jì)算和存儲資源條件下應(yīng)用。
圖1為本發(fā)明的農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法的原理圖。圖2為本發(fā)明的農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法的模塊框圖。
具體實(shí)施例方式下面配合附圖及具體實(shí)施例對本發(fā)明的具體實(shí)施方式
作進(jìn)一步的詳細(xì)說明。本發(fā)明提出一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法,所述方法包括模型補(bǔ)償、場景偏差計(jì)算、初始權(quán)重調(diào)整、環(huán)境補(bǔ)償和自適應(yīng)控制;語音信號經(jīng)過模型補(bǔ)償進(jìn)行MFCC特征提取,與權(quán)值系數(shù)完成卷積運(yùn)算,與背景噪聲完成迭加后得到含噪特征矢量,然后經(jīng)過場景偏差計(jì)算,根據(jù)計(jì)算結(jié)果進(jìn)行場景初始權(quán)重系數(shù)調(diào)整,使場景初始權(quán)重根據(jù)輸入信號的變動(dòng)自動(dòng)學(xué)習(xí),而不斷調(diào)整權(quán)值系數(shù)并始終保持均方差最小。語音在從產(chǎn)生、采集為數(shù)字信號、調(diào)制傳輸解調(diào)整個(gè)過程都不可避免的受到外界的干擾,包括周圍環(huán)境噪聲的影響,語音信號采集設(shè)備的影響,傳輸調(diào)制信道的影響等。語音特征分布的環(huán)境變量的變化比語音信號變量的變化要慢,在一個(gè)短時(shí)間窗的噪聲語音和模型分布之間進(jìn)行隨機(jī)匹配,從噪聲語音數(shù)據(jù)找出并去除瞬間的非語音變化,可以使得語音識別精度可得到顯著改善。如圖1所示,其為本發(fā)明的設(shè)計(jì)原理圖。本發(fā)明是基于穩(wěn)定性的考慮提出的一種基于模式的動(dòng)態(tài)補(bǔ)償方案,用來改善移動(dòng)環(huán)境下語音識別的魯棒性。該方法定義了一個(gè)帶偏差的固定模式來糾正數(shù)據(jù)訓(xùn)練時(shí)的環(huán)境變量,假設(shè)數(shù)據(jù)訓(xùn)練是根據(jù)一組事先定義好的應(yīng)用場景下得到的,在識別時(shí),瞬時(shí)偏差由多種可能的模式線性加權(quán)得到。為了快速估計(jì)加權(quán)值,采用基于語音相關(guān)先驗(yàn)?zāi)J降呢惾~斯學(xué)習(xí)法,對于先驗(yàn)數(shù)據(jù)統(tǒng)計(jì)在訓(xùn)練其間提前計(jì)算,一個(gè)是固定模式的偏差,一個(gè)是模式的初始權(quán)重。固定模式通過把某些特定的場景分類合并的方式獲得,選擇三種情形下的移動(dòng)環(huán)境作為代表室內(nèi)環(huán)境(辦公室/溫室大棚)、公共場所(市場,有背景噪音)和野外環(huán)境 (風(fēng)聲、水聲及蟲鳴)。實(shí)際過程中通過噪聲現(xiàn)場錄音方法收集每個(gè)先驗(yàn)場景下的數(shù)據(jù),利用最大似然線性回歸方法估計(jì)一個(gè)全局偏置矢量作為相對于純凈語音的環(huán)境偏差。采用的環(huán)境補(bǔ)償方法是從相似的應(yīng)用場景中獲取知識通過某些預(yù)先偏差補(bǔ)償受噪降低的語音。模式補(bǔ)償方法提出瞬間偏差的估計(jì)是多種先驗(yàn)偏差模板線性時(shí)變的結(jié)合,偏差模式由幾個(gè)代表典型應(yīng)用場景的環(huán)境特性在訓(xùn)練過程計(jì)算得到。為了便于準(zhǔn)確理解本發(fā)明的技術(shù)方案,下面結(jié)合具體實(shí)施例對本發(fā)明的方法的關(guān)鍵技術(shù)部分進(jìn)行詳細(xì)說明,至于其它與現(xiàn)有語音識別技術(shù)相同的部分,由于本領(lǐng)域的技術(shù)人員結(jié)合本文的描述可以準(zhǔn)確理解,故此處則不再一一贅述。移動(dòng)環(huán)境中語音識別魯棒性改善的主要障礙包括由加性噪音、通道編碼和解碼中的非線性特征及脈沖干擾源產(chǎn)生的聽覺降低。考慮到農(nóng)業(yè)語音識別的有限訓(xùn)練樣本和移動(dòng)設(shè)備資源有限性,本方法采取從相似的應(yīng)用場景中獲取知識通過某些預(yù)先偏差來補(bǔ)償受噪影響的語音信號。在移動(dòng)環(huán)境中,加性噪音和卷積噪音會同時(shí)破壞語音信號,在倒譜范圍里引出了一個(gè)時(shí)間變量偏差,瞬間的偏差是各種不同程度噪音、信道、甚至語音本身作用的混合。變化的偏差函數(shù)定義為
權(quán)利要求
1.一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法,其特征在于,該方法是基于移動(dòng)設(shè)備語音識別特征補(bǔ)償和模型補(bǔ)償相結(jié)合的抗噪方法,針對農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集典型應(yīng)用場景的非平穩(wěn)噪聲環(huán)境,尋找穩(wěn)健的耐噪聲語音特征參數(shù)以及從含噪語音中提取的特征進(jìn)行處理,去除由噪聲引起的含噪語音特征和純凈語音特征之間的偏差,以有效提高系統(tǒng)識別準(zhǔn)確率。
2.如權(quán)利要求1所述的方法,其特征在于,所述方法包括模型補(bǔ)償、場景偏差計(jì)算、初始權(quán)重調(diào)整、環(huán)境補(bǔ)償和自適應(yīng)控制;語音信號經(jīng)過模型補(bǔ)償進(jìn)行MFCC特征提取,與權(quán)值系數(shù)完成卷積運(yùn)算,與背景噪聲完成迭加后得到含噪特征矢量,然后經(jīng)過場景偏差計(jì)算,根據(jù)計(jì)算結(jié)果進(jìn)行場景初始權(quán)重系數(shù)調(diào)整,使場景初始權(quán)重根據(jù)輸入信號的變動(dòng)自動(dòng)學(xué)習(xí), 而不斷調(diào)整權(quán)值系數(shù)并始終保持均方差最小。
3.如權(quán)利要求1所述的方法,其特征在于,所述方法是通過一個(gè)帶偏差的固定模式來糾正數(shù)據(jù)訓(xùn)練時(shí)的環(huán)境變量,其中數(shù)據(jù)訓(xùn)練是根據(jù)一組事先定義好的應(yīng)用場景下得到的, 在識別時(shí),瞬時(shí)偏差由多種可能的模式線性加權(quán)得到。
4.如權(quán)利要求1所述的方法,其特征在于,所述方法采用基于語音相關(guān)先驗(yàn)?zāi)J降呢惾~斯學(xué)習(xí)法來快速估計(jì)加權(quán)值;對于先驗(yàn)數(shù)據(jù)統(tǒng)計(jì),在訓(xùn)練其間提前計(jì)算固定模式的偏差和模式的初始權(quán)重。
5.如權(quán)利要求4所述的方法,其特征在于,所述固定模式是通過把某些特定的場景分類合并的方式獲得,選擇三種情形下的移動(dòng)環(huán)境作為代表以辦公室及/或溫室大棚為代表的室內(nèi)環(huán)境、以市場為代表的背景噪音的公共場所和以具有風(fēng)聲、水聲及/或蟲鳴的野外環(huán)境。
6.如權(quán)利要求1所述的方法,其特征在于,通過噪聲現(xiàn)場錄音方法收集每個(gè)先驗(yàn)場景下的數(shù)據(jù),利用最大似然線性回歸方法估計(jì)一個(gè)全局偏置矢量作為相對于純凈語音的環(huán)境偏差;從相似的應(yīng)用場景中獲取知識通過某些預(yù)先偏差補(bǔ)償受噪降低的語音。
7.如權(quán)利要求1所述的方法,其特征在于,模式補(bǔ)償方法中瞬間偏差的估計(jì)是多種先驗(yàn)偏差模板線性時(shí)變的結(jié)合,偏差模式由幾個(gè)代表典型應(yīng)用場景的環(huán)境特性在訓(xùn)練過程計(jì)算得到。
8.如權(quán)利要求4所述的方法,其特征在于,所述固定模式的偏差是采用語音碼本的信號評估方法獲得,其中,變化的偏差函數(shù)定義為bt = f(Xt,Nt,Ht)(1)其中Xt,Ht和Nt分別代表語音、過濾和噪音;考慮一個(gè)純凈語音環(huán)境,通過把可能的噪聲語音數(shù)據(jù)最大化能夠計(jì)算出一個(gè)變化的環(huán)境偏差;語音數(shù)據(jù)的統(tǒng)計(jì)用一個(gè)編碼本來模擬ΩΜ={ωω}1 彡m彡M ωω = { α m,n ; μ m,n ; Σ ffl,n} 1 ^ η ^ N(2)M代表編碼數(shù),每個(gè)編碼都是一個(gè)N階混合正態(tài)分布,α m, η ; μ m, η ; Σ m, η分別代表混合權(quán)重、均值和協(xié)方差矩陣,0代表當(dāng)前幀的語音特征
9.如權(quán)利要求8所述的方法,其特征在于,基于固定模式的動(dòng)態(tài)補(bǔ)償方法如下 給出Xt,Ht和Nt的聯(lián)合分布,偏差可以在整個(gè)隨機(jī)空間按積分計(jì)算
10.如權(quán)利要求9所述的方法,其特征在于,對于基于HMM的語音識別系統(tǒng),多模板的譜加訓(xùn)練噪聲補(bǔ)償方法如下假定噪聲模板為N = (N1, N2,…,NJ其中M代表環(huán)境噪聲種類,Ni = (Ni(Co1),隊(duì)(《2),,^(ωΒ)},對于詞表中的某個(gè)詞在安靜環(huán)境中得到K遍訓(xùn)練語音,求MFCC參數(shù)可得B個(gè)頻譜,對一個(gè)T幀的語音可以得到T個(gè)頻譜矢量序列,將每一幀頻譜矢量分別加相應(yīng)方差矢量中的某一個(gè)矢量,便得到一個(gè)新的T幀的頻譜矢量序列,連同原來的頻譜矢量序列,總共可以得到Μ+1個(gè)T幀的頻譜矢量序列;對每一個(gè)頻譜矢量求離散余弦反變換,得到MFCC參數(shù),將一遍語音便擴(kuò)展成Μ+1遍的MFCC參數(shù)序列,共得到K(Μ+1) 遍參數(shù)序列,用這些參數(shù)序列訓(xùn)練該語音的隱馬爾可夫模型進(jìn)行模型補(bǔ)償。
全文摘要
本發(fā)明提出一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法,該方法是基于移動(dòng)設(shè)備語音識別特征補(bǔ)償和模型補(bǔ)償相結(jié)合的抗噪方法,針對農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集典型應(yīng)用場景的非平穩(wěn)噪聲環(huán)境,尋找穩(wěn)健的耐噪聲語音特征參數(shù)以及從含噪語音中提取的特征進(jìn)行處理,去除由噪聲引起的含噪語音特征和純凈語音特征之間的偏差,以有效提高系統(tǒng)識別準(zhǔn)確率。本發(fā)明的方法復(fù)雜性低,更容易實(shí)施,同時(shí)由于基于農(nóng)業(yè)特定情景的偏差模式要求的訓(xùn)練數(shù)據(jù)少,實(shí)時(shí)性好,更適合于在移動(dòng)設(shè)備有限的計(jì)算和存儲資源條件下應(yīng)用。
文檔編號G10L15/20GK102426837SQ20111045399
公開日2012年4月25日 申請日期2011年12月30日 優(yōu)先權(quán)日2011年12月30日
發(fā)明者諸葉平, 趙俊峰 申請人:中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所