農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法

文檔序號：2836184閱讀：963來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法
技術(shù)領(lǐng)域：
本發(fā)明涉及屬于智能信息處理、農(nóng)業(yè)信息技術(shù)領(lǐng)域，尤其是指一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法。
背景技術(shù)：
我國地域跨度大，地理環(huán)境復(fù)雜，農(nóng)業(yè)生產(chǎn)水平和科技水平發(fā)展不平衡，移動(dòng)設(shè)備的應(yīng)用多樣性和靈活性可以幫助解決在農(nóng)業(yè)信息化進(jìn)程中所遇到的來源于基層的前端技術(shù)困難，即原始信息的采集和控制問題。語音識別技術(shù)是解決移動(dòng)設(shè)備交互問題的重要途徑，隨著農(nóng)業(yè)現(xiàn)代化進(jìn)程的不斷深入，語音識別技術(shù)在農(nóng)業(yè)信息領(lǐng)域的重要性越來越突出，在農(nóng)業(yè)科學(xué)研究、農(nóng)業(yè)生產(chǎn)和農(nóng)產(chǎn)品信息采集領(lǐng)域都有著廣泛應(yīng)用。但基于移動(dòng)設(shè)備的語音識別距離實(shí)用化還有一定距離，一方面，移動(dòng)條件下各種不良聲學(xué)環(huán)境的環(huán)境噪聲限制了語音識別技術(shù)的應(yīng)用，另一方面，非特定人連續(xù)語音識別對移動(dòng)設(shè)備的語音識別技術(shù)提出了更高的魯棒性要求?，F(xiàn)有的語音識別魯棒性方法主要面臨以下問題1、語音信號是一種非平穩(wěn)信號，常用的噪聲補(bǔ)償方法都是建立在線性平穩(wěn)信號的假設(shè)上，考慮時(shí)變因素和非線性影響的情形非常復(fù)雜。2、連續(xù)語音信號的聲學(xué)特征隨其前后相連的語音的不同而有很大差異，限制了語音識別在低信噪比移動(dòng)設(shè)備上的實(shí)際應(yīng)用。3、大詞匯量連續(xù)語音識別系統(tǒng)適應(yīng)性差，對環(huán)境的依賴性較強(qiáng)，噪聲環(huán)境下語音識別準(zhǔn)確率的提高難度大。在通用領(lǐng)域大詞匯量連續(xù)語音識別的背景下解決上述問題非常困難，在特定領(lǐng)域中小詞匯量的應(yīng)用方面，移動(dòng)設(shè)備的語音識別應(yīng)用需要適應(yīng)小數(shù)據(jù)的新環(huán)境，而桌面語音識別常用的具有復(fù)雜參數(shù)的最大似然線性回歸方法復(fù)雜度又超出了移動(dòng)設(shè)備的計(jì)算能力。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提出一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別魯棒性方法，提高了識別魯棒性，降低了識別難度，改善了農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集語音識別的環(huán)境適應(yīng)性。本發(fā)明的技術(shù)解決方案是一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法，該方法是基于移動(dòng)設(shè)備語音識別特征補(bǔ)償和模型補(bǔ)償相結(jié)合的抗噪方法，針對農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集典型應(yīng)用場景的非平穩(wěn)噪聲環(huán)境，尋找穩(wěn)健的耐噪聲語音特征參數(shù)以及從含噪語音中提取的特征進(jìn)行處理，去除由噪聲引起的含噪語音特征和純凈語音特征之間的偏差，以有效提高系統(tǒng)識別準(zhǔn)確率。本發(fā)明的特點(diǎn)和優(yōu)點(diǎn)是本發(fā)明為提高農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集語音識別的魯棒性，針對農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集典型應(yīng)用場景的非平穩(wěn)噪聲環(huán)境，尋找穩(wěn)健的耐噪聲語音特征參數(shù)以及從含噪語音中提取的特征進(jìn)行處理，提出一種基于移動(dòng)設(shè)備語音識別特征補(bǔ)償和模型補(bǔ)償相結(jié)合的抗噪方法，去除由噪聲引起的含噪語音特征和純凈語音特征之間的偏差，以達(dá)
4到有效提高系統(tǒng)識別準(zhǔn)確率的目的，在農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集領(lǐng)域中小詞匯量低信噪比條件下，本發(fā)明提高了移動(dòng)設(shè)備語音識別在室內(nèi)、室外和野外典型環(huán)境下的抗噪特性，具有一定的可靠性和實(shí)用性。本方法復(fù)雜性低，更容易實(shí)施，同時(shí)由于基于農(nóng)業(yè)特定情景的偏差模式要求的訓(xùn)練數(shù)據(jù)少，實(shí)時(shí)性好，更適合于在移動(dòng)設(shè)備有限的計(jì)算和存儲資源條件下應(yīng)用。

圖1為本發(fā)明的農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法的原理圖。圖2為本發(fā)明的農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法的模塊框圖。
具體實(shí)施例方式下面配合附圖及具體實(shí)施例對本發(fā)明的具體實(shí)施方式
作進(jìn)一步的詳細(xì)說明。本發(fā)明提出一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法，所述方法包括模型補(bǔ)償、場景偏差計(jì)算、初始權(quán)重調(diào)整、環(huán)境補(bǔ)償和自適應(yīng)控制；語音信號經(jīng)過模型補(bǔ)償進(jìn)行MFCC特征提取，與權(quán)值系數(shù)完成卷積運(yùn)算，與背景噪聲完成迭加后得到含噪特征矢量，然后經(jīng)過場景偏差計(jì)算，根據(jù)計(jì)算結(jié)果進(jìn)行場景初始權(quán)重系數(shù)調(diào)整，使場景初始權(quán)重根據(jù)輸入信號的變動(dòng)自動(dòng)學(xué)習(xí)，而不斷調(diào)整權(quán)值系數(shù)并始終保持均方差最小。語音在從產(chǎn)生、采集為數(shù)字信號、調(diào)制傳輸解調(diào)整個(gè)過程都不可避免的受到外界的干擾，包括周圍環(huán)境噪聲的影響，語音信號采集設(shè)備的影響，傳輸調(diào)制信道的影響等。語音特征分布的環(huán)境變量的變化比語音信號變量的變化要慢，在一個(gè)短時(shí)間窗的噪聲語音和模型分布之間進(jìn)行隨機(jī)匹配，從噪聲語音數(shù)據(jù)找出并去除瞬間的非語音變化，可以使得語音識別精度可得到顯著改善。如圖1所示，其為本發(fā)明的設(shè)計(jì)原理圖。本發(fā)明是基于穩(wěn)定性的考慮提出的一種基于模式的動(dòng)態(tài)補(bǔ)償方案，用來改善移動(dòng)環(huán)境下語音識別的魯棒性。該方法定義了一個(gè)帶偏差的固定模式來糾正數(shù)據(jù)訓(xùn)練時(shí)的環(huán)境變量，假設(shè)數(shù)據(jù)訓(xùn)練是根據(jù)一組事先定義好的應(yīng)用場景下得到的，在識別時(shí)，瞬時(shí)偏差由多種可能的模式線性加權(quán)得到。為了快速估計(jì)加權(quán)值，采用基于語音相關(guān)先驗(yàn)?zāi)Ｊ降呢惾~斯學(xué)習(xí)法，對于先驗(yàn)數(shù)據(jù)統(tǒng)計(jì)在訓(xùn)練其間提前計(jì)算，一個(gè)是固定模式的偏差，一個(gè)是模式的初始權(quán)重。固定模式通過把某些特定的場景分類合并的方式獲得，選擇三種情形下的移動(dòng)環(huán)境作為代表室內(nèi)環(huán)境(辦公室/溫室大棚)、公共場所(市場，有背景噪音)和野外環(huán)境 (風(fēng)聲、水聲及蟲鳴)。實(shí)際過程中通過噪聲現(xiàn)場錄音方法收集每個(gè)先驗(yàn)場景下的數(shù)據(jù)，利用最大似然線性回歸方法估計(jì)一個(gè)全局偏置矢量作為相對于純凈語音的環(huán)境偏差。采用的環(huán)境補(bǔ)償方法是從相似的應(yīng)用場景中獲取知識通過某些預(yù)先偏差補(bǔ)償受噪降低的語音。模式補(bǔ)償方法提出瞬間偏差的估計(jì)是多種先驗(yàn)偏差模板線性時(shí)變的結(jié)合，偏差模式由幾個(gè)代表典型應(yīng)用場景的環(huán)境特性在訓(xùn)練過程計(jì)算得到。為了便于準(zhǔn)確理解本發(fā)明的技術(shù)方案，下面結(jié)合具體實(shí)施例對本發(fā)明的方法的關(guān)鍵技術(shù)部分進(jìn)行詳細(xì)說明，至于其它與現(xiàn)有語音識別技術(shù)相同的部分，由于本領(lǐng)域的技術(shù)人員結(jié)合本文的描述可以準(zhǔn)確理解，故此處則不再一一贅述。移動(dòng)環(huán)境中語音識別魯棒性改善的主要障礙包括由加性噪音、通道編碼和解碼中的非線性特征及脈沖干擾源產(chǎn)生的聽覺降低。考慮到農(nóng)業(yè)語音識別的有限訓(xùn)練樣本和移動(dòng)設(shè)備資源有限性，本方法采取從相似的應(yīng)用場景中獲取知識通過某些預(yù)先偏差來補(bǔ)償受噪影響的語音信號。在移動(dòng)環(huán)境中，加性噪音和卷積噪音會同時(shí)破壞語音信號，在倒譜范圍里引出了一個(gè)時(shí)間變量偏差，瞬間的偏差是各種不同程度噪音、信道、甚至語音本身作用的混合。變化的偏差函數(shù)定義為
權(quán)利要求
1.一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法，其特征在于，該方法是基于移動(dòng)設(shè)備語音識別特征補(bǔ)償和模型補(bǔ)償相結(jié)合的抗噪方法，針對農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集典型應(yīng)用場景的非平穩(wěn)噪聲環(huán)境，尋找穩(wěn)健的耐噪聲語音特征參數(shù)以及從含噪語音中提取的特征進(jìn)行處理，去除由噪聲引起的含噪語音特征和純凈語音特征之間的偏差，以有效提高系統(tǒng)識別準(zhǔn)確率。
2.如權(quán)利要求1所述的方法，其特征在于，所述方法包括模型補(bǔ)償、場景偏差計(jì)算、初始權(quán)重調(diào)整、環(huán)境補(bǔ)償和自適應(yīng)控制；語音信號經(jīng)過模型補(bǔ)償進(jìn)行MFCC特征提取，與權(quán)值系數(shù)完成卷積運(yùn)算，與背景噪聲完成迭加后得到含噪特征矢量，然后經(jīng)過場景偏差計(jì)算，根據(jù)計(jì)算結(jié)果進(jìn)行場景初始權(quán)重系數(shù)調(diào)整，使場景初始權(quán)重根據(jù)輸入信號的變動(dòng)自動(dòng)學(xué)習(xí)，而不斷調(diào)整權(quán)值系數(shù)并始終保持均方差最小。
3.如權(quán)利要求1所述的方法，其特征在于，所述方法是通過一個(gè)帶偏差的固定模式來糾正數(shù)據(jù)訓(xùn)練時(shí)的環(huán)境變量，其中數(shù)據(jù)訓(xùn)練是根據(jù)一組事先定義好的應(yīng)用場景下得到的，在識別時(shí)，瞬時(shí)偏差由多種可能的模式線性加權(quán)得到。
4.如權(quán)利要求1所述的方法，其特征在于，所述方法采用基于語音相關(guān)先驗(yàn)?zāi)Ｊ降呢惾~斯學(xué)習(xí)法來快速估計(jì)加權(quán)值；對于先驗(yàn)數(shù)據(jù)統(tǒng)計(jì)，在訓(xùn)練其間提前計(jì)算固定模式的偏差和模式的初始權(quán)重。
5.如權(quán)利要求4所述的方法，其特征在于，所述固定模式是通過把某些特定的場景分類合并的方式獲得，選擇三種情形下的移動(dòng)環(huán)境作為代表以辦公室及/或溫室大棚為代表的室內(nèi)環(huán)境、以市場為代表的背景噪音的公共場所和以具有風(fēng)聲、水聲及/或蟲鳴的野外環(huán)境。
6.如權(quán)利要求1所述的方法，其特征在于，通過噪聲現(xiàn)場錄音方法收集每個(gè)先驗(yàn)場景下的數(shù)據(jù)，利用最大似然線性回歸方法估計(jì)一個(gè)全局偏置矢量作為相對于純凈語音的環(huán)境偏差；從相似的應(yīng)用場景中獲取知識通過某些預(yù)先偏差補(bǔ)償受噪降低的語音。
7.如權(quán)利要求1所述的方法，其特征在于，模式補(bǔ)償方法中瞬間偏差的估計(jì)是多種先驗(yàn)偏差模板線性時(shí)變的結(jié)合，偏差模式由幾個(gè)代表典型應(yīng)用場景的環(huán)境特性在訓(xùn)練過程計(jì)算得到。
8.如權(quán)利要求4所述的方法，其特征在于，所述固定模式的偏差是采用語音碼本的信號評估方法獲得，其中，變化的偏差函數(shù)定義為bt = f(Xt，Nt，Ht)(1)其中Xt，Ht和Nt分別代表語音、過濾和噪音；考慮一個(gè)純凈語音環(huán)境，通過把可能的噪聲語音數(shù)據(jù)最大化能夠計(jì)算出一個(gè)變化的環(huán)境偏差；語音數(shù)據(jù)的統(tǒng)計(jì)用一個(gè)編碼本來模擬ΩΜ={ωω}1 彡m彡M ωω = { α m,n ； μ m,n ； Σ ffl,n} 1 ^ η ^ N(2)M代表編碼數(shù)，每個(gè)編碼都是一個(gè)N階混合正態(tài)分布，α m, η ； μ m, η ； Σ m, η分別代表混合權(quán)重、均值和協(xié)方差矩陣，0代表當(dāng)前幀的語音特征
9.如權(quán)利要求8所述的方法，其特征在于，基于固定模式的動(dòng)態(tài)補(bǔ)償方法如下給出Xt，Ht和Nt的聯(lián)合分布，偏差可以在整個(gè)隨機(jī)空間按積分計(jì)算
10.如權(quán)利要求9所述的方法，其特征在于，對于基于HMM的語音識別系統(tǒng)，多模板的譜加訓(xùn)練噪聲補(bǔ)償方法如下假定噪聲模板為N = (N1, N2,…，NJ其中M代表環(huán)境噪聲種類，Ni = (Ni(Co1),隊(duì)(《2)，，^(ωΒ)}，對于詞表中的某個(gè)詞在安靜環(huán)境中得到K遍訓(xùn)練語音，求MFCC參數(shù)可得B個(gè)頻譜，對一個(gè)T幀的語音可以得到T個(gè)頻譜矢量序列，將每一幀頻譜矢量分別加相應(yīng)方差矢量中的某一個(gè)矢量，便得到一個(gè)新的T幀的頻譜矢量序列，連同原來的頻譜矢量序列，總共可以得到Μ+1個(gè)T幀的頻譜矢量序列；對每一個(gè)頻譜矢量求離散余弦反變換，得到MFCC參數(shù)，將一遍語音便擴(kuò)展成Μ+1遍的MFCC參數(shù)序列，共得到K(Μ+1) 遍參數(shù)序列，用這些參數(shù)序列訓(xùn)練該語音的隱馬爾可夫模型進(jìn)行模型補(bǔ)償。
全文摘要
本發(fā)明提出一種農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集的移動(dòng)設(shè)備語音識別的魯棒性方法，該方法是基于移動(dòng)設(shè)備語音識別特征補(bǔ)償和模型補(bǔ)償相結(jié)合的抗噪方法，針對農(nóng)業(yè)現(xiàn)場數(shù)據(jù)采集典型應(yīng)用場景的非平穩(wěn)噪聲環(huán)境，尋找穩(wěn)健的耐噪聲語音特征參數(shù)以及從含噪語音中提取的特征進(jìn)行處理，去除由噪聲引起的含噪語音特征和純凈語音特征之間的偏差，以有效提高系統(tǒng)識別準(zhǔn)確率。本發(fā)明的方法復(fù)雜性低，更容易實(shí)施，同時(shí)由于基于農(nóng)業(yè)特定情景的偏差模式要求的訓(xùn)練數(shù)據(jù)少，實(shí)時(shí)性好，更適合于在移動(dòng)設(shè)備有限的計(jì)算和存儲資源條件下應(yīng)用。
文檔編號G10L15/20GK102426837SQ20111045399
公開日2012年4月25日申請日期2011年12月30日優(yōu)先權(quán)日2011年12月30日
發(fā)明者諸葉平, 趙俊峰申請人:中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所

完整全部詳細(xì)技術(shù)資料下載