專利名稱:基于語音識別專用芯片的非特定人語音識別、語音提示方法
技術領域:
本發(fā)明屬于語音技術領域,尤其涉及采用8位或16位單片MCU微控制器實現(xiàn)小詞表特定人、非特定人語音識別方法。特別適合用于8位微控制器的語音識別專用芯片。
特定人語音識別專用芯片,近年來在國外發(fā)展很快。國外一些語音技術和半導體公司都投入大量人力和物力開發(fā)語音識別專用芯片,并對自己的語音識別方法進行專利保護。這些專用芯片的語音識別性能也各不相同。通常語音識別的過程如
圖1所示,輸入的語音信號首先經(jīng)過A/D進行采樣,頻譜整形加窗預加重處理,提高高頻成分,進行實時特征參數(shù)提取,提取的參數(shù)為線性預測倒譜系數(shù)(LPCC)或Me1頻標倒譜系數(shù)(MFCC),然后進行端點檢測,提取有效語音參數(shù),并進行語音識別模板訓練或語音識別模板匹配,并將最好的識別結(jié)果輸出。其專用芯片的硬件系統(tǒng)一般如圖2所示,包括執(zhí)行語音識別和語音合成方法的8位或16位單片MCU微控制器及與其相連的自動增益控制(AGC)、音頻前置放大器、低通濾波器、數(shù)/模(A/D)、模/數(shù)(D/A)、音頻功率放大器、語音合成器、隨機存儲器(RAM)、只讀存儲器(ROM)、脈寬調(diào)制(PWM)。目前美國Sensory公司生產(chǎn)的語音識別專用芯片RSC-164系列產(chǎn)品是目前國際上可以買到識別性能最好專用芯片之一。這些語音識別專用芯片已經(jīng)用于不同的手機和無繩電話中。隨著語音識別技術提高,語音識別專用芯片將被廣泛地應用于各種家用電器和控制系統(tǒng)中,形成信息家電產(chǎn)業(yè),這是一個迅速發(fā)展而且潛力很大的新興高科技產(chǎn)業(yè)。目前Philips公司和韓國三星公司推出的具有特定人語音識別聲控撥號功能的手機。識別人名的個數(shù)為10~20個。而且并不具有非特定人語音識別的能力。目前還未見到基于專用芯片的非特定人的中文語音識別方法,非特定人的英文語音識別方法也只能識別極少量詞匯,如yes、no等。
本發(fā)明的目的是為克服已有技術的不足之處,提出一種基于語音識別專用芯片的非特定人語音識別、語音提示方法,可在廉價8位單片或16位MCU微控制器實現(xiàn)高精度特定人語音識別,具有方法復雜度低,識別精度高和穩(wěn)健性好的特點。特別是對漢語數(shù)碼語音識別性能達到、甚至超過當前的國際先進水平。
本發(fā)明提出一種基于語音識別專用芯片的非特定人語音識別、語音提示方法,包括A/D采樣,頻譜整形加窗預加重處理,特征參數(shù)提取,端點檢測,語音識別模板訓練,語音識別模板匹配,識別結(jié)果輸出,以及語音合成,其特征在于,具體包括以下步驟A、非特定人語音識別的預先訓練訓練過程要求有大量的語音庫,訓練過程在PC機上完成,將訓練后的模板存入芯片中,其訓練方法包括采用基于多項式的分類方法;識別模型的參數(shù)用多項式的系數(shù)來表示;通過多項式來逼近后驗概率;模型參數(shù)通過線性方程組的優(yōu)化計算方法求得;B、語音識別參數(shù)提取(1)語音信號輸入后采用A/D進行采樣,成為原始的數(shù)字語音,采用電平增益控制,以確保采樣的高精度;(2)對所說的原始數(shù)字語音信號進行頻譜整形及分幀加窗處理,以保證分幀語音的準平穩(wěn)性;(3)對所說的分幀語音的特征進行語音特征提取,主要特征參數(shù)采用線性預測倒頻譜系數(shù)(LPCC),并存儲用于后面動態(tài)分段和模板提?。?4)使用語音信號的過零率與短時能量特征進行端點檢測,去除無聲區(qū)的語音幀,以保證各幀語音特征的有效性;C、非特定人語音命令的識別識別過程采用兩級識別結(jié)構(gòu),分為粗識別和精識別。對不容易混淆的命令粗識別就可以得出結(jié)果,對易于混淆的命令通過更精細的模型進行識別;D、非特定人語音識別的說話人自適應學習對說話人具有地方口音或說話不規(guī)范時,識別系統(tǒng)會造成誤判,采用說話人自適應方法對識別模板進行調(diào)整;所說的自適應調(diào)整方法采用最大后驗概率方法,通過迭代方法逐步修正識別模板參數(shù);E.語音提示語音提示使用語音合成與語音編解碼技術,但考慮到系統(tǒng)資源的限制,應該盡可能減小系統(tǒng)的開銷;語音合成模型參數(shù)分析提取過程在計算機上完成,然后存儲在芯片中,因此語音分析參數(shù)提取方法可以非常復雜,從而保證有高質(zhì)量的合成語音,但需要存儲的語音合成模型參數(shù)應盡可能少,語音合成方法也要盡可能簡單;本發(fā)明的語音合成模型使用多脈沖語音合成模型。
所說的語音特征提取中的電平增益控制可包括對輸入語音信號采樣精度進行判斷,如果輸入語音信號采樣精度不夠高,通過自適應電平控制,調(diào)整語音的放大量,提高語音采樣精度;所說的端點檢測方法為根據(jù)設定的端點門限,搜索靜音段,確定語音的起、始端點;所說的倒譜參數(shù)是根據(jù)語音的線性預測模型(LPC)計算得到。
所說的語音識別的預先訓練方法中的識別模型訓練過程可為建立要識別語音命令的數(shù)據(jù)庫,然后提取語音的特征參數(shù),特征參數(shù)提取的過程與前面相同。通過迭代的學習過程,提取基于多項式的分類模型的識別參數(shù)。學習過程采用次優(yōu)方法,每次調(diào)整多項式的分類模型中一個參數(shù),直到所要求的模型參數(shù)都計算出來;整個訓練過程在計算機上完成,最后將訓練后得出的模型參數(shù)存入語音識別專用芯片中,作為識別模型;這是與特定人語音識別不同的地方;所說的語音命令識別方法的中識別過程可為計算每個多項式的分類模型的輸出結(jié)果,取輸出概率最大的模型為識別結(jié)果;識別過程采用粗識別和精識別兩級識別;其區(qū)別在于粗識別的模型參數(shù)較少,識別速度快,精識別模型參數(shù)較多。對易于混淆的命令通過精識別可以提高識別率。
所說的語音命令的識別方法中的自適應采用模型自適應調(diào)整技術,對識別錯誤的語音命令,通過自適應學習后,識別率可以明顯改進。自適應過程可為輸入要求自適應的語音數(shù)據(jù),采用基于最大后驗概率的自適應方法,通過迭代分別對語音識別參數(shù)進行調(diào)整,使模型之間鑒別測度保持最大鑒別性。
所說的語音提示中的采用語音合成方法,具體可包括以下步驟(1)使用多脈沖語音合成模型,在PC機上通過優(yōu)化方法提取語音合成模型的LPC參數(shù)與激勵參數(shù)。
(2)LPC參數(shù)的量化用10個比特進行矢量量化;LPC模型的激勵脈沖的個數(shù)為25個,采用一階基音周期環(huán)路,這些參數(shù)使用189個比特進行標量量化。
(3)為保證合成語音的平滑,在幀間進行線性插值。
本發(fā)明具有如下特點(1)本發(fā)明為基于語音識別專用芯片的中小詞匯量非特定人語音識別方法。這些方法具有復雜性低、識別精度高、穩(wěn)健性好等特點。
(2)采用識別參數(shù)與編碼參數(shù)共享的辦法,從而大大減少了對系統(tǒng)資源的要求,同時保證有很高的編碼質(zhì)量。
(3)由于采用8位MCU或16位DSP為核心,采用10位線性A/D、D/A,因此該芯片具有體積小、重量輕、耗電省、成本低等突出特點。在通信、工業(yè)控制、智能型家用電器、智能玩具、汽車電子等領域有著極大的應用價值。
(4)本發(fā)明的語音識別命令條數(shù)在8位芯上為10條以內(nèi),在16位芯片上為30條。對8位芯片識別率為95%以上,對16位芯片識別率為98%以上。
附簡要說明圖1為通常語音識別的過程示意框圖。
圖2為一般語音專用芯片的硬件系統(tǒng)組成示意圖。
圖3為本發(fā)明實施例的方法總體構(gòu)成示意圖。
圖4本實施例的端點檢測方法框圖如所示。
圖5為本實施例的非特定人語音訓練過程整體流程框圖。
圖6為本實施例的非特定人孤立詞識別器的識別流程框圖。
圖7為本實施例的識別判決過程詳細流程圖。
本發(fā)明提出的一種基于語音識別專用芯片的非特定人語音識別、語音提示方法實施例結(jié)合各圖詳細說明如下本發(fā)明的實施例整個方法構(gòu)成如圖3所示,整個過程可以分為(1)A/D采樣及采樣后語音的與加重,提高高頻信號的能量,加窗分幀處理;(2)語音特征參數(shù)的提取(包括端點檢測參數(shù)、識別模型參數(shù))、(3)端點檢測,確定有效的語音參數(shù);(4)對有效的語音特征參數(shù)進行動態(tài)分段,以減小參數(shù)的模板存儲空間;(5)語音識別通過模式匹配方法進行模板比較,并將語音識別結(jié)果輸出。每個步驟的細節(jié)說明如下。1、語音識別參數(shù)特征提取(1)語音信號首先進行低通濾波器,然后通過10-位線性A/D進行采樣,成為原始的數(shù)字語音,采用10位A/D的目的是為了降低芯片的成本。由于A/D的精度低,因此從方法上要對增益控制放大器進行控制、以及對輸入信號的能量和過載情況進行判斷,以便確保充分利用好10位A/D的動態(tài)范圍,得到盡可能高的采樣精度。(2)對原始數(shù)字語音信號進行頻譜整形及分幀加窗處理,保證分幀語音的準平穩(wěn)性。預加重濾波器取為1-0.95z-1,過零率計算中,抬起電平取為4。(3)對分幀語音的特征進行語音特征提取,語音特征包括LPCC倒譜系數(shù)、能量、過零率等,并存儲用于后面動態(tài)分段。其中很重要的一步相關函數(shù)值的計算需要實時完成,由于基于8位的單片機僅有8位的無符號乘法,因此計算相關函數(shù)值的過程如下α(n)=s(n)+128R(i)=Σns(n)×s(n+i)=Σn(a(n)-128)×(a(n+i)-128)]]>=Σna(n)×a(n+i)-128×Σn(a(n)+a(n+i))+Σn128×128]]>上式中,s(n)為有8位有符號數(shù),轉(zhuǎn)換成為無符號數(shù)α(n)。顯然乘積用三個字節(jié)保存不可能發(fā)生溢出(幀長不大于256)。2、端點檢測(1)保證各幀語音特征的有效性,消除無關的噪聲,必須進行語音的端點檢測和判斷。本發(fā)明的端點檢測方法分為兩步,首先根據(jù)語音信號能量對端點進行初步判決,當能量大于某一確定值后,確定為初步的起始點,然后從該起點繼續(xù)向后尋找語音信號能量更大的濁音幀,進行濁音段定位。如果濁音幀存在說明該端點判斷基本正確,從濁音幀開始向前、向后搜索靜音幀作為語音的起始幀。將搜索的結(jié)果輸出。端點檢測框圖如圖4所示。它的基本方法為ZERO_RATE_TH是過零率的一個閾值,ACTIVE_LEVEL、INACTIVE_LEVEL和ON_LEVEL是能量的閾值。(2)系統(tǒng)的初始值定為無聲狀態(tài)。在無聲狀態(tài)下,當過零率超過閾值ZERO_RATE_TH或能量超過閾值ACTIVE_LEVEL′時,轉(zhuǎn)入激活狀態(tài),若能量超過閾值ON_LEVEL,則直接轉(zhuǎn)入有聲狀態(tài)。記此幀為語音的前端點。(3)在激活狀態(tài)下,若能量超過閾值ON_LEVEL,則轉(zhuǎn)入有聲狀態(tài);若連續(xù)若干幀(由常數(shù)CONST_DURATION設定)能量都超不過閾值ON_LEVEL,轉(zhuǎn)入無聲態(tài)。(4)在有聲狀態(tài),若能量低于閾值INACTIVE_LEVEL,則轉(zhuǎn)入非激活狀態(tài)。標記此幀為語音的后端點。(5)在非激活狀態(tài),若連續(xù)若干幀(由常數(shù)CONST_DURATION設定)能量都超不過閾值INACTIVE_LEVEL,則語音結(jié)束;否則轉(zhuǎn)入有聲狀態(tài)。
參數(shù)的實際取值如下ZERO_RATE_TH取為0.4,ACTIVE_LEVEL更據(jù)背景噪音設置,INACTIVE_LEVEL取為ACTIVE_LEVEL的4倍,ON_LEVEL取為ACTIVE_LEVEL的8倍,CONST_DURATION設為20幀。
3、語音特征動態(tài)分段、加權(quán)平均(1)對輸入語音特征進行動態(tài)分段和加權(quán)平均,提高清輔音特征參數(shù)在識別中的比重,提取語音特征中最重要的模板參數(shù)。語音特征分段是該系統(tǒng)語音識別方法的核心之一。
(2)動態(tài)分段采用計算不同幀間的語音特征參數(shù)的歸一化歐氏距離。當變化超過一定的門限,認定該點為語音特征重要分界點。對不同段內(nèi)語音特征進行加權(quán)平均,并把它們作為新的語音特征參數(shù)保存下來,并清除早先的語音特征。
通過平均使模型參數(shù)大大地減小,不僅節(jié)省存儲空間,而且減少了運算的復雜度和提高了系統(tǒng)運算速度。
4、非特定人語音識別模板的訓練非特定人語音識別模板參數(shù)的訓練在計算機上完成,首先進行語音特征參數(shù)的提取,使用基于多項式分類模型,通過多項式來逼近后驗概率。多項式模型的階數(shù)和模型精度有關,采用二次多項式分類模型就可以達到很高識別精度。整個方法如下令F(V)=(f1(V)f2(V)…f10(V))T=ATX(V)其中f1(V)是多項式逼近函數(shù),X(V)是多項式的特征矢量,它由語音特征矢量不同分量之間的相互乘積組成?;谧钚【秸`差(MSE)準則優(yōu)化方法,用D(V)估計后驗概率A=argminAE{|D(V)-P|2}=argminAE{|ATX(V-)Y|2}---(1)]]>其中P是概率矢量。Y=(0,0,0,…,0,1,0,…,0)是P的近似矢量,僅僅與V相對應的類的值為1,其它值為0。滿足等式(1)的解為E{XXT}A*=E{XYT} (2)非特定人語音識別系統(tǒng)的訓練流程圖如圖5所示,詳細說明如下(1)由輸入的語音特征矢量計算多項式的特征矢量X(V)。
其中vtk是Vi的第k維分量。(2)將多項式特征矢量分K類,K為識別詞數(shù)。Ω是分類器訓練集合。Ci表示第i類,i=1,…,K。{Xci}表示所有屬于第i類的語音的所有多項式特征。
(3)為了提高訓練效率,預先把有關的一階統(tǒng)計量E(X)與二階統(tǒng)計量E(XXT)計算完成。
(4)基于最小均方誤差準則優(yōu)化方法,采用次優(yōu)的優(yōu)化方法,每次調(diào)整多項式的分類模型中鑒別性最高的一個模型參數(shù),直到滿足模型的精度要求。并從高維的多項式特征矢量X中計算出實際使用的特征分量,構(gòu)成分類器訓練特征矢量X*,(5)采用公式(2)重新優(yōu)化整體多項式分類模型參數(shù),系統(tǒng)訓練完成。
5、非特定人語音識別非特定人語音識別流程圖如圖6所示。詳細的步驟如下(1)輸入語音信號,提取語音識別特征,方法與前面相同。
(2)計算多項式的特征矢量X(V)。
(3)計算每一個多項式模型的輸出概率值。di=(1TΣi=1TXi)Tai---(4)]]>其中αi是多項式分類模型參數(shù)A的第i分量A=[α1α2…αK]T。(4)由(4)式判決找出輸出概率最大的為識別結(jié)果。為提高識別速度和識別精度,識別判決過程還分為粗識別和精識別兩個過程。詳細流圖如圖7所示。粗識別的模型參數(shù)較少,模型參數(shù)為300個,粗識別速度快。對一些易混的語音和粗識別可信測度差的語音必須進行精識別,精識別模型的參數(shù)較多,比粗識別多100個左右。精識別模型的訓練方法和粗識別方法相同。首先進行粗識別,將粗識別頭3選識別結(jié)果送入可信測度計算模塊,當識別結(jié)果的可信度低或存在易混語音,則將粗識別結(jié)果送入精識別模塊,對粗識別前三選結(jié)果進行進一步精識別,然后將精識別結(jié)果送入可信測度模塊進一步判定可信測度判決。如果僅識別的結(jié)果仍然不滿足可信測度的要求,系統(tǒng)進行拒識,提示重新輸入語音。(5)可信測度計算方法比較復雜,為將第一選識別概率與前三選識別結(jié)果的平均概率構(gòu)成的似然比,以及第一選識別概率與第二選概率構(gòu)成的似然比組合成為綜合可信測度估值,如果該似然比值小于某個門限(該值約為3,根據(jù)不同環(huán)境噪聲可以設定不同值),則認為可信測度低。6、非特定人語音識別模型的自適應(1)自適應過程為說話人對識別錯誤的語音進行有監(jiān)督學習,通過實時的調(diào)整識別多項式模型的參數(shù),增加模型之間的鑒別度。如果一次自適應后,不能達到結(jié)果,可以進行多次自適應學習,直到得到滿意識別結(jié)果為止。(2)自適應方法采用迭代方法,對識別模板進行修正,該方法是具有鑒別特性的方法,在修正錯誤模板的同時也能夠同時調(diào)整其它相關的模板,調(diào)整步長α的取值要小于0.01,否則容易造成過調(diào)整。自適應調(diào)整方法如下Ak+1T=E{XXT}k+1-1E{XYT}k+1]]>≈AkT+αE{XXT}k+1-1Xk+1[Yk+1T-Xk+1TAkT]----(5)]]>其中Ak+1為更新后模型參數(shù),Ak為更新前模型參數(shù)。α為調(diào)整步長,取值約為10-3,x為多項式的特征矢量。用英語TI-digit數(shù)據(jù)庫訓練英語數(shù)字識別模型,對某些中國人發(fā)音的英語數(shù)字識別率很低(78%),但通過自適應調(diào)整后,識別率有了明顯提高,達到99%以上。
7、語音提示處理(1)采用多脈沖激勵LPC語音合成模型;模型參數(shù)在計算機上預先進行處理,編輯,壓縮,然后存入專用芯片的ROM中;LPC分析幀長為20毫秒;LPC參數(shù)的量化用10個比特進行矢量量化;基音周期5比特量化,基音預測器系數(shù)3比特量化,激勵脈沖的個數(shù)為25個,每個脈沖位置用4比特量化,最大幅度的脈沖在對數(shù)域用6個比特量化,其余脈沖的幅度在對數(shù)域用3個比特量化。
(2)為減少對多脈沖位置參數(shù)量化的比特數(shù),對多脈沖參數(shù)的估值方法進行改進;該方法對脈沖的最小間距進行限制,脈沖的位置序號僅僅可以出現(xiàn)在以3位倍數(shù)的點上;脈沖之間的最大間距不允許超過48;最大脈沖間距的限制條件,不可能在脈沖提取的優(yōu)化過程中一次滿足;每次脈沖提取的優(yōu)化完成后,將碼沖幅度最小的5個脈沖去掉,插入到脈沖間距大于48的兩個脈沖之間;該過程重復直到滿足脈沖間距要求的條件為止。
(3)參數(shù)的解碼過程采用查表方法;為保證合成語音的平滑,在解碼過程進行幀間線性插值;對每幀語音的頭1/3與后1/3分別對LPC參數(shù)進行幀間線性插值。
(4)為進一步提高語音合成的主觀質(zhì)量,使用感覺加權(quán)濾波器進行后濾波處理。
本實施例基于上述方法開發(fā)了一種語基于音識別專用芯片的中小詞匯量特定人、非特定人語音識別方法。通常語音識別專用芯片內(nèi)包括音頻預放大器、自動增益控制(AGC)、數(shù)/模(A/D)轉(zhuǎn)換器、模/數(shù)(D/A)轉(zhuǎn)換器、MCU核(8051)、脈寬調(diào)制器(PWM)、隨機存儲器(RAM)、只讀存儲器(ROM)、閃爍存儲器(FLASH)。ROM中存儲有語音合成方法、語音編碼方法、語音識別訓練方法和語音識別方法,以及提示語音。語音識別的模板和提示語音存于FLASH中。
權(quán)利要求
1.一種基于語音識別專用芯片的非特定人語音識別、語音提示方法,包括A/D采樣,頻譜整形加窗預加重處理,特征參數(shù)提取,端點檢測,語音識別模板訓練,語音識別模板匹配,識別結(jié)果輸出,以及語音提示,其特征在于,具體包括以下步驟A、非特定人語音識別的預先訓練訓練過程要求有大量的語音庫,訓練過程在PC機上完成,將訓練后的模板存入芯片中,其訓練方法包括采用基于多項式的分類方法;識別模型的參數(shù)用多項式的系數(shù)來表示;通過多項式來逼近后驗概率;模型參數(shù)通過線性方程組的優(yōu)化計算方法求得;B、語音識別參數(shù)提取(1)語音信號輸入后采用A/D進行采樣,成為原始的數(shù)字語音,采用電平增益控制,以確保采樣的高精度;(2)對所說的原始數(shù)字語音信號進行頻譜整形及分幀加窗處理,以保證分幀語音的準平穩(wěn)性;(3)對所說的分幀語音的特征進行語音特征提取,主要特征參數(shù)采用線性預測倒頻譜系數(shù)(LPCC),并存儲用于后面動態(tài)分段和模板提??;(4)使用語音信號的過零率與短時能量特征進行端點檢測,去除無聲區(qū)的語音幀,以保證各幀語音特征的有效性;C、非特定人語音命令的識別識別過程采用兩級識別結(jié)構(gòu),分為粗識別和精識別。對不容易混淆的命令粗識別就可以得出結(jié)果,對易于混淆的命令通過更精細的模型進行識別;以提高識別的平均速度和識別精度;D、非特定人語音識別的說話人自適應學習對說話人具有地方口音或說話不規(guī)范時,識別系統(tǒng)會造成誤判,采用說話人自適應方法對識別模板進行調(diào)整;所說的自適應調(diào)整方法采用最大后驗概率方法,通過迭代方法逐步修正識別模板參數(shù);E.語音提示語音提示使用語音合成與語音編解碼技術,語音合成模型參數(shù)分析提取過程在計算機上完成,然后存儲在芯片中用語語音合成,因此語音分析參數(shù)提取方法可以非常復雜,從而保證有高質(zhì)量的合成語音,但需要存儲的語音合成模型參數(shù)應盡可能少,語音合成方法也要盡可能簡單;語音合成模型使用多脈沖語音合成模型。
2.如權(quán)利要求1所述的的非特定人語音識別、語音提示方法,其特征在于,所說的語音特征提取中的電平增益控制包括對輸入語音信號采樣精度進行判斷,如果輸入語音信號采樣精度不夠高,通過自適應電平控制,調(diào)整語音的放大量,提高語音采樣精度;所說的端點檢測方法為根據(jù)設定的端點門限,搜索靜音段,確定語音的起、始端點;所說的倒譜參數(shù)是根據(jù)語音的線性預測模型(LPC)計算得到。
3.如權(quán)利要求1所述的非特定人語音識別、語音提示方法,其特征在于,所說的語音識別的預先訓練方法中的識別模型訓練過程為建立要識別語音命令的數(shù)據(jù)庫,然后提取語音的特征參數(shù),特征參數(shù)提取的過程與前面相同。通過迭代的學習過程,提取基于多項式的分類模型的識別參數(shù)。學習過程采用次優(yōu)方法,每次調(diào)整多項式的分類模型中一個參數(shù),直到所要求的模型參數(shù)都計算出來;整個訓練過程在計算機上完成,最后將訓練后得出的模型參數(shù)存入語音識別專用芯片中,作為識別模型;這是與特定人語音識別不同的地方;
4.如權(quán)利要求1所述的非特定人語音識別、語音提示方法,其特征在于,所說的語音命令識別方法的中識別過程為計算每個多項式的分類模型的輸出結(jié)果,取輸出概率最大的模型為識別結(jié)果;識別過程采用粗識別和精識別兩級識別;其區(qū)別在于粗識別的模型參數(shù)較少,識別速度快,精識別模型參數(shù)較多。對易于混淆的命令通過精識別可以提高識別率。
5.如權(quán)利要求1所述的非特定人語音識別、語音提示方法,其特征在于,所說的語音命令的識別方法中的自適應采用模型自適應調(diào)整技術,對識別錯誤的語音命令,通過自適應學習后,識別率可以明顯改進。自適應過程為輸入要求自適應的語音數(shù)據(jù),采用基于最大后驗概率的自適應方法,通過迭代分別對語音識別參數(shù)進行調(diào)整,使模型之間鑒別測度保持最大鑒別性。
6.如權(quán)利要求1所述的非特定人語音識別、語音提示方法,其特征在于,所說的語音提示中的采用改進的多脈沖語音合成方法,其中包括多脈沖幅度和位置的估值方法;幀間模型參數(shù)的插值方法。
全文摘要
本發(fā)明屬于語音技術領域,包括:非特定人語音識別的預先訓練、語音識別參數(shù)提取、非特定人語音命令的識別、非特定人語音識別的說話人自適應學習、語音提示。本識別方法具有方法簡單、識別率高、穩(wěn)健性好等特點。構(gòu)成的系統(tǒng)可以用于玩具控制、聲控撥號、智能性家用電器、學習機、以及生產(chǎn)環(huán)節(jié)的控制系統(tǒng)中。
文檔編號G10L15/00GK1264887SQ00105548
公開日2000年8月30日 申請日期2000年3月31日 優(yōu)先權(quán)日2000年3月31日
發(fā)明者劉加, 李曉宇, 史緩緩, 劉潤生 申請人:清華大學