專利名稱:基于漢語發(fā)音特點(diǎn)的hmm語音識別技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù)屬于語音信號處理和識別技術(shù)領(lǐng)域。
目前利用計(jì)算機(jī)漢語語音識別技術(shù),在語音識別實(shí)用化、產(chǎn)品化方面做的比較好是四達(dá)公司的STAR-863語音識別系統(tǒng),它屬于特定人孤立字全字表語音識別系統(tǒng),采用DTW(動態(tài)時間變形法),特別適合于特定人的語音識別系統(tǒng),而且識別精確度比較高,但由DTW方法所限,其模型的延續(xù)性特征的積累能力不強(qiáng),因此很難推廣應(yīng)用到非特定人的語音系統(tǒng)。
本發(fā)明的目的解決語音特征的提取問題,即解決由于漢語語音的不平衡性和多變性使得語音信號處理困難的問題,使語音識別系統(tǒng)既可應(yīng)于特定人語音識別系統(tǒng),又可應(yīng)用于非特定人語音識別系統(tǒng),既能識別孤立字音,又能識別詞組和連續(xù)語音,并避免前述技術(shù)之不足,以達(dá)到語音識別系統(tǒng)廣泛應(yīng)用的目的。
本發(fā)明基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù)的基本技特征把HMM模型加以改進(jìn)并按漢語發(fā)音特征進(jìn)行模型訓(xùn)練來完成漢語語音特征的提取和識別。HMM模型是由一個狀態(tài)概率π,狀態(tài)轉(zhuǎn)移A和狀態(tài)相關(guān)聯(lián)的概率分布陣B組成的三元組(π,A,B)。設(shè)狀態(tài)數(shù)N,則π=(π1,π2,…,πN),A={aij}NXN,B={b1,b2…bN}經(jīng)典HMM中(π,A)是一個齊次Markov過程,其中aii是一個與時間無關(guān)的常數(shù),從而狀態(tài)i的駐留長度τ是指數(shù)分布
這與語音的物理事實(shí)不符。事實(shí)上語音識別之所以成為可能就在于語音基本單位(如音素)對應(yīng)的特征具有聚類性。在物理上HMM的狀態(tài)必與某個語音單位相對應(yīng)。本發(fā)明從狀態(tài)駐留長度的概率分布函數(shù)出發(fā),導(dǎo)出了一個基長段長分布的非齊次HMM模型,稱為DDBHMM(Duration Distribution Based Markov Model)。
語音Markov模型的駐留長度相對穩(wěn)定,而且不同字對應(yīng)狀態(tài)具有不同的駐留長度這一點(diǎn),說明狀態(tài)駐留長度信息對語音識別是非常重要。狀態(tài)駐留長度的概率分布Pi(i=1,…,N)和狀態(tài)轉(zhuǎn)移概率aij(i,j=1,2,…,N)是一一對應(yīng)的。因此,更合理的確定Markov模型的狀態(tài)駐留長度分布函數(shù){Pi(τ)}從而導(dǎo)出轉(zhuǎn)移陣{aij}NXN。已知{Pi(τ)}則aii(k)=Pi(τ≥K/τ≥K-1)= (Pi[(τ≥K∩(τ≥K-1)])/(Pi(τ≥K-1))= (Pi(τ≥K))/(Pi(τ≥K-1))設(shè)每狀態(tài)相互獨(dú)立aij(k)=Pi(τ≥k/τ≥k-1)P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)=[1-aii(k)]P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)
aij(k)表示K時刻由i轉(zhuǎn)j的概率,aii(k)表示K時刻駐留原始狀態(tài)i的概率,一般aii與駐留時間有關(guān),從而aij必與K有關(guān)。
任何字或詞的模型都是一組參數(shù)M={π,A,B},為對識別器進(jìn)行訓(xùn)練,必須為每一個字詞建立一個模型庫。對每一個字詞確定狀態(tài)轉(zhuǎn)移陣A,狀態(tài)概率π及特征參數(shù)B,識別時系統(tǒng)給出一個觀測序列0,那個字詞模型產(chǎn)生這一觀測序列的概率最大,就把未知字詞判為這個字或詞,識別結(jié)果定義為 其中語音的觀測序列0=(01,…,0T),Kj(j)=1,2,…,N對應(yīng)于最優(yōu)分割的狀態(tài)駐留長度。
模型訓(xùn)練的訓(xùn)練方法采用迭代法先對A.B和π都假設(shè)一初始值,然后用待識別語音的觀測序列以一定的方法對這些估值提純;對提純的值要接著進(jìn)一步提純,這個過程一直進(jìn)行下去,直到?jīng)]有改進(jìn)余地為止,得到庫存模型。
選取訓(xùn)練方法訓(xùn)練集中的部分能充分表達(dá)漢語發(fā)音特點(diǎn)的字或詞,通過Viterbi算法做狀態(tài)分割 以此為初始值序列,對其它的字進(jìn)行分割。提純過程同樣也采用Viterbi算法,在分割狀態(tài)時,根據(jù)每個字或詞的發(fā)音特點(diǎn),使用相應(yīng)的初始矢量序列的組合作為初始值,對該字或詞進(jìn)行分割,分割后的結(jié)果再按該字或詞的發(fā)音特點(diǎn),將各狀態(tài)分解到相應(yīng)的初始值序列,并與初始值序列中相應(yīng)的矢量進(jìn)行聚類,產(chǎn)生新的初始值。將這種算法應(yīng)用于所有可能的庫存模型。
上述發(fā)明的模型和算法已在用于特定人的語音識別系統(tǒng)-知音文書處理系統(tǒng)上實(shí)現(xiàn)。
本發(fā)明的優(yōu)點(diǎn)與DTM相比,本發(fā)明真實(shí)地反映了作為語音編碼的語音信號的隨機(jī)性和狀態(tài)的隱含性,因而更能反映語音信號的產(chǎn)生過程及其內(nèi)在規(guī)律。具有如下優(yōu)點(diǎn)1.它作為一種概率參數(shù)模型,在識別時無須進(jìn)行距離計(jì)算,用Viterbi識別算法速度很快,易于在現(xiàn)有技術(shù)條件下,以低廉的價格實(shí)現(xiàn)。
2.改進(jìn)的模型具有比較大的適應(yīng)性,當(dāng)訓(xùn)練足夠廣,足夠大時,易于實(shí)現(xiàn)與特定人無關(guān)的識別系統(tǒng)。
3.易于由孤立字系統(tǒng)向連續(xù)語音識別過渡。
4.DDBHMM是根據(jù)語音基本單位對應(yīng)的特征具有聚類性這一物理事實(shí)導(dǎo)出的非齊次HMM,識別效果較優(yōu),且穩(wěn)定性好。
權(quán)利要求
1.本發(fā)明基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù),其基本特征在于用基于段長的DDBHMM模型進(jìn)行模型訓(xùn)練來完成漢語語音特征的提取和識別。
2.根據(jù)權(quán)利要求1所述,基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù)的特征在于因?yàn)闋顟B(tài)駐留長度的概率分布Pi(i=1,…,N)和狀態(tài)轉(zhuǎn)移概率aij(i,j=1,2,…,N)是一一對應(yīng)的,因此更合理的確定Markov模型的狀態(tài)駐留長度分布函數(shù){Pi(τ)}從而導(dǎo)出轉(zhuǎn)移陣{aij}NXNO已知{Pi(τ)}則aii(k)=Pi(τ≥K/τ≥K-1)= (Pi[(τ≥K∩(τ≥K-1)])/(Pi(τ≥K-1))= (Pi(τ≥K))/(Pi(τ≥K-1))設(shè)每狀態(tài)相互獨(dú)立aij(k)=Pi(τ≥k/τ≥k-1)P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)=[1-aii(k)]P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)aij(k)表示K時刻由i轉(zhuǎn)j的概率,aii(k)表示K時刻駐留原始狀態(tài)i的概率,一般aii與駐留時間有關(guān),從而aij必與K有關(guān)。
3.根據(jù)權(quán)利要求1所述,基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù)的特征在任何字或詞的模型都是一組參數(shù)M={π,A,B},為對識別器進(jìn)行訓(xùn)練,必須為每一個字詞建立一個模型庫。
4.根據(jù)權(quán)利要求1或3所述,基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù)的特征在于對每一個字詞確定狀態(tài)轉(zhuǎn)移陣A,狀態(tài)概率π及特征參數(shù)B。識別時系統(tǒng)給出一個觀測序列0,那個字詞模型產(chǎn)生這一觀測序列的概率最大,就把未知字詞判為這個字或詞,識別結(jié)果定義為 其中語音的觀測序列0=(01…,0T),Kj(j=1,2,…,N)對應(yīng)于最優(yōu)分割的狀態(tài)駐留長度。
5.根據(jù)權(quán)利要求1或3所述,基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù)的特征在于模型訓(xùn)練的訓(xùn)練方法采用迭代法,即先對A.B和π都假設(shè)一初始值,然后用待識別語音的觀測序列以一定的方法對這些估值提純;對提純的值要接著進(jìn)一步提純,這個過程一直進(jìn)行下去,直到?jīng)]有改進(jìn)余地為止,得到庫存模型。
6.根據(jù)權(quán)利要求1或4所述,基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù)的特征在于選取訓(xùn)練方法訓(xùn)練集中的部分能充分表達(dá)漢語發(fā)音特點(diǎn)的字或詞,通過Viterbi算法做狀態(tài)分割 以此為初始值序列,對其它的字進(jìn)行分割。
7.根據(jù)權(quán)利要求1或4所述,基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù)的特征在于提純過程也采用Viterbi算法,在分割狀態(tài)時,根據(jù)每個字或詞的發(fā)音特點(diǎn),使用相應(yīng)的初始矢量序列的組合作為初始值,對該字或詞進(jìn)行分割,分割后的結(jié)果再按該字或詞的發(fā)音特點(diǎn),將各狀態(tài)分解到相應(yīng)的初始值序列,并與初始值序列中相應(yīng)的矢量進(jìn)行聚類,產(chǎn)生新的初始值,這種算法應(yīng)用于所有可能的庫存模型。
全文摘要
本發(fā)明基于漢語發(fā)音特點(diǎn)的HMM語音識別技術(shù),屬于語音信號處理和識別技術(shù)領(lǐng)域。本發(fā)明將基于段長的隱含馬爾可夫模型方法具體應(yīng)用于計(jì)算機(jī)漢語語音識別,從而使計(jì)算機(jī)既能對特定人或非特定人漢語語音特點(diǎn)進(jìn)行識別,又可識別孤立漢字、詞組以及連續(xù)語音,而且在計(jì)算機(jī)語音識別系統(tǒng)中進(jìn)行足夠的語音訓(xùn)練后,達(dá)到語音識別的高識別率,高穩(wěn)定性。
文檔編號G06F3/16GK1112269SQ94105340
公開日1995年11月22日 申請日期1994年5月20日 優(yōu)先權(quán)日1994年5月20日
發(fā)明者肖熙, 王作英, 戰(zhàn)普明, 姜進(jìn) 申請人:北京超凡電子科技有限公司