基于隱馬爾科夫模型的家用服務(wù)機(jī)器人語(yǔ)音識(shí)別系統(tǒng)的制作方法
【專利摘要】基于隱馬爾科夫模型的家用服務(wù)機(jī)器人語(yǔ)音識(shí)別系統(tǒng)屬于語(yǔ)音識(shí)別領(lǐng)域。本發(fā)明所述整個(gè)過(guò)程由語(yǔ)音信號(hào)濾波、采樣、量化、加窗、端點(diǎn)檢測(cè)、特征提取、模型訓(xùn)練和閾值比較組成。濾波在于濾除低頻干擾;語(yǔ)音信號(hào)是連續(xù)時(shí)變的模擬信號(hào),必須對(duì)其進(jìn)行采樣量化得到離散的數(shù)字信號(hào);分幀使得原本的信號(hào)變成一段一段的,相當(dāng)于對(duì)原始信號(hào)時(shí)域內(nèi)加了一個(gè)矩形窗。時(shí)域內(nèi)與矩形窗相乘相當(dāng)于頻域內(nèi)信號(hào)頻譜與矩形窗的傅里葉變換進(jìn)行卷積。然后通過(guò)雙門(mén)限端點(diǎn)檢測(cè)算法實(shí)現(xiàn)端點(diǎn)檢測(cè)。語(yǔ)音信號(hào)特征參數(shù)采用美爾頻率倒譜系數(shù),通過(guò)隱馬爾科夫模型對(duì)特征參數(shù)實(shí)現(xiàn)參數(shù)訓(xùn)練,再與所建立的模板庫(kù)進(jìn)行匹配,得出結(jié)果與閾值進(jìn)行比較得到識(shí)別結(jié)果。
【專利說(shuō)明】基于隱馬爾科夫模型的家用服務(wù)機(jī)器人語(yǔ)音識(shí)別系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語(yǔ)音識(shí)別系統(tǒng)領(lǐng)域,具體涉及到一種基于隱馬爾科夫模型的語(yǔ)音信號(hào)模型訓(xùn)練和識(shí)別方法。
【背景技術(shù)】
[0002]語(yǔ)音識(shí)別就是讓機(jī)器通過(guò)識(shí)別過(guò)程把人類的語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的過(guò)程,其最終目的就是像人與人之間的談話交流信息一樣,實(shí)現(xiàn)人機(jī)對(duì)話自由,也就是賦予機(jī)器以聽(tīng)覺(jué),使機(jī)器能夠聽(tīng)懂人的語(yǔ)言,辨明話音的內(nèi)容和說(shuō)話人,進(jìn)一步使機(jī)器能夠按照人的意志進(jìn)行操作,把人類從繁重或危險(xiǎn)的勞動(dòng)中解脫出來(lái)。
[0003]語(yǔ)音識(shí)別技術(shù)的研究廣泛的涉及到聲學(xué)、語(yǔ)言學(xué)、語(yǔ)音學(xué)、生理科學(xué)、數(shù)字信號(hào)處理、通信理論、電子技術(shù)、計(jì)算機(jī)科學(xué)、模式識(shí)別和人工智能等眾多學(xué)科,因此一個(gè)識(shí)別效果良好的語(yǔ)音識(shí)別系統(tǒng),需要考慮包括說(shuō)話人的心理狀態(tài)、輸入設(shè)備、說(shuō)話環(huán)境多方面的因素。
[0004]近年來(lái),在語(yǔ)音識(shí)別領(lǐng)域非常活躍的課題為魯棒性語(yǔ)音識(shí)別、說(shuō)話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識(shí)別算法、語(yǔ)音識(shí)別的可信度評(píng)測(cè)算法、基于類的語(yǔ)言模型和自適應(yīng)語(yǔ)言模型以及深層次的自然語(yǔ)言的理解,研究的方向也越來(lái)越側(cè)重于口語(yǔ)對(duì)話系統(tǒng)。目前說(shuō)話人自適應(yīng)技術(shù)的研究已經(jīng)取得相當(dāng)大的進(jìn)步,出現(xiàn)了一些比較成熟的技術(shù),如聲道歸一化技術(shù)、最大似然線性回歸算法(MLLR, Maximum Likel ihood Linear Regress1n)、貝葉斯(Bayes)自適應(yīng)估計(jì)算法。而非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別仍是目前階段語(yǔ)音識(shí)別研究的重點(diǎn)和難點(diǎn)。
[0005]語(yǔ)音識(shí)別技術(shù)主要包括語(yǔ)音信號(hào)預(yù)處理、特征參數(shù)提取、建立模板庫(kù)、識(shí)別決策與閾值比較等模塊。語(yǔ)音信號(hào)從麥克風(fēng)輸入信號(hào),經(jīng)預(yù)處理,預(yù)處理包括預(yù)濾波、采樣與量化、預(yù)加重、加窗及端點(diǎn)檢測(cè);預(yù)處理后對(duì)信號(hào)進(jìn)行特征參數(shù)提取,將所提取的參數(shù)序列,建立保存成語(yǔ)音參數(shù)模板庫(kù);語(yǔ)音識(shí)別過(guò)程是語(yǔ)音從麥克風(fēng)輸入,經(jīng)過(guò)預(yù)處理、特征參數(shù)提取,將提取的特征參數(shù)與所建立的模板庫(kù)進(jìn)行概率計(jì)算與匹配,匹配得出結(jié)果與閾值進(jìn)行比較,最終得到識(shí)別結(jié)果。
【發(fā)明內(nèi)容】
[0006]本發(fā)明是一種基于隱馬爾科夫模型訓(xùn)練的語(yǔ)音識(shí)別系統(tǒng),主要通過(guò)matlab實(shí)現(xiàn)系統(tǒng)仿真。語(yǔ)音信號(hào)首先經(jīng)過(guò)濾波、采樣與量化得到離散的數(shù)字信號(hào),然后就是預(yù)加重,預(yù)加重的目的在于濾除低頻干擾;語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),具有時(shí)變特征,所以將語(yǔ)音信號(hào)進(jìn)行分幀操作,由于分幀的作用,使原本的信號(hào)變成一段一段的,這就相當(dāng)于是對(duì)原始的信號(hào)在時(shí)域內(nèi)加上了一個(gè)矩形窗。時(shí)域內(nèi)與矩形窗相乘也就相當(dāng)于頻域內(nèi)信號(hào)頻譜與矩形窗的傅里葉變換進(jìn)行卷積,為此在分幀之后會(huì)對(duì)每一幀做一個(gè)加窗的處理,本專利中使用的是漢明窗;端點(diǎn)檢測(cè)的目的是從包含語(yǔ)音的一段信號(hào)中確定語(yǔ)音的起點(diǎn)和終點(diǎn),而準(zhǔn)確的找出語(yǔ)音段的起始點(diǎn)和終止點(diǎn),才有可能使采集到的數(shù)據(jù)是真正要分析的語(yǔ)音信號(hào),本專利中采用雙門(mén)限端點(diǎn)檢測(cè)算法。語(yǔ)音識(shí)別是一個(gè)匹配的過(guò)程,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,抽取所需的特征,并在所提取的特征參數(shù)基礎(chǔ)上建立起匹配模板,為此必須對(duì)語(yǔ)音信號(hào)進(jìn)行特征參數(shù)提取,本專利中采用一種能夠很好反映人耳聽(tīng)覺(jué)機(jī)理的特征參數(shù),美爾頻率倒譜系數(shù)(MFCC)。語(yǔ)音信號(hào)的模型訓(xùn)練是語(yǔ)音識(shí)別系統(tǒng)的核心部分,隱馬爾可夫模型(Hidden Markov Models,簡(jiǎn)稱為HMM)是一個(gè)雙重隨機(jī)過(guò)程:一重用于描述非平穩(wěn)信號(hào)的短時(shí)平穩(wěn)段的統(tǒng)計(jì)特征(信號(hào)的瞬態(tài)特征,可直接觀測(cè)到);另一重隨機(jī)過(guò)程描述了每個(gè)短時(shí)平穩(wěn)段是如何轉(zhuǎn)變到下一個(gè)短時(shí)平穩(wěn)段,即短時(shí)統(tǒng)計(jì)特征的動(dòng)態(tài)特性(隱含在觀察序列中)。人的言語(yǔ)過(guò)程也是這樣一種雙重隨機(jī)過(guò)程,因此用隱馬爾科夫模型(HMM)描述語(yǔ)音信號(hào)的產(chǎn)生過(guò)程是非常精確的。
【專利附圖】
【附圖說(shuō)明】
[0007]圖1語(yǔ)音識(shí)別系統(tǒng)識(shí)別過(guò)程總體框圖
[0008]圖2語(yǔ)音信號(hào)端點(diǎn)檢測(cè)框圖
[0009]圖3語(yǔ)音信號(hào)隱馬爾科夫模型訓(xùn)練框圖
【具體實(shí)施方式】
[0010]在對(duì)語(yǔ)音信號(hào)處理之前,必須要對(duì)其進(jìn)行數(shù)字化,這個(gè)過(guò)程就是模/數(shù)(A/D)轉(zhuǎn)化。模/數(shù)轉(zhuǎn)化過(guò)程要經(jīng)過(guò)采樣和量化兩個(gè)過(guò)程,從而得到時(shí)間和幅度上的離散數(shù)字信號(hào)。根據(jù)奈奎斯特采樣定律 ,一般采樣頻率為原始信號(hào)頻率的兩倍以上,才能使采樣過(guò)程中不會(huì)丟失信息,而且能從采樣信號(hào)中準(zhǔn)確的重構(gòu)原始信號(hào)的波形。
[0011]I)語(yǔ)音信號(hào)預(yù)處理
[0012]對(duì)語(yǔ)音信號(hào)進(jìn)行分析之前,一般要對(duì)語(yǔ)音信號(hào)加以提升(預(yù)加重),目的是濾除低頻干擾,尤其是50Hz或者60Hz的工頻干擾,提升對(duì)語(yǔ)音識(shí)別有用的高頻部分,讓信號(hào)的頻譜變得平坦,從而便于進(jìn)行頻譜分析或聲道參數(shù)分析。預(yù)加重是將語(yǔ)音信號(hào)通過(guò)一個(gè)一階高通濾波器1-0.9375夕,通常稱之為預(yù)加重濾波器。預(yù)加重濾波器傳遞函數(shù)為:
[0013]H(Z) = 1-0.9375Z—1
[0014]若s (η)是預(yù)加重前的語(yǔ)音信號(hào),則經(jīng)過(guò)預(yù)加重濾波器后得到的信號(hào)為:
[0015]i(?) = s(n) - 0.9375s(n -1)
[0016]語(yǔ)音信號(hào)是一種非平穩(wěn)信號(hào),具有時(shí)變特征,但在一個(gè)短時(shí)范圍內(nèi)(一般認(rèn)為在10-30ms),其特性基本保持不變,因而可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過(guò)程,因此可以將語(yǔ)音信號(hào)進(jìn)行分幀操作。一般每秒的幀數(shù)約為33-100幀,視情況而定。分幀可以采用連續(xù)分段的方法,但一般要采用交疊分段的方法,這是為了使得幀與幀之間平滑過(guò)渡,保持連續(xù)性。前一幀和后一幀的交疊部分稱為幀移。幀移與幀長(zhǎng)的比值一般取為0-0.5。由于分幀的作用,使原本的信號(hào)變成一段一段的,這就相當(dāng)于是在原始的信號(hào)在時(shí)域內(nèi)加上了一個(gè)矩形窗。時(shí)域內(nèi)與矩形窗相乘也就相當(dāng)于頻域內(nèi)信號(hào)頻譜與矩形窗的傅里葉變換進(jìn)行卷積。這會(huì)改變?cè)夹盘?hào)的頻譜。為此在分幀之后要對(duì)每一幀做一個(gè)加窗的處理。從而得到加窗語(yǔ)音信號(hào)s (W):
[0017]s(w) = 5(/7) * w(n)
[0018]在語(yǔ)音信號(hào)數(shù)字處理中常用的窗函數(shù)有漢寧窗和漢明窗。本專利中使用漢明窗:
[0019]
【權(quán)利要求】
1.基于隱馬爾科夫模型的家用服務(wù)機(jī)器人語(yǔ)音識(shí)別系統(tǒng),其特征在于包括如下步驟: 步驟(1):對(duì)輸入語(yǔ)音信號(hào)進(jìn)行濾波,旨在濾除低頻干擾; 步驟(2):由于語(yǔ)音信號(hào)是連續(xù)時(shí)變的模擬信號(hào),濾除低頻干擾后的語(yǔ)音信號(hào)進(jìn)行采樣與量化得到離散的數(shù)字信號(hào); 步驟(3):分幀使得原來(lái)的信號(hào)變成一段一段的,相當(dāng)于是在原始的信號(hào)時(shí)域內(nèi)加上了一個(gè)矩形窗,而時(shí)域內(nèi)與矩形窗相乘就相當(dāng)于在頻域內(nèi)信號(hào)頻譜與矩形窗的傅里葉變換進(jìn)行卷積,因此要對(duì)語(yǔ)音信號(hào)進(jìn)行加窗處理; 步驟(4):對(duì)加窗處理完后的語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),因?yàn)檎_的檢測(cè)語(yǔ)音信號(hào)的端點(diǎn)是進(jìn)行語(yǔ)音識(shí)別的前提。 步驟(5):對(duì)語(yǔ)音信號(hào)的特征參數(shù)進(jìn)行提取,為下步特征參數(shù)的模型訓(xùn)練做基礎(chǔ); 步驟(6):通過(guò)隱馬爾科夫模型(HMM)對(duì)所提取的語(yǔ)音信號(hào)特征參數(shù)進(jìn)行模型訓(xùn)練; 步驟(7):建立語(yǔ)音信號(hào)的模板庫(kù),將經(jīng)過(guò)隱馬爾科夫訓(xùn)練的特征參數(shù)與模板庫(kù)匹配,通過(guò)閾值比較,最終得到識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述基于隱馬爾科夫模型的家用服務(wù)機(jī)器人語(yǔ)音識(shí)別系統(tǒng),其特征在于所述步驟4)的端點(diǎn)檢測(cè)采用的方法是雙門(mén)限端點(diǎn)檢測(cè)算法。
3.根據(jù)權(quán)利要求1所述基于隱馬爾科夫模型的家用服務(wù)機(jī)器人語(yǔ)音識(shí)別系統(tǒng),其特征在于所述步驟5)標(biāo)準(zhǔn)的美爾頻率倒譜參數(shù)只反映語(yǔ)音參數(shù)的靜態(tài)特性,實(shí)際上受發(fā)音的物理?xiàng)l件限制,不同幀間語(yǔ)音變化是連續(xù)的,相關(guān)的,所以在識(shí)別參數(shù)中還使用一階差分Mel倒譜參數(shù)其定義為:
其中k為常數(shù),一般取2,c,d都表示一幀語(yǔ)音參數(shù),在使用中將MFCC參數(shù)和差分參數(shù)合并為一個(gè)向量,作為一幀語(yǔ)音信號(hào)的參數(shù)。
4.根據(jù)權(quán)利要求1所述基于隱馬爾科夫模型的家用服務(wù)機(jī)器人語(yǔ)音識(shí)別系統(tǒng),其特征在于所述步驟6)采用隱馬爾科夫模型訓(xùn)練所提取的特征參數(shù)需要解決三個(gè)問(wèn)題,它們分別是評(píng)估問(wèn)題、最佳狀態(tài)鏈的確定問(wèn)題、模型參數(shù)優(yōu)化問(wèn)題;而解決這三個(gè)問(wèn)題所采用的方法分別是前向后向算法、Viterbi算法和Baum-Welch算法。
【文檔編號(hào)】G10L15/02GK104078039SQ201310102175
【公開(kāi)日】2014年10月1日 申請(qǐng)日期:2013年3月27日 優(yōu)先權(quán)日:2013年3月27日
【發(fā)明者】劉治, 蘇敏發(fā), 謝杰騰 申請(qǐng)人:廣東工業(yè)大學(xué)