基于語音增強(qiáng)和改進(jìn)pnsc的魯棒語音識(shí)別方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[OOOU 本發(fā)明屬于魯椿語音識(shí)別控制技術(shù)領(lǐng)域,設(shè)及一種基于語音增強(qiáng)和改進(jìn)PNSC的 魯椿語音識(shí)別方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著社會(huì)的發(fā)展和人類文明程度的提高,對(duì)老年人、殘疾人的服務(wù)需求會(huì)日益增 力口,他們需要運(yùn)用現(xiàn)代高新技術(shù)來改善他們的生活質(zhì)量和生活自由度。世界人口老齡化的 進(jìn)程正在加快,另外由于各種交通事故、天災(zāi)人禍和種種疾病,每年均有成千上萬的人喪失 一種或多種能力(如行走、動(dòng)手能力等),該種社會(huì)現(xiàn)實(shí)促進(jìn)了無障礙技術(shù)在助老、助殘方 面的應(yīng)用。因此,無障礙技術(shù)成為國內(nèi)外科技人員研究的熱點(diǎn)。
[0003] 無障礙技術(shù)是借助先進(jìn)的科學(xué)技術(shù)為老年人和殘障人±提供有效的輔助手段,使 他們能夠重新融入社會(huì)。人機(jī)交互技術(shù)是無障礙技術(shù)的重要研究內(nèi)容之一。人機(jī)交互技 術(shù)根據(jù)采用控制模式的不同可W分為兩類;第一,通過硬件實(shí)施操作完成人機(jī)交互,如操作 鼠標(biāo)、鍵盤、操縱桿等。該種控制方式容易操作,但是并不適用于失去上肢或上肢存在缺陷 的人群;第二,采用模式識(shí)別技術(shù),利用人體自身的器官,如手、腕部、頭部和腦電等完成人 機(jī)交互。具體說來是通過語音識(shí)別、手勢(shì)識(shí)別、頭部運(yùn)動(dòng)、腕部運(yùn)動(dòng)、肌電信號(hào)和腦電信號(hào) (邸G)等來完成對(duì)電子設(shè)備的控制。該種人機(jī)交互方式具有非接觸性,交互過程也比較直 觀,并且適用范圍更廣。因此,基于語音識(shí)別的無障礙技術(shù)具有潛在的研究價(jià)值和意義。
[0004] 語音識(shí)別研究是多口學(xué)科交叉的研究,語言交流是人與人之間最有效、最直接,也 是最方便和快捷的交流方式,同時(shí)是人機(jī)交互的重要交流方式。語音識(shí)別作為人機(jī)交互的 常用方法,具有巨大的優(yōu)勢(shì)。目前絕大多數(shù)的語音識(shí)別系統(tǒng)都只能在低噪聲的環(huán)境下使用。 雖然在安靜環(huán)境下語音控制智能輪椅能達(dá)到比較好的效果,但是在噪聲環(huán)境下不能達(dá)到預(yù) 期的要求,因此魯椿語音識(shí)別的研究是當(dāng)前語音識(shí)別研究的前沿,具有重要的理論和實(shí)際 應(yīng)用價(jià)值,對(duì)于推動(dòng)語音識(shí)別系統(tǒng)走向市場化應(yīng)用具有重要的意義。
[0005] 智能輪椅作為一種代步工具,主要是為老年人和殘障人±提供服務(wù)。它融合了多 種技術(shù),如自主導(dǎo)航、避障和人機(jī)交互等技術(shù)。傳統(tǒng)意義上的智能輪椅是通過手動(dòng)操縱桿來 完成對(duì)運(yùn)動(dòng)的控制,但是并不適用于上肢不便的用戶,因此應(yīng)用的人群范圍受到了限制。隨 著科技的迅猛發(fā)展,基于模式識(shí)別的新型控制技術(shù)已經(jīng)在智能輪椅上得到了廣泛應(yīng)用,如 手勢(shì)、頭部運(yùn)動(dòng)、肌電信號(hào)和基于腦電信號(hào)的BCI技術(shù)等?;隰敶徽Z音識(shí)別技術(shù)的智能輪 椅控制能給許許多多的殘障人帶來了方便,使他們能夠參加正常的社交活動(dòng)。智能輪椅作 為人機(jī)交互的一個(gè)應(yīng)用平臺(tái),融合了機(jī)器人研究領(lǐng)域的多種技術(shù),具有十分廣泛的應(yīng)用前 旦
【發(fā)明內(nèi)容】
[0006] 本發(fā)明針對(duì)現(xiàn)有語音識(shí)別在噪聲環(huán)境下識(shí)別效果不理想,在信號(hào)空間,針對(duì)傳 統(tǒng)的譜減法語音增強(qiáng)存在"音樂噪聲"的缺點(diǎn),提出將聽覺掩蔽效應(yīng)和先驗(yàn)信噪比相結(jié) 合的語音增強(qiáng)算法;在特征空間,針對(duì)感知非均勻譜壓縮(Perceptually Non-uni化rm Spectral, PNSC)的特征提取算法無法更加準(zhǔn)確地提取帶噪聲語音信號(hào)的特征值問題,提出 改進(jìn)感知非均勻譜壓縮的特征提取算法。
[0007] 為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
[000引一種基于語音增強(qiáng)和改進(jìn)PNSC的魯椿語音識(shí)別方法,通過麥克風(fēng)獲取語音信號(hào), 對(duì)語音信號(hào)進(jìn)行預(yù)處理后,對(duì)其進(jìn)行語音增強(qiáng)和特征提取,在信號(hào)空間,運(yùn)用聽覺掩蔽效應(yīng) 和先驗(yàn)信噪比相結(jié)合的語音增強(qiáng)算法進(jìn)行增強(qiáng);在特征空間,運(yùn)用改進(jìn)感知非均勻譜壓縮 的特征提取算法更加準(zhǔn)確提取語音信號(hào)的特征值,用動(dòng)態(tài)時(shí)間規(guī)整算法訓(xùn)練和識(shí)別語音信 號(hào),將語音識(shí)別結(jié)果轉(zhuǎn)換成智能輪椅的底層驅(qū)動(dòng)指令,調(diào)用相應(yīng)的控制函數(shù),驅(qū)動(dòng)智能輪椅 按照語音信號(hào)進(jìn)行運(yùn)動(dòng)。
[0009] 進(jìn)一步,所述基于改進(jìn)的PNSC特征提取算法是將每一帖語音信號(hào)的功率譜或者 子帶能量進(jìn)行壓縮,對(duì)其壓縮因子進(jìn)行改進(jìn),然后通過相應(yīng)的算法提取語音信號(hào)的特征值。
[0010] 本發(fā)明還提供了一種基于語音增強(qiáng)和改進(jìn)PNSC的魯椿語音識(shí)別系統(tǒng),該系統(tǒng)包 括麥克風(fēng)、電腦、無線通信模塊、智能輪椅本體;麥克風(fēng)作為整個(gè)語音控制系統(tǒng)的輸入;電 腦作為整個(gè)語音控制系統(tǒng)的上位機(jī),用于處理語音信號(hào);無線通信模塊用于上位機(jī)和下位 機(jī)之間的通信;智能輪椅是語音控制系統(tǒng)的下位機(jī),用于完成相應(yīng)的控制動(dòng)作;通過麥克 風(fēng)獲取語音信號(hào),對(duì)語音信號(hào)進(jìn)行預(yù)處理后,對(duì)其進(jìn)行語音增強(qiáng)和特征提取,在信號(hào)空間, 運(yùn)用聽覺掩蔽效應(yīng)和先驗(yàn)信噪比相結(jié)合的語音增強(qiáng)算法進(jìn)行增強(qiáng);在特征空間,運(yùn)用改進(jìn) 感知非均勻譜壓縮的特征提取算法更加準(zhǔn)確提取語音信號(hào)的特征值,用動(dòng)態(tài)時(shí)間規(guī)整算法 訓(xùn)練和識(shí)別語音信號(hào),將語音識(shí)別結(jié)果轉(zhuǎn)換成智能輪椅的底層驅(qū)動(dòng)指令,調(diào)用相應(yīng)的控制 函數(shù),驅(qū)動(dòng)智能輪椅按照語音信號(hào)進(jìn)行運(yùn)動(dòng)。
[0011] 本發(fā)明的有益效果在于;本發(fā)明在信號(hào)空間與特征空間提出相應(yīng)的魯椿語音識(shí)別 算法,提高了系統(tǒng)在噪聲環(huán)境下的識(shí)別率,用于智能輪椅語音控制系統(tǒng)中的語音識(shí)別,實(shí)現(xiàn) 了對(duì)智能輪椅的精確控制,達(dá)到用戶與智能輪椅之間語音交互的目的,此方法對(duì)于特定人 語音識(shí)別系統(tǒng)具有較好的通用性。
【附圖說明】
[0012] 為了使本發(fā)明的目的、技術(shù)方案和有益效果更加清楚,本發(fā)明提供如下附圖進(jìn)行 說明:
[0013] 圖1為智能輪椅語音識(shí)別原理框圖;
[0014] 圖2為基于聽覺掩蔽效應(yīng)和先驗(yàn)信噪比的語音增強(qiáng)原理圖;
[0015] 圖3為基于改進(jìn)PNSC特征提取原理圖。
【具體實(shí)施方式】
[0016] 下面將結(jié)合附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的描述。
[0017] 本發(fā)明提供了一種智能輪椅語音識(shí)別控制系統(tǒng),該系統(tǒng)包括;麥克風(fēng)、筆記本電腦 一臺(tái)、無線通信模塊、智能輪椅本體。麥克風(fēng)類作為整個(gè)語音控制系統(tǒng)的輸入;筆記本電腦 作為整個(gè)語音控制系統(tǒng)的上位機(jī),用于處理語音信號(hào);無線通信模塊用于上位機(jī)和下位機(jī) 之間的通信;智能輪椅是語音控制系統(tǒng)的下位機(jī),用于完成相應(yīng)的控制動(dòng)作。
[0018] 智能輪椅識(shí)別系統(tǒng)的實(shí)現(xiàn)過程如圖1所示,首先輸入的語音信號(hào)要進(jìn)行預(yù)處理, 包括語音的預(yù)加重濾波、加窗分帖處理與雙口限端點(diǎn)檢測(cè)等。其次,語音信號(hào)經(jīng)過預(yù)處理 后,接下來很重要的一環(huán)就是特征參數(shù)的提取,然后,在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的 處理后,為每個(gè)命令詞得到一個(gè)模板,保存為模板庫。在識(shí)別階段,語音信號(hào)經(jīng)過相同的方 法得到語音參數(shù),生成測(cè)試模板,與模板庫中的參考模板進(jìn)行匹配,將匹配相似度最高的參 考模板作為識(shí)別結(jié)果。圖2為基于聽覺掩蔽效應(yīng)和先驗(yàn)信噪比的語音增強(qiáng)原理圖,圖3為 基于改進(jìn)PNSC特征提取原理圖。
[0019] 具體來說;
[0020] 為了提高語音識(shí)別在噪聲環(huán)境下的識(shí)別性能,主要可W通過W下兩方面進(jìn)行研 究,分別為;通過降噪算法減少噪聲對(duì)語音信號(hào)前端預(yù)處理的影響,使訓(xùn)練時(shí)的語音特征與 識(shí)別時(shí)的語音特征盡可能匹配;在提取語音信號(hào)特征值時(shí),通過相應(yīng)的特征提取算法減少 訓(xùn)練時(shí)語音模型的特征值與識(shí)別時(shí)語音模型的特征值之間的不匹配,能直接識(shí)別帶噪聲的 語音信號(hào)。目前魯椿語音識(shí)別技術(shù)主要研究方向分為S類,分別為:基于信號(hào)空間的魯椿語 音識(shí)別技術(shù)、基于特征空間的魯椿語音識(shí)別技術(shù)和基于模型空間的魯椿語音識(shí)別技術(shù)。
[0021] ①基于聽覺掩蔽效應(yīng)和先驗(yàn)信噪比的語音增強(qiáng)
[002引設(shè)s(t)為純凈語音信號(hào),n(t)為噪聲信號(hào),y(t)為帶噪聲的語音信號(hào)。那么,帶 噪聲的語音信號(hào)可表示為:
[0023] y(t) = s(t)+n(t) (1)
[0024] 經(jīng)過快速傅里葉變換,結(jié)果如下式:
[002引 Yk= S k+Nk 似
[0026] 其功率譜密度為;
[0027] 町2 =1A r+W r +S*(3)
[002引由于語音信號(hào)與噪聲是相互獨(dú)立的,并且Nk為零均值的高斯分布,所W其可簡化 為:
[0029] E[|Yk 鬥=E[|Sk 鬥+E[|Nk 鬥 (4)
[0030] 每一帖的語音具有短時(shí)平穩(wěn)性,其可表示為:
[003U 忙|2= |SJ2+ 入 n似 妨
[003引 入n似為無語音信號(hào)時(shí)|Nk|2的統(tǒng)計(jì)平均值,由此可得到原始語音信號(hào)的估計(jì);
[0033]
【主權(quán)項(xiàng)】
1. 一種基于語音增強(qiáng)和改進(jìn)PNSC的魯椿語音識(shí)別方法,其特征在于:通過麥克風(fēng)獲取 語音信號(hào),對(duì)語音信號(hào)進(jìn)行預(yù)處理后,對(duì)其進(jìn)行語音增強(qiáng)和特征提取,在信號(hào)空間,運(yùn)用聽 覺掩蔽效應(yīng)和先驗(yàn)信噪比相結(jié)合的語音增強(qiáng)算法進(jìn)行增強(qiáng);在特征空間,運(yùn)用改進(jìn)感知非 均勻譜壓縮的特征提取算法更加準(zhǔn)確提取語音信號(hào)的特征值,用動(dòng)態(tài)時(shí)間規(guī)整算法訓(xùn)練和 識(shí)別語音信號(hào),將語音識(shí)別結(jié)果轉(zhuǎn)換成智能輪椅的底層驅(qū)動(dòng)指令,調(diào)用相應(yīng)的控制函數(shù),驅(qū) 動(dòng)智能輪椅按照語音信號(hào)進(jìn)行運(yùn)動(dòng)。
2. 根據(jù)權(quán)利要求1所述的一種基于語音增強(qiáng)和改進(jìn)PNSC的魯椿語音識(shí)別方法,其特征 在于;所述基于改進(jìn)的PNSC特征提取算法是將每一帖語音信號(hào)的功率譜或者子帶能量進(jìn) 行壓縮,對(duì)其壓縮因子進(jìn)行改進(jìn),然后通過相應(yīng)的算法提取語音信號(hào)的特征值。
3. -種基于語音增強(qiáng)和改進(jìn)PNSC的魯椿語音識(shí)別系統(tǒng),其特征在于:該系統(tǒng)包括麥克 風(fēng)、電腦、無線通信模塊、智能輪椅本體;麥克風(fēng)作為整個(gè)語音控制系統(tǒng)的輸入;電腦作為 整個(gè)語音控制系統(tǒng)的上位機(jī),用于處理語音信號(hào);無線通信模塊用于上位機(jī)和下位機(jī)之間 的通信;智能輪椅是語音控制系統(tǒng)的下位機(jī),用于完成相應(yīng)的控制動(dòng)作;通過麥克風(fēng)獲取 語音信號(hào),對(duì)語音信號(hào)進(jìn)行預(yù)處理后,對(duì)其進(jìn)行語音增強(qiáng)和特征提取,在信號(hào)空間,運(yùn)用聽 覺掩蔽效應(yīng)和先驗(yàn)信噪比相結(jié)合的語音增強(qiáng)算法進(jìn)行增強(qiáng);在特征空間,運(yùn)用改進(jìn)感知非 均勻譜壓縮的特征提取算法更加準(zhǔn)確提取語音信號(hào)的特征值,用動(dòng)態(tài)時(shí)間規(guī)整算法訓(xùn)練和 識(shí)別語音信號(hào),將語音識(shí)別結(jié)果轉(zhuǎn)換成智能輪椅的底層驅(qū)動(dòng)指令,調(diào)用相應(yīng)的控制函數(shù),驅(qū) 動(dòng)智能輪椅按照語音信號(hào)進(jìn)行運(yùn)動(dòng)。
【專利摘要】本發(fā)明涉及一種基于語音增強(qiáng)和改進(jìn)PNSC的魯棒語音識(shí)別方法及系統(tǒng),通過麥克風(fēng)獲取語音信號(hào),對(duì)語音信號(hào)進(jìn)行預(yù)處理后,對(duì)其進(jìn)行語音增強(qiáng)和特征提取,在信號(hào)空間,運(yùn)用聽覺掩蔽效應(yīng)和先驗(yàn)信噪比相結(jié)合的語音增強(qiáng)算法進(jìn)行增強(qiáng);在特征空間,運(yùn)用改進(jìn)感知非均勻譜壓縮的特征提取算法更加準(zhǔn)確提取語音信號(hào)的特征值,用動(dòng)態(tài)時(shí)間規(guī)整算法訓(xùn)練和識(shí)別語音信號(hào),將語音識(shí)別結(jié)果轉(zhuǎn)換成智能輪椅的底層驅(qū)動(dòng)指令,調(diào)用相應(yīng)的控制函數(shù),驅(qū)動(dòng)智能輪椅按照語音信號(hào)進(jìn)行運(yùn)動(dòng)。本發(fā)明所述的方法和系統(tǒng)提高了系統(tǒng)在噪聲環(huán)境下的識(shí)別率,實(shí)現(xiàn)了對(duì)智能輪椅的精確控制,達(dá)到用戶與智能輪椅之間語音交互的目的,此方法對(duì)于特定人語音識(shí)別系統(tǒng)具有較好的通用性。
【IPC分類】G10L15-20, G10L15-06
【公開號(hào)】CN104538029
【申請(qǐng)?zhí)枴緾N201410781769
【發(fā)明人】張毅, 羅元, 劉想德, 林海波, 徐曉東, 胡豁生
【申請(qǐng)人】重慶郵電大學(xué)
【公開日】2015年4月22日
【申請(qǐng)日】2014年12月16日