本發(fā)明涉及語音識別技術(shù)領(lǐng)域,特別涉及一種用于大數(shù)據(jù)分析的語音識別系統(tǒng)。
背景技術(shù):
在近年來,語音識別技術(shù)取得顯著進(jìn)步,已經(jīng)從實驗室走向市場。在實際應(yīng)用中,例如智能助理Siri,通過識別用戶的語音輸入信息,自動完成和用戶的交互。
目前,進(jìn)行語音識別時,環(huán)境噪聲對語音識別的識別率影響很大,同時,對原始語音信息的處理方法也會對識別結(jié)果有一定的影響,除此之外,不同的人還有發(fā)音習(xí)慣上的差別,使用單一聲學(xué)特征進(jìn)行識別會是語音識別的識別率受到明顯影響。
同時,不同的方言有相似的發(fā)音特征和發(fā)音習(xí)慣,發(fā)音者的情緒也會影響語速和語句長短,這都會影響聲學(xué)特征的識別精度。
由于語音識別的識別率不夠高,導(dǎo)致使用語音進(jìn)行大數(shù)據(jù)分析面臨較大的困難。
技術(shù)實現(xiàn)要素:
為解決以上問題,本發(fā)明提供一種用于大數(shù)據(jù)分析的語音識別系統(tǒng),用以解決語音識別的識別率不高的問題,包括:
語音信息分類模塊,用于對原始語音信息進(jìn)行分類,得到分類后的原始語音信息;原始語音處理模塊,用于對分類后的原始語音信息進(jìn)行語音增強和濾波,得到處理后的語音信息;聲學(xué)特征識別提取模塊,用于對處理后的語音信息中的聲學(xué)特征進(jìn)行識別提??;基礎(chǔ)元數(shù)據(jù)集,用于存儲針對不同語音信息分類的聲學(xué)特征及與其對應(yīng)的文本信息;聲學(xué)特征匹配模塊,用于將提取的聲學(xué)特征與基礎(chǔ)元數(shù)據(jù)集中與相應(yīng)的語音信息分類對應(yīng)的聲學(xué)特征進(jìn)行匹配,識別出第一語音識別結(jié)果;識別糾錯模塊,用于對識別出的第一語音識別結(jié)果進(jìn)行清洗糾錯,得到第二語音識別結(jié)果;結(jié)果輸出模塊,用于將第二語音識別結(jié)果作為語音識別結(jié)果進(jìn)行輸出。
優(yōu)選的,所述語音信息分類模塊,用于根據(jù)語音特征對對原始語音信息進(jìn)行分類,所述語音特征包括:語音的時長、語音包含的音素數(shù)量。
優(yōu)選的,所述原始語音處理模塊,包括用于對分類后的原始語音信息進(jìn)行語音增強,得到語音增強后的原始語音信息,所用增強方法為減譜法,所用減譜公式為:
其中,PS(ω)為輸出語音信息的功率譜,Py(ω)為原始語音信息的功率譜,Pn1(ω)為發(fā)聲前的寂靜段的功率譜,Pn2(ω)為發(fā)聲結(jié)束后的寂靜段的功率譜,t1為發(fā)聲前的寂靜段結(jié)束時的時間點,t2為發(fā)聲結(jié)束后的寂靜段開始時的時間點,t為當(dāng)前所要處理的語音信息的時間點。
優(yōu)選的,所述原始語音處理模塊,包括用于對語音增強后的原始語音信息進(jìn)行濾波,所用濾波方法為通過帶通濾波器進(jìn)行濾波。
優(yōu)選的,所述聲學(xué)特征包括:
Mel頻段倒譜系數(shù)和過零峰值幅度。
優(yōu)選的,所述聲學(xué)特征識別提取模塊,用于對處理后的語音信息中的聲學(xué)特征進(jìn)行識別提取,包括,對處理后的語音信息進(jìn)行預(yù)加重、分幀和加窗,加窗所用的窗函數(shù)為:
其中,w(n)為窗函數(shù)的值,N為幀長,n為采樣點;
對聲學(xué)特征進(jìn)行識別提取使用基于Levenberg-Marquardt算法的神經(jīng)網(wǎng)絡(luò)進(jìn)行識別提取。
優(yōu)選的,所述基礎(chǔ)元數(shù)據(jù)集,所用存儲方法為,先存儲一類語音信息分類的聲學(xué)特征及與其對應(yīng)的文本信息,作為參考數(shù)據(jù),對于其他語音信息分類的聲學(xué)特征,根據(jù)聲學(xué)特征出現(xiàn)的概率使用不同的存儲方式,出現(xiàn)概率高的聲學(xué)特征進(jìn)行完整存儲,出現(xiàn)概率低的聲學(xué)特征僅存儲其與參考數(shù)據(jù)的不同部分。
優(yōu)選的,所述聲學(xué)特征匹配模塊,用于將提取的聲學(xué)特征與基礎(chǔ)元數(shù)據(jù)集中與相應(yīng)的語音信息分類對應(yīng)的聲學(xué)特征進(jìn)行匹配,識別出第一語音識別結(jié)果,所用識別方法為通過HMM-GMM模型或RNN-GMM模型進(jìn)行識別。
優(yōu)選的,所述識別糾錯模塊,用于通過語言模型對第一語音識別結(jié)果進(jìn)行清洗糾錯,得到第二語音識別結(jié)果,包括:結(jié)合語義模型對第一語音識別結(jié)果進(jìn)行清洗糾錯。
本發(fā)明的一些有益效果可以包括:
本發(fā)明的提供的系統(tǒng),可以顯著降低環(huán)境噪聲對語音識別的識別率的影響,通過對語音的分類還能改善方言和語速對語音識別的識別率的影響,本發(fā)明通過優(yōu)化對原始語音信息的處理和使用多種聲學(xué)特征,使語音識別的識別率有較大提高,再結(jié)合語言模型的使用,大大提高了語音識別的識別率。本發(fā)明提高了計算機(jī)對語音識別的識別能力,尤其適用于語音類型較豐富的大數(shù)據(jù)分析,使對語音識別的處理結(jié)果更加準(zhǔn)確。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
附圖說明
附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
圖1為本發(fā)明實施例中一種用于大數(shù)據(jù)分析的語音識別系統(tǒng)的示意圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
圖1為本發(fā)明實施例中一種用于大數(shù)據(jù)分析的語音識別系統(tǒng)的示意圖,如圖1所示,包括:
語音信息分類模塊,用于對原始語音信息進(jìn)行分類,得到分類后的原始語音信息;原始語音處理模塊,用于對分類后的原始語音信息進(jìn)行語音增強和濾波,得到處理后的語音信息;聲學(xué)特征識別提取模塊,用于對處理后的語音信息中的聲學(xué)特征進(jìn)行識別提取;基礎(chǔ)元數(shù)據(jù)集,用于存儲針對不同語音信息分類的聲學(xué)特征及與其對應(yīng)的文本信息;聲學(xué)特征匹配模塊,用于將提取的聲學(xué)特征與基礎(chǔ)元數(shù)據(jù)集中與相應(yīng)的語音信息分類對應(yīng)的聲學(xué)特征進(jìn)行匹配,識別出第一語音識別結(jié)果;識別糾錯模塊,用于對識別出的第一語音識別結(jié)果進(jìn)行清洗糾錯,得到第二語音識別結(jié)果;結(jié)果輸出模塊,用于將第二語音識別結(jié)果作為語音識別結(jié)果進(jìn)行輸出。
在一個實施例中,語音信息分類模塊,用于根據(jù)語音特征對對原始語音信息進(jìn)行分類,其中語音特征包括:語音的時長、語音包含的音素數(shù)量。通過語音包含的音素數(shù)量與語音的時長之比判斷語速,進(jìn)而通過語速進(jìn)行分類。在另一個實施例中,語音信息分類模塊所用的語音特征包括基頻包絡(luò)和共振峰模式,通過對基頻包絡(luò)和共振峰模式的識別將語音分入普通話類或不同的方言分類。通過語音信息分類模塊的處理,能夠通過對語音的分類來改善方言和語速對語音識別的識別率的影響。
在一個實施例中,原始語音處理模塊,包括用于對分類后的原始語音信息進(jìn)行語音增強,得到語音增強后的原始語音信息,所用增強方法為減譜法,所用減譜公式為:
其中,PS(ω)為輸出語音信息的功率譜,Py(ω)為原始語音信息的功率譜,Pn1(ω)為發(fā)聲前的“寂靜段”的功率譜,“寂靜段”為原始語音信息當(dāng)中被識別為沒有發(fā)音的時間段,可通過現(xiàn)有技術(shù)對其識別,Pn2(ω)為發(fā)聲結(jié)束后的“寂靜段”的功率譜,t1為發(fā)聲前的“寂靜段”結(jié)束時的時間點,t2為發(fā)聲結(jié)束后的“寂靜段”開始時的時間點,t為當(dāng)前所要處理的語音信息的時間點(其值為當(dāng)前所要處理的語音信息的開始的時間點和結(jié)束的時間點的算術(shù)平均值)。在另一個實施例中,減譜公式還可以表示為:
其中,αi為值在0到1之間的權(quán)重系數(shù),且∑iαi=1,Pni(ω)為某一“寂靜段”的功率譜。通過考慮2個或更多的“寂靜段”的功率譜,同時考慮各“寂靜段”與當(dāng)前所要處理的語音信息的時間點的靠近關(guān)系,可以更準(zhǔn)確的估計當(dāng)前所要處理的語音信息中包含的環(huán)境噪聲。
在一個實施例中,原始語音處理模塊,包括用于對語音增強后的原始語音信息進(jìn)行濾波,所用濾波方法為通過帶通濾波器進(jìn)行濾波。包括對語音增強后的原始語音信息進(jìn)行濾波,所用濾波方法為通過帶通濾波器進(jìn)行濾波。該帶通濾波器的上、下截至頻率分別是4500Hz和60Hz,采樣頻率是10kHz。通過這種濾波器濾波,即可以防止混疊干擾,又能抑制50Hz的電源工頻干擾,使后續(xù)處理的效果更準(zhǔn)確。
在一個實施例中,所述聲學(xué)特征包括:Mel頻段倒譜系數(shù)(MFCC)和過零峰值幅度(ZCPA),對于每個語音信息分類都存有對應(yīng)的聲學(xué)特征。
在一個實施例中,采用的聲學(xué)特征LPCC、DPSCC、MFCC和ZCPA,在對某一音素進(jìn)行識別時,首先將語音分配到一個語音信息分類中,然后分別使用與該語音信息分類相匹配的LPCC、DPSCC、MFCC和ZCPA作為聲學(xué)特征進(jìn)行識別,并根據(jù)預(yù)設(shè)給LPCC、DPSCC、MFCC和ZCPA的權(quán)重系數(shù),對某一音素的識別結(jié)果進(jìn)行加權(quán)判斷,得到該音素的識別結(jié)果。通過將語音進(jìn)行分類,并使用與相應(yīng)語音信息分類對應(yīng)的多個聲學(xué)特征,可以使得進(jìn)行語音識別的時候,既可以減少方言對識別率的影響,又有較好的抗環(huán)境噪聲能力,還有修正使用單一聲學(xué)特征進(jìn)行識別時造成的識別錯誤的能力,能夠提高語音識別的精度。
在一個實施例中,聲學(xué)特征識別提取模塊,用于對處理后的語音信息中的聲學(xué)特征進(jìn)行識別提取,包括,對處理后的語音信息進(jìn)行預(yù)加重、分幀和加窗,加窗所用的窗函數(shù)為:
其中,w(n)為窗函數(shù)的值,N為幀長,n為采樣點。
對聲學(xué)特征進(jìn)行識別提取使用基于Levenberg-Marquardt算法的神經(jīng)網(wǎng)絡(luò)進(jìn)行識別提取。在使用基于Levenberg-Marquardt算法的神經(jīng)網(wǎng)絡(luò)時,根據(jù)輸入聲學(xué)特征和輸出文本的形式確定輸入層和輸出層的節(jié)點數(shù),再用黃金分割優(yōu)選法確定隱含層的節(jié)點數(shù),再使用標(biāo)記的數(shù)據(jù)集對該神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和優(yōu)化。
該窗函數(shù)與標(biāo)準(zhǔn)MFCC提取過程中使用的漢明(Hamming)窗相比,能夠在保持窗函數(shù)主瓣寬度基本不變的情況下,更有效的抑制旁瓣,可以有效的減小對原始語音信息處理過程中引入的誤差,使對MFCC等聲學(xué)特征的提取更加準(zhǔn)確。使用基于Levenberg-Marquardt算法的神經(jīng)網(wǎng)絡(luò)較常用的BP網(wǎng)絡(luò)收斂更快,且穩(wěn)定性足夠。
在一個實施例中,基礎(chǔ)元數(shù)據(jù)集,所用存儲方法為,先存儲普通話分類的聲學(xué)特征及與其對應(yīng)的文本信息,作為參考數(shù)據(jù),對于其他方言分類的聲學(xué)特征,根據(jù)聲學(xué)特征出現(xiàn)的概率使用不同的存儲方式,出現(xiàn)概率高于預(yù)置閾值1/5000的聲學(xué)特征進(jìn)行完整存儲,出現(xiàn)概率不高于1/5000的聲學(xué)特征僅存儲其與普通話的數(shù)據(jù)中的不同部分。通過這種存儲方法,既可以減少所需要的存儲空間,還可以減少音速與聲學(xué)特征匹配的時間,提高語音識別的速度。
在一個實施例中,基礎(chǔ)元數(shù)據(jù)集,由神經(jīng)網(wǎng)絡(luò)對標(biāo)記的訓(xùn)練集進(jìn)行增強學(xué)習(xí)獲取。使用通過這種方式獲取的基礎(chǔ)元數(shù)據(jù)集中的聲學(xué)特征進(jìn)行語音識別有較好的抗干擾能力。
在一個實施例中,聲學(xué)特征匹配模塊,用于將提取的聲學(xué)特征與基礎(chǔ)元數(shù)據(jù)集中與相應(yīng)的語音信息分類對應(yīng)的聲學(xué)特征進(jìn)行匹配,識別出第一語音識別結(jié)果,所用識別方法為通過HMM-GMM模型或RNN-GMM模型進(jìn)行識別。在一個實施例中,通過HMM-GMM模型對提取的聲學(xué)特征進(jìn)行識別,所用方法為:
其中,為所識別出的語句;W為表示一個語句;P(W)表示語句W出現(xiàn)的概率;λi為預(yù)先設(shè)置的不同音素識別方法的權(quán)重系數(shù),其值大于0;Pi(X|W)為使用音素識別方法i時,由語句W識別為語音X的概率。不同的音素識別方法,可以是使用單一聲學(xué)特征進(jìn)行識別,也可以是使用多個聲學(xué)特征的組合進(jìn)行識別。使用多個聲學(xué)特征的組合進(jìn)行識別的一個例子是,使用MFCC和ZCPA作為聲學(xué)特征進(jìn)行識別,兩種聲學(xué)特征的權(quán)重分別為0.4和0.6。通過HMM-GMM模型或RNN-GMM模型進(jìn)行識別,可以方便的組合多種音素識別方法,使語音識別結(jié)果的可靠性更高。
在一個實施例中,識別糾錯模塊,用于通過語言模型對第一語音識別結(jié)果進(jìn)行清洗糾錯,得到第二語音識別結(jié)果,包括:結(jié)合語義模型對第一語音識別結(jié)果進(jìn)行清洗糾錯。在得到第一識別結(jié)果后,通過預(yù)設(shè)的語義模型對識別出的結(jié)果進(jìn)行檢查,當(dāng)?shù)谝徽Z音識別結(jié)果滿足預(yù)設(shè)的語義模型時,將第一語音識別結(jié)果確認(rèn)為第二語音識別結(jié)果;當(dāng)?shù)谝徽Z音識別結(jié)果不滿足預(yù)設(shè)的語義模型時,根據(jù)預(yù)設(shè)的糾錯模板對第一語音識別結(jié)果進(jìn)行糾錯,并將糾錯過的結(jié)果確定為第二語音識別結(jié)果。通過語義模型對(識別出的)文本信息進(jìn)行糾錯可通過現(xiàn)有技術(shù)實現(xiàn)。通過使用語義模型對語音識別的結(jié)果進(jìn)行糾錯,可以使語音識別結(jié)果的可靠性進(jìn)一步提高,使對語音識別的處理結(jié)果更加準(zhǔn)確。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。