一種構(gòu)音識別方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種構(gòu)音識別方法,包括:獲取樣本信號,對樣本信號進行濾波去噪后,將樣本信號通過A/D轉(zhuǎn)換量化為二進制的樣本信號,從二進制的樣本信號中提取包含語音的語音信號;提取語音信號中的聲學特征參數(shù);選定與訓練聲學模型,根據(jù)各個聲學特征參數(shù)分別估算聲學模型的參數(shù)估計值,得到對應于最大似然值的最優(yōu)模型參數(shù);構(gòu)音識別,采集待識別信號,根據(jù)最優(yōu)模型參數(shù)計算待識別信號的各個聲學特征參數(shù)的概率值,得到識別結(jié)果。本發(fā)明構(gòu)音識別方法不僅能夠準確識別語音中的內(nèi)容,還能夠識別出單音節(jié)詞的具體音節(jié)組合及其聲調(diào)。本發(fā)明還公開了一種構(gòu)音識別系統(tǒng)。
【專利說明】一種構(gòu)音識別方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及言語識別,尤其設(shè)計一種構(gòu)音識別方法及其系統(tǒng)。
【背景技術(shù)】
[0002] 構(gòu)音是言語產(chǎn)生的基礎(chǔ),通過構(gòu)音器官(如,下頜、唇、舌、軟腭等)的協(xié)調(diào)運動產(chǎn) 生。構(gòu)音運動產(chǎn)生的最小語音單位是音素,語音學定義了音素包括元音和輔音兩類。漢語 普通話的構(gòu)音識別結(jié)果包括兩部分:音素組合成的音節(jié)和聲調(diào)。但是目前構(gòu)音識別技術(shù)無 法準確識別由相同音節(jié)不同聲調(diào)組成的字音,而且并非以音素為單位進行識別,導致識別 結(jié)果并不適用于言語語言教育。
[0003] 為了克服現(xiàn)有技術(shù)中的無法準確識別語音中的內(nèi)容無法準確識別由相同音節(jié)不 同聲調(diào)組成的字音,而且并非以音素為單位進行識別,導致識別結(jié)果并不適用于言語語言 教育的缺陷,提出了一種構(gòu)音識別方法及其系統(tǒng)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提出了一種構(gòu)音識別方法,包括如下步驟:獲取樣本信號,對所述樣本信號 進行濾波去噪后,將所述樣本信號通過A/D轉(zhuǎn)換量化為二進制的樣本信號,從所述二進制 的樣本信號中提取包含語音的語音信號;提取所述語音信號中的聲學特征參數(shù),所述聲學 特征參數(shù)用于識別音節(jié)和音調(diào);選定與訓練聲學模型,分別計算各個所述聲學特征參數(shù)在 隱馬爾可夫模型下的最大似然概率值,得到對應于所述最大似然值的最優(yōu)模型參數(shù);構(gòu)音 識別,采集待識別信號,根據(jù)所述最優(yōu)模型參數(shù)計算所述待識別信號的各個聲學特征參數(shù) 的概率值,得到識別結(jié)果。
[0005] 本發(fā)明提出的所述構(gòu)音識別方法中,提取包含語音的語音信號的步驟包括:將所 述二進制的樣本信號截取為多個幀;計算至少一幀的短時自相關(guān)函數(shù)的平均值;根據(jù)所述 平均值計算用于判斷當前幀的短時過門限率;根據(jù)所述短時過門限率判斷所述當前幀是清 音或濁音;逐個判斷所有幀,直至獲得起始幀與終止幀時得到語音信號。
[0006] 本發(fā)明提出的所述構(gòu)音識別方法中,所述短時自相關(guān)函數(shù)為:
[0007]
【權(quán)利要求】
1. 一種構(gòu)音識別方法,其特征在于,包括如下步驟: 獲取樣本信號,對所述樣本信號進行濾波去噪后,將所述樣本信號通過A/D轉(zhuǎn)換量化 為二進制的樣本信號,從所述二進制的樣本信號中提取包含語音的語音信號; 提取所述語音信號中的聲學特征參數(shù),所述聲學特征參數(shù)用于識別音節(jié)和音調(diào); 選定與訓練聲學模型,分別計算各個所述聲學特征參數(shù)在隱馬爾可夫模型下的最大似 然概率值,得到對應于所述最大似然值的最優(yōu)模型參數(shù); 構(gòu)音識別,采集待識別信號,根據(jù)所述最優(yōu)模型參數(shù)計算所述待識別信號的各個聲學 特征參數(shù)的概率值,得到識別結(jié)果。
2. 如權(quán)利要求1所述的構(gòu)音識別方法,其特征在于,提取包含語音的語音信號的步驟 包括: 將所述二進制的樣本信號截取為多個幀; 計算至少一幀的短時自相關(guān)函數(shù)的平均值; 根據(jù)所述平均值計算用于判斷當前幀的短時過門限率; 根據(jù)所述短時過門限率判斷所述當前幀是清音或濁音; 逐個判斷所有幀,直至獲得起始幀與終止幀時得到語音信號。
3. 如權(quán)利要求2所述的構(gòu)音識別方法,其特征在于,所述短時自相關(guān)函數(shù)為:
式中,k表示最大延遲點數(shù),Rn(k)表示短時自相關(guān)函數(shù),xn表示語音信號的采樣點,m 表示采樣點的序號,X' n表示語音信號的三電平量化信號,N表示語音信號采樣點的個數(shù)。
4. 如權(quán)利要求2所述的構(gòu)音識別方法,其特征在于,所述短時過門限率為:
1, x>0 其中,sgn⑴={ 式中,zn表示短時過門限率,T表示設(shè)定的門限值,為正數(shù),xn表示語音信號的采樣點, m表示采樣點的序號,N表示語音信號采樣點的個數(shù),η表示語音幀的序號。
5. 如權(quán)利要求1所述的構(gòu)音識別方法,其特征在于,提取所述語音信號后進一步包括: 加重所述語音信號中的高頻分量; 利用窗函數(shù)對所述語音信號進行加窗操作。
6. 如權(quán)利要求1所述的構(gòu)音識別方法,其特征在于,所述聲學特征參數(shù)包括Mel倒譜系 數(shù)及其一階差分結(jié)果和二階差分結(jié)果,所述Mel倒譜系數(shù)及其一階差分結(jié)果和二階差分結(jié) 果的計算步驟包括: 通過快速傅立葉變換計算所述語音信號的功率譜; 利用Mel濾波器計算所述功率譜得到Mel頻譜; 通過離散余弦變換計算所述Mel頻譜得到Mel倒頻譜系數(shù); 逐次對所述Mel倒頻譜系數(shù)進行以時間的差分運算,得到一階差分結(jié)果與二階差分結(jié) 果。
7. 如權(quán)利要求1所述的構(gòu)音識別方法,其特征在于,所述聲學特征參數(shù)包括短時對數(shù) 能量,所述短時對數(shù)能量如以下公式表示:
式中,sn表不語音信號離散序列,N表不米樣點的總個數(shù),η表不米樣點序號。
8. 如權(quán)利要求1所述的構(gòu)音識別方法,其特征在于,得到所述最優(yōu)模型參數(shù)的步驟包 括: 計算所述聲學特征參數(shù)的均值與協(xié)方差; 將聲學模型的初始均值與協(xié)方差替換為所述聲學特征參數(shù)的均值與協(xié)方差; 估算所述聲學模型的模型參數(shù),得到參數(shù)估計值; 將所述參數(shù)估計值替換所述聲學模型中的參數(shù),分別計算各個所述聲學特征參數(shù)在隱 馬爾可夫模型下的最大似然概率值,得到對應于所述最大似然值的最優(yōu)模型參數(shù)。
9. 如權(quán)利要求1所述的構(gòu)音識別方法,其特征在于,所述參數(shù)估計值是根據(jù) Baum-Welch算法估算得到的。
10. 如權(quán)利要求1所述的構(gòu)音識別方法,其特征在于,所述識別結(jié)果的計算步驟包括: 將所述待識別信號進行劃分,得到多個詞語組成的詞序列; 提取當前詞語的多個聲學特征參數(shù); 根據(jù)所述最優(yōu)模型參數(shù)以隱馬爾可夫模型分別計算每個所述聲學特征參數(shù)的概率值, 以所述概率值最大的聲學特征參數(shù)作為所述詞語的識別結(jié)果; 依次計算對所述待識別信號中每個詞語的識別結(jié)果,得到所待述識別信號的識別結(jié) 果。
11. 如權(quán)利要求1所述的構(gòu)音識別方法,其特征在于,得到所述識別結(jié)果之后進一步包 括: 將所述識別結(jié)果與事先設(shè)定的目標音對比,得到所述待識別信號中存在構(gòu)音障礙的聲 母、韻母和聲調(diào)。
12. -種構(gòu)音識別系統(tǒng),其特征在于,包括 語音采集裝置,其用于采集樣本信號與待識別信號; 語音處理裝置,其用于對所述樣本信號與待識別信號進行數(shù)據(jù)轉(zhuǎn)換與預處理,并分別 提取所述樣本信號與所述待識別信號的聲學特征參數(shù); 構(gòu)音識別裝置,其用于根據(jù)所述樣本信號的聲學特征參數(shù)訓練聲學模型得到最優(yōu)模型 參數(shù),根據(jù)所述最優(yōu)模型參數(shù)計算所述待識別信號的聲學特征參數(shù),得到識別結(jié)果。
13. 如權(quán)利要求12所述的構(gòu)音識別系統(tǒng),其特征在于,所述構(gòu)音識別裝置進一步用于 對所述識別結(jié)果進行判斷,判斷所述待識別信號中存在構(gòu)音障礙的聲母、韻母和聲調(diào)。
【文檔編號】G10L15/08GK104123934SQ201410353819
【公開日】2014年10月29日 申請日期:2014年7月23日 優(yōu)先權(quán)日:2014年7月23日
【發(fā)明者】黃昭鳴, 周林燦, 李寧 申請人:泰億格電子(上海)有限公司