專(zhuān)利名稱(chēng):用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別領(lǐng)域,尤其涉及一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法及建模系統(tǒng)。
背景技術(shù):
目前語(yǔ)音識(shí)別的主流框架基于統(tǒng)計(jì)模式識(shí)別。典型的語(yǔ)音識(shí)別系統(tǒng)框架如圖1所示:包括語(yǔ)音采集及前端處理模塊、特征提取模塊、聲學(xué)模型模塊、語(yǔ)言模型模塊以及解碼器模塊。語(yǔ)音識(shí)別的基本流程如下:語(yǔ)音采集裝置收集人的語(yǔ)音后經(jīng)過(guò)前端處理之后進(jìn)行特征提取,提取的特征序列如MFCC或PLP通過(guò)聲學(xué)模型獲得其觀(guān)察概率,結(jié)合語(yǔ)言模型概率送入解碼器獲得最有可能的文本序列。所述聲學(xué)模型建模基于隱馬爾科夫框架,采用混合高斯模型對(duì)語(yǔ)音特征的概率分布進(jìn)行建模。所述混合高斯模型會(huì)對(duì)語(yǔ)音特征及其分布做一些不恰當(dāng)?shù)募僭O(shè),如相鄰語(yǔ)音特征的線(xiàn)性無(wú)關(guān)假設(shè),其觀(guān)察概率服從混合高斯分布等。此夕卜,混合高斯模型進(jìn)行參數(shù)訓(xùn)練時(shí)目標(biāo)函數(shù)是使觀(guān)察特征的似然概率最大,而解碼時(shí)使用的卻是最大后驗(yàn)準(zhǔn)則,概率模型上不一致??梢?jiàn)傳統(tǒng)的聲學(xué)模型,建模精度不高,導(dǎo)致語(yǔ)音識(shí)別效果欠佳。
發(fā)明內(nèi)容
針對(duì)上述問(wèn)題,本發(fā)明實(shí)施例提出一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)。在第一方面,本發(fā)明實(shí)施例提出一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法,所述方法包括:用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型,該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語(yǔ)音特征經(jīng)過(guò)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài),所述HMM-GMM模型通過(guò)期望最大EM算法獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率;基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息;對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù);基于所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新其各隱含層的權(quán)重。優(yōu)選地,所述基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息,具體為:基于所述HMM-GMM模型,將所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng),獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息。優(yōu)選地,所述對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂,用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。在第二方面,本發(fā)明實(shí)施例提出一種用于語(yǔ)音識(shí)別聲學(xué)模型的建模系統(tǒng),其包括:第一模塊,用于用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型,該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語(yǔ)音特征經(jīng)過(guò)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài),所述HMM-GMM模型通過(guò)期望最大EM算法獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率;第二模塊,用于基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息;第三模塊,用于對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù);第四模塊,用于基于所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新其各隱含層的權(quán)重。優(yōu)選地,所述第二模塊基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息,具體為:所述第二模塊基于所述HMM-GMM模型,將所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng),獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息。優(yōu)選地,所述第三模塊對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:所述第三模塊利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂,用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。本發(fā)明實(shí)施例采用三音子狀態(tài),基于深層神經(jīng)網(wǎng)絡(luò)建模,使用受限波爾茲曼算法初始化所述網(wǎng)絡(luò)各隱含層的權(quán)重,所述權(quán)重在后續(xù)還可以借助反向誤差傳播算法被更新,能夠有效地緩解所述網(wǎng)絡(luò)預(yù)訓(xùn)練時(shí)容易陷入局部極值的風(fēng)險(xiǎn),并進(jìn)一步提高聲學(xué)模型的建模精度。
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。圖1是現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)示意圖;圖2是本發(fā)明實(shí)施例的基于上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng)框圖;圖3是本發(fā)明實(shí)施例的用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法示意圖;圖4是本發(fā)明實(shí)施例的用于語(yǔ)音識(shí)別的聲學(xué)模型的建模系統(tǒng)示意圖。
具體實(shí)施例方式下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明實(shí)施例的技術(shù)方案做進(jìn)一步的詳細(xì)描述。考慮到混合高斯模型需要對(duì)語(yǔ)音特征及其概率分布做出不恰當(dāng)假設(shè),本發(fā)明實(shí)施例使用上下文相關(guān)的深層神經(jīng)網(wǎng)絡(luò)代替混合高斯模型進(jìn)行聲學(xué)模型建模。所述深層神經(jīng)網(wǎng)絡(luò)包含多個(gè)隱含層,其建模單元是經(jīng)音素決策樹(shù)聚類(lèi)后的上下文相關(guān)三音子狀態(tài)。整個(gè)系統(tǒng)的基本框圖如圖2所示。深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)采用最小交叉熵準(zhǔn)則作為目標(biāo)函數(shù),由于其具有多個(gè)隱含層,其誤差函數(shù)具有很多的局部極值,導(dǎo)致深層神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程很容易陷入局部極值而過(guò)早的收斂。針對(duì)此問(wèn)題,神經(jīng)計(jì)算領(lǐng)域提出的通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練來(lái)初始化權(quán)重參數(shù),再采用傳統(tǒng)的誤差反向傳播算法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練。預(yù)訓(xùn)練算法采用受限玻爾茲曼機(jī),受限玻爾茲曼機(jī)為雙向圖模型,包括一個(gè)可見(jiàn)層和一個(gè)隱含層,其中同一層的各單兀之間無(wú)互聯(lián)而不同層的單元稠密鏈接。該模型通過(guò)一個(gè)能量函數(shù)定義可見(jiàn)層與隱含層變量的聯(lián)合分布,具體公式如下:
權(quán)利要求
1.一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法,其特征在于,所述方法包括: 用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型,該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語(yǔ)音特征經(jīng)過(guò)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài),所述HMM-GMM模型通過(guò)期望最大EM算法訓(xùn)練獲得,同時(shí)獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率; 基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征進(jìn)行強(qiáng)制對(duì)齊,獲得所述語(yǔ)音特征幀級(jí)別的三音子狀態(tài)信息; 對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù); 基于所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的語(yǔ)音特征幀級(jí)狀態(tài)信息采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新其各隱含層的權(quán)重。
2.如權(quán)利要求1所述的建模方法,其特征在于,所述基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息,具體為:基于所述HMM-GMM模型,將所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng),獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息。
3.如權(quán)利要求1所述的建模方法,其特征在于,所述對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂,用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。
4.一種用于語(yǔ)音識(shí)別聲學(xué)模型的建模系統(tǒng),其特征在于,所述建模系統(tǒng)包括: 第一模塊,用于用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型,該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語(yǔ)音特征經(jīng)過(guò)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài),所述HMM-GMM模型通過(guò)期望最大EM算法獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率; 第二模塊,用于基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征進(jìn)行強(qiáng)制對(duì)齊,獲得所述語(yǔ)音特征幀級(jí)的三音子狀態(tài)信息; 第三模塊,用于對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù); 第四模塊,用于基于所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的語(yǔ)音特征幀級(jí)狀態(tài)信息采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新其各隱含層的權(quán)重。
5.如權(quán)利要求4所述的建模系統(tǒng),其特征在于,所述第二模塊基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息,具體為:所述第二模塊基于所述HMM-GMM模型,將所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng),獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息。
6.如權(quán)利要求4所述的建模系統(tǒng),其特征在于,所述第三模塊對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:所述第三模塊利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂,用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。
全文摘要
本發(fā)明涉及一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法及語(yǔ)音識(shí)別系統(tǒng)。所述方法包括訓(xùn)練一個(gè)初始模型,建模單元為經(jīng)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài),所述模型還給出狀態(tài)轉(zhuǎn)移概率;基于初始模型對(duì)訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得其幀級(jí)別的狀態(tài)信息;對(duì)深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到各隱含層初始權(quán)重;基于所獲得的幀級(jí)狀態(tài)信息采用誤差反向傳播算法對(duì)已初始化的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新權(quán)重。本發(fā)明采用上下文相關(guān)三音子狀態(tài)做為建模單元,基于深層神經(jīng)網(wǎng)絡(luò)建模,使用受限波爾茲曼算法初始化所述網(wǎng)絡(luò)各隱含層的權(quán)重,所述權(quán)重在后續(xù)還可以借助反向誤差傳播算法被更新,能夠有效地緩解所述網(wǎng)絡(luò)預(yù)訓(xùn)練時(shí)容易陷入局部極值的風(fēng)險(xiǎn),并進(jìn)一步提高聲學(xué)模型的建模精度。
文檔編號(hào)G10L15/06GK103117060SQ201310020010
公開(kāi)日2013年5月22日 申請(qǐng)日期2013年1月18日 優(yōu)先權(quán)日2013年1月18日
發(fā)明者顏永紅, 肖業(yè)鳴, 潘接林 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所, 北京中科信利技術(shù)有限公司