用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)的制作方法

文檔序號(hào)：2834955閱讀：958來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音識(shí)別領(lǐng)域，尤其涉及一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法及建模系統(tǒng)。
背景技術(shù)：
目前語(yǔ)音識(shí)別的主流框架基于統(tǒng)計(jì)模式識(shí)別。典型的語(yǔ)音識(shí)別系統(tǒng)框架如圖1所示:包括語(yǔ)音采集及前端處理模塊、特征提取模塊、聲學(xué)模型模塊、語(yǔ)言模型模塊以及解碼器模塊。語(yǔ)音識(shí)別的基本流程如下:語(yǔ)音采集裝置收集人的語(yǔ)音后經(jīng)過(guò)前端處理之后進(jìn)行特征提取，提取的特征序列如MFCC或PLP通過(guò)聲學(xué)模型獲得其觀(guān)察概率，結(jié)合語(yǔ)言模型概率送入解碼器獲得最有可能的文本序列。所述聲學(xué)模型建模基于隱馬爾科夫框架，采用混合高斯模型對(duì)語(yǔ)音特征的概率分布進(jìn)行建模。所述混合高斯模型會(huì)對(duì)語(yǔ)音特征及其分布做一些不恰當(dāng)?shù)募僭O(shè)，如相鄰語(yǔ)音特征的線(xiàn)性無(wú)關(guān)假設(shè)，其觀(guān)察概率服從混合高斯分布等。此夕卜，混合高斯模型進(jìn)行參數(shù)訓(xùn)練時(shí)目標(biāo)函數(shù)是使觀(guān)察特征的似然概率最大，而解碼時(shí)使用的卻是最大后驗(yàn)準(zhǔn)則，概率模型上不一致?？梢?jiàn)傳統(tǒng)的聲學(xué)模型，建模精度不高，導(dǎo)致語(yǔ)音識(shí)別效果欠佳。

發(fā)明內(nèi)容
針對(duì)上述問(wèn)題，本發(fā)明實(shí)施例提出一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)。在第一方面,本發(fā)明實(shí)施例提出一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法，所述方法包括:用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型，該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語(yǔ)音特征經(jīng)過(guò)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài)，所述HMM-GMM模型通過(guò)期望最大EM算法獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率；基于所述HMM-GMM模型，對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息；對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)；基于所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，更新其各隱含層的權(quán)重。優(yōu)選地，所述基于所述HMM-GMM模型，對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息，具體為:基于所述HMM-GMM模型，將所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng)，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息。優(yōu)選地，所述對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂，用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。在第二方面,本發(fā)明實(shí)施例提出一種用于語(yǔ)音識(shí)別聲學(xué)模型的建模系統(tǒng)，其包括:第一模塊，用于用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型，該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語(yǔ)音特征經(jīng)過(guò)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài)，所述HMM-GMM模型通過(guò)期望最大EM算法獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率；第二模塊，用于基于所述HMM-GMM模型，對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息；第三模塊，用于對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)；第四模塊，用于基于所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，更新其各隱含層的權(quán)重。優(yōu)選地，所述第二模塊基于所述HMM-GMM模型，對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息，具體為:所述第二模塊基于所述HMM-GMM模型，將所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng)，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息。優(yōu)選地，所述第三模塊對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:所述第三模塊利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂，用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。本發(fā)明實(shí)施例采用三音子狀態(tài)，基于深層神經(jīng)網(wǎng)絡(luò)建模，使用受限波爾茲曼算法初始化所述網(wǎng)絡(luò)各隱含層的權(quán)重，所述權(quán)重在后續(xù)還可以借助反向誤差傳播算法被更新，能夠有效地緩解所述網(wǎng)絡(luò)預(yù)訓(xùn)練時(shí)容易陷入局部極值的風(fēng)險(xiǎn)，并進(jìn)一步提高聲學(xué)模型的建模精度。

下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。圖1是現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)示意圖；圖2是本發(fā)明實(shí)施例的基于上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng)框圖；圖3是本發(fā)明實(shí)施例的用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法示意圖；圖4是本發(fā)明實(shí)施例的用于語(yǔ)音識(shí)別的聲學(xué)模型的建模系統(tǒng)示意圖。
具體實(shí)施例方式下面通過(guò)附圖和實(shí)施例，對(duì)本發(fā)明實(shí)施例的技術(shù)方案做進(jìn)一步的詳細(xì)描述。考慮到混合高斯模型需要對(duì)語(yǔ)音特征及其概率分布做出不恰當(dāng)假設(shè)，本發(fā)明實(shí)施例使用上下文相關(guān)的深層神經(jīng)網(wǎng)絡(luò)代替混合高斯模型進(jìn)行聲學(xué)模型建模。所述深層神經(jīng)網(wǎng)絡(luò)包含多個(gè)隱含層，其建模單元是經(jīng)音素決策樹(shù)聚類(lèi)后的上下文相關(guān)三音子狀態(tài)。整個(gè)系統(tǒng)的基本框圖如圖2所示。深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)采用最小交叉熵準(zhǔn)則作為目標(biāo)函數(shù)，由于其具有多個(gè)隱含層，其誤差函數(shù)具有很多的局部極值，導(dǎo)致深層神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程很容易陷入局部極值而過(guò)早的收斂。針對(duì)此問(wèn)題，神經(jīng)計(jì)算領(lǐng)域提出的通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練來(lái)初始化權(quán)重參數(shù)，再采用傳統(tǒng)的誤差反向傳播算法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練。預(yù)訓(xùn)練算法采用受限玻爾茲曼機(jī)，受限玻爾茲曼機(jī)為雙向圖模型，包括一個(gè)可見(jiàn)層和一個(gè)隱含層，其中同一層的各單兀之間無(wú)互聯(lián)而不同層的單元稠密鏈接。該模型通過(guò)一個(gè)能量函數(shù)定義可見(jiàn)層與隱含層變量的聯(lián)合分布，具體公式如下:
權(quán)利要求
1.一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法，其特征在于，所述方法包括: 用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型，該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語(yǔ)音特征經(jīng)過(guò)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài)，所述HMM-GMM模型通過(guò)期望最大EM算法訓(xùn)練獲得，同時(shí)獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率；基于所述HMM-GMM模型，對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征進(jìn)行強(qiáng)制對(duì)齊，獲得所述語(yǔ)音特征幀級(jí)別的三音子狀態(tài)信息；對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)；基于所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的語(yǔ)音特征幀級(jí)狀態(tài)信息采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，更新其各隱含層的權(quán)重。
2.如權(quán)利要求1所述的建模方法，其特征在于，所述基于所述HMM-GMM模型，對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息，具體為:基于所述HMM-GMM模型，將所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng)，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息。
3.如權(quán)利要求1所述的建模方法，其特征在于，所述對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂，用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。
4.一種用于語(yǔ)音識(shí)別聲學(xué)模型的建模系統(tǒng)，其特征在于，所述建模系統(tǒng)包括: 第一模塊，用于用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型，該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語(yǔ)音特征經(jīng)過(guò)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài)，所述HMM-GMM模型通過(guò)期望最大EM算法獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率；第二模塊，用于基于所述HMM-GMM模型，對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征進(jìn)行強(qiáng)制對(duì)齊，獲得所述語(yǔ)音特征幀級(jí)的三音子狀態(tài)信息；第三模塊，用于對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)；第四模塊，用于基于所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的語(yǔ)音特征幀級(jí)狀態(tài)信息采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，更新其各隱含層的權(quán)重。
5.如權(quán)利要求4所述的建模系統(tǒng)，其特征在于，所述第二模塊基于所述HMM-GMM模型，對(duì)所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息，具體為:所述第二模塊基于所述HMM-GMM模型，將所述訓(xùn)練數(shù)據(jù)語(yǔ)音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng)，獲得所述語(yǔ)音特征幀級(jí)狀態(tài)信息。
6.如權(quán)利要求4所述的建模系統(tǒng)，其特征在于，所述第三模塊對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:所述第三模塊利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂，用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。
全文摘要
本發(fā)明涉及一種用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法及語(yǔ)音識(shí)別系統(tǒng)。所述方法包括訓(xùn)練一個(gè)初始模型，建模單元為經(jīng)音素決策樹(shù)聚類(lèi)后的三音子狀態(tài)，所述模型還給出狀態(tài)轉(zhuǎn)移概率；基于初始模型對(duì)訓(xùn)練數(shù)據(jù)語(yǔ)音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊，獲得其幀級(jí)別的狀態(tài)信息；對(duì)深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到各隱含層初始權(quán)重；基于所獲得的幀級(jí)狀態(tài)信息采用誤差反向傳播算法對(duì)已初始化的網(wǎng)絡(luò)進(jìn)行訓(xùn)練，更新權(quán)重。本發(fā)明采用上下文相關(guān)三音子狀態(tài)做為建模單元，基于深層神經(jīng)網(wǎng)絡(luò)建模，使用受限波爾茲曼算法初始化所述網(wǎng)絡(luò)各隱含層的權(quán)重，所述權(quán)重在后續(xù)還可以借助反向誤差傳播算法被更新，能夠有效地緩解所述網(wǎng)絡(luò)預(yù)訓(xùn)練時(shí)容易陷入局部極值的風(fēng)險(xiǎn)，并進(jìn)一步提高聲學(xué)模型的建模精度。
文檔編號(hào)G10L15/06GK103117060SQ201310020010
公開(kāi)日2013年5月22日申請(qǐng)日期2013年1月18日優(yōu)先權(quán)日2013年1月18日
發(fā)明者顏永紅, 肖業(yè)鳴, 潘接林申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所, 北京中科信利技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：顏永紅;肖業(yè)鳴;潘接林
技術(shù)所有人：中國(guó)科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

聲學(xué)建模相關(guān)技術(shù)

語(yǔ)音識(shí)別模型相關(guān)技術(shù)

語(yǔ)音識(shí)別模型訓(xùn)練相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)的制作方法

用于語(yǔ)音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)的制作方法