基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的構(gòu)建方法

文檔序號(hào)：8382005閱讀：446來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于音頻技術(shù)領(lǐng)域，特別涉及一種基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的構(gòu)建方法。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的迅速發(fā)展，語音識(shí)別技術(shù)已經(jīng)具備大規(guī)模商業(yè)化的條件。目前語音識(shí)別主要采用基于統(tǒng)計(jì)模型的連續(xù)語音識(shí)別技術(shù)，其主要目標(biāo)是通過給定的語音序列尋找其所代表的概率最大的詞序列?；诮y(tǒng)計(jì)模型的連續(xù)語音識(shí)別系統(tǒng)的任務(wù)是根據(jù) 給定的語音序列尋找其所代表的概率最大的詞序列，通常包括構(gòu)建聲學(xué)模型和語言模型及其對(duì)應(yīng)的搜索解碼方法。隨著聲學(xué)模型和語言模型的快速發(fā)展，語音識(shí)別系統(tǒng)的性能在理想聲學(xué)環(huán)境下已經(jīng)大為改善，現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型（De印Neural Network-HiddenMarkovModel，DNN_HMM)初步成熟，通過機(jī)器學(xué)習(xí)的方法可以自動(dòng)提取有效特征，并能對(duì)多幀語音對(duì)應(yīng)的上下文信息建模，但是此類模型每一層都有百萬量級(jí)的參數(shù)，且下一層的輸入是上一次的輸出，因此需要使用GPU設(shè)備來訓(xùn)練DNN聲學(xué)模型，訓(xùn)練時(shí) 間長；高度非線性以及參數(shù)共享的特性也使得DNN難以進(jìn)行參數(shù)自適應(yīng)。
[0003] 循環(huán)神經(jīng)網(wǎng)絡(luò)（RecurrentNeuralNetwork，RNN)是一種單元之間存在有向循環(huán)來表達(dá)網(wǎng)絡(luò)內(nèi)部動(dòng)態(tài)時(shí)間特性的神經(jīng)網(wǎng)絡(luò)，在手寫體識(shí)別和語言模型等方面得到廣泛應(yīng) 用。語音信號(hào)是復(fù)雜的時(shí)變信號(hào)，在不同時(shí)間尺度上具有復(fù)雜的相關(guān)性，因此相比于深度神經(jīng)網(wǎng)絡(luò)而言，循環(huán)神經(jīng)網(wǎng)絡(luò)具有的循環(huán)連接功能更適合處理這類復(fù)雜時(shí)序數(shù)據(jù)。
[0004] 作為循環(huán)神經(jīng)網(wǎng)絡(luò)的一種，長短期記憶（LongShort-TermMemory，LSTM)模型比循環(huán)神經(jīng)網(wǎng)絡(luò)更適合處理和預(yù)測(cè)事件滯后且時(shí)間不定的長時(shí)序列。多倫多大學(xué)提出的增加了記憶模塊（memoryblock)的深度LSTM-RNN聲學(xué)模型則將深度神經(jīng)網(wǎng)絡(luò)的多層次表征能力與循環(huán)神經(jīng)網(wǎng)絡(luò)靈活利用長跨度上下文的能力結(jié)合，使得基于TIMIT庫的音素識(shí)別錯(cuò)誤率降至17. 1%。
[0005] 但是循環(huán)神經(jīng)網(wǎng)絡(luò)中使用的梯度下降法存在梯度消散（vanishinggradient) 問題，也就是在對(duì)網(wǎng)絡(luò)的權(quán)重進(jìn)行調(diào)整的過程中，隨著網(wǎng)絡(luò)層數(shù)增加，梯度逐層消散，致使其對(duì)權(quán)重調(diào)整的作用越來越小。谷歌提出的兩層深度LSTM-RNN聲學(xué)模型，在以前的深度LSTM-RNN模型中增加了線性循環(huán)投影層（RecurrentProjectionLayer)，用于解決梯度消散問題。對(duì)比實(shí)驗(yàn)表明，RNN的幀正確率（FrameAccuracy)及其收斂速度明顯遜于 LSTM-RNN和DNN;在詞錯(cuò)誤率及其收斂速度方面，最好的DNN在訓(xùn)練數(shù)周后的詞錯(cuò)誤率為 11. 3%;而兩層深度LSTM-RNN模型在訓(xùn)練48小時(shí)后詞錯(cuò)誤率降低至10. 9%，訓(xùn)練100/200 小時(shí)后，詞錯(cuò)誤率降低至10. 7/10. 5 (%)。
[0006] 慕尼黑大學(xué)提出的深度雙向長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)（DeepBidirectional LongShort-TermMemoryRecurrentNeuralNetworks，DBLSTM-RNN)聲學(xué)模型，在神經(jīng) 網(wǎng)絡(luò)的每個(gè)循環(huán)層中定義了相互獨(dú)立的前向?qū)雍秃笙驅(qū)?，并使用多隱藏層對(duì)輸入的聲學(xué)特征進(jìn)行更高層表征，同時(shí)對(duì)噪聲和混響進(jìn)行有監(jiān)督學(xué)習(xí)實(shí)現(xiàn)特征投影和增強(qiáng)。此方法在 2013?45041〇^1^數(shù)據(jù)集上，在信噪比[-6(18,9(18]范圍內(nèi)實(shí)現(xiàn)了詞錯(cuò)誤率從基線的55% 降低到22%。
[0007] 但實(shí)際聲學(xué)環(huán)境的復(fù)雜性仍然嚴(yán)重影響和干擾連續(xù)語音識(shí)別系統(tǒng)的性能，即使利用目前主流的DNN聲學(xué)模型方法，在包括噪聲、音樂、口語、重復(fù)等復(fù)雜環(huán)境條件下的連續(xù) 語音識(shí)別數(shù)據(jù)集上也只能獲得70%左右的識(shí)別率，連續(xù)語音識(shí)別系統(tǒng)中聲學(xué)模型的抗噪性和魯棒性仍有待改進(jìn)。
[0008] 隨著聲學(xué)模型和語言模型的快速發(fā)展，語音識(shí)別系統(tǒng)的性能在理想聲學(xué)環(huán)境下已經(jīng)大為改善，現(xiàn)有的DNN-HMM模型初步成熟，通過機(jī)器學(xué)習(xí)的方法可以自動(dòng)提取有效特征，并能對(duì)多幀語音對(duì)應(yīng)的上下文信息建模。然而大多數(shù)識(shí)別系統(tǒng)對(duì)于聲學(xué)環(huán)境的改變?nèi)匀皇?分敏感，特別是在cross-talk噪聲（兩人或多人同時(shí)說話）干擾下不能滿足實(shí)用性能的要求。與深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型相比，循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型中的單元之間存在有向循環(huán)，可以有效的描述神經(jīng)網(wǎng)絡(luò)內(nèi)部的動(dòng)態(tài)時(shí)間特性，更適合處理具有復(fù)雜時(shí)序的語音數(shù)據(jù)。而長短期記憶神經(jīng)網(wǎng)絡(luò)比循環(huán)神經(jīng)網(wǎng)絡(luò)更適合處理和預(yù)測(cè)事件滯后且時(shí)間不定的長時(shí)序列，因此用于構(gòu)建語音識(shí)別的聲學(xué)模型能夠取得更好的效果。
[0009] 人腦在處理復(fù)雜場(chǎng)景的語音時(shí)存在選擇性注意的現(xiàn)象，其主要原理為：人腦具有聽覺選擇性注意的能力，在聽覺皮層區(qū)域通過自上而下的控制機(jī)制，來實(shí)現(xiàn)抑制非目標(biāo)流和增強(qiáng)目標(biāo)流的目的。研宄表明，在選擇性注意的過程中，聽覺皮層的短期可塑性 (Short-TermPlasticity)效應(yīng)增加了對(duì)聲音的區(qū)分能力。在注意力非常集中時(shí)，在初級(jí)聽覺皮層可以在50毫秒內(nèi)開始對(duì)聲音目標(biāo)進(jìn)行增強(qiáng)處理。

【發(fā)明內(nèi)容】

[0010] 為了克服上述現(xiàn)有技術(shù)的缺點(diǎn)，本發(fā)明的目的在于提供一種基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的構(gòu)建方法，建立了基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，通過在深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型中增加注意門單元，來表征聽覺皮層神經(jīng)元的瞬時(shí)功能改變，注意門單元與其他門單元不同之處在于，其他門單元與時(shí)間序列一一對(duì)應(yīng)，而注意門單元體現(xiàn)的是短期可塑性效應(yīng)，因此在時(shí) 間序列上存在間隔。通過對(duì)包含cross-talk噪聲的大量語音數(shù)據(jù)進(jìn)行訓(xùn)練獲得的上述神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，可以實(shí)現(xiàn)對(duì)Cross-talk噪聲的魯棒特征提取和魯棒聲學(xué)模型的構(gòu)建，通過抑制非目標(biāo)流對(duì)特征提取的影響可以達(dá)到提高聲學(xué)模型的魯棒性的目的。
[0011] 為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案是：
[0012] 一種基于選擇性注意原理的連續(xù)語音識(shí)別方法，包括如下步驟：
[0013] 第一步，構(gòu)建基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)
[0014] 從輸入到隱藏層定義為一個(gè)長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)，深度指的是每個(gè)長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出為下一個(gè)長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入，如此重復(fù)，最后一個(gè)長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出作為整個(gè)系統(tǒng)的輸出；在每一個(gè)長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò) 中，語音信號(hào)\為t時(shí)刻的輸入，Xt_i為t-1時(shí)刻的輸入，以此類推，總時(shí)間長度上的輸入為 X= [Xl，...，xT]其中te[1，T]，T為語音信號(hào)的總時(shí)間長度；t時(shí)刻的長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)由注意門、輸入門、輸出門、遺忘門、記憶細(xì)胞、tanh函數(shù)、隱藏層、乘法器組成，t-1 時(shí)刻的長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)由輸入門、輸出門、遺忘門、記憶細(xì)胞、tanh函數(shù)、隱藏層、乘法器組成；總時(shí)間長度上的隱藏層輸出為y= [yi，...，yT];
[0015] 第二步，構(gòu)建基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型
[0016] 在第一步的基礎(chǔ)上，每間隔s時(shí)刻對(duì)應(yīng)的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)存在注意門，其他時(shí)刻的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)不存在注意門，即，基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型由間隔存在注意門的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò) 組成。
[0017] 如何在復(fù)雜環(huán)境干擾，特別是在cross-talk噪聲干擾下進(jìn)行識(shí)別，一直是語音識(shí) 別的難點(diǎn)之一，阻礙了語音識(shí)別的大規(guī)模應(yīng)用。與現(xiàn)有技術(shù)相比，本發(fā)明借鑒人腦在處理復(fù) 雜場(chǎng)景的語音時(shí)存在選擇性注意的現(xiàn)象來實(shí)現(xiàn)抑制非目標(biāo)流和增強(qiáng)目標(biāo)流，通過在深度長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)聲學(xué)模型中增加注意門單元，來表征聽覺皮層神經(jīng)元的瞬時(shí)功能改變，注意門單元與其他門單元不同之處在于，其他門單元與時(shí)間序列一一對(duì)應(yīng)，而注意門單元體現(xiàn)的是短期可塑性效應(yīng)，因此在時(shí)間序列上存在間隔。在一些包含Cross-talk噪聲的連續(xù)語音識(shí)別數(shù)據(jù)集上采用這種方法，可以獲得比深度神經(jīng)網(wǎng)絡(luò)方法更好的性能。
【附圖說明】
[0018] 圖1是本發(fā)明的基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)流程圖。
[0019] 圖2是本發(fā)明的基于選擇性注意原理的深度長短期記憶神經(jīng)網(wǎng)絡(luò)聲學(xué)模型流程圖。
【具體實(shí)施方式】
[0020] 下面結(jié)合附圖和實(shí)施例詳細(xì)說明本發(fā)明的實(shí)施方式。
[0021] 本發(fā)明利用基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型，實(shí)現(xiàn) 了連續(xù)語音識(shí)別。但本發(fā)明提供的模型及方法不局限于連續(xù)語音識(shí)別，也可以是任何與語音識(shí)別有關(guān)的方法和裝置。
[0022] 本發(fā)明主要包括如下步驟：

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2