基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于音頻技術(shù)領(lǐng)域,特別涉及一種基于選擇性注意原理的深度長短期記憶 循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的構(gòu)建方法。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的迅速發(fā)展,語音識(shí)別技術(shù)已經(jīng)具備大規(guī)模商業(yè)化的條件。目前 語音識(shí)別主要采用基于統(tǒng)計(jì)模型的連續(xù)語音識(shí)別技術(shù),其主要目標(biāo)是通過給定的語音序 列尋找其所代表的概率最大的詞序列?;诮y(tǒng)計(jì)模型的連續(xù)語音識(shí)別系統(tǒng)的任務(wù)是根據(jù) 給定的語音序列尋找其所代表的概率最大的詞序列,通常包括構(gòu)建聲學(xué)模型和語言模型 及其對(duì)應(yīng)的搜索解碼方法。隨著聲學(xué)模型和語言模型的快速發(fā)展,語音識(shí)別系統(tǒng)的性能 在理想聲學(xué)環(huán)境下已經(jīng)大為改善,現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(De印Neural Network-HiddenMarkovModel,DNN_HMM)初步成熟,通過機(jī)器學(xué)習(xí)的方法可以自動(dòng)提取有 效特征,并能對(duì)多幀語音對(duì)應(yīng)的上下文信息建模,但是此類模型每一層都有百萬量級(jí)的參 數(shù),且下一層的輸入是上一次的輸出,因此需要使用GPU設(shè)備來訓(xùn)練DNN聲學(xué)模型,訓(xùn)練時(shí) 間長;高度非線性以及參數(shù)共享的特性也使得DNN難以進(jìn)行參數(shù)自適應(yīng)。
[0003] 循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是一種單元之間存在有向循 環(huán)來表達(dá)網(wǎng)絡(luò)內(nèi)部動(dòng)態(tài)時(shí)間特性的神經(jīng)網(wǎng)絡(luò),在手寫體識(shí)別和語言模型等方面得到廣泛應(yīng) 用。語音信號(hào)是復(fù)雜的時(shí)變信號(hào),在不同時(shí)間尺度上具有復(fù)雜的相關(guān)性,因此相比于深度神 經(jīng)網(wǎng)絡(luò)而言,循環(huán)神經(jīng)網(wǎng)絡(luò)具有的循環(huán)連接功能更適合處理這類復(fù)雜時(shí)序數(shù)據(jù)。
[0004] 作為循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,長短期記憶(LongShort-TermMemory,LSTM)模型比 循環(huán)神經(jīng)網(wǎng)絡(luò)更適合處理和預(yù)測(cè)事件滯后且時(shí)間不定的長時(shí)序列。多倫多大學(xué)提出的增加 了記憶模塊(memoryblock)的深度LSTM-RNN聲學(xué)模型則將深度神經(jīng)網(wǎng)絡(luò)的多層次表征能 力與循環(huán)神經(jīng)網(wǎng)絡(luò)靈活利用長跨度上下文的能力結(jié)合,使得基于TIMIT庫的音素識(shí)別錯(cuò)誤 率降至17. 1%。
[0005] 但是循環(huán)神經(jīng)網(wǎng)絡(luò)中使用的梯度下降法存在梯度消散(vanishinggradient) 問題,也就是在對(duì)網(wǎng)絡(luò)的權(quán)重進(jìn)行調(diào)整的過程中,隨著網(wǎng)絡(luò)層數(shù)增加,梯度逐層消散,致使 其對(duì)權(quán)重調(diào)整的作用越來越小。谷歌提出的兩層深度LSTM-RNN聲學(xué)模型,在以前的深 度LSTM-RNN模型中增加了線性循環(huán)投影層(RecurrentProjectionLayer),用于解決梯 度消散問題。對(duì)比實(shí)驗(yàn)表明,RNN的幀正確率(FrameAccuracy)及其收斂速度明顯遜于 LSTM-RNN和DNN;在詞錯(cuò)誤率及其收斂速度方面,最好的DNN在訓(xùn)練數(shù)周后的詞錯(cuò)誤率為 11. 3%;而兩層深度LSTM-RNN模型在訓(xùn)練48小時(shí)后詞錯(cuò)誤率降低至10. 9%,訓(xùn)練100/200 小時(shí)后,詞錯(cuò)誤率降低至10. 7/10. 5 (%)。
[0006] 慕尼黑大學(xué)提出的深度雙向長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(DeepBidirectional LongShort-TermMemoryRecurrentNeuralNetworks,DBLSTM-RNN)聲學(xué)模型,在神經(jīng) 網(wǎng)絡(luò)的每個(gè)循環(huán)層中定義了相互獨(dú)立的前向?qū)雍秃笙驅(qū)?,并使用多隱藏層對(duì)輸入的聲學(xué)特 征進(jìn)行更高層表征,同時(shí)對(duì)噪聲和混響進(jìn)行有監(jiān)督學(xué)習(xí)實(shí)現(xiàn)特征投影和增強(qiáng)。此方法在 2013?45041〇^1^數(shù)據(jù)集上,在信噪比[-6(18,9(18]范圍內(nèi)實(shí)現(xiàn)了詞錯(cuò)誤率從基線的55% 降低到22%。
[0007] 但實(shí)際聲學(xué)環(huán)境的復(fù)雜性仍然嚴(yán)重影響和干擾連續(xù)語音識(shí)別系統(tǒng)的性能,即使利 用目前主流的DNN聲學(xué)模型方法,在包括噪聲、音樂、口語、重復(fù)等復(fù)雜環(huán)境條件下的連續(xù) 語音識(shí)別數(shù)據(jù)集上也只能獲得70%左右的識(shí)別率,連續(xù)語音識(shí)別系統(tǒng)中聲學(xué)模型的抗噪性 和魯棒性仍有待改進(jìn)。
[0008] 隨著聲學(xué)模型和語言模型的快速發(fā)展,語音識(shí)別系統(tǒng)的性能在理想聲學(xué)環(huán)境下已 經(jīng)大為改善,現(xiàn)有的DNN-HMM模型初步成熟,通過機(jī)器學(xué)習(xí)的方法可以自動(dòng)提取有效特征, 并能對(duì)多幀語音對(duì)應(yīng)的上下文信息建模。然而大多數(shù)識(shí)別系統(tǒng)對(duì)于聲學(xué)環(huán)境的改變?nèi)匀皇?分敏感,特別是在cross-talk噪聲(兩人或多人同時(shí)說話)干擾下不能滿足實(shí)用性能的要 求。與深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型相比,循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型中的單元之間存在有向循環(huán),可 以有效的描述神經(jīng)網(wǎng)絡(luò)內(nèi)部的動(dòng)態(tài)時(shí)間特性,更適合處理具有復(fù)雜時(shí)序的語音數(shù)據(jù)。而長 短期記憶神經(jīng)網(wǎng)絡(luò)比循環(huán)神經(jīng)網(wǎng)絡(luò)更適合處理和預(yù)測(cè)事件滯后且時(shí)間不定的長時(shí)序列,因 此用于構(gòu)建語音識(shí)別的聲學(xué)模型能夠取得更好的效果。
[0009] 人腦在處理復(fù)雜場(chǎng)景的語音時(shí)存在選擇性注意的現(xiàn)象,其主要原理為:人腦具 有聽覺選擇性注意的能力,在聽覺皮層區(qū)域通過自上而下的控制機(jī)制,來實(shí)現(xiàn)抑制非目 標(biāo)流和增強(qiáng)目標(biāo)流的目的。研宄表明,在選擇性注意的過程中,聽覺皮層的短期可塑性 (Short-TermPlasticity)效應(yīng)增加了對(duì)聲音的區(qū)分能力。在注意力非常集中時(shí),在初級(jí)聽 覺皮層可以在50毫秒內(nèi)開始對(duì)聲音目標(biāo)進(jìn)行增強(qiáng)處理。
【發(fā)明內(nèi)容】
[0010] 為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種基于選擇性注意原理 的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的構(gòu)建方法,建立了基于選擇性注意原理的深度 長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,通過在深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型中增加 注意門單元,來表征聽覺皮層神經(jīng)元的瞬時(shí)功能改變,注意門單元與其他門單元不同之處 在于,其他門單元與時(shí)間序列一一對(duì)應(yīng),而注意門單元體現(xiàn)的是短期可塑性效應(yīng),因此在時(shí) 間序列上存在間隔。通過對(duì)包含cross-talk噪聲的大量語音數(shù)據(jù)進(jìn)行訓(xùn)練獲得的上述神 經(jīng)網(wǎng)絡(luò)聲學(xué)模型,可以實(shí)現(xiàn)對(duì)Cross-talk噪聲的魯棒特征提取和魯棒聲學(xué)模型的構(gòu)建,通 過抑制非目標(biāo)流對(duì)特征提取的影響可以達(dá)到提高聲學(xué)模型的魯棒性的目的。
[0011] 為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
[0012] 一種基于選擇性注意原理的連續(xù)語音識(shí)別方法,包括如下步驟:
[0013] 第一步,構(gòu)建基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)
[0014] 從輸入到隱藏層定義為一個(gè)長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò),深度指的是每個(gè)長短期記 憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出為下一個(gè)長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,如此重復(fù),最后一個(gè)長 短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出作為整個(gè)系統(tǒng)的輸出;在每一個(gè)長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò) 中,語音信號(hào)\為t時(shí)刻的輸入,Xt_i為t-1時(shí)刻的輸入,以此類推,總時(shí)間長度上的輸入為 X= [Xl,...,xT]其中te[1,T],T為語音信號(hào)的總時(shí)間長度;t時(shí)刻的長短期記憶循環(huán)神 經(jīng)網(wǎng)絡(luò)由注意門、輸入門、輸出門、遺忘門、記憶細(xì)胞、tanh函數(shù)、隱藏層、乘法器組成,t-1 時(shí)刻的長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)由輸入門、輸出門、遺忘門、記憶細(xì)胞、tanh函數(shù)、隱藏層、 乘法器組成;總時(shí)間長度上的隱藏層輸出為y= [yi,...,yT];
[0015] 第二步,構(gòu)建基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型
[0016] 在第一步的基礎(chǔ)上,每間隔s時(shí)刻對(duì)應(yīng)的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)存在注意 門,其他時(shí)刻的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)不存在注意門,即,基于選擇性注意原理的深 度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型由間隔存在注意門的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò) 組成。
[0017] 如何在復(fù)雜環(huán)境干擾,特別是在cross-talk噪聲干擾下進(jìn)行識(shí)別,一直是語音識(shí) 別的難點(diǎn)之一,阻礙了語音識(shí)別的大規(guī)模應(yīng)用。與現(xiàn)有技術(shù)相比,本發(fā)明借鑒人腦在處理復(fù) 雜場(chǎng)景的語音時(shí)存在選擇性注意的現(xiàn)象來實(shí)現(xiàn)抑制非目標(biāo)流和增強(qiáng)目標(biāo)流,通過在深度長 短期記憶遞歸神經(jīng)網(wǎng)絡(luò)聲學(xué)模型中增加注意門單元,來表征聽覺皮層神經(jīng)元的瞬時(shí)功能改 變,注意門單元與其他門單元不同之處在于,其他門單元與時(shí)間序列一一對(duì)應(yīng),而注意門單 元體現(xiàn)的是短期可塑性效應(yīng),因此在時(shí)間序列上存在間隔。在一些包含Cross-talk噪聲的 連續(xù)語音識(shí)別數(shù)據(jù)集上采用這種方法,可以獲得比深度神經(jīng)網(wǎng)絡(luò)方法更好的性能。
【附圖說明】
[0018] 圖1是本發(fā)明的基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)流程圖。
[0019] 圖2是本發(fā)明的基于選擇性注意原理的深度長短期記憶神經(jīng)網(wǎng)絡(luò)聲學(xué)模型流程 圖。
【具體實(shí)施方式】
[0020] 下面結(jié)合附圖和實(shí)施例詳細(xì)說明本發(fā)明的實(shí)施方式。
[0021] 本發(fā)明利用基于選擇性注意原理的深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,實(shí)現(xiàn) 了連續(xù)語音識(shí)別。但本發(fā)明提供的模型及方法不局限于連續(xù)語音識(shí)別,也可以是任何與語 音識(shí)別有關(guān)的方法和裝置。
[0022] 本發(fā)明主要包括如下步驟: