語音識別方法及其系統(tǒng)的制作方法

文檔序號：10490222閱讀：863來源：國知局

語音識別方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及語音識別領域，公開一種語音識別方法及系統(tǒng)。語音識別方法包括以下步驟：對獲取的N路語音信號分別進行頻譜分析，得到多維的N路初步頻譜特征參數(shù)，輸入預先訓練好的基于深層神經網(wǎng)絡的聽覺感知模型的N個實例中進行特征變換，得到N路經提練的聽覺感知特征；將N路經提練的聽覺感知特征的組合輸入預先訓練好的聲學分類模型中，對輸出進行解碼以識別出語音信號所對應的文字內容。本發(fā)明中，通過對獲取的多路語音信號分別進行頻譜分析和特征變換，實現(xiàn)對聽覺感知的互補作用，提取得到的聽覺感知特征更符合人耳聽覺感知的特點，能夠提高語音識別準確率和抗噪能力。
【專利說明】
語音識別方法及其系統(tǒng)
技術領域
[0001]本發(fā)明涉及模式識別領域，特別涉及語音識別技術領域。
【背景技術】
[0002]語音是語言的聲學表現(xiàn)，是人類交流信息最自然、最有效、最方便的手段，也是人類思維的一種依托。在移動互聯(lián)網(wǎng)時代，語音識別是非常重要的人機交互技術之一，在當今的信息化社會和快節(jié)奏生活中，利用信號處理和模式識別技術，使得可以用機器進行語音的自動識別，這對于提高生產效率和生活質量具有十分重要的意義。自動語音識別的應用領域十分廣泛，它可以把手寫文稿變成自動聽寫操作，可以用聲音遙控家電，可以用語音在互聯(lián)網(wǎng)上搜索感興趣的事件，可以將語音進一步自動翻譯成另一種語言，等等。
[0003]人工神經網(wǎng)絡(Automatic neutral network,簡稱ANN)的研究一直是個熱潮，因其非線性、自適應、魯棒性及學習特性并且易于硬件實現(xiàn)等特點而受到人們的極大關注。對于語音信號的處理和識別，由于神經網(wǎng)絡的結構與人耳耳蝸的層次和連接極其相似，因此神經網(wǎng)絡模型的獨特優(yōu)點和超強的分類和映射能力能夠充分借鑒和探索人的聽覺神經機理，對神經網(wǎng)絡和耳蝸模型互相結合的研究將是改進現(xiàn)有語音識別系統(tǒng)性能的重要方向。
[0004]人工神經網(wǎng)絡是采用大量神經單元廣泛地連接起來構成的一種復雜的信息處理網(wǎng)絡，其中的神經單元及其相互連接模式是借鑒人類神經系統(tǒng)的結構和連接機制所涉及的。這種網(wǎng)絡具有與人類神經系統(tǒng)相類似的信息特征抽取、知識概括和學習記憶功能。特別是近幾年來，隨著對網(wǎng)絡模型預訓練和玻爾茲曼機網(wǎng)絡的研究深入，使得深層神經網(wǎng)絡的訓練獲得可能，并隨之帶來對深層神經網(wǎng)絡的大規(guī)模應用，也為神經網(wǎng)絡模型結合耳蝸模型理論進行語音識別系統(tǒng)的改進提供了曙光。
[0005]近些年，隨著信號處理和機器學習領域的發(fā)展，語音識別研究已經取得了很大的成功，包括高斯混合模型(Gauss1n mixture model，簡稱GMM)、隱馬爾可夫模型(Hiddenmarkov model，簡稱HMM)和深層神經網(wǎng)絡等技術在內的方法已經獲得很高的識別準確率，但是在噪聲環(huán)境下的性能卻仍然不盡如人意，且現(xiàn)有算法針對不同噪聲的效果差異很大。
[0006]因此需要解決現(xiàn)有語音識別系統(tǒng)在噪聲環(huán)境下性能下降的問題，以期提高語音識別系統(tǒng)的適用性和實用性，并盡量接近并達到人耳語音感知的能力。

【發(fā)明內容】

[0007]本發(fā)明的目的在于提供一種語音識別方法及其系統(tǒng)，提取得到的聽覺感知特征更符合人耳聽覺感知的特點，能夠提高語音識別準確率和抗噪能力。。
[0008]為解決上述技術問題，本發(fā)明的實施方式公開了一種語音識別方法，包括以下步驟:
[0009]獲取N路語音信號，N是大于I的整數(shù)；
[0010]對獲取的N路語音信號分別進行頻譜分析，得到多維的N路初步頻譜特征參數(shù)；
[0011]將多維的N路初步頻譜特征參數(shù)分別輸入預先訓練好的基于深層神經網(wǎng)絡的聽覺感知模型的N個實例中進行特征變換，得到N路經提練的聽覺感知特征；
[0012]將N路經提練的聽覺感知特征的組合輸入預先訓練好的聲學分類模型中，并對聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容。
[0013]本發(fā)明的實施方式還公開了一種語音識別系統(tǒng)，包括以下模塊:
[0014]語音信號獲取模塊，用于獲取N路語音信號，N是大于I的整數(shù)；
[0015]頻譜分析模塊，用于對獲取的N路語音信號分別進行頻譜分析，得到多維的N路初步頻譜特征參數(shù)；
[0016]聽覺感知模塊，用于將多維的N路初步頻譜特征參數(shù)分別輸入預先訓練好的基于深層神經網(wǎng)絡的聽覺感知模型的N個實例中進行特征變換，得到N路經提練的聽覺感知特征；
[0017]聲學分類和解碼模塊，用于將N路經提練的聽覺感知特征的組合輸入預先訓練好的聲學分類模型中，并對聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容。
[0018]本發(fā)明實施方式與現(xiàn)有技術相比，主要區(qū)別及其效果在于:
[0019]本發(fā)明通過對獲取的多路語音信號分別進行頻譜分析和特征變換，實現(xiàn)對聽覺感知的互補作用，提取得到的聽覺感知特征更符合人耳聽覺感知的特點，能夠提高語音識別準確率和抗噪能力。
[0020]進一步地，將線性頻率軸變換為美爾頻度可以模擬人耳頻譜分析的非線性特性；使用一組三角形濾波器在頻域對能量譜進行帶通濾波可以模擬耳蝸基底膜對不同頻帶信號的感知作用；將左右毗鄰的多個短時傅里葉參數(shù)進行拼接可以模擬人耳結構對語音信號時序特性的建模能力。
[0021]進一步地，利用麥克風陣列陣元間的時延和相位差，可以有效模擬雙耳采集信號的形式，產生多通道差異性信號，達到抑制噪聲干擾的目的，且在抑制噪聲的同時不對期望信號產生任何干擾。
[0022]進一步地，對語音信號進行同步，將多個通道的不同信號在時間上進行同步對齊，以便互補不同通道信號對同一段音素的影響，達到對信號同步的實時調節(jié)的目的。
[0023]進一步地，初步頻譜特征參數(shù)經過特征變換后得到的經提練的聽覺感知特征能更精確，更符合人耳的語音感知特性。
[0024]進一步地，能夠從傳統(tǒng)單通道語音信號組成的語音訓練集中，構建出多路通道語音信號，為訓練左右耳聽覺感知模型提供最初的素材。
[0025]進一步地，對于具有較多隱層的深層神經網(wǎng)絡，通過逐層的非監(jiān)督訓練獲得各隱層的初始參數(shù)，并以此初始參數(shù)作為整個網(wǎng)絡的初始參數(shù)進一步訓練網(wǎng)絡的權重參數(shù)，避免了訓練對初始參數(shù)敏感從而陷入局部最優(yōu)的問題。
【附圖說明】
[0026]圖1是本發(fā)明第一實施方式中一種語音識別方法的流程示意圖；
[0027]圖2是本發(fā)明第二實施方式中對獲取的兩路語音信號進行頻譜分析的流程示意圖；
[0028]圖3是本發(fā)明第三實施方式中從單通道語音信號構建雙通道語音信號的流程示意圖；
[0029]圖4是本發(fā)明第三實施方式中根據(jù)多維的初步頻譜特征參數(shù)對5層的聽覺感知模型進行非監(jiān)督訓練的示意圖
[0030]圖5是本發(fā)明第三實施方式中訓練基于深層神經網(wǎng)絡的聲學分類模型的示意圖；
[0031]圖6是本發(fā)明第三實施方式中構建用于解碼的大型WFST識別網(wǎng)絡模型的示意圖
[0032]圖7是本發(fā)明第三實施方式中基于耳蝸模型和深層神經網(wǎng)絡的語音識別方法的結構框圖；
[0033]圖8是本發(fā)明第四實施方式中一種語音識別系統(tǒng)的結構示意圖。
【具體實施方式】
[0034]在以下的敘述中，為了使讀者更好地理解本申請而提出了許多技術細節(jié)。但是，本領域的普通技術人員可以理解，即使沒有這些技術細節(jié)和基于以下各實施方式的種種變化和修改，也可以實現(xiàn)本申請各權利要求所要求保護的技術方案。
[0035]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚，下面將結合附圖對本發(fā)明的實施方式作進一步地詳細描述。
[0036]本發(fā)明第一實施方式涉及一種語音識別方法，圖1是該語音識別方法的流程示意圖。具體地說，如圖1所示，該語音識別方法包括以下步驟:
[0037]步驟101，獲取N路語音信號，N是大于I的整數(shù)。
[0038]其中，N路語音信號是在同一個場景下使用N個聲音傳感器同時獲取的信號。
[0039]步驟102，對獲取的N路語音信號分別進行頻譜分析，得到多維的N路初步頻譜特征參數(shù)。
[0040]步驟103，將多維的N路初步頻譜特征參數(shù)分別輸入預先訓練好的聽覺感知模型的N個實例中進行特征變換，得到N路經提練的聽覺感知特征。
[0041]所述聽覺感知模型可以是基于深層神經網(wǎng)絡的語音學習模型。其中，深層神經網(wǎng)絡的層數(shù)并沒有嚴格定義，一般認為大于4層的網(wǎng)絡才是深層的，因此在被發(fā)明中所使用的深層神經網(wǎng)絡是指大于4層的網(wǎng)絡。
[0042]步驟104，將N路經提練的聽覺感知特征的組合輸入預先訓練好的聲學分類模型中，并對聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容。
[0043]現(xiàn)有的語音識別方法普遍采用單通道輸入的語音信號，雖然也提取類似人耳特性的聲學特征，但是沒有充分利用左右耳的互補特性；此外，現(xiàn)有的語音識別方法在提取聽覺感知特征時，僅是將頻譜分析后得到的初步頻譜特征參數(shù)直接作為最終的聽覺感知特征，該方法得到的聽覺感知特征比較粗糙。
[0044]而本發(fā)明則是進一步將初步頻譜特征參數(shù)分別輸入預先訓練好的基于深層神經網(wǎng)絡的聽覺感知模型的N個實例中進行特征變換，得到的N路經提練的聽覺感知特征更精細。
[0045]綜上，本實施方式通過對獲取的多路語音信號分別進行頻譜分析和特征變換，實現(xiàn)對聽覺感知的互補作用，提取得到的聽覺感知特征更符合人耳聽覺感知的特點，能夠提高語音識別準確率和抗噪能力。
[0046]本發(fā)明第二實施方式涉及一種語音識別方法，第二實施方式在第一實施方式的基礎上進行了改進，主要改進之處在于:
[0047]將線性頻率軸變換為美爾頻度可以模擬人耳頻譜分析的非線性特性；使用一組三角形濾波器在頻域對能量譜進行帶通濾波可以模擬耳蝸基底膜對不同頻帶信號的感知作用；將左右毗鄰的多個短時傅里葉參數(shù)進行拼接可以模擬人耳結構對語音信號時序特性的建模能力；利用麥克風陣列陣元間的時延和相位差，可以有效模擬雙耳采集信號的形式，產生多通道差異性信號，達到抑制噪聲干擾的目的，且在抑制噪聲的同時不對期望信號產生任何干擾；對語音信號進行同步能夠達到對信號同步的實時調節(jié)的目的；初步頻譜特征參數(shù)經過特征變換后得到的經提練的聽覺感知特征能更精確，更符合人耳的語音感知特性。具體地說:
[0048]在步驟102中，包括以下子步驟:
[0049]對每路語音信號中的每一幀進行短時傅里葉變換；
[0050]在頻域將線性頻率軸變換為美爾頻度以模擬非線性特性；
[0051]使用P個三角形濾波器在頻域對能量譜進行帶通濾波，得到每幀語音信號所對應的P維初步頻譜特征參數(shù)，該子步驟可以模擬耳蝸基底膜對不同頻帶信號的感知作用；
[0052]將每一幀和左右毗鄰的共Q幀語音信號各自所對應的P維初步頻譜特征參數(shù)進行拼接，得到P*Q維初步頻譜特征參數(shù)作為每一幀的初步頻譜特征參數(shù)，該子步驟將左右毗鄰的多個短時傅里葉參數(shù)進行拼接可以模擬人耳結構對語音信號時序特性的建模能力。
[0053]圖2所示為對獲取的兩路語音信號進行頻譜分析的流程示意圖，如圖所示，對左右耳輸入信號進行語音分幀處理，對每一幀進行短時快速傅里葉變換，對變換后的頻率軸進行美爾頻率變換，對三角濾波器組濾出的多幀特征進行拼接得到特征參數(shù)。
[0054]優(yōu)選地，P個帶通濾波器的中心頻率是按照美爾頻率刻度均勻排列的，每個濾波器的三角形的兩個底點的頻率分別對應相鄰的兩個濾波器的中心頻率，即每兩個相鄰的濾波器的過渡帶相互搭接，且頻率響應的和為1，同時濾波器的數(shù)目與耳蝸基底膜的臨界帶數(shù)相近。
[0055]上述頻譜分析是基于耳蝸基底膜結構的頻譜分析，此處有必要對耳蝸進行一定的闡述。語音感知是通過人耳和大腦的一系列物理、生理和心理的轉換過程實現(xiàn)的，而耳蝸作為人耳感知的最重要器官，則起著至關重要的核心作用。研究語音感知階段的生理和心理特性，也就是研究人耳是怎樣聽音的，人耳是怎樣抑制噪聲的，將對提高自動語音識別系統(tǒng)的抗噪性能有著重要的參考價值。耳蝸是一條盤起來的像蝸牛形狀的管子，里面充滿淋巴液。耳蝸中間和外面包著前庭膜和基底膜，基底膜上附有數(shù)以萬計的纖毛細胞，纖毛細胞把接收到的聲音振動信號轉化為神經沖動，再由聽覺神經傳導到大腦，從而形成聽覺感知。生理學和心理學的研究表明，耳蝸基底膜具有與信號頻譜分析器相似的作用，而通過左右耳的雙通道感知和互補，則會使人形成準確的聽覺感應。耳蝸具有很強的信號處理能力，能將聲信號的頻率、強度和瞬時特征等重要信息編碼成生物電序列的時空分布之中。有關人耳聽覺感知機理的研究都是建立在耳蝸解剖學基礎上的，特定頻率的聲音會引起耳蝸基底膜的振動，并以行波形式向蝸頂推移。在推移過程中基底膜的振動幅度逐漸增大，并在某一特定部位達到最大，然后迅速衰減并消失。產生最大振動的部位決定于聲音的頻率，高頻聲在耳蝸底部，低頻聲在耳蝸頂部?；啄β曇粜盘柕捻憫喈斢谑蛊渫ㄟ^一系列的濾波器。
[0056]當然，在本發(fā)明的其它實施方式中，頻譜分析也可以采用其它方式進行，例如可以直接對每幀語音信號進行快速傅里葉變換(FFT)后直接將FFT變換后的數(shù)值向量直接作為頻譜分析的結果，而不限于上述頻譜分析方式。
[0057]優(yōu)選地，在步驟101獲取N路語音信號時，通過包括N個麥克風采集點的麥克風陣列獲取獲取N路語音信號。
[0058]麥克風陣列通過設置兩個或多個麥克風采集點，以獲取多路輸入信號。即在兩個麥克風的正前方形成一個接收區(qū)域，進而削減兩個麥克風側向的收音效果，分析出接收到語音信號音源的方向以及其變化，同時，由于陣元間時延和相位差的緣故，可以產生具有差異性和互補性的雙向信號頻譜，從而達到模擬雙耳語音信號輸入之目的。
[0059]通過聲波抵達陣列中每個麥克風之間微小時差的相互作用，麥克風陣列可以得到更好的指向性，并從一定程度上達到只接收說話人的聲音的同時，可以抑制環(huán)境噪聲和干擾。
[0060]優(yōu)選地，在上述“通過包括N個麥克風采集點的麥克風陣列獲取獲取N路語音信號”的步驟中，包括以下子步驟:
[0061]構建由N個麥克風采集點組成的麥克風陣列，并通過麥克風陣列拾取N路語音信號;
[0062]對N路語音信號進行同步控制，輸出同步對齊的N路語音信號。
[0063]由于在語音識別模型訓練過程中，需要將同一音素段的不同信號進行時間上的對齊，以便互補不同通道信號對同一段音素的影響，因此將多個通道的不同信號在時間上進行同步對齊，對語音信號達到同步的實時調節(jié)的目的。
[0064]優(yōu)選地，在步驟103中，包括以下子步驟:
[0065]將多維的N路初步頻譜特征參數(shù)分別作為各個聽覺感知模型實例的輸入特征；
[0066]根據(jù)輸入特征和聽覺感知模型實例的每個隱層的參數(shù)權重，計算得到相應的基于深層神經網(wǎng)絡的聽覺感知模型的輸出特征作為N路經提練的聽覺感知特征。
[0067]目前已有的技術方案是直接提取語音信號的頻譜特征，然后直接利用神經網(wǎng)絡模型來訓練聲學模型。已有的方案的抗噪聲能力不強，沒有充分利用耳蝸生理機制，因此存在較大的改進空間。
[0068]而本實施方式中初步頻譜特征參數(shù)經過特征變換后得到的經提練的聽覺感知特征能更精確，更符合人耳的語音感知特性。
[0069]本發(fā)明第三實施方式涉及一種語音識別方法，第三實施方式在第一實施方式的基礎上進行了改進，主要改進之處在于:
[0070]能夠從傳統(tǒng)單通道語音信號組成的語音訓練集中，構建出多路通道語音信號，為訓練左右耳聽覺感知模型提供最初的素材；對于具有較多隱層的深層神經網(wǎng)絡，通過逐層的非監(jiān)督訓練獲得各隱層的初始參數(shù)作為整個網(wǎng)絡的初始參數(shù)，進一步訓練網(wǎng)絡的權重參數(shù)，避免了訓練對初始參數(shù)敏感從而陷入局部最優(yōu)的問題。具體地說:
[0071]該語音識別方法還包括預先訓練基于深層神經網(wǎng)絡的聽覺感知模型的N個實例的步驟，該步驟包括以下子步驟:
[0072]從單通道語音信號組成的語音訓練集中，構建出N路通道語音信號；
[0073]通過構建出的N路通道語音信號，分別建立相應的基于深層神經網(wǎng)絡的聽覺感知模型的實例。
[0074]其中，在上述“從單通道語音信號組成的語音訓練集中，構建出N路通道語音信號”的子步驟中，包括以下子步驟:
[0075]設定N組時延參數(shù)和噪聲參數(shù)，并根據(jù)時延參數(shù)和噪聲參數(shù)分別設計N路輸入語音信號的N個濾波器；
[0076]將語音訓練集中的原始單通道語音信號分別通過N個濾波器，得到N路通道語音信號。
[0077]上述方法能夠從傳統(tǒng)單通道語音信號組成的語音訓練集中，構建出多路通道語音信號，為訓練左右耳聽覺感知模型提供最初的素材，充分利用現(xiàn)有資源。
[0078]如圖3所示為從單通道語音信號構建雙通道語音信號的流程示意圖，如圖所示，根據(jù)設定時延參數(shù)計算出的相位差，以及根據(jù)設定的噪聲種類和強度計算出的幅度響應函數(shù)，組成線性相位濾波器，將所述原始單通道語音信號通過所述線性相位濾波器輸出得到模擬左右耳輸入的語音信號。
[0079]此外，可以理解，在本發(fā)明的其它實施方式中，也可以通過其他方式得到用于訓練聽覺感知模型的多通道語音信號，例如可以直接使用多個語音傳感器獲得多通道語音信號用以訓練聽覺感知模型，而不局限于此。
[0080]在上述“通過構建出的N路通道語音信號，分別建立相應的基于深層神經網(wǎng)絡的聽覺感知模型的實例”的子步驟中，包括以下子步驟:
[0081]對N路通道語音信號分別進行頻譜分析，并將得到的多維的初步頻譜特征參數(shù)作為基于深層神經網(wǎng)絡的聽覺感知模型的輸入特征；
[0082]根據(jù)初步頻譜特征參數(shù)，利用限制性玻爾茲曼機采用非監(jiān)督訓練的方式逐層訓練每個隱層的參數(shù)權重，得到相應的基于深層神經網(wǎng)絡的聽覺感知模型。
[0083]如圖4所示為根據(jù)多維的初步頻譜特征參數(shù)對5層的聽覺感知模型進行非監(jiān)督訓練的示意圖，如圖所示，經過頻譜分析得到的275維的特征經過5層神經網(wǎng)絡訓練后輸出150維特征。
[0084]優(yōu)選地，該語音識別方法還包括預先訓練基于深層神經網(wǎng)絡的聲學分類模型的步驟，該步驟包括以下子步驟:
[0085]通過限制性玻爾茲曼機對各隱層以非監(jiān)督的方式進行逐層預訓練，獲得各隱層的初始權重參數(shù)；
[0086]以預訓練獲得的初始權重參數(shù)為基礎，通過后向傳播算法進一步訓練網(wǎng)絡的權重參數(shù)，獲得聲學分類模型。
[0087]對于具有較多隱層的深層神經網(wǎng)絡，通過逐層的非監(jiān)督訓練獲得各隱層的初始參數(shù)，并以此初始參數(shù)作為整個網(wǎng)絡的初始參數(shù)進一步訓練網(wǎng)絡的權重參數(shù)，避免了訓練對初始參數(shù)敏感從而陷入局部最優(yōu)的問題。
[0088]圖5所示為訓練基于深層神經網(wǎng)絡的聲學分類模型的示意圖，如圖5所示，主要包括以下步驟:預先訓練一個GMM/HMM模型；對訓練集中的每個樣本，都進行語音和文本的強制對齊；獲取大量特征幀和對應的HMM狀態(tài)，這些特征幀和HMM狀態(tài)將分別作為基于深層神經網(wǎng)絡的聲學分類模型的輸入特征和理想輸出。此處的特征幀就是聽覺感知模型中輸出的的300維的特征參數(shù)；利用獲取的特征幀，進行基于深層神經網(wǎng)絡的聲學分類模型的預訓練，此處的深層神經網(wǎng)絡使用7個隱層，每個隱層有1024個節(jié)點，利用限制性玻爾茲曼機(RBM)逐層訓練每個隱層的參數(shù)權重，此處的訓練是不需要提供模型理想輸出狀態(tài)的非監(jiān)督訓練。在預訓練階段獲得的網(wǎng)絡參數(shù)權重的基礎上，通過后向傳播算法(BP)進一步訓練網(wǎng)絡的權重參數(shù)，當權重參數(shù)訓練完畢后，就說明該網(wǎng)絡模型已經訓練完畢。
[0089]優(yōu)選地，在“對聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容”的步驟之前，還包括步驟:
[0090]利用互聯(lián)網(wǎng)海量資源構建識別解碼網(wǎng)絡。
[0091]相應優(yōu)選地，在“對聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容”的步驟中，根據(jù)上述構建的識別解碼網(wǎng)絡對聲學分類模型的輸出進行解碼和識別。
[0092]圖6所示為構建用于解碼的大型WFST識別網(wǎng)絡模型的示意圖，如圖6所示，具體步驟主要有:
[0093]通過網(wǎng)絡爬蟲等網(wǎng)絡抓取工具，從互聯(lián)網(wǎng)上抓取各類文字資源；
[0094]對原始網(wǎng)頁數(shù)據(jù)進行過濾加工，去除亂碼、xml、其他語種等不需要的成分，然后形成純文本語料；
[0095]對上述語料進行分析，建立常用詞的詞典；
[0096]利用詞典對純文本語料進行分詞處理；
[0097]使用分詞處理后的文本語料訓練出N-gram語言模型；
[0098]使用獲取的N-gram語言模型、詞典以及共享狀態(tài)，建立基于WFST的大型識別網(wǎng)絡模型。
[0099]作為本實施方式的優(yōu)選例，結合麥克風陣列設計、耳蝸模型理論、深度神經網(wǎng)絡以及互聯(lián)網(wǎng)海量語料資源，給出最終的全流程語音識別系統(tǒng)解決方案，圖7是本發(fā)明的基于耳蝸模型和深層神經網(wǎng)絡的語音識別方法的結構框圖。
[0100](I)基于麥克風陣列的模擬左右耳情形的雙通道語音信號采集裝置
[0101]本優(yōu)選例之所以采用雙路麥克風陣列作為信號輸入裝置，是基于兩個原因，一是麥克風陣列將在不久的將來取代傳統(tǒng)的桌面或頭戴式麥克風作為主流的語音拾取裝置，二是利用麥克風陣列可以有效模擬雙耳信號采集形式，達到抑制噪聲干擾的目的。因此，本優(yōu)選例將在麥克風陣列噪聲抑制特性的基礎上進行針對本優(yōu)選例應用實際情況的設計，以獲得本優(yōu)選例涉及的基于麥克風陣列的模擬左右耳情形的雙通道語音信號采集裝置。
[0102]噪聲抑制是要去除觀察信號中的噪聲，以獲得高質量的期望信號，而對于語音識別系統(tǒng)來說，噪聲抑制就是去除影響識別結果的有害部分。由于通信過程中噪聲的產生無法避免，并嚴重影響語音信號的質量，因此噪聲抑制一直是信號處理中的研究熱點。傳統(tǒng)的信號采集裝置大多數(shù)都是基于單一接收單元，例如桌面或頭戴式麥克風，而這種基于單一接受單元的裝置的最大問題是在抑制噪聲的同時，往往也影響了期望信號，付出了信號可懂度或應用性能下降的代價。而利用多路麥克風陣列和其獨特的空間濾波特性，可以很好地解決這一問題，可以達到抑制噪聲的同時不對期望信號產生任何干擾的效果。
[0103]基于麥克風陣列實現(xiàn)噪聲抑制的方法主要有自適應噪聲對消和基于空間信息抑制兩大類方法，其中自適應噪聲對消方法是實時地在信號靜默期獲取噪聲的參考信號以便進一步消弱噪聲信號。而基于空間信息的方法又可以分為兩類:基于波束形成原理的方法和基于盲信號分離的方法。基于波束形成的方法又可以分成固定波束形成方法和自適應的波束形成方法，其基本原理是利用陣列的空間信息對目標聲源形成過濾波束避免來自其他方向的噪聲干擾。經過綜合考慮，并考量簡易型、實用性等層面，本優(yōu)選例將采用固定波束形成方式來進行麥克風陣列信號采集裝置的設計。
[0104]眾所周知，即使在嘈雜的背景環(huán)境下，人也能集中精神去聽其中的某一種感興趣的聲音并能對其進行有效的識別分辨，這種現(xiàn)象在生理心理學上被稱為“雞尾酒會”效應。大量研究實驗表明人的這種能力得益于人有兩個耳朵，人的大腦只需要根據(jù)兩只耳朵聽到的聲音就能有效跟蹤和辨別聲音信息，而采用不同的波束形成設計的麥克風陣列就可以在一定程度上達到人耳的這種生理功能。本優(yōu)選例在設計中，將按照一定距離排列放置一組傳聲器，通過聲波抵達陣列中每個傳聲器之間微小時差的相互作用，傳聲器陣列可得到比單個傳聲器更好的指向性，并從一定程度上達到只接受說話人的聲音同時抑制環(huán)境噪聲和干擾之目的。
[0105](2)基于耳蝸基底膜結構的頻率分析
[0106]語音的感知過程與人耳聽覺系統(tǒng)的耳蝸結構具有頻譜分析功能是緊密相關的，因此對語音信號進行頻譜分析是模擬耳蝸頻譜分析過程的必要環(huán)節(jié)，也是為聽覺感知模型的建立提供輸入信息。
[0107]傅里葉分析是分析線性系統(tǒng)和平穩(wěn)信號穩(wěn)態(tài)特性的強有力手段，它在許多工程和科學領域中得到了廣泛的應用。這種以復指數(shù)函數(shù)為基函數(shù)的正交變換，理論上很完善，概念上易于理解，計算上也有快速算法，是信號處理領域的重要工具。但是，語音信號則是一種典型的非平穩(wěn)信號，其非平穩(wěn)性是由發(fā)音器官的物理運動過程所產生的。然而，語音信號產生的物理過程與聲波振動的速度比起來要緩慢得多，因此可以假定語音信號在10?30毫秒這樣短的時間段中是平穩(wěn)的，即可以使用基于時間依賴的短時傅里葉變換對語音信號進行時頻分析。
[0108]本優(yōu)選例在傳統(tǒng)傅里葉分析的基礎上，結合耳蝸基底膜的結構特點，作如下三方面的改進:
[0109]首先，在頻域將頻率軸變換為美爾頻度，以模擬耳蝸頻譜分析的非線性特性；
[0110]然后，使用一組三角形濾波器在頻域對能量譜進行帶通濾波，以模擬耳蝸基底膜對不同頻帶信號的感知作用。這組帶通濾波器的中心頻率是按照美爾頻率刻度均勻排列的，每個濾波器的三角形的兩個底點的頻率分別對應相鄰的兩個濾波器的中心頻率，即每兩個相鄰的濾波器的過渡帶相互搭接，且頻率響應的和為1，同時濾波器的數(shù)目與耳蝸基底膜的臨界帶數(shù)相近；
[0111]第三，將左右毗鄰的多個短時傅里葉參數(shù)進行拼接，以模擬耳蝸結構對語音信號時序特性的建模能力。
[0112](3)基于深層神經網(wǎng)絡的左右耳聽覺感知模型和聲學分類模型
[0113]基于HMM/GMM結構的方法被廣泛應用于現(xiàn)有語音識別系統(tǒng)中，GMM被用于描述每個HMM狀態(tài)的分布規(guī)律。自從二十世紀九十年代開始，研究人員就已經開始研究用人工神經網(wǎng)絡模型(ANN)去取代GMM模型，并取得了一定效果，但是一直沒有突破的進展。究其原因，是因為ANN的訓練對初始參數(shù)敏感，致使訓練過程非常容易陷入局部最優(yōu)。對于具有I個或2個隱層的淺層ANN，初始模型參數(shù)可以使用隨機方法獲得，模型訓練還能基本可控。但是對于具有更多隱層的深層神經網(wǎng)絡，隨機初始的參數(shù)會迅速將模型訓練引入歧途，造成深層神經網(wǎng)絡的訓練非常困難，也制約了深層神經網(wǎng)絡的應用。
[0114]近幾年來，隨著機器學習領域的快速發(fā)展，限制性玻爾茲曼機(Restrictedboltzman machine, RBM)被引入到深層神經網(wǎng)絡模型的預訓練中，通過RBM對各個隱層進行逐層的非監(jiān)督訓練，以便獲得各隱層的初始參數(shù)，然后以此作為整個網(wǎng)絡的初始參數(shù)，再通過傳統(tǒng)的后向傳播(Back propagat1n, BP)算法進行基于迭代計算的監(jiān)督訓練，最終獲得近似最優(yōu)的深層神經網(wǎng)絡模型。
[0115]眾所周知，人工神經網(wǎng)絡就是參照人類神經感知系統(tǒng)的生理機理提出的，因此神經網(wǎng)絡與人類的神經行為有著千絲萬縷的聯(lián)系。鑒于深層神經網(wǎng)絡與人耳聽覺神經系統(tǒng)具有相近的結構，具有更強的建模描述能力，并且已經在模型訓練環(huán)節(jié)取得實質進展，因此本優(yōu)選例將建立基于深層神經網(wǎng)絡的聽覺感知模型和聲學分類模型。同時，由于聽覺感知模型的主要作用是模擬人耳的感知機理，并非一定要區(qū)分出語音段的類屬，因此對于聽覺感知模型，本優(yōu)選例只做不需要類屬標簽的非監(jiān)督訓練。
[0116](4)全流程語音識別系統(tǒng)解決方案
[0117]語音識別屬于多維模式識別和智能人機接口的范疇，語音識別研究的根本目的就是開發(fā)出一種具有聽覺功能的機器，而語音識別系統(tǒng)本質上則是一種典型的模式識別系統(tǒng)。與常規(guī)模式識別系統(tǒng)一樣，語音識別系統(tǒng)包括特征提取、模式匹配、參考模式庫等三個基本單元，但是由于語音識別系統(tǒng)所處理的信息是非常復雜、內容極其豐富的人類語言信息，因此語音識別的系統(tǒng)結構要比通常模式識別系統(tǒng)復雜的多，而上述三個基本單元的內涵也更為豐富。
[0118]語音識別技術包括聲學模型、語言模型、搜索解碼、詞典等四項關鍵技術環(huán)節(jié)，其中聲學模型是重中之重。本發(fā)明就是針對聲學模型的算法和技術改進，主要解決聲學模型的抗噪聲能力，通過模擬人耳耳蝸模型的生理機制，并改進對應的深度學習網(wǎng)絡模型，達到提高語音識別準確率和抗噪性的目的。
[0119]對于語音識別系統(tǒng)來說，特征提取單元是一個很難徹底解決的問題，所提取特征的好壞將關乎模式識別的其他所有單元，本優(yōu)選例使用前面敘述的基于耳蝸理論的語音特征提取方法，以期最大程度模擬耳蝸的頻率分析和感知功能，同時采用麥克風陣列獲取的雙通道信號模擬輸入到左右耳的信號并模擬左右耳的噪聲抑制特性。
[0120]對于參考模式庫單元，由于語音識別系統(tǒng)需要利用聲學、語言學的模式知識，因此語音識別系統(tǒng)的參考模式庫不是單一的模式庫，而是具有層次結構的多種模式庫，包括描述語音聲學特性變化的聲學模型模式庫、描述語言學上下文關系的語言模型模式庫以及連接聲學模型和語言模型的詞典。參考模式庫的建立，即參考模式庫對應的各種模型的訓練是參考模式庫單元的研究重點和難點，參考模型質量直接關系到最終的語音識別性能。對于聲學模型，本優(yōu)選例將采用前面論述的基于深層神經網(wǎng)絡的模型結構，包含左右耳感知模型和進一步的聲學分類模型，并使用大規(guī)模具有參考標注的語料數(shù)據(jù)和圖形處理單元(Graphic process unit, GPU)進行深層神經網(wǎng)絡模型的訓練。
[0121]而對于語言模型和詞典，本優(yōu)選例將充分利用現(xiàn)有的海量互聯(lián)網(wǎng)資源，將其轉換為大型的解碼網(wǎng)絡，大型解碼網(wǎng)絡對于語音識別的通用性非常重要。語言模型采用N元回退(N-gram)模型，然后轉化為具有權重的有限狀態(tài)傳輸機(Weight finite statetransducer, WFST)模型。而建立語言模型和詞典所需要的數(shù)據(jù)資源，本優(yōu)選例將通過從互聯(lián)網(wǎng)抓取海量數(shù)據(jù)后進行過濾加工來獲取。對于模式匹配單元，語音識別系統(tǒng)將在聲學模型以及語言模型和詞典所構建出的大型解碼網(wǎng)絡的框架下，對輸入語音特征進行解碼，輸出語音信號所對應的文字內容。
[0122]根據(jù)上述
【發(fā)明內容】
和相應的技術方案，本優(yōu)選例可以充分利用雙路麥克風陣列的結構，達到模擬雙耳信號輸入的目的；可以提取出模擬耳蝸模型的特征信息，達到模擬耳蝸基底膜頻譜分析之功能；可以利用深層神經網(wǎng)絡模型的強大描述能力和計算能力，達到模擬左右耳聽覺感知機理之目的；并進一步利用更深層次的神經網(wǎng)絡模型，達到對聲學類屬進行精確分類的目的；可以充分利用海量網(wǎng)絡資源，構建出大型的解碼網(wǎng)絡。也就是說，基于上述有關麥克風陣列、耳蝸模型、深度神經網(wǎng)絡和大型解碼網(wǎng)絡等方面的
【發(fā)明內容】
，本優(yōu)選例提供了關于語音識別中特征提取、聲學模型設計和訓練、解碼網(wǎng)絡構建的整套專利發(fā)明，使得本優(yōu)選例的各部分內容形成一個有機的整體。
[0123]本優(yōu)選例所建立的語音識別解決方案，由于充分吸收了麥克風陣列、耳蝸模型和深度神經網(wǎng)絡模型的機理和優(yōu)勢，使得其更接近人耳的聽覺感知物理和生理機理，其最突出的優(yōu)點是具有良好的抗噪特性，相比傳統(tǒng)語音識別系統(tǒng)，本優(yōu)選例在噪聲環(huán)境下的語音識別應用場景中的識別效果表現(xiàn)優(yōu)異。同時，針對基于深度神經網(wǎng)絡模型的聲學訓練，本優(yōu)選例積累了大量具有人工標注的語音數(shù)據(jù)和學習樣本庫，該數(shù)據(jù)資源庫涵蓋了語音信號的各種形態(tài)，考慮了不同性別、不同年齡段和不同地域分布等差異性，使得本優(yōu)選例訓練出來的各種聲學模型具有良好的推廣性。
[0124]另外，由于麥克風陣列具有對遠場干擾噪聲很強的抑制左右，因此對于便攜式IT設備，如PDA、GPS、筆記本和手機等終端設備，在較大噪聲環(huán)境中本優(yōu)選例設計的語音識別系統(tǒng)表現(xiàn)出非常好的效果，其在終端市場上的應用前景巨大。
[0125]本發(fā)明的各方法實施方式均可以以軟件、硬件、固件等方式實現(xiàn)。不管本發(fā)明是以軟件、硬件、還是固件方式實現(xiàn)，指令代碼都可以存儲在任何類型的計算機可訪問的存儲器中(例如永久的或者可修改的，易失性的或者非易失性的，固態(tài)的或者非固態(tài)的，固定的或者可更換的介質等等)。同樣，存儲器可以例如是可編程陣列邏輯(Programmable ArrayLogic，簡稱“PAL”)、隨機存取存儲器(Random Access Memory，簡稱“RAM”)、可編程只讀存儲器(Programmable Read Only Memory，簡稱 “PROM”)、只讀存儲器(Read-Only Memory,簡稱“ROM”)、電可擦除可編程只讀存儲器(Electrically Erasable Programmable ROM，簡稱“EEPROM”)、磁盤、光盤、數(shù)字通用光盤(Digital Versatile Disc，簡稱“DVD”)等等。
[0126]本發(fā)明第四實施方式涉及一種語音識別系統(tǒng)，圖8是該語音識別系統(tǒng)的結構示意圖。具體地說，如圖8所示，該語音識別系統(tǒng)包括以下模塊:
[0127]語音信號獲取模塊，用于獲取N路語音信號，N是大于I的整數(shù)；
[0128]頻譜分析模塊，用于對獲取的N路語音信號分別進行頻譜分析，得到多維的N路初步頻譜特征參數(shù)；
[0129]聽覺感知模塊，用于將多維的N路初步頻譜特征參數(shù)分別輸入預先訓練好的基于深層神經網(wǎng)絡的聽覺感知模型的N個實例中進行特征變換，得到N路經提練的聽覺感知特征；
[0130]聲學分類和解碼模塊，用于將N路經提練的聽覺感知特征的組合輸入預先訓練好的聲學分類模型中，并對聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容。
[0131]本實施方式通過對獲取的多路語音信號分別進行頻譜分析和特征變換，實現(xiàn)對聽覺感知的互補作用，提取得到的聽覺感知特征更符合人耳聽覺感知的特點，能夠提高語音識別準確率和抗噪能力。
[0132]第一實施方式是與本實施方式相對應的方法實施方式，本實施方式可與第一實施方式互相配合實施。第一實施方式中提到的相關技術細節(jié)在本實施方式中依然有效，為了減少重復，這里不再贅述。相應地，本實施方式中提到的相關技術細節(jié)也可應用在第一實施方式中。
[0133]本發(fā)明第五實施方式涉及一種語音識別系統(tǒng)，第五實施方式在第四實施方式的基礎上進行了改進，主要改進之處在于:
[0134]將線性頻率軸變換為美爾頻度可以模擬人耳頻譜分析的非線性特性；使用一組三角形濾波器在頻域對能量譜進行帶通濾波可以模擬耳蝸基底膜對不同頻帶信號的感知作用；將左右毗鄰的多個短時傅里葉參數(shù)進行拼接可以模擬人耳結構對語音信號時序特性的建模能力；利用麥克風陣列陣元間的時延和相位差，可以有效模擬雙耳采集信號的形式，產生多通道差異性信號，達到抑制噪聲干擾的目的，且在抑制噪聲的同時不對期望信號產生任何干擾；對語音信號進行同步能夠達到對信號同步的實時調節(jié)的目的；初步頻譜特征參數(shù)經過特征變換后得到的經提練的聽覺感知特征能更精確，更符合人耳的語音感知特性。具體地說:
[0135]在頻譜分析模塊中，包括以下子模塊:
[0136]傅里葉變換子模塊，用于對每路語音信號中的每一幀進行短時傅里葉變換；
[0137]頻率軸非線性變換子模塊，用于在頻域將線性頻率軸變換為美爾頻度以模擬非線性特性；
[0138]濾波組子模塊，用于使用P個三角形濾波器在頻域對能量譜進行帶通濾波，得到每幀語音信號所對應的P維初步頻譜特征參數(shù)；
[0139]頻譜特征參數(shù)拼接子模塊，用于將每一幀和左右毗鄰的共Q幀語音信號各自所對應的P維初步頻譜特征參數(shù)進行拼接，得到P*Q維初步頻譜特征參數(shù)作為每一幀的初步頻譜特征參數(shù)。
[0140]優(yōu)選地，在語音信號獲取模塊中，通過包括N個麥克風采集點的麥克風陣列獲取獲取N路語音信號。
[0141]優(yōu)選地，在語音信號獲取模塊中，包括以下子模塊:
[0142]麥克風陣列信號采集子模塊，用于構建由N個麥克風采集點組成的麥克風陣列，并通過麥克風陣列拾取N路語音信號；
[0143]同步控制子模塊，用于對N路語音信號進行同步控制，輸出同步對齊的N路語音信號。
[0144]優(yōu)選地，在聽覺感知模塊中，包括以下子模塊:
[0145]特征參數(shù)輸入子模塊，用于將多維的N路初步頻譜特征參數(shù)分別作為各個聽覺感知模型實例的輸入特征；
[0146]聽覺感知特征計算子模塊，用于根據(jù)輸入特征和聽覺感知模型實例的每個隱層的參數(shù)權重，計算得到相應的基于深層神經網(wǎng)絡的聽覺感知模型的輸出特征作為N路經提練的聽覺感知特征。
[0147]第二實施方式是與本實施方式相對應的方法實施方式，本實施方式可與第二實施方式互相配合實施。第二實施方式中提到的相關技術細節(jié)在本實施方式中依然有效，為了減少重復，這里不再贅述。相應地，本實施方式中提到的相關技術細節(jié)也可應用在第二實施方式中。
[0148]本發(fā)明第六實施方式涉及一種語音識別系統(tǒng)，第六實施方式在第四實施方式的基礎上進行了改進，主要改進之處在于:
[0149]能夠從傳統(tǒng)單通道語音信號組成的語音訓練集中，構建出多路通道語音信號，為訓練左右耳聽覺感知模型提供最初的素材。對于具有較多隱層的深層神經網(wǎng)絡，通過逐層的非監(jiān)督訓練獲得整個網(wǎng)絡的初始參數(shù)，避免了訓練對初始參數(shù)敏感從而陷入局部最優(yōu)的問題。具體地說:
[0150]還包括聽覺感知模型實例訓練模塊，該模塊包括以下子模塊:
[0151]多通道語音構建子模塊，從單通道語音信號組成的語音訓練集中，構建出N路通道語音信號；
[0152]聽覺感知模型訓練子模塊，用于通過構建出的N路通道語音信號，分別建立相應的基于深層神經網(wǎng)絡的聽覺感知模型的實例。
[0153]其中，在多通道語音構建子模塊中，包括以下子模塊:
[0154]參數(shù)設定子模塊，用于設定N組時延參數(shù)和噪聲參數(shù)，并根據(jù)時延參數(shù)和噪聲參數(shù)分別設計N路輸入語音信號的N個濾波器；
[0155]濾波子模塊，用于將語音訓練集中的原始單通道語音信號分別通過N個濾波器，得到N路通道語音信號。
[0156]優(yōu)選地，在聽覺感知模型訓練子模塊中，包括以下子模塊:
[0157]頻譜特征輸入子模塊，用于對N路通道語音信號分別進行頻譜分析，并將得到的多維的初步頻譜特征參數(shù)作為基于深層神經網(wǎng)絡的聽覺感知模型的輸入特征。
[0158]聽覺感知模型參數(shù)計算子模塊，用于根據(jù)初步頻譜特征參數(shù)，利用限制性玻爾茲曼機采用非監(jiān)督訓練的方式逐層訓練每個隱層的參數(shù)權重，得到相應的基于深層神經網(wǎng)絡的聽覺感知模型。
[0159]優(yōu)選地，還包括聲學分類模型訓練模塊，該模塊包括以下子模塊:
[0160]初始權重計算子模塊，用于通過限制性玻爾茲曼機對各隱層以非監(jiān)督的方式進行逐層預訓練，獲得各隱層的初始權重參數(shù)。
[0161]權重確定子模塊，用于以預訓練獲得的初始權重參數(shù)為基礎，通過后向傳播算法進一步訓練網(wǎng)絡的權重參數(shù)，獲得聲學分類模型。
[0162]優(yōu)選地，該語音識別系統(tǒng)還包括:
[0163]識別解碼網(wǎng)絡構建模塊，用于利用互聯(lián)網(wǎng)海量資源構建識別解碼網(wǎng)絡。
[0164]相應優(yōu)選地，在聲學分類和解碼模塊中，根據(jù)識別解碼網(wǎng)絡對聲學分類模型的輸出進行解碼和識別。
[0165]第三實施方式是與本實施方式相對應的方法實施方式，本實施方式可與第三實施方式互相配合實施。第三實施方式中提到的相關技術細節(jié)在本實施方式中依然有效，為了減少重復，這里不再贅述。相應地，本實施方式中提到的相關技術細節(jié)也可應用在第三實施方式中。
[0166]現(xiàn)有的語音識別方法普遍采用單通道輸入的語音信號，雖然也提取類似人耳特性的聲學特征，但是沒有充分利用左右耳的互補特性，因此本發(fā)明將通過麥克風陣列獲取模擬左右耳的雙通道差異性信號，并進而提取基于基底膜濾波器的語音特征。緊接著，利用深層神經網(wǎng)絡建立左右耳感知模型，并利用左右耳感知模型的輸出信息建立進一步的聲學分類模型，最終將聲學分類模型的輸出送入到基于海量互聯(lián)網(wǎng)資源所構建出的解碼網(wǎng)絡平臺中，以獲取高抗噪性的識別輸出結果。同時，對麥克風陣列模塊進行了硬件上的實現(xiàn)，提高了識別系統(tǒng)的響應和處理速度。通過對人類聽覺感知的生理過程進行模擬建模建立的高魯棒性的語音識別系統(tǒng)包括四個部分:設計麥克風陣列模擬出輸入到左右耳的差異性語音信號、提取基于耳蝸模型的聽覺感知特征、建立基于深層神經網(wǎng)絡的聲學分類模型、利用互聯(lián)網(wǎng)海量資源構建識別解碼網(wǎng)絡。
[0167]通過模擬人耳耳蝸生理特征，并通過構建深層神經網(wǎng)絡來達到提高語音識別準確率和抗噪聲能力的目的，屬于模型層面的優(yōu)化改進。其他的替代方案有很多，包括直接對語音信號進行前端的抗噪處理，或者提取其他抗噪特征等方案。
[0168]需要說明的是，本發(fā)明各設備實施方式中提到的各模塊都是邏輯模塊，在物理上，一個邏輯模塊可以是一個物理模塊，也可以是一個物理模塊的一部分，還可以以多個物理模塊的組合實現(xiàn)，這些邏輯模塊本身的物理實現(xiàn)方式并不是最重要的，這些邏輯模塊所實現(xiàn)的功能的組合才是解決本發(fā)明所提出的技術問題的關鍵。此外，為了突出本發(fā)明的創(chuàng)新部分，本發(fā)明上述各設備實施方式并沒有將與解決本發(fā)明所提出的技術問題關系不太密切的模塊引入，這并不表明上述設備實施方式并不存在其它的模塊。
[0169]需要說明的是，在本專利的權利要求和說明書中，諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
[0170]雖然通過參照本發(fā)明的某些優(yōu)選實施方式，已經對本發(fā)明進行了圖示和描述，但本領域的普通技術人員應該明白，可以在形式上和細節(jié)上對其作各種改變，而不偏離本發(fā)明的精神和范圍。
【主權項】
1.一種語音識別方法，其特征在于，包括以下步驟: 獲取N路語音信號，N是大于I的整數(shù)；對所述獲取的N路語音信號分別進行頻譜分析，得到多維的N路初步頻譜特征參數(shù)；將所述多維的N路初步頻譜特征參數(shù)分別輸入預先訓練好的聽覺感知模型的N個實例中進行特征變換，得到N路經提練的聽覺感知特征；將所述N路經提練的聽覺感知特征的組合輸入預先訓練好的聲學分類模型中，并對所述聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容。2.根據(jù)權利要求1所述的語音識別方法，其特征在于，在所述“對所述獲取的N路語音信號分別進行頻譜分析，得到多維的N路初步頻譜特征參數(shù)”的步驟中，包括以下子步驟: 對所述每路語音信號中的每一幀進行短時傅里葉變換；在頻域將線性頻率軸變換為美爾頻度以模擬非線性特性；使用P個三角形濾波器在頻域對能量譜進行帶通濾波，得到每幀語音信號所對應的P維初步頻譜特征參數(shù)；將每一幀和左右毗鄰的共Q幀語音信號各自所對應的P維初步頻譜特征參數(shù)進行拼接，得到P*Q維初步頻譜特征參數(shù)作為每一幀的初步頻譜特征參數(shù)。3.根據(jù)權利要求1所述的語音識別方法，其特征在于，在所述獲取N路語音信號的步驟中，通過包括N個麥克風采集點的麥克風陣列獲取所述獲取N路語音信號。4.根據(jù)權利要求3所述的語音識別方法，其特征在于，在所述“通過包括N個麥克風采集點的麥克風陣列獲取所述獲取N路語音信號”的步驟中，包括以下子步驟: 構建由所述N個麥克風采集點組成的麥克風陣列，并通過所述麥克風陣列拾取N路語音信號；對所述N路語音信號進行同步控制，輸出同步對齊的N路語音信號。5.根據(jù)權利要求1所述的語音識別方法，其特征在于，在所述“將所述多維的N路初步頻譜特征參數(shù)分別輸入預先訓練好的基于深層神經網(wǎng)絡的聽覺感知模型的N個實例中進行特征變換，得到N路經提練的聽覺感知特征”的步驟中，包括以下子步驟: 將所述多維的N路初步頻譜特征參數(shù)分別作為各個聽覺感知模型實例的輸入特征；根據(jù)所述輸入特征和聽覺感知模型實例的每個隱層的參數(shù)權重，計算得到相應的基于深層神經網(wǎng)絡的聽覺感知模型的輸出特征作為N路經提練的聽覺感知特征。6.根據(jù)權利要求1所述的語音識別方法，其特征在于，還包括預先訓練基于深層神經網(wǎng)絡的聽覺感知模型的N個實例的步驟，該步驟包括以下子步驟: 從單通道語音信號組成的語音訓練集中，構建出N路通道語音信號；通過所述構建出的N路通道語音信號，分別建立相應的基于深層神經網(wǎng)絡的聽覺感知模型的實例。7.根據(jù)權利要求6所述的語音識別方法，其特征在于，在所述“從單通道語音信號組成的語音訓練集中，構建出N路通道語音信號”的子步驟中，包括以下子步驟: 設定N組時延參數(shù)和噪聲參數(shù)，并根據(jù)所述時延參數(shù)和噪聲參數(shù)分別設計N路輸入語音信號的N個濾波器；將所述語音訓練集中的原始單通道語音信號分別通過所述N個濾波器，得到N路通道語音信號。8.根據(jù)權利要求6所述的語音識別方法，其特征在于，在所述“通過所述構建出的N路通道語音信號，分別建立相應的基于深層神經網(wǎng)絡的聽覺感知模型的實例”的子步驟中，包括以下子步驟: 對所述N路通道語音信號分別進行頻譜分析，并將得到的多維的初步頻譜特征參數(shù)作為所述基于深層神經網(wǎng)絡的聽覺感知模型的輸入特征；根據(jù)所述初步頻譜特征參數(shù)，利用限制性玻爾茲曼機采用非監(jiān)督訓練的方式逐層訓練每個隱層的參數(shù)權重，得到相應的基于深層神經網(wǎng)絡的聽覺感知模型。9.根據(jù)權利要求1所述的語音識別方法，其特征在于，還包括預先訓練基于深層神經網(wǎng)絡的聲學分類模型的步驟，該步驟包括以下子步驟: 通過限制性玻爾茲曼機對各隱層以非監(jiān)督的方式進行逐層預訓練，獲得各隱層的初始權重參數(shù)；以所述預訓練獲得的初始權重參數(shù)為基礎，通過后向傳播算法進一步訓練網(wǎng)絡的權重參數(shù)，獲得聲學分類模型。10.根據(jù)權利要求1所述的語音識別方法，其特征在于，在所述“對所述聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容”的步驟之前，還包括步驟: 利用互聯(lián)網(wǎng)海量資源構建識別解碼網(wǎng)絡；在所述“對所述聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容”的步驟中，根據(jù)所述識別解碼網(wǎng)絡對所述聲學分類模型的輸出進行解碼和識別。11.一種語音識別系統(tǒng)，其特征在于，包括以下模塊: 語音信號獲取模塊，用于獲取N路語音信號，N是大于I的整數(shù)；頻譜分析模塊，用于對所述獲取的N路語音信號分別進行頻譜分析，得到多維的N路初步頻譜特征參數(shù)；聽覺感知模塊，用于將所述多維的N路初步頻譜特征參數(shù)分別輸入預先訓練好的基于深層神經網(wǎng)絡的聽覺感知模型的N個實例中進行特征變換，得到N路經提練的聽覺感知特征；聲學分類和解碼模塊，用于將所述N路經提練的聽覺感知特征的組合輸入預先訓練好的聲學分類模型中，并對所述聲學分類模型的輸出進行解碼以識別出語音信號所對應的文字內容。12.根據(jù)權利要求11所述的語音識別系統(tǒng)，其特征在于，在所述頻譜分析模塊中，包括以下子模塊: 傅里葉變換子模塊，用于對所述每路語音信號中的每一幀進行短時傅里葉變換；頻率軸非線性變換子模塊，用于在頻域將線性頻率軸變換為美爾頻度以模擬非線性特性；濾波組子模塊，用于使用P個三角形濾波器在頻域對能量譜進行帶通濾波，得到每幀語音信號所對應的P維初步頻譜特征參數(shù)；頻譜特征參數(shù)拼接子模塊，用于將每一幀和左右毗鄰的共Q幀語音信號各自所對應的P維初步頻譜特征參數(shù)進行拼接，得到P*Q維初步頻譜特征參數(shù)作為每一幀的初步頻譜特征參數(shù)。13.根據(jù)權利要求11所述的語音識別系統(tǒng)，其特征在于，在所述語音信號獲取模塊中，通過包括N個麥克風采集點的麥克風陣列獲取所述獲取N路語音信號。14.根據(jù)權利要求11所述的語音識別系統(tǒng)，其特征在于，在所述語音信號獲取模塊中，包括以下子模塊: 麥克風陣列信號采集子模塊，用于構建由所述N個麥克風采集點組成的麥克風陣列，并通過所述麥克風陣列拾取N路語音信號；同步控制子模塊，用于對所述N路語音信號進行同步控制，輸出同步對齊的N路語音信號。15.根據(jù)權利要求11所述的語音識別系統(tǒng)，其特征在于，在所述聽覺感知模塊中，包括以下子模塊: 特征參數(shù)輸入子模塊，用于將所述多維的N路初步頻譜特征參數(shù)分別作為各個聽覺感知模型實例的輸入特征；聽覺感知特征計算子模塊，用于根據(jù)所述輸入特征和聽覺感知模型實例的每個隱層的參數(shù)權重，計算得到相應的基于深層神經網(wǎng)絡的聽覺感知模型的輸出特征作為N路經提練的聽覺感知特征。16.根據(jù)權利要求11所述的語音識別系統(tǒng)，其特征在于，還包括聽覺感知模型實例訓練模塊，該模塊包括以下子模塊: 多通道語音構建子模塊，從單通道語音信號組成的語音訓練集中，構建出N路通道語音信號；聽覺感知模型訓練子模塊，用于通過所述構建出的N路通道語音信號，分別建立相應的基于深層神經網(wǎng)絡的聽覺感知模型的實例。17.根據(jù)權利要求16所述的語音識別系統(tǒng)，其特征在于，在所述多通道語音構建子模塊中，包括以下子申吳塊: 參數(shù)設定子模塊，用于設定N組時延參數(shù)和噪聲參數(shù)，并根據(jù)所述時延參數(shù)和噪聲參數(shù)分別設計N路輸入語音信號的N個濾波器；濾波子模塊，用于將所述語音訓練集中的原始單通道語音信號分別通過所述N個濾波器，得到N路通道語音信號。18.根據(jù)權利要求16所述的語音識別系統(tǒng)，其特征在于，在所述聽覺感知模型訓練子模塊中，包括以下子模塊: 頻譜特征輸入子模塊，用于對所述N路通道語音信號分別進行頻譜分析，并將得到的多維的初步頻譜特征參數(shù)作為所述基于深層神經網(wǎng)絡的聽覺感知模型的輸入特征；聽覺感知模型參數(shù)計算子模塊，用于根據(jù)所述初步頻譜特征參數(shù)，利用限制性玻爾茲曼機采用非監(jiān)督訓練的方式逐層訓練每個隱層的參數(shù)權重，得到相應的基于深層神經網(wǎng)絡的聽覺感知模型。19.根據(jù)權利要求11所述的語音識別系統(tǒng)，其特征在于，還包括聲學分類模型訓練模塊，該模塊包括以下子模塊: 初始權重計算子模塊，用于通過限制性玻爾茲曼機對各隱層以非監(jiān)督的方式進行逐層預訓練，獲得各隱層的初始權重參數(shù)；權重確定子模塊，用于以所述預訓練獲得的初始權重參數(shù)為基礎，通過后向傳播算法進一步訓練網(wǎng)絡的權重參數(shù)，獲得聲學分類模型。20.根據(jù)權利要求11所述的語音識別系統(tǒng)，其特征在于，還包括: 識別解碼網(wǎng)絡構建模塊，用于利用互聯(lián)網(wǎng)海量資源構建識別解碼網(wǎng)絡；在所述聲學分類和解碼模塊中，根據(jù)所述識別解碼網(wǎng)絡對所述聲學分類模型的輸出進行解碼和識別。
【文檔編號】G10L15/06GK105845127SQ201510017014
【公開日】2016年8月10日
【申請日】2015年1月13日
【發(fā)明人】李宏言
【申請人】阿里巴巴集團控股有限公司

完整全部詳細技術資料下載