一種語音識別方法及裝置的制造方法

文檔序號：10536390閱讀：537來源：國知局

一種語音識別方法及裝置的制造方法
【專利摘要】本發(fā)明涉及語音技術(shù)，公開了一種語音識別方法及裝置。本發(fā)明中，預先根據(jù)通過模型訓練得到的N個高斯進行軟性聚類計算，得到M個軟聚類高斯；在進行語音識別時，將語音轉(zhuǎn)換得到特征向量，并根據(jù)該特征向量計算得分最高的前L個軟聚類高斯，其中L小于M；將L個軟聚類高斯內(nèi)的各成員高斯，作為語音識別過程中聲學模型里需要參與計算的高斯，進行聲學模型似然度的計算。本發(fā)明提供的方法在語音識別的時候采用動態(tài)高斯選擇的方式，減少識別過程中聲學模型里需要評估的高斯個數(shù)，提高了聲學模型似然度評估的速度和準確性。
【專利說明】
一種語音識別方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及語音技術(shù)，特別涉及一種語音識別方法。
【背景技術(shù)】
[0002]隨著語音識別技術(shù)的發(fā)展，近年來語音識別技術(shù)的準確率隨著深度學習的推廣取得了巨大的進步，特別是在基于云的服務(wù)中?，F(xiàn)有的語音識別服務(wù)多數(shù)在云端實現(xiàn)，語音需要上傳至服務(wù)器，服務(wù)器對上傳的語音進行聲學評估，從而給出識別結(jié)果。為了提高識別率，服務(wù)器大多采用深度學習的方法對語音進行評估。但深度學習需要耗費巨大的計算資源，在本地或者嵌入式設(shè)備中不適用。而且在很多不能聯(lián)網(wǎng)的使用場景下，只能依賴本地語音識別技術(shù)。由于本地計算和存儲資源有限，隱馬爾科夫模型(HMM)和高斯混合模型(GMM) 仍然是不可或缺的技術(shù)選擇。這種技術(shù)框架具有以下優(yōu)點：
[0003] 1、系統(tǒng)尺寸可控:高斯混合模型中的高斯數(shù)量易于在訓練時控制。
[0004] 2、系統(tǒng)速度可控:使用動態(tài)高斯選擇技術(shù)可以大幅度降低運算時間
[0005] 所謂高斯選擇即在模型訓練階段，把語音識別系統(tǒng)中所有的高斯作為成員高斯進行聚類，形成聚類高斯;在識別的時候首先利用聲學特征評估每個聚類高斯，那些似然度高的聚類高斯所對應(yīng)的成員高斯被選中進行進一步的評估。而其他成員高斯被丟棄。傳統(tǒng)的尚斯選擇技術(shù)有以下缺點：
[0006] 1、在聚類的時候采用硬聚類，即一個成員高斯只屬于一個聚類高斯。聚類精確度較低。
[0007] 2、聚類時直接把成員高斯的均值和方差作為聚類的輸入，在訓練聚類高斯的時候直接把均值和方差做簡單的算術(shù)平均，聚類精度極低。
[0008] 3、聚類的時候，沒有有效的迭代方法，致使聚類收斂于局部最優(yōu)。
[0009 ] 4、識別時的高斯選擇不能做到動態(tài)更新，導致過多的成員高斯保留在計算中，識別速度慢。

【發(fā)明內(nèi)容】

[0010] 本發(fā)明的目的在于提供一種語音識別方法及裝置，使得語音識別過程中可以減少聲學模型里需要評估的高斯個數(shù)，比傳統(tǒng)的高斯選擇更加準確和高效，從而提高了聲學模型似然度評估的速度和準確性。
[0011] 為解決上述技術(shù)問題，本發(fā)明的實施方式提供了一種語音識別方法，包含以下步驟：
[0012] 預先根據(jù)通過模型訓練得到的N個高斯，進行軟性聚類計算，得到M個軟聚類高斯；
[0013] 在進行語音識別時，將語音轉(zhuǎn)換得到特征向量，并根據(jù)所述特征向量計算得分最高的前L個軟聚類高斯，其中L小于所述M;
[0014] 將L個軟聚類高斯內(nèi)的各成員高斯，作為語音識別過程中聲學模型里需要參與計算的高斯，進行聲學模型似然度的計算。
[0015] 本發(fā)明的實施方式還提供了一種語音識別裝置，包含：
[0016] 軟性聚類獲取模塊，用于根據(jù)通過模型訓練得到的N個高斯，進行軟性聚類計算，得到M個軟聚類高斯；
[0017] 向量轉(zhuǎn)換模塊，用于在進行語音識別時，將語音轉(zhuǎn)換得到特征向量；
[0018] 選擇模塊，用于根據(jù)所述特征向量計算得分最高的前L個軟聚類高斯，并將所述前 L個軟聚類高斯的各成員高斯，作為選擇的高斯;所述L小于所述M;
[0019]計算模塊，用于將所述選擇模塊選擇的高斯，作為語音識別過程中聲學模型里需要參與計算的高斯，進行聲學模型似然度的計算。
[0020] 本發(fā)明實施方式相對于現(xiàn)有技術(shù)而言，通過對模型訓練得到的N個高斯進行軟性聚類，得到M個軟聚類高斯，再根據(jù)特征向量對M個軟聚類高斯進行計算得到分數(shù)最高的前L 個軟聚類高斯，然后將L個軟聚類高斯內(nèi)的各成員高斯進行聲學模型似然度的計算，得到識別輸出結(jié)果。通過軟性聚類可以使一個成員高斯屬于多個聚類高斯，提高了聚類的精確度，而且在識別的時候采用動態(tài)高斯選擇的方式，減少了識別過程中聲學模型里需要評估的高斯個數(shù)，使得在本地識別過程中，可將GMM中每個成員高斯的得分計算量從整個計算時間的 70 %左右降低到20%，從而提高了聲學模型似然度評估速度和準確率，尤其適用于本地語音識別，喚醒，和語音端點檢測(檢測語音的起始點）。
[0021] 另外，根據(jù)通過模型訓練得到的N個高斯，進行軟性聚類計算的步驟中，包含以下子步驟：
[0022] 將N個高斯按預設(shè)權(quán)重分配給聚類高斯；
[0023] 根據(jù)各高斯對所屬的各聚類高斯的更新權(quán)重，重新估計聚類高斯，得到M個軟聚類尚斯。
[0024] 通過軟性聚類計算，使得每個成員高斯可以屬于多個聚類高斯，提高了模型的描述能力，從而提尚識別率。
[0025] 另外，在采用K均值算法重新估計聚類高斯時，計算各聚類高斯的最小聚類代價；
[0026] 對最小聚類代價求導，獲取每個成員高斯對每個聚類高斯的更新權(quán)重；
[0027] 根據(jù)獲取到的每個成員高斯對每個聚類高斯的更新權(quán)重，計算各聚類高斯的均值和方差，得到重新估計的聚類高斯；
[0028] 將該重新估計的聚類高斯，作為M個軟聚類高斯。
[0029]通過計算各聚類高斯的最小聚類代價使得聚類高斯的劃分達到平方誤差最小。采用精確的K均值(K-Means)方法對高斯進行軟性聚類（即一個成員高斯可屬于多個聚類高斯），聚類個數(shù)逐步增加，并且每次增加的方式反映了模型分布的規(guī)律，一方面保證了同一聚類內(nèi)各成員高斯的相似度，另一方面可使得類與類之間的區(qū)別明顯，從而提高了聚類的精度。
[0030] 另外，所述L的取值為滿足下列條件的最小值： L #.*0.2
[0031] ^ p{G： | Y)'' > 〇, 95 Z p^gj l x)a i-1
[0032] 其中，p(Gi|Y) 2p(Gi+1|Y)
[0033]所述Y表示所述特征向量，a是一個對高斯"后驗"概率的壓縮指數(shù)，Gi表示第i個聚類高斯，pWi | Y)表示第i個聚類高斯的"后驗"概率。
[0034] 將根據(jù)上述公式計算得出的最小值作為L的取值，可以使識別過程中聲學模型里需要評估的高斯個數(shù)較少，提高了聲學模型似然度評估速度。
[0035] 另外，根據(jù)特征向量計算出得分最高的前L個軟聚類高斯的步驟中，包含以下子步驟：
[0036]根據(jù)以下公式，獲取各軟聚類高斯的得分：
[0038] 所述Y表示所述特征向量，表示第m個軟聚類高斯的均值，表示第m個軟聚類高斯的方差。
【附圖說明】
[0039] 圖1是根據(jù)本發(fā)明實施方式的語音識別系統(tǒng)示意圖；
[0040] 圖2是根據(jù)第一實施方式中軟性聚類的計算流程圖；
[0041 ]圖3是根據(jù)第一實施方式的語音識別方法流程圖；
[0042] 圖4是根據(jù)第一實施方式的動態(tài)高斯選擇示意圖；
[0043] 圖5是根據(jù)第四實施方式的語音識別裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0044]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合附圖對本發(fā)明的各實施方式進行詳細的闡述。然而，本領(lǐng)域的普通技術(shù)人員可以理解，在本發(fā)明各實施方式中，為了使讀者更好地理解本申請而提出了許多技術(shù)細節(jié)。但是，即使沒有這些技術(shù)細節(jié)和基于以下各實施方式的種種變化和修改，也可以實現(xiàn)本申請各權(quán)利要求所要求保護的技術(shù)方案。
[0045] 語音識別目的是在觀察到一段語音信號的情況下，給出可能性最高的文本。如圖1 所示，一個基于HMM+GMM的識別系統(tǒng)按幀讀取一段語音，系統(tǒng)把每幀語音信號變成特征向量。系統(tǒng)結(jié)合每幀特征向量評估聲學模型中每個高斯的似然度，同時假設(shè)多種詞的組合，對這些詞的組合利用語言模型進行似然度評估，聲學似然度和語言似然度總和最高的詞組合作為識別結(jié)果輸出。
[0046] 本發(fā)明的第一實施方式涉及一種語音識別方法。在本實施方式中，需要預先根據(jù) 通過模型訓練得到的N個高斯，進行軟性聚類計算，得到M個軟聚類高斯。在進行語音識別時，通過用動態(tài)高斯選擇的方式，控制需要計算的成員高斯個數(shù)。在本實施方式中，軟性聚類的計算流程如圖2所示。
[0047]在步驟201中，通過模型訓練得到N個高斯，如得到1000個高斯。
[0048]在步驟202中，將N個高斯按預設(shè)權(quán)重分配給聚類高斯。
[0049] 在步驟203中，根據(jù)各高斯對所屬的各聚類高斯的更新權(quán)重，重新估計聚類高斯，得到M個軟聚類高斯。
[0050] 本領(lǐng)域技術(shù)人員可以理解，高斯混合模型在語音識別中用來描述隱馬爾科夫模型 (HMM)每個狀態(tài)的概率分布，每個狀態(tài)使用若干個高斯來表述自己的概率分布。一個高斯分布有自己的均值y和方差s。為了在識別系統(tǒng)中有效使用高斯選擇，狀態(tài)間必須共享高斯。這種共享高斯的聲學模型叫做半連續(xù)馬爾科夫模型。在使用相同數(shù)量高斯的情況下，半連續(xù)高斯會提高模型的描述能力，從而提高識別率。通過模型訓練得到N(在本地識別系統(tǒng)中， N-般取值1000)個高斯，在聚類前必須明確高斯之間的距離判據(jù)。在本實施方式中，采用加權(quán)對稱KL散度(WSKLD)作為距離判據(jù)。一個高斯m和高斯n之間的距離的SKLD為：
[0052]其中，Sf為高斯n的方差，S j為高斯m的方差，yn為高斯n的均值，為高斯m的均值。I為單位矩陣。
[0053]如果高斯模型分成多個子空間，每個子空間都有自己的權(quán)重0，則WSKLD為： ^strm
[0054] WSKLD (?, m) SKLD.(/2, m) M
[0055]其中Nstrm為高斯模型的子空間個數(shù)。
[0056]軟性聚類的計算，在具體實現(xiàn)時，可以采用以下任意算法:K均值算法、C均值算法、自組織圖算法。下面以K均值算法為例，進行具體說明：
[0057]該算法可以用下述偽碼來描述：
[0058] 1、把聚類高斯的個數(shù)m設(shè)為1，使用所有高斯作為成員高斯估計出一個聚類高斯。
[0059] 2、while m〈M(M是聚類高斯的個數(shù)的目標值）
[0060] 2a.尋找一個聚類高斯J，該聚類高斯具有最大的WSKLD
[0061 ] 2b.把高斯j分裂成兩個聚類高斯，m++
[0062] 2(3.卩〇1'循環(huán)訂1'〇11111:〇丁
[0063] 2c_l .For聚類高斯i，i from lto m
[0064] 2c_l_l .For成員高斯n，n from lto N，其中N是成員高斯的個數(shù)
[0065] 計算該成員高斯對第i個聚類高斯的更新貢獻§( i，n)
[0066] 2C-1-2.基于|(i，n)，迭代更新第i個聚類高斯的均值iii和方差5： i
[0067] 上述偽碼中聚類的目標是讓聚類代價Q最小，其中，Q的計算公式如下：
[0069] 其中，g(i，n)表示第n個高斯對第i個聚類高斯的更新權(quán)重；Y為預設(shè)的聚類軟硬度參數(shù);WSKLD表示作為高斯之間距離判據(jù)的加權(quán)對稱KL散度。
[0070] 通過迭代可以得到以下參數(shù):聚類高斯的均值，方差和每個成員高斯對更新每個聚類高斯的權(quán)重：
[0072]在獲取上述參數(shù)的迭代過程中，第一步是獲取最佳的更新權(quán)重：
[0074] 其中Jtf，W)為更新權(quán)重。
[0075] 第二步是基于最佳權(quán)重獲取聚類高斯最佳的均值和方差。更新聚類高斯均值的方法如下：
[0077]為了計算聚類高斯的方差，可以構(gòu)造一個輔助矩陣Z。
[0081 ]基于Z的構(gòu)造，它有DP個整的的特征值和與之對稱的負的DP個特征值，其中DP是均值和方差的維度。此時構(gòu)造一個2DP-by-DP的矩陣V，它列是DP個Z的正特征值對應(yīng)的特征向量。把V分成上半部分U和下半部分W: 「IT
[0082] V = W
[0083] 則聚類高斯的協(xié)方差矩陣估計如下：
[0084] S. = Uf-1
[0085] 均值和協(xié)方差矩陣交替迭代幾輪后，協(xié)方差矩陣被限制為對角陣。這個強加的條件在少數(shù)情況下會導致聚類不收斂，但是不影響聚類準確性，從而得到重新估計的聚類高斯，作為M個軟聚類高斯。
[0086] 也就是說，在本實施方式中，識別系統(tǒng)通過計算各聚類高斯的最小聚類代價，再對每個最小聚類代價求導，從而獲取每個成員高斯對每個聚類高斯的更新權(quán)重，然后根據(jù)該更新權(quán)重，計算各聚類高斯的均值和方差，得到重新估計的聚類高斯，作為M個軟聚類高斯。
[0087]在得到M個軟聚類高斯后對語音進行識別，具體流程如圖3所示：
[0088]在步驟301中，識別系統(tǒng)按幀讀取一段語音，比如說，每幀長度為10毫秒。
[0089] 在步驟302中，識別系統(tǒng)把每幀語音信號變成特征向量，得到的特征向量用于對軟聚類高斯進行評估。
[0090] 在步驟303中，根據(jù)特征向量計算出得分最高的前L個軟聚類高斯(其中L小于M)。
[0091] 具體地說，如圖4所示:在語音識別的過程中，當一陣語音被轉(zhuǎn)換成特征向量Y后，所有的聚類高斯首先利用該向量進行評估，得分最高的前L個聚類高斯被選中放在聚類高斯選擇表。根據(jù)以下公式，可以獲取各軟聚類高斯的得分：
[0093]其中Y表示所述特征向量，表示第m個軟聚類高斯的均值，表示第m個軟聚類高斯的方差。在得到M個聚類高斯的得分后，取得分最高的前L個聚類高斯，作為選中的聚類高斯。
[0094] 在本實施方式中，L的取值為滿足下列條件的最小值： L ,￥*0.2
[0095] X "(r;,. I Y)a > 0? 9「) [ /乂丫心 | Y)a其中p(Gi|Y) 2p(Gi+1|Y) j=i j=l
[0096] 其中，Y表示特征向量，a是一個對高斯"后驗"概率的壓縮指數(shù)，Gi表示第i個聚類高斯，pWi | Y)表示第i個聚類高斯的"后驗"概率。
[0097] 在步驟304中，將L個軟聚類高斯內(nèi)的各成員高斯，作為語音識別過程中聲學模型里需要參與計算的高斯，進行聲學模型似然度的計算。
[0098] 也就是說，一個成員高斯是否被選擇并計算取決于成員高斯和聚類高斯映射表和聚類高斯選擇列表。如圖4中，聚類高斯選擇表中"1"表示相應(yīng)的聚類高斯在識別過程中的當前時刻被選中。在"聚類-成員高斯映射表"中查詢被選中的聚類高斯對應(yīng)的成員高斯，進行計算。未被選中的成員高斯的似然度用一個小值代替。
[0099] 在步驟305中，判斷是否還存在未讀取的語音幀。如果判斷結(jié)果為是，說明還有需要識別的語音幀，則回到步驟301讀取下一個語音幀繼續(xù)進行識別。否則說明語音識別已經(jīng) 全部完成，則結(jié)束流程。
[0100] 在步驟306中，輸出識別結(jié)果。具體地說，本步驟中的語音識別的結(jié)果為聲學似然度和語言似然度總和，本步驟與現(xiàn)有技術(shù)相同，在此不再贅述。
[0101] 為了驗證本實施方式中的語音識別方法的實用性，在一個測試集上，測試了幾種發(fā)放的CPU時間和識別率，結(jié)果如表1所示：
[0102] 其中硬高斯聚類是指每個成員函數(shù)只屬于一個聚類高斯，而且聚類僅僅是把均值當做向量進行。軟精確聚類是本發(fā)明中描述的方法。不使用高斯聚類的系統(tǒng)作為基線?？梢?看到硬高斯聚類在精確方面比本發(fā)明的方法要差。二者速度相當。基線系統(tǒng)在速度和精度都比本發(fā)明的系統(tǒng)要差。
[0103] 表1
[0105] 不難發(fā)現(xiàn)，本發(fā)明的實施方式，在系統(tǒng)訓練階段采用精確的K均值(K-Means)方法對高斯進行軟性聚類（即一個成員高斯可屬于多個聚類高斯），聚類個數(shù)逐步增加，并且每次增加的方式反映了模型分布的規(guī)律。在識別的時候采用動態(tài)高斯選擇的方式，控制需要計算的成員高斯個數(shù)。從而提高了聲學模型似然度評估速度和準確率。比傳統(tǒng)的高斯選擇更加準確和高效。
[0106] 本發(fā)明的第二實施方式涉及一種語音識別方法。第二實施方式與第一實施方式大致相同，主要區(qū)別之處在于：在第一實施方式中，在系統(tǒng)訓練階段采用精確的K均值（K-Means)算法對高斯進行軟性聚類。而在本發(fā)明第二實施方式中，在系統(tǒng)訓練階段采用C均值算法對高斯進行軟性聚類。由于采用C均值算法進行軟性聚類計算的具體實現(xiàn)方式，與K均值算法基本相同，在本實施方式中不再贅述。
[0107] 本發(fā)明的第三實施方式涉及一種語音識別方法。第三實施方式與第一實施方式大致相同，主要區(qū)別之處在于：在第一實施方式中，在系統(tǒng)訓練階段采用精確的K均值（K-Means)算法對高斯進行軟性聚類。而在本發(fā)明第三實施方式中，在系統(tǒng)訓練階段采用自組織圖算法對高斯進行軟性聚類。由于采用自組織圖算法進行軟性聚類計算的具體實現(xiàn)方式，僅在步驟203中略有不同，而自組織圖算法為現(xiàn)有的聚類算法的公知技術(shù)，本實施方式中也不再贅述。
[0108] 上面各種方法的步驟劃分，只是為了描述清楚，實現(xiàn)時可以合并為一個步驟或者對某些步驟進行拆分，分解為多個步驟，只要包含相同的邏輯關(guān)系，都在本專利的保護范圍內(nèi)；對算法中或者流程中添加無關(guān)緊要的修改或者引入無關(guān)緊要的設(shè)計，但不改變其算法和流程的核心設(shè)計都在該專利的保護范圍內(nèi)。
[0109] 本發(fā)明第四實施方式涉及一種語音識別裝置，如圖5所示，包含：
[0110]軟性聚類獲取模塊，用于根據(jù)通過模型訓練得到的N個高斯，進行軟性聚類計算，得到M個軟聚類高斯；
[0111] 向量轉(zhuǎn)換模塊，用于在進行語音識別時，將語音轉(zhuǎn)換得到特征向量；
[0112] 選擇模塊，用于根據(jù)特征向量計算出得分最高的前L個軟聚類高斯，并將前L個軟聚類高斯的各成員高斯，作為選擇的高斯，其中L小于M;
[0113] 計算模塊，用于將選擇模塊選擇的高斯，作為語音識別過程中聲學模型里需要參與計算的高斯，進行聲學模型似然度的計算。
[0114] 其中軟性聚類獲取模塊包含：
[0115] 權(quán)重分配模塊，用于將N個高斯按預設(shè)權(quán)重分配給聚類高斯；
[0116] 重估計模塊，用于根據(jù)各高斯對所屬的各聚類高斯的更新權(quán)重，重新估計聚類高斯，得到M個軟聚類高斯。
[0117] 不難發(fā)現(xiàn)，本實施方式為與第一實施方式相對應(yīng)的系統(tǒng)實施例，本實施方式可與第一實施方式互相配合實施。第一實施方式中提到的相關(guān)技術(shù)細節(jié)在本實施方式中依然有效，為了減少重復，這里不再贅述。相應(yīng)地，本實施方式中提到的相關(guān)技術(shù)細節(jié)也可應(yīng)用在第一實施方式中。
[0118] 值得一提的是，本實施方式中所涉及到的各模塊均為邏輯模塊，在實際應(yīng)用中，一個邏輯單元可以是一個物理單元，也可以是一個物理單元的一部分，還可以以多個物理單元的組合實現(xiàn)。此外，為了突出本發(fā)明的創(chuàng)新部分，本實施方式中并沒有將與解決本發(fā)明所提出的技術(shù)問題關(guān)系不太密切的單元引入，但這并不表明本實施方式中不存在其它的單 J L 〇
[0119] 本領(lǐng)域的普通技術(shù)人員可以理解，上述各實施方式是實現(xiàn)本發(fā)明的具體實施例，而在實際應(yīng)用中，可以在形式上和細節(jié)上對其作各種改變，而不偏離本發(fā)明的精神和范圍。
【主權(quán)項】
1. 一種語音識別方法，其特征在于，包含以下步驟：預先根據(jù)通過模型訓練得到的N個高斯，進行軟性聚類計算，得到M個軟聚類高斯；在進行語音識別時，將語音轉(zhuǎn)換得到特征向量，并根據(jù)所述特征向量計算出得分最高的前L個軟聚類高斯，所述L小于所述M; 將所述L個軟聚類高斯內(nèi)的各成員高斯，作為語音識別過程中聲學模型里需要參與計算的高斯，進行聲學模型似然度的計算。2. 根據(jù)權(quán)利要求1所述的語音識別方法，其特征在于，所述根據(jù)通過模型訓練得到的N 個高斯，進行軟性聚類計算的步驟中，包含以下子步驟：將所述N個高斯按預設(shè)權(quán)重分配給聚類高斯；根據(jù)各高斯對所屬的各聚類高斯的更新權(quán)重，重新估計聚類高斯，得到所述M個軟聚類尚斯。3. 根據(jù)權(quán)利要求2所述的語音識別方法，其特征在于，所述根據(jù)通過模型訓練得到的N 個高斯，進行軟性聚類計算的步驟中，采用以下任意算法，進行所述軟性聚類的計算： K均值算法、C均值算法、自組織圖算法。4. 根據(jù)權(quán)利要求3所述的語音識別方法，其特征在于，在采用K均值算法重新估計聚類高斯時，計算各聚類高斯的最小聚類代價；對所述最小聚類代價求導，獲取每個成員高斯對每個聚類高斯的更新權(quán)重；根據(jù)獲取到的每個成員高斯對每個聚類高斯的更新權(quán)重，計算各聚類高斯的均值和方差，得到所述重新估計的聚類高斯；將所述重新估計的聚類高斯，作為所述M個軟聚類高斯。5. 根據(jù)權(quán)利要求4所述的語音識別方法，其特征在于，根據(jù)以下公式計算所述最小聚類代價Q:其中，g(i，n)表示第η個高斯對第i個聚類高斯的更新權(quán)重；γ為預設(shè)的聚類軟硬度參數(shù);WSKLD表示作為高斯之間距離判據(jù)的加權(quán)對稱KL散度。6. 根據(jù)權(quán)利要求1所述的語音識別方法，其特征在于，所述L的取值為滿足下列條件的最小值：其中，P(GilY) 2p(Gi+1|Y) 所述Y表示所述特征向量，其中α是一個對高斯的后驗概率的壓縮指數(shù)，G1表示第i個聚類高斯，PW11Y)表示第i個聚類高斯的后驗概率。7. 根據(jù)權(quán)利要求1所述的語音識別方法，其特征在于，所述根據(jù)特征向量計算出得分最高的前L個軟聚類高斯的步驟中，包含以下子步驟：根據(jù)以下公式，獲取各軟聚類高斯的得分：所述Y表示所述特征向量，表示第m個軟聚類高斯的均值，Ση表示第m個軟聚類高斯的方差。8. 根據(jù)權(quán)利要求1所述的語音識別方法，其特征在于，在所述將語音轉(zhuǎn)換得到特征向量的步驟中，將每個語音幀轉(zhuǎn)換為一個所述特征向量。9. 一種語音識別裝置，其特征在于，包含：軟性聚類獲取模塊，用于根據(jù)通過模型訓練得到的N個高斯，進行軟性聚類計算，得到M 個軟聚類高斯；向量轉(zhuǎn)換模塊，用于在進行語音識別時，將語音轉(zhuǎn)換得到特征向量；選擇模塊，用于根據(jù)所述特征向量計算出得分最高的前L個軟聚類高斯，并將所述前L 個軟聚類高斯的各成員高斯，作為選擇的高斯;所述L小于所述M; 計算模塊，用于將所述選擇模塊選擇的高斯，作為語音識別過程中聲學模型里需要參與計算的高斯，進行聲學模型似然度的計算。10. 根據(jù)權(quán)利要求9所述的語音識別裝置，其特征在于，所述軟性聚類獲取模塊包含：權(quán)重分配模塊，用于將所述N個高斯按預設(shè)權(quán)重分配給聚類高斯；重估計模塊，用于根據(jù)各高斯對所屬的各聚類高斯的更新權(quán)重，重新估計聚類高斯，得到所述M個軟聚類高斯。
【文檔編號】G10L15/14GK105895089SQ201511027242
【公開日】2016年8月24日
【申請日】2015年12月30日
【發(fā)明人】王育軍, 侯銳
【申請人】樂視致新電子科技（天津）有限公司

完整全部詳細技術(shù)資料下載