僅對語言模型得分低的片段進行計算,能夠進一步降低計算量。
[0049][15]根據上述[12]?[14]的任一方案所述的裝置,其中,
[0050]上述計算單元,計算上述語音識別結果中的片段和關鍵詞列表中的關鍵詞之間的聲學距離,并基于上述聲學距離除以上述關鍵詞的字數、音節(jié)數或音素數的平均聲學距離,計算上述發(fā)音相似度。
[0051]上述方案[15]的裝置中,由于聲學距離計算是字一級或詞一級的處理,因此計算量非常小。
[0052][16]根據上述[12]?[15]的任一方案所述的裝置,其中,
[0053]上述計算單元,計算上述片段的音素序列和上述關鍵詞的音素序列之間的音素聲學距離。
[0054][17]根據上述[16]所述的裝置,其中,
[0055]上述計算單元,利用音素混淆矩陣作為權重來計算上述片段的音素序列和上述關鍵詞的音素序列之間的音素聲學距離。
[0056][18]根據上述[12]?[17]的任一方案所述的裝置,其中,
[0057]上述計算單元,計算上述片段的音調序列和上述關鍵詞的音調序列之間的音調聲學距離。
[0058][19]根據上述[18]所述的裝置,其中,
[0059]上述計算單元,利用音調混淆矩陣作為權重計算上述片段的音調序列和上述關鍵詞的音調序列之間的音調聲學距離。
[0060][20]根據上述[12]?[19]的任一方案所述的裝置,其中,
[0061]上述計算單元,計算上述片段和上述關鍵詞的音素序列之間的音素聲學距離和上述片段和上述關鍵詞的音調序列之間的音調聲學距離的加權平均值,作為上述片段和上述關鍵詞之間的上述聲學距離。
[0062][21]根據上述[12]?[20]的任一方案所述的裝置,其中,
[0063]上述片段包括上述語音識別結果中的詞、相鄰的多個詞的組合或相鄰的多個字的組合。
[0064][22]根據上述[12]?[21]的任一方案所述的裝置,其中,
[0065]上述片段的語言模型得分基于與上述片段相關的詞的語言模型得分計算。
【附圖說明】
[0066]結合附圖,從下面對本發(fā)明的實施例的詳細描述中本發(fā)明的目的、特點和優(yōu)點將顯而易見,其中:
[0067]圖1示出了根據本發(fā)明的一個實施方式的用于優(yōu)化語音識別結果的方法的流程圖。
[0068]圖2示出了本發(fā)明的用于優(yōu)化語音識別結果的方法的一個優(yōu)選實施例的流程圖。
[0069]圖3示出了對語音識別結果和關鍵詞列表進行匹配的一個實例。
[0070]圖4示出了計算平均聲學距離的一個具體實例。
[0071]圖5示出了根據本發(fā)明的另一個實施方式的用于優(yōu)化語音識別結果的裝置的框圖。
【具體實施方式】
[0072]下面,結合附圖對本發(fā)明的實施方式進行詳細描述。
[0073]<用于優(yōu)化語音識別結果的方法>
[0074]本發(fā)明的第I實施方式提供一種用于優(yōu)化語音識別結果的方法,包括以下步驟:接收語音識別結果;計算上述語音識別結果中的片段和關鍵詞列表中的關鍵詞之間的發(fā)音相似度;以及在上述發(fā)音相似度高于第I閾值的情況下,將上述片段替換為上述關鍵詞。
[0075]圖1示出了根據本發(fā)明的第I實施方式的用于優(yōu)化語音識別結果的方法的流程圖。
[0076]首先,如圖1所示,在步驟S101,接收來自語音識別引擎的語音識別結果10。
[0077]在本實施方式中,接收的語音識別結果10可以是利用本領域的技術人員公知的任何語音識別引擎或系統獲得的結果,其可以是各種語言的語音識別結果,例如漢語、英語、日語等,本發(fā)明對此沒有任何限制。
[0078]接著,在步驟S105,計算語音識別結果10中的片段和關鍵詞列表20中的關鍵詞之間的發(fā)音相似度。
[0079]在本實施方式中,語音識別結果的片段包括語音識別結果中的詞、相鄰的多個詞的組合或相鄰的多個字的組合。
[0080]在本實施方式中,步驟S105計算發(fā)音相似度的過程實際上是對語音識別結果與關鍵詞列表進行匹配的過程,即利用關鍵詞列表捕捉語音識別結果中的錯誤輸出片段的過程。
[0081]在步驟S105中,優(yōu)選,從語音識別結果的開頭進行匹配,直到對所有識別結果完成匹配。另外,為了節(jié)約計算量,也可以只對語音識別結果中的語言模型得分低于第2閾值的片段和關鍵詞列表進行匹配。語音識別結果的片段的語言模型得分可以基于與該片段相關的詞的語言模型得分計算,而語音識別結果的詞的語言模型得分是語音識別結果中已有的數據。
[0082]圖3示出了對語音識別結果和關鍵詞列表進行匹配的一個實例。
[0083]如圖3所不,語音識別結果“高強度{gaolqiang2du4, LMS1}茶{cha2, LMS2}果{guo3, LMS3}制作{zhi4zuo4,LMS4} ”包括4個詞、每個詞的語言模型得分LMS和每個詞的每個字的拼音和音調。關鍵詞列表“關鍵詞_1 {PinYin_l},...叉管{chalguan3},...關鍵詞_N{PinYin_N} ”包括N個關鍵詞和每個關鍵詞的每個字的拼音和音調。
[0084]在圖3所示的實例中,將第2個詞“茶{cha2,LMS2} ”和第3個詞“果{guo3,LMS3} ”組合成一個片段,并將關鍵詞列表中的每個關鍵詞分別與語音識別結果的3個片段進行匹配,求出每個關鍵詞與每個片段之間的發(fā)音相似度。
[0085]在該實例中,盡管示出了對于所有的關鍵詞,都將第2個詞“茶{cha2,LMS2} ”和第3個詞“果{guo3,LMS3} ”組合成一個片段,但是本實施方式并不限于此,也可以針對每個關鍵詞,對語音識別結果中的相鄰的多個詞或相鄰的多個字進行組合。
[0086]下面以“高強度茶果制作”和“叉管”為例說明匹配方法。
[0087]語音識別結果:高強度茶果制作
[0088]待匹配的關鍵詞:叉管
[0089]一種匹配方法是詞一級別的模糊匹配:
[0090]待匹配片斷將是一個或多個鄰近詞,至少包括了下面幾種相似度計算:
[0091]茶〈-> 叉管
[0092]茶果〈-> 叉管
[0093]茶果制作〈_>叉管
[0094]果制作〈_>叉管
[0095]高強度茶果制作〈_>叉管
[0096]...
[0097]另一種匹配方法是字一級別的模糊匹配:
[0098]待匹配片斷將是一個或多個鄰近字,需要匹配的種類要比第一種情況多,至少包括了下面幾種相似度計算:
[0099]強度〈-> 叉管
[0100]度〈_>叉管
[0101]度茶〈-> 叉管
[0102]茶〈-> 叉管
[0103]茶果〈_>叉管
[0104]果制〈_>叉管
[0105]高強度茶果制作〈_>叉管
[0106]
[0107]上述匹配方法的具體算法優(yōu)選使用動態(tài)規(guī)劃算法,可以有效降低算法的消耗時間。
[0108]在本實施方式中,片段和關鍵詞之間的發(fā)音相似度是指二者的發(fā)音的相似程度,其優(yōu)選通過二者的聲學距離進行計算。如果二者的聲學距離越小,則二者的相似程度越高。聲學距離的計算將在下文中結合附圖進行詳細描述。
[0109]接著,在步驟S110,在片段和關鍵詞的發(fā)音相似度高于第I閾值的情況下,將片段替換為關鍵詞。
[0110]在本實施方式中,第I閾值和第2閾值可以根據實際需要進行設置,本實施方式對此沒有任何限制。
[0111]下面結合圖2至圖4詳細說明本發(fā)明的用于優(yōu)化語音識別結果的方法的一個優(yōu)選實施