用于優(yōu)化語音識(shí)別結(jié)果的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識(shí)別技術(shù),具體地,涉及用于優(yōu)化語音識(shí)別結(jié)果的方法和裝置。
【背景技術(shù)】
[0002]在語音識(shí)別的一些應(yīng)用場(chǎng)景中,說話內(nèi)容往往包含一些關(guān)鍵詞,這些關(guān)鍵詞能否被正確識(shí)別出來密切影響著語音識(shí)別系統(tǒng)的用戶體驗(yàn)。例如,在會(huì)議支援應(yīng)用中,語音識(shí)別系統(tǒng)把發(fā)言人說話的內(nèi)容識(shí)別出來,而會(huì)議中所涉及的重要人名、地名、技術(shù)術(shù)語等詞匯就是關(guān)鍵詞,其識(shí)別率是此類應(yīng)用最主要的性能指標(biāo)。
[0003]關(guān)鍵詞可以分為兩類,如果關(guān)鍵詞不在語音識(shí)別的系統(tǒng)詞典里,可稱之為新詞,如果在詞典內(nèi),則可稱之為核心詞。由于新詞未在系統(tǒng)詞典里注冊(cè),而語音識(shí)別系統(tǒng)只能輸出系統(tǒng)詞典里存在的詞條,所以新詞完全無法被直接識(shí)別出來。
[0004]雖然大部分新詞可以由系統(tǒng)詞典里的詞條拼接后間接輸出,但由于這種拼接的情況在訓(xùn)練語料里很少見,導(dǎo)致其語言模型得分很低,因此被成功識(shí)別出來的概率依然很小。
[0005]對(duì)已在系統(tǒng)詞典里注冊(cè)過的核心詞而言,如果系統(tǒng)詞典里存在其他發(fā)音相同或相似但語言模型得分更高的非核心詞,則語音識(shí)別系統(tǒng)會(huì)錯(cuò)誤的選擇該非核心詞作為輸出結(jié)果O
[0006]因此,普通的語音識(shí)別系統(tǒng)對(duì)關(guān)鍵詞的識(shí)別率都很低,而錯(cuò)誤的識(shí)別結(jié)果一般都是讀音相同或相似的其他詞匯。
[0007]提高關(guān)鍵詞的識(shí)別率的關(guān)鍵是提升關(guān)鍵詞的語言模型得分。通常,使用基于類的語音模型來提升關(guān)鍵詞的語言模型得分。在該方法中,可以創(chuàng)建一些類來對(duì)應(yīng)各種關(guān)鍵詞,如人名類、地名類、技術(shù)術(shù)語類等,并在系統(tǒng)詞表里挑選一定數(shù)目符合某類別性質(zhì)的典型詞匯加入相應(yīng)的類。在訓(xùn)練語言模型時(shí),每個(gè)類的語言模型得分由對(duì)該類所包含的所有典型詞匯共同統(tǒng)計(jì)后得出。在語音識(shí)別之前,把關(guān)鍵詞添加到系統(tǒng)詞典里并關(guān)聯(lián)到所屬的類,而在語音識(shí)別的過程中,關(guān)鍵詞則共享其所屬類的語言模型得分。由于典型詞匯的語言模型得分都比較高,所以關(guān)鍵詞的語言模型得分被大為提升,其識(shí)別率也得以大幅度提高。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的發(fā)明人發(fā)現(xiàn)即使采用上述基于類的語言模型方法,仍然有一定比例的關(guān)鍵詞不能被正確識(shí)別,從而影響語音識(shí)別系統(tǒng),尤其是會(huì)議支援系統(tǒng)中的用戶體驗(yàn)。
[0009]為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明的實(shí)施方式提供是一種通過關(guān)鍵詞列表優(yōu)化語音識(shí)別結(jié)果的語音識(shí)別后處理技術(shù),其不涉及對(duì)語音識(shí)別引擎的修改,功能實(shí)現(xiàn)非常容易,計(jì)算量非常小,使用方便,添加或更改關(guān)鍵詞只需修改對(duì)應(yīng)的關(guān)鍵詞列表文件。具體而言,提供以下用于優(yōu)化語音識(shí)別結(jié)果的技術(shù)方案。
[0010][I] 一種用于優(yōu)化語音識(shí)別結(jié)果的方法,包括以下步驟:
[0011]接收語音識(shí)別結(jié)果;
[0012]計(jì)算上述語音識(shí)別結(jié)果中的片段和關(guān)鍵詞列表中的關(guān)鍵詞之間的發(fā)音相似度;以及
[0013]在上述發(fā)音相似度高于第I閾值的情況下,將上述片段替換為上述關(guān)鍵詞。
[0014]上述方案[I]的用于優(yōu)化語音識(shí)別結(jié)果的方法,通過關(guān)鍵詞列表對(duì)語音識(shí)別結(jié)果中被錯(cuò)誤識(shí)別的關(guān)鍵詞進(jìn)行優(yōu)化,能夠提高語音識(shí)別結(jié)果的質(zhì)量,改善語音識(shí)別系統(tǒng),尤其是會(huì)議支援系統(tǒng)的性能。上述方案[I]的方法不涉及對(duì)語音識(shí)別引擎的修改,功能實(shí)現(xiàn)非常容易,計(jì)算量非常小,使用方便,添加或更改關(guān)鍵詞只需修改對(duì)應(yīng)的關(guān)鍵詞列表文件。
[0015][2]根據(jù)上述[I]所述的方法,其中,上述替換步驟包括以下步驟:
[0016]在上述發(fā)音相似度高于上述第I閾值且上述片段的語言模型得分低于第2閾值的情況下,將上述片段替換為上述關(guān)鍵詞。
[0017]上述方案[2]的方法通過僅對(duì)語言模型得分低的片段進(jìn)行替換,能夠提高替換的正確率。另外,由于語言模型得分是利用語音識(shí)別結(jié)果中已有的數(shù)據(jù),因此計(jì)算量非常小。
[0018][3]根據(jù)上述[I]或[2]所述的方法,其中,上述計(jì)算步驟包括以下步驟:
[0019]計(jì)算上述語音識(shí)別結(jié)果中的語言模型得分低于第2閾值的片段和上述關(guān)鍵詞列表中的關(guān)鍵詞之間的發(fā)音相似度。
[0020]上述方案[3]的方法通過僅對(duì)語言模型得分低的片段進(jìn)行計(jì)算,能夠進(jìn)一步降低計(jì)算量。
[0021][4]根據(jù)上述[I]?[3]的任一方案所述的方法,其中,上述計(jì)算步驟包括以下步驟:
[0022]計(jì)算上述語音識(shí)別結(jié)果中的片段和關(guān)鍵詞列表中的關(guān)鍵詞之間的聲學(xué)距離,并基于上述聲學(xué)距離除以上述關(guān)鍵詞的字?jǐn)?shù)、音節(jié)數(shù)或音素?cái)?shù)的平均聲學(xué)距離,計(jì)算上述發(fā)音相似度。
[0023]上述方案[4]的方法中,由于聲學(xué)距離計(jì)算是字一級(jí)或詞一級(jí)的處理,因此計(jì)算量非常小。
[0024][5]根據(jù)上述[I]?[4]的任一方案所述的方法,其中,上述計(jì)算步驟包括以下步驟:
[0025]計(jì)算上述片段的音素序列和上述關(guān)鍵詞的音素序列之間的音素聲學(xué)距離。
[0026][6]根據(jù)上述[5]所述的方法,其中,上述計(jì)算步驟包括以下步驟:
[0027]利用音素混淆矩陣作為權(quán)重來計(jì)算上述片段的音素序列和上述關(guān)鍵詞的音素序列之間的音素聲學(xué)距離。
[0028][7]根據(jù)上述[I]?[6]的任一方案所述的方法,其中,上述計(jì)算步驟包括以下步驟:
[0029]計(jì)算上述片段的音調(diào)序列和上述關(guān)鍵詞的音調(diào)序列之間的音調(diào)聲學(xué)距離。
[0030][8]根據(jù)上述[7]所述的方法,其中,上述計(jì)算步驟包括以下步驟:
[0031]利用音調(diào)混淆矩陣作為權(quán)重計(jì)算上述片段的音調(diào)序列和上述關(guān)鍵詞的音調(diào)序列之間的音調(diào)聲學(xué)距離。
[0032][9]根據(jù)上述[I]?[8]的任一方案所述的方法,其中,上述計(jì)算步驟包括以下步驟:
[0033]計(jì)算上述片段和上述關(guān)鍵詞的音素序列之間的音素聲學(xué)距離和上述片段和上述關(guān)鍵詞的音調(diào)序列之間的音調(diào)聲學(xué)距離的加權(quán)平均值,作為上述片段和上述關(guān)鍵詞之間的上述聲學(xué)距離。
[0034][10]根據(jù)上述[I]?[9]的任一方案所述的方法,其中,
[0035]上述片段包括上述語音識(shí)別結(jié)果中的詞、相鄰的多個(gè)詞的組合或相鄰的多個(gè)字的組合。
[0036][11]根據(jù)上述[I]?[10]的任一方案所述的方法,其中,
[0037]上述片段的語言模型得分基于與上述片段相關(guān)的詞的語言模型得分計(jì)算。
[0038][12] 一種用于優(yōu)化語音識(shí)別結(jié)果的裝置,包括:
[0039]接收單元,其接收語音識(shí)別結(jié)果;
[0040]計(jì)算單元,其計(jì)算上述語音識(shí)別結(jié)果中的片段和關(guān)鍵詞列表中的關(guān)鍵詞之間的發(fā)音相似度;以及
[0041]替換單元,其在上述發(fā)音相似度高于第I閾值的情況下,將上述片段替換為上述關(guān)鍵詞。
[0042]上述方案[12]的用于優(yōu)化語音識(shí)別結(jié)果的裝置,通過關(guān)鍵詞列表對(duì)語音識(shí)別結(jié)果中被錯(cuò)誤識(shí)別的關(guān)鍵詞進(jìn)行優(yōu)化,能夠提高語音識(shí)別結(jié)果的質(zhì)量,改善語音識(shí)別系統(tǒng),尤其是會(huì)議支援系統(tǒng)的性能。上述方案[12]的裝置不涉及對(duì)語音識(shí)別引擎的修改,功能實(shí)現(xiàn)非常容易,計(jì)算量非常小,使用方便,添加或更改關(guān)鍵詞只需修改對(duì)應(yīng)的關(guān)鍵詞列表文件。
[0043][13]根據(jù)上述[12]所述的裝置,其中,
[0044]上述替換單元,在上述發(fā)音相似度高于上述第I閾值且上述片段的語言模型得分低于第2閾值的情況下,將上述片段替換為上述關(guān)鍵詞。
[0045]上述方案[13]的裝置通過僅對(duì)語言模型得分低的片段進(jìn)行替換,能夠提高替換的正確率。另外,由于語言模型得分是利用語音識(shí)別結(jié)果中已有的數(shù)據(jù),因此計(jì)算量非常小。
[0046][14]根據(jù)上述[12]或[13]所述的裝置,其中,
[0047]上述計(jì)算單元,計(jì)算上述語音識(shí)別結(jié)果中的語言模型得分低于第2閾值的片段和上述關(guān)鍵詞列表中的關(guān)鍵詞之間的發(fā)音相似度。
[0048]上述方案[14]的裝置通過