用于優(yōu)化語音識(shí)別結(jié)果的方法和裝置的制造方法

文檔序號(hào)：9867720閱讀：470來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于優(yōu)化語音識(shí)別結(jié)果的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識(shí)別技術(shù)，具體地，涉及用于優(yōu)化語音識(shí)別結(jié)果的方法和裝置。
【背景技術(shù)】
[0002]在語音識(shí)別的一些應(yīng)用場(chǎng)景中，說話內(nèi)容往往包含一些關(guān)鍵詞，這些關(guān)鍵詞能否被正確識(shí)別出來密切影響著語音識(shí)別系統(tǒng)的用戶體驗(yàn)。例如，在會(huì)議支援應(yīng)用中，語音識(shí)別系統(tǒng)把發(fā)言人說話的內(nèi)容識(shí)別出來，而會(huì)議中所涉及的重要人名、地名、技術(shù)術(shù)語等詞匯就是關(guān)鍵詞，其識(shí)別率是此類應(yīng)用最主要的性能指標(biāo)。
[0003]關(guān)鍵詞可以分為兩類，如果關(guān)鍵詞不在語音識(shí)別的系統(tǒng)詞典里，可稱之為新詞，如果在詞典內(nèi)，則可稱之為核心詞。由于新詞未在系統(tǒng)詞典里注冊(cè)，而語音識(shí)別系統(tǒng)只能輸出系統(tǒng)詞典里存在的詞條，所以新詞完全無法被直接識(shí)別出來。
[0004]雖然大部分新詞可以由系統(tǒng)詞典里的詞條拼接后間接輸出，但由于這種拼接的情況在訓(xùn)練語料里很少見，導(dǎo)致其語言模型得分很低，因此被成功識(shí)別出來的概率依然很小。
[0005]對(duì)已在系統(tǒng)詞典里注冊(cè)過的核心詞而言，如果系統(tǒng)詞典里存在其他發(fā)音相同或相似但語言模型得分更高的非核心詞，則語音識(shí)別系統(tǒng)會(huì)錯(cuò)誤的選擇該非核心詞作為輸出結(jié)果O
[0006]因此，普通的語音識(shí)別系統(tǒng)對(duì)關(guān)鍵詞的識(shí)別率都很低，而錯(cuò)誤的識(shí)別結(jié)果一般都是讀音相同或相似的其他詞匯。
[0007]提高關(guān)鍵詞的識(shí)別率的關(guān)鍵是提升關(guān)鍵詞的語言模型得分。通常，使用基于類的語音模型來提升關(guān)鍵詞的語言模型得分。在該方法中，可以創(chuàng)建一些類來對(duì)應(yīng)各種關(guān)鍵詞，如人名類、地名類、技術(shù)術(shù)語類等，并在系統(tǒng)詞表里挑選一定數(shù)目符合某類別性質(zhì)的典型詞匯加入相應(yīng)的類。在訓(xùn)練語言模型時(shí)，每個(gè)類的語言模型得分由對(duì)該類所包含的所有典型詞匯共同統(tǒng)計(jì)后得出。在語音識(shí)別之前，把關(guān)鍵詞添加到系統(tǒng)詞典里并關(guān)聯(lián)到所屬的類，而在語音識(shí)別的過程中，關(guān)鍵詞則共享其所屬類的語言模型得分。由于典型詞匯的語言模型得分都比較高，所以關(guān)鍵詞的語言模型得分被大為提升，其識(shí)別率也得以大幅度提高。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的發(fā)明人發(fā)現(xiàn)即使采用上述基于類的語言模型方法，仍然有一定比例的關(guān)鍵詞不能被正確識(shí)別，從而影響語音識(shí)別系統(tǒng)，尤其是會(huì)議支援系統(tǒng)中的用戶體驗(yàn)。
[0009]為了解決現(xiàn)有技術(shù)中存在的上述問題，本發(fā)明的實(shí)施方式提供是一種通過關(guān)鍵詞列表優(yōu)化語音識(shí)別結(jié)果的語音識(shí)別后處理技術(shù)，其不涉及對(duì)語音識(shí)別引擎的修改，功能實(shí)現(xiàn)非常容易，計(jì)算量非常小，使用方便，添加或更改關(guān)鍵詞只需修改對(duì)應(yīng)的關(guān)鍵詞列表文件。具體而言，提供以下用于優(yōu)化語音識(shí)別結(jié)果的技術(shù)方案。
[0010][I] 一種用于優(yōu)化語音識(shí)別結(jié)果的方法，包括以下步驟:
[0011]接收語音識(shí)別結(jié)果；
[0012]計(jì)算上述語音識(shí)別結(jié)果中的片段和關(guān)鍵詞列表中的關(guān)鍵詞之間的發(fā)音相似度；以及
[0013]在上述發(fā)音相似度高于第I閾值的情況下，將上述片段替換為上述關(guān)鍵詞。
[0014]上述方案[I]的用于優(yōu)化語音識(shí)別結(jié)果的方法，通過關(guān)鍵詞列表對(duì)語音識(shí)別結(jié)果中被錯(cuò)誤識(shí)別的關(guān)鍵詞進(jìn)行優(yōu)化，能夠提高語音識(shí)別結(jié)果的質(zhì)量，改善語音識(shí)別系統(tǒng)，尤其是會(huì)議支援系統(tǒng)的性能。上述方案[I]的方法不涉及對(duì)語音識(shí)別引擎的修改，功能實(shí)現(xiàn)非常容易，計(jì)算量非常小，使用方便，添加或更改關(guān)鍵詞只需修改對(duì)應(yīng)的關(guān)鍵詞列表文件。
[0015][2]根據(jù)上述[I]所述的方法，其中，上述替換步驟包括以下步驟:
[0016]在上述發(fā)音相似度高于上述第I閾值且上述片段的語言模型得分低于第2閾值的情況下，將上述片段替換為上述關(guān)鍵詞。
[0017]上述方案[2]的方法通過僅對(duì)語言模型得分低的片段進(jìn)行替換，能夠提高替換的正確率。另外，由于語言模型得分是利用語音識(shí)別結(jié)果中已有的數(shù)據(jù)，因此計(jì)算量非常小。
[0018][3]根據(jù)上述[I]或[2]所述的方法，其中，上述計(jì)算步驟包括以下步驟:
[0019]計(jì)算上述語音識(shí)別結(jié)果中的語言模型得分低于第2閾值的片段和上述關(guān)鍵詞列表中的關(guān)鍵詞之間的發(fā)音相似度。
[0020]上述方案[3]的方法通過僅對(duì)語言模型得分低的片段進(jìn)行計(jì)算，能夠進(jìn)一步降低計(jì)算量。
[0021][4]根據(jù)上述[I]?[3]的任一方案所述的方法，其中，上述計(jì)算步驟包括以下步驟:
[0022]計(jì)算上述語音識(shí)別結(jié)果中的片段和關(guān)鍵詞列表中的關(guān)鍵詞之間的聲學(xué)距離，并基于上述聲學(xué)距離除以上述關(guān)鍵詞的字?jǐn)?shù)、音節(jié)數(shù)或音素?cái)?shù)的平均聲學(xué)距離，計(jì)算上述發(fā)音相似度。
[0023]上述方案[4]的方法中，由于聲學(xué)距離計(jì)算是字一級(jí)或詞一級(jí)的處理，因此計(jì)算量非常小。
[0024][5]根據(jù)上述[I]?[4]的任一方案所述的方法，其中，上述計(jì)算步驟包括以下步驟:
[0025]計(jì)算上述片段的音素序列和上述關(guān)鍵詞的音素序列之間的音素聲學(xué)距離。
[0026][6]根據(jù)上述[5]所述的方法，其中，上述計(jì)算步驟包括以下步驟:
[0027]利用音素混淆矩陣作為權(quán)重來計(jì)算上述片段的音素序列和上述關(guān)鍵詞的音素序列之間的音素聲學(xué)距離。
[0028][7]根據(jù)上述[I]?[6]的任一方案所述的方法，其中，上述計(jì)算步驟包括以下步驟:
[0029]計(jì)算上述片段的音調(diào)序列和上述關(guān)鍵詞的音調(diào)序列之間的音調(diào)聲學(xué)距離。
[0030][8]根據(jù)上述[7]所述的方法，其中，上述計(jì)算步驟包括以下步驟:
[0031]利用音調(diào)混淆矩陣作為權(quán)重計(jì)算上述片段的音調(diào)序列和上述關(guān)鍵詞的音調(diào)序列之間的音調(diào)聲學(xué)距離。
[0032][9]根據(jù)上述[I]?[8]的任一方案所述的方法，其中，上述計(jì)算步驟包括以下步驟:
[0033]計(jì)算上述片段和上述關(guān)鍵詞的音素序列之間的音素聲學(xué)距離和上述片段和上述關(guān)鍵詞的音調(diào)序列之間的音調(diào)聲學(xué)距離的加權(quán)平均值，作為上述片段和上述關(guān)鍵詞之間的上述聲學(xué)距離。
[0034][10]根據(jù)上述[I]?[9]的任一方案所述的方法，其中，
[0035]上述片段包括上述語音識(shí)別結(jié)果中的詞、相鄰的多個(gè)詞的組合或相鄰的多個(gè)字的組合。
[0036][11]根據(jù)上述[I]?[10]的任一方案所述的方法，其中，
[0037]上述片段的語言模型得分基于與上述片段相關(guān)的詞的語言模型得分計(jì)算。
[0038][12] 一種用于優(yōu)化語音識(shí)別結(jié)果的裝置，包括:
[0039]接收單元，其接收語音識(shí)別結(jié)果；
[0040]計(jì)算單元，其計(jì)算上述語音識(shí)別結(jié)果中的片段和關(guān)鍵詞列表中的關(guān)鍵詞之間的發(fā)音相似度；以及
[0041]替換單元，其在上述發(fā)音相似度高于第I閾值的情況下，將上述片段替換為上述關(guān)鍵詞。
[0042]上述方案[12]的用于優(yōu)化語音識(shí)別結(jié)果的裝置，通過關(guān)鍵詞列表對(duì)語音識(shí)別結(jié)果中被錯(cuò)誤識(shí)別的關(guān)鍵詞進(jìn)行優(yōu)化，能夠提高語音識(shí)別結(jié)果的質(zhì)量，改善語音識(shí)別系統(tǒng)，尤其是會(huì)議支援系統(tǒng)的性能。上述方案[12]的裝置不涉及對(duì)語音識(shí)別引擎的修改，功能實(shí)現(xiàn)非常容易，計(jì)算量非常小，使用方便，添加或更改關(guān)鍵詞只需修改對(duì)應(yīng)的關(guān)鍵詞列表文件。
[0043][13]根據(jù)上述[12]所述的裝置，其中，
[0044]上述替換單元，在上述發(fā)音相似度高于上述第I閾值且上述片段的語言模型得分低于第2閾值的情況下，將上述片段替換為上述關(guān)鍵詞。
[0045]上述方案[13]的裝置通過僅對(duì)語言模型得分低的片段進(jìn)行替換，能夠提高替換的正確率。另外，由于語言模型得分是利用語音識(shí)別結(jié)果中已有的數(shù)據(jù)，因此計(jì)算量非常小。
[0046][14]根據(jù)上述[12]或[13]所述的裝置，其中，
[0047]上述計(jì)算單元，計(jì)算上述語音識(shí)別結(jié)果中的語言模型得分低于第2閾值的片段和上述關(guān)鍵詞列表中的關(guān)鍵詞之間的發(fā)音相似度。
[0048]上述方案[14]的裝置通過

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4