一種語音識別方法和設備的制作方法

文檔序號：2825465閱讀：433來源：國知局

一種語音識別方法和設備的制作方法
【專利摘要】本發(fā)明實施例公開了一種語音識別方法和設備，其中方法包括：獲取用戶指定的文本文件，并按照預定規(guī)則從文本文件中提取命令詞得到命令詞列表；將命令詞列表與命令詞庫相比較，確認命令詞列表中是否包含新命令詞，所述新命令詞為命令詞列表中包含而命令詞庫中不包含的命令詞；如果命令詞列表中包含新命令詞，則根據(jù)新命令詞生成對應的新發(fā)音詞典并訓練得到新語言模型；將新語言模型合并到與命令詞庫對應的語言模型庫中；接收語音，根據(jù)與命令詞庫對應的聲學模型、發(fā)聲詞典和語言模型庫進行語音識別。以上方案，采用在線獲取的命令詞和在線內(nèi)容緊密相關，所以命令詞數(shù)量有限，遠遠小于常用詞匯的數(shù)量，在保證命令詞的高識別率并且模型文件較小。
【專利說明】一種語音識別方法和設備
【技術領域】
[0001]本發(fā)明涉及電學【技術領域】，特別涉及一種語音識別方法和設備。
【背景技術】
[0002]人類利用語言相互交流信息，語言包括:語音和文字兩種表現(xiàn)方式。通過語音相互傳遞信息，是人類最重要的基本功能之一。隨著信息技術的發(fā)展，人與機器之間也需要進行大量的信息交換，目前計算機已經(jīng)開始模擬人類交流信息的過程。
[0003]人類交流信息的過程包括:1、自然語言生成:將大腦產(chǎn)生的思想轉換成語言；2、語音合成:將語言轉換成語音；3、語音識別:識別表達語言的語音內(nèi)容；4、自然語言理解:理解語音所表達的語言意義。其中前兩點是說者執(zhí)行過程，后兩點是聽者執(zhí)行過程。其中，語音識別是上述過程中的“識別表達語言的語音內(nèi)容”，對于設備而言就是:識別人類所說的語音，并將其轉化成文字。以下將就幾個方面對語音識別進行說明。
[0004]一、設備語音識別基本原理:
[0005]語音識別是一種模式識別系統(tǒng)，語音識別包含如下步驟:
[0006]1、語言輸入；
[0007]2、預處理；
[0008]3、特征提取，作為兩個分支分別進入4的訓練類聚以及5?7的識別操作；
[0009]4、訓練類聚得到模板庫；
[0010]5、使用模板庫的參考模式執(zhí)行相似度比較；
[0011]6、執(zhí)行識別過程中對5中結果進行失真檢測，然后進入7 ；
[0012]7、輸出識別結果。
[0013]其中，預處理部分包括語音信號的采樣、濾波等處理，特征提取的作用是從語音信號中提取出幾組能描述其信號特征的參數(shù)，如能量、共振峰、倒譜系數(shù)等，以便于訓練和識另O。建立語音識別系統(tǒng)的過程是，先用大量語音進行訓練得到模板庫，然后讀取模板庫的模板，和待識別語音進行相似度比較，得到識別結果。
[0014]以下對本申請文件提到的名詞說明如下:
[0015]訓練(Training):預先分析出語音特征參數(shù),制作語音模板(Template)并存放在語音參數(shù)庫中，模板也可以叫做模型，主要有兩種模型:聲學模型(AM，acoustic model)和語言模型(LM，language model)。聲學模型用以從聲音信號中識別出“音”，而語言模型用以把音轉換成“字”。
[0016]識別(Recognition):待識語音經(jīng)過與訓練時相同的分析，得到語音參數(shù)，將它與庫中的參考模板一一比較，并采用判決的方法找出最接近語音特征的模板，得出識別結果，這里的識別結果表現(xiàn)為文字的形式。
[0017]失真測度(Distortion Measures):在進行比較時要有個標準,這就是計量語音特征參數(shù)矢量之間的“失真測度”。失真測度是語音識別過程中的比較，失真測度的計算公式有多種，例如:計算語音特征參數(shù)矢量之間的距離，更具體地:語音特征參數(shù)矢量A(xl，yl)和語音特征參數(shù)矢量B (x2,y2)間的失真測度
【權利要求】
1.一種語音識別方法，其特征在于，包括: 獲取用戶指定的文本文件，并按照預定規(guī)則從文本文件中提取命令詞得到命令詞列表; 將命令詞列表與命令詞庫相比較，確認命令詞列表中是否包含新命令詞，所述新命令詞為命令詞列表中包含而命令詞庫中不包含的命令詞；如果命令詞列表中包含新命令詞，則根據(jù)新命令詞生成對應的新發(fā)音詞典并訓練得到新語目模型；將新語言模型合并到與命令詞庫對應的語言模型庫中；接收語音，根據(jù)與命令詞庫對應的聲學模型、發(fā)聲詞典和語言模型庫進行語音識別。
2.根據(jù)權利要求1所述方法，其特征在于，所述獲取用戶指定的文本文件包括:從用戶輸入的指定地址獲取文本文件，或者，獲取用戶輸入的文本文件。
3.根據(jù)權利要求1所述方法，其特征在于，所述按照預定規(guī)則從文本文件中提取命令詞得到命令詞列表包括: 讀取文本文件的內(nèi)容，并對其進行分詞；然后按照預定規(guī)則從分詞結果中選擇命令詞得到命令詞列表。
4.根據(jù)權利要求1至3任意一項所述方法，其特征在于，所述方法還包括: 通過所述語音識別獲得語音識別的結果，確定所述語音識別的結果是否為預設標志命令詞；若所述語音識別的結果為預設標志命令詞，則獲取所述預設標志命令詞對應的文本文件；否則執(zhí)行語音識別的結果對應的操作。
5.根據(jù)權利要求1至3任意一項所述方法，其特征在于，在語音識別完成后，所述方法還包括: 確定所述用戶指定的文本文件是否發(fā)生變化；若所述用戶指定的文本文件發(fā)生變化，則獲取發(fā)生變化后的文本文件；否則執(zhí)行語音識別的結果對應的操作。
6.一種語音識別方法，其特征在于，包括: 接收語音，并依據(jù)與命令詞庫對應的聲學模型、發(fā)聲詞典和語言模型庫進行語音識別得到語音識別的結果；若語音識別的結果為預設標志命令詞，則獲取所述預設標志命令詞對應的文本文件；若語音識別的結果不是預設標志命令詞，則執(zhí)行語音識別的結果對應的操作；按照預定規(guī)則從所述預設標志命令詞對應的文本文件中提取命令詞得到命令詞列表; 將命令詞列表與命令詞庫相比較，確認命令詞列表中是否包含新命令詞，所述新命令詞為命令詞列表中包含而命令詞庫中不包含的命令詞；如果命令詞列表中包含新的命令詞，則根據(jù)新命令詞生成對應的新發(fā)音詞典并訓練得到新語言模型；將新語言模型合并到與命令詞庫對應的語言模型庫中。
7.根據(jù)權利要求6所述方法，其特征在于，所述獲取所述預設標志命令詞對應的文本文件包括:從所述預設標志命令詞對應的地址獲取文本文件，或者，獲取所述預設標志命令詞對應的用戶輸入的文本文件。
8.一種語音識別設備，其特征在于，包括:文本獲取單元，用于獲取用戶指定的文本文件；列表生成單元，用于按照預定規(guī)則從文本獲取單元獲取的文本文件中提取命令詞得到命令詞列表；確定單元，用于將列表生成單元得到的命令詞列表與命令詞庫相比較，確認命令詞列表中是否包含新命令詞，所述新命令詞為命令詞列表中包含而命令詞庫中不包含的命令詞；訓練生成單元，用于如果確定單元確定結果為:命令詞列表中包含新命令詞，則根據(jù)新命令詞生成對應的新發(fā)音詞典并訓練得到新語言模型；將新語言模型合并到與命令詞庫對應的語言模型庫中；語音接收單元，用于接收語音；識別單元，用于根據(jù)與命令詞庫對應的聲學模型、發(fā)聲詞典和語言模型庫對語音接收單元接收的語音進行語音識別。
9.根據(jù)權利要求8所述設備，其特征在于，所述文本獲取單元，具體用于獲取用戶指定的文本文件包括:從用戶輸入的指定地址獲取文本文件，或者，獲取用戶輸入的文本文件。
10.根據(jù)權利要求8所述設備，其特征在于，所述列表生成單元，具體用于讀取文本文件的內(nèi)容，并對其進行分詞；然后按照預定規(guī)則從分詞結果中選擇命令詞得到命令詞列表。
11.根據(jù)權利要求8至10任意一項所述設備，其特征在于，` 所述確定單元，還用于在識別單元進行語音識別完成后，確定語音識別的結果是否為預設標志命令詞；所述文本獲取單元，還用于若確定單元確定結果為預設標志命令詞，則獲取所述預設標志命令詞對應的文本文件；執(zhí)行單元，用于若確定單元確定結果為不是預設標志命令詞，則執(zhí)行語音識別的結果對應的操作。
12.根據(jù)權利要求8至10任意一項所述設備，其特征在于，所述確定單元，還用于在語音識別完成后，確定所述用戶指定的文本文件是否發(fā)生變化；所述文本獲取單元，還用于若確定單元確定所述用戶指定的文本文件發(fā)生變化，則獲取發(fā)生變化后的文本文件；執(zhí)行單元，用于若確定單元確定所述用戶指定的文本文件未發(fā)生變化，則執(zhí)行語音識別的結果對應的操作。
13.一種語音識別設備，其特征在于，包括: 語音接收單元，用于接收語音；識別單元，用于依據(jù)與命令詞庫對應的聲學模型、發(fā)聲詞典和語言模型庫對語音接收單元接收的語音進行語音識別得到語音識別的結果；確定單元，用于確定識別單元得到的語音識別的結果是否為預設標志命令詞；文本獲取單元，用于若確定單元確定語音識別的結果為預設標志命令詞，則獲取所述預設標志命令詞對應的文本文件；執(zhí)行單元，用于若確定單元確定語音識別的結果不是預設標志命令詞，則執(zhí)行語音識別的結果對應的操作；列表生成單元，用于按照預定規(guī)則從所述預設標識命令詞對應的文本文件中提取命令詞得到命令詞列表；所述確定單元，還用于將將列表生成單元得到的命令詞列表與命令詞庫相比較，確認命令詞列表中是否包含新命令詞，所述新命令詞為命令詞列表中包含而命令詞庫中不包含的命令詞；訓練生成單元，用于如果確定單元確定命令詞列表中包含新命令詞，則根據(jù)新命令詞生成對應的新發(fā)音詞典并訓練得到新語言模型；將新語言模型合并到與命令詞庫對應的語言模型庫中。
14.根據(jù)權利要求13所述設備，其特征在于，所述文本獲取單元，具體用于若確定單元確定語音識別的結果為預設標志命令詞，則從所述預設標志命令詞對應的地址獲取文本文件，或者，獲取所述預設標志命令詞對應的用戶輸入的文本文件。
【文檔編號】G10L15/08GK103680498SQ201210363804
【公開日】2014年3月26日申請日期:2012年9月26日優(yōu)先權日:2012年9月26日
【發(fā)明者】劉長娥, 張德明申請人:華為技術有限公司

完整全部詳細技術資料下載