專利名稱:一種特定人語音識別的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機軟件技術(shù)領(lǐng)域,特別涉及一種嵌入式環(huán)境下的特定人語音識別軟件應(yīng)用技術(shù)。
背景技術(shù):
如今,隨著信息技術(shù)的高速發(fā)展,越來越多的智能技術(shù)被廣泛應(yīng)用到家用電器及其它設(shè)備上。智能,可以說是未來家電的發(fā)展趨勢,近些年,智能家電在我們身邊隨處可見,如可上網(wǎng)的電視等等,可智能控溫、自動調(diào)速的空調(diào)等等,在市場場上已不鮮見。語音識別亦是一種重要的智能技術(shù),越來越多地應(yīng)用到各種設(shè)備中。語音識別是一門交叉學(xué)科,近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場,它已逐漸進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。蘋果公司的iPhone4S采用的Siri語音控制功能則是成功的代表之作。語音識別所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準則及模型訓(xùn)練技術(shù)三個方面。這樣做的缺點在于:當(dāng)發(fā)音不準確,或用戶帶有各種口音,或在外界干擾較強的環(huán)境下使用時,語音識別弓I擎往往會給出錯誤識別,大大降低了用戶的使用體驗,給用戶帶來困擾和不便。
發(fā)明內(nèi)容
本發(fā)明的目的在于:針對上述問題,本發(fā)明提供一種特定人語音識別的方法,能有效避免語音識別引擎的拒絕 識別,提高準確度和二次識別率,給帶各種口音的用戶或在外界干擾較大環(huán)境中使用的用戶帶來方便。本發(fā)明目的通過下述技術(shù)方案來實現(xiàn):一種特定人語音識別的方法,包括以下步驟:
步驟1、預(yù)先定義一個語音數(shù)據(jù)緩存和一個基準語音數(shù)據(jù)庫;
步驟2、語音信號采集模塊采集語音數(shù)據(jù);
步驟3、送入語音信號識別引擎;
步驟4、進行步驟3的同時,將原始語音數(shù)據(jù)存入語音數(shù)據(jù)緩存;
步驟5、搜尋基準語音數(shù)據(jù)庫,判斷是否已有基準語音數(shù)據(jù),若是,進行步驟7 ;若否,進行步驟6 ;
步驟6、利用語音信號識別引擎結(jié)果初始化基準語音數(shù)據(jù);
步驟7、根據(jù)不同的語音信號識別引擎結(jié)果選擇相應(yīng)的處理方式進行處理;
步驟8、特定人多次發(fā)出同一識別詞,迭代步驟2、3、4、5、6、7,不斷更新基準語音數(shù)據(jù),使其趨于最優(yōu)。具體的,步驟3中,語音信號識別引擎的結(jié)果附帶識別因子,識別因子表示語音數(shù)據(jù)與引擎內(nèi)部包括文字、聲學(xué)模型之類的資源文件的相似度。具體的,步驟3中,語音信號識別引擎的結(jié)果附帶聲學(xué)特征。具體的,步驟I中,基準語音數(shù)據(jù)庫內(nèi)的基準語音數(shù)據(jù)對應(yīng)一個識別詞。具體的,步驟I中,基準語音數(shù)據(jù)庫內(nèi)的基準語音數(shù)據(jù)包含原始語音數(shù)據(jù)、其識別因子和聲學(xué)特征。具體的,步驟6中,初始化基準語音數(shù)據(jù),按照以下規(guī)則進行:
1)若語音信號識別引擎的結(jié) 果正確,則將其識別因子、聲學(xué)特征和語音信號緩存中的該原始語音數(shù)據(jù)作為基準語音數(shù)據(jù);
2)若語音信號識別引擎的結(jié)果錯誤,則舍棄語音數(shù)據(jù)緩存中的數(shù)據(jù),再次輸入語音信號,回到步驟2,直到得到正確結(jié)果。具體的,步驟7,具體按以下進行:
1)對于語音信號的識別引擎的結(jié)果正確的,比較語音識別引擎結(jié)果的識別因子與其對應(yīng)的基準語音數(shù)據(jù)的識別因子,識別因子高的作為新的基準語音數(shù)據(jù);
2)對于語音信號的識別引擎的結(jié)果錯誤的,計算該原始語音數(shù)據(jù)與基準語音數(shù)據(jù)的原始語音數(shù)據(jù)相關(guān)系數(shù),然后,進行識別結(jié)果修復(fù)。再進一步的,進行識別結(jié)果修復(fù)的規(guī)則如下:
O如其相關(guān)系數(shù)大于90%,則修正識別結(jié)果為正確;
2)如其相關(guān)系數(shù)小于90%,則識別結(jié)果仍判定為錯誤。本發(fā)明的有益效果:基準語音數(shù)據(jù)中包含聲學(xué)特征,方便尋找,提高了尋找速度。擇優(yōu)保留原始語音數(shù)據(jù),不斷的更新?lián)收Z音數(shù)據(jù)庫,提高了特定人語音識別效率,降低了語音誤識拒識度,并且隨著用戶使用次數(shù)的增多,識別準確度和效率越來越高,很好地提升了用戶的體驗效果。
具體實施例方式下列非限制性實施例用于說明本發(fā)明。本發(fā)明中的一種特定人語音識別的方法,下面對本方法的每一個步驟一一說明。步驟1、首先預(yù)先定義一個語音數(shù)據(jù)緩存和一個基準語音數(shù)據(jù)庫。其中,語音數(shù)據(jù)緩存用于保留原始語音數(shù)據(jù),方便后面操作的調(diào)用;基準語音數(shù)據(jù)庫作為再次識別的判別標(biāo)準,一個基準語音數(shù)據(jù)對應(yīng)一個識別詞,并且包含原始語音數(shù)據(jù)、聲學(xué)特征和識別因子。步驟2、特定人讀出識別庫內(nèi)的識別詞,發(fā)出語音信號,然后,語音信號采集模塊采集語音數(shù)據(jù)。語音信號采集模塊用于采集語音信號和對采集到的語音信號進行預(yù)處理,首先通過放大器,放大語音信號,然后,將模擬語音信號采樣編碼,形成數(shù)字信號,再進行濾波處理,消除雜音,對語音信號進行分幀和加窗處理,方便后面的語音特征提取和語音識別。步驟3、將原始語音信號存入語音數(shù)據(jù)緩存,等待步驟7的處理。步驟4、在進行步驟3的同時進行,送入語音信號識別引擎。在語音信號識別引擎內(nèi)部,先進行語音聲學(xué)特征提取,雖然語音信號已經(jīng)具有其區(qū)別于其它的所有特征,但提取語音聲學(xué)特征可以大大的減少計算量,進行更加精準的識別。再進行語音模板訓(xùn)練,提高模板識別率。然后,進行模式匹配,將語音信號與內(nèi)部語音模板進行對比,給待識別語音與語音模板的相似度評分,從而得到識別因子。最后根據(jù)模式匹配的相似度評分,進行識別判決,得到識別結(jié)果。識別結(jié)果附帶聲學(xué)特征和識別因子,一起輸出。步驟5、根據(jù)每個識別詞的聲學(xué)特征搜尋基準語音數(shù)據(jù)庫,判斷是否已有基準語音數(shù)據(jù)。若是,進行步驟7;若否,進行步驟6。步驟6、利用語音信號識別引擎結(jié)果初始化基準語音數(shù)據(jù),按照以下規(guī)則進行:
1)若語音信號識別引擎的結(jié)果正確,則將其識別因子、聲學(xué)特征和語音信號緩存中的該原始語音數(shù)據(jù)作為基準語音數(shù)據(jù);
2)若語音信號識別引擎的結(jié)果錯誤,則舍棄語音數(shù)據(jù)緩存中的數(shù)據(jù),再次輸入語音信號,回到步驟2,直到得到正確結(jié)果。步驟7、根據(jù)不同的語音識別引擎結(jié)果選擇相應(yīng)的處理方式進行處理,從而優(yōu)化基準數(shù)據(jù)庫或修復(fù)識別結(jié)果,提高系統(tǒng)的識別率,具體按以下進行:
1)對于語音信號的識別引擎的結(jié)果正確的,以采集到的語音數(shù)據(jù)的聲學(xué)特征和基準語音數(shù)據(jù)的聲學(xué)特征為對象,采用語音識別引擎所用的語音模式匹配方法,在基準語音數(shù)據(jù)庫尋找到對應(yīng)基準語音數(shù)據(jù),然后,比較語音識別引擎結(jié)果的識別因子與其對應(yīng)的基準語音數(shù)據(jù)的識別因子,識別因子高的作為新的基準語音數(shù)據(jù);
2)對于語音信號的識別引擎的結(jié)果錯誤的,計算該原始語音數(shù)據(jù)與對應(yīng)基準語音數(shù)據(jù)的原始語音數(shù)據(jù)相關(guān)系數(shù),公式如下:
權(quán)利要求
1.一種特定人語音識別的方法,包括以下步驟: 步驟1、預(yù)先定義一個語音數(shù)據(jù)緩存和一個基準語音數(shù)據(jù)庫; 步驟2、語音信號采集模塊采集特定人發(fā)出的識別詞的語音數(shù)據(jù); 步驟3、送入語音信號識別引擎; 步驟4、進行步驟3的同時,將原始語音數(shù)據(jù)存入語音數(shù)據(jù)緩存; 步驟5、搜尋基準語音數(shù)據(jù)庫,判斷是否已有基準語音數(shù)據(jù),若是,進行步驟7 ;若否,進行步驟6 ; 步驟6、利用語音信號識別引擎結(jié)果初始化基準語音數(shù)據(jù); 步驟7、根據(jù)不同的語音信號識別引擎結(jié)果選擇相應(yīng)的處理方式進行處理; 步驟8、特定人多次發(fā)出同一識別詞,迭代步驟2、3、4、5、6、7,不斷更新基準語音數(shù)據(jù),使其趨于最優(yōu)。
2.如權(quán)利要求1所述的一種特定人語音識別的方法,其特征在于:所述語音信號識別引擎結(jié)果附帶識別因子,識別因子表示語音數(shù)據(jù)與引擎內(nèi)部包括文字、聲學(xué)模型之類的資源文件的相似度。
3.如權(quán)利要求1或2所述的一種特定人語音識別的方法,其特征在于:所述語音信號識別引擎的結(jié)果附帶聲學(xué)特征。
4.如權(quán)利要求1所述的一種特定人語音識別的方法,其特征在于:所述基準語音數(shù)據(jù)庫內(nèi)的一個基準語音數(shù)據(jù)對應(yīng)一個識別詞。
5.如權(quán)利要求1或4所述的一種特定人語音識別的方法,其特征在于:所述基準語音數(shù)據(jù)庫內(nèi)的基準語音數(shù)據(jù)包含原始語音數(shù)據(jù)、識別因子和聲學(xué)特征。
6.如權(quán)利要求4所述的一種特定人語音識別的方法,其特征在于:所述初始化基準語音數(shù)據(jù),按照以下規(guī)則進行: 1)若語音信號識別引擎的結(jié)果正確,則將其識別因子、聲學(xué)特征和語音信號緩存中的該原始語音數(shù)據(jù)作為基準語音數(shù)據(jù); 2)若語音信號識別引擎的結(jié)果錯誤,則舍棄語音數(shù)據(jù)緩存中的數(shù)據(jù),再次輸入語音信號,回到步驟2,直到得到正確結(jié)果。
7.如權(quán)利要求1所述的一種特定人語音識別的方法,其特征在于:步驟7,具體按以下進行: 1)對于語音信號的識別引擎的結(jié)果正確的,比較語音識別引擎結(jié)果的識別因子與其對應(yīng)的基準語音數(shù)據(jù)的識別因子,識別因子高的作為新的基準語音數(shù)據(jù); 2)對于語音信號的識別引擎的結(jié)果錯誤的,計算該原始語音數(shù)據(jù)與基準語音數(shù)據(jù)的原始語音數(shù)據(jù)相關(guān)系數(shù),然后,進行識別結(jié)果修復(fù)。
8.如權(quán)利要求7所述的一種特定人語音識別的方法,其特征在于:所述進行識別結(jié)果修復(fù)的規(guī)則如下: 1)如其相關(guān)系數(shù)大于90%,則修正識別結(jié)果為正確; 2)如其相關(guān)系數(shù)小于90% ,則識別結(jié)果仍判定為錯誤。
全文摘要
本發(fā)明公開了一種特定人語音識別方法,其特征在于預(yù)先定義一個語音數(shù)據(jù)緩存和一個基準語音數(shù)據(jù)庫,將原始語音信號存入語音數(shù)據(jù)緩存,同時送入語音信號識別引擎進行處理、識別,得到識別結(jié)果,結(jié)果附帶聲學(xué)特征和識別因子。隨后判斷是否已有基準語音數(shù)據(jù)。對于沒有基準語音數(shù)據(jù)的,利用語音信號識別引擎結(jié)果初始化基準語音數(shù)據(jù);對于已有基準語音數(shù)據(jù)的,根據(jù)不同的語音識別引擎結(jié)果選擇相應(yīng)的處理方式進行處理,從而更新基準語音數(shù)據(jù)或者修正語音識別引擎的識別結(jié)果。最后特定人多次發(fā)出同一識別詞,迭代使用前面所訴步驟,不斷更新基準語音數(shù)據(jù),使其趨于最優(yōu)。本發(fā)明的有益效果在于提高了特定人語音識別效率,降低了語音誤識拒識度,并且隨著用戶使用次數(shù)的增多,基準語音數(shù)據(jù)庫內(nèi)的基準語音數(shù)據(jù)越來越可靠,識別準確度和效率越來越高,很好地提升了用戶的體驗效果。
文檔編號G10L15/10GK103236261SQ20131011149
公開日2013年8月7日 申請日期2013年4月2日 優(yōu)先權(quán)日2013年4月2日
發(fā)明者吳桐 申請人:四川長虹電器股份有限公司