專利名稱::一種漢語語音識別可信度特征值的計算方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種計算機(jī)語音識別可信度特征值的計算方法,屬于計算機(jī)語音識別
技術(shù)領(lǐng)域:
。
背景技術(shù):
:在語音識別中,由于環(huán)境噪聲以及個人發(fā)音變化的影響,系統(tǒng)輸入的語音常常出現(xiàn)不同質(zhì)量的差別,對于質(zhì)量較低的語音,識別的正確率也往往較低,如果將這些識別錯誤的結(jié)果作為系統(tǒng)的輸出,會大大降低系統(tǒng)的可應(yīng)用性。例如在手機(jī)語音撥號的功能中,往往可能由于環(huán)境噪聲比較大導(dǎo)致識別錯誤,繼而識別的人名不是用戶實際需要呼叫的,如果系統(tǒng)使用這個識別結(jié)果進(jìn)行呼叫,會導(dǎo)致大量的誤撥號發(fā)生,同時也會耗費用戶寶貴的時間,降低用戶體驗。因此,需要對識別結(jié)果進(jìn)行可信度評測,以決定是接受該識別結(jié)果還是讓用戶重新確認(rèn),這就是可信度衡量。目前可信度衡量的常用方法是,對各種可信度有效特征的特征值按照一定的方式進(jìn)行計算,可信度有效特征的特點是能夠明顯地將正確識別結(jié)果和錯誤識別結(jié)果進(jìn)行區(qū)分。目前已有的可信度有效特征包括基于歸一化似然度、基于N最佳候選,基于假設(shè)密度,基于段長、基于語言模型以及基于后驗概率的特征等。這些可信度有效特征的特征值的計算方法存在計算復(fù)雜度高、需要開發(fā)集、依賴具體的語音和語言模型等缺點。
發(fā)明內(nèi)容本發(fā)明的目的是提出一種語音識別可信度特征值的計算方法,以簡化計算過程,減少對開發(fā)集、語音模型以及語言模型的依賴。本發(fā)明提出的計算機(jī)語音識別可信度特征值的計算方法,包括以下各步驟-(1)記錄標(biāo)識每幀語音的最佳候選隱馬爾可夫模型的三音子,將三音子構(gòu)成一個原始三音子序列,表示為H={/I,,Z'=1,2".,S},其中i為語音幀的序號,S為被識別語音的總幀數(shù);(2)將語音識別結(jié)果的可信度特征值設(shè)為零,記錄標(biāo)識語音識別結(jié)果的識別三音子序列,表示為==1,2,...,"},其中y為識別三音子序列中的三音子序號,"為識別三音子序列中三音子的個數(shù);(3)根據(jù)上述識別三音子序列,獲取與序列中每個三音子相對應(yīng)的起始語音幀的序號和結(jié)束語音幀的序號,并將起始幀和結(jié)束幀的幀序號分別表示為(4)根據(jù)上述三音子。的起始幀號和結(jié)束幀號,從上述原始三音子序列中獲取與三音子(相對應(yīng)的子序列,依次將子序列中的所有三音子的中心基元與識別三音子序列中的三音子r,的中心基元進(jìn)行比較,若子序列中所有三音子的中心基元都與三音子r,的中心基元不相等,則上述可信度特征值加l;(5)重復(fù)步驟(4),直至遍歷識別三音子序列中所有三音子,得到可信度特征值。本發(fā)明提出的漢語語音識別可信度特征值的計算方法,具有如下的優(yōu)點1、本發(fā)明計算方法中,僅需要記錄每幀語音識別的最佳隱馬爾可夫模型,并根據(jù)識別三音子序列進(jìn)行比對,計算量小,計算速度快。2、本發(fā)明計算方法不需要使用開發(fā)集訓(xùn)練特定模型計算可信度,因此實現(xiàn)簡單。3、本方法不受實際語音識別系統(tǒng)中語音模型的限制,因此可用于任何語音模型的語音識別系統(tǒng)。4、用本發(fā)明方法計算得到的可信度特征值可方便地與其它計算方法得到的特征值結(jié)合使用,以獲得更好的語音識別拒識效果,從而提高語音識別系統(tǒng)的魯棒性,使其具有更高的應(yīng)用價值。具體實施例方式本發(fā)明提出的計算機(jī)語音識別可信度特征值的計算方法,包括以下各步驟(1)記錄標(biāo)識每幀語音的最佳候選隱馬爾可夫模型的三音子,將三音子構(gòu)成一個原始三音子序列,表示為H={/2,.,Z'=1,2,...,S},其中i為語音幀的序號,5為被識別語音的總幀數(shù);(2)將語音識別結(jié)果的可信度特征值設(shè)為零,記錄標(biāo)識語音識別結(jié)果的識別三音子序列,表示為/={^,7=1,2,...,"},其中/為識別三音子序列中的三音子序號,"為識別三音子序列中三音子的個數(shù);(3)根據(jù)上述識別三音子序列,獲取與序列中每個三音子相對應(yīng)的起始語音幀的序號和結(jié)束語音幀的序號,并將起始幀和結(jié)束幀的幀序號分別表示為/;',/e';(4)根據(jù)上述三音子/;的起始幀號和結(jié)束幀號,從上述原始三音子序列中獲取與三音子r,相對應(yīng)的子序列,依次將子序列中的所有三音子的中心基元與識別三音子序列中的三音子r,的中心基元進(jìn)行比較,若子序列中所有三音子的中心基元都與三音子C的中心基元不相等,則上述可信度特征值加l;(5)重復(fù)步驟(4),直至遍歷識別三音子序列中所有三音子,得到可信度特征值。本發(fā)明方法可以用于基于三音子的語音識別系統(tǒng)中,也可以擴(kuò)展到基于雙音子、單音子的其他語音識別系統(tǒng)中。在基于三音子的語音識別系統(tǒng)中,識別結(jié)果可以表示成三音子的序列,稱為識別三音子序列,表示為i,i中的每個三音子表示了普通話中的某一個聲母或韻母。同時跟蹤每幀語音的識別過程,可以獲取每幀語音的最佳隱馬爾可夫模型,一個模型對應(yīng)一個三音子,因此每幀語音的識別結(jié)果構(gòu)成一個三音子序列,稱為原始三音子序列,表示成H。對于識別三音子序列中的每個三音子,是被識別語音的一段語音,即對許多幀語音進(jìn)行識別后得到的綜合結(jié)果。因此,識別三音子序列中的每個三音子對應(yīng)于原始三音子序列中的一個子序列。這種對應(yīng)關(guān)系即為識別結(jié)果的時間對準(zhǔn)信息。針對識別三音子序列中的一個三音子^(其中/表示三音子在識別結(jié)果序列中的序號),根據(jù)時間對準(zhǔn)信息找出該三音子在原始三音子序列中對應(yīng)的子序列//,.,其中!'是與上述三音子對應(yīng)的序號,如果子序列i/,中的任何一個三音子的中心基元都與5的中心基元不同,貝^,為一個局部不匹配三音子(LocallyMismatchedPhone)?;谶@種判斷原理,在進(jìn)行可信度特征值的計算時,只需要統(tǒng)計一個識別三音子序列中局部不匹配三音子的個數(shù)即可,局部不匹配三音子的數(shù)目越多,就表示識別結(jié)果越不可靠,反之則越可靠。以下介紹具體實施例方式表1實驗數(shù)據(jù)<table>tableseeoriginaldocumentpage5</column></row><table>上述的基準(zhǔn)實驗中使用的是歸一化似然度作為特征計算識別語音可信度,而加入本發(fā)明計算的特征值后的實驗是指,本發(fā)明的特征值與基準(zhǔn)實驗中計算的特征值進(jìn)行結(jié)合得到識別語音可信度??梢钥闯?,加入本發(fā)明的特征值后,等錯誤率由0.252降低到0.204,相對降低了19%,說明了本方法的有效性,同時只增加了很小的計算量。從上述的實施方式可以看出,本發(fā)明的特征值計算是在線進(jìn)行的,不需要預(yù)先使用開發(fā)集訓(xùn)練一個用于計算特征值的模型,而計算也只是通過簡單的統(tǒng)計就可以得到特征值,可見本發(fā)明的方法計算簡單。而且本發(fā)明的置信度特征值計算方法不依賴具體的語音或語言模型。權(quán)利要求1、一種計算機(jī)語音識別可信度特征值的計算方法,其特征在于該方法包括以下各步驟(1)記錄標(biāo)識每幀語音的最佳候選隱馬爾可夫模型的三音子,將三音子構(gòu)成一個原始三音子序列,表示為H={hi,i=1,2,...,s},其中i為語音幀的序號,s為被識別語音的總幀數(shù);(2)將語音識別結(jié)果的可信度特征值設(shè)為零,記錄標(biāo)識語音識別結(jié)果的識別三音子序列,表示為R={rj,j=1,2,...,n},其中j為識別三音子序列中的三音子序號,n為識別三音子序列中三音子的個數(shù);(3)根據(jù)上述識別三音子序列,獲取與序列中每個三音子相對應(yīng)的起始語音幀的序號和結(jié)束語音幀的序號,并將起始幀和結(jié)束幀的幀序號分別表示為(4)根據(jù)上述三音子ri的起始幀號和結(jié)束幀號,從上述原始三音子序列中獲取與三音子ri相對應(yīng)的子序列,依次將子序列中的所有三音子的中心基元與識別三音子序列中的三音子ri的中心基元進(jìn)行比較,若子序列中所有三音子的中心基元都與三音子ri的中心基元不相等,則上述可信度特征值加1;(5)重復(fù)步驟(4),直至遍歷識別三音子序列中所有三音子,得到可信度特征值。全文摘要本發(fā)明涉及一種計算機(jī)語音識別可信度特征值的計算方法,屬于計算機(jī)語音識別
技術(shù)領(lǐng)域:
。首先記錄標(biāo)識每幀語音最佳候選隱馬爾可夫模型的三音子并構(gòu)成原始三音子序列,記錄標(biāo)識語音識別結(jié)果的識別三音子序列;針對識別三音子序列,統(tǒng)計這樣的三音子的個數(shù),根據(jù)其時間對準(zhǔn)信息從原始三音子序列中獲取的對應(yīng)的子序列不包含與該三音子中心基元相同的三音子,識別三音子序列中統(tǒng)計的這種三音子的個數(shù),即為特征值。本發(fā)明方法僅需要記錄每幀語音識別的最佳隱馬爾可夫模型,并根據(jù)識別三音子序列進(jìn)行比對,計算量小,計算速度快。本發(fā)明方法實現(xiàn)簡單,可用于任何語音模型的語音識別系統(tǒng),具有很好的語音識別拒識效果。文檔編號G10L15/02GK101393739SQ20081022535公開日2009年3月25日申請日期2008年10月31日優(yōu)先權(quán)日2008年10月31日發(fā)明者軼劉,曹文曉,赤羽誠,方鄭,陳如新,高橋良知申請人:清華大學(xué);索尼電腦娛樂公司