專利名稱:聲音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及傳輸系統(tǒng)等中抗噪聲和失真干擾的聲音識別系統(tǒng)。
背景技術(shù):
在傳統(tǒng)技術(shù)中,在例如包含在汽車中的導(dǎo)航儀器等那樣的電子設(shè)備中,能夠進行人機通信的聲音識別系統(tǒng)已經(jīng)引起人們注意。如圖3所示,根據(jù)信息處理算法構(gòu)成的聲音識別系統(tǒng)是眾所周知的。
聲音識別系統(tǒng)首先利用隱式馬爾可夫模型(Hidden Markov Model,HMM)生成由字或子字(音素、音節(jié)等)組成的聲學(xué)模型(聲音HMM),當(dāng)發(fā)出要識別的聲音Ra時生成相對于講話聲音Ra而言是倒頻譜的時間序列的觀察值序列Ra(cep),將觀察值序列Ra(cep)與聲音HMM相對照,選擇給出最大似然的聲音HMM,并輸出它作為識別結(jié)果。
更詳細(xì)地說,聲音識別系統(tǒng)配置了遵照HMM方法生成上述聲音HMM的聲音HMM生成部分5,該聲音HMM生成部分5包括聲音數(shù)據(jù)庫1、逐幀分割單元2、倒頻譜運算單元3、和練習(xí)(training)單元4。
逐幀分割單元2將已經(jīng)經(jīng)過實驗采集的和存儲在聲音數(shù)據(jù)庫1中的、測試對象的大量聲音數(shù)據(jù)劃分成每一個由10至20msec左右組成的幀,倒頻譜運算單元3運算各個用倒頻譜表示的逐幀數(shù)據(jù),從而獲得倒頻譜的時間序列Rm(cep)。
接著,練習(xí)單元4進行處理,以練習(xí)作為聲音的特征(特征矢量)的倒頻譜的時間序列Rm(cep),并使其反映到聲學(xué)模型(聲音HMM)的參數(shù)上,從而事先生成由字或子字組成的聲音HMM6。
當(dāng)真正進行講話時,逐幀分割單元7象逐幀分割單元2那樣,將講話聲音的數(shù)據(jù)Ra劃分成供輸入用的幀,倒頻譜運算單元8一個接著一個地運算各個逐幀講話聲音數(shù)據(jù),從而生成作為倒頻譜時間序列的觀察值序列Ra(cep)。
并且,對照單元9將觀察值序列Ra(cep)與用字或子字表示的聲音HMM相對照,輸出與觀察值序列Ra(cep)相比具有最大似然的聲音HMM,作為聲音識別的結(jié)果。
然而,在圖3所示的聲音識別系統(tǒng)中,當(dāng)采集聲音數(shù)據(jù)Rm以生成聲音HMM6時,會采集已經(jīng)受到麥克風(fēng)和電子傳輸系統(tǒng)中受可積性失真影響的聲音數(shù)據(jù)Rm,而其中的問題在于,難以滿意地生成準(zhǔn)確的聲音HMM6。
另外,當(dāng)發(fā)出要識別的講話聲音Ra時,諸如室內(nèi)噪聲、背景噪聲等的可加性噪聲,和諸如從嘴巴到麥克風(fēng)的空間傳輸特性、麥克風(fēng)和電子傳輸系統(tǒng)中的傳輸特性等的可積性失真,都對觀察值序列Ra(cep)產(chǎn)生負(fù)面影響,其中,這樣的問題在于聲音識別率降低了。
為了解決這些和其它問題,構(gòu)筑幾乎不受可加性噪聲和可積性失真影響的聲音識別系統(tǒng),即,抗干擾聲音識別系統(tǒng)是基本課題。
為了對付上述題目,本發(fā)明已經(jīng)作了嘗試,通過將HMM合成法應(yīng)用于可加性噪聲和將倒頻譜平均歸一化法(cepstrum means normalization method,CMN)應(yīng)用于可積性失真,實現(xiàn)抗干擾聲音識別系統(tǒng)。
圖4是顯示聲音識別系統(tǒng)結(jié)構(gòu)的方塊圖。聲音識別系統(tǒng)配置了聲音HMM10、初始噪聲HMM17、初始合成HMM16和自適應(yīng)HMM26,其中,當(dāng)發(fā)出要識別的聲音時,由對照單元29以字或子字為單位將已經(jīng)通過發(fā)出的聲音獲得的、作為倒頻譜時間序列的觀察值序列RNa(cep)與自適應(yīng)HMM26相互對照,并輸出相對于觀察值序列RNa(cep)具有最大似然的自適應(yīng)HMM,作為聲音識別的結(jié)果。
并且,由于如果應(yīng)用HMM合成法的話,就會增加計算量,因此,為了通過減少運算量而實現(xiàn)高速處理,應(yīng)用基于泰勒展開的模型自適應(yīng)法。也就是說,通過提供雅可比矩陣計算單元19來試圖減少運算量,雅可比矩陣計算單元19計算所謂“雅可比矩陣J”的泰勒展開一階導(dǎo)數(shù)矩陣。
上述聲音HMM10是通過HMM方法,利用采集的并不包括任何可加性噪聲的講話聲音Rm事先生成的聲學(xué)模型。也就是說,聲音HMM10是通過根據(jù)與圖3所示的聲音HMM生成部分5的方法相似的HMM方法進行處理事先生成的。
此外,通過實驗采集消聲室中測試對象的講話聲音Rm,生成不受可加性噪聲影響的聲音HMM10。但是,由于無法消除麥克風(fēng)和電子傳輸系統(tǒng)等中可積性失真帶來的影響,聲音HMM10成為可積性失真帶來的影響仍然存在的聲學(xué)模型。
因此,在假定經(jīng)實驗采集的講話聲音Rm由純聲音Sm(不包含任何可加性噪聲和可積性失真的聲音)和可積性失真Hm組成的情況下,如果用線性譜域(lin)表示講話聲音Rm,那么,它可以用純聲音Sm與可積性失真Hm相乘所得的線性譜積來表示,即,Rm(lin)=Sm(lin)Hm(lin)。此外,如果用倒頻譜域(cep)表示講話聲音Rm,那么,它可以用純聲音Sm與可積性失真Hm相加所得的倒頻譜和來表示,即,Rm(cep)=Sm(cep)+Hm(cep)。
并且,如果用線性譜域(lin)表示聲音HMM10,那么,它可以用Rm(lin)=Sm(lin)Hm(lin)來表示。而如果用倒頻譜域(cep)表示聲音HMM10,那么,它可以用Rm(cep)=Sm(cep)+Hm(cep)來表示。
上述初始噪聲HMM17是將非講話期間的聲音(對應(yīng)于可加性噪聲)收集起來作為初始噪聲數(shù)據(jù)Nm,并利用初始噪聲數(shù)據(jù)Nm練習(xí)的聲學(xué)模型,初始噪聲HMM17是通過與圖3所示的聲音HMM生成部分5中的處理相似的處理事先生成的。因此,如果用線性譜域(lin)表示初始噪聲HMM17,它就變成Nm(lin),而如果用倒頻譜域(cep)表示初始噪聲HMM17,它就變成Nm(cep)。
初始合成HMM16是通過下列處理生成的。
將倒頻譜域(cep)中的聲音(聲學(xué)模型)Rm(cep)=Sm(cep)+Hm(cep)從聲音HMM10提供到平均計算單元11和減法器12,平均計算單元11通過對用于練習(xí)聲學(xué)模型的聲音數(shù)據(jù)庫中的特征矢量求平均,和利用CMN法對聲音HMM的平均矢量求平均,獲得可積性失真的估計值Hm^(cep),并將其提供給減法器12。因此,在減法器12中進行Rm(cep)-Hm^(cep)的運算,減法器12輸出消除了可積性失真的估計值Hm^(cep)的聲音Sm′(cep)。
這里,通過進行估計值Hm^(cep)幾乎等于可積性失真Hm(cep)的近似,假設(shè)已經(jīng)獲得了排除了任何可積性失真干擾的聲音Sm′(cep)。
接著,倒頻譜逆變換單元13將倒頻譜域中的聲音Sm′(cep)變換成線性譜域中的聲音Sm′(lin),并將其提供給加法器14,同時,倒頻譜逆變換單元13將從初始噪聲HMM17中輸出的、倒頻譜域中的初始噪聲Nm(cep)變換成線性譜域中的初始聲音Nm(lin),并將其提供給加法器14,因而,加法器14通過將聲音Sm′(lin)與線性譜域中的初始噪聲Nm(lin)相加,生成疊加了可加性噪聲的聲音Rm′(lin)=Sm′(lin)+Hm′(lin),并將其提供給倒頻譜變換單元15。
并且,倒頻譜變換單元15將附加了可加性噪聲的聲音Rm′(lin)變換成倒頻譜域中的附加了可加性噪聲的聲音Rm′(cep),并生成初始合成HMM16。
于是,使初始合成HMM16變成具有附加了可加性噪聲的聲音Rm′(cep)的特征的聲學(xué)模型。該聲學(xué)模型表示如下Rm′(cep)=cep[cep-1[Sm(cep)+Hm(cep)-Hm^(cep)]+Nm(lin)]=cep[Sm′(lin)+Nm(lin)]cep[Sm(lin)+Nm(lin)]……(1)此外,在上述表達式中,cep[]表示在倒頻譜變換單元15中實現(xiàn)的倒頻譜變換,和cep-1[]表示由倒頻譜逆變換單元13和18實現(xiàn)的倒頻譜逆變換。
接著,對雅可比矩陣計算單元19加以描述。如上所述,提供雅可比矩陣計算單元19是為了減少計算量。在假設(shè)實際使用環(huán)境中的可加性噪聲Na(cep)與初始噪聲HMM17中的初始噪聲Nm(cep)之間的變化量ΔNm(cep)=Na(cep)-Nm(cep)很微小的情況下,通過泰勒展開獲得合成模型與噪聲譜的變化量ΔNm(cep)相對應(yīng)的變化量,其中,依照獲得的變化量來補償初始合成模型16。并且,使通過補償獲得的聲學(xué)模型變成自適應(yīng)HMM26。
更詳細(xì)地說,線性譜表示如下Rm(lin)=Sm(lin)+Nm(lin) ……(2)此處,Sm(lin)是不包括可積性失真和可加性噪聲的純聲音Sm的線性譜;Rm(lin)是不包括可積性失真,但包括可加性噪聲的聲音Rm的線性譜;和Nm(lin)是可加性噪聲Nm的線性譜。
此外,如果用倒頻譜域中的術(shù)語表示包括可加性噪聲的聲音Rm,那么,下列表達式成立Rm(cep)=IDCT[log(exp(DCT[Sm(cep)])+exp(DCT[Nm(cep)]))]……(3)其中,IDCT[]是離散余弦逆變換,DCT[]是離散余弦變換,log()是對數(shù)變換,和exp()是指數(shù)變換。
假設(shè)純聲音Sm不變化而在實際講話環(huán)境中可加性噪聲在Nm到Na范圍內(nèi)變化,初始合成模型ΔRm(cep)中的變化量,即作為包括Na的聲音的Rmc(cep)和作為包括倒頻譜域中Nm的聲音的Rm(cep)之間的差值,能夠近似地從表達式(3)的泰勒展開的一階導(dǎo)數(shù)項得到,如下面的表達式(4)所示。ΔRm(cep)=∂Rm(cep)∂Nm(cep)ΔNm(cep)=J(ΔNm(cep))......(4)]]>其中Rm(cep)/Nm(cep)是雅可比矩陣,并且ΔNm(cep)=Na(cep)-Nm(cep)是在實際講話環(huán)境中的可加性噪聲與在倒頻譜域中的初始噪聲中的可加性噪聲之間的差值。
表達式(4)還可以如下面的表達式(5)所示來表達。Rmc(cep)=Rm(cep)+∂Rm(cep)∂Nm(cep)(Na(cep)-Nm(cep))]]>=IDCT[log(exp(DCT[Sm(cep)])+exp(DCT[Na(cep)]))] ……(5)雅可比矩陣的第I行和第J列的元素通過下面的表達式(6)來計算。[J]ij=Σk=1pRm'(cep)kNm(cep)kFik-1Fkj......(6)]]>其中Fkj是余弦變換矩陣的第k行第j列的元素,而Fik-1是余弦逆變換矩陣的第i行第k列的元素。
因此,雅可比矩陣計算單元19能夠通過利用從加法器14中接收的在線性譜域中的疊加了可加性噪聲的聲音Rm(lin)和從倒頻譜逆變換單元18接收的在線性譜域中的初始噪聲Nm(lin),依照表達式(6)事先計算出雅可比矩陣。
根據(jù)在實際講話環(huán)境中生成的可加性噪聲可以自適應(yīng)地補償初始合成HMM16。初始合成模型的變化量能夠通過將可加性噪聲之間的變化量ΔNm(cep)與雅可比矩陣J相乘而獲得。因此,可以通過將合成模型中的變化量附加到初始合成模型中生成自適應(yīng)模型。
接著,對生成自適應(yīng)HMM26的處理加以描述。
隨著用戶打開配備在聲音識別系統(tǒng)中的講話開始開關(guān)(未示出),麥克風(fēng)(未示出)采集講話聲音,并且逐幀分割單元20以指定的時間間隔為單位分割講話聲音的數(shù)據(jù)Ra。進一步,倒頻譜運算單元21將數(shù)據(jù)Ra變成倒頻譜域(cep)中的講話聲音數(shù)據(jù)Ra(cep)。
首先,隨著用戶打開上述講話開始開關(guān),轉(zhuǎn)換單元22在實際開始講話之前的非講話期間內(nèi)切換到觸點“a”一側(cè)。因此,在用戶試圖講話的環(huán)境中背景噪聲(可加性噪聲)Na的倒頻譜Na(cep)通過轉(zhuǎn)換單元22提供給減法器23。
減法器23從背景噪聲Na的倒頻譜Na(cep)中減去初始噪聲Nm的倒頻譜Nm(cep),并將相減的結(jié)果Na(cep)-Nm(cep)提供給乘法器24,其中乘法器24將上述相減結(jié)果Na(cep)-Nm(cep)與雅可比矩陣J相乘,并將相乘結(jié)果J[Na(cep)-Nm(cep)]提供給加法器25。加法器25以字或子字為單位將相乘結(jié)果J[Na(cep)-Nm(cep)]加入初始合成HMM16的聲學(xué)模型Rm^(cep)中,從而,生成已經(jīng)得到實際講話環(huán)境中的背景噪聲Na自適應(yīng)補償?shù)淖赃m應(yīng)HMM26。也就是說,如果用倒頻譜域(cep)中的術(shù)語表示自適應(yīng)HMM26,那么,下列表達式成立Radp(cep)=Rm′(cep)+J[Na(cep)-Nm(cep)]cep[Sm(lin)+Na(lin)] ……(7)此外,在表達式(7)中,cep[]表示倒頻譜變換。
因此,當(dāng)生成自適應(yīng)HMM26生成時,轉(zhuǎn)換單元22切換到觸點“b”一側(cè),并輸入要識別的講話聲音Ra,作為倒頻譜域中的講話聲音Ra(cep)。這里,如果假設(shè)講話聲音Ra(cep)包含純聲音Sa、可積性失真Ha、和可加性噪聲Na的線性譜的Sa(lin)、Ha(lin)和Na(lin),那么,倒頻譜域中的講話聲音Ra(cep)表示成Ra(cep)=cep[Sa(lin)Ha(lin)+Na(lin)]
因此,平均計算單元27通過CMN法獲得可積性失真Ha(cep)的估計值Ha^(cep),減法器28從講話聲音Ra(cep)中減去估計值Ha^(cep),其中,將相減的結(jié)果Ra(cep)-Ha^(cep)提供給對照單元29,作為觀察值序列RNa(cep)。
并且,對照單元29以字或子字為單位將觀察值序列RNa(cep)與自適應(yīng)HMM26相對照,并輸出相對于觀察值序列RNa(cep)具有最大似然的自適應(yīng)HMM,作為識別的結(jié)果。也就是說,觀察值序列RNa(cep)可以用下列表達式來表示。
RNa(cep)=Ra(cep)-Ha^(cep)=cep[sa(lin)Ha(lin)Ha^(lin)+Na(lin)Ha^(lin)]]]> 通過將上述表達式(8)所表示的、觀察值序列的特征矢量RNa(cep)與上述表達式(7)所示的自適應(yīng)HMM26 Radp(cep)的那些特征矢量相對照,實現(xiàn)聲音識別。
但是,在如圖4所示的、本發(fā)明人提出的聲音識別系統(tǒng)中,通過將自適應(yīng)HMM26與講話聲音的觀察值序列Radp(cep)相對照,實現(xiàn)聲音識別。然而,問題在于還沒有建立起作為對應(yīng)觀察值序列RNa(cep)的充分模型的自適應(yīng)HMM26。
也就是說,在將上述表達式(7)與上述表達式(8)相比較的情況下,自適應(yīng)HMM 26的特征在于,將可加性噪聲的線性譜Na(lin)加入純聲音的線性譜Sm(lin)當(dāng)中,并將其轉(zhuǎn)換成倒頻譜。但是,觀察值序列RNa(cep)的特征在于,將可加性噪聲的線性譜Na(lin)與可積性失真的線性譜Ha^(lin)之比Na(lin)/Ha^(lin)加入純聲音的線性譜Sm(lin)當(dāng)中,并將其變換倒倒頻譜域中。
因此,自適應(yīng)HMM26不是那種可以完全消除可積性失真帶來的影響的模型。這樣,在對照單元29將自適應(yīng)HMM26與觀察值序列RNa(cep)相對照的情況下,會出現(xiàn)自適應(yīng)HMM26不能完全模仿觀察值序列RNa(cep)的情況。最后,存在著無法提高聲音識別率的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是克服這些和其它問題,為此,提供一種抗可加性噪聲和可積性失真干擾的聲音識別系統(tǒng)。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的聲音識別系統(tǒng)包括聲音模型,從事先采集的和包含可積性失真的聲音中生成;噪聲模型,從事先采集的可加性噪聲中生成;第一估計單元,估計包含在聲音模型中的可積性失真;合成聲音模型,根據(jù)附加了噪聲的聲音生成,所述附加了噪聲的聲音是通過將聲音模型、第一估計單元估計的可積性失真的第一估計值和噪聲模型的可加性噪聲合成在一起的處理獲得的;計算單元,根據(jù)噪聲模型的可加性噪聲和附加了噪聲的聲音計算雅可比矩陣;第二估計單元,估計包含在講話聲音中的可積性失真;第一運算單元,通過將在非講話期間生成的可加性噪聲、噪聲模型的可加性噪聲和第二估計單元估計的可積性失真的第二估計值合成在一起的處理,獲得噪聲變化量,同時將噪聲變化量與計算單元計算的雅可比矩陣相乘;自適應(yīng)模型,通過將第一運算單元獲得的相乘結(jié)果與合成聲音模型合成在一起的處理生成;和第二運算單元,通過將講話聲音、第二估計單元估計的可積性失真的第二估計值合成在一起的處理,生成觀察值序列;其中,聲音識別是通過將觀察值序列與自適應(yīng)模型相對照實現(xiàn)的。
根據(jù)如上所述構(gòu)成的聲音識別系統(tǒng),通過將含有可積性失真的聲音模型、由第一估計單元估計的可積性失真的第一估計值和噪聲模型的可加性噪聲合成在一起的處理,生成附加了噪聲的聲音,并從附加了噪聲的聲音中生成合成聲音模型。
此外,通過將在非講話期間生成的可加性噪聲、噪聲模型的可加性噪聲和第二估計單元估計的噪聲(可積性失真)的第二估計值合成在一起的處理,生成噪聲變化量。
此外,從噪聲模型的可加性噪聲和附加了噪聲的聲音(即,通過將含有可積性失真的聲音模型、由第一估計單元估計的可積性失真的第一估計值和噪聲模型的可加性噪聲合成在一起的處理獲得的聲音)中計算出雅可比矩陣。
通過將噪聲變化量與雅可比矩陣相乘的結(jié)果與合成聲音模型合成在一起的處理,生成自適應(yīng)模型。也就是說,自適應(yīng)模型成為含有合成聲音模型以及噪聲變化量和雅可比矩陣的信息的模型。
當(dāng)發(fā)出聲音時,第二運算單元通過將由第二估計單元估計的可積性失真的第二估計值與包括可積性失真和可加性噪聲的講話聲音合成在一起的處理,生成觀察值序列。
并且,通過將觀察值序列與自適應(yīng)模型相對照,實現(xiàn)聲音識別。
這里,與觀察值序列相對照的自適應(yīng)模型包括與包含在觀察值序列中的噪聲成分相匹配的噪聲成分。因此,如果將上述觀察值序列與自適應(yīng)模型相對照,則可以抵消由噪聲成分帶來的影響,和能產(chǎn)生與將聲音模型的純聲音與發(fā)出的純聲音相對照所得的效果幾乎相同的效果。因此,可以實現(xiàn)抗可積性失真和可加性噪聲干擾的合適聲音識別系統(tǒng)。
此外,為了實現(xiàn)上述目的,根據(jù)本發(fā)明的聲音識別系統(tǒng)包括聲音模型,從事先采集的包含可積性失真的聲音中生成;噪聲模型,從事先采集的可加性噪聲中生成;第一估計單元,估計包含在聲音模型中的可積性失真;第二估計單元,根據(jù)識別結(jié)果,估計包括在聲音模型中的包含根據(jù)講話聲音變化的誤差的可積性失真;第一運算單元,將噪聲模型的可加性噪聲與第一估計單元估計的可積性失真的第一估計值合成在一起;合成聲音模型,根據(jù)通過將第一運算單元的合成結(jié)果與聲音模型合成在一起的處理所得的附加了噪聲的聲音生成;計算單元,從第一運算單元所得的合成結(jié)果和附加了噪聲的聲音中計算雅可比矩陣;第三估計單元,估計包括在講話聲音中的包含根據(jù)講話聲音變化的誤差的可積性失真;第二運算單元,通過將在非講話期間生成的可加性噪聲、第一運算單元所得的合成結(jié)果、第二估計單元估計的包含根據(jù)講話聲音變化的誤差的可積性失真的第二估計值和第三估計單元估計的包含根據(jù)講話聲音變化的誤差的可積性失真的第三估計值合成在一起的處理,獲取噪聲變化量,同時通過計算單元將噪聲變化量與雅可比矩陣相乘;自適應(yīng)模型,通過將第二運算單元獲得的相乘結(jié)果與合成聲音模型合成在一起的處理生成;和第三運算單元,通過將講話聲音與第三估計單元估計的包含根據(jù)講話聲音變化的誤差的可積性失真的第三估計值合成在一起的處理,生成觀察值序列;其中,聲音識別是通過將觀察值序列與自適應(yīng)模型相對照實現(xiàn)的。
根據(jù)如上所述構(gòu)成的聲音識別系統(tǒng),通過將噪聲變化量與雅可比矩陣相乘的結(jié)果與合成聲音模型合成在一起的處理,生成自適應(yīng)模型。也就是說,自適應(yīng)模型成為包括合成聲音模型、噪聲變化量和雅可比矩陣的信息的模型。
并且,當(dāng)發(fā)出聲音時,第三估計單元通過將由第二估計單元估計的可積性失真的第三估計值、由第三估計單元估計的可積性失真的第三估計值和包括可積性失真和可加性噪聲的講話聲音合成在一起的處理,生成觀察值序列,通過將觀察值序列與自適應(yīng)模型相對照,實現(xiàn)聲音識別。
這里,與觀察值序列相對照的自適應(yīng)模型包括與包含在觀察值序列中的噪聲成分相匹配的噪聲成分。因此,如果將上述觀察值序列與自適應(yīng)模型相對照,則可以抵消由噪聲成分帶來的影響,和能產(chǎn)生與將聲音模型的純聲音與發(fā)出的純聲音相對照所得的效果幾乎相同的效果。因此,可以實現(xiàn)抗可積性失真和可加性噪聲干擾的合適聲音識別系統(tǒng)。
圖1是顯示根據(jù)第一實施例的聲音識別系統(tǒng)的結(jié)構(gòu)的方塊圖;圖2是顯示根據(jù)第二實施例的聲音識別系統(tǒng)的結(jié)構(gòu)的方塊圖;圖3是顯示傳統(tǒng)技術(shù)中的聲音識別系統(tǒng)的結(jié)構(gòu)的方塊圖;和圖4是顯示當(dāng)開發(fā)本發(fā)明的聲音識別系統(tǒng)時,本發(fā)明人設(shè)計和研究的聲音識別系統(tǒng)的結(jié)構(gòu)的方塊圖。
具體實施例方式
下面參照附圖,對本發(fā)明的實施例加以描述。此外,圖1是顯示根據(jù)本發(fā)明的聲音識別系統(tǒng)的第一實施例的結(jié)構(gòu)的方塊圖,和圖2是顯示第二實施例的結(jié)構(gòu)的方塊圖。
首先,在描述第一和第二實施例之前,對參考符號加以描述。
假設(shè)用于生成如后所述的聲音HMM10、時間域中的聲音是Rm,用于生成初始噪聲HMM17的在時間域中的可加性噪聲是Nm,和在實際發(fā)出聲音中的時間域中的講話聲音是Ra。
另外,上述聲音Rm是事先采集的,并由可積性失真Hm和不包括噪聲的純聲音Sm組成。此外,講話聲音是Ra由可積性失真Ha、可加性噪聲Na和不包括噪聲的純聲音Sa組成。另外,當(dāng)不發(fā)出聲音時的,諸如室內(nèi)噪聲之類的背景噪聲被稱為Na。
并且,線性譜域中的信息用(lin)表示,倒頻譜域中的信息用(cep)表示。例如,倒頻譜域中初始噪聲HMM17的聲學(xué)模型的標(biāo)記被稱為Nm(cep),線性譜域中初始噪聲HMM17的聲學(xué)模型的標(biāo)記被稱為Nm(lin)。第一實施例現(xiàn)在參照圖1,對第一實施例加以描述。另外,在圖1中,與圖4中相應(yīng)部分相同或相似的那些部分給予相同的標(biāo)號。
聲音識別系統(tǒng)配置了聲音HMM10、初始噪聲HMM17、初始合成HMM16、用于當(dāng)產(chǎn)生時顯著減少運算或計算量的雅可比矩陣計算單元19和自適應(yīng)HMM26,其中,當(dāng)發(fā)出要識別的聲音時,由對照單元29以字或子字為單位將從發(fā)出的聲音獲得的、作為倒頻譜時間序列的觀察值序列RNa(cep)與自適應(yīng)HMM26相對照,并輸出相對于觀察值序列RNa(cep)具有最大似然的自適應(yīng)HMM,作為聲音識別的結(jié)果。
聲音HMM10是通過HMM方法,利用經(jīng)過實驗采集的和不包括可加性噪聲的聲音Rm事先生成的聲學(xué)模型。但是,雖然通過實驗采集消聲室中測試對象的聲音Rm,生成不受可加性噪聲帶來的影響的聲音HMM10,但由于無法消除麥克風(fēng)和電子傳輸系統(tǒng)等中可積性失真帶來的影響,因此,聲音HMM10是可積性失真帶來的影響仍然存在的那一種。
因此,如果用線性譜域(lin)表示聲音HMM10,那么,它可以用純聲音Sm和可積性失真Hm的線性譜Sm(lin)和Hm(lin)的乘積Rm(lin)=Sm(lin)Hm(lin)來表示,并且如果用倒頻譜域(cep)表示聲音HMM10,那么,它可以用純聲音Sm和可積性失真Hm的倒頻譜Sm(cep)和Hm(cep)的和Rm(cep)=Sm(cep)+Hm(cep)來表示。
初始噪聲HMM17是通過上述實驗將非講話期間的聲音(相當(dāng)于可加性噪聲)收集起來作為初始噪聲數(shù)據(jù)Nm,并利用初始噪聲數(shù)據(jù)Nm事先練習(xí)的聲學(xué)模型。因此,如果用線性譜域(lin)表示初始噪聲HMM17,它就變成Nm(lin),而如果用倒頻譜域(cep)表示初始噪聲HMM17,它就變成Nm(cep)。
初始合成HMM16是通過將線性譜域中聲音HMM10的聲學(xué)模型和初始噪聲HMM17的聲學(xué)模型相加,并將相加結(jié)果變換成倒頻譜域中的聲學(xué)模型事先生成的。
也就是說,在發(fā)出實際要識別的聲音之前,將聲音(聲學(xué)模型)Rm(cep)=Sm(cep)+Hm(cep)從聲音HMM10提供到平均計算單元11和減法器12。平均計算單元11利用CMN方法獲得可積性失真Hm(cep)的估計值Hm^(cep),接著,減法器12進行Rm(cep)-Hm^(cep)的運算,從而生成從中消除了可積性失真的估計值Hm^(cep)的聲音Sm′。另外,倒頻譜逆變換單元13將倒頻譜域中的聲音Sm′(cep)變換成線性譜域中的聲音Sm′(lin),同時,倒頻譜逆變換單元18將來自初始噪聲HMM17的、倒頻譜域中的初始噪聲Nm(cep)(初始噪聲的聲學(xué)模型)變換成線性譜域中的初始聲音Nm(lin),和加法器14將線性譜域中的聲音Sm′(lin)與初始噪聲Nm(lin)相加,從而生成附加了可加性噪聲的聲音Rm′(lin)=Sm′(lin)+Nm(lin)。并且,倒頻譜變換單元15將附加了可加性噪聲的聲音Rm′(lin)變換成倒頻譜域中的附加了可加性噪聲的聲音Rm′(cep),其中生成初始合成HMM16。
因此,使初始合成HMM16變成了具有如上述表達式(1)所表示的附加了可加性噪聲的聲音Rm′(cep)的特征的聲學(xué)模型。
雅可比矩陣計算單元19輸入由倒頻譜逆變換單元18生成的初始噪聲Nm(lin)和由加法器14生成的附加了可加性噪聲的聲音Rm′(lin),并將這些線性譜域中的初始噪聲Nm(lin)和附加了可加性噪聲的聲音Rm′(lin)變換成倒頻譜域中的那些相應(yīng)量。通過將這些量引入上述表達式(6)中,每個用于子字的合成HMM事先生成作為泰勒展開的一階導(dǎo)數(shù)矩陣的雅可比矩陣J=Rm′(cep)/Nm(cep)。
自適應(yīng)HMM26是通過響應(yīng)于用戶打開配備在聲音識別系統(tǒng)中的講話開始開關(guān)(未示出),在真正開始講話之前經(jīng)麥克風(fēng)(未示出)采集的并與可加性噪聲相對應(yīng)的背景噪聲,自適應(yīng)地補償初始合成HMM16而生成的聲學(xué)模型,其中自適應(yīng)HMM26是在開始真正的講話之前事先生成的。
另外,聲音識別系統(tǒng)配置了逐幀分割單元20、倒頻譜運算單元21、轉(zhuǎn)換單元22、加法器和減法器23、乘法器24、加法器25、平均計算單元27、和減法器28。
當(dāng)通過打開上述講話開始開關(guān)使麥克風(fēng)進入聲音收集狀態(tài)時,逐幀分割單元20接收從麥克風(fēng)輸出的并經(jīng)過模擬-數(shù)字轉(zhuǎn)換的背景噪聲Na(對應(yīng)于可加性噪聲)和講話聲音Ra的輸入,并在逐幀地分割它們之后,按照指定的間隔輸出。
倒頻譜運算單元21將逐幀背景噪聲Na和講話聲音Ra變換成倒頻譜,生成和輸出背景噪聲Na和講話聲音Ra的倒頻譜Na(cep)和Ra(cep)。
轉(zhuǎn)換單元22在打開上述講話開始開關(guān)真正開始講話之前的非講話期間內(nèi)切換到觸點“a”一側(cè),從而,將背景噪聲的倒頻譜Na(cep)提供給加法器和減法器23一側(cè)。并且,轉(zhuǎn)換單元22在真正開始講話期間切換到觸點“b”一側(cè),從而將講話聲音的倒頻譜Ra(cep)提供給平均計算單元27和加法器28一側(cè)。
平均計算單元27通過CMN方法運算幾種講話聲音的倒頻譜Ra(cep)以便獲得平均值,并獲得包含在倒頻譜Ra(cep)中的可積性失真Ha的估計值Ha^(cep)。
此外,平均計算單元27配置了諸如半導(dǎo)體存儲器之類的存儲估計值Ha^(cep)的存儲單元(未示出),和每當(dāng)操作講話開始開關(guān)時,存儲單元輸出在最后一次發(fā)出聲音時已經(jīng)獲得的估計值Ha^(cep),并且利用此時的講話聲音將估計值Ha^(cep)更新和存儲新的估計值Ha^(cep)。
加法器和減法器23通過在倒頻譜域中進行運算,從背景噪聲Na(cep)中減去可積性失真Ha的估計值Ha^(cep)和初始噪聲Nm(cep),從而獲得由下列表達式表示的可加性噪聲倒頻譜變化量Namh(cep),將其提供給乘法器24。Namh(cep)=Na(cep)-Ha^(cep)-Nm(cep) ……(9)乘法器24將可加性噪聲倒頻譜變化量Namh(cep)與雅可比矩陣J相乘,將相乘結(jié)果J[Namh(cep)]=J[Na(cep)-Ha^(cep)-Nm(cep)]提供給加法器25。
加法器25以字或子字為單位將上述相乘結(jié)果J[Namh(cep)]與初始合成HMM16的聲學(xué)模型Rm′(cep)相加,從而生成已經(jīng)通過在實際講話環(huán)境中背景噪聲Na自適應(yīng)補償?shù)淖赃m應(yīng)HMM16。也就是說,如果用倒頻譜域(cep)中的術(shù)語表示自適應(yīng)HMM16,那么,下列表達式成立Radp′(cep)=Rm′(cep)+J[Namh(cep)]=Rm′(cep)+J[Na(cep)-Ha^(cep)-Nm(cep)]=cep[Sm(lin)+Na(lin)Na^(lin)]......(10)]]>此外,上面表達式(10)中的cep[]表示倒頻譜變換。
接著,對這樣的聲音識別系統(tǒng)的操作加以描述。
首先,如上所述,在開始真正的聲音識別之前,事先準(zhǔn)備好聲音HMM10、初始噪聲HMM17和初始合成HMM16,并且,由雅可比矩陣計算單元19準(zhǔn)備雅可比矩陣J。
接著,隨著用戶打開講話開始開關(guān),麥克風(fēng)(未示出)進入聲音收集狀態(tài),轉(zhuǎn)換單元22在開始真正講話之前的非講話期間內(nèi)切換到觸點“a”一側(cè),其中輸入背景噪聲Na。因此,背景噪聲Na的倒頻譜Na(cep)通過逐幀分割單元20、倒頻譜運算單元21和轉(zhuǎn)換單元22提供給加法器和減法器23。進一步,將來自平均計算單元27的、在最后一次講話中已經(jīng)獲得的、可積性失真的估計值Ha^(cep)給予加法器和減法器23,并且從初始噪聲HMM17提供初始噪聲Nm(cep)。
而且,加法器和減法器23獲取上述表達式(9)所表示的可加性噪聲倒頻譜變化量Namh(cep),乘法器24將這個可加性噪聲倒頻譜變化量Namh(cep)與雅可比矩陣J相乘。接著,加法器25以字或子字為單位將相乘結(jié)果J[Namh(cep)]與初始合成HMM16相加,從而生成自適應(yīng)HMM26。
然后,當(dāng)自適應(yīng)HMM26的生成已完成時,轉(zhuǎn)換單元22切換到觸點“b”一側(cè)。隨著用戶真正發(fā)出聲音,逐幀分割單元20和倒頻譜運算單元21使講話聲音Ra變成倒頻譜域中的講話聲音Ra(cep),并通過轉(zhuǎn)換單元22將其提供給平均計算單元27。
從而,平均計算單元27通過CMN方法,重新生成包含在講話聲音Ra(cep)中的可積性失真Ha在倒頻譜域中的估計值Ha^(cep),并存儲它。同時,將重新生成的估計值Ha^(cep)提供給加法器和減法器28。
而且加法器和減法器28通過從講話聲音Ra(cep)中減去估計值Ha^(cep),生成消除了可積性失真的觀察值序列RNa(cep)=Ra(cep)-Ha^(cep),對照單元29以字或子字為單元將觀察值序列RNa(cep)與自適應(yīng)HMM26相對照,其中輸出獲得了最大似然的自適應(yīng)HMM,作為聲音識別的結(jié)果。
這里,正如上述表達式(8)所示的,觀察值序列RNa(cep)的特征在于,將可加性噪聲的線性譜Na(lin)與可積性失真的線性譜Ha^(lin)之比Na(lin)/Ha^(lin)加入純聲音的線性譜Sa(lin)當(dāng)中,并將其轉(zhuǎn)換成倒頻譜。另一方面,正如上述表達式(10)所示的,自適應(yīng)HMM26的特征在于,將可加性噪聲的線性譜Na(lin)與可積性失真的線性譜Ha^(lin)之比Na(lin)/Ha^(lin)加入純聲音的線性譜Sm(lin)當(dāng)中,并將其轉(zhuǎn)換成倒頻譜。
也就是說,由于使自適應(yīng)HMM26的噪聲譜和觀察值序列RNa(cep)的噪聲譜兩者都變成了Na(lin)/Ha^(lin),因此,自適應(yīng)HMM26變成與觀察值序列RNa(cep)相匹配的聲學(xué)模型。
此外,由于當(dāng)對照單元29將觀察值序列RNa(cep)與自適應(yīng)HMM26相對照時,兩個噪聲譜都是Na(lin)/Ha^(lin),因此,自適應(yīng)HMM26和觀察值序列RNa(cep)的噪聲(可加性噪聲和可積性失真)所帶來的影響基本上相互抵消,可以將純聲音Sm(cep)與純講話聲音Sa(cep)相對照,其中聲音識別率可以得到進一步的提高。
因此,根據(jù)本實施例的聲音識別系統(tǒng),可以使自適應(yīng)HMM26變成與當(dāng)真正講話出現(xiàn)時獲得的觀察值序列RNa(cep)相匹配的聲學(xué)模型,并將其構(gòu)造成能夠?qū)Ω犊杉有栽肼暫涂煞e性失真。因此,這種聲音識別系統(tǒng)是抗可加性噪聲和可積性失真干擾的,并且可以提高聲音識別率。此外,由于已經(jīng)實現(xiàn)了足以應(yīng)用雅可比矩陣的配置,因此,可以顯著地縮短聲音識別所需的時間。第二實施例下面參照圖2,對根據(jù)第二實施例的聲音識別系統(tǒng)加以描述。此外,在圖2中,給予與圖1中相應(yīng)部分相同或相似的那些部分以相同的標(biāo)號。
在圖2中,對與第一實施例不同的那些點作如下描述。根據(jù)第二實施例的聲音識別系統(tǒng)配置了兩個平均計算單元11a和11b、加法器12a、加法器和減法器23a、和加法器30。
另外,沒有提供圖1所示的減法器12。因此,聲音HMM10在倒頻譜域中的聲音Rm(cep)被直接提供給倒頻譜逆變換單元13。
第一平均計算單元11a通過獲取聲音HMM10的平均矢量的總平均值,獲得大量聲音HMM的平均值,并獲得可積性失真的估計值Hm1^(cep)。
通過對在最后一次講話中進行Ha^估計(如后所述)用的講話聲音的范圍(相當(dāng)于過去數(shù)次講話)內(nèi)的與識別結(jié)果相對應(yīng)的子字聲音HMM的平均矢量求平均,第二平均計算單元11b生成包括真正可積性失真Hm(cep)和根據(jù)講話聲音變化的可積性失真的誤差Hme(cep)的可積性失真的新估計值Hm2^(cep)=Hm(cep)+Hme(cep)。
加法器12a將來自初始噪聲HMM17的初始噪聲Nm(cep)與來自第一平均計算單元11a的估計值Hm1^(cep)相加,并將相加結(jié)果Nmb(cep)=Nm(cep)+Hm1^(cep)提供給加法器和減法器23a和倒頻譜逆變換單元18。
除了來自上述加法器12a的相加結(jié)果Nmh(cep)之外,還將來自第二平均計算單元11b的估計值Hm2^(cep)給予加法器和減法器23a。并且,還將來自平均計算單元27的估計值Ha^(cep)、和非講話期間的背景噪聲Na(cep)給予加法器和減法器23a,從而,加法器和減法器23a生成如下列表達式(11)所表示的、用于生成自適應(yīng)HMM26的可加性噪聲倒頻譜變化量Namh′(cep)。
Namh′(cep)=Na(cep)+Hm2^(cep)-Ha^(cep)-Nmh(cep)=Na(cep)+Hm2^(cep)-Ha^(cep)-Nm(cep)-Hm1^(cep) ……(11)如上所示,本實施例的初始合成HMM16是通過由加法器12a已經(jīng)生成的相加結(jié)果Nmh(cep)、和還沒有消除來自聲音HMM10的可積性失真Hm的聲音Rm(cep)事先生成的。也就是說,倒頻譜逆變換單元13將還沒有消除可積性失真Hm的聲音Rm(cep)變換成線性譜域中的聲音Rm(lin),和倒頻譜逆變換單元18將上述相加結(jié)果Nmh(cep)變換成線性譜域中的相加結(jié)果Nmh(lin)。并且,加法器14將Rm(lin)與Nmh(lin)彼此相加。倒頻譜變換單元15將通過加法器14生成的附加了可加性噪聲的聲音Rmh(lin)=Rm(lin)+Nmh(lin)變換成倒頻譜域中的附加了可加性噪聲的聲音Rmh(cep),從而生成初始合成HMM16。
因此,初始合成HMM16由下列表達式(12)表示。
Rmh(cep)=Rm(cep)+Nm(cep)+Hm1^(cep)=Sn(cep)+Hm(cep)+Nm(cep)+Hm1^(cep)=cep[Rmh(lin)]=cep[Sm(lin)Hm(lin)+Nm(lin)Hm1^(lin)] ……(12)
此外,表達式(12)中的cep[]表示倒頻譜變換。
在根據(jù)本實施例的平均計算單元27中,如果講話聲音Ra的倒頻譜Ra(cep)是在講話期間通過轉(zhuǎn)換單元22的觸點“b”提供的,那么,隨講話聲音變化的可積性失真的誤差Hae(cep)包括在附加到Ra(cep)中的真正可積性失真Ha(cep)中,可積性失真的估計值由Ha^(cep)=Ha(cep)+Hae(cep)表示。
因此,圖2所示的平均計算單元27與圖1所示的第一實施例的平均計算單元27不同之處在于,假設(shè)上面的Ha^(cep)等于Ha(cep),而假設(shè)本實施例的Ha^(cep)等于Ha(cep)+Hqe(cep),其中Hae是隨講話的內(nèi)容而改變的可積性失真的估計值的誤差。如果識別結(jié)果是正確的,則使講話的內(nèi)容與識別結(jié)果相同。當(dāng)估計Hm2^時,通過利用識別結(jié)果,用于估計Ha^的講話內(nèi)容被使用。因此,建立了HaeHme,并且從而隨講話聲音而變化的可積性失真中的誤差能夠假設(shè)等同于Hm2^和Ha^。
根據(jù)本發(fā)明的雅可比矩陣計算單元19接收由倒頻譜逆變換單元18生成的噪聲Nmh(lin)和加法器14生成的附加了可加性噪聲的聲音Rmh(lin),并將其引入到上述表達式(6)中,其中泰勒展開的一階導(dǎo)數(shù)J=Rm(cep)/Nm(cep)是作為雅可比矩陣J事先產(chǎn)生的。
并且,乘法器24將雅可比矩陣J與來自加法器和減法器23a的可加性噪聲的倒頻譜變化量Namh′(cep)相乘,并將相乘結(jié)果J[Namh′(cep)]提供給加法器25。進一步,加法器25將相乘結(jié)果J[Namh′(cep)]與初始合成HMM16相加,從而生成自適應(yīng)HMM26。
此外,根據(jù)上述表達式(11),使相乘結(jié)果J[Namh′(cep)]變成J[Na(cep)+Hm2^(cep)-Ha^(cep)-Nm(cep)-Hm1^(cep)],于是,自適應(yīng)HMM 26成為Radp′(cep)=Rmh(cep)+J[Na(cep)+Hm2^(cep)-Ha^(cep)-Nm(cep)-Hm1^(cep)]=ecp[Sm(lin)Hm(lin)+Na(lin)Hm2^(lin)Ha^(lin)]......(13)]]>加法器30將來自第二平均計算單元11b的估計值Hm2^(cep)與由加法器和減法器28提供的講話聲音Ra(cep)與估計值Ha^(cep)之間的差值Ra(cep)-Ha^(cep)相加,生成觀察值序列RNah(cep)=Ra(cep)-Ha^(cep)+Hm2^(cep),并將其提供給對照單元29。
因此,如表達式(14)所示,觀察值序列RNah(cep)成為RNah(cep)=Ra(cep)-Ha^(cep)+Hm2^(cep)=cep[Sa(lin)Ha(lin)Hm2^(lin)Ha^(lin)+Na(lin)Hm2^(lin)Ha^(lin)]]]>=cep[Sa(lin)Ha(lin)Hm(lin)Hae(cep)Ha(lin)Hme(cep)+Na(lin)Hm2^(lin)Ha^(lin)]]]>=cep[Sa(lin)Hm(lin)+Na(lin)Hm2^(lin)Ha^(lin)]......(14)]]>下面對如上所述構(gòu)成的聲音識別系統(tǒng)的操作加以描述。
首先,如上所述,在開始真正的聲音識別之前,事先準(zhǔn)備好聲音HMM10、初始噪聲HMM17和初始合成HMM16,并且,由雅可比矩陣計算單元19準(zhǔn)備雅可比矩陣J。
隨著用戶打開講話開始開關(guān),麥克風(fēng)(未示出)進入聲音收集狀態(tài),轉(zhuǎn)換單元22在開始真正講話之前的非講話期間內(nèi)切換到觸點“a”一側(cè),其中輸入背景噪聲Na。因此,背景噪聲Na的倒頻譜Na(cep)通過逐幀分割單元20、倒頻譜運算單元21和轉(zhuǎn)換單元22提供給加法器和減法器23a。進一步,將平均計算單元27在最后一次講話中已經(jīng)獲得的可積性失真的估計值Ha^(cep)提供給加法器和減法器23a。同時,將來自加法器12a的噪聲Nmh(cep)和來自第二平均計算單元11b的估計值Hm2^(cep)也提供給它。通過對在最后一次講話中進行Ha^估計(如后所述)用的講話聲音范圍(相當(dāng)于過去數(shù)次講話)內(nèi)的與識別結(jié)果相對應(yīng)的子字聲音HMM的平均矢量求平均,可以估計出HM2^(cep)。
并且,加法器和減法器23a獲取上述表達式(11)所表示的可加性噪聲的倒頻譜變化量Namh′(cep),乘法器24將這個可加性噪聲的倒頻譜變化量Namh′(cep)與雅可比矩陣J相乘。接著,加法器25以字或子字為單位將相乘結(jié)果J[Namh′(cep)]與初始合成HMM16相加,生成自適應(yīng)HMM26。
然后,當(dāng)自適應(yīng)HMM26的生成已完成時,轉(zhuǎn)換單元22切換到觸點“b”一側(cè)。隨著用戶真正發(fā)出聲音,逐幀分割單元20將講話聲音Ra分割成幀,并且倒頻譜運算單元21使講話聲音Ra變成倒頻譜域中的講話聲音Ra(cep),其中通過轉(zhuǎn)換單元22將其提供給平均計算單元27和減法器28。
從而,平均計算單元27更新和存儲可積性失真Ha在倒頻譜域中的估計值Ha^(cep)。在更新之前,將最后一次講話中估計出來的Ha^(cep)提供給加法器和減法器28。
加法器和減法器28通過從講話聲音Ra(cep)中減去估計值Ha^(cep),生成消除了可積性失真的觀察值序列RNah(cep)=Ra(cep)-Ha^(cep),對照單元29以字或子字為單元將觀察值序列RNah(cep)與自適應(yīng)HMM26相對照,其中輸出具有最大似然的自適應(yīng)HMM,作為聲音識別的結(jié)果。
這里,觀察值序列RNah(cep)由上述表達式(14)來表示,和自適應(yīng)HMM26由上述表達式(13)來表示。也就是說,由于觀察值序列RNah(cep)的噪聲譜和自適應(yīng)HMM 26的噪聲譜變成了Na(lin)Hm2^(lin)/Ha^(lin),因此,自適應(yīng)HMM26變成與觀察值序列RNa(cep)相匹配的聲學(xué)模型。
此外,當(dāng)對照單元29將觀察值序列RNa(cep)與自適應(yīng)HMM26相對照時,由于噪聲譜Na(lin)Hm2^(lin)/Ha^(lin)對于RNa(cep)與自適應(yīng)HMM26是相同的,所以,可積性失真Hm(cep)疊加在純聲音Sm(cep)上面的聲音Sm(cep)Hm(cep)與可積性失真Ha(cep)疊加在純聲音Sa(cep)上面的聲音Sa(cep)Ha(cep)相互對照。因此,可以通過基本抵消Na(lin)Hm2^(lin)/Ha^(lin)的影響來對它們加以對照,并且,可以通過基本抵消由于可積性失真Hm(cep)和Ha(cep)帶來的影響來對它們加以對照。也就是說,可以基本抵消可加性噪聲和可積性失真兩者帶來的影響,其中,由于可以將純聲音Sm(cep)與純聲音Sa(cep)相互對照,因此,可以進一步提高聲音識別率。
因此,根據(jù)本實施例的聲音識別系統(tǒng),可以使自適應(yīng)HMM26變成與在真正講話時獲得的觀察值序列RNah(cep)相匹配的聲學(xué)模型,同時,由于系統(tǒng)被構(gòu)造成足以對付可加性噪聲和可積性失真,因此,這種聲音識別系統(tǒng)是抗可加性噪聲和可積性失真干擾的,其中聲音識別率可以得到提高。此外,由于實現(xiàn)了足以應(yīng)用雅可比矩陣的配置,因此,可以顯著縮短聲音識別所需的時間。
在上述第一和第二實施例的描述中,諸如聲音與噪聲相加和聲音與噪聲相減之類的運算是在線性譜域和倒頻譜域中實現(xiàn)的,在本說明書中,術(shù)語“合成”指的是加法和減法的運算。因此,例如,即使在圖2中的減法器28中的Ha^(cep)與Ra(cep)相減也可以描述為“Ra(cep)和Ha^(cep)的合成”或“合成Ra(cep)和Ha^(cep)”。
如上所述,本發(fā)明的聲音識別系統(tǒng)被構(gòu)造成能從聲音模型和噪聲模型中生成合成聲音模型,同時,根據(jù)用作參考模型的合成聲音模型生成事先包括可積性失真和可加性噪聲的信息的自適應(yīng)模型,其中,當(dāng)真正開始講話時,通過將從講話聲音中生成的觀察值序列和自適應(yīng)模型相對照來實現(xiàn)聲音識別,和把自適應(yīng)模型構(gòu)造成能與觀察值序列相匹配。因此,可以提供抗可積性失真和可加性噪聲干擾的和能夠充分進行聲音識別的聲音識別系統(tǒng)。
此外,可以提供最好被構(gòu)造成通過利用雅可比矩陣在運算量或計算量方面顯著減少的聲音識別系統(tǒng),從而可以提供高速聲音識別系統(tǒng)。
權(quán)利要求
1.一種聲音識別系統(tǒng),包括聲音模型,從事先采集的、包含可積性失真的聲音中生成;噪聲模型,從事先采集的可加性噪聲中生成;第一估計單元,估計包含在聲音模型中的可積性失真的第一估計值;合成聲音模型,根據(jù)附加了噪聲的聲音生成,所述聲音是通過合成聲音模型、可積性失真的第一估計值和噪聲模型的可加性噪聲進行處理而得到的;計算單元,根據(jù)噪聲模型的可加性噪聲和附加了噪聲的聲音計算雅可比矩陣;第二估計單元,估計包含在講話聲音中的可積性失真的第二估計值;第一運算單元,通過將在非講話期間生成的可加性噪聲、噪聲模型的可加性噪聲、和第二估計單元估計的可積性失真的第二估計值合成在一起的處理,獲得噪聲變化量,所述第一運算單元同時將噪聲變化量與計算單元計算的雅可比矩陣相乘;自適應(yīng)模型,通過將第一運算單元獲得的相乘結(jié)果與合成聲音模型合成在一起的處理生成;和第二運算單元,通過將講話聲音與第二估計單元估計的可積性失真的第二估計值合成在一起的處理,生成觀察值序列;其中,聲音識別是通過將觀察值序列與自適應(yīng)模型相對照實現(xiàn)的。
2.根據(jù)權(quán)利要求1所述的聲音識別系統(tǒng),其中,第一估計單元通過從倒頻譜域中非講話期間生成的可加性噪聲中減去噪聲模型的可加性噪聲和由第二估計單元估計的可積性失真的第二估計值,實現(xiàn)合成處理。
3.一種聲音識別系統(tǒng),包括聲音模型,從事先采集的、包含可積性失真的聲音中生成;噪聲模型,從事先采集的可加性噪聲中生成;第一估計單元,估計包含在聲音模型中的可積性失真的第一估計值;第二估計單元,根據(jù)識別結(jié)果,估計聲音模型中包含隨講話聲音變化的誤差的可積性失真的第二估計值;第一運算單元,將噪聲模型的可加性噪聲與第一估計單元估計的可積性失真值合成在一起;合成聲音模型,根據(jù)通過將第一運算單元的合成結(jié)果與聲音模型合成在一起的處理所得的附加了噪聲的聲音生成;計算單元,從第一運算單元所得的合成結(jié)果和附加了噪聲的聲音中計算雅可比矩陣;第三估計單元,估計真正講話聲音中包含隨真正講話聲音變化的誤差的可積性失真的第三估計值;第二運算單元,通過將在非講話期間生成的可加性噪聲、第一運算單元所得的合成結(jié)果、第二估計單元估計的第二估計值、和第三估計單元估計的的第三估計值合成在一起的處理,獲取噪聲變化量,同時第二運算單元將噪聲變化量與計算單元計算的雅可比矩陣相乘;自適應(yīng)模型,通過將第二運算單元獲得的相乘結(jié)果與合成聲音模型合成在一起的處理生成;和第三運算單元,通過將真正講話聲音與第二估計單元估計的第二估計值和第三估計單元估計的第三估計值合成在一起的處理,生成觀察值序列;其中,聲音識別是通過將觀察值序列與自適應(yīng)模型相對照實現(xiàn)的。
4.根據(jù)權(quán)利要求3所述的聲音識別系統(tǒng),其中,第二運算單元通過從倒頻譜域中非講話期間生成的可加性噪聲中加上第二估計單元估計的第二估計值,減去第一運算單元產(chǎn)生的合成結(jié)果以及第三估計單元估計的第三估計值,實現(xiàn)合成處理。
5.一種聲音識別方法,包括下列步驟從事先采集的和包含可積性失真的聲音中生成聲音模型;從事先采集的可加性噪聲中生成噪聲模型;估計包含在聲音模型中的可積性失真的第一估計值;將聲音模型、可積性失真的第一估計值和噪聲模型的可加性噪聲合成在一起,以從附加了噪聲的聲音中生成合成聲音模型;根據(jù)噪聲模型的可加性噪聲和附加了噪聲的聲音,計算雅可比矩陣;估計包含在講話聲音中的可積性失真的第二估計值;將在非講話期間生成的可加性噪聲、噪聲模型的可加性噪聲、和第二估計值合成在一起,獲得噪聲變化量,將噪聲變化量與雅可比矩陣相乘;將在相乘步驟中獲得的相乘結(jié)果與合成聲音模型合成在一起,生成自適應(yīng)模型;和將講話聲音與第二估計值合成在一起,生成觀察值序列;將觀察值序列與自適應(yīng)模型相對照,以實現(xiàn)聲音識別。
6.根據(jù)權(quán)利要求5所述的聲音識別方法,其中,合成步驟從倒頻譜域中非講話期間產(chǎn)生的可加性噪聲中減去噪聲模型的可加性噪聲和由第二估計單元估計的可積性失真的第二估計值。
7.一種聲音識別方法,包括下列步驟從事先采集的和包含可積性失真的聲音中生成聲音模型;從事先采集的可加性噪聲中生成噪聲模型;估計包含在聲音模型中的可積性失真的第一估計值;根據(jù)識別結(jié)果,估計聲音模型中包含隨講話聲音變化的誤差的可積性失真的第二估計值;將噪聲模型的可加性噪聲與可積性失真的第一估計值合成在一起;將第一合成步驟中所得的合成結(jié)果與聲音模型合成在一起,以從附加了噪聲的聲音中生成合成聲音模型;從第一合成步驟中所得的合成結(jié)果和附加了噪聲的聲音中計算雅可比矩陣;估計真正講話聲音中包含隨真正講話聲音變化的誤差的可積性失真的第三估計值;將在非講話期間生成的可加性噪聲、第一運算步驟所得的合成結(jié)果、第二估計值、和第三估計值合成在一起,獲取噪聲變化量,將噪聲變化量與雅可比矩陣相乘;將在相乘步驟中所得的相乘結(jié)果與合成聲音模型合成在一起,生成自適應(yīng)模型;和將真正講話聲音、第二估計值和第三估計值合成在一起,生成觀察值序列;將觀察值序列與自適應(yīng)模型相對照,實現(xiàn)聲音識別。
8.根據(jù)權(quán)利要求3所述的聲音識別方法,其中,第三合成步驟通過從倒頻譜域中非講話期間生成的可加性噪聲中加上第二估計值,減去第一合成結(jié)果以及第三估計值。
全文摘要
從含有可積性失真和可加性噪聲的初始噪聲HMM的聲音HMM10中生成初始合成HMM16,同時由雅可比矩陣計算單元19計算雅可比矩陣J。將可積性失真的估計值Ha^(cep)、可加性噪聲Na(cep)和初始噪聲HMM17的可加性噪聲Nm(cep)合成所得的噪聲變化量Namh(cep)與雅可比矩陣相乘,其中將相乘結(jié)果和初始合成HMM16進行合成,并生成自適應(yīng)HMM26。從而可以事先生成與從真正講話聲音中生成的觀察值序列RNa(cep)相匹配的自適應(yīng)HMM26。當(dāng)通過將觀察值序列RNa(cep)與自適應(yīng)HMM26對照進行聲音識別時,抵消了可積性失真和可加性噪聲的影響,其中可以獲得與利用純聲音實現(xiàn)聲音識別的情況等效的效果,并可以實現(xiàn)抗干擾的聲音識別系統(tǒng)。
文檔編號G10L15/06GK1345030SQ0114061
公開日2002年4月17日 申請日期2001年9月18日 優(yōu)先權(quán)日2000年9月18日
發(fā)明者瀨尾尋, 駒村光彌, 外山聰一 申請人:日本先鋒公司