專利名稱:用于創(chuàng)建語音標簽的方法以及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù),更具體地,涉及語音標簽的創(chuàng)建。
背景技術(shù):
語音識別技術(shù),也稱為自動語音識別ASR(Automatic Speech Recognition),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、ニ進制編碼或者字 符序列等。從而機器可以通過語音識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。隨著信息技術(shù)領(lǐng)域的科技發(fā)展,人們預(yù)計,未來幾年內(nèi),語音識別技術(shù)將進入エ業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。而在信息技術(shù)中,人機接口重要的部分包括語音識別,其與語音合成技術(shù)的結(jié)合可以使人們甩掉鍵盤,通過語音命令進行操作。這樣顯著地減少了設(shè)備的體積,尤其是在諸如開車的不便手動操作情況下給人們增加了便利,以及促進了有效的交互。語音識別技術(shù)的應(yīng)用已經(jīng)成為具有競爭性的新興高技術(shù)產(chǎn)業(yè)。語音識別技術(shù)的應(yīng)用可以包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、聽寫數(shù)據(jù)錄入等。而語音標簽也是語音識別技術(shù)的ー個具體應(yīng)用,目前廣泛應(yīng)用在嵌入式系統(tǒng)中,如在配備有語音識別的電話上通過語音標簽來撥打聯(lián)系人或打開應(yīng)用,或者將語音標簽用于語音信息查詢系統(tǒng)以查詢信息等。通常語音標簽的創(chuàng)建過程如下用戶向系統(tǒng)輸入注冊語音,系統(tǒng)將其轉(zhuǎn)換成代表該語音發(fā)音的標簽,并將該發(fā)音標簽所表示的一個詞條加入到識別網(wǎng)絡(luò)中。識別網(wǎng)絡(luò)定義可識別的語句。此過程也稱為注冊過程。例如,當(dāng)用戶在注冊過程說“李四”,系統(tǒng)就會創(chuàng)建一個標簽來代表該語音發(fā)音,并將該語音標簽與要表不的應(yīng)用或信息關(guān)聯(lián),例如電話號碼。在識別過程中,語音識別系統(tǒng)基于含有語音標簽詞條的識別網(wǎng)絡(luò)對測試語音進行識別,以確定其內(nèi)容。在現(xiàn)有技術(shù)中,常用的創(chuàng)建語音標簽的方法有基于模板匹配的語音標簽方法和基于隱馬爾科夫模型的語音標簽方法。基于模板匹配的方法中,在注冊過程對注冊語音提取出一個或多個模板作為該注冊語音的語音標簽,而在識別過程可以利用動態(tài)時間規(guī)整(dynamic time warping, DTff)算法對測試語音和模板標簽進行匹配。最簡單的做法就是將注冊語音的特征作為模板,測試的時候?qū)y試語音的特征同注冊語音的特征進行比較,選取二者最接近的模板作為識別結(jié)果。例如,注冊語音特征為JT = {x;,x2r ..,X^J5Tl為注冊語音的總幀數(shù)。則Xlr可以作
為注冊語音的模板,即語音標簽。測試語音的特征為x;j,T2為測試語音的總幀數(shù)。測試過程即為T與Xt的匹配過程。通常采用動態(tài)時間規(guī)整算法,該算法是ー種常用的測量兩個具有不同長度序列之間相似程度的算法,為簡明起見在此不再贅述?;谀0迤ヅ涞姆椒軌蚋玫拿枋稣Z音中時間上的相關(guān)性。然而,基于模板匹配的方法通常需要較大的空間來儲存模板,且對于注冊語音和測試語音的差異不穩(wěn)健。
近年來,隨著基于音素(或者其它語音単元,例如音節(jié))的隱馬爾科夫模型(hidden markov model, HMM)在語音識別中的普遍應(yīng)用,音素序列作為語音標簽已成為主流的語音標簽方法。馬爾科夫模型是ー個離散時域有限狀態(tài)自動機,隱馬爾科夫模型是指這ー馬爾科夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。隱馬爾科夫模型能夠有效刻畫語音在時間上的動態(tài)變化特征,實現(xiàn)語音信號特征序列與描述語音的聲學(xué)単元(如音素、音節(jié)等)之間的匹配。此外,隱馬爾科夫模型成熟的訓(xùn)練和識別算法也為其在語音識別中的應(yīng)用奠定了基礎(chǔ)。在通常的語音識別系統(tǒng)中,ー個音素就是ー個包含N個狀態(tài)的HMM,ー個字(或者音節(jié))就是構(gòu)成該字的多個音素的HMM串行起來構(gòu)成的HMM,而連續(xù)語音識別的整個模型就是字和靜音組合起來的HMM,其狀態(tài)的輸出為聲學(xué)特征。在該方法中,通過對注冊語音進行音素識別而得到音素序列來作為該注冊語音的語音標簽。基于隱馬爾科夫模型的語音標簽方法將音素(或者其它語音単元)序列作為語音標簽,其相比模板標簽占用內(nèi)存較少。其次,音素序列的標簽詞條更容易和非語音標簽詞條結(jié)合以構(gòu)成新的識別網(wǎng)絡(luò)。這都有助于增加語音標簽系統(tǒng)所允許的詞條數(shù)目。 但是,音素序列的語音標簽方法也有一定的不足首先,音素識別錯誤是不可避免的,這會導(dǎo)致音素序列的語音標簽不能完全代表注冊語音的發(fā)音,由此造成識別錯誤。此外,隱馬爾科夫模型HMM各狀態(tài)輸出概率分布是相互獨立的,這與語音參數(shù)向量隨時間變化的連續(xù)性相矛盾。因此在隱馬爾科夫模型中這種狀態(tài)之間不相關(guān)的假定,導(dǎo)致其不能很好的描述語音中時間上的相關(guān)性。
發(fā)明內(nèi)容
為此,本發(fā)明提供了一種用于創(chuàng)建語音標簽的方法和設(shè)備,該方法結(jié)合基于模板匹配的語音標簽方法和基于隱含馬爾科夫模型的語音標簽方法,克服上述二者的缺點,改善了語音標簽系統(tǒng)的性能。根據(jù)本發(fā)明的實施例的ー個方面,提供了用于創(chuàng)建語音標簽的方法,可以包括基于隱馬爾科夫聲學(xué)模型針對注冊語音生成第一語音標簽,其中第一語音標簽與特定狀態(tài)關(guān)聯(lián);基于模板匹配針對所述注冊語音生成第二語音標簽;以及組合所述第一語音標簽和所述第二語音標簽以生成所述注冊語音的語音標簽。根據(jù)本發(fā)明的實施例的另外的方面,提供了一種用于創(chuàng)建語音標簽的設(shè)備,可以包括解碼器,用于基于隱馬爾科夫模型和識別網(wǎng)絡(luò)識別輸入的語音以生成第一語音標簽,其中所述第一語音標簽與特定狀態(tài)關(guān)聯(lián);模板提取裝置,用于對所述語音提取語音模板以生成第二語音標簽;以及組合裝置,用于組合所述第一語音標簽和第二語音標簽以生成所述語音的語音標簽。根據(jù)本發(fā)明的實施例的另外的方面,提供了一種用于創(chuàng)建語音標簽的系統(tǒng),可以包括用于基于隱馬爾科夫聲學(xué)模型針對注冊語音生成第一語音標簽的裝置,其中第一語音標簽與特定狀態(tài)關(guān)聯(lián);用于基于模板匹配針對所述注冊語音生成第二語音標簽的裝置;以及用于組合所述第一語音標簽和所述第二語音標簽以生成所述注冊語音的語音標簽的裝置。
結(jié)合附圖,從下面對本發(fā)明的實施例的詳細描述中本發(fā)明的目的、特點和優(yōu)點將顯而易見,其中圖I示出了根據(jù)本發(fā)明示例性實施例的方法的流程圖;圖2示出了現(xiàn)有技術(shù)中的基于HMM的語音標簽方法的注冊流程;圖3示出了應(yīng)用于圖2中的方法的音素識別網(wǎng)絡(luò);圖4示出了圖I中所示的方法的基于模板匹配生成語音模板操作的流程圖;圖5示出了根據(jù)本發(fā)明示例性實施例的方法的組合第一語音標簽和第二語音標簽而生成的語音標簽;圖6示出了根據(jù)本發(fā)明示例性實施例的方法的組合第一語音標簽和第二語音標簽的可選的兩種方式;以及圖7示出了根據(jù)本發(fā)明示例性實施例的用于創(chuàng)建語音標簽的設(shè)備的框圖。
具體實施例方式下面,結(jié)合附圖對本發(fā)明的實施例進行詳細描述。一般地,本發(fā)明實施例涉及在電子設(shè)備(例如電話系統(tǒng)、移動終端、車載交通工具和/或類似物)中創(chuàng)建語音標簽的方法及其系統(tǒng)。本發(fā)明的基本構(gòu)思是通過結(jié)合隱馬爾科夫模型的統(tǒng)計方法和模板匹配方法對注冊語音創(chuàng)建語音標簽。在該構(gòu)思中,為了更高效的將二者結(jié)合,在模板提取時,針對注冊語音的每ー個隱馬爾科夫模型狀態(tài)對應(yīng)的時間段(而不是每ー幀)提取模板,模板用一個高斯分布(或者高斯混合模型)表示。在二者結(jié)合過程中,對于該注冊語音的每ー個狀態(tài)時間段,將表示該段語音的模板以及表示該段語音的隱馬爾科夫狀態(tài)結(jié)合成一個新的狀態(tài)。然后由新的狀態(tài)組成新的音素序列,作為該注冊語音的最終的語音標簽。在本發(fā)明的實施例中,語音單元也可以是音素之外的其它單元,如音節(jié)等。為簡單起見,僅例示音素作為語音單元進行處理。然而,本領(lǐng)域技術(shù)人員應(yīng)該理解,本發(fā)明的實施例應(yīng)該不限于此。圖I示出了根據(jù)本發(fā)明的示例性實施例的方法的流程圖。在步驟S10,注冊語音被輸入到解碼器中進行識別其聲學(xué)模型為隱馬爾科夫模型,識別網(wǎng)絡(luò)為音素(或者其它語音単元)的循環(huán)網(wǎng)絡(luò),識別結(jié)果為音素(或者其它語音単元)序列。該音素序列即為基于隱馬爾科夫模型HMM的語音標簽方法中的語音標簽,本發(fā)明中稱之為第一語音標簽。獲得注冊語音的第一語音標簽之后,在步驟S12,基于模板匹配的思想為該注冊語音提取模板,作為該注冊語音的第二語音標簽。最后,組合生成的第一語音標簽和第二語音標簽,以生成該注冊語音的最終語音標簽(步驟S13)。I.第一語音標簽的生成
如前所述,第一語音標簽可以通過對注冊語音進行基于隱馬爾科夫聲學(xué)模型的識別而得到,如圖2所示。在S210,對輸入的注冊語音(假定已經(jīng)進行了采樣、A/D變換等預(yù)處理)進行特征提取。簡單地講特征提取包括分幀及為每ー幀提取ー個D維的特征。目前常用的特征有Mel倒譜系數(shù)(MFCC)或者感知線性預(yù)測參數(shù)(PLP)等。設(shè)第t幀的特征為x, =},整個語句的特征為X = (X1, X2, . . . , xT}, T為該句語音的總巾貞數(shù)。在步驟S220,得到特征后,將特征連同由訓(xùn)練數(shù)據(jù)訓(xùn)練的隱馬爾科夫聲學(xué)模型(acoustic model, AM)及識別網(wǎng)絡(luò)輸入到解碼器中對其進行識別。在本發(fā)明實施中,聲學(xué)模型可以采用語音識別中常用的一階隱含馬爾科夫模型,其數(shù)學(xué)表達式如下P{X IW)=)pixi I 5I )1"1 P(xt I st )p(st I V1)( I )
t=2其中,X = (X1. . . xT}為觀測語音的特征序列,S = (S1. . . sT}為狀態(tài)序列,St為第t幀語音所對應(yīng)的狀態(tài),W為詞序列,{Sw}為與詞序列W對應(yīng)的狀態(tài)序列的集合,P(XtIst)為HMM中的狀態(tài)輸出概率,P(StIsw)為H MM中的狀態(tài)轉(zhuǎn)移概率。如公式⑵所示,狀態(tài)s的輸出概率可以由高斯混合模型(Gaussian mixturemodel, GMM)來描述。GMM是語音信號處理中的ー種常用的統(tǒng)計模型,該模型的基本理論前提是只要高斯分量混合的數(shù)目足夠多,ー個任意的分布就可以在任意的精度下用這些高斯分量混合的加權(quán)平均來逼近。
Mp(x I ^)= XamN{^i皿Xsm)( 2 )
W=I其中= I, u sm為狀態(tài)s的第m個高斯分布的均值,E sm為狀態(tài)s的第m個高
W=I
斯分布的方差,M為高斯個數(shù)。在本發(fā)明的實施例中,對于本領(lǐng)域技術(shù)人員而言,HMM模型可以在創(chuàng)建語音標簽之前通過對獲取的語音特征使用訓(xùn)練算法進行訓(xùn)練來預(yù)先確定。在本發(fā)明的實施例中,識別網(wǎng)絡(luò)可以是如圖3示出的識別網(wǎng)絡(luò)。如前所述,在隱馬爾科夫聲學(xué)模型中,每個音素(或其它語音単元,如音節(jié),中文的聲母/韻母等)可以由HMM來描述。圖3所示的識別網(wǎng)絡(luò)即為中文中所有音素(b,p,m,...,a,0,e)的自由循環(huán),其中s為初始狀態(tài),e為終止狀態(tài)。本領(lǐng)域的技術(shù)人員應(yīng)該理解,識別網(wǎng)絡(luò)可以根據(jù)應(yīng)用的語言而不同,以上所述的識別網(wǎng)絡(luò)僅為例示,本發(fā)明的實施例中的識別網(wǎng)絡(luò)應(yīng)該不限于此。例如識別網(wǎng)絡(luò)的語言單元可以為音節(jié),則基于隱馬爾科夫模型識別的結(jié)果為音節(jié)序列。在本發(fā)明的實施例中,在步驟S230,解碼器選擇識別網(wǎng)絡(luò)中同輸入語音特征最匹配的路徑作為識別結(jié)果,該識別結(jié)果即作為該注冊語音的發(fā)音標簽。在本發(fā)明的實施例中,該發(fā)音標簽作為注冊語音的第一語音標簽。解碼器是語音識別系統(tǒng)的核心之一,其任務(wù)是對輸入的信號,根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。而統(tǒng)計語音識別的最基本問題是,給定輸入信號或特征序列、符號集(詞典),求解符號串(詞序列)使得其在給定語音的特征X的情況下概率最大,該數(shù)學(xué)模型表示如下可以進ー步表示為擴=argmaxi3^| X) = argmaxP(X | W)P(W)/P(X) ( 4 )其中,P(W)為語音模型,P(X)為特征的先驗概率。通常P(X)為均勻分布,則該識別模型可以簡化為w* = argmaxi5^ | W)P(W)( 5 )
W
如不考慮語言模型,則其還可進ー步簡化為
[0047權(quán)利要求
1.一種用于創(chuàng)建語音標簽的方法,包括 基于隱馬爾科夫聲學(xué)模型針對注冊語音生成第一語音標簽,其中第一語音標簽與特定狀態(tài)關(guān)聯(lián); 基于模板匹配針對所述注冊語音生成第二語音標簽;以及 組合所述第一語音標簽和所述第二語音標簽以生成所述注冊語音的語音標簽。
2.如權(quán)利要求I所述的方法,其中生成第二語音標簽的步驟進一歩包括 基于所述第一語音標簽關(guān)聯(lián)的狀態(tài)在時間上分割所述注冊語音; 對每個狀態(tài)時間段中的語音提取模板以形成模板序列作為所述第二語音標簽。
3.如權(quán)利要求2所述的方法,其中所述提取模板的步驟進一歩包括 從所述隱馬爾科夫聲學(xué)模型中獲得與所述狀態(tài)時間段內(nèi)語音平均特征距離最近的多個高斯分量;以及 組合所述多個高斯分量以生成高斯混合模型作為所述注冊語音中該狀態(tài)時間段內(nèi)語音的模板。
4.如權(quán)利要求I的方法,其中所述組合第一語音標簽和第二語音標簽的步驟進一歩包括 組合所述第一語音標簽關(guān)聯(lián)的狀態(tài)以及與該狀態(tài)對應(yīng)的所述狀態(tài)時間段的模板以生成新的狀態(tài);以及 組合所述新的狀態(tài)以形成所述注冊語音的語音標簽。
5.如權(quán)利要求4中所述的方法,其中所述組合第一語音標簽關(guān)聯(lián)的狀態(tài)以及與該狀態(tài)對應(yīng)的所述狀態(tài)時間段的模板以生成新的狀態(tài)的步驟進一歩包括 對所述狀態(tài)時間段的模板包含的高斯分量和所述第一語音標簽的該狀態(tài)包含的高斯分量取并集作為所述新的狀態(tài)包含的高斯分量。
6.如權(quán)利要求4中所述的方法,其中所述組合第一語音標簽關(guān)聯(lián)的狀態(tài)以及與該狀態(tài)對應(yīng)的所述狀態(tài)時間段的模板以生成新的狀態(tài)的步驟進一歩包括 將所述狀態(tài)時間段的模板的高斯分量合并為ー個高斯分量;以及組合所述高斯分量與所述第一語音標簽的狀態(tài)的高斯分量作為所述新的狀態(tài)包含的高斯分量。
7.如權(quán)利要求I至6中任一項所述的方法,其中所述語音標簽包含的語音單元中的狀態(tài)間的轉(zhuǎn)移概率可以同所述第一語音標簽包含的語音單元中的狀態(tài)間的轉(zhuǎn)移概率相同。
8.一種用于創(chuàng)建語音標簽的設(shè)備,包括 解碼器,用于基于隱馬爾科夫模型和識別網(wǎng)絡(luò)識別輸入的語音以生成第一語音標簽,其中所述第一語音標簽與特定狀態(tài)關(guān)聯(lián); 模板提取裝置,用于對所述語音提取語音模板以生成第二語音標簽;以及 組合裝置,用于組合所述第一語音標簽和第二語音標簽以生成所述語音的語音標簽。
9.如權(quán)利要求8所述的設(shè)備,其中所述模板提取裝置進ー步包括 分割裝置,基于所述第一語音標簽的狀態(tài)在時間上分割所述語音; 模板生成裝置,用于對每個狀態(tài)時間段中的所述語音提取模板以及組合所述每個狀態(tài)時間段的模板,以形成模板序列作為所述第二語音標簽。
10.一種用于創(chuàng)建語音標簽的系統(tǒng),包括用于基于隱馬爾科夫聲學(xué)模型針對注冊語音生成第一語音標簽的裝置,其中第一語音標簽與特定狀態(tài)關(guān)聯(lián); 用于基于模板匹配針對所述注冊語音生成第二語音標簽的裝置;以及 用于組合所述第一語音標簽和所述第二語音標簽以生成所述注冊語音的語音標簽的裝置。
全文摘要
本發(fā)明涉及一種用于創(chuàng)建語音標簽的方法以及設(shè)備。該方法可以包括基于隱馬爾科夫模型HMM針對注冊語音生成第一語音標簽;基于模板匹配針對所述注冊語音生成第二語音標簽;以及組合所述第一語音標簽和所述第二語音標簽以生成所述注冊語音的語音標簽?;诒景l(fā)明的實施例生成的語音標簽結(jié)合了兩種標簽的優(yōu)勢,明顯提高了系統(tǒng)性能。此外,本發(fā)明實施例的方法仍然可以應(yīng)用在基于HMM聲學(xué)模型的解碼器中而無需顯著增加存儲空間以及計算量,有利于該方法在任意基于HMM的語音標簽系統(tǒng)中的應(yīng)用。
文檔編號G10L15/14GK102651218SQ201110046560
公開日2012年8月29日 申請日期2011年2月25日 優(yōu)先權(quán)日2011年2月25日
發(fā)明者何磊, 趙蕤 申請人:株式會社東芝