国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      適應(yīng)說話人無關(guān)語音識(shí)別數(shù)據(jù)庫的方法和系統(tǒng)的制作方法

      文檔序號(hào):2821216閱讀:261來源:國(guó)知局
      專利名稱:適應(yīng)說話人無關(guān)語音識(shí)別數(shù)據(jù)庫的方法和系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明一般涉及語音識(shí)別系統(tǒng)。本發(fā)明具體用于,但不必限定于,嵌入到掌上設(shè)備中的語音識(shí)別系統(tǒng)。
      背景技術(shù)
      很多語音識(shí)別系統(tǒng)通過對(duì)輸入語音和存儲(chǔ)在數(shù)據(jù)庫中的聲學(xué)模型進(jìn)行比較完成識(shí)別。隨后把匹配的聲學(xué)模型與詞典數(shù)據(jù)庫中的條目進(jìn)行比較來完成詞和句子的識(shí)別。所述聲學(xué)模型通常包括隱含馬爾可夫模型(HMM)。HMM是一種統(tǒng)計(jì)描述,包括用來描述諸如詞匯和音素等語音單元的均值和方差向量。隨后用HMM模式匹配確定語音識(shí)別數(shù)據(jù)庫中的聲音模型是否與輸入語音相符。HMM一般基于多個(gè)復(fù)雜高斯概率密度函數(shù)(PDF)所組成的概率函數(shù),也稱為高斯混合(Gaussian mixture)。因此一般來說HMM模式匹配都是匹配高斯混合的過程。
      語音識(shí)別系統(tǒng)一般按照說話人無關(guān)(speaker-independent)和說話人相關(guān)(speaker-dependent)分類。設(shè)計(jì)說話人無關(guān)系統(tǒng)用來識(shí)別大量說話人的語音;而訓(xùn)練說話人相關(guān)系統(tǒng)用來識(shí)別一個(gè)或者很少數(shù)量說話人的語音。說話人無關(guān)系統(tǒng)一般包括聲學(xué)數(shù)據(jù)庫,該數(shù)據(jù)庫包括從大量訓(xùn)練說話人得到的HMM。希望使用從訓(xùn)練說話人的語音得到的HMM來表征大量說話人中所能找到的語音模型。由于在語音模型中必須做出一些折中來適應(yīng)非常多樣的語音特征,也由于不可能調(diào)節(jié)一個(gè)說話人無關(guān)系統(tǒng)來識(shí)別任何使用該系統(tǒng)的特定人的特殊語音特征,這樣的系統(tǒng)一般都不如說話人相關(guān)系統(tǒng)準(zhǔn)確。
      調(diào)節(jié)說話人相關(guān)的系統(tǒng),用來識(shí)別個(gè)體說話者的特定語音模式。通常,在訓(xùn)練階段,說話人將向系統(tǒng)中讀入包括多種語音模式在內(nèi)的文字材料。然后按照文字材料校準(zhǔn)訓(xùn)練語音,使得系統(tǒng)可調(diào)節(jié)到特定的說話人語音屬性,由此在語音識(shí)別當(dāng)中,系統(tǒng)可以更加準(zhǔn)確地識(shí)別說話人的聲音。但是在有大量人需要應(yīng)用語音識(shí)別系統(tǒng)的情況下,說話人相關(guān)的系統(tǒng)通常并不理想。例如,語音識(shí)別系統(tǒng)可能被嵌入到移動(dòng)電話當(dāng)中,使用戶能夠通過語音的方法輸入、其后將被電話識(shí)別的文字信息或電話號(hào)碼。移動(dòng)電話的主要用戶可能希望大量的朋友、同事和家人同樣能夠使用電話的語音識(shí)別功能。由于這樣的電話的第二用戶可能只是在很短的時(shí)間內(nèi)需要語音識(shí)別功能,因此要求第二用戶在使用語音識(shí)別功能之前對(duì)電話進(jìn)行初次訓(xùn)練使電話能夠識(shí)別他或她的語音是不方便的。不過,移動(dòng)電話的主要用戶一般更傾向于能夠訓(xùn)練電話來更準(zhǔn)確地識(shí)別他或她的語音。
      某些現(xiàn)有技術(shù)的語音識(shí)別系統(tǒng)也可以兼容說話人相關(guān)和說話人無關(guān)系統(tǒng)。通常這樣的系統(tǒng)進(jìn)行在線說話人適應(yīng),也就是說在正常使用過程中,將說話人無關(guān)的聲學(xué)模型調(diào)整成特定人的語音特征。在線說話人適應(yīng)與離線說話人適應(yīng)(例如上述的說話人相關(guān)系統(tǒng)的訓(xùn)練過程)形成對(duì)比,在離線說話人適應(yīng)中,用戶通過朗讀一個(gè)預(yù)先定義好的文字材料到系統(tǒng)中,使系統(tǒng)通過訓(xùn)練能夠識(shí)別他或她的聲音。
      然而,在上述嵌入到移動(dòng)電話的語音識(shí)別系統(tǒng)的例子當(dāng)中,由于第二用戶可能只是在很短時(shí)間內(nèi)使用電話的語音識(shí)別功能,例如朗讀一個(gè)單獨(dú)的短文信息,因此在線說話人適應(yīng)通??赡苁菬o效的。這種情況下,在識(shí)別任務(wù)沒有完成之前,在線說話人適應(yīng)過程可能沒有時(shí)間得到收斂。因此,當(dāng)被第二用戶使用的時(shí)候,移動(dòng)電話的語音識(shí)別系統(tǒng)將保持說話人無關(guān)系統(tǒng)所固有的不準(zhǔn)確性。同時(shí),與移動(dòng)電話相關(guān)聯(lián)的噪聲背景環(huán)境(例如交通和人群噪聲)經(jīng)常也,使得在線說話人適應(yīng)過程很難得到收斂。
      因此需要一個(gè)改進(jìn)的方法和系統(tǒng)來調(diào)整說話人無關(guān)語音識(shí)別的數(shù)據(jù)庫使它同時(shí)適用于說話人無關(guān)和說話人相關(guān)系統(tǒng)。

      發(fā)明內(nèi)容
      從一方面說,本發(fā)明是一種生成能夠同時(shí)適用于說話人相關(guān)和說話人無關(guān)的語音識(shí)別聲學(xué)模板數(shù)據(jù)庫的方法,該方法包括如下步驟從第一說話人接收訓(xùn)練語音波形;把所述訓(xùn)練語音波形分割成對(duì)應(yīng)于隱含馬爾可夫模型(HMM)的狀態(tài)的塊;為所述的每個(gè)HMM狀態(tài)計(jì)算對(duì)應(yīng)于所述第一說話人的說話人相關(guān)的高斯概率密度函數(shù)(PDF);對(duì)說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫中的每個(gè)所述HMM狀態(tài),用所述說話人相關(guān)PDF替換說話人無關(guān)PDF,其中所述的說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫中包括多個(gè)說話人無關(guān)HMM,每個(gè)HMM包含多個(gè)高斯PDF,每個(gè)PDF都有一個(gè)原始的權(quán)重系數(shù);和在所述說話人無關(guān)的聲學(xué)模板數(shù)據(jù)庫中為每個(gè)所述說話人無關(guān)和說話人相關(guān)PDF計(jì)算新的權(quán)重系數(shù)。
      對(duì)每個(gè)所述狀態(tài),用所述說話人相關(guān)PDF替換說話人無關(guān)PDF的步驟可對(duì)每個(gè)所述狀態(tài)的具有最小原始權(quán)重系數(shù)的說話人無關(guān)PDF進(jìn)行替換。
      本方法可進(jìn)一步包括對(duì)通過將所述訓(xùn)練語音波形轉(zhuǎn)化成MFCC特征文件而對(duì)所述訓(xùn)練語音波形進(jìn)行前期(front-end)信號(hào)處理的步驟。
      本方法可進(jìn)一步包括如下步驟從第二說話人接收訓(xùn)練語音波形;和對(duì)說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫中的每個(gè)所述狀態(tài),用對(duì)應(yīng)于所述第二說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF。
      用對(duì)應(yīng)于所述第二說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF的步驟可對(duì)每個(gè)狀態(tài)的具有第二小原始權(quán)重系數(shù)的說話人無關(guān)PDF進(jìn)行替換。
      本方法可進(jìn)一步包括如下步驟從多個(gè)說話人接收訓(xùn)練語音波形;和對(duì)每個(gè)所述的HMM狀態(tài),用對(duì)應(yīng)于所述多個(gè)說話人中每個(gè)說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF。
      每個(gè)所述PDF可包括一個(gè)均值向量(μ)和一個(gè)協(xié)方差矩陣(Σ),所述均值向量可以按照如下公式計(jì)算&mu;k(i)=&mu;k(i)N,]]>這里N是與某狀態(tài)級(jí)別對(duì)準(zhǔn)的特征向量的個(gè)數(shù);和協(xié)方差矩陣可以按照如下公式計(jì)算&Sigma;k(i,j)=&Sigma;k(i,j)N-&mu;k(i)&CenterDot;&mu;k(j),]]>這里i和j表示維數(shù)下標(biāo),k表示HMM狀態(tài)。
      新的權(quán)重系數(shù)(Wi)可以按照如下公式計(jì)算Wi=wiw1+w2+...+a&times;wn,]]>這里wi是原始權(quán)重系數(shù),wn是最小權(quán)重系數(shù),a是常數(shù),并且其中一個(gè)狀態(tài)級(jí)別中的所有權(quán)重系數(shù)之和為1。
      將所述訓(xùn)練語音波形分割成不同狀態(tài)的步驟包括對(duì)所述訓(xùn)練語音波形文件應(yīng)用狀態(tài)級(jí)強(qiáng)制對(duì)準(zhǔn)(force alignment)操作。
      從另外一個(gè)方面來說,本發(fā)明是一種用于調(diào)整語音識(shí)別數(shù)據(jù)庫的系統(tǒng),該系統(tǒng)包括微處理器;與所述微處理器有效相連、用于從第一說話人接收訓(xùn)練語音波形的麥克風(fēng);與所述微處理器有效相連的可編程存儲(chǔ)器,所述可編程存儲(chǔ)器包括說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫;與所述微處理器有效相連的只讀存儲(chǔ)器(ROM);所述微處理器可以有效地執(zhí)行所述ROM中的可執(zhí)行代碼,從而把所述訓(xùn)練語音波形分割成對(duì)應(yīng)于隱含馬爾可夫模型(HMM)的狀態(tài)的塊;為每個(gè)所述HMM狀態(tài)計(jì)算對(duì)應(yīng)于所述第一說話人的說話人相關(guān)的高斯概率密度函數(shù)(PDF);對(duì)所述說話人無關(guān)的聲學(xué)模板數(shù)據(jù)庫中的每個(gè)所述HMM狀態(tài),用所述說話人相關(guān)PDF替換說話人無關(guān)PDF,其中所述說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫包括多個(gè)說話人無關(guān)HMM,在每個(gè)HMM中包括多個(gè)高斯PDF,每個(gè)PDF都具有原始的權(quán)重系數(shù);和在所述說話人無關(guān)的聲學(xué)模板數(shù)據(jù)庫中為每個(gè)所述說話人無關(guān)和說話人相關(guān)PDF重新計(jì)算權(quán)重系數(shù)。
      所述微處理器還可通過將所述訓(xùn)練語音波形轉(zhuǎn)換為MFCC特征文件有效地對(duì)所述訓(xùn)練語音波形進(jìn)行前期信號(hào)處理的操作。
      所述微處理器可進(jìn)一步有效地從第二說話人接收訓(xùn)練語音波形;和對(duì)說話人無關(guān)聲學(xué)模版數(shù)據(jù)庫中的每個(gè)所述狀態(tài),用對(duì)應(yīng)于所述第二說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF的操作。
      所述微處理器可進(jìn)一步有效地從多個(gè)說話人接收訓(xùn)練語音波形;和對(duì)每一個(gè)所述HMM狀態(tài),用對(duì)應(yīng)于多個(gè)說話人中的每一個(gè)說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF的操作。
      在本說明書以及權(quán)利要求書中,術(shù)語“包括(comprises、comprising)”以及類似術(shù)語的含義是指非排他性的包括,因此包括一系列組件的方法或裝置,其不僅包括那些已單獨(dú)列出的組件,還可能很好地包括那些沒有列出的其它組件。


      為了使本發(fā)明易于理解并付諸實(shí)施,現(xiàn)在將結(jié)合附圖來參考引用優(yōu)選實(shí)施例,其中相似的引用數(shù)字指代類似的組件,在附圖中圖1為說明根據(jù)本發(fā)明的實(shí)施例、用于生成一個(gè)同時(shí)適應(yīng)于說話人相關(guān)和說話人無關(guān)語音識(shí)別的語音識(shí)別聲學(xué)模板數(shù)據(jù)庫的方法的流程圖。
      圖2為說明根據(jù)本發(fā)明的實(shí)施例、計(jì)算均值向量和協(xié)方差矩陣的方法的流程圖,該方法不需要把屬于某個(gè)HMM狀態(tài)的所有特征向量首先加載入RAM。
      圖3為說明本發(fā)明的一個(gè)實(shí)施例對(duì)說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫的影響的高斯PDF的曲線圖。
      圖4為說明本發(fā)明對(duì)高斯混合的影響的圖;和圖5為說明一種移動(dòng)電話形式的系統(tǒng)(諸如可用來實(shí)現(xiàn)本發(fā)明的
      具體實(shí)施例方式
      參看圖1,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例、用于生成一個(gè)同時(shí)適應(yīng)于說話人相關(guān)和說話人無關(guān)語音識(shí)別的語音識(shí)別聲學(xué)模板數(shù)據(jù)庫的方法100的流程圖。首先,在步驟105,接收訓(xùn)練語音波形。之后,在步驟110,對(duì)所接收的波形進(jìn)行前期信號(hào)處理。然后,在步驟115將信號(hào)波形分成對(duì)應(yīng)于隱含馬爾可夫模型的狀態(tài)的塊。在步驟120對(duì)每個(gè)HMM狀態(tài)計(jì)算說話人相關(guān)的高斯概率分布函數(shù)(PDF)。然后,在步驟125,對(duì)每個(gè)HMM狀態(tài),用說話人相關(guān)PDF替代說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫130中的說話人無關(guān)PDF。最后,在步驟135,為每個(gè)說話人無關(guān)和說話人相關(guān)PDF計(jì)算新的權(quán)重系數(shù)。因此,新的系數(shù)和說話人相關(guān)PDF提供了一個(gè)改進(jìn)的說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫140,該數(shù)據(jù)庫可以適用于說話人相關(guān)語音識(shí)別。
      上述方法100可以被結(jié)合到各種類型的說話人無關(guān)語音識(shí)別系統(tǒng)中。方法100特別的應(yīng)用于結(jié)合進(jìn)語音識(shí)別功能的掌上設(shè)備當(dāng)中,例如移動(dòng)電話或者個(gè)人數(shù)字助理(PDA)。由于在此類設(shè)備相關(guān)的應(yīng)用環(huán)境下,例如在大量用戶在短時(shí)間內(nèi)需要聲音識(shí)別功能的情況下,方法100提高了語音識(shí)別的正確率,所以方法100可以有效地應(yīng)用于掌上設(shè)備當(dāng)中。同時(shí),根據(jù)某些實(shí)施例,方法100包含高效率的算法,使得處理器負(fù)荷較輕,這樣節(jié)省了掌上設(shè)備有限的能量、存儲(chǔ)器和處理器資源。在下邊將對(duì)方法100進(jìn)行更加詳細(xì)的描述。
      首先,在步驟105,當(dāng)?shù)谝徽f話人向掌上設(shè)備的麥克風(fēng)讀入預(yù)先定義的文字材料中的詞匯或者語音片斷的時(shí)候,訓(xùn)練語音波形就可以包括該第一說話人提供的發(fā)音。預(yù)先定義的文字材料最好包括一個(gè)大范圍的語音樣本使得語音識(shí)別系統(tǒng)可以通過得到很好的訓(xùn)練來更好地識(shí)別第一說話人的聲音。第一說話人一般來說是語音識(shí)別系統(tǒng)的主要使用人,他/她更傾向于調(diào)整系統(tǒng)適合他/她的語音從而提高系統(tǒng)的識(shí)別率,也就是說使系統(tǒng)調(diào)整為說話人相關(guān)的情況。在本技術(shù)領(lǐng)域中,使用語音識(shí)別訓(xùn)練文字材料的方法是公知的,因此該文字材料的細(xì)節(jié)就不在這里提供了。
      在步驟110,對(duì)接收的訓(xùn)練語音波形進(jìn)行前期處理,把它們從波形轉(zhuǎn)化成為特征文件。這樣特征文件的例子包括Mel-頻率倒譜系數(shù)(MFCC)特征文件。
      接著,在步驟115,將轉(zhuǎn)換之后的訓(xùn)練語音波形分成對(duì)應(yīng)于HMM的狀態(tài)的塊。分塊步驟115是訓(xùn)練文字材料的語音成分(例如詞匯和音素)與MFCC特征文件強(qiáng)制對(duì)準(zhǔn)的操作。強(qiáng)制對(duì)準(zhǔn)操作在語音識(shí)別技術(shù)領(lǐng)域也是公知的,因此更詳細(xì)的細(xì)節(jié)就不在這里提供了。
      每個(gè)HMM狀態(tài)代表了一個(gè)訓(xùn)練語音波形的片斷,同時(shí)在語音識(shí)別系統(tǒng)中組成了用來將輸入語音與單詞進(jìn)行匹配的基本建模單元。每個(gè)HMM狀態(tài)包括大量高斯PDF。每個(gè)狀態(tài)擁有的大量PDF幫助說話人無關(guān)語音識(shí)別系統(tǒng)在大量說話人的多樣的詞匯發(fā)音和語音特質(zhì)情況下得到更好的識(shí)別。多PDF形成了PDF的高斯混合并且從代表不同說話人的大量訓(xùn)練樣本中通過估計(jì)得出。
      一個(gè)混合高斯函數(shù)可以根據(jù)下面的公式定義f(x)=&Sigma;i=1Nwig(x,&mu;i,&Sigma;i)]]>(公式1)這里g(x,μi,Σi)是高斯PDF,μi是均值向量,Σi是協(xié)方差矩陣,x是隨機(jī)d維的語音特征向量,wi是權(quán)重系數(shù),N是高斯混合中高斯分布的個(gè)數(shù)。
      方法100中的步驟120,對(duì)每個(gè)HMM狀態(tài)計(jì)算說話人相關(guān)PDF。訓(xùn)練語音波形根據(jù)HMM狀態(tài)進(jìn)行對(duì)準(zhǔn)之后,所有屬于某個(gè)HMM狀態(tài)的特征向量被聚類,并從特征向量估計(jì)單一高斯PDF,N(μ,Σ)。因此,單一高斯函數(shù)可以用來代表屬于每個(gè)HMM狀態(tài)的所有特征向量參數(shù)。例如,對(duì)于所有與HMM狀態(tài)k對(duì)準(zhǔn)的特征向量&mu;k=&Sigma;ON,]]>且 (公式2)&Sigma;k=&Sigma;[(O-&mu;k)&times;(O-&mu;k)]N]]>(公式3)所有O訓(xùn)練波形與HMM狀態(tài)k對(duì)準(zhǔn),N是與HMM狀態(tài)對(duì)準(zhǔn)的所有特征向量的個(gè)數(shù)。
      為了在實(shí)際的語音識(shí)別系統(tǒng)中應(yīng)用上述公式2和3,只有把所有屬于狀態(tài)k的特征向量都讀入到隨機(jī)存取存儲(chǔ)器(RAM)才能計(jì)算得到均值向量μk和協(xié)方差矩陣Σk。然而,對(duì)于嵌入到掌上設(shè)備的語音識(shí)別系統(tǒng),可能沒有足夠的RAM來進(jìn)行這樣的計(jì)算。因此,根據(jù)本發(fā)明的一個(gè)實(shí)施例,為了減少空間復(fù)雜度,下面的方法200可以被應(yīng)用來計(jì)算均值向量和協(xié)方差矩陣。參照?qǐng)D2描述了用于計(jì)算均值向量和協(xié)方差矩陣的方法200的流程圖,該方法不需要把屬于某個(gè)HMM狀態(tài)的所有特征向量首先讀入存儲(chǔ)器。首先,步驟205是初始化步驟,在這里μk和Σk都被置零。然后,在步驟210,對(duì)于每個(gè)屬于HMM狀態(tài)k的訓(xùn)練波形O,設(shè)置μk(i)=μk(i)+O,且 (公式4)Σk(i,j)=Σk(i,j)+O(i)·O(j) (公式5)在這里i和j表示維數(shù)下標(biāo)。在步驟215,對(duì)所有HMM狀態(tài)k,設(shè)置&mu;k(i)=&mu;k(i)N]]>(公式6)最后,在步驟220,對(duì)所有HMM狀態(tài)k,設(shè)置
      &Sigma;k(i,j)=&Sigma;k(i,j)N-&mu;k(i)&CenterDot;&mu;k(j)]]>(公式7)再次參照?qǐng)D1,方法100繼續(xù)到步驟125,在這里對(duì)每個(gè)HMM狀態(tài),用說話人相關(guān)PDF替代說話人無關(guān)PDF。上述的強(qiáng)制對(duì)準(zhǔn)操作確保了對(duì)說話人相關(guān)訓(xùn)練波形建模的HMM狀態(tài)個(gè)數(shù)和對(duì)說話人無關(guān)建模的HMM狀態(tài)個(gè)數(shù)相同,這也使得上述的替換操作成為可能。被替換的說話人無關(guān)PDF從說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫130中獲得。對(duì)每個(gè)狀態(tài),特定的說話人無關(guān)PDF應(yīng)該按照下述的方法進(jìn)行替換。
      再次參看公式1,權(quán)重系數(shù)wi用來估計(jì)訓(xùn)練波形中第i個(gè)PDF與給出的輸入到語音識(shí)別系統(tǒng)中的語音波形片斷相一致的概率。權(quán)重系數(shù)wi在一個(gè)說話人無關(guān)語音識(shí)別系統(tǒng)中是非常重要的,因?yàn)樗硎玖寺湓诘趇個(gè)PDF的訓(xùn)練波形的比例。一個(gè)大的wi表示很多數(shù)量的訓(xùn)練波形屬于第i個(gè)高斯分布,同時(shí)一個(gè)小的wi表示只有很少數(shù)量的訓(xùn)練波形屬于第i個(gè)高斯分布。為此在方法100的步驟125中,通常更傾向于替換被賦予較小wi的說話人無關(guān)PDF。統(tǒng)計(jì)上,這樣將帶來最小的關(guān)于說話人無關(guān)語音識(shí)別的性能退化,在下邊將會(huì)進(jìn)行更加詳細(xì)的描述。
      最后,方法100在步驟135終止,為每個(gè)說話人無關(guān)和說話人相關(guān)PDF計(jì)算新的權(quán)重系數(shù)。因?yàn)楸惶鎿Q的說話人無關(guān)高斯PDF被賦予最小的原始權(quán)重系數(shù),所以作為替換的說話人相關(guān)高斯PDFs需要被賦予新的權(quán)重系數(shù)wi以獲得滿意的適應(yīng)性能。假設(shè)在某個(gè)狀態(tài)下的所有權(quán)重系數(shù)wi之和等于1,每個(gè)狀態(tài)下每個(gè)高斯PDF的所有權(quán)重系數(shù)wi可以被重新計(jì)算如下。假設(shè)某狀態(tài)下,初始的n個(gè)高斯PDF為P1,P2,...,Pn;并且對(duì)應(yīng)的原始權(quán)重系數(shù)是w1,w2,...,wn,在這里wn是最小的原始權(quán)重系數(shù)。用新估計(jì)的說話人相關(guān)PDF替換Pn之后,用常數(shù)α與wn相乘。這個(gè)常數(shù)α與給定的語音識(shí)別用戶就是在步驟105中朗讀訓(xùn)練語音波形的說話人的可能程度有關(guān)。每個(gè)PDF的新權(quán)重系數(shù)Wi可以用下邊的公式計(jì)算
      Wi=wiw1+w2+...+a&times;wn]]>(公式8)因此,新權(quán)重系數(shù)wi可以形成適應(yīng)說話人相關(guān)語音識(shí)別的修改后的說話人無關(guān)數(shù)據(jù)庫140。也就是說修改后的說話人無關(guān)數(shù)據(jù)庫140仍然可以使相應(yīng)的語音識(shí)別系統(tǒng)作為說話人無關(guān)系統(tǒng)而起作用;然而數(shù)據(jù)庫140現(xiàn)在同時(shí)也可以使相應(yīng)的語音識(shí)別系統(tǒng)作為說話人相關(guān)識(shí)別而起作用,并且擁有更高的準(zhǔn)確率。
      參照?qǐng)D3,是用來描述本發(fā)明的一個(gè)實(shí)施例對(duì)說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫130上的高斯PDF的曲線圖。圖3示出了根據(jù)本發(fā)明的處理方法對(duì)數(shù)據(jù)庫130進(jìn)行調(diào)整前后的高斯PDF比較。圖3中示出了十個(gè)高斯混合的PDFs。較小的、低幅度的PDF曲線示出了每個(gè)混合元素的權(quán)重分布。假設(shè)PDF 305擁有最小的權(quán)重系數(shù),根據(jù)方法100中的步驟125,用PDF 310對(duì)它進(jìn)行替換。較大的、高幅度的PDF曲線示出了應(yīng)用替換步驟125之后整體PDF分布上的效果。注意到替換步驟125只對(duì)整體PDF分布產(chǎn)生了很小的影響。替換前的曲線315僅僅向左偏移一點(diǎn)就可以得到變換后的曲線320。
      與圖3相關(guān)的實(shí)際效果是,根據(jù)本發(fā)明改進(jìn)的說話人無關(guān)語音識(shí)別系統(tǒng)的性能只有很小的退化。反過來,對(duì)于訓(xùn)練系統(tǒng)的說話人,系統(tǒng)的性能有了極大的提高。
      參照?qǐng)D4,提供了本發(fā)明對(duì)高斯混合德影響的另一個(gè)圖示。在圖4箭頭左側(cè)是六個(gè)橢圓的集合,每個(gè)橢圓表示一個(gè)高斯PDF。假設(shè)每個(gè)橢圓的大小對(duì)應(yīng)其權(quán)重系數(shù)。一個(gè)大的橢圓表示該P(yáng)DF擁有比較大的權(quán)重系數(shù)。這樣,黑色橢圓405表示了最小權(quán)重的高斯PDF。圖4箭頭右側(cè)表示根據(jù)上述的方法100把最小權(quán)重高斯PDF替換為說話人相關(guān)高斯PDF之后的相同的高斯混合。圖4右側(cè)的垂直朝向的、略微陰影的橢圓410表示了替換后的說話人相關(guān)高斯PDF。這樣,圖4同樣表明了經(jīng)過本發(fā)明方法處理后的高斯混合函數(shù)沒有很顯著的變化。
      再次參見圖1,在步驟145確定系統(tǒng)是否需要對(duì)附加的說話人進(jìn)行訓(xùn)練。如果需要,方法100返回到步驟105。圖3和圖4也可被用來表示本發(fā)明的方法是如何調(diào)整說話人無關(guān)高斯混合函數(shù),使它適應(yīng)于多于一個(gè)說話人的說話人相關(guān)系統(tǒng)。也就是說可以通過替換多說話人無關(guān)高斯PDF為多說話人相關(guān)高斯PDF來使用多說話人訓(xùn)練系統(tǒng)。例如,再次參見圖3,第二說話人可以重復(fù)應(yīng)用上述方法100來產(chǎn)生第二說話人相關(guān)的PDF,可以用它來替換圖3所示的較小的、低幅度PDF曲線之一如。類似的,參照?qǐng)D4,如果第二說話人根據(jù)本發(fā)明訓(xùn)練了說話人無關(guān)語音識(shí)別系統(tǒng),就可以替換第二個(gè)PDF橢圓,也就是說最好替換第二低權(quán)重的PDF。附加的PDF替換將再次給系統(tǒng)的說話人無關(guān)性能帶來很小的退化,相反將會(huì)對(duì)說話人相關(guān)識(shí)別有非常大的改進(jìn)。根據(jù)在說話人無關(guān)模型中的PDF數(shù)量,每個(gè)新說話人都可以簡(jiǎn)單重復(fù)應(yīng)用方法100訓(xùn)練系統(tǒng)來加入第三個(gè)、第四個(gè)或者更多數(shù)量的說話人相關(guān)PDF。優(yōu)選地,每個(gè)新說話人相關(guān)PDF都可以替換下一個(gè)最小權(quán)重的說話人無關(guān)PDF,同時(shí)保留前面的被其它說話人用來調(diào)整的說話人相關(guān)PDF。
      下表中列出了由本發(fā)明得出的語音識(shí)別改善的性能。表1是利用兩個(gè)說話人無關(guān)(SI)數(shù)據(jù)庫(SI數(shù)據(jù)I和SI數(shù)據(jù)II)測(cè)試的從本發(fā)明的一個(gè)實(shí)施例得出的試驗(yàn)數(shù)據(jù)。兩個(gè)數(shù)據(jù)庫都是從移動(dòng)電話環(huán)境收集的美國(guó)英語的數(shù)字?jǐn)?shù)據(jù)庫。SI數(shù)據(jù)I有約500個(gè)說話人的12169個(gè)數(shù)字的發(fā)音SI數(shù)據(jù)II有約11個(gè)說話人的13665個(gè)數(shù)字的發(fā)音。所述SI數(shù)據(jù)II數(shù)據(jù)庫包括大量非正常字符串,因此所顯示出的基本性能比SI數(shù)據(jù)I數(shù)據(jù)庫的基本性能要低很多。利用不同說話人訓(xùn)練SI數(shù)據(jù)庫的方法,進(jìn)行了三組試驗(yàn)。在每個(gè)說話人訓(xùn)練每個(gè)數(shù)據(jù)庫之后,對(duì)SI和數(shù)據(jù)庫的說話人相關(guān)(SD)性能進(jìn)行評(píng)估。顯示在表1中的結(jié)果是表示SD和SI性能的平均語音識(shí)別正確百分率。如上所述,表1表明了伴隨著說話人無關(guān)語音識(shí)別性能的微小退化,本發(fā)明在說話人無關(guān)語音識(shí)別性能上有著怎樣的顯著提高。
      表1語音識(shí)別性能

      表2示出了多說話人的適應(yīng)實(shí)驗(yàn)的結(jié)果,在這里根據(jù)本發(fā)明訓(xùn)練SI數(shù)據(jù)庫以識(shí)別多說話人。表2表明更多的說話人對(duì)SI系統(tǒng)進(jìn)行適應(yīng)的時(shí)候,SI性能呈現(xiàn)遞增的退化。然而,雖然數(shù)據(jù)庫被三個(gè)說話人訓(xùn)練之后的退化性能百分比是非常顯著的,但是注意到實(shí)際說話人無關(guān)語音識(shí)別的性能卻保持相當(dāng)高的水平(例如,在經(jīng)過三個(gè)說話人根據(jù)本發(fā)明的訓(xùn)練之后,SI數(shù)據(jù)I的基本性能僅僅從99.52%下降到99.18%)。表2同時(shí)也表明在更多的說話人按照本發(fā)明在某個(gè)數(shù)據(jù)庫上被訓(xùn)練的同時(shí),對(duì)每個(gè)說話人的語音識(shí)別性能也有所下降(例如,說話人1的錯(cuò)誤減少性能從只對(duì)一個(gè)說話人進(jìn)行適應(yīng)的80.38%下降到對(duì)三個(gè)說話人進(jìn)行適應(yīng)的74.51%)。
      表2語音識(shí)別性能

      參照?qǐng)D5,示出了一個(gè)諸如可用于實(shí)現(xiàn)本發(fā)明的上述方法的移動(dòng)電話501形式的系統(tǒng)的示意框圖。電話501包括射頻通信模塊502,其與處理器503連接并通信。形式上為顯示屏幕505,鍵盤506,揚(yáng)聲器515,和麥克風(fēng)519的接口也通信與處理器503連接并通信。
      處理器503包括編/解碼器511以及與之相關(guān)的用于存儲(chǔ)對(duì)語音或其它信號(hào)進(jìn)行編碼和解碼的數(shù)據(jù)的只讀存儲(chǔ)器(ROM)512,該數(shù)據(jù)可以通過移動(dòng)電話發(fā)送或接收。處理器503還包括一個(gè)微處理器513其通過公共數(shù)據(jù)和地址總線517連接到編/解碼器511和相關(guān)的只讀存儲(chǔ)器(ROM)512、514,另外處理器503還包括隨機(jī)存取存儲(chǔ)器(RAM)504,靜態(tài)可編程存儲(chǔ)器516和可拆卸的SIM模塊518。其中,靜態(tài)可編程存儲(chǔ)器516和SIM模塊518可以分別存儲(chǔ)例如本發(fā)明所描述的說話人無關(guān)語音識(shí)別數(shù)據(jù)庫。
      射頻通信單元502是共用一個(gè)天線507的接收器和發(fā)射器的組合。通信單元502擁有的收發(fā)器508通過射頻放大器509與天線507相連接。收發(fā)器508也與組合的調(diào)制/解調(diào)器510相連接,該調(diào)制/解調(diào)器使通信單元502和處理器503相連接。
      微處理器513擁有用于連接到例如鍵盤506,屏幕505,揚(yáng)聲器515和麥克風(fēng)519的接口。只讀存儲(chǔ)器514存儲(chǔ)用于對(duì)麥克風(fēng)519接收的發(fā)音進(jìn)行語音識(shí)別的代碼,如上所述。
      因此,根據(jù)本發(fā)明的方法100,電話501的主要使用者可能會(huì)通過把訓(xùn)練文字材料讀入到麥克風(fēng)519來訓(xùn)練電話501使它能夠更好的識(shí)別他/她的聲音。之后微處理器513對(duì)訓(xùn)練語音波形進(jìn)行分割,計(jì)算說話人相關(guān)PDF,同時(shí)對(duì)每個(gè)HMM狀態(tài),把存儲(chǔ)在諸如靜態(tài)可編程存儲(chǔ)器516當(dāng)中的說話人無關(guān)PDF替換為說話人相關(guān)PDF。如上所述,電話501的附加主要用戶同時(shí)也重復(fù)使用方法100訓(xùn)練電話501來識(shí)別他們的聲音。
      依照用戶對(duì)語音識(shí)別的需求,通過進(jìn)一步對(duì)電話501編程來自動(dòng)判斷從麥克風(fēng)519所接收到的發(fā)音是訓(xùn)練過電話的用戶還是其它用戶說出的??商鎿Q地,電話501的用戶可以首先發(fā)出命令標(biāo)識(shí)他或她自己,以使電話501能夠立即知道在使用語音識(shí)別過程中采用哪個(gè)說話人相關(guān)PDF,以確保最高準(zhǔn)確率。在發(fā)音被識(shí)別之后,它可以被顯示在屏幕505上或者利用揚(yáng)聲器515有聲地重復(fù)聲音,用于由用戶確認(rèn)識(shí)別的準(zhǔn)確性??商鎿Q地,用戶可以直接把識(shí)別的發(fā)音輸入到文件中,例如輸入到文本消息文件中。
      因此,本發(fā)明用于提高語音識(shí)別系統(tǒng)的語音識(shí)別準(zhǔn)確率。對(duì)于特定的主要使用者,通過把說話人無關(guān)語音識(shí)別數(shù)據(jù)庫調(diào)整成為適用于一個(gè)或者多個(gè)說話人的說話人相關(guān)數(shù)據(jù)庫,語音識(shí)別系統(tǒng)的準(zhǔn)確性可以顯著地提高,同時(shí)第二使用者仍然可以在語音識(shí)別準(zhǔn)確率下降很少的說話人無關(guān)模式下利用系統(tǒng)。某些本發(fā)明的實(shí)施例也包括高效率的算法,與本領(lǐng)域現(xiàn)有的算法相比減少了處理器密集度(processorintensive),同時(shí)節(jié)省諸如移動(dòng)電話和個(gè)人數(shù)字助理(PDA)等掌上設(shè)備中有限的能量、存儲(chǔ)器和處理器資源。
      上面的詳細(xì)說明只是為了提供優(yōu)選的示范實(shí)施例,而并不想限制本發(fā)明的范圍、適用性或結(jié)構(gòu)。對(duì)優(yōu)選示范實(shí)施例的詳細(xì)說明是為了向本領(lǐng)域技術(shù)人員提供一個(gè)使其能夠?qū)崿F(xiàn)本發(fā)明的優(yōu)選實(shí)施例的說明。應(yīng)該可以理解,在不背離所附權(quán)利要求中所闡述的本發(fā)明的精神和范圍的前提下,可以對(duì)組件及步驟的功能和結(jié)構(gòu)做出多種不同的改變。
      權(quán)利要求
      1.一種用于生成可以同時(shí)適用于說話人相關(guān)和說話人無關(guān)語音識(shí)別的語音識(shí)別聲學(xué)模板數(shù)據(jù)庫的方法,所述方法包括如下步驟從第一說話人接收訓(xùn)練語音波形;把所述訓(xùn)練語音波形分割成對(duì)應(yīng)于隱含馬爾可夫模型(HMM)的狀態(tài)的塊;對(duì)每個(gè)所述HMM狀態(tài)計(jì)算對(duì)應(yīng)于所述第一說話人的說話人相關(guān)高斯概率密度函數(shù)(PDF);在說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫中,對(duì)每個(gè)所述HMM狀態(tài),用所述說話人相關(guān)PDF替換說話人無關(guān)PDF,其中所述說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫包括多個(gè)說話人無關(guān)HMM,其中每個(gè)HMM包括多個(gè)高斯PDF,每個(gè)PDF擁有一個(gè)原始的權(quán)重系數(shù);和在所述說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫中,為每個(gè)所述說話人無關(guān)和說話人相關(guān)PDF計(jì)算新的權(quán)重系數(shù)。
      2.如權(quán)利要求1所述的方法,其中所述對(duì)每個(gè)所述狀態(tài)用所述說話人相關(guān)PDF替換說話人無關(guān)PDF的步驟,對(duì)每個(gè)所述狀態(tài)中擁有最小原始權(quán)重系數(shù)的說話人無關(guān)PDF進(jìn)行替換。
      3.如權(quán)利要求1所述的方法,其進(jìn)一步包括通過把所述訓(xùn)練語音波形轉(zhuǎn)換為MFCC特征文件來對(duì)所述訓(xùn)練語音波形執(zhí)行前期信號(hào)處理的步驟。
      4.如權(quán)利要求1所述的方法,其進(jìn)一步包括如下步驟從第二說話人接收訓(xùn)練語音波形;和在所述說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫中,對(duì)每個(gè)所述狀態(tài),用對(duì)應(yīng)于所述第二說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF。
      5.如權(quán)利要求4所述的方法,其中所述對(duì)應(yīng)于第二說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF的步驟,對(duì)每個(gè)所述狀態(tài)中具有第二小原始權(quán)重系數(shù)的說話人無關(guān)PDF進(jìn)行替換。
      6.如權(quán)利要求1所述的方法,其進(jìn)一步包括如下步驟從多個(gè)說話人接收訓(xùn)練語音波形;和對(duì)每個(gè)所述HMM狀態(tài),用對(duì)應(yīng)于多個(gè)說話人中每個(gè)說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF。
      7.如權(quán)利要求1所述的方法,其中每個(gè)所述的PDF包括一個(gè)均值向量(μ)和一個(gè)協(xié)方差矩陣(∑)所述均值向量根據(jù)如下公式計(jì)算&mu;k(i)=&mu;k(i)N,]]>這里N是與狀態(tài)級(jí)別對(duì)準(zhǔn)的特征向量的數(shù)目;和所述協(xié)方差矩陣根據(jù)如下公式計(jì)算&Sigma;k(i,j)=&Sigma;k(i,j)N-&mu;k(i)&CenterDot;&mu;k(j),]]>這里i和j表示維數(shù)下標(biāo),k表示HMM狀態(tài)。
      8.如權(quán)利要求1所述的方法,所述新權(quán)重系數(shù)(Wi)根據(jù)如下公式計(jì)算Wi=wiw1+w2+&CenterDot;&CenterDot;&CenterDot;+a&times;wn,]]>這里wi是原始權(quán)重系數(shù),wn是最小權(quán)重系數(shù),a是常數(shù),并且一個(gè)狀態(tài)級(jí)別中的所有權(quán)重系數(shù)之和為1。
      9.如權(quán)利要求1所述的方法,其中所述把所述訓(xùn)練語音波形分割成塊的步驟包括對(duì)所述訓(xùn)練語音波形應(yīng)用狀態(tài)級(jí)別強(qiáng)制對(duì)準(zhǔn)操作。
      10.一種用于適應(yīng)語音識(shí)別數(shù)據(jù)庫的系統(tǒng),所述系統(tǒng)包括微處理器;有效與所述微處理器相連的、用于從第一說話人接收訓(xùn)練語音波形的麥克風(fēng);有效與所述微處理器相連的可編程存儲(chǔ)器,所述可編程存儲(chǔ)器包括說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫;有效與所述微處理器相連的只讀存儲(chǔ)器(ROM);所述微處理器有效地執(zhí)行所述ROM中的代碼,以把所述語音波形分割成對(duì)應(yīng)于隱含馬爾可夫模型(HMM)的狀態(tài)的塊;對(duì)每個(gè)所述HMM狀態(tài)計(jì)算對(duì)應(yīng)于所述第一說話人的說話人相關(guān)高斯概率密度函數(shù)(PDF);在所述說話人無關(guān)聲音模板數(shù)據(jù)庫中,對(duì)每個(gè)所述HMM狀態(tài)用說話人相關(guān)PDF替換說話人無關(guān)PDF,其中所述說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫包括多個(gè)說話人無關(guān)HMM,其中每個(gè)HMM包括多個(gè)高斯PDF,每個(gè)PDF都有一個(gè)原始權(quán)重系數(shù);和在所述說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫中,為每個(gè)所述說話人無關(guān)和說話人相關(guān)PDF計(jì)算新的權(quán)重系數(shù)。
      11.如權(quán)利要求10所述的系統(tǒng),其中所述對(duì)每個(gè)所述狀態(tài)用說話人相關(guān)PDF替換說話人無關(guān)PDF的步驟,對(duì)每個(gè)狀態(tài)中具有最小原始權(quán)重系數(shù)的說話人無關(guān)PDF進(jìn)行替換。
      12.如權(quán)利要求10所述的系統(tǒng),其中所述微處理器進(jìn)一步通過把所述訓(xùn)練語音波形轉(zhuǎn)換為MFCC特征文件,來有效地對(duì)所述訓(xùn)練語音波形進(jìn)行前期信號(hào)處理。
      13.如權(quán)利要求10所述的系統(tǒng),其中所述微處理器進(jìn)一步有效地從第二說話人接收訓(xùn)練語音波形;和在說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫中,對(duì)每個(gè)所述狀態(tài),用對(duì)應(yīng)于所述第二說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF。
      14.如權(quán)利要求10所述的系統(tǒng),其中所述用對(duì)應(yīng)于第二說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF的步驟,對(duì)每個(gè)所述狀態(tài)中具有第二小原始權(quán)重的說話人無關(guān)PDF進(jìn)行替換。
      15.如權(quán)利要求10所述的系統(tǒng),其中所述微處理器中進(jìn)一步有效地從多個(gè)說話人接收訓(xùn)練語音波形,以及對(duì)每個(gè)所述狀態(tài)用對(duì)應(yīng)于所述多個(gè)說話人中每個(gè)說話人的說話人相關(guān)PDF替換說話人無關(guān)PDF。
      全文摘要
      本發(fā)明公開一種用于生成語音識(shí)別聲學(xué)模板數(shù)據(jù)庫的方法和系統(tǒng),該數(shù)據(jù)庫可以同時(shí)適用于說話人相關(guān)以及說話人無關(guān)語音識(shí)別。所得出的數(shù)據(jù)庫可以在輕微降低說話人無關(guān)語音識(shí)別性能的同時(shí)顯著地提高說話人相關(guān)語音識(shí)別的性能。該方法包括如下步驟從第一說話人接收訓(xùn)練語音波形(步驟105);把訓(xùn)練語音波形分割成對(duì)應(yīng)于隱含馬爾可夫模型(HMM)的狀態(tài)的塊(步驟115);對(duì)每個(gè)所述HMM狀態(tài)計(jì)算說話人相關(guān)的高斯概率密度函數(shù)(PDF)(步驟120);在說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫中,對(duì)每個(gè)所述HMM狀態(tài),用說話人相關(guān)PDF替代所述說話人無關(guān)PDF,其中所述說話人無關(guān)聲學(xué)模板數(shù)據(jù)庫包括多個(gè)說話人無關(guān)HMM,其中每個(gè)HMM包括多個(gè)高斯PDF,每個(gè)PDF都有原始的權(quán)重系數(shù)(步驟125);和在所述說話人無關(guān)的聲學(xué)模板數(shù)據(jù)庫中為每個(gè)所述說話人無關(guān)和說話人相關(guān)PDF計(jì)算新的權(quán)重系數(shù)。
      文檔編號(hào)G10L15/00GK1627365SQ20031011828
      公開日2005年6月15日 申請(qǐng)日期2003年12月9日 優(yōu)先權(quán)日2003年12月9日
      發(fā)明者張亞昕, 何昕, 任曉林, 孫放, 吳邊 申請(qǐng)人:摩托羅拉公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1