使用本征話音技術(shù)使說(shuō)話者規(guī)范化并使其與環(huán)境相適應(yīng)的制作方法

文檔序號(hào)：2820833閱讀：392來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：使用本征話音技術(shù)使說(shuō)話者規(guī)范化并使其與環(huán)境相適應(yīng)的制作方法
與相關(guān)申請(qǐng)的交叉參照這是序列號(hào)為09/070,208、標(biāo)題為“基于本征話音的說(shuō)話者和環(huán)境適應(yīng)”的美國(guó)專利申請(qǐng)及序列號(hào)為09/070,054標(biāo)題為“用于在本征話音空間中尋求適應(yīng)說(shuō)話者模型的最大似然方法”的美國(guó)專利申請(qǐng)的部分繼續(xù)申請(qǐng)。
本發(fā)明一般涉及語(yǔ)音識(shí)別，并特別涉及說(shuō)話者適應(yīng)，從而修改語(yǔ)音識(shí)別模型參數(shù)以便更好地識(shí)別新的說(shuō)話者語(yǔ)音。
語(yǔ)音識(shí)別系統(tǒng)可以是說(shuō)話者相關(guān)的或說(shuō)話者無(wú)關(guān)的。通過(guò)給出由個(gè)人發(fā)出的大量詞語(yǔ)例子(這些例子稱為“訓(xùn)練數(shù)據(jù)”)說(shuō)話者相關(guān)系統(tǒng)受到訓(xùn)練，以便理解單獨(dú)的個(gè)人說(shuō)的是什么。說(shuō)話者相關(guān)系統(tǒng)對(duì)于它們所針對(duì)訓(xùn)練的個(gè)人可能是很精確，而對(duì)于其它每一個(gè)人是不精確的。說(shuō)話者無(wú)關(guān)系統(tǒng)設(shè)計(jì)為由講應(yīng)用語(yǔ)言的任何人使用；一般來(lái)說(shuō)，他們就來(lái)自許多不同的人的數(shù)據(jù)受到訓(xùn)練。對(duì)不在訓(xùn)練數(shù)據(jù)內(nèi)說(shuō)話者進(jìn)行識(shí)別，說(shuō)話者無(wú)關(guān)系統(tǒng)的錯(cuò)誤率，與可比的說(shuō)話者相關(guān)系統(tǒng)對(duì)系統(tǒng)被訓(xùn)練的說(shuō)話者進(jìn)行識(shí)別的錯(cuò)誤率相比大約為二到三倍高。
為了改進(jìn)性能，許多語(yǔ)音識(shí)別系統(tǒng)包括用于進(jìn)行說(shuō)話者適應(yīng)的裝置，從而語(yǔ)音識(shí)別系統(tǒng)在使用中被調(diào)節(jié)以降低錯(cuò)誤率。在當(dāng)前的技術(shù)文獻(xiàn)中所描述的基本有三種說(shuō)話者適應(yīng)方法。它們是(1)說(shuō)話者規(guī)范化(也稱為“變換”)--對(duì)由新的說(shuō)話者特征向量產(chǎn)生的數(shù)字化信號(hào)的觀測(cè)被變換，以便更接近來(lái)自說(shuō)話者相關(guān)系統(tǒng)為其被訓(xùn)練的基準(zhǔn)說(shuō)話者的觀測(cè)。在某些情形下，變換以相反方向進(jìn)行基準(zhǔn)模式被變換而更加接近于來(lái)自新的說(shuō)話者數(shù)據(jù)。
(2)說(shuō)話者分簇--使用新的說(shuō)話者的觀測(cè)，以便選擇訓(xùn)練說(shuō)話者的簇；每一簇與只對(duì)這一簇中的說(shuō)話者訓(xùn)練的隱藏馬爾科夫模型(HMM)完全集相關(guān)。一旦選擇到最適合該說(shuō)話者的簇，則使用僅來(lái)自這一簇的HMM進(jìn)行識(shí)別。
(3)模型適應(yīng)--更新一定的HMM參數(shù)以反映適應(yīng)數(shù)據(jù)的各方面。兩個(gè)最普遍的模型適應(yīng)技術(shù)是極大后驗(yàn)估計(jì)(MAP)及極大似然線性回歸(MLLR)。
雖然已經(jīng)證明這些適應(yīng)技術(shù)每一個(gè)都是有益的，但每一個(gè)都有某些缺陷。一般來(lái)說(shuō)，比較有效的適應(yīng)技術(shù)傾向于需要可觀的計(jì)算資源，并還要求對(duì)說(shuō)話者個(gè)人方面很多的訓(xùn)練。
本發(fā)明帶來(lái)了全新的技術(shù)，使用這種技術(shù)可進(jìn)行說(shuō)話者規(guī)范化及說(shuō)話者與環(huán)境適應(yīng)。該技術(shù)使最初的說(shuō)話者無(wú)關(guān)識(shí)別系統(tǒng)能夠快速獲得對(duì)新的說(shuō)話者及接近說(shuō)話者相關(guān)系統(tǒng)的新的聲音環(huán)境的性能水平，而無(wú)需對(duì)每一新的說(shuō)話者大量的訓(xùn)練數(shù)據(jù)。我們稱我們的技術(shù)為“本征話音適應(yīng)”。我們已經(jīng)發(fā)現(xiàn)本征話音適應(yīng)能夠用于各種不同的場(chǎng)合，這些場(chǎng)合將通過(guò)某些特定的例子說(shuō)明。
一般來(lái)說(shuō)，本征話音適應(yīng)涉及能夠大大改進(jìn)進(jìn)行說(shuō)話者與環(huán)境適應(yīng)的速度和效率的先進(jìn)的維數(shù)降低。維數(shù)降低是指高維空間到低維空間的映射?？墒褂酶鞣N不同的技術(shù)實(shí)現(xiàn)維數(shù)降低。這些技術(shù)包括主成分分析(PCA)，線性鑒別分析(LDA)，因素分析(FA)，單值分解(SVD)及其它使用基于方差的降低準(zhǔn)則的變換。
與文獻(xiàn)種描述的其它適應(yīng)技術(shù)不同，我們的本征話音適應(yīng)技術(shù)把維數(shù)降低用于完全說(shuō)話者模型集，以便找到覆蓋這些說(shuō)話者模型空間的基向量。作為說(shuō)明，使用維數(shù)降低在脫機(jī)步驟分析大量收集的說(shuō)話者模型，以產(chǎn)生我們稱為“本征話音向量”或“本征話音”的本征向量集合。這一脫機(jī)步驟計(jì)算上是相當(dāng)密集的，雖然只需要進(jìn)行一次。這之后，每次使用語(yǔ)音識(shí)別系統(tǒng)時(shí)，對(duì)從新的說(shuō)話者獲得的適應(yīng)數(shù)據(jù)進(jìn)行計(jì)算上耗費(fèi)不大的操作，以獲得由本征話音覆蓋的空間中的向量。這一新的向量對(duì)新的說(shuō)話者給出了適應(yīng)模型。
本發(fā)明的能力的一部分從訓(xùn)練說(shuō)話者的收集集合及識(shí)別系統(tǒng)要對(duì)得其適應(yīng)新的個(gè)別說(shuō)話者的本征話音表示導(dǎo)出。換言之，在維數(shù)降低步驟形成的本征空間表示所有的訓(xùn)練說(shuō)話者集合的語(yǔ)音特性。定義這一n維空間的各本征向量每一個(gè)包含不同的信息，并例如能夠表示為有序的列表或陣列的成員。
使用本發(fā)明大大降低了計(jì)算負(fù)擔(dān)，因?yàn)楸菊飨蛄渴钦坏模试S通過(guò)解一組線性方程式進(jìn)行計(jì)算機(jī)能夠易于進(jìn)行的隨后的計(jì)算。
能夠以數(shù)種不同的方式實(shí)現(xiàn)把新的說(shuō)話者放入本征空間內(nèi)。雖然能夠使用簡(jiǎn)單的幾何投影，把新的說(shuō)話者放入本征空間中，但我們已經(jīng)研發(fā)了一種我們稱為極大似然本征話音分解(MLED)這樣一種改進(jìn)的技術(shù)，用于把新的向量放入由本征話音覆蓋的空間。極大似然技術(shù)涉及基于來(lái)自新的說(shuō)話者的觀測(cè)數(shù)據(jù)并還基于如何構(gòu)造隱藏馬爾科夫模型的知識(shí)而構(gòu)造概率函數(shù)。使用這一概率函數(shù)，通過(guò)取導(dǎo)數(shù)并求局部極大值而獲得極大似然向量。這樣這一極大似然向量被固有地約束到由本征話音覆蓋的空間內(nèi)，并在該空間內(nèi)成為對(duì)給出可用的輸入語(yǔ)音數(shù)據(jù)新的說(shuō)話者良好的表示。
當(dāng)使用精確的說(shuō)話者相關(guān)模型良好的訓(xùn)練集合作為維數(shù)降低的基礎(chǔ)時(shí)，我們的本征話音適應(yīng)技術(shù)給出出色的結(jié)果。因而根據(jù)本發(fā)明的一個(gè)方面，在使用輔助的適應(yīng)技術(shù)使維數(shù)降低之前可獲得說(shuō)話者相關(guān)模型并使之加強(qiáng)。這類技術(shù)包括極大A后驗(yàn)估計(jì)(MAP)及其它基于變換的方法，諸如極大似然線性回歸(MLLR)。
根據(jù)本發(fā)明的另一方面，本征話音適應(yīng)技術(shù)用來(lái)開(kāi)發(fā)初始適應(yīng)模型，并且這一模型后來(lái)使用諸如上述那些輔助技術(shù)進(jìn)而被改進(jìn)。通過(guò)首先使用MLED技術(shù)并然后使用這些輔助適應(yīng)技術(shù)之一，可以獲得最好的結(jié)果。
到此所討論的本征話音適應(yīng)技術(shù)已經(jīng)涉及施加給訓(xùn)練說(shuō)話者集合的維數(shù)降低。本發(fā)明的另一方面涉及將維數(shù)降低應(yīng)用于從諸如MLLR這種基于變換的適應(yīng)技術(shù)所得到的變換矩陣。這種方法中，使用每一訓(xùn)練說(shuō)話者估計(jì)來(lái)自說(shuō)話者無(wú)關(guān)模型(例如使用MLLR)的變換矩陣集合。然后對(duì)于每一訓(xùn)練說(shuō)話者的變換矩陣集合向量化(轉(zhuǎn)換為高維超向量)。然后對(duì)超向量集合應(yīng)用維數(shù)降低技術(shù)以產(chǎn)生我們稱為“本征變換向量”或“本征變換”的低維本征向量集合。
為了快速適應(yīng)新的說(shuō)話者，系統(tǒng)假設(shè)新的說(shuō)話者的變換矩陣位于由本征變換覆蓋的子空間中，并對(duì)說(shuō)話者無(wú)關(guān)模型施加結(jié)果變換。
維數(shù)降低跳躍到本征空間提供了相當(dāng)?shù)撵`活性及計(jì)算上的經(jīng)濟(jì)性。例如我們發(fā)現(xiàn)，統(tǒng)計(jì)處理技術(shù)可用于低維本征空間本身。因而，根據(jù)本發(fā)明的另一方面，諸如貝葉斯估計(jì)這樣的統(tǒng)計(jì)過(guò)程可在本征空間中執(zhí)行，以便作為更好定位新的說(shuō)話者處于本征空間中處何的方法。關(guān)于說(shuō)話者空間什么區(qū)域密集或稀疏分布的先驗(yàn)知識(shí)(例如來(lái)自訓(xùn)練說(shuō)話者)用來(lái)加細(xì)在本征空間內(nèi)何處定位新的說(shuō)話者的估計(jì)。
實(shí)際上，這里所述的本征話音適應(yīng)技術(shù)將允許基于很短的、并潛在不完整的訓(xùn)練周期的鹵棒性適應(yīng)模型的構(gòu)成。這樣這些技術(shù)有助于在不能獲得大量適應(yīng)數(shù)據(jù)的場(chǎng)合的說(shuō)話者和環(huán)境適應(yīng)應(yīng)用。例如，這些技術(shù)將能在語(yǔ)音可用交互式市場(chǎng)系統(tǒng)中很好地工作，其中新的說(shuō)話者通過(guò)電話響應(yīng)系統(tǒng)導(dǎo)航提示，并且在說(shuō)話者通過(guò)系統(tǒng)導(dǎo)航提交定單時(shí)系統(tǒng)自動(dòng)地適應(yīng)新的說(shuō)話者。
為了更完整理解本發(fā)明、其目的和先進(jìn)性，請(qǐng)參照以下說(shuō)明和附圖。

圖1示出了有助于理解本發(fā)明的示例性隱藏馬爾科夫模型(HMM)；圖2是表示如何由多個(gè)訓(xùn)練說(shuō)話者構(gòu)造本征空間的數(shù)據(jù)流程圖；圖3是表示根據(jù)本發(fā)明如何使用本征話音構(gòu)造適應(yīng)模型的數(shù)據(jù)流程圖；圖4是本征空間簡(jiǎn)化(二維的)說(shuō)明，比較投影運(yùn)算與本發(fā)明的MLED極大似然運(yùn)算；圖5是表示根據(jù)本發(fā)明來(lái)自新說(shuō)話者的觀測(cè)數(shù)據(jù)如何通過(guò)本征空間變換為適應(yīng)模型的數(shù)據(jù)結(jié)構(gòu)圖示；圖6是表示本發(fā)明的極大似然本征空間適應(yīng)過(guò)程的流程圖；圖7是表示用于基于變換矩陣定義本征空間的維數(shù)降低過(guò)程數(shù)據(jù)流程圖；圖8是用于理解貝葉斯估計(jì)技術(shù)的框圖；圖9是總結(jié)說(shuō)明書(shū)中所述各種本征話音適應(yīng)技術(shù)的數(shù)據(jù)流程圖。
為了更好地理解本發(fā)明的說(shuō)話者適應(yīng)技術(shù)，對(duì)語(yǔ)音識(shí)別系統(tǒng)基本的理解是有幫助的。當(dāng)前大多數(shù)語(yǔ)音識(shí)別器采用隱藏馬爾科夫模型(HMM)表示語(yǔ)音。隱藏馬爾科夫模型是涉及狀態(tài)圖的建模方法。任何語(yǔ)音單元(諸如短語(yǔ)、詞、半詞、音素等)都能夠以包含在該模型中的所有知識(shí)源被建模。HMM表示產(chǎn)生離散區(qū)間可觀測(cè)的輸出序列一種未知的過(guò)程，輸出是某些有限的字母成員(對(duì)應(yīng)于語(yǔ)音單元預(yù)定的集合)。這些模型被稱為“隱藏的”，因?yàn)楫a(chǎn)生可觀測(cè)輸出的狀態(tài)序列是未知的。
如圖1所示，HMM 10由狀態(tài)集合(S1，S2，…S5)、定義圖1中箭頭所示的某些狀態(tài)對(duì)之間的轉(zhuǎn)移的向量以及概率數(shù)據(jù)集合來(lái)表示。特別地，隱藏馬爾科夫模型包括與轉(zhuǎn)移向量相關(guān)的轉(zhuǎn)移概率集合12及與每一狀態(tài)觀測(cè)的輸出相關(guān)的輸出概率集合14。對(duì)模型從一個(gè)狀態(tài)到另一狀態(tài)按規(guī)則間隔、離散區(qū)間定時(shí)。按時(shí)鐘時(shí)間，模型可以從其當(dāng)前狀態(tài)變?yōu)閷?duì)其轉(zhuǎn)移向量存在的任何狀態(tài)。如圖所示，轉(zhuǎn)移可從給定的狀態(tài)返回到自身。
轉(zhuǎn)移概率表示當(dāng)對(duì)模型計(jì)時(shí)時(shí)從一個(gè)狀態(tài)向另一狀態(tài)轉(zhuǎn)移將發(fā)生的似然率。于是如圖1所示，每一轉(zhuǎn)移與一概率值(0與1之間)相聯(lián)系。處于任意狀態(tài)的所有概率之和等于1。舉例來(lái)說(shuō)，在轉(zhuǎn)移概率表格12中給出了示例性轉(zhuǎn)移概率值集合。應(yīng)當(dāng)理解，在一有效的實(shí)施例中，這些值將由訓(xùn)練數(shù)據(jù)產(chǎn)生，其限制是處于任意狀態(tài)的所有概率之和等于1。
每次進(jìn)行轉(zhuǎn)移時(shí)，可以把模型設(shè)想為發(fā)出或輸出其字母表的一個(gè)成員。在圖1所示的實(shí)施例中，假設(shè)基于音素的語(yǔ)音單元。這樣在輸出概率表14中定義的符號(hào)對(duì)應(yīng)于標(biāo)準(zhǔn)英語(yǔ)中找到的音素。在每一轉(zhuǎn)移時(shí)發(fā)出哪一個(gè)字母表成員取決于輸出概率值或訓(xùn)練期間學(xué)習(xí)的函數(shù)。這樣發(fā)出的輸出表示觀測(cè)的序列(基于訓(xùn)練數(shù)據(jù))，并且每一字母表成員有一被發(fā)出的概率。
在對(duì)語(yǔ)音建模中，通常實(shí)際的作法是把輸出作為與離散字母表符號(hào)序列相對(duì)的連續(xù)向量序列。這需要輸出概率表示為與單個(gè)數(shù)值相對(duì)的連續(xù)概率函數(shù)。這樣，HMM常?；诎ㄒ粋€(gè)或多個(gè)高斯分布的概率函數(shù)。當(dāng)使用多個(gè)高斯函數(shù)時(shí)，如在16處所示，它們一般相加地混合在一起以定義一復(fù)合的概率分布。
無(wú)論表示為單一高斯函數(shù)還是表示高斯函數(shù)的混合，概率分布能夠由多個(gè)參數(shù)描述。如同轉(zhuǎn)移概率值(表12)那樣，這些輸出概率參數(shù)可能包含浮點(diǎn)數(shù)。參數(shù)表18標(biāo)識(shí)一般用來(lái)基于來(lái)自訓(xùn)練說(shuō)話者的觀測(cè)數(shù)據(jù)表示概率密度函數(shù)(pdf)。由圖1中高斯函數(shù)16的方程式所示，要進(jìn)行建模的觀測(cè)向量O的概率密度函數(shù)是乘以高斯密度N的每一混合分量的混合系數(shù)的疊代和，其中高斯密度具有平均向量uj，以及從倒譜或?yàn)V波器組系數(shù)語(yǔ)音參數(shù)計(jì)算的協(xié)方差矩陣Uj。
隱藏馬爾科夫模型識(shí)別器實(shí)現(xiàn)的細(xì)節(jié)從一個(gè)應(yīng)用到另一應(yīng)用可以有很大變化。圖1所示的HMM例子只是要解釋隱藏馬爾科夫模型是如何構(gòu)造的，并不是作為對(duì)本發(fā)明范圍的限制。就此而言，有許多各種不同的隱藏馬爾科夫建模概念。正如從以下說(shuō)明能夠更允分理解那樣，本發(fā)明的本征話音適應(yīng)技術(shù)能夠很好地適用于每一種不同的隱藏馬爾科夫模型變形，以及其它基于參數(shù)的語(yǔ)音建模系統(tǒng)。
構(gòu)造本征話音空間構(gòu)造表示多個(gè)訓(xùn)練說(shuō)話者的本征空間的過(guò)程示于圖2。說(shuō)明假設(shè)訓(xùn)練說(shuō)話者20的數(shù)目T提供了本征空間將在其上構(gòu)造的一訓(xùn)練數(shù)據(jù)22語(yǔ)料庫(kù)。最好有合理的大量說(shuō)話者(數(shù)量級(jí)100到200)提供訓(xùn)練數(shù)據(jù)。然后這些訓(xùn)練數(shù)據(jù)用來(lái)訓(xùn)練如24所示的說(shuō)話者相關(guān)(SD)模型。在步驟24對(duì)每一說(shuō)話者構(gòu)造一模型，每一模型表示要由識(shí)別系統(tǒng)理解的聲音單元的整個(gè)庫(kù)存。根據(jù)以上由圖1提供的說(shuō)明，每一模型可以是HMM的一個(gè)集合，對(duì)每一聲音單元一個(gè)HMM。這表示在圖2中26處。
在訓(xùn)練集合表示精確的說(shuō)話者相關(guān)模型時(shí)可以得到出色的結(jié)果。因而，如果需要，可以使用輔助的適應(yīng)技術(shù)加強(qiáng)說(shuō)話者相關(guān)模型。這種技術(shù)包括極大A后驗(yàn)估計(jì)(MAP)及其它基于變換的方法，諸如極大似然線性回歸(MLLR)。這一可選的輔助適應(yīng)處理示于圖2中27處。當(dāng)構(gòu)造大詞匯量應(yīng)用時(shí)，其中對(duì)給定的說(shuō)話者每個(gè)參數(shù)訓(xùn)練數(shù)據(jù)量可能是低的，這樣加強(qiáng)說(shuō)話者相關(guān)模型特別占優(yōu)勢(shì)。
在來(lái)自T個(gè)說(shuō)話者的所有訓(xùn)練數(shù)據(jù)已經(jīng)用于訓(xùn)練相應(yīng)的說(shuō)話者相關(guān)模型之后，在28處構(gòu)造T個(gè)超向量的集合。這樣對(duì)T個(gè)說(shuō)話者每一個(gè)將有一個(gè)超向量30。每一說(shuō)話者的超向量包括對(duì)應(yīng)于該說(shuō)話者隱藏馬爾科夫模型的參數(shù)18至少一部分的參數(shù)(一般是浮點(diǎn)數(shù))的一有序列表。對(duì)應(yīng)于聲音單元的參數(shù)包含在給定的說(shuō)話者超向量中。參數(shù)可以按任何方便的順序組織。順序是不重要的；然而，一旦采用了一種順序，則必須對(duì)所有的T個(gè)說(shuō)話者遵循該順序。
然后有序的隱藏馬爾科夫模型參數(shù)被連接起來(lái)以形成超向量。選擇哪些HMM參數(shù)包含在超向量中可取決于可用的處理能力。我們發(fā)現(xiàn)，從高斯均值構(gòu)造超向量給出良好的結(jié)果。如果可使用較大的處理能力，則超向量也可以包含其它HMM參數(shù)，諸如轉(zhuǎn)移概率(圖1，表12)或協(xié)方差矩陣參數(shù)(圖1，參數(shù)18)。當(dāng)然，如果隱藏馬爾科夫模型產(chǎn)生離散輸出(與概率密度相反)，那么這些輸出值可用來(lái)組成超向量。
在對(duì)每一訓(xùn)練說(shuō)話者已經(jīng)構(gòu)造了超向量之后，在步驟32進(jìn)行維數(shù)降低。維數(shù)降低是通過(guò)把高維空間映射到低維空間而實(shí)現(xiàn)的。可使用各種不同的技術(shù)實(shí)現(xiàn)維數(shù)降低。這些技術(shù)包括主成分分析(PCA)，線性鑒別分析(LDA)、因素分析(FA)、獨(dú)立成分分析(ICA)、單值分解(SVD)及其它使用基于方差的降低準(zhǔn)則的變換。
更具體來(lái)說(shuō)，實(shí)現(xiàn)本發(fā)明中使用的維數(shù)降低技術(shù)的類型定義如下?？紤]從用于語(yǔ)音識(shí)別的說(shuō)話者相關(guān)模型獲得的T個(gè)訓(xùn)練超向量的集合。設(shè)這些超向量的每一個(gè)有維數(shù)V；這樣，我們能夠把每一超向量標(biāo)記為X＝[x1，x2，…xV]^T(V*1向量)?？紤]可施加到超向量(即施加到任何維數(shù)V的向量)以產(chǎn)生新的維數(shù)E的向量(E小于或等于T，訓(xùn)練超向量數(shù)目)的線性變換M；每一被變換的向量能夠標(biāo)記為W＝[w1，w2，…wE]^T。以某種方法從T個(gè)訓(xùn)練超向量集合計(jì)算M的參數(shù)值。
這樣，我們有了線性變換W＝M*X。M有維數(shù)E*V，而W有維數(shù)E*1，其中E＜＝T；對(duì)于T個(gè)訓(xùn)練超向量的特定集合，M將是常數(shù)?？捎檬褂脦追N維數(shù)降低技術(shù)從T個(gè)訓(xùn)練超向量集合計(jì)算線性變換M，使得W有維數(shù)E＜＝T。
例子包含主成分分析，獨(dú)立成分分析，線性鑒別分析、因素分析及單值分解。在輸入向量是從說(shuō)話者相關(guān)建模推導(dǎo)的訓(xùn)練超向量，且M用來(lái)進(jìn)行實(shí)現(xiàn)上述技術(shù)的特定情形下，本發(fā)明可以使用尋找這種固定線性變換M的任何方法(不只是列出的方法)實(shí)現(xiàn)。
如在34處那樣，對(duì)T個(gè)超向量維數(shù)降低產(chǎn)生T個(gè)本征向量。這樣，如果已經(jīng)使用了120個(gè)訓(xùn)練說(shuō)話者，則系統(tǒng)將產(chǎn)生120個(gè)本征向量。這些本征向量定義我們稱之為本征話音空間或本征空間的東西。
形成本征話音空間的本征向量包含不同的信息；它們每一個(gè)表示不同的維，通過(guò)這些維可以區(qū)分不同的說(shuō)話者。原始訓(xùn)練集合中每一超向量能夠表示為這些本征向量的線性組合。本征向量按它們?cè)趯?duì)數(shù)據(jù)建模中的重要性來(lái)排序第一個(gè)本征向量比第二個(gè)重要，第二個(gè)比第三個(gè)重要，等等。至此我們對(duì)這一技術(shù)的經(jīng)驗(yàn)表明，第一本征向量好象對(duì)應(yīng)于性別維。
既然在步驟32產(chǎn)生了極大T個(gè)本征向量，實(shí)際上能夠拋棄這些向量中的幾個(gè)，而只保留前N個(gè)本征向量。這樣在步驟36我們可選地抽取T個(gè)本征向量中的N個(gè)，在步驟38組成減少參數(shù)的本征空間。能夠舍棄較高階的本征向量，是因?yàn)樗鼈儼谡f(shuō)話者之中進(jìn)行鑒別的較次要信息。降低本征話音空間到少于訓(xùn)練說(shuō)話者總數(shù)，提供了能夠有助于在以有限的存儲(chǔ)器和處理器資源構(gòu)造實(shí)用系統(tǒng)時(shí)的內(nèi)在的數(shù)據(jù)壓縮。
進(jìn)行適應(yīng)一旦構(gòu)造了本征話音空間，能夠易于實(shí)現(xiàn)說(shuō)話者規(guī)范化、說(shuō)話者適應(yīng)或環(huán)境適應(yīng)。雖然構(gòu)造本征空間計(jì)算上有些煩瑣，并一般是脫機(jī)進(jìn)行的，但在新的說(shuō)話者正在使用系統(tǒng)時(shí)適應(yīng)還是能夠進(jìn)行的比較簡(jiǎn)單的計(jì)算操作。參見(jiàn)圖3，在步驟42使用來(lái)自新的說(shuō)話者40的語(yǔ)音以訓(xùn)練說(shuō)話者相關(guān)模型，構(gòu)造HMM集合44(每一聲音單元一個(gè))。說(shuō)話者相關(guān)模型能夠或者以監(jiān)視模式訓(xùn)練，其中訓(xùn)練系統(tǒng)事先知道訓(xùn)練語(yǔ)音的內(nèi)容，或者以非監(jiān)視模式訓(xùn)練，其中語(yǔ)音識(shí)別系統(tǒng)使用說(shuō)話者無(wú)關(guān)模型確定適應(yīng)語(yǔ)音的內(nèi)容。
對(duì)這一新的說(shuō)話者訓(xùn)練的說(shuō)話者相關(guān)模型通常至少在開(kāi)始很不適用于進(jìn)行識(shí)別。然而，模型卻可能用來(lái)構(gòu)造超向量。在步驟46構(gòu)造超向量，使得強(qiáng)制超向量(超向量48)落入先前從訓(xùn)練說(shuō)話者生成的本征話音空間38。以強(qiáng)加的約束構(gòu)造超向量48，使得用于識(shí)別的HMM模型必須是構(gòu)成本征話音空間38的本征話音的線性組合。
說(shuō)話者相關(guān)模型44用來(lái)估算將組成對(duì)新的說(shuō)話者適應(yīng)模型的系數(shù)的線性組合。這樣在步驟50，基于超向量48構(gòu)造新的HMM集合以產(chǎn)生適應(yīng)模型52。如果需要，可以在54進(jìn)行可選的疊代過(guò)程，以便從適應(yīng)的模型52構(gòu)造新的超向量，并此后構(gòu)造HMM的另一集合，從該集合可構(gòu)造進(jìn)一步的適應(yīng)模型。
圖4以二維空間示出約束新的說(shuō)話者語(yǔ)音模型處于本征空間38內(nèi)的過(guò)程。如上所述，本征空間是階數(shù)等于通過(guò)維數(shù)降低而產(chǎn)生的本征向量數(shù)的多維空間。
圖4中為了簡(jiǎn)化表示只示出兩維，但是應(yīng)當(dāng)理解，本征空間38的階一般比兩維高得多。
新的說(shuō)話者是通過(guò)數(shù)據(jù)點(diǎn)60圖示出的。數(shù)據(jù)點(diǎn)60將對(duì)應(yīng)于圖3中所示的超向量48。注意，60處新的說(shuō)話者位于本征空間38之外。如上所討論，適應(yīng)過(guò)程涉及在本征空間內(nèi)尋找表示對(duì)這一新的說(shuō)話者良好適應(yīng)模型的點(diǎn)。適應(yīng)模型基于由新的說(shuō)話者發(fā)出的輸入語(yǔ)音，但約束處于本征空間38內(nèi)。
用于在本征空間內(nèi)置位新的說(shuō)話者的一個(gè)簡(jiǎn)單技術(shù)要使用線條62所示的簡(jiǎn)單投影運(yùn)算。投影運(yùn)算在本征空間內(nèi)尋找盡可能靠近本征空間之外對(duì)應(yīng)于新的說(shuō)話者輸入語(yǔ)音的點(diǎn)。這樣的簡(jiǎn)單投影將把新的說(shuō)話者置位于本征空間38內(nèi)的點(diǎn)64。應(yīng)當(dāng)記住，這些點(diǎn)實(shí)際上是從其能夠重新組成HMM集合的超向量。
投影運(yùn)算是不能保證本征空間中的點(diǎn)對(duì)新的說(shuō)話者是優(yōu)化的比較粗糙的技術(shù)。此外，投影運(yùn)算要求新的說(shuō)話者的超向量包含數(shù)據(jù)的完全集合，以便表示該說(shuō)話者HMM的整個(gè)集合。這一要求引起相當(dāng)大的實(shí)用上的限制。當(dāng)使用投影約束新的說(shuō)話者到本征空間時(shí)，該說(shuō)話者必須提供足夠的輸入語(yǔ)音，以使在數(shù)據(jù)中表示出所有的語(yǔ)音單元。例如，如果指定隱藏馬爾科夫模型表示英語(yǔ)語(yǔ)言中所有的音素，則在能夠使用簡(jiǎn)單投影技術(shù)之前，訓(xùn)練說(shuō)話者必須提供所有音素的例子。在很多應(yīng)用中這一限制完全是不實(shí)際的。
極大似然本征話音分解(MLED)技術(shù)本發(fā)明的極大似然技術(shù)是為了解決上述簡(jiǎn)單投影的兩缺陷。本發(fā)明的極大似然技術(shù)在本征空間38內(nèi)尋找表示對(duì)應(yīng)于隱藏馬爾科夫模型的超向量的點(diǎn)66，該隱藏馬爾科夫模型具有產(chǎn)生由新的說(shuō)話者提供的語(yǔ)音的最大概率。為了示例，極大似然過(guò)程由圖4中的線條68表示。
而簡(jiǎn)單的投影運(yùn)算把所有的超向量成員作為具有同等重要性對(duì)待，最大似然技術(shù)是基于從實(shí)際適應(yīng)數(shù)據(jù)引起的概率的，使信息越多的數(shù)據(jù)權(quán)重越重。與簡(jiǎn)單投影技術(shù)不同，即使新的說(shuō)話者沒(méi)有提供完全的訓(xùn)練數(shù)據(jù)集合(即對(duì)某些聲音單元的數(shù)據(jù)缺失)，極大似然技術(shù)仍將有效。實(shí)際上，極大似然技術(shù)把構(gòu)造超向量的上下文考慮在內(nèi)，即從涉及一定模型比另外的模型更可能產(chǎn)生由新說(shuō)話者提供的輸入語(yǔ)音的概率的隱藏馬爾科夫模型進(jìn)行構(gòu)造。
實(shí)際上，極大似然技術(shù)將在本征空間內(nèi)選擇與新的說(shuō)話者輸入語(yǔ)音最一致的超向量，而不論實(shí)際上究竟有多少輸入語(yǔ)音可得。為了說(shuō)明，假設(shè)新的說(shuō)話者是Alabama的當(dāng)?shù)厝四贻p女性。在收到來(lái)自這一說(shuō)話者發(fā)出的一些音節(jié)時(shí)，極大似然技術(shù)將在本征空間內(nèi)選擇表示與說(shuō)話者的當(dāng)?shù)谹labama女性口音一致的所有音素(即使那些在輸入語(yǔ)音中還沒(méi)有表示的音素)的點(diǎn)。
圖5表示極大似然技術(shù)如何工作。來(lái)自新的說(shuō)話者的語(yǔ)音輸入用來(lái)構(gòu)造超向量70。如上所述，超向量包括對(duì)應(yīng)于倒譜系數(shù)等語(yǔ)音參數(shù)的連接列表。在所示的實(shí)施例中，這些參數(shù)為表示從對(duì)應(yīng)于新說(shuō)話者的隱藏馬爾科夫模型集合抽取的高斯均值的浮點(diǎn)數(shù)。其它的HMM參數(shù)也可使用。在圖示中，這些HMM均值作為如72處的點(diǎn)示出。當(dāng)以數(shù)據(jù)完全分布時(shí)，超向量70將對(duì)每一HMM均值包含對(duì)應(yīng)于由HMM模型表示的每一聲音單元的浮點(diǎn)數(shù)。為了進(jìn)行說(shuō)明，這里假設(shè)音素“ah”的參數(shù)出現(xiàn)，而音素“iy”的參數(shù)缺失。
本征空間38由本征向量74、76和78的集合表示。對(duì)應(yīng)于來(lái)自新說(shuō)話者的觀測(cè)數(shù)據(jù)的超向量70可在本征空間中由每一本征向量乘以標(biāo)記為W1，W2，…Wn的對(duì)應(yīng)的本征值表示。這些本征值起初是未知的。極大似然技術(shù)尋找這些未知本征值的值。如將以下更充分說(shuō)明那樣，通過(guò)尋找將能在本征空間中最佳表示新說(shuō)話者的優(yōu)化解選擇這些值。
在使本征值與對(duì)應(yīng)的本征空間38的本征向量相乘并對(duì)結(jié)果乘積求和之后，產(chǎn)生一個(gè)適應(yīng)模型80。由于輸入語(yǔ)音的超向量(超向量70)可能已有某些缺失的參數(shù)值(例如“yi”參數(shù))，表示適應(yīng)模型的超向量80以數(shù)值完全分布。此即本發(fā)明的一個(gè)好處。此外，超向量80中的值表示優(yōu)化解，即它在本征空間中具有表示新說(shuō)話者的極大似然值。
各本征值W1，W2，…Wn可看作為構(gòu)成極大似然向量，這里稱為極大似然向量。圖5在82處圖示出向量。如圖示所示，極大似然向量82組成本征值W1，W2，…Wn的集合。
圖6中示出使用極大似然技術(shù)進(jìn)行適應(yīng)的過(guò)程。來(lái)自新說(shuō)話者組成觀測(cè)數(shù)據(jù)的語(yǔ)音用來(lái)構(gòu)造如100處所示的HMM集合。然后HMM集合102用于構(gòu)成如104處所示的超向量。如圖所示，超向量106構(gòu)成從HMM模型102抽取的HMM參數(shù)的連續(xù)的列表。
使用超向量106，在108構(gòu)造概率函數(shù)Q。當(dāng)前優(yōu)選的實(shí)施例采用一種概率函數(shù)，該函數(shù)表示對(duì)HMM模型102的預(yù)定集合產(chǎn)生被觀測(cè)數(shù)據(jù)的概率。如果函數(shù)包含的不只是概率項(xiàng)P，而且還有這項(xiàng)的對(duì)數(shù)logP，則易于進(jìn)行概率函數(shù)Q的后繼操作。
然后在步驟110通過(guò)分別對(duì)每一本征值W1，W2，…Wn取概率函數(shù)的導(dǎo)數(shù)，得到概率函數(shù)最大值。例如，如果本征空間維數(shù)為100，這一系統(tǒng)計(jì)算概率函數(shù)Q的100個(gè)導(dǎo)數(shù)，置每一個(gè)為零并對(duì)各個(gè)W求解。雖然這好象是很大的計(jì)算量，但是比傳統(tǒng)的MAP或MLLR技術(shù)進(jìn)行一般所需的成千次的計(jì)算在計(jì)算耗費(fèi)上要小得多。
這樣獲得的Ws結(jié)果集合表示標(biāo)識(shí)本征空間中對(duì)應(yīng)于極大似然點(diǎn)的點(diǎn)所需的本征值。這樣，Ws的集合構(gòu)成本征空間中極大似然向量。就此而言，每一本征向量(圖5中的本征向量74、76和78)定義了一組正交向量或坐標(biāo)，本征值乘以該坐標(biāo)而定義約束在本征空間內(nèi)的點(diǎn)。在112示出的這一極大似然向量用來(lái)構(gòu)造對(duì)應(yīng)于本征空間中最優(yōu)點(diǎn)(圖4中的點(diǎn)66)的超向量114。然后在步驟116超向量114可用來(lái)構(gòu)造對(duì)新說(shuō)話者的適應(yīng)模型118。
在本發(fā)明的極大似然結(jié)構(gòu)的上下文中，我們希望使觀測(cè)O＝o1…oT的似然關(guān)于模型λ最大化。這可通過(guò)疊代求輔助函數(shù)Q的最大值(以下)進(jìn)行，其中λ是疊代處的當(dāng)前模型，而
是估計(jì)的模型。我們有Q(λ,λ^)=ΣΘ&Element;statesP(O,θ|λ)log[P(O,θ|λ^)]]]>作為最初的逼近，我們可希望只對(duì)均值進(jìn)行最大化。在概率P由HMM集合給出的場(chǎng)合下，我們獲得以下結(jié)果Q(λ,λ^)=const-12P(O|λ)ΣstatesinλSλΣmixtganssinSMsΣtimetT{γm(s)(t)[nlog(2π)+log|Cm(s)|+h(ot,m,s)]}]]>其中h(ot,m,s)=(ot-μ^m(s))TCm(s)-1(ot-μ^m(s))]]>并設(shè)ot為時(shí)間t處的特征向量Cm(s)-1為狀態(tài)s的混合高斯逆協(xié)方差μ^m(S)為對(duì)狀態(tài)s的逼近的適應(yīng)均值，混合分量mγm(s)(t)為P(使用混合高斯m|λsot)設(shè)新說(shuō)話者的HMM的高斯均值位于本征空間中。設(shè)這一空間是由均值超向量μj覆蓋的空間，j＝1…E，
其中μm(s)(j)表示在本征向量(本征模型)j的狀態(tài)s下混合高斯m的均值向量。
然后我需要μ^=Σj=1Ewjμ-j]]>μj為正交的，且Wj是我們的說(shuō)話者模型的本征值。這里我們假設(shè)，可對(duì)任何新的說(shuō)話者建模為被觀測(cè)的說(shuō)話者數(shù)據(jù)庫(kù)的線性組合。然后μ^m(s)=Σj=1Ewjμ-m(s)(j)]]>s是M的混合高斯值中的λ、m的狀態(tài)。由于我們需要使Q最大化，我們只需設(shè)定(原文P29公式3)(注意，因?yàn)楸菊飨蛄渴钦坏?，?amp;PartialD;wi&PartialD;wj=0,i&NotEqual;j..)]]>因而我們有&PartialD;Q&PartialD;we=0=ΣstatesinλSλΣmixtganssinSMsΣtimetT{&PartialD;&PartialD;weγm(s)(t)h(ot,s)},e=1...E.]]>計(jì)算以上的導(dǎo)數(shù)，我們有0=ΣsΣmΣtγm(s)(t){-μ-m(s)T(e)Cm(s)-1ot+Σj=1Ewjμ-m(s)T(j)Cm(s)-1μ-m(s)(e)]]>由此我們求得線性方程式組
在本征空間求得說(shuō)話者模型之后的輔助適應(yīng)上述的本征話音適應(yīng)技術(shù)發(fā)展了對(duì)新的說(shuō)話者的初始適應(yīng)模型。如果需要，然后可使用輔助適應(yīng)技術(shù)進(jìn)一步改進(jìn)這一模型，以便進(jìn)一步細(xì)化適應(yīng)模型。適用的輔助適應(yīng)技術(shù)包括極大A后驗(yàn)估計(jì)(MAP)及其它基于變換的方法，諸如極大似然線性回歸(MLLR)。在至今的實(shí)驗(yàn)中我們發(fā)現(xiàn)，如圖所示，最好的結(jié)果常常是通過(guò)首先采用MLED技術(shù)并然后采用這些輔助適應(yīng)技術(shù)之一而獲得的。
本征話音技術(shù)試圖估計(jì)新的說(shuō)話者在本征空間中的位置。然而，除非新的說(shuō)話者也是訓(xùn)練的說(shuō)話者，否則他或她不大可能精確位于這一子空間中。如果新的說(shuō)話者接近本征話音空間中被估計(jì)的位置，則本征話音技術(shù)很有效，但是不可能總是這樣。于是一般來(lái)說(shuō)，僅僅使用本征話音技術(shù)不大可能對(duì)新的說(shuō)話者提供“真正”的模型。本征話音技術(shù)不能表示出新的說(shuō)話者特有的音素(即在訓(xùn)練的說(shuō)話者之中沒(méi)有看到的)。本征話音技術(shù)的優(yōu)點(diǎn)在于，它們能快速對(duì)新的說(shuō)話者提供合理的逼近模型。
另一方面，MAP和其它諸如MLLR基于變換的方法頗為能夠求得對(duì)新的說(shuō)話者“真正”的模型；但是它們?nèi)绻麖恼f(shuō)話者無(wú)關(guān)模型開(kāi)始(通常的方法)，這些方法達(dá)到模型是緩慢的。MLED或某些其它本征話音技術(shù)，后跟諸如MAP或其它諸如MLLR這種基于變換的方法的輔助處理，提供了兩方面的最佳效果對(duì)新的說(shuō)話者合理良好模型的快速估計(jì)，后跟向“真正”模型的收斂。
把維數(shù)降低用于變換矩陣諸如MLLR這種基于變換的輔助適應(yīng)技術(shù)，也能夠?qū)S數(shù)降低提供原始資料。這種情形下，對(duì)與維數(shù)降低模型參數(shù)相反的維數(shù)降低變換矩陣進(jìn)行本征話音適應(yīng)。
在到此所呈現(xiàn)的例子中，說(shuō)話者模型用來(lái)構(gòu)造超向量，并然后使這些超向量維數(shù)降低以產(chǎn)生本征空間。在根據(jù)本發(fā)明一個(gè)方面的另外的技術(shù)中，使訓(xùn)練的說(shuō)話者數(shù)據(jù)通過(guò)變換過(guò)程，并然后使用產(chǎn)生的變換矩陣產(chǎn)生本征空間。
為了說(shuō)明參見(jiàn)圖7，其中在130處的T個(gè)說(shuō)話者提供訓(xùn)練數(shù)據(jù)132，并然后通過(guò)基于變換的適應(yīng)技術(shù)，諸如MLLR，對(duì)這些訓(xùn)練數(shù)據(jù)進(jìn)行運(yùn)算，以便在134處估計(jì)變換矩陣，每一說(shuō)話者一個(gè)。這產(chǎn)生如136處所示的每一說(shuō)話者一個(gè)的一組變換矩陣W1。這組變換矩陣將施加到表示每一說(shuō)話者的說(shuō)話者模型137。
然后這組變換矩陣在步驟138用來(lái)構(gòu)造T個(gè)超向量140。類似于前面的例子中連接說(shuō)話者模型參數(shù)的方式，這些超向量可通過(guò)連接變換矩陣參數(shù)構(gòu)造。然后在步驟142進(jìn)行維數(shù)降低，產(chǎn)生T個(gè)“本征變換”向量的本征空間144。如果需要，如146處所示，該過(guò)程可以可選地抽取T個(gè)本征變換的子集N。這一結(jié)果得到N個(gè)本征變換的本征空間148。
為了快速適應(yīng)新的說(shuō)話者，系統(tǒng)假設(shè)對(duì)該新的說(shuō)話者適當(dāng)?shù)淖儞QWi位于由這些本征變換覆蓋的子空間中。系統(tǒng)使用簡(jiǎn)單投影或其它諸如上述MLED技術(shù)這樣的技術(shù)估計(jì)本征變換適當(dāng)?shù)木€性組合。這一結(jié)果是對(duì)新的說(shuō)話者的一個(gè)本征變換向量，這向量可用于說(shuō)話者無(wú)關(guān)模型，以便達(dá)到對(duì)新的說(shuō)話者適應(yīng)的模型。
在本征空間內(nèi)使用貝葉斯估計(jì)來(lái)自訓(xùn)練的說(shuō)話者通過(guò)維數(shù)降低處理的數(shù)據(jù)定義了本征空間的分界和邊界。一般來(lái)說(shuō)，訓(xùn)練的說(shuō)話者本身不是在本征空間中均勻分布的。而是有一概率分布，本征空間內(nèi)某些區(qū)域稀疏分布，而其它區(qū)域稠密分布。由于這一概率分布來(lái)源于訓(xùn)練的說(shuō)話者并在訓(xùn)練之后即被得知，故在本征空間中益使用貝葉斯估計(jì)。
貝葉斯估計(jì)即考慮(原有的訓(xùn)練說(shuō)話者)先驗(yàn)的概率分布，又考慮來(lái)自新的說(shuō)話者的觀測(cè)數(shù)據(jù)。形式上，假設(shè)對(duì)說(shuō)話者模型λ先驗(yàn)的概率分布為g(λ)。對(duì)新的說(shuō)話者給出觀測(cè)O，貝葉斯估計(jì)試圖求得使以下關(guān)系式最大化的λL(O|λ)*g(λ)即我們使用關(guān)于說(shuō)話者空間什么區(qū)域?yàn)槊芗蛳∈璺植歼@樣的先驗(yàn)的知識(shí)(從訓(xùn)練的說(shuō)話者推測(cè))，來(lái)加細(xì)我們的估計(jì)∧帽λ^]]>即在這空間中新的說(shuō)話者的位置。這樣的貝葉斯估計(jì)涉及使用新的觀測(cè)數(shù)據(jù)調(diào)和先驗(yàn)概率分布，其中對(duì)新的估計(jì)尋求極大概率。
有幾種方法在本征空間中進(jìn)行貝葉斯估計(jì)。以下將討論這些方法中的一些方法，但是這一討論并不是要包括所有的方法。
一項(xiàng)技術(shù)使用以上討論的MLED技術(shù)在本征話音空間中估計(jì)新說(shuō)話者，其中w是在以下等式中定義的本征話音權(quán)重向量w=[L(O|λ^)*A+τI]-1*[τv+L(O|λ^)*b]]]>在以上等式中Aw＝b是解方程獲得MLED估計(jì)。∧帽是對(duì)新說(shuō)話者模型(例如說(shuō)話者無(wú)關(guān)模型)初始估計(jì)，v是從先驗(yàn)概率對(duì)數(shù)的一階導(dǎo)數(shù)獲得的向量，τ是時(shí)間因子。時(shí)間因子τ對(duì)說(shuō)話者就時(shí)間的可變性建模-具體的本征維數(shù)時(shí)間變化越多，在該維先驗(yàn)概率上放置的權(quán)重越大。
在本征話音空間中結(jié)合先驗(yàn)概率并進(jìn)行貝葉斯估計(jì)的另一方法是使用這種數(shù)據(jù)到低維本征空間的投影估計(jì)高維數(shù)據(jù)的高斯密度。如果x是從類別Ω畫出的觀測(cè)向量，而E是通過(guò)選擇前K個(gè)本征向量獲得的本征空間，這前K個(gè)本征向量是從對(duì)來(lái)自Ω的訓(xùn)練數(shù)據(jù)進(jìn)行維數(shù)降低導(dǎo)出的，這時(shí)以下等式成立P^(x|Ω)=PE(x|Ω)*P-E(x|Ω)]]>在以上等式中本征空間E中的單高斯密度由以下項(xiàng)表示PE(x|Ω)在對(duì)偶空間即在與本征空間正交的空間中單一高斯分布由以下項(xiàng)表示PE-(x|Ω)]]>能夠僅使用到E的投影和殘差從訓(xùn)練數(shù)據(jù)向量集完全估計(jì)這兩項(xiàng)。
計(jì)入先驗(yàn)概率的一個(gè)簡(jiǎn)單、近似的方法是假設(shè)每一本征維大體是獨(dú)立的。然后每一維能夠劃分為小的數(shù)目的簇，每一簇具有單一高斯輸出分布及先驗(yàn)概率(從訓(xùn)練的說(shuō)話者計(jì)算)。然后適應(yīng)涉及基于從新的說(shuō)話者的觀測(cè)，在每一維中選擇最可能的分布。這一方法在訓(xùn)練數(shù)據(jù)中有高置信度并在來(lái)自新說(shuō)話者的數(shù)據(jù)中有較低置信度的情形下是有吸引力的。
另外，訓(xùn)練的說(shuō)話者能夠劃分為本征話音空間中有限數(shù)目的輸出分布，每一帶有先驗(yàn)概率。然后適應(yīng)在于找到與新的觀測(cè)最佳匹配的簇。這一技術(shù)在先驗(yàn)概率上比新的觀測(cè)數(shù)據(jù)放置更多的權(quán)重。
圖8總結(jié)了施加于本征話音空間的基本貝葉斯估計(jì)技術(shù)。參見(jiàn)圖8，訓(xùn)練數(shù)據(jù)產(chǎn)生在150所示的模型∧。這些模型對(duì)應(yīng)于本征空間152。模型在本征空間中不是均勻分布，而是有稠密分布區(qū)域及稀疏分布區(qū)域。這已經(jīng)以“拓?fù)洹眻D的形式示出。這些模型∧具有在154圖示的概率分布，并在156由概率函數(shù)g(∧)示出。
新的說(shuō)話者160提供在162圖示的觀測(cè)數(shù)據(jù)O。概率分布156和觀測(cè)值O在貝葉斯方程164中相乘，且這一乘積用來(lái)尋找使貝葉斯方程164最大化的新的說(shuō)話者模型∧。注意，方程164包括與遇到的觀測(cè)值O的概率相關(guān)的給出模型∧參數(shù)的第一項(xiàng)；以及與原始訓(xùn)練數(shù)據(jù)的概率分布相關(guān)的第二項(xiàng)。這樣，第一項(xiàng)表示新的說(shuō)話者而第二項(xiàng)表示先驗(yàn)概率。
環(huán)境適應(yīng)雖然到此對(duì)本發(fā)明作為說(shuō)話者適應(yīng)技術(shù)已經(jīng)進(jìn)行了說(shuō)明，該技術(shù)可易于擴(kuò)展到環(huán)境適應(yīng)。例如許多語(yǔ)音識(shí)別系統(tǒng)對(duì)環(huán)境條件，諸如麥克風(fēng)位置、空間聲學(xué)、背景噪聲及音頻信號(hào)信道質(zhì)量是相當(dāng)敏感的。本征向量能夠用來(lái)對(duì)不同的說(shuō)話環(huán)境建模，這正如它們用來(lái)對(duì)不同的說(shuō)話者建模那樣。
在大多數(shù)情形下，希望協(xié)調(diào)說(shuō)話者適應(yīng)和環(huán)境適應(yīng)的需要。為了做到這點(diǎn)，我們只需保證在環(huán)境廣泛的變化中記錄訓(xùn)練的說(shuō)話者。為了獲得良好的性能，訓(xùn)練的說(shuō)話者數(shù)目和記憶的本征話音數(shù)目可能需要比對(duì)于安靜環(huán)境中本征話音適應(yīng)必須的數(shù)目大。否則，過(guò)程與上述相同。
為了產(chǎn)生適應(yīng)環(huán)境而不是說(shuō)話者的說(shuō)話者無(wú)關(guān)系統(tǒng)，適應(yīng)與上述技術(shù)稍微不同的變形。首先，訓(xùn)練E個(gè)說(shuō)話者無(wú)關(guān)模型，其中E是訓(xùn)練數(shù)據(jù)中不同環(huán)境數(shù)。E個(gè)模型的每一個(gè)對(duì)相同的環(huán)境中許多不同的說(shuō)話者訓(xùn)練。理想地，E個(gè)不同的記錄環(huán)境將盡可能多樣化。然后，本征話音過(guò)程如上述進(jìn)行。這種情形下，本征話音向量將表示環(huán)境之間的變化成分。這樣，第一本征向量可能或可能不象說(shuō)話者適應(yīng)例子中所作的表示性別維。
所提供的本征話音技術(shù)總結(jié)本發(fā)明的本征話音適應(yīng)技術(shù)能夠用于各種不同的場(chǎng)合。它們可單獨(dú)使用或與以上概述的其它適應(yīng)技術(shù)一同使用。圖9總結(jié)了本征話音適應(yīng)技術(shù)的某些可能的應(yīng)用和實(shí)現(xiàn)。參見(jiàn)圖9，訓(xùn)練的說(shuō)話者200對(duì)用來(lái)產(chǎn)生說(shuō)話者模型204的初始集合的模型構(gòu)造器202提供輸入。在這點(diǎn)可采取幾種不同的方法。
如206所示，可對(duì)說(shuō)話者模型204進(jìn)行維數(shù)降低，以便產(chǎn)生本征空間208。
另外，可使用輔助適應(yīng)過(guò)程210加細(xì)說(shuō)話者模型204，以產(chǎn)生加細(xì)的或加強(qiáng)的模型集合212。如以上所指出，輔助適應(yīng)過(guò)程能夠?qū)崿F(xiàn)MAP估計(jì)或其它諸如MLLR基于變換的方法。然后維數(shù)降低206可施加到這些加強(qiáng)的模型上，基于訓(xùn)練的說(shuō)話者200加強(qiáng)的模型產(chǎn)生本征空間208。
諸如新的說(shuō)話者214這樣的新的說(shuō)話者的適應(yīng)是通過(guò)適應(yīng)過(guò)程216進(jìn)行的，該過(guò)程通過(guò)任何上述技術(shù)把新的說(shuō)話者放置到本征空間208中。當(dāng)前優(yōu)選的實(shí)施例使用極大似然技術(shù)MLED用于將新的說(shuō)話者放置到本征空間。
如上所討論，本征空間內(nèi)每一向量對(duì)應(yīng)于一說(shuō)話者模型。這樣向本征空間放置新的說(shuō)話者214的結(jié)果是得到本征空間中表示對(duì)這新的說(shuō)話者適應(yīng)模型的向量。圖9中，這一適應(yīng)模型在218處標(biāo)記。
如果需要，如220處所示，新的說(shuō)話者214到本征空間中的放置能夠通過(guò)貝葉斯估計(jì)加強(qiáng)。貝葉斯估計(jì)使用來(lái)自訓(xùn)練的說(shuō)話者200關(guān)于說(shuō)話者空間區(qū)域哪些是密集的或哪些是稀疏分布的這樣的先驗(yàn)概率知識(shí)，且這一知識(shí)用來(lái)加細(xì)在該空間內(nèi)在哪里放置新的說(shuō)話者的估計(jì)。
在適應(yīng)模型218已經(jīng)產(chǎn)生之后，可對(duì)其進(jìn)行輔助適應(yīng)過(guò)程222以產(chǎn)生在224所示的更為加細(xì)的適應(yīng)模型。輔助適應(yīng)過(guò)程222能夠采用MAP估計(jì)或諸如MLLR某些基于變換的方法。與使用過(guò)程216結(jié)合使用輔助適應(yīng)過(guò)程222提供了雙重優(yōu)點(diǎn)適應(yīng)過(guò)程216快速達(dá)到對(duì)新的說(shuō)話者適應(yīng)模型的估計(jì)；適應(yīng)過(guò)程222對(duì)估計(jì)加細(xì)以找到最佳適應(yīng)模型。
到此在這一總結(jié)討論中，已經(jīng)對(duì)說(shuō)話者模型204進(jìn)行維數(shù)降低步驟?；貞浧鹁S數(shù)降低過(guò)程涉及使用諸如隱藏馬爾科夫模型參數(shù)這樣的適當(dāng)模型參數(shù)形成對(duì)每一訓(xùn)練的說(shuō)話者相連的超向量。然而維數(shù)降低不限于說(shuō)話者模型。維數(shù)降低還能夠用于使用其它說(shuō)話者適應(yīng)技術(shù)產(chǎn)生的變換矩陣，諸如在210所示的輔助適應(yīng)過(guò)程。
于是，圖9還示出維數(shù)降低技術(shù)的替代使用。輔助適應(yīng)過(guò)程210作為其運(yùn)算的副產(chǎn)品產(chǎn)生變換矩陣。這些變換矩陣示于圖9中226處。例如，輔助適應(yīng)過(guò)程210可以是諸如MLLR基于變換的運(yùn)算，這種運(yùn)算從一說(shuō)話者無(wú)關(guān)(SI)模型產(chǎn)生一組變換矩陣Wi。然后把對(duì)每一訓(xùn)練的說(shuō)話者的這一組矩陣如通過(guò)連接向量化，以產(chǎn)生高維超向量。然后在步驟228進(jìn)行維數(shù)降低以產(chǎn)生對(duì)應(yīng)于一組“本征變換”向量的本征空間230。
為了適應(yīng)新的說(shuō)話者，諸如說(shuō)話者232，適應(yīng)過(guò)程234假設(shè)對(duì)該新的說(shuō)話者適當(dāng)?shù)淖儞QWi位于由本征變換覆蓋的子空間(本征空間230)中。例如使用MLED方法，已經(jīng)估計(jì)了本征變換的適當(dāng)?shù)木€性組合，然后系統(tǒng)把產(chǎn)生的變換Wi施加到說(shuō)話者無(wú)關(guān)模型，以產(chǎn)生對(duì)新的說(shuō)話者適應(yīng)模型236。
在重新查看圖9時(shí)，請(qǐng)記住，圖9是要總結(jié)這一文獻(xiàn)中其它地方所描述的數(shù)個(gè)不同的本征話音適應(yīng)技術(shù)。這樣，圖9中的解釋只是要表示這些技術(shù)在各種場(chǎng)合中的應(yīng)用。根據(jù)本發(fā)明給出的實(shí)現(xiàn)可以使用這里所示的某些過(guò)程，但是不是完全必須的。此外，圖9不是要包括一切。在所附權(quán)利要求中所述本發(fā)明范圍內(nèi)還可生成許多其它組合。
雖然對(duì)本發(fā)明就其當(dāng)前優(yōu)選實(shí)施例進(jìn)行了說(shuō)明，但是應(yīng)當(dāng)理解，本發(fā)明能夠適用于各種不同的應(yīng)用。于是，上述的例子是要說(shuō)明本發(fā)明的概念，而不是限制所附權(quán)利要求的范圍。
權(quán)利要求
1.用于進(jìn)行說(shuō)話者適應(yīng)或規(guī)范化的方法，該方法包括以下步驟通過(guò)對(duì)所述訓(xùn)練的說(shuō)話者提供一組模型，構(gòu)造表示多個(gè)訓(xùn)練說(shuō)話者的本征空間，并對(duì)所述模型組進(jìn)行維數(shù)降低，以產(chǎn)生定義所述本征空間的一組基向量；產(chǎn)生適應(yīng)模型，使用來(lái)自新的說(shuō)話者的輸入語(yǔ)音以訓(xùn)練所述適應(yīng)模型，同時(shí)使用所述基向量組約束所述適應(yīng)模型，使所述適應(yīng)模型位于所述本征空間內(nèi)。
2.權(quán)利要求1的方法，其中通過(guò)連接從所述模型組抽取的多個(gè)模型參數(shù)，并通過(guò)對(duì)所述模型參數(shù)進(jìn)行線性變換，進(jìn)行所述維數(shù)降低。
3.權(quán)利要求1的方法，其中通過(guò)從由主成分分析、線性鑒別分析、因素分析、獨(dú)立成分分析、及單值分解組成的組選擇的變換過(guò)程進(jìn)行所述維數(shù)降低。
4.權(quán)利要求1的方法，其中用于所述訓(xùn)練說(shuō)話者的所述模型定義多個(gè)模型參數(shù)，且構(gòu)造本征空間的所述步驟包括連接用于所述多個(gè)訓(xùn)練說(shuō)話者的所述模型參數(shù)以便構(gòu)造一組超向量，并對(duì)所述超向量進(jìn)行線性維數(shù)降低變換從而產(chǎn)生所述基向量。
5.權(quán)利要求4的方法，其中用于每一所述訓(xùn)練說(shuō)話者的所述模型對(duì)應(yīng)于一組不同的語(yǔ)音單元，且其中每一超向量作為對(duì)應(yīng)于按預(yù)定順序分類的所述語(yǔ)音單元的模型參數(shù)的連接來(lái)定義。
6.權(quán)利要求4的方法，其中所述模型參數(shù)為倒譜系數(shù)。
7.權(quán)利要求1的方法，其中進(jìn)行維數(shù)降低的所述步驟產(chǎn)生一組數(shù)目等于訓(xùn)練說(shuō)話者數(shù)目的基向量。
8.權(quán)利要求1的方法，其中所述進(jìn)行維數(shù)降低的步驟產(chǎn)生基向量的有序列表，并且其中構(gòu)造本征空間的所述步驟包括放棄所述有序列表的預(yù)定部分，以降低所述本征空間階數(shù)。
9.權(quán)利要求1的方法，其中約束所述說(shuō)話者相關(guān)模型的所述步驟通過(guò)向所述本征空間投影所述輸入語(yǔ)音進(jìn)行。
10.一種進(jìn)行說(shuō)話者適應(yīng)或規(guī)范化的方法，該方法包括步驟通過(guò)對(duì)所述訓(xùn)練的說(shuō)話者提供一組模型，構(gòu)造表示多個(gè)訓(xùn)練說(shuō)話者的本征空間，并對(duì)所述模型組進(jìn)行維數(shù)降低，以產(chǎn)生定義所述本征空間的一組基向量；產(chǎn)生適應(yīng)模型，使用來(lái)自新的說(shuō)話者的輸入語(yǔ)音以便在定義所述適應(yīng)模型的本征空間中找出極大似然向量，使所述適應(yīng)模型位于所述本征空間內(nèi)。
11.權(quán)利要求10的方法，其中產(chǎn)生極大似然向量的所述步驟包括定義表示對(duì)預(yù)定的一組模型產(chǎn)生觀測(cè)數(shù)據(jù)的概率的概率函數(shù)，其中所述輸入語(yǔ)音提供所述觀測(cè)數(shù)據(jù)；以及最大化所述概率函數(shù)以找出所述極大似然向量。
12.權(quán)利要求10的方法，其中所述適應(yīng)模型通過(guò)使極大似然向量系數(shù)乘以所述基向量從極大似然向量導(dǎo)出。
13.權(quán)利要求12的方法，其中所述極大化步驟通過(guò)以下進(jìn)行把所述極大似然向量表示為一組本征值變量；對(duì)于所述本征值變量取所述概率函數(shù)的一階導(dǎo)數(shù)；以及當(dāng)所述一階導(dǎo)數(shù)等于零時(shí)，求出所述本征值變量對(duì)應(yīng)的值。
14.一種進(jìn)行說(shuō)話者適應(yīng)或規(guī)范化的方法，該方法包括步驟把多個(gè)訓(xùn)練說(shuō)話者表示為一組說(shuō)話者模型，所述模型定義多個(gè)參數(shù)；通過(guò)調(diào)節(jié)所述模型的至少某些所述參數(shù)強(qiáng)化所述說(shuō)話者模型以定義一組強(qiáng)化的說(shuō)話者模型；通過(guò)對(duì)所述強(qiáng)化模型組進(jìn)行維數(shù)降低，以產(chǎn)生一組定義所述本征空間的基向量，而構(gòu)造表示所述多個(gè)訓(xùn)練說(shuō)話者的本征空間；產(chǎn)生適應(yīng)模型，使用來(lái)自新的說(shuō)話者的輸入語(yǔ)音以便訓(xùn)練所述適應(yīng)模型，同時(shí)使用所述基向量組約束所述適應(yīng)模型，使得所述適應(yīng)模型位于所述本征空間內(nèi)。
15.權(quán)利要求14的方法，其中使用極大后驗(yàn)估計(jì)進(jìn)行所述強(qiáng)化步驟。
16.權(quán)利要求14的方法，其中使用基于變換的估計(jì)過(guò)程進(jìn)行所述強(qiáng)化步驟。
17.權(quán)利要求14的方法，其中使用極大似然線性回歸估計(jì)進(jìn)行所述強(qiáng)化步驟。
18.權(quán)利要求14的方法，其中產(chǎn)生所述適應(yīng)模型的所述步驟包括使用來(lái)自所述新的說(shuō)話者的輸入語(yǔ)音以產(chǎn)生極大似然向量并訓(xùn)練所述適應(yīng)模型，同時(shí)使用所述基向量組和所述極大似然向量約束所述適應(yīng)模型，使得所述適應(yīng)模型位于所述本征空間內(nèi)。
19.一種進(jìn)行說(shuō)話者適應(yīng)或規(guī)范化的方法，該方法包括步驟通過(guò)對(duì)所述訓(xùn)練說(shuō)話者提供一組模型而構(gòu)造表示多個(gè)訓(xùn)練說(shuō)話者的本征空間，并對(duì)所述模型組進(jìn)行維數(shù)降低，以產(chǎn)生一組定義所述本征空間的基向量；產(chǎn)生適應(yīng)模型，使用來(lái)自新的說(shuō)話者的輸入語(yǔ)音以便訓(xùn)練所述適應(yīng)模型，同時(shí)使用所述基向量組約束所述適應(yīng)模型，使得所述適應(yīng)模型位于所述本征空間內(nèi)；通過(guò)從所述適應(yīng)模型抽取模型參數(shù)而強(qiáng)化所述適應(yīng)模型，并基于來(lái)自所述新的說(shuō)話者的輸入語(yǔ)音調(diào)節(jié)至少某些所述參數(shù)。
20.權(quán)利要求19的方法，其中使用極大后驗(yàn)估計(jì)進(jìn)行所述強(qiáng)化步驟。
21.權(quán)利要求19的方法，其中使用基于變換的估計(jì)過(guò)程進(jìn)行所述強(qiáng)化步驟。
22.權(quán)利要求19的方法，其中使用極大似然線性回歸估計(jì)進(jìn)行所述強(qiáng)化步驟。
23.權(quán)利要求19的方法，其中產(chǎn)生所述適應(yīng)模型的所述步驟包括使用來(lái)自所述新的說(shuō)話者的輸入語(yǔ)音以產(chǎn)生極大似然向量并訓(xùn)練所述適應(yīng)模型，同時(shí)使用所述基向量組和所述極大似然向量約束所述適應(yīng)模型，使得所述適應(yīng)模型位于所述本征空間內(nèi)。
24.權(quán)利要求23的方法，其中使用極大后驗(yàn)估計(jì)進(jìn)行所述強(qiáng)化步驟。
25.權(quán)利要求23的方法，其中使用基于變換的估計(jì)過(guò)程進(jìn)行所述強(qiáng)化步驟。
26.權(quán)利要求23的方法，其中使用極大似然線性回歸估計(jì)進(jìn)行所述強(qiáng)化步驟。
27.一種進(jìn)行說(shuō)話者適應(yīng)或規(guī)范化的方法，該方法包括步驟把多個(gè)訓(xùn)練說(shuō)話者表示為第一組變換矩陣，以及變換矩陣所適用的模型；通過(guò)對(duì)所述第一組變換矩陣進(jìn)行維數(shù)降低而構(gòu)造表示多個(gè)訓(xùn)練說(shuō)話者的本征空間，以產(chǎn)生一組定義所述本征空間的基向量；使用來(lái)自新的說(shuō)話者的輸入語(yǔ)音產(chǎn)生第二組變換矩陣，同時(shí)使用所述基向量組約束所述第二組變換矩陣，使得所述第二組位于所述本征空間內(nèi)。
28.權(quán)利要求27的方法，其中所述第一組變換矩陣是通過(guò)極大似然線性回歸產(chǎn)生的。
29.權(quán)利要求27的方法，還包括使所述第一組變換矩陣每一個(gè)向量化以定義一組超向量，并對(duì)所述超向量進(jìn)行維數(shù)降低以定義所述本征空間。
30.權(quán)利要求27的方法，還包括使用來(lái)自新說(shuō)話者的輸入語(yǔ)音產(chǎn)生所述第二組變換矩陣，以產(chǎn)生極大似然向量，使用所述極大似然向量確定所述本征空間內(nèi)的位置。
31.一種進(jìn)行說(shuō)話者適應(yīng)或規(guī)范化的方法，該方法包括步驟通過(guò)對(duì)所述訓(xùn)練說(shuō)話者提供一組第一模型而構(gòu)造表示多個(gè)訓(xùn)練說(shuō)話者的本征空間，并對(duì)所述第一模型組進(jìn)行維數(shù)降低，以產(chǎn)生一組定義所述本征空間的基向量；產(chǎn)生適應(yīng)模型，使用來(lái)自新的說(shuō)話者的輸入語(yǔ)音以便訓(xùn)練所述適應(yīng)模型，同時(shí)使用所述基向量組約束所述適應(yīng)模型，使得所述適應(yīng)模型位于所述本征空間內(nèi)，其中所述第一模型定義第一概率分布，且所述輸入語(yǔ)音定義觀測(cè)數(shù)據(jù)，且其中所述適應(yīng)模型是這樣產(chǎn)生的，使得所述觀測(cè)數(shù)據(jù)和所述第一概率分布的乘積最大化。
32.權(quán)利要求31的方法，還包括向所述第一概率分布及所述第二概率分布施加置信因子，以反映由所述分布提供的信息置信度對(duì)時(shí)間如何變化。
全文摘要
對(duì)相當(dāng)大數(shù)目的訓(xùn)練說(shuō)話者訓(xùn)練一組說(shuō)話者相關(guān)模型或適應(yīng)模型,每一說(shuō)話者一個(gè)模型,并按預(yù)定的順序抽取模型參數(shù)以構(gòu)造一組超向量,每一說(shuō)話者一個(gè)。然后對(duì)超向量組進(jìn)行維數(shù)降低以產(chǎn)生定義一本征空間的一組本征向量。如果需要,可以減少向量數(shù)目以達(dá)到數(shù)據(jù)壓縮。此后,一新的說(shuō)話者提供適應(yīng)數(shù)據(jù),從這些適應(yīng)數(shù)據(jù)構(gòu)造一超向量,基于極大似然估計(jì)把這一超向量約束在本征話音空間中。
文檔編號(hào)G10L15/14GK1253353SQ9911839
公開(kāi)日2000年5月17日申請(qǐng)日期1999年9月3日優(yōu)先權(quán)日1998年9月4日
發(fā)明者羅蘭德·庫(kù)恩, 帕特里克·貴恩, 吉恩－克勞德·瓊克瓦申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅蘭德.庫(kù)恩;帕特里克.貴恩;吉恩-克勞德.瓊克瓦
技術(shù)所有人：松下電器產(chǎn)業(yè)株式會(huì)社
我是此專利的發(fā)明人

上一篇：記錄和再現(xiàn)裝置的制作方法
上一篇：基于本征話音的說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

說(shuō)話人自適應(yīng)相關(guān)技術(shù)

住院醫(yī)師規(guī)范化培訓(xùn)相關(guān)技術(shù)

規(guī)范化相關(guān)技術(shù)

浙江省規(guī)范化培訓(xùn)系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

使用本征話音技術(shù)使說(shuō)話者規(guī)范化并使其與環(huán)境相適應(yīng)的制作方法