專利名稱:基于混合t模型的說話人識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信號處理和模式識別,主要是一種基于混合t模型的說話人識別方法。
背景技術(shù):
說話人識別技術(shù)是指利用信號處理和模式識別方法,根據(jù)說話人的語音識別其身份的技術(shù)。說話人識別包括兩個步驟,包括模型訓(xùn)練和測試。其中,模型訓(xùn)練是指對說話人的語音特征建模的過程。如果要取得良好的識別性能,需要考慮建模的模型類型和模型參數(shù)的訓(xùn)練兩個方面。模型類型的選擇方法和語音數(shù)據(jù)的分布有關(guān),目前常用的說話人模型類型有混合高斯模型(Douglas A.Reynolds,Richard C.Rose,“Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Models”,IEEETRANSACTIONS ON SPEECH AND AUDIO PROCESSING,VOL.3,no.1,pp.72-83,JANUARY 1995.)和碼本模型。
由于語音數(shù)據(jù)有較大的邊緣分布,高斯混合模型不能很好的對邊緣數(shù)據(jù)建模。
發(fā)明內(nèi)容
本發(fā)明提出了一種基于混合t模型的說話人識別方法。該方法采用混合t模型為說話人的語音特征空間建模,是一種新的說話人模型,t分布又可稱為學(xué)生分布,混合t分布是有限數(shù)量的t分布的線性組合。
一種基于混合t模型的說話人識別方法,包括如下步驟 1)、特征提取采集待識別的語音信號,對音頻信號預(yù)處理,預(yù)處理分為采樣量化,去零漂,預(yù)加重和加窗4個步驟。
對預(yù)處理后的語音信號進(jìn)行特征提取,本方法可以采用的特征提取方法為基于美爾系數(shù)的特征提取方法、基于美爾倒譜系數(shù)(MFCC)的特征提取方法、基于線性預(yù)測倒譜系數(shù)的特征提取方法(LPCC)中的一種或多種。
關(guān)于預(yù)處理中的4個步驟、基于美爾系數(shù)、基于美爾倒譜系數(shù)(MFCC)的特征提取方法以及基于線性預(yù)測倒譜系數(shù)的特征提取方法均可參見JOSEPH P.CAMPBELL,JR.的“Speaker RecognitionA Tutorial”,《PROCEEDINGS OF THE IEEE》(VOL.85,NO.9,pp.1437-1462,SEPTEMBER 1997)。
采用不同的提取方法,可分別得到語音信號的美爾特征、美爾倒譜特征或線性預(yù)測倒譜特征。每幀特征可用xj表示,是一個p維的向量。
2)、說話人建模采用混合t模型對語音特征建模,根據(jù)說話人的語音訓(xùn)練出其混合t模型的參數(shù); 混合t模型是M個t分布的線性組合,可以表示為 其中,x是一個p維的向量,即向量的維數(shù)為p(整數(shù)); wi表示每個t分布的混合權(quán)重,必須滿足 ti(x)為t分布,表示為 其中,μi,∑i,γi分別表示t分布的均值、t分布的方差矩陣和t分布的自由度,x同上是一個p維的向量,Γ表示gamma方程,其定義如下 x同上是一個p維的向量; 根據(jù)上述表述,可由參數(shù)λ(λ={wi,μi,∑i,γi},i=1,...,M)表示根據(jù)某個說話人的語音訓(xùn)練的混合t模型。在模型參數(shù)的訓(xùn)練過程中,首先提取語音特征xj(j=1,...,n),然后估計(jì)λ的值讓p(x)值最大。
3)、測試采用測試語音的后驗(yàn)概率表示得分,用于識別過程。
根據(jù)貝葉斯理論,步驟1)得到的待識別的語音信號的特征在某個說話人的混合t模型(λt)上的得分表示為 其中,xi表示待識別的語音信號的特征,n表示特征的數(shù)目。
當(dāng)輸入的待識別語音為X=(x1,x2,...,xn),說話人的模型為λ1,λ2,...,λS。在說話人鑒別中,其中在所有模型中得分最高的模型擁有者被認(rèn)為是該測試語音對應(yīng)的用戶。在說話人確認(rèn)中,需要設(shè)定一個閥值,如果得分高于該閥值就被接受;否則被拒絕。
本發(fā)明有益的效果是采用混合t模型對說話人語音特征空間建模,提出了一種EM算法訓(xùn)練t混合模型的參數(shù),提高說話人識別的魯棒性。特別是當(dāng)有較大的邊緣噪音的時候,混合t分布比高斯混合分布更有魯棒性。
具體實(shí)施例方式 第一部分、特征提取 首先對音頻信號預(yù)處理,預(yù)處理分布分為采樣量化,去零漂,預(yù)加重和加窗四個部分。
對預(yù)處理后的語音信號進(jìn)行特征提取,本實(shí)施例采用美爾倒譜系數(shù),提取美爾倒譜系數(shù)的方法是先采用美爾濾波器對上述頻譜進(jìn)行濾波,再采用離散余弦變化得到特征。
構(gòu)建美爾濾波器可采用現(xiàn)有技術(shù),例如采用如下步驟 1)計(jì)算梅爾域刻度 p表示需計(jì)算的美爾刻度的個數(shù); 2)計(jì)算梅爾域刻度Mi處對應(yīng)的頻域刻度 3)計(jì)算每個梅爾域通道φj上的對數(shù)能量譜Ej
其中jj(k)表示梅爾域通道φj的權(quán)重,
其中k為濾波器的個數(shù)。
第二部分、模型訓(xùn)練 混合t模型是M個t分布的線性組合,可以表示為 其中,x是一個p維的向量,wi表示每個t分布的混合權(quán)重,必須滿足ti(x)表示t分布,定義為 t分布又稱為學(xué)生分布,t分布有如下特征 1.以0為中心,左右對稱的單峰分布; 2.t分布是一簇曲線,其形態(tài)變化與自由度大小有關(guān)。自由度越小,t分布曲線越低平;自由度越大,t分布曲線越接近標(biāo)準(zhǔn)正態(tài)分布(u分布)曲線。
其中,μi,∑i,γi分別表示t分布的均值、t分布的方差矩陣和t分布的自由度,Γ表示gamma方程,其定義如下 根據(jù)上述表述,可由參數(shù)λ(λ={wi,μi,∑i,γi},i=1,...,M)表示根據(jù)某個說話人的語音訓(xùn)練的混合t模型。在模型參數(shù)的訓(xùn)練過程中,首先提取語音特征xj(j=1,...,n),然后估計(jì)λ的值讓p(x)值最大。
訓(xùn)練過程是迭代方法求得最后局部最優(yōu)結(jié)果的過程,分為兩個步驟E步驟和M步驟。在每次迭代中,都是根據(jù)上一次的結(jié)果λk估計(jì)本次的參數(shù)λk+1。
E步驟 首先,計(jì)算xj屬于第ith個分量的概率
然后,計(jì)算
時的條件概率
最后,計(jì)算p(X|λk)。如果|log(p(X|λk))-log(p(X|λk-1))|<δ,循環(huán)將被停止,λk就是最后的輸出結(jié)果。δ被設(shè)定成一個接近于零的正數(shù),比如δ=1.0*10-6。如果不成立,執(zhí)行下面的步驟。
M步驟 混合權(quán)重
采用后驗(yàn)概率的平均值表示 均值μi和方差∑i更新為 估計(jì)自由度
的過程就是求解非線性方程 其中并且(poly-gamma函數(shù))。該方程可以采用牛頓迭代法(T.F.Coleman,Y.Li,“On the Convergence of ReflectiveNewton Methods for Large-Scale Nonlinear Minimization Subject to Bounds,”Mathematical Programming,Vol.67,Number 2,pp.189-224,1994.)求解。
第三部分、測試 根據(jù)貝葉斯理論,如果輸入的語音為X=(x1,x2,...,xn),說話人的模型為λ1,λ2,...,λS。那么對于X在模型λi上的得分即待識別的語音信號的特征在某個說話人的混合t模型上的得分表示為 在說話人鑒別中,其中在所有模型中得分最高的模型擁有者被認(rèn)為是該測試語音對應(yīng)的用戶。在說話人確認(rèn)中,需要設(shè)定一個閥值,如果得分高于該閥值就被接受;否則被拒絕。
貝葉斯理論及t分布均可參見盛驟,謝式千,潘承毅,《概率論與數(shù)理統(tǒng)計(jì)》(第三版),高等教育出版社。
效果測試 實(shí)驗(yàn)中采用的數(shù)據(jù)庫為中文情感語音數(shù)據(jù)庫(MASC)。該數(shù)據(jù)庫包括68人,其中女性23人。每個說話人要在中性情感情況下說出5個單詞和20句語句3遍。
實(shí)驗(yàn)中,采用中性的20句話的前5句的三遍,一共15句話用于訓(xùn)練,組成訓(xùn)練語音集。后15句語音(三遍)用于測試,組成測試語音集合(共15*3*68)。實(shí)驗(yàn)中,模擬的說話人鑒別的過程,共有兩組實(shí)驗(yàn) 1、高斯混合模型實(shí)驗(yàn)采用傳統(tǒng)的基于高斯混合模型的說話人識別方法。采用的是16階的高斯混合模型。
2、T混合模型實(shí)驗(yàn)采用本專利中的基于t混合分布的說話人識別方法。采用16階的t混合模型。
實(shí)驗(yàn)1和實(shí)驗(yàn)2的識別率分別為94.03%和95.81%,說明本發(fā)明的t混合模型要優(yōu)于高斯混合模型。
權(quán)利要求
1、一種基于混合t模型的說話人識別方法,包括如下步驟
1)、特征提取采集待識別的語音信號,對音頻信號預(yù)處理,對預(yù)處理后的語音信號進(jìn)行特征提取,得到語音信號的特征;
2)、說話人建模采用混合t模型對語音特征建模,根據(jù)說話人的語音訓(xùn)練出其混合t模型的參數(shù);
所述的混合t模型為
其中,ti(x)表示t分布,x是一個p維的向量,wi表示每個t分布的混合權(quán)重,且滿足ti(x)定義為
其中,μi,∑i,γi分別表示t分布的均值、t分布的方差矩陣和t分布的自由度,Γ表示gamma方程,其定義如下
3)、測試計(jì)算步驟1)得到的待識別的語音信號的特征在某個說話人的混合t模型上的得分,通過得分與閥值的比較,得到語音信號的識別結(jié)果,得分表示為
其中,xi表示待識別的語音信號的特征,n表示特征的數(shù)目,
表示混合t模型。
2、如權(quán)利要求1所述的基于混合t模型的說話人識別方法,其特征在于對預(yù)處理后的語音信號進(jìn)行特征提取采用基于美爾系數(shù)的特征提取方法、基于美爾倒譜系數(shù)的特征提取方法、基于線性預(yù)測倒譜系數(shù)的特征提取方法中的一種或多種。
全文摘要
本發(fā)明公開了一種基于混合t模型的說話人識別方法,包括如下步驟1)特征提取采集待識別的語音信號,對音頻信號預(yù)處理,對預(yù)處理后的語音信號進(jìn)行特征提取,得到語音信號的特征;2)說話人建模采用混合t模型對語音特征建模,根據(jù)說話人的語音訓(xùn)練出其混合t模型的參數(shù);3)測試采用測試語音的后驗(yàn)概率表示得分,通過得分與閥值的比較,得到語音信號的識別結(jié)果,本發(fā)明采用混合t模型對說話人語音特征空間建模,提出了一種EM算法訓(xùn)練t混合模型的參數(shù),提高說話人識別的魯棒性。特別是當(dāng)有較大的邊緣噪音的時候,混合t分布比高斯混合分布更有魯棒性。
文檔編號G10L17/00GK101419799SQ200810162449
公開日2009年4月29日 申請日期2008年11月25日 優(yōu)先權(quán)日2008年11月25日
發(fā)明者吳朝暉, 楊瑩春, 單振宇 申請人:浙江大學(xué)