專利名稱:基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信號處理和模式識別領(lǐng)域,主要涉及一種基于無限狀態(tài)隱馬爾可夫模 型的與文本相關(guān)的說話人識別方法。
背景技術(shù):
在門禁、信用卡交易和法庭證據(jù)等方面,自動說話人識別,特別是與文本相關(guān)的說 話人識別起著越來越重要的作用,它的目標(biāo)是把待識別語音正確地判定為屬于語音庫中多 個參考人之中的某一個。在與文本相關(guān)的說話人識別方法上,基于傳統(tǒng)的隱馬爾可夫模型(GHMM)方法越 來越受到重視,由于它具有識別率高,訓(xùn)練簡單,訓(xùn)練數(shù)據(jù)量要求不大等優(yōu)點,已經(jīng)成為目 前與文本相關(guān)的說話人識別的主流的識別方法。由于GHMM具有很好的表示數(shù)據(jù)的分布的 能力,只要有足夠多的狀態(tài),足夠多的訓(xùn)練數(shù)據(jù),GHMM就能夠逼近任何與時間序列相關(guān)分布 模型。但是,實際使用GHMM時存在幾個問題。首先,傳統(tǒng)的GHMM的狀態(tài)數(shù)目是有限的,在 訓(xùn)練之前預(yù)先設(shè)定好,并且訓(xùn)練過程中是固定不變,這容易使模型對訓(xùn)練數(shù)據(jù)產(chǎn)生過擬合 或欠擬合現(xiàn)象。其次,傳統(tǒng)的GHMM中每個狀態(tài)所對應(yīng)的輸出概率分布函數(shù)采用的是高斯混 合模型來表示,而在實際應(yīng)用中高斯混合模型的一個缺點是其對于噪聲和數(shù)據(jù)采集過程中 容易出現(xiàn)的野值點的魯棒性較差。上述問題常常使得基于傳統(tǒng)的隱馬爾可夫模型的與文本 相關(guān)的說話人識別系統(tǒng)的識別正確率較差。
發(fā)明內(nèi)容
本發(fā)明的目的就在于解決現(xiàn)有技術(shù)的缺陷,設(shè)計、研究基于無限狀態(tài)隱馬爾可夫 模型的與文本相關(guān)的說話人識別方法。本發(fā)明的技術(shù)方案是基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法,其特征在于包括 以下步驟(1)對語音信號進(jìn)行預(yù)處理主要包括采樣與量化、預(yù)加重、分幀與加窗;(2)語音幀上的特征提取對每一語音幀,計算D階線性預(yù)測倒譜系數(shù),將其作為 該幀的D維特征矢量;(3)對于每一說話人所對應(yīng)的訓(xùn)練集合X = {xm,}; /,其中段數(shù)為M段,每段 訓(xùn)練語音的幀數(shù)為T ;用無限狀態(tài)隱馬爾可夫模型來建模,該隱馬爾可夫模型具有無限 狀態(tài)數(shù),并且每一狀態(tài)的輸出概率分布用學(xué)生氏t混合模型來表示;通過訓(xùn)練估計出該
無限狀態(tài)隱馬爾可夫模型中的參數(shù)值以及隨機變量的分布情況,即得到iSHMMp......,
iSHMMg,......iSHMMe,其中G為說話人的數(shù)量;(4)對于待識別的一段語音,首先進(jìn)行預(yù)處理以及特征提取,得到相應(yīng)的特征矢量 所組成的時間序列Ix'山=^,T為序列的幀數(shù);計算Ix' Jt = U關(guān)于每一個說話人
5有關(guān)的模型iSHMMi,......,iSHMMg,......iSHMMG的似然值LIK(g),最終的識別結(jié)果為最大
的LIK(g)所對應(yīng)的說話人speaker,即
權(quán)利要求
1.基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法,其特征在于包括以 下步驟(1)對語音信號進(jìn)行預(yù)處理主要包括采樣與量化、預(yù)加重、分幀與加窗;(2)語音幀上的特征提取對每一語音幀,計算D階線性預(yù)測倒譜系數(shù),將其作為該幀 的D維特征矢量;(3)對于每一說話人所對應(yīng)的訓(xùn)練集合Χ= ·!、,};::/,其中段數(shù)為M段,每段訓(xùn)練 語音的幀數(shù)為T ;用無限狀態(tài)隱馬爾可夫模型來建模,該隱馬爾可夫模型具有無限狀態(tài) 數(shù),并且每一狀態(tài)的輸出概率分布用學(xué)生氏t混合模型來表示;通過訓(xùn)練估計出該無限狀態(tài)隱馬爾可夫模型中的參數(shù)值以及隨機變量的分布情況,即得到iSHMMp......,iSHMMg,......iSHMMe,其中G為說話人的數(shù)量;(4)對于待識別的一段語音,首先進(jìn)行預(yù)處理以及特征提取,得到相應(yīng)的特征矢量所組 成的時間序列IxJt = L.], T為序列的幀數(shù);計算{V Jt = ^t關(guān)于每一個說話人有關(guān)的模型iSHMMp......,iSHMMg,......iSHMMg的似然值LIK(g),最終的識別結(jié)果為最大的LIK(g)所對應(yīng)的說話人speaker,即speaker = argmax二 LIK(g)。
2.根據(jù)權(quán)利要求1所述的基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別 方法,其特征在于,在訓(xùn)練過程中估計該無限狀態(tài)隱馬爾可夫模型中的參數(shù)值以及隨機變 量的分布情況的過程如下(1)設(shè)定參數(shù)α,Kj,μ ij; Σ vij;以及π,A的初始值;他,/V2y,vy};;1丨j分別為與 狀態(tài)i的輸出分布函數(shù)有關(guān)的學(xué)生氏t混合模型中的第j個混合成分的權(quán)值,均值,協(xié)方 差,自由度參數(shù);L為實際訓(xùn)練中近似代表⑴的一個較大的狀態(tài)數(shù),在與文本相關(guān)的說話人 識別中,L取值為文本中的音素數(shù)目的2 3倍J為混合成分?jǐn)?shù)目;初始時,bij= 1/J, Vij =1, μ ij和Σ y的初始值通過對當(dāng)前說話人的所有訓(xùn)練數(shù)據(jù)求均值和協(xié)方差來得到;η =i> J h=i,...』為初始狀態(tài)矢量,A =為狀態(tài)轉(zhuǎn)移矩陣,首先隨機取得每個元素的值,然后對A中的每一行,以及π元素進(jìn)行歸一化,使其滿足在滿足歸一化條件:^ =1;
全文摘要
本發(fā)明公開了一種基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法,利用本方法可以避免傳統(tǒng)的隱馬爾可夫模型容易出現(xiàn)的過擬合或欠擬合數(shù)據(jù)的問題。本發(fā)明首先對用于訓(xùn)練的語音信號集合進(jìn)行預(yù)處理和特征提取,接著在訓(xùn)練過程中采用了無限狀態(tài)隱馬爾可夫模型來描述訓(xùn)練集合,該模型在訓(xùn)練數(shù)據(jù)到來之前具有無限狀態(tài)數(shù)目,并且每個狀態(tài)所對應(yīng)的輸出概率分布函數(shù)用學(xué)生氏t混合模型來表示,在訓(xùn)練數(shù)據(jù)到來之后,通過計算得到該模型中的參數(shù)值和隨機變量的分布情況;在識別時,將經(jīng)過預(yù)處理和特征提取的帶識別的語音,計算其關(guān)于訓(xùn)練好的每一說話人模型的似然值,將最大的似然值對應(yīng)的說話人作為識別結(jié)果。本發(fā)明的方法可以有效地提高與文本相關(guān)的說話人識別系統(tǒng)的識別正確率,此外系統(tǒng)對噪聲也具有較好的魯棒性。
文檔編號G10L17/00GK102129860SQ20111008584
公開日2011年7月20日 申請日期2011年4月7日 優(yōu)先權(quán)日2011年4月7日
發(fā)明者魏昕 申請人:魏昕