基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法

文檔序號：2818962閱讀：965來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信號處理和模式識別領(lǐng)域，主要涉及一種基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法。
背景技術(shù)：
在門禁、信用卡交易和法庭證據(jù)等方面，自動說話人識別，特別是與文本相關(guān)的說話人識別起著越來越重要的作用，它的目標(biāo)是把待識別語音正確地判定為屬于語音庫中多個參考人之中的某一個。在與文本相關(guān)的說話人識別方法上，基于傳統(tǒng)的隱馬爾可夫模型(GHMM)方法越來越受到重視，由于它具有識別率高，訓(xùn)練簡單，訓(xùn)練數(shù)據(jù)量要求不大等優(yōu)點，已經(jīng)成為目前與文本相關(guān)的說話人識別的主流的識別方法。由于GHMM具有很好的表示數(shù)據(jù)的分布的能力，只要有足夠多的狀態(tài)，足夠多的訓(xùn)練數(shù)據(jù)，GHMM就能夠逼近任何與時間序列相關(guān)分布模型。但是，實際使用GHMM時存在幾個問題。首先，傳統(tǒng)的GHMM的狀態(tài)數(shù)目是有限的，在訓(xùn)練之前預(yù)先設(shè)定好，并且訓(xùn)練過程中是固定不變，這容易使模型對訓(xùn)練數(shù)據(jù)產(chǎn)生過擬合或欠擬合現(xiàn)象。其次，傳統(tǒng)的GHMM中每個狀態(tài)所對應(yīng)的輸出概率分布函數(shù)采用的是高斯混合模型來表示，而在實際應(yīng)用中高斯混合模型的一個缺點是其對于噪聲和數(shù)據(jù)采集過程中容易出現(xiàn)的野值點的魯棒性較差。上述問題常常使得基于傳統(tǒng)的隱馬爾可夫模型的與文本相關(guān)的說話人識別系統(tǒng)的識別正確率較差。

發(fā)明內(nèi)容
本發(fā)明的目的就在于解決現(xiàn)有技術(shù)的缺陷，設(shè)計、研究基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法。本發(fā)明的技術(shù)方案是基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法，其特征在于包括以下步驟(1)對語音信號進(jìn)行預(yù)處理主要包括采樣與量化、預(yù)加重、分幀與加窗；(2)語音幀上的特征提取對每一語音幀，計算D階線性預(yù)測倒譜系數(shù)，將其作為該幀的D維特征矢量；(3)對于每一說話人所對應(yīng)的訓(xùn)練集合X = {xm,}； /，其中段數(shù)為M段，每段訓(xùn)練語音的幀數(shù)為T ；用無限狀態(tài)隱馬爾可夫模型來建模，該隱馬爾可夫模型具有無限狀態(tài)數(shù)，并且每一狀態(tài)的輸出概率分布用學(xué)生氏t混合模型來表示；通過訓(xùn)練估計出該
無限狀態(tài)隱馬爾可夫模型中的參數(shù)值以及隨機變量的分布情況，即得到iSHMMp......，
iSHMMg,......iSHMMe，其中G為說話人的數(shù)量；(4)對于待識別的一段語音，首先進(jìn)行預(yù)處理以及特征提取，得到相應(yīng)的特征矢量所組成的時間序列Ix'山=^，T為序列的幀數(shù)；計算Ix' Jt = U關(guān)于每一個說話人
5有關(guān)的模型iSHMMi，......，iSHMMg,......iSHMMG的似然值LIK(g)，最終的識別結(jié)果為最大
的LIK(g)所對應(yīng)的說話人speaker，即
權(quán)利要求
1.基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法，其特征在于包括以下步驟(1)對語音信號進(jìn)行預(yù)處理主要包括采樣與量化、預(yù)加重、分幀與加窗；(2)語音幀上的特征提取對每一語音幀，計算D階線性預(yù)測倒譜系數(shù)，將其作為該幀的D維特征矢量；(3)對于每一說話人所對應(yīng)的訓(xùn)練集合Χ= ·!、,}；::/，其中段數(shù)為M段，每段訓(xùn)練語音的幀數(shù)為T ；用無限狀態(tài)隱馬爾可夫模型來建模，該隱馬爾可夫模型具有無限狀態(tài) 數(shù)，并且每一狀態(tài)的輸出概率分布用學(xué)生氏t混合模型來表示；通過訓(xùn)練估計出該無限狀態(tài)隱馬爾可夫模型中的參數(shù)值以及隨機變量的分布情況，即得到iSHMMp......，iSHMMg,......iSHMMe，其中G為說話人的數(shù)量；(4)對于待識別的一段語音，首先進(jìn)行預(yù)處理以及特征提取，得到相應(yīng)的特征矢量所組成的時間序列IxJt = L.], T為序列的幀數(shù)；計算{V Jt = ^t關(guān)于每一個說話人有關(guān)的模型iSHMMp......，iSHMMg,......iSHMMg的似然值LIK(g)，最終的識別結(jié)果為最大的LIK(g)所對應(yīng)的說話人speaker，即speaker = argmax二 LIK(g)。
2.根據(jù)權(quán)利要求1所述的基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法，其特征在于，在訓(xùn)練過程中估計該無限狀態(tài)隱馬爾可夫模型中的參數(shù)值以及隨機變量的分布情況的過程如下(1)設(shè)定參數(shù)α，Kj,μ ij; Σ vij;以及π，A的初始值；他，/V2y,vy}；;1丨j分別為與狀態(tài)i的輸出分布函數(shù)有關(guān)的學(xué)生氏t混合模型中的第j個混合成分的權(quán)值，均值，協(xié)方差，自由度參數(shù)；L為實際訓(xùn)練中近似代表⑴的一個較大的狀態(tài)數(shù)，在與文本相關(guān)的說話人識別中，L取值為文本中的音素數(shù)目的2 3倍J為混合成分?jǐn)?shù)目；初始時，bij= 1/J, Vij =1, μ ij和Σ y的初始值通過對當(dāng)前說話人的所有訓(xùn)練數(shù)據(jù)求均值和協(xié)方差來得到；η =i> J h=i,...』為初始狀態(tài)矢量，A =為狀態(tài)轉(zhuǎn)移矩陣，首先隨機取得每個元素的值，然后對A中的每一行，以及π元素進(jìn)行歸一化，使其滿足在滿足歸一化條件:^ =1;
全文摘要
本發(fā)明公開了一種基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法，利用本方法可以避免傳統(tǒng)的隱馬爾可夫模型容易出現(xiàn)的過擬合或欠擬合數(shù)據(jù)的問題。本發(fā)明首先對用于訓(xùn)練的語音信號集合進(jìn)行預(yù)處理和特征提取，接著在訓(xùn)練過程中采用了無限狀態(tài)隱馬爾可夫模型來描述訓(xùn)練集合，該模型在訓(xùn)練數(shù)據(jù)到來之前具有無限狀態(tài)數(shù)目，并且每個狀態(tài)所對應(yīng)的輸出概率分布函數(shù)用學(xué)生氏t混合模型來表示，在訓(xùn)練數(shù)據(jù)到來之后，通過計算得到該模型中的參數(shù)值和隨機變量的分布情況；在識別時，將經(jīng)過預(yù)處理和特征提取的帶識別的語音，計算其關(guān)于訓(xùn)練好的每一說話人模型的似然值，將最大的似然值對應(yīng)的說話人作為識別結(jié)果。本發(fā)明的方法可以有效地提高與文本相關(guān)的說話人識別系統(tǒng)的識別正確率，此外系統(tǒng)對噪聲也具有較好的魯棒性。
文檔編號G10L17/00GK102129860SQ20111008584
公開日2011年7月20日申請日期2011年4月7日優(yōu)先權(quán)日2011年4月7日
發(fā)明者魏昕申請人:魏昕

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：魏昕
技術(shù)所有人：魏昕
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

隱馬爾可夫模型相關(guān)技術(shù)

隱式馬爾可夫模型相關(guān)技術(shù)

隱含馬爾可夫模型相關(guān)技術(shù)

隱馬爾可夫鏈模型相關(guān)技術(shù)

連續(xù)隱馬爾可夫模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于無限狀態(tài)隱馬爾可夫模型的與文本相關(guān)的說話人識別方法