應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法和裝置的制造方法
【專利摘要】本發(fā)明涉及應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法和裝置,該方法包括:從目標(biāo)語(yǔ)音信號(hào)中提取線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和Delta特征;對(duì)所述線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和Delta特征進(jìn)行組合,得到若干有效特征向量;利用局部模糊PCA方法降低所述有效特征向量的維數(shù);根據(jù)高斯混合模型利用降低后的有效特征向量進(jìn)行建模,對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。與現(xiàn)有技術(shù)相比,本發(fā)明采用特征組合代替單一特征,以提高有效特征維數(shù)來彌補(bǔ)特征樣本的不足,并用局部模糊PCA對(duì)組合特征進(jìn)行有效降維,在對(duì)識(shí)別率影響很小的前提下,降低了系統(tǒng)的時(shí)空復(fù)雜度。
【專利說明】
應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種在短語(yǔ)音條件下的說話人確認(rèn)方法 和裝置。
【背景技術(shù)】
[0002] 在說話人識(shí)別技術(shù)走向?qū)嶋H應(yīng)用過程中常會(huì)遇到如下情況:1、恐怖分子或被偵聽 對(duì)象,為了反偵聽的考慮,說話往往很短,有時(shí)甚至只有兩三個(gè)字。雖然文本相關(guān)技術(shù)對(duì)短 語(yǔ)音說話人識(shí)別有一定效果,但文本相關(guān)話者識(shí)別對(duì)這樣的情形是無法使用的。2、由于通 話傳輸信道的問題,很多電話通話質(zhì)量很差,導(dǎo)致語(yǔ)音斷續(xù)情況嚴(yán)重。通常的解決辦法是把 幾乎不含有或幾乎無法提取說話人信息的斷續(xù)語(yǔ)音段去掉,其結(jié)果必然是有效語(yǔ)音變短。 3、在多說話人問題的解決過程中,由于目前語(yǔ)音分段技術(shù)的成熟度不夠,或者的確存在語(yǔ) 音交疊情形,對(duì)識(shí)別容易造成負(fù)面影響的低質(zhì)量語(yǔ)音段或說話人重疊語(yǔ)音段,必須在送給 識(shí)別器前切除掉,這也必然導(dǎo)致有效語(yǔ)音變短。4、在一些商用場(chǎng)合,用戶不愿意說很長(zhǎng)的語(yǔ) 音。因此,短語(yǔ)音問題是實(shí)際應(yīng)用必須要解決的。
[0003] 短語(yǔ)音的問題目前還沒有得到廣大學(xué)術(shù)界的重視,還沒有明確的定義。一些研究 人員只是從側(cè)面提到了短語(yǔ)音問題,并沒有做為重點(diǎn)來研究,有些研究工作所做的短語(yǔ)音 工作都不是從實(shí)際應(yīng)用的角度出發(fā),對(duì)短語(yǔ)音認(rèn)識(shí)很模糊。
[0004] 對(duì)于短語(yǔ)音的說話人辨識(shí)可以從三個(gè)角度對(duì)短語(yǔ)音問題給出明確定義:
[0005] 1、訓(xùn)練語(yǔ)音和測(cè)試語(yǔ)音的文本內(nèi)容一般是不相同的,即文本無關(guān);
[0006] 2、訓(xùn)練語(yǔ)音可以長(zhǎng)些(1-20秒),這在實(shí)際中是較易保證的,用戶通常比較愿意在 建模時(shí)說較長(zhǎng)的語(yǔ)音;
[0007] 3、識(shí)別語(yǔ)音相比訓(xùn)練語(yǔ)音要短很多,一般不超過10秒,有時(shí)甚至是2-3個(gè)音節(jié),對(duì) 應(yīng)漢語(yǔ)的一個(gè)詞,是最小的短義單位。對(duì)于這樣的說話人識(shí)別問題,我們稱之為短語(yǔ)音說話 人識(shí)別。
[0008] 對(duì)于跨信道問題,在工程上可以有好的解決方案,有時(shí)不太會(huì)影響說話人識(shí)別技 術(shù)的應(yīng)用。但是,短語(yǔ)音問題在工程上是沒有任何解決方案的,必須從說話人識(shí)別技術(shù)上找 到新的算法來解決短語(yǔ)音問題。
[0009] 針對(duì)該情況,國(guó)內(nèi)外學(xué)者也提出了一些解決方法。這些方法大體分為三類:
[0010] 1、從特征層面,主要是從較短的語(yǔ)音流中盡可能多地提取信息量,如改變幀長(zhǎng)和 幀移的方法,原理是獲取更多的話者信息的語(yǔ)音幀,在不同的幀長(zhǎng)和幀移中包含說話人的 基音信息和共振峰信息等和提取LP殘余信號(hào)基音同步小波變換的八音度系數(shù)為MFCC特征 的補(bǔ)償方法,認(rèn)為在八音度系數(shù)中含有產(chǎn)生語(yǔ)音信號(hào)的聲源信息。
[0011] 2、從模型層面,如將每個(gè)說話人表示為特征音空間中的一個(gè)點(diǎn),此方法來源于人 臉識(shí)別中特征臉的思想[i09,no} :將特征向量投影到高維空間中并在高維空間中建立VQ碼 本模型,測(cè)試語(yǔ)音采用與訓(xùn)練模型同樣的方法得到VQ碼本,采用最近鄰分類器進(jìn)行分類識(shí) 另IJ;將特征向量進(jìn)行聚類,在每個(gè)子類中建立子GMM模型,將測(cè)試語(yǔ)音在每個(gè)子類模型中的 打分的線性組合做為最終識(shí)別得分「112]}Vogt在kenny的基礎(chǔ)上,把聯(lián)合因子分析(JFA)和 I一矢量(I-Vector)技術(shù)應(yīng)用于短語(yǔ)音說話人識(shí)別,驗(yàn)證了該技術(shù)的可行性。
[0012] 3、從識(shí)別匹配打分層面,如將測(cè)試語(yǔ)音分成若干塊,在模型中找與測(cè)試語(yǔ)音塊相 匹配的子塊,以此子塊的得分做為該段測(cè)試語(yǔ)音的得分,然后,將所有子塊的得分的均值做 為測(cè)試語(yǔ)音的最終得分,主要是用來克服文本不同帶來的影響;將測(cè)試語(yǔ)音在每個(gè)子類模 型上的得分進(jìn)行SVM融合做為最終得分。
[0013] 目前,GMM系統(tǒng)是說話人辨認(rèn)技術(shù)最普遍采用的系統(tǒng),這個(gè)系統(tǒng)建立在統(tǒng)計(jì)模型理 論上,要求訓(xùn)練和測(cè)試語(yǔ)音必須達(dá)到一定的長(zhǎng)度,否則,系統(tǒng)性能將大幅度下降。也就是說, 在短語(yǔ)音情況下,系統(tǒng)識(shí)別率會(huì)大大下降。
【發(fā)明內(nèi)容】
[0014] 本發(fā)明的目的在于提供了一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法和裝置,利 用本發(fā)明實(shí)施里提供的說話人確認(rèn)方法和裝置能夠在短語(yǔ)音的條件下確認(rèn)說話人的身份。
[0015] 為此,本發(fā)明所述的一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法采用的技術(shù)方案 如下:
[0016] -種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法,包括以下步驟:
[0017] 從目標(biāo)語(yǔ)音信號(hào)中提取線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和Delta特征;
[0018] 對(duì)所述線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和Delta特征進(jìn)行組合,得到若干有 效特征向量;利用局部模糊PCA方法降低所述有效特征向量的維數(shù);根據(jù)高斯混合模型利用 降低后的有效特征向量進(jìn)行建模,對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。
[0019] 優(yōu)選地,所述利用局部模糊PCA方法降低所述有效特征維數(shù)的步驟包括初始化聚 類中心的步驟,所述初始化聚類中心包括:
[0020] 將提取的目標(biāo)語(yǔ)音信息的有效特征維數(shù)作為訓(xùn)練樣本集X,根據(jù)下式得到P維的均 值矢量P[j],
[0021]
[0022]其中,X[j]為樣本集X中的有效特征向量,T為所述目標(biāo)語(yǔ)音信息的幀數(shù),P為所述 有效特征維數(shù)的數(shù)量;
[0023]根據(jù)所述P維的均值矢量y[j]分裂成若干個(gè)個(gè)聚類中心;
[0024] 根據(jù)所述有效特征向量與所述聚類中心的距離將所述有效特征向量的樣本集分 成與所述聚類中心對(duì)應(yīng)的子類。
[0025] 優(yōu)選地,所述聚類中心的數(shù)量與所述高斯混合模型的階數(shù)相同。
[0026] 優(yōu)選地,所述根據(jù)高斯混合模型利用降低后的有效特征維數(shù)進(jìn)行建模,對(duì)所述目 標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)的步驟包括:
[0027] 對(duì)經(jīng)局部模糊PCA方法降低所述有效特征向量的維數(shù)的有效特征向量組成特征向 量集;
[0028] 建立與所述語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型;
[0029] 向所述高斯混合模型輸入所述特征向量集,估計(jì)所述高斯混合模型的參數(shù)集。
[0030] 優(yōu)選地,所述根據(jù)高斯混合模型利用降低后的有效特征維數(shù)進(jìn)行建模,對(duì)所述目 標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)的步驟還包括:
[0031] 利用預(yù)期與最大方法來估計(jì)所述高斯混合模型的參數(shù)集的最大值,根據(jù)所述最大 值對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。
[0032] 此外,本發(fā)明實(shí)施例提供的一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)裝置采用的技 術(shù)方案如下:
[0033] -種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)裝置,包括:
[0034]特征提取模塊,用于從目標(biāo)語(yǔ)音信號(hào)中提取線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù) 和De Ita特征;
[0035]特征向量獲取模塊,用于對(duì)所述線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和Delta特 征進(jìn)行組合,得到若干有效特征向量;
[0036] 降維模塊,用于利用局部模糊PCA方法降低所述有效特征向量的維數(shù);
[0037] 辨識(shí)模塊,用于根據(jù)高斯混合模型利用降低后的有效特征向量進(jìn)行建模,對(duì)所述 目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。
[0038]優(yōu)選地,所述降維模塊包括初始化子模塊,所述初始化子模塊包括:
[0039] 第一子模塊,用于將提取的目標(biāo)語(yǔ)音信息的有效特征維數(shù)作為訓(xùn)練樣本集X,根據(jù) 下式得到P維的均值矢量y[j],
[0040]
[0041] 其中,X[j]為樣本集X中的有效特征向量,T為所述目標(biāo)語(yǔ)音信息的幀數(shù),P為所述 有效特征維數(shù)的數(shù)量;
[0042] 第二子模塊,用于根據(jù)所述P維的均值矢量y[j]分裂成若干個(gè)個(gè)聚類中心;
[0043]第三子模塊,用于根據(jù)所述有效特征向量與所述聚類中心的距離將所述有效特征 向量的樣本集分成與所述聚類中心對(duì)應(yīng)的子類。
[0044] 優(yōu)選地,所述辨識(shí)模塊包括:
[0045] 向量集組成子模塊,用于對(duì)經(jīng)局部模糊PCA方法降低所述有效特征向量的維數(shù)的 有效特征向量組成特征向量集;
[0046] 模型建立子模塊,用于建立與所述語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型;
[0047] 參數(shù)估計(jì)子模塊,用于向所述高斯混合模型輸入所述特征向量集,估計(jì)所述高斯 混合模型的參數(shù)集。
[0048] 優(yōu)選地,所述辨識(shí)模塊包括利用預(yù)期與最大方法來估計(jì)所述高斯混合模型的參數(shù) 集的最大值,根據(jù)所述最大值對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。
[0049] 與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例提供的說話人確認(rèn)方法和裝置針對(duì)短語(yǔ)音的說話 人辨認(rèn)訓(xùn)練及測(cè)試語(yǔ)料不充分的特點(diǎn),采用特征組合代替單一特征,以提高有效特征維數(shù) 來彌補(bǔ)特征樣本的不足,并用局部模糊PCA對(duì)組合特征進(jìn)行有效降維,在對(duì)識(shí)別率影響很小 的前提下,降低了系統(tǒng)的時(shí)空復(fù)雜度。此外,本發(fā)明實(shí)施例還對(duì)高斯混合模型(簡(jiǎn)稱:GMM)的 參數(shù)的初始化方法進(jìn)行改進(jìn),采用分裂法與模糊K均值聚類相結(jié)方法,與現(xiàn)有初始化方法相 比,本發(fā)明實(shí)施里提供的說話人確認(rèn)方法和裝置能有效提高短語(yǔ)音說話人辨認(rèn)性能。
【附圖說明】
[0050] 圖1是本發(fā)明所述一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法一實(shí)施方式的流程 圖;
[0051] 圖2是本發(fā)明所述一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法一實(shí)施方式中Mel 特征尺度濾波器的示意圖;
[0052]圖3是本發(fā)明所述一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法一實(shí)施方式中MFCC 特征提取算法流程圖;
[0053]圖4是本發(fā)明所述一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法一實(shí)施方式中用EM 算法估計(jì)GMM模型參數(shù)的流程圖;
[0054]圖5是本發(fā)明所述一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)裝置一實(shí)施方式的結(jié)構(gòu) 示意圖。
【具體實(shí)施方式】
[0055]下面結(jié)合附圖,對(duì)本發(fā)明的【具體實(shí)施方式】做進(jìn)一步說明。
[0056]在說話人辨認(rèn)方法中,語(yǔ)音信號(hào)經(jīng)過預(yù)處理之后,幾秒鐘的語(yǔ)音會(huì)產(chǎn)生很大的數(shù) 據(jù)量。提取說話人特征參數(shù)的過程,實(shí)際上就是去除原來語(yǔ)音中的冗余信息,減小數(shù)據(jù)量的 過程。線性預(yù)測(cè)倒譜系數(shù)(LPCC)和Mel頻率倒譜系數(shù)(MFCC)是說話人辯認(rèn)中最常用的兩種 特征參數(shù),前者模擬聲道效應(yīng),后者模擬人耳聽覺效應(yīng)。但這兩種特征都只考慮語(yǔ)音幀內(nèi)的 信息,而沒有考慮到語(yǔ)音幀之間的信息。因?yàn)檎Z(yǔ)音信號(hào)有時(shí)序性,獲取語(yǔ)音幀之間的時(shí)變信 息,能夠提高說話人辨認(rèn)的性能;Delta特征是目前最常用的幀間補(bǔ)償特征。
[0057]下面首先詳細(xì)介紹這三種特征的原理及提取流程。
[0058] (1)線性預(yù)測(cè)倒譜系數(shù)(LPCC)
[0059] LPCC特征的求取主要基于語(yǔ)音信號(hào)的線性預(yù)測(cè)(LP)原理,即一個(gè)語(yǔ)音信號(hào)能夠用 過去若干個(gè)語(yǔ)音采樣的線性組合來逼近,通過使實(shí)際語(yǔ)音采樣和線性預(yù)測(cè)采樣之間的差值 的平方和(在一個(gè)有限間隔內(nèi))達(dá)到最小值,能夠決定唯一的一組預(yù)測(cè)器系數(shù),稱為線性預(yù) 測(cè)系數(shù)(LPC);用過去P個(gè)時(shí)刻的語(yǔ)音采樣值的線性組合,以最小的預(yù)測(cè)誤差預(yù)測(cè)下一時(shí)刻 的語(yǔ)音信號(hào)梁烊倌,稱為對(duì)語(yǔ)咅信號(hào)的P階線性預(yù)測(cè)。即語(yǔ)音信號(hào)s(n)的預(yù)測(cè)值為:
[0060]
[0061] 其中{ai}被稱為p階線性預(yù)測(cè)系數(shù)或LPC。預(yù)測(cè)誤差為:
[0062]
[0063] 為了在最小均方誤差意義上計(jì)算一組最佳預(yù)測(cè)系數(shù),定義短時(shí)預(yù)測(cè)均方誤差為:
[0064]
[0065] 由于語(yǔ)音信號(hào)的時(shí)變特征,線性預(yù)測(cè)分析應(yīng)該在短時(shí)的語(yǔ)音段上進(jìn)行,即按幀進(jìn) 行。因此,上式的求和是在一幀語(yǔ)音的范圍內(nèi)進(jìn)行。當(dāng)(2.3)式最小時(shí)所對(duì)應(yīng)的{ ai}即為L(zhǎng)PC 特征。提取出來的LPC-般不直接作為語(yǔ)音特征參數(shù)應(yīng)用于說話人辨認(rèn)中,而是通過LPC求 取LPCC; LPCC的優(yōu)點(diǎn)是比較徹底地去掉了語(yǔ)音產(chǎn)生過程中激勵(lì)信息,主要反應(yīng)聲道響應(yīng),而 且往往只需十幾個(gè)倒譜系數(shù)就能很好地描述語(yǔ)音的共振峰特征,因此LPCC常用于說話人辨 認(rèn)。基于求取存在一種非常簡(jiǎn)單有效的遞推求解方法:
[0066]
[0067]式中,可直接從預(yù)測(cè)系數(shù){&1}求得倒譜系數(shù)這個(gè)倒譜系數(shù)是根據(jù)線性預(yù)測(cè)模型得 到的,即稱為線性預(yù)測(cè)倒譜系數(shù)(LPCC)。
[0068] (2)Mel頻譜倒譜系數(shù)
[0069]與普通實(shí)際頻率倒譜分析不同,Mel頻譜倒譜系數(shù)的分析著眼于人耳的聽覺特性。 這是因?yàn)椋硕牭降穆曇舻母叩团c聲音的頻率并不成線性正比關(guān)系,而用頻率尺度則 更符合人耳的聽覺特性。頻率與實(shí)際頻率的具體關(guān)系可表示為:
[0070] Mel(f)=25951g(l+f/700)
[0071] 類似于臨界頻帶的劃分,可以將語(yǔ)音頻率劃分成一系列三角形的濾波器序列Mel 濾波器組,如圖2所示。
[0072]取每個(gè)三角形的濾波器頻率帶寬內(nèi)所有信號(hào)幅度加權(quán)和作為某個(gè)帶通濾波器的 輸出,然后對(duì)所有濾波器輸出作對(duì)數(shù)運(yùn)算,再進(jìn)一步作離散余弦變換(DCT)即得到MFCC。圖3 是MFCC特征的提取流程。
[0073] MFCC特征的計(jì)算過程的主要步驟如下:
[0074] 1、將實(shí)際頻率尺度轉(zhuǎn)換為Mel頻率尺度。
[0075] 2、在Mel頻率軸上配置L個(gè)通道的三角形濾波哭組,L的個(gè)數(shù)由信號(hào)的截止頻率決 定。每一個(gè)三角形濾波器的中心頻率C(I)在Mel頻率軸上等間隔分配。設(shè)〇(1),c(l)和h(l) 分別是第1個(gè)三角濾波器的下限,中心和上限頻率,則相鄰三角濾波器之間的下限、中心和 上限頻率有如下關(guān)系:
[0076] CQ) =h(l_l) =〇(1+1)
[0077] 3、根據(jù)語(yǔ)音信號(hào)能量譜Xn(K)勸求每一個(gè)三角形濾波器的輸出:
[0078]
[0079]
[0080] 4、對(duì)所有濾波器輸出做對(duì)數(shù)運(yùn)算,再進(jìn)一步作DCT即可得到MFCC:
[0081]
[0082] 其中P為MFCC特征的階數(shù)。
[0083] (3)Delta 特征
[0084] MFCC特征和LPCC特征都只考慮到語(yǔ)音幀內(nèi)(intraframe)的信息,而沒有考慮到語(yǔ) 音幀之間(interframe)的信息。Delta特征是一種能夠反映語(yǔ)音幀之間時(shí)變信息的動(dòng)態(tài)特 征,其計(jì)算如下:
[0085]
[0086] 其中,dt表示第t幀特征的Delta特征。
[0087] 短語(yǔ)音說話人辨認(rèn)過程中,因語(yǔ)音信號(hào)中的語(yǔ)料時(shí)長(zhǎng)較短,導(dǎo)致特征樣本不足,識(shí) 別性能下降。對(duì)此,發(fā)明人在研究過程中發(fā)現(xiàn),采用特征組合提高有效特征維數(shù)來彌補(bǔ)這一 不足。然而,隨著特征維數(shù)的增加,也意味著需要更多的模型參數(shù)來描述說話人的特征分 布,從而加大了時(shí)空復(fù)雜度。
[0088] 本發(fā)明所述應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法和裝置針對(duì)短語(yǔ)音說話人辨 認(rèn)訓(xùn)練及測(cè)試語(yǔ)料不充分的特點(diǎn),對(duì)特征參數(shù)和GMM模型進(jìn)行優(yōu)化和改進(jìn),提出一種基于局 部模糊PCA的GMM說話人辨認(rèn)方法。該方法采用特征組合代替單一特征,以提高有效特征維 數(shù)來彌補(bǔ)特征樣本的不足,并用局部模糊PCA對(duì)組合特征進(jìn)行有效降維,在對(duì)識(shí)別率影響很 小的前提下,降低了系統(tǒng)的時(shí)空復(fù)雜度。
[0089] 參見圖1,圖1是本發(fā)明所述一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法一實(shí)施方 式的流程圖。圖1示出的說話人確認(rèn)方法的實(shí)施方式包括步驟S101-S104。
[0090] 在步驟SlOl中,從目標(biāo)語(yǔ)音信號(hào)中提取線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和 De Ita特征。
[0091] 在步驟S102中,對(duì)所述線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和Delta特征進(jìn)行組 合,得到若干有效特征向量;
[0092]在步驟S103中,利用局部模糊PCA方法降低所述有效特征向量的維數(shù)。
[0093]在一些領(lǐng)域中,為了減少特征維數(shù)和特征向量的各維之間的相關(guān)性,Jolloffe等 人提出了主成分分析((PrincipalComponent Analysis,PCA)方法。PCA方法是一種特征提 取方法,通過變換把原始空間投影到更小的子空間,從而降低特征維數(shù)。Kambhat Ia和Leen 首先提出VQPCA模型,用VQ把數(shù)據(jù)分割成不相交的幾個(gè)類,然后對(duì)每個(gè)聚類中心進(jìn)行局部 PCA處理。
[0094] 本發(fā)明所述的說話人確認(rèn)方法的實(shí)施方式中,在語(yǔ)料短缺情況下,引進(jìn)分類隸屬 度因子,提出基于局部模糊PCA的GMM說話人辨認(rèn)方法。
[0095] 下面詳細(xì)介紹在本發(fā)明的實(shí)施方式中利用局部模糊PCA降維方法。
[0096] 首先,利用模糊K均值聚類方法實(shí)現(xiàn)模糊聚類劃分。
[0097]假設(shè)有一P維空間特征矢量集X= {χι,Χ2,···,χτ},模型K均值聚類指定了每一特征 矢量在不同類中的隸屬程度,可用KxT的矩陣U= [ujt]來表示,其中Ujt表示Xt在第」類¥的隸 屬度函救_ it函救右加下樺踣·
[0100]模糊均值聚類算法是基于聚類損失函數(shù)的最小化,其公式如下:
[0098]
[0099]
[0101]
[0102] 其中,m>l是一個(gè)可以控制聚類結(jié)果的模糊程度的常數(shù);W是第j個(gè)聚類的中心;d2 (Xt, Cj)代表Xt與Cj之間的距離,定義如下:
[0103]
[0104] 其中,F(xiàn)1是第i個(gè)聚類的模糊協(xié)方差矩陣,定義如下:
[0105]
[0106] 為了得到最后的模糊集可以求上式的極小值,令心對(duì)(^和Ujt的偏導(dǎo)數(shù)為0,可得必 要條?!?br>[0107;
[0108;
[0109]用迭代法求解式上面兩個(gè)式子,就是模糊k均值算法。算法步驟如下:
[0110] Stepl:設(shè)定聚類數(shù)目K和參數(shù)M;
[0111] Step2:初始化各個(gè)聚類中心Cj;
[0112] Step3重復(fù)下面的計(jì)算,直到各個(gè)樣本的隸屬度值穩(wěn)定。
[0113] 當(dāng)算法收斂時(shí),就得到了各類聚類中心和各個(gè)樣本對(duì)于各類的隸屬度值,從而完 成模糊聚類劃分。
[0114] 傳統(tǒng)的聚類中心初始化方法有隨機(jī)法和重心法,都需要任意選擇聚類中心,沒有 用到特征矢量序列分布的先驗(yàn)信息,導(dǎo)致GMM模型精度欠佳。在一些實(shí)施方式中,步驟S103 中對(duì)GMM參數(shù)初始化方法進(jìn)行改進(jìn),采用分裂法與模糊K均值聚類相結(jié)合的方法初始化聚類 中心。該方法契合了特征矢量的分布函數(shù)由多個(gè)高斯分布函數(shù)線性組合的原理,對(duì)樣本聚 類后得到的初始化參數(shù)能通過預(yù)期與最大方法(即:EM算法)較快收斂,并使樣本分布能較 好地?cái)M合高斯分布。實(shí)驗(yàn)表明,與傳統(tǒng)初始化方法相比該方法能有效提高短語(yǔ)音說話人辨 認(rèn)性能。
[0115] 其中,所述初始化聚類中心包括步驟S1-6。
[0116] 步驟Sl中,把提取的每個(gè)說話人特征參數(shù)集作為訓(xùn)練樣本集。形成一個(gè)TxP的矩陣 (T為幀數(shù),P為特征維數(shù))。
[0117] 步驟S2中,由下式:
[0118;
[0119]得到一個(gè)P維的均值矢量,然后根據(jù)分裂成2個(gè)聚類中心。
[0120]步驟S3中,按最小距離準(zhǔn)則計(jì)算每一幀(訓(xùn)練樣本)與聚類中心的距離,把樣本集 分為η類;
[0121] 步驟S4中,更新聚類中心,對(duì)屬同一類的樣本集進(jìn)行均值矢量計(jì)算,把不同類的均 值矢量作為新的聚類中心。η為當(dāng)前聚類中心個(gè)數(shù))。
[0122] 步驟S5中,根據(jù)步驟Sl和S2,用更新好的2個(gè)聚類中心分成4個(gè)聚類中心,然后按步 驟S3和S4,把訓(xùn)練矢量集聚成4類。依次類推,可分成8類、16類等,本領(lǐng)域技術(shù)人員可以根據(jù) 需要設(shè)置矢量集的數(shù)量,本發(fā)明對(duì)此不做限制。
[0123] 步驟S6中,假設(shè)GMM的階數(shù)為Μ,則最后把訓(xùn)練樣本集分為M類,由每一類的均值矢 量作為模糊K均值聚類的聚類中心。
[0124] 在完成初始化后,利用PCA方法進(jìn)行降維操作。
[0125] 模糊PCA轉(zhuǎn)換矩陣由計(jì)算模糊協(xié)方差矩陣特征值和特征向量獲得。將模糊PCA轉(zhuǎn)換 矩陣的特征值從大到小排列,計(jì)算其對(duì)應(yīng)的特征向量,即主成分。用前k個(gè)主成分的方差在 全部方差中所占比重來描述累積貢獻(xiàn)率。當(dāng)累積貢獻(xiàn)率大于80%時(shí),確定主成分的個(gè)數(shù) (L)。形成一個(gè)最優(yōu)化特征矢量維數(shù)的LxP轉(zhuǎn)化矩陣。在訓(xùn)練和測(cè)試時(shí),每一幀特征矢量轉(zhuǎn)化 為:
[0126]
[0127] 取上式矩陣的對(duì)角陣形式作為GMM的初始化參數(shù)。
[0128] 在步驟S104中,根據(jù)高斯混合模型利用降低后的有效特征向量進(jìn)行建模,對(duì)所述 目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。具體而言,步驟S104可以通過對(duì)經(jīng)局部模糊PCA方法降低 所述有效特征向量的維數(shù)的有效特征向量組成特征向量集;建立與所述語(yǔ)音信號(hào)對(duì)應(yīng)的高 斯混合模型;向所述高斯混合模型輸入所述特征向量集,估計(jì)所述高斯混合模型的參數(shù)集。
[0129] 下面對(duì)步驟S104進(jìn)行詳細(xì)介紹。
[0130] 高斯混合模型(GMM)本質(zhì)上是利用多維概率密度函數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行建模的方 法。假設(shè)¥=出彳2,一々} = &1,72,~^},(1(為聚類數(shù),1'為語(yǔ)音總幀數(shù))是所有原特征參 數(shù)經(jīng)模糊PCA處理后的特征矢量集,其中Y尸{yn···,^#}表示屬于第j聚類叱)的特征矢 量集,為每個(gè)說話人建立一個(gè)M階GMM(-般使K = M),其實(shí)質(zhì)是通過訓(xùn)練,估計(jì)GMM的參數(shù)集 入。它由各均值矢量、協(xié)方差矩陣及混合分量的權(quán)值組成,表示成如下三元組的形式:
[0131] A={cj,yj,Sj},j = l,2,...,M
[0132] 這樣,GMM的似然函數(shù)可表示為:
[0133]
[0134] 其中,p(yt I λ)是第t幀特征參數(shù)在模型λ下的概率密度,它由M個(gè)單高斯分布的性 組合來描述。形式如下:
[0135]
[0136]
[0137] 式中,P為特征維數(shù);j為隱狀態(tài)號(hào),也就是高斯分量的序號(hào),M階GMM就有M個(gè)隱狀 態(tài),W為第j個(gè)分量的混合權(quán)值,其值對(duì)應(yīng)為隱狀態(tài)j的先驗(yàn)概率,協(xié)方差矩陣可以取普通矩 陣,也可以取對(duì)角矩陣。由干取對(duì)角陣時(shí)筧法簡(jiǎn)單,并目件能也很好,所以本文取對(duì)角陣。
[0138
[0139」將GMM應(yīng)用十說詁人識(shí)別的直觀觶釋是:每個(gè)說詁人的誥音聲學(xué)特征空間可以用 一些聲學(xué)特征類來表示,這些聲學(xué)特征類(假定M類)代表一些廣義上的音素,如元音、清輔 音、摩擦音等,并且能夠反映說話人的聲道形狀。每個(gè)聲學(xué)特征類的頻譜可以用一個(gè)高斯密 度函數(shù)來描述,即第i個(gè)聲學(xué)特征類的頻譜,可以用混合高斯密度函數(shù)的第j個(gè)高斯分量的 均值和方差來表示。但是所有的測(cè)試語(yǔ)音和訓(xùn)練語(yǔ)音都沒有事先作出標(biāo)注,即不知道第j個(gè) 聲學(xué)特征類能生成哪些特征矢量,也不知道提取的特征矢量分屬于哪些聲學(xué)特征類中。從 這些隱性的聲學(xué)類里提取的特征矢量(假定特征矢量相互獨(dú)立)的密度函數(shù)就是一個(gè)混合 高斯密度函數(shù)。
[0140]為說話人建立GMM模型,實(shí)際上就是通過訓(xùn)練,估計(jì)GMM模型的參數(shù)集λ。合適的λ可 通過最大似然估計(jì)法獲得。由于似然函數(shù)p(Y I λ)和參數(shù)集λ是很復(fù)雜的非線性函數(shù)關(guān)系,不 易用通常辦法找到其極大值點(diǎn),必須引入隱狀態(tài)來參與計(jì)算,因此這是一個(gè)對(duì)"不完全數(shù) 據(jù)"進(jìn)行最大似然估計(jì)的問題。
[0141]為此,本發(fā)明的一些實(shí)施方式中,可以采用預(yù)期與最大方法(EM方法)來估計(jì)。EM方 法是一種迭代算法,如圖4所示,每次迭代由求期望(E-step)的步驟和求最大值(M-step)的 步驟組成:
[0142]求期望(E-step)的步驟:求訓(xùn)練數(shù)據(jù)落在假定的隱狀態(tài)j的概率ρ(qt = j |yt,λ)表 示為:
[0143] 求最大值(M-step)的步驟:求三個(gè)參數(shù){Cj,μ」,Σ j}偏導(dǎo)為0時(shí)的參數(shù)值,即混合權(quán) 值、均值矢量和協(xié)方差矩陣。
[0144] 1)混合權(quán)倌:
[0145]
[0147]
[0146] 2)均值矢量:
[0148]
[0149]
[0150] 綜上所述,用EM算法估計(jì)模型參數(shù)的流程如圖4所示。
[0151] 參見圖5,圖5是本發(fā)明所述一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)裝置一實(shí)施方 式的結(jié)構(gòu)示意圖。圖5示出的確認(rèn)裝置包括特征提取模塊、特征向量獲取模塊、降維模塊和 辨識(shí)模塊。
[0152] 其中,特征提取模塊,用于從目標(biāo)語(yǔ)音信號(hào)中提取線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒 譜系數(shù)和Delta特征。特征向量獲取模塊用于對(duì)所述線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù) 和Delta特征進(jìn)行組合,得到若干有效特征向量。降維模塊用于利用局部模糊PCA方法降低 所述有效特征向量的維數(shù)。辨識(shí)模塊用于根據(jù)高斯混合模型利用降低后的有效特征向量進(jìn) 行建模,對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。
[0153] 所述降維模塊包括初始化子模塊,所述初始化子模塊包括第一子模塊、第二子模 塊和第三子模塊。第一子模塊用于將提取的目標(biāo)語(yǔ)音信息的有效特征維數(shù)作為訓(xùn)練樣本集 X,根據(jù)下式得到P維的均值矢量μ[ j],
[0154]
[0155] 其中,X[j]為樣本集X中的有效特征向量,T為所述目標(biāo)語(yǔ)音信息的幀數(shù),P為所述 有效特征維數(shù)的數(shù)量。
[0156] 第二子模塊用于根據(jù)所述P維的均值矢量y[j]分裂成若干個(gè)個(gè)聚類中心。
[0157] 第三子模塊,用于根據(jù)所述有效特征向量與所述聚類中心的距離將所述有效特征 向量的樣本集分成與所述聚類中心對(duì)應(yīng)的子類。
[0158] 所述辨識(shí)模塊包括向量集組成子模塊、模型建立子模塊和參數(shù)估計(jì)子模塊。向量 集組成子模塊用于對(duì)經(jīng)局部模糊PCA方法降低所述有效特征向量的維數(shù)的有效特征向量組 成特征向量集。模型建立子模塊用于建立與所述語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型。參數(shù)估計(jì) 子模塊用于向所述高斯混合模型輸入所述特征向量集,估計(jì)所述高斯混合模型的參數(shù)集。
[0159] 在一些實(shí)施方式中,所述辨識(shí)模塊包括利用EM方法來估計(jì)所述高斯混合模型的參 數(shù)集的最大值,根據(jù)所述最大值對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。
[0160] 應(yīng)該理解,本發(fā)明并不局限于上述實(shí)施方式,凡是對(duì)本發(fā)明的各種改動(dòng)或變型不 脫離本發(fā)明的精神和范圍,倘若這些改動(dòng)和變型屬于本發(fā)明的權(quán)利要求和等同技術(shù)范圍之 內(nèi),則本發(fā)明也意味著包含這些改動(dòng)和變型。
【主權(quán)項(xiàng)】
1. 一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法,其特征在于,包括: 從目標(biāo)語(yǔ)音信號(hào)中提取線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和Delta特征; 對(duì)所述線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和Delta特征進(jìn)行組合,得到若干有效特 征向量; 利用局部模糊PCA方法降低所述有效特征向量的維數(shù); 根據(jù)高斯混合模型利用降低后的有效特征向量進(jìn)行建模,對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話 人進(jìn)行辨識(shí)。2. 如權(quán)利要求1所述的一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法,其特征在于,所述 利用局部模糊PCA方法降低所述有效特征維數(shù)的步驟包括初始化聚類中屯、的步驟,所述初 始化聚類中屯、包括: 將提取的目標(biāo)語(yǔ)音信息的有效特征維數(shù)作為訓(xùn)練樣本集X,根據(jù)下式得到P維的均值矢 量P[j],其中,X[j]為樣本集X中的有效特征向量,T為所述目標(biāo)語(yǔ)音信息的帖數(shù),P為所述有效 特征維數(shù)的數(shù)量; 根據(jù)所述P維的均值矢量μ [ j ]分裂成若干個(gè)個(gè)聚類中屯、; 根據(jù)所述有效特征向量與所述聚類中屯、的距離將所述有效特征向量的樣本集分成與 所述聚類中屯、對(duì)應(yīng)的子類。3. 如權(quán)利要求2所述的一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法,其特征在于,所述 聚類中屯、的數(shù)量與所述高斯混合模型的階數(shù)相同。4. 如權(quán)利要求3所述的一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法,其特征在于,所述 根據(jù)高斯混合模型利用降低后的有效特征維數(shù)進(jìn)行建模,對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn) 行辨識(shí)的步驟包括: 對(duì)經(jīng)局部模糊PCA方法降低所述有效特征向量的維數(shù)的有效特征向量組成特征向量 集; 建立與所述語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型; 向所述高斯混合模型輸入所述特征向量集,估計(jì)所述高斯混合模型的參數(shù)集。5. 如權(quán)利要求3所述的一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)方法,其特征在于,所述 根據(jù)高斯混合模型利用降低后的有效特征維數(shù)進(jìn)行建模,對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn) 行辨識(shí)的步驟還包括: 利用預(yù)期與最大方法來估計(jì)所述高斯混合模型的參數(shù)集的最大值,根據(jù)所述最大值對(duì) 所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。6. -種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)裝置,其特征在于,包括: 特征提取模塊,用于從目標(biāo)語(yǔ)音信號(hào)中提取線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和 Deha特征; 特征向量獲取模塊,用于對(duì)所述線性預(yù)測(cè)倒譜系數(shù)、Mel頻譜倒譜系數(shù)和Delta特征進(jìn) 行組合,得到若干有效特征向量; 降維模塊,用于利用局部模糊PCA方法降低所述有效特征向量的維數(shù); 辨識(shí)模塊,用于根據(jù)高斯混合模型利用降低后的有效特征向量進(jìn)行建模,對(duì)所述目標(biāo) 語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。7. 如權(quán)利要求6所述的一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)裝置,其特征在于,所述 降維模塊包括初始化子模塊,所述初始化子模塊包括: 第一子模塊,用于將提取的目標(biāo)語(yǔ)音信息的有效特征維數(shù)作為訓(xùn)練樣本集X,根據(jù)下式 得到P維的均值矢量μ?],其中,X[j]為樣本集X中的有效特征向量,Τ為所述目標(biāo)語(yǔ)音信息的帖數(shù),Ρ為所述有效 特征維數(shù)的數(shù)量; 第二子模塊,用于根據(jù)所述P維的均值矢量μ [ j ]分裂成若干個(gè)個(gè)聚類中屯、; 第Ξ子模塊,用于根據(jù)所述有效特征向量與所述聚類中屯、的距離將所述有效特征向量 的樣本集分成與所述聚類中屯、對(duì)應(yīng)的子類。8. 如權(quán)利要求7所述的一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)裝置,其特征在于,所述 辨識(shí)模塊包括: 向量集組成子模塊,用于對(duì)經(jīng)局部模糊PCA方法降低所述有效特征向量的維數(shù)的有效 特征向量組成特征向量集; 模型建立子模塊,用于建立與所述語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型; 參數(shù)估計(jì)子模塊,用于向所述高斯混合模型輸入所述特征向量集,估計(jì)所述高斯混合 模型的參數(shù)集。9. 如權(quán)利要求8所述的一種應(yīng)用于短語(yǔ)音條件下的說話人確認(rèn)裝置,其特征在于,所述 辨識(shí)模塊包括利用預(yù)期與最大方法來估計(jì)所述高斯混合模型的參數(shù)集的最大值,根據(jù)所述 最大值對(duì)所述目標(biāo)語(yǔ)音信號(hào)的說話人進(jìn)行辨識(shí)。
【文檔編號(hào)】G10L17/02GK105845140SQ201610172730
【公開日】2016年8月10日
【申請(qǐng)日】2016年3月23日
【發(fā)明人】陳昊亮
【申請(qǐng)人】廣州勢(shì)必可贏網(wǎng)絡(luò)科技有限公司