国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種用于說話人識(shí)別系統(tǒng)的后端i?vector增強(qiáng)方法與流程

      文檔序號(hào):11232662閱讀:702來源:國(guó)知局
      一種用于說話人識(shí)別系統(tǒng)的后端i?vector增強(qiáng)方法與流程

      本發(fā)明屬于說話人識(shí)別技術(shù)領(lǐng)域,特別指一種用于說話人識(shí)別系統(tǒng)的后端i-vector增強(qiáng)方法。



      背景技術(shù):

      說話人識(shí)別(speakerrecognition,sr)又稱聲紋識(shí)別,是利用語音信號(hào)中含有的特定說話人信息來識(shí)別說話者身份的一種生物認(rèn)證技術(shù)。近年來,基于因子分析的身份認(rèn)證矢量(identityvector,i-vector)說話人建模方法的引入使得說話人識(shí)別系統(tǒng)的性能有了明顯的提升。實(shí)驗(yàn)表明,在對(duì)說話人語音的因子分析中,通常信道子空間中會(huì)包含說話人的信息。因此,i-vector用一個(gè)低維的總變量空間來表示說話人子空間和信道子空間,并將說話人語音映射到該空間得到一個(gè)固定長(zhǎng)度的矢量表征(即i-vector)?;趇-vector的說話人識(shí)別系統(tǒng)主要包括充分統(tǒng)計(jì)量提取、i-vector映射、似然比得分計(jì)算3個(gè)步驟。首先提取語音信號(hào)特征來訓(xùn)練表征語音空間的gauss混合模型-通用背景模型(gaussianmixturemodel-universalbackgroundmodel,gmm-ubm),利用訓(xùn)練好的ubm計(jì)算每幀語音特征的充分統(tǒng)計(jì)量,并將該充分統(tǒng)計(jì)量映射到總變量空間得到每條說話人語音的i-vector。最后利用概率線性鑒別式分析(probabilisticlineardiscriminantanalysis,plda)模型對(duì)i-vector建模并計(jì)算似然比得分,根據(jù)設(shè)定的閾值做出最終判決。但是,在應(yīng)用環(huán)境中存在背景的情況下,系統(tǒng)的性能會(huì)急劇下降。這也是現(xiàn)在說話人識(shí)別技術(shù)走向商業(yè)化的一大障礙。

      近年來,隨著機(jī)器學(xué)習(xí)算法性能的提升和計(jì)算機(jī)存儲(chǔ)、計(jì)算能力的提高,深層神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,dnn)被應(yīng)用到各個(gè)領(lǐng)域中并取得了顯著的效果。dnn對(duì)非線性函數(shù)關(guān)系具有很強(qiáng)的擬合能力,經(jīng)過訓(xùn)練后的dnn可以用來表示輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的非線性映射關(guān)系。近年來,在語音增強(qiáng)領(lǐng)域,利用dnn的這種非線性結(jié)構(gòu),通過學(xué)習(xí)含噪語音特征和純凈語音特征之間的非線性映射關(guān)系,將dnn設(shè)計(jì)成一個(gè)降噪濾波器,達(dá)到語音增強(qiáng)的目的。該方法如果簡(jiǎn)單作為說話人識(shí)別系統(tǒng)的前端模塊,在一定程度上提高系統(tǒng)性能的同時(shí),也使系統(tǒng)結(jié)構(gòu)復(fù)雜化,增加了對(duì)語音信號(hào)處理的計(jì)算量,因此該方法與說話人識(shí)別系統(tǒng)的融合成為當(dāng)前技術(shù)難點(diǎn)。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明所要解決的技術(shù)問題是針對(duì)上述現(xiàn)有技術(shù)的不足,提供一種基于dnn的用于說話人識(shí)別系統(tǒng)的i-vector后端增強(qiáng)方法。

      本發(fā)明解決該技術(shù)問題所采用的技術(shù)方案如下:一種用于說話人識(shí)別系統(tǒng)的i-vector后端增強(qiáng)方法,包括以下步驟:分為訓(xùn)練和識(shí)別兩個(gè)階段,訓(xùn)練階段步驟如下:

      a-1),對(duì)訓(xùn)練說話人語音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重、端點(diǎn)檢測(cè)、分幀、加窗;

      a-2),利用所述mfcc提取法,提取說話人語音信號(hào)的mfcc特征;具體有:對(duì)分幀加窗后的各幀信號(hào)進(jìn)行快速傅里葉變換得到各幀的頻譜。并對(duì)語音信號(hào)的頻譜取模平方得到語音信號(hào)的功率譜,設(shè)語音信號(hào)的dft為:

      式中x(n)為輸入的語音信號(hào),n表示傅里葉變換的點(diǎn)數(shù)。

      將能量譜通過一組mel尺度的三角形濾波器組,定義一個(gè)有m個(gè)濾波器的濾波器組(濾波器的個(gè)數(shù)和臨界帶的個(gè)數(shù)相近),采用的濾波器為三角濾波器,中心頻率為f(m),m=1,2,...,m。m通常取22-26。各f(m)之間的間隔隨著m值的減小而縮小,隨著m值的增大而增寬。

      經(jīng)離散余弦變換(dct)得到mfcc系數(shù):

      將上述的對(duì)數(shù)能量帶入離散余弦變換,求出l階的梅爾頻率倒譜參數(shù)。l階指mfcc系數(shù)階數(shù),通常取12-16。這里m是三角濾波器個(gè)數(shù)。

      a-3),根據(jù)a-2)提取的mfcc特征訓(xùn)練gmm-ubm模型來對(duì)語音聲學(xué)特征進(jìn)行對(duì)準(zhǔn),并計(jì)算得到特征的高維充分統(tǒng)計(jì)量;

      a-4),根據(jù)a-3)得到的特征充分統(tǒng)計(jì)量訓(xùn)練i-vector特征提取器,利用該提取器提取說話人語音信號(hào)的i-vector;

      a-5),根據(jù)a-4)訓(xùn)練得到的i-vector特征提取器,提取純凈語音和含噪語音的i-vector,其中,含噪語音的i-vector作為dnn訓(xùn)練數(shù)據(jù),純凈語音的i-vector作為標(biāo)簽數(shù)據(jù);

      a-6),根據(jù)a-4)得到的訓(xùn)練數(shù)據(jù)和標(biāo)簽數(shù)據(jù),使用以下所述方法對(duì)深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,經(jīng)過訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型作為i-vector后端增強(qiáng)模塊,與i-vector/plda說話人識(shí)別模型融合;dnn訓(xùn)練步驟如下:

      (a-6-1)利用cd算法逐層預(yù)訓(xùn)練構(gòu)成dbn網(wǎng)絡(luò)的rbm參數(shù),采用自底向上的方法訓(xùn)練多個(gè)rbm,每個(gè)rbm隱含層作為下一rbm輸入層,逐層累加得到多層結(jié)構(gòu);

      (a-6-2)在訓(xùn)練好的dbn頂部添加線性輸出層得到dnn結(jié)構(gòu),利用誤差反向傳播算法,將mmse函數(shù)作為優(yōu)化函數(shù),通過最小化優(yōu)化函數(shù)得到最優(yōu)參數(shù);

      識(shí)別步驟為:

      b-1),對(duì)識(shí)別語音進(jìn)行預(yù)加重、端點(diǎn)檢測(cè)、分幀、加窗,并提取識(shí)別語音的mfcc特征;

      b-2),根據(jù)權(quán)利要求1中訓(xùn)練得到的i-vector特征提取器,提取待識(shí)別說話人每條注冊(cè)語音和識(shí)別語音的i-vector,并將這些i-vector分別作為權(quán)利要求1所述的dnn模型的輸入,該模型的輸出為增強(qiáng)后的i-vector;

      b-3),將待識(shí)別說話人注冊(cè)語音增強(qiáng)后的i-vector和識(shí)別語音增強(qiáng)后的i-vector輸入plda模型打分,將plda輸出的似然比得分與設(shè)定的閾值比較,做出最終判決結(jié)果。

      有益效果

      本發(fā)明與傳統(tǒng)說話人識(shí)別系統(tǒng)相比,將dnn與說話人識(shí)別系統(tǒng)模型相融合,結(jié)合dnn在語音增強(qiáng)領(lǐng)域的顯著效果,本發(fā)明公開的說話人識(shí)別方法在存在背景噪聲的環(huán)境下能夠有效提升系統(tǒng)的識(shí)別性能,在降低噪聲對(duì)系統(tǒng)性能影響、提高系統(tǒng)噪聲魯棒性的同時(shí),優(yōu)化系統(tǒng)結(jié)構(gòu),使識(shí)別實(shí)時(shí)性得到有效增強(qiáng),提高相應(yīng)說話人識(shí)別產(chǎn)品的競(jìng)爭(zhēng)力。

      附圖說明

      圖1為基于i-vector后端增強(qiáng)的說話人識(shí)別系統(tǒng)結(jié)構(gòu)圖;

      圖2為mfcc特征提取流程圖;

      圖3為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖;

      圖4(a)為car噪聲下系統(tǒng)det曲線圖;

      圖4(b)為babble噪聲下系統(tǒng)det曲線圖。

      具體實(shí)施方式

      下面將結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式做進(jìn)一步說明:如圖1所示,本發(fā)明采用的技術(shù)方案如下:一種基于dnn的用于說話人識(shí)別系統(tǒng)的i-vector后端增強(qiáng)方法包括以下步驟:分為訓(xùn)練和識(shí)別兩個(gè)階段,所述的訓(xùn)練步驟是:

      第一步,對(duì)說話人語音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重、端點(diǎn)檢測(cè)、分幀、加窗。

      (1)預(yù)加重

      預(yù)加重處理是將語音信號(hào)通過一個(gè)高通濾波器:

      h(z)=1-μz-1

      式中μ的值介于0.9-1.0之間,我們通常取0.97。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜。同時(shí),也是為了消除發(fā)生過程中聲帶和嘴唇的效應(yīng),來補(bǔ)償語音信號(hào)受到發(fā)音系統(tǒng)所抑制的高頻部分,也為了突出高頻的共振峰。

      (2)分幀

      先將n個(gè)采樣點(diǎn)集合成一個(gè)觀測(cè)單位,稱為幀。通常情況下n的值為256或512,幀長(zhǎng)約為20~30ms左右。為了避免相鄰兩幀的變化過大,因此會(huì)讓兩相鄰幀之間有一段重疊區(qū)域,此重疊區(qū)域包含了m個(gè)取樣點(diǎn),通常m的值約為n的1/2或1/3。

      (3)加窗(hammingwindow)

      將每一幀乘以漢明窗,以增加幀左端和右端的連續(xù)性。假設(shè)分幀后的信號(hào)為s(n),n=0,1,…,n-1,n為幀的大小,那么乘上漢明窗后s′(n)=s(n)×w(n),w(n)形式如下:

      不同的a值會(huì)產(chǎn)生不同的漢明窗,一般情況下a取0.46。

      第二步,如圖2所示,利用所述mfcc提取法,提取說話人語音信號(hào)的mfcc特征,mfcc特征提取步驟如下:

      (1)對(duì)分幀加窗后的各幀信號(hào)進(jìn)行快速傅里葉變換得到各幀的頻譜。并對(duì)語音信號(hào)的頻譜取模平方得到語音信號(hào)的功率譜。設(shè)語音信號(hào)的dft為:

      式中x(n)為輸入的語音信號(hào),n表示傅里葉變換的點(diǎn)數(shù)。

      (2)將能量譜通過一組mel尺度的三角形濾波器組,定義一個(gè)有m個(gè)濾波器的濾波器組(濾波器的個(gè)數(shù)和臨界帶的個(gè)數(shù)相近),采用的濾波器為三角濾波器,中心頻率為f(m),m=1,2,...,m。m通常取22-26。各f(m)之間的間隔隨著m值的減小而縮小,隨著m值的增大而增寬。

      (3)經(jīng)離散余弦變換(dct)得到mfcc系數(shù):

      將上述的對(duì)數(shù)能量帶入離散余弦變換,求出l階的mel-scalecepstrum參數(shù)。l階指mfcc系數(shù)階數(shù),通常取12-16。這里m是三角濾波器個(gè)數(shù)。

      第三步,根據(jù)步驟二提取的mfcc特征訓(xùn)練gmm-ubm模型來對(duì)語音聲學(xué)特征進(jìn)行對(duì)準(zhǔn),并計(jì)算得到特征的高維充分統(tǒng)計(jì)量。具體地,

      其中,分別表示第k段語音段在第c個(gè)gmm高斯分量上的零階統(tǒng)計(jì)量、一階統(tǒng)計(jì)量和二階統(tǒng)計(jì)量,表示第k段語音段的第t個(gè)時(shí)間段的語音特征表示,表示語音特征對(duì)第c個(gè)gmm混合分量的后驗(yàn)概率,可通過下式計(jì)算得到:

      其中,c為混合高斯分量總數(shù),μc和∑c分別對(duì)應(yīng)第c個(gè)高斯分量的權(quán)重、均值和協(xié)方差。

      第四步,根據(jù)步驟三得到的特征充分統(tǒng)計(jì)量訓(xùn)練i-vector特征提取器,利用該提取器提取說話人語音信號(hào)的i-vector。具體地,i-vector因子分析模型建立在gmm-ubm所表征的均值超向量空間之上。給定一段語音,其gauss均值超矢量m可以分解為如下形式:

      m=m+tω

      其中:m是說話人和信道無關(guān)分量,通??梢圆捎胾bm的均值超矢量來代替;t是總體變化子空間矩陣;ω是包含了說話人和信道信息的變化因子,即i-vector。

      第五步,根據(jù)步驟四訓(xùn)練得到的i-vector特征提取器,提取純凈語音和含噪語音的i-vector,其中,含噪語音的i-vector作為dnn訓(xùn)練數(shù)據(jù),純凈語音的i-vector作為標(biāo)簽數(shù)據(jù)。

      第六步,根據(jù)步驟四得到的訓(xùn)練數(shù)據(jù)和標(biāo)簽數(shù)據(jù),使用以下所述方法對(duì)深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,經(jīng)過訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型作為i-vector后端增強(qiáng)模塊,與i-vector/plda說話人識(shí)別模型融合。深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練步驟如下:

      (1)利用對(duì)比散度算法(contrastivedivergence,cd)逐層預(yù)訓(xùn)練構(gòu)成dbn網(wǎng)絡(luò)的rbm參數(shù),采用自底向上的方法訓(xùn)練多個(gè)rbm,每個(gè)rbm隱含層作為下一rbm輸入層,逐層累加得到深度置信網(wǎng)絡(luò)(deepbeliefnetwork,dbn)模型。rbm是一種包含一層可見層和一層隱含層的2層無向圖模型,相同層的節(jié)點(diǎn)之間無連接。假設(shè)v和h分別表示可見層節(jié)點(diǎn)和隱含層節(jié)點(diǎn),定義(v,h)間的聯(lián)合分布如下所示:

      其中w表示可見層節(jié)點(diǎn)和隱含層節(jié)點(diǎn)間的權(quán)重矩陣,b和c分別是可見層節(jié)點(diǎn)和隱含層節(jié)點(diǎn)的偏置,z是歸一化因數(shù)。rbm的優(yōu)化目標(biāo)是要最大化可見層節(jié)點(diǎn)概率分布在訓(xùn)練過程中可以通過梯度下降和cd算法估計(jì)得到模型參數(shù)。

      (2)如圖3所示,在訓(xùn)練好的dbn頂部添加線性輸出層得到dnn回歸模型。利用誤差反向傳播(bp)算法,將mmse函數(shù)作為優(yōu)化函數(shù),通過最小化優(yōu)化函數(shù)得到最優(yōu)參數(shù)。具體地,bp算法分為兩步:(1)前向響應(yīng)傳播,即將輸入通過各隱層獲得相應(yīng),前一層響應(yīng)作為后一層輸出依次向前傳播,直到最后一層輸出預(yù)測(cè)值。每層隱層的激活函數(shù)選擇為sigmoid函數(shù),表達(dá)式為:

      sigmoid函數(shù)單調(diào)遞增、無限可微的非線性特性使使神經(jīng)網(wǎng)絡(luò)能夠很好地?cái)M合含噪語音i-vector和純凈語音i-vector之間的非線性映射關(guān)系。

      (2)誤差反向傳播,即將前向傳播輸出的預(yù)測(cè)值與參考值之間的誤差進(jìn)行反向傳播,誤差計(jì)算公式如下:

      其中,w,b分別為模型的權(quán)重和偏置參數(shù)。根據(jù)反向傳播到每層的誤差來更新神經(jīng)網(wǎng)絡(luò)每層的權(quán)重和偏置:

      這里,σ表示學(xué)習(xí)率,為l層第i個(gè)單元的權(quán)重,當(dāng)進(jìn)行bp算法的迭代時(shí),權(quán)重更新的關(guān)系表達(dá)式為:

      wn=wn-1+δw

      即第n次迭代后的權(quán)重等于第n-1次迭代權(quán)重加上權(quán)重的更迭量。

      所述的識(shí)別步驟為:

      第一步,對(duì)識(shí)別語音進(jìn)行預(yù)加重、端點(diǎn)檢測(cè)、分幀、加窗,并提取識(shí)別語音的mfcc特征。

      第二步,利用訓(xùn)練得到的i-vector特征提取器,提取待識(shí)別說話人每條注冊(cè)語音和識(shí)別語音的i-vector,并將這些i-vector分別作為訓(xùn)練得到的dnn模型的輸入,該模型的輸出為增強(qiáng)后的i-vector。

      第三步,將待識(shí)別說話人注冊(cè)語音增強(qiáng)后的i-vector和識(shí)別語音增強(qiáng)后的i-vector輸入plda模型打分,將plda輸出的似然比得分與設(shè)定的閾值比較,做出最終判決結(jié)果。

      下面結(jié)合實(shí)例來說明此發(fā)明的實(shí)際效果,給定一段測(cè)試語音,仿真混合0db-27db之間隨機(jī)信噪比的加性babble和car噪聲,提取含噪語音的i-vector之后利用本發(fā)明所述的dnn模型進(jìn)行增強(qiáng)。分別對(duì)純凈語音、含噪語音、i-vector增強(qiáng)下語音進(jìn)行打分測(cè)試,處理結(jié)果如圖4(a),圖4(b)所示。

      圖4(a),圖4(b)分別給出了在car和babble背景噪聲環(huán)境下,系統(tǒng)在純凈語音、含噪語音、和i-vector增強(qiáng)下語音的det曲線,可以明顯看出,經(jīng)i-vector增強(qiáng)后的系統(tǒng)相比噪聲環(huán)境下性能有了顯著的提高,本發(fā)明有效的提高了系統(tǒng)的噪聲魯棒性。

      本發(fā)明實(shí)例只是介紹其具體實(shí)施方式,不在于限制其保護(hù)范圍。本行業(yè)技術(shù)人員在本實(shí)例的啟發(fā)下可以做某些修改,故凡依照本發(fā)明專利范圍所做的等效變化或修飾,均屬于本發(fā)明專利權(quán)利要求范圍內(nèi)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1