国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      說話者驗(yàn)證系統(tǒng)的制作方法

      文檔序號(hào):2820043閱讀:240來源:國知局
      專利名稱:說話者驗(yàn)證系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種模式識(shí)別系統(tǒng),尤其是一種說話者(speaker)驗(yàn)證系統(tǒng),該系統(tǒng)為了準(zhǔn)確地驗(yàn)證所要求的個(gè)性,利用數(shù)據(jù)組合方法把來自多個(gè)提取特征和多個(gè)分類器的數(shù)據(jù)相混合。
      背景技術(shù)
      模式識(shí)別涉及對(duì)模式諸如話音、說話者或圖像進(jìn)行識(shí)別。為了從發(fā)音中確定存在哪一個(gè)說話者,可把識(shí)別的說話者模式用于說話者識(shí)別系統(tǒng)中。
      說話者驗(yàn)證系統(tǒng)的目的是從發(fā)音中驗(yàn)證說話者所要求的個(gè)性。說話者驗(yàn)證系統(tǒng)的口頭輸入可以與文本有關(guān)或與文本無關(guān)。與文本有關(guān)的說話者驗(yàn)證系統(tǒng)在驗(yàn)證預(yù)定短語或口令的發(fā)音后識(shí)別說話者。與文本無關(guān)的說話者驗(yàn)證系統(tǒng)識(shí)別說話者時(shí)不管發(fā)音如何。從用戶的觀點(diǎn)來看,常規(guī)的與文本無關(guān)的系統(tǒng)更方便,因?yàn)樗鼈儾恍枰诹睢?br> 如名為“說話者識(shí)別驗(yàn)證系統(tǒng)”的08/203,988號(hào)審查中美國專利申請(qǐng)(該申請(qǐng)已轉(zhuǎn)讓給本發(fā)明的受讓人并在本申請(qǐng)中引用)所述,已利用其中使用在每個(gè)話音幀處加權(quán)的自適應(yīng)分量的調(diào)制模型,從說話者信息中提取特征。自適應(yīng)分量加權(quán)方法減弱了非元音區(qū)域分量,并對(duì)提高某個(gè)信道上說話者識(shí)別的話音分量歸一化。
      另一種常規(guī)的特征提取方法包括從頻譜或從線性預(yù)報(bào)中得到的頻譜編碼系數(shù)中確定倒頻譜系數(shù)。已使用與說話者無關(guān)的數(shù)據(jù)聯(lián)用的神經(jīng)樹形網(wǎng)絡(luò)(NTN)來確定以判別式為基礎(chǔ)的說話者間的參數(shù)。NTN是一個(gè)分層的分類器,該分類器組合了IEEE Transactions on Computers,C-42221-229,March 1993中A.Sankar和R.J.Mammone在“神經(jīng)樹形網(wǎng)絡(luò)的發(fā)展和刪節(jié)”中所述的判斷樹形網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的特性。為了進(jìn)行說話者識(shí)別,由所需說話者的數(shù)據(jù)和來自其它說話者的數(shù)據(jù)來構(gòu)成NTN的訓(xùn)練數(shù)據(jù)。NTN把特征空間分成若干具有給定幾率的區(qū)域,這些幾率反映了說話者將如何產(chǎn)生落在說話者區(qū)域內(nèi)的特征矢量。與文本無關(guān)的系統(tǒng)的缺點(diǎn)是需要大量數(shù)據(jù)來模擬和估計(jì)說話者的聲學(xué)特征。
      第4,957,961號(hào)美國專利描述了一種神經(jīng)網(wǎng)絡(luò),它能容易被訓(xùn)練成對(duì)連接的字進(jìn)行可靠的識(shí)別。使用一種動(dòng)態(tài)編程技術(shù),其中輸入層的輸入神經(jīng)細(xì)胞單元被分組成為多層神經(jīng)網(wǎng)絡(luò)。為了識(shí)別輸入模式,把每個(gè)特征矢量的矢量分量提供給從三個(gè)連續(xù)編號(hào)的輸入層幀中選中的輸入層中一個(gè)輸入層的各個(gè)輸入神經(jīng)細(xì)胞單元,中間層把至少兩個(gè)輸入層幀的輸入神經(jīng)細(xì)胞單元連接起來。輸出神經(jīng)細(xì)胞單元連到中間層。調(diào)節(jié)單元連到中間層,用于調(diào)節(jié)輸入-中間和中間-輸出的連接,以使輸出單元產(chǎn)生一輸出信號(hào)。當(dāng)調(diào)節(jié)單元把輸出信號(hào)調(diào)節(jié)到最大值時(shí),神經(jīng)網(wǎng)絡(luò)把輸入模式作為預(yù)定模式予以識(shí)別。每個(gè)話音模式使用大約四十次訓(xùn)練,對(duì)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
      已發(fā)現(xiàn),使用與文本有關(guān)的說話者的發(fā)音,可減少訓(xùn)練和測(cè)試驗(yàn)證系統(tǒng)所需的數(shù)據(jù)量。有一種與文本有關(guān)的常規(guī)說話者驗(yàn)證系統(tǒng)使用動(dòng)態(tài)時(shí)間偏移(DTW)技術(shù),根據(jù)失真對(duì)特征鑒別進(jìn)行時(shí)間校準(zhǔn),見IEEE Transactions on Acoustics,Speech,and Signal Processing,ASSP-29254-272,April 1981中S.Furui的“自動(dòng)說話者驗(yàn)證的倒頻譜分析技術(shù)”一文。在測(cè)試期間,從一個(gè)口令的幾個(gè)發(fā)音中產(chǎn)生基準(zhǔn)模板。由說話者的發(fā)音失真是否降到低于預(yù)定的閾值來判斷接受或拒絕說話者所要求的個(gè)性。該系統(tǒng)的缺點(diǎn)是精度不高。
      如J.J.Naik,L.P.Netsch和G.R.Doddington在Proceedings ICASSP(1989)中的“在長(zhǎng)距離電話線上進(jìn)行說話者驗(yàn)證”一文所述,與DTW系統(tǒng)相比,另一種使用隱性(Hidden)Markov模型(HMM)的技術(shù)在性能上有所改進(jìn)。在與文本有關(guān)的說話者驗(yàn)證中已使用幾種形式的HMM。例如,對(duì)于說話者驗(yàn)證,已考慮使用A.E.Rosenberg,C.H.Lee和F.K.Soong在Proceedings ICASSP,pages 269-272(1990)的“使用隱性Markov模型的子字單元說話者驗(yàn)證”中所述的子字模型以及A.E.Rosenberg,C.H.Lee和S.Gokeen在Proceedings ICASSP,pages 381384(1991)的“使用全字隱性Markov模型的連接字說語者識(shí)別”中所述的全字模型。HMM技術(shù)的局限性在于,它一般需要足夠多的大量數(shù)據(jù)來估計(jì)模型參數(shù)。DTW和HMM系統(tǒng)的一個(gè)通病是它們只模擬說話者,而不考慮用該系統(tǒng)模擬其它說話者的數(shù)據(jù)。由于不能進(jìn)行判別式訓(xùn)練,所以更容易使冒名頂替者侵入這些系統(tǒng)。
      最好提供一種能提高模式識(shí)別精度的模式識(shí)別系統(tǒng),其中,可在多個(gè)預(yù)定的分類器中組合多個(gè)提取的特征。

      發(fā)明內(nèi)容
      概括地說,本發(fā)明包括一種模式識(shí)別系統(tǒng),該系統(tǒng)在多個(gè)分類器中組合了多個(gè)提取的特征,所述分類器包括以不同的訓(xùn)練數(shù)據(jù)和重疊訓(xùn)練基層進(jìn)行訓(xùn)練(例如下述的“留下一個(gè)”的技術(shù))的分類器。此模式識(shí)別系統(tǒng)最好用于從說話者發(fā)出的話音中提取特征的說話者驗(yàn)證。使用多個(gè)分類器對(duì)提取的特征進(jìn)行分類。組合分類輸出,以識(shí)別說話者發(fā)出的話音與預(yù)先存儲(chǔ)在說話者中的話音的相似性。根據(jù)組合的分類輸出判定是否接受或拒絕該說話者。最好通過對(duì)發(fā)出的口令進(jìn)行驗(yàn)證的動(dòng)態(tài)時(shí)間偏移分類器與鑒別其它說話者的經(jīng)修正的神經(jīng)樹形網(wǎng)絡(luò)相結(jié)合,對(duì)話音進(jìn)行分類。在說話者驗(yàn)證系統(tǒng)中使用判別式訓(xùn)練的分類器,優(yōu)點(diǎn)是可以準(zhǔn)確地把一個(gè)說話者從其它說話者中區(qū)分出來。
      該系統(tǒng)也可包括根據(jù)對(duì)說話者發(fā)出的字(即,說話者的口令)進(jìn)行字識(shí)別來初步確定是否接受或拒絕該說話者。如果說話者的口令被接受,則分類器被使能。最好把多個(gè)發(fā)音加到分類器而留下一個(gè)發(fā)音,從而對(duì)分類器進(jìn)行訓(xùn)練。可把留下的發(fā)音加到該分類器,以確定0到1之間識(shí)別說話者的幾率??砂堰@些幾率與分類器的閾值相比較,以判定是否接受或拒絕該說話者。
      說話者發(fā)出的文本可以與說話者相關(guān)或與說話者無關(guān)。提取的特征也可分成若干子字。子字最好是音素??梢灾辽儆靡粋€(gè)分類器來模擬每個(gè)子字。為了提供以子字為基礎(chǔ)的驗(yàn)證系統(tǒng),可組合以子字為基礎(chǔ)的分類器的輸出。
      為了減少對(duì)話音的信道效應(yīng),最好用極點(diǎn)濾波方法來提取特征。此外,為了減少訓(xùn)練和測(cè)試環(huán)境之間的失配,可用仿射變換來調(diào)節(jié)提取的特征。
      將參考附圖對(duì)本發(fā)明進(jìn)行更全面的描述。
      附圖概述

      圖1是依據(jù)本發(fā)明所述的說話者驗(yàn)證系統(tǒng)的示意圖。
      圖2A是圖1所示字識(shí)別模塊在系統(tǒng)訓(xùn)練期間的示意圖。
      圖2B是圖1所示字識(shí)別模塊在系統(tǒng)測(cè)試期間的示意圖。
      圖3是一說話者驗(yàn)證模塊的示意圖,該模塊組合了多個(gè)提取的特征和多個(gè)分類器。
      圖4是在圖1所示說話者驗(yàn)證模塊中所使用的經(jīng)修正的神經(jīng)樹形網(wǎng)絡(luò)和動(dòng)態(tài)時(shí)間偏移分類器組合的示意圖。
      圖5是在圖1所示說話者驗(yàn)證模塊中所使用的經(jīng)修正的神經(jīng)樹形網(wǎng)絡(luò)(MNTN)分類器的示意圖。
      圖6是在圖1所示說話者驗(yàn)證模塊中所使用的動(dòng)態(tài)時(shí)間偏移(DTW)分類器的示意圖。
      圖7A是在說話者驗(yàn)證模塊訓(xùn)練中所使用的多個(gè)發(fā)音的示意圖。
      圖7B是圖7A所示多個(gè)發(fā)音在說話者驗(yàn)證模塊中應(yīng)用的示意圖。
      圖8是一個(gè)說話者和其它說話者的得分(score)圖。
      圖9是以子字為基礎(chǔ)的說話者驗(yàn)證系統(tǒng)的示意圖。
      圖10A是以子字為基礎(chǔ)的分類系統(tǒng)在訓(xùn)練期間的示意圖。
      圖10B是以子字為基礎(chǔ)的分類系統(tǒng)在測(cè)試期間的示意圖。
      圖11A是已有技術(shù)的信道歸一化系統(tǒng)的示意圖。
      圖11B是本發(fā)明的信道歸一化系統(tǒng)的示意圖。
      圖12是極點(diǎn)濾波信道歸一化的圖。
      圖13A是一幀話音的頻譜圖。
      圖13B是本發(fā)明的歸一化系統(tǒng)的一幀話音與已有技術(shù)歸一化系統(tǒng)的一幀的頻譜圖。
      圖14是仿射變換系統(tǒng)的示意圖。
      本發(fā)明的較佳實(shí)施模式在此描述中,用相同的的標(biāo)號(hào)來識(shí)別示出本發(fā)明的不同圖中的相同元件。
      圖1示出依據(jù)本發(fā)明所示的說話者驗(yàn)證系統(tǒng)10的一個(gè)實(shí)施例的示意圖。說話者11發(fā)出話音12。把話音12作為話音輸入信號(hào)13加到特征提取模塊14。特征提取模塊14確定代表話音輸入信號(hào)13的特性參數(shù)的話音特征矢量15。最好以線性預(yù)報(bào)(LP)分析方法確定話音特征矢量15,以確定LP倒頻譜系數(shù)??赏ㄟ^用常規(guī)技術(shù)抬高的正弦窗對(duì)LP倒頻譜系數(shù)進(jìn)行帶通提高,對(duì)倒頻譜系數(shù)進(jìn)行更好識(shí)別。
      此外,特征提取模塊14還可結(jié)合LP分析方法用多種方法來提取特征。例如,可使用上述08/203,988號(hào)美國專利中所述的自適應(yīng)分量加權(quán)方法來提取話音特征矢量15。自適應(yīng)分量加權(quán)技術(shù)通過對(duì)話音輸入信號(hào)13的預(yù)定分量進(jìn)行加權(quán),從而產(chǎn)生提高信號(hào)的元音區(qū)域特征而減少非元音區(qū)域效果的歸一化頻譜來提取特征。特征提取模塊14也可使用常規(guī)的方法,諸如對(duì)數(shù)面積比、線性頻譜對(duì)和反射系數(shù)等方法從線性預(yù)報(bào)(LP)系數(shù)中產(chǎn)生其它線性預(yù)報(bào)得出的特征。特征提取模塊14也可對(duì)線性和對(duì)數(shù)頻率刻度、基頻(峰值)、響度系數(shù)和過零速率產(chǎn)生快速Fourier變換(FFT)獲得的頻譜特征。
      字識(shí)別模塊20接收話音特征矢量15并把話音特征矢量15同與話音特征矢量15相關(guān)的數(shù)據(jù)16相比較。數(shù)據(jù)16可以存儲(chǔ)在數(shù)據(jù)庫50中。例如,說話者11可發(fā)出一口令當(dāng)作話音12。話音特征矢量15代表說話者11的口令的發(fā)音。一組閉合的口令可以用數(shù)據(jù)16代表并存儲(chǔ)在數(shù)據(jù)庫50中。這組閉合的口令對(duì)應(yīng)于一組說話者個(gè)性,包括說話者11的口令。在字識(shí)別模塊20處,如果在字識(shí)別模塊20處接收到的話音特征矢量15與存儲(chǔ)在數(shù)據(jù)庫50中的數(shù)據(jù)16匹配,例如與所要求個(gè)性的口令匹配,則說話者驗(yàn)證模塊30被使能。如果接收到的話音特征矢量15與存儲(chǔ)在數(shù)據(jù)庫50中的數(shù)據(jù)16不匹配,例如存儲(chǔ)在數(shù)據(jù)庫50中的口令與所要求的個(gè)性不匹配,則在模塊21中提醒用戶11再次呼叫。
      說話者驗(yàn)證模塊30最好使用數(shù)據(jù)組合方法,以把多個(gè)分類器與話音特征矢量15相混合,以下將詳細(xì)描述該技術(shù)。在判定組合邏輯模塊40處接收到說話者驗(yàn)證模塊30的組合分類器輸出35。判定組合邏輯模塊40最終判定否接受或拒絕所要求的說話者11的個(gè)性,從而驗(yàn)證所要求的說話者個(gè)性。
      圖2A和2B分別示出說話者11登記和說話者11測(cè)試期間的字識(shí)別模塊20。在說話者驗(yàn)證系統(tǒng)10的說話者11登記期間,由說話者11發(fā)出訓(xùn)練話音22。例如,訓(xùn)練話音22可包括重復(fù)四次說話者11的口令。由字匹配識(shí)別模塊28來識(shí)別每次重復(fù)。在字匹配識(shí)別模塊28中最好使用基于DTW的模板匹配算法,以產(chǎn)生識(shí)別字23??砂炎R(shí)別字23集結(jié)成與說話者有關(guān)的模板24。也可使用說話者驗(yàn)證系統(tǒng)10,以識(shí)別字23和其它說話者25發(fā)出的相同訓(xùn)練話音22的重復(fù)數(shù)據(jù)來產(chǎn)生與說話者無關(guān)的模板26??墒褂米肿R(shí)別匹配模塊28對(duì)識(shí)別字23的大多數(shù)選票來識(shí)別說話者11的用戶口令27。
      在說話者11測(cè)試期間,用戶11發(fā)出話音12,在字識(shí)別匹配模塊28中把話音12與說話者相關(guān)模板24和說話者無關(guān)模板26相比較。如果話音12代表說話者11的口令27且與說話者相關(guān)字模板24或說話者無關(guān)字模板26匹配,則把“接受”響應(yīng)輸出到線29。如果話音12與說話者相關(guān)字模板24或說話者無關(guān)字模板26都不匹配,則把“拒絕”響應(yīng)輸出到線29。
      說話者驗(yàn)證模塊30最好使用數(shù)據(jù)組合方法,從而如圖3所示把多個(gè)提取的特征60、61和62與多個(gè)分類器70、71和72相混合。特征60、61和62可代表用上述多種預(yù)定提取方法而提取的話音特征矢量15。分類器70、71和72可代表多種預(yù)定分類方法,諸如神經(jīng)樹形網(wǎng)絡(luò)(NTN)、多層感知(MLP)、隱性Markov模型(HMM)、動(dòng)態(tài)時(shí)間偏移(DTW)、高斯混合模型(GMM)和矢量量化(QV)。在另一個(gè)實(shí)施例中,特征60、61和62可代表其它模式諸如話音或圖像的提取特征,分類器70、71和72可代表話音或圖像模式的預(yù)定分類方法??稍谂卸ńM合邏輯模塊40中混合來自各個(gè)分類器70、71和72的輸出73、74和75,從而最終判定是否接受或拒絕說話者11。判定組合模塊40可使用常規(guī)的技術(shù),例如線性意見庫、對(duì)數(shù)意見庫、Baysian混合法則;用投票方法或附加的分類器來把分類器70、71和72組合起來。很清楚可以把任意數(shù)目的特征或分類器組合起來。分類器也可包括以不同訓(xùn)練數(shù)據(jù)和重疊訓(xùn)練數(shù)據(jù)基層進(jìn)行訓(xùn)練(例如下述的留下一個(gè)的技術(shù))的分類器。
      圖4示出在本發(fā)明的說話者驗(yàn)證系統(tǒng)中所使用的較佳說話者驗(yàn)證模塊30。話音特征矢量102被輸入神經(jīng)樹形網(wǎng)絡(luò)(NTN)分類器104、106、108和110以及動(dòng)態(tài)時(shí)間偏移(DTW)分類器120、122、124和126。在分類期間,每個(gè)NTN分類器104、106、108和110以及126確定特征矢量102是否超過預(yù)定的各個(gè)閾值,即存儲(chǔ)在數(shù)據(jù)庫132中的NTN的“TNTN”。每個(gè)DTW分類器120、122、124和126確定特征矢量102是否超過存儲(chǔ)在數(shù)據(jù)庫132中的DTW的各個(gè)預(yù)定閾值“TDTW”。如果特征矢量102超過各個(gè)閾值TNTN和TDTW,則把二進(jìn)制輸出“1”分別輸出到線240和線241。如果特征矢量102小于各個(gè)預(yù)定閾值TNTN和TDTW,則把二進(jìn)制輸出“0”分別輸出到線240和線241。
      在用說話者驗(yàn)證系統(tǒng)10對(duì)說話者11進(jìn)行測(cè)試期間,判定模塊40接收來自線240和241的二進(jìn)制輸出。在判定模塊40的一個(gè)較佳實(shí)施例中,可取判定模塊240中二進(jìn)制輸出的大多數(shù)選票來確定是否接受或拒絕說話者11。在此實(shí)施例中,如果大多數(shù)二進(jìn)制輸出為“1”,則接受該說話者,如果大多數(shù)二進(jìn)制輸出為“0”,則拒絕該說話者。
      可把指定為經(jīng)修正的神經(jīng)樹形網(wǎng)絡(luò)(MNTN)200的較佳分類器用作說話者驗(yàn)證模塊30中以判別式為基礎(chǔ)的分類器。如圖5所示,MNTN 200具有多個(gè)互連結(jié)點(diǎn)202。204和206。結(jié)點(diǎn)204耦合到葉結(jié)點(diǎn)208和葉結(jié)點(diǎn)210,結(jié)點(diǎn)206耦合到葉結(jié)點(diǎn)212和葉結(jié)點(diǎn)214。由于通過阻止MNTN 200的生長(zhǎng)超過預(yù)定水平來進(jìn)行樹形的“前向修剪”,所以在每個(gè)葉結(jié)點(diǎn)208、210、212和214處進(jìn)行幾率測(cè)量。
      通過使用說話者驗(yàn)證系統(tǒng)10應(yīng)用來自其它說話者25的數(shù)據(jù)201,從而對(duì)說話者11訓(xùn)練MNTN 200。給標(biāo)為“Si”的對(duì)說話者11所提取的特征矢量15分配標(biāo)志“1”,給使用說話者識(shí)別系統(tǒng)10所提取的其它說話者25的特征矢量分配標(biāo)志“0”。把數(shù)據(jù)220、230、240和250分別加到所提取的特征矢量的葉結(jié)點(diǎn)208、210、212和214。對(duì)每個(gè)葉結(jié)點(diǎn)208、210、212和214投票。對(duì)每個(gè)葉結(jié)點(diǎn)208、210、212和214規(guī)定多數(shù)票的標(biāo)志。把“置信度”定義為大多數(shù)的標(biāo)志數(shù)與總標(biāo)志數(shù)的比值。例如,給包括八個(gè)“0”特征的數(shù)據(jù)220分配標(biāo)志“0”,和“1.0”的置信度。給包括六個(gè)“1”特征和四個(gè)“0”特征的數(shù)據(jù)230分配標(biāo)志“1”和“0.6”的置信度。
      可在說話者驗(yàn)證模塊30中使用經(jīng)訓(xùn)練的MNTN 200,以從來自話音12的一系列特征矢量“X”中確定相應(yīng)的說話者得分??捎梢韵鹿絹泶_定相應(yīng)的說話者得分PMNTN(X/Si)PMNTN(X|Si)=&Sigma;j=lMcjl&Sigma;j=1NCj0+&Sigma;j=1Mcj1]]>這里,說話者11標(biāo)為Si,c1是說話者11的置信度得分,C0是其它所有說話者的置信度得分。M和N分別對(duì)應(yīng)于分類為“1”和“0”的矢量數(shù)目。
      一個(gè)較佳的DTW分類器使用圖6所示以失真為基礎(chǔ)的方案對(duì)兩個(gè)波形或兩個(gè)特征模式進(jìn)行時(shí)間校正。由X軸上話音特征矢量15的基準(zhǔn)模式和Y軸上話音特征矢量15的測(cè)試模式來代表波形,其中N代表基準(zhǔn)模式的數(shù)目,M代表測(cè)試模式的數(shù)目。包容的約束線270、271、272和273代表對(duì)動(dòng)態(tài)時(shí)間偏移路徑275的限制。可通過常規(guī)方法來確定動(dòng)態(tài)時(shí)間偏移路徑275,這些方法例如H.Sakoe和S.Chiba在IEEE Trans.on Acoustics,Speech and Signal Processing,vol.ASSP-26,no.1,pgs.43-49,F(xiàn)eb.1978的“口述字識(shí)別的動(dòng)態(tài)編程算法優(yōu)化技術(shù)”中所述的方法。
      相對(duì)于其它說話者使用說話者驗(yàn)證系統(tǒng)10而言,最好把根據(jù)失真方法的分類器(即,提供與說話者有關(guān)的信息的DTW分類器)和根據(jù)判別式方法的分類器(提供與說話者有關(guān)的信息的NTN或MNTN分類器)組合起來。把DTW分類器與MNTN或NTN分類器組合起來的優(yōu)點(diǎn)還在于,DTW分類器所提供的臨時(shí)信息一般不是NTN或MNTN分類器的部分信息。
      如圖7A和7B所示,可以用訓(xùn)練模塊300對(duì)NTN分類器104、106、108和110以及DTW分類器120、122、124和126進(jìn)行訓(xùn)練。訓(xùn)練模塊300也可用于對(duì)可在說話者驗(yàn)證模塊30中使用的MNTN分類器、DTW分類器和其它分類器進(jìn)行訓(xùn)練。最好在訓(xùn)練模塊300中使用一種名為“留下一個(gè)”的重復(fù)采樣技術(shù)。從說話者11接收到預(yù)定數(shù)目的訓(xùn)練話音的發(fā)音。在本實(shí)施例中,使用話音22(例如說話者的口令)定義為302、304、306和308的四個(gè)發(fā)音。把四個(gè)發(fā)音中三個(gè)發(fā)音的組合加到成對(duì)的NTN分類器104、106、108和110與DTW分類器120、122、124和126,而只留下一個(gè)發(fā)音。這三個(gè)發(fā)音用于訓(xùn)練這些分類器,而余下的一個(gè)發(fā)音用作單獨(dú)測(cè)試的情況。例如,可把發(fā)音302、304和306加到NTN分類器104和DTW分類器120;可把發(fā)音304、306和308加到NTN分類器106和DTW分類器122;可把發(fā)音302、306和308加到NTN分類器108和DTW分類器124;以及可把發(fā)音302、304和308加到NTN分類器110和DTW分類器126。
      在把各三個(gè)發(fā)音加到每對(duì)NTN分類器104、106、108和110與DTW分類器120、122、124和126后,如圖7C所示,把留下的一個(gè)發(fā)音加到各對(duì)NTN分類器104、106、108和110與DTW分類器120、122、124和126。例如,把發(fā)音308加到NTN分類器104和DTW分類器120,把發(fā)音302加到NTN 106和DTW 122,把發(fā)音304加到NTN 108和DTW 124,以及把發(fā)音306加到NTN110和DTW 126。計(jì)算指定為310、312、314和316 0到1之間的幾率P。在判定組合邏輯模塊40的投票模塊321中,把幾率310、312、314和316與閾值TDTW相比較,并把幾率317、318、319和320與閾值TNTN相比較。
      圖8是其它說話者25的說話者間得分以及說話者11的說話者間得分圖,這些得分可用于確定說話者驗(yàn)證系統(tǒng)10中所使用的分類器的閾值,諸如閾值TDTW和TNTN。由具有平均說話者得分351的圖形350來表示說話者11對(duì)話音12的說話者間得分。由具有平均說話者得分361的圖形360來表示其它說話者25對(duì)話音12的說話者間得分??蓮囊韵鹿絹泶_定閾值T
      T=x*說話者間+y*說話者間可通過話音12比閾值T大或小的數(shù)量來確定軟(soft)得分S。每個(gè)分類器的得分C在零和1之間,其中零是最確信的拒絕,1是最確信的接受。在閾值T和1之間的接受置信度C接受可從以下公式來定義

      在0到閾值T之間的拒絕置信度C拒絕可定義為

      圖9示出以子字為基礎(chǔ)的說話者驗(yàn)證系統(tǒng)400的示意圖。在特征提取模塊14中提取話音特征矢量15后,在子字分割模塊402中把話音特征矢量15分割成子字404。子字404最好是音素??砂炎幼?04加到訓(xùn)練說話者模塊406和測(cè)試說話者模塊408。
      圖10A是基于子字的說話者驗(yàn)證系統(tǒng)400在應(yīng)用訓(xùn)練說話者模塊406期間的示意圖。把表示說話者11訓(xùn)練發(fā)音的說話者提取特征15以及口令拷貝410加到子字音素級(jí)分割模塊402??诹羁截?10可由說話者11發(fā)出、通過計(jì)算機(jī)輸入或通過卡片掃描,或者可以類似的模式產(chǎn)生。話音分割模塊402把說話者提取特征15分割成子字1到M,例如,模塊420中的子字“1”,模塊422中的子字“m”,以及模塊424中的子字“M”,其中M是所分割的子字?jǐn)?shù)目。子字420、422和424可存儲(chǔ)在在數(shù)據(jù)庫425中。受監(jiān)控的學(xué)習(xí)矢量標(biāo)注系統(tǒng)430把用于訓(xùn)練話音矢量的標(biāo)志確定為訓(xùn)練分類器440、442和444用的“0”或“1”。例如,其它說話者25的所有子字可以標(biāo)注為“0”,說話者15的子字可以標(biāo)注為“1”。此外,可在數(shù)據(jù)庫425中搜索到最近似的音素。為了對(duì)每個(gè)子字進(jìn)行分類,把子字分類器440、442和444加到各個(gè)子字420、422和424。子字分類器440、442和444最好使用NTN和MNTN分類方法。
      圖10B是以子字為基礎(chǔ)的說話者驗(yàn)證系統(tǒng)400在應(yīng)用測(cè)試說話者模塊408期間的示意圖。把表示說話者11測(cè)試發(fā)音的說話者提取特征15與口令拷貝410一起加到子字音素級(jí)分割模塊402。子字分類器440、442和444對(duì)從表示說話者11測(cè)試發(fā)音的提取說話者特征15中確定的各個(gè)子字420、422和424進(jìn)行分類。把來自分類器440、442和444的輸出445加到判定組合邏輯模塊40,以根據(jù)上述從分類器440、442和444的組合輸出而計(jì)得的接受置信度C接受來確定是否接受或拒絕說話者11。
      為了產(chǎn)生對(duì)信道差是固定的話音特征矢量15,可在特征提取模塊14中使用名為“極點(diǎn)濾波”的較佳方法。極點(diǎn)濾波使用所有極點(diǎn)線性預(yù)報(bào)(LP)濾波器的智能濾波對(duì)信道進(jìn)行歸一化。
      如果凈話音Cs用脈沖響應(yīng)為h的信道卷積,則原始倒頻譜平均的信道倒頻譜可表示為Cs=&Sigma;m=1MSm+h,]]>這里Ss=&Sigma;m=1MSm]]>相應(yīng)于只因以下凈話音所引起的平均倒頻譜分量。為了使信道匹倒頻譜估計(jì)值Cs相應(yīng)于以下實(shí)際卷積失真的倒頻譜估計(jì)值h,凈話音引起的分量平均應(yīng)為零。
      根據(jù)經(jīng)驗(yàn),對(duì)于短的發(fā)音,凈話音所引起的平均倒頻譜分量不再為零,對(duì)于說話者驗(yàn)證系統(tǒng)10的訓(xùn)練和測(cè)試也是同樣的情況。
      圖11A中示出已有技術(shù)的信道歸一化系統(tǒng)500,其中話音被加到幀內(nèi)加權(quán)模塊502。自適應(yīng)分量加權(quán)(ACW)是為信道歸一化而進(jìn)行幀內(nèi)加權(quán)的一個(gè)例子。為了除去附加的信道效應(yīng),幀內(nèi)處理模塊506處接收到被加權(quán)的話音504。一種除去信道效應(yīng)的常規(guī)幀內(nèi)方法是應(yīng)用倒頻譜平均相減(CMS)。由于信道倒頻譜包括信道所引起的大量倒頻譜分布以及話音,所以從每個(gè)話音幀的倒頻譜中消去失真的信道倒頻譜估計(jì)值的常規(guī)方法相當(dāng)于對(duì)不可靠的信道估計(jì)值進(jìn)行解卷積(deconvolve)。
      圖11B示出本發(fā)明的信道歸一化系統(tǒng)600。話音12被加到信道估計(jì)值極點(diǎn)濾波模塊602。極點(diǎn)濾波削弱了話音Ss所引起的不變分量的作用。經(jīng)整理的信道估計(jì)值用于對(duì)信道進(jìn)行歸一化。最好以迭代法對(duì)信道的倒頻譜進(jìn)行整理。
      信道倒頻譜的估計(jì)值cs依賴于發(fā)音中有效的話音幀的數(shù)目。在有效的話音發(fā)音足夠長(zhǎng)的情況下,可得到一個(gè)接近于實(shí)際信道估計(jì)值h的信道倒頻譜估計(jì)值。在大多數(shù)的實(shí)際情況下,訓(xùn)練或測(cè)試用的發(fā)音的持續(xù)時(shí)間不會(huì)長(zhǎng)到足以允許Ss→0。通過確定極點(diǎn)在話音幀中的占有率及其對(duì)信道倒頻譜估計(jì)值的作用,可提高倒頻譜的平均估計(jì)值。
      通過把平均倒頻譜轉(zhuǎn)換成線性預(yù)報(bào)系數(shù)并研究相應(yīng)復(fù)數(shù)共軛極點(diǎn)對(duì)的占有率,來確定元音區(qū)域的每種模式對(duì)平均倒頻譜的作用。對(duì)于話音的一個(gè)幀,如果頻譜分量相應(yīng)于最靠近單位圓周復(fù)數(shù)共軛極點(diǎn)對(duì)(最小帶寬),則頻譜分量的占有率最大,如果頻譜分量相應(yīng)于離單位圓周最遠(yuǎn)的復(fù)數(shù)共軛極點(diǎn)對(duì)(最大帶寬),則頻譜分量的占有率最小。
      為了在倒頻譜域中獲得更平滑繼而更準(zhǔn)確的逆信道估計(jì)值,使話音的極點(diǎn)限制成對(duì)應(yīng)于經(jīng)修正的平均倒頻譜,CSP&Integral;]]>從而削弱與話音引起的不變分量有關(guān)的倒頻譜偏置。經(jīng)整理的平均倒頻譜去除排除了話音引起的大量頻譜分布分量,從而提供了一種改進(jìn)的信道歸一化方案。
      把從信道極點(diǎn)濾波模塊602確定的最佳信道估計(jì)值與解卷積模塊730中的話音12相結(jié)合,以在時(shí)域內(nèi)對(duì)它們進(jìn)行解卷積而提供歸一化話音735??砂殉R?guī)的幀間耦合502和干擾處理506加到歸一化話音735,以提供信道歸一化話音特征矢量740。可用與圖1所示話音特征矢量15相同的模式來利用話音特征矢量740。改善信道估計(jì)值的一個(gè)較佳方法使用經(jīng)極點(diǎn)濾波的倒頻譜系數(shù)PFCC,其中如圖12所示,提高窄頻帶極點(diǎn)的帶寬,而其頻率保持不變。把極點(diǎn)801、802、803、804、805、806移動(dòng)到經(jīng)修正的極點(diǎn)811、812、813、814、815和816。此效果相當(dāng)于沿相同的半徑移動(dòng)單位圓周內(nèi)的窄頻帶極點(diǎn),從而使頻率保持恒定而擴(kuò)大帶寬。
      與話音特征矢量15同步,確定話音的極點(diǎn)濾波倒頻譜系數(shù)PFCC。通過分析幀12中一個(gè)極點(diǎn)的帶寬是否小于預(yù)定的閾值t來確定極點(diǎn)濾波倒頻譜系數(shù)PFCC。如果話音12小于預(yù)定閾值且該極點(diǎn)的帶寬固定于閾值t,則可用極點(diǎn)濾波倒頻譜系數(shù)來估計(jì)經(jīng)修正的平均倒頻譜。利用最接近于實(shí)際逆信道濾波器的極點(diǎn)濾波倒頻譜系數(shù)PFCC來獲得改善的逆濾波器估計(jì)值。從話音的倒頻譜幀中減去經(jīng)修正的平均倒頻譜既保留了頻譜信息,又更加準(zhǔn)確地補(bǔ)償了信道的頻譜傾斜。
      圖13A示出話音一個(gè)幀的樣品頻譜700。圖13B示出從頻譜700中減去已有技術(shù)平均倒頻譜Cs的頻譜710。頻譜720是從頻譜700中減去經(jīng)極點(diǎn)濾波修正的平均倒頻譜

      。頻譜720示出對(duì)頻譜710有所改善的頻譜信息。
      圖14示出仿射變換系統(tǒng)900,它可用于說話者驗(yàn)證系統(tǒng)10的訓(xùn)練和測(cè)試。通過對(duì)特征提取模塊14提取的倒頻譜系數(shù)進(jìn)行仿射變換可減小訓(xùn)練和測(cè)試環(huán)境之間的失配。矢量x的仿射變換y定義為y=Ax+b這里A是一個(gè)表示線性變換的矩陣,b是一個(gè)表示轉(zhuǎn)換的非零矢量,y是測(cè)試數(shù)據(jù),而x對(duì)應(yīng)于訓(xùn)練數(shù)據(jù)。在話音處理域中,矩陣A模擬噪聲引起的各個(gè)倒頻譜系數(shù)的減小,矢量b說明了信道效應(yīng)所引起的平均倒頻譜的偏移。
      單數(shù)值分解(SVD)描述了具有以下公式的仿射變換的幾何形狀y=U∑VT+b這里U和VT是一元矩陣,∑是斜列。其幾何含義是由VT旋轉(zhuǎn)x,被∑重新定標(biāo),并再由U旋轉(zhuǎn)。矢量b也引入了一種解釋。
      已發(fā)現(xiàn)實(shí)際上用不同的值對(duì)每個(gè)倒頻譜系數(shù)進(jìn)行定標(biāo),伴隨著倒頻譜系數(shù)的重新定標(biāo),角度稍有變化??砂燕须s的倒頻譜矢量cns表示為凈倒頻譜矢量c與一矩陣的乘積,即,cns=Ac。
      為了同時(shí)表示信道和噪聲所引起的失真,可使用以下所示的仿射映射c′=Ac+b從以下的仿射變換式來定義仿射變換參數(shù)

      x&OverBar;=A-1(y-b)]]>這里

      等價(jià)于x。使用最小二乘方方法可得到仿射變換參數(shù)A和b,以解出以上有關(guān)訓(xùn)練或交叉驗(yàn)證數(shù)據(jù)組的方程。
      在說話者驗(yàn)證系統(tǒng)10的訓(xùn)練期間,話音特征矢量15與仿射變換模塊902相連,并在測(cè)試期間通過分類器輸入線901加到分類器904。在訓(xùn)練期間,話音特征矢量15與仿射變換模塊902相連,并通過分類器輸入線903加到分類器904。分類器804最好是一個(gè)矢量量化分類器。例如,分類器804可對(duì)應(yīng)于圖2所示的分類器70、71、72或圖4所示的NTN分類器104、106、108、110以及DTW分類器120、122、124和126。
      在說話者驗(yàn)證系統(tǒng)10中,要求其真實(shí)個(gè)性的說話者可叫做真實(shí)說話者,而要求偽個(gè)性的說話者11叫做冒名頂替者。在對(duì)說話者進(jìn)行估計(jì)時(shí),說話者驗(yàn)證系統(tǒng)10可產(chǎn)生兩種差錯(cuò)(a)誤拒絕(FR)以及誤接受(FA)。在要求真實(shí)個(gè)性的真實(shí)說話者被說話者驗(yàn)證系統(tǒng)10拒絕時(shí),產(chǎn)生誤拒絕(FR)差錯(cuò)。當(dāng)冒名頂替者被說話者驗(yàn)證系統(tǒng)10接受時(shí),產(chǎn)生誤接受(FA)差錯(cuò)。判定是否接受或拒絕個(gè)性依賴于上述閾值T。依據(jù)每種差錯(cuò)的代價(jià),可把系統(tǒng)設(shè)計(jì)成以另一個(gè)差錯(cuò)為代價(jià)而折衷地選擇另一個(gè)差錯(cuò)。此外,為了估計(jì)競(jìng)爭(zhēng)技術(shù),可比較系統(tǒng)的等差錯(cuò)率(EER)。當(dāng)以相等的幾率產(chǎn)生兩種差錯(cuò)(即,F(xiàn)R和FA)時(shí),可實(shí)現(xiàn)等差錯(cuò)率。
      在名為YOHO的常規(guī)話音集(可通過Philadelphia的語言數(shù)據(jù)協(xié)會(huì)(LDC)來獲得)上評(píng)價(jià)本發(fā)明以子字為基礎(chǔ)的說話者驗(yàn)證系統(tǒng)。在相同的條件下,與以1.66%等差錯(cuò)率(EER)的以常規(guī)隱性Markov模型(HMM)為基礎(chǔ)的系統(tǒng)相比,本發(fā)明以子字為基礎(chǔ)的說話者驗(yàn)證系統(tǒng)10可產(chǎn)生0.36%的EER。
      本發(fā)明的優(yōu)點(diǎn)是把來自不同分類器的多個(gè)標(biāo)志組合起來,以提供一種可準(zhǔn)確識(shí)別給定模式的強(qiáng)有力的識(shí)別系統(tǒng)。在說話者驗(yàn)證的實(shí)施例中,可把以失真為基礎(chǔ)的分類器與以判別式為基礎(chǔ)的分類器組合起來,以把與說話者有關(guān)的標(biāo)志以及說話者與其它說話者組合起來。最好用神經(jīng)樹形網(wǎng)絡(luò)對(duì)來自說話者和其它說話者的數(shù)據(jù)進(jìn)行分類,從而減少處理。字識(shí)別使能模塊可把較高的精度加到驗(yàn)證系統(tǒng)并減少拒絕說話者處理。此外,分類器可以是以子字為基礎(chǔ)的分類器,帶有與文本有關(guān)或無關(guān)的數(shù)據(jù)。此外,可用留下一個(gè)的方法來訓(xùn)練驗(yàn)證系統(tǒng),從而減少訓(xùn)練系統(tǒng)所需的數(shù)據(jù)??墒褂脴O點(diǎn)濾波來減輕系統(tǒng)中的信道失真。對(duì)提取特征的仿射變換改善了訓(xùn)練和測(cè)試數(shù)據(jù)之間的相關(guān)性。為了說明老化現(xiàn)象,系統(tǒng)也可在進(jìn)行肯定驗(yàn)證后對(duì)說話者模型進(jìn)行更新。
      雖然已參考較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了描述,此描述不是限制。本領(lǐng)域內(nèi)的那些中等技術(shù)人員應(yīng)理解可對(duì)本發(fā)明進(jìn)行修改而不背離本發(fā)明的精神和范圍。
      權(quán)利要求
      1.一種用于說話者驗(yàn)證的方法,其特征在于包括以下步驟從所述說話者發(fā)出的第一話音中提取至少一個(gè)特征;為了形成多個(gè)分類輸出,用多個(gè)分類器對(duì)所述至少一個(gè)特征進(jìn)行分類的裝置;通過確定所述多個(gè)分類輸出與所述說話者預(yù)先發(fā)出的第二話音的相似性來識(shí)別所述多個(gè)分類輸出的裝置;以及根據(jù)所述經(jīng)識(shí)別的多個(gè)分類輸出確定是否接受或拒絕所述說話者的裝置。
      2.如權(quán)利要求1所述的方法,其特征在于還包括以下裝置根據(jù)所述經(jīng)識(shí)別的多個(gè)分類輸出確定置信度。
      3.如權(quán)利要求2所述的方法,其特征在于在對(duì)所述至少一個(gè)特征進(jìn)行分類前,所述方法還包括以下步驟為了確定是否預(yù)備接受或預(yù)備拒絕所述說話者,通過把所述至少一個(gè)特征與預(yù)先存儲(chǔ)的所述說話者的數(shù)據(jù)相比較,對(duì)所述說話者發(fā)出的所述第一話音進(jìn)行字識(shí)別;如果確定預(yù)備接受所述說話者,則進(jìn)行對(duì)所述至少一個(gè)特征進(jìn)行分類的所述步驟,如果確定預(yù)備拒絕所述說話者,則讓回叫模塊使能。
      4.如權(quán)利要求3所述的方法,其特征在于所述第一話音包括所述說話者一口令的至少一個(gè)發(fā)音。
      5.如權(quán)利要求4所述的方法,其特征在于所述數(shù)據(jù)包括預(yù)先從說話者發(fā)出的第一話音中形成的與說話者有關(guān)的模板,以及預(yù)先由至少一個(gè)第二說話者發(fā)出的第一話音形成的與說話者無關(guān)的模板。
      6.如權(quán)利要求1所述的方法,其特征在于由神經(jīng)樹形網(wǎng)絡(luò)(NTN)分類器和動(dòng)態(tài)時(shí)間偏移分類器來進(jìn)行所述分類步驟。
      7.如權(quán)利要求1所述的方法,其特征在于由經(jīng)修正的神經(jīng)樹形網(wǎng)絡(luò)(MNTN)和動(dòng)態(tài)時(shí)間偏移分類器來進(jìn)行所述分類步驟。
      8.如權(quán)利要求7所述的方法,其特征在于由以下公式來定義所述MNTN分類器的說話者得分PMNTN(X|Si)=&Sigma;j=1Mcj1&Sigma;j=1NCj0+&Sigma;j=1Mcj1]]>這里c1是說話者Si的置信度得分,C0是其它所有說話者的置信度得分,M和N分別對(duì)應(yīng)于定為“1”和“0”的矢量的數(shù)目。
      9.如權(quán)利要求1所述的方法,其特征在于通過以下步驟來訓(xùn)練所述識(shí)別步驟把所述說話者的話音的多個(gè)第一發(fā)音加到所述多個(gè)分類器中的一對(duì)分類器,在所述發(fā)音中留下定義為留下發(fā)音的一個(gè)發(fā)音;把所述留下發(fā)音加到所述分類器對(duì);計(jì)算所述分類器對(duì)中每個(gè)所述分類器的幾率;以及根據(jù)所述幾率確定所述分類器對(duì)中每個(gè)所述分類器的閾值,其中通過把所述分類器與所述閾值相比較來確定所述多個(gè)分類輸出的所述相似性。
      10.如權(quán)利要求1所述的方法,其特征在于為了提取所述至少一個(gè)特征,通過對(duì)所述第一和第二話音進(jìn)行極點(diǎn)濾波來進(jìn)行所述提取步驟。
      11.如權(quán)利要求1所述的方法,其特征在于還包括以下步驟在所述提取步驟后把所述至少一個(gè)特征分成子字。
      12.如權(quán)利要求11所述的方法,其特征在于所述子字是音素。
      13.如權(quán)利要求12所述的方法,其特征在于所述子字與說話者有關(guān)。
      14.如權(quán)利要求12所述的方法,其特征在于所述子字與說話者無關(guān)。
      15.如權(quán)利要求1所述的方法,其特征在于使用仿射映射變換來校正所述至少一個(gè)特征。
      16.一種說話者驗(yàn)證系統(tǒng),其特征在于包括從所述說話者發(fā)出的第一話音中提取至少一個(gè)特征的裝置;為了形成多個(gè)分類輸出,用多個(gè)分類器對(duì)所述至少一個(gè)特征進(jìn)行分類的裝置;通過確定所述多個(gè)分類輸出與所述說話者預(yù)先發(fā)出的第二話音的相似性來識(shí)別所述多個(gè)分類輸出的裝置;以及根據(jù)所述經(jīng)識(shí)別的多個(gè)分類輸出確定是否接受或拒絕所述說話者的裝置。
      17.如權(quán)利要求16所述的系統(tǒng),其特征在于還包括為了確定是否預(yù)備接受或預(yù)備拒絕所述說話者,通過把所述至少一個(gè)特征與預(yù)先存儲(chǔ)的所述說話者的數(shù)據(jù)相比較,以對(duì)所述說話者發(fā)出的所述第一話音進(jìn)行字識(shí)別的裝置;以及如果確定預(yù)備接受所述說話者,則讓對(duì)所述至少一個(gè)特征進(jìn)行分類的所述裝置使能的裝置,如果確定預(yù)備拒絕所述說話者,則讓回叫模塊使能的裝置。
      18.如權(quán)利要求17所述的系統(tǒng),其特征在于所述數(shù)據(jù)包括從說話者預(yù)先發(fā)出的第一話音形成的與說話者有關(guān)的模板,以及預(yù)先由至少一個(gè)第二說話者發(fā)出的第一話音形成的與說話者無關(guān)的模板。
      19.如權(quán)利要求18所述的系統(tǒng),其特征在于所述分類裝置包括經(jīng)修正的神經(jīng)樹形網(wǎng)絡(luò)(MNTN)和動(dòng)態(tài)時(shí)間偏移分類器。
      20.如權(quán)利要求19所述的系統(tǒng),其特征在于用一全極點(diǎn)濾波器來實(shí)施所述提取裝置。
      21.如權(quán)利要求20所述的系統(tǒng),其特征在于使用仿射變換來校正所述至少一個(gè)特征。
      全文摘要
      本發(fā)明涉及一種模式識(shí)別系統(tǒng)(圖1),它使用數(shù)據(jù)組合,從而把來自多個(gè)提取特征(60、61、62)的數(shù)據(jù)與多個(gè)分類器(70、71、72)組合起來。利用以判別式為基礎(chǔ)和以失真為基礎(chǔ)的分類器,可準(zhǔn)確地驗(yàn)證說話者的模式??墒褂靡环N利用一組“留下一個(gè)”的訓(xùn)練數(shù)據(jù)的新方案,從而以減少的數(shù)據(jù)組對(duì)系統(tǒng)進(jìn)行訓(xùn)練(圖7A、7B、7C)??墒褂脺p小信道效應(yīng)的極點(diǎn)濾波方法(圖11B)以及改善訓(xùn)練和測(cè)試數(shù)據(jù)之間相關(guān)性的仿射變換(圖14)來改善提取的特征。
      文檔編號(hào)G10L15/20GK1197526SQ96194550
      公開日1998年10月28日 申請(qǐng)日期1996年6月6日 優(yōu)先權(quán)日1995年6月7日
      發(fā)明者R·J·曼蒙, 凱文·法雷爾, 馬尼什·夏爾馬, 奈克·德旺, 張曉宇, 哈立德·阿薩雷, 劉漢生 申請(qǐng)人:拉脫格斯大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1