国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于說話人識(shí)別的拓?fù)渎暭y的制作方法

      文檔序號(hào):2819074閱讀:303來源:國知局
      專利名稱:用于說話人識(shí)別的拓?fù)渎暭y的制作方法
      技術(shù)領(lǐng)域
      本申請涉及通過聲音識(shí)別說話人。
      背景技術(shù)
      不同人的聲音具有不同的聲音特征??梢蕴崛〔煌说穆曇籼卣鞯牟顒e來構(gòu)成區(qū)分和辨認(rèn)說話人的唯一辨認(rèn)工具。從某種程度上說,說話人識(shí)別是一種基于從聲音或語音信號(hào)獲得的各個(gè)信息來自動(dòng)地識(shí)別誰在講話的過程。針對各種應(yīng)用場合,說話人識(shí)別可分為說話人辨認(rèn)(Speaker Identification)和說話人確認(rèn)(SpeakerVerification)。說話人辨認(rèn)是指確定一組已知的說話人中哪位已登記的說話人提供了給定的發(fā)音。對該給定的發(fā)音進(jìn)行分析,并將其與已知說話人的聲音信息相比較,以確定是否匹配。而在說話人確認(rèn)中,未知說話人首先聲稱是某一已知說話人的實(shí)體,然后獲得該未知說話人的發(fā)音,并將其與所聲稱的已知說話人的信息相比較,以確定是否匹配。
      說話人識(shí)別技術(shù)有多種用途。例如,可以使用說話人的聲音來控制對受限制的設(shè)備、裝置、計(jì)算機(jī)系統(tǒng)、數(shù)據(jù)庫、和各種服務(wù)的訪問,例如,對銀行、數(shù)據(jù)庫服務(wù)、購物、以及語音郵件的電話訪問,以及對安全設(shè)備和計(jì)算機(jī)系統(tǒng)的訪問。在說話人辨認(rèn)和確認(rèn)中,都要求用戶通過提供其語音樣本來“登入”說話人識(shí)別系統(tǒng),以使系統(tǒng)能夠表征并分析用戶的聲音模式。
      在說話人識(shí)別領(lǐng)域,已經(jīng)開發(fā)了多種利用聲音特征的向量(例如,頻譜參數(shù))之間的距離來辨別說話人的說話人識(shí)別方法。在這種頻譜分析方法中,計(jì)算所提取的聲音特征和已知說話人的聲音模板之間的距離。基于統(tǒng)計(jì)學(xué)分析和其他的適當(dāng)分析,如果對所接收到的聲音或發(fā)音算出的距離在已知說話人的預(yù)定閾值之內(nèi),則所接收到的聲音或發(fā)音屬于該已知的說話人。

      發(fā)明內(nèi)容
      本申請所描述的說話人識(shí)別技術(shù)是部分地以基于頻譜參數(shù)距離計(jì)算的各種頻譜分析方法中的多個(gè)技術(shù)局限性為基礎(chǔ)而開發(fā)的。例如,由于同一說話人的不同發(fā)音可能具有略微不同的頻譜,而確定基本上依賴于用來適應(yīng)適當(dāng)閾值的聲音頻譜數(shù)據(jù)庫,所以這種頻譜分析方法可能至少不是足夠精確。
      本申請的說話人識(shí)別技術(shù)使用從單個(gè)說話人計(jì)算出的聲音的拓?fù)涮卣?,來?gòu)成作為每一個(gè)說話人的生物測定特征的一組離散有理數(shù)(例如整數(shù)),并使用這些有理數(shù)來辨認(rèn)經(jīng)受檢查的說話人或?qū)ο蟆Ec各種頻譜分析方法中計(jì)算從不同的說話人的聲音獲得的頻譜曲線之間的距離明顯不同,該拓?fù)涮卣魈峁┝藢ο蠛陀梢唤M有理數(shù)表示的模型或聲紋之間的一一對應(yīng)關(guān)系。因此,可以針對包括說話人辨認(rèn)和確認(rèn)的各種應(yīng)用場合來形成面向不同已知說話人的有理數(shù)數(shù)據(jù)庫。這種有理數(shù)的數(shù)據(jù)庫相對于在各種頻譜分析方法中使用的傳統(tǒng)的個(gè)人聲音數(shù)據(jù)庫較小。每一個(gè)聲紋包括用于區(qū)分說話人和其他說話人的一組離散整數(shù)或有理數(shù)形式的拓?fù)鋮?shù),并通過嵌入說話人聲音的譜函數(shù)獲得。
      在一個(gè)實(shí)施例中,描述了一種用于通過聲音來確定說話人身份的方法。首先,通過嵌入說話人聲音的譜函數(shù)提取一組拓?fù)渲笖?shù)。接下來,選擇拓?fù)渲笖?shù)作為說話人的生物測定特征,用于辨認(rèn)和確認(rèn)說話人和其他說話人。
      在另一個(gè)實(shí)施例中,拓?fù)鋮?shù)是從相對旋轉(zhuǎn)速度(rrr)獲得的例如整數(shù)的有理數(shù)。每一個(gè)對象都分配以可由簡短的話語重構(gòu)的一組有理數(shù)。這些數(shù)的子集不隨同一說話人話語的不同而改變,而隨對象的不同而不同。這樣,可以不考慮數(shù)據(jù)庫的特征的大小建立一種描述聲音的標(biāo)準(zhǔn)方法。表征聲音的這組有理數(shù)很穩(wěn)定,可以很容易地在各種設(shè)備(例如磁性裝置或打印裝置)中進(jìn)行編碼。
      在本申請中描述的典型方法包括以下步驟。記錄說話人的語音信號(hào)并將其數(shù)字化。計(jì)算該離散信號(hào)的線性預(yù)測系數(shù)。根據(jù)該線性預(yù)測系數(shù)計(jì)算能譜。接著,由該能譜構(gòu)建三維周期軌道,并由基準(zhǔn)能譜(例如自然基準(zhǔn)信號(hào),natural reference signal)構(gòu)建第二三維周期軌道。然后獲得關(guān)于語音信號(hào)和自然基準(zhǔn)信號(hào)的周期軌道的拓?fù)湫畔ⅰJ褂眠x出的一組拓?fù)渲笖?shù),將產(chǎn)生該語音信號(hào)的說話人與具有不同拓?fù)渲笖?shù)的其他說話人區(qū)分開。
      本申請還描述了說話人識(shí)別系統(tǒng)。在一個(gè)例子中,說話人識(shí)別系統(tǒng)包括麥克風(fēng),用于從說話人接收聲音樣本;讀頭,用于從便攜存儲(chǔ)裝置中讀取唯一地表示已知說話人的聲音的有理數(shù)的聲音辨認(rèn)數(shù)據(jù);以及處理單元。處理單元連接至麥克風(fēng)和讀頭,可用于從說話人的聲音樣本中提取拓?fù)湫畔?,以從聲音樣本產(chǎn)生拓?fù)潆x散數(shù)。處理單元還可用于將已知說話人的離散數(shù)與得自聲音樣本的拓?fù)潆x散數(shù)進(jìn)行比較,以確定說話人是否為已知的說話人。由于用于說話人識(shí)別的離散有理數(shù)的數(shù)字碼的文件大小足夠小,所以可以將一個(gè)或多個(gè)說話人的一個(gè)或多個(gè)聲紋存儲(chǔ)在用戶可隨身攜帶的便攜存儲(chǔ)裝置中。
      在附圖具體實(shí)施例方式
      和權(quán)利要求中將更為詳細(xì)地描述這些和其他實(shí)例以及實(shí)施例。


      圖1示出了來自單個(gè)說話人(實(shí)線)和通用基準(zhǔn)(虛線)的用于嵌入的周期函數(shù)。這些函數(shù)由采用1/2初始周期的初始log|H(f)|2構(gòu)建。
      圖2示出了在函數(shù)的整個(gè)周期上針對兩個(gè)不同說話人的、使用最大熵近似值的log|H(f)|2的三個(gè)實(shí)例。在第二共振峰之外,頻譜自然地聚類成兩個(gè)不同的組。初始聲音段對應(yīng)于從常規(guī)語音話語中提取的西班牙語元音[a]。
      圖3示出了由一個(gè)濁音片段(實(shí)線)計(jì)算的函數(shù)F(f)的延時(shí)嵌入(Δf=40Hz)的實(shí)例。
      圖4示出了三個(gè)年齡近乎相同的男性說話人的元音紋,其由在不同的登記時(shí)間段采集的大約10句話的短元音段(約100ms)構(gòu)成。
      圖5A示出了通過麥克風(fēng)從說話人獲得的作為時(shí)間的函數(shù)的聲音樣本的實(shí)例。
      圖5B示出了從圖5A中的聲音樣本獲得的能譜。
      圖5C示出了用于從聲音信號(hào)提取旋轉(zhuǎn)數(shù)的拓?fù)浞ㄖ械膬蓚€(gè)三維軌道1和2的連接。
      圖5D示出了由聲音樣本構(gòu)成的軌道和來自基準(zhǔn)信號(hào)的基準(zhǔn)軌道之間的相對拓?fù)潢P(guān)系得到的相對旋轉(zhuǎn)數(shù)。
      圖6A、圖6B、圖6C示出了從某一說話人的同一濁音的多個(gè)旋轉(zhuǎn)矩陣中選擇恒定旋轉(zhuǎn)數(shù)作為該說話人的聲紋的過程的實(shí)例。
      圖7示出了以完全匹配分析方式將未知說話人的聲音與已知說話人的聲紋進(jìn)行比較的實(shí)例。
      圖8示出了對照三個(gè)已知說話人的三個(gè)聲紋確認(rèn)兩個(gè)候選的步驟。
      圖9示出了說話人識(shí)別系統(tǒng)的實(shí)例。
      圖10示出了圖9中的系統(tǒng)的操作。
      具體實(shí)施方式
      本文所描述的說話人識(shí)別技術(shù)可以多種形式實(shí)施。在一個(gè)實(shí)施例中,從說話人的聲音樣本中提取例如一組離散有理數(shù)(例如,整數(shù))。所提取的有理數(shù)的子集存在于說話人的每一句話中,并且在正常的說話情形以及低噪音環(huán)境下,該子集在說話人的話與話之間不發(fā)生改變。這種子集被稱為聲紋,被用作說話人的生物測定特征,用于從其他說話人中辨認(rèn)和確認(rèn)該說話人。
      因此,可以使用這種生物測定特征通過以下步驟實(shí)現(xiàn)說話人確認(rèn)。首先,分析來自第二說話人的聲音樣本,以提取第二說話人的一組有理數(shù)。將第二說話人的這組離散有理數(shù)與說話人的聲紋進(jìn)行比較,比較過程中不使用閾值。隨后,當(dāng)?shù)诙f話人的這組有理數(shù)與說話人的聲紋之間完全匹配時(shí),證明第二說話人就是說話人。如果不匹配,則認(rèn)為第二說話人為與說話人不同的人。
      在說話人辨認(rèn)的實(shí)施例中,從不同的已知說話人的聲音樣本中提取聲紋。接著,分析來自未知說話人的聲紋,以提取未知說話人的一組有理數(shù),并將未知說話人的這組離散有理數(shù)與已知說話人的聲紋進(jìn)行比較,以確定是否匹配,從而辨認(rèn)未知說話人是否為已知說話人之一。
      值得注意的是,在上述說話人確認(rèn)和說話人辨認(rèn)過程中,在不同組離散有理數(shù)之間進(jìn)行比較,以確定是否匹配。而不需要確定兩個(gè)頻譜特征之間的差值是否在選定的閾值內(nèi)。本文所描述的說話人識(shí)別技術(shù)的各個(gè)特征優(yōu)于基于譜圖參數(shù)距離計(jì)算的各種頻譜分析方法。
      聲音識(shí)別法為非侵害性的識(shí)別方法,因此,在這點(diǎn)上,聲音識(shí)別法優(yōu)于例如視網(wǎng)膜掃描法的其他生物測定識(shí)別方法。但是,用于說話人識(shí)別的頻譜分析法并不像包括指紋識(shí)別的其他生物測定方法那樣被廣泛地使用,這一定程度上是由于當(dāng)比較不同聲音中的頻譜特征時(shí),對于肯定辨認(rèn)來說難以確定多接近才是足夠接近。本文所描述的說話人識(shí)別技術(shù)避免了使用閾值比較頻譜特征的不確定性,并提供了一種從語音頻譜信息中提取生物測定特征的新方法。
      眾所周知,人的聲音的頻譜特性承載了說話人的獨(dú)有特質(zhì),因而可用于說話人識(shí)別。在產(chǎn)生濁音的過程中,通過由聲帶調(diào)節(jié)氣流而產(chǎn)生的富頻譜特征的聲音信號(hào)通過說話人的聲道過濾。作為無源濾波器的聲道的共振由說話人的人類工程學(xué)特征決定,因此可用于辨認(rèn)說話人。人類聲音的物理性質(zhì)可依照標(biāo)準(zhǔn)有源濾波理論(source-filter theory)進(jìn)行描述。在產(chǎn)生類似元音的濁音過程中,氣流引起聲帶的周期性振動(dòng)。這種振動(dòng)在無源線性濾波器(即聲道)的輸入處產(chǎn)生隨時(shí)間變化的壓力波動(dòng)。源和濾波器之間的分離假定聲帶振動(dòng)的回饋可以忽略,Laje等人在Phys.Rev.E64,05621(2001)中在常規(guī)語音條件下已經(jīng)詳盡地證實(shí)了該假設(shè)。富頻譜特征的輸入壓力呈現(xiàn)出基頻約為100Hz的諧波。聲道從這些諧波中選擇某些頻率。這樣,濁音的頻譜載有關(guān)于聲道的信息,而每個(gè)說話人的聲道都是唯一的,因此,濁音的頻譜可以用作說話人的生物測定特征。
      說話人識(shí)別領(lǐng)域中的典型方法(例如各種頻譜分析方法)使用表征不同對象的帶有量值的特征向量,進(jìn)行多維分組,然后通過對特征向量進(jìn)行度量使與不同對象相關(guān)的組(cluster)分離。在聲音的頻譜特征的構(gòu)架(framework)中,進(jìn)行身份確認(rèn)的一種方法為作出根據(jù)話語計(jì)算出的特性之間的距離(失真測量),例如兩個(gè)頻譜之間的差值在對數(shù)量級(jí)上的積分。另一種失真測量是基于頻譜斜率(spectral slope)之間的差值,例如,能譜對相對于頻率的對數(shù)的一階導(dǎo)數(shù)。
      這些頻譜分析方法有許多技術(shù)缺陷。圖1示出了同一說話人的三句不同話語的對數(shù)能譜的實(shí)例。對于同一說話人的不同話語,這些能譜在譜圖峰值和外形方面略有不同。因此,在計(jì)算頻譜特征之間的差值時(shí),測量曲線之間的距離以及決定對于說話人識(shí)別可以接受多少誤差本質(zhì)上很困難而且復(fù)雜。例如,這種頻譜分析方法的計(jì)算結(jié)果對不同說話人來說通常分散于多種范圍之間。同樣地,兩個(gè)范圍接近的說話人之間的可接受的值之間的界限設(shè)定在哪里也存在不確定性。
      本文所述的說話人識(shí)別技術(shù)使用完全不同的從聲音和話語中提取唯一的生物測定特征的方法。上述頻譜比較可以替換地通過另一組稱為倒譜系數(shù)的系數(shù)實(shí)現(xiàn),該倒譜系數(shù)是頻譜函數(shù)的傅立葉振幅。在一定程度上,這種實(shí)現(xiàn)方式可以理解為將聲音頻譜作為“時(shí)間”序列處理,其中頻率f起時(shí)間的作用。在這種觀點(diǎn)下,本發(fā)明人披露為比較兩個(gè)周期軌道而在動(dòng)力學(xué)系統(tǒng)理論中使用的技術(shù)可以用于濁音頻譜的分析之中。這種表達(dá)信息的方法徹底避免了頻譜特征差值的計(jì)算。特別地,本發(fā)明人探索了拓?fù)涔ぞ叩氖褂?,該拓?fù)涔ぞ哂糜诓东@軌道的主要形態(tài)特征,不考慮輕微變形。非線性動(dòng)力學(xué)系統(tǒng)的拓?fù)浞治鍪且粋€(gè)成熟建立的技術(shù)領(lǐng)域,Robert Gilmore在Review of Modern Physics,Vol.70,No.4,1455-1592頁(1998年10月)中的“Topological analysis of chaotic dynamical system”中詳細(xì)描述了基本原理和分析框架。
      以下部分描述如何通過使用動(dòng)力學(xué)系統(tǒng)的不同領(lǐng)域中開發(fā)出的拓?fù)涔ぞ撸ㄟ^若干組有理數(shù)表征頻譜。特別地,在相對較少的一組說話人中,存在若干組似乎可強(qiáng)化說話人的身份信息的有理數(shù)子集。這些結(jié)果顯示了以聲音識(shí)別對象的一個(gè)新的方向有理數(shù)的排列限定了依賴于其自身的聲紋,不用考慮任何接受/拒絕閾值。
      在三維動(dòng)力學(xué)系統(tǒng)的分析中,周期軌道是閉合曲線,該閉合曲線可以通過彼此以及自身紐結(jié)和連接的方式來表征。例如,參見Solari和Gilmore,“Relative rotation rates for driven dynamicalsystem”,Physical Review A37,3096-3109頁(1998);Mindlin等人,“Classification of strange attractors by rational numbers”,PhysicalReview Letters,Vol.64,2350-2353頁(1990);以及Mindlin和Gilmore,Physica D58,229頁(1992)。為了將這種分析應(yīng)用于說話人識(shí)別的課題中,利用通常應(yīng)用于周期性“時(shí)間”序列分析中的技術(shù),將濁音在對數(shù)標(biāo)度上的能譜作為周期性數(shù)據(jù)串處理。可以利用延時(shí)嵌入,將該數(shù)據(jù)串構(gòu)成三維軌道。
      圖2示出了兩個(gè)說話人的三個(gè)發(fā)音的對數(shù)能譜的實(shí)例。這些頻譜自然地分成分別對應(yīng)于兩個(gè)說話人的兩組??梢园l(fā)現(xiàn),它們的嵌入的拓?fù)湫再|(zhì)是用于身份確認(rèn)的合適工具。
      在上述引用的Solari和Gilmore的出版物中描述的相對旋轉(zhuǎn)速度為引入用來輔助說明被周期性驅(qū)動(dòng)的二維動(dòng)力學(xué)系統(tǒng)的拓?fù)洳蛔兞?,可用于從人類聲音的頻譜特性中提取生物測定信息。相對旋轉(zhuǎn)速度還可針對一大類自治動(dòng)力學(xué)系統(tǒng)以R3構(gòu)建其中可以找到Poincaré部分。
      為了描述聲道的頻率響應(yīng),計(jì)算每一個(gè)存儲(chǔ)的濁音段的能譜的最大熵近似值??梢酝ㄟ^計(jì)算濁音段{yn}的m個(gè)線性預(yù)測系數(shù)來進(jìn)行上面的計(jì)算,取速度r=1/Δyn=&Sigma;k=1mdkyn-k+xn---(1)]]>其中,假設(shè)在整個(gè)語音段中l(wèi)p(線性預(yù)測)系數(shù)d1,d2,…,dm不變,并且選擇該系數(shù)使得xn最大。這些lp系數(shù)可用于估算能譜|H(f)|2為具有m個(gè)極點(diǎn)的有理函數(shù)H(f)=d01-&Sigma;k=1mdkeik2&pi;f&Delta;---(2)]]>其在[-1/2Δ,1/2Δ]內(nèi),即,Nyquist間隔內(nèi)是周期性的。圖2中的兩個(gè)說話人的頻譜是基于公式(2)重構(gòu)的頻譜的實(shí)例。
      使用m=13個(gè)系數(shù)的公式(2),估計(jì)能譜函數(shù)的對數(shù)log|H(f)|2。該頻譜相對于f=0對稱。因此,每個(gè)頻譜只有一半與拓?fù)溆欣頂?shù)的分析和提取相關(guān)。在處理聲音頻譜的原始數(shù)據(jù)中,我們?nèi)サ鬺og|H(f)|2和log|H(π/Δ)|之間的差值,加入線性函數(shù)并減去平均值。最終的譜函數(shù)F(f)為周期性函數(shù),其周期為初始周期的二分之一。
      再參照圖1,與基準(zhǔn)頻譜函數(shù)一起示出了同一說話人的不同話語的F(f)的一些實(shí)例??梢允褂醚訒r(shí)δ,將所得到的函數(shù)F(f)嵌入相空間。圖3進(jìn)一步示出了使用δ=40Hz的軌道的實(shí)例。由F(f)、F(f-δ)、和F(f-2δ)定義的、相空間中的延時(shí)嵌入軌道總是在線F(f)=F(f-δ)=F(f-2δ)周圍顯示空洞。因此,由F(f)=F(f-2δ);F(f-δ)<F(f-2δ)定義的半面給出了良好的Poincaré部分。
      選擇相對于基準(zhǔn)的相對旋轉(zhuǎn),作為這些周期軌道的拓?fù)涮卣?。例如,使用通用基?zhǔn)平坦的、無節(jié)(non articulated)聲道(假設(shè)濁音為零)。該通用基準(zhǔn)獨(dú)立于數(shù)據(jù)庫,對本申請所描述實(shí)例來說對應(yīng)于具有給定長度17.5cm的開放-封閉均勻管道的能譜的嵌入。
      可以通過假設(shè)軌道具有pA和pB段區(qū)間(period),按照下述計(jì)算這些嵌入頻譜的相對旋轉(zhuǎn)。建立軌道A和B的相對旋轉(zhuǎn)矩陣M&Element;ZpA&times;pB,]]>矩陣元素Mij相當(dāng)于軌道A的第i區(qū)間相對于軌道B的第j區(qū)間的帶符號(hào)的交叉點(diǎn)(signed crossing)的求和??梢酝ㄟ^將兩個(gè)軌道A和B投影在二維子空間上來計(jì)算帶符號(hào)的交叉點(diǎn)。在該投影中,剛好在交叉點(diǎn)上的兩個(gè)區(qū)間的切向量沿氣流的方向作出。上部切向量向下部切向量旋轉(zhuǎn),如果該旋轉(zhuǎn)是向右(左)旋的,則將+1(-1)分配給交叉點(diǎn)。如上述建立的相對旋轉(zhuǎn)矩陣的元素是有理數(shù)。
      該相對旋轉(zhuǎn)矩陣通過以下公式與相對旋轉(zhuǎn)速度相關(guān)Rij(A,B)=1pApB&Sigma;k=0pApB-1Mi+k,j+k---(3)]]>其中,周期邊界條件被用于該矩陣。
      為了建立說話人的聲音特征(voice signature),說話人所說的每一個(gè)元音都要被表征。表征元音的一種方法是通過疊加對應(yīng)于同一濁音和同一說話人的所有相對旋轉(zhuǎn)矩陣,并且通過在這些相對旋轉(zhuǎn)矩陣中查找重合(coincidence),即,旋轉(zhuǎn)數(shù),當(dāng)根據(jù)說話人說的不同話語計(jì)算旋轉(zhuǎn)數(shù)時(shí)它不會(huì)改變。這些重合被稱為“穩(wěn)定的旋轉(zhuǎn)數(shù)”,并且為有理數(shù)。進(jìn)行的測試顯示,這些穩(wěn)定的旋轉(zhuǎn)數(shù)對于一個(gè)說話人來說是唯一的,并且不同說話人的穩(wěn)定旋轉(zhuǎn)數(shù)不同。因此,說話人的這些穩(wěn)定的旋轉(zhuǎn)整數(shù)與說話人的指紋相似,可用作聲音生物測定特征,用于辨認(rèn)說話人與其他說話人。
      位于原矩陣中的穩(wěn)定旋轉(zhuǎn)數(shù)的排列被稱作說話人的“元音紋(vowelprint)”。說話人的元音紋的集合被稱作“聲紋”。圖4示出了對應(yīng)于三個(gè)年齡近乎相同的男性對象的西班牙元音[a]的三個(gè)元音紋實(shí)例。
      上述聲紋是離散有理數(shù)的集合,該集合表示說話人獨(dú)特的元音生物測定特征??赏ㄟ^將從說話人的聲音中獲得的這些有理數(shù)與從已知說話人獲得的一組有理數(shù)相比較來識(shí)別說話人。兩組離散有理數(shù)之間的這種比較避免了頻譜特征之間距離的測量計(jì)算,并且避免了基于一些預(yù)定的閾值來匹配不同的頻譜特征過程中固有的不確定性。此外,與頻譜分析法中的頻譜特征的通常較大的聲音數(shù)據(jù)庫相比,這些有理數(shù)的數(shù)字文件的大小相對較小。因此,可以將人的聲紋作為數(shù)字碼存儲(chǔ)在各種便攜存儲(chǔ)裝置中,例如,信用卡、身份證(例如,駕駛執(zhí)照)以及銀行卡上的磁條、印制在諸如打印文件(例如,護(hù)照和駕駛執(zhí)照)和身份證的各種表面上的條形碼、小型電子存儲(chǔ)裝置、以及其他。人們可以方便地?cái)y帶聲紋,并將聲紋用于辨認(rèn)、確認(rèn)、以及其他目的。
      在多個(gè)實(shí)施例中,可以使用計(jì)算機(jī)或者基于微處理器的電子裝置和系統(tǒng)來接收和處理來自說話人的聲音信號(hào),并提取說話人的聲紋的有理數(shù)。可存儲(chǔ)該聲紋,用于隨后的說話人辨認(rèn)和確認(rèn)處理。例如,連接至計(jì)算機(jī)或基于微處理器的電子裝置和系統(tǒng)的麥克風(fēng)可用于獲取來自說話人的聲音樣本。將麥克風(fēng)接收到的聲音信號(hào)數(shù)字化,然后使用上述軌道處理經(jīng)過數(shù)字化的聲音信號(hào),以獲得對于每一個(gè)說話人的一組穩(wěn)定旋轉(zhuǎn)數(shù)作為聲紋。
      圖5A示出了由麥克風(fēng)產(chǎn)生的、說話人的作為時(shí)間函數(shù)的聲音信號(hào)的實(shí)例。選擇一些聲音信號(hào)片段,以形成用于進(jìn)一步處理的聲音頻譜。圖5B示出了從圖5A中的一個(gè)信號(hào)段獲得的聲音能譜的一個(gè)實(shí)例和選定基準(zhǔn)聲音信號(hào)的頻譜。在系統(tǒng)的實(shí)際訓(xùn)練中,從一組說話人在不同的登記期間中記錄訓(xùn)練話語。
      圖5C示出了兩個(gè)簡單三維軌道1和2的連接(linking)的實(shí)例。如上所述,兩個(gè)軌道1和2的組結(jié)和連接可用于獲取相對旋轉(zhuǎn)指數(shù)或相對旋轉(zhuǎn)數(shù)。從類似于圖3中的說話人的聲音信號(hào)產(chǎn)生的軌道以及基準(zhǔn)軌道可用于獲取基于兩個(gè)軌道的相關(guān)拓?fù)潢P(guān)系的相對旋轉(zhuǎn)矩陣。圖5D示出了通過聲音樣本的拓?fù)浞治霁@得的相對旋轉(zhuǎn)整數(shù)的實(shí)例。為了提取有理數(shù),建立基于所記錄的濁音的頻譜特征的周期函數(shù)。使用相空間重構(gòu)技術(shù)建立閉合三維軌道。在三維動(dòng)力學(xué)系統(tǒng)的分析之后,從閉合軌道或曲線中提取連接和紐結(jié)特性。所提取的若干組有理數(shù)(旋轉(zhuǎn)數(shù))排列成如圖5D所示的矩陣形式。接著,由旋轉(zhuǎn)數(shù)的最終排列形成模型,旋轉(zhuǎn)數(shù)對于每個(gè)說話人的話語的變化保持不變。只包括位于原矩陣位置的穩(wěn)定數(shù)的矩陣可用于構(gòu)成說話人的聲音簽名(voice signature)或聲音模型。
      圖6A、圖6B、圖6C示出了對于特定說話人的聲音模型的形成??梢杂?jì)算聲音信號(hào)F(f)的軌道相對于所選擇基準(zhǔn)的旋轉(zhuǎn)速度。對于具有p段嵌入軌道的函數(shù)F(f)和q段的基準(zhǔn),可以獲得p×q個(gè)旋轉(zhuǎn)數(shù)的矩陣。圖6A示出了4×4矩陣的旋轉(zhuǎn)數(shù)的實(shí)例。該矩陣的矩陣元素(i,j)相當(dāng)于說話人的周期軌道的第i段相對于基準(zhǔn)的第j段的轉(zhuǎn)數(shù)。每一個(gè)矩陣元素都是一個(gè)旋轉(zhuǎn)數(shù)。計(jì)算聲音模型作為訓(xùn)練組的所有話語的恒定旋轉(zhuǎn)數(shù)。作為實(shí)例,圖6B示出了從同一說話人獲得的對于同一濁音的4個(gè)不同的矩陣。在所獲得的4個(gè)矩陣中,一些旋轉(zhuǎn)數(shù)隨矩陣的不同而改變。圖6B還示出了4個(gè)加陰影的矩陣元素,這些矩陣元素在4個(gè)矩陣中不變?;趫D6B中的4個(gè)樣本,建立如圖6C所示的聲音模型的最終矩陣。該聲音模型的矩陣與原矩陣一樣仍是p×q矩陣,除了只保留不變的矩陣元素,而其余矩陣元素為空。這些空的矩陣元素對應(yīng)于變化最大的拓?fù)渲笖?shù)。對于每一個(gè)說話人和每一個(gè)濁音都有一個(gè)模型。對每一個(gè)說話人重復(fù)上述訓(xùn)練處理,以建立所有說話人的模型的聲音數(shù)據(jù)庫。
      在建立了已知說話人的聲音模型的數(shù)據(jù)庫、并進(jìn)行存儲(chǔ)或使該數(shù)據(jù)庫可由說話人識(shí)別系統(tǒng)訪問之后,系統(tǒng)隨時(shí)可以確認(rèn)或辨認(rèn)說話人。首先,獲取來自未知說話人的聲音樣本,并且從要求登入數(shù)據(jù)庫的未知說話人的聲音模型計(jì)算一組旋轉(zhuǎn)速度矩陣。這些測試矩陣針對每一個(gè)濁音與相應(yīng)的聲音模型進(jìn)行比較。只有當(dāng)測試矩陣與數(shù)據(jù)庫中的聲音模型中的一個(gè)完全匹配(模型匹配)時(shí),才能確認(rèn)未知說話人。只要使用全匹配標(biāo)準(zhǔn),就不需要用于接受和拒絕門限的閾值。
      圖7的左邊示出了說話人的聲音模型的實(shí)例(例如,存儲(chǔ)在信用卡中的代碼),右邊示出了從未知說話人獲取的測試矩陣。在左邊聲音模型中的6個(gè)恒定旋轉(zhuǎn)數(shù)中,右邊矩陣中的旋轉(zhuǎn)數(shù)只有3個(gè)匹配。因此,在該實(shí)例中沒有完全匹配,確定未知說話人不是該已知說話人。
      上述用于說話人識(shí)別的拓?fù)浞ǔ晒Φ亟?jīng)受了檢驗(yàn)。通過記錄18個(gè)說話人中每個(gè)人重說六次含有5個(gè)西班牙元音的語句,然后根據(jù)從這些元音中獲取的小片段(約100ms)構(gòu)成拓?fù)渚仃?,來建立聲音?shù)據(jù)庫。最終的聲音數(shù)據(jù)庫具有從18個(gè)說話人中每個(gè)人的拓?fù)渚仃囉?jì)算得到的聲紋。
      接著,記錄來自要求進(jìn)入數(shù)據(jù)庫的說話人的聲音樣本,并從所記錄的聲音樣本計(jì)算拓?fù)渚仃?。將這些候選矩陣與數(shù)據(jù)庫中相應(yīng)的元音紋相比較。只有當(dāng)該組候選矩陣與單個(gè)存儲(chǔ)聲紋完全匹配時(shí),才能辨認(rèn)該說話人為數(shù)據(jù)庫的成員。在這里,完全匹配是指所有元音紋中的所有穩(wěn)定數(shù)都出現(xiàn)在相應(yīng)的候選矩陣中。
      圖8示出了對從18個(gè)說話人獲得的單個(gè)元音紋進(jìn)行比較的實(shí)例。圖8中,兩個(gè)候選矩陣與模型的數(shù)據(jù)庫相比較。對于兩個(gè)候選矩陣中的每一個(gè),都示出了單個(gè)元音紋。如果說話人的候選矩陣與某一存儲(chǔ)的聲紋完全匹配,則將該說話人辨認(rèn)為數(shù)據(jù)庫的成員。模型中的灰色區(qū)域?qū)?yīng)于矩陣中含有穩(wěn)定數(shù)的位置。將候選人辨認(rèn)為數(shù)據(jù)庫的成員(即,完全匹配),要求位于候選矩陣的該位置處的數(shù)字與模型中的穩(wěn)定數(shù)相同。聲音數(shù)據(jù)庫的108句話語中的每一句都用作候選進(jìn)行辨認(rèn)。該測試取得了理想的識(shí)別效果,沒有一個(gè)錯(cuò)誤的肯定或否定辨認(rèn)。
      在構(gòu)成聲紋過程中進(jìn)行的旋轉(zhuǎn)數(shù)子集選擇可讓人想到,可能會(huì)丟失一些信息。為了驗(yàn)證這個(gè)假設(shè),將數(shù)據(jù)庫中的每一個(gè)聲紋用構(gòu)成聲紋的所有單個(gè)矩陣的集合來代替,這樣就保存了所有的拓?fù)湫畔?。該?shù)據(jù)庫的108句話語中的每一句都用作辨認(rèn)的候選。計(jì)算候選矩陣與表征數(shù)據(jù)庫中每一個(gè)說話人的一組矩陣之間的重合的數(shù)目。結(jié)果表明這是一種低性能的方法,這是由于發(fā)現(xiàn)了若干個(gè)錯(cuò)誤的肯定和否定。因此,由于舍棄了由隨話語的變化而變化的指數(shù)所承載的不必要的信息,拓?fù)浞€(wěn)定數(shù)似乎強(qiáng)化了相關(guān)頻譜信息。
      此外,對上述拓?fù)浞ê陀?jì)量法之間進(jìn)行了比較。在計(jì)量法中,計(jì)算頻譜之間的二次距離(quadratic distance),并在最佳閾值下計(jì)算重合。在這種情況下,通過用于構(gòu)成旋轉(zhuǎn)矩陣的譜函數(shù)來代替數(shù)據(jù)庫中每個(gè)說話人的聲紋。這種計(jì)量法作為說話人識(shí)別的性能要低于拓?fù)浞ā?br> 本拓?fù)浞ㄏ鄬τ诟鞣N計(jì)量法顯現(xiàn)出許多有益的優(yōu)勢。在計(jì)算頻譜之間距離的計(jì)量法中,需要定義閾值,它是一個(gè)數(shù)據(jù)庫相關(guān)量。將由有理數(shù)構(gòu)成的拓?fù)渎暭y與全匹配標(biāo)準(zhǔn)一起使用,引入了一種獨(dú)立于數(shù)據(jù)庫、不需要閾值確認(rèn)接受的新方法。
      實(shí)施了在標(biāo)準(zhǔn)個(gè)人計(jì)算機(jī)上運(yùn)行本拓?fù)浞ǖ膶?shí)施例,測試表明在PC上進(jìn)行的拓?fù)涮幚砗芸?。一旦記錄了話語,就可以容易地提取濁音段。使用簡便的交叉計(jì)數(shù)算法(cross-counting algorithm)(參見,例如,所引用的Gilmore論文)可以建立它們的相對旋轉(zhuǎn)矩陣,并通過簡單地計(jì)算小矩陣集合的重合來計(jì)算聲紋。一旦建立了聲音數(shù)據(jù)庫,整個(gè)識(shí)別任務(wù)就是小矩陣的匹配。
      在本拓?fù)浞ㄖ?,發(fā)現(xiàn)穩(wěn)定數(shù)的數(shù)量的變化是訓(xùn)練組大小的函數(shù)。對于大于10個(gè)元音的訓(xùn)練組,穩(wěn)定數(shù)的數(shù)量收斂于近似8。這些穩(wěn)定數(shù)描述了濁音的譜函數(shù)相對于基準(zhǔn)頻譜的的相對峰高,其不隨話語的變化而變化。將本數(shù)據(jù)庫中對象的穩(wěn)定數(shù)與從該對象嚴(yán)重感冒而嗓音改變時(shí)記錄的話語中獲取的拓?fù)渲笖?shù)相比較。測試表明穩(wěn)定數(shù)的矩陣中的信息適度降低只有與最高頻率相關(guān)的指數(shù)改變了,而聲紋的大部分保持不變。
      多種系統(tǒng)可以采用本發(fā)明的拓?fù)渎曇糇R(shí)別方法。一個(gè)簡單的實(shí)施例可以將計(jì)算機(jī)或包括微處理器的處理單元用于處理來自連接至處理單元的麥克風(fēng)的聲音信號(hào)。可以使用例如電子存儲(chǔ)裝置、磁存儲(chǔ)裝置(例如,PC中的硬盤驅(qū)動(dòng)器)、或光存儲(chǔ)裝置的存儲(chǔ)介質(zhì)來存儲(chǔ)已知說話人的拓?fù)渎暭y。用戶通過對著麥克風(fēng)說話來提供聲音樣本。處理單元首先處理來自用戶的聲音樣本,以提取用戶的拓?fù)渎曇糁笖?shù),然后將用戶的拓?fù)渎曇糁笖?shù)與存儲(chǔ)在存儲(chǔ)裝置中的指數(shù)相比較,以搜索用戶和數(shù)據(jù)庫中已知說話人之一的匹配。
      圖9示出了實(shí)施上述拓?fù)浞ǖ恼f話人識(shí)別系統(tǒng)的實(shí)例。圖10示出了圖9中的系統(tǒng)的操作流程。該系統(tǒng)包括處理單元,可以是計(jì)算機(jī)或包括微處理器,用于根據(jù)拓?fù)浞ㄌ幚砺曇粜盘?hào),并用于將從讀頭讀取的聲音模型與由聲音信號(hào)構(gòu)成的測試矩陣進(jìn)行比較;輸入麥克風(fēng),與處理單元連接,用于記錄來自說話人的聲音信號(hào);讀頭,也連接至處理單元,用于讀取存儲(chǔ)在便攜存儲(chǔ)裝置上的一個(gè)或多個(gè)已知說話人的聲音模型的有理數(shù),該便攜存儲(chǔ)裝置例如磁卡、光存儲(chǔ)裝置、印有以有理數(shù)編碼的條形碼的卡、或者電子存儲(chǔ)裝置或存儲(chǔ)卡。
      例如,假設(shè)讀頭為磁讀取器,便攜存儲(chǔ)裝置為存儲(chǔ)有已知說話人的一個(gè)或多個(gè)聲音模型的數(shù)字碼的磁卡。要求聲稱是已知說話人的持卡人將卡片滑過讀出器并對著麥克風(fēng)說話,以便獲取他的聲音樣本。處理單元處理該聲音樣本,以提取拓?fù)溆欣頂?shù),并將該拓?fù)溆欣頂?shù)和從該卡讀取的有理數(shù)相比較。在所有有理數(shù)之間完全匹配的情況下,確認(rèn)該卡的用戶為其聲紋存儲(chǔ)在該卡上的已知說話人??梢栽试S該卡的用戶訪問例如銀行帳戶或計(jì)算機(jī)系統(tǒng)。
      可以通過計(jì)算機(jī)網(wǎng)絡(luò)實(shí)現(xiàn)基于本拓?fù)浞ǖ挠?jì)算機(jī)安全確認(rèn)系統(tǒng),其中,可以通過網(wǎng)絡(luò)將來自用戶的數(shù)字化聲音樣本發(fā)送到處理單元,處理單元確定該用戶的聲音樣本是否與存儲(chǔ)在拓?fù)鋽?shù)據(jù)庫中的已知說話人的聲音相匹配。這種用途可應(yīng)用于互聯(lián)網(wǎng)、電話線及網(wǎng)絡(luò)、例如無線電話網(wǎng)絡(luò)或無線數(shù)據(jù)網(wǎng)絡(luò)的無線通信鏈路。各種用途可以結(jié)合本發(fā)明的拓?fù)渎曇糇R(shí)別作為確認(rèn)過程的部分或是全部,所說確認(rèn)過程例如電子銀行或金融、在線購物、各種證明文件(例如護(hù)照、身份證)的確認(rèn)、以及銀行卡、信用卡、電子貿(mào)易、電話訪問、無鑰匙進(jìn)入(keyless entry)(汽車、住宅、辦公室等)和駕駛執(zhí)照的用戶身份的確認(rèn)。
      以上只描述了一些實(shí)施例。然而,應(yīng)該理解,這些實(shí)施例可進(jìn)行各種修改和加強(qiáng)。
      權(quán)利要求
      1.一種用于通過聲音確定說話人的身份的方法,包括從說話人聲音的譜函數(shù)的嵌入提取一組拓?fù)渲笖?shù);以及使用選擇的所述拓?fù)渲笖?shù)作為所述說話人的生物測定特征,以辨認(rèn)并確認(rèn)所述說話人和其他說話人。
      2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括分析來自第二說話人的聲音樣本,以提取所述第二說話人的一組拓?fù)渲笖?shù);比較所述第二說話人的拓?fù)渲笖?shù)組和所述說話人的拓?fù)渲笖?shù)組;當(dāng)所述第二說話人的拓?fù)渲笖?shù)組與所述說話人的拓?fù)渲笖?shù)組之間匹配時(shí),確認(rèn)所述第二說話人是所述說話人;以及當(dāng)不匹配時(shí),確認(rèn)所述第二說話人是不同于所述說話人的人。
      3.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括從不同的已知說話人的聲音中提取多組拓?fù)渲笖?shù);分析來自未知說話人的聲音樣本,以提取所述未知說話人的一組拓?fù)渲笖?shù);比較所述未知說話人的拓?fù)渲笖?shù)組和所述已知說話人的多組拓?fù)渲笖?shù),以確定是否匹配;當(dāng)匹配時(shí),確認(rèn)所述未知說話人是其拓?fù)渲笖?shù)組與所述未知說話人的拓?fù)渲笖?shù)組相匹配的所述已知說話人。
      4.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括將所述說話人的拓?fù)渲笖?shù)組存儲(chǔ)在便攜裝置中;從擁有所述便攜裝置的用戶獲取聲音樣本;分析從所述用戶獲取的所述聲音樣本,以提取所述用戶的一組拓?fù)渲笖?shù);提供讀取裝置,以從所述便攜裝置中讀取所述說話人的拓?fù)渲笖?shù)組;比較從所述便攜裝置中讀出的所述說話人的拓?fù)渲笖?shù)組和所述用戶的拓?fù)渲笖?shù)組,以確定是否匹配;以及當(dāng)匹配時(shí),確認(rèn)所述用戶是所述說話人。
      5.根據(jù)權(quán)利要求4所述的方法,進(jìn)一步包括使用磁存儲(chǔ)裝置作為所述便攜裝置。
      6.根據(jù)權(quán)利要求5所述的方法,其中,所述便攜裝置為磁卡,并且所述說話人的拓?fù)渲笖?shù)組存儲(chǔ)在所述磁卡中。
      7.根據(jù)權(quán)利要求6所述的方法,其中,所述磁卡包括存儲(chǔ)所述說話人的拓?fù)渲笖?shù)組的磁條。
      8.根據(jù)權(quán)利要求4所述的方法,其中,所述便攜裝置具有印有條形碼圖案的表面,并且所述說話人的拓?fù)渲笖?shù)組存儲(chǔ)在所述條形碼圖案中。
      9.根據(jù)權(quán)利要求4所述的方法,進(jìn)一步包括使用電子存儲(chǔ)裝置作為所述便攜裝置。
      10.根據(jù)權(quán)利要求4所述的方法,進(jìn)一步包括使用光存儲(chǔ)裝置作為所述便攜裝置。
      11.根據(jù)權(quán)利要求1所述的方法,其中,從所述說話人的聲音中提取所述拓?fù)渲笖?shù)組包括處理來自所述說話人的語音信號(hào),以獲取譜函數(shù);由所述譜函數(shù)構(gòu)建閉合三維軌道;相對于基準(zhǔn),從所述軌道獲取一組拓?fù)渲笖?shù);以及選擇所述拓?fù)渲笖?shù)的子集作為所述說話人的生物測定特征。
      12.一種方法,包括記錄和處理來自說話人的語音信號(hào);由所述語音信號(hào)計(jì)算線性預(yù)測系數(shù);由所述線性預(yù)測系數(shù)計(jì)算能譜;基于所述能譜構(gòu)建三維周期軌道;由自然基準(zhǔn)信號(hào)的能譜構(gòu)建三維周期軌道;獲得關(guān)于所述語音信號(hào)和所述自然基準(zhǔn)信號(hào)的所述周期軌道的拓?fù)湫畔?;以及使用選擇的一組拓?fù)渲笖?shù),將產(chǎn)生所述語音信號(hào)的所述說話人從具有不同拓?fù)渲笖?shù)的其他說話人中區(qū)分出來。
      13.根據(jù)權(quán)利要求12所述的方法,其中,所述拓?fù)湫畔⒂伤稣Z音信號(hào)的周期軌道與另一基準(zhǔn)軌道之間的相對旋轉(zhuǎn)速度、和/或其自身的周期軌道的旋轉(zhuǎn)速度獲得。
      14.根據(jù)權(quán)利要求12所述的方法,其中,所述拓?fù)湫畔⑼ㄟ^計(jì)算連接特性和/或自連接特性而從軌道獲得。
      15.根據(jù)權(quán)利要求12所述的方法,其中,所述拓?fù)湫畔⑼ㄟ^計(jì)算嵌入中的紐結(jié)類型而從所述軌道獲得。
      16.根據(jù)權(quán)利要求12所述的方法,其中,各個(gè)三維周期軌道相對于笛卡兒坐標(biāo)系構(gòu)建,所述三維周期軌道的軸由具有不同相位延遲的能譜定義。
      17.根據(jù)權(quán)利要求12所述的方法,其中,各個(gè)三維周期軌道相對于笛卡兒坐標(biāo)系構(gòu)建,所述三維周期軌道的軸由其他積分微分嵌入定義。
      18.根據(jù)權(quán)利要求12所述的方法,進(jìn)一步包括形成包括多個(gè)已知說話人的不同的選擇拓?fù)渲笖?shù)組的數(shù)據(jù)庫;以及將未知說話人的選擇的一組拓?fù)渲笖?shù)與所述數(shù)據(jù)庫進(jìn)行比較,以確定是否匹配。
      19.一種方法,包括提供包括已知說話人的聲紋的數(shù)據(jù)庫,其中,每個(gè)聲紋包括一組用于區(qū)分說話人和其他說話人的拓?fù)鋽?shù),并得自從所述說話人聲音的能譜獲得的周期軌道與從音頻基準(zhǔn)的能譜獲得的周期軌道之間在三維空間中的關(guān)系;以及將未知說話人的聲紋與所述數(shù)據(jù)庫進(jìn)行比較,以確定是否匹配。
      20.根據(jù)權(quán)利要求19所述的方法,其中,所述三維空間由具有不同延遲值的能譜函數(shù)定義。
      21.根據(jù)權(quán)利要求20所述的方法,其中,所述三維空間按照三維積分微分嵌入定義。
      22.一種用于從其他說話人中辨認(rèn)說話人的聲紋,包括一組有理數(shù),表征譜函數(shù)的拓?fù)涮卣鳎糜趯⒄f話人與其他說話人區(qū)分,其中,所述拓?fù)鋮?shù)得自從所述說話人的能譜獲得的周期軌道與從音頻基準(zhǔn)的能譜獲得的周期軌道之間在三維空間中的關(guān)系。
      23.一種說話人識(shí)別系統(tǒng),包括麥克風(fēng),用于從說話人接收聲音樣本;讀頭,用于從便攜存儲(chǔ)裝置中讀取表示已知說話人的有理數(shù)的聲音辨認(rèn)數(shù)據(jù);以及處理單元,連接至所述麥克風(fēng)和所述讀頭,所述處理單元可用于從來自所述說話人的所述聲音樣本中提取拓?fù)湫畔?,以從所述聲音樣本產(chǎn)生拓?fù)溆欣頂?shù),并將所述已知說話人的所述有理數(shù)與得自所述聲音樣本的所述拓?fù)溆欣頂?shù)相比較,以確定所述說話人是否為所述已知說話人。
      24.根據(jù)權(quán)利要求22所述的系統(tǒng),其中,所述讀頭為從磁便攜存儲(chǔ)裝置中讀取數(shù)據(jù)的磁讀取器。
      25.根據(jù)權(quán)利要求22所述的系統(tǒng),其中,所述讀頭為從光便攜存儲(chǔ)裝置中讀取數(shù)據(jù)的光學(xué)讀取器。
      26.根據(jù)權(quán)利要求22所述的系統(tǒng),其中,所述讀頭為從電子便攜存儲(chǔ)裝置中讀取數(shù)據(jù)的電子讀取器。
      全文摘要
      本申請的說話人識(shí)別技術(shù)使用他/她的聲音頻譜特性的拓?fù)涿枋觯瑢⑵溆米髡f話人的生物測定特征。與各種頻譜分析方法中計(jì)算從不同說話人的聲音中獲得的頻譜曲線之間的距離明顯不同,該拓?fù)涮卣魈峁┝藢ο蠛陀梢唤M有理數(shù)表示的模型之間的一一對應(yīng)關(guān)系。
      文檔編號(hào)G10L17/00GK1871639SQ200480030850
      公開日2006年11月29日 申請日期2004年8月20日 優(yōu)先權(quán)日2003年8月20日
      發(fā)明者貝爾納多·加布里埃爾·明德林, 馬科斯·阿爾貝托·特雷維桑, 曼努埃爾·卡米洛·埃吉亞 申請人:加利福尼亞大學(xué)董事會(huì), 布宜諾斯艾利斯大學(xué), 基爾梅斯國立大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1