專利名稱:說話者辨認(rèn)和確認(rèn)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及說話者識別系統(tǒng)或者類似的裝置,它將自適應(yīng)權(quán)重加入每幅語音幀內(nèi)的分量中以使語音譜歸一化,從而減少了信道效應(yīng)(channel effect)的影響。
背景技術(shù):
說話者辨認(rèn)系統(tǒng)的目標(biāo)是從發(fā)出的聲音中辨認(rèn)出語音是誰。而說話者確認(rèn)系統(tǒng)的目標(biāo)是從發(fā)出的聲音中確認(rèn)說話者聲稱的身份。說話者辨認(rèn)和確認(rèn)系統(tǒng)可以在一般的說話者識別類型中進(jìn)行定義。
已知的典型電話交換系統(tǒng)在同一對始點和終點之間經(jīng)??梢越⒉煌男诺缆窂?。由于信道效應(yīng),每條信道上的語音譜可以具有不同的形狀。此外,噪聲環(huán)境下同一說話者產(chǎn)生的語音譜與安靜環(huán)境下產(chǎn)生的語音譜相比,也可以具有不同的形狀。由于非聲道分量使語音譜發(fā)生了變化,所以對不同信道內(nèi)或者噪聲環(huán)境下的語音識別比較困難。
常規(guī)的方法是使語音譜歸一化來校正譜的形狀。美國專利No.5,001,761描述了一種對受到噪聲影響的某一頻率附近的語音進(jìn)行歸一化的裝置。語音譜按照預(yù)先確定的頻率分段。對分割的每段譜確定一條線性逼近線段并在預(yù)先確定的頻率處將逼近線段連接起來以使譜歸一化。該裝置的缺點是只對受噪聲影響的預(yù)先確定頻率的語音幀進(jìn)行歸一化而沒有采取歸一化措施來減少整段頻率范圍內(nèi)的非聲道(non-vocal tract)的影響。
美國專利No.4,926,488描述了一種考慮為伴隨語音信號的噪聲以增強(qiáng)口語輸入的方法對語音歸一化。該方法生成語音的特征矢量。特征矢量由包含多個參數(shù)的算符函數(shù)歸一化。對于歸一化的矢量確定最接近的原型矢量并改變算符函數(shù)以將歸一化矢量移動至最接近的原型。改變后的算符矢量疊加到轉(zhuǎn)換為歸一化矢量的下一特征矢量上。該方法的不足之處是沒有考慮多個頻率上的非聲道效應(yīng)。
一般的語音建模方式是模仿人類聲道部分。利用可以變換為語音段譜包絡(luò)內(nèi)峰位(頻率)和峰形(帶寬)的參數(shù),線性預(yù)測編碼(LPC)已被用來描述較短的語音段。Cepstral系數(shù)代表信號功率譜對數(shù)的傅利葉逆變換。它可以從頻率譜或者線性預(yù)測LP系數(shù)中導(dǎo)出。Cepstral系數(shù)可以用作說話者識別的主要特征。一般地,12個Cepstral系數(shù)形成一幅語音幀。
已經(jīng)發(fā)現(xiàn),在語音合成和識別中可以使用較少的Cepstral系數(shù)。美國專利No.5,165,008描述了一種使用5個Cepstral系數(shù)構(gòu)成每一個說話者獨立的數(shù)據(jù)段的語音合成方法。為了確定系數(shù)的權(quán)重因子,利用線性預(yù)測分析來確立5個一組的Cepstral系數(shù)。系數(shù)權(quán)重因子使聲道資源空間內(nèi)的每個矢量元素的非平方預(yù)測誤差最小。在每幅語音幀上采用同一系數(shù)權(quán)重因子而不考慮非聲道效應(yīng)。
因此有必要提供一種語音識別系統(tǒng),其中對語音譜進(jìn)行歸一化以在每幅語音幀上提供語音分量的自適應(yīng)權(quán)重,從而在減少非聲道效應(yīng)的同時,改善信號的聲道特征。
發(fā)明內(nèi)容
提要本發(fā)明的方法基于這樣一個事實,即語音分量譜形隨時間的變化與非聲道分量譜形隨時間的變化是不同的。已經(jīng)發(fā)現(xiàn),非聲道分量(例如信道和噪聲分量)譜的帶寬與語音分量的帶寬比較起來要寬得多。通過使寬帶分量衰減而增強(qiáng)與語音有關(guān)的窄帶分量,改善了語音的提取。改善后的語音提取可以用于高性能說話者識別裝置之類的產(chǎn)品中。
本方法涉及模擬語音信號的分析,它通過將模擬的語音信號轉(zhuǎn)換為數(shù)字形式來產(chǎn)生數(shù)字語音的連續(xù)幀。利用線性預(yù)測分析來分別分析數(shù)字語音幀,從而提取出語音譜和稱之為預(yù)測系數(shù)的一組語音參數(shù)。預(yù)測系數(shù)包含表征語音幀的分量的全極點(pole)濾波器的若干極點。譜分量可以進(jìn)行歸一化以根據(jù)其相關(guān)的帶寬增強(qiáng)突出分量的貢獻(xiàn)。自適應(yīng)分量權(quán)重用于譜分量上以增強(qiáng)與語音相關(guān)的分量并使與非話音效應(yīng)相關(guān)的分量衰減。Cepstral系數(shù)根據(jù)歸一化譜確定從而提供語音信號的增強(qiáng)特征?;谠鰪?qiáng)特征,在說話者識別系統(tǒng)中對分類作了改進(jìn)。
比較好的是,本發(fā)明的說話者識別系統(tǒng)可以用于確認(rèn)在用于信用卡交易、電話付費卡交易和計算機(jī)網(wǎng)絡(luò)訪問的電話系統(tǒng)中的通話人身份。此外,說話者識別系統(tǒng)可以用于聲控門鎖、汽車聲控引擎和聲控計算機(jī)系統(tǒng)中。借助以下附圖可以進(jìn)一步理解本發(fā)明。
附圖的簡要說明
圖1為系統(tǒng)訓(xùn)練期間本發(fā)明系統(tǒng)的流程圖;圖2為評價期間本發(fā)明系統(tǒng)的流程圖;圖3為用于特征提取和特征增強(qiáng)時本發(fā)明方法的流程圖;圖4為未進(jìn)行自適應(yīng)分量權(quán)重濾波的已有技術(shù)語音譜的曲線圖;圖5為帶自適應(yīng)分量權(quán)重濾波的圖4所示語音譜的曲線圖;圖6A為未進(jìn)行自適應(yīng)分量權(quán)重濾波的語音譜;圖6B為進(jìn)行了自適應(yīng)分量權(quán)重濾波的語音譜;圖7為進(jìn)行和未進(jìn)行自適應(yīng)分量權(quán)重濾波的語音譜的比較;圖8為傳遞函數(shù)(1-0.9z-1)的移動平均(FIR)濾波器的響應(yīng)。
實施發(fā)明的詳細(xì)描述在描述期間,各圖中相似的部分用相同的標(biāo)號表示。
圖1表示系統(tǒng)訓(xùn)練期間語音識別系統(tǒng)10的流程圖。語音訓(xùn)練輸入信號被加載到模數(shù)轉(zhuǎn)換器11上以提供連續(xù)的數(shù)字語音幀。特征提取模塊12接收數(shù)字語音幀。特征提取模塊12獲取了數(shù)字語音幀的特性參數(shù)。對于說話者識別來說,特征提取模塊12提取的特征對語音是唯一的,從而能夠進(jìn)行合適的說話者識別。
特征增強(qiáng)模塊14對特征提取模塊12中提取的特征起著增強(qiáng)的作用。特征增強(qiáng)模塊14還將提取的特征數(shù)減少到說話者識別所需的數(shù)量。在塊16中對增強(qiáng)特征進(jìn)行了分類。比較好的是,可以借助普通的矢量量化技術(shù)進(jìn)行分類,為每個說話者生成通用碼本。也可以利用多層感知模型、神經(jīng)網(wǎng)絡(luò)模型、徑向基函數(shù)網(wǎng)絡(luò)模型和隱馬爾柯夫模型進(jìn)行分類。應(yīng)當(dāng)注意到的是,可以結(jié)合本發(fā)明的原理采用本領(lǐng)域內(nèi)其它的分類方法進(jìn)行分類。
在圖2中,說話者識別系統(tǒng)用于說話者辨認(rèn)或確認(rèn)。語音評價輸入信號在模數(shù)轉(zhuǎn)換器11中進(jìn)行數(shù)字化并加載到特征提取模塊12中。語音輸入信號的增強(qiáng)特征在模板匹配模塊18處接收。模板匹配模塊18確定出與通用碼本或者典型分類系統(tǒng)中最接近的匹配,從而確定語音的身份或者確認(rèn)語音是否為通用碼本中相應(yīng)的人。圖3表示實現(xiàn)特征提取塊12和特征增強(qiáng)塊14的較佳實施例的流程圖。語音幀s(k)可以用調(diào)制模型(MM)來表示。調(diào)制模型(MM)包括表示調(diào)幅(AM)和調(diào)頻(FM)分量及其數(shù)量N的參數(shù)。語音幀可以用下式表示s(k)=Σi=1NAi(k)cos(φi(k))+η(k)--(100)]]>其中Ai(k)為第i個分量的幅度調(diào)制,φI(k)是第i個分量的瞬時相位,而η(k)是建模誤差。
幅度調(diào)制分量Ai(k)和瞬時相位分量φ(k)一般是窄帶信號。可以利用線性預(yù)測分析來確定基音周期內(nèi)的調(diào)制函數(shù)以獲得Ai(k)=|Gi|e-BiK(102)和φ(k)=ωiK+θi(104)其中,Gi是分量增益,Bi是帶寬,ωi是中心頻率而θi是相對延遲。
語音信號s(k)加載到塊110上以獲取線性預(yù)測編碼(LPC)系數(shù)。利用以下的方程可以定義用于語音信號的LP多項式A(z)A(z)=1+Σi=1paiz-i--(106)]]>其中ai是線性預(yù)測系數(shù)而P是系數(shù)的階數(shù)。
在線性預(yù)測編碼分析中,聲道的傳遞函數(shù)可以利用時變的全極點濾波器(timevaring all polefilter)建模,第P階LP分析由下式給出H(z)=1A(z)=11+Σi=1pajz-i--(108)]]>A(z)的根在塊112中用LP多項式A(z)的根的因式分解確定A(z)=Πi=1p(1-ziz-1)--(110)]]>其中zi是多項式A(z)的根而P為LP多項式的階數(shù)。LP多項式的根通常為位于復(fù)數(shù)z平面上離原點徑向距離近似為1的復(fù)根。
在塊114中確定一個新的變換函數(shù)H(z)以使對應(yīng)非聲道效應(yīng)的寬帶分量衰減而增強(qiáng)對應(yīng)語音的窄帶分量。
可以用部分分式展開式表示(平行于方程108)H^(z)=1A(z)=Σi=1pri(1-ziz-1)--(112)]]>其中殘差ri代表分量(1-ziz-1)對函數(shù) 的貢獻(xiàn)。殘差ri表示分量i的相對增益和相位,可定義為合成譜的譜傾角(spectral tilt)。
已經(jīng)發(fā)現(xiàn),帶寬較寬的譜分量對應(yīng)于非聲道分量并具有較大的殘差值。
殘差ri的歸一化使譜中每個分量i的貢獻(xiàn)與帶寬呈比例關(guān)系。通過將ri設(shè)定為參數(shù)(例如單位量)完成殘差的歸一化。例如,如果ri設(shè)定為單位量,則i分量的貢獻(xiàn)近似等于11-|zi|--(113)]]>等價于方程式1Bi--(114)]]>由方程式114可以看到,每個分量i的貢獻(xiàn)反比于它的帶寬Bi并且如果分量i具有較大的帶寬,則方程式114的數(shù)值較小。ri的歸一化可以定義為根據(jù)帶寬加于每幅語音幀的譜分量的自適應(yīng)分量權(quán)重(ACW)。
基于以上發(fā)現(xiàn),在ACW基礎(chǔ)上的使非聲道分量衰減而使語音分量增強(qiáng)的新的傳遞函數(shù)表示如下H^(z)=Σi=1p1(1-ziz-1)--(115)]]>方程式115表明, 不是一個全極點傳遞函數(shù)。 包含使信號語音分量貢獻(xiàn)歸一化的第P-1階移動平均分量(MA)。
在現(xiàn)有技術(shù)中,如M.R.Schroeder在“cepstrals與預(yù)測器系數(shù)之間的直接(非遞歸)關(guān)系”(Proc.IEEE 29297-301,1981.4)一文中所描述的那樣,cepstral系數(shù)被用作譜信息。cepstral系數(shù)可以用相對cepstral指數(shù)歸一化的極點冪之和的下列關(guān)系式來定義ln(1A(z))=Σn=1cnz-n--(116)]]>其中cn是cepstral系數(shù)。
cepstral系數(shù)cn可以借助方程式(106)定義的LP多項式A(z)的根來表示cn=1nΣi=1Fzi--(117)]]>已知預(yù)測系數(shù)ai為實數(shù)。方程式106定義的LP多項式A(z)的根為實數(shù)或者為共軛復(fù)數(shù)對。LP多項式A(z)的每個根與中心頻率ω和帶寬Bi存在如下關(guān)系Zi=e-Bi+jωi--(118)]]>中心頻率ωi和帶寬Bi可以表示為ωi=arctanIm(zi)Re(zi)--(12)]]>其中Im(zi)是虛根而Re(zi)是實根并且Bi=-ln|zi|(122)將方程式118代入方程式117得到語音信號s(k)的cepstral系數(shù),它們可以表示如下cn=1nΣi=1Pe-Bjncos(ωin)--(124)]]>其中第n個ceptral系數(shù)cn為MM參數(shù)的非線性變換。Quefrency指數(shù)n對應(yīng)于方程式100中相對延遲φi設(shè)定為零而相對增益Gi設(shè)定為單位量時的時間變量k。
在塊116中可以從新的傳遞函數(shù)H(z)確定出譜信道和傾角濾波器N(z)。N(z)為表示語音譜信道和譜傾角的LP多項式,可以定義如下N(z)=1+Σi=1P-1biZ-1--(126)]]>其中b表示線性預(yù)測系數(shù)而P為多項式的階數(shù)。對信號的語音分量進(jìn)行歸一化的FIR濾波器可以定義如下H^(z)=N(z)A(z)--(128)]]>將方程式126定義的LP多項式N(z)和由方程式110定義的A(z)因式分解得到如下定義的新的傳遞函數(shù) H^(z)=N(z)A(z)=Πi-1P-1(1-z^iz-1)Πi-1P(1-ziz-1)--(130)]]>其中 為方程式126定義的LP多項式的根。
通過歸一化cepstrum, 可以用下式表示具有自適應(yīng)分量權(quán)重(ACW)的譜c^(n)=1n(Σi=1Pzin-Σi=1P-1zin)--(132)]]>對于每幅語音幀,在塊118中計算歸一化的cepstrum 。歸一化的cepstrum使非聲道分量衰減而使普通cepstral譜的語音分量增強(qiáng)。從塊118確定的歸一化cepstral譜可以用于分類塊16或者模板匹配塊18。
圖4表示了對于在由傳遞函數(shù)H(z)得到的信道上的用已有技術(shù)對說話者的語音譜所進(jìn)行的分解。標(biāo)號為1-4的分量表示聲道的共振。共振峰位于標(biāo)號為ωrω4的中心頻率處。每個共振的帶寬分別為B1-B4。標(biāo)號為5和6的分量表示非聲道效應(yīng)。圖4表示代表非聲道效應(yīng)的帶寬B5、B6遠(yuǎn)大于語音分量的帶寬B1-B4。
圖5表示圖4所示語音譜在施行自適應(yīng)分量權(quán)重傳遞函數(shù) 后的分解。在圖5中,分量1-4的峰值得到了增強(qiáng)而分量5和6的峰值發(fā)生了衰減。
圖6A表示已有技術(shù)中包含聲道和非聲道分量的語音信號譜。圖6B表示經(jīng)過自適應(yīng)分量權(quán)重濾波器作用后的語音信號譜。圖6B將峰位1-4歸一化為近似30db左右的值,從而增強(qiáng)了信號的語音分量。
圖7表示用于圖6B中語音譜的由N(z)定義的移動平均濾波器的響應(yīng)。
圖8表示由傳遞函數(shù)H(z)確定的譜與新的傳遞函數(shù) 確定的譜的比較。傳遞函數(shù)H(z)包括信道效應(yīng),而傳遞函數(shù) 則施加自適應(yīng)分量權(quán)重以使信道效應(yīng)衰減。
完成的是與文本獨立的說話者分辨認(rèn)實例。采用了代表38個同一方言(新英格蘭口音)語音的DARPA TIMIT數(shù)據(jù)庫的子集。每個語音完成10個發(fā)音,每個發(fā)音的平均持續(xù)時間為3秒。在塊16中采用5個發(fā)音來訓(xùn)練系統(tǒng)10并在塊18中用5個發(fā)音來進(jìn)行評估。從傳遞函數(shù)H(z)得到的第一組cepstral特征與從自適應(yīng)分量權(quán)重傳遞函數(shù) 得到的第二組cepstral特征進(jìn)行了比較。
進(jìn)行訓(xùn)練和測試時的語音信號中沒有信道效應(yīng)。由H(z)得到第一組cepstral特征與由 得到的第二組cepstral特征具有相同的識別率,都為93%。
用包含信道效應(yīng)的語音信號進(jìn)行訓(xùn)練和測試,采用傳遞函數(shù)(1-0.9z-1)來模擬信道。由H(z)得到第一組cepstral特征的識別率為50.1%。而由 得到的第二組cepstral特征的識別率為74.7%。利用自適應(yīng)分量權(quán)重確定的cepstral特征,識別率提高了24.6%。
本發(fā)明的優(yōu)點在于通過改善語音信號的特征,提高了信道上的說話者識別率。語音信號的非聲道分量衰減下來而聲道分量得到了增強(qiáng)。本發(fā)明比較好的是用于電話系統(tǒng)或者噪聲環(huán)境下的說話者識別。
雖然借助實施例對本發(fā)明作了闡述,但是這些描述并非是限制性的。對于本領(lǐng)域內(nèi)的技術(shù)人員來說,可以在不偏離本發(fā)明的精神和范圍的前提下對本發(fā)明作出各種改動。
權(quán)利要求
1.一種說話者識別的方法,其特征在于包含以下步驟將話音解析為第一譜信息;將權(quán)重施加到根據(jù)所述第一譜信息得到的預(yù)先確定的分量上以產(chǎn)生歸一化的第二譜;以及通過計算所述第二譜與事先由多人語音生成的多個語音模式的相似程度來識別所述第二譜。
2.如權(quán)利要求1所述的方法,其特征在于,所述話音的解析是通過將所述話音分割為多幅幀來進(jìn)行的,每幀具有預(yù)先確定的時間間隔并通過線性預(yù)測分析獲得每個所述話音的LPC系數(shù)。
3.如權(quán)利要求2所述的方法,其特征在于,在第一預(yù)先確定的分量上施加第一權(quán)重而在第二預(yù)先確定的分量上施加第二權(quán)重。
4.如權(quán)利要求3所述的方法,其特征在于,所述第一權(quán)重使所述第一分量增加而所述第二權(quán)重使所述第二分量衰減。
5.如權(quán)利要求4所述的方法,其特征在于,對于每個所述幀都確定所述第一和第二權(quán)重。
6.如權(quán)利要求5所述的方法,其特征在于所述第二分量具有較寬的帶寬。
7.如權(quán)利要求6所述的方法,其特征在于所述第一和第二權(quán)重的確定步驟如下確定所述LPC系數(shù)的根,每個所述的根包括一個殘差分量;以及對每個所述的根的所述殘差分量進(jìn)行歸一化。
8.如權(quán)利要求7所述的方法,其特征在于所述第二譜由下來變換定義H^(z)=Σi=1p1(1-ziz-1)]]>其中P是解析的階數(shù),而zi是代表所述話音的帶寬和頻率的復(fù)數(shù)根。
9.如權(quán)利要求8所述的方法,其特征在于進(jìn)一步包含以下步驟對于所述第二語音譜確定歸一化的cepstrum。
10.如權(quán)利要求9所述的方法,其特征在于所述cepstrum由下式定義C^(n)=1n(Σi=1pzin-Σi=1p-1z^in)]]>其中P是系數(shù)的數(shù)量,而zi是所述第二譜的復(fù)數(shù)根。
11.如權(quán)利要求10所述的方法,其特征在于進(jìn)一步包含以下步驟在系數(shù)裝置中將所述第二譜存儲為所述多個語音模式。
12.如權(quán)利要求11所述的方法,其特征在于進(jìn)一步包含以下步驟通過將所述第二譜與分類裝置中所述的存儲第二譜進(jìn)行匹配來確定所述第二譜與所述語音模式的相似程度。
13.一種說話者識別系統(tǒng),其特征在于包含將語音信號轉(zhuǎn)換為多個數(shù)字語音幀的裝置;將所述數(shù)字語音轉(zhuǎn)換為一系列第一譜參數(shù)的語音參數(shù)提取裝置;將自適應(yīng)權(quán)重施加到所述第一譜參數(shù)上以生成歸一化的第二譜的語音參數(shù)增強(qiáng)裝置;以及確定所述第二譜與由說話人預(yù)先生成的多個語音樣本的相似程度的評價裝置。
14.如權(quán)利要求13所述的系統(tǒng),其特征在于所述多個語音樣本由所述第二譜生成。
15.如權(quán)利要求14所述的系統(tǒng),其特征在于所述第一譜通過一個全極點LPC濾波器對所述語音信號進(jìn)行濾波后生成。
16.如權(quán)利要求15所述的系統(tǒng),其特征在于所述語音信號包括聲道和非聲道分量,其中所述語音參數(shù)增強(qiáng)裝置包括使所述非聲道分量衰減而增強(qiáng)所述聲道分量的移動平均濾波裝置。
17.如權(quán)利要求16所述的系統(tǒng),其特征在于所述系統(tǒng)進(jìn)一步包含對所述多個語音樣本量化的矢量量化裝置;以及在碼本中存儲所述量化樣本的裝置。
18.如權(quán)利要求17所述的系統(tǒng),其特征在于所述評價裝置包含模板匹配裝置,它通過將所述第二譜與所述碼本中的所述樣本匹配來確定所述第二譜與所述多個語音樣本的相似程度。
19.如權(quán)利要求18所述的系統(tǒng),其特征在于所述第二譜是如下定義的歸一化cepstrum C^(n)=1n(Σi=1pzin-Σi=1p-1z^in)]]>
全文摘要
本發(fā)明涉及語音識別方法及其系統(tǒng),它將自適應(yīng)分量權(quán)重施加到每幅語音幀以使非聲道分量衰減而對語音分量進(jìn)行歸一化。采用線性預(yù)測全極點模型來構(gòu)成包含移動平均分量的新的傳遞函數(shù)。從新的傳遞函數(shù)確定歸一化譜。歸一化譜改善了語音分量的特性,由此改善了信道上的語音識別。
文檔編號G10L15/10GK1142274SQ95191853
公開日1997年2月5日 申請日期1995年2月28日 優(yōu)先權(quán)日1994年2月28日
發(fā)明者R·J·麥蒙, K·T·阿薩爾 申請人:拉脫格斯大學(xué)