一種基于聯(lián)合因子分析模型的移動(dòng)設(shè)備聲紋識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于聯(lián)合因子分析模型的移動(dòng)設(shè)備聲紋識(shí)別方法,包括背景模型庫(kù)訓(xùn)練、用戶聲紋模型訓(xùn)練(說(shuō)話人訓(xùn)練)和聲紋確認(rèn)(說(shuō)話人確認(rèn))三大部分,并采用聯(lián)合因子分析模型構(gòu)建說(shuō)話人空間、信道空間和殘差空間三個(gè)子空間,利用聯(lián)合因子分析模型技術(shù),將聲紋識(shí)別系統(tǒng)移植到移動(dòng)設(shè)備端,使其成為一款可代替密碼的身份確認(rèn)應(yīng)用產(chǎn)品。本發(fā)明對(duì)聲紋識(shí)別在移動(dòng)端應(yīng)用的短板不足進(jìn)行補(bǔ)充和改進(jìn),對(duì)說(shuō)話人識(shí)別中的易變性干擾,包括信道易變性和會(huì)話易變性進(jìn)行估計(jì)和補(bǔ)償,使用戶可以通過(guò)較短的語(yǔ)音進(jìn)行訓(xùn)練和識(shí)別,并在不同背景環(huán)境下也能取得良好的識(shí)別效果。
【專利說(shuō)明】一種基于聯(lián)合因子分析模型的移動(dòng)設(shè)備聲紋識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明公開了一種基于聯(lián)合因子分析模型的移動(dòng)設(shè)備聲紋識(shí)別方法,涉及聲紋識(shí)別【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著模式識(shí)別技術(shù)的發(fā)展突破和電子設(shè)備運(yùn)算速度和性能的提高,生物信息識(shí)別技術(shù)近年來(lái)在用戶身份確認(rèn)領(lǐng)域中得到了飛速的發(fā)展。相較于傳統(tǒng)的密碼和PIN碼具有容易被竊取和復(fù)制的硬傷,生物信息(指紋、聲紋等)對(duì)于每一個(gè)用戶來(lái)說(shuō)都具有唯一性,并且極難竊取復(fù)制。指紋識(shí)別由于其穩(wěn)定、不易變化、不受外界條件影響等優(yōu)點(diǎn),已經(jīng)被廣泛的應(yīng)用在了打卡器和手持設(shè)備等電子產(chǎn)品中。聲紋識(shí)別技術(shù)也被應(yīng)用在了保險(xiǎn)箱解鎖、聲控門鎖和高檔轎車發(fā)動(dòng)機(jī)啟動(dòng)確認(rèn)等領(lǐng)域。但在移動(dòng)設(shè)備上,尤其是智能手機(jī)端,聲紋識(shí)別在實(shí)用化過(guò)程中仍然有許多問(wèn)題需要解決,主要有以下因素:
[0003]1.考慮到效率和便捷等因素,用戶用作訓(xùn)練模型的語(yǔ)音不能多于30s,識(shí)別時(shí)的語(yǔ)音不能多于10s,這就帶來(lái)訓(xùn)練數(shù)據(jù)不足的問(wèn)題。
[0004]2.手機(jī)設(shè)備的易變性。由于不同型號(hào)智能手機(jī)的音頻處理芯片和算法的差異,讀取的音頻質(zhì)量會(huì)有差別。
[0005]3.傳輸信道的易變性。由于蜂窩通信和VOIP等傳輸語(yǔ)音的技術(shù)對(duì)于語(yǔ)音的編解碼方式存在差異等。傳輸信道對(duì)語(yǔ)音的質(zhì)量也有一定程度的畸變和損傷。
[0006]4.背景環(huán)境的易變性。由于移動(dòng)設(shè)備采集語(yǔ)音的地點(diǎn)無(wú)法固定。密閉環(huán)境、車廂、機(jī)場(chǎng)、戶外等,語(yǔ)音不可避免地會(huì)攜帶背景環(huán)境的信息,對(duì)聲紋模型(說(shuō)話人模型)會(huì)有不同程度的影響。
[0007]5.聲紋的差異。同一用戶,說(shuō)話時(shí)的語(yǔ)氣、感情、說(shuō)話的內(nèi)容和語(yǔ)種的不同也會(huì)對(duì)說(shuō)話人模型帶來(lái)影響。
[0008]以上這些因素統(tǒng)稱為說(shuō)話人識(shí)別中的易變性(variability)干擾,其中,2、3、4統(tǒng)稱為信道易變性(channel variability), 5 稱為會(huì)話易變性(session variability)。
[0009]為了降低和消除以上這些干擾對(duì)聲紋識(shí)別系統(tǒng)性能的影響,Patrick Kenny等研究者提出了一種在傳統(tǒng)的GMM-UBM (高斯混合模型-通用背景噪聲模型)聲紋識(shí)別系統(tǒng)基礎(chǔ)上的改進(jìn)模型算法,稱為聯(lián)合因子分析(Joint Factor Analysis, JFA),如圖1所示。該方法在NIST2008說(shuō)話人識(shí)別評(píng)比中取得了最優(yōu)的成績(jī),并且能夠有效處理易變性對(duì)聲紋模型帶來(lái)的干擾。
[0010]JFA模型是一種兩層模型,基于經(jīng)典的GMM-UBM框架。傳統(tǒng)的GMM-UBM模型已經(jīng)驗(yàn)證,不同聲紋模型的差異只在于每個(gè)高斯的均值向量,而每個(gè)高斯模型的權(quán)重和方差都可以直接來(lái)源于UBM的取值。傳統(tǒng)的UBM-GMM模型拋棄了訓(xùn)練語(yǔ)音中大量的信道信息和會(huì)話信息。而JFA模型構(gòu)建了三個(gè)子空間:說(shuō)話人空間、信道空間和殘差空間,最終的高斯均值向量表征為:
[0011]
【權(quán)利要求】
1.一種基于聯(lián)合因子分析模型的移動(dòng)設(shè)備聲紋識(shí)別方法,其特征在于:包括背景模型庫(kù)訓(xùn)練、用戶聲紋模型訓(xùn)練和聲紋確認(rèn)三部分,并采用聯(lián)合因子分析模型構(gòu)建說(shuō)話人空間、信道空間和殘差空間三個(gè)子空間;所述聯(lián)合因子分析模型的高斯均值向量表征為:
Mki — mk+Ukxi+VkY s (i) +Dkzks (i) 其中,k代表第k個(gè)高斯模型,i代表某一個(gè)語(yǔ)音段,s(i)表不說(shuō)話人s的某一語(yǔ)音段,mk表示獨(dú)立于說(shuō)話人和會(huì)話內(nèi)容的均值向量,Uk特征信道矩陣,Vk表示特征說(shuō)話人矩陣,Dk表示殘差空間矩陣;Xi表示信道因子向量,ys(i)表示依賴于說(shuō)話人的聲紋因子向量,zksW表示依賴于說(shuō)話人和單個(gè)高斯模型的殘差因子向量; 所述背景模型庫(kù)訓(xùn)練、用戶聲紋模型訓(xùn)練和聲紋確認(rèn),具體如下: 一、背景模型庫(kù)訓(xùn)練包括以下步驟: (1)采集移動(dòng)設(shè)備端的語(yǔ)料作為訓(xùn)練數(shù)據(jù); (2)對(duì)采集的語(yǔ)料進(jìn)行平衡性分析,保持語(yǔ)音的長(zhǎng)度相似,保證信道易變性和會(huì)話易變性的平衡; (3)對(duì)步驟(2)處理后的語(yǔ)料進(jìn)行前端預(yù)處理,包括: (301)將語(yǔ)音信號(hào)分段加窗后 經(jīng)過(guò)計(jì)算得出梅爾幅倒譜系數(shù)的特征參數(shù)流; (302)以特征參數(shù)流數(shù)據(jù)訓(xùn)練通用背景模型(UBM); (303)將每一個(gè)語(yǔ)料利用最大后驗(yàn)準(zhǔn)則將其自適應(yīng)到說(shuō)話人模型上,再用構(gòu)建特征音空間的方法對(duì)表征特定說(shuō)話人模型的參數(shù)進(jìn)行降維處理; (304)通過(guò)稀疏數(shù)據(jù)的EM算法最大化所有訓(xùn)練數(shù)據(jù)中的整體似然度,針對(duì)所有說(shuō)話人的語(yǔ)音段求統(tǒng)計(jì)量,構(gòu)建特征說(shuō)話人矩陣Vk ; (4)構(gòu)建特征信道矩陣Uk,針對(duì)語(yǔ)料中某個(gè)固定說(shuō)話人的語(yǔ)音段求統(tǒng)計(jì)量,特征信道矩陣的維度固定為移動(dòng)設(shè)備端型號(hào)類型的數(shù)量; (5)構(gòu)建殘差空間矩陣Dk,完善移動(dòng)設(shè)備端的聲紋識(shí)別背景模型庫(kù)建; 二、用戶聲紋模型訓(xùn)練包括: 用戶由移動(dòng)設(shè)備端向服務(wù)器端上傳一段訓(xùn)練語(yǔ)音,移動(dòng)設(shè)備端對(duì)訓(xùn)練語(yǔ)音進(jìn)行預(yù)處理:服務(wù)器端對(duì)訓(xùn)練語(yǔ)音所對(duì)應(yīng)的聲紋模型進(jìn)行訓(xùn)練和識(shí)別,服務(wù)器端接收到訓(xùn)練語(yǔ)音后,通過(guò)最大似然的辦法訓(xùn)練模型,對(duì)信道因子向量X1、依賴于說(shuō)話人的聲紋因子向量ys(i)、依賴于說(shuō)話人和單個(gè)高斯模型的殘差因子向量zks(i)進(jìn)行最大后驗(yàn)概率估計(jì),其中,ys(i)用以表征該移動(dòng)設(shè)備端所對(duì)應(yīng)的用戶的特征向量,Xi和zks(i)用以補(bǔ)償信道易變性和會(huì)話易變性的干擾; 服務(wù)器端為移動(dòng)設(shè)備端所對(duì)應(yīng)的用戶建立用戶聲紋模型,并將用戶聲紋模型返回到用戶的移動(dòng)設(shè)備端,用戶再上傳一段測(cè)試語(yǔ)音至服務(wù)器端作為測(cè)試,并在服務(wù)器端進(jìn)行T-Norm和Z-Norm分?jǐn)?shù)規(guī)整,用以放大用戶和其他人的分?jǐn)?shù)區(qū)別,以此來(lái)設(shè)定門限值; 三、聲紋確認(rèn)包括: 用戶輸入自己的一段解鎖語(yǔ)音至移動(dòng)設(shè)備,移動(dòng)設(shè)備端進(jìn)行前端預(yù)處理之后將用戶解鎖語(yǔ)音信息發(fā)到服務(wù)器端,服務(wù)器端采用通用背景模型作為說(shuō)話人的特征向量,使用用戶的解鎖語(yǔ)音對(duì)殘差因子向量zks(i)和信道因子向量Xi進(jìn)行估計(jì),將估計(jì)后的參數(shù)與該移動(dòng)設(shè)備對(duì)應(yīng)的注冊(cè)用戶的特征向量ys(i)進(jìn)行結(jié)合,計(jì)算解鎖語(yǔ)音對(duì)應(yīng)的分?jǐn)?shù); 如果分?jǐn)?shù)高于步驟二得到的門限值則確認(rèn)用身份,解鎖移動(dòng)設(shè)備的使用權(quán)限,如果分?jǐn)?shù)低于步驟二得到的門限值則拒絕解鎖移動(dòng)設(shè)備。
2.如權(quán)利要求1所述的一種基于聯(lián)合因子分析模型的移動(dòng)設(shè)備聲紋識(shí)別方法,其特征在于:所述移動(dòng)設(shè)備端為手機(jī)或平板電腦。
3.如權(quán)利要求1所述的一種基于聯(lián)合因子分析模型的移動(dòng)設(shè)備聲紋識(shí)別方法,其特征在于:在進(jìn)行用戶聲紋模型訓(xùn)練時(shí),用戶由移動(dòng)設(shè)備端向服務(wù)器端上傳的訓(xùn)練語(yǔ)音長(zhǎng)度大于30秒。
4.如權(quán)利要求1所述的一種基于聯(lián)合因子分析模型的移動(dòng)設(shè)備聲紋識(shí)別方法,其特征在于:在進(jìn)行用戶聲紋模型訓(xùn)練時(shí),用戶由移動(dòng)設(shè)備端向服務(wù)器端上傳的測(cè)試語(yǔ)音長(zhǎng)度為10秒。
5.如權(quán)利要求1所述的一種基于聯(lián)合因子分析模型的移動(dòng)設(shè)備聲紋識(shí)別方法,其特征在于:在進(jìn)行用戶聲紋確認(rèn)時(shí),用戶輸入的 解鎖語(yǔ)音長(zhǎng)度為5秒至10秒。
【文檔編號(hào)】G10L15/30GK103730114SQ201310751242
【公開日】2014年4月16日 申請(qǐng)日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】李為, 朱杰, 姚國(guó)勤, 錢傳根, 杭樂(lè) 申請(qǐng)人:上海交通大學(xué)無(wú)錫研究院