一種雙模語音身份識別方法
【專利摘要】本發(fā)明公開了一種雙模語音身份識別方法,應(yīng)用于包括聲音采集裝置和信息處理裝置的身份識別系統(tǒng),所述的系統(tǒng)還包括語音密碼特征庫和聲紋特征庫,將密碼識別和聲紋識別集成到一個身份識別系統(tǒng)。本發(fā)明的技術(shù)效果:本發(fā)明提出基于孤立詞識別即密碼識別和說話人識別即聲紋識別的雙模語音身份鑒別方法,在不大量增加計算量的前提下,大大提高了以單一說話人聲紋特征識別的鑒別系統(tǒng)的穩(wěn)定性,增加了這類系統(tǒng)的實用價值,提高了識別系統(tǒng)安全性。通過雙重判定,能夠在一定程度上克服由于模仿導(dǎo)致的說話人識別系統(tǒng)誤判的缺點(diǎn),又能克服單一語音密碼鑒別系統(tǒng)密碼容易泄露的缺點(diǎn)。
【專利說明】一種雙模語音身份識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別技術(shù),具體涉及一種雙模語音身份識別方法。
【背景技術(shù)】 [0002]說話人識別是指使用機(jī)器算法從一段語音信號提取獨(dú)特的特征信息,由此識別出說話人的身份。該技術(shù)主要用于基于語音的身份確認(rèn)、語音偵聽、法庭證物鑒定等。說話人識別的方法主要包括矢量量化(VQ)、支持向量機(jī)(SVM)、高斯混合模型(GMM)等。其中,VQ及其改進(jìn)算法較為簡單,且性能表現(xiàn)良好,在說話人識別中一直廣泛應(yīng)用。
[0003]目前,基于說話人識別的身份確認(rèn)技術(shù)已經(jīng)開始運(yùn)用到智能門禁系統(tǒng)中來。但是,由于語音信號的不確定性以及人聲的可模仿性,單純基于說話人特征的識別系統(tǒng)很難在實際的應(yīng)用中保持良好的魯棒性。
【發(fā)明內(nèi)容】
[0004]考慮到孤立詞識別在對單詞和短語識別上出色的性能,本發(fā)明提供了一種以單詞或者短語為語音密碼,將其識別作為身份識別系統(tǒng)的判別元素之一,然后結(jié)合說話人聲紋特征進(jìn)行身份權(quán)限判定。
[0005]本發(fā)明解決上述技術(shù)問題的方案是:一種雙模語音身份識別方法,應(yīng)用于包括聲音采集裝置和信息處理裝置的身份識別系統(tǒng),所述的系統(tǒng)還包括語音密碼特征庫和聲紋特征庫,包括如下步驟:
步驟1,用戶對聲音采集裝置說出輸入語音,采集裝置采集該輸入語音;
步驟2,密碼識別,采集裝置將采集的輸入語音輸入信息處理裝置,所述的信息處理裝置將所述輸入語音與語音密碼特征庫進(jìn)行模板匹配,計算得到匹配距離;
步驟3,聲紋識別,所述的信息處理裝置將所述的輸入語音進(jìn)行聲紋特征提取,并對提取的聲紋特征與聲紋特征庫進(jìn)行歐式距離計算;
步驟4,將密碼識別和聲紋識別所得的結(jié)果結(jié)合,如果密碼識別和聲紋識別的結(jié)果一致,則判定說話者身份確認(rèn)有效;否則,認(rèn)為身份鑒別失敗。
[0006]本發(fā)明還包括以下改進(jìn)方案:
所述的語音密碼特征由用戶在使用前經(jīng)聲音采集裝置錄入語音信號,所述錄入的語音信號由信息處理裝置進(jìn)行預(yù)處理并提取語音密碼特征,對符合要求的語音密碼特征保存至語音密碼特征庫。
[0007]所述的聲紋特征由用戶在使用前經(jīng)聲音采集裝置錄入語音信號,所述錄入的語音信號由信息處理裝置進(jìn)行預(yù)處理并提取聲紋特征,對提取的聲紋特征進(jìn)行LBG算法進(jìn)行矢量量化,量化后的聲紋特征即為用戶碼本,所述碼本保持至聲紋特征庫。
[0008]所述的預(yù)處理包括對語音信號進(jìn)行預(yù)加重處理,所述的預(yù)加重的形式如下:
Jr(Jl) — xQl} -12x(Jc—IX Ar —
所述的β力預(yù)加重系數(shù),取值為0.90-0.98。[0009]所述的預(yù)加重處理由一階零點(diǎn)數(shù)字濾波器實現(xiàn),所述濾波器頻域?qū)?yīng)的形式是
Jff(Z)=I 瓜1。
[0010]所述的預(yù)處理還包括對預(yù)加重后的語音信號進(jìn)行分幀加窗處理,所述的分幀加窗處理包括將預(yù)加重后的語音信號分成每幀10-30ms短時語音信號,并對每幀語音信號加上hamming 窗。
[0011]所述的預(yù)處理還包括對分幀后的語音進(jìn)行端點(diǎn)檢測,所述端點(diǎn)檢測完成后對語音信號進(jìn)行MFCC特征提取,生產(chǎn)語音密碼特征庫。
[0012]所述的預(yù)處理依次包括預(yù)加重、分幀加窗和端點(diǎn)檢測。
[0013]本發(fā)明的技術(shù)效果:
本發(fā)明提出基于孤立詞識別即密碼識別和說話人識別即聲紋識別的雙模語音身份鑒別方法,在不大量增加計算量的前提下,大大提高了以單一說話人聲紋特征識別的鑒別系統(tǒng)的穩(wěn)定性,增加了這類系統(tǒng)的實用價值,提高了識別系統(tǒng)安全性。通過雙重判定,能夠在一定程度上克服由于模仿導(dǎo)致的說話人識別系統(tǒng)誤判的缺點(diǎn),又能克服單一語音密碼鑒別系統(tǒng)密碼容易泄露的缺點(diǎn)。
[0014]
【專利附圖】
【附圖說明】
[0015]圖1本發(fā)明的總流程圖。
[0016]圖2孤立詞識別流程框圖。
[0017]圖3說話人識別流程框圖。
【具體實施方式】
[0018]本發(fā)明公開了一種雙模語音身份識別方法,應(yīng)用于包括聲音采集裝置和信息處理裝置的身份識別系統(tǒng),所述的系統(tǒng)還包括語音密碼特征庫和聲紋特征庫,將密碼識別和聲紋識別集成到一個身份識別系統(tǒng),提高了以單一說話人聲紋特征識別的鑒別系統(tǒng)的穩(wěn)定性,增加了這類系統(tǒng)的實用價值,提高了識別系統(tǒng)安全性。
[0019]請參閱圖1為本發(fā)的總流程圖。
[0020]步驟101,用戶對聲音采集裝置說出輸入語音,采集裝置采集該輸入語音;
步驟102,信息處理裝置對輸入語音進(jìn)行信號的預(yù)處理;
步驟103,對預(yù)處理完成后的信號進(jìn)行端點(diǎn)檢測;
步驟104,進(jìn)一步的對信號進(jìn)行特征提取,所述的特征包括密碼特征和聲紋特征;
步驟105A,所述的信息處理裝置將所述處理后的輸入語音的密碼特征與語音密碼特征庫進(jìn)行模板匹配,計算得到匹配距離;
步驟105B,所述的信息處理裝置將所述處理后的輸入語音的聲紋特征與聲紋特征庫進(jìn)行歐式距離計算;
步驟106,將密碼識別和聲紋識別所得的結(jié)果結(jié)合,如果密碼識別和聲紋識別的結(jié)果一致,則判定說話者身份確認(rèn)有效;否則,認(rèn)為身份鑒別失敗。
[0021]所述的預(yù)處理還包括對預(yù)加重后的語音信號進(jìn)行分幀加窗處理,所述的分幀加窗處理包括將預(yù)加重后的語音信號分成每幀10-30ms短時語音信號,并對每幀語音信號加上hamming窗。所述的預(yù)處理包括對語音信號進(jìn)行預(yù)加重處理,所述的預(yù)加重的形式如下:
【權(quán)利要求】
1.一種雙模語音身份識別方法,應(yīng)用于包括聲音采集裝置和信息處理裝置的身份識別系統(tǒng),所述的系統(tǒng)還包括語音密碼特征庫和聲紋特征庫,其特征在于,包括如下步驟: 步驟1,用戶對聲音采集裝置說出輸入語音,采集裝置采集該輸入語音; 步驟2,密碼識別,采集裝置將采集的輸入語音輸入信息處理裝置,所述的信息處理裝置將所述輸入語音與語音密碼特征庫進(jìn)行模板匹配,計算得到匹配距離; 步驟3,聲紋識別,所述的信息處理裝置將所述的輸入語音進(jìn)行聲紋特征提取,并對提取的聲紋特征與聲紋特征庫進(jìn)行歐式距離計算; 步驟4,將密碼識別和聲紋識別所得的結(jié)果結(jié)合,如果密碼識別和聲紋識別的結(jié)果一致,則判定說話者身份確認(rèn)有效;否則,認(rèn)為身份鑒別失敗。
2.根據(jù)權(quán)利要求1所述的一種雙模語音身份識別方法,其特征在于,所述的語音密碼特征由用戶在使用前經(jīng)聲音采集裝置錄入語音信號,所述錄入的語音信號由信息處理裝置進(jìn)行預(yù)處理并提取語音密碼特征,對符合要求的語音密碼特征保存至語音密碼特征庫。
3.根據(jù)權(quán)利要求1所述的一種雙模語音身份識別方法,其特征在于,所述的聲紋特征由用戶在使用前經(jīng)聲音采集裝置錄入語音信號,所述錄入的語音信號由信息處理裝置進(jìn)行預(yù)處理并提取聲紋特征,對提取的聲紋特征進(jìn)行LBG算法進(jìn)行矢量量化,量化后的聲紋特征即為用戶碼本,所述碼本保持至聲紋特征庫。
4.根據(jù)權(quán)利要求2所述的一種雙模語音身份識別方法,其特征在于,所述的預(yù)處理包括對語音信號進(jìn)行預(yù)加重處理,所述的預(yù)加重的形式如下:
5.根據(jù)權(quán)利要求5所述的一`種雙模語音身份識別方法,其特征在于,所述的預(yù)加重處理由一階零點(diǎn)數(shù)字濾波器實現(xiàn),所述濾波器頻域?qū)?yīng)的形式是方O = ?
6.根據(jù)權(quán)利要求5所述的一種雙模語音身份識別方法,其特征在于,所述的預(yù)處理還包括對預(yù)加重后的語音信號進(jìn)行分幀加窗處理,所述的分幀加窗處理包括將預(yù)加重后的語音信號分成每幀10-30ms短時語音信號,并對每幀語音信號加上hamming窗。
7.根據(jù)權(quán)利要求7所述的一種雙模語音身份識別方法,其特征在于,所述的預(yù)處理還包括對分幀后的語音進(jìn)行端點(diǎn)檢測,所述端點(diǎn)檢測完成后對語音信號進(jìn)行MFCC特征提取,生產(chǎn)語音密碼特征庫。
8.根據(jù)權(quán)利要求3所述的一種雙模語音身份識別方法,其特征在于,所述的預(yù)處理依次包括預(yù)加重、分幀加窗和端點(diǎn)檢測。
9.根據(jù)權(quán)利要求1所述的一種雙模語音身份識別方法,其特征在于,所述步驟I還包括對輸入語音進(jìn)行預(yù)處理、端點(diǎn)檢測和特征提取。
10.根據(jù)權(quán)利要求9所述的一種雙模語音身份識別方法,其特征在于,所述的預(yù)處理包括預(yù)加重和分幀加窗。
【文檔編號】G10L17/02GK103794207SQ201210420105
【公開日】2014年5月14日 申請日期:2012年10月29日 優(yōu)先權(quán)日:2012年10月29日
【發(fā)明者】曾向陽, 鄧剛, 王志剛 申請人:西安遠(yuǎn)聲電子科技有限公司