專利名稱::采用基頻成分相位差和發(fā)聲時參量的聲紋鑒定方法
技術(shù)領域:
:本發(fā)明涉及人身個體認定中新的生理心理學參量及其測定方法。具體地說,是一種聲紋鑒定中的新參量和新方法。自從1941年美國國防部對貝爾實驗室下達關(guān)于分析德軍最高統(tǒng)帥部會議錄音材料以確定話者姓名的研究任務后,60多年來世界各國已研究20多種聲學參量的說話者識別。特別是60-70年代以來采用的聲紋鑒定技術(shù),已在各國司法、保安等許多領域中運用,但這項技術(shù)仍時有差錯。與美國專利6,029,124,“Sequential,NonparametricSpeechRecognitionandSpeakerIdentification”(Gillick,etal.,February22,2000)相比,這項專利采用傳統(tǒng)的特征參量。下表反映了“特征參量組合的性能比較”。表特征參量組合的性能比較從上表不難看出特征參量組合的優(yōu)越性;但同時可見,每項參數(shù)仍有約10%左右的誤識率,即使將上述五項參量進行多種組合,仍有2.89%的誤識率。由此可見,對說話人鑒別和確認的任務需要尋求新的參數(shù)。由于經(jīng)典聲學理論結(jié)果認為音色決定于聲音不同頻率成分及其強度,而與相位特性無關(guān)。所以,已研究的20余種聲學參量均未涉及相位特性。但語音合成的研究中發(fā)現(xiàn),2-3個純音混合為復合音時,其間相位特性與復合音色密切相關(guān)。通過分析話者嗓音成分間的相位差,包括基頻、第一共振峰、第二共振峰內(nèi)相鄰成分間的相位差,結(jié)果發(fā)現(xiàn)兩個共振峰的相鄰成分間的相位隨機變化而無規(guī)律可循,但是基頻帶內(nèi)相鄰成分相位變化是周期性函數(shù)變化。這說明基頻帶反映振動的激勵源特性,與個體聲帶生理功能及聲帶結(jié)構(gòu)的特點相關(guān)。因此本項發(fā)明研究出采用基頻成分間的相位差的測定方法,用作測定每個人聲帶結(jié)構(gòu)與功能的生理參數(shù),即嗓音激勵源參數(shù),以便作為確認或鑒別人身個體的新手段。同時自1967年以來,發(fā)聲時(VoiceOnsetTime簡稱VOT)特征參量也被用于語言學研究和語言障礙診斷的輔助參數(shù)。由于它能反映出聲道參數(shù)與個體發(fā)聲的習慣性,即聲道信息,因此也可用于作為個體差異的聲學參量。而在本發(fā)明中VOT既是基頻成分相位差測定的必要條件,它本身又是人身個體差異的生理心理新參量。因此我們使用新的特征參量,基頻成分相位差和發(fā)聲時作為聲紋鑒定的新參量并由此發(fā)明了新的聲紋鑒定方法。本發(fā)明提供一種更簡便易行的嗓音測定新方法,可用于司法聲紋鑒定、保安、聲鎖和金融系統(tǒng)以及臨床中聲帶障礙診斷。本發(fā)明采用語音音節(jié)的基頻成分相位差和VOT兩項參量,通過相應參量的語音庫建立自動分析系統(tǒng)。聲紋鑒定分析系統(tǒng)由硬件和軟件部分組成,其中硬件部分包括話筒、聲卡和微處理器,軟件部分包括切音、聲譜、頻譜、語譜、相位譜分析、以及結(jié)果判定軟件。擬分析的語音材料可現(xiàn)場錄制,也可將其它途徑獲取的語音材料轉(zhuǎn)入本系統(tǒng),經(jīng)切音軟件從待分析的語音材料中切取適用于分析的音節(jié),綜合分析由多個音節(jié)得出的測試數(shù)據(jù)進行判定。具體過程是首先對語音材料進行語譜分析,并由此對發(fā)聲人的(BA,DA,GA,KA,PA,TA)六個基本音節(jié)進行分析,測定各個基本音節(jié)的VOT特征參量,根據(jù)VOT特征參量結(jié)果進行基頻成分相位差分析,然后計算其個體差異并與數(shù)據(jù)庫中的模式匹配,最后達到人身個體認定。本發(fā)明的優(yōu)點是在傳統(tǒng)話者識別的參量基礎之上,采用全新的兩項參量分別反映聲帶作為激勵源的生理功能特性的個體差異以及聲道的個體習慣性差異,提高識別率;本方法簡便易行,既可適用于特殊錄制的語音材料又可將已有不同語音經(jīng)本系統(tǒng)予處理后分析;而且綜合分析多個音節(jié)(一般為6個音節(jié)),能較快給出測試結(jié)果。用SPSS軟件包中的ANOVA統(tǒng)計方法,分別統(tǒng)計102人的六音節(jié)基頻兩成分相位差的個體差異得到,六個音節(jié)個體差異的主效應都在.000水平顯著,說明該參量對個體差異的識別力很高。1、表1、2表明Ba音和Pa音的VOT均值差異,表明VOT作為特征參量的鑒別力也很強。2、表3是102例六個音節(jié)的基頻兩成分相位差數(shù)據(jù)。3、20人六個音節(jié)個體差異主效應分析得到,六音個體差異的主效應在.000水平顯著。這20人六個音個體差異分析見表4。在.05水平有顯著性差異的占69.2%;其中Ba音節(jié)有顯著性差異的占13.7%,Da音節(jié)有顯著性差異的占15.2%,Ga音節(jié)有顯著性差異的占21.5%,Ka音節(jié)有顯著性差異的占13.1%,Pa音節(jié)有顯著性差異的占17.5%,Ta音節(jié)有顯著性差異的占19.0%。說明Ga音節(jié)和Ta音節(jié)的識別力較高。表1、10位女性被試ba音的VOT均值差異(ms)注實驗發(fā)音次數(shù)為N=10,*表示在0.05水平顯著。表2、10位女性被試pa音的VOT均值差異(ms)注實驗發(fā)音次數(shù)為N=10,*表示在0.05水平顯著表3、102例六個音節(jié)的基頻兩成分相位差(πrad)<tablesid="table5"num="005"><table>850.87180.72430.21590.40370.39560.43190.47570.40370.85830.43190.89630.4037860.65540.45891.3570.67630.77510.46521.54620.67630.65580.67540.83170.5389870.05730.71920.3930.44230.4360.40030.4660.44230.74430.65140.20110.4182881.21470.49110.74430.65141.41180.46550.15990.65180.59910.40670.41180.4067890.25070.55151.54850.56970.47640.54390.76970.47610.597850.3940.24730.5537901.39530.51161.50080.67540.38760.40670.67960.49121.12510.47610.74580.5515911.12510.47610.81010.52421.04030.52420.6670.55150.47570.40370.21170.5117920.35540.48390.49320.58280.97570.5511.27020.58281.10190.5440.28040.4003930.49310.58290.21560.40370.39560.43190.47570.40370.82780.40670.24730.5365940.99560.39291.24150.55790.37950.54261.78980.55791.09250.43080.58670.4743951.66670.51670.21580.40370.61360.54760.59780.43080.3930.44230.41180.5649960.97920.49510.30890.43040.62980.53940.59780.58381.04340.5440.96090.4067971.3610.59511.21470.49120.66210.3940.89040.48390.6890.40670.44410.4081981.14360.53650.59910.40670.73480.49120.82780.40671.37810.52421.51680.5579991.09250.43081.11940.51090.50250.41990.67320.51091.77820.5510.30810.4321000.90010.58381.39530.51170.67020.53640.91670.51171.54840.56970.82260.45161010.99560.45130.59860.64220.93660.52020.15990.64220.86390.40510.450.3941020.39820.49381.13290.46530.41180.36290.68220.46530.80680.5780.5890.4951</table></tables>注實驗發(fā)音次數(shù)N=10。表4、隨機20人六個音節(jié)個體差異分析注六位數(shù)字(如110011)分別代表ba,da,ga,ka,pa,ta六個音節(jié)。其中,o為兩人間基頻成分相位差t檢驗在.05水平無顯著性差異;1為兩人間基頻成分相位差t檢驗在.05水平有顯著性差異。除對角線外000000(六音全無差異)0對000001(一個音有差異)4對(包括100000,001000等)000011(兩個音有差異)20對(包括110000.101000等)000111(三個音有差異)30對(包括111000,101010等)001111(斟個音有差異)54對(包括111100,110110等)011111(五個音有差異)53對(包括111110,1011111等)111111(六音全有差異)29對下面結(jié)合實施例和附圖對本發(fā)明進行進一步的說明說明書圖1.Ba音節(jié)語譜圖(橫坐標為時間,單位s;縱坐標為頻率,單位Hz;亮度代表音強,虛線指示VOT終止點)圖2.Pa音節(jié)語譜圖(橫坐標為時間,單位s;縱坐標為頻率,單位Hz;亮度代表音強,虛線指示VOT終止點)圖3.Ba音頻譜圖(橫坐標為頻率,單位2.69Hz;縱坐標為音強,單位smpl)圖4.Pa音頻譜圖(橫坐標為頻率,單位2.69Hz;縱坐標為音強,單位smpl)圖5.Ba音節(jié)基頻帶兩純音成分聲譜圖(橫坐標為時間,單位秒s;縱坐標為音強,單位smpl)圖6.Pa音節(jié)基頻帶兩純音成分聲譜圖(橫坐標為時間,單位s;縱坐標為音強,單位smpl)圖7.Ba音節(jié)基頻帶兩純音成分相位圖(橫坐標為時間,單位s;縱坐標為相位,單位π弧度,‘πrad’)圖8.Pa音節(jié)基頻帶兩純音成分相位圖(橫坐標為時間,單位s;縱坐標為相位,單位π弧度,‘πrad’)圖9.Ba音節(jié)基頻帶兩純音成分相位差圖(橫坐標為時間,單位s;縱坐標為相位差,單位π弧度,‘πrad’)圖10.Pa音節(jié)基頻帶兩純音成分相位差圖(橫坐標為時間,單位s;縱坐標為相位差,單位π弧度,‘πrad’)本發(fā)明的關(guān)鍵是語音音節(jié)的基頻成分相位差和VOT兩項參量的分析。分析的具體步驟是1.聲譜處理與VOT計算。用聲紋分析系統(tǒng)軟件包中的數(shù)值科學計算語言(Matlog)實現(xiàn)聲譜圖分析。首先讀取已存的聲音信號,加短時窗做快速傅立葉變換(FFT),將窗中心點的各頻譜分量的幅度用不同顏色表示形成如圖1、2的語譜圖,在屏幕上進行VOT實際測量。然后對每個發(fā)聲人的六個基本音節(jié)(Ba,Da,Ga,Pa,Ta,Ka)的10次測試的VOT進行算術(shù)平均計算,得出每個人每個基本音節(jié)VOT均值和標準差。2.找出基頻成分。利用1的結(jié)果,將采樣率為22050Hz的語音信號加矩形窗,窗長8192個數(shù)據(jù)點,s(i)其中i=1..8192。然后對s(i)做離散傅氏變換得到S(i),其中i=1..8192,生成圖3、4頻譜圖,圖中第一峰的橫坐標即為基頻。3.基頻成分分析。取2中基頻點的函數(shù)FS1FS1(i)=S(i),當i=b;FS1(i)=0,當i≠b。再取比基頻低三個采樣點的函數(shù)FS2:FS2(i)=S(i),當i=b-3;FS2(i)=0,當i≠b-3。對FS1和FS2做反傅氏變換得到如圖5、6中的兩條純音正弦曲線。4.計算相位差。利用1,2,3的結(jié)果,做出相位圖,即相位差圖7、8。取對應VOT值的兩條曲線的相位差,即在圖9、10中取橫坐標對應VOT時間點的縱坐標值(相位差)。5.建立數(shù)據(jù)庫。①基本數(shù)據(jù)庫用102人的基頻兩成分相位差和VOT值分別建立兩個數(shù)據(jù)庫;②專用數(shù)據(jù)庫根據(jù)應用的性質(zhì),人數(shù),要求的不同建立相應的數(shù)據(jù)庫,分為司法人身個體認定數(shù)據(jù)庫、保安人身個體認定數(shù)據(jù)庫、聲鎖人身個體認定數(shù)據(jù)庫、金融系統(tǒng)人身個體認定數(shù)據(jù)庫以及臨床中聲帶障礙診斷和預后的人身個體認定數(shù)據(jù)庫等。6.識別過程。記錄待鑒定人的Ba、Da、Ga、Ka、Pa、Ta六個音(至少10次),用上面的程序1、2、3、4計算其中10次的基頻兩成分相位差和VOT值及其標準差,在0.05的差異水平上,與數(shù)據(jù)庫模式匹配,進行人身個體認定。權(quán)利要求1.一種聲紋鑒定方法,通過反映人身個體差異的聲學參量語音數(shù)據(jù)庫為主的分析系統(tǒng),采用特征聲學參量組合進行判斷,其特征在于將語音音節(jié)的基頻成分相位差作為一種特征聲學參量,與另外一種特征聲學參量發(fā)聲時組合進行嗓音測定。2.根據(jù)權(quán)利要求1所述的聲紋鑒定方法,其特征在于聲紋鑒定分析系統(tǒng)由硬件和軟件部分組成,其中硬件部分包括話筒、聲卡和微處理器,軟件部分包括切音、聲譜、頻譜、語譜、相位譜分析、以及結(jié)果判定軟件。3.根據(jù)權(quán)利要求1或2所述的聲紋鑒定方法,其特征在于經(jīng)切音軟件從待分析的語音材料中切取適用于分析的音節(jié),綜合分析由多個音節(jié)得出的測試數(shù)據(jù)進行判定。4.根據(jù)權(quán)利要求3所述的聲紋鑒定方法,其特征在于對發(fā)聲人的六個基本音節(jié)進行分析。5.根據(jù)權(quán)利要求4所述的聲紋鑒定方法,其特征在于采用(BA,DA,GA,KA,PA,TA)作為基本音節(jié),分析它們基頻成分相位差和發(fā)生時特征參量。6.根據(jù)權(quán)利要求4或5所述的聲紋鑒定方法,其特征在于首先對語音材料進行語譜分析,并由此測量各個基本音節(jié)的發(fā)生時特征參量,根據(jù)發(fā)生時特征參量結(jié)果進行基頻成分相位差分析,然后計算其個體差異并與數(shù)據(jù)庫中的模式匹配,最后達到人身個體認定。7.根據(jù)權(quán)利要求6所述的聲紋鑒定方法,其特征在于基頻成分相位差分析的過程是在一段語音材料中切取BA、DA、GA、KA、PA、TA六個音節(jié)的語音材料,或直接錄取這六個音節(jié)的語音材料;然后將六個音節(jié)的語音材料生成語譜圖,在語譜圖上測量每個音節(jié)的發(fā)生時特征參量;再將語音材料生成頻譜,取基頻成分及比其低3個采樣點的成分;通過這兩個純音聲譜,轉(zhuǎn)換成相位譜,最后給出相位差的譜圖。全文摘要本發(fā)明涉及一種聲紋鑒定中的新參量和新方法。通過反映人身個體差異的聲學參量語音數(shù)據(jù)庫為主的分析系統(tǒng),采用特征聲學參量組合進行判斷,其特征在于:將語音音節(jié)的基頻成分相位差作為一種特征聲學參量,與另外一種特征聲學參量發(fā)聲時組合進行嗓音測定。本發(fā)明提供的方法簡便易行,可用于司法聲紋鑒定、保安、聲鎖和金融系統(tǒng)以及臨床中聲帶障礙診斷。文檔編號G10L15/00GK1299126SQ0110047公開日2001年6月13日申請日期2001年1月16日優(yōu)先權(quán)日2001年1月16日發(fā)明者沈政,吳明,方方,遜迪申請人:北京大學