圖8為本發(fā)明中二類聚類情況示意圖。
[0043] 圖9為本發(fā)明中LPCC和MFCC參數(shù)Fisher比效果圖;
[0044] 圖10為本發(fā)明中k-means聚類結(jié)果圖。
【具體實(shí)施方式】
[0045] 為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí) 施方式對本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請的實(shí)施 例及實(shí)施例中的特征可以相互組合。
[0046] 在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可 以采用其他不同于在此描述的方式來實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具 體實(shí)施例的限制。
[0047] 下面參照圖1-10對本發(fā)明實(shí)施例的語音信號混合特征的參數(shù)提取方法做進(jìn)一步 的描述。
[0048] 如圖1所示,一種語音信號混合特征的參數(shù)提取方法,包括對語音信號x(n)預(yù)處 理過程、特征提取過程、特征混合過程,其中所述語音信號x(n)預(yù)處理過程包括對語音信 號x(n)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測處理過程;所述語音信號x(n)特征提取過程包 括LPCC參數(shù)提取過程和MFCC參數(shù)提取過程以及LPCC差分參數(shù)和MFCC差分?jǐn)?shù)提取過程;所 述特征混合過程包括采用Fisher準(zhǔn)則和K-means算法對LPCC參數(shù)和MFCC參數(shù)以及LPCC 差分參數(shù)和MFCC差分?jǐn)?shù)進(jìn)行聚類的過程。
[0049] 如圖2所示測試語音的信號x(n),由于語音信號易受聲門激勵和口鼻輻射的影 響,在800Hz以上的頻率成份會出現(xiàn)6dB/倍頻程的衰減,因此需要通過預(yù)加重的方法來提 升高頻部分能量,借機(jī)彌補(bǔ)高頻損失,本實(shí)施例采用一階高通濾波器1-0. 9375Z4來實(shí)現(xiàn)預(yù) 加重;語音信號本身是一種實(shí)時的、隨時間和周邊環(huán)境不斷變化的非平穩(wěn)信號,但人在發(fā)音 時發(fā)聲器官的運(yùn)動具有一定的慣性,可以認(rèn)為短時間內(nèi)發(fā)聲器官的狀態(tài)是不變的,即語音 信號具有短時平穩(wěn)特征,因此大部分語音信號處理都是在基于短時平穩(wěn)特性基礎(chǔ)上對語音 信號進(jìn)行分幀,每幀的長度相同且在l〇ms至30ms之間,另外為了保證特征信息不丟失,本 實(shí)施例在MATLAB實(shí)驗(yàn)中選取語音幀長為256點(diǎn),幀移為128點(diǎn)。
[0050] 關(guān)于加窗處理,一般采用有限長度的窗函數(shù)來截取語音信號形成分幀,窗函數(shù) w(n)將需要處理的區(qū)域之外的樣本點(diǎn)全部置零即可獲得當(dāng)前語音幀,設(shè)幀長為N,對已獲 得的一幀信號進(jìn)行加窗處理,即用確定的窗函數(shù)w(n)來乘以語音信號x(n),如公式(1)得 到加窗后的語音sw(n),
[0051] sw (n) =x(n) ?w(n), 0 ^n^ (N-l) (1)
[0052] 其中窗函數(shù)(漢明窗)的滿足函數(shù)公式(2),
[0054] 端點(diǎn)檢測是指用信號處理技術(shù)把需要的語音信號從靜音和噪聲中區(qū)分出來,準(zhǔn)確 的找出有效語音信號的起點(diǎn)和終點(diǎn),從而只存儲和處理有效語音信號。本實(shí)施例采用基于 短時能量和短時過零率相結(jié)合的雙門限檢測方法,雙門限端點(diǎn)檢測是由短時能量檢測和短 時平均過零率檢測組成的兩級檢測,根據(jù)檢測過程可知,在檢測前要對短時能量和短時過 零率分別設(shè)置高低兩個門限,g卩:和ZHigh、Zta,通常每一句完整的語音都包括:靜音 段、過度段、語音段、結(jié)束段,對多次實(shí)驗(yàn)結(jié)果分析后,本實(shí)施例所用的 取值分別調(diào)整為如式(3)所示:
[0055] EHigh=max([min(amp) *10,mean(amp) *0? 2,max(amp) *0? 1]);
[0056] ZHigh=max([round(max(zcr) *0. 1,5)]) ; (3)。
[0057] ELow=min([min(amp) *10,mean(amp) *0? 2,mean(amp) *0? 1]);
[0058] ZLow=max([round(mean(zcr) *0. 1), 3]);
[0059] LPCC能夠很好的反映發(fā)聲機(jī)理,它是根據(jù)語音前后樣本點(diǎn)的相關(guān)性,通過過去的 樣本點(diǎn)值來預(yù)測現(xiàn)在或者未來的樣本點(diǎn)的參數(shù),也就是說語音信號的抽樣值完全可以通過 過去的一些語音采樣點(diǎn)值進(jìn)行逼近而得到。當(dāng)預(yù)測的語音信號和實(shí)際抽樣語音信號間的誤 差值達(dá)到最小值(在某個逼近準(zhǔn)則下)時,那么這時對應(yīng)的唯一一組預(yù)測系數(shù)就作為語音 信號的特征參數(shù)。LPCC參數(shù)提取包括求取線性預(yù)測LPC過程、計算LPCC過程,詳細(xì)過程如 下:
[0060] 求取線性預(yù)測LPC時,按照聲道全極點(diǎn)模型表示如公式(4):
[0062] 式中G表示模型的增益常數(shù),p表示預(yù)測LPC的階數(shù),ak表示線性預(yù)測系數(shù)(k= 1,2,…,p),求取ak的方法有很多,可以使用協(xié)方差法和自相關(guān)法等方法;
[0063] 計算計算LPCC時,首先語音信號x(n)的倒譜是對它進(jìn)行Z變換,然后取對數(shù)后, 再進(jìn)行反Z變換,由式(5)表示
[0065] 把X(z)的相位信息忽略不計,即忽略掉上式后面的一項(xiàng),從而能得到如公式(6) 所示的語音信號x(n)的倒譜:
[0066] c(n) =Z-1(log|X(z) |) (6)
[0067] 通過LPC系數(shù)an便可以得到LPCC參數(shù),具體按照遞推公式(7)就可以得到LPCC 參數(shù):
[0069] MFCC參數(shù)充分模擬了人耳的聽覺特性,實(shí)驗(yàn)表明,在相同噪聲的環(huán)境下,MFCC特 征參數(shù)比LPCC特征參數(shù)具有更強(qiáng)的魯棒性,且在提升語音識別系統(tǒng)的識別率方面比LPCC參數(shù)更有優(yōu)勢。在Mel濾波器組中,梅爾頻率以及線性頻率的存在著對應(yīng)關(guān)系,如圖4所示, 其對應(yīng)關(guān)系的表達(dá)式如公式(8)
[0071] 梅爾頻率倒譜系數(shù)是語音能量在Mel刻度上的表示。
[0072] MFCC參數(shù)提取過程如圖5所示,具體包括如下步驟
[0073] S41 :把經(jīng)過預(yù)處理后的語音信號進(jìn)行FFT變換得到其頻譜X[k],具體變換按照公 式(9)
[0075] S42 :求頻譜的平方得到短時能量譜S(k),具體計算按照公式(10);
[0077] S43 :用Mel濾波器把幅度譜轉(zhuǎn)化為Mel頻率譜,具體轉(zhuǎn)化如公式(11)轉(zhuǎn)化結(jié)果如 圖6所示;
[0079] S44 :對所述Mel頻率譜進(jìn)行對數(shù)變換,具體變換如公式(12);
[0081] S45 :將對數(shù)變換后的Mel頻率譜進(jìn)行離散余弦變換(DCT)即得到MFCC,具體變換 如公式(13)
[0083] 通過以上計算步驟得到的MFCC參數(shù)特征為靜態(tài)參數(shù),它可以很好的反映語音的 靜態(tài)特性,但是并沒有充分利用語音的動態(tài)特征,因此可以在變換域特征參數(shù)中加入MFCC 的一階差分參數(shù),更好的描述語音信號的時變特性。
[0084] 關(guān)于差分參數(shù)提取過程,通常LPCC和MFCC參數(shù)僅僅反映了語音信號參數(shù)的靜態(tài) 特性,由于人耳對語音靜態(tài)特性感知不靈敏,為了解決困難,因而通過增加動態(tài)特性差分參 數(shù)dk來提高感知靈敏度。分別對所求出的LPCC參數(shù)和MFCC參數(shù)做以下運(yùn)算,可求得一階 差分參數(shù)和二階差分參數(shù),差分參數(shù)dk的計算公式采用公式(14):
[0086] 式中dk表示第k個一階差分參數(shù),t為一階導(dǎo)數(shù)時間差,通常取1或2,ck表示第k個倒譜系數(shù),其中取k= 2,d為差分參數(shù),c為四個語音參數(shù),用公式(14)迭代兩次,就可 得到LPCC參數(shù)或者M(jìn)FCC參數(shù)的二階差分參數(shù),LPCC與一階差分LPCC參數(shù)效果如圖3所 示,MFCC與一階差分MFCC參數(shù)效果如圖7所示。
[0087] 關(guān)于所述Fisher準(zhǔn)則,是Fisher線性判別過程,在模式識別中,可以利用評價函 數(shù)對特征參數(shù)進(jìn)行選擇,假設(shè)n維特征X在一條直線上投影,應(yīng)尋找一條投影直線,使得類 間距離最大,如圖8所示,對于兩個類^和wi,假設(shè)各類的特征是二維分布,如圖8中A、B 部分,將它們在直線1和丫2上投影,特征向量X的線性組合y用式(15)表示為:
[0088] y=YtX(15)
[0089] 當(dāng)| |Y| | = 1時,則y就是X在Y方向直線上的投景^,圖8中,A是X屬于%的分 布,B是X屬于力的分布;C表示Y/X,X屬于力的分布;D表示Y/X,X屬于W(l的分布;E表 示Y2TX,X屬于W(l的分布;F表示Y2TX,X屬于Wl的分布,那么屬于wi的特征向量X的平均值 Ui用式(16)表示,其中n彥示屬于w凍X的個數(shù):
[0091] 根據(jù)式(16)可以得到特征向量X的線性組合y的平均值叫和特征向量X的線性 組合y的類內(nèi)方差〇i2,具體的叫滿足式(17),類內(nèi)方差〇 /滿足式(18)
[0094] 為了使^與^能進(jìn)行有效的識別,需要兩類的特征區(qū)分度很大,因此需要用 Fisher評價函數(shù)J(Y)來描述區(qū)