一種語音信號混合特征參數(shù)的提取方法_2

文檔序號：8923593閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>一種語音信號混合特征參數(shù)的提取方法

圖8為本發(fā)明中二類聚類情況示意圖。
[0043] 圖9為本發(fā)明中LPCC和MFCC參數(shù)Fisher比效果圖；
[0044] 圖10為本發(fā)明中k-means聚類結(jié)果圖。
【具體實(shí)施方式】
[0045] 為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn)，下面結(jié)合附圖和具體實(shí) 施方式對本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是，在不沖突的情況下，本申請的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0046] 在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明，但是，本發(fā)明還可以采用其他不同于在此描述的方式來實(shí)施，因此，本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。
[0047] 下面參照圖1-10對本發(fā)明實(shí)施例的語音信號混合特征的參數(shù)提取方法做進(jìn)一步的描述。
[0048] 如圖1所示，一種語音信號混合特征的參數(shù)提取方法，包括對語音信號x(n)預(yù)處理過程、特征提取過程、特征混合過程，其中所述語音信號x(n)預(yù)處理過程包括對語音信號x(n)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測處理過程；所述語音信號x(n)特征提取過程包括LPCC參數(shù)提取過程和MFCC參數(shù)提取過程以及LPCC差分參數(shù)和MFCC差分?jǐn)?shù)提取過程；所述特征混合過程包括采用Fisher準(zhǔn)則和K-means算法對LPCC參數(shù)和MFCC參數(shù)以及LPCC 差分參數(shù)和MFCC差分?jǐn)?shù)進(jìn)行聚類的過程。
[0049] 如圖2所示測試語音的信號x(n)，由于語音信號易受聲門激勵和口鼻輻射的影響，在800Hz以上的頻率成份會出現(xiàn)6dB/倍頻程的衰減，因此需要通過預(yù)加重的方法來提升高頻部分能量，借機(jī)彌補(bǔ)高頻損失，本實(shí)施例采用一階高通濾波器1-0. 9375Z4來實(shí)現(xiàn)預(yù) 加重；語音信號本身是一種實(shí)時的、隨時間和周邊環(huán)境不斷變化的非平穩(wěn)信號，但人在發(fā)音時發(fā)聲器官的運(yùn)動具有一定的慣性，可以認(rèn)為短時間內(nèi)發(fā)聲器官的狀態(tài)是不變的，即語音信號具有短時平穩(wěn)特征，因此大部分語音信號處理都是在基于短時平穩(wěn)特性基礎(chǔ)上對語音信號進(jìn)行分幀，每幀的長度相同且在l〇ms至30ms之間，另外為了保證特征信息不丟失，本實(shí)施例在MATLAB實(shí)驗(yàn)中選取語音幀長為256點(diǎn)，幀移為128點(diǎn)。
[0050] 關(guān)于加窗處理，一般采用有限長度的窗函數(shù)來截取語音信號形成分幀，窗函數(shù) w(n)將需要處理的區(qū)域之外的樣本點(diǎn)全部置零即可獲得當(dāng)前語音幀，設(shè)幀長為N，對已獲得的一幀信號進(jìn)行加窗處理，即用確定的窗函數(shù)w(n)來乘以語音信號x(n)，如公式（1)得到加窗后的語音sw(n)，
[0051] sw (n) =x(n) ?w(n), 0 ^n^ (N-l) (1)
[0052] 其中窗函數(shù)（漢明窗）的滿足函數(shù)公式（2)，
[0054] 端點(diǎn)檢測是指用信號處理技術(shù)把需要的語音信號從靜音和噪聲中區(qū)分出來，準(zhǔn)確的找出有效語音信號的起點(diǎn)和終點(diǎn)，從而只存儲和處理有效語音信號。本實(shí)施例采用基于短時能量和短時過零率相結(jié)合的雙門限檢測方法，雙門限端點(diǎn)檢測是由短時能量檢測和短時平均過零率檢測組成的兩級檢測，根據(jù)檢測過程可知，在檢測前要對短時能量和短時過零率分別設(shè)置高低兩個門限，g卩：和ZHigh、Zta，通常每一句完整的語音都包括：靜音段、過度段、語音段、結(jié)束段，對多次實(shí)驗(yàn)結(jié)果分析后，本實(shí)施例所用的取值分別調(diào)整為如式（3)所示：
[0055] EHigh=max([min(amp) *10,mean(amp) *0? 2,max(amp) *0? 1]);
[0056] ZHigh=max([round(max(zcr) *0. 1,5)]) ； (3)。
[0057] ELow=min([min(amp) *10,mean(amp) *0? 2,mean(amp) *0? 1])；
[0058] ZLow=max([round(mean(zcr) *0. 1), 3])；
[0059] LPCC能夠很好的反映發(fā)聲機(jī)理，它是根據(jù)語音前后樣本點(diǎn)的相關(guān)性，通過過去的樣本點(diǎn)值來預(yù)測現(xiàn)在或者未來的樣本點(diǎn)的參數(shù)，也就是說語音信號的抽樣值完全可以通過過去的一些語音采樣點(diǎn)值進(jìn)行逼近而得到。當(dāng)預(yù)測的語音信號和實(shí)際抽樣語音信號間的誤差值達(dá)到最小值（在某個逼近準(zhǔn)則下）時，那么這時對應(yīng)的唯一一組預(yù)測系數(shù)就作為語音信號的特征參數(shù)。LPCC參數(shù)提取包括求取線性預(yù)測LPC過程、計算LPCC過程，詳細(xì)過程如下：
[0060] 求取線性預(yù)測LPC時，按照聲道全極點(diǎn)模型表示如公式（4):
[0062] 式中G表示模型的增益常數(shù)，p表示預(yù)測LPC的階數(shù)，ak表示線性預(yù)測系數(shù)（k= 1，2,…，p)，求取ak的方法有很多，可以使用協(xié)方差法和自相關(guān)法等方法；
[0063] 計算計算LPCC時，首先語音信號x(n)的倒譜是對它進(jìn)行Z變換，然后取對數(shù)后，再進(jìn)行反Z變換，由式（5)表示
[0065] 把X(z)的相位信息忽略不計，即忽略掉上式后面的一項(xiàng)，從而能得到如公式（6) 所示的語音信號x(n)的倒譜：
[0066] c(n) =Z-1(log|X(z) |) (6)
[0067] 通過LPC系數(shù)an便可以得到LPCC參數(shù)，具體按照遞推公式（7)就可以得到LPCC 參數(shù)：
[0069] MFCC參數(shù)充分模擬了人耳的聽覺特性，實(shí)驗(yàn)表明，在相同噪聲的環(huán)境下，MFCC特征參數(shù)比LPCC特征參數(shù)具有更強(qiáng)的魯棒性，且在提升語音識別系統(tǒng)的識別率方面比LPCC參數(shù)更有優(yōu)勢。在Mel濾波器組中，梅爾頻率以及線性頻率的存在著對應(yīng)關(guān)系，如圖4所示，其對應(yīng)關(guān)系的表達(dá)式如公式（8)
[0071] 梅爾頻率倒譜系數(shù)是語音能量在Mel刻度上的表示。
[0072] MFCC參數(shù)提取過程如圖5所示，具體包括如下步驟
[0073] S41 :把經(jīng)過預(yù)處理后的語音信號進(jìn)行FFT變換得到其頻譜X[k]，具體變換按照公式（9)
[0075] S42 :求頻譜的平方得到短時能量譜S(k)，具體計算按照公式（10);
[0077] S43 :用Mel濾波器把幅度譜轉(zhuǎn)化為Mel頻率譜，具體轉(zhuǎn)化如公式（11)轉(zhuǎn)化結(jié)果如圖6所示；
[0079] S44 :對所述Mel頻率譜進(jìn)行對數(shù)變換，具體變換如公式（12);
[0081] S45 :將對數(shù)變換后的Mel頻率譜進(jìn)行離散余弦變換（DCT)即得到MFCC，具體變換如公式（13)
[0083] 通過以上計算步驟得到的MFCC參數(shù)特征為靜態(tài)參數(shù)，它可以很好的反映語音的靜態(tài)特性，但是并沒有充分利用語音的動態(tài)特征，因此可以在變換域特征參數(shù)中加入MFCC 的一階差分參數(shù)，更好的描述語音信號的時變特性。
[0084] 關(guān)于差分參數(shù)提取過程，通常LPCC和MFCC參數(shù)僅僅反映了語音信號參數(shù)的靜態(tài) 特性，由于人耳對語音靜態(tài)特性感知不靈敏，為了解決困難，因而通過增加動態(tài)特性差分參數(shù)dk來提高感知靈敏度。分別對所求出的LPCC參數(shù)和MFCC參數(shù)做以下運(yùn)算，可求得一階差分參數(shù)和二階差分參數(shù)，差分參數(shù)dk的計算公式采用公式（14):
[0086] 式中dk表示第k個一階差分參數(shù)，t為一階導(dǎo)數(shù)時間差，通常取1或2,ck表示第k個倒譜系數(shù)，其中取k= 2,d為差分參數(shù)，c為四個語音參數(shù)，用公式（14)迭代兩次，就可得到LPCC參數(shù)或者M(jìn)FCC參數(shù)的二階差分參數(shù)，LPCC與一階差分LPCC參數(shù)效果如圖3所示，MFCC與一階差分MFCC參數(shù)效果如圖7所示。
[0087] 關(guān)于所述Fisher準(zhǔn)則，是Fisher線性判別過程，在模式識別中，可以利用評價函數(shù)對特征參數(shù)進(jìn)行選擇，假設(shè)n維特征X在一條直線上投影，應(yīng)尋找一條投影直線，使得類間距離最大，如圖8所示，對于兩個類^和wi，假設(shè)各類的特征是二維分布，如圖8中A、B 部分，將它們在直線1和丫2上投影，特征向量X的線性組合y用式（15)表示為：
[0088] y=YtX(15)
[0089] 當(dāng)| |Y| | = 1時，則y就是X在Y方向直線上的投景^，圖8中，A是X屬于％的分布，B是X屬于力的分布；C表示Y/X，X屬于力的分布；D表示Y/X，X屬于W(l的分布；E表示Y2TX，X屬于W(l的分布；F表示Y2TX，X屬于Wl的分布，那么屬于wi的特征向量X的平均值 Ui用式（16)表示，其中n彥示屬于w凍X的個數(shù)：
[0091] 根據(jù)式（16)可以得到特征向量X的線性組合y的平均值叫和特征向量X的線性組合y的類內(nèi)方差〇i2,具體的叫滿足式（17)，類內(nèi)方差〇 /滿足式（18)
[0094] 為了使^與^能進(jìn)行有效的識別，需要兩類的特征區(qū)分度很大，因此需要用 Fisher評價函數(shù)J(Y)來描述區(qū)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)