分度,J(Y)滿足式(19)
[0096] 從式(19)可知,J(Y)取得最大值,可得最佳兩類分離效果,具體的計(jì)算公式如下 則滿足式(20)
[0097] Fpisher - 0between/ 0within(20)
[0098] 在式(20)中FFishOT被稱為特征參量的Fisher比,F(xiàn)isher比越大類別區(qū)分度越好, 〇within是特征參量對應(yīng)各個(gè)類的類內(nèi)散度(方差)之和,滿足式(21)
[0100] 在共有C個(gè)類Wi,表示Ck在第i類上的均值,當(dāng)1 <i<C時(shí)且各個(gè)類的樣本 數(shù)為叫,可得第k個(gè)參量類內(nèi)散度〇within,特征參量的類間散度是〇brtw_滿足式(22)
[0102] 其中mk表示ck對所有樣本的均值。LPCC和MFCC參數(shù)Fisher比效果如圖9所示。
[0103] 關(guān)于采用K-means算法對LPCC參數(shù)和MFCC參數(shù)進(jìn)行混合,k-means算法也被稱 為k-平均算法,是一種得到最廣泛使用的聚類算法,它是將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣 本均值作為該聚類的代表點(diǎn),算法的主要思想是用迭代方法將數(shù)據(jù)集劃分為不同的類別, 使得評價(jià)聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu)即誤差平方和準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使生成的每 一個(gè)聚類(又成簇)內(nèi)緊湊,類間獨(dú)立。K-means聚類算法使用誤差平方和準(zhǔn)則來評價(jià)聚 類性能,給定數(shù)據(jù)集X,其中僅包含描述屬性,不包含類別屬性,假設(shè)X包含k個(gè)聚類子集 XpX2,…,Xk,各個(gè)聚類子集中的樣本數(shù)分別為ni,n2,…,nk,各個(gè)聚類子集的聚類中心分別 為叫,m2,…,mk,誤差平方和準(zhǔn)則函數(shù)如式(23)
[0105] 那么K-means算法按以下步驟:
[0106] S71 :為每一個(gè)聚類確定一個(gè)初始聚類中心,這樣就有k個(gè)初試聚類中心;
[0107] S72 :將樣本幾種的樣本按照最小距離原則分配到最鄰近聚類;
[0108] S73 :使用每一個(gè)聚類中的樣本均值作為新的聚類中心;
[0109] S74 :重復(fù)步驟S72和S73,直到聚類中心不再變化并得到k個(gè)聚類。
[0110] k-means聚類結(jié)果如圖10所示。
[0111] 根據(jù)本發(fā)明的一個(gè)具體實(shí)施例,所述語音信號混合特征參數(shù)的提取方法包括采用 交疊分段法來分幀,其中語音幀長為30ms,幀移為10ms。
[0112] 在本說明書的描述中,術(shù)語"一個(gè)實(shí)施例"、"一些實(shí)施例"、"具體實(shí)施例""具體示 例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或特點(diǎn)包含于本發(fā)明的 至少一個(gè)實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的 實(shí)施例或?qū)嵗?。而且,描述的MFCC、MFCC參數(shù)、MFCC特征參數(shù)可以是同一意思的不同表達(dá), LPCC、LPCC參數(shù)、LPCC特征參數(shù)也可以是同一意思的不同表達(dá),在任何的一個(gè)或多個(gè)實(shí)施 例或示例中以合適的方式結(jié)合。
[0113] 以上僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人 員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的創(chuàng)造性精神和原則之內(nèi),所作的任何 修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種語音信號混合特征參數(shù)的提取方法,包括對語音信號X (η)預(yù)處理過程、特征提 取過程、特征混合過程,其特征在于 所述語音信號X (η)預(yù)處理過程包括對語音信號X (η)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢 測處理過程; 所述語音信號X (η)特征提取過程包括LPCC參數(shù)提取過程和MFCC參數(shù)提取過程以及 LPCC差分參數(shù)和MFCC差分參數(shù)提取過程; 所述特征混合過程包括采用Fisher準(zhǔn)則和K-means算法對LPCC參數(shù)和MFCC參數(shù)以 及LPCC差分參數(shù)和MFCC差分參數(shù)進(jìn)行混合的過程。2. 根據(jù)權(quán)利要求1所述的語音信號混合特征參數(shù)的提取方法,其特征在于所述加窗處 理過程即是得到加窗后語音Sw(H)的過程,其中Sw(H) =X(H) ι(η),式中O彡η彡(N-1), 式中w(n)為加窗函數(shù),且滿足函數(shù)式3. 根據(jù)權(quán)利要求1所述的語音信號混合特征參數(shù)的提取方法,其特征在于所述LPCC參 數(shù)提取過程包括求取線性預(yù)測LPC過程、計(jì)算LPCC過程,其中 求取線性預(yù)測LPC過程是按照聲道全極點(diǎn)模型進(jìn)行求取,式 中G表示模型的增益常數(shù),p表示預(yù)測LPC的階數(shù),ak表示線性預(yù)測系數(shù)(k = 1,2, ...,p); 計(jì)算LPCC時(shí),首先語音信號X (η)的倒譜是對它進(jìn)行Z變換,然后取對數(shù)后,再進(jìn)行反 Z變換,具體變換是首先按照式,把X(Z)的相位信息jargX(z)忽略不計(jì),從而得 到能得到語音信號x(n)的倒譜:c (n) = C1 (log|X(z) I ),再通過LPC系數(shù)an得到LPCC參 數(shù),具體按照遞推公式可以得到LPCC 參數(shù)。4. 根據(jù)權(quán)利要求1所述的語音信號混合特征參數(shù)的提取方法,其特征在于所述MFCC參 數(shù)提取過程包括如下步驟 S41 :把經(jīng)過預(yù)處理后的語音信號進(jìn)行FFT變換得到其頻譜X[k]:,變換公式為542 :求頻譜的平方得到短時(shí)能量譜S (k),具體計(jì)算公式為543 :用Mel濾波器把幅度譜轉(zhuǎn)化為Mel頻率譜,具體計(jì)算公式為544 :對所述Mel頻率譜進(jìn)行對數(shù)變換,變換公式為545 :將對數(shù)變換后的Mel頻率譜進(jìn)行離散余弦變換(DCT)即得到MFCC,變換公式為5. 根據(jù)權(quán)利要求1所述的語音信號混合特征參數(shù)的提取方法,其特征在于對LPCC參數(shù) 和MFCC參數(shù)進(jìn)行差分參數(shù)dk提取的過程包括一階差分參數(shù)提取和二階差分參數(shù)提取,其 中差分參數(shù)dk提取滿足公式:式中dk表示第k個(gè)一階差分參數(shù),t 為一階導(dǎo)數(shù)時(shí)間差,通常取1或2, Ck表示第k個(gè)倒譜系數(shù),其中取k = 2, d為差分參數(shù),C 為四個(gè)語音參數(shù),用dk公式將迭代兩次,即可得到MFCC的二階差分參數(shù)。6. 根據(jù)權(quán)利要求1所述的語音信號混合特征參數(shù)的提取方法,其特征在于所述Fisher 準(zhǔn)則為利用評價(jià)函數(shù)對特征參數(shù)進(jìn)行選擇,假設(shè)η維特征X在一條直線上投影,則尋找一條 投影直線,使得類間距離最大,具體為: 首先對于兩個(gè)類《〇和w i,假設(shè)各類的特征是二維分布,將它們在直線1和Y 2上投 影,特征向量X的線性組合y表示為y = YTX,屬于Wi的特征向量X的平均值u i表示為其中Hi表示屬于w i類特征向量X的個(gè)數(shù),那么特征向量X的線性組合y的 平均值表示為特征向量X的線性組合y的類內(nèi)方差σ /表示為 5然后用Fisher評價(jià)函數(shù)來描述區(qū)分度,具體計(jì)算采用公 工〔^Fisher ^ between^ ^ within? 中 ^Visher 稱為特征參量的Fisher比,σ within是特征 參量對應(yīng)各個(gè)類的類內(nèi)散度(方差)之和,0)3__是特征參量的類間散度,其中,其式中mk表示c k對所有樣本 的均值。7. 根據(jù)權(quán)利要求1所述的語音信號混合特征參數(shù)的提取方法,其特征在于所述采用 K-means算法對LPCC參數(shù)和MFCC參數(shù)進(jìn)行混合的過程具體為 首先假設(shè)X包含k個(gè)聚類子集X1, X2,…,Xk,各個(gè)聚類子集中的樣本數(shù)分別為 Ii1, n2,…,nk,各個(gè)聚類子集的聚類中心分別為叫,m2,…,m k,誤差平方和準(zhǔn)則函數(shù)為則K-means算法按以下步驟: S71:為每一個(gè)聚類確定一個(gè)初始聚類中心,這樣就有k個(gè)初試聚類中心; S72:將樣本幾種的樣本按照最小距離原則分配到最鄰近聚類; S73使用每一個(gè)聚類中的樣本均值作為新的聚類中心; S74:重復(fù)步驟S72和S73,直到聚類中心不再變化并得到k個(gè)聚類。8. 根據(jù)權(quán)利要求1至7任一所述的語音信號混合特征參數(shù)的提取方法,其特征在于采 用交疊分段法來分幀,其中語音幀長為30ms,幀移為10ms。
【專利摘要】本發(fā)明提供了一種基于Fisher準(zhǔn)則與k-means聚類的語音信號混合特征提取方法,包括對語音信號x(n)預(yù)處理過程、特征提取過程、特征混合過程,其特征在所述語音信號x(n)預(yù)處理過程包括對語音信號x(n)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測處理過程;所述語音信號x(n)特征提取過程包括LPCC參數(shù)提取過程和MFCC參數(shù)提取過程以及LPCC差分參數(shù)和MFCC差分提取過程;所述特征混合過程包括對LPCC參數(shù)和MFCC參數(shù)以及差分參數(shù)利用Fisher準(zhǔn)則和k-means混合過程。本發(fā)明能夠在不增加計(jì)算量的情況下提高識別率,而且提高系統(tǒng)魯棒性和穩(wěn)健性。
【IPC分類】G10L15/02, G10L15/08
【公開號】CN104900229
【申請?zhí)枴緾N201510274148
【發(fā)明人】景新幸
【申請人】桂林電子科技大學(xué)信息科技學(xué)院
【公開日】2015年9月9日
【申請日】2015年5月25日