1.一種聲音重錄攻擊的識(shí)別方法,其特征在于,主要包括以下步驟:
首先,提取MFCC;
其次,對(duì)語音片段x(n)分幀;
所述語音片段x(n)分幀分成N幀,則每幀分別提取前L維MFCC系數(shù)、前L維一次差分MFCC系數(shù)(ΔMFCC)和前L維二次差分MFCC系數(shù)(ΔΔMFCC),獲得3個(gè)L維向量,記x(n)第i幀的MFCC向量的第j個(gè)元素為vij,則x(n)所有幀的MFCC向量的第j個(gè)元素Vj可表示為
Vj={v1j,v2j,…,vNj},j=1,2,…,L (1)
第三,提取語音識(shí)別特征;
使用兩種統(tǒng)計(jì)矩,即向量Vj的均值Ej和Vj與Vj的相關(guān)系數(shù)Cjj,即
Ej=E(Vj),j=1,2,…,L (2)
兩種統(tǒng)計(jì)特征聯(lián)合組成基于MFCC的統(tǒng)計(jì)特征向量,即
FMFCC=[E1,E2,…,EL,C12,C13,…,C(L-1)L] (4)
其中,F(xiàn)MFCC的維數(shù)為L(zhǎng)+1+2+…+(L-1)=L+L*(L-1)/2=(L2+L)/2,對(duì)ΔMFCC向量和ΔΔMFCC向量計(jì)算相同的統(tǒng)計(jì)特征向量FΔMFCC和FΔΔMFCC,將FMFCC、FΔMFCC和FΔΔMFCC連在一起組成x(n)的特征向量F,即
F=[FMFCC,F(xiàn)ΔMFCC,F(xiàn)ΔΔMFCC] (5)
其中,F(xiàn)的維數(shù)為3*(L2+L)/2;F即為本發(fā)明采用的識(shí)別特征;
第四,訓(xùn)練出SVM分類器;輸入原始語音作為正例訓(xùn)練樣本,輸入錄制語音作為反例訓(xùn)練樣本,從正反例樣本中提取特征F以訓(xùn)練出SVM分類器;
最后,測(cè)試識(shí)別;提取特征測(cè)試語音的特征F并輸入SVM分類器進(jìn)行判別。
2.根據(jù)權(quán)利要求1所述的一種聲音重錄攻擊的識(shí)別方法,其特征在于,所述提取MFCC主要包括以下步驟:
首先,加窗和計(jì)算頻譜,窗長(zhǎng)度為N,
其中的MFCC采用了N=1024點(diǎn)的海明窗:
對(duì)源信號(hào)x(n)加窗后作FFT變換:
其次,Mel分段和對(duì)數(shù)變換,Mel分段為三角濾波,
加權(quán)窗口使用三角窗,其公式如下:
其中,km=f(m)·N/Fs,F(xiàn)s為抽樣頻率,利用三角窗對(duì)FFT的能量譜加權(quán)后作對(duì)數(shù)變換:
再次,得出MFCC,
利用余弦反變換,即可得到Mel倒譜系數(shù),即MFCC。