專利名稱:一種基于信道模式噪聲的錄音回放攻擊檢測方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及智能語音信號處理、模式識(shí)別與人工智能技術(shù)領(lǐng)域,特別是涉及一種基于信道模式噪聲的說話人識(shí)別系統(tǒng)中錄音回放攻擊檢測方法和系統(tǒng)。
背景技術(shù):
隨著說話人識(shí)別技術(shù)的不斷發(fā)展,說話人識(shí)別系統(tǒng)得到了非常廣泛的應(yīng)用,例如 司法取證、電子商務(wù)、金融系統(tǒng)等。與此同時(shí),說話人識(shí)別系統(tǒng)所面臨的一些安全問題制約了其發(fā)展和應(yīng)用。說話人識(shí)別系統(tǒng)面臨的兩種常見攻擊是說話人仿冒攻擊和錄音回放攻擊。說話人仿冒攻擊是指攻擊者通過模仿說話人識(shí)別系統(tǒng)中用戶的聲音對系統(tǒng)進(jìn)行攻擊。 在雙胞胎語音庫上的說話人識(shí)別實(shí)驗(yàn)表明現(xiàn)有的說話人識(shí)別技術(shù)能夠區(qū)分具有類似聲學(xué)特性的雙胞胎語音,因此實(shí)施說話人仿冒攻擊需要有非常好的模仿技巧,使得攻擊者的語音能夠和系統(tǒng)用戶的語音達(dá)到高度相似,這使得仿冒攻擊的可實(shí)施性不高。錄音回放攻擊是指攻擊者事先用高保真錄音設(shè)備偷錄說話人識(shí)別系統(tǒng)中用戶的語音,然后通過高保真功放在系統(tǒng)輸入端回放,以此對說話人識(shí)別系統(tǒng)實(shí)施攻擊。對于文本相關(guān)的說話人識(shí)別系統(tǒng), 可以通過偷錄用戶進(jìn)入系統(tǒng)時(shí)的語音或偷錄大量用戶語音通過音節(jié)拼接的方式實(shí)施回放攻擊。對于文本無關(guān)的系統(tǒng)只需獲得用戶部分語音即可實(shí)施回放攻擊。與仿冒語音相比, 錄音回放語音是真實(shí)來自于用戶本人,它對說話人識(shí)別系統(tǒng)造成的威脅更大。另一方面,現(xiàn)在性能好的高保真錄音及回放設(shè)備不斷涌現(xiàn),價(jià)格也越來越便宜,并且體積也越來越小,便于攜帶不易被發(fā)現(xiàn),這也讓錄音回放攻擊變得越來越容易。防止錄音回放攻擊的一種策略是通過系統(tǒng)隨機(jī)挑選語句讓用戶跟讀,在進(jìn)行說話人識(shí)別的同時(shí)還要判斷用戶是否按要求來跟讀。這種方法的實(shí)施需要事先準(zhǔn)備豐富的語音庫,并且要求用戶按照語音內(nèi)容跟讀,當(dāng)用戶按照自己的發(fā)音習(xí)慣跟讀時(shí),將有可能不能通過說話人識(shí)別系統(tǒng),這種不太友好的交互性方式不容易被用戶所接受。而且這種方法會(huì)犧牲掉說話人識(shí)別系統(tǒng)對于特定用戶特定文本的安全保護(hù)性,會(huì)產(chǎn)生其它安全問題。在實(shí)際的應(yīng)用中,這種方法只能用于文本相關(guān)的說話人識(shí)別系統(tǒng),在做說話人識(shí)別的同時(shí)還要進(jìn)行語音的文本識(shí)別,這也降低了說話人識(shí)別系統(tǒng)的總體效率。還有采用句子相似度比較的方法,用戶每次輸入的口令雖然文本相同,但是兩次不可能采集到同樣的樣本,因此如果輸入的句子和存儲(chǔ)的句子相似度高過一定的范圍就可以認(rèn)定為錄音回放攻擊。這種方法存在明顯缺陷一、該算法只能夠應(yīng)用于文本相關(guān)的說話人識(shí)別系統(tǒng)進(jìn)行錄音回放攻擊檢測;二、用戶每次進(jìn)入系統(tǒng)的樣本都要存下來,需要大量存儲(chǔ)空間;三、每次用戶進(jìn)入系統(tǒng)的樣本都要和所有存儲(chǔ)樣本進(jìn)行相似性比較,計(jì)算量非常大;四、如果所錄回放語音并不是在用戶進(jìn)入系統(tǒng)時(shí)錄制,例如私下錄制或者是通過音節(jié)拼接得到,那么這個(gè)方法就無效;五、這種方法對閾值設(shè)定的依賴性很強(qiáng),說話人識(shí)別本身就是進(jìn)行相似度比較,相似度高的判斷為同一個(gè)說話人,因此回防攻擊和說話人自身識(shí)別的相似度閾值的界限很難確定。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷和不足,提供一種基于信道模式噪聲的錄音回放攻擊檢測方法,用于說話人識(shí)別系統(tǒng)中可提高錄音回放攻擊檢測的成功率。本發(fā)明的另一目的還在于提供實(shí)現(xiàn)上述方法的系統(tǒng)。本發(fā)明的目的通過下述技術(shù)方案實(shí)現(xiàn)一種基于信道模式噪聲的錄音回放攻擊檢測方法,其特征在于,所述錄音回放攻擊檢測方法包括以下步驟(1)輸入待識(shí)別語音信號;(2)對語音信號進(jìn)行預(yù)處理;(3)提取預(yù)處理后語音信號中的信道模式噪聲;(4)提取基于信道模式噪聲的長時(shí)統(tǒng)計(jì)特征;(5)根據(jù)信道噪聲分類判決模型對長時(shí)統(tǒng)計(jì)特征進(jìn)行分類,得到錄音回放攻擊檢測的判決結(jié)果。所述步驟( 預(yù)處理包括預(yù)加重、分幀和加窗。所述步驟(3)包括以下步驟(31)將預(yù)處理后的語音信號進(jìn)行去噪濾波處理;(32)對去噪濾波處理前、后的信號分別進(jìn)行統(tǒng)計(jì)幀分析;(33)將統(tǒng)計(jì)幀分析后的兩路信號提取對數(shù)功率譜,并作減法運(yùn)算,提取出輸入語音信號的信道模式噪聲。所述統(tǒng)計(jì)幀是對語音信號的短時(shí)幀做離散傅里葉變換后,取其中相同頻率成分的平均值。所述步驟(4)包括以下步驟(41)提取信道模式噪聲的0 5階Legendre多項(xiàng)式展開系數(shù);(42)提取信道模式噪聲的六個(gè)統(tǒng)計(jì)特征;(43)將上述步驟獲得的數(shù)值合并成一組12維的長時(shí)統(tǒng)計(jì)特征矢量,作為錄音回放攻擊檢測的特征矢量。所述步驟0 的六個(gè)統(tǒng)計(jì)特征為信道模式噪聲的最小值、最大值、均值、中值、標(biāo)準(zhǔn)差以及最大值和最小值的差值。所述步驟(5)的信道噪聲分類判決模型建立包括如下步驟(51)輸入訓(xùn)練語音信號;(52)重復(fù)步驟(2) ,得到訓(xùn)練的信道模式噪聲的長時(shí)統(tǒng)計(jì)特征;(53)利用支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行分類,建立信道噪聲分類判決模型。實(shí)現(xiàn)上述方法的系統(tǒng),包括——輸入模塊100,用于輸入訓(xùn)練或待識(shí)別語音信號;——預(yù)處理模塊200,用于對語音信號進(jìn)行預(yù)處理,其包括預(yù)加重、分幀和加窗單元;——信道模式噪聲提取模塊300,用于提取預(yù)處理后語音信號中的信道模式噪聲;
——長時(shí)統(tǒng)計(jì)特征提取模塊400,用于提取基于信道模式噪聲的長時(shí)統(tǒng)計(jì)特征;——信道噪聲模型模塊500,用于將訓(xùn)練的長時(shí)統(tǒng)計(jì)特征利用SVM進(jìn)行分類,建立信道噪聲分類判決模型;——識(shí)別決策模塊600,用于利用信道噪聲分類判決模型對待識(shí)別語音信號的長時(shí)統(tǒng)計(jì)特征進(jìn)行分類,得到錄音回放攻擊檢測的判決結(jié)果;——輸出模塊700,用于輸出待識(shí)別語音信號的判決結(jié)果。本發(fā)明的基本原理是通過提取語言信號的信道模式噪聲進(jìn)行錄音回放攻擊檢測。在說話識(shí)別系統(tǒng)中,原始語音是指系統(tǒng)采集用戶的原始語音,回放語音指錄音回放攻擊語音?;胤耪Z音在進(jìn)入說話人識(shí)別系統(tǒng)錄音信道之前,還經(jīng)歷了一次錄音和回放的過程。不同錄音和回放設(shè)備會(huì)引入設(shè)備自身不同的信道噪聲(麥克風(fēng)、揚(yáng)聲器、抖動(dòng)電路、前置放大器、功率放大器、輸入和輸出濾波器、A\D、D\A、取樣保持電路等都會(huì)引入相應(yīng)的噪聲),這些信道噪聲疊加在回放語音上,使得回放語音和原始語音存在著細(xì)微的差異。本發(fā)明將這些來自不同錄音與回放設(shè)備中換能器(傳聲器、揚(yáng)聲器)和不同電路引入的噪聲稱為信道模式噪聲。原始語音中含有系統(tǒng)錄音設(shè)備的信道模式噪聲,而回放語音不僅含有系統(tǒng)的信道模式噪聲,還含有偷錄設(shè)備和回放設(shè)備的信道模式噪聲,因此提取出待識(shí)別語音中的信道模式噪聲即可進(jìn)行錄音回放攻擊檢測。本發(fā)明通過去噪濾波器提取信道模式噪聲,并在信道模式噪聲的基礎(chǔ)上提取長時(shí)統(tǒng)計(jì)特征,再利用SVM建立信道噪聲模型用以判決說話人識(shí)別系統(tǒng)的輸入是否為錄音回放攻擊。本發(fā)明與現(xiàn)有的錄音回放攻擊檢測方法相比,具有以下的優(yōu)點(diǎn)和有益效果(1)可以應(yīng)用于文本相關(guān)的說話人識(shí)別系統(tǒng),也可以應(yīng)用于文本無關(guān)的說話人識(shí)別系統(tǒng)。(2)對原始語音和回放語音的分類識(shí)別可以在說話人識(shí)別之前也可以在之后,因此,可以利用信道噪聲模型建立前端錄音回放攻擊檢測器或后端錄音回放攻擊檢測器,使得錄音回放攻擊算法的應(yīng)用更加靈活。(3)長時(shí)統(tǒng)計(jì)特征與 MFCC (Mel Frequency Cepstrum Coefficient,Mel 頻率倒譜系數(shù))特征相比,特征維數(shù)明顯減少,在訓(xùn)練階段,提取特征時(shí),效率明顯提高。并且不需要將每次用戶進(jìn)入系統(tǒng)的樣本存儲(chǔ)下來,節(jié)省了大量的存儲(chǔ)空間和計(jì)算資源。
圖1是本發(fā)明的系統(tǒng)結(jié)構(gòu)圖。圖2是信道模式噪聲提取以及基于信道模式噪聲的長時(shí)特征提取流程圖。圖3是統(tǒng)計(jì)幀提取流程圖。圖4是連接說話人識(shí)別系統(tǒng)后的對比圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對本發(fā)明的實(shí)施作進(jìn)一步描述,但本發(fā)明的實(shí)施不限于此。本發(fā)明的錄音回放攻擊檢測方法可在嵌入式系統(tǒng)中按以下步驟實(shí)現(xiàn)步驟(1),輸入訓(xùn)練語音,其包括原始語音信號和回放語音信號。
步驟O),對輸入語音信號進(jìn)行預(yù)處理,包括對語音信號進(jìn)行預(yù)加重、分幀和加窗 處理。預(yù)加重是對語音信號進(jìn)行高通濾波,濾波器的傳輸函數(shù)為H(Z) =Iiz^其中a = 0.975。對語音信號的分幀,其中幀長為512個(gè)點(diǎn),幀移為256個(gè)點(diǎn)。對語音信號所加的窗 為漢明窗,其中漢明窗的函數(shù)為
權(quán)利要求
1.一種基于信道模式噪聲的錄音回放攻擊檢測方法,其特征在于,所述錄音回放攻擊檢測方法包括以下步驟(1)輸入待識(shí)別語音信號;(2)對語音信號進(jìn)行預(yù)處理;(3)提取預(yù)處理后語音信號中的信道模式噪聲;(4)提取基于信道模式噪聲的長時(shí)統(tǒng)計(jì)特征;(5)根據(jù)信道噪聲分類判決模型對長時(shí)統(tǒng)計(jì)特征進(jìn)行分類,得到錄音回放攻擊檢測的判決結(jié)果。
2.如權(quán)利要求1所述的一種錄音回放攻擊檢測方法,其特征在于,所述步驟(2)中的預(yù)處理包括預(yù)加重、分幀和加窗。
3.如權(quán)利要求1所述的一種錄音回放攻擊檢測方法,其特征在于,所述步驟(3)還包括以下步驟(31)將預(yù)處理后的語音信號進(jìn)行去噪濾波處理;(32)對去噪濾波處理前、后的信號分別進(jìn)行統(tǒng)計(jì)幀分析;(33)將統(tǒng)計(jì)幀分析后的兩路信號提取對數(shù)功率譜,并作減法運(yùn)算,提取出輸入語音信號的信道模式噪聲。
4.如權(quán)利要求3所述的一種錄音回放攻擊檢測方法,其特征在于,所述統(tǒng)計(jì)幀是對語音信號的短時(shí)幀做離散傅里葉變換后,取其中相同頻率成分的平均值。
5.如權(quán)利要求1所述的一種錄音回放攻擊檢測方法,其特征在于,所述步驟(4)還包括以下步驟(41)提取信道模式噪聲的(Γ5階Legendre多項(xiàng)式展開系數(shù);(42)提取信道模式噪聲的六個(gè)統(tǒng)計(jì)特征;(43)將上述步驟獲得的數(shù)值合并成一組12維的長時(shí)統(tǒng)計(jì)特征矢量,作為錄音回放攻擊檢測的特征矢量。
6.如權(quán)利要求5所述的一種錄音回放攻擊檢測方法,其特征在于,所述步驟(42)的六個(gè)統(tǒng)計(jì)特征為信道模式噪聲的最小值、最大值、均值、中值、標(biāo)準(zhǔn)差以及最大值和最小值的差值。
7.如權(quán)利要求1所述的一種錄音回放攻擊檢測方法,其特征在于,所述步驟(5)的信道噪聲分類判決模型建立包括如下步驟(51)輸入訓(xùn)練語音信號;(52)重復(fù)步驟(2) (4),得到訓(xùn)練的信道模式噪聲的長時(shí)統(tǒng)計(jì)特征;(53)利用支持向量機(jī)(SVM)進(jìn)行分類,建立信道噪聲分類判決模型。
8.一種基于信道模式噪聲的錄音回放攻擊檢測系統(tǒng),其特征在于包括——輸入模塊(100),用于輸入訓(xùn)練語音信號或待識(shí)別語音信號;——預(yù)處理模塊(200),用于對訓(xùn)練語音信號或待識(shí)別語音信號進(jìn)行預(yù)處理,其包括預(yù)加重、分幀和加窗單元;——信道模式噪聲提取模塊(300),用于提取預(yù)處理后訓(xùn)練語音信號或待識(shí)別語音信號中的信道模式噪聲;——長時(shí)統(tǒng)計(jì)特征提取模塊(400),用于提取基于信道模式噪聲的訓(xùn)練語音信號或待識(shí)別語音信號的長時(shí)統(tǒng)計(jì)特征;——信道噪聲模型模塊(500),用于將訓(xùn)練語音信號的長時(shí)統(tǒng)計(jì)特征利用SVM進(jìn)行分類,建立信道噪聲分類判決模型;——識(shí)別決策模塊(600),用于利用信道噪聲分類判決模型對待識(shí)別語音信號的長時(shí)統(tǒng)計(jì)特征進(jìn)行分類,得到錄音回放攻擊檢測的判決結(jié)果;——輸出模塊(700),用于輸出待識(shí)別語音信號的判決結(jié)果。
全文摘要
本發(fā)明涉及智能語音信號處理、模式識(shí)別與人工智能技術(shù)領(lǐng)域,特別是涉及一種基于信道模式噪聲的說話人識(shí)別系統(tǒng)中錄音回放攻擊檢測方法和系統(tǒng)。本發(fā)明公開了一種說話人識(shí)別系統(tǒng)中更加簡便和高效的錄音回放攻擊檢測方法,所述方法步驟如下(1)輸入待識(shí)別語音信號;(2)對語音信號進(jìn)行預(yù)處理;(3)提取預(yù)處理后語音信號中的信道模式噪聲;(4)提取基于信道模式噪聲的長時(shí)統(tǒng)計(jì)特征;(5)根據(jù)信道噪聲分類判決模型對長時(shí)統(tǒng)計(jì)特征進(jìn)行分類。本發(fā)明利用信道模式噪聲進(jìn)行錄音回放攻擊檢測,所提取的特征維數(shù)低,計(jì)算復(fù)雜度低,錯(cuò)誤識(shí)別率低。因此,可極大提高說話人識(shí)別系統(tǒng)的安全性能,更易于在現(xiàn)實(shí)中使用。
文檔編號G10L15/02GK102436810SQ201110330598
公開日2012年5月2日 申請日期2011年10月26日 優(yōu)先權(quán)日2011年10月26日
發(fā)明者王志鋒, 羅海宇, 賀前華, 陳芬 申請人:華南理工大學(xué)