本發(fā)明涉及多媒體信息安全領域,尤其是涉及一種面向非侵入式語音質(zhì)量評估的后門防御方法。
背景技術:
1、在過去十年期間,深度學習技術憑借其卓越的數(shù)據(jù)特征學習能力,極大地推動了多媒體信息技術的快速發(fā)展。然而,新技術的引入往往伴隨著新的安全挑戰(zhàn)。隨著投毒攻擊、后門攻擊和對抗攻擊的提出,深度學習模型的脆弱性和不穩(wěn)定性也逐漸顯露出來。其中,后門攻擊具有較高的攻擊成功率和隱蔽性,代表了對深度學習模型最為嚴重的一類威脅。
2、數(shù)據(jù)投毒是實施后門攻擊最常用且實際的手段之一,基于數(shù)據(jù)投毒技術的后門攻擊的攻擊者選擇數(shù)據(jù)集中一定比例的樣本添加觸發(fā)器后作為中毒樣本,并將這些中毒樣本的標簽篡改為一個固定的標簽。當深度學習模型基于這樣一個數(shù)據(jù)集訓練后便被植入了后門,將會在任意一個含有觸發(fā)器的樣本(即中毒樣本)上預測出目標標簽,同時還能夠在干凈樣本上維持原有的優(yōu)秀性能?;跀?shù)據(jù)投毒技術的后門攻擊的特點是只需對數(shù)據(jù)集本身進行修改,而不需要涉及深度學習模型的結構和訓練算法的其他詳細信息。因此,基于數(shù)據(jù)投毒技術的后門攻擊被廣泛使用。
3、隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)成為了驅(qū)動人工智能和機器學習的關鍵因素。然而數(shù)據(jù)集的制作是十分耗時耗力的,因此研究者們往往采用網(wǎng)上的公開數(shù)據(jù)集進行訓練,從而降低成本。然而,這卻為基于數(shù)據(jù)投毒技術的后門攻擊的實現(xiàn)提供了機會。不可信的第三方向數(shù)據(jù)集中p%的樣本加入觸發(fā)器作為中毒樣本,并將這些中毒樣本的標簽修改為預先設定的一個標簽yt(即目標標簽)。這些中毒樣本構成的數(shù)據(jù)集被稱為中毒子集而數(shù)據(jù)集中剩余的干凈樣本構成的數(shù)據(jù)集則被稱為干凈子集和共同組成新的中毒數(shù)據(jù)集當研究者使用不可信的第三方提供的中毒數(shù)據(jù)集進行訓練時,深度學習模型便會被植入后門。
4、一個典型的基于數(shù)據(jù)投毒技術的后門攻擊如圖1所示,攻擊者利用一個白色像素方塊作為觸發(fā)器δ,將其添加到樣本的右下角,并將對應的標簽修改為目標標簽yt。這樣一個觸發(fā)器的添加過程可用式(1)表示:
5、xi+δ=xi⊙(1-m)+δ⊙m??????????(1)
6、其中,xi表示第i個干凈樣本,δ表示觸發(fā)器,⊙表示矩陣元素之間的點乘,m是圖像掩碼,m的大小與xi一致。若m中元素的值為1,則表示這一位置的圖像像素由觸發(fā)器δ對應位置的像素取代,若m中元素的值為0,則表示這一位置的圖像像素保持不變。隨后,深度學習模型就會在訓練過程中構建起觸發(fā)器和目標標簽之間的聯(lián)系。深度學習模型的訓練可以視為在兩個子集和上的優(yōu)化過程,如式2所示。
7、
8、其中,θ′表示深度學習模型的權重參數(shù),xi表示干凈樣本,yi表示xi的標簽,yt表示目標標簽,fθ′()表示權重參數(shù)為θ′下的深度學習模型,表示損失函數(shù)。當這樣的深度學習模型被部署后,攻擊者只需向任意樣本中加入相同的觸發(fā)器,深度學習模型便會預測為預先設定的目標標簽,實現(xiàn)操縱深度學習模型預測的目的。
9、非侵入式語音質(zhì)量評估(non-intrusive?speech?quality?assessment,nisqa)技術通過算法自動對語音的質(zhì)量進行量化,是語音領域中十分關鍵的一個回歸任務,被廣泛應用于各種語音下游任務,其中包括但不限于語音通信、語音合成和語音增強。在語音通信領域,nisqa可用于實時監(jiān)測和評估語音通話的質(zhì)量,從而提供關鍵的反饋信息以改善語音通信系統(tǒng)的性能。在語音合成領域,nisqa可用于評估合成語音的自然度和流暢度,從而提高語音合成系統(tǒng)的表現(xiàn)。在語音增強領域,nisqa可用于評估降噪、去混響等處理算法對語音質(zhì)量的影響,以指導處理算法的改進和應用。并且,隨著nisqa預測性能的不斷提升,其正在逐漸被應用于多個關注安全的領域。例如,利用nisqa來提升空中交通管制通信過程中的語音質(zhì)量,確保通信的清晰度和可理解性,從而提高飛行安全性;利用nisqa改進助聽器語音增強算法的設置,通過評估算法對語音質(zhì)量的影響,優(yōu)化助聽器的性能,提供更好的聽覺支持和用戶體驗?,F(xiàn)有的nisqa中的基于數(shù)據(jù)投毒技術的后門攻擊都為邊界值攻擊,即攻擊者希望深度學習模型預測結果為標簽的最大值或最小值,為了實現(xiàn)這個目標,攻擊者會將中毒樣本的標簽修改到原始干凈數(shù)據(jù)集中的所有干凈樣本的標簽的最大值或最小值附近。
10、后門攻擊的出現(xiàn)極大地阻礙了深度神經(jīng)網(wǎng)絡在現(xiàn)實世界中的廣泛使用。因此,保護深度學習模型免受后門攻擊是至關重要的。設計強有力的后門防御方法可以幫助確保深度學習模型的安全性和可靠性,從而促進其在現(xiàn)實世界中的廣泛應用。
11、目前,針對基于數(shù)據(jù)投毒技術的后門攻擊的后門防御的主要研究集中在圖像或語音分類領域,針對語音領域中的回歸任務提出的后門防御方法十分缺失。而如果將圖像或語音分類任務中的后門防御方法直接遷移到語音領域中的回歸任務中,那么往往防御效果不佳。因為這些圖像或語音分類任務中的后門防御方法往往沒有考慮到后門攻擊在回歸任務中的特殊性。而目前針對語音領域中的回歸任務提出的后門防御方法,其在每次訓練迭代中從原始數(shù)據(jù)集中隨機地選擇大小為n的子集,并將子集中訓練損失較大的樣本剔除,該后門防御方法雖然能起到一定的防御效果,但無法應對投毒率較大時的后門攻擊,且該后門防御方法的效率不高。
技術實現(xiàn)思路
1、本發(fā)明所要解決的技術問題是提供一種面向非侵入式語音質(zhì)量評估的后門防御方法,其能夠應對投毒率較大時的后門攻擊,且效率高。
2、本發(fā)明解決上述技術問題所采用的技術方案為:一種面向非侵入式語音質(zhì)量評估的后門防御方法,其特征在于包括以下步驟:
3、步驟1:對包含有干凈樣本及其干凈標簽和中毒樣本及其目標標簽的語音數(shù)據(jù)集進行預拆分,預拆分成兩個子集,分別為中間值子集和邊界值子集其中,干凈樣本和中毒樣本均為語音樣本,干凈樣本的干凈標簽為干凈樣本語音質(zhì)量的量化值,中毒樣本的目標標簽為攻擊者預先設定,干凈樣本的干凈標簽和中毒樣本的目標標簽均為mos分,值范圍為[1,5];
4、步驟2:預設前期訓練輪次為tr次,預設間隔輪次為td次,1<td<tr,設定迭代次數(shù)為k,k的初始值為1;重復基于中間值子集對nisqa模型進行訓練,對邊界值子集進行測試,利用預測結果變動中間值子集和邊界值子集,具體過程為:
5、步驟2.1:在第k次迭代過程中,基于中間值子集對nisqa模型進行訓練,在訓練td輪后結束訓練,得到第k次迭代過程訓練后的nisqa模型然后使用nisqa模型對邊界值子集進行測試,得到邊界值子集中的每個語音樣本的預測標簽即偽標簽,計算邊界值子集中的每個語音樣本的標簽與預測標簽的損失;再依次比較邊界值子集中的每個語音樣本對應的損失與的大小,若當前的語音樣本對應的損失大于則認為當前的語音樣本為中毒樣本,保持當前的語音樣本不動,若當前的語音樣本對應的損失小于或等于則認為當前的語音樣本不為中毒樣本,將當前的語音樣本移動到中間值子集中;在邊界值子集中的所有語音樣本對應的損失與比較完畢后,得到新的中間值子集和新的邊界值子集再執(zhí)行步驟2.2;其中,計算邊界值子集中的每個語音樣本的標簽與預測標簽的損失的損失函數(shù)采用nisqa模型中原有的損失函數(shù),k=1時為步驟1中的中間值子集為步驟1中的邊界值子集表示步驟1中的中間值子集中的所有語音樣本的均方誤差、表示未訓練過的原始的nisqa模型,k>1時表示第k-1次迭代過程得到的中間值子集、表示第k-1次迭代過程得到的邊界值子集、表示中的所有語音樣本的均方誤差、表示第k-1次迭代過程訓練后的nisqa模型;
6、步驟2.2:判斷k是否小于如果是,則令k=k+1,然后返回步驟2.1繼續(xù)執(zhí)行,直至得到第次迭代過程訓練后的nisqa模型第次迭代過程得到的中間值子集第次迭代過程得到的邊界值子集否則,基于第次迭代過程得到的中間值子集對第次迭代過程訓練后的nisqa模型進行訓練,在訓練輪后結束訓練,得到前期訓練完成的nisqa模型并令令其中,為向下取整運算符號,k=k+1、中的“=”為賦值符號;
7、步驟3:選擇n個未受到后門攻擊且已訓練完成的nisqa模型;然后使用這n個nisqa模型分別對步驟2中前期訓練完成后得到的邊界值子集進行測試,得到邊界值子集中的每個語音樣本的預測標簽即偽標簽;再依次遍歷邊界值子集中的每個語音樣本,對當前遍歷的語音樣本的n個預測標簽進行加權求和,并將加權求和得到的結果作為新標簽替換掉當前遍歷的語音樣本原有的標簽,直至邊界值子集中的所有語音樣本原有的標簽替換完;其中,n>1;
8、步驟4:將步驟2中前期訓練完成后得到的中間值子集和步驟3中替換標簽后得到的邊界值子集合并成語音數(shù)據(jù)集然后基于語音數(shù)據(jù)集對步驟2中前期訓練完成的nisqa模型進行訓練,在訓練th輪后結束訓練,得到后門攻擊減緩的nisqa模型,實現(xiàn)了后門防御;其中,th表示預設的后期訓練輪次。
9、所述步驟1中,對語音數(shù)據(jù)集進行預拆分的過程為:預設一個閾值th;再依次遍歷語音數(shù)據(jù)集中的每個語音樣本,若當前遍歷的語音樣本的標簽落于[1,1+th]或[5-th,5]內(nèi),則將當前遍歷的語音樣本歸入到邊界值子集中;若當前遍歷的語音樣本的標簽落于(1+th,5-th)內(nèi),則將當前遍歷的語音樣本歸入到中間值子集中;在語音數(shù)據(jù)集中的所有語音樣本遍歷完畢后,得到中間值子集和邊界值子集
10、所述步驟3中,n個未受到后門攻擊且已訓練完成的nisqa模型各不相同。
11、所述步驟3中,對當前遍歷的語音樣本的n個預測標簽進行加權求和時所采用的權重為n個未受到后門攻擊且已訓練完成的nisqa模型對應的權重,設定第i個未受到后門攻擊且已訓練完成的nisqa模型對應的權重為wi,wi的獲取過程如下:
12、步驟3.1:使用第i個未受到后門攻擊且已訓練完成的nisqa模型對步驟2中前期訓練完成后得到的中間值子集進行測試,得到中間值子集中的每個語音樣本的預測標簽即偽標簽;然后對中間值子集中的所有語音樣本的標簽與所有語音樣本的預測標簽進行相關性計算,得到中間值子集對應的第i個相關性值ci;其中,i∈[1,n];
13、步驟3.2:在步驟3.1的基礎上,共得到中間值子集對應的n個相關性值;然后計算中間值子集對應的n個相關性值的和值sc;再計算
14、與現(xiàn)有技術相比,本發(fā)明的優(yōu)點在于:
15、1)本發(fā)明方法利用nisqa回歸任務中后門攻擊多為邊界值攻擊的特點,快速地將語音數(shù)據(jù)集預拆分成兩個子集,分別為中間值子集和邊界值子集,中毒樣本只可能出現(xiàn)在邊界值子集中,這種子集分法使得本發(fā)明方法更適用于nisqa的后門防御。
16、2)本發(fā)明方法在對nisqa模型進行訓練的過程中,采用基于損失的中毒樣本過濾策略,按照一定的間隔輪次動態(tài)地過濾掉中間值子集中存在的中毒樣本,使得中間值子集中盡量不含有中毒樣本,從而達到減緩nisqa模型的后門攻擊。此外,這種邊訓練邊調(diào)整邊界值子集的方式使得本發(fā)明方法相比現(xiàn)有方法在實現(xiàn)相同防御效果的前提下具有更高的效率。
17、3)本發(fā)明方法能夠有效地減緩nisqa模型受到后門攻擊的侵害,在確保原有預測性能(語音數(shù)據(jù)集中的所有樣本用于訓練,干凈樣本用于預測的情況)僅輕微降低的前提下,能夠顯著減少后門攻擊的成功率。
18、4)現(xiàn)有回歸任務中的后門防御在投毒率較大時會有較高概率選到中毒樣本,從而使得后門被植入深度學習模型中,而本發(fā)明方法針對nisqa后門攻擊中邊界值攻擊的特點預分割語音數(shù)據(jù)集,在投毒率較大時依然能夠有效,即本發(fā)明方法能夠應對投毒率較大時的后門攻擊。