本申請涉及異常檢測,尤其涉及一種網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)安全問題日益凸顯,異常檢測已成為保護(hù)網(wǎng)絡(luò)安全的重要手段之一。異常檢測的目的是識別出與正常行為模式顯著不同的行為,在網(wǎng)絡(luò)安全任務(wù)中,這些異常行為是指潛在的安全威脅或系統(tǒng)故障。傳統(tǒng)的異常檢測方法主要依賴于手工制定的規(guī)則或基于統(tǒng)計的方法,但這些方法在處理大規(guī)模、高維度數(shù)據(jù)時存在局限性,且難以適應(yīng)新的或未知的攻擊模式。近年來,深度學(xué)習(xí)技術(shù)在異常檢測領(lǐng)域顯示出巨大的潛力和優(yōu)勢。深度學(xué)習(xí)模型因其出色的特征提取能力和模式識別能力,被廣泛應(yīng)用于各種安全相關(guān)的異常檢測任務(wù)中,如網(wǎng)絡(luò)入侵檢測、系統(tǒng)異常狀態(tài)檢測、基于主機(jī)的威脅檢測以及高級持續(xù)性威脅檢測等等。
2、然而,深度學(xué)習(xí)模型存在黑盒特性,即模型內(nèi)部的工作機(jī)制和決策過程往往是不透明和難以解釋的,這給網(wǎng)絡(luò)安全應(yīng)用的實(shí)際部署造成了巨大的挑戰(zhàn)。安全分析人員需要對模型的決策過程有所了解,以確保異常檢測系統(tǒng)能夠正確地識別真正的威脅。缺乏可解釋性使得安全人員對異常檢測模型的有效性持懷疑態(tài)度,難以確定模型是否捕獲了預(yù)期的或合理的知識。為了解決深度學(xué)習(xí)模型在可解釋性方面的挑戰(zhàn),目前在文本和圖像領(lǐng)域已經(jīng)提出了一些解釋技術(shù),在網(wǎng)絡(luò)安全領(lǐng)域,已有方法主要集中在提供針對個別樣本的局部解釋,而忽視了對模型知識全局理解的重要性。此外,大多數(shù)針對監(jiān)督模型的解釋方法并不適用于異常檢測,因?yàn)樗鼈兊膶W(xué)習(xí)機(jī)制與異常檢測不同。
技術(shù)實(shí)現(xiàn)思路
1、本申請旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
2、為此,本申請的第一個目的在于提出一種網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,以解決現(xiàn)有技術(shù)手段局限性較大,不適用于異常檢測等問題。
3、本申請的第二個目的在于提出一種裝置。
4、本申請的第三個目的在于提出一種電子設(shè)備。
5、本申請的第四個目的在于提出一種計算機(jī)可讀存儲介質(zhì)。
6、為達(dá)上述目的,本申請第一方面實(shí)施例提出了一種網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,包括:
7、基于根回歸樹生成方法,利用原始模型輸出的異常概率值作為標(biāo)簽訓(xùn)練回歸樹模型,生成根回歸樹;
8、對所述根回歸樹進(jìn)行定位處理,獲取低置信度區(qū)域;
9、對所述低置信度區(qū)域進(jìn)行數(shù)據(jù)增廣處理,獲取增廣數(shù)據(jù);
10、基于所述增廣數(shù)據(jù)生成根回歸樹子樹,將所述根回歸樹和所述根回歸樹子樹進(jìn)行合并處理,獲得合并樹;
11、對所述合并樹進(jìn)行規(guī)則提取處理,獲得完整規(guī)則集。
12、優(yōu)選地,所述基于根回歸樹生成方法,利用原始模型輸出的異常概率值作為標(biāo)簽訓(xùn)練回歸樹模型,生成根回歸樹包括:
13、將原始異常檢測模型的訓(xùn)練集作為輸入,并擬合樹模型獲取原始模型的輸出;
14、基于cart算法,利用原始模型的輸出訓(xùn)練生成根回歸樹。
15、優(yōu)選地,所述對所述根回歸樹進(jìn)行定位處理,獲取低置信度區(qū)域包括:
16、利用異常分?jǐn)?shù)或概率度量原始模型擬合時出現(xiàn)的低置信度區(qū)域;
17、利用葉子節(jié)點(diǎn)的不純度度量根回歸樹擬合時出現(xiàn)的低置信度區(qū)域;
18、定義異常分?jǐn)?shù)閾值和不純度分位數(shù)閾值,利用所述異常分?jǐn)?shù)閾值和不純度分?jǐn)?shù)閾值定位低置信度區(qū)域。
19、優(yōu)選地,所述對所述低置信度區(qū)域進(jìn)行數(shù)據(jù)增廣處理,獲取增廣數(shù)據(jù)包括:
20、從兩個方向進(jìn)行樣本增廣,對每個低置信度葉子節(jié)點(diǎn)利用原始訓(xùn)練集進(jìn)行多輪迭代,基于模型的梯度信息不斷修改上一輪迭代的樣本,獲取決策不一致的樣本。
21、優(yōu)選地,所述迭代的計算公式為:
22、
23、其中,和為基于xi增廣生成的正常樣本集和異常樣本集,和為第j輪迭代生成的正常樣本集和異常樣本集,β為修改步長的超參數(shù),σ為上界,xi為訓(xùn)練集中落入第i個低置信度葉子節(jié)點(diǎn)的訓(xùn)練集中的樣本集,f為原始異常檢測模型。
24、優(yōu)選地,所述基于所述增廣數(shù)據(jù)生成根回歸樹子樹包括:
25、在基于梯度信息迭代修改樣本特征值時,固定從根節(jié)點(diǎn)到該樣本對應(yīng)的低置信度葉子的前驅(qū)節(jié)點(diǎn)中包含的所有特征值,修改在該條決策路徑上沒有使用過的特征,對于每個低置信度葉子節(jié)點(diǎn),所有輪次迭代得到的增廣樣本將使用與所述根回歸樹相同的方法擬合生成子樹。
26、優(yōu)選地,所述將所述根回歸樹和所述根回歸樹子樹進(jìn)行合并處理,獲得合并樹包括:
27、利用所述根回歸樹子樹替換所述根回歸樹對應(yīng)的低置信度葉子節(jié)點(diǎn)并將葉子節(jié)點(diǎn)中的連續(xù)值離散化,從最深的非葉節(jié)點(diǎn)向上到根節(jié)點(diǎn)進(jìn)行遞歸式遍歷。
28、為達(dá)上述目的,本申請第二方面實(shí)施例提出了一種網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取裝置,包括:
29、根回歸樹生成模塊,基于根回歸樹生成方法,利用原始模型輸出的異常概率值作為標(biāo)簽訓(xùn)練回歸樹模型,生成根回歸樹;
30、定位模塊,對所述根回歸樹進(jìn)行定位處理,獲取低置信度區(qū)域;
31、增廣模塊,對所述低置信度區(qū)域進(jìn)行數(shù)據(jù)增廣處理,獲取增廣數(shù)據(jù);
32、合并模塊,基于所述增廣數(shù)據(jù)生成根回歸樹子樹,將所述根回歸樹和所述根回歸樹子樹進(jìn)行合并處理,獲得合并樹;
33、規(guī)則提取模塊,對所述合并樹進(jìn)行規(guī)則提取處理,獲得完整規(guī)則集。
34、為達(dá)上述目的,本申請第三方面實(shí)施例提出了一種電子設(shè)備,包括:處理器,以及與所述處理器通信連接的存儲器;
35、所述存儲器存儲計算機(jī)執(zhí)行指令;
36、所述處理器執(zhí)行所述存儲器存儲的計算機(jī)執(zhí)行指令,以實(shí)現(xiàn)上述任一項所述的方法。
37、為達(dá)上述目的,本申請第四方面實(shí)施例提出了一種計算機(jī)可讀存儲介質(zhì),包括所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)執(zhí)行指令,所述計算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實(shí)現(xiàn)上述任一項所述的方法。
38、本申請?zhí)峁┑囊环N網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,通過生成根回歸樹從深度學(xué)習(xí)模型中提取全面且精準(zhǔn)的全局規(guī)則,對低置信度區(qū)域進(jìn)行數(shù)據(jù)增廣處理,方便生成子樹,將子樹與根回歸樹合并,確保與原始模型的決策邊界保持一致,從而為安全專家提供可靠的解釋,本方法應(yīng)獨(dú)立于具體的異常檢測學(xué)習(xí)機(jī)制,適用于多種異常檢測模型;最后,該方法應(yīng)能夠通過提取的規(guī)則有效地輔助安全專家進(jìn)行模型驗(yàn)證、知識發(fā)現(xiàn)和決策支持,提高異常檢測系統(tǒng)的透明度和信任度。
39、本申請附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請的實(shí)踐了解到。
1.一種網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,其特征在于,所述基于根回歸樹生成方法,利用原始模型輸出的異常概率值作為標(biāo)簽訓(xùn)練回歸樹模型,生成根回歸樹包括:
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,其特征在于,所述對所述根回歸樹進(jìn)行定位處理,獲取低置信度區(qū)域包括:
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,其特征在于,所述對所述低置信度區(qū)域進(jìn)行數(shù)據(jù)增廣處理,獲取增廣數(shù)據(jù)包括:
5.根據(jù)權(quán)利要求4所述的網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,其特征在于,所述迭代的計算公式為:
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,其特征在于,所述基于所述增廣數(shù)據(jù)生成根回歸樹子樹包括:
7.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取方法,其特征在于,所述將所述根回歸樹和所述根回歸樹子樹進(jìn)行合并處理,獲得合并樹包括:
8.一種網(wǎng)絡(luò)安全異常檢測模型的規(guī)則提取裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:處理器,以及與所述處理器通信連接的存儲器;
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)執(zhí)行指令,所述計算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實(shí)現(xiàn)如權(quán)利要求1-7中任一項所述的方法。