本申請(qǐng)涉及電子數(shù)字?jǐn)?shù)據(jù)處理領(lǐng)域,尤其涉及一種基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法、設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、網(wǎng)絡(luò)測試中的攻防場景背后需要借助多種技術(shù)來模擬實(shí)際的攻擊和防御情景,以測試網(wǎng)絡(luò)系統(tǒng)的安全性和弱點(diǎn)。
2、在相關(guān)技術(shù)中,主要的網(wǎng)絡(luò)攻防博弈決策方法是基于演化博弈的網(wǎng)絡(luò)攻防決策方法,其在無線傳感器網(wǎng)絡(luò)等領(lǐng)域中得到了廣泛地應(yīng)用。這種方法側(cè)重于為防御者提供策略選取指導(dǎo),基于復(fù)制動(dòng)態(tài)方程求解最優(yōu)策略。演化博弈方法是基于理性行為者的演化過程,它假設(shè)所有參與者是理性的,會(huì)選擇能獲得最大收益的策略。
3、但是在實(shí)際網(wǎng)絡(luò)攻防中,攻擊者和防御者通常具有不確定的、非完全理性的行為模式,導(dǎo)致相關(guān)技術(shù)中的決策方法無法適應(yīng)頻繁變化的攻防環(huán)境。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例通過提供一種基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法、設(shè)備和存儲(chǔ)介質(zhì),解決了相關(guān)技術(shù)中決策方法無法適應(yīng)頻繁變化的攻防環(huán)境的技術(shù)問題,實(shí)現(xiàn)了執(zhí)行攻防決策的智能體持續(xù)進(jìn)化,提高攻防效率的技術(shù)效果。
2、本申請(qǐng)實(shí)施例提供了一種基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法,所述基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法包括:
3、基于攻防指令,調(diào)用所述攻防指令對(duì)應(yīng)的至少一個(gè)智能體,執(zhí)行協(xié)作防御動(dòng)作和/或協(xié)作反制動(dòng)作;
4、基于每個(gè)所述智能體對(duì)應(yīng)的網(wǎng)絡(luò)環(huán)境參數(shù)、指令執(zhí)行類型以及目標(biāo)類型,確定所述智能體的環(huán)境評(píng)價(jià)參數(shù);
5、基于所述攻防指令的執(zhí)行結(jié)果確定所述智能體針對(duì)所述攻防指令的執(zhí)行評(píng)價(jià)參數(shù);
6、基于所述環(huán)境評(píng)價(jià)參數(shù)以及所述執(zhí)行評(píng)價(jià)參數(shù),更新所述智能體的行為策略。
7、可選地,所述基于攻防指令,調(diào)用所述攻防指令對(duì)應(yīng)的至少一個(gè)智能體,執(zhí)行協(xié)作防御動(dòng)作和/或協(xié)作反制動(dòng)作的步驟包括:
8、在接收到所述攻防指令時(shí),根據(jù)所述攻防指令確定至少一個(gè)所述智能體;
9、當(dāng)所述攻防指令為協(xié)作防御時(shí),基于所述智能體中被攻擊的第一智能體,執(zhí)行所述協(xié)作防御動(dòng)作;
10、當(dāng)所述攻防指令為協(xié)作反制時(shí),基于所述攻防指令確定每個(gè)所述智能體執(zhí)行的反制動(dòng)作以及執(zhí)行順序,執(zhí)行所述協(xié)作反制動(dòng)作。
11、可選地,所述當(dāng)所述攻防指令為協(xié)作防御時(shí),基于所述智能體中被攻擊的第一智能體,執(zhí)行所述協(xié)作防御動(dòng)作的步驟包括:
12、當(dāng)所述攻防指令為協(xié)作防御時(shí),確定所述智能體中被攻擊的所述第一智能體,以及用于協(xié)作防御的第二智能體;
13、根據(jù)攻擊方的攻擊類型、攻擊參數(shù),以及所述第一智能體所在的設(shè)備類型,確定協(xié)作防御策略;
14、基于所述協(xié)作防御策略確定每個(gè)所述智能體執(zhí)行的防御動(dòng)作以及執(zhí)行順序,以控制所述智能體執(zhí)行所述協(xié)作防御動(dòng)作。
15、可選地,所述根據(jù)攻擊方的攻擊類型、攻擊參數(shù),以及所述第一智能體所在的設(shè)備類型,確定協(xié)作防御策略的步驟之后,包括:
16、當(dāng)檢測到所述第一智能體和/或所述攻擊方發(fā)生變更時(shí),確定變更類型;
17、基于所述變更類型更新所述協(xié)作防御策略。
18、可選地,所述當(dāng)所述攻防指令為協(xié)作反制時(shí),基于所述攻防指令確定每個(gè)所述智能體執(zhí)行的反制動(dòng)作以及執(zhí)行順序,執(zhí)行所述協(xié)作反制動(dòng)作的步驟包括:
19、當(dāng)所述攻防指令為協(xié)作反制時(shí),基于所述攻防指令,確定反制目標(biāo);
20、基于所述反制目標(biāo)以及所述智能體的預(yù)設(shè)行為策略,確定每個(gè)所述智能體對(duì)應(yīng)的所述反制動(dòng)作以及所述執(zhí)行順序;
21、根據(jù)所述反制動(dòng)作對(duì)應(yīng)的加密算法以及執(zhí)行路徑,控制所述智能體在所述執(zhí)行順序?qū)?yīng)的時(shí)間點(diǎn),執(zhí)行所述協(xié)作反制動(dòng)作。
22、可選地,所述基于每個(gè)所述智能體對(duì)應(yīng)的網(wǎng)絡(luò)環(huán)境參數(shù)、指令執(zhí)行類型以及目標(biāo)類型,確定所述智能體的環(huán)境評(píng)價(jià)參數(shù)的步驟包括:
23、基于所述智能體在所述協(xié)作防御動(dòng)作和/或協(xié)作反制動(dòng)作的執(zhí)行期間的網(wǎng)絡(luò)波動(dòng)情況、網(wǎng)速均值以及延遲均值,確定所述網(wǎng)絡(luò)環(huán)境參數(shù);
24、基于所述智能體執(zhí)行的所述協(xié)作防御動(dòng)作和/或協(xié)作反制動(dòng)作確定所述指令執(zhí)行類型以及所述目標(biāo)類型,其中所述目標(biāo)類型是攻擊方和/或反制目標(biāo)預(yù)先定義的類型;
25、基于所述網(wǎng)絡(luò)環(huán)境參數(shù)、指令執(zhí)行類型以及目標(biāo)類型分別對(duì)應(yīng)的權(quán)重,確定所述環(huán)境評(píng)價(jià)參數(shù)。
26、可選地,所述基于所述攻防指令的執(zhí)行結(jié)果確定所述智能體針對(duì)所述攻防指令的執(zhí)行評(píng)價(jià)參數(shù)的步驟包括:
27、獲取預(yù)設(shè)的執(zhí)行評(píng)價(jià)函數(shù),所述執(zhí)行評(píng)價(jià)函數(shù)分別對(duì)應(yīng)防御執(zhí)行結(jié)果以及反制執(zhí)行結(jié)果;
28、基于所述智能體執(zhí)行所述協(xié)作防御動(dòng)作時(shí)對(duì)應(yīng)的防御次數(shù)占比、防御效率占比以及防御動(dòng)作的執(zhí)行效率,確定所述防御執(zhí)行結(jié)果;或者,
29、基于所述智能體執(zhí)行所述協(xié)作反制動(dòng)作對(duì)應(yīng)的反制成功率、破壞程度以及反制動(dòng)作的執(zhí)行效率,確定所述反制執(zhí)行結(jié)果;
30、基于所述智能體執(zhí)行所述攻防指令對(duì)應(yīng)的所述防御執(zhí)行結(jié)果和/或反制執(zhí)行結(jié)果,以及所述執(zhí)行評(píng)價(jià)函數(shù),確定所述執(zhí)行評(píng)價(jià)參數(shù)。
31、可選地,所述基于所述環(huán)境評(píng)價(jià)參數(shù)以及所述執(zhí)行評(píng)價(jià)參數(shù),更新所述智能體的行為策略的步驟包括:
32、獲取所述環(huán)境評(píng)價(jià)參數(shù)與所述智能體對(duì)應(yīng)的策略空間的對(duì)應(yīng)關(guān)系;
33、基于所述執(zhí)行評(píng)價(jià)參數(shù),更新所述環(huán)境評(píng)價(jià)參數(shù)對(duì)應(yīng)的所述策略空間。
34、此外,本申請(qǐng)還提出一種基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練設(shè)備,所述基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練設(shè)備包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練程序,所述處理器執(zhí)行所述基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練程序時(shí)實(shí)現(xiàn)如上所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法的步驟。
35、此外,本申請(qǐng)還提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練程序,所述基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法的步驟。
36、本申請(qǐng)實(shí)施例中提供的一個(gè)或多個(gè)技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點(diǎn):
37、由于采用了基于攻防指令,調(diào)用所述攻防指令對(duì)應(yīng)的至少一個(gè)智能體,執(zhí)行協(xié)作防御動(dòng)作和/或協(xié)作反制動(dòng)作;基于每個(gè)所述智能體對(duì)應(yīng)的網(wǎng)絡(luò)環(huán)境參數(shù)、指令執(zhí)行類型以及目標(biāo)類型,確定所述智能體的環(huán)境評(píng)價(jià)參數(shù);基于所述攻防指令的執(zhí)行結(jié)果確定所述智能體針對(duì)所述攻防指令的執(zhí)行評(píng)價(jià)參數(shù);基于所述環(huán)境評(píng)價(jià)參數(shù)以及所述執(zhí)行評(píng)價(jià)參數(shù),更新所述智能體的行為策略。所以,有效解決了相關(guān)技術(shù)中決策方法無法適應(yīng)頻繁變化的攻防環(huán)境的技術(shù)問題,實(shí)現(xiàn)了執(zhí)行攻防決策的智能體持續(xù)進(jìn)化,提高攻防效率的技術(shù)效果。
1.一種基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法,其特征在于,所述基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法包括:
2.如權(quán)利要求1所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法,其特征在于,所述基于攻防指令,調(diào)用所述攻防指令對(duì)應(yīng)的至少一個(gè)智能體,執(zhí)行協(xié)作防御動(dòng)作和/或協(xié)作反制動(dòng)作的步驟包括:
3.如權(quán)利要求2所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法,其特征在于,所述當(dāng)所述攻防指令為協(xié)作防御時(shí),基于所述智能體中被攻擊的第一智能體,執(zhí)行所述協(xié)作防御動(dòng)作的步驟包括:
4.如權(quán)利要求3所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法,其特征在于,所述根據(jù)攻擊方的攻擊類型、攻擊參數(shù),以及所述第一智能體所在的設(shè)備類型,確定協(xié)作防御策略的步驟之后,包括:
5.如權(quán)利要求2所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法,其特征在于,所述當(dāng)所述攻防指令為協(xié)作反制時(shí),基于所述攻防指令確定每個(gè)所述智能體執(zhí)行的反制動(dòng)作以及執(zhí)行順序,執(zhí)行所述協(xié)作反制動(dòng)作的步驟包括:
6.如權(quán)利要求1所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法,其特征在于,所述基于每個(gè)所述智能體對(duì)應(yīng)的網(wǎng)絡(luò)環(huán)境參數(shù)、指令執(zhí)行類型以及目標(biāo)類型,確定所述智能體的環(huán)境評(píng)價(jià)參數(shù)的步驟包括:
7.如權(quán)利要求1所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法,其特征在于,所述基于所述攻防指令的執(zhí)行結(jié)果確定所述智能體針對(duì)所述攻防指令的執(zhí)行評(píng)價(jià)參數(shù)的步驟包括:
8.如權(quán)利要求1所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法,其特征在于,所述基于所述環(huán)境評(píng)價(jià)參數(shù)以及所述執(zhí)行評(píng)價(jià)參數(shù),更新所述智能體的行為策略的步驟包括:
9.一種基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練設(shè)備,其特征在于,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練程序,所述處理器執(zhí)行所述基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練程序,所述基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的基于多智能體協(xié)同的網(wǎng)絡(luò)攻防訓(xùn)練方法的步驟。