本發(fā)明涉及工業(yè)物聯(lián)網(wǎng),特別涉及一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法。
背景技術(shù):
1、隨著近年來工業(yè)物聯(lián)網(wǎng)迅速普及,針對(duì)此領(lǐng)域的網(wǎng)絡(luò)攻擊也愈演愈烈。為了抵御潛在的網(wǎng)絡(luò)入侵,工業(yè)物聯(lián)網(wǎng)領(lǐng)域中出現(xiàn)了大量入侵檢測(cè)相關(guān)研究,這些入侵檢測(cè)系統(tǒng)通過對(duì)于工業(yè)設(shè)備的流量分析,檢測(cè)其中的惡意流量,從而實(shí)現(xiàn)對(duì)于網(wǎng)絡(luò)攻擊的檢測(cè)與防御。
2、然而,由于工業(yè)物聯(lián)網(wǎng)存在計(jì)算時(shí)延敏感,資產(chǎn)價(jià)值高昂,潛在攻擊面廣泛的特點(diǎn),基于規(guī)則或傳統(tǒng)機(jī)器學(xué)習(xí)的入侵檢測(cè)系統(tǒng)難以抵擋復(fù)雜多變的網(wǎng)絡(luò)攻擊,而基于深度學(xué)習(xí)的入侵檢測(cè)則會(huì)帶來過高的計(jì)算開銷。因此,可以引入集成學(xué)習(xí)相關(guān)技術(shù)來解決現(xiàn)有研究的弊端。
3、集成學(xué)習(xí)技術(shù)是一種在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中廣泛應(yīng)用的方法,它通過結(jié)合多種學(xué)習(xí)算法來提高預(yù)測(cè)性能。這種技術(shù)的核心思想是,單個(gè)模型可能在特定任務(wù)上有局限性,但當(dāng)多個(gè)模型集成在一起時(shí),它們可以互補(bǔ)各自的不足,從而達(dá)到比任何單一模型都要好的效果。集成學(xué)習(xí)的定義是使用多個(gè)學(xué)習(xí)算法來獲得比單獨(dú)使用任何一個(gè)算法更好的預(yù)測(cè)性能。這些算法可能是相同的基礎(chǔ)學(xué)習(xí)器,也可能是不同的學(xué)習(xí)器,它們共同作用于假設(shè)空間的不同部分,形成一個(gè)更加強(qiáng)大的綜合假設(shè)。集成學(xué)習(xí)的優(yōu)點(diǎn)包括提高預(yù)測(cè)準(zhǔn)確性、增強(qiáng)模型的泛化能力以及減少過擬合的風(fēng)險(xiǎn),它通常在模型之間引入多樣性,這種多樣性是通過使用不同的訓(xùn)練數(shù)據(jù)子集或者不同的算法來實(shí)現(xiàn)的。理論上,集成學(xué)習(xí)可以表示更廣泛的函數(shù)空間,從而提供更靈活的模型結(jié)構(gòu),因此本方案提出了一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一,提供一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,該方法實(shí)現(xiàn)了一種采用了多種機(jī)器學(xué)習(xí)算法的集成學(xué)習(xí)模型,并在集成學(xué)習(xí)模型基礎(chǔ)上引入了細(xì)粒度賦權(quán)機(jī)制、子分類器擴(kuò)展機(jī)制以及動(dòng)態(tài)更新機(jī)制,提高了模型對(duì)各種威脅的檢測(cè)準(zhǔn)確性。
2、本發(fā)明還提供具有上述一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,包括以下步驟:s1、數(shù)據(jù)采集及預(yù)處理,通過訓(xùn)練數(shù)據(jù)模塊利用代理程序及流量探針,常用的數(shù)據(jù)采集手段抓取到一定網(wǎng)絡(luò)流量數(shù)據(jù)后,形成數(shù)據(jù)集,按照規(guī)則進(jìn)行數(shù)據(jù)預(yù)處理,其中包含了編碼非數(shù)值特征、歸一化數(shù)值數(shù)據(jù)和數(shù)據(jù)集分割,訓(xùn)練數(shù)據(jù)模塊分為數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理兩個(gè)功能,實(shí)現(xiàn)了對(duì)工業(yè)物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)的抓取并針對(duì)其抓取數(shù)據(jù)進(jìn)行解析預(yù)處理,將生成的csv文件推送到指定目錄;
3、s2、核心入侵檢測(cè),根據(jù)工業(yè)物聯(lián)網(wǎng)場(chǎng)景中攻擊的復(fù)雜性與對(duì)于計(jì)算的敏感性,使用改進(jìn)的集成學(xué)習(xí)框架作為核心入侵檢測(cè)模塊,并引入了三個(gè)改進(jìn)機(jī)制,分別為細(xì)粒度賦權(quán)機(jī)制、子分類器擴(kuò)展機(jī)制和集成學(xué)習(xí)更新機(jī)制,通過核心入侵檢測(cè)模塊將生成的csv文件通過核心檢測(cè)模塊進(jìn)行入侵檢測(cè);s3、檢測(cè)結(jié)果展示,將檢測(cè)結(jié)果展示分為兩個(gè)部分,第一部分是實(shí)例概覽功能模塊,通過實(shí)例概覽功能模塊對(duì)當(dāng)前系統(tǒng)所接入全體設(shè)備整體運(yùn)行狀況進(jìn)行可視化展示,第二部分是實(shí)例詳情功能模塊,通過實(shí)例詳情功能模塊切換不同設(shè)備來查看每一個(gè)設(shè)備的具體情況;s4、觸發(fā)系統(tǒng)告警,該觸發(fā)系統(tǒng)分為兩種告警類型,一種是對(duì)數(shù)量的告警,即對(duì)于入侵行為頻發(fā)的物聯(lián)網(wǎng)設(shè)備,下一時(shí)間段內(nèi)的入侵?jǐn)?shù)與設(shè)置時(shí)最后一次統(tǒng)計(jì)時(shí)間相比,增加或者減少進(jìn)行告警的數(shù)量,另一種是閾值告警,即對(duì)入侵次數(shù)增加和減少的百分比進(jìn)行設(shè)置。
4、根據(jù)本發(fā)明提供的一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,所述核心檢測(cè)模塊是通過使用分析引擎進(jìn)行入侵行為檢測(cè),根據(jù)檢測(cè)情況重訓(xùn)練模型。
5、根據(jù)本發(fā)明提供的一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,所述編碼非數(shù)值特征通過在數(shù)據(jù)集中存在若干符號(hào)屬性,如?protocol_type、service?和?flag,這些都是分類特征,為了使這些特征能夠被機(jī)器學(xué)習(xí)算法有效處理,需要將它們轉(zhuǎn)換為數(shù)值形式,采用標(biāo)簽編碼方式,具體處理思路如下:首先對(duì)每個(gè)符號(hào)特征進(jìn)行遍歷,將每個(gè)唯一的類別標(biāo)簽映射到一個(gè)唯一整數(shù),形成映射關(guān)系表,對(duì)于數(shù)據(jù)集中的每個(gè)符號(hào)特征值,依據(jù)映射關(guān)系表將其替換為對(duì)應(yīng)的整數(shù),從而完成數(shù)字化處理,以?protocol_type?字段為例,該特征中有三個(gè)可能的標(biāo)簽?tcp、udp、icmp,它們的映射關(guān)系為?tcp?->?0,udp?->?1,icmp?->?2。
6、根據(jù)本發(fā)明提供的一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,所述歸一化數(shù)值數(shù)據(jù)中的數(shù)值特征在數(shù)據(jù)集中表現(xiàn)出不同的量度和范圍,duration?的取值范圍可從幾毫秒到幾小時(shí),src_bytes?和dst_bytes?的取值可能從幾字節(jié)到幾兆字節(jié),這些不同的特征范圍會(huì)對(duì)算法性能產(chǎn)生不利影響,尤其對(duì)于對(duì)量綱敏感的算法,通過歸一化處理,可使所有數(shù)值特征具有相同尺度,有助于加快學(xué)習(xí)算法收斂并提升模型性能,歸一化數(shù)值數(shù)據(jù)的具體處理過程如下,首先對(duì)于每個(gè)數(shù)值特征,計(jì)算其在數(shù)據(jù)集中的最大值和最小值,其次應(yīng)用歸一化公式將每個(gè)特征的原始值映射到一個(gè)固定的范圍,通常是[0,?1],具體公式如下:
7、其中是原始特征值,和分別是該特征在所有樣本中的最小值和最大值,是歸一化后的新值。
8、根據(jù)本發(fā)明提供的一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,所述數(shù)據(jù)集分割將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,以支持模型的訓(xùn)練、調(diào)優(yōu)和最終評(píng)估,所述訓(xùn)練集占總數(shù)據(jù)的約70%,是用于建立和訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)部分;所述驗(yàn)證集占總數(shù)據(jù)的約15%,其主要作用是在模型開發(fā)過程中進(jìn)行參數(shù)調(diào)優(yōu)和模型選擇,這部分?jǐn)?shù)據(jù)用于驗(yàn)證不同模型配置的效果,幫助開發(fā)者選擇最佳模型參數(shù),從而優(yōu)化模型表現(xiàn),通過驗(yàn)證集,可以有效避免模型在訓(xùn)練過程中過擬合,確保模型具有良好的泛化能力。
9、所述測(cè)試集同樣占總數(shù)據(jù)的約15%,用于在模型開發(fā)完成后評(píng)估其性能,測(cè)試集是模型評(píng)估的最終階段,通過在這部分獨(dú)立的數(shù)據(jù)上測(cè)試,可以評(píng)估模型對(duì)新數(shù)據(jù)的處理能力,確保模型的實(shí)用性和可靠性,測(cè)試集的結(jié)果提供了模型實(shí)際部署前的性能預(yù)覽。
10、根據(jù)本發(fā)明提供的一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,所述細(xì)粒度賦權(quán)機(jī)制首先通過對(duì)每個(gè)分類器的性能在多個(gè)類別的數(shù)據(jù)上進(jìn)行獨(dú)立評(píng)估,采用的主要指標(biāo)包括召回率、精確度,這些都是衡量分類器效果的關(guān)鍵指標(biāo),召回率是分類器在類別上正確識(shí)別的正樣本數(shù)除以該類別中所有正樣本的總數(shù),,精確度是分類器在類別上正確識(shí)別的正樣本數(shù)除以該分類器判定為該類別的所有樣本數(shù)即正樣本數(shù)和負(fù)樣本數(shù)之和、;
11、然后,根據(jù)每個(gè)分類器在不同類別上的性能指標(biāo),動(dòng)態(tài)計(jì)算權(quán)重,這里,權(quán)重是對(duì)分類器特定類別性能的反映,使得在某類別上表現(xiàn)好的分類器在該類別的決策中具有更大的影響力,權(quán)重可以根據(jù)分類器在類別上的召回率和精確度的加權(quán)平均計(jì)算得出,以確保既考慮到類別的覆蓋度也考慮到準(zhǔn)確性,其中是一個(gè)調(diào)節(jié)參數(shù),用于平衡召回率和精確度的影響;
12、
13、最后,將不同分類器的輸出根據(jù)計(jì)算得到的權(quán)重進(jìn)行綜合,形成最終的預(yù)測(cè)結(jié)果,綜合輸出是對(duì)每個(gè)類別的所有分類器預(yù)測(cè)結(jié)果的加權(quán)平均,其中為分類器數(shù)量;
14、
15、最終預(yù)測(cè)結(jié)果是加權(quán)平均最高的類別。
16、根據(jù)本發(fā)明提供的一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,所述子分類器擴(kuò)展機(jī)制是根據(jù)工業(yè)物聯(lián)網(wǎng)環(huán)境中的復(fù)雜性和不斷變化的威脅類型,引入子分類器的可擴(kuò)展性,以確保系統(tǒng)隨著新威脅的出現(xiàn)和技術(shù)的發(fā)展而適應(yīng)和擴(kuò)展,首先,設(shè)置初始的分類器組合和權(quán)重,然后定期監(jiān)測(cè)和評(píng)估所有分類器的性能,并基于性能數(shù)據(jù)和外部威脅分析,引入新的分類器或更新、淘汰現(xiàn)有分類器,對(duì)所有活躍的分類器重新計(jì)算權(quán)重,最后利用更新后的權(quán)重和分類器產(chǎn)生最終的檢測(cè)結(jié)果。
17、根據(jù)本發(fā)明提供的一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,所述集成學(xué)習(xí)更新機(jī)制通過定期更新,其根據(jù)預(yù)設(shè)的時(shí)間間隔自動(dòng)執(zhí)行模型更新,實(shí)施步驟包括設(shè)定更新周期、數(shù)據(jù)收集、模型重訓(xùn)練、部署更新后的模型;其條件更新是基于系統(tǒng)性能指標(biāo)觸發(fā)的,該系統(tǒng)性能中通過采集、預(yù)處理、檢測(cè)整個(gè)過程所耗時(shí)間是否滿足實(shí)時(shí)性需求,且下降到不可接受的水平時(shí),系統(tǒng)會(huì)自動(dòng)啟動(dòng)更新過程,實(shí)施步驟包括了設(shè)定性能閾值、性能監(jiān)控、觸發(fā)更新、數(shù)據(jù)收集與模型更新、部署更新后的模型。
18、與現(xiàn)有技術(shù)相比較,本發(fā)明的一種工業(yè)物聯(lián)網(wǎng)入侵檢測(cè)方法,該方法實(shí)現(xiàn)了一種采用了多種機(jī)器學(xué)習(xí)算法的集成學(xué)習(xí)模型,并在集成學(xué)習(xí)模型基礎(chǔ)上引入了細(xì)粒度賦權(quán)機(jī)制、子分類器擴(kuò)展機(jī)制以及動(dòng)態(tài)更新機(jī)制,提高了模型對(duì)各種威脅的檢測(cè)準(zhǔn)確性。