本發(fā)明涉及網(wǎng)絡安全,特別涉及一種基于transformer的綜合特征網(wǎng)絡流量分類方法。
背景技術:
1、隨著計算機網(wǎng)絡的飛速發(fā)展,網(wǎng)絡已成為現(xiàn)代生活中不可或缺的一部分。越來越多的人使用網(wǎng)絡進行信息溝通,流量數(shù)據(jù)逐年遞增,給網(wǎng)絡空間安全造成了巨大的隱患。一方面,龐大的網(wǎng)絡流量需要進行數(shù)據(jù)分析,從而使計算機能夠合理的分配資源,提升網(wǎng)絡服務效率;另一方面,對于網(wǎng)絡上日益增長的惡意流量,及時檢測并識別這些流量能夠增強網(wǎng)絡的快速恢復和應急響應能力,對于抵御網(wǎng)絡異常攻擊,維護網(wǎng)絡空間安全及互聯(lián)網(wǎng)私人用戶隱私都有著極其重要的價值和意義。
2、在網(wǎng)絡流量分類領域,經(jīng)過國內(nèi)外科研人員的不斷研究和實踐,取得了一系列成果,常用的流量分類方法主要包括:基于端口識別的方法,基于深度包檢測的方法、基于統(tǒng)計特征的方法和基于深度學習的方法。隨著現(xiàn)代化網(wǎng)絡中動態(tài)端口的出現(xiàn),基于端口識別的方法已經(jīng)無法適用?;谏疃劝鼨z測的方法通過匹配指紋確定流量類型,計算復雜度較高,并且這種方式無法處理加密流量?;诮y(tǒng)計特征的方法需要對網(wǎng)絡流量數(shù)據(jù)進行特征工程處理,手動提取出流量數(shù)據(jù)的代表性特征,這將花費大量人力,并且不能保證提取的特征對流量分類是否有效。傳統(tǒng)網(wǎng)絡流量分類方法難以適應動態(tài)變化的網(wǎng)絡環(huán)境,尤其是在面對加密流量時。在高速網(wǎng)絡環(huán)境中,流量分類技術需要快速準確地進行分類,以滿足服務質(zhì)量和網(wǎng)絡安全的需求。為了克服這些問題,研究人員和工程師需要不斷探索新的流量分類技術,如基于深度學習的方法。
3、基于深度學習的方法,減少了手工提取特征的階段,利用神經(jīng)網(wǎng)絡對數(shù)據(jù)分布的強擬合能力,進一步提高了分類準確率。大部分神經(jīng)網(wǎng)絡需要固定大小的輸入,因此需要修剪原始流量,會造成重要信息丟失,統(tǒng)計特征可以用來補充由于修剪而造成的信息損失。transformer是一種深度學習模型,由于其強大的序列建模能力,transformer也被應用于網(wǎng)絡流量分類領域。transformer擅長捕捉網(wǎng)絡流量序列中的遠距離信息,即全局特征,但忽略局部細節(jié)。一維卷積神經(jīng)網(wǎng)絡專門設計用于處理序列數(shù)據(jù),能夠捕捉時間序列中的局部模式和長距離依賴關系,但忽略序列間長距離的全局特征。
技術實現(xiàn)思路
1、為了解決現(xiàn)有技術中存在的上述問題,本發(fā)明提出一種基于transformer的綜合特征網(wǎng)絡流量分類方法,本發(fā)明要解決的技術問題通過以下技術方案實現(xiàn):
2、本發(fā)明提出一種基于transformer的綜合特征網(wǎng)絡流量分類方法,該方法包括:
3、s1:數(shù)據(jù)預處理;
4、s2:采用不同的特征提取方式提取網(wǎng)絡流量數(shù)據(jù)中的各個數(shù)據(jù)樣本對應的統(tǒng)計特征、全局特征、局部特征和時序特征;
5、s3:將統(tǒng)計特征向量、全局特征向量、局部特征向量和時序特征向量進行特征融合,生成綜合特征;
6、s4:采用全連接神經(jīng)網(wǎng)絡+softmax函數(shù)的方式對網(wǎng)絡流量分類。
7、進一步地,s1具體包括:
8、s101:將連續(xù)的流量數(shù)據(jù)分割成多個離散的流量單元;
9、s102:對分割后的流量單元進行數(shù)據(jù)清洗處理;
10、s103:將清洗后的流量數(shù)據(jù)修剪為固定的長度,以符合神經(jīng)網(wǎng)絡的數(shù)據(jù)輸入要求。
11、進一步地,s2具體包括:
12、s201:從原始網(wǎng)絡流量數(shù)據(jù)中提取統(tǒng)計信息。這些信息可以保留有關流量總體結構的信息,可以用于補充會話的結構信息,例如會話中的數(shù)據(jù)包數(shù)量(num?pkts),會話中syn標志活躍的數(shù)據(jù)包的平均值(avg?syn標志)和會話中從第一個數(shù)據(jù)包到最后一個數(shù)據(jù)包的時間(duration?window?flow)等;使用max-min歸一化方法對統(tǒng)計信息進行歸一化,將所有統(tǒng)計值分布在[0,1]范圍;自編碼器對歸一化后的統(tǒng)計信息進行編碼,從中提取低維統(tǒng)計特征。
13、s202:經(jīng)過s1后的數(shù)據(jù)通過基于transformer的特征提取模塊提取流量數(shù)據(jù)的全局特征;
14、s203:經(jīng)過s1后的數(shù)據(jù)通過基于一維卷積的特征提取模塊提取流量數(shù)據(jù)的局部特征。
15、s204:經(jīng)過s202和s203獲得的全局特征和局部特征進行特征融合,融合后的特征利用門控循環(huán)單元提取關鍵時序特征。
16、進一步地,s201具體包括:
17、所述自編碼器包含編碼器和解碼器兩部分,使用自編碼器對歸一化后的統(tǒng)計信息進行編碼,從中提取低維統(tǒng)計特征向量。盡管手動提取的流量統(tǒng)計信息已經(jīng)包含了一些關鍵信息,但自編碼器通過其自動特征學習和非線性建模的能力,可以進一步優(yōu)化特征表示,從而可能提高后續(xù)分析或預測任務的準確性和效率。
18、進一步地,s202具體包括:
19、所述基于transformer的特征提取模塊,使用transformer中的編碼部分,并對其中某些參數(shù)進行微調(diào)。transformer的編碼器部分包括一個多頭注意力機制和一個前饋神經(jīng)網(wǎng)絡。
20、進一步地,s203具體包括:
21、所述一維卷積模塊由兩個瓶頸模塊組成,每個瓶頸模塊由1×1、1×3和1×1的三個卷積層組成,每個瓶頸模塊采用殘差連接的方式學習數(shù)據(jù)特征,前一個瓶頸模塊的輸出作為后一個瓶頸模塊的輸入。
22、進一步地,s204具體包括:
23、將所述的全局特征向量和局部特征向量進行特征展開,得到一維向量,然后進行特征融合,生成初始綜合流量;
24、對所述初始綜合流量利用門控循環(huán)單元進一步提取關鍵時序信息,得到時序特征向量;
25、進一步地,s3具體包括:
26、將所述的統(tǒng)計特征向量和時序特征向量進行拼接,生成綜合特征。
27、進一步地,s4具體包括:
28、基于所述綜合特征,采用全連接網(wǎng)絡,使用softmax函數(shù)分類,輸出加密流量分類結果。
29、與現(xiàn)有技術相比,本發(fā)明所達到的有益效果:本發(fā)明提供了一種基于transformer的綜合特征網(wǎng)絡流量分類方法,在預處理階段,由于神經(jīng)網(wǎng)絡的輸入要求統(tǒng)一大小,會對原始流量數(shù)據(jù)進行修剪,會造成重要信息的丟失。統(tǒng)計特征通常是基于專家知識或統(tǒng)計學原理提取的,在一定程度上,彌補了由于修剪帶來的信息損失。將基于自編碼器提取的統(tǒng)計特征、基于卷積神經(jīng)網(wǎng)絡提取的局部特征、基于transformer提取的全局特征和基于門控循環(huán)單元提取的時序特征進行特征融合,生成綜合流量特征,使得特征集更加全面,從而提高分類器的性能。在分類模塊中,本發(fā)明結合使用瓶頸模塊和殘差連接,可以在保持模型性能的同時,減少計算和存儲的需求,使得模型更加適合處理大規(guī)模的一維數(shù)據(jù)。本發(fā)明充分利用了不同特征的優(yōu)勢,提高了網(wǎng)絡流量分類的性能和可靠性。這種方法的多樣性和適應性使其成為解決復雜分類問題的有效策略。該方法可以應用到多個領域,主要用于優(yōu)化網(wǎng)絡性能、提高網(wǎng)絡安全性、進行網(wǎng)絡管理和分析等。在網(wǎng)絡管理和優(yōu)化領域,該方法可以自動識別不同類型的流量,如視頻、音頻、文件傳輸和網(wǎng)頁瀏覽,以便進行帶寬分配和流量控制??梢愿鶕?jù)業(yè)務需求和服務質(zhì)量要求,優(yōu)先處理關鍵任務流量。在網(wǎng)絡安全領域,該方法可以用來檢測和防御網(wǎng)絡攻擊,如ddos攻擊、釣魚攻擊、惡意軟件傳播等。通過識別可疑流量模式,進行入侵檢測和預防。在網(wǎng)絡監(jiān)控和分析領域,收集網(wǎng)絡流量數(shù)據(jù),采用該方法進行趨勢分析和網(wǎng)絡行為研究以識別網(wǎng)絡瓶頸和性能問題。