国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于用戶行為模型的VPN流量識別方法和設(shè)備與流程

      文檔序號:40278252發(fā)布日期:2024-12-11 13:14閱讀:18來源:國知局
      一種基于用戶行為模型的VPN流量識別方法和設(shè)備與流程

      本發(fā)明屬于數(shù)據(jù)分析,特別涉及一種基于用戶行為模型的vpn流量識別方法、設(shè)備及計算機(jī)存儲介質(zhì)。


      背景技術(shù):

      1、現(xiàn)有技術(shù)中,隨著人們網(wǎng)絡(luò)安全、隱私保護(hù)意識的不斷提高,目前互聯(lián)網(wǎng)流量中加密流量正在呈現(xiàn)爆炸性增長。由于加密技術(shù)的發(fā)展日漸成熟,并且具有隱匿性強(qiáng)、動態(tài)變化、可擴(kuò)展性好的特點(diǎn),加密技術(shù)已成為網(wǎng)絡(luò)攻擊、個人隱私信息泄露和網(wǎng)絡(luò)詐騙的主要依賴技術(shù),給網(wǎng)絡(luò)監(jiān)管帶來極大的挑戰(zhàn)。因此,對加密流量進(jìn)行正確識別和分類對網(wǎng)絡(luò)安全管理和安全威脅檢測至關(guān)重要。

      2、虛擬專用網(wǎng)絡(luò)(virtual?private?network,vpn)作為加密流量的主要加密技術(shù)之一,被廣泛應(yīng)用于各大公司或個人的互聯(lián)網(wǎng)通信方式,其利用隧道技術(shù)可以保證用戶在公網(wǎng)上數(shù)據(jù)傳輸?shù)乃接行耘c完整性。因此,在vpn隧道下實(shí)現(xiàn)加密流量識別對網(wǎng)絡(luò)安全監(jiān)管具有重要的研究意義。

      3、現(xiàn)有的vpn加密流量識別技術(shù)主要分為以下三種:

      4、(1)基于指紋識別

      5、wazen?m.shbair等人提出的improving?sni-based?https?securitymonitoring中,提出使用可信的dns服務(wù)來驗(yàn)證sni中服務(wù)器名稱和實(shí)際訪問目標(biāo)ip地址的對應(yīng)關(guān)系,以檢測偽造的sni值,并且基于https流量的sni字段構(gòu)建指紋庫進(jìn)行匹配,實(shí)現(xiàn)加密流量的識別。

      6、(2)基于機(jī)器學(xué)習(xí)方法

      7、楊超王歲興蘇銳丹等人提出基于分布特征隨機(jī)森林的vpn下應(yīng)用程序流量識別方法,通過構(gòu)建流量的均勻分布特征向量和對數(shù)分布特征向量,并結(jié)合時間特征和統(tǒng)計特征,使用隨機(jī)森林算法模型進(jìn)行訓(xùn)練與分類。

      8、(3)基于深度學(xué)習(xí)方法

      9、鄭昱黨張軒楊超等人提出基于多視角一維卷積神經(jīng)網(wǎng)絡(luò)的vpn和non-vpn網(wǎng)絡(luò)流量分類方法,使用流量數(shù)據(jù)包頭部信息和數(shù)據(jù)包載荷信息作為特征進(jìn)行學(xué)習(xí),通過卷積神經(jīng)網(wǎng)絡(luò)對vpn流量進(jìn)行表示學(xué)習(xí)與分類。

      10、現(xiàn)有技術(shù)或者是基于加密流量的明文特征進(jìn)行指紋匹配,這種方案僅能實(shí)現(xiàn)對已提取的規(guī)則進(jìn)行識別匹配,而且容易被人工拼接或者惡意偽造字段信息的流量繞過,導(dǎo)致高誤報率;或者采用機(jī)器學(xué)習(xí)算法對單條流的統(tǒng)計特征進(jìn)行建模,這類方法的主要缺點(diǎn)是高度依賴人工設(shè)計的特征,難以適應(yīng)多場景和高性能的遷移,泛化能力不足。

      11、基于多視角一維卷積神經(jīng)網(wǎng)絡(luò)直接從原始流量數(shù)據(jù)中學(xué)習(xí)流量特征,自動提取加密流量復(fù)雜的模式表示。但是這種方法依賴大規(guī)模的標(biāo)注流量數(shù)據(jù),人工成本極高,模型容易受到不平衡數(shù)據(jù)的影響,少樣本環(huán)境下無法達(dá)到預(yù)期分類效果。而且傳統(tǒng)的基于深度學(xué)習(xí)方法信息涵蓋量比較單一,難以適用多場景的任務(wù)。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明的目的在于為了解決現(xiàn)有技術(shù)中的問題,提出了一種基于用戶行為模型的vpn流量識別方法,能夠?qū)崿F(xiàn)對通用vpn加密流量的精準(zhǔn)識別,充分利用網(wǎng)絡(luò)流量中的用戶行為信息,大大提高了模型的泛化性和魯棒性,可以有效降低模型誤報率。

      2、為了實(shí)現(xiàn)上述目的,本發(fā)明采取如下技術(shù)方案。

      3、所述一種基于用戶行為模型的vpn流量識別方法,包括基于構(gòu)建的流量特征庫對采集的流量進(jìn)行解析,獲取用戶行為相關(guān)的話單數(shù)據(jù);

      4、對所述話單數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理,提取用戶行為事件特征向量、用戶行為路徑特征向量和用戶行為留存特征向量;

      5、將提取的所述用戶行為事件特征向量、所述用戶行為路徑特征向量和所述用戶行為留存特征向量進(jìn)行特征融合后構(gòu)建流量數(shù)據(jù)集,將所述流量數(shù)據(jù)集輸入bert預(yù)訓(xùn)練模型中計算用戶行為特征向量的上下文詞嵌入向量,將所述上下文詞嵌入向量輸入bilstm模型中得到兩個方向的lstm特征向量,將所述lstm特征向量作為用戶行為模型的輸入,構(gòu)建用戶行為模型并保存;

      6、采集實(shí)時流量數(shù)據(jù)并解析,獲取用戶行為相關(guān)的實(shí)時話單數(shù)據(jù),提取實(shí)時用戶話單數(shù)據(jù)中的用戶行為事件特征向量、所述用戶行為路徑特征向量和所述用戶行為留存特征向量進(jìn)行特征融合后輸入所述用戶行為模型,得到識別的流量數(shù)據(jù)分類結(jié)果,根據(jù)所述實(shí)時話單數(shù)據(jù)中的用戶數(shù)據(jù)對所述流量數(shù)據(jù)分類結(jié)果進(jìn)行置信度分析,將置信度分析結(jié)果與所述流量數(shù)據(jù)分類結(jié)果融合得到實(shí)時流量數(shù)據(jù)中的vpn流量。

      7、采用上述技術(shù)方案的情況下,基于預(yù)設(shè)的流量特征庫解析網(wǎng)絡(luò)流量中的用戶行為,獲取用戶行為監(jiān)測日志,根據(jù)用戶id對用戶行為監(jiān)測日志進(jìn)行分組,分析不同用戶特定時間窗口內(nèi)的行為,提取并計算用戶vpn流量使用行為有關(guān)的特征數(shù)據(jù),通過計算用戶行為特征向量,使用bert預(yù)訓(xùn)練模型和雙向lstm模型檢測網(wǎng)絡(luò)流量中的vpn流量,并結(jié)合統(tǒng)計分析模塊對用戶的整體流量進(jìn)行session分析,有助于提高流量識別的客觀性和準(zhǔn)確性。

      8、進(jìn)一步地,所述基于構(gòu)建的流量特征庫對采集的流量進(jìn)行解析,獲取用戶行為相關(guān)的話單數(shù)據(jù)包括:

      9、搭建訪問特定vpn節(jié)點(diǎn)的產(chǎn)生環(huán)境,抓取訪問節(jié)點(diǎn)后產(chǎn)生的流量數(shù)據(jù)包構(gòu)建流量特征庫;所述流量特征庫包括抓取使用特定vpn節(jié)點(diǎn)訪問應(yīng)用內(nèi)容時產(chǎn)生的流量數(shù)據(jù)包,作為vpn流量的原始流量數(shù)據(jù)包;實(shí)時網(wǎng)絡(luò)抓取應(yīng)用使用時產(chǎn)生的流量數(shù)據(jù)包,作為正常流量的原始流量數(shù)據(jù)包;

      10、基于構(gòu)建的流量特征庫和網(wǎng)絡(luò)設(shè)備解析vpn流量和正常流量兩個類別的原始流量數(shù)據(jù)包,將原始流量數(shù)據(jù)包轉(zhuǎn)化為用戶話單數(shù)據(jù),所述用戶話單數(shù)據(jù)包含單條流的用戶行為數(shù)據(jù)id、上下行每秒字節(jié)數(shù)、流起始時間戳、流結(jié)束時間戳、流持續(xù)時長和包數(shù)特征;

      11、解析單個原始流量數(shù)據(jù)包并與輸出的用戶行為話單數(shù)據(jù)文件進(jìn)行對應(yīng),將vpn流量標(biāo)記為1,正常流量標(biāo)記為0,并分別保存到本地形成分析樣本。

      12、進(jìn)一步地,所述對所述話單數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理包括:

      13、根據(jù)原始數(shù)據(jù)流的源ip地址、源端口、目的ip地址、目的端口和傳輸層協(xié)議進(jìn)行五元組聚類,對聚類的數(shù)據(jù)集合刪除重復(fù)信息、過濾流量噪聲、去除不滿足設(shè)定條件的數(shù)據(jù);

      14、對用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)匿名化處理,對原始數(shù)據(jù)流的源ip地址進(jìn)行脫敏處理,并生成對應(yīng)的用戶id;

      15、根據(jù)缺失值對應(yīng)的特征統(tǒng)計值填充字節(jié),根據(jù)數(shù)據(jù)流的傳輸方向?qū)μ畛渥止?jié)設(shè)置不同的填充數(shù)值,并結(jié)合流量的統(tǒng)計信息填充字節(jié);

      16、將時間相關(guān)特征序列應(yīng)用于不同類別流量數(shù)據(jù)時,對數(shù)據(jù)進(jìn)行規(guī)范化處理,去除數(shù)據(jù)的單位限制,使不同單位和量級的數(shù)據(jù)轉(zhuǎn)為標(biāo)準(zhǔn)化數(shù)據(jù);

      17、根據(jù)用戶id進(jìn)行分組,并按照時間順序進(jìn)行排序,生成用戶行為數(shù)據(jù)集d=[s1,s2,s3,…,sn],其中n為用戶數(shù)量,si為第i個用戶的行為序列。

      18、進(jìn)一步地,所述提取用戶行為事件特征向量、用戶行為路徑特征向量和用戶行為留存特征向量包括:

      19、提取單個用戶行為序列的事件數(shù)據(jù),包括特定網(wǎng)站鏈接訪問、特定境內(nèi)外應(yīng)用的使用和特定支付動作三個屬性的行為事件,并按照時間排序,將整個行為事件序列視作一段文本,單個行為事件信息視作一個詞,在行為事件序列的開始添加開始標(biāo)記,在不同事件之間添加分隔標(biāo)記,表示序列的開始和事件的分隔,獲得用戶行為事件特征向量;

      20、提取單個用戶行為序列中的特定業(yè)務(wù)場景的用戶路徑數(shù)據(jù),根據(jù)業(yè)務(wù)場景進(jìn)行分類,并按照時間排序,將業(yè)務(wù)場景中的行為路徑序列視作一段文本,單個路徑信息視作一個詞,在行為路徑序列的開始添加開始標(biāo)記,在不同路徑之間添加分隔標(biāo)記,表示序列的開始和路徑的分隔,將行為路徑序列轉(zhuǎn)化為bert模型語言的格式,獲得用戶行為路徑特征向量;

      21、提取每個用戶行為序列中的特定留存業(yè)務(wù)數(shù)據(jù),進(jìn)行特征降維,設(shè)定時間窗口,根據(jù)業(yè)務(wù)傳輸起始時間進(jìn)行排序,遍歷所有序列,提取所述時間窗口內(nèi)的業(yè)務(wù)類型、業(yè)務(wù)傳輸持續(xù)時間、業(yè)務(wù)傳輸間隔時間特征,進(jìn)行數(shù)據(jù)歸一化后構(gòu)建單個留存特征子序列,拼接所述時間窗口內(nèi)的全部留存特征子序列,獲得用戶行為留存特征向量。

      22、進(jìn)一步地,所述將提取的所述用戶行為事件特征向量、所述用戶行為路徑特征向量和所述用戶行為留存特征向量進(jìn)行特征融合后構(gòu)建流量數(shù)據(jù)集包括:將提取的單個用戶行為事件特征、用戶行為路徑特征和用戶行為留存特征進(jìn)行特征融合,組合生成相同批次的數(shù)據(jù),記為batch_data[batch_size,seq_len],其中batch_size表示每個批次的數(shù)目,seq_len表示每個輸入序列的長度。

      23、進(jìn)一步地,所述將所述流量數(shù)據(jù)集輸入bert預(yù)訓(xùn)練模型中計算用戶行為特征向量的上下文詞嵌入向量,將所述上下文詞嵌入向量輸入bilstm模型中得到兩個方向的lstm特征向量,將所述lstm特征向量作為用戶行為模型的輸入,構(gòu)建用戶行為模型并保存包括:

      24、所述bert預(yù)訓(xùn)練模型采用多層雙向transformer編碼器作為主干網(wǎng)絡(luò),包含多個transformer網(wǎng)絡(luò)層數(shù),單個transformer網(wǎng)絡(luò)層包括多頭自注意力機(jī)制和全連接前饋網(wǎng)絡(luò)兩個子層;

      25、通過所述bert預(yù)訓(xùn)練模型在單個批次的單個輸入特征序列的開頭和結(jié)尾分別添加標(biāo)識,所述bert預(yù)訓(xùn)練模型的嵌入層計算單個輸入特征序列的嵌入向量,所述嵌入向量與單個transformer塊中自注意力機(jī)制的加權(quán)特征向量相乘,計算得到第i個自注意力機(jī)制中qi、ki、vi三個不同的矩陣向量,其中qi表示查詢向量,ki表示鍵向量,vi表示值向量,i表示自注意力機(jī)制的數(shù)目;

      26、所述自注意力機(jī)制的向量計算公式為:

      27、

      28、其中dk表示ki和vi的維數(shù),對所有自注意力機(jī)制的向量進(jìn)行拼接,通過全連接前饋網(wǎng)絡(luò)層獲取單個編碼層的輸出,得到上下文詞嵌入向量表示e;

      29、將bert預(yù)訓(xùn)練模型輸出的上下文詞嵌入向量e作為所述bilstm模型模型的輸入,所述bilstm模型對前向和后向的lstm網(wǎng)絡(luò)進(jìn)行拼接,整合上下文詞嵌入向量的順序特征,將所述bilstm模型輸出的隱藏層狀態(tài)進(jìn)行連接,輸出前向和后向的lstm特征向量h;

      30、將所述特征向量h作為用戶行為模型的輸入,對輸入批次中的用戶行為特征序列進(jìn)行分類并輸出標(biāo)簽y,用戶行為模型計算公式為:

      31、p(y|h)=softmax(wh)

      32、其中w表示用戶行為模型的參數(shù)。

      33、進(jìn)一步地,還包括,根據(jù)預(yù)設(shè)的模型指標(biāo)閾值評估所述用戶行為模型的分類效果,若效果不好執(zhí)行什么操作。

      34、更進(jìn)一步地,所述根據(jù)所述實(shí)時話單數(shù)據(jù)中的用戶數(shù)據(jù)對所述流量數(shù)據(jù)分類結(jié)果進(jìn)行置信度分析,將置信度分析結(jié)果與所述流量數(shù)據(jù)分類結(jié)果融合得到實(shí)時流量數(shù)據(jù)中的vpn流量包括:

      35、設(shè)定時間窗口,將所述流量數(shù)據(jù)分類結(jié)果進(jìn)行分組,抽取所述時間窗口中單個用戶全部流量的輸出結(jié)果,按照時間序列排序,提取時間窗口內(nèi)對應(yīng)的統(tǒng)計特征,對所述統(tǒng)計特征進(jìn)行歸一化并基于預(yù)設(shè)的置信度計算公式對輸入批次的流量進(jìn)行整體分析,計算公式為:

      36、

      37、其中xi和zi分別表示分類標(biāo)簽為1和0的流量統(tǒng)計特征屬性;wi和ui分別表示分類標(biāo)簽為1和0的統(tǒng)計特征屬性對應(yīng)的權(quán)重參數(shù);基于預(yù)設(shè)的置信度分?jǐn)?shù)閾值,調(diào)整流量識別結(jié)果。

      38、為了實(shí)現(xiàn)上述目的,本發(fā)明還提供一種電子設(shè)備,包括存儲器和處理器,所述存儲器上儲存有在所述處理器上運(yùn)行的程序,所述處理器運(yùn)行所述程序時執(zhí)行如上文所述的基于用戶行為模型的vpn流量識別方法的步驟。

      39、為了實(shí)現(xiàn)上述目的,本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)指令,所述計算機(jī)指令運(yùn)行時執(zhí)行如上文所述的基于用戶行為模型的vpn流量識別方法的步驟。

      40、本發(fā)明提出了一種基于用戶行為模型的vpn流量識別方法和設(shè)備,具有如下有益效果:

      41、提出使用留存分析計算用戶的活躍程度特征,實(shí)現(xiàn)對通用vpn加密流量的精準(zhǔn)識別,充分利用網(wǎng)絡(luò)流量中的用戶行為信息,大大提高了模型的泛化性和魯棒性,有效降低模型誤報率,減少誤判風(fēng)險,有助于提高流量識別的客觀性和準(zhǔn)確性。

      42、本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1