基于眾核處理器的網(wǎng)絡(luò)流量深度識(shí)別系統(tǒng)及識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)流量管理技術(shù)領(lǐng)域,涉及一種基于眾核處理器的網(wǎng)絡(luò)流量深度識(shí)別系統(tǒng),還涉及使用上述識(shí)別系統(tǒng)對(duì)網(wǎng)絡(luò)流量進(jìn)行深度識(shí)別的識(shí)別方法。
【背景技術(shù)】
[0002]目前,各大網(wǎng)絡(luò)運(yùn)營商對(duì)網(wǎng)絡(luò)流量的管理僅限于粗放型的管理。許多運(yùn)營商對(duì)自身網(wǎng)絡(luò)的管理仍舊停留在采用SNMP技術(shù)的基礎(chǔ)之上,對(duì)網(wǎng)絡(luò)流量的監(jiān)管僅限于對(duì)自身網(wǎng)絡(luò)設(shè)備承載能力的考慮,而對(duì)于網(wǎng)絡(luò)流量中具體的內(nèi)容,流量中所包含的用戶行為信息并沒有進(jìn)行有效的監(jiān)控和利用。
[0003]以往的使用基于端口的方法監(jiān)控網(wǎng)絡(luò)流量的技術(shù),使用起來雖然快速、簡單,但隨著IPv4地址的耗盡,IP地址和端口的轉(zhuǎn)換越來越頻繁,加上應(yīng)用設(shè)計(jì)者設(shè)計(jì)應(yīng)用時(shí)采用端口的任意性,該技術(shù)已經(jīng)變得越來越不可靠;并且此技術(shù)最終只識(shí)別到傳輸層數(shù)據(jù),并不能根據(jù)應(yīng)用層數(shù)據(jù)進(jìn)一步得到用戶行為信息。采用機(jī)器學(xué)習(xí)的方法監(jiān)控流量的技術(shù),在針對(duì)混淆和加密后的流量時(shí)特別有效。但該技術(shù)對(duì)流量的監(jiān)控依賴于對(duì)特定應(yīng)用所產(chǎn)生流量的特征,而對(duì)流量特征的提取需要經(jīng)過長期的觀察,才能找出不同流量之間的差別。
[0004]目前最可靠的技術(shù)是一種基于流量負(fù)載的流量分類方法,通過識(shí)別網(wǎng)絡(luò)數(shù)據(jù)包中與應(yīng)用相關(guān)的字符串或者執(zhí)行更復(fù)雜的語法匹配來識(shí)別應(yīng)用。它可以通過檢測(cè)網(wǎng)絡(luò)數(shù)據(jù)包中那些法律范圍內(nèi)允許的可以公開的數(shù)據(jù),來對(duì)網(wǎng)絡(luò)流量進(jìn)行有效的監(jiān)管。現(xiàn)代的技術(shù)使得對(duì)網(wǎng)絡(luò)數(shù)據(jù)包的加密,協(xié)議的混淆和封裝都變得非常的容易,但是由于高帶寬下昂貴的計(jì)算開銷,使得傳統(tǒng)平臺(tái)上無法實(shí)時(shí)處理高帶寬下的網(wǎng)絡(luò)流量。這是基于負(fù)載的流量分類技術(shù)目前所面臨的最直接的問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是提供一種基于眾核處理器的網(wǎng)絡(luò)流量深度識(shí)別系統(tǒng),在眾核處理器的平臺(tái)上采用一種基于負(fù)載的流量分類技術(shù),不僅解決傳統(tǒng)網(wǎng)絡(luò)流量識(shí)別系統(tǒng)只能分析流量協(xié)議類型、不能得到詳細(xì)用戶行為信息的問題,還解決了傳統(tǒng)網(wǎng)絡(luò)流量識(shí)別系統(tǒng)無法實(shí)時(shí)在線處理高速網(wǎng)絡(luò)流量的問題。
[0006]本發(fā)明的另一個(gè)目的是提供一種基于眾核處理器的網(wǎng)絡(luò)流量深度識(shí)別系統(tǒng)的識(shí)別方法。
[0007]本發(fā)明所采用的一個(gè)技術(shù)方案是,一種基于眾核處理器的網(wǎng)絡(luò)流量深度識(shí)別系統(tǒng),包括獲取原始網(wǎng)絡(luò)數(shù)據(jù)的接收模塊和存儲(chǔ)有基于語義的匹配規(guī)則的基于語義的規(guī)則模塊;接收模塊連接有根據(jù)自定義的正則表達(dá)式識(shí)別傳輸層數(shù)據(jù)在應(yīng)用層所使用的協(xié)議類型的協(xié)議規(guī)范模塊,協(xié)議規(guī)范模塊連接有對(duì)應(yīng)用層數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理的結(jié)構(gòu)化數(shù)據(jù)模塊;基于語義的規(guī)則模塊連接有能夠按照匹配規(guī)則的特定格式逐字段解析出每個(gè)字段的內(nèi)容的規(guī)則解析模塊,規(guī)則解析模塊連接有將解析的規(guī)則生成層次匹配樹的層次匹配樹模塊;結(jié)構(gòu)化數(shù)據(jù)模塊和層次匹配樹模塊均與能夠進(jìn)行數(shù)據(jù)與正則表達(dá)式匹配的匹配引擎模塊相連,匹配引擎模塊還連接有儲(chǔ)存匹配成功的結(jié)果的用戶行為統(tǒng)計(jì)模塊。
[0008]本發(fā)明還具有以下特點(diǎn):
[0009](I)基于語義的規(guī)則模塊中的規(guī)則庫是按照每條匹配規(guī)則一行的格式保存在規(guī)則文件中形成的;匹配規(guī)則由業(yè)務(wù)字段和識(shí)別字段組合;
[0010]業(yè)務(wù)字段中有四個(gè)字段:應(yīng)用名稱,應(yīng)用行為,操作系統(tǒng)和代理,四個(gè)字段通過符號(hào)相互隔開;應(yīng)用名稱和應(yīng)用行為由具體的用戶行為來定義,操作系統(tǒng)和代理由網(wǎng)絡(luò)協(xié)議確定,對(duì)于無法確定的操作系統(tǒng)或代理,使用All來表示任意的操作系統(tǒng)或代理;業(yè)務(wù)字段的具體形式為:應(yīng)用名稱@應(yīng)用行為@操作系統(tǒng)@代理;
[0011]識(shí)別字段中有三個(gè)字段:協(xié)議、協(xié)議域何協(xié)議域的正則表達(dá)式,通過“I”符號(hào)相互隔開;加上解密方式Decode后的具體形式為:[協(xié)議:協(xié)議域1,協(xié)議域2,協(xié)議域3] I [Decode] | [表達(dá)式1,表達(dá)式2,表達(dá)式3]。
[0012]本發(fā)明采用的另一個(gè)技術(shù)方案是,使用上述識(shí)別系統(tǒng)對(duì)網(wǎng)絡(luò)流量進(jìn)行深度識(shí)別的識(shí)別方法,包括以下步驟:
[0013]步驟I,規(guī)則解析
[0014]由基于語義的規(guī)則模塊建立基于語義的規(guī)則庫,再通過規(guī)則解析模塊對(duì)規(guī)則庫內(nèi)的規(guī)則進(jìn)行解析,然后生成層次匹配樹;
[0015]步驟2,接收流量
[0016]接收模塊獲取原始網(wǎng)絡(luò)數(shù)據(jù),并對(duì)原始網(wǎng)絡(luò)數(shù)據(jù)依次進(jìn)行IP碎片重組處理和TCP重組處理,得到傳輸層數(shù)據(jù);
[0017]步驟3,多協(xié)議解析
[0018]根據(jù)協(xié)議規(guī)范模塊定義的協(xié)議規(guī)范正則表達(dá)式識(shí)別出傳輸層數(shù)據(jù)在應(yīng)用層所使用的協(xié)議類型,再按照判斷得到的協(xié)議類型,通過結(jié)構(gòu)化協(xié)議數(shù)據(jù)模塊對(duì)應(yīng)用層數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理;
[0019]步驟4,匹配引擎
[0020]匹配引擎模塊根據(jù)層次匹配樹對(duì)結(jié)構(gòu)化的應(yīng)用層數(shù)據(jù)進(jìn)行規(guī)則匹配,將匹配成功的結(jié)果交給用戶行為統(tǒng)計(jì)模塊進(jìn)行統(tǒng)計(jì),完成網(wǎng)絡(luò)流量深度識(shí)別。
[0021]本發(fā)明還具有以下特點(diǎn):
[0022](I)步驟I中基于語義的規(guī)則庫的建立方法為:
[0023]I)分別定義匹配規(guī)則的業(yè)務(wù)字段和識(shí)別字段:
[0024]定義業(yè)務(wù)字段中的四個(gè)字段:應(yīng)用名稱,應(yīng)用行為,操作系統(tǒng)和代理,使用“O”符號(hào)將以上四個(gè)字段隔開;應(yīng)用名稱和應(yīng)用行為由具體的用戶行為來確定,操作系統(tǒng)和代理由網(wǎng)絡(luò)協(xié)議確定,對(duì)于無法確定的操作系統(tǒng)或代理,使用All來表示任意的操作系統(tǒng)或代理;業(yè)務(wù)字段的具體形式為:應(yīng)用名稱@應(yīng)用行為@操作系統(tǒng)@代理;
[0025]定義識(shí)別字段中的三個(gè)字段:協(xié)議、協(xié)議域何協(xié)議域的正則表達(dá)式,通過“ I ”符號(hào)相互隔開,加上解密方式Decode后的具體形式為:[協(xié)議:協(xié)議域1,協(xié)議域2,協(xié)議域3] I [Decode] | [表達(dá)式1,表達(dá)式2,表達(dá)式3];
[0026]2)將業(yè)務(wù)字段和識(shí)別字段組合,并使用“ I ”符號(hào)隔開,按照每條匹配規(guī)則一行的格式保存在規(guī)則文件中,形成規(guī)則庫。
[0027](2)步驟I中對(duì)規(guī)則庫內(nèi)的規(guī)則進(jìn)行解析包括對(duì)規(guī)則的業(yè)務(wù)字段解析和識(shí)別字段解析:業(yè)務(wù)字段中各業(yè)務(wù)子字段由@分隔,通過逐層分隔字符串得到相應(yīng)業(yè)務(wù)子字段對(duì)應(yīng)的值;識(shí)別字段中各識(shí)別子字段由I分隔,通過逐層分隔字符串得到相應(yīng)識(shí)別子字段的值。
[0028](3)步驟I中生成層次匹配樹具體方法為:將解析后的整個(gè)規(guī)則集根據(jù)協(xié)議域劃分成多個(gè)子集,每一個(gè)子集構(gòu)建一個(gè)匹配器,根據(jù)前一個(gè)匹配器匹配完成后可能進(jìn)入的下一個(gè)匹配器,來生成規(guī)則層次匹配樹。
[0029]還可以進(jìn)一步對(duì)以上的層次匹配樹進(jìn)行精簡,把每一個(gè)協(xié)議域字段中沒有與之相匹配的規(guī)則單獨(dú)提取出來,可以得到精簡后的規(guī)則層次匹配樹。
[0030]本發(fā)明的有益效果是:本發(fā)明的基于眾核處理器的網(wǎng)絡(luò)流量深度識(shí)別系統(tǒng)不僅能夠識(shí)別應(yīng)用層流量協(xié)議類型、詳細(xì)用戶行為信息,還滿足對(duì)高速網(wǎng)絡(luò)流量的實(shí)時(shí)在線處理能力。本發(fā)明的識(shí)別系統(tǒng)可應(yīng)用于各種眾核處理器,均能實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量進(jìn)行深度識(shí)別的目的。
【附圖說明】
[0031]圖1是本發(fā)明基于眾核處理器的網(wǎng)絡(luò)流量深度識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖;
[0032]圖2是本發(fā)明識(shí)別方法的方法流程圖;
[0033]圖3是本發(fā)明實(shí)施例的網(wǎng)絡(luò)流量深度識(shí)別的流程圖;
[0034]圖4是本發(fā)明實(shí)施例的將規(guī)則集劃分成多個(gè)子集的示意圖;
[0035]圖5是本發(fā)明實(shí)施例的層次匹配樹;
[0036]圖6是本發(fā)明實(shí)施例精簡后的層次匹配樹;
[0037]圖7是本發(fā)明實(shí)施例應(yīng)用層數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的結(jié)果示意圖。
[0038]圖中,1.接收模塊,2.協(xié)議規(guī)范模塊,3.結(jié)構(gòu)化數(shù)據(jù)模塊,4.基于語義的規(guī)則模塊,5.規(guī)則解析模塊,6.層次匹配樹模塊,7.匹配引擎模塊,8.用戶行為統(tǒng)計(jì)模塊。
【具體實(shí)施方式】
[0039]下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0040]本發(fā)明提供了一種基于眾核處理器的網(wǎng)絡(luò)流量深度識(shí)別系統(tǒng),包括接收模塊I和基于語義的規(guī)則模塊4 ;接收模塊I依次連接有協(xié)議規(guī)范模塊2和結(jié)構(gòu)化數(shù)據(jù)模塊3 ;基于語義的規(guī)則模塊4依次連接有規(guī)則解析模塊5和層次匹配樹模塊6,結(jié)構(gòu)化數(shù)據(jù)模塊3和層次匹配樹模塊6均與匹配引擎模塊7相連,匹配引擎模塊7還與用戶行為統(tǒng)計(jì)模塊8相連,各模塊的連接關(guān)系見圖1。
[0041]接收模塊I獲取原始網(wǎng)絡(luò)數(shù)據(jù),并對(duì)數(shù)據(jù)包進(jìn)行IP