一種基于動(dòng)態(tài)數(shù)據(jù)包采樣的網(wǎng)絡(luò)流量識(shí)別系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息安全技術(shù)領(lǐng)域,具體涉及一種基于動(dòng)態(tài)數(shù)據(jù)包采樣的網(wǎng)絡(luò)流量識(shí)別系統(tǒng)和方法。
【背景技術(shù)】
[0002]隨著信息技術(shù)特別是互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)應(yīng)用的數(shù)量也在快速的增長(zhǎng)。網(wǎng)絡(luò)應(yīng)用的發(fā)展給人們的生活帶來(lái)了極大的方便,但是網(wǎng)絡(luò)應(yīng)用的復(fù)雜性和多樣性也給網(wǎng)絡(luò)應(yīng)用管理、流量控制等帶來(lái)巨大的挑戰(zhàn)。為了有效的應(yīng)對(duì)網(wǎng)絡(luò)應(yīng)用快速發(fā)展所帶來(lái)的挑戰(zhàn),實(shí)時(shí)、準(zhǔn)確的網(wǎng)絡(luò)應(yīng)用識(shí)別研究成為當(dāng)前網(wǎng)絡(luò)管理研究領(lǐng)域的重要研究問(wèn)題之一。
[0003]目前存在的協(xié)議識(shí)別技術(shù)主要存在如下幾種:⑴深度報(bào)文檢測(cè)技術(shù);(2)多模式匹配方法;(3)正則表達(dá)式匹配方法。
[0004]深度報(bào)文檢測(cè)(Deep Packet Inspect1n簡(jiǎn)稱DPI)技術(shù)主要相對(duì)傳統(tǒng)的基于五元組信息淺層報(bào)文檢測(cè)技術(shù)而言,基于DPI的協(xié)議識(shí)別技術(shù)將檢測(cè)深入到應(yīng)用層負(fù)載內(nèi)容,通過(guò)匹配數(shù)據(jù)包負(fù)載內(nèi)容是否包含協(xié)議的特征對(duì)流量進(jìn)行識(shí)別,深度包檢測(cè)技術(shù)能夠識(shí)別http偽裝、端口協(xié)商和隨機(jī)端口下載的P2P流量,具有較好的健壯性。
[0005]多模式匹配算法是經(jīng)典的多模匹配算法。該算法的主要思路是對(duì)特征串集合進(jìn)行預(yù)處理,通過(guò)算法尋找特征串之間的內(nèi)部關(guān)聯(lián)關(guān)系,當(dāng)匹配失效時(shí)通過(guò)對(duì)后綴包含進(jìn)行處理,直接對(duì)下一個(gè)待匹配字符進(jìn)行匹配而不需要在特征串中進(jìn)行回溯。該算法的核心包括三張表:goto表、failure表和output表。
[0006]正則表達(dá)式是正則語(yǔ)言的一種描述模型,在用正則表達(dá)式進(jìn)行匹配的算法當(dāng)中,普遍采用將正則表達(dá)式轉(zhuǎn)換為有窮自動(dòng)機(jī)(FA)的方式。有窮自動(dòng)機(jī)是指一種進(jìn)行文法識(shí)別的邏輯結(jié)構(gòu),其結(jié)構(gòu)可以采用編程方式實(shí)現(xiàn),與正則表達(dá)式作為主要的正則文法描述方式不同,有窮狀態(tài)機(jī)主要用于的正則文法識(shí)別和匹配領(lǐng)域,有窮狀態(tài)自動(dòng)機(jī)又分為確定有窮狀態(tài),因此基于正則表達(dá)式進(jìn)行協(xié)議識(shí)別的方法可以分為基于NFA正則表達(dá)式匹配算法和基于DFA正則表達(dá)式匹配算法。
[0007]在目前現(xiàn)有的協(xié)議識(shí)別方法中,深度報(bào)文檢測(cè)雖然有較好的準(zhǔn)確性和健壯性,但是其識(shí)別速度太慢,無(wú)法滿足流量協(xié)議進(jìn)行實(shí)時(shí)識(shí)別的需求,標(biāo)準(zhǔn)的多模式匹配算法雖然具有較高的匹配速度和效率,但是只能對(duì)字符串形式的協(xié)議特征進(jìn)行匹配,無(wú)法應(yīng)用于正則表達(dá)式協(xié)議識(shí)別領(lǐng)域,當(dāng)前普遍使用正則表達(dá)式進(jìn)行協(xié)議特征描述,主要采用基于正則表達(dá)式匹配的協(xié)議識(shí)別方法,而采用NFA方式對(duì)正則表達(dá)式進(jìn)行識(shí)別時(shí)間幵銷較高,無(wú)法滿足需求;使用DFA識(shí)別方式會(huì)面臨狀態(tài)圖爆炸問(wèn)題,因此需要對(duì)算法進(jìn)行改進(jìn);而目前基于狀態(tài)圖進(jìn)行優(yōu)化方式很難滿足需求,因此需要結(jié)合協(xié)議識(shí)別中協(xié)議特征的特性,對(duì)正則表達(dá)式匹配算法進(jìn)行更深入的研究。
[0008]結(jié)合協(xié)議特征的識(shí)別方法有如下方法:(1)基于端口的協(xié)議識(shí)別技術(shù);(2)基于應(yīng)用層負(fù)載簽名特征的協(xié)議識(shí)別技術(shù);(3)基于流特征的協(xié)議識(shí)別技術(shù)幾個(gè)階段。
[0009]基于端口的協(xié)議識(shí)別技術(shù)根據(jù)常見(jiàn)的網(wǎng)絡(luò)應(yīng)用或者網(wǎng)絡(luò)流量使用的固定端口號(hào)來(lái)識(shí)別網(wǎng)絡(luò)應(yīng)用或者協(xié)議,但是這種技術(shù)無(wú)法應(yīng)對(duì)越來(lái)越多的采用動(dòng)態(tài)端口的網(wǎng)絡(luò)應(yīng)用。
[0010]基于應(yīng)用層負(fù)載簽名的協(xié)議識(shí)別技術(shù)通過(guò)識(shí)別網(wǎng)絡(luò)應(yīng)用的應(yīng)用層負(fù)載簽名來(lái)識(shí)別網(wǎng)絡(luò)應(yīng)用或者協(xié)議,這種方法克服了動(dòng)態(tài)端口技術(shù)給協(xié)議識(shí)別帶來(lái)的困難,但是對(duì)部分?jǐn)?shù)據(jù)流加密的網(wǎng)絡(luò)應(yīng)用或者協(xié)議仍然無(wú)法有效識(shí)別。
[0011]基于流特征的協(xié)議識(shí)別技術(shù)根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流中的數(shù)據(jù)包長(zhǎng)短、連接比等特點(diǎn)識(shí)別網(wǎng)絡(luò)應(yīng)用或者協(xié)議,但是這種方法準(zhǔn)確度沒(méi)有基于應(yīng)用層負(fù)載簽名的協(xié)議識(shí)別方法高并且開銷較大。
【發(fā)明內(nèi)容】
[0012]為解決現(xiàn)有協(xié)議識(shí)別無(wú)法適應(yīng)實(shí)際網(wǎng)絡(luò)環(huán)境中不斷變化且不可預(yù)測(cè)的網(wǎng)絡(luò)流量的問(wèn)題,本發(fā)明提供一種基于動(dòng)態(tài)數(shù)據(jù)包采樣的網(wǎng)絡(luò)流量識(shí)別系統(tǒng)和方法,可以感知網(wǎng)絡(luò)流量特征變化并自動(dòng)選擇適應(yīng)數(shù)據(jù)包采樣,實(shí)現(xiàn)網(wǎng)絡(luò)流量的識(shí)別。
[0013]為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采取如下技術(shù)方案:
[0014]本發(fā)明提供一種基于動(dòng)態(tài)數(shù)據(jù)包采樣的網(wǎng)絡(luò)流量識(shí)別系統(tǒng),所述系統(tǒng)包括網(wǎng)絡(luò)流量識(shí)別服務(wù)器、數(shù)據(jù)包分析模塊和行為分析模塊;所述網(wǎng)絡(luò)流量識(shí)別服務(wù)器、數(shù)據(jù)包分析模塊和行為分析模塊依次單向連接。
[0015]所述網(wǎng)絡(luò)流量識(shí)別服務(wù)器獲取網(wǎng)絡(luò)流量,并從獲取的網(wǎng)絡(luò)流量中提取數(shù)據(jù)包首包的載荷特征,網(wǎng)絡(luò)流量識(shí)別服務(wù)器根據(jù)提取的載荷特征識(shí)別網(wǎng)絡(luò)流量;如果網(wǎng)絡(luò)流量識(shí)別服務(wù)器能夠識(shí)別網(wǎng)絡(luò)流量,則不再進(jìn)行網(wǎng)絡(luò)流量的獲取,否則采用數(shù)據(jù)包分析模塊進(jìn)行網(wǎng)絡(luò)流量的識(shí)別。
[0016]所述網(wǎng)絡(luò)流量識(shí)別服務(wù)器根據(jù)提取的載荷特征識(shí)別網(wǎng)絡(luò)流量,包括:
[0017]所述網(wǎng)絡(luò)流量識(shí)別服務(wù)器比較數(shù)據(jù)包首包載荷特征和網(wǎng)絡(luò)流量識(shí)別服務(wù)器中網(wǎng)絡(luò)流量行為特征之間的相似度,最相似的網(wǎng)絡(luò)流量類型即為網(wǎng)絡(luò)流量識(shí)別服務(wù)器識(shí)別出的網(wǎng)絡(luò)流量類型。
[0018]所述數(shù)據(jù)包分析模塊對(duì)首包之后的數(shù)據(jù)包進(jìn)行均勻采樣,根據(jù)采樣的數(shù)據(jù)包的載荷特征識(shí)別網(wǎng)絡(luò)流量,如果數(shù)據(jù)包采樣數(shù)超過(guò)采樣閾值還未識(shí)別出網(wǎng)絡(luò)流量,則采用行為分析模塊進(jìn)行網(wǎng)絡(luò)流量的識(shí)別。
[0019]所述數(shù)據(jù)包分析模塊根據(jù)采樣的數(shù)據(jù)包的載荷特征識(shí)別網(wǎng)絡(luò)流量,包括:
[0020]所述數(shù)據(jù)包分析模塊首先比較采樣的第一個(gè)數(shù)據(jù)包與分類器中網(wǎng)絡(luò)流量,確定第一個(gè)數(shù)據(jù)包載荷特征與網(wǎng)絡(luò)流量行為特征之間的相似度,然后對(duì)確定的相似度進(jìn)行歸一化處理;所述數(shù)據(jù)包分析模塊比較采樣的第二個(gè)數(shù)據(jù)包與分類器中網(wǎng)絡(luò)流量,確定第二個(gè)數(shù)據(jù)包載荷特征與網(wǎng)絡(luò)流量行為特征之間的相似度,對(duì)確定的相似度進(jìn)行歸一化處理;經(jīng)過(guò)歸一化處理后的第一個(gè)數(shù)據(jù)包載荷特征與網(wǎng)絡(luò)流量行為特征之間的相似度和第二個(gè)數(shù)據(jù)包載荷特征與網(wǎng)絡(luò)流量行為特征之間的相似度相乘,之后再次歸一化處理,依次進(jìn)行同樣的操作,直到所有數(shù)據(jù)包采樣運(yùn)行結(jié)束;最后,如果當(dāng)前均勻采樣的數(shù)據(jù)包載荷特征與網(wǎng)絡(luò)流量行為特征之間的相似度大于90%,則認(rèn)為當(dāng)前網(wǎng)絡(luò)流量的類型為數(shù)據(jù)包分析模塊識(shí)別出的網(wǎng)絡(luò)流量類型。
[0021]所述行為分析模塊對(duì)隨后的數(shù)據(jù)包采用隨機(jī)遞增的間隔抽樣策略進(jìn)行隨機(jī)抽樣,提取該網(wǎng)絡(luò)流量的行為特征,并且將網(wǎng)絡(luò)流量的行為特征與數(shù)據(jù)包的載荷特征相融合,進(jìn)行網(wǎng)絡(luò)流量的識(shí)別。
[0022]所述行為分析模塊識(shí)別網(wǎng)絡(luò)流量包括:
[0023]將數(shù)據(jù)包首包載荷特征與網(wǎng)絡(luò)流量行為特征之間的相似度和行為分析模塊采樣得到的數(shù)據(jù)包載荷特征與網(wǎng)絡(luò)流量行為特征之間的相似度進(jìn)行累加,累加之后的相似度大于90%,則認(rèn)為當(dāng)前網(wǎng)絡(luò)流量的類型為行為分析模塊識(shí)別出的網(wǎng)絡(luò)流量類型。
[0024]本發(fā)明提供一種基于動(dòng)態(tài)數(shù)據(jù)包采樣的網(wǎng)絡(luò)流量識(shí)別方法,所述方法包括以下步驟:
[0025]步驟1:通過(guò)網(wǎng)絡(luò)流量識(shí)別服務(wù)器獲取網(wǎng)絡(luò)流量,從獲取的網(wǎng)絡(luò)流量中提取數(shù)據(jù)包首包的載荷特征,如果網(wǎng)絡(luò)流量識(shí)別服務(wù)器能夠識(shí)別網(wǎng)絡(luò)流量,則不再進(jìn)行網(wǎng)絡(luò)流量的獲取,否則執(zhí)行步驟2;
[0026]步驟2:通過(guò)數(shù)據(jù)包分析模塊對(duì)首包之后的數(shù)據(jù)包進(jìn)行均勻采樣,均勻采樣的參數(shù)包括采樣數(shù)據(jù)包間隔、總采樣數(shù)據(jù)包數(shù)m和采樣數(shù)據(jù)包范圍,且在第2個(gè)數(shù)據(jù)包和第k個(gè)數(shù)據(jù)包之間進(jìn)行均勻采樣,k^m ;根據(jù)采樣的數(shù)據(jù)包的載荷特征識(shí)別網(wǎng)絡(luò)流量,當(dāng)其中某個(gè)數(shù)據(jù)包已經(jīng)識(shí)別出網(wǎng)絡(luò)流量,則終止首包之后數(shù)據(jù)包的均勻采樣,如果數(shù)據(jù)包采樣數(shù)超過(guò)采樣閾值還未識(shí)別出網(wǎng)絡(luò)流量,則執(zhí)行步驟3 ;
[0027]步驟3:通過(guò)行為分析模塊對(duì)第k個(gè)數(shù)據(jù)包之后的數(shù)據(jù)包進(jìn)行隨機(jī)抽樣,采用隨機(jī)遞增的間隔抽樣策略完成隨機(jī)抽樣,提取該網(wǎng)絡(luò)流量的行為特征,并且將網(wǎng)絡(luò)流量的行為特征與數(shù)據(jù)包的載荷特征相融合,進(jìn)行網(wǎng)絡(luò)流量的識(shí)別。
[0028]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
[0029]本發(fā)明利用對(duì)數(shù)據(jù)包的不同采樣策略,解決傳統(tǒng)的網(wǎng)絡(luò)流量識(shí)別方法面對(duì)不斷變化的流量環(huán)境無(wú)法及時(shí)調(diào)整識(shí)別策略的矛盾,使得在網(wǎng)絡(luò)流量識(shí)別的過(guò)程中,可以通過(guò)感知數(shù)據(jù)包的變化,來(lái)調(diào)整當(dāng)前網(wǎng)絡(luò)流量識(shí)別的策略,是根據(jù)首包信息結(jié)合協(xié)議識(shí)別方法來(lái)進(jìn)行識(shí)別,還是根據(jù)數(shù)據(jù)包分析結(jié)合協(xié)議識(shí)別方法來(lái)進(jìn)行識(shí)別,還是根據(jù)網(wǎng)絡(luò)行為分析結(jié)合協(xié)議識(shí)別方法來(lái)進(jìn)行識(shí)別,根據(jù)運(yùn)行環(huán)境變化并自動(dòng)選擇適合當(dāng)前流量特征的網(wǎng)絡(luò)流量協(xié)議識(shí)別策略,從而保證在任意流量環(huán)境下網(wǎng)絡(luò)流量識(shí)別的準(zhǔn)確率與處理效率。
【附圖說(shuō)明】
[0030]圖1是本發(fā)明實(shí)施例中基于動(dòng)態(tài)數(shù)據(jù)包采樣的網(wǎng)絡(luò)流量識(shí)別方法流程圖;
[0031]圖2是本發(fā)明實(shí)施例中網(wǎng)絡(luò)流量識(shí)別服務(wù)器工作流程圖;
[0032]圖3是本發(fā)明實(shí)施例中數(shù)據(jù)包分析模塊工作流程圖;
[0033]圖4是本發(fā)明實(shí)施例中行為分析模塊工作流程圖。
【具體實(shí)施方式】
[0034]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
[0035]本發(fā)明提供一種基于動(dòng)態(tài)數(shù)據(jù)包采樣的網(wǎng)絡(luò)流量識(shí)別系統(tǒng),所述系統(tǒng)包括網(wǎng)絡(luò)流量識(shí)別服務(wù)器、數(shù)據(jù)包分析模塊和行為分析模塊;所述網(wǎng)絡(luò)流量識(shí)別服務(wù)器、數(shù)據(jù)包分析模塊和行為分析模塊依次單向連接。
[0036]所述網(wǎng)絡(luò)流量識(shí)別服務(wù)器獲取網(wǎng)絡(luò)流量,并從獲取的網(wǎng)絡(luò)流量中提取數(shù)據(jù)包首包的載荷特征,網(wǎng)絡(luò)流量識(shí)別服務(wù)器根據(jù)提取的載荷特征識(shí)別網(wǎng)絡(luò)流量;如果網(wǎng)絡(luò)流量識(shí)別服務(wù)器能夠識(shí)別網(wǎng)絡(luò)流量,則不再進(jìn)行網(wǎng)絡(luò)流量的獲取,否則采用數(shù)據(jù)包分析模塊進(jìn)行網(wǎng)絡(luò)流量的識(shí)別。
[0037]所述網(wǎng)絡(luò)流量識(shí)別服務(wù)器根據(jù)提取的載荷特征識(shí)別網(wǎng)絡(luò)流量,包括:
[0038]所述網(wǎng)絡(luò)流量識(shí)別服務(wù)器比較數(shù)據(jù)包首包載荷特征和網(wǎng)絡(luò)流量識(shí)別服務(wù)器中網(wǎng)絡(luò)流量行為特征之間的相似度,最相似的網(wǎng)絡(luò)流量類型即為網(wǎng)絡(luò)流量識(shí)別服務(wù)器識(shí)別出的網(wǎng)絡(luò)流量類型。
[003