一種基于流集的在線流量識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)監(jiān)督領(lǐng)域,具體的涉及一種基于流集的在線流量識(shí)別方法。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)數(shù)據(jù)流識(shí)別是網(wǎng)絡(luò)監(jiān)督的重要手段。隨著互聯(lián)網(wǎng)的日益普及,網(wǎng)絡(luò)服務(wù)應(yīng)用不斷地發(fā)展壯大,在網(wǎng)絡(luò)優(yōu)化、QoS保證、網(wǎng)絡(luò)管控等應(yīng)用領(lǐng)域,對(duì)在線流量識(shí)別的需求越來越多,要求分類算法能夠在線運(yùn)行,根據(jù)分類結(jié)果產(chǎn)生即時(shí)報(bào)告或進(jìn)行管控處理,如對(duì)VoIP網(wǎng)絡(luò)電話的監(jiān)控等等。目前,為了實(shí)現(xiàn)網(wǎng)絡(luò)流量的高速在線處理,主要從三個(gè)方面進(jìn)行研究,特征約減、流量識(shí)別以及硬件加速。在線流量識(shí)別要求對(duì)鏈路中的流量實(shí)時(shí)進(jìn)行識(shí)別和標(biāo)記,而隨著網(wǎng)絡(luò)鏈路帶寬越來越高,在線流量識(shí)別的挑戰(zhàn)也越來越大。在高速流量下,算法既要完成對(duì)流量的線速處理,又要保證分類準(zhǔn)確率,通常需要算法在準(zhǔn)確度、性價(jià)比和處理效率上進(jìn)行折衷。
[0003]本發(fā)明從流量約減這一新的角度出發(fā),提出對(duì)具有相同三元組的流統(tǒng)一進(jìn)行識(shí)別的方法,即基于流集(流集:具有相同三元組的流的集合)的在線流量識(shí)別方法。三元組是指源IP地址、源端口號(hào)和協(xié)議類型的組合或者是目的IP地址、目的端口號(hào)和協(xié)議類型的組合。該方法首先分析流集內(nèi)部多個(gè)流的分類結(jié)果。然后,為了保證流量分類的準(zhǔn)確率,根據(jù)分類置信度通過投票機(jī)制決定流集中流的應(yīng)用類別。流聚合度表示流數(shù)量與流集數(shù)量的比率。通過現(xiàn)網(wǎng)真實(shí)數(shù)據(jù)對(duì)流集的存在和規(guī)模進(jìn)行了驗(yàn)證分析,分析結(jié)果表明,流集現(xiàn)象普遍存在,但流聚合度不同。對(duì)算法的分類錯(cuò)誤率和處理速度進(jìn)行的理論分析表明:線路中流聚合度越大,表明線路中相同端點(diǎn)流的聚集程度越高,F(xiàn)SC算法的計(jì)算強(qiáng)度衰減越大,算法的加速效果越顯著;此外,如果線路中大規(guī)模流集數(shù)量較多時(shí),基于流集的在線流量識(shí)別算法的計(jì)算強(qiáng)度衰減更大,其加速效果更好。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對(duì)現(xiàn)有技術(shù)存高速鏈路在線流識(shí)別準(zhǔn)確度低、效率不高等問題,提出一種基于流集的在線流量識(shí)別方法。
[0005]本發(fā)明的技術(shù)方案是:一種基于流集的在線流量識(shí)別方法,其中硬件部分包括1G骨干線路接入模塊、流量篩選模塊和數(shù)據(jù)處理模塊,該在線流量識(shí)別方法的步驟包括:
步驟一:捕捉網(wǎng)絡(luò)數(shù)據(jù)流量,提取其報(bào)文;
步驟二:流集信息表的生成與維護(hù);
步驟二:對(duì)流集進(jìn)行檢測(cè);
步驟四:對(duì)流集進(jìn)行分類。
[0006]所述的基于流集的在線流量識(shí)別方法,所述捕捉網(wǎng)絡(luò)數(shù)據(jù)流量的具體方法是:1G骨干線路接入模塊通過連接骨干網(wǎng)絡(luò)中的1G POS互聯(lián)網(wǎng)流量,完成輸入1G POS光傳輸?shù)?G ETH以太網(wǎng)輸入的協(xié)議轉(zhuǎn)換;對(duì)已在匹配范圍內(nèi)的流進(jìn)行跟蹤,對(duì)輸入原始包進(jìn)行過濾篩選,進(jìn)而區(qū)分出所需數(shù)據(jù)流量。
[0007]所述的基于流集的在線流量識(shí)別方法,所述流集信息表的生成與維護(hù)的具體方法為:流集信息表用來存儲(chǔ)線路中流集的信息,流集的信息包含流數(shù)、應(yīng)用類別、流集時(shí)間窗和流集分類錯(cuò)誤率估計(jì);由于流集信息表空間有限,無法存放線路中所有出現(xiàn)的流集信息,因此采用LRU算法,將出現(xiàn)頻度最低的流集放置于鏈表尾部,當(dāng)流集數(shù)量超過流集信息表容量后,將鏈表尾部的端點(diǎn)淘汰。
[0008]所述的基于流集的在線流量識(shí)別方法,所述流量篩選模塊對(duì)流集進(jìn)行檢測(cè)包括:流集匹配規(guī)則檢測(cè)、流集時(shí)間窗匹配規(guī)則檢測(cè)和流集錯(cuò)誤率匹配規(guī)則檢測(cè)。
[0009]所述的基于流集的在線流量識(shí)別方法,所述流集匹配規(guī)則檢測(cè)是:對(duì)接收?qǐng)?bào)文進(jìn)行處理,根據(jù)報(bào)文的源目三元組,查詢報(bào)文所屬流集是否在流集信息表中存在對(duì)應(yīng)的表項(xiàng),然后提取表項(xiàng)中的應(yīng)用類別信息對(duì)報(bào)文進(jìn)行標(biāo)記處理。
[0010]所述的基于流集的在線流量識(shí)別方法,所述流集時(shí)間窗匹配規(guī)則檢測(cè)是:檢測(cè)流集信息表中的流集三元組信息是否過期,過期則需要進(jìn)行刪除處理。
[0011]所述的基于流集的在線流量識(shí)別方法,所述流集錯(cuò)誤率匹配規(guī)則檢測(cè)是:檢測(cè)流集的分類錯(cuò)誤率是否大于設(shè)定的錯(cuò)誤率閾值,如果大于閾值,則需要對(duì)流集重新進(jìn)行分類處理。
[0012]所述的基于流集的在線流量識(shí)別方法,所述對(duì)流集進(jìn)行分類的具體方法為:數(shù)據(jù)處理模塊對(duì)流入報(bào)文、定位流表,提取流特征并進(jìn)行流類型判別,并根據(jù)流分類置信度對(duì)流集的分類錯(cuò)誤率進(jìn)行估計(jì),最終投票得出流集對(duì)應(yīng)的應(yīng)用類別,更新流集信息表中的相關(guān)?目息O
[0013]本發(fā)明的有益效果是:本發(fā)明從流量約減這一新的角度出發(fā),提出對(duì)具有相同三元組的流統(tǒng)一進(jìn)行識(shí)別的方法,即基于流集的在線流量識(shí)別方法。該方法首先分析流集內(nèi)部多個(gè)流的分類結(jié)果。然后,為了保證流量分類的準(zhǔn)確率,根據(jù)分類置信度通過投票機(jī)制決定流集中流的應(yīng)用類別。本發(fā)明很好地解決了高速鏈路在線流識(shí)別準(zhǔn)確度低、效率不高等問題,極大的提高了對(duì)高速鏈路在線流識(shí)別的準(zhǔn)確性、可靠性和有效性。
【附圖說明】
[0014]圖1為基于流集的在線流量識(shí)別方法的流程框圖;
圖2為基于流集的在線流量識(shí)別方法的外部接口示意圖;
圖3為基于流集的在線流量識(shí)別方法的流集分類流程示意圖。
【具體實(shí)施方式】
[0015]實(shí)施例1:一種基于流集的在線流量識(shí)別方法,其中硬件部分包括1G骨干線路接入模塊、流量篩選模塊和數(shù)據(jù)處理模塊,該在線流量識(shí)別方法的步驟包括:
步驟一:捕捉網(wǎng)絡(luò)數(shù)據(jù)流量,提取其報(bào)文;捕捉網(wǎng)絡(luò)數(shù)據(jù)流量的具體方法是:1G骨干線路接入模塊通過連接骨干網(wǎng)絡(luò)中的1G POS互聯(lián)網(wǎng)流量,完成輸入1G POS光傳輸?shù)?GETH以太網(wǎng)輸入的協(xié)議轉(zhuǎn)換;對(duì)已在匹配范圍內(nèi)的流進(jìn)行跟蹤,對(duì)輸入原始包進(jìn)行過濾篩選,進(jìn)而區(qū)分出所需數(shù)據(jù)流量。
[0016]步驟二:流集信息表的生成與維護(hù);流集信息表的生成與維護(hù)的具體方法為:流集信息表用來存儲(chǔ)線路中流集的信息,流集的信息包含流數(shù)、應(yīng)用類別、流集時(shí)間窗和流集分類錯(cuò)誤率估計(jì);由于流集信息表空間有限,無法存放線路中所有出現(xiàn)的流集信息,因此采用LRU算法,將出現(xiàn)頻度最低的流集放置于鏈表尾部,當(dāng)流集數(shù)量超過流集信息表容量后,將鏈表尾部的端點(diǎn)淘汰。
[0017]步驟三:對(duì)流集進(jìn)行檢測(cè);流量篩選模塊對(duì)流集進(jìn)行檢測(cè)包括:流集匹配規(guī)則檢測(cè)、流集時(shí)間窗匹配規(guī)則檢測(cè)和流集錯(cuò)誤率匹配規(guī)則檢測(cè)。
[0018]流集匹配規(guī)則檢測(cè)是:對(duì)接收?qǐng)?bào)文進(jìn)行處理,根據(jù)報(bào)文的源目三元組,查詢報(bào)文所屬流集是否在流集信息表中存在對(duì)應(yīng)的表項(xiàng),然后提取表項(xiàng)中的應(yīng)用類別信息對(duì)報(bào)文進(jìn)行標(biāo)記處理;具體的,當(dāng)收到報(bào)文后,對(duì)接收?qǐng)?bào)文進(jìn)行處理,提取報(bào)文的源端點(diǎn)SrC_fS={SrC_ip, src_port, src_proto}和目的端點(diǎn) dst_fs= {dst_ip, dst_port, dst_proto},分別針對(duì) src_fs 和 dst_fs 查詢 FSIT,所述 FSIT 為:FSIT:Flow Set Informat1n Table,流集信息表。如果源目三元組在FSIT均不存在匹配表項(xiàng),則對(duì)流集進(jìn)行流類型判別,并更新到FIST中則將該三元組信息寫入FSIT,并對(duì)FSIT進(jìn)行更新;如果源目三元組在FSIT中存在匹配表項(xiàng),則需要對(duì)流量進(jìn)行進(jìn)一步的時(shí)間窗匹配規(guī)則檢測(cè)。
[0019]流集時(shí)間窗匹配規(guī)則檢測(cè)是:檢測(cè)流集信息表中的流集三元組信息是否過期,過期則需要進(jìn)行刪除處理;具體的,檢查流集時(shí)間窗是否到期,如果到期,則刪除該流集記錄,并對(duì)FSIT進(jìn)行更新;否則需要對(duì)流集進(jìn)行錯(cuò)誤率估計(jì)。
[0020]流集錯(cuò)誤率匹配規(guī)則檢測(cè)是:檢測(cè)流集的分類錯(cuò)誤率是否大于設(shè)