本發(fā)明具體涉及一種規(guī)則遺漏導(dǎo)致的未知流量分析方法。
背景技術(shù):
在網(wǎng)絡(luò)流量分析優(yōu)化與控制系統(tǒng)中,要想達到網(wǎng)絡(luò)優(yōu)化的目的,需要精確識別網(wǎng)絡(luò)流量。精準(zhǔn)的應(yīng)用識別,可以大大提高產(chǎn)品的性能和可靠性。
未知流量的產(chǎn)生,主要有如下幾個方面:漏規(guī)則,即具體應(yīng)用規(guī)則覆蓋不全;應(yīng)用未分析,協(xié)議庫不支持;現(xiàn)網(wǎng)環(huán)境復(fù)雜,如存在非對稱環(huán)境。
傳統(tǒng)的協(xié)議分析流程,一般都是抓取某個應(yīng)用的數(shù)據(jù)包,然后進行特征分析和提取工作。抓取數(shù)據(jù)包過程中,需要協(xié)議分析人員手動點擊應(yīng)用的各個操作按鈕,盡管協(xié)議分析人員會盡可能觸發(fā)所有的場景,但難免會有所遺漏,這就會導(dǎo)致某些場景的流量分析不到,從而產(chǎn)生漏規(guī)則。另外,某一應(yīng)用有所更新,增加或修改了某些功能,也會導(dǎo)致規(guī)則遺漏。遺漏規(guī)則,這是傳統(tǒng)協(xié)議分析方法固有的缺陷。
要提高現(xiàn)網(wǎng)的整體識別率,關(guān)鍵是找到相對知名的應(yīng)用,做到對該應(yīng)用的識別達到一定的程度(比如98%以上)。一個比較流行的知名應(yīng)用,運營該應(yīng)用的公司不會讓多個應(yīng)用運行在一個服務(wù)器上,也就是說,一個服務(wù)器的ip唯一對應(yīng)著一個應(yīng)用,這是本方法的重要依據(jù)。我們統(tǒng)計出未知流量占比比較高的一些服務(wù)器ip,既然占比比較高,這些ip對應(yīng)的應(yīng)用也應(yīng)是比較知名的。然后在現(xiàn)網(wǎng)上根據(jù)服務(wù)器ip進行抓包,這樣抓取的流量用戶覆蓋廣、操作類型多,基本不會有特征流量的遺漏。之后再對抓取的數(shù)據(jù)包進行分析:比如,對于某一ip的數(shù)據(jù)包,其中部分流量我們可以識別為某個應(yīng)用,那么我們可以大膽推測該ip就是這個應(yīng)用的,而未識別的流量是由于分析人員覆蓋場景不夠?qū)е侣┳R別的。這時,我們再從該ip的未識別流量中提取規(guī)則特征更新到特征庫中去。
技術(shù)實現(xiàn)要素:
本發(fā)明主要針對第一種情況對協(xié)議分析流程和方法進行改進。應(yīng)用在現(xiàn)網(wǎng)未知流量占比比較大、協(xié)議特征規(guī)則有遺漏的場景。作為傳統(tǒng)協(xié)議分析方法的補充,用于補充遺漏的規(guī)則特征。
為了解決現(xiàn)有技術(shù)中的上述問題,提出一種規(guī)則遺漏導(dǎo)致的未知流量分析方法,其中,其分析時將抓包從客戶端移到服務(wù)器端,使在短時間內(nèi)能夠抓取多種操作類型、多種復(fù)雜網(wǎng)絡(luò)環(huán)境、多用戶的數(shù)據(jù)包,進而提高分析效率以及現(xiàn)網(wǎng)設(shè)備的識別率,所述方法具體包括:
步驟101,更新規(guī)則庫到所述現(xiàn)網(wǎng)設(shè)備,進行現(xiàn)網(wǎng)設(shè)備識別情況的多次測試;
步驟102,對現(xiàn)網(wǎng)設(shè)備未知流量進行統(tǒng)計,得出未知流量占比最高的服務(wù)器;
步驟103,在現(xiàn)網(wǎng)設(shè)備中,對上述未知流量占比最高的服務(wù)器進行服務(wù)器端抓包,上、下行包都包括,進而獲取樣本;
步驟104,對所獲取的樣本使用現(xiàn)有規(guī)則庫進行測試分析,得到樣本的識別情況;
步驟105,比較已識別部分樣本和未識別部分樣本所屬的服務(wù)器信息,對于服務(wù)器ip及端口都相同的樣本,由已識別部分樣本確定未識別部分樣本所屬應(yīng)用與其相同;
步驟106,提取該未識別部分樣本的規(guī)則特征;并將此規(guī)則特征增加到上述已識別部分樣本的規(guī)則特征中;
步驟107,將分析得到的規(guī)則特征更新到現(xiàn)網(wǎng)設(shè)備的規(guī)則庫中,重復(fù)步驟101-步驟107,直到識別率達標(biāo)。
通過本發(fā)明,提高現(xiàn)網(wǎng)流量的整體識別率、同時在服務(wù)器端抓包,極大地提供了協(xié)議的分析效率及抓包的多樣性。
附圖說明
圖1是本發(fā)明的未知流量分析流程圖。
具體實施方式
本方法主要包含以下步驟:現(xiàn)網(wǎng)設(shè)備(規(guī)則庫動態(tài)更新);對未知流量進行統(tǒng)計,得出流量占比最高的topn服務(wù)器;對topn服務(wù)器進行抓包;對獲取的樣本使用現(xiàn)有規(guī)則庫進行測試,得到樣本的識別情況;對于服務(wù)器ip及端口都相同的流量,由已識別部分確定未識別部分流量所屬應(yīng)用;提取該未識別部分流量的規(guī)則特征;將分析得到的規(guī)則更新到現(xiàn)網(wǎng)設(shè)備
下面結(jié)合附圖對本發(fā)明做進一步詳細說明。
參見圖1,本方法提出的協(xié)議分析方法步驟:
步驟101,更新規(guī)則庫到現(xiàn)網(wǎng)設(shè)備,進行識別情況的測試,測試時間要足夠長;
步驟102,對未知流量進行統(tǒng)計,得出流量占比最高的topn服務(wù)器;
步驟103,在現(xiàn)網(wǎng)中,對topn服務(wù)器進行抓包,上下行都要;
步驟104,對所獲取的樣本使用現(xiàn)有規(guī)則庫進行測試分析,得到樣本的識別情況;
步驟105,對于服務(wù)器ip及端口都相同的流量,由已識別部分確定未識別部分流量所屬應(yīng)用,比如:服務(wù)器ip為61.184.204.106,端口為80的流量,有部分流量使用現(xiàn)有規(guī)則庫可以識別樂視,還有部分為未知流量,那么,我們可以確定這部分未知流量也是樂視的,只是規(guī)則庫中樂視的規(guī)則特征覆蓋不全導(dǎo)致了這部分流量未能識別;
步驟106,提取該未識別部分的規(guī)則特征,上面例子中,我們就可以把從未識別的那部分流量提取的特征歸為樂視的特征;
步驟107,將分析得到的規(guī)則更新到現(xiàn)網(wǎng)設(shè)備,重復(fù)步驟101,反復(fù)迭代,直到識別率達標(biāo)。
本發(fā)明解決了傳統(tǒng)協(xié)議分析時從客戶端抓包抓取到的流量不可能覆蓋所有客戶端的操作場景,將抓包從客戶端移到服務(wù)器端,能夠在短時間內(nèi)抓取多種類型操作、復(fù)雜的網(wǎng)絡(luò)環(huán)境、多用戶的數(shù)據(jù)包,能夠極大地提高分析效率,同時也提高了現(xiàn)網(wǎng)設(shè)備的識別率。
以上所述的實施例僅僅是對本發(fā)明的優(yōu)選實施方式進行描述,并非對本發(fā)明的范圍進行限定,在不脫離本發(fā)明設(shè)計精神的前提下,本領(lǐng)域普通工程技術(shù)人員對本發(fā)明的技術(shù)方案作出的各種變形和改進,均應(yīng)落入本發(fā)明的權(quán)利要求書確定的保護范圍內(nèi)。