国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種海量數(shù)據(jù)處理方法及系統(tǒng)與流程

      文檔序號:12465079閱讀:291來源:國知局
      一種海量數(shù)據(jù)處理方法及系統(tǒng)與流程

      本發(fā)明實施例涉及自動化技術(shù)領(lǐng)域,尤其涉及一種海量數(shù)據(jù)處理方法及系統(tǒng)。



      背景技術(shù):

      我們?nèi)粘9ぷ鳝h(huán)境中存在大量歷史積累的網(wǎng)絡(luò)數(shù)據(jù)包,實際網(wǎng)絡(luò)環(huán)境中存在大量實時網(wǎng)絡(luò)數(shù)據(jù)流,這些數(shù)據(jù)中隨時會出現(xiàn)我們想要的信息。如何高效提取這些信息以及這些信息的上下文成為很多人迫切的需求,而且這些信息可能以各種形式存在原始報文中,比如以unicode+base64編碼、然后經(jīng)過zlib壓縮,比如經(jīng)過md5加密,要想從海量數(shù)據(jù)中檢測到這些信息及其上下文,就需要進行協(xié)議解析。而協(xié)議數(shù)據(jù)分析工作是協(xié)議解析的基礎(chǔ),協(xié)議分析是否全面、深入直接影響了協(xié)議解析的質(zhì)量。

      現(xiàn)有的全人工的協(xié)議分析工作方式存在量大重復(fù)效率低、人員的頻繁更替無法保證分析質(zhì)量、分析經(jīng)驗無法有效積累并傳承等問題。



      技術(shù)實現(xiàn)要素:

      本發(fā)明提供一種海量數(shù)據(jù)處理的方法及系統(tǒng),以實現(xiàn)數(shù)據(jù)處理工作的自動化。

      為達到此目的,本發(fā)明實施例采用以下技術(shù)方案:

      一種海量數(shù)據(jù)處理方法,包括:

      獲取用戶輸入的關(guān)鍵詞;

      根據(jù)預(yù)設(shè)的編碼方式對所述關(guān)鍵詞編碼后得到對應(yīng)的第一數(shù)據(jù);

      獲取海量數(shù)據(jù);

      對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù);

      根據(jù)所述編碼方式與對應(yīng)的解碼方式匹配所述第一數(shù)據(jù)和第二數(shù)據(jù),并輸出匹配結(jié)果。

      進一步地,所述方法,還包括:

      將所述匹配結(jié)果進行關(guān)聯(lián)分析,得到含關(guān)聯(lián)信息的匹配結(jié)果;

      將所述含關(guān)聯(lián)信息的匹配結(jié)果根據(jù)數(shù)據(jù)上傳格式和/或數(shù)據(jù)下載格式輸出成相關(guān)格式文件。

      進一步地,所述方法,在對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù)之前,還包括:

      將所述海量數(shù)據(jù)按各自協(xié)議格式解析到tcp、udp層并存儲。

      進一步地,所述方法,在對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù)之前,還包括:

      將解析后的數(shù)據(jù)按流進行流量統(tǒng)計和應(yīng)用協(xié)議識別。

      進一步地,所述方法,還包括:

      通過學(xué)習(xí)以往的模板編寫經(jīng)驗,對每個匹配結(jié)果進行統(tǒng)計排名,從一個關(guān)鍵字的多個匹配結(jié)果中選擇統(tǒng)計排名靠前的幾個。

      相應(yīng)地,本發(fā)明還公開一種海量數(shù)據(jù)處理系統(tǒng),包括:

      關(guān)鍵詞獲取模塊,用于獲取用戶輸入的關(guān)鍵詞;

      關(guān)鍵詞編碼模塊,用于根據(jù)預(yù)設(shè)的編碼方式對所述關(guān)鍵詞編碼后得到對應(yīng)的第一數(shù)據(jù);

      數(shù)據(jù)獲取模塊,用于獲取海量數(shù)據(jù);

      數(shù)據(jù)解碼模塊,用于對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù);

      結(jié)果輸出模塊,用于根據(jù)所述編碼方式與對應(yīng)的解碼方式匹配所述第一數(shù)據(jù)和第二數(shù)據(jù),并輸出匹配結(jié)果。

      進一步地,所述系統(tǒng),還包括:

      結(jié)果關(guān)聯(lián)模塊,用于將所述匹配結(jié)果進行關(guān)聯(lián)分析,得到含關(guān)聯(lián)信息的匹配結(jié)果;

      格式輸出模塊,用于將所述含關(guān)聯(lián)信息的匹配結(jié)果根據(jù)數(shù)據(jù)上傳格式和/或數(shù)據(jù)下載格式輸出成相關(guān)格式文件。

      進一步地,所述系統(tǒng),還包括:

      數(shù)據(jù)解析模塊,在對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù)之前,將所述海量數(shù)據(jù)按各自協(xié)議格式解析到tcp、udp層并存儲。

      進一步地,所述系統(tǒng),還包括:

      連接管理模塊,在對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù)之前,將解析后的數(shù)據(jù)按流進行流量統(tǒng)計和應(yīng)用協(xié)議識別。

      進一步地,所述系統(tǒng),還包括:

      模板學(xué)習(xí)模塊,用于通過學(xué)習(xí)以往的模板編寫經(jīng)驗,對每個匹配結(jié)果進行統(tǒng)計排名,從一個關(guān)鍵字的多個匹配結(jié)果中選擇統(tǒng)計排名靠前的幾個。

      本發(fā)明實施例所提供的技術(shù)方案,通過實現(xiàn)數(shù)據(jù)處理工作的自動化,可以高效的從海量數(shù)據(jù)中提取到各種經(jīng)過處理的有價值信息,完成大量的重復(fù)檢索分析工作,保證了分析質(zhì)量并能夠吸納分析經(jīng)驗,不斷提高分析的準確性,彌補了不同水平人員的分析知識盲區(qū)和差異。

      附圖說明

      圖1為本發(fā)明實施例一提供的一種海量數(shù)據(jù)處理方法的流程示意圖;

      圖2為本發(fā)明實施例以提供的數(shù)據(jù)編碼結(jié)構(gòu)體示意圖;

      圖3A-3D為本發(fā)明實施例一提供的4個線程運行流程圖;

      圖4為本發(fā)明實施例一所適用的協(xié)議分析自動化系統(tǒng)的部署方案示意圖;

      圖5為本發(fā)明實施例二提供的一種海量數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)示意圖。

      具體實施方式

      下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。

      實施例一

      請參閱附圖1,為本發(fā)明實施例一提供的一種海量數(shù)據(jù)處理方法的流程示意圖,該方法適用于海量網(wǎng)絡(luò)數(shù)據(jù)處理的場景,該方法由海量數(shù)據(jù)處理系統(tǒng)來執(zhí)行,該系統(tǒng)可以由軟件和/或硬件實現(xiàn),集成于數(shù)據(jù)分析工具的內(nèi)部。該方法具體包括如下步驟:

      S110、獲取用戶輸入的關(guān)鍵詞。

      S120、根據(jù)預(yù)設(shè)的編碼方式對所述關(guān)鍵詞編碼后得到對應(yīng)的第一數(shù)據(jù)。

      具體的,將用戶提供的關(guān)鍵詞做各種常見編碼類型的編碼轉(zhuǎn)換并儲存,編碼方式如utf8、unicode、url、base64、md5等。數(shù)據(jù)編碼過程例如可以是,如圖2所示,為數(shù)據(jù)編碼結(jié)構(gòu)體示意圖,其中encode1、encode2等是編碼后的字符串,code是編碼前的字符串,encode_type是編碼類型,cmd_arg是命令行參數(shù)。數(shù)據(jù)結(jié)構(gòu)是關(guān)聯(lián)式容器multimap,以encode1、encode2等作為key,以code、encode_type、cmd_arg組成的vector作為value。編碼模塊與關(guān)聯(lián)模塊之間數(shù)據(jù)傳輸使用此結(jié)構(gòu)體。

      S130、獲取海量數(shù)據(jù)。

      具體的,S130為數(shù)據(jù)采集線程,獲取的海量數(shù)據(jù)為各種數(shù)據(jù)接入方式的數(shù)據(jù),例如可以是PPPOE、GTP、LTE、文件等。

      S140、對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù)。

      具體的,S140為一級解碼線程,對海量數(shù)據(jù)中的http協(xié)議以及cookie進行解碼,解碼完成后對負載,即解碼結(jié)果,進行組包。

      可選的,在對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù)之前,還可以包括:將所述海量數(shù)據(jù)按各自協(xié)議格式解析到tcp、udp層并存儲。其中,解析后的數(shù)據(jù)將儲存為特定的數(shù)據(jù)結(jié)構(gòu)。

      可選的,在對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù)之前,還可以包括:將解析后的數(shù)據(jù)按流進行流量統(tǒng)計和應(yīng)用協(xié)議識別。

      S150、根據(jù)所述編碼方式與對應(yīng)的解碼方式匹配所述第一數(shù)據(jù)和第二數(shù)據(jù),并輸出匹配結(jié)果。

      具體的,S150為二級解碼線程,將http解碼后的信息與編碼模塊關(guān)鍵詞的編碼結(jié)果進行匹配,然后輸出匹配結(jié)果。

      可選的,所述方法還包括:將所述匹配結(jié)果進行關(guān)聯(lián)分析,得到含關(guān)聯(lián)信息的匹配結(jié)果;

      具體的,通過將關(guān)鍵字匹配輸出結(jié)果中的cookie分為key、value,對不同關(guān)鍵字cookie的value進行比對,如果相等則輸出,最終形成關(guān)鍵字之間cookie關(guān)聯(lián)的報告供用戶選擇。

      將所述含關(guān)聯(lián)信息的匹配結(jié)果根據(jù)數(shù)據(jù)上傳格式和/或數(shù)據(jù)下載格式輸出成相關(guān)格式文件。

      具體的,通過對用戶常用上傳、下載文件格式的識別,輸出相關(guān)文件,供用戶選擇。例如可以是,照片JPG、BNG格式;音頻MP3、WAV格式;視頻MP4、AVI格式。

      可選的,所述方法還包括:通過學(xué)習(xí)以往的模板編寫經(jīng)驗,對每個匹配結(jié)果進行統(tǒng)計排名,從一個關(guān)鍵字的多個匹配結(jié)果中選擇統(tǒng)計排名靠前的幾個。

      為了更加清晰的展現(xiàn)本發(fā)明實施例的方法實施過程,下面以4個線程運行流程圖進行詳細介紹,請參閱圖3A、3B、3C和3D。

      圖3A為主線程運行流程圖,系統(tǒng)啟動后,主線程進行本地資源和網(wǎng)絡(luò)資源的初始化,讀取命令行或配置文件信息,調(diào)用編碼模塊進行關(guān)鍵字編碼與存儲,調(diào)用模板學(xué)習(xí)模塊,讀取模板文件,對模板中各節(jié)點的配置進行統(tǒng)計排序,并監(jiān)控其他線程的運行狀態(tài)。

      圖3B為數(shù)據(jù)采集線程運行流程圖,啟動數(shù)據(jù)采集線程,按配置的數(shù)據(jù)接入方式將網(wǎng)卡或pcap包中的數(shù)據(jù)讀到內(nèi)存中,通過隊列傳給一級解碼線程。

      圖3C為一級解碼線程運行流程圖,啟動一級解碼線程,按不同協(xié)議格式層層解碼到tcp、udp層,進入流管理進行協(xié)議識別、流量統(tǒng)計,進行http頭解碼、組包。

      圖3D為二級解碼線程運行流程圖,啟動二級解碼線程,對http負載進行解壓縮、MIME處理,調(diào)用匹配模塊,將關(guān)鍵字編碼結(jié)果與http頭和負載進行匹配,統(tǒng)計匹配結(jié)果、輸出匹配結(jié)果,并利用模板學(xué)習(xí)結(jié)果,簡化匹配結(jié)果,輸出一份可參考的模板文件。

      監(jiān)控數(shù)據(jù)處理完成,調(diào)用輸出模塊,輸出總的統(tǒng)計結(jié)果(關(guān)鍵字匹配情況、流量統(tǒng)計情況),退出程序。

      綜上所述,本發(fā)明實施例一公開了一種海量數(shù)據(jù)處理方法,通過實現(xiàn)數(shù)據(jù)處理工作的自動化,可以高效的從海量數(shù)據(jù)中提取到各種經(jīng)過處理的有價值信息,完成大量的重復(fù)檢索分析工作,保證了分析質(zhì)量并能夠吸納分析經(jīng)驗,不斷提高分析的準確性,彌補了不同水平人員的分析知識盲區(qū)和差異。

      上述海量數(shù)據(jù)處理方法,可以由協(xié)議分析自動化系統(tǒng)來實現(xiàn),其由用戶使用端和后臺服務(wù)器兩個部分構(gòu)成。具體結(jié)構(gòu)關(guān)系請參閱圖4,圖4為本發(fā)明實施例一所適用的協(xié)議分析自動化系統(tǒng)的部署方案示意圖。

      用戶使用端包括EMS端:軟件抓包、數(shù)據(jù)鏡像、策略配置和結(jié)果分析等功能模塊。

      后臺服務(wù)器包括PCS端(數(shù)據(jù)采集、數(shù)據(jù)輸入)和PAS端(命令解析、數(shù)據(jù)編碼、模板學(xué)習(xí)、數(shù)據(jù)解壓、cookie解析、關(guān)鍵字匹配、統(tǒng)計排序、數(shù)據(jù)輸出、cookie關(guān)聯(lián))等功能模塊。

      需要說明的是,PCS、PAS部署在linux服務(wù)器,EMS為用戶使用端的操作。EMS端通過文件或以太網(wǎng)數(shù)據(jù)流方式與PCS、PAS交互。

      實施例二

      請參閱附圖5,為本發(fā)明實施例二提供的一種海量數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)示意圖,該系統(tǒng)具體包含如下模塊:

      關(guān)鍵詞獲取模塊210,用于獲取用戶輸入的關(guān)鍵詞;

      關(guān)鍵詞編碼模塊220,用于根據(jù)預(yù)設(shè)的編碼方式對所述關(guān)鍵詞編碼后得到對應(yīng)的第一數(shù)據(jù);

      數(shù)據(jù)獲取模塊230,用于獲取海量數(shù)據(jù);

      數(shù)據(jù)解碼模塊240,用于對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù);

      結(jié)果輸出模塊250,用于根據(jù)所述編碼方式與對應(yīng)的解碼方式匹配所述第一數(shù)據(jù)和第二數(shù)據(jù),并輸出匹配結(jié)果。

      優(yōu)選的,所述裝置,還包括:

      結(jié)果關(guān)聯(lián)模塊,用于將所述匹配結(jié)果進行關(guān)聯(lián)分析,得到含關(guān)聯(lián)信息的匹配結(jié)果;

      格式輸出模塊,用于將所述含關(guān)聯(lián)信息的匹配結(jié)果根據(jù)數(shù)據(jù)上傳格式和/或數(shù)據(jù)下載格式輸出成相關(guān)格式文件。

      優(yōu)選的,所述裝置,還包括:

      數(shù)據(jù)解析模塊,用于在對所述數(shù)據(jù)包進行解碼之前,將采集到的所述數(shù)據(jù)包按各自協(xié)議格式解析到tcp、udp層并存儲。

      優(yōu)選的,所述裝置,還包括:

      連接管理模塊,用于在對所述數(shù)據(jù)包進行解碼之前,將解析后的數(shù)據(jù)按流進行流量統(tǒng)計和應(yīng)用協(xié)議識別。

      優(yōu)選的,所述裝置,還包括:

      模板學(xué)習(xí)模塊,用于通過學(xué)習(xí)以往的模板編寫經(jīng)驗,對每個匹配結(jié)果進行統(tǒng)計排名,從一個關(guān)鍵字的多個匹配結(jié)果中選擇統(tǒng)計排名靠前的幾個。

      本實施例通過獲取用戶輸入的關(guān)鍵詞;根據(jù)預(yù)設(shè)的編碼方式對所述關(guān)鍵詞編碼后得到對應(yīng)的第一數(shù)據(jù);獲取海量數(shù)據(jù);對所述海量數(shù)據(jù)按照對應(yīng)的解碼方式解碼后得到對應(yīng)的第二數(shù)據(jù);根據(jù)所述編碼方式與對應(yīng)的解碼方式匹配所述第一數(shù)據(jù)和第二數(shù)據(jù),并輸出匹配結(jié)果?;谏鲜龇椒跋到y(tǒng),通過實現(xiàn)數(shù)據(jù)處理工作的自動化,可以高效的從海量數(shù)據(jù)中提取到各種經(jīng)過處理的有價值信息,完成大量的重復(fù)檢索分析工作,保證了分析質(zhì)量并能夠吸納分析經(jīng)驗,不斷提高分析的準確性,彌補了不同水平人員的分析知識盲區(qū)和差異。

      上述產(chǎn)品可執(zhí)行本發(fā)明任意實施例所提供的方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。

      注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1