專(zhuān)利名稱(chēng):用于網(wǎng)絡(luò)流量監(jiān)控的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)(Internet)領(lǐng)域,且更具體而言,涉及互聯(lián)網(wǎng)中數(shù)據(jù)流量的監(jiān)控。
背景技術(shù):
隨著Internet的快速發(fā)展,互聯(lián)網(wǎng)成為信息傳播承載的主要途徑。然而,傳統(tǒng)互聯(lián)網(wǎng)缺乏監(jiān)管,惡意/黃色/人身攻 擊的信息泛濫,甚至已經(jīng)出現(xiàn)恐怖組織利用互聯(lián)網(wǎng)培養(yǎng)恐怖分子、組織恐怖襲擊的案例。為了應(yīng)對(duì)這種不良情態(tài),采用技術(shù)手段對(duì)互聯(lián)網(wǎng)進(jìn)行監(jiān)管已成為各國(guó)政府和運(yùn)營(yíng)商的共識(shí)。流量監(jiān)控系統(tǒng)在這樣的背景下應(yīng)運(yùn)而生。流量監(jiān)控系統(tǒng)采集流量信息,還原原始信息,并根據(jù)原始信息中的特征進(jìn)行智能分析,從而及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中存在的漏洞,并力求對(duì)網(wǎng)絡(luò)攻擊做到防患于未然。傳統(tǒng)的流量監(jiān)控方法一般分為三個(gè)步驟流量引流、協(xié)議重組及后臺(tái)內(nèi)容分析。這三個(gè)步驟由對(duì)應(yīng)的三種功能單元完成,如圖I所示,分別為引流分類(lèi)單元102、協(xié)議重組單元104及后臺(tái)內(nèi)容分析單元106。其中,引流分類(lèi)單元102按照協(xié)議類(lèi)型將收到的數(shù)據(jù)包分發(fā)給不同的協(xié)議重組單元104,協(xié)議重組單元104還原應(yīng)用層信息(例如,從簡(jiǎn)單郵件傳輸協(xié)議(SMTP)報(bào)文還原電子郵件(Email)信息、從超文本傳輸協(xié)議(HTTP)報(bào)文還原網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言(HTML),然后,將還原的應(yīng)用層信息連同時(shí)間標(biāo)簽,鏈路信息等發(fā)送至后臺(tái)內(nèi)容分析單元106進(jìn)行分析。后臺(tái)內(nèi)容分析單元106由服務(wù)器集群組成,對(duì)還原的應(yīng)用層信息進(jìn)行熱點(diǎn)統(tǒng)計(jì)、互聯(lián)網(wǎng)信息分析等,從而采取一定的措施抑制網(wǎng)絡(luò)攻擊。但是,在上述現(xiàn)有技術(shù)中,引流分類(lèi)單元被動(dòng)引流,大流量的數(shù)據(jù)直接被導(dǎo)入到協(xié)議重組單元和后臺(tái)內(nèi)容分析單元。隨著流量的增長(zhǎng),協(xié)議重組單元和后臺(tái)內(nèi)容分析單元中的服務(wù)器集群的處理成本會(huì)大幅上升。其次,后臺(tái)內(nèi)容分析功能是在協(xié)議重組后完成的,從而對(duì)大量相同的內(nèi)容進(jìn)行重復(fù)重組,導(dǎo)致對(duì)協(xié)議重組單元的性能需求很大。此外,上述傳統(tǒng)的流量監(jiān)控方法由于只能獲得部分的對(duì)等網(wǎng)絡(luò)(Peer-To-Peer,英文簡(jiǎn)稱(chēng)為P2P)文件分片而無(wú)法實(shí)現(xiàn)智能鏈接其它的P2P文件分片,從而不能處理對(duì)等網(wǎng)絡(luò)的流量監(jiān)控。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的一方面提供一種用于網(wǎng)絡(luò)流量監(jiān)控的方法,所述方法包括在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)一資源定位符URL (Uniform/Universal ResourceLocator, URL)的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源;對(duì)主動(dòng)抓取的所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組;及對(duì)經(jīng)協(xié)議重組的數(shù)據(jù)進(jìn)行內(nèi)容分析。本發(fā)明的一方面提供一種用于網(wǎng)絡(luò)流量監(jiān)控的系統(tǒng),所述系統(tǒng)包括引流分類(lèi)單元,用于對(duì)數(shù)據(jù)包進(jìn)行引流分類(lèi);熱點(diǎn)統(tǒng)計(jì)單元,用于在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)一資源定位符URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;主動(dòng)抓取單元,用于主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源;協(xié)議重組單元,用于對(duì)主動(dòng)抓取的所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組;及后臺(tái)內(nèi)容分析單元,用于對(duì)經(jīng)協(xié)議重組后的數(shù)據(jù)進(jìn)行內(nèi)容分析。本發(fā)明實(shí)施例的技術(shù)方案在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)一資源定位符URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL,然后主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組和內(nèi)容分析。因此,可以減少協(xié)議重組和后臺(tái)內(nèi)容分析的負(fù)擔(dān)。此外,本發(fā)明實(shí)施例的技術(shù)方案對(duì)于分布式P2P資源,可主動(dòng)抓取分布在各處的P2P文件分片,以支持對(duì)P2P流量的監(jiān)控。
圖I為現(xiàn)有技術(shù)中傳統(tǒng)的網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)的示意圖。圖2為本發(fā)明實(shí)施例中網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)的一個(gè)實(shí)施例示意圖。圖3為本發(fā)明實(shí)施例中網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)的另一個(gè)實(shí)施例示意圖。
圖4為本發(fā)明實(shí)施例中網(wǎng)絡(luò)流量監(jiān)控方法的一個(gè)實(shí)施例示意圖。結(jié)合附圖閱讀時(shí)將更好地了解以上發(fā)明內(nèi)容以及以下本發(fā)明的某些實(shí)施例的詳細(xì)描述。出于說(shuō)明本發(fā)明的目的,在圖中展示某些實(shí)施例。然而,應(yīng)了解,本發(fā)明不限于附圖中所展示的布置和手段。
具體實(shí)施例方式下文結(jié)合附圖所闡述的詳細(xì)說(shuō)明意在說(shuō)明本發(fā)明的各種實(shí)施例,而非代表本發(fā)明僅可實(shí)施為這些實(shí)施例。詳細(xì)說(shuō)明包括具體細(xì)節(jié),以便達(dá)成對(duì)本發(fā)明的透徹了解。然而,所屬領(lǐng)域的技術(shù)人員應(yīng)了解,本發(fā)明的實(shí)施也可以不使用這些具體細(xì)節(jié)。在某些實(shí)例中,以方塊圖的形式顯示各眾所周知的結(jié)構(gòu)及組件,以免淡化對(duì)本發(fā)明的說(shuō)明。圖2描繪的是根據(jù)本發(fā)明一實(shí)施例的網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)。該系統(tǒng)包括引流分類(lèi)單元202、熱點(diǎn)統(tǒng)計(jì)單元204、主動(dòng)抓取單元206、協(xié)議重組單元208及后臺(tái)內(nèi)容分析單元210。其中,引流分類(lèi)單元202,用于對(duì)數(shù)據(jù)包進(jìn)行引流分類(lèi);熱點(diǎn)統(tǒng)計(jì)單元204,用于在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)一資源定位符URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;主動(dòng)抓取單元206,用于主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源;協(xié)議重組單元208,用于對(duì)主動(dòng)抓取的所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組;后臺(tái)內(nèi)容分析單元210,用于對(duì)經(jīng)協(xié)議重組后的數(shù)據(jù)進(jìn)行內(nèi)容分析。在該網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)中,先獲得熱點(diǎn)資源,再進(jìn)行協(xié)議重組和后臺(tái)內(nèi)容分析,使得對(duì)同樣的內(nèi)容僅進(jìn)行一次處理,從而減少了協(xié)議重組單元和后臺(tái)內(nèi)容分析單元的負(fù)擔(dān),提供了整個(gè)系統(tǒng)的效率。此外,對(duì)于分布式P2P資源,可主動(dòng)抓取分布在各處的P2P文件分片,以支持對(duì)P2P流量的監(jiān)控。圖3描繪的是根據(jù)本發(fā)明的另一實(shí)施例的網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)。該網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)包括引流分類(lèi)單元302,用于對(duì)數(shù)據(jù)包進(jìn)行引流分類(lèi);熱點(diǎn)統(tǒng)計(jì)單元304,用于在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)一資源定位符URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;主動(dòng)抓取單元310,用于主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源;協(xié)議重組單元312,用于對(duì)主動(dòng)抓取的所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組;以及
后臺(tái)內(nèi)容分析單元314,用于對(duì)經(jīng)協(xié)議重組后的數(shù)據(jù)進(jìn)行內(nèi)容分析。其中,熱點(diǎn)統(tǒng)計(jì)單元304進(jìn)一步包括分級(jí)統(tǒng)計(jì) 單元306和判斷單元308。其中,分級(jí)統(tǒng)計(jì)單元306,用于建立資源表對(duì)所述URL分級(jí)統(tǒng)計(jì)被請(qǐng)求次數(shù)以確定每級(jí)URL是否為熱點(diǎn)URL。資源表將存儲(chǔ)每級(jí)URL在預(yù)定時(shí)間內(nèi)被請(qǐng)求的次數(shù)和預(yù)定的閾值。判斷單元308,用于當(dāng)預(yù)定時(shí)間內(nèi)某一 URL的被請(qǐng)求次數(shù)超過(guò)預(yù)定的閾值時(shí),確定該URL為熱點(diǎn)URL。熱點(diǎn)URL對(duì)應(yīng)的資源可以是網(wǎng)頁(yè),也可以是P2P文件分片。圖4展示了一種用于網(wǎng)絡(luò)流量監(jiān)控的方法流程圖。這種方法可減少協(xié)議重組單元和后臺(tái)內(nèi)容分析單元的負(fù)擔(dān),提高整個(gè)系統(tǒng)的效率并降低成本;其次,對(duì)于分布式P2P資源,可主動(dòng)抓取分布在各處的P2P文件分片,支持對(duì)P2P流量的監(jiān)控。圖4所示的網(wǎng)絡(luò)流量監(jiān)控的方法包括402 :引流分類(lèi)單元對(duì)數(shù)據(jù)包進(jìn)行引流分類(lèi);根據(jù)本實(shí)施例,根據(jù)所捕獲的數(shù)據(jù)包所屬的協(xié)議類(lèi)型對(duì)數(shù)據(jù)包進(jìn)行引流分類(lèi)。若數(shù)據(jù)包所屬的協(xié)議類(lèi)型是HTTP,則只將請(qǐng)求頭發(fā)送給熱點(diǎn)統(tǒng)計(jì)單元。在HTTP建立請(qǐng)求的過(guò)程中,HTTP請(qǐng)求報(bào)文中的請(qǐng)求頭包含請(qǐng)求行,請(qǐng)求行包含請(qǐng)求方法,請(qǐng)求方法可以是GET或POST。GET—般用于獲取/查詢(xún)資源信息,而POST—般用于更新資源信息。當(dāng)客戶(hù)端要從服務(wù)器中讀取文檔時(shí),使用GET請(qǐng)求方法。GET請(qǐng)求方法要求服務(wù)器將URL定位的資源放在響應(yīng)報(bào)文的數(shù)據(jù)部分回送給客戶(hù)端。此處采用GET請(qǐng)求方法。GET請(qǐng)求行中還包括請(qǐng)求鏈接的URL。404 :熱點(diǎn)統(tǒng)計(jì)單元對(duì)統(tǒng)一資源定位符URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;可選地,當(dāng)請(qǐng)求方法為GET時(shí),在預(yù)定時(shí)間內(nèi)對(duì)HTTP請(qǐng)求頭中的統(tǒng)一資源定位符(URL)的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)。通??蓪㈩A(yù)定時(shí)間設(shè)為10天。在10天內(nèi)按URL被請(qǐng)求的次數(shù)從高到低排序,定期清除排序靠后的URL。當(dāng)預(yù)定時(shí)間內(nèi)某一 URL被請(qǐng)求的次數(shù)超過(guò)預(yù)定閾值時(shí),則確定該URL為熱點(diǎn)URL,觸發(fā)主動(dòng)抓取單元執(zhí)行主動(dòng)抓取動(dòng)作。406 :主動(dòng)抓取單元主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源;在確定了熱點(diǎn)URL后,主動(dòng)抓取單元主動(dòng)抓取熱點(diǎn)URL對(duì)應(yīng)的資源。該資源可以是熱點(diǎn)URL對(duì)應(yīng)的網(wǎng)頁(yè)以及其鏈接到的其它網(wǎng)頁(yè);該熱點(diǎn)URL對(duì)應(yīng)的資源還可以是分布在對(duì)等網(wǎng)絡(luò)(P2P)中不同節(jié)點(diǎn)上的文件分片。408 :協(xié)議重組單元對(duì)主動(dòng)抓取的所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組;410 :后臺(tái)內(nèi)容分析單元對(duì)經(jīng)協(xié)議重組的數(shù)據(jù)進(jìn)行內(nèi)容分析。為便于理解,下面介紹兩個(gè)具體的應(yīng)用場(chǎng)景。一、網(wǎng)絡(luò)輿情監(jiān)控網(wǎng)絡(luò)輿情指的是網(wǎng)絡(luò)里產(chǎn)生的公眾對(duì)現(xiàn)實(shí)生活里最關(guān)心的熱點(diǎn)焦點(diǎn)問(wèn)題。這些被高度關(guān)注的問(wèn)題主要通過(guò)論壇、博客、微博等途徑得以傳播。由于網(wǎng)絡(luò)的快速傳播性,一些熱點(diǎn)問(wèn)題發(fā)生后,在很短的時(shí)間里就會(huì)一發(fā)不可收拾。對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)控,可以及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)突發(fā)的公共事件和全面掌握社情民意。在本應(yīng)用場(chǎng)景中,熱點(diǎn)統(tǒng)計(jì)單元通過(guò)在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)計(jì)HTTP/GET請(qǐng)求中的URL的被請(qǐng)求次數(shù)來(lái)確定熱點(diǎn)URL,然后主動(dòng)抓取單元抓取該熱點(diǎn)URL對(duì)應(yīng)的網(wǎng)頁(yè)及其鏈接的其他網(wǎng)頁(yè),可以達(dá)到輿情監(jiān)控的目的。
在一些實(shí)施例中,熱點(diǎn)統(tǒng)計(jì)單元在預(yù)定時(shí)間內(nèi)每收到一次HTTP/GET報(bào)文記做一次記錄??梢圆捎觅Y源表的形式對(duì)URL進(jìn)行分級(jí)統(tǒng)計(jì)。統(tǒng)計(jì)的深度根據(jù)監(jiān)控的要求來(lái)確定。本領(lǐng)域的技術(shù)人員可以理解的是,URL中每個(gè)除號(hào)(/)劃分一個(gè)級(jí)別。如,對(duì)于www.XXX. com/sport/football/f ifa2012/index, html 的 URL,可以將統(tǒng)計(jì)深度設(shè)為 3。第一級(jí)為www. XXX. com ;第二級(jí)為 www. xxx. com/sport ;第 3 級(jí)為 www. xxx. com/sport/football。統(tǒng)計(jì)所得的數(shù)據(jù)和預(yù)定閾值都存儲(chǔ)在資源表中。需要說(shuō)明的是,閾值的設(shè)置通常參考經(jīng)驗(yàn)值。如果將經(jīng)驗(yàn)值設(shè)置過(guò)低,則會(huì)導(dǎo)致大量?jī)?nèi)容緩存在本地,設(shè)置過(guò)高 又會(huì)導(dǎo)致部分熱點(diǎn)信息的漏報(bào)。經(jīng)驗(yàn)值可根據(jù)對(duì)監(jiān)控?zé)狳c(diǎn)的定義、系統(tǒng)的存儲(chǔ)容量進(jìn)行合理設(shè)置。預(yù)定閾值的設(shè)置可與客戶(hù)所用的系統(tǒng)相關(guān)。例如,在中國(guó)國(guó)干網(wǎng),閾值可設(shè)為幾萬(wàn);在省市出口網(wǎng),則可以設(shè)為幾千。下表I展示對(duì)熱點(diǎn)URL進(jìn)行統(tǒng)計(jì)的示意資源表表I
URL級(jí)別 URL__統(tǒng)計(jì)的請(qǐng)求次數(shù)閾值_
1級(jí)www.xxx.com10000次訪問(wèn)8000
2級(jí)www.xxx.comhport 7000次訪問(wèn)8000
3級(jí)www.xxx.comAport/foo 5000次訪問(wèn)8000
tball其中,在預(yù)定時(shí)間內(nèi),www. xxx. com的請(qǐng)求次數(shù)10000超過(guò)了閾值8000,則確定該URL為熱點(diǎn)URL。在一些實(shí)施例中,可以采用哈希表的方式將資源表存儲(chǔ)在數(shù)據(jù)文件上,資源表的索引存儲(chǔ)在內(nèi)存中。根據(jù)URL找到散列值,再由散列值找到索引,直接根據(jù)索弓I指針定位到數(shù)據(jù)文件。在熱點(diǎn)統(tǒng)計(jì)單元確定熱點(diǎn)URL后,主動(dòng)抓取單元主動(dòng)抓取熱點(diǎn)URL對(duì)應(yīng)的網(wǎng)頁(yè)以及其鏈接到的其它網(wǎng)頁(yè)。若A網(wǎng)頁(yè)是熱點(diǎn)網(wǎng)頁(yè),A網(wǎng)頁(yè)包含到B網(wǎng)頁(yè)的鏈接,B網(wǎng)頁(yè)包含到C網(wǎng)頁(yè)的鏈接。在挖掘深度為3的情況下,A,B, C網(wǎng)頁(yè)都被主動(dòng)抓取到本地。實(shí)際應(yīng)用中具體的挖掘深度由手工設(shè)置,在通常情況下挖掘深度為5級(jí)可以完成監(jiān)控的需要。舉例而言,若www. xxx. com被確定為熱點(diǎn)URL,則主動(dòng)抓取單元發(fā)送HTTP/GET請(qǐng)求到www. xxx. com,這時(shí)通常直接返回Index, html。分析Index, html上的鏈接,做廣度或者深度抓取。通常Index網(wǎng)頁(yè)代表一個(gè)主頁(yè),由主頁(yè)開(kāi)始逐級(jí)抓取各級(jí)網(wǎng)頁(yè)內(nèi)容。深度抓取采用的是遞歸抓取所有遇到的超級(jí)鏈接,直到遞歸達(dá)到要求的抓取級(jí)別。廣度抓取則是檢索一個(gè)網(wǎng)頁(yè)的全部超級(jí)鏈接,分別發(fā)送HTTP請(qǐng)求以抓取全部?jī)?nèi)容,然后再逐級(jí)深入直到要求的抓取級(jí)別。抓取到的資源通過(guò)協(xié)議重組后供后臺(tái)進(jìn)行分析,可以了解到獨(dú)立IP (InternetProtocol,網(wǎng)絡(luò)協(xié)議,IP)地址流量、網(wǎng)站頁(yè)面流量、獨(dú)立用戶(hù)流量、新用戶(hù)流量等數(shù)據(jù),從而實(shí)現(xiàn)對(duì)輿情的監(jiān)控。二、對(duì)等網(wǎng)絡(luò)(P2P)
P2P,即Peer-To-Peer,作為對(duì)等網(wǎng)絡(luò)的代名詞已被人們所熟知。P2P網(wǎng)絡(luò)可以簡(jiǎn)單的定義成通過(guò)直接交換來(lái)實(shí)現(xiàn)不同系統(tǒng)之間的資源共享。在P2P網(wǎng)絡(luò)環(huán)境中,通過(guò)Internet連接的計(jì)算機(jī)被看做是平等的參與者,它們的地位是彼此對(duì)等的,每個(gè)參與通信的節(jié)點(diǎn)被稱(chēng)作為一個(gè)Peer。在P2P模式下,服務(wù)器和客戶(hù)端之間的界限被取消了。由于數(shù)據(jù)存儲(chǔ)、處理和網(wǎng)絡(luò)帶寬等均是以一種完全分散、異步的方式來(lái)運(yùn)行,各種負(fù)載就可以得到完全合理的均衡。P2P的應(yīng)用模式的特點(diǎn)就是下載的人越多,提供的帶寬也越寬,種子也會(huì)越來(lái)越多,下載的速度越來(lái)越快。在P2P應(yīng)用中,P2P節(jié)點(diǎn)通過(guò)瀏覽器到網(wǎng)站下載需要的種子文件,然后從中獲取Tracker服務(wù)器的地址并與之連接,連接成功后Track服務(wù)器就會(huì)返回正在下載同一資源文件的其它節(jié)點(diǎn)(鄰居節(jié)點(diǎn))的信息。請(qǐng)求節(jié)點(diǎn)獲取該信息后向這些鄰居節(jié)點(diǎn)發(fā)出消息建立連接,進(jìn)行資源的下載,從而實(shí)現(xiàn)在網(wǎng)絡(luò)中的對(duì)等節(jié)點(diǎn)之間共享資源和服務(wù)。其中,種子文件是被下載文件的“索引”,下載文件的每個(gè)塊的索引信息和Hash驗(yàn)證碼都寫(xiě)入種子文件。Tracker服務(wù)器是收集下載者的服務(wù)器,并將此信息提供給其它下載者,使下載者們相互連接起來(lái)傳輸數(shù)據(jù)。 由此可見(jiàn),下載者要下載文件內(nèi)容,首先需要得到相應(yīng)的種子文件,然后解析種子文件得到Tracker服務(wù)器的地址,連接Tracker服務(wù)器。下載者從Tracker服務(wù)器的回應(yīng)消息中獲得其它下載者(鄰居節(jié)點(diǎn))的IP地址,連接其它下載者完成數(shù)據(jù)和資源的共享。在這個(gè)過(guò)程中,要下載的文件被分為若干個(gè)文件分片,其分別存儲(chǔ)于不同的節(jié)點(diǎn)當(dāng)中,而Tracker服務(wù)器能獲知每個(gè)文件分片所存儲(chǔ)的不同節(jié)點(diǎn)的IP地址。節(jié)點(diǎn)與Tracker服務(wù)器之間的通信基于HTTP協(xié)議。也就是說(shuō),節(jié)點(diǎn)連接Tracker服務(wù)器需要首先向該Tracker服務(wù)器發(fā)送HTTP/GET請(qǐng)求,該請(qǐng)求中包含的URL是種子文件中記錄的Tracker服務(wù)器的地址。在一些實(shí)施例中,熱點(diǎn)統(tǒng)計(jì)單元對(duì)P2P節(jié)點(diǎn)在預(yù)定時(shí)間內(nèi)向Tracker服務(wù)器發(fā)送HTTP/GET請(qǐng)求中的URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)。當(dāng)在預(yù)定時(shí)間內(nèi)對(duì)某個(gè)URL的請(qǐng)求次數(shù)超過(guò)預(yù)定閾值時(shí),將該URL確定為熱點(diǎn)URL。主動(dòng)抓取模塊向該熱點(diǎn)URL對(duì)應(yīng)的Tracker請(qǐng)求下載文件的每個(gè)文件分片所存儲(chǔ)的節(jié)點(diǎn)的IP地址,然后從不同的節(jié)點(diǎn)獲取不同的文件分片,將這些分片重新組合為原始內(nèi)容,供后臺(tái)內(nèi)容分析單元進(jìn)行分析??梢允估斫獾氖?,這里的主動(dòng)抓取單元類(lèi)似一個(gè)P2P節(jié)點(diǎn)。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,該程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。結(jié)合本文所揭示實(shí)施例闡述的各種例示性邏輯塊、單元、電路、元件及/或組件可通過(guò)通用處理器、數(shù)字信號(hào)處理器(Digital Signal Processing, DSP)、應(yīng)用專(zhuān)用集成電路(Application Specific Integrated Circuit, ASIC)、現(xiàn)場(chǎng)可編程門(mén)陣列(Field-Programmable Gate Array, FPGA)或其它可編程邏輯組件、離散門(mén)或晶體管邏輯、離散硬件組件、或設(shè)計(jì)用于執(zhí)行本文所述功能的其任何組合來(lái)實(shí)施或執(zhí)行。通用處理器可為微處理器,但另一選擇為,處理器也可為任何常規(guī)處理器、控制器、微控制器、或狀態(tài)機(jī)。處理器也可實(shí)施為計(jì)算組件的組合,例如DSP與微處理器的組合、多個(gè)微處理器的組合、一個(gè)或多個(gè)微處理器與DSP核心的組合、或任何其它這種配置。
本發(fā)明的實(shí)施例在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)一資源定位符URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL,然后主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組和內(nèi)容分析。因此,可以減少協(xié)議重組單元和后臺(tái)內(nèi)容分析單元的負(fù)擔(dān)。此外,本發(fā)明實(shí)施例的技術(shù)方案對(duì)于分布式P2P資源,可主動(dòng)抓取分布在各處的P2P文件分片,以支持對(duì)P2P流量的監(jiān)控。以上對(duì)本發(fā)明所提供的用于網(wǎng)絡(luò)流量監(jiān)控的方法和系統(tǒng)進(jìn)行了詳細(xì)介紹,對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明實(shí)施例的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,因此,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制?!?br>
權(quán)利要求
1.一種用于網(wǎng)絡(luò)流量監(jiān)控的方法,其特征在于,所述方法包括 對(duì)數(shù)據(jù)包進(jìn)行引流分類(lèi); 在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)一資源定位符URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ; 主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源; 對(duì)主動(dòng)抓取的所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組;及 對(duì)經(jīng)協(xié)議重組的數(shù)據(jù)進(jìn)行內(nèi)容分析。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于, 在預(yù)定時(shí)間內(nèi)對(duì)URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL包括對(duì)所述URL分級(jí)統(tǒng)計(jì)被請(qǐng)求次數(shù)以確定每級(jí)URL是否為熱點(diǎn)URL。
3.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,其中, 所述熱點(diǎn)URL對(duì)應(yīng)的資源包括網(wǎng)頁(yè)或?qū)Φ染W(wǎng)絡(luò)P2P文件分片。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,在預(yù)定時(shí)間內(nèi)對(duì)URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL包括當(dāng)某個(gè)URL在預(yù)定時(shí)間內(nèi)被請(qǐng)求次數(shù)超過(guò)預(yù)定閾值時(shí),則將該URL確定為所述熱點(diǎn)URL。
5.一種用于網(wǎng)絡(luò)流量監(jiān)控的系統(tǒng),其特征在于,所述系統(tǒng)包括 引流分類(lèi)單元,用于對(duì)數(shù)據(jù)包進(jìn)行引流分類(lèi); 熱點(diǎn)統(tǒng)計(jì)單元,用于在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)一資源定位符URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ; 主動(dòng)抓取單元,用于主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源; 協(xié)議重組單元,用于對(duì)主動(dòng)抓取的所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組;及 后臺(tái)內(nèi)容分析單元,用于對(duì)經(jīng)協(xié)議重組后的數(shù)據(jù)進(jìn)行內(nèi)容分析。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述熱點(diǎn)統(tǒng)計(jì)單元進(jìn)一步包括分級(jí)統(tǒng)計(jì)單元,所述分級(jí)統(tǒng)計(jì)單元用于對(duì)所述URL分級(jí)統(tǒng)計(jì)請(qǐng)求次數(shù)以確定每級(jí)URL是否為熱點(diǎn)URL。
7.根據(jù)權(quán)利要求5或6所述的系統(tǒng),其特征在于, 所述熱點(diǎn)URL對(duì)應(yīng)的資源包括網(wǎng)頁(yè)或?qū)Φ染W(wǎng)絡(luò)P2P文件分片。
8.根據(jù)權(quán)利要求5-7中任一項(xiàng)所述的系統(tǒng),其特征在于,所述熱點(diǎn)統(tǒng)計(jì)單元進(jìn)一步包括判斷單元,所述判斷單元用于當(dāng)某個(gè)URL在預(yù)定時(shí)間內(nèi)被請(qǐng)求次數(shù)超過(guò)預(yù)定閾值時(shí),則將該URL確定為熱點(diǎn)URL。
全文摘要
本發(fā)明的實(shí)施例涉及用于網(wǎng)絡(luò)流量監(jiān)控的方法和系統(tǒng)。本發(fā)明實(shí)施例的方法包括在預(yù)定時(shí)間內(nèi)對(duì)統(tǒng)一資源定位符URL的被請(qǐng)求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL,主動(dòng)抓取所述熱點(diǎn)URL對(duì)應(yīng)的資源,對(duì)主動(dòng)抓取的所述熱點(diǎn)URL對(duì)應(yīng)的資源進(jìn)行協(xié)議重組,及對(duì)經(jīng)協(xié)議重組的數(shù)據(jù)進(jìn)行內(nèi)容分析。本發(fā)明實(shí)施例還提供一種用于網(wǎng)絡(luò)流量監(jiān)控的系統(tǒng)。本發(fā)明的實(shí)施例可以有效減少協(xié)議重組及后臺(tái)內(nèi)容分析和的負(fù)擔(dān),提高整個(gè)系統(tǒng)的效率,降低系統(tǒng)成本;此外,對(duì)于分布式P2P資源,可以進(jìn)行智能重組,支持P2P監(jiān)控。
文檔編號(hào)H04L12/26GK102957571SQ201110241618
公開(kāi)日2013年3月6日 申請(qǐng)日期2011年8月22日 優(yōu)先權(quán)日2011年8月22日
發(fā)明者陳旭, 宋璇, 尹咸陽(yáng), 張仁卓 申請(qǐng)人:華為技術(shù)有限公司