国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種eDonkey網(wǎng)絡(luò)共享文件及客戶端信息爬取方法

      文檔序號(hào):7758117閱讀:196來源:國(guó)知局
      專利名稱:一種eDonkey網(wǎng)絡(luò)共享文件及客戶端信息爬取方法
      技術(shù)領(lǐng)域
      本發(fā)明提供一種eDonkey網(wǎng)絡(luò)共享文件及客戶端信息爬取方法,具體涉及一種通 過關(guān)鍵詞查找來快速地獲得共享文件及客戶端信息的方法,屬于計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域。
      背景技術(shù)
      P2P文件共享網(wǎng)絡(luò)近年發(fā)展十分迅速,各種類型的文件(包括音視頻文件、游戲軟 件、電子文檔等等)通過P2P網(wǎng)絡(luò)得以快速地在世界范圍內(nèi)傳播。利用P2P文件共享網(wǎng)絡(luò) 分享和獲取文件,已經(jīng)成為網(wǎng)絡(luò)用戶的日常行為。P2P文件共享網(wǎng)絡(luò)與傳統(tǒng)的文件發(fā)布和共享方式不同。在傳統(tǒng)方式下,文件通過 一個(gè)或者若干個(gè)服務(wù)器進(jìn)行發(fā)布,用戶需從這些服務(wù)器上獲得這些文件,一個(gè)典型的例子 就是通過FTP服務(wù)器共享文件。在P2P文件共享網(wǎng)絡(luò)中,每個(gè)用戶都可以把自己擁有的文 件提供給別的用戶下載,也可以從別的用戶下載自己需要的文件。因此,從功能上來說,P2P 文件共享網(wǎng)絡(luò)中的每個(gè)用戶的地位是平等的。P2P文件共享網(wǎng)絡(luò)的日益流行帶來不少問題。P2P流量在網(wǎng)絡(luò)流量中的比例越來 越大,加重了網(wǎng)絡(luò)設(shè)備的負(fù)擔(dān),增加了網(wǎng)絡(luò)運(yùn)行維護(hù)的成本,甚至影響其它網(wǎng)絡(luò)業(yè)務(wù)的正常 運(yùn)行。由于P2P系統(tǒng)的自由性和開放性,P2P文件共享網(wǎng)絡(luò)成為了一些黃色、暴力、反動(dòng)內(nèi) 容的傳播平臺(tái)。此外,大量的有侵犯知識(shí)產(chǎn)權(quán)嫌疑的影視文藝作品也借助P2P文件共享網(wǎng) 絡(luò)得到迅速傳播。近年來,在使用P2P文件共享網(wǎng)絡(luò)過程中發(fā)生的泄密事件,也時(shí)有發(fā)生, 造成了嚴(yán)重、惡劣的影響。為了解決這些問題,需要對(duì)P2P文件共享網(wǎng)絡(luò)進(jìn)行監(jiān)測(cè),分析網(wǎng)絡(luò)中的共享文件 的分布情況和傳播規(guī)律,以及節(jié)點(diǎn)(eDonkey服務(wù)器和客戶端)的分布情況。只有允分地掌 握了這些信息,才能有效地對(duì)控P2P文件共享網(wǎng)絡(luò)進(jìn)行管控。eDonkey網(wǎng)絡(luò)是最大的P2P文件共享網(wǎng)絡(luò)之一,其它流行的P2P文件共享網(wǎng)絡(luò)包括 BitTorrent、Gnutella。 eDonkey 網(wǎng)絡(luò)由 eDonkey 月艮務(wù)器禾口 eDonkey 客戶端組成。eDonkey 服務(wù)器本身不提供文件下載,而只是管理eDonkey網(wǎng)絡(luò)中的eDonkey客戶端信息和客戶端 提供的共享文件的信息。eDonkey客戶端必須要登錄到一個(gè)eDonkey服務(wù)器之后才能連接 到eDonkey網(wǎng)絡(luò)中。eDonkey客戶端連接到eDonkey網(wǎng)絡(luò)中后,該客戶端的信息及其提供 下載的共享文件信息即被發(fā)送給相應(yīng)的服務(wù)器??蛻舳丝梢韵蚍?wù)器查詢所需的文件,并 從服務(wù)器得到這些文件的相關(guān)信息以及提供文件下載的其它客戶端的信息。得到這些信息 后,客戶端即可直接連接到提供文件下載的其它客戶端,以下載所需的文件。2005年,楊加等人提出一種通過關(guān)鍵詞查詢,使用爬蟲(為實(shí)現(xiàn)爬取eDonkey網(wǎng) 絡(luò)信息而開發(fā)的eDonkey客戶端軟件)從eDonkey服務(wù)器爬取eDonkey網(wǎng)絡(luò)中共享文件信 息以及 eDonkey 客戶端信息的爬取方法(Crawling the eDonkey Network, Jia Yang, Hao Ma,Weijia Song,Jian Cui,Changling Zhou,In 2006 Fifth International Conference on Grid and CooperativeComputing Workshops,December 2006,pp. 133-136.)。但是,由 于eDonkey服務(wù)器對(duì)于每次關(guān)鍵詞查詢的返回結(jié)果數(shù)目是有限制的,因此
      3
      假定eDonkey服務(wù)器最多能返回N個(gè)查詢結(jié)果(為便于討論,稱為查詢結(jié)果上 限)。向服務(wù)器進(jìn)行關(guān)鍵詞查詢時(shí),即使與關(guān)鍵詞匹配的文件數(shù)目大于N,也只能從服務(wù)器 獲得N個(gè)匹配文件的信息。在實(shí)際爬取過程中,文件匹配數(shù)超過查詢結(jié)果上限的情況是經(jīng)常出現(xiàn)的。特別是 在進(jìn)行熱門關(guān)鍵詞或者常用關(guān)鍵詞進(jìn)行查詢時(shí),多數(shù)情況下,文件匹配數(shù)會(huì)超過查詢結(jié)果 上限。楊加等人并沒有針對(duì)這種情況提出有效的解決方法,因而導(dǎo)致獲取信息的效率不高。

      發(fā)明內(nèi)容
      本發(fā)明的目的是提供一種新的方法,該方法提高了通過關(guān)鍵詞查詢爬取eDonkey 網(wǎng)絡(luò)共享文件信息和客戶端信息的效率。本發(fā)明的原理是首先確定要爬取的服務(wù)器的查詢結(jié)果上限,然后進(jìn)行關(guān)鍵詞 (記為W)查詢,如果文件匹配數(shù)超過查詢結(jié)果上限,則可向服務(wù)器發(fā)出“查詢更多結(jié)果”的 請(qǐng)求,從而從服務(wù)器獲得與w匹配的其它未返回的匹配文件信息。如果與w匹配的文件數(shù) 目較多,那么可多次向服務(wù)器發(fā)出“查詢更多結(jié)果”的請(qǐng)求,從而得到盡可能多的匹配文件 信息。但是,如果向服務(wù)器發(fā)出“查詢更多結(jié)果”請(qǐng)求次數(shù)大于n(n的值通常接近10),則服 務(wù)器會(huì)不再返回結(jié)果。在這種情況下,根據(jù)本發(fā)明提出的方法,在原關(guān)鍵詞w的基礎(chǔ)上自動(dòng) 生成多個(gè)新的關(guān)鍵詞,通過查詢這些新的關(guān)鍵詞,盡可能多地從服務(wù)器得到與w匹配的文 件信息和相關(guān)客戶端信息,從而提高爬取信息的效率。本發(fā)明詳細(xì)技術(shù)方案如下(流程圖參見圖1)A.設(shè)置多個(gè)常用詞語,并將這些詞語放置在列表S中;B.確定要爬取的服務(wù)器的查詢結(jié)果上限m ;方法如下(流程圖參見圖2)Bi.從常用詞列表S中取出η個(gè)最常用的詞(5 < η彡20),作為查詢服務(wù)器用的 關(guān)鍵詞;Β2.針對(duì)每一個(gè)關(guān)鍵詞,分別向服務(wù)器進(jìn)行關(guān)鍵詞查詢;Β3.比較每個(gè)關(guān)鍵詞的查詢結(jié)果數(shù)目,找出最大的數(shù)目m;B4.服務(wù)器的查詢結(jié)果上限為m。C.把要查詢的全部關(guān)鍵詞放在隊(duì)列Q中;所述Q為一個(gè)先進(jìn)先出的隊(duì)列;D.進(jìn)行關(guān)鍵詞查詢;其實(shí)現(xiàn)方法如下(流程圖如圖4所示)1)從隊(duì)列Q的頭部取出一個(gè)關(guān)鍵詞W,同時(shí)把w從Q中刪除;2)設(shè)置計(jì)數(shù)器c為0 ;3)向服務(wù)器查詢關(guān)鍵詞w ;4)如果查詢結(jié)果數(shù)目大于m*95%,執(zhí)行下面的操作;否則執(zhí)行7);5)如果c < 8,則向服務(wù)器發(fā)出“查詢更多結(jié)果”請(qǐng)求,查詢尚未返回的其它結(jié)果, 并將計(jì)數(shù)器c的值加1,然后執(zhí)行4);否則執(zhí)行下面的操作;6)將常用詞表S中的每一個(gè)詞ν分別與w組合為新的關(guān)鍵詞“V W”,且滿足w不 包含S中任何一個(gè)詞,如果至少有一個(gè)新的關(guān)鍵詞產(chǎn)生,則將全部新生成的關(guān)鍵詞加入到 隊(duì)列Q的尾部,并執(zhí)行1);否則執(zhí)行下面的操作;7)如果Q不為空,執(zhí)行1);否則執(zhí)行下面的操作;8)結(jié)束。
      利用本發(fā)明提供的技術(shù)方案,可以使得在通過關(guān)鍵詞查找獲取更多的eDonkey網(wǎng) 絡(luò)共享文件信息和客戶端信息,從而提高了查找效率和查找質(zhì)量。


      圖1 本發(fā)明方法的流程圖;圖2 確定服務(wù)器的查詢結(jié)果上限方法流程圖;圖3 實(shí)施例中系統(tǒng)設(shè)施的硬件環(huán)境示意圖;圖4 進(jìn)行關(guān)鍵詞查詢的方法流程圖。
      具體實(shí)施例方式下面通過實(shí)例對(duì)本發(fā)明做進(jìn)一步說明。需要注意的是,公布實(shí)施例的目的在于幫 助進(jìn)一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解在不脫離本發(fā)明及所附權(quán)利要求 的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應(yīng)局限于實(shí)施例所公開的內(nèi) 容,本發(fā)明要求保護(hù)的范圍以權(quán)利要求書界定的范圍為準(zhǔn)。實(shí)施例系統(tǒng)設(shè)施的硬件環(huán)境如圖3所示。爬蟲系統(tǒng)的工作環(huán)境包括兩個(gè)局域網(wǎng)。局域網(wǎng)2可以訪問Internet,局域網(wǎng)1是 內(nèi)部網(wǎng)??蛻舳伺廊≈鳈C(jī)(這些主機(jī)用于運(yùn)行爬蟲)在局域網(wǎng)2中,可以訪問Internet。 數(shù)據(jù)庫服務(wù)器部署于局域網(wǎng)1,不能直接連接到Internet,用于存入從eDonkey網(wǎng)絡(luò)獲得的 信息。中央控制服務(wù)器有兩塊網(wǎng)卡,分別連接到局域網(wǎng)1和局域網(wǎng)2。中央控制器控制其它 所有服務(wù)器和主機(jī)的運(yùn)行,此外,局域網(wǎng)1和局域網(wǎng)2中的主機(jī)需通過中央控制服務(wù)器才能 進(jìn)行通信。本例中,所有的主機(jī)和服務(wù)器都運(yùn)行Linux操作系統(tǒng),但也可以運(yùn)行其它的操作 系統(tǒng),如Windows操作系統(tǒng)。1)設(shè)定若干常用詞,例如“視頻”、“mp3”、“china”、“電影”、“政治”,并將這些詞放 到列表S中(S中可有任意多個(gè)常用詞,在此為簡(jiǎn)化描述,只使用5個(gè)常用詞)。2)確定要爬取的服務(wù)器的查詢結(jié)果上限m。本例中,假定要爬取的服務(wù)器是 “77.247.177.124:6231”。將S中的全部詞語(共5個(gè))作為關(guān)鍵詞。接下來,針對(duì)每一個(gè) 關(guān)鍵詞,分別向服務(wù)器“77. 247. 177. 124 :6231”進(jìn)行關(guān)鍵詞查詢,然后比較每個(gè)關(guān)鍵詞的 查詢結(jié)果。假定查詢“視頻、mp3、電影”時(shí),返回的結(jié)果數(shù)最大,且都是300,那么可確定該服 務(wù)器查詢結(jié)果上限為300。3)把要查詢的全部關(guān)鍵詞放在隊(duì)列Q中。假定放入Q中的關(guān)鍵詞只有一個(gè),是“黃 色”(Q中可有多個(gè)關(guān)鍵詞,在此為簡(jiǎn)化描述,只使用一個(gè)關(guān)鍵詞)。爬蟲先從Q中取出關(guān)鍵 詞“黃色”,同時(shí)將“黃色”從Q中刪除,并將計(jì)數(shù)器c的值設(shè)為0(計(jì)數(shù)器c記錄的是進(jìn)行 關(guān)鍵詞以及進(jìn)行“查詢更多結(jié)果”查詢的總次數(shù))。然后,爬蟲向服務(wù)器“77. 247. 177. 124 6231”進(jìn)行關(guān)鍵詞“黃色”的查詢,從服務(wù)器返回的與“黃色”匹配的文件數(shù)是300,這個(gè)數(shù) 字大于95% *300,說明與該關(guān)鍵詞匹配的文件數(shù)較大,除了結(jié)果中顯示的300個(gè)文件外,很 可能還有沒返回的匹配文件信息。在這種情況下,爬蟲向服務(wù)器發(fā)出“查詢更多結(jié)果”的請(qǐng) 求,以從服務(wù)器得到其它未返回的匹配文件信息,并將計(jì)數(shù)器c的值加1 (c記錄的是向服務(wù) 器發(fā)出“查詢更多結(jié)果”的請(qǐng)求的次數(shù))。對(duì)于“查詢更多結(jié)果”的請(qǐng)求,服務(wù)器返回的結(jié)果仍然是300,說明還有沒返回的匹配文件信息。因此,爬蟲繼續(xù)向服務(wù)器發(fā)出“查詢更多結(jié) 果”的請(qǐng)求。在向服務(wù)器總共進(jìn)行8次“查詢更多結(jié)果”請(qǐng)求后(計(jì)數(shù)器c的值為8),如果 返回的結(jié)果數(shù)仍然是300,則服務(wù)器很可能不再對(duì)新的“查詢更多結(jié)果”請(qǐng)求進(jìn)行響應(yīng)(或 者再響應(yīng)一兩次,這取決于具體的服務(wù)器),為了解決這個(gè)問題,需使用以下策略來得到更 多的與“黃色”匹配的文件信息將常用詞表S中的每一個(gè)詞ν分別與關(guān)鍵詞w組合為新的關(guān)鍵詞“V W”,且滿足 w不包含S中任何一個(gè)詞。本例中,產(chǎn)生的新的關(guān)鍵詞是“視頻黃色”、“mp3黃色”、“china 黃色”、“電影黃色”、“政治黃色”,將這些新的關(guān)鍵詞全部加入到Q中。接下來,針對(duì)Q中的 每一個(gè)關(guān)鍵詞,向服務(wù)器發(fā)出查詢請(qǐng)求(并遵循前面描述的流程),這樣就能得到更多的與 “黃色”匹配的文件信息。假如針對(duì)“黃色”向服務(wù)器進(jìn)行“查詢更多結(jié)果”的請(qǐng)求時(shí),在計(jì)數(shù)器c的值小于 8的情況下,服務(wù)器返回的結(jié)果數(shù)小于或者等于95% *300,則說明服務(wù)器已經(jīng)將全部匹配 “黃色”的文件信息返回給爬蟲,查詢?nèi)蝿?wù)可立即結(jié)束,而不再需要將“黃色”與常用詞進(jìn)行 組合而產(chǎn)生新的關(guān)鍵詞并進(jìn)行新的查詢了。對(duì)于非熱門的關(guān)鍵詞,在進(jìn)行關(guān)鍵詞查詢時(shí),服務(wù)器返回的結(jié)果較少(小于或者 等于95% *300),查詢?nèi)蝿?wù)可立即結(jié)束,而不再需要向服務(wù)器發(fā)出“查詢更多結(jié)果”請(qǐng)求。由本例可以看出,本發(fā)明提出的方法較好地解決了關(guān)鍵詞查詢時(shí)受限于服務(wù)器的 查詢結(jié)果上限的問題,從而從總體上提高了對(duì)eDonkey網(wǎng)絡(luò)共享文件及客戶端信息的爬取 效率。
      權(quán)利要求
      一種通過關(guān)鍵詞查詢獲取eDonkey網(wǎng)絡(luò)共享文件及客戶端信息爬取方法,其特征是,該方法包括以下步驟A.設(shè)置多個(gè)常用詞語,并將這些詞語放置在列表S中;B.確定要爬取的服務(wù)器的查詢結(jié)果上限m;C.把要查詢的全部關(guān)鍵詞放在隊(duì)列Q中;D.進(jìn)行關(guān)鍵詞查詢;其實(shí)現(xiàn)方法如下1)從隊(duì)列Q的頭部取出一個(gè)關(guān)鍵詞w,同時(shí)把w從Q中刪除;2)設(shè)置計(jì)數(shù)器c為0;3)向服務(wù)器查詢關(guān)鍵詞w;4)如果查詢結(jié)果數(shù)目大于m*95%,執(zhí)行下面的操作;否則執(zhí)行7);5)如果c<8,則向服務(wù)器發(fā)出“查詢更多結(jié)果”請(qǐng)求,查詢尚未返回的其它結(jié)果,并將計(jì)數(shù)器c的值加1,然后執(zhí)行4);否則執(zhí)行下面的操作;6)將常用詞表S中的每一個(gè)詞v分別與w組合為新的關(guān)鍵詞“v w”,且滿足w不包含S中任何一個(gè)詞,如果至少有一個(gè)新的關(guān)鍵詞產(chǎn)生,則將全部新生成的關(guān)鍵詞加入到隊(duì)列Q的尾部,并執(zhí)行1);否則執(zhí)行下面的操作;7)如果Q不為空,執(zhí)行1);否則執(zhí)行下面的操作;8)結(jié)束。
      2.如權(quán)利要求1所述的方法,其特征是,所述隊(duì)列Q為一個(gè)先進(jìn)先出的數(shù)據(jù)結(jié)構(gòu)。
      3.如權(quán)利要求2所述的方法,其特征是,所述步驟B的實(shí)現(xiàn)方法如下Bi.從常用詞列表S中取出η個(gè)最常用的詞,作為查詢服務(wù)器用的關(guān)鍵詞; Β2.針對(duì)每一個(gè)關(guān)鍵詞,分別向服務(wù)器進(jìn)行關(guān)鍵詞查詢; Β3.比較每個(gè)關(guān)鍵詞的查詢結(jié)果數(shù)目,找出最大的數(shù)目m; B4.服務(wù)器的查詢結(jié)果上限為m。
      4.如權(quán)利要求3所述的方法,其特征是,所述步驟Bl中η的取值為5< η < 20。
      全文摘要
      本發(fā)明公布了一種通過關(guān)鍵詞查詢獲取eDonkey網(wǎng)絡(luò)共享文件及客戶端信息爬取方法,具體涉及一種通過關(guān)鍵詞查找來快速地獲得共享文件及客戶端信息的方法。本方法主要包括如下步驟建立常用詞列表;通過查詢常用詞以獲取服務(wù)器的查詢結(jié)果上限;把待查詢的關(guān)鍵詞放入一個(gè)隊(duì)列中;在服務(wù)器中查詢隊(duì)列中的關(guān)鍵詞,如果實(shí)際結(jié)果多于查詢結(jié)果,則把關(guān)鍵詞和常用詞進(jìn)行組合產(chǎn)生新詞進(jìn)行重新查詢。通過本發(fā)明提供的方法,可以獲取更多的eDonkey網(wǎng)絡(luò)共享文件信息和客戶端信息,從而提高了查找效率和查找質(zhì)量。
      文檔編號(hào)H04L29/06GK101916291SQ201010263210
      公開日2010年12月15日 申請(qǐng)日期2010年8月26日 優(yōu)先權(quán)日2010年8月26日
      發(fā)明者周淵, 宋維佳, 張蓓, 楊加, 馬皓 申請(qǐng)人:北京大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1