專利名稱:一種被動式網(wǎng)絡(luò)信息自動高效采集系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息自動采集技術(shù),具體涉及一種被動式網(wǎng)絡(luò)信 息自動高效采集系統(tǒng)及方法,本發(fā)明技術(shù)主要應(yīng)用于搜索引擎領(lǐng)域。
技術(shù)背景信息獲取是利用計算機進行信息后續(xù)處理(例如信息檢索、搜索引擎等)的前提。現(xiàn)階段web信息獲取方法主要通過網(wǎng)絡(luò)爬蟲實現(xiàn)。 現(xiàn)代社會信息化越來越快,計算機應(yīng)用也不僅僅是依靠邏輯上的編程 實現(xiàn),而更多的需要大量的信息進行處理、總結(jié)和歸納,并從中挖掘 出有用的信息。目前web信息獲取的主要手段一網(wǎng)絡(luò)爬蟲一逐漸顯露出一些不 適應(yīng)新需求的弱點,網(wǎng)絡(luò)爬蟲的基本原理是對一個初始網(wǎng)頁鏈接列表 進行遍歷訪問獲取內(nèi)容,并將獲取到的網(wǎng)頁中新的鏈接加入到網(wǎng)頁鏈 接列表中進行循環(huán)遞歸遍歷。這就會造成大量重復(fù)訪問,更新不及時, 傳輸內(nèi)容冗余,網(wǎng)絡(luò)帶寬占用大,服務(wù)器訪問壓力大等很多問題。新 的計算機應(yīng)用特別是web應(yīng)用對信息的實時性,全面性以及降低系 統(tǒng)開銷等方面都有新的要求,傳統(tǒng)網(wǎng)絡(luò)爬蟲已經(jīng)顯得力不從心。例如, 博客搜索需要對博客內(nèi)容非常及時的更新,要求在博客發(fā)表新文章幾 個小時之內(nèi)能夠提供搜索結(jié)果;音頻視頻等多媒體網(wǎng)站中的信息量龐 大,傳統(tǒng)方法傳輸需要占用大量網(wǎng)絡(luò)帶寬,從而使得網(wǎng)站不堪重負, 而且由于版權(quán)的限制等原因,這些網(wǎng)站往往不允許搜索引擎下載原始 的音視頻內(nèi)容,從而限制了基于內(nèi)容的音視頻搜索服務(wù)的發(fā)展。針對上述技術(shù)問題,近期提出了許多對傳統(tǒng)網(wǎng)絡(luò)爬蟲的改進思想 和方法,這些方法有的是通過改進爬取策略提高訪問效率或加快更新 頻率,例如對不同網(wǎng)站采用不同的循環(huán)間隔,或?qū)⒕W(wǎng)絡(luò)爬蟲局限在某 些特定領(lǐng)域爬取信息等;有的是通過網(wǎng)站管理員協(xié)助爬蟲進行爬取, 例如當(dāng)網(wǎng)站有較大更新時由網(wǎng)絡(luò)管理員提交站點地圖,爬蟲才艮據(jù)站點 地圖安排爬取時間進行爬取。這些方法雖然能夠改進爬蟲的 一些性能 以及加強其在某特定領(lǐng)域的功能,但他們依舊是基于傳統(tǒng)爬蟲架構(gòu)之 上,除了能部分提高搜索引擎爬蟲的內(nèi)容更新效率外,并沒有突破傳 統(tǒng)的網(wǎng)絡(luò)爬蟲結(jié)構(gòu),因此也沒有辦法徹底解決內(nèi)容及時更新、網(wǎng)站內(nèi)容重復(fù)傳輸、以及對音視頻特征等大規(guī)模數(shù)據(jù)進行采集等問題。 發(fā)明內(nèi)容為了解決現(xiàn)有技術(shù)中存在的web信息獲取過程中會出現(xiàn)造成大 量重復(fù)訪問,更新不及時,傳輸內(nèi)容冗余,網(wǎng)絡(luò)帶寬占用大,服務(wù)器 訪問壓力大等技術(shù)問題,而現(xiàn)有技術(shù)中解決辦法雖然能夠改進爬蟲的 一些性能以及加強其在某些特定領(lǐng)域的功能,但并沒有突破傳統(tǒng)的網(wǎng) 絡(luò)爬蟲結(jié)構(gòu),也沒有辦法徹底解決內(nèi)容及時更新、網(wǎng)站內(nèi)容重復(fù)傳輸、 以及對音、視頻等特征信息進行大規(guī)模數(shù)據(jù)采集等技術(shù)問題,本發(fā)明 提供了 一種被動式網(wǎng)絡(luò)信息自動高效采集系統(tǒng)。為了解決現(xiàn)有技術(shù)中存在的web信息獲取過程中會出現(xiàn)造成大 量重復(fù)訪問,更新不及時,傳輸內(nèi)容冗余,網(wǎng)絡(luò)帶寬占用大,服務(wù)器 訪問壓力大等技術(shù)問題,而現(xiàn)有技術(shù)中解決辦法雖然能夠改進爬蟲的 一些性能以及加強其在某些特定領(lǐng)域的功能,但并沒有突破傳統(tǒng)的網(wǎng) 絡(luò)爬蟲結(jié)構(gòu),也沒有辦法徹底解決內(nèi)容及時更新、網(wǎng)站內(nèi)容重復(fù)傳輸、 以及對音、視頻等特征信息進行大規(guī)模數(shù)據(jù)采集等技術(shù)問題,本發(fā)明 提供還了 一種被動式網(wǎng)絡(luò)信息自動高效采集方法。本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案為提供一種被動式 網(wǎng)絡(luò)信息自動高效采集系統(tǒng),所述網(wǎng)絡(luò)信息自動高效采集系統(tǒng)包括 運行于信息需求端的信息采集工作部;運行于信息提供端的信息收集 發(fā)送工作部;所述信息采集工作部與所述信息收集發(fā)送工作部為通信 連接關(guān)系。根據(jù)本發(fā)明的一優(yōu)選實施例所述信息需求端為搜索引擎服務(wù)器 端;所述信息提供端為網(wǎng)站服務(wù)器端;所述信息采集工作部為設(shè)置在 所述信息需求端的服務(wù)器組件;所述信息收集發(fā)送工作部為設(shè)置在所 述信息提供端的客戶組件。才艮據(jù)本發(fā)明的一優(yōu)選實施例所述網(wǎng)絡(luò)信息自動高效采集方法包 括步驟第一步、將所述信息采集工作部與所述信息收集發(fā)送工作部 建立有效的聯(lián)系;第二步、所述信息采集工作部根據(jù)所述信息收集發(fā) 送工作部的通知,獲取所述信息收集發(fā)送工作部內(nèi)存儲的所述信息提 供端信息。根據(jù)本發(fā)明的一優(yōu)選實施例所述第一步包括子步驟 一、由所 述信息采集工作部查詢新的、運行有所述信息收集發(fā)送工作部的網(wǎng)站,并獲取所述信息收集發(fā)送工作部網(wǎng)站相關(guān)信息;二、所述信息采集工作部根據(jù)獲取到的所述信息收集發(fā)送工作部信息向所述信息收 集發(fā)送工作部發(fā)送注冊請求并向所述信息收集發(fā)送工作部提供所述 信息采集工作部的相應(yīng)信息。根據(jù)本發(fā)明的一優(yōu)選實施例所述二步具體為所述信息采集工 作部根據(jù)獲取到的所述信息收集發(fā)送工作部信息向所述信息收集發(fā)送工作部發(fā)送注冊請求并提供所述信息采集工作部的相應(yīng)信息,所述 信息收集發(fā)送工作部根據(jù)收到的所述信息采集工作部信息,通過人工 或自動方式對是否接受該注冊請求進行判斷,將同意注冊的所述信息 采集工作部相關(guān)信息進行列表保存,并向所述信息采集工作部發(fā)送注 冊成功的通知。根據(jù)本發(fā)明的一優(yōu)選實施例所述第二步包括子步驟 一、通過 所述信息收集發(fā)送工作部檢測其所在網(wǎng)站下相關(guān)內(nèi)容的更新情況,并 進行更新內(nèi)容的存儲;二、所述信息收集發(fā)送工作部向所有已成功注 冊的所述信息采集工作部發(fā)送內(nèi)容下載通知;三、在所述信息采集工 作部與所述信息收集發(fā)送工作部之間建立點對點(P2P)傳輸網(wǎng)絡(luò), 由所述收集發(fā)送工作部提供下載的種子文件,供所述信息采集工作部 進行下載。根據(jù)本發(fā)明的一優(yōu)選實施例所述一步具體為通過所述信息收 集發(fā)送工作部檢測其所在網(wǎng)站下相關(guān)內(nèi)容的更新情況,并根據(jù)更新內(nèi) 容的類型,分別將更新的信息或該信息所對應(yīng)的相關(guān)特征信息進行信 息收集、特征采集、數(shù)據(jù)打包和存儲于特定文件中。根據(jù)本發(fā)明的一優(yōu)選實施例所述二步具體為當(dāng)新增信息累計 到一定量或者更新時間累計到一定時長時,所述信息收集發(fā)送工作部 向所有成功注冊的所述信息釆集工作部發(fā)送內(nèi)容下載通知,并在通知 中約定一個內(nèi)容下載時間段,收到該通知的所述信息采集工作部根據(jù) 自身情況決定是否在約定時間去下載信息;或者通過所述信息采集工 作部定時主動向所述信息收集發(fā)送工作部進行相關(guān)信息的下載。根據(jù)本發(fā)明的一優(yōu)選實施例所述三步具體為當(dāng)約定時間段到 來后,收到通知并確定需要下載更新內(nèi)容、服務(wù)于不同搜索引擎的所 述信息采集工作部與所述信息收集發(fā)送工作部進行溝通,并由所述信 息收集發(fā)送工作部發(fā)起,通過所述信息采集工作部參與建立起一個點對點(P2P)傳輸網(wǎng)絡(luò),由所述信息收集發(fā)送工作部提供下載的種子文件并根據(jù)參與下載的所述信息采集工作部的數(shù)量以及種子文件的 大小等因素將種子文件分割成若干部分,每個所述信息采集工作部負 責(zé)下載其中的一部分或者多個部分,下載后該信息采集工作部再與其 它需要這部分內(nèi)容的信息采集工作部進行信息共享。根據(jù)本發(fā)明的一優(yōu)選實施例所述第二步中所述信息采集工作部 獲取所述信息收集發(fā)送工作部內(nèi)存儲的所述信息提供端信息獲取方 式為通過將各所述信息采集工作部與所述信息收集發(fā)送工作部建立 起點對點(P2P)網(wǎng)絡(luò),由所述信息收集發(fā)送工作部為所述信息采集 工作部提供下載的種子文件供其下載。本發(fā)明的有益效果在于將該技術(shù)應(yīng)用于搜索引擎中后,能及時、 快速、高效的獲取互聯(lián)網(wǎng)上的文本信息和音、視頻特征信息等網(wǎng)站相 關(guān)內(nèi)容,并可顯著降低系統(tǒng)開銷以及網(wǎng)絡(luò)帶寬占用量。
圖1 .本發(fā)明 一種被動式網(wǎng)絡(luò)信息自動高效采集系統(tǒng)及方法中網(wǎng) 絡(luò)信息自動高效采集系統(tǒng)結(jié)構(gòu)圖; 圖2.新站點發(fā)現(xiàn)原理圖; 圖3.信息采集工作部服務(wù)器注冊原理圖; 圖4.信息收集發(fā)送工作部客戶端組件更新信息通知原理圖; 圖5.基于P2P協(xié)議數(shù)據(jù)下載原理圖;圖6.本發(fā)明 一種被動式網(wǎng)絡(luò)信息自動高效釆集系統(tǒng)及方法中網(wǎng) 絡(luò)信息自動高效采集方法流程圖。
具體實施方式
以下結(jié)合附圖和具體實施例對本發(fā)明一種被動式網(wǎng)絡(luò)信息自動 高效采集系統(tǒng)及方法進行詳細說明請參閱圖1本發(fā)明一種被動式網(wǎng)絡(luò)信息自動高效采集系統(tǒng)及方 法中網(wǎng)絡(luò)信息自動高放采集系統(tǒng)結(jié)構(gòu)圖,如圖l所示,所述網(wǎng)絡(luò)信息 自動高效采集系統(tǒng)包括運行于信息需求端的信息采集工作部;運行 于信息提供端的信息收集發(fā)送工作部;所述信息采集工作部與所述信 息收集發(fā)送工作部為通信連接關(guān)系。在本發(fā)明的實施例中所述信息需求端為客戶端搜索引擎,在圖中 包括第二搜索引擎和第三搜索引擎,但具體實踐中并不限于只有該兩個搜索引擎;所述信息提供端為網(wǎng)站服務(wù)器端;所述信息采集工作部 為設(shè)置在所述信息需求端搜索引擎上的服務(wù)器組件;所述信息收集發(fā) 送工作部為設(shè)置在所述信息提供端網(wǎng)站服務(wù)器上的客戶組件。在本發(fā)明系統(tǒng)中所述信息收集工作部——^良務(wù)器組件,該組件運 行于信息需求端(如搜索引擎服務(wù)器端),主要職責(zé)包括但不限于(一) 、尋找新的網(wǎng)站;(二)、在網(wǎng)站中的客戶端上注冊;(三)、等 待客戶端發(fā)出的內(nèi)容下載通知;(四)、與其它需要同樣內(nèi)容的服務(wù)器 組件以及相應(yīng)客戶組件一起建立臨時點對點傳輸網(wǎng)絡(luò)來下載需要的 信息。在本發(fā)明系統(tǒng)中所述信息收集發(fā)送工作部一~~客戶組件,該組件 運行于信息提供端(如提供文本或音視頻信息訪問的網(wǎng)站服務(wù)器端), 其主要職責(zé)包括但不限于(一)、接收不同服務(wù)器組件的注冊請求;(二) 、維護成功注冊的服務(wù)器組件信息表;(三)、及時監(jiān)測并搜集打包網(wǎng)站更新的文本內(nèi)容,提取并打包網(wǎng)站的圖像、音頻或視頻內(nèi)容 的各種特征數(shù)據(jù);(四)、根據(jù)每個已注冊服務(wù)器組件的信息需求來發(fā)送內(nèi)容更新通知;(五)、協(xié)助服務(wù)器組件在約定時間建立臨時內(nèi)容傳 行內(nèi)容下載。根據(jù)上述的職責(zé)與分工,本發(fā)明提供了 一種網(wǎng)絡(luò)信息自動高效采 集方法,用以下的具體實施方法來解決現(xiàn)有技術(shù)中存在的技術(shù)問題 時,需要每一個網(wǎng)頁都建立一個HTTP連接、內(nèi)容及時更新、內(nèi)容從 網(wǎng)站重復(fù)下載、音視頻特征的獲取以及音視頻特征信息等大規(guī)模數(shù)據(jù) 下載問題。其具體執(zhí)行步驟及相應(yīng)的解決問題方法可以具體描述如 下以下具體說明中所述信息需求端為客戶端搜索引擎;所述信息提 供端為網(wǎng)站服務(wù)器端;所述信息采集工作部為設(shè)置在所述信息需求端 的服務(wù)器組件;所述信息收集發(fā)送工作部為設(shè)置在所述信息提供端的 客戶組件。(一)網(wǎng)站發(fā)現(xiàn)首先由服務(wù)器組件尋找到新的、運行有信息客 戶端組件的網(wǎng)站,并從該網(wǎng)站下載存放在網(wǎng)站指定目錄下的網(wǎng)站客戶 端信息表,根據(jù)該信息表來確定客戶組件的連接端口等信息。新站點 的發(fā)現(xiàn)有兩種實現(xiàn)方法, 一種方法是通過已經(jīng)獲取的網(wǎng)站頁面內(nèi)容分析出新站點列表,服務(wù)器端根據(jù)此列表依次訪問網(wǎng)站。另一種方法可 通過一個第三方的網(wǎng)站列表服務(wù)來有效并且快速的發(fā)現(xiàn)新站點。具體方法如圖2新站點發(fā)現(xiàn)原理圖所示,每個網(wǎng)站安裝客戶端后都可以將自己注冊在一個第三方站點列表服務(wù)器上,服務(wù)器端就可以通過查詢 這個第三方服務(wù)器很容易的獲取網(wǎng)站列表。(二) 服務(wù)器注冊可以參閱說明書附3信息采集工作部服 務(wù)器注冊原理圖,如圖中所示,服務(wù)器組件根據(jù)獲得的客戶組件信息 向客戶組件發(fā)送注冊請求并提供相應(yīng)的服務(wù)器組件信息,客戶組件根 據(jù)收到的服務(wù)器組件信息,通過人工或者自動的方式來判斷是否接受 該注冊請求,如果接受了,則將該服務(wù)器組件的信息存入自己的服務(wù) 器組件列表中,并發(fā)送注冊成功通知給服務(wù)器組件,否則,直接發(fā)送 不允許注冊通知給服務(wù)器組件。(三) 內(nèi)容更新通知可以參閱說明書附4信息收集發(fā)送工 作部客戶端組件更新信息通知原理圖,如圖中所示,注冊成功后,服務(wù)器組件等待客戶組件的內(nèi)容更新通知;客戶組件監(jiān)測其所在網(wǎng)站下 所有的內(nèi)容更新情況,并根據(jù)更新內(nèi)容的類型,分別將更新的信息或 者該信息所對應(yīng)的各種特征打包存放于特定文件中,當(dāng)新增信息累計 到一定量、或者更新時間累計到一定時長后,向所有成功注冊的服務(wù) 器組件發(fā)送內(nèi)容下載通知,并在通知中約定一個內(nèi)容下載時間段;收 到該通知的服務(wù)器組件根據(jù)自身情況決定是否在約定時間去下載信 息;由于更新的內(nèi)容由客戶組件來負責(zé),而且每個客戶組件之負責(zé)本 地網(wǎng)站的內(nèi)容分析與監(jiān)測,因此對于音視頻等具有版權(quán)的數(shù)據(jù)進行特 征抽取就可以在內(nèi)容提供方進行,能夠很好實現(xiàn)版權(quán)保護。(四) 內(nèi)容下載可以參閱說明書附5基于P2P協(xié)議數(shù)據(jù)下 載原理圖,如圖中所示當(dāng)約定時間段到來后,收到通知并確定需要下 載更新內(nèi)容、服務(wù)于不同搜索引擎的服務(wù)器組件相繼與客戶組件進行 溝通,并由客戶組件發(fā)起、服務(wù)器組件參與建立起一個臨時的點對點 傳輸網(wǎng)絡(luò),客戶組件提供下載的種子文件并根據(jù)參與下載的服務(wù)器組 件的數(shù)量以及種子文件的大小等因素來將種子文件分割成若干部分, 每個服務(wù)器組件負責(zé)下載其中的一部分或者多個部分,但是為了減輕 客戶組件所在的網(wǎng)站的負載壓力,每部分只能由一個或者由網(wǎng)站管理 員指定的最多N個服務(wù)器組件同時從網(wǎng)站下載,下載后該服務(wù)器組件再與其它需要這部分內(nèi)容的服務(wù)器組件進行共享。通過這種方式, 解決了在不增加網(wǎng)站壓力情況下大規(guī)模數(shù)據(jù)如音頻或視頻特征信息 等的獲取問題,同時從理論上來說,每個服務(wù)器組件只需付出額外的 不超過其所獲得的凄t據(jù)總量大小的數(shù)據(jù)上傳量,這與傳統(tǒng)爬蟲架構(gòu)下 其消耗在新的網(wǎng)頁查找以及網(wǎng)頁內(nèi)容更新情況判斷、以及為獲取每一個單獨網(wǎng)頁而建立的額外HTTP請求等消耗比起來,顯然是可以接受 的,更關(guān)鍵的還在于,這種傳輸方法能夠完成傳統(tǒng)爬蟲所無法解決的 音視頻特征文件的下載問題。上述四個步驟是本系統(tǒng)的主要工作步驟。此外,在有些情況下, 比如對于一個新的爬蟲來說,它有時候也需要網(wǎng)站提供除了最近更新 的信息以外的歷史數(shù)據(jù),如果這個歷史數(shù)據(jù)文件不是很大,完全可以 在上面工作步驟的第(四)步中作為更新數(shù)據(jù)來完成下載,但如果歷 史數(shù)據(jù)比較龐大,則做為一個可選步驟,下面給出第(五)步來進行 歷史數(shù)據(jù)的下載。(五)歷史數(shù)據(jù)下載 一個網(wǎng)站的歷史數(shù)據(jù)具有幾個特點, 一是 由于信息比較陳舊,因此對于搜索引擎來說一般情況下重要性要比最 新的數(shù)據(jù)略為低一些,二是由于時間積累比較長,因此一般來說數(shù)據(jù) 量比更新數(shù)據(jù)要大很多,因此需要嚴格控制下載的次數(shù)。這兩個特點 決定了客戶組件在提供歷史數(shù)據(jù)下載的時候,主要需要控制好開放歷 史數(shù)據(jù)下載的頻率,其通知下載的方法、實際下載過程和方法與第 (三)、(四)步中是相同的。為了確定合適的下載頻度,需要對提供 歷史數(shù)據(jù)下載的時間間隔作出 一個估計,這里給出 一個可能的估計方 法,即令下載時間間隔rw = minpVjiV, . A,Tc.,其中A," oc 是由當(dāng)前歷史數(shù)據(jù)大小L影響的兩個系數(shù),wc, z;是由網(wǎng)站管理員根據(jù)給定歷史數(shù)據(jù)大小丄e給定的新注冊服務(wù)器端總數(shù)N,最長等待時間T 的參考值,W/是當(dāng)前新服務(wù)器組件在客戶組件上注冊的頻率。同一個 服務(wù)器組件通常面對大量的網(wǎng)站客戶組件,因此提供一個盡量長時間 下載歷史數(shù)據(jù)對服務(wù)器端下載優(yōu)化有很大好處,同時也給服務(wù)器端評 判客戶端狀態(tài)提供了依據(jù)。上述方法可以概括為如說明書附圖6本發(fā)明一種被動式網(wǎng)絡(luò)信 息自動高效采集系統(tǒng)及方法中網(wǎng)絡(luò)信息自動高效采集方法流程圖所作為服務(wù)器組件和客戶組件配合成功的基礎(chǔ),服務(wù)器組件和客戶 組件之間以及服務(wù)器組件相互之間的通信必須以一致的通信協(xié)議來 完成。具體采用哪 一種協(xié)議實現(xiàn)方式并不會影響本發(fā)明的功能與主要 效率,但是為了保證對整個互聯(lián)網(wǎng)信息最大限度的共享以及獲得最優(yōu)的效率,確定一種基于XML的可擴展的標(biāo)準(zhǔn)協(xié)議是有益的。雖然不 是必須,但以下主要lt據(jù)結(jié)構(gòu)是保證客戶組件和服務(wù)器組件相互通信 的重要內(nèi)容,因此需要在每種協(xié)議中給出具體定義,這里給出的只是 一種基于XML的示范定義方法 (一)網(wǎng)站信息描述文件 對于網(wǎng)站信息描述文件, 一種實施方式是采用類似傳統(tǒng)爬蟲的方 法,在每個網(wǎng)站的根目錄下放置一個類似于"robot.xml"的XML文件。 下面給出了 一種基于XML Schema的網(wǎng)站信息描述文件定義模板 <xsd:element name="client"> 〃定義網(wǎng)站駐留的客戶端的信息 <xsd:complexType> <xsd:all>〈xsd:element name-"port" type="xsd:unsignedShort'V> 〃 客戶端監(jiān)聽端口<xsd:element name="domain" type="xsd:anyURI7〉 〃網(wǎng)站的域名<xsd:element ref="subject" /> 〃網(wǎng)站內(nèi)容所涉及的主題(可選)<xsd:element ref="changefreq" minOccurs="0" /> 〃一般的 更新頻度(可選)〈xsd:element ref="timezone"> 〃客戶端組件所駐留服務(wù)器的時區(qū)</xsd:all> </xsd:complexType> </xsd:element>〈xsd:element name="subject"> <xsd: simpleType><xsd:restriction base="xsd:string">〈xsd:enumeration value-"金融"/> 〈xsd:enumemtion valuey教育"/> <xsd:enumeration value-"信息技術(shù)"/>〃上面只是一些可能類別的例子,可以根據(jù)需要擴充 </xsd:restriction> </xsd:simpleType> </xsd:element〉<xsd:element name="changefreq"> <xsd:simpleType><xsd:restriction base="xsd:string"><xsd:enumeration value-"連續(xù)更新"/> <xsd:enumeration value-"每小日于"/> <xsd:enumeration value-"每天"/> <xsd: enumeration value-"每周"/> <xsd:enumeration value-"每月"/> <xsd:enumeration value-"每年"/> <xsd:enumeration value-"從不更新"/〉 〃可以根據(jù)需要擴充 </xsd:restriction> </xsd:simpleType> </xsd:element><xsd:element name-"timezone"〉 <xsd:simpleType><xsd:restriction base="xsd:unsignedByte"> <xsd:minLength value="0" /> <xsd:maxLength value="23" /> </xsd:restriction> </xsd:simpleType〉 </xsd:element>下面是一個網(wǎng)站信息描述的例子 < xml version="1.0" encoding="UTF-8" >〈client xmlns="www.hitsz.edu.cn"> <port>8088</port><domain>www.hitsz.edu.cn</domain> <subj ects〉教育</subj ects> 〈changefreq〉每天〈/changefreq〉 </client>在上述模板中,最重要的部分是〈client〉的,ort〉元素,該元素告 訴服務(wù)器組件如果要和客戶組建進行通信所必須知道的監(jiān)聽端口 。雖 然不是必須的,但提供〈subject〉元素來告訴服務(wù)器組件該網(wǎng)站主要涉 及的主題對于服務(wù)器所在的搜索引擎、尤其是那些專注于特定領(lǐng)域信 息的垂直搜索引擎來說是很有幫助的。其它可選信息,包括更新頻率, 網(wǎng)站域名等也對服務(wù)器組件以及相應(yīng)的搜索引擎更好的提供信息檢 索服務(wù)有很大幫助。另 一個元素〈timezone〉是考慮到服務(wù)器組件與客 戶組件可能來自于不同的地區(qū),為了保證時間上的一致性,所以需要 相互之間確定不同告知所屬時區(qū)。對于一個比較大的網(wǎng)站,往往可能需要有多個客戶組件針對不同 部分的內(nèi)容來分別提供服務(wù),這時候也可以在網(wǎng)站信息表中提供多個 〈client〉元素來分別加以說明。 (二)服務(wù)器組件注冊信息服務(wù)器組件在客戶組件上注冊時需要與客戶組件進行必要的交 互,主要包括給客戶組件提供基本的服務(wù)器組件以及相應(yīng)的搜索引擎 的身份識別信息,服務(wù)器組件監(jiān)聽端口 、信息需求類型等。作為參考, 下面給出了 一個服務(wù)器組件注冊時發(fā)送的主要注冊信息的模板 <xsd:element name="serverRegister"> <xsd:complexType> <xsd:all><xsd:element name="serverIP" type="xsd:string"/> <xsd:element name="serverName" type="xsd:strimg7> <xsd:element ref="subject" /> <xsd:element ref="contentType" minOccurs="0" /> <xsd:element ref="timezone" minOccurs="0" /> </xsd:all> </xsd: complexType></xsd:element>〈xsd:element name="contentType"> <xsd:simpleType><xsd:restriction base="xsd:string"> <xsd:enumeration value="audio" /> <xsd:enumeration value="video" /> <xsd:enumeration value="image" /> <xsd:enumeration value="text" /> </xsd:restriction〉 </xsd:simpleType> </xsd:element>除了在數(shù)據(jù)結(jié)構(gòu)(一)中已經(jīng)定義的元素,這里新增加的元素 <type>々ype〉表明服務(wù)器組件所需要的信息的類型,包括音 頻"audio",視頻"video",閨像,,image,,和文本"text"這幾種主要類型, 當(dāng)然也可以對這些類型進行進一步擴充?!磘ype〉元素也可以作為網(wǎng)站 信息文件的可選元素,用于描述只提供特定類型信息的網(wǎng)站,但對于 能提供混和類型信息的網(wǎng)站,可以用多個〈type〉元素分別描述,也可以 忽略這一項。為了對上述注冊信息進行回應(yīng),客戶組件通常需要在確定注冊 成功或者拒絕該服務(wù)器組件注冊后發(fā)回一個響應(yīng)消息,這個響應(yīng)消 息可以是一般的簡單響應(yīng),也可以是一個比較復(fù)雜的XML消息文本。 (三)網(wǎng)站內(nèi)容更新通知該消息是由 一個客戶組件發(fā)送到所有在它上面成功注冊的服務(wù) 器組件的內(nèi)容更新與下載通知,該通知告訴服務(wù)器組件更新內(nèi)容的更 新時間段,包含的網(wǎng)頁或者音視頻特征文件數(shù)目、類型及需要下載的 更新內(nèi)容的大小,如果有可能,也可以指明這些內(nèi)容所涉及的主題。 除了與更新內(nèi)容相關(guān)的信息,該通知消息還應(yīng)該包含什么時段開放更 新內(nèi)容給服務(wù)器組件下載、開放的下載端口、開放的協(xié)議類型、下載 文件列表等相關(guān)信息。下面的XML Schema模板給出了一個更新通知 消息的示例模板。 〈xsd:element name="update"> <xsd:complexType> <xsd:all><xsd:element name="cliendID" type="xsd:ID"/>〈xsd:element name-,,downloadPort,, type="xsd:unsignedlnt"> <xsd:element name=,,updatedFile" type=,,updatedFileType" minOccurs="l,,/> </xsd:all> </xsd:complexType> </xsd:element>〈xsd:complexType name="durationType"〉 <xsd:all><xsd:dement name="startTime" type="xsd:dateTime"> <xsd:element name="dueTime" type="xsd:dateTime"></xsd:all> </xsd:complexType><xsd:complexType name:,,updatedFileType"〉 <xsd:all><xsd:element name="fileFullPath,, type-,,xsd: string"minOccurs="l,,/><xsd:element name="dataSize" type="xsd:unsignedLong"/> <xsd:element ref=,,subject,, minOccurs=,,0"/> 〈xsd:element ref=,,contentType" minOccurs="0,,/> <xsd:element name="isHistory" type="xsd:boolean"minOccurs='TV>〈xsd:element name="updateDumtion" type="durationType,, minOccurs=" 1" /> <xsd:element name="downloadDuration"type-"durationType" minOccurs= "l'V〉 </xsd:all> </xsd:complexType>在上述數(shù)據(jù)結(jié)構(gòu)中,每個內(nèi)容更新消息中包含一個或多個 〈updatedFile〉單元,每個單元描述一個由客戶端打包的更新文件,該 更新文件中通常包含一段時間內(nèi)更新的一種或多種類型網(wǎng)絡(luò)信息,如 文本網(wǎng)頁、音頻特征文件或者視頻特征文件等。服務(wù)器組件可以更具化pdatedFile〉單元中提供的信息來判斷是否需要下載相應(yīng)的更新信 臺本發(fā)明的有益效果在于將該技術(shù)應(yīng)用于搜索引擎中后,能及時、 快速、高效的獲取互聯(lián)網(wǎng)上的文本信息和音、視頻特征信息等網(wǎng)站相關(guān)內(nèi)容,并可顯著降低系統(tǒng)開銷以及網(wǎng)絡(luò)帶寬占用量。細說明,不能認定本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明 所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下, 還可以做出若千簡單推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明的保護范 圍。
權(quán)利要求
1. 一種被動式網(wǎng)絡(luò)信息自動高效采集系統(tǒng),其特征在于所述網(wǎng)絡(luò)信息自動高效采集系統(tǒng)包括運行于信息需求端的信息采集工作部;運行于信息提供端的信息收集發(fā)送工作部;所述信息采集工作部與所述信息收集發(fā)送工作部為通信連接關(guān)系。
2. 根據(jù)權(quán)利要求1所述被動式網(wǎng)絡(luò)信息自動高效采集系統(tǒng),其特 征在于所述信息需求端為搜索引擎服務(wù)器端; 所述信息提供端為網(wǎng)站服務(wù)器端;所述信息采集工作部為設(shè)置在所述信息需求端的服務(wù)器組件; 所述信息收集發(fā)送工作部為設(shè)置在所述信息提供端的客戶組件。
3. —種被動式網(wǎng)絡(luò)信息自動高效采集方法,其特征在于所述網(wǎng) 絡(luò)信息自動高效采集方法包括步驟A:將所述信息采集工作部與所述信息收集發(fā)送工作部建立有效 的聯(lián)系;B:所述信息采集工作部根據(jù)所述信息收集發(fā)送工作部的通知,獲 取所述信息收集發(fā)送工作部內(nèi)存儲的所述信息提供端信息。
4. 根據(jù)權(quán)利要求3所述被動式網(wǎng)絡(luò)信息自動高效釆集方法,其特 征在于所述步驟A包括子步驟Al:由所述信息采集工作部查詢新的、運行有所述信息收集發(fā)送 工作部的網(wǎng)站,并獲取所述信息收集發(fā)送工作部網(wǎng)站相關(guān)信息;A2:所述信息采集工作部根據(jù)獲取到的所述信息收集發(fā)送工作部 信息向所述信息收集發(fā)送工作部發(fā)送注冊請求并向所述信息收集發(fā) 送工作部提供所述信息采集工作部的相應(yīng)信息。
5. 根據(jù)權(quán)利要求4所述被動式網(wǎng)絡(luò)信息自動高效采集方法,其特 征在于所述步驟A2具體為所述信息采集工作部根據(jù)獲取到的所 述信息收集發(fā)送工作部信息向所述信息收集發(fā)送工作部發(fā)送注冊請 求并提供所述信息采集工作部的相應(yīng)信息,所述信息收集發(fā)送工作部 根據(jù)收到的所述信息采集工作部信息,通過人工或自動方式對是否接 受該注冊請求進行判斷,將同意注冊的所述信息采集工作部相關(guān)信息 進行列表保存,并向所述信息采集工作部發(fā)送注冊成功的通知。
6. 根據(jù)權(quán)利要求3所述被動式網(wǎng)絡(luò)信息自動高效采集方法,其特 征在于所述步驟B包括子步驟Bl:通過所述信息收集發(fā)送工作部檢測其所在網(wǎng)站下相關(guān)內(nèi)容的 更新情況,并進行更新內(nèi)容的存儲;B2:所述信息收集發(fā)送工作部向所有已成功注冊的所述信息采集 工作部發(fā)送內(nèi)容下載通知;B3:在所述信息釆集工作部與所述信息收集發(fā)送工作部之間建立 點對點(P2P)傳輸網(wǎng)絡(luò),由所述收集發(fā)送工作部提供下載的種子文 件,供所述信息采集工作部進行下載。
7. 根據(jù)權(quán)利要求6所述被動式網(wǎng)絡(luò)信息自動高效采集方法,其特 征在于所述步驟B1具體為通過所述信息收集發(fā)送工作部檢測其 所在網(wǎng)站下相關(guān)內(nèi)容的更新情況,并根據(jù)更新內(nèi)容的類型,分別將更 新的信息或該信息所對應(yīng)的相關(guān)特征信息進行信息收集、特征采集、 數(shù)據(jù)打包和存儲于特定文件中。
8. 根據(jù)權(quán)利要求6所述被動式網(wǎng)絡(luò)信息自動高效采集方法,其特 征在于所述步驟B2具體為當(dāng)新增信息累計到一定量或者更新時 間累計到一定時長時,所述信息收集發(fā)送工作部向所有成功注冊的所 述信息采集工作部發(fā)送內(nèi)容下載通知,并在通知中約定一個內(nèi)容下載 時間段,收到該通知的所述信息采集工作部根據(jù)自身情況決定是否在 約定時間去下載信息;或者通過所述信息采集工作部定時主動向所述 信息收集發(fā)送工作部進行相關(guān)信息的下載。
9. 根據(jù)權(quán)利要求6所述被動式網(wǎng)絡(luò)信息自動高效采集方法,其特 征在于所述步驟B3具體為當(dāng)約定時間段到來后,收到通知并確 定需要下載更新內(nèi)容、服務(wù)于不同搜索引擎的所述信息采集工作部與 所述信息收集發(fā)送工作部進行溝通,并由所述信息收集發(fā)送工作部發(fā) 起,通過所述信息采集工作部參與建立起一個點對點(P2P)傳輸網(wǎng) 絡(luò),由所述信息收集發(fā)送工作部提供下載的種子文件并根據(jù)參與下載 的所述信息采集工作部的數(shù)量以及種子文件的大小等因素將種子文 件分割成若干部分,每個所述信息采集工作部負責(zé)下載其中的一部分 或者多個部分,下載后該信息采集工作部再與其它需要這部分內(nèi)容的信息采集工作部進行信息共享。
10. 根據(jù)權(quán)利要求3所述被動式網(wǎng)絡(luò)信息自動高效采集方法,其特征在于所述步驟B中所述信息采集工作部獲取所述信息收集發(fā) 送工作部內(nèi)存儲的所述信息提供端信息獲取方式為通過將各所述信息采集工作部與所述信息收集發(fā)送工作部建立起P2P網(wǎng)絡(luò),由所述信 息收集發(fā)送工作部為所述信息采集工作部提供下載的種子文件供其 下載。
全文摘要
本發(fā)明涉及一種被動式網(wǎng)絡(luò)信息自動高效采集系統(tǒng)及方法,所述網(wǎng)絡(luò)信息自動高效采集系統(tǒng)包括運行于信息需求端的信息采集工作部;運行于信息提供端的信息收集發(fā)送工作部;所述信息采集工作部與所述信息收集發(fā)送工作部為通信連接關(guān)系。所述網(wǎng)絡(luò)信息自動高效采集方法包括步驟將所述信息采集工作部與所述信息收集發(fā)送工作部建立有效的聯(lián)系;所述信息采集工作部根據(jù)所述信息收集發(fā)送工作部的通知或定期獲取所述信息收集發(fā)送工作部內(nèi)存儲的所述信息提供端信息。將本發(fā)明技術(shù)應(yīng)用于搜索引擎中后,能及時、快速、高效的獲取互聯(lián)網(wǎng)上的文本信息和音頻、視頻特征信息等網(wǎng)站相關(guān)內(nèi)容,并可顯著降低系統(tǒng)開銷以及網(wǎng)絡(luò)帶寬占用量。
文檔編號G06F17/30GK101261635SQ20081006689
公開日2008年9月10日 申請日期2008年4月29日 優(yōu)先權(quán)日2008年4月29日
發(fā)明者王曉龍, 翁家才, 郭鴻志, 陳清財, 馬天明 申請人:哈爾濱工業(yè)大學(xué)深圳研究生院