一種基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法和裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法和裝置,其中方法包括:對當(dāng)前網(wǎng)頁進(jìn)行解析,獲取所述當(dāng)前網(wǎng)頁的頁面信息;如果所述當(dāng)前網(wǎng)頁的頁面信息中包含快速處理標(biāo)簽,則基于網(wǎng)絡(luò)爬蟲對所述當(dāng)前網(wǎng)頁優(yōu)先進(jìn)行數(shù)據(jù)處理。本發(fā)明實(shí)施例通過在網(wǎng)頁中設(shè)置快速處理標(biāo)簽,對更新的網(wǎng)頁和已有的網(wǎng)頁進(jìn)行區(qū)分處理,從而提高了網(wǎng)頁數(shù)據(jù)的處理速度。
【專利說明】
一種基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實(shí)施例涉及通信技術(shù)領(lǐng)域,尤其涉及一種基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理 的方法和裝置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些 信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine ),例如傳統(tǒng)的通用搜索引擎 AltaVista,Yahoo!、Google和Baidu等等,作為輔助人們檢索信息的工具,成為了用戶訪問 萬維網(wǎng)的入口和指南。搜索引擎通常會提供分鐘級別的實(shí)時索引,以及時向用戶展示強(qiáng)時 效性網(wǎng)頁信息,如新聞網(wǎng)站中的新聞資訊、視頻網(wǎng)站中的視頻更新動、論壇網(wǎng)友中的熱門帖 子等。為及時獲取這些強(qiáng)時效性網(wǎng)頁信息,相關(guān)搜索引擎需要維護(hù)一批種子頁(又稱列表 頁、hub頁);其中,所述種子頁相當(dāng)于內(nèi)容頁的索引頁面,以新聞網(wǎng)站為例,其種子頁用于展 示多個新聞標(biāo)題,每個新聞標(biāo)題鏈接到一個內(nèi)容頁,且該內(nèi)容頁用于展示相應(yīng)新聞標(biāo)題對 應(yīng)的具體新聞內(nèi)容。
[0003] 但是,這些通用性搜索引擎也存在著一定的局限性,如:
[0004] (1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所 返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。
[0005] (2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源 與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。
[0006] (3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒 體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無 能為力,不能很好地發(fā)現(xiàn)和獲取。
[0007] (4)通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查 詢。
[0008] 為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的網(wǎng)絡(luò)爬蟲(Computer Robot)應(yīng)運(yùn)而 生,網(wǎng)絡(luò)爬蟲(Computer Robot),又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在F0AF社區(qū)中間,更經(jīng)常 的稱為網(wǎng)頁追逐者,另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
[0009] 如圖1所示,為現(xiàn)有的網(wǎng)絡(luò)爬蟲應(yīng)用的組網(wǎng)圖,包括控制節(jié)點(diǎn)和爬蟲節(jié)點(diǎn)。網(wǎng)絡(luò)爬 蟲技術(shù)是通過控制節(jié)點(diǎn)控制爬蟲節(jié)點(diǎn)按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者 腳本,為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。搜索引擎使用網(wǎng)絡(luò)爬 蟲尋找網(wǎng)絡(luò)內(nèi)容,網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接了起來,就像織成了一張網(wǎng),網(wǎng)絡(luò)爬蟲 也叫網(wǎng)絡(luò)蜘蛛,順著這張網(wǎng)爬行,每到一個網(wǎng)頁就用抓取程序?qū)⑦@個網(wǎng)頁抓下來,將內(nèi)容抽 取出來,同時抽取超鏈接,作為進(jìn)一步爬行的線索。
[0010] 如圖2所示,為現(xiàn)有的網(wǎng)絡(luò)爬蟲抓取萬維網(wǎng)信息的示意圖。傳統(tǒng)的網(wǎng)絡(luò)爬蟲從一個 或若干初始網(wǎng)頁的統(tǒng)一資源定位符(URL,Uniform Resource Locator)開始,獲得初始網(wǎng)頁 上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的 一定停止條件。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建 立索引,以便之后的查詢和檢索。
[0011] 在現(xiàn)有技術(shù)中,搜索引擎可以通過網(wǎng)絡(luò)爬蟲系統(tǒng)按照預(yù)設(shè)的刷新間隔來抓取種子 頁所需的內(nèi)容頁數(shù)據(jù),對上一次抓取的種子頁進(jìn)行更新,從而可以將新的內(nèi)容頁及時展示 給用戶,保證相關(guān)網(wǎng)站的時效性。但是,網(wǎng)絡(luò)爬蟲按照統(tǒng)一的規(guī)則對網(wǎng)絡(luò)獲取的網(wǎng)頁數(shù)據(jù)進(jìn) 行處理。如果存在更新的內(nèi)容,網(wǎng)絡(luò)爬蟲對于更新的內(nèi)容和以前的內(nèi)容,都將采用相同的處 理規(guī)則,很可能導(dǎo)致處理速度過慢,無法及時的將更新的內(nèi)容頁展示給用戶。
[0012] 有鑒于此,需要一種改進(jìn)的網(wǎng)絡(luò)爬蟲方案來解決現(xiàn)有技術(shù)中存在的問題。
【發(fā)明內(nèi)容】
[0013] 本發(fā)明實(shí)施例提供一種基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法和裝置,能夠提高 網(wǎng)頁數(shù)據(jù)的處理速度。
[0014] 本發(fā)明實(shí)施例提供一種基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法,包括:
[0015] 對當(dāng)前網(wǎng)頁進(jìn)行解析,獲取所述當(dāng)前網(wǎng)頁的頁面信息;
[0016] 如果所述當(dāng)前網(wǎng)頁的頁面信息中包含快速處理標(biāo)簽,則基于網(wǎng)絡(luò)爬蟲對所述當(dāng)前 網(wǎng)頁優(yōu)先進(jìn)行數(shù)據(jù)處理。
[0017] 本發(fā)明實(shí)施例提供一種基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理裝置,包括:
[0018] 第一處理模塊,用于對當(dāng)前網(wǎng)頁進(jìn)行解析,獲取所述當(dāng)前網(wǎng)頁的頁面信息;
[0019] 第二處理模塊,用于如果所述當(dāng)前網(wǎng)頁的頁面信息中包含快速處理標(biāo)簽,則基于 網(wǎng)絡(luò)爬蟲對所述當(dāng)前網(wǎng)頁優(yōu)先進(jìn)行數(shù)據(jù)處理。
[0020] 相比較于現(xiàn)有技術(shù)本發(fā)明實(shí)施例提供的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法 和系統(tǒng),預(yù)先定義用于優(yōu)先處理網(wǎng)頁數(shù)據(jù)的快速處理標(biāo)簽,如果當(dāng)前網(wǎng)頁中包含快速處理 標(biāo)簽時,則基于網(wǎng)絡(luò)爬蟲對當(dāng)前網(wǎng)頁優(yōu)先進(jìn)行數(shù)據(jù)處理,從而能夠提高網(wǎng)頁數(shù)據(jù)的處理速 度,避免了現(xiàn)有技術(shù)中對于更新的內(nèi)容和以前的內(nèi)容都采用相同的處理規(guī)則,導(dǎo)致對網(wǎng)頁 數(shù)據(jù)處理速度過慢的問題。
【附圖說明】
[0021] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根 據(jù)這些附圖獲得其他的附圖。
[0022] 圖1為現(xiàn)有的網(wǎng)絡(luò)爬蟲應(yīng)用的組網(wǎng)圖;
[0023] 圖2為現(xiàn)有的網(wǎng)絡(luò)爬蟲抓取萬維網(wǎng)信息的示意圖;
[0024] 圖3為本發(fā)明的一個具體實(shí)施例中基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法的流程 示意圖;
[0025] 圖4為本發(fā)明的一個具體實(shí)施例中基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法的詳細(xì) 流程示意圖;
[0026]圖5本發(fā)明的一個具體實(shí)施例中基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理裝置的示意圖。
【具體實(shí)施方式】
[0027]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0028]傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)按照一定的規(guī)則獲得網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不 斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列等待處理。但是對于更新的內(nèi)容和以前的內(nèi)容都采 用相同的處理規(guī)則,有可能會導(dǎo)致處理速度過慢。
[0029] 相比較于現(xiàn)有技術(shù),本發(fā)明根據(jù)需要,將更新的內(nèi)容和以前的內(nèi)容加以區(qū)別,使得 更新的內(nèi)容能夠根據(jù)需要得到優(yōu)先處理,從而避免了現(xiàn)有技術(shù)中處理速度過慢的缺點(diǎn)。
[0030] 實(shí)施例一:
[0031] 圖3為本發(fā)明的一個具體實(shí)施例中基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法的流程 示意圖。
[0032]如圖3所示,該方法包括:
[0033]步驟S31,對當(dāng)前網(wǎng)頁進(jìn)行解析,獲取所述當(dāng)前網(wǎng)頁的頁面信息;
[0034]步驟S22,如果所述當(dāng)前網(wǎng)頁的頁面信息中包含快速處理標(biāo)簽,則基于網(wǎng)絡(luò)爬蟲對 所述當(dāng)前網(wǎng)頁優(yōu)先進(jìn)行數(shù)據(jù)處理。
[0035] 實(shí)施例二:
[0036] 圖4為本發(fā)明的一個具體實(shí)施例中基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法的詳細(xì) 流程示意圖。
[0037]如圖4所示,該方法包括:
[0038] 步驟S41,預(yù)先定義快速處理標(biāo)簽,所述快速處理標(biāo)簽用于標(biāo)識優(yōu)先處理網(wǎng)頁數(shù) 據(jù)。
[0039]相較于現(xiàn)有技術(shù),在本發(fā)明中預(yù)先定義快速處理標(biāo)簽,根據(jù)需要將快速處理標(biāo)簽 添加在網(wǎng)頁信息中,從而可以標(biāo)識該網(wǎng)頁具有優(yōu)先處理數(shù)據(jù)的權(quán)利。
[0040] 互聯(lián)網(wǎng)上的網(wǎng)頁通常以超文本標(biāo)記語言(HTML,HyperText Mark-up Language)文 件。超文本就是指頁面內(nèi)可以包含圖片、鏈接,甚至音樂、程序等非文字元素。超文本標(biāo)記語 言的結(jié)構(gòu)包括頭部分和主體部分,其中頭部提供關(guān)于網(wǎng)頁的信息,主體部分提供網(wǎng)頁的具 體內(nèi)容。
[0041 ]表1列出了HTML文件的頭部分的元素:
[0042]表 1
[0044] 在本發(fā)明的具體實(shí)施例中,可以對HTML文件的頭部分進(jìn)行擴(kuò)展,增加一個元素,用 以放置快速處理標(biāo)簽。
[0045] 在本發(fā)明的具體實(shí)施例中,快速處理標(biāo)簽可以采用數(shù)值或字母表示,當(dāng)然也可以 是其他的形式,在本發(fā)明中不做具體的限制。
[0046] 步驟S42,抓取當(dāng)前網(wǎng)頁,并對當(dāng)前網(wǎng)頁進(jìn)行解析,獲取所述當(dāng)前網(wǎng)頁的頁面信息。
[0047] 在本步驟中,對當(dāng)前網(wǎng)頁執(zhí)行抓取操作,并對當(dāng)前網(wǎng)頁進(jìn)行解析,得到該當(dāng)前網(wǎng)頁 的頁面信息。
[0048]網(wǎng)頁以HTML文件的形式存在,因此可以對當(dāng)前網(wǎng)頁的HTML文件進(jìn)行解析,得到該 當(dāng)前網(wǎng)頁的頁面信息。
[0049] 步驟S43,判斷網(wǎng)頁信息中是否包含快速處理標(biāo)簽,如果是,進(jìn)行步驟S44;如果否, 進(jìn)行步驟S45。
[0050]在本步驟中,判斷在當(dāng)前網(wǎng)頁的HTML文件的頭部分是否包含快速處理標(biāo)簽。
[0051]步驟S44,基于網(wǎng)絡(luò)爬蟲將所述當(dāng)前網(wǎng)頁的數(shù)據(jù)放入優(yōu)先隊(duì)列中,按照優(yōu)先隊(duì)列順 序進(jìn)行數(shù)據(jù)處理。
[0052]相較于現(xiàn)有技術(shù),在本發(fā)明具體實(shí)施例中,在普通隊(duì)列的基礎(chǔ)上增加了優(yōu)先隊(duì)列, 在數(shù)據(jù)處理時,優(yōu)先隊(duì)列中的數(shù)據(jù)比普通隊(duì)列的數(shù)據(jù)將進(jìn)行優(yōu)先處理。
[0053]在本步驟中,如果判斷出當(dāng)前網(wǎng)頁的HTML文件的頭部分包含快速處理標(biāo)簽,基于 網(wǎng)絡(luò)爬蟲將所述當(dāng)前網(wǎng)頁中需要處理的數(shù)據(jù)放入優(yōu)先隊(duì)列中,按照優(yōu)先隊(duì)列順序進(jìn)行數(shù)據(jù) 處理。
[0054] 網(wǎng)絡(luò)爬蟲根據(jù)設(shè)定的網(wǎng)頁分析算法對網(wǎng)頁中的數(shù)據(jù)進(jìn)行過濾,保留爬行范圍受控 的需要處理的有用數(shù)據(jù)放到優(yōu)先隊(duì)列中,通過設(shè)定的搜索策略從優(yōu)先隊(duì)列中選擇要網(wǎng)頁進(jìn) 行數(shù)據(jù)處理,其中網(wǎng)頁中的數(shù)據(jù)可以是網(wǎng)頁中的超鏈接的HTML文件,通過該超鏈接的HTML 文件可以導(dǎo)向其他的網(wǎng)頁。
[0055] 在本發(fā)明的具體實(shí)施例中,網(wǎng)頁分析算法可以為網(wǎng)絡(luò)拓?fù)涞姆治鏊惴?、基于文?的網(wǎng)頁分析算法或基于用戶訪問行為的分析算法,網(wǎng)絡(luò)爬蟲根據(jù)設(shè)定的網(wǎng)頁分析算法對網(wǎng) 頁中的數(shù)據(jù)進(jìn)行過濾。其中,基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴ㄊ腔诰W(wǎng)頁之間的鏈接,通過已知的 網(wǎng)頁或數(shù)據(jù),來對與其有直接或間接鏈接關(guān)系的對象作出評價的算法,又分為網(wǎng)頁粒度、網(wǎng) 站粒度和網(wǎng)頁塊粒度的分析算法;基于文本的網(wǎng)頁分析算法包括純文本分類與聚類算法和 超文本分類和聚類算法。
[0056] 在本發(fā)明的具體實(shí)施例中,搜索策略可以為深度優(yōu)先搜索策略、廣度優(yōu)先搜索策 略或最佳優(yōu)先搜索策略。其中,深度優(yōu)先搜索是要達(dá)到被搜索結(jié)構(gòu)的葉結(jié)點(diǎn),即不包含任何 超鏈接的HTML文件;廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn) 行下一層次的搜索;最佳優(yōu)先搜索策略按照網(wǎng)頁分析算法,預(yù)測候選HTML文件與目標(biāo)網(wǎng)頁 的相似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個HTML文件進(jìn)行抓取。
[0057] 步驟S45,基于網(wǎng)絡(luò)爬蟲將所述當(dāng)前網(wǎng)頁的數(shù)據(jù)放入普通隊(duì)列中,按照普通隊(duì)列順 序進(jìn)行數(shù)據(jù)處理。
[0058]在本步驟中,如果判斷出當(dāng)前網(wǎng)頁的HTML文件的頭部分沒有快速處理標(biāo)簽,基于 網(wǎng)絡(luò)爬蟲將所述當(dāng)前網(wǎng)頁中需要處理的數(shù)據(jù)放入普通隊(duì)列中,按照普通隊(duì)列順序進(jìn)行數(shù)據(jù) 處理。
[0059] 基于網(wǎng)絡(luò)爬蟲對數(shù)據(jù)進(jìn)行處理的具體方式可參考S44,故在此不贅述。
[0060] 本發(fā)明的實(shí)施例一和實(shí)施例二提供的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法,預(yù) 先定義用于優(yōu)先處理網(wǎng)頁數(shù)據(jù)的快速處理標(biāo)簽,如果當(dāng)前網(wǎng)頁中包含快速處理標(biāo)簽時,則 基于網(wǎng)絡(luò)爬蟲對當(dāng)前網(wǎng)頁優(yōu)先進(jìn)行數(shù)據(jù)處理,從而能夠提高網(wǎng)頁數(shù)據(jù)的處理速度,避免了 現(xiàn)有技術(shù)中對于更新的內(nèi)容和以前的內(nèi)容都采用相同的處理規(guī)則,導(dǎo)致對網(wǎng)頁數(shù)據(jù)處理速 度過慢的問題。
[0061] 實(shí)施例三:
[0062]圖5本發(fā)明的一個具體實(shí)施例中基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理裝置的示意圖。 [0063]如圖5所示,本發(fā)明的裝置包括:
[0064]第一處理模塊51,用于對當(dāng)前網(wǎng)頁進(jìn)行解析,獲取所述當(dāng)前網(wǎng)頁的頁面信息;
[0065]第二處理模塊52,用于如果所述當(dāng)前網(wǎng)頁的頁面信息中包含快速處理標(biāo)簽,則基 于網(wǎng)絡(luò)爬蟲對所述當(dāng)前網(wǎng)頁優(yōu)先進(jìn)行數(shù)據(jù)處理。
[0066]本發(fā)明的裝置還包括:第三處理模塊(未圖示),用于預(yù)先定義快速處理標(biāo)簽,所述 快速處理標(biāo)簽用于標(biāo)識優(yōu)先處理網(wǎng)頁數(shù)據(jù)。
[0067]相較于現(xiàn)有技術(shù),通過第三處理模塊預(yù)先定義快速處理標(biāo)簽,根據(jù)需要將快速處 理標(biāo)簽添加在網(wǎng)頁信息中,從而可以標(biāo)識該網(wǎng)頁具有優(yōu)先處理數(shù)據(jù)的權(quán)利。在本發(fā)明的具 體實(shí)施例中,可以對HTML文件的頭部分進(jìn)行擴(kuò)展,增加一個元素,用以放置快速處理標(biāo)簽, 快速處理標(biāo)簽可以采用數(shù)值或字母表示,當(dāng)然也可以是其他的形式,在本發(fā)明中不做具體 的限制。
[0068]第一處理模塊51,具體用于:對當(dāng)前網(wǎng)頁執(zhí)行抓取操作,對當(dāng)前網(wǎng)頁的HTML進(jìn)行解 析,得到該當(dāng)前網(wǎng)頁的頁面信息。
[0069]第二處理模塊52,具體用于:判斷在當(dāng)前網(wǎng)頁的HTML文件的頭部分是否包含快速 處理標(biāo)簽;如果判斷出當(dāng)前網(wǎng)頁的HTML文件的頭部分包含快速處理標(biāo)簽,基于網(wǎng)絡(luò)爬蟲將 所述當(dāng)前網(wǎng)頁中需要處理的數(shù)據(jù)放入優(yōu)先隊(duì)列中,按照優(yōu)先隊(duì)列順序進(jìn)行數(shù)據(jù)處理;如果 判斷出當(dāng)前網(wǎng)頁的HTML頭部分沒有快速處理標(biāo)簽,基于網(wǎng)絡(luò)爬蟲將所述當(dāng)前網(wǎng)頁中需要處 理的數(shù)據(jù)放入普通隊(duì)列中,按照普通隊(duì)列順序進(jìn)行數(shù)據(jù)處理。
[0070]相較于現(xiàn)有技術(shù),在本發(fā)明具體實(shí)施例中,在普通隊(duì)列的基礎(chǔ)上增加了優(yōu)先隊(duì)列, 在數(shù)據(jù)處理時,優(yōu)先隊(duì)列中的數(shù)據(jù)比普通隊(duì)列的數(shù)據(jù)將進(jìn)行優(yōu)先處理。網(wǎng)絡(luò)爬蟲根據(jù)設(shè)定 的網(wǎng)頁分析算法對網(wǎng)頁中的數(shù)據(jù)進(jìn)行過濾,保留爬行范圍受控的需要處理的有用數(shù)據(jù)放到 優(yōu)先隊(duì)列中,通過設(shè)定的搜索策略從優(yōu)先隊(duì)列中選擇要網(wǎng)頁進(jìn)行數(shù)據(jù)處理。
[0071 ]網(wǎng)頁分析算法和搜索策略可以參考實(shí)施例二的步驟S44,故在此不贅述。
[0072]本發(fā)明的實(shí)施例三提供的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理裝置,通過預(yù)先定義用 于優(yōu)先處理網(wǎng)頁數(shù)據(jù)的快速處理標(biāo)簽,如果當(dāng)前網(wǎng)頁中包含快速處理標(biāo)簽時,則基于網(wǎng)絡(luò) 爬蟲對當(dāng)前網(wǎng)頁優(yōu)先進(jìn)行數(shù)據(jù)處理,從而能夠提高網(wǎng)頁數(shù)據(jù)的處理速度,避免了現(xiàn)有技術(shù) 中對于更新的內(nèi)容和以前的內(nèi)容都采用相同的處理規(guī)則,導(dǎo)致對網(wǎng)頁數(shù)據(jù)處理速度過慢的 問題。
[0073]以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可 以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單 元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其 中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性 的勞動的情況下,即可以理解并實(shí)施。
[0074] 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可 借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件?;谶@樣的理解,上 述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該 計(jì)算機(jī)軟件產(chǎn)品可以存儲在計(jì)算機(jī)可讀存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指 令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個實(shí)施 例或者實(shí)施例的某些部分所述的方法。
[0075] 最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管 參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可 以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換; 而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和 范圍。
【主權(quán)項(xiàng)】
1. 一種基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法,其特征在于,包括: 對當(dāng)前網(wǎng)頁進(jìn)行解析,獲取所述當(dāng)前網(wǎng)頁的頁面信息; 如果所述當(dāng)前網(wǎng)頁的頁面信息中包含快速處理標(biāo)簽,則基于網(wǎng)絡(luò)爬蟲對所述當(dāng)前網(wǎng)頁 優(yōu)先進(jìn)行數(shù)據(jù)處理。2. 根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法,其特征在于,所述方 法還包括: 預(yù)先定義快速處理標(biāo)簽,所述快速處理標(biāo)簽用于標(biāo)識優(yōu)先處理網(wǎng)頁數(shù)據(jù)。3. 根據(jù)權(quán)利要求2所述的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法,其特征在于,所述當(dāng) 前網(wǎng)頁采用HTML文件;所述快速處理標(biāo)簽添加在所述HTML文件的頭部分。4. 根據(jù)權(quán)利要求3所述的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法,其特征在于,所述方 法還包括: 判斷在所述當(dāng)前網(wǎng)頁的HTML文件的頭部分是否包含快速處理標(biāo)簽。5. 根據(jù)權(quán)利要求4所述的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法,其特征在于,所述如 果所述當(dāng)前網(wǎng)頁的頁面信息中包含快速處理標(biāo)簽,則基于網(wǎng)絡(luò)爬蟲對所述當(dāng)前網(wǎng)頁優(yōu)先進(jìn) 行數(shù)據(jù)處理的步驟包括: 如果判斷出當(dāng)前網(wǎng)頁的HTML文件的頭部分包含快速處理標(biāo)簽,基于網(wǎng)絡(luò)爬蟲將所述當(dāng) 前網(wǎng)頁中需要處理的數(shù)據(jù)放入優(yōu)先隊(duì)列中,按照優(yōu)先隊(duì)列順序進(jìn)行數(shù)據(jù)處理。6. 根據(jù)權(quán)利要求4所述的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理的方法,其特征在于,所述方 法還包括: 如果判斷出當(dāng)前網(wǎng)頁的HTML頭部分沒有快速處理標(biāo)簽,基于網(wǎng)絡(luò)爬蟲將所述當(dāng)前網(wǎng)頁 中需要處理的數(shù)據(jù)放入普通隊(duì)列中,按照普通隊(duì)列順序進(jìn)行數(shù)據(jù)處理。7. -種基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理裝置,其特征在于,包括: 第一處理模塊,用于對當(dāng)前網(wǎng)頁進(jìn)行解析,獲取所述當(dāng)前網(wǎng)頁的頁面信息; 第二處理模塊,用于如果所述當(dāng)前網(wǎng)頁的頁面信息中包含快速處理標(biāo)簽,則基于網(wǎng)絡(luò) 爬蟲對所述當(dāng)前網(wǎng)頁優(yōu)先進(jìn)行數(shù)據(jù)處理。8. 根據(jù)權(quán)利要求7所述的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理裝置,其特征在于,所述裝置 還包括: 第三處理模塊,用于預(yù)先定義快速處理標(biāo)簽,所述快速處理標(biāo)簽用于標(biāo)識優(yōu)先處理網(wǎng) 頁數(shù)據(jù)。9. 根據(jù)權(quán)利要求8所述的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理裝置,其特征在于,所述當(dāng)前 網(wǎng)頁采用HTML文件;所述快速處理標(biāo)簽添加在所述HTML文件的頭部分。10. 根據(jù)權(quán)利要求9所述的基于網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)數(shù)據(jù)快速處理裝置,其特征在于,所述第 二處理模塊,具體用于: 判斷在所述當(dāng)前網(wǎng)頁的HTML文件的頭部分是否包含快速處理標(biāo)簽; 如果判斷出當(dāng)前網(wǎng)頁的HTML文件的頭部分包含快速處理標(biāo)簽,基于網(wǎng)絡(luò)爬蟲將所述當(dāng) 前網(wǎng)頁中需要處理的數(shù)據(jù)放入優(yōu)先隊(duì)列中,按照優(yōu)先隊(duì)列順序進(jìn)行數(shù)據(jù)處理。
【文檔編號】G06F17/30GK105912547SQ201510938570
【公開日】2016年8月31日
【申請日】2015年12月15日
【發(fā)明人】尹斐
【申請人】樂視網(wǎng)信息技術(shù)(北京)股份有限公司