国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于分布式網(wǎng)絡(luò)數(shù)據(jù)定向采集的方法

      文檔序號(hào):9455743閱讀:592來(lái)源:國(guó)知局
      一種基于分布式網(wǎng)絡(luò)數(shù)據(jù)定向采集的方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于網(wǎng)頁(yè)采集技術(shù)領(lǐng)域,具體涉及一種基于分布式網(wǎng)絡(luò)數(shù)據(jù)定向采集的方法。
      【背景技術(shù)】
      [0002]隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)信息每時(shí)每刻都在不間斷的增長(zhǎng),在眾多的網(wǎng)頁(yè)中采集一定需求的網(wǎng)絡(luò)數(shù)據(jù)將變的十分復(fù)雜。要在眾多繁雜的網(wǎng)頁(yè)進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)定向采集,會(huì)遇到以下幾個(gè)問(wèn)題:
      [0003]抓取過(guò)程中,抓取網(wǎng)頁(yè)數(shù)量巨大。
      [0004]抓取過(guò)程中,網(wǎng)頁(yè)更新數(shù)量巨大,一般的網(wǎng)站,比如新聞,電子商務(wù)網(wǎng)站,頁(yè)面基本是實(shí)時(shí)更新。
      [0005]抓取過(guò)程中,大部分的網(wǎng)頁(yè)都是動(dòng)態(tài)的,多媒體等非常規(guī)數(shù)據(jù)采集。

      【發(fā)明內(nèi)容】

      [0006]本發(fā)明的目的是提供一種基于分布式網(wǎng)絡(luò)數(shù)據(jù)定向采集的方法,解決了現(xiàn)有網(wǎng)絡(luò)數(shù)據(jù)中網(wǎng)頁(yè)數(shù)量巨大、網(wǎng)頁(yè)更新數(shù)量巨大且更新頻率快、網(wǎng)頁(yè)中部分?jǐn)?shù)據(jù)為動(dòng)態(tài)加載導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)無(wú)法正常采集的問(wèn)題。
      [0007]本發(fā)明所采用的技術(shù)方案是,一種基于分布式網(wǎng)絡(luò)數(shù)據(jù)定向采集的方法,具體按照以下步驟:
      [0008]步驟1、確定需要采集的URL;
      [0009]步驟2、針對(duì)步驟I中要采集的URL進(jìn)行分析,根據(jù)采集數(shù)據(jù)的格式制定網(wǎng)絡(luò)數(shù)據(jù)采集策略,將采集策略進(jìn)行配置,降低了待采集的URL數(shù)量;
      [0010]步驟3、根據(jù)步驟2得到的降低后的待采集的URL,利用內(nèi)存數(shù)據(jù)庫(kù)完成數(shù)據(jù)的采集。
      [0011]本發(fā)明的特點(diǎn)還在于:
      [0012]步驟2根據(jù)采集數(shù)據(jù)的格式制定網(wǎng)絡(luò)數(shù)據(jù)采集策略,將采集策略進(jìn)行配置,具體為:根據(jù)網(wǎng)站的URL特征,選出需要采集的類型的網(wǎng)頁(yè);或者根據(jù)需要采集的URL的正則表達(dá)式;或者獲得不需要采集的URL的正則表達(dá)式。
      [0013]步驟3中內(nèi)存數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)包括為:
      [0014]待采集隊(duì)列模塊:將需要采集的URL信息放入待采集隊(duì)列中,方便調(diào)度模塊從隊(duì)列中抽取URL信息;
      [0015]已采集集合模塊:記錄已經(jīng)采集的頁(yè)面數(shù)據(jù)項(xiàng)及其采集的時(shí)間,并根據(jù)配置的入庫(kù)方式,將采集的數(shù)據(jù)項(xiàng)存入相應(yīng)的數(shù)據(jù)庫(kù)中;
      [0016]調(diào)度模塊:主要是對(duì)待采集的URL隊(duì)列進(jìn)行采集調(diào)度,根據(jù)配置的采集策略確定數(shù)據(jù)采集的優(yōu)先級(jí),將采集的數(shù)據(jù)內(nèi)容放入已采集集合中;
      [0017]采集模塊:主要從待采集隊(duì)列中讀取URL,根據(jù)獲取的數(shù)據(jù)采集規(guī)則對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行采集,其中采集的內(nèi)容包括需要精確采集的數(shù)據(jù)項(xiàng),和頁(yè)面中包含的待采集的URL。
      [0018]步驟3利用內(nèi)存數(shù)據(jù)庫(kù)完成數(shù)據(jù)的采集,具體為:
      [0019]步驟3.1、將步驟2降低后的待采集的URL放入到待采集隊(duì)列模塊中;
      [0020]步驟3.2、調(diào)度模塊從步驟3.1的待采集隊(duì)列模塊中選取URL,然后放入到采集模塊中;
      [0021]步驟3.3、通過(guò)URL對(duì)網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)請(qǐng)求,獲取網(wǎng)頁(yè)內(nèi)容,獲取頁(yè)面內(nèi)容后,采集模塊根據(jù)配置文件中配置的數(shù)據(jù)采集規(guī)則,對(duì)頁(yè)面內(nèi)容進(jìn)行精準(zhǔn)定位,獲取準(zhǔn)確的采集數(shù)據(jù)項(xiàng);同時(shí)采集模塊會(huì)對(duì)該頁(yè)面中包含的待采集的URL信息進(jìn)行采集;
      [0022]步驟3.4、將步驟3.3的采集結(jié)果返回到調(diào)度模塊中,將從頁(yè)面內(nèi)容中獲取的精準(zhǔn)數(shù)據(jù)項(xiàng)內(nèi)容放入到已采集集合模塊中,根據(jù)配置文件中定義的采集數(shù)據(jù)入庫(kù)方式,將采集至IJ的精準(zhǔn)的數(shù)據(jù)項(xiàng)內(nèi)容存入相應(yīng)的數(shù)據(jù)庫(kù)中,并在已采集集合模塊中記錄已經(jīng)采集的頁(yè)面數(shù)據(jù)項(xiàng)及采集的時(shí)間;從頁(yè)面內(nèi)容中獲取的待采集的URL信息放入待采集隊(duì)列中;
      [0023]步驟3.5、完成一個(gè)URL的頁(yè)面采集后,調(diào)度模塊將繼續(xù)從待采集隊(duì)列模塊中抽取URL進(jìn)行相應(yīng)的網(wǎng)頁(yè)數(shù)據(jù)采集,一直到待采集隊(duì)列為空時(shí),表示所有的URL采集完成,即完成網(wǎng)站數(shù)據(jù)的定向采集。
      [0024]步驟3.3中獲取網(wǎng)頁(yè)內(nèi)容時(shí),如果網(wǎng)頁(yè)內(nèi)容中包含動(dòng)態(tài)加載的信息,可以使用webkit模擬瀏覽器完成頁(yè)面信息的動(dòng)態(tài)加載。
      [0025]內(nèi)存數(shù)據(jù)庫(kù)存儲(chǔ)或者訪問(wèn)速度遇到瓶頸時(shí),增大內(nèi)存數(shù)據(jù)庫(kù)集群數(shù)和采集集群數(shù)量。
      [0026]本發(fā)明的有益效果是:本發(fā)明一種基于分布式網(wǎng)絡(luò)數(shù)據(jù)定向采集的方法,通過(guò)分布式的方式解決了現(xiàn)有網(wǎng)絡(luò)數(shù)據(jù)中網(wǎng)頁(yè)數(shù)量巨大、網(wǎng)頁(yè)更新數(shù)量巨大且更新頻率快、網(wǎng)頁(yè)中部分?jǐn)?shù)據(jù)為動(dòng)態(tài)加載導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)無(wú)法正常采集的問(wèn)題,提升網(wǎng)絡(luò)數(shù)據(jù)采集效率,定制采集策略完成網(wǎng)絡(luò)數(shù)據(jù)定向采集。
      【附圖說(shuō)明】
      [0027]圖1是本發(fā)明一種基于分布式網(wǎng)絡(luò)數(shù)據(jù)定向采集的方法的流程圖。
      【具體實(shí)施方式】
      [0028]下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
      [0029]本發(fā)明一種基于分布式網(wǎng)絡(luò)數(shù)據(jù)定向采集的方法,流程如圖1所示,具體按照以下步驟:
      [0030]步驟1、確定需要采集的URL;
      [0031]步驟2、針對(duì)步驟I中要采集的URL進(jìn)行分析,根據(jù)采集數(shù)據(jù)的格式制定網(wǎng)絡(luò)數(shù)據(jù)采集策略,將采集策略進(jìn)行配置,對(duì)于定向抓取,一般的網(wǎng)站的URL有一定的特征,比如可能僅僅關(guān)心.html,.htm,.asp,.aspx,.php,.jsp,.jspx類型的網(wǎng)頁(yè);或者是如果可以得到目標(biāo)網(wǎng)站的正則,則可以大大的降低抓取的數(shù)量;又或者存在不用關(guān)心某一類網(wǎng)頁(yè),通過(guò)URL的正則能極大的降低抓取數(shù)量,具體為:根據(jù)網(wǎng)站的URL特征,選出需要采集的類型的網(wǎng)頁(yè);或者根據(jù)需要采集的URL的正則表達(dá)式;或者獲得不需要采集的URL的正則表達(dá)式,降低了待采集的URL數(shù)量;
      [0032]步驟3、根據(jù)步驟2得到的降低后的待采集的URL,利用內(nèi)存數(shù)據(jù)庫(kù)完成數(shù)據(jù)的采集,使用分布式的存儲(chǔ)方式來(lái)提供下載存儲(chǔ)的性能,分布式使用內(nèi)存數(shù)據(jù)庫(kù)實(shí)現(xiàn),內(nèi)存數(shù)據(jù)庫(kù)中存儲(chǔ)了工程的request,stats信息,能夠?qū)Ω鱾€(gè)機(jī)器上的采集實(shí)現(xiàn)集中管理,這樣可以解決采集的性能瓶頸,利用內(nèi)存數(shù)據(jù)庫(kù)的高效和易于擴(kuò)展能夠輕松實(shí)現(xiàn)高效率下載:當(dāng)內(nèi)存數(shù)據(jù)庫(kù)存儲(chǔ)或者訪問(wèn)速度遇到瓶頸時(shí),增大內(nèi)存數(shù)據(jù)庫(kù)集群數(shù)和采集集群數(shù)量。
      [0033]其中,內(nèi)存數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)包括為:
      [0034]待采集隊(duì)列模塊:將需要采集的URL信息放入待采集隊(duì)列中,方便調(diào)度模塊從隊(duì)列中抽取URL信息;
      [0035]已采集集合模塊:記錄已經(jīng)采集的頁(yè)面數(shù)據(jù)項(xiàng)及其采集的時(shí)間,并根據(jù)配置的入庫(kù)方式,將采集的數(shù)據(jù)項(xiàng)存入相應(yīng)的數(shù)據(jù)庫(kù)中;
      [0036]調(diào)度模塊:主要是對(duì)待采集的URL隊(duì)列進(jìn)行采集調(diào)度,根
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1