国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)絡(luò)數(shù)據(jù)爬取方法和裝置與流程

      文檔序號(hào):12666645閱讀:308來(lái)源:國(guó)知局
      一種網(wǎng)絡(luò)數(shù)據(jù)爬取方法和裝置與流程

      本發(fā)明實(shí)施例涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)數(shù)據(jù)爬取方法和裝置。



      背景技術(shù):

      隨著科技的發(fā)展,互聯(lián)網(wǎng)技術(shù)在人們的生活中使用的越來(lái)越多,人們可以利用互聯(lián)網(wǎng)的搜索引擎瀏覽不同網(wǎng)站的數(shù)據(jù),這就需要搜索引擎能夠爬取到不同網(wǎng)站的數(shù)據(jù),搜索引擎主要通過網(wǎng)絡(luò)爬蟲進(jìn)行爬取數(shù)據(jù)。網(wǎng)絡(luò)爬蟲是搜索引擎抓取系統(tǒng)的重要組成部分,爬蟲的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地形成一個(gè)或聯(lián)網(wǎng)內(nèi)容的鏡像備份。

      現(xiàn)有技術(shù)中,網(wǎng)絡(luò)爬蟲一般會(huì)駐留在服務(wù)器上,通過給定的URL(Uniform Resource Locator,統(tǒng)一資源定位符),利用HTTP(HyperText Transfer Protocol,超文本傳輸協(xié)議)等標(biāo)準(zhǔn)協(xié)議讀取相應(yīng)文檔,獲取相應(yīng)的數(shù)據(jù)。由于網(wǎng)站會(huì)通過Robots協(xié)議即網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)協(xié)議(Robots Exclusion Protocol)告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。Robots協(xié)議的本質(zhì)是網(wǎng)站和搜索引擎爬蟲的溝通方式,用來(lái)指導(dǎo)搜索引擎更好地抓取網(wǎng)站內(nèi)容,而不是作為搜索引擎之間互相限制和不正當(dāng)競(jìng)爭(zhēng)的工具。因此,網(wǎng)站可以通過建立反爬蟲機(jī)制限制網(wǎng)絡(luò)爬蟲爬取網(wǎng)站的全部或部分?jǐn)?shù)據(jù),或?qū)е略S多正常爬取的數(shù)據(jù)爬取失敗。



      技術(shù)實(shí)現(xiàn)要素:

      針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明實(shí)施例提供本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)爬取方法和裝置。

      一方面,本發(fā)明實(shí)施例提供本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)爬取方法,包括:

      通過網(wǎng)頁(yè)測(cè)試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;

      根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),通過所述網(wǎng)頁(yè)測(cè)試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息;

      分別對(duì)獲取到的所述頁(yè)面信息進(jìn)行分析,根據(jù)所述目標(biāo)數(shù)據(jù)標(biāo)簽獲取對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      另一方面,本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)數(shù)據(jù)爬取裝置,包括:

      瀏覽器打開單元,用于通過網(wǎng)頁(yè)測(cè)試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;

      頁(yè)面信息獲取單元,用于根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),通過所述網(wǎng)頁(yè)測(cè)試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息;

      目標(biāo)數(shù)據(jù)獲取單元,用于分別對(duì)獲取到的所述頁(yè)面信息進(jìn)行分析,根據(jù)所述目標(biāo)數(shù)據(jù)標(biāo)簽獲取對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法和裝置,通過控制瀏覽器對(duì)待爬取數(shù)據(jù)的網(wǎng)站進(jìn)行瀏覽,并采用網(wǎng)頁(yè)測(cè)試工具即selenium模擬用戶瀏覽網(wǎng)站,可以很好的避免因網(wǎng)站反爬機(jī)制造成數(shù)據(jù)爬取失敗的問題,提高了網(wǎng)絡(luò)數(shù)據(jù)爬取的成功率。

      附圖說明

      為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1為本發(fā)明實(shí)施例中網(wǎng)絡(luò)數(shù)據(jù)爬取方法流程示意圖;

      圖2為本發(fā)明實(shí)施例中網(wǎng)絡(luò)數(shù)據(jù)爬取裝置的結(jié)構(gòu)示意圖;

      圖3為本發(fā)明實(shí)施例中又一網(wǎng)絡(luò)數(shù)據(jù)爬取裝置的結(jié)構(gòu)示意圖。

      具體實(shí)施方式

      為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

      圖1為本發(fā)明實(shí)施例中網(wǎng)絡(luò)數(shù)據(jù)爬取方法流程示意圖,如圖1所示,本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法包括:

      S1、通過網(wǎng)頁(yè)測(cè)試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;

      具體地,本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取裝置,可以通過網(wǎng)頁(yè)測(cè)試工具以下簡(jiǎn)稱selenium打開瀏覽器,輸入U(xiǎn)RL后可以打開對(duì)應(yīng)的待爬取數(shù)據(jù)的網(wǎng)站。如若需要爬取網(wǎng)站A中的數(shù)據(jù),則通過selenium打開對(duì)應(yīng)的瀏覽器如IE瀏覽器,并輸入網(wǎng)站A的URL,即可打開網(wǎng)站A。

      S2、根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),通過所述網(wǎng)頁(yè)測(cè)試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息;

      具體地,通過selenium打開對(duì)應(yīng)的網(wǎng)站后,根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),通過selenium模擬用戶瀏覽網(wǎng)站,依次打開網(wǎng)站上目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu)對(duì)應(yīng)的網(wǎng)頁(yè),再根據(jù)目標(biāo)數(shù)據(jù)標(biāo)簽獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息。

      S3、分別對(duì)獲取到的所述頁(yè)面信息進(jìn)行分析,根據(jù)所述目標(biāo)數(shù)據(jù)標(biāo)簽獲取對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      具體地,分別對(duì)獲取的目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的頁(yè)面信息進(jìn)行分析,獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的的目標(biāo)數(shù)據(jù)。需要說明的是,可以獲取到目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的一頁(yè)網(wǎng)頁(yè)的頁(yè)面信息后,即對(duì)該頁(yè)面信息進(jìn)行分析,獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù),也可以將目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息都獲取到后,再分別分析每一頁(yè)網(wǎng)頁(yè)的頁(yè)面信息,獲取標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù),本發(fā)明實(shí)施例不作具體限定。

      例如:用戶需要爬取網(wǎng)站A的B品牌電飯煲的數(shù)據(jù),即目標(biāo)數(shù)據(jù)標(biāo)簽為B品牌電飯煲。通過selenium打開瀏覽器后,輸入網(wǎng)站A的URL,打開網(wǎng)站A。預(yù)設(shè)設(shè)置好目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu)為家用電器-B品牌-電飯煲。通過selenium可以模擬用戶瀏覽網(wǎng)站A,依次點(diǎn)擊網(wǎng)站A中的家用電器對(duì)應(yīng)的欄目、B品牌對(duì)應(yīng)的欄目和電飯煲對(duì)應(yīng)的欄目,獲取到目標(biāo)數(shù)據(jù)標(biāo)簽即B品牌電飯煲對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息。因?yàn)榫W(wǎng)頁(yè)上可能還有其他的數(shù)據(jù),通過對(duì)獲取到的頁(yè)面信息的分析,獲取目標(biāo)數(shù)據(jù)標(biāo)簽即B品牌電飯煲對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法,通過控制瀏覽器對(duì)待爬取數(shù)據(jù)的網(wǎng)站進(jìn)行瀏覽,并采用selenium模擬用戶瀏覽網(wǎng)站,可以很好的避免因網(wǎng)站反爬機(jī)制造成數(shù)據(jù)爬取失敗的問題,提高了網(wǎng)絡(luò)數(shù)據(jù)爬取的成功率。

      在上述實(shí)施例的基礎(chǔ)上,所述通過所述網(wǎng)頁(yè)測(cè)試工具模擬用戶瀏覽所述網(wǎng)站,包括:

      通過所述網(wǎng)頁(yè)測(cè)試工具模擬點(diǎn)擊頁(yè)面跳轉(zhuǎn)按鈕、模擬頁(yè)面下拉條的滾動(dòng)和模擬欄目的點(diǎn)擊操作,實(shí)現(xiàn)模擬用戶瀏覽所述網(wǎng)站。

      具體地,在通過selenium模擬用戶瀏覽網(wǎng)站時(shí),可以通過selenium控制瀏覽器獲取到網(wǎng)站上的頁(yè)面跳轉(zhuǎn)按鈕、頁(yè)面下拉條以及網(wǎng)站上對(duì)應(yīng)的欄目塊,模擬對(duì)應(yīng)的點(diǎn)擊操作,具體可以模擬點(diǎn)擊頁(yè)面跳轉(zhuǎn)按鈕、模擬頁(yè)面下拉條的滾動(dòng)和模擬欄目的點(diǎn)擊操作,實(shí)現(xiàn)模擬用戶瀏覽網(wǎng)站。如:可以模擬用戶點(diǎn)擊頁(yè)面跳轉(zhuǎn)按鈕進(jìn)行翻頁(yè),即點(diǎn)擊上一頁(yè)或下一頁(yè)按鈕,模擬用戶將網(wǎng)頁(yè)的下拉條下拉,還可以模擬用戶點(diǎn)擊網(wǎng)頁(yè)上的某個(gè)欄目如家用電器欄目等,以實(shí)現(xiàn)智能模擬人為操作。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法,通過模擬用戶瀏覽網(wǎng)站時(shí)的具體操作,很好的避免因網(wǎng)站反爬機(jī)制造成數(shù)據(jù)爬取失敗的問題,提高了網(wǎng)絡(luò)數(shù)據(jù)爬取的成功率。本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法,無(wú)需考慮網(wǎng)站反爬機(jī)制及動(dòng)態(tài)呈現(xiàn)的方式,針對(duì)所有http協(xié)議的網(wǎng)站,無(wú)需采用正則匹配html標(biāo)簽,都可以通過瀏覽器模擬用戶瀏覽網(wǎng)站的方式,獲取到目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息,在對(duì)獲取到的頁(yè)面信息進(jìn)行分析,即可獲得目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。克服了傳統(tǒng)的數(shù)據(jù)爬取無(wú)法針對(duì)多個(gè)網(wǎng)站,每個(gè)網(wǎng)站的爬取均需要以網(wǎng)站的特點(diǎn)、反爬機(jī)制及動(dòng)態(tài)數(shù)據(jù)呈現(xiàn)的方式定制爬蟲程序編寫的困難。

      在上述實(shí)施例的基礎(chǔ)上,所述獲取所述網(wǎng)站上目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息,包括:

      根據(jù)所述目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),打開對(duì)應(yīng)的網(wǎng)頁(yè),獲取所述目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息,若判斷獲知所述網(wǎng)頁(yè)不是所述目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的最后一頁(yè)網(wǎng)頁(yè),則模擬所述點(diǎn)擊頁(yè)面跳轉(zhuǎn)按鈕,點(diǎn)擊下一頁(yè),獲取下一頁(yè)網(wǎng)頁(yè)的頁(yè)面信息。

      具體地,當(dāng)通過selenium模擬用戶瀏覽網(wǎng)站時(shí),根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),打開對(duì)應(yīng)的網(wǎng)頁(yè),獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息。判斷當(dāng)前網(wǎng)頁(yè)是否是目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的最后一頁(yè)網(wǎng)頁(yè),若不是最后一頁(yè),則控制瀏覽器獲取頁(yè)面跳轉(zhuǎn)按鈕,并模擬點(diǎn)擊操作,點(diǎn)擊下一頁(yè),獲取下一頁(yè)的頁(yè)面信息。若當(dāng)前網(wǎng)頁(yè)是目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的最后一頁(yè)網(wǎng)頁(yè),則退出??梢栽诖蜷_一頁(yè)網(wǎng)頁(yè)獲取到該網(wǎng)頁(yè)的頁(yè)面信息后,即對(duì)該網(wǎng)頁(yè)的頁(yè)面信息進(jìn)行分析,獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      例如:用戶需要爬取網(wǎng)站A的B品牌電飯煲的數(shù)據(jù),即目標(biāo)數(shù)據(jù)標(biāo)簽為B品牌電飯煲。通過selenium打開瀏覽器后,輸入網(wǎng)站A的URL,打開網(wǎng)站A。預(yù)設(shè)設(shè)置好目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu)為家用電器-B品牌-電飯煲。通過selenium可以模擬用戶瀏覽網(wǎng)站A,依次點(diǎn)擊網(wǎng)站A中的家用電器對(duì)應(yīng)的欄目、B品牌對(duì)應(yīng)的欄目和電飯煲對(duì)應(yīng)的欄目,最后獲得B品牌電飯煲對(duì)應(yīng)的網(wǎng)頁(yè)。若B品牌電飯煲對(duì)應(yīng)的網(wǎng)頁(yè)有3頁(yè),則首先打開的是第一頁(yè)網(wǎng)頁(yè),獲取到第一頁(yè)網(wǎng)頁(yè)的頁(yè)面信息后,對(duì)該頁(yè)面信息進(jìn)行分析,獲取B品牌電飯煲對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。判斷獲知第一頁(yè)網(wǎng)頁(yè)不是最后一頁(yè),則通過selenium模擬點(diǎn)擊該網(wǎng)頁(yè)中的下一頁(yè)按鈕,頁(yè)面跳轉(zhuǎn)到第二頁(yè)網(wǎng)頁(yè),同樣的獲取第二頁(yè)網(wǎng)頁(yè)的頁(yè)面信息后,對(duì)該頁(yè)面信息進(jìn)行分析,獲取B品牌電飯煲對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。判斷獲知第二頁(yè)網(wǎng)頁(yè)不是最后一頁(yè)網(wǎng)頁(yè),則通過selenium模擬點(diǎn)擊該網(wǎng)頁(yè)中的下一頁(yè)按鈕,頁(yè)面跳轉(zhuǎn)到第三頁(yè)網(wǎng)頁(yè),同樣的獲取第三頁(yè)網(wǎng)頁(yè)的頁(yè)面信息后,對(duì)該頁(yè)面信息進(jìn)行分析,獲取B品牌電飯煲對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。最后判斷第三頁(yè)網(wǎng)頁(yè)中沒有下一頁(yè)按鈕,即第三頁(yè)網(wǎng)頁(yè)是B品牌電飯煲對(duì)應(yīng)的最后一頁(yè)網(wǎng)頁(yè),則退出,B品牌電飯煲的目標(biāo)數(shù)據(jù)的抓取結(jié)束。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法,通過模擬用戶瀏覽網(wǎng)站時(shí)的具體操作,一頁(yè)頁(yè)的打開目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè),獲取網(wǎng)頁(yè)對(duì)應(yīng)的頁(yè)面信息,并通過判斷打開的當(dāng)前網(wǎng)頁(yè)是否是最后一頁(yè)網(wǎng)頁(yè),實(shí)施是否點(diǎn)擊下一頁(yè)的頁(yè)面跳轉(zhuǎn)按鈕,實(shí)現(xiàn)翻頁(yè)的功能,智能真實(shí)的模擬用戶瀏覽網(wǎng)站的具體操作??梢院芎玫谋苊庖蚓W(wǎng)站反爬機(jī)制造成數(shù)據(jù)爬取失敗的問題,提高了網(wǎng)絡(luò)數(shù)據(jù)爬取的成功率。不需要有經(jīng)驗(yàn)的網(wǎng)絡(luò)爬蟲工程師對(duì)網(wǎng)站進(jìn)行分析,只需定義好目標(biāo)數(shù)據(jù)的標(biāo)簽層次即目標(biāo)數(shù)據(jù)的網(wǎng)頁(yè)結(jié)構(gòu),即可實(shí)現(xiàn)獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息,不需要安裝大型軟件,不需要復(fù)雜的操作,操作簡(jiǎn)單,節(jié)約了網(wǎng)絡(luò)數(shù)據(jù)爬取的人力物力成本及時(shí)間成本。

      在上述實(shí)施例的基礎(chǔ)上,所述方法還包括:預(yù)先設(shè)置在每一頁(yè)網(wǎng)頁(yè)的停留時(shí)間。

      具體地,在通過selenium模擬用戶瀏覽網(wǎng)站時(shí),根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),打開對(duì)應(yīng)的網(wǎng)頁(yè),可以根據(jù)預(yù)先設(shè)置的在每一頁(yè)網(wǎng)頁(yè)的停留時(shí)間,控制瀏覽器在當(dāng)前網(wǎng)頁(yè)進(jìn)行停留一定的時(shí)間,以獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息,并對(duì)該頁(yè)面信息進(jìn)行分析,獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法,通過預(yù)先設(shè)置瀏覽網(wǎng)站的網(wǎng)頁(yè)時(shí),在每一頁(yè)網(wǎng)頁(yè)的停留時(shí)間,以獲取每一頁(yè)目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息,并獲取頁(yè)面信息中目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù),使得爬取的網(wǎng)絡(luò)數(shù)據(jù)更加完整和準(zhǔn)確。

      在上述實(shí)施例的基礎(chǔ)上,所述方法還包括:若判斷獲知所述網(wǎng)頁(yè)出現(xiàn)異常,則模擬刷新頁(yè)面操作。

      具體地,在通過selenium模擬用戶瀏覽網(wǎng)站時(shí),根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),打開對(duì)應(yīng)的網(wǎng)頁(yè),若判斷獲知打開的當(dāng)前網(wǎng)頁(yè)出現(xiàn)異常如:網(wǎng)頁(yè)內(nèi)容為空或網(wǎng)頁(yè)網(wǎng)址出現(xiàn)錯(cuò)誤等,則可以通過selenium控制瀏覽器模擬刷新頁(yè)面操作,實(shí)現(xiàn)網(wǎng)頁(yè)的頁(yè)面刷新,使得網(wǎng)頁(yè)頁(yè)面恢復(fù)正常。當(dāng)然判斷網(wǎng)頁(yè)出現(xiàn)異常,還可以是其他異常方式,本發(fā)明實(shí)施例不作具體限定。

      此外,本發(fā)明實(shí)施例還可以采用虛擬顯示器,用來(lái)在爬蟲服務(wù)器即本發(fā)明實(shí)施例中的網(wǎng)絡(luò)數(shù)據(jù)爬取裝置上運(yùn)行瀏覽器,實(shí)現(xiàn)爬取目標(biāo)網(wǎng)站在瀏覽器上加載。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法,通過模擬用戶瀏覽網(wǎng)站時(shí)的具體操作,打開目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè),獲取網(wǎng)頁(yè)對(duì)應(yīng)的頁(yè)面信息,并通過判斷打開的當(dāng)前網(wǎng)頁(yè)是否是最后一頁(yè)網(wǎng)頁(yè),實(shí)施是否點(diǎn)擊下一頁(yè)的頁(yè)面跳轉(zhuǎn)按鈕,實(shí)現(xiàn)翻頁(yè)的功能,并能夠在判斷網(wǎng)頁(yè)出現(xiàn)異常后,模擬刷新網(wǎng)頁(yè)頁(yè)面操作,智能真實(shí)的模擬用戶瀏覽網(wǎng)站的具體操作??梢院芎玫谋苊庖蚓W(wǎng)站反爬機(jī)制造成數(shù)據(jù)爬取失敗的問題,提高了網(wǎng)絡(luò)數(shù)據(jù)爬取的成功率和網(wǎng)絡(luò)數(shù)據(jù)爬取的完整性。同時(shí),操作簡(jiǎn)單,節(jié)約了網(wǎng)絡(luò)數(shù)據(jù)爬取的人力物力成本及時(shí)間成本。

      圖2為本發(fā)明實(shí)施例中網(wǎng)絡(luò)數(shù)據(jù)爬取裝置的結(jié)構(gòu)示意圖,如圖2所示,本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取裝置包括:瀏覽器打開單元21、頁(yè)面信息獲取單元22和目標(biāo)數(shù)據(jù)獲取單元23,其中:

      瀏覽器打開單元21用于通過網(wǎng)頁(yè)測(cè)試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;頁(yè)面信息獲取單元22用于根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),通過所述網(wǎng)頁(yè)測(cè)試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息;目標(biāo)數(shù)據(jù)獲取單元23用于分別對(duì)獲取到的所述頁(yè)面信息進(jìn)行分析,根據(jù)所述目標(biāo)數(shù)據(jù)標(biāo)簽獲取對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      具體地,本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取裝置中的瀏覽器打開單元21,可以通過網(wǎng)頁(yè)測(cè)試工具以下簡(jiǎn)稱selenium打開瀏覽器,輸入U(xiǎn)RL后可以打開對(duì)應(yīng)的待爬取數(shù)據(jù)的網(wǎng)站。如若需要爬取網(wǎng)站A中的數(shù)據(jù),則通過selenium打開對(duì)應(yīng)的瀏覽器如IE瀏覽器,并輸入網(wǎng)站A的URL,即可打開網(wǎng)站A。頁(yè)面信息獲取單元22根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),通過selenium模擬用戶瀏覽網(wǎng)站,依次打開網(wǎng)站上目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu)對(duì)應(yīng)的網(wǎng)頁(yè),再根據(jù)目標(biāo)數(shù)據(jù)標(biāo)簽獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息。目標(biāo)數(shù)據(jù)獲取單元23分別對(duì)獲取的目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的頁(yè)面信息進(jìn)行分析,獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的的目標(biāo)數(shù)據(jù)。需要說明的是,可以獲取到目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的一頁(yè)網(wǎng)頁(yè)的頁(yè)面信息,即對(duì)該頁(yè)面信息進(jìn)行分析,獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù),也可以將目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息都獲取到后,再分別分析每一頁(yè)網(wǎng)頁(yè)的頁(yè)面信息,獲取標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù),本發(fā)明實(shí)施例不作具體限定。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取裝置,通過控制瀏覽器對(duì)待爬取數(shù)據(jù)的網(wǎng)站進(jìn)行瀏覽,并采用selenium模擬用戶瀏覽網(wǎng)站,可以很好的避免因網(wǎng)站反爬機(jī)制造成數(shù)據(jù)爬取失敗的問題,提高了網(wǎng)絡(luò)數(shù)據(jù)爬取的成功率。

      在上述是實(shí)施例的基礎(chǔ)上,,所述頁(yè)面信息獲取單元具體用于:通過所述網(wǎng)頁(yè)測(cè)試工具模擬點(diǎn)擊頁(yè)面跳轉(zhuǎn)按鈕、模擬頁(yè)面下拉條的滾動(dòng)和模擬欄目的點(diǎn)擊操作,實(shí)現(xiàn)模擬用戶瀏覽所述網(wǎng)站。

      具體地,頁(yè)面信息獲取單元在通過selenium模擬用戶瀏覽網(wǎng)站時(shí),可以控制瀏覽器獲取到網(wǎng)站上的頁(yè)面跳轉(zhuǎn)按鈕、頁(yè)面下拉條以及網(wǎng)站上對(duì)應(yīng)的欄目塊,模擬對(duì)應(yīng)的點(diǎn)擊操作,具體可以模擬點(diǎn)擊頁(yè)面跳轉(zhuǎn)按鈕、模擬頁(yè)面下拉條的滾動(dòng)和模擬欄目的點(diǎn)擊操作,實(shí)現(xiàn)模擬用戶瀏覽網(wǎng)站。如:可以模擬用戶點(diǎn)擊頁(yè)面跳轉(zhuǎn)按鈕進(jìn)行翻頁(yè),即點(diǎn)擊上一頁(yè)或下一頁(yè)按鈕,模擬用戶將網(wǎng)頁(yè)的下拉條下拉,還可以模擬用戶點(diǎn)擊網(wǎng)頁(yè)上的某個(gè)欄目如家用電器欄目等,以實(shí)現(xiàn)智能模擬人為操作。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取裝置,通過模擬用戶瀏覽網(wǎng)站時(shí)的具體操作,很好的避免因網(wǎng)站反爬機(jī)制造成數(shù)據(jù)爬取失敗的問題,提高了網(wǎng)絡(luò)數(shù)據(jù)爬取的成功率。本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法,無(wú)需考慮網(wǎng)站反爬機(jī)制及動(dòng)態(tài)呈現(xiàn)的方式,針對(duì)所有http協(xié)議的網(wǎng)站,無(wú)需采用正則匹配html標(biāo)簽,都可以通過瀏覽器模擬用戶瀏覽網(wǎng)站的方式,獲取到目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息,在對(duì)獲取到的頁(yè)面信息進(jìn)行分析,即可獲得目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù)??朔藗鹘y(tǒng)的數(shù)據(jù)爬取無(wú)法針對(duì)多個(gè)網(wǎng)站,每個(gè)網(wǎng)站的爬取均需要以網(wǎng)站的特點(diǎn)、反爬機(jī)制及動(dòng)態(tài)數(shù)據(jù)呈現(xiàn)的方式定制爬蟲程序編寫的困難。

      在上述實(shí)施例的基礎(chǔ)上,所述頁(yè)面信息獲取單元具體用于:根據(jù)所述目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),打開對(duì)應(yīng)的網(wǎng)頁(yè),獲取所述目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息,若判斷獲知所述網(wǎng)頁(yè)不是所述目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的最后一頁(yè)網(wǎng)頁(yè),則模擬所述點(diǎn)擊頁(yè)面跳轉(zhuǎn)按鈕,點(diǎn)擊下一頁(yè),獲取下一頁(yè)網(wǎng)頁(yè)的頁(yè)面信息。

      具體地,頁(yè)面信息獲取單元通過selenium模擬用戶瀏覽網(wǎng)站時(shí),根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),打開對(duì)應(yīng)的網(wǎng)頁(yè),獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息。判斷當(dāng)前網(wǎng)頁(yè)是否是目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的最后一頁(yè)網(wǎng)頁(yè),若不是最后一頁(yè),則控制瀏覽器獲取頁(yè)面跳轉(zhuǎn)按鈕,并模擬點(diǎn)擊操作,點(diǎn)擊下一頁(yè),獲取下一頁(yè)的頁(yè)面信息。若當(dāng)前網(wǎng)頁(yè)是目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的最后一頁(yè)網(wǎng)頁(yè),則退出。可以在打開一頁(yè)網(wǎng)頁(yè)獲取到該網(wǎng)頁(yè)的頁(yè)面信息后,即對(duì)該網(wǎng)頁(yè)的頁(yè)面信息進(jìn)行分析,獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取裝置,通過模擬用戶瀏覽網(wǎng)站時(shí)的具體操作,一頁(yè)頁(yè)的打開目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè),獲取網(wǎng)頁(yè)對(duì)應(yīng)的頁(yè)面信息,并通過判斷打開的當(dāng)前網(wǎng)頁(yè)是否是最后一頁(yè)網(wǎng)頁(yè),實(shí)施是否點(diǎn)擊下一頁(yè)的頁(yè)面跳轉(zhuǎn)按鈕,實(shí)現(xiàn)翻頁(yè)的功能,智能真實(shí)的模擬用戶瀏覽網(wǎng)站的具體操作??梢院芎玫谋苊庖蚓W(wǎng)站反爬機(jī)制造成數(shù)據(jù)爬取失敗的問題,提高了網(wǎng)絡(luò)數(shù)據(jù)爬取的成功率。不需要有經(jīng)驗(yàn)的網(wǎng)絡(luò)爬蟲工程師對(duì)網(wǎng)站進(jìn)行分析,只需定義好目標(biāo)數(shù)據(jù)的標(biāo)簽層次即目標(biāo)數(shù)據(jù)的網(wǎng)頁(yè)結(jié)構(gòu),即可實(shí)現(xiàn)獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息,不需要安裝大型軟件,不需要復(fù)雜的操作,操作簡(jiǎn)單,節(jié)約了網(wǎng)絡(luò)數(shù)據(jù)爬取的人力物力成本及時(shí)間成本。

      在上述實(shí)施例的基礎(chǔ)上,所述頁(yè)面信息獲取單元具體用于:預(yù)先設(shè)置在每一頁(yè)網(wǎng)頁(yè)的停留時(shí)間。

      具體地,頁(yè)面信息獲取單元在通過selenium模擬用戶瀏覽網(wǎng)站時(shí),根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),打開對(duì)應(yīng)的網(wǎng)頁(yè),可以根據(jù)預(yù)先設(shè)置的在每一頁(yè)網(wǎng)頁(yè)的停留時(shí)間,控制瀏覽器在當(dāng)前網(wǎng)頁(yè)進(jìn)行停留一定的時(shí)間,以獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息,并對(duì)該頁(yè)面信息進(jìn)行分析,獲取目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取裝置,通過預(yù)先設(shè)置瀏覽網(wǎng)站的網(wǎng)頁(yè)時(shí),在每一頁(yè)網(wǎng)頁(yè)的停留時(shí)間,以獲取每一頁(yè)目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的網(wǎng)頁(yè)的頁(yè)面信息,并獲取頁(yè)面信息中目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的目標(biāo)數(shù)據(jù),使得爬取的網(wǎng)絡(luò)數(shù)據(jù)更加完整和準(zhǔn)確。

      在上述實(shí)施例的基礎(chǔ)上,所述頁(yè)面信息獲取單元具體用于:若判斷獲知所述網(wǎng)頁(yè)出現(xiàn)異常,則模擬刷新頁(yè)面操作。

      具體地,頁(yè)面信息獲取單元在通過selenium模擬用戶瀏覽網(wǎng)站時(shí),根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),打開對(duì)應(yīng)的網(wǎng)頁(yè),若判斷獲知打開的當(dāng)前網(wǎng)頁(yè)出現(xiàn)異常如:網(wǎng)頁(yè)內(nèi)容為空或網(wǎng)頁(yè)網(wǎng)址出現(xiàn)錯(cuò)誤等,則可以通過selenium控制瀏覽器模擬刷新頁(yè)面操作,實(shí)現(xiàn)網(wǎng)頁(yè)的頁(yè)面刷新,使得網(wǎng)頁(yè)頁(yè)面恢復(fù)正常。

      本發(fā)明提供的裝置用于執(zhí)行上述方法,其具體的實(shí)施方式與方法的實(shí)施方式一致,此處不再贅述。

      本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)爬取方法,通過模擬用戶瀏覽網(wǎng)站時(shí)的具體操作,一頁(yè)頁(yè)的打開目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè),獲取網(wǎng)頁(yè)對(duì)應(yīng)的頁(yè)面信息,并通過判斷打開的當(dāng)前網(wǎng)頁(yè)是否是最后一頁(yè)網(wǎng)頁(yè),實(shí)施是否點(diǎn)擊下一頁(yè)的頁(yè)面跳轉(zhuǎn)按鈕,實(shí)現(xiàn)翻頁(yè)的功能,并能夠在判斷網(wǎng)頁(yè)出現(xiàn)異常后,模擬刷新網(wǎng)頁(yè)頁(yè)面操作,智能真實(shí)的模擬用戶瀏覽網(wǎng)站的具體操作??梢院芎玫谋苊庖蚓W(wǎng)站反爬機(jī)制造成數(shù)據(jù)爬取失敗的問題,提高了網(wǎng)絡(luò)數(shù)據(jù)爬取的成功率和網(wǎng)絡(luò)數(shù)據(jù)爬取的完整性。同時(shí),操作簡(jiǎn)單,節(jié)約了網(wǎng)絡(luò)數(shù)據(jù)爬取的人力物力成本及時(shí)間成本。

      圖3為本發(fā)明實(shí)施例中又一網(wǎng)絡(luò)數(shù)據(jù)爬取裝置的結(jié)構(gòu)示意圖,如圖3所示,所述裝置可以包括:處理器(processor)901、存儲(chǔ)器(memory)32和通信總線33,其中,處理器31,存儲(chǔ)器32通過通信總線33完成相互間的通信。處理器31可以調(diào)用存儲(chǔ)器32中的邏輯指令,以執(zhí)行如下方法:通過網(wǎng)頁(yè)測(cè)試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),通過所述網(wǎng)頁(yè)測(cè)試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息;分別對(duì)獲取到的所述頁(yè)面信息進(jìn)行分析,根據(jù)所述目標(biāo)數(shù)據(jù)標(biāo)簽獲取對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      此外,上述的存儲(chǔ)器902中的邏輯指令可以通過軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

      本發(fā)明實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括存儲(chǔ)在非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括程序指令,當(dāng)所述程序指令被計(jì)算機(jī)執(zhí)行時(shí),計(jì)算機(jī)能夠執(zhí)行上述各方法實(shí)施例所提供的方法,例如包括:通過網(wǎng)頁(yè)測(cè)試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),通過所述網(wǎng)頁(yè)測(cè)試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息;分別對(duì)獲取到的所述頁(yè)面信息進(jìn)行分析,根據(jù)所述目標(biāo)數(shù)據(jù)標(biāo)簽獲取對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      本發(fā)明實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令使所述計(jì)算機(jī)執(zhí)行上述各方法實(shí)施例所提供的方法,例如包括:通過網(wǎng)頁(yè)測(cè)試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;根據(jù)預(yù)先設(shè)置的目標(biāo)數(shù)據(jù)網(wǎng)頁(yè)結(jié)構(gòu),通過所述網(wǎng)頁(yè)測(cè)試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標(biāo)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的所有網(wǎng)頁(yè)的頁(yè)面信息;分別對(duì)獲取到的所述頁(yè)面信息進(jìn)行分析,根據(jù)所述目標(biāo)數(shù)據(jù)標(biāo)簽獲取對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。

      以上所描述的裝置以及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動(dòng)的情況下,即可以理解并實(shí)施。

      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1