国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)絡(luò)數(shù)據(jù)爬取方法和裝置與流程

      文檔序號:12666645閱讀:來源:國知局

      技術(shù)特征:

      1.一種網(wǎng)絡(luò)數(shù)據(jù)爬取方法,其特征在于,包括:

      通過網(wǎng)頁測試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;

      根據(jù)預先設(shè)置的目標數(shù)據(jù)網(wǎng)頁結(jié)構(gòu),通過所述網(wǎng)頁測試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息;

      分別對獲取到的所述頁面信息進行分析,根據(jù)所述目標數(shù)據(jù)標簽獲取對應的目標數(shù)據(jù)。

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述網(wǎng)頁測試工具模擬用戶瀏覽所述網(wǎng)站,包括:

      通過所述網(wǎng)頁測試工具模擬點擊頁面跳轉(zhuǎn)按鈕、模擬頁面下拉條的滾動和模擬欄目的點擊操作,實現(xiàn)模擬用戶瀏覽所述網(wǎng)站。

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取所述網(wǎng)站上目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息,包括:

      根據(jù)所述目標數(shù)據(jù)網(wǎng)頁結(jié)構(gòu),打開對應的網(wǎng)頁,獲取所述目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息,若判斷獲知所述網(wǎng)頁不是所述目標數(shù)據(jù)標簽對應的最后一頁網(wǎng)頁,則模擬所述點擊頁面跳轉(zhuǎn)按鈕,點擊下一頁,獲取下一頁網(wǎng)頁的頁面信息。

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:預先設(shè)置在每一頁網(wǎng)頁的停留時間。

      5.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,所述方法還包括:若判斷獲知所述網(wǎng)頁出現(xiàn)異常,則模擬刷新頁面操作。

      6.一種網(wǎng)絡(luò)數(shù)據(jù)爬取裝置,其特征在于,包括:

      瀏覽器打開單元,用于通過網(wǎng)頁測試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;

      頁面信息獲取單元,用于根據(jù)預先設(shè)置的目標數(shù)據(jù)網(wǎng)頁結(jié)構(gòu),通過所述網(wǎng)頁測試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息;

      目標數(shù)據(jù)獲取單元,用于分別對獲取到的所述頁面信息進行分析,根據(jù)所述目標數(shù)據(jù)標簽獲取對應的目標數(shù)據(jù)。

      7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述頁面信息獲取單元具體用于:通過所述網(wǎng)頁測試工具模擬點擊頁面跳轉(zhuǎn)按鈕、模擬頁面下拉條的滾動和模擬欄目的點擊操作,實現(xiàn)模擬用戶瀏覽所述網(wǎng)站。

      8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述頁面信息獲取單元具體用于:根據(jù)所述目標數(shù)據(jù)網(wǎng)頁結(jié)構(gòu),打開對應的網(wǎng)頁,獲取所述目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息,若判斷獲知所述網(wǎng)頁不是所述目標數(shù)據(jù)標簽對應的最后一頁網(wǎng)頁,則模擬所述點擊頁面跳轉(zhuǎn)按鈕,點擊下一頁,獲取下一頁網(wǎng)頁的頁面信息。

      9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述頁面信息獲取單元具體用于:預先設(shè)置在每一頁網(wǎng)頁的停留時間。

      10.根據(jù)權(quán)利要求6-9任一項所述的裝置,其特征在于,所述頁面信息獲取單元具體用于:若判斷獲知所述網(wǎng)頁出現(xiàn)異常,則模擬刷新頁面操作。

      當前第2頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1