1.一種網(wǎng)絡(luò)數(shù)據(jù)爬取方法,其特征在于,包括:
通過網(wǎng)頁測試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;
根據(jù)預先設(shè)置的目標數(shù)據(jù)網(wǎng)頁結(jié)構(gòu),通過所述網(wǎng)頁測試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息;
分別對獲取到的所述頁面信息進行分析,根據(jù)所述目標數(shù)據(jù)標簽獲取對應的目標數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過所述網(wǎng)頁測試工具模擬用戶瀏覽所述網(wǎng)站,包括:
通過所述網(wǎng)頁測試工具模擬點擊頁面跳轉(zhuǎn)按鈕、模擬頁面下拉條的滾動和模擬欄目的點擊操作,實現(xiàn)模擬用戶瀏覽所述網(wǎng)站。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取所述網(wǎng)站上目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息,包括:
根據(jù)所述目標數(shù)據(jù)網(wǎng)頁結(jié)構(gòu),打開對應的網(wǎng)頁,獲取所述目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息,若判斷獲知所述網(wǎng)頁不是所述目標數(shù)據(jù)標簽對應的最后一頁網(wǎng)頁,則模擬所述點擊頁面跳轉(zhuǎn)按鈕,點擊下一頁,獲取下一頁網(wǎng)頁的頁面信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:預先設(shè)置在每一頁網(wǎng)頁的停留時間。
5.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,所述方法還包括:若判斷獲知所述網(wǎng)頁出現(xiàn)異常,則模擬刷新頁面操作。
6.一種網(wǎng)絡(luò)數(shù)據(jù)爬取裝置,其特征在于,包括:
瀏覽器打開單元,用于通過網(wǎng)頁測試工具打開瀏覽器,并打開待爬取數(shù)據(jù)的網(wǎng)站;
頁面信息獲取單元,用于根據(jù)預先設(shè)置的目標數(shù)據(jù)網(wǎng)頁結(jié)構(gòu),通過所述網(wǎng)頁測試工具模擬用戶瀏覽所述網(wǎng)站,獲取所述網(wǎng)站上目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息;
目標數(shù)據(jù)獲取單元,用于分別對獲取到的所述頁面信息進行分析,根據(jù)所述目標數(shù)據(jù)標簽獲取對應的目標數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述頁面信息獲取單元具體用于:通過所述網(wǎng)頁測試工具模擬點擊頁面跳轉(zhuǎn)按鈕、模擬頁面下拉條的滾動和模擬欄目的點擊操作,實現(xiàn)模擬用戶瀏覽所述網(wǎng)站。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述頁面信息獲取單元具體用于:根據(jù)所述目標數(shù)據(jù)網(wǎng)頁結(jié)構(gòu),打開對應的網(wǎng)頁,獲取所述目標數(shù)據(jù)標簽對應的所有網(wǎng)頁的頁面信息,若判斷獲知所述網(wǎng)頁不是所述目標數(shù)據(jù)標簽對應的最后一頁網(wǎng)頁,則模擬所述點擊頁面跳轉(zhuǎn)按鈕,點擊下一頁,獲取下一頁網(wǎng)頁的頁面信息。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述頁面信息獲取單元具體用于:預先設(shè)置在每一頁網(wǎng)頁的停留時間。
10.根據(jù)權(quán)利要求6-9任一項所述的裝置,其特征在于,所述頁面信息獲取單元具體用于:若判斷獲知所述網(wǎng)頁出現(xiàn)異常,則模擬刷新頁面操作。