国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于網(wǎng)頁爬取的數(shù)據(jù)處理方法及裝置的制造方法

      文檔序號:8223527閱讀:392來源:國知局
      用于網(wǎng)頁爬取的數(shù)據(jù)處理方法及裝置的制造方法
      【技術領域】
      [0001]本發(fā)明涉及互聯(lián)網(wǎng)領域,具體而言,涉及一種用于網(wǎng)頁爬取的數(shù)據(jù)處理方法及裝置。
      【背景技術】
      [0002]隨著互聯(lián)網(wǎng)的興起,網(wǎng)絡中存在中大量的信息,與此同時,垂直網(wǎng)絡爬蟲也應運而生,垂直網(wǎng)絡爬蟲是一個自動下載的網(wǎng)頁程序,它根據(jù)既定的抓取目標,有選擇性的訪問特定網(wǎng)頁與相關鏈接,獲取所需要的信息。與通用爬蟲不同,垂直爬蟲,抓取與某一特定主題相關的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。
      [0003]因此,垂直爬蟲,會根據(jù)前端的配置定期的抓取特定網(wǎng)頁的信息資源,但是在實際爬蟲的執(zhí)行的過程中,可能存在對某一網(wǎng)站資源抓取奔潰的情況。如何在多次對同一網(wǎng)站爬取時導致的崩潰問題及時處理并反應給系統(tǒng)處理人員,是當前需要解決的問題。
      [0004]傳統(tǒng)的網(wǎng)絡爬蟲在解決爬蟲崩潰問題上會將崩潰信息記錄日志或者異常觸發(fā)機制已郵件的形式發(fā)送給系統(tǒng)管理人員。但是,傳統(tǒng)記錄日志的方式不能夠對定期爬取的爬蟲頻繁奔潰進行處理,而異常觸發(fā)機制需要系統(tǒng)人員對頻繁奔潰的爬蟲手工結束。
      [0005]針對相關技術中解決爬蟲頻繁崩潰占用大量系統(tǒng)資源的問題,目前尚未提出有效的解決方案。

      【發(fā)明內容】

      [0006]本發(fā)明的主要目的在于提供一種用于網(wǎng)頁爬取的數(shù)據(jù)處理方法及裝置,以在一定程度上解決了相關技術中解決爬蟲崩潰問題的處理方式導致的爬取數(shù)據(jù)效率低的問題。
      [0007]為了實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種用于網(wǎng)頁爬取的數(shù)據(jù)處理方法。根據(jù)本發(fā)明的網(wǎng)頁爬取的數(shù)據(jù)處理方法包括:在啟動爬取程序之后,獲取所述爬取程序當前爬取的網(wǎng)站的狀態(tài)標志位;確定所述狀態(tài)標志位指示的爬取狀態(tài);若所述狀態(tài)標志位指示的所述爬取狀態(tài)為中斷爬取狀態(tài),則判斷數(shù)據(jù)庫中記錄的當前崩潰次數(shù)是否小于預設崩潰閾值;若所述當前崩潰次數(shù)不小于所述預設崩潰閾值,則終止所述爬取程序的工作;若所述當前崩潰次數(shù)小于所述預設崩潰閾值,則控制所述爬取程序繼續(xù)工作。
      [0008]進一步地,啟動爬取程序包括:使用正在爬取狀態(tài)的第一標識設置所述數(shù)據(jù)庫中的所述當前爬取的網(wǎng)站的狀態(tài)標志位;在啟動爬取程序之后,所述數(shù)據(jù)處理方法還包括:若所述爬取程序返回的數(shù)據(jù)為異常數(shù)據(jù),則判斷出所述爬取程序崩潰,使用所述中斷爬取狀態(tài)的第二標識修改所述當前爬取的網(wǎng)站的狀態(tài)標志位,并將所述數(shù)據(jù)庫中記錄的所述當前爬取的網(wǎng)站的當前崩潰次數(shù)加一。
      [0009]進一步地,在啟動爬取程序之后,所述數(shù)據(jù)處理方法還包括:若所述爬取程序爬取所述網(wǎng)站的所有網(wǎng)絡資源地址返回的數(shù)據(jù)均未出現(xiàn)異常,則確定所述爬取程序成功爬取所述網(wǎng)站,使用正在爬取狀態(tài)的第二第一標識設置將所述網(wǎng)站的狀態(tài)標志位。
      [0010]進一步地,在判斷出所述爬取程序崩潰之后,所述數(shù)據(jù)處理方法還包括:讀取所述異常數(shù)據(jù)中的錯誤代碼;獲取所述錯誤代碼的爬取崩潰信息,并輸出所述爬取崩潰信息。
      [0011]進一步地,若所述當前崩潰次數(shù)不小于所述預設崩潰閾值,在終止所述爬取程序的工作的同時,所述數(shù)據(jù)處理方法還包括:使用終止爬取狀態(tài)的第三標識設置所述當前爬取的網(wǎng)站的狀態(tài)標志位;若所述當前崩潰次數(shù)小于所述預設崩潰閾值,在控制所述爬取程序繼續(xù)工作的同時,所述處理方法還包括:使用正在爬取狀態(tài)的第二標識設置所述當前爬取的網(wǎng)站的狀態(tài)標志位。
      [0012]進一步地,在確定所述狀態(tài)標志位指示的爬取狀態(tài)之后,所述數(shù)據(jù)處理方法還包括:若所述狀態(tài)標志位指示的爬取狀態(tài)為正在爬取狀態(tài)或終止爬取狀態(tài),則控制所述爬取程序繼續(xù)工作。
      [0013]為了實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的另一方面,提供了一種用于網(wǎng)頁爬取的數(shù)據(jù)處理裝置。根據(jù)本發(fā)明的用于網(wǎng)頁爬取的數(shù)據(jù)處理裝置包括:獲取模塊,在啟動爬取程序之后,用于獲取所述爬取程序當前爬取的網(wǎng)站的狀態(tài)標志位;確定模塊,用于確定所述狀態(tài)標志位指示的爬取狀態(tài);判斷模塊,在所述確定裝置確定的所述爬取狀態(tài)為中斷爬取狀態(tài)的情況下,用于判斷數(shù)據(jù)庫中記錄的當前崩潰次數(shù)是否小于預設崩潰閾值;終止模塊,在所述判斷模塊的判斷結果為否的情況下,用于終止所述爬取程序的工作;第一控制模塊,在所述判斷模塊的判斷結果為是的情況下,用于控制所述爬取程序繼續(xù)工作。
      [0014]進一步地,所述數(shù)據(jù)處理裝置還包括:啟動模塊,用于使用正在爬取狀態(tài)的第一標識設置所述數(shù)據(jù)庫中的所述當前爬取的網(wǎng)站的狀態(tài)標志位,啟動爬取程序;所述數(shù)據(jù)處理裝置還包括:修改模塊,在所述爬取程序返回的數(shù)據(jù)為異常數(shù)據(jù)的情況下,用于判斷出所述爬取程序崩潰,使用所述中斷爬取狀態(tài)的第二標識修改所述當前爬取的網(wǎng)站的狀態(tài)標志位,并將所述數(shù)據(jù)庫中記錄的所述當前爬取的網(wǎng)站的當前崩潰次數(shù)加一。
      [0015]進一步地,所述數(shù)據(jù)處理裝置還包括:第一設置模塊,在啟動爬取程序之后,若所述爬取程序爬取所述網(wǎng)站的所有網(wǎng)絡資源地址返回的數(shù)據(jù)均未出現(xiàn)異常,用于確定所述爬取程序成功爬取所述網(wǎng)站,使用正在爬取狀態(tài)的第一標識設置將所述網(wǎng)站的狀態(tài)標志位。
      [0016]進一步地,所述數(shù)據(jù)處理裝置還包括:讀取模塊,在判斷出所述爬取程序崩潰之后,用于讀取所述異常數(shù)據(jù)中的錯誤代碼;輸出模塊,用于獲取所述錯誤代碼的爬取崩潰信息,并輸出所述爬取崩潰信息。
      [0017]進一步地,所述數(shù)據(jù)處理裝置還包括:第二設置模塊,若所述當前崩潰次數(shù)不小于所述預設崩潰閾值,在終止所述爬取程序的工作的同時,用于使用終止爬取狀態(tài)的第三標識設置所述當前爬取的網(wǎng)站的狀態(tài)標志位;第三設置模塊,若所述當前崩潰次數(shù)小于所述預設崩潰閾值,在控制所述爬取程序繼續(xù)工作的同時,用于使用正在爬取狀態(tài)的第二標識設置所述當前爬取的網(wǎng)站的狀態(tài)標志位。
      [0018]進一步地,所述數(shù)據(jù)處理裝置還包括:第二控制模塊,在確定所述狀態(tài)標志位指示的爬取狀態(tài)之后,若所述狀態(tài)標志位指示的爬取狀態(tài)為正在爬取狀態(tài)或終止爬取狀態(tài),用于控制所述爬取程序繼續(xù)工作。
      [0019]根據(jù)發(fā)明實施例,通過在啟動爬取程序之后,獲取所述爬取程序當前爬取的網(wǎng)站的狀態(tài)標志位;確定所述狀態(tài)標志位指示的爬取狀態(tài);若所述狀態(tài)標志位指示的所述爬取狀態(tài)為中斷爬取狀態(tài),則判斷數(shù)據(jù)庫中記錄的當前崩潰次數(shù)是否小于預設崩潰閾值;若所述當前崩潰次數(shù)不小于所述預設崩潰閾值,則終止所述爬取程序的工作;若所述當前崩潰次數(shù)小于所述預設崩潰閾值,則控制所述爬取程序繼續(xù)工作,在一定程度上解決了相關技術中解決爬蟲頻繁崩潰占用大量系統(tǒng)資源的問題,達到了自動終止爬取功能,提高爬取效率的效果。
      【附圖說明】
      [0020]構成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
      [0021]圖1是根據(jù)本發(fā)明實施例的用于網(wǎng)頁爬取的數(shù)據(jù)處理方法的流程圖;
      [0022]圖2是根據(jù)本發(fā)明實施例的用于網(wǎng)頁爬取的
      當前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1