国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于探測網(wǎng)頁更新周期的抓取方法

      文檔序號:6397604閱讀:213來源:國知局
      專利名稱:一種基于探測網(wǎng)頁更新周期的抓取方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及頁面抓取周期性探測規(guī)則的方法的技術(shù)領(lǐng)域,具體涉及一種基于探測網(wǎng)頁更新周期的抓取方法。
      背景技術(shù)
      隨著網(wǎng)絡(luò)上海量信息的爆炸式增長,通用搜索引擎面臨著索引規(guī)模、更新速度和個性化需求等多方面的挑戰(zhàn)。面對這些挑戰(zhàn),適應(yīng)特定主題和個性化搜索的主題網(wǎng)絡(luò)爬蟲(focused crawler or topical crawler)應(yīng)運而生?;谥黝}網(wǎng)絡(luò)爬蟲的搜索引擎(即第四代搜索引擎)已經(jīng)成為當前搜索引擎和Web信息挖掘中的一個研究熱點和難點。通用網(wǎng)絡(luò)爬蟲的目標就是盡可能多地采集信息頁面,而在這一過程中它并不太在意頁面采集的順序和被采集頁面的相關(guān)主題。作為搜索引擎的基礎(chǔ)結(jié)構(gòu)之一,網(wǎng)絡(luò)爬蟲直接面向互聯(lián)網(wǎng),他是搜索引擎的數(shù)據(jù)來源,決定著整個系統(tǒng)的內(nèi)容是否豐富、信息能否得到及時更新,其性能直接影響整個搜索引擎的效果。三屏融合視頻推送是指在同一平臺(或多個平臺相互協(xié)調(diào))下為機頂盒、個人計算機、智能手機及其它一切具有網(wǎng)絡(luò)接入能力的多媒體內(nèi)容播放設(shè)備提供內(nèi)容服務(wù)的系統(tǒng)。通過該系統(tǒng)可為用戶提供多屏視頻內(nèi)容推薦、多屏視頻內(nèi)容分享、位移電視等業(yè)務(wù)體驗,滿足用戶在任意時間、任意地點通過任意設(shè)備觀看任意影片的需求。國際上主流的電信運營商和設(shè)備制造商、軟件商等都提出了各自的三屏融合業(yè)務(wù)和模式。比如美國的AT&T及其貝爾實驗室就投入巨資進行三屏融合業(yè)務(wù)和體系架構(gòu)的研究和開發(fā)。軟件巨人微軟也在大力倡導(dǎo)三屏融合業(yè)務(wù)的發(fā)展。從終端用戶角度看,一個用戶可以同時享有TV屏、PC屏、Mobile屏等多種終端,用戶期望從各個屏幕都可以獲取所需要的信息并獲得相應(yīng)的體驗。從業(yè)務(wù)層面看,三屏所呈現(xiàn)的業(yè)務(wù)形態(tài)也處于快速的融合期。比如基于PC的互聯(lián)網(wǎng)電視TV化、手機化是業(yè)界近期的顯著趨勢。從支撐三屏業(yè)務(wù)的后臺網(wǎng)絡(luò)層面看,三屏融合實質(zhì)上是三網(wǎng)融合發(fā)展的外在體體現(xiàn),三屏終端的協(xié)議適配系統(tǒng)則是實現(xiàn)三屏融合的核心技術(shù)。電信運營商和設(shè)備制造商、軟件商都對三屏終端的協(xié)議適配系統(tǒng)提出迫切的需求。為了更好的支持三屏展示,本文提出一種基于探測網(wǎng)頁更新周期的抓取方法,此方法可以及時獲取更新網(wǎng)頁,將網(wǎng)頁可以及時有效的更新給用戶使用。

      發(fā)明內(nèi)容
      本發(fā)明要解決的技術(shù)問題是提供一種基于探測網(wǎng)頁更新周期的抓取方法,利用探測信息方式進行網(wǎng)頁抓取信息的獲取,依據(jù)網(wǎng)頁更新的時間及其他維度的定義指標進行制定規(guī)則,制定規(guī)則后進行下一步的抓取網(wǎng)頁,本方法有效的獲得更新頁面,加強頁面獲取的實時性。本發(fā)明采用的技術(shù)方案為一種基于探測網(wǎng)頁更新周期的抓取方法,該方法包括如下步驟
      步驟(I)、頁面來源于頁面抓取的歷史信息,從歷史信息中獲取待抓取的網(wǎng)頁頁面或者依據(jù)提供的頁面源信息進行設(shè)置;步驟(2)、設(shè)置定時探測抓取周期,主要依據(jù)指定時間進行周期設(shè)置,并且周期性的獲取網(wǎng)頁信息;步驟(3)、將獲取的網(wǎng)頁信息進行規(guī)則制定,如果頁面更新時間有所改變,則將頁面抓取的方式改為獲取(GET),其他均為檢測(CHK)方式進行;步驟(4 )、通過步驟(3 )設(shè)置好的規(guī)則,進行下一步抓取或者進行頁面本地存儲。其中,所述步驟(I)中頁面來源于頁面抓取的歷史信息,從歷史信息中獲取待抓取的網(wǎng)頁頁面或者依據(jù)提供的頁面源信息進行設(shè)置,其步驟為步驟1.1 :通過指定的頁面進行獲取頁面url獲取,并且建立頁面歷史信息列表;步驟1. 2 :對于不存在歷史信息列表中的頁面采用直接獲取(GET)的方式進行,對于存在歷史信息列表中的頁面采用檢測(CHK)方式進行;如果是指定的目標頁面,則直接設(shè)置其方式為檢測(CHK)方式進行。其中,所述步驟(2)中設(shè)置定時探測抓取周期,主要依據(jù)指定時間進行周期設(shè)置,并且周期性的獲取網(wǎng)頁信息,其步驟為步驟2.1 :頁面設(shè)置依據(jù)配置的方式進行設(shè)置探測抓取周期,采用系統(tǒng)時鐘的方式進行周期性的抓取觸發(fā)。其中,所述步驟(3)中將獲取的網(wǎng)頁信息進行規(guī)則制定,如果頁面更新時間有所改變,則將頁面抓取的方式改為獲取(GET),其他均為檢測(CHK)方式進行,其步驟為步驟3.1 :通過周期性獲取到的頁面信息進行規(guī)則設(shè)置,獲取目標頁面鏈接url ;步驟3. 2 :獲取目標鏈接url的服務(wù)器ip地址;步驟3. 3 :設(shè)置抓取頁面的UA為匿名或者實名;步驟3. 4 :獲取頁面更新時間,如果頁面與歷史信息的頁面更新時間有所不同,則制定頁面獲取方式為獲取(GET),如果頁面與歷史信息的頁面更新時間相同,則指定頁面獲取方式為檢測(CHK)。其中,所述步驟(4)中通過步驟(3)設(shè)置好的規(guī)則,進行下一步抓取或者進行頁面本地存儲,其步驟為步驟4.1 :將所述獲取的網(wǎng)頁信息進行組合拼裝,如果是更新時間有所變化的頁面則創(chuàng)建頁面抓取線程,進行下一次頁面抓取,如果更新時間沒有變化,則將頁面信息進行本地保存,將頁面信息進行記錄,存儲為歷史信息為下次抓取提供抓取依據(jù)。本發(fā)明基于探測網(wǎng)頁更新周期,提出一種新型的抓取系統(tǒng)方法,靈活有效地獲取更新頁面信息,解決頁面信息更新無法感知的問題。


      圖1為基于探測網(wǎng)頁更新周期的抓取方法的原理框圖。
      具體實施例方式下面結(jié)合附圖以及具體實施例進一步說明本發(fā)明。本發(fā)明提供基于探測網(wǎng)頁更新周期的抓取方法,其流程圖如圖1所示,具體步驟如下步驟(I)、頁面來源于頁面抓取的歷史信息,從歷史信息中獲取待抓取的網(wǎng)頁頁面或者依據(jù)提供的頁面源信息進行設(shè)置;其中,所述步驟(I)中頁面來源于頁面抓取的歷史信息,從歷史信息中獲取待抓取的網(wǎng)頁頁面或者依據(jù)提供的頁面源信息進行設(shè)置,其步驟為步驟1.1 :通過指定的頁面進行獲取頁面url獲取,并且建立頁面歷史信息列表;步驟1. 2 :對于不存在歷史信息列表中的頁面采用直接獲取(GET)的方式進行,對于存在歷史信息列表中的頁面采用檢測(CHK)方式進行;如果是指定的目標頁面,則直接設(shè)置其方式為檢測(CHK)方式進行。步驟(2)、設(shè)置定時探測抓取周期,主要依據(jù)指定時間進行周期設(shè)置,并且周期性的獲取網(wǎng)頁信息;其中,所述步驟(2)中設(shè)置定時探測抓取周期,主要依據(jù)指定時間進行周期設(shè)置,并且周期性的獲取網(wǎng)頁信息,其步驟為步驟2.1 :頁面設(shè)置依據(jù)配置的方式進行設(shè)置探測抓取周期,采用系統(tǒng)時鐘的方式進行周期性的抓取觸發(fā)。步驟(3)、將獲取的網(wǎng)頁信息進行規(guī)則制定,如果頁面更新時間有所改變,則將頁面抓取的方式改為獲取(GET),其他均為檢測(CHK)方式進行;其中,所述步驟(3)中將獲取的網(wǎng)頁信息進行規(guī)則制定,如果頁面更新時間有所改變,則將頁面抓取的方式改為獲取(GET),其他均為檢測(CHK)方式進行,其步驟為步驟3.1 :通過周期性獲取到的頁面信息進行規(guī)則設(shè)置,獲取目標頁面鏈接url ;步驟3. 2 :獲取目標鏈接url的服務(wù)器ip地址;步驟3. 3 :設(shè)置抓取頁面的UA為匿名或者實名;步驟3. 4 :獲取頁面更新時間,如果頁面與歷史信息的頁面更新時間有所不同,則制定頁面獲取方式為獲取(GET),如果頁面與歷史信息的頁面更新時間相同,則指定頁面獲取方式為檢測(CHK)。 步驟(4 )、通過步驟(3 )設(shè)置好的規(guī)則,進行下一步抓取或者進行頁面本地存儲。其中,所述步驟(4)中通過步驟(3)設(shè)置好的規(guī)則,進行下一步抓取或者進行頁面本地存儲,其步驟為步驟4.1 :將所述獲取的網(wǎng)頁信息進行組合拼裝,如果是更新時間有所變化的頁面則創(chuàng)建頁面抓取線程,進行下一次頁面抓取,如果更新時間沒有變化,則將頁面信息進行本地保存,將頁面信息進行記錄,存儲為歷史信息為下次抓取提供抓取依據(jù)。最后應(yīng)說明的是顯然,上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非對實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引申出的顯而易見的變化或變動仍處于本發(fā)明的保護范圍之中。
      權(quán)利要求
      1.一種基于探測網(wǎng)頁更新周期的抓取方法,其特征在于,該方法包括如下步驟步驟(I)、頁面來源于頁面抓取的歷史信息,從歷史信息中獲取待抓取的網(wǎng)頁頁面或者依據(jù)提供的頁面源信息進行設(shè)置;步驟(2)、設(shè)置定時探測抓取周期,主要依據(jù)指定時間進行周期設(shè)置,并且周期性的獲取網(wǎng)頁信息;步驟(3)、將獲取的網(wǎng)頁信息進行規(guī)則制定,如果頁面更新時間有所改變,則將頁面抓取的方式改為獲取(GET),其他均為檢測(CHK)方式進行;步驟(4 )、通過步驟(3 )設(shè)置好的規(guī)則,進行下一步抓取或者進行頁面本地存儲。
      2.根據(jù)權(quán)利要求1所述的一種基于探測網(wǎng)頁更新周期的抓取方法,其特征在于所述步驟(I)中頁面來源于頁面抓取的歷史信息,從歷史信息中獲取待抓取的網(wǎng)頁頁面或者依據(jù)提供的頁面源信息進行設(shè)置,其步驟為步驟1.1 :通過指定的頁面進行獲取頁面url獲取,并且建立頁面歷史信息列表;步驟1. 2 :對于不存在歷史信息列表中的頁面采用直接獲取(GET)的方式進行,對于存在歷史信息列表中的頁面采用檢測(CHK)方式進行;如果是指定的目標頁面,則直接設(shè)置其方式為檢測(CHK)方式進行。
      3.根據(jù)權(quán)利要求1所述的一種基于探測網(wǎng)頁更新周期的抓取方法,其特征在于所述步驟(2)中設(shè)置定時探測抓取周期,主要依據(jù)指定時間進行周期設(shè)置,并且周期性的獲取網(wǎng)頁信息,其步驟為步驟2.1 :頁面設(shè)置依據(jù)配置的方式進行設(shè)置探測抓取周期,采用系統(tǒng)時鐘的方式進行周期性的抓取觸發(fā)。
      4.根據(jù)權(quán)利要求1所述的一種基于探測網(wǎng)頁更新周期的抓取方法,其特征在于所述步驟(3)中將獲取的網(wǎng)頁信息進行規(guī)則制定,如果頁面更新時間有所改變,則將頁面抓取的方式改為獲取(GET),其他均為檢測(CHK)方式進行,其步驟為步驟3.1 :通過周期性獲取到的頁面信息進行規(guī)則設(shè)置,獲取目標頁面鏈接url ;步驟3. 2 :獲取目標鏈接url的服務(wù)器ip地址;步驟3. 3 :設(shè)置抓取頁面的UA為匿名或者實名;步驟3. 4 :獲取頁面更新時間,如果頁面與歷史信息的頁面更新時間有所不同,則制定頁面獲取方式為獲取(GET),如果頁面與歷史信息的頁面更新時間相同,則指定頁面獲取方式為檢測(CHK)。
      5.根據(jù)權(quán)利要求1至4任一項所述的一種基于探測網(wǎng)頁更新周期的抓取方法,其特征在于所述步驟(4)中通過步驟(3)設(shè)置好的規(guī)則,進行下一步抓取或者進行頁面本地存儲,其步驟為步驟4.1 :將所述獲取的網(wǎng)頁信息進行組合拼裝,如果是更新時間有所變化的頁面則創(chuàng)建頁面抓取線程,進行下一次頁面抓取,如果更新時間沒有變化,則將頁面信息進行本地保存,將頁面信息進行記錄,存儲為歷史信息為下次抓取提供抓取依據(jù)。
      全文摘要
      本發(fā)明提供一種基于探測網(wǎng)頁更新周期的抓取方法,所述方法為通過周期性探測網(wǎng)頁內(nèi)容獲取網(wǎng)頁更新時間進行設(shè)置規(guī)則,設(shè)置內(nèi)容包括頁面url鏈接,ip地址,網(wǎng)頁獲取方式,網(wǎng)頁獲取UA等。頁面的url鏈接主要是指定抓取網(wǎng)頁的目標鏈接,此鏈接可以依據(jù)給予的網(wǎng)頁源進行設(shè)置或者依舊歷史抓取信息進行設(shè)置。ip地址用于指明此鏈接服務(wù)器的ip地址信息,獲取方式為服務(wù)器返回或者歷史信息中獲得。網(wǎng)頁獲取方式依據(jù)網(wǎng)頁更新時間進行修改設(shè)置。網(wǎng)頁獲取UA可依據(jù)需求進行設(shè)置為實名和匿名。本發(fā)明能夠在獲取不同網(wǎng)頁的同時很好地獲取同一網(wǎng)頁源的不同時期的網(wǎng)頁信息。
      文檔編號G06F17/30GK103020313SQ20131000724
      公開日2013年4月3日 申請日期2013年1月8日 優(yōu)先權(quán)日2013年1月8日
      發(fā)明者王麗華, 牟宏磊, 王寶會, 蒙洋, 賈佳, 李明亮, 楊磊 申請人:北京航空航天大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1