時效性種子頁的抓取方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種時效性種子頁的抓取方法及裝置,其中方法包括:對于一時效性種子頁,獲取當前預設時間段內(nèi)對所述種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子,基于所述頻率調(diào)整因子計算頻率調(diào)整系數(shù);確定與所述當前預設時間段存在對應關系的歷史預設時間段的抓取頻率;判斷所述當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子;根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動態(tài)調(diào)整所述當前預設時間段的抓取頻率。根據(jù)本發(fā)明可以動態(tài)調(diào)整節(jié)假日因子、抓取頻率,降低對種子頁不必要的抓取,也能保證新鏈接被及時發(fā)現(xiàn)而不丟失。
【專利說明】時效性種子頁的抓取方法及裝置
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術領域】,具體涉及一種時效性種子頁的抓取方法及裝置。
【背景技術】
[0002]互聯(lián)網(wǎng)總是在不斷產(chǎn)生新的內(nèi)容,比如新聞、各種熱門的討論等等。這些新內(nèi)容分散在互聯(lián)網(wǎng)不同的角落,搜索引擎為了能及時對它們提供檢索,需要從浩如煙海的互聯(lián)網(wǎng)上及時把它們找到并抓取回來。幸運的是,指向時效性內(nèi)容的鏈接幾乎總是在一類特定的頁面上出現(xiàn),這類頁面叫做時效性種子頁(簡稱hub頁),比如http://news.sina.com.cn/。所以理論上只需要找到這些hub頁,然后及時檢查它們的變化,便能把時效性鏈接全部找到。
[0003]hub頁面的內(nèi)容是在不斷變化的,新鏈接出現(xiàn)一段時間后就很可能會消失。像論壇的版面,滾動非常快,新帖子要不了多久就沉下去了。如果不能及時發(fā)現(xiàn)它們的變化,就會導致新鏈接丟失。但是每檢查一次頁面,就需要發(fā)起一次抓取,假如搜索引擎不停地檢查這類頁面,則會對所屬網(wǎng)站產(chǎn)生大量抓取。這種大量的抓取在很多情況下未必能發(fā)現(xiàn)新鏈接,造成大量無意義抓取,而且也是一種很不禮貌的行為,甚至會觸發(fā)網(wǎng)站對搜索引擎爬蟲的封禁,導致一段時間內(nèi)爬蟲無法訪問網(wǎng)站。由于節(jié)假日與工作日上網(wǎng)人數(shù)的明顯不同,網(wǎng)上的信息產(chǎn)生量也明顯不同,所以如果搜索引擎在節(jié)假日與工作日保持相同的頻率抓取就會造成一些新鏈接沒有被抓取或者造成無意義抓取。
[0004]因此,既保證時效性新鏈接不丟失,又不會過度對網(wǎng)站進行訪問,這是搜索引擎爬蟲在時效性鏈接發(fā)現(xiàn)問題上期望達到的目標。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的時效性種子頁的抓取裝置和相應的抓取方法。
[0006]根據(jù)本發(fā)明的一個方面,提供了一種時效性種子頁的抓取方法,包括:對于一時效性種子頁,獲取當前預設時間段內(nèi)對所述種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子,基于所述頻率調(diào)整因子計算頻率調(diào)整系數(shù);確定與所述當前預設時間段存在對應關系的歷史預設時間段的抓取頻率;判斷所述當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子;根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動態(tài)調(diào)整所述當前預設時間段的抓取頻率。
[0007]可選地,所述判斷所述當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間進一步包括:若所述當前預設時間段屬于工作日,而該工作日的前一日為節(jié)假日,則判定所述當前預設時間段屬于節(jié)假日與工作日之間的切換時間;若所述當前預設時間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則判定所述當前預設時間段屬于節(jié)假日與工作日之間的切換時間。
[0008]可選地,所述根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子進一步包括:若所述當前預設時間段屬于工作日,而該工作日的前一日為節(jié)假日,則確定節(jié)假日因子為大于I的第一預定值;若所述當前預設時間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則確定節(jié)假日因子為小于I的第二預定值。
[0009]可選地,所述根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子進一步包括:通過在當前預設時間段之前若干次節(jié)假日與工作日之間切換時的抓取情況,動態(tài)調(diào)整所述節(jié)假日因子。
[0010]可選地,所述根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動態(tài)調(diào)整所述當前預設時間段的抓取頻率具體為:將所述抓取頻率、所述頻率調(diào)整系數(shù)以及所述節(jié)假日因子的乘積作為動態(tài)調(diào)整后的所述當前預設時間段的抓取頻率。
[0011]可選地,所述獲取當前預設時間段內(nèi)對所述種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子具體為:對于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對應的頻率調(diào)整因子。
[0012]可選地,所述對于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對應的頻率調(diào)整因子具體包括:如果該次抓取發(fā)現(xiàn)新鏈接,則確定該次抓取對應的頻率調(diào)整因子為大于I的第三預定值;如果該次抓取沒有發(fā)現(xiàn)新鏈接,則確定該次抓取對應的頻率調(diào)整因子為小于I的第四預定值。
[0013]可選地,所述獲取當前預設時間段內(nèi)對所述種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子具體為:對于發(fā)起的一次抓取,根據(jù)該次抓取之前一段預設時間內(nèi)發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起抓取的次數(shù)的比率確定該次抓取對應的頻率調(diào)整因子。
[0014]可選地,所述當前預設時間段內(nèi)對所述種子頁已經(jīng)發(fā)起的抓取次數(shù)為n ;所述基于所述頻率調(diào)整因子計算頻率調(diào)整系數(shù)具體為:計算n次抓取對應的頻率調(diào)整因子的乘積作為所述頻率調(diào)整系數(shù)。
[0015]可選地,所述方法方法還包括:如果所述歷史預設時間段的抓取頻率為無效值,則根據(jù)與所述歷史預設時間段相鄰的預設時間段的抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動態(tài)調(diào)整所述當前預設時間段的抓取頻率。
[0016]可選地,所述方法進一步包括基于所述動態(tài)調(diào)整后的抓取頻率在所述當前預設時間段中對所述種子頁進行抓取。
[0017]根據(jù)本發(fā)明的另一方面,提供了一種時效性種子頁的抓取裝置,包括:獲取模塊,用于對于一時效性種子頁,獲取當前預設時間段內(nèi)對所述種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子;計算模塊,用于基于所述頻率調(diào)整因子計算頻率調(diào)整系數(shù);抓取頻率確定模塊,用于確定所述當前預設時間段存在對應關系的歷史預設時間段的抓取頻率;節(jié)假日因子確定模塊,用于判斷所述當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子;調(diào)整模塊,用于根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動態(tài)調(diào)整所述當前預設時間段的抓取頻率。
[0018]可選地,所述節(jié)假日因子確定模塊包括:
[0019]判斷單元,用于若所述當前預設時間段屬于工作日,而該工作日的前一日為節(jié)假日,則判定所述當前預設時間段屬于節(jié)假日與工作日之間的切換時間;若所述當前預設時間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則判定所述當前預設時間段屬于節(jié)假日與工作日之間的切換時間。[0020]可選地,所述節(jié)假日因子確定模塊還包括:
[0021]節(jié)假日因子確定單元,用于若所述當前預設時間段屬于工作日,而該工作日的前一日為節(jié)假日,則確定節(jié)假日因子為大于I的第一預定值;若所述當前預設時間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則確定節(jié)假日因子為小于I的第二預定值。
[0022]可選地,所述節(jié)假日因子確定模塊還用于:通過在當前預設時間段之前若干次節(jié)假日與工作日之間切換時的抓取情況,動態(tài)調(diào)整所述節(jié)假日因子。
[0023]可選地,所述調(diào)整模塊具體用于:將所述抓取頻率、所述頻率調(diào)整系數(shù)以及所述節(jié)假日因子的乘積作為動態(tài)調(diào)整后的所述當前預設時間段的抓取頻率。
[0024]可選地,所述獲取模塊具體用于:對于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對應的頻率調(diào)整因子??蛇x地,所述獲取模塊進一步用于:如果該次抓取發(fā)現(xiàn)新鏈接,則確定該次抓取對應的頻率調(diào)整因子為大于I的第三預定值;如果該次抓取沒有發(fā)現(xiàn)新鏈接,則確定該次抓取對應的頻率調(diào)整因子為小于I的第四預定值。
[0025]可選地,所述獲取模塊具體用于:對于發(fā)起的一次抓取,根據(jù)該次抓取之前一段預設時間內(nèi)發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起抓取的次數(shù)的比率確定該次抓取對應的頻率調(diào)整因子。
[0026]可選地,所述當前預設時間段內(nèi)對所述種子頁已經(jīng)發(fā)起的抓取次數(shù)為n ;所述計算模塊具體用于:計算n次抓取對應的頻率調(diào)整因子的乘積作為所述頻率調(diào)整系數(shù)。
[0027]可選地,所述調(diào)整模塊還用于:如果所述歷史預設時間段的抓取頻率為無效值,則根據(jù)與所述歷史預設時間段相鄰的預設時間段的抓取頻率、所述頻率調(diào)整系數(shù)以及所述節(jié)假日因子,動態(tài)調(diào)整所述當前預設時間段的抓取頻率。
[0028]可選地,所述裝置還包括:抓取器,用于基于所述動態(tài)調(diào)整后的抓取頻率在所述當前預設時間段中對所述種子頁進行抓取。
[0029]根據(jù)本發(fā)明提供的上述方案,對于一時效性種子頁,通過獲取當前預設時間段內(nèi)對種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子,基于頻率調(diào)整因子計算頻率調(diào)整系數(shù),根據(jù)抓取頻率以及頻率調(diào)整系數(shù),然后確定與當前預設時間段存在對應關系的歷史預設時間段的抓取頻率,判斷當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子,動態(tài)調(diào)整當前預設時間段的抓取頻率。利用該方案,所得到的當前預設時間段的抓取頻率與歷史時間段的抓取頻率和當前預設時間段已經(jīng)發(fā)起的抓取情況有關,也就是說,當前預設時間段的抓取頻率與兩個維度的數(shù)據(jù)有關,分別為實時數(shù)據(jù)和歷史數(shù)據(jù)。歷史數(shù)據(jù)作為基點,不容易有偏差;實時數(shù)據(jù)反映了實時的情況,又能應對各種突發(fā)情況。而且本方案考慮到節(jié)假日與工作日的切換時間內(nèi)網(wǎng)上信息的產(chǎn)生量會發(fā)生很大的變化,因此進一步引入了節(jié)假日因子,利用節(jié)假日因子調(diào)整抓取頻率,準確性更高。本發(fā)明提供的方案能夠降低對種子頁不必要的抓取,也能保證新鏈接被及時發(fā)現(xiàn)而不丟失,更好地平衡了抓取次數(shù)與發(fā)現(xiàn)新鏈接之間的關系。
[0030]上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0031]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0032]圖1示出了根據(jù)本發(fā)明一個實施例的時效性種子頁的抓取方法的流程圖;
[0033]圖2示出了根據(jù)本發(fā)明另一個實施例的時效性種子頁的抓取方法的流程圖;
[0034]圖3示出了根據(jù)本發(fā)明一個實施例的時效性種子頁的抓取裝置的結(jié)構示意圖。
【具體實施方式】
[0035]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領域的技術人員。
[0036]圖1示出了根據(jù)本發(fā)明一個實施例的時效性種子頁的抓取方法的流程圖。如圖1所示,該方法包括如下步驟:
[0037]步驟S110,對于一時效性種子頁,獲取當前預設時間段內(nèi)對種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子,基于頻率調(diào)整因子計算頻率調(diào)整系數(shù)。
[0038]種子頁是指包含時效性內(nèi)容鏈接的頁面,搜索引擎通過爬蟲技術對該種子頁進行抓取。當前預設時間段是指將一天所劃分的若干個平均時間段,以一個預設時間段為單位I小時為例,如果當前時間為8:30,那么當前預設時間段就是8:00-8:59這個時間段,當前預設時間段內(nèi)對種子頁發(fā)起的抓取指的是8:00-8:30這段時間所發(fā)起的抓取,即已經(jīng)發(fā)起的抓取。其中已經(jīng)發(fā)起的每次抓取都會對應一個頻率調(diào)整因子,根據(jù)該多個頻率調(diào)整因子計算頻率調(diào)整系數(shù)。
[0039]步驟S120,確定與當前預設時間段存在對應關系的歷史預設時間段的抓取頻率。
[0040]具體地,對于一 hub頁,如以一個預設時間段為單位I小時為例,則按小時統(tǒng)計每個hub頁在過去一天每個小時的抓取頻率,作為第二天同一時段的參考值。歷史預設時間段的抓取頻率的初始值可以為預定值,例如每小時10次。舉例來說,搜索引擎通過爬蟲技術于11月26日8:00-9:00時間段對hub頁發(fā)起了抓取,其抓取次數(shù)(即抓取頻率)為5次,那么則確定11月27日8:00-9:00時間段的歷史預設時間段的抓取頻率就是5次。
[0041]步驟S130,判斷當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子。
[0042]步驟S140,根據(jù)抓取頻率、頻率調(diào)整系數(shù)以及節(jié)假日因子,動態(tài)調(diào)整當前預設時間段的抓取頻率。
[0043]根據(jù)歷史預設時間段的抓取頻率、頻率調(diào)整系數(shù)以及節(jié)假日因子計算當前預設時間段的抓取頻率,根據(jù)計算得到的當前預設時間段的抓取頻率獲取下一次抓取的時機。
[0044]根據(jù)本發(fā)明上述實施例提供的方法,通過獲取當前預設時間段內(nèi)對種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子,基于頻率調(diào)整因子計算頻率調(diào)整系數(shù),根據(jù)抓取頻率以及頻率調(diào)整系數(shù),然后確定與當前預設時間段存在對應關系的歷史預設時間段的抓取頻率,判斷當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子,動態(tài)調(diào)整當前預設時間段的抓取頻率。利用該方法,所得到的當前預設時間段的抓取頻率與歷史時間段的抓取頻率和當前預設時間段已經(jīng)發(fā)起的抓取情況有關,也就是說,當前預設時間段的抓取頻率與兩個維度的數(shù)據(jù)有關,分別為實時數(shù)據(jù)和歷史數(shù)據(jù)。歷史數(shù)據(jù)作為基點,不容易有偏差;實時數(shù)據(jù)反映了實時的情況,又能應對各種突發(fā)情況。而且本方案考慮到節(jié)假日與工作日的切換時間內(nèi)網(wǎng)上信息的產(chǎn)生量會發(fā)生很大的變化,因此進一步引入了節(jié)假日因子,利用節(jié)假日因子調(diào)整抓取頻率,準確性更高,從而能夠降低對種子頁不必要的抓取,也能保證新鏈接被及時發(fā)現(xiàn)而不丟失,更好地平衡了抓取次數(shù)與發(fā)現(xiàn)新鏈接之間的關系。
[0045]圖2示出了根據(jù)本發(fā)明另一個實施例的時效性種子頁的抓取方法的流程圖。如圖2所示,該方法包括如下步驟:
[0046]步驟S210,對于一 hub頁,針對當前預設時間段已經(jīng)發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對應的頻率調(diào)整因子,當前預設時間段內(nèi)對種子頁已經(jīng)發(fā)起的抓取次數(shù)為n,計算n次抓取對應的頻率調(diào)整因子的乘積作為頻率調(diào)整系數(shù)。
[0047]搜索引擎通過爬蟲技術對該hub頁進行抓取,根據(jù)該次抓取是否發(fā)現(xiàn)了新鏈接的結(jié)果確定該次抓取對應的頻率調(diào)整因子??蛇x地,如果該次抓取發(fā)現(xiàn)新鏈接,則確定該次抓取對應的頻率調(diào)整因子為大于I的第三預定值;如果該次抓取沒有發(fā)現(xiàn)新鏈接,則確定該次抓取對應的頻率調(diào)整因子為小于I的第四預定值。舉例來說,如果該次抓取發(fā)現(xiàn)新鏈接,則該次抓取對應的頻率調(diào)整因子為2 (即第三預定值);如果該次抓取沒有發(fā)現(xiàn)新鏈接,則確定該次抓取對應的頻率調(diào)整因子為0.5 (即第四預定值)。以一個預設時間段為單位I小時為例,如果當前時間為8:30,那么當前預設時間段就是8:00-8:59這個時間段,假設8:00-8:30這段時間已經(jīng)發(fā)起的抓取次數(shù)為n次,每次抓取對應的頻率調(diào)整因子為Si,
iG [I, n] o對于第i次抓取,如果發(fā)現(xiàn)新鏈接,則Si=2,如果沒有發(fā)現(xiàn)新鏈接,Si=0.5。
[0048]作為另外一種可選地實施方式,為了精確的計算頻率調(diào)整因子,對于已經(jīng)發(fā)起的一次抓取,也可以根據(jù)該次抓取之前一段預設時間內(nèi)發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起抓取的次數(shù)的比率確定當前預設時間段內(nèi)對種子頁已經(jīng)發(fā)起的每次抓取對應的頻率調(diào)整因子。
[0049]將發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起的`抓取的次數(shù)的比率定義為命中率(Ht)。對于任意hub頁,在過去一段時間t內(nèi),用過去一小時的命中率Ht來估計合適的頻率調(diào)整因子Si,即:
[0050]Si=g (Ht)(I)
[0051]如果命中率過高,說明頻率提升的幅度可能太小,可能會有一些新鏈接沒有被抓取,還需要再繼續(xù)加大抓取次數(shù)。如果命中率過低,說明頻率下調(diào)的粒度太小,浪費了不必要抓取,還可以再繼續(xù)降低抓取次數(shù)。
[0052]當前預設時間段內(nèi)搜索引擎對種子頁發(fā)起了 n次抓取,則可確定每次抓取的頻率調(diào)整因子分別為Sl、s2、…、sn。定義頻率調(diào)整系數(shù)為n次抓取對應的頻率調(diào)整因子的乘積,表示為:
n
[0053]5 = ,即 S=si*s2*.? ? *sn(2)
/-1
[0054]舉例來說,當前時間為8:30,8:00-8:30時間段內(nèi)搜索引擎對hub頁發(fā)起了 5次抓取,則可確定每次抓取的頻率調(diào)整因子分別為Sl、S2、S3、S4、S5。進而計算得到頻率調(diào)整系數(shù)為:[0055]
【權利要求】
1.一種時效性種子頁的抓取方法,包括: 對于一時效性種子頁,獲取當前預設時間段內(nèi)對所述種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子,基于所述頻率調(diào)整因子計算頻率調(diào)整系數(shù); 確定與所述當前預設時間段存在對應關系的歷史預設時間段的抓取頻率; 判斷所述當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子; 根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動態(tài)調(diào)整所述當前預設時間段的抓取頻率。
2.根據(jù)權利要求1所述的方法,所述判斷所述當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間進一步包括: 若所述當前預設時間段屬于工作日,而該工作日的前一日為節(jié)假日,則判定所述當前預設時間段屬于節(jié)假日與工作日之間的切換時間; 若所述當前預設時間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則判定所述當前預設時間段屬于節(jié)假日與工作日之間的切換時間。
3.根據(jù)權利要求1或2所述的方法,所述根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子進一步包括: 若所述當前預設時間段屬于工作日,而該工作日的前一日為節(jié)假日,則確定節(jié)假日因子為大于I的第一預定值; 若所述當前預設時間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則確定節(jié)假日因子為小于I的第二預定值。
4.根據(jù)權利要求1所述的方法,所述根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子進一步包括: 通過在當前預設時間段之前若干次節(jié)假日與工作日之間切換時的抓取情況,動態(tài)調(diào)整所述節(jié)假日因子。
5.根據(jù)權利要求1-4任一項所述的方法,所述根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動態(tài)調(diào)整所述當前預設時間段的抓取頻率具體為: 將所述抓取頻率、所述頻率調(diào)整系數(shù)以及所述節(jié)假日因子的乘積作為動態(tài)調(diào)整后的所述當前預設時間段的抓取頻率。
6.根據(jù)權利要求1-5任一項所述的方法,所述獲取當前預設時間段內(nèi)對所述種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子具體為:對于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對應的頻率調(diào)整因子。
7.根據(jù)權利要求1-6任一項所述的方法,所述對于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對應的頻率調(diào)整因子具體包括: 如果該次抓取發(fā)現(xiàn)新鏈接,則確定該次抓取對應的頻率調(diào)整因子為大于I的第三預定值; 如果該次抓取沒有發(fā)現(xiàn)新鏈接,則確定該次抓取對應的頻率調(diào)整因子為小于I的第四預定值。
8.根據(jù)權利要求1-7任一項所述的方法,所述獲取當前預設時間段內(nèi)對所述種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子具體為:對于發(fā)起的一次抓取,根據(jù)該次抓取之前一段預設時間內(nèi)發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起抓取的次數(shù)的比率確定該次抓取對應的頻率調(diào)整因子。
9.根據(jù)權利要求1-8任一項所述的方法,所述當前預設時間段內(nèi)對所述種子頁已經(jīng)發(fā)起的抓取次數(shù)為n ; 所述基于所述頻率調(diào)整因子計算頻率調(diào)整系數(shù)具體為:計算n次抓取對應的頻率調(diào)整因子的乘積作為所述頻率調(diào)整系數(shù)。
10.一種時效性種子頁的抓取裝置,包括: 獲取模塊,用于對于一時效性種子頁,獲取當前預設時間段內(nèi)對所述種子頁發(fā)起的每次抓取對應的頻率調(diào)整因子; 計算模塊,用于基于所述頻率調(diào)整因子計算頻率調(diào)整系數(shù); 抓取頻率確定模塊,用于確定所述當前預設時間段存在對應關系的歷史預設時間段的抓取頻率; 節(jié)假日因子確定模塊,用于判斷所述當前預設時間段是否屬于節(jié)假日與工作日之間的切換時間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子; 調(diào)整模塊,用于根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動態(tài)調(diào)整所述當前預設時間段的抓取頻率。
【文檔編號】G06F17/30GK103617264SQ201310638133
【公開日】2014年3月5日 申請日期:2013年12月2日 優(yōu)先權日:2013年12月2日
【發(fā)明者】魏少俊 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司