本發(fā)明涉及互聯網搜索引擎領域,特別涉及一種抓取網頁的方法和裝置。
背景技術:隨著網絡的迅速發(fā)展,萬維網成為大量信息的載體,為有效地提取并利用這些信息,搜索引擎(SearchEngine)作為一個輔助人們檢索信息的工具,成為用戶訪問萬維網的入口和指南。搜索引擎抓取網頁是通過自己的網頁抓取程序(spider)實現的。Spider順著網頁中的超鏈接,連續(xù)地抓取網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍。理論上,從一定范圍的網頁出發(fā),就能搜集到絕大多數的網頁。搜索引擎抓取網頁的方法分為深度優(yōu)先、寬度優(yōu)先、權重優(yōu)先。深度優(yōu)先:深度優(yōu)先搜索是一種在開發(fā)爬蟲早期使用較多的方法。它的目的是要達到被搜索結構的葉結點(即那些不包含任何超鏈的HTML文件)。在一個HTML文件中,當一個超鏈被選擇后,被鏈接的HTML文件將執(zhí)行深度優(yōu)先搜索,即在搜索其余的超鏈結果之前必須先完整地搜索單獨的一條鏈。深度優(yōu)先搜索沿著HTML文件上的超鏈走到不能再深入為止,然后返回到某一個HTML文件,再繼續(xù)選擇該HTML文件中的其他超鏈。當不再有其他超鏈可選擇時,說明搜索已經結束。寬度優(yōu)先:寬度優(yōu)先搜索算法(又稱廣度優(yōu)先搜索)是最簡便的圖的搜索算法之一,這一算法也是很多重要的圖的算法的原型。Dijkstra單源最短路徑算法和Prim最小生成樹算法都采用了和寬度優(yōu)先搜索類似的思想。其別名又叫BFS,屬于一種盲目搜尋法,目的是系統地展開并檢查圖中的所有節(jié)點,以找尋結果。換句話說,它并不考慮結果的可能位址,徹底地搜索整張圖,直到找到結果為止。權重優(yōu)先:指的是結合深度優(yōu)先和寬度優(yōu)先兩個步驟實現的抓取方式,通過優(yōu)先實行廣度優(yōu)先抓取前幾層,根據抓取URL地址數量結果,來決定后續(xù)優(yōu)先抓取那些頁面。是深度優(yōu)先和寬度優(yōu)先的結合體。權重優(yōu)先是目前主流搜索引擎采用的算法。合理的搜索引擎都是通過權重優(yōu)先來實現抓取網頁的。由于網站的設計是以用戶為中心,導致沒有更多的考慮搜索引擎抓取。導致真正重點內容和搜索引擎認為的重點內容有出入?,F有技術的一種解決方案為,借鑒通用搜索引擎的鏈接分析技術,對URL的重要性進行排序,優(yōu)先抓取那些重要性高的頁面。比如JunghooCho在其論文(Junghoo1998)中利用頁面的PageRank(Sergey1998)值排序URL,優(yōu)先抓取PageRank值高的頁面。但是這種方法僅僅計算待抓頁面的重要性值,并沒有考慮頁面與特定關鍵詞的相關性,因此用這種算法引導的聚焦爬蟲很容易迷失方向,抓下的頁面很少是與特定關鍵詞相關的,如果統計聚焦爬蟲抓取的所有網頁中與關鍵詞相關的頁面所占的比重為抓取率,那么這種解決方案的抓取率是比較低的?,F有技術中的另一種解決方案為,基于Davison(Davison2000)發(fā)現的互聯網頁面的主題相鄰性(topicallocality)現象,即用超鏈接連接起來的兩個頁面比隨機的兩個頁面具有更大的相似性,來預測待抓取頁面與特定關鍵詞的相關性,即如果一張頁面與特定關鍵詞相關,那么它所連出去的頁面與該關鍵詞相關的可能性比較大,所以順著與特定關鍵詞相關的頁面出去的鏈接更可能找到其他關鍵詞相關的頁面。然而,這種僅僅利用父頁面與關鍵詞的相關度來預測子頁面與關鍵詞的相關度,并以此作為指導的聚焦爬蟲,不可避免地會錯失許多與該關鍵詞相關的頁面,如果統計聚焦爬蟲抓取的關鍵詞相關頁面與互聯網上所有的關鍵詞相關頁面的比率為抓取率,那么這種解決方案的抓取率是比較低的。
技術實現要素:針對現有技術存在的不足,本發(fā)明提供了一種在權重優(yōu)先的狀態(tài)下,按照關鍵詞和鏈接地址的重要性分配內部鏈接地址,通過分配內部鏈接地址,提升新產生的頁面優(yōu)先被搜索引擎抓取的效率的方法和裝置。本發(fā)明提出的一個技術方案為一種抓取網頁的方法,包括如下步驟:(1)根據新鏈接的關鍵詞和URL地址,計算所述新鏈接URL地址的關鍵詞的權重值;(2)將關鍵詞按照權重值生成關鍵詞列表;(3)從所述關鍵詞列表中提取關鍵詞放置到指定頁面里;(4)根據關鍵詞抓取頁面。本發(fā)明提出的另一個技術方案為一種抓取網頁的裝置,包括:權重計算模塊,用于根據得到的全部新鏈接的關鍵詞和URL地址,計算所述新鏈接URL地址的關鍵詞的權重值;關鍵詞列表生成模塊,用于將關鍵詞按照權重值生成關鍵詞列表;關鍵詞提取模塊,用于從所述關鍵詞列表中提取關鍵詞放置到指定頁面里;頁面抓取模塊,用于根據關鍵詞抓取頁面。本發(fā)明的有益效果在于通過內鏈接的平衡性,提高了搜索引擎的網頁抓取率:1.利用超鏈接的指向,人為指定重點內容,增加了新頁面的抓取效率,提高搜索引擎識別重點頁面效率。2.為新頁面按照權重值分配鏈接數,以達到提升搜索引擎抓取率。附圖說明圖1是本發(fā)明提出的抓取網頁的方法的流程圖;圖2是建立頁面ID與URL地址的對應表;圖3是提取關鍵詞放置到指定頁面的示意圖;圖4是本發(fā)明提出的抓取網頁的裝置的結構圖;圖5是本發(fā)明的技術方案實施前的鏈接模式示意圖;圖6是本發(fā)明的技術方案實施后的鏈接模式示意圖。具體實施方式下面結合附圖及實施例對本發(fā)明做進一步的說明。本發(fā)明提供了一種在權重優(yōu)先的狀態(tài)下,按照關鍵詞和鏈接地址的重要性分配內部鏈接地址,通過分配內部鏈接地址,提升新產生的頁面優(yōu)先被搜索引擎抓取的效率。包括以下兩步:1.在頁面中開辟板塊,板塊中設立N個鏈接位置。則總鏈接=頁面數*單頁鏈接數。2.為“新頁面”按照“權重值”分配鏈接數,以達到提升搜索引擎抓取率。如圖1所示,一種抓取網頁的方法,具體包括:步驟101,在頁面中開辟鏈接板塊。步驟102,在所述鏈接板塊中預留N個鏈接位置,其中N為自然數。步驟103,根據新鏈接的關鍵詞和URL地址,計算所述新鏈接URL地址的關鍵詞的權重值。步驟104,為所有頁面建立ID與URL地址的對應表,如圖2所示,此對應表的目的是為了將展示的“關鍵詞”和“展示頁面”關聯起來,所述ID為頁面的序列號。步驟105,將關鍵詞按照權重值生成關鍵詞列表。步驟106,從所述關鍵詞列表中提取關鍵詞放置到指定頁面里;例如,按照URL地址列表中的關鍵承載數量M,取M個關鍵詞放置到指定頁面里,M為自然數,從而達到內鏈接指向實際是按照權重高低來分配的效果,具體步驟如下:a)首先通過內部建立所有要推送的關鍵詞和URL地址列表;b)通過所述計算權重值公式得到關鍵詞對應的權重值;c)如圖3所示,將所有關鍵詞按照權重值倍數生成一個列表,稱為關鍵詞總列表,并將所有關鍵詞隨機打撒重新排列,再將所有關鍵詞混雜;例如A關鍵詞權重值=5,則在關鍵詞總列表里A關鍵詞出現五次,再將所有關鍵詞混雜。d)在所述ID與URL地址的對應表中按順序從所述關鍵詞總列表中按ID順序抽取M個關鍵詞展示到頁面中,如果超出所述關鍵詞總列表則進行循環(huán)處理。步驟107,根據關鍵詞抓取頁面。優(yōu)選地,上述基于權重優(yōu)先的搜索引擎抓取網頁的方法中還包括步驟:按照權重值定期更新所述關鍵詞列表。例如,每月整體更新1次或多次。如圖4所示,一種抓取網頁的裝置,包括:鏈接板塊開辟模塊201,用于在頁面中開辟鏈接板塊;預留鏈接位置模塊202,用于在所述鏈接板塊中預留N個鏈接位置,其中N為自然數;權重計算模塊203,用于根據得到的全部新鏈接的關鍵詞和URL地址,計算所述新鏈接URL地址的關鍵詞的權重值。對應表建立模塊204,用于為所有頁面建立ID與URL地址的對應表,如圖2所示,此對應表的目的是為了將展示的“關鍵詞”和“展示頁面”關聯起來,所述ID為頁面的序列號;關鍵詞列表生成模塊205,用于將關鍵詞按照權重值生成關鍵詞列表;關鍵詞提取模塊206,用于從所述關鍵詞列表中提取關鍵詞放置到指定頁面里;例如,按照URL地址列表中的關鍵承載數量M,取M個關鍵詞放置到指定頁面里,其中M為自然數,從而達到內鏈接指向實際是按照權重高低來分配的效果,具體操作步驟如下:a)首先通過內部建立所有要推送的關鍵詞和URL地址列表;b)通過所述計算權重值公式得到關鍵詞對應的權重值;c)如圖3所示,將所有關鍵詞按照權重值倍數生成一個列表,稱為關鍵詞總列表,并將所有關鍵詞隨機打撒重新排列,再將所有關鍵詞混雜;例如A關鍵詞權重值=5,則在關鍵詞總列表里A關鍵詞出現五次,再將所有關鍵詞混雜。d)在所述ID與URL地址的對應表中按順序從所述關鍵詞總列表中按ID順序抽取M個關鍵詞展示到頁面中,如果超出所述關鍵詞總列表則進行循環(huán)處理。頁面抓取模塊207,用于根據關鍵詞抓取頁面。優(yōu)選地,上述裝置還包括關鍵詞列表更新模塊208,用于按照權重值定期更新關鍵詞總列表。例如,每月整體更新1次或多次。本發(fā)明的技術方案通過內鏈接的平衡性,提高了搜索引擎的網頁抓取率。利用超鏈接的指向,人為指定重點內容,提高搜索引擎識別重點頁面效率,增加新頁面的抓取效率。本發(fā)明的技術方案實施前的鏈接模式如圖5所示,本發(fā)明的技術方案實施后鏈接模式如圖6所示。從圖5和圖6的對比可以看出,本發(fā)明按照關鍵詞和鏈接地址的重要性分配內部鏈接地址,通過分配內部鏈接地址,明顯提升了新產生的頁面優(yōu)先被搜索引擎抓取的效率。最后應當說明的是,以上實施例僅用以說明本發(fā)明的技術方案而非對其限制;盡管參照較佳實施例對本發(fā)明進行了詳細的說明,所屬領域的普通技術人員應當理解,依然可對本發(fā)明的具體實施方式進行修改或者對部分技術特征進行等同替換而不脫離本發(fā)明技術方案的精神,其均應當涵蓋本發(fā)明請求保護的技術方案范圍當中。