国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于統(tǒng)計回溯定位的網頁正文提取方法和裝置的制作方法

      文檔序號:6436328閱讀:228來源:國知局
      專利名稱:基于統(tǒng)計回溯定位的網頁正文提取方法和裝置的制作方法
      技術領域
      本發(fā)明涉及一種正文提取實現方法和裝置,尤其涉及一種基于統(tǒng)計回溯定位的網頁正文提取方法和裝置。
      背景技術
      隨著hternet的不斷發(fā)展,互聯網內的數據成指數型增長,已經成為巨大的、分布廣泛的信息源。這里面不乏我們需要的信息,但許多信息包含在浩如煙海的Web網頁中, 如何幫助人們迅速提取有效信息變成了當前最重要的問題。在這種背景下,網頁正文的自動化提取也越來越多受到相關研究人員研究與關注,現在主要的研究成果有基于模板的網頁正文提取方法,基于視覺特征的網頁正文提取方法(VIPS),基于統(tǒng)計的網頁正文提取方法等。下面簡單介紹這三種常用網頁正文的自動化提取方法,并對每種方法的特點進行分析。1、基于模板的網頁正文提取方法這種方法使用包裝器(Wrapper)來抽取網頁中的有效信息。包裝器是一個程序,該程序基于頁面的布局特征,針對特定的一類網頁,編寫解析器,解析出正文在頁面中的位置。這種方法的優(yōu)點是實現簡單,文本抽取準確率極高。 缺點是通用性差,每一類網頁都要編寫特定的包裝器,不適合大規(guī)模頁面的抽取,另外如果某一類頁面發(fā)生了變化,那么該類頁面的包裝器就會失效,必須重新修改。2、基于視覺特征的網頁正文提取方法微軟亞洲研究中心的研究員DengCai等提出了一種基于視覺的語義塊提取的方法,主要思路是依據DOM樹結構將整個頁面逐層迭代分解成語義塊,通過他們提出的VIPS算法給每個語義塊賦DOC (Degree of Coherence)值, 該值越大說明該語義塊內部內容之間的緊密程度越大。然后檢測語義塊之間的分隔條,并對其設置權重,再從權重最小的分隔條開始合并分隔條兩側的頁面塊,這個過程迭代進行, 直至構建出頁面的整個內容。這個方法的優(yōu)點是通用性強,從人對于網頁語義塊視覺感知的角度進行分析,是目前最接近人類認知的方法。其準確性由于目前為止還沒有成熟的應用,所以還無法檢驗。 它的缺點是實現過程過于復雜,由于網頁視覺特點的復雜性,導致VIPS具有算法規(guī)則過于復雜和性能低等缺陷,僅僅是DOC值的賦值過程就要遵循12條規(guī)則,在實際應用中可能還會增加更多的規(guī)則,因此,基于視覺特征的網頁正文提取方法目前還停留在理論層面上,有待實踐的檢驗。3、基于統(tǒng)計的網頁正文提取方法該方法對網頁特征從不同角度進行統(tǒng)計分析, 采用統(tǒng)計學原理進行正文特征分析并抽取正文。這種方法的優(yōu)點是通用性強、可維護性好。缺點是文本抽取的準確率有限,實際應用的系統(tǒng)往往會借鑒基于模板方法的經驗,能夠在一定程度上提高文本抽取的準確率。

      發(fā)明內容
      本發(fā)明的主要目的在于提供一種基于統(tǒng)計回溯定位的網頁正文提取方法和裝置,以自適應大多數網頁的正文提取需求。為了達到上述目的,本發(fā)明提供了一種基于統(tǒng)計回溯定位的網頁正文提取方法, 包括以下步驟解析步驟將網頁解析為DOM樹結構,按行分析網頁,得到每一行的純文本長度;排序步驟對該DOM樹中的所有行根據純文本長度由高到低進行排序;回溯步驟從純文本長度最長的行開始,依次取出該DOM樹中的行,以該行中純文本最長的文本節(jié)點為起點進行回溯,將與該文本節(jié)點具有相同特征值的所有文本節(jié)點放到一節(jié)點組中,并計算該節(jié)點組的文本集中度,取文本集中度最高的節(jié)點組作為目標節(jié)點組;回溯結果分析步驟將目標節(jié)點組中的純文本率大于純文本率閾值的目標節(jié)點定為正文候選節(jié)點;輸出步驟輸出正文候選節(jié)點。實施時,在回溯步驟中,所述特征值包括標簽名和屬性。實施時,所述回溯步驟還包括當所述特征值包括ID屬性時,將所述ID屬性的屬性值中的數字去除。實施時,本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取方法在解析步驟和排序步驟之間還包含整理步驟;所述整理步驟包括將網頁中純文本長度為零的行刪除,所述純文本長度為零的行為僅有換行符的行。實施時,在回溯步驟中,以該行中純文本最長的文本節(jié)點為起點進行回溯步驟包括如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度不同,則以該行中純文本最長的文本節(jié)點為起點進行回溯;如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度相同,則任選該多個文本節(jié)點中的一個文本節(jié)點為起點進行回溯;如果該行僅有一個文本節(jié)點,則以該文本節(jié)點為起點進行回溯。實施時,本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取方法在回溯結果分析步驟和輸出步驟之間還包括判斷步驟;判斷步驟包括判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似, 如果相似則結束,否則轉至輸出步驟;在判斷步驟中,所述判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容的相似度是否大于一預先設定的相似度閾值。實施時,在判斷步驟中,判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括判斷該正文候選節(jié)點的純文本長度是否大于純文本長度閾值,如果是則直接輸出該正文候選節(jié)點,否則采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度,根據該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似。
      實施時,在判斷步驟中,當所述目標節(jié)點組內的節(jié)點數大于5時,采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度步驟包括采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的兩端節(jié)點和中間三個節(jié)點之間的相似度。實施時,判斷步驟還包括判斷該正文候選節(jié)點的特征值是否含有隱藏屬性,如果含有則結束,否則轉至輸出步驟。實施時,本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取方法在回溯結果分析步驟和判斷步驟之間還包括已發(fā)現純文本率判斷步驟;已發(fā)現純文本率判斷步驟包括判斷當前已發(fā)現純文本長度占全文純文本長度的比例是否小于一預先設定的已發(fā)現純文本率閾值,如果是則轉至回溯結果分析步驟,否則轉至判斷步驟。實施時,在回溯結果分析步驟中,純文本率閾值是50% ;在判斷步驟中,所述相似度閾值是50 % ;在所述已發(fā)現純文本率判斷步驟中,所述已發(fā)現純文本率閾值是60 %,所述純文本長度閾值是100。本發(fā)明還提供了一種基于統(tǒng)計回溯定位的網頁正文提取裝置,包括依次連接的解析模塊,排序模塊、回溯模塊、回溯結果分析模塊和輸出模塊,其中,所述解析模塊,用于將網頁解析為DOM樹結構,按行分析網頁,得到每一行的純文本長度;所述排序模塊,用于對該DOM樹中的所有行根據純文本長度由高到低進行排序;所述回溯模塊,用于從純文本長度最長的行開始,依次取出該DOM樹中的行,以該行中純文本最長的文本節(jié)點為起點進行回溯,將與該文本節(jié)點具有相同特征值的所有文本節(jié)點放到一節(jié)點組中,并計算該節(jié)點組的文本集中度,取文本集中度最高的節(jié)點組作為目標節(jié)點組;所述回溯結果分析模塊,用于將目標節(jié)點組中的純文本率大于純文本率閾值的目標節(jié)點定為正文候選節(jié)點;所述輸出模塊,用于輸出正文候選節(jié)點。實施時,所述特征值包括標簽名和屬性。實施時,所述回溯模塊還用于當所述特征值包括ID屬性時將所述ID屬性的屬性值中的數字去除。實施時,本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取裝置還包括整理模塊, 其連接于解析模塊和排序模塊之間;所述整理模塊用于將網頁中純文本長度為零的行刪除,所述純文本長度為零的行為僅有換行符的行。實施時,所述回溯模塊以該行中純文本最長的文本節(jié)點為起點進行回溯步驟包括如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度不同,則所述回溯模塊以該行中純文本最長的文本節(jié)點為起點進行回溯;如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度相同,則所述回溯模塊任選該多個文本節(jié)點中的一個文本節(jié)點為起點進行回溯;如果該行僅有一個文本節(jié)點,則所述回溯模塊以該文本節(jié)點為起點進行回溯。
      實施時,本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取裝置還包括判斷模塊, 其連接于回溯結果分析模塊和輸出模塊之間;所述判斷模塊,用于判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似,如果相似則控制關閉所述輸出模塊,否則開啟所述輸出模塊;所述判斷模塊判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括所述判斷模塊判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容的相似度是否大于一預先設定的相似度閾值。實施時,所述判斷模塊判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括所述判斷模塊判斷該正文候選節(jié)點的純文本長度是否大于純文本長度閾值,如果是則直接輸出該正文候選節(jié)點,否則采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度,根據該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似。實施時,當所述目標節(jié)點組內的節(jié)點數大于5時,所述判斷模塊采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度步驟包括所述判斷模塊采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的兩端節(jié)點和中間三個節(jié)點之間的相似度。實施時,所述判斷模塊還用于判斷該正文候選節(jié)點的特征值是否含有隱藏屬性, 如果含有則控制關閉所述輸出模塊,否則控制開啟所述輸出模塊。實施時,本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取裝置還包括已發(fā)現純文本率判斷模塊,其連接于所述回溯結果分析模塊和所述判斷模塊之間;所述已發(fā)現純文本率判斷模塊,用于判斷當前已發(fā)現純文本長度占全文純文本長度的比例是否小于一預先設定的已發(fā)現純文本率閾值,如果是則控制開啟所述回溯結果分析模塊,否則控制開啟所述判斷模塊。實施時,所述純文本率閾值是50%,所述相似度閾值是50%,所述已發(fā)現純文本率閾值是60%,所述純文本長度閾值是100。與現有技術相比,本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取方法和裝置, 通用性強、可維護性好、適用面廣,可自適應大多數網頁的正文提取需求。


      圖1是本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取方法的一實施例的流程圖;圖2是本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取裝置的一實施例的結構框圖。
      具體實施例方式本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取方法和裝置,通過統(tǒng)計網頁中各行的純文本長度,并通過回溯找到正文所在節(jié)點。網頁的正文內容大多數都有一個獨享標簽,該獨享標簽是正文所在標簽,一般情況下,該獨享標簽中只含有正文內容,網頁正文內容是由一個或多個獨享標簽組成,因此, 提取網頁正文的重點即由找文本變?yōu)檎要毾順撕?。本發(fā)明通過計算文本集中率來找出網頁正文的獨享標簽,文本集中率表示為純文本長度和文本節(jié)點個數的比值,文本節(jié)點越少而純文本越多則文本集中率越大,反之亦然。所述純文本是指網頁中除去標簽、樣式代碼、腳本代碼、鏈接、表單控件的內容。在實際應用中,文本集中率的比較是以節(jié)點組為單位進行的,該節(jié)點組指的是多個節(jié)點放在一起的組合。在本發(fā)明中,如果正文只分布在一個獨享節(jié)點中則節(jié)點組的長度為1,當正文分布在η個獨享節(jié)點中時,節(jié)點組長度為η。所述獨享節(jié)點是最大程度包含純文本內容的節(jié)點,一個獨享節(jié)點被某一段正文所獨自占有。當有一個文本節(jié)點時,判斷其是不是獨享節(jié)點,分別計算本節(jié)點和父節(jié)點的文本集中率并比對,如果父節(jié)點比本節(jié)點大,則繼續(xù)分析父節(jié)點,一直回溯遇到文本集中率最大的節(jié)點,最大文本集中率的節(jié)點我們認為是獨享節(jié)點,其中添加了一些規(guī)則如果文本節(jié)點是<span>或
      則在比較時忽略本身的文本集中率。例如,如果有幾個含有純文本的節(jié)點簇擁在一起,那么這幾個節(jié)點的父節(jié)點就很有可能是獨享節(jié)點。在找到網頁正文的獨享節(jié)點后,就要輸出該獨享節(jié)點,此時輸出的獨享節(jié)點可能會含有噪音,對于不同類型的噪音本發(fā)明使用了相應的規(guī)則進行去噪,規(guī)則列舉如下規(guī)則一(純文本率規(guī)則)如果程序誤判獨享節(jié)點則會造成大量噪音出現,被誤判的節(jié)點多為廣告鏈接節(jié)點或其他非正文節(jié)點,這些節(jié)點的特征是含有一定量的純文本或文本集中率較高,想要排除它們的最好方法是計算這些節(jié)點的純文本率,所述純文本率是指純文本占所有文本的比例,該所有文本只包括純文本和鏈接文本,因此純文本率表示為純文本長度和該所有文本長度的比值。如果一節(jié)點的鏈接文本長度大于純文本長度,則認為該節(jié)點為假的獨享節(jié)點, 則將其拋棄。規(guī)則二(相似節(jié)點規(guī)則)出現噪音的另一個原因是獨享節(jié)點可能會包含一些無用信息,如評論式網頁中的用戶信息。所述評論式網頁是指有不連續(xù)的短篇文字的網頁,文本內容分布分散。如果該用戶信息展示的都是一些用戶屬性值,而且該些用戶屬性值大多相似,則該用戶信息不能算有效信息。本發(fā)明利用相似度判斷網頁內獨享節(jié)點組中的節(jié)點的內容的相似度是否大于一預先設定的閾值(該閾值例如可以為50%),如果是則拋棄該節(jié)點。如果有很多需要比較的節(jié)點,無需全部兩兩比較一遍,只需要均勻地比較其中幾個便可以說明全部情況(如只比較兩頭的節(jié)點和中間的節(jié)點)。所述獨享節(jié)點組是指分析出來獨享節(jié)點后,程序會把屬性名稱和屬性相同(刨除了屬性名為id屬性)的獨享節(jié)點分成獨享節(jié)點組,相似節(jié)點的處理都是在獨享節(jié)點組內進行的。在本發(fā)明中,相似度的計算引用了文本編輯距離算法,該算法大致描述如下A和B文本編輯距離就是A變成B要做的增、刪、改的操作次數,這個次數越大說明 A和B的差別越大。該算法對于短文本的文本距離計算非常適合,因為大文本(文本長度大于100的文本)的比較很耗性能而且大文本在網頁的地位肯定重要,所以如果是大文本,則規(guī)定不用比較直接輸出。規(guī)則三(隱藏屬性規(guī)則):噪音的另一個原因是輸出了應該隱藏的正文內容,在正文提取中,不得不考慮文本在瀏覽器的實際效果,如果該文本存在但不顯示,則認為它不是有效信息最起碼不是這篇網頁的中心話題,因此在正文提取時也要排除掉。不顯示在瀏覽器則就是隱藏屬性的作用,檢查標簽屬性中是否含有display none或visibi 1 ity hidden便可以達到此目的。如圖1所示,本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取方法的一實施例, 包括以下步驟解析步驟11 將網頁解析為DOM樹結構,按行分析網頁,得到每一行的純文本長度;排序步驟12 對該DOM樹中的所有行根據純文本長度由高到低進行排序;回溯步驟13 從純文本長度最長的行開始,依次取出該DOM樹中的行,以該行中純文本最長的文本節(jié)點為起點進行回溯,將與該文本節(jié)點具有相同特征值的所有文本節(jié)點放到一節(jié)點組中,并計算該節(jié)點組的文本集中度,取文本集中度最高的節(jié)點組作為目標節(jié)點組;回溯結果分析步驟14 將目標節(jié)點組中的純文本率比純文本率閾值低的目標節(jié)點篩掉,保留純文本率大于純文本率閾值的目標節(jié)點,并將其定位正文候選節(jié)點;輸出步驟15 輸出該正文候選節(jié)點的內容。實施時,在回溯步驟13中,所述特征值包括標簽名和屬性。實施時,所述回溯步驟13還包括當所述特征值包括ID屬性時,將所述ID屬性的屬性值中的數字去除。實施時,在解析步驟11和排序步驟12之間還包含整理步驟;所述整理步驟包括將網頁中純文本長度為零的行刪除,所述純文本長度為零的行為僅有換行符的行。實施時,在回溯步驟中13,以該行中純文本最長的文本節(jié)點為起點進行回溯步驟包括如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度不同,則以該行中純文本最長的文本節(jié)點為起點進行回溯;如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度相同,則任選該多個文本節(jié)點中的一個文本節(jié)點為起點進行回溯;如果該行僅有一個文本節(jié)點,則以該文本節(jié)點為起點進行回溯。實施時,在回溯結果分析步驟14和輸出步驟15之間還包括判斷步驟;判斷步驟包括判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似, 如果相似則結束,否則轉至輸出步驟15 ;在判斷步驟中,所述判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容的相似度是否大于一預先設定的相似度閾值。實施時,在判斷步驟中,判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括判斷該正文候選節(jié)點的純文本長度是否大于純文本長度閾值,如果是則直接輸出該正文候選節(jié)點,否則采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度,根據該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似。實施時,在判斷步驟中,當所述目標節(jié)點組內的節(jié)點數大于5時,采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度步驟包括采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的兩端節(jié)點和中間三個節(jié)點之間的相似度。實施時,判斷步驟還包括判斷該正文候選節(jié)點的特征值是否含有隱藏屬性,如果含有則結束,否則轉至輸出步驟。實施時,在回溯結果分析步驟14和判斷步驟之間還包括已發(fā)現純文本率判斷步驟;已發(fā)現純文本率判斷步驟包括判斷當前已發(fā)現純文本長度占全文純文本長度的比例是否小于一預先設定的已發(fā)現純文本率閾值,如果是則轉至回溯結果分析步驟14,否則轉至判斷步驟。實施時,在回溯結果分析步驟14中,純文本率閾值是50% ;在判斷步驟中,所述相似度閾值是50 % ;在所述已發(fā)現純文本率判斷步驟中,所述已發(fā)現純文本率閾值是60 %,所述純文本長度閾值是100。根據另一種具體實施方式
      ,本發(fā)明所述的基于統(tǒng)計回溯定位的網頁正文提取方法包括以下步驟步驟一將網頁解析成DOM樹結構,例如可以使用開源組件HtmlParser將網頁解析成DOM樹結構。步驟二(統(tǒng)計與整理步驟)1、統(tǒng)計節(jié)點,把相同特征值的節(jié)點歸為一類;所述特征值包括標簽名和節(jié)點的所有屬性;把網頁解析成DOM樹后,每個標簽都可以認為是一個節(jié)點,標簽的屬性就是節(jié)點的屬性。然而對于含有ID屬性的標簽要特殊處理,因為有些論壇網頁中的帖子所在節(jié)點的ID多為增量的編號,如
      <div id="replyl">
      回復1; </div>
      <div id="replylOO">
      回復100; </div>
      本實施例采取的方法是把ID屬性值中的數字去掉,即<div id = " replyl" >的特征值為 “div id = reply".,2、按行分析網頁,得到每一行的純文本長度。統(tǒng)計全文純文本長度WholeLength, 這個過程也在解析網頁的過程中進行;在解析網頁的同時得到原格式每一行的純文本長度,DOM樹的解析過程是把每個標簽和文本都轉換成節(jié)點,并保存節(jié)點關系。在解析過程中, 換行符(\n)可以告知每一行的結束。3.把一些空文本行(只含換行符)以及長度很小的文本行進行排除,用以提高效率,然后對所有的行根據純文本長度由高到低排序。步驟三(回溯與文本集中度計算步驟)1.依次取出一行(這是一個遞歸過程,從最長的行開始,取過的不再取),找出行內最重要的文本節(jié)點;如果這行有多個節(jié)點,則純文本最長的節(jié)點是最重要的節(jié)點,如果改行只是某個節(jié)點的一部分純文本,則這個該節(jié)點就是最重要的節(jié)點。以該行內最重要的節(jié)點為起點回溯,每回溯一層節(jié)點,找出與該節(jié)點相同特征值的所有節(jié)點(前面已作節(jié)點統(tǒng)計),放到一個節(jié)點組中。其中,所述最重要的節(jié)點是指如果這行有多個節(jié)點,則純文本最長的節(jié)點是最重要的節(jié)點;如果該行只是某個節(jié)點的一部分純文本,則這個該節(jié)點就是最重要的節(jié)點。每層節(jié)點泛指節(jié)點回溯過程中遇到的每個節(jié)點;如果取出的是第三行,就以第三行中最重要的節(jié)點為起點,回溯它的父節(jié)點,回溯在DOM節(jié)點中表達的意思是指找父節(jié)點;2.計算節(jié)點組文本集中度。文本集中度是節(jié)點組的所含純文本長度與節(jié)點的總個數的比值。公式表示為
      Concentration(文本集中度^她^夠;!正^度)
      NodeCount(節(jié)點個數)回溯完成后(一般回溯至<body>標簽即算完成),取此次回溯過程中遇到的最大文本集中度的節(jié)點組,稱為目標節(jié)點組。3.在回溯過程中要記錄已處理過的節(jié)點特征值,避免下次回溯重復處理。步驟四(回溯結果分析步驟)1.迭代回溯返回的目標節(jié)點組,計算節(jié)點組的純文本率,純文本率是純文本長度與含有鏈接的純文本長度的比值
      PlarnTextRatromXifm ~嚇輸
      料)-MText(總文本長度)其中鏈接文本長度是指純文本長度+鏈接文本長度。如果PlainTextRatio大于閾值R(R的取值一般為0. 5比較合適。這個可根據需求而定,當寧缺毋濫時該值可設的大一點,反之亦然)則把該節(jié)點定為正文候選節(jié)點,等待抽取。如果PlainTextRatio小于R 則認為該節(jié)點是噪音節(jié)點,將其拋棄。2.統(tǒng)計當前已發(fā)現純文本長度kenLength占全文純文本WholeLength的比例,所述已發(fā)現純文本長度kenLength為所述正文候選節(jié)點內的純文本長度;該比例表示為SeenRatio
      權利要求
      1.一種基于統(tǒng)計回溯定位的網頁正文提取方法,其特征在于,包括以下步驟 解析步驟將網頁解析為DOM樹結構,按行分析網頁,得到每一行的純文本長度; 排序步驟對該DOM樹中的所有行根據純文本長度由高到低進行排序;回溯步驟從純文本長度最長的行開始,依次取出該DOM樹中的行,以該行中純文本最長的文本節(jié)點為起點進行回溯,將與該文本節(jié)點具有相同特征值的所有文本節(jié)點放到一節(jié)點組中,并計算該節(jié)點組的文本集中度,取文本集中度最高的節(jié)點組作為目標節(jié)點組;回溯結果分析步驟將目標節(jié)點組中的純文本率大于純文本率閾值的目標節(jié)點定為正文候選節(jié)點;輸出步驟輸出正文候選節(jié)點。
      2.如權利要求1所述的基于統(tǒng)計回溯定位的網頁正文提取方法,其特征在于,在回溯步驟中,所述特征值包括標簽名和屬性。
      3.如權利要求2所述的基于統(tǒng)計回溯定位的網頁正文提取方法,其特征在于,所述回溯步驟還包括當所述特征值包括ID屬性時,將所述ID屬性的屬性值中的數字去除。
      4.如權利要求1所述的基于統(tǒng)計回溯定位的網頁正文提取方法,其特征在于,在解析步驟和排序步驟之間還包含整理步驟;所述整理步驟包括將網頁中純文本長度為零的行刪除,所述純文本長度為零的行為僅有換行符的行。
      5.如權利要求1所述的基于統(tǒng)計回溯定位的網頁正文提取方法,其特征在于,在回溯步驟中,以該行中純文本最長的文本節(jié)點為起點進行回溯步驟包括如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度不同,則以該行中純文本最長的文本節(jié)點為起點進行回溯;如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度相同,則任選該多個文本節(jié)點中的一個文本節(jié)點為起點進行回溯;如果該行僅有一個文本節(jié)點,則以該文本節(jié)點為起點進行回溯。
      6.如權利要求1所述的基于統(tǒng)計回溯定位的網頁正文提取方法,其特征在于,在回溯結果分析步驟和輸出步驟之間還包括判斷步驟;判斷步驟包括判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似,如果相似則結束,否則轉至輸出步驟;在判斷步驟中,所述判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容的相似度是否大于一預先設定的相似度閾值。
      7.如權利要求6所述的基于統(tǒng)計回溯定位的網頁正文提取方法,其特征在于,在判斷步驟中,判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括判斷該正文候選節(jié)點的純文本長度是否大于純文本長度閾值,如果是則直接輸出該正文候選節(jié)點,否則采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度,根據該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似。
      8.如權利要求7所述的基于統(tǒng)計回溯定位的網頁正文提取方法,其特征在于,在判斷步驟中,當所述目標節(jié)點組內的節(jié)點數大于5時,采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度步驟包括采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的兩端節(jié)點和中間三個節(jié)點之間的相似度。
      9.如權利要求6至8中任一權利要求所述的基于統(tǒng)計回溯定位的網頁正文提取方法, 其特征在于,判斷步驟還包括判斷該正文候選節(jié)點的特征值是否含有隱藏屬性,如果含有則結束,否則轉至輸出步驟。
      10.如權利要求6至8中任一權利要求所述的基于統(tǒng)計回溯定位的網頁正文提取方法, 其特征在于,在回溯結果分析步驟和判斷步驟之間還包括已發(fā)現純文本率判斷步驟;已發(fā)現純文本率判斷步驟包括判斷當前已發(fā)現純文本長度占全文純文本長度的比例是否小于一預先設定的已發(fā)現純文本率閾值,如果是則轉至回溯結果分析步驟,否則轉至判斷步驟。
      11.如權利要求10所述的基于統(tǒng)計回溯定位的網頁正文提取方法,其特征在于,在回溯結果分析步驟中,純文本率閾值是50% ;在判斷步驟中,所述相似度閾值是50% ;在所述已發(fā)現純文本率判斷步驟中,所述已發(fā)現純文本率閾值是60%,所述純文本長度閾值是 100。
      12.一種基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,包括依次連接的解析模塊,排序模塊、回溯模塊、回溯結果分析模塊和輸出模塊,其中,所述解析模塊,用于將網頁解析為DOM樹結構,按行分析網頁,得到每一行的純文本長度;所述排序模塊,用于對該DOM樹中的所有行根據純文本長度由高到低進行排序;所述回溯模塊,用于從純文本長度最長的行開始,依次取出該DOM樹中的行,以該行中純文本最長的文本節(jié)點為起點進行回溯,將與該文本節(jié)點具有相同特征值的所有文本節(jié)點放到一節(jié)點組中,并計算該節(jié)點組的文本集中度,取文本集中度最高的節(jié)點組作為目標節(jié) ;^^會冃. 所述回溯結果分析模塊,用于將目標節(jié)點組中的純文本率大于純文本率閾值的目標節(jié)點定為正文候選節(jié)點;所述輸出模塊,用于輸出正文候選節(jié)點。
      13.如權利要求12所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,所述特征值包括標簽名和屬性。
      14.如權利要求13所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,所述回溯模塊還用于當所述特征值包括ID屬性時將所述ID屬性的屬性值中的數字去除。
      15.如權利要求12所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,還包括整理模塊,其連接于解析模塊和排序模塊之間;所述整理模塊用于將網頁中純文本長度為零的行刪除,所述純文本長度為零的行為僅有換行符的行。
      16.如權利要求12所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,所述回溯模塊以該行中純文本最長的文本節(jié)點為起點進行回溯步驟包括如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度不同,則所述回溯模塊以該行中純文本最長的文本節(jié)點為起點進行回溯;如果該行有多個文本節(jié)點,且該多個文本節(jié)點的純文本長度相同,則所述回溯模塊任選該多個文本節(jié)點中的一個文本節(jié)點為起點進行回溯;如果該行僅有一個文本節(jié)點,則所述回溯模塊以該文本節(jié)點為起點進行回溯。
      17.如權利要求12所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,還包括判斷模塊,其連接于回溯結果分析模塊和輸出模塊之間;所述判斷模塊,用于判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似, 如果相似則控制關閉所述輸出模塊,否則開啟所述輸出模塊;所述判斷模塊判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括所述判斷模塊判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容的相似度是否大于一預先設定的相似度閾值。
      18.如權利要求17所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,所述判斷模塊判斷一正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似步驟包括所述判斷模塊判斷該正文候選節(jié)點的純文本長度是否大于純文本長度閾值,如果是則直接輸出該正文候選節(jié)點,否則采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度,根據該相似度是否大于所述相似度閾值以判斷該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點內容是否相似。
      19.如權利要求18所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,當所述目標節(jié)點組內的節(jié)點數大于5時,所述判斷模塊采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的節(jié)點之間的相似度步驟包括所述判斷模塊采用編輯距離算法計算該正文候選節(jié)點對應的目標節(jié)點組內的兩端節(jié)點和中間三個節(jié)點之間的相似度。
      20.如權利要求17至19中任一權利要求所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,所述判斷模塊還用于判斷該正文候選節(jié)點的特征值是否含有隱藏屬性,如果含有則控制關閉所述輸出模塊,否則控制開啟所述輸出模塊。
      21.如權利要求17至19中任一權利要求所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,還包括已發(fā)現純文本率判斷模塊,其連接于所述回溯結果分析模塊和所述判斷模塊之間;所述已發(fā)現純文本率判斷模塊,用于判斷當前已發(fā)現純文本長度占全文純文本長度的比例是否小于一預先設定的已發(fā)現純文本率閾值,如果是則控制開啟所述回溯結果分析模塊,否則控制開啟所述判斷模塊。
      22.如權利要求21所述的基于統(tǒng)計回溯定位的網頁正文提取裝置,其特征在于,純文本率閾值是50 %,所述相似度閾值是50 %,所述已發(fā)現純文本率閾值是60 %,所述純文本長度閾值是100。
      全文摘要
      本發(fā)明提供了一種基于統(tǒng)計回溯定位的網頁正文提取方法和裝置。所述基于統(tǒng)計回溯定位的網頁正文提取方法包括以下步驟將網頁解析為DOM樹結構,按行分析網頁,得到每一行的純文本長度;對該DOM樹中的所有行根據純文本長度由高到低進行排序;從純文本長度最長的行開始,依次取出該DOM樹中的行,以該行中純文本最長的文本節(jié)點為起點進行回溯,將與該文本節(jié)點具有相同特征值的所有文本節(jié)點放到一節(jié)點組中,并計算該節(jié)點組的文本集中度,取文本集中度最高的節(jié)點組作為目標節(jié)點組;將目標節(jié)點組中的純文本率大于純文本率閾值的目標節(jié)點定為正文候選節(jié)點;輸出正文候選節(jié)點。本發(fā)明通用性強、可維護性好、適用面廣,可自適應大多數網頁的正文提取需求。
      文檔編號G06F17/27GK102314520SQ20111032622
      公開日2012年1月11日 申請日期2011年10月24日 優(yōu)先權日2011年10月24日
      發(fā)明者樊慶沖 申請人:莫雅靜
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1