国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于網(wǎng)頁特征的正文信息抽取方法與流程

      文檔序號:11323260閱讀:283來源:國知局
      本發(fā)明涉及信息抽取
      技術(shù)領(lǐng)域
      :,尤其涉及一種基于網(wǎng)頁特征的正文信息抽取方法。
      背景技術(shù)
      ::互聯(lián)網(wǎng)技術(shù)的快速發(fā)展使得網(wǎng)頁成為人們獲得信息的主要來源之一。然而,隨著新事物的不斷涌現(xiàn),網(wǎng)頁數(shù)量也在以驚人的數(shù)量增長,不計其數(shù)的網(wǎng)頁中蘊含著豐富的信息資源,為了讓用戶快速獲取需要的信息,jimcowie和yorickwilks于1996年提出信息抽取這一概念。在這個發(fā)展過程中,已有很多學(xué)者根據(jù)不同的抽取需求提出了不同的信息抽取方法,如下所示:基于包裝器的方法主要利用網(wǎng)頁模塊化和結(jié)構(gòu)化的特征提取網(wǎng)頁正文,該方法根據(jù)頁面的布局特點、規(guī)律等設(shè)計統(tǒng)一的模板,對得到的模板進(jìn)行分析以獲取頁面中的正文。該方法需要人工編寫抽取規(guī)則,對于結(jié)構(gòu)相似的模板頁面能精確的定位到正文信息,但通用性不強,只適用于特定的頁面,無法處理種類繁多的web頁面。此外,人工書寫規(guī)則容易出錯,不便于維護(hù)?;诰W(wǎng)頁標(biāo)簽的方法依賴html語言中的特定標(biāo)簽(如:<table></table>、<p></p>等),這類方法一般適用于正文處于特定標(biāo)簽的情況,對特征標(biāo)簽有很大的依賴,對頁面的內(nèi)容布局有很高要求,處理其他布局類型的頁面將無法適用?;谖臋n樹的方法基本思路是將html網(wǎng)頁解析成dom樹的結(jié)構(gòu),通過統(tǒng)計節(jié)點的鏈接長度、文本長度、鏈接與文本數(shù)量比例等信息確定正文節(jié)點,根據(jù)路徑相似度抽取其他正文,最終整合成網(wǎng)頁正文。這種方法預(yù)處理工作較復(fù)雜,效率較低?;谝曈X特征的頁面分塊算法vips(visionbasedpagesegmentation),該算法根據(jù)頁面中的文字大小、背景顏色、邏輯塊和邏輯塊之間的間距等視覺表現(xiàn)特征來分割語義塊,達(dá)到頁面分塊的效果,對頁面塊之間水平和垂直方向的分隔條賦予權(quán)值并通過配置網(wǎng)頁信息抽取規(guī)則從中抽取信息。vips算法主要是將頁面進(jìn)行分塊,對于網(wǎng)頁信息提取需要信息抽取規(guī)則,使得這種方法通用性受限,增加了算法復(fù)雜度。技術(shù)實現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題是:提供一種具有較好的通用性和較高的準(zhǔn)確率的基于網(wǎng)頁特征的正文信息抽取方法。本發(fā)明所采用的技術(shù)方案是:一種基于網(wǎng)頁特征的正文信息抽取方法,它包括以下步驟:(1)、對網(wǎng)頁進(jìn)行預(yù)處理;(2)、將預(yù)處理后的網(wǎng)頁的所有行標(biāo)號并且統(tǒng)計每行的字符長度,形成一個初始文本;(3)、設(shè)置行文長度閾值l;(4)、然后遍歷步驟(2)中得到的初始文本,以當(dāng)前行的行文長度大于等于閾值l的行作為正文文本的起始行,以當(dāng)前行的行文長度為0的行作為結(jié)尾行,所述起始行與結(jié)尾行之間的部位成為一個正文組;(5)、然后繼續(xù)遍歷初始文本中的剩余部分,并且得到初始文本中的所有正文組;(6)、設(shè)置行距閾值d;(7)、檢測所有正文組之間的行距,若檢測到存在行距大于閾值d,則刪去這個行距下方的所有正文組,然后將其他正文組判定為網(wǎng)頁的正文部分;若沒有檢測到存在行距大于閾值d,則判斷所有的正文組均為網(wǎng)頁的正文部分。采用以上方法與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:通過行文長度來選擇起始行與結(jié)束行,并且通過行距來判斷是否屬于正文,這樣提取出來的正文部分準(zhǔn)確度較高,而且通用性也較高。作為優(yōu)選,步驟(7)后還包括以下步驟,(8)、從下到上檢測步驟(7)中得到的正文部分,直到檢測到有句號,然后將句號之前的部分判斷為真正的正文部分。通過檢測句號可以刪去一些直接連接在正文后面的評論、其他引用等不屬于正文的內(nèi)容,進(jìn)而使得提取出來的正文部分準(zhǔn)確度更高。作為優(yōu)選,所述步驟(1)中的預(yù)處理包括以下步驟:a、獲取網(wǎng)頁標(biāo)題;b、將網(wǎng)頁中的html標(biāo)簽過濾;c、刪除html符號實體。這樣在進(jìn)行行文長度篩選時先刪去很多會影響篩選準(zhǔn)確性的誤導(dǎo)因素,進(jìn)而使得提取出來的正文部分準(zhǔn)確性更高。具體實施方式以下通過具體實施方式對本發(fā)明做進(jìn)一步描述,但是本發(fā)明不僅限于以下具體實施方式。一種基于網(wǎng)頁特征的正文信息抽取方法,它包括以下步驟:(1)、對網(wǎng)頁進(jìn)行預(yù)處理;a、獲取網(wǎng)頁標(biāo)題;一般的網(wǎng)頁標(biāo)題處于<head>區(qū)域中標(biāo)簽<title>和</title>之間,在獲取網(wǎng)頁源碼后,提取標(biāo)簽<title>和</title>之間的內(nèi)容作為頁面標(biāo)題并保存。若無法提取到標(biāo)題,則從<body>區(qū)域中的<h1>標(biāo)簽提取;b、將網(wǎng)頁中的html標(biāo)簽過濾;即最好只保留文本信息;c、刪除html符號實體,包括空格、制表符、引號等(2)、將預(yù)處理后的網(wǎng)頁的所有行標(biāo)號并且統(tǒng)計每行的字符長度,形成一個初始文本;主要是統(tǒng)計文字的長度;(3)、設(shè)置行文長度閾值l;l一般取值為60-90;(4)、然后遍歷步驟(2)中得到的初始文本,以當(dāng)前行的行文長度大于等于閾值l的行作為正文文本的起始行,以當(dāng)前行的行文長度為0的行作為結(jié)尾行,所述起始行與結(jié)尾行之間的部位成為一個正文組;遍歷主要是指從上往下一行一行的掃描整個初始文本;(5)、然后繼續(xù)遍歷初始文本中的剩余部分,并且得到初始文本中的所有正文組;多個正文組可能就是多個段落;(6)、設(shè)置行距閾值d;d一般取值為8-12;(7)、檢測所有正文組之間的行距,若檢測到存在行距大于閾值d,則刪去這個行距下方的所有正文組,然后將其他正文組判定為網(wǎng)頁的正文部分;若沒有檢測到存在行距大于閾值d,則判斷所有的正文組均為網(wǎng)頁的正文部分;這里主要是指兩個段落之間的距離較長,這樣可以判斷后一個段落就不屬于正文部分了;(8)、從下到上檢測步驟(7)中得到的正文部分,直到檢測到有句號,然后將句號之前的部分判斷為真正的正文部分。技術(shù)特征:技術(shù)總結(jié)本發(fā)明涉及信息抽取
      技術(shù)領(lǐng)域
      :,尤其涉及一種基于網(wǎng)頁特征的正文信息抽取方法,它根據(jù)頁面布局等特征將頁面源碼預(yù)處理行號和文本的集合,然后通過行文本閾值以及行間距閾值來提取頁面正文部分,最后根據(jù)標(biāo)點符號來優(yōu)化提取結(jié)果。本方法對于不同類型的頁面有較好的效果,具有一定的通用性。技術(shù)研發(fā)人員:李曉林;劉志杰;謝婷婷;嚴(yán)柯;張懿受保護(hù)的技術(shù)使用者:武漢工程大學(xué)技術(shù)研發(fā)日:2017.05.17技術(shù)公布日:2017.10.13
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1