一種基于網(wǎng)頁特征的正文信息抽取方法與流程

文檔序號：11323260閱讀：283來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息抽取
技術(shù)領(lǐng)域：
：，尤其涉及一種基于網(wǎng)頁特征的正文信息抽取方法。
背景技術(shù)：
：：互聯(lián)網(wǎng)技術(shù)的快速發(fā)展使得網(wǎng)頁成為人們獲得信息的主要來源之一。然而，隨著新事物的不斷涌現(xiàn)，網(wǎng)頁數(shù)量也在以驚人的數(shù)量增長，不計其數(shù)的網(wǎng)頁中蘊含著豐富的信息資源，為了讓用戶快速獲取需要的信息，jimcowie和yorickwilks于1996年提出信息抽取這一概念。在這個發(fā)展過程中，已有很多學(xué)者根據(jù)不同的抽取需求提出了不同的信息抽取方法，如下所示：基于包裝器的方法主要利用網(wǎng)頁模塊化和結(jié)構(gòu)化的特征提取網(wǎng)頁正文，該方法根據(jù)頁面的布局特點、規(guī)律等設(shè)計統(tǒng)一的模板，對得到的模板進(jìn)行分析以獲取頁面中的正文。該方法需要人工編寫抽取規(guī)則，對于結(jié)構(gòu)相似的模板頁面能精確的定位到正文信息，但通用性不強，只適用于特定的頁面，無法處理種類繁多的web頁面。此外，人工書寫規(guī)則容易出錯，不便于維護(hù)?；诰W(wǎng)頁標(biāo)簽的方法依賴html語言中的特定標(biāo)簽（如：<table></table>、<p></p>等），這類方法一般適用于正文處于特定標(biāo)簽的情況，對特征標(biāo)簽有很大的依賴，對頁面的內(nèi)容布局有很高要求，處理其他布局類型的頁面將無法適用?；谖臋n樹的方法基本思路是將html網(wǎng)頁解析成dom樹的結(jié)構(gòu)，通過統(tǒng)計節(jié)點的鏈接長度、文本長度、鏈接與文本數(shù)量比例等信息確定正文節(jié)點，根據(jù)路徑相似度抽取其他正文，最終整合成網(wǎng)頁正文。這種方法預(yù)處理工作較復(fù)雜，效率較低?；谝曈X特征的頁面分塊算法vips（visionbasedpagesegmentation）,該算法根據(jù)頁面中的文字大小、背景顏色、邏輯塊和邏輯塊之間的間距等視覺表現(xiàn)特征來分割語義塊，達(dá)到頁面分塊的效果，對頁面塊之間水平和垂直方向的分隔條賦予權(quán)值并通過配置網(wǎng)頁信息抽取規(guī)則從中抽取信息。vips算法主要是將頁面進(jìn)行分塊，對于網(wǎng)頁信息提取需要信息抽取規(guī)則，使得這種方法通用性受限，增加了算法復(fù)雜度。技術(shù)實現(xiàn)要素：本發(fā)明所要解決的技術(shù)問題是：提供一種具有較好的通用性和較高的準(zhǔn)確率的基于網(wǎng)頁特征的正文信息抽取方法。本發(fā)明所采用的技術(shù)方案是：一種基于網(wǎng)頁特征的正文信息抽取方法，它包括以下步驟：（1）、對網(wǎng)頁進(jìn)行預(yù)處理；（2）、將預(yù)處理后的網(wǎng)頁的所有行標(biāo)號并且統(tǒng)計每行的字符長度，形成一個初始文本；（3）、設(shè)置行文長度閾值l；（4）、然后遍歷步驟（2）中得到的初始文本，以當(dāng)前行的行文長度大于等于閾值l的行作為正文文本的起始行，以當(dāng)前行的行文長度為0的行作為結(jié)尾行，所述起始行與結(jié)尾行之間的部位成為一個正文組；（5）、然后繼續(xù)遍歷初始文本中的剩余部分，并且得到初始文本中的所有正文組；（6）、設(shè)置行距閾值d；（7）、檢測所有正文組之間的行距，若檢測到存在行距大于閾值d，則刪去這個行距下方的所有正文組，然后將其他正文組判定為網(wǎng)頁的正文部分；若沒有檢測到存在行距大于閾值d，則判斷所有的正文組均為網(wǎng)頁的正文部分。采用以上方法與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點：通過行文長度來選擇起始行與結(jié)束行，并且通過行距來判斷是否屬于正文，這樣提取出來的正文部分準(zhǔn)確度較高，而且通用性也較高。作為優(yōu)選，步驟（7）后還包括以下步驟，（8）、從下到上檢測步驟（7）中得到的正文部分，直到檢測到有句號，然后將句號之前的部分判斷為真正的正文部分。通過檢測句號可以刪去一些直接連接在正文后面的評論、其他引用等不屬于正文的內(nèi)容，進(jìn)而使得提取出來的正文部分準(zhǔn)確度更高。作為優(yōu)選，所述步驟（1）中的預(yù)處理包括以下步驟：a、獲取網(wǎng)頁標(biāo)題；b、將網(wǎng)頁中的html標(biāo)簽過濾；c、刪除html符號實體。這樣在進(jìn)行行文長度篩選時先刪去很多會影響篩選準(zhǔn)確性的誤導(dǎo)因素，進(jìn)而使得提取出來的正文部分準(zhǔn)確性更高。具體實施方式以下通過具體實施方式對本發(fā)明做進(jìn)一步描述，但是本發(fā)明不僅限于以下具體實施方式。一種基于網(wǎng)頁特征的正文信息抽取方法，它包括以下步驟：（1）、對網(wǎng)頁進(jìn)行預(yù)處理；a、獲取網(wǎng)頁標(biāo)題；一般的網(wǎng)頁標(biāo)題處于<head>區(qū)域中標(biāo)簽<title>和</title>之間，在獲取網(wǎng)頁源碼后，提取標(biāo)簽<title>和</title>之間的內(nèi)容作為頁面標(biāo)題并保存。若無法提取到標(biāo)題，則從<body>區(qū)域中的<h1>標(biāo)簽提取；b、將網(wǎng)頁中的html標(biāo)簽過濾；即最好只保留文本信息；c、刪除html符號實體，包括空格、制表符、引號等（2）、將預(yù)處理后的網(wǎng)頁的所有行標(biāo)號并且統(tǒng)計每行的字符長度，形成一個初始文本；主要是統(tǒng)計文字的長度；（3）、設(shè)置行文長度閾值l；l一般取值為60-90；（4）、然后遍歷步驟（2）中得到的初始文本，以當(dāng)前行的行文長度大于等于閾值l的行作為正文文本的起始行，以當(dāng)前行的行文長度為0的行作為結(jié)尾行，所述起始行與結(jié)尾行之間的部位成為一個正文組；遍歷主要是指從上往下一行一行的掃描整個初始文本；（5）、然后繼續(xù)遍歷初始文本中的剩余部分，并且得到初始文本中的所有正文組；多個正文組可能就是多個段落；（6）、設(shè)置行距閾值d；d一般取值為8-12；（7）、檢測所有正文組之間的行距，若檢測到存在行距大于閾值d，則刪去這個行距下方的所有正文組，然后將其他正文組判定為網(wǎng)頁的正文部分；若沒有檢測到存在行距大于閾值d，則判斷所有的正文組均為網(wǎng)頁的正文部分；這里主要是指兩個段落之間的距離較長，這樣可以判斷后一個段落就不屬于正文部分了；（8）、從下到上檢測步驟（7）中得到的正文部分，直到檢測到有句號，然后將句號之前的部分判斷為真正的正文部分。技術(shù)特征：技術(shù)總結(jié)本發(fā)明涉及信息抽取
技術(shù)領(lǐng)域：
：，尤其涉及一種基于網(wǎng)頁特征的正文信息抽取方法，它根據(jù)頁面布局等特征將頁面源碼預(yù)處理行號和文本的集合，然后通過行文本閾值以及行間距閾值來提取頁面正文部分，最后根據(jù)標(biāo)點符號來優(yōu)化提取結(jié)果。本方法對于不同類型的頁面有較好的效果，具有一定的通用性。技術(shù)研發(fā)人員：李曉林;劉志杰;謝婷婷;嚴(yán)柯;張懿受保護(hù)的技術(shù)使用者：武漢工程大學(xué)技術(shù)研發(fā)日：2017.05.17技術(shù)公布日：2017.10.13

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李曉林;劉志杰;謝婷婷;嚴(yán)柯;張懿
技術(shù)所有人：武漢工程大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)頁信息抽取相關(guān)技術(shù)

網(wǎng)頁結(jié)構(gòu)化信息抽取相關(guān)技術(shù)

特征抽取相關(guān)技術(shù)

lr特征抽取相關(guān)技術(shù)

特征抽取方法相關(guān)技術(shù)

ug抽取幾何特征相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于網(wǎng)頁特征的正文信息抽取方法與流程