網(wǎng)頁正文抽取方法及裝置的制造方法

文檔序號：9432622閱讀：283來源：國知局

網(wǎng)頁正文抽取方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明設及計算機領域，尤其設及一種網(wǎng)頁正文抽取方法及裝置。
【背景技術】
[0002] 隨著因特網(wǎng)的高速發(fā)展，網(wǎng)絡上的信息呈爆炸式的增長，一般用戶會通過網(wǎng)頁瀏覽各類信息。而網(wǎng)頁上的文字主要有兩種，包括網(wǎng)頁所要表達的正文信息和無關正文的噪聲信息，噪聲信息包括網(wǎng)站導航、廣告、版權聲明、相關鏈接等各類噪聲信息，網(wǎng)頁所要表達的正文信息被包含在噪聲信息中，而對正文抽取就是要將網(wǎng)頁的正文信息準確、高效地提取出來。
[0003] 而現(xiàn)有技術中往往采用從HTML網(wǎng)頁中解析出D0M值ocument化ject Model,文檔對象模型）樹，而對不同類別和不同欄目的網(wǎng)頁做基于DOM樹結構的網(wǎng)頁信息抽取費時費力。
[0004] 因此，針對網(wǎng)絡中不同來源、結構，不同復雜度和規(guī)范化程度的網(wǎng)頁，需要提出一種新的具有通用性的網(wǎng)頁正文抽取方法，W準確地進行正文抽取。

【發(fā)明內容】
陽〇化]本發(fā)明旨在至少克服上述缺陷之一提供一種網(wǎng)頁正文抽取方法及裝置，能夠快速準確的進行正文抽取。
[0006] 為達到上述目的，本發(fā)明的技術方案具體是運樣實現(xiàn)的：
[0007] 本發(fā)明的一個方面提供了一種網(wǎng)頁正文抽取方法，包括：提取網(wǎng)頁HTML源碼中的 title標簽中的文本，W及h標簽中的文本；根據(jù)所述title標簽中的文本W(wǎng)及所述h標簽中的文本的文本相似度確定正文標題；提取網(wǎng)頁HTML源碼中的body標簽中的標簽源碼；對所述body標簽中的標簽源碼進行第一抽取處理，獲取第一網(wǎng)頁正文，其中：所述第一抽取處理至少包括利用所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理；確定行塊分布函數(shù)，并根據(jù)所述行塊分布函數(shù)抽取文本塊；對所述文本塊進行第二抽取處理，獲取第二網(wǎng)頁正文，其中：所述第二抽取處理至少包括利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理。
[0008] 另外，所述根據(jù)所述title標簽中的文本W(wǎng)及所述h標簽中的文本的文本相似度確定正文標題包括：計算所述title標簽中的文本W(wǎng)及所述h標簽中的文本的文本相似度，獲得第一計算結果；如果所述第一計算結果大于等于第一預設闊值，則確定所述title中的文本作為所述正文標題；如果所述第一計算結果小于所述第一預設闊值，則確定所述h 標簽中的文本作為所述正文標題。
[0009] 另外，所述利用所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理包括：對所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行融合計算，獲得第二計算結果；根據(jù)所述第二計算結果判斷當前信息是否為噪聲，進行去噪處理。
[0010]另外，所述第一抽取處理在利用所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理之后，還包括W下至少之一：去除HTML編碼處理、去除化vaScript腳本處理和去除特殊字符處理。
[0011] 另外，所述確定行塊分布函數(shù)，并根據(jù)所述行塊分布函數(shù)抽取文本塊包括：按照固定文本塊的塊長對所述第一網(wǎng)頁正文進行分塊，計算每個行塊中文本的字符數(shù)后構造出行塊分布函數(shù)；確定驟升點和驟降點，抽取位于所述驟升點和所述驟降點內的文本塊。
[0012] 另外，所述根據(jù)所述行塊分布函數(shù)抽取文本塊包括：記錄第一個加入抽取結果的文本塊的編號；計算當前文本塊與所述第一個加入抽取結果的文本塊之間的距離，獲得第 =計算結果；如果所述第=計算結果大于等于第=預設闊值，則判斷當前文本塊為噪聲，進行去噪處理。
[0013]另外，所述利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理包括：對位于所述驟升點和所述驟降點內的文本塊與所述正文標題的塊文本相似度，獲得第四計算結果；如果所述第四計算結果小于第四預設闊值，則將當前文本塊作為噪聲，進行去噪處理。
[0014]另外，所述利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理還包括：對所述文本塊進行網(wǎng)頁版權噪聲過濾。
[0015]另外，所述第二抽取處理在利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理之后，還包括：計算經(jīng)過所述利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理之后的網(wǎng)頁正文中的每一行與所述正文標題的行文本相似度，并計算行平均文本相似度，獲得第五計算結果；如果所述第五計算結果小于第五預設闊值，則根據(jù)所述行文本相似度對所述每一行進行行過濾處理。
[0016]另外，所述文本相似度可W通過如下之一進行計算：根據(jù)字或者詞語采用編輯距離進行計算；根據(jù)字或者詞語采用余弦距離進行計算。
[0017]本發(fā)明另一方面提供了一種網(wǎng)頁正文抽取裝置，包括：提取模塊，用于提取網(wǎng)頁HTML源碼中的title標簽中的文本，W及h標簽中的文本；確定模塊，用于根據(jù)所述title 標簽中的文本W(wǎng)及所述h標簽中的文本的文本相似度確定正文標題；所述提取模塊，還用于提取網(wǎng)頁HTML源碼中的body標簽中的標簽源碼；抽取模塊，用于對所述body標簽中的標簽源碼進行第一抽取處理，獲取第一網(wǎng)頁正文，其中：所述第一抽取處理至少包括利用所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度 W及行文本的中文字數(shù)進行去噪處理；所述確定模塊，還用于確定行塊分布函數(shù)；所述抽取模塊，還用于根據(jù)所述行塊分布函數(shù)抽取文本塊；對所述文本塊進行第二抽取處理，獲取第二網(wǎng)頁正文，其中：所述第二抽取處理至少包括利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理。
[0018]另外，所述確定模塊，通過如下方式根據(jù)所述title標簽中的文本W(wǎng)及所述h標簽中的文本的文本相似度確定正文計算所述title標簽中的文本W(wǎng)及所述h標簽中的文本的文本相似度，獲得第一計算結果；如果所述第一計算結果大于等于第一預設闊值，貝U 確定所述title中的文本作為所述正文標題；如果所述第一計算結果小于所述第一預設闊值，則確定所述h標簽中的文本作為所述正文標題。
[0019] 另外，所述抽取模塊，通過如下方式利用所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理：對所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行融合計算，獲得第二計算結果；根據(jù)所述第二計算結果判斷當前信息為噪聲，進行去噪處理。
[0020] 另外，所述抽取模塊，還用于在在利用所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理之后，進行W下至少之一的處理：去除HTML編碼處理、去除化vaScript腳本處理和去除特殊字符處理。
[0021] 另外，所述確定模塊，用于通過如下方式確定行塊分布函數(shù)：按照固定文本塊的塊長對所述第一網(wǎng)頁正文進行分塊，計算每個行塊中文本的字符數(shù)后構造出行塊分布函數(shù)；確定驟升點和驟降點；所述抽取模塊，用于通過如下方式根據(jù)所述行塊分布函數(shù)抽取文本塊：抽取位于所述驟升點和所述驟降點內的文本塊。
[0022] 另外，所述抽取模塊，通過如下方式根據(jù)所述行塊分布函數(shù)抽取文本塊：記錄第一個加入抽取結果的文本塊的編號；計算當前文本塊與所述第一個加入抽取結果的文本塊之間的距離，獲得第S計算結果；如果所述第S計算結果大于等于第S預設闊值，則判斷當前文本塊為噪聲，進行去噪處理。
[0023] 另外，所述抽取模塊，通過如下方式利用所述文本塊與所述正文標題的文本相似度進行過濾處理：對位于所述驟升點和所述驟降點內的文本塊與所述正文標題的塊文本相似度，獲得第四計算結果；如果所述第四計算結果小于第四預設闊值，則將當前文本塊作為噪聲，進行去噪處理。
[0024] 另外，所述抽取模塊還通過如下方式利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理：對所述文本塊進行網(wǎng)頁版權噪聲過濾。
[0025] 另外，所述抽取模塊還用于在利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理之后，進行W下的處理：計算經(jīng)過所述利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理之后的網(wǎng)頁正文中的每一行與所述正文標題的行文本相似度，并計算行平均文本相似度，獲得第五計算結果；如果所述第五計算結果小于第五預設闊值，則根據(jù)所述行文本相似度

完整全部詳細技術資料下載

當前第1頁1 2 3 4

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：朱國庫;蔣文保;
技術所有人：北京信息科技大學;
我是此專利的發(fā)明人

上一篇：一種用于法律咨詢服務的智能法律知識庫及其查詢系統(tǒng)的制作方法
上一篇：信息預測的方法和裝置的制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)頁正文自動抽取技術相關技術

java新聞網(wǎng)頁正文抽取相關技術

網(wǎng)頁新聞正文自動抽取相關技術

電壓抽取裝置相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

網(wǎng)頁正文抽取方法及裝置的制造方法