網(wǎng)頁正文抽取方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明設及計算機領域,尤其設及一種網(wǎng)頁正文抽取方法及裝置。
【背景技術】
[0002] 隨著因特網(wǎng)的高速發(fā)展,網(wǎng)絡上的信息呈爆炸式的增長,一般用戶會通過網(wǎng)頁瀏 覽各類信息。而網(wǎng)頁上的文字主要有兩種,包括網(wǎng)頁所要表達的正文信息和無關正文的噪 聲信息,噪聲信息包括網(wǎng)站導航、廣告、版權聲明、相關鏈接等各類噪聲信息,網(wǎng)頁所要表達 的正文信息被包含在噪聲信息中,而對正文抽取就是要將網(wǎng)頁的正文信息準確、高效地提 取出來。
[0003] 而現(xiàn)有技術中往往采用從HTML網(wǎng)頁中解析出D0M值ocument化ject Model,文檔 對象模型)樹,而對不同類別和不同欄目的網(wǎng)頁做基于DOM樹結構的網(wǎng)頁信息抽取費時費 力。
[0004] 因此,針對網(wǎng)絡中不同來源、結構,不同復雜度和規(guī)范化程度的網(wǎng)頁,需要提出一 種新的具有通用性的網(wǎng)頁正文抽取方法,W準確地進行正文抽取。
【發(fā)明內容】
陽〇化]本發(fā)明旨在至少克服上述缺陷之一提供一種網(wǎng)頁正文抽取方法及裝置,能夠快速 準確的進行正文抽取。
[0006] 為達到上述目的,本發(fā)明的技術方案具體是運樣實現(xiàn)的:
[0007] 本發(fā)明的一個方面提供了一種網(wǎng)頁正文抽取方法,包括:提取網(wǎng)頁HTML源碼中的 title標簽中的文本,W及h標簽中的文本;根據(jù)所述title標簽中的文本W(wǎng)及所述h標 簽中的文本的文本相似度確定正文標題;提取網(wǎng)頁HTML源碼中的body標簽中的標簽源 碼;對所述body標簽中的標簽源碼進行第一抽取處理,獲取第一網(wǎng)頁正文,其中:所述第一 抽取處理至少包括利用所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所 述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理;確定行塊分布函數(shù),并根 據(jù)所述行塊分布函數(shù)抽取文本塊;對所述文本塊進行第二抽取處理,獲取第二網(wǎng)頁正文,其 中:所述第二抽取處理至少包括利用所述文本塊與所述正文標題的塊文本相似度進行過濾 處理。
[0008] 另外,所述根據(jù)所述title標簽中的文本W(wǎng)及所述h標簽中的文本的文本相似度 確定正文標題包括:計算所述title標簽中的文本W(wǎng)及所述h標簽中的文本的文本相似度, 獲得第一計算結果;如果所述第一計算結果大于等于第一預設闊值,則確定所述title中 的文本作為所述正文標題;如果所述第一計算結果小于所述第一預設闊值,則確定所述h 標簽中的文本作為所述正文標題。
[0009] 另外,所述利用所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所 述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理包括:對所述body標簽中 的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度W及行文本的中 文字數(shù)進行融合計算,獲得第二計算結果;根據(jù)所述第二計算結果判斷當前信息是否為噪 聲,進行去噪處理。
[0010]另外,所述第一抽取處理在利用所述body標簽中的標簽源碼中每一行的行文本 密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理之后,還 包括W下至少之一:去除HTML編碼處理、去除化vaScript腳本處理和去除特殊字符處理。
[0011] 另外,所述確定行塊分布函數(shù),并根據(jù)所述行塊分布函數(shù)抽取文本塊包括:按照固 定文本塊的塊長對所述第一網(wǎng)頁正文進行分塊,計算每個行塊中文本的字符數(shù)后構造出行 塊分布函數(shù);確定驟升點和驟降點,抽取位于所述驟升點和所述驟降點內的文本塊。
[0012] 另外,所述根據(jù)所述行塊分布函數(shù)抽取文本塊包括:記錄第一個加入抽取結果的 文本塊的編號;計算當前文本塊與所述第一個加入抽取結果的文本塊之間的距離,獲得第 =計算結果;如果所述第=計算結果大于等于第=預設闊值,則判斷當前文本塊為噪聲,進 行去噪處理。
[0013]另外,所述利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理包括: 對位于所述驟升點和所述驟降點內的文本塊與所述正文標題的塊文本相似度,獲得第四計 算結果;如果所述第四計算結果小于第四預設闊值,則將當前文本塊作為噪聲,進行去噪處 理。
[0014]另外,所述利用所述文本塊與所述正文標題的塊文本相似度進行過濾處理還包 括:對所述文本塊進行網(wǎng)頁版權噪聲過濾。
[0015]另外,所述第二抽取處理在利用所述文本塊與所述正文標題的塊文本相似度進行 過濾處理之后,還包括:計算經(jīng)過所述利用所述文本塊與所述正文標題的塊文本相似度進 行過濾處理之后的網(wǎng)頁正文中的每一行與所述正文標題的行文本相似度,并計算行平均文 本相似度,獲得第五計算結果;如果所述第五計算結果小于第五預設闊值,則根據(jù)所述行文 本相似度對所述每一行進行行過濾處理。
[0016]另外,所述文本相似度可W通過如下之一進行計算:根據(jù)字或者詞語采用編輯距 離進行計算;根據(jù)字或者詞語采用余弦距離進行計算。
[0017]本發(fā)明另一方面提供了一種網(wǎng)頁正文抽取裝置,包括:提取模塊,用于提取網(wǎng)頁HTML源碼中的title標簽中的文本,W及h標簽中的文本;確定模塊,用于根據(jù)所述title 標簽中的文本W(wǎng)及所述h標簽中的文本的文本相似度確定正文標題;所述提取模塊,還用 于提取網(wǎng)頁HTML源碼中的body標簽中的標簽源碼;抽取模塊,用于對所述body標簽中的 標簽源碼進行第一抽取處理,獲取第一網(wǎng)頁正文,其中:所述第一抽取處理至少包括利用所 述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相似度 W及行文本的中文字數(shù)進行去噪處理;所述確定模塊,還用于確定行塊分布函數(shù);所述抽 取模塊,還用于根據(jù)所述行塊分布函數(shù)抽取文本塊;對所述文本塊進行第二抽取處理,獲取 第二網(wǎng)頁正文,其中:所述第二抽取處理至少包括利用所述文本塊與所述正文標題的塊文 本相似度進行過濾處理。
[0018]另外,所述確定模塊,通過如下方式根據(jù)所述title標簽中的文本W(wǎng)及所述h標簽 中的文本的文本相似度確定正文計算所述title標簽中的文本W(wǎng)及所述h標簽中的 文本的文本相似度,獲得第一計算結果;如果所述第一計算結果大于等于第一預設闊值,貝U 確定所述title中的文本作為所述正文標題;如果所述第一計算結果小于所述第一預設闊 值,則確定所述h標簽中的文本作為所述正文標題。
[0019] 另外,所述抽取模塊,通過如下方式利用所述body標簽中的標簽源碼中每一行的 行文本密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理: 對所述body標簽中的標簽源碼中每一行的行文本密度、行文本與所述正文標題的文本相 似度W及行文本的中文字數(shù)進行融合計算,獲得第二計算結果;根據(jù)所述第二計算結果判 斷當前信息為噪聲,進行去噪處理。
[0020] 另外,所述抽取模塊,還用于在在利用所述body標簽中的標簽源碼中每一行的行 文本密度、行文本與所述正文標題的文本相似度W及行文本的中文字數(shù)進行去噪處理之 后,進行W下至少之一的處理:去除HTML編碼處理、去除化vaScript腳本處理和去除特殊 字符處理。
[0021] 另外,所述確定模塊,用于通過如下方式確定行塊分布函數(shù):按照固定文本塊的塊 長對所述第一網(wǎng)頁正文進行分塊,計算每個行塊中文本的字符數(shù)后構造出行塊分布函數(shù); 確定驟升點和驟降點;所述抽取模塊,用于通過如下方式根據(jù)所述行塊分布函數(shù)抽取文本 塊:抽取位于所述驟升點和所述驟降點內的文本塊。
[0022] 另外,所述抽取模塊,通過如下方式根據(jù)所述行塊分布函數(shù)抽取文本塊:記錄第一 個加入抽取結果的文本塊的編號;計算當前文本塊與所述第一個加入抽取結果的文本塊之 間的距離,獲得第S計算結果;如果所述第S計算結果大于等于第S預設闊值,則判斷當前 文本塊為噪聲,進行去噪處理。
[0023] 另外,所述抽取模塊,通過如下方式利用所述文本塊與所述正文標題的文本相似 度進行過濾處理:對位于所述驟升點和所述驟降點內的文本塊與所述正文標題的塊文本相 似度,獲得第四計算結果;如果所述第四計算結果小于第四預設闊值,則將當前文本塊作為 噪聲,進行去噪處理。
[0024] 另外,所述抽取模塊還通過如下方式利用所述文本塊與所述正文標題的塊文本相 似度進行過濾處理:對所述文本塊進行網(wǎng)頁版權噪聲過濾。
[0025] 另外,所述抽取模塊還用于在利用所述文本塊與所述正文標題的塊文本相似度進 行過濾處理之后,進行W下的處理:計算經(jīng)過所述利用所述文本塊與所述正文標題的塊文 本相似度進行過濾處理之后的網(wǎng)頁正文中的每一行與所述正文標題的行文本相似度,并計 算行平均文本相似度,獲得第五計算結果;如果所述第五計算結果小于第五預設闊值,則根 據(jù)所述行文本相似度