一種基于web文檔的自動(dòng)摘要方法
【專利摘要】本發(fā)明公開了一種基于WEB文檔的自動(dòng)摘要方法,具體包括以下幾個(gè)步驟:(1)利用Html文檔對(duì)象模型標(biāo)簽樹抓取WEB文檔正文信息;(2)對(duì)抓取的WEB文檔正文信息進(jìn)行分塊、分句;(3)對(duì)抓取的WEB文檔正文信息,依據(jù)關(guān)鍵詞庫(kù)進(jìn)行分詞,分詞后去除無意義的非關(guān)鍵詞,并將網(wǎng)絡(luò)新詞及專業(yè)詞語擴(kuò)充到關(guān)鍵詞庫(kù),對(duì)于網(wǎng)絡(luò)上已停用的非關(guān)鍵詞,擴(kuò)充到非關(guān)鍵詞庫(kù);(4)計(jì)算分詞權(quán)值和分句、分塊權(quán)值;(5)根據(jù)摘要精細(xì)程度,選擇分塊、分句的個(gè)數(shù),最后從中選出權(quán)值最高的幾個(gè)分塊、分句形成文檔摘要信息。本發(fā)明能夠分析WEB文檔信息,給用戶提供簡(jiǎn)潔的、信息全面的頁(yè)面內(nèi)容的概要,以提高用戶獲取信息的效率。
【專利說明】一種基于WEB文檔的自動(dòng)摘要方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本處理【技術(shù)領(lǐng)域】,具體涉及一種基于WEB文檔的自動(dòng)摘要方法。
【背景技術(shù)】
[0002] 在文本處理【技術(shù)領(lǐng)域】,如何在海量的WEB信息中快速而又準(zhǔn)確地獲取信息成為當(dāng) 前的研究熱點(diǎn),為了有效的提高信息獲取效率,文檔自動(dòng)摘要技術(shù)的研究應(yīng)運(yùn)而生,并且得 到了廣泛的關(guān)注。它能夠?qū)⒎彪s、冗長(zhǎng)的文檔內(nèi)容用簡(jiǎn)潔、明了的語言概括出來,對(duì)信息的 快速甄別進(jìn)而獲取信息帶來了很大的幫助。目前已有的文檔自動(dòng)摘要方法主要側(cè)重于基于 句子抽取的方法,形成的摘要還較粗糙,不能為用戶提供簡(jiǎn)潔的文檔內(nèi)容概要,用戶獲取信 息的效率較低。
【發(fā)明內(nèi)容】
[0003] 針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明目的是提供一種基于WEB文檔的自動(dòng)摘要方 法,能夠分析WEB文檔信息,給用戶提供簡(jiǎn)潔的、信息全面的頁(yè)面內(nèi)容的概要,以提高用戶 獲取信息的效率。
[0004] 為了實(shí)現(xiàn)上述目的,本發(fā)明是通過如下的技術(shù)方案來實(shí)現(xiàn):
[0005] 本發(fā)明的一種基于WEB文檔的自動(dòng)摘要方法,具體包括以下幾個(gè)步驟:
[0006] (1)利用Html文檔對(duì)象模型標(biāo)簽樹抓取WEB文檔正文信息;
[0007] (2)對(duì)抓取的WEB文檔正文信息進(jìn)行分塊、分句;
[0008] (3)對(duì)抓取的WEB文檔正文信息,依據(jù)關(guān)鍵詞庫(kù)進(jìn)行分詞,分詞后去除無意義的非 關(guān)鍵詞,并將網(wǎng)絡(luò)新詞及專業(yè)詞語擴(kuò)充到關(guān)鍵詞庫(kù),對(duì)于網(wǎng)絡(luò)上已停用的非關(guān)鍵詞,擴(kuò)充到 非關(guān)鍵詞庫(kù);
[0009] (4)計(jì)算分詞權(quán)值和分句、分塊權(quán)值;
[0010] (5)根據(jù)摘要精細(xì)程度,選擇分塊、分句的個(gè)數(shù),最后從中選出權(quán)值最高的幾個(gè)分 塊、分句形成文檔摘要信息。
[0011] 步驟(1)中,利用Html文檔對(duì)象模型標(biāo)簽樹抓取WEB文檔正文信息具體步驟如 下:Html文檔對(duì)象模型通過解析器載入整個(gè)Html文檔內(nèi)容,根據(jù)Html文檔對(duì)象模型的嵌 套關(guān)系,將Html文檔中嵌套標(biāo)簽解析成一個(gè)節(jié)點(diǎn)樹,在內(nèi)存中構(gòu)建對(duì)象集合,通過Html文 檔對(duì)象模型標(biāo)簽樹的遍歷獲取WEB文檔正文信息。
[0012] Html文檔內(nèi)容包含以下信息:(Ia)正文:即網(wǎng)頁(yè)要發(fā)布的主體內(nèi)容;(2a)頁(yè)面的 附帶信息;(3a) HTML標(biāo)記。
[0013] 步驟(2)中,對(duì)抓取的WEB文檔正文信息進(jìn)行分塊、分句方法如下:如果Html文檔 內(nèi)容有<P>標(biāo)簽來展示文檔段落,則根據(jù)<P>標(biāo)簽抓取元素,實(shí)現(xiàn)分塊,采用分塊模式;如果 Html文檔內(nèi)容沒有<p>標(biāo)簽,則采用分句模式,即將文檔按句尾標(biāo)點(diǎn)符號(hào)進(jìn)行分割。
[0014] 步驟(3)中,所述分詞的過程具體如下:載入所述關(guān)鍵詞庫(kù),預(yù)先把帶有明顯特 征的詞切分出來,所述明顯特征的詞指WEB文檔正文標(biāo)題和正文每一段的第一句中的關(guān)鍵 詞,并將WEB文檔正文信息依照切分出的詞分成幾個(gè)小段,再基于反向最長(zhǎng)匹配策略進(jìn)行 機(jī)械分詞,并將網(wǎng)絡(luò)新詞及專業(yè)詞語擴(kuò)充到關(guān)鍵詞庫(kù),完成關(guān)鍵詞庫(kù)的動(dòng)態(tài)更新。
[0015] 上述反向最長(zhǎng)匹配策略具體方法如下:將WEB文檔內(nèi)容逐一與關(guān)鍵詞庫(kù)中的詞條 進(jìn)行匹配,匹配成功的標(biāo)準(zhǔn)是在關(guān)鍵詞庫(kù)中找到某個(gè)詞條,即完成對(duì)WEB文檔中某個(gè)關(guān)鍵 詞的識(shí)別。
[0016] 步驟(4)中,分詞權(quán)值的計(jì)算方法如下:分詞去除非關(guān)鍵詞后,按詞頻計(jì)算單個(gè)分 詞的權(quán)值,并對(duì)帶明顯特征的分詞的權(quán)值重新進(jìn)行修正,修正方法為:帶明顯特征的分詞權(quán) 值增加n,其中,η為除帶明顯特征外的關(guān)鍵詞的最大權(quán)值。
[0017] 步驟(4)中,分句、分塊權(quán)值的計(jì)算方法如下:根據(jù)分詞權(quán)值,再加權(quán)計(jì)算分句或 分塊中所包含關(guān)鍵詞的權(quán)值,作為分句、分塊權(quán)值,加權(quán)計(jì)算方法為:設(shè)分句、分塊K的權(quán)值 為Q (K),其中,包含m個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)為η,每個(gè)關(guān)鍵詞的權(quán)值為q (i),則 Q(K)滿足關(guān)系
【權(quán)利要求】
1. 一種基于WEB文檔的自動(dòng)摘要方法,其特征在于,具體包括以下幾個(gè)步驟: (1) 利用Html文檔對(duì)象模型標(biāo)簽樹抓取WEB文檔正文信息; (2) 對(duì)抓取的WEB文檔正文信息進(jìn)行分塊、分句; (3) 對(duì)抓取的WEB文檔正文信息,依據(jù)關(guān)鍵詞庫(kù)進(jìn)行分詞,分詞后去除無意義的非關(guān)鍵 詞,并將網(wǎng)絡(luò)新詞及專業(yè)詞語擴(kuò)充到關(guān)鍵詞庫(kù),對(duì)于網(wǎng)絡(luò)上已停用的非關(guān)鍵詞,擴(kuò)充到非關(guān) 鍵詞庫(kù); (4) 計(jì)算分詞權(quán)值和分句、分塊權(quán)值; (5) 根據(jù)摘要精細(xì)程度,選擇分塊、分句的個(gè)數(shù),最后從中選出權(quán)值最高的幾個(gè)分塊、分 句形成文檔摘要信息。
2. 根據(jù)權(quán)利要求1所述的基于WEB文檔的自動(dòng)摘要方法,其特征在于,步驟(1)中,利 用Html文檔對(duì)象模型標(biāo)簽樹抓取WEB文檔正文信息具體步驟如下: Html文檔對(duì)象模型通過解析器載入整個(gè)Html文檔內(nèi)容,根據(jù)Html文檔對(duì)象模型的嵌 套關(guān)系,將Html文檔中嵌套標(biāo)簽解析成一個(gè)節(jié)點(diǎn)樹,在內(nèi)存中構(gòu)建對(duì)象集合,通過Html文 檔對(duì)象模型標(biāo)簽樹的遍歷獲取WEB文檔正文信息。
3. 根據(jù)權(quán)利要求2所述的基于WEB文檔的自動(dòng)摘要方法,其特征在于,Html文檔內(nèi)容 包含以下信息: (Ia)正文:即網(wǎng)頁(yè)要發(fā)布的主體內(nèi)容; (2a)頁(yè)面的附帶信息; (3a) HTML 標(biāo)記。
4. 根據(jù)權(quán)利要求1所述的基于WEB文檔的自動(dòng)摘要方法,其特征在于,步驟(2)中,對(duì) 抓取的WEB文檔正文信息進(jìn)行分塊、分句方法如下: 如果Html文檔內(nèi)容有<p>標(biāo)簽來展示文檔段落,則根據(jù)<p>標(biāo)簽抓取元素,實(shí)現(xiàn)分塊, 采用分塊模式; 如果Html文檔內(nèi)容沒有<p>標(biāo)簽,則采用分句模式,即將文檔按句尾標(biāo)點(diǎn)符號(hào)進(jìn)行分 割。
5. 根據(jù)權(quán)利要求1所述的基于WEB文檔的自動(dòng)摘要方法,其特征在于,步驟(3)中,所 述分詞的過程具體如下: 載入所述關(guān)鍵詞庫(kù),預(yù)先把帶有明顯特征的詞切分出來,所述明顯特征的詞指WEB文 檔正文標(biāo)題和正文每一段的第一句中的關(guān)鍵詞,并將WEB文檔正文信息依照切分出的詞分 成幾個(gè)小段,再基于反向最長(zhǎng)匹配策略進(jìn)行機(jī)械分詞,并將網(wǎng)絡(luò)新詞及專業(yè)詞語擴(kuò)充到關(guān) 鍵詞庫(kù),完成關(guān)鍵詞庫(kù)的動(dòng)態(tài)更新。
6. 根據(jù)權(quán)利要求5所述的基于WEB文檔的自動(dòng)摘要方法,其特征在于,所述反向最長(zhǎng)匹 配策略具體方法如下: 將WEB文檔內(nèi)容逐一與關(guān)鍵詞庫(kù)中的詞條進(jìn)行匹配,匹配成功的標(biāo)準(zhǔn)是在關(guān)鍵詞庫(kù)中 找到某個(gè)詞條,即完成對(duì)WEB文檔中某個(gè)關(guān)鍵詞的識(shí)別。
7. 根據(jù)權(quán)利要求1所述的基于WEB文檔的自動(dòng)摘要方法,其特征在于,步驟(4)中,分 詞權(quán)值的計(jì)算方法如下: 分詞去除非關(guān)鍵詞后,按詞頻計(jì)算單個(gè)分詞的權(quán)值,并對(duì)帶明顯特征的分詞的權(quán)值重 新進(jìn)行修正,修正方法為:帶明顯特征的分詞權(quán)值增加 n,其中,n為除帶明顯特征外的關(guān)鍵 詞的最大權(quán)值。
8. 根據(jù)權(quán)利要求7所述的基于WEB文檔的自動(dòng)摘要方法,其特征在于,步驟(4)中,分 句、分塊權(quán)值的計(jì)算方法如下: 根據(jù)分詞權(quán)值,再加權(quán)計(jì)算分句或分塊中所包含關(guān)鍵詞的權(quán)值,作為分句、分塊權(quán)值, 加權(quán)計(jì)算方法為:設(shè)分句、分塊K的權(quán)值為Q (K),其中,包含m個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞出現(xiàn)的 次數(shù)為n,每個(gè)關(guān)鍵詞的權(quán)值為q(i),則Q(K)滿足關(guān)系:
9. 根據(jù)權(quán)利要求1所述的基于WEB文檔的自動(dòng)摘要方法,其特征在于,步驟(5)中, 所述摘要精細(xì)程度作為系統(tǒng)的基本參數(shù)進(jìn)行定義,設(shè)系統(tǒng)定義的總級(jí)數(shù)為K,系統(tǒng)選擇的 級(jí)數(shù)為N,如果采用分句模式,則統(tǒng)計(jì)WEB文檔的句子總數(shù),記為L(zhǎng),則選擇的分句總個(gè)數(shù) 為;如果采用分塊模式,則統(tǒng)計(jì)WEB文檔的總塊數(shù),記為M,則選擇的分塊總個(gè)數(shù)為 Af
10. 根據(jù)權(quán)利要求1所述的基于WEB文檔的自動(dòng)摘要方法,其特征在于,步驟(5)中,采 用jQuery編程技術(shù),以一個(gè)統(tǒng)一資源定位符URL作為信息來源,實(shí)現(xiàn)網(wǎng)頁(yè)截圖,再將生成 的摘要信息與原始的網(wǎng)頁(yè)截圖進(jìn)行對(duì)照,用來衡量摘要是否概括了原網(wǎng)頁(yè)的主要內(nèi)容。
【文檔編號(hào)】G06F17/27GK104361081SQ201410642510
【公開日】2015年2月18日 申請(qǐng)日期:2014年11月13日 優(yōu)先權(quán)日:2014年11月13日
【發(fā)明者】劉文婷 申請(qǐng)人:河海大學(xué)