一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種自動(dòng)摘要方法,具體講涉及一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的 自動(dòng)摘要方法。
【背景技術(shù)】
[0002] 近年來(lái)互聯(lián)網(wǎng)的迅猛發(fā)展,每天都有大量信息以電子文檔的形式出現(xiàn)在人們面 前。人們?cè)絹?lái)越多地依賴于互聯(lián)網(wǎng)來(lái)獲取所需要的信息,面對(duì)每天撲面而來(lái)的海量信息,需 要過(guò)濾大量的信息,才能得到需要的信息,為了從海量電子信息中快速而準(zhǔn)確地獲取有用 信息,文檔的自動(dòng)摘要處理變得越來(lái)越重要。
[0003] 從初期PC發(fā)展到現(xiàn)在智能手機(jī),人們已開(kāi)始從單一傳統(tǒng)的PC端瀏覽信息,轉(zhuǎn)向手 機(jī)移動(dòng)端。面對(duì)手機(jī)的小屏幕,對(duì)自動(dòng)摘要的需求也更為迫切。
[0004] 自動(dòng)摘要是指通過(guò)計(jì)算機(jī)程序自動(dòng)提取文檔主題思想,將提取出的重要信息經(jīng)過(guò) 重組修飾后生成比原文更精練,更易理解的文摘。只要閱讀少量的文摘即可以快速、輕松地 了解原文,而無(wú)須去通讀全文,大大提高了人們獲取電子文本信息的效率。目前主要自動(dòng)文 摘技術(shù)分為兩類:基于統(tǒng)計(jì)的機(jī)械摘要方法和基于知識(shí)的理解摘要方法。機(jī)械摘要使用統(tǒng) 計(jì)方法來(lái)獲取文檔的關(guān)鍵詞,并結(jié)合提示詞、位置等啟發(fā)信息,從文檔中挑選出一些合適的 句子,進(jìn)行潤(rùn)色后得到文檔的摘要。理解摘要期望利用各種知識(shí)和形式化理論,在理解文檔 語(yǔ)義內(nèi)容的基礎(chǔ)上生成文摘(對(duì)原文的概括或濃縮)。
[0005] 機(jī)械摘要具有速度快、領(lǐng)域不受限的特點(diǎn),但生成的摘要質(zhì)量較差,存在反映內(nèi)容 不夠全面、語(yǔ)句冗余等問(wèn)題。與機(jī)械摘要相比,理解摘要質(zhì)量較好,具有簡(jiǎn)潔精煉、全面準(zhǔn) 確、可讀性強(qiáng)等優(yōu)點(diǎn)。但是,理解摘要不僅要求計(jì)算機(jī)具有自然語(yǔ)言理解和生成能力,還需 要表達(dá)和組織各種背景、領(lǐng)域知識(shí)。這些工作的難度十分巨大,迄今為止進(jìn)展甚微。因此, 理解摘要方法的使用比較少見(jiàn),僅限于非常狹小的應(yīng)用領(lǐng)域中。
【發(fā)明內(nèi)容】
[0006] 針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要 方法?;谝苿?dòng)端的特殊性,設(shè)計(jì)一種帶格式的自動(dòng)摘要,來(lái)提高用戶體驗(yàn)的舒適度。本 發(fā)明結(jié)合html樣式自動(dòng)生成摘要,保留了原文的圖片和表格,并對(duì)重要信息進(jìn)行了前后擴(kuò) 展,提高了內(nèi)容了的完整性和連貫性。避免了摘要的樣式單調(diào)、生硬和斷層,優(yōu)化了移動(dòng)端 的新聞閱讀。
[0007] 本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:
[0008] 一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法,其改進(jìn)之處在于,所述方法 包括
[0009] (1)預(yù)處理新聞網(wǎng)頁(yè)內(nèi)容;
[0010] (2)提取文本摘要;
[0011] ⑶生成結(jié)果。
[0012] 優(yōu)選的,所述步驟(1)包括
[0013] (1. 1)加載詞典和停用詞;
[0014] (1. 2)把新聞網(wǎng)頁(yè)內(nèi)容根據(jù)html標(biāo)簽分塊,記為ki;
[0015] (1. 3)分別對(duì)每一個(gè)&切句,切句的方法以段落結(jié)束符和句號(hào)來(lái)劃分句子;
[0016] (1. 4)抽取每句的html標(biāo)簽比和文本s i;
[0017] (1. 5)記錄每句的比和文本s !的對(duì)應(yīng)位置;
[0018] (1. 6)對(duì)文本Si分詞;
[0019] (1.7)去停用詞和其它噪聲,記為wordi〇
[0020] 進(jìn)一步地,所述每個(gè)wordi為去除停用詞后的詞序列。
[0021] 優(yōu)選的,所述步驟(2)包括
[0022] (2. 1)計(jì)算則斗和word」的共現(xiàn)相似度sim i; j;
[0023] (2. 2)根據(jù)公式 prf l-d/m+d*I: sim jjprj/outj進(jìn)行迭代,
[0024] (2. 3)按照pr i值進(jìn)行倒排序,生成句子序列s k;
[0025] 其中,wordi為句子文本s,寸應(yīng)的詞序列,word』為句子文本s』對(duì)應(yīng)的詞序列, simi;」為句子i對(duì)句子j的貢獻(xiàn)值,d G (〇, 1),m為矩陣最大維數(shù),out」為句子頂點(diǎn)j的出 度,pr的初始值為1/m,收斂精度為0. 001。
[0026] 優(yōu)選的,所述步驟(3)包括
[0027] (3. 1)從sk中取出前L句;
[0028] (3. 2)對(duì)取出的前L句,進(jìn)行前后擴(kuò)展,得集合s1;
[0029] (3. 3)按原文中的順序,對(duì)Sl重新排序得s' 1;
[0030] (3. 4)結(jié)合hi,將s' 1套入對(duì)應(yīng)位置;
[0031] (3. 5)連續(xù)多句都未被選中,即不在集合s' 1中,則合并;
[0032] (3.6)根據(jù)用戶設(shè)置的長(zhǎng)度或百分比,判斷(3.5)的長(zhǎng)度是否符合,若超出,則截 字,得出最終結(jié)果。
[0033] 與現(xiàn)有技術(shù)比,本發(fā)明的有益效果為:
[0034] 與一般自動(dòng)摘要比,增加html格式,保留圖片和表格,優(yōu)化了文摘的展現(xiàn)形式,增 強(qiáng)了用戶視覺(jué)體驗(yàn)。
[0035] 傳統(tǒng)自動(dòng)摘要有語(yǔ)義缺失,本發(fā)明對(duì)句子進(jìn)行上下文擴(kuò)展,并合并空句以省略號(hào) 連接,彌補(bǔ)了傳統(tǒng)摘要語(yǔ)義缺失,提高了語(yǔ)義的完整性和連貫性。
[0036] 本發(fā)明設(shè)置了摘要占原文的百分比和摘要長(zhǎng)度兩個(gè)可選項(xiàng),供用戶選擇設(shè)置,提 高了靈活性。
[0037] 隨機(jī)抽取100篇文章,經(jīng)過(guò)人工校驗(yàn),通過(guò)率達(dá)99. 8%。
【附圖說(shuō)明】
[0038] 圖1為本發(fā)明提供的一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法流程圖。
[0039] 圖2為本發(fā)明提供的一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法中預(yù)處 理模塊的結(jié)構(gòu)圖。
[0040] 圖3為本發(fā)明提供的一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法中文本 摘要提取模塊的流程圖。
[0041] 圖4為本發(fā)明提供的一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法中結(jié)果 生成模塊的流程圖。
【具體實(shí)施方式】
[0042] 下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步的詳細(xì)說(shuō)明。
[0043] 本發(fā)明一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法包括如下步驟:對(duì)新聞 網(wǎng)頁(yè)內(nèi)容進(jìn)行預(yù)處理、文本摘要提取和結(jié)果生成。
[0044] 如圖2所示,為對(duì)新聞網(wǎng)頁(yè)內(nèi)容進(jìn)行預(yù)處理的結(jié)構(gòu)圖,預(yù)處理是把新聞網(wǎng)頁(yè)內(nèi)容 先進(jìn)行分塊,每篇新聞對(duì)應(yīng)一塊序列,每一個(gè)塊對(duì)應(yīng)用一詞序列,具體步驟如下:
[0045] 1.加載詞典和停用詞;
[0046] 2.把新聞網(wǎng)頁(yè)內(nèi)容根據(jù)