国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法

      文檔序號(hào):8339594閱讀:596來(lái)源:國(guó)知局
      一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及一種自動(dòng)摘要方法,具體講涉及一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的 自動(dòng)摘要方法。
      【背景技術(shù)】
      [0002] 近年來(lái)互聯(lián)網(wǎng)的迅猛發(fā)展,每天都有大量信息以電子文檔的形式出現(xiàn)在人們面 前。人們?cè)絹?lái)越多地依賴于互聯(lián)網(wǎng)來(lái)獲取所需要的信息,面對(duì)每天撲面而來(lái)的海量信息,需 要過(guò)濾大量的信息,才能得到需要的信息,為了從海量電子信息中快速而準(zhǔn)確地獲取有用 信息,文檔的自動(dòng)摘要處理變得越來(lái)越重要。
      [0003] 從初期PC發(fā)展到現(xiàn)在智能手機(jī),人們已開(kāi)始從單一傳統(tǒng)的PC端瀏覽信息,轉(zhuǎn)向手 機(jī)移動(dòng)端。面對(duì)手機(jī)的小屏幕,對(duì)自動(dòng)摘要的需求也更為迫切。
      [0004] 自動(dòng)摘要是指通過(guò)計(jì)算機(jī)程序自動(dòng)提取文檔主題思想,將提取出的重要信息經(jīng)過(guò) 重組修飾后生成比原文更精練,更易理解的文摘。只要閱讀少量的文摘即可以快速、輕松地 了解原文,而無(wú)須去通讀全文,大大提高了人們獲取電子文本信息的效率。目前主要自動(dòng)文 摘技術(shù)分為兩類:基于統(tǒng)計(jì)的機(jī)械摘要方法和基于知識(shí)的理解摘要方法。機(jī)械摘要使用統(tǒng) 計(jì)方法來(lái)獲取文檔的關(guān)鍵詞,并結(jié)合提示詞、位置等啟發(fā)信息,從文檔中挑選出一些合適的 句子,進(jìn)行潤(rùn)色后得到文檔的摘要。理解摘要期望利用各種知識(shí)和形式化理論,在理解文檔 語(yǔ)義內(nèi)容的基礎(chǔ)上生成文摘(對(duì)原文的概括或濃縮)。
      [0005] 機(jī)械摘要具有速度快、領(lǐng)域不受限的特點(diǎn),但生成的摘要質(zhì)量較差,存在反映內(nèi)容 不夠全面、語(yǔ)句冗余等問(wèn)題。與機(jī)械摘要相比,理解摘要質(zhì)量較好,具有簡(jiǎn)潔精煉、全面準(zhǔn) 確、可讀性強(qiáng)等優(yōu)點(diǎn)。但是,理解摘要不僅要求計(jì)算機(jī)具有自然語(yǔ)言理解和生成能力,還需 要表達(dá)和組織各種背景、領(lǐng)域知識(shí)。這些工作的難度十分巨大,迄今為止進(jìn)展甚微。因此, 理解摘要方法的使用比較少見(jiàn),僅限于非常狹小的應(yīng)用領(lǐng)域中。

      【發(fā)明內(nèi)容】

      [0006] 針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要 方法?;谝苿?dòng)端的特殊性,設(shè)計(jì)一種帶格式的自動(dòng)摘要,來(lái)提高用戶體驗(yàn)的舒適度。本 發(fā)明結(jié)合html樣式自動(dòng)生成摘要,保留了原文的圖片和表格,并對(duì)重要信息進(jìn)行了前后擴(kuò) 展,提高了內(nèi)容了的完整性和連貫性。避免了摘要的樣式單調(diào)、生硬和斷層,優(yōu)化了移動(dòng)端 的新聞閱讀。
      [0007] 本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:
      [0008] 一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法,其改進(jìn)之處在于,所述方法 包括
      [0009] (1)預(yù)處理新聞網(wǎng)頁(yè)內(nèi)容;
      [0010] (2)提取文本摘要;
      [0011] ⑶生成結(jié)果。
      [0012] 優(yōu)選的,所述步驟(1)包括
      [0013] (1. 1)加載詞典和停用詞;
      [0014] (1. 2)把新聞網(wǎng)頁(yè)內(nèi)容根據(jù)html標(biāo)簽分塊,記為ki;
      [0015] (1. 3)分別對(duì)每一個(gè)&切句,切句的方法以段落結(jié)束符和句號(hào)來(lái)劃分句子;
      [0016] (1. 4)抽取每句的html標(biāo)簽比和文本s i;
      [0017] (1. 5)記錄每句的比和文本s !的對(duì)應(yīng)位置;
      [0018] (1. 6)對(duì)文本Si分詞;
      [0019] (1.7)去停用詞和其它噪聲,記為wordi〇
      [0020] 進(jìn)一步地,所述每個(gè)wordi為去除停用詞后的詞序列。
      [0021] 優(yōu)選的,所述步驟(2)包括
      [0022] (2. 1)計(jì)算則斗和word」的共現(xiàn)相似度sim i; j;
      [0023] (2. 2)根據(jù)公式 prf l-d/m+d*I: sim jjprj/outj進(jìn)行迭代,
      [0024] (2. 3)按照pr i值進(jìn)行倒排序,生成句子序列s k;
      [0025] 其中,wordi為句子文本s,寸應(yīng)的詞序列,word』為句子文本s』對(duì)應(yīng)的詞序列, simi;」為句子i對(duì)句子j的貢獻(xiàn)值,d G (〇, 1),m為矩陣最大維數(shù),out」為句子頂點(diǎn)j的出 度,pr的初始值為1/m,收斂精度為0. 001。
      [0026] 優(yōu)選的,所述步驟(3)包括
      [0027] (3. 1)從sk中取出前L句;
      [0028] (3. 2)對(duì)取出的前L句,進(jìn)行前后擴(kuò)展,得集合s1;
      [0029] (3. 3)按原文中的順序,對(duì)Sl重新排序得s' 1;
      [0030] (3. 4)結(jié)合hi,將s' 1套入對(duì)應(yīng)位置;
      [0031] (3. 5)連續(xù)多句都未被選中,即不在集合s' 1中,則合并;
      [0032] (3.6)根據(jù)用戶設(shè)置的長(zhǎng)度或百分比,判斷(3.5)的長(zhǎng)度是否符合,若超出,則截 字,得出最終結(jié)果。
      [0033] 與現(xiàn)有技術(shù)比,本發(fā)明的有益效果為:
      [0034] 與一般自動(dòng)摘要比,增加html格式,保留圖片和表格,優(yōu)化了文摘的展現(xiàn)形式,增 強(qiáng)了用戶視覺(jué)體驗(yàn)。
      [0035] 傳統(tǒng)自動(dòng)摘要有語(yǔ)義缺失,本發(fā)明對(duì)句子進(jìn)行上下文擴(kuò)展,并合并空句以省略號(hào) 連接,彌補(bǔ)了傳統(tǒng)摘要語(yǔ)義缺失,提高了語(yǔ)義的完整性和連貫性。
      [0036] 本發(fā)明設(shè)置了摘要占原文的百分比和摘要長(zhǎng)度兩個(gè)可選項(xiàng),供用戶選擇設(shè)置,提 高了靈活性。
      [0037] 隨機(jī)抽取100篇文章,經(jīng)過(guò)人工校驗(yàn),通過(guò)率達(dá)99. 8%。
      【附圖說(shuō)明】
      [0038] 圖1為本發(fā)明提供的一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法流程圖。
      [0039] 圖2為本發(fā)明提供的一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法中預(yù)處 理模塊的結(jié)構(gòu)圖。
      [0040] 圖3為本發(fā)明提供的一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法中文本 摘要提取模塊的流程圖。
      [0041] 圖4為本發(fā)明提供的一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法中結(jié)果 生成模塊的流程圖。
      【具體實(shí)施方式】
      [0042] 下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步的詳細(xì)說(shuō)明。
      [0043] 本發(fā)明一種面向新聞優(yōu)化閱讀類移動(dòng)應(yīng)用的自動(dòng)摘要方法包括如下步驟:對(duì)新聞 網(wǎng)頁(yè)內(nèi)容進(jìn)行預(yù)處理、文本摘要提取和結(jié)果生成。
      [0044] 如圖2所示,為對(duì)新聞網(wǎng)頁(yè)內(nèi)容進(jìn)行預(yù)處理的結(jié)構(gòu)圖,預(yù)處理是把新聞網(wǎng)頁(yè)內(nèi)容 先進(jìn)行分塊,每篇新聞對(duì)應(yīng)一塊序列,每一個(gè)塊對(duì)應(yīng)用一詞序列,具體步驟如下:
      [0045] 1.加載詞典和停用詞;
      [0046] 2.把新聞網(wǎng)頁(yè)內(nèi)容根據(jù)
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1