国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種摘要生成方法及裝置的制造方法

      文檔序號(hào):9287743閱讀:703來(lái)源:國(guó)知局
      一種摘要生成方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種摘要生成方法及裝置。
      【背景技術(shù)】
      [0002] 基于移動(dòng)互聯(lián)網(wǎng)的場(chǎng)景碎片化特性,用戶可能只有三五分鐘來(lái)瀏覽和閱讀。在這 種情況下,傳統(tǒng)的網(wǎng)頁(yè)瀏覽方式已經(jīng)不能滿足用戶快速獲取關(guān)鍵信息的需求。因此,如何將 網(wǎng)頁(yè)正文里的核心關(guān)鍵信息提取出來(lái),匯聚成一小段文字,使用戶能夠在極短時(shí)間內(nèi)閱讀 完這些文字,并基本獲取文章主要內(nèi)容,將產(chǎn)生極大的價(jià)值。
      [0003] 提取關(guān)鍵信息生成摘要的方式,最初是采用人工的方式實(shí)現(xiàn)的。用人工提取網(wǎng)頁(yè) 關(guān)鍵信息作為摘要。但是,人工提取摘要的問(wèn)題在于人工代價(jià)太高,每篇文章都需要人工操 作,難以完成每天新產(chǎn)生的大量網(wǎng)頁(yè)的摘要提取需求。
      [0004] 為了解決人工提取摘要的各種問(wèn)題,技術(shù)人員提出了由設(shè)備自動(dòng)生成摘要的方 案。自動(dòng)生成摘要的方案,采用的是通過(guò)維護(hù)大規(guī)模的詞典實(shí)現(xiàn)。具體方案如下:依據(jù)詞典 對(duì)正文的句子進(jìn)行分詞。比如"王力宏要結(jié)婚了",會(huì)分詞為"王力宏/要/結(jié)婚/ 了",然 后過(guò)濾掉無(wú)用的單字,得到"王力宏/結(jié)婚"。
      [0005] 采用詞典實(shí)現(xiàn)分詞的缺點(diǎn)主要是過(guò)于依賴詞典,而詞典難以包含所有有意義的 詞,導(dǎo)致大量的信息量被丟棄,不利于摘要的準(zhǔn)確生成。比如,如果"王力宏"不存在于詞典 中,則這個(gè)句子分詞過(guò)濾后的結(jié)果僅為"結(jié)婚",這樣導(dǎo)致大量的信息量被丟棄,導(dǎo)致摘要信 息不完整和準(zhǔn)確。另外,采用詞典生成摘要的方案需要維護(hù)詞典,工作效率較低。

      【發(fā)明內(nèi)容】

      [0006] 本發(fā)明實(shí)施例提供了一種摘要生成方法及裝置,用于實(shí)現(xiàn)準(zhǔn)確并且高效的摘要生 成方案。
      [0007] -種摘要生成方法,包括:
      [0008] 獲取正文內(nèi)容并獲取所述正文內(nèi)容的句子;
      [0009] 對(duì)正文內(nèi)容的各句子使用多元語(yǔ)言模型算法進(jìn)行分詞得到分詞結(jié)果,確定所述分 詞結(jié)果的特征向量;所述特征向量包含典型特征,典型特征對(duì)應(yīng)有特征權(quán)重;依據(jù)典型特 征的特征權(quán)重計(jì)算正文內(nèi)容的各句子的重要度;
      [0010] 依據(jù)計(jì)算得到的重要度由高往低從所述正文內(nèi)容中提取句子作為摘要。
      [0011] -種摘要生成裝置,包括:
      [0012] 句子提取單元,用于獲取正文內(nèi)容并獲取所述正文內(nèi)容的句子;
      [0013] 計(jì)算單元,用于對(duì)所述句子提取單元提取的正文內(nèi)容的各句子使用多元語(yǔ)言模型 算法進(jìn)行分詞得到分詞結(jié)果,確定所述分詞結(jié)果的特征向量;所述特征向量包含典型特征, 典型特征對(duì)應(yīng)有特征權(quán)重;依據(jù)典型特征的特征權(quán)重計(jì)算正文內(nèi)容的各句子的重要度;
      [0014] 摘要提取單元,用于依據(jù)所述計(jì)算單元計(jì)算得到的重要度由高往低從所述正文內(nèi) 容中提取句子作為摘要。
      [0015] 從以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):使用多元語(yǔ)言模型算法 進(jìn)行分詞,使分詞不再依賴于詞典,而且能夠最大程度地保留信息量;通過(guò)確定分詞結(jié)果的 特征向量,特征向量包含典型特征,典型特征對(duì)應(yīng)有特征權(quán)重;再依據(jù)典型特征的特征權(quán)重 計(jì)算正文內(nèi)容的各句子的重要度;從而可以從正文內(nèi)容中獲取到重要度高的句子并作為摘 要使用。以上方案不再依賴于詞典也不必維護(hù)詞典,可以準(zhǔn)確并且高效的生成摘要。
      【附圖說(shuō)明】
      [0016] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)要介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本 領(lǐng)域的普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其 他的附圖。
      [0017] 圖1為本發(fā)明實(shí)施例方法流程示意圖;
      [0018] 圖2為本發(fā)明實(shí)施例系統(tǒng)架構(gòu)示意圖;
      [0019] 圖3為本發(fā)明實(shí)施例裝置結(jié)構(gòu)示意圖;
      [0020] 圖4為本發(fā)明實(shí)施例裝置結(jié)構(gòu)示意圖;
      [0021] 圖5為本發(fā)明實(shí)施例裝置結(jié)構(gòu)示意圖;
      [0022] 圖6為本發(fā)明實(shí)施例裝置結(jié)構(gòu)示意圖;
      [0023] 圖7為本發(fā)明實(shí)施例裝置結(jié)構(gòu)示意圖;
      [0024] 圖8為本發(fā)明實(shí)施例裝置結(jié)構(gòu)示意圖;
      [0025] 圖9為本發(fā)明實(shí)施例裝置結(jié)構(gòu)示意圖;
      [0026] 圖10為本發(fā)明實(shí)施例服務(wù)器結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0027] 為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn) 一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部份實(shí)施例,而不是全部的實(shí)施 例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的 所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
      [0028] 本發(fā)明實(shí)施例提供了一種摘要生成方法,如圖1所示,包括:
      [0029] 101 :獲取正文內(nèi)容并獲取上述正文內(nèi)容的句子;
      [0030] 本發(fā)明實(shí)施例方案可以在服務(wù)器一側(cè)執(zhí)行也可以在移動(dòng)終端一側(cè)執(zhí)行,對(duì)此本發(fā) 明實(shí)施例不予限定。若在移動(dòng)終端一側(cè)執(zhí)行,那么本步驟中獲取正文內(nèi)容可以是接收到來(lái) 自網(wǎng)絡(luò)側(cè)的正文內(nèi)容;如果在服務(wù)器一側(cè)執(zhí)行,那么本步驟則可以是批量的獲取正文內(nèi)容, 然后依此對(duì)各正文內(nèi)容采用本發(fā)明實(shí)施例方案進(jìn)行摘要生成。在正文獲取以后,獲取句子 的方式可以采用獲取句號(hào)對(duì)正文進(jìn)行分?jǐn)嗟姆绞絹?lái)確定,具體實(shí)現(xiàn)方式本發(fā)明實(shí)施例不予 限定。
      [0031] 102:對(duì)正文內(nèi)容的各句子使用多元語(yǔ)言模型算法進(jìn)行分詞得到分詞結(jié)果,確定上 述分詞結(jié)果的特征向量;上述特征向量包含典型特征,典型特征對(duì)應(yīng)有特征權(quán)重;依據(jù)典 型特征的特征權(quán)重計(jì)算正文內(nèi)容的各句子的重要度;
      [0032] 在本發(fā)明實(shí)施例中使用多元語(yǔ)言模型算法進(jìn)行分詞。N-GRAM(N-gramlanguage model,多元語(yǔ)言模型,其中N彡2)算法,N-GRAM是大詞匯連續(xù)語(yǔ)音識(shí)別中的一種語(yǔ)言模型, 對(duì)于中文而言也有稱為:漢語(yǔ)語(yǔ)言模型(CLM,ChineseLanguageModel)。本方案擯棄了依 賴于詞典的分詞的做法,采用N-GRAM算法來(lái)對(duì)句子進(jìn)行拆分,這樣不僅不依賴于分詞和詞 典,而且能夠最大程度地保留信息量,為句子的挑選提供更多可利用的特征。N-GRAM的做 法是利用固定大小的滑動(dòng)窗口對(duì)句子進(jìn)行遍歷,并將窗口內(nèi)的詞串予以提取。比如窗口大 小為2時(shí),"王力宏要結(jié)婚了"可提取為"王力/力宏/宏要/要結(jié)/結(jié)婚/婚了"共6個(gè)詞 串。詞串的數(shù)量遠(yuǎn)遠(yuǎn)大于分詞得到的詞串?dāng)?shù)。其中雖然存在一些無(wú)意義的詞串,但是由于 最終提取的是句子,且無(wú)意義串對(duì)句子重要度計(jì)算沒(méi)有影響,所以此做法很有意義。
      [0033]可選地,在本發(fā)明實(shí)施例中特征向量以及特征向量?jī)?nèi)的典型特征均可以是預(yù)置 的,更具體地:上述典型特征的值包含:句子包含標(biāo)題詞串的數(shù)量、句子包含重要詞串的數(shù) 量、句子的長(zhǎng)度、句子在正文中的位置以及句子是否包含總結(jié)性詞匯中的至少一項(xiàng)。
      [0034]在本發(fā)明實(shí)施例中,可以對(duì)分詞得到的分詞結(jié)果提取各種預(yù)先定義好的特征值 (即典型特征),這樣可將其格式化為一個(gè)特征向量<fl,f2,…,fn>,其中fi表示第i個(gè)特征 的值。目前一般可以有約10個(gè)特征,每一個(gè)特征都對(duì)于衡量句子重要度較有作用,其中幾 個(gè)典型特征如下:
      [0035] 特征fl:句子包含標(biāo)題詞串的數(shù)量;
      [0036] 特征f2:句子包含重要詞串的數(shù)量;
      [0037] 特征f3 :句子的長(zhǎng)度;
      [0038] 特征f4:句子在網(wǎng)頁(yè)中的位置煅首、段中、段尾等);
      [0039] 特征f5:句子是否包含總結(jié)性詞匯(如:總之、綜上上述等)。
      [0040] 其中在f2中,重要詞串的識(shí)別方式可以采用TFIDF(termfrequency-inverse documentfrequency,詞頻逆文檔頻率)的相關(guān)方法實(shí)現(xiàn),TFIDF是一種用于資訊檢索與資 訊探勘的加權(quán)技術(shù)。另需說(shuō)明的是,以上方案中典型特征的舉例是本發(fā)明實(shí)施例做出的幾 個(gè)優(yōu)選典型特征的舉例,基于人們對(duì)正文內(nèi)容的規(guī)律性分析總結(jié),是可以獲知其他影響句 子重要性的特征的,并且基于不同的文章類型(例如:時(shí)事新聞、財(cái)經(jīng)新聞、文學(xué)作品、科技 文獻(xiàn)等)還可能采用不同典型特征;因此以上舉例不應(yīng)理解為對(duì)本發(fā)明實(shí)施例的唯一性限 定。
      [0041] 可選地,本發(fā)明實(shí)施例還提供了特征權(quán)重的獲得方式,本實(shí)施例中特征權(quán)重的獲 得方式可以在摘要生成過(guò)程中進(jìn)行對(duì)特征權(quán)重進(jìn)行調(diào)整,也是可以在諸如測(cè)試過(guò)程或者預(yù) 置過(guò)程中進(jìn)行特征權(quán)重的生成,本實(shí)施例采用的是通過(guò)機(jī)器學(xué)習(xí)里的"訓(xùn)練"的方案來(lái)實(shí)現(xiàn) 的,具體可以如下:上述特征權(quán)重的獲得方法包括:獲取訓(xùn)練正文,上述訓(xùn)練正文包含已知 重要度的句子;循環(huán)執(zhí)行如下步驟:對(duì)訓(xùn)練正文的句子使用多元語(yǔ)言模型算法進(jìn)行分詞得 到分詞結(jié)果,并確定分詞結(jié)果的特征向量,然后使用典型特征的初始特征權(quán)重計(jì)算訓(xùn)練正 文的句子的重要度,并調(diào)
      當(dāng)前第1頁(yè)1 2 3 4 5 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1