国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于算法的文本摘要自動(dòng)提取方法與系統(tǒng)與流程

      文檔序號(hào):11386506閱讀:400來(lái)源:國(guó)知局
      一種基于算法的文本摘要自動(dòng)提取方法與系統(tǒng)與流程

      本發(fā)明涉及文本提取的技術(shù)領(lǐng)域,具體涉及一種基于算法的文本摘要自動(dòng)提取方法與系統(tǒng)。



      背景技術(shù):

      基于機(jī)器學(xué)習(xí)的文本摘要自動(dòng)抽取是近年來(lái)文本挖掘研究領(lǐng)域的一個(gè)熱點(diǎn),在搜索引擎、門戶網(wǎng)站、移動(dòng)互聯(lián)網(wǎng)、信息檢索系統(tǒng)等領(lǐng)域有著非常廣闊的應(yīng)用前景。利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)文本摘要的自動(dòng)提取可以有效地挖掘和濃縮文本信息,減少用戶的閱讀時(shí)間,提升用戶體驗(yàn)。

      早期對(duì)文本摘要的自動(dòng)提取主要采用基于規(guī)則或基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方式。近年來(lái),許多研究人員開始利用各種機(jī)器學(xué)習(xí)算法來(lái)研究高文本摘要自動(dòng)提取,例如回歸模型(包括線性回歸或elm回歸等)、lda(latentdirichletallocation)模型、支持向量機(jī)svm、lexrank算法,并結(jié)合語(yǔ)言學(xué)的一些相關(guān)研究成果進(jìn)一步提高摘要提取的效果,如篇章結(jié)構(gòu)、詞語(yǔ)權(quán)重、關(guān)鍵詞、主題模型等。由于線性回歸、elm回歸和lda等均為有監(jiān)督的學(xué)習(xí)方法,因此容易受訓(xùn)練樣本的影響,從而造成領(lǐng)域通用性較差,不適合用于海量文本的摘要提取。2004年mihalcea和tarau在google公司pagerank算法的基礎(chǔ)上結(jié)合他們對(duì)自動(dòng)摘要提取的研究,提出了無(wú)監(jiān)督學(xué)習(xí)算法textrank,其本質(zhì)是根據(jù)句子間的相似關(guān)系來(lái)構(gòu)建textrank網(wǎng)絡(luò)圖,并將句子間的相似關(guān)系看成是一種推薦或投票關(guān)系。一些研究人員在mihalcea和tarau的工作基礎(chǔ)上,將textrank應(yīng)用于信息檢索、關(guān)鍵詞提取等方面,并取得了較好的效果。但這些工作中對(duì)文本的表示主要采用基于詞袋(bag-of-word)的方式,即one-of-v(其中v為詞典的大小),并且主要根據(jù)單詞之間的共現(xiàn)信息,而忽略了單詞的順序及其語(yǔ)義。例如,無(wú)法表達(dá)詞與詞之間的相似度(任何兩個(gè)不同詞語(yǔ)的向量?jī)?nèi)積均為0),而且容易導(dǎo)致詞語(yǔ)向量的維度過(guò)大。

      中國(guó)專利申請(qǐng)cn104216875a公開了基于非監(jiān)督關(guān)鍵二元詞串提取的微博文本自動(dòng)摘要方法,包括:微博預(yù)處理;二元詞串標(biāo)準(zhǔn)化;基于混合tf-idf、textrank和lda的關(guān)鍵二元詞串提?。换诮患嗨贫群突バ畔⒉呗缘木渥优判?;基于相似度閾值的摘要句抽取;以及合理組合摘要句以生成摘要。該專利申請(qǐng)仍然囿于傳統(tǒng)自動(dòng)提取文本摘要的思維框架,不能解決維數(shù)災(zāi)難等問(wèn)題。

      另一中國(guó)專利申請(qǐng)cn200710130576.x公開了一種數(shù)據(jù)處理裝置,包括:第一無(wú)監(jiān)督學(xué)習(xí)處理單元、第二無(wú)監(jiān)督學(xué)習(xí)處理單元和有監(jiān)督學(xué)習(xí)處理單元。所述第一無(wú)監(jiān)督學(xué)習(xí)處理單元根據(jù)無(wú)監(jiān)督學(xué)習(xí)將第一數(shù)據(jù)組的數(shù)據(jù)分類,以便執(zhí)行所述第一數(shù)據(jù)組的維度縮減,從而獲得第一分類數(shù)據(jù)組。所述第二無(wú)監(jiān)督學(xué)習(xí)處理單元根據(jù)無(wú)監(jiān)督學(xué)習(xí)將第二數(shù)據(jù)組的數(shù)據(jù)分類,以便執(zhí)行所述第二數(shù)據(jù)組的維度縮減,從而獲得第二分類數(shù)據(jù)組。所述有監(jiān)督學(xué)習(xí)處理單元利用所述第一無(wú)監(jiān)督學(xué)習(xí)處理單元獲得的第一分類數(shù)據(jù)組和所述第二無(wú)監(jiān)督學(xué)習(xí)處理單元獲得的第二分類數(shù)據(jù)組作為教師數(shù)據(jù)執(zhí)行有監(jiān)督學(xué)習(xí),以便確定所述第一分類數(shù)據(jù)組和所述第二分類數(shù)據(jù)組之間的映射關(guān)系。該專利申請(qǐng)可縮減數(shù)據(jù)維度,但目前尚無(wú)能有效應(yīng)用于文本摘要自動(dòng)提取的方法或系統(tǒng)。



      技術(shù)實(shí)現(xiàn)要素:

      針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明的目的旨在提供一種基于算法的文本摘要自動(dòng)提取方法與系統(tǒng),將doc2vec和textrank算法結(jié)合應(yīng)用于文本摘要自動(dòng)提取中,提高文本摘要自動(dòng)提取的準(zhǔn)確度。

      為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

      一種基于算法的文本摘要自動(dòng)提取方法,包含有以下步驟:

      s1、對(duì)文本進(jìn)行預(yù)處理,預(yù)處理的內(nèi)容包括對(duì)文本進(jìn)行分段、分句和分詞,還包括提取文本的篇章結(jié)構(gòu)信息;

      s2、對(duì)完成預(yù)處理的文本進(jìn)行特征提取,提取特征的內(nèi)容具體為:通過(guò)doc2vec算法及其相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)每個(gè)句子中各個(gè)詞的詞向量及段落向量,使得每個(gè)句子對(duì)應(yīng)于一個(gè)指定維度、且連續(xù)稠密的實(shí)數(shù)段落詞向量,將該實(shí)數(shù)段落詞向量作為句子的特征表示;

      s3、完成特征提取后,采用現(xiàn)有的相似度計(jì)算方法對(duì)文本內(nèi)句子間的相似度進(jìn)行計(jì)算,計(jì)算過(guò)程中結(jié)合文本的篇章結(jié)構(gòu)及句子的位置進(jìn)行加權(quán)處理,完成結(jié)合了加權(quán)處理的相似度計(jì)算后得到文本的句子相似度矩陣;

      s4、根據(jù)句子相似度矩陣,以文本中的各句子為節(jié)點(diǎn)、以句子間的相似關(guān)系為邊、以句子間的相似度為邊的權(quán)值構(gòu)造無(wú)向加權(quán)textrank網(wǎng)絡(luò)圖;通過(guò)迭代計(jì)算至收斂,得到包含權(quán)重值的各個(gè)節(jié)點(diǎn);

      s5、結(jié)合設(shè)定的摘要篇幅參數(shù),根據(jù)對(duì)應(yīng)于各個(gè)節(jié)點(diǎn)的句子的權(quán)重值、文本的篇章結(jié)構(gòu)及句子的位置信息選擇核心句子,根據(jù)核心句子出現(xiàn)的先后順序進(jìn)行排序后作為文本摘要的提取結(jié)果進(jìn)行輸出,其中的摘要篇幅參數(shù)包括摘要字?jǐn)?shù)、摘要句子數(shù)量以及摘要句子占文章句子總數(shù)的比例。

      進(jìn)一步地,s3中,計(jì)算相似度時(shí)進(jìn)行加權(quán)處理的原則為:1)當(dāng)句子與文本標(biāo)題一致時(shí),將該句子的相似度計(jì)算結(jié)果乘以2作為加權(quán)的結(jié)果;2)當(dāng)句子與文本標(biāo)題的相似度計(jì)算結(jié)果為0時(shí),不對(duì)該句子的相似度計(jì)算結(jié)果進(jìn)行加權(quán);3)當(dāng)句子與文本標(biāo)題的相似度計(jì)算結(jié)果介于前面兩種情況之間時(shí),采用以下式子對(duì)句子的相似度進(jìn)行加權(quán):

      其中,p0h'和pih'分別表示標(biāo)題句子及第i個(gè)句子長(zhǎng)度為h’的特征向量,sim表示兩個(gè)句子的特征向量的向量積計(jì)算結(jié)果;

      4)對(duì)于文本中位于首段和末段的句子,根據(jù)正序和反序位置進(jìn)行加權(quán),加權(quán)系數(shù)的計(jì)算公式為:

      其中,e1和e2均為大于0小于1的設(shè)定閥值,s和r為首段和末段的句子數(shù)量;5)對(duì)于關(guān)鍵句子的權(quán)重放大1.1倍,關(guān)鍵句子為字?jǐn)?shù)大于設(shè)定值、并且直接構(gòu)成一個(gè)段落的句子;6)對(duì)于經(jīng)預(yù)處理為空的句子,不進(jìn)行加權(quán)。

      進(jìn)一步地,s1中,對(duì)文本進(jìn)行分段、分句和分詞的方式具體為:對(duì)文本中的每個(gè)句子進(jìn)行編號(hào),根據(jù)標(biāo)點(diǎn)符號(hào)對(duì)文本進(jìn)行分段和分句,根據(jù)編碼及分詞工具對(duì)文本進(jìn)行分詞。

      進(jìn)一步地,s1中,對(duì)文本進(jìn)行預(yù)處理的內(nèi)容還包括:對(duì)文本進(jìn)行標(biāo)點(diǎn)符號(hào)過(guò)濾、縮寫補(bǔ)齊和刪除空格。

      一種基于算法的文本摘要自動(dòng)提取系統(tǒng),包括:

      預(yù)處理模塊,用于對(duì)文本進(jìn)行分段、分句和分詞,還用于提取文本的篇章結(jié)構(gòu)信息;

      基于doc2vec的特征提取模塊,用于通過(guò)doc2vec算法及其相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)每個(gè)句子中各個(gè)詞的詞向量及段落向量,使得每個(gè)句子對(duì)應(yīng)于一個(gè)指定維度、且連續(xù)稠密的實(shí)數(shù)段落詞向量,獲得作為句子的特征表示的實(shí)數(shù)段落詞向量;

      相似度計(jì)算模塊,用于采用現(xiàn)有的相似度計(jì)算方法對(duì)文本內(nèi)句子間的相似度進(jìn)行計(jì)算,計(jì)算過(guò)程中結(jié)合文本的篇章結(jié)構(gòu)及句子的位置進(jìn)行加權(quán)處理,完成結(jié)合了加權(quán)處理的相似度計(jì)算后得到文本的句子相似度矩陣;

      基于textrank的權(quán)重值計(jì)算模塊,用于根據(jù)句子相似度矩陣,以文本中的各句子為節(jié)點(diǎn)、以句子間的相似關(guān)系為邊、以句子間的相似度為邊的權(quán)值構(gòu)造無(wú)向加權(quán)textrank網(wǎng)絡(luò)圖;還用于通過(guò)迭代計(jì)算至收斂,得到包含權(quán)重值的各個(gè)節(jié)點(diǎn);

      摘要提取模塊,用于結(jié)合設(shè)定的摘要篇幅參數(shù),根據(jù)對(duì)應(yīng)于各個(gè)節(jié)點(diǎn)的句子的權(quán)重值、文本的篇章結(jié)構(gòu)及句子的位置信息選擇核心句子,并根據(jù)核心句子出現(xiàn)的先后順序進(jìn)行排序后作為文本摘要的提取結(jié)果進(jìn)行輸出,其中的摘要篇幅參數(shù)包括摘要字?jǐn)?shù)、摘要句子數(shù)量以及摘要句子占文章句子總數(shù)的比例。

      進(jìn)一步地,相似度計(jì)算模塊在計(jì)算相似度時(shí)進(jìn)行加權(quán)處理的原則為:1)當(dāng)句子與文本標(biāo)題一致時(shí),將該句子的相似度計(jì)算結(jié)果乘以2作為加權(quán)的結(jié)果;2)當(dāng)句子與文本標(biāo)題的相似度計(jì)算結(jié)果為0時(shí),不對(duì)該句子的相似度計(jì)算結(jié)果進(jìn)行加權(quán);3)當(dāng)句子與文本標(biāo)題的相似度計(jì)算結(jié)果介于前面兩種情況之間時(shí),根據(jù)以下關(guān)于加權(quán)系數(shù)的計(jì)算公式對(duì)句子的相似度進(jìn)行加權(quán):

      其中,p0h'和pih'分別表示標(biāo)題句子及第i個(gè)句子長(zhǎng)度為h’的特征向量,sim表示兩個(gè)句子的特征向量的向量積計(jì)算結(jié)果;

      4)對(duì)于文本中位于首段和末段的句子,根據(jù)正序和反序位置進(jìn)行加權(quán),加權(quán)系數(shù)的計(jì)算公式為:

      其中,e1和e2均為大于0小于1的設(shè)定閥值,s和r為首段和末段的句子數(shù)量;

      5)對(duì)于關(guān)鍵句子的權(quán)重放大1.1倍,關(guān)鍵句子為字?jǐn)?shù)大于設(shè)定值、并且直接構(gòu)成一個(gè)段落的句子;6)對(duì)于經(jīng)預(yù)處理為空的句子,不進(jìn)行加權(quán)。

      進(jìn)一步地,預(yù)處理模塊中對(duì)文本進(jìn)行分段、分句和分詞的方法為:對(duì)文本中的每個(gè)句子進(jìn)行編號(hào),根據(jù)標(biāo)點(diǎn)符號(hào)對(duì)文本進(jìn)行分段和分句,根據(jù)編碼及分詞工具對(duì)文本進(jìn)行分詞。

      進(jìn)一步地,預(yù)處理模塊還用于對(duì)文本進(jìn)行標(biāo)點(diǎn)符號(hào)過(guò)濾、縮寫補(bǔ)齊和刪除空格。

      本發(fā)明的有益效果在于:利用基于word2vec和詞嵌入的doc2vec算法從文本中各個(gè)可變長(zhǎng)度的句子進(jìn)行學(xué)習(xí),從而得到包含語(yǔ)義信息的低維稠密實(shí)數(shù)詞向量,并作為固定大小的句子特征表示,相對(duì)于傳統(tǒng)的詞袋及詞頻表示方法,利用doc2vec所得到的句子段落詞向量不僅包含了詞的語(yǔ)義信息,還可以避免特征空間的維災(zāi)表示問(wèn)題和減少相似度計(jì)算工作量;doc2vec算法具有表達(dá)句子語(yǔ)義和降低特征表示的維災(zāi)問(wèn)題的優(yōu)勢(shì),textrank算法具有在無(wú)監(jiān)督學(xué)習(xí)方面不需要事先訓(xùn)練、不依賴于特定語(yǔ)料庫(kù)和計(jì)算性能高等優(yōu)勢(shì),本發(fā)明將doc2vec和textrank算法有機(jī)結(jié)合并應(yīng)用于文本摘要自動(dòng)提取領(lǐng)域中,并結(jié)合了篇章結(jié)構(gòu)等信息進(jìn)一步優(yōu)化textrank網(wǎng)絡(luò)結(jié)構(gòu)圖,具有準(zhǔn)確率較高、計(jì)算速度較快等優(yōu)點(diǎn);相對(duì)于傳統(tǒng)的文本摘要自動(dòng)提取方法/系統(tǒng)可將準(zhǔn)確率提高3%~5%,在本領(lǐng)域中準(zhǔn)確率得到提升的顯著。

      附圖說(shuō)明

      圖1是本發(fā)明中一種基于算法的文本摘要自動(dòng)提取方法的流程框圖;

      圖2是本發(fā)明中一種基于算法的文本摘要自動(dòng)提取系統(tǒng)的結(jié)構(gòu)框圖;

      圖3是本發(fā)明中對(duì)文本進(jìn)行預(yù)處理的流程框圖。

      具體實(shí)施方式

      下面,結(jié)合附圖以及具體實(shí)施方式,對(duì)本發(fā)明做進(jìn)一步描述:

      實(shí)施例1

      如圖1所示,一種基于算法的文本摘要自動(dòng)提取方法,包含有以下步驟:

      s1、對(duì)文本進(jìn)行預(yù)處理,如圖3所示,預(yù)處理的內(nèi)容包括:對(duì)文本中的每個(gè)句子進(jìn)行編號(hào),根據(jù)標(biāo)點(diǎn)符號(hào)對(duì)文本進(jìn)行分段和分句,根據(jù)編碼及分詞工具對(duì)文本進(jìn)行分詞;提取文本的篇章結(jié)構(gòu)信息;還包括對(duì)文本進(jìn)行標(biāo)點(diǎn)符號(hào)過(guò)濾、縮寫補(bǔ)齊、詞干處理和刪除空格;

      s2、對(duì)完成預(yù)處理的文本進(jìn)行特征提取,提取特征的內(nèi)容具體為:通過(guò)doc2vec算法及其相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)每個(gè)句子中各個(gè)詞的詞向量及段落向量,使得每個(gè)句子對(duì)應(yīng)于一個(gè)指定維度、且連續(xù)稠密的實(shí)數(shù)段落詞向量,將該實(shí)數(shù)段落詞向量作為句子的特征表示;

      s3、完成特征提取后,采用現(xiàn)有的相似度計(jì)算方法(如余弦函數(shù)、歐式距離或jaccard函數(shù)等)對(duì)文本內(nèi)句子間的相似度進(jìn)行計(jì)算,計(jì)算過(guò)程中結(jié)合文本的篇章結(jié)構(gòu)及句子的位置進(jìn)行加權(quán)處理,計(jì)算相似度時(shí)進(jìn)行加權(quán)處理的原則為:1)當(dāng)句子與文本標(biāo)題一致時(shí),將該句子的相似度計(jì)算結(jié)果乘以2作為加權(quán)的結(jié)果;2)當(dāng)句子與文本標(biāo)題的相似度計(jì)算結(jié)果為0時(shí),不對(duì)該句子的相似度計(jì)算結(jié)果進(jìn)行加權(quán);3)當(dāng)句子與文本標(biāo)題的相似度計(jì)算結(jié)果介于前面兩種情況之間時(shí),采用以下式子對(duì)句子的相似度進(jìn)行加權(quán):

      其中,p0h'和pih'分別表示標(biāo)題句子及第i個(gè)句子長(zhǎng)度為h’的特征向量,sim表示兩個(gè)句子的特征向量的向量積計(jì)算結(jié)果;

      4)對(duì)于文本中位于首段和末段的句子,根據(jù)正序和反序位置進(jìn)行加權(quán),加權(quán)系數(shù)的計(jì)算公式為:

      其中,e1和e2均為大于0小于1的設(shè)定閥值,默認(rèn)值均為0.2,s和r為首段和末段的句子數(shù)量;5)對(duì)于關(guān)鍵句子的權(quán)重放大1.1倍,關(guān)鍵句子為字?jǐn)?shù)大于設(shè)定值、并且直接構(gòu)成一個(gè)段落的句子;6)對(duì)于經(jīng)預(yù)處理為空的句子,不進(jìn)行加權(quán);完成結(jié)合了加權(quán)處理的相似度計(jì)算后得到文本的句子相似度矩陣;

      s4、根據(jù)句子相似度矩陣,以文本中的各句子為節(jié)點(diǎn)、以句子間的相似關(guān)系為邊、以句子間的相似度為邊的權(quán)值構(gòu)造無(wú)向加權(quán)textrank網(wǎng)絡(luò)圖;通過(guò)迭代計(jì)算至收斂,得到包含權(quán)重值的各個(gè)節(jié)點(diǎn);

      s5、對(duì)各個(gè)節(jié)點(diǎn)的權(quán)重值進(jìn)行倒排序,結(jié)合設(shè)定的摘要篇幅參數(shù),根據(jù)對(duì)應(yīng)于各個(gè)節(jié)點(diǎn)的句子的權(quán)重值、文本的篇章結(jié)構(gòu)及句子的位置信息選擇核心句子,摘要篇幅參數(shù)包括摘要字?jǐn)?shù)、摘要句子數(shù)量以及摘要句子占文章句子總數(shù)的比例,最后根據(jù)核心句子出現(xiàn)的先后順序進(jìn)行排序后作為文本摘要的提取結(jié)果進(jìn)行輸出。

      實(shí)施例2

      如圖2及圖3所示,一種基于算法的文本摘要自動(dòng)提取系統(tǒng),包括預(yù)處理模塊、基于doc2vec的特征提取模塊、相似度計(jì)算模塊、基于textrank的權(quán)重值計(jì)算模塊和摘要提取模塊;預(yù)處理模塊用于對(duì)文本進(jìn)行分段、分句和分詞,用于提取文本的篇章結(jié)構(gòu)信息,還用于對(duì)文本進(jìn)行標(biāo)點(diǎn)符號(hào)過(guò)濾、縮寫補(bǔ)齊、詞干處理和刪除空格;其中,預(yù)處理模塊中文本進(jìn)行分段、分句和分詞的方法為:對(duì)文本中的每個(gè)句子進(jìn)行編號(hào),根據(jù)標(biāo)點(diǎn)符號(hào)對(duì)文本進(jìn)行分段和分句,根據(jù)編碼及分詞工具對(duì)文本進(jìn)行分詞;基于doc2vec的特征提取模塊用于通過(guò)doc2vec算法及其相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)每個(gè)句子中各個(gè)詞的詞向量及段落向量,使得每個(gè)句子對(duì)應(yīng)于一個(gè)指定維度、且連續(xù)稠密的實(shí)數(shù)段落詞向量,獲得作為句子的特征表示的實(shí)數(shù)段落詞向量;相似度計(jì)算模塊用于采用現(xiàn)有的相似度計(jì)算方法(如余弦函數(shù)、歐式距離或jaccard函數(shù)等)對(duì)文本內(nèi)句子間的相似度進(jìn)行計(jì)算,計(jì)算過(guò)程中結(jié)合文本的篇章結(jié)構(gòu)及句子的位置進(jìn)行加權(quán)處理,計(jì)算相似度時(shí)進(jìn)行加權(quán)處理的原則為:1)當(dāng)句子與文本標(biāo)題一致時(shí),將該句子的相似度計(jì)算結(jié)果乘以2作為加權(quán)的結(jié)果;2)當(dāng)句子與文本標(biāo)題的相似度計(jì)算結(jié)果為0時(shí),不對(duì)該句子的相似度計(jì)算結(jié)果進(jìn)行加權(quán);3)當(dāng)句子與文本標(biāo)題的相似度計(jì)算結(jié)果介于前面兩種情況之間時(shí),根據(jù)以下關(guān)于加權(quán)系數(shù)的計(jì)算公式對(duì)句子的相似度進(jìn)行加權(quán):

      其中,p0h'和pih'分別表示標(biāo)題句子及第i個(gè)句子長(zhǎng)度為h’的特征向量,sim表示兩個(gè)句子的特征向量的向量積計(jì)算結(jié)果;

      4)對(duì)于文本中位于首段和末段的句子,根據(jù)正序和反序位置進(jìn)行加權(quán),加權(quán)系數(shù)的計(jì)算公式為:

      其中,e1和e2均為大于0小于1的設(shè)定閥值,默認(rèn)值均為0.2,s和r為首段和末段的句子數(shù)量;5)對(duì)于關(guān)鍵句子的權(quán)重放大1.1倍,關(guān)鍵句子為字?jǐn)?shù)大于設(shè)定值、并且直接構(gòu)成一個(gè)段落的句子;6)對(duì)于經(jīng)預(yù)處理為空的句子,不進(jìn)行加權(quán);完成結(jié)合了加權(quán)處理的相似度計(jì)算后得到文本的句子相似度矩陣;基于textrank的權(quán)重值計(jì)算模塊用于根據(jù)句子相似度矩陣,以文本中的各句子為節(jié)點(diǎn)、以句子間的相似關(guān)系為邊、以句子間的相似度為邊的權(quán)值構(gòu)造無(wú)向加權(quán)textrank網(wǎng)絡(luò)圖;還用于通過(guò)迭代計(jì)算至收斂,得到包含權(quán)重值的各個(gè)節(jié)點(diǎn);摘要提取模塊用于對(duì)各節(jié)點(diǎn)的權(quán)重值進(jìn)行倒排序,還用于結(jié)合設(shè)定的摘要篇幅參數(shù),根據(jù)對(duì)應(yīng)于各個(gè)節(jié)點(diǎn)的句子的權(quán)重值、文本的篇章結(jié)構(gòu)及句子的位置信息選擇核心句子,摘要篇幅參數(shù)包括摘要字?jǐn)?shù)、摘要句子數(shù)量、以及摘要句子占文章句子總數(shù)的比例,最后根據(jù)核心句子出現(xiàn)的先后順序進(jìn)行排序后作為文本摘要的提取結(jié)果進(jìn)行輸出。

      對(duì)本領(lǐng)域的技術(shù)人員來(lái)說(shuō),可根據(jù)以上描述的技術(shù)方案以及構(gòu)思,做出其它各種相應(yīng)的改變以及形變,而所有的這些改變以及形變都應(yīng)該屬于本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1