專利名稱:一種基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,確切的說涉及一種基于云模型的面向查詢的多文檔自動(dòng)文摘方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)上包含著海量的并且時(shí)刻在增加的信息。針對(duì)用戶輸入的一個(gè)簡單查詢,搜索引擎一般會(huì)返回用戶可能需要的一系列經(jīng)過排序的網(wǎng)頁,其中有大量不相關(guān)的、重復(fù)的數(shù)據(jù),需要用戶耗費(fèi)很多精力來自己查找有用的結(jié)果。面向查詢的多文檔自動(dòng)文摘技術(shù)將大量的查詢相關(guān)文檔中的內(nèi)容提煉、重組為一定長度的簡短摘要,加速用戶的信息獲取。面向查詢的多文檔自動(dòng)文摘技術(shù)能夠減小從海量數(shù)據(jù)中獲取信息的難度,提高信息獲取及理解的速度,進(jìn)而提高用戶獲取以及利用信息的效率,提高使用者在信息社會(huì)中的競爭實(shí)力。面向查詢的多文檔自動(dòng)文摘與信息檢索、自動(dòng)問答等技術(shù)既有聯(lián)系又有區(qū)別。信息檢索的主要任務(wù)是找出滿足特定檢索條件的文檔,用戶則需要從返回的大量包含各種冗余信息的文檔列表中努力尋找所需要的信息。自動(dòng)問答的主要任務(wù)則是找出符合特定問題的答案,目前還僅限于一些特定領(lǐng)域、特定類型的問題,而且提供的答案有時(shí)由于過于簡略而難以理解。開放域的問答系統(tǒng)的研究還面臨著實(shí)質(zhì)性的困難,效果也差強(qiáng)人意。面向查詢的多文檔自動(dòng)文摘綜合了多文檔自動(dòng)文摘、信息檢索和自動(dòng)問答等現(xiàn)有技術(shù)上的優(yōu)點(diǎn), 又在一定程度上避免了其不足。它在用戶個(gè)性化信息的推薦定制、海量信息獲取、數(shù)字圖書館、商業(yè)情報(bào)分析、電子政務(wù)以及移動(dòng)計(jì)算等領(lǐng)域都具有重要的研究意義和廣闊的應(yīng)用前
旦
ο根據(jù)摘要方式的不同,可以將面向查詢的多文檔自動(dòng)文摘分為信息抽取式和摘錄式,其主要的區(qū)別在于前者抽取句子中有用的信息,經(jīng)過重寫組合成摘要;后者通過一定的方法選取最重要的句子構(gòu)成摘要。目前,摘錄式摘要是研究的主流方向。根據(jù)研究對(duì)象的不同,可以將面向查詢的多文檔自動(dòng)文摘的研究分為針對(duì)特定領(lǐng)域的文摘和針對(duì)開放領(lǐng)域的文摘。針對(duì)開放領(lǐng)域的文摘系統(tǒng)雖然可讀性一般來說不如前者,但適應(yīng)范圍廣,可移植性強(qiáng),是目前的主流方向。本發(fā)明所述方法是摘錄式的、針對(duì)開放域的。云模型是李德毅院士提出的一種處理不確定性概念中模糊性、隨機(jī)性及其關(guān)聯(lián)性的定性定量轉(zhuǎn)換模型。云模型從研究自然語言概念的不確定性入手,展開對(duì)不確定性人工智能的研究。雖然云模型發(fā)端于自然語言中的概念,但遺憾的是,就目前搜集到的論文情況看來,將云模型直接應(yīng)用在自然語言處理領(lǐng)域本身的工作還比較少見,本發(fā)明所述方法是云模型在自然語言處理的一種典型應(yīng)用,可以被拓展到自然語言處理的其他領(lǐng)域。面向查詢的多文檔自動(dòng)文摘系統(tǒng)一般由文本內(nèi)部表示、文本分析、文摘提取和生成三個(gè)階段構(gòu)成。文本內(nèi)部表示階段將輸入文本轉(zhuǎn)化為內(nèi)部表示形式。文本分析部分對(duì)文本進(jìn)行不同層次的分析從而確定每個(gè)文本基本單元(語句、段落或章節(jié)等)的重要性。文摘提取和生成部分通過對(duì)文摘抽取單元的排序來生成內(nèi)容連貫、反映原文主題的文摘。目前,各文摘系統(tǒng)的差異主要體現(xiàn)在后兩個(gè)階段。在文本分析階段,基于抽取的方法主要有基于高頻詞的方法,基于圖的方法,基于主題的方法,以及基于語義的方法等。這些現(xiàn)有方法基本可以概括為找到文摘單元的某種隨機(jī)分布,利用統(tǒng)計(jì)、圖方法或者更復(fù)雜的語言模型來解析這些分布,并據(jù)此對(duì)文摘單元的重要性進(jìn)行評(píng)價(jià)。經(jīng)過文本分析階段,選取最重要的句子可以直接生成文摘,但由于只是簡單引用和堆砌,其組成的摘要冗余度高、連貫性與可讀性較差,很難被閱讀者理解。文摘提取和生成部分在前一階段的基礎(chǔ)上,對(duì)挑選出來的句子進(jìn)行調(diào)整和修飾, 目前的主要技術(shù)手段包括去冗余、句子修剪、句子排序。其中去冗余一般采取MMR方法,在選取文摘句的過程中不僅考慮句子的重要度,也考慮句子和已選擇文摘句的相關(guān)度,選取那些重要但和已選擇文摘句不相關(guān)的句子作為文摘句。句子修剪通過去掉句子中的一些有效信息很少或者沒有有效信息的內(nèi)容,用相對(duì)簡略并合乎語法的形式表達(dá)一個(gè)句子的核心內(nèi)容,可以有效提高文摘的有效信息含量,在有限的空間中表達(dá)更多的內(nèi)容。近年來利用手機(jī)上網(wǎng)也已經(jīng)逐漸成為一種獲取信息資源的主流方式,,而手機(jī)平臺(tái)與計(jì)算機(jī)平臺(tái)一個(gè)最顯著的差別在于屏幕大小的差別,短小精簡的摘要將會(huì)幫助手機(jī)用戶更快的獲得他們需求的咨詢,句子修剪技術(shù)也因而極有可能受到更多的關(guān)注。目前,對(duì)于中文句子修剪的研究還極其少見。句子排序?qū)⑽恼械木渥又匦屡判颍瑥亩沟媒?jīng)過排序后的文摘更加連貫,容易被閱讀者理解,也是自動(dòng)文摘的關(guān)鍵技術(shù)之一。目前,句子排序的方法主要有三種,即時(shí)間次序、多數(shù)次序、概率次序的方法。其中,時(shí)間次序方法根據(jù)原文檔出版或發(fā)布日期的順序進(jìn)行排序,其局限性在于獲取真實(shí)時(shí)間信息往往非常困難,同時(shí)該方法沒有考慮主題因素。 多數(shù)次序的基本思想是根據(jù)文摘句所屬主題的順序決定文摘句的順序,而主題的順序則由主題中大部分句子的位置決定。多數(shù)次序的局限性在于只有各主題在文檔中的相對(duì)位置比較穩(wěn)定時(shí),多數(shù)次序法生成摘要的可讀性才較好,在相對(duì)位置變化頻繁時(shí),文摘結(jié)構(gòu)容易變得混亂。概率次序的思路是將文摘句分解為特征,在訓(xùn)練語料中學(xué)習(xí)這些特征的先后順序,再利用特征的順序決定文摘句的次序,其局限性在于對(duì)于訓(xùn)練語料的依賴,人工選擇的訓(xùn)練語料的質(zhì)量對(duì)于句子排序影響很大。武漢大學(xué)的劉德喜提出了一種多文檔文摘句子排序的混合模型,利用線性組合集成位置關(guān)系、時(shí)間關(guān)系、依賴關(guān)系、話題關(guān)系。北京理工大學(xué)的蔣效宇提出了一種將局部主題間的內(nèi)聚度與多數(shù)次序結(jié)合的句子排序方法。華中師范大學(xué)的馬亮提出了一種基于單一模板融合的文摘句排序策略,根據(jù)文檔的文摘代表性選擇模板,利用模板來為文摘句排序,從而保證文摘句邏輯上的連貫性。哈爾濱工業(yè)大學(xué)的徐永東等人提出基于文本時(shí)間信息處理的句子排序方法,提出了中文文本時(shí)間信息抽取、語義計(jì)算以及時(shí)序推理算法,提取時(shí)間信息。發(fā)明人于2011年在期刊上公布了一種基于云模型的面向查詢的多文檔自動(dòng)文摘方法,已公布的方法局限于英文語料,且僅限于所述第二階段,即文本分析階段的創(chuàng)新。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提供了一種基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,采用了云模型這一不確定性研究領(lǐng)域的最新研究成果作為理論指導(dǎo),在構(gòu)建系統(tǒng)的各個(gè)環(huán)節(jié)中靈活運(yùn)用云的思想和方法,充分地考慮生成文摘過程中的不確定性因素,并利用這些不確定性因素改善系統(tǒng)的性能,對(duì)于給定中文文檔集合和查詢條件,該系統(tǒng)可以全自動(dòng)地生成指定長度的滿足查詢需求、簡潔、連貫的自動(dòng)摘要。此方法適合中文語料,生成的摘要與人工摘要有較高的契合度,并且具有較強(qiáng)的可讀性,從而減少用戶查找信息所用的時(shí)間。為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,包括以下步驟
1)對(duì)查詢和多文檔集合進(jìn)行句子切分、分詞、去停用詞,將查詢和文檔表示成向量;
權(quán)利要求
1.一種基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,其特征在于包括如下步驟1)對(duì)查詢和多文檔集合進(jìn)行句子切分、分詞、去停用詞,將查詢和文檔表示成向量;2)利用云模型對(duì)得到的向量進(jìn)行處理,通過建立中文語料庫、修改英文自動(dòng)文摘評(píng)測(cè)工具ROUGE的源代碼以實(shí)現(xiàn)中文文摘自動(dòng)評(píng)測(cè)、參數(shù)訓(xùn)練,找出與查詢相關(guān)的句子,并計(jì)算句子在文檔集合中的重要度,綜合考慮兩方面的因素,給句子打分;3)去冗余,生成初始文摘。
2.根據(jù)權(quán)利要求1所述的基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,其特征在于所述步驟3)之后還包括一個(gè)句子修剪步驟,即制定句子修剪規(guī)則對(duì)初始文摘句進(jìn)行句子修剪,產(chǎn)生多候選句,利用多維云選取修剪句替換原始文摘句,生成精煉文摘。
3.根據(jù)權(quán)利要求2所述的基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,最后還包括一個(gè)句子排序步驟,即對(duì)文檔集合進(jìn)行聚類,找出包含一個(gè)或多個(gè)文摘句的子主題,將文檔集合中的所有文檔看成是模板,多個(gè)模板的集合構(gòu)成了云,即云模板,利用云模板依次對(duì)子主題以及子主題內(nèi)部的文摘句進(jìn)行排序,最終生成所需摘要。
4.根據(jù)權(quán)利要求2所述的基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,其特征在于所述的句子修剪規(guī)則為10條基于依存分析的人工規(guī)則。
5.根據(jù)權(quán)利要求2所述的基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,其特征在于所述的利用多維云選取修剪句替換原始文摘句具體是指將詞語在文檔集合間的分布、在所有句子間的分布、與所有查詢?cè)~之間的相關(guān)度三方面分別看成云滴,分別通過逆向云發(fā)生器得到三種云的數(shù)字特征以得到詞語多維云,通過綜合云運(yùn)算得到詞語單維云,詞語單維云組成句子多維云,計(jì)算候選句重要度得分,再與候選句長度一起計(jì)算候選句的信息密度,用信息密度最高的候選句替換原始文摘句。
6.根據(jù)權(quán)利要求5所述的基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,其特征在于所述的計(jì)算候選句重要度得分是指,通過計(jì)算句子多維云與原句多維云的相似度,從而得到候選句的重要度得分,計(jì)算句子多維云與原句多維云相似度的方法為其中,Cl和C2為兩個(gè)多維云,Exlk, Ex2k, Enlk, En2k, Helk、He2k分別為概念Cl和C2所擁有的第k個(gè)屬性值的數(shù)學(xué)期望、熵、超熵;Vk為屬性k的權(quán)重,其大小為0 1。
7.根據(jù)權(quán)利要求5所述的基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,其特征在于所述的計(jì)算候選句信息密度的方法為其中C、0分別表示候選句和原句,函數(shù)Length計(jì)算的是句子長度,以字為單位。
8.根據(jù)權(quán)利要求3所述的基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,其特征在于所述利用云模板依次對(duì)子主題進(jìn)行排序具體是指由主題所包含的各個(gè)文摘句的單維云構(gòu)成主題相對(duì)位置多維云,用綜合云計(jì)算得到主題相對(duì)位置單維云,通過期望Ex得到主題相對(duì)位置得分,以此對(duì)主題進(jìn)行排序。
9.根據(jù)權(quán)利要求3所述的基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,其特征在于所述利用云模板依次對(duì)子主題內(nèi)部的文摘句進(jìn)行排序具體是指在所有文檔中找出哪個(gè)句子與前一步中得到的文摘句最為相似,作為該文摘句在該文檔中的相對(duì)位置,將每個(gè)相對(duì)位置看成云滴,進(jìn)行逆向云計(jì)算,得到句子相對(duì)位置云的數(shù)字特征,與主題內(nèi)部句子一起通過期望h得到句子相對(duì)位置得分,以此對(duì)主題內(nèi)部句子進(jìn)行排序。
全文摘要
本發(fā)明公開了一種基于云模型的中文面向查詢的多文檔自動(dòng)文摘方法,包括以下步驟對(duì)查詢和多文檔集合進(jìn)行句子切分、分詞、去停用詞,將查詢和文檔表示成向量;利用云模型對(duì)得到的向量進(jìn)行處理,通過建立中文語料庫、修改英文自動(dòng)文摘評(píng)測(cè)工具ROUGE的源代碼以實(shí)現(xiàn)中文文摘自動(dòng)評(píng)測(cè)、參數(shù)訓(xùn)練,找出與查詢相關(guān)的句子,并計(jì)算句子在文檔集合中的重要度,綜合考慮兩方面的因素,給句子打分;去冗余,生成初始文摘。本發(fā)明的技術(shù)可以實(shí)現(xiàn)對(duì)于給定查詢,通過搜索引擎自動(dòng)獲取相關(guān)文檔集合,進(jìn)而自動(dòng)生成用戶需要的摘要??梢灾苯臃祷赜脩粜枰闹匾獌?nèi)容,避免用戶耗費(fèi)大量的時(shí)間從網(wǎng)頁中尋找需要的結(jié)果。本發(fā)明是目前所知首個(gè)適合于生成中文面向查詢的多文檔自動(dòng)文摘的完整系統(tǒng),在中英文大規(guī)模語料上進(jìn)行的實(shí)驗(yàn)表明該系統(tǒng)具有良好的性能。
文檔編號(hào)G06F17/30GK102411621SQ20111037375
公開日2012年4月11日 申請(qǐng)日期2011年11月22日 優(yōu)先權(quán)日2011年11月22日
發(fā)明者何婷婷, 李芳 , 胡珀, 趙軍民, 陳勁光 申請(qǐng)人:華中師范大學(xué)