為主題文檔集生成摘要的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)數(shù)據(jù)處理領(lǐng)域,特別涉及一種為主題文檔集生成摘要的方法和 裝置。
【背景技術(shù)】
[0002] 隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,信息的數(shù)量越來越大,信息的來源也越 來越廣。如何從大量的、多個信息來源的主題文檔集中快速得到該主題文檔集的摘要,已成 為人們關(guān)心的重要問題之一。
[0003] 通常采用詞頻的方式生成主題文檔集的摘要。首先,對該文檔某一主題文檔集中 的每個文檔的內(nèi)容信息進(jìn)行切詞,得到多個詞,對得到的多個詞進(jìn)行篩選,去除停用詞后, 得到多個分詞;然后,通過每個分詞的詞頻,確定該分詞的重要性,進(jìn)而確定分詞所在的語 句的重要性。最后,將語句的重要性較大的至少一個語句作為該文檔的摘要。
[0004] 前述生成摘要的方法至少存在以下問題:通過上述詞頻的方式生成主題文檔集的 摘要時,由于不同的語句其重要性不同,生成的摘要中相鄰的兩個語句在主題文檔集中并 不是相鄰的,從而容易造成生成的摘要語句不順暢,降低了摘要的質(zhì)量和可讀性。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的實施例提供一種為主題文檔集生成摘要的方法和裝置,通過從主題文檔 集的各篇文章中選取的候選摘要進(jìn)行評分來獲取主題文檔集的摘要,從而提高主題文檔集 的摘要的質(zhì)量。
[0006] 為達(dá)到上述目的,本發(fā)明的實施例提供了一種為主題文檔集生成摘要的方法。所 述方法包括,候選摘要選取步驟:從主題文檔集的各篇文章中選取一個和/或多個語句作 為候選摘要;候選摘要評分步驟:根據(jù)預(yù)設(shè)的句法分析算法分別對所述候選摘要進(jìn)行切 詞,并基于切詞結(jié)果對所述候選摘要進(jìn)行評分;摘要確定步驟:將所述評分所得的值最高 的候選摘要作為所述主題文檔集的摘要。
[0007] 可選地,所述候選摘要選取步驟的處理包括:對所述主題文檔集的任一篇文章,以 窗口滑動的方式從所述文章的內(nèi)容文本依次獲取至少一組連續(xù)排列的語句分別作為第一 候選長摘要,和/或從所述主題文檔集的各篇文章分別提取其標(biāo)題作為第一候選短摘要。
[0008] 可選地,所述候選摘要評分步驟的處理包括:根據(jù)預(yù)設(shè)的句法分析算法分別對所 述第一候選長摘要進(jìn)行切詞,并且根據(jù)所述切詞的結(jié)果和預(yù)設(shè)的第一摘要評價指標(biāo)計算所 述第一候選長摘要的評分值,和/或根據(jù)預(yù)設(shè)的句法分析算法分別對所述第一候選短摘要 進(jìn)行切詞,并且根據(jù)所述切詞的結(jié)果和預(yù)設(shè)的第二摘要評價指標(biāo)計算所述第一候選短摘要 的評分值。
[0009] 可選地,所述摘要確定步驟的處理包括:將所述評分值最高的第一候選長摘要作 為所述主題文檔集的長摘要,和/或?qū)⑺鲈u分值最高的第一候選短摘要作為所述主題文 檔集的短摘要。
[0010] 可選地,所述方法還包括:根據(jù)所述主題文檔集的長摘要、短摘要和所述主題文檔 集中切出的分詞的分布,分別計算所述主題文檔集的分詞的分布與所述長摘要中切出的分 詞的分布或所述短摘要中切出的分詞的分布之間的相對熵;如果所述短摘要相對于所述主 題文檔集的分詞的分布的相對熵低于預(yù)定的相對熵閾值,則將所述長摘要的各個語句分別 作為所述第一候選短摘要,執(zhí)行所述候選摘要評分步驟和所述摘要確定步驟,和/或如果 所述長摘要相對于所述主題文檔集的分詞的分布的相對熵低于預(yù)定的第一相對熵閾值,且 低于預(yù)定的第二相對熵閾值,則將所述短摘要作為所述主題文檔集的長摘要,其中,所述第 二相對熵閾值為所述短摘要相對于所述主題文檔集的分詞的分布的相對熵。
[0011] 可選地,所述第一摘要評價指標(biāo)和所述第二摘要評價指標(biāo)包括摘要的分詞重要性 和信息冗余度。
[0012] 可選地,所述第一摘要評價指標(biāo)還包括所述第一候選長摘要的可讀性和分詞序列 的平衡性,所述第二摘要評價指標(biāo)還包括所述第一候選短摘要的可讀性和長度折扣。
[0013] 可選地,所述根據(jù)預(yù)設(shè)的句法分析算法分別對所述第一候選長摘要進(jìn)行切詞,并 且根據(jù)所述切詞的結(jié)果和預(yù)設(shè)的第一摘要評價指標(biāo)計算所述第一候選長摘要的評分值的 處理還包括:對任一第一候選長摘要,根據(jù)其所屬文章的信息來源對為其計算的評分值進(jìn) 行加權(quán),求得所述第一候選長摘要的加權(quán)評分值,所述將所述評分值最高的第一候選長摘 要作為所述主題文檔集的長摘要的處理包括:選取求得的加權(quán)評分值最高的第一候選長摘 要作為所述主題文檔集的長摘要。
[0014] 為達(dá)到上述目的,本發(fā)明的實施例還提供了一種為主題文檔集生成摘要的裝置。 所述裝置包括:候選摘要選取模塊,用于從主題文檔集的各篇文章中選取一個和/或多個 語句作為候選摘要;候選摘要評分模塊,用于根據(jù)預(yù)設(shè)的句法分析算法分別對所述候選摘 要進(jìn)行切詞,并基于切詞結(jié)果對所述候選摘要進(jìn)行評分;摘要確定模塊,用于將所述評分所 得的值最高的候選摘要作為所述主題文檔集的摘要。
[0015] 可選地,所述候選摘要選取模塊用于:對所述主題文檔集的任一篇文章,以窗口滑 動的方式從所述文章的內(nèi)容文本依次獲取至少一組連續(xù)排列的語句分別作為第一候選長 摘要,和/或從所述主題文檔集的各篇文章分別提取其標(biāo)題作為第一候選短摘要。
[0016] 可選地,所述候選摘要評分模塊用于:根據(jù)預(yù)設(shè)的句法分析算法分別對所述第一 候選長摘要進(jìn)行切詞,并且根據(jù)所述切詞的結(jié)果和預(yù)設(shè)的第一摘要評價指標(biāo)計算所述第一 候選長摘要的評分值,和/或根據(jù)預(yù)設(shè)的句法分析算法分別對所述第一候選短摘要進(jìn)行切 詞,并且根據(jù)所述切詞的結(jié)果和預(yù)設(shè)的第二摘要評價指標(biāo)計算所述第一候選短摘要的評分 值。
[0017] 可選地,所述摘要確定模塊用于:將所述評分值最高的第一候選長摘要作為所述 主題文檔集的長摘要,和/或?qū)⑺鲈u分值最高的第一候選短摘要作為所述主題文檔集的 短摘要。
[0018] 可選地,所述裝置還包括:相對熵獲取模塊,用于根據(jù)所述主題文檔集的長摘要、 短摘要和所述主題文檔集中切出的分詞的分布,分別計算所述主題文檔集的分詞的分布與 所述長摘要中切出的分詞的分布或所述短摘要中切出的分詞的分布之間的相對熵,短摘要 優(yōu)化模塊,用于如果所述短摘要相對于所述主題文檔集的分詞的分布的相對熵低于預(yù)定的 相對熵閾值,則將所述長摘要的各個語句分別作為所述第一候選短摘要,執(zhí)行所述候選摘 要評分步驟和所述摘要確定步驟,和/或長摘要優(yōu)化模塊,用于如果所述長摘要相對于所 述主題文檔集的分詞的分布的相對熵低于預(yù)定的第一相對熵閾值,且低于預(yù)定的第二相對 熵閾值,則將所述短摘要作為所述主題文檔集的長摘要,其中,所述第二相對熵閾值為所述 短摘要相對于所述主題文檔集的分詞的分布的相對熵。
[0019] 可選地,所述第一摘要評價指標(biāo)和所述第二摘要評價指標(biāo)包括摘要的分詞重要性 和信息冗余度。
[0020] 可選地,所述第一摘要評價指標(biāo)還包括所述第一候選長摘要的可讀性和分詞序列 的平衡性,所述第二摘要評價指標(biāo)還包括所述第一候選短摘要的可讀性和長度折扣。
[0021] 可選地,所述候選摘要評分模塊還用于:對任一第一候選長摘要,根據(jù)其所屬文章 的信息來源對為其計算的評分值進(jìn)行加權(quán),求得所述第一候選長摘要的加權(quán)評分值,
[0022] 所述摘要確定模塊還用于:選取求得的加權(quán)評分值最高的第一候選長摘要作為所 述主題文檔集的長摘要。
[0023] 本發(fā)明實施例提供的為主題文檔集生成摘要的方法和裝置,通過從主題文檔集的 各篇文章中選取語句作為候選摘要,并通過預(yù)設(shè)的句法分析算法對得到的候選摘要進(jìn)行切 詞,進(jìn)而對候選摘要進(jìn)行評分,然后,根據(jù)評分得到的值從候選摘要中選取主題文檔集的摘 要,從而可以提高主題文檔集的摘要的質(zhì)量,保證生成的摘要具有較好的可讀性。
【附圖說明】
[0024] 圖1為本發(fā)明實施例提供的為主題文檔集生成摘要的方法的流程圖;
[0025] 圖2為本發(fā)明實施例提供的為主題文檔集生成長摘要的處理的流程圖;
[0026] 圖3為本發(fā)明實施例提供的為主題文檔集生成短摘要的處理的流程圖;
[0027] 圖4為本發(fā)明實施例提供的另一種為主題文檔集生成摘要的方法的流程圖;
[0028] 圖5為本發(fā)明實施例提供的一種為主題文檔集生成摘要的裝置的結(jié)構(gòu)示意圖;
[0029] 圖6為本發(fā)明實施例提供的另一種為主題文檔集生成摘要的裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0030] 本方案的發(fā)明構(gòu)思是,對作為目標(biāo)的主題文檔集的各篇文章中選取的一個和/或 多個語句構(gòu)成的候選摘要進(jìn)行切詞,進(jìn)而通過切詞結(jié)果對候選摘要進(jìn)行評分,并根據(jù)評分 結(jié)果從候選摘要中選取主題文檔集的摘要,從而提高主題文檔集的摘要的質(zhì)量,保證生成 的摘要具有較好的可讀性。
[0031] 根據(jù)本發(fā)明的發(fā)明構(gòu)思,可為所述主題文檔集生成長摘要和/或短摘要。
[0032] 下面結(jié)合附圖對本發(fā)明實施例為主題文檔集生成摘要的方法和裝置進(jìn)行詳細(xì)描 述。
[0033] 實施例一
[0034] 圖1是本發(fā)明實施例提供的為主題文檔集生成摘要的方法的流程圖。通過包括如 圖5所示的裝置的計算機(jī)系統(tǒng)執(zhí)行所述方法。
[0035] 如圖1所示,在步驟101 (候選摘要選取步驟),從主題文檔集的各篇文章中選取一 個和/或多個語句作為候選摘要。
[0036] 其中,所述主題文檔集可以是針對某一事件的多篇文章的集合,該集合中的文章 可以來源于多種渠道,例如,微博、新聞、貼吧和論壇等。所述語句可以是文章中相鄰兩個標(biāo) 點符號(如相鄰的兩個逗號或相鄰的逗號與句號等)之間的字符(如文字等)。
[0037] 通常,可以通過多種渠道得到各種事件的文章,可以通過某些方式對這些文章進(jìn) 行預(yù)處理,即將這些文章根據(jù)不同的事件進(jìn)行歸類,將屬于同一事件的文章聚集在一起,形 成主題文檔集。通常,主體文檔集中包含的文章較多,每一篇文章都可以是一個獨立的個 體,其中包括了某一個事件的完整