Cf(即將新類別Cfk加入到Cf)。
[0072] ②更新迭代次數(shù)。并再次聚類直至迭代次數(shù)為0。
[0073] ③正向聚類結束,得到Cf,并刪去Cf中文檔數(shù)小于成類閾值的類別(這里我們設 定成類閾值為該階段新聞文檔總數(shù)的10%,小于這個值的類別被認為是較為離散的類別, 不具備成為摘要的潛在價值)。
[0074] ⑷逆向聚類,并迭代。
[0075] ①依次對集合Tb中的每一個ti,逐一計算ti與Cb中所有類別的相似度,得到最 大值maxSim。如果maxSim〉=threshold,則將ti劃入maxSim對應的類,并更新該類別的 中心;否則創(chuàng)建新類Cbk= {ti},其中k= |Cb|+l。更新Tb,更新Cb。
[0076] ②更新迭代次數(shù)。并再次聚類直至迭代次數(shù)為0。
[0077] ③逆向聚類結束,得到Cb,并刪去Cb中文檔數(shù)小于成類閾值的類別。
[0078] (5)主題交集再聚類。令Ts=U(CfninCJ,其中Cfm和Cbn分別指Cf和Cb中 的任一話題類別,Ts表示正逆向聚類結果中被重復聚類的主題集合,對應了T中的已經(jīng)存 在的、被共同關注的重要話題,我們簡單地將其視為該階段內(nèi)重要的話題信息。直接計算 Ts的質心,然后按照時間順序依次計算該集合的每條主題信息與質心的相似度,如果大于 threshold,將該主題信息劃入再聚類的類別Cs中,否則從T3刪去該主題信息。直至T3為 空,再聚類結束并得到最終的Cs。
[0079] (6)階段性摘要生成。對Cs類中取距離類中心最近的三個新聞文檔,對Cf和Cb的 每個類分別取距離類中心最近的一個新聞文檔,將這些文檔的主題按照時間次序生成新聞 的階段性摘要。
[0080] 步驟(5)中,獲取我們采用過程如:經(jīng)過第一次的雙向聚類后,分別得到一些 正逆向的聚類結果。但由于SinglePass算法的單向性,對于任一方向上的聚類,每條主 題信息要么被成功聚類只在該方向的某個類別中出現(xiàn)一次,要么聚類不成功根本不會出現(xiàn) 在該方向上的任一類別中,也即每條主題信息在該方向的聚類結果中最多只可能出現(xiàn)一次 (正逆向皆是如此),因此直接統(tǒng)計正逆向聚類結果中的所有主題信息,次數(shù)等于2的被直 接劃分到集合Ts中。
[0081] 另外,在通過本發(fā)明的信息媒介的專題階段性摘要的生成方法生成專題階段性摘 要后,本發(fā)明在設計過程中還對實驗進行結果分析,具體如下:
[0082] 提供語料:
[0083] 我們收集了 2010年5月到2014年8月期間的163個新聞專題,并設計了專門的 爬蟲,從騰訊新聞網(wǎng)3進行頁面抓取,共34547篇新聞。但是由于已標注語料的匱乏及其權 威性問題,我們選擇"馬航MH370航班失聯(lián)"專題的一個時間段作為研究對象,即3月8日 至4月9日,共有33天3404篇新聞。階段性摘要的標注語料來自"中國政府網(wǎng)"的"我們 在行動"專欄4,該專欄有3月8日至4月9日期間有關"馬航MH370航班失聯(lián)"的每日簡 短摘要,分為"外方事件全紀錄"和"政府行動"。我們以天為單位,將每天的"政府行動"的 每篇鏈接新聞的首段以及"外方事件全紀錄"的內(nèi)容合并作為當天的階段性摘要的人工摘 要(標注語料),用以評價生成的階段性摘要的質量。其中3月8日至3月31日的語料作 為我們的訓練集,4月1日至4月9日的語料作為測試集。在實驗過程中,我們未討論如何 對"馬航MH370航班失聯(lián)"的階段進行劃分,而是以天為時間單位對比和分析本文方法生成 的階段性摘要的質量。
[0084] 設計評價指標并進行評價:
[0085] Rouge[文獻信息:Chin-YewLin.Rouge:APackageforAutomaticEvaluation ofSummaries[C].InProceedingofWorkshoponTextSummarizationBranches Out,Post-ConferenceWorkshopofACL2004,Barcelona,Spain.]指標最早應用于文檔理 解會議(DocumentUnderstandConference,DUC)的評測比賽中,它通過對比自動摘要和人 工摘要之間的詞(或詞序列)的共現(xiàn)程度,來定量計算自動摘要與人工摘要的對比質量,從 而衡量自動摘要算法的性能。Rouge包含多個具體的指標,本文只計算一些指標對應的召回 率(Rouge-R)。
[0086] ①Rouge-NR:通過計算自動摘要(CandidateSummaries,CS)與人工摘要 (ReferenceSummaries,RS)中的共同出現(xiàn)的n-gram詞對與人工摘要的n-gram詞對的比 值,來判斷自動摘要的質量"太1梁用Rouee-〗R和Rouee-2"
[0087]
[0088] ②Rouge-LR:通過計算自動摘要和人工摘要的最長公共子序列(LongestCommon Subsequence,LCS)長度與人工摘要長度的比值,來判斷自動摘要的質量。
[0089]
[0090] ③Rouge-SR:該指標與Rouge-NR做法有點類似,Rouge-NR是統(tǒng)計N-gram詞對的 匹配情況,而R〇uge-SR統(tǒng)計skip(n)-gram詞對的匹配情況,即兩個詞之間最多可以間隔n 個詞。C(Length(RS),n)是組合數(shù)本文采用Rouge_S4R和Rouge_S9R。
[0091]
[0092] ④Rouge-WR:該指標是對Rouge-LR的改進??紤]到LCS中的連續(xù)子串比單個字 符(或詞)具有更佳的匹配作用,因此計算時WLCS(S卩WeightedLCS)對LCS中的連續(xù)子 串進行了加權。f?是加權函數(shù),這里我們?nèi)(k) =k2,fi是f?的逆函數(shù)。
[0093]
[0094] 實驗及實驗結果:
[0095] 為了驗證本發(fā)明實施例的方法的新聞專題階段性摘要的生成方法有效性,我們對 本發(fā)明的方法(記為SD-FEL2C)進行了實驗,即在生成新聞專題的階段性摘要時按照FELC的思路,先對各新聞文檔進行主題抽取,然后在話題聚類階段采用上述介紹的二次聚類算 法。我們還進行了一項對比實驗,記為SD-FEL1C,它與SD-FEL2C的區(qū)別在于話題聚類階段 只是進行了SinglePass雙向聚類而未進行主題交集的再聚類,用以驗證第二次聚類的必 要性。此外我們進行了SD-FCLE實驗,即直接對新聞文檔的集合按照本文的二次聚類思路 進行話題聚類,而后根據(jù)聚類結果對相應文檔進行主題抽取生成階段性摘要,用于比較主 題抽取和話題聚類的先后順序對摘要的影響。
[0096] 實驗結果如表1 :
[0097] 表1. 4月1日至4月9日的Rouge-R平均值對比
[0098]
[0099] 表1給出了上述對比方法的一組數(shù)據(jù)
,統(tǒng)計的是語料中2014年4月1日至4月9 日Rouge-R指標的9天平均值。我們可以發(fā)現(xiàn),無論是KE、BC還是本文方法的對比實驗中, 在生成新聞專題的階段性摘要時,F(xiàn)ELC的比FCLE的效果好,Rouge-R的各項指標都有不同 程度的提高。二元詞的召回率R〇uge-2R指標中,KE-FELC比KE-FCLE提高3. 26%,BC-FELC 比BC-FCLE提高3. 01 %,SD-FEL2C比SD-FCLE提高3. 59%,說明在生成新聞專題的階段性 摘要時,先文檔集進行主題抽取形成主題集,然后再對主題集進行話題聚類,能夠提升摘要 的質量。我們分析,由于新聞文檔的篇幅較長、字句較多,并且大部分的新聞稿件經(jīng)常采用 先在新聞的首段進行概述而后詳細展開內(nèi)容的寫作形式,文中經(jīng)常引述一些相關人物的觀 點甚至言論全文,多種新聞學因素造成了信息的冗余,并帶來雜音或噪聲,對文