專利名稱:一種自動檢測新聞事件的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于屬于智能信息處理技術(shù),具體涉及一種自動檢測新聞事件的方法。
背景技術(shù):
隨著因特網(wǎng)的迅速發(fā)展,新聞信息呈現(xiàn)出爆炸性的增長。如何從不斷涌現(xiàn)的新聞報道中及時地獲得新發(fā)生的熱點新聞事件信息,并對自己感興趣的新聞事件進行持續(xù)追蹤,近年來成為研究熱點。主題檢測與追蹤技術(shù)正是試圖解決這一問題的方法。
主題檢測與追蹤(TDT)研究始于1996年,當時的研究發(fā)起人和參與者James Allan等人在《Topic Detection and Tracking(TDT)Pilot StudyFinal Report》中定義了TDT的具體任務(wù)和性能評估指標,并且給出了當時的一些實驗結(jié)果。TDT的三項主要任務(wù)分別為(1)新聞報道切分任務(wù)將連續(xù)的廣播、電視新聞節(jié)目的語音或文字記錄分割為不同的報道;(2)事件檢測任務(wù)識別出系統(tǒng)未知的事件,并將相關(guān)報道也識別出來;(3)事件追蹤任務(wù)監(jiān)控新聞報道信息流以發(fā)現(xiàn)與某一已知事件有關(guān)的新報道。
另外,該論文談到,TDT中目前關(guān)注的研究重點是事件的檢測與追蹤,其中,主題是比事件更加寬泛的一個概念,一個主題可以包含多個相關(guān)事件。
從本質(zhì)上看,事件檢測是對新聞報道流依據(jù)不同的事件做聚類,需要將討論一個事件的報道歸為一類(James Allan,2002)。與通常的文本聚類相比,事件檢測的特殊性主要表現(xiàn)在兩個方面首先,事件檢測的處理對象是按時間順序依次出現(xiàn)的新聞報道流,隨時間動態(tài)變化,而不是一個靜態(tài)的封閉文本集合;其次,事件檢測是依據(jù)報道討論的事件而不是主題類別進行聚類,所依據(jù)的信息粒度相對要小,因此由事件檢測得到的類應(yīng)當更多些。盡管如此,文本聚類技術(shù)仍然是事件檢測技術(shù)的基礎(chǔ)。
事件檢測可以根據(jù)具體的檢測場景細分為回溯檢測和在線檢測?;厮輽z測的目的是從現(xiàn)有的新聞報道集合中發(fā)現(xiàn)以前未標識的新聞主題,要求系統(tǒng)輸出新聞主題的信息,能夠說明新聞報道和主題的關(guān)聯(lián)關(guān)系。而在線檢測的重點在于及時地從實時新聞報道流中標識新的主題,也就是在某個表達新主題的報道出現(xiàn)的時刻標識出該新聞主題。
在過去幾年中,事件檢測研究者嘗試了多種不同的文本聚類方法,如單遍聚類、k-means聚類、層次凝聚聚類、概率模型等。下面介紹幾個主要的現(xiàn)有事件檢測方法(1)CMU的方法CMU的研究者(Yiming Yang等)在事件檢測中主要采用帶有時間窗的單遍聚類算法。CMU的研究者將每篇報道以及每個事件都表示成空間中的一個向量,報道向量和事件向量間的相似度計算主要采用向量夾角余弦值,但要根據(jù)時間因素利用一個事件窗口作調(diào)整,可以采取兩種策略。第一種策略只考慮在時間窗口內(nèi)出現(xiàn)的事件,第二種策略認為隨著當前報道s與事件c之間報道數(shù)量的增加,應(yīng)當降低二者間的相似度值。
另外,在2002年的SIGKDD上,Yiming Yang等在文章《Topic-conditioned novelty detection》中提出一種基于主題的事件檢測方法首先用有監(jiān)督的學(xué)習(xí)算法將在線文檔流分入預(yù)先定義好的較寬泛的主題類別中,然后結(jié)合每個主題的特征對文檔流進行新事件檢測。
(2)馬薩諸塞大學(xué)的方法馬薩諸塞大學(xué)的研究者(James Alan等)用向量模型表示新聞報道,核心算法仍然采用單遍聚類算法。在計算報道和事件相似度時采用了基于時間的閾值模型,利用線性函數(shù)調(diào)整聚類閾值,使得在時間上距離某個事件越遠的新聞報道越難加入該事件。在確定與當前報道最相近的事件時,除了原有的質(zhì)心比較策略外,增加了最近鄰居比較策略。
在質(zhì)心比較策略中,設(shè)置了兩個閾值θmatch和θcertain。若當前報道與某事件的質(zhì)心相似度高于θmatch,則將該報道歸入此事件。但只有它們之間相似度值高于θcertain時,才用當前報道調(diào)整該事件的質(zhì)心,即該事件的向量表示。而最近鄰居比較策略進行識別時,首先在已有報道中尋找與當前報道最相似的k篇報道,由這k篇報道和預(yù)先設(shè)定的閾值確定當前報道應(yīng)當歸屬的事件。如果不能把它歸入任何一個已知的事件,就把它作為對某個新事件的首次報道,為它建立一個新事件。
另外,James Alan等提到用事件中出現(xiàn)頻率最高的幾個詞作為事件描述。
(3)IBM公司的方法IBM公司開發(fā)的一個相對比較成功的事件檢測系統(tǒng)采用了一種兩層聚類策略,使用對稱的Okapi公式來比較兩篇報道的相似性。該系統(tǒng)的第一次處理首先將報道暫時歸入不同的微事件(microcluster),第二次處理再以這些微事件為處理對象形成較大的類,即歸入最終的事件(Dharanipragada etc.,2002)。以上每次處理都采用單遍聚類算法,差別只在于處理對象不同和選取不同的閾值。
綜上所述,現(xiàn)有技術(shù)中在事件檢測過程中,常用的步驟可以概括如下1)從數(shù)據(jù)源讀入一篇報道,包括內(nèi)容、時間以及其它相關(guān)信息;數(shù)據(jù)源可能存在多個,報道之間可能沒有明顯的界限,需要進行報道間的切分等預(yù)處理;2)采用質(zhì)心比較或者最近鄰比較策略,計算報道與事件、或者報道與報道間的相似度,確定與當前報道最相近的事件;3)若報道被歸入某個事件,則調(diào)整該事件;若報道無法歸入現(xiàn)有事件,則將其列為新檢測到的事件;4)輸出檢測到的事件,將事件中權(quán)重最高的幾個特征詞、或者具有代表性的某個報道標題做為事件描述。
由于現(xiàn)有的事件檢測技術(shù)僅僅考慮在固定的小數(shù)據(jù)集合上的錯檢率和漏檢率,存在以下幾個缺陷(1)事件排序問題人們的注意力成為一種稀缺資源,人們往往沒有時間去查看大量的新聞事件,所以最熱點的新聞事件排序應(yīng)該越靠前,這樣的系統(tǒng)才能更好地滿足人們的需要?,F(xiàn)有技術(shù)沒有考慮該問題,僅僅是簡單輸出檢測到的事件。
(2)事件相似性問題由于對同一個新聞事件不同方面進行報道的新聞可能相似度較小,從而使得同一個新聞事件在事件發(fā)生初期被分為多個小事件,進而隨著事態(tài)的不斷發(fā)展,這些事件的相似度可能會越來越大,這樣就可能給用戶的瀏覽帶來迷惑和不便?,F(xiàn)有技術(shù)也沒有考慮該問題。
(3)新聞報道淘汰問題在實際應(yīng)用環(huán)境中,事件檢測是一個長期持續(xù)的過程。隨著事件的動態(tài)演化,事件內(nèi)的一些新聞和該事件的相關(guān)性在逐漸降低。另外,周期較長的事件隨著時間的積累也可能出現(xiàn)膨脹現(xiàn)象,整個事件內(nèi)容過于寬泛?,F(xiàn)有技術(shù)通過引入時間窗策略和動態(tài)調(diào)整事件來克服事件動態(tài)演化的問題,但是沒有考慮新聞報道淘汰的問題。
(4)事件描述問題目前新聞事件的描述有兩種方法該事件中最重要的若干個特征詞,或者選取該事件中某個新聞標題。由于自然語言處理技術(shù)還不夠成熟,提取的特征詞難以有效描述事件,甚至新聞事件中最重要的人名、地名、機構(gòu)名、時間等特征詞可能無法提取到,例如十一五規(guī)劃,神州六號等。而如果用事件中某個報道標題做為描述,對于一些綜合性的事件,則該報道可能僅是事件的一個方面,對事件的描述不夠全面。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是利用新聞事件本身的特點,通過解決事件排序,事件合并與調(diào)整,新聞報道淘汰,以及新聞事件描述等問題,實現(xiàn)對持續(xù)新聞流進行動態(tài)、高效的事件檢測。
為達到以上目的,本發(fā)明采用的技術(shù)方案是一種自動檢測新聞事件的方法,包括以下步驟1)從數(shù)據(jù)源讀入一篇報道,并對報道進行預(yù)處理;2)計算報道與已檢測到的事件、或者報道與報道間的相似度,確定與當前報道相關(guān)的事件,并歸入相關(guān)事件;3)若報道被歸入某個現(xiàn)有事件,則調(diào)整該事件;若報道無法歸入現(xiàn)有事件,則將其列為新檢測到的事件;4)對已檢測到的事件進行兩兩比較,合并相關(guān)事件,并重新調(diào)整事件、以及報道和事件的相似度;5)對各事件內(nèi)不滿足限制條件的報道進行淘汰,并調(diào)整事件;6)比較當前的事件數(shù)量與時間窗口大小,若事件數(shù)量大于事件窗口大小,則進行事件排序和淘汰;否則轉(zhuǎn)入步驟7;7)輸出檢測結(jié)果。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟1)中,如果新報道和之前已經(jīng)處理的新聞報道相似度大于預(yù)先設(shè)定的閾值θd即重復(fù)閾值,則認為是重復(fù)的新聞報道,需要對新聞報道進行消重處理,所述的θd取值范圍是0<θd≤1,所述的消重處理是根據(jù)新聞報道的內(nèi)容采用文本檢索和文本挖掘中的相似度計算方法進行的。
步驟1)中,先采用自動分類的方法對新聞報道按預(yù)先設(shè)定好的類別進行分類。
步驟1)中采用自動分類的方法對新聞報道進行分類時,是采用基于來源的規(guī)則分類以及基于內(nèi)容的自動分類相結(jié)合的方法,基于內(nèi)容的自動分類是采用的文本分類技術(shù)。如權(quán)利要求4所述的一種自動檢測新聞事件的方法,其特征在于所述的文本分類技術(shù)是基于向量空間模型的支持向量機算法。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟2)中所述的確定與當前報道相關(guān)的事件時采用質(zhì)心比較或者最近鄰比較策略,相似度計算方法可以采用現(xiàn)有文本挖掘的技術(shù),文檔模型是基于向量空間模型、概率模型、或者語言模型;相似度公式采用夾角余弦或者Hellinger距離公式等;相似度計算考慮結(jié)合報道的時間特征以及事件的時間特征。
步驟2)中在進行相似度計算時,給予報道中的標題以較高的權(quán)重,或者對于權(quán)威性較高的報道以較高權(quán)重,報道的權(quán)威性采用新聞源的權(quán)威性。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟4)中所述的事件間相似度的衡量,是采用傳統(tǒng)聚類算法中計算的聚類相似度值;若兩個事件的相似度大于合并閾值θu,則視為兩個事件相關(guān),并將其合并,所述的θu取值范圍是0<θu≤1。同時,事件合并也可以采用其他策略,例如,如若兩個事件的內(nèi)部表示中若干特征詞相同,則視為相似度較高,合并這兩個事件。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟5)中所述的限制條件,可以是相似度閾值或者時間限制,也可以是外部限制如報道關(guān)注度、用戶點擊次數(shù)等。
再進一步,步驟4)或/和5)中,每處理用戶所確定數(shù)量的新增報道后,或者每運行一段用戶所確定的時間后,或者檢測到的事件每新增用戶所確定的數(shù)量后,再進行步驟4)或/和5)的操作。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟6)中計算事件的排序時,需要結(jié)合新聞事件的時間特性和數(shù)量特性,例如以最近某個時間范圍內(nèi)(例如12個小時)事件內(nèi)新增報道的數(shù)目作為事件得分值;另外,在排序中,可以同時考慮多個不同的排序,例如同時考慮最近12個小時、1天、3天、7天、30天等,只有當事件在任何排序中都不在事件窗口內(nèi)時,才將該事件淘汰;這樣,多重排序就可以給用戶提供不同粒度的信息參考。
步驟6)中計算事件排序時,可以結(jié)合步驟6)中的多個排序結(jié)果,輸出符合用戶要求的某個排序,或者同時輸出多個排序,例如用戶可以同時請求查看1天內(nèi)和1周內(nèi)最熱點的事件。
進一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟7)中輸出檢測結(jié)果時,對于當前所有事件,計算描述;同時,結(jié)合時間特性和數(shù)量特性,計算事件得分并對事件進行排序,選擇得分較高的新聞事件作為重要新聞事件,輸出事件描述和包含的新聞報道列表,其中,事件描述的生成過程如下a)選擇事件內(nèi)部權(quán)重最高的用戶所確定數(shù)量的特征詞;b)根據(jù)新聞報道選擇策略,選取該事件內(nèi)最具代表性的一篇新聞報道的標題;c)綜合a)和b),輸出該事件的描述。
步驟7)中的所述具代表性的新聞報道選擇策略是結(jié)合新聞來源的權(quán)威性、報道點擊率、報道時間等相關(guān)信息的閾值策略,所述的閾值策略是預(yù)先設(shè)定的事件閾值θe,所述的θe取值范圍是0<θe≤1;例如與事件相似度大于閾值的事件內(nèi)新聞報道中,選擇時間最近的一篇新聞報道的標題?;蛘呤前凑沼脩舸_定的比例輸出最相關(guān)的新聞報道。
本發(fā)明的效果在于本發(fā)明在充分考慮了新聞事件的特征,以及人們的認知規(guī)律基礎(chǔ)上,針對實際應(yīng)用中的事件排序,事件合并和調(diào)整,新聞報道淘汰,以及新聞事件描述等,給出了實際的解決方法。實驗表明,采用本發(fā)明所述的方法,明顯提高新聞事件的檢測效果,從而大大增強其實用性。
本發(fā)明之所以具有上述發(fā)明效果,是因為本發(fā)明具有如下特點(1)在事件排序方面,引入在某一時刻對事件計算重要性得分值的機制,該機制綜合考慮新聞事件的時間特性和數(shù)量特性,進而在某一時刻為每個事件給出一個較合理的得分值,用于事件排序。
(2)在事件相似性方面,引入事件合并和調(diào)整的機制,用于克服同一個新聞事件被誤分為多個小事件的現(xiàn)象。每處理固定個數(shù)的新聞報道,就對事件兩兩之間進行比較,若依據(jù)比較策略判斷兩事件相似度較高,則進行事件的合并和調(diào)整。
(3)在新聞報道方面,引入事件內(nèi)新聞報道淘汰的機制,用于克服新聞事件內(nèi)容過于寬泛的現(xiàn)象。每處理固定個數(shù)的新聞報道,就對各事件內(nèi)的新聞報道進行淘汰。
(4)在事件描述方面,提出了將特征詞和新聞報道標題相結(jié)合的方法,用于克服兩者的缺陷。首先,選擇事件內(nèi)部權(quán)重最高的若干個特征詞作為事件描述的一部分;同時,根據(jù)報道選擇策略,選取該事件內(nèi)最具代表性的一篇新聞報道,將該報道的標題作為事件描述的一部分。
圖1是本發(fā)明的流程圖;圖2是采用現(xiàn)有方法對2005年7月22至2005年8月9日期間檢測新聞事件的結(jié)果示意圖;圖3是采用本發(fā)明所述方法對2005年7月22至2005年8月9日期間檢測新聞事件的結(jié)果示意圖;圖4是2005年8月9日新浪網(wǎng)要聞截圖;圖5是采用現(xiàn)有方法對2005年7月22至2005年10月9日期間檢測新聞事件的結(jié)果示意圖;圖6是采用本發(fā)明所述方法對2005年7月22至2005年10月9日期間檢測新聞事件的結(jié)果示意圖;圖7是2005年10月9日新浪網(wǎng)要聞截圖。
具體實施例方式
下面結(jié)合附圖及實施例對本發(fā)明作進一步地描述如圖1所示,一種自動檢測新聞事件的方法,包括以下步驟1)從數(shù)據(jù)源讀入一篇報道,對多個新聞網(wǎng)絡(luò)數(shù)據(jù)源(例如新浪網(wǎng)、新華網(wǎng)、人民網(wǎng)等)進行不間斷地檢測,從網(wǎng)絡(luò)中自動抓取新聞報道,解析出新聞報道的時間、標題和正文信息等,如果沒有從報道中找到時間,則以抓取時間為準;由于多個數(shù)據(jù)源之間存在相當?shù)闹貜?fù),對新抓取的新聞報道,根據(jù)報道的文本內(nèi)容進行消重處理;如果新報道和之前已經(jīng)處理的新聞報道重復(fù)度大于重復(fù)閾值θd,則認為是重復(fù)的新聞報道,本實施例中設(shè)定的重復(fù)閾值θd為0.9;由于新聞報道的范圍過于寬泛,采用基于來源的規(guī)則分類以及基于內(nèi)容的自動分類相結(jié)合的方法,對新聞報道進行分類(類別是預(yù)先設(shè)定好的,例如參考新浪網(wǎng)的頻道,可以分成新聞、科技、財經(jīng)、體育等)。規(guī)則分類根據(jù)新聞來源以及作者等進行分類,例如來自新浪“國內(nèi)新聞”頻道的內(nèi)容歸入“國內(nèi)新聞”類別,來自新華網(wǎng)“科技”頻道的內(nèi)容歸入“科技”類別?;趦?nèi)容的自動分類采用向量空間模型和支持向量機算法,根據(jù)報道內(nèi)容和標題對新聞報道進行自動分類;并且按照所屬類別c進行步驟2)-步驟7)的處理;2)采用質(zhì)心比較策略,將報道與所屬類別c內(nèi)現(xiàn)有檢測到的新聞事件進行比較,同時考慮時間特征和內(nèi)容特征,計算報道和事件間的相似度,并記錄最大相似度Smax以及相似度最大的事件Es,確定與當前報道最相近的事件;事件本身通過事件內(nèi)部所有新聞中綜合權(quán)重最高的若干個特征詞來表達;新聞報道和事件之間的相似度基于向量空間模型,通過兩者的夾角余弦值(cosine)來計算,同時新聞報道的標題賦予較高權(quán)重。
3)根據(jù)步驟2)計算得到的最大相似度Smax以及相似度最大的事件Es,對當前報道采取如下措施a)如果Smax小于創(chuàng)新閾值θn(本實施例中為0.25)在該報道所屬類別內(nèi)創(chuàng)建一個新事件;b)如果Smax大于θn而小于聚類閾值θc(本實施例中為0.30)不作處理,返回步驟1);c)如果Smax大于θc而小于貢獻閾值θt(本實施例中為0.35)歸入當前事件;d)如果Smax大于θt歸入事件Es,并調(diào)整Es;上述的Smax、θn、θc、θt的取值范圍均大于0而小于等于1。
4)當一個類處理用戶確定的固定數(shù)量(本實施例中確定的數(shù)量為20條)的新增報道之后,對該類別內(nèi)新聞事件兩兩比較;如果兩個事件的相似度大于合并閾值θu(例如0.20),則將其合并。事件之間的相似度計算公式可以采用傳統(tǒng)聚類算法中計算兩個聚類相似度的方法,例如基于向量空間模型,綜合考慮兩個事件中所有新聞報道之間的兩兩相似度,采用如下公式Sim(E1,E2)=Σdi∈E1Σdj∈E2sim(di,dj)|E1|·|E2|]]>其中,E1,E2是兩個檢測到的新聞事件,di,dj分別為E1,E2中的新聞報道,sim(di,dj)是兩個新聞報道之間的相似度,|E1|,|E2|分別為兩個事件中包含的新聞報道數(shù)目;
5)當一個類處理用戶確定的固定數(shù)量(本實施例中確定的數(shù)量為20條)的新增報道之后,對各事件內(nèi)的新聞報道進行淘汰重新計算新聞報道和該事件的相似度,對相似度低于聚類閾值θc、或者不滿足限制條件(例如報道是否為近30天內(nèi)的)的新聞報道進行淘汰;然后再重新計算事件內(nèi)部表示及其權(quán)重;6)若當前類別內(nèi)的事件數(shù)量超過事件窗口大小,對類別內(nèi)的所有新聞事件進行排序結(jié)合新聞事件的時間特性和數(shù)量特性,計算新聞事件的得分值并排序;計算得分值時同時考慮多個不同的排序,同時考慮最近12個小時、1天、3天、7天、30天等,只有當事件在任何排序中都不在事件窗口內(nèi)時,才將該事件淘汰;這樣,多重排序就給用戶提供了不同粒度的信息參考。系統(tǒng)將不在事件窗中的新聞事件淘汰,用于提高系統(tǒng)處理的效率;7)根據(jù)用戶要求,對外輸出檢測結(jié)果對于類別內(nèi)的當前所有事件,計算其描述;同時,結(jié)合事件的時間特性和事件內(nèi)的新聞報道數(shù)量特性,從所有類別中選擇出得分最高的若干個新聞事件,作為該類別最熱點的新聞事件,輸出事件描述和包含的新聞報道列表。其中,事件描述的生成過程如下a)讀取事件內(nèi)部權(quán)重最高的若干個特征詞;b)在與事件相似度大于事件閾值θe(本實施例中為0.6)的事件內(nèi)新聞報道中,選擇時間最近的一篇新聞報道的標題;事件閾值還可以采取按照比例(20%)的方式。
c)綜合a)和b),輸出該事件的描述。
為了驗證本發(fā)明的有效性,我們采用2005-7-22至2005-10-9期間從新浪網(wǎng)、新華網(wǎng)、人民網(wǎng)等網(wǎng)站部分頻道(新聞、科技、體育等)上抓取的10萬篇新聞?wù)Z料做測試,10萬新聞?wù)Z料被分為3大類新聞、科技、體育。評價指標采用重大新聞事件的檢測率(因為新浪網(wǎng)新聞頻道要聞欄均為人工編輯整理而成,所以取同時間段的新浪網(wǎng)新聞頻道要聞欄作為專家結(jié)果進行對比)。我們以“新聞”類為例,說明試驗結(jié)果,實驗結(jié)果如圖2至圖7所示。
圖2至圖7均是對比本發(fā)明的方法和傳統(tǒng)方法在新聞檢測中止時間檢測到的排序前10名的重大新聞事件(其中括號內(nèi)為檢測到的相關(guān)新聞數(shù)量),以及新浪網(wǎng)新聞頻道要聞欄在當天21點鐘對于重大新聞事件的列表。其中,圖2至圖4的新聞檢測時間為2005年7月22日至2005年8月9日,圖5至圖7的新聞檢測中止時間為2005年7月22日至2005年10月9日。其中,傳統(tǒng)方法為Yiming Yang等采用的單遍聚類算法事件排序直接采用事件檢測到的順序倒序排列(即最新檢測到的事件列在最上邊),事件淘汰采用事件窗口的方法(凡是排序超出事件窗口的事件均被淘汰),事件描述采用James Allan等提出關(guān)鍵詞描述方法。
從圖2至圖7可以看出,本發(fā)明提出的方法好于傳統(tǒng)方法,包括1.事件排序更加合理;從圖2至圖7可以看到,本發(fā)明提出的方法中在前十個事件對新浪當日主要專題的檢測率分別達到了62.5%和57%;2.減少了同一事件被誤分為多個小事件的情況;圖2中第3-6事件均是紀念抗日戰(zhàn)爭勝利60周年,在傳統(tǒng)方法中被分為多個事件,而在本發(fā)明提出的方法中被統(tǒng)一為圖3中的第4個事件;3.新聞事件描述更加準確全面;例如“神州六號”事件,通過圖5中的第三個事件的描述,會比單純關(guān)鍵詞或者單純代表性新聞標題更準確全面。
另外,由于本發(fā)明提出的方法引入了新聞事件內(nèi)的新聞報道淘汰機制,新聞事件的內(nèi)容更加集中。
實驗表明由于傳統(tǒng)方法僅僅考慮在固定的小數(shù)據(jù)集合上的錯檢率和漏檢率,在實際應(yīng)用環(huán)境中存在諸多缺陷。而本發(fā)明提出的方法,充分考慮了新聞事件發(fā)生的特征,以及人們的認知規(guī)律,使得新聞事件的檢測效果獲得明顯提高,大大增強其實用性。
實際應(yīng)用過程中,基于內(nèi)容的自動分類還可以采用其它的文本分類技術(shù),例如基于語言模型的KNN算法;步驟2)中,確定與當前報道最相近的事件時,還可以采用質(zhì)心比較策略。因此,本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,只要是本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種自動檢測新聞事件的方法,包括以下步驟1)從數(shù)據(jù)源讀入一篇報道,并對報道進行預(yù)處理;2)計算報道與已檢測到的事件、或者報道與報道間的相似度,確定與當前報道相關(guān)的事件,并歸入相關(guān)事件;3)若報道被歸入某個現(xiàn)有事件,則調(diào)整該事件;若報道無法歸入現(xiàn)有事件,則將其列為新檢測到的事件;4)對已檢測到的事件進行兩兩比較,合并相關(guān)事件,并重新調(diào)整事件、以及報道和事件的相似度;5)對各事件內(nèi)不滿足限制條件的報道進行淘汰,并調(diào)整事件;6)比較當前的事件數(shù)量與時間窗口大小,若事件數(shù)量大于事件窗口大小,則進行事件排序和淘汰;否則轉(zhuǎn)入步驟7;7)輸出檢測結(jié)果。
2.如權(quán)利要求1所述的一種自動檢測新聞事件的方法,其特征在于步驟1)中,如果新報道和之前已經(jīng)處理的新聞報道相似度大于預(yù)先設(shè)定的閾值θd即重復(fù)閾值,則認為是重復(fù)的新聞報道,需要對新聞報道進行消重處理,所述的θd取值范圍是0<θd≤1,所述的消重處理是根據(jù)新聞報道的內(nèi)容采用文本檢索和文本挖掘中的相似度計算方法進行的。
3.如權(quán)利要求1或2所述的一種自動檢測新聞事件的方法,其特征在于步驟1)中,先采用自動分類的方法對新聞報道按預(yù)先設(shè)定好的類別進行分類。
4.如權(quán)利要求3所述的一種自動檢測新聞事件的方法,其特征在于步驟1)中采用自動分類的方法對新聞報道進行分類時,是采用基于來源的規(guī)則分類以及基于內(nèi)容的自動分類相結(jié)合的方法,基于內(nèi)容的自動分類是采用的文本分類技術(shù)。
5.如權(quán)利要求4所述的一種自動檢測新聞事件的方法,其特征在于所述的文本分類技術(shù)是基于向量空間模型的支持向量機算法。
6.如權(quán)利要求1所述的一種自動檢測新聞事件的方法,其特征在于步驟2)中確定與當前報道相關(guān)的事件時采用質(zhì)心比較或者最近鄰比較策略,相似度計算方法是采用文本挖掘的技術(shù),文檔模型是基于向量空間模型、概率模型、或者語言模型;相似度公式是采用夾角余弦或者Hellinger距離公式;相似度計算還考慮結(jié)合報道的時間特征以及事件的時間特征。
7.如權(quán)利要求6所述的一種自動檢測新聞事件的方法,其特征在于步驟2)中在進行相似度計算時,給予報道中的標題以較高的權(quán)重,或者對于權(quán)威性較高的報道以較高權(quán)重,報道的權(quán)威性采用新聞源的權(quán)威性。
8.如權(quán)利要求1所述的一種自動檢測新聞事件的方法,其特征在于步驟4)中所述的事件間相似度的衡量,是采用傳統(tǒng)聚類算法中計算的聚類相似度值;若兩個事件的相似度大于合并閾值θu,則視為兩個事件相關(guān),并將其合并,所述的θu取值范圍是0<θu≤1;或者,如若兩個事件的內(nèi)部表示中若干特征詞相同,則視為相似度較高,合并這兩個事件。
9.如權(quán)利要求1所述的一種自動檢測新聞事件的方法,其特征在于步驟5)中所述的限制條件是相似度閾值、時間限制或者是外部限制。
10.如權(quán)利要求8或9所述的一種自動檢測新聞事件的方法,其特征在于步驟4)或/和5)中,每處理用戶所確定數(shù)量的新增報道后,或者每運行一段用戶所確定的時間后,或者檢測到的事件每新增用戶所確定的數(shù)量后,再進行步驟4)或/和5)的操作。
11.如權(quán)利要求1所述的一種自動檢測新聞事件的方法,其特征在于在步驟6)中,結(jié)合新聞事件的時間特性和數(shù)量特性,計算新聞事件的得分值并排序;系統(tǒng)只保存固定數(shù)目的新聞事件,排序靠后的新聞事件被淘汰。
12.如權(quán)利要求11所述的一種自動檢測新聞事件的方法,其特征在于在步驟6)中計算事件排序時,需要結(jié)合新聞事件的時間特性和數(shù)量特性;在排序中,同時考慮多個按不同時間段的排序,只有當事件在任何排序中都不在事件窗口內(nèi)時,才將該事件淘汰。
13.如權(quán)利要求11或12所述的一種自動檢測新聞事件的方法,其特征在于在步驟6)計算事件排序時,結(jié)合步驟6)中的多個排序結(jié)果,輸出符合用戶要求的某個排序,或者同時輸出多個排序。
14.如權(quán)利要求13所述的一種自動檢測新聞事件的方法,其特征在于步驟7)輸出檢測結(jié)果時,對于當前所有事件,計算事件描述;同時,結(jié)合事件的時間特性和數(shù)量特性,對事件進行排序,并選擇得分較高的新聞事件作為重要新聞事件,輸出事件描述和包含的新聞報道列表,其中,事件描述的生成過程如下a)選擇事件內(nèi)部權(quán)重最高的用戶所確定數(shù)量的特征詞;b)根據(jù)新聞報道選擇策略,選取該事件內(nèi)最具代表性的一篇新聞報道的標題;c)綜合a)和b),輸出該事件的描述。
15.如權(quán)利要求14所述的一種自動檢測新聞事件的方法,其特征在于步驟b)中的所述的新聞報道選擇策略是結(jié)合新聞來源的權(quán)威性、報道點擊率、報道時間的閾值策略,所述的閾值策略是預(yù)先設(shè)定的事件閾值θe,所述的θe取值范圍是0<θe≤1。
全文摘要
本發(fā)明涉及一種自動檢測新聞事件的方法,屬于智能信息處理技術(shù)?,F(xiàn)有技術(shù)中,事件檢測技術(shù)僅僅考慮在固定的小數(shù)據(jù)集合上的錯檢率和漏檢率,常出現(xiàn)新聞事件被誤分為多個小事件的情況,并且事件檢測的精確度不高,常出現(xiàn)檢測到的事件內(nèi)容過于寬泛的情況。本發(fā)明所述的方法針對持續(xù)新聞流事件檢測的實際應(yīng)用,通過引入事件排序,事件合并和調(diào)整,新聞報道淘汰,以及新聞事件描述等步驟,提出了一個實用的新聞事件檢測方法。采用本發(fā)明所述的方法,能夠明顯提高新聞事件的檢測效果,大大增強其實用性。本方法可廣泛地應(yīng)用于智能信息處理。
文檔編號G06F17/30GK1822000SQ200610007219
公開日2006年8月23日 申請日期2006年2月14日 優(yōu)先權(quán)日2006年2月14日
發(fā)明者路斌, 楊霙, 楊建武, 萬小軍, 吳於茜 申請人:北大方正集團有限公司, 北京北大方正技術(shù)研究院有限公司, 北京大學(xué)