專利名稱:突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文本數(shù)據(jù)挖掘領(lǐng)域中的話題檢測(cè)與跟蹤技術(shù),確切的說(shuō),涉及一種在突發(fā)事件發(fā)生后,從互聯(lián)網(wǎng)相關(guān)新聞報(bào)道文本中,識(shí)別出與突發(fā)事件相關(guān)聯(lián)的熱點(diǎn)話題,并對(duì)識(shí)別出的熱點(diǎn)話題進(jìn)行熱度評(píng)估的裝置與方法,用于為后續(xù)熱點(diǎn)話題的追蹤提供識(shí)別與評(píng)估該熱點(diǎn)話題的方法,屬于互聯(lián)網(wǎng)話題檢測(cè)與跟蹤TDT (Topic Detection andTracking)的技術(shù)領(lǐng)域。
背景技術(shù):
話題檢測(cè)與跟蹤TDT技術(shù)是一種信息處理技術(shù),旨在依據(jù)事件對(duì)語(yǔ)言文本信息流進(jìn)行組織與利用的研究,也是為應(yīng)對(duì)信息過(guò)載問(wèn)題而提出的一項(xiàng)應(yīng)用研究。TDT檢測(cè)與跟蹤的對(duì)象包括從特定時(shí)間和地點(diǎn)的事件、直到具備更多相關(guān)性外延的話題,相關(guān)的理論與·應(yīng)用研究也從傳統(tǒng)的時(shí)間識(shí)別,跨越到包含突發(fā)事件和后續(xù)報(bào)告的話題檢測(cè)與跟蹤。與一般信息檢索或信息過(guò)濾不同,TDT關(guān)心的話題不是一個(gè)大的領(lǐng)域,而是一件非常具體的事情。為了區(qū)別語(yǔ)言上的概念,TDT評(píng)測(cè)對(duì)話題(Topic)、事件(Event)、活動(dòng)(Activity)、報(bào)道(Story)和主題(Subject)都給出了下述定義事件(Event):由某些原因和條件所引起、發(fā)生在特定時(shí)間和特定地點(diǎn)的涉及某些對(duì)象并可能伴隨某些必然結(jié)果的事情。如“2011年3月11日,日本發(fā)生9. O級(jí)地震”就是一個(gè)具體的事件?;顒?dòng)(Activity):發(fā)生在特定時(shí)間和特定地點(diǎn)、且有共同目的和共同關(guān)注的相關(guān)事件的集合。例如選舉。報(bào)道(Story):與話題緊密相關(guān)的、包含兩個(gè)或多個(gè)獨(dú)立陳述某個(gè)事件子句的新聞片段。話題(Topic):由一個(gè)種子事件或活動(dòng),以及與其直接相關(guān)的事件或活動(dòng)組成。如2011年3月11日日本地震后引發(fā)的核危機(jī)話題。主題(Subject):涵蓋或泛指的多個(gè)類似具體事件,或根本不涉及任何具體事件,其涉及的概念比話題更廣泛。如“海嘯”是個(gè)主題,而“日本3. 11地震引發(fā)海嘯”則屬于一個(gè)話題。TDT是1996年由美國(guó)國(guó)防部高級(jí)研究計(jì)劃署DARPA聯(lián)合相關(guān)科研機(jī)構(gòu)提出的,還設(shè)立了下述五項(xiàng)基礎(chǔ)性研究任務(wù)新聞廣播類報(bào)道的切分任務(wù),已知話題的跟蹤任務(wù),未知話題的檢測(cè)任務(wù),未知話題首次相關(guān)報(bào)道的檢測(cè)任務(wù),報(bào)道間的關(guān)聯(lián)檢測(cè)任務(wù)。隨著研究的逐步深入和發(fā)展,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院NIST為T(mén)DT逐步建立了完整的任務(wù)評(píng)測(cè)體系。最新版本的TDT2004確定了該領(lǐng)域的下述六個(gè)主要研究任務(wù)(A)新事件檢測(cè)NED (New Event Detection):判斷一個(gè)新聞報(bào)道是否描述了一個(gè)新的事件;(B)報(bào)道關(guān)聯(lián)檢測(cè)SLD (Story Link Detection):判斷兩篇新聞報(bào)道是否描述了同一個(gè)話題;
(C)話題檢測(cè)TD (Topic Detection):由新話題的檢測(cè)和話題追蹤兩項(xiàng)任務(wù)共同完成;(D)話題跟蹤TT (Topic Tracking):對(duì)于某個(gè)已經(jīng)發(fā)現(xiàn)的話題,判斷后續(xù)的話題是否屬于該話題;(E)自適應(yīng)話題跟蹤ATT (Adaptive Topic Tracking):相對(duì)于話題追蹤的任務(wù),具備自學(xué)習(xí)能力;(F)層次話題檢測(cè)HTD (Hierarchical Topic Detection):話題之間有層次關(guān)系,即一個(gè)報(bào)道可以屬于多個(gè)話題,一個(gè)話題也可以包含其它話題。截止2004年,NIST提供的所有評(píng)測(cè)任務(wù)基本覆蓋了 TDT技術(shù)領(lǐng)域內(nèi)的大部分研
究課題。下面介紹話題檢測(cè)技術(shù)的發(fā)展現(xiàn)狀從1996年DARPA提出對(duì)新聞數(shù)據(jù)流的話題進(jìn)行自動(dòng)判斷和識(shí)別的新技術(shù)作為起源,到1997年TDT項(xiàng)目開(kāi)始啟動(dòng),卡耐基-梅隆大學(xué)、馬薩諸塞大學(xué)、濱州大學(xué)等分別發(fā)表各自開(kāi)發(fā)的系統(tǒng)研究報(bào)告,建立了一個(gè)針對(duì)TDT研究的預(yù)研語(yǔ)料庫(kù),開(kāi)始進(jìn)入初步研究階段。1998年,NIST開(kāi)始舉辦由語(yǔ)言數(shù)據(jù)聯(lián)盟LDC提供的TDT評(píng)測(cè)。目前,已經(jīng)公布的訓(xùn)練和測(cè)試語(yǔ)料包括TDT pilot Corpus、TDT2、TDT3、TDT4,這些語(yǔ)料都事先由人工對(duì)若干事件話題進(jìn)行了標(biāo)注作為標(biāo)準(zhǔn)答案。TDT技術(shù)每年進(jìn)行一次公開(kāi)評(píng)測(cè),每次評(píng)測(cè)的側(cè)重點(diǎn)有所不同,1999年進(jìn)行的第二次TDT評(píng)測(cè)加入了中文語(yǔ)料。國(guó)內(nèi)的一些研究機(jī)構(gòu)如中科院計(jì)算所、哈工大、東北大學(xué)、北大計(jì)算語(yǔ)言學(xué)研究所、清華等也開(kāi)始進(jìn)行TDT相關(guān)關(guān)鍵技術(shù)的研究。由于中文文本處理比其它語(yǔ)言文本要復(fù)雜很多,并且從研究方法到技術(shù)實(shí)現(xiàn)方案都存在很大差別,因此,目前國(guó)內(nèi)的現(xiàn)有技術(shù)主要側(cè)重于對(duì)中文文本的研究。近年來(lái),海內(nèi)外的研究更多地側(cè)重于話題聚類算法的實(shí)現(xiàn)和效率的評(píng)估,以及話題跟蹤模型的研究。哈工大對(duì)熱門(mén)話題檢測(cè)技術(shù)的研究比較突出,提出了基于內(nèi)容分析的話題檢測(cè)算法;也有人分別研究博客和微博客領(lǐng)域中文熱門(mén)話題檢測(cè)與跟蹤技術(shù),提出了將詞性和詞頻相結(jié)合的相似度計(jì)算方法,提出了基于語(yǔ)義結(jié)構(gòu)和時(shí)序特征的話題檢測(cè)與跟蹤技術(shù)和基于多重特征的話題追蹤模型等。中科院計(jì)算所提出從網(wǎng)絡(luò)論壇中基于噪音過(guò)濾模型的突發(fā)話題抽取方法。在商業(yè)系統(tǒng)中,TDT技術(shù)的應(yīng)用也越來(lái)越多。大多數(shù)搜索引擎廠商都提供新聞搜索服務(wù),將新聞作為一個(gè)垂直搜索領(lǐng)域來(lái)開(kāi)發(fā)應(yīng)用。如Google中文資訊、有道熱聞和百度新聞等都用到了 TDT中的相關(guān)技術(shù),但都未公開(kāi)其技術(shù)細(xì)節(jié)。TDT是一個(gè)直接面向應(yīng)用的研究方向,到目前為止,該領(lǐng)域的大部分研究都是借用信息檢索的某些方法,通過(guò)調(diào)整某些參數(shù)來(lái)對(duì)系統(tǒng)進(jìn)行優(yōu)化。目前,國(guó)內(nèi)外對(duì)于新聞熱點(diǎn)話題的檢測(cè),主要側(cè)重在新聞事件網(wǎng)絡(luò)報(bào)道信息流中自動(dòng)檢測(cè)出新話題,并對(duì)其后續(xù)報(bào)道進(jìn)行追蹤。由于突發(fā)事件的發(fā)生往往導(dǎo)致互聯(lián)網(wǎng)信息的驟然超載,使得傳統(tǒng)新聞事件的信息獲取和分析處理方法效率明顯降低。近年來(lái),對(duì)于熱點(diǎn)話題的研究逐漸成為國(guó)內(nèi)外關(guān)注的重點(diǎn),但是,大多集中于從各·類事件的新聞中發(fā)現(xiàn)話題并過(guò)濾熱點(diǎn)進(jìn)行跟蹤的方法。然而,針對(duì)突發(fā)事件,尤其是重大突發(fā)事件的新聞報(bào)道具有特殊的屬性,至今還沒(méi)有提出特殊的、有針對(duì)性的處理方法。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置和方法,本發(fā)明是基于對(duì)突發(fā)事件本身的產(chǎn)生機(jī)理和演化規(guī)律進(jìn)行研究而提出的,它能在突發(fā)事件發(fā)生后,快速識(shí)別和評(píng)估網(wǎng)絡(luò)新聞的熱點(diǎn)話題,并對(duì)話題進(jìn)行跟蹤和演化分析,用于提高突發(fā)事件應(yīng)急預(yù)測(cè)預(yù)警的效率,改善應(yīng)急管理的知識(shí)模型,并對(duì)提高應(yīng)急預(yù)案的針對(duì)性和有效性等方面都能給予有力支持。為了達(dá)到上述目的,本發(fā)明提供了一種突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置,其特征在于該裝置設(shè)有下述四個(gè) 組成部件文本獲取單元、文本表示單元、話題聚類單元和話題評(píng)估單元,其中文本獲取單元,用于發(fā)生突發(fā)事件后,從各大新聞網(wǎng)站采集與該突發(fā)事件熱點(diǎn)話題相關(guān)的新聞報(bào)道頁(yè)面并進(jìn)行文本處理,形成一組新聞文檔集合存儲(chǔ)于正文數(shù)據(jù)庫(kù),以供文本表示、話題聚類和話題評(píng)估三個(gè)單元進(jìn)行后續(xù)處理;設(shè)有頁(yè)面爬取、正文提取和頁(yè)面屬性提取三個(gè)模塊,以及爬取信息數(shù)據(jù)庫(kù)與正文數(shù)據(jù)庫(kù);文本表示單元,用于完成文檔的向量化處理利用改進(jìn)的文本特征權(quán)值計(jì)算方法建立數(shù)學(xué)模型并進(jìn)行計(jì)算,以形成文本特征權(quán)值矩陣;設(shè)有分詞及詞性標(biāo)注、命名實(shí)體識(shí)另IJ、詞性/停用詞過(guò)濾、特征權(quán)值計(jì)算和特征選擇共五個(gè)模塊,以及分詞詞典和停用詞表兩個(gè)數(shù)據(jù)庫(kù);話題聚類單元,負(fù)責(zé)對(duì)來(lái)自前述單元的特征詞進(jìn)行聚類處理將描述相同話題的文檔進(jìn)行聚合,組成多個(gè)被稱為簇的子集,使得每個(gè)簇中的各個(gè)文檔之間相似性強(qiáng),而簇間各文檔的相似性弱;再用每個(gè)簇中特征權(quán)值最高的2飛個(gè)詞語(yǔ)描述一個(gè)話題,得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題;設(shè)有文檔相似性計(jì)算模塊和文檔聚類模塊;話題評(píng)估單元,負(fù)責(zé)對(duì)突發(fā)事件發(fā)生后設(shè)定時(shí)間內(nèi)人們關(guān)注的若干話題進(jìn)行熱度評(píng)估,并按照評(píng)估值大小對(duì)熱點(diǎn)話題進(jìn)行降序排序,為迅速把握后續(xù)的重要事件和研究話題的演化規(guī)律提供基礎(chǔ);設(shè)有網(wǎng)絡(luò)特征計(jì)算、熱度評(píng)估、話題排序三個(gè)模塊和特征向量數(shù)據(jù)庫(kù)。為了達(dá)到上述目的,本發(fā)明還提供了一種采用本發(fā)明突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置的工作方法,其特征在于所述方法包括下列操作步驟(I)文本獲取單元獲取設(shè)定事件的新聞報(bào)道頁(yè)面,再?gòu)呐廊〉膱?bào)道頁(yè)面中提取標(biāo)題、報(bào)道時(shí)間、報(bào)道源,以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征作為頁(yè)面屬性,并對(duì)該報(bào)道頁(yè)面進(jìn)行篩選、解析、提取和剪裁新聞?wù)牡牟僮?,形成新聞文檔集合;(2)文本表示單元采用改進(jìn)的文本特征權(quán)值計(jì)算方法對(duì)每篇新聞文檔進(jìn)行向量化處理,形成文本特征值矩陣;(3)話題聚類單元對(duì)設(shè)定特征詞對(duì)應(yīng)的文本特征值矩陣進(jìn)行聚合處理將話題相同的相似文檔聚合,組成多個(gè)簇,使得每個(gè)簇中的各文檔相似性強(qiáng),而不同簇的各文檔相似性弱;再用每個(gè)簇中特征權(quán)值最高的2 5個(gè)特征詞描述一個(gè)話題,得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題;(4)話題評(píng)估單元對(duì)話題進(jìn)行熱度評(píng)估在已獲取了突發(fā)事件發(fā)生后人們關(guān)注的若干個(gè)話題基礎(chǔ)上,對(duì)這些話題進(jìn)行熱度評(píng)估和排序,為把握重要事件后續(xù)發(fā)展和研究話題的演化提供基礎(chǔ)。本發(fā)明在TDT的基本檢測(cè)和追蹤方法基礎(chǔ)上進(jìn)行了三處創(chuàng)新與改進(jìn)首先,考慮到突發(fā)事件應(yīng)急系統(tǒng)的快速反應(yīng)機(jī)制對(duì)前期文本挖掘的實(shí)時(shí)性要求較高,即在保證信息處理方法滿足設(shè)定準(zhǔn)確度要求的前提下,具有較高的執(zhí)行效率?,F(xiàn)有方法主要基于新聞報(bào)道全文或只提取標(biāo)題作為數(shù)據(jù)源,開(kāi)展后續(xù)的數(shù)據(jù)處理,這樣處理的后果有可能導(dǎo)致效率降低或提取信息的不準(zhǔn)確。本發(fā)明在對(duì)新聞文本內(nèi)容及結(jié)構(gòu)進(jìn)行大量分析的前提下,提出先對(duì)整個(gè)新聞 報(bào)道文本進(jìn)行必要的裁剪,這種對(duì)原始數(shù)據(jù)先刪除冗余的做法在保證準(zhǔn)確度要求的前提下,大大提高了后續(xù)算法的運(yùn)行效率,從而降低了計(jì)算時(shí)間和空間的復(fù)雜度。其次,大量話題的發(fā)現(xiàn)必須通過(guò)一定規(guī)范的文本表示才能進(jìn)行快速分析和處理。在文本表示階段,本發(fā)明通過(guò)對(duì)傳統(tǒng)權(quán)值計(jì)算方法的改進(jìn),建立針對(duì)具有時(shí)效性、報(bào)道源分布性和報(bào)道數(shù)量海量性等特征的新聞文本的表示模型,相對(duì)于傳統(tǒng)模型具有更強(qiáng)的文本表示能力,為后續(xù)話題發(fā)現(xiàn)和熱點(diǎn)的過(guò)濾提供了準(zhǔn)確度更高的數(shù)據(jù)集。最后,突發(fā)事件發(fā)生后,會(huì)涌現(xiàn)大量話題,但其是否成為人們的關(guān)注熱點(diǎn),為決策者提供更有效的數(shù)據(jù)支持,還需要對(duì)話題進(jìn)一步過(guò)濾。本發(fā)明通過(guò)對(duì)網(wǎng)絡(luò)新聞報(bào)道的時(shí)間屬性、報(bào)道屬性、用戶關(guān)注度等網(wǎng)絡(luò)特征的提取和分析,提出熱點(diǎn)話題的評(píng)估方法,可對(duì)發(fā)現(xiàn)出的話題計(jì)算其在設(shè)定時(shí)間內(nèi)的熱度值,實(shí)現(xiàn)熱點(diǎn)話題的有效識(shí)別。本發(fā)明針對(duì)上述三個(gè)關(guān)鍵技術(shù)的研究所提出的裝置和方法,經(jīng)過(guò)以2011年日本大地震突發(fā)事件新聞報(bào)道作為數(shù)據(jù)源進(jìn)行模型評(píng)估和相關(guān)算法的仿真實(shí)施試驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本發(fā)明與現(xiàn)有技術(shù)比較,具有以下優(yōu)點(diǎn)通過(guò)與現(xiàn)有的全文提取方法進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)新聞報(bào)道正文的裁剪,只提取標(biāo)題、導(dǎo)語(yǔ)及相關(guān)特征等信息就能夠作為熱點(diǎn)話題識(shí)別的有效樣本集;改進(jìn)的特征權(quán)值計(jì)算模型與經(jīng)典模型比較,具有更好的執(zhí)行效率和適應(yīng)性更強(qiáng)的文本表示能力;通過(guò)對(duì)聚類出的話題利用模型進(jìn)行熱度值評(píng)估,計(jì)算出的熱點(diǎn)話題符合預(yù)期效果,更適應(yīng)于突發(fā)事件新聞報(bào)道的特征。總之,試驗(yàn)的結(jié)果證明本發(fā)明裝置和方法都是成功的,實(shí)現(xiàn)了發(fā)明目的。在處理突發(fā)事件新聞報(bào)道文本過(guò)程中,其計(jì)算復(fù)雜度、結(jié)果準(zhǔn)確性和實(shí)時(shí)性方面都具有良好性能。
圖I是本發(fā)明突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置的結(jié)構(gòu)組成示意圖。圖2是本發(fā)明突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置工作方法流程圖。圖3是本發(fā)明實(shí)施例中的步驟I的特征值比較曲線圖。圖4是本發(fā)明實(shí)施例中的步驟3中的話題聚類仿真結(jié)果示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。參照?qǐng)D1,介紹突發(fā)事件熱點(diǎn)話題與評(píng)估的裝置的結(jié)構(gòu)組成設(shè)有文本獲取單元、文本表示單元、話題聚類單元和話題評(píng)估單元四個(gè)組成部件,本發(fā)明的創(chuàng)新主要集中在文本獲取、文本表示和話題評(píng)估三個(gè)單元中。下面分別介紹之
(A)文本獲取單元用于發(fā)生突發(fā)事件后,從各大新聞網(wǎng)站采集與該突發(fā)事件熱點(diǎn)話題相關(guān)的新聞報(bào)道頁(yè)面并進(jìn)行文本處理,形成一組新聞文檔集合存儲(chǔ)于正文數(shù)據(jù)庫(kù),以供文本表示、話題聚類和話題評(píng)估三個(gè)單元進(jìn)行后續(xù)處理;設(shè)有頁(yè)面爬取、正文提取和頁(yè)面屬性提取三個(gè)模塊,以及爬取信息數(shù)據(jù)庫(kù)與正文數(shù)據(jù)庫(kù)。這些模塊和數(shù)據(jù)庫(kù)的功能說(shuō)明如下頁(yè)面爬取模塊,負(fù)責(zé)從指定網(wǎng)站下載與預(yù)設(shè)關(guān)鍵詞相關(guān)的新聞報(bào)道頁(yè)面,并將該新聞報(bào)道頁(yè)面以頁(yè)面文件形式存儲(chǔ)在本地磁盤(pán)上。正文提取模塊,負(fù)責(zé)從本地磁盤(pán)讀取爬取后的頁(yè)面文件,并利用該正文提取模塊中的正文提取算法對(duì)每篇頁(yè)面文件去除噪聲、提取新聞?wù)模男侣務(wù)闹蟹蛛x出導(dǎo)語(yǔ) 和其余部分,再對(duì)實(shí)際文本長(zhǎng)度進(jìn)行剪裁,將剪裁后的新聞文檔存儲(chǔ)于正文數(shù)據(jù)庫(kù)中,然后根據(jù)報(bào)道源的不同在正文數(shù)據(jù)庫(kù)中建立索引,以使邏輯上形成不同數(shù)據(jù)源所對(duì)應(yīng)的一組正文集。頁(yè)面屬性提取模塊,用于從本地磁盤(pán)讀取爬取后的頁(yè)面文件,并提取每篇新聞報(bào)道特有的包括標(biāo)題、報(bào)道時(shí)間和報(bào)道源的屬性,以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的包括該話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的網(wǎng)絡(luò)特征屬性,再存儲(chǔ)于正文數(shù)據(jù)庫(kù)中。爬取信息數(shù)據(jù)庫(kù)是用于存儲(chǔ)頁(yè)面爬取模塊所需的配置信息。正文數(shù)據(jù)庫(kù)是用于存儲(chǔ)新聞報(bào)道處理后的正文和頁(yè)面屬性信息。(B)文本表示單元用于完成文檔的向量化處理利用改進(jìn)的文本特征權(quán)值計(jì)算方法建立數(shù)學(xué)模型并進(jìn)行計(jì)算,以形成文本特征權(quán)值矩陣;設(shè)有分詞及詞性標(biāo)注、命名實(shí)體識(shí)別、詞性/停用詞過(guò)濾、特征權(quán)值計(jì)算和特征選擇共五個(gè)模塊,以及分詞詞典和停用詞表兩個(gè)數(shù)據(jù)庫(kù)。這些模塊和數(shù)據(jù)庫(kù)的功能如下分詞及詞性標(biāo)注模塊,負(fù)責(zé)采用中科院漢語(yǔ)詞法分析系統(tǒng)ICTCLASdnstitute ofComputing Technology, Chinese Lexical Analysis System)中文分詞系統(tǒng),對(duì)存儲(chǔ)在正文數(shù)據(jù)庫(kù)中的每篇新聞報(bào)道的新聞文檔進(jìn)行分詞和詞性標(biāo)注,再將處理結(jié)果暫存于話題評(píng)估單元中的特征向量數(shù)據(jù)庫(kù)中。命名實(shí)體識(shí)別模塊,用于針對(duì)分詞后的新聞文檔,將其中描述突發(fā)事件特征的標(biāo)識(shí)性詞語(yǔ)、即包括時(shí)間、地點(diǎn)、機(jī)構(gòu)和人物的關(guān)鍵信息提取出來(lái),并保存于特征向量數(shù)據(jù)庫(kù)中。詞性/停用詞過(guò)濾模塊,用于對(duì)分詞及詞性標(biāo)注后的新聞文檔中的詞語(yǔ)繼續(xù)進(jìn)行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒(méi)有實(shí)際語(yǔ)義的詞語(yǔ),再根據(jù)停用詞表篩選出能夠在某種程度與熱點(diǎn)話題內(nèi)容相關(guān)的詞語(yǔ),并將其保存于特征向量數(shù)據(jù)庫(kù)中。特征權(quán)值計(jì)算模塊,使用基于向量空間模型改進(jìn)的特征權(quán)值計(jì)算模型,對(duì)每篇新聞文檔中經(jīng)過(guò)上述三個(gè)模塊處理而形成的詞語(yǔ)集合進(jìn)行向量化表示,形成特征權(quán)值矩陣并存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中;該特征權(quán)值矩陣的行和列分別表示各個(gè)新聞文檔及其對(duì)應(yīng)的不同文本的特征權(quán)值。特征選擇模塊,利用現(xiàn)有的特征抽取和屬性約簡(jiǎn)算法對(duì)特征詞進(jìn)行篩選保留其中反映突發(fā)事件信息屬性的重要特征詞,剔除相對(duì)無(wú)用的特征詞;然后,將保留的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。分詞詞典數(shù)據(jù)庫(kù)是存儲(chǔ)用于分詞的中文詞語(yǔ)信息的數(shù)據(jù)庫(kù)。停用詞表數(shù)據(jù)庫(kù)是存儲(chǔ)用于詞性過(guò)濾和停用詞過(guò)濾的中文詞語(yǔ)數(shù)據(jù)庫(kù)。(C)話題聚類單元,負(fù)責(zé)對(duì)來(lái)自前述單元的特征詞進(jìn)行聚類處理將描述相同話題的文檔進(jìn)行聚合,組成多個(gè)被稱為簇的子集,使得每個(gè)簇中的各個(gè)文檔之間相似性強(qiáng),而簇間各文檔的相似性弱;再用每個(gè)簇中特征權(quán)值最高的2飛個(gè)詞語(yǔ)描述一個(gè)話題,得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題;設(shè)有文檔相似性計(jì)算模塊和文檔聚類模塊,它們的功能介紹如下文檔相似性計(jì)算模塊,采用向量夾角的余弦值計(jì)算公式計(jì)算得到文本表示單元中的特征權(quán)值矩陣中各行所表示的各個(gè)新聞文檔之間的相似度,并將各個(gè)新聞文檔相似度值存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。文檔聚類模塊,采用改進(jìn)的聚類算法對(duì)相似度值高的文檔進(jìn)行分組聚類將描述相同話題的相似文檔進(jìn)行聚合,組成多個(gè)被稱為簇的子集,同時(shí)根據(jù)文本特征權(quán)值的大小提取2飛個(gè)特征詞作為描述該簇的數(shù)據(jù),并將提取的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。(D)話題評(píng)估單元,負(fù)責(zé)對(duì)突發(fā)事件發(fā)生后設(shè)定時(shí)間內(nèi)人們關(guān)注的若干話題進(jìn)行熱度評(píng)估,并按照評(píng)估值大小對(duì)熱點(diǎn)話題進(jìn)行降序排序,為迅速把握后續(xù)的重要事件和研究話題的演化規(guī)律提供基礎(chǔ);設(shè)有 網(wǎng)絡(luò)特征計(jì)算、熱度評(píng)估、話題排序三個(gè)模塊和特征向量數(shù)據(jù)庫(kù)。這三個(gè)模塊和數(shù)據(jù)庫(kù)的功能如下網(wǎng)絡(luò)特征計(jì)算模塊,用于從正文數(shù)據(jù)庫(kù)和來(lái)自話題聚類單元的特征向量數(shù)據(jù)庫(kù)中提取并計(jì)算與熱點(diǎn)話題關(guān)注度相關(guān)的包括該話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的各個(gè)網(wǎng)絡(luò)特征屬性。熱度評(píng)估模塊,用于根據(jù)網(wǎng)絡(luò)特征計(jì)算模塊計(jì)算得到的各個(gè)網(wǎng)絡(luò)特征屬性,建立熱點(diǎn)話題的熱度評(píng)估函數(shù),并據(jù)此計(jì)算突發(fā)事件中每個(gè)話題在設(shè)定時(shí)間內(nèi)的熱度值。話題排序模塊,負(fù)責(zé)依據(jù)熱度評(píng)估模塊處理后的熱點(diǎn)話題的熱度值的大小,對(duì)其進(jìn)行降序排序,以2飛個(gè)特征詞描述一個(gè)熱點(diǎn)話題的方式進(jìn)行展現(xiàn),同時(shí)將排序結(jié)果數(shù)據(jù)存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。特征向量數(shù)據(jù)庫(kù),用于分別存儲(chǔ)文本表示單元中各模塊的處理結(jié)果、話題聚類單元中各模塊的處理結(jié)果和話題評(píng)估單元中各模塊的處理結(jié)果。本發(fā)明基于對(duì)突發(fā)事件新聞報(bào)道文本內(nèi)容、結(jié)構(gòu)特點(diǎn)和報(bào)道源分布性等特征的研究,以及新聞報(bào)道的時(shí)間屬性、報(bào)道屬性、用戶關(guān)注度等網(wǎng)絡(luò)特征的分析,提出了突發(fā)事件熱點(diǎn)話題識(shí)別與評(píng)估裝置。并在該裝置中的文本獲取單元采用了新聞報(bào)道正文裁剪方法,在文本表示單元采用了改進(jìn)的文本特征權(quán)值計(jì)算方法,在話題評(píng)估單元采用了話題的熱度評(píng)估方法。下面參照?qǐng)D2,具體說(shuō)明本發(fā)明方法的各個(gè)操作步驟步驟1,文本獲取單元獲取設(shè)定事件的新聞報(bào)道頁(yè)面,再?gòu)呐廊〉膱?bào)道頁(yè)面中提取標(biāo)題、報(bào)道時(shí)間、報(bào)道源,以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征作為頁(yè)面屬性,并對(duì)該報(bào)道頁(yè)面進(jìn)行篩選、解析、提取和剪裁新聞?wù)牡牟僮?,形成新聞文檔集合。該步驟包括下列操作內(nèi)容(11)頁(yè)面爬取模塊根據(jù)用戶預(yù)設(shè)的統(tǒng)一資源定位符URL (Uniform ResourceLocator)地址和其它參數(shù),通過(guò)頁(yè)面爬取程序下載設(shè)定突發(fā)事件的新聞報(bào)道頁(yè)面,并將這些報(bào)道頁(yè)面以頁(yè)面文件形式自動(dòng)存儲(chǔ)于本地磁盤(pán)的文件夾。(12)頁(yè)面屬性提取模塊讀取爬取后的頁(yè)面文件,并從中提取每篇新聞報(bào)道包括標(biāo)題、報(bào)道時(shí)間和報(bào)道源的頁(yè)面屬性,以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征,所述網(wǎng)絡(luò)特征包括報(bào)道頻率、報(bào)道源數(shù)量、報(bào)道時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù),然后將提取的頁(yè)面屬性保存在正文數(shù)據(jù)庫(kù)中。(13)正文提取模塊利用正文提取算法對(duì)爬取后的頁(yè)面集合逐個(gè)進(jìn)行頁(yè)面的篩選、解析、提取和剪裁正文的操作,并將處理后的文本存儲(chǔ)于正文數(shù)據(jù)庫(kù),與其頁(yè)面屬性共同組成初步過(guò)濾后的新聞文檔集合。
(14)正文提取模塊對(duì)于正文數(shù)據(jù)庫(kù)中的每篇新聞文檔提取標(biāo)題和導(dǎo)語(yǔ),所述導(dǎo)語(yǔ)是標(biāo)題的擴(kuò)展,它是結(jié)合新聞報(bào)道的文本長(zhǎng)度及內(nèi)容特征進(jìn)行裁剪得到的,在長(zhǎng)新聞報(bào)道正文文本中所選取的導(dǎo)語(yǔ)至多為前兩個(gè)自然段,由此實(shí)現(xiàn)對(duì)提取正文后整篇報(bào)道的先行裁剪。步驟2,文本表示單元采用改進(jìn)的文本特征權(quán)值計(jì)算方法對(duì)每篇新聞文檔進(jìn)行向量化處理,形成文本特征值矩陣。該步驟包括下列操作內(nèi)容(21)分詞及詞性標(biāo)注模塊執(zhí)行正文預(yù)處理根據(jù)現(xiàn)有的分詞詞典和停用詞詞典,進(jìn)行包括分詞、詞性標(biāo)注的操作,以便從每篇新聞文檔中初步篩選出相對(duì)有效的詞語(yǔ),即特征詞,并存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。(22)命名實(shí)體識(shí)別模塊從分詞和詞性標(biāo)注后的文本中,將描述突發(fā)事件特征的包括時(shí)間、地點(diǎn)、機(jī)構(gòu)和人物的標(biāo)識(shí)性詞語(yǔ),作為特征詞提取出來(lái),并保存于特征向量數(shù)據(jù)庫(kù)中。(23)詞性/停用詞過(guò)濾模塊繼續(xù)進(jìn)行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒(méi)有實(shí)際語(yǔ)義的詞語(yǔ),再根據(jù)停用詞表篩選出能在某種程度與反映熱點(diǎn)話題內(nèi)容相關(guān)的詞語(yǔ),并將其保存于特征向量數(shù)據(jù)庫(kù)中。(24)特征權(quán)值計(jì)算模塊是基于改進(jìn)的特征權(quán)值計(jì)算模型,對(duì)經(jīng)過(guò)上述三個(gè)模塊處理而形成的新聞文檔集合進(jìn)行向量化處理,將每篇新聞報(bào)道文檔對(duì)應(yīng)一個(gè)特征向量,最終形成文檔特征權(quán)值矩陣。該步驟中的文檔特征權(quán)值的計(jì)算包括下列操作內(nèi)容(24A)先用特征向量空間D=W^d2,…d」,…d|D|}表示全部新聞文檔集合,式中,D為該特征向量空間中的元素總數(shù),即文檔總數(shù)量;每個(gè)特征向量dj=、.,w2j, ---Wi1Ij)表
示序號(hào)為j的文檔,Wij e [O, I]表示序號(hào)為j的文檔中第i個(gè)特征詞的權(quán)值,自然數(shù)序號(hào)I和j的最大值分別為111和N,即文檔總數(shù)為N,全部文檔中的特征詞集合或特征詞總數(shù)為I,也就是111為該特征詞集合的度;tfij=tf (ti; dj)表示特征詞ti在文檔dj中出現(xiàn)的頻率,Hi表示全部文檔中包含特征ti的文檔數(shù)。(24B)采用改進(jìn)的文本特征權(quán)值計(jì)算模型中的第一個(gè)計(jì)算公式
■
w =(l + log2^)xlog2—父,+~計(jì)算得到每個(gè)特征詞的權(quán)值;式中,位置因子
Kj
Pij=Position (t^dj)表示特征詞h在文檔d」中的出現(xiàn)位置若位于標(biāo)題,則Pfa ;若位于導(dǎo)語(yǔ),則Pfb ;若ti位于正文,則Pij=O,且a, b e [O, I];實(shí)體因子Eij=Entity (ti; d」)表示由命名實(shí)體識(shí)別模塊識(shí)別的包括時(shí)間、地點(diǎn)、人物和機(jī)構(gòu)的特征詞的附加權(quán)值若\在dj中是命名實(shí)體名詞,則Eij=I ;否則,即&在dj中不是命名實(shí)體名詞,則Eij=O ; (l+log^fij)
為詞頻權(quán)值因子權(quán)利要求
1.一種突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置,其特征在于該裝置設(shè)有下述四個(gè)組成部件文本獲取單元、文本表示單元、話題聚類單元和話題評(píng)估單元,其中 文本獲取單元,用于發(fā)生突發(fā)事件后,從各大新聞網(wǎng)站采集與該突發(fā)事件熱點(diǎn)話題相關(guān)的新聞報(bào)道頁(yè)面并進(jìn)行文本處理,形成一組新聞文檔集合存儲(chǔ)于正文數(shù)據(jù)庫(kù),以供文本表示、話題聚類和話題評(píng)估三個(gè)單元進(jìn)行后續(xù)處理;設(shè)有頁(yè)面爬取、正文提取和頁(yè)面屬性提取三個(gè)模塊,以及爬取信息數(shù)據(jù)庫(kù)與正文數(shù)據(jù)庫(kù); 文本表示單元,用于完成文檔的向量化處理利用改進(jìn)的文本特征權(quán)值計(jì)算方法建立數(shù)學(xué)模型并進(jìn)行計(jì)算,以形成文本特征權(quán)值矩陣;設(shè)有分詞及詞性標(biāo)注、命名實(shí)體識(shí)別、詞性/停用詞過(guò)濾、特征權(quán)值計(jì)算和特征選擇共五個(gè)模塊,以及分詞詞典和停用詞表兩個(gè)數(shù)據(jù)庫(kù); 話題聚類單元,負(fù)責(zé)對(duì)來(lái)自前述單元的特征詞進(jìn)行聚類處理將描述相同話題的文檔進(jìn)行聚合,組成多個(gè)被稱為簇的子集,使得每個(gè)簇中的各個(gè)文檔之間相似性強(qiáng),而簇間各文檔的相似性弱;再用每個(gè)簇中特征權(quán)值最高的2飛個(gè)詞語(yǔ)描述一個(gè)話題,得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題;設(shè)有文檔相似性計(jì)算模塊和文檔聚類模塊; 話題評(píng)估單元,負(fù)責(zé)對(duì)突發(fā)事件發(fā)生后設(shè)定時(shí)間內(nèi)人們關(guān)注的若干話題進(jìn)行熱度評(píng)估,并按照評(píng)估值大小對(duì)熱點(diǎn)話題進(jìn)行降序排序,為迅速把握后續(xù)的重要事件和研究話題的演化規(guī)律提供基礎(chǔ);設(shè)有網(wǎng)絡(luò)特征計(jì)算、熱度評(píng)估、話題排序三個(gè)模塊和特征向量數(shù)據(jù)庫(kù)。
2.根據(jù)權(quán)利要求I所述的裝置,其特征在于,所述文本獲取單元中的各個(gè)模塊和數(shù)據(jù)庫(kù)的功能如下 頁(yè)面爬取模塊,負(fù)責(zé)從指定網(wǎng)站下載與預(yù)設(shè)關(guān)鍵詞相關(guān)的新聞報(bào)道頁(yè)面,并將該新聞報(bào)道頁(yè)面以頁(yè)面文件形式存儲(chǔ)在本地磁盤(pán)上; 正文提取模塊,負(fù)責(zé)從本地磁盤(pán)讀取爬取后的頁(yè)面文件,并利用該正文提取模塊中的正文提取算法對(duì)每篇頁(yè)面文件去除噪聲、提取新聞?wù)模男侣務(wù)闹蟹蛛x出導(dǎo)語(yǔ)和其余部分,再對(duì)實(shí)際文本長(zhǎng)度進(jìn)行剪裁,將剪裁后的新聞文檔存儲(chǔ)于正文數(shù)據(jù)庫(kù)中,然后根據(jù)報(bào)道源的不同在正文數(shù)據(jù)庫(kù)中建立索引,以使邏輯上形成不同數(shù)據(jù)源所對(duì)應(yīng)的一組正文集; 頁(yè)面屬性提取模塊,用于從本地磁盤(pán)讀取爬取后的頁(yè)面文件,并提取每篇新聞報(bào)道特有的包括標(biāo)題、報(bào)道時(shí)間和報(bào)道源的屬性,以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的包括該話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的網(wǎng)絡(luò)特征屬性,再存儲(chǔ)于正文數(shù)據(jù)庫(kù)中; 爬取信息數(shù)據(jù)庫(kù),用于存儲(chǔ)頁(yè)面爬取模塊所需的配置信息; 正文數(shù)據(jù)庫(kù),用于存儲(chǔ)新聞報(bào)道處理后的正文和頁(yè)面屬性信息。
3.根據(jù)權(quán)利要求I所述的裝置,其特征在于所述文本表示單元中的各個(gè)模塊和數(shù)據(jù)庫(kù)的功能如下 分詞及詞性標(biāo)注模塊,負(fù)責(zé)采用中科院漢語(yǔ)詞法分析系統(tǒng)ICTCLAS中文分詞系統(tǒng),對(duì)存儲(chǔ)在正文數(shù)據(jù)庫(kù)中的每篇新聞報(bào)道的新聞文檔進(jìn)行分詞和詞性標(biāo)注,再將處理結(jié)果暫存于話題評(píng)估單元中的特征向量數(shù)據(jù)庫(kù)中; 命名實(shí)體識(shí)別模塊,用于針對(duì)分詞后的新聞文檔,將其中描述突發(fā)事件特征的標(biāo)識(shí)性詞語(yǔ)、即包括時(shí)間、地點(diǎn)、機(jī)構(gòu)和人物的關(guān)鍵信息提取出來(lái),并保存于特征向量數(shù)據(jù)庫(kù)中;詞性/停用詞過(guò)濾模塊,用于對(duì)分詞及詞性標(biāo)注后的新聞文檔中的詞語(yǔ)繼續(xù)進(jìn)行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒(méi)有實(shí)際語(yǔ)義的詞語(yǔ),再根據(jù)停用詞表篩選出能夠在某種程度與熱點(diǎn)話題內(nèi)容相關(guān)的詞語(yǔ),并將其保存于特征向量數(shù)據(jù)庫(kù)中;特征權(quán)值計(jì)算模塊,使用基于向量空間模型改進(jìn)的特征權(quán)值計(jì)算模型,對(duì)每篇新聞文檔中經(jīng)過(guò)上述三個(gè)模塊處理而形成的詞語(yǔ)集合進(jìn)行向量化表示,形成特征權(quán)值矩陣并存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中;該特征權(quán)值矩陣的行和列分別表示各個(gè)新聞文檔及其對(duì)應(yīng)的不同文本的特征權(quán)值; 特征選擇模塊,利用現(xiàn)有的特征抽取和屬性約簡(jiǎn)算法對(duì)特征詞進(jìn)行篩選保留其中反映突發(fā)事件信息屬性的重要特征詞,剔除相對(duì)無(wú)用的特征詞;然后,將保留的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中; 分詞詞典數(shù)據(jù)庫(kù),以數(shù)據(jù)庫(kù)形式存儲(chǔ)用于分詞的中文詞語(yǔ)信息; 停用詞表數(shù)據(jù)庫(kù),以數(shù)據(jù)庫(kù)形式存儲(chǔ)用于詞性過(guò)濾和停用詞過(guò)濾的中文詞語(yǔ)。
4.根據(jù)權(quán)利要求I所述的裝置,其特征在于所述話題聚類單元中的兩個(gè)模塊功能如下 文檔相似性計(jì)算模塊,采用向量夾角的余弦值計(jì)算公式計(jì)算得到文本表示單元中的特征權(quán)值矩陣中各行所表示的各個(gè)新聞文檔之間的相似度,并將各個(gè)新聞文檔相似度值存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中; 文檔聚類模塊,采用改進(jìn)的聚類算法對(duì)相似度值高的文檔進(jìn)行分組聚類將描述相同話題的相似文檔進(jìn)行聚合,組成多個(gè)被稱為簇的子集,同時(shí)根據(jù)文本特征權(quán)值的大小提取2^5個(gè)特征詞作為描述該簇的數(shù)據(jù),并將提取的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。
5.根據(jù)權(quán)利要求I所述的裝置,其特征在于所述話題評(píng)估單元中的各個(gè)模塊和數(shù)據(jù)庫(kù)的功能如下 網(wǎng)絡(luò)特征計(jì)算模塊,用于從正文數(shù)據(jù)庫(kù)和來(lái)自話題聚類單元的特征向量數(shù)據(jù)庫(kù)中提取并計(jì)算與熱點(diǎn)話題關(guān)注度相關(guān)的包括該話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的各個(gè)網(wǎng)絡(luò)特征屬性; 熱度評(píng)估模塊,用于根據(jù)網(wǎng)絡(luò)特征計(jì)算模塊計(jì)算得到的各個(gè)網(wǎng)絡(luò)特征屬性,建立熱點(diǎn)話題的熱度評(píng)估函數(shù),并據(jù)此計(jì)算突發(fā)事件中每個(gè)話題在設(shè)定時(shí)間內(nèi)的熱度值; 話題排序模塊,負(fù)責(zé)依據(jù)熱度評(píng)估模塊處理后的熱點(diǎn)話題的熱度值的大小,對(duì)其進(jìn)行降序排序,以2飛個(gè)特征詞描述一個(gè)熱點(diǎn)話題的方式進(jìn)行展現(xiàn),同時(shí)將排序結(jié)果數(shù)據(jù)存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中; 特征向量數(shù)據(jù)庫(kù),用于分別存儲(chǔ)文本表示單元中各模塊的處理結(jié)果、話題聚類單元中各模塊的處理結(jié)果和話題評(píng)估單元中各模塊的處理結(jié)果。
6.一種采用權(quán)利要求I所述的突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置的工作方法,其特征在于所述方法包括下列操作步驟 (1)文本獲取單元獲取設(shè)定事件的新聞報(bào)道頁(yè)面,再?gòu)呐廊〉膱?bào)道頁(yè)面中提取標(biāo)題、報(bào)道時(shí)間、報(bào)道源,以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征作為頁(yè)面屬性,并對(duì)該報(bào)道頁(yè)面進(jìn)行篩選、解析、提取和剪裁新聞?wù)牡牟僮?,形成新聞文檔集合; (2)文本表示單元采用改進(jìn)的文本特征權(quán)值計(jì)算方法對(duì)每篇新聞文檔進(jìn)行向量化處理,形成文本特征值矩陣; (3)話題聚類單元對(duì)設(shè)定特征詞對(duì)應(yīng)的文本特征值矩陣進(jìn)行聚合處理將話題相同的相似文檔聚合,組成多個(gè)簇,使得每個(gè)簇中的各文檔相似性強(qiáng),而不同簇的各文檔相似性弱;再用每個(gè)簇中特征權(quán)值最高的2飛個(gè)特征詞描述一個(gè)話題,得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題; (4)話題評(píng)估單元對(duì)話題進(jìn)行熱度評(píng)估在已獲取了突發(fā)事件發(fā)生后人們關(guān)注的若干個(gè)話題基礎(chǔ)上,對(duì)這些話題進(jìn)行熱度評(píng)估和排序,為把握重要事件后續(xù)發(fā)展和研究話題的演化提供基礎(chǔ)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(I)包括下列操作內(nèi)容 (11)頁(yè)面爬取模塊根據(jù)用戶預(yù)設(shè)的統(tǒng)一資源定位符URL地址和其它參數(shù),通過(guò)頁(yè)面爬取程序下載設(shè)定突發(fā)事件的新聞報(bào)道頁(yè)面,并將這些報(bào)道頁(yè)面以頁(yè)面文件形式自動(dòng)存儲(chǔ)于本地磁盤(pán)的文件夾; (12)頁(yè)面屬性提取模塊讀取爬取后的頁(yè)面文件,并從中提取每篇新聞報(bào)道包括標(biāo)題、報(bào)道時(shí)間和報(bào)道源的頁(yè)面屬性,以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征,所述網(wǎng)絡(luò)特征包括報(bào)道頻率、報(bào)道源數(shù)量、報(bào)道時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù),然后將提取的頁(yè)面屬性保存在正文數(shù)據(jù)庫(kù)中; (13)正文提取模塊利用正文提取算法對(duì)爬取后的頁(yè)面集合逐個(gè)進(jìn)行頁(yè)面的篩選、解析、提取和剪裁正文的操作,并將處理后的文本存儲(chǔ)于正文數(shù)據(jù)庫(kù),與其頁(yè)面屬性共同組成初步過(guò)濾后的新聞文檔集合; (14)正文提取模塊對(duì)于正文數(shù)據(jù)庫(kù)中的每篇新聞文檔提取標(biāo)題和導(dǎo)語(yǔ),所述導(dǎo)語(yǔ)是標(biāo)題的擴(kuò)展,它是結(jié)合新聞報(bào)道的文本長(zhǎng)度及內(nèi)容特征進(jìn)行裁剪得到的,在長(zhǎng)新聞報(bào)道正文文本中所選取的導(dǎo)語(yǔ)至多為前兩個(gè)自然段,由此實(shí)現(xiàn)對(duì)提取正文后整篇報(bào)道的先行裁剪。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(2)包括下列操作內(nèi)容 (21)分詞及詞性標(biāo)注模塊執(zhí)行正文預(yù)處理根據(jù)現(xiàn)有的分詞詞典和停用詞詞典,進(jìn)行包括分詞、詞性標(biāo)注的操作,以便從每篇新聞文檔中初步篩選出相對(duì)有效的詞語(yǔ),即特征詞,并存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中; (22)命名實(shí)體識(shí)別模塊從分詞和詞性標(biāo)注后的文本中,將描述突發(fā)事件特征的包括時(shí)間、地點(diǎn)、機(jī)構(gòu)和人物的標(biāo)識(shí)性詞語(yǔ),作為特征詞提取出來(lái),并保存于特征向量數(shù)據(jù)庫(kù)中; (23)詞性/停用詞過(guò)濾模塊繼續(xù)進(jìn)行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒(méi)有實(shí)際語(yǔ)義的詞語(yǔ),再根據(jù)停用詞表篩選出能在某種程度與反映熱點(diǎn)話題內(nèi)容相關(guān)的詞語(yǔ),并將其保存于特征向量數(shù)據(jù)庫(kù)中; (24)特征權(quán)值計(jì)算模塊是基于改進(jìn)的特征權(quán)值計(jì)算模型,對(duì)經(jīng)過(guò)上述三個(gè)模塊處理而形成的新聞文檔集合進(jìn)行向量化處理,將每篇新聞報(bào)道文檔對(duì)應(yīng)一個(gè)特征向量,最終形成文檔特征權(quán)值矩陣; (25)特征選擇模塊利用現(xiàn)有的特征抽取和屬性約簡(jiǎn)算法對(duì)特征詞繼續(xù)進(jìn)行篩選,以降低文檔特征權(quán)值矩陣的復(fù)雜度保留其中反映突發(fā)事件信息屬性的重要特征詞,剔除相對(duì)無(wú)用的特征詞;再將保留的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于所述步驟(24)中的文檔特征權(quán)值的計(jì)算包括下列操作內(nèi)容(24A)先用特征向量空間D=WDdfdfdll^表示全部新聞文檔集合,式中,|D|為該特征向量空間中的元素總數(shù),即文檔總數(shù)量;每個(gè)特征向量dj= (Wlj, W2j,…Wlllj)表示序號(hào)為j的文檔,Wij e [O, I]表示序號(hào)為j的文檔中第i個(gè)特征詞的權(quán)值,自然數(shù)序號(hào)i和j的最大值分別為111和N,即文檔總數(shù)為N,全部文檔中的特征詞集合或特征詞總數(shù)為I,也就是111為該特征詞集合的度;tfij=tf (ti; dj)表示特征詞ti在文檔dj中出現(xiàn)的頻率,rii表示全部文檔中包含特征ti的文檔數(shù); (24B)采用改進(jìn)的文本特征權(quán)值計(jì)算模型中的第一個(gè)計(jì)算公式
10.根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(3)包括下列操作內(nèi)容 (31)計(jì)算兩個(gè)文檔間的距離文檔相似性計(jì)算模塊從文檔向量空間D=W1, d2,…dj,…(!㈣}中隨機(jī)選擇k個(gè)文檔作為初始的聚類中心C=Ic1, C2,…Ci,…ck},再計(jì)算每個(gè)文檔dj與每個(gè)初始聚類中心Ci的相似度Sim (dj, Ci)
11.根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(4)包括下列操作內(nèi)容 (41)計(jì)算網(wǎng)絡(luò)特征,建立熱點(diǎn)話題的熱度評(píng)估函數(shù),并據(jù)此計(jì)算突發(fā)事件中每個(gè)話題在設(shè)定時(shí)間內(nèi)的整體熱度值,用于判斷系統(tǒng)識(shí)別出的話題能否成立先定義和量化話題在設(shè)定時(shí)間段內(nèi)的熱度屬性網(wǎng)絡(luò)特征計(jì)算模塊根據(jù)步驟(I)提取的與熱點(diǎn)話題關(guān)注度相關(guān)的包括話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的網(wǎng)絡(luò)特征,采用三種評(píng)估算法分別計(jì)算話題的時(shí)間屬性、報(bào)道屬性和用戶關(guān)注度屬性; (42)根據(jù)熱度評(píng)估計(jì)算公式計(jì)算話題熱度值根據(jù)對(duì)話題熱度屬性的分析,得到設(shè)定時(shí)間段Ui內(nèi)突發(fā)事件中話題h的熱度評(píng)估計(jì)算公式Hh(Ui)為
12.根據(jù)權(quán)利要求11所述的方法,其特征在于所述步驟(41)中,計(jì)算話題熱度屬性值的三種評(píng)估算法包括下列操作內(nèi)容 (41Α)計(jì)算話題的時(shí)間屬性基于話題熱度的時(shí)間衰減性,每個(gè)話題h在設(shè)定時(shí)間段Ui的時(shí)間屬性包括時(shí)間跨度I (Ui)和指數(shù)衰減因子其中,自然數(shù)I(Ui)表示所統(tǒng)計(jì)的時(shí)間段Ui中的時(shí)間單元數(shù),時(shí)間單元為小時(shí)、日、周或月;系數(shù)λ (λ >0)是控制時(shí)間段衰減的速度因子;fili )(41B)計(jì)算話題的報(bào)道屬性設(shè)話題h的報(bào)道時(shí)間段為七時(shí),該話題h的報(bào)道頻率^是該話題h的報(bào)道數(shù)量f (Ui)與這段時(shí)間全部報(bào)道總數(shù)F(Ui)之比,報(bào)道廣度^■是該話 ( ,)題h的報(bào)道源數(shù)量g(Ui)與這段時(shí)間內(nèi)總報(bào)道源數(shù)量G(Ui)之比,在設(shè)定時(shí)間段內(nèi),話題報(bào)道數(shù)量越多,表明該話題越重要,關(guān)注程度及其報(bào)道頻度越高,同時(shí)該話題的報(bào)道廣度也越大;(41C)計(jì)算話題的用戶關(guān)注度利用用戶點(diǎn)擊閱讀數(shù)C(Ui)和評(píng)論參與數(shù)(Kui)反映用戶的關(guān)注度,且參與評(píng)論數(shù)對(duì)話題成為熱點(diǎn)的貢獻(xiàn)度更高;即用戶的點(diǎn)擊閱讀率In # Ui11,K或評(píng)論參與率^數(shù)值越高,說(shuō)明該新聞報(bào)道涉及的話題受到用戶的關(guān)注度越大。
Kni)
全文摘要
一種突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置和方法,該裝置設(shè)有文本獲取、文本表示、話題聚類和話題評(píng)估共四個(gè)單元組成部件,本發(fā)明創(chuàng)新特點(diǎn)是對(duì)新聞報(bào)道正文的裁剪只提取標(biāo)題、導(dǎo)語(yǔ)及相關(guān)特征等信息,就將其作為熱點(diǎn)話題識(shí)別的有效樣本集;與現(xiàn)有的全文提取進(jìn)行對(duì)比實(shí)驗(yàn)的結(jié)果表明,兩者的結(jié)果相近似,但本發(fā)明操作大大簡(jiǎn)化。還使用改進(jìn)的特征權(quán)值計(jì)算模型,與經(jīng)典模型比較,前者的執(zhí)行效率更好和文本表示能力適應(yīng)性更強(qiáng)。對(duì)聚類出的話題利用模型評(píng)估熱度值,所計(jì)算出的熱點(diǎn)話題符合預(yù)期效果,更適應(yīng)于突發(fā)事件新聞報(bào)道的特征??傊?,本發(fā)明裝置和方法在處理突發(fā)事件新聞報(bào)道文本過(guò)程中,其計(jì)算復(fù)雜度、結(jié)果準(zhǔn)確性和實(shí)時(shí)性方面都具有良好性能。
文檔編號(hào)G06F17/30GK102937960SQ201210327979
公開(kāi)日2013年2月20日 申請(qǐng)日期2012年9月6日 優(yōu)先權(quán)日2012年9月6日
發(fā)明者陳莉萍, 杜軍平, 宋茂強(qiáng) 申請(qǐng)人:北京郵電大學(xué)