突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置和方法

文檔序號(hào)：6376479閱讀：378來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及文本數(shù)據(jù)挖掘領(lǐng)域中的話題檢測(cè)與跟蹤技術(shù)，確切的說(shuō)，涉及一種在突發(fā)事件發(fā)生后，從互聯(lián)網(wǎng)相關(guān)新聞報(bào)道文本中，識(shí)別出與突發(fā)事件相關(guān)聯(lián)的熱點(diǎn)話題，并對(duì)識(shí)別出的熱點(diǎn)話題進(jìn)行熱度評(píng)估的裝置與方法，用于為后續(xù)熱點(diǎn)話題的追蹤提供識(shí)別與評(píng)估該熱點(diǎn)話題的方法，屬于互聯(lián)網(wǎng)話題檢測(cè)與跟蹤TDT (Topic Detection andTracking)的技術(shù)領(lǐng)域。
背景技術(shù)：
話題檢測(cè)與跟蹤TDT技術(shù)是一種信息處理技術(shù)，旨在依據(jù)事件對(duì)語(yǔ)言文本信息流進(jìn)行組織與利用的研究，也是為應(yīng)對(duì)信息過(guò)載問(wèn)題而提出的一項(xiàng)應(yīng)用研究。TDT檢測(cè)與跟蹤的對(duì)象包括從特定時(shí)間和地點(diǎn)的事件、直到具備更多相關(guān)性外延的話題，相關(guān)的理論與·應(yīng)用研究也從傳統(tǒng)的時(shí)間識(shí)別，跨越到包含突發(fā)事件和后續(xù)報(bào)告的話題檢測(cè)與跟蹤。與一般信息檢索或信息過(guò)濾不同，TDT關(guān)心的話題不是一個(gè)大的領(lǐng)域，而是一件非常具體的事情。為了區(qū)別語(yǔ)言上的概念，TDT評(píng)測(cè)對(duì)話題(Topic)、事件(Event)、活動(dòng)(Activity)、報(bào)道(Story)和主題(Subject)都給出了下述定義事件(Event):由某些原因和條件所引起、發(fā)生在特定時(shí)間和特定地點(diǎn)的涉及某些對(duì)象并可能伴隨某些必然結(jié)果的事情。如“2011年3月11日，日本發(fā)生9. O級(jí)地震”就是一個(gè)具體的事件?；顒?dòng)(Activity):發(fā)生在特定時(shí)間和特定地點(diǎn)、且有共同目的和共同關(guān)注的相關(guān)事件的集合。例如選舉。報(bào)道(Story):與話題緊密相關(guān)的、包含兩個(gè)或多個(gè)獨(dú)立陳述某個(gè)事件子句的新聞片段。話題(Topic):由一個(gè)種子事件或活動(dòng)，以及與其直接相關(guān)的事件或活動(dòng)組成。如2011年3月11日日本地震后引發(fā)的核危機(jī)話題。主題(Subject):涵蓋或泛指的多個(gè)類似具體事件，或根本不涉及任何具體事件，其涉及的概念比話題更廣泛。如“海嘯”是個(gè)主題，而“日本3. 11地震引發(fā)海嘯”則屬于一個(gè)話題。TDT是1996年由美國(guó)國(guó)防部高級(jí)研究計(jì)劃署DARPA聯(lián)合相關(guān)科研機(jī)構(gòu)提出的，還設(shè)立了下述五項(xiàng)基礎(chǔ)性研究任務(wù)新聞廣播類報(bào)道的切分任務(wù)，已知話題的跟蹤任務(wù)，未知話題的檢測(cè)任務(wù)，未知話題首次相關(guān)報(bào)道的檢測(cè)任務(wù)，報(bào)道間的關(guān)聯(lián)檢測(cè)任務(wù)。隨著研究的逐步深入和發(fā)展，美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院NIST為T(mén)DT逐步建立了完整的任務(wù)評(píng)測(cè)體系。最新版本的TDT2004確定了該領(lǐng)域的下述六個(gè)主要研究任務(wù)(A)新事件檢測(cè)NED (New Event Detection):判斷一個(gè)新聞報(bào)道是否描述了一個(gè)新的事件；(B)報(bào)道關(guān)聯(lián)檢測(cè)SLD (Story Link Detection):判斷兩篇新聞報(bào)道是否描述了同一個(gè)話題；
(C)話題檢測(cè)TD (Topic Detection):由新話題的檢測(cè)和話題追蹤兩項(xiàng)任務(wù)共同完成;(D)話題跟蹤TT (Topic Tracking):對(duì)于某個(gè)已經(jīng)發(fā)現(xiàn)的話題，判斷后續(xù)的話題是否屬于該話題；(E)自適應(yīng)話題跟蹤ATT (Adaptive Topic Tracking):相對(duì)于話題追蹤的任務(wù)，具備自學(xué)習(xí)能力；(F)層次話題檢測(cè)HTD (Hierarchical Topic Detection):話題之間有層次關(guān)系，即一個(gè)報(bào)道可以屬于多個(gè)話題，一個(gè)話題也可以包含其它話題。截止2004年，NIST提供的所有評(píng)測(cè)任務(wù)基本覆蓋了 TDT技術(shù)領(lǐng)域內(nèi)的大部分研
究課題。下面介紹話題檢測(cè)技術(shù)的發(fā)展現(xiàn)狀從1996年DARPA提出對(duì)新聞數(shù)據(jù)流的話題進(jìn)行自動(dòng)判斷和識(shí)別的新技術(shù)作為起源，到1997年TDT項(xiàng)目開(kāi)始啟動(dòng)，卡耐基-梅隆大學(xué)、馬薩諸塞大學(xué)、濱州大學(xué)等分別發(fā)表各自開(kāi)發(fā)的系統(tǒng)研究報(bào)告，建立了一個(gè)針對(duì)TDT研究的預(yù)研語(yǔ)料庫(kù)，開(kāi)始進(jìn)入初步研究階段。1998年，NIST開(kāi)始舉辦由語(yǔ)言數(shù)據(jù)聯(lián)盟LDC提供的TDT評(píng)測(cè)。目前，已經(jīng)公布的訓(xùn)練和測(cè)試語(yǔ)料包括TDT pilot Corpus、TDT2、TDT3、TDT4，這些語(yǔ)料都事先由人工對(duì)若干事件話題進(jìn)行了標(biāo)注作為標(biāo)準(zhǔn)答案。TDT技術(shù)每年進(jìn)行一次公開(kāi)評(píng)測(cè)，每次評(píng)測(cè)的側(cè)重點(diǎn)有所不同，1999年進(jìn)行的第二次TDT評(píng)測(cè)加入了中文語(yǔ)料。國(guó)內(nèi)的一些研究機(jī)構(gòu)如中科院計(jì)算所、哈工大、東北大學(xué)、北大計(jì)算語(yǔ)言學(xué)研究所、清華等也開(kāi)始進(jìn)行TDT相關(guān)關(guān)鍵技術(shù)的研究。由于中文文本處理比其它語(yǔ)言文本要復(fù)雜很多，并且從研究方法到技術(shù)實(shí)現(xiàn)方案都存在很大差別，因此，目前國(guó)內(nèi)的現(xiàn)有技術(shù)主要側(cè)重于對(duì)中文文本的研究。近年來(lái)，海內(nèi)外的研究更多地側(cè)重于話題聚類算法的實(shí)現(xiàn)和效率的評(píng)估，以及話題跟蹤模型的研究。哈工大對(duì)熱門(mén)話題檢測(cè)技術(shù)的研究比較突出，提出了基于內(nèi)容分析的話題檢測(cè)算法；也有人分別研究博客和微博客領(lǐng)域中文熱門(mén)話題檢測(cè)與跟蹤技術(shù)，提出了將詞性和詞頻相結(jié)合的相似度計(jì)算方法，提出了基于語(yǔ)義結(jié)構(gòu)和時(shí)序特征的話題檢測(cè)與跟蹤技術(shù)和基于多重特征的話題追蹤模型等。中科院計(jì)算所提出從網(wǎng)絡(luò)論壇中基于噪音過(guò)濾模型的突發(fā)話題抽取方法。在商業(yè)系統(tǒng)中，TDT技術(shù)的應(yīng)用也越來(lái)越多。大多數(shù)搜索引擎廠商都提供新聞搜索服務(wù)，將新聞作為一個(gè)垂直搜索領(lǐng)域來(lái)開(kāi)發(fā)應(yīng)用。如Google中文資訊、有道熱聞和百度新聞等都用到了 TDT中的相關(guān)技術(shù)，但都未公開(kāi)其技術(shù)細(xì)節(jié)。TDT是一個(gè)直接面向應(yīng)用的研究方向，到目前為止，該領(lǐng)域的大部分研究都是借用信息檢索的某些方法，通過(guò)調(diào)整某些參數(shù)來(lái)對(duì)系統(tǒng)進(jìn)行優(yōu)化。目前，國(guó)內(nèi)外對(duì)于新聞熱點(diǎn)話題的檢測(cè)，主要側(cè)重在新聞事件網(wǎng)絡(luò)報(bào)道信息流中自動(dòng)檢測(cè)出新話題，并對(duì)其后續(xù)報(bào)道進(jìn)行追蹤。由于突發(fā)事件的發(fā)生往往導(dǎo)致互聯(lián)網(wǎng)信息的驟然超載，使得傳統(tǒng)新聞事件的信息獲取和分析處理方法效率明顯降低。近年來(lái)，對(duì)于熱點(diǎn)話題的研究逐漸成為國(guó)內(nèi)外關(guān)注的重點(diǎn)，但是，大多集中于從各·類事件的新聞中發(fā)現(xiàn)話題并過(guò)濾熱點(diǎn)進(jìn)行跟蹤的方法。然而，針對(duì)突發(fā)事件，尤其是重大突發(fā)事件的新聞報(bào)道具有特殊的屬性，至今還沒(méi)有提出特殊的、有針對(duì)性的處理方法。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的目的是提供一種突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置和方法，本發(fā)明是基于對(duì)突發(fā)事件本身的產(chǎn)生機(jī)理和演化規(guī)律進(jìn)行研究而提出的，它能在突發(fā)事件發(fā)生后，快速識(shí)別和評(píng)估網(wǎng)絡(luò)新聞的熱點(diǎn)話題，并對(duì)話題進(jìn)行跟蹤和演化分析，用于提高突發(fā)事件應(yīng)急預(yù)測(cè)預(yù)警的效率，改善應(yīng)急管理的知識(shí)模型，并對(duì)提高應(yīng)急預(yù)案的針對(duì)性和有效性等方面都能給予有力支持。為了達(dá)到上述目的，本發(fā)明提供了一種突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置，其特征在于該裝置設(shè)有下述四個(gè) 組成部件文本獲取單元、文本表示單元、話題聚類單元和話題評(píng)估單元，其中文本獲取單元，用于發(fā)生突發(fā)事件后，從各大新聞網(wǎng)站采集與該突發(fā)事件熱點(diǎn)話題相關(guān)的新聞報(bào)道頁(yè)面并進(jìn)行文本處理，形成一組新聞文檔集合存儲(chǔ)于正文數(shù)據(jù)庫(kù)，以供文本表示、話題聚類和話題評(píng)估三個(gè)單元進(jìn)行后續(xù)處理；設(shè)有頁(yè)面爬取、正文提取和頁(yè)面屬性提取三個(gè)模塊，以及爬取信息數(shù)據(jù)庫(kù)與正文數(shù)據(jù)庫(kù)；文本表示單元，用于完成文檔的向量化處理利用改進(jìn)的文本特征權(quán)值計(jì)算方法建立數(shù)學(xué)模型并進(jìn)行計(jì)算，以形成文本特征權(quán)值矩陣；設(shè)有分詞及詞性標(biāo)注、命名實(shí)體識(shí)另IJ、詞性/停用詞過(guò)濾、特征權(quán)值計(jì)算和特征選擇共五個(gè)模塊，以及分詞詞典和停用詞表兩個(gè)數(shù)據(jù)庫(kù)；話題聚類單元，負(fù)責(zé)對(duì)來(lái)自前述單元的特征詞進(jìn)行聚類處理將描述相同話題的文檔進(jìn)行聚合，組成多個(gè)被稱為簇的子集，使得每個(gè)簇中的各個(gè)文檔之間相似性強(qiáng)，而簇間各文檔的相似性弱；再用每個(gè)簇中特征權(quán)值最高的2飛個(gè)詞語(yǔ)描述一個(gè)話題，得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題；設(shè)有文檔相似性計(jì)算模塊和文檔聚類模塊；話題評(píng)估單元，負(fù)責(zé)對(duì)突發(fā)事件發(fā)生后設(shè)定時(shí)間內(nèi)人們關(guān)注的若干話題進(jìn)行熱度評(píng)估，并按照評(píng)估值大小對(duì)熱點(diǎn)話題進(jìn)行降序排序，為迅速把握后續(xù)的重要事件和研究話題的演化規(guī)律提供基礎(chǔ)；設(shè)有網(wǎng)絡(luò)特征計(jì)算、熱度評(píng)估、話題排序三個(gè)模塊和特征向量數(shù)據(jù)庫(kù)。為了達(dá)到上述目的，本發(fā)明還提供了一種采用本發(fā)明突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置的工作方法，其特征在于所述方法包括下列操作步驟(I)文本獲取單元獲取設(shè)定事件的新聞報(bào)道頁(yè)面，再?gòu)呐廊〉膱?bào)道頁(yè)面中提取標(biāo)題、報(bào)道時(shí)間、報(bào)道源，以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征作為頁(yè)面屬性，并對(duì)該報(bào)道頁(yè)面進(jìn)行篩選、解析、提取和剪裁新聞?wù)牡牟僮?，形成新聞文檔集合；(2)文本表示單元采用改進(jìn)的文本特征權(quán)值計(jì)算方法對(duì)每篇新聞文檔進(jìn)行向量化處理，形成文本特征值矩陣；(3)話題聚類單元對(duì)設(shè)定特征詞對(duì)應(yīng)的文本特征值矩陣進(jìn)行聚合處理將話題相同的相似文檔聚合，組成多個(gè)簇，使得每個(gè)簇中的各文檔相似性強(qiáng)，而不同簇的各文檔相似性弱；再用每個(gè)簇中特征權(quán)值最高的2 5個(gè)特征詞描述一個(gè)話題，得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題；(4)話題評(píng)估單元對(duì)話題進(jìn)行熱度評(píng)估在已獲取了突發(fā)事件發(fā)生后人們關(guān)注的若干個(gè)話題基礎(chǔ)上，對(duì)這些話題進(jìn)行熱度評(píng)估和排序，為把握重要事件后續(xù)發(fā)展和研究話題的演化提供基礎(chǔ)。本發(fā)明在TDT的基本檢測(cè)和追蹤方法基礎(chǔ)上進(jìn)行了三處創(chuàng)新與改進(jìn)首先，考慮到突發(fā)事件應(yīng)急系統(tǒng)的快速反應(yīng)機(jī)制對(duì)前期文本挖掘的實(shí)時(shí)性要求較高，即在保證信息處理方法滿足設(shè)定準(zhǔn)確度要求的前提下，具有較高的執(zhí)行效率?，F(xiàn)有方法主要基于新聞報(bào)道全文或只提取標(biāo)題作為數(shù)據(jù)源，開(kāi)展后續(xù)的數(shù)據(jù)處理，這樣處理的后果有可能導(dǎo)致效率降低或提取信息的不準(zhǔn)確。本發(fā)明在對(duì)新聞文本內(nèi)容及結(jié)構(gòu)進(jìn)行大量分析的前提下，提出先對(duì)整個(gè)新聞報(bào)道文本進(jìn)行必要的裁剪，這種對(duì)原始數(shù)據(jù)先刪除冗余的做法在保證準(zhǔn)確度要求的前提下，大大提高了后續(xù)算法的運(yùn)行效率，從而降低了計(jì)算時(shí)間和空間的復(fù)雜度。其次，大量話題的發(fā)現(xiàn)必須通過(guò)一定規(guī)范的文本表示才能進(jìn)行快速分析和處理。在文本表示階段，本發(fā)明通過(guò)對(duì)傳統(tǒng)權(quán)值計(jì)算方法的改進(jìn)，建立針對(duì)具有時(shí)效性、報(bào)道源分布性和報(bào)道數(shù)量海量性等特征的新聞文本的表示模型，相對(duì)于傳統(tǒng)模型具有更強(qiáng)的文本表示能力，為后續(xù)話題發(fā)現(xiàn)和熱點(diǎn)的過(guò)濾提供了準(zhǔn)確度更高的數(shù)據(jù)集。最后，突發(fā)事件發(fā)生后，會(huì)涌現(xiàn)大量話題，但其是否成為人們的關(guān)注熱點(diǎn)，為決策者提供更有效的數(shù)據(jù)支持，還需要對(duì)話題進(jìn)一步過(guò)濾。本發(fā)明通過(guò)對(duì)網(wǎng)絡(luò)新聞報(bào)道的時(shí)間屬性、報(bào)道屬性、用戶關(guān)注度等網(wǎng)絡(luò)特征的提取和分析，提出熱點(diǎn)話題的評(píng)估方法，可對(duì)發(fā)現(xiàn)出的話題計(jì)算其在設(shè)定時(shí)間內(nèi)的熱度值，實(shí)現(xiàn)熱點(diǎn)話題的有效識(shí)別。本發(fā)明針對(duì)上述三個(gè)關(guān)鍵技術(shù)的研究所提出的裝置和方法，經(jīng)過(guò)以2011年日本大地震突發(fā)事件新聞報(bào)道作為數(shù)據(jù)源進(jìn)行模型評(píng)估和相關(guān)算法的仿真實(shí)施試驗(yàn)。實(shí)驗(yàn)結(jié)果表明，本發(fā)明與現(xiàn)有技術(shù)比較，具有以下優(yōu)點(diǎn)通過(guò)與現(xiàn)有的全文提取方法進(jìn)行對(duì)比實(shí)驗(yàn)，對(duì)新聞報(bào)道正文的裁剪，只提取標(biāo)題、導(dǎo)語(yǔ)及相關(guān)特征等信息就能夠作為熱點(diǎn)話題識(shí)別的有效樣本集；改進(jìn)的特征權(quán)值計(jì)算模型與經(jīng)典模型比較，具有更好的執(zhí)行效率和適應(yīng)性更強(qiáng)的文本表示能力；通過(guò)對(duì)聚類出的話題利用模型進(jìn)行熱度值評(píng)估，計(jì)算出的熱點(diǎn)話題符合預(yù)期效果，更適應(yīng)于突發(fā)事件新聞報(bào)道的特征。總之，試驗(yàn)的結(jié)果證明本發(fā)明裝置和方法都是成功的，實(shí)現(xiàn)了發(fā)明目的。在處理突發(fā)事件新聞報(bào)道文本過(guò)程中，其計(jì)算復(fù)雜度、結(jié)果準(zhǔn)確性和實(shí)時(shí)性方面都具有良好性能。

圖I是本發(fā)明突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置的結(jié)構(gòu)組成示意圖。圖2是本發(fā)明突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置工作方法流程圖。圖3是本發(fā)明實(shí)施例中的步驟I的特征值比較曲線圖。圖4是本發(fā)明實(shí)施例中的步驟3中的話題聚類仿真結(jié)果示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。參照?qǐng)D1，介紹突發(fā)事件熱點(diǎn)話題與評(píng)估的裝置的結(jié)構(gòu)組成設(shè)有文本獲取單元、文本表示單元、話題聚類單元和話題評(píng)估單元四個(gè)組成部件，本發(fā)明的創(chuàng)新主要集中在文本獲取、文本表示和話題評(píng)估三個(gè)單元中。下面分別介紹之
(A)文本獲取單元用于發(fā)生突發(fā)事件后，從各大新聞網(wǎng)站采集與該突發(fā)事件熱點(diǎn)話題相關(guān)的新聞報(bào)道頁(yè)面并進(jìn)行文本處理，形成一組新聞文檔集合存儲(chǔ)于正文數(shù)據(jù)庫(kù)，以供文本表示、話題聚類和話題評(píng)估三個(gè)單元進(jìn)行后續(xù)處理；設(shè)有頁(yè)面爬取、正文提取和頁(yè)面屬性提取三個(gè)模塊，以及爬取信息數(shù)據(jù)庫(kù)與正文數(shù)據(jù)庫(kù)。這些模塊和數(shù)據(jù)庫(kù)的功能說(shuō)明如下頁(yè)面爬取模塊，負(fù)責(zé)從指定網(wǎng)站下載與預(yù)設(shè)關(guān)鍵詞相關(guān)的新聞報(bào)道頁(yè)面，并將該新聞報(bào)道頁(yè)面以頁(yè)面文件形式存儲(chǔ)在本地磁盤(pán)上。正文提取模塊，負(fù)責(zé)從本地磁盤(pán)讀取爬取后的頁(yè)面文件，并利用該正文提取模塊中的正文提取算法對(duì)每篇頁(yè)面文件去除噪聲、提取新聞?wù)模男侣務(wù)闹蟹蛛x出導(dǎo)語(yǔ) 和其余部分，再對(duì)實(shí)際文本長(zhǎng)度進(jìn)行剪裁，將剪裁后的新聞文檔存儲(chǔ)于正文數(shù)據(jù)庫(kù)中，然后根據(jù)報(bào)道源的不同在正文數(shù)據(jù)庫(kù)中建立索引，以使邏輯上形成不同數(shù)據(jù)源所對(duì)應(yīng)的一組正文集。頁(yè)面屬性提取模塊，用于從本地磁盤(pán)讀取爬取后的頁(yè)面文件，并提取每篇新聞報(bào)道特有的包括標(biāo)題、報(bào)道時(shí)間和報(bào)道源的屬性，以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的包括該話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的網(wǎng)絡(luò)特征屬性，再存儲(chǔ)于正文數(shù)據(jù)庫(kù)中。爬取信息數(shù)據(jù)庫(kù)是用于存儲(chǔ)頁(yè)面爬取模塊所需的配置信息。正文數(shù)據(jù)庫(kù)是用于存儲(chǔ)新聞報(bào)道處理后的正文和頁(yè)面屬性信息。(B)文本表示單元用于完成文檔的向量化處理利用改進(jìn)的文本特征權(quán)值計(jì)算方法建立數(shù)學(xué)模型并進(jìn)行計(jì)算，以形成文本特征權(quán)值矩陣；設(shè)有分詞及詞性標(biāo)注、命名實(shí)體識(shí)別、詞性/停用詞過(guò)濾、特征權(quán)值計(jì)算和特征選擇共五個(gè)模塊，以及分詞詞典和停用詞表兩個(gè)數(shù)據(jù)庫(kù)。這些模塊和數(shù)據(jù)庫(kù)的功能如下分詞及詞性標(biāo)注模塊，負(fù)責(zé)采用中科院漢語(yǔ)詞法分析系統(tǒng)ICTCLASdnstitute ofComputing Technology, Chinese Lexical Analysis System)中文分詞系統(tǒng),對(duì)存儲(chǔ)在正文數(shù)據(jù)庫(kù)中的每篇新聞報(bào)道的新聞文檔進(jìn)行分詞和詞性標(biāo)注，再將處理結(jié)果暫存于話題評(píng)估單元中的特征向量數(shù)據(jù)庫(kù)中。命名實(shí)體識(shí)別模塊，用于針對(duì)分詞后的新聞文檔，將其中描述突發(fā)事件特征的標(biāo)識(shí)性詞語(yǔ)、即包括時(shí)間、地點(diǎn)、機(jī)構(gòu)和人物的關(guān)鍵信息提取出來(lái)，并保存于特征向量數(shù)據(jù)庫(kù)中。詞性/停用詞過(guò)濾模塊，用于對(duì)分詞及詞性標(biāo)注后的新聞文檔中的詞語(yǔ)繼續(xù)進(jìn)行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒(méi)有實(shí)際語(yǔ)義的詞語(yǔ)，再根據(jù)停用詞表篩選出能夠在某種程度與熱點(diǎn)話題內(nèi)容相關(guān)的詞語(yǔ)，并將其保存于特征向量數(shù)據(jù)庫(kù)中。特征權(quán)值計(jì)算模塊，使用基于向量空間模型改進(jìn)的特征權(quán)值計(jì)算模型，對(duì)每篇新聞文檔中經(jīng)過(guò)上述三個(gè)模塊處理而形成的詞語(yǔ)集合進(jìn)行向量化表示，形成特征權(quán)值矩陣并存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中；該特征權(quán)值矩陣的行和列分別表示各個(gè)新聞文檔及其對(duì)應(yīng)的不同文本的特征權(quán)值。特征選擇模塊，利用現(xiàn)有的特征抽取和屬性約簡(jiǎn)算法對(duì)特征詞進(jìn)行篩選保留其中反映突發(fā)事件信息屬性的重要特征詞，剔除相對(duì)無(wú)用的特征詞；然后，將保留的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。分詞詞典數(shù)據(jù)庫(kù)是存儲(chǔ)用于分詞的中文詞語(yǔ)信息的數(shù)據(jù)庫(kù)。停用詞表數(shù)據(jù)庫(kù)是存儲(chǔ)用于詞性過(guò)濾和停用詞過(guò)濾的中文詞語(yǔ)數(shù)據(jù)庫(kù)。(C)話題聚類單元，負(fù)責(zé)對(duì)來(lái)自前述單元的特征詞進(jìn)行聚類處理將描述相同話題的文檔進(jìn)行聚合，組成多個(gè)被稱為簇的子集，使得每個(gè)簇中的各個(gè)文檔之間相似性強(qiáng)，而簇間各文檔的相似性弱；再用每個(gè)簇中特征權(quán)值最高的2飛個(gè)詞語(yǔ)描述一個(gè)話題，得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題；設(shè)有文檔相似性計(jì)算模塊和文檔聚類模塊，它們的功能介紹如下文檔相似性計(jì)算模塊，采用向量夾角的余弦值計(jì)算公式計(jì)算得到文本表示單元中的特征權(quán)值矩陣中各行所表示的各個(gè)新聞文檔之間的相似度，并將各個(gè)新聞文檔相似度值存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。文檔聚類模塊，采用改進(jìn)的聚類算法對(duì)相似度值高的文檔進(jìn)行分組聚類將描述相同話題的相似文檔進(jìn)行聚合，組成多個(gè)被稱為簇的子集，同時(shí)根據(jù)文本特征權(quán)值的大小提取2飛個(gè)特征詞作為描述該簇的數(shù)據(jù)，并將提取的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。(D)話題評(píng)估單元，負(fù)責(zé)對(duì)突發(fā)事件發(fā)生后設(shè)定時(shí)間內(nèi)人們關(guān)注的若干話題進(jìn)行熱度評(píng)估，并按照評(píng)估值大小對(duì)熱點(diǎn)話題進(jìn)行降序排序，為迅速把握后續(xù)的重要事件和研究話題的演化規(guī)律提供基礎(chǔ)；設(shè)有網(wǎng)絡(luò)特征計(jì)算、熱度評(píng)估、話題排序三個(gè)模塊和特征向量數(shù)據(jù)庫(kù)。這三個(gè)模塊和數(shù)據(jù)庫(kù)的功能如下網(wǎng)絡(luò)特征計(jì)算模塊，用于從正文數(shù)據(jù)庫(kù)和來(lái)自話題聚類單元的特征向量數(shù)據(jù)庫(kù)中提取并計(jì)算與熱點(diǎn)話題關(guān)注度相關(guān)的包括該話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的各個(gè)網(wǎng)絡(luò)特征屬性。熱度評(píng)估模塊，用于根據(jù)網(wǎng)絡(luò)特征計(jì)算模塊計(jì)算得到的各個(gè)網(wǎng)絡(luò)特征屬性，建立熱點(diǎn)話題的熱度評(píng)估函數(shù)，并據(jù)此計(jì)算突發(fā)事件中每個(gè)話題在設(shè)定時(shí)間內(nèi)的熱度值。話題排序模塊，負(fù)責(zé)依據(jù)熱度評(píng)估模塊處理后的熱點(diǎn)話題的熱度值的大小，對(duì)其進(jìn)行降序排序，以2飛個(gè)特征詞描述一個(gè)熱點(diǎn)話題的方式進(jìn)行展現(xiàn)，同時(shí)將排序結(jié)果數(shù)據(jù)存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。特征向量數(shù)據(jù)庫(kù)，用于分別存儲(chǔ)文本表示單元中各模塊的處理結(jié)果、話題聚類單元中各模塊的處理結(jié)果和話題評(píng)估單元中各模塊的處理結(jié)果。本發(fā)明基于對(duì)突發(fā)事件新聞報(bào)道文本內(nèi)容、結(jié)構(gòu)特點(diǎn)和報(bào)道源分布性等特征的研究，以及新聞報(bào)道的時(shí)間屬性、報(bào)道屬性、用戶關(guān)注度等網(wǎng)絡(luò)特征的分析，提出了突發(fā)事件熱點(diǎn)話題識(shí)別與評(píng)估裝置。并在該裝置中的文本獲取單元采用了新聞報(bào)道正文裁剪方法，在文本表示單元采用了改進(jìn)的文本特征權(quán)值計(jì)算方法，在話題評(píng)估單元采用了話題的熱度評(píng)估方法。下面參照?qǐng)D2，具體說(shuō)明本發(fā)明方法的各個(gè)操作步驟步驟1，文本獲取單元獲取設(shè)定事件的新聞報(bào)道頁(yè)面，再?gòu)呐廊〉膱?bào)道頁(yè)面中提取標(biāo)題、報(bào)道時(shí)間、報(bào)道源，以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征作為頁(yè)面屬性，并對(duì)該報(bào)道頁(yè)面進(jìn)行篩選、解析、提取和剪裁新聞?wù)牡牟僮?，形成新聞文檔集合。該步驟包括下列操作內(nèi)容(11)頁(yè)面爬取模塊根據(jù)用戶預(yù)設(shè)的統(tǒng)一資源定位符URL (Uniform ResourceLocator)地址和其它參數(shù)，通過(guò)頁(yè)面爬取程序下載設(shè)定突發(fā)事件的新聞報(bào)道頁(yè)面，并將這些報(bào)道頁(yè)面以頁(yè)面文件形式自動(dòng)存儲(chǔ)于本地磁盤(pán)的文件夾。(12)頁(yè)面屬性提取模塊讀取爬取后的頁(yè)面文件，并從中提取每篇新聞報(bào)道包括標(biāo)題、報(bào)道時(shí)間和報(bào)道源的頁(yè)面屬性，以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征，所述網(wǎng)絡(luò)特征包括報(bào)道頻率、報(bào)道源數(shù)量、報(bào)道時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)，然后將提取的頁(yè)面屬性保存在正文數(shù)據(jù)庫(kù)中。(13)正文提取模塊利用正文提取算法對(duì)爬取后的頁(yè)面集合逐個(gè)進(jìn)行頁(yè)面的篩選、解析、提取和剪裁正文的操作，并將處理后的文本存儲(chǔ)于正文數(shù)據(jù)庫(kù)，與其頁(yè)面屬性共同組成初步過(guò)濾后的新聞文檔集合。
(14)正文提取模塊對(duì)于正文數(shù)據(jù)庫(kù)中的每篇新聞文檔提取標(biāo)題和導(dǎo)語(yǔ)，所述導(dǎo)語(yǔ)是標(biāo)題的擴(kuò)展，它是結(jié)合新聞報(bào)道的文本長(zhǎng)度及內(nèi)容特征進(jìn)行裁剪得到的，在長(zhǎng)新聞報(bào)道正文文本中所選取的導(dǎo)語(yǔ)至多為前兩個(gè)自然段，由此實(shí)現(xiàn)對(duì)提取正文后整篇報(bào)道的先行裁剪。步驟2，文本表示單元采用改進(jìn)的文本特征權(quán)值計(jì)算方法對(duì)每篇新聞文檔進(jìn)行向量化處理，形成文本特征值矩陣。該步驟包括下列操作內(nèi)容(21)分詞及詞性標(biāo)注模塊執(zhí)行正文預(yù)處理根據(jù)現(xiàn)有的分詞詞典和停用詞詞典，進(jìn)行包括分詞、詞性標(biāo)注的操作，以便從每篇新聞文檔中初步篩選出相對(duì)有效的詞語(yǔ)，即特征詞，并存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。(22)命名實(shí)體識(shí)別模塊從分詞和詞性標(biāo)注后的文本中，將描述突發(fā)事件特征的包括時(shí)間、地點(diǎn)、機(jī)構(gòu)和人物的標(biāo)識(shí)性詞語(yǔ)，作為特征詞提取出來(lái)，并保存于特征向量數(shù)據(jù)庫(kù)中。(23)詞性/停用詞過(guò)濾模塊繼續(xù)進(jìn)行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒(méi)有實(shí)際語(yǔ)義的詞語(yǔ)，再根據(jù)停用詞表篩選出能在某種程度與反映熱點(diǎn)話題內(nèi)容相關(guān)的詞語(yǔ)，并將其保存于特征向量數(shù)據(jù)庫(kù)中。(24)特征權(quán)值計(jì)算模塊是基于改進(jìn)的特征權(quán)值計(jì)算模型，對(duì)經(jīng)過(guò)上述三個(gè)模塊處理而形成的新聞文檔集合進(jìn)行向量化處理，將每篇新聞報(bào)道文檔對(duì)應(yīng)一個(gè)特征向量，最終形成文檔特征權(quán)值矩陣。該步驟中的文檔特征權(quán)值的計(jì)算包括下列操作內(nèi)容(24A)先用特征向量空間D=W^d2,…d」，…d|D|}表示全部新聞文檔集合，式中，D為該特征向量空間中的元素總數(shù),即文檔總數(shù)量；每個(gè)特征向量dj=、.,w2j, ---Wi1Ij)表
示序號(hào)為j的文檔，Wij e [O, I]表示序號(hào)為j的文檔中第i個(gè)特征詞的權(quán)值，自然數(shù)序號(hào)I和j的最大值分別為111和N，即文檔總數(shù)為N，全部文檔中的特征詞集合或特征詞總數(shù)為I，也就是111為該特征詞集合的度；tfij=tf (ti; dj)表示特征詞ti在文檔dj中出現(xiàn)的頻率，Hi表示全部文檔中包含特征ti的文檔數(shù)。(24B)采用改進(jìn)的文本特征權(quán)值計(jì)算模型中的第一個(gè)計(jì)算公式
■
w =(l + log2^)xlog2—父,+~計(jì)算得到每個(gè)特征詞的權(quán)值；式中，位置因子
Kj
Pij=Position (t^dj)表示特征詞h在文檔d」中的出現(xiàn)位置若位于標(biāo)題，則Pfa ;若位于導(dǎo)語(yǔ)，則Pfb ;若ti位于正文,則Pij=O,且a, b e [O, I];實(shí)體因子Eij=Entity (ti; d」)表示由命名實(shí)體識(shí)別模塊識(shí)別的包括時(shí)間、地點(diǎn)、人物和機(jī)構(gòu)的特征詞的附加權(quán)值若\在dj中是命名實(shí)體名詞，則Eij=I ;否則，即&在dj中不是命名實(shí)體名詞，則Eij=O ； (l+log^fij)
為詞頻權(quán)值因子權(quán)利要求
1.一種突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置，其特征在于該裝置設(shè)有下述四個(gè)組成部件文本獲取單元、文本表示單元、話題聚類單元和話題評(píng)估單元，其中文本獲取單元，用于發(fā)生突發(fā)事件后，從各大新聞網(wǎng)站采集與該突發(fā)事件熱點(diǎn)話題相關(guān)的新聞報(bào)道頁(yè)面并進(jìn)行文本處理，形成一組新聞文檔集合存儲(chǔ)于正文數(shù)據(jù)庫(kù)，以供文本表示、話題聚類和話題評(píng)估三個(gè)單元進(jìn)行后續(xù)處理；設(shè)有頁(yè)面爬取、正文提取和頁(yè)面屬性提取三個(gè)模塊，以及爬取信息數(shù)據(jù)庫(kù)與正文數(shù)據(jù)庫(kù)；文本表示單元，用于完成文檔的向量化處理利用改進(jìn)的文本特征權(quán)值計(jì)算方法建立數(shù)學(xué)模型并進(jìn)行計(jì)算，以形成文本特征權(quán)值矩陣；設(shè)有分詞及詞性標(biāo)注、命名實(shí)體識(shí)別、詞性/停用詞過(guò)濾、特征權(quán)值計(jì)算和特征選擇共五個(gè)模塊，以及分詞詞典和停用詞表兩個(gè)數(shù)據(jù)庫(kù)；話題聚類單元，負(fù)責(zé)對(duì)來(lái)自前述單元的特征詞進(jìn)行聚類處理將描述相同話題的文檔進(jìn)行聚合，組成多個(gè)被稱為簇的子集，使得每個(gè)簇中的各個(gè)文檔之間相似性強(qiáng)，而簇間各文檔的相似性弱；再用每個(gè)簇中特征權(quán)值最高的2飛個(gè)詞語(yǔ)描述一個(gè)話題，得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題；設(shè)有文檔相似性計(jì)算模塊和文檔聚類模塊；話題評(píng)估單元，負(fù)責(zé)對(duì)突發(fā)事件發(fā)生后設(shè)定時(shí)間內(nèi)人們關(guān)注的若干話題進(jìn)行熱度評(píng)估，并按照評(píng)估值大小對(duì)熱點(diǎn)話題進(jìn)行降序排序，為迅速把握后續(xù)的重要事件和研究話題的演化規(guī)律提供基礎(chǔ)；設(shè)有網(wǎng)絡(luò)特征計(jì)算、熱度評(píng)估、話題排序三個(gè)模塊和特征向量數(shù)據(jù)庫(kù)。
2.根據(jù)權(quán)利要求I所述的裝置，其特征在于，所述文本獲取單元中的各個(gè)模塊和數(shù)據(jù)庫(kù)的功能如下頁(yè)面爬取模塊，負(fù)責(zé)從指定網(wǎng)站下載與預(yù)設(shè)關(guān)鍵詞相關(guān)的新聞報(bào)道頁(yè)面，并將該新聞報(bào)道頁(yè)面以頁(yè)面文件形式存儲(chǔ)在本地磁盤(pán)上；正文提取模塊，負(fù)責(zé)從本地磁盤(pán)讀取爬取后的頁(yè)面文件，并利用該正文提取模塊中的正文提取算法對(duì)每篇頁(yè)面文件去除噪聲、提取新聞?wù)模男侣務(wù)闹蟹蛛x出導(dǎo)語(yǔ)和其余部分，再對(duì)實(shí)際文本長(zhǎng)度進(jìn)行剪裁，將剪裁后的新聞文檔存儲(chǔ)于正文數(shù)據(jù)庫(kù)中，然后根據(jù)報(bào)道源的不同在正文數(shù)據(jù)庫(kù)中建立索引，以使邏輯上形成不同數(shù)據(jù)源所對(duì)應(yīng)的一組正文集; 頁(yè)面屬性提取模塊，用于從本地磁盤(pán)讀取爬取后的頁(yè)面文件，并提取每篇新聞報(bào)道特有的包括標(biāo)題、報(bào)道時(shí)間和報(bào)道源的屬性，以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的包括該話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的網(wǎng)絡(luò)特征屬性，再存儲(chǔ)于正文數(shù)據(jù)庫(kù)中；爬取信息數(shù)據(jù)庫(kù)，用于存儲(chǔ)頁(yè)面爬取模塊所需的配置信息；正文數(shù)據(jù)庫(kù)，用于存儲(chǔ)新聞報(bào)道處理后的正文和頁(yè)面屬性信息。
3.根據(jù)權(quán)利要求I所述的裝置，其特征在于所述文本表示單元中的各個(gè)模塊和數(shù)據(jù)庫(kù)的功能如下分詞及詞性標(biāo)注模塊，負(fù)責(zé)采用中科院漢語(yǔ)詞法分析系統(tǒng)ICTCLAS中文分詞系統(tǒng)，對(duì)存儲(chǔ)在正文數(shù)據(jù)庫(kù)中的每篇新聞報(bào)道的新聞文檔進(jìn)行分詞和詞性標(biāo)注，再將處理結(jié)果暫存于話題評(píng)估單元中的特征向量數(shù)據(jù)庫(kù)中；命名實(shí)體識(shí)別模塊，用于針對(duì)分詞后的新聞文檔，將其中描述突發(fā)事件特征的標(biāo)識(shí)性詞語(yǔ)、即包括時(shí)間、地點(diǎn)、機(jī)構(gòu)和人物的關(guān)鍵信息提取出來(lái)，并保存于特征向量數(shù)據(jù)庫(kù)中；詞性/停用詞過(guò)濾模塊，用于對(duì)分詞及詞性標(biāo)注后的新聞文檔中的詞語(yǔ)繼續(xù)進(jìn)行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒(méi)有實(shí)際語(yǔ)義的詞語(yǔ)，再根據(jù)停用詞表篩選出能夠在某種程度與熱點(diǎn)話題內(nèi)容相關(guān)的詞語(yǔ)，并將其保存于特征向量數(shù)據(jù)庫(kù)中；特征權(quán)值計(jì)算模塊，使用基于向量空間模型改進(jìn)的特征權(quán)值計(jì)算模型，對(duì)每篇新聞文檔中經(jīng)過(guò)上述三個(gè)模塊處理而形成的詞語(yǔ)集合進(jìn)行向量化表示，形成特征權(quán)值矩陣并存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中；該特征權(quán)值矩陣的行和列分別表示各個(gè)新聞文檔及其對(duì)應(yīng)的不同文本的特征權(quán)值；特征選擇模塊，利用現(xiàn)有的特征抽取和屬性約簡(jiǎn)算法對(duì)特征詞進(jìn)行篩選保留其中反映突發(fā)事件信息屬性的重要特征詞，剔除相對(duì)無(wú)用的特征詞；然后，將保留的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中；分詞詞典數(shù)據(jù)庫(kù)，以數(shù)據(jù)庫(kù)形式存儲(chǔ)用于分詞的中文詞語(yǔ)信息；停用詞表數(shù)據(jù)庫(kù)，以數(shù)據(jù)庫(kù)形式存儲(chǔ)用于詞性過(guò)濾和停用詞過(guò)濾的中文詞語(yǔ)。
4.根據(jù)權(quán)利要求I所述的裝置，其特征在于所述話題聚類單元中的兩個(gè)模塊功能如下文檔相似性計(jì)算模塊，采用向量夾角的余弦值計(jì)算公式計(jì)算得到文本表示單元中的特征權(quán)值矩陣中各行所表示的各個(gè)新聞文檔之間的相似度，并將各個(gè)新聞文檔相似度值存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中；文檔聚類模塊，采用改進(jìn)的聚類算法對(duì)相似度值高的文檔進(jìn)行分組聚類將描述相同話題的相似文檔進(jìn)行聚合，組成多個(gè)被稱為簇的子集，同時(shí)根據(jù)文本特征權(quán)值的大小提取2^5個(gè)特征詞作為描述該簇的數(shù)據(jù)，并將提取的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。
5.根據(jù)權(quán)利要求I所述的裝置，其特征在于所述話題評(píng)估單元中的各個(gè)模塊和數(shù)據(jù)庫(kù)的功能如下網(wǎng)絡(luò)特征計(jì)算模塊，用于從正文數(shù)據(jù)庫(kù)和來(lái)自話題聚類單元的特征向量數(shù)據(jù)庫(kù)中提取并計(jì)算與熱點(diǎn)話題關(guān)注度相關(guān)的包括該話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的各個(gè)網(wǎng)絡(luò)特征屬性；熱度評(píng)估模塊，用于根據(jù)網(wǎng)絡(luò)特征計(jì)算模塊計(jì)算得到的各個(gè)網(wǎng)絡(luò)特征屬性，建立熱點(diǎn)話題的熱度評(píng)估函數(shù)，并據(jù)此計(jì)算突發(fā)事件中每個(gè)話題在設(shè)定時(shí)間內(nèi)的熱度值；話題排序模塊，負(fù)責(zé)依據(jù)熱度評(píng)估模塊處理后的熱點(diǎn)話題的熱度值的大小，對(duì)其進(jìn)行降序排序，以2飛個(gè)特征詞描述一個(gè)熱點(diǎn)話題的方式進(jìn)行展現(xiàn)，同時(shí)將排序結(jié)果數(shù)據(jù)存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中；特征向量數(shù)據(jù)庫(kù)，用于分別存儲(chǔ)文本表示單元中各模塊的處理結(jié)果、話題聚類單元中各模塊的處理結(jié)果和話題評(píng)估單元中各模塊的處理結(jié)果。
6.一種采用權(quán)利要求I所述的突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置的工作方法，其特征在于所述方法包括下列操作步驟 (1)文本獲取單元獲取設(shè)定事件的新聞報(bào)道頁(yè)面，再?gòu)呐廊〉膱?bào)道頁(yè)面中提取標(biāo)題、報(bào)道時(shí)間、報(bào)道源，以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征作為頁(yè)面屬性，并對(duì)該報(bào)道頁(yè)面進(jìn)行篩選、解析、提取和剪裁新聞?wù)牡牟僮?，形成新聞文檔集合； (2)文本表示單元采用改進(jìn)的文本特征權(quán)值計(jì)算方法對(duì)每篇新聞文檔進(jìn)行向量化處理，形成文本特征值矩陣； (3)話題聚類單元對(duì)設(shè)定特征詞對(duì)應(yīng)的文本特征值矩陣進(jìn)行聚合處理將話題相同的相似文檔聚合，組成多個(gè)簇，使得每個(gè)簇中的各文檔相似性強(qiáng)，而不同簇的各文檔相似性弱；再用每個(gè)簇中特征權(quán)值最高的2飛個(gè)特征詞描述一個(gè)話題，得到突發(fā)事件發(fā)生后設(shè)定時(shí)間段內(nèi)人們關(guān)注的若干個(gè)話題； (4)話題評(píng)估單元對(duì)話題進(jìn)行熱度評(píng)估在已獲取了突發(fā)事件發(fā)生后人們關(guān)注的若干個(gè)話題基礎(chǔ)上，對(duì)這些話題進(jìn)行熱度評(píng)估和排序，為把握重要事件后續(xù)發(fā)展和研究話題的演化提供基礎(chǔ)。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于所述步驟(I)包括下列操作內(nèi)容 (11)頁(yè)面爬取模塊根據(jù)用戶預(yù)設(shè)的統(tǒng)一資源定位符URL地址和其它參數(shù)，通過(guò)頁(yè)面爬取程序下載設(shè)定突發(fā)事件的新聞報(bào)道頁(yè)面，并將這些報(bào)道頁(yè)面以頁(yè)面文件形式自動(dòng)存儲(chǔ)于本地磁盤(pán)的文件夾； (12)頁(yè)面屬性提取模塊讀取爬取后的頁(yè)面文件，并從中提取每篇新聞報(bào)道包括標(biāo)題、報(bào)道時(shí)間和報(bào)道源的頁(yè)面屬性，以及與后續(xù)熱點(diǎn)話題關(guān)注度計(jì)算相關(guān)的網(wǎng)絡(luò)特征，所述網(wǎng)絡(luò)特征包括報(bào)道頻率、報(bào)道源數(shù)量、報(bào)道時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)，然后將提取的頁(yè)面屬性保存在正文數(shù)據(jù)庫(kù)中； (13)正文提取模塊利用正文提取算法對(duì)爬取后的頁(yè)面集合逐個(gè)進(jìn)行頁(yè)面的篩選、解析、提取和剪裁正文的操作，并將處理后的文本存儲(chǔ)于正文數(shù)據(jù)庫(kù)，與其頁(yè)面屬性共同組成初步過(guò)濾后的新聞文檔集合； (14)正文提取模塊對(duì)于正文數(shù)據(jù)庫(kù)中的每篇新聞文檔提取標(biāo)題和導(dǎo)語(yǔ)，所述導(dǎo)語(yǔ)是標(biāo)題的擴(kuò)展，它是結(jié)合新聞報(bào)道的文本長(zhǎng)度及內(nèi)容特征進(jìn)行裁剪得到的，在長(zhǎng)新聞報(bào)道正文文本中所選取的導(dǎo)語(yǔ)至多為前兩個(gè)自然段，由此實(shí)現(xiàn)對(duì)提取正文后整篇報(bào)道的先行裁剪。
8.根據(jù)權(quán)利要求6所述的方法，其特征在于所述步驟(2)包括下列操作內(nèi)容 (21)分詞及詞性標(biāo)注模塊執(zhí)行正文預(yù)處理根據(jù)現(xiàn)有的分詞詞典和停用詞詞典，進(jìn)行包括分詞、詞性標(biāo)注的操作，以便從每篇新聞文檔中初步篩選出相對(duì)有效的詞語(yǔ)，即特征詞，并存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中； (22)命名實(shí)體識(shí)別模塊從分詞和詞性標(biāo)注后的文本中，將描述突發(fā)事件特征的包括時(shí)間、地點(diǎn)、機(jī)構(gòu)和人物的標(biāo)識(shí)性詞語(yǔ)，作為特征詞提取出來(lái)，并保存于特征向量數(shù)據(jù)庫(kù)中； (23)詞性/停用詞過(guò)濾模塊繼續(xù)進(jìn)行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒(méi)有實(shí)際語(yǔ)義的詞語(yǔ)，再根據(jù)停用詞表篩選出能在某種程度與反映熱點(diǎn)話題內(nèi)容相關(guān)的詞語(yǔ)，并將其保存于特征向量數(shù)據(jù)庫(kù)中； (24)特征權(quán)值計(jì)算模塊是基于改進(jìn)的特征權(quán)值計(jì)算模型，對(duì)經(jīng)過(guò)上述三個(gè)模塊處理而形成的新聞文檔集合進(jìn)行向量化處理，將每篇新聞報(bào)道文檔對(duì)應(yīng)一個(gè)特征向量，最終形成文檔特征權(quán)值矩陣； (25)特征選擇模塊利用現(xiàn)有的特征抽取和屬性約簡(jiǎn)算法對(duì)特征詞繼續(xù)進(jìn)行篩選，以降低文檔特征權(quán)值矩陣的復(fù)雜度保留其中反映突發(fā)事件信息屬性的重要特征詞，剔除相對(duì)無(wú)用的特征詞；再將保留的特征詞存儲(chǔ)于特征向量數(shù)據(jù)庫(kù)中。
9.根據(jù)權(quán)利要求8所述的方法，其特征在于所述步驟(24)中的文檔特征權(quán)值的計(jì)算包括下列操作內(nèi)容(24A)先用特征向量空間D=WDdfdfdll^表示全部新聞文檔集合，式中，|D|為該特征向量空間中的元素總數(shù)，即文檔總數(shù)量；每個(gè)特征向量dj= (Wlj, W2j,…Wlllj)表示序號(hào)為j的文檔，Wij e [O, I]表示序號(hào)為j的文檔中第i個(gè)特征詞的權(quán)值，自然數(shù)序號(hào)i和j的最大值分別為111和N，即文檔總數(shù)為N，全部文檔中的特征詞集合或特征詞總數(shù)為I，也就是111為該特征詞集合的度；tfij=tf (ti； dj)表示特征詞ti在文檔dj中出現(xiàn)的頻率,rii表示全部文檔中包含特征ti的文檔數(shù)； (24B)采用改進(jìn)的文本特征權(quán)值計(jì)算模型中的第一個(gè)計(jì)算公式
10.根據(jù)權(quán)利要求6所述的方法，其特征在于所述步驟(3)包括下列操作內(nèi)容 (31)計(jì)算兩個(gè)文檔間的距離文檔相似性計(jì)算模塊從文檔向量空間D=W1, d2,…dj，…(!㈣}中隨機(jī)選擇k個(gè)文檔作為初始的聚類中心C=Ic1, C2,…Ci,…ck},再計(jì)算每個(gè)文檔dj與每個(gè)初始聚類中心Ci的相似度Sim (dj, Ci)
11.根據(jù)權(quán)利要求6所述的方法，其特征在于所述步驟(4)包括下列操作內(nèi)容 (41)計(jì)算網(wǎng)絡(luò)特征，建立熱點(diǎn)話題的熱度評(píng)估函數(shù)，并據(jù)此計(jì)算突發(fā)事件中每個(gè)話題在設(shè)定時(shí)間內(nèi)的整體熱度值，用于判斷系統(tǒng)識(shí)別出的話題能否成立先定義和量化話題在設(shè)定時(shí)間段內(nèi)的熱度屬性網(wǎng)絡(luò)特征計(jì)算模塊根據(jù)步驟(I)提取的與熱點(diǎn)話題關(guān)注度相關(guān)的包括話題的報(bào)道頻率、報(bào)道源數(shù)量、時(shí)間跨度、用戶點(diǎn)擊率和評(píng)論數(shù)的網(wǎng)絡(luò)特征，采用三種評(píng)估算法分別計(jì)算話題的時(shí)間屬性、報(bào)道屬性和用戶關(guān)注度屬性； (42)根據(jù)熱度評(píng)估計(jì)算公式計(jì)算話題熱度值根據(jù)對(duì)話題熱度屬性的分析，得到設(shè)定時(shí)間段Ui內(nèi)突發(fā)事件中話題h的熱度評(píng)估計(jì)算公式Hh(Ui)為
12.根據(jù)權(quán)利要求11所述的方法，其特征在于所述步驟(41)中，計(jì)算話題熱度屬性值的三種評(píng)估算法包括下列操作內(nèi)容 (41Α)計(jì)算話題的時(shí)間屬性基于話題熱度的時(shí)間衰減性，每個(gè)話題h在設(shè)定時(shí)間段Ui的時(shí)間屬性包括時(shí)間跨度I (Ui)和指數(shù)衰減因子其中，自然數(shù)I(Ui)表示所統(tǒng)計(jì)的時(shí)間段Ui中的時(shí)間單元數(shù)，時(shí)間單元為小時(shí)、日、周或月；系數(shù)λ (λ >0)是控制時(shí)間段衰減的速度因子；fili )(41B)計(jì)算話題的報(bào)道屬性設(shè)話題h的報(bào)道時(shí)間段為七時(shí)，該話題h的報(bào)道頻率^是該話題h的報(bào)道數(shù)量f (Ui)與這段時(shí)間全部報(bào)道總數(shù)F(Ui)之比，報(bào)道廣度^■是該話 ( ,)題h的報(bào)道源數(shù)量g(Ui)與這段時(shí)間內(nèi)總報(bào)道源數(shù)量G(Ui)之比，在設(shè)定時(shí)間段內(nèi)，話題報(bào)道數(shù)量越多，表明該話題越重要，關(guān)注程度及其報(bào)道頻度越高，同時(shí)該話題的報(bào)道廣度也越大；(41C)計(jì)算話題的用戶關(guān)注度利用用戶點(diǎn)擊閱讀數(shù)C(Ui)和評(píng)論參與數(shù)(Kui)反映用戶的關(guān)注度，且參與評(píng)論數(shù)對(duì)話題成為熱點(diǎn)的貢獻(xiàn)度更高；即用戶的點(diǎn)擊閱讀率In # Ui11,K或評(píng)論參與率^數(shù)值越高，說(shuō)明該新聞報(bào)道涉及的話題受到用戶的關(guān)注度越大。
Kni)
全文摘要
一種突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置和方法，該裝置設(shè)有文本獲取、文本表示、話題聚類和話題評(píng)估共四個(gè)單元組成部件，本發(fā)明創(chuàng)新特點(diǎn)是對(duì)新聞報(bào)道正文的裁剪只提取標(biāo)題、導(dǎo)語(yǔ)及相關(guān)特征等信息，就將其作為熱點(diǎn)話題識(shí)別的有效樣本集；與現(xiàn)有的全文提取進(jìn)行對(duì)比實(shí)驗(yàn)的結(jié)果表明，兩者的結(jié)果相近似，但本發(fā)明操作大大簡(jiǎn)化。還使用改進(jìn)的特征權(quán)值計(jì)算模型，與經(jīng)典模型比較，前者的執(zhí)行效率更好和文本表示能力適應(yīng)性更強(qiáng)。對(duì)聚類出的話題利用模型評(píng)估熱度值，所計(jì)算出的熱點(diǎn)話題符合預(yù)期效果，更適應(yīng)于突發(fā)事件新聞報(bào)道的特征?？傊?，本發(fā)明裝置和方法在處理突發(fā)事件新聞報(bào)道文本過(guò)程中，其計(jì)算復(fù)雜度、結(jié)果準(zhǔn)確性和實(shí)時(shí)性方面都具有良好性能。
文檔編號(hào)G06F17/30GK102937960SQ201210327979
公開(kāi)日2013年2月20日申請(qǐng)日期2012年9月6日優(yōu)先權(quán)日2012年9月6日
發(fā)明者陳莉萍, 杜軍平, 宋茂強(qiáng) 申請(qǐng)人:北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳莉萍;杜軍平;宋茂強(qiáng)
技術(shù)所有人：北京郵電大學(xué)
我是此專利的發(fā)明人

上一篇：帶usb集線器的鼠標(biāo)墊的制作方法
上一篇：電子控制驅(qū)動(dòng)器件的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

突發(fā)事件風(fēng)險(xiǎn)評(píng)估報(bào)告相關(guān)技術(shù)

化工裝置開(kāi)車風(fēng)險(xiǎn)評(píng)估相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

突發(fā)事件熱點(diǎn)話題的識(shí)別與評(píng)估裝置和方法