国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種實時多角度網(wǎng)絡(luò)熱點事件分析裝置及分析方法

      文檔序號:6483461閱讀:379來源:國知局

      專利名稱::一種實時多角度網(wǎng)絡(luò)熱點事件分析裝置及分析方法
      技術(shù)領(lǐng)域
      :本發(fā)明涉及的是一種利用計算機技術(shù)輔助網(wǎng)絡(luò)信息智能分析或輿情管理的技術(shù),其特別涉及利用自然語言處理和數(shù)據(jù)挖掘技術(shù)來發(fā)現(xiàn)網(wǎng)絡(luò)熱點事件的系統(tǒng)和方法,具體地講是一種支持從海量網(wǎng)絡(luò)信息中實時地、多角度地發(fā)現(xiàn)網(wǎng)絡(luò)熱點事件的系統(tǒng)和方法。(二)
      背景技術(shù)
      :網(wǎng)絡(luò)熱點事件發(fā)現(xiàn)是通過對目標網(wǎng)站信息的自動抓取、主題檢測來發(fā)現(xiàn)具有一定影響力的網(wǎng)絡(luò)話題,達到對網(wǎng)絡(luò)信息實施高效管理的目的。網(wǎng)絡(luò)熱點事件發(fā)現(xiàn)的基本思路是采用文本挖掘技術(shù)處理互聯(lián)網(wǎng)信息數(shù)據(jù)。目前國內(nèi)外在網(wǎng)絡(luò)熱點事件發(fā)現(xiàn)方面取得了較多的研究成果。Umass根據(jù)詞法特征自動生成多個分類器,并且每類事件由包含查詢語法和閾值的分類器來識別,最后根據(jù)標準化后的相似分值確定事件的類別歸屬(AllanJ,PapkaR.On-lineNewEventDetectionandTracking.IntheProceedingsofACMSIGIR1998.MelbourneAssociationforComputingMachineryPress,1998:37-45)。CMU使用Single-pass算法進行新事件的探測,Single-Pass算法雖然計算簡單、運算速度快,但它的探測性能過分依賴于新聞?wù)Z料的處理順序(SeoYW,SycamK.TextClusteringforTopicDetection.TechnicalReportCMU-RI-TR-04-03,RoboticsInstitue,CarnegieMellonUniversity,2004)。雷震等人提出一種改進的K均值算法(IIKM)用于熱點事件發(fā)現(xiàn),該算法使用密度函數(shù)法進行聚類中心的初始化以使客觀地選擇初始聚類中心,既可以用于在線探測也可以用于回溯探測,并且執(zhí)行結(jié)果受新聞?wù)Z料被處理順序的影響較小,主要應用于熱點新聞事件檢測(雷震,吳玲達,雷蕾等.初始化類中心的增量K均值法及其在新聞事件探測中的應用.情報學報ISSN1000-0135.2006,25(3):289-295頁)。RonPapka和JamesAllan提出利用Single-Pass聚類算法來實現(xiàn)在線新事件發(fā)現(xiàn)系統(tǒng)(RonPapkaandJamesAllan.On-LineNewEventDetectionusingSinglePassClustering.UMASSComputerScienceTechnicalReportUM-CS-1998-021,Amherst:DepartmentofComputer5Science,UniversityofMassachusetts,Amherst,1998)。GiridharKumaran禾口JamesAllan利用文本分類技術(shù)和命名實體識別技術(shù)來提高新事件(NewEventDetection)的識別率,提出一個基于多文檔表示的空間向量模型,首先創(chuàng)建三個文檔,第一個文檔只表示包含文檔中除了停用詞之外的所有特征項(JamesAllan,VictorLavrenko,andHubertJin.FirstStoryDetectionInTDTIsHard.InProceedingsoftheNinthInternationalConferenceonInformationandKnowledgeManagementCIKM.Washington:ACMPress,2000:374-381)。第二個文檔則僅含有命名實體,第三個文檔則僅含有非命名實體。當兩篇文章進行比較時,僅比較與之相應的文本表示。駱衛(wèi)華等人在傳統(tǒng)Single-Pass的基礎(chǔ)上提出分治多層聚類的思想,該算法旨將數(shù)據(jù)分組來減少大規(guī)模數(shù)據(jù)處理時系統(tǒng)負荷,在話題檢測領(lǐng)域取得了一定成果(駱衛(wèi)華,于滿泉,許洪波.基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究.全國第八屆計算語言學聯(lián)合學術(shù)會議(JSCL-2005)論文集,中國南京,2005:362-368)。邱立坤等人提出了層次化話題與層次聚類的概念,層次化聚類開始逐漸顯露出優(yōu)質(zhì)的聚類效果,并開始應用于事件檢測領(lǐng)域(邱立坤,龍志祎,鐘華.層次化話題發(fā)現(xiàn)與跟蹤方法及系統(tǒng)實現(xiàn).廣西師范大學學報(自然科學版).2007(02):157-160頁)。分析已有網(wǎng)絡(luò)熱點事件發(fā)現(xiàn)技術(shù)可以看出,實現(xiàn)網(wǎng)絡(luò)熱點事件發(fā)現(xiàn)的技術(shù)路線主要有兩條1.首先收集互聯(lián)網(wǎng)中發(fā)布的信息數(shù)據(jù)并存儲到本地,然后采用相關(guān)的數(shù)據(jù)挖掘技術(shù)對收集到的信息進行分析,發(fā)現(xiàn)其中包含的熱點事件。2.將收集互聯(lián)網(wǎng)發(fā)布的信息數(shù)據(jù)與熱點事件發(fā)現(xiàn)過程并行化,即在獲取數(shù)據(jù)的同時完成對已收集的數(shù)據(jù)進行分析和處理,形成初歩結(jié)果;利用后續(xù)到來的數(shù)據(jù)對初步結(jié)果進行調(diào)整。技術(shù)路線1的優(yōu)勢在于可以選擇一些較為優(yōu)秀的文本挖掘算法對收集的數(shù)據(jù)進行離線處理,得到較為優(yōu)化的結(jié)果;但是其最大的弱點在于離線處理的結(jié)果具有很強的時間滯后性,時效性很差。技術(shù)路線2目前受到越來越多的關(guān)注,其核心思想多是基于Single-pass聚類算法,該技術(shù)能滿足熱點事件實時發(fā)現(xiàn)需求,但分析結(jié)果還存在很多不足,主要體現(xiàn)在以下兩方面61.聚類質(zhì)量基于Single-pass算法的相關(guān)技術(shù)最大缺點是聚類結(jié)果受語料輸入順序影響的約束。該類技術(shù)在數(shù)據(jù)第一次被讀入時就確定其所屬類別,具有一定誤報率;并且類簇粒度可能會不均勻。此外,Single-pass采用的是增量聚類策略,隨著發(fā)現(xiàn)的事件數(shù)與相關(guān)文檔數(shù)量的不斷累積,最終會導致內(nèi)存資源耗盡。2.相似度比較策略目前TDT主要采用三種相似度比較策略single-link,average-link,complete-link。在與已歸類的數(shù)據(jù)進行比較時,single-link選擇各類中與當前數(shù)據(jù)相似度最高值作為當前數(shù)據(jù)與各類的相似度,average-link選擇當前數(shù)據(jù)與各類中所有數(shù)據(jù)相似度均值作為當前文章與各類的相似度,complete-link選擇各類中與當前數(shù)據(jù)相似度最小值作為當前數(shù)據(jù)與各類的相似度。無論是哪種相似度比較策略,進行比較時都涉及類中所有數(shù)據(jù)。如果當前的聚類結(jié)果中包含類的數(shù)量以及類內(nèi)樣本的數(shù)量都很大,導致比較次數(shù)成指數(shù)級增長,增加了計算復雜性。
      發(fā)明內(nèi)容本發(fā)明的目的在于提供一種能更為準確、全面地發(fā)現(xiàn)當前網(wǎng)絡(luò)中的熱點事件信息,為網(wǎng)絡(luò)智能信息處理與輿情分析提供技術(shù)支持的一種實時多角度網(wǎng)絡(luò)熱點事件分析裝置。本發(fā)明的目的還在于提供一種實時多角度網(wǎng)絡(luò)熱點事件分析方法。本發(fā)明的目的是這樣實現(xiàn)的本發(fā)明的實時多角度網(wǎng)絡(luò)熱點事件分析裝置的構(gòu)成包括網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置、網(wǎng)絡(luò)事件數(shù)據(jù)預處理裝置、事件中心處理裝置、熱點事件發(fā)現(xiàn)裝置和輸出裝置,其特征包括網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置用于實時地、主動地從互聯(lián)網(wǎng)獲取描述網(wǎng)絡(luò)事件的原始數(shù)據(jù),并進行存儲;網(wǎng)絡(luò)事件預處理裝置對網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置存儲下來的網(wǎng)絡(luò)事件描述原始數(shù)據(jù),遵照預定義的某種格式進行解析,過濾掉其中的噪音,提取出真正與網(wǎng)絡(luò)事件相關(guān)的核心數(shù)據(jù);此外,對核心數(shù)據(jù)進行特征定義和提取,并采用適當?shù)男问竭M行表達;事件中心處理裝置根據(jù)網(wǎng)絡(luò)事件預處理裝置得到的形式化數(shù)據(jù),采用適當?shù)牟呗赃M行組織,從而形成相關(guān)的事件中心描述;熱點事件發(fā)現(xiàn)裝置根據(jù)事件中心處理裝置得到的若干中心描述,處理后序到達的網(wǎng)絡(luò)事件數(shù)據(jù),將其歸并入相應的中心,當中心所包含的事件數(shù)量超過某一閾值,則表明其為熱點事件;輸出裝置將熱點事件發(fā)現(xiàn)裝置得到的若干熱點事件信息以適當?shù)男问竭M行展現(xiàn)。本發(fā)明的實時多角度網(wǎng)絡(luò)熱點事件分析裝置的構(gòu)成還可以包括1、所述的網(wǎng)絡(luò)事件數(shù)據(jù)預處理裝置包括網(wǎng)絡(luò)事件數(shù)據(jù)特征提取單元和特征權(quán)重計算單元,其特征包括網(wǎng)絡(luò)事件數(shù)據(jù)特征提取單元根據(jù)事先約定的特征規(guī)則處理網(wǎng)絡(luò)事件核心數(shù)據(jù),將其表示為若干相關(guān)特征的集合;特征權(quán)重計算單元針對網(wǎng)絡(luò)事件數(shù)據(jù)特征提取單元生成的特征集合,按照約定的計算方法得到其中每個特征的權(quán)重,并進行量化,便于后續(xù)計算。2、所述的事件中心處理裝置包括事件中心初始化單元、事件相似度計算單元和事件多中心生成單元,其特征包括事件中心初始化單元裝置初始化時,按照特定策略從得到的網(wǎng)絡(luò)事件數(shù)據(jù)中選擇某些事件作為初始中心;事件相似度計算單元針對后續(xù)到達的網(wǎng)絡(luò)事件數(shù)據(jù),將其與已有的事件中心按照特定的相似度策略進行計算,得到它們之間的相似度;事件多中心生成單元將事件相似度計算單元得到的相似度與事先約定的閾值進行比較,用于決定是將該事件歸入已有中心,還是建立新的事件中心?;诒景l(fā)明的實時多角度網(wǎng)絡(luò)熱點事件分析裝置的分析方法為本發(fā)明中的"事件初始中心"為關(guān)于同一事件、同一內(nèi)容的報道;"事件多中心"為討論同一事件不同階段不同角度的報道,即事件在不同階段的核心;"中心外延"為各個核心事件的相關(guān)報道;分析方法包括以下歩驟網(wǎng)絡(luò)事件信息采集步驟,用于獲取當前發(fā)表在互聯(lián)網(wǎng)上、描述事件內(nèi)容的新聞報道數(shù)據(jù);8網(wǎng)絡(luò)事件發(fā)現(xiàn)步驟,采用適當?shù)奈谋揪垲惙椒▽Σ杉降男侣剤蟮罃?shù)據(jù)進行處理,發(fā)現(xiàn)當前互聯(lián)網(wǎng)上存在的若干網(wǎng)絡(luò)事件;網(wǎng)絡(luò)事件中心初始化步驟,選用每個事件類的第一篇新聞報道作為該事件的初始中心,并在此基礎(chǔ)上實施多中心策略;網(wǎng)絡(luò)事件相似度比較步驟,將初始中心后面收到的新聞報道與初始中心進行相似度比較,如果相似度超過預定義閾值,則將該報道判為屬于該中心下的事件;網(wǎng)絡(luò)事件多中心生成步驟,比較后續(xù)事件與初始中心相關(guān)屬性,主要包括時間、地點和人物的變化,當變化程度超過預定義閾值,則產(chǎn)生新的事件中心,以此類推,直至所有該類事件處理完畢;熱點事件輸出步驟,用于輸出以多中心形式表達的網(wǎng)絡(luò)熱點事件信息,包括新聞報道標題和詳細內(nèi)容。本發(fā)明的有益效果在于,通過本發(fā)明可以實時發(fā)現(xiàn)目前發(fā)布到互聯(lián)網(wǎng)上的熱點事件信息,并且從多個角度展現(xiàn)該事件的發(fā)展過程,以幫助網(wǎng)絡(luò)管理人員能夠更為全面地了解網(wǎng)絡(luò)熱點事件的態(tài)勢。本發(fā)明的實施不依賴于網(wǎng)絡(luò)事件出現(xiàn)的先后順序,同時基于多中心事件模型可以大大降低計算和存儲開銷。本發(fā)明可廣泛應用于網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)智能信息處理等應用領(lǐng)域。(四)圖1是本發(fā)明裝置的系統(tǒng)結(jié)構(gòu)框圖2是一個實時多角度網(wǎng)絡(luò)熱點事件分析方法的詳細流程圖;圖3是實施發(fā)明的典型應用環(huán)境;圖4是網(wǎng)絡(luò)熱點事件展現(xiàn)界面。具體實施方式下面結(jié)合附圖舉例對本發(fā)明做更詳細地描述圖1所示為一種實時多角度網(wǎng)絡(luò)事件熱點發(fā)現(xiàn)系統(tǒng),包括網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置,用于輸入與某事件相關(guān)的原始內(nèi)容信息;網(wǎng)絡(luò)事件數(shù)據(jù)預處理裝置,用于處理網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置收集到的原始事件數(shù)據(jù),將其轉(zhuǎn)換為適合本系統(tǒng)處理的數(shù)據(jù)表示形式;事件中心處理裝置,用于處理網(wǎng)絡(luò)事件數(shù)據(jù)預處理裝置的輸出結(jié)果,分析其9中的事件特征,形成事件的多中心模型;熱點事件發(fā)現(xiàn)裝置;在事件中心處理裝置處理結(jié)果的基礎(chǔ)上,對后續(xù)的網(wǎng)絡(luò)事件與事件中心進行比較,以確定該事件是否為當前熱點事件;輸出裝置用于輸出系統(tǒng)所發(fā)現(xiàn)的熱點事件詳細信息,包括事件的標題,以及事件的詳細內(nèi)容。所述的網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置可以是網(wǎng)絡(luò)爬蟲,也可以是由管理員通過手工實現(xiàn)。所述的輸出裝置可以將發(fā)現(xiàn)的網(wǎng)絡(luò)熱點事件輸出到個人計算機等其他的信息處理裝置及存儲裝置中。圖2給出了實時多角度網(wǎng)絡(luò)熱點事件發(fā)現(xiàn)方法的原理流程圖。1.網(wǎng)絡(luò)事件數(shù)據(jù)的收集網(wǎng)絡(luò)新聞事件的特點是核心報道通常被各大網(wǎng)站所轉(zhuǎn)載,有時核心報道不只一篇,即在某一時刻該事件已經(jīng)出現(xiàn)不同側(cè)面的報道。網(wǎng)頁到來的先后順序即代表著該網(wǎng)頁的中心度。為了能夠提取事件的多中心,本發(fā)明利用網(wǎng)絡(luò)爬蟲以增量方式采集網(wǎng)絡(luò)新聞報道數(shù)據(jù)。具體采集過程是基于廣度優(yōu)先策略,默認采集深度是三層。在這種策略下,爬蟲首先采集實現(xiàn)指定種子頁面中的新聞報道,然后采集該頁面中相關(guān)鏈接所指向頁面中的相關(guān)數(shù)據(jù),以此類推,直至全部采集完畢。2.網(wǎng)絡(luò)事件數(shù)據(jù)預處理本發(fā)明采用向量空間模型作為網(wǎng)絡(luò)事件的形式化描述,網(wǎng)絡(luò)事件數(shù)據(jù)向量化包括如下步驟-(1)利用分詞詞典對網(wǎng)絡(luò)事件數(shù)據(jù)進行分詞處理,提取其中的實詞,去掉虛詞和停用詞;(2)采用TF-IDF方法確定分詞后的每個詞的權(quán)重,TF-IDF的計算方法如下式rF,《,d)iog(+0.01)(3)由每個詞的權(quán)重作為分量,形成該網(wǎng)絡(luò)事件的向量表示。3.事件多中心形,10本發(fā)明選取每個類中的第一篇文章作為初始中心,根據(jù)網(wǎng)絡(luò)新聞事件的拓撲關(guān)系以及采集策略的約束條件可知,這是合理的。其余事件中心,即多中心的選取是在初始中心的基礎(chǔ)上進行的。根據(jù)事件中心的定義可知,通常只有與事件相關(guān)屬性發(fā)生變化了才會出現(xiàn)第二中心乃至甚至更多的中心。事件主要屬性包括時間、地點和人物(當然還包括其它因素,由于影響力較小不作討論)。若事件主要都未發(fā)生變化,可以理解為該事件還駐留在初始中心,這時只要定期提取出事件在不同時間段的事件模板與已有事件中心進行比較,如果新模板與舊模板在某個事件因素上發(fā)生了變化,當事件的某一屬性或?qū)傩缘慕M合發(fā)生變化,則選取該篇報道作為該事件的下一個中心,后續(xù)中心的選取依此法進行。4.相似度比較策略由于本發(fā)明采用了事件的多中心描述方式,事件間的相似度比較方法也要進行相應的調(diào)整。這里在多中心事件結(jié)構(gòu)的基礎(chǔ)上對single-link策略進行了改進。即確定事件多中心后,在進行相似度比較時,只需得出新收集的新聞報道與類內(nèi)每個中心的相似度最大值作為當前文章與各類的相似度。對于多中心相似度比較策略來講,準確選擇出中心是極為重要的問題。本發(fā)明通過規(guī)定相似度閾值的方式總結(jié)事件中心,這里設(shè)定了三個閾值重復度閾值、事件中心閾值和新事件閾值。當采集新聞報道過程中,新來的報道先與當前事件中心比較,如果該文檔與某事件的初始中心相似度大于重復度閾值(系統(tǒng)中為0.9),本發(fā)明認為該報道與各大網(wǎng)站轉(zhuǎn)載的核心內(nèi)容重復,判別結(jié)果為屬于該事件,但不作為事件中心;如果相似度在一定范圍內(nèi)(假設(shè)為0.40.5),該報道是關(guān)于這個話題的討論不同側(cè)面的另一個核心文章,標識為該事件的第二個中心,以此類推形成多個中心的層次化的聚類結(jié)果。如果相似度小于新事件閾值(假設(shè)為0.3),為該篇文章新建一個類,該報道為該事件的初始中心。由于事件采用向量空間模型來描述,因此事件與中心采用下式進行相似度計算Sim(D,T"5.實施例場景與結(jié)果描述11為了驗證本發(fā)明的有效性,我們搭建了典型應用環(huán)境,圖3為實施例的典型應用環(huán)境。實驗采用AMDOPTERON2G的曙光服務(wù)器,操作系統(tǒng)為2.6.16.19內(nèi)核的Linux企業(yè)版。實驗中所采用的詞典為190682篇各類網(wǎng)絡(luò)文章訓練后去掉了停用詞而得到的詞典,根據(jù)訓練中獲得的特征詞的TF-IDF權(quán)值對詞典進行了進一步的篩選,最終保留了10214個特征詞。實驗針對的是本發(fā)明提出的改進Single-pass技術(shù),及對事件多中心的支持,采用新聞報道網(wǎng)頁作為測試數(shù)據(jù)。測試數(shù)據(jù)選取了人工收集的網(wǎng)絡(luò)中IO個主題類別的網(wǎng)頁作為測試數(shù)據(jù)集,IO個主題類別分別是NBA、巴以沖突、北京200S奧運會、朝核問題、大學生就業(yè)、教育亂收費、美伊戰(zhàn)爭、人民幣升值、娛樂圈潛規(guī)則和中國載人航天。對于每一個主題類別,數(shù)據(jù)收集人員分別從若干個不同網(wǎng)站的網(wǎng)絡(luò)新聞報道中收集了100篇網(wǎng)頁的HTML源代碼,10個類別共計1000篇。表l給出了具體技術(shù)參數(shù)。表l具體技術(shù)參數(shù)<table>tableseeoriginaldocumentpage12</column></row><table>表2給出了熱點事件發(fā)現(xiàn)結(jié)果。表2熱點事件發(fā)現(xiàn)結(jié)果<table>tableseeoriginaldocumentpage13</column></row><table>這里采用了評價標準中的漏檢率和錯檢率以及耗費函數(shù)對測試結(jié)果進行打分,其中令尸(W)《02,C,s=C/a=1.0,最后得出新聞事件發(fā)現(xiàn)中漏檢率10.2%,誤檢率為0.012%,耗費函數(shù)值為0.002。其中結(jié)果中還有兩個沒在十大話題中,各自成為了一個小類,究其原因發(fā)現(xiàn)這兩個小類中的文檔距離其應該歸屬的類的相似度距離較遠,與人工采集時的類內(nèi)準確率有直接關(guān)系。圖4描述了本發(fā)明對熱點事件發(fā)現(xiàn)的結(jié)果進行展現(xiàn)。權(quán)利要求1、一種實時多角度網(wǎng)絡(luò)熱點事件分析裝置,其特征是構(gòu)成包括網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置、網(wǎng)絡(luò)事件數(shù)據(jù)預處理裝置、事件中心處理裝置、熱點事件發(fā)現(xiàn)裝置和輸出裝置,其特征包括網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置用于實時地、主動地從互聯(lián)網(wǎng)獲取描述網(wǎng)絡(luò)事件的原始數(shù)據(jù),并進行存儲;網(wǎng)絡(luò)事件預處理裝置對存儲下來的網(wǎng)絡(luò)事件描述原始數(shù)據(jù),遵照預定義的某種格式進行解析,過濾掉其中的噪音,提取出真正與網(wǎng)絡(luò)事件相關(guān)的核心數(shù)據(jù);此外,對核心數(shù)據(jù)進行特征定義和提取,并采用適當?shù)男问竭M行表達;事件中心處理裝置根據(jù)網(wǎng)絡(luò)事件預處理裝置得到的形式化數(shù)據(jù),采用適當?shù)牟呗赃M行組織,從而形成相關(guān)的事件中心描述;熱點事件發(fā)現(xiàn)裝置根據(jù)事件中心處理裝置得到的若干中心描述,處理后序到達的網(wǎng)絡(luò)事件數(shù)據(jù),將其歸并入相應的中心,當中心所包含的事件數(shù)量超過某一閾值,則表明其為熱點事件;輸出裝置將熱點事件發(fā)現(xiàn)裝置得到的若干熱點事件信息以適當?shù)男问竭M行展現(xiàn)。2、根據(jù)權(quán)利要求l所述的實時多角度網(wǎng)絡(luò)熱點事件分析裝置,其特征是所述的網(wǎng)絡(luò)事件數(shù)據(jù)預處理裝置包括網(wǎng)絡(luò)事件數(shù)據(jù)特征提取單元和特征權(quán)重計算單元;網(wǎng)絡(luò)事件數(shù)據(jù)特征提取單元根據(jù)事先約定的特征規(guī)則處理網(wǎng)絡(luò)事件核心數(shù)據(jù),將其表示為若干相關(guān)特征的集合;特征權(quán)重計算單元針對網(wǎng)絡(luò)事件數(shù)據(jù)特征提取單元生成的特征集合,按照約定的計算方法得到其中每個特征的權(quán)重,并進行量化。3、根據(jù)權(quán)利要求1或2所述的實時多角度網(wǎng)絡(luò)熱點事件分析裝置,其特征是所述的事件中心處理裝置包括事件中心初始化單元、事件相似度計算單元和事件多中心生成單元;事件中心初始化單元裝置初始化時,按照特定策略從得到的網(wǎng)絡(luò)事件數(shù)據(jù)中選擇某些事件作為初始中心;事件相似度計算單元針對后續(xù)到達的網(wǎng)絡(luò)事件數(shù)據(jù),將其與已有的事件中心按照特定的相似度策略進行計算,得到它們之間的相似度;事件多中心生成單元將事件相似度計算單元得到的相似度與事先約定的閾值進行比較,用于決定是將該事件歸入已有中心,還是建立新的事件中心。4、基于實時多角度網(wǎng)絡(luò)熱點事件分析裝置的分析方法,其特征是-本發(fā)明中的"事件初始中心"為關(guān)于同一事件、同一內(nèi)容的報道;"事件多中心"為討論同一事件不同階段不同角度的報道,即事件在不同階段的核心;"中心外延"為各個核心事件的相關(guān)報道;分析方法包括以下步驟網(wǎng)絡(luò)事件信息采集步驟,用于獲取當前發(fā)表在互聯(lián)網(wǎng)上、描述事件內(nèi)容的新聞報道數(shù)據(jù);網(wǎng)絡(luò)事件發(fā)現(xiàn)步驟,采用適當?shù)奈谋揪垲惙椒▽Σ杉降男侣剤蟮罃?shù)據(jù)進行處理,發(fā)現(xiàn)當前互聯(lián)網(wǎng)上存在的若干網(wǎng)絡(luò)事件;網(wǎng)絡(luò)事件中心初始化步驟,選用每個事件類的第一篇新聞報道作為該事件的初始中心,并在此基礎(chǔ)上實施多中心策略;網(wǎng)絡(luò)事件相似度比較步驟,將初始中心后面收到的新聞報道與初始中心進行相似度比較,如果相似度超過預定義閾值,則將該報道判為屬于該中心下的事件;網(wǎng)絡(luò)事件多中心生成歩驟,比較后續(xù)事件與初始中心相關(guān)屬性,主要包括時間、地點和人物的變化,當變化程度超過預定義閾值,則產(chǎn)生新的事件中心,以此類推,直至所有該類事件處理完畢;熱點事件輸出步驟,用于輸出以多中心形式表達的網(wǎng)絡(luò)熱點事件信息,包括新聞報道標題和詳細內(nèi)容。5、根據(jù)權(quán)利要求4所述的基于實時多角度網(wǎng)絡(luò)熱點事件分析裝置的分析方法,其特征是采用向量空間模型作為網(wǎng)絡(luò)事件的形式化描述,網(wǎng)絡(luò)事件數(shù)據(jù)向量化包括如下步驟(1)利用分詞詞典對網(wǎng)絡(luò)事件數(shù)據(jù)進行分詞處理,提取其中的實詞,去掉虛詞和停用詞;(2)采用TF-IDF方法確定分詞后的每個詞的權(quán)重,TF-IDF的計算方法如下式rF,(,,oiog(^^+o.oi)『一,)拓7F,2Cg2(^濕)(3)由每個詞的權(quán)重作為分量,形成該網(wǎng)絡(luò)事件的向量表示^全文摘要本發(fā)明提供的是一種實時多角度網(wǎng)絡(luò)熱點事件分析裝置及分析方法。分析裝置的構(gòu)成包括網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置、網(wǎng)絡(luò)事件數(shù)據(jù)預處理裝置、事件中心處理裝置和輸出裝置。分析方法包括網(wǎng)絡(luò)事件信息采集步驟、網(wǎng)絡(luò)事件發(fā)現(xiàn)步驟、網(wǎng)絡(luò)事件中心初始化步驟、網(wǎng)絡(luò)事件相似度比較步驟、網(wǎng)絡(luò)事件多中心生成步驟和熱點事件輸出步驟。通過本發(fā)明可以實時發(fā)現(xiàn)目前發(fā)布到互聯(lián)網(wǎng)上的熱點事件信息,并且從多個角度展現(xiàn)該事件的發(fā)展過程,以幫助網(wǎng)絡(luò)管理人員能夠更為全面地了解網(wǎng)絡(luò)熱點事件的態(tài)勢。文檔編號G06F17/30GK101488150SQ20091007148公開日2009年7月22日申請日期2009年3月4日優(yōu)先權(quán)日2009年3月4日發(fā)明者武楊,巍王,苘大鵬申請人:哈爾濱工程大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1