国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種事件跟蹤方法及系統(tǒng)的制作方法

      文檔序號(hào):6545813閱讀:510來(lái)源:國(guó)知局
      一種事件跟蹤方法及系統(tǒng)的制作方法
      【專利摘要】本發(fā)明提供一種事件跟蹤方法及系統(tǒng),適用于輿情信息處理。所述方法包括獲取與事件相關(guān)的文檔;根據(jù)所獲取的文檔數(shù)量確定所述事件的階段個(gè)數(shù);以及根據(jù)內(nèi)容的相似程度對(duì)所獲取的文檔進(jìn)行聚類,得到與所述事件的每個(gè)階段對(duì)應(yīng)的文檔簇,其中文檔簇的總數(shù)與所述事件的階段個(gè)數(shù)相同。本發(fā)明無(wú)需人工參與,可以自動(dòng)地進(jìn)行事件跟蹤并輸出結(jié)果。與人工整理所耗費(fèi)的人力和財(cái)力相比,節(jié)省了成本,并且提高了事件跟蹤的效率與準(zhǔn)確度。
      【專利說(shuō)明】一種事件跟蹤方法及系統(tǒng)
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及網(wǎng)絡(luò)信息處理【技術(shù)領(lǐng)域】,尤其涉及一種適用于輿情信息系統(tǒng)的事件跟蹤方法及系統(tǒng)。
      【背景技術(shù)】
      [0002]在輿情信息處理過(guò)程中,事件跟蹤是非常重要的一個(gè)環(huán)節(jié)?,F(xiàn)有的事件跟蹤方法通常需要大量的人工參與,包括:對(duì)大量的文本信息進(jìn)行搜集,確定某個(gè)具體事件下的文檔列表;對(duì)搜集到的文檔列表進(jìn)行分割,選出事件的各個(gè)階段;以及,按照時(shí)間進(jìn)行排序,以顯示一個(gè)完整的事件過(guò)程。
      [0003]然而,在實(shí)際的輿情信息系統(tǒng)中,需要對(duì)大量的事件同時(shí)進(jìn)行監(jiān)控,其往往涉及海量的文本信息,傳統(tǒng)的人工參與的方式需要大量的人力和財(cái)力。此外,輿情分析人員從搜集數(shù)據(jù)到制作一個(gè)完整的事件跟蹤需要較長(zhǎng)的周期,容易導(dǎo)致事件跟蹤結(jié)果的不及時(shí)和不全面。因此,當(dāng)前迫切需要一種事件跟蹤方法,其能夠自動(dòng)地對(duì)事件進(jìn)行跟蹤,以輔助輿情信息處理,同時(shí)提高事件跟蹤的效率和準(zhǔn)確性,且減少人工進(jìn)行事件跟蹤的成本。

      【發(fā)明內(nèi)容】

      [0004]為解決上述問(wèn)題,根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種事件跟蹤方法,包括:
      [0005]步驟I)、獲取與事件相關(guān)的文檔;
      [0006]步驟2)、根據(jù)所獲取的文檔數(shù)量確定所述事件的階段個(gè)數(shù);
      [0007]步驟3)、根據(jù)內(nèi)容的相似程度對(duì)所獲取的文檔進(jìn)行聚類,得到與所述事件的每個(gè)階段對(duì)應(yīng)的文檔簇,其中文檔簇的總數(shù)與所述事件的階段個(gè)數(shù)相同。
      [0008]上述方法中,在步驟2)中根據(jù)下式來(lái)確定事件的階段個(gè)數(shù):
      [0009]
      【權(quán)利要求】
      1.一種事件跟蹤方法,包括: 步驟I)、獲取與事件相關(guān)的文檔; 步驟2)、根據(jù)所獲取的文檔數(shù)量確定所述事件的階段個(gè)數(shù); 步驟3)、根據(jù)內(nèi)容的相似程度對(duì)所獲取的文檔進(jìn)行聚類,得到與所述事件的每個(gè)階段對(duì)應(yīng)的文檔簇,其中文檔簇的總數(shù)與所述事件的階段個(gè)數(shù)相同。
      2.根據(jù)權(quán)利要求1所述的方法,在步驟2)中,根據(jù)下式來(lái)確定事件的階段個(gè)數(shù):
      3.根據(jù)權(quán)利要求2所述的方法,其中m為20。
      4.根據(jù)權(quán)利要求1-3中任何一個(gè)所述的方法,在步驟3)中,使用后綴樹(shù)聚類方法根據(jù)內(nèi)容的相似程度對(duì)所獲取的文檔進(jìn)行聚類。
      5.根據(jù)權(quán)利要求1-3中任何一個(gè)所述的方法,其中,步驟3)還包括: 步驟a)、在每個(gè)文檔簇中,按照發(fā)布時(shí)間從新到舊排列文檔,選擇前k個(gè)文檔,其中,k為預(yù)先設(shè)定的正整數(shù); 步驟b)、在每個(gè)文檔簇中,在所選擇的k個(gè)文檔中選取權(quán)威度最高的文檔作為代表文檔,其中,根據(jù)下式計(jì)算每個(gè)文檔簇中的每個(gè)文檔的權(quán)威度:
      Authority = λ*DomainWeight+log(References) 其中,Authority表示文檔的權(quán)威度,Domainffeight是該文檔的URL所屬域名的權(quán)重,入是該文檔的URL和References的得分占比,References是該文檔被其他文檔轉(zhuǎn)載的次數(shù)。
      6.根據(jù)權(quán)利要求5所述的方法,其中,步驟3)還包括: 對(duì)于每個(gè)文檔簇,在選擇其代表文檔之前,去除發(fā)布時(shí)間與該文檔簇的平均發(fā)布時(shí)間的差值超過(guò)預(yù)定閾值的文檔,其中,文檔簇的平均發(fā)布時(shí)間為該文檔簇中所有文檔的發(fā)布時(shí)間的平均值。
      7.根據(jù)權(quán)利要求5所述的方法,其中,步驟b)之后還包括: 步驟c)、按照每個(gè)文檔簇的代表文檔的發(fā)布時(shí)間依次輸出P個(gè)代表文檔,其中,P是預(yù)先設(shè)定的將要顯示給用戶的事件階段數(shù)量。
      8.根據(jù)權(quán)利要求1-3中任何一個(gè)所述的方法,其中,步驟I)包括: 檢索輿情信息系統(tǒng)中的內(nèi)部資源或者外部網(wǎng)絡(luò)資源,得到與事件相關(guān)的文檔。
      9.根據(jù)權(quán)利要求1-3中任何一個(gè)所述的方法,其中,步驟I)還包括: 去除所獲取的文檔中的無(wú)效字符、標(biāo)簽以及停用詞。
      10.根據(jù)權(quán)利要求1-3中任何一個(gè)所述的方法,其中,所述文檔的內(nèi)容包括文檔標(biāo)題或者文檔正文。
      11.一種事件跟蹤系統(tǒng),包括: 檢索設(shè)備,用于獲取與事件相關(guān)的文檔; 階段計(jì)算設(shè)備,用于根據(jù)所獲取的文檔數(shù)量確定所述事件的階段個(gè)數(shù);以及聚類設(shè)備,用于根據(jù)內(nèi)容的相似程度對(duì)所獲取的文檔進(jìn)行聚類,得到與所述事件的每個(gè)階段對(duì)應(yīng)的文 檔簇,其中文檔簇的總數(shù)與所述事件的階段個(gè)數(shù)相同。
      【文檔編號(hào)】G06F17/30GK103995849SQ201410190542
      【公開(kāi)日】2014年8月20日 申請(qǐng)日期:2014年5月7日 優(yōu)先權(quán)日:2014年5月7日
      【發(fā)明者】史忠植, 王偉, 齊保元, 張博, 張建華, 岳金朋 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所, 北京聯(lián)索科技有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1