識別事件關鍵進展的方法和設備的制作方法
【專利摘要】提供了一種識別事件關鍵進展的方法和設備,所述方法包括:基于事件核心詞獲得事件搜索詞簇;通過基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別,獲得第一事件關鍵進展點集合;通過基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別,獲得第二事件關鍵進展點集合;通過將第一事件關鍵進展點集合和第二事件關鍵進展點集合進行融合和去重,獲得第三事件關鍵進展點集合;對第三事件關鍵進展點集合進行優(yōu)化,獲得最終事件關鍵進展脈絡。根據(jù)本發(fā)明的方法和設備,可提供清晰可見的事件脈絡,滿足用戶對事件的關注需求,提高用戶體驗,并且無需人工編輯,大大降低專題生成成本。
【專利說明】識別事件關鍵進展的方法和設備
【技術領域】
[0001]本發(fā)明涉及一種新聞話題跟蹤技術,更具體地說,涉及一種通過在不需要人工標 注的情況下確定重要子事件的發(fā)生時間點來識別事件關鍵進展的方法和設備。
【背景技術】
[0002]隨著網(wǎng)絡科技的高速發(fā)展,無論是使用移動終端(例如,手機等)還是非移動終端 (例如,臺式計算機等)來上網(wǎng)瀏覽新聞,都已經成為人們最為常見的一種休閑方式。據(jù)騰訊 科技調查,61.67%的調查用戶使用手機上網(wǎng)以瀏覽新聞為主。在新聞門戶網(wǎng)站中,一般將 事件稱為專題,一個熱門事件(或者話題)通常由若干子事件組成。每個事件都有一個產生、 發(fā)展、高潮、結束的過程,整個過程中重要的子事件串聯(lián)起來便形成表示事件進展的事件脈 絡,因此事件脈絡是全面了解一個新聞事件發(fā)展的重要需求。
[0003]現(xiàn)有技術主要是基于編輯標注,人工實現(xiàn)對事件最新進展識別。例如,各種門戶網(wǎng) 站都是采用編輯人工標注,Google實驗項目living storis也是采用編輯人工標注,即,對 每篇新聞文檔進行標注(如背景文檔,進展文檔等),然后機器再從編輯標注好的文檔中把 文檔匯總展示。
[0004]此外,騰訊搜搜新聞跟蹤系統(tǒng)是一套用戶跟蹤和發(fā)現(xiàn)話題最新進展的系統(tǒng),但其 主要采用的是跟蹤事件的最新進展而不是關注事件(包括事件的歷史)的關鍵進展,生成的 事件進展圖并不是清晰事件脈絡。
[0005]現(xiàn)有技術的編輯人工標注的方法,事件(話題)覆蓋面窄,人力成本高,不適應海量 新聞事件脈絡挖掘的需求。
[0006]在目前利用機器自動進行事件脈絡的挖掘方面,一種方式是采用事件跟蹤的方 式,通過把本階段發(fā)生的熱門事件與前一階段發(fā)生的熱門事件進行事件關聯(lián),如果有歷史 事件可以關聯(lián)到當前事件,則當前事件為歷史事件的一個進展。但事件關聯(lián)往往會因為事 件花邊新聞的影響而出現(xiàn)話題漂移。另一種方式是采用文檔聚類的方式,將前一階段聚類 得到的所有簇與當前階段聚類的話題簇進行話題簇關聯(lián),由于文檔聚類屬于無監(jiān)督學習, 聚類成本高。同時事件跟蹤的方式很難以處理冷啟動問題,并且需要把當前的所有話題與 歷史所有話題進行關聯(lián)匹配,后期開發(fā)成本較大,開發(fā)周期較長。
[0007]因此,需要一種在無需人工標注的情況下無需通過關聯(lián)、聚類的方法而有效地識 別事件關鍵進展的方法和設備。
【發(fā)明內容】
[0008]本發(fā)明的目的在于至少解決上述問題,并至少提供下述優(yōu)點。根據(jù)本發(fā)明的一方 面,提供了一種識別事件關鍵進展的方法和設備,所述方法和設備通過基于媒體關注度和 新聞熱搜詞進行事件關鍵進展識別,來獲得最終事件關鍵進展脈絡。
[0009]根據(jù)本發(fā)明的一方面,提供了一種識別事件關鍵進展的方法,所述方法包括:基于 事件核心詞獲得事件搜索詞簇;通過基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別,獲得第一事件關鍵進展點集合;通過基于新聞熱搜詞針對事件核心詞進行事件關鍵 進展識別,獲得第二事件關鍵進展點集合;通過將第一事件關鍵進展點集合和第二事件關 鍵進展點集合進行融合和去重,獲得第三事件關鍵進展點集合;對第三事件關鍵進展點集 合進行優(yōu)化,獲得最終事件關鍵進展脈絡。
[0010]基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別的步驟可包括:(I)通 過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇在時間軸上每 天命中的新聞數(shù)量,獲得事件搜索詞簇的新聞報道趨勢圖;(2)通過基于假期效應對新聞 報道趨勢圖進行假期新聞數(shù)量調整,獲得媒體關注度趨勢圖;(3)通過對媒體關注度趨勢 圖進行時序分析以識別新聞突發(fā)點,來獲得以大事件為粒度的候選事件關鍵進展點集合, 其中,大事件是指大于或等于第一預定天數(shù)的連續(xù)新聞突發(fā)點的集合;(4)對候選事件關 鍵進展點集合中的持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件進行 基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發(fā)展脈絡的大事 件是指在所述持續(xù)時間內單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件。
[0011]基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別的步驟可包括:(1) 通過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇中的每個搜 索詞在時間軸上每天命中的新聞數(shù)量,獲得每個搜索詞的新聞報道趨勢圖;(2)通過基于 假期效應對每個搜索詞的新聞報道趨勢圖進行假期新聞數(shù)量調整,獲得每個搜索詞的媒體 關注度趨勢圖;(3)對每個搜索詞的媒體關注度趨勢圖進行時序分析以識別新聞突發(fā)點, 獲得每個搜索詞的以大事件為粒度的候選事件關鍵進展點,其中,大事件是指大于或等于 第一預定天數(shù)的連續(xù)新聞突發(fā)點的集合;(4)將事件搜索詞簇中的所有搜索詞的候選事件 關鍵進展點進行融合,獲得候選事件關鍵進展點集合;(5)對候選事件關鍵進展點集合中 的持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件進行基于均勻假設的 二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發(fā)展脈絡的大事件是指在所述持 續(xù)時間內單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件。
[0012]獲得事件搜索詞簇的步驟可包括:通過在用戶搜索日志中搜索與事件核心詞對應 的事件搜索詞,獲得事件搜索詞簇。
[0013]假期新聞數(shù)量調整的步驟可包括:通過統(tǒng)計假期前一日、假期當日、假期后一日的 全網(wǎng)新聞索引來分別獲得假期前一日、假期當日、假期后一日的全網(wǎng)新聞總量;計算假期當 日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當日的全網(wǎng)新聞總量 和假期前一日的全網(wǎng)新聞總量之間的差值的比例;根據(jù)計算的比例調整假期當日事件搜索 詞簇的新聞數(shù)量。
[0014]第一預定天數(shù)可為3天,第二預定天數(shù)可為5天。
[0015]時序分析的步驟可包括:采用滑動時間窗口的方式,以第一預定時間段為一個計 算時間窗口,以第二預定時間段為滑動時間窗口向前滑動,分別識別每個計算時間窗口內 的新聞突發(fā)點;只要在一個計算時間窗口中將某一個時間點識別為新聞突發(fā)點,則將該時 間點設置為候選關鍵進展時間點;將所有候選關鍵進展時間點進行融合,得到以大事件為 粒度的候選事件關鍵進展點集合。
[0016]第一預定時間段可為30天,第二預定時間段可為2天。
[0017]識別新聞突發(fā)點的步驟可包括:計算該計算時間窗口內的所有天的事件搜索詞簇的新聞數(shù)量的均值以及方差;通過以下的公開來計算門限值:門限值=均值+0.8X方差; 如果該計算時間窗口內的某一個時間點大于計算的門限值,則將該時間點識別為新聞突發(fā)
[0018]基于均勻假設的二次切分的步驟可包括:在持續(xù)時間大于或等于第二預定天數(shù)且 具有明顯發(fā)展脈絡的大事件內,將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜 索詞簇新聞量的平均值進行比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保 留該天作為事件關鍵進展點;如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則 去除該天的事件關鍵進展點。
[0019]基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別的步驟可包括:使用事件 核心詞在新聞熱搜詞庫中進行搜索;將搜索到的新聞熱搜詞所對應的時間點識別為事件關 鍵進展點。
[0020]對第三事件關鍵進展點集合進行優(yōu)化的步驟可包括:對于一個大事件,優(yōu)化單元 將新聞數(shù)量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進 展點的新聞量之比與預定閾值進行比較;如果新聞數(shù)量最多的事件關鍵進展點的新聞量與 該事件關鍵進展點之后的每個事件關鍵進展點的新聞量之比均大于預定閾值,則去除該事 件關鍵進展點之后的所有事件關鍵進展點。
[0021]對第三事件關鍵進展點集合進行優(yōu)化的步驟還可包括:保留事件關鍵進展進程中 的每次進展的第一個事件關鍵進展點。
[0022]根據(jù)本發(fā)明的另一方面,提供了一種識別事件關鍵進展的設備,所述設備包括:事 件搜索詞簇獲得單元,基于事件核心詞獲得事件搜索詞簇;第一識別單元,通過基于媒體關 注度針對事件搜索詞簇進行事件關鍵進展識別,獲得第一事件關鍵進展點集合;第二識別 單元,通過基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別,獲得第二事件關鍵進 展點集合;求和單元,通過將第一事件關鍵進展點集合和第二事件關鍵進展點集合進行融 合和去重,獲得第三事件關鍵進展點集合;優(yōu)化單元,對第三事件關鍵進展點集合進行優(yōu) 化,獲得最終事件關鍵進展脈絡。
[0023]第一識別單元可包括:新聞數(shù)量計算單元,通過使用事件搜索詞簇檢索新聞倒排 索引,在預定時間段內計算事件搜索詞簇在時間軸上每天命中的新聞數(shù)量,獲得事件搜索 詞簇的新聞報道趨勢圖;假期調整單元,通過基于假期效應對新聞報道趨勢圖進行假期新 聞數(shù)量調整,獲得媒體關注度趨勢圖;時序分析單元,通過對媒體關注度趨勢圖進行時序分 析以識別新聞突發(fā)點,來獲得以大事件為粒度的候選事件關鍵進展點集合,其中,大事件是 指大于或等于第一預定天數(shù)的連續(xù)新聞突發(fā)點的集合;切分單元,對候選事件關鍵進展點 集合中的持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件進行基于均勻 假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發(fā)展脈絡的大事件是指在 所述持續(xù)時間內單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件。
[0024]第一識別單元可包括:新聞數(shù)量計算單元,通過使用事件搜索詞簇檢索新聞倒排 索引,在預定時間段內計算事件搜索詞簇中的每個搜索詞在時間軸上每天命中的新聞數(shù) 量,獲得每個搜索詞的新聞報道趨勢圖;假期調整單元,通過基于假期效應對每個搜索詞的 新聞報道趨勢圖進行假期新聞數(shù)量調整,獲得每個搜索詞的媒體關注度趨勢圖;時序分析 單元,對每個搜索詞的媒體關注度趨勢圖進行時序分析以識別新聞突發(fā)點,獲得每個搜索詞的以大事件為粒度的候選事件關鍵進展點集合,其中,大事件是指大于或等于第一預定 天數(shù)的連續(xù)新聞突發(fā)點的集合;融合單元,將事件搜索詞簇中的所有搜索詞的候選事件關 鍵進展點集合進行融合,獲得最終的候選事件關鍵進展點集合;切分單元,對最終的候選事 件關鍵進展點集合中的持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件 進行基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發(fā)展脈絡的 大事件是指在所述持續(xù)時間內單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件。
[0025]事件搜索詞簇獲得單元可通過在用戶搜索日志中搜索與事件核心詞對應的事件 搜索詞,獲得事件搜索詞簇。
[0026]假期調整單元可通過統(tǒng)計假期前一日、假期當日、假期后一日的全網(wǎng)新聞索引來 分別獲得假期前一日、假期當日、假期后一日的全網(wǎng)新聞總量;計算假期當日的全網(wǎng)新聞總 量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當日的全網(wǎng)新聞總量和假期前一日的 全網(wǎng)新聞總量之間的差值的比例;根據(jù)計算的比例調整假期當日事件搜索詞簇的新聞數(shù)量。
[0027]第一預定天數(shù)可為3天,第二預定天數(shù)可為5天。
[0028]時序分析單元可采用滑動時間窗口的方式,以第一預定時間段為一個計算時間窗 口,以第二預定時間段為滑動時間窗口向前滑動,分別識別每個計算時間窗口內的新聞突 發(fā)點;只要在一個計算時間窗口中將某一個時間點識別為新聞突發(fā)點,則將該時間點設置 為候選關鍵進展時間點;將所有候選關鍵進展時間點進行融合,得到以大事件為粒度的候 選事件關鍵進展點集合。
[0029]第一預定時間段可為30天,第二預定時間段可為2天。
[0030]時序分析單元可通過下面的方法識別新聞突發(fā)點:計算該計算時間窗口內的所有 天的事件搜索詞簇的新聞數(shù)量的均值以及方差;通過以下的公開來計算門限值:門限值= 均值+0.8X方差;如果該計算時間窗口內的某一個時間點大于計算的門限值,則將該時間 點識別為新聞突發(fā)點。
[0031]切分單元可在持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件 內,將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜索詞簇新聞量的平均值進行 比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保留該天作為事件關鍵進展點; 如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則去除該天的事件關鍵進展點。
[0032]第二識別單元可使用事件核心詞在新聞熱搜詞庫中進行搜索;將搜索到的新聞熱 搜詞所對應的時間點識別為事件關鍵進展點。
[0033]對于一個大事件,優(yōu)化單元可將新聞數(shù)量最多的事件關鍵進展點的新聞量與該事 件關鍵進展點之后的每個事件關鍵進展點的新聞量之比與預定閾值進行比較,如果新聞數(shù) 量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進展點的新 聞量之比均大于預定閾值,則優(yōu)化單元可去除該事件關鍵進展點之后的所有事件關鍵進展
[0034]優(yōu)化單元可保留事件關鍵進展進程中的每次進展的第一個事件關鍵進展點。
[0035]本發(fā)明可提供清晰可見的事件脈絡,滿足用戶對事件的關注需求,提高用戶體驗。 此外,本發(fā)明無需人工編輯,大大降低專題生成成本。此外,本發(fā)明可對話題進行快速的事 件進展跟蹤,時效性高。此外,本發(fā)明提供的方法和設備是一種與具體項目無關的通用技術方案,因此具有很強的通用性和可移植性。
【專利附圖】
【附圖說明】
[0036]通過結合附圖,從實施例的下面描述中,本發(fā)明這些和/或其它方面及優(yōu)點將會 變得清楚,并且更易于理解,其中:
[0037]圖1是根據(jù)本發(fā)明的示例性實施例的識別事件關鍵進展的設備的框圖;
[0038]圖2是根據(jù)本發(fā)明的示例性實施例的第一識別單元120的框圖;
[0039]圖3是根據(jù)本發(fā)明的另一示例性實施例的第一識別單元120的框圖;
[0040]圖4是根據(jù)本發(fā)明的示例性實施例的識別事件關鍵進展的方法的流程圖;
[0041]圖5是示出根據(jù)本發(fā)明的示例性實施例的事件關鍵進展脈略的示例的示圖。
【具體實施方式】
[0042]提供參照附圖的以下描述以幫助對由權利要求及其等同物限定的本發(fā)明的實施 例的全面理解。包括各種特定細節(jié)以幫助理解,但這些細節(jié)僅被視為是示例性的。因此,本 領域的普通技術人員將認識到在不脫離本發(fā)明的范圍和精神的情況下,可對描述于此的實 施例進行各種改變和修改。此外,為了清楚和簡潔,省略對公知的功能和結構的描述。
[0043]圖1是根據(jù)本發(fā)明的示例性實施例的識別事件關鍵進展的設備的框圖。
[0044]參照圖1,根據(jù)本發(fā)明的示例性實施例的識別事件關鍵進展的設備100包括事件 搜索詞(query)簇獲得單元110、第一識別單元120、第二識別單元130、求和單元140、優(yōu)化 單元150。
[0045]事件搜索詞簇獲得單元110可基于事件核心詞(term)來獲得事件搜索詞簇。具 體地說,事件搜索詞簇獲得單元110可通過在用戶搜索日志(未示出)中搜索與事件核心詞 對應的事件搜索詞,來獲得事件搜索詞簇。
[0046]例如,事件搜索詞簇獲得單元110通過在用戶搜索日志中搜索與事件核心詞對應 的事件搜索詞,獲得事件搜索詞簇。
[0047]第一識別單元120可通過基于媒體關注度針對事件搜索詞簇進行事件關鍵進展 識別,獲得第一事件關鍵進展點集合。下面通過參照圖2和圖3來詳細描述第一識別單元 120的操作。
[0048]圖2是根據(jù)本發(fā)明的示例性實施例的第一識別單元120的框圖。
[0049]參照圖2,第一識別單元120可包括新聞數(shù)量計算單元121a、假期調整單元122a、 時序分析單元123a、切分單元124a。
[0050]新聞數(shù)量計算單元121a可通過使用事件搜索詞簇檢索新聞倒排索引(未示出),在 預定時間段內計算事件搜索詞簇在時間軸上每天命中的新聞數(shù)量,獲得事件搜索詞簇的新 聞報道趨勢圖。
[0051]假期調整單元122a可通過基于假期效應對新聞報道趨勢圖進行假期新聞數(shù)量調 整,獲得媒體關注度趨勢圖。
[0052]具體地說,新聞報道存在假期效應,假期效應是指每逢節(jié)假日,網(wǎng)絡上發(fā)表的新聞 總量比平時少很多。因此,需要根據(jù)假期效應,在新聞報道趨勢圖的基礎上調整假期的新聞 數(shù)量,獲得最終的媒體關注度趨勢圖。[0053]假期調整單元122a可通過統(tǒng)計假期前一日、假期當日、假期后一日的全網(wǎng)新聞索 引來分別獲得假期前一日、假期當日、假期后一日的全網(wǎng)新聞總量。隨后,假期調整單元 122a可計算假期當日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當 日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值的比例。隨后,根據(jù)計算的比 例調整假期當日事件搜索詞簇的新聞數(shù)量。
[0054]例如,5月I日是假期,需要調整5月I日的關于XXX事件新聞報道數(shù)量。首先,假 期調整單元122a統(tǒng)計出當天全網(wǎng)有100萬篇新聞報道,并且統(tǒng)計出4月30日的全網(wǎng)新聞報 道有80萬篇,5月2日的全網(wǎng)新聞報道有50萬篇,則計算差值比例為(100-80)/ (100-50) =0.4。對于“XXX事件”,5月I日的新聞報道是70篇,4月30日的新聞報道為80篇,5月 2日的新聞報道為50篇,因此,假期調整單元122a根據(jù)差值比例0.4通過下面的公式來調 整5月I日的關于乂乂乂事件新聞報道數(shù)量:((70+3-80)/((70+3-50)=0.4,其中,1表示新 聞報道調整量,這里,x=30,也就是說,5月I日的關于XXX事件新聞報道數(shù)量應該被調整被 100 篇。
[0055]根據(jù)本發(fā)明的示例性實施例,假期調整單元122a還可以把一年當中所有假期的 上述差值比例都記錄下來生成假期模型字典,在進行某個事件的關鍵進展識別中,可使用 該假期模型字典來調整該事件假期時的新聞報道數(shù)量。
[0056]時序分析單元123a可通過對媒體關注度趨勢圖進行時序分析以識別新聞突發(fā) 點,來獲得以大事件為粒度的候選事件關鍵進展點集合,其中,大事件是指大于或等于第一 預定天數(shù)的連續(xù)新聞突發(fā)點的集合。新聞突發(fā)點是指新聞數(shù)量超過預定標準(例如,超過某 個預定值等)的時間點。這里,第一預定天數(shù)可以是3天,也就是說,連續(xù)3天或3天以上的 新聞突發(fā)點可以組成一個大事件。
[0057]具體地說,根據(jù)本發(fā)明的示例性實施例,時序分析單元123a可采用滑動時間窗口 的方式,以第一預定時間段為一個計算時間窗口,以第二預定時間段為滑動時間窗口向前 滑動,分別識別每個計算時間窗口內的新聞突發(fā)點;只要在一個計算時間窗口中將某一個 時間點識別為新聞突發(fā)點,則將該時間點設置為候選關鍵進展時間點;將所有候選關鍵進 展時間點進行融合,得到以大事件為粒度的候選事件關鍵進展點集合。這里,第一預定時間 段可為30天,第二預定時間段可為2天。
[0058]根據(jù)本發(fā)明的示例性實施例,時序分析單元123a可通過下面的方法識別新聞突 發(fā)點:計算該計算時間窗口內的所有天的事件搜索詞簇的新聞數(shù)量的均值以及方差;通過 以下的公開來計算門限值:門限值=均值+0.8X方差;如果該計算時間窗口內的某一個時 間點大于計算的門限值,則將該時間點識別為新聞突發(fā)點。
[0059]本領域的技術人員容易理解,本發(fā)明不限于上述識別新聞突發(fā)點的方法,本發(fā)明 還可以使用其它方法來識別新聞突發(fā)點。
[0060]切分單元124a可對候選事件關鍵進展點集合中的持續(xù)時間大于或等于第二預定 天數(shù)且具有明顯發(fā)展脈絡的大事件進行基于均勻假設的二次切分,獲得第一事件關鍵進展 點集合,其中,具有明顯發(fā)展脈絡的大事件是指在所述持續(xù)時間內單獨進行時序分析也能 夠識別到新聞突發(fā)點的大事件。這里,第二預定天數(shù)可以是5天,也就是說,切分單元124a 可對持續(xù)時間大于或等于5天且對這大于或等于5天的持續(xù)時間的新聞單獨進行時序分析 也能夠識別到新聞突發(fā)點的大事件進行基于均勻假設的二次切分。[0061]具體地說,根據(jù)本發(fā)明的示例性實施例,切分單元124a在持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件內,將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜索詞簇新聞量的平均值進行比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保留該天作為事件關鍵進展點;如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則去除該天的事件關鍵進展點。
[0062]例如,在持續(xù)時間為5月I日至5月5日且具有明顯發(fā)展脈絡的大事件內,如果5 月I日該事件的新聞報道量為100篇,5月I日之前的兩天(即,4月29日和4月30)該事件的新聞報道量分別為90篇和80篇,則這兩天的該事件的新聞報道量的平均值為85。因此,切分單元124a將5月I日的新聞報道量100與平均值85進行比較。100大于85,則切分單元124a認為事件有新進展正在持續(xù)發(fā)酵,保留5月I日作為事件關鍵進展點。如果5 月2日該事件的新聞報道量為60篇,5月2日之前的兩天(即,4月30日和5月I日)該事件的新聞報道量分別為80篇和100篇,則這兩天的該事件的新聞報道量的平均值為90, 因此,切分單元124a將5月2日的新聞報道量60與平均值90進行比較。60小于90,則切分單元124a認為該事件沒有新進展,并可能開始降溫,則去除5月2日這個事件關鍵進展
[0063]本領域的技術人員容易理解,本發(fā)明不限于上述基于均勻假設的二次切分的方法,本發(fā)明還可以使用其它方法來識別新聞突發(fā)點。
[0064]圖3是根據(jù)本發(fā)明的另一示例性實施例的第一識別單元120的框圖。
[0065]參照圖3,第一識別單元120可包括新聞數(shù)量計算單元121b、假期調整單元122b、 時序分析單元123b、融合單元124b、切分單元125b。
[0066]新聞數(shù)量計算單元121b可通過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇中的每個搜索詞在時間軸上每天命中的新聞數(shù)量,獲得每個搜索詞的新聞報道趨勢圖。
[0067]根據(jù)本發(fā)明的示例性實施例,新聞數(shù)量計算單元121b可包括n個子單元121bl、 121b2、…、121bn,每個子單元都可計算一個搜索詞在時間軸上每天命中的新聞數(shù)量來獲得一個搜索詞的新聞報道趨勢圖。例如,事件搜索詞簇中有4個搜索詞,則使用新聞數(shù)量計算單元121b中的4個子單元來獲得這4個搜索詞中的每個搜索詞的新聞報道趨勢圖。
[0068]假期調整單元122 b可通過基于假期效應對每個搜索詞的新聞報道趨勢圖進行假期新聞數(shù)量調整,獲得每個搜索詞的媒體關注度趨勢圖。
[0069]根據(jù)本發(fā)明的示例性 實施例,假期調整單元122b可包括n個子單元122bl、 122b2、…、122bn,每個子單元都可對一個搜索詞的新聞報道趨勢圖進行假期新聞數(shù)量調整,獲得一個搜索詞的媒體關注度趨勢圖。例如,事件搜索詞簇中有4個搜索詞,則使用假期調整單元122b中的4個子單元來獲得這4個搜索詞中的每個搜索詞的媒體關注度趨勢圖。
[0070]根據(jù)本發(fā)明的示例性實施例,假期調整單元122b進行假期新聞數(shù)量調整的方法與圖2中的假期調整單元122a進行假期新聞數(shù)量調整的方法基于相同,區(qū)別僅在于假期調整單元122b對事件搜索詞簇中的單個搜索詞的假期新聞數(shù)量進行調整,而圖2中的假期調整單元122a對整個事件搜索詞簇的假期新聞數(shù)量進行調整,因此這里將省略其詳細描述。
[0071]時序分析單元123b可對每個搜索詞的媒體關注度趨勢圖進行時序分析以識別新聞突發(fā)點,獲得每個搜索詞的以大事件為粒度的候選事件關鍵進展點集合,其中,大事件是指大于或等于第一預定天數(shù)的連續(xù)新聞突發(fā)點的集合。新聞突發(fā)點是指新聞數(shù)量超過預定標準(例如,超過某個預定值等)的時間點。這里,第一預定天數(shù)可以是3天,也就是說,連續(xù)3天或3天以上的新聞突發(fā)點可以組成一個大事件。
[0072]根據(jù)本發(fā)明的示例性實施例,時序分析單元123b可包括n個子單元123bl、123b2、…、123bn,每個子單元都可對一個搜索詞的媒體關注度趨勢圖進行時序分析以識別新聞突發(fā)點,獲得一個搜索詞的以大事件為粒度的候選事件關鍵進展點集合。例如,事件搜索詞簇中有4個搜索詞,則使用時序分析單元123b中的4個子單元來獲得這4個搜索詞中的每個搜索詞的候選事件關鍵進展點集合。
[0073]根據(jù)本發(fā)明的示例性實施例,時序分析單元123b進行時序分析的方法與圖2中的時序分析單元123a進行時序分析的方法基本相同,區(qū)別僅在于時序分析單元123b對事件搜索詞簇中的單個搜索詞的媒體關注度趨勢圖進行時序分析,而圖2中的時序分析單元123a對整個事件搜索詞簇的媒體關注度趨勢圖進行時序分析,因此這里將省略其詳細描述。
[0074]融合單元124b可將事件搜索詞簇中的所有搜索詞的候選事件關鍵進展點集合進行融合,獲得最終的候選事件關鍵進展點集合。
[0075]切分單元125b可對最終的候選事件關鍵進展點集合中的持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件進行基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發(fā)展脈絡的大事件是指在所述持續(xù)時間內單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件。這里,第二預定天數(shù)可以是5天,也就是說,切分單元124a可對持續(xù)時間大于或等于5天且對這大于或等于5天的持續(xù)時間的新聞單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件進行基于均勻假設的二次切分。
[0076]根據(jù)本發(fā)明的示例性實施例,切分單元125b進行基于均勻假設的二次切分的方法與圖2中的切分單元125a進行基`于均勻假設的二次切分的方法相似,因此這里將省略其詳細描述。
[0077]返回參照圖1,第二識別單元130可通過基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別,獲得第二事件關鍵進展點集合。
[0078]具體地說,根據(jù)本發(fā)明的示例性實施例,第二識別單元130使用事件核心詞在新聞熱搜詞庫(未示出)中進行搜索,并將搜索到的新聞熱搜詞所對應的時間點識別為事件關鍵進展點。
[0079]求和單元140可通過將第一事件關鍵進展點集合和第二事件關鍵進展點集合進行融合和去重,獲得第三事件關鍵進展點集合。
[0080]優(yōu)化單元150可對第三事件關鍵進展點集合進行優(yōu)化,獲得最終事件關鍵進展脈絡。
[0081]根據(jù)本發(fā)明的示例性實施例,優(yōu)化單元150可將新聞數(shù)量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進展點的新聞量之比與預定閾值進行比較,如果新聞數(shù)量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進展點的新聞量之比均大于預定閾值,則優(yōu)化單元150認為該事件關鍵進展點之后的這些天的新聞可能屬于轉載,從而去除該事件關鍵進展點之后的所有事件關鍵進展點。這里,預定閾值可以是0.8。
[0082]例如,對于一個持續(xù)時間為5月I日至5月3日的大事件,5月I日的新聞數(shù)量為100篇,5月2日的新聞數(shù)量為60篇,5月3日的新聞數(shù)量為50篇,5月I日的新聞數(shù)量最多,并且100/60=1.67,100/50=2,均大于預定閾值0.8,則優(yōu)化單元150認為5月2日和5月3日的新聞可能屬于轉載,從而去除5月2日和5月3日的事件關鍵進展點。
[0083]根據(jù)本發(fā)明的另一示例性實施例,優(yōu)化單元150可保留事件關鍵進展進程中的每次進展的第一個事件關鍵進展點。
[0084]例如,某段事件關鍵進展進程為5月I日至7月I日,其中,事件關鍵進展點為5月I日至5月3日,5月15日,5月23日至5月28日,6月2日,6月20日至6月22日,則第一次進展的第一個事件關鍵進展點為5月I日,第二次進展的第一個事件關鍵進展點為5月15日,第三次進展的第一個事件關鍵進展點為5月23日,第四次進展的第一個事件關鍵進展點為6月2日,第五次進展的第一個事件關鍵進展點為6月20日,必須被保留。但是,在上述的切分或優(yōu)化過程中,5月15日和6月2日的事件關鍵進展點可能已被去除,但由于5月15日和6月2日分別是第二次和第四次進展的第一個事件關鍵進展點,因此恢復并保留5月15日和6月2日的事件關鍵進展點。
[0085]本領域的技術人員容易理解,本發(fā)明的事件進展優(yōu)化過程不限于上述方法,還可以通過其它常用優(yōu)化過程去優(yōu)化事件進展,從而形成更完善的事件關鍵進展脈絡。
[0086]圖4是根據(jù)本發(fā)明的示例性實施例的識別事件關鍵進展的方法的流程圖。
[0087]參照圖4,在步驟401,事件搜索詞簇獲得單元110可基于事件核心詞來獲得事件搜索詞簇。
[0088]具體地說,事件搜索詞簇獲得單元110可通過在用戶搜索日志(未示出)中搜索與事件核心詞對應的事件搜索詞,來獲得事件搜索詞簇。
[0089]在步驟402,第一識別單元120可通過基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別,獲得第一事件關鍵進展點集合。
[0090]由于已通過參照圖2和圖3詳細描述了第一識別單元120基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別的方法,因此,這里省略其詳細描述。
[0091]在步驟403,第二識別單元130可通過基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別,獲得第二事件關鍵進展點集合。
[0092]具體地說,根據(jù)本發(fā)明的示例性實施例,第二識別單元130使用事件核心詞在新聞熱搜詞庫(未示出)中進行搜索,并將搜索到的新聞熱搜詞所對應的時間點識別為事件關鍵進展點。
[0093]在步驟404,求和單元140可通過將第一事件關鍵進展點集合和第二事件關鍵進展點集合進行融合和去重,獲得第三事件關鍵進展點集合。
[0094]在步驟405,優(yōu)化單元150可對第三事件關鍵進展點集合進行優(yōu)化,獲得最終事件關鍵進展脈絡。
[0095]根據(jù)本發(fā)明的示例性實施例,優(yōu)化單元150可將新聞數(shù)量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進展點的新聞量之比與預定閾值進行比較,如果新聞數(shù)量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進展點的新聞量之比均大于預定閾值,則優(yōu)化單元150認為該事件關鍵進展點之后的這些天的新聞可能屬于轉載,從而去除該事件關鍵進展點之后的所有事件關鍵進展點。這里,預定閾值可以是0.8。
[0096]根據(jù)本發(fā)明的另一示例性實施例,優(yōu)化單元150可保留事件關鍵進展進程中的每次進展的第一個事件關鍵進展點。
[0097]圖5是示出根據(jù)本發(fā)明的示例性實施例的事件關鍵進展脈略的示例的示圖。參照圖5,XXX事件的關鍵進展清晰可見。
[0098]本發(fā)明提供了一種識別事件關鍵進展的方法和設備,所述方法和設備通過基于媒體關注度和新聞熱搜詞進行事件關鍵進展識別,來獲得最終事件關鍵進展脈絡。本發(fā)明可提供清晰可見的事件脈絡,滿足用戶對事件的關注需求,提高用戶體驗。此外,本發(fā)明無需人工編輯,大大降低專題生成成本。此外,本發(fā)明可對話題進行快速的事件進展跟蹤,時效性高。此外,本發(fā)明提供的方法和設備是一種與具體項目無關的通用技術方案,因此具有很強的通用性和可移植性。
[0099]可根據(jù)計算機程序指令來執(zhí)行根據(jù)本發(fā)明的上述方法。由于這些程序指令可被包括在計算機、專用處理器或可編程或專用硬件中,因此在其中執(zhí)行的指令可有利于上述的功能的執(zhí)行。如本領域的技術人員所理解的,計算機、處理器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲器件,所述軟件或計算機代碼在被計算機、處理器或硬件訪問和執(zhí)行時實現(xiàn)在本發(fā)明中描述的方法。
[0100]雖然本發(fā)明是參照其示例性的實施例被顯示和描述的,但是本領域的技術人員應該理解,在不脫離由權利要求及其等同物限定的本發(fā)明的精神和范圍的情況下,可以對其形式和細節(jié)進行各種改變。
【權利要求】
1.一種識別事件關鍵進展的方法,所述方法包括:基于事件核心詞獲得事件搜索詞簇;通過基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別,獲得第一事件關鍵進展點集合;通過基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別,獲得第二事件關鍵進展點集合;通過將第一事件關鍵進展點集合和第二事件關鍵進展點集合進行融合和去重,獲得第三事件關鍵進展點集合;對第三事件關鍵進展點集合進行優(yōu)化,獲得最終事件關鍵進展脈絡。
2.如權利要求1所述的方法,其中,基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別的步驟包括:(1)通過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇在時間軸上每天命中的新聞數(shù)量,獲得事件搜索詞簇的新聞報道趨勢圖;(2)通過基于假期效應對新聞報道趨勢圖進行假期新聞數(shù)量調整,獲得媒體關注度趨勢圖;(3)通過對媒體關注度趨勢圖進行時序分析以識別新聞突發(fā)點,來獲得以大事件為粒度的候選事件關鍵進展點集合,其中,大事件是指大于或等于第一預定天數(shù)的連續(xù)新聞突發(fā)點的集合;(4)對候選事件關鍵進展點集合中的持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件進行基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發(fā)展脈絡的大事件是指在所述持續(xù)時間內單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件。
3.如權利要求1所述的方法,其中,基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別的步驟包括:(1)通過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇中的每個搜索詞在時間軸上每天命中的新聞數(shù)量,獲得每個搜索詞的新聞報道`趨勢圖;(2)通過基于假期效應對每個搜索詞的新聞報道趨勢圖進行假期新聞數(shù)量調整,獲得每個搜索詞的媒體關注度趨勢圖;(3)對每個搜索詞的媒體關注度趨勢圖進行時序分析以識別新聞突發(fā)點,獲得每個搜索詞的以大事件為粒度的候選事件關鍵進展點,其中,大事件是指大于或等于第一預定天數(shù)的連續(xù)新聞突發(fā)點的集合;(4)將事件搜索詞簇中的所有搜索詞的候選事件關鍵進展點進行融合,獲得候選事件關鍵進展點集合;(5)對候選事件關鍵進展點集合中的持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件進行基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發(fā)展脈絡的大事件是指在所述持續(xù)時間內單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件。
4.如權利要求1所述的方法,其中,獲得事件搜索詞簇的步驟包括:通過在用戶搜索日志中搜索與事件核心詞對應的事件搜索詞,獲得事件搜索詞簇。
5.如權利要求2或3所述的方法,其中,假期新聞數(shù)量調整的步驟包括:通過統(tǒng)計假期前一日、假期當日、假期后一日的全網(wǎng)新聞索引來分別獲得假期前一日、 假期當日、假期后一日的全網(wǎng)新聞總量;計算假期當日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值的比例;根據(jù)計算的比例調整假期當日事件搜索詞簇的新聞數(shù)量。
6.如權利要求2或3所述的方法,其中,第一預定天數(shù)為3天,第二預定天數(shù)為5天。
7.如權利要求2或3所述的方法,其中,時序分析的步驟包括:采用滑動時間窗口的方式,以第一預定時間段為一個計算時間窗口,以第二預定時間段為滑動時間窗口向前滑動,分別識別每個計算時間窗口內的新聞突發(fā)點;只要在一個計算時間窗口中將某一個時間點識別為新聞突發(fā)點,則將該時間點設置為候選關鍵進展時間點;將所有候選關鍵進展時間點進行融合,得到以大事件為粒度的候選事件關鍵進展點集口 o
8.如權利要求7所述的方法,其中,第一預定時間段為30天,第二預定時間段為2天。
9.如權利要求7所述的方法,其中,識別新聞突發(fā)點的步驟包括:計算該計算時間窗口內的所有天的事件搜索詞簇的新聞數(shù)量的均值以及方差; 通過以下的公開來計算門限值:門限值=均值+0.8X方差;如果該計算時間窗口內的某一個時間點大于計算的門限值,則將該時間點識別為新聞關發(fā)點。
10.如權利要求2或3所述的方法,其中,基于均勻假設的二次切分的步驟包括: 在持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件內,將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜索詞簇新聞量的平均值進行比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保留該天作為事件關鍵進展點; 如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則去除該天的事件關鍵進展
11.如權利要求1所述的方法,其中,基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別的步驟包括:使用事件核心詞在新聞熱搜詞庫中進行搜索;將搜索到的新聞熱搜詞所對應的時間點識別為事件關鍵進展點。
12.如權利要求2或3所述的方法,其中,對第三事件關鍵進展點集合進行優(yōu)化的步驟包括:對于一個大事件,優(yōu)化單元將新聞數(shù)量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進展點的新聞量之比與預定閾值進行比較;如果新聞數(shù)量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進展點的新聞量之比均大于預定閾值,則去除該事件關鍵進展點之后的所有事件關鍵進展點。
13.如權利要求2或3所述的方法,其中,對第三事件關鍵進展點集合進行優(yōu)化的步驟還包括:保留事件關鍵進展進程中的每次進展的第一個事件關鍵進展點。
14.一種識別事件關鍵進展的設備,所述設備包括:事件搜索詞簇獲得單兀,基于事件核心詞獲得事件搜索詞簇;第一識別單元,通過基于媒體關注度針對事件搜索詞簇進行事件關鍵進展識別,獲得第一事件關鍵進展點集合;第二識別單元,通過基于新聞熱搜詞針對事件核心詞進行事件關鍵進展識別,獲得第二事件關鍵進展點集合;求和單元,通過將第一事件關鍵進展點集合和第二事件關鍵進展點集合進行融合和去重,獲得第三事件關鍵進展點集合;優(yōu)化單元,對第三事件關鍵進展點集合進行優(yōu)化,獲得最終事件關鍵進展脈絡。
15.如權利要求14所述的設備,其中,第一識別單元包括:新聞數(shù)量計算單元,通過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇在時間軸上每天命中的新聞數(shù)量,獲得事件搜索詞簇的新聞報道趨勢圖; 假期調整單元,通過基于假期效應對新聞報道趨勢圖進行假期新聞數(shù)量調整,獲得媒體關注度趨勢圖;時序分析單元,通過對媒體關注度趨勢圖進行時序分析以識別新聞突發(fā)點,來獲得以大事件為粒度的候選事件關鍵進展點集合,其中,大事件是指大于或等于第一預定天數(shù)的連續(xù)新聞突發(fā)點的集合;切分單元,對候選事件關鍵進展點集合中的持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件進行基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有`明顯發(fā)展脈絡的大事件是指在所述持續(xù)時間內單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件。
16.如權利要求14所述的設備,其中,第一識別單元包括:新聞數(shù)量計算單元,通過使用事件搜索詞簇檢索新聞倒排索引,在預定時間段內計算事件搜索詞簇中的每個搜索詞在時間軸上每天命中的新聞數(shù)量,獲得每個搜索詞的新聞報道趨勢圖;假期調整單元,通過基于假期效應對每個搜索詞的新聞報道趨勢圖進行假期新聞數(shù)量調整,獲得每個搜索詞的媒體關注度趨勢圖;時序分析單元,對每個搜索詞的媒體關注度趨勢圖進行時序分析以識別新聞突發(fā)點, 獲得每個搜索詞的以大事件為粒度的候選事件關鍵進展點集合,其中,大事件是指大于或等于第一預定天數(shù)的連續(xù)新聞突發(fā)點的集合;融合單元,將事件搜索詞簇中的所有搜索詞的候選事件關鍵進展點集合進行融合,獲得最終的候選事件關鍵進展點集合;切分單元,對最終的候選事件關鍵進展點集合中的持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件進行基于均勻假設的二次切分,獲得第一事件關鍵進展點集合,其中,具有明顯發(fā)展脈絡的大事件是指在所述持續(xù)時間內單獨進行時序分析也能夠識別到新聞突發(fā)點的大事件。
17.如權利要求14所述的設備,其中,事件搜索詞簇獲得單元通過在用戶搜索日志中搜索與事件核心詞對應的事件搜索詞,獲得事件搜索詞簇。
18.如權利要求15或16所述的設備,其中,假期調整單元通過統(tǒng)計假期前一日、假期當日、假期后一日的全網(wǎng)新聞索引來分別獲得假期前一日、假期當日、假期后一日的全網(wǎng)新聞總量;計算假期當日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值與假期當日的全網(wǎng)新聞總量和假期前一日的全網(wǎng)新聞總量之間的差值的比例;根據(jù)計算的比例調整假期當日事件搜索詞簇的新聞數(shù)量。
19.如權利要求15或16所述的設備,其中,第一預定天數(shù)為3天,第二預定天數(shù)為5天。
20.如權利要求15或16所述的設備,其中,時序分析單元采用滑動時間窗口的方式,以第一預定時間段為一個計算時間窗口,以第二預定時間段為滑動時間窗口向前滑動,分別識別每個計算時間窗口內的新聞突發(fā)點;只要在一個計算時間窗口中將某一個時間點識別為新聞突發(fā)點,則將該時間點設置為候選關鍵進展時間點;將所有候選關鍵進展時間點進行融合,得到以大事件為粒度的候選事件關鍵進展點集合。
21.如權利要求20所述的設備,其中,第一預定時間段為30天,第二預定時間段為2天。
22.如權利要求20所述的設備,其中,時序分析單元通過下面的方法識別新聞突發(fā)點: 計算該計算時間窗口內的所有天的事件搜索詞簇的新聞數(shù)量的均值以及方差;通過以下的公開來計算門限值:門限值=均值+0.8X方差;如果該計算時間窗口內的某一個時間點大于計算的門限值,則將該時間點識別為新聞突發(fā)點。
23.如權利要求15或16所述的設備,其中,切分單元在持續(xù)時間大于或等于第二預定天數(shù)且具有明顯發(fā)展脈絡的大事件內,將每一天的事件搜索詞簇新聞量與該天之前兩天的事件搜索詞簇新聞量的平均值進行比較;如果該天的事件搜索詞簇新聞量大于所述平均值,則保留該天作為事件關鍵進展點;如果該天的事件搜索詞簇新聞量小于或等于所述平均值,則去除該天的事件關鍵進展點。
24.如權利要求14所述的設備,其中,第二識別單元使用事件核心詞在新聞熱搜詞庫中進行搜索;將搜索到的新聞熱搜詞所對應的時間點識別為事件關鍵進展點。
25.如權利要求15或16所述的設備,其中,對于一個大事件,優(yōu)化單元將新聞數(shù)量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進展點的新聞量之比與預定閾值進行比較,如果新聞數(shù)量最多的事件關鍵進展點的新聞量與該事件關鍵進展點之后的每個事件關鍵進展點的新聞量之比均大于預定閾值,則優(yōu)化單元去除該事件關鍵進展點之后的所有事件關鍵進展點。
26.如權利要求15或16所述的設備,其中,優(yōu)化單元保留事件關鍵進展進程中的每次進展的第一個事件關鍵進展點。
【文檔編號】G06F17/30GK103500163SQ201310314465
【公開日】2014年1月8日 申請日期:2013年7月24日 優(yōu)先權日:2013年7月24日
【發(fā)明者】沈劍平, 彭學政, 李凱, 羅嶸 申請人:百度在線網(wǎng)絡技術(北京)有限公司