基于微博的事件脈絡獲取方法和系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及信息處理技術,尤其涉及一種基于微博的事件脈絡獲取方法和系統(tǒng)。
【背景技術】
[0002] 微博已經(jīng)成為目前網(wǎng)民最為常見的一種休閑互動方式,同時微博也是一種用戶了 解新聞事件、傳播新聞事件的有效工具,具有明顯的媒體屬性。相同話題所包含的事件構成 的集合在新聞門戶網(wǎng)站中一般稱之為專題,一個專題通常由若干事件進展組成。譬如:"釣 魚島爭端"專題中包括"日本購島","香港保釣"等若干事件。任何專題事件都包括產(chǎn)生、發(fā) 展、高潮、結束這樣一個過程,且整個過程中關鍵時間節(jié)點上發(fā)生的事件串聯(lián)起來便形成了 關于該專題進展的事件脈絡。事件脈絡是了解一個新聞專題事件發(fā)展的重要途徑。那么, 如何基于微博獲取某個專題事件的事件脈絡便給技術人員提出了新的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的實施例提供一種基于微博的事件脈絡獲取方法和系統(tǒng),以利用微博快 速、準確的獲取預定專題所包含事件的事件脈絡。
[0004] 為達到上述目的,本發(fā)明的實施例提供了一種基于微博的事件脈絡獲取方法,包 括:獲取統(tǒng)計時間段內(nèi)針對預定的專題所包含的事件的原創(chuàng)微博及其轉發(fā)微博的信息;計 算所述事件的原創(chuàng)微博及其轉發(fā)微博的信息在所述統(tǒng)計時間段內(nèi)對應的關于所述專題的 事件熱度時間分布,所述事件熱度為與事件相關的原創(chuàng)微博及其轉發(fā)微博在用戶群中的關 注程度;根據(jù)所述統(tǒng)計時間段內(nèi)所述專題的事件熱度時間分布,從所述統(tǒng)計時間段內(nèi)選取 多個事件脈絡時間節(jié)點,及其對應的節(jié)點事件構成所述專題的事件脈絡。
[0005] 進一步地,所述原創(chuàng)微博及其轉發(fā)微博的信息包括:所述原創(chuàng)微博及其轉發(fā)微博 的評論數(shù)、轉發(fā)數(shù)和點贊數(shù)。
[0006] 優(yōu)選地,所述計算所述事件的原創(chuàng)微博及其轉發(fā)微博的信息在所述統(tǒng)計時間段內(nèi) 對應的關于所述專題的事件熱度時間分布的處理包括:根據(jù)所述專題所包含的事件的所有 原創(chuàng)微博及其轉發(fā)微博的所述評論數(shù)、轉發(fā)數(shù)和點贊數(shù)計算所述統(tǒng)計時間段內(nèi)關于所述專 題的第一事件熱度時間分布;所述第一事件熱度為所有目標事件對應的所述事件熱度的和 值。
[0007] 進一步地,所述根據(jù)所述專題所包含的事件的所有原創(chuàng)微博及其轉發(fā)微博的所述 評論數(shù)、轉發(fā)數(shù)和點贊數(shù)計算所述統(tǒng)計時間段內(nèi)關于所述專題的第一事件熱度時間分布的 處理包括:對所述專題所包含的事件的所有原創(chuàng)微博及其轉發(fā)微博的所述評論數(shù)、轉發(fā)數(shù) 和點贊數(shù)分別設置權重系數(shù);將所述統(tǒng)計時間段內(nèi)各時間節(jié)點對應的所述事件的所有新產(chǎn) 生的原創(chuàng)微博及轉發(fā)微博的所述評論數(shù)、轉發(fā)數(shù)和點贊數(shù)分別與對應的權重系數(shù)相乘后, 再相加的和值作為相應時間節(jié)點上所述第一事件熱度;根據(jù)所述統(tǒng)計時間段內(nèi)各時間節(jié)點 對應的所述第一事件熱度,形成所述第一事件熱度時間分布。
[0008] 進一步地,所述根據(jù)所述統(tǒng)計時間段內(nèi)所述專題的事件熱度時間分布,從所述統(tǒng) 計時間段內(nèi)選取多個事件脈絡時間節(jié)點的處理包括:根據(jù)所述統(tǒng)計時間段內(nèi)所述專題的第 一事件熱度時間分布,從所述統(tǒng)計時間段內(nèi)選取多個位于所述第一事件熱度時間分布中表 征第一事件熱度陡增的時間節(jié)點;將所述第一事件熱度時間分布中表征第一事件熱度陡增 的時間節(jié)點中最早的時間節(jié)點確定為起始事件的脈絡時間節(jié)點。
[0009] 進一步地,所述根據(jù)所述統(tǒng)計時間段內(nèi)所述專題的第一事件熱度時間分布,從所 述統(tǒng)計時間段內(nèi)選取多個位于所述第一事件熱度時間分布中表征第一事件熱度陡增的時 間節(jié)點的處理包括:針對所述統(tǒng)計時間段內(nèi)所述專題對應的所述第一事件熱度時間分布, 利用一個包含多個時間節(jié)點的計算窗口以一個時間節(jié)點作為滑動窗口計算所述統(tǒng)計時間 段內(nèi)各時間節(jié)點對應的第一事件熱度陡增參量,并形成第一事件熱度陡增參量序列;將所 述第一事件熱度陡增參量序列中大于第一閾值的第一事件熱度對應的時間節(jié)點確定為所 述表征第一事件熱度陡增的時間節(jié)點。
[0010] 可選地,所述第一閾值為通過如下處理獲得:計算所述第一事件熱度陡增參量序 列的平均值和標準差,并配置相應的權重系數(shù);將所述第一事件熱度陡增參量序列的平均 值和標準差分別乘以相應的權重系數(shù)后,其和值確定為所述第一閾值。
[0011] 進一步地,所述計算所述事件的原創(chuàng)微博及其轉發(fā)微博的信息在所述統(tǒng)計時間段 內(nèi)對應的關于所述專題的事件熱度時間分布的處理包括:根據(jù)所述統(tǒng)計時間段內(nèi),所述專 題所包含的事件在所述起始事件的脈絡時間節(jié)點以后的所有原創(chuàng)微博及其轉發(fā)微博的所 述評論數(shù)、轉發(fā)數(shù)和點贊數(shù)計算所述統(tǒng)計時間段內(nèi)關于所述專題的第二事件熱度時間分 布;所述第二事件熱度為對所有目標事件對應的原創(chuàng)微博及其轉發(fā)微博分別設置權重系數(shù) 后的所述事件熱度的權重和值。
[0012] 優(yōu)選地,所述根據(jù)所述統(tǒng)計時間段內(nèi),所述專題所包含的事件在所述起始事件的 脈絡時間節(jié)點以后的所有原創(chuàng)微博及其轉發(fā)微博的所述評論數(shù)、轉發(fā)數(shù)和點贊數(shù)計算所述 統(tǒng)計時間段內(nèi)關于所述專題的第二事件熱度時間分布的處理包括:對所述統(tǒng)計時間段內(nèi), 所述起始事件的脈絡時間節(jié)點以后的所述專題所包含的事件的所有新產(chǎn)生的原創(chuàng)微博及 其轉發(fā)微博的所述評論數(shù)、轉發(fā)數(shù)和點贊數(shù)分別設置權重系數(shù);將所述統(tǒng)計時間段內(nèi),所述 起始事件的脈絡時間節(jié)點以后的所述專題所包含的事件的所有新產(chǎn)生的原創(chuàng)微博及其轉 發(fā)微博中,在所述起始事件的脈絡時間節(jié)點以后的各時間節(jié)點上新產(chǎn)生的所述評論數(shù)、轉 發(fā)數(shù)和點贊數(shù)分別與對應的權重系數(shù)相乘,再將所有原創(chuàng)微博對應的乘積值相加,得到相 應時間節(jié)點對應的原創(chuàng)微博的事件熱度;和再將所有轉發(fā)微博對應的乘積值相加,得到相 應時間節(jié)點對應的轉發(fā)微博的事件熱度;對所述原創(chuàng)微博的事件熱度和所述轉發(fā)微博的事 件熱度分別設置相應的權重系數(shù);將所述起始事件的脈絡時間節(jié)點以后的各時間節(jié)點上對 應的所述原創(chuàng)微博的事件熱度和轉發(fā)微博的事件熱度分別與相應的權重系數(shù)相乘后,再相 加的和值作為相應時間節(jié)點上所述第二事件熱度;根據(jù)所述統(tǒng)計時間段內(nèi),所述起始事件 的脈絡時間節(jié)點以后的各時間節(jié)點對應的所述第二事件熱度,形成所述第二事件熱度時間 分布。
[0013] 進一步地,所述根據(jù)所述統(tǒng)計時間段內(nèi)所述專題的事件熱度時間分布,從所述統(tǒng) 計時間段內(nèi)選取多個事件脈絡時間節(jié)點的處理包括:根據(jù)所述統(tǒng)計時間段內(nèi)所述專題的第 二事件熱度時間分布,從所述統(tǒng)計時間段內(nèi)選取多個位于所述第二事件熱度時間分布中表 征有新事件產(chǎn)生的時間節(jié)點;將所述第二事件熱度時間分布中表征有新事件產(chǎn)生的時間節(jié) 點確定為發(fā)展事件的脈絡時間節(jié)點。
[0014] 進一步地,所述根據(jù)所述統(tǒng)計時間段內(nèi)所述專題的第二事件熱度時間分布,從所 述統(tǒng)計時間段內(nèi)選取多個位于所述第二事件熱度時間分布中表征有新事件產(chǎn)生的時間節(jié) 點的處理包括:統(tǒng)計所述統(tǒng)計時間段內(nèi),所述起始事件的脈絡時間節(jié)點以后的非所述專題 對應的其他專題所包含事件對應的所述第二事件熱度時間分布;針對包含所述專題以及非 所述專題對應的所述第二事件熱度時間分布,利用兩個相鄰且包含相同時間節(jié)點的計算窗 口以一個時間節(jié)點作為滑動窗口計算所述第二事件熱度時間分布上每相鄰兩個時間節(jié)點 對應的所述專題與非所述專題之間所述第二熱度比值的卡方統(tǒng)計量,并將所述卡方統(tǒng)計量 作為后一計算窗口中第一個所述時間節(jié)點對應的卡法統(tǒng)計量;將所述卡方統(tǒng)計量中大于第 二閾值的卡方統(tǒng)計量對應的時間節(jié)點確定為一個所述表征有新事件產(chǎn)生的時間節(jié)點。
[0015] 進一步地,所述根據(jù)所述統(tǒng)計時間段內(nèi)所述專題的事件熱度時間分布,從所述統(tǒng) 計時間段內(nèi)選取多個事件脈絡時間節(jié)點對應的所述事件的處理包括:對獲取的所述專題對 應的所述起始事件的脈絡時間節(jié)點以及多個所述發(fā)展事件的所述脈絡時間節(jié)點對應的所 述專題包含的新增事件的原創(chuàng)微博的事件熱度以及微博質量進行綜合分數(shù)評估,并選取所 述綜合分數(shù)最高的原創(chuàng)微博對應的事件作為相應所述脈絡時間節(jié)點對應的所述節(jié)點事件。
[0016] 本發(fā)明的實施例還提供了一種基于微博的事件脈絡獲取系統(tǒng),包括:信息獲取模 塊,用于獲取統(tǒng)計時間段內(nèi)針對預定的專題所包含的事件的原創(chuàng)微博及其轉發(fā)微博的信 息;事件熱度計算模塊,用于計算所述事件的原創(chuàng)微博及其轉發(fā)微博的信息在所述統(tǒng)計時 間段內(nèi)對應的關于所述專題的事件熱度時間分布,所述事件熱度為與事件相關的原創(chuàng)微博 及其轉發(fā)微博在用戶群中的關注程度;事件脈絡生成模塊,用于根據(jù)所述統(tǒng)計時間段內(nèi)所 述專題的事件熱度時間分布,從所述統(tǒng)計時間段內(nèi)選取多個事件脈絡時間節(jié)點,及其對應 的節(jié)點事件構成所述專題的事件脈絡。
[0017] 進一步地,所述原創(chuàng)微博及其轉發(fā)微博的信息包括:所述原創(chuàng)微博及其轉發(fā)微博 的評論數(shù)、轉發(fā)數(shù)和點贊數(shù)。
[0018] 優(yōu)選地,所述事件熱度計算模塊,用于根據(jù)所述專題所包含的事件的所有原創(chuàng)微 博及其轉發(fā)微博的所述評論數(shù)、轉發(fā)數(shù)和點贊數(shù)計算所述統(tǒng)計時間段內(nèi)關于所述專題的第 一事件熱度時間分布;所述第一事件熱度為所有目標事件對應的所述事件熱度的和值。
[0019] 進一步地,所述事件熱度計算模塊包括:第一權重系數(shù)設置單元,用于對所述專題 所包含的事件的所有原創(chuàng)微博及其轉發(fā)微博的所述評論數(shù)、轉發(fā)數(shù)和點贊數(shù)分別設置權重 系數(shù);第一事件熱度生成單元,用于將所述統(tǒng)計時間段內(nèi)各時間節(jié)點對應的所述事件的所 有新產(chǎn)生的原創(chuàng)微博及轉發(fā)微博的所述評論數(shù)、轉發(fā)數(shù)和點贊數(shù)分別與對應的權重系數(shù)相 乘后,再相加的和值作為相應時間節(jié)點上所述第一事件熱度;第一事件熱度分布單元,用于 根據(jù)所述統(tǒng)計時間段內(nèi)各時間節(jié)點對應的所述第一事件熱度,形成所述第一事件熱度時間 分布。
[0020] 進一步地,所述事件脈絡生成模塊包括:熱度陡增選取單元,用于根據(jù)所述統(tǒng)計時 間段內(nèi)所述專題的第一事件熱度時間分布,從所述統(tǒng)計時間段內(nèi)選取多個位于所述第一事 件熱度時間分布中表征第一事件熱度陡增的時間節(jié)點;起始事件節(jié)點單元,用于將所述第 一事件熱度時間分布中表征第一事件熱度陡增的時間節(jié)點中最早的時間節(jié)點確定為起始 事件的脈絡時間節(jié)點。
[0021] 進一步地,所述熱度陡增選取單元用于:針對所述統(tǒng)計時間段內(nèi)所述專題對應的 所述第一事件熱度時間分布,利用一個包含多個時間節(jié)點的計算窗口以一個時間節(jié)點作為 滑動窗口計算所述統(tǒng)計時間段內(nèi)各時間節(jié)點對應的第一事件熱度陡增參量,并形成第一事 件熱度陡增參量序列;將所述第一事件熱度陡增參量序列中大于第一閾值的第一事件熱度 對應的時間節(jié)點確定為所述表