社交網(wǎng)絡(luò)突發(fā)事件的多維度評估方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其是涉及一種社交網(wǎng)絡(luò)突發(fā)事件的多維度評 估方法。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)在人們的生活中扮演著越來越重要的角色,比如微博,國內(nèi)最大的兩大 微博平臺新浪和騰訊的注冊人數(shù)早已超過5億。CNNIC第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查 統(tǒng)計報告截至2013年12月,我國微博用戶規(guī)模為2. 81億,網(wǎng)民中微博使用率為45. 5%。
[0003] 對于突發(fā)事件或者說熱點事件來說,微博的影響規(guī)模和傳播速度超越了普通博客 和傳統(tǒng)的新聞媒體。2008年5月12日,中國四川汶川發(fā)生大地震,Twitter在約14時35 分33秒披露首條消息。包括臨武瓜農(nóng)事件、校車超載事故,以及2014年4月起在全國產(chǎn)生 巨大影響的"幼童香港小便事件"也是通過微博平臺在社會人群中迅速傳播,進(jìn)而引起廣泛 討論,微博已經(jīng)成為不可小覷的輿論平臺。
[0004] 微博能夠及時反映輿論情況,及時地從微博獲取實時信息,判斷突發(fā)事件,找到相 關(guān)微博具有重大的意義。目前從大量微博中檢測突發(fā)事件的方式多種多樣,比如采用基于 聚類的方法、采用主題模型的方法等來實現(xiàn)突發(fā)事件的檢測。并在檢測得到社交網(wǎng)絡(luò)中的 突發(fā)事件后,由于每個突發(fā)事件由多個關(guān)鍵詞組成,從而可以將檢測得到的突發(fā)事件以其 包含的關(guān)鍵詞集合的形式進(jìn)行呈現(xiàn),以使用戶獲知檢測到的各個突發(fā)事件。
[0005] 上述方案中,尤其是在檢測得到多個突發(fā)事件時,將多個突發(fā)事件分別以其包含 的關(guān)鍵詞集合的形式進(jìn)行無差異化評估,僅簡單地呈現(xiàn)出各突發(fā)事件包含的關(guān)鍵詞集合, 使得用戶無法及時獲知當(dāng)前最熱點的事件或者每個事件的主題,造成較差用戶體驗。
【發(fā)明內(nèi)容】
[0006] 針對上述存在的問題,本發(fā)明提供一種社交網(wǎng)絡(luò)突發(fā)事件的多維度評估方法,用 以實現(xiàn)差異化地評估社交網(wǎng)絡(luò)中檢測得到的各突發(fā)事件,以提高用戶體驗的目的。
[0007] 本發(fā)明提供了一種社交網(wǎng)絡(luò)突發(fā)事件的多維度評估方法,包括:
[0008] 獲取突發(fā)熱詞共現(xiàn)圖;其中,所述突發(fā)熱詞共現(xiàn)圖的節(jié)點集包括各突發(fā)熱詞節(jié)點 以及分別與每個突發(fā)熱詞節(jié)點存在共現(xiàn)關(guān)系的各共現(xiàn)詞節(jié)點,所述突發(fā)熱詞共現(xiàn)圖的邊集 包括所述各突發(fā)熱詞節(jié)點與所述各突發(fā)熱詞節(jié)點分別對應(yīng)的共現(xiàn)詞節(jié)點間的邊;其中,所 述突發(fā)熱詞共現(xiàn)圖為對關(guān)鍵詞共現(xiàn)圖進(jìn)行突發(fā)熱詞檢測后得到的,所述關(guān)鍵詞共現(xiàn)圖根據(jù) 所述社交網(wǎng)絡(luò)中的待處理數(shù)據(jù)文本中包含的共現(xiàn)關(guān)鍵詞得到,所述共現(xiàn)關(guān)鍵詞是指同時出 現(xiàn)在同一個數(shù)據(jù)文本中的關(guān)鍵詞;
[0009] 對所述突發(fā)熱詞共現(xiàn)圖進(jìn)行預(yù)設(shè)圖聚類算法處理,得到各個聚類結(jié)果,每個聚類 結(jié)果中包含的關(guān)鍵詞節(jié)點構(gòu)成一個突發(fā)事件,所述關(guān)鍵詞節(jié)點包括所述突發(fā)熱詞節(jié)點和所 述共現(xiàn)詞節(jié)點;
[0010] 分別計算每個突發(fā)事件中的各關(guān)鍵詞節(jié)點的預(yù)設(shè)度量指標(biāo)的值,根據(jù)所述預(yù)設(shè)度 量指標(biāo)的值確定所述每個突發(fā)事件的重要性度量值;
[0011] 根據(jù)所述每個突發(fā)事件的重要性度量值差異化呈現(xiàn)所述每個突發(fā)事件。
[0012] 本發(fā)明提供的社交網(wǎng)絡(luò)突發(fā)事件的多維度評估方法,在獲得包含有各待處理數(shù)據(jù) 文本中的突發(fā)熱詞以及與各突發(fā)熱詞分別共現(xiàn)連接的各共現(xiàn)詞的熱詞共現(xiàn)圖之后,基于該 熱詞共現(xiàn)圖進(jìn)行突發(fā)事件檢測,以得到各突發(fā)事件。對于每個突發(fā)事件,根據(jù)其包含的關(guān)鍵 詞集合中的各關(guān)鍵詞的預(yù)設(shè)指標(biāo)的指標(biāo)值得到其重要性度量值,從而根據(jù)反映了各突發(fā)事 件不同重要程度的多維重要性度量值來確定各突發(fā)事件的差異化表現(xiàn)形式。通過該差異化 評估,使得用戶能夠直觀、明顯便捷地獲知當(dāng)前社交網(wǎng)絡(luò)中最為重要的事件。
【附圖說明】
[0013] 圖1為本發(fā)明社交網(wǎng)絡(luò)突發(fā)事件的多維度評估方法實施例一的流程圖;
[0014] 圖2為本發(fā)明社交網(wǎng)絡(luò)突發(fā)事件的多維度評估方法實施例二的流程圖;
[0015] 圖3為實施例二中關(guān)鍵詞共現(xiàn)圖的示意圖;
[0016] 圖4為實施例二中突發(fā)熱詞共現(xiàn)圖的示意圖。
【具體實施方式】
[0017] 圖1為本發(fā)明社交網(wǎng)絡(luò)突發(fā)事件的多維度評估方法實施例一的流程圖,如圖1所 示,該方法包括:
[0018] 步驟101、獲取突發(fā)熱詞共現(xiàn)圖;
[0019] 其中,所述突發(fā)熱詞共現(xiàn)圖Gk(t)的節(jié)點集包括各突發(fā)熱詞節(jié)點以及分別與每個 突發(fā)熱詞節(jié)點存在共現(xiàn)關(guān)系的各共現(xiàn)詞節(jié)點,所述突發(fā)熱詞共現(xiàn)圖的邊集包括所述各突發(fā) 熱詞節(jié)點與所述各突發(fā)熱詞節(jié)點分別對應(yīng)的共現(xiàn)詞節(jié)點間的邊;其中,所述突發(fā)熱詞共現(xiàn) 圖為對關(guān)鍵詞共現(xiàn)圖進(jìn)行突發(fā)熱詞檢測后得到的,所述關(guān)鍵詞共現(xiàn)圖根據(jù)所述社交網(wǎng)絡(luò)中 的待處理數(shù)據(jù)文本中包含的共現(xiàn)關(guān)鍵詞得到,所述共現(xiàn)關(guān)鍵詞是指同時出現(xiàn)在同一個數(shù)據(jù) 文本中的關(guān)鍵詞。
[0020] 本實施例中的社交網(wǎng)絡(luò)比如可以是微博、論壇等社交網(wǎng)絡(luò),本實施例中的所述待 處理數(shù)據(jù)文本相應(yīng)的比如可以是微博數(shù)據(jù)文本。值得說明的是,本實施例中主要是針對文 本類型的數(shù)據(jù)信息進(jìn)行處理,稱之為數(shù)據(jù)文本。微博數(shù)據(jù)具有數(shù)據(jù)質(zhì)量低、文本短、用語非 正式、非事件噪音文本多等特點。為了能夠準(zhǔn)確檢測出眾多微博數(shù)據(jù)文本中所包含的突發(fā) 事件,即在很短時間段內(nèi)被廣泛討論、傳播的熱點事件,首先,需要從各個數(shù)據(jù)文本中確定 共現(xiàn)關(guān)鍵詞,其中,共現(xiàn)關(guān)鍵詞是指同時出現(xiàn)在同一個數(shù)據(jù)文本中的關(guān)鍵詞,即同一個數(shù)據(jù) 文本中的關(guān)鍵詞存在共現(xiàn)關(guān)系。
[0021] 本實施例中,社會網(wǎng)絡(luò)比如微博中的一個事件被表示成一組緊密相關(guān)的關(guān)鍵詞集 合。但是實際上,盡管描述一件事件的數(shù)據(jù)文本多種多樣,但是其核心的關(guān)鍵詞會有一致的 傾向。對于突發(fā)事件來說,其核心關(guān)鍵詞在使用量上會有突發(fā)性特征。因此,本實施例中使 用關(guān)鍵詞與關(guān)鍵詞的共現(xiàn)關(guān)系,建模關(guān)鍵詞與關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系。
[0022] 具體地,首先構(gòu)建關(guān)鍵詞共現(xiàn)圖,簡單來說,該關(guān)鍵詞共現(xiàn)圖用G(t)代表,其中的 節(jié)點集合中包括各數(shù)據(jù)文本中的關(guān)鍵詞,即由關(guān)鍵詞節(jié)點構(gòu)成節(jié)點集合,各關(guān)鍵詞節(jié)點之 間的共現(xiàn)關(guān)系作為邊集合中的邊。具體的構(gòu)建過程將在后面的實施例中詳細(xì)描述,此處不 做詳細(xì)說明。
[0023] 為了檢測出社交網(wǎng)絡(luò)中當(dāng)前檢測時刻時存在的各突發(fā)事件,本實施例需要在上述 關(guān)鍵詞共現(xiàn)圖G(t)的基礎(chǔ)上,通過突發(fā)熱詞檢測來檢測出關(guān)鍵詞共現(xiàn)圖用G(t)中的突發(fā) 熱詞,從而得到由各突發(fā)熱詞和分別與每個突發(fā)熱詞具有共現(xiàn)連接關(guān)系的共現(xiàn)詞作為節(jié)點 的突然熱詞共現(xiàn)圖Gk(t)。突然熱詞共現(xiàn)圖Gk(t)中包含了對突發(fā)事件檢測最具有意義的 各個節(jié)點以及節(jié)點間的連接邊,對于突發(fā)熱詞檢測的過程將在后面的實施例中詳細(xì)描述。
[0024] 步驟102、對所述突發(fā)熱詞共現(xiàn)圖進(jìn)行預(yù)設(shè)圖聚類算法處理,得到各個聚類結(jié)果, 每個聚類結(jié)果中包含的關(guān)鍵詞節(jié)點構(gòu)成一個突發(fā)事件,所述關(guān)鍵詞節(jié)點包括所述突發(fā)熱詞 節(jié)點和所述共現(xiàn)詞節(jié)點。
[0025] 本實施例中,可以采用圖聚類處理算法來對突發(fā)熱詞共現(xiàn)圖Gk (t)進(jìn)行聚類處理, 以得到與每個聚類結(jié)果對應(yīng)的突發(fā)事件,比如模塊(modularity)聚類算法。
[0026] 可選的,在步驟101得到上述熱詞共現(xiàn)圖之后,還可以包括如下步驟:
[0027] 步驟201、對所述突發(fā)熱詞共現(xiàn)圖進(jìn)行過濾去噪處理,得到去噪后的突發(fā)熱詞共現(xiàn) 圖。
[0028] 其中,所述過濾去噪處理包括:
[0029] 過濾掉所述突發(fā)熱詞共現(xiàn)圖中邊頻率小于預(yù)設(shè)邊頻率閾值的邊;
[0030] 過濾掉所述突發(fā)熱詞共現(xiàn)圖中鄰節(jié)點數(shù)不大于預(yù)設(shè)數(shù)量閾值的節(jié)點,所述節(jié)點包 括所述突發(fā)熱詞共現(xiàn)圖中的突發(fā)熱詞節(jié)點和共現(xiàn)詞節(jié)點。
[0031] 為了得到關(guān)聯(lián)關(guān)系更強的突發(fā)事件檢測結(jié)果,在進(jìn)行突發(fā)事件檢測的步驟之前, 還可以采用噪音過濾方式在每個檢測周期對突發(fā)熱詞共現(xiàn)圖Gk(t)進(jìn)行去噪處理。具體來 說,對于突發(fā)熱詞共現(xiàn)圖Gk (t)中的每個突發(fā)熱詞節(jié)點,其維護(hù)有其突發(fā)程度信息即ZValue 的值,當(dāng)前檢測時間t,共現(xiàn)詞節(jié)點集合以及與每個共現(xiàn)詞節(jié)點間的邊的邊頻率值。這些信 息將在后續(xù)實施例中詳細(xì)介紹。因此,基于這些信息,一方面,過濾掉突發(fā)熱詞共現(xiàn)圖Gk(t) 中邊頻率小于預(yù)設(shè)邊頻率閾值的邊。即針對每個突發(fā)熱詞節(jié)點,通過其與對應(yīng)的共現(xiàn)詞節(jié) 點集合中的每個共現(xiàn)詞節(jié)點間邊的邊頻率的值與預(yù)設(shè)邊頻率閾值進(jìn)行比較,去掉小于預(yù)設(shè) 邊頻率閾值的邊。另一方面,過濾掉突發(fā)熱詞共現(xiàn)圖Gk(t)中鄰節(jié)點數(shù)不大于預(yù)設(shè)數(shù)量閾 值比如1的節(jié)點,所述節(jié)點包括所述突發(fā)熱詞共現(xiàn)圖Gk(t)中的突發(fā)熱詞節(jié)點和共現(xiàn)詞節(jié) 點。被刪除的突發(fā)熱詞節(jié)點不和第三個節(jié)點共同出現(xiàn),可以認(rèn)為它不具有語義上的緊密型, 從而不能代表一個事件;被刪除的共現(xiàn)詞節(jié)點則代表了與其關(guān)聯(lián)的突發(fā)熱詞節(jié)點在其他語 境上下文中的使用方法。通常情況下,去噪會去掉Gk