一種面向微博文本流的突發(fā)關鍵詞檢測方法
【專利摘要】本發(fā)明涉及互聯(lián)網信息管理領域,尤其涉及一種面向微博文本流的突發(fā)關鍵詞檢測方法。本發(fā)明包括:實時采集微博數(shù)據,針對實時微博數(shù)據流建立基于動態(tài)滑動窗口機制的消息會話模型;從消息會話模型中抽取用戶信任屬性,根據設定的信任窗口大小構建動態(tài)信任模型,計算用戶的信任度;根據設定的消息窗口大小對實時微博消息流進行切分,融合用戶信任度計算每個時間窗口中關鍵詞的權重,形成突發(fā)關鍵詞的權重序列;針對突發(fā)關鍵詞的權重序列,采用基于動力學模型的突發(fā)關鍵詞發(fā)現(xiàn)算法計算關鍵詞的突發(fā)權值,如果關鍵詞的突發(fā)權值大于系統(tǒng)設定的突發(fā)閾值則該詞為突發(fā)關鍵詞。此方法能夠降低人類作息時間的影響,提高檢測突發(fā)關鍵詞的準確度。
【專利說明】一種面向微博文本流的突發(fā)關鍵詞檢測方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網信息管理領域,尤其涉及一種面向微博文本流的突發(fā)關鍵詞檢測方法。
【背景技術】
[0002]隨著2006年Twitter正式上線以及Web2.0技術的快速發(fā)展,以互聯(lián)網為載體的各種社交網絡平臺成為Web2.0時代最具代表性的應用,其中微博客(以下簡稱微博)作為其中主要的平臺得到了廣大網民的關注。國內包括新浪、騰訊、搜狐和網易等主要網絡媒體平臺自2009年開始分別推出各自的微博服務,微博正式進入中文上網主流人群視野。
[0003]目前微博以及成為網民獲取信息的重要途徑之一,微博從滿足人們弱關系的社交需求上逐漸演變成為大眾化的輿論平臺,越來越多機構及公眾人物都通過微博來發(fā)布或傳播信息。由于微博的即時性、自主性以及互動性,使得許多非常規(guī)突發(fā)事件發(fā)生后,微博作為人們信息發(fā)布的主要載體為突發(fā)事件提供了第一傳播平臺,包括“2013年吉林省松原地震”以及“青島石油管線爆炸”等突發(fā)事件,微博都是最早的信息來源。
[0004]微博中對于社會突發(fā)事件的報道和討論對于危機應對和態(tài)勢感知是有積極意義的,但是由于用戶參與微博的技術門檻較低,用戶自身素質良莠不齊,特別是微博用戶中存在一些僵尸粉絲為了自身利益以人為外力作用的方式協(xié)同推動對消費者有蠱惑的虛假突發(fā)話題,這類話題一旦通過微博在短時間內不斷被轉發(fā)擴散,將會助長虛假突發(fā)話題的傳播并產生極為不良的影響。微博已經成為互聯(lián)網輿情形成的主要網絡媒體之一,其中對突發(fā)話題的檢測是網絡輿情管理的重要目標之一,因此,突發(fā)關鍵詞檢測作為突發(fā)話題檢測最重要的一個步驟顯得尤為重要。
[0005]現(xiàn)有的微博突發(fā)關鍵詞發(fā)現(xiàn)方法中未考慮僵尸粉絲在突發(fā)話題形成過程中的推動作用以及人類生活作息對突發(fā)關鍵詞檢測方法的準確度的影響,應用到實際微博輿情監(jiān)管中可能將僵尸粉絲推動以及受人類生活作息影響較大的關鍵詞誤判為突發(fā)關鍵詞從而導致較大的誤報率、較低的檢測率。
【發(fā)明內容】
[0006]本發(fā)明的目的是提供一種提高突發(fā)關鍵詞檢測率和準確度的面向微博文本流的突發(fā)關鍵詞檢測方法。
[0007]本發(fā)明的目的是這樣實現(xiàn)的:
[0008](I)實時采集微博數(shù)據,針對實時微博數(shù)據流建立基于動態(tài)滑動窗口機制的消息會話模型;
[0009](2)從消息會話模型中抽取用戶信任屬性,根據設定的信任窗口大小構建動態(tài)信任模型,計算用戶的信任度;
[0010](3)根據設定的消息窗口大小對實時微博消息流進行切分,融合用戶信任度計算每個時間窗口中關鍵詞的權重,形成突發(fā)關鍵詞的權重序列;
[0011](4)針對突發(fā)關鍵詞的權重序列,采用基于動力學模型的突發(fā)關鍵詞發(fā)現(xiàn)算法計算關鍵詞的突發(fā)權值,如果關鍵詞的突發(fā)權值大于系統(tǒng)設定的突發(fā)閾值則該詞為突發(fā)關鍵
ο
[0012]動態(tài)滑動窗口機制為動態(tài)滑動信任窗口和動態(tài)滑動消息窗口。
[0013]消息會話模型中包括:
[0014]微博消息、微博用戶以及關鍵詞的關聯(lián)操作;
[0015]針對實時消息流消息會話模型的更新以及刪除操作。
[0016]在抽取用戶信任屬性之前還包括:
[0017]根據用戶交互行為定義用戶交互動作以及用戶交互指數(shù);
[0018]根據信任窗口內的用戶交互動作建立用戶交互圖。
[0019]用戶信任屬性包括:
[0020]用戶交互度以及用戶交互質量。
[0021]在計算關鍵詞的權重之前還包括:
[0022]對微博消息內容進行預處理,包括中文分詞、標簽的識別與提取、去停用詞、提取名詞和動詞作為關鍵詞。
[0023]在生成關鍵詞的權重序列之前還包括:
[0024]根據用戶作息時間以及關鍵詞的歷史權重值消除用戶作息時間對突發(fā)關鍵詞檢測的影響。
[0025]基于動力學模型的突發(fā)關鍵詞發(fā)現(xiàn)算法包括:
[0026]定義與形式化基于動力學的趨勢分析指標對關鍵詞權重序列進行處理。
[0027]本發(fā)明的有益效果在于:
[0028]1、本發(fā)明提出一個基于用戶交互行為的信任模型,利用兩個信任屬性評估用戶的信任度,融合此信任模型的突發(fā)關鍵詞發(fā)現(xiàn)方法能夠避免發(fā)現(xiàn)由僵尸粉絲推動的偽突發(fā)關鍵詞。
[0029]2、本發(fā)明提出一個基于動力學模型的突發(fā)關鍵詞發(fā)生方法,此方法能夠降低人類作息時間的影響,提高檢測突發(fā)關鍵詞的準確度。
【專利附圖】
【附圖說明】
[0030]圖1是本發(fā)明提供的微博突發(fā)關鍵詞檢測的方法的流程圖。
【具體實施方式】
[0031]下面結合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部內容。
[0032]此方法利用信任模型對微博用戶的交互行為進行可信度評估從而獲取用戶可信度,只有用戶信任度高于設定信任閾值的可信用戶的微博消息才可以作為基于動力學的突發(fā)關鍵詞發(fā)現(xiàn)算法的輸入,結合信任模型以及基于動力學的突發(fā)關鍵詞發(fā)現(xiàn)算法檢測微博中的突發(fā)關鍵詞從而降低微博中僵尸粉絲以及人類生活作息時間的影響,快速準確的檢測微博中的突發(fā)關鍵詞。
[0033]為實現(xiàn)上訴發(fā)明目的,本發(fā)明提供一種面向微博文本流的突發(fā)關鍵詞檢測方法,該方法包括:
[0034]實時采集微博數(shù)據,針對實時微博數(shù)據流建立基于動態(tài)滑動窗口機制的消息會話模型;
[0035]從消息會話模型中抽取用戶信任屬性,根據設定的信任窗口大小構建動態(tài)信任模型,計算用戶的信任度;
[0036]根據設定的消息窗口大小對實時微博消息流進行切分,融合用戶信任度計算每個消息窗口中關鍵詞的權重,形成突發(fā)關鍵詞的權重序列;
[0037]針對突發(fā)關鍵詞的權重序列,采用基于動力學模型的突發(fā)關鍵詞發(fā)現(xiàn)算法計算關鍵詞的突發(fā)權值,如果關鍵詞的突發(fā)權值大于系統(tǒng)設定的突發(fā)閾值則該詞為突發(fā)關鍵詞。
[0038]進一步地,所述動態(tài)滑動窗口機制為動態(tài)滑動信任窗口和動態(tài)滑動消息窗口,并且根據突發(fā)關鍵詞的檢測精度和實時性角度考慮設定信任窗口以及消息窗口的大小。
[0039]進一步地,在所述的消息會話模型中包括:
[0040]微博消息、微博用戶以及關鍵詞的關聯(lián)操作;
[0041]針對實時消息流消息會話模型的更新以及刪除操作。
[0042]進一步地,在抽取用戶信任屬性之前還包括:
[0043]根據用戶交互行為定義用戶交互動作以及用戶交互指數(shù);
[0044]根據信任窗口內的用戶交互動作建立用戶交互圖。
[0045]進一步地,所述用戶信任屬性包括:
[0046]用戶交互度以及用戶交互質量。
[0047]進一步地,在計算關鍵詞的權重之前還包括:
[0048]對微博消息內容進行預處理,包括中文分詞、標簽的識別與提取、去停用詞、提取名詞和動詞作為關鍵詞。
[0049]進一步地,在生成關鍵詞的權重序列之前還包括:
[0050]根據用戶作息時間以及關鍵詞的歷史權重值消除用戶作息時間對突發(fā)關鍵詞檢測的影響。
[0051]進一步地,所述基于動力學模型的突發(fā)關鍵詞發(fā)現(xiàn)算法包括:
[0052]定義與形式化基于動力學的趨勢分析指標對關鍵詞權重序列進行處理。
[0053]圖1是本發(fā)明實施例提供的面向微博文本流的突發(fā)關鍵詞檢測方法的實現(xiàn)流程圖,該方法詳述如下:
[0054]在步驟101中,實時采集微博數(shù)據,針對實時微博數(shù)據流建立基于動態(tài)滑動窗口機制的消息會話模型。
[0055]針對采集到的微博實時消息流的微博消息,對消息內容進行切分處理,并對切分結果進行處理,便于添加和刪除,同時進行微博消息、用戶和消息內容關聯(lián)操作。由于微博消息流中微博消息更新速度快,方案中通過增量更新方法更新二部圖中已有的邊的權值,考慮不同窗口下的流特征模式增加淘汰機制,針對超過閾值時間沒有更新的節(jié)點或者權值衰退為O的邊進行刪除操作。
[0056]在步驟102中,從消息會話模型中抽取用戶信任屬性,根據設定的滑動信任窗口大小構建動態(tài)社會信任模型,計算用戶的信任度。
[0057]示例性地,在信任模型中從用戶交互度以及用戶交互質量兩個信任屬性對微博用戶的可信度進行評估,在抽取用戶信任屬性之前,根據用戶交互行為定義用戶交互動作、用戶交互圖以及用戶交互指數(shù):
[0058]用戶交互動作:對于用戶Ui和Up如果Ui與+主動交互(評論、轉發(fā)等行為)則稱單向交互為主動交互,其中Ui主動用戶,+為被動用戶。當+回應Ui的主動交互(回復),則稱其為被動交互,單向用戶交互轉變?yōu)殡p向用戶交互。
[0059]用戶交互圖:用戶交互圖定義為無向有權圖G = (U,E,W),用戶交互圖中U表示用戶集合,E表不頂點之間有雙向交互關系的邊的集合,對于任意的Wij e ff, Wij表不用戶Ui和Uj的交互次數(shù)。
[0060]用戶交互指數(shù):如果用戶Ui在用戶交互圖G中的至少有r個鄰居節(jié)點,每個鄰居節(jié)點至少有r次交互,則稱用戶Ui的交互指數(shù)為r。
[0061]示例性地,在社會信任模型中利用滑動信任窗口機制根據被動交互的時間將用戶的歷史交互劃分成M個信任窗口,每個窗口大小為Tt。用戶動態(tài)社會信任模型主要由三部分構成:用戶交互度、用戶交互質量以及用戶交互演變,其量化指標如下:
[0062]⑴用戶交互度
[0063]假設用戶Ui在信任窗口 m的用戶交互圖表示為Gi,,用戶Ui的雙向交互數(shù)的計算公式如下:
[0064]N(i,m)= ^ Wij
jeU1.m
[0065]其中Ui,為用戶Ui的鄰居節(jié)點集合,用戶Ui的交互度定義如下:
0N(i,m) = O
[0066]D(ijn) = < 0.5 O < A1(Ijn) < 5
1N(i,m) > 5
[0067]⑵用戶交互質量
[0068]用戶Ui的交互質量計算公式如下:
0/(/,m) = O
[0069]R(i,m) = < 0.5 O << 5
1/(/,"?) >5
[0070]其中I (i,m)表示用戶Ui在信任窗口 m的交互指數(shù)。用戶Ui的交互質量在一定程度上反應了與用戶Ui有交互關系的用戶質量。結合用戶交互度和交互質量,用戶在信任窗口 m的信任值計算公式如下:
[0071]T(i,m) = λ R(i, m) + (1-λ )D(i, m)
[0072]其中λ (O < λ < I)為調節(jié)因子,表示用戶交互度和用戶交互質量在計算用戶信任值的不同權重。
[0073]⑶用戶交互演變
[0074]由于用戶的信任會隨著時間不斷變化,因此需要基于歷史信任窗口的信任值建立長期動態(tài)信任模型。假設用戶Ui的歷史信任值為T (i,m),其中I < m < M,M為最近的歷史信任窗口數(shù),歷史信任窗口的信任值可以表示如下:
【權利要求】
1.一種面向微博文本流的突發(fā)關鍵詞檢測方法,其特征在于,包括: (1)實時采集微博數(shù)據,針對實時微博數(shù)據流建立基于動態(tài)滑動窗口機制的消息會話模型; (2)從消息會話模型中抽取用戶信任屬性,根據設定的信任窗口大小構建動態(tài)信任模型,計算用戶的信任度; (3)根據設定的消息窗口大小對實時微博消息流進行切分,融合用戶信任度計算每個時間窗口中關鍵詞的權重,形成突發(fā)關鍵詞的權重序列; (4)針對突發(fā)關鍵詞的權重序列,采用基于動力學模型的突發(fā)關鍵詞發(fā)現(xiàn)算法計算關鍵詞的突發(fā)權值,如果關鍵詞的突發(fā)權值大于系統(tǒng)設定的突發(fā)閾值則該詞為突發(fā)關鍵詞。
2.根據權利要求1所述的一種面向微博文本流的突發(fā)關鍵詞檢測方法,其特征在于:所述動態(tài)滑動窗口機制為動態(tài)滑動信任窗口和動態(tài)滑動消息窗口。
3.根據權利要求1所述的一種面向微博文本流的突發(fā)關鍵詞檢測方法,其特征在于,在所述的消息會話模型中包括: 微博消息、微博用戶以及關鍵詞的關聯(lián)操作; 針對實時消息流消息會話模型的更新以及刪除操作。
4.根據權利要求1所述的微博突發(fā)關鍵詞檢測方法,其特征在于,在抽取用戶信任屬性之前還包括: 根據用戶交互行為定義用戶交互動作以及用戶交互指數(shù); 根據信任窗口內的用戶交互動作建立用戶交互圖。
5.根據權利要求1所述的微博突發(fā)關鍵詞檢測方法,其特征在于,所述用戶信任屬性包括: 用戶交互度以及用戶交互質量。
6.根據權利要求1所述的微博突發(fā)關鍵詞檢測方法,其特征在于,在計算關鍵詞的權重之前還包括: 對微博消息內容進行預處理,包括中文分詞、標簽的識別與提取、去停用詞、提取名詞和動詞作為關鍵詞。
7.根據權利要求1所述的微博突發(fā)關鍵詞檢測方法,其特征在于,在生成關鍵詞的權重序列之前還包括: 根據用戶作息時間以及關鍵詞的歷史權重值消除用戶作息時間對突發(fā)關鍵詞檢測的影響。
8.根據權利要求1所述的微博突發(fā)關鍵詞檢測方法,其特征在于,所述基于動力學模型的突發(fā)關鍵詞發(fā)現(xiàn)算法包括: 定義與形式化基于動力學的趨勢分析指標對關鍵詞權重序列進行處理。
【文檔編號】G06F17/30GK104166726SQ201410424542
【公開日】2014年11月26日 申請日期:2014年8月26日 優(yōu)先權日:2014年8月26日
【發(fā)明者】楊武, 董國忠, 王巍, 苘大鵬, 玄世昌 申請人:哈爾濱工程大學