微博輿情監(jiān)測系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網信息處理技術領域,具體來講,涉及一種微博輿情監(jiān)測系統(tǒng)。
【背景技術】
[0002]隨著互聯(lián)網在全球范圍內的飛速發(fā)展,網絡媒體已被公認為是繼報紙、廣播、電視之后的“第四媒體”,網絡成為反映社會輿情的主要載體之一。
[0003]網絡輿情是通過互聯(lián)網傳播的,公眾對現(xiàn)實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的情感、態(tài)度、意見、言論或觀點,其主要通過論壇BBS上的發(fā)帖評論及跟貼、新聞、博客Blog等實現(xiàn)并加以強化。由于互聯(lián)網具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點,越來越多的網民樂意通過這種渠道來表達觀點、傳播思想。
[0004]隨著互聯(lián)網技術的迅速發(fā)展,以微博媒體等為代表的新一代媒體打破信息的控制和壟斷,在網絡上人們自由表達自己的態(tài)度和意見,不再像過去那么容易地無條件接受,相反,不同階層的利益訴求紛紛呈現(xiàn),不同思想觀點正面碰撞。對相關政府部門來說,如何及時準確的了解網絡微博輿情,加強對網絡微博輿論的及時監(jiān)測、有效引導,成為網絡微博輿情管理的一大難點。在這種情況下,建設能夠覆蓋微博數(shù)據(jù)源的微博輿情監(jiān)測系統(tǒng)十分必要,此類系統(tǒng)可針對新的微博媒介傳播環(huán)境,進一步深入研宄微博輿情的熱點研判方法以及新媒體帶來的影響,對微博輿情研宄進行豐富和完善。
[0005]雖然目前已經有很多單位針對網絡微博輿情監(jiān)控提出了一些不同的解決方案。但是,需要本領域技術人員解決的技術問題是如何提高判斷網絡微博輿情信息的效率和精確度。因為截至目前,尚未有較為高效、準確的針對微博媒體數(shù)據(jù)的網絡輿情監(jiān)測系統(tǒng)。
【發(fā)明內容】
[0006]本發(fā)明就是針對上述【背景技術】中的不足之處,而提出的一種微博媒體的輿情監(jiān)測系統(tǒng),其具有較高的準確率。本發(fā)明的目的是通過如下技術措施來實現(xiàn)的。
[0007]本發(fā)明提出一種微博輿情監(jiān)測系統(tǒng),該系統(tǒng)包括:輿情熱度獲取模塊1、智能爬蟲爬取模塊2、提取和預處理模塊3、特征短語過濾模塊4、輿情分析模塊5、情感傾向性分析模塊6、以及用戶交互模塊7,其中
[0008]輿情熱度獲取模塊I用于根據(jù)微博的輿情熱度權值來篩選需要進行輿情分析的微博頁面;
[0009]智能爬蟲爬取模塊2用于通過對指定的微博頁面爬取指定時間內的微博數(shù)據(jù),并根據(jù)預定義的事件對所爬取的微博數(shù)據(jù)進行分析,過濾掉與要監(jiān)測的輿情無關的微博數(shù)據(jù);
[0010]提取和預處理模塊3用于將智能爬蟲爬取模塊2獲取的微博數(shù)據(jù)中的信息進行提取和預處理;
[0011 ] 特征短語過濾模塊4用于對提取和預處理模塊3處理后的微博數(shù)據(jù)中的特征短語進行過濾篩選;
[0012]輿情分析模塊5用于以特征短語過濾模塊4處理后的微博數(shù)據(jù)為基礎,發(fā)現(xiàn)微博輿情執(zhí)占.1 H n.? w …,
[0013]情感傾向性分析模塊6用于對所發(fā)現(xiàn)的微博輿情熱點執(zhí)行情感傾向性分析;
[0014]用戶交互模塊7用于以圖表或報告形式顯示輸出微博輿情分析結果,實現(xiàn)用戶交互功能。
[0015]優(yōu)選地,所述輿情熱度獲取模塊I計算所述微博的輿情熱度權值P,若P大于預先設定的閾值T P,則將該微博作為輿情分析的數(shù)據(jù)來源和分析依據(jù),具體地:
[0016]假設微博的瀏覽點擊數(shù)為Kl,評論數(shù)為Κ2,回復數(shù)為Κ3,點擊支持數(shù)為Κ4,點擊反對數(shù)為Κ5,轉發(fā)數(shù)為Κ6,收藏數(shù)為Κ7,β??β 4為預先設定的且可調整的系數(shù),則
[0017]P= (Ig(Kl) 3/4+0.03) * β 1+ (lg((Κ2)2/3+ (Κ3)2/3) +0.02) * β 2+ (lg((Κ4)1/2+ (Κ5)1/2)+0.01) * β 3+ (lg ((Κ6)1/3+ (Κ7)1/3) +0.005) * β 4 ;
[0018]其中,βI ?β 4 可以設置為:β1 = 0.4;β2 = 0.2;β3 = 0.1;β4 = 0.1。
[0019]優(yōu)選地,所述智能爬蟲爬取模塊2執(zhí)行以下步驟:
[0020]步驟2-1,通過系統(tǒng)預定義的事件對微博頁面進行分析,以此將與要監(jiān)測的預定義的事件無關的鏈接過濾掉,剩下與預定義的事件有關的鏈接,將這些與預定義的事件有關的鏈接保留下來,并把它們存入等待抓取頁面的URL隊列;
[0021]步驟2-2,根據(jù)預先定義的搜索策略,從所述URL隊列中選出根據(jù)所述預先定義的搜索策略抓取的頁面所對應的URL,重復步驟2-1,當滿足了系統(tǒng)預設的停止條件后則停止爬取過程。
[0022]優(yōu)選地,所述提取和預處理模塊3執(zhí)行以下步驟:
[0023]首先,提取對微博輿情分析有用的微博正文部分的信息,對微博正文部分進行重構,將具有主題代表性的微博數(shù)據(jù)聚集在一起;
[0024]其次,對所述微博數(shù)據(jù)進行分詞處理、過濾停用詞、命名實體識別、語法解析、詞性標注、情感識別、特征詞提取;然后進行特征短語提取。
[0025]優(yōu)選地,所述特征短語過濾模塊4執(zhí)行以下步驟:
[0026]步驟4-1,對特征短語進行去重,包括:記錄微博的文本中出現(xiàn)的重復性特征短語以及其出現(xiàn)的次數(shù),過濾掉出現(xiàn)頻率低于重復閾值的重復性特征短語和長度低于重復閾值的重復性特征短語;
[0027]步驟4-2,對特征短語進行分組,包括:計算每個特征短語與其他特征短語之間的相似度值,將相似度值高于相似度閾值的特征短語分入相同的組;如果一個特征短語與所有其他特征短語之間的相似度值都為0,則將該特征短語過濾掉;具體地,可以選擇以下兩個步驟之一來計算所述兩個特征短語Χ、γ的相似度值Sims (X,Y),然后進行特征短語分組:
[0028]步驟4-2-1:
[0029]首先,假設同時出現(xiàn)特征短語Χ、Υ的句子的數(shù)量為sum(XY);僅出現(xiàn)特征短語X,不出現(xiàn)特征短語Y的句子的數(shù)量為SUm(X);僅出現(xiàn)特征短語Y,不出現(xiàn)特征短語X的句子的數(shù)量為sum(Y);此時,特征短語X、Y的相似度值Sims (X,Y)計算公式如下:
[0030]Sims (X, Y) = 1g2 (sum (XY)) /1g2 (sum (X)) +1g2 (sum (XY)) /1g2 (sum (Y));
[0031 ] 其次,如果Sims (X,Y)(閾值TDl,則將特征短語Y分入特征短語X所在的組;
[0032]步驟 4-2-2:
[0033]首先,假設兩個特征短語X、Y中包括字符的個數(shù)分別為m和η,令k取m、n中的較小值,分別以X1、Yi代表特征短語X、Y中前i個字符組成的子短語,其中,i = 1,2,…,k ;定義IX1-YiI表示子短語X1、Yi的最長公共字符串中包含的字符數(shù)量,則特征短語X、Y的相似度值Sims (X,Y)計算公式如下:
[0034]Sims (X,Y) = (| Xl—Yl |3+| X2—Y2 |3+…+1 Xk-Yk |3) 1/3;
[0035]其次,如果Sims (X,Y)(閾值TD2,則將特征短語Y分入特征短語X所在的組;
[0036]步驟4-3,對特征短語進行熵值過濾,包括:計算特征短語的熵值,過濾掉熵值低于預設的下閾值的特征短語以及熵值高于預設的上閾值的特征短語。
[0037]優(yōu)選地,所述輿情分析模塊5用于分析并發(fā)現(xiàn)微博輿情熱點,包括如下步驟:
[0038]首先,使用多個微博熱點發(fā)現(xiàn)子模塊,通過并行的MapReduce分布式計算方式來獲取微博輿情熱點,所述微博熱點發(fā)現(xiàn)子模塊包括:
[0039]I) Single-Pass微博熱點發(fā)現(xiàn)子模塊5.1,采用single pass算法;
[0040]2) KNN微博熱點發(fā)現(xiàn)子模塊5.2,采用KNN最近鄰分類算法;
[0041 ] 3) SVM微博熱點發(fā)現(xiàn)子模塊5.3,采用支持向量機SVM算法;
[0042]4) K-means微博熱點發(fā)現(xiàn)子模塊5.4,采用K平均聚類算法