微信輿情監(jiān)測(cè)系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種微信輿情監(jiān)測(cè)系統(tǒng),該系統(tǒng)包括數(shù)據(jù)獲取單元、噪聲過濾去除單元、初級(jí)處理單元、特征串分析單元、文本情感傾向性分析單元、綜合分析單元、以及圖表生成單元;通過分布式的云計(jì)算方式,使用多種微信輿情監(jiān)測(cè)算法模塊來獲取微信輿情熱點(diǎn),并對(duì)獲取的微信輿情熱點(diǎn)進(jìn)行綜合判斷分類評(píng)估,從而實(shí)現(xiàn)對(duì)微信輿情熱點(diǎn)話題較高效、準(zhǔn)確的監(jiān)測(cè)。
【專利說明】微信輿情監(jiān)測(cè)系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息處理【技術(shù)領(lǐng)域】,具體來講,涉及一種微信輿情監(jiān)測(cè)系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)媒體已被公認(rèn)為是繼報(bào)紙、廣播、電視之后的“第四媒體”,網(wǎng)絡(luò)成為反映社會(huì)輿情的主要載體之一。
[0003]網(wǎng)絡(luò)輿情是一股強(qiáng)大的輿論力量,會(huì)反作用于熱點(diǎn)事件并對(duì)社會(huì)發(fā)展和事態(tài)進(jìn)程產(chǎn)生一定的影響。由于網(wǎng)絡(luò)的開放性,會(huì)導(dǎo)致網(wǎng)絡(luò)輿情形成迅速,對(duì)社會(huì)影響巨大。特別是當(dāng)出現(xiàn)負(fù)面的網(wǎng)絡(luò)微信輿情時(shí),若不能及時(shí)了解、有效引導(dǎo),很容易形成輿論危機(jī),嚴(yán)重時(shí)甚至影響公共安全。對(duì)網(wǎng)絡(luò)微信輿論危機(jī)的積極化解,對(duì)維護(hù)社會(huì)穩(wěn)定、促進(jìn)國家發(fā)展具有重要的現(xiàn)實(shí)意義,也是創(chuàng)建和諧社會(huì)的應(yīng)有內(nèi)涵。
[0004]最近,隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,以微信為代表的新一代媒體打破信息的控制和壟斷,在網(wǎng)絡(luò)上人們自由表達(dá)自己的態(tài)度和意見,不再像過去那么容易地?zé)o條件接受,相反,不同階層的利益訴求紛紛呈現(xiàn),不同思想觀點(diǎn)正面碰撞。對(duì)相關(guān)政府部門來說,如何及時(shí)準(zhǔn)確的了解網(wǎng)絡(luò)微信輿情,加強(qiáng)對(duì)網(wǎng)絡(luò)微信輿論的及時(shí)監(jiān)測(cè)、有效引導(dǎo),成為網(wǎng)絡(luò)微信輿情管理的一大難點(diǎn)。在這種情況下,建設(shè)能夠覆蓋微信數(shù)據(jù)源的微信輿情監(jiān)測(cè)系統(tǒng)十分必要,此類系統(tǒng)可針對(duì)新的微信媒介傳播環(huán)境,進(jìn)一步深入研宄微信輿情的熱點(diǎn)研判方法以及新媒體帶來的影響,對(duì)微信輿情研宄進(jìn)行豐富和完善。
[0005]雖然目前已經(jīng)有很多單位針對(duì)網(wǎng)絡(luò)微信輿情監(jiān)控提出了一些不同的解決方案。但是,需要本領(lǐng)域技術(shù)人員解決的技術(shù)問題是如何提高判斷網(wǎng)絡(luò)微信輿情信息的效率和精確度。因?yàn)榻刂聊壳?,尚未有較為高效、準(zhǔn)確的針對(duì)微信媒體數(shù)據(jù)的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)。
【發(fā)明內(nèi)容】
[0006]本發(fā)明就是針對(duì)上述【背景技術(shù)】中的不足之處,而提出的一種微信媒體的輿情監(jiān)測(cè)系統(tǒng),其具有較高的準(zhǔn)確率。本發(fā)明的目的是通過如下技術(shù)措施來實(shí)現(xiàn)的。
[0007]本發(fā)明提出一種微信輿情監(jiān)測(cè)系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)獲取單元1、噪聲過濾去除單元2、初級(jí)處理單元3、特征串分析單元4、文本情感傾向性分析單元5、綜合分析單元6、以及圖表生成單元7,其中
[0008]數(shù)據(jù)獲取單元I用于對(duì)微信的頁面數(shù)據(jù)進(jìn)行自動(dòng)爬取,獲取微信數(shù)據(jù);
[0009]噪聲過濾去除單元2用于對(duì)微信數(shù)據(jù)中的信息進(jìn)行過濾,清除所述微信數(shù)據(jù)中的噪聲;
[0010]初級(jí)處理單元3用于對(duì)所述微信數(shù)據(jù)依次進(jìn)行各種初級(jí)處理;
[0011]特征串分析單元4用于對(duì)初級(jí)處理單元3處理后的微信數(shù)據(jù)中的特征串進(jìn)行分析篩選;
[0012]文本情感傾向性分析單元5用于對(duì)所述微信數(shù)據(jù)執(zhí)行文本情感傾向性分析;
[0013]綜合分析單元6并行地執(zhí)行多種分布式輿情熱點(diǎn)發(fā)現(xiàn)算法,獲得微信數(shù)據(jù)中的輿情執(zhí)占.1 hj J *■? w …,
[0014]圖表生成單元7用于生成各種微信輿情分析報(bào)表和/或分析圖。
[0015]可選地,所述噪聲過濾去除單元2執(zhí)行以下步驟:
[0016]步驟2-1,對(duì)于每項(xiàng)微信數(shù)據(jù),按照標(biāo)題進(jìn)行語義分析,檢測(cè)出網(wǎng)絡(luò)中與該微信數(shù)據(jù)相似的所有微信數(shù)據(jù),得到該微信數(shù)據(jù)的相似組;如果未發(fā)現(xiàn)與該微信數(shù)據(jù)相似的微信數(shù)據(jù),則該微信數(shù)據(jù)的相似組為其本身;
[0017]步驟2-2,對(duì)于每項(xiàng)微信數(shù)據(jù),將網(wǎng)絡(luò)中所有位置出現(xiàn)的該微信數(shù)據(jù)的相似組中所有微信數(shù)據(jù)的總數(shù)量除以發(fā)布該微信數(shù)據(jù)的相似組中所有微信數(shù)據(jù)的網(wǎng)絡(luò)地址的總數(shù)量,得到該微信數(shù)據(jù)的空間重復(fù)度值Si;
[0018]步驟2-3,對(duì)于每項(xiàng)微信數(shù)據(jù),計(jì)算網(wǎng)絡(luò)中出現(xiàn)的該微信數(shù)據(jù)的相似組中所有微信數(shù)據(jù)的總數(shù)量,得到該微信數(shù)據(jù)的時(shí)間重復(fù)度值S2 ;
[0019]步驟2-4,根據(jù)每項(xiàng)微信數(shù)據(jù)的空間重復(fù)度值SI和時(shí)間重復(fù)度值S2計(jì)算該微信數(shù)據(jù)的綜合重復(fù)度值S,并進(jìn)行閾值判斷,如果所述綜合重復(fù)度值S超過閾值,則過濾掉該微信數(shù)據(jù)及其相似組;
[0020]其中,所述綜合重復(fù)度值S通過以下公式計(jì)算:
[0021 ] S = (1g2 (Sl+50))1/2+ (1g2 (S2+20))1/2+ ((IgSl) * (lgS2))1/4。
[0022]可選地,所述初級(jí)處理單元3對(duì)所述微信數(shù)據(jù)依次進(jìn)行的各種初級(jí)處理包括:分詞處理、過濾停用詞、命名實(shí)體識(shí)別、語法解析、詞性標(biāo)注、情感識(shí)別、特征詞提取、以及建立索引。
[0023]可選地,所述特征串分析單元4執(zhí)行以下步驟:
[0024]步驟4-1,對(duì)特征串進(jìn)行去重,包括:記錄微信的文本中出現(xiàn)的重復(fù)性特征串以及其出現(xiàn)的次數(shù),過濾掉出現(xiàn)頻率低于重復(fù)閾值的重復(fù)性特征串和長度低于重復(fù)閾值的重復(fù)性特征串;
[0025]步驟4-2,對(duì)特征串進(jìn)行分組,包括:計(jì)算每個(gè)特征串與其他特征串之間的相似度值,將相似度值高于相似度閾值的特征串分入相同的組;如果一個(gè)特征串與所有其他特征串之間的相似度值都為0,則將該特征串過濾掉;具體地,可以選擇以下兩個(gè)步驟之一來計(jì)算所述兩個(gè)特征串X、Y的相似度值Sims (X,Y),然后進(jìn)行特征串分組:
[0026]步驟4-2-a:
[0027]首先,假設(shè)同時(shí)出現(xiàn)特征串X、Y的句子的數(shù)量為sum(XY);僅出現(xiàn)特征串X,不出現(xiàn)特征串Y的句子的數(shù)量為Sum(X);僅出現(xiàn)特征串Y,不出現(xiàn)特征串X的句子的數(shù)量為sum⑴;此時(shí),特征串X、Y的相似度值Sims (X,Y)計(jì)算公式如下:
[0028]Sims (X, Y) = 1g2 (sum (XY)) /1g2 (sum (X)) +1g2 (sum (XY)) /1g2 (sum (Y));
[0029]其次,如果Sims (X,Y) ^閾值TDl,則將特征串Y分入特征串X所在的組;
[0030]步驟4-2-b:
[0031]首先,假設(shè)兩個(gè)特征串X、Y中包括字符的個(gè)數(shù)分別為m和11,令1^取111、η中的較小值,分別以X1、Yi代表特征串X、Y中前i個(gè)字符組成的子串,其中,i = l,2,一,k;定義
X1-Yi I表示子串X1、Yi的最長公共字符串中包含的字符數(shù)量,則特征串X、Y的相似度值Sims (X, Y)計(jì)算公式如下:
[0032]Sims (X,Y) = (| Xl—Yl |3+| X2—Y2 |3+…+1 Xk-Yk |3) 1/3;
[0033]其次,如果Sims (X,Y)(閾值TD2,則將特征串Y分入特征串X所在的組;
[0034]步驟4-3,對(duì)特征串進(jìn)行熵值過濾,包括:計(jì)算特征串的熵值,過濾掉熵值低于預(yù)設(shè)的下閾值的特征串以及熵值高于預(yù)設(shè)的上閾值的特征串。
[0035]可選地,所述文本情感傾向性分析單元5執(zhí)行文本情感傾向性分析的步驟如下:
[0036]步驟5-1,人工選取若干常見的情感傾向性的中文和英文的形容詞、名詞和動(dòng)詞和作為初始化種子集;其中,所述初始化種子集中,形容詞的數(shù)量可以是100,名詞和動(dòng)詞的數(shù)量可以是200 ;
[0037]步驟5-2,將微信的文本中所有具有指代關(guān)系的代詞還原為名詞性的原始指代對(duì)象,以防止分析過程中對(duì)象的漏判或錯(cuò)判;
[0038]步驟5-3,以微信的句子為單位,利用詞性標(biāo)注POS和語義角色標(biāo)注SRL分析微信中每個(gè)句子的句子成分,提取每個(gè)句子中的主觀性詞語;
[0039]步驟5-4,依次輸入每個(gè)句子中的主觀性詞語,根據(jù)所述種子集對(duì)微信的句子中的主觀性詞語進(jìn)行情感傾向性自動(dòng)標(biāo)注;對(duì)于無法自動(dòng)標(biāo)注的主觀性詞語,由人工判斷其情感傾向性后,將該主觀性詞語補(bǔ)充入所述種子集。
[0040]可選地,所述綜合分析單元6獲得微信數(shù)據(jù)中的輿情熱點(diǎn)的步驟如下:
[0041]首先,使用多個(gè)微信熱點(diǎn)發(fā)現(xiàn)模塊,通過并行的分布式計(jì)算方式來獲取微信輿情熱點(diǎn),所述微信熱點(diǎn)發(fā)現(xiàn)模塊包括:
[0042]I) Single-Pass微信熱點(diǎn)發(fā)現(xiàn)模塊6.1,該模塊采用基于MapReduce的singlepass算法;
[0043]2)KNN微信熱點(diǎn)發(fā)現(xiàn)模塊6.2,該模塊采用基于MapReduce的KNN最近鄰分類算法;
[0044]3) SVM微信熱點(diǎn)發(fā)現(xiàn)模塊6.3,該模塊采用基于MapReduce的支持向量機(jī)SVM算法;
[0045]4)K-means微信熱點(diǎn)發(fā)現(xiàn)模塊6.4,該模塊采用基于MapReduce的K平均聚類算法;以及
[0046]5) SOM微信熱點(diǎn)發(fā)現(xiàn)模塊6.5,該模塊采用基于MapReduce的自組織映射SOM神經(jīng)網(wǎng)絡(luò)聚類算法;
[0047]其次,對(duì)上述各個(gè)微信熱點(diǎn)發(fā)現(xiàn)模塊所分別獲取的所有微信輿情熱點(diǎn)進(jìn)行匯總,進(jìn)行以下分類判斷:
[0048]如果獲取的微信輿情熱點(diǎn)來源于上述三個(gè)以上熱點(diǎn)發(fā)現(xiàn)模塊,則將該微信輿情熱點(diǎn)的類別標(biāo)記為高級(jí)微信輿情熱點(diǎn);
[0049]如果獲取的微信輿情熱點(diǎn)來源于上述兩個(gè)熱點(diǎn)發(fā)現(xiàn)模塊,則將該微信輿情熱點(diǎn)的類別標(biāo)記為中級(jí)微信輿情熱點(diǎn);
[0050]如果獲取的微信輿情熱點(diǎn)僅來源于上述一個(gè)熱點(diǎn)發(fā)現(xiàn)模塊,則將該微信輿情熱點(diǎn)的類別標(biāo)記為初級(jí)微信輿情熱點(diǎn);
[0051]最后,將所述高級(jí)微信輿情熱點(diǎn)、中級(jí)微信輿情熱點(diǎn)和初級(jí)微信輿情熱點(diǎn)依次發(fā)送到所述圖表生成單元7。
[0052]可選地,所述圖表生成單元7可生成的微信輿情分析報(bào)表和/或分析圖包括:微信輿情信息熱度排行報(bào)表、微信輿情預(yù)警信息分布報(bào)表、微信輿情地理信息分布報(bào)表、微信輿情情感分析報(bào)表、微信輿情狀態(tài)統(tǒng)計(jì)報(bào)表以及微信輿情趨勢(shì)走向分析圖。
[0053]現(xiàn)有技術(shù)中,網(wǎng)絡(luò)輿情的主要數(shù)據(jù)來源一般是各種網(wǎng)站或論壇,而單獨(dú)針對(duì)微信輿情數(shù)據(jù)的監(jiān)測(cè)系統(tǒng)則比較少;即使是專門針對(duì)微信輿情數(shù)據(jù)的監(jiān)測(cè)系統(tǒng),也往往由于各種原因而準(zhǔn)確率或效率較低。而本發(fā)明提出了一種專門針對(duì)微信網(wǎng)絡(luò)數(shù)據(jù)源的輿情數(shù)據(jù)的監(jiān)測(cè)系統(tǒng)。
[0054]與現(xiàn)有技術(shù)相比,本發(fā)明包括以下優(yōu)點(diǎn):
[0055]首先,本發(fā)明的微信輿情監(jiān)測(cè)系統(tǒng)面向微信網(wǎng)絡(luò)資源,所采集的微信數(shù)據(jù)經(jīng)數(shù)據(jù)獲取、噪聲過濾去除、初級(jí)處理、特征串分析、文本情感傾向性分析、綜合分析等數(shù)據(jù)處理步驟,有效提高了微信網(wǎng)絡(luò)數(shù)據(jù)源的微信輿情數(shù)據(jù)過濾效率;
[0056]其次,通過分布式的云計(jì)算方式,能夠?qū)Υ笠?guī)模采集數(shù)據(jù)進(jìn)行挖掘、分析,并能夠基于多種微信輿情監(jiān)測(cè)算法模塊來獲取微信輿情熱點(diǎn),對(duì)所述微信輿情熱點(diǎn)綜合判斷分類,從而實(shí)現(xiàn)對(duì)微信輿情熱點(diǎn)話題的發(fā)現(xiàn)及追蹤、對(duì)微信的社會(huì)網(wǎng)絡(luò)分析,分析結(jié)果可視化呈現(xiàn)。有效提高了所述微信輿情監(jiān)測(cè)系統(tǒng)判斷的準(zhǔn)確性,為網(wǎng)絡(luò)微信輿情信息的后續(xù)處理提供了更為真實(shí)、準(zhǔn)確的基礎(chǔ)。
【專利附圖】
【附圖說明】
[0057]下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行進(jìn)一步的說明。在附圖中,用相同的附圖標(biāo)記表示相同的功能模塊。所述附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。
[0058]圖1示出了根據(jù)本發(fā)明的實(shí)施例的微信輿情監(jiān)測(cè)系統(tǒng)的功能結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0059]通過下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。所述描述僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂。
[0060]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0061]本發(fā)明請(qǐng)求保護(hù)一種微信輿情監(jiān)測(cè)系統(tǒng),該系統(tǒng)包括數(shù)據(jù)獲取單元、噪聲過濾去除單元、初級(jí)處理單元、特征串分析單元、文本情感傾向性分析單元、綜合分析單元、以及圖表生成單元。該系統(tǒng)通過分布式的云計(jì)算方式,使用多種微信輿情監(jiān)測(cè)算法子模塊來獲取微信輿情熱點(diǎn),并對(duì)獲取的微信輿情熱點(diǎn)進(jìn)行綜合判斷分類評(píng)估,從而實(shí)現(xiàn)對(duì)微信輿情熱點(diǎn)話題較高效、準(zhǔn)確的監(jiān)測(cè)。
[0062]圖1是根據(jù)本發(fā)明的實(shí)施例的微信輿情監(jiān)測(cè)系統(tǒng)的功能結(jié)構(gòu)圖。
[0063]如圖1所示,所述微信輿情監(jiān)測(cè)系統(tǒng)包括7個(gè)模塊,分別為:數(shù)據(jù)獲取單元1、噪聲過濾去除單元2、初級(jí)處理單元3、特征串分析單元4、文本情感傾向性分析單元5、綜合分析單元6、以及圖表生成單元7。其中:
[0064]數(shù)據(jù)獲取單元I用于對(duì)微信的頁面數(shù)據(jù)進(jìn)行自動(dòng)爬取,獲取微信數(shù)據(jù);
[0065]噪聲過濾去除單元2用于對(duì)微信數(shù)據(jù)中的信息進(jìn)行過濾,清除所述微信數(shù)據(jù)中的噪聲;
[0066]初級(jí)處理單元3用于對(duì)所述微信數(shù)據(jù)依次進(jìn)行各種初級(jí)處理;
[0067]特征串分析單元4用于對(duì)初級(jí)處理單元3處理后的微信數(shù)據(jù)中的特征串進(jìn)行分析篩選;
[0068]文本情感傾向性分析單元5用于對(duì)所述微信數(shù)據(jù)執(zhí)行文本情感傾向性分析;
[0069]綜合分析單元6并行地執(zhí)行多種分布式輿情熱點(diǎn)發(fā)現(xiàn)算法,獲得微信數(shù)據(jù)中的輿情執(zhí)占.1 hj > w …,
[0070]圖表生成單元7用于生成各種微信輿情分析報(bào)表和/或分析圖。
[0071]具體地:
[0072]所述噪聲過濾去除單元2執(zhí)行以下步驟:
[0073]步驟2-1,對(duì)于每項(xiàng)微信數(shù)據(jù),按照標(biāo)題進(jìn)行語義分析,檢測(cè)出網(wǎng)絡(luò)中與該微信數(shù)據(jù)相似的所有微信數(shù)據(jù),得到該微信數(shù)據(jù)的相似組;如果未發(fā)現(xiàn)與該微信數(shù)據(jù)相似的微信數(shù)據(jù),則該微信數(shù)據(jù)的相似組為其本身;
[0074]步驟2-2,對(duì)于每項(xiàng)微信數(shù)據(jù),將網(wǎng)絡(luò)中所有位置出現(xiàn)的該微信數(shù)據(jù)的相似組中所有微信數(shù)據(jù)的總數(shù)量除以發(fā)布該微信數(shù)據(jù)的相似組中所有微信數(shù)據(jù)的網(wǎng)絡(luò)地址的總數(shù)量,得到該微信數(shù)據(jù)的空間重復(fù)度值Si;
[0075]步驟2-3,對(duì)于每項(xiàng)微信數(shù)據(jù),計(jì)算網(wǎng)絡(luò)中出現(xiàn)的該微信數(shù)據(jù)的相似組中所有微信數(shù)據(jù)的總數(shù)量,得到該微信數(shù)據(jù)的時(shí)間重復(fù)度值S2 ;
[0076]步驟2-4,根據(jù)每項(xiàng)微信數(shù)據(jù)的空間重復(fù)度值SI和時(shí)間重復(fù)度值S2計(jì)算該微信數(shù)據(jù)的綜合重復(fù)度值S,并進(jìn)行閾值判斷,如果所述綜合重復(fù)度值S超過閾值,則過濾掉該微信數(shù)據(jù)及其相似組;
[0077]其中,所述綜合重復(fù)度值S通過以下公式計(jì)算:
[0078]S = (1g2 (Sl+50))1/2+ (1g2 (S2+20))1/2+ ((IgSl) * (lgS2))1/4ο
[0079]具體地:
[0080]所述初級(jí)處理單元3對(duì)所述微信數(shù)據(jù)依次進(jìn)行的各種初級(jí)處理包括:分詞處理、過濾停用詞、命名實(shí)體識(shí)別、語法解析、詞性標(biāo)注、情感識(shí)別、特征詞提取、以及建立索引。
[0081]具體地:
[0082]所述特征串分析單元4執(zhí)行以下步驟:
[0083]步驟4-1,對(duì)特征串進(jìn)行去重,包括:記錄微信的文本中出現(xiàn)的重復(fù)性特征串以及其出現(xiàn)的次數(shù),過濾掉出現(xiàn)頻率低于重復(fù)閾值的重復(fù)性特征串和長度低于重復(fù)閾值的重復(fù)性特征串;
[0084]步驟4-2,對(duì)特征串進(jìn)行分組,包括:計(jì)算每個(gè)特征串與其他特征串之間的相似度值,將相似度值高于相似度閾值的特征串分入相同的組;如果一個(gè)特征串與所有其他特征串之間的相似度值都為0,則將該特征串過濾掉;具體地,可以選擇以下兩個(gè)步驟之一來計(jì)算所述兩個(gè)特征串X、Y的相似度值Sims (X,Y),然后進(jìn)行特征串分組:
[0085]步驟4-2-a:
[0086]首先,假設(shè)同時(shí)出現(xiàn)特征串X、Y的句子的數(shù)量為sum(XY);僅出現(xiàn)特征串X,不出現(xiàn)特征串Y的句子的數(shù)量為Sum(X);僅出現(xiàn)特征串Y,不出現(xiàn)特征串X的句子的數(shù)量為sum⑴;此時(shí),特征串X、Y的相似度值Sims (X,Y)計(jì)算公式如下:
[0087]Sims (X, Y) = 1g2 (sum (XY)) /1g2 (sum (X)) +1g2 (sum (XY)) /1g2 (sum (Y));
[0088]其次,如果Sims (X,Y)(閾值TDl,則將特征串Y分入特征串X所在的組;
[0089]步驟4-2-b:
[0090]首先,假設(shè)兩個(gè)特征串X、Y中包括字符的個(gè)數(shù)分別為m和11,令1^取111、η中的較小值,分別以X1、Yi代表特征串X、Y中前i個(gè)字符組成的子串,其中,i = l,2,一,k;定義
X1-Yi I表示子串X1、Yi的最長公共字符串中包含的字符數(shù)量,則特征串X、Y的相似度值Sims (X, Y)計(jì)算公式如下:
[0091]Sims (X,Y) = (| Xl—Yl |3+| X2—Y2 |3+…+1 Xk-Yk |3) 1/3;
[0092]其次,如果Sims (X,Y) ^閾值TD2,則將特征串Y分入特征串X所在的組;
[0093]步驟4-3,對(duì)特征串進(jìn)行熵值過濾,包括:計(jì)算特征串的熵值,過濾掉熵值低于預(yù)設(shè)的下閾值的特征串以及熵值高于預(yù)設(shè)的上閾值的特征串。
[0094]具體地:
[0095]所述文本情感傾向性分析單元5執(zhí)行文本情感傾向性分析的步驟如下:
[0096]步驟5-1,人工選取若干常見的情感傾向性的中文和英文的形容詞、名詞和動(dòng)詞和作為初始化種子集;其中,所述初始化種子集中,形容詞的數(shù)量可以是100,名詞和動(dòng)詞的數(shù)量可以是200 ;
[0097]步驟5-2,將微信的文本中所有具有指代關(guān)系的代詞還原為名詞性的原始指代對(duì)象,以防止分析過程中對(duì)象的漏判或錯(cuò)判;
[0098]步驟5-3,以微信的句子為單位,利用詞性標(biāo)注POS和語義角色標(biāo)注SRL分析微信中每個(gè)句子的句子成分,提取每個(gè)句子中的主觀性詞語;
[0099]步驟5-4,依次輸入每個(gè)句子中的主觀性詞語,根據(jù)所述種子集對(duì)微信的句子中的主觀性詞語進(jìn)行情感傾向性自動(dòng)標(biāo)注;對(duì)于無法自動(dòng)標(biāo)注的主觀性詞語,由人工判斷其情感傾向性后,將該主觀性詞語補(bǔ)充入所述種子集。
[0100]本發(fā)明采用分布式的云計(jì)算方式,能夠?qū)Υ笠?guī)模采集微信數(shù)據(jù)進(jìn)行挖掘、分析;并能夠基于多種輿情監(jiān)測(cè)算法模塊來獲取微信輿情熱點(diǎn),對(duì)所述微信輿情熱點(diǎn)綜合判斷分類,從而實(shí)現(xiàn)對(duì)微信輿情熱點(diǎn)話題的發(fā)現(xiàn)及追蹤、對(duì)微信的社會(huì)網(wǎng)絡(luò)分析,分析結(jié)果可視化呈現(xiàn),為黨政機(jī)關(guān)、大型企業(yè)等單位和組織及時(shí)發(fā)現(xiàn)微信敏感信息、掌握微信輿情熱點(diǎn)、把握微信輿情趨勢(shì)、應(yīng)對(duì)微信輿情危機(jī)提供自動(dòng)化、系統(tǒng)化和科學(xué)化的信息支持。有效提高了所述微信輿情監(jiān)測(cè)系統(tǒng)判斷的準(zhǔn)確性,為網(wǎng)絡(luò)微信輿情信息的后續(xù)處理提供了更為真實(shí)、準(zhǔn)確的基礎(chǔ)。
[0101]具體地:
[0102]通過分布式存儲(chǔ)層存儲(chǔ)采集的微信數(shù)據(jù)以及分析結(jié)果,所述分布式存儲(chǔ)層基于HDFS實(shí)現(xiàn);
[0103]而在分布式計(jì)算層,采用MapReduce并行計(jì)算方法實(shí)現(xiàn)并行化計(jì)算;
[0104]通過HDFS文件存儲(chǔ)和傳輸優(yōu)化、MapReduce并行計(jì)算優(yōu)化,實(shí)現(xiàn)了海量的微信輿情監(jiān)測(cè)的優(yōu)化,并實(shí)現(xiàn)了穩(wěn)定、高效的大數(shù)據(jù)存儲(chǔ)優(yōu)化,使得海量的微信輿情數(shù)據(jù)查詢處理優(yōu)化,具有良好的可擴(kuò)展性、可靠性、安全性。該系統(tǒng)基于云平臺(tái),具有良好的響應(yīng)速度,支持海量微信數(shù)據(jù)分析與挖掘服務(wù)。
[0105]所述綜合分析單元6獲得微信數(shù)據(jù)中的輿情熱點(diǎn)的步驟如下:
[0106]首先,使用多個(gè)微信熱點(diǎn)發(fā)現(xiàn)模塊,通過并行的分布式計(jì)算方式來獲取微信輿情熱點(diǎn),所述微信熱點(diǎn)發(fā)現(xiàn)模塊包括:
[0107]l)Single_Pass微信熱點(diǎn)發(fā)現(xiàn)模塊6.1,該模塊采用基于MapReduce的singlepass算法;
[0108]2)KNN微信熱點(diǎn)發(fā)現(xiàn)模塊6.2,該模塊采用基于MapReduce的KNN最近鄰分類算法;
[0109]3) SVM微信熱點(diǎn)發(fā)現(xiàn)模塊6.3,該模塊采用基于MapReduce的支持向量機(jī)SVM算法;
[0110]4)K-means微信熱點(diǎn)發(fā)現(xiàn)模塊6.4,該模塊采用基于MapReduce的K平均聚類算法;以及
[0111]5) SOM微信熱點(diǎn)發(fā)現(xiàn)模塊6.5,該模塊采用基于MapReduce的自組織映射SOM神經(jīng)網(wǎng)絡(luò)聚類算法;
[0112]其次,對(duì)上述各個(gè)微信熱點(diǎn)發(fā)現(xiàn)模塊所分別獲取的所有微信輿情熱點(diǎn)進(jìn)行匯總,進(jìn)行以下分類判斷:
[0113]如果獲取的微信輿情熱點(diǎn)來源于上述三個(gè)以上熱點(diǎn)發(fā)現(xiàn)模塊,則將該微信輿情熱點(diǎn)的類別標(biāo)記為高級(jí)微信輿情熱點(diǎn);
[0114]如果獲取的微信輿情熱點(diǎn)來源于上述兩個(gè)熱點(diǎn)發(fā)現(xiàn)模塊,則將該微信輿情熱點(diǎn)的類別標(biāo)記為中級(jí)微信輿情熱點(diǎn);
[0115]如果獲取的微信輿情熱點(diǎn)僅來源于上述一個(gè)熱點(diǎn)發(fā)現(xiàn)模塊,則將該微信輿情熱點(diǎn)的類別標(biāo)記為初級(jí)微信輿情熱點(diǎn);
[0116]最后,將所述高級(jí)微信輿情熱點(diǎn)、中級(jí)微信輿情熱點(diǎn)和初級(jí)微信輿情熱點(diǎn)依次發(fā)送到所述圖表生成單元7。
[0117]其中,上述熱點(diǎn)發(fā)現(xiàn)模塊6.1?6.5所采用的算法都采用一般意義上的本領(lǐng)域的通用算法。因此本發(fā)明的改進(jìn)之處并非在于上述幾種算法本身。因?yàn)樵诂F(xiàn)有的微信輿情監(jiān)測(cè)系統(tǒng)中,往往只是使用了其中的一種微信輿情熱點(diǎn)發(fā)現(xiàn)算法,而尚未發(fā)現(xiàn)將上述多種微信輿情熱點(diǎn)發(fā)現(xiàn)算法同時(shí)使用,并對(duì)集中算法的結(jié)果進(jìn)行等級(jí)分類的系統(tǒng)。并且,雖然本發(fā)明的微信輿情監(jiān)測(cè)系統(tǒng)使用了多種輿情熱點(diǎn)發(fā)現(xiàn)算法,但由于本發(fā)明的系統(tǒng)采用了基于云計(jì)算的分布式架構(gòu),因此并不會(huì)帶來難以承受的開銷,并由于多種方式的組合,大大提高了微信輿情監(jiān)測(cè)系統(tǒng)的準(zhǔn)確性,取得了較好的技術(shù)效果。
[0118]具體地:
[0119]所述圖表生成單元7可生成的微信輿情分析報(bào)表和/或分析圖包括:微信輿情信息熱度排行報(bào)表、微信輿情預(yù)警信息分布報(bào)表、微信輿情地理信息分布報(bào)表、微信輿情情感分析報(bào)表、微信輿情狀態(tài)統(tǒng)計(jì)報(bào)表以及微信輿情趨勢(shì)走向分析圖。
[0120]本說明書中所描述的系統(tǒng)及其組成模塊的實(shí)施例僅僅是示意性的,可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本發(fā)明實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0121]綜上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種微信輿情監(jiān)測(cè)系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)獲取單元(I)、噪聲過濾去除單元(2)、初級(jí)處理單元(3)、特征串分析單元(4)、文本情感傾向性分析單元(5)、綜合分析單元(6)、以及圖表生成單元(7),其中 數(shù)據(jù)獲取單元(I)用于對(duì)微信的頁面數(shù)據(jù)進(jìn)行自動(dòng)爬取,獲取微信數(shù)據(jù); 噪聲過濾去除單元(2)用于對(duì)微信數(shù)據(jù)中的信息進(jìn)行過濾,清除所述微信數(shù)據(jù)中的噪聲; 初級(jí)處理單元(3)用于對(duì)所述微信數(shù)據(jù)依次進(jìn)行各種初級(jí)處理; 特征串分析單元(4)用于對(duì)初級(jí)處理單元(3)處理后的微信數(shù)據(jù)中的特征串進(jìn)行分析篩選; 文本情感傾向性分析單元(5)用于對(duì)所述微信數(shù)據(jù)執(zhí)行文本情感傾向性分析; 綜合分析單元(6)并行地執(zhí)行多種分布式輿情熱點(diǎn)發(fā)現(xiàn)算法,獲得微信數(shù)據(jù)中的輿情執(zhí)占.^ w , 圖表生成單元(7)用于生成各種微信輿情分析報(bào)表和/或分析圖。
2.根據(jù)權(quán)利要求1所述的微信輿情監(jiān)測(cè)系統(tǒng),其特征在于: 所述噪聲過濾去除單元(2)執(zhí)行以下步驟: 步驟2-1,對(duì)于每項(xiàng)微信數(shù)據(jù),按照標(biāo)題進(jìn)行語義分析,檢測(cè)出網(wǎng)絡(luò)中與該微信數(shù)據(jù)相似的所有微信數(shù)據(jù),得到該微信數(shù)據(jù)的相似組;如果未發(fā)現(xiàn)與該微信數(shù)據(jù)相似的微信數(shù)據(jù),則該微信數(shù)據(jù)的相似組為其本身; 步驟2-2,對(duì)于每項(xiàng)微信數(shù)據(jù),將網(wǎng)絡(luò)中所有位置出現(xiàn)的該微信數(shù)據(jù)的相似組中所有微信數(shù)據(jù)的總數(shù)量除以發(fā)布該微信數(shù)據(jù)的相似組中所有微信數(shù)據(jù)的網(wǎng)絡(luò)地址的總數(shù)量,得到該微信數(shù)據(jù)的空間重復(fù)度值SI ; 步驟2-3,對(duì)于每項(xiàng)微信數(shù)據(jù),計(jì)算網(wǎng)絡(luò)中出現(xiàn)的該微信數(shù)據(jù)的相似組中所有微信數(shù)據(jù)的總數(shù)量,得到該微信數(shù)據(jù)的時(shí)間重復(fù)度值S2 ; 步驟2-4,根據(jù)每項(xiàng)微信數(shù)據(jù)的空間重復(fù)度值SI和時(shí)間重復(fù)度值S2計(jì)算該微信數(shù)據(jù)的綜合重復(fù)度值S,并進(jìn)行閾值判斷,如果所述綜合重復(fù)度值S超過閾值,則過濾掉該微信數(shù)據(jù)及其相似組; 其中,所述綜合重復(fù)度值S通過以下公式計(jì)算:
S = (1g2 (Sl+50))1/2+ (1g2 (S2+20))1/2+ ((IgSl) * (lgS2))1/4?
3.根據(jù)權(quán)利要求2所述的微信輿情監(jiān)測(cè)系統(tǒng),其特征在于: 所述初級(jí)處理單元(3)對(duì)所述微信數(shù)據(jù)依次進(jìn)行的各種初級(jí)處理包括:分詞處理、過濾停用詞、命名實(shí)體識(shí)別、語法解析、詞性標(biāo)注、情感識(shí)別、特征詞提取、以及建立索引。
4.根據(jù)權(quán)利要求3所述的微信輿情監(jiān)測(cè)系統(tǒng),其特征在于: 所述特征串分析單元(4)執(zhí)行以下步驟: 步驟4-1,對(duì)特征串進(jìn)行去重,包括:記錄微信的文本中出現(xiàn)的重復(fù)性特征串以及其出現(xiàn)的次數(shù),過濾掉出現(xiàn)頻率低于重復(fù)閾值的重復(fù)性特征串和長度低于重復(fù)閾值的重復(fù)性特征串; 步驟4-2,對(duì)特征串進(jìn)行分組,包括:計(jì)算每個(gè)特征串與其他特征串之間的相似度值,將相似度值高于相似度閾值的特征串分入相同的組;如果一個(gè)特征串與所有其他特征串之間的相似度值都為0,則將該特征串過濾掉;具體地,可以選擇以下兩個(gè)步驟之一來計(jì)算所述兩個(gè)特征串X、Y的相似度值Sims (X,Y),然后進(jìn)行特征串分組: 步驟4-2-a: 首先,假設(shè)同時(shí)出現(xiàn)特征串Χ、γ的句子的數(shù)量為sum(XY);僅出現(xiàn)特征串X,不出現(xiàn)特征串Y的句子的數(shù)量為sum (X);僅出現(xiàn)特征串Y,不出現(xiàn)特征串X的句子的數(shù)量為sum (Y);此時(shí),特征串X、Y的相似度值Sims (X,Y)計(jì)算公式如下:
Sims (X, Y) = 1g2 (sum (XY)) /1g2 (sum (X)) +1g2 (sum (XY)) /1g2 (sum (Y)); 其次,如果Sims (X,Y) <閾值TDl,則將特征串Y分入特征串X所在的組; 步驟4-2-b: 首先,假設(shè)兩個(gè)特征串X、Y中包括字符的個(gè)數(shù)分別為m和η,令k取m、n中的較小值,分別以X1、Yi代表特征串X、Y中前i個(gè)字符組成的子串,其中,i = 1,2,…,k ;定義X1-Yi表示子串X1、Yi的最長公共字符串中包含的字符數(shù)量,則特征串X、Y的相似度值Sims (X,Y)計(jì)算公式如下:
Sims (X,Y) = (Ix1-YllilxS-YSl^-Jlxk-YkI3)"3; 其次,如果Sims (X,Y)(閾值TD2,則將特征串Y分入特征串X所在的組; 步驟4-3,對(duì)特征串進(jìn)行熵值過濾,包括:計(jì)算特征串的熵值,過濾掉熵值低于預(yù)設(shè)的下閾值的特征串以及熵值高于預(yù)設(shè)的上閾值的特征串。
5.根據(jù)權(quán)利要求4所述的微信輿情監(jiān)測(cè)系統(tǒng),其特征在于: 所述文本情感傾向性分析單元(5)執(zhí)行文本情感傾向性分析的步驟如下: 步驟5-1,人工選取若干常見的情感傾向性的中文和英文的形容詞、名詞和動(dòng)詞和作為初始化種子集;其中,所述初始化種子集中,形容詞的數(shù)量可以是100,名詞和動(dòng)詞的數(shù)量可以是200 ; 步驟5-2,將微信的文本中所有具有指代關(guān)系的代詞還原為名詞性的原始指代對(duì)象,以防止分析過程中對(duì)象的漏判或錯(cuò)判; 步驟5-3,以微信的句子為單位,利用詞性標(biāo)注POS和語義角色標(biāo)注SRL分析微信中每個(gè)句子的句子成分,提取每個(gè)句子中的主觀性詞語; 步驟5-4,依次輸入每個(gè)句子中的主觀性詞語,根據(jù)所述種子集對(duì)微信的句子中的主觀性詞語進(jìn)行情感傾向性自動(dòng)標(biāo)注;對(duì)于無法自動(dòng)標(biāo)注的主觀性詞語,由人工判斷其情感傾向性后,將該主觀性詞語補(bǔ)充入所述種子集。
6.根據(jù)權(quán)利要求5所述的微信輿情監(jiān)測(cè)系統(tǒng),其特征在于: 所述綜合分析單元(6)獲得微信數(shù)據(jù)中的輿情熱點(diǎn)的步驟如下: 首先,使用多個(gè)微信熱點(diǎn)發(fā)現(xiàn)模塊,通過并行的分布式計(jì)算方式來獲取微信輿情熱點(diǎn),所述微信熱點(diǎn)發(fā)現(xiàn)模塊包括: 1)Single-Pass微信熱點(diǎn)發(fā)現(xiàn)模塊(6.1),該模塊采用基于MapReduce的single pass算法; 2)KNN微信熱點(diǎn)發(fā)現(xiàn)模塊(6.2),該模塊采用基于MapReduce的KNN最近鄰分類算法; 3)SVM微信熱點(diǎn)發(fā)現(xiàn)模塊(6.3),該模塊采用基于MapReduce的支持向量機(jī)SVM算法; 4)K-means微信熱點(diǎn)發(fā)現(xiàn)模塊(6.4),該模塊采用基于MapReduce的K平均聚類算法;以及 5)SOM微信熱點(diǎn)發(fā)現(xiàn)模塊(6.5),該模塊采用基于MapReduce的自組織映射SOM神經(jīng)網(wǎng)絡(luò)聚類算法; 其次,對(duì)上述各個(gè)微信熱點(diǎn)發(fā)現(xiàn)模塊所分別獲取的所有微信輿情熱點(diǎn)進(jìn)行匯總,進(jìn)行以下分類判斷: 如果獲取的微信輿情熱點(diǎn)來源于上述三個(gè)以上熱點(diǎn)發(fā)現(xiàn)模塊,則將該微信輿情熱點(diǎn)的類別標(biāo)記為高級(jí)微信輿情熱點(diǎn); 如果獲取的微信輿情熱點(diǎn)來源于上述兩個(gè)熱點(diǎn)發(fā)現(xiàn)模塊,則將該微信輿情熱點(diǎn)的類別標(biāo)記為中級(jí)微信輿情熱點(diǎn); 如果獲取的微信輿情熱點(diǎn)僅來源于上述一個(gè)熱點(diǎn)發(fā)現(xiàn)模塊,則將該微信輿情熱點(diǎn)的類別標(biāo)記為初級(jí)微信輿情熱點(diǎn); 最后,將所述高級(jí)微信輿情熱點(diǎn)、中級(jí)微信輿情熱點(diǎn)和初級(jí)微信輿情熱點(diǎn)依次發(fā)送到所述圖表生成單元(7)。
7.根據(jù)權(quán)利要求6所述的微信輿情監(jiān)測(cè)系統(tǒng),其特征在于: 所述圖表生成單元(7)可生成的微信輿情分析報(bào)表和/或分析圖包括:微信輿情信息熱度排行報(bào)表、微信輿情預(yù)警信息分布報(bào)表、微信輿情地理信息分布報(bào)表、微信輿情情感分析報(bào)表、微信輿情狀態(tài)統(tǒng)計(jì)報(bào)表以及微信輿情趨勢(shì)走向分析圖。
【文檔編號(hào)】G06F17/30GK104504151SQ201510010368
【公開日】2015年4月8日 申請(qǐng)日期:2015年1月9日 優(yōu)先權(quán)日:2015年1月9日
【發(fā)明者】張鵬 申請(qǐng)人:成都布林特信息技術(shù)有限公司