本發(fā)明涉及輿情監(jiān)控技術(shù)領(lǐng)域,尤其涉及一種輿情監(jiān)控分析方法
背景技術(shù):
國(guó)內(nèi)的網(wǎng)絡(luò)輿情研究始于2005年,目前已成為相關(guān)學(xué)科領(lǐng)域?qū)<业年P(guān)注熱點(diǎn),方興未艾。目前的輿情研究多以群體事件、司法事件或政治事件為研究著力點(diǎn),面向公共輿情為主。
以微博、博客、社交網(wǎng)絡(luò)、即時(shí)通訊系統(tǒng)為代表的自媒體(We Media)打破信息的控制和壟斷,在網(wǎng)絡(luò)上人們自由表達(dá)自己的態(tài)度和意見(jiàn),不再像過(guò)去那么容易地?zé)o條件接受,相反,不同階層的利益訴求紛紛呈現(xiàn),不同思想觀點(diǎn)正面碰撞。在這種情況下,建設(shè)能夠覆蓋多數(shù)據(jù)源的輿情監(jiān)測(cè)系統(tǒng)十分必要,此類系統(tǒng)可針對(duì)新的媒介傳播環(huán)境,進(jìn)一步溧入研究輿情的熱點(diǎn)研判方法以及自媒體帶來(lái)的影響,對(duì)輿情研究進(jìn)行豐富和完善。
技術(shù)實(shí)現(xiàn)要素:
基于背景技術(shù)存在的技術(shù)問(wèn)題,本發(fā)明提出了一種輿情監(jiān)控分析方法
本發(fā)明提出的一種輿情監(jiān)控分析方法,包括以下步驟:
S1、根據(jù)主題收集網(wǎng)絡(luò)信息;
S2、提取網(wǎng)絡(luò)信息關(guān)鍵詞,并根據(jù)關(guān)鍵詞對(duì)網(wǎng)絡(luò)信息進(jìn)行歸類獲得多個(gè)信息類;
S3、根據(jù)關(guān)鍵詞為各信息類賦予一個(gè)情感傾向值A(chǔ)D;
S4、獲取各信息類中各網(wǎng)絡(luò)信息來(lái)源網(wǎng)站的信用值,并計(jì)算各信息類中信用值之和作為類信權(quán)值T;
S5、預(yù)設(shè)情感評(píng)估模型;
S6、將情感傾向值和類信權(quán)值代入情感評(píng)估模型計(jì)算各信息類的情感值E;
S7、將各信息類的情感值相加獲得主題情感值。
優(yōu)選地,步驟S2具體為:提取網(wǎng)絡(luò)信息關(guān)鍵詞,并將關(guān)鍵詞相同的網(wǎng)絡(luò)信息進(jìn)行歸類,獲得多個(gè)信息類。
優(yōu)選地,步驟S3具體包括以下步驟:
S31、判斷信息類對(duì)應(yīng)的關(guān)鍵詞詞性;
S32、根據(jù)關(guān)鍵詞中褒義詞個(gè)數(shù)與貶義詞個(gè)數(shù)的比值評(píng)估情感傾向值A(chǔ)D。
優(yōu)選地,步驟S32具體為:
當(dāng)褒義詞個(gè)數(shù)大于貶義詞個(gè)數(shù),
當(dāng)貶義詞個(gè)數(shù)大于褒義詞個(gè)數(shù),
當(dāng)貶義詞個(gè)數(shù)等于褒義詞個(gè)數(shù),AD=0。
優(yōu)選地,步驟S4中獲取各信息類中各網(wǎng)絡(luò)信息來(lái)源網(wǎng)站的信用值的方法包括以下步驟:
S41、預(yù)設(shè)網(wǎng)站信用測(cè)評(píng)模型;
S42、從待測(cè)評(píng)網(wǎng)站隨機(jī)選取多條真實(shí)度已知的信息,并根據(jù)真實(shí)度為各已知信息賦予真實(shí)程度值;
S43、將各已知信息的真實(shí)程度值代入網(wǎng)站信用測(cè)評(píng)模型計(jì)算網(wǎng)站信用值T。
優(yōu)選地,網(wǎng)站信用測(cè)評(píng)模型為:T=(t1+t2L+tn)/n,其中,t1、t2……tn分別為該網(wǎng)站中隨機(jī)挑選的n條真實(shí)度已確認(rèn)的信息對(duì)應(yīng)的真實(shí)程度值。
優(yōu)選地,n≥3。
優(yōu)選地,n=10。
優(yōu)選地,步驟S5中,情感評(píng)估模型為E=AD×T。
本發(fā)明一種輿情監(jiān)控分析方法,對(duì)搜尋到的每一條網(wǎng)絡(luò)信息提取不少于一個(gè)關(guān)鍵詞,然后將關(guān)鍵詞相同的網(wǎng)絡(luò)信息進(jìn)行歸類,從而獲得多個(gè)信息類。如此,通過(guò)對(duì)網(wǎng)絡(luò)信息進(jìn)行歸類避免了對(duì)每一條網(wǎng)絡(luò)信息進(jìn)行分析的繁瑣與冗余工作,通過(guò)對(duì)信息類的情感傾向分析,即保證了情感評(píng)估的可靠性,又提高了工作效率。
本發(fā)明中,引入各網(wǎng)絡(luò)信息來(lái)源網(wǎng)站的信用值,從而為后續(xù)的輿情判斷增加了一個(gè)誠(chéng)信參量,有利于提高輿情判斷結(jié)果的可信程度。
本發(fā)明中,首先計(jì)算各信息類的情感值,然后以各信息類的情感值為基礎(chǔ)計(jì)算根據(jù)預(yù)設(shè)的主題搜索到的所有網(wǎng)絡(luò)信息整體的情感傾向即主題情感值。即通過(guò)化繁為簡(jiǎn)的方式,使得網(wǎng)絡(luò)信息的整體情感傾向的分析明確化、具體化,有利于提高輿情監(jiān)控的可靠性。
附圖說(shuō)明
圖1為本發(fā)明提出的一種輿情監(jiān)控分析方法流程圖;
圖2為獲取各信息類中各網(wǎng)絡(luò)信息來(lái)源網(wǎng)站的信用值流程圖;
圖3為本發(fā)明提出的一種輿情監(jiān)控分析系統(tǒng)框圖。
具體實(shí)施方式
參照?qǐng)D1,本發(fā)明提出的一種輿情監(jiān)控分析方法,包括以下步驟。
S1、根據(jù)主題收集網(wǎng)絡(luò)信息。本步驟中,由工作人員輸入主題,然后由預(yù)設(shè)網(wǎng)絡(luò)爬蟲根據(jù)主題在網(wǎng)絡(luò)中搜尋信息。本實(shí)施方式中,以網(wǎng)絡(luò)數(shù)據(jù)為庫(kù)進(jìn)行主題檢索,有利于保證信息搜尋的全面性。
S2、提取網(wǎng)絡(luò)信息關(guān)鍵詞,并根據(jù)關(guān)鍵詞對(duì)網(wǎng)絡(luò)信息進(jìn)行歸類獲得多個(gè)信息類。本步驟中,具體地,對(duì)搜尋到的每一條網(wǎng)絡(luò)信息提取不少于一個(gè)關(guān)鍵詞,然后將關(guān)鍵詞相同的網(wǎng)絡(luò)信息進(jìn)行歸類,從而獲得多個(gè)信息類。本實(shí)施方式中,每一個(gè)信息類中包含至少一條網(wǎng)絡(luò)信息,為了便于信息類之間的區(qū)別,各信息類以關(guān)鍵詞進(jìn)行標(biāo)注。
S31、判斷信息類對(duì)應(yīng)的關(guān)鍵詞詞性,即判斷關(guān)鍵詞為褒義詞還是貶義詞。
S32、根據(jù)關(guān)鍵詞中褒義詞個(gè)數(shù)與貶義詞個(gè)數(shù)的比值評(píng)估情感傾向值A(chǔ)D。
具體地,當(dāng)褒義詞個(gè)數(shù)大于貶義詞個(gè)數(shù),
當(dāng)貶義詞個(gè)數(shù)大于褒義詞個(gè)數(shù),
當(dāng)貶義詞個(gè)數(shù)等于褒義詞個(gè)數(shù),AD=0。
本實(shí)施方式中,根據(jù)關(guān)鍵詞為各信息類賦予一個(gè)情感傾向值A(chǔ)D,情感傾向值A(chǔ)D可直接反應(yīng)信息類中包含的網(wǎng)絡(luò)信息的情感傾向。如此,通過(guò)對(duì)網(wǎng)絡(luò)信息進(jìn)行歸類避免了對(duì)每一條網(wǎng)絡(luò)信息進(jìn)行分析的繁瑣與冗余工作,通過(guò)對(duì)信息類的情感傾向分析,即保證了情感評(píng)估的可靠性,又提高了工作效率。
S4、獲取各信息類中各網(wǎng)絡(luò)信息來(lái)源網(wǎng)站的信用值,并計(jì)算各信息類中信用值之和作為類信權(quán)值T。
本實(shí)施方式中,引入各網(wǎng)絡(luò)信息來(lái)源網(wǎng)站的信用值,從而為后續(xù)的輿情判斷增加了一個(gè)誠(chéng)信參量,有利于提高輿情判斷結(jié)果的可信程度。
參照?qǐng)D2,本實(shí)施方式中,獲取各信息類中各網(wǎng)絡(luò)信息來(lái)源網(wǎng)站的信用值的方法包括以下步驟。
S41、預(yù)設(shè)網(wǎng)站信用測(cè)評(píng)模型。本實(shí)施方式中,網(wǎng)站信用測(cè)評(píng)模型為:T=(t1+t2L+tn)/n,其中,t1、t2……tn分別為該網(wǎng)站中隨機(jī)挑選的n條真實(shí)度已確認(rèn)的信息對(duì)應(yīng)的真實(shí)程度值。
S42、從待測(cè)評(píng)網(wǎng)站隨機(jī)選取多條真實(shí)度已知的信息,并根據(jù)真實(shí)度為各已知信息賦予真實(shí)程度值。
S43、將各已知信息的真實(shí)程度值代入網(wǎng)站信用測(cè)評(píng)模型計(jì)算網(wǎng)站信用值T。
本實(shí)施方式中,結(jié)合網(wǎng)站上已知真實(shí)度的信息對(duì)網(wǎng)站的信用值進(jìn)行判斷,提高了對(duì)各網(wǎng)站信用判斷的掌控力度和靈活性,有利于適應(yīng)網(wǎng)絡(luò)的快速變化。
本實(shí)施方式中,n的取值越大,獲得的信用值T可信度越高。具體實(shí)施時(shí),可取n≥3,例如,n=10。
S5、預(yù)設(shè)情感評(píng)估模型。本實(shí)施方式中,情感評(píng)估模型為E=AD×T。
S6、將情感傾向值和類信權(quán)值代入情感評(píng)估模型計(jì)算各信息類的情感值E。
S7、將各信息類的情感值相加獲得主題情感值。
本實(shí)施方式中,首先計(jì)算各信息類的情感值,然后以各信息類的情感值為基礎(chǔ)計(jì)算根據(jù)預(yù)設(shè)的主題搜索到的所有網(wǎng)絡(luò)信息整體的情感傾向即主題情感值。即通過(guò)化繁為簡(jiǎn)的方式,使得網(wǎng)絡(luò)信息的整體情感傾向的分析明確化、具體化,有利于提高輿情監(jiān)控的可靠性。
以下結(jié)合一種具體地輿情監(jiān)控分析系統(tǒng)對(duì)以上方法做進(jìn)一步說(shuō)明。
參照?qǐng)D3,該系統(tǒng)包括:網(wǎng)絡(luò)信息收集模塊、網(wǎng)站信用評(píng)估模塊、網(wǎng)絡(luò)信息整理模塊、信用計(jì)算排序模塊、輿情傾向分析模塊和評(píng)估結(jié)果輸出模塊。
網(wǎng)絡(luò)信息收集模塊用于根據(jù)預(yù)設(shè)的主題收集網(wǎng)絡(luò)信息。具體地,主題由工作人員手動(dòng)輸入,或者,網(wǎng)絡(luò)信息收集模塊根據(jù)工作人員輸入的信息進(jìn)行簡(jiǎn)化提取主題。
網(wǎng)站信用評(píng)估模塊,其內(nèi)部預(yù)設(shè)有網(wǎng)站信用測(cè)評(píng)模型,且用于根據(jù)網(wǎng)站信用測(cè)評(píng)模型對(duì)各個(gè)網(wǎng)站進(jìn)行評(píng)估并賦予信用值。本實(shí)施方式中,信用值可根據(jù)該網(wǎng)站上發(fā)布的已經(jīng)進(jìn)行真實(shí)程度確認(rèn)的信息進(jìn)行評(píng)估。例如,可從該網(wǎng)站隨機(jī)選取10條已經(jīng)確認(rèn)了真實(shí)程度值的信息評(píng)估網(wǎng)站信用值,該網(wǎng)站信用值為該10條信息真實(shí)程度值得均值。
結(jié)合以上實(shí)施例,本實(shí)施方式中,網(wǎng)站信用測(cè)評(píng)模型可設(shè)置為:T=(t1+t2L+tn)/n,其中,t1、t2……tn分別為該網(wǎng)站中隨機(jī)挑選的n條真實(shí)度已確認(rèn)的信息對(duì)應(yīng)的真實(shí)程度值。本實(shí)施方式中,選取n=10,具體實(shí)施時(shí),n取值越大,網(wǎng)站的信用值越具有代表性。故而,為了避免信用值可信度過(guò)低,本實(shí)施方式中,限定n≥3。
網(wǎng)絡(luò)信息整理模塊與網(wǎng)絡(luò)信息收集模塊連接。網(wǎng)絡(luò)信息整理模塊獲取網(wǎng)絡(luò)信息收集模塊收集的網(wǎng)絡(luò)信息,并對(duì)網(wǎng)絡(luò)信息進(jìn)行關(guān)鍵詞提取,然后將關(guān)鍵詞相同的網(wǎng)絡(luò)信息進(jìn)行聚類,以獲得不少于一個(gè)信息類。本實(shí)施方式中,信息類以關(guān)鍵詞標(biāo)注以便區(qū)分。
信用計(jì)算排序模塊分別連接網(wǎng)絡(luò)信息整理模塊、網(wǎng)絡(luò)信息收集模塊和網(wǎng)站信用評(píng)估模塊。信用計(jì)算排序模塊對(duì)各信息類中包含的網(wǎng)絡(luò)信息來(lái)源網(wǎng)站進(jìn)行統(tǒng)計(jì),計(jì)算各信息類包含的網(wǎng)絡(luò)信息來(lái)源網(wǎng)站的信用值之和作為該信息類的類信權(quán)值,并根據(jù)類信權(quán)值對(duì)各信息類進(jìn)行排序。
輿情傾向分析模塊分別與網(wǎng)絡(luò)信息整理模塊和信用計(jì)算排序模塊連接。輿情傾向分析模塊判斷各信息類中各關(guān)鍵詞詞性,并根據(jù)各關(guān)鍵詞詞性計(jì)算該信息類情感傾向值。具體地,輿情傾向分析模塊根據(jù)信息類對(duì)應(yīng)的關(guān)鍵詞中褒義詞與貶義詞的比值計(jì)算該信息類情感傾向值。當(dāng)信息類對(duì)應(yīng)的關(guān)鍵詞中褒義詞個(gè)數(shù)與貶義詞個(gè)數(shù)的比值大于1,則該信息類的情感傾向值為正數(shù);當(dāng)信息類對(duì)應(yīng)的關(guān)鍵詞中褒義詞個(gè)數(shù)與貶義詞個(gè)數(shù)的比值小于1,則該信息類的情感傾向值為負(fù)數(shù)。
具體實(shí)施時(shí),可令情感傾向值A(chǔ)D根據(jù)以下原則計(jì)算:
當(dāng)褒義詞個(gè)數(shù)大于貶義詞個(gè)數(shù),
當(dāng)貶義詞個(gè)數(shù)大于褒義詞個(gè)數(shù),
當(dāng)貶義詞個(gè)數(shù)等于褒義詞個(gè)數(shù),AD=0。
本實(shí)施方式中,輿情傾向分析模塊根據(jù)關(guān)鍵詞為各信息類賦予一個(gè)情感傾向值后,根據(jù)預(yù)設(shè)的情感評(píng)估模型結(jié)合情感傾向值和類信權(quán)值計(jì)算各信息類的情感值,并計(jì)算信息類情感值之和作為主題情感值。
情感評(píng)估模型為:E=AD×T,其中,AD為情感傾向值,T為類信權(quán)值。
輿情傾向分析模塊將主題情感值與預(yù)設(shè)的傾向閾值比較,根據(jù)比較結(jié)果評(píng)估輿情傾向。本實(shí)施方式中,傾向閾值為0。當(dāng)主題情感值大于傾向閾值,則判定輿情傾向褒義;當(dāng)主題情感值小于傾向閾值,則判定輿情傾向貶義。
評(píng)估結(jié)果輸出模塊分別連接信用計(jì)算排序模塊和輿情分析模塊,其將信用計(jì)算排序模塊的排序結(jié)果制成評(píng)估表,評(píng)估表中各信息類根據(jù)關(guān)鍵詞進(jìn)行區(qū)別;評(píng)估結(jié)果輸出模塊輸出評(píng)估表和輿情傾向。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。