專利名稱:一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,屬于網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域。
背景技術(shù):
網(wǎng)絡(luò)輿情,是指在互聯(lián)網(wǎng)上,圍繞某些中介性社會(huì)事件的發(fā)生、發(fā)展和變化,網(wǎng)民對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度,是網(wǎng)民關(guān)于社會(huì)中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等表現(xiàn)的總和。由于網(wǎng)絡(luò)媒體的參與門檻低,使得網(wǎng)民的社會(huì)階層分布廣泛,反映出當(dāng)前社會(huì)各個(gè)階層民眾的思想動(dòng)態(tài)。網(wǎng)絡(luò)媒體能夠反映社會(huì)民意的社會(huì)輿情,但同時(shí)一些不負(fù)責(zé)任的虛假信息、極端言論以及失實(shí)的政治輿論也在傳播,我國當(dāng)前處于一個(gè)矛盾高發(fā)的時(shí)代,所面臨的網(wǎng)絡(luò)輿情檢測(cè)與分析形勢(shì)嚴(yán)峻,能夠正確有效地把握危機(jī)事件,有利于維護(hù)社會(huì)的穩(wěn)定、和諧發(fā)展,因此,在面對(duì)論壇、博客、微博等網(wǎng)絡(luò)媒體中海量數(shù)據(jù)的時(shí)候,如何及時(shí)、準(zhǔn)確地從互聯(lián)網(wǎng)中檢測(cè)到熱點(diǎn)的輿情信息,快速準(zhǔn)確地制止危及國家和社會(huì)穩(wěn)定的不穩(wěn)定因素以及引導(dǎo)正面輿論,促進(jìn)和諧社會(huì)建設(shè),保障經(jīng)濟(jì)持續(xù)穩(wěn)定發(fā)展具有重大的意義。輿情熱點(diǎn)檢測(cè)技術(shù)是指從不斷涌現(xiàn)的網(wǎng)絡(luò)輿情中即時(shí)地獲得新發(fā)生的熱點(diǎn)信息,并對(duì)其進(jìn)行持續(xù)追蹤,主要依靠主題檢測(cè)與追蹤技術(shù)來實(shí)現(xiàn)。其中,文本聚類技術(shù)是主題檢測(cè)技術(shù)的基礎(chǔ),包括單遍聚類、k-means聚類、層次凝聚聚類、概率模型?,F(xiàn)有的主題檢測(cè)技術(shù)的主要步驟為:(1)從數(shù)據(jù)源讀入一篇報(bào)道,數(shù)據(jù)源可以是多個(gè),包括內(nèi)容、時(shí)間等其它信息;(2)采用質(zhì)心比較策略或最近鄰居比較策略,確定與當(dāng)前報(bào)道最接近的主題;(3)判斷報(bào)道與現(xiàn)有主題的相似度,若報(bào)道能歸入某個(gè)主題,則調(diào)整該主題,若報(bào)道無法歸入現(xiàn)有主題,則列為新主題;(4)輸出檢測(cè)到的主題,將主題中的特征詞作為主題描述。由于現(xiàn)有主題檢測(cè)技術(shù)主要考慮在固定的小數(shù)據(jù)集合上的錯(cuò)檢率和漏檢率,在實(shí)輿情熱點(diǎn)自動(dòng)檢測(cè)時(shí),主要存在的問題:(I)主題排序問題,現(xiàn)有技術(shù)僅僅按照主題本身包含的文檔個(gè)數(shù)來排序,使得當(dāng)前排序最前的主題是一些發(fā)生時(shí)間較長(zhǎng),相對(duì)陳舊的主題;
(2)主題相似性問題,由于同一個(gè)主題在發(fā)生初期會(huì)進(jìn)行不同方面的報(bào)道而被分為多個(gè)小主題,隨著事態(tài)的發(fā)展,主題的相似度可能會(huì)越來越大,這就給用戶的瀏覽帶來迷惑;(3)淘汰過時(shí)報(bào)道問題,主題檢測(cè)是長(zhǎng)期持續(xù)的過程,而主題的動(dòng)態(tài)演化使得主題內(nèi)的一些報(bào)道和該主題的相關(guān)性會(huì)逐漸降低,或隨著事態(tài)發(fā)展,整個(gè)主題內(nèi)容可能過于寬泛,現(xiàn)有技術(shù)中沒有考慮到過時(shí)報(bào)道淘汰問題;(4)主題描述問題,目前主題的描述包括提取主題若干個(gè)特征詞和提取該主題中某個(gè)報(bào)道的標(biāo)題兩種方法,但是中文的自然語言處理技術(shù)仍然不夠成熟,特征詞并不一定可以表達(dá)該主題的意義,而如果采用該主題中某個(gè)報(bào)道的標(biāo)題來描述,則可能會(huì)片面。
發(fā)明內(nèi)容
本發(fā)明的目的在于通過改進(jìn)現(xiàn)有的主題檢測(cè)算法,并將其用于解決輿情熱點(diǎn)檢測(cè)存在的問題而提供一種輿情熱點(diǎn)動(dòng)態(tài)監(jiān)測(cè)方法。本發(fā)明通過如下技術(shù)方案實(shí)現(xiàn),具體包括如下步驟:
步驟1,檢測(cè)一個(gè)或多個(gè)新聞網(wǎng)絡(luò)數(shù)據(jù)源,從數(shù)據(jù)源中抓取報(bào)道,解析出報(bào)道的時(shí)間、標(biāo)題和正文 目息;
所述的新聞網(wǎng)絡(luò)數(shù)據(jù)源,當(dāng)新報(bào)道和已經(jīng)處理報(bào)道的重復(fù)度大于重復(fù)閾值Θd時(shí),則認(rèn)為是重復(fù)報(bào)道,根據(jù)新報(bào)道的內(nèi)容進(jìn)行消重處理,其中0〈 Θ d ≤1 ;
所述的消重處理步驟為:采用文本挖掘中的相似度計(jì)算方法進(jìn)行,并在報(bào)道預(yù)處理中,對(duì)報(bào)道按照網(wǎng)絡(luò)數(shù)據(jù)來源規(guī)則和基于內(nèi)容的自動(dòng)分類相結(jié)合的方法進(jìn)行分類。步驟2,采用質(zhì)心比較策略,將當(dāng)前報(bào)道與所屬類別內(nèi)現(xiàn)有監(jiān)測(cè)到的主題進(jìn)行比較,同時(shí)考慮時(shí)間和內(nèi)容特征,計(jì)算當(dāng)前報(bào)道和現(xiàn)有監(jiān)測(cè)到的主題間的相似度,并記錄最大相似度Smax以及相似度最大的主題Es ;
所述的主題Es通過主題內(nèi)部所有新聞中綜合權(quán)重最高的若干個(gè)特征詞來表達(dá);所述的當(dāng)前報(bào)道和主題Es之間的相似度基于向量空間模型,通過兩者的夾角余弦值來計(jì)算;
其中,在計(jì)算當(dāng)前報(bào)道和現(xiàn)有監(jiān)測(cè)到的主題間的相似度S時(shí),給予權(quán)威性較高的報(bào)道以較高權(quán)重,報(bào)道的權(quán)威性采用數(shù)據(jù)源的權(quán)威性。步驟3,根據(jù)步驟2中計(jì)算得到的最大相似度Smax以及相似度最大的主題Es,對(duì)當(dāng)前報(bào)道采取如下措施:
a)如果Smax小于創(chuàng)新閾值θη,則在該報(bào)道所述類別內(nèi)創(chuàng)建一個(gè)新主題;
b)如果Smax大于0 而小于聚類閾值Θ。,則返回步驟I;
c)如果Smax大于Θ。而小于貢獻(xiàn)閾值0t,則將當(dāng)前報(bào)道的文章歸于主題Es,但不調(diào)整
Es ;
d)如果Smax大于0t,則將當(dāng)前報(bào)道的文章歸入主題Es,并調(diào)整Es;
其中,O〈0n〈0c〈0t ≤l,0〈Smax≤I。步驟4,當(dāng)一個(gè)類別處理固定數(shù)量新增報(bào)道后,對(duì)該類別內(nèi)主題兩兩比較,如果兩個(gè)主題的相似度大于合并閾值Qu,則將其合并,其中,o〈eu〈0n≤1 ;
所述的兩個(gè)主題的相似度S,其計(jì)算是采用如下公式:
權(quán)利要求
1.一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,其特征在于具體算法步驟如下: 步驟1,檢測(cè)一個(gè)或多個(gè)新聞網(wǎng)絡(luò)數(shù)據(jù)源,從數(shù)據(jù)源中抓取報(bào)道,解析出報(bào)道的時(shí)間、標(biāo)題和正文 目息; 步驟2,采用質(zhì)心比較策略,將當(dāng)前報(bào)道與所屬類別C內(nèi)現(xiàn)有監(jiān)測(cè)到的主題進(jìn)行比較,同時(shí)考慮時(shí)間和內(nèi)容特征,計(jì)算當(dāng)前報(bào)道和現(xiàn)有監(jiān)測(cè)到的主題間的相似度,并記錄最大相似度Smax以及相似度最大的主題Es ; 步驟3,根據(jù)步驟2中計(jì)算得到的最大相似度Smax以及相似度最大的主題Es,對(duì)當(dāng)前報(bào)道采取如下措施: a)如果Smax小于創(chuàng)新閾值θη,則在該報(bào)道所述類別內(nèi)創(chuàng)建一個(gè)新主題; b)如果Smax大于0 而小于聚類閾值Θ。,則返回步驟I; c)如果Smax大于Θ。而小于貢獻(xiàn)閾值0t,則將當(dāng)前報(bào)道的文章歸于主題Es,但不調(diào)整Es ; d)如果Smax大于0t,則將當(dāng)前報(bào)道的文章歸入主題Es,并調(diào)整Es; 其中,O〈0n〈0c〈0t< l,0≤Smax ≤1 ; 步驟4,當(dāng)一個(gè)類別處理固定數(shù)量新增報(bào)道后,對(duì)該類別內(nèi)主題兩兩比較,如果兩個(gè)主題的相似度大于合并閾值eu,則將其合并,其中,o〈0u〈0n≤ 1 ; 步驟5,當(dāng)一個(gè)類別處理固定數(shù)量 新增報(bào)道后,對(duì)各個(gè)主題內(nèi)的報(bào)道進(jìn)行淘汰,重新計(jì)算報(bào)道和該主題的相似度S,對(duì)相似度S低于聚類閾值Θ。的報(bào)道進(jìn)行淘汰,然后再重新計(jì)算主題向量; 步驟6,若當(dāng)前類別內(nèi)的主題數(shù)量超過主題窗口大小,對(duì)類別內(nèi)的主題進(jìn)行排序,結(jié)合主題的時(shí)間和數(shù)量特性,從所有類別中選擇出得分最高的若干個(gè)主題,作為該類別最熱點(diǎn)的主題,并輸出主題描述和包含的報(bào)道列表,其中,主題描述的生成過程如下: 步驟a),讀取主題內(nèi)部權(quán)重最高的若干個(gè)特征詞; 步驟b),在與主題相似度大于主題閾值的主題內(nèi)報(bào)道中,選擇時(shí)間最近的若干篇報(bào)道的標(biāo)題,其中0〈 Θ e <≤1 ; 步驟c),綜合步驟a)和步驟b),輸出該主題的描述。
2.根據(jù)權(quán)利要求1所述的一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,其特征在于:步驟I中所述的新聞網(wǎng)絡(luò)數(shù)據(jù)源,當(dāng)新報(bào)道和已經(jīng)處理報(bào)道的重復(fù)度大于重復(fù)閾值Θ d時(shí),則認(rèn)為是重復(fù)報(bào)道,根據(jù)新報(bào)道的內(nèi)容進(jìn)行消重處理,其中0〈 Θ d ≤1。
3.根據(jù)權(quán)利要求2所述的一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,其特征在于:所述的消重處理步驟為:采用文本挖掘中的相似度計(jì)算方法進(jìn)行,并在報(bào)道預(yù)處理中,對(duì)報(bào)道按照網(wǎng)絡(luò)數(shù)據(jù)來源規(guī)則和基于內(nèi)容的自動(dòng)分類相結(jié)合的方法進(jìn)行分類。
4.根據(jù)權(quán)利要求1所述的一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,其特征在于:步驟2中在計(jì)算當(dāng)前報(bào)道和現(xiàn)有監(jiān)測(cè)到的主題間的相似度S時(shí),給予權(quán)威性較高的報(bào)道以較高權(quán)重,報(bào)道的權(quán)威性采用數(shù)據(jù)源的權(quán)威性。
5.根據(jù)權(quán)利要求1所述的一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,其特征在于:步驟3中所述的主題Es通過主題內(nèi)部所有新聞中綜合權(quán)重最高的若干個(gè)特征詞來表達(dá);所述的當(dāng)前報(bào)道和主題Es之間的相似度基于向量空間模型,通過兩者的夾角余弦值來計(jì)算,同時(shí)賦予報(bào)道的標(biāo)題以較高權(quán)重。
6.根據(jù)權(quán)利要求1所述的一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,其特征在于:步驟4中所述的兩個(gè)主題的相似度S,其計(jì)算是采用如下公式:
7.根據(jù)權(quán)利要求1所述的一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,其特征在于:步驟6中所述的在進(jìn)行主題排序時(shí),結(jié)合時(shí)間和數(shù)量特性,同時(shí)考慮之前的文檔數(shù)量和當(dāng)天的文檔數(shù)量,時(shí)間越近的文檔排序權(quán)重越大,按照設(shè)定的時(shí)間進(jìn)行分段tl,t2,一tn,如果某個(gè)主題T在這η段時(shí)間內(nèi)分別包含cl,c2,…cn個(gè)文檔,則主題T的排序權(quán)重為:
8.根據(jù)權(quán)利要求1所述的一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,其特征在于:所述的主題Es通過主題內(nèi)部所有新聞中綜合權(quán)重最高的若干個(gè)特征詞來表達(dá);所述的當(dāng)前報(bào)道和主題匕之間的相似度基于向量空間模 型,通過兩者的夾角余弦值來計(jì)算。
全文摘要
本發(fā)明公開了一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,屬于網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域。該方法利用輿情熱點(diǎn)本身的特點(diǎn),通過引入主題排序、主題合并與調(diào)整、報(bào)道淘汰以及主題描述等步驟,在主題排序方面,考慮了主題的時(shí)間和數(shù)量特性,為某一時(shí)刻的每個(gè)主題計(jì)算出其得分值,使得主題排序更加合理,通過引入主題合并和調(diào)整的機(jī)制,減少了同一主題被誤分為多個(gè)小主題的情況,通過引入主題內(nèi)報(bào)道淘汰的機(jī)制,使得主題的內(nèi)容更加集中,同時(shí)主題描述提出了將特征詞和報(bào)道標(biāo)題相結(jié)合的方法使得主題描述更加準(zhǔn)確全面。
文檔編號(hào)G06F17/30GK103116651SQ20131006918
公開日2013年5月22日 申請(qǐng)日期2013年3月5日 優(yōu)先權(quán)日2013年3月5日
發(fā)明者李千目, 劉婷, 侯君, 戚湧 申請(qǐng)人:南京理工大學(xué)常熟研究院有限公司