專利名稱::一種基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及網(wǎng)絡(luò)信息安全分析和預(yù)測技術(shù),更具體地,涉及一種網(wǎng)絡(luò)輿情預(yù)測技術(shù)。
背景技術(shù):
:輿情,是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,民眾對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度。它是社會(huì)群眾關(guān)于社會(huì)中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等表現(xiàn)的總和。隨著因特網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)已被公認(rèn)為是繼報(bào)紙、廣播、電視之后的"第四媒體",網(wǎng)絡(luò)成為反映社會(huì)輿情的主要載體之一。網(wǎng)絡(luò)環(huán)境下的輿情信息可稱為網(wǎng)絡(luò)輿情,其主要來源有新聞評(píng)論、BBS、聊天室、博客、聚合新聞(RSS)。網(wǎng)絡(luò)輿情表達(dá)快捷、信息多元、方式互動(dòng),具備傳統(tǒng)媒體無法比擬的優(yōu)勢。因此,基于網(wǎng)絡(luò)內(nèi)容的網(wǎng)絡(luò)輿情發(fā)展呈現(xiàn)出以下幾個(gè)特點(diǎn)1.網(wǎng)絡(luò)上的話題具有突發(fā)性,并可在短時(shí)間內(nèi)產(chǎn)生大量的討論;2.網(wǎng)絡(luò)上的話題傳播迅速,話題會(huì)通過不同的網(wǎng)民很快傳播到各個(gè)網(wǎng)站;3.網(wǎng)絡(luò)上的熱點(diǎn)話題會(huì)持續(xù)較長時(shí)間,大量網(wǎng)民會(huì)反復(fù)地參與到討論中;4.網(wǎng)絡(luò)討論影響的范圍不斷擴(kuò)大,并在一定程度上影響了人們的日常生活。網(wǎng)絡(luò)輿情的突發(fā)性和快速傳播的特性使其成為了社會(huì)輿論的一種快速的反應(yīng)形式,網(wǎng)絡(luò)輿情已經(jīng)開始對(duì)現(xiàn)實(shí)社會(huì)產(chǎn)生一定的影響,因此從網(wǎng)絡(luò)安全的角度來看,需要提前預(yù)測網(wǎng)絡(luò)輿情的發(fā)展趨勢,并對(duì)網(wǎng)絡(luò)輿情的發(fā)展加以引導(dǎo),這對(duì)于社會(huì)穩(wěn)定有著重要的意義。網(wǎng)絡(luò)熱點(diǎn)話題的持續(xù)性決定了這些熱點(diǎn)話題有一定的時(shí)間連續(xù)性,因此從時(shí)間的角度出發(fā),以網(wǎng)絡(luò)輿情的數(shù)量為單位對(duì)網(wǎng)絡(luò)熱點(diǎn)話題的后續(xù)發(fā)展趨勢進(jìn)行預(yù)測。但是,現(xiàn)有的網(wǎng)絡(luò)輿情分析方法一般僅具備以下功能一、輿情分析功能。這是輿情分析的核心功能,包括1、熱點(diǎn)話題、敏感話題識(shí)別,可以根據(jù)新聞出處權(quán)威度、評(píng)論數(shù)量、發(fā)言時(shí)間密集程度等參數(shù),識(shí)別出給定時(shí)間段內(nèi)的熱門話題。利用關(guān)鍵字布控和語義分析,識(shí)別敏感話題;2、傾向性分析,對(duì)于每個(gè)話題,對(duì)每個(gè)發(fā)信人發(fā)表的文章的觀點(diǎn)、傾向性進(jìn)行分析與統(tǒng)計(jì);3、主題跟蹤,分析新發(fā)表文章、帖子的話題是否與已有主題相同;4、自動(dòng)摘要,對(duì)各類主題,各類傾向能夠形成自動(dòng)摘要;5、突發(fā)事件分析,對(duì)突發(fā)事件進(jìn)行跨時(shí)間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測事件發(fā)展的趨勢;7、報(bào)警系統(tǒng),對(duì)突發(fā)事件、涉及內(nèi)容安全的敏感話題及時(shí)發(fā)現(xiàn)并報(bào)警;8、統(tǒng)計(jì)報(bào)告,根據(jù)輿情分析引擎處理后的結(jié)果庫生成報(bào)告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據(jù)指定條件對(duì)熱點(diǎn)話題、傾向性進(jìn)行查詢,并瀏覽信息的具體內(nèi)容,提供決策支持。二、自動(dòng)信息采集功能。根據(jù)用戶信息需求,設(shè)定主題目標(biāo),通過網(wǎng)絡(luò)頁面之間的鏈接關(guān)系,從網(wǎng)上自動(dòng)獲取頁面信息,并且隨著鏈接不斷向整個(gè)網(wǎng)絡(luò)擴(kuò)展,從而完成信息收集任務(wù)。三、數(shù)據(jù)清理功能。對(duì)收集到的信息進(jìn)行預(yù)處理,如格式轉(zhuǎn)換、數(shù)據(jù)清理,數(shù)據(jù)統(tǒng)計(jì)。對(duì)于新聞評(píng)論,需要濾除無關(guān)信息,保存新聞的標(biāo)題、出處、發(fā)布時(shí)間、內(nèi)容、點(diǎn)擊次數(shù)、評(píng)論人、評(píng)論內(nèi)容、評(píng)論數(shù)量等。對(duì)于論壇BBS,需要記錄帖子的標(biāo)題、發(fā)言人、發(fā)布時(shí)間、內(nèi)容、回帖內(nèi)容、回帖數(shù)量等,最后形成格式化信息。由于現(xiàn)有的網(wǎng)絡(luò)輿情分析方法僅針對(duì)已出現(xiàn)的網(wǎng)絡(luò)輿情進(jìn)行分析,并不能對(duì)網(wǎng)絡(luò)輿情的發(fā)展趨勢進(jìn)行預(yù)測,因此存在這樣一種技術(shù)需求,即,需要一種快速可靠的網(wǎng)絡(luò)輿情預(yù)測方法來預(yù)測網(wǎng)絡(luò)輿情的發(fā)展趨勢。
發(fā)明內(nèi)容為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法,該方法包括以下步驟A、預(yù)處理網(wǎng)絡(luò)輿情信息,獲得進(jìn)行預(yù)測所需的時(shí)間序列;B、根據(jù)經(jīng)預(yù)處理獲得的所述時(shí)間序列,建立相應(yīng)的預(yù)測模型;C、采用所述預(yù)測模型預(yù)測網(wǎng)絡(luò)輿情發(fā)展趨勢。根據(jù)本方法的一個(gè)方面,所述預(yù)測模型為ARIMA模型。根據(jù)本方法的一個(gè)方面,步驟A中的預(yù)處理過程具體包括以下步驟Al、采集網(wǎng)絡(luò)輿情信息并對(duì)其進(jìn)行聚類;A2、獲取熱點(diǎn)網(wǎng)絡(luò)輿情信息;A3、對(duì)所述熱點(diǎn)網(wǎng)絡(luò)輿情信息進(jìn)行數(shù)據(jù)聚合,獲得為進(jìn)行預(yù)測所需的時(shí)間序列。根據(jù)本方法的一個(gè)方面,步驟B中具體還包括步驟Bl、單位根檢驗(yàn);B2、估計(jì)第一參數(shù)和第二參數(shù);B3、檢驗(yàn)所述ARIMA模型的有效性。根據(jù)本方法的一個(gè)方面,步驟C中的預(yù)測結(jié)果以數(shù)值序列和預(yù)測圖的形式顯不。本發(fā)明具有以下優(yōu)點(diǎn)對(duì)于網(wǎng)絡(luò)上的各個(gè)熱點(diǎn)話題,能夠在最短的時(shí)間預(yù)測出其在未來一段時(shí)間的發(fā)展趨勢,便于通過輿情的引導(dǎo)手段,繼續(xù)保持那些促進(jìn)社會(huì)穩(wěn)定的話題,而對(duì)于那些破壞社會(huì)和諧的話題,則要加以引導(dǎo),使其逐漸消亡。為了進(jìn)一步說明本發(fā)明的原理及特性,以下結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)說明。圖1是按照本發(fā)明的一個(gè)實(shí)施方式的基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法的示意流程圖。圖2是按照本發(fā)明的一個(gè)實(shí)施方式的基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法的預(yù)測結(jié)果。圖3是按照本發(fā)明的一個(gè)實(shí)施方式的基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法的另一個(gè)預(yù)測結(jié)果。具體實(shí)施例方式下面結(jié)合附圖詳細(xì)描述本發(fā)明的具體實(shí)施方式。圖l是按照本發(fā)明的一個(gè)實(shí)施方式的基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法的示意流程圖。本發(fā)明的一個(gè)實(shí)施方式涉及對(duì)網(wǎng)絡(luò)輿情的預(yù)測,其預(yù)測對(duì)象為未來一段時(shí)間內(nèi)網(wǎng)絡(luò)中出現(xiàn)的關(guān)于這個(gè)主題的新聞、論壇帖子、博客等(以下統(tǒng)稱為"帖子")的數(shù)量,其中包括帖子的回復(fù)數(shù)量。由于網(wǎng)絡(luò)上的各種文字信息數(shù)量眾多而且沒有規(guī)律,因此首先要對(duì)所有的帖子進(jìn)行預(yù)處理,將其轉(zhuǎn)換為預(yù)測所需的時(shí)間序列的格式。預(yù)處理過程分為以下三個(gè)步驟1、對(duì)網(wǎng)絡(luò)上的帖子進(jìn)行聚類。由于單個(gè)帖子在時(shí)間上具有突發(fā)性,不具有普遍的規(guī)律,因此需要對(duì)網(wǎng)絡(luò)上所有討論同一個(gè)話題的帖子總量進(jìn)行預(yù)測。聚類過程就是將所有描述同一個(gè)話題的帖子聚合到同一個(gè)類別中。聚類的方法可采用現(xiàn)有技術(shù),比如參考文獻(xiàn)l(參考文獻(xiàn)l:文檔聚類綜述,劉遠(yuǎn)超,王曉龍,徐志明等.《中文信息學(xué)報(bào)》.2005,20(3):55-62)中的技術(shù)。2、獲得熱點(diǎn)話題。網(wǎng)絡(luò)上的帖子數(shù)量很多,并且所對(duì)應(yīng)的話題也不盡相同,而大部分話題涉及的范圍很小,持續(xù)時(shí)間很短,對(duì)于這種話題沒有預(yù)測的必要,因此需要找到網(wǎng)絡(luò)中的熱點(diǎn)話題進(jìn)行預(yù)測。具體的獲取熱點(diǎn)話題的方法可采用現(xiàn)有技術(shù),比如參考文獻(xiàn)2(參考文獻(xiàn)2:流量內(nèi)容詞語相關(guān)度的網(wǎng)絡(luò)熱點(diǎn)話題提取,周亞東,孫欽東,管曉宏等.《西安交通大學(xué)學(xué)報(bào)》.2007.41(10):1142-1145,1150)中的技術(shù)。3、對(duì)網(wǎng)絡(luò)上的帖子進(jìn)行數(shù)據(jù)聚合。由于本發(fā)明的一個(gè)實(shí)施方式使用時(shí)間序列模型進(jìn)行預(yù)測,其輸入為時(shí)間序列,因此需要將網(wǎng)絡(luò)上的帖子進(jìn)行數(shù)據(jù)聚合,得到一個(gè)時(shí)間序列,每個(gè)時(shí)刻的值是到當(dāng)前時(shí)刻為止網(wǎng)絡(luò)上所有關(guān)于某個(gè)話題的帖子及其回復(fù)的總量。數(shù)據(jù)聚合的方法可采用現(xiàn)有技術(shù)。上述預(yù)處理過程得到的結(jié)果就是使用基于時(shí)間序列模型預(yù)測所需要的時(shí)間序列。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,優(yōu)選采用ARIMA模型對(duì)時(shí)間序列進(jìn)行預(yù)測。ARIMA模型全稱為"AutoregressiveIntegratedMovingAverageModel",即自回歸移動(dòng)平均模型,是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的著名時(shí)間序列預(yù)測方法,所以又稱為Box-Jenkins模型、博克思-詹金斯法。ARIMA模型的基本思想是將預(yù)測對(duì)象隨時(shí)間推移而形成的數(shù)據(jù)序列視為一個(gè)隨機(jī)序列,用一定的數(shù)學(xué)模型來近似描述這個(gè)序列。這個(gè)模型一旦被識(shí)別后就可以從時(shí)間序列的過去值及現(xiàn)在值來預(yù)測未來值。(參見GeorgeE.P.Box,GwilymM.Jenkins.TimeSeriesForecastingandControl[M].PrenticeHall.1976.)ARIMA模型預(yù)測的基本過程如下(一)根據(jù)時(shí)間序列的散點(diǎn)圖、自相關(guān)函數(shù)和偏自相關(guān)函數(shù)圖以ADF單位根檢驗(yàn)其方差、趨勢及其周期性變化規(guī)律,對(duì)序列的平穩(wěn)性進(jìn)行識(shí)別。(二)對(duì)非平穩(wěn)序列進(jìn)行平穩(wěn)化處理。如果數(shù)據(jù)序列是非平穩(wěn)的,并存在一定的增長或下降趨勢,則需要對(duì)數(shù)據(jù)進(jìn)行差分處理,如果數(shù)據(jù)存在異方差,則需對(duì)數(shù)據(jù)進(jìn)行技術(shù)處理,直到處理后的數(shù)據(jù)的自相關(guān)函數(shù)值和偏相關(guān)函數(shù)值無顯著地異于零。(三)根據(jù)時(shí)間序列模型的識(shí)別規(guī)則,建立相應(yīng)的模型。若平穩(wěn)序列的偏相關(guān)函數(shù)是截尾的,而自相關(guān)函數(shù)是拖尾的,可斷定序列適合J對(duì)莫型;若平穩(wěn)序列的偏相關(guān)函數(shù)是拖尾的,而自相關(guān)函數(shù)是截尾的,則可斷定序列適合鵬模型;若平穩(wěn)序列的偏相關(guān)函數(shù)和自相關(guān)函數(shù)均是拖尾的,則序列適合ARIMA模型。(四)進(jìn)行參數(shù)估計(jì),檢驗(yàn)是否具有統(tǒng)計(jì)意義。(五)進(jìn)行假設(shè)檢驗(yàn),診斷殘差序列是否為白噪聲。(六)利用己通過檢驗(yàn)的模型進(jìn)行預(yù)測分析。^/湖fo4^過程可以分為兩部分^(^過程和i^(^,過程。(參見馮文權(quán).經(jīng)濟(jì)預(yù)測與決策技術(shù)[M].武漢大學(xué)出版社.2002.以及中國人民銀行調(diào)查統(tǒng)計(jì)司.時(shí)間序列X-12-ARIMA季節(jié)調(diào)整[M]:原理與方法.中國金融出版社.2006.)J禍爾為自回歸模型,湖稱為移動(dòng)平均模型。M4(^)過程稱為移動(dòng)平均過程,表示的是預(yù)測值受到的隨機(jī)干擾的影響,具體的表達(dá)式如公式(1):其中,£,為隨機(jī)干擾項(xiàng),P為》的均值,為移動(dòng)平均參數(shù),少,為一個(gè)平穩(wěn)的隨機(jī)序列。j及(^過程稱為自回歸過程,表示的是預(yù)測值受到的觀察值序列的影響,具體的表達(dá)式如公式(2):乂=A乂—!+A^,-2+.+-pA-P+^+(2)其中,3為常數(shù)項(xiàng)(和》的均值有關(guān)),為自回歸參數(shù)。然而許多隨機(jī)過程不能純粹的用J/(^或者M(jìn)4(^)來表示,并且隨機(jī)序列也不一定是平穩(wěn)的,因此提出了^/M4(^《^)過程,它包含了^(^和M4^)兩個(gè)過程,并且在計(jì)算之前做了d次差分,使序列變?yōu)橐粋€(gè)平穩(wěn)的隨機(jī)序列,如公式(3)所示-(爭,(3)其中0(^二74W^^-…^Z為自回歸算子,6>(^二7"^^^六..^^為移動(dòng)平均算子。R^o^為》的o階差分序列。在上述預(yù)處理過程的基礎(chǔ)上,根據(jù)預(yù)處理過程得到的時(shí)間序列,采用上述ARIMA模型進(jìn)行預(yù)測。使用時(shí)間序列進(jìn)行預(yù)測的過程如下步驟l:對(duì)時(shí)間序列進(jìn)行單位根檢驗(yàn)。對(duì)單位根進(jìn)行檢驗(yàn)的目的在于判斷時(shí)間序列的平穩(wěn)性,同時(shí)可以判斷時(shí)間序列的差分階數(shù)d和周期。周期的判斷和預(yù)處理過程的數(shù)據(jù)聚合過程有密切的關(guān)系,如果數(shù)據(jù)聚合過程所采用的時(shí)間間隔小于一天,那么時(shí)間序列周期很可能為一天;如果數(shù)據(jù)聚合過程所采用的時(shí)間間隔大于一天,那么時(shí)間序列周期是單位根檢驗(yàn)得到的周期。步驟2:判斷單位根是否平穩(wěn)。如果平穩(wěn),則判斷出當(dāng)前時(shí)間序列是平穩(wěn)隨機(jī)時(shí)間序列,然后進(jìn)入步驟3;否則進(jìn)入步驟4;步驟3:通過ARIMA模型識(shí)別估計(jì)參數(shù)p,q,即,對(duì)得到的平穩(wěn)隨機(jī)序列進(jìn)行模型參數(shù)識(shí)別,從而參數(shù)獲得P和q;然后進(jìn)入步驟5。步驟4:對(duì)當(dāng)前時(shí)間序列進(jìn)行差分和周期差分,得到一個(gè)平穩(wěn)的隨機(jī)時(shí)間序列,然后返回步驟l。步驟5:對(duì)模型有效性進(jìn)行檢驗(yàn),并獲得多組(P,q)值。檢驗(yàn)?zāi)P偷挠行?,包括模型的顯著性檢驗(yàn)和參數(shù)的顯著性檢驗(yàn)。模型的顯著性檢驗(yàn)通過殘差序列的LB統(tǒng)計(jì)量來確定,檢驗(yàn)擬合殘差項(xiàng)中是否還蘊(yùn)含相關(guān)信息,如果不再蘊(yùn)含任何相關(guān)信息,即殘差序列為白噪聲序列,此時(shí)的模型有效。參數(shù)的顯著性檢驗(yàn)就是要檢驗(yàn)每一個(gè)未知參數(shù)是否顯著非O。如果某個(gè)未知參數(shù)不顯著非O,即表示該參數(shù)所對(duì)應(yīng)的那個(gè)自由變量對(duì)因變量的影響不明顯,該自變量就可以從擬合模型中刪除。最終模型將由一系列參數(shù)顯著非O的自變量表示。優(yōu)選地,經(jīng)過差分的隨機(jī)序列的自回歸和移動(dòng)平均參數(shù)的階數(shù)都小于3,即,取max(p,q)〈3的(p,q)值。步驟6:判斷模型有效性檢驗(yàn)是否通過,如果通過,進(jìn)入步驟7;否則返回步驟3。步驟7:判斷模型是否可進(jìn)行優(yōu)化,如果可以進(jìn)行優(yōu)化,返回步驟3;否則進(jìn)入步驟8。步驟8:根據(jù)得到的模型,預(yù)測時(shí)間序列的未來走勢,得到預(yù)測結(jié)果。優(yōu)選地,預(yù)測結(jié)果是一組預(yù)測的數(shù)值序列以及一幅直觀的預(yù)測圖,其中的數(shù)值都是所有帖子數(shù)量的累加值總量。圖2是按照本發(fā)明的一個(gè)實(shí)施方式的基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法的預(yù)測結(jié)果。圖2所示為人民網(wǎng)強(qiáng)國論壇關(guān)于"華南虎"事件帖子的預(yù)測結(jié)果。輸入為從2007年12月18日至2008年1月17日,時(shí)間間隔l天的觀察序列,輸出為此后IO天的預(yù)測結(jié)果序列,并附上實(shí)際的觀察值序列作為參考。(圖2中,紅色曲線是觀察值序列,藍(lán)色曲線為預(yù)測值序列,黃色曲線為置信區(qū)間上限,綠色曲線為置信區(qū)間下限。)從圖2中可以看出,自"華南虎"事件發(fā)生以來,人民網(wǎng)上關(guān)于華南虎的討論一直十分熱烈,按照本發(fā)明的一個(gè)實(shí)施方式的基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法的預(yù)測結(jié)果和網(wǎng)絡(luò)上討論數(shù)量的整體發(fā)展趨勢十分接近,但是由于網(wǎng)絡(luò)輿情突發(fā)性等特征,在某一個(gè)具體時(shí)刻的預(yù)測值有可能存在一定的偏差。觀察值(原始值)序列如下表l所示<table>tableseeoriginaldocumentpage11</column></row><table>表l<table>tableseeoriginaldocumentpage12</column></row><table>表2圖3是按照本發(fā)明的一個(gè)實(shí)施方式的基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法的另一個(gè)預(yù)測結(jié)果。圖3所示為北京交通大學(xué)特思論壇關(guān)于"某"事件帖子的預(yù)測結(jié)果,輸入為從2008年3月15日至2008年4月24H,時(shí)間間隔l天的觀察序列,輸出為此后10天的預(yù)測結(jié)果序列,并附上實(shí)際的觀察值序列作為參考。(圖3中,紅色曲線是觀察值序列,藍(lán)色曲線為預(yù)測值序列,黃色曲線為置信區(qū)間上限,綠色曲線為置信區(qū)間下限。)從圖3可以看出,北京交通大學(xué)的同學(xué)們開始積極關(guān)注"某"事件,有/一定數(shù)量的討論,特別是在"某"事件嚴(yán)重發(fā)生之后,討論達(dá)到了一個(gè)高潮。在經(jīng)歷一段高潮之后,討論也漸漸減少,按照本發(fā)明的一個(gè)實(shí)施方式的基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法的預(yù)測結(jié)果也顯示出發(fā)展的大體方向。觀察值(原始值)序列如下表3所示<table>tableseeoriginaldocumentpage12</column></row><table><table>tableseeoriginaldocumentpage13</column></row><table>表4雖然以上描述了本發(fā)明的具體實(shí)施方式,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些具體實(shí)施方式僅是舉例說明,本領(lǐng)域的技術(shù)人員在不脫離本發(fā)明的原理和實(shí)質(zhì)的情況下,可以對(duì)上述方法和系統(tǒng)的細(xì)節(jié)進(jìn)行各種省略、替換和改變。例如,合并上述方法步驟,從而按照實(shí)質(zhì)相同的方法執(zhí)行實(shí)質(zhì)相同的功能以實(shí)現(xiàn)實(shí)質(zhì)相同的結(jié)果則屬于本發(fā)明的范圍。因此,本發(fā)明的范圍僅由所附權(quán)利要求書限定。權(quán)利要求1.一種基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法,其特征在于,該方法包括以下步驟A、預(yù)處理網(wǎng)絡(luò)輿情信息,獲得進(jìn)行預(yù)測所需的時(shí)間序列;B、根據(jù)經(jīng)預(yù)處理獲得的所述時(shí)間序列,建立相應(yīng)的預(yù)測模型;C、采用所述預(yù)測模型預(yù)測網(wǎng)絡(luò)輿情發(fā)展趨勢。2.根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)輿情預(yù)測方法,其特征在于,所述預(yù)測模型為ARIMA模型。3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)輿情預(yù)測方法,其特征在于,步驟A中的預(yù)處理過程具體包括以下步驟Al、采集網(wǎng)絡(luò)輿情信息并對(duì)其進(jìn)行聚類;A2、獲取熱點(diǎn)網(wǎng)絡(luò)輿情信息;A3、對(duì)所述熱點(diǎn)網(wǎng)絡(luò)輿情信息進(jìn)行數(shù)據(jù)聚合,獲得進(jìn)行預(yù)測所需的時(shí)間序列。4.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)輿情預(yù)測方法,其特征在于,步驟B中具體還包括步驟Bl、單位根檢驗(yàn);B2、估計(jì)第一參數(shù)和第二參數(shù);B3、檢驗(yàn)所述ARIMA模型的有效性。5.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)輿情預(yù)測方法,其特征在于,步驟C中的預(yù)測結(jié)果以數(shù)值序列和預(yù)測圖的形式顯示。全文摘要本發(fā)明提供一種基于時(shí)間序列的網(wǎng)絡(luò)輿情預(yù)測方法,該方法對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行預(yù)處理,獲得進(jìn)行預(yù)測所需的時(shí)間序列,然后根據(jù)所述時(shí)間序列,建立相應(yīng)的預(yù)測模型,最后采用所述預(yù)測模型預(yù)測網(wǎng)絡(luò)輿情發(fā)展趨勢。文檔編號(hào)H04L12/24GK101394311SQ20081022629公開日2009年3月25日申請(qǐng)日期2008年11月12日優(yōu)先權(quán)日2008年11月12日發(fā)明者飛丁,云劉,司夏萌,立張,張彥超,張振江,勇李,波沈,輝程申請(qǐng)人:北京交通大學(xué)