1.輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,包括數(shù)據(jù)采集模塊和顯示模塊;
所述數(shù)據(jù)采集模塊包括主題設置單元、輿情采集單元、存儲單元、目標網(wǎng)頁生成單元和分析單元;
所述主題設置單元,用于獲取輿情主題,并根據(jù)所述輿情主題確定臨時目標網(wǎng)頁;
所述輿情采集單元,用于根據(jù)臨時網(wǎng)頁和各數(shù)據(jù)采集裝置的狀態(tài)信息選擇最優(yōu)數(shù)據(jù)采集裝置進行輿情數(shù)據(jù)采集,最優(yōu)數(shù)據(jù)采集裝置在接收到輿情采集指令后從臨時目標網(wǎng)頁上讀取臨時輿情數(shù)據(jù);
所述存儲單元,用于采用分布式存儲的方式來存儲所述臨時輿情數(shù)據(jù);
所述目標網(wǎng)頁生成單元,用于計算所述所有臨時輿情數(shù)據(jù)與輿情主題的匹配度,選擇匹配度大于閾值的臨時輿情數(shù)據(jù)作為最終輿情數(shù)據(jù),最終輿情數(shù)據(jù)對應的網(wǎng)頁為最終目標網(wǎng)頁;
所述分析單元,用于對所述最終輿情數(shù)據(jù)的發(fā)布者、發(fā)布者位置和發(fā)布時間進行分析,以及對接收者的位置、接收時間進行分析;
所述顯示模塊包括大數(shù)據(jù)標準接口、大數(shù)據(jù)可視化引擎、可視化工具庫和智能知識庫;
所述大數(shù)據(jù)標準接口用于獲取所述分析單元輸出的數(shù)據(jù)詞庫,并對所述數(shù)據(jù)詞庫中數(shù)據(jù)的格式進行標準化處理,得到標準大數(shù)據(jù);
所述大數(shù)據(jù)可視化引擎,用于通過調(diào)用所述可視化工具庫中相應的可視化工具對所述標準大數(shù)據(jù)進行可視化處理,得到可視標準大數(shù)據(jù);通過調(diào)用所述智能知識庫中相應的大數(shù)據(jù)解讀模式集,對所述可視標準大數(shù)據(jù)進行解讀模式匹配得到易讀數(shù)據(jù)流,并在獲得獲取顯示指令時將所述易讀數(shù)據(jù)流進行GIS地圖呈現(xiàn)處理。
2.根據(jù)權利要求1所述的輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,所述輿情采集單元包括:控制裝置,用于判斷各數(shù)據(jù)采集裝置的工作狀態(tài),選擇出處于空閑狀態(tài)的數(shù)據(jù)采集裝置;在第一閾值時間內(nèi),測試各數(shù)據(jù)采集裝置完全加載目標網(wǎng)頁的次數(shù),選出完全加載目標網(wǎng)頁次數(shù)最多的數(shù)據(jù)采集裝置作為最優(yōu)數(shù)據(jù)采集裝置。
3.根據(jù)權利要求1所述的輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,所述分析單元包括:
發(fā)布者分析單元,用于獲取所述最終目標網(wǎng)頁所屬網(wǎng)站作為最終輿情數(shù)據(jù)的發(fā)布者,獲取所述最終目標網(wǎng)頁所屬網(wǎng)站的注冊位置作為最終輿情數(shù)據(jù)的發(fā)布者位置,獲取所述最終目標網(wǎng)頁的創(chuàng)建時間作為發(fā)布時間;
接收者分析單元,用于獲取所述最終目標網(wǎng)頁的訪問者的IP地址的歸屬地作為接收者的位置,獲取所述訪問者訪問最終目標網(wǎng)頁的時間作為接收時間。
4.根據(jù)權利要求3所述的輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,所述發(fā)布者分析單元還用于對最終輿情數(shù)據(jù)進行分析,檢測所述最終輿情數(shù)據(jù)中是否記載數(shù)據(jù)來源。
5.根據(jù)權利要求1所述的輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,所述顯示模塊還包括:
指令接收子模塊,用于獲取所述顯示指令;
GIS子模塊,用于構建GIS地圖;
顯示子模塊,用于將大數(shù)據(jù)可視化引擎的處理結果結合GIS地圖進行顯示。
6.根據(jù)權利要求1所述的輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,所述目標網(wǎng)頁生成單元包括:匹配度計算模塊,用于從所述存儲單元中讀取臨時輿情數(shù)據(jù),并對所述臨時輿情數(shù)據(jù)進行分詞得到數(shù)據(jù)詞庫;根據(jù)預設的無效詞庫刪除所述數(shù)據(jù)詞庫中的無效詞;根據(jù)出現(xiàn)次數(shù)為所述數(shù)據(jù)詞庫中的各詞組賦予第一權值,根據(jù)各詞組的第一權值選出關鍵詞;獲取所述關鍵詞與監(jiān)控主題包含的相同詞組,以及監(jiān)控主題包括的詞組數(shù)量;計算所述相同詞組的數(shù)量與監(jiān)控主題中詞組的數(shù)量的比值得到匹配度;或,用于從所述存儲單元中讀取臨時輿情數(shù)據(jù),并對所述臨時輿情數(shù)據(jù)進行分詞得到數(shù)據(jù)詞庫;根據(jù)預設的無效詞庫刪除所述數(shù)據(jù)詞庫中的無效詞;根據(jù)出現(xiàn)次數(shù)為所述數(shù)據(jù)詞庫中的各詞組賦予第一權值,根據(jù)各詞組的第一權值選出關鍵詞;獲取所述關鍵詞與監(jiān)控主題包含的相同詞組,以及監(jiān)控主題包括的詞組數(shù)量;為監(jiān)控主題中各詞組設置第二權值;計算所述相同詞組的第二權值之和與監(jiān)控主題中詞組的第二權值之和的比值得到匹配度。
7.根據(jù)權利要求6所述的輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,所述匹配度計算模塊對所述臨時輿情數(shù)據(jù)進行分詞時:將所述臨時輿情數(shù)據(jù)從正序和返序分別與預設詞典進行匹配,得到第一中間詞庫;刪除臨時輿情數(shù)據(jù)中的標點符號,再將所述臨時輿情數(shù)據(jù)從正序和返序分別與預設詞典進行匹配,得到第二中間詞庫;根據(jù)所述第一中間詞庫和第二中間詞庫構成數(shù)據(jù)詞庫。
8.根據(jù)權利要求1所述的輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,所述第一數(shù)據(jù)采集裝置從目標網(wǎng)頁中讀取臨時輿情數(shù)據(jù)時:獲取目標網(wǎng)頁的網(wǎng)址,與所述目標網(wǎng)頁對應的服務器建立連接,下載并解析該服務器中的超文本鏈接標識語言源文件。
9.根據(jù)權利要求1所述的輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,所述存儲單元包括:
封裝模塊,用于獲取所述臨時輿情數(shù)據(jù)的屬性信息,并根據(jù)該屬性信息將所述臨時輿情數(shù)據(jù)封裝為相應格式,并對所述目標數(shù)據(jù)進行編號;
數(shù)據(jù)存儲模塊,用于根據(jù)所述臨時輿情數(shù)據(jù)的封裝格式將臨時輿情數(shù)據(jù)存入相應的數(shù)據(jù)庫中;
編號存儲模塊,用于存儲所述臨時輿情數(shù)據(jù)的編號。
10.根據(jù)權利要求1所述的輿情大數(shù)據(jù)的可視化系統(tǒng),其特征在于,所述顯示模塊進行GIS地圖呈現(xiàn)時,按照時間順序依次在所述GIS地圖上以第一顏色的亮點表示發(fā)布者位置,以第二顏色的亮點表示接收者的位置。