專利名稱:一種網(wǎng)絡(luò)輿情地理位置實時監(jiān)控系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)輿情地理位置傳播、分布實時監(jiān)控技術(shù)。
背景技術(shù):
隨著網(wǎng)絡(luò)大力普及,人們越來越習(xí)慣在網(wǎng)絡(luò)表達(dá)自己的觀點(diǎn),并且由于網(wǎng)絡(luò)的龐大性和隱匿性,導(dǎo)致觀點(diǎn)的表達(dá)更加真實、大膽,網(wǎng)絡(luò)輿情逐漸引起人們的廣泛關(guān)注。網(wǎng)絡(luò)輿情具有一定地域特點(diǎn),網(wǎng)絡(luò)的熱點(diǎn)話題也是社會中的熱點(diǎn)話題,尋找網(wǎng)絡(luò)輿情和社會輿情的聯(lián)系,將輿情在網(wǎng)絡(luò)上的傳播和其在地理位置上的傳播聯(lián)系起來,是網(wǎng)絡(luò)輿情的一個研究趨勢。但目前在輿情監(jiān)控應(yīng)用領(lǐng)域中,存在以下的問題:I)數(shù)據(jù)來源的局限性;當(dāng)前輿情監(jiān)控系統(tǒng)大多局限在某種或者某類特定的網(wǎng)絡(luò)形態(tài),導(dǎo)致輿情監(jiān)控不夠全面。2)網(wǎng)絡(luò)輿情和社會輿情的聯(lián)系性較弱;當(dāng)前大多輿情分析主要針對網(wǎng)絡(luò)行為開展,忽略網(wǎng)絡(luò)輿情的地域特征,也就是說沒有和社會輿情相聯(lián)系。申請?zhí)枮?01210216349.X的發(fā)明專利申請“一種輿情信息展示系統(tǒng)及方法”對包含輿情信息的網(wǎng)頁進(jìn)行地域識別,客觀、直觀地反映了不同地域的輿情信息,屬于輿情的統(tǒng)計分析靜態(tài)展示,沒有對特定輿情傳播過程的動態(tài)展示;其地域識別模塊,適于對所述正文信息進(jìn)行地域識別,以獲得所述正文信息的所屬地域并對具有相同所屬地域的網(wǎng)頁進(jìn)行數(shù)量統(tǒng)計,該模塊所完成的數(shù)據(jù)處理功能僅僅是對含有地域?qū)傩缘木W(wǎng)頁數(shù)量進(jìn)行統(tǒng)計,不涉及用戶對話題的討論過程演變,對特定的某個輿情,缺乏針對性,無法完成對特定輿情熱點(diǎn)的監(jiān)控。申請?zhí)枮?01110127509.9的發(fā)明專利申請“網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法”屬于對網(wǎng)絡(luò)熱點(diǎn)話題的監(jiān)測和預(yù)警,沒有對每一個熱點(diǎn)話題在網(wǎng)絡(luò)上的傳播態(tài)勢進(jìn)行分析,也沒有對
網(wǎng)絡(luò)熱點(diǎn)話題在現(xiàn)實社會城市之間的傳播態(tài)勢進(jìn)行分析,不適用于對社會輿情的觀察和預(yù)
m
目O
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)存在的上述問題,提供一種網(wǎng)絡(luò)輿情地理位置傳播、分布實時監(jiān)控系統(tǒng)。本發(fā)明解決上述技術(shù)問題的技術(shù)方案是:一種網(wǎng)絡(luò)輿情地理位置實時監(jiān)控系統(tǒng),其特征在于,包括:數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、動態(tài)展示模塊、分析報告模塊;其中,數(shù)據(jù)采集模塊預(yù)先將含有用戶所在地的用戶注冊信息存到本地,獲取微博、博客、論壇的熱點(diǎn)關(guān)鍵詞,建立關(guān)鍵詞列表(可采用相似度檢測技術(shù)對關(guān)鍵詞去重),依次從微博、博客、論壇搜索每個關(guān)鍵詞并將網(wǎng)頁源碼保存到本地;數(shù)據(jù)處理模塊采用字符串首尾邊界切割技術(shù),統(tǒng)一微博、博客、論壇等各種網(wǎng)絡(luò)形態(tài)的數(shù)據(jù)處理方式,從搜索結(jié)果網(wǎng)頁源碼中截取時間及與地理位置有關(guān)的信息,并建立地理位置與經(jīng)緯度坐標(biāo)的映射;按照輿情傳播時間的先后順序?qū)λ@取的話題討論相關(guān)內(nèi)容排序,按用戶設(shè)定的時間間隔對排序后的內(nèi)容按照定長時間段分批;動態(tài)展示模塊讀取已分批內(nèi)容的地理位置信息并轉(zhuǎn)換為經(jīng)緯度坐標(biāo),按批依次載入GIS系統(tǒng)進(jìn)行傳播動態(tài)展示,根據(jù)經(jīng)緯度坐標(biāo)動態(tài)標(biāo)記定位網(wǎng)民對該熱點(diǎn)關(guān)鍵詞的討論傳播情況,并繪制該熱點(diǎn)關(guān)鍵詞各地網(wǎng)民關(guān)注數(shù)量隨時間變化的曲線;分析報告模塊存儲演示結(jié)果并對網(wǎng)民地域分布人數(shù)做定量分析。具體為:所述數(shù)據(jù)采集模塊包括:用戶數(shù)據(jù)采集模塊、關(guān)鍵詞采集模塊、話題信息采集模塊。用戶數(shù)據(jù)采集模塊實時采集網(wǎng)絡(luò)信息,通過預(yù)處理把含有地理位置屬性的用戶注冊信息保存到用戶注冊信息表,當(dāng)參與某話題討論的用戶存在于表中時,可直接提取其地理位置信息,若不存在,先進(jìn)入個人主頁提取其地理位置信息并更新用戶注冊信息表。關(guān)鍵詞采集模塊自動獲取微博、博客、論壇的熱點(diǎn)關(guān)鍵詞,通過文本聚類的方法進(jìn)行相似度檢測并去重,得到關(guān)鍵詞列表。話題信息采集模塊根據(jù)關(guān)鍵詞搜索所有話題并保存搜索結(jié)果網(wǎng)頁源碼。數(shù)據(jù)處理模塊包括:提取時間地點(diǎn)模塊、地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊、數(shù)據(jù)按時間分批模塊。提取時間地點(diǎn)模塊采用字符串首尾邊界切割技術(shù),直接鎖定待提取信息的位置,從網(wǎng)頁源碼中提取和地理位置傳播相關(guān)的信息,在不需要修改源程序的情況下,對各種網(wǎng)頁結(jié)構(gòu)進(jìn)行統(tǒng)一處理;地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊完成城市名稱和其經(jīng)緯度坐標(biāo)的映射,用于GIS定位;數(shù)據(jù)按時間分批模塊對已獲取數(shù)據(jù),按照信息傳播時間先后排序,以用戶所設(shè)定的時間間隔對數(shù)據(jù)分批。動態(tài)展示模塊包括:GIS系統(tǒng)動態(tài)展示傳播模塊、網(wǎng)民地域分布實時變化模塊。GIS系統(tǒng)動態(tài)展示傳播模塊將分批后的數(shù)據(jù)依次載入GIS系統(tǒng),按照經(jīng)緯度坐標(biāo)定位并動態(tài)標(biāo)注其傳播位置,采用立方體或圓柱體等帶有高度的自定義地標(biāo),依次標(biāo)識每一批城市,同一批地理位置地標(biāo)具有相同的高度,處于不同批次同一地理位置的標(biāo)注點(diǎn)通過對經(jīng)緯度小量的改變,使地標(biāo)處于之前地標(biāo)的周圍位置,地標(biāo)的高度差用來區(qū)分不同的傳播批次,地標(biāo)的密度用來區(qū)分不同地域該特定輿情的密度,以便觀察。網(wǎng)民地域分布實時變化模塊,在χ-y坐標(biāo)系中繪制不同省市參與某關(guān)鍵詞討論網(wǎng)民的數(shù)量隨時間變化的趨勢,可一條曲線代表一個城市的情況。動態(tài)展示模塊和網(wǎng)民地域分布展示模塊同步動態(tài)展示,前者從數(shù)據(jù)庫讀取分批次的經(jīng)緯度坐標(biāo)集,依次標(biāo)注傳播態(tài)勢,后者將每一批每一個城市的網(wǎng)民數(shù)量繪制為一個點(diǎn),隨時間推移,動態(tài)連接這些點(diǎn)。分析報告模塊包括:存檔演示結(jié)果圖模塊、數(shù)據(jù)分析模塊。存檔演示結(jié)果圖保存每一個關(guān)鍵詞所代表的熱點(diǎn)話題在地圖上標(biāo)注后的分布情況圖,以及網(wǎng)民分布曲線圖。數(shù)據(jù)分析模塊對演示結(jié)果進(jìn)行定量分析,如對網(wǎng)民省市分布情況以表格的形式量化。一種網(wǎng)絡(luò)輿情地理位置實時監(jiān)控方法,數(shù)據(jù)采集模塊預(yù)先將用戶注冊信息存儲到本地,獲取微博、博客、論壇的熱點(diǎn)關(guān)鍵詞,對關(guān)鍵詞進(jìn)行相似度檢測并去重,建立關(guān)鍵詞列表,依次從微博、博客、論壇搜索每個關(guān)鍵詞并將網(wǎng)頁源碼保存到本地;數(shù)據(jù)處理模塊使用字符串首尾邊界切割技術(shù),從微博、博客、論壇的搜索結(jié)果網(wǎng)頁源碼中提取時間和地理位置傳播相關(guān)信息,根據(jù)地理位置建立與經(jīng)緯度坐標(biāo)的映射,按照輿情傳播時間的先后順序?qū)λ@取的話題討論相關(guān)內(nèi)容排序,按用戶設(shè)定的時間間隔對排序后的內(nèi)容按照定長時間段分批;動態(tài)展示模塊讀取分批數(shù)據(jù),按批依次載入地理信息系統(tǒng),進(jìn)行地理坐標(biāo)標(biāo)識,根據(jù)經(jīng)緯度坐標(biāo)定位標(biāo)記熱點(diǎn)關(guān)鍵詞,進(jìn)行信息傳播動態(tài)演示,并繪制熱點(diǎn)關(guān)鍵詞隨時間變化的曲線;分析報告模塊存儲演示結(jié)果并對網(wǎng)民地域分布人數(shù)做定量分析。
對信息字符串首尾邊界切割具體為,根據(jù)各網(wǎng)絡(luò)形態(tài)的網(wǎng)頁源碼,查找所要提取目標(biāo)字符串首和尾的唯一字符串標(biāo)識,使用字符串切割功能,將目標(biāo)字符串提取出來。對于不提供IP的網(wǎng)站,預(yù)處理模塊搜索網(wǎng)站所有用戶的個人信息主頁,使用字符串首尾邊界切割技術(shù)提取用戶名和注冊地點(diǎn)存入用戶注冊信息表。如果有IP地址,則查找IP地址和地理位置信息映射表,將IP地址轉(zhuǎn)換為城市名稱,保證待處理數(shù)據(jù)集中僅含有時間和城市名稱兩個屬性。數(shù)據(jù)處理模塊從搜索結(jié)果網(wǎng)頁源碼中,根據(jù)目標(biāo)信息標(biāo)識表中對應(yīng)的該網(wǎng)站的各個標(biāo)識,使用字符串首尾邊界切割技術(shù)提取其中的用戶名、話題內(nèi)容、IP、時間等信息存入數(shù)據(jù)庫。本發(fā)明相對于現(xiàn)有技術(shù),將微博、博客、論壇的數(shù)據(jù)處理方式進(jìn)行統(tǒng)一,通過熱榜建立關(guān)鍵詞列表,按關(guān)鍵詞搜索并獲取網(wǎng)頁內(nèi)容,包括傳播時間、地點(diǎn)/IP和發(fā)布、轉(zhuǎn)發(fā)和評論者,將網(wǎng)絡(luò)輿情的傳播和社會輿情的傳播對應(yīng),借助Gis軟件,動態(tài)還原傳播過程。本發(fā)明在地理位置信息獲取的處理之上,把不能直接獲取城市或IP信息的網(wǎng)站,提前對用戶信息進(jìn)行預(yù)處理,保存用戶注冊城市,以保障系統(tǒng)運(yùn)行實時性。輸入關(guān)鍵詞列表和自動獲取關(guān)鍵詞列表既可以滿足用戶對特定話題傳播動向觀察的需求,也可以實現(xiàn)全網(wǎng)絡(luò)實時監(jiān)控。另一方面,在輿情的動態(tài)展示上,借助Gis軟件的強(qiáng)大功能,以地標(biāo)的高度差表示傳播批次的不同,以地標(biāo)的密度區(qū)分不同地域該特定輿情的分布密度。
圖1是本發(fā)明的系統(tǒng)結(jié)構(gòu)組成圖;圖2是本發(fā)明的運(yùn)行流程圖。
具體實施例方式本發(fā)明網(wǎng)絡(luò)輿情地理位置實時監(jiān)控系統(tǒng),統(tǒng)一微博、博客、論壇數(shù)據(jù)的處理方式,通過文本聚類等技術(shù)進(jìn)行相似度檢測并去重,得到話題熱點(diǎn)關(guān)鍵詞列表,通過網(wǎng)站結(jié)構(gòu)表獲取待提取信息的首尾邊界,對熱點(diǎn)關(guān)鍵詞相關(guān)的地理位置和時間信息進(jìn)行首尾邊界切割提取地理位置和時間信息,根據(jù)每一個關(guān)鍵詞獲取數(shù)據(jù)并進(jìn)行數(shù)據(jù)處理,在GIS地理模型上動態(tài)還原其傳播態(tài)勢,分析各地網(wǎng)民參與人數(shù)。將地理位置轉(zhuǎn)換成經(jīng)緯度坐標(biāo),實現(xiàn)網(wǎng)絡(luò)環(huán)境和真實環(huán)境的映射,通過對數(shù)據(jù)按時間段分批在GIS系統(tǒng)中完成定位從而實現(xiàn)動態(tài)演示傳播過程。最后存儲演示結(jié)果圖并對網(wǎng)民的地域分布人數(shù)做定量分析,生成報告。下面結(jié)合附圖和實施例對本發(fā)明進(jìn)一步詳細(xì)描述,但本發(fā)明的實施方式不限于此。如圖1所示為本發(fā)明系統(tǒng)結(jié)構(gòu)組成圖,本發(fā)明網(wǎng)絡(luò)輿情地理位置傳播、分布實時監(jiān)控系統(tǒng)包括:數(shù)據(jù)采集模塊100、數(shù)據(jù)處理模塊200、動態(tài)展示模塊300、分析報告模塊400。數(shù)據(jù)采集模塊100包括:用戶數(shù)據(jù)采集模塊、關(guān)鍵詞采集模塊、話題信息采集模塊。數(shù)據(jù)采集模塊完成用戶注冊信息、熱點(diǎn)關(guān)鍵詞列表、特定話題相關(guān)信息三種數(shù)據(jù)的采集。對于信息的采集,對待采集信息字符串首尾邊界進(jìn)行切割獲得需要提取的數(shù)據(jù)。字符串首尾邊界切割技術(shù),具體可使用字符串的切割功能,查找所要提取目標(biāo)字符串首和尾的唯一字符串標(biāo)識,將目標(biāo)字符串提取出來。如:字符串為“abcA用戶名Bdfd”,“A”和“B”為“用戶名”首尾的唯一標(biāo)識,目標(biāo)信息是“用戶名”。具體做法為首先鎖定“A”和“B”在字符串中的索引位置,使用字符串的切割方法,將“用戶名”提取出來。對不同網(wǎng)絡(luò)形態(tài)而言,待提取信息的首尾標(biāo)識各有不同,故預(yù)先分析各網(wǎng)站源碼,將網(wǎng)站源碼的唯一標(biāo)識存入數(shù)據(jù)庫,使得抓取過程只需從數(shù)據(jù)庫中讀入待提取內(nèi)容的首尾唯一標(biāo)識即可,避免了因網(wǎng)站結(jié)構(gòu)改變而不能正確提取的情況出現(xiàn)。用戶數(shù)據(jù)采集模塊101,實時采集用戶個人信息,以提高系統(tǒng)效率和保證系統(tǒng)實時性。由于部分網(wǎng)站通過帖子、博文不能直接獲取用戶的IP或地址信息,需要進(jìn)入用戶個人信息主頁進(jìn)行數(shù)據(jù)抓取,如果不進(jìn)行預(yù)處理,通過先找到帖子中用戶然后再根據(jù)用戶進(jìn)入其主頁抓取其IP或地址信息的方式獲取數(shù)據(jù)的話,由于請求網(wǎng)頁需要一定的時間消耗,會影響系統(tǒng)效率。用戶數(shù)據(jù)采集模塊101通過預(yù)處理預(yù)先將用戶注冊信息保存到本地,建立用戶注冊信息表,對于不提供IP的網(wǎng)站進(jìn)行預(yù)處理,即預(yù)處理模塊搜索網(wǎng)站所有用戶的個人信息主頁,使用字符串首尾邊界切割技術(shù)提取用戶名和注冊地點(diǎn)存入用戶注冊信息表。關(guān)鍵詞采集模塊102自動獲取網(wǎng)絡(luò)話題熱點(diǎn)關(guān)鍵詞,通過網(wǎng)絡(luò)爬蟲對微博、博客、論壇話題熱榜的關(guān)鍵詞進(jìn)行抓取,利用現(xiàn)有的文本聚類技術(shù)進(jìn)行相似度檢測、去重,得到關(guān)鍵詞列表。話題信息采集模塊103使用微博、博客或論壇提供的搜索功能,搜索關(guān)鍵詞。將搜索的所有頁面的網(wǎng)頁源碼保存到本地。數(shù)據(jù)處理模塊200包括:提取時間地點(diǎn)模塊、地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊、數(shù)據(jù)按時間分批模塊。預(yù)先建立網(wǎng)站結(jié)構(gòu)表,分析網(wǎng)站源碼,找到所需信息的首尾唯一標(biāo)識,存入網(wǎng)站結(jié)構(gòu)表。格式如:網(wǎng)站、目標(biāo)信息I首標(biāo)識、目標(biāo)信息I尾標(biāo)識、目標(biāo)信息2首標(biāo)識、目標(biāo)信息2尾標(biāo)識等。根據(jù)網(wǎng)站結(jié)構(gòu)表中對應(yīng)的該網(wǎng)站的各個標(biāo)識使用字符串首尾邊界切割技術(shù)提取其中的用戶名、話題內(nèi)容、IP、時間等信息存入數(shù)據(jù)庫中。通過將地理位置轉(zhuǎn)換為經(jīng)緯度坐標(biāo),并按照時間順序排序,按照用戶設(shè)定的時間間隔進(jìn)行分批,完成動態(tài)演示數(shù)據(jù)集的建立。數(shù)據(jù)處理模塊完成三次遞進(jìn)式的數(shù)據(jù)處理。提取時間地點(diǎn)模塊201從搜索結(jié)果網(wǎng)頁源碼中提取時間和地點(diǎn)信息,在處理過程中,如果有IP地址,則查找IP地址和地理位置信息映射表,將IP地址轉(zhuǎn)換為城市名稱,以保證待處理數(shù)據(jù)集中僅含有時間和城市名稱兩個屬性。IP地址和地理位置信息映射表,是根據(jù)現(xiàn)實中的IP與地點(diǎn)的對應(yīng)關(guān)系,建立存儲在數(shù)據(jù)庫中的表。地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊202通過讀取地點(diǎn)和經(jīng)緯度映射表,將提取出來的地理位置信息轉(zhuǎn)換為經(jīng)緯度。地點(diǎn)和經(jīng)緯度映射表,是根據(jù)不同GIS系統(tǒng)的地理坐標(biāo)系統(tǒng),在數(shù)據(jù)庫中所建立的城市和經(jīng)緯度對應(yīng)關(guān)系的映射表。數(shù)據(jù)按時間分批模塊203對地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊202所建立的時間地點(diǎn)表,根據(jù)“時間”字段,按時間先后排序,按照用戶指定的時間間隔,對數(shù)據(jù)分批。如對于周期比較短的熱點(diǎn)話題,可以采取10分鐘的時間間隔,10分鐘之內(nèi)的數(shù)據(jù)均認(rèn)為同屬一批,這樣可把一個小時之內(nèi)傳播的數(shù)據(jù)分為6批,依次類推。動態(tài)展示模塊300包括:GIS動態(tài)展示傳播模塊、網(wǎng)民地域分布實時變化模塊,主要完成網(wǎng)絡(luò)輿情傳播到地理位置傳播的動態(tài)展示。動態(tài)展示傳播模塊301讀取按照時間分批的經(jīng)緯度坐標(biāo),在GIS上分批標(biāo)識,地標(biāo)采用具有高度差異的覆蓋物,同一批數(shù)據(jù)采用相同高度的覆蓋物,面對同一地點(diǎn)多次傳播的情況,通過略微改變經(jīng)緯度坐標(biāo),使地標(biāo)被標(biāo)識在之前地標(biāo)的附近,以密度表示輿情在該地區(qū)的密集程度。如采用Google Earth進(jìn)行數(shù)據(jù)展示時,可將分好批的數(shù)據(jù)按照批次寫成若干kml演示文件,再通過Google Earth 二次開發(fā)所提供的程序接口,使用OpenKmlFile方法依次讀入每一個kml演示文件,建立定時器讀取文件或者每讀取一次文件程序都休眠小段時間,以這樣的方式完成信息傳播動態(tài)演示;采用百度地圖時,利用官方提供的API程序接口,如Javascript版API,將對地圖進(jìn)行地標(biāo)標(biāo)注的函數(shù)用定時器控制其周期性執(zhí)行,以完成動態(tài)演示。網(wǎng)民地域分布實時變化模塊302完成網(wǎng)民地域分布曲線的動態(tài)變化,在χ-y坐標(biāo)系中,X軸屬性為時間,y軸屬性為網(wǎng)民人數(shù),省市之間的曲線用顏色區(qū)分,一批數(shù)據(jù)中的同一省市做一個點(diǎn),隨著數(shù)據(jù)批次的增加,將同一省市的點(diǎn)動態(tài)連接起來,產(chǎn)生動畫效果。如,若對地域按照省市自治區(qū)來分,中國有34個獨(dú)立的單位,則在x-y坐標(biāo)系中,繪制34條不同顏色的曲線,坐標(biāo)系中的點(diǎn)代表某一時間某一地點(diǎn)網(wǎng)民人數(shù)。圖2是本發(fā)明的網(wǎng)絡(luò)輿情地理位置傳播、分布實時監(jiān)控工作的流程圖,根據(jù)圖2,對本發(fā)明的網(wǎng)絡(luò)輿情地理位置傳播、分布實時監(jiān)控方法作進(jìn)一步的說明。StepO:程序啟動;stepl:數(shù)據(jù)采集模塊判斷是否需要數(shù)據(jù)預(yù)處理,若不需要,跳到st印3 ;st印2:進(jìn)入微博、博客或論壇,提取所有網(wǎng)貼的URL。依次進(jìn)入各個網(wǎng)貼獲取出現(xiàn)的發(fā)帖者和回復(fù)者的個人主頁URLl (這里為了區(qū)分,用URLl表示),同時進(jìn)行去重處理,然后依次進(jìn)入每個URLl提取用戶名和地點(diǎn)信息,存入用戶注冊信息表;根據(jù)不同網(wǎng)站網(wǎng)頁源碼結(jié)構(gòu),分析待提取關(guān)鍵詞前后唯一標(biāo)識,存入網(wǎng)絡(luò)結(jié)構(gòu)表;step3:手動輸入關(guān)鍵詞或自動獲取關(guān)鍵詞,關(guān)鍵詞列表個數(shù)為M,并設(shè)兩個控制變量i=j=l ;step4:獲取第i個關(guān)鍵詞;step5:在第j個微博、博客或者論壇中根據(jù)第i個關(guān)鍵詞,利用微博、博客或論壇提供的搜索功能,搜索關(guān)鍵詞;step6:將搜索結(jié)果的網(wǎng)頁源碼在本地保存;step7:根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)表,利用字符串首尾邊界切割技術(shù),從本地網(wǎng)頁源碼中提取用戶名、發(fā)布時間,存入原始演示數(shù)據(jù)集;step8:判斷是否能直接獲取IP地址,如果否,跳到steplO ;st印9:將IP地址轉(zhuǎn)為城市名稱,跳到st印11 ;steplO:根據(jù)用戶名,查找用戶注冊信息表,獲取用戶注冊城市信息,若無記錄,則進(jìn)入用戶主頁得到注冊城市,并更新用戶注冊信息表;Stepll:完成在第j個微博、博客或者論壇的輿情采集,j++,N為微博、博客和論壇的總數(shù),如果j〈N,跳到step5 ;stepl2:根據(jù)經(jīng)緯度對應(yīng)關(guān)系,把城市信息轉(zhuǎn)換成經(jīng)緯度信息,存入演示數(shù)據(jù)集表;stepl3:對演示數(shù)據(jù)集表中的數(shù)據(jù)按照時間先后分批,供GIS軟件分批讀取演示數(shù)據(jù);st印14:選取一個GIS軟件,如百度地圖,利用API Flash,對讀取演示批數(shù)設(shè)置定時器,實現(xiàn)動態(tài)演示;每讀取一批數(shù)據(jù),繪制對應(yīng)的網(wǎng)民省市分布曲線圖的點(diǎn),動態(tài)連接屬于每個省市的點(diǎn);stepl5:保存此次話題演示的結(jié)果,并保存數(shù)據(jù)分析報告;stepl6:是否結(jié)束第i個關(guān)鍵詞的抓取及展示,如果不結(jié)束,i=i%M+l,跳到step5 ;stepl7:從關(guān)鍵詞列表中刪除此關(guān)鍵詞,M=M_1,i=i_l,i=i%M+l,跳到step4 ;上述實施方式為本發(fā)明較佳的實施方式,但是本發(fā)明的實施方式不受上述實施例的限制,其他任何在本發(fā)明思想、方法、流程、系統(tǒng)設(shè)計、原理下所作的改變、修飾、替代、組合、簡化,均為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)絡(luò)輿情地理位置實時監(jiān)控系統(tǒng),其特征在于,包括:數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、動態(tài)展示模塊、分析報告模塊,數(shù)據(jù)采集模塊預(yù)先將用戶注冊信息存儲到本地,獲取微博、博客、論壇的熱點(diǎn)關(guān)鍵詞,對關(guān)鍵詞進(jìn)行相似度檢測并去重,建立關(guān)鍵詞列表,依次將每個關(guān)鍵詞對應(yīng)的網(wǎng)頁源碼保存到本地;數(shù)據(jù)處理模塊采用字符串首尾邊界切割從搜索的網(wǎng)頁源碼中提取時間和地理位置信息,根據(jù)地理位置建立與經(jīng)緯度坐標(biāo)的映射,按照關(guān)鍵詞傳播時間的先后順序?qū)λ@取的內(nèi)容排序,按預(yù)定時間間隔對排序后的內(nèi)容按照定長時間段分批;動態(tài)展示模塊讀取分批數(shù)據(jù),按批次載入地理信息系統(tǒng),進(jìn)行地理坐標(biāo)標(biāo)識,根據(jù)經(jīng)緯度坐標(biāo)繪制地標(biāo),以實現(xiàn)信息傳播動態(tài)演示,并繪制熱點(diǎn)關(guān)鍵詞隨時間變化的曲線;分析報告模塊存儲演示結(jié)果并對網(wǎng)民地域分布人數(shù)做定量分析。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情地理位置實時監(jiān)控系統(tǒng),其特征在于,字符串首尾邊界切割具體為,查找所要提取目標(biāo)字符串首和尾的唯一字符串標(biāo)識,使用字符串切割功能,將網(wǎng)頁源碼中的目標(biāo)字符串提取出來。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情地理位置實時監(jiān)控系統(tǒng),其特征在于,對于不提供IP地址的網(wǎng)站,預(yù)處理模塊搜索網(wǎng)站所有用戶的個人信息主頁,根據(jù)字符串首尾邊界切割提取用戶名和注冊地點(diǎn)存入用戶注冊信息表。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情地理位置實時監(jiān)控系統(tǒng),其特征在于,數(shù)據(jù)采集模塊中話題信息采集模塊使用微博、博客或論壇提供的搜索功能,將搜索獲得的所有頁面的源碼保存在本地,提取時間地點(diǎn)模塊提取源碼中的用戶名、熱點(diǎn)詞相關(guān)內(nèi)容、IP地址、時間信息存入數(shù)據(jù)庫中。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情地理位置實時監(jiān)控系統(tǒng),其特征在于,如果有IP地址,則查找IP地址和地理位置信息映射表,將IP地址轉(zhuǎn)換為城市名稱,保證待處理數(shù)據(jù)集中僅含有時間和城市名稱兩個屬性。
6.一種網(wǎng)絡(luò)輿情地理位置實時監(jiān)控方法,其特征在于,數(shù)據(jù)采集模塊預(yù)先將用戶注冊信息存儲到本地,獲取微博 、博客、論壇的熱點(diǎn)關(guān)鍵詞,對關(guān)鍵詞進(jìn)行相似度檢測并去重,建立關(guān)鍵詞列表,依次將每個關(guān)鍵詞對應(yīng)的網(wǎng)頁源碼保存到本地;數(shù)據(jù)處理模塊采用字符串首尾邊界切割從網(wǎng)頁源碼中提取時間和地理位置信息,根據(jù)地理位置建立與經(jīng)緯度坐標(biāo)的映射,按照關(guān)鍵詞傳播時間的先后順序?qū)λ@取的內(nèi)容排序,按用戶設(shè)定的時間間隔對排序后的內(nèi)容按照定長時間段分批;動態(tài)展示模塊讀取分批數(shù)據(jù),按批依次載入地理信息系統(tǒng),進(jìn)行地理坐標(biāo)標(biāo)識,根據(jù)經(jīng)緯度坐標(biāo)繪制地標(biāo),以實現(xiàn)信息傳播動態(tài)演示,并繪制關(guān)鍵詞隨時間變化的曲線;分析報告模塊存儲演示結(jié)果并對網(wǎng)民地域分布人數(shù)做定量分析。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,對信息字符串首尾邊界切割具體為,查找所要提取目標(biāo)字符串首和尾的唯一字符串標(biāo)識,使用字符串切割功能,從網(wǎng)頁源碼中將目標(biāo)字符串提取出來。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,對于不提供IP地址的網(wǎng)站,預(yù)處理模塊搜索網(wǎng)站所有用戶的個人信息主頁,采用字符串首尾邊界切割方法提取用戶名和注冊地點(diǎn)存入用戶注冊信息表;如果有IP地址,則查找IP地址和地理位置信息映射表,將IP地址轉(zhuǎn)換為城市名稱,保證待處理數(shù)據(jù)集中僅含有時間和城市名稱兩個屬性。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,數(shù)據(jù)采集模塊中話題信息采集模塊使用微博、博客或論壇提供的搜索功能,將搜索的所有頁面的純文本信息根據(jù)目標(biāo)信息標(biāo)識表中對應(yīng)的該網(wǎng)站的各個標(biāo)識,提取其中的用戶名、熱點(diǎn)詞相關(guān)內(nèi)容、IP地址、時間存入數(shù)據(jù)庫中。
10.根據(jù)權(quán)利要求6所述的方法,其特征在于,如采用Google Earth進(jìn)行數(shù)據(jù)展示時,將分批數(shù)據(jù)按照批次寫成若干kml演示文件,使用OpenKmlFile方法依次讀入每一個kml演示文件,建立定 時器讀取文件,完成信息傳播動態(tài)演示。
全文摘要
本發(fā)明公布了一種網(wǎng)絡(luò)輿情地理位置實時監(jiān)控系統(tǒng)和方法。通過統(tǒng)一微博、博客、論壇數(shù)據(jù)的獲取方式,相似度分析去重,得到話題關(guān)鍵詞列表;采取首尾邊界切割技術(shù)提取地理位置和時間信息,通過事先建立好的網(wǎng)站結(jié)構(gòu)表獲取首尾邊界,避免程序需要根據(jù)網(wǎng)站結(jié)構(gòu)進(jìn)行調(diào)整的情況出現(xiàn);根據(jù)每一個關(guān)鍵詞獲取數(shù)據(jù)并進(jìn)行數(shù)據(jù)處理,在GIS地理模型上動態(tài)還原其傳播態(tài)勢,分析網(wǎng)民參與人數(shù)。通過將網(wǎng)絡(luò)地理位置轉(zhuǎn)換成經(jīng)緯度坐標(biāo),實現(xiàn)網(wǎng)絡(luò)環(huán)境和真實環(huán)境的映射,對數(shù)據(jù)按時間段分批輸入GIS軟件實現(xiàn)動態(tài)演示傳播過程。
文檔編號G06F17/30GK103092950SQ20131001435
公開日2013年5月8日 申請日期2013年1月15日 優(yōu)先權(quán)日2013年1月15日
發(fā)明者吳渝, 李紅波, 耿文靜, 李強(qiáng) 申請人:重慶郵電大學(xué)