一種基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)領(lǐng)域,尤其涉及一種基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法及系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)輿情是通過(guò)互聯(lián)網(wǎng)傳播的,公眾對(duì)現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問(wèn)題所持的有較強(qiáng)影響力、傾向性的情感、態(tài)度、意見(jiàn)、言論或觀點(diǎn),其主要通過(guò)論壇BBS上的發(fā)帖評(píng)論及跟貼、博客Blog等實(shí)現(xiàn)并加以強(qiáng)化。由于互聯(lián)網(wǎng)具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點(diǎn),越來(lái)越多的網(wǎng)民樂(lè)意通過(guò)這種渠道來(lái)表達(dá)觀點(diǎn)、傳播思想。而且,互聯(lián)網(wǎng)成為反映社會(huì)輿情的主要載體之一。
[0003]目前,大部分部門(mén)和企業(yè)的輿情監(jiān)測(cè)和管理工作主要依靠人工來(lái)完成,人工進(jìn)行輿情監(jiān)測(cè)面臨著輿情信息收集不全、輿情信息發(fā)現(xiàn)不及時(shí)、輿情信息發(fā)現(xiàn)不準(zhǔn)確、輿情信息利用不便利等諸多問(wèn)題。因此,完全靠人工進(jìn)行輿情信息的收集和上報(bào),消耗大量的時(shí)間和精力,而且效果并不理想。
[0004]在新的互聯(lián)網(wǎng)形勢(shì)下,面對(duì)這樣的困擾,需要借助互聯(lián)網(wǎng)輿情監(jiān)測(cè)工具,快速開(kāi)展大規(guī)模輿情監(jiān)測(cè)機(jī)制建設(shè),來(lái)提高互聯(lián)網(wǎng)上輿情數(shù)據(jù)的采集能力和實(shí)戰(zhàn)部門(mén)的情報(bào)指導(dǎo)能力。
【發(fā)明內(nèi)容】
[0005]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決或者減緩上述問(wèn)題的基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法及系統(tǒng)。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法,該方法包括:
[0007]實(shí)時(shí)監(jiān)視各個(gè)網(wǎng)絡(luò)爬蟲(chóng)的狀態(tài),根據(jù)所述各個(gè)網(wǎng)絡(luò)爬蟲(chóng)的狀態(tài)調(diào)度每個(gè)網(wǎng)絡(luò)爬蟲(chóng),以實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)中各預(yù)設(shè)輿情網(wǎng)站內(nèi)容的抓取和/或?qū)ヂ?lián)網(wǎng)中其他網(wǎng)站內(nèi)容的屏蔽;
[0008]采用所述網(wǎng)絡(luò)爬蟲(chóng)根據(jù)預(yù)設(shè)條件對(duì)所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取,并從抓取到的數(shù)據(jù)中提取相應(yīng)的網(wǎng)站地址;
[0009]將所述網(wǎng)站地址進(jìn)行地址解析,對(duì)解析成功的網(wǎng)站地址去重、去噪處理后進(jìn)行分類(lèi);
[0010]采用所述網(wǎng)絡(luò)爬蟲(chóng)對(duì)分類(lèi)成功的網(wǎng)站地址對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓?。?br>[0011]為抓取到的對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容建立輿情數(shù)據(jù)全文索引信息,并將所述網(wǎng)頁(yè)內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫(kù)、輿情數(shù)據(jù)全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫(kù)。
[0012]可選的,所述實(shí)時(shí)監(jiān)視多個(gè)網(wǎng)絡(luò)爬蟲(chóng)的狀態(tài),根據(jù)所述網(wǎng)絡(luò)爬蟲(chóng)的狀態(tài)調(diào)度各個(gè)網(wǎng)絡(luò)爬蟲(chóng),包括:
[0013]根據(jù)用戶(hù)輸入的網(wǎng)站網(wǎng)址,預(yù)先設(shè)置互聯(lián)網(wǎng)中需要進(jìn)行網(wǎng)頁(yè)內(nèi)容抓取的輿情網(wǎng)站,以及互聯(lián)網(wǎng)中不需要進(jìn)行網(wǎng)頁(yè)內(nèi)容抓取的網(wǎng)站;
[0014]根據(jù)用戶(hù)輸入的爬蟲(chóng)設(shè)置參數(shù),進(jìn)行網(wǎng)絡(luò)爬蟲(chóng)的設(shè)置;
[0015]實(shí)時(shí)感知各個(gè)網(wǎng)絡(luò)爬蟲(chóng)的工作狀態(tài);
[0016]根據(jù)各個(gè)網(wǎng)絡(luò)爬蟲(chóng)的工作狀態(tài),產(chǎn)生爬蟲(chóng)分類(lèi)信息,將負(fù)擔(dān)大于第一預(yù)設(shè)值的爬蟲(chóng)從當(dāng)前數(shù)據(jù)抓取任務(wù)中解放出來(lái),并分配負(fù)擔(dān)小于第二預(yù)設(shè)值的爬蟲(chóng)執(zhí)行所述數(shù)據(jù)抓取任務(wù);
[0017]對(duì)所述不需要進(jìn)行網(wǎng)頁(yè)內(nèi)容抓取的網(wǎng)站的地址進(jìn)行過(guò)濾。
[0018]可選的,所述采用所述網(wǎng)絡(luò)爬蟲(chóng)根據(jù)預(yù)設(shè)條件對(duì)所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取,并從抓取到的數(shù)據(jù)中提取相應(yīng)的網(wǎng)站地址,包括:
[0019]根據(jù)預(yù)設(shè)條件對(duì)所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓?。?br>[0020]計(jì)算抓取到的網(wǎng)頁(yè)信息與所述預(yù)設(shè)條件的相似度;
[0021]根據(jù)相似度大于第三預(yù)設(shè)值的網(wǎng)頁(yè)信息生成相應(yīng)的網(wǎng)站地址。
[0022]可選的,所述將所述網(wǎng)站地址進(jìn)行地址解析,對(duì)解析成功的網(wǎng)站地址去重、去噪處理后進(jìn)行分類(lèi),包括:
[0023]對(duì)所述網(wǎng)站地址進(jìn)行地址類(lèi)型判斷,根據(jù)判斷結(jié)果選擇合適的地址解析器進(jìn)行地址解析,并對(duì)解析成功的網(wǎng)站地址進(jìn)行去重、去噪處理;
[0024]對(duì)去重、去噪處理后的網(wǎng)站地址進(jìn)行分類(lèi)。
[0025]可選的,所述采用所述網(wǎng)絡(luò)爬蟲(chóng)對(duì)分類(lèi)成功的網(wǎng)站地址對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取,并下載該網(wǎng)頁(yè)的全文信息,包括:
[0026]采用所述網(wǎng)絡(luò)爬蟲(chóng)對(duì)分類(lèi)成功的網(wǎng)站地址對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓?。?br>[0027]根據(jù)所述分類(lèi)成功的網(wǎng)站地址的地址類(lèi)型進(jìn)行下載器選擇,利用選出的下載器對(duì)所述網(wǎng)頁(yè)內(nèi)容進(jìn)行下載。
[0028]可選的,為抓取到的對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容建立輿情數(shù)據(jù)全文索引信息,并將所述網(wǎng)頁(yè)內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫(kù)、輿情數(shù)據(jù)全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫(kù),包括:
[0029]為抓取到的對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容建立輿情數(shù)據(jù)全文索引信息;
[0030]將所述抓取到的對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫(kù)、輿情數(shù)據(jù)全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫(kù);
[0031]對(duì)所述索引數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
[0032]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)采集單元和檢索分析單元,所述數(shù)據(jù)采集單元包括爬蟲(chóng)調(diào)度子系統(tǒng)和網(wǎng)絡(luò)爬蟲(chóng)子系統(tǒng);
[0033]爬蟲(chóng)調(diào)度子系統(tǒng),用于實(shí)時(shí)監(jiān)視各個(gè)網(wǎng)絡(luò)爬蟲(chóng)的狀態(tài),根據(jù)所述各個(gè)網(wǎng)絡(luò)爬蟲(chóng)的狀態(tài)調(diào)度每個(gè)網(wǎng)絡(luò)爬蟲(chóng),以實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)中各預(yù)設(shè)輿情網(wǎng)站內(nèi)容的抓取和/或?qū)ヂ?lián)網(wǎng)中其他網(wǎng)站內(nèi)容的屏蔽;
[0034]網(wǎng)絡(luò)爬蟲(chóng)子系統(tǒng),用于根據(jù)預(yù)設(shè)條件對(duì)所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取,并從抓取到的數(shù)據(jù)中提取相應(yīng)的網(wǎng)站地址;將所述網(wǎng)站地址進(jìn)行地址解析,對(duì)解析成功的網(wǎng)站地址去重、去噪處理后進(jìn)行分類(lèi);所述網(wǎng)絡(luò)爬蟲(chóng)子系統(tǒng)還用于對(duì)分類(lèi)成功的網(wǎng)站地址對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓?。?br>[0035]檢索分析單元,用于為抓取到的對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容建立輿情數(shù)據(jù)全文索引信息,并將所述網(wǎng)頁(yè)內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫(kù)、該網(wǎng)頁(yè)的全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫(kù)。
[0036]可選的,所述爬蟲(chóng)調(diào)度子系統(tǒng)包括:
[0037]分類(lèi)配置模塊,用于根據(jù)用戶(hù)輸入的網(wǎng)站網(wǎng)址,預(yù)先設(shè)置互聯(lián)網(wǎng)中需要進(jìn)行網(wǎng)頁(yè)內(nèi)容抓取的輿情網(wǎng)站,以及互聯(lián)網(wǎng)中不需要進(jìn)行網(wǎng)頁(yè)內(nèi)容抓取的網(wǎng)站;
[0038]爬蟲(chóng)配置模塊,用于根據(jù)用戶(hù)輸入的爬蟲(chóng)設(shè)置參數(shù),進(jìn)行網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)置;
[0039]狀態(tài)監(jiān)視模塊,用于實(shí)時(shí)感知各個(gè)網(wǎng)絡(luò)爬蟲(chóng)的工作狀態(tài);
[0040]爬蟲(chóng)分配模塊,用于根據(jù)各個(gè)網(wǎng)絡(luò)爬蟲(chóng)的工作狀態(tài),產(chǎn)生爬蟲(chóng)分類(lèi)信息,將負(fù)擔(dān)大于第一預(yù)設(shè)值的爬蟲(chóng)從當(dāng)前數(shù)據(jù)抓取任務(wù)中解放出來(lái),并分配負(fù)擔(dān)小于第二預(yù)設(shè)值的爬蟲(chóng)執(zhí)行所述數(shù)據(jù)抓取任務(wù);
[0041]站點(diǎn)過(guò)濾模塊,用于對(duì)所述不需要進(jìn)行網(wǎng)頁(yè)內(nèi)容抓取的網(wǎng)站的地址進(jìn)行過(guò)濾。
[0042]可選的,所述網(wǎng)絡(luò)爬蟲(chóng)子系統(tǒng),包括:
[0043]抓取模塊,用于根據(jù)預(yù)設(shè)條件對(duì)所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓??;
[0044]計(jì)算模塊,用于計(jì)算抓取到的網(wǎng)頁(yè)信息與所述預(yù)設(shè)條件的相似度;
[0045]生成模塊,用于根據(jù)相似度大于第三預(yù)設(shè)值的網(wǎng)頁(yè)信息生成相應(yīng)的網(wǎng)站地址;
[0046]地址解析模塊,用于對(duì)所述網(wǎng)站地址進(jìn)行地址類(lèi)型判斷,根據(jù)判斷結(jié)果選擇合適的地址解析器進(jìn)行地址解析,并對(duì)解析成功的網(wǎng)站地址進(jìn)行去重、去噪處理;
[0047]URL管理模塊,用于對(duì)去重、去噪處理后的網(wǎng)站地址進(jìn)行分類(lèi)和聚類(lèi);
[0048]所述抓取模塊,還用于對(duì)分類(lèi)成功的網(wǎng)站地址對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取;
[0049]地址下載模塊,用于根據(jù)所述分類(lèi)成功的網(wǎng)站地址的地址類(lèi)型進(jìn)行下載器選擇,利用選出的下載器對(duì)所述網(wǎng)頁(yè)內(nèi)容進(jìn)行下載。
[0050]可選的,所述檢索分析單元,包括:
[0051]索引建立模塊,用于為抓取到的對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容建立輿情數(shù)據(jù)全文索引信息。
[0052]存儲(chǔ)模塊,用于將所述抓取到的對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫(kù)、輿情數(shù)據(jù)全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫(kù);
[0053]統(tǒng)計(jì)分析模塊,用于對(duì)所述索引數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
[0054]本發(fā)明的有益效果為:
[0055]1、本發(fā)明提供的基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法及系統(tǒng),通過(guò)