一種爬取手機客戶端公共賬號信息的方法
【專利摘要】一種爬取手機客戶端公共賬號信息的方法,解決了手機客戶端部分公共賬號信息采集的難題。目前公眾號整體數(shù)量在300萬多,微信整體國內(nèi)用戶數(shù)在5億;這也就說明每個微信用戶已經(jīng)開始關(guān)注大量的微信公眾號,微信公眾號的信息同質(zhì)化嚴(yán)重(尤其是信息類)。但同時,微信公眾號們的弊端也越來越明顯,一些雜七雜八甚至有悖于法理的信息不斷干擾、沖擊著人們。因此,需要通過公眾號發(fā)布的內(nèi)容進一步判斷,有哪些有益信息,有哪些是負(fù)面信息。
【專利說明】一種爬取手機客戶端公共賬號信息的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)爬蟲、模擬瀏覽器、抓url包【技術(shù)領(lǐng)域】,具體地說是一種爬取手機客戶端公共賬號信息的方法。
【背景技術(shù)】
[0002]當(dāng)今,大大小小的企業(yè)為了宣傳產(chǎn)品或者提供服務(wù),大部分都會注冊微信的公共賬號。公共賬號分為組織和個人,個人只能申請訂閱號。而隨著公共賬號的增多和賬號菜單、內(nèi)容的隨意性,給采集也帶了以下難題:
1.標(biāo)簽不規(guī)則。模板采用多種樣式;
2.采集地址的隨意變化;
3.獲取一個帶有時間戳的ajax返回來的的URL,只能在短時間內(nèi)獲取該數(shù)據(jù),否則會過期。
[0003]而本發(fā)明通過制定多模版化的采集規(guī)則,解決了標(biāo)簽不一,然后通過標(biāo)簽里的url,訪問不同地址的頁面內(nèi)容。最后獲取頁面里的發(fā)送請求事件,模擬事件發(fā)送地址請求,并附帶時間戳,獲取到每個公共賬號信息的地址。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種爬取手機客戶端公共賬號信息的方法。
[0005]本發(fā)明的目的是按以下方式實現(xiàn)的,由于各個公共賬號信息地址不一樣,異步加載數(shù)據(jù)的地址更是不一樣,因此,分以下幾步完成對手機端公共賬號信息數(shù)據(jù)采集:
1)安裝采集軟件及分析工具;
2)分析異步加載網(wǎng)頁,尋找異步請求地址;
3)分析出異步請求地址規(guī)律,配置相關(guān)工具實施數(shù)據(jù)采集;
4)把采集的數(shù)據(jù)通過json分析后,儲存到服務(wù)器;
5)通過手機微信搜到公眾賬號,或通過“掃一掃”搜到公眾賬號;
6)打開抓包工具,設(shè)置手機網(wǎng)絡(luò)的代理地址,把地址設(shè)置成電腦的地址,設(shè)置正確的端口號;
7)打開搜到公共賬號發(fā)布的信息鏈接;
8)分析抓到的地址;
9)通過分析數(shù)據(jù),預(yù)防反面言論,判斷事件的目的性。
[0006]本發(fā)明的優(yōu)異效果:解決了手機客戶端部分公共賬號信息采集的難題。目前公眾號整體數(shù)量在300萬多,微信整體國內(nèi)用戶數(shù)在5億;這也就說明每個微信用戶已經(jīng)開始關(guān)注大量的微信公眾號,微信公眾號的信息同質(zhì)化嚴(yán)重(尤其是信息類)。但同時,微信公眾號們的弊端也越來越明顯,一些雜七雜八甚至有悖于法理的信息不斷干擾、沖擊著人們。因此,需要通過公眾號發(fā)布的內(nèi)容進一步判斷,有哪些有益信息,有哪些是負(fù)面信息。這么多公眾號,如何能采集每個公眾號的內(nèi)容信息。
【專利附圖】
【附圖說明】
[0007]圖1是實施本發(fā)明方法的流程圖。
【具體實施方式】
[0008]參照說明書附圖對本發(fā)明的爬取手機客戶端公共賬號信息的方法,作以下詳細(xì)地說明。
[0009]由于各個公共賬號信息地址不一樣,異步加載數(shù)據(jù)的地址更是不一樣,因此,分以下幾步完成對手機端公共賬號信息數(shù)據(jù)采集:
1)安裝采集軟件及分析工具;
2)分析異步加載網(wǎng)頁,尋找異步請求地址;
3)分析出異步請求地址規(guī)律,配置相關(guān)工具實施數(shù)據(jù)采集;
4)把采集的數(shù)據(jù)通過json分析后,儲存到服務(wù)器;
5)通過手機微信搜到公眾賬號,或通過“掃一掃”搜到公眾賬號;
6)打開抓包工具,設(shè)置手機網(wǎng)絡(luò)的代理地址,把地址設(shè)置成電腦的地址,設(shè)置正確的端口號;
7)打開搜到公共賬號發(fā)布的信息鏈接;
8)分析抓到的地址;
9)通過分析數(shù)據(jù),預(yù)防反面言論,判斷事件的目的性。
[0010]除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種爬取手機客戶端公共賬號信息的方法,其特征在于由于各個公共賬號信息地址不一樣,異步加載數(shù)據(jù)的地址更是不一樣,因此,分以下幾步完成對手機端公共賬號信息數(shù)據(jù)采集: 1)安裝采集軟件及分析工具; 2)分析異步加載網(wǎng)頁,尋找異步請求地址; 3)分析出異步請求地址規(guī)律,配置相關(guān)工具實施數(shù)據(jù)采集; 4)把采集的數(shù)據(jù)通過json分析后,儲存到服務(wù)器; 5)通過手機微信搜到公眾賬號,或通過“掃一掃”搜到公眾賬號; 6)打開抓包工具,設(shè)置手機網(wǎng)絡(luò)的代理地址,把地址設(shè)置成電腦的地址,設(shè)置正確的端口號; 7)打開搜到公共賬號發(fā)布的信息鏈接; 8)分析抓到的地址; 9)通過分析數(shù)據(jù),預(yù)防反面言論,判斷事件的目的性。
【文檔編號】G06F17/30GK104199953SQ201410467250
【公開日】2014年12月10日 申請日期:2014年9月15日 優(yōu)先權(quán)日:2014年9月15日
【發(fā)明者】徐宏偉, 王傳超, 孫海峰 申請人:浪潮軟件集團有限公司