一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法

文檔序號：9274666閱讀：537來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域，具體地說是一種實(shí)用性強(qiáng)、動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法。
【背景技術(shù)】
[0002]當(dāng)前，隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展，互聯(lián)網(wǎng)上嵌有JavaScript腳本的動態(tài)頁面所占比例越來越大，給頁面數(shù)據(jù)采集工作帶來了很大困難。在網(wǎng)絡(luò)輿論及搜索引擎研宄方面，雖然頁面數(shù)據(jù)采集的主要對象仍然為靜態(tài)頁面，但對動態(tài)頁面中的數(shù)據(jù)進(jìn)行采集的需求越來越迫切了。
[0003]傳統(tǒng)的數(shù)據(jù)采集方法，只能獲取網(wǎng)頁中的靜態(tài)數(shù)據(jù)，針對一些動態(tài)、實(shí)時改變的數(shù)據(jù)是無能為力的，使用傳統(tǒng)的采集方法，不僅浪費(fèi)了大量的人力和時間，而且采集效果和數(shù)據(jù)質(zhì)量也很差。
[0004]基于此，現(xiàn)提供一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，該方法通過Nutch完成數(shù)據(jù)采集過程，Nutch是一個開源Java實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。Nutch是一個開源Java實(shí)現(xiàn)的搜索引擎，利用Nutch網(wǎng)絡(luò)爬蟲技術(shù)，構(gòu)建動態(tài)頁面自動解析任務(wù)，可以有效的解決傳統(tǒng)html頁面采集技術(shù)的缺點(diǎn)，提高采集效率和采集成本。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的技術(shù)任務(wù)是針對以上不足之處，提供一種實(shí)用性強(qiáng)、動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法。
[0006]一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，其具體實(shí)現(xiàn)過程為:使用腳本解析環(huán)境并將其嵌入到分布式網(wǎng)絡(luò)爬蟲中，通過該網(wǎng)絡(luò)爬蟲的數(shù)據(jù)挖掘、索引和搜索功能，實(shí)現(xiàn)動態(tài)頁面的數(shù)據(jù)采集。
[0007]所述動態(tài)頁面數(shù)據(jù)采集挖掘過程為:
首先創(chuàng)建原始URL列表，注入原始的URL ；
生成抓取列表，并通過網(wǎng)絡(luò)在網(wǎng)頁抓取數(shù)據(jù)；
通過解析器解析采集到的網(wǎng)頁數(shù)據(jù)內(nèi)容，獲取相關(guān)的頁面信息；
提取解析出的URL連接，并對URL庫進(jìn)行更新，完成數(shù)據(jù)采集挖掘過程；
索引過程為:
反向索引采集的網(wǎng)頁，刪除冗余的內(nèi)容及URL ;
將小的索引合成大的索引，并建立索引庫；
搜索過程為:
用戶通過搜索引擎提供的交互界面發(fā)出搜索請求；
搜索引擎完成搜索過程后，將結(jié)果反饋給用戶。
[0008]所述原始URL為空的URL庫，注入的原始URL為起始的根URL。
[0009]所述抓取列表生成及抓取過程為:根據(jù)URL庫在新創(chuàng)建的segment目錄中生成fetchlist，存放待采集的URL ;按照fetchlist中的URL信息從網(wǎng)絡(luò)上進(jìn)行相關(guān)網(wǎng)頁數(shù)據(jù)的采集工作。
[0010]所述搜索引擎為Nutch結(jié)構(gòu)，該Nutch結(jié)構(gòu)包括數(shù)據(jù)采集部分、索引部分和搜索部分，其中:
數(shù)據(jù)采集部分負(fù)責(zé)網(wǎng)頁數(shù)據(jù)的抓取，解析網(wǎng)頁并根據(jù)獲取的URL連接信息進(jìn)入下一輪頁面數(shù)據(jù)的抓取工作；
索引部分將采集回來的采集數(shù)據(jù)做成反向索引來搜索；
搜索部分根據(jù)Nutch提供的用戶接口的輸入數(shù)據(jù)搜索查找相關(guān)數(shù)據(jù)。
[0011]當(dāng)用戶發(fā)出搜索請求時，Nutch將該搜索請求轉(zhuǎn)換為Lucence查詢請求，并將結(jié)果反饋給用戶。
[0012]本發(fā)明的一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，具有以下優(yōu)點(diǎn):
該發(fā)明的一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法將各種各樣的動態(tài)數(shù)據(jù)以完整的形態(tài)采集下來，存入數(shù)據(jù)庫當(dāng)中，方便我們實(shí)時了解互聯(lián)網(wǎng)動態(tài)，避免采集數(shù)據(jù)不準(zhǔn)確、不及時的狀況，彌補(bǔ)了傳統(tǒng)的采集方法中采集頁面只采集一遍而且不根據(jù)需求采集的缺點(diǎn)，極大的提高了采集的準(zhǔn)確度和采集效率，實(shí)用性強(qiáng)，適用范圍廣泛，易于推廣。
【附圖說明】
[0013]附圖1為本發(fā)明的實(shí)現(xiàn)示意圖。
【具體實(shí)施方式】
[0014]下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步說明。
[0015]為解決現(xiàn)有技術(shù)中無法采集網(wǎng)頁中的動態(tài)數(shù)據(jù)或者網(wǎng)頁中動態(tài)數(shù)據(jù)采集率偏低、采集成本很高的問題，本發(fā)明的提供一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，本發(fā)明主要是針對互聯(lián)網(wǎng)上越來越多的動態(tài)數(shù)據(jù)，如新聞數(shù)據(jù)、BBS數(shù)據(jù)和網(wǎng)絡(luò)輿情數(shù)據(jù)等，進(jìn)行動態(tài)抓取的過程。該方案將腳本解析環(huán)境嵌入到分布式網(wǎng)絡(luò)爬蟲中，實(shí)現(xiàn)了動態(tài)頁面的數(shù)據(jù)采集。利用完善的Nutch數(shù)據(jù)挖掘和索引功能，修正操作步驟，達(dá)到我們高效抓取動態(tài)數(shù)據(jù)的目的。
[0016]如附圖1所示，其具體實(shí)現(xiàn)過程為:使用腳本解析環(huán)境并將其嵌入到分布式網(wǎng)絡(luò)爬蟲中，通過該網(wǎng)絡(luò)爬蟲的數(shù)據(jù)挖掘、索引和搜索功能，實(shí)現(xiàn)動態(tài)頁面的數(shù)據(jù)采集。
[0017]所述動態(tài)頁面數(shù)據(jù)采集挖掘過程為:
首先創(chuàng)建原始URL列表，注入原始的URL ；
生成抓取列表，并通過網(wǎng)絡(luò)在網(wǎng)頁抓取數(shù)據(jù)；
通過解析器解析采集到的網(wǎng)頁數(shù)據(jù)內(nèi)容，獲取相關(guān)的頁面信息；
提取解析出的URL連接，并對URL庫進(jìn)行更新，完成數(shù)據(jù)采集挖掘過程；
重復(fù)上述步驟，一直達(dá)到指定深度為止。
[0018]索引過程為:
反向索引采集的網(wǎng)頁，刪除冗余的內(nèi)容及URL ;
將小的索引合成大的索引，并建立索引庫；
搜索過程為: 用戶通過搜索引擎提供的交互界面發(fā)出搜索請求；
搜索引擎完成搜索過程后，將結(jié)果反饋給用戶。
[0019]所述原始URL為空的URL庫，注入的原始URL為起始的根URL。
[0020]所述抓取列表生成及抓取過程為:根據(jù)URL庫在新創(chuàng)建的segment目錄中生成fetchlist，存放待采集的URL ;按照fetchlist中的URL信息從網(wǎng)絡(luò)上進(jìn)行相關(guān)網(wǎng)頁數(shù)據(jù)的采集工作。
[0021]所述搜索引擎為Nutch結(jié)構(gòu)，該Nutch結(jié)構(gòu)包括數(shù)據(jù)采集部分、索引部分和搜索部分，其中:
數(shù)據(jù)采集部分負(fù)責(zé)網(wǎng)頁數(shù)據(jù)的抓取，解析網(wǎng)頁并根據(jù)獲取的URL連接信息進(jìn)入下一輪頁面數(shù)據(jù)的抓取工作；
索引部分將采集回來的采集數(shù)據(jù)做成反向索引來搜索；
搜索部分根據(jù)Nutch提供的用戶接口的輸入數(shù)據(jù)搜索查找相關(guān)數(shù)據(jù)。
[0022]當(dāng)用戶發(fā)出搜索請求時，Nutch將該搜索請求轉(zhuǎn)換為Lucence查詢請求，并將結(jié)果反饋給用戶。
[0023]上述【具體實(shí)施方式】僅是本發(fā)明的具體個案，本發(fā)明的專利保護(hù)范圍包括但不限于上述【具體實(shí)施方式】，任何符合本發(fā)明的一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法的權(quán)利要求書的且任何所屬技術(shù)領(lǐng)域的普通技術(shù)人員對其所做的適當(dāng)變化或替換，皆應(yīng)落入本發(fā)明的專利保護(hù)范圍。
【主權(quán)項(xiàng)】
1.一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，其特征在于，其具體實(shí)現(xiàn)過程為:使用腳本解析環(huán)境并將其嵌入到分布式網(wǎng)絡(luò)爬蟲中，通過該網(wǎng)絡(luò)爬蟲的數(shù)據(jù)挖掘、索引和搜索功能，實(shí)現(xiàn)動態(tài)頁面的數(shù)據(jù)采集。2.根據(jù)權(quán)利要求1所述的一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，其特征在于，所述動態(tài)頁面數(shù)據(jù)采集挖掘過程為: 首先創(chuàng)建原始URL列表，注入原始的URL ；生成抓取列表，并通過網(wǎng)絡(luò)在網(wǎng)頁抓取數(shù)據(jù)；通過解析器解析采集到的網(wǎng)頁數(shù)據(jù)內(nèi)容，獲取相關(guān)的頁面信息；提取解析出的URL連接，并對URL庫進(jìn)行更新，完成數(shù)據(jù)采集挖掘過程；索引過程為: 反向索引采集的網(wǎng)頁，刪除冗余的內(nèi)容及URL ; 將小的索引合成大的索引，并建立索引庫；搜索過程為: 用戶通過搜索引擎提供的交互界面發(fā)出搜索請求；搜索引擎完成搜索過程后，將結(jié)果反饋給用戶。3.根據(jù)權(quán)利要求2所述的一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，其特征在于，所述原始URL為空的URL庫，注入的原始URL為起始的根URL。4.根據(jù)權(quán)利要求2所述的一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，其特征在于，所述抓取列表生成及抓取過程為:根據(jù)URL庫在新創(chuàng)建的segment目錄中生成fetchlist，存放待采集的URL ;按照fetchlist中的URL信息從網(wǎng)絡(luò)上進(jìn)行相關(guān)網(wǎng)頁數(shù)據(jù)的采集工作。5.根據(jù)權(quán)利要求2所述的一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，其特征在于，所述搜索引擎為Nutch結(jié)構(gòu)，該Nutch結(jié)構(gòu)包括數(shù)據(jù)采集部分、索引部分和搜索部分，其中: 數(shù)據(jù)采集部分負(fù)責(zé)網(wǎng)頁數(shù)據(jù)的抓取，解析網(wǎng)頁并根據(jù)獲取的URL連接信息進(jìn)入下一輪頁面數(shù)據(jù)的抓取工作；索引部分將采集回來的采集數(shù)據(jù)做成反向索引來搜索；搜索部分根據(jù)Nutch提供的用戶接口的輸入數(shù)據(jù)搜索查找相關(guān)數(shù)據(jù)。6.根據(jù)權(quán)利要求5所述的一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，其特征在于，當(dāng)用戶發(fā)出搜索請求時，Nutch將該搜索請求轉(zhuǎn)換為Lucence查詢請求，并將結(jié)果反饋給用戶。
【專利摘要】本發(fā)明公開了一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法，其具體實(shí)現(xiàn)過程為：使用腳本解析環(huán)境并將其嵌入到分布式網(wǎng)絡(luò)爬蟲中，通過該網(wǎng)絡(luò)爬蟲的數(shù)據(jù)挖掘、索引和搜索功能，實(shí)現(xiàn)動態(tài)頁面的數(shù)據(jù)采集。該一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法與現(xiàn)有技術(shù)相比，將各種各樣的動態(tài)數(shù)據(jù)以完整的形態(tài)采集下來，存入數(shù)據(jù)庫當(dāng)中，方便我們實(shí)時了解互聯(lián)網(wǎng)動態(tài)，避免采集數(shù)據(jù)不準(zhǔn)確、不及時的狀況，彌補(bǔ)了傳統(tǒng)的采集方法中采集頁面只采集一遍而且不根據(jù)需求采集的缺點(diǎn)，極大的提高了采集的準(zhǔn)確度和采集效率，實(shí)用性強(qiáng)，適用范圍廣泛，易于推廣。
【IPC分類】G06F17/30
【公開號】CN104991904
【申請?zhí)枴緾N201510332025
【發(fā)明人】焦毓葳, 崔樂樂, 王貴友
【申請人】浪潮軟件集團(tuán)有限公司
【公開日】2015年10月21日
【申請日】2015年6月16日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：焦毓葳;崔樂樂;王貴友;
技術(shù)所有人：浪潮軟件集團(tuán)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

爬蟲抓取動態(tài)網(wǎng)頁數(shù)據(jù)相關(guān)技術(shù)

頁面數(shù)據(jù)采集相關(guān)技術(shù)

網(wǎng)頁數(shù)據(jù)采集器相關(guān)技術(shù)

數(shù)據(jù)采集方法相關(guān)技術(shù)

數(shù)據(jù)采集的方法有哪些相關(guān)技術(shù)

大數(shù)據(jù)采集方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種動態(tài)網(wǎng)頁的頁面數(shù)據(jù)采集方法