網(wǎng)頁(yè)數(shù)據(jù)采集方法及裝置制造方法
【專利摘要】本發(fā)明提供一種網(wǎng)頁(yè)數(shù)據(jù)采集方法及裝置,其中,方法包括:確定并加載待采集網(wǎng)頁(yè);檢測(cè)所述待采集網(wǎng)頁(yè)是否加載完畢,若是,則獲取當(dāng)前所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù);根據(jù)預(yù)先配置的采集規(guī)則,從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中,采集與所述采集規(guī)則匹配的數(shù)據(jù)。通過(guò)本發(fā)明提供的網(wǎng)頁(yè)數(shù)據(jù)采集方法及裝置,能夠有效實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行采集。
【專利說(shuō)明】網(wǎng)頁(yè)數(shù)據(jù)采集方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)數(shù)據(jù)采集方法及裝置。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的信息資源庫(kù),最常用的資源通常通過(guò)網(wǎng)頁(yè)的方式呈現(xiàn),而通過(guò)獲取該信息資源庫(kù)中的信息就可以使用戶在信息采集,資源整合方面節(jié)約大量的人力與資金。在浩瀚的資源海洋中,如何準(zhǔn)確地查找、分類存儲(chǔ)、加工利用我們需要的信息資源,卻是一個(gè)難題。
[0003]通過(guò)傳統(tǒng)的搜索引擎可以方便地查找信息,數(shù)據(jù)量較小的情況下,可以人工手動(dòng)存儲(chǔ)和加工。然而,數(shù)據(jù)量較大的話,人工的方法進(jìn)行數(shù)據(jù)存儲(chǔ)就存在效率低下的問(wèn)題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供一種網(wǎng)頁(yè)數(shù)據(jù)采集方法及裝置,用于解決現(xiàn)有技術(shù)無(wú)法實(shí)現(xiàn)有效的網(wǎng)頁(yè)數(shù)據(jù)采集的技術(shù)問(wèn)題。
[0005]本發(fā)明的第一個(gè)方面是提供一種網(wǎng)頁(yè)數(shù)據(jù)采集方法,包括:
[0006]確定并加載待采集網(wǎng)頁(yè);
[0007]檢測(cè)所述待采集網(wǎng)頁(yè)是否加載完畢,若是,則獲取當(dāng)前所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù);
[0008]根據(jù)預(yù)先配置的采集規(guī)則,從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中,采集與所述采集規(guī)則匹配的數(shù)據(jù)。
[0009]本發(fā)明的另一個(gè)方面是提供一種網(wǎng)頁(yè)數(shù)據(jù)采集裝置,包括:
[0010]第一處理模塊,用于確定待采集網(wǎng)頁(yè);
[0011]第二處理模塊,用于加載所述待采集網(wǎng)頁(yè);
[0012]檢測(cè)模塊,用于檢測(cè)所述待采集網(wǎng)頁(yè)是否加載完畢,若是,則獲取當(dāng)前所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù);
[0013]采集模塊,用于根據(jù)預(yù)先配置的采集規(guī)則,從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中,采集與所述采集規(guī)則匹配的數(shù)據(jù)。
[0014]本發(fā)明提供的網(wǎng)頁(yè)數(shù)據(jù)采集方法及裝置,通過(guò)若待采集網(wǎng)頁(yè)加載完畢,則從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中采集與預(yù)設(shè)的采集規(guī)則匹配的數(shù)據(jù)的技術(shù)方案,有效實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行采集。
【專利附圖】
【附圖說(shuō)明】
[0015]圖1為本發(fā)明實(shí)施例一提供的一種網(wǎng)頁(yè)數(shù)據(jù)采集方法的流程示意圖;
[0016]圖2為本發(fā)明實(shí)施例二提供的一種網(wǎng)頁(yè)數(shù)據(jù)采集裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0017]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。
[0018]圖1為本發(fā)明實(shí)施例一提供的一種網(wǎng)頁(yè)數(shù)據(jù)采集方法的流程示意圖,如圖1所示,所述方法包括:
[0019]101、確定并加載待采集網(wǎng)頁(yè)。
[0020]可選的,可以根據(jù)接收到的數(shù)據(jù)采集請(qǐng)求執(zhí)行101,或者,根據(jù)預(yù)設(shè)周期定時(shí)執(zhí)行101,本實(shí)施例未對(duì)其執(zhí)行條件進(jìn)行限制。則相應(yīng)的,在101中,所述確定待采集網(wǎng)頁(yè),具體可以包括:
[0021]根據(jù)接收到的包括待采集網(wǎng)頁(yè)地址的數(shù)據(jù)采集請(qǐng)求,將所述待采集網(wǎng)頁(yè)地址對(duì)應(yīng)的網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè);或者,
[0022]根據(jù)接收到的數(shù)據(jù)采集請(qǐng)求,將當(dāng)前網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè);或者,
[0023]根據(jù)預(yù)設(shè)的周期,定時(shí)將當(dāng)前網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè)。
[0024]其中,所述待采集網(wǎng)頁(yè)地址的形式具體可以為,統(tǒng)一資源定位符(UniformResource Locator,簡(jiǎn)稱URL)。通過(guò)本實(shí)施方式,可以使用戶根據(jù)不同的自身需求選擇采取相應(yīng)的采集觸發(fā)方式,進(jìn)而更有效地進(jìn)行數(shù)據(jù)采集。
[0025]具體的,在實(shí)際應(yīng)用中,當(dāng)需要對(duì)某個(gè)網(wǎng)頁(yè)進(jìn)行加載時(shí),通常先要通過(guò)該網(wǎng)頁(yè)的登錄驗(yàn)證,登錄成功后才可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的加載。則相應(yīng)的,為了實(shí)現(xiàn)更加方便地進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)采集,在101中,所述加載待采集網(wǎng)頁(yè)之前,還可以包括:
[0026]查詢預(yù)存的各網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,獲得所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,所述登錄信息包括登錄賬號(hào)和登錄密碼;
[0027]向網(wǎng)站服務(wù)器發(fā)送驗(yàn)證請(qǐng)求,所述驗(yàn)證請(qǐng)求包括所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息;
[0028]所述加載待采集網(wǎng)頁(yè),具體可以包括:
[0029]若接收到所述網(wǎng)站服務(wù)器返回的驗(yàn)證通過(guò)消息,則加載所述待采集網(wǎng)頁(yè)。
[0030]在本實(shí)施方式中,預(yù)先存儲(chǔ)各網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,從而在需要登錄并加載某個(gè)網(wǎng)頁(yè)時(shí),能夠?qū)崿F(xiàn)自動(dòng)登錄該網(wǎng)頁(yè),并在登錄成功后進(jìn)行網(wǎng)頁(yè)加載,進(jìn)而進(jìn)一步方便、有效地進(jìn)行數(shù)據(jù)采集。
[0031]102、檢測(cè)所述待采集網(wǎng)頁(yè)是否加載完畢,若是,則獲取當(dāng)前所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)。
[0032]具體的,102中所述檢測(cè)所述待采集網(wǎng)頁(yè)是否加載完畢,具體可以包括:
[0033]通過(guò)MSHTML組件,獲得當(dāng)前對(duì)所述待采集網(wǎng)頁(yè)的讀取狀態(tài);
[0034]若當(dāng)前對(duì)所述待采集網(wǎng)頁(yè)的讀取狀態(tài)為完成狀態(tài),則判定所述待采集網(wǎng)頁(yè)加載完畢。
[0035]在實(shí)際應(yīng)用中,可以通過(guò)MSHTML組件及其標(biāo)準(zhǔn)接口,訪問(wèn)指定網(wǎng)頁(yè)的所有元素。進(jìn)一步具體的,在本實(shí)施方式中,可以通過(guò)MSHTML的com組件使用其提供的文檔接口HTMLDocument、HTMLDocument2、HTMLDocument3,再通過(guò)接口 createDocumentFromUrl 向待采集網(wǎng)頁(yè)發(fā)起請(qǐng)求,得到IHTMLDocument2的一個(gè)對(duì)象htmldoc2,當(dāng)htmldoc2的讀取狀態(tài)為“complete” 時(shí),把 htmldoc2 轉(zhuǎn)換成 IHTMLDocument3 接口 的一個(gè)實(shí)例 htmldoc3,之后通過(guò)htmldoc3.documentElement.1nnerHTML獲取待米集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)。
[0036]103、根據(jù)預(yù)先配置的采集規(guī)則,從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中,采集與所述采集規(guī)則匹配的數(shù)據(jù)。
[0037]具體的,可以通過(guò)正則表達(dá)式匹配的方法,從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中,獲得相應(yīng)的數(shù)據(jù)。
[0038]本實(shí)施例提供的網(wǎng)頁(yè)數(shù)據(jù)采集方法,通過(guò)若待采集網(wǎng)頁(yè)加載完畢,則從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中采集相應(yīng)數(shù)據(jù)的技術(shù)方案,有效實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行采集。并且,通過(guò)本實(shí)施例提供的方案能夠避免,當(dāng)網(wǎng)頁(yè)尚未加載完畢就進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)采集導(dǎo)致的,采集到的網(wǎng)頁(yè)數(shù)據(jù)不準(zhǔn)確不全面的問(wèn)題,從而進(jìn)一步提高了網(wǎng)頁(yè)數(shù)據(jù)采集準(zhǔn)確性和可靠性。
[0039]圖2為本發(fā)明實(shí)施例二提供的一種網(wǎng)頁(yè)數(shù)據(jù)采集裝置的結(jié)構(gòu)示意圖,如圖2所示,所述裝置包括:第一處理模塊21、第二處理模塊22、檢測(cè)模塊23和采集模塊24 ;其中,
[0040]第一處理模塊21,用于確定待采集網(wǎng)頁(yè);
[0041]第二處理模塊22,用于加載所述待采集網(wǎng)頁(yè);
[0042]檢測(cè)模塊23,用于檢測(cè)所述待采集網(wǎng)頁(yè)是否加載完畢,若是,則獲取當(dāng)前所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù);
[0043]采集模塊24,用于根據(jù)預(yù)先配置的采集規(guī)則,從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中,采集與所述采集規(guī)則匹配的數(shù)據(jù)。
[0044]具體的,第一處理模塊21確定待采集網(wǎng)頁(yè)之后,第二處理模塊22對(duì)該待采集網(wǎng)頁(yè)進(jìn)行加載,相應(yīng)的,檢測(cè)模塊23針對(duì)該待采集網(wǎng)頁(yè)是否加載完畢進(jìn)行檢測(cè),并在檢測(cè)到加載完畢時(shí)獲取該待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù),從而使采集模塊24根據(jù)檢測(cè)模塊23獲取的所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)和預(yù)先配置的采集規(guī)則,采集與所述采集規(guī)則匹配的數(shù)據(jù)。
[0045]可選的,作為本實(shí)施例一種可實(shí)施的方式,第一處理模塊21,具體可以用于根據(jù)接收到的包括待采集網(wǎng)頁(yè)地址的數(shù)據(jù)采集請(qǐng)求,確定待采集網(wǎng)頁(yè),所述待采集網(wǎng)頁(yè)的網(wǎng)頁(yè)地址為所述待采集網(wǎng)頁(yè)地址;或者,根據(jù)接收到的數(shù)據(jù)采集請(qǐng)求,將當(dāng)前網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè);或者,根據(jù)預(yù)設(shè)的周期,定時(shí)將當(dāng)前網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè)。
[0046]通過(guò)本實(shí)施方式,可以使用戶根據(jù)不同的自身需求選擇采取相應(yīng)的采集觸發(fā)方式,進(jìn)而更有效地進(jìn)行數(shù)據(jù)采集。
[0047]具體的,在實(shí)際應(yīng)用中,可以預(yù)先存儲(chǔ)各網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,從而在需要登錄并加載某個(gè)網(wǎng)頁(yè)時(shí),自動(dòng)登錄該網(wǎng)頁(yè),并在登錄成功后進(jìn)行網(wǎng)頁(yè)加載,從而進(jìn)一步方便、有效地進(jìn)行數(shù)據(jù)采集,則相應(yīng)的,所述裝置還可以包括:
[0048]查詢模塊,用于查詢預(yù)存的各網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,獲得所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,所述登錄信息包括登錄賬號(hào)和登錄密碼;
[0049]發(fā)送模塊,用于向網(wǎng)站服務(wù)器發(fā)送驗(yàn)證請(qǐng)求,所述驗(yàn)證請(qǐng)求包括所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息;
[0050]第一處理模塊21,具體可以用于若接收到所述網(wǎng)站服務(wù)器返回的驗(yàn)證通過(guò)消息,則加載所述待采集網(wǎng)頁(yè)。
[0051]再具體的,檢測(cè)模塊23具體可以包括:獲取單元,用于通過(guò)MSHTML組件,獲得當(dāng)前對(duì)所述待采集網(wǎng)頁(yè)的讀取狀態(tài);判定單元,用于若當(dāng)前對(duì)所述待采集網(wǎng)頁(yè)的讀取狀態(tài)為完成狀態(tài),則判定所述待采集網(wǎng)頁(yè)加載完畢。
[0052]本實(shí)施例提供的網(wǎng)頁(yè)數(shù)據(jù)采集裝置,通過(guò)若待采集網(wǎng)頁(yè)加載完畢,則從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中采集相應(yīng)數(shù)據(jù)的技術(shù)方案,有效實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行采集。并且,通過(guò)本實(shí)施例提供的方案能夠避免,當(dāng)網(wǎng)頁(yè)尚未加載完畢就進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)采集導(dǎo)致的,采集到的網(wǎng)頁(yè)數(shù)據(jù)不準(zhǔn)確不全面的問(wèn)題,從而進(jìn)一步提高了網(wǎng)頁(yè)數(shù)據(jù)采集準(zhǔn)確性和可靠性。
[0053]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的裝置的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
[0054]本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過(guò)程序指令相關(guān)的硬件來(lái)完成。前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。該程序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:R0M、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0055]最后應(yīng)說(shuō)明的是:以上各實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)數(shù)據(jù)采集方法,其特征在于,包括: 確定并加載待采集網(wǎng)頁(yè); 檢測(cè)所述待采集網(wǎng)頁(yè)是否加載完畢,若是,則獲取當(dāng)前所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù);根據(jù)預(yù)先配置的采集規(guī)則,從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中,采集與所述采集規(guī)則匹配的數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述檢測(cè)所述待采集網(wǎng)頁(yè)是否加載完畢,具體包括: 通過(guò)MSHTML組件,獲得當(dāng)前對(duì)所述待采集網(wǎng)頁(yè)的讀取狀態(tài); 若當(dāng)前對(duì)所述待采集網(wǎng)頁(yè)的讀取狀態(tài)為完成狀態(tài),則判定所述待采集網(wǎng)頁(yè)加載完畢。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述加載待采集網(wǎng)頁(yè)之前,還包括: 查詢預(yù)存的各網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,獲得所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,所述登錄信息包括登錄賬號(hào)和登錄密碼; 向網(wǎng)站服務(wù)器發(fā)送驗(yàn)證請(qǐng)求,所述驗(yàn)證請(qǐng)求包括所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息; 所述加載待采集網(wǎng)頁(yè),具體包括: 若接收到所述網(wǎng)站服務(wù)器返回的驗(yàn)證通過(guò)消息,則加載所述待采集網(wǎng)頁(yè)。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述確定待采集網(wǎng)頁(yè),具體包括: 根據(jù)接收到的包括待采集網(wǎng)頁(yè)地址的數(shù)據(jù)采集請(qǐng)求,將所述待采集網(wǎng)頁(yè)地址對(duì)應(yīng)的網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè);或者, 根據(jù)接收到的數(shù)據(jù)采集請(qǐng)求,將當(dāng)前網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè);或者, 根據(jù)預(yù)設(shè)的周期,定時(shí)將當(dāng)前網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè)。
5.一種網(wǎng)頁(yè)數(shù)據(jù)采集裝置,其特征在于,包括: 第一處理模塊,用于確定待采集網(wǎng)頁(yè); 第二處理模塊,用于加載所述待采集網(wǎng)頁(yè); 檢測(cè)模塊,用于檢測(cè)所述待采集網(wǎng)頁(yè)是否加載完畢,若是,則獲取當(dāng)前所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù); 采集模塊,用于根據(jù)預(yù)先配置的采集規(guī)則,從所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的數(shù)據(jù)中,采集與所述采集規(guī)則匹配的數(shù)據(jù)。
6.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述檢測(cè)模塊具體包括: 獲取單元,用于通過(guò)MSHTML組件,獲得當(dāng)前對(duì)所述待采集網(wǎng)頁(yè)的讀取狀態(tài); 判定單元,用于若當(dāng)前對(duì)所述待采集網(wǎng)頁(yè)的讀取狀態(tài)為完成狀態(tài),則判定所述待采集網(wǎng)頁(yè)加載完畢。
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述裝置還包括: 查詢模塊,用于查詢預(yù)存的各網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,獲得所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的登錄信息,所述登錄信息包括登錄賬號(hào)和登錄密碼; 發(fā)送模塊,用于向網(wǎng)站服務(wù)器發(fā)送驗(yàn)證請(qǐng)求,所述驗(yàn)證請(qǐng)求包括所述待采集網(wǎng)頁(yè)對(duì)應(yīng)的登錄息; 所述第一處理模塊,具體用于若接收到所述網(wǎng)站服務(wù)器返回的驗(yàn)證通過(guò)消息,則加載所述待采集網(wǎng)頁(yè)。
8.根據(jù)權(quán)利要求5-7中任一項(xiàng)所述的裝置,其特征在于,所述第一處理模塊,具體用于根據(jù)接收到的包括待采集網(wǎng)頁(yè)地址的數(shù)據(jù)采集請(qǐng)求,確定待采集網(wǎng)頁(yè),所述待采集網(wǎng)頁(yè)的網(wǎng)頁(yè)地址為所述待采集網(wǎng)頁(yè)地址;或者,根據(jù)接收到的數(shù)據(jù)采集請(qǐng)求,將當(dāng)前網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè);或者,根據(jù)預(yù)設(shè)的周期,定時(shí)將當(dāng)前網(wǎng)頁(yè)作為所述待采集網(wǎng)頁(yè)。
【文檔編號(hào)】G06F17/30GK104462140SQ201310439192
【公開日】2015年3月25日 申請(qǐng)日期:2013年9月24日 優(yōu)先權(quán)日:2013年9月24日
【發(fā)明者】任艷方 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京北大方正電子有限公司