国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng)與流程

      文檔序號:12010346閱讀:594來源:國知局
      業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng)與流程
      本申請涉及數(shù)據(jù)采集領(lǐng)域,具體地說,是涉及一種業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng)。

      背景技術(shù):
      如今,隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,其中蘊含的龐大的數(shù)據(jù)量和信息量將人們獲取信息的方式改變:從傳統(tǒng)翻書查閱的方式改變?yōu)橥ㄟ^互聯(lián)網(wǎng)所搜引擎檢索。現(xiàn)在人們已經(jīng)習(xí)慣于通過網(wǎng)絡(luò)獲取自己需要的信息。目前,各類互聯(lián)網(wǎng)產(chǎn)品應(yīng)運而生,為人們在互聯(lián)網(wǎng)上提供各類便捷、實用的功能服務(wù),上述物聯(lián)網(wǎng)產(chǎn)品也通過互聯(lián)網(wǎng)獲取業(yè)務(wù)數(shù)據(jù),其產(chǎn)品中數(shù)據(jù)的準(zhǔn)確性和豐富程度等特性往往決定產(chǎn)品的生命周期。然而,通過搜索引擎所獲得的信息,通常是通過網(wǎng)頁的形式所展現(xiàn)的,這樣的信息只適合于人工檢索閱讀,但互聯(lián)網(wǎng)產(chǎn)品卻很難進(jìn)行加工和再利用,同時,檢索到的信息量龐大,很難在大量的檢索結(jié)果中抽取出有用的信息。從而,對于互聯(lián)網(wǎng)產(chǎn)品,不能采用搜索引擎檢索,而是針對互聯(lián)網(wǎng)中的各種業(yè)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)采集。但數(shù)據(jù)采集往往都要花費大量的資源,同時在數(shù)據(jù)采集時不能通過配置相關(guān)的信息獲取業(yè)務(wù)數(shù)據(jù),只能修改內(nèi)部邏輯關(guān)系,從而數(shù)據(jù)采集過程要花費大量時間。然而,數(shù)據(jù)采集時數(shù)據(jù)更新的進(jìn)度快慢和其他因素好壞往往決定了用戶對產(chǎn)品的忠誠度,占用資源大、數(shù)據(jù)更新慢的互聯(lián)網(wǎng)產(chǎn)品必然將被用戶淘汰。因此,如何解決數(shù)據(jù)采集時花費大量的資源而且不能通過配置相關(guān)的信息獲取業(yè)務(wù)數(shù)據(jù),便成為亟待解決的技術(shù)問題。

      技術(shù)實現(xiàn)要素:
      本申請所要解決的技術(shù)問題是提供一種業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng),以解決數(shù)據(jù)采集時花費大量的資源而且不能通過配置相關(guān)的信息獲取業(yè)務(wù)數(shù)據(jù)的問題。為解決上述技術(shù)問題,本申請?zhí)峁┝艘环N業(yè)務(wù)數(shù)據(jù)抓取方法,包括:配置抓取操作時所需要的規(guī)則數(shù)據(jù);讀取所述規(guī)則數(shù)據(jù),根據(jù)該規(guī)則數(shù)據(jù)建立網(wǎng)頁資源抓取任務(wù),將抓取的網(wǎng)頁資源按照配置規(guī)則分類進(jìn)行存儲;針對抓取到的所述網(wǎng)頁資源建立數(shù)據(jù)解析任務(wù),對抓取的所述網(wǎng)頁資源通過解析HTML文檔獲取需要的資源URI,同時過濾數(shù)據(jù)不完整的資源;建立資源下載任務(wù),對解析獲取到的所述資源URI使用斷點續(xù)傳的方式下載,獲得所述資源數(shù)據(jù);根據(jù)采集到的所述資源數(shù)據(jù)的完整性進(jìn)行存儲或重新抓取,并在所述抓取操作無法正常結(jié)束時發(fā)送報告信息。進(jìn)一步地,所述網(wǎng)頁資源抓取任務(wù),進(jìn)一步為按照配置的所述規(guī)則數(shù)據(jù)創(chuàng)建的對應(yīng)數(shù)量的多線程網(wǎng)頁資源抓取任務(wù)。進(jìn)一步地,所述資源下載任務(wù),進(jìn)一步為按照配置的所述規(guī)則數(shù)據(jù)創(chuàng)建的對應(yīng)數(shù)量的多線程資源下載任務(wù)。進(jìn)一步地,所述根據(jù)采集到的資源數(shù)據(jù)的完整性進(jìn)行存儲或重新抓取,進(jìn)一步為:判斷所述資源數(shù)據(jù)的完整性,若所述資源數(shù)據(jù)完整,則將該資源數(shù)據(jù)進(jìn)行存儲;若所述資源數(shù)據(jù)不完整,則遍歷所述抓取操作中各任務(wù)執(zhí)行時的狀態(tài),查找出導(dǎo)致所述資源數(shù)據(jù)不完整的任務(wù)狀態(tài),通過重啟所述抓取操作從相對應(yīng)的所述任務(wù)狀態(tài)處進(jìn)行重新抓取。進(jìn)一步地,所述規(guī)則數(shù)據(jù),進(jìn)一步為由資源URI、相關(guān)編碼、抓取任務(wù)觸發(fā)數(shù)據(jù)和/或規(guī)則模板數(shù)據(jù)構(gòu)成的規(guī)則數(shù)據(jù)。一種業(yè)務(wù)數(shù)據(jù)抓取系統(tǒng),該系統(tǒng)包括:配置模塊、抓取處理模塊、完整性校驗?zāi)K以及預(yù)警模塊;其中,所述配置模塊,用于對抓取操作時所需要的規(guī)則數(shù)據(jù)進(jìn)行配置,并將配置后的所述規(guī)則數(shù)據(jù)以配置文件的方式進(jìn)行存儲;所述抓取處理模塊,用于讀取所述配置模塊中存儲的所述配置文件,獲得所述規(guī)則數(shù)據(jù),根據(jù)該規(guī)則數(shù)據(jù)建立網(wǎng)頁資源抓取任務(wù),將抓取的網(wǎng)頁資源按照配置規(guī)則分類進(jìn)行存儲;針對抓取到的所述網(wǎng)頁資源建立數(shù)據(jù)解析任務(wù),對抓取的所述網(wǎng)頁資源通過解析HTML文檔獲取需要的資源URI,同時過濾數(shù)據(jù)不完整的資源;建立資源下載任務(wù),對解析獲取到的所述資源URI使用斷點續(xù)傳的方式下載,獲得所述資源數(shù)據(jù);將采集到的資源數(shù)據(jù)發(fā)送至所述完整性校驗?zāi)K,以及用于接收所述完整性校驗?zāi)K發(fā)送的所述校驗結(jié)果數(shù)據(jù),根據(jù)該校驗結(jié)果數(shù)據(jù)進(jìn)行存儲或重新抓??;所述完整性校驗?zāi)K,用于接收所述抓取處理模塊發(fā)送的所述資源數(shù)據(jù),對該資源數(shù)據(jù)進(jìn)行完整性校驗,生成校驗結(jié)果數(shù)據(jù)發(fā)送至所述抓取處理模塊;所述預(yù)警模塊,用于實時監(jiān)測所述抓取處理模塊的所述抓取操作狀態(tài),在所述抓取操作無法正常結(jié)束時從所述抓取處理模塊中讀取錯誤原因生成報告信息進(jìn)行發(fā)送。進(jìn)一步地,所述網(wǎng)頁資源抓取任務(wù),進(jìn)一步為按照配置的所述規(guī)則數(shù)據(jù)創(chuàng)建的對應(yīng)數(shù)量的多線程網(wǎng)頁資源抓取任務(wù)。進(jìn)一步地,所述下載任務(wù),進(jìn)一步為按照配置的所述規(guī)則數(shù)據(jù)創(chuàng)建的對應(yīng)數(shù)量的多線程資源下載任務(wù)。進(jìn)一步地,所述抓取處理模塊,進(jìn)一步讀取所述校驗結(jié)果數(shù)據(jù),若該校驗結(jié)果數(shù)據(jù)反映所述資源數(shù)據(jù)完整,則將該資源數(shù)據(jù)進(jìn)行存儲;若該校驗結(jié)果數(shù)據(jù)反映所述資源數(shù)據(jù)不完整,則遍歷所述抓取操作中各任務(wù)執(zhí)行時的狀態(tài),查找出導(dǎo)致所述資源數(shù)據(jù)不完整的任務(wù)狀態(tài),通過重啟所述抓取操作從相對應(yīng)的所述任務(wù)狀態(tài)處進(jìn)行重新抓取。進(jìn)一步地,所述規(guī)則數(shù)據(jù),進(jìn)一步為由資源URI、相關(guān)編碼、抓取任務(wù)觸發(fā)數(shù)據(jù)和/或規(guī)則模板數(shù)據(jù)構(gòu)成的規(guī)則數(shù)據(jù)。與現(xiàn)有技術(shù)相比,本申請所述的一種業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng),達(dá)到了如下效果:1)本申請的技術(shù)方案采用響應(yīng)式設(shè)計,通過模板配置相應(yīng)的信息即可獲取業(yè)務(wù)數(shù)據(jù),無需修改邏輯,極大提升了數(shù)據(jù)更新速度,同時有效降低了數(shù)據(jù)采集消耗的資源;2)本申請包含有各類耦合度松散的模塊,在使用時用戶可以根據(jù)自己的需求進(jìn)行裝配,極大提升了互聯(lián)網(wǎng)產(chǎn)品的便捷性和實用性;3)本申請基于JAVA語言(一種高級編譯語言),可以實現(xiàn)多平臺的靈活移植,同時提供SOAP接口(一種傳輸協(xié)議),可用于多場景,適用性強。附圖說明此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:圖1為本申請實施例一所述的業(yè)務(wù)數(shù)據(jù)抓取方法的流程示意框圖;圖2為本申請實施例二所述的業(yè)務(wù)數(shù)據(jù)抓取系統(tǒng)的結(jié)構(gòu)框圖;圖3為圖2所述的業(yè)務(wù)數(shù)據(jù)抓取系統(tǒng)中所述抓取處理模塊的具體結(jié)構(gòu)框圖。具體實施方式如在說明書及權(quán)利要求當(dāng)中使用了某些詞匯來指稱特定組件。本領(lǐng)域技術(shù)人員應(yīng)可理解,硬件制造商可能會用不同名詞來稱呼同一個組件。本說明書及權(quán)利要求并不以名稱的差異來作為區(qū)分組件的方式,而是以組件在功能上的差異來作為區(qū)分的準(zhǔn)則。如在通篇說明書及權(quán)利要求當(dāng)中所提及的“包含”為一開放式用語,故應(yīng)解釋成“包含但不限定于”。“大致”是指在可接受的誤差范圍內(nèi),本領(lǐng)域技術(shù)人員能夠在一定誤差范圍內(nèi)解決所述技術(shù)問題,基本達(dá)到所述技術(shù)效果。此外,“耦接”一詞在此包含任何直接及間接的電性耦接手段。因此,若文中描述一第一裝置耦接于一第二裝置,則代表所述第一裝置可直接電性耦接于所述第二裝置,或通過其他裝置或耦接手段間接地電性耦接至所述第二裝置。說明書后續(xù)描述為實施本申請的較佳實施方式,然所述描述乃以說明本申請的一般原則為目的,并非用以限定本申請的范圍。本申請的保護(hù)范圍當(dāng)視所附權(quán)利要求所界定者為準(zhǔn)。以下結(jié)合附圖對本申請作進(jìn)一步詳細(xì)說明,但不作為對本申請的限定。實施例一如圖1所示,是本申請實施例一所述的一種業(yè)務(wù)數(shù)據(jù)抓取方法流程。步驟101,配置抓取操作時所需要的規(guī)則數(shù)據(jù)。進(jìn)一步地,所述規(guī)則數(shù)據(jù)包括:資源URI(UniformResourceIdentifier,資源標(biāo)識符)、相關(guān)編碼、抓取任務(wù)觸發(fā)數(shù)據(jù)和/或規(guī)則模板等數(shù)據(jù)。配置完成后的所述規(guī)則數(shù)據(jù)存儲于配置文件中。具體來說,規(guī)則數(shù)據(jù)可以是用戶根據(jù)個人需求自行設(shè)定,也可以是所述互聯(lián)網(wǎng)產(chǎn)品根據(jù)其更新狀態(tài)的自動設(shè)定。需要說明的是,在實際應(yīng)用中,抓取操作可以由處理芯片構(gòu)成的抓取模塊或抓取中心實現(xiàn)。步驟102,讀取所述規(guī)則數(shù)據(jù),根據(jù)該規(guī)則數(shù)據(jù)建立網(wǎng)頁資源抓取任務(wù),將抓取的網(wǎng)頁資源按照配置規(guī)則分類進(jìn)行存儲;針對抓取到的所述網(wǎng)頁資源建立數(shù)據(jù)解析任務(wù),對抓取的所述網(wǎng)頁資源通過解析HTML文檔獲取需要的資源URI,同時過濾數(shù)據(jù)不完整的資源;建立資源下載任務(wù),對解析獲取到的所述資源URI使用斷點續(xù)傳的方式下載,獲得所述資源數(shù)據(jù)。進(jìn)一步地,在讀取所述規(guī)則數(shù)據(jù)之后,啟動抓取操作,該抓取操作具體包括:建立網(wǎng)頁資源抓取任務(wù),該抓取任務(wù)可以使用多線程機制,即按照配置的規(guī)則數(shù)據(jù)創(chuàng)建對應(yīng)數(shù)量的線程,將抓取的網(wǎng)頁資源按照配置規(guī)則分類進(jìn)行存儲;建立數(shù)據(jù)解析任務(wù),對抓取的所述網(wǎng)頁資源通過解析HTML(HypertextMarkupLanguage,超文本標(biāo)記語言)文檔獲取需要的資源URI、文字內(nèi)容,同時過濾數(shù)據(jù)不完整的資源,如:URI不完整等;建立資源下載任務(wù),該下載任務(wù)也使用多線程機制,同樣按照配置的規(guī)則數(shù)據(jù)創(chuàng)建對應(yīng)數(shù)量的線程,對解析獲取到的資源URI使用斷點續(xù)傳的方式下載,獲得所述資源數(shù)據(jù),比如文件、圖片等內(nèi)容。步驟103,根據(jù)采集到的所述資源數(shù)據(jù)的完整性進(jìn)行存儲或重新抓取,并在所述抓取操作無法正常結(jié)束時發(fā)送報告信息。進(jìn)一步地,所述資源數(shù)據(jù)可能出現(xiàn)抓取不完整的情況,則需要對不完整的所述資源數(shù)據(jù)重新抓取,因此,本步驟中所述根據(jù)采集到的資源數(shù)據(jù)的完整性進(jìn)行存儲或重新抓取,進(jìn)一步為:判斷所述資源數(shù)據(jù)的完整性,若所述資源數(shù)據(jù)完整,則將該資源數(shù)據(jù)進(jìn)行存儲;若所述資源數(shù)據(jù)不完整,則遍歷所述抓取操作中各任務(wù)執(zhí)行時的狀態(tài),查找出導(dǎo)致所述資源數(shù)據(jù)不完整的任務(wù)狀態(tài),通過重啟所述抓取操作從相對應(yīng)的所述任務(wù)狀態(tài)處進(jìn)行重新抓取。在本步驟中,若在所述抓取操作無法正常結(jié)束時,發(fā)送具體的錯誤原因等報告信息給業(yè)務(wù)人員或技術(shù)人員,以便及時修復(fù)錯誤或做相關(guān)的調(diào)整;當(dāng)然,也可以在所述抓取操作正常結(jié)束時發(fā)送狀態(tài)報告信息給業(yè)務(wù)人員,從而使業(yè)務(wù)人員實時掌握所述抓取操作的狀態(tài)。在本實施例中,還可以包括:對DNS解析記錄進(jìn)行緩存處理,提高下載速度。以一應(yīng)用實例來說明本申請的方案。首先,對資源URI、定時器數(shù)據(jù)、需要抓取的數(shù)據(jù)結(jié)構(gòu)模板信息、報告信息的相關(guān)數(shù)據(jù)等規(guī)則數(shù)據(jù)進(jìn)行配置。配置過程可由相應(yīng)的配置模塊實現(xiàn),配置完成后的所述規(guī)則數(shù)據(jù)以配置文件的方式進(jìn)行存儲。之后,讀取所述配置文件中的所述規(guī)則數(shù)據(jù),建立相應(yīng)的網(wǎng)頁資源抓取任務(wù),對網(wǎng)頁上的資源進(jìn)行抓取,將抓取到的網(wǎng)頁資源按照所述規(guī)則數(shù)據(jù)分類存儲在可用的存儲器上,如:內(nèi)存或外部存儲器;針對抓取到的所述網(wǎng)頁資源建立數(shù)據(jù)解析任務(wù),通過解析HTML文檔獲取需要的資源URI、文字內(nèi)容等,并寫入存儲文件,同時過濾數(shù)據(jù)不完整的資源;針對解析得到的所述資源URI建立資源下載任務(wù),從而下載所需的資源數(shù)據(jù)。需要說明的是,所述抓取任務(wù)和下載任務(wù)均采用多線程機制進(jìn)行,從而可以節(jié)省大量的時間,同時在數(shù)據(jù)傳輸時均采用斷點續(xù)傳的方式,這樣可以避免因故障中止所述抓取操作時造成的數(shù)據(jù)丟失。在執(zhí)行上述抓取操作的同時記錄所述抓取操作中各任務(wù)的執(zhí)行狀態(tài),若出現(xiàn)某任務(wù)過程因故障中斷(如在解析任務(wù)時發(fā)生了中斷),則將該中斷狀態(tài)記錄,在下一次執(zhí)行所述抓取操作時,直接在中斷處往下執(zhí)行(即從解析任務(wù)開始執(zhí)行)。然后,檢驗所述資源數(shù)據(jù)的完整性,將完整的所述資源數(shù)據(jù)儲存于存儲器中;將不完整的所述資源數(shù)據(jù)進(jìn)行重新抓取。需要說明的是,在所述抓取操作過程不能正常結(jié)束時給業(yè)務(wù)人員發(fā)送記載錯誤原因的報告信息,以便業(yè)務(wù)人員及時修復(fù)錯誤或做相關(guān)的調(diào)整;在所述抓取操作正常結(jié)束時發(fā)送狀態(tài)報告信息給業(yè)務(wù)人員,從而使業(yè)務(wù)人員實時掌握所述抓取操作的狀態(tài)。實施例二如圖2所示,是本申請實施例二所述的一種業(yè)務(wù)數(shù)據(jù)抓取系統(tǒng),包括:配置模塊201、抓取處理模塊202、完整性校驗?zāi)K203以及預(yù)警模塊204;其中,所述配置模塊201,與所述抓取處理模塊202相耦接,用于對抓取操作時所需要的規(guī)則數(shù)據(jù)進(jìn)行配置,并將配置后的所述規(guī)則數(shù)據(jù)以配置文件的方式進(jìn)行存儲。所述規(guī)則數(shù)據(jù)包括:資源URI(UniformResourceIdentifier,資源標(biāo)識符)、相關(guān)編碼、抓取任務(wù)觸發(fā)數(shù)據(jù)和/或規(guī)則模板等數(shù)據(jù)。所述抓取處理模塊202,與所述配置模塊201、完整性校驗?zāi)K203以及預(yù)警模塊204相耦接,用于讀取所述配置模塊201中存儲的所述配置文件,獲得所述規(guī)則數(shù)據(jù),根據(jù)該規(guī)則數(shù)據(jù)建立網(wǎng)頁資源抓取任務(wù),將抓取的網(wǎng)頁資源按照配置規(guī)則分類進(jìn)行存儲;針對抓取到的所述網(wǎng)頁資源建立數(shù)據(jù)解析任務(wù),對抓取的所述網(wǎng)頁資源通過解析HTML文檔獲取需要的資源URI,同時過濾數(shù)據(jù)不完整的資源;建立資源下載任務(wù),對解析獲取到的所述資源URI使用斷點續(xù)傳的方式下載,獲得所述資源數(shù)據(jù),將采集到的資源數(shù)據(jù)發(fā)送至所述完整性校驗?zāi)K203,以及用于接收所述完整性校驗?zāi)K203發(fā)送的所述校驗結(jié)果數(shù)據(jù),根據(jù)該校驗結(jié)果數(shù)據(jù)進(jìn)行存儲或重新抓取。所述完整性校驗?zāi)K203,與所述抓取處理模塊202相耦接,用于接收所述抓取處理模塊202發(fā)送的所述資源數(shù)據(jù),對該資源數(shù)據(jù)進(jìn)行完整性校驗,生成校驗結(jié)果數(shù)據(jù)發(fā)送至所述抓取處理模塊202。所述預(yù)警模塊204,與所述抓取處理模塊202相耦接,用于實時監(jiān)測所述抓取處理模塊202的所述抓取操作狀態(tài),在所述抓取操作無法正常結(jié)束時從所述抓取處理模塊202中讀取錯誤原因生成報告信息進(jìn)行發(fā)送。進(jìn)一步地,所述抓取處理模塊202,進(jìn)一步讀取所述校驗結(jié)果數(shù)據(jù),若該校驗結(jié)果數(shù)據(jù)反映所述資源數(shù)據(jù)完整,則將該資源數(shù)據(jù)進(jìn)行存儲;若該校驗結(jié)果數(shù)據(jù)反映所述資源數(shù)據(jù)不完整,則遍歷所述抓取操作中各任務(wù)執(zhí)行時的狀態(tài),查找出導(dǎo)致所述資源數(shù)據(jù)不完整的任務(wù)狀態(tài),通過重啟所述抓取操作從相對應(yīng)的所述任務(wù)狀態(tài)處進(jìn)行重新抓取。當(dāng)然,上述抓取處理模塊202中可以包括:抓取任務(wù)單元2021、解析任務(wù)單元2022以及下載任務(wù)單元2023,分別用于執(zhí)行建立網(wǎng)頁資源抓取任務(wù)、建立數(shù)據(jù)解析任務(wù)以及建立資源下載任務(wù)的操作;具體來說,所述抓取任務(wù)單元2021,與所述配置模塊201和解析任務(wù)單元2022相耦接,用于讀取所述規(guī)則數(shù)據(jù),根據(jù)該規(guī)則數(shù)據(jù)建立網(wǎng)頁資源抓取任務(wù),從相應(yīng)的網(wǎng)頁上抓取所述網(wǎng)頁資源,并將抓取到的所述網(wǎng)頁資源分類進(jìn)行存儲。所述解析任務(wù)單元2022,與所述抓取任務(wù)單元2021和下載任務(wù)單元2023相耦接,用于建立數(shù)據(jù)解析任務(wù),讀取所述抓取模塊2021存儲的所述網(wǎng)頁資源,對所述網(wǎng)頁資源通過解析HTML(HypertextMarkupLanguage,超文本標(biāo)記語言)文檔獲取資源URI,同時過濾數(shù)據(jù)不完整的資源,將該資源URI發(fā)送至所述下載任務(wù)單元2023。所述下載任務(wù)單元2023,與所述解析任務(wù)單元2022和預(yù)警模塊203相耦接,用于建立下載任務(wù),對所述解析任務(wù)單元2022發(fā)送的所述資源URI使用斷點續(xù)傳的方式下載,獲得所述資源數(shù)據(jù)。在本實施例中,所述業(yè)務(wù)數(shù)據(jù)抓取系統(tǒng)還可以包括:DNS緩存模塊和任務(wù)自動恢復(fù)模塊;其中,所述DNS緩存模塊,設(shè)置于所述下載任務(wù)單元2023中,用于對DNS解析記錄進(jìn)行緩存處理,提高下載速度。所述任務(wù)自動恢復(fù)模塊,與所述抓取任務(wù)單元2021、解析任務(wù)單元2022以及下載任務(wù)單元2023相耦接,用于當(dāng)因故障導(dǎo)致抓取任務(wù)、解析任務(wù)以及下載任務(wù)終止時,記錄任務(wù)狀態(tài),在下一次啟動時獲取未完成任務(wù)的任務(wù)狀態(tài),繼續(xù)進(jìn)行未完成的任務(wù)。由于方法部分已經(jīng)對本申請實施例一進(jìn)行了詳細(xì)描述,這里對實施例二中涉及的系統(tǒng)與方法對應(yīng)部分的展開描述省略,不再贅述。對于系統(tǒng)中具體內(nèi)容的描述可參考實施例一所述方法的內(nèi)容,這里不再具體限定。與現(xiàn)有技術(shù)相比,本申請所述的一種業(yè)務(wù)數(shù)據(jù)抓取方法和系統(tǒng),達(dá)到了如下效果:1)本申請的技術(shù)方案采用響應(yīng)式設(shè)計,通過模板配置相應(yīng)的信息即可獲取業(yè)務(wù)數(shù)據(jù),無需修改邏輯,極大提升了數(shù)據(jù)更新速度,同時有效降低了數(shù)據(jù)采集消耗的資源;2)本申請包含有各類耦合度松散的模塊,在使用時用戶可以根據(jù)自己的需求進(jìn)行裝配,極大提升了互聯(lián)網(wǎng)產(chǎn)品的便捷性和實用性;3)本申請基于JAVA語言(一種高級編譯語言),可以實現(xiàn)多平臺的靈活移植,同時提供SOAP接口(一種傳輸協(xié)議),可用于多場景,適用性強。上述說明示出并描述了本申請的若干優(yōu)選實施例,但如前所述,應(yīng)當(dāng)理解本申請并非局限于本文所披露的形式,不應(yīng)看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述申請構(gòu)想范圍內(nèi),通過上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識進(jìn)行改動。而本領(lǐng)域人員所進(jìn)行的改動和變化不脫離本申請的精神和范圍,則都應(yīng)在本申請所附權(quán)利要求的保護(hù)范圍內(nèi)。
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1