国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種管理爬蟲代理的方法及裝置與流程

      文檔序號(hào):11250924閱讀:497來源:國知局
      一種管理爬蟲代理的方法及裝置與流程

      本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種管理爬蟲代理的方法及裝置。



      背景技術(shù):

      隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,為了有效地提取并利用這些信息,網(wǎng)絡(luò)爬蟲應(yīng)用而生。網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。

      然而,許多網(wǎng)站為了防止網(wǎng)絡(luò)爬蟲所帶來的系統(tǒng)壓力,采取了反爬蟲技術(shù),不允許爬蟲進(jìn)行高頻率的數(shù)據(jù)采集。目前,為了應(yīng)對(duì)反爬蟲技術(shù),進(jìn)程可以向代理發(fā)起請(qǐng)求,由代理實(shí)現(xiàn)網(wǎng)頁下載,如此,網(wǎng)站則不能檢測到真正采集網(wǎng)頁的機(jī)器,其中,代理是指可以用于實(shí)現(xiàn)網(wǎng)頁下載的服務(wù)器。

      現(xiàn)有技術(shù)中,為了實(shí)現(xiàn)使用代理更高效地采集所需要的信息,往往都是建立代理池,進(jìn)程通過從代理池中不斷獲取代理,并且向獲取的代理發(fā)起請(qǐng)求,來實(shí)現(xiàn)網(wǎng)頁下載,采集所需要的信息。

      但是,現(xiàn)有技術(shù)并沒有對(duì)代理池中的代理進(jìn)行有效管理,在代理池中的代理改變時(shí),不能及時(shí)反饋給進(jìn)程,例如:在代理池中有新增加的代理時(shí),現(xiàn)有技術(shù)不能及時(shí)將新增加的代理反饋給進(jìn)程,進(jìn)程獲取不到新增加的代理;在代理池中有不可用的代理時(shí),進(jìn)程獲取到該不可用的代理后,不能進(jìn)行網(wǎng)頁下載。這樣就會(huì)影響進(jìn)程采集信息。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明實(shí)施例的目的在于提供一種管理爬蟲代理的方法及裝置,以實(shí)現(xiàn)及時(shí)更新代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。具體技術(shù)方案如下:

      第一方面,本發(fā)明實(shí)施例提供了一種管理爬蟲代理的方法,該方法包括:

      獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的ip地址、待更新代理的名稱及待更新代理的端口,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令;

      更新待更新代理的代理信息,并更新待更新代理到代理池。

      可選的,所述獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,包括:

      獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

      相應(yīng)的,所述更新待更新代理的代理信息,并更新待更新代理到代理池,包括:

      添加待新增代理的代理信息,并添加待新增代理到代理池。

      可選的,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息之后,本發(fā)明實(shí)施例的管理爬蟲代理的方法還包括:

      根據(jù)待新增代理的代理信息,向待新增代理發(fā)送下載第一指定內(nèi)容的第一下載指令;

      在待新增代理根據(jù)第一下載指令成功下載第一指定內(nèi)容時(shí),則待新增代理為可用代理;

      相應(yīng)的,所述添加待新增代理的代理信息,并添加待新增代理到代理池,包括:

      在待新增代理為可用代理時(shí),添加可用代理的代理信息,并添加可用代理到代理池。

      可選的,所述獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,包括:

      獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

      相應(yīng)的,所述更新待更新代理的代理信息,并更新待更新代理到代理池,包括:

      刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

      可選的,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息之前,本發(fā)明實(shí)施例的管理爬蟲代理的方法還包括:

      周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

      在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理。

      另一方面,本發(fā)明實(shí)施例還提供了一種管理爬蟲代理的裝置,該裝置包括:

      獲取模塊,用于獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的ip地址、待更新代理的名稱及待更新代理的端口,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令;

      更新模塊,用于更新待更新代理的代理信息,并更新待更新代理到代理池。

      可選的,所述獲取模塊,具體用于:

      獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

      相應(yīng)的,所述更新模塊,具體用于:

      添加待新增代理的代理信息,并添加待新增代理到代理池。

      可選的,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息之后,本發(fā)明實(shí)施例的管理爬蟲代理的裝置還包括:

      健康檢查模塊,用于根據(jù)待新增代理的代理信息,向待新增代理發(fā)送下載第一指定內(nèi)容的第一下載指令;

      在待新增代理根據(jù)第一下載指令成功下載第一指定內(nèi)容時(shí),則待新增代理為可用代理;

      相應(yīng)的,所述更新模塊,還具體用于:

      在待新增代理為可用代理時(shí),添加可用代理的代理信息,并添加可用代理到代理池。

      可選的,所述獲取模塊,還具體用于:

      獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

      相應(yīng)的,所述更新模塊,還具體用于:

      刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

      可選的,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息之前,本發(fā)明實(shí)施例的管理爬蟲代理的裝置還包括:

      待刪除代理檢查模塊,用于周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

      在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理。

      本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法及裝置,通過在有待更新代理時(shí),及時(shí)更新待更新代理的代理信息,并更新待更新代理到代理池,保證代理池中的代理都是可用代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。

      附圖說明

      為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第一種實(shí)施方式的流程圖;

      圖2為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第二種實(shí)施方式的流程圖;

      圖3為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第三種實(shí)施方式的流程圖;

      圖4為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第四種實(shí)施方式的流程圖;

      圖5為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第五種實(shí)施方式的流程圖;

      圖6為本發(fā)明實(shí)施例的一種管理爬蟲代理的裝置的結(jié)構(gòu)圖;

      圖7為本發(fā)明實(shí)施例的一種管理爬蟲代理的裝置的應(yīng)用系統(tǒng)圖。

      具體實(shí)施方式

      下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

      為了解決現(xiàn)有技術(shù)存在的問題,本發(fā)明實(shí)施例提供了一種管理爬蟲代理的方法及裝置,以實(shí)現(xiàn)及時(shí)更新代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。

      下面,首先對(duì)本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法進(jìn)行介紹,如圖1所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第一種實(shí)施方式的流程圖,所述的方法可以包括:

      s101,獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的ip地址、待更新代理的名稱及待更新代理的端口,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令;

      代理是指可以用于實(shí)現(xiàn)網(wǎng)頁下載的服務(wù)器,

      具體地,該待更新代理包括自建代理和商業(yè)購買的代理,對(duì)于自建代理,該攜帶有待更新代理的指令來自于自建代理集群,對(duì)于商業(yè)購買的代理,該攜帶有待更新代理的指令來自于商業(yè)購買的代理集群,其中,自建代理的方法為現(xiàn)有技術(shù),此處不再贅述。

      自建代理在建立成功以后,都是可用的,生命周期較長,而商業(yè)購買的代理,在購買后,并不能保證所有購買的代理都是可用的,并且購買的代理的生命周期也不同,因此,在這里將自建代理與商業(yè)購買的代理進(jìn)行分開運(yùn)維,能夠減少運(yùn)維的復(fù)雜度。

      s102,更新待更新代理的代理信息,并更新待更新代理到代理池。

      具體地,在步驟s101中得到待更新代理的代理信息后,首先更新本發(fā)明實(shí)施例的待更新代理的代理信息,然后發(fā)送更新指令到代理池,更新代理池中的該待更新代理。

      需要說明的是,代理池為保存有各個(gè)代理的代理信息的表項(xiàng)或集合。

      本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法,通過在有待更新代理時(shí),及時(shí)更新待更新代理的代理信息,并更新待更新代理到代理池,保證代理池中的代理都是可用代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。

      具體地,本發(fā)明實(shí)施例的一種管理爬蟲代理的方法,可以應(yīng)用于代理注冊(cè)中心,該代理注冊(cè)中心用于維護(hù)和管理代理池,具體地,該代理注冊(cè)中心可以使用zookeeper集群構(gòu)建。為了更好的說明本發(fā)明實(shí)施例,下面將以代理注冊(cè)中心為例進(jìn)行說明。

      在第一種實(shí)施方式中,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令,那么,在待更新代理的指令為待新增代理的指令時(shí),可以通過圖2所示的實(shí)施方式進(jìn)行管理,如圖2所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第二種實(shí)施方式的流程圖;該方法可以包括:

      s201,獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

      在該待新增代理為自建代理時(shí),自建代理集群發(fā)送攜帶有該自建代理信息的更新指令,具體地,該待新增代理的指令中包含有該待新增代理的代理信息,因此,代理注冊(cè)中心可以獲取到該待新增代理的代理信息。

      s202,添加待新增代理的代理信息,并添加待新增代理到代理池。

      在代理注冊(cè)中心獲取到該待新增代理的代理信息后,將該待新增代理的代理信息注冊(cè)到代理注冊(cè)中心,具體地,注冊(cè)到代理注冊(cè)中心的方法為:將該待新增代理的代理信息添加到代理注冊(cè)中心相應(yīng)的路徑下。在注冊(cè)成功后,發(fā)送攜帶有該待新增代理的代理信息的更新指令給代理改變觸發(fā)進(jìn)程,該進(jìn)程用于發(fā)送攜帶有該待新增代理的代理信息的添加指令給代理池,將該待新增代理的代理信息也添加到代理池中。

      通過本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法,能夠及時(shí)得到待新增的代理,并將該待新增代理添加到代理池,能夠使得進(jìn)程在使用代理池中的代理采集信息時(shí),能夠及時(shí)得到最新的代理,從而消除代理的改變對(duì)進(jìn)程采集信息的影響。

      由于自建代理在注冊(cè)時(shí)都是可以使用的,因此,在該待新增代理為自建代理時(shí),可以使用上述實(shí)施方式。為了保證添加到代理池中的代理都是可用的,消除代理的改變對(duì)進(jìn)程采集信息的影響,下面,介紹本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法的第三種實(shí)施方式,如圖3所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第三種實(shí)施方式的流程圖,該方法可以包括:

      s301,獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

      s302,根據(jù)待新增代理的代理信息,向待新增代理發(fā)送下載第一指定內(nèi)容的第一下載指令;

      s303,在待新增代理根據(jù)第一下載指令成功下載第一指定內(nèi)容時(shí),則待新增代理為可用代理;

      s304,在待新增代理為可用代理時(shí),添加可用代理的代理信息,并添加可用代理到代理池。

      需要說明的是,該第一指定內(nèi)容為在檢查該待新增代理是否為可用代理時(shí),選擇的內(nèi)容,可以包括:網(wǎng)頁、信息、視頻等內(nèi)容。

      通過本發(fā)明實(shí)施例,能夠保證添加到代理池中的商用代理都是可以使用的代理,進(jìn)一步消除代理的改變對(duì)進(jìn)程采集信息的影響。

      在第一種實(shí)施方式中,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令,那么,在待更新代理的指令為待刪除代理的指令時(shí),可以通過圖4所示的實(shí)施方式進(jìn)行管理,如圖4所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第四種實(shí)施方式的流程圖;該方法可以包括:

      s401,獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

      s402,刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

      需要說明的是,該待刪除代理的指令可以來自于自建代理集群、商業(yè)購買的代理集群或者代理池。

      具體地,這里以代理注冊(cè)中心為例進(jìn)行說明,在代理注冊(cè)中心獲取到該待刪除代理的代理信息后,將該待刪除代理的代理信息從代理注冊(cè)中心刪除,具體地,刪除的方法為:從代理注冊(cè)中心的相應(yīng)路徑下刪除該待刪除代理。在代理注冊(cè)中心刪除后,發(fā)送攜帶有該待刪除代理的代理信息的更新指令給代理改變觸發(fā)進(jìn)程,該進(jìn)程用于發(fā)送攜帶有該待刪除代理的代理信息的添加指令給代理池,將該待刪除代理的代理信息從代理池中刪除。

      通過本發(fā)明實(shí)施例提供的一種管理爬蟲代理的方法,能夠及時(shí)得到待刪除的代理,并將該待刪除代理從代理池中刪除,能夠使得進(jìn)程在使用代理池中的代理采集信息時(shí),不使用該待刪除的代理,從而消除代理的改變對(duì)進(jìn)程采集信息的影響。

      具體地,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息之前,本發(fā)明實(shí)施例的管理爬蟲代理的方法還包括:

      周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

      在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理。

      需要說明的是,該第二指定內(nèi)容為在檢查第一代理是否為待刪除代理時(shí)選擇的內(nèi)容,可以包括:網(wǎng)頁、信息、視頻等內(nèi)容。為了降低實(shí)施本發(fā)明實(shí)施例的難度,該第二指定內(nèi)容可以與第一指定內(nèi)容相同。

      應(yīng)當(dāng)理解的是,獲取代理池中第一代理的代理信息的周期是根據(jù)實(shí)際需要進(jìn)行設(shè)置的。

      通過本發(fā)明實(shí)施例,能夠及時(shí)刪除代理池中的不可用代理,保證代理池中的代理都是可以使用的代理,進(jìn)一步消除代理的改變對(duì)進(jìn)程采集信息的影響。

      需要說明的是,在該待更新代理的指令為待新增代理的指令和待刪除代理的指令時(shí),可以同時(shí)通過上述的實(shí)施方式來實(shí)現(xiàn),可以相互參考,這里不再贅述。

      另外,本發(fā)明實(shí)施例還提供了一種管理爬蟲代理的方法,如圖5所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的方法的第五種實(shí)施方式的流程圖,該方法可以包括:

      s501,獲取并根據(jù)攜帶有待新增代理的指令,得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

      s502,添加待新增代理的代理信息,并添加待新增代理到代理池;

      s503,周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

      s504,在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理;

      s505,獲取并根據(jù)攜帶有待刪除代理的指令,得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

      s506,刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

      相應(yīng)于上述方法實(shí)施例,本發(fā)明實(shí)施例提供了一種管理爬蟲代理的裝置,如圖6所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的裝置的結(jié)構(gòu)圖,該裝置可以包括:

      獲取模塊601,用于獲取并根據(jù)攜帶有待更新代理的指令,得到待更新代理的代理信息,其中,待更新代理的代理信息至少包括:待更新代理的ip地址、待更新代理的名稱及待更新代理的端口,待更新代理的指令為待新增代理的指令和/或待刪除代理的指令;

      更新模塊602,用于更新待更新代理的代理信息,并更新待更新代理到代理池。

      本發(fā)明實(shí)施例提供的一種管理爬蟲代理的裝置,通過在有待更新代理時(shí),及時(shí)更新待更新代理的代理信息,并更新待更新代理到代理池,保證代理池中的代理都是可用代理,消除代理的改變對(duì)進(jìn)程采集信息的影響。

      具體地,所述獲取模塊601,具體用于:

      獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息,其中,待新增代理的代理信息至少包括:待新增代理的ip地址、待新增代理的名稱及待新增代理的端口;

      相應(yīng)的,所述更新模塊602,具體用于:

      添加待新增代理的代理信息,并添加待新增代理到代理池。

      具體地,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待新增代理的指令時(shí),得到待新增代理的代理信息之后,本發(fā)明實(shí)施例的管理爬蟲代理的裝置還包括:

      健康檢查模塊,用于根據(jù)待新增代理的代理信息,向待新增代理發(fā)送下載第一指定內(nèi)容的第一下載指令;

      在待新增代理根據(jù)第一下載指令成功下載第一指定內(nèi)容時(shí),則待新增代理為可用代理;

      相應(yīng)的,所述更新模塊602,還具體用于:

      在待新增代理為可用代理時(shí),添加可用代理的代理信息,并添加可用代理到代理池。

      具體地,所述獲取模塊601,還具體用于:

      獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息,其中,待刪除代理的代理信息至少包括:待刪除代理的ip地址、待刪除代理的名稱及待刪除代理的端口;

      相應(yīng)的,所述更新模塊602,還具體用于:

      刪除待刪除代理的代理信息,并刪除代理池中的待刪除代理。

      具體地,在所述獲取并根據(jù)攜帶有待更新代理的指令,在待更新代理的指令為待刪除代理的指令時(shí),得到待刪除代理的代理信息之前,本發(fā)明實(shí)施例的管理爬蟲代理的裝置還包括:

      待刪除代理檢查模塊,用于周期性的獲取代理池中第一代理的代理信息,并根據(jù)第一代理的代理信息,向第一代理發(fā)送下載第二指定內(nèi)容的第二下載指令,其中,第一代理為代理池中的任一個(gè)代理;

      在第一代理根據(jù)第二下載指令不能下載第二指定內(nèi)容時(shí),則該第一代理為待刪除代理。

      如圖7所示,為本發(fā)明實(shí)施例的一種管理爬蟲代理的裝置的應(yīng)用系統(tǒng)圖,該系統(tǒng)可以包括:

      代理模塊701、代理注冊(cè)中心702、健康檢查模塊703、待刪除代理檢查模塊704、代理改變觸發(fā)模塊705、代理更新模塊706,代理池707,其中代理注冊(cè)中心702包括:獲取模塊601和更新模塊602。

      代理注冊(cè)中心702用于獲取代理模塊701中的自建代理,或者獲取代理模塊701中商業(yè)購買的代理,或者獲取代理池707中的待刪除代理;在代理注冊(cè)中心702獲取代理模塊701中商業(yè)購買的代理時(shí),為了保證添加到代理池707中的新增代理都是可用代理,通過健康檢查模塊703對(duì)商業(yè)購買的代理進(jìn)行檢查,只有在商業(yè)購買的代理是可用代理時(shí),才將該商業(yè)購買的代理添加到代理池707中。

      具體的添加方式為:代理注冊(cè)中心702中的更新模塊602根據(jù)獲取模塊601獲取的待添加代理的代理信息,添加該待添加代理的代理信息到代理注冊(cè)中心702中,并發(fā)送該待添加代理的代理信息到代理改變觸發(fā)模塊705,代理改變觸發(fā)模塊705產(chǎn)生并發(fā)送攜帶有該待添加代理的代理信息的添加指令到代理更新模塊706,代理更新模塊706根據(jù)該添加指令將該待添加代理的代理信息添加到代理池707中。

      在將代理模塊701中的代理添加到代理池707中后,待刪除代理檢查模塊704會(huì)周期性的檢查代理池707中是否有待刪除代理,在代理池707中有待刪除代理時(shí),代理注冊(cè)中心702中的更新模塊602刪除代理注冊(cè)中心702中的該待刪除代理的代理信息,并發(fā)送該待刪除代理的代理信息給代理改變觸發(fā)模塊705,代理改變觸發(fā)模塊705產(chǎn)生并發(fā)送攜帶有該待刪除代理的代理信息的刪除指令給代理更新模塊706,代理更新模塊706根據(jù)該刪除指令將該待刪除代理的代理信息從代理池707中刪除。

      需要說明的是,本發(fā)明實(shí)施例的裝置是應(yīng)用上述管理爬蟲代理的方法的裝置,則上述管理爬蟲代理的方法的所有實(shí)施例均適用于該裝置,且均能達(dá)到相同或相似的有益效果。

      通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺(tái)服務(wù)端設(shè)備(可以是計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。

      需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

      本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

      以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1