国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      網(wǎng)站數(shù)據(jù)獲取方法、裝置及系統(tǒng)與流程

      文檔序號:11064779閱讀:382來源:國知局
      網(wǎng)站數(shù)據(jù)獲取方法、裝置及系統(tǒng)與制造工藝

      本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其是一種網(wǎng)站數(shù)據(jù)獲取方法、裝置及系統(tǒng)。



      背景技術(shù):

      隨著信息技術(shù)的不斷發(fā)展,越來越多的網(wǎng)站隨之出現(xiàn)。其中,一些企業(yè)為了對企業(yè)所在內(nèi)部網(wǎng)站情況進行分析,通常會委托其他企業(yè)獲取企業(yè)內(nèi)網(wǎng)網(wǎng)站的相關(guān)數(shù)據(jù)。目前,服務企業(yè)主要通過部署在被服務企業(yè)的爬蟲程序,獲取被服務企業(yè)對應的內(nèi)網(wǎng)網(wǎng)站數(shù)據(jù)。然而,由于爬蟲的代碼量較大,爬蟲在爬取被服務企業(yè)的內(nèi)網(wǎng)網(wǎng)站數(shù)據(jù)時會消耗大量的服務器資源,因此被服務企業(yè)的通常會對爬蟲進行限制和屏蔽,造成爬蟲無法獲取內(nèi)網(wǎng)網(wǎng)站數(shù)據(jù)。為了解決上述問題,爬蟲主要通過代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,代理服務器主要用于爬取受限的網(wǎng)站資源,即當爬蟲獲取到網(wǎng)站數(shù)據(jù)獲取請求后,將網(wǎng)站數(shù)據(jù)獲取請求直接轉(zhuǎn)發(fā)給代理服務器,由代理服務器獲取被服務器企業(yè)的網(wǎng)站數(shù)據(jù)。

      目前,在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)。然而,由于代理服務器通常會被安裝后門、捆綁流氓軟件等,代理服務器接收的網(wǎng)站數(shù)據(jù)獲取請求可能是后門、捆綁流氓軟件發(fā)送的,造成網(wǎng)站數(shù)據(jù)被后門或者流氓軟件竊取,從而導致網(wǎng)站數(shù)據(jù)的安全性較低。



      技術(shù)實現(xiàn)要素:

      鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)站數(shù)據(jù)獲取方法、裝置及系統(tǒng)。

      依據(jù)本發(fā)明一方面,本發(fā)明實施例提供一種網(wǎng)站數(shù)據(jù)獲取方法,包括:

      向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;

      當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      依據(jù)本發(fā)明另一方面,本發(fā)明實施例提供另一種網(wǎng)站數(shù)據(jù)獲取方法,包括:

      接收爬蟲服務器發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息;

      對所述授權(quán)信息進行驗證;

      當所述授權(quán)信息通過驗證時,獲取與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù);

      將所述網(wǎng)站數(shù)據(jù)發(fā)送給所述爬蟲服務器。

      依據(jù)本發(fā)明又一方面,本發(fā)明實施例提供一種爬蟲服務器,包括:

      發(fā)送單元,用于向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;

      接收單元,用于當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      依據(jù)本發(fā)明再一方面,本發(fā)明實施例提供一種代理服務器,包括:

      接收單元,用于接收爬蟲服務器發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息;

      驗證單元,用于對所述授權(quán)信息進行驗證;

      獲取單元,用于當所述授權(quán)信息通過驗證時,獲取與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù);

      發(fā)送單元,用于將所述網(wǎng)站數(shù)據(jù)發(fā)送給所述爬蟲服務器。

      依據(jù)本發(fā)明又再一方面,本發(fā)明實施例提供一種網(wǎng)站數(shù)據(jù)獲取方法系統(tǒng),包括:爬蟲服務器和代理服務器,

      所述爬蟲服務器,用于向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;

      所述代理服務器,用于對所述授權(quán)信息進行驗證,當所述授權(quán)信息通過驗證時,獲取與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù),將所述網(wǎng)站數(shù)據(jù)發(fā)送給所述爬蟲服務器。

      所述爬蟲服務器,還用于當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      借由上述技術(shù)方案,本發(fā)明提供的一種網(wǎng)站數(shù)據(jù)獲取方法、裝置及系統(tǒng)。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      附圖說明

      通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:

      圖1示出了本發(fā)明實施例提供的一種網(wǎng)站數(shù)據(jù)獲取方法的流程圖;

      圖2示出了本發(fā)明實施例提供的另一種網(wǎng)站數(shù)據(jù)獲取方法的流程圖;

      圖3示出了本發(fā)明實施例提供的又一種網(wǎng)站數(shù)據(jù)獲取方法的流程圖;

      圖4示出了本發(fā)明實施例提供的再一種網(wǎng)站數(shù)據(jù)獲取方法的流程圖;

      圖5示出了本發(fā)明實施例提供的一種爬蟲服務器的結(jié)構(gòu)示意圖;

      圖6示出了本發(fā)明實施例提供的另一種爬蟲服務器的結(jié)構(gòu)示意圖;

      圖7示出了本發(fā)明實施例提供的一種代理服務器的結(jié)構(gòu)示意圖;

      圖8示出了本發(fā)明實施例提供的另一種代理服務器的結(jié)構(gòu)示意圖;

      圖9示出了本發(fā)明實施例提供的一種網(wǎng)站數(shù)據(jù)獲取方法系統(tǒng)的結(jié)構(gòu)示意圖。

      具體實施方式

      下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。

      本發(fā)明實施例提供了一種網(wǎng)站數(shù)據(jù)獲取方法,如圖1所示,所述方法包括:

      101、向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求。

      進一步地,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取。其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證。所述網(wǎng)站數(shù)據(jù)獲取請求可以為當用戶點擊或者觸發(fā)爬蟲按鈕時后,向爬蟲服務器發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求,也可以為爬蟲服務器按照預置時間間隔從數(shù)據(jù)庫中獲取的網(wǎng)站數(shù)據(jù)獲取請求。其中,所述網(wǎng)站的標識信息可以為網(wǎng)站的統(tǒng)一資源定位符(Uniform Resource Locators,URL)等。授權(quán)信息可以為需要爬取的網(wǎng)站對應的登陸用戶名和密碼,也可以為需要爬取的網(wǎng)站對應的開發(fā)公司的名稱,或者服務企業(yè)與被服務企業(yè)之間約定的信息,本發(fā)明實施例不做限定。

      對于本發(fā)明實施例,步驟101具體可以:向代理服務器轉(zhuǎn)發(fā)從數(shù)據(jù)庫中獲取的網(wǎng)站數(shù)據(jù)獲取請求或者用戶發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求。

      102、當授權(quán)信息通過驗證時,接收代理服務器發(fā)送的與網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      對于本發(fā)明實施例,當代理服務器接收到網(wǎng)站數(shù)據(jù)獲取請求時,會先對網(wǎng)站數(shù)據(jù)獲取請求中的授權(quán)信息進行驗證,只有授權(quán)信息通過驗證,才說明代理服務器接收的網(wǎng)站數(shù)據(jù)獲取請求為合法的,則根據(jù)該網(wǎng)站數(shù)據(jù)獲取請求中的網(wǎng)站的標識信息進行網(wǎng)站數(shù)據(jù)的獲取。爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,使得代理服務器對爬蟲服務 器進行驗證。當授權(quán)信息通過驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      本發(fā)明實施例提供的一種網(wǎng)站數(shù)據(jù)獲取方法。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      本發(fā)明實施例提供了另一種網(wǎng)站數(shù)據(jù)獲取方法,如圖2所示,所述方法包括:

      201、判斷預置存儲位置中是否存在與網(wǎng)站的標識信息對應的代理服務器。

      其中,所述預置存儲位置保存有不同網(wǎng)站的標識信息、以及與所述標識信息對應的代理服務器。所述網(wǎng)站的標識信息可以為網(wǎng)站的URL等。

      202、若預置存儲位置中存在與網(wǎng)站的標識信息對應的代理服務器,則向與網(wǎng)站的標識信息對應的代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求。

      進一步地,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取。其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證。

      對于本發(fā)明實施例,當存在與網(wǎng)站的標識信息對應的代理服務器時,說明在被服務企業(yè)中已經(jīng)部署有代理服務器。此時可以將爬蟲服務器獲取的網(wǎng)站數(shù)據(jù)獲取請求轉(zhuǎn)發(fā)給代理服務器,可以通過代理服務器獲取網(wǎng)站數(shù)據(jù)。

      203、當授權(quán)信息通過驗證時,接收代理服務器發(fā)送的與網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      對于本發(fā)明實施例,當代理服務器接收到網(wǎng)站數(shù)據(jù)獲取請求會先對網(wǎng)站數(shù)據(jù)獲取請求中的授權(quán)信息進行驗證,只有授權(quán)信息通過驗證,才說明代理服務器接收的網(wǎng)站數(shù)據(jù)獲取請求為合法的,則根據(jù)該網(wǎng)站數(shù)據(jù)獲取請求中的網(wǎng)站的標識信息進行網(wǎng)站數(shù)據(jù)的獲取。爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,當代理服務器驗證授權(quán)信息通過時,再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      204、將網(wǎng)站數(shù)據(jù)進行保存。

      對于本發(fā)明實施例,通過將所述網(wǎng)站數(shù)據(jù)進行保存,能夠方便被服務的企業(yè)根據(jù)爬取的網(wǎng)站數(shù)據(jù)進行業(yè)務分析等。

      本發(fā)明實施例提供的另一種網(wǎng)站數(shù)據(jù)獲取方法。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      本發(fā)明實施例提供了又一種網(wǎng)站數(shù)據(jù)獲取方法,如圖3所示,所述方法包括:

      301、接收爬蟲服務器發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求。

      其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證。所述網(wǎng)站的標 識信息可以為網(wǎng)站的URL等。其中,所述網(wǎng)站數(shù)據(jù)獲取請求可以為當用戶點擊或者觸發(fā)爬蟲按鈕時后,向爬蟲服務器發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求,也可以為爬蟲服務器按照預置時間間隔從數(shù)據(jù)庫中獲取的網(wǎng)站數(shù)據(jù)獲取請求。授權(quán)信息可以為需要爬取的網(wǎng)站對應得登陸用戶名和密碼,也可以為需要爬取的網(wǎng)站對應的開發(fā)公司的名稱,或者服務企業(yè)與被服務企業(yè)之間約定的信息,本發(fā)明實施例不做限定。

      對于本發(fā)明實施例,步驟301具體可以:當爬蟲服務器獲取到網(wǎng)頁數(shù)據(jù)獲取指令時,接收爬蟲服務器發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求。

      302、對授權(quán)信息進行驗證。

      對于本發(fā)明實施例,步驟302具體可以為:判斷所述授權(quán)信息與預先設(shè)置的授權(quán)信息相匹配,當授權(quán)信息與預先設(shè)置的授權(quán)信息相匹配時,授權(quán)信息通過驗證。

      303、當授權(quán)信息通過驗證時,獲取與網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      對于本發(fā)明實施例,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      304、將網(wǎng)站數(shù)據(jù)發(fā)送給爬蟲服務器。

      本發(fā)明實施例提供的又一種網(wǎng)站數(shù)據(jù)獲取方法。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      本發(fā)明實施例提供了又一種網(wǎng)站數(shù)據(jù)獲取方法,如圖4所示,所述方 法包括:

      401、當爬蟲服務器判斷預置存儲位置中存在與網(wǎng)站的標識信息對應的代理服務器時,接收爬蟲服務器發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求。

      其中,所述預置存儲位置保存有不同網(wǎng)頁的標識信息、以及與所述標識信息對應的爬蟲代理器,所述網(wǎng)站數(shù)據(jù)獲取請求包括所述網(wǎng)站的標識信息。對于本發(fā)明實施例,當爬蟲服務器判斷預置存儲位置中存在與網(wǎng)站的標識信息對應的代理服務器時,說明當前的代理服務器為網(wǎng)站數(shù)據(jù)獲取請求對應的代理服務器。

      402、對授權(quán)信息進行驗證。

      403、當授權(quán)信息通過驗證時,獲取與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      對于本發(fā)明實施例,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      404、將網(wǎng)站數(shù)據(jù)發(fā)送給爬蟲服務器。

      本發(fā)明實施例提供的又一種網(wǎng)站數(shù)據(jù)獲取方法。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      進一步地,作為圖1所示方法的具體實現(xiàn),本發(fā)明實施例提供了一種爬蟲服務器,如圖5所示,所述方法包括:發(fā)送單元51、接收單元52。

      發(fā)送單元51,用于向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求。

      進一步地,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證。

      接收單元52,用于當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      本發(fā)明實施例提供的一種爬蟲服務器。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      進一步地,作為圖2所示方法的具體實現(xiàn),本發(fā)明實施例提供了另一種爬蟲服務器,如圖6所示,所述方法包括:發(fā)送單元61、接收單元62。

      發(fā)送單元61,用于向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求。

      進一地,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證。

      接收單元62,用于當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      所述裝置還包括:判斷單元63。

      所述判斷單元63,用于判斷預置存儲位置中是否存在與所述網(wǎng)站的標識信息對應的代理服務器,其中,所述預置存儲位置保存有不同網(wǎng)站的標識信息、以及與所述標識信息對應的代理服務器。

      所述發(fā)送單元61,具體用于若所述判斷單元63判斷預置存儲位置中是 否存在與所述網(wǎng)站的標識信息對應的代理服務器,則向與所述網(wǎng)站的標識信息對應的代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求。

      所述裝置還包括:保存單元64。

      所述保存單元64,用于將所述網(wǎng)站數(shù)據(jù)進行保存。

      本發(fā)明實施例提供的另一種爬蟲服務器。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      進一步地,作為圖3所示方法的具體實現(xiàn),本發(fā)明實施例提供了一種代理服務器,如圖7所示,所述方法包括:接收單元71、驗證單元72、接獲取單元73、發(fā)送單元74。

      接收單元71,用于接收爬蟲服務器發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息。

      驗證單元72,用于對所述授權(quán)信息進行驗證。

      獲取單元73,用于當所述授權(quán)信息通過驗證時,獲取與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      發(fā)送單元74,用于將所述網(wǎng)站數(shù)據(jù)發(fā)送給所述爬蟲服務器。

      本發(fā)明實施例提供的一種代理服務器。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在 爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      進一步地,作為圖4所示方法的具體實現(xiàn),本發(fā)明實施例提供了一種代理服務器,如圖8所示,所述方法包括:接收單元81、驗證單元82、接獲取單元83、發(fā)送單元84。

      接收單元81,用于接收爬蟲服務器發(fā)送的網(wǎng)站數(shù)據(jù)獲取請求,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息。

      驗證單元82,用于對所述授權(quán)信息進行驗證。

      獲取單元83,用于當所述授權(quán)信息通過驗證時,獲取與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      發(fā)送單元84,用于將所述網(wǎng)站數(shù)據(jù)發(fā)送給所述爬蟲服務器。

      所述接收單元81,具體用于當所述爬蟲服務器判斷預置存儲位置中存在與所述網(wǎng)站的標識信息對應的代理服務器時,接收所述爬蟲服務器發(fā)送的授權(quán)信息,其中,所述預置存儲位置保存有不同網(wǎng)頁的標識信息、以及與所述標識信息對應的代理服務器。

      本發(fā)明實施例提供的另一種代理服務器。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站 數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      本發(fā)明實施例提供了一種網(wǎng)站數(shù)據(jù)獲取系統(tǒng),如圖9所示,所述方法包括:爬蟲服務器91和代理服務器92,

      所述爬蟲服務器91,用于向代理服務器92發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器92對爬蟲服務器91進行驗證。

      所述代理服務器92,用于對所述授權(quán)信息進行驗證,當所述授權(quán)信息通過驗證時,獲取與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù),將所述網(wǎng)站數(shù)據(jù)發(fā)送給所述爬蟲服務器91。

      所述爬蟲服務器92,還用于當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      本發(fā)明實施例提供的一種網(wǎng)站數(shù)據(jù)獲取系統(tǒng)。首先向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。與目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器通常在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù)相比,本發(fā)明實施例爬蟲服務器在向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求時加入授權(quán)信息,以指示所述代理服務器對爬蟲服務器進行驗證,當授權(quán)信息通過代理服務器驗證時,代理服務器再獲取網(wǎng)站數(shù)據(jù),能夠避免代理服務器被后門或者流氓軟件利用,從而能夠避免被服務企業(yè)的網(wǎng)站數(shù)據(jù)被竊取,進而能夠提高網(wǎng)站數(shù)據(jù)的安全性。

      所述爬蟲服務器和代理服務器包括處理器和存儲器,上述發(fā)送單元、接收單元、保存單元、驗證單元和獲取單元等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應的功能。

      處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)來解決目前在爬取網(wǎng)站數(shù)據(jù)時,代理服務器在接收網(wǎng)站數(shù)據(jù)獲取請求后,直接獲取網(wǎng)站數(shù)據(jù),網(wǎng)站數(shù)據(jù)的安全性較低的問題。

      存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。

      本申請還提供了一種計算機程序產(chǎn)品,當在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:

      向代理服務器發(fā)送網(wǎng)站數(shù)據(jù)獲取請求,以使得所述代理服務器進行網(wǎng)站數(shù)據(jù)獲取,其中,所述網(wǎng)站數(shù)據(jù)獲取請求包括網(wǎng)站的標識信息和授權(quán)信息,所述授權(quán)信息用于指示所述代理服務器對爬蟲服務器進行驗證;

      當所述授權(quán)信息通過驗證時,接收所述代理服務器發(fā)送的與所述網(wǎng)站的標識信息對應的網(wǎng)站數(shù)據(jù)。

      本領(lǐng)域內(nèi)的技術(shù)人員應明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。

      本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

      這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

      這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備 上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

      在一個典型的配置中,計算設(shè)備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡接口和內(nèi)存。

      存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。存儲器是計算機可讀介質(zhì)的示例。

      計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。

      以上僅為本申請的實施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應包含在本申請的權(quán)利要求范圍之內(nèi)。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1