国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      Url信息獲取方法和裝置及搜索引擎實(shí)現(xiàn)方法及系統(tǒng)的制作方法

      文檔序號(hào):6469905閱讀:261來源:國知局
      專利名稱:Url信息獲取方法和裝置及搜索引擎實(shí)現(xiàn)方法及系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及通信網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種URL信息獲取方法和URL 信息獲取裝置, 一種交換路由設(shè)備, 一種鏡像設(shè)備,以及一種搜索引擎實(shí)現(xiàn) 方法及搜索引擎實(shí)現(xiàn)系統(tǒng)。
      背景技術(shù)
      隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,搜索引擎已經(jīng)成為人們獲取信息的重要方式, 如Google 、 Baidu等。
      現(xiàn)有的搜索引擎都是基于一種可以被通稱為網(wǎng)絡(luò)爬蟲(Crawler)的 技術(shù)實(shí)現(xiàn)的,比如Google的googlebot就是一種網(wǎng)絡(luò)爬蟲程序。這些搜 索引擎的實(shí)現(xiàn)原理為
      搜索引擎定期(比如一個(gè)月)執(zhí)行其網(wǎng)絡(luò)爬蟲程序,從作為搜索樹 根的指定初始URL (Uniform Resource Locator,統(tǒng)一資源定位符)列表 幵始訪問這些URL定位的網(wǎng)頁資源,獲取網(wǎng)頁信息(比如,標(biāo)題、描述 HTML網(wǎng)頁文檔屬性的Meta標(biāo)簽等)并從這些信息中提取關(guān)鍵詞添加到 搜索使用的數(shù)據(jù)庫中,以及從這些信息中提取指向網(wǎng)頁資源的URL并將 這些新提取的URL作為起點(diǎn)開始新一輪的訪問處理,從而通過這種訪問 處理的循環(huán)得到一個(gè)定期更新的、綜合性的搜索數(shù)據(jù)庫;
      以及,搜索引擎會(huì)對(duì)循環(huán)獲得的信息數(shù)據(jù)進(jìn)行分析整理,按照各自 的排序方法對(duì)搜索數(shù)據(jù)庫中的網(wǎng)頁資源按照關(guān)鍵詞進(jìn)行排序;該排序方 法具有多樣性,有技術(shù)類的排序方法,如Google的pagemnk,有商業(yè)類 的排序方法,如Baidu的競價(jià)排名,等等;
      這樣,當(dāng)用戶向搜索引擎提供其感興趣的關(guān)鍵字后,搜索引擎就會(huì) 檢索自己的搜索數(shù)據(jù)庫,按照自己的排名順序向用戶返回搜索結(jié)果,完 成一次搜索過程。
      需要指出,在每一次執(zhí)行網(wǎng)絡(luò)爬蟲程序時(shí),互聯(lián)網(wǎng)的高度連通會(huì)導(dǎo)
      致訪問處理新提取URL的循環(huán)會(huì)無休止的進(jìn)行下去,為了避免這一情況, 搜索引擎會(huì)通過一定的算法,比如搜索的深度限制等,來結(jié)束網(wǎng)絡(luò)爬蟲 程序的一次循環(huán);
      同時(shí),為了規(guī)避隱私問題,目前的網(wǎng)絡(luò)爬蟲技術(shù)大多遵循"機(jī)器人 排除協(xié)議(The Robots Exclusion Protocol)",即站點(diǎn)根目錄部署有robot.txt 文件,對(duì)允許訪問的網(wǎng)絡(luò)爬蟲類型、可以訪問的目錄、不可以訪問的目 錄等做了詳細(xì)的約定,網(wǎng)絡(luò)爬蟲通過robots.txt文件抓取相應(yīng)站點(diǎn)可以被 訪問的內(nèi)容。
      上述利用網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)的搜索引擎技術(shù)存在以下缺陷 難以支持對(duì)動(dòng)態(tài)網(wǎng)頁URL的搜索隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,以數(shù)據(jù)
      庫技術(shù)為基礎(chǔ)的動(dòng)態(tài)網(wǎng)頁,由于可以有效降低站點(diǎn)維護(hù)工作量、減少維
      護(hù)成本以及提高數(shù)據(jù)更新的及時(shí)性,因此得到了越來越廣泛的使用;但 由于動(dòng)態(tài)網(wǎng)頁并不是獨(dú)立存在于站點(diǎn)服務(wù)器的網(wǎng)頁文件,而是在用戶請(qǐng) 求時(shí)由服務(wù)器動(dòng)態(tài)生成的,也就是說動(dòng)態(tài)網(wǎng)頁的URL并不存在,因此難 以被利用網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)的搜索引擎所收錄;
      占用了大量的網(wǎng)絡(luò)帶寬由于利用網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)的搜索引擎需要通 過大量的互聯(lián)網(wǎng)訪問來獲得網(wǎng)頁信息,這無疑占用了大量的互聯(lián)網(wǎng)帶寬;
      搜索結(jié)果的實(shí)用性低利用網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)的搜索引擎只能根據(jù)互聯(lián) 網(wǎng)中靜態(tài)存在的資源來獲得信息,也只能根據(jù)這些信息之間的靜態(tài)關(guān)系 決定哪些資源更重要或者哪些資源不重要,由于靜態(tài)存在的資源往往與 實(shí)際被使用的資源存在較大的差異性,因此這樣獲得的搜索結(jié)果實(shí)用性 很低;
      搜索結(jié)果的時(shí)效性低由于現(xiàn)有的搜索引擎是通過定期執(zhí)行網(wǎng)絡(luò)爬 蟲程序的方式進(jìn)行搜索數(shù)據(jù)庫的更新,因此搜索到的信息往往存在明顯 滯后;雖然對(duì)于網(wǎng)絡(luò)中的熱點(diǎn)信息,搜索引擎可以通過加大爬蟲搜索頻 度的方式來縮短信息更新時(shí)間,但基于網(wǎng)絡(luò)占用和成本等問題,是不可 能對(duì)所有的信息都進(jìn)行類似處理的
      發(fā)明內(nèi)容
      本發(fā)明的實(shí)施例的一個(gè)目的在于提供一種URL信息獲取方案,以實(shí)現(xiàn) 對(duì)包含動(dòng)態(tài)網(wǎng)頁信息在內(nèi)的URL信息的獲取。
      本發(fā)明的實(shí)施例的另 一個(gè)目的在于提供一種搜索弓I擎實(shí)現(xiàn)方案,取代現(xiàn) 有的網(wǎng)絡(luò)爬蟲技術(shù),不但支持對(duì)于動(dòng)態(tài)網(wǎng)頁的搜索,同時(shí)提高搜索的實(shí)用性 和實(shí)效性,以及不占用網(wǎng)絡(luò)帶寬。
      為實(shí)現(xiàn)上述第一個(gè)目的,本發(fā)明的實(shí)施例提供了一種URL信息獲取方 法,在一客戶端與一站點(diǎn)服務(wù)器建立通信連接后,對(duì)雙方之間的每一會(huì)話執(zhí) 行以下步驟
      步驟SA1:第三方設(shè)備解析客戶端向站點(diǎn)服務(wù)器發(fā)送的通信報(bào)文, 提取并記錄客戶端所請(qǐng)求的URL鏈接;
      步驟SA2:第三方設(shè)備解析站點(diǎn)服務(wù)器向客戶端返回的通信報(bào)文,按照
      預(yù)設(shè)的策略提取并記錄該URL鏈接對(duì)應(yīng)的鏈接內(nèi)容信息。
      為實(shí)現(xiàn)上述第一個(gè)目的,本發(fā)明的實(shí)施例還提供了一種URL信息獲 取裝置,包括解析單元,用于解析建立通信連接的一客戶端與一站點(diǎn)服 務(wù)器之間交互的通信報(bào)文;URL鏈接提取單元,與該解析單元連接,用于 提取客戶端所請(qǐng)求的URL鏈接;鏈接內(nèi)容信息提取單元,與該解析單元 連接,用于按照預(yù)設(shè)的策略提取該URL鏈接對(duì)應(yīng)的鏈接內(nèi)容信息;記錄 單元,分別與該URL鏈接提取單元和鏈接內(nèi)容信息提取單元連接,用于 記錄雙方每一會(huì)話的URL鏈接及相應(yīng)的鏈接內(nèi)容信息。
      為實(shí)現(xiàn)上述第一個(gè)目的,本發(fā)明的實(shí)施例還提供了一種交換路由設(shè) 備,用于為客戶端和站點(diǎn)服務(wù)器提供交換路由服務(wù);該交換路由設(shè)備設(shè) 有如上所述的URL信息獲取裝置。
      為實(shí)現(xiàn)上述第一個(gè)目的,本發(fā)明的實(shí)施例還提供了一種鏡像設(shè)備,用 于對(duì)至少一交換路由設(shè)備進(jìn)行流量鏡像,任一交換路由設(shè)備為客戶端和 站點(diǎn)服務(wù)器提供交換路由服務(wù);該鏡像設(shè)備設(shè)有如上所述的URL信息獲 取裝置。
      為了實(shí)現(xiàn)上述另一目的,本發(fā)明的實(shí)施例提供了一種搜索引擎實(shí)現(xiàn) 方法,包括以下步驟
      步驟SB1:第三方設(shè)備根據(jù)如上所述的URL信息獲取方法獲取客戶
      端訪問的URL鏈接及相應(yīng)的鏈接內(nèi)容信息;
      步驟SB2:第三方設(shè)備訪問該URL鏈接的站點(diǎn)服務(wù)器,識(shí)別獲取的 鏈接內(nèi)容信息是否允許被搜索引擎采集;
      步驟SB3:保留允許被搜索引擎采集的鏈接內(nèi)容信息,并在該次通 信連接釋放后,將該URL鏈接及相應(yīng)的鏈接內(nèi)容信息發(fā)送給搜索引擎服 務(wù)器,由該搜索引擎服務(wù)器生成搜索數(shù)據(jù)庫。
      為了實(shí)現(xiàn)上述另一目的,本發(fā)明的實(shí)施例還提供了一種搜索引擎實(shí) 現(xiàn)系統(tǒng),包括搜索引擎服務(wù)器,還包括多個(gè)第三方設(shè)備,任一第三方設(shè) 備設(shè)有
      如上所述的URL信息獲取裝置,用于獲取客戶端訪問的URL鏈接及 相應(yīng)的鏈接內(nèi)容信息;
      站點(diǎn)服務(wù)器訪問裝置,與該URL信息獲取裝置連接,用于訪問該 URL鏈接的站點(diǎn)服務(wù)器,識(shí)別該鏈接內(nèi)容信息是否允許被搜索引擎采集, 是則指令該URL信息獲取裝置保留允許被搜索引擎采集的鏈接內(nèi)容信 息;
      URL信息發(fā)送裝置,與該URL信息獲取裝置連接,用于在每次通信 連接釋放后,將該URL鏈接及相應(yīng)的鏈接內(nèi)容信息發(fā)送給該搜索引擎服 務(wù)器,由該搜索引擎服務(wù)器生成搜索數(shù)據(jù)庫。
      由上述技術(shù)方案可知,本發(fā)明的實(shí)施例通過對(duì)互聯(lián)網(wǎng)中實(shí)際發(fā)生的流量 加以整理、記錄和分析,具有以下有益效果
      1、 實(shí)現(xiàn)對(duì)包括動(dòng)態(tài)網(wǎng)頁信息在內(nèi)的URL信息的獲取;
      2、 取代現(xiàn)有的網(wǎng)絡(luò)爬蟲技術(shù),不占用網(wǎng)絡(luò)帶寬地實(shí)現(xiàn)搜索數(shù)據(jù)庫的建 立,且該搜索數(shù)據(jù)庫不但支持對(duì)于動(dòng)態(tài)網(wǎng)頁的搜索,同時(shí)提高搜索的實(shí)用性 和實(shí)效性。
      通過以下參照附圖對(duì)優(yōu)選實(shí)施例的說明,本發(fā)明的上述以及其它目的、 特征和優(yōu)點(diǎn)將更加明顯。


      圖1A、圖1B為現(xiàn)有技術(shù)中互聯(lián)網(wǎng)簡化模型的示意圖2為本發(fā)明提供的URL信息獲取方法一實(shí)施例的流程圖; 圖3為本發(fā)明提供的URL信息獲取方法另一實(shí)施例的流程圖; 圖4為本發(fā)明提供的URL信息獲取裝置一實(shí)施例的框圖; 圖5為本發(fā)明提供的搜索引擎實(shí)現(xiàn)方法一實(shí)施例的流程圖; 圖6為本發(fā)明提供的搜索引擎實(shí)現(xiàn)系統(tǒng)一實(shí)施例的框圖。
      具體實(shí)施例方式
      下面將詳細(xì)描述本發(fā)明的具體實(shí)施例。應(yīng)當(dāng)注意,這里描述的實(shí)施例只 用于舉例說明,并不用于限制本發(fā)明。
      本發(fā)明的主要構(gòu)思在于對(duì)互聯(lián)網(wǎng)中實(shí)際發(fā)生的流量加以整理、記錄和分 析,來解決現(xiàn)有技術(shù)中網(wǎng)絡(luò)管控系統(tǒng)無法獲得動(dòng)態(tài)網(wǎng)頁信息的問題;以及, 解決搜索引擎對(duì)于動(dòng)態(tài)網(wǎng)頁的支持問題和搜索引擎所存在的帶寬占用和實(shí) 用性、實(shí)效性低的問題。
      這樣,為幫助讀者更好的理解本發(fā)明,下面首先通過介紹現(xiàn)有技術(shù)中互 聯(lián)網(wǎng)技術(shù),以證明本發(fā)明提供的URL信息獲取方案以及搜索引擎實(shí)現(xiàn)方案 的可行性。
      如圖1A所示,顯示了互聯(lián)網(wǎng)的簡化模型?;ヂ?lián)網(wǎng)可以簡化為以下三 個(gè)部分提供內(nèi)容信息的站點(diǎn)服務(wù)器;客戶端,比如瀏覽器;為客戶端 和站點(diǎn)服務(wù)器提供網(wǎng)絡(luò)連接的交換路由設(shè)備,包括交換機(jī)、路由器等。
      這樣,用戶客戶端與站點(diǎn)服務(wù)器之間的訪問(以HTTP訪問為例) 可以簡化為
      (1) 用戶通過客戶端訪問站點(diǎn)服務(wù)器,客戶端與站點(diǎn)服務(wù)器之間建 立TCP (Transmission Control Protocol,傳輸控制協(xié)議)連接;
      (2) 客戶端通過HTTP協(xié)議向站點(diǎn)服務(wù)器請(qǐng)求某一 URL鏈接;
      (3) 站點(diǎn)服務(wù)器通過HTTP協(xié)議為客戶端提供鏈接內(nèi)容信息, 一般 表現(xiàn)為某一網(wǎng)頁的形式;
      (4) 訪問結(jié)束,站點(diǎn)服務(wù)器斷開與客戶端之間的TCP連接。
      上述(1) ~ (4)是一次雙向的基于TCP連接的過程,該過程中雙 方交互的信息都會(huì)以報(bào)文的形式出現(xiàn)在作為中間設(shè)備的交換路由設(shè)備
      上,因此如果在交換路由設(shè)備上實(shí)現(xiàn)數(shù)據(jù)采集功能,對(duì)這些報(bào)文進(jìn)行會(huì) 話整理、記錄和分析,就能夠基于實(shí)際的網(wǎng)絡(luò)流量搜集到包括動(dòng)態(tài)網(wǎng)頁 信息在內(nèi)的URL信息。
      在上述簡化模型中,將中間設(shè)備簡化為一個(gè)交換路由設(shè)備環(huán)節(jié);但
      在實(shí)際實(shí)現(xiàn)中,站點(diǎn)服務(wù)器側(cè)和客戶端側(cè)一般都有相應(yīng)的交換路由設(shè)備,
      如圖1B所示,站點(diǎn)服務(wù)器通過路由器A接入互聯(lián)網(wǎng),客戶端通過路由 器/交換機(jī)B接入互聯(lián)網(wǎng)。則在客戶端對(duì)站點(diǎn)服務(wù)器的訪問過程中,信息 都會(huì)以報(bào)文的形式在路由器A和路由器/交換機(jī)B上出現(xiàn),無論在哪一個(gè) 交換路由設(shè)備上實(shí)現(xiàn)數(shù)據(jù)采集功能,對(duì)這些報(bào)文進(jìn)行會(huì)話整理、記錄和 分析,都能夠基于實(shí)際的網(wǎng)絡(luò)流量搜集到包括動(dòng)態(tài)網(wǎng)頁信息在內(nèi)的URL 信息;當(dāng)然,也可以在各交換路由設(shè)備上同時(shí)實(shí)現(xiàn)數(shù)據(jù)采集功能,其采 集結(jié)果的側(cè)重會(huì)有所不同,即路由器A所采集的是對(duì)站點(diǎn)服務(wù)器的訪問 信息,而路由器/交換機(jī)B所采集的是客戶端所在局域網(wǎng)的對(duì)外訪問信息。 在理解了上述現(xiàn)有技術(shù)的基礎(chǔ)上,下面將詳細(xì)介紹本發(fā)明所提供的 URL信息獲取方案和搜索引擎實(shí)現(xiàn)方案。
      下面對(duì)本發(fā)明提供的URL信息獲取方法加以描述,其一實(shí)施例如圖2, 以一個(gè)客戶端與一站點(diǎn)服務(wù)器的訪問為例。本領(lǐng)域技術(shù)人員可以了解,推廣 至全網(wǎng)多個(gè)客戶端與多個(gè)站點(diǎn)服務(wù)器,該模式同樣適用,因?yàn)榧词挂粋€(gè)站點(diǎn) 服務(wù)器同時(shí)接受多個(gè)客戶端的訪問,也可以分解為同時(shí)發(fā)生的每一個(gè)客戶端 與該站點(diǎn)服務(wù)器的訪問。
      首先,該客戶端與該站點(diǎn)服務(wù)器建立通信連接,仍以TCP連接為例, 但本領(lǐng)域技術(shù)人員可以了解,基于互聯(lián)網(wǎng)中其他應(yīng)用協(xié)議的通信連接同 樣適用。其中,建立TCP連接的具體過程包括當(dāng)客戶端訪問該站點(diǎn)服 務(wù)器時(shí),基于TCP協(xié)議的三次握手機(jī)制建立客戶端與站點(diǎn)服務(wù)器之間的 TCP連接。
      在建立了 TCP連接之后,客戶端與站點(diǎn)服務(wù)器之間的報(bào)文分別通過 客戶端側(cè)的交換路由設(shè)備和站點(diǎn)服務(wù)器側(cè)的交換路由設(shè)備實(shí)現(xiàn)交互,客
      戶端側(cè)的交換路由設(shè)備和站點(diǎn)服務(wù)器側(cè)的交換路由設(shè)備都能夠識(shí)別雙方
      之間的每一個(gè)會(huì)話,比如HTTP會(huì)話、FTP會(huì)話或者其他TCP連接所支 持的會(huì)話。
      基于上述前提,本實(shí)施例對(duì)客戶端和站點(diǎn)服務(wù)器的每一會(huì)話執(zhí)行以 下步驟
      步驟SA1:第三方設(shè)備解析該客戶端向該站點(diǎn)服務(wù)器發(fā)送的通信報(bào) 文,提取并記錄客戶端所請(qǐng)求的URL鏈接;
      以HTTP協(xié)議為例,當(dāng)客戶端通過HTTP協(xié)議向站點(diǎn)服務(wù)器請(qǐng)求特 定URL鏈接的網(wǎng)頁時(shí),第三方設(shè)備可以解析HTTP協(xié)議并收集該URL 鏈接;顯然,該URL鏈接可能是動(dòng)態(tài)的URL鏈接,也有可能是靜態(tài)的 URL鏈接,由客戶端的實(shí)際訪問情況決定;
      其中,第三方設(shè)備包括為客戶端和站點(diǎn)服務(wù)器提供交換路由服務(wù)的 交換路由設(shè)備,可以是客戶端側(cè)的交換路由設(shè)備(如企業(yè)網(wǎng)關(guān)),也可 以是站點(diǎn)服務(wù)器側(cè)的交換路由設(shè)備,或者,二者同時(shí)作為第三方設(shè)備, 分別獨(dú)立進(jìn)行數(shù)據(jù)的解析和提?。?br> 但是,上述在交換路由設(shè)備上添加數(shù)據(jù)解析和提取功能,會(huì)在一定 程度上造成對(duì)交換路由設(shè)備系統(tǒng)性能的影響。為了保證交換路由設(shè)備的 網(wǎng)絡(luò)連接功能和網(wǎng)絡(luò)連接性能,較佳的解決方案為第三方設(shè)備包括鏡像 上述交換路由設(shè)備通信流量的鏡像設(shè)備,該鏡像設(shè)備備份了相應(yīng)交換路 由設(shè)備的網(wǎng)絡(luò)流量,并基于該網(wǎng)絡(luò)流量進(jìn)行數(shù)據(jù)的解析和提??;
      具體的,該鏡像設(shè)備可以是任何能夠與交換路由設(shè)備聯(lián)網(wǎng)獲得網(wǎng)絡(luò) 流量并能夠?qū)?dǎo)入流量進(jìn)行分析處理的計(jì)算機(jī)或者其他設(shè)備;比如,一 臺(tái)服務(wù)器,其通過以太網(wǎng)口與一提供交換路由服務(wù)的以太網(wǎng)交換機(jī)連接, 對(duì)通過該以太網(wǎng)交換機(jī)的流量進(jìn)行鏡像和解析處理;
      同時(shí)需要指出的是,鏡像設(shè)備可以僅對(duì)一個(gè)交換路由設(shè)備進(jìn)行流量 鏡像,也可以對(duì)多個(gè)交換路由設(shè)備進(jìn)行流量鏡像。
      步驟SA2:第三方設(shè)備解析該站點(diǎn)服務(wù)器向該客戶端返回的通信報(bào) 文,按照預(yù)設(shè)的策略提取并記錄該URL鏈接對(duì)應(yīng)的鏈接內(nèi)容信息;
      仍以HTTP協(xié)議為例,當(dāng)站點(diǎn)服務(wù)器返回該URL鏈接對(duì)應(yīng)的網(wǎng)頁信
      息時(shí),第三方設(shè)備可以解析HTTP協(xié)議并收集對(duì)應(yīng)的內(nèi)容信息;顯然,
      對(duì)應(yīng)動(dòng)態(tài)URL鏈接,所返回的就是站點(diǎn)服務(wù)器生成的動(dòng)態(tài)網(wǎng)頁,而對(duì)應(yīng) 靜態(tài)URL連接,所返回的是站點(diǎn)服務(wù)器所保存的靜態(tài)網(wǎng)頁,第三方設(shè)備 通過收集對(duì)應(yīng)的內(nèi)容信息,實(shí)際上收集處理了包括動(dòng)態(tài)網(wǎng)頁在內(nèi)的內(nèi)容 信息;
      其中,站點(diǎn)服務(wù)器所返回的網(wǎng)頁中包含了大量的信息,而面對(duì)不同 的后續(xù)應(yīng)用,可能對(duì)信息需求的側(cè)重點(diǎn)有所不同。比如,如果提取的URL 信息是為了建立搜索數(shù)據(jù)庫,則需要提取并記錄建立某一搜索數(shù)據(jù)庫所 指定的鏈接內(nèi)容信息,即需要提取Meta、 Title等數(shù)據(jù),甚至需要提取訪 問時(shí)間等信息以建立基于時(shí)間的動(dòng)態(tài)搜索引擎;如果提取的URL信息是 為了建立訪問類型統(tǒng)計(jì)數(shù)據(jù)庫,那么可能只需要提取Meta信息;
      因此,根據(jù)實(shí)際需求預(yù)先在第三方設(shè)備中設(shè)置信息提取策略,并在 本步驟SA2中根據(jù)該預(yù)設(shè)的策略進(jìn)行鏈接內(nèi)容信息的提取即可。
      綜上所述,通過上述步驟SA1 SA2,本發(fā)明提供的URL信息獲取方 法通過對(duì)網(wǎng)絡(luò)中的實(shí)際流量進(jìn)行分析,能夠有效實(shí)現(xiàn)對(duì)包括動(dòng)態(tài)網(wǎng)頁信 息在內(nèi)的URL信息的獲取。
      在上面的實(shí)施例中已經(jīng)說明,第三方設(shè)備可以是客戶端側(cè)的交換路 由設(shè)備或其鏡像設(shè)備,也可以是站點(diǎn)服務(wù)器側(cè)的交換路由設(shè)備或其鏡像 設(shè)備;具體來說,企業(yè)網(wǎng)關(guān)可以被認(rèn)為是一種客戶端側(cè)的交換路由設(shè)備, 而將站點(diǎn)服務(wù)器接入互聯(lián)網(wǎng)的路由器可以被認(rèn)為是一種站點(diǎn)服務(wù)器側(cè)的 交換路由設(shè)備;
      雖然客戶端側(cè)的交換路由設(shè)備或其鏡像設(shè)備和站點(diǎn)服務(wù)器側(cè)的交換 路由設(shè)備或其鏡像設(shè)備都能夠進(jìn)行URL信息的獲取,但在實(shí)際應(yīng)用中, 其獲取URL信息的目的往往并不相同。比如,站點(diǎn)服務(wù)器側(cè)的交換路由 設(shè)備或其鏡像設(shè)備進(jìn)行URL信息的獲取,可以完成對(duì)某些企業(yè)或網(wǎng)絡(luò)團(tuán) 體的總體行為分析,或者為搜索引擎、動(dòng)態(tài)知識(shí)管理系統(tǒng)如站點(diǎn)訪問排 行系統(tǒng)等提供數(shù)據(jù)支撐;客戶端側(cè)的交換路由設(shè)備或其鏡像設(shè)備進(jìn)行 URL信息的獲取,則可以完成對(duì)內(nèi)部客戶端訪問情況的分析和匯總,以
      將本發(fā)明提供的URL信息獲取方法應(yīng)用到企業(yè)網(wǎng)關(guān)為例,通過對(duì)該企業(yè) 對(duì)互聯(lián)網(wǎng)資源的訪問情況進(jìn)行分析,可以為企業(yè)內(nèi)部提供實(shí)時(shí)的資訊更 新和安全監(jiān)控,以提高工作效率。
      基于上述應(yīng)用差異,對(duì)于一些出于進(jìn)行客戶端行為分析而進(jìn)行URL 信息獲取的第三方設(shè)備,包括進(jìn)行企業(yè)總體分析或者進(jìn)行企業(yè)內(nèi)部個(gè)體 分析的情況,為了實(shí)現(xiàn)上述行為分析功能,第三方設(shè)備還需要提取客戶 端信息;對(duì)于一些出于進(jìn)行站點(diǎn)服務(wù)器訪問分析而進(jìn)行URL信息獲取的 第三方設(shè)備,還需要提取站點(diǎn)服務(wù)器信息;
      上述對(duì)客戶端信息/站點(diǎn)服務(wù)器信息的提取往往發(fā)生在客戶端與站點(diǎn) 服務(wù)器建立通信連接之后,也就是說客戶端與站點(diǎn)服務(wù)器建立通信連接后 還包括步驟SA0:提取并記錄客戶端信息和/或站點(diǎn)服務(wù)器信息;
      具體來說,當(dāng)客戶端訪問服務(wù)器時(shí),通過三次握手建立客戶端與服 務(wù)器之間的通信連接,則交換路由設(shè)備或其鏡像設(shè)備可以通過握手報(bào)文 獲得客戶端的源IP地址、端口號(hào)、服務(wù)器的目的IP地址、端口號(hào)以及域 名等信息,其中客戶端信息至少包括客戶端的源IP地址信息,站點(diǎn)服務(wù) 器信息至少包括站點(diǎn)服務(wù)器的目的IP地址。
      進(jìn)一步的,在上述實(shí)施例中,都是以建立了 TCP連接后的一次HTTP 會(huì)話為例加以描述,但本領(lǐng)域技術(shù)人員可以了解,當(dāng)一次HTTP會(huì)話結(jié) 束后,客戶端有可能基于該已建立的TCP連接啟動(dòng)下一次HTTP會(huì)話, 這種情況下,對(duì)下一次HTTP會(huì)話重新執(zhí)行步驟SA1 SA2可以繼續(xù)采集 對(duì)應(yīng)的URL信息,從而形成再一次的URL信息采集結(jié)果;
      當(dāng)客戶端完成對(duì)站點(diǎn)服務(wù)器的訪問,比如關(guān)閉瀏覽器或者切換到其 他站點(diǎn)的URL進(jìn)行瀏覽時(shí),該客戶端與該站點(diǎn)服務(wù)器之間的TCP連接斷 開,第三方設(shè)備就相應(yīng)完成了針對(duì)該TCP連接的完整URL信息采集過程, 可能獲得多次URL信息采集結(jié)果;
      為了便于后續(xù)的處理,每一次URL信息采集結(jié)果可以以會(huì)話信息表 的形式保存,該會(huì)話信息表至少包括URL鏈接項(xiàng)以及鏈接內(nèi)容信息項(xiàng), 前者記錄URL鏈接,后者記錄對(duì)應(yīng)URL鏈接的內(nèi)容信息;也就是說,
      交換路由設(shè)備或其鏡像設(shè)備對(duì)應(yīng)每一會(huì)話,保存有一張會(huì)話信息表,在
      一次通信連接結(jié)束時(shí),可能記錄有多張會(huì)話信息表;
      需要指出的是,在提取并記錄客戶端信息和/或站點(diǎn)服務(wù)器信息的情 況下,會(huì)話信息表中還會(huì)相應(yīng)設(shè)有客戶端信息項(xiàng)和/或站點(diǎn)服務(wù)器信息項(xiàng)。
      再進(jìn)一步的,由于交換路由設(shè)備或其鏡像設(shè)備可能對(duì)多個(gè)客戶端以 及多個(gè)站點(diǎn)服務(wù)器同時(shí)進(jìn)行信息采集,也就是說在交換路由設(shè)備或其鏡 像設(shè)備中可能記錄有對(duì)應(yīng)不同連接的多次URL信息采集結(jié)果的大量會(huì)話 信息表;
      為了便于進(jìn)一步的分析處理,比如發(fā)送給企業(yè)監(jiān)控系統(tǒng),或者發(fā)送 給搜索引擎服務(wù)器等,則在提取并記錄了客戶端信息和/或站點(diǎn)服務(wù)器信 息的情況下,在每一通信連接釋放后,還包括步驟SA3:基于客戶端信 息和/或站點(diǎn)服務(wù)器信息對(duì)所記錄的URL鏈接及相應(yīng)的鏈接內(nèi)容信息進(jìn) 行分類匯總;也就是說,可以將本次通信連接所形成的會(huì)話信息表進(jìn)行 打包或者集合處理。
      請(qǐng)結(jié)合圖3,顯示了本發(fā)明URL信息獲取方法另一實(shí)施例的流程圖。
      本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟 可以通過程序指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀 取存儲(chǔ)介質(zhì)中,該程序在一客戶端與一站點(diǎn)服務(wù)器建立通信連接后,對(duì)雙方 之間的每一會(huì)話執(zhí)行如下步驟
      步驟SA1:第三方設(shè)備解析所述客戶端向所述站點(diǎn)服務(wù)器發(fā)送的通 信報(bào)文,提取并記錄客戶端所請(qǐng)求的URL鏈接;
      步驟SA2:第三方設(shè)備解析所述站點(diǎn)服務(wù)器向所述客戶端返回的通信報(bào) 文,按照預(yù)設(shè)的策略提取并記錄所述URL鏈接對(duì)應(yīng)的鏈接內(nèi)容信息;
      所述的存儲(chǔ)介質(zhì)包括ROM/RAM (ReadonlyMemory/Random-Access Memory,只讀存儲(chǔ)器/隨機(jī)訪問內(nèi)存)、磁碟或者光盤等。
      下面,對(duì)本發(fā)明提供的URL信息獲取裝置100加以描述,其一實(shí)施 例如圖4所示,包括
      解析單元110,用于解析建立通信連接的一客戶端與一站點(diǎn)服務(wù)器之間 交互的通信報(bào)文,以客戶端與站點(diǎn)服務(wù)器之間建立TCP連接為例,解析單元 110 —般進(jìn)行HTTP協(xié)議報(bào)文、FTP協(xié)議報(bào)文以及其他會(huì)話協(xié)議報(bào)文的解析;
      URL鏈接提取單元120,與解析單元110連接,用于提取客戶端所請(qǐng) 求的URL鏈接,包括靜態(tài)URL鏈接及動(dòng)態(tài)URL鏈接;
      鏈接內(nèi)容信息提取單元130,與解析單元110連接,用于按照預(yù)設(shè)的 策略提取URL鏈接對(duì)應(yīng)的鏈接內(nèi)容信息,包括動(dòng)態(tài)URL鏈接對(duì)應(yīng)的鏈 接內(nèi)容信息以及靜態(tài)URL鏈接對(duì)應(yīng)的鏈接內(nèi)容信息;
      其中,視后續(xù)應(yīng)用的不同需要,該預(yù)設(shè)的策略可以包括某一搜索數(shù) 據(jù)庫所指定的鏈接內(nèi)容信息提取策略,即需要提取Meta、 Title等數(shù)據(jù), 甚至需要提取訪問時(shí)間等信息以建立基于時(shí)間的動(dòng)態(tài)搜索引擎;
      記錄單元140,分別與URL鏈接提取單元120和鏈接內(nèi)容信息提取單 元連接130,用于記錄雙方每一會(huì)話的URL鏈接及相應(yīng)的鏈接內(nèi)容信息;
      由于在一次通信連接中可能存在多次會(huì)話,以及,URL信息獲取裝置 可能為多次通信連接服務(wù),為了便于整理和分析,記錄單元140可以對(duì) 應(yīng)每一會(huì)話,保存有一張會(huì)話信息表,即以會(huì)話信息表的形式保存每一 會(huì)話的URL鏈接及相應(yīng)的鏈接內(nèi)容信息,該會(huì)話信息表至少包括URL鏈 接項(xiàng)以及鏈接內(nèi)容信息項(xiàng),前者記錄URL鏈接,后者記錄對(duì)應(yīng)URL鏈 接的內(nèi)容信息。
      通過上述URL信息獲取裝置IOO可以看出,該裝置是對(duì)網(wǎng)絡(luò)中的實(shí) 際發(fā)生的流量進(jìn)行分析,能夠有效實(shí)現(xiàn)對(duì)包括動(dòng)態(tài)網(wǎng)頁信息在內(nèi)的URL 信息的獲取。
      較佳的,為了滿足后續(xù)應(yīng)用的需求,本發(fā)明提供的URL信息獲取裝 置IOO還可以包括與解析單元110連接的信息提取單元150,用于提取客 戶端信息和/或站點(diǎn)服務(wù)器信息,該客戶端信息至少包括客戶端的源IP地 址信息,該站點(diǎn)服務(wù)器信息至少包括站點(diǎn)服務(wù)器的目的IP地址;
      該信息提取單元150還與記錄單元140連接,該記錄單元140用于記錄客戶端信息和/或站點(diǎn)服務(wù)器信息(可以在會(huì)話信息表中記錄),并 在通信連接釋放后,基于客戶端信息和/或站點(diǎn)服務(wù)器信息對(duì)所記錄的
      URL鏈接及相應(yīng)的鏈接內(nèi)容信息進(jìn)行分類匯總,以便于后續(xù)的分析。
      本發(fā)明還提供了一種交換路由設(shè)備,用于為客戶端和站點(diǎn)服務(wù)器提 供交換路由服務(wù);該交換路由設(shè)備設(shè)有如上所述的URL信息獲取裝置 100。
      本領(lǐng)域技術(shù)人員可以了解,該交換路由設(shè)備可以是為客戶端提供接 入互聯(lián)網(wǎng)服務(wù)的交換路由設(shè)備,也可以是為站點(diǎn)服務(wù)器提供接入互聯(lián)網(wǎng) 服務(wù)的交換路由設(shè)備。
      其中,為客戶端提供接入互聯(lián)網(wǎng)服務(wù)的交換路由設(shè)備可以是企業(yè)網(wǎng)
      關(guān),其通過設(shè)置在其上的URL信息獲取裝置100獲取該企業(yè)對(duì)互聯(lián)網(wǎng)資 源的訪問情況,通過分析可以為企業(yè)內(nèi)部提供實(shí)時(shí)的資訊更新和安全監(jiān) 控,以提高工作效率
      本發(fā)明還提供了一種鏡像設(shè)備,用于對(duì)至少一交換路由設(shè)備進(jìn)行流 量鏡像,該交換路由設(shè)備為客戶端和站點(diǎn)服務(wù)器提供交換路由服務(wù);改 鏡像設(shè)備設(shè)有如上所述的URL信息獲取裝置100。
      本領(lǐng)域技術(shù)人員可以了解,該鏡像設(shè)備可以是為客戶端提供接入互 聯(lián)網(wǎng)服務(wù)的交換路由設(shè)備的鏡像設(shè)備,也可以是為站點(diǎn)服務(wù)器提供接入 互聯(lián)網(wǎng)服務(wù)的交換路由設(shè)備的鏡像設(shè)備。
      同樣的,為客戶端提供接入互聯(lián)網(wǎng)服務(wù)的交換路由設(shè)備可以是企業(yè) 網(wǎng)關(guān)。
      下面對(duì)本發(fā)明提供的搜索引擎實(shí)現(xiàn)方法加以描述,其一實(shí)施例如圖5 所示,包括以下步驟
      步驟SB1:第三方設(shè)備根據(jù)如上所述的URL信息獲取方法獲取客戶
      端訪問的URL鏈接及相應(yīng)的鏈接內(nèi)容信息;
      可以看出,本步驟SB1獲得的URL信息基于網(wǎng)絡(luò)中實(shí)際發(fā)生的流量, 包括動(dòng)態(tài)網(wǎng)頁的URL信息;該第三方設(shè)備包括為客戶端和/或站點(diǎn)服務(wù)器 提供交換路由服務(wù)的交換路由設(shè)備,或者,鏡像該交換路由設(shè)備通信流 量的鏡像設(shè)備。
      步驟SB2:第三方設(shè)備訪問該URL鏈接的站點(diǎn)服務(wù)器,識(shí)別獲取的 鏈接內(nèi)容信息是否允許被搜索引擎采集;
      本步驟SB2的具體實(shí)現(xiàn)方式可以包括第三方設(shè)備獲得該URL站點(diǎn) 服務(wù)器根目錄的robots.txt文件來識(shí)別獲取到的鏈接內(nèi)容信息是否允許被 搜索引擎采集,如果不允許被采集,則丟棄該采集到的信息,從而規(guī)避 搜索引擎的隱私問題。
      步驟SB3:保留允許被搜索引擎采集的鏈接內(nèi)容信息,并在每次通 信連接釋放后,將該次通信連接過程中獲取的URL鏈接及相應(yīng)的鏈接內(nèi) 容信息發(fā)送給搜索引擎服務(wù)器,由該搜索引擎服務(wù)器生成搜索數(shù)據(jù)庫;
      具體的,搜索引擎通過分析獲得的URL鏈接及相應(yīng)的鏈接內(nèi)容信息 (可以是多個(gè)會(huì)話信息表或者匯聚后的會(huì)話信息表),利用現(xiàn)有的 Indexer,生成搜索數(shù)據(jù)庫。其中,如何利用己有信息建立索引和更新數(shù) 據(jù)庫等操作可以利用現(xiàn)有技術(shù)來完成,在此不再贅述。
      可以看出,通過上述步驟SB1 SB3獲得的搜索數(shù)據(jù)庫,是基于網(wǎng)絡(luò) 中實(shí)際發(fā)生的流量建立的,由于該實(shí)際發(fā)生的流量包括動(dòng)態(tài)URL鏈接, 因此可以有效克服現(xiàn)有技術(shù)中動(dòng)態(tài)URL的搜索引擎限制,支持對(duì)于動(dòng)態(tài) 網(wǎng)頁的搜索;同時(shí),由于該實(shí)際發(fā)生的流量最真實(shí)地反映了信息在互聯(lián) 網(wǎng)上被訪問的情況,因此建立的搜索數(shù)據(jù)庫具有實(shí)用性和實(shí)效性的特點(diǎn), 能夠?qū)崿F(xiàn)熱門詞匯的動(dòng)態(tài)刷新,從而提高搜索引擎的搜索準(zhǔn)確性;以及, 不需要借助現(xiàn)有的網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn),有效減少了網(wǎng)絡(luò)爬蟲程序占用的 互聯(lián)網(wǎng)帶寬,尤其是網(wǎng)絡(luò)爬蟲大量訪問很少被實(shí)際用戶訪問的互聯(lián)網(wǎng)資 源所占用的帶寬。
      下面對(duì)本發(fā)明提供的搜索引擎實(shí)現(xiàn)系統(tǒng)加以描述,其一實(shí)施例如圖6 所示,包括搜索引擎服務(wù)器20,其特征在于,還包括多個(gè)第三方設(shè)備10, 任一第三方設(shè)備IO設(shè)有.-
      如上所述的URL信息獲取裝置100,用于獲取客戶端訪問的URL鏈 接及相應(yīng)的鏈接內(nèi)容信息,包括動(dòng)態(tài)URL的鏈接內(nèi)容信息;
      站點(diǎn)服務(wù)器訪問裝置200,與URL信息獲取裝置IOO連接,用于訪 問URL鏈接的站點(diǎn)服務(wù)器,識(shí)別該鏈接內(nèi)容信息是否允許被搜索引擎采 集,是則指令該URL信息獲取裝置IOO保留允許被搜索引擎采集的鏈接 內(nèi)容信息,否則予以丟棄,以規(guī)避搜索引擎的隱私問題;
      URL信息發(fā)送裝置300,與URL信息獲取裝置IOO連接,用于在每 次通信連接釋放后,將所記錄的URL鏈接及相應(yīng)的鏈接內(nèi)容信息發(fā)送給 搜索引擎服務(wù)器20,由該搜索引擎服務(wù)器20生成搜索數(shù)據(jù)庫。
      可以看出,通過上述提供的搜索引擎實(shí)現(xiàn)系統(tǒng),可以有效克服現(xiàn)有技術(shù) 中動(dòng)態(tài)URL的搜索引擎限制,獲得具有實(shí)用性和實(shí)效性的搜索引擎,同時(shí) 無需采用網(wǎng)絡(luò)爬蟲技術(shù),避免了對(duì)互聯(lián)網(wǎng)帶寬的占用。
      其中,第三方設(shè)備包括為客戶端和站點(diǎn)服務(wù)器提供交換路由服務(wù)的 交換路由設(shè)備,或者,鏡像該交換路由設(shè)備通信流量的鏡像設(shè)備。
      需要指出,由于一個(gè)第三方設(shè)備上能夠看到的網(wǎng)絡(luò)資源僅局限于經(jīng)過本 設(shè)備的網(wǎng)絡(luò)流量,所以要獲得整個(gè)互聯(lián)網(wǎng)的信息,需要在盡可能多的網(wǎng)絡(luò)節(jié) 點(diǎn)處應(yīng)用這種具有采集功能的第三方設(shè)備,或者在網(wǎng)絡(luò)中的重要節(jié)點(diǎn)部署具 有這種具有信息采集功能的第三方設(shè)備,以便這些第三方設(shè)備將采集到的信 息匯總給搜索引擎公司指定的搜索引擎服務(wù)器。
      本方案的部署在實(shí)際應(yīng)用中必然要經(jīng)過一個(gè)互聯(lián)網(wǎng)逐步普及的過 程,當(dāng)部署的第三方設(shè)備不足以采集到搜索引擎需要的足夠信息時(shí),本 發(fā)明所提供的搜索引擎實(shí)現(xiàn)系統(tǒng)可以作為現(xiàn)有搜索引擎實(shí)現(xiàn)系統(tǒng)的一個(gè) 有效補(bǔ)充,搜索引擎數(shù)據(jù)庫可以同時(shí)應(yīng)用爬蟲技術(shù)和本方案獲得數(shù)據(jù)進(jìn) 行統(tǒng)一分析;這樣相當(dāng)于為現(xiàn)有搜索引擎數(shù)據(jù)庫補(bǔ)充了一部分動(dòng)態(tài)內(nèi)容, 也能在一定程度上提升搜索引擎內(nèi)容的實(shí)時(shí)性和實(shí)效性。
      雖然已參照幾個(gè)典型實(shí)施例描述了本發(fā)明,但應(yīng)當(dāng)理解,所用的術(shù)語是 說明和示例性、而非限制性的術(shù)語。由于本發(fā)明能夠以多種形式具體實(shí)施而 不脫離發(fā)明的精神或?qū)嵸|(zhì),所以應(yīng)當(dāng)理解,上述實(shí)施例不限于任何前述的細(xì) 節(jié),而應(yīng)在隨附權(quán)利要求所限定的精神和范圍內(nèi)廣泛地解釋,因此落入權(quán)利 要求或其等效范圍內(nèi)的全部變化和改型都應(yīng)為隨附權(quán)利要求所涵蓋。
      權(quán)利要求
      1.一種URL信息獲取方法,其特征在于,在一客戶端與一站點(diǎn)服務(wù)器建立通信連接后,對(duì)雙方之間的每一會(huì)話執(zhí)行以下步驟步驟SA1第三方設(shè)備解析所述客戶端向所述站點(diǎn)服務(wù)器發(fā)送的通信報(bào)文,提取并記錄客戶端所請(qǐng)求的URL鏈接;步驟SA2第三方設(shè)備解析所述站點(diǎn)服務(wù)器向所述客戶端返回的通信報(bào)文,按照預(yù)設(shè)的策略提取并記錄所述URL鏈接對(duì)應(yīng)的鏈接內(nèi)容信息。
      2. 根據(jù)權(quán)利要求1所述的URL信息獲取方法,其特征在于,所述 步驟SA2中,按照預(yù)設(shè)的策略提取并記錄所述URL鏈接對(duì)應(yīng)的鏈接內(nèi)容 信息的步驟包括提取并記錄建立某一搜索數(shù)據(jù)庫所指定的鏈接內(nèi)容信 息。
      3. 根據(jù)權(quán)利要求1或2所述的URL信息獲取方法,其特征在于, 所述客戶端與站點(diǎn)服務(wù)器建立通信連接后還包括步驟SA0:提取并記錄客 戶端信息和/或站點(diǎn)服務(wù)器信息,所述客戶端信息包括所述客戶端的源IP 地址信息,所述站點(diǎn)服務(wù)器信息包括所述站點(diǎn)服務(wù)器的目的IP地址。
      4. 根據(jù)權(quán)利要求3所述的URL信息獲取方法,其特征在于,當(dāng)所 述通信連接釋放后,還包括步驟SA3:基于所述客戶端信息和/或站點(diǎn)服 務(wù)器信息對(duì)所記錄的URL鏈接及相應(yīng)的鏈接內(nèi)容信息進(jìn)行分類匯總。
      5. 根據(jù)權(quán)利要求1或2所述的URL信息獲取方法,其特征在于, 所述第三方設(shè)備包括為所述客戶端和所述站點(diǎn)服務(wù)器提供交換路由服務(wù) 的交換路由設(shè)備,或者,鏡像所述交換路由設(shè)備通信流量的鏡像設(shè)備。
      6. —種URL信息獲取裝置,其特征在于,包括解析單元,用于解析建立通信連接的一客戶端與一站點(diǎn)服務(wù)器之間交 互的通信報(bào)文;URL鏈接提取單元,與所述解析單元連接,用于提取客戶端所請(qǐng)求的 URL鏈接;鏈接內(nèi)容信息提取單元,與所述解析單元連接,用于按照預(yù)設(shè)的策 略提取所述URL鏈接對(duì)應(yīng)的鏈接內(nèi)容信息; 記錄單元,分別與所述URL鏈接提取單元和鏈接內(nèi)容信息提取單元 連接,用于記錄雙方每一會(huì)話的URL鏈接及相應(yīng)的鏈接內(nèi)容信息。
      7. 根據(jù)權(quán)利要求6所述的URL信息獲取裝置,其特征在于,所述 預(yù)設(shè)的策略包括某一搜索數(shù)據(jù)庫所指定的鏈接內(nèi)容信息提取策略。
      8. 根據(jù)權(quán)利要求6或7所述的URL信息獲取裝置,其特征在于, 還包括與所述解析單元連接的信息提取單元,用于提取所述客戶端信息 和/或站點(diǎn)服務(wù)器信息,所述客戶端信息包括所述客戶端的源IP地址信 息,所述站點(diǎn)服務(wù)器信息包括所述站點(diǎn)服務(wù)器的目的IP地址;所述信息 提取單元還與所述記錄單元連接,所述記錄單元用于記錄所述客戶端信 息和/或站點(diǎn)服務(wù)器信息,并在所述通信連接釋放后,基于所述客戶端信 息和/或站點(diǎn)服務(wù)器信息對(duì)所記錄的URL鏈接及相應(yīng)的鏈接內(nèi)容信息進(jìn) 行分類匯總。
      9. 一種交換路由設(shè)備,用于為客戶端和站點(diǎn)服務(wù)器提供交換路由服 務(wù);其特征在于,所述交換路由設(shè)備設(shè)有如權(quán)利要求6-8任一所述的URL 信息獲取裝置。
      10. 根據(jù)權(quán)利要求9所述的交換路由設(shè)備,其特征在于,所述交換 路由設(shè)備為企業(yè)網(wǎng)關(guān)。
      11. 一種鏡像設(shè)備,用于對(duì)至少一交換路由設(shè)備進(jìn)行流量鏡像,所 述交換路由設(shè)備為客戶端和站點(diǎn)服務(wù)器提供交換路由服務(wù);其特征在于, 所述鏡像設(shè)備設(shè)有如權(quán)利要求6-8任一所述的URL信息獲取裝置。
      12. 根據(jù)權(quán)利要求ll所述的鏡像設(shè)備,其特征在于,所述交換路由 設(shè)備為企業(yè)網(wǎng)關(guān)。
      13. —種搜索引擎實(shí)現(xiàn)方法,其特征在于,包括以下步驟步驟SB1:第三方設(shè)備根據(jù)如權(quán)利要求1-5任一所述的URL信息獲 取方法獲取客戶端訪問的URL鏈接及相應(yīng)的鏈接內(nèi)容信息;步驟SB2:第三方設(shè)備訪問所述URL鏈接的站點(diǎn)服務(wù)器,識(shí)別獲取 的鏈接內(nèi)容信息是否允許被搜索引擎采集;步驟SB3:保留允許被搜索引擎采集的鏈接內(nèi)容信息,并在每次通 信連接釋放后,將所述URL鏈接及相應(yīng)的鏈接內(nèi)容信息發(fā)送給搜索引擎服務(wù)器,由所述搜索引擎服務(wù)器生成搜索數(shù)據(jù)庫。
      14. 一種搜索引擎實(shí)現(xiàn)系統(tǒng),包括搜索引擎服務(wù)器,其特征在于, 還包括多個(gè)第三方設(shè)備,任一所述第三方設(shè)備設(shè)有如權(quán)利要求6-8任一所述的URL信息獲取裝置,用于獲取客戶端訪問的URL鏈接及相應(yīng)的鏈接內(nèi)容信息;站點(diǎn)服務(wù)器訪問裝置,與所述URL信息獲取裝置連接,用于訪問所 述URL鏈接的站點(diǎn)服務(wù)器,識(shí)別所述鏈接內(nèi)容信息是否允許被搜索引擎 采集,是則指令所述URL信息獲取裝置保留允許被搜索引擎采集的鏈接 內(nèi)容信息;URL信息發(fā)送裝置,與所述URL信息獲取裝置連接,用于在每次通 信連接釋放后,將所述URL鏈接及相應(yīng)的鏈接內(nèi)容信息發(fā)送給所述搜索 引擎服務(wù)器,由所述搜索引擎服務(wù)器生成搜索數(shù)據(jù)庫。
      15. 根據(jù)權(quán)利要求14所述的搜索引擎實(shí)現(xiàn)系統(tǒng),其特征在于,所述 第三方設(shè)備包括為所述客戶端和/或所述站點(diǎn)服務(wù)器提供交換路由服務(wù)的 交換路由設(shè)備,或者,鏡像所述交換路由設(shè)備通信流量的鏡像設(shè)備。
      全文摘要
      本發(fā)明公開了一種URL信息獲取方法和URL信息獲取裝置,該方法在一客戶端與一站點(diǎn)服務(wù)器建立通信連接后,對(duì)雙方之間的每一會(huì)話執(zhí)行以下步驟第三方設(shè)備解析客戶端向站點(diǎn)服務(wù)器發(fā)送的通信報(bào)文,提取并記錄客戶端所請(qǐng)求的URL鏈接;第三方設(shè)備解析站點(diǎn)服務(wù)器向客戶端返回的通信報(bào)文,按照預(yù)設(shè)的策略提取并記錄該URL鏈接對(duì)應(yīng)的鏈接內(nèi)容信息。本發(fā)明還公開了一種交換路由設(shè)備,一種鏡像設(shè)備,一種搜索引擎實(shí)現(xiàn)方法以及一種搜索引擎實(shí)現(xiàn)系統(tǒng)。通過本發(fā)明,實(shí)現(xiàn)對(duì)包括動(dòng)態(tài)網(wǎng)頁信息在內(nèi)的URL信息的獲??;以及,取代現(xiàn)有的網(wǎng)絡(luò)爬蟲技術(shù),不占用網(wǎng)絡(luò)帶寬地實(shí)現(xiàn)搜索數(shù)據(jù)庫的建立,且該搜索數(shù)據(jù)庫不但支持對(duì)于動(dòng)態(tài)網(wǎng)頁的搜索,同時(shí)提高搜索的實(shí)用性和實(shí)效性。
      文檔編號(hào)G06F17/30GK101355587SQ20081021199
      公開日2009年1月28日 申請(qǐng)日期2008年9月17日 優(yōu)先權(quán)日2008年9月17日
      發(fā)明者葛長忠 申請(qǐng)人:杭州華三通信技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1