国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      收錄索引信息的方法及下載驗證服務(wù)器的制作方法

      文檔序號:6422863閱讀:147來源:國知局
      專利名稱:收錄索引信息的方法及下載驗證服務(wù)器的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種收錄索引信息的方法及下載驗證服務(wù)器。
      背景技術(shù)
      P2SP(Peer to Server & Peer,點對服務(wù)器和點)是一種用戶下載技術(shù),此處"Peer"(點)即網(wǎng)絡(luò)節(jié)點或終端,可以理解為用戶計算機。所謂P2SP是指下載不再像傳統(tǒng)方式那樣只能依賴服務(wù)器,下載客戶端可以從網(wǎng)絡(luò)上的服務(wù)器和其它任意終端中下載內(nèi)容。P2SP后臺由一組功能服務(wù)器組成,包括爬蟲服務(wù)器、下載驗證服務(wù)器和數(shù)據(jù)庫服務(wù) 器等等,實現(xiàn)P2SP的主要功能。數(shù)據(jù)庫服務(wù)器中存儲有用于唯一標(biāo)識文件的Hash (哈希)值和與該Hash值對應(yīng)的URL (Universal Resource Locator,統(tǒng)一資源定位符)鏈接,這些URL鏈接都可以用于下載該Ha sh值代表的文件。在P2SP下載技術(shù)中,下載客戶端要下載某個文件時,用下載該文件的入口 URL鏈接去數(shù)據(jù)庫服務(wù)器中查找對應(yīng)的Hash值,找到后獲取與該Hash值對應(yīng)的其他URL鏈接,作為下載的輔助源,輔助源越多,下載速度越快。數(shù)據(jù)庫服務(wù)器中輔助源的來源途徑有兩個,一是客戶端下載完成后計算文件的Hash值,并將該Hash值和URL鏈接上報給數(shù)據(jù)庫服務(wù)器,二是通過爬蟲服務(wù)器從互聯(lián)網(wǎng)上收錄下載頁面并從中抽取用于下載的URL鏈接,將這些URL鏈接去重后推送到下載驗證服務(wù)器,然后由下載驗證服務(wù)器從URL鏈接下載對應(yīng)的文件,待整個文件下載完畢后,讀取整個文件的內(nèi)容計算文件Hash值,然后將文件的URL鏈接和Hash值之間相互的映射關(guān)系存入數(shù)據(jù)庫服務(wù)器。同一個文件通常在不同的網(wǎng)站有不同鏈接,也就是說同一個Hash值可以映射多個URL鏈接,因此在P2SP系統(tǒng)中用文件的Hash值作為索引信息。在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺點現(xiàn)有技術(shù)通過爬蟲服務(wù)器和下載驗證服務(wù)器主動收錄輔助源時,由于收錄的過程中下載驗證服務(wù)器需要下載和讀取整個文件的內(nèi)容來計算Hash值,以該Hash值作為索引信息,導(dǎo)致收錄的速度慢;當(dāng)爬蟲服務(wù)器爬取到大量新URL鏈接需要入庫的時候,需要大量的中轉(zhuǎn)空間來保存臨時下載的文件,導(dǎo)致需要投入大量用于中轉(zhuǎn)的空間。

      發(fā)明內(nèi)容
      為了實現(xiàn)文件索引信息的快速收錄,節(jié)約文件中轉(zhuǎn)空間,本發(fā)明實施例提供了一種收錄索引信息的方法及下載驗證服務(wù)器。所述技術(shù)方案如下—方面,提供了一種收錄索引信息的方法,所述方法包括獲取爬蟲服務(wù)器推送的下載鏈接;從所述下載鏈接下載文件的部分內(nèi)容;根據(jù)下載的部分內(nèi)容計算所述文件的索引信息;建立所述文件的索引信息和所述下載鏈接之間的映射關(guān)系,并上報給數(shù)據(jù)庫服務(wù)器收錄。其中,所述從所述下載鏈接下載文件的部分內(nèi)容,包括從所述下載鏈接下載文件的頭部、中間和尾部三部分內(nèi)容;相應(yīng)地,所述根據(jù)下載的部分內(nèi)容計算所述文件的索引信息,包括分別計算所述文件的頭部、中間和尾部三部分內(nèi)容的哈希值;將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息。 進一步地,所述從所述下載鏈接下載文件的頭部、中間和尾部三部分內(nèi)容,包括獲取所述下載鏈接對應(yīng)的文件信息,所述文件信息包括文件的大?。桓鶕?jù)所述文件的大小和預(yù)設(shè)的分片大小將所述文件分片;根據(jù)所述分片大小和偏移量從所述下載鏈接下載所述文件的第一片、中間一片和最后一片內(nèi)容分片;相應(yīng)地,所述分別計算所述文件的頭部、中間和尾部三部分內(nèi)容的哈希值,包括分別計算所述文件的第一片、中間一片和最后一片內(nèi)容分片的哈希值??蛇x地,所述將計算得到的三個哈希值合在一起再次計算哈希值之前,還包括獲取所述文件的輔助信息;相應(yīng)地,所述將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息,包括將計算得到的三個哈希值和所述輔助信息拼接在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息;或,將計算得到的三個哈希值拼接在一起再次計算哈希值,并將最后計算得到的哈希值和所述輔助信息拼接在一起作為所述文件的索引信息。其中,所述輔助信息為所述文件的大小,或,文件擴展名。另一方面,提供了一種下載驗證服務(wù)器,所述下載驗證服務(wù)器包括第一獲取模塊,用于獲取爬蟲服務(wù)器推送的下載鏈接;下載模塊,用于從所述第一獲取模塊獲取的下載鏈接下載文件的部分內(nèi)容;計算模塊,用于根據(jù)所述下載模塊下載的部分內(nèi)容計算所述文件的索引信息;建立模塊,用于建立所述計算模塊計算的所述文件的索引信息和所述下載鏈接之間的映射關(guān)系,并上報給數(shù)據(jù)庫服務(wù)器收錄。其中,所述下載模塊,具體用于從所述第一獲取模塊獲取的下載鏈接下載文件的頭部、中間和尾部三部分內(nèi)容;相應(yīng)地,所述計算模塊,具體用于分別計算所述下載模塊下載的文件的頭部、中間和尾部三部分內(nèi)容的哈希值;將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息。進一步地,所述下載模塊,具體用于獲取所述下載鏈接對應(yīng)的文件信息,所述文件信息包括文件的大?。桓鶕?jù)所述文件的大小和預(yù)設(shè)的分片大小將所述文件分片;根據(jù)所述分片大小和偏移量從所述下載鏈接下載所述文件的第一片、中間一片和最后一片內(nèi)容分片;相應(yīng)地,所述計算模塊用于分別計算所述下載模塊下載的文件的頭部、中間和尾部三部分內(nèi)容的哈希值時,具體用于分別計算所述文件的第一片、中間一片和最后一片內(nèi)容分片的哈希值??蛇x地,所述下載驗證服務(wù)器還包括第二獲取模塊,用于在所述計算模塊將計算得到的三個哈希值合在一起再次計算哈希值之前,獲取所述文件的輔助信息;相應(yīng)地,所述計算模塊用于將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息時,具體用于將計算得到的三個哈希值和所述第二獲取模塊獲取的輔助信息拼接在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息;或,將計算得到的三個哈希值拼接在一起再次計算哈希值,并將最后計算得到的哈希值和所述第二獲取模塊獲取的輔助信息拼接在一起作為所述文件的索引信息。 本發(fā)明實施例提供的技術(shù)方案的有益效果是通過僅下載文件的部分內(nèi)容,根據(jù)下載的部分內(nèi)容計算文件的索引信息,用來作為這個文件內(nèi)容的唯一標(biāo)識,而不再采用現(xiàn)有技術(shù)中下載整個文件的內(nèi)容來計算索引信息,結(jié)果大大提高了文件索引信息和鏈接入庫的速度,大幅度提升了資源收錄的效率;另夕卜,僅下載文件的部分內(nèi)容和現(xiàn)有技術(shù)中下載全部文件相比,占用的文件中轉(zhuǎn)空間大大減少,節(jié)約了資源。


      為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I是本發(fā)明實施例一提供的收錄索引信息的方法流程圖;圖2是本發(fā)明實施例二提供的收錄索引信息的方法流程圖;圖3是本發(fā)明實施例三提供的下載驗證服務(wù)器的結(jié)構(gòu)示意圖;圖4是本發(fā)明實施例三提供的另一種下載驗證服務(wù)器的結(jié)構(gòu)示意圖。
      具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細(xì)描述。實施例一本發(fā)明實施例提供了一種收錄索引信息的方法,參見圖1,方法流程具體如下101 :獲取爬蟲服務(wù)器推送的下載鏈接,并從下載鏈接下載文件的部分內(nèi)容;102 :根據(jù)下載的部分內(nèi)容計算該文件的索引信息;103 :建立該文件的索引信息和下載鏈接之間的映射關(guān)系,并上報給數(shù)據(jù)庫服務(wù)器收錄。本發(fā)明實施例提供的方法,通過僅下載文件的部分內(nèi)容,根據(jù)下載的部分內(nèi)容計算文件的索引信息,用來作為這個文件內(nèi)容的唯一標(biāo)識,而不再采用現(xiàn)有技術(shù)中下載整個文件的內(nèi)容來計算索引信息,結(jié)果大大提高了文件索引信息和鏈接入庫的速度,大幅度提升了資源收錄的效率;另外,僅下載文件的部分內(nèi)容和現(xiàn)有技術(shù)中下載全部文件相比,占用的文件中轉(zhuǎn)空間大大減少,節(jié)約了資源。實施例二本發(fā)明實施例提供了一種收錄索引信息的方法,主要是對P2SP后臺系統(tǒng)中的下載驗證服務(wù)器功能的改進,即對主動收錄文件的下載地址和索引信息的過程的改進。本發(fā)明實施例采用了一種新的索引信息,將基于文件部分內(nèi)容的索引信息作為文件的唯一標(biāo)識,參見圖2,方法流程具體如下201 :獲取爬蟲服務(wù)器推送的下載鏈接;具體地,爬蟲服務(wù)器一直在運行,不停的從互聯(lián)網(wǎng)上收錄下載頁面并從中抽取用于下載的下載鏈接。由于現(xiàn)有的鏈接形式一般為URL鏈接,下載鏈接和其它頁面文件鏈接可以通過鏈接的擴展名來區(qū)分,比如擴展名為exe、rar、iso、zip等等的URL鏈接都直接對 應(yīng)一個可以下載的二進制文件。爬蟲服務(wù)器將爬取到的URL鏈接去重后推送到下載驗證服務(wù)器,下載驗證服務(wù)器接收推送過來的URL鏈接。202 :從下載鏈接下載文件的部分內(nèi)容;下載驗證服務(wù)器獲取到下載鏈接后開始資源收錄過程,對下載鏈接逐個進行下載和計算索引信息。具體地,不同于現(xiàn)有技術(shù)需要從下載鏈接下載整個文件的內(nèi)容,本發(fā)明實施例提供的方法是下載文件的部分內(nèi)容,具體可以從下載鏈接下載文件的頭部、中間和尾部三部分內(nèi)容。進一步地,下載文件的頭部、中間和尾部三部分內(nèi)容可以采用如下方式獲取該下載鏈接對應(yīng)的文件信息,該文件信息包括文件的大小;根據(jù)文件的大小和預(yù)設(shè)的分片大小將該文件分片;根據(jù)分片大小和偏移量從該下載鏈接下載該文件的第一片、中間一片和最后一片內(nèi)容分片。例如,一個文件的大小為T,預(yù)設(shè)的分片大小為P(T),P⑴通常取20KB,那么可以將該文件劃分為N片,N= (T+P(T)-1)/P(T)片,然后根據(jù)P(T)和偏移量分別下載第I片、中間I片,和第N片。需要說明的是,從下載鏈接下載文件的部分內(nèi)容,并不限定在采用上述下載文件的頭中尾三部分內(nèi)容的形式,還可以采用下載文件其他部分內(nèi)容,或者其他內(nèi)容分片的形式,其本質(zhì)的功能和達到的效果是一樣的,即用文件的部分內(nèi)容代替全部內(nèi)容。203 :根據(jù)下載的部分內(nèi)容計算該文件的索引信息;本發(fā)明實施例不對用部分內(nèi)容計算索引信息的方式進行限定,只要根據(jù)下載的部分內(nèi)容計算出的索引信息能唯一標(biāo)識該文件即可。具體地,當(dāng)按照上述方式從下載鏈接下載文件的頭部、中間和尾部三部分內(nèi)容時,相應(yīng)地,根據(jù)下載的部分內(nèi)容計算該文件的索引信息,具體方式可以為分別計算該文件的頭部、中間和尾部三部分內(nèi)容的哈希值;將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為該文件的索引信息。其中,如果下載的頭中尾三部分內(nèi)容分別是該文件的第一片、中間一片和最后一片內(nèi)容分片時,那么就分別計算該文件的第一片、中間一片和最后一片內(nèi)容分片的哈希值。例如,假設(shè)預(yù)設(shè)的分片大小P(T) = 20KB,先分別計算該文件的第一片、中間一片和最后一片內(nèi)容分片的MD5 (Message Digest Algorithm 5,消息摘要算法第五版)值,每個分片的MD5值為16B,那么上述3個分片的MD5值一共為48B,將這3個MD5值拼接到一起后,再計算它們的SHAl (Secure Hash Algorithm,安全哈希算法)值,得到的SHAl值為20B,該SHAl值即為該文件的索引信息,還可以稱為三段Hash。進一步地,為了使計算出的索引信息更具有代表性,在將計算得到的三個哈希值合在一起再次計算哈希值之前,還可以獲取該文件的輔助信息,該輔助信息可以為該文件的大小或文件擴展名等屬性信息,其中,獲取該文件的輔助信息的步驟可以在步驟201之后、將計算得到的三個哈希值合在一起再次計算哈希值之前的任意時刻執(zhí)行,本發(fā)明實施例對此不作具體限定,例如可以在分別計算該文件的頭部、中間和尾部三部分內(nèi)容的哈希值之后、在將計算得到的三個哈希值合在一起再次計算哈希值之前執(zhí)行,也可以在步驟202從下載鏈接下載文件的部分內(nèi)容時,同時獲取該文件的輔助信息。相應(yīng)地,將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為該文件的索引信息可以具體采用以下兩種方式
      第一種方式將計算得到的三個哈希值和獲取的輔助信息拼接在一起再次計算哈希值,并將最后計算得到的哈希值作為該文件的索引信息;或,第二種方式將計算得到的三個哈希值拼接在一起再次計算哈希值,并將最后計算得到的哈希值和獲取的輔助信息拼接在一起作為該文件的索引信息。例如,假設(shè)獲取的輔助信息占用SB,延續(xù)上面的例子,第一種方式為將3個MD5值和輔助信息拼接到一起,共56B,計算它們的SHAl值,得到的SHAl值為20B,該SHAl值即為該文件的索引信息;第二種方式為將3個MD5值拼接到一起,共48B,計算它們的SHAl值,得到的SHAl值為20B,再將該SHAl值和輔助信息拼接到一起,共28B,將它們共同作為該文件的索引信息。204 :建立該文件的索引信息和下載鏈接之間的映射關(guān)系,并上報給數(shù)據(jù)庫服務(wù)器收錄。具體地,計算出用于唯一標(biāo)識該文件的索引信息后,將該索引信息和用于下載該文件的下載鏈接關(guān)聯(lián)起來,上報給數(shù)據(jù)庫服務(wù)器收錄。如果查找到該數(shù)據(jù)庫服務(wù)器中已經(jīng)存在該索引信息,那么在與該索引信息關(guān)聯(lián)的下載鏈接中添加該新收錄的下載鏈接;如果查找到該數(shù)據(jù)庫服務(wù)器中不存在該索引信息,那添加該索引信息和與之關(guān)聯(lián)的下載鏈接。需要說明的是,采用上述新的收錄索引信息的方法后,P2SP系統(tǒng)中用于全部采用該新的索引信息的形式來唯一標(biāo)識一個文件。上述部分內(nèi)容的抽取和索引信息的計算方法可以避免一定的沖突,如果采用上述抽取文件的頭中尾三部分內(nèi)容并計算三段Hash的方法避免沖突的效果更加明顯。因為如果僅僅只是抽取文件的頭部,或者尾部,對某些音頻或者視頻文件來說,被截斷后的頭部或尾部是相同的,再計算Hash值容易出現(xiàn)Hash沖突。為了使抽取的部分Hash有代表性,抽取文件的頭中尾三個有代表性的地方,并計算三段Hash作為代表該文件的唯一標(biāo)識,在互聯(lián)網(wǎng)中的絕大多數(shù)文件,通過實踐表明,采用三段Hash,無論文件格式如何,幾乎不會出現(xiàn)文件的頭中尾三段內(nèi)容相同而三段之外的內(nèi)容不同的情況,也就避免了文件的Hash沖突。如果同時考慮文件的大小等輔助信息,避免沖突的效果會更好。只要抽取的部分內(nèi)容不沖突,就可以用該部分內(nèi)容計算Hash值來作為文件的唯一標(biāo)識。
      本發(fā)明實施例提供的方法,通過僅下載文件的部分內(nèi)容,根據(jù)下載的部分內(nèi)容計算文件的索引信息,用來作為這個文件內(nèi)容的唯一標(biāo)識,而不再采用現(xiàn)有技術(shù)中下載整個文件的內(nèi)容來計算索引信息,結(jié)果大大提高了文件索引信息和鏈接入庫的速度,大幅度提升了資源收錄的效率;由于新資源入庫速度變快,間接加快了 P2SP系統(tǒng)上新資源的發(fā)布速度,減少了從文件發(fā)布初始到該文件具備全網(wǎng)P2SP能力的時間,使用戶在下載開始就能夠快速獲得速度,提升了客戶端的下載體驗,同時降低了原始源服務(wù)器的峰值帶寬壓力 ’另夕卜,僅下載文件的部分內(nèi)容和現(xiàn)有技術(shù)中下載全部文件相比,占用的文件中轉(zhuǎn)空間大大減少,節(jié)約了資源。實施例三參見圖3,本發(fā)明實施例提供了一種下載驗證服務(wù)器,該下載驗證服務(wù)器包括第一獲取模塊301,用于獲取爬蟲服務(wù)器推送的下載鏈接;下載模塊302,用于從第一獲取模塊301獲取的下載鏈接下載文件的部分內(nèi)容; 計算模塊303,用于根據(jù)下載模塊302下載的部分內(nèi)容計算該文件的索引信息;建立模塊304,用于建立計算模塊303計算的該文件的索引信息和下載鏈接之間的映射關(guān)系,并上報給數(shù)據(jù)庫服務(wù)器收錄。進一步地,下載模塊302,具體用于從第一獲取模塊301獲取的下載鏈接下載文件的頭部、中間和尾部三部分內(nèi)容;相應(yīng)地,計算模塊303,具體用于分別計算下載模塊302下載的文件的頭部、中間和尾部三部分內(nèi)容的哈希值;將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為該文件的索引信息。更進一步地,下載模塊302,具體用于獲取下載鏈接對應(yīng)的文件信息,該文件信息包括文件的大小;根據(jù)文件的大小和預(yù)設(shè)的分片大小將該文件分片;根據(jù)分片大小和偏移量從下載鏈接下載該文件的第一片、中間一片和最后一片內(nèi)容分片;相應(yīng)地,計算模塊303用于分別計算下載模塊302下載的文件的頭部、中間和尾部三部分內(nèi)容的哈希值時,具體用于分別計算該文件的第一片、中間一片和最后一片內(nèi)容分片的哈希值??蛇x地,參見圖4,該下載驗證服務(wù)器還包括第二獲取模塊305,用于在計算模塊303將計算得到的三個哈希值合在一起再次計算哈希值之前,獲取該文件的輔助信息,其中,第二獲取模塊305可以在計算模塊303之前的任意位置執(zhí)行,本發(fā)明實施例對此不作具體限定,圖4僅以第二獲取模塊305在下載模塊302之后、計算模塊303之前執(zhí)行為例,還可以在第一獲取模塊301之后、下載模塊302之前執(zhí)行;相應(yīng)地,計算模塊303用于將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為該文件的索引信息時,具體用于將計算得到的三個哈希值和第二獲取模塊305獲取的輔助信息拼接在一起再次計算哈希值,并將最后計算得到的哈希值作為該文件的索引信息;或,將計算得到的三個哈希值拼接在一起再次計算哈希值,并將最后計算得到的哈希值和第二獲取模塊305獲取的輔助信息拼接在一起作為該文件的索引信息。綜上所述,本發(fā)明實施例通過僅下載文件的部分內(nèi)容,根據(jù)下載的部分內(nèi)容計算文件的索引信息,用來作為這個文件內(nèi)容的唯一標(biāo)識,而不再采用現(xiàn)有技術(shù)中下載整個文件的內(nèi)容來計算索引信息,結(jié)果大大提高了文件索引信息和鏈接入庫的速度,大幅度提升了資源收錄的效率;由于新資源入庫速度變快,間接加快了 P2SP系統(tǒng)上新資源的發(fā)布速度,減少了從文件發(fā)布初始到該文件具備全網(wǎng)P2SP能力的時間,使用戶在下載開始就能夠快速獲得速度,提升了客戶端的下載體驗,同時降低了原始源服務(wù)器的峰值帶寬壓力 ’另夕卜,僅下載文件的部分內(nèi)容和現(xiàn)有技術(shù)中下載全部文件相比,占用的文件中轉(zhuǎn)空間大大減少,節(jié)約了資源。需要說明的是上述實施例提供的下載驗證服務(wù)器在收錄索引信息時,僅以上述各功能模塊的劃分進行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將下載驗證服務(wù)器的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的下載驗證服務(wù)器與收錄索引信息的方法實施例屬于同一構(gòu)思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。本發(fā)明實施例中的全部或部分步驟,可以利用軟件實現(xiàn),相應(yīng)的軟件程序可以存·儲在可讀取的存儲介質(zhì)中,如光盤或硬盤等。以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
      權(quán)利要求
      1.一種收錄索引信息的方法,其特征在于,所述方法包括 獲取爬蟲服務(wù)器推送的下載鏈接; 從所述下載鏈接下載文件的部分內(nèi)容; 根據(jù)下載的部分內(nèi)容計算所述文件的索引信息; 建立所述文件的索引信息和所述下載鏈接之間的映射關(guān)系,并上報給數(shù)據(jù)庫服務(wù)器收錄。
      2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述從所述下載鏈接下載文件的部分內(nèi)容,包括 從所述下載鏈接下載文件的頭部、中間和尾部三部分內(nèi)容; 相應(yīng)地,所述根據(jù)下載的部分內(nèi)容計算所述文件的索引信息,包括 分別計算所述文件的頭部、中間和尾部三部分內(nèi)容的哈希值; 將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息。
      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從所述下載鏈接下載文件的頭部、中間和尾部三部分內(nèi)容,包括 獲取所述下載鏈接對應(yīng)的文件信息,所述文件信息包括文件的大??; 根據(jù)所述文件的大小和預(yù)設(shè)的分片大小將所述文件分片; 根據(jù)所述分片大小和偏移量從所述下載鏈接下載所述文件的第一片、中間一片和最后一片內(nèi)容分片; 相應(yīng)地,所述分別計算所述文件的頭部、中間和尾部三部分內(nèi)容的哈希值,包括 分別計算所述文件的第一片、中間一片和最后一片內(nèi)容分片的哈希值。
      4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將計算得到的三個哈希值合在一起再次計算哈希值之前,還包括 獲取所述文件的輔助信息; 相應(yīng)地,所述將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息,包括 將計算得到的三個哈希值和所述輔助信息拼接在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息;或, 將計算得到的三個哈希值拼接在一起再次計算哈希值,并將最后計算得到的哈希值和所述輔助信息拼接在一起作為所述文件的索引信息。
      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述輔助信息為所述文件的大小,或,文件擴展名。
      6.一種下載驗證服務(wù)器,其特征在于,所述下載驗證服務(wù)器包括 第一獲取模塊,用于獲取爬蟲服務(wù)器推送的下載鏈接; 下載模塊,用于從所述第一獲取模塊獲取的下載鏈接下載文件的部分內(nèi)容; 計算模塊,用于根據(jù)所述下載模塊下載的部分內(nèi)容計算所述文件的索引信息; 建立模塊,用于建立所述計算模塊計算的所述文件的索引信息和所述下載鏈接之間的映射關(guān)系,并上報給數(shù)據(jù)庫服務(wù)器收錄。
      7.根據(jù)權(quán)利要求6所述的下載驗證服務(wù)器,其特征在于,所述下載模塊,具體用于從所述第一獲取模塊獲取的下載鏈接下載文件的頭部、中間和尾部三部分內(nèi)容; 相應(yīng)地,所述計算模塊,具體用于分別計算所述下載模塊下載的文件的頭部、中間和尾部三部分內(nèi)容的哈希值;將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息。
      8.根據(jù)權(quán)利要求7所述的下載驗證服務(wù)器,其特征在于,所述下載模塊,具體用于獲取所述下載鏈接對應(yīng)的文件信息,所述文件信息包括文件的大?。桓鶕?jù)所述文件的大小和預(yù)設(shè)的分片大小將所述文件分片;根據(jù)所述分片大小和偏移量從所述下載鏈接下載所述文件的第一片、中間一片和最后一片內(nèi)容分片; 相應(yīng)地,所述計算模塊用于分別計算所述下載模塊下載的文件的頭部、中間和尾部三部分內(nèi)容的哈希值時,具體用于分別計算所述文件的第一片、中間一片和最后一片內(nèi)容分片的哈希值。
      9.根據(jù)權(quán)利要求7所述的下載驗證服務(wù)器,其特征在于,所述下載驗證服務(wù)器還包括 第二獲取模塊,用于在所述計算模塊將計算得到的三個哈希值合在一起再次計算哈希值之前,獲取所述文件的輔助信息; 相應(yīng)地,所述計算模塊用于將計算得到的三個哈希值合在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息時,具體用于將計算得到的三個哈希值和所述第二獲取模塊獲取的輔助信息拼接在一起再次計算哈希值,并將最后計算得到的哈希值作為所述文件的索引信息;或,將計算得到的三個哈希值拼接在一起再次計算哈希值,并將最后計算得到的哈希值和所述第二獲取模塊獲取的輔助信息拼接在一起作為所述文件的索引信息。
      全文摘要
      本發(fā)明公開了一種收錄索引信息的方法及下載驗證服務(wù)器,屬于計算機技術(shù)領(lǐng)域。所述方法包括獲取爬蟲服務(wù)器推送的下載鏈接;從所述下載鏈接下載文件的部分內(nèi)容;根據(jù)下載的部分內(nèi)容計算所述文件的索引信息;建立所述文件的索引信息和所述下載鏈接之間的映射關(guān)系,并上報給數(shù)據(jù)庫服務(wù)器收錄。所述裝置包括第一獲取模塊、下載模塊、計算模塊和建立模塊。本發(fā)明通過僅下載文件的部分內(nèi)容,根據(jù)下載的部分內(nèi)容計算文件的索引信息,用來作為這個文件內(nèi)容的唯一標(biāo)識,而不再采用現(xiàn)有技術(shù)中下載整個文件的內(nèi)容來計算索引信息,提高了文件索引信息和鏈接入庫的速度,大幅度提升了資源收錄的效率;另外,減少了占用的文件中轉(zhuǎn)空間。
      文檔編號G06F17/30GK102750287SQ201110100730
      公開日2012年10月24日 申請日期2011年4月21日 優(yōu)先權(quán)日2011年4月21日
      發(fā)明者劉剛, 黃琰 申請人:騰訊科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1