国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      確定網(wǎng)頁(yè)屬性的方法及裝置制造方法

      文檔序號(hào):6507656閱讀:138來(lái)源:國(guó)知局
      確定網(wǎng)頁(yè)屬性的方法及裝置制造方法
      【專利摘要】本申請(qǐng)?zhí)峁┮环N確定網(wǎng)頁(yè)屬性的方法及裝置,該方法包括:確定已知網(wǎng)頁(yè)屬性的URL的結(jié)構(gòu)特征;確定目標(biāo)URL的結(jié)構(gòu)特征;比較已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征;以及當(dāng)已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征相同或部分相同時(shí),將已知網(wǎng)頁(yè)屬性的URL的至少部分網(wǎng)頁(yè)屬性確定為目標(biāo)URL的網(wǎng)頁(yè)屬性。根據(jù)本申請(qǐng),通過(guò)比較已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征,能夠以很高的精度預(yù)先確定未下載過(guò)的網(wǎng)頁(yè)(目標(biāo)網(wǎng)頁(yè))的各種屬性。
      【專利說(shuō)明】 確定網(wǎng)頁(yè)屬性的方法及裝置

      【技術(shù)領(lǐng)域】
      [0001]本申請(qǐng)涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種確定網(wǎng)頁(yè)屬性的方法及裝置。

      【背景技術(shù)】
      [0002]隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,很多情況下用戶需要從互聯(lián)網(wǎng)搜集需要的信息,在這個(gè)過(guò)程中,用戶需要瀏覽網(wǎng)頁(yè)中的內(nèi)容、甚至全文?;谶@種需求,搜索引擎逐漸成為一種可供用戶搜索互聯(lián)網(wǎng)信息的重要工具。搜索引擎根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)。當(dāng)接收到用戶的搜索請(qǐng)求時(shí),將用戶所請(qǐng)求的信息展示給用戶。
      [0003]現(xiàn)有技術(shù)中,搜索引擎需要從互聯(lián)網(wǎng)范圍內(nèi)下載有用的頁(yè)面,進(jìn)行處理和組織后,供用戶查詢。具體原理為:用戶在搜索框中輸入需要檢索的信息(一般為關(guān)鍵字),搜索引擎在接收到用戶輸入的信息后,在索引庫(kù)中進(jìn)行檢索,最后將檢索到的結(jié)果呈現(xiàn)給用戶。其中,索引庫(kù)中的URL (Uniform Resource Locator,統(tǒng)一資源定位系統(tǒng))及其網(wǎng)頁(yè)會(huì)定期更新,以便讓用戶獲得盡可能新的信息。URL也就是我們通常所說(shuō)的網(wǎng)頁(yè)地址或網(wǎng)址,URL需要遵守 URL 規(guī)范:http://www.w3.0rg/Protocols/rfc2616/rfc2616-sec3.html#sec3.2。
      [0004]現(xiàn)階段,定期更新索引庫(kù)或者在URL庫(kù)中挑選URL進(jìn)入已抓取的網(wǎng)頁(yè)庫(kù)時(shí),通常會(huì)使用URL模式,而生成URL模式通常的做法是:首先,將已知的URL轉(zhuǎn)換成URL模式(URLPattern,可用于表不一組形式相近的URL);然后,米用人工的方式對(duì)這些URL模式的屬性進(jìn)行分類;最后,根據(jù)這些URL模式獲取相應(yīng)的網(wǎng)頁(yè)并放入索引庫(kù)中。然而,一方面,隨著互聯(lián)網(wǎng)中產(chǎn)生的網(wǎng)頁(yè)數(shù)量的指數(shù)級(jí)增長(zhǎng),網(wǎng)頁(yè)數(shù)量的增長(zhǎng)速度遠(yuǎn)超過(guò)了搜索引擎對(duì)網(wǎng)頁(yè)處理能力的增長(zhǎng)速度。如果采用人工方式對(duì)網(wǎng)頁(yè)進(jìn)行分類,則分類時(shí)間長(zhǎng)、效率低。因此,這種人工分類的方式難以大規(guī)模實(shí)施,能夠覆蓋到的頁(yè)面數(shù)和產(chǎn)生的作用也比較有限。另一方面,由于一些URL即使表現(xiàn)形式相同,其頁(yè)面內(nèi)容也有可能會(huì)有較大差異,而現(xiàn)有技術(shù)的方法在聚合URL模式的過(guò)程中沒(méi)有參考頁(yè)面本身的屬性(如頁(yè)面質(zhì)量、頁(yè)面類型、語(yǔ)言等)。因此,這種方式聚合出的URL模式可能會(huì)導(dǎo)致粒度過(guò)大,造成有些URL模式內(nèi)部包含多種不同類型的頁(yè)面。因而搜索引擎無(wú)法準(zhǔn)確地判斷一個(gè)新頁(yè)面的屬性,從而進(jìn)一步降低了其使用效果。
      [0005]因此,在本領(lǐng)域中,需要一種方法,能夠用于幫助提升頁(yè)面的識(shí)別效率和準(zhǔn)確性。


      【發(fā)明內(nèi)容】

      [0006]本申請(qǐng)的主要目的在于提供一種確定網(wǎng)頁(yè)屬性的方法及裝置,以解決現(xiàn)有技術(shù)中存在的不能有效、準(zhǔn)確地識(shí)別網(wǎng)頁(yè)屬性的問(wèn)題。
      [0007]根據(jù)本申請(qǐng)的第一方面,提供了一種確定網(wǎng)頁(yè)屬性的方法,其特征在于,該方法包括:確定已知網(wǎng)頁(yè)屬性的URL的結(jié)構(gòu)特征;確定目標(biāo)URL的結(jié)構(gòu)特征;比較已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征;以及當(dāng)已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征相同或部分相同時(shí),將已知網(wǎng)頁(yè)屬性的URL的至少部分網(wǎng)頁(yè)屬性確定為目標(biāo)URL的網(wǎng)頁(yè)屬性。
      [0008]根據(jù)本申請(qǐng)的第二方面,提供了一種確定網(wǎng)頁(yè)屬性的裝置,其特征在于,該裝置包括:第一結(jié)構(gòu)特征確定模塊,用于確定已知網(wǎng)頁(yè)屬性的URL的結(jié)構(gòu)特征;第二結(jié)構(gòu)特征確定模塊,用于確定目標(biāo)URL的結(jié)構(gòu)特征;比較模塊,用于比較已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征;以及目標(biāo)URL網(wǎng)頁(yè)屬性確定模塊,用于當(dāng)已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征相同或部分相同時(shí),將已知網(wǎng)頁(yè)屬性的URL的至少部分網(wǎng)頁(yè)屬性確定為目標(biāo)URL的網(wǎng)頁(yè)屬性。
      [0009]與現(xiàn)有技術(shù)相比,根據(jù)本申請(qǐng)的技術(shù)方案,通過(guò)比較已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征,能夠以很高的精度預(yù)先確定未下載過(guò)的網(wǎng)頁(yè)(S卩,目標(biāo)網(wǎng)頁(yè))的各種屬性。另外,使用這種方法大大提高了分類效率、節(jié)省了大量的下載和處理資源,提高了搜索引擎的數(shù)據(jù)質(zhì)量,進(jìn)而提高了用戶的搜索質(zhì)量。

      【專利附圖】

      【附圖說(shuō)明】
      [0010]此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
      [0011]圖1是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的確定網(wǎng)頁(yè)屬性的方法的流程圖;
      [0012]圖2是圖1中的確定已知網(wǎng)頁(yè)屬性的URL的結(jié)構(gòu)特征的步驟的更詳細(xì)的流程圖;
      [0013]圖3是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的合并后的變形模式樹(shù)的示意圖;以及
      [0014]圖4是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的用于確定網(wǎng)頁(yè)屬性的裝置的結(jié)構(gòu)框圖。

      【具體實(shí)施方式】
      [0015]本申請(qǐng)的主要思想在于,根據(jù)已知的網(wǎng)頁(yè)屬性和對(duì)應(yīng)的URL通過(guò)自動(dòng)聚合、自動(dòng)分類和自動(dòng)驗(yàn)證生成URL的變形模式,使用這種方法生成的變形模式,能夠以很高的精度預(yù)先判斷(或識(shí)別)未獲取過(guò)的網(wǎng)頁(yè)的各種屬性,避免獲取質(zhì)量不高的網(wǎng)頁(yè),從而節(jié)省下載和處理資源。
      [0016]為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖及具體實(shí)施例,對(duì)本申請(qǐng)作進(jìn)一步地詳細(xì)說(shuō)明。
      [0017]參考圖1,圖1是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的確定網(wǎng)頁(yè)屬性的方法100的流程圖。
      [0018]如圖1所示,在步驟101中,確定已知網(wǎng)頁(yè)屬性的URL的結(jié)構(gòu)特征。
      [0019]URL的結(jié)構(gòu)特征可以使用預(yù)定的變形模式表示。所述變形模式可以包括基本模式及模式參數(shù)。
      [0020]每一 URL可以表示成基本模式(simple pattern)及模式參數(shù)。如果基本模式及模式參數(shù)已經(jīng)確定,則可以根據(jù)確定的基本模式及模式參數(shù)生成對(duì)應(yīng)的URL。
      [0021]基本模式用于表示URL的結(jié)構(gòu)。具有相同基本模式的URL具有相似的結(jié)構(gòu),其在形式上相近。在所述基本模式中,URL中的一個(gè)或多個(gè)元素由預(yù)定的標(biāo)識(shí)符表示。比如URL中的二級(jí)域名部分(host)由“hi”表示,路徑(path)部分由“pi”表示,文件部分(file)由“H”表示,查詢(query)部分由“ql”表示,如此,一個(gè)URL的基本模式可以由包含有“hi”、“ρ1”、“Π”及“ql”等一個(gè)或多個(gè)預(yù)定標(biāo)識(shí)符的結(jié)構(gòu)形成。URL的模式參數(shù)用于表示URL的各結(jié)構(gòu)的特征值,即用于記載基本模式中的各標(biāo)識(shí)符對(duì)應(yīng)的賦值。所述模式參數(shù)的表示形式不例如下:“hl=www, pl=hello, fl=abc, f2=html, ql=kl, kl=vl,,。
      [0022]在步驟102中,確定目標(biāo)URL的結(jié)構(gòu)特征。
      [0023]本申請(qǐng)實(shí)施例中,目標(biāo)URL為未知網(wǎng)頁(yè)屬性的URL,即網(wǎng)頁(yè)屬性待識(shí)別的URL。確定目標(biāo)URL的結(jié)構(gòu)特征的方法可以與步驟101中確定已知網(wǎng)頁(yè)屬性的URL的結(jié)構(gòu)特征的方法相同。
      [0024]例如,可以將目標(biāo)URL:http://www.test, com/hello/abc.html ? kl=vl 轉(zhuǎn)換為一個(gè)對(duì)應(yīng)的變形模式,具體步驟可以為:
      [0025]首先,可以把URL拆成四個(gè)部分,分別是二級(jí)域名(host)、目錄(path)、文件(file)以及查詢參數(shù)(query)。對(duì)應(yīng)到上述 URL:http://www.test, com/hello/abc.html?kl=vl,它就被拆成了 host:http://www.test, com/, path:hello/, file:abc.html,query:kl=vl ;
      [0026]然后,可以把二級(jí)域名中除一級(jí)域名外的部分以”分割,替代成hl,一級(jí)域名直接保留,目錄部分以V"分隔,替換成pl,文件部分以非字母數(shù)字進(jìn)行替換,替換成Π.f2,查詢參數(shù)部分去除參數(shù)值部分,使用“&”和“=”分割成參數(shù)和取值,替換成ql=kl,增加一個(gè)參數(shù)說(shuō)明的部分:模式參數(shù):hl=www, pl=hello, fl=abc, f2=html, ql=kl, kl=vl ;
      [0027]最后,可以將上述URL的URL模式表示成兩部分,分別是:
      [0028]基本模式:http://hl.test, com/pl/f1.f2?ql=kl
      [0029]模式參數(shù):hl=www, pl=hello, fl=abc, f2=html, ql=kl, kl=vl。
      [0030]在步驟103中,比較已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征。
      [0031]本申請(qǐng)實(shí)施例中,比較已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征可以是將基于已知網(wǎng)頁(yè)屬性的URL得到的變形模式與未知網(wǎng)頁(yè)屬性的URL的變形模式進(jìn)行比較(匹配)。根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,將基于已知網(wǎng)頁(yè)屬性的URL得到的變形模式與未知網(wǎng)頁(yè)屬性的變形模式進(jìn)行匹配的具體步驟可以為:
      [0032]首先,遍歷所有已知網(wǎng)頁(yè)屬性的URL的變形模式,比較目標(biāo)URL的基本模式和每個(gè)已知網(wǎng)頁(yè)屬性的URL的基本模式。如果基本模式完全一樣,則進(jìn)入下一步;如果所有已知網(wǎng)頁(yè)屬性的URL的基本模式和目標(biāo)URL的基本模式都不相同,則匹配不成功。
      [0033]其次,在已知網(wǎng)頁(yè)屬性的URL的基本模式與目標(biāo)URL的基本模式一致的情況下,將目標(biāo)URL的模式參數(shù)與已知網(wǎng)頁(yè)屬性的URL的模式參數(shù)進(jìn)行匹配,匹配方式采用正則表達(dá)式的匹配規(guī)則。例如:某一已知網(wǎng)頁(yè)屬性的URL的變形模式的二級(jí)域名(host)為hl=\s+(“\s+”代表由多個(gè)字母組成的字符串),若某一未知網(wǎng)頁(yè)屬性的URL的二級(jí)域名為hl=abc,則其可以匹配上hl=\s+,若另一個(gè)未知網(wǎng)頁(yè)屬性的URL的二級(jí)域名為hl=abcl,則其不能匹配上hl=\s+,原因是abcl不完全是字母。當(dāng)目標(biāo)URL的所有模式參數(shù)和已知網(wǎng)頁(yè)屬性的URL的所有模式參數(shù)的對(duì)應(yīng)部分均能匹配成功時(shí),確定為匹配成功,否則,確定為匹配不成功。
      [0034]需要注意的是,根據(jù)上述例子所得到的變形模式能夠匹配http://www.test, com/hello/abc.html?kl=vl這一個(gè)URL。更進(jìn)一步,如果可以將多個(gè)基本模式相同且各種屬性相似的變形模式合并在一起并泛化為包含通配符的變形模式,該變形模式的匹配能力就更強(qiáng)了。
      [0035]多個(gè)基本模式相同且網(wǎng)頁(yè)屬性相似的URL可以作為一個(gè)集合,根據(jù)該集合中的URL的結(jié)構(gòu)特征可以生成一個(gè)用于表述該集合的泛化模式。所述泛化模式即為適用于該集合所有URL的變形模式。在所述泛化模式中可以使用通配符表示URL中設(shè)定了預(yù)定標(biāo)識(shí)符的元素以外的其他元素或字符串。
      [0036]例如,“http://www.test, com/hello/abc.html?kl=et” 及“http://www.test.com/hello/abc.html?kl=f”這兩個(gè)URL的基本模式相同且網(wǎng)頁(yè)屬性相似,將這兩個(gè)URL聚類到一個(gè)集合,該集合的泛化模式即可表示如下:
      [0037]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0038]模式參數(shù):hl=www,pl=hello, fl=abc, f2=html, ql=kl, kl=*(* 表不通配符,能夠匹配任何字符串)。
      [0039]上述集合對(duì)應(yīng)的泛化模式能夠匹配到這樣的URL:http://www.test, com/hello/abc.html?kl=vl (其中 vl 為任意值)。
      [0040]還可以對(duì)上述匹配方法進(jìn)行一些性能優(yōu)化,如果在步驟2比較未知網(wǎng)頁(yè)屬性的URL的基本模式與已知網(wǎng)頁(yè)屬性的URL的基本模式時(shí)能夠縮小比較范圍,例如只比較和未知網(wǎng)頁(yè)屬性的URL所屬一級(jí)域名(domain)相同的已知網(wǎng)頁(yè)屬性的URL對(duì)應(yīng)的基本模式,即能大幅提高匹配的速度。
      [0041]在步驟104中,當(dāng)已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征相同或部分相同時(shí),將已知網(wǎng)頁(yè)屬性的URL的至少部分網(wǎng)頁(yè)屬性確定為目標(biāo)URL的網(wǎng)頁(yè)屬性。
      [0042]例如,當(dāng)已知網(wǎng)頁(yè)屬性的URL的變形模式與未知網(wǎng)頁(yè)屬性的URL的變形模式滿足設(shè)定的匹配條件時(shí),可以將已知網(wǎng)頁(yè)屬性的URL的至少部分網(wǎng)頁(yè)屬性確定為目標(biāo)URL的網(wǎng)頁(yè)屬性。例如,設(shè)定的匹配條件可以是已知網(wǎng)頁(yè)屬性的URL的變形模式與未知網(wǎng)頁(yè)屬性的URL的變形模式相同或部分相同。
      [0043]例如,某URL的網(wǎng)頁(yè)屬性為:頁(yè)面類型=內(nèi)容頁(yè),頁(yè)面質(zhì)量=高,語(yǔ)言=中文(PageType=contentpage, PageQuality=Good, Language=Chinese),則能夠匹配上該 URL 的變形模式的所有目標(biāo)URL都具有與其相同的網(wǎng)頁(yè)屬性,即也具有:頁(yè)面類型=內(nèi)容頁(yè),頁(yè)面質(zhì)量=高,語(yǔ)言=中文(PageType=contentpage, PageQuality=Good, Language=Chinese)這樣的屬性。
      [0044]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,可以根據(jù)確定的目標(biāo)URL的網(wǎng)頁(yè)屬性,確定是否獲取該目標(biāo)網(wǎng)頁(yè)。
      [0045]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,如果識(shí)別出的目標(biāo)URL的網(wǎng)頁(yè)屬性表明該目標(biāo)URL的質(zhì)量較聞,則確定獲取該未知網(wǎng)頁(yè),反之,則確定不獲取該未知網(wǎng)頁(yè)。具體地,可以根據(jù)識(shí)別結(jié)果對(duì)各目標(biāo)URL賦予一個(gè)權(quán)重。可以對(duì)具有不同質(zhì)量的網(wǎng)頁(yè)屬性的URL賦予不同權(quán)重。例如,可以將具有高質(zhì)量網(wǎng)頁(yè)屬性的URL賦予較高的權(quán)重,將具有低質(zhì)量網(wǎng)頁(yè)屬性的URL賦予較低的權(quán)重。
      [0046]例如,對(duì)于匹配上具有“頁(yè)面質(zhì)量=高,頁(yè)面類型=資訊”的網(wǎng)頁(yè)屬性的變形模式的URL賦予較高權(quán)重;對(duì)于匹配上具有“PageQuality=bad, PageType=BBS (頁(yè)面質(zhì)量=低,頁(yè)面類型=電子布告欄系統(tǒng))”的網(wǎng)頁(yè)屬性的變形模式的URL賦予較低權(quán)重。可以僅下載(即獲取)權(quán)重較高的URL所對(duì)應(yīng)的網(wǎng)頁(yè)。
      [0047]在實(shí)際應(yīng)用中,根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,對(duì)于搜索引擎應(yīng)用,服務(wù)器端可以存在三個(gè)數(shù)據(jù)庫(kù):URL庫(kù)、已抓取網(wǎng)頁(yè)庫(kù)、索引庫(kù)。
      [0048]URL庫(kù):存放搜索引擎發(fā)現(xiàn)的所有URL以及這些URL的屬性,例如頁(yè)面排名、頁(yè)面類型、下載狀態(tài)、下載速度、正文大小、語(yǔ)言等;
      [0049]已抓取網(wǎng)頁(yè)庫(kù):存放已經(jīng)抓取過(guò)的所有URL以及這些URL所對(duì)應(yīng)的頁(yè)面內(nèi)容,這些已經(jīng)抓取過(guò)的URL為URL庫(kù)中URL的子集;以及
      [0050]索引庫(kù):搜索引擎的供外部用戶查詢搜索結(jié)果的數(shù)據(jù)集,為已抓取網(wǎng)頁(yè)庫(kù)的子集。
      [0051]可以使用變形模式在URL庫(kù)中挑選哪些URL應(yīng)該被抓取并放入已抓取網(wǎng)頁(yè)庫(kù),以及在已抓取網(wǎng)頁(yè)庫(kù)中挑選哪些URL應(yīng)該進(jìn)入索引庫(kù)中。
      [0052]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,可以將獲取的網(wǎng)頁(yè)建立索引并將索引信息存儲(chǔ)在索引庫(kù)中,以供用戶搜索。
      [0053]根據(jù)本申請(qǐng)的另一個(gè)實(shí)施例,在識(shí)別出目標(biāo)URL的網(wǎng)頁(yè)屬性之后,可以將識(shí)別出的網(wǎng)頁(yè)屬性用于預(yù)測(cè)該目標(biāo)URL的點(diǎn)擊率。例如,如果使用點(diǎn)擊率較高的URL生成變形模式,則能匹配上這些變形模式的URL被點(diǎn)擊的概率也會(huì)較高;如果使用點(diǎn)擊率較低或無(wú)點(diǎn)擊的URL生成變形模式,則能夠匹配上這些變形模式的URL的被點(diǎn)擊概率也會(huì)很低。
      [0054]根據(jù)本申請(qǐng)的又一個(gè)實(shí)施例,識(shí)別出目標(biāo)URL的網(wǎng)頁(yè)屬性后,可以將識(shí)別出的網(wǎng)頁(yè)屬性用于判斷目標(biāo)URL的重要性。例如:可以認(rèn)為網(wǎng)頁(yè)屬性包含“頁(yè)面類型=內(nèi)容頁(yè),內(nèi)容=資訊,頁(yè)面質(zhì)量=高”等信息的URL比網(wǎng)頁(yè)屬性包含“頁(yè)面類型=電子布告欄系統(tǒng),頁(yè)面內(nèi)容=列表頁(yè),頁(yè)面質(zhì)量=中等(PageType=BBS, PageContent=Iistpage,PageQuality=norma)”等信息的URL的重要性高。即,網(wǎng)頁(yè)屬性中包含特定信息的URL具有較高的重要性。
      [0055]根據(jù)本申請(qǐng)的又一個(gè)實(shí)施例,識(shí)別出目標(biāo)URL的網(wǎng)頁(yè)屬性后,可以將識(shí)別出的網(wǎng)頁(yè)屬性用于判斷目標(biāo)URL的分類并控制屬于特定分類的頁(yè)面抓取的比例/數(shù)量等。例如,在知道每個(gè)URL的分類后,可以控制每天抓取的所有頁(yè)面中屬于不同分類的頁(yè)面的比例。例如,每天抓取的所有頁(yè)面中,有70%的頁(yè)面的類型為“PageType=Contentpage (頁(yè)面類型=內(nèi)容頁(yè))”。并且,在這70%的頁(yè)面中,有20%的頁(yè)面的類型為“Content=informat1n,PageQuality=good (內(nèi)容=資訊,頁(yè)面質(zhì)量=高)”,15%的頁(yè)面的類型為“Content=video,PageQuality=good (內(nèi)容=視頻,頁(yè)面質(zhì)量=高)”,等等。
      [0056]圖2是圖1中的確定已知網(wǎng)頁(yè)屬性的URL的結(jié)構(gòu)特征的步驟(即步驟101)的更詳細(xì)的流程圖。
      [0057]方法200開(kāi)始于步驟201。在步驟201中,將已知網(wǎng)頁(yè)屬性的URL轉(zhuǎn)換成變形模式的形式,其中每一變形模式可以攜帶有對(duì)應(yīng)URL的已知網(wǎng)頁(yè)屬性。將已知網(wǎng)頁(yè)屬性的URL轉(zhuǎn)換成變形模式的具體轉(zhuǎn)換步驟可以與上文中步驟101中的轉(zhuǎn)換方法相同。
      [0058]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,每個(gè)變形模式可以對(duì)應(yīng)于數(shù)據(jù)庫(kù)中的一條記錄??梢酝ㄟ^(guò)將已知網(wǎng)頁(yè)屬性作為該變形模式對(duì)應(yīng)的數(shù)據(jù)庫(kù)記錄的一個(gè)字段來(lái)使得該變形模式攜帶該已知網(wǎng)頁(yè)屬性。
      [0059]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,在進(jìn)行步驟201之前,可以在URL庫(kù)中收集已經(jīng)下載過(guò)的頁(yè)面(即網(wǎng)頁(yè))的URL和對(duì)應(yīng)的頁(yè)面屬性。根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,頁(yè)面的各種屬性包括但不限于頁(yè)面類型、正文大小、網(wǎng)頁(yè)排名、用戶點(diǎn)擊、下載狀態(tài)、頁(yè)面語(yǔ)言等。
      [0060]在步驟202中,根據(jù)網(wǎng)頁(yè)屬性對(duì)步驟201中得到的變形模式進(jìn)行合并和泛化。
      [0061]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,可以借助樹(shù)的結(jié)構(gòu)將基本模式相同、屬性類似的變形模式合并成一個(gè)表達(dá)范圍更大的變形模式。具體來(lái)說(shuō),借助樹(shù)結(jié)構(gòu)完成對(duì)URL的變形模式進(jìn)行合并和泛化可以包括以下步驟:
      [0062]I)可以將基本模式相同的變形模式聚合在一起,生成一棵樹(shù),樹(shù)的深度為變形模式的長(zhǎng)度。
      [0063]變形模式的長(zhǎng)度為變形模式的四個(gè)部分(二級(jí)域名、目錄、文件、查詢參數(shù))根據(jù)各種特殊字符分割后的項(xiàng)目數(shù)量之和,例如,步驟201中的例子-.URL:http://www.test, com/hello/abc.html?kl=vl,該URL的變形模式可以表示成:
      [0064]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0065]模式參數(shù):hl=www, pl=hello, fl=abc, f2=html, ql=kl, kl=vl。
      [0066]其中,在二級(jí)域名(host)部分,去掉頂級(jí)域名com”后,將用”分割后的項(xiàng)目數(shù)量稱為二級(jí)域名長(zhǎng)度;在目錄(path)部分,將用“/”分割后的項(xiàng)目數(shù)量稱為目錄長(zhǎng)度;在文件(file)部分,將用”等特殊字符分割后的項(xiàng)目數(shù)量稱為文件長(zhǎng)度;在query部分,將用”分割后的項(xiàng)目數(shù)量稱為查詢參數(shù)長(zhǎng)度。
      [0067]具體而言,上述URL的二級(jí)域名長(zhǎng)度為2,即,用”分割后的項(xiàng)目為www、test,其數(shù)量為2。
      [0068]目錄長(zhǎng)度為1,即,用“/”分割后的項(xiàng)目為hello,其數(shù)量為I。
      [0069]文件長(zhǎng)度為2,S卩,用“_”等特殊字符分割后的項(xiàng)目為abc、html,其數(shù)量為2。
      [0070]查詢參數(shù)長(zhǎng)度為2,即,用“&”、“ = ”分割后的項(xiàng)目為ql、kl,其數(shù)量為2。
      [0071]因此,二級(jí)域名長(zhǎng)度2+目錄長(zhǎng)度1+文件長(zhǎng)度為2+查詢參數(shù)長(zhǎng)度2=7。
      [0072]所述樹(shù)的根節(jié)點(diǎn)為所述變形模式對(duì)應(yīng)的URL的一級(jí)域名的名字,樹(shù)的其余節(jié)點(diǎn)(即子節(jié)點(diǎn))依次為分割后的二級(jí)域名、目錄、文件、查詢參數(shù)的各部分的取值(例如,hl=www,則會(huì)在樹(shù)的第一層建立一個(gè)取值為www的子節(jié)點(diǎn))。同時(shí),將URL的各種屬性也賦給各個(gè)葉子節(jié)點(diǎn)。例如,一個(gè)URL的頁(yè)面類型(PageType)為列表頁(yè)(Iistpage),那么其對(duì)應(yīng)的葉子節(jié)點(diǎn)會(huì)有PageType={listpage: 1}(頁(yè)面類型={列表頁(yè):I})的屬性。創(chuàng)建樹(shù)時(shí),層次相同、節(jié)點(diǎn)內(nèi)容也相同的節(jié)點(diǎn)會(huì)自動(dòng)合并在一起。
      [0073]需要說(shuō)明的是,本申請(qǐng)中所提到的葉子節(jié)點(diǎn)指樹(shù)結(jié)構(gòu)最外層的節(jié)點(diǎn)。另外,對(duì)于兩層以上的樹(shù)結(jié)構(gòu)而言,下一層節(jié)點(diǎn)相對(duì)于其上一層節(jié)點(diǎn)來(lái)說(shuō),可稱為子節(jié)點(diǎn)。相應(yīng)地,上一層節(jié)點(diǎn)相對(duì)于其下一層節(jié)點(diǎn)來(lái)說(shuō),可稱為父節(jié)點(diǎn)。
      [0074]2)從樹(shù)的葉子節(jié)點(diǎn)開(kāi)始向根節(jié)點(diǎn)回溯,將各個(gè)子節(jié)點(diǎn)的屬性聚合到其父節(jié)點(diǎn)中。例如,一個(gè)父節(jié)點(diǎn)有兩個(gè)子節(jié)點(diǎn),如果每個(gè)子節(jié)點(diǎn)都有PageType={listpage: 1}(頁(yè)面類型={列表頁(yè):1})的屬性,貝U其父節(jié)點(diǎn)就具有PageType={listpage:2}(頁(yè)面類型={列表頁(yè):2})的屬性;又如,一個(gè)子節(jié)點(diǎn)具有PageType={listpage: 1}的屬性,另一個(gè)子節(jié)點(diǎn)具有PageType=IcontentType: 1}(頁(yè)面類型={內(nèi)容頁(yè):1})的屬性,則其父節(jié)點(diǎn)就具有PageType={listpage:1, contentType: 1}(頁(yè)面類型={列表頁(yè):1,內(nèi)容頁(yè):I})的屬性。
      [0075]3)當(dāng)除根節(jié)點(diǎn)外,樹(shù)的每個(gè)節(jié)點(diǎn)屬性都計(jì)算好后,可以從樹(shù)的根節(jié)點(diǎn)開(kāi)始往下遍歷,合并每個(gè)父節(jié)點(diǎn)的子節(jié)點(diǎn)中屬性相近的子節(jié)點(diǎn)。具體來(lái)說(shuō),如果一個(gè)父節(jié)點(diǎn)的多個(gè)子節(jié)點(diǎn)的屬性相近(例如PageType (頁(yè)面類型)均為Iistpage (列表頁(yè)),并且它們的屬性取值分布相近),則可以把這些子節(jié)點(diǎn)合并為一個(gè)新的子節(jié)點(diǎn),該新的子節(jié)點(diǎn)的取值為合并前的子節(jié)點(diǎn)取值的集合。例如,可以將屬性均為值PageType=Iistpage (頁(yè)面類型=列表頁(yè))”、取值分別為hl=wwwl和hl=www2的兩個(gè)子節(jié)點(diǎn)合并成一個(gè)新的子節(jié)點(diǎn),該新的子節(jié)點(diǎn)的屬性為hl={wwwl, www2},即合并后的新子節(jié)點(diǎn)的屬性為合并前的子節(jié)點(diǎn)的屬性的集合。
      [0076]4)可以對(duì)合并后的節(jié)點(diǎn)的屬性取值進(jìn)行泛化。例如,取值為hl={wwl,www2, www3, www9…}的集合可以泛化為hl=www\d,表示hi為以www開(kāi)頭、以任意數(shù)字字符結(jié)尾的內(nèi)容。參照?qǐng)D3,圖3是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的合并后的變形模式樹(shù)的示意圖。泛化節(jié)點(diǎn)指的是具有\(zhòng)s (字母字符)、\d (數(shù)字字符)、* (任意字符)等通配符的節(jié)點(diǎn),這種節(jié)點(diǎn)能夠匹配到多種情況。
      [0077]5)可以從樹(shù)的根節(jié)點(diǎn)開(kāi)始,遍歷該樹(shù)。任意從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑可以組成一個(gè)變形模式,該變形模式的屬性為離根節(jié)點(diǎn)最近的一個(gè)合并后的節(jié)點(diǎn)的屬性。如圖3所示的模式樹(shù)包含有2個(gè)變形模式:
      [0078]變形模式1:
      [0079]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0080]模式參數(shù):h=www, pl=hello, fl=abc, f2=html, ql=kl, kl=*
      [0081]屬性:PageType=contentpage, PageQuality=Good, Language=Chinese
      [0082]變形模式2:
      [0083]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0084]模式參數(shù):h=www,pl=hello, f l=abc, f2=html, ql=k2, kl=*
      [0085]屬性:PageType=Iistpage, PageQuality=normal, Language=English
      [0086]6)去除不包含任何泛化節(jié)點(diǎn)的變形模式,因?yàn)檫@種變形模式只能匹配到少量的URL,泛化能力不強(qiáng)。
      [0087]需要說(shuō)明的是,以樹(shù)結(jié)構(gòu)來(lái)實(shí)現(xiàn)變形模式的合并和泛化僅僅是示例性而非限制性的。根據(jù)本申請(qǐng)的描述,本領(lǐng)域技術(shù)人員能夠想到其他可以用于實(shí)現(xiàn)本申請(qǐng)中的變形模式的合并和泛化的方法。
      [0088]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,在進(jìn)行步驟202之前,可以對(duì)基本模式進(jìn)行排序。排序的原因是希望將基本模式相同的變形模式集中在一起,這樣就能夠在內(nèi)存中對(duì)這些基本模式相同的變形模式進(jìn)行合并,從而提高合并的性能。排序例如可以根據(jù)基本模式的字典序(即按字符串排序方法)來(lái)進(jìn)行。
      [0089]在步驟203中,對(duì)經(jīng)過(guò)泛化的變形模式進(jìn)行分類,得到分類后的變形模式。
      [0090]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,可以根據(jù)步驟202中得到的合并和泛化后的變形模式和相應(yīng)的屬性給該變形模式打上屬性分類的標(biāo)簽。例如,如圖4所示,圖3是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的合并后的變形模式樹(shù)的示意圖。該模式樹(shù)的合并后的葉子節(jié)點(diǎn)分別具有“PageType=contentpage, PageQuality=Good, Language=Chinese (頁(yè)面類型=內(nèi)容頁(yè),頁(yè)面質(zhì)量=高,語(yǔ)言=中文),,和 “PageType=listpage, PageQuality=normal, Language=English (頁(yè)面類型=內(nèi)容頁(yè),頁(yè)面質(zhì)量=正常,語(yǔ)言=中文)”兩組屬性,可以將從這棵樹(shù)中所得到的兩個(gè)變形模式分別打上這兩組屬性標(biāo)簽。
      [0091]在步驟204中,對(duì)分類后的變形模式進(jìn)行驗(yàn)證。
      [0092]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,可以使用已獲取的URL及其屬性來(lái)驗(yàn)證待驗(yàn)證的變形模式。通過(guò)對(duì)能匹配上該待驗(yàn)證變形模式的所有URL的屬性分類和該待驗(yàn)證變形模式的屬性分類進(jìn)行比較,得到該待驗(yàn)證變形模式的所有屬性分類的驗(yàn)證信息。例如,待驗(yàn)證變形模式及其屬性包括:
      [0093]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0094]模式參數(shù):h=www,pl=hello,fl=abc,f2=html,ql=kl,kl=*
      [0095]屬性:PageType=Contentpagej PageQuality=Goodj Language=Chinese
      [0096]用于驗(yàn)證所述變形模式的第一URL 為 URLl:http://www.test, com/hello/abc.html?kl=vl,
      [0097]URLl 的屬性包括:PageType=contentpage,PageQuality=Goodj Language=Chinese ;
      [0098]用于驗(yàn)證所述變形模式的第二URL 為 URL2:http://www.test, com/hello/abc.html?kl=v2,
      [0099]URL2 的屬性包括:PageType=contentpage,PageQuality=Goodj Language=English ;
      [0100]用于驗(yàn)證所述變形模式的第三URL 為 URL3:http://www.test, com/hello/abc.html?kl=v3,
      [0101]URL3 的屬性包括:PageType=contentpage,PageQuality=Goodj Language=Chinese ;
      [0102]用于驗(yàn)證所述變形模式的第四URL 為 URL4:http://www.test, com/hello/abc.html?kl=v4
      [0103]URL4 的屬性包括:PageType=contentpage,PageQuality=Good, Language=Engl ish ;
      [0104]用于驗(yàn)證所述變形模式的第五URL 為 URL5:http://www.test, com/hello/abc.html?kl=v5,
      [0105]URL5 的屬性包括:PageType=contentpage,PageQuality=Good, Language=Chines
      e0
      [0106]將以上5個(gè)URL及其屬性用于驗(yàn)證待驗(yàn)證的變形模式。當(dāng)用于驗(yàn)證所述變形模式的一個(gè)URL的某個(gè)屬性分類與待驗(yàn)證的變形模式的對(duì)應(yīng)屬性分類相同時(shí),計(jì)算結(jié)果為right:10相反,當(dāng)用于驗(yàn)證所述變形模式的一個(gè)URL的某個(gè)屬性分類與待驗(yàn)證的變形模式的對(duì)應(yīng)屬性分類不相同時(shí),計(jì)算結(jié)果為wrong:1。因此,上述待驗(yàn)證的變形模式的驗(yàn)證信息為:PageType: {right:5},PageQuality: {right:5},Language: {right:3, wrong: 2}。然后,可以根據(jù)計(jì)算出的驗(yàn)證信息對(duì)分類后的變形模式進(jìn)行驗(yàn)證。具體來(lái)說(shuō),可以釆用如下驗(yàn)證方式:對(duì)于變形模式的每個(gè)屬性分類,如果驗(yàn)證信息中正確(right)與錯(cuò)誤(wrong)的比值超過(guò)一定閾值,則認(rèn)為該分類正確。否則,認(rèn)為該分類錯(cuò)誤。錯(cuò)誤的屬性分類將不會(huì)被使用。例如,一個(gè)變形模式具有PageType=Iistpage (頁(yè)面類型=列表頁(yè))的屬性分類,同時(shí)其驗(yàn)證信息為PageType: {right: 10,wrong: 1}(頁(yè)面類型:{正確:10,錯(cuò)誤:1}),則表明該變形模式的頁(yè)面類型為Iistpage (列表頁(yè)面)的可能性非常高,這個(gè)分類會(huì)通過(guò)驗(yàn)證。如果另一個(gè)屬性分類 Language=English (語(yǔ)言=英文)的驗(yàn)證信息為 Language: {right: 5,wrong: 5},則表明該變形模式對(duì)應(yīng)的頁(yè)面不一定是英文頁(yè)面,該屬性分類不能通過(guò)驗(yàn)證。例如,上述示例中有 3 個(gè)屬性的驗(yàn)證信息:PageType: {right:5},PageQuality: {right:5},Language: {right: 3,wrong: 2},假設(shè)驗(yàn)證通過(guò)的閾值為 90%,則PageType和 PageQuality這兩個(gè)屬性可以通過(guò)驗(yàn)證,Language這個(gè)屬性由于正確比例只有60%,所以不能通過(guò)驗(yàn)證。
      [0107]需要說(shuō)明的是,使用已有URL以及屬性計(jì)算待驗(yàn)證變形模式的驗(yàn)證信息并根據(jù)計(jì)算出的驗(yàn)證信息對(duì)分類后的變形模式進(jìn)行驗(yàn)證僅僅是示例性而非限制性的。根據(jù)本申請(qǐng)的描述,本領(lǐng)域技術(shù)人員能夠想到其他可以用于實(shí)現(xiàn)本申請(qǐng)中的對(duì)分類后的變形模式進(jìn)行驗(yàn)證的方法。
      [0108]在步驟205中,將通過(guò)驗(yàn)證的變形模式與歷史可用的變形模式進(jìn)行合并,從而得到可用的變形模式數(shù)據(jù)庫(kù)。合并方式同步驟302,例如,下面4個(gè)變形模式:
      [0109]變形模式I包括:
      [0110]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0111]模式參數(shù):h=wwwl,pl=hello, fl=abc, f2=html, ql=kl, kl=* ;
      [0112]變形模式2包括:
      [0113]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0114]模式參數(shù):hl=www2,pl=hello, fl=abc, f2=html, ql=kl, kl=* ;
      [0115]變形模式3包括:
      [0116]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0117]模式參數(shù):h=www6,pl=hello, fl=abc, f2=html, ql=kl, kl=* ;
      [0118]變形模式4包括:
      [0119]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0120]模式參數(shù):hl=www9,pl=hello, fl=abc, f2=html, ql=kl, kl=* ;
      [0121]上述4個(gè)變形模式中的基本模式均相同,區(qū)別僅在于模式參數(shù)部分中的hi部分。因此,可以將上述4個(gè)變形模式合并成新的變形模式:
      [0122]基本模式:http://hl.test, com/pl/f 1.f2?ql=kl
      [0123]模式參數(shù):hl=www\d,pl=hello, fl=abc, f2=html, ql=kl, kl=*(\d 表不任意一個(gè)數(shù)字字符)
      [0124]在本申請(qǐng)的實(shí)施例中,將通過(guò)驗(yàn)證的變形模式稱為可用變形模式。
      [0125]需要說(shuō)明的是,步驟204是可選步驟。也就是說(shuō),在進(jìn)行完步驟203后,也可以不進(jìn)行驗(yàn)證,而是直接將分類后的URL的變形模式與歷史可用變形模式進(jìn)行合并。驗(yàn)證的目的在于使變形模式使用起來(lái)準(zhǔn)確度更高。
      [0126]另外,可用變形模式可以是已有的,也可以通過(guò)本申請(qǐng)中的方法生成。根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,可以將可用變形模式存儲(chǔ)在系統(tǒng)文件中或數(shù)據(jù)庫(kù)中,待需要時(shí)調(diào)用。
      [0127]另外,為了提高可用變形模式使用起來(lái)的準(zhǔn)確度,用于生成可用變形模式的已知網(wǎng)頁(yè)屬性和對(duì)應(yīng)的URL與用于驗(yàn)證的已知網(wǎng)頁(yè)屬性和對(duì)應(yīng)的URL可以從URL庫(kù)中隨機(jī)選取。一般地,用于生成可用變形模式的已知網(wǎng)頁(yè)屬性和對(duì)應(yīng)的URL與用于驗(yàn)證的已知網(wǎng)頁(yè)對(duì)應(yīng)的URL可以是不同的。
      [0128]圖4是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的確定網(wǎng)頁(yè)屬性的裝置400的結(jié)構(gòu)框圖。
      [0129]如圖4所示,裝置400可以包括第一結(jié)構(gòu)特征確定模塊401,用于確定已知網(wǎng)頁(yè)屬性的URL的結(jié)構(gòu)特征402 ;第二結(jié)構(gòu)特征確定模塊,用于確定目標(biāo)URL的結(jié)構(gòu)特征;比較模塊403,用于比較已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征;以及目標(biāo)URL網(wǎng)頁(yè)屬性確定模塊404,用于當(dāng)已知網(wǎng)頁(yè)屬性的URL與目標(biāo)URL的結(jié)構(gòu)特征相同或部分相同時(shí),將已知網(wǎng)頁(yè)屬性的URL的至少部分網(wǎng)頁(yè)屬性確定為目標(biāo)URL的網(wǎng)頁(yè)屬性。
      [0130]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,結(jié)構(gòu)特征可以表示為變形模式,變形模式可以包括基本模式及模式參數(shù)。
      [0131]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,在基本模式中,URL中的一個(gè)或多個(gè)元素由預(yù)定的標(biāo)識(shí)符表示,URL的模式參數(shù)記載基本模式中的各標(biāo)識(shí)符對(duì)應(yīng)的賦值。
      [0132]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,變形模式攜帶有對(duì)應(yīng)URL的網(wǎng)頁(yè)屬性。
      [0133]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,第一結(jié)構(gòu)特征確定模塊401可以進(jìn)一步包括:轉(zhuǎn)換模塊,用于將已知網(wǎng)頁(yè)屬性的URL轉(zhuǎn)換成變形模式的形式;合并和泛化模塊,用于根據(jù)網(wǎng)頁(yè)屬性對(duì)變形模式進(jìn)行合并和泛化;以及分類模塊,用于通過(guò)對(duì)經(jīng)過(guò)泛化的變形模式進(jìn)行分類,得到分類后的變形模式。
      [0134]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,第一結(jié)構(gòu)特征確定模塊401可以進(jìn)一步包括:變形模式合并模塊,用于將分類后的變形模式與歷史可用變形模式進(jìn)行合并。
      [0135]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,變形模式合并模塊可以進(jìn)一步包括:驗(yàn)證模塊,用于對(duì)分類后的變形模式進(jìn)行驗(yàn)證;以及變形模式合并子模塊,用于將通過(guò)驗(yàn)證的變形模式與歷史可用變形模式進(jìn)行合并。
      [0136]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,變形模式合并模塊可以進(jìn)一步包括:合并和泛化子模塊,用于通過(guò)樹(shù)結(jié)構(gòu)來(lái)實(shí)現(xiàn)根據(jù)網(wǎng)頁(yè)屬性對(duì)變形模式進(jìn)行合并和泛化。
      [0137]綜上所述,采用根據(jù)本申請(qǐng)的方法來(lái)得到可用變形模式,一方面能夠保證變形模式的粒度適中,另一方面也能對(duì)這些模式進(jìn)行自動(dòng)分類;同時(shí),采用自動(dòng)驗(yàn)證的方式,能進(jìn)一步提高變形模式分類的精度,達(dá)到跟人工標(biāo)注分類相近的精度。這種根據(jù)已下載網(wǎng)頁(yè)的URL和屬性生成變形模式的方法能夠在全網(wǎng)規(guī)模上自動(dòng)實(shí)施。測(cè)試結(jié)果顯示,通過(guò)該方法生成的變形模式能夠覆蓋到所有網(wǎng)頁(yè)庫(kù)中75%以上的URL,自動(dòng)分類的準(zhǔn)確率也超過(guò)95%。
      [0138]需要說(shuō)明的是,盡管以上以搜索引擎為例對(duì)本申請(qǐng)進(jìn)行了描述,但是,本申請(qǐng)的應(yīng)用不限于搜索引擎,而是可以應(yīng)用于任何需要識(shí)別(預(yù)判)網(wǎng)頁(yè)屬性的場(chǎng)景。
      [0139]在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。
      [0140]計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤(pán)只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(pán)(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤(pán)存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
      [0141]本說(shuō)明書(shū)中的各個(gè)實(shí)施例一般采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。
      [0142]本申請(qǐng)可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊或單元。一般地,程序模塊或單元可以包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。一般來(lái)說(shuō),程序模塊或單元可以由軟件、硬件或兩者的結(jié)合來(lái)實(shí)現(xiàn)。也可以在分布式計(jì)算環(huán)境中實(shí)踐本申請(qǐng),在這些分布式計(jì)算環(huán)境中,由通過(guò)通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊或單元可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
      [0143]最后,還需要說(shuō)明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、商品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、商品或者設(shè)備中還存在另外的相同要素。
      [0144]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
      [0145]本文中應(yīng)用了具體個(gè)例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本申請(qǐng)的方法及其主要思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。
      【權(quán)利要求】
      1.一種確定網(wǎng)頁(yè)屬性的方法,其特征在于,包括: 確定已知網(wǎng)頁(yè)屬性的的結(jié)構(gòu)特征; 確定目標(biāo)[此的結(jié)構(gòu)特征; 比較已知網(wǎng)頁(yè)屬性的與目標(biāo)的結(jié)構(gòu)特征;以及 當(dāng)已知網(wǎng)頁(yè)屬性的與目標(biāo)的結(jié)構(gòu)特征相同或部分相同時(shí),將已知網(wǎng)頁(yè)屬性的 的至少部分網(wǎng)頁(yè)屬性確定為目標(biāo)的網(wǎng)頁(yè)屬性。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述結(jié)構(gòu)特征表示為變形模式,所述變形模式包括基本模式及模式參數(shù)。
      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述基本模式中,中的一個(gè)或多個(gè)元素由預(yù)定的標(biāo)識(shí)符表示,的模式參數(shù)記載基本模式中的各標(biāo)識(shí)符對(duì)應(yīng)的賦值。
      4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定已知網(wǎng)頁(yè)屬性的的結(jié)構(gòu)特征的步驟進(jìn)一步包括: 將所述已知網(wǎng)頁(yè)屬性的轉(zhuǎn)換成所述變形模式的形式; 根據(jù)網(wǎng)頁(yè)屬性對(duì)所述變形模式進(jìn)行合并和泛化;以及 通過(guò)對(duì)經(jīng)過(guò)泛化的所述變形模式進(jìn)行分類,得到分類后的變形模式。
      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述確定已知網(wǎng)頁(yè)屬性的的結(jié)構(gòu)特征的步驟進(jìn)一步包括: 將所述分類后的變形模式與歷史可用變形模式進(jìn)行合并。
      6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述將所述分類后的變形模式與歷史可用變形模式進(jìn)行合并的步驟進(jìn)一步包括: 對(duì)所述分類后的變形模式進(jìn)行驗(yàn)證;以及 將通過(guò)驗(yàn)證的變形模式與歷史可用變形模式進(jìn)行合并。
      7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)網(wǎng)頁(yè)屬性對(duì)變形模式進(jìn)行合并和泛化的步驟進(jìn)一步包括: 通過(guò)樹(shù)結(jié)構(gòu)來(lái)實(shí)現(xiàn)根據(jù)網(wǎng)頁(yè)屬性對(duì)變形模式進(jìn)行合并和泛化。
      8.一種確定網(wǎng)頁(yè)屬性的裝置,其特征在于,包括: 第一結(jié)構(gòu)特征確定模塊,用于確定已知網(wǎng)頁(yè)屬性的的結(jié)構(gòu)特征; 第二結(jié)構(gòu)特征確定模塊,用于確定目標(biāo)[此的結(jié)構(gòu)特征; 比較模塊,用于比較已知網(wǎng)頁(yè)屬性的與目標(biāo)的結(jié)構(gòu)特征;以及目標(biāo)網(wǎng)頁(yè)屬性確定模塊,用于當(dāng)已知網(wǎng)頁(yè)屬性的與目標(biāo)的結(jié)構(gòu)特征相同或部分相同時(shí),將已知網(wǎng)頁(yè)屬性的的至少部分網(wǎng)頁(yè)屬性確定為目標(biāo)的網(wǎng)頁(yè)屬性。
      9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述結(jié)構(gòu)特征表示為變形模式,所述變形模式包括基本模式及模式參數(shù)。
      10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,在所述基本模式中,中的一個(gè)或多個(gè)元素由預(yù)定的標(biāo)識(shí)符表示,的模式參數(shù)記載基本模式中的各標(biāo)識(shí)符對(duì)應(yīng)的賦值。
      11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一結(jié)構(gòu)特征確定模塊進(jìn)一步包括: 轉(zhuǎn)換模塊,用于將所述已知網(wǎng)頁(yè)屬性的轉(zhuǎn)換成所述變形模式的形式; 合并和泛化模塊,用于根據(jù)網(wǎng)頁(yè)屬性對(duì)所述變形模式進(jìn)行合并和泛化; 以及 分類模塊,用于通過(guò)對(duì)經(jīng)過(guò)泛化的所述變形模式進(jìn)行分類,得到分類后的變形模式。
      12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一結(jié)構(gòu)特征確定模塊進(jìn)一步包括: 變形模式合并模塊,用于將所述分類后的變形模式與歷史可用變形模式進(jìn)行合并。
      13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述變形模式合并模塊進(jìn)一步包括: 驗(yàn)證模塊,用于對(duì)所述分類后的變形模式進(jìn)行驗(yàn)證;以及 變形模式合并子模塊,用于將通過(guò)驗(yàn)證的變形模式與歷史可用變形模式進(jìn)行合并。
      14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述變形模式合并模塊進(jìn)一步包括: 合并和泛化子模塊,用于通過(guò)樹(shù)結(jié)構(gòu)來(lái)實(shí)現(xiàn)根據(jù)網(wǎng)頁(yè)屬性對(duì)變形模式進(jìn)行合并和泛化。
      【文檔編號(hào)】G06F17/30GK104376000SQ201310351347
      【公開(kāi)日】2015年2月25日 申請(qǐng)日期:2013年8月13日 優(yōu)先權(quán)日:2013年8月13日
      【發(fā)明者】蔡同利, 洪文明, 吳俊峰, 徐健, 黃玉燕, 陳力, 楊永輝, 劉暉, 何遠(yuǎn)銀, 曲廣凡, 李文祥 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1