Url合并處理方法和裝置的制造方法
【專利摘要】本發(fā)明實施例公開了一種URL合并處理方法和裝置。所述方法包括:獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合;根據(jù)URL的構(gòu)成規(guī)范,對URL集合中的URL進行結(jié)構(gòu)拆分,生成與URL對應(yīng)的特征集;根據(jù)與特征集中包括的結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識;根據(jù)泛化標(biāo)識,對URL集合中的URL進行合并處理,生成至少一個URL合并簇。本發(fā)明的技術(shù)方案可以實現(xiàn)將具有相似結(jié)構(gòu)的網(wǎng)頁所對應(yīng)的URL合并起來的技術(shù)效果,不僅大大降低了帶寬與存儲消耗,也使得網(wǎng)頁的分類合并技術(shù)有了更簡便快捷的方式。
【專利說明】
URL合并處理方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實施例涉及信息處理技術(shù),尤其涉及一種URL合并處理方法和裝置。
【背景技術(shù)】
[0002] 隨著Web2.0的到來,互聯(lián)網(wǎng)的數(shù)據(jù)呈現(xiàn)著爆炸性的增長,一個突出的表現(xiàn)便是URL (Uniform Resource Locator,統(tǒng)一資源定位符)數(shù)量的增長。為了進一步增強用戶體驗、或 記錄用戶點擊時的一些會話信息,網(wǎng)站會對應(yīng)產(chǎn)出很多重復(fù)URL,這些重復(fù)URL僅有少部分 字符串不一致,但對應(yīng)的是同樣、或者相似的網(wǎng)頁內(nèi)容。
[0003] 重復(fù)URL大量存在,給網(wǎng)頁抓取、解析的工作帶來極大挑戰(zhàn)。例如:搜索引擎在網(wǎng)頁 抓取過程中需要反復(fù)抓取類似內(nèi)容的文檔,極大地占用了帶寬和存儲資源;再例如:在使用 一些基于鏈接的網(wǎng)頁排序算法時,這些相似性較大的網(wǎng)頁URL將影響各個鏈接的網(wǎng)頁排序 分?jǐn)?shù)計算;此外,在進行網(wǎng)站安全性檢測時,大量結(jié)構(gòu)類似的網(wǎng)頁被反復(fù)檢測,也會帶來極 大的資源耗費。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明實施例提供了一種URL合并處理方法和裝置,以減輕由網(wǎng)絡(luò)中存 在的大量重復(fù)URL所帶來的資源壓力。
[0005] 在第一方面,本發(fā)明實施例提供了一種URL合并處理方法,包括:
[0006] 獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合;
[0007]根據(jù)URL的構(gòu)成規(guī)范,對所述URL集合中的URL進行結(jié)構(gòu)拆分,生成與URL對應(yīng)的特 征集,其中,所述特征集包括:至少一個結(jié)構(gòu)標(biāo)識,以及與所述結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值;
[0008] 根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識;
[0009] 根據(jù)所述泛化標(biāo)識,對所述URL集合中的URL進行合并處理,生成至少一個URL合并 簇。
[001 0]在第二方面,本發(fā)明實施例提供了一種URL合并處理裝置,包括:
[0011] URL集合獲取模塊,用于獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合;
[0012] URL特征集生成模塊,用于根據(jù)URL的構(gòu)成規(guī)范,對所述URL集合中的URL進行結(jié)構(gòu) 拆分,生成與URL對應(yīng)的特征集,其中,所述特征集包括:至少一個結(jié)構(gòu)標(biāo)識,以及與所述結(jié) 構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值;
[0013] 泛化標(biāo)識獲取模塊,用于根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié) 構(gòu)標(biāo)識中的泛化標(biāo)識;
[0014] URL合并簇生成模塊,用于根據(jù)所述泛化標(biāo)識,對所述URL集合中的URL進行合并處 理,生成至少一個URL合并簇。
[0015] 本發(fā)明實施例獲取與同一網(wǎng)站對應(yīng)的全部URL,根據(jù)URL的構(gòu)成規(guī)范,對各URL進行 結(jié)構(gòu)拆分,生成與各URL分別對應(yīng)的特征集,根據(jù)特征集中包括的結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的 數(shù)據(jù)特征,對各URL進行泛化處理,并基于泛化處理結(jié)果對各URL進行合并,可以實現(xiàn)將具有 相似結(jié)構(gòu)的網(wǎng)頁所對應(yīng)的URL合并起來的技術(shù)效果,不僅大大降低了帶寬與存儲消耗,也使 得網(wǎng)頁的分類合并技術(shù)有了更簡便快捷的方式。
【附圖說明】
[0016]圖la是本發(fā)明第一實施例的一種URL合并處理方法的流程圖;
[0017]圖lb是本發(fā)明第一實施例的一種對URL進行結(jié)構(gòu)拆分并生成與URL對應(yīng)的特征集 的不意圖;
[0018]圖2是本發(fā)明第二實施例的一種URL合并處理方法的流程圖;
[0019]圖3a是本發(fā)明第三實施例的一種URL合并處理方法的流程圖;
[0020]圖3b是本發(fā)明第三實施例的一種計算與結(jié)構(gòu)值集合對應(yīng)的信息熵的流程示意圖; [0021]圖4是本發(fā)明第四實施例的一種URL合并處理裝置的結(jié)構(gòu)圖。
【具體實施方式】
[0022]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明具體實 施例作進一步的詳細(xì)描述。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發(fā)明, 而非對本發(fā)明的限定。
[0023]另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非 全部內(nèi)容。在更加詳細(xì)地討論示例性實施例之前應(yīng)當(dāng)提到的是,一些示例性實施例被描述 成作為流程圖描繪的處理或方法。雖然流程圖將各項操作(或步驟)描述成順序的處理,但 是其中的許多操作可以被并行地、并發(fā)地或者同時實施。此外,各項操作的順序可以被重新 安排。當(dāng)其操作完成時所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。 所述處理可以對應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0024] 第一實施例
[0025]圖la為本發(fā)明第一實施例提供的一種URL合并處理方法的流程圖,本實施例的方 法可以由URL合并處理裝置來執(zhí)行,該裝置可通過硬件和/或軟件的方式實現(xiàn),并一般可集 成于用于完成URL合并處理功能的服務(wù)器中。本實施例的方法具體包括:
[0026] 110、獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合。
[0027] 一般來說,網(wǎng)站就是多個網(wǎng)頁的集合,一個網(wǎng)頁對應(yīng)一個獨立的URL地址。為了獲 取與一個目標(biāo)網(wǎng)站(例如,WWW.baidu. com)對應(yīng)的全部URL地址。在現(xiàn)有技術(shù)中,主要可以通 過網(wǎng)絡(luò)爬蟲的方式,在網(wǎng)絡(luò)中抓取與該目標(biāo)網(wǎng)站對應(yīng)的URL集合。其中,所述URL集合中包括 至少一個與目標(biāo)網(wǎng)站中的網(wǎng)頁對應(yīng)的URL地址。
[0028] 但是,在互聯(lián)網(wǎng)網(wǎng)站上,存在著數(shù)據(jù)孤島問題,也就是存在著大量的URL無法通過 超鏈接來直接抵達(dá)。這些URL往往掩藏在網(wǎng)站的搜索結(jié)果頁面下、或者是通過某些特殊的操 作才能讓用戶訪問到。因此,如果通過網(wǎng)絡(luò)爬蟲抓取的方式來獲取與一個目標(biāo)網(wǎng)站對應(yīng)的 URL來生成URL集合,則會出現(xiàn)網(wǎng)站中很多URL無法被獲取到的技術(shù)問題。
[0029]在本發(fā)明實施例的一個優(yōu)選的實施方式中,發(fā)明人提出了一種不使用網(wǎng)絡(luò)爬蟲抓 取,而是通過獲取用戶在目標(biāo)網(wǎng)站下的瀏覽日志信息的方式,來獲取與一個目標(biāo)網(wǎng)站對應(yīng) 的URL集合的方法,以避免上述技術(shù)問題的出現(xiàn),從而可以更系統(tǒng)全面地分析整個網(wǎng)站下的 URL特征結(jié)構(gòu)。也即:根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合。
[0030] -般來說,當(dāng)用戶對一個網(wǎng)站進行網(wǎng)頁訪問時,用戶訪問網(wǎng)頁所使用的瀏覽器,以 及網(wǎng)站的服務(wù)器均生成相應(yīng)的用戶瀏覽日志信息,該瀏覽日志信息中記錄有用戶所訪問的 網(wǎng)頁的URL地址。
[0031] 通過獲取上述用戶瀏覽日志信息(典型的,通過設(shè)定的網(wǎng)絡(luò)統(tǒng)計工具),即可獲取 與目標(biāo)網(wǎng)站對應(yīng)的URL集合。
[0032] 120、根據(jù)URL的構(gòu)成規(guī)范,對所述URL集合中的URL進行結(jié)構(gòu)拆分,生成與URL對應(yīng) 的特征集。
[0033] 可以理解的是,URL是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡 潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址?;ヂ?lián)網(wǎng)上的每個文件都有一個唯一的URL,它包含 的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。相應(yīng)的,網(wǎng)絡(luò)中存在的各種URL是必須 滿足一定的構(gòu)成規(guī)范的。
[0034]其中,基本URL包含模式(或稱協(xié)議)、服務(wù)器名稱(或IP地址)、路徑和文件名,如 "協(xié)議://授權(quán)/路徑?查詢"。完整的、帶有授權(quán)部分的普通統(tǒng)一資源標(biāo)志符語法如下:協(xié) 議://用戶名:密碼@子域名.域名.頂級域名:端□號/目錄/文件名.文件后綴?參數(shù)=值財示 ν·、ι、〇
[0035] 相應(yīng)的,可以根據(jù)URL的構(gòu)成規(guī)范,對所述URL集合中的URL進行結(jié)構(gòu)拆分,生成與 URL對應(yīng)的特征集。其中,所述特征集具體包括:至少一個結(jié)構(gòu)標(biāo)識,以及與所述結(jié)構(gòu)標(biāo)識對 應(yīng)的結(jié)構(gòu)值。
[0036] 進一步的,所述結(jié)構(gòu)標(biāo)識具體可以包括:協(xié)議標(biāo)識、至少一個域名標(biāo)識、至少一個 路徑標(biāo)識以及至少一個參數(shù)標(biāo)識。
[0037]其中,在圖lb中示出了本發(fā)明第一實施例的一種對URL進行結(jié)構(gòu)拆分并生成與URL 對應(yīng)的特征集的示意圖。如圖lb所示,待拆分的URL地址具體為:
[0038] http: //m. ctrip. com/html5/trains/?sourceid = 497&allianceid = 4897 ;
[0039] 通過根據(jù)URL的標(biāo)準(zhǔn)語法,識別出該URL中包括的特殊符號(典型的:7"、 "?"以及"&"等),即可完成對該URL地址的結(jié)構(gòu)拆分。
[0040] 特殊的,如果在URL的域名以及路徑部分,識別出下劃線"_"時,應(yīng)當(dāng)看作7"繼續(xù) 進行分割,以實現(xiàn)將域名部分劃分為多個域名,將路徑部分劃分為多個路徑。
[0041 ] 如圖lb所示,與該URL地址對應(yīng)的結(jié)構(gòu)標(biāo)識可以包括:協(xié)議標(biāo)識(schema)、子域名 標(biāo)識(sub domain)、頂級域名(top domain)、第一路徑標(biāo)識(path_0)、第二路徑標(biāo)識(path_ 1)、第一參數(shù)標(biāo)識(sourceid)以及第二參數(shù)標(biāo)識(allianceid)。
[0042]根據(jù)上述結(jié)構(gòu)標(biāo)識對該URL地址進行結(jié)構(gòu)拆分,可以確定與協(xié)議標(biāo)識對應(yīng)的結(jié)構(gòu) 值為http、與子域名標(biāo)識對應(yīng)的結(jié)構(gòu)值m、與頂級域名對應(yīng)的結(jié)構(gòu)值為ctrip. com、與第一路 徑標(biāo)識對應(yīng)的結(jié)構(gòu)值為html5、與第二路徑標(biāo)識對應(yīng)的結(jié)構(gòu)值為trains、與第一參數(shù)標(biāo)識對 應(yīng)的結(jié)構(gòu)值為497、以及與第二參數(shù)標(biāo)識對應(yīng)的結(jié)構(gòu)值為4897。
[0043] 相應(yīng)的,可以得到與該URL地址對應(yīng)的特征集為:{schema:http;sub domain:m; top domain:ctrip·com;path_0:html5;path_l:trains;sourceid:497;allianceid: 4897}〇
[0044] 130、根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo) 識。
[0045] 本發(fā)明實施例所依據(jù)的假設(shè)為:具有相同結(jié)構(gòu)的URL地址,頁面功能相同;即具有 相似結(jié)構(gòu)的URL地址所對應(yīng)的網(wǎng)頁,也應(yīng)該具有相似的結(jié)構(gòu)。為了更加直觀的進行說明,首 先對一些重復(fù)URL示例如下:
[0046] http://stockpage.10jqka. com.cn/600429/company/?tj = 1;
[0047] http://stockpage.10jqka. com.cn/600428/company/?tj = 3;
[0048] 通過示例可以看出,第一個URL與第二個URL之間僅有少部分字符串不一致,但實 際上兩者對應(yīng)的是同樣、或者相似的網(wǎng)頁內(nèi)容。
[0049] 從直觀理解上看,這兩個URL應(yīng)該具有同一功能,描述的同一類型的內(nèi)容,因此可 以將這兩個URL進行合并處理,合并方法就是將URL中的特定位置值進行泛化處理,例如,將 這兩個URL地址泛化為:
[0050] http://stockpage.10jqka. com.cn/*/company/?tj = *;
[0051 ] http://stockpage· 10jqka.com.cn/*/company/?tj = *,其中 代表被泛化的內(nèi) 容。
[0052] 通過上述泛化處理后,即可將這兩個URL合并于同一URL集合中。因此,本實施例的 方法的核心在于如何確定URL中的哪些位置的數(shù)據(jù)可以被泛化。
[0053] 在本實施例中,主要根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,確定與哪種類型 的結(jié)構(gòu)值對應(yīng)的結(jié)構(gòu)標(biāo)識可以被泛化。
[0054]可以理解的是,如果一個結(jié)構(gòu)值的不確定性很高,說明該不確定性的內(nèi)容無法用 來表征同一類型的網(wǎng)頁內(nèi)容,則該不確定性高的結(jié)構(gòu)值可以被泛化處理。因此,可以通過結(jié) 構(gòu)值的不確定性,來確定URL中的哪些結(jié)構(gòu)標(biāo)識可以被泛化;
[0055]另一方面,數(shù)據(jù)長度比較大的結(jié)構(gòu)值,或者包含數(shù)字或者字母內(nèi)容比較多的結(jié)構(gòu) 值,其一般可以用于表征同一類型的多個相似網(wǎng)頁,因此可以通過結(jié)構(gòu)值的數(shù)據(jù)類型,和/ 或結(jié)構(gòu)值的數(shù)據(jù)長度,來確定URL中的哪些結(jié)構(gòu)標(biāo)識可以被泛化。
[0056] 140、根據(jù)所述泛化標(biāo)識,對所述URL集合中的URL進行合并處理,生成至少一個URL 合并簇。
[0057]在本實施例中,在獲取泛化標(biāo)識后,可以通過比對URL集合中各URL所包含的泛化 標(biāo)識是否相同,實現(xiàn)對所述URL集合中的URL進行合并處理;還可以根據(jù)所述泛化標(biāo)識,生成 與各URL對應(yīng)的泛化結(jié)構(gòu)符,即:帶有等泛化符的URL地址,通過比對與各URL對應(yīng)的泛化 結(jié)構(gòu)符是否相同,實現(xiàn)對對所述URL集合中的各URL進行合并處理等,本實施例對此并不進 行限制。
[0058]本發(fā)明實施例獲取與同一網(wǎng)站對應(yīng)的全部URL,根據(jù)URL的構(gòu)成規(guī)范,對各URL進行 結(jié)構(gòu)拆分,生成與各URL分別對應(yīng)的特征集,根據(jù)特征集中包括的結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的 數(shù)據(jù)特征,對各URL進行泛化處理,并基于泛化處理結(jié)果對各URL進行合并,可以實現(xiàn)將具有 相似結(jié)構(gòu)的網(wǎng)頁所對應(yīng)的URL合并起來的技術(shù)效果,不僅大大降低了帶寬與存儲消耗,也使 得網(wǎng)頁的分類合并技術(shù)有了更簡便快捷的方式。
[0059]需要重點說明的是,通過本實施例的URL合并處理方法只采用少量的抓取帶寬和 計算資源,即可將結(jié)構(gòu)相似度較高的網(wǎng)頁分組到一個合并簇中,對于同一合并簇中的網(wǎng)頁 僅需要抽樣分析即可得到該合并簇內(nèi)所有網(wǎng)頁的特征信息,可以有效緩解資源壓力,也為 更為高級的網(wǎng)頁分析奠定基礎(chǔ),對了解網(wǎng)站的整體結(jié)構(gòu)有較大幫助。
[0060] 本發(fā)明實施例的技術(shù)方案的產(chǎn)出是目標(biāo)網(wǎng)站下所有的URL合并簇,每個合并簇可 以用URL樹狀圖或者正則表達(dá)式來展示。該URL合并簇可以具體用于:
[0061] 1、主題爬蟲:屬于同一個合并簇的URL,可以認(rèn)為有相似的內(nèi)容、相同的主題,針對 性地爬取一個URL合并簇中的若干URL,可以大幅降低全面爬取的代價;
[0062] 2、網(wǎng)站安全性監(jiān)測:對于目標(biāo)網(wǎng)站下的每個URL合并簇,僅需要針對每個簇抽樣幾 個URL進行檢測,即可得到整個URL合并簇的安全性情況;
[0063] 3、網(wǎng)頁結(jié)構(gòu)性聚類與分析:可以根據(jù)泛化后的結(jié)果,將具有相同功能的URL簇聚集 起來作為一種功能類型集合,而每個URL合并簇僅需要寫一份解析規(guī)則,即可進行全面解 析;
[0064] 4、構(gòu)建站點拓?fù)鋱D:用泛化后的URL泛化結(jié)構(gòu)符來代替之前的具體URL超鏈接,可 以準(zhǔn)確得到目標(biāo)網(wǎng)站內(nèi)部的關(guān)鍵路徑和URL泛化結(jié)構(gòu)符之間的關(guān)系,找到真正有意義的站 點拓?fù)涔羌堋?br>[0065] 第二實施例
[0066]圖2a是本發(fā)明第二實施例的一種URL合并處理方法的流程圖。本實施例以上述實 施例為基礎(chǔ)進行優(yōu)化,在本實施例中,將獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合優(yōu)化為:根據(jù)用戶 的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合;同時,還優(yōu)選包括:依次獲取一個所述 URL合并簇作為驗證簇;從所述驗證簇中,獲取至少兩個URL作為驗證URL;下載與所述驗證 URL對應(yīng)的至少兩個驗證網(wǎng)頁的網(wǎng)頁內(nèi)容;如果根據(jù)所述網(wǎng)頁內(nèi)容,識別所述驗證網(wǎng)頁之間 的網(wǎng)頁結(jié)構(gòu)不相同,則將所述驗證簇中的URL進行解合并;
[0067]此外,將根據(jù)所述網(wǎng)頁內(nèi)容,識別所述驗證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)不相同具體優(yōu)化 為:分別獲取各所述驗證網(wǎng)頁中包括的至少一個按鈕;如果確定不同驗證網(wǎng)頁中的按鈕的 路徑關(guān)聯(lián)信息不滿足相似網(wǎng)頁條件,則識別所述驗證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)不相同。相應(yīng)的, 本實施例的方法具體包括:
[0068] 210、根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合。
[0069] 2 20、根據(jù)URL的構(gòu)成規(guī)范,對所述URL集合中的URL進行結(jié)構(gòu)拆分,生成與URL對應(yīng) 的特征集。
[0070] 其中,所述特征集包括:至少一個結(jié)構(gòu)標(biāo)識,以及與所述結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值;
[0071] 230、根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo) 識。
[0072] 240、根據(jù)所述泛化標(biāo)識,對所述URL集合中的URL進行合并處理,生成至少一個URL 合并簇。
[0073]在本實施例中,進一步包括對URL合并簇的合并效果進行驗證的操作,驗證同一 URL合并簇中包括的至少兩個URL是否具有相同或者相近的網(wǎng)頁結(jié)構(gòu)以及頁面功能。如果驗 證通過,則該URL合并簇中的各URL可以合并在一起;否則,該URL合并簇中的各URL則不能合 并在一起。其中,可以通過人工抽樣驗證的方式對URL合并簇進行驗證,在本實施例中,則給 出了一種自動化驗證的方式。
[0074] 250、依次獲取一個所述URL合并簇作為驗證簇。
[0075] 260、從所述驗證簇中,獲取至少兩個URL作為驗證URL。
[0076] 270、下載與所述驗證URL對應(yīng)的至少兩個驗證網(wǎng)頁的網(wǎng)頁內(nèi)容。
[0077] 280、分別獲取各所述驗證網(wǎng)頁中包括的至少一個按鈕。
[0078] 290、判斷不同驗證網(wǎng)頁中的按鈕的路徑關(guān)聯(lián)信息是否滿足相似網(wǎng)頁條件:若是, 執(zhí)行2100;否則,執(zhí)行2110。
[0079] 所述路徑關(guān)聯(lián)信息包括下述至少一項:按鈕在頁面中的層次、按鈕的類名、按鈕的 名稱以及按鈕的標(biāo)識名。
[0080] 2100、識別所述驗證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)相同,執(zhí)行2130。
[0081] 2110、識別所述驗證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)不相同,執(zhí)行2120。
[0082] 2120、將所述驗證簇中的URL進行解合并,執(zhí)行2130。
[0083] 2130、判斷是否完成對全部URL合并簇的處理:若是,結(jié)束流程;否則,返回執(zhí)行 250〇
[0084]在本實施例中,通過自動化檢查特定元素(典型的,與URL地址對應(yīng)的網(wǎng)頁中包括 的按鈕)的路徑關(guān)聯(lián)信息是否一致的方法,對URL合并簇中包括的URL地址進行驗證。
[0085] 即:對于抽樣出來的第一URL地址url_a以及第二URL地址url_b,下載其對應(yīng)的網(wǎng) 頁,得到與這兩個網(wǎng)頁上所有的button(按鈕)對應(yīng)的路徑關(guān)聯(lián)信息(button在頁面的層次 關(guān)系、以及該button上的類名以及button的標(biāo)識信息),如果各個button的路徑關(guān)聯(lián)信息均 一致,則可以認(rèn)為抽樣的url_a以及url_b具有相同的網(wǎng)頁結(jié)構(gòu),可以歸集為同一個URL合并 簇,該URL合并簇可用,對于未通過該驗證的URL合并簇,其內(nèi)部的URL則不能泛化在一起。 [0086]本實施例的技術(shù)方案在生成URL合并簇之后,繼續(xù)對URL合并簇的可用性進行驗 證,獲取驗證簇中包括的至少兩個URL對應(yīng)的網(wǎng)頁的網(wǎng)頁內(nèi)容后,分別獲取各網(wǎng)頁中包括的 至少一個按鈕,通過判斷不同驗證網(wǎng)頁中的按鈕的路徑關(guān)聯(lián)信息是否滿足相似網(wǎng)頁條件, 來確定上述網(wǎng)頁的網(wǎng)頁結(jié)構(gòu)是否相同,上述驗證過程保證了與相同或者相似的網(wǎng)頁對應(yīng)的 URL被合并于一個URL合并簇中,保證了合并處理生成的URL合并簇的可用性。
[0087] 第三實施例
[0088]圖3是本發(fā)明第三實施例的一種URL合并處理方法的流程圖。本實施例以上述實施 例為基礎(chǔ)進行優(yōu)化,在本實施例中,將根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述 結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識具體優(yōu)化為:根據(jù)與所述URL集合中各URL分別對應(yīng)的特征集,生成 與各所述結(jié)構(gòu)標(biāo)識分別對應(yīng)的結(jié)構(gòu)值集合;根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征, 計算與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值;根據(jù)與各結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化 權(quán)重值,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識;
[0089]同時,將根據(jù)所述泛化標(biāo)識,對所述URL集合中的URL進行合并處理,生成至少一個 URL合并簇具體優(yōu)化為:根據(jù)所述泛化標(biāo)識,生成與所述URL集合中各URL分別對應(yīng)的泛化結(jié) 構(gòu)符;將所述泛化結(jié)構(gòu)符相同的各URL歸集于同一URL合并簇中。相應(yīng)的,本實施例的方法具 體包括:
[0090] 310、根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合。
[0091] 320、根據(jù)URL的構(gòu)成規(guī)范,對所述URL集合中的URL進行結(jié)構(gòu)拆分,生成與URL對應(yīng) 的特征集。
[0092]其中,所述特征集包括:至少一個結(jié)構(gòu)標(biāo)識,以及與所述結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值; [0093] 330、根據(jù)與所述URL集合中各URL分別對應(yīng)的特征集,生成與各所述結(jié)構(gòu)標(biāo)識分別 對應(yīng)的結(jié)構(gòu)值集合。
[0094] 在一個具體的例子中,與URL1對應(yīng)的特征集為:{schema:http;sub domain:m;top domain:ctrip. com;path_0:html5;path_l:trains;sourceid:497;al1ianceid:4897};
[0095] 與與URL2對應(yīng)的特征集為:{ schema : http ; sub domain : n ; top domain : ctrip·com;path_0:html5;path_l: trains;sourceid:3215;allianceid:123}〇
[0096]貝與結(jié)構(gòu)標(biāo)識schema對應(yīng)的結(jié)構(gòu)值集合為{http};與結(jié)構(gòu)標(biāo)識sub domain對應(yīng) 的結(jié)構(gòu)值集合為{m,n};與結(jié)構(gòu)標(biāo)識top domain對應(yīng)的結(jié)構(gòu)值集合為{ctrip.com};與結(jié)構(gòu) 標(biāo)識p a t h _ 0對應(yīng)的結(jié)構(gòu)值集合為{h t m 15 };與結(jié)構(gòu)標(biāo)識p a t h _ 1對應(yīng)的結(jié)構(gòu)值集合為 {trains };與結(jié)構(gòu)標(biāo)識sourceid對應(yīng)的結(jié)構(gòu)值集合為{497,3215 }以及與結(jié)構(gòu)標(biāo)識 allianceid對應(yīng)的結(jié)構(gòu)值集合為{4897,123}。
[0097] 340、根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征,計算與所述結(jié)構(gòu)值集合對應(yīng)的 結(jié)構(gòu)標(biāo)識的泛化權(quán)重值。
[0098] 在本實施例中,可以通過各種方式計算與結(jié)構(gòu)標(biāo)識對應(yīng)的泛化權(quán)重值,例如,人工 設(shè)定的方式,計算不同結(jié)構(gòu)值集合對應(yīng)的信息熵的方式以及根據(jù)結(jié)構(gòu)值集合的數(shù)據(jù)長度, 和/或數(shù)據(jù)類型對各結(jié)構(gòu)值集合進行評分的方式,計算與各結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的 泛化權(quán)重值,本實施例對此并不進行限制。
[0099] 在本實施例的一個優(yōu)選的實施方式中,根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特 征,計算與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值具體可以包括:
[0100] 統(tǒng)計所述結(jié)構(gòu)值集合中,與不同取值的結(jié)構(gòu)值分別對應(yīng)的結(jié)構(gòu)值數(shù)量;根據(jù)所述 與不同取值的結(jié)構(gòu)值分別對應(yīng)的結(jié)構(gòu)值數(shù)量,計算與各所述結(jié)構(gòu)值集合分別對應(yīng)的信息 熵;將計算得到的所述信息熵作為與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值。
[0101] 如第一實施例所述,可以通過結(jié)構(gòu)值的不確定性,來確定URL中的哪些結(jié)構(gòu)標(biāo)識可 以被泛化,結(jié)構(gòu)值的不確定性越大,與結(jié)構(gòu)值對應(yīng)的結(jié)構(gòu)標(biāo)識越有可能被泛化。具體的,可 以通過計算信息熵的方式,來計算一個結(jié)構(gòu)值的不確定性。信息熵值越大表明該結(jié)構(gòu)值部 分的不確定性越大。而極度不確定的部分是無法用于表征同一類型網(wǎng)頁的,故信息熵越大, 則越應(yīng)該被泛化。在圖3b是本發(fā)明第三實施例的一種計算與結(jié)構(gòu)值集合對應(yīng)的信息熵的流 程不意圖。
[0102] 其中,信息熵的計算公式為:pi;其中,η為一個結(jié)構(gòu)值集合中包 括的結(jié)構(gòu)值不同取值的數(shù)量;pi代表結(jié)構(gòu)值集合中第i個取值的結(jié)構(gòu)值的出現(xiàn)概率,pi =第 i個取值的結(jié)構(gòu)值數(shù)量/結(jié)構(gòu)值集合中包括的結(jié)構(gòu)值總數(shù)量。
[0103] 如圖3b所示,與結(jié)構(gòu)標(biāo)識sub domain對應(yīng)的結(jié)構(gòu)值集合中包括的結(jié)構(gòu)值不同取值 的數(shù)量n = 3,其中,這3個結(jié)構(gòu)值的取值分別為"m"、"3g"以及"www"。在該結(jié)構(gòu)值集合中:取 值為"m"的結(jié)構(gòu)值數(shù)量為80000;取值為"3g"的結(jié)構(gòu)值數(shù)量為40000,取值為"www"的結(jié)構(gòu)值 數(shù)量為75000;相應(yīng)的,該結(jié)構(gòu)值集合中包括的結(jié)構(gòu)值總數(shù)量為80000+40000+75000 = 195000。
[0104] 進而可以計算與"m"對應(yīng)的pi = 80000/195000 = 0.4103,與"3g"對應(yīng)的p2 = 40000/195000 = 0 · 2051,與 "www" 對應(yīng)的p3 = 75000/195000 = 0 · 3846。
[0105] 將上述計算得到的pl、p2以及p3帶入公式:* pi,.即可得到對應(yīng)的 信息熵值0.459。
[0106] 在本實施例的另一個優(yōu)選的實施方式中,根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù) 特征,計算與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值具體還可以包括:
[0107] 根據(jù)所述結(jié)構(gòu)值集合中結(jié)構(gòu)值的數(shù)據(jù)類型,和/或結(jié)構(gòu)值的數(shù)據(jù)長度,對各所述結(jié) 構(gòu)值集合進行評分;將評分結(jié)果作為與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值。
[0108] 在一個具體的例子中,一個結(jié)構(gòu)值集合中包括的結(jié)構(gòu)值的數(shù)據(jù)長度越長,數(shù)據(jù)類 型(典型的,字母以及數(shù)字等)種類越多,以及數(shù)字形式的數(shù)據(jù)越多,則該結(jié)構(gòu)值集合的評分 值越大,相應(yīng)的,該結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值的也越大。
[0109] 350、根據(jù)與各結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重值,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo) 識。
[0110] 在本實施例中,在計算得到與各結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重值之后,可以根據(jù) 各泛化權(quán)重值的取值,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識。典型的,泛化權(quán)重值越大,其越有 可能被確定為泛化標(biāo)識。
[0111] 其中,可以通過直接設(shè)定泛化分界點來確定泛化標(biāo)識,例如,如果泛化權(quán)重值的取 值為[0,1 ],則可以設(shè)定一個泛化分界點為〇 . 7,即:將泛化權(quán)重值大于0.7的結(jié)構(gòu)標(biāo)識確定 為泛化標(biāo)識;
[0112] 在本實施例的一個優(yōu)選的實施方式中,還可以根據(jù)泛化標(biāo)識之間的相關(guān)性,也就 是說,可以被泛化的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值的取值總是類似的這一推斷,根據(jù)與各所述結(jié) 構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重值,對各所述結(jié)構(gòu)標(biāo)識進行聚類,生成泛化標(biāo)識集以及非泛化 標(biāo)識集,將所述泛化標(biāo)識集中包括的結(jié)構(gòu)標(biāo)識作為所述泛化標(biāo)識。
[0113] 例如,與各結(jié)構(gòu)標(biāo)識對應(yīng)的泛化權(quán)重值分別為0.7、0.74、0.81、0.21、0.25、0.23, 通過聚類處理后,生成兩個聚類簇{0.7,074,0.81}以及{0.21,0.25,0.23},進而可以將聚 類簇{0.7,074,0.81}作為泛化標(biāo)識集,并將該泛化標(biāo)識集中包括的結(jié)構(gòu)標(biāo)識作為所述泛化 標(biāo)識,即將與0.7、0.74以及0.81分別對應(yīng)的結(jié)構(gòu)標(biāo)識作為泛化標(biāo)識。
[0114] 360、根據(jù)所述泛化標(biāo)識,生成與所述URL集合中各URL分別對應(yīng)的泛化結(jié)構(gòu)符。
[0115] 如前例,URL集合中包括的兩個URL為:
[0116] http: //m. ctrip · com/html5/trains/?sourceid = 497&allianceid = 4897;以及
[0117] http: //n. ctrip. com/html5/trains/?sourceid = 3215&allianceid = 123 ;
[0118] 如果最終確定的泛化標(biāo)識為:sub domain、sourceid以及allianceid;貝lj可以生成 與上述兩個URL分別對應(yīng)的泛化結(jié)構(gòu)符(典型的,將與泛化標(biāo)識對應(yīng)的結(jié)構(gòu)值使用代 替):
[0119] http ://*. ctrip. com/html5/trains/?sourceid = *&allianceid = * ; VXM.
[0120] http: //氺· ctrip · com/html5/trains/?sourceid =氺&allianceid =氺。
[0121] 370、將所述泛化結(jié)構(gòu)符相同的各URL歸集于同一 URL合并簇中。
[0122] 相應(yīng)的,可以將 http://m.ctrip.com/html5/trains/?sourceid = 497& allianceid = 4897 ;以及http://n.ctrip. com/html 5/trains/?sourceid = 3215& alliance id = 123歸集于同一URL合并族中。
[0123] 本實施例的技術(shù)方案完全無需下載URL對應(yīng)的頁面,完全依據(jù)用戶對URL的訪問情 況,通過針對URL的結(jié)構(gòu)化信息提取,完成URL集合化工作,采用其他的方案均無法達(dá)到此效 果。本實施例的優(yōu)勢在于:不需要通過網(wǎng)絡(luò)爬蟲,而是通過用戶瀏覽日志信息歸納,即可得 到URL泛化的結(jié)果,優(yōu)于需要通過網(wǎng)絡(luò)爬蟲、分析URL超鏈接進行URL合并處理的方式。本實 施例的方法有效降低資源消耗,也解決了網(wǎng)絡(luò)鏈接孤島問題,從對網(wǎng)站的覆蓋層面優(yōu)于現(xiàn) 有技術(shù)。
[0124] 綜上,本發(fā)明不依賴于傳統(tǒng)的爬蟲技術(shù),充分利用搜集到的用戶瀏覽日志信息,將 具有相似結(jié)構(gòu)的網(wǎng)頁所對應(yīng)的URL聚集起來,對于屬于同一個URL合并簇的URL集合而言,僅 需要抽樣幾條即可得到該集合中所有URL對應(yīng)的網(wǎng)頁結(jié)構(gòu)特征(例如是否存在網(wǎng)絡(luò)漏洞、是 否存在待提交的表單等),甚至可以認(rèn)為屬于同一個URL合并簇的URL集合對應(yīng)著相同類型 的頁面.
[0125] 例如:http://detail · zol · com. cn/cell_phone/index*· shtml均為手機的介紹頁 面,http://bbs. zol .com.cn/sjbbs/*.html均為手機的論壇頁面等,不僅大大降低了帶寬 與存儲消耗,也使得網(wǎng)頁的分類有了更簡便快捷的方式,更能夠提供網(wǎng)站的整體拓?fù)浣Y(jié)構(gòu)。
[0126] 第四實施例
[0127] 圖4是本發(fā)明第四實施例的一種URL合并處理裝置的結(jié)構(gòu)圖。如圖4所示,所述裝置 包括:URL集合獲取模塊41、URL特征集生成模塊42、泛化標(biāo)識獲取模塊43以及URL合并簇生 成模塊44。其中:
[0128] URL集合獲取模塊41,用于獲取與目標(biāo)網(wǎng)站對應(yīng)的統(tǒng)一資源定位符URL集合。
[0129] URL特征集生成模塊42,用于根據(jù)URL的構(gòu)成規(guī)范,對所述URL集合中的URL進行結(jié) 構(gòu)拆分,生成與URL對應(yīng)的特征集,其中,所述特征集包括:至少一個結(jié)構(gòu)標(biāo)識,以及與所述 結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值。
[0130] 泛化標(biāo)識獲取模塊43,用于根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述 結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識。
[0131] URL合并簇生成模塊44,用于根據(jù)所述泛化標(biāo)識,對所述URL集合中的URL進行合并 處理,生成至少一個URL合并簇。
[0132] 本發(fā)明實施例獲取與同一網(wǎng)站對應(yīng)的全部URL,根據(jù)URL的構(gòu)成規(guī)范,對各URL進行 結(jié)構(gòu)拆分,生成與各URL分別對應(yīng)的特征集,根據(jù)特征集中包括的結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的 數(shù)據(jù)特征,對各URL進行泛化處理,并基于泛化處理結(jié)果對各URL進行合并,可以實現(xiàn)將具有 相似結(jié)構(gòu)的網(wǎng)頁所對應(yīng)的URL合并起來的技術(shù)效果,不僅大大降低了帶寬與存儲消耗,也使 得網(wǎng)頁的分類合并技術(shù)有了更簡便快捷的方式。
[0133] 在上述各實施例的基礎(chǔ)上,所述URL集合獲取模塊,具體可以用于:根據(jù)用戶的瀏 覽日志信息,獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合。
[0134] 在上述各實施例的基礎(chǔ)上,所述裝置還可以包括:URL合并簇驗證模塊,其中,所述 URL合并簇驗證模塊可以包括:
[0135] 驗證簇獲取單元,用于依次獲取一個所述URL合并簇作為驗證簇;
[0136] 驗證URL獲取單元,用于從所述驗證簇中,獲取至少兩個URL作為驗證URL;
[0137] 網(wǎng)頁內(nèi)容下載單元,用于下載與所述驗證URL對應(yīng)的至少兩個驗證網(wǎng)頁的網(wǎng)頁內(nèi) 容;
[0138] 解合并單元,用于如果根據(jù)所述網(wǎng)頁內(nèi)容,識別所述驗證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)不 相同,則將所述驗證簇中的URL進行解合并。
[0139] 在上述各實施例的基礎(chǔ)上,所述結(jié)構(gòu)標(biāo)識可以包括:協(xié)議標(biāo)識、至少一個域名標(biāo) 識、至少一個路徑標(biāo)識以及至少一個參數(shù)標(biāo)識。
[0140]在上述各實施例的基礎(chǔ)上,所述泛化標(biāo)識獲取模塊可以包括:
[0141]結(jié)構(gòu)值集合生成單元,用于根據(jù)與所述URL集合中各URL分別對應(yīng)的特征集,生成 與各所述結(jié)構(gòu)標(biāo)識分別對應(yīng)的結(jié)構(gòu)值集合;
[0142] 泛化權(quán)重值計算單元,用于根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征,計算與 所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值;
[0143] 泛化標(biāo)識獲取單元,用于根據(jù)與各結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重值,獲取所述結(jié) 構(gòu)標(biāo)識中的泛化標(biāo)識。
[0144] 在上述各實施例的基礎(chǔ)上,所述泛化權(quán)重值計算單元具體可以用于:
[0145] 統(tǒng)計所述結(jié)構(gòu)值集合中,與不同取值的結(jié)構(gòu)值分別對應(yīng)的結(jié)構(gòu)值數(shù)量;
[0146] 根據(jù)所述與不同取值的結(jié)構(gòu)值分別對應(yīng)的結(jié)構(gòu)值數(shù)量,計算與各所述結(jié)構(gòu)值集合 分別對應(yīng)的信息熵;
[0147] 將計算得到的所述信息熵作為與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值。
[0148] 在上述各實施例的基礎(chǔ)上,所述泛化權(quán)重值計算單元具體可以用于:
[0149] 根據(jù)所述結(jié)構(gòu)值集合中結(jié)構(gòu)值的數(shù)據(jù)類型,和/或結(jié)構(gòu)值的數(shù)據(jù)長度,對各所述結(jié) 構(gòu)值集合進行評分;
[0150]將評分結(jié)果作為與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值。
[0151] 在上述各實施例的基礎(chǔ)上,所述泛化標(biāo)識獲取單元具體可以用于:
[0152] 根據(jù)泛化標(biāo)識之間的相關(guān)性,以及與各所述結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重值,對 各所述結(jié)構(gòu)標(biāo)識進行聚類,生成泛化標(biāo)識集以及非泛化標(biāo)識集;
[0153] 將所述泛化標(biāo)識集中包括的結(jié)構(gòu)標(biāo)識作為所述泛化標(biāo)識。
[0154] 在上述各實施例的基礎(chǔ)上,所述解合并單元具體可以用于:
[0155] 分別獲取各所述驗證網(wǎng)頁中包括的至少一個按鈕;
[0156] 如果確定不同驗證網(wǎng)頁中的按鈕的路徑關(guān)聯(lián)信息不滿足相似網(wǎng)頁條件,則識別所 述驗證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)不相同。
[0157] 在上述各實施例的基礎(chǔ)上,所述路徑關(guān)聯(lián)信息可以包括下述至少一項:
[0158] 按鈕在頁面中的層次、按鈕的類名、按鈕的名稱以及按鈕的標(biāo)識名。
[0159] 在上述各實施例的基礎(chǔ)上,所述泛化標(biāo)識獲取模塊,可以用于:
[0160]根據(jù)所述泛化標(biāo)識,生成與所述URL集合中各URL分別對應(yīng)的泛化結(jié)構(gòu)符;
[0161]將所述泛化結(jié)構(gòu)符相同的各URL歸集于同一 URL合并簇中。
[0162] 本發(fā)明實施例所提供的URL合并處理裝置可用于執(zhí)行本發(fā)明任意實施例提供的 URL合并處理方法,具備相應(yīng)的功能模塊,實現(xiàn)相同的有益效果。
[0163] 顯然,本領(lǐng)域技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以通過如上 所述的服務(wù)器實施??蛇x地,本發(fā)明實施例可以用計算機裝置可執(zhí)行的程序來實現(xiàn),從而可 以將它們存儲在存儲裝置中由處理器來執(zhí)行,所述的程序可以存儲于一種計算機可讀存儲 介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等;或者將它們分別制作成各 個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣, 本發(fā)明不限制于任何特定的硬件和軟件的結(jié)合。
[0164] 以上所述僅為本發(fā)明的優(yōu)選實施例,并不用于限制本發(fā)明,對于本領(lǐng)域技術(shù)人員 而言,本發(fā)明可以有各種改動和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同 替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1. 一種URL合并處理方法,其特征在于,包括: 獲取與目標(biāo)網(wǎng)站對應(yīng)的統(tǒng)一資源定位符URL集合; 根據(jù)URL的構(gòu)成規(guī)范,對所述URL集合中的URL進行結(jié)構(gòu)拆分,生成與URL對應(yīng)的特征集, 其中,所述特征集包括:至少一個結(jié)構(gòu)標(biāo)識,以及與所述結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值; 根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識; 根據(jù)所述泛化標(biāo)識,對所述URL集合中的URL進行合并處理,生成至少一個URL合并簇。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合包括: 根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,還包括: 依次獲取一個所述URL合并簇作為驗證簇; 從所述驗證簇中,獲取至少兩個URL作為驗證URL; 下載與所述驗證URL對應(yīng)的至少兩個驗證網(wǎng)頁的網(wǎng)頁內(nèi)容; 如果根據(jù)所述網(wǎng)頁內(nèi)容,識別所述驗證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)不相同,則將所述驗證簇 中的URL進行解合并。4. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述結(jié)構(gòu)標(biāo)識包括:協(xié)議標(biāo)識、至少一 個域名標(biāo)識、至少一個路徑標(biāo)識以及至少一個參數(shù)標(biāo)識。5. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù) 特征,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識包括: 根據(jù)與所述URL集合中各URL分別對應(yīng)的特征集,生成與各所述結(jié)構(gòu)標(biāo)識分別對應(yīng)的結(jié) 構(gòu)值集合; 根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征,計算與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識 的泛化權(quán)重值; 根據(jù)與各結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重值,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特 征,計算與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值具體包括: 統(tǒng)計所述結(jié)構(gòu)值集合中,與不同取值的結(jié)構(gòu)值分別對應(yīng)的結(jié)構(gòu)值數(shù)量; 根據(jù)所述與不同取值的結(jié)構(gòu)值分別對應(yīng)的結(jié)構(gòu)值數(shù)量,計算與各所述結(jié)構(gòu)值集合分別 對應(yīng)的信息熵; 將計算得到的所述信息熵作為與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值。7. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特 征,計算與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值具體包括: 根據(jù)所述結(jié)構(gòu)值集合中結(jié)構(gòu)值的數(shù)據(jù)類型,和/或結(jié)構(gòu)值的數(shù)據(jù)長度,對各所述結(jié)構(gòu)值 集合進行評分; 將評分結(jié)果作為與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值。8. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)與各結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重 值,獲取所述結(jié)構(gòu)標(biāo)識中的泛化標(biāo)識包括: 根據(jù)泛化標(biāo)識之間的相關(guān)性,以及與各所述結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重值,對各所 述結(jié)構(gòu)標(biāo)識進行聚類,生成泛化標(biāo)識集以及非泛化標(biāo)識集; 將所述泛化標(biāo)識集中包括的結(jié)構(gòu)標(biāo)識作為所述泛化標(biāo)識。9. 根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述網(wǎng)頁內(nèi)容,識別所述驗證網(wǎng)頁之 間的網(wǎng)頁結(jié)構(gòu)不相同包括: 分別獲取各所述驗證網(wǎng)頁中包括的至少一個按鈕; 如果確定不同驗證網(wǎng)頁中的按鈕的路徑關(guān)聯(lián)信息不滿足相似網(wǎng)頁條件,則識別所述驗 證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)不相同。10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述路徑關(guān)聯(lián)信息包括下述至少一項: 按鈕在頁面中的層次、按鈕的類名、按鈕的名稱以及按鈕的標(biāo)識名。11. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,根據(jù)所述泛化標(biāo)識,對所述URL集合中 的URL進行合并處理,生成至少一個URL合并簇包括: 根據(jù)所述泛化標(biāo)識,生成與所述URL集合中各URL分別對應(yīng)的泛化結(jié)構(gòu)符; 將所述泛化結(jié)構(gòu)符相同的各URL歸集于同一 URL合并簇中。12. -種URL合并處理裝置,其特征在于,包括: URL集合獲取模塊,用于獲取與目標(biāo)網(wǎng)站對應(yīng)的統(tǒng)一資源定位符URL集合; URL特征集生成模塊,用于根據(jù)URL的構(gòu)成規(guī)范,對所述URL集合中的URL進行結(jié)構(gòu)拆分, 生成與URL對應(yīng)的特征集,其中,所述特征集包括:至少一個結(jié)構(gòu)標(biāo)識,以及與所述結(jié)構(gòu)標(biāo)識 對應(yīng)的結(jié)構(gòu)值; 泛化標(biāo)識獲取模塊,用于根據(jù)與結(jié)構(gòu)標(biāo)識對應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo) 識中的泛化標(biāo)識; URL合并簇生成模塊,用于根據(jù)所述泛化標(biāo)識,對所述URL集合中的URL進行合并處理, 生成至少一個URL合并簇。13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述URL集合獲取模塊,具體用于: 根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對應(yīng)的URL集合。14. 根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,還包括:URL合并簇驗證模塊,其中, 所述URL合并簇驗證模塊包括: 驗證簇獲取單元,用于依次獲取一個所述URL合并簇作為驗證簇; 驗證URL獲取單元,用于從所述驗證簇中,獲取至少兩個URL作為驗證URL; 網(wǎng)頁內(nèi)容下載單元,用于下載與所述驗證URL對應(yīng)的至少兩個驗證網(wǎng)頁的網(wǎng)頁內(nèi)容; 解合并單元,用于如果根據(jù)所述網(wǎng)頁內(nèi)容,識別所述驗證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)不相同, 則將所述驗證簇中的URL進行解合并。15. 根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,所述結(jié)構(gòu)標(biāo)識包括:協(xié)議標(biāo)識、至少 一個域名標(biāo)識、至少一個路徑標(biāo)識以及至少一個參數(shù)標(biāo)識。16. 根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,所述泛化標(biāo)識獲取模塊包括: 結(jié)構(gòu)值集合生成單元,用于根據(jù)與所述URL集合中各URL分別對應(yīng)的特征集,生成與各 所述結(jié)構(gòu)標(biāo)識分別對應(yīng)的結(jié)構(gòu)值集合; 泛化權(quán)重值計算單元,用于根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征,計算與所述 結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值; 泛化標(biāo)識獲取單元,用于根據(jù)與各結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重值,獲取所述結(jié)構(gòu)標(biāo) 識中的泛化標(biāo)識。17. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述泛化權(quán)重值計算單元具體用于: 統(tǒng)計所述結(jié)構(gòu)值集合中,與不同取值的結(jié)構(gòu)值分別對應(yīng)的結(jié)構(gòu)值數(shù)量; 根據(jù)所述與不同取值的結(jié)構(gòu)值分別對應(yīng)的結(jié)構(gòu)值數(shù)量,計算與各所述結(jié)構(gòu)值集合分別 對應(yīng)的信息熵; 將計算得到的所述信息熵作為與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值。18. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述泛化權(quán)重值計算單元具體用于: 根據(jù)所述結(jié)構(gòu)值集合中結(jié)構(gòu)值的數(shù)據(jù)類型,和/或結(jié)構(gòu)值的數(shù)據(jù)長度,對各所述結(jié)構(gòu)值 集合進行評分; 將評分結(jié)果作為與所述結(jié)構(gòu)值集合對應(yīng)的結(jié)構(gòu)標(biāo)識的泛化權(quán)重值。19. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述泛化標(biāo)識獲取單元具體用于: 根據(jù)泛化標(biāo)識之間的相關(guān)性,以及與各所述結(jié)構(gòu)標(biāo)識分別對應(yīng)的泛化權(quán)重值,對各所 述結(jié)構(gòu)標(biāo)識進行聚類,生成泛化標(biāo)識集以及非泛化標(biāo)識集; 將所述泛化標(biāo)識集中包括的結(jié)構(gòu)標(biāo)識作為所述泛化標(biāo)識。20. 根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,所述解合并單元具體用于: 分別獲取各所述驗證網(wǎng)頁中包括的至少一個按鈕; 如果確定不同驗證網(wǎng)頁中的按鈕的路徑關(guān)聯(lián)信息不滿足相似網(wǎng)頁條件,則識別所述驗 證網(wǎng)頁之間的網(wǎng)頁結(jié)構(gòu)不相同。
【文檔編號】G06F17/30GK106095979SQ201610444527
【公開日】2016年11月9日
【申請日】2016年6月20日
【發(fā)明人】馬宇峰, 王曉元, 葉峻, 鄧鳴捷
【申請人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司