具有報錯特征的網(wǎng)頁識別方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種具有報錯特征的網(wǎng)頁識別方法和裝置,其中,方法包括:將多個網(wǎng)頁進行聚類,得到一個或多個網(wǎng)頁集合;判斷網(wǎng)頁集合中各網(wǎng)頁內(nèi)容是否都包含預設的否定詞,將網(wǎng)頁集合中的各網(wǎng)頁內(nèi)容都包含否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合;提取待驗證報錯網(wǎng)頁集合的一個或多個屬性特征,根據(jù)屬性特征驗證待驗證報錯網(wǎng)頁集合得到報錯網(wǎng)頁集合,并提取報錯網(wǎng)頁集合的相關(guān)信息;根據(jù)報錯網(wǎng)頁集合識別報錯網(wǎng)頁。根據(jù)該方案,無需結(jié)合每個頁面和其特定的報錯句子,效率更高,并且,通過實時地自動挖掘生成報錯網(wǎng)頁集合,并且對網(wǎng)頁報錯詞句的變化不敏感,降低了識別的滯后性。
【專利說明】具有報錯特征的網(wǎng)頁識別方法和裝置
【技術(shù)領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領域】,具體涉及一種具有報錯特征的網(wǎng)頁識別方法和裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)中充斥著各種低質(zhì)量的網(wǎng)頁,這類頁面中不具備實際內(nèi)容。搜索引擎在抓取、分析、建庫、索引時需要識別并且剔除這些低質(zhì)量的網(wǎng)頁。這些低質(zhì)量網(wǎng)頁不僅占用了搜索引擎的資源、降低引擎效率,而且如果未被及時識別、剔除,還會出現(xiàn)在搜索結(jié)果頁面中,而用戶點擊訪問后無法獲得有效信息,這嚴重影響了用戶體驗。
[0003]低質(zhì)量網(wǎng)頁種類較多,其中一種是具有報錯特征的網(wǎng)頁,即具有明顯的報錯詞句的網(wǎng)頁。比如打開網(wǎng)頁后提示:“網(wǎng)頁已刪除”、“404not found”、“頁面不存在”等等。
[0004]現(xiàn)有技術(shù)中對這類具有報錯特征的網(wǎng)頁的識別方法主要依靠人工識別網(wǎng)站下的報錯句子,各站點的報錯句子,可能互不相同,采取站點和報錯句子結(jié)合的方法來挖掘報錯網(wǎng)頁,一旦站點匹配并且網(wǎng)頁中含有已經(jīng)識別的報錯句子則認為這個網(wǎng)頁為報錯網(wǎng)頁。
[0005]人工識別報錯句子的缺點是覆蓋面有限而且不及時。人工識別一般是發(fā)現(xiàn)一種報錯類型的句子則添加生效一種,主站點下各個子站點頁面的報錯特征可能不同而且可能隨時變化,每個子站點對應的頁面都需要采用結(jié)合站點和報錯句子進行識別,因此,采用這種方式進行大面積的識別報錯句子時,人工代價太大,效率很低。并且這種方法具有滯后性,一旦頁面改變了報錯句子則無法識別,需要人工重新添加新的報錯詞句。
【發(fā)明內(nèi)容】
[0006]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的具有報錯特征的網(wǎng)頁識別方法和裝置。
[0007]根據(jù)本發(fā)明的一個方面,提供了一種具有報錯特征的網(wǎng)頁識別方法,包括:將多個網(wǎng)頁進行聚類,得到一個或多個網(wǎng)頁集合;判斷網(wǎng)頁集合中各網(wǎng)頁內(nèi)容是否都包含預設的否定詞,將網(wǎng)頁集合中的各網(wǎng)頁內(nèi)容都包含否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合;提取待驗證報錯網(wǎng)頁集合的一個或多個屬性特征,根據(jù)屬性特征驗證待驗證報錯網(wǎng)頁集合得到報錯網(wǎng)頁集合,并提取報錯網(wǎng)頁集合的相關(guān)信息;根據(jù)報錯網(wǎng)頁集合識別報錯網(wǎng)頁。
[0008]可選地,所述將所述網(wǎng)頁集合中的各網(wǎng)頁內(nèi)容都包含所述否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合具體為:將所述網(wǎng)頁集合中每個網(wǎng)頁均包含同一否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合;
[0009]所述方法還包括:將包含所述否定詞的句子作為該待驗證報錯網(wǎng)頁集合的報錯句子。
[0010]可選地,所述對多個網(wǎng)頁進行聚類具體為:針對一主站點,根據(jù)路徑信息對該主站點中的各個鏈接網(wǎng)頁進行聚類;
[0011]所述報錯網(wǎng)頁集合的相關(guān)信息包括以下信息中的一項或多項:所述報錯網(wǎng)頁集合在主站點中的路徑信息、主站點信息、報錯句子以及其簽名信息。
[0012]可選地,所述根據(jù)路徑信息對該主站點中的各個鏈接網(wǎng)頁進行聚類進一步包括:
[0013]計算所述主站點中的各個鏈接網(wǎng)頁的路徑信息;
[0014]對計算得到的路徑信息進行去重處理,計算所述去重處理后獲得的路徑信息的簽名;
[0015]根據(jù)所述路徑信息的簽名進行聚類,將路徑信息的簽名相同的鏈接網(wǎng)頁加入同一網(wǎng)頁集合中。
[0016]可選地,所述待驗證報錯網(wǎng)頁集合的屬性特征包括以下特征的一項或多項的組合:
[0017]所述待驗證報錯網(wǎng)頁集合中包含的不同網(wǎng)頁數(shù)量;
[0018]所述待驗證報錯網(wǎng)頁集合中全部網(wǎng)頁和/或單個網(wǎng)頁所包含的句子的總數(shù);
[0019]所述待驗證報錯網(wǎng)頁集合中全部網(wǎng)頁中包含的不同句子的數(shù)量;
[0020]所述待驗證報錯網(wǎng)頁集合的報錯句子的長度;
[0021]同一主站點包含同一報錯句子的不同網(wǎng)頁集合數(shù)量。
[0022]可選地,所述根據(jù)所述屬性特征驗證所述待驗證報錯網(wǎng)頁集合得到報錯網(wǎng)頁集合具體為:選取屬性特征符合以下預設策略中一項或多項的待驗證報錯網(wǎng)頁集合作為報錯網(wǎng)頁集合:
[0023]報錯句子在待驗證報錯網(wǎng)頁集合中所有的網(wǎng)頁中被包含;
[0024]待驗證報錯集合中包含的不同網(wǎng)頁數(shù)量大于對應預設閾值的網(wǎng)頁集合;
[0025]待驗證報錯集合中全部網(wǎng)頁和/或單個網(wǎng)頁所包含的句子的總數(shù)小于對應預設閾值的網(wǎng)頁集合;
[0026]待驗證報錯集合中全部網(wǎng)頁包含的不同句子的數(shù)量小于對應預設閾值的網(wǎng)頁集合;
[0027]所述報錯句子長度小于對應預設閾值的網(wǎng)頁集合;
[0028]同一主站點包含同一報錯句子的不同網(wǎng)頁集合數(shù)量小于對應預設閾值。
[0029]可選地,所述根據(jù)所述報錯網(wǎng)頁集合識別報錯網(wǎng)頁具體包括:
[0030]獲取待識別網(wǎng)頁對應的主站點、所述待識別網(wǎng)頁在所述主站點中的路徑信息、以及所述待識別網(wǎng)頁中包含預設否定詞的句子和該句子的簽名;
[0031]查詢所述待識別網(wǎng)頁對應的主站點、所述待識別網(wǎng)頁在所述主站點中的路徑信息、以及所述待識別網(wǎng)頁中包含預設否定詞的句子是否與所述主站點中的任一報錯網(wǎng)頁集合的信息匹配,若匹配,則確定所述待識別網(wǎng)頁為報錯網(wǎng)頁。
[0032]根據(jù)本發(fā)明的另一方面,提供了一種具有報錯特征的網(wǎng)頁識別裝置,包括:聚類模塊,用于將多個網(wǎng)頁進行聚類,得到一個或多個網(wǎng)頁集合;判斷模塊,用于判斷聚類模塊得到的一個或多個網(wǎng)頁集合中是否都包含預設的否定詞,將集合中的各網(wǎng)頁內(nèi)容都包含所述否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合;報錯集合生成模塊,用于提取待驗證報錯網(wǎng)頁集合的一個或多個屬性特征,根據(jù)屬性特征驗證待驗證報錯網(wǎng)頁集合得到報錯網(wǎng)頁集合,并提取報錯網(wǎng)頁集合的相關(guān)信息;識別模塊,用于根據(jù)所述報錯網(wǎng)頁集合識別報錯網(wǎng)頁。
[0033]可選地,所述判斷模塊具體用于:判斷所述網(wǎng)頁集合中各網(wǎng)頁內(nèi)容是否都包含同一預設的否定詞,將所述網(wǎng)頁集合中每個網(wǎng)頁均包含同一否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合。
[0034]可選地,所述聚類模塊具體用于:針對一主站點,根據(jù)路徑信息對該主站點中的各個鏈接網(wǎng)頁進行聚類;
[0035]所述報錯網(wǎng)頁集合的相關(guān)信息包括以下信息中的一項或多項:所述報錯網(wǎng)頁集合在主站點中的路徑信息、主站點信息、報錯句子以及其簽名信息。
[0036]可選地,所述聚類模塊具體包括:
[0037]路徑信息計算單元,用于計算所述主站點中的各個鏈接網(wǎng)頁的路徑信息;
[0038]簽名計算單元,用于對計算得到的路徑信息進行去重處理,計算所述去重處理后獲得的路徑信息的簽名;
[0039]聚類單元,用于根據(jù)所述路徑信息的簽名進行聚類,將路徑信息的簽名相同的鏈接網(wǎng)頁加入同一網(wǎng)頁集合中。
[0040]可選地,所述待驗證報錯網(wǎng)頁集合的屬性特征包括以下特征的一項或多項的組合:
[0041]所述待驗證報錯網(wǎng)頁集合中包含的不同網(wǎng)頁數(shù)量;
[0042]所述待驗證報錯網(wǎng)頁集合中全部網(wǎng)頁和/或單個網(wǎng)頁所包含的句子的總數(shù);
[0043]所述待驗證報錯網(wǎng)頁集合中全部網(wǎng)頁中包含的不同句子的數(shù)量;
[0044]所述待驗證報錯網(wǎng)頁集合的報錯句子的長度;
[0045]同一主站點包含同一報錯句子的不同網(wǎng)頁集合數(shù)量。
[0046]可選地,所述報錯集合生成模塊具體用于:選取屬性特征符合以下預設策略中一項或多項的待驗證報錯網(wǎng)頁集合作為報錯網(wǎng)頁集合:
[0047]報錯句子在網(wǎng)頁集合中所有的網(wǎng)頁中被包含;
[0048]待驗證報錯集合中包含的不同網(wǎng)頁數(shù)量大于對應預設閾值的網(wǎng)頁集合;
[0049]待驗證報錯集合中全部網(wǎng)頁和/或單個網(wǎng)頁所包含的句子的總數(shù)小于對應預設閾值的網(wǎng)頁集合;
[0050]待驗證報錯集合中全部網(wǎng)頁包含的不同句子的數(shù)量小于對應預設閾值的網(wǎng)頁集合;
[0051]所述報錯句子長度小于對應預設閾值的網(wǎng)頁集合;
[0052]同一主站點包含同一報錯句子的不同網(wǎng)頁集合數(shù)量小于對應預設閾值。
[0053]可選地,所述識別模塊具體包括:
[0054]提取單元,用于提取所述報錯網(wǎng)頁集合的相關(guān)信息;
[0055]獲取單元,用于獲取待識別網(wǎng)頁對應的主站點、所述待識別網(wǎng)頁在所述主站點中的路徑信息、以及所述待識別網(wǎng)頁中包含預設否定詞的句子;
[0056]查詢單元,用于查詢所述待識別網(wǎng)頁對應的主站點、所述待識別網(wǎng)頁在所述主站點中的路徑信息、以及所述待識別網(wǎng)頁中包含預設否定詞的句子是否與所述提取單元提取的主站點中的任一條報錯網(wǎng)頁集合的信息匹配,若匹配,則確定所述待識別網(wǎng)頁為報錯網(wǎng)頁。
[0057]根據(jù)本發(fā)明的具有報錯特征的網(wǎng)頁識別方法和裝置,對大量網(wǎng)頁進行聚類分析,形成多個網(wǎng)頁集合。通過聚類方法生成的每個網(wǎng)頁集合中的網(wǎng)頁具有相同的報錯特征,包含相同的否定詞或報錯句子,如果一個網(wǎng)頁集合中的每個網(wǎng)頁內(nèi)容都包含否定詞,將該集合作為一個待驗證的報錯網(wǎng)頁集合,通過分析該待驗證報錯網(wǎng)頁集合的屬性特征,確定真正的報錯網(wǎng)頁集合,并提取出相關(guān)信息。然后,根據(jù)報錯網(wǎng)頁集合及相關(guān)信息對任意給定的網(wǎng)頁進行識別。根據(jù)該方案,以具有相同報錯特征的網(wǎng)頁集合作為識別的參照,每個報錯集合可用于識別多個報錯網(wǎng)頁,而無需結(jié)合每個頁面和其特定的報錯句子,效率更高,并且,通過實時地自動挖掘生成報錯網(wǎng)頁集合,并且對網(wǎng)頁報錯詞句的變化不敏感,降低了識別的滯后性。
[0058]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0059]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0060]圖1示出了根據(jù)本發(fā)明一個實施例的具有報錯特征的網(wǎng)頁識別方法的流程圖;
[0061]圖2示出了根據(jù)本發(fā)明一個實施例的生成報錯集合的方法的流程圖;
[0062]圖3示出了根據(jù)本發(fā)明一個實施例的利用報錯集合對具有報錯特征的網(wǎng)頁進行識別的方法的流程圖;
[0063]圖4示出了根據(jù)本發(fā)明一個實施例的具有報錯特征的網(wǎng)頁識別裝置的結(jié)構(gòu)框圖?!揪唧w實施方式】
[0064]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領域的技術(shù)人員。
[0065]圖1示出了根據(jù)本發(fā)明一個實施例的具有報錯特征的網(wǎng)頁識別方法的流程圖,如圖1所示,該方法包括如下步驟:
[0066]步驟S110,將多個網(wǎng)頁進行聚類,得到一個或多個網(wǎng)頁集合。
[0067]該步驟在服務器進行,服務器采用一定的網(wǎng)頁聚類方法對抓取、收錄的網(wǎng)頁,或一定目標范圍內(nèi)的網(wǎng)頁進行聚類。該步驟中聚類的目的是將具有相同報錯特征的網(wǎng)頁加入到同一個集合中,而不同集合內(nèi)之間的報錯特征相異。
[0068]可通過多種聚類方法實現(xiàn)該目的,例如,基于域名和文本內(nèi)容的聚類,將同一主站點域名下文本內(nèi)容相似的網(wǎng)頁形成一個集合,認為集合中的網(wǎng)頁具有相同的報錯特征;或者根據(jù)頁面鏈接和頁面標簽進行聚類,頁面標簽可反映頁面的標題等描述信息,也能夠提供頁面的結(jié)構(gòu)信息,因此,可以認為在頁面結(jié)構(gòu)中位于相似節(jié)點、位置的鏈接指向同類頁面,而同類頁面具有相同的報錯特征。其他能實現(xiàn)此目的的聚類方法不再一一列舉。
[0069]步驟S120,判斷網(wǎng)頁集合中各網(wǎng)頁內(nèi)容是否都包含預設的否定詞,將網(wǎng)頁集合中的各網(wǎng)頁內(nèi)容都包含否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合。[0070]具有報錯特征的網(wǎng)頁一般通過包含否定詞的句子提示用戶,否定詞可以是“已刪除”、“頁面不存在”、“不可用”、“Not Found”等。
[0071]對集合中的每個網(wǎng)頁提取頁面內(nèi)容,將頁面內(nèi)容與上述預設的否定詞相匹配,如果存在一個網(wǎng)頁集合,該集合中的每個網(wǎng)頁都能與一個或多個否定詞匹配,將該網(wǎng)頁集合作為待驗證的報錯網(wǎng)頁集合。
[0072]步驟S130,提取待驗證報錯網(wǎng)頁集合的一個或多個屬性特征,根據(jù)屬性特征驗證待驗證報錯網(wǎng)頁集合得到報錯網(wǎng)頁集合,并提取報錯網(wǎng)頁集合的相關(guān)信息。
[0073]網(wǎng)頁內(nèi)容豐富多樣,上述否定詞在網(wǎng)頁中可能作為正常的文字內(nèi)容而并不用于報錯提示。該步驟結(jié)合網(wǎng)頁集合的多個屬性特征對待驗證的報錯網(wǎng)頁集合進行判斷。作為示例,可以獲取集合內(nèi)的不同網(wǎng)頁數(shù)量作為屬性特征,為該屬性特征預設一個閾值,例如,閾值設為20。如果該集合中的網(wǎng)頁數(shù)量大于20,并且每個網(wǎng)頁中都包含預設的否定詞,則將該待驗證報錯集合確認為報錯集合。
[0074]步驟S140,提取報錯網(wǎng)頁集合的相關(guān)信息并根據(jù)報錯網(wǎng)頁集合的相關(guān)信息識別報錯網(wǎng)頁。
[0075]利用得到的報錯網(wǎng)頁集合進行報錯網(wǎng)頁的識別,該步驟的具體過程對應于步驟S110,例如,步驟SllO中對一主站點根據(jù)頁面標簽對其中的鏈接進行了聚類,則上述相關(guān)信息可以包括該報錯網(wǎng)頁集合對應的否定詞,標簽的節(jié)點、位置信息,主站點域名等。
[0076]則識別過程是:對一給定的待識別網(wǎng)頁,獲取該網(wǎng)頁中的否定詞,標簽節(jié)點信息和主站點域名,查看是否與任意報錯集合的相關(guān)信息匹配,將匹配的待識別網(wǎng)頁識別為報錯網(wǎng)頁。
[0077]根據(jù)本發(fā)明上述實施例提供的方法,對大量網(wǎng)頁進行聚類分析,形成多個網(wǎng)頁集合。通過聚類方法生成的每個網(wǎng)頁集合中的網(wǎng)頁具有相同的報錯特征,包含相同的否定詞或報錯句子,如果一個網(wǎng)頁集合中的每個網(wǎng)頁內(nèi)容都包含否定詞,將該集合作為一個待驗證的報錯網(wǎng)頁集合,通過分析該待驗證報錯網(wǎng)頁集合的屬性特征,確定真正的報錯網(wǎng)頁集合,并提取出相關(guān)信息。然后,根據(jù)報錯網(wǎng)頁集合及相關(guān)信息對任意給定的網(wǎng)頁進行識別。根據(jù)該方案,以具有相同報錯特征的網(wǎng)頁集合作為識別的參照,每個報錯集合可用于識別多個報錯網(wǎng)頁,而無需結(jié)合每個頁面和其特定的報錯句子,效率更高,并且,報錯網(wǎng)頁集合的生成過程實時地自動進行,因此對網(wǎng)頁報錯詞句的變化不敏感,降低了識別的滯后性。
[0078]圖2示出了根據(jù)本發(fā)明另一個實施例的生成報錯網(wǎng)頁集合的方法的流程圖,如圖2所示,該方法以一個主站點為例,示出了對該站點下的網(wǎng)頁進行聚類、篩選得到報錯網(wǎng)頁集合的方法,該方法包括如下步驟:
[0079]步驟S210,針對一主站點,根據(jù)路徑信息對該主站點中的各個鏈接進行聚類。
[0080]路徑信息指該主站點下各鏈接的在頁面中的位置信息。一般地,格式良好的頁面的樣式和布局是有規(guī)律的,具有相同或相似路徑信息的鏈接指向同類的頁面,或參數(shù)不同的同一頁面,這些頁面具有相同的報錯特征。
[0081]具體地,該步驟中采用Xpath聚類方法對一主站點下的鏈接網(wǎng)頁進行聚類,Xpath可用于遍歷頁面中的標簽和屬性,表示標簽和屬性在頁面中的路徑信息。Xpath方法將頁面表示為DOM樹結(jié)構(gòu),頁面中的每個標簽作為DOM樹的一個葉節(jié)點,采用深度優(yōu)先的遍歷策略,提取DOM樹中的每一個葉節(jié)點,通過比較其Xpath,將其添加到具有最大相似度的Xpath聚類中,在本發(fā)明中,即是遍歷主站點源碼中包含的全部URL鏈接,獲取每個鏈接的路徑信息,添加到兩個Xpath節(jié)點相同的聚類中。
[0082]下面以一主站點的源碼為例,說明Xpath聚類過程,假設頁面的主站點源碼為:
[0083]
【權(quán)利要求】
1.一種具有報錯特征的網(wǎng)頁識別方法,包括: 將多個網(wǎng)頁進行聚類,得到一個或多個網(wǎng)頁集合; 判斷所述網(wǎng)頁集合中各網(wǎng)頁內(nèi)容是否都包含預設的否定詞,將所述網(wǎng)頁集合中的各網(wǎng)頁內(nèi)容都包含所述否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合; 提取所述待驗證報錯網(wǎng)頁集合的一個或多個屬性特征,根據(jù)所述屬性特征驗證所述待驗證報錯網(wǎng)頁集合得到報錯網(wǎng)頁集合; 提取所述報錯網(wǎng)頁集合的相關(guān)信息并根據(jù)所述報錯網(wǎng)頁集合的相關(guān)信息識別報錯網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的方法,所述將所述網(wǎng)頁集合中的各網(wǎng)頁內(nèi)容都包含所述否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合具體為:將所述網(wǎng)頁集合中每個網(wǎng)頁均包含同一否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合; 所述方法還包括:將包含所述否定詞的句子作為該待驗證報錯網(wǎng)頁集合的報錯句子。
3.根據(jù)權(quán)利要求1-2任一項所述的方法,所述對多個網(wǎng)頁進行聚類具體為:針對一主站點,根據(jù)路徑信息對該主站點中的各個鏈接網(wǎng)頁進行聚類; 所述報錯網(wǎng)頁集合的相關(guān)信息包括以下信息中的一項或多項:所述報錯網(wǎng)頁集合在主站點中的路徑信息、主站點信息、報錯句子以及其簽名信息。
4.根據(jù)權(quán)利要求1-3任一項所述的方法,所述根據(jù)路徑信息對該主站點中的各個鏈接網(wǎng)頁進行聚類進一步包括:` 計算所述主站點中的各個鏈接網(wǎng)頁的路徑信息; 對計算得到的路徑信息進行去重處理,計算所述去重處理后獲得的路徑信息的簽名; 根據(jù)所述路徑信息的簽名進行聚類,將路徑信息的簽名相同的鏈接網(wǎng)頁加入同一網(wǎng)頁^ 由:? 口卞 O
5.根據(jù)權(quán)利要求1-4任一項所述的方法,所述待驗證報錯網(wǎng)頁集合的屬性特征包括以下特征的一項或多項的組合: 所述待驗證報錯網(wǎng)頁集合中包含的不同網(wǎng)頁數(shù)量; 所述待驗證報錯網(wǎng)頁集合中全部網(wǎng)頁和/或單個網(wǎng)頁所包含的句子的總數(shù); 所述待驗證報錯網(wǎng)頁集合中全部網(wǎng)頁中包含的不同句子的數(shù)量; 所述待驗證報錯網(wǎng)頁集合的報錯句子的長度; 同一主站點包含同一報錯句子的不同網(wǎng)頁集合數(shù)量。
6.根據(jù)權(quán)利要求1-5任一項所述的方法,所述根據(jù)所述屬性特征驗證所述待驗證報錯網(wǎng)頁集合得到報錯網(wǎng)頁集合具體為:選取屬性特征符合以下預設策略中一項或多項的待驗證報錯網(wǎng)頁集合作為報錯網(wǎng)頁集合: 報錯句子在待驗證報錯網(wǎng)頁集合中所有的網(wǎng)頁中被包含; 待驗證報錯集合中包含的不同網(wǎng)頁數(shù)量大于對應預設閾值的網(wǎng)頁集合; 待驗證報錯集合中全部網(wǎng)頁和/或單個網(wǎng)頁所包含的句子的總數(shù)小于對應預設閾值的網(wǎng)頁集合; 待驗證報錯集合中全部網(wǎng)頁包含的不同句子的數(shù)量小于對應預設閾值的網(wǎng)頁集合; 所述報錯句子長度小于對應預設閾值的網(wǎng)頁集合; 同一主站點包含同一報錯句子的不同網(wǎng)頁集合數(shù)量小于對應預設閾值。
7.根據(jù)權(quán)利要求1-6任一項所述的方法,所述根據(jù)所述報錯網(wǎng)頁集合識別報錯網(wǎng)頁具體包括: 獲取待識別網(wǎng)頁對應的主站點、所述待識別網(wǎng)頁在所述主站點中的路徑信息、以及所述待識別網(wǎng)頁中包含預設否定詞的句子和該句子的簽名; 查詢所述待識別網(wǎng)頁對應的主站點、所述待識別網(wǎng)頁在所述主站點中的路徑信息、以及所述待識別網(wǎng)頁中包含預設否定詞的句子是否與所述主站點中的任一報錯網(wǎng)頁集合的信息匹配,若匹配,則確定所述待識別網(wǎng)頁為報錯網(wǎng)頁。
8.一種具有報錯特征的網(wǎng)頁識別裝置,包括: 聚類模塊,用于將多個網(wǎng)頁進行聚類,得到一個或多個網(wǎng)頁集合; 判斷模塊,用于判斷所述聚類模塊得到的一個或多個網(wǎng)頁集合中是否都包含預設的否定詞,將集合中的各網(wǎng)頁內(nèi)容都包含所述否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合; 報錯集合生成模塊,用于提取所述待驗證報錯網(wǎng)頁集合的一個或多個屬性特征,根據(jù)所述屬性特征驗證所述待驗證報錯網(wǎng)頁集合得到報錯網(wǎng)頁集合;識別模塊,用于提取所述報錯網(wǎng)頁集合的相關(guān)信息并根據(jù)所述報錯網(wǎng)頁集合的相關(guān)信息識別報錯網(wǎng)頁。
9.根據(jù)權(quán)利要求8所述的裝置,所述判斷模塊具體用于:判斷所述網(wǎng)頁集合中各網(wǎng)頁內(nèi)容是否都包含同一預設的否定詞,將所述網(wǎng)頁集合中每個網(wǎng)頁均包含同一否定詞的網(wǎng)頁集合作為待驗證報錯網(wǎng)頁集合。
10.根據(jù)權(quán)利要求8-9任一項所述的裝置,所述聚類模塊具體用于:針對一主站點,根據(jù)路徑信息對該主站點中的各個鏈接網(wǎng)頁進行聚類; 所述報錯網(wǎng)頁集合的相關(guān)信息包括以下信息中的一項或多項:所述報錯網(wǎng)頁集合在主站點中的路徑信息、主 站點信息、報錯句子以及其簽名信息。
【文檔編號】G06F17/30GK103870590SQ201410122361
【公開日】2014年6月18日 申請日期:2014年3月28日 優(yōu)先權(quán)日:2014年3月28日
【發(fā)明者】王智廣 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司