部分,根據(jù)預(yù)定標(biāo)簽提取PC網(wǎng)頁的標(biāo)題字段的至少一部分。
[0135]本發(fā)明實施例,首先利用pc網(wǎng)頁和移動網(wǎng)頁的title匹配關(guān)系來針對性的選取需要待驗證抓取的PC網(wǎng)頁對應(yīng)的URL以及具有相同title的移動網(wǎng)頁;其中,網(wǎng)頁的title即當(dāng)前網(wǎng)頁的名稱。比如對應(yīng)的 URL 為 http://news.sohu.com/20141126/n406414760.shtml的PC網(wǎng)頁,該PC網(wǎng)頁的title為“美軍無人機襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”,與上述PC網(wǎng)頁的title相匹配的移動網(wǎng)頁對應(yīng)的URL為http://m.sohu.com/n/406414760/,該移動網(wǎng)頁的title為“美軍無人機襲擊巴基斯坦西北部致至少8人死亡-新聞頻道-手機搜狐”。通過提取移動網(wǎng)頁的標(biāo)題字段即title的至少一部分,如“美軍無人機襲擊巴基斯坦西北部致至少8人死亡-新聞頻道-手機搜狐”作為第一字段;并提取PC網(wǎng)頁的標(biāo)題字段的至少一部分,如“美軍無人機襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”作為第二字段;基于所述第一字段和第二字段對移動網(wǎng)頁和PC網(wǎng)頁進行匹配,可見上述的PC網(wǎng)頁和移動網(wǎng)頁匹配成功,根據(jù)該匹配成功的移動網(wǎng)頁和PC網(wǎng)頁分別對應(yīng)的URL生成URL模板,使用所述URL模板確定PC網(wǎng)頁與移動網(wǎng)頁的自適應(yīng)關(guān)系。
[0136]本發(fā)明實施例通過針對性的選取PC網(wǎng)頁對應(yīng)的URL,通過抓取盡量少的PC網(wǎng)頁對應(yīng)的URL來獲取較全面的pc和移動網(wǎng)頁的自適應(yīng)對應(yīng)關(guān)系,達到挖掘移動站點并且收錄其上的移動網(wǎng)頁的目的。
[0137]更優(yōu)選地,本發(fā)明實施例中呈現(xiàn)移動網(wǎng)頁的移動終端包括但不限于手機、PDA、游戲機等。需要說明的是,所述搜狐新聞僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的新聞網(wǎng)站均包含在本發(fā)明保護范圍以內(nèi),并以引用方式包含于此。
[0138]為了進一步體現(xiàn)發(fā)明的優(yōu)越性,如下進一步揭示本發(fā)明確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的方法中步驟S13的細分步驟,來體現(xiàn)依據(jù)本步驟實現(xiàn)的另一實施例。參照圖6,本步驟的細分步驟包括:
[0139]S131、根據(jù)所述第一字段,生成所述移動網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名;
[0140]S132、根據(jù)所述第二字段,生成所述PC網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名;
[0141]S133、利用所述第一數(shù)字簽名和第二數(shù)字簽名對移動網(wǎng)頁和PC網(wǎng)頁進行匹配。
[0142]本發(fā)明實施例中,根據(jù)所述第一字段,生成所述移動網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名,進一步包括:對所述第一字段進行分塊處理;統(tǒng)計每個分塊在所述移動網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;選擇頻率最低的分塊作為所述移動網(wǎng)頁的第一數(shù)字簽名;
[0143]本發(fā)明實施例中,根據(jù)所述第二字段,生成所述PC網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名,進一步包括:對所述第二字段進行分塊處理;統(tǒng)計每個分塊在所述PC網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;選擇頻率最低的分塊作為所述PC網(wǎng)頁的第二數(shù)字簽名。
[0144]本發(fā)明實施例中,提取移動網(wǎng)頁title并且生成簽名、提取pc網(wǎng)頁標(biāo)題字段title并且生成簽名。在生成title對應(yīng)簽名的時候,通過利用特定的分隔符,比如等把title分割為不同的塊,統(tǒng)計每個分塊在對應(yīng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率,選擇頻率最低的分塊部分作為對應(yīng)網(wǎng)頁的數(shù)字簽名,而頻率較高的則為公用部分,進而實現(xiàn)去掉title中公用的部分,只計算title中核心部分的簽名。比如PC網(wǎng)頁http://news.sohu.com/20141126/n406414760.shtml的title為“美軍無人機襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”,其中“搜狐新聞”是公用部分(存在于大量的網(wǎng)頁title中),“美軍無人機襲擊巴基斯坦西北部致至少8人死亡”在對應(yīng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率最低,則將“美軍無人機襲擊巴基斯坦西北部致至少8人死亡”作為PC網(wǎng)的標(biāo)簽。移動網(wǎng)頁和Pc網(wǎng)頁的title需要采取同樣的方法處理。之所以這樣處理是因為具有對應(yīng)關(guān)系的pc和移動網(wǎng)頁title的公用部分是不同的。比如上述pc網(wǎng)頁URL對應(yīng)的移動網(wǎng)頁的URL:http://m.sohu.com/n/406414760/的title為“美軍無人機襲擊巴基斯坦西北部致至少8人死亡-新聞頻道-手機搜狐”,利用特定的分隔符,比如等把title進行分塊處理后,其中公用部分為“新聞頻道”和“手機搜狐”,則移動網(wǎng)頁的標(biāo)簽確定為“美軍無人機襲擊巴基斯坦西北部致至少8人死亡”。
[0145]本發(fā)明實施例中,利用所述第一數(shù)字簽名和第二數(shù)字簽名對移動網(wǎng)頁和PC網(wǎng)頁進行匹配S133,進一步包括:比較所述第一數(shù)字簽名和第二數(shù)字簽名是否相同;如果相同,則判斷所述移動網(wǎng)頁和PC網(wǎng)頁匹配。
[0146]本發(fā)明實施例,通過比較已經(jīng)生成的第一數(shù)字簽名和第二數(shù)字簽名,來匹配pc網(wǎng)頁和移動網(wǎng)頁,簽名相同的記為一對。比如,上述PC網(wǎng)的標(biāo)簽為“美軍無人機襲擊巴基斯坦西北部致至少8人死亡”,移動網(wǎng)頁的標(biāo)簽為,“美軍無人機襲擊巴基斯坦西北部致至少8人死亡”,可見pc網(wǎng)頁和移動網(wǎng)頁的簽名相同判斷所述移動網(wǎng)頁和PC網(wǎng)頁匹配。則:pc網(wǎng)頁對應(yīng)的 url:http://news.sohu.com/20141126/n406414760.shtml 和移動網(wǎng)頁對應(yīng)的 url:http://m.sohu.com/n/406414760/記為一對,其中能匹配上移動url的pc url稱為有對應(yīng)關(guān)系的pc url ο
[0147]本發(fā)明的另一實施例中,利用所述第一數(shù)字簽名和第二數(shù)字簽名對移動網(wǎng)頁和PC網(wǎng)頁進行匹配,進一步包括:比較所述第一數(shù)字簽名和第二數(shù)字簽名的相似度;如果相似度高于預(yù)定閾值,則判斷所述移動網(wǎng)頁和PC網(wǎng)頁匹配。
[0148]對于,PC網(wǎng)頁url和相對應(yīng)的移動網(wǎng)頁url長相不同的情況,如果PC網(wǎng)的標(biāo)簽與移動網(wǎng)頁的標(biāo)簽為并不是完全相同,但是很相似,而且如果相似度高于預(yù)定閾值,則同樣判斷所述移動網(wǎng)頁和PC網(wǎng)頁匹配。其中,能匹配上移動url的pc url稱為有對應(yīng)關(guān)系的pcurl ο
[0149]進一步地,本發(fā)明實施例根據(jù)匹配成功的移動網(wǎng)頁和PC網(wǎng)頁分別對應(yīng)的URL生成URL模板,具體為:計算有對應(yīng)關(guān)系的PC網(wǎng)頁對應(yīng)的URL的pattern,即根據(jù)一定規(guī)則對PC 網(wǎng)頁 URL 進行 url 聚類,比如 http://news.sohu.com/20141126/n406414760.shtml 的pattern為http://news.sohu.com/*/n*.shtml,其中代表可以匹配任何字符串,更準(zhǔn)確的分析可知,第一個*需要匹配日期形式的數(shù)字串。將有對應(yīng)關(guān)系的pc網(wǎng)頁的url聚成的pattern記為有對應(yīng)關(guān)系的pattern,根據(jù)聚類得到的pattern生成URL模板。
[0150]為了進一步體現(xiàn)發(fā)明的優(yōu)越性,如下進一步揭示本發(fā)明確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的方法的另一實施例。參照圖7,本發(fā)明確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的方法還包括:
[0151]S16、對所述URL模板的有效性進行驗證。
[0152]本發(fā)明實施例中,對所述URL模板的有效性進行驗證,進一步包括:根據(jù)所述URL模板,隨機抽取預(yù)定數(shù)量的PC網(wǎng)頁URL ;獲取并存儲與所述隨機抽取的預(yù)定數(shù)量的PC網(wǎng)頁相對應(yīng)的移動網(wǎng)頁的URL ;利用移動用戶代理邏輯單元對所述隨機抽取的預(yù)定數(shù)量的PC網(wǎng)頁URL進行抓取處理,生成相應(yīng)的移動URL ;根據(jù)所述生成的移動URL與存儲的相應(yīng)的移動網(wǎng)頁的URL判斷所述PC網(wǎng)頁URL是否具有自適應(yīng)對應(yīng)的移動網(wǎng)頁;如果判斷為是,則所述URL模板有效。
[0153]本發(fā)明實施例中,為了提高挖掘的pc和移動網(wǎng)頁的自適應(yīng)對應(yīng)關(guān)系的準(zhǔn)確率,保證較高的召回率,進一步包括:對所述URL模板的有效性進行驗證的步驟,具體為,根據(jù)所述URL模板,從具有對應(yīng)關(guān)系的pattern中隨機抽取適量的PC網(wǎng)頁URL,獲取并存儲與所述隨機抽取的預(yù)定數(shù)量的PC網(wǎng)頁相對應(yīng)的移動網(wǎng)頁的URL,利用移動用戶代理UA對所述隨機抽取的預(yù)定數(shù)量的PC網(wǎng)頁URL進行抓取處理,根據(jù)生成的移動URL與存儲的相應(yīng)的移動網(wǎng)頁的URL判斷所述PC網(wǎng)頁URL是否具有自適應(yīng)對應(yīng)的移動網(wǎng)頁,若返回的url和原始pc網(wǎng)頁的url相對應(yīng)的移動網(wǎng)頁url —致,則可以判斷具有自適應(yīng)對應(yīng)關(guān)系,則所述URL模板有效,并且是跳轉(zhuǎn)形式的。
[0154]為了進一步體現(xiàn)發(fā)明的優(yōu)越性,如下進一步揭示本發(fā)明確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的方法中步驟S15的細分步驟,來體現(xiàn)依據(jù)本步驟實現(xiàn)的另一實施例。參照圖8,本步驟的細分步驟包括:
[0155]S151、通過用戶代理邏輯檢測用戶的終端類型是移動終端還是PC終端;
[0156]S152、如果是移動終端,則判斷用戶請求的PC網(wǎng)頁URL是否符合所述URL模板;
[0157]S153、如果符合,則根據(jù)所述URL模板生成相對應(yīng)的移動網(wǎng)頁URL,并為用戶以跳轉(zhuǎn)的方式推送所述移動網(wǎng)頁。
[0158]本發(fā)明實施例,通過用戶代理模塊檢測移動終端的用戶,并根據(jù)用戶的搜索詞判斷是否存在與用戶請求的PC網(wǎng)URL是否符合所述URL模板,用戶請求的PC網(wǎng)頁URL符合所述URL模板時,如:URLShttp://news.so