r>[0060]統(tǒng)計每個分塊在所述PC網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;
[0061]選擇頻率最低的分塊作為所述PC網(wǎng)頁的第二數(shù)字簽名。
[0062]優(yōu)選地,利用所述第一數(shù)字簽名和第二數(shù)字簽名對移動網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括:
[0063]比較所述第一數(shù)字簽名和第二數(shù)字簽名是否相同;
[0064]如果相同,則判斷所述移動網(wǎng)頁和PC網(wǎng)頁匹配。
[0065]優(yōu)選地,利用所述第一數(shù)字簽名和第二數(shù)字簽名對移動網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括:
[0066]比較所述第一數(shù)字簽名和第二數(shù)字簽名的相似度;
[0067]如果相似度高于預(yù)定閾值,則判斷所述移動網(wǎng)頁和PC網(wǎng)頁匹配。
[0068]優(yōu)選地,該方法還包括:
[0069]對所述URL模板的有效性進(jìn)行驗證。
[0070]優(yōu)選地,對所述URL模板的有效性進(jìn)行驗證,進(jìn)一步包括:
[0071]根據(jù)所述URL模板,隨機(jī)抽取預(yù)定數(shù)量的PC網(wǎng)頁URL ;
[0072]獲取并存儲與所述隨機(jī)抽取的預(yù)定數(shù)量的PC網(wǎng)頁相對應(yīng)的移動網(wǎng)頁的URL ;
[0073]利用移動用戶代理邏輯單元對所述隨機(jī)抽取的預(yù)定數(shù)量的PC網(wǎng)頁URL進(jìn)行抓取處理,生成相應(yīng)的移動URL ;
[0074]根據(jù)所述生成的移動URL與存儲的相應(yīng)的移動網(wǎng)頁的URL判斷所述PC網(wǎng)頁URL是否具有自適應(yīng)對應(yīng)的移動網(wǎng)頁;如果判斷為是,則所述URL模板有效。
[0075]優(yōu)選地,使用所述URL模板確定PC網(wǎng)頁與移動網(wǎng)頁的自適應(yīng)關(guān)系,進(jìn)一步包括:
[0076]通過用戶代理邏輯檢測用戶的終端類型是移動終端還是PC終端;
[0077]如果是移動終端,則判斷用戶請求的PC網(wǎng)頁URL是否符合所述URL模板;
[0078]如果符合,則根據(jù)所述URL模板生成相對應(yīng)的移動網(wǎng)頁URL,并為用戶以跳轉(zhuǎn)的方式推送所述移動網(wǎng)頁。
[0079]本發(fā)明的有益效果為:
[0080]本發(fā)明無需單獨創(chuàng)建移動索引庫,并且不需要重新計算移動網(wǎng)頁和用戶query的相關(guān)性以及權(quán)重,通過抓取少量的PC網(wǎng)頁和移動網(wǎng)頁,利用少量的PC網(wǎng)頁和移動網(wǎng)頁的標(biāo)題字段的匹配關(guān)系來針對性的選取需要待驗證抓取的PC網(wǎng)頁對應(yīng)的URL,一方面節(jié)省了需要抓取的PC網(wǎng)頁對應(yīng)的URL的量,同時利用較少的抓取來挖掘較全面的PC網(wǎng)頁和移動網(wǎng)頁的自適應(yīng)對應(yīng)關(guān)系,進(jìn)而實現(xiàn)移動網(wǎng)頁的推送,節(jié)省了大量PC網(wǎng)頁向移動網(wǎng)頁轉(zhuǎn)化過程中所花費的時間和資源。
[0081]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0082]通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0083]圖1示意性示出了本發(fā)明一個實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)的框圖;
[0084]圖2示意性示出了本發(fā)明另一個實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)中的字段匹配器的框圖;
[0085]圖3示意性示出了本發(fā)明另一個實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)的框圖;
[0086]圖4示意性示出了本發(fā)明另一個實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)中的自適應(yīng)關(guān)系確定器的框圖;
[0087]圖5示意性示出了本發(fā)明一個實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的方法的流程圖;
[0088]圖6不意性不出了本發(fā)明另實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的方法的步驟S13的細(xì)分流程圖;
[0089]圖7示意性示出了本發(fā)明另一個實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的方法的流程圖;以及
[0090]圖8示意性示出了本發(fā)明另一個實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的方法的步驟S15的細(xì)分流程圖。
【具體實施方式】
[0091]下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0092]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。
[0093]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語,應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。
[0094]圖1示出了本發(fā)明一個實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)的框圖。
[0095]參照圖1,本發(fā)明實施例的確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng),包括:
[0096]第一標(biāo)題字段提取器11,用于提取移動網(wǎng)頁的標(biāo)題字段的至少一部分作為第一字段;
[0097]第二標(biāo)題字段提取器12,用于提取PC網(wǎng)頁的標(biāo)題字段的至少一部分作為第二字段;
[0098]字段匹配器13,用于基于所述第一字段和第二字段對移動網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配;
[0099]URL聚類器14,用于根據(jù)匹配成功的移動網(wǎng)頁和PC網(wǎng)頁分別對應(yīng)的URL生成URL模板;
[0100]自適應(yīng)關(guān)系確定器15,用于使用所述URL模板確定PC網(wǎng)頁與移動網(wǎng)頁的自適應(yīng)關(guān)系O
[0101]進(jìn)一步地,本發(fā)明實施例中的第一標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取移動網(wǎng)頁的標(biāo)題字段的至少一部分;所述第二標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取PC網(wǎng)頁的標(biāo)題字段的至少一部分。
[0102]本發(fā)明實施例,首先利用pc網(wǎng)頁和移動網(wǎng)頁的title匹配關(guān)系來針對性的選取需要待驗證抓取的PC網(wǎng)頁對應(yīng)的URL以及具有相同title的移動網(wǎng)頁;其中,網(wǎng)頁的title即當(dāng)前網(wǎng)頁的名稱。比如對應(yīng)的 URL 為 http://news.sohu.com/20141126/n406414760.shtml的PC網(wǎng)頁,該PC網(wǎng)頁的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”,與上述PC網(wǎng)頁的title相匹配的移動網(wǎng)頁對應(yīng)的URL為http://m.sohu.com/n/406414760/,該移動網(wǎng)頁的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-新聞頻道-手機(jī)搜狐”。通過提取移動網(wǎng)頁的標(biāo)題字段即title的至少一部分,如“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-新聞頻道-手機(jī)搜狐”作為第一字段;并提取PC網(wǎng)頁的標(biāo)題字段的至少一部分,如“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”作為第二字段;基于所述第一字段和第二字段對移動網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,可見上述的PC網(wǎng)頁和移動網(wǎng)頁匹配成功,根據(jù)該匹配成功的移動網(wǎng)頁和PC網(wǎng)頁分別對應(yīng)的URL生成URL模板,使用所述URL模板確定PC網(wǎng)頁與移動網(wǎng)頁的自適應(yīng)關(guān)系。
[0103]本發(fā)明實施例通過針對性的選取PC網(wǎng)頁對應(yīng)的URL,通過抓取盡量少的PC網(wǎng)頁對應(yīng)的URL來獲取較全面的pc和移動網(wǎng)頁的自適應(yīng)對應(yīng)關(guān)系,達(dá)到挖掘移動站點并且收錄其上的移動網(wǎng)頁的目的。
[0104]更優(yōu)選地,本發(fā)明實施例中呈現(xiàn)移動網(wǎng)頁的移動終端包括但不限于手機(jī)、PDA、游戲機(jī)等。需要說明的是,所述搜狐新聞僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的新聞網(wǎng)站均包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0105]為了進(jìn)一步體現(xiàn)發(fā)明的優(yōu)越性,如下進(jìn)一步揭示本發(fā)明確定PC網(wǎng)頁與移動網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)中的字段匹配器13的在另一實施例中的內(nèi)部結(jié)構(gòu),來體現(xiàn)依據(jù)字段匹配器13實現(xiàn)的另一實施例的細(xì)節(jié)。參照圖2,字段匹配器13進(jìn)一步包括第一數(shù)字簽名生成模塊131、第二數(shù)字簽名生成模塊132以及數(shù)字簽名匹配模塊133:
[0106]所述的第一數(shù)字簽名生成模塊131,用于根據(jù)所述第一字段,生成所述移動網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名;
[0107]所述的第二數(shù)字簽名生成模塊132,用于根據(jù)所述第二字段,生成所述PC網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名;
[0108]所述的數(shù)字簽名匹配模塊133,用于利用所述第一數(shù)字簽名和第二數(shù)字簽名對移動網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配。
[0109]進(jìn)一步地,本發(fā)明實施例中的第一數(shù)字簽名生成模塊131進(jìn)一步包括:第一分塊單元,用于對所述第一字段進(jìn)行分塊處理;第一頻率統(tǒng)計單元,用于統(tǒng)計每個分塊在所述移動網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻