專利名稱:一種網(wǎng)頁分類方法和設備的制作方法
技術領域:
本發(fā)明涉及互聯(lián)網(wǎng)技術領域,尤其涉及一種網(wǎng)頁分類方法和設備。
背景技術:
隨著移動互聯(lián)網(wǎng)技術的高速發(fā)展,移動互聯(lián)網(wǎng)用戶的數(shù)量越來越多,因此,對移動互聯(lián)網(wǎng)用戶的行為分析也逐漸成為一個研究熱點?,F(xiàn)有技術中,通常根據(jù)移動互聯(lián)網(wǎng)用戶的訪問日志對用戶行為進行分析。具體的,移動互聯(lián)網(wǎng)用戶的訪問日志存放在WAP (Wireless Application Protocol,無線應用通訊協(xié)議)網(wǎng)關中,該訪問日志中記錄了用戶所訪問的網(wǎng)頁的URL (Universal ResourceLocator,統(tǒng)一資源定位符),通過查詢URL類別庫可以獲知用戶所訪問的網(wǎng)頁類別,進而獲知對應用戶的行為偏好。其中,現(xiàn)有網(wǎng)頁分類方法可以包括以下步驟I、爬蟲爬取網(wǎng)頁內(nèi)容;2、對網(wǎng)頁內(nèi)容進行解析,獲取相應文本;3、對文本進行分析、獲取關鍵詞;4、利用算法模型,例如樸素貝葉斯或者SVM等文本分類算法模型,進行分類;其中,算法模型通常提前根據(jù)訓練集訓練得到。通過上述方法可以對用戶所訪問的網(wǎng)頁(或網(wǎng)頁對應的URL)進行分類,進而可以建立URL類別庫。其中,現(xiàn)有技術中的URL類別庫可以如表I所示。表I_預測類別
權利要求
1.一種網(wǎng)頁分類方法,其特征在于,應用于基于統(tǒng)一資源定位符URL類別庫實現(xiàn)的網(wǎng)頁分類流程,所述URL類別庫中記錄有各層級URL及各URL的預測類別,其中,相鄰層級的URL中的上層URL是在下層URL的基礎上截取得到的,該方法包括 根據(jù)待分類網(wǎng)頁的URL查詢URL類別庫; 如果未查詢到匹配的URL,則根據(jù)該URL的上層URL查詢URL類別庫,并在查詢到匹配的URL時,根據(jù)查詢到的URL的預測類別確定待分類網(wǎng)頁的類別。
2.如權利要求I所述的方法,其特征在于,所述根據(jù)該URL的上層URL查詢URL類別庫,包括 步驟A、生成該URL的上一層級URL,查詢URL類別庫中是否記錄有該上一層級URL ; 步驟B、若查詢到URL類別庫中記錄有相同的URL,則轉至步驟C ;否則轉至步驟A ; 步驟C、獲取查詢到的URL的預測類別。
3.如權利要求I所述的方法,其特征在于,所述URL類別庫的生成過程,包括 遍歷所述URL類別庫中的URL,并當遍歷到一個URL時,從所述URL類別庫中選擇該URL,并根據(jù)選擇出的URL生成該URL的上一層級URL ; 判斷生成的上一層級URL是否已經(jīng)存在于所述URL類別庫中,并當所述URL類別庫中不存在該上一層級URL時,確定該上一層級URL的預測類別,并將該上一層級URL及其預測類別記錄在所述URL類別庫中。
4.如權利要求1-3之一所述的方法,其特征在于,除最低層級的URL以外,其余層級的URL的預測類別是根據(jù)該URL的下一層級URL的預測類別確定的。
5.如權利要求4所述的方法,其特征在于,根據(jù)下一層級的URL的預測類別確定其上一層級的URL的預測類別,具體為 從所述URL類別庫中獲取其上一層級URL為該待預測類別的URL的所有URL ; 確定獲取到的URL中各預測類別的URL的數(shù)量; 將其中URL數(shù)量最多的預測類別確定為該待預測類別的URL的預測類別。
6.如權利要求4所述的方法,其特征在于,URL類別庫中的各URL還各自對應有預測概率; 根據(jù)下一層級的URL的預測類別和預測概率確定其上一層級的URL的預測類別和預測概率,具體為 從所述URL類別庫中獲取其上一層級URL為該待預測類別和概率的URL的所有URL ; 對于每一預測類別的URL,計算該預測類別中的各URL的預測概率的加權平均值; 將加權平均值最高的預測類別確定為該待預測URL的預測類別,并將該預測類別的URL的預測概率的平均值確定為該待預測URL的預測概率。
7.如權利要求I所述的方法,其特征在于,當所述URL類別庫中增加了新的URL時,生成該URL的上層URL,并根據(jù)所述URL的上層URL查詢URL類別庫,若查詢到匹配的URL,則更新該上層URL的預測類別;若未查詢到匹配的URL,在URL類別庫中記錄該上層URL及對應的預測類別。
8.如權利要求I所述的方法,其特征在于,確定URL的上一層級URL,具體為 根據(jù)URL中的分隔符對URL進行層級劃分,并將該URL從末位向前的預設數(shù)量分隔符之前的字段作為該URL的上一層級URL。
9.一種網(wǎng)頁分類設備,其特征在于,應用于基于統(tǒng)一資源定位符URL類別庫實現(xiàn)的網(wǎng)頁分類流程,所述URL類別庫中記錄有各層級URL及各URL的預測類別,其中,相鄰層級的URL中的上層URL是在下層URL的基礎上截取得到的,該設備包括 上層URL生成模塊,用于根據(jù)待分類網(wǎng)頁的URL,生成該URL的上層URL ; 查詢模塊,用于根據(jù)待分類網(wǎng)頁的URL查詢URL類別庫;如果未查詢到匹配的URL,則根據(jù)該URL的上層URL查詢URL類別庫; 確定模塊,用于在所述查詢模塊查詢到匹配的URL時,根據(jù)查詢到的URL的預測類別確定待分類網(wǎng)頁的類別。
10.如權利要求9所述的設備,其特征在于, 所述上層URL生成模塊具體用于,當所述查詢模塊未查詢到匹配的URL時,生成該URL的上一層級URL ; 所述查詢模塊具體通過以下流程查詢待分類網(wǎng)頁的URL的上層URL的預測類別 步驟A、獲取該URL的上一層級URL,查詢URL類別庫中是否記錄有該上一層級URL ; 步驟B、若查詢到URL類別庫中記錄有相同的URL,則轉至步驟C ;否則轉至步驟A ; 步驟C、獲取查詢到的URL的預測類別; 所述確定模塊具體用于,將所述查詢模塊查詢到的URL預測類別確定為所述待分類網(wǎng)頁的類別。
11.如權利要求9所述的設備,其特征在于,還包括URL類別庫維護模塊; 所述上層URL生成模塊具體用于,遍歷所述URL類別庫中的URL,并當遍歷到一個URL時,從所述URL類別庫中選擇該URL,并根據(jù)選擇出的URL生成該URL的上一層級URL ;所述查詢模塊具體用于,根據(jù)所述上層URL生成模塊生成的上一層級URL查詢URL類別庫; 所述URL類別維護模塊用于,當所述查詢模塊未查詢到匹配的URL時,確定該上一層級URL的預測類別,并將該上一層級URL及其預測類別記錄在所述URL類別庫中。
12.如權利要求9-11之一所述的設備,其特征在于,所述URL類別庫維護模塊具體用于,根據(jù)URL的下一層級URL的預測類別確定除最低層級以外其余層級的URL的預測類別。
13.如權利要求15所述的設備,其特征在于,所述URL類別庫維護模塊具體用于,從所述URL類別庫中獲取其上一層級URL為待預測類別的URL的所有URL ;確定獲取到的URL中各預測類別的URL的數(shù)量;將其中URL數(shù)量最多的預測類別確定為該待預測類別的URL的預測類別。
14.如權利要求12所述的設備,其特征在于,URL類別庫中的各URL還各自對應有預測概率; 所述URL類別庫維護模塊具體用于,從所述URL類別庫中獲取其上一層級URL為該待預測類別和概率的URL的所有URL ;對于每一預測類別的URL,計算該預測類別中的各URL的預測概率的加權平均值;將加權平均值最高的預測類別確定為該待預測URL的預測類另O,并將該預測類別的URL的預測概率的平均值確定為該待預測URL的預測概率。
15.如權利要求12所述的設備,當所述URL類別庫中增加了新的URL時, 所述上層URL生成模塊還用于,生成該URL的上層URL ; 所述查詢模塊具體用于,根據(jù)所述URL的上層URL查詢URL類別庫;所述URL類別庫維護模塊具體用于,若所述查詢模塊查詢到匹配的URL,則更新上層URL的預測類別;若所述查詢模塊未查詢到匹配的URL,則在URL類別庫中記錄該上層URL及對應的預測類別。
16.如權利要求9所述的設備,其特征在于,所述上層URL生成模塊具體用于,根據(jù)URL中的分隔符對URL進行層級劃分,并將該URL從末位向前的預設數(shù)量分隔符之前的字段作為該URL的上一層級URL。
全文摘要
本發(fā)明公開了一種網(wǎng)頁分類方法和設備,該方法利用現(xiàn)有URL類別庫中的記錄,建立虛擬的層級URL,并對層級URL的類別進行預測。當需要對待分類網(wǎng)頁進行分類時,根據(jù)待分類網(wǎng)頁的URL查詢URL類別庫;如果未查詢到匹配的URL,則根據(jù)該URL的上層URL查詢URL類別庫,并在查詢到匹配的URL時,根據(jù)查詢到的URL的預測類別確定待分類網(wǎng)頁的類別。在本發(fā)明中,提高了網(wǎng)頁分類的效率和成功率。
文檔編號G06F17/30GK102955810SQ201110249270
公開日2013年3月6日 申請日期2011年8月26日 優(yōu)先權日2011年8月26日
發(fā)明者徐萌, 何洪凌, 胡珉, 羅治國, 孫少陵, 陶濤, 陳婷, 張新訪, 李成華 申請人:中國移動通信集團公司