基于Web用戶時(shí)間屬性的序列模式挖掘方法
【專利摘要】本發(fā)明涉及一種基于Web用戶時(shí)間屬性的序列模式挖掘方法。針對(duì)個(gè)體用戶訪問(wèn)模式存在的時(shí)間偏好進(jìn)行分析,挖掘用戶時(shí)間特征上的個(gè)性,進(jìn)而對(duì)用戶個(gè)體進(jìn)行建模,從而形成用戶個(gè)性化的訪問(wèn)模式。為此提出UFAP-雙親索引森林,刻畫用戶訪問(wèn)序列模式。結(jié)合個(gè)人用戶訪問(wèn)時(shí)間偏好——駐留時(shí)間、時(shí)間間隔,分別對(duì)用戶訪問(wèn)的網(wǎng)頁(yè)類內(nèi)Web頁(yè)面的駐留時(shí)間和網(wǎng)頁(yè)類與類之間的時(shí)間間隔進(jìn)行K-means聚類,最終構(gòu)建出用戶個(gè)性化的時(shí)間偏好訪問(wèn)模式。本發(fā)明實(shí)現(xiàn)細(xì)粒度、全方位的個(gè)性化推薦,使推薦不僅僅局限在站內(nèi),甚至可以形成站間的互動(dòng),對(duì)于電子商務(wù)網(wǎng)站生態(tài)圈的優(yōu)化和實(shí)施個(gè)性化服務(wù)具有深遠(yuǎn)意義。
【專利說(shuō)明】基于Web用戶時(shí)間屬性的序列模式挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種新的Web用戶時(shí)間屬性方面的序列模式挖掘方法。
【背景技術(shù)】
[0002]基于Web日志序列模式挖掘技術(shù)的研究方向?qū)⒕W(wǎng)頁(yè)與個(gè)人瀏覽習(xí)慣相關(guān)聯(lián),針對(duì)用戶上網(wǎng)存在的固定特征刻畫出Web用戶訪問(wèn)模式,從而發(fā)現(xiàn)用戶的興趣愛好、固有瀏覽習(xí)慣等。網(wǎng)站運(yùn)營(yíng)商則據(jù)此優(yōu)化網(wǎng)站結(jié)構(gòu),合理投放廣告,甚至提供給用戶相關(guān)個(gè)性化推薦。
[0003]由于Web日志中包含了大量用戶的訪問(wèn)記錄,因此根據(jù)記錄可以挖掘出用戶訪問(wèn)網(wǎng)頁(yè)的頻繁路徑,構(gòu)建用戶的頻繁訪問(wèn)序列模式。如Yao-Te Wang與Anthony J.T.Lee提出的通過(guò)用戶頻繁訪問(wèn)序列中存在的網(wǎng)頁(yè)鏈的關(guān)系,構(gòu)建用戶的頻繁路徑訪問(wèn)超圖。然而傳統(tǒng)的頻繁訪問(wèn)序列模式的挖掘,如GSP、Aprior1、PrefixSpan等,是通過(guò)不斷迭代增加候選序列的長(zhǎng)度從而挖掘頻繁訪問(wèn)序列,其缺點(diǎn)是產(chǎn)生大量的中間候選序列,存儲(chǔ)代價(jià)大。為了實(shí)現(xiàn)訪問(wèn)序列的高壓縮化并兼顧訪問(wèn)序列的有效挖掘,Jian Pei, Jiawei Han等提出了WAP-tree算法,它采用一種新的數(shù)據(jù)結(jié)構(gòu),有效避免了大量候選序列的產(chǎn)生。
[0004]然而傳統(tǒng)的序列模式挖掘算法忽略了用戶的駐留時(shí)間、時(shí)間間隔等時(shí)間特征,于是針對(duì)用戶駐留時(shí)間特征,任家東,張嘯劍等設(shè)計(jì)了一種網(wǎng)頁(yè)駐留時(shí)間約束的極大頻繁頁(yè)面集挖掘MFPSM算法,有效減少對(duì)冗余網(wǎng)頁(yè)的挖掘。針對(duì)時(shí)間間隔約束條件也設(shè)計(jì)了相應(yīng)算法,如Tony Cheng-Kui Huang的模糊時(shí)間間隔序列模式挖掘、多用戶加權(quán)時(shí)間間隔序列模式挖掘。
[0005]從上文基于Web日志序列模式挖掘的討論中可以認(rèn)識(shí)到迄今為止大多數(shù)時(shí)間特征序列模式的相關(guān)研究側(cè)重點(diǎn)是面向多用戶的行為共性特征的分析、提取及分類,通過(guò)挖掘用戶時(shí)間特征的算法將時(shí)間作為約束條件,按時(shí)間屬性相似度分類,并沒有單獨(dú)將時(shí)間作為個(gè)人用戶行為習(xí)慣或固有偏好進(jìn)行提取刻畫。
【發(fā)明內(nèi)容】
[0006]本發(fā)明目的在于公開一種基于Web用戶時(shí)間屬性的序列模式挖掘方法,通過(guò)研究個(gè)體用戶時(shí)間特征的上網(wǎng)習(xí)慣所形成的頻繁訪問(wèn)序列,從中刻畫出個(gè)人用戶時(shí)間偏好的上網(wǎng)行為模式。
[0007]本發(fā)明給出的技術(shù)方案為:
一種基于Web用戶時(shí)間屬性的序列模式挖掘方法,其特征在于,針對(duì)個(gè)體用戶訪問(wèn)模式存在的時(shí)間偏好進(jìn)行分析,挖掘用戶時(shí)間特征上的個(gè)性,進(jìn)而對(duì)用戶個(gè)體進(jìn)行建模,從而形成用戶個(gè)性化的訪問(wèn)模式,具體包括步驟:
步驟一,數(shù)據(jù)預(yù)處理。根據(jù)用戶瀏覽日志,剔除冗余網(wǎng)頁(yè),進(jìn)行網(wǎng)頁(yè)分類處理,再根據(jù)用戶訪問(wèn)時(shí)間戳對(duì)原始數(shù)據(jù)進(jìn)行排序,生成所需會(huì)話集,最終得到所需格式日志。
[0008]步驟二,構(gòu)建Web用戶訪問(wèn)樹。根據(jù)預(yù)處理后的日志,統(tǒng)計(jì)頻繁訪問(wèn)網(wǎng)頁(yè)類,生成頻繁會(huì)話集,創(chuàng)建一種輔助表的數(shù)據(jù)結(jié)構(gòu)并在其中加以記錄,再根據(jù)輔助表中記錄的用戶頻繁會(huì)話模式,并在字典樹的基礎(chǔ)上提出Web用戶訪問(wèn)樹——UFAP-雙親索引樹。
[0009]步驟三,生成Web用戶頻繁訪問(wèn)森林。根據(jù)輔助表中網(wǎng)頁(yè)類間的置信度統(tǒng)計(jì)UFAP-雙親索引樹的強(qiáng)關(guān)聯(lián)邊,進(jìn)一步調(diào)整UFAP-雙親索引樹,使其網(wǎng)頁(yè)類間邊的關(guān)系符合強(qiáng)關(guān)聯(lián)。通過(guò)UFAP-雙親索引樹的調(diào)整得到UFAP-雙親索引主樹和輔助表中記錄的以頻繁訪問(wèn)網(wǎng)頁(yè)類為根的UFAP-雙親索引子樹。
[0010]步驟四,Web用戶頻繁訪問(wèn)森林中抽取用戶時(shí)間偏好一駐留時(shí)間、時(shí)間間隔,通過(guò)度量用戶網(wǎng)頁(yè)駐留時(shí)間與訪問(wèn)網(wǎng)頁(yè)類的時(shí)間間隔推測(cè)用戶是否對(duì)網(wǎng)頁(yè)感興趣。通過(guò)K-means方法對(duì)頻繁訪問(wèn)網(wǎng)頁(yè)類的駐留時(shí)間集進(jìn)行聚類,并對(duì)網(wǎng)頁(yè)類間跳轉(zhuǎn)時(shí)間間隔也進(jìn)行聚類,再結(jié)合所生成的Web用戶頻繁訪問(wèn)森林最終得到了用戶時(shí)間屬性的訪問(wèn)模式——Web用戶時(shí)間偏好訪問(wèn)森林。
[0011]與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的創(chuàng)新點(diǎn)體現(xiàn)在:1)提出了一種UFAP-雙親索引森林的數(shù)據(jù)結(jié)構(gòu)。2) 對(duì)個(gè)體用戶訪問(wèn)的網(wǎng)頁(yè)類內(nèi)Web頁(yè)面的駐留時(shí)間和網(wǎng)頁(yè)類與類之間的時(shí)間間隔屬性使用了 K-means聚類。本發(fā)明利用傳統(tǒng)中的模型實(shí)現(xiàn)細(xì)粒度、全方位的個(gè)性化推薦,使推薦不僅僅局限在站內(nèi),甚至可以形成站間的互動(dòng),對(duì)于電子商務(wù)網(wǎng)站生態(tài)圈的優(yōu)化和實(shí)施個(gè)性化服務(wù)具有深遠(yuǎn)意義。并且利用該時(shí)間偏好訪問(wèn)模式還可以達(dá)到個(gè)人用戶行為身份識(shí)別的目的。
【專利附圖】
【附圖說(shuō)明】
[0012]下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明:
圖1是根據(jù)表I構(gòu)造初始化UFAP-雙親索引樹。
[0013]圖2是鄰接表統(tǒng)計(jì)出的強(qiáng)關(guān)聯(lián)邊結(jié)果示意圖。
[0014]圖3是根據(jù)圖2強(qiáng)關(guān)聯(lián)邊調(diào)整圖1后的UFAP-雙親索引樹。
[0015]圖4為本發(fā)明算法流程圖。
【具體實(shí)施方式】
[0016]以下結(jié)合附圖對(duì)本發(fā)明技術(shù)方案作進(jìn)一步說(shuō)明。
[0017]本發(fā)明的大致思路為:針對(duì)個(gè)體用戶訪問(wèn)模式存在的時(shí)間偏好進(jìn)行分析,挖掘用戶時(shí)間特征上的個(gè)性,進(jìn)而對(duì)用戶個(gè)體進(jìn)行建模,從而形成用戶個(gè)性化的訪問(wèn)模式。為此提出了一種新的數(shù)據(jù)結(jié)構(gòu)——UFAP-雙親索引森林,刻畫用戶訪問(wèn)序列模式。并結(jié)合個(gè)人用戶訪問(wèn)時(shí)間偏好一駐留時(shí)間、時(shí)間間隔,分別對(duì)用戶訪問(wèn)的網(wǎng)頁(yè)類內(nèi)Web頁(yè)面的駐留時(shí)間和網(wǎng)頁(yè)類與類之間的時(shí)間間隔進(jìn)行K-means聚類,最終構(gòu)建出用戶個(gè)性化的時(shí)間偏好訪問(wèn)模式。
[0018]本發(fā)明算法流程圖4如下所示,整個(gè)算法實(shí)現(xiàn)流程圖描述:
I)數(shù)據(jù)預(yù)處理。根據(jù)用戶瀏覽日志,剔除駐留時(shí)間小于5s的冗余網(wǎng)頁(yè),并進(jìn)行簡(jiǎn)單網(wǎng)頁(yè)分類處理,再根據(jù)用戶訪問(wèn)時(shí)間戳對(duì)原始數(shù)據(jù)進(jìn)行排序,生成所需會(huì)話集,最終得到所需格式日志。
[0019]2)構(gòu)建Web用戶訪問(wèn)樹。根據(jù)預(yù)處理后的日志,統(tǒng)計(jì)頻繁訪問(wèn)網(wǎng)頁(yè)類,生成頻繁會(huì)話集,創(chuàng)建一種輔助表的數(shù)據(jù)結(jié)構(gòu)并在其中加以記錄,再根據(jù)輔助表中記錄的用戶頻繁會(huì)話模式,并在字典樹的基礎(chǔ)上提出Web用戶訪問(wèn)樹——UFAP-雙親索引樹。
[0020]3)生成Web用戶頻繁訪問(wèn)森林。根據(jù)輔助表中網(wǎng)頁(yè)類間的置信度統(tǒng)計(jì)UFAP-雙親索引樹的強(qiáng)關(guān)聯(lián)邊,進(jìn)一步調(diào)整UFAP-雙親索引樹,使其網(wǎng)頁(yè)類間邊的關(guān)系符合強(qiáng)關(guān)聯(lián)。通過(guò)UFAP-雙親索引樹的調(diào)整得到UFAP-雙親索引主樹和輔助表中記錄的以頻繁訪問(wèn)網(wǎng)頁(yè)類為根的UFAP-雙親索引子樹。
[0021]4) Web用戶頻繁訪問(wèn)森林中抽取用戶時(shí)間偏好一駐留時(shí)間、時(shí)間間隔。由于網(wǎng)頁(yè)駐留時(shí)間與訪問(wèn)網(wǎng)頁(yè)類的時(shí)間間隔是用戶興趣度的重要體現(xiàn),所以通過(guò)度量用戶網(wǎng)頁(yè)駐留時(shí)間與訪問(wèn)網(wǎng)頁(yè)類的時(shí)間間隔可以有效推測(cè)用戶是否對(duì)網(wǎng)頁(yè)感興趣。通過(guò)K-means方法對(duì)頻繁訪問(wèn)網(wǎng)頁(yè)類的駐留時(shí)間集進(jìn)行聚類,同理對(duì)網(wǎng)頁(yè)類間跳轉(zhuǎn)時(shí)間間隔也進(jìn)行K-means聚類處理,再結(jié)合所生成的Web用戶頻繁訪問(wèn)森林最終得到了用戶時(shí)間屬性的訪問(wèn)模式——Web用戶時(shí)間偏好訪問(wèn)森林。
[0022]
【權(quán)利要求】
1.一種基于Web用戶時(shí)間屬性的序列模式挖掘方法,其特征在于,針對(duì)個(gè)體用戶訪問(wèn)模式存在的時(shí)間偏好進(jìn)行分析,挖掘用戶時(shí)間特征上的個(gè)性,進(jìn)而對(duì)用戶個(gè)體進(jìn)行建模,從而形成用戶個(gè)性化的訪問(wèn)模式,具體包括步驟: 步驟一,數(shù)據(jù)預(yù)處理;根據(jù)用戶瀏覽日志,剔除冗余網(wǎng)頁(yè),進(jìn)行網(wǎng)頁(yè)分類處理,再根據(jù)用戶訪問(wèn)時(shí)間戳對(duì)原始數(shù)據(jù)進(jìn)行排序,生成所需會(huì)話集,最終得到所需格式日志; 步驟二,構(gòu)建Web用戶訪問(wèn)樹;根據(jù)預(yù)處理后的日志,統(tǒng)計(jì)頻繁訪問(wèn)網(wǎng)頁(yè)類,生成頻繁會(huì)話集,創(chuàng)建一種輔助表的數(shù)據(jù)結(jié)構(gòu)并在其中加以記錄,再根據(jù)輔助表中記錄的用戶頻繁會(huì)話模式,并在字典樹的基礎(chǔ)上提出Web用戶訪問(wèn)樹——UFAP-雙親索引樹; 步驟三,生成Web用戶頻繁訪問(wèn)森林;根據(jù)輔助表中網(wǎng)頁(yè)類間的置信度統(tǒng)計(jì)UFAP-雙親索引樹的強(qiáng)關(guān)聯(lián)邊,進(jìn)一步調(diào)整UFAP-雙親索引樹,使其網(wǎng)頁(yè)類間邊的關(guān)系符合強(qiáng)關(guān)聯(lián);通過(guò)UFAP-雙親索引樹的調(diào)整得到UFAP-雙親索引主樹和輔助表中記錄的以頻繁訪問(wèn)網(wǎng)頁(yè)類為根的UFAP-雙親索引子樹; 步驟四,Web用戶頻繁訪問(wèn)森林中抽取用戶時(shí)間偏好一駐留時(shí)間、時(shí)間間隔,通過(guò)度量用戶網(wǎng)頁(yè)駐留時(shí)間與訪問(wèn)網(wǎng)頁(yè)類的時(shí)間間隔推測(cè)用戶是否對(duì)網(wǎng)頁(yè)感興趣;通過(guò)K-means方法對(duì)頻繁訪問(wèn)網(wǎng)頁(yè)類的駐留時(shí)間集進(jìn)行聚類,并對(duì)網(wǎng)頁(yè)類間跳轉(zhuǎn)時(shí)間間隔也進(jìn)行聚類,再結(jié)合所生成的Web用戶頻繁訪問(wèn)森林最終得到了用戶時(shí)間屬性的訪問(wèn)模式——Web用戶時(shí)間偏好訪問(wèn)森林。
【文檔編號(hào)】G06F17/30GK103744957SQ201410004623
【公開日】2014年4月23日 申請(qǐng)日期:2014年1月6日 優(yōu)先權(quán)日:2014年1月6日
【發(fā)明者】蔣昌俊, 陳閎中, 閆春鋼, 丁志軍, 于汪洋, 陳英華 申請(qǐng)人:同濟(jì)大學(xué)