一種基于用戶瀏覽行為的網頁推薦方法
【專利摘要】本發(fā)明涉及一種基于用戶瀏覽行為的網頁推薦方法,其特征在于:步驟1:利用瀏覽器收集每個頁面的停留時間以及頁面內容信息;步驟2:對頁面內容進行文本分析,獲得頁面的特征項;步驟3:根據頁面停留時間和特征項,分析出用戶對每個特征項的興趣程度,得到用戶興趣類權值;步驟4:將權值較高的興趣類作為關鍵詞,利用爬蟲程序,將Web上與用戶興趣有關的網頁按照類別全部抓取下來;步驟5:利用余弦夾角函數計算抓取的網頁與用戶已瀏覽的網頁的相似度,將相似度較高的網頁推送給用戶。
【專利說明】一種基于用戶瀏覽行為的網頁推薦方法
【技術領域】
[0001]本發(fā)明涉及一種基于用戶瀏覽行為的網頁推薦方法。
【背景技術】
[0002]在網絡技術飛速發(fā)展的今天,信息和資源也隨之迅猛增長。在網絡方面這種趨勢顯得尤為突出。面對Web上如此龐大的信息資源,Web上的“信息迷航”和“信息過載”等問題也在加劇。為了防止此類問題的愈演愈烈,有必要提供一種基于用戶瀏覽行為的網頁推薦方法,在Web上尋找更相關的信息以滿足不同用戶的個性化需求。
【發(fā)明內容】
[0003]本發(fā)明目的在于提供一種基于用戶瀏覽行為的網頁推薦方法,通過獲取并分析用戶的瀏覽行為數據,向用戶推薦他可能感興趣的網頁,滿足用戶的個性化需求。
[0004]實現本發(fā)明目的技術方案:
[0005]一種基于用戶瀏覽行為的網頁推薦方法,其特征在于:
[0006]步驟1:利用瀏覽器收集每個頁面的停留時間以及頁面內容信息;
[0007]步驟2:對頁面內容進行文本分析,獲得頁面的特征項;
[0008]步驟3:根據頁面停留時間和特征項,分析出用戶對每個特征項的興趣程度,得到用戶興趣類權值;
[0009]步驟4:將權值較高的興趣類作為關鍵詞,利用爬蟲程序,將Web上與用戶興趣有關的網頁按照類別全部抓取下來;
[0010]步驟5:利用余弦夾角函數計算抓取的網頁與用戶已瀏覽的網頁的相似度,將相似度較高的網頁推送給用戶。
[0011]步驟I中,利用瀏覽器監(jiān)聽頁面的創(chuàng)建和消亡、鼠標滾輪的滑動,統(tǒng)計頁面的停留時間;利用在瀏覽器中得到所有頁面url,對頁面源代碼即頁面內容進行獲取。
[0012]步驟2中,首先對網頁中的干擾信息進行清理,所說的干擾信息為HTML頁面的框架結構信息、超鏈接信息或者腳本信息。
[0013]步驟2中,文本分析時,首先,對處理過的頁面文檔集進行分詞處理,然后,對文本中所有特征項進行權值計算,并抽取權值最高的N個詞語作為頁面的主題內容,N值由用戶設定。
[0014]步驟3中,興趣類權值計算公式如下所示:
[0015]InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij)
[0016]興趣等級InterestDegree(Ij),表示用戶興趣類權值;
[0017]頁面停留時間等級ViewtimeDegree(Ij),表示用戶在每一關鍵詞中花費的時間時間占總瀏覽時間的比值,Ij e T,T表示特征集合;
[0018]關鍵詞興趣等級KeywordDegree (Ij),表示每一關鍵詞在主題詞集合T中出現的次數占關鍵詞的總數的比值,Ij e T,T表示特征集合。
[0019]本發(fā)明具有的有益效果:
[0020]本發(fā)明在用戶進行瀏覽網頁時,利用瀏覽器將每個頁面的停留時間以及頁面內容收集起來;在數據預處理階段,對頁面內容進行文本分析,獲得頁面的特征項;根據頁面停留時間和特征項出現頻率分析出用戶對每個特征項的興趣程度,得到用戶的當前興趣模型;最后根據頁面停留時間和特征項對用戶興趣的影響分析出用戶對每個特征項的興趣程度,得到用戶的當前興趣,將相關網頁推送給用戶。本發(fā)明不僅能夠自動記錄用戶行為,實時分析,挖掘用戶當前的興趣偏好,還可以掌握用戶對所有興趣的喜愛程度,可以利用此信息進行實時的個性化推薦服務。
[0021]本發(fā)明在數據預處理階段即步驟2中,首先對網頁中的干擾信息進行清理,在文本分析時,首先,對處理過的頁面文檔集進行分詞處理,然后,對文本中所有特征項進行權值計算,并抽取權值最高的N個詞語作為頁面的主題內容,能夠有效提高獲得頁面特征項的速度和準確率。本發(fā)明在步驟3中通過興趣類權值計算公式,能夠充分體現出用戶對瀏覽網頁的興趣。
【具體實施方式】
[0022]步驟1:利用瀏覽器收集每個頁面的停留時間以及頁面內容信息;
[0023]利用瀏覽器監(jiān)聽頁面的創(chuàng)建和消亡、鼠標滾輪的滑動,統(tǒng)計頁面的停留時間;每當一個頁面(PageA)加載完成時,瀏覽器會將此時的系統(tǒng)時間記錄下來,作為頁面停留時間的開始時刻T(StartA)。當這個頁面進入非活躍狀態(tài)時,也就是用戶進行了關閉頁面的操作或進行了新的網頁瀏覽,瀏覽器就會再次記錄系統(tǒng)時間,作為頁面停留時間的結束時刻T(endA)。那么用戶在此頁面的頁面停留時間StayTime (pageA)就等于結束時刻與開始時刻的時間差。頁面停留時間計算公式如下:
[0024]StayTime(pageA) = T(endA)-T(startA)
[0025]利用在瀏覽器中得到所有頁面url,對頁面源代碼,即頁面內容,進行獲取。
[0026]步驟2:對頁面內容進行文本分析,獲得頁面的特征項;
[0027]首先對網頁中的干擾信息進行清理,所說的干擾信息為HTML頁面的框架結構信息、超鏈接信息或者腳本信息。
[0028]文本分析時,首先,對處理過的頁面文檔集進行分詞處理,然后,對文本中所有特征項進行權值計算,并抽取權值最高的N個詞語作為頁面的主題內容,N值由用戶設定,本實施例中,N取7。
[0029]步驟3:根據頁面停留時間和特征項,分析出用戶對每個特征項的興趣程度,得到用戶興趣類權值;
[0030]在用戶興趣挖掘階段,考慮到頁面停留時間和特征項對用戶興趣的影響,對用戶每一興趣類進行興趣強度計算,即計算用戶興趣類權值。
[0031]興趣等級InterestDegree (I」):表示用戶興趣類權值。
[0032]頁面停留時間等級ViewtimeDegree (I」)(I」e Τ) (T表示特征集合)::表示用戶在每一關鍵詞中花費的時間時間占總瀏覽時間的比值。
[0033]關鍵詞興趣等級KeywordDegree (Ij) (Ij e T):表示每一關鍵詞在主題詞集合T中出現的次數占關鍵詞的總數的比值。
[0034]興趣權值計算公式如下所示:
[0035]InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij)
[0036]通過計算頁面停留時間等級和關鍵詞興趣等級,就可計算出用戶對每個興趣類的興趣強度,從而得到用戶興趣表示。
[0037]用戶興趣表示為:((I1,InterestDegree (I1)), (I2, InterestDegree (I2)),...,(In, InterestDegree (In))。
[0038]其中,In表示用戶的興趣類,InterestDegree(In)表示In對應的用戶興趣類權值。
[0039]經過文本分析后,就可以利用特征項表示頁面內容,構建向量空間模型。對于頁面集合 P = (P1, Pa,, pn}中的任意頁面 Pi (1< = i〈 = η),表示成 Pi = {(tn, wn),(ti2, wi2),...,(tin, win)} (n> = I)。其中 tik(l〈 = k〈 = n)表示頁面的特征項,wik(l< = k〈 = η)表示特征項對應的權值。在向量空間模型下,使用特征項的權重集合表示頁面向量,頁面Pi和Pj的頁面向量分別為Pi (Wil, wi2,...,win), Pj (Wj1, Wj2,...,wJn)。兩個頁面之間的相似度Sim(PpPj)的公式為:
【權利要求】
1.一種基于用戶瀏覽行為的網頁推薦方法,其特征在于: 步驟1:利用瀏覽器收集每個頁面的停留時間以及頁面內容信息; 步驟2:對頁面內容進行文本分析,獲得頁面的特征項; 步驟3:根據頁面停留時間和特征項,分析出用戶對每個特征項的興趣程度,得到用戶興趣類權值; 步驟4:將權值較高的興趣類作為關鍵詞,利用爬蟲程序,將Web上與用戶興趣有關的網頁按照類別全部抓取下來; 步驟5:利用余弦夾角函數計算抓取的網頁與用戶已瀏覽的網頁的相似度,將相似度較高的網頁推送給用戶。
2.根據權利要求1所述的基于用戶瀏覽行為的網頁推薦方法,其特征在于:步驟I中,利用瀏覽器監(jiān)聽頁面的創(chuàng)建和消亡、鼠標滾輪的滑動,統(tǒng)計頁面的停留時間;利用在瀏覽器中得到所有頁面url,對頁面源代碼即頁面內容進行獲取。
3.根據權利要求2所述的基于用戶瀏覽行為的網頁推薦方法,其特征在于:步驟2中,首先對網頁中的干擾信息進行清理,所說的干擾信息為HTML頁面的框架結構信息、超鏈接信息或者腳本信息。
4.根據權利要求3所述的基于用戶瀏覽行為的網頁推薦方法,其特征在于:步驟2中,文本分析時,首先,對處理過的頁面文檔集進行分詞處理,然后,對文本中所有特征項進行權值計算,并抽取權值最高的N個詞語作為頁面的主題內容,N值由用戶設定。
5.根據權利要求4所述的基于用戶瀏覽行為的網頁推薦方法,其特征在于:步驟3中, 興趣類權值計算公式如下所示:
InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij) 興趣等級InterestDegree(Ij),表示用戶興趣類權值; 頁面停留時間等級ViewtimeDegree (Ij),表示用戶在每一關鍵詞中花費的時間時間占總瀏覽時間的比值,Ij e T,T表示特征集合; 關鍵詞興趣等級KeywordDegree (Ij),表示每一關鍵詞在主題詞集合T中出現的次數占關鍵詞的總數的比值,Ij e T,T表示特征集合。
【文檔編號】G06F17/30GK104199874SQ201410412077
【公開日】2014年12月10日 申請日期:2014年8月20日 優(yōu)先權日:2014年8月20日
【發(fā)明者】姚念民, 張薇 申請人:哈爾濱工程大學