一種基于話題和相對熵的網(wǎng)頁個性化推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于話題和相對熵的網(wǎng)頁個性化推薦方法,該方法可用于用戶興 趣識別、網(wǎng)頁個性化推薦、新聞按需推送等網(wǎng)絡(luò)應(yīng)用,屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的飛速發(fā)展和網(wǎng)上信息資源的不斷豐富,萬維網(wǎng)(簡稱Web)已經(jīng)成為 人們獲取信息資訊、了解新聞時事、追索感興趣內(nèi)容的最重要場所。然而,Web中海量的網(wǎng) 頁信息資源往往體現(xiàn)出動態(tài)性、非結(jié)構(gòu)性和無序性等特征,公共網(wǎng)站又多是按大眾化需求 匯集大量網(wǎng)頁,不同的用戶看到相同的內(nèi)容組織,致使用戶體驗較差。同時,由于在傳統(tǒng)互 聯(lián)網(wǎng)中用戶必須通過主動搜索、主觀篩選來尋找自己感興趣的內(nèi)容,這種方式不但費(fèi)時和 低效,而且當(dāng)用戶難以表述自己的主觀需求或者自己的主觀需求較為模糊時,往往難以找 到自己真正感興趣的內(nèi)容。在此背景之下,迫切需要借助合適的個性化推薦方法,來發(fā)現(xiàn)用 戶興趣和進(jìn)行網(wǎng)頁的個性化推薦,使互聯(lián)網(wǎng)從被動接受用戶的搜索請求轉(zhuǎn)化為主動感知用 戶個性化需求,實現(xiàn)"信息找人、按需服務(wù)"的主動興趣匹配與個性化推薦。
[0003] 網(wǎng)頁個性化推薦過程通常包括三個主要環(huán)節(jié)。首先,建立可使用戶興趣特征顯著 化的興趣模型,并根據(jù)用戶對網(wǎng)頁的歷史行為生成反映其興趣的特征向量。然后,計算用戶 對待推薦網(wǎng)頁內(nèi)容的可能評分,或者用戶興趣特征向量與待推薦網(wǎng)頁內(nèi)容間的相似度。最 后,根據(jù)評分或相似度的取值,判別網(wǎng)頁內(nèi)容是否符合用戶興趣特征,以決定是否向用戶進(jìn) 行推薦。針對網(wǎng)頁個性化推薦,當(dāng)前采用較多的是基于協(xié)同過濾的個性化推薦方法和基于 內(nèi)容的個性化推薦方法。但是,基于協(xié)同過濾的個性化推薦方法存在稀疏性和可擴(kuò)展性等 問題,并且它需要較大的計算開銷,所以常常難以適應(yīng)設(shè)備計算能力有限和用戶群頻繁變 化的移動場景。而基于內(nèi)容的個性化推薦方法多采用TF-IDF算法直接抽取網(wǎng)頁內(nèi)容的關(guān) 鍵詞,但關(guān)鍵詞這種淺表性特征往往難以全面反映內(nèi)容蘊(yùn)含的深層語義,并且由于缺乏統(tǒng) 一的關(guān)鍵詞映射標(biāo)準(zhǔn),常常使相似度計算和推薦決策的難度大大增加。
【發(fā)明內(nèi)容】
[0004] 發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題與不足,本發(fā)明提供了一種基于話題和相 對摘的網(wǎng)頁個性化推薦方法。該方法先采用LDA(LatentDirichletAllocation)模型對 網(wǎng)頁內(nèi)容和用戶閱讀行為進(jìn)行話題(topic)挖掘,并計算基于"話題"的網(wǎng)頁語義特征向量 和用戶興趣特征向量,再利用基于相對熵概念的相似性度量公式,計算待推薦網(wǎng)頁語義特 征向量和用戶興趣特征向量之間的相似度,并以此作為網(wǎng)頁個性化推薦的決策依據(jù)。基于 話題的網(wǎng)頁個性化推薦方法避免了基于協(xié)同過濾方法的大量計算開銷,同時由于它采用話 題而不是關(guān)鍵詞來表征網(wǎng)頁內(nèi)容,所以能夠使推薦過程及其結(jié)果更加全面和精確地反映網(wǎng) 頁內(nèi)容的隱含信息和深層次語義特征。
[0005] 技術(shù)方案:一種基于話題和相對熵的網(wǎng)頁個性化推薦方法,包括:
[0006] (1)本發(fā)明中的"話題"是指從給定網(wǎng)頁集合的內(nèi)容中提取出的、經(jīng)過規(guī)范化處 理的、可反映網(wǎng)頁內(nèi)容的主旨和要義等深層語義特征的主題詞或短語的集合。假定共有n(彡1)個網(wǎng)頁構(gòu)成網(wǎng)頁資源集合C= {Cl,c2,…,cn},其中m個網(wǎng)頁已被用戶瀏覽閱讀,它 們構(gòu)成用戶歷史閱覽網(wǎng)頁集合H=IVh2,…,hj,并且滿足i/CC',而Y= {yi,y2,…,yn_J =(C-H)為待推薦網(wǎng)頁的集合。
[0007] 本發(fā)明將借助于話題來決定是否向用戶推薦集合Y中的某個(或某些)網(wǎng)頁?;?于話題的網(wǎng)頁個性化推薦方法主要涉及3個計算過程,包括話題挖掘與網(wǎng)頁語義特征向量 計算、用戶興趣特征向量計算、基于相對摘的相似度計算等。
[0008] (2)話題挖掘與網(wǎng)頁語義特征向量計算。采用概率語言模型LDA對網(wǎng)頁資源集合C 進(jìn)行話題挖掘,而LDA模型的求解過程則采用如圖2所示的吉布斯采樣(GibbsSampling) 通過多次迭代來完成。此過程結(jié)束時得到由k(多1)個話題構(gòu)成的話題集合Z= {Zl,z2,… ,zk},并且每個網(wǎng)頁Ci (1 <i<n)通過吉布斯采樣計算得到一個對應(yīng)于話題集合Z的語義 特征向量馬=(AH、…,Pa),其中Pi,s(l彡s彡k)為網(wǎng)頁(^屬于話題z3的概率。
[0009] 因為用戶歷史瀏覽網(wǎng)頁集合H和待推薦網(wǎng)頁集合Y均是C的子集,所以H和Y中的 網(wǎng)頁也都有對應(yīng)的語義特征向量。為了從集合C中區(qū)分出集合H和集合Y,記H中任一網(wǎng)頁 hj(l彡j彡m)對應(yīng)的語義特征向量為
,其中hpj;s(l彡s彡k) 為網(wǎng)頁hj屬于話題z3的概率;記Y中任一網(wǎng)頁yX(1彡x彡n-m)對應(yīng)的語義特征向量為
[0010] (3)用戶興趣特征向量計算。經(jīng)話題挖掘與網(wǎng)頁語義特征向量計算之后,用戶歷史 閱覽網(wǎng)頁集合H中任一網(wǎng)頁卜(1 <j<m)均有對應(yīng)的語義特征向量為了更精確地反 映用戶的興趣特征,考慮用戶針對已閱覽網(wǎng)頁的不同行為特征(如快速瀏覽、仔細(xì)閱讀、反 饋評分、評論和轉(zhuǎn)發(fā)等),對H中任一網(wǎng)頁hj的語義特征向量賦予初始權(quán)重weight(hj,tj), 其中h是網(wǎng)頁hd皮用戶閱覽的時刻。同時,考慮已被閱覽網(wǎng)頁的語義特征向量在反映用戶 當(dāng)前興趣特征時的時間衰減因素,即用戶離當(dāng)前時間越久閱覽的網(wǎng)頁內(nèi)容越不能反映其當(dāng) 前興趣,因此引入時間衰減函數(shù)來刻畫網(wǎng)頁M勺語義特征向量在當(dāng)前時刻t的權(quán)重:
[0012] 其中A為衰減常數(shù)。則用戶在當(dāng)前時刻t的興趣特征向量計算公式如下:
[0014] 其中dQ是用來保證A,各分量之和為1的歸一化常量。
[0015] (4)基于相對熵的相似度計算。經(jīng)話題挖掘與網(wǎng)頁語義特征向量計算之后,待推薦 網(wǎng)頁集合Y中的每個網(wǎng)頁yx(l<x<n-m)均有對應(yīng)的語義特征向量@}.);1.(為簡便起見, 將它記為瓦,即瓦=專n.T )。同時,經(jīng)用戶興趣特征向量計算之后,得到用戶當(dāng)前時刻的興 趣特征向量瓦。在此基礎(chǔ)上,采用相對摘(也即KL散度)計算特征向量A和特征向量瓦 之間的距離瓦),公式如下:
[0017] 其中IIA)是從特征向量瓦到特征向量良的KL散度,而紅(瓦||及,)是從特 征向量瓦到特征向量瓦的KL散度,它們通常不等,故在此取平均。
[0018] 則待推薦網(wǎng)頁yx的語義特征向量艮與用戶當(dāng)前興趣特征向量瓦之間的相似度 (簡稱相對熵相似度)的計算公式如下:
[0020] 其中瓦5和A,s分別表示特征向量反和瓦的第S個分量(1彡S彡k),也即是對 于它們對于第S個話題的隸屬度。
[0021] 最后再根據(jù)所求得的相對熵相似度值,按網(wǎng)頁個性化推薦服務(wù)所采取的具體策略 (如基于相似度閾值或相似度排序)向用戶進(jìn)行網(wǎng)頁個性化推薦。在實際應(yīng)用中,待推薦網(wǎng) 頁集合也可以是網(wǎng)頁集合Y= (C-H)的任意非空子集。
[0022] 有益效果:基于話題和相對熵的網(wǎng)頁個性化推薦方法可以從原理上避免協(xié)同過濾 個性化推薦方法所存在的稀疏性和可擴(kuò)展性等問題,并且它簡化了網(wǎng)頁個性化推薦的計算 過程,提升了計算效率和對于實時、在線個性化推薦需求的適應(yīng)能力,因而更加適用于用戶 群頻繁變化的移動場景。同時,該方法利用"話題"而不是關(guān)鍵詞來對網(wǎng)頁內(nèi)容語義特征和 用戶閱讀興趣進(jìn)行建模,相比于傳統(tǒng)的基于內(nèi)容的個性化推薦方法,更有利于發(fā)掘多個看 似不同的網(wǎng)頁內(nèi)容所蘊(yùn)含的共性語義信息,并將其映射為具有統(tǒng)一標(biāo)準(zhǔn)的話題特征向量, 再借助于基于相對熵概念的相似性度量方法,從而使個性化推薦結(jié)果能夠更精準(zhǔn)地反映網(wǎng) 頁內(nèi)容與用戶興趣間的深層語義關(guān)聯(lián)特征。
【附圖說明】
[0023] 圖1是概率語言模型LDA的概率圖模型,描述了 LDA模型如何生成語料庫中所有 文檔的對應(yīng)詞集。其中盧是Dirichlet分布的超參數(shù),4為網(wǎng)頁CidSiSn)的話題 分布,A表示第s(1彡s彡k)個話題的詞語分布,tny表示網(wǎng)頁ci的第r個詞所分配到的 話題編號,wy表示網(wǎng)頁(^的第r個詞。
[0024] 圖2是本發(fā)明對基于LDA模型的話題挖掘進(jìn)行求解的吉布斯采樣過程。其中W是 C中所有網(wǎng)頁內(nèi)容的不同詞語所構(gòu)成的集合,它的元素記為\,而Zto)是話題集合Z的初始 值。n(Wj|zs)表示詞語Wj(l彡j彡|w|)出現(xiàn)在話題zs(l彡S彡k)中的次數(shù),nhlci)表示 話題zs(l彡s彡k)出現(xiàn)在網(wǎng)頁cjl彡i彡n)出現(xiàn)在中的次數(shù)。概率冰《,.,.kb, ,.>,〇表 示在排除網(wǎng)頁Ci的第r個詞當(dāng)前所分配的話題編號的前提下,利用網(wǎng)頁集合C和詞語集合W 的信息,計算網(wǎng)頁Ci的第r個詞對其余各個話題的概率分布。0表示由網(wǎng)頁ci(1 <i<n) 的語義特征向量屬作為行向量所組成的矩陣。〇表示由k個話題對W中所有詞語的概率分 布作為行向量所組成的矩陣。
[0025] 圖3是基于話題和相對熵的網(wǎng)頁個性化推薦方法的實現(xiàn)框架。提供網(wǎng)頁個性化推 薦服務(wù)的應(yīng)用(如門戶網(wǎng)站、新聞推送等),可以向一個或多個用戶進(jìn)行網(wǎng)頁推薦。它先對 網(wǎng)頁資源數(shù)據(jù)庫中的網(wǎng)頁進(jìn)行話題挖據(jù)和語義特征向量計算,再根據(jù)所記錄的某個用戶已 閱覽網(wǎng)頁及其閱覽行為,計算該用戶的興趣特征向量,進(jìn)而計算待推薦網(wǎng)頁的語義特征向 量和該用戶的興趣特征向量之間的相對熵相似度,并根據(jù)計算結(jié)果進(jìn)行網(wǎng)頁個性化推薦。
【具體實施方式】
[0026] 下面結(jié)合具體實施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價 形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0027] 基于話題和相對熵的網(wǎng)頁個性化推薦方法