一種針對具備項目的分類信息的推薦方法
【專利摘要】本發(fā)明為一種針對具備項目的分類信息的推薦方法,在許多網(wǎng)絡應用中往往需要給用戶推薦,需要利用上下文信息來提高推薦準確率并增強用戶體驗,然而現(xiàn)有的上下文感知推薦方法依然面臨數(shù)據(jù)稀疏性問題的挑戰(zhàn)。為了進一步緩解數(shù)據(jù)稀疏性問題,本專利提出一種新型的推薦方法,結合用戶評分數(shù)據(jù)及用戶類別偏好進行物品推薦,以解決用戶評分數(shù)據(jù)稀疏時評分預測準確率低的問題。該方法適用于大規(guī)模數(shù)據(jù)。實驗結果表明,與目前主流的方法相比,該方法具有較好的推薦效果。
【專利說明】
-種針對具備項目的分類信息的推薦方法
技術領域
[0001] 本發(fā)明屬于推薦系統(tǒng)領域,設及一類具有項目分類功能的應用的推薦方法。
【背景技術】
[0002] 現(xiàn)有的基于上下文的推薦系統(tǒng)都是直接使用用戶的歷史數(shù)據(jù)的推薦方法,固然有 方便,便于廣泛使用,容易得到廣泛的評價的好處,但是由于用戶的歷史行為數(shù)據(jù)通常情況 下是非常稀疏的,因此運些方法都面臨著嚴重的數(shù)據(jù)稀疏性問題。根據(jù)稀疏的用戶歷史行 為數(shù)據(jù)很難對用戶的偏好進行建模,導致推薦系統(tǒng)的準確率偏低,從而影響用戶體驗。
[0003] 我們要對一個應用系統(tǒng)進行項目推薦,一般要分析推薦系統(tǒng)的構成,在運里我們 要討論構成推薦系統(tǒng)的一些主體。下面對常見的上下文推薦系統(tǒng)的做一個簡單的介紹。假 設一個推薦系統(tǒng)中有n個物品(運里的物品也包括電影之類的網(wǎng)絡應用和資源)和m個用戶, 則令U= Iui,U2…,Un}表示用戶集合,I = Ul, i2…,im}表示項目集合。在推薦系統(tǒng)中,對項目 進行分類,可W更好的幫助用戶找到自己感興趣的項目。例如電影評論網(wǎng)站MovieLens,根 據(jù)電影的類型,為不同電影打上標簽(如:喜劇、愛情等)。令C= kl,C2…,Cp}表示類別集合。 其中一個用戶可W評論多個項目,一個項目可W分屬不同的類別。
[0004] 目前的系統(tǒng)直接使用應用系統(tǒng)中的上下文信息來緩解用戶項目評分數(shù)據(jù)的稀疏 性問題。
[0005] 他們都是整合用戶項目評分之外上下文信息W緩解評分數(shù)據(jù)的稀疏性問題。大多 數(shù)推薦方法都是針對特定的應用系統(tǒng),喪失了推薦方法的普適性。
[0006] -個好的推薦方法,如果需要準確的刻畫用戶的潛在特征,就應該具有足夠的數(shù) 據(jù)來彌補用戶評分數(shù)據(jù)。
[0007] 本專利針對分類系統(tǒng)應用,從用戶類別的角度來構建用戶之間的相似度矩陣,同 時結合用戶-項目評分矩陣進行聯(lián)合矩陣分解,提出一種基于用戶類別偏好相似度和聯(lián)合 矩陣分角軍的推薦方法(Joint M曰trix F曰Ctoriz曰tion with User Category Preference, 簡稱JMF-UCP),對于評分較少的用戶,很難從用戶評分矩陣中捕捉其潛在的特征,在此模型 中可W通過用戶類別偏好相似度來學習此類用戶的潛在特征。
【發(fā)明內容】
[000引我們首先根據(jù)用戶-項目評分矩陣和項目-類別矩陣構建用戶類別偏好相似度矩 陣,假設某分類系統(tǒng)為某類項目預先定義了P個分類標簽,用戶U對項目i打過評分且項目i 分屬n個分類,則項目i對應的每個分類標簽將獲得用戶t的關注度為1/t.由此用戶U對類別 C的關注度公式為:
[0009]
[0010] 其中,如果項目i屬于類別C,則sgn(u, i ,C) = 1,否則為O.au。為用戶U對類別C的偏 好值;Dk(U)為用戶U評論過的項目集合;k為集合Dk(U)中的元素個數(shù)。由此可建立用戶U的 User-htegoiy 偏好向量:
[0011] Au=(aui,au2,...,a叩)
[0012] 本專利采用余弦相似度來度量用戶類別偏好相似度,用戶i和用戶j之間的類別偏 好相似度:
[0013]
[0014] 本方法首先通過用戶項目的評分關系與項目類別的關聯(lián)關系構建用戶類別偏好 相似度矩陣,然后通過聯(lián)合矩陣分解(JMF)同時分解用戶項目評分矩陣和用戶類別偏 好相似睽巧隨S(ucp> -且優(yōu)化巧掀責.
[0015]
[0016] 其中J是一個指示函數(shù),如果巧有值,則Jik為1,如果巧'W缺失,則J化為化6是權 衡系數(shù),用來控制用戶類別偏好相似度對評分預測的影響。其中m,n分別表示用戶和項目的 數(shù)量,? ^表示Frobenius范數(shù)。RmXn表示評分矩陣,UmXd表示用戶的偏好特征矩陣,VnXd表示 項目的特征矩陣。I是一個指示函數(shù),如果Rij有值,則Iij為1,如果Rij缺失,則Iij為0. M川2和M VI 12是為防止過擬合的正則化項,Au和Av為正則化系數(shù)。求解上述最優(yōu)化函數(shù)L,獲取局 部最優(yōu)的U和V,從而預測未知評分^ 。
[0017] 目標函數(shù)主要包含兩個部分,即在將用戶評分矩陣分解成低維的用戶潛在特征矩 陣和項目潛在特征矩陣時,同時分解用戶類別偏好相似度。該聯(lián)合矩陣分解模型可W有效 的緩解數(shù)據(jù)稀疏性問題,對于評分較少的用戶,很難從用戶評分矩陣中捕捉其潛在的特征, 在此模型中可W通過用戶類別偏好相似度來學習此類用戶的潛在特征。
[0018] 本發(fā)明的優(yōu)化函數(shù)使用梯度下降的求解方法為了得到滿足優(yōu)化函數(shù)中的兩個低 秩矩陣U和V,運里使用梯度下降捜索目標函數(shù)L的局部最小值。為此,目標函數(shù)分別對U、V進 行求導:
[0019;
[0020;
[0021 ]由于現(xiàn)有推薦系統(tǒng)的應用場景中,項目的類別數(shù)目往往遠小于系統(tǒng)中用戶個數(shù)和 項目個數(shù),且用戶類別偏好可單獨來計算,可事先存放在內存中,因此本推薦方法的計算開 銷主要來自目標函數(shù)和梯度下降變量的迭代更新。因此目標函數(shù)L3的時間復雜度為0(Ml + nsl),其中,郵Unsl分別表示矩陣R.sfuepj中的非零元素個數(shù)。因此,每迭代一次總的時間復 雜度是0(nRl+nsl)。綜合上述分析,推薦方法的時間復雜度隨著矩陣R、S(uc^P^勺非零元素個 數(shù)的增加呈線性增長,因此本推薦方法可W應用于大規(guī)模的數(shù)據(jù)集。
[0022] 本發(fā)明的推薦方法,正則化參數(shù)Au、Av、維度d可取普遍可W接受的經驗值。參數(shù)對空 制著用戶類別偏好在推薦系統(tǒng)中的重要性,@取值越大則用戶類別偏好對推薦系統(tǒng)影響也 越大。因此,針對不同的數(shù)據(jù)集需要做實驗來確定參數(shù)S的值。
[0023] 針對推薦系統(tǒng)實際應用中數(shù)據(jù)稀疏性問題,本專利提出一種基于用戶類別偏好相 似度和聯(lián)合矩陣分解的推薦方法,并通過在真實數(shù)據(jù)集上的實驗評估證實了本推薦方法具 有較好的準確率,有效的緩解了數(shù)據(jù)稀疏性問題。本推薦方法的時間復雜度隨著觀察數(shù)據(jù) 的增加呈現(xiàn)線性增長,因此可應用于大規(guī)模數(shù)據(jù)。
【附圖說明】
[0024] 圖1是本方法流程圖。
[00巧]圖2是不同方法對比圖。
[0026] 圖3是參數(shù)對RMSE的影響。
【具體實施方式】
[0027] W下結合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并 非用于限定本發(fā)明的范圍。
[00巧]使用推薦領域中MovieLens IM化ttp://grouplens.org/da1:asets/movielens/) 真實數(shù)據(jù)集給出本發(fā)明實現(xiàn)的例子.該數(shù)據(jù)集包含2000年6400個獨立匿名用戶對3900部電 影作的1,000,209次評分,評分的取值[1-引之間的離散值,標簽的種類數(shù)共有18種,電影都 被打上不同的分類標簽,每個電影對應一個或多個分類標簽。
[0029] 利用
【發(fā)明內容】
中介紹的方法構建用戶類別偏好相似度矩陣Sfuwl,然后將利用聯(lián)合 矩陣分解對用戶評分矩陣R和用戶類別偏好相似度矩陣Sfuwl進行聯(lián)合分解得到目標函數(shù)L, 學習用戶的潛在特征向量U和項目的潛在特征向量V。
[0030] 為了驗證本推薦方法在評分預測中的準確性,實驗采用了均方根誤差(root mean squared error,RM沈)評估方法。RM沈的定義形式如下:
[0031]
[003^ 其中,Rui是用戶U對項目i的真是評分,盡,表示預測評分,I Rt I表示測試集中的評分 個數(shù)??蒞看出,RMSE越低,評分預測的準確率越高,推薦系統(tǒng)的性能越好。
[0033]為了評估本推薦方法的性能,通過實驗把本推薦方法與另外一些推薦方法進行了 比較=(I)Random方法,為目標用戶隨機產生鄰居的方法;(II)UserAvg方法,根據(jù)每個用戶 的歷史平均評分對未知的評分進行預測;(III)協(xié)同過濾方法(CF),目前使用最為廣泛的基 于內存的推薦方法;(IV)非負矩陣方法(NMF),該方法的是基本的矩陣分解,其基本形式如 公式(4),其中正則項參數(shù)Au及Av的取值與本推薦方法(JMF-UCP)中相同;(V) JMF-UP方法,該 方法首先根據(jù)用戶項目評分矩陣構建用戶間的相似度矩陣S,然后利用聯(lián)合矩陣分解融合 基本的用戶偏好S來完成評分預測,其形式如公式(4.6)將其中的用戶類別偏好相似度S(uw) 替換成S,其中所需要的參數(shù)取值與本方法(JMF-UCP)中相同;(VI)SoRecUser方法,該方法 利用共享潛在特征,將用戶和分類標簽的關聯(lián)關系融入評分矩陣的低秩矩陣分解過程。試 驗中,評分數(shù)據(jù)集被分為兩個部分:隨機抽取80%的評分數(shù)據(jù)作為訓練集,余下的20%作為 測試集。為了得到穩(wěn)定的實驗結果,實驗重復計算10次,度量的結果取平均值。試驗中,正則 化參數(shù)Au及Av取值為0.001,維度d的取值為10,附圖2給出了不同方法的實驗結果對比。
[0034] 參數(shù)對空制著用戶類別偏好在推薦系統(tǒng)中的重要性,S取值越大則用戶類別偏好對 推薦系統(tǒng)影響也越大。因此,針對參數(shù)對故了一組實驗,著重研究參數(shù)6對本推薦方法模型的 性能影響,通過調整參數(shù)0取不同的值,觀察本推薦方法模型的性能。實驗結果如附圖3所 示,參數(shù)另取不同值的情況下,本推薦方法評分預測的RMSE值有不同的變化。從圖3中看出參 數(shù)易的值小于0.1或者大于0.1時RMSE的值都會上升。實驗參數(shù)巧受置為0.1是合理的。同時上 述實驗結果也說明,適當?shù)目紤]用戶對類別的偏好可W進一步提高推薦系統(tǒng)的性能。
[0035] W上所述僅為本發(fā)明的較佳實施例,并不用W限制本發(fā)明,凡在本發(fā)明的精神和 原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【主權項】
1. 一種針對具備項目的分類信息的推薦方法,其特征為:采用聯(lián)合矩陣分解JMF(Joint Matrix Factorization)來同時分解用戶-項目評分矩陣和用戶類別偏好相似度矩陣,用戶 類別偏好相似度矩陣的構造并不具有固定的方法,其具體形式有多種{Sinu,Sim 2,……}。2. 如權利要求1所述的針對具備項目的分類信息的推薦方法,其特征為:根據(jù)用戶項目 評分數(shù)據(jù)矩陣和項目類別的關聯(lián)矩陣構建用戶類別偏好相似度。3. 如權利要求2所述的針對具備項目的分類信息的推薦方法,其特征為:使用聯(lián)合矩陣 對用戶項目評分矩陣和計算得出的用戶類別偏好相似度矩陣進行聯(lián)合分解,得到優(yōu)化函數(shù) L〇4. 如權利要求3所述的針對具備項目的分類信息的推薦方法,其特征為:利用梯度下降 和最小二乘法對優(yōu)化函數(shù)L求解局部最小值。5. 如權利要求4所述的針對具備項目的分類信息的推薦方法,其特征為:(1)首先計算 用戶類別之間的相似度,假設某分類系統(tǒng)為某類項目預先定義了P個分類標簽,用戶u對項 目i打過評分且項目i分屬η個分類,則項目i對應的每個分類標簽將獲得用戶t的關注度為 Ι/t,由此用戶u對類別c的關注度公式為:其中,如果項目i屬于類別c,則sgn (u,i,c) = 1,否則為0,au。為用戶u對類別c的偏好值; Dk(u)為用戶u評論過的項目集合;k為集合Dk(u)中的元素個數(shù),由此建立用戶u的User-Category偏好向量: Au - ( Elul,£lu2,· · ·,Elup ) 采用余弦相似度來度量用戶類別偏好相似度,用戶i和用戶j之間的類別偏好相似度:(2) 將計算出來的用戶類別偏好相似度矩陣和用戶項目評分矩陣進行聯(lián)合分解:其中m,n分別表示用戶和項目的數(shù)量,K表示Frobenius范數(shù)。RmXn表示評分矩陣,Umxd 表示用戶的偏好特征矩陣,VnXd表示項目的特征矩陣。I是一個指示函數(shù),如果Ru有值,則 為1,如果b缺失,則k為0.1 |U| |2和| |V| |2是為防止過擬合的正則化項,λυ和λν為正則化系 數(shù), (3) 得到滿足(2)中等式的兩個低秩矩陣U和V,這里使用梯度下降搜索目標函數(shù)L3的局 部最小值,在(2)中等式中分別對U、V進行求導:求解上述最優(yōu)化函數(shù)L,獲取局部最優(yōu)的U和V,從而預測未知評分i = i/}7F。
【文檔編號】G06F17/30GK105956089SQ201610284127
【公開日】2016年9月21日
【申請日】2016年5月3日
【發(fā)明人】王勇, 何海洋, 劉永宏, 杜誠, 張文輝, 唐紅武
【申請人】桂林電子科技大學