本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種基于聚類的協(xié)同過濾的商品推薦方法及系統(tǒng)。
背景技術(shù):隨著電子商務(wù)網(wǎng)站的快速發(fā)展,推薦系統(tǒng)已經(jīng)被廣泛研究和應(yīng)用。推薦系統(tǒng)通過提取分析用戶的資料、行為、評分等信息,獲得用戶的喜好,來幫助電商找到特定的用戶為其推薦可能購買的產(chǎn)品,增加商品的銷售量。目前被廣泛研究的推薦系統(tǒng)有的是采用基于內(nèi)容的推薦算法、協(xié)同過濾推薦算法等?;趦?nèi)容的推薦算法是通過用戶購買過的產(chǎn)品的特征,為用戶推薦與其相似的產(chǎn)品。這種算法的優(yōu)點是可以處理冷啟動問題,處理新加入的產(chǎn)品,并且這種算法不會受到打分稀疏性的問題,因為它不依賴于用戶對產(chǎn)品的評分。但是它的缺點是無法處理像圖形、視頻和音樂這種難以分析提取內(nèi)容特征的商品。與之相反,協(xié)同過濾算法則是利用用戶-產(chǎn)品評分矩陣,計算用戶或產(chǎn)品之間的相似度,利用相似度較高的鄰居對其他產(chǎn)品進行評分預(yù)測,并根據(jù)預(yù)測評分的高低為目標(biāo)用戶進行推薦。但是每一個用戶購買的產(chǎn)品數(shù)量通常不到產(chǎn)品總數(shù)的1%,所以造成用戶-產(chǎn)品評分矩陣非常稀疏,從而使得推薦結(jié)果不佳。Sarwar等(SarwarB,KarypisG,KonstanJ,etal.Item-basedcollaborativefilteringrec-ommendationalgorithms.Proc10thInt’1WWWConf,HongKong,2001,1-5)通過計算商品之間的相似度,預(yù)測目標(biāo)用戶對未購買商品的可能打分,為目標(biāo)用戶推薦商品。Mooney等(MooneyRJ,BennettPN,RoyL.Bookrecommendingusingtextcategorizationwithextractedinformation.ProcRecommenderSystemsPapersfrom1998Workshop,TechnicalReportWS-98-08,1998)提出了基于文本分類的圖書推薦系統(tǒng)。通用的協(xié)同過濾方法由于存在稀疏性問題,導(dǎo)致推薦結(jié)果不準(zhǔn)確,而普通的基于內(nèi)容的推薦算法則對于視頻、音樂等商品的內(nèi)容特征提取困難。
技術(shù)實現(xiàn)要素:本發(fā)明的目的在于避免上述現(xiàn)有技術(shù)中的不足之處而提供了一種基于聚類的協(xié)同過濾的商品推薦方法及系統(tǒng),本發(fā)明采取了如下技術(shù)方案:基于聚類的協(xié)同過濾的商品推薦方法,包含以下步驟:步驟1)利用購物網(wǎng)站的API接口獲取用戶對商品的評分信息和商品的類型標(biāo)簽信息;步驟2)根據(jù)用戶的購買商品類型,對用戶進行聚類;步驟3)根據(jù)聚類的結(jié)果,并通過評分估值公式為用戶-商品評分矩陣中缺省評分賦予評分估值;步驟4)計算矩陣中商品之間的相似度,對目標(biāo)用戶未購買商品進行預(yù)測評分,并為目標(biāo)用戶推薦預(yù)測評分最高的前N件商品。所述步驟2)具體包括:步驟2.1)用戶c對商品s的評分表示為Rc,s,用戶對商品類型i的評分公式為,其中,分子表示,用戶c已購買的商品中屬于類型i的商品的評分的求和,分子|s|表示用戶c已購買的商品中屬于類型i的商品總數(shù),1≤tc,i≤5;步驟2.2)根據(jù)用戶對商品類型的評分,構(gòu)建出一個用戶-類型評分矩陣;步驟2.3)采用K-means算法,首先選取k=10~15個用戶作為初始的聚類中心,用戶c的類型評分向量表示為Uc={t1,t2,t3,...,tk},ti表示用戶c對類型i的評分,稱為一個用戶節(jié)點,計算每個用戶節(jié)點與聚類中心的歐式距離,并根據(jù)最小的距離對行向量的類別進行劃分,重新計算每個聚類的均值,作為聚類的中心,利用新的聚類中心,重讀上述過程,迭代多次之后,直到聚類中心不再發(fā)生變化為止,最終將所有的用戶節(jié)點劃分為k個類。所述步驟3)具體包括:步驟3.1)根據(jù)步驟a獲取的用戶對已購買商品的評分信息,建立一個用戶-商品評分矩陣;步驟3.2)計算每個用戶的平均打分值步驟3.3)設(shè)定矩陣的系數(shù)度α,α表示為表明的是矩陣的稀疏程度,根據(jù)α的值,我們對用戶-商品矩陣以概率P=1-α的概率填充評分矩陣中的空值;步驟3.4)對評分矩陣中的空缺值進行缺省賦值,得到稀疏度為α的密度化的評分矩陣。用戶C對商品S的估計評分公式為其中集合U={購買過商品S并且與用戶C屬于同一個分類的所有用戶},表示屬于集合U的用戶對商品S的打分,表示集合U中的用戶的平均打分。所述步驟4)還具體包括:步驟4.1)根據(jù)評分矩陣,計算任意兩個商品之間的相似性,利用修正的余弦值作為相似性計算公式,如下所示,其中集合U={既買過商品i又買過商品j的所有用戶},Ru,i表示用戶u對商品i的評分,表示用戶u的平均評分;步驟4.2)為每個商品選出相似性最高的k件商品;步驟4.3)對目標(biāo)用戶u的未購買商品i進行預(yù)測評分。評分公式如下所示,其中N={與商品i最相似的并且目標(biāo)用戶u購買過的前N件商品},simi,N表示商品i與商品N的相似度,Ru,N表示用戶u對商品N的評分;步驟4.4)將預(yù)測評分最高前N個商品推薦給目標(biāo)用戶。基于聚類的協(xié)同過濾的商品推薦系統(tǒng),包含以下結(jié)構(gòu):獲取信息模塊,利用購物網(wǎng)站的API接口獲取用戶對商品的評分信息和商品的類型標(biāo)簽信息;聚類模塊,根據(jù)用戶的購買商品類型,對用戶進行聚類;估值模塊,根據(jù)聚類的結(jié)果,并通過評分估值公式為用戶-商品評分矩陣中缺省評分賦予評分估值;評分推薦模塊,計算矩陣中商品之間的相似度,對目標(biāo)用戶未購買商品進行預(yù)測評分,并為目標(biāo)用戶推薦預(yù)測評分最高的前N件商品。聚類模塊還進一步包含:用戶c對商品s的評分表示為Rc,s,用戶對商品類型i的評分公式為,其中,分子表示,用戶c已購買的商品中屬于類型i的商品的評分的求和,分子|s|表示用戶c已購買的商品中屬于類型i的商品總數(shù),1≤tc,i≤5;根據(jù)用戶對商品類型的評分,構(gòu)建出一個用戶-類型評分矩陣;采用K-means算法,首先選取k=10~15個用戶作為初始的聚類中心,用戶c的類型評分向量表示為Uc={t1,t2,t3,...,tk},ti表示用戶c對類型i的評分,稱為一個用戶節(jié)點,計算每個用戶節(jié)點與聚類中心的歐式距離,并根據(jù)最小的距離對行向量的類別進行劃分,重新計算每個聚類的均值,作為聚類的中心,利用新的聚類中心,重復(fù)上述過程,迭代多次之后,直到聚類中心不再發(fā)生變化為止,最終將所有的用戶節(jié)點劃分為k個類。估值模塊還進一步包含:根據(jù)已獲取的用戶對已購買商品的評分信息,建立一個用戶-商品評分矩陣;計算每個用戶的平均打分值設(shè)定矩陣的系數(shù)度α,α表示為表明的是矩陣的稀疏程度,根據(jù)α的值,我們對用戶-商品矩陣以概率P=1-α的概率填充評分矩陣中的空值。對評分矩陣中的空缺值進行缺省賦值,得到稀疏度為α的密度化的評分矩陣。用戶C對商品S的估計評分公式為其中集合U={購買過商品S并且與用戶C屬于同一個分類的所有用戶},表示屬于集合U的用戶對商品S的打分,表示集合U中的用戶的平均打分。評分推薦模塊還進一步包含:根據(jù)評分矩陣,計算任意兩個商品之間的相似性,利用修正的余弦值作為相似性計算公式,如下所示,其中集合U={既買過商品i又買過商品j的所有用戶},Ru,i表示用戶u對商品i的評分,表示用戶u的平均評分;為每個商品選出相似性最高的k件商品;對目標(biāo)用戶u的未購買商品i進行預(yù)測評分。評分公式如下所示,其中N={與商品i最相似的并且目標(biāo)用戶u購買過的前N件商品},simi,N表示商品i與商品N的相似度,Ru,N表示用戶u對商品N的評分;將預(yù)測評分最高前N件商品推薦給目標(biāo)用戶。本發(fā)明相比現(xiàn)有技術(shù)具有如下優(yōu)點:(1)使用缺省賦值的方法解決了數(shù)據(jù)稀疏性的問題。(2)使用偏好平均代替平均分的方法來為矩陣的缺省值賦值,減少了不同用戶的評分尺度不一致的問題,提高了缺省賦值的準(zhǔn)確性。(3)利用聚類算法將喜好相似的用戶聚到同一類中,這樣可以使得同一類中的用戶的評分相似性最高,缺省賦值在同一類中進行,提高了缺省賦值的準(zhǔn)確性。附圖說明圖1為本推薦方法流程圖;圖2為本推薦系統(tǒng)模塊結(jié)構(gòu)圖;圖3為本推薦系統(tǒng)在不同稀疏度下與普通的推薦系統(tǒng)的推薦準(zhǔn)確性比較;圖4為平均絕對誤差隨矩陣密度的變化曲線;圖5為平均絕對誤差隨聚類個數(shù)k的變化曲線。具體實施方式當(dāng)結(jié)合附圖考慮時,通過參照下面的詳細描述,能夠更完整更好地理解本發(fā)明以及容易得知其中許多伴隨的優(yōu)點,但此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分。為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。實施例:如圖1所示,我們使用movielens的評分?jǐn)?shù)據(jù),Movielens是一個電影網(wǎng)站,用戶在看完網(wǎng)站上的電影之后可以對其進行評分,分值為1-5分,分值越高表明用戶越喜歡該電影。我們共獲取了其中943位用戶的數(shù)據(jù)。這些用戶對1682件共18種類型的電影產(chǎn)品進行了100000次的評分。為了驗證我們的推薦結(jié)果的準(zhǔn)確性,我們?nèi)〕?0%的評分?jǐn)?shù)據(jù)作為測試集。我們的實驗結(jié)果度量方法采用MAE平均絕對誤差來衡量,公式如下所示這里,N表示預(yù)測評分的總數(shù),Pi表示第i個預(yù)測評分,Ri表示對應(yīng)的測試集中第i個電影的實際評分。MAE越小,表明我們的預(yù)測結(jié)果越準(zhǔn)確。實驗中,我們首先研究了矩陣稀疏度對系統(tǒng)推薦性能的影響。稀疏度按照10%遞減,分別進行測試。我們又通過改變聚類的k值研究了聚類算法的k值對預(yù)測準(zhǔn)確性的影響。如圖2所示,在計算完相似性之后,對每件商品與其他商品之間的相似性進行排序,選出前N個相似性最高的商品作為他們的近鄰。從圖中可以看出,我們的協(xié)同過濾算法比普通的協(xié)同過濾的算法的推薦準(zhǔn)確度要高。并且的那個稀疏度為90%時,推薦算法的推薦性能最好。平均絕對誤差隨鄰居個數(shù)的增加而減少,并且當(dāng)鄰居個數(shù)為30時,平均絕對誤差最小,推薦效果最好。如圖3所示,當(dāng)矩陣密度在(0,7%)之間時,平均絕對誤差隨矩陣密度的增高而急劇降低,當(dāng)矩陣密度在(7%,40%)之間時,平均絕對誤差隨矩陣密度的增高而增高。當(dāng)矩陣密度在(5%-15%)之間時,平均絕對誤差處在最低的水平(小于0.755)。如圖4所示,當(dāng)k=30時,平均絕對誤差最低,推薦效果最好。下表是K-means聚類結(jié)果示意圖,其中用戶1、345、143為同一類,他們的相似度比較高。用戶i,j,m為另外一類。表1用戶聚類結(jié)果示意圖以上對本發(fā)明所提供的一種基于橫向摩擦的單表面納米發(fā)電機及其制備方法進行了詳細介紹,以上參照附圖對本申請的示例性的實施方案進行了描述。本領(lǐng)域技術(shù)人員應(yīng)該理解,上述實施方案僅僅是為了說明的目的而所舉的示例,而不是用來進行限制,凡在本申請的教導(dǎo)和權(quán)利要求保護范圍下所作的任何修改、等同替換等,均應(yīng)包含在本申請要求保護的范圍內(nèi)。