本發(fā)明屬于基于大數(shù)據(jù)的個(gè)性化推薦技術(shù)領(lǐng)域,具體涉及一種基于購(gòu)買用戶行為分析的個(gè)性化推薦方法。
背景技術(shù):
互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展導(dǎo)致大眾獲得的信息呈爆炸式增長(zhǎng)的局面。信息過(guò)快增長(zhǎng)會(huì)降低信息的使用率,也就是所謂的“信息超載”。個(gè)性化推薦是當(dāng)前研究的熱門領(lǐng)域,它可以在大量冗余信息中找到貼合用戶需求的信息,因此,可以很好地提升用戶體驗(yàn),從而提升企業(yè)營(yíng)銷。通過(guò)相關(guān)的機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘技術(shù),推薦系統(tǒng)挖掘用戶的購(gòu)買傾向,將用戶可能感興趣的物品推薦給用戶。一個(gè)良好的推薦系統(tǒng)可以挖掘出用戶潛在的消費(fèi)偏好,為不同的用戶提供針對(duì)性的服務(wù)。
已有的基于用戶或者物品的個(gè)性化推薦方法,其精度對(duì)用戶數(shù)量、物品數(shù)量以及評(píng)價(jià)矩陣稀疏性具有依賴性,實(shí)踐證明預(yù)測(cè)的精度很難讓人滿意。一般的網(wǎng)絡(luò)建立方法都是從很多推薦客體關(guān)系中抽取出所需的相關(guān)性鏈接。如按照用戶購(gòu)買產(chǎn)品的先后次序,或者按照根據(jù)購(gòu)買此產(chǎn)品用戶之間的社交網(wǎng)絡(luò)關(guān)系,據(jù)此建立產(chǎn)品之間的鏈接關(guān)系得到相關(guān)性鏈接網(wǎng)絡(luò)圖。這種產(chǎn)品相關(guān)性鏈接圖應(yīng)該是一個(gè)典型的網(wǎng)絡(luò)結(jié)構(gòu),從實(shí)驗(yàn)分析來(lái)看,它也具有復(fù)雜網(wǎng)絡(luò)的典型特點(diǎn)。值得說(shuō)明的是,產(chǎn)品相關(guān)性鏈接圖有很多生成方法,傳統(tǒng)方法往往通過(guò)共同購(gòu)買關(guān)系來(lái)構(gòu)造,比如利用產(chǎn)品購(gòu)買相關(guān)度計(jì)算的產(chǎn)品質(zhì)量測(cè)度方法??梢哉J(rèn)為對(duì)于同一用戶而言,產(chǎn)品item1如果能經(jīng)常在購(gòu)買過(guò)產(chǎn)品item2后一個(gè)時(shí)間范圍內(nèi)被購(gòu)買,則產(chǎn)品item1和產(chǎn)品item2就具有一定的產(chǎn)品購(gòu)買相關(guān)性。該方法可以避免傳統(tǒng)方法中認(rèn)為購(gòu)買量較高產(chǎn)品往往具有較高鏈入節(jié)點(diǎn)的特點(diǎn),相反,只有具有較多產(chǎn)品購(gòu)買相關(guān)性的產(chǎn)品才能形成較高的鏈入節(jié)點(diǎn)或者鏈出節(jié)點(diǎn)。從購(gòu)買用戶行為的角度來(lái)分析,可以認(rèn)為用戶在連續(xù)購(gòu)買行為中,隨著不斷地了解所購(gòu)商品的內(nèi)容,更易于在后續(xù)的購(gòu)買行為中購(gòu)買到與產(chǎn)品內(nèi)容相關(guān)的更為合適的相關(guān)產(chǎn)品資源。因此,該方法所獲得的優(yōu)質(zhì)推薦產(chǎn)品往往在內(nèi)容上更符合用戶的預(yù)期興趣特征,從而為個(gè)性化推薦服務(wù)提供了良好的推薦客體資源。
在復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)中使用迭代計(jì)算方法可以得到權(quán)值收斂后的節(jié)點(diǎn)信息,如pagerank方法等。pagerank是google專有的算法,用于衡量特定網(wǎng)頁(yè)相對(duì)于搜索引擎索引中的其他網(wǎng)頁(yè)而言的重要程度,由larrypage和sergeybrin在20世紀(jì)90年代后期發(fā)明。pagerank實(shí)現(xiàn)了將鏈接價(jià)值概念作為排名因素,然而這些傳統(tǒng)方法在分配節(jié)點(diǎn)權(quán)值和權(quán)值擴(kuò)散策略選擇上,并沒(méi)有考慮到特定應(yīng)用領(lǐng)域中的特點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有利用產(chǎn)品購(gòu)買相關(guān)度計(jì)算的產(chǎn)品質(zhì)量測(cè)度方法的不足,提出一種產(chǎn)品質(zhì)量測(cè)度依據(jù)和用戶相似度測(cè)度依據(jù),以提高推薦系統(tǒng)的效果。
為實(shí)現(xiàn)上述目的,本發(fā)明提出的技術(shù)方案為一種基于購(gòu)買用戶行為分析的個(gè)性化推薦方法,包含以下步驟:
s1:通過(guò)以下方式計(jì)算產(chǎn)品權(quán)值:
value為基于修正pagerank方法計(jì)算出的產(chǎn)品權(quán)值,f(itemi)集合表示產(chǎn)品itemi在產(chǎn)品相關(guān)性鏈接關(guān)系圖中所有鏈入產(chǎn)品的集合,nf(itemi)表示該鏈入產(chǎn)品集合的產(chǎn)品數(shù)量,counti,j表示對(duì)應(yīng)產(chǎn)品itemi和itemj之間鏈接關(guān)系的數(shù)量;
s2:得到每個(gè)購(gòu)買用戶的興趣模式特征向量:useri={(產(chǎn)品購(gòu)買相關(guān)性鏈接j,頻次j)}(1<=j(luò)<=n,n為產(chǎn)品購(gòu)買相關(guān)性鏈接總數(shù)量);
s3:對(duì)每個(gè)用戶興趣模式的權(quán)值進(jìn)行規(guī)范化處理;
s4:對(duì)每?jī)蓚€(gè)用戶興趣模式特征向量求取最終的用戶相似度;
s5:在個(gè)性化推薦環(huán)節(jié)上,首先對(duì)于目標(biāo)用戶,得到最為相似的其他用戶序列。
進(jìn)一步,上述步驟3中所述規(guī)范化處理是采用每個(gè)用戶最大頻次去除其向量每一個(gè)頻次值的方法進(jìn)行規(guī)范化處理。
進(jìn)一步,上述步驟4中求取最終的用戶相似度可以采用皮爾遜系數(shù)或者余弦?jiàn)A角系數(shù)方法。
進(jìn)一步,上述步驟5中個(gè)性化推薦環(huán)節(jié)可以選擇長(zhǎng)期興趣推薦和短期興趣即時(shí)推薦。
上述長(zhǎng)期興趣推薦又包含以下步驟:
1、根據(jù)目標(biāo)用戶所有的購(gòu)買情況,獲取相關(guān)購(gòu)買產(chǎn)品信息;
2、據(jù)此得到最為相似的其他用戶序列中,匯總得到推薦產(chǎn)品列表;
3、按照產(chǎn)品權(quán)值,倒序輸出推薦產(chǎn)品列表。
上述短期興趣即時(shí)推薦包含以下步驟:
1、根據(jù)最近n次目標(biāo)用戶的購(gòu)買情況獲取相關(guān)購(gòu)買產(chǎn)品的類別信息;
2、據(jù)此得到最為相似的其他用戶序列中,按照最近一次購(gòu)買情況,匯總得到推薦產(chǎn)品列表;
3、按照優(yōu)質(zhì)產(chǎn)品識(shí)別標(biāo)準(zhǔn),倒序輸出即時(shí)推薦產(chǎn)品列表。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
1,本發(fā)明改變了傳統(tǒng)推薦方法中只考慮用戶與產(chǎn)品的興趣關(guān)聯(lián)度的做法,增加產(chǎn)品本身質(zhì)量的識(shí)別,以此改進(jìn)推薦系統(tǒng)的效果。
2,本發(fā)明結(jié)合用戶購(gòu)買產(chǎn)品的歷史信息記錄彌補(bǔ)單純使用文本語(yǔ)義和協(xié)同過(guò)濾方法的不足。
3,本發(fā)明產(chǎn)品質(zhì)量識(shí)別為線下計(jì)算,不影響線上計(jì)算性能,因此最終的推薦計(jì)算性能較為理想。
附圖說(shuō)明
圖1為本發(fā)明的方法流程圖。
具體實(shí)施方式
現(xiàn)結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
如圖1所示,本發(fā)明的方法流程依次包含計(jì)算產(chǎn)品權(quán)值、生成用戶興趣模式特征向量、對(duì)權(quán)值進(jìn)行規(guī)范化處理、求取最終的用戶相似度和得到最為相似的其他用戶序列。
鑒于產(chǎn)品購(gòu)買相關(guān)性是建立在具有一定出現(xiàn)頻次的這個(gè)重要前提上,不管是對(duì)于單一用戶而言,還是對(duì)于所有用戶而言,經(jīng)常出現(xiàn)的產(chǎn)品相關(guān)性鏈接關(guān)系能夠更能說(shuō)明相關(guān)鏈出和鏈入產(chǎn)品節(jié)點(diǎn)的購(gòu)買相關(guān)性。按照這個(gè)設(shè)計(jì)原則,需要對(duì)傳統(tǒng)網(wǎng)絡(luò)節(jié)點(diǎn)迭代算法進(jìn)行必要的修正。
在標(biāo)準(zhǔn)pagerank方法的基礎(chǔ)上,本發(fā)明提出的算法思路如:
這里,value表示基于修正pagerank方法的產(chǎn)品權(quán)值,f(itemi)集合表示產(chǎn)品itemi在產(chǎn)品相關(guān)性鏈接關(guān)系圖中所有鏈入產(chǎn)品的集合,nf(itemi)表示該鏈入產(chǎn)品集合的產(chǎn)品數(shù)量。counti,j表示對(duì)應(yīng)產(chǎn)品itemi和itemj之間鏈接關(guān)系的數(shù)量,通過(guò)該系數(shù)放大每個(gè)鏈入產(chǎn)品權(quán)值的影響程度,據(jù)此反映經(jīng)常出現(xiàn)的產(chǎn)品相關(guān)性鏈接關(guān)系更能說(shuō)明相關(guān)鏈出和鏈入產(chǎn)品節(jié)點(diǎn)的購(gòu)買相關(guān)性。itemi和itemj并非一定是不同的產(chǎn)品。相反,這種連續(xù)購(gòu)買同一產(chǎn)品的行為也更能反映該產(chǎn)品的質(zhì)量和興趣相關(guān)度,保留此類鏈接關(guān)系有助于發(fā)掘高質(zhì)量的產(chǎn)品。
以所有產(chǎn)品購(gòu)買相關(guān)性鏈接為向量單元,頻次信息作為向量單元值,就可以得到每個(gè)購(gòu)買用戶的興趣特征向量。如對(duì)于每個(gè)用戶i,都可以得到的用戶興趣模式為:
useri={(產(chǎn)品購(gòu)買相關(guān)性鏈接j,頻次j)}(1<=j(luò)<=n,n為產(chǎn)品購(gòu)買相關(guān)性鏈接總數(shù)量)
具體的用戶相似度計(jì)算方法可以采用皮爾遜系數(shù)或者余弦?jiàn)A角系數(shù)等,最終可以得到每位用戶與其他相關(guān)用戶的相似度。由于用戶數(shù)量和產(chǎn)品相關(guān)性鏈接數(shù)量眾多,在實(shí)際計(jì)算中,可以通過(guò)設(shè)定用戶具有相同產(chǎn)品購(gòu)買相關(guān)性鏈接的數(shù)量閾值來(lái)限定比較范圍。
首先對(duì)每個(gè)用戶興趣模式的權(quán)值進(jìn)行規(guī)范化處理,為避免單個(gè)用戶頻次絕對(duì)數(shù)量的影響,采用每個(gè)用戶最大頻次去除其向量每一個(gè)頻次值的方法進(jìn)行規(guī)范化處理。然后,對(duì)每?jī)蓚€(gè)用戶興趣模式向量采用余弦?jiàn)A角系數(shù)得到最終的用戶相似度。
在個(gè)性化推薦環(huán)節(jié)上,首先對(duì)于目標(biāo)用戶,得到最為相似的其他用戶序列,在實(shí)際計(jì)算中,可以設(shè)定相似度閾值來(lái)控制該序列的大小。同時(shí)可以設(shè)計(jì)兩種具有不同服務(wù)目標(biāo)的個(gè)性化產(chǎn)品推薦服務(wù)形式:
1)長(zhǎng)期興趣推薦
根據(jù)目標(biāo)用戶所有的購(gòu)買情況,獲取相關(guān)購(gòu)買產(chǎn)品信息,據(jù)此到最為相似的其他用戶序列中,匯總得到推薦產(chǎn)品列表,并按照前述的優(yōu)質(zhì)產(chǎn)品識(shí)別標(biāo)準(zhǔn),倒序輸出推薦產(chǎn)品列表。該種推薦形式主要面向用戶的長(zhǎng)期興趣特征,所推薦的內(nèi)容具有一定的穩(wěn)定性和用戶關(guān)聯(lián)性。
2)短期興趣的即時(shí)推薦
根據(jù)最近n次目標(biāo)用戶的購(gòu)買情況(n可以根據(jù)實(shí)驗(yàn)數(shù)據(jù)情況選擇,如2次或者3次等),獲取相關(guān)購(gòu)買產(chǎn)品的類別信息,據(jù)此到最為相似的其他用戶序列中,按照最近一次購(gòu)買情況,匯總得到推薦產(chǎn)品列表,并按照前述的優(yōu)質(zhì)產(chǎn)品識(shí)別標(biāo)準(zhǔn),倒序輸出即時(shí)推薦產(chǎn)品列表。該種推薦形式主要面向用戶的短期興趣特征,所推薦的內(nèi)容具有強(qiáng)的時(shí)效性。
以上所述并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。