基于用戶特征及網(wǎng)絡關系的微博推薦方法
【專利摘要】本發(fā)明涉及一種基于用戶特征及網(wǎng)絡關系的微博推薦方法。該方法包括以下步驟:1)網(wǎng)絡拓撲關系矩陣的建立和更新;2)網(wǎng)絡拓撲關系矩陣更新;3)不同用戶之間關聯(lián)度的確定;4)關注強度矩陣的最終確定。本發(fā)明通過構建了用戶和話題之間的網(wǎng)絡關系,得到用戶和話題之間的關聯(lián)程度,通過一段時間內話題內容的變化分析用戶行為,利用分析的結果對關聯(lián)關系進行進一步的修正,從而準確的得到用戶關注的話題,對用戶進行推薦,與傳統(tǒng)的推薦方法相對比,該方法有效提高了微博話題推薦的準確度。
【專利說明】基于用戶特征及網(wǎng)絡關系的微博推薦方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)上數(shù)據(jù)的處理技術,具體是一種基于用戶特征及網(wǎng)絡關系的微博推薦方法。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)技術、尤其是Web2.0網(wǎng)絡應用的發(fā)展,微博等社交網(wǎng)絡在人們的日常生活中扮演著愈發(fā)重要的角色。與傳統(tǒng)門戶網(wǎng)站、論壇、博客相比,微博等社交網(wǎng)絡中信息發(fā)布量更大,用戶交互更頻繁。社交網(wǎng)絡中關注好友的日志、微博、圖片、狀態(tài)等信息均以推送的形式發(fā)送至相關用戶主頁,這種推送模式在強化了用戶信息交互的同時,也給使用者帶來了信息風暴的沖擊,因此社交網(wǎng)絡中的個性化推薦算法將對提高用戶體驗與信息交互質量產生重大的影響。
[0003]傳統(tǒng)的用戶個性化推薦算法主要通過協(xié)同過濾與內容過濾。協(xié)同過濾又包括基于產品的協(xié)同過濾與基于用戶的協(xié)同過濾。Amazon的商品推薦算法為基于產品協(xié)同過濾的典型代表。其推薦思想是,兩件商品的聯(lián)合購買概率越大,對應商品間的關聯(lián)性越強,于是利用商品間的關聯(lián)關系實現(xiàn)推薦。基于用戶的協(xié)同過濾通過用戶與物品關聯(lián)矩陣計算用戶間相似度,從而將相似用戶感興趣的物品有限推薦給目標用戶?;趦热莸耐扑]算法不需要進行用戶之間的相似度計算,而根據(jù)物品本身的特征信息與用戶信息的匹配關聯(lián),實現(xiàn)物品的推薦。
[0004]與傳統(tǒng)的物品推薦相比,社交網(wǎng)絡中的推薦方式具備三點不同,以微博社交網(wǎng)絡為例:
[0005]( I)用戶影響力對于微博的影響:
[0006]不同用戶的影響力存在較大的個體差異。具體到微博的傳播關系中,同樣的微博被具有不同影響力的用戶所發(fā)布,其傳播關系與傳播效力均是不同的。甚至一條來自普通用戶的微博被一個具有較高影響力的用戶轉發(fā),也可能極大地改變這條微博的轉播路徑與傳播效力。
[0007](2)用戶交互關系對于微博的影響:
[0008]社交網(wǎng)絡中另一個重要測度為好友之間的親密程度。一個用戶關注某些特定親密好友全部微博的現(xiàn)象是普遍存在的。這種關注特點不依賴任何內容相似度與文本特征,這在傳統(tǒng)的物品推薦算法中是不存在的。
[0009](3)重復推薦:
[0010]在傳統(tǒng)的推薦算法中,若用戶已購買了某物品,那么該物品便不應再通過推薦模型推薦給目標用戶。但在微博推薦系統(tǒng)中,推薦的主體對應為一系列經(jīng)過聚類后的微博話題,一個話題可包含大量微博信息。當用戶對于其中一個話題感興趣時,微博推薦算法應當將相同話題的微博更加優(yōu)先推薦給用戶,這即是重復推薦的概念。
[0011]因此傳統(tǒng)的推薦算法不能有效應用于微博話題的推薦系統(tǒng),不利于微博推薦話題準確度的提高。
【發(fā)明內容】
[0012]本發(fā)明所要解決的技術問題是,提供一種能夠提高微博社交網(wǎng)站向用戶推薦關注話題相關微博的準確度的基于用戶特征及網(wǎng)絡關系的微博推薦方法。
[0013]本發(fā)明的基于用戶特征及網(wǎng)絡關系的微博推薦方法的步驟原理簡要說明如下:
[0014](I)網(wǎng)絡拓撲關系矩陣的建立和更新。
[0015]網(wǎng)絡拓撲關系矩陣是進行用戶和話題關聯(lián)性分析的基礎性的依據(jù)。它是根據(jù)已有的信息建立的最簡單的用戶和話題之間的關聯(lián)關系。
[0016]例如,用戶A發(fā)布過10條微博,其中9條屬于話題a,另外I條屬于話題b ;可以看出,用戶A發(fā)布的微博話題a與話題b之比為9:1,可以說明話題a對用戶A具有更高的偏好性,而話題b則對用戶A不具備足夠的代表性。所以在確定用戶和話題的關聯(lián)度的時候,就要考慮到用戶的偏好性,所在比例大的話題的關聯(lián)度高,在這里就將話題a與用戶A的關系系數(shù)設定為9/10,話題b與用戶A的關系系數(shù)設定為1/10。
[0017]網(wǎng)絡拓撲關系矩陣的更新即重新統(tǒng)計話題數(shù)和微博數(shù),更新話題的關系系數(shù),如果將更新機制設定為監(jiān)聽模式,用戶發(fā)表新的微博便立即更新矩陣,會耗費很多資源,而且不容易實現(xiàn)。所以設定一個時間閾值t,沒經(jīng)過t時間,便重新統(tǒng)計話題數(shù)和微博數(shù),建立新的關系矩陣。
[0018]矩陣的建立和更新,是整個算法的基礎。
[0019](2)網(wǎng)絡拓撲關系矩陣更新的分析。
[0020]這網(wǎng)絡拓撲關系矩陣更新反應出用戶行為特征的變化,這一步就是根據(jù)此變化來建立用戶對話題的關注強度矩陣。
[0021]關注強度矩陣表示用戶對話題的關注強度,若用戶i對話題j的關注強度為aij;則矩陣的第i行第j列元素為au。初始的關注強度矩陣與網(wǎng)絡拓撲關系矩陣相同。
[0022]a.若網(wǎng)絡拓撲關系矩陣中的零元素變成非零元素,這就表明用戶在一個時間段t內發(fā)表了一個新的話題。
[0023]例如,用戶A發(fā)布過10條微博,其中9條屬于話題a,另外I條屬于話題b ;經(jīng)過一個時間段t后,用戶A又發(fā)表了兩條關于話題c的微博,那么話題c與用戶A的關系系數(shù)就由O設定為1/6,這一變化表明,用戶A突然間對話題c感興趣,有可能話題c是最新的熱門事件,也有可能用戶A開始關注話題C,此時,將關注強度矩陣中的aA。的值設定為100,并保持η個時間段t,即立刻把話題c加入用戶A的推薦列表中,并在nt時間長度內不斷的給用戶A進行推薦。
[0024]這是根據(jù)用戶行為的瞬時性特征來評判用戶對話題的關注度。這種行為特征很具有代表性,并且推薦準確率很高。
[0025]b.若nt的時間段內,網(wǎng)絡拓撲關系矩陣中對應項的元素的值總體處于下降趨勢,表明用戶對此話題的關注度相對變小,甚至不再關注此話題,所以即使此話題在網(wǎng)絡拓撲關系矩陣關系系數(shù)比較大,也不再具有代表性。
[0026]用戶A發(fā)布過100條微博,其中90條屬于話題a,另外10條屬于話題b ;在一個月后,用戶A只發(fā)表了 10條關于話題c的微博,此時即使話題a的關系系數(shù)為9/11,但在此時間段內已經(jīng)不具有代表性。[0027]因此在此引入一個系數(shù)a,a正比于話題a關系系數(shù)的減少量。關注強度矩陣中對應的元素值設為aaijt)
[0028]c.若nt的時間段內,網(wǎng)絡拓撲關系矩陣中對應項的元素的值總體處于上升趨勢,表明用戶對此話題的關注度相對變大。與b.中的情況正好相反,引入一個系數(shù)a a正比于話題關系系數(shù)的增加量。
[0029](3)不同用戶之間關聯(lián)度。
[0030]不同用戶之間存在一定的關聯(lián)度,關聯(lián)度高的用戶之間具有高的相似性,用戶之間關注的話題相似的可能性也就越大。
[0031]例如,網(wǎng)絡中存在三個用戶:A、B、C,每個用戶均發(fā)布了 5條微博。A用戶所發(fā)布的5條微博均屬于話題a ;B用戶發(fā)布的微博中,4條屬于話題a,I條屬于話題b ;C用戶發(fā)布的微博中2條屬于話題a,剩余3條屬于話題C。定義目標用戶為A,對其進行微博推薦,在上述假設中,用戶A的微博100%屬于話題a,用戶B發(fā)布的微博中有80%的微博屬于話題a,而用戶C中屬于話題a的微博只占40%,因此用戶A與用戶B應該具備更高的相似度。用戶B所發(fā)布的其他微博,即屬于話題b的微博相比用戶C所發(fā)布屬于話題c的微博,對于用戶A應當具有更高的推薦關系。
[0032]則不同用戶之間的關系可以利用生成的關注強度矩陣來體現(xiàn),即兩個用戶關于所有話題的關注強度的乘積相加。數(shù)值越大,說明關系越強。
[0033](4)關注強度矩陣的最終確定
[0034]假設網(wǎng)絡中存在A、B兩位用戶與a、b、c三個話題。其中用戶A發(fā)布的所有微博均屬于話題a,用戶B發(fā)布了 10條微博,其中5條屬于話題a,4條屬于話題b,I條屬于話題C。顯然,對于用戶A來說,用戶B發(fā)表的話題b比話題a更具有吸引力。
[0035]這次定義用戶A與其未發(fā)表過的話題的關注強度為,用戶A與其他用戶的關聯(lián)度乘以其他用戶相應話題的關系系數(shù),累加就可以得到。
[0036]本發(fā)明方法的具體技術方案包括以下步驟:
[0037]I)網(wǎng)絡拓撲關系矩陣的建立和更新;
[0038]針對m個微博用戶,這些用戶發(fā)表的話題總數(shù)為η個,建立一個nXm的矩陣;
[0039]
【權利要求】
1.一種基于用戶特征及網(wǎng)絡關系的微博推薦方法,其特征是:包括以下步驟, 1)網(wǎng)絡拓撲關系矩陣的建立和更新; 針對m個微博用戶,這些用戶發(fā)表的話題總數(shù)為η個,建立一個nXm的矩陣;
2.根據(jù)權利要求1所述的基于用戶特征及網(wǎng)絡關系的微博推薦方法,其特征是:所述常數(shù)kik2的獲得方法是, 進行以下試驗: 選擇一定數(shù)量的目標用戶作為測試源用戶,抓取源用戶最新發(fā)布的一定數(shù)量微博與微博的評論信息;抓取源用戶所關注的Ι-layer-user用戶信息以及l(fā)-layer-user用戶最新發(fā)布的一定數(shù)量微博與微博評論信息;同時抓取所有Ι-layer-user的粉絲用戶,即2-layer-user信息;以上數(shù)據(jù)構成了試驗的原始數(shù)據(jù)集; 試驗中,訓練集用來訓練常數(shù)kik2 ;測試集利用訓練集得到的參數(shù)kik2計算實際模型輸出結果,與測試集中真實在線數(shù)據(jù)對比評估模型的推薦效果;試驗利用所有測試源用戶與他們關注用戶所發(fā)布微博的評論關系,以時間排序,選取前一定比例(如前80%)的微博評論關系進入試驗訓練集,用以訓練參數(shù)kik2,其余(如后20%)的微博評論關系進入試驗測試集,用來評價算法的推薦效果; 訓練過程中,參數(shù)kik2在[0,I]取值范圍內變化,對于每一個kik2取值分別計算關注強度,選擇效果最好的kik2作為模型參數(shù)訓練結果。
【文檔編號】G06F17/30GK103617289SQ201310684518
【公開日】2014年3月5日 申請日期:2013年12月12日 優(yōu)先權日:2013年12月12日
【發(fā)明者】劉云, 廉捷, 熊菲, 亓大鵬 申請人:北京交通大學長三角研究院