基于社交網絡事件的用戶影響力預測方法
【專利摘要】本發(fā)明實施例提供一種基于社交網絡事件的用戶影響力預測方法,通過社交網絡中M個用戶在N個事件上的影響力建立用戶影響力矩陣S,通過用戶的特征信息建立用戶相關度矩陣U,通過事件的特征信息建立事件相關度矩陣E,然后根據(jù)用戶影響力矩陣S、用戶相關度矩陣U和事件相關度矩陣E,將事件相關性和用戶相關性融合到矩陣分解預測模型中,提出新的預測模型MF?EUN進行基于社交網絡事件的用戶影響力預測,提高了預測結果的準確性。另外,通過本發(fā)明實施例提供的用戶影響力預測方法可以比較全面的預測社交網絡中用戶的影響力。
【專利說明】
基于社交網絡事件的用戶影響力預測方法
技術領域
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術,尤其涉及一種基于社交網絡事件的用戶影響力預測方 法,屬于信息科學技術領域。
【背景技術】
[0002] 隨著互聯(lián)網技術的快速發(fā)展,國內外涌現(xiàn)了大量的社交網絡,如臉書(Facebook)、 推特(Twitter)、微信、微博等。越來越多的用戶選擇通過這類社交網絡發(fā)表日志、上傳照 片、參加各類線上活動等。通過在社交網絡上的互動,用戶不僅可以與好友保持聯(lián)系,而且 可以認識更多的朋友,拓展社交關系。如今,單純的線上交流互動已經無法滿足用戶的需 求,基于活動的社交網絡應運而生,比如Meetup、Plancast、Google+Events、豆瓣同城等。這 些應用和服務除了滿足用戶的線上交流互動外,還提供了一個在線平臺給用戶發(fā)布、組織、 管理和參加社交活動。
[0003] 社交影響力表現(xiàn)為用戶的行為和思想受他人影響發(fā)生變化的現(xiàn)象。社交影響力分 析在多個領域有廣泛的應用,社交網絡中用戶影響力的研究已有大量的成果。但是,基于事 件的社交網絡有其獨特的特性,如事件具有位置信息、組織者等,使得傳統(tǒng)社交網絡中的影 響力分析或者預測方法可能不太適用于基于事件的社交網絡,預測結果不理想、不準確。因 此,需要發(fā)掘針對基于事件的社交網絡中用戶影響力預測方法,充分利用社交網絡事件的 特性提高用戶影響力預測的準確性。
【發(fā)明內容】
[0004] 本發(fā)明實施例提供一種基于社交網絡事件的用戶影響力預測方法,可以提高針對 基于事件的社交網絡中用戶影響力預測的準確性。
[0005] 本發(fā)明實施例提供的基于社交網絡事件的用戶影響力預測方法,包括:
[0006] 根據(jù)M個用戶在N個事件上的影響力建立用戶影響力矩陣S,用戶影響力矩陣S中的 元素 sue表示用戶u在事件e上影響朋友的比例,其中,l<u<M且為整數(shù),l$e<N且為整數(shù), 所述M為大于1的整數(shù),所述N為大于1的整數(shù);
[0007] 根據(jù)M個用戶的特征信息建立用戶相關度矩陣U,用戶相關度矩陣U中的元素Uuu'表 示用戶u和用戶Y之間的相關度,其中,Ki/SM且為整數(shù);
[0008] 根據(jù)N個事件的特征信息建立事件相關度矩陣E,事件相關度矩陣E中的元素 ee(/表 示事件e和事件V之間的相關度,其中,1 < Y 且為整數(shù);
[0009] 根據(jù)用戶影響力矩陣S、用戶相關度矩陣U和事件相關度矩陣E,確定用戶特征向量 矩陣P、事件特征向量矩陣Q、用戶相關度影響因子矩陣W和事件相關度影響因子矩陣Z,其 中,P和Q分別為對所述用戶影響力矩陣S進行矩陣分解之后得到的用戶的特征向量矩陣和 事件的特征向量矩陣,W和Z分別為用戶相關度和事件相關度對社交網絡事件中的用戶影響 力的影響值;
[0010] 根據(jù)用戶特征向量矩陣P、事件特征向量矩陣Q、用戶相關度影響因子矩陣W和事件 相關度影響因子矩陣Z,確定社交網絡事件中的用戶影響力。
[0011] 基于上述,本發(fā)明實施例提供的基于社交網絡事件的用戶影響力預測方法,通過 社交網絡中M個用戶在N個事件上的影響力建立用戶影響力矩陣S,通過用戶的特征信息建 立用戶相關度矩陣U,通過事件的特征信息建立事件相關度矩陣E,然后根據(jù)用戶影響力矩 陣S、用戶相關度矩陣U和事件相關度矩陣E,將事件相關性和用戶相關性融合到矩陣分解預 測模型中,得到比較精確的用戶特征向量矩陣P和事件特征向量矩陣Q,以及用戶相關度影 響因子矩陣W和事件相關度影響因子矩陣Z,進而可以根據(jù)用戶特征向量矩陣、事件特征向 量矩陣、用戶相關度影響因子矩陣和事件相關度影響因子矩陣Z,得出精確的用戶影響力預 測結果,而且通過本發(fā)明實施例提供的預測方法可以比較全面的預測社交網絡事件中用戶 的影響力。
【附圖說明】
[0012] 為了更清楚地說明本發(fā)明或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術 描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一 些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些 附圖獲得其他的附圖。
[0013] 圖1為本發(fā)明一實施例提供的用戶影響力預測方法的流程圖;
[0014] 圖2為本發(fā)明一實施例提供的MF-EUN預測模型框架示意圖;
[0015]圖3為一隨機選取用戶在不同區(qū)域的影響力分布示意圖;
[0016] 圖4為一隨機選取用戶參與的所有事件間的距離概率分布示意圖;
[0017] 圖5為本發(fā)明實施例提供的AI-UN方法與其它近鄰發(fā)現(xiàn)方法的性能比較示意圖;
[0018] 圖6為本發(fā)明實施例提供的AI-EN方法與其它近鄰發(fā)現(xiàn)方法的性能比較示意圖。
【具體實施方式】
[0019] 為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員 在沒有付出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0020] 用戶影響力可以應用于社交網絡中的信息傳播、信息推薦、商品或服務推廣、廣告 投放等場景中,通過選擇影響力較大的用戶作為首選推廣人群,借助他們的明星效應,能夠 將信息、商品或服務推廣給更多的人。因此,識別和利用影響力較大的用戶,對于促進網絡 安全和網絡經濟發(fā)展有重要意義。
[0021] 同樣的,本發(fā)明實施例提供的基于社交網絡事件的用戶影響力預測對于社交網絡 活動或事件的推廣、宣傳有很大作用。本發(fā)明實施例的執(zhí)行主體可以是相應的提供在線平 臺給用戶發(fā)布、組織、管理和參加社交活動的應用或服務的網絡服務器。
[0022] 服務器中用戶的集合為{m,u2,...,um},事件的集合為{ei,e2,...,e N} J表示所有 用戶的總數(shù)量,M為大于1的整數(shù)。N表示所有事件的總數(shù)量,N為大于1的整數(shù)。首先,我們可 以根據(jù)服務器中的記錄信息獲取事件層面用戶的影響力,并以此建立用戶影響力矩陣S。
[0023] 具體的,可以根據(jù)用戶u在事件e上影響的朋友的比例獲取用戶在事件上的影響力 sue,即
,其中,wU(5為用戶u在事件e上影響的朋友數(shù)量,F(xiàn)(u)為用戶u的朋友集 合,|F(u)|為用戶u的朋友數(shù)量。
[0024] 由于有M個用戶和N個事件,根據(jù)每一個用戶在每一個事件上的影響力建立的用戶 影響力矩陣S是一個MXN階的矩陣。用戶影響力矩陣S中的元素 sue5表示用戶u在事件e上影響 朋友的比例,1彡u彡M且為整數(shù),1彡e彡N且為整數(shù)。
[0025] 需要說明的是,由于服務器中用戶的數(shù)量很多,事件的數(shù)量也很多,每一個用戶不 可能在每一個事件上都會影響朋友,用戶在很多事件上的影響力是不存在的。相應的,用戶 影響力矩陣S中有很多元素是未知的,也就是說,用戶影響力矩陣S是一個稀疏矩陣。由于用 戶影響力矩陣S是一個稀疏矩陣,S中絕大部分的元素值是缺失的。在本發(fā)明的下述實施例 中,將介紹如何利用用戶影響力矩陣S中已知的影響力數(shù)據(jù)來預測未知的影響力數(shù)據(jù)。
[0026] 由于基于事件的社交網絡具有其獨特的特性,如事件具有位置信息、組織者等,用 戶具有話題影響力、區(qū)域影響力等。相應的,每個用戶u和每個事件e都會分別對應于一個特 征向量P u和,Pu中的元素反映了用戶與相應特征的相關程度,中的元素反映了事件與相 應特征的相關程度。用戶u在事件e上的影響力就可以通過他們特征向量的內積來預測。所 有用戶的特征向量P u和所有事件的特征向量Qe分別組成了用戶特征向量矩陣P和事件特征 向量矩陣Q。矩陣P和Q分別刻畫了用戶和事件的特征,矩陣P和Q的維度可以指定,維度越高 刻畫的用戶和事件的特征越多,計算的精度相應的也會提高。根據(jù)P和Q的內積得到的預測 結果可以對用戶影響力矩陣S中缺失的元素值進行補充,進而可以得到補充后的用戶影響 力矩陣S'。顯然S' ipTQj'中的元素D進而可以根據(jù)補充后的用戶影響力矩陣 f進行比較全面的用戶影響力預測。
[0027] 矩陣分解(Matrix Factorization,簡稱MF)算法以計算精度較高,可擴展性較好, 且計算復雜度較低的優(yōu)勢被廣泛應用于預測模型中。MF算法的基本思想是,利用兩個維度 較低的矩陣P和Q的乘積來逼近己知的用戶影響力矩陣S。
[0028] MF預測模型的訓練學習過程中,首先隨機初始化矩陣P和Q中的元素,然后不斷沿 梯度相反的方向更新迭代矩陣P和Q中的元素,直到P和Q收斂。
[0029]根據(jù)MF預測模型訓練學習得到用戶和事件的特征向量矩陣P和Q,根據(jù)S'=PTQ得 到補充后的用戶影響力矩陣S\然而,由于MF預測模型的預測誤差依然較大,因此可能依然 無法對所有用戶對于所有事件的影響力進行預測,而且預測結果的準確度不高。
[0030] 在本發(fā)明實施例中,可以根據(jù)事件的特征信息(如事件內容、事件位置和事件組織 者)找到事件之間的相關性,以及用戶的特征信息(如用戶的社交信息、用戶在話題上的影 響力、用戶在區(qū)域上的影響力和用戶在組織者上的影響力)找到用戶之間的相關性,然后將 事件相關性和用戶相關性融合到MF預測模型中,通過融合了事件相關性和用戶相關性的MF 預測模型(Matrix Factorization with Event and User Neighborhood,簡稱MF-EUN)進 行社交網絡事件中的用戶影響力預測,來提高預測結果的準確性。
[0031] 圖1為本發(fā)明實施例提供的一種用戶影響力預測方法的流程圖,如圖1所示,本實 施例提供的基于社交網絡事件的用戶影響力預測方法包括:
[0032] S11,根據(jù)M個用戶在N個事件上的影響力建立用戶影響力矩陣S;
[0033]示例性的,可以根據(jù)網絡服務器中的記錄信息獲取事件層面用戶的影響力,并以 此建立用戶影響力矩陣S。具體的,可以根據(jù)用戶u在事件e上影響的朋友的比例獲取用戶在 事件上的影響力sue。
[0034] S12,根據(jù)M個用戶的特征信息建立用戶相關度矩陣U;
[0035] 示例性的,可以根據(jù)用戶之間的社交網絡關系找到用戶之間相似的興趣和愛好, 并將用戶的社交網絡關系作為用戶的特征信息,來建立用戶相關度矩陣U。
[0036] -方面,可選的,可以根據(jù)用戶之間存在的社交信息(如好友關系或校友關系等 等)建立用戶相關度矩陣U。
[0037] 另一方面,可選的,還可以根據(jù)用戶影響力矩陣S構造用戶之間的社交網絡關系。 例如,根據(jù)相關技術,可以通過余弦相似度和皮爾森相關系數(shù)等方式計算用戶之間的相關 度。
[0038] S13,根據(jù)N個事件的特征信息建立事件相關度矩陣E;
[0039]示例性的,可以根據(jù)事件的內容、舉辦位置、組織者等特征信息找到事件之間的相 關性??梢岳斫獾氖?,也可以根據(jù)用戶影響力矩陣S計算事件之間的相關度,例如根據(jù)相關 技術,通過余弦相似度和皮爾森相關系數(shù)等方式計算事件之間的相關度。
[0040] 需要說明的是,當用戶之間存在社交信息時,S11和S12不存在時序上的關系;當用 戶之間的社交信息不存在時,需要先執(zhí)行S11,建立用戶影響力矩陣S,然后再執(zhí)行S12,根據(jù) 用戶影響力矩陣S構造用戶之間的社交網絡關系,以此來建立用戶的相關度矩陣U,例如,根 據(jù)用戶影響力矩陣S中已有的用戶在事件上的影響力數(shù)據(jù),計算用戶之間的皮爾遜相關系 數(shù)獲取用戶之間的相關度。同樣的,當事件之間存在相關的特征信息(內容相關、位置相關、 組織者相關等)時,S11和S13也不存在時序上的關系;當事件之間不存在相關的特征信息 時,需要先執(zhí)行S11,建立用戶影響力矩陣S,然后再執(zhí)行S13,根據(jù)用戶影響力矩陣S構造事 件之間的相關性,以此來建立事件的相關度矩陣E,例如,根據(jù)用戶影響力矩陣S中已有的用 戶在事件上的影響力數(shù)據(jù),計算事件之間的皮爾遜相關系數(shù)獲取事件之間的相關度。同時, 可以理解的是,S12和S13不存在時序上的關系。
[0041] S14,根據(jù)用戶影響力矩陣S、用戶相關度矩陣U和事件相關度矩陣E,確定用戶特征 向量矩陣P、事件特征向量矩陣Q、用戶相關度影響因子矩陣W和事件相關度影響因子矩陣Z;
[0042] 其中,P和Q分別為對所述用戶影響力矩陣S進行矩陣分解之后得到的用戶的特征 向量矩陣和事件的特征向量矩陣,W和Z分別為用戶相關度和事件相關度對社交網絡事件中 的用戶影響力的影響值。
[0043] S15,根據(jù)用戶特征向量矩陣P、事件特征向量矩陣Q、用戶相關度影響因子矩陣W和 事件相關度影響因子矩陣Z,確定社交網絡事件中的用戶影響力。
[0044]如上所述,本發(fā)明實施例將事件相關性和用戶相關性融合到MF預測模型中,提出 新的預測模型MF-EUN進行基于社交網絡事件的用戶影響力預測。
[0045]具體的,MF-EUN預測模型在MF預測模型的基礎上融合了用戶相關性影響因子矩陣 W和事件相關性影響因子矩陣Z??梢酝ㄟ^下式進行預測:
[_] 4=收+ K+4
[0047]其中,為基于矩陣分解的預測結果,Wu為融合的用戶相關性影響因子,
,為融合的事件相關性影響因子,
[0048] Nt(e,u)表示在用戶相關度矩陣U中與用戶u之間的相關性大于預設值的t個用戶, 以下將Nt( e,u)稱為用戶u的近鄰集合。顯然,Nt(e,u)可以根據(jù)用戶相關度矩陣U確定。
[0049] Nk(u,e)表示在事件相關度矩陣E中與事件e之間的相關性大于預設值的k個事件, 以下將Nk(u,e)稱為事件e的近鄰集合。顯然,N k(u,e)可以根據(jù)事件相關度矩陣E確定。
為用戶Ui對用 戶u的影響權重,Av,.為事件ej對事件e的影響權重。
[00511也就是說,MF-EUN預測模型的公式為:
[0053] 可見MF-EUN預測模型的參數(shù)包括P^Qe、07"",以及°
[0054]首先,定義MF-EUN預測模型的目標函數(shù)為:
[0062] 接下來,我們采用隨機梯度下降(Stochastic gradient descent,簡稱SGD)方法 進行優(yōu)化學習得到最優(yōu)的參數(shù)Pu、Qe、?以及
[0067] 采用MF-EUN模型訓練學習過程中,首先隨機初始化?11幾、07_/和/^ /中的元素, 然后不斷沿梯度相反的方向更新迭代?^(^、^71/?/和/ /??/中的元素,直到?11、(^、^^%和 收斂,其中q是學習效率。最終根據(jù)M個用戶和N個事件的特征向量和影響因子權重值可 以得到了優(yōu)化的用戶特征向量矩陣P、優(yōu)化的事件特征向量矩陣Q,以及優(yōu)化的用戶相關度 影響因子矩陣W和優(yōu)化的事件相關度影響因子矩陣Z,再根據(jù)MF-EUN模型預測公式 *4 +4計算出用戶影響力的值。
[0068] 本實施例提供的基于社交網絡事件的用戶影響力預測方法,通過社交網絡中M個 用戶在N個事件上的影響力建立用戶影響力矩陣S,通過用戶的特征信息建立用戶相關度矩 陣U,通過事件的特征信息建立事件相關度矩陣E,然后根據(jù)用戶影響力矩陣S、用戶相關度 矩陣U和事件相關度矩陣E,將事件相關性和用戶相關性融合到MF預測模型中,提出新的預 測模型MF-EUN進行基于社交網絡事件的用戶影響力預測,提高了預測結果的準確性。另外, 通過本發(fā)明實施例提供的用戶影響力預測方法可以比較全面的預測社交網絡事件中用戶 的影響力。
[0069] 在上述實施例中,由于用戶影響力矩陣S是一個稀疏矩陣,且矩陣S中兩行之間或 者兩列之間重合的元素比較少,用經典的相似度度量方法(比如,余弦相似度和皮爾森相關 系數(shù))很難找到可靠的近鄰。因此,進一步的,在本發(fā)明的另一實施例中還提出了一種基于 特征信息的近鄰發(fā)現(xiàn)方法,用于確定用戶相關度矩陣U和事件相關度矩陣E。
[0070] 圖2為本發(fā)明一實施例提供的MF-EUN預測模型框架示意圖,如圖2所示,該模型包 括三個部分:
[0071] 第一部分,社交影響力矩陣構建,具體可以通過上述圖1所示實施例中構建用戶影 響力矩陣S的方法構建社交影響力矩陣;
[0072] 第二部分,基于額外信息的近鄰發(fā)現(xiàn)方法,利用基于事件的社交網絡的特性,提出 用戶近鄰發(fā)現(xiàn)方法和事件近鄰發(fā)現(xiàn)方法;
[0073] 第三部分,預測模型MF-EUN,將用戶近鄰和事件近鄰融入到MF預測模型中,具體 的,MF-EUN預測模型的原理和預測過程與圖1所示實施例相同,此處不再贅述。
[0074]在本實施例中,將詳細介紹用戶近鄰與事件近鄰的發(fā)現(xiàn)方法。
[0075]在基于額外信息的近鄰發(fā)現(xiàn)方法中,我們考慮了基于事件的社交網絡中獨特的用 戶特征信息--用戶在話題上的影響力、用戶在區(qū)域上的影響力和用戶在組織者上的影響 力,以及事件特征信息一一事件內容、事件位置和事件組織者。
[0076]第一方面,用戶近鄰發(fā)現(xiàn)方法。
[0077] 令iKu,!!')代表用戶U和用戶U'之間的相關度,UtU,!!' )和lUu,!/ )分別 代表兩個用戶在話題上的影響力相似度、在區(qū)域上的影響力相似度以及在組織者上的影響 力相似度。基于此,我們提出了基于線性融合的相似度計算方法,即:U(U,U/)=foU t(U,U/) + _:(1!,11/)+031]。(11,1 1/),其中01,02和03分別為用戶在話題上的影響力相似度、用戶在區(qū)域 上的影響力相似度和用戶在組織者上的影響力相似度的權重。最后,通過計算任意兩個用 戶之間的相似度,建立用戶相關度矩陣U。
[0078] 對于任意一個用戶u,可以找出在用戶相關度矩陣U中與用戶u之間的相關性大于 預設值的t個用戶作為用戶u的近鄰集合Nt( e,u)。
[0079]下邊分別對用戶在話題上的影響力相似度、用戶在區(qū)域上的影響力相似度以及用 戶在組織者上的影響力相似度的確定方法進行示例性說明。
[0080] 1)用戶在話題上的影響力相似度;
[0081] 根據(jù)相關技術,用戶在不同的話題上的影響力是不同的,因此,我們在話題層面度 量用戶之間的相似度。示例性的,可以利用文檔主題生成模型(L a t e n t D i r i c h 1 e t Allocation,簡稱LDA)獲取所有事件的話題分布。
[0082] 令stu代表用戶u在話題上的影響力,我們通過下式計算stu:
[0084]其中eS,$為事件ei的話題分布,HEU代表用戶u參加過的所有事件的集合, HEU |代表用戶u過去參加過的事件的數(shù)量。
[0085]然后,利用KL-JS散度可以計算任意兩個用戶在話題上的影響力相似度: =1_〇15(81:11,81:1/),其中辦5(81:11,81:11')為81:11和81:1/之間的1(1-幾散度,
[0086]需要說明的是,在概率論和統(tǒng)計學中,JS(Jensen Shannon)散度是用來度量概率 分布距離(相似程度)的一種方法,KL散度(Kullback-Leibler divergence)是描述兩個概 率分布P和Q差異的一種方法。其中,
[0087] 2)用戶在區(qū)域上的影響力相似度;
[0088] 根據(jù)對豆瓣同城數(shù)據(jù)集的分析發(fā)現(xiàn),每個用戶在不同的區(qū)域上的影響力是不同 的,圖3為一隨機選取用戶在不同區(qū)域的影響力分布示意圖?;诖?,我們可以在區(qū)域層面 度量用戶的影響力。
[0089] 首先,根據(jù)用戶過去參加的事件的位置,我們定義用戶u在區(qū)域上的影響力為用戶 u在該區(qū)域上參加的事件的影響力的平均值:
[0091 ]其中,5竭"代表用戶u在區(qū)域Rm上的影響力,& e S,HEu代表用戶u參加過的所有 事件的集合,^!代表在區(qū)域Rm上舉辦的事件集合,nu(RmMf表用戶u在區(qū)域R m上參加過的事 件數(shù)量。
[0092] 然后,令sru代表用戶u在所有區(qū)域上的影響力的向量,則% = fs'彳I, 其中f為區(qū)域總數(shù)。
[0093] 最后,根據(jù)任意兩個用戶在所有區(qū)域上的影響力,利用余弦相似度 計算該任意兩個用戶在區(qū)域上的影響力相似度。
[0094] 3)用戶在組織者上的影響力相似度;
[0095]類似的,用戶在不同組織者上的影響力也是不同的。因此,我們還可以在組織者層 面度量用戶的影響力。
[0096]首先,根據(jù)用戶過去參加的事件的組織者,我們定義用戶在組織者上的影響力為 該用戶參加的該組織者組織的事件的影響力的平均值:
[0098]其中代表用戶u在組織者0」上的影響力,eS,HEu代表用戶u參加過的所 有事件的集合代表組織者…組織過的事件集合,nu(OJ代表用戶參加過組織者⑴組織 過的事件總數(shù)量。
[0099]然后,令s〇u代表用戶u在所有組織者上的影響力的向量,則%. = …,~^,
其中1為組織者總數(shù)。
[0100] 最后,根據(jù)任意兩個用戶在所有組織者上的影響力,利用余弦相似虔 計算該任意兩個用戶間在組織者上的影響力相似度。
[0101] 第二方面,事件近鄰發(fā)現(xiàn)方法。
[0102] 令E(e,e')代表事件e與事件e'之間的相關度,令EcXe^'hEKe^'WPEcXe#')* 別代表兩個事件的內容相似度、位置相似度以及組織者相似度?;诖?,同樣地,通過基于 線性融合的相似度計算方法,即:E(e,e ')= (1出。(6,e')+a2Ei(e,e')+a3E〇(e,e')計算事件e 與事件e '之間的相關度,其中,ai,a#pa3分別為事件內容相似度、事件位置相似度和事件組 織者相似度的權重。最后,通過計算任意兩個事件之間的相似度,建立事件相關度矩陣E。
[0103] 對于任意一個事件e,可以找出在事件相關度矩陣E中與事件e之間的相關性大于 預設值的k個事件作為事件e的近鄰集合Nk(u,e)。
[0104] 下邊分別對事件內容相似度、事件位置相似度和事件組織者相似度的確定方法進 行示例性說明。
[0105] 1)事件內容相似度;
[0106] 首先利用經典的主題模型一 LDA來獲取所有事件的話題分布,該話題分布代表著 事件的種類,然后利用KL-JS散度計算任意兩個事件間的內容相似度。
[0107] 令0(5和0(/分別為事件e和事件e'的話題分布,利用KL-JS散度可以計算任意兩個事 件的內容相似度:E c(e,e/) = 1-Djs(0e,0e〇,其中,Djs(0e,0e〇為0 e和0e'之間的KL-JS散度,
[0108] 2)事件位置相似度;
[0109]根據(jù)對豆瓣同城數(shù)據(jù)集進行了數(shù)據(jù)分析,并計算了用戶參與的所有事件間的距 離,發(fā)現(xiàn)這些距離的概率密度分布服從冪律分布,圖4為一隨機選取用戶參與的所有事件間 的距離概率分布示意圖。也就是說,一個用戶參加的社交網絡事件之間的距離是比較小的。 因此,我們認為如果兩個事件的位置越近,則這兩個事件間的相似度越高。
[0110] 因此,我訶以利用高斯法則定義兩事件的位置相似度為:
其中,le和le'分別為事件e和事件e'的舉辦位置,dis(le,le〇為le和le'之間的距離。
[0111] 3)事件組織者相似度
[0112] 在基于事件的社交網絡中,每個事件都有一個組織者。用戶是否參加一個事件也 受事件組織者的影響。同時,一個組織者可能組織多個事件。因此,我們定義兩事件在組織 ,,fl G{e) = O(e') 者上的相似度為:4(f) = f ,其中,0(e)和o(e')分別為事件e和事件 e'
[0 others 的組織者。
[0113] 為了更好地說明本發(fā)明提供的基于社交網絡事件的用戶影響力預測方法的優(yōu)點, 在本發(fā)明的又一實施例中,我們采用廣泛使用的度量標準均方根誤差(RootMean Square Error,簡稱RMSE)和平均絕對誤差(Mean Absolute Error,簡稱MAE)進行示意性說明。其 中,RMSE和MAE兩個度量標準的計算方法如下:
[0116] 具體的,我們使用在豆瓣同城爬取的真實數(shù)據(jù)集進行實驗驗證。數(shù)據(jù)集中的事件 參與記錄是從2013/02/01到2014/10/31期間的。我們刪掉參與事件數(shù)量小于5個的用戶(大 約占總用戶數(shù)量的5%)和事件參與者數(shù)量小于8的事件(大約占總事件數(shù)量的3%)。最終, 我們有11123個用戶,29342個事件和356052個用戶事件對。整個數(shù)據(jù)集構成的影響力矩陣S 的稀疏度為99.9%。
[0117] 值得注意的是,由于豆瓣同城上事件的參與者是按照時間順序排列的,因此,如果 用戶Uf點擊"我要參加"的時間晚于用戶U,我們認為用戶Uf是受用戶U影響參加事件的。
[0118] 在實驗中,我們隨機將11123個用戶隨機分成不同大小的數(shù)據(jù)集,包括1000用戶的 數(shù)據(jù)集,5000用戶的數(shù)據(jù)集和11123用戶的數(shù)據(jù)集。并且,我們分別隨機選擇50%,70%和 90%的已知數(shù)據(jù)作為訓練數(shù)據(jù)集,剩余的元素作為測試數(shù)據(jù)集進行實驗。
[0119] 我們通過實驗效果調節(jié)模型中所涉及到的參數(shù)到最優(yōu)值。下面通過分析實驗數(shù)據(jù) 來說明MF-EUN預測模型的性能。
[0120] 我們首先比較本發(fā)明所提出的基于額外信息的用戶近鄰發(fā)現(xiàn)方法(Additional Information User Neighborhood,簡稱AI-UN)和基于額外信息的事件近鄰發(fā)現(xiàn)方法 (Additional Information Event Neighborhood,簡稱AI-EN)與其他近鄰發(fā)現(xiàn)方法的預測 性能。
[0121] 圖5為本發(fā)明實施例提供的AI-UN發(fā)現(xiàn)方法與其它近鄰發(fā)現(xiàn)方法的性能比較示意 圖。如圖5所示,其它近鄰發(fā)現(xiàn)方法包括:基于話題的用戶近鄰發(fā)現(xiàn)方法(Topic-User Neighborhood,簡稱T-UN)、基于區(qū)域的用戶近鄰發(fā)現(xiàn)方法(Region-User Neighborhood,簡 稱R-UN)、基于組織者的用戶近鄰發(fā)現(xiàn)方法(Organizer-User Neighborhood,簡稱0-UN)、基 于話題及區(qū)域的用戶近鄰發(fā)現(xiàn)方法(Topic-Region User Neighborhood,簡稱TR-UN)、基于 話題及組織者的用戶近鄰發(fā)現(xiàn)方法(Topic-〇rganizer User Neighborhood,簡稱T0-UN)、 基于區(qū)域及組織者的用戶近鄰發(fā)現(xiàn)方法(Organizer-Region Neighborhood,簡稱R0-UN)、 基于皮爾森相似度的用戶近鄰發(fā)現(xiàn)方法(Pearson-User Neighborhood,簡稱P_UN)
[0122] 圖6為本發(fā)明實施例提供的AI-EN方法與其它近鄰發(fā)現(xiàn)方法的性能比較示意圖。如 圖6所示,其它近鄰發(fā)現(xiàn)方法包括:基于事件內容的事件近鄰方法(Content-Event Neighborhood,簡稱C-EN)、基于事件位置的事件近鄰方法(Location-Event Neighborhood,簡稱L-EN)、基于事件組織者的事件近鄰方法(Organizer-Event Neighborhood,簡稱0-EN)、基于事件內容及位置的事件近鄰方法(Content-Location-Event Neighborhood,簡稱CL-EN)、基于事件內容及組織者的事件近鄰方法(Content-Organizer-Event Neighborhood,簡稱C0-EN)、基于事件位置及組織者的事件近鄰方法L〇-EN(Location-Organizer-Event Neighborhood,簡稱)以及基于皮爾森相似度的事件近鄰 方法(Pearson-Event Neighborhood,簡稱P-EN) 〇
[0123] 從圖5和圖6可以看出,本發(fā)明實施例提出的AI-UN和AI-EN方法明顯優(yōu)于其他的近 鄰發(fā)現(xiàn)方法。由于其他的近鄰發(fā)現(xiàn)方法(T-UN、R-UN、0-UN、TR-UN、T0-UN、R0-UN &&C-EN、L-£10^(^^0)^104",只考慮一個或者兩個本發(fā)明實施例所提的特征,所以預測 的準確性比同時融合三種特征的近鄰發(fā)現(xiàn)方法的準確度低。此外,由于本發(fā)明實施例提出 的基于額外信息的近鄰發(fā)現(xiàn)方法(AI-UN和AI-EN)考慮基于事件的社交網絡的獨特的特性, 使得我們的近鄰發(fā)現(xiàn)方法比傳統(tǒng)的近鄰方法(P-EN和P-UN)方法的預測準確度高。
[0124] 然后,我們比較上述實施例所涉及的方法在不同大小的數(shù)據(jù)集下的性能。表1為基 于豆瓣同城爬取的真實數(shù)據(jù)集進行實驗驗證的結果,請參照表1所示。
[0125] 從表1的實驗驗證結果可以看出,MF-EUN在所有數(shù)據(jù)集以及訓練集不同的情況下 效果都是最好的。由于MF-EUN將近鄰發(fā)現(xiàn)方法融入到了矩陣分解中,同時發(fā)揮了近鄰發(fā)現(xiàn) 方法和矩陣分解的優(yōu)勢,其預測效果優(yōu)于單純的近鄰發(fā)現(xiàn)方法和矩陣分解方法。同時,MF-EUN將事件近鄰和用戶近鄰融入到了矩陣分解中,它比只將事件近鄰或者用戶近鄰融入到 矩陣分解中的MF-EN和MF-UN的預測準確度高。
[0126] 此外,需要說明的是,在相關技術文獻(P ? Cui,F(xiàn) ? Wang,S ? Liu,M? Ou,S ? Yang,and L.Sun,uffho should share what?:item-level social influence prediction for users and posts ranking,"in SIGIR,2011,pp.185-194.)中研究了信息條目層面(item-level)的影響力,即認為同一用戶在不同信息條目上的影響力是不同的。該文獻提出了一 種HF_NMF(Hybrid Factor Non-Negative Matrix Factorization)方法來預測用戶對其好 友的影響力,并利用投影梯度矩陣因子分解方法予以求解。雖然HF-NMF將微博中用戶以及 微博條目的特征融入到非負矩陣分解中,其預測效果比單純的矩陣分解方法(MF)好。但是, 由于本發(fā)明實施例中的MF-EUN方法同時發(fā)揮了矩陣分解與近鄰發(fā)現(xiàn)方法的優(yōu)勢,即矩陣分 解考慮了影響力矩陣S的全局信息,近鄰模型(近鄰集合)考慮了用戶以及事件的近鄰信息, 我們的MF-EUN比HF-NMF方法的預測準確度高。
[0127]表1為基于豆瓣同城爬取的真實數(shù)據(jù)集進行實驗驗證的結果
[0129] 另外,值得一提的是,對比實驗結果中不同大小的測試集,可以發(fā)現(xiàn)測試集越大, 預測準確度越高,也就是說在我們的預測模型中,矩陣的稀疏度越小,算法的效果越好。
[0130] 本領域普通技術人員可以理解:實現(xiàn)上述各方法實施例的全部或部分步驟可以通 過程序指令相關的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質中。該程 序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質包括:R〇M、RAM、磁碟或 者光盤等各種可以存儲程序代碼的介質。
[0131]最后應說明的是:以上各實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡 管參照前述各實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依 然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特征進 行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發(fā)明各實施例技術 方案的范圍。
【主權項】
1. 一種基于社交網絡事件的用戶影響力預測方法,其特征在于,包括: 根據(jù)M個用戶在N個事件上的影響力建立用戶影響力矩陣S,所述用戶影響力矩陣S中的 元素 Sue表示用戶U在事件e上影響朋友的比例,其中,且為整數(shù),l《e《N且為整數(shù), 所述M為大于1的整數(shù),所述N為大于1的整數(shù); 根據(jù)所述M個用戶的特征信息建立用戶相關度矩陣U,所述用戶相關度矩陣U中的元素 IW表示用戶U和用戶i/之間的相關度,其中且為整數(shù); 根據(jù)所述N個事件的特征信息建立事件相關度矩陣E,所述事件相關度矩陣E中的元素 Gee^表示事件e和事件e/之間的相關度,其中1《e/《N且為整數(shù); 根據(jù)所述用戶影響力矩陣S、所述用戶相關度矩陣U和所述事件相關度矩陣E,確定用戶 特征向量矩陣P、事件特征向量矩陣Q、用戶相關度影響因子矩陣W和事件相關度影響因子矩 陣Z,其中,P和Q分別為對所述用戶影響力矩陣S進行矩陣分解之后得到的用戶的特征向量 矩陣和事件的特征向量矩陣,W和Z分別為用戶相關度和事件相關度對社交網絡事件中的用 戶影響力的影響因子矩陣; 根據(jù)所述用戶特征向量矩陣P、事件特征向量矩陣Q、用戶相關度影響因子矩陣W和事件 相關度影響因子矩陣Z,確定社交網絡事件中的用戶影響力。2. 根據(jù)權利要求1所述的方法,其特征在于,所述用戶的特征信息包括用戶在話題上的 影響力、用戶在區(qū)域上的影響力和用戶在組織者上的影響力; 所述根據(jù)所述M個用戶的特征信息建立用戶相關度矩陣U,包括: 根據(jù)所述M個用戶在話題上的影響力建立用戶在話題上的影響力相似度矩陣Ut; 根據(jù)所述M個用戶在區(qū)域上的影響力建立用戶在區(qū)域上的影響力相似度矩陣Ur; 根據(jù)所述M個用戶在組織者上的影響力建立用戶在組織者上的影響力相似度矩陣U。; 根據(jù)U(u,u/ )=執(zhí)Ut(u,u/ )+02Ur(u,u/ )+抗U〇(u,u/ )建立所述用戶相關度矩陣U,其中01, 阮和03分別為用戶在話題上的影響力相似度、用戶在區(qū)域上的影響力相似度和用戶在組織 者上的影響力相似度的權重。3. 根據(jù)權利要求2所述的方法,其特征在于,所述根據(jù)所述M個用戶在話題上的影響力 建立用戶在巧顆h的影響力相似度矩陣Ut,包括: 根據(jù)確定所述用戶在話題上的影響力,其中€ 5%:?為事件ei的 話題分布,肥U代表用戶U參加過的所有事件的集合; 根據(jù)Ut(u,u/ ) = 1-Djs(stu,stu')確定任意兩個用戶在話題上的影響力相似度,其中,Djs (S tu,S tu')為S tu和S W之間的化-JS散度。4. 根據(jù)權利要求2所述的方法,其特征在于,所述根據(jù)所述M個用戶在區(qū)域上的影響力 建立用戶在區(qū)域上的影響力相似度矩陣Ur,包括: 欄I定所述用戶在區(qū)域上的影響力,其中記而代表用戶U在 區(qū)域Rm上的影響力,&,e,. GS,肥U代表用戶U參加過的所有事件的集合,代表在區(qū)域Rm上 舉辦的事件集合,nu(Rm)代表用戶U在區(qū)域Rm上參加過的事件數(shù)量;根據(jù) 確定用戶在所有區(qū)域上的影響力向量,其中,f為區(qū)域總 數(shù); 根據(jù) ^任意兩個用戶在區(qū)域上的影響力相似度。5. 根據(jù)權利要求2所述的方法,其特征在于,所述根據(jù)所述M個用戶在組織者上的影響 力建立蘆冉立巧姐去h的齡麻^巧似度矩陣U。,包括: 根拐 角定所述用戶在組織者上的影響力,其中AfO/代表用戶U 在組織者化上的影響力,eS,肥U代表用戶U參加過的所有事件的集合,與;代表組織者 Oj組織過的事件集合,nu化)代表用戶參加過組織者化組織過的事件總數(shù)量;根據(jù) 確定所述用戶在所有組織者上的影響力,其中1為組織 者總數(shù); 根據(jù) ^任意兩個用戶在組織者上的影響力相似度。6. 根據(jù)權利要求1~5任一I貞所述的方法,其特征在于,所述事件的特征信息包括事件 內容、事件位置和事件組織者; 所述根據(jù)所述N個事件的特征信息建立事件相關度矩陣E,包括: 根據(jù)所述N個事件的內容建立事件內容相似度矩陣Ec; 根據(jù)所述N個事件的位置建立事件位置相似度矩陣Ei; 根據(jù)所述N個事件的組織者建立事件組織者相似度矩陣Ed ; 根據(jù)£(6,6')=〇巧。(6,6')+〇261(6,6')+〇36。(6,6')建立所述事件相關度矩陣6,其中, Qi,曰2和日3分別為事件內容相似度,事件位置相似度和事件組織者相似度的權重。7. 根據(jù)權利要求6所述的方法,其特征在于,所述根據(jù)所述N個事件的內容建立事件內 容相似度矩陣Ec,包括: 根據(jù)6。(6,6/) = 1節(jié)5(06,06')確定任意兩個事件的內容相似度,其中,06和08'分別為事 件e和事件e '的話題分布,Djs( 06,06')為06和06'之間的化-JS散度。8. 根據(jù)權利要求6所述的方法,其特征在于,所述根據(jù)所述N個事件的位置建立事件位 置相似度巧降Ei,巧巧: 根據(jù)巧定任意兩個事件的位置相似度,其中,16和以分 別為事件e和事件e'的舉辦位置,dis(leje')為16和以之間的距離。9. 根據(jù)權利要求6所述的方法,其特征在于,所述根據(jù)所述N個事件的組織者建立事件 組織者相似度矩陣E。,包括: 根據(jù)I定任意兩個事件的組織者相似度,其中,0(e)和O (e/ )分別為事件e和事件e'的組織者。10.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述用戶影響力矩陣S、所述用 戶相關度矩陣U和所述事件相關度矩陣E,確定用戶特征向量矩陣P、事件特征向量矩陣Q、 用戶相關度影響因子矩陣W和事件相關度影響因子矩陣Z,包括: 初始化用戶特征向量矩陣P、事件特征向量矩陣Q、用戶相關度影響因子矩陣W和事件相 關度影響因子矩陣Z; 根據(jù)所述用戶影響力矩陣S、所述用戶相關度矩陣U和所述事件相關度矩陣E,更新所述 用戶特征向量矩陣P、事件特征向量矩陣Q、用戶相關度影響因子矩陣W和事件相關度影響因 子矩陣Z,直到所述用戶特征向量矩陣P所述事件特征向量矩陣Q、所述用戶相關度影響因子 矩陣W和所述事件相關度影響因子矩陣到欠斂。
【文檔編號】G06Q10/04GK105913159SQ201610279983
【公開日】2016年8月31日
【申請日】2016年4月29日
【發(fā)明人】程祥, 蘇森, 李曉, 楊健宇, 雙鍇
【申請人】北京郵電大學