融合用戶多種交互信息和用戶主題信息的用戶排名系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種融合用戶多種交互信息和用戶主題信息的用戶排名系統(tǒng),包括:一個(gè)數(shù)據(jù)預(yù)處理模塊,用于過濾沒有任何交互信息的用戶,并記錄用戶與用戶之間的交互關(guān)系信息,建立用戶交互關(guān)系矩陣;一個(gè)用戶多種交互關(guān)系構(gòu)建模塊,用于融合用戶與好友之間的關(guān)注或評(píng)論信息,以及用戶好友的主題相關(guān)度信息,構(gòu)建融合多關(guān)系的三階張量模型;一個(gè)用戶交互行為強(qiáng)度預(yù)測模塊,用于預(yù)測用戶在社交媒介上與外界用戶之間的交互關(guān)系強(qiáng)度;一個(gè)用戶綜合影響力測算模塊,用于估算查詢關(guān)鍵詞下的用戶綜合影響力得分,并根據(jù)用戶綜合影響力得分,對(duì)用戶進(jìn)行綜合排序。該系統(tǒng)檢測速度快,準(zhǔn)確度高,適用范圍廣,應(yīng)用性強(qiáng)。
【專利說明】融合用戶多種交互信息和用戶主題信息的用戶排名系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及社交媒介用戶影響力預(yù)測【技術(shù)領(lǐng)域】,更具體地,涉及一種融合用戶多 種交互信息和用戶主題信息的用戶排名系統(tǒng),能應(yīng)用于查詢主題下的用戶影響力度量和用 戶排序,適用于中文微博客,包括新浪微博、騰訊微博、網(wǎng)易微博等。
【背景技術(shù)】
[0002] 在現(xiàn)代技術(shù)中,有很多方法可用于度量用戶的社會(huì)影響力。傳統(tǒng)的影響力度量方 法采用基于Pagerank的方法,該方法考慮了用戶與用戶之間的關(guān)注與被關(guān)注關(guān)系,認(rèn)為被 關(guān)注越多的用戶的影響力越大。但是,當(dāng)社交網(wǎng)絡(luò)上的交互關(guān)系較多時(shí),該方法在使用上就 不那么方便了。以Pagerank方法為基礎(chǔ)的技術(shù)有很多,如:在社交網(wǎng)絡(luò)上,通過考慮用戶內(nèi) 容的評(píng)論數(shù)量、內(nèi)容發(fā)起的討論規(guī)模、出鏈數(shù)、入鏈數(shù)以及內(nèi)容的長度等因素,以Pagerank 算法為基礎(chǔ),建立一個(gè)有影響力博主的識(shí)別模型。再如:利用用戶回復(fù)信息中的觀點(diǎn)傾向 性,將用戶的影響力分為積極、消極和中性,通過用戶間的回復(fù)關(guān)系建立圖模型,并用迭代 方式確定出用戶的影響力大小。
[0003] 在現(xiàn)代技術(shù)中,還存在一些基于矩陣分解的方法來度量用戶影響力。如:利用用戶 的點(diǎn)擊以及用戶間的好友關(guān)系與內(nèi)容分享關(guān)系構(gòu)造用戶-帖子關(guān)系矩陣,并利用概率混合 因素矩陣分解(PHFMF)的方法,實(shí)現(xiàn)對(duì)用戶影響力的挖掘。該方法關(guān)注社交網(wǎng)絡(luò)上,用戶發(fā) 布內(nèi)容的質(zhì)量,如果用戶發(fā)布內(nèi)容十分受關(guān)注,那么就認(rèn)為該用戶就很受關(guān)注。不過,基于 矩陣的方法只是考慮了用戶與內(nèi)容之間的交互關(guān)系,卻沒有考慮到用戶與用戶之間的交互 關(guān)系。
[0004] 在現(xiàn)代技術(shù)中,存在一些基于張量分解的影響力預(yù)測方法。如:在評(píng)論評(píng)級(jí)環(huán)境下 利用評(píng)論評(píng)級(jí)信息來抽取純粹的知名度信息是很難的,這是因?yàn)閿?shù)據(jù)十分稀疏以及用戶投 票行為中有許多混雜的因素。因此,通過利用有偏平滑張量的方法,實(shí)現(xiàn)了評(píng)論評(píng)級(jí)數(shù)據(jù)稀 疏情形下的知名度信息的挖掘。再如:利用產(chǎn)品的評(píng)論評(píng)級(jí)信息挖掘產(chǎn)品評(píng)論的質(zhì)量,先由 "評(píng)級(jí)一評(píng)論"交互關(guān)系構(gòu)建評(píng)論的評(píng)級(jí)矩陣,利用矩陣分解技術(shù)得到評(píng)論質(zhì)量的估計(jì)值, 隨后再通過"評(píng)級(jí)一評(píng)論者一產(chǎn)品"交互信息構(gòu)建關(guān)于產(chǎn)品評(píng)論評(píng)級(jí)的三階張量,并利用張 量分解技術(shù)實(shí)現(xiàn)對(duì)產(chǎn)品評(píng)論質(zhì)量的估計(jì)。該方法改進(jìn)了矩陣分解方法存在的不足,利用了 用戶與用戶之間的交互關(guān)系,以及用戶與內(nèi)容之間的關(guān)系。但是,這種張量分解方法只適用 于單一交互關(guān)系,對(duì)于多種交互關(guān)系下的用戶影響力挖掘問題還無法解決。因此,迫切需要 一種能融合多種用戶交互關(guān)系的用戶影響力度量方法,并且這種方法還能根據(jù)查詢主題的 不同而進(jìn)行不同領(lǐng)域的有影響力用戶的挖掘任務(wù)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供一種融合用戶多種交互信息和用戶主題信息的用戶排名 系統(tǒng),該系統(tǒng)檢測速度快,準(zhǔn)確度高,適用范圍廣,應(yīng)用性強(qiáng)。
[0006] 為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種融合用戶多種交互信息和用戶主題 信息的用戶排名系統(tǒng),包括: 一個(gè)數(shù)據(jù)預(yù)處理模塊,用于過濾沒有任何交互信息的用戶,并記錄用戶與用戶之間的 交互關(guān)系信息,建立用戶交互關(guān)系矩陣; 一個(gè)用戶多種交互關(guān)系構(gòu)建模塊,用于融合用戶與好友之間的關(guān)注或評(píng)論信息,以及 用戶好友的主題相關(guān)度信息,構(gòu)建融合多關(guān)系的三階張量模型; 一個(gè)用戶交互行為強(qiáng)度預(yù)測模塊,用于預(yù)測用戶在社交媒介上與外界用戶之間的交互 關(guān)系強(qiáng)度; 一個(gè)用戶綜合影響力測算模塊,用于估算查詢關(guān)鍵詞下的用戶綜合影響力得分,并根 據(jù)用戶綜合影響力得分,對(duì)用戶進(jìn)行綜合排序。
[0007] 進(jìn)一步的,所述用戶多種交互關(guān)系構(gòu)建模塊,用于融合用戶與好友之間的關(guān)注或 評(píng)論信息,以及用戶好友的主題相關(guān)度信息,構(gòu)建融合多關(guān)系的三階張量模型,包括以下步 驟: 步驟al :構(gòu)建粉絲、評(píng)論關(guān)系指示矩陣,如果用戶i/(i)與用戶VC/)之間存在粉絲關(guān)系 或者評(píng)論關(guān)系,則將所述粉絲、評(píng)論關(guān)系指示矩陣對(duì)應(yīng)位置(i,力的元素設(shè)為1,否則設(shè)為 〇 ; 步驟a2 :構(gòu)建粉絲關(guān)系矩陣,如果用戶i/(i)與用戶i/C/)之間存在粉絲關(guān)系或者評(píng)論 關(guān)系,則將所述粉絲關(guān)系矩陣對(duì)應(yīng)位置(i,J·)的元素設(shè)為VC/)的粉絲數(shù),否則設(shè)為〇; 步驟a3 :構(gòu)建評(píng)論關(guān)系矩陣,如果用戶i/(i)與用戶VC/)之間存在粉絲關(guān)系或者評(píng)論 關(guān)系,則將所述評(píng)論關(guān)系矩陣對(duì)應(yīng)位置(i,力的元素設(shè)為VC/)轉(zhuǎn)發(fā)的最近η條微博的評(píng) 論數(shù),否則設(shè)為〇; 步驟a4 :構(gòu)建主題關(guān)系矩陣,如果用戶i/(i)與用戶VC/)之間存在粉絲關(guān)系或者評(píng)論 關(guān)系,則將所述主題關(guān)系矩陣對(duì)應(yīng)位置(i,力的元素設(shè)為以i)的主題相關(guān)度,否則設(shè)為 〇 ; 步驟a5 :構(gòu)建融合多關(guān)系的張量,將步驟a2~a4構(gòu)建的矩陣層疊在一起,構(gòu)成用戶在三 種不同關(guān)系下的交互關(guān)系張量; 步驟a6 :將張量中每一層元素都除以該層的最大元素,以統(tǒng)一張量中每一層元素的量 綱。
[0008] 進(jìn)一步的,所述步驟a4中,主題相關(guān)度的計(jì)算,包括以下步驟: 步驟a401 :將用戶收到的外界評(píng)論信息合并成一篇大文檔,作為用戶評(píng)論文檔; 步驟a402 :分別統(tǒng)計(jì)關(guān)鍵詞數(shù)、用戶數(shù)、包含了查詢關(guān)鍵詞的文檔數(shù)、查詢關(guān)鍵詞在每 篇用戶評(píng)論文檔中出現(xiàn)的頻數(shù)、每個(gè)用戶評(píng)論文檔的長度以及所有用戶評(píng)論文檔的平均長 度; 步驟a403 :采用BM25公式計(jì)算出每個(gè)用戶評(píng)論文檔與查詢關(guān)鍵詞之間的相關(guān)度,即主 題相關(guān)度,然后對(duì)主題相關(guān)度得分進(jìn)行歸一化處理,即將每個(gè)用戶的主題相關(guān)度得分除以 所有用戶中最大主題相關(guān)度得分。
[0009] 進(jìn)一步的,所述步驟a403中,BM25公式的計(jì)算方法如下: 設(shè)0 = {仏,如…,心}為查詢主題,0 = {屯?/2,…,心為文檔集合,則BM25公 式如下:
【權(quán)利要求】
1. 一種融合用戶多種交互信息和用戶主題信息的用戶排名系統(tǒng),其特征在于,包括: 一個(gè)數(shù)據(jù)預(yù)處理模塊,用于過濾沒有任何交互信息的用戶,并記錄用戶與用戶之間的 交互關(guān)系信息,建立用戶交互關(guān)系矩陣; 一個(gè)用戶多種交互關(guān)系構(gòu)建模塊,用于融合用戶與好友之間的關(guān)注或評(píng)論信息,以及 用戶好友的主題相關(guān)度信息,構(gòu)建融合多關(guān)系的三階張量模型; 一個(gè)用戶交互行為強(qiáng)度預(yù)測模塊,用于預(yù)測用戶在社交媒介上與外界用戶之間的交互 關(guān)系強(qiáng)度; 一個(gè)用戶綜合影響力測算模塊,用于估算查詢關(guān)鍵詞下的用戶綜合影響力得分,并根 據(jù)用戶綜合影響力得分,對(duì)用戶進(jìn)行綜合排序。
2. 根據(jù)權(quán)利要求1所述的融合用戶多種交互信息和用戶主題信息的用戶排名系統(tǒng),其 特征在于,所述用戶多種交互關(guān)系構(gòu)建模塊,用于融合用戶與好友之間的關(guān)注或評(píng)論信息, 以及用戶好友的主題相關(guān)度信息,構(gòu)建融合多關(guān)系的三階張量模型,包括以下步驟: 步驟al:構(gòu)建粉絲、評(píng)論關(guān)系指示矩陣,如果用戶V(i)與用戶VC/)之間存在粉絲關(guān)系 或者評(píng)論關(guān)系,則將所述粉絲、評(píng)論關(guān)系指示矩陣對(duì)應(yīng)位置(i,J')的元素設(shè)為1,否則設(shè)為 〇 ; 步驟a2 :構(gòu)建粉絲關(guān)系矩陣,如果用戶V(i)與用戶^c/)之間存在粉絲關(guān)系或者評(píng)論 關(guān)系,則將所述粉絲關(guān)系矩陣對(duì)應(yīng)位置(i,J')的元素設(shè)為VC/)的粉絲數(shù),否則設(shè)為〇 ; 步驟a3 :構(gòu)建評(píng)論關(guān)系矩陣,如果用戶V(i)與用戶VC/)之間存在粉絲關(guān)系或者評(píng)論 關(guān)系,則將所述評(píng)論關(guān)系矩陣對(duì)應(yīng)位置(i,J')的元素設(shè)為VC/)轉(zhuǎn)發(fā)的最近n條微博的評(píng) 論數(shù),否則設(shè)為〇 ; 步驟a4 :構(gòu)建主題關(guān)系矩陣,如果用戶V(i)與用戶VC/)之間存在粉絲關(guān)系或者評(píng)論 關(guān)系,則將所述主題關(guān)系矩陣對(duì)應(yīng)位置(i,力的元素設(shè)為以i)的主題相關(guān)度,否則設(shè)為 〇 ; 步驟a5 :構(gòu)建融合多關(guān)系的張量,將步驟a2~a4構(gòu)建的矩陣層疊在一起,構(gòu)成用戶在三 種不同關(guān)系下的交互關(guān)系張量; 步驟a6 :將張量中每一層元素都除以該層的最大元素,以統(tǒng)一張量中每一層元素的量 綱。
3. 根據(jù)權(quán)利要求2所述的融合用戶多種交互信息和用戶主題信息的用戶排名系統(tǒng),其 特征在于,所述步驟a4中,主題相關(guān)度的計(jì)算,包括以下步驟: 步驟a401 :將用戶收到的外界評(píng)論信息合并成一篇大文檔,作為用戶評(píng)論文檔; 步驟a402 :分別統(tǒng)計(jì)關(guān)鍵詞數(shù)、用戶數(shù)、包含了查詢關(guān)鍵詞的文檔數(shù)、查詢關(guān)鍵詞在每 篇用戶評(píng)論文檔中出現(xiàn)的頻數(shù)、每個(gè)用戶評(píng)論文檔的長度以及所有用戶評(píng)論文檔的平均長 度; 步驟a403 :采用BM25公式計(jì)算出每個(gè)用戶評(píng)論文檔與查詢關(guān)鍵詞之間的相關(guān)度,即主 題相關(guān)度,然后對(duì)主題相關(guān)度得分進(jìn)行歸一化處理,即將每個(gè)用戶的主題相關(guān)度得分除以 所有用戶中最大主題相關(guān)度得分。
4. 根據(jù)權(quán)利要求3所述的融合用戶多種交互信息和用戶主題信息的用戶排名系統(tǒng),其 特征在于,所述步驟a403中,BM25公式的計(jì)算方法如下: 設(shè)0 =W1,如…,心}為查詢主題,0 =K,屯…,心為文檔集合,則BM25公 式如下:
其中,說沁)表示第J篇文檔與查詢0之間的相關(guān)度得分;10為查詢主題中查 詢關(guān)鍵詞的個(gè)數(shù);I川為用于計(jì)算的全部文檔數(shù);/? (&)為包含了查詢關(guān)鍵詞&的文檔數(shù); 心、6分別為調(diào)節(jié)因子;/,7為查詢關(guān)鍵詞&在文檔沁中的出現(xiàn)頻率;為文檔沁的長度; ar#//為所有文檔的平均長度。
5. 根據(jù)權(quán)利要求1所述的融合用戶多種交互信息和用戶主題信息的用戶排名系統(tǒng),其 特征在于,所述用戶交互行為強(qiáng)度預(yù)測模塊,用于預(yù)測用戶在社交媒介上與外界用戶之間 的交互關(guān)系強(qiáng)度,包括以下步驟: 步驟bl:將用戶行為表示成尤個(gè)公共的潛在行為,所有用戶的潛在行為構(gòu)成一個(gè)用戶 的潛在特征矩陣J; 步驟b2 :用所述潛在特征矩陣表示交互關(guān)系張量,即:Z=WtM7,其中Z為用戶的交互關(guān) 系張量,W為維度為IXIXI的中心張量; 步驟b3 :將估計(jì)用戶之間的交互關(guān)系強(qiáng)度的問題歸結(jié)為如下優(yōu)化問題:
其中
表示張量分解式的平方和誤差。
6. 根據(jù)權(quán)利要求1所述的融合用戶多種交互信息和用戶主題信息的用戶排名系統(tǒng),其 特征在于,所述用戶綜合影響力測算模塊,用于估算查詢關(guān)鍵詞下的用戶綜合影響力得分, 并根據(jù)用戶綜合影響力得分對(duì)用戶進(jìn)行綜合排序,包括以下步驟: 步驟cl:對(duì)于每個(gè)用戶V(i),求出V(i)所關(guān)注的人的粉絲數(shù)總和,作為粉絲關(guān)系層的 M 用戶影響力得分,計(jì)算公式為:=I.,即為第i個(gè)用戶的好友粉絲數(shù)總和; M 步驟c2 :對(duì)于每個(gè)用戶V(i),求出V(i)所關(guān)注的人的評(píng)論數(shù)總和,作為評(píng)論關(guān)系層的 N 用戶影響力得分,計(jì)算公式為:1仏2 = ,即為第i個(gè)用戶的好友評(píng)論數(shù)總和; 戶1 步驟c3 :對(duì)于每個(gè)用戶V(i),求出關(guān)注V(i)的人的主題相關(guān)度總和,作為主題關(guān)系層 M 的用戶影響力得分,計(jì)算公式為:6(3 = ,即為第i個(gè)用戶的好友主題相關(guān)度總和; J=I 步驟c4 :綜合考慮用戶與查詢?cè)~的主題相關(guān)度得分4),以及各種交互關(guān) 系下的用戶影響力得分《/;.:、《/i2、,定義用戶在查詢主題下的用戶綜合影響力得分為:
步驟c5 :根據(jù)用戶綜合影響力得分,對(duì)用戶進(jìn)行降序排列,給出用戶的排序列表。
【文檔編號(hào)】G06F17/30GK104268648SQ201410504179
【公開日】2015年1月7日 申請(qǐng)日期:2014年9月28日 優(yōu)先權(quán)日:2014年9月28日
【發(fā)明者】陳國龍, 廖祥文, 唐昌宏 申請(qǐng)人:福州大學(xué)