一種興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法
【專利摘要】本發(fā)明公開(kāi)一種興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法。它首先將用戶在社交網(wǎng)絡(luò)中所發(fā)布的內(nèi)容進(jìn)行歸檔,并使用已有興趣特征提取方法提取各用戶的興趣特征,進(jìn)而采用交集運(yùn)算獲取各用戶關(guān)系的興趣特征集,形成社交網(wǎng)絡(luò)R-C模型。在此基礎(chǔ)上,采用已有的相似度計(jì)算方法計(jì)算具有共同用戶的兩個(gè)用戶關(guān)系的興趣特征相似度;接著,以R-C模型中的用戶關(guān)系為節(jié)點(diǎn),以兩個(gè)用戶關(guān)系之間是否有共同好友為邊,以用戶關(guān)系間的興趣特征相似度為邊的權(quán)值,形成社交網(wǎng)絡(luò)加權(quán)無(wú)向圖;再接著,采用已有的加權(quán)無(wú)向網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法對(duì)挖掘用戶關(guān)系社區(qū);最后,將用戶關(guān)系社區(qū)中的用戶關(guān)系直接映射為其所關(guān)聯(lián)的兩個(gè)用戶,形成社交網(wǎng)絡(luò)用戶社區(qū)。
【專利說(shuō)明】—種興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能信息處理和數(shù)據(jù)挖掘領(lǐng)域,具體地說(shuō)是一種在社交網(wǎng)絡(luò)上挖掘興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的社區(qū)的方法。
【背景技術(shù)】
[0002]社區(qū)發(fā)現(xiàn)是指在社會(huì)網(wǎng)絡(luò)中,發(fā)現(xiàn)內(nèi)聚的子群。社區(qū)發(fā)現(xiàn)是社會(huì)網(wǎng)絡(luò)分析的重要問(wèn)題,它有助于人們進(jìn)一步認(rèn)識(shí)、理解和掌握所研究的復(fù)雜網(wǎng)絡(luò)對(duì)象,進(jìn)而,實(shí)現(xiàn)更深入的應(yīng)用研究,例如個(gè)性化推薦,朋友推薦,大規(guī)模網(wǎng)絡(luò)壓縮求解,異質(zhì)網(wǎng)絡(luò)分析,社會(huì)網(wǎng)絡(luò)演變等。興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的用戶社區(qū)發(fā)現(xiàn)是精準(zhǔn)的市場(chǎng)營(yíng)銷和準(zhǔn)確的個(gè)性化推薦服務(wù)等的重要研究?jī)?nèi)容。現(xiàn)實(shí)生活中,人們往往傳播其所能接觸到的感興趣的信息。因此,好的用戶社區(qū)發(fā)現(xiàn)應(yīng)同時(shí)滿足網(wǎng)絡(luò)結(jié)構(gòu)和興趣雙方面的內(nèi)聚。網(wǎng)絡(luò)結(jié)構(gòu)是社區(qū)內(nèi)部節(jié)點(diǎn)間信息傳播的橋梁,興趣是信息傳播的原因。
[0003]得益于移動(dòng)互聯(lián)網(wǎng)的發(fā)展,微博用戶規(guī)模及其社會(huì)影響力迅速增長(zhǎng)。世界上最大的微博社區(qū)Twitter有不少于5億的注冊(cè)用戶,每月活躍用戶為2.3億,而日活躍用戶為1億,每天推文5億次1。最大的中文微博社區(qū)新浪微博也擁有超過(guò)5億的注冊(cè)用戶,每天有高達(dá)4.62千萬(wàn)的活躍用戶和不少于1億的微博。社交網(wǎng)絡(luò)是現(xiàn)實(shí)社會(huì)的縮影,它為人們提供了巨量的有價(jià)值的研究數(shù)據(jù)。人們使用社交網(wǎng)絡(luò)進(jìn)行政治、市場(chǎng)營(yíng)銷等活動(dòng),社交網(wǎng)絡(luò)已成為一個(gè)公認(rèn)的發(fā)表意見(jiàn)與看法的平臺(tái)。
[0004]目前,針對(duì)社交網(wǎng)絡(luò)用戶社區(qū)發(fā)現(xiàn)的方法大致可分為三種:①基于用戶內(nèi)容(文本聚類法)。將用戶所發(fā)布的內(nèi)容進(jìn)行興趣特征提取,然后,基于興趣特征進(jìn)行用戶聚類;該類方法忽略了社交網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)(用戶關(guān)系)在信息傳播中的橋梁作用。②基于用戶聯(lián)系。提取社交網(wǎng)絡(luò)的關(guān)注或好友關(guān)系,將問(wèn)題轉(zhuǎn)化為圖論等問(wèn)題進(jìn)行社區(qū)發(fā)現(xiàn);該類方法沒(méi)有考慮用戶的興趣特征,因此,無(wú)法證明其興趣的內(nèi)聚性。③綜合方法。將用戶內(nèi)容和用戶聯(lián)系相結(jié)合,基于內(nèi)容提取基于興趣的用戶社區(qū),基于用戶聯(lián)系提取基于聯(lián)系的用戶社區(qū),再采用某種方法將兩個(gè)社區(qū)進(jìn)行融合,形成興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的用戶社區(qū);該類方法由于需要進(jìn)行兩次社區(qū)發(fā)現(xiàn),且需要進(jìn)行社區(qū)融合;因此,算法效率較低。
[0005]文本聚類法主要通過(guò)計(jì)算社區(qū)內(nèi)節(jié)點(diǎn)的文本內(nèi)容的相似性,根據(jù)相似性將文本內(nèi)容相似的節(jié)點(diǎn)劃分為社區(qū)。早在1999年,Kleinberg等人提出了基于內(nèi)容的網(wǎng)頁(yè)聚類方法,即著名的HITS算法。主題模型是文本聚類法最典型的算法。2003年,Blei等人提出了 LDA模型,LDA模型認(rèn)為文檔是多個(gè)主題的概率分布。2004年,Syeyvers等人認(rèn)為主題是多個(gè)關(guān)鍵詞的概率分布,用戶也以某種概率分布對(duì)多個(gè)主題感興趣,并提出了 AT (Author-Topic)模型用于發(fā)現(xiàn)用戶、文檔、主題和關(guān)鍵詞之間的關(guān)系。2007年,McCal lum等人基于發(fā)送-接受關(guān)系提出了 ART(Author-Recipient-Topic)模型用于聚類具有相似興趣的用戶。在ART模型的基礎(chǔ)上,2008 年,Pathak 等人提出 CART (Community-Author-Recipient-Topic)模型。這些模型都忽略了用戶之間顯著的用戶關(guān)系,從而可能導(dǎo)致社區(qū)發(fā)現(xiàn)結(jié)果的不合理。
[0006]基于網(wǎng)絡(luò)結(jié)構(gòu)的社區(qū)發(fā)現(xiàn)算法是目前較為流行且研究較多的方法。這類方法根據(jù)用戶之間的相互關(guān)系將社區(qū)網(wǎng)絡(luò)劃分為社區(qū)內(nèi)聯(lián)系緊密,社區(qū)之間聯(lián)系稀疏的多個(gè)子社區(qū)。1970年,B.W.Kernighan和S.Lin針對(duì)圖分割問(wèn)題提出了 KL算法,該算法應(yīng)用于復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn),就是社區(qū)發(fā)現(xiàn)圖分割法的典型算法。圖分割法通過(guò)迭代的方式,將圖分解為最優(yōu)的兩個(gè)子圖,反復(fù)處理,直至得到足夠數(shù)目的子圖。2002年,M.Girvan和Μ.E.J.Newman提出了 GN算法,它通過(guò)反復(fù)識(shí)別和刪除網(wǎng)絡(luò)中邊介數(shù)最大的連接,實(shí)現(xiàn)復(fù)雜網(wǎng)絡(luò)聚類。GN算法的復(fù)雜度較高,但它啟發(fā)了人們對(duì)復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的思路。2004年,Μ.E.J.Newman和M.Girvan提出的網(wǎng)絡(luò)模塊性評(píng)價(jià)函數(shù)-模塊度Q。Q函數(shù)為社區(qū)內(nèi)的實(shí)際連接數(shù)目與隨機(jī)連接下社區(qū)內(nèi)的期望連接數(shù)目之差,它描述了所發(fā)現(xiàn)社區(qū)的優(yōu)劣。Q值越大則社區(qū)結(jié)構(gòu)越好。在此基礎(chǔ)上,Newman提出了基于局部搜索的快速?gòu)?fù)雜網(wǎng)絡(luò)聚類算法,即快速Newman算法??焖貼ewman算法通過(guò)局部搜索,找到極大化的Q值,從而實(shí)現(xiàn)社區(qū)劃分。同年,Newman等人從算法復(fù)雜度的角度出發(fā),通過(guò)引入模塊度增量矩陣和堆結(jié)構(gòu),將快速Newman算法演進(jìn)為了 CNM算法。2005年,R.Guimera和L.A.N.Amaral以優(yōu)化目標(biāo)函數(shù)Q為目標(biāo),提出了基于模擬退火算法(Simulated Annealing, SA)的復(fù)雜網(wǎng)絡(luò)聚類算法_GA算法。SA的引入使得GA算法具有找到全局最優(yōu)解的能力;因而,GA算法具有很好的聚類精度?;谀K度優(yōu)化的聚合方法是目前比較流行的社區(qū)發(fā)現(xiàn)算法,并被擴(kuò)充到了加權(quán)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)、有向網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)和重疊社區(qū)發(fā)現(xiàn)等。雖然,基于網(wǎng)絡(luò)結(jié)構(gòu)(用戶關(guān)系)的社區(qū)發(fā)現(xiàn)算法能夠?qū)τ脩暨M(jìn)行聚類,但由于其忽略了用戶之間的共同興趣特征;因此,不能保證社區(qū)發(fā)現(xiàn)的興趣內(nèi)聚性。
[0007]針對(duì)上述兩種社區(qū)發(fā)現(xiàn)在興趣社區(qū)發(fā)現(xiàn)上的不足。2012年,Zhang等人提出了將用戶關(guān)系同用戶內(nèi)容進(jìn)行結(jié)合,發(fā)現(xiàn)用戶社區(qū)。他們采用NMF方法進(jìn)行基于用戶關(guān)系的社區(qū)發(fā)現(xiàn),采用AT模型用于興趣社區(qū)的發(fā)現(xiàn),并在此基礎(chǔ)上,將兩種社區(qū)發(fā)現(xiàn)結(jié)果進(jìn)行融合,并在Tweets和Delic1us上進(jìn)行了驗(yàn)證。燕飛等人首先對(duì)個(gè)人興趣進(jìn)行聚類,得到基于興趣的行動(dòng)者社區(qū),然后使用社會(huì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息,對(duì)興趣社區(qū)進(jìn)行擴(kuò)展,并在Flickr上進(jìn)行了實(shí)驗(yàn)分析。這些方法雖然得到了較好的興趣社區(qū)發(fā)現(xiàn),并能將用戶根據(jù)其興趣劃分到多個(gè)不同的社區(qū),符合實(shí)際情況,但其算法邏輯較為復(fù)雜,而且復(fù)雜度較高。
[0008]真實(shí)世界中的社區(qū)結(jié)構(gòu)大多數(shù)都是重疊且具有層次結(jié)構(gòu)。社交網(wǎng)絡(luò)用戶往往具有多樣化的興趣特征;因此,社交網(wǎng)絡(luò)中的用戶社區(qū)發(fā)現(xiàn)是重疊社區(qū)發(fā)現(xiàn)問(wèn)題。CPM算法是目前流行的重疊社區(qū)算法,其在自然和社會(huì)學(xué)等領(lǐng)域都有所應(yīng)用,且被推廣到了加權(quán)網(wǎng)絡(luò)的重疊社區(qū)發(fā)現(xiàn)。然而,CPM算法認(rèn)為社區(qū)是強(qiáng)連通的簇;其對(duì)社區(qū)苛刻的定義使得在稀疏網(wǎng)絡(luò)(如新浪微博用戶聯(lián)系網(wǎng)絡(luò)等)中社區(qū)發(fā)現(xiàn)效果較差。此外,CPM算法需要指定k值,且復(fù)雜度較高,也制約了 CPM算法在大數(shù)據(jù)網(wǎng)絡(luò)中的運(yùn)用。2010年,Ahn等人提出了邊社區(qū)概念及其算法-LCA算法,并在生物網(wǎng)絡(luò)、社會(huì)網(wǎng)絡(luò)和其他代表性網(wǎng)絡(luò)(哲學(xué)家關(guān)系網(wǎng)、單詞關(guān)系網(wǎng)和Amazon, com產(chǎn)品聯(lián)系網(wǎng))上,對(duì)照CPM算法、Infomap算法和快速Newman算法,驗(yàn)證了 LCA算法能發(fā)現(xiàn)質(zhì)量更好的重疊社區(qū)。
[0009]LCA算法以邊作為聚類節(jié)點(diǎn),對(duì)邊進(jìn)行聚類,并根據(jù)邊所屬的社區(qū),將節(jié)點(diǎn)劃分到多個(gè)不同的社區(qū)。在一個(gè)具有N個(gè)節(jié)點(diǎn)的加權(quán)網(wǎng)絡(luò)中,LCA算法假定對(duì)于任一節(jié)點(diǎn)i都有屬性向星 = (An,..., AiN),且
[0010]4 =f Σ w>Aj+wy
[0011]其中,為邊eu的權(quán)重,η⑴為與節(jié)點(diǎn)i有連接關(guān)系的所有鄰居節(jié)點(diǎn)集合,匕為集合n(i)的元素?cái)?shù)量,當(dāng)i = j時(shí),δ u = 1,其他情況為0。在LCA算法中,邊eu的權(quán)重
表征具有聯(lián)系的兩個(gè)節(jié)點(diǎn)i和j在某種性質(zhì)上相關(guān)度;通常權(quán)重值越高,相關(guān)度越大。根據(jù)不同的應(yīng)用,w.j的具體含義也略有不同;在具體應(yīng)用中,可根據(jù)社區(qū)發(fā)現(xiàn)的不同目的和網(wǎng)絡(luò)的不同特征采用不同的方法進(jìn)行計(jì)算。如為了發(fā)現(xiàn)電影演員之間的協(xié)作關(guān)系,可以以演員為節(jié)點(diǎn),演員之間是否有合作電影為邊,演員間合作的電影數(shù)為邊的權(quán)重,構(gòu)建演員關(guān)系網(wǎng)絡(luò);此時(shí),將表示演員間協(xié)作程度。又如,為了發(fā)現(xiàn)內(nèi)容和結(jié)構(gòu)雙內(nèi)聚的社交網(wǎng)絡(luò)用戶社區(qū),可以以用戶為節(jié)點(diǎn),用戶關(guān)系為邊,用戶發(fā)布內(nèi)容之間的相似性為邊的權(quán)重,構(gòu)建社交網(wǎng)絡(luò)模型;此時(shí),wu表示社交網(wǎng)絡(luò)用戶之間興趣的相似程度;再如,為了挖掘Amazon上不同產(chǎn)品間的關(guān)系,可以構(gòu)建以產(chǎn)品為節(jié)點(diǎn),用戶是否同時(shí)購(gòu)買某兩種產(chǎn)品為邊,產(chǎn)品所包含的用戶標(biāo)簽的相似度值為邊的權(quán)重,構(gòu)建產(chǎn)品網(wǎng)絡(luò)模型;此時(shí),表示產(chǎn)品間用戶標(biāo)簽的相似程度。
[0012]在此基礎(chǔ)上,LCA算法采用Tanimoto系數(shù)計(jì)算公式計(jì)算具有公共節(jié)點(diǎn)k的兩條邊eik和ejk之間的相似度。由于邊eik和ejk具有公共節(jié)點(diǎn)k, LCA算法認(rèn)為節(jié)點(diǎn)k的鄰居節(jié)點(diǎn)對(duì)該兩條邊相似度的貢獻(xiàn)不大,即邊eik和的計(jì)算只考慮節(jié)點(diǎn)i和節(jié)點(diǎn)j的鄰居節(jié)點(diǎn)。因此,邊eik和%的相似度計(jì)算公式為
[0013]S^ik>ejk^= 2 |',2;
KI +K1-V?
[0014]在計(jì)算邊邊之間相似度的基礎(chǔ)上,LCA算法采用單邊聚類方法對(duì)邊聚類,直至形成一個(gè)社區(qū)。最后,采用最優(yōu)社區(qū)密度對(duì)層次進(jìn)行切分,形成多個(gè)社區(qū)。顯然,上述公式在邊邊的相似度計(jì)算上,僅從網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),忽略了邊的真實(shí)特征。
[0015]綜上,目前社交網(wǎng)絡(luò)用戶社區(qū)發(fā)現(xiàn)方法存在如下不足:①算法考慮不全面;②算法效率較低;?LCA算法未考慮邊的真實(shí)興趣特征。圍繞這些不足,本
【發(fā)明者】對(duì)社交網(wǎng)絡(luò)進(jìn)行R-C模型構(gòu)建,建立以用戶關(guān)系為節(jié)點(diǎn),以用戶關(guān)系之間是否有共同用戶為邊,從用戶所發(fā)布的內(nèi)容提取用戶的興趣特征,進(jìn)而轉(zhuǎn)化為用戶關(guān)系的興趣特征,在此基礎(chǔ)上,進(jìn)行社交網(wǎng)絡(luò)用戶社區(qū)發(fā)現(xiàn),得出本發(fā)明專利。
【發(fā)明內(nèi)容】
[0016]本發(fā)明的目的是在社交網(wǎng)絡(luò)中挖掘興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的用戶社區(qū),具體涉及一種社交網(wǎng)絡(luò)興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的用戶社區(qū)發(fā)現(xiàn)方法。該方法首先構(gòu)建了社交網(wǎng)絡(luò)R-C模型,并在此基礎(chǔ)上,將R-C模型轉(zhuǎn)化為加權(quán)無(wú)向圖的社區(qū)發(fā)現(xiàn)。
[0017]社交網(wǎng)絡(luò)R-C模型以社交網(wǎng)絡(luò)的用戶關(guān)系為節(jié)點(diǎn),以用戶關(guān)系間是否有共同用戶為邊,以用戶關(guān)系所關(guān)聯(lián)的兩個(gè)用戶的加權(quán)興趣集的交集為節(jié)點(diǎn)屬性。
[0018]社交網(wǎng)絡(luò)R-C模型將用戶所發(fā)布的所有內(nèi)容合并成一個(gè)文檔,再采用已有的主題提取模型提取各文檔的興趣特征。各文檔的興趣特征集為一個(gè)加權(quán)興趣集,表征該文檔所對(duì)應(yīng)用戶的興趣特征。
[0019]針對(duì)每一個(gè)用戶關(guān)系,R-C模型將該兩個(gè)加權(quán)興趣特征集的公共部分視為交集運(yùn)算。即有,若給定一個(gè)集合A = {a1; a2,...,am},其每個(gè)元素都含權(quán)值,即第i個(gè)元素%的權(quán)值為wai,則稱A為權(quán)值集合。A又表示為:A = {(a1; wal), (a2, wa2),..., (am, wam)}。若有權(quán)值集合 A — {? wal),(a2? wa2),...,(&m? wam)}和 B — {(bj? w^j),(b2,w^),...,(bn,wbn)},則集合A和B的交集為:A η B = {(c,w。)I c為A和B的共同元素,若c = ai = b」,有wc = min(wai, wbJ)},其中min()函數(shù)為取最小值。
[0020]在社交網(wǎng)絡(luò)R-C模型的基礎(chǔ)上,針對(duì)每?jī)蓚€(gè)具有公共用戶的用戶關(guān)系,采用已有的相似度計(jì)算公式計(jì)算其相似度,進(jìn)而將社交網(wǎng)絡(luò)R-C轉(zhuǎn)化為以用戶關(guān)系為節(jié)點(diǎn),以用戶關(guān)系間是否有共同用戶為邊,以用戶關(guān)系間的相似度為權(quán)重的加權(quán)無(wú)向圖;接著,采用已有的加權(quán)無(wú)向圖社區(qū)發(fā)現(xiàn)算法完成用戶關(guān)系的社區(qū)發(fā)現(xiàn);最后,直接將用戶關(guān)系社區(qū)中的用戶關(guān)系映射為用戶,形成用戶社區(qū)。
[0021]綜上,本發(fā)明所公開(kāi)的社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法,包括如下步驟:
[0022]1.構(gòu)建社交網(wǎng)絡(luò)R-C模型;
[0023]I1.在R-C模型中,采用已有的相似度計(jì)算方法計(jì)算具有共同用戶的兩個(gè)用戶關(guān)系的興趣特征相似度;
[0024]II1.以R-C模型中的用戶關(guān)系為節(jié)點(diǎn),以兩個(gè)用戶關(guān)系之間是否有共同好友為邊,以用戶關(guān)系間的興趣特征相似度為邊的權(quán)值,形成社交網(wǎng)絡(luò)加權(quán)無(wú)向圖;
[0025]IV.采用已有的加權(quán)無(wú)向網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法對(duì)上述網(wǎng)絡(luò)進(jìn)行用戶關(guān)系社區(qū)發(fā)現(xiàn);
[0026]V.逐一遍歷用戶關(guān)系社區(qū),將用戶關(guān)系社區(qū)中的用戶關(guān)系直接映射為其所關(guān)聯(lián)的兩個(gè)用戶,形成社交網(wǎng)絡(luò)用戶社區(qū),完成社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)。
[0027]其中,社交網(wǎng)絡(luò)R-C模型的構(gòu)建包含如下步驟:
[0028]1.將用戶在社交網(wǎng)絡(luò)中所發(fā)布的所有可獲取內(nèi)容合并為一個(gè)文檔,形成社交網(wǎng)絡(luò)內(nèi)容集合;
[0029]I1.對(duì)內(nèi)容集合中的內(nèi)容進(jìn)行分詞,并采用已有基于內(nèi)容的主題提取方法提取各內(nèi)容的主題集合,形成帶權(quán)值的用戶興趣集;
[0030]II1.依據(jù)用戶關(guān)系所關(guān)聯(lián)的兩個(gè)用戶的興趣集,采用帶權(quán)值的交集運(yùn)算形成用戶關(guān)系興趣特征集;
[0031]IV.以用戶關(guān)系為節(jié)點(diǎn),以兩個(gè)用戶關(guān)系之間是否有共同好友為邊,以用戶關(guān)系的興趣特征集為節(jié)點(diǎn)的屬性,形成社交網(wǎng)絡(luò)R-C模型。
[0032]一個(gè)社交網(wǎng)絡(luò)的真實(shí)內(nèi)容通常包含三部分內(nèi)容:用戶集合U,用戶關(guān)系集合L和由u所產(chǎn)生的各類內(nèi)容τ(主要為社交網(wǎng)絡(luò)內(nèi)容及其評(píng)論內(nèi)容)。因此,一個(gè)社交網(wǎng)絡(luò)通常可以表示為:S=卬,1^,1'),其中3表示社交網(wǎng)絡(luò)。針對(duì)不同的研究和應(yīng)用,該模型略有不同。圖2下半部分是一個(gè)社交網(wǎng)絡(luò)真實(shí)內(nèi)容及其關(guān)系示意圖。U= {U1;U2,U3}為社交網(wǎng)絡(luò)用戶集合,L= {Lph}為用戶聯(lián)系的集合,也是社交網(wǎng)絡(luò)內(nèi)容T傳播的紐帶,T =為社交網(wǎng)絡(luò)內(nèi)容集合,T,為U,的所發(fā)布內(nèi)容集合。
[0033]參照?qǐng)D1,為社交網(wǎng)絡(luò)模型示意圖,上半部分為社交網(wǎng)絡(luò)R-C模型示意,下半部分為現(xiàn)有社交網(wǎng)絡(luò)模型示意。社交網(wǎng)絡(luò)用戶社區(qū)發(fā)現(xiàn)即是在社交網(wǎng)絡(luò)S中發(fā)現(xiàn)L和T同時(shí)內(nèi)聚的U社區(qū)。若以T作為研究對(duì)象,采用文本聚類的方法進(jìn)行社區(qū)發(fā)現(xiàn),該方法能夠形成興趣內(nèi)聚的U社區(qū);但由于忽略了關(guān)系L的重要作用,不能保證信息在所發(fā)現(xiàn)的社區(qū)內(nèi)部能夠暢通傳播。若以L作為聚類條件進(jìn)行U社區(qū)發(fā)現(xiàn),無(wú)法保證所形成的社區(qū)的興趣內(nèi)聚。因此,合理的U社區(qū)發(fā)現(xiàn)應(yīng)綜合考慮L和T?,F(xiàn)有的綜合方法采用某種方法融合由L和T所發(fā)現(xiàn)的兩類U社區(qū),形成網(wǎng)絡(luò)結(jié)構(gòu)和興趣雙內(nèi)聚的U社區(qū)。先后兩次社區(qū)發(fā)現(xiàn)及社區(qū)融合導(dǎo)致了該類社區(qū)發(fā)現(xiàn)算法效率較低。而導(dǎo)致該算法需要進(jìn)行兩次社區(qū)發(fā)現(xiàn),其最根本的原因是沒(méi)有充分利用L的信息和價(jià)值。L作為用戶之間的相互關(guān)系,其已經(jīng)體現(xiàn)了 U的存在;因此,在興趣社區(qū)發(fā)現(xiàn)中如果以L為社區(qū)發(fā)現(xiàn)對(duì)象,以T作為L(zhǎng)的屬性進(jìn)行L社區(qū)發(fā)現(xiàn),通過(guò)一次社區(qū)發(fā)現(xiàn)找出L社區(qū),進(jìn)而轉(zhuǎn)化為U社區(qū),將能簡(jiǎn)化社區(qū)發(fā)現(xiàn)復(fù)雜度。
[0034]參照?qǐng)D1,為社交網(wǎng)絡(luò)模型示意圖。上半部分顯示了社交網(wǎng)絡(luò)R-C模型示意圖。它將原有模型中的用戶關(guān)系L= {l1;l2}映射成網(wǎng)絡(luò)節(jié)點(diǎn)r= {Ri,R2}。U/是用戶關(guān)系札和R2潛在的連接關(guān)系,它體現(xiàn)了 Ri和R2之間存在著共同用戶。同時(shí),用戶關(guān)系L還潛在著所關(guān)聯(lián)的兩個(gè)用戶之間的共同興趣特征。社交網(wǎng)絡(luò)內(nèi)容T是用戶興趣集的具體表現(xiàn);因此,通過(guò)對(duì)用戶關(guān)系所關(guān)聯(lián)的兩個(gè)用戶的社交網(wǎng)絡(luò)內(nèi)容T進(jìn)行興趣特征提取,可進(jìn)一步獲得用戶關(guān)系的所關(guān)聯(lián)的用戶的共同興趣特征C,實(shí)現(xiàn)對(duì)R-C模型中用戶關(guān)系興趣特征的描述。從而,將原有社交網(wǎng)絡(luò)模型轉(zhuǎn)化為R-C模型,即S = {R,C}。
[0035]由于用戶往往具有多個(gè)不同的興趣,現(xiàn)有的方法通常根據(jù)用戶內(nèi)容計(jì)算出用戶對(duì)各不同興趣感興趣的程度。因此,用戶興趣集是一個(gè)帶權(quán)值的興趣集合。
[0036]在社交網(wǎng)絡(luò)R-C模型的基礎(chǔ)上,進(jìn)行R社區(qū)發(fā)現(xiàn),最后將R直接映射為其關(guān)聯(lián)的用戶,轉(zhuǎn)化為U社區(qū)。它在綜合考慮用戶聯(lián)系和用戶內(nèi)容的基礎(chǔ)上,提高用戶社區(qū)發(fā)現(xiàn)效率,并解決了 LCA算法在社區(qū)發(fā)現(xiàn)上沒(méi)有充分考慮邊的興趣特征的問(wèn)題。
[0037]雖然R-C模型和LCA算法都采用邊進(jìn)行聚類,但兩者具有本質(zhì)的不同,具體表現(xiàn)在;
[0038]1.LCA算法只是將邊作為一個(gè)聚類的對(duì)象,其邊并不具有興趣特征描述。而R-C模型在社區(qū)發(fā)現(xiàn)上,將用戶關(guān)系作為實(shí)體進(jìn)行聚類;在R-C模型中,用戶關(guān)系不僅僅只是聚類的對(duì)象,其還具有其所關(guān)聯(lián)的兩個(gè)用戶的興趣特征描述。因此,R-C模型更有利于挖掘內(nèi)容和結(jié)構(gòu)雙內(nèi)聚的社區(qū)結(jié)構(gòu)。
[0039]2.LCA算法僅僅只是從網(wǎng)絡(luò)結(jié)構(gòu)的角度出發(fā)進(jìn)行社區(qū)發(fā)現(xiàn);且認(rèn)為,兩條具有公共節(jié)點(diǎn)的邊,其公共節(jié)點(diǎn)的屬性對(duì)該兩條邊的相似度的貢獻(xiàn)不大,即LCA算法忽略了公共節(jié)點(diǎn)的屬性特征。因此,LCA算法忽略了邊的真實(shí)特征。而R-C模型通過(guò)對(duì)邊所關(guān)聯(lián)的兩個(gè)節(jié)點(diǎn)的特征取交集,保留了邊的真實(shí)特征。
[0040]3.針對(duì)各類型的網(wǎng)絡(luò),LCA算法根據(jù)不同的社區(qū)發(fā)現(xiàn)目標(biāo),構(gòu)建加權(quán)或無(wú)權(quán)網(wǎng)絡(luò),進(jìn)而從邊的角度出發(fā)進(jìn)行社區(qū)發(fā)現(xiàn),各節(jié)點(diǎn)的屬性特征在構(gòu)建網(wǎng)絡(luò)時(shí)就已轉(zhuǎn)化為數(shù)值。而R-C模型首先將用戶關(guān)系構(gòu)建為網(wǎng)絡(luò)節(jié)點(diǎn),并從用戶關(guān)系所關(guān)聯(lián)的兩個(gè)用戶的興趣獲取該用戶關(guān)系的特征,接著根據(jù)用戶關(guān)系的特征計(jì)算用戶關(guān)系間的權(quán)重,最后進(jìn)行社區(qū)發(fā)現(xiàn)。由于R-C模型在進(jìn)行社區(qū)發(fā)現(xiàn)前才將屬性特征轉(zhuǎn)化為數(shù)值,因而能挖掘更為真實(shí)的社區(qū)結(jié)構(gòu)。
[0041]由于社交網(wǎng)絡(luò)是稀疏網(wǎng)絡(luò),其用戶關(guān)系和用戶數(shù)屬于同一數(shù)量級(jí),因此,本發(fā)明所公開(kāi)的社區(qū)發(fā)現(xiàn)方法在聚類的時(shí)間復(fù)雜度與傳統(tǒng)基于用戶的社區(qū)發(fā)現(xiàn)算法相當(dāng)。
[0042]綜上,本發(fā)明所公開(kāi)的社區(qū)發(fā)現(xiàn)方法具有如下特點(diǎn):
[0043]1.能挖掘興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的用戶社區(qū);
[0044]2.算法效率高。
【專利附圖】
【附圖說(shuō)明】
[0045]圖1是傳統(tǒng)社交網(wǎng)絡(luò)模型和本發(fā)明的社交網(wǎng)絡(luò)R-C模型示意圖。
[0046]圖2是本發(fā)明進(jìn)行社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的較佳工作流程圖。
[0047]圖3是本發(fā)明較佳實(shí)施例的社交網(wǎng)絡(luò)示例圖。
【具體實(shí)施方式】
[0048]參照?qǐng)D2,為本發(fā)明進(jìn)行社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的較佳工作流程圖。在對(duì)社交網(wǎng)絡(luò)中用戶所發(fā)布內(nèi)容進(jìn)行歸檔形成社交網(wǎng)絡(luò)內(nèi)容集合T后,本發(fā)明使用LDA模型從社交網(wǎng)絡(luò)內(nèi)容T提取用戶興趣集I = {II,12,...},進(jìn)而通過(guò)交集運(yùn)算,計(jì)算用戶關(guān)系的興趣特征集C。用戶關(guān)系的興趣特征集C和用戶關(guān)系集合R構(gòu)成社交網(wǎng)絡(luò)R-C模型。接著,本發(fā)明通過(guò)計(jì)算有潛在聯(lián)系的用戶關(guān)系之間的興趣相似度,將社交網(wǎng)絡(luò)R-C模型轉(zhuǎn)換為加權(quán)無(wú)向網(wǎng)絡(luò),并使用較為成熟的加權(quán)無(wú)向網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法進(jìn)行R社區(qū)發(fā)現(xiàn)。由于CNM算法的聚類復(fù)雜度較低,本發(fā)明使用加權(quán)CNM算法進(jìn)行R社區(qū)發(fā)現(xiàn)。最后,將R直接映射為相應(yīng)的U,形成U社區(qū)。
[0049]具體地,使用社交網(wǎng)絡(luò)R-C模型進(jìn)行社區(qū)發(fā)現(xiàn)的方法步驟如下:
[0050]1.社交網(wǎng)絡(luò)內(nèi)容T集合構(gòu)建。將社交網(wǎng)絡(luò)內(nèi)容依據(jù)其所屬的用戶進(jìn)行歸類,形成T集合;
[0051]2.用戶興趣集I計(jì)算。對(duì)T集合中的社交網(wǎng)絡(luò)內(nèi)容進(jìn)行分詞,并采用相關(guān)模型(如,LDA模型等)構(gòu)建用戶興趣集合I ;
[0052]3.用戶關(guān)系特征集C計(jì)算。依據(jù)用戶關(guān)系所對(duì)應(yīng)的兩個(gè)用戶興趣特征集,使用定義3所描述的方法取交集形成用戶關(guān)系興趣特征集C ;
[0053]4.用戶關(guān)系相似度計(jì)算。對(duì)于無(wú)共同用戶的用戶關(guān)系,將不進(jìn)行相似度計(jì)算。對(duì)于有公共用戶的兩個(gè)用戶關(guān)系,采用Tanimoto系數(shù)計(jì)算公式計(jì)算其的相似度。即,其計(jì)算公式如下:
[。。54] W)=|cfSf?
[0055]5.R社區(qū)發(fā)現(xiàn)。采用加權(quán)無(wú)向網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法(如,CNM算法等)對(duì)上述網(wǎng)絡(luò)進(jìn)行R社區(qū)發(fā)現(xiàn)。
[0056]6.U社區(qū)形成。R-C模型中,任一 R都包含兩個(gè)具有用戶關(guān)系的用戶。對(duì)于某個(gè)R社區(qū),其所包含的所有R所對(duì)應(yīng)的用戶集形成該R社區(qū)所對(duì)應(yīng)的U社區(qū)。依次遍歷所發(fā)現(xiàn)的所有R社區(qū),形成U社區(qū)。
[0057]參照?qǐng)D3,為本發(fā)明較佳實(shí)施例的社交網(wǎng)絡(luò)示例圖。它給出了 LCA算法未考慮邊的真實(shí)興趣特性而導(dǎo)致社區(qū)發(fā)現(xiàn)不準(zhǔn)確的一個(gè)案例。該案例由3個(gè)節(jié)點(diǎn)(用戶兩條邊(用戶關(guān)系)e12和e13組成。假定節(jié)點(diǎn)ηι、η2和n3的興趣特征及其權(quán)重分別為::0.5,I2:0.5)、⑴:0.5)和(12:1)。采用Tanimoto系數(shù)計(jì)算公式分別求得邊e12和e13的權(quán)重w12和w13為0.5和0.5 ;進(jìn)而可知,邊e12和e13之間的相似度為0.5。因此,若采用LCA算法,由于邊e12和e13間較高的相似度,使得e12和e13將被劃分到一個(gè)社區(qū),即,節(jié)點(diǎn)和n3都?xì)w屬于同一個(gè)社區(qū)。而事實(shí)上,rii和n2的共同興趣為Ip rii和n3的共同興趣為12,而n2和n3之間無(wú)共同興趣;因此,好的社區(qū)發(fā)現(xiàn)應(yīng)能將其劃分為ηι、η2和ηι、η3兩個(gè)不同的社區(qū)結(jié)構(gòu)。顯然,LCA算法因未考慮e12和e13的真實(shí)興趣特征,使得其社區(qū)發(fā)現(xiàn)不夠合理。而本發(fā)明所公開(kāi)的方法首先計(jì)算出邊e12和e13所對(duì)應(yīng)的用戶關(guān)系的興趣特征分別為Q ={(11;0.5)}和(:2 = {(I2,0.5)}。由于(^和(:2完全不同,因此,不論采用哪種聚類方法,e12和e13都分屬于不同的興趣社區(qū),最終,發(fā)現(xiàn)真實(shí)的興趣社區(qū)。因此,本發(fā)明所公開(kāi)的方法較LCA能挖掘出更好的社區(qū)結(jié)構(gòu)。
[0058]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種興趣和網(wǎng)絡(luò)結(jié)構(gòu)雙內(nèi)聚的社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,所述方法包括如下步驟: 1.構(gòu)建社交網(wǎng)絡(luò)R-C模型; I1.在R-C模型中,采用已有的相似度計(jì)算方法計(jì)算具有共同用戶的兩個(gè)用戶關(guān)系的興趣特征相似度; II1.以R-C模型中的用戶關(guān)系為節(jié)點(diǎn),以兩個(gè)用戶關(guān)系之間是否有共同好友為邊,以用戶關(guān)系間的興趣特征相似度為邊的權(quán)值,形成社交網(wǎng)絡(luò)加權(quán)無(wú)向圖; IV.采用已有的加權(quán)無(wú)向網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法對(duì)上述網(wǎng)絡(luò)進(jìn)行用戶關(guān)系社區(qū)發(fā)現(xiàn); V.逐一遍歷用戶關(guān)系社區(qū),將用戶關(guān)系社區(qū)中的用戶關(guān)系直接映射為其所關(guān)聯(lián)的兩個(gè)用戶,形成社交網(wǎng)絡(luò)用戶社區(qū),完成社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)。
2.如權(quán)利要求1所述的社交網(wǎng)絡(luò)R-C模型,其特征在于,其構(gòu)建步驟如下: 1.將用戶在社交網(wǎng)絡(luò)中所發(fā)布的所有可荻取內(nèi)容合并為一個(gè)文檔,形成社交網(wǎng)絡(luò)內(nèi)容集合; I1.對(duì)內(nèi)容集合中的內(nèi)容進(jìn)行分詞,并采用已有基于內(nèi)容的主題提取方法提取各內(nèi)容的主題集合,形成帶權(quán)值的用戶興趣集; II1.依據(jù)用戶關(guān)系所關(guān)聯(lián)的兩個(gè)用戶的興趣集,采用帶權(quán)值的交集運(yùn)算形成用戶關(guān)系興趣特征集; IV.以用戶關(guān)系為節(jié)點(diǎn),以兩個(gè)用戶關(guān)系之間是否有共同好友為邊,以用戶關(guān)系的興趣特征集為節(jié)點(diǎn)的屬性,形成社交網(wǎng)絡(luò)R-C模型。
3.如權(quán)利要求2所述的帶權(quán)值的用戶興趣集,其特征在于,每個(gè)興趣都具有權(quán)值,該權(quán)值描述了用戶對(duì)該興趣的感興趣程度。
4.如權(quán)利要求2所述的帶權(quán)值的交集運(yùn)算,其特征在于,運(yùn)算結(jié)果為兩個(gè)集合的共同興趣,共同興趣的權(quán)值為該興趣在兩個(gè)集合中權(quán)值的較小值。
【文檔編號(hào)】G06F17/30GK104268271SQ201410540031
【公開(kāi)日】2015年1月7日 申請(qǐng)日期:2014年10月13日 優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】周小平 申請(qǐng)人:北京建筑大學(xué)