一種社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)系統(tǒng)及其方法
【專利摘要】本發(fā)明提出了一種社交網(wǎng)絡(luò)的重疊社區(qū)發(fā)現(xiàn)系統(tǒng)及其方法,由數(shù)據(jù)采集模塊對(duì)實(shí)際網(wǎng)絡(luò)數(shù)據(jù)的采集;網(wǎng)絡(luò)轉(zhuǎn)換模塊對(duì)采集數(shù)據(jù)的轉(zhuǎn)換,以鄰接矩陣的形式存儲(chǔ)原始網(wǎng)絡(luò)信息;非重疊社區(qū)獲取模塊采用非重疊社區(qū)發(fā)現(xiàn)方法對(duì)網(wǎng)絡(luò)進(jìn)行處理,初始時(shí)認(rèn)為單個(gè)節(jié)點(diǎn)代表一個(gè)社區(qū),然后每次合并使模塊度增量最大的兩個(gè)社區(qū),反復(fù)迭代直到模塊度為最大值,從而得到非重疊社區(qū);重疊社區(qū)獲取模塊通過(guò)計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)的隸屬度,判斷是否應(yīng)將該節(jié)點(diǎn)加入對(duì)應(yīng)社區(qū),從而可以得到重疊節(jié)點(diǎn),同時(shí)發(fā)現(xiàn)重疊社區(qū)。本發(fā)明采用的重疊社區(qū)發(fā)現(xiàn)方法兼顧了社區(qū)發(fā)現(xiàn)的準(zhǔn)確度以及時(shí)間復(fù)雜度,可用于處理?yè)碛斜姸喙?jié)點(diǎn)的社交網(wǎng)絡(luò)數(shù)據(jù)。
【專利說(shuō)明】一種社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)系統(tǒng)及其方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘和復(fù)雜網(wǎng)絡(luò)研究領(lǐng)域,尤其涉及一種社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)系統(tǒng)及其方法。
【背景技術(shù)】
[0002]現(xiàn)實(shí)世界中存在的許多復(fù)雜系統(tǒng)大多可以用復(fù)雜網(wǎng)絡(luò)進(jìn)行描述。例如:新陳代謝網(wǎng),蛋白質(zhì)交互網(wǎng),基因網(wǎng)絡(luò),科學(xué)家合著網(wǎng)絡(luò),電力網(wǎng),航空網(wǎng)以及社交網(wǎng)絡(luò)等等。一直以來(lái)人們對(duì)于復(fù)雜網(wǎng)絡(luò)的研究從未間斷,近些年來(lái),由于互聯(lián)網(wǎng)的快速發(fā)展使得人們?cè)絹?lái)越關(guān)注復(fù)雜網(wǎng)絡(luò),尤其是社交網(wǎng)絡(luò),并進(jìn)行了大量的研究工作。
[0003]一般而言,復(fù)雜網(wǎng)絡(luò)由于自身內(nèi)部結(jié)構(gòu)較為復(fù)雜,直接對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行研究是一件十分困難的事,因此人們一般通過(guò)研究網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)從而更好地理解整個(gè)網(wǎng)絡(luò)。所謂社區(qū),是節(jié)點(diǎn)的集合,在社區(qū)內(nèi)部節(jié)點(diǎn)連接很緊密,但是屬于不同社區(qū)的節(jié)點(diǎn)連接則比較稀疏。社區(qū)結(jié)構(gòu)普遍存在于復(fù)雜網(wǎng)絡(luò)中,社交網(wǎng)絡(luò)作為復(fù)雜網(wǎng)絡(luò)的一類也已被證明網(wǎng)絡(luò)內(nèi)部具有社區(qū)結(jié)構(gòu),很多用于復(fù)雜網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)算法也可用于社交網(wǎng)絡(luò)。
[0004]當(dāng)前,對(duì)于網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)發(fā)現(xiàn)的研究已經(jīng)有不少成果,提出了眾多社區(qū)發(fā)現(xiàn)方法。早期的研究主要集中于非重疊社區(qū)發(fā)現(xiàn),即認(rèn)為單個(gè)節(jié)點(diǎn)只能屬于一個(gè)社區(qū)。典型的方法有Kernighan-Lin方法、基于Laplace矩陣的譜平分法以及Newman等人提出的FastNewman方法和CNM方法,其中CNM方法還是時(shí)間復(fù)雜度最低的算法之一。但是后來(lái)人們研究發(fā)現(xiàn)實(shí)際生活中社區(qū)有可能是重疊的,即一個(gè)節(jié)點(diǎn)有可能同時(shí)屬于多個(gè)社區(qū)。例如在社交網(wǎng)絡(luò)中一個(gè)人可能同時(shí)參加多個(gè)討論小組。最早的重疊社區(qū)方法是Palla等人提出的K-clique派系過(guò)濾算法,它將相鄰的K-clique進(jìn)行合并,而屬于多個(gè)K-clique的節(jié)點(diǎn)便構(gòu)成了網(wǎng)絡(luò)中社區(qū)的重疊部分。該方法可有效的檢測(cè)出網(wǎng)絡(luò)中的社區(qū),然而該方法需提前告知網(wǎng)絡(luò)社區(qū)的數(shù)目,而實(shí)際網(wǎng)絡(luò)往往不知道最終的社區(qū)數(shù)目,這使得該方法的使用受到限制。網(wǎng)絡(luò)重疊社區(qū)的發(fā)現(xiàn)對(duì)于深入了解網(wǎng)絡(luò)的結(jié)構(gòu)特征具有重要的意義,從而提供更有效、更具個(gè)性化的服務(wù)。社交網(wǎng)絡(luò)由于數(shù)據(jù)量較大,因此要求社區(qū)發(fā)現(xiàn)方法的時(shí)間復(fù)雜度盡可能低的同時(shí)也具有較高的劃分準(zhǔn)確度。而現(xiàn)有的不少方法往往時(shí)間復(fù)雜度低卻難以保證劃分準(zhǔn)確度,具有較高的劃分準(zhǔn)確度的方法時(shí)間復(fù)雜度也很高。
【發(fā)明內(nèi)容】
[0005]技術(shù)問(wèn)題:本發(fā)明的目的在于提供一種社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)系統(tǒng)及其方法,解決現(xiàn)有技術(shù)對(duì)重疊社區(qū)發(fā)現(xiàn)準(zhǔn)確率和時(shí)間復(fù)雜度難以兼顧的問(wèn)題。
[0006]技術(shù)方案:本發(fā)明提出一種可用于社交網(wǎng)絡(luò)的重疊社區(qū)發(fā)現(xiàn)系統(tǒng),包括數(shù)據(jù)采集模塊、網(wǎng)絡(luò)轉(zhuǎn)換模塊、非重疊社區(qū)獲取模塊、重疊社區(qū)獲取模塊以及顯示模塊。其中數(shù)據(jù)采集模塊主要實(shí)現(xiàn)對(duì)實(shí)際網(wǎng)絡(luò)數(shù)據(jù)的采集;網(wǎng)絡(luò)轉(zhuǎn)換模塊實(shí)現(xiàn)對(duì)采集數(shù)據(jù)的轉(zhuǎn)換,以鄰接矩陣的形式存儲(chǔ)原始網(wǎng)絡(luò)信息;非重疊社區(qū)獲取模塊則采用非重疊社區(qū)發(fā)現(xiàn)方法對(duì)網(wǎng)絡(luò)進(jìn)行處理,初始時(shí)認(rèn)為單個(gè)節(jié)點(diǎn)代表一個(gè)社區(qū),然后每次合并使模塊度增量最大的兩個(gè)社區(qū),反復(fù)迭代直到模塊度為最大值,從而得到非重疊社區(qū);重疊社區(qū)獲取模塊通過(guò)計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)的隸屬度,判斷是否應(yīng)將該節(jié)點(diǎn)加入對(duì)應(yīng)社區(qū),從而可以得到重疊節(jié)點(diǎn),同時(shí)發(fā)現(xiàn)重疊社區(qū);顯示模塊主要將最終獲取的重疊社區(qū)以網(wǎng)絡(luò)節(jié)點(diǎn)圖的形式直觀地展示。
[0007]本發(fā)明還提出了一種可用于社交網(wǎng)絡(luò)的重疊社區(qū)發(fā)現(xiàn)方法,首先將采集實(shí)際網(wǎng)絡(luò)數(shù)據(jù),然后采用非重疊社區(qū)發(fā)現(xiàn)方法找出網(wǎng)絡(luò)中的非重疊社區(qū),最后在非重疊社區(qū)的基礎(chǔ)上找出其中的重疊節(jié)點(diǎn),從而得到重疊社區(qū)。
[0008]為實(shí)現(xiàn)上述目的,本發(fā)明技術(shù)方案包括如下步驟:
[0009]步驟一、采集實(shí)際網(wǎng)絡(luò)數(shù)據(jù),以鄰接矩陣的形式存儲(chǔ)原始網(wǎng)絡(luò)信息。
[0010]步驟二、采用非重疊社區(qū)發(fā)現(xiàn)方法對(duì)網(wǎng)絡(luò)進(jìn)行處理,得到非重疊社區(qū)。
[0011](一 )將單個(gè)節(jié)點(diǎn)視為一個(gè)社區(qū),同時(shí)進(jìn)行變量初始化設(shè)置。
[0012]( 二)計(jì)算任意兩個(gè)社區(qū)合并之后的模塊度增量AQ0
[0013](三)重復(fù)第二步直到模塊度Q達(dá)到最大值,此時(shí)認(rèn)為社區(qū)劃分達(dá)到最優(yōu)化,算法結(jié)束。
[0014]步驟三、通過(guò)計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)的隸屬度,判斷是否應(yīng)將該節(jié)點(diǎn)加入對(duì)應(yīng)社區(qū),從而可以得到重疊節(jié)點(diǎn),也發(fā)現(xiàn)網(wǎng)絡(luò)中的重疊社區(qū)并將其展示。
[0015]一種社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)系統(tǒng),其特征在于,包括數(shù)據(jù)采集模塊、網(wǎng)絡(luò)轉(zhuǎn)換模塊、非重置社區(qū)獲取1?塊和重置社區(qū)獲取1旲塊;
[0016]由數(shù)據(jù)采集模塊實(shí)現(xiàn)對(duì)實(shí)際網(wǎng)絡(luò)數(shù)據(jù)的采集;
[0017]網(wǎng)絡(luò)轉(zhuǎn)換模塊對(duì)采集的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,以鄰接矩陣的形式存儲(chǔ)原始網(wǎng)絡(luò)信息;
[0018]非重疊社區(qū)獲取模塊采用非重疊社區(qū)發(fā)現(xiàn)方法對(duì)網(wǎng)絡(luò)進(jìn)行處理,初始時(shí)認(rèn)為單個(gè)節(jié)點(diǎn)代表一個(gè)社區(qū),然后每次合并使模塊度增量最大的兩個(gè)社區(qū),反復(fù)迭代直到模塊度為最大值,從而得到非重疊社區(qū);
[0019]在得到的非重疊社區(qū)基礎(chǔ)上,由重疊社區(qū)獲取模塊通過(guò)計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)的隸屬度,判斷是否應(yīng)將該節(jié)點(diǎn)加入對(duì)應(yīng)社區(qū),從而得到重疊節(jié)點(diǎn),同時(shí)發(fā)現(xiàn)重疊社區(qū)。
[0020]一種社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)方法,其特征在于,包括以下步驟:
[0021](I)采集實(shí)際網(wǎng)絡(luò)數(shù)據(jù),以鄰接矩陣的形式存儲(chǔ)原始網(wǎng)絡(luò)信息;
[0022](2)采用非重疊社區(qū)發(fā)現(xiàn)方法對(duì)網(wǎng)絡(luò)進(jìn)行處理,得到非重疊社區(qū);
[0023](3)在步驟(2)中得到的非重疊社區(qū)基礎(chǔ)上,通過(guò)計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)的隸屬度,判斷是否應(yīng)將該節(jié)點(diǎn)加入對(duì)應(yīng)社區(qū),從而得到重疊節(jié)點(diǎn),也發(fā)現(xiàn)網(wǎng)絡(luò)中的重疊社區(qū)。
[0024]第⑴步中,網(wǎng)絡(luò)中任意兩節(jié)點(diǎn)存在連接關(guān)系,在鄰接矩陣相應(yīng)位置為1,反之,對(duì)應(yīng)位置為O。
[0025]第(2)步中,使用非重疊社區(qū)發(fā)現(xiàn)方法得到非重疊社區(qū)時(shí),初始時(shí)單個(gè)節(jié)點(diǎn)認(rèn)為是一個(gè)社區(qū),然后每次合并兩個(gè)模塊度增量最大的社區(qū),當(dāng)模塊度達(dá)到最大值時(shí)停止;模塊度增量定義如下:
[0026]AQ = eiJ+eJ1-2aiaJ = 2 (Gij-Biaj)
[0027]其中eij表示連接社區(qū)i與社區(qū)j的節(jié)點(diǎn)的邊與網(wǎng)絡(luò)總邊數(shù)之比,而eji則表示連接社區(qū)j與社區(qū)i的節(jié)點(diǎn)的邊與網(wǎng)絡(luò)總邊數(shù)之比,%、Bj分別表示與社區(qū)1、社區(qū)j中節(jié)點(diǎn)相連的邊與整個(gè)網(wǎng)絡(luò)總邊數(shù)之比;進(jìn)行社區(qū)合并時(shí)計(jì)算任意兩個(gè)社區(qū)合并之后的模塊度增量Λ Q值,將使模塊度增量ΛQ取最大值時(shí)的兩個(gè)社區(qū)進(jìn)行合并。
[0028]第(2)步中,在非重疊社區(qū)發(fā)現(xiàn)方法確定何時(shí)結(jié)束社區(qū)劃分是通過(guò)模塊度Q達(dá)到最大值完成的,
[0029]δ=:5τΣ Σ HK -■^l)
丄訊 ceC a,veF2.1--
[0030]其中Auv是鄰接矩陣,m是網(wǎng)絡(luò)總邊數(shù),V是所有節(jié)點(diǎn)的集合,C表示所有社區(qū)的集合,ku和kv分別是節(jié)點(diǎn)u和V的度。δ cu表示節(jié)點(diǎn)U是否屬于社區(qū)C,屬于的話該值為1,反之為O。
[0031]第(3)步中,通過(guò)第⑵得到非重疊社區(qū)之后,計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)的隸屬度,隸屬度的求取如下:
[0032]B{it,c) = ^^
ref'
[0033]euv表示連接節(jié)點(diǎn)u和V的邊,當(dāng)euv = I時(shí),表示節(jié)點(diǎn)u和V相連,當(dāng)euv = O時(shí),表示兩節(jié)點(diǎn)沒(méi)有連接,隸屬度反應(yīng)了節(jié)點(diǎn)u與社區(qū)c之間的緊密關(guān)系;判斷將節(jié)點(diǎn)添加到社區(qū)之后整個(gè)網(wǎng)絡(luò)的模塊度Qtl值是否大于初始時(shí)的整個(gè)網(wǎng)絡(luò)的模塊度Q。值,大于則將節(jié)點(diǎn)添加至該社區(qū),反之,保持社區(qū)不變;
[0034]Q0值計(jì)算公式:
[0035]& = Σ B(ux.)B(v'c、(Ain
[0036]其中Auv是鄰接矩陣,m是網(wǎng)絡(luò)總邊數(shù),C表示所有社區(qū)的集合,V是所有節(jié)點(diǎn)的集合,ku和kv分別是節(jié)點(diǎn)u和V的度,B (u, c)和B (V, c)分別是節(jié)點(diǎn)u和v與社區(qū)c之間的隸屬度;通過(guò)計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)間的隸屬度,同時(shí)在一定條件下比較Qtl值,決定是否將節(jié)點(diǎn)添加至對(duì)應(yīng)社區(qū);一個(gè)節(jié)點(diǎn)屬于多個(gè)社區(qū),則認(rèn)為該節(jié)點(diǎn)為重疊節(jié)點(diǎn),而具有重疊節(jié)點(diǎn)的社區(qū)則是重疊社區(qū)。
[0037]第(3)步,得到重疊社區(qū)之后,評(píng)價(jià)劃分社區(qū)的準(zhǔn)確度,給出劃分準(zhǔn)確度指標(biāo)CLA:
[0038]ξ-χ{|--η5,ι}
C-L-/1--
η
[0039]其中,分母η表示網(wǎng)絡(luò)總節(jié)點(diǎn)數(shù),分子表示正確劃分節(jié)點(diǎn)的數(shù)目A表示實(shí)際的社區(qū)集合C= IC1, C2,…,CkJ中第i個(gè)社區(qū),Si表示社區(qū)發(fā)現(xiàn)算法劃分出的社區(qū)集合S={s1; s2,…,sk2}中第j個(gè)社區(qū),Ici η S」表示社區(qū)Ci和社區(qū)Si中相同節(jié)點(diǎn)的個(gè)數(shù);
max |£|?ΠΑ||表示社區(qū)Ci與Si中每個(gè)社區(qū)求取相同節(jié)點(diǎn)個(gè)數(shù),然后找出其中的最大值;最后對(duì)社會(huì)集合C中每一個(gè)社區(qū)重復(fù)這一步驟,得到正確劃分的節(jié)點(diǎn)個(gè)數(shù),與網(wǎng)絡(luò)總節(jié)點(diǎn)數(shù)相除得到劃分準(zhǔn)確度。
[0040]有益效果:本發(fā)明首先使用時(shí)間復(fù)雜度低的非重疊社區(qū)方法得到非重疊社區(qū),這保證了方法可用于大規(guī)模的社交網(wǎng)絡(luò),然后在從非重疊社區(qū)中尋找其中的重疊節(jié)點(diǎn),這確保了與其他重疊社區(qū)發(fā)現(xiàn)方法相比具有較高的社區(qū)發(fā)現(xiàn)準(zhǔn)確率。另外本方法只需輸入原始網(wǎng)絡(luò)數(shù)據(jù)即可得到最終網(wǎng)絡(luò)的重疊社區(qū),無(wú)需設(shè)定初始的社區(qū)數(shù)目。本發(fā)明方法可用于處理社交網(wǎng)絡(luò)這類復(fù)雜的數(shù)據(jù)集。
【專利附圖】
【附圖說(shuō)明】
[0041]圖1是本發(fā)明一個(gè)實(shí)施例的社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)系統(tǒng)模塊圖;
[0042]圖2是本發(fā)明一個(gè)實(shí)施例的非重疊社區(qū)獲取模塊算法流程圖;
[0043]圖3是本發(fā)明一個(gè)實(shí)施例的重疊社區(qū)獲取模塊算法流程圖;
[0044]圖4是本發(fā)明另一個(gè)實(shí)施例的典型重疊社區(qū)網(wǎng)絡(luò)圖;
[0045]圖5是本發(fā)明另一個(gè)實(shí)施例的重疊社區(qū)發(fā)現(xiàn)的示意圖;
[0046]圖6是本發(fā)明方法對(duì)karate數(shù)據(jù)集處理的劃分結(jié)果圖;
[0047]圖7是本發(fā)明方法對(duì)strike數(shù)據(jù)集處理的劃分結(jié)果圖;
[0048]圖8是本發(fā)明方法對(duì)polbooks數(shù)據(jù)集處理的劃分結(jié)果圖;
[0049]圖9是本發(fā)明方法對(duì)football數(shù)據(jù)集處理的劃分結(jié)果圖;
[0050]圖10是本發(fā)明方法與其他算法對(duì)Facebook數(shù)據(jù)集處理的運(yùn)行時(shí)間對(duì)比圖。
【具體實(shí)施方式】
[0051]下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0052]圖1為本發(fā)明使用的一個(gè)實(shí)施例的社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)系統(tǒng)的模塊圖。本實(shí)施例中社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)系統(tǒng)包括:數(shù)據(jù)采集模塊101、網(wǎng)絡(luò)轉(zhuǎn)換模塊102、非重疊社區(qū)獲取模塊103、重疊社區(qū)獲取模塊104以及顯示模塊105。在本實(shí)施方式中發(fā)現(xiàn)重疊社區(qū)可分為三個(gè)步驟:
[0053]步驟一、采集實(shí)際網(wǎng)絡(luò)數(shù)據(jù),以鄰接矩陣的形式存儲(chǔ)原始網(wǎng)絡(luò)信息。
[0054]該步驟可在數(shù)據(jù)采集模塊101和網(wǎng)絡(luò)轉(zhuǎn)換模塊102完成。對(duì)實(shí)際網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行相應(yīng)的處理,在社交網(wǎng)絡(luò)中節(jié)點(diǎn)一般表示人,而邊一般表示人與人之間的關(guān)系。社交網(wǎng)絡(luò)數(shù)據(jù)集可從網(wǎng)絡(luò)上獲取,因此在這一步驟中主要工作是將數(shù)據(jù)集轉(zhuǎn)化成鄰接矩陣的形式存儲(chǔ)。在本發(fā)明實(shí)例中使用圖4中的網(wǎng)絡(luò),得到鄰接矩陣Auv。
[0055]
【權(quán)利要求】
1.一種社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)系統(tǒng),其特征在于,包括數(shù)據(jù)采集模塊、網(wǎng)絡(luò)轉(zhuǎn)換模塊、非重置社區(qū)獲取|旲塊和重置社區(qū)獲取|旲塊; 由數(shù)據(jù)采集模塊實(shí)現(xiàn)對(duì)實(shí)際網(wǎng)絡(luò)數(shù)據(jù)的采集; 網(wǎng)絡(luò)轉(zhuǎn)換模塊對(duì)采集的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,以鄰接矩陣的形式存儲(chǔ)原始網(wǎng)絡(luò)信息; 非重疊社區(qū)獲取模塊采用非重疊社區(qū)發(fā)現(xiàn)方法對(duì)網(wǎng)絡(luò)進(jìn)行處理,初始時(shí)認(rèn)為單個(gè)節(jié)點(diǎn)代表一個(gè)社區(qū),然后每次合并使模塊度增量最大的兩個(gè)社區(qū),反復(fù)迭代直到模塊度為最大值,從而得到非重疊社區(qū); 在得到的非重疊社區(qū)基礎(chǔ)上,由重疊社區(qū)獲取模塊通過(guò)計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)的隸屬度,判斷是否應(yīng)將該節(jié)點(diǎn)加入對(duì)應(yīng)社區(qū),從而得到重疊節(jié)點(diǎn),同時(shí)發(fā)現(xiàn)重疊社區(qū)。
2.一種社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)方法,其特征在于,包括以下步驟: (1)采集實(shí)際網(wǎng)絡(luò)數(shù)據(jù),以鄰接矩陣的形式存儲(chǔ)原始網(wǎng)絡(luò)信息; (2)采用非重疊社區(qū)發(fā)現(xiàn)方法對(duì)網(wǎng)絡(luò)進(jìn)行處理,得到非重疊社區(qū); (3)在步驟(2)中得到的非重疊社區(qū)基礎(chǔ)上,通過(guò)計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)的隸屬度,判斷是否應(yīng)將該節(jié)點(diǎn)加入對(duì)應(yīng)社區(qū),從而得到重疊節(jié)點(diǎn),也發(fā)現(xiàn)網(wǎng)絡(luò)中的重疊社區(qū)。
3.根據(jù)權(quán)利要求2所述的社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)方法,其特征在于, 第(I)步中,網(wǎng)絡(luò)中任意兩節(jié)點(diǎn)存在連接關(guān)系,在鄰接矩陣相應(yīng)位置為1,反之,對(duì)應(yīng)位置為O。
4.根據(jù)權(quán)利要求2所述的社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)方法,其特征在于, 第(2)步中,使用非重疊社區(qū)發(fā)現(xiàn)方法得到非重疊社區(qū)時(shí),初始時(shí)單個(gè)節(jié)點(diǎn)認(rèn)為是一個(gè)社區(qū),然后每次合并兩個(gè)模塊度增量最大的社區(qū),當(dāng)模塊度達(dá)到最大值時(shí)停止;模塊度增量定義如下:
AQ — Sjj+6ji—2ajaj 一 2 (ejj-Sjaj) 其中eu表示連接社區(qū)i與社區(qū)j的節(jié)點(diǎn)的邊與網(wǎng)絡(luò)總邊數(shù)之比,而b則表示連接社區(qū)j與社區(qū)i的節(jié)點(diǎn)的邊與網(wǎng)絡(luò)總邊數(shù)之比,A*分別表示與社區(qū)1、社區(qū)j中節(jié)點(diǎn)相連的邊與整個(gè)網(wǎng)絡(luò)總邊數(shù)之比;進(jìn)行社區(qū)合并時(shí)計(jì)算任意兩個(gè)社區(qū)合并之后的模塊度增量AQ值,將使模塊度增量AQ取最大值時(shí)的兩個(gè)社區(qū)進(jìn)行合并。
5.根據(jù)權(quán)利要求2或4所述的社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)方法,其特征在于, 第(2)步中,在非重疊社區(qū)發(fā)現(xiàn)方法確定何時(shí)結(jié)束社區(qū)劃分是通過(guò)模塊度Q達(dá)到最大值完成的, O=-Y Y δ δ (A -k^-)
Im ^ ^uv Jm
ΔΙη ceQ u,veVΔι/ι 其中Auv是鄰接矩陣,m是網(wǎng)絡(luò)總邊數(shù),V是所有節(jié)點(diǎn)的集合,C表示所有社區(qū)的集合,ku和kv分別是節(jié)點(diǎn)u和V的度。δ cu表示節(jié)點(diǎn)u是否屬于社區(qū)C,屬于的話該值為1,反之為O0
6.根據(jù)權(quán)利要求5所述的社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)方法,其特征還在于, 第(3)步中,通過(guò)第(2)得到非重疊社區(qū)之后,計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)的隸屬度,隸屬度的求取如下:
YjeUV B(u,c)=^-
veV euv表示連接節(jié)點(diǎn)u和V的邊,當(dāng)euv = I時(shí),表示節(jié)點(diǎn)u和V相連,當(dāng)euv = O時(shí),表示兩節(jié)點(diǎn)沒(méi)有連接,隸屬度反應(yīng)了節(jié)點(diǎn)U與社區(qū)C之間的緊密關(guān)系;判斷將節(jié)點(diǎn)添加到社區(qū)之后整個(gè)網(wǎng)絡(luò)的模塊度Qtl值是否大于初始時(shí)的整個(gè)網(wǎng)絡(luò)的模塊度Q。值,大于則將節(jié)點(diǎn)添加至該社區(qū),反之,保持社區(qū)不變; Q0值計(jì)算公式: β0=^-Σ Σ β(κ.)β(ν,ο(Αιη-^~) 其中Auv是鄰接矩陣,m是網(wǎng)絡(luò)總邊數(shù),C表示所有社區(qū)的集合,V是所有節(jié)點(diǎn)的集合,ku和kv分別是節(jié)點(diǎn)u和V的度,B (u, c)和B (V, c)分別是節(jié)點(diǎn)u和v與社區(qū)c之間的隸屬度;通過(guò)計(jì)算社區(qū)中節(jié)點(diǎn)與其他社區(qū)間的隸屬度,同時(shí)在一定條件下比較%值,決定是否將節(jié)點(diǎn)添加至對(duì)應(yīng)社區(qū);一個(gè)節(jié)點(diǎn)屬于多個(gè)社區(qū),則認(rèn)為該節(jié)點(diǎn)為重疊節(jié)點(diǎn),而具有重疊節(jié)點(diǎn)的社區(qū)則是重疊社區(qū)。
7.根據(jù)權(quán)利要求2所述的社交網(wǎng)絡(luò)重疊社區(qū)發(fā)現(xiàn)方法,其特征還在于, 第(3)步,得到重疊社區(qū)之后,評(píng)價(jià)劃分社區(qū)的準(zhǔn)確度,給出劃分準(zhǔn)確度指標(biāo)CLA:
Xmaxlfiqnsj} CLA==I_-J-
η 其中,分母η表示網(wǎng)絡(luò)總節(jié)點(diǎn)數(shù),分子表示正確劃分節(jié)點(diǎn)的數(shù)目A表示實(shí)際的社區(qū)集合C= {C1; C2,…,CkJ中第i個(gè)社區(qū),Si表示社區(qū)發(fā)現(xiàn)算法劃分出的社區(qū)集合S={s1; s2,…,sk2}中第j個(gè)社區(qū),Ici η S」表示社區(qū)Ci和社區(qū)Si中相同節(jié)點(diǎn)的個(gè)數(shù);11^\|@|€;門^1表示社區(qū)(;與匕中每個(gè)社區(qū)求取相同節(jié)點(diǎn)個(gè)數(shù),然后找出其中的最大值;最后對(duì)社會(huì)集合C中每一個(gè)社區(qū)重復(fù)這一步驟,得到正確劃分的節(jié)點(diǎn)個(gè)數(shù),與網(wǎng)絡(luò)總節(jié)點(diǎn)數(shù)相除得到劃分準(zhǔn)確度。
【文檔編號(hào)】G06F17/30GK104166731SQ201410436259
【公開(kāi)日】2014年11月26日 申請(qǐng)日期:2014年8月29日 優(yōu)先權(quán)日:2014年8月29日
【發(fā)明者】張卓, 游煌斌, 張學(xué)武, 范新南, 李敏, 付懷勇 申請(qǐng)人:河海大學(xué)常州校區(qū)