一種基于隨機游走的社區(qū)發(fā)現(xiàn)方法
【專利摘要】本發(fā)明公開一種基于隨機游走的社區(qū)發(fā)現(xiàn)方法,包括以下步驟,1)通過隨機游走獲得復(fù)雜網(wǎng)絡(luò)的一個節(jié)點序列;2)對節(jié)點序列進行數(shù)據(jù)分析,獲得兩個節(jié)點之間的連接的緊密程度;3)根據(jù)節(jié)點之間連接的緊密程度來進行社區(qū)發(fā)現(xiàn)。本發(fā)明所公開的基于隨機游走的在復(fù)雜網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)方法,實現(xiàn)簡單、計算復(fù)雜度低,可以有效減少社區(qū)發(fā)現(xiàn)的計算資源開銷,不需要任何先驗信息,僅僅需要復(fù)雜網(wǎng)絡(luò)的拓撲結(jié)構(gòu)就可以獲得社區(qū)發(fā)現(xiàn)結(jié)果,具有在實際復(fù)雜網(wǎng)絡(luò)中應(yīng)用的優(yōu)勢,同時對社區(qū)重疊部分的節(jié)點歸屬問題做了定量分析。
【專利說明】一種基于隨機游走的社區(qū)發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于復(fù)雜網(wǎng)絡(luò)領(lǐng)域,具體涉及一種基于隨機游走的社區(qū)發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002]在網(wǎng)絡(luò)理論的研究中,復(fù)雜網(wǎng)絡(luò)是由數(shù)量巨大的節(jié)點和節(jié)點之間錯綜復(fù)雜的關(guān)系共同構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)。用數(shù)學(xué)的語言來說,就是一個有著足夠復(fù)雜的拓撲結(jié)構(gòu)特征的圖?,F(xiàn)實世界中包含著各種類型的復(fù)雜網(wǎng)絡(luò),如社會網(wǎng)絡(luò)(朋友關(guān)系網(wǎng)絡(luò)及合作網(wǎng)絡(luò)等)、技術(shù)網(wǎng)絡(luò)(萬維網(wǎng)以及電力網(wǎng)等)、生物網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò)、食物鏈網(wǎng)絡(luò)以及新陳代謝網(wǎng)絡(luò)等)。
[0003]經(jīng)過近幾年的努力,復(fù)雜網(wǎng)絡(luò)的研究取得了許多重要進展,發(fā)現(xiàn)了復(fù)雜網(wǎng)絡(luò)的若干統(tǒng)計特征,其中包括小世界性質(zhì)(即網(wǎng)絡(luò)中節(jié)點之間的平均距離很短,對數(shù)依賴于網(wǎng)絡(luò)中的節(jié)點數(shù))、無標度性質(zhì)(即網(wǎng)絡(luò)中節(jié)點的度分布右偏斜,具備冪函數(shù)或指數(shù)函數(shù)的形式)以及聚集性或網(wǎng)絡(luò)傳遞性。
[0004]復(fù)雜網(wǎng)絡(luò)的另一個重要特征就是網(wǎng)絡(luò)中所呈現(xiàn)出的社區(qū)結(jié)構(gòu),大量實證研究表明,許多網(wǎng)絡(luò)是異構(gòu)的,即復(fù)雜網(wǎng)絡(luò)不是大批性質(zhì)相同節(jié)點的隨機連接,而是許多類型的節(jié)點的組合,其中相同類型的節(jié)點存在較多的連接,而不同類型節(jié)點的連接則相對較少。我們把同一類型節(jié)點以及這些節(jié)點之間的邊所構(gòu)成的子圖稱為網(wǎng)絡(luò)中的社區(qū)。
[0005]發(fā)現(xiàn)這些網(wǎng)絡(luò)中的社區(qū)有助于我們更加有效地理解和開發(fā)這些網(wǎng)絡(luò),但是隨著大數(shù)據(jù)時代的到來,由于目前算法的計算復(fù)雜度過高,一些算法需要先驗知識和使用范圍狹隘,導(dǎo)致這些算法無法在實際的復(fù)雜網(wǎng)絡(luò)中應(yīng)用。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺點,提供了一種基于隨機游走的社區(qū)發(fā)現(xiàn)方法,該方法在復(fù)雜網(wǎng)絡(luò)中快速的進行社區(qū)的發(fā)現(xiàn)。
[0007]為達到上述目的,本發(fā)明所述的基于隨機游走的社區(qū)發(fā)現(xiàn)方法包括以下步驟:
[0008]I)根據(jù)包含成員與成員之間關(guān)系的復(fù)雜網(wǎng)絡(luò)構(gòu)成一個相連通的無向圖,其中,復(fù)雜網(wǎng)絡(luò)中的成員記作無向圖中的節(jié)點,成員與成員之間的關(guān)系記作無向圖的邊;
[0009]2)在無向圖中進行L步隨機游走,得遍歷節(jié)點序列,將遍歷節(jié)點序列劃分為若干的子序列,每個子序列中包括H個節(jié)點,對每個子序列進行邊的統(tǒng)計,當(dāng)子序列中存在邊時,則對相應(yīng)邊的統(tǒng)計量加I,然后對所有邊的統(tǒng)計量進行排序;
[0010]3)將統(tǒng)計量最大的邊(vg,vh)所對應(yīng)的節(jié)點Vg及節(jié)點vh作為社區(qū)CO的初始節(jié)點,記作 C0={vg, vh};
[0011]4)對于第M個邊(vi,vj),當(dāng)vi屬于已有社區(qū)Cx,并且vj不屬于其他已有社區(qū)時,則記作vj屬于社區(qū)Cx,并將vj添加到社區(qū)Cx中;當(dāng)vi和vj均不屬于任何已有社區(qū)時,貝1J倉Il建新的社區(qū)Cy,其中Cy={vi,vj};當(dāng)vi屬于已有社區(qū)Cx,且vj屬于另一已有社區(qū)Cz時,則不進行處理;
[0012]5)重復(fù)步驟4),得到復(fù)雜網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)。[0013]步驟2)中L=N2,其中N為無向圖中節(jié)點的數(shù)量。
[0014]步驟2)中H大于或等于3,且H小于或等于10。
[0015]本發(fā)明具有以下有益效果:
[0016]本發(fā)明所述的基于隨機游走的社區(qū)發(fā)現(xiàn)方法通過隨機游走的方法獲取復(fù)雜網(wǎng)絡(luò)的遍歷節(jié)點序列,然后將該遍歷節(jié)點序列分為長度為K的子序列集,并統(tǒng)計所有子序列集中邊的數(shù)量,當(dāng)邊的統(tǒng)計量越大,則代表該邊對應(yīng)的兩個節(jié)點的關(guān)系越緊密,然后根據(jù)便的統(tǒng)計量進行社區(qū)的統(tǒng)計,從而能夠得到無向圖中的社區(qū)結(jié)構(gòu),處理過程中無需先驗知識,達到降低計算代價的目的,時間短,適應(yīng)性強。
【專利附圖】
【附圖說明】
[0017]圖1為本發(fā)明實施例一中復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
[0018]圖2為本發(fā)明實施例一中獲取邊的統(tǒng)計量的流程圖;
[0019]圖3為本發(fā)明在負載網(wǎng)絡(luò)中Zachary’ s karate club應(yīng)用結(jié)果的示意圖。
【具體實施方式】
[0020]下面結(jié)合附圖對本發(fā)明做進一步詳細描述:
[0021]本發(fā)明所述的基于隨機游走的社區(qū)發(fā)現(xiàn)方法包括以下步驟:
[0022]I)根據(jù)包含成員與成員之間關(guān)系的復(fù)雜網(wǎng)絡(luò)構(gòu)成一個相連通的無向圖,其中,復(fù)雜網(wǎng)絡(luò)中的成員記作無向圖中的節(jié)點,成員與成員之間的關(guān)系記作無向圖的邊;
[0023]2)在無向圖中進行L步隨機游走,得遍歷節(jié)點序列,將遍歷節(jié)點序列劃分為若干的子序列,每個子序列中包括H個節(jié)點,對每個子序列進行邊的統(tǒng)計,當(dāng)子序列中存在邊時,則對相應(yīng)邊的統(tǒng)計量加I,然后對所有邊的統(tǒng)計量進行排序;
[0024]3)將統(tǒng)計量最大的邊(vg,vh)所對應(yīng)的節(jié)點vg及節(jié)點vh作為社區(qū)CO的初始節(jié)點,記作 C0={vg, vh};
[0025]4)對于第M個邊(vi,vj),當(dāng)vi屬于已有社區(qū)Cx,并且vj不屬于其他已有社區(qū)時,則記作vj屬于社區(qū)Cx,并將vj添加到社區(qū)Cx中;當(dāng)vi和vj均不屬于任何已有社區(qū)時,貝1J倉Il建新的社區(qū)Cy,其中Cy={vi,vj};當(dāng)vi屬于已有社區(qū)Cx,且vj屬于另一已有社區(qū)Cz時,則不進行處理;
[0026]5)重復(fù)步驟4),得到復(fù)雜網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)。
[0027]步驟2)中L=N2,其中N為無向圖中節(jié)點的數(shù)量。
[0028]步驟2)中H大于或等于3,且H小于或等于10。
[0029]實施例一
[0030]I)通過用無向圖G來表示圖1所述表示的復(fù)雜網(wǎng)絡(luò);
[0031]2)參考圖2,其中ESS代表邊,在無向圖G的所有節(jié)點[1,2,3,4,5,6,7]中以等概率的可能性選擇一個節(jié)點作為隨機游走的起始點,其中每個點被選中的概率為I / 7,經(jīng)過隨機選擇獲得隨機游走的起始節(jié)點為1,遍歷節(jié)點序列VS=(I);以I為起始節(jié)點,在其鄰居節(jié)點[2,3,4]中等概率選擇目的節(jié)點,每個鄰居節(jié)點被選中的概率為I / 3,經(jīng)過隨機選擇后,目的節(jié)點為2,遍歷節(jié)點序列VS=(1,2);對于隨機游走的每一步,目的節(jié)點u都是從當(dāng)前節(jié)點V的鄰居節(jié)點中等概率隨機選擇的一個點,同時將目的節(jié)點加入遍歷節(jié)點序列中;當(dāng)隨機游走的步數(shù)達到49步的時候,則停止;設(shè)隨機游走得到的遍歷節(jié)點序列為(1,2,4,……,7,5,6),將隨機游走得到的遍歷節(jié)點序列(1,2,4,……,7,5,6)劃分為長度為3的子序列集((1,2,4),……,(7,5,6));
[0032]對每一個子序列集進行邊的統(tǒng)計,即對于子序列集中的所有節(jié)點,如果其中兩個節(jié)點之間在無向圖G中有邊存在,則對應(yīng)的邊的統(tǒng)計量加I;以子序列(1,2,4)為例,對于三個節(jié)點的兩兩組合,可以得到有邊e(l,2)、e(l,4)及e(2,4)在無向圖G中存在,則對應(yīng)的統(tǒng)計變量加I ;將所有子序列集處理完畢,根據(jù)統(tǒng)計量對邊進行排序,排序后為{(1,2),(2,3), (5,6), (3,4), (4,5), (5,7), (1,3), (6,7), (1,4), (2,4)};
[0033]3)選擇統(tǒng)計量最大的邊(1,2)所對應(yīng)的兩個節(jié)點I和節(jié)點2作為社區(qū)CO的初始節(jié)點,得 C0={1,2};
[0034]4)對第二條邊(2,3)對應(yīng)的兩個節(jié)點2及節(jié)點3,因為節(jié)點2屬于社區(qū)CO,同時,節(jié)點3不屬于其他社區(qū),那么將認為節(jié)點3屬于社區(qū)CO,此時C0={1,2,3};對第三條邊(5,
6)對應(yīng)的節(jié)點5及節(jié)點6,因為節(jié)點5和節(jié)點6均都不屬社區(qū)CO,則認為節(jié)點5和節(jié)點6屬于另外一個社區(qū),創(chuàng)建一個新的社區(qū)Cl,使得Cl={5,6};對第四條邊(3,4)對應(yīng)的節(jié)點3及節(jié)點4,因為節(jié)點3屬于社區(qū)CO,同時,節(jié)點4不屬于其他已有社區(qū),那么將認為4屬于社區(qū)CO,此時C0={1,2,3,4};對第五條邊(4,5)對應(yīng)節(jié)點4及節(jié)點5,因為節(jié)點4屬于社區(qū)CO,節(jié)點5屬于社區(qū)Cl,則不對第五條邊進行處理;對第六條邊(5,7)對應(yīng)的節(jié)點5及節(jié)點7,因為節(jié)點5屬于社區(qū)Cl,同時,節(jié)點7不屬于其他社區(qū),那么將認為節(jié)點7屬于社區(qū)Cl,此時Cl={5,6,7};繼續(xù)分析邊(1,3),(6,7), (1,4), (2,4),它們所對應(yīng)的節(jié)點已經(jīng)劃分好社區(qū),那么不再處理;
[0035]5)邊序列全部處 理完畢,得到兩個社區(qū),分別為CO= {1,2,3,4},Cl= {5,6,7}。
[0036]圖3為本發(fā)明所述方法對Zachary’ s karate club的處理結(jié)果,社區(qū)發(fā)現(xiàn)結(jié)果和現(xiàn)實中的社區(qū)情況是完全符合的。同時,圖中的邊的粗細代表兩個節(jié)點之間的關(guān)系緊密程度,與數(shù)據(jù)處理所得邊的數(shù)量的大小成正比,邊越粗,則代表兩個節(jié)點之間的聯(lián)系越緊密。
【權(quán)利要求】
1.一種基于隨機游走的社區(qū)發(fā)現(xiàn)方法,其特征在于,包括以下步驟: 1)根據(jù)包含成員與成員之間關(guān)系的復(fù)雜網(wǎng)絡(luò)構(gòu)成一個相連通的無向圖,其中,復(fù)雜網(wǎng)絡(luò)中的成員記作無向圖中的節(jié)點,成員與成員之間的關(guān)系記作無向圖的邊; 2)在無向圖中進行L步隨機游走,得遍歷節(jié)點序列,將遍歷節(jié)點序列劃分為若干的子序列,每個子序列中包括H個節(jié)點,對每個子序列進行邊的統(tǒng)計,當(dāng)子序列中存在邊時,則對相應(yīng)邊的統(tǒng)計量加I,然后對所有邊的統(tǒng)計量進行排序; 3)將統(tǒng)計量最大的邊(vg,vh)所對應(yīng)的節(jié)點vg及節(jié)點vh作為社區(qū)CO的初始節(jié)點,記作 CO={vg, vh}; 4)對于第M個邊(vi,vj),當(dāng)Vi屬于已有社區(qū)Cx,并且Vj不屬于其他已有社區(qū)時,則記作vj屬于社區(qū)Cx,并將vj添加到社區(qū)Cx中;當(dāng)vi和vj均不屬于任何已有社區(qū)時,則創(chuàng)建新的社區(qū)Cy,其中Cy={vi, vj};當(dāng)vi屬于已有社區(qū)Cx,且vj屬于另一已有社區(qū)Cz時,則不進行處理; 5)重復(fù)步驟4),得到復(fù)雜網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的基于隨機游走的社區(qū)發(fā)現(xiàn)方法,其特征在于,步驟2)中L=N2,其中N為無向圖中節(jié)點的數(shù)量。
3.根據(jù)權(quán)利要求1所述的基于隨機游走的社區(qū)發(fā)現(xiàn)方法,其特征在于,步驟2)中H大于或等于3,且H小于或等于10。
【文檔編號】G06F17/30GK103699617SQ201310694794
【公開日】2014年4月2日 申請日期:2013年12月16日 優(yōu)先權(quán)日:2013年12月16日
【發(fā)明者】周亞東, 劉曉明, 管曉宏, 胡成臣 申請人:西安交通大學(xué)