本發(fā)明涉及數(shù)據(jù)挖掘,尤其涉及一種動(dòng)態(tài)網(wǎng)絡(luò)的社區(qū)演化模式挖掘系統(tǒng)及其挖掘方法。
背景技術(shù):
1、動(dòng)態(tài)網(wǎng)絡(luò)因其高度的靈活性而被廣泛用于描述現(xiàn)實(shí)世界中的復(fù)雜系統(tǒng),涵蓋社交網(wǎng)絡(luò)、生物網(wǎng)絡(luò)和通信網(wǎng)絡(luò)等眾多領(lǐng)域,成為復(fù)雜網(wǎng)絡(luò)學(xué)科的研究焦點(diǎn)。在動(dòng)態(tài)網(wǎng)絡(luò)中,節(jié)點(diǎn)之間的連接關(guān)系和拓?fù)浣Y(jié)構(gòu)會(huì)隨著時(shí)間推移不斷變化,這一復(fù)雜的動(dòng)態(tài)特性為研究動(dòng)態(tài)網(wǎng)絡(luò)的結(jié)構(gòu)演化過程提出巨大挑戰(zhàn)。其中,社區(qū)作為網(wǎng)絡(luò)節(jié)點(diǎn)間形成的緊密群體關(guān)系,其結(jié)構(gòu)能夠在不穩(wěn)定的動(dòng)態(tài)網(wǎng)絡(luò)演化過程中保持相對穩(wěn)定。研究社區(qū)的演化行為有助于更好地理解網(wǎng)絡(luò)組成的結(jié)構(gòu)特點(diǎn),對理解動(dòng)態(tài)網(wǎng)絡(luò)演化過程具有至關(guān)重要的作用。
2、學(xué)生社交網(wǎng)絡(luò)社區(qū)演化事件結(jié)構(gòu)復(fù)雜并且包含時(shí)序特性,這增加了跟蹤社區(qū)演化路徑的難度,導(dǎo)致捕獲完整社區(qū)演化路徑具有一定的挑戰(zhàn)性。
3、現(xiàn)有方法存在兩個(gè)主要問題:一是社區(qū)演化關(guān)系具有時(shí)變性并且路徑之間相互重疊,導(dǎo)致演化路徑的識(shí)別難度極高;二是社區(qū)演化路徑的復(fù)雜性導(dǎo)致演化模式難以總結(jié)。這些問題給動(dòng)態(tài)網(wǎng)絡(luò)社區(qū)演化結(jié)構(gòu)的識(shí)別和演化模式的分析提出了挑戰(zhàn)。因此,如何總結(jié)和探索學(xué)生社交網(wǎng)絡(luò)社區(qū)演化路徑,幫助研究人員理解學(xué)生社交網(wǎng)絡(luò)社區(qū)演化中的結(jié)構(gòu)特征和演化模式,已成為亟待解決的問題。
4、因此,需要一種動(dòng)態(tài)網(wǎng)絡(luò)的社區(qū)演化模式挖掘系統(tǒng)及其挖掘方法來解決上述技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供的一種動(dòng)態(tài)網(wǎng)絡(luò)的社區(qū)演化模式挖掘系統(tǒng),包括數(shù)據(jù)預(yù)處理單元、社區(qū)演化網(wǎng)絡(luò)構(gòu)建單元、演化結(jié)構(gòu)感知單元和演化模式挖掘單元;
2、所述數(shù)據(jù)預(yù)處理單元包括:動(dòng)態(tài)網(wǎng)絡(luò)建模模塊、時(shí)間窗口劃分模塊和社區(qū)挖掘模塊;其中,所述動(dòng)態(tài)網(wǎng)絡(luò)建模模塊將待處理數(shù)據(jù)建模為動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù);其中,所述的待處理數(shù)據(jù)為學(xué)生社交網(wǎng)絡(luò)數(shù)據(jù)集,所述的學(xué)生社交網(wǎng)絡(luò)數(shù)據(jù)集為基于可穿戴傳感器的個(gè)體之間的面對面接觸事件的集合;
3、所述時(shí)間窗口劃分模塊將動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)按時(shí)間片處理策略,劃分成若干個(gè)時(shí)間片上的靜態(tài)網(wǎng)絡(luò)快照;其中所述的時(shí)間片處理策略為將網(wǎng)絡(luò)按時(shí)間分成多個(gè)靜態(tài)的快照,然后將這些快照視為不同的網(wǎng)絡(luò)進(jìn)行分析;
4、所述社區(qū)挖掘模塊對每個(gè)時(shí)間切片上的靜態(tài)網(wǎng)絡(luò)快照,使用社區(qū)挖掘算法louvain進(jìn)行社區(qū)發(fā)現(xiàn)和提取,得到靜態(tài)網(wǎng)絡(luò)快照中的若干社區(qū);
5、所述社區(qū)演化網(wǎng)絡(luò)構(gòu)建單元包括:社區(qū)相似度計(jì)算模塊、社區(qū)匹配模塊和演化網(wǎng)絡(luò)構(gòu)建模塊;
6、其中,所述社區(qū)相似度計(jì)算模塊用于計(jì)算相鄰時(shí)間片上每兩個(gè)社區(qū)之間的相似度,所述社區(qū)匹配模塊基于ged方法識(shí)別相鄰時(shí)間片的所有社區(qū)之間的演化事件;
7、所述演化網(wǎng)絡(luò)構(gòu)建模塊將各社區(qū)視為節(jié)點(diǎn),在存在演化事件的社區(qū)之間構(gòu)建連邊,演化時(shí)間進(jìn)程作為邊的方向,生成社區(qū)演化網(wǎng)絡(luò);
8、所述演化結(jié)構(gòu)感知單元用于提取元社區(qū)結(jié)構(gòu);
9、所述演化模式挖掘單元包括演化事件序列構(gòu)建模塊和演化序列頻繁模式挖掘模塊;其中,所述演化事件序列構(gòu)建模塊從元社區(qū)結(jié)構(gòu)中提取演化事件序列;
10、所述演化序列頻繁模式挖掘模塊采用頻繁模式挖掘方法處理演化事件序列,從而識(shí)別出學(xué)生社交網(wǎng)絡(luò)社區(qū)演化模式。
11、優(yōu)選的,所述動(dòng)態(tài)網(wǎng)絡(luò)建模模塊將待處理數(shù)據(jù)建模為動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù),包括:
12、所述動(dòng)態(tài)網(wǎng)絡(luò)建模模塊將一個(gè)動(dòng)態(tài)網(wǎng)絡(luò)g=(g0,g1...,,gn)定義為n個(gè)圖序列;將圖構(gòu)建為一個(gè)有向加權(quán)圖:
13、gt=(vt,et,ti);
14、其中,加權(quán)圖gt由一組頂點(diǎn)vt和一組邊組成,ti表示第i個(gè)時(shí)間步長;每條邊ej∈et表示一個(gè)由兩個(gè)頂點(diǎn)組成的元組,每條邊都被分配一個(gè)權(quán)重頂點(diǎn)數(shù)|vt|為隨著時(shí)間的推移而變化的量,v表示包含在任意vt中所有頂點(diǎn)v的全局頂點(diǎn)的集合。
15、優(yōu)選的,所述的使用社區(qū)挖掘算法louvain進(jìn)行社區(qū)發(fā)現(xiàn)和提取,得到靜態(tài)網(wǎng)絡(luò)快照中的若干社區(qū),包括:
16、社區(qū)挖掘算法louvain通過優(yōu)化局部模塊度q實(shí)現(xiàn)全局最優(yōu)解,其中:
17、
18、式中,m表示圖中所有邊的權(quán)重之和;aij表示節(jié)點(diǎn)i和j之間的鄰接矩陣值,當(dāng)兩個(gè)節(jié)點(diǎn)直接相連時(shí)aij=1,否則aij=0;ki表示節(jié)點(diǎn)i的度,即社區(qū)內(nèi)部所有與該節(jié)點(diǎn)相連接的邊的權(quán)重值的和;ci與cj分別表示節(jié)點(diǎn)i和節(jié)點(diǎn)j在圖中所在的社區(qū);δ(ci,cj)則表示若節(jié)點(diǎn)i被分配到的社區(qū)與節(jié)點(diǎn)j分配的社區(qū)相同,其δ的取值為1,否則δ取值設(shè)為0。
19、優(yōu)選的,所述的社區(qū)匹配模塊基于ged方法識(shí)別相鄰時(shí)間片的所有社區(qū)之間的演化事件,包括:
20、社區(qū)匹配模塊的ged方法以包含度i(c1,c2)為基礎(chǔ)對社區(qū)演化事件進(jìn)行判定,用于評估一個(gè)社區(qū)是否包含在另一個(gè)社區(qū)中;其中,設(shè)c1和c2為兩個(gè)社區(qū)結(jié)構(gòu)形成的相應(yīng)網(wǎng)絡(luò)快照g的子圖,則社區(qū)子圖c1的包含度i(c1,c2)計(jì)算公式如下所示:
21、
22、式中,第一項(xiàng)表示包含度的數(shù)量部分,第二項(xiàng)是包含度的質(zhì)量部分;是社區(qū)子圖c1中頂點(diǎn)x的社會(huì)地位,表示頂點(diǎn)x在社區(qū)子圖c1中的社會(huì)地位。
23、優(yōu)選的,所述頂點(diǎn)x在社區(qū)子圖c1中的社會(huì)地位能通過以下公式迭代得到:
24、
25、式中,spn和spn+1分別表示成員x在n次和第n+1次迭代之后的社會(huì)地位;ε表示范圍為0到1之間的一個(gè)固定系數(shù);對sp0(x)=1;c表示點(diǎn)y與x關(guān)系強(qiáng)度的映射函數(shù),即節(jié)點(diǎn)y到節(jié)點(diǎn)x之間的邊的權(quán)重。
26、優(yōu)選的,演化結(jié)構(gòu)感知單元用于提取元社區(qū)結(jié)構(gòu),包括:
27、演化結(jié)構(gòu)感知單元運(yùn)用infomap聚類算法進(jìn)行細(xì)粒度劃分,從而形成演化元社區(qū);其中,所述infomap聚類算法具體步驟如下:
28、隨機(jī)游走步驟:infomap聚類算法從網(wǎng)絡(luò)中的任一節(jié)點(diǎn)出發(fā),根據(jù)概率模型選擇下一個(gè)節(jié)點(diǎn)進(jìn)行跳轉(zhuǎn);
29、構(gòu)建huffman編碼步驟:根據(jù)隨機(jī)游走的概率模型,為每個(gè)節(jié)點(diǎn)構(gòu)建huffman編碼;其中,節(jié)點(diǎn)的huffman編碼長度與節(jié)點(diǎn)在隨機(jī)游走過程中的訪問頻率相關(guān);
30、層次編碼步驟:將節(jié)點(diǎn)進(jìn)行huffman編碼層次化處理,以實(shí)現(xiàn)最小化平均編碼長度目標(biāo);
31、選取最優(yōu)社區(qū)劃分步驟:通過結(jié)合最小化平均編碼長度結(jié)果,選取最優(yōu)的社區(qū)劃分作為infomap聚類算法的最終結(jié)果。
32、優(yōu)選的,所述演化序列頻繁模式挖掘模塊采用頻繁模式挖掘方法處理演化事件序列,從而識(shí)別出學(xué)生社交網(wǎng)絡(luò)社區(qū)演化模式,包括:
33、演化序列頻繁模式挖掘模塊采用基于preiixspan算法的頻繁模式挖掘方法提取學(xué)生社交網(wǎng)絡(luò)社區(qū)演化模式。
34、一種動(dòng)態(tài)網(wǎng)絡(luò)的社區(qū)演化模式挖掘方法,應(yīng)用所述的一種動(dòng)態(tài)網(wǎng)絡(luò)的社區(qū)演化模式挖掘系統(tǒng),包括:
35、步驟1:通過動(dòng)態(tài)網(wǎng)絡(luò)建模模塊將學(xué)生社交網(wǎng)絡(luò)數(shù)據(jù)集按照動(dòng)態(tài)網(wǎng)絡(luò)定義建模為動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù);
36、步驟2:時(shí)間窗口劃分模塊將動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)按時(shí)間片處理策略,劃分成若干個(gè)時(shí)間片上的靜態(tài)網(wǎng)絡(luò)快照;
37、步驟3:社區(qū)挖掘模塊對每個(gè)時(shí)間切片上的靜態(tài)網(wǎng)絡(luò)快照,使用社區(qū)挖掘算法louvain進(jìn)行社區(qū)發(fā)現(xiàn)和提取,從而得到靜態(tài)網(wǎng)絡(luò)快照中的若干社區(qū);
38、步驟4:通過社區(qū)相似度計(jì)算模塊計(jì)算相鄰時(shí)間片上每兩個(gè)社區(qū)之間的相似度,為下一步判定演化事件提供依據(jù);
39、步驟5:通過社區(qū)匹配模塊使用基于ged方法識(shí)別相鄰時(shí)間片的所有社區(qū)之間的演化事件;
40、步驟6:通過演化網(wǎng)絡(luò)構(gòu)建模塊將各社區(qū)視為節(jié)點(diǎn),在存在演化事件的社區(qū)之間構(gòu)建連邊,演化時(shí)間進(jìn)程作為邊的方向,由此生成具備社區(qū)演化關(guān)系的有向圖結(jié)構(gòu),即社區(qū)演化網(wǎng)絡(luò)構(gòu)建;
41、步驟7:通過演化結(jié)構(gòu)感知單元基于元社區(qū)運(yùn)用infomap聚類算法對構(gòu)建的社區(qū)演化網(wǎng)絡(luò)進(jìn)行社區(qū)發(fā)現(xiàn)以實(shí)現(xiàn)細(xì)粒度劃分,從而得到社區(qū)演化的元社區(qū)結(jié)構(gòu);
42、步驟8:通過演化事件序列構(gòu)建模塊對每個(gè)元社區(qū)內(nèi)的各演化路徑進(jìn)行簡化處理,從元社區(qū)結(jié)構(gòu)中提取演化事件序列;
43、步驟9:通過演化序列頻繁模式挖掘模塊對演化事件序列使用prefixspan頻繁模式挖掘算法提取學(xué)生社交網(wǎng)絡(luò)社區(qū)演化模式。
44、與相關(guān)技術(shù)相比較,本發(fā)明提供的一種動(dòng)態(tài)網(wǎng)絡(luò)的社區(qū)演化模式挖掘系統(tǒng)及其挖掘方法具有如下有益效果:
45、本發(fā)明基于學(xué)生社交網(wǎng)絡(luò)社區(qū)劃分結(jié)果和社區(qū)演化匹配方法構(gòu)建社區(qū)演化網(wǎng)絡(luò),以此為基礎(chǔ)提出元社區(qū)概念,給出了具有強(qiáng)演化關(guān)系的演化簇識(shí)別方法,用于表征復(fù)雜的學(xué)生社交網(wǎng)絡(luò)社區(qū)演化路徑。最后,通過從元社區(qū)和事件序列視角建模和揭示學(xué)生社交網(wǎng)絡(luò)社區(qū)演化特征,進(jìn)而提取學(xué)生社交網(wǎng)絡(luò)社區(qū)演化模式。