本發(fā)明涉及信息檢索處理,特別是涉及一種屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法、裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)及程序。
背景技術(shù):
1、互聯(lián)網(wǎng)的普及、移動(dòng)終端設(shè)備和web2.0技術(shù)的迅猛發(fā)展,產(chǎn)生了大規(guī)模的論文引用網(wǎng)、客戶關(guān)系網(wǎng)、電子郵件網(wǎng)等各種各樣的復(fù)雜網(wǎng)絡(luò)。社區(qū)發(fā)現(xiàn)是復(fù)雜網(wǎng)絡(luò)分析中最重要的任務(wù)之一。
2、基于圖劃分、基于聚類、基于模塊度優(yōu)化、基于標(biāo)簽傳播和基于神經(jīng)網(wǎng)絡(luò)等經(jīng)典算法大多基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行社區(qū)發(fā)現(xiàn),然而現(xiàn)實(shí)世界中大多是附帶豐富節(jié)點(diǎn)屬性信息的復(fù)雜網(wǎng)絡(luò),網(wǎng)絡(luò)中屬性信息對(duì)社區(qū)劃分結(jié)果有不可忽視的作用。
3、現(xiàn)有的基于圖卷積網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)算法將網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)的屬性信息相結(jié)合,生成節(jié)點(diǎn)嵌入,進(jìn)而采用聚類方法識(shí)別網(wǎng)絡(luò)中社區(qū)結(jié)構(gòu),在處理復(fù)雜網(wǎng)絡(luò)分析上有較為可觀的效果。但是由于沒有充分考慮節(jié)點(diǎn)關(guān)鍵特征信息,對(duì)生成的節(jié)點(diǎn)嵌入表達(dá)沒有采用優(yōu)化方案,社區(qū)劃分質(zhì)量往往欠佳。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述現(xiàn)有技術(shù)的缺陷,本發(fā)明提供了一種基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,解決節(jié)點(diǎn)關(guān)鍵信息的表達(dá)問題,提高社區(qū)劃分質(zhì)量。
2、本發(fā)明的技術(shù)方案如下:
3、一種基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,包括以下步驟:
4、由深度神經(jīng)網(wǎng)絡(luò)編碼器對(duì)節(jié)點(diǎn)屬性信息的特征矩陣x進(jìn)行編碼并由深度神經(jīng)網(wǎng)絡(luò)解碼器解碼得到重構(gòu)特征矩陣
5、節(jié)點(diǎn)屬性信息的特征矩陣x和鄰接矩陣a輸入圖卷積網(wǎng)絡(luò)編碼器得到輸出矩陣z;
6、對(duì)輸出矩陣z進(jìn)行解碼得到重構(gòu)鄰接矩陣來監(jiān)督圖卷積自編碼的過程,以及對(duì)輸出矩陣z進(jìn)行自監(jiān)督訓(xùn)練直至收斂,得到最終的社區(qū)劃分;
7、其中,所述圖卷積網(wǎng)絡(luò)編碼器的每一層表達(dá)結(jié)果由圖卷積網(wǎng)絡(luò)編碼器自身的每層結(jié)構(gòu)表示與所述深度神經(jīng)網(wǎng)絡(luò)編碼器的每層特征表示加權(quán)求和得到,所述圖卷積網(wǎng)絡(luò)編碼器自身的每層結(jié)構(gòu)表示對(duì)特征矩陣通過并行多通道操作取不同的維度,上一層每個(gè)通道輸出定義為
8、
9、其中,σ是非線性激活函數(shù),i是單位矩陣,是的度矩陣,是權(quán)重矩陣,i為通道數(shù),通過拼接獲得上一層矩陣z0
10、z0=concat[z(0_i)]
11、本層的輸出矩陣z1為
12、
13、進(jìn)一步地,所述圖卷積網(wǎng)絡(luò)編碼器除最后一層的其余層中σ為relu函數(shù),最后一層中σ為softmax函數(shù)。
14、進(jìn)一步地,重構(gòu)鄰接矩陣
15、進(jìn)一步地,所述圖卷積網(wǎng)絡(luò)編碼器的每一層表達(dá)結(jié)果由圖卷積網(wǎng)絡(luò)編碼器自身的每層結(jié)構(gòu)表示與所述深度神經(jīng)網(wǎng)絡(luò)編碼器的每層特征表示加權(quán)求和得到具體為
16、
17、其中為圖卷積網(wǎng)絡(luò)編碼器的每一層表達(dá)結(jié)果,zl-1為圖卷積網(wǎng)絡(luò)編碼器自身的每層結(jié)構(gòu)表示,hl-1為深度神經(jīng)網(wǎng)絡(luò)編碼器的每層特征表示,θ為加權(quán)系數(shù)。
18、進(jìn)一步地,深度神經(jīng)網(wǎng)絡(luò)編碼器的每層特征表示hl-1為
19、
20、為深度神經(jīng)網(wǎng)絡(luò)編碼器l-1層的權(quán)重矩陣,為深度神經(jīng)網(wǎng)絡(luò)編碼器l-1層的偏差。
21、進(jìn)一步地,對(duì)所述深度神經(jīng)網(wǎng)絡(luò)解碼器解碼重構(gòu)過程進(jìn)行監(jiān)督的損失函數(shù)為
22、
23、n為節(jié)點(diǎn)數(shù)量,向量xi表示節(jié)點(diǎn)vi的特征表示。
24、進(jìn)一步地,衡量重構(gòu)鄰接矩陣與原有鄰接矩陣的交叉熵?fù)p失函數(shù),定義為
25、
26、進(jìn)一步地,圖卷積網(wǎng)絡(luò)編碼器得到輸出矩陣z借助目標(biāo)分布p進(jìn)行監(jiān)督,訓(xùn)練損失函數(shù)定義為
27、
28、目標(biāo)分布p=[pij],zij代表第i個(gè)節(jié)點(diǎn)歸屬于第j個(gè)社區(qū)的概率。
29、進(jìn)一步地,所述自監(jiān)督訓(xùn)練時(shí)目標(biāo)函數(shù)為
30、l=la+ls+αlm+βlp
31、α和β是平衡損失大小的超參數(shù),lp是深度神經(jīng)網(wǎng)絡(luò)編碼器和深度神經(jīng)網(wǎng)絡(luò)解碼器的聚類損失函數(shù)。
32、進(jìn)一步地,
33、
34、
35、
36、hi是第i個(gè)節(jié)點(diǎn)的嵌入向量,在訓(xùn)練前,對(duì)原始屬性信息利用k均值方法得到初始的節(jié)點(diǎn)中心向量μj,r是t-分布的自由度。
37、本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下優(yōu)點(diǎn):
38、充分利用圖神經(jīng)網(wǎng)絡(luò)端到端的學(xué)習(xí)優(yōu)勢(shì),利用編碼-解碼的思想,采用基本自編碼模塊(包括深度神經(jīng)網(wǎng)絡(luò)編碼器和深度神經(jīng)網(wǎng)絡(luò)解碼器)和圖自編碼模塊(圖卷積網(wǎng)絡(luò)編碼器及其解碼器)學(xué)習(xí)節(jié)點(diǎn)特征表達(dá)?;咀跃幋a模塊學(xué)習(xí)優(yōu)化節(jié)點(diǎn)屬性表達(dá);圖自編碼模塊將節(jié)點(diǎn)屬性信息與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)融合,并在圖自編碼模塊中設(shè)計(jì)并行多通道機(jī)制,增強(qiáng)節(jié)點(diǎn)關(guān)鍵信息特征表示,生成用于最終聚類的節(jié)點(diǎn)嵌入。深度神經(jīng)網(wǎng)絡(luò)得到的節(jié)點(diǎn)屬性信息結(jié)合到圖卷積網(wǎng)絡(luò)編碼器,解決圖卷積網(wǎng)絡(luò)中存在的過平滑問題。模型在最終的嵌入表達(dá)中引入自監(jiān)督機(jī)制,實(shí)現(xiàn)對(duì)嵌入表達(dá)的優(yōu)化,提高社區(qū)劃分質(zhì)量。
1.一種基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,所述圖卷積網(wǎng)絡(luò)編碼器除最后一層的其余層中σ為relu函數(shù),最后一層中σ為softmax函數(shù)。
3.根據(jù)權(quán)利要求1所述的基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,重構(gòu)鄰接矩陣
4.根據(jù)權(quán)利要求1所述的基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,所述圖卷積網(wǎng)絡(luò)編碼器的每一層表達(dá)結(jié)果由圖卷積網(wǎng)絡(luò)編碼器自身的每層結(jié)構(gòu)表示與所述深度神經(jīng)網(wǎng)絡(luò)編碼器的每層特征表示加權(quán)求和得到具體為
5.根據(jù)權(quán)利要求1所述的基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,深度神經(jīng)網(wǎng)絡(luò)編碼器的每層特征表示hl-1為
6.根據(jù)權(quán)利要求1所述的基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,對(duì)所述深度神經(jīng)網(wǎng)絡(luò)解碼器解碼重構(gòu)過程進(jìn)行監(jiān)督的損失函數(shù)為
7.根據(jù)權(quán)利要求6所述的基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,衡量重構(gòu)鄰接矩陣與原有鄰接矩陣的交叉熵?fù)p失函數(shù),定義為
8.根據(jù)權(quán)利要求7所述的基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,圖卷積網(wǎng)絡(luò)編碼器得到輸出矩陣z借助目標(biāo)分布p進(jìn)行監(jiān)督,訓(xùn)練損失函數(shù)定義為
9.根據(jù)權(quán)利要求8所述的基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,所述自監(jiān)督訓(xùn)練時(shí)目標(biāo)函數(shù)為
10.根據(jù)權(quán)利要求9所述的基于并行多通道機(jī)制的屬性網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,