本發(fā)明涉及信息,尤其涉及一種用于事件傳播預(yù)測的弱社交網(wǎng)絡(luò)上的對(duì)比學(xué)習(xí)方法。
背景技術(shù):
1、現(xiàn)實(shí)世界的社交網(wǎng)絡(luò)構(gòu)成了錯(cuò)綜復(fù)雜的系統(tǒng),由于隱私保護(hù)和安全設(shè)置等因素的影響,可觀測的社交網(wǎng)絡(luò)數(shù)據(jù)普遍存在嚴(yán)重的弱信息問題。具體表現(xiàn)為網(wǎng)絡(luò)結(jié)構(gòu)不完整、任務(wù)標(biāo)簽稀疏以及用戶特征缺失等方面的不足。這些限制嚴(yán)重影響了對(duì)用戶行為和關(guān)系的準(zhǔn)確理解,進(jìn)而給事件傳播分析和預(yù)測帶來了巨大挑戰(zhàn)。因此,研究社交網(wǎng)絡(luò)的弱信息問題對(duì)于有效應(yīng)對(duì)這些挑戰(zhàn)具有重要的現(xiàn)實(shí)意義。
2、針對(duì)弱信息問題的特征,可以采用一系列方法來改善模型訓(xùn)練的效果。例如,可以設(shè)計(jì)對(duì)比學(xué)習(xí)等自監(jiān)督任務(wù),并結(jié)合數(shù)據(jù)增強(qiáng)技術(shù),實(shí)現(xiàn)對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)的完善和擴(kuò)充,增強(qiáng)模型對(duì)噪聲和不完整數(shù)據(jù)的魯棒性。此外,可以融合來自不同來源的社交網(wǎng)絡(luò)數(shù)據(jù),例如用戶行為數(shù)據(jù)和用戶資料等,這將有助于豐富用戶特征信息。通過這些方法改善數(shù)據(jù)質(zhì)量和豐富數(shù)據(jù)特征,能夠更準(zhǔn)確地理解和表達(dá)用戶行為,提高數(shù)據(jù)的可用性和可信度,從而提升事件傳播的預(yù)測性能。此外,解決弱信息問題還有助于加強(qiáng)數(shù)據(jù)隱私保護(hù),促進(jìn)社交網(wǎng)絡(luò)研究和應(yīng)用的可持續(xù)發(fā)展。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的就是為了彌補(bǔ)已有技術(shù)的缺陷,提供一種用于事件傳播預(yù)測的弱社交網(wǎng)絡(luò)多層次對(duì)比學(xué)習(xí)方法,本發(fā)明可以有效應(yīng)對(duì)弱社交網(wǎng)絡(luò)數(shù)據(jù)中存在的結(jié)構(gòu)不完整、標(biāo)簽稀疏和用戶特征缺失等問題,通過學(xué)習(xí)高質(zhì)量的用戶表示,有助于實(shí)現(xiàn)更準(zhǔn)確有效的事件傳播預(yù)測。
2、本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
3、一種用于事件傳播預(yù)測的弱社交網(wǎng)絡(luò)多層次對(duì)比學(xué)習(xí)方法,所述方法包括:
4、101:基于用戶關(guān)注與被關(guān)注關(guān)系和歷史交互行為對(duì)社交網(wǎng)絡(luò)g實(shí)現(xiàn)自適應(yīng)地結(jié)構(gòu)增強(qiáng);
5、102:設(shè)計(jì)多層次對(duì)比學(xué)習(xí)任務(wù)緩解標(biāo)簽稀疏和特征缺失的問題;
6、103:基于歸納式的圖編碼器學(xué)習(xí)用戶嵌入表示,并聯(lián)合訓(xùn)練多個(gè)自監(jiān)督任務(wù);
7、104:基于用戶嵌入矩陣hu對(duì)事件傳播過程中的用戶影響模式進(jìn)行建模,以實(shí)現(xiàn)事件傳播預(yù)測。
8、其中,步驟101所述的增強(qiáng)社交網(wǎng)絡(luò)g=(v,e),其中v和e分別表示g中用戶節(jié)點(diǎn)和用戶之間關(guān)聯(lián)的集合。具體來說,將用戶視為網(wǎng)絡(luò)中的節(jié)點(diǎn),用戶之間的相互影響、關(guān)聯(lián)或傳播視為網(wǎng)絡(luò)中的邊,對(duì)社交網(wǎng)絡(luò)的結(jié)構(gòu)增強(qiáng)如下所述:
9、(1)由于隱私與信息安全等問題,可觀測的社交網(wǎng)絡(luò)數(shù)據(jù)總是不完整的,而用戶之間的歷史交互行為能夠反映隱式的關(guān)聯(lián)。通過整合用戶之間的關(guān)注關(guān)系、被關(guān)注關(guān)系以及交互偏好關(guān)系,可以自適應(yīng)地增強(qiáng)社交網(wǎng)絡(luò)的結(jié)構(gòu):
10、
11、其中ar表示用戶之間特定關(guān)系的鄰接矩陣(即關(guān)注關(guān)系、被關(guān)注關(guān)系以及交互偏好關(guān)系的其中一種),βr是對(duì)應(yīng)關(guān)系的可學(xué)習(xí)權(quán)重。r表示用戶的關(guān)系集合,|r|表示用戶關(guān)系的種類數(shù)目,r表示其中的一種特定關(guān)系。
12、(2)為了對(duì)βr施加有效的約束,基于用戶之間的歷史交互頻率t能夠反映用戶關(guān)系的假設(shè),使用kl散度作為社交網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)的自監(jiān)督任務(wù):
13、
14、其中n是社交網(wǎng)絡(luò)中的用戶數(shù)目;是用戶ui與其他用戶的歷史交互頻率,表示用戶ui與其他用戶的鄰接關(guān)系;kl(·)表示計(jì)算kl散度。
15、其中,步驟102所述的針對(duì)事件傳播預(yù)測分析任務(wù)的標(biāo)簽稀疏以及用戶特征缺失問題,設(shè)計(jì)多層次對(duì)比學(xué)習(xí):
16、(1)為了應(yīng)對(duì)弱社交網(wǎng)絡(luò)數(shù)據(jù)存在的用戶標(biāo)簽稀疏問題,使用增強(qiáng)的社交網(wǎng)絡(luò)與原始社交網(wǎng)絡(luò)作為不同的視圖,設(shè)計(jì)用戶層次的對(duì)比學(xué)習(xí)任務(wù)如下:
17、
18、其中n是社交網(wǎng)絡(luò)上的所有用戶數(shù)目;f(a,b)=ecos(a,b)/τ,τ是溫度系數(shù);hi是增強(qiáng)社交網(wǎng)絡(luò)中的用戶嵌入表示,是原始社交網(wǎng)絡(luò)上的用戶嵌入表示。是其他的用戶j在原始社交網(wǎng)絡(luò)上的嵌入表示,j≠i;
19、(2)為了應(yīng)對(duì)弱社交網(wǎng)絡(luò)數(shù)據(jù)存在的任務(wù)標(biāo)簽稀疏問題,根據(jù)用戶之間的歷史交互頻率,為每個(gè)用戶劃分相似偏好用戶集合ksame(i)和不同偏好用戶集合kdiff(i),并進(jìn)一步設(shè)計(jì)偏好層次的對(duì)比學(xué)習(xí)任務(wù)如下:
20、pi=mean{hj:uj∈ksame(i)},
21、
22、其中mean(·)是平均聚合函數(shù);hi是增強(qiáng)社交網(wǎng)絡(luò)中的用戶嵌入表示,是原始社交網(wǎng)絡(luò)上的用戶嵌入表示;n是社交網(wǎng)絡(luò)上的所有用戶數(shù)目;f(a,b)=ecos(a,b)/τ,τ是溫度系數(shù)。pi、分別指用戶i基于原始社交網(wǎng)絡(luò)和增強(qiáng)社交網(wǎng)絡(luò)而得到的傳播偏好。
23、其中,步驟103所述的利用歸納式圖編碼器并通過多任務(wù)聯(lián)合訓(xùn)練,獲得增強(qiáng)用戶表示hu:
24、(1)為了適應(yīng)節(jié)點(diǎn)級(jí)的訓(xùn)練任務(wù),使用基于graphsage的歸納式圖編碼器,以獲得用戶的表示:
25、
26、其中是用戶vi的鄰居集合;是用戶vi在第t層圖編碼器的表示。最終將最后一層的用戶表示hu用于下游的事件傳播預(yù)測任務(wù)。是鄰居的聚合表示;aggregate()是鄰居聚合器,vi表示用戶i,vj表示用戶j,update()是用戶嵌入的更新函數(shù)。
27、(2)針對(duì)弱社交網(wǎng)絡(luò)數(shù)據(jù)存在的結(jié)構(gòu)不完整、標(biāo)簽稀疏和用戶特征缺失等問題,聯(lián)合多層次的自監(jiān)督學(xué)習(xí)任務(wù)對(duì)圖編碼器進(jìn)行訓(xùn)練:
28、
29、其中θ1是圖學(xué)習(xí)階段的全部可學(xué)習(xí)參數(shù)。
30、其中,步驟104所述的在用戶嵌入表示的基礎(chǔ)上,利用多頭自注意力機(jī)制(mha)學(xué)習(xí)事件傳播參與者的交互,進(jìn)而實(shí)現(xiàn)信息傳播預(yù)測:
31、(1)利用多頭自注意力機(jī)制(mha)學(xué)習(xí)事件傳播參與者的交互,以實(shí)現(xiàn)事件傳播的預(yù)測與分析:
32、qi=hkwiq,
33、
34、其中hk是參與者的表示;是可學(xué)習(xí)的權(quán)重矩陣;掩蔽矩陣將上三角設(shè)置為-∞避免信息泄露。多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)(ffn)在這里被應(yīng)用,最終得到事件傳播嵌入表示h。qi表示第i個(gè)注意力頭的查詢值;ki表示第i個(gè)注意力頭的鍵值;vi表示第i個(gè)注意力頭的數(shù)值;d表示嵌入表示的維度。
35、(2)基于事件傳播嵌入表示h,對(duì)事件傳播參與者之間的交互進(jìn)行建模,能夠?qū)崿F(xiàn)事件傳播的未來參與者預(yù)測:
36、
37、其中wp是映射矩陣,能夠?qū)⑹录鞑デ度氡硎緃映射到用戶特征空間。最終得到的事件未來參與者的概率分布上一步得到了事件傳播嵌入表示h。
38、(3)為了對(duì)模型進(jìn)行訓(xùn)練,使用有監(jiān)督的交叉熵?fù)p失對(duì)模型的所有參數(shù)進(jìn)行優(yōu)化,交叉熵?fù)p失函數(shù)表示如下:
39、
40、其中θ2定義事件傳播預(yù)測模型的全部可學(xué)習(xí)參數(shù);如果用戶ui在第j步參與事件傳播,那么yi,j=1,否則yi,j=0,ck表示一個(gè)特定事件的所有參與者的集合,v表示社交網(wǎng)絡(luò)的所有用戶,表示對(duì)于事件i的第j個(gè)參與者的預(yù)測結(jié)果,
41、yi,j表示事件i的第j個(gè)參與者的真實(shí)值,如果用戶ui是第j個(gè)參與事件傳播,那么yi,j=1,否則yi,j=0。
42、本發(fā)明的優(yōu)點(diǎn)是:1、本發(fā)明提出基于用戶社交關(guān)聯(lián)和歷史交互行為對(duì)不完整的社交網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行增強(qiáng),并且設(shè)計(jì)自監(jiān)督的學(xué)習(xí)任務(wù)實(shí)現(xiàn)有效的自適應(yīng)增強(qiáng),解決了弱社交網(wǎng)絡(luò)中的結(jié)構(gòu)不完整問題;
43、2、本發(fā)明提出面向事件傳播分析的用戶層次和偏好層次的對(duì)比學(xué)習(xí)方法,在任務(wù)標(biāo)簽稀疏和用戶特征缺失的情況下,仍然能夠有效學(xué)習(xí)用戶的嵌入表示,有效緩解了弱信息問題對(duì)圖學(xué)習(xí)的限制;
44、3、本發(fā)明提出對(duì)歸納式圖編碼器的自監(jiān)督任務(wù)聯(lián)合訓(xùn)練,通過融合用戶社交關(guān)聯(lián)和歷史交互行為對(duì)社交網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行增強(qiáng),有效改善數(shù)據(jù)質(zhì)量和豐富數(shù)據(jù)特征;在此基礎(chǔ)上,設(shè)計(jì)對(duì)比學(xué)習(xí)任務(wù),在無需人工標(biāo)簽和用戶特征的情況下,實(shí)現(xiàn)更加魯棒的圖學(xué)習(xí)并獲得高質(zhì)量的用戶嵌入表示,能夠有效提升事件傳播預(yù)測分析的性能。