本發(fā)明涉及一種基于多因素的跨平臺傳播模型構建方法,屬于社交網(wǎng)絡信息傳播仿真。
背景技術:
1、互聯(lián)網(wǎng)的快速發(fā)展,使在線社交網(wǎng)絡成為人們日常生活的重要組成部分。海量的信息借助在線社交網(wǎng)絡進行廣泛傳播。理解網(wǎng)絡上的信息傳播規(guī)律,對各種實際應用以及互聯(lián)網(wǎng)環(huán)境的信息治理具有重要意義。如何對社交網(wǎng)絡的信息傳播規(guī)律進行研究,一直面臨巨大的挑戰(zhàn),受到廣泛關注。
2、近年來在線社交網(wǎng)絡為滿足人們的使用需求,也趨向于多樣化,互聯(lián)網(wǎng)上涌現(xiàn)出服務各異的社交網(wǎng)絡。相關調查表明,社交網(wǎng)絡之間存在大量的信息傳播現(xiàn)象。基于多社交網(wǎng)絡對用戶的信息傳播行為進行研究,能夠更加深入分析用戶參與信息擴散的行為邏輯,挖掘用戶使用不同社交網(wǎng)絡平臺的潛在動機。然而,當前針對多社交網(wǎng)絡場景的信息傳播研究還比較少。信息在多社交網(wǎng)絡之間傳播相比單一社交網(wǎng)絡具有方向性特點和偏好性特點。方向性特點是信息傳播方向維度的擴展,在多社交網(wǎng)絡場景,信息可以從源網(wǎng)絡向目標網(wǎng)絡擴散。偏好性則是信息在多社交網(wǎng)絡場景會依據(jù)不同社交網(wǎng)絡平臺的主題內容特征,可能傾向于向某些網(wǎng)絡傳播。本專利的研究內容將圍繞信息融合的理念,立足于在各社交網(wǎng)絡的信息融合之上對特征維度的擴展,把社交網(wǎng)絡環(huán)境本身當做特征維度進行建模。
3、在社會計算領域,想要對社會輿論的發(fā)展進行研究,對線上信息的傳播進行分析預測,首先需要對社交網(wǎng)絡中的個體用戶進行畫像,從海量用戶數(shù)據(jù)中提取特征,并以此為基礎,構建用戶之間的聯(lián)系與交互,從而實現(xiàn)從點到線再到面的社交網(wǎng)絡拓撲構建。以網(wǎng)絡拓撲為基礎,盡可能的貼近現(xiàn)實世界的傳播過程,并以此為基礎進行傳播動力學的研究,對于線上網(wǎng)絡的輿情分析與行為識別都有著十分重要的現(xiàn)實意義,是社會治理領域的重要研究方向。
4、對于傳統(tǒng)的傳播模型,如傳染病模型,線性閾值模型,獨立級聯(lián)模型等,這些模型可以很好地建模信息在社交網(wǎng)絡中的擴散現(xiàn)象,并且簡單易用,但是難以進一步地解釋引起信息傳播的原因,也無法結合更加貼合實際的跨平臺傳播,對于用戶本身與用戶之間的交互特征也缺少有效的考量,難以針對社交媒體的平臺差異化以及與線上傳播密切交互的外部線下因素進行針對性的調整,對于現(xiàn)實世界的信息傳播仿真不夠充分,難以支撐后續(xù)對于輿論引導,信息抑制等社會計算領域的進一步研究,所以有必要設計出一種新的傳播建模方法來滿足實際的仿真需求。
技術實現(xiàn)思路
1、本發(fā)明的目的是針對上述不足之處提供一種基于多因素的跨平臺傳播模型構建方法,融合多項社會計算以及人工智能技術,得到一種系統(tǒng)的方法,解決了目前對于信息驅動的多社交網(wǎng)絡進行建模的任務中存在的難題。
2、本發(fā)明的主要過程包括用戶的發(fā)文生成建模,個人偏好因素建模,社交關系因素建模,平臺環(huán)境因素建模,外部影響因素建模,信息傳播級聯(lián)聯(lián)合密度函數(shù),用戶的社交網(wǎng)絡選擇建模以及構建信息傳播級聯(lián)模型。
3、首先對社交網(wǎng)絡平臺收集到的數(shù)據(jù)進行清洗,主要采集包含用戶靜態(tài)屬性的各類數(shù)據(jù),包括昵稱,地址,介紹,粉絲數(shù)等;用戶的發(fā)文歷史,包括自我發(fā)文以及轉發(fā)推文;用戶間的交互數(shù)據(jù),包括推文轉發(fā)數(shù)據(jù)。然后通過已有數(shù)據(jù)分別對個人偏好因素,社交關系因素,平臺環(huán)境因素以及外部影響因素進行建模,結合多因素構建用戶的社交網(wǎng)絡選擇模型,并以此為基礎實現(xiàn)跨平臺傳播模型。
4、為了實現(xiàn)上述目的,本發(fā)明的技術方案如下:一種基于多因素的跨平臺傳播模型構建方法,所述方法如下:
5、s1、采取清洗,整合,標注的方式對模型訓練,對計算所需的數(shù)據(jù)進行預處理;
6、s2、根據(jù)已有數(shù)據(jù)構建跨平臺傳輸網(wǎng)絡的原始拓撲;
7、s3、分別針對用戶的個人偏好因素,社交關系因素,平臺環(huán)境因素以及外部影響因素進行建模;
8、s4、依托多因素建模結構訓練發(fā)文預測模型(即社交平臺選擇模型),對社交網(wǎng)絡中的信息傳遞進行預測;
9、s5、結合兩階段跨域傳播算法構建多社交網(wǎng)絡的傳播網(wǎng)絡;
10、s6、依托多因素傳播模型對于信息在多平臺的傳播過程進行仿真。
11、步驟s1的具體數(shù)據(jù)處理過程,包括如下步驟:
12、s1-1、從源平臺網(wǎng)絡根節(jié)點開始,根據(jù)交互數(shù)據(jù)(轉發(fā),點贊)擴充網(wǎng)絡拓撲的用戶id;
13、s1-2、從源平臺的重疊用戶出發(fā),根據(jù)該用戶在目標社交網(wǎng)絡平臺的跨域賬號,根據(jù)交互數(shù)據(jù)(轉發(fā),點贊)擴充網(wǎng)絡拓撲的用戶id;
14、s1-3、根據(jù)收集到的用戶id,爬取用戶在對應平臺的靜態(tài)屬性,包括screen_name,location,description,friends_count;
15、s1-4、根據(jù)收集到的用戶id,爬取用戶在對應平臺的詳細推文數(shù)據(jù);
16、s1-5、爬取用戶交互數(shù)據(jù),包括用戶之間通過轉發(fā)推文以及點贊所產生的交互連邊;
17、s1-6、清洗以上數(shù)據(jù),整理成便于調用的數(shù)據(jù)集。
18、步驟s2的構建網(wǎng)絡原始拓撲,包括如下步驟:
19、s2-1、根據(jù)爬取到的網(wǎng)絡連邊,從根節(jié)點出發(fā),向上加入影響根節(jié)點的一跳節(jié)點;
20、s2-2、從根節(jié)點出發(fā),向下加入被根節(jié)點影響的一跳節(jié)點;
21、s2-3、從一條節(jié)點出發(fā),繼續(xù)加入被一跳節(jié)點影響的二跳節(jié)點;
22、s2-4、連接跨平臺的重疊用戶對,并加入其他潛在的跨域用戶。
23、步驟s3分別針對用戶的個人偏好因素,社交關系因素,平臺環(huán)境因素以及外部影響因素進行建模,包含以下步驟:
24、s3-1、使用bert模型計算待激活用戶的歷史發(fā)文數(shù)據(jù)與傳播推文的相似度;
25、s3-2、使用bert模型計算待激活用戶的靜態(tài)屬性與傳播推文的用戶的靜態(tài)屬性之間的相似度,包括昵稱,地址,介紹,粉絲數(shù)等;
26、s3-3、統(tǒng)計網(wǎng)絡拓撲中節(jié)點的出度以及入度,作為易感性和影響力計算節(jié)點的激活閾值;
27、s3-4、計算社交網(wǎng)絡平臺主體熱度事件與原始發(fā)文的相似度;
28、s3-5、計算平臺活躍用戶群體與待激活節(jié)點的相似度。
29、步驟s4依托多因素建模結構訓練發(fā)文預測模型(即社交平臺選擇模型),包含以下步驟:
30、s4-1、通過網(wǎng)絡拓撲的連邊數(shù)據(jù),篩選出10000條產生過交互的用戶對作為訓練集的正例;
31、s4-2、篩選出10000條未產生過交互的用戶對作為訓練集的反例,單一用戶作為出度限制在50條以下;
32、s4-3、通過bert計算作為訓練集的用戶對的推文列表相似度(至少五條推文);
33、s4-4、通過bert計算作為訓練集的用戶對的靜態(tài)屬性相似度(昵稱,用戶名,地址,粉絲數(shù));
34、s4-5、使用lgb模型(決策樹模型的一種)基于訓練集進行訓練;
35、s4-6、對模型進行調參,提高在驗證集上的準確率。
36、對于s5結合兩階段跨域傳播算法構建多社交網(wǎng)絡的傳播網(wǎng)絡的具體操作,包含以下步驟:
37、s5-1、處理重疊用戶對;
38、s5-2、處理跨域用戶生成候選列表。
39、步驟s5-1的具體操作,包含以下步驟:
40、s5-1-1、根據(jù)從源社交網(wǎng)絡用戶賬號昵稱到目標社交網(wǎng)絡用戶賬號昵稱之間的映射,構建用戶對;
41、s5-1-2、根據(jù)用戶對構建從源平臺到目標平臺的id映射字典。
42、步驟s5-2的具體操作,包含以下步驟:
43、s5-2-1、對于非重疊用戶的跨域用戶在對應平臺的潛在重疊賬號生成候選列表;
44、s5-2-2、計算跨域用戶與潛在賬號間的相似度;
45、s5-2-3、根據(jù)相似度對候選列表進行概率歸一化。
46、步驟s6的依托多因素傳播模型對于信息在多平臺的傳播過程進行仿真,包含以下步驟:
47、s6-1、根據(jù)特定算法選擇初始節(jié)點;
48、s6-2、將初始節(jié)點作為激活節(jié)點,開始傳播;
49、s6-2、得到最終的傳播結果,保存到文件中。
50、步驟s6-2的具體操作,包含以下步驟:
51、s6-2-1、將初始節(jié)點加入待激活序列;
52、s6-2-2、依次遍歷待激活序列,嘗試對下一跳節(jié)點進行激活,被激活成功的節(jié)點加入下一輪的待激活節(jié)點列表;
53、s6-2-3、依次便利直至收斂,最后一輪沒有新的待激活節(jié)點產生,傳播仿真結束。
54、對于步驟s6-2-2的具體操作,包含以下步驟:
55、s6-2-2-1:判斷該節(jié)點是否為重疊用戶,若是,則直接激活目標平臺的賬號;
56、s6-2-2-2:判斷該節(jié)點是否為跨域用戶,若是,則生成[0,1]的隨機數(shù),根據(jù)隨機數(shù)所在的候選列表區(qū)別選擇目標平臺的賬號作為原始賬號的重疊用戶對,直接激活;
57、s6-2-2-3:遍歷鄰居節(jié)點,根據(jù)發(fā)文預測模型生成激活概率,若激活概率大于激活閾值,則視為激活目標節(jié)點,否則本次激活失敗。
58、有益效果:通過本發(fā)明可以對多社交網(wǎng)絡背景下的信息傳播進行仿真,同時進一步支持跨域傳播控制策略的具體實施與效果驗證。對于復雜網(wǎng)絡和社會計算領域的研究,本發(fā)明在大規(guī)??缬驁鼍爸械膽们熬耙卜浅V泛,它可以整合不同平臺和不同類型的數(shù)據(jù),實現(xiàn)更高效穩(wěn)定的信息傳播仿真。相比起現(xiàn)有的技術方案,跨社交媒體的傳播網(wǎng)絡更加貼近實際;同時,引入了包括用戶個體因素以及平臺因素在內的多維因素,顯著的提高了傳播模型的有效性與可靠性,在數(shù)據(jù)受限的情況下也能夠支撐傳播仿真的進行,同時也提高了模型的可解釋性。對于該技術在現(xiàn)實場景中的應用,例如,在社交媒體平臺,該模型可以集成多平臺數(shù)據(jù),提供統(tǒng)一的信息流體驗和個性化的推薦;在電子商務領域,它能夠支持多渠道營銷和優(yōu)化供應鏈管理;在新聞傳播領域,該模型有助于內容分發(fā)、虛假信息檢測和定制化內容推送等;對于輿情控制,該模型能夠對熱點信息在社交網(wǎng)絡上的傳播路徑進行預測,對計劃實施的控制及引導策略進行預期驗證,反饋結果以支撐下一步投放。