本技術涉及網(wǎng)絡安全,具體地,涉及一種基于語義分析驅動模型的開源情報關聯(lián)性識別方法及系統(tǒng)。
背景技術:
1、隨著互聯(lián)網(wǎng)的快速發(fā)展和普及,網(wǎng)絡空間中的信息量呈爆炸式增長,特別是在網(wǎng)絡安全領域,各種網(wǎng)絡安全事件、漏洞報告、用戶討論等信息海量涌現(xiàn)。對于企業(yè)來說,及時、準確地從這些開源情報中發(fā)現(xiàn)與自身相關的安全威脅,對于網(wǎng)絡安全防護和應急響應至關重要。
2、然而,由于信息的多樣性、異構性和海量性,傳統(tǒng)的基于關鍵詞搜索或規(guī)則匹配的關聯(lián)情報識別方法由于缺乏對網(wǎng)絡數(shù)據(jù)深層語義信息的理解和利用,往往難以有效地識別出不同信息之間的潛在關聯(lián)性,可能會導致誤報和遺漏。
3、因此,期待一種基于語義分析驅動模型的開源情報關聯(lián)性識別方法。
技術實現(xiàn)思路
1、提供該
技術實現(xiàn)要素:
部分以便以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。該發(fā)明內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
2、第一方面,本技術提供了一種基于語義分析驅動模型的開源情報關聯(lián)性識別方法,所述方法包括:
3、獲取網(wǎng)絡安全報告,以及第一論壇討論帖子;
4、對所述網(wǎng)絡安全報告和所述第一論壇討論帖子分別進行基于詞粒度的語義編碼以得到網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列和第一論壇討論帖子詞粒度語義編碼特征向量的序列;
5、將所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列和所述第一論壇討論帖子詞粒度語義編碼特征向量的序列分別輸入基于序列內生相關性語義度量的特征關聯(lián)優(yōu)化網(wǎng)絡以得到網(wǎng)絡安全報告詞粒度強化語義編碼特征向量的序列和第一論壇討論帖子詞粒度強化語義編碼特征向量的序列;
6、將所述網(wǎng)絡安全報告詞粒度強化語義編碼特征向量的序列和所述第一論壇討論帖子詞粒度強化語義編碼特征向量的序列輸入局部細粒度序列交互響應聚合網(wǎng)絡以得到網(wǎng)絡安全報告-論壇帖子細粒度語義交互全局表示向量;
7、基于所述網(wǎng)絡安全報告-論壇帖子細粒度語義交互全局表示向量,確定是否將所述第一論壇討論帖子視為所述網(wǎng)絡安全報告的關聯(lián)情報。
8、可選地,對所述網(wǎng)絡安全報告和所述第一論壇討論帖子分別進行基于詞粒度的語義編碼以得到網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列和第一論壇討論帖子詞粒度語義編碼特征向量的序列,包括:提取所述網(wǎng)絡安全報告中的文本部分以得到網(wǎng)絡安全報告文本描述;對所述網(wǎng)絡安全報告文本描述進行分詞處理后通過包含bert模型的語義編碼器以得到所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列;對所述第一論壇討論帖子進行分詞處理后通過所述包含bert模型的語義編碼器以得到所述第一論壇討論帖子詞粒度語義編碼特征向量的序列。
9、可選地,將所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列和所述第一論壇討論帖子詞粒度語義編碼特征向量的序列分別輸入基于序列內生相關性語義度量的特征關聯(lián)優(yōu)化網(wǎng)絡以得到網(wǎng)絡安全報告詞粒度強化語義編碼特征向量的序列和第一論壇討論帖子詞粒度強化語義編碼特征向量的序列,包括:計算所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列中任意兩個網(wǎng)絡安全報告詞粒度語義編碼特征向量之間的語義關聯(lián)得分向量以得到語義關聯(lián)得分向量的集合;計算所述語義關聯(lián)得分向量的集合的均值向量以得到序列內生相關性全局表示向量;基于所述序列內生相關性全局表示向量,計算所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列中的各個網(wǎng)絡安全報告詞粒度語義編碼特征向量的關聯(lián)優(yōu)化因子以得到關聯(lián)優(yōu)化因子的序列;將所述關聯(lián)優(yōu)化因子的序列輸入softmax激活函數(shù)以得到關聯(lián)優(yōu)化權重因子的序列;以所述關聯(lián)優(yōu)化權重因子的序列中的各個關聯(lián)優(yōu)化權重因子作為權重,分別對所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列中的各個網(wǎng)絡安全報告詞粒度語義編碼特征向量進行加權以得到所述網(wǎng)絡安全報告詞粒度強化語義編碼特征向量的序列。
10、可選地,計算所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列中任意兩個網(wǎng)絡安全報告詞粒度語義編碼特征向量之間的語義關聯(lián)得分向量以得到語義關聯(lián)得分向量的集合,包括:將所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列中任意兩個網(wǎng)絡安全報告詞粒度語義編碼特征向量進行級聯(lián)后乘以第一權重系數(shù)矩陣,再和第一偏置向量進行點加以得到所述語義關聯(lián)得分向量。
11、可選地,基于所述序列內生相關性全局表示向量,計算所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列中的各個網(wǎng)絡安全報告詞粒度語義編碼特征向量的關聯(lián)優(yōu)化因子以得到關聯(lián)優(yōu)化因子的序列,包括:將所述網(wǎng)絡安全報告詞粒度語義編碼特征向量和所述序列內生相關性全局表示向量分別乘以不同的權重系數(shù)向量后進行加法運算以得到語義關聯(lián)系數(shù);將所述語義關聯(lián)系數(shù)加上偏置參數(shù)后通過sigmoid激活函數(shù)以得到所述關聯(lián)優(yōu)化因子。
12、可選地,將所述網(wǎng)絡安全報告詞粒度強化語義編碼特征向量的序列和所述第一論壇討論帖子詞粒度強化語義編碼特征向量的序列輸入局部細粒度序列交互響應聚合網(wǎng)絡以得到網(wǎng)絡安全報告-論壇帖子細粒度語義交互全局表示向量,包括:計算所述網(wǎng)絡安全報告詞粒度強化語義編碼特征向量的序列和所述第一論壇討論帖子詞粒度強化語義編碼特征向量的序列中每組對應的網(wǎng)絡安全報告詞粒度強化語義編碼特征向量和第一論壇討論帖子詞粒度強化語義編碼特征向量之間的局部語義關聯(lián)交互向量以得到網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互向量的序列;計算所述網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互向量的序列中的各個網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互向量的細粒度注意力權重以得到細粒度注意力權重的序列;將所述細粒度注意力權重的序列輸入隨機失活模塊以得到失活處理后細粒度注意力權重的序列;以所述失活處理后細粒度注意力權重的序列作為權重分布,計算所述網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互向量的序列的加權和以得到所述網(wǎng)絡安全報告-論壇帖子細粒度語義交互全局表示向量。
13、可選地,計算所述網(wǎng)絡安全報告詞粒度強化語義編碼特征向量的序列和所述第一論壇討論帖子詞粒度強化語義編碼特征向量的序列中每組對應的網(wǎng)絡安全報告詞粒度強化語義編碼特征向量和第一論壇討論帖子詞粒度強化語義編碼特征向量之間的局部語義關聯(lián)交互向量以得到網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互向量的序列,包括:計算所述網(wǎng)絡安全報告詞粒度強化語義編碼特征向量和與其對應的第一論壇討論帖子詞粒度強化語義編碼特征向量之間的按位置點加、按位置點減和按位置點乘以得到第一融合結果、第二融合結果和第三融合結果;將所述第一融合結果、所述第二融合結果和所述第三融合結果級聯(lián)為網(wǎng)絡安全報告-論壇帖子多尺度融合特征向量后,對其進行一維卷積處理和最大值池化處理以得到所述網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互向量。
14、可選地,計算所述網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互向量的序列中的各個網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互向量的細粒度注意力權重以得到細粒度注意力權重的序列,包括:將所述網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互向量乘以第二權重系數(shù)矩陣,再與第二偏置向量相加后通過tanh函數(shù)以得到網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互編碼特征向量;使用注意力打分參考向量乘以所述網(wǎng)絡安全報告-論壇帖子局部語義關聯(lián)交互編碼特征向量以得到所述細粒度注意力權重。
15、可選地,基于所述網(wǎng)絡安全報告-論壇帖子細粒度語義交互全局表示向量,確定是否將所述第一論壇討論帖子視為所述網(wǎng)絡安全報告的關聯(lián)情報,包括:將所述網(wǎng)絡安全報告-論壇帖子細粒度語義交互全局表示向量輸入基于分類器的情報關聯(lián)識別模塊以得到識別結果,所述識別結果用于表示是否將所述第一論壇討論帖子視為所述網(wǎng)絡安全報告的關聯(lián)情報。
16、第二方面,本技術提供了一種基于語義分析驅動模型的開源情報關聯(lián)性識別系統(tǒng),所述系統(tǒng)包括:
17、網(wǎng)絡安全報告獲取模塊,用于獲取網(wǎng)絡安全報告,以及第一論壇討論帖子;
18、語義編碼模塊,用于對所述網(wǎng)絡安全報告和所述第一論壇討論帖子分別進行基于詞粒度的語義編碼以得到網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列和第一論壇討論帖子詞粒度語義編碼特征向量的序列;
19、特征關聯(lián)優(yōu)化網(wǎng)絡模塊,用于將所述網(wǎng)絡安全報告詞粒度語義編碼特征向量的序列和所述第一論壇討論帖子詞粒度語義編碼特征向量的序列分別輸入基于序列內生相關性語義度量的特征關聯(lián)優(yōu)化網(wǎng)絡以得到網(wǎng)絡安全報告詞粒度強化語義編碼特征向量的序列和第一論壇討論帖子詞粒度強化語義編碼特征向量的序列;
20、局部細粒度序列交互響應聚合網(wǎng)絡模塊,用于將所述網(wǎng)絡安全報告詞粒度強化語義編碼特征向量的序列和所述第一論壇討論帖子詞粒度強化語義編碼特征向量的序列輸入局部細粒度序列交互響應聚合網(wǎng)絡以得到網(wǎng)絡安全報告-論壇帖子細粒度語義交互全局表示向量;
21、網(wǎng)絡安全報告的關聯(lián)情報確定模塊,用于基于所述網(wǎng)絡安全報告-論壇帖子細粒度語義交互全局表示向量,確定是否將所述第一論壇討論帖子視為所述網(wǎng)絡安全報告的關聯(lián)情報。
22、采用上述技術方案,通過采用基于深度學習的自然語言處理技術對網(wǎng)絡安全報告和論壇討論帖子進行細粒度語義分析,分別挖掘出網(wǎng)絡安全報告和論壇討論帖子的詞粒度上下文語義關聯(lián)特征表示,并通過對兩者進行細粒度的語義交互響應分析,以此來智能識別該論壇討論帖子是否是該網(wǎng)絡安全報告的關聯(lián)情報。這樣,能夠有效提高開源情報關聯(lián)性識別的準確性和效率,有效輔助企業(yè)及時發(fā)現(xiàn)潛在的安全威脅,提高網(wǎng)絡安全管理的能力。
23、本技術的其他特征和優(yōu)點將在隨后的具體實施方式部分予以詳細說明。