本發(fā)明涉及區(qū)塊鏈安全,尤其涉及一種基于融合特征和增強網(wǎng)絡的智能合約漏洞檢測方法及系統(tǒng)。
背景技術:
1、智能合約是一種以計算機代碼形式存在的數(shù)字化合同,它通過計算機代碼來執(zhí)行和管理預先設定的協(xié)議條款,并能夠在滿足設定條件時自動執(zhí)行指定的操作。通過智能合約,人們能夠在無需第三方干預的情況下,實現(xiàn)交易的自動執(zhí)行和驗證,極大地提高了交易的效率和可信性。盡管智能合約在區(qū)塊鏈交易中發(fā)揮著至關重要的作用,但與其它應用程序一樣,智能合約也存在著安全漏洞,容易成為網(wǎng)絡攻擊的目標。由于智能合約在區(qū)塊鏈上部署后,具有不可更改的特性,即使發(fā)現(xiàn)漏洞,開發(fā)人員難以對其進行在線修復,可能會引發(fā)巨大的經(jīng)濟損失。尤其是對于掌控著大量加密貨幣和金融資產的智能合約而言,一旦成為攻擊目標,可能會引發(fā)連鎖反應,造成不可估量的損失。因此,在部署智能合約前進行智能合約漏洞檢測尤為重要。
2、智能合約漏洞是指在智能合約的設計、開發(fā)或部署階段潛藏的安全隱患,可能導致嚴重的經(jīng)濟損失。常見的智能合約漏洞包括重入攻擊、時間戳依賴漏洞、拒絕服務漏洞、整數(shù)下溢和溢出漏洞等。目前已有多種智能合約漏洞檢測方案,其中,基于人工智能算法的智能合約漏洞檢測方法較為常用,它包括基于深度學習、基于預訓練模型等檢測方法,但是這些方法仍存在一定的問題:
3、(1)基于預訓練模型的智能合約漏洞檢測方法通過自動識別和分析智能合約的代碼結構,從中提取漏洞特征,并使用監(jiān)督學習等模型來檢測漏洞,但其存在著算力資源需求高、耗時長等缺陷。例如,利用bert預訓練語言模型對智能合約代碼進行語義處理,經(jīng)過大量文本數(shù)據(jù)的訓練,能夠捕捉復雜的語言特征。但是,bert模型計算資源需求高、訓練和推理耗時長、內存和存儲要求高,更新和維護也需耗費大量資源。
4、(2)相較于預訓練模型的檢測方法,基于深度學習的智能漏洞檢測方法資源耗費較少,應用更普遍,其能夠自動識別和分析智能合約的代碼結構,從智能合約中提取漏洞特征,并使用監(jiān)督學習或半監(jiān)督學習等模型來檢測漏洞,但往往會忽略某個方面的特征。例如,基于word2vec和gcn(graph?convolutional?networks,圖卷積神經(jīng)網(wǎng)絡)融合特征的深度學習方法,雖然將word2vec和gcn的特征融合能夠結合語義相似性和圖結構信息,但是其忽略了上下文信息,在生成特征向量時會忽略上下文依賴關系。又如,利用bilstm(bidirectional?long?short-term?memory,雙向長短期記憶網(wǎng)絡)網(wǎng)絡和注意力機制對源代碼進行序列處理、提取漏洞特征時,由于智能合約漏洞的特殊性,一些智能合約漏洞可能依賴于長距離代碼片段之間的關系。在處理長序列時,盡管在bilstm網(wǎng)絡引入注意力機制比單純的bilstm能捕獲更多的上下文信息,但是在捕捉長距離依賴時會忽略一些依賴關系,特征提取不完善,仍存在一定的局限性。
技術實現(xiàn)思路
1、為解決上述現(xiàn)有技術的不足,本發(fā)明提供了一種基于融合特征和增強網(wǎng)絡的智能合約漏洞檢測方法及系統(tǒng),利用輕量級預訓練模型distilbert捕捉智能合約的上下文特征,利用卷積神經(jīng)網(wǎng)絡cnn捕捉智能合約的局部特征,并通過特征融合形成多維度特征,以此更好的捕捉合約特性,減少模型訓練的成本和時間;在bilstm中引入多頭自注意力機制,同時捕捉序列中多個位置之間的關系,增強對不同子空間的關注能力,深入挖掘多維度特征的潛在長距離依賴關系與隱藏狀態(tài),提高特征表達能力;通過上述兩種特征提取優(yōu)化方式,能夠更全面的提取漏洞特征,有效提高最終漏洞檢測的準確率。
2、第一方面,本發(fā)明提供了一種基于融合特征和增強網(wǎng)絡的智能合約漏洞檢測方法。
3、一種基于融合特征和增強網(wǎng)絡的智能合約漏洞檢測方法,包括:
4、獲取待檢測的以太坊智能合約的源代碼數(shù)據(jù);
5、對獲取的源代碼數(shù)據(jù)進行預處理,生成單詞序列;
6、將單詞序列輸入至訓練完成的智能合約漏洞檢測模型中,輸出智能合約漏洞檢測結果;
7、其中,將單詞序列并行輸入至distilbert模型和cnn網(wǎng)絡中,分別提取單詞序列同維度的上下文特征向量和局部特征向量,經(jīng)融合后生成多維度融合特征向量;將多維度融合特征向量輸入至基于多頭自注意力機制的增強bilstm網(wǎng)絡中,先提取輸入特征的多頭自注意力特征向量,后對多頭自注意力特征向量進行正反向隱藏狀態(tài)學習,提取隱藏狀態(tài)特征向量;將隱藏狀態(tài)特征向量輸入至全連接層,輸出漏洞檢測結果。
8、第二方面,本發(fā)明提供了一種基于融合特征和增強網(wǎng)絡的智能合約漏洞檢測系統(tǒng)。
9、一種基于融合特征和增強網(wǎng)絡的智能合約漏洞檢測系統(tǒng),包括:
10、數(shù)據(jù)獲取模塊,用于獲取待檢測的以太坊智能合約的源代碼數(shù)據(jù);
11、數(shù)據(jù)預處理模塊,用于對獲取的源代碼數(shù)據(jù)進行預處理,生成單詞序列;
12、漏洞檢測模塊,用于將單詞序列輸入至訓練完成的智能合約漏洞檢測模型中,輸出智能合約漏洞檢測結果;所述漏洞檢測模塊包括:
13、多維度特征融合模塊,用于將單詞序列并行輸入至distilbert模型和cnn網(wǎng)絡中,分別提取單詞序列同維度的上下文特征向量和局部特征向量,經(jīng)融合后生成多維度融合特征向量;
14、序列學習模塊,用于將多維度融合特征向量輸入至基于多頭自注意力機制的增強bilstm網(wǎng)絡中,先提取輸入特征的多頭自注意力特征向量,后對多頭自注意力特征向量進行正反向隱藏狀態(tài)學習,提取隱藏狀態(tài)特征向量;
15、輸出模塊,用于將隱藏狀態(tài)特征向量輸入至全連接層,輸出漏洞檢測結果。
16、第三方面,本發(fā)明還提供了一種電子設備,包括存儲器和處理器以及存儲在存儲器上并在處理器上運行的計算機指令,所述計算機指令被處理器運行時,完成第一方面所述方法的步驟。
17、第四方面,本發(fā)明還提供了一種計算機可讀存儲介質,用于存儲計算機指令,所述計算機指令被處理器執(zhí)行時,完成第一方面所述方法的步驟。
18、以上一個或多個技術方案存在以下有益效果:
19、1、本發(fā)明提供了一種基于融合特征和增強網(wǎng)絡的智能合約漏洞檢測方法及系統(tǒng),先利用輕量級預訓練模型distilbert捕捉智能合約的上下文特征,該上下文特征包含了智能合約的上下文關系及語義信息;同時利用卷積神經(jīng)網(wǎng)絡cnn捕捉智能合約的局部特征,該局部特征包含了智能合約相鄰元素之間的依賴關系和局部信息;再通過特征融合形成多維度融合特征,以此更好的捕捉并理解智能合約代碼的整體含義,并準確全面地表達智能合約的特征。該方法通過提供更豐富和多樣的特征表示,能夠有效增強模型對復雜智能合約漏洞模式的識別能力,提高檢測的準確性和魯棒性,且distilbert將模型大小縮減約40%,推理速度提高約60%,可有效減少模型訓練的成本和時間,具備更高效的智能合約漏洞檢測能力。
20、2、本發(fā)明在序列學習中將多頭自注意力機制引入bilstm網(wǎng)絡中,構建了基于多頭自注意力機制的增強bilstm訓練架構。在bilstm前引入多頭自注意力機制,能夠并行的在全局范圍內捕捉長距離依賴關系,最大程度地減少信息丟失,增強模型對全局信息的捕捉能力;此外,bilstm利用雙向信息流處理序列數(shù)據(jù),能夠提升模型對序列上下文的理解。該增強bilstm訓練架構,不僅解決了傳統(tǒng)注意力機制與bilstm組合在捕捉全局信息和處理長距離依賴關系上的不足,還大大增強了模型對復雜依賴關系和上下文信息的建模能力,提升了智能合約漏洞檢測的全面性和準確性。本發(fā)明通過上述增強bilstm訓練架構,深入挖掘多維度特征的潛在長距離依賴關系與隱藏狀態(tài),可有效提高了特征表達能力。最終,基于所提出的兩種特征提取優(yōu)化方式,能夠更全面的提取漏洞特征,有效提高了最終漏洞檢測的準確率。