本發(fā)明涉及網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域,特別涉及一種蠕蟲同源性分析方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及和網(wǎng)絡(luò)信息技術(shù)的日益發(fā)展,網(wǎng)民數(shù)量的急劇膨脹,致使惡意代碼的傳播更加便利,這也使得惡意代碼的攻擊行為所帶來(lái)的負(fù)面影響進(jìn)一步擴(kuò)大。蠕蟲作為惡意代碼的一大家族,其顯著特征是具有自我復(fù)制和快速傳播能力,能夠在沒(méi)有人為干預(yù)行為的情況下,通過(guò)大量自我復(fù)制來(lái)實(shí)現(xiàn)快速傳播,給網(wǎng)絡(luò)安全乃至國(guó)家安全帶來(lái)的極大的沖擊,幾乎每一次爆發(fā)都會(huì)帶來(lái)巨大的經(jīng)濟(jì)損失。此外,隨著國(guó)際apt(高級(jí)持續(xù)性威脅)事件的不斷曝光升級(jí),對(duì)蠕蟲等惡意代碼的同源性分析也逐漸成為了研究熱點(diǎn),但目前同源性的判定方法效率較低,不適用于大量蠕蟲樣本的同源性判定,實(shí)際應(yīng)用價(jià)值不高。
現(xiàn)有的蠕蟲等惡意代碼的同源性分析方法主要集中在通過(guò)提取蠕蟲等惡意代碼靜態(tài)特征和動(dòng)態(tài)特征,通過(guò)計(jì)算特征距離來(lái)衡量樣本相似度,再采用分類或聚類等方法來(lái)進(jìn)行蠕蟲等惡意代碼的同源性分析。這類方法多為解決惡意代碼的同源性判定問(wèn)題,目前尚未提出針對(duì)蠕蟲這類惡意代碼的同源性分析方法。若將現(xiàn)有的同源性分析方法應(yīng)用到蠕蟲的同源性分析領(lǐng)域中,由于現(xiàn)有方法使用的特征覆蓋了所有種類惡意代碼通用行為結(jié)構(gòu),未能突出蠕蟲在攻擊傳播過(guò)程中獨(dú)有的特性,大量的無(wú)關(guān)特征不僅降低了相似性度量的準(zhǔn)確性,還導(dǎo)致了特征庫(kù)數(shù)量較為龐大,增加了特征相似度計(jì)算的時(shí)間復(fù)雜度,從而降低了蠕蟲同源性分析的效率。此外,現(xiàn)有方法多采取單一的分析方法進(jìn)行同源性分析,如針對(duì)所有已提取的特征,使用相同的方法進(jìn)行樣本相似度的計(jì)算,缺乏多樣性。
因此,亟需開(kāi)發(fā)對(duì)蠕蟲進(jìn)行同源性分析的解決方案。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種基于蠕蟲攻擊傳播特性的蠕蟲同源性分析方法和裝置,以解決對(duì)蠕蟲進(jìn)行同源性分析的問(wèn)題。
本發(fā)明公開(kāi)了一種蠕蟲同源性分析方法,所述方法包括:
從蠕蟲樣本中提取靜態(tài)特征和動(dòng)態(tài)特征;所述動(dòng)態(tài)特征包括:網(wǎng)絡(luò)行為特征和應(yīng)用程序編程接口api調(diào)用序列;
對(duì)靜態(tài)特征和網(wǎng)絡(luò)行為進(jìn)行預(yù)處理,得到蠕蟲特征集;以及根據(jù)api調(diào)用序列構(gòu)建敏感行為特征庫(kù);
利用第一同源性分析算法對(duì)所述蠕蟲特征集進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第一概率分布矩陣;
利用第二同源性分析算法對(duì)于所述api調(diào)用序列和所述敏感行為特征庫(kù)進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第二概率分布矩陣;
對(duì)第一概率分布矩陣和第二概率分布矩陣進(jìn)行權(quán)重調(diào)整,得到第三概率分布矩陣;
根據(jù)第三概率分布矩陣,得到同源分析結(jié)果。
進(jìn)一步地,
所述對(duì)靜態(tài)特征和網(wǎng)絡(luò)行為特征進(jìn)行預(yù)處理,得到蠕蟲特征集包括:
對(duì)靜態(tài)特征和網(wǎng)絡(luò)行為特征進(jìn)行特征量化與歸一化處理,以及進(jìn)行特征選擇與降維處理,得到蠕蟲特征集。
進(jìn)一步地,
所述根據(jù)api調(diào)用序列構(gòu)建敏感行為特征庫(kù)包括:
根據(jù)api調(diào)用序列構(gòu)造頻繁模式樹;
通過(guò)遍歷所述頻繁模式樹得出各蠕蟲家族的api調(diào)用序列頻繁模式;
每條api調(diào)用序列的頻繁模式構(gòu)成敏感行為特征庫(kù)中的一條記錄。
進(jìn)一步地,
所述第一同源性分析算法為隨機(jī)森林算法;
所述第二同源性分析算法為敏感行為匹配算法;
進(jìn)一步地,
所述利用第二同源性分析算法對(duì)于所述api調(diào)用序列和所述敏感行為特征庫(kù)進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第二概率分布矩陣包括:
將所述api調(diào)用序列與所述敏感行為特征庫(kù)進(jìn)行匹配,計(jì)算命中率,再將命中率分布矩陣轉(zhuǎn)換為蠕蟲樣本分屬于各家族的概率分布矩陣,得到所述第二概率分布矩陣。
本發(fā)明還公開(kāi)了一種蠕蟲同源性分析裝置,所述裝置包括:
特征提取單元,用于從蠕蟲樣本中提取靜態(tài)特征和動(dòng)態(tài)特征;所述動(dòng)態(tài)特征包括:網(wǎng)絡(luò)行為特征和應(yīng)用程序編程接口api調(diào)用序列;
特征預(yù)處理單元,用于對(duì)靜態(tài)特征和網(wǎng)絡(luò)行為特征進(jìn)行預(yù)處理,得到蠕蟲特征集;以及根據(jù)api調(diào)用序列構(gòu)建敏感行為特征庫(kù);
第一同源性分析單元,用于利用第一同源性分析算法對(duì)所述蠕蟲特征集進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第一概率分布矩陣;
第二同源性分析單元,用于利用第二同源性分析算法對(duì)于所述api調(diào)用序列和所述敏感行為特征庫(kù)進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第二概率分布矩陣;
第三同源性分析單元,用于對(duì)第一概率分布矩陣和第二概率分布矩陣進(jìn)行權(quán)重調(diào)整,得到第三概率分布矩陣;并根據(jù)第三概率分布矩陣,得到同源分析結(jié)果。
進(jìn)一步地,
所述特征預(yù)處理單元,用于對(duì)靜態(tài)特征和網(wǎng)絡(luò)行為特征進(jìn)行特征量化與歸一化處理,以及進(jìn)行特征選擇與降維處理,得到蠕蟲特征集。
進(jìn)一步地,
所述特征預(yù)處理單元,用于根據(jù)api調(diào)用序列構(gòu)造頻繁模式樹,以及通過(guò)遍歷所述頻繁模式樹得出各蠕蟲家族的api調(diào)用序列頻繁模式;其中,每條api調(diào)用序列的頻繁模式構(gòu)成敏感行為特征庫(kù)中的一條記錄。
進(jìn)一步地,
所述第一同源性分析算法為隨機(jī)森林算法;
所述第二同源性分析算法為敏感行為匹配算法;
進(jìn)一步地,
第二同源性分析單元,用于將所述api調(diào)用序列與所述敏感行為特征庫(kù)進(jìn)行匹配,計(jì)算命中率,再將命中率分布矩陣轉(zhuǎn)換為蠕蟲樣本分屬于各家族的概率分布矩陣,得到所述第二概率分布矩陣。
本發(fā)明實(shí)施例的有益效果是:本發(fā)明通過(guò)降低蠕蟲特征庫(kù)的規(guī)模,降低了進(jìn)行樣本相似度計(jì)算時(shí)的復(fù)雜度,同時(shí)還改善了樣本相似性度量結(jié)果準(zhǔn)確性,從而提高了蠕蟲同源性分析的效率。此外,本發(fā)明通過(guò)結(jié)合隨機(jī)森林分類算法與敏感行為匹配算法對(duì)蠕蟲同源性進(jìn)行分析判定,避免了分析方式的單一性,同時(shí)也提高了同源性分析結(jié)果的精確度。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例提供的一種蠕蟲同源性分析方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的具有自我復(fù)制行為的api調(diào)用序列圖;
圖3為本發(fā)明實(shí)施例提供的api頻繁模式樹構(gòu)造的流程圖;
圖4是本發(fā)明實(shí)施例提供的隨機(jī)森林算法的流程圖;
圖5是本發(fā)明實(shí)施例提供的同源性分析器的主要工作流程圖;
圖6是本發(fā)明實(shí)施例提供的一種蠕蟲同源性分析裝置的示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
圖1為本發(fā)明實(shí)施例提供的一種蠕蟲同源性分析方法的流程圖。如圖1所示,該方法包括:
步驟s11,從蠕蟲樣本中提取靜態(tài)特征和動(dòng)態(tài)特征。
其中,所述靜態(tài)特征是指蠕蟲的語(yǔ)義結(jié)構(gòu)特征,該部分特征提取自蠕蟲樣本的反匯編文件,由匯編指令和可執(zhí)行文件分節(jié)名稱構(gòu)成;
所述動(dòng)態(tài)特征包括:網(wǎng)絡(luò)行為特征和應(yīng)用程序編程接口api調(diào)用序列。其中網(wǎng)絡(luò)行為特征是從蠕蟲運(yùn)行過(guò)程中的網(wǎng)絡(luò)抓包報(bào)告中提取協(xié)議名稱、目標(biāo)端口號(hào)和報(bào)文長(zhǎng)度作為有效特征,以三元組<協(xié)議名稱,目標(biāo)端口號(hào),報(bào)文長(zhǎng)度>來(lái)進(jìn)行標(biāo)記,api調(diào)用序列為能夠體現(xiàn)蠕蟲自我復(fù)制行為的敏感api調(diào)用序列。
步驟s12,對(duì)靜態(tài)特征和網(wǎng)絡(luò)行為特征進(jìn)行預(yù)處理,得到蠕蟲特征集,以及根據(jù)api調(diào)用序列構(gòu)建敏感行為特征庫(kù)。
其中,所述對(duì)靜態(tài)特征和網(wǎng)絡(luò)行為特征進(jìn)行預(yù)處理包括特征量化與歸一化、特征選擇與降維。
特征量化是使用詞頻-逆文檔頻率tf-idf算法對(duì)提取到的蠕蟲網(wǎng)絡(luò)行為特征的三元組進(jìn)行量化處理。歸一化是使用均值-方差方法對(duì)蠕蟲的語(yǔ)義結(jié)構(gòu)特征與量化后的網(wǎng)絡(luò)行為特征進(jìn)行特征融合操作后,對(duì)合并后的特征進(jìn)行歸一化處理。特征選擇使用遞歸特征消除算法,具體是通過(guò)使用一個(gè)基模型來(lái)進(jìn)行多輪訓(xùn)練,并在每輪訓(xùn)練后消除若干權(quán)值系數(shù)的特征,再基于消除后的特征集進(jìn)行下一輪訓(xùn)練,最終得到目標(biāo)特征數(shù),可消除總特征的50%;通過(guò)使用該方法,能夠排除特征集中對(duì)樣本區(qū)分不明顯的特征,在保留樣本特征發(fā)散度的同時(shí)還能有效降低特征維度。特征降維使用主成分分析法,具體是以遞歸特征消除算法輸出的特征集合作為算法的輸入,其目的是尋找特征分布的最優(yōu)子空間,降掉那些噪聲或冗余數(shù)據(jù)的維度。
所述根據(jù)api調(diào)用序列構(gòu)建敏感行為特征庫(kù)包括:根據(jù)api調(diào)用序列構(gòu)造頻繁模式樹,通過(guò)遍歷所述頻繁模式樹得出各蠕蟲家族的api調(diào)用序列頻繁模式;每條api調(diào)用序列的頻繁模式構(gòu)成敏感行為特征庫(kù)中的一條記錄。
根據(jù)api調(diào)用序列構(gòu)建敏感行為特征庫(kù)的核心在于api調(diào)用序列頻繁模式的挖掘,在本發(fā)明中使用頻繁模式增長(zhǎng)fp-growth(頻繁模式增長(zhǎng))算法對(duì)api調(diào)用序列頻繁模式進(jìn)行充分挖掘,而頻繁模式增長(zhǎng)fp-growth算法的核心在于頻繁模式樹的構(gòu)造。
步驟s13,利用第一同源性分析算法對(duì)所述蠕蟲特征集進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第一概率分布矩陣。
步驟s14,利用第二同源性分析算法對(duì)于所述api調(diào)用序列和所述敏感行為特征庫(kù)進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第二概率分布矩陣。
在本發(fā)明的一個(gè)實(shí)施例中,所述第一同源性分析算法為隨機(jī)森林算法,所述第二同源性分析算法為敏感行為匹配算法。
步驟s15,對(duì)第一概率分布矩陣和第二概率分布矩陣進(jìn)行權(quán)重調(diào)整,得到第三概率分布矩陣。
步驟s16,根據(jù)第三概率分布矩陣,得到同源分析結(jié)果。
在圖1所述的方法中,通過(guò)降低特征庫(kù)的數(shù)據(jù)規(guī)模,在提高相似性度量結(jié)果準(zhǔn)確性的同時(shí)降低了計(jì)算的復(fù)雜度。使用api調(diào)用序列頻繁模式挖掘的方式,充分利用了蠕蟲自我復(fù)制的行為特征,提高了蠕蟲同源性分析的準(zhǔn)確性。并且針對(duì)不同的特征采取不同的相似性度量方法,最后再綜合不同的相似度度量方法的結(jié)果給出最后的度量結(jié)果,進(jìn)而提高了度量的準(zhǔn)確性。
在本發(fā)明的一個(gè)實(shí)施例中,步驟s14中所述利用第二同源性分析算法對(duì)于所述api調(diào)用序列和所述敏感行為特征庫(kù)進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第二概率分布矩陣,具體是:
通過(guò)提取待分析蠕蟲樣本中的api調(diào)用序列,將api調(diào)用序列與敏感行為特征庫(kù)中每個(gè)家族的頻繁模式集進(jìn)行匹配,計(jì)算命中率,再將命中率分布矩陣轉(zhuǎn)換為蠕蟲樣本分屬于各個(gè)家族的概率分布矩陣。
所述命中率的計(jì)算,是輸入每個(gè)待匹配蠕蟲樣本的api調(diào)用序列,判斷若輸入的蠕蟲樣本命中了敏感行為特征庫(kù)中的某一條記錄,則記為1;反之,記為0,遍歷敏感行為特征庫(kù)中的每張表之后將命中記錄加和,加和結(jié)果和敏感行為特征庫(kù)中每張表的總長(zhǎng)度的比值即為命中率。其中所述判斷輸入的蠕蟲樣本是否命中了敏感行為特征庫(kù)中的某一條記錄,具體是遍歷敏感行為特征庫(kù)中的每張表每一行,若出現(xiàn)某張表中某行的存儲(chǔ)內(nèi)容包含于待匹配蠕蟲樣本的api調(diào)用序列,則判斷為輸入的蠕蟲樣本命中了敏感行為特征庫(kù)中的某一條記錄;反之,則判斷為沒(méi)有命中。
通過(guò)公式來(lái)描述,即命中率的計(jì)算公式是:
其中函數(shù)
h是某一蠕蟲樣本的命中率;x表示待匹配的蠕蟲樣本的api調(diào)用序列,是敏感行為匹配算法的輸入;χ(x)表示這個(gè)蠕蟲樣本是否命中敏感行為特征庫(kù)的表中的其中一條記錄;
所述將命中率分布矩陣轉(zhuǎn)換為蠕蟲樣本分屬于各個(gè)家族的概率分布矩陣,具體地,計(jì)算命中率矩陣中的某項(xiàng)和該項(xiàng)所在行所有命中率的加和的比值,并且該項(xiàng)所對(duì)應(yīng)的蠕蟲樣本和家族類別即是蠕蟲樣本分屬于各個(gè)家族的概率分布矩陣中所對(duì)應(yīng)的蠕蟲樣本和家族類別,相應(yīng)地,該比值即是蠕蟲樣本分屬于各個(gè)家族的概率分布矩陣中的某項(xiàng),對(duì)命中率矩陣中的每項(xiàng)進(jìn)行換算,即得到蠕蟲樣本分屬于各個(gè)家族的概率分布矩陣。
通過(guò)公式來(lái)描述,即將命中率分布矩陣轉(zhuǎn)換為蠕蟲樣本分屬各個(gè)家族的概率分布矩陣的轉(zhuǎn)換需滿足公式:
步驟s15中所述對(duì)第一概率分布矩陣和第二概率分布矩陣進(jìn)行權(quán)重調(diào)整,得到第三概率分布矩陣,其中,所述權(quán)重調(diào)整是設(shè)置5組實(shí)驗(yàn),分別取權(quán)重比例為0、0.25、0.5、0.75和1,進(jìn)行實(shí)驗(yàn),取實(shí)驗(yàn)結(jié)果的平均值,通過(guò)準(zhǔn)確率、精確率、召回率、f值以及算法運(yùn)行時(shí)間對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),最終確定最佳權(quán)重分配比例,最佳權(quán)重分配比例為0.5,即隨機(jī)森林算法輸出的第一概率矩陣和敏感行為匹配算法輸出的第二概率矩陣的比值為1∶1。
圖2為本發(fā)明實(shí)施例提供的具有自我復(fù)制行為的api調(diào)用序列圖,是對(duì)圖1中步驟s11所述api調(diào)用序列的具體描述,即包括得到系統(tǒng)目錄、設(shè)置當(dāng)前目錄、發(fā)現(xiàn)第一個(gè)文件、發(fā)現(xiàn)下一個(gè)文件、打開(kāi)文件、書寫文件和關(guān)閉文件。
圖3是本發(fā)明實(shí)施例提供的api頻繁模式樹構(gòu)造的流程圖,是對(duì)圖1中步驟s12所述fp-growth算法的核心的具體描述,包括以下步驟:
步驟s31:設(shè)置最小支持度,即fp-growth算法的輸入閾值。
步驟s32:掃描蠕蟲api調(diào)用序列集合,統(tǒng)計(jì)每個(gè)api的支持度。
步驟s33:判斷每個(gè)api的支持度是否大于最小支持度,若不大于,則運(yùn)行步驟s34;若大于,則運(yùn)行步驟s35。
步驟s34:刪除api。
步驟s35:根據(jù)api支持度逆序排列,得到l,l指將首次計(jì)算后的api序列進(jìn)行篩選與降序排列之后,得到的新的api序列(也稱作頻繁1項(xiàng)集)。
步驟s36:根據(jù)l刪除api序列集合中的不頻繁項(xiàng),并對(duì)api序列進(jìn)行重新排列,形成新的api調(diào)用序列集合。
步驟s37:將集合中的api調(diào)用序列依次插入到頻繁模式樹分支中。
步驟s38:判斷新形成的api調(diào)用序列集合中的api調(diào)用序列和頻繁模式樹的分支是否具有相同前綴,若是,則運(yùn)行步驟s39;若否,則運(yùn)行步驟s310。
步驟s39:復(fù)用節(jié)點(diǎn),節(jié)點(diǎn)數(shù)加1。
步驟s310:創(chuàng)建新節(jié)點(diǎn)。
步驟s311:得到頻繁模式樹。
圖4是本發(fā)明實(shí)施例提供的隨機(jī)森林算法的流程圖,包括以下步驟:
步驟s41:輸入進(jìn)行過(guò)特征選擇與降維后的蠕蟲特征集。
步驟s42:輸出預(yù)測(cè)每個(gè)蠕蟲樣本的分屬于各個(gè)家族的概率分布矩陣。
圖5是本發(fā)明實(shí)施例提供的同源性分析器的主要工作流程圖,是對(duì)圖1中步驟s15和步驟s16進(jìn)行的詳細(xì)描述,包括以下步驟:
步驟s51:接收第一概率分布矩陣和第二概率分布矩陣,進(jìn)行權(quán)重調(diào)整,得到新的家族預(yù)測(cè)概率分布矩陣:隨機(jī)森林算法和敏感行為匹配算法輸出的預(yù)測(cè)每個(gè)蠕蟲樣本的分屬于各個(gè)家族的概率分布矩陣,根據(jù)預(yù)先設(shè)置的權(quán)重分配比例進(jìn)行隨機(jī)森林算法和敏感行為匹配算法的權(quán)重調(diào)整,得到新的家族預(yù)測(cè)概率分布矩陣。
步驟s52:進(jìn)行逐行依次掃描概率分布矩陣中的概率。
步驟s53:是否是當(dāng)前行的最大值:判斷掃描的每項(xiàng)家族預(yù)測(cè)概率是否是當(dāng)前行的最大值,若是,則運(yùn)行步驟s54;若否,則運(yùn)行步驟s52.
步驟s54:查看該項(xiàng)所在的列,記錄該列所對(duì)應(yīng)的家族類別。
步驟s55:輸出同源性分析結(jié)果。
圖6是本發(fā)明實(shí)施例提供的一種蠕蟲同源性分析裝置的示意圖。如圖6所示,該裝置包括:特征提取單元61、特征預(yù)處理單元61、第一同源性分析單元63、第二同源性分析單元64和第三同源性分析單元65;
其中,
特征提取單元61,用于從蠕蟲樣本中提取靜態(tài)特征和動(dòng)態(tài)特征;所述動(dòng)態(tài)特征包括:網(wǎng)絡(luò)行為特征和應(yīng)用程序編程接口api調(diào)用序列;
特征預(yù)處理單元62,用于對(duì)靜態(tài)特征和網(wǎng)絡(luò)行為特征進(jìn)行預(yù)處理,得到蠕蟲特征集;以及根據(jù)api調(diào)用序列構(gòu)建敏感行為特征庫(kù);
第一同源性分析單元63,用于利用第一同源性分析算法對(duì)所述蠕蟲特征集進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第一概率分布矩陣;
第二同源性分析單元64,用于利用第二同源性分析算法對(duì)于所述api調(diào)用序列和所述敏感行為特征庫(kù)進(jìn)行處理,輸出預(yù)測(cè)各蠕蟲樣本分屬于各家族的第二概率分布矩陣;
第三同源性分析單元65,用于對(duì)第一概率分布矩陣和第二概率分布矩陣進(jìn)行權(quán)重調(diào)整,得到第三概率分布矩陣;并根據(jù)第三概率分布矩陣,得到同源分析結(jié)果。
在本發(fā)明的一個(gè)實(shí)施例中,特征預(yù)處理單元62,用于對(duì)靜態(tài)特征和網(wǎng)絡(luò)行為特征進(jìn)行特征量化與歸一化處理,以及進(jìn)行特征選擇與降維處理,得到蠕蟲特征集。
在本發(fā)明的一個(gè)實(shí)施例中,所述特征預(yù)處理單元62,用于根據(jù)api調(diào)用序列構(gòu)造頻繁模式樹,以及通過(guò)遍歷所述頻繁模式樹得出各蠕蟲家族的api調(diào)用序列頻繁模式;其中,每條api調(diào)用序列的頻繁模式構(gòu)成敏感行為特征庫(kù)中的一條記錄。
在本發(fā)明的一個(gè)實(shí)施例中,所述第一同源性分析算法為隨機(jī)森林算法;所述第二同源性分析算法為敏感行為匹配算法。
在本發(fā)明的一個(gè)實(shí)施例中,第二同源性分析單元64,用于將所述api調(diào)用序列與所述敏感行為特征庫(kù)進(jìn)行匹配,計(jì)算命中率,再將命中率分布矩陣轉(zhuǎn)換為蠕蟲樣本分屬于各家族的概率分布矩陣,得到所述第二概率分布矩陣。
對(duì)于裝置實(shí)施例而言,由于其基本對(duì)應(yīng)于方法實(shí)施例,所以相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可,這里不再?gòu)?fù)述。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
本發(fā)明通過(guò)提取蠕蟲特征,進(jìn)行特征預(yù)處理,結(jié)合兩種同源性分析方法對(duì)預(yù)處理后的蠕蟲特征矩陣進(jìn)行同源性分析后,經(jīng)過(guò)權(quán)重調(diào)整,進(jìn)一步分析得到同源性分析結(jié)果,降低了蠕蟲特征庫(kù)的規(guī)模,降低了進(jìn)行樣本相似度計(jì)算時(shí)的復(fù)雜度,改善了樣本相似性度量結(jié)果準(zhǔn)確性,避免了分析方式的單一性,從而達(dá)到提高蠕蟲同源性分析的效率和準(zhǔn)確度的目的。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。