国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于PassiveDNS迭代聚類的惡意域名檢測方法

      文檔序號:10691111閱讀:1894來源:國知局
      基于Passive DNS迭代聚類的惡意域名檢測方法
      【專利摘要】本發(fā)明公開了一種基于Passive DNS迭代聚類的惡意域名檢測方法,包括如下步驟:步驟一:提取DNS查詢數(shù)據(jù),得到DNS數(shù)據(jù)組;步驟二:根據(jù)已知的白名單域名網(wǎng)站及域名的總訪問量,去除DNS數(shù)據(jù)組中包含白名單域名的數(shù)據(jù)組,得到處理后DNS數(shù)據(jù)組;步驟三:通過處理后DNS數(shù)據(jù)組中域名與IP之間的相互映射關(guān)系,反復(fù)迭代查詢,得到存在關(guān)聯(lián)的域名組;步驟四:抽取惡意域名的特征并訓(xùn)練得到模型,判斷存在關(guān)聯(lián)的域名組是否存在惡意域名。本發(fā)明公開的一種基于Passive DNS迭代聚類的惡意域名檢測方法,通過域名和IP之間的映射關(guān)系,反復(fù)迭代查詢,得到存在關(guān)聯(lián)的域名組,大大提高了惡意域名的正檢率。
      【專利說明】
      基于Pass i ve DNS迭代聚類的惡意域名檢測方法
      技術(shù)領(lǐng)域
      [0001]本發(fā)明涉及計算機(jī)網(wǎng)絡(luò)安全領(lǐng)域的惡意域名檢測領(lǐng)域,尤其涉及一種基于Passive DNS迭代聚類的惡意域名檢測方法。
      【背景技術(shù)】
      [0002]惡意域名通常指婦蟲、病毒等惡意代碼用于命令控制(Command and Control,C&C)通信的域名,以及嵌入了惡意代碼或者包含非法信息的網(wǎng)站域名。近年來,惡意軟件威脅的持續(xù)增長,對我國關(guān)鍵基礎(chǔ)設(shè)施和重要信息系統(tǒng)安全造成嚴(yán)重威脅,尤其是木馬、病毒種類高速增長,垃圾郵件、釣魚網(wǎng)站更加泛濫,給社會帶來了很大的損失。因此,對惡意軟件檢測的研究也就具有了迫切的現(xiàn)實意義。
      [0003]惡意軟件依賴于域名系統(tǒng)實現(xiàn)域名到IP的轉(zhuǎn)換,以完成命令控制通信。當(dāng)前的惡意軟件為了防止被屏蔽和封鎖,實現(xiàn)高度可用性,通常會頻繁的更改域名的解析,并不斷產(chǎn)生新的域名,同時大大縮短惡意域名的生存周期,增加了檢測難度,使惡意軟件的C&C通信更加可靠。這樣的方法同時會導(dǎo)致大量的惡意域名解析到了一組相同的IP,這些域名之間也就產(chǎn)生了關(guān)聯(lián)。進(jìn)一步的,此類惡意域名通常由算法隨機(jī)生成,與正常域名相比有著很明顯的特征。
      [0004]現(xiàn)有的惡意域名檢測方法和系統(tǒng),主要集中在對單個域名特征的分析上,主要有:域名響應(yīng)特征(包括IP的數(shù)量,NS的數(shù)量,TTL等),域名訪問時間特征,who i S信息,單個域名的字符串特征等。這些檢測方法面臨以下缺陷:
      [0005]I)域名響應(yīng)特征干擾因素越來越多,惡意域名與CDN域名有著諸多相似之處,該方法誤檢率越來越高;
      [0006]2)域名訪問的時間規(guī)律并不穩(wěn)定,攻擊者可以輕易通過算法改變;
      [0007]3)單個域名的字符串特征有很大的局限性,只能發(fā)現(xiàn)已知的惡意域名種類。
      [0008]因此,本發(fā)明致力于開發(fā)一個基于全局特征的惡意域名檢測系統(tǒng)和方法,找出存在關(guān)聯(lián)的域名組,進(jìn)而通過域名組特征發(fā)現(xiàn)惡意域名。
      [0009]鑒于現(xiàn)有的惡意域名檢測方法的缺陷,本發(fā)明提出了一種基于passivedns迭代聚類的惡意域名檢測系統(tǒng)和方法。
      [0010]本發(fā)明提出的檢測方法,是基于這樣的觀察結(jié)論:惡意軟件通常會注冊大量的域名來規(guī)避檢測,這些域名解析到攻擊者的同一組IP,因此大量的惡意域名之間會產(chǎn)生關(guān)聯(lián);這些有關(guān)聯(lián)的域名通常由同一個算法生成,因此會有一定的字符串特征,與正常域名有明顯的區(qū)別。
      [0011]為了規(guī)避檢測,網(wǎng)絡(luò)攻擊者通常會頻繁的改變域名的解析,同時不斷產(chǎn)生新的域名。但是為了節(jié)約成本,他們會重復(fù)的利用這些域名和IP,比如在一定的時間周期內(nèi),不同的域名解析到了同一個IP,不同的IP被同一個域名解析,這樣的行為使某些不同的域名之間產(chǎn)生了關(guān)聯(lián),如圖1所示。我們首先要利用域名與IP之間的映射關(guān)系,發(fā)現(xiàn)域名間的關(guān)聯(lián),然后進(jìn)一步判斷這些關(guān)聯(lián)的域名組是否存在惡意行為。

      【發(fā)明內(nèi)容】

      [0012]本發(fā)明所要解決的技術(shù)問題是開發(fā)一個基于全局特征的惡意域名檢測系統(tǒng)和方法,找出存在關(guān)聯(lián)的域名組,進(jìn)而通過域名組特征發(fā)現(xiàn)惡意域名,為了解決上述問題,本發(fā)明提供一種基于Passive DNS迭代聚類的惡意域名檢測方法,其特征在于,包括如下步驟:
      [0013]步驟一:提取DNS查詢數(shù)據(jù),得到DNS數(shù)據(jù)組;
      [0014]步驟二:根據(jù)已知的白名單域名網(wǎng)站及域名的總訪問量,去除DNS數(shù)據(jù)組中包含白名單域名的數(shù)據(jù)組,得到處理后DNS數(shù)據(jù)組;
      [0015]步驟三:通過處理后DNS數(shù)據(jù)組中域名與IP之間的相互映射關(guān)系,反復(fù)迭代查詢,得到存在關(guān)聯(lián)的域名組;
      [0016]步驟四:抽取惡意域名的特征并訓(xùn)練得到模型,判斷存在關(guān)聯(lián)的域名組是否存在惡意域名。
      [00?7] 進(jìn)一步地,在步驟一中,DNS數(shù)據(jù)組包括四元組(d,i,Tf,Ti,c),d為請求域名,i為響應(yīng)IP,Tf為開始時間,Ti為結(jié)束時間,c為該域名在Tf到Ti時間段內(nèi)的請求次數(shù),時間窗口 W =Tf-Ti0
      [0018]優(yōu)選地,時間窗口 W的取值為5分鐘。
      [0019]進(jìn)一步地,步驟二中,白名單域名網(wǎng)站包括Alexa前10000域名,將Alexa前10000域名和DNS數(shù)據(jù)組中的域名包含的比public suffix低一級的子域名進(jìn)行歸并分組,去除DNS數(shù)據(jù)組中包含與Alexa前10000域名有相同的低一級域名的數(shù)據(jù)組。
      [0020]進(jìn)一步地,步驟二中,當(dāng)域名的總訪問量大于預(yù)設(shè)的閾值,則去除DNS數(shù)據(jù)組中包含相應(yīng)域名的數(shù)據(jù)組。
      [0021]優(yōu)選地,閾值取值10000。
      [0022]進(jìn)一步地,步驟三中反復(fù)迭代查詢的具體步驟包括:在處理后DNS數(shù)據(jù)組中選定一個域名Do,查找域名Do在時間周期T內(nèi)映射到的全部第一 IP;解析第一 IP的全部域名形成第一集合Cn,查詢在時間周期T內(nèi)第一集合Cn中的域名解析過的全部第二 IP,解析到第二 IP的全部域名形成第二集合Cn’,即完成一次迭代循環(huán);當(dāng)?shù)h(huán)中得到的第一集合Cn和第二集合Cn ’不相等,則繼續(xù)迭代循環(huán);當(dāng)?shù)h(huán)中得到的第一集合Cn和第二集合Cn ’相等,則結(jié)束迭代循環(huán)。
      [0023]優(yōu)選地,時間周期T為一天。
      [0024]進(jìn)一步地,惡意域名的特征包括域名數(shù)量、域名各級標(biāo)簽長度的分布范圍和離散程度、域名標(biāo)簽數(shù)量的離散程度、隨機(jī)標(biāo)簽的分布狀況、同一組域名中相同字符的長度以及域名中包含的數(shù)字?jǐn)?shù)量。
      [0025]進(jìn)一步地,模型為支持向量機(jī)模型。
      [0026]本發(fā)明具有如下有益效果:
      [0027]1、本發(fā)明公開的一種基于Passive DNS迭代聚類的惡意域名檢測方法,通過域名和IP之間的映射關(guān)系,反復(fù)迭代查詢,得到存在關(guān)聯(lián)的域名組,大大提高了惡意域名的正檢率。
      [0028]2、數(shù)據(jù)經(jīng)過預(yù)處理,減少了數(shù)據(jù)處理量,大大提高了檢測效率。
      [0029]3、機(jī)器學(xué)習(xí)使得本發(fā)明公開的一種基于Passive DNS迭代聚類的惡意域名檢測方法能夠不斷學(xué)習(xí),從而提尚惡意域名的判斷能力。
      【附圖說明】
      [0030]圖1是某惡意域名和相應(yīng)IP的映射結(jié)構(gòu)圖
      [0031]圖2是本發(fā)明的一種基于PassiveDNS迭代聚類的惡意域名檢測方法的系統(tǒng)結(jié)構(gòu)圖。
      [0032]圖3是本發(fā)明的一種基于PassiveDNS迭代聚類的惡意域名檢測方法的一個迭代聚類步驟示例圖。
      [0033]圖4是本發(fā)明的一種基于PassiveDNS迭代聚類的惡意域名檢測方法的一個迭代聚類步驟示例圖。
      [0034]圖5是本發(fā)明的一種基于PassiveDNS迭代聚類的惡意域名檢測方法的一個迭代聚類步驟示例圖。
      [0035]圖6是本發(fā)明的一種基于PassiveDNS迭代聚類的惡意域名檢測方法的一個迭代聚類步驟示例圖。
      [0036]圖7是本發(fā)明的一種基于PassiveDNS迭代聚類的惡意域名檢測方法的一個迭代聚類步驟示例圖。
      [0037]圖8是迭代聚類形成的分組中,一組惡意域樣本圖。
      【具體實施方式】
      [0038]下面結(jié)合附圖并參照數(shù)據(jù)進(jìn)一步詳細(xì)描述本發(fā)明。應(yīng)理解,實施方式只是為了舉例說明本發(fā)明,而非以任何方式限制發(fā)明的范圍。
      [0039]如圖2所示,本發(fā)明公開了一種基于PassiveDNS迭代聚類的惡意域名檢測方法,包括如下步驟:
      [0040]步驟一,即數(shù)據(jù)收集:提取DNS查詢數(shù)據(jù),得到DNS數(shù)據(jù)組;
      [0041 ]以DNS服務(wù)器的網(wǎng)絡(luò)出口為數(shù)據(jù)源,從DNS查詢數(shù)據(jù)中提取出四元組(d,i,Tf,Ti,c),d為請求域名,i為響應(yīng)IP,Tf為開始時間,Ti為結(jié)束時間,c為該域名在Tf到Ti時間段內(nèi)的請求次數(shù),時間窗口 W=Tf-Ti,在一個實施例中時間窗口 W = Tf-Ti為5分鐘,并將提取出的數(shù)據(jù)存入本地數(shù)據(jù)庫。
      [0042]步驟二,即數(shù)據(jù)預(yù)處理:根據(jù)已知的白名單域名網(wǎng)站及域名的總訪問量,去除DNS數(shù)據(jù)組中包含白名單域名的數(shù)據(jù)組,得到處理后DNS數(shù)據(jù)組;
      [0043]獲取public suffix列表和Alexa top 10000列表。將全部的域名數(shù)據(jù)根據(jù)每個域名包含的比public suffix低一級的子域名進(jìn)行歸并。與Alexa前10000域名歸并在同一組的域名加入白名單。進(jìn)一步的,計算每組域名的總訪問量,超過閾值m的,則認(rèn)為該組域名為大型網(wǎng)站或CDN服務(wù)商的域名,加入白名單。將白名單域名從數(shù)據(jù)中刪除。優(yōu)選的,閾值m取值 10000 0
      [0044]獲取public suffix列表和Alexa排名前10000的域名。將Alexa前10000域名和收集的DNS數(shù)據(jù)組分別根據(jù)public suffix層級的數(shù)量進(jìn)行歸并,如果public suffix包含了η級域名,則有相同的η+1級域名的全部域名歸為一組;DNS數(shù)據(jù)組中,與Alexa前10000域名有相同η+1級域名的分組作為可信任的域名組從流量數(shù)據(jù)中刪除,加入白名單數(shù)據(jù)庫;計算每組域名訪問總量C,如果C大于預(yù)設(shè)的閾值m,則認(rèn)為該組域名為大型網(wǎng)站或CDN服務(wù)商的域名,將其從DNS數(shù)據(jù)組中刪除,加入白名單數(shù)據(jù)庫,在一個實施例中,閾值m取值10000。
      [0045]步驟三,即迭代聚類:通過處理后DNS數(shù)據(jù)組中域名與IP之間的相互映射關(guān)系,反復(fù)迭代查詢,得到存在關(guān)聯(lián)的域名組;
      [0046]通過域名到IP,IP到域名的相互映射關(guān)系,反復(fù)迭代查詢,即可將有關(guān)聯(lián)的域名聚合到一起,步驟如下:
      [0047](I):在輸入的處理后DNS數(shù)據(jù)組中,取時間周期T內(nèi)的數(shù)據(jù)。優(yōu)選的,周期T取值為I天。選定一個域名Do,查找這個域名在時間周期T內(nèi)映射到的全部IP,解析到這一組IP的全部域名形成一個集合Cn;
      [0048](2):查詢周期T內(nèi)集合Cn中的域名解析過的全部IP,解析到這一組IP的全部域名形成集合Cn’,完成一次迭代循環(huán);
      [0049](3):如果集合Cn’不等于集合Cn,那么繼續(xù)查詢(:?’中的域名解析到的IP,找到周期T內(nèi)曾解析到這一組IP的全部域名,形成集合Cn,如果集合Cn’不等于集合Cn則回到步驟(2),直到集合Cn ’等于集合Cn。
      [0050]如此迭代進(jìn)行下去,直到集合大小不再變化,即集合匕等于集合Cn’,集合Cn即為與域名Do有關(guān)聯(lián)的全部域名。
      [0051]圖3-圖7示出了一個實施例中迭代聚類的詳細(xì)過程。其中,圖3表示從域名Dl開始迭代。圖4為第一次迭代結(jié)果,集合&1為(01,03,04);圖5為第二次迭代結(jié)果,集合0/為(01,D2,D3,D4,D5),此時集合匕,不等于集合Cn,所以繼續(xù)迭代。圖6為第三次迭代結(jié)果,集合匕為(01,02,03,04,05,06),此時集合&1’不等于集合&1,繼續(xù)進(jìn)行第四次。如圖7,此時集合0/為(01,02,03,04,05,06),集合&1’等于集合&1,結(jié)束迭代,域名01,02,03,04,05,06形成一個分組。
      [0052]步驟四,即機(jī)器學(xué)習(xí):抽取惡意域名的特征并訓(xùn)練得到模型,判斷存在關(guān)聯(lián)的域名組是否存在惡意域名。惡意域名的特征包括域名數(shù)量、域名各級標(biāo)簽長度的分布范圍和離散程度、域名標(biāo)簽數(shù)量的離散程度、隨機(jī)標(biāo)簽的分布狀況、同一組域名中相同字符的長度以及域名中包含的數(shù)字?jǐn)?shù)量。在一個實施例中通過支持向量機(jī)建立模型。
      [0053]如圖8所示,迭代聚類形成的分組中,惡意域名組表現(xiàn)出了明顯的字符特征,我們進(jìn)而總結(jié)了惡意域名組的特征:
      [0054]I)域名組的域名數(shù)量:攻擊者會注冊大量域名來規(guī)避檢測,所以域名組中的域名越多,該域名組越可疑。
      [0055]2)域名各級標(biāo)簽長度的分布范圍和離散程度:域名生成算法通常會產(chǎn)生一些在相同長度范圍內(nèi)的字符串,再添加公共的域名后綴(public suffix)。有的域名生成算法產(chǎn)生的域名長度甚至完全一致。由此可見,同一個惡意軟件使用的域名總長應(yīng)大致相同或者分布集中。因此我們將域名長度的分布范圍和離散程度作為惡意域名組的一個特征。
      [0056]3)域名標(biāo)簽數(shù)量的離散程度:常見的惡意域名域名的構(gòu)成通常為“隨機(jī)標(biāo)簽.后綴”或者“固定前綴.隨機(jī)標(biāo)簽.后綴”,由于域名后綴長度較為一致,因此,同一組惡意域名的層次數(shù)量,或者說標(biāo)簽數(shù)量,應(yīng)較為接近或完全相同。
      [0057]4)隨機(jī)標(biāo)簽的分布狀況:由于同一組惡意域名后綴的層次數(shù)相對一致,因此,它們的隨機(jī)標(biāo)簽所在的層次也大多保持一致,通常為二級或三級。與之相對的,其他應(yīng)用的最長標(biāo)簽則可能并不位于注冊域名標(biāo)簽,例如DNS隧道和域名,其注冊域名之前的前綴部分,SP存儲數(shù)據(jù)的標(biāo)簽長度遠(yuǎn)大于注冊標(biāo)簽即注冊后綴。所以我們將域名組中隨機(jī)標(biāo)簽的分布狀況作為惡意域名組的一個特征。
      [0058]5)同一組域名中相同字符的長度以及域名中數(shù)字的數(shù)量:我們發(fā)現(xiàn),還有一類惡意域名會在相同的層次中出現(xiàn)重疊的部分,比如“固定的字符+不同的數(shù)字或字符”或“不同的數(shù)字或字符+固定的字符”,這些域名多用于非法的服務(wù),包括色情網(wǎng)站、釣魚網(wǎng)站等,此類域名通常還會包含大量的數(shù)字或重復(fù)的字符。將上述特征向量化,輸入已知的惡意域名數(shù)據(jù)進(jìn)行訓(xùn)練得到模型,即可對迭代聚類形成的分組數(shù)據(jù)進(jìn)行預(yù)測。經(jīng)實驗測試,SVM算法可以達(dá)到最高的正檢率。
      [0059]以上詳細(xì)描述了本發(fā)明的較佳具體實施例。應(yīng)當(dāng)理解,本領(lǐng)域的普通技術(shù)人員無需創(chuàng)造性勞動就可以根據(jù)本發(fā)明的構(gòu)思作出諸多修改和變化。因此,凡本技術(shù)領(lǐng)域中技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實驗可以得到的技術(shù)方案,皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。
      【主權(quán)項】
      1.一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,包括如下步驟: 步驟一:提取DNS查詢數(shù)據(jù),得到DNS數(shù)據(jù)組; 步驟二:根據(jù)已知的白名單域名網(wǎng)站及域名的總訪問量,去除DNS數(shù)據(jù)組中包含白名單域名的數(shù)據(jù)組,得到處理后DNS數(shù)據(jù)組; 步驟三:通過處理后DNS數(shù)據(jù)組中域名與IP之間的相互映射關(guān)系,反復(fù)迭代查詢,得到存在關(guān)聯(lián)的域名組; 步驟四:抽取惡意域名的特征并訓(xùn)練得到模型,判斷存在關(guān)聯(lián)的域名組是否存在惡意域名。2.如權(quán)利要求1所述的一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,在所述步驟一中,所述DNS數(shù)據(jù)組包括四元組(d,i,Tf,Ti,c),d為請求域名,i為響應(yīng)IP,Tf為開始時間,Ti為結(jié)束時間,c為該域名在Tf到Ti時間段內(nèi)的請求次數(shù),時間窗口 W=Tf-Ti。3.如權(quán)利要求2所述的一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,所述時間窗口 W的取值為5分鐘。4.如權(quán)利要求1所述的一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,所述步驟二中,所述白名單域名網(wǎng)站包括Alexa前10000域名,將所述Alexa前10000域名和所述DNS數(shù)據(jù)組中的域名包含的比pub lie suffix低一級的子域名進(jìn)行歸并分組,去除DNS數(shù)據(jù)組中包含與Alexa前10000域名有相同的低一級域名的數(shù)據(jù)組。5.如權(quán)利要求1所述的一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,所述步驟二中,當(dāng)所述域名的總訪問量大于預(yù)設(shè)的閾值,則去除DNS數(shù)據(jù)組中包含相應(yīng)域名的數(shù)據(jù)組。6.如權(quán)利要求5所述的一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,所述閾值取值10000。7.如權(quán)利要求2所述的一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,所述步驟三中反復(fù)迭代查詢的具體步驟包括:在所述處理后DNS數(shù)據(jù)組中選定一個域名Do,查找所述域名Do在時間周期T內(nèi)映射到的全部第一 IP;解析所述第一 IP的全部域名形成第一集合匕,查詢在所述時間周期T內(nèi)第一集合Cn中的域名解析過的全部第二 IP,解析到所述第二IP的全部域名形成第二集合Cn’,即完成一次迭代循環(huán);當(dāng)所述迭代循環(huán)中得到的第一集合Cn和第二集合Cn’不相等,則繼續(xù)所述迭代循環(huán);當(dāng)所述迭代循環(huán)中得到的第一集合Cn和第二集合Cn ’相等,則結(jié)束所述迭代循環(huán)。8.如權(quán)利要求7所述的一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,所述時間周期T為一天。9.如權(quán)利要求1所述的一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,所述惡意域名的特征包括域名數(shù)量、域名各級標(biāo)簽長度的分布范圍和離散程度、域名標(biāo)簽數(shù)量的離散程度、隨機(jī)標(biāo)簽的分布狀況、同一組域名中相同字符的長度以及域名中包含的數(shù)字?jǐn)?shù)量。10.如權(quán)利要求1所述的一種基于PassiveDNS迭代聚類的惡意域名檢測方法,其特征在于,所述模型為支持向量機(jī)模型。
      【文檔編號】H04L29/12GK106060067SQ201610497879
      【公開日】2016年10月26日
      【申請日】2016年6月29日
      【發(fā)明人】鄒福泰, 孫文杰, 譚凌霄, 劉渝嬌
      【申請人】上海交通大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1