惡意url的形式化檢測方法和系統(tǒng)的制作方法

文檔序號：7971049閱讀：152來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：惡意url的形式化檢測方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機網(wǎng)絡(luò)安全技術(shù)領(lǐng)域，尤其涉及一種惡意URL的形式化檢測方法和系統(tǒng)。
背景技術(shù)：
根據(jù)RFC 規(guī)范,URL (Uniform Resource Locator)的語法格式如下“scheme://username:password@domain:port/path query_string#fragment_id，，(參看RFC1738 標(biāo)準(zhǔn)http://www. ietf. org/rfc/rfcl738. txt),所有的URL都必須遵循這條規(guī)則，其中協(xié)議(scheme)部分如果省略默認(rèn)就是HTTP協(xié)議,用戶名密碼(username:password)部分是可以省略的，在HTTP協(xié)議中端口號(port)默認(rèn)是80，這項也是可以省略的，其中fragment_id部分在檢測是否為惡意URL中是沒有實際價值。根據(jù)URL格式的如上特征，可以認(rèn)為URL的格式存在多變性，多條不完全相同的URL可能指向相同的鏈接地址,例如www. xxxx. com和http://www. xxxx. com:80是同一個鏈接地址,在ftp協(xié)議的URL鏈接中，可以有多對相同訪問權(quán)限的用戶名和密碼，這樣即使用戶名密碼不同的ftp連接中，指向的訪問文件也是一致的，例如ftp://username:password@ftp. xxx. xxx/file,替換其他有訪問權(quán)限的用戶名和密碼不會影響該URL指向的文件。目前惡意URL的檢測方式都是基于字符串匹配的方法，安全廠商收集大量惡意URL,將其保存在特征庫中，在URL檢測時，僅僅進行字符串的比較，目前的這種方式可以解決大部分的惡意URL檢測問題，但是由于前面提到的URL格式的多變性，一條惡意URL —個簡單的變化，在沒有改變其惡意鏈接本質(zhì)的情況下，其內(nèi)容已經(jīng)和待匹配的病毒庫中的特征已經(jīng)不完全一致了，這樣就造成了殺毒軟件的漏報，許多黑客利用了這樣的漏洞，經(jīng)常變換其掛馬網(wǎng)站的URL地址的格式，用來逃避殺軟的攔截，有些惡意代碼在通過網(wǎng)絡(luò)傳播自身時，往往會修改其掛馬URL地址中的query部分內(nèi)的值，而且其值有可能是隨機產(chǎn)生的，通過這樣的辦法確保其惡意URL鏈接有更長的時效性。

發(fā)明內(nèi)容
本發(fā)明針對URL格式多變性的特點，自定義一套形式化規(guī)則將一條URL字符串轉(zhuǎn)換成統(tǒng)一的待檢測形式數(shù)據(jù)，用來和特征庫進行匹配，判定該URL是否為惡意鏈接。形式化的規(guī)則的出發(fā)點就是消除掉URL字符串格式的多變性，拋棄對檢測無實際意義的冗余信息，并補充URL字符串中不存在的默認(rèn)信息,形成格式為“scheme://domain:port/path”的待檢測URL字符串。為了解決上述問題，本發(fā)明提出了一種惡意URL的形式化檢測方法，包括
步驟a、根據(jù)RFC規(guī)范，按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串；
步驟b、從拆分得到的字符串中提取指定的字符串，包括協(xié)議、域名、端口號、和路徑；步驟c、判斷協(xié)議字符串和端口號字符串是否存在，對不存在的字符串部分進行補全處
理；步驟d、將補全處理后得到的字符串重新排序得到新URL，計算新URL的哈希值，作為與待檢測URL對應(yīng)的哈希值；
步驟e、遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。進一步的，對不存在的協(xié)議字符串或者不存在的端口號字符串進行補全處理包括步驟
判斷協(xié)議字符串是否存在，如果不存在則補充HTTP作為默認(rèn)協(xié)議；
判斷端口號字符串是否存在，如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。進一步的，根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號；如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號；其他協(xié)議統(tǒng)一處理，不用補充端口號，添加空字符串作為端口號。所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL，經(jīng)過所述的步驟a至步驟d得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。本發(fā)明針對惡意URL鏈接地址字符串格式存在多變性的特點，進行字符串格式的規(guī)則化處理，拋棄了多變的并且對檢測無意義的部分，補充了被默認(rèn)省略的部分，組成了含有足夠信息量的待檢測數(shù)據(jù)。規(guī)則化的URL地址的字符串格式為“ scheme: //domain: port/path”，保留了協(xié)議，域名，端口，和路徑，這些數(shù)據(jù)完全可以確定一條URL所指向的地址信息，所以對上述格式的數(shù)據(jù)進行檢測和對源URL數(shù)據(jù)進行檢測應(yīng)該是等效的。對于形成格式為“scheme://domain:port/path”的待檢測URL字符串，其中協(xié)議“scheme”部分如果被省略，就加上默認(rèn)的http協(xié)議，端口 “port”部分如果被省略，如果是HTTP協(xié)議就加上默認(rèn)的80,如果是FTP協(xié)議就加上21,刪除URL的RFC規(guī)范中username, password,query_string, fragment_id部分,到此待檢測的URL字符串就完成了，例如URL鏈接地址為“www. test, com/main/index, html”,經(jīng)過上述規(guī)則的形式化后轉(zhuǎn)變?yōu)?“http://www. test,com:80/main/index, html”。為了方便檢測和控制特征庫的規(guī)模,還要將待檢測的URL字符串計算哈希后作為檢測數(shù)據(jù)。相應(yīng)的，本發(fā)明還提供了一種惡意URL的形式化檢測系統(tǒng)，包括
拆分單元，用于根據(jù)RFC規(guī)范，按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符
串;
提取單元，用于從拆分得到的字符串中提取指定的字符串，包括協(xié)議、域名、端口號、和路徑；
整理單元，用于判斷協(xié)議字符串和端口號字符串是否存在，對不存在的字符串部分進行補全處理；
計算單元，用于將補全處理后得到的字符串重新排序得到新URL，計算新URL的哈希值，作為與待檢測URL對應(yīng)的哈希值
匹配單元，用于遍歷惡意URL特征庫，用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。進一步的，整理單元具體還用于
判斷協(xié)議字符串是否存在，如果不存在則補充HTTP作為默認(rèn)協(xié)議；判斷端口號字符串是否存在，如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。進一步的，根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口具體包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號；如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號；其他協(xié)議統(tǒng)一處理，不用補充端口號，添加空字符串作為端口號。所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL，經(jīng)過所述的拆分單元、提取單元、整理單元、計算單元之后得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。
本發(fā)明的有益效果是
本發(fā)明提出的惡意URL的檢測辦法可以有效對抗URL格式的多變性，相對傳統(tǒng)的URL檢測方法可以對經(jīng)常變化格式的惡意URL有更高的檢出率，由于下載者類木馬經(jīng)常自動變換下載惡意代碼的URL地址格式，或者在下載惡意代碼URL的Query域中添加沒有實際意義的隨機值來逃避殺毒軟件的攔截，本檢測方法對這類病毒木馬有非常好的檢出率。本檢測方法可以采用單條特征對應(yīng)多條惡意URL的格式變體，所以該檢測方法所需要的病毒特征庫體積更小，更加節(jié)省內(nèi)存和磁盤空間。

為了更清楚地說明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明惡意URL的形式化檢測方法流程圖2為本發(fā)明惡意URL的形式化檢測方法具體實施例流程圖3為本發(fā)明惡意URL的形式化檢測系統(tǒng)框圖。
具體實施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例中的技術(shù)方案，并使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖對本發(fā)明中技術(shù)方案作進一步詳細(xì)的說明。本發(fā)明針對惡意URL鏈接地址字符串格式存在多變性的特點，進行字符串格式的規(guī)則化處理，拋棄了多變的并且對檢測無意義的部分，補充了被默認(rèn)省略的部分，組成了含有足夠信息量的待檢測數(shù)據(jù)。規(guī)則化的URL地址的字符串格式為“ scheme: //domain: port/path”，保留了協(xié)議，域名，端口，和路徑，這些數(shù)據(jù)完全可以確定一條URL所指向的地址信息，所以對上述格式的數(shù)據(jù)進行檢測和對源URL數(shù)據(jù)進行檢測應(yīng)該是等效的。如圖I所示，是本發(fā)明惡意URL的形式化檢測方法流程圖，包括步驟
5101、根據(jù)RFC規(guī)范，按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串；
5102、從拆分得到的字符串中提取指定的字符串，包括協(xié)議、域名、端口號、和路徑；
5103、判斷協(xié)議字符串和端口號字符串是否存在，對不存在的字符串部分進行補全處
理；其中，對不存在的協(xié)議字符串或者不存在的端口號字符串進行補全處理包括步驟判斷協(xié)議字符串是否存在，如果不存在則補充HTTP作為默認(rèn)協(xié)議；
判斷端口號字符串是否存在，如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號；如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號；其他協(xié)議統(tǒng)一處理，不用補充端口號，添加空字符串作為端口號。S104、將補全處理后得到的字符串重新排序得到新URL，計算新URL的哈希值，作為與待檢測URL對應(yīng)的哈希值； S105、遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL，經(jīng)過所述的步驟SlOl至步驟S104得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。下面給出本發(fā)明惡意URL的形式化檢測方法的具體實施例，如圖2所示，包括步驟
S201、拆分URL字符串為數(shù)個語法元素域塊的字符串。自行編寫程序代碼，根據(jù)RFC規(guī)范將待檢測的URL字符串拆解為數(shù)個字符串，分別得到(scheme)協(xié)議部分，(username:password)用戶名密碼部分，(domain)域名或IP地址部分,(port)端口部分，(path)路徑部分,(query_string)查詢字符串部分,和(fragment_id)片段部分。S202、提取其中的協(xié)議，域名，端口，和路徑部分。S203、判斷是否存在協(xié)議部分，如果不存在進行步驟S204，否則進行步驟S205 ； S204、補充HTTP作為默認(rèn)協(xié)議。S205、判斷是否存在端口部分，如果不存在進行步驟S206，否則進行步驟S211 ;
5206、判斷協(xié)議類型是否為HTTP協(xié)議，如果是進行步驟S207，否則進行步驟S208；
5207、補充80作為默認(rèn)端口號；
5208、判斷協(xié)議類型是否為FTP協(xié)議，如果是進行步驟S209，否則進行步驟S210；
5209、補充21作為默認(rèn)端口號；
5210、其他協(xié)議統(tǒng)一處理，添加空字符串作為端口號，然后進行步驟S211；
5211、重新組合各個URL字符串作為待檢測的URL字符串；
按照“ scheme: //domain: port/path ”格式重新組合URL字符串。S212、計算上步得到的待檢測URL字符串的哈希值，例如可以是MD5值。S213、遍歷惡意URL特征庫，匹配上步得到的哈希值，如MD5值。惡意URL特征庫是反病毒廠商捕獲的惡意URL鏈接地址，經(jīng)過上面同樣的算法得到的哈希值列表。下面介紹本發(fā)明提供的惡意URL的形式化檢測系統(tǒng)，如圖3所示，包括
拆分單元301，用于根據(jù)RFC規(guī)范，按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串；
提取單元302，用于從拆分得到的字符串中提取指定的字符串，包括協(xié)議、域名、端口號、和路徑；
整理單元303，用于判斷協(xié)議字符串和端口號字符串是否存在，對不存在的字符串部分進行補全處理；
計算單元304，用于將補全處理后得到的字符串重新排序得到新URL，計算新URL的哈希值，作為與待檢測URL對應(yīng)的哈希值
匹配單元305，用于遍歷惡意URL特征庫，用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。整理單元303具體還用于
判斷協(xié)議字符串是否存在，如果不存在則補充HTTP作為默認(rèn)協(xié)議；判斷端口號字符串是否存在，如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。其中，根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口具體包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號；如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號；其他協(xié)議統(tǒng)一處理，添加空字符串作為端口號。所述系統(tǒng)還包括惡意URL特征庫300，是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL，經(jīng)過所述的拆分單元301、提取單元302、整理單元303、計算單元304之后得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。本說明書中方法的實施例采用遞進的方式描述，對于系統(tǒng)實施例而言，由于其基本相似于方法實施例，所以描述的比較簡單，相關(guān)之處參見方法實施例的部分說明即可。雖然通過實施例描繪了本發(fā)明，本領(lǐng)域普通技術(shù)人員知道，本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神，希望所附的權(quán)利要求包括這些變形和變化而不脫離本發(fā)明的精神。
權(quán)利要求
1.惡意URL的形式化檢測方法，其特征在于，包括步驟a、根據(jù)RFC規(guī)范，按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串；步驟b、從拆分得到的字符串中提取指定的字符串，包括協(xié)議、域名、端口號、和路徑；步驟c、判斷協(xié)議字符串和端口號字符串是否存在，對不存在的字符串部分進行補全處理；步驟d、將補全處理后得到的字符串重新排序得到新URL，計算新URL的哈希值，作為與待檢測URL對應(yīng)的哈希值；步驟e、遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。
2.如權(quán)利要求I所述的惡意URL的形式化檢測方法，其特征在于，對不存在的協(xié)議字符串或者不存在的端口號字符串進行補全處理包括步驟判斷協(xié)議字符串是否存在，如果不存在則補充HTTP作為默認(rèn)協(xié)議；判斷端口號字符串是否存在，如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。
3.如權(quán)利要求2所述的惡意URL的形式化檢測方法，其特征在于，根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號；如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號；其他協(xié)議統(tǒng)一處理，添加空字符串作為端口號。
4.如權(quán)利要求I所述的惡意URL的形式化檢測方法，其特征在于，所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL，經(jīng)過所述的步驟a至步驟d得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。
5.惡意URL的形式化檢測系統(tǒng)，其特征在于，包括拆分單元，用于根據(jù)RFC規(guī)范，按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串; 提取單元，用于從拆分得到的字符串中提取指定的字符串，包括協(xié)議、域名、端口號、和路徑；整理單元，用于判斷協(xié)議字符串和端口號字符串是否存在，對不存在的字符串部分進行補全處理；計算單元，用于將補全處理后得到的字符串重新排序得到新URL，計算新URL的哈希值，作為與待檢測URL對應(yīng)的哈希值匹配單元，用于遍歷惡意URL特征庫，用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。
6.如權(quán)利要求5所述的惡意URL的形式化檢測系統(tǒng)，其特征在于，整理單元具體還用于判斷協(xié)議字符串是否存在，如果不存在則補充HTTP作為默認(rèn)協(xié)議；判斷端口號字符串是否存在，如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。
7.如權(quán)利要求6所述的惡意URL的形式化檢測系統(tǒng)，其特征在于，其特征在于，根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口具體包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號；如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號；其他協(xié)議統(tǒng)一處理，添加空字符串作為端口號。
8.如權(quán)利要求5所述的惡意URL的形式化檢測系統(tǒng)，其特征在于，所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL，經(jīng)過所述的拆分單元、提取單元、整理單元、計算單元之后得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。
全文摘要
本發(fā)明公開了一種惡意URL的形式化檢測方法，包括根據(jù)RFC規(guī)范，按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串；從拆分得到的字符串中提取指定的字符串；補全處理不存在的字符串；將補全處理后得到的字符串重新排序得到新URL，計算新URL的哈希值；遍歷惡意URL特征庫，用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL的哈希值進行對比檢測。本發(fā)明還公開了一種惡意URL的形式化檢測系統(tǒng)。本發(fā)明提出的技術(shù)方案可以有效對抗URL格式的多變性，相對傳統(tǒng)的URL檢測方法可以對經(jīng)常變化格式的惡意URL有更高的檢出率，也可以采用單條特征對應(yīng)多條惡意URL的格式變體，所以該檢測方法所需要的病毒特征庫體積更小，更加節(jié)省內(nèi)存和磁盤空間。
文檔編號H04L12/26GK102843271SQ20111035801
公開日2012年12月26日申請日期2011年11月14日優(yōu)先權(quán)日2011年11月14日
發(fā)明者蘇培旺, 李石磊, 張栗偉申請人:哈爾濱安天科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蘇培旺;李石磊;張栗偉
技術(shù)所有人：哈爾濱安天科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

點火系統(tǒng)故障檢測方法相關(guān)技術(shù)

艾滋病檢測方法相關(guān)技術(shù)

甲醛檢測方法相關(guān)技術(shù)

黃曲霉毒素檢測方法相關(guān)技術(shù)

壓實度檢測方法相關(guān)技術(shù)

大腸桿菌檢測方法相關(guān)技術(shù)

cod檢測方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

惡意url的形式化檢測方法和系統(tǒng)的制作方法