專利名稱:惡意url的形式化檢測方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,尤其涉及一種惡意URL的形式化檢測方法和系統(tǒng)。
背景技術(shù):
根據(jù)RFC 規(guī)范,URL (Uniform Resource Locator)的語法格式如下“scheme://username:password@domain:port/path query_string#fragment_id,,(參看RFC1738 標(biāo)準(zhǔn)http://www. ietf. org/rfc/rfcl738. txt),所有的URL都必須遵循這條規(guī)則,其中協(xié)議(scheme)部分如果省略默認(rèn)就是HTTP協(xié)議,用戶名密碼(username:password)部分是可以 省略的,在HTTP協(xié)議中端口號(port)默認(rèn)是80,這項也是可以省略的,其中fragment_id部分在檢測是否為惡意URL中是沒有實際價值。根據(jù)URL格式的如上特征,可以認(rèn)為URL的格式存在多變性,多條不完全相同的URL可能指向相同的鏈接地址,例如www. xxxx. com和http://www. xxxx. com:80是同一個鏈接地址,在ftp協(xié)議的URL鏈接中,可以有多對相同訪問權(quán)限的用戶名和密碼,這樣即使用戶名密碼不同的ftp連接中,指向的訪問文件也是一致的,例如ftp://username:password@ftp. xxx. xxx/file,替換其他有訪問權(quán)限的用戶名和密碼不會影響該URL指向的文件。目前惡意URL的檢測方式都是基于字符串匹配的方法,安全廠商收集大量惡意URL,將其保存在特征庫中,在URL檢測時,僅僅進行字符串的比較,目前的這種方式可以解決大部分的惡意URL檢測問題,但是由于前面提到的URL格式的多變性,一條惡意URL —個簡單的變化,在沒有改變其惡意鏈接本質(zhì)的情況下,其內(nèi)容已經(jīng)和待匹配的病毒庫中的特征已經(jīng)不完全一致了,這樣就造成了殺毒軟件的漏報,許多黑客利用了這樣的漏洞,經(jīng)常變換其掛馬網(wǎng)站的URL地址的格式,用來逃避殺軟的攔截,有些惡意代碼在通過網(wǎng)絡(luò)傳播自身時,往往會修改其掛馬URL地址中的query部分內(nèi)的值,而且其值有可能是隨機產(chǎn)生的,通過這樣的辦法確保其惡意URL鏈接有更長的時效性。
發(fā)明內(nèi)容
本發(fā)明針對URL格式多變性的特點,自定義一套形式化規(guī)則將一條URL字符串轉(zhuǎn)換成統(tǒng)一的待檢測形式數(shù)據(jù),用來和特征庫進行匹配,判定該URL是否為惡意鏈接。形式化的規(guī)則的出發(fā)點就是消除掉URL字符串格式的多變性,拋棄對檢測無實際意義的冗余信息,并補充URL字符串中不存在的默認(rèn)信息,形成格式為“scheme://domain:port/path”的待檢測URL字符串。為了解決上述問題,本發(fā)明提出了一種惡意URL的形式化檢測方法,包括
步驟a、根據(jù)RFC規(guī)范,按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串;
步驟b、從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號、和路徑; 步驟c、判斷協(xié)議字符串和端口號字符串是否存在,對不存在的字符串部分進行補全處
理;步驟d、將補全處理后得到的字符串重新排序得到新URL,計算新URL的哈希值,作為與待檢測URL對應(yīng)的哈希值;
步驟e、遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。進一步的,對不存在的協(xié)議字符串或者不存在的端口號字符串進行補全處理包括步驟
判斷協(xié)議字符串是否存在,如果不存在則補充HTTP作為默認(rèn)協(xié)議;
判斷端口號字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。進一步的,根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號;如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號;其他協(xié)議統(tǒng)一處理,不用補充端口號,添加空字符串作為端口號。所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL,經(jīng)過所述的步驟a至步驟d得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。本發(fā)明針對惡意URL鏈接地址字符串格式存在多變性的特點,進行字符串格式的規(guī)則化處理,拋棄了多變的并且對檢測無意義的部分,補充了被默認(rèn)省略的部分,組成了含有足夠信息量的待檢測數(shù)據(jù)。規(guī)則化的URL地址的字符串格式為“ scheme: //domain: port/path”,保留了協(xié)議,域名,端口,和路徑,這些數(shù)據(jù)完全可以確定一條URL所指向的地址信息,所以對上述格式的數(shù)據(jù)進行檢測和對源URL數(shù)據(jù)進行檢測應(yīng)該是等效的。對于形成格式為“scheme://domain:port/path”的待檢測URL字符串,其中協(xié)議“scheme”部分如果被省略,就加上默認(rèn)的http協(xié)議,端口 “port”部分如果被省略,如果是HTTP協(xié)議就加上默認(rèn)的80,如果是FTP協(xié)議就加上21,刪除URL的RFC規(guī)范中username, password,query_string, fragment_id部分,到此待檢測的URL字符串就完成了,例如URL鏈接地址為“www. test, com/main/index, html”,經(jīng)過上述規(guī)則的形式化后轉(zhuǎn)變?yōu)?“http://www. test,com:80/main/index, html”。為了方便檢測和控制特征庫的規(guī)模,還要將待檢測的URL字符串計算哈希后作為檢測數(shù)據(jù)。相應(yīng)的,本發(fā)明還提供了一種惡意URL的形式化檢測系統(tǒng),包括
拆分單元,用于根據(jù)RFC規(guī)范,按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符
串;
提取單元,用于從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號、和路徑;
整理單元,用于判斷協(xié)議字符串和端口號字符串是否存在,對不存在的字符串部分進行補全處理;
計算單元,用于將補全處理后得到的字符串重新排序得到新URL,計算新URL的哈希值,作為與待檢測URL對應(yīng)的哈希值
匹配單元,用于遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。進一步的,整理單元具體還用于
判斷協(xié)議字符串是否存在,如果不存在則補充HTTP作為默認(rèn)協(xié)議;判斷端口號字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。進一步的,根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口具體包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號;如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號;其他協(xié)議統(tǒng)一處理,不用補充端口號,添加空字符串作為端口號。所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL,經(jīng)過所述的拆分單元、提取單元、整理單元、計算單元之后得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。
本發(fā)明的有益效果是
本發(fā)明提出的惡意URL的檢測辦法可以有效對抗URL格式的多變性,相對傳統(tǒng)的URL檢測方法可以對經(jīng)常變化格式的惡意URL有更高的檢出率,由于下載者類木馬經(jīng)常自動變換下載惡意代碼的URL地址格式,或者在下載惡意代碼URL的Query域中添加沒有實際意義的隨機值來逃避殺毒軟件的攔截,本檢測方法對這類病毒木馬有非常好的檢出率。本檢測方法可以采用單條特征對應(yīng)多條惡意URL的格式變體,所以該檢測方法所需要的病毒特征庫體積更小,更加節(jié)省內(nèi)存和磁盤空間。
為了更清楚地說明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明惡意URL的形式化檢測方法流程 圖2為本發(fā)明惡意URL的形式化檢測方法具體實施例流程 圖3為本發(fā)明惡意URL的形式化檢測系統(tǒng)框圖。
具體實施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例中的技術(shù)方案,并使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明中技術(shù)方案作進一步詳細(xì)的說明。本發(fā)明針對惡意URL鏈接地址字符串格式存在多變性的特點,進行字符串格式的規(guī)則化處理,拋棄了多變的并且對檢測無意義的部分,補充了被默認(rèn)省略的部分,組成了含有足夠信息量的待檢測數(shù)據(jù)。規(guī)則化的URL地址的字符串格式為“ scheme: //domain: port/path”,保留了協(xié)議,域名,端口,和路徑,這些數(shù)據(jù)完全可以確定一條URL所指向的地址信息,所以對上述格式的數(shù)據(jù)進行檢測和對源URL數(shù)據(jù)進行檢測應(yīng)該是等效的。如圖I所示,是本發(fā)明惡意URL的形式化檢測方法流程圖,包括步驟
5101、根據(jù)RFC規(guī)范,按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串;
5102、從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號、和路徑;
5103、判斷協(xié)議字符串和端口號字符串是否存在,對不存在的字符串部分進行補全處
理;其中,對不存在的協(xié)議字符串或者不存在的端口號字符串進行補全處理包括步驟 判斷協(xié)議字符串是否存在,如果不存在則補充HTTP作為默認(rèn)協(xié)議;
判斷端口號字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號;如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號;其他協(xié)議統(tǒng)一處理,不用補充端口號,添加空字符串作為端口號。S104、將補全處理后得到的字符串重新排序得到新URL,計算新URL的哈希值,作為與待檢測URL對應(yīng)的哈希值; S105、遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL,經(jīng)過所述的步驟SlOl至步驟S104得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。下面給出本發(fā)明惡意URL的形式化檢測方法的具體實施例,如圖2所示,包括步驟
S201、拆分URL字符串為數(shù)個語法元素域塊的字符串。自行編寫程序代碼,根據(jù)RFC規(guī)范將待檢測的URL字符串拆解為數(shù)個字符串,分別得到(scheme)協(xié)議部分,(username:password)用戶名密碼部分,(domain)域名或IP地址部分,(port)端口部分,(path)路徑部分,(query_string)查詢字符串部分,和(fragment_id)片段部分。S202、提取其中的協(xié)議,域名,端口,和路徑部分。S203、判斷是否存在協(xié)議部分,如果不存在進行步驟S204,否則進行步驟S205 ; S204、補充HTTP作為默認(rèn)協(xié)議。S205、判斷是否存在端口部分,如果不存在進行步驟S206,否則進行步驟S211 ;
5206、判斷協(xié)議類型是否為HTTP協(xié)議,如果是進行步驟S207,否則進行步驟S208;
5207、補充80作為默認(rèn)端口號;
5208、判斷協(xié)議類型是否為FTP協(xié)議,如果是進行步驟S209,否則進行步驟S210;
5209、補充21作為默認(rèn)端口號;
5210、其他協(xié)議統(tǒng)一處理,添加空字符串作為端口號,然后進行步驟S211;
5211、重新組合各個URL字符串作為待檢測的URL字符串;
按照“ scheme: //domain: port/path ”格式重新組合URL字符串。S212、計算上步得到的待檢測URL字符串的哈希值,例如可以是MD5值。S213、遍歷惡意URL特征庫,匹配上步得到的哈希值,如MD5值。惡意URL特征庫是反病毒廠商捕獲的惡意URL鏈接地址,經(jīng)過上面同樣的算法得到的哈希值列表。下面介紹本發(fā)明提供的惡意URL的形式化檢測系統(tǒng),如圖3所示,包括
拆分單元301,用于根據(jù)RFC規(guī)范,按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串;
提取單元302,用于從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號、和路徑;
整理單元303,用于判斷協(xié)議字符串和端口號字符串是否存在,對不存在的字符串部分進行補全處理;
計算單元304,用于將補全處理后得到的字符串重新排序得到新URL,計算新URL的哈希值,作為與待檢測URL對應(yīng)的哈希值
匹配單元305,用于遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。整理單元303具體還用于
判斷協(xié)議字符串是否存在,如果不存在則補充HTTP作為默認(rèn)協(xié)議; 判斷端口號字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。其中,根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口具體包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號;如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號;其他協(xié)議統(tǒng)一處理,添加空字符串作為端口號。所述系統(tǒng)還包括惡意URL特征庫300,是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL,經(jīng)過所述的拆分單元301、提取單元302、整理單元303、計算單元304之后得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。本說明書中方法的實施例采用遞進的方式描述,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。雖然通過實施例描繪了本發(fā)明,本領(lǐng)域普通技術(shù)人員知道,本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神,希望所附的權(quán)利要求包括這些變形和變化而不脫離本發(fā)明的精神。
權(quán)利要求
1.惡意URL的形式化檢測方法,其特征在于,包括 步驟a、根據(jù)RFC規(guī)范,按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串; 步驟b、從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號、和路徑; 步驟c、判斷協(xié)議字符串和端口號字符串是否存在,對不存在的字符串部分進行補全處理; 步驟d、將補全處理后得到的字符串重新排序得到新URL,計算新URL的哈希值,作為與待檢測URL對應(yīng)的哈希值; 步驟e、遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。
2.如權(quán)利要求I所述的惡意URL的形式化檢測方法,其特征在于,對不存在的協(xié)議字符串或者不存在的端口號字符串進行補全處理包括步驟 判斷協(xié)議字符串是否存在,如果不存在則補充HTTP作為默認(rèn)協(xié)議; 判斷端口號字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。
3.如權(quán)利要求2所述的惡意URL的形式化檢測方法,其特征在于,根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號;如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號;其他協(xié)議統(tǒng)一處理,添加空字符串作為端口號。
4.如權(quán)利要求I所述的惡意URL的形式化檢測方法,其特征在于,所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL,經(jīng)過所述的步驟a至步驟d得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。
5.惡意URL的形式化檢測系統(tǒng),其特征在于,包括 拆分單元,用于根據(jù)RFC規(guī)范,按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串; 提取單元,用于從拆分得到的字符串中提取指定的字符串,包括協(xié)議、域名、端口號、和路徑; 整理單元,用于判斷協(xié)議字符串和端口號字符串是否存在,對不存在的字符串部分進行補全處理; 計算單元,用于將補全處理后得到的字符串重新排序得到新URL,計算新URL的哈希值,作為與待檢測URL對應(yīng)的哈希值 匹配單元,用于遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL對應(yīng)的哈希值進行對比檢測。
6.如權(quán)利要求5所述的惡意URL的形式化檢測系統(tǒng),其特征在于,整理單元具體還用于 判斷協(xié)議字符串是否存在,如果不存在則補充HTTP作為默認(rèn)協(xié)議; 判斷端口號字符串是否存在,如果不存在則根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口號。
7.如權(quán)利要求6所述的惡意URL的形式化檢測系統(tǒng),其特征在于,其特征在于,根據(jù)所述協(xié)議字符串中的協(xié)議類型補充默認(rèn)端口具體包括如果所述協(xié)議類型為HTTP協(xié)議則補充80作為默認(rèn)端口號;如果所述協(xié)議類型為FTP協(xié)議則補充21作為默認(rèn)端口號;其他協(xié)議統(tǒng)一處理,添加空字符串作為端口號。
8.如權(quán)利要求5所述的惡意URL的形式化檢測系統(tǒng),其特征在于,所述惡意URL特征庫是預(yù)先將反病毒廠商捕獲的每個惡意URL作為待檢測URL,經(jīng)過所述的拆分單元、提取單元、整理單元、計算單元之后得到與每個惡意URL對應(yīng)的哈希值組成的哈希值列表。
全文摘要
本發(fā)明公開了一種惡意URL的形式化檢測方法,包括根據(jù)RFC規(guī)范,按照URL語法結(jié)構(gòu)將待檢測URL拆分為語法元素字符串;從拆分得到的字符串中提取指定的字符串;補全處理不存在的字符串;將補全處理后得到的字符串重新排序得到新URL,計算新URL的哈希值;遍歷惡意URL特征庫,用惡意URL特征庫中的特征數(shù)據(jù)與待檢測URL的哈希值進行對比檢測。本發(fā)明還公開了一種惡意URL的形式化檢測系統(tǒng)。本發(fā)明提出的技術(shù)方案可以有效對抗URL格式的多變性,相對傳統(tǒng)的URL檢測方法可以對經(jīng)常變化格式的惡意URL有更高的檢出率,也可以采用單條特征對應(yīng)多條惡意URL的格式變體,所以該檢測方法所需要的病毒特征庫體積更小,更加節(jié)省內(nèi)存和磁盤空間。
文檔編號H04L12/26GK102843271SQ20111035801
公開日2012年12月26日 申請日期2011年11月14日 優(yōu)先權(quán)日2011年11月14日
發(fā)明者蘇培旺, 李石磊, 張栗偉 申請人:哈爾濱安天科技股份有限公司