句法指紋識別的制作方法【專利摘要】一種通過組成網(wǎng)站的構(gòu)造組件,識別網(wǎng)絡(luò)釣魚網(wǎng)站和展示每個網(wǎng)站的起源的方法。本方法包括識別新觀察到的網(wǎng)絡(luò)釣魚網(wǎng)站并使用本方法作為聚集網(wǎng)絡(luò)釣魚網(wǎng)站的距離度量。變更本方法內(nèi)的閾值演示了網(wǎng)絡(luò)釣魚調(diào)查人員識別許多網(wǎng)絡(luò)釣魚網(wǎng)站源頭以及各個網(wǎng)絡(luò)釣魚者的潛在能力。【專利說明】句法指紋識別[0001]相關(guān)申請的交叉引用[0002]根據(jù)35U.S.C.§119,本申請要求2011年7月8日提交的臨時專利申請序列號61/505,630的優(yōu)先權(quán),標題為“SyntacticalFingerprinting”,其全部內(nèi)容在此引用作為參考?!?br>技術(shù)領(lǐng)域:
】[0003]本發(fā)明針對自動地識別在工具欄內(nèi)新觀察到的網(wǎng)絡(luò)釣魚網(wǎng)站、為了調(diào)查而正確地標注所述網(wǎng)絡(luò)釣魚網(wǎng)站以及確定所述網(wǎng)絡(luò)釣魚網(wǎng)站的流行和起源的方法?!?br>背景技術(shù):
】[0004]研發(fā)人員已經(jīng)提出許多不同的技術(shù)用于檢測文件之間的相似性,比如確定源代碼中變化的技術(shù),例如普遍存在的Unix實用程序diff,或者通過ssdeep取證地識別系統(tǒng)文件的變種或惡意軟件。這些實用程序提供了確定文件變化的好處,比如對代碼段的編輯或者諸如插入或刪除若干字節(jié)的小變化。不過,需要幾乎嚴格匹配并非總是切合實際,并且這些技術(shù)對文件的起源是否相同不提供指示。為了識別網(wǎng)站是不是惡意,文件不一定需要完全相同,網(wǎng)絡(luò)釣魚就是一個實例情況。常用組件如表單和JavaScript函數(shù)過程在計算機罪犯的這個子集之中被開發(fā)和重用,從而能夠被用于識別新的網(wǎng)絡(luò)釣魚網(wǎng)站以及聚集類似的網(wǎng)站。[0005]網(wǎng)絡(luò)釣魚是社會工程攻擊,通常通過模仿機構(gòu),典型情況下模仿金融機構(gòu)的網(wǎng)站誘騙受害者提供敏感信息。收集的信息隨后用于獲得對賬戶信息的訪問權(quán)限或用于身份竊取。2008年,Gartner的研究報告了2008年因網(wǎng)絡(luò)釣魚欺詐超過500萬美國人損失平均361美元,損失大約將近20億美元。有兩種方法應(yīng)對這些攻擊:反應(yīng)和主動行動。[0006]反應(yīng)方式是用于許多金融機構(gòu)的情況,其中惡意內(nèi)容在被稱為“拆卸”的過程中從因特網(wǎng)去除。典型情況下,機構(gòu)把這個過程外包給“拆卸”公司。這些公司接收可能惡意的URL并判斷這些URL是不是網(wǎng)絡(luò)釣魚。如果網(wǎng)站是網(wǎng)絡(luò)釣魚網(wǎng)站,那么聯(lián)系該URL所在域的系統(tǒng)管理員隨后要求他刪除該內(nèi)容。不過,某些機構(gòu)已經(jīng)開始了主動行動方式,通過起訴和定罪以阻止網(wǎng)絡(luò)釣魚者從事未來的攻擊。[0007]機構(gòu)的反應(yīng)響應(yīng)包括在惡意內(nèi)容到達潛在受害者之前,經(jīng)由電子郵件過濾器和瀏覽器工具欄阻止它。電子郵件服務(wù)提供商、郵箱軟件比如微軟的Outlook和MozillaThunderbird或者反垃圾郵件廠商使用了惡意內(nèi)容所在的已知網(wǎng)站的URL列表(黑名單)、URL內(nèi)的特征以及統(tǒng)計技術(shù)(DSPAM,SpamAssassin等)以阻擋網(wǎng)絡(luò)釣魚郵件到達潛在的受害者。為了適應(yīng)垃圾郵件過濾器,網(wǎng)絡(luò)釣魚者經(jīng)由HTML隱藏電子郵件消息內(nèi)的內(nèi)容,假冒發(fā)件人的電子郵件和IP地址,并且創(chuàng)建隨機URL把受害者重定向到網(wǎng)絡(luò)釣魚網(wǎng)站。這些重定向可以協(xié)助使黑名單無效,因為每個URL都可以是隨機地唯一的。此外,研究人員已經(jīng)顯示出:黑名單識別出足夠百分比的URL要花兩小時而這些URL的垃圾郵件活動這是指為共同意圖而發(fā)送簡短、高容量分發(fā)的電子郵件消息——平均持續(xù)四至六小時。所以,到把URL列入黑名單之時,罪犯很可能已經(jīng)轉(zhuǎn)移到下一個網(wǎng)絡(luò)釣魚網(wǎng)站向新的URL發(fā)送垃圾郵件。[0008]瀏覽器工具欄是另一種反應(yīng)措施,往往采用類似技術(shù)識別網(wǎng)絡(luò)釣魚網(wǎng)站。工具欄使用URL黑名單與網(wǎng)站內(nèi)容的啟發(fā)式的結(jié)合以警告用戶網(wǎng)絡(luò)釣魚內(nèi)容(MozillaFirefox2011;InternetExplorer2011;Netcraft2011)。這些基于內(nèi)容的技術(shù)能夠使用網(wǎng)站的文本分析、WHOIS信息和圖像分析用于識別。這是這些反應(yīng)方式的一個主要弱點,并且是為何某些機構(gòu)也已經(jīng)開始采用主動行動方式的原因。[0009]機構(gòu)的某些響應(yīng)已經(jīng)轉(zhuǎn)向更為主動行動的方式,使用調(diào)查人員和法律實施以利用起訴和刑期的后果阻止網(wǎng)絡(luò)釣魚者。另一方面已經(jīng)證明,對網(wǎng)絡(luò)釣魚的調(diào)查難以調(diào)查和定罪。調(diào)查人員往往缺乏必要的工具和分析數(shù)據(jù)對罪犯建立強有力的證據(jù)。研究人員已經(jīng)試圖收集關(guān)于網(wǎng)絡(luò)釣魚事件的集合信息,以提供關(guān)于這種犯罪行為流行程度的數(shù)據(jù)報告。2007年,網(wǎng)絡(luò)釣魚者在相同的IP區(qū)塊創(chuàng)建若干域并主管這些域。為了把由同一網(wǎng)絡(luò)釣魚者創(chuàng)建的網(wǎng)站分在一組,開發(fā)了聚集算法,根據(jù)IP地址或網(wǎng)絡(luò)確定網(wǎng)絡(luò)釣魚網(wǎng)站的流行。因此根據(jù)這些網(wǎng)站所在之處指示網(wǎng)絡(luò)釣魚者的范圍。不過,最近已經(jīng)證明,網(wǎng)絡(luò)釣魚者正在共享常用的攻擊工具,并且有可能使用相同的漏洞利用工具危害網(wǎng)絡(luò)服務(wù)器;因此,如果若干網(wǎng)絡(luò)釣魚網(wǎng)站處在同一網(wǎng)絡(luò)上,未必表明該網(wǎng)站由同一網(wǎng)絡(luò)釣魚者創(chuàng)建。[0010]在先前工作中,開發(fā)的聚集算法采用了稱為DeepMD5Matching的文件匹配算法,通過文件集中類似文件的數(shù)量對網(wǎng)站集進行分組。這種技術(shù)展示了把由同一或類似網(wǎng)絡(luò)釣魚工具箱創(chuàng)建的若干網(wǎng)站組進行聚集的能力。這種技術(shù)的一個缺點是聚集以下網(wǎng)站的能力,它們由網(wǎng)站所在的域上的僅有一個文件組成。[0011]在阿拉巴馬大學(xué)伯明翰分校的研究表明,大約50%的網(wǎng)絡(luò)釣魚網(wǎng)站包含所在域的服務(wù)器上的僅僅一個文件,而提供更網(wǎng)站外觀和感覺的其它文件存在于另一臺服務(wù)器上,比如目標機構(gòu)的或商標的網(wǎng)絡(luò)服務(wù)器。作為響應(yīng),需要開發(fā)新的方式用于這樣的網(wǎng)站。【
發(fā)明內(nèi)容】[0012]本發(fā)明針對識別在工具欄內(nèi)新觀察到的網(wǎng)絡(luò)釣魚網(wǎng)站、為了調(diào)查而正確地標注所述網(wǎng)絡(luò)釣魚網(wǎng)站以及確定所述網(wǎng)絡(luò)釣魚網(wǎng)站的流行和起源的方法。句法指紋識別計算網(wǎng)絡(luò)釣魚網(wǎng)站主索引文件的構(gòu)造成分即組件的集之間的相似系數(shù)以確定相似度。所述方法能夠用于識別、標注以及分組相似的網(wǎng)站,它們可以提供網(wǎng)絡(luò)釣魚的作者身份或起始地址的證據(jù)。[0013]確切地說,所述句法指紋識別方法被用于找到文件關(guān)系并確定文件相似度。如此做的方式為把文件和大的字符串集解析為片段并將這些片段與其他文件或文檔進行對比而確定它們的相似度。句法指紋識別對網(wǎng)絡(luò)釣魚網(wǎng)站的識別能力部分地依賴于軟件開發(fā)人員在其程序或網(wǎng)站的開發(fā)中重用結(jié)構(gòu)和功能組件比如函數(shù)和類的實踐。同樣,人們重用論壇上的帖子和建議。[0014]除了確定網(wǎng)絡(luò)釣魚網(wǎng)站之間的關(guān)系,句法指紋識別還能夠被應(yīng)用到若干惡意軟件樣本以確定惡意軟件家族和惡意軟件版本。重疊的代碼段或函數(shù)可能表明病毒作者重用了來自另一個源的代碼,或者所述文件集全部來自同一文件家族(即從同一源創(chuàng)建)并隨著時間推移或所述代碼被分配給不同開發(fā)人員時被修改。論壇中成員往往重帖對用戶的建議,或傳遞來自其他論壇的新聞。在黑客或恐怖分子的情況下,論壇和論壇主題能夠被指紋識別以確定帖子的起源或起點。另外,黑客創(chuàng)建新工具或漏洞利用工具箱闖入電腦。這些漏洞利用工具箱往往重用來自先前工具箱的漏洞利用工具?;蛟S有可能顯示出漏洞利用工具箱家族和這些工具箱隨時間的演變。句法指紋識別也可以適用于分析因特網(wǎng)流量,無論通過網(wǎng)絡(luò)日志還是即時數(shù)據(jù)包俘獲。所述協(xié)議允許把流量解析為組件,并且這些組件可以對比以確定流量之間的相似度。加權(quán)的或白名單的方式能夠被用于去除對流量相似度沒有影響的常見組件。[0015]句法指紋識別的重要方面是其顯示出有可能通向文件的起源或家族的文件之間關(guān)系的能力,尤其是當文件格式遵循特定的語法樹或協(xié)議時。此外,句法指紋識別能夠被用作聚集算法的距離度量,以展示文件或協(xié)議家族如何隨時間演變。[0016]附圖簡要說明[0017]圖1是流程圖,展示了網(wǎng)絡(luò)釣魚網(wǎng)站的抽象語法樹指紋識別的方法;[0018]圖2展示了針對兩種不同商標的兩個網(wǎng)絡(luò)釣魚網(wǎng)站如何具有重疊的HTML構(gòu)造,比如JavaScript函數(shù);[0019]圖3展示了兩個源代碼片段之間的代碼變化;[0020]圖4展示了關(guān)于兩個訓(xùn)練集的句法指紋識別的ROC圖;[0021]圖5展示了使用句法指紋識別的集群?!揪唧w實施方式】[0022]本發(fā)明針對被稱為抽象語法樹指紋識別或句法指紋識別的新穎方法,用于對比相似的網(wǎng)絡(luò)釣魚網(wǎng)站文件結(jié)構(gòu)組件或構(gòu)造成分以確定相似度。預(yù)期這種技術(shù)可以應(yīng)用于計算不同于網(wǎng)絡(luò)釣魚網(wǎng)站文件的若干文件類型之間的相似度。這種相似度能夠被用于顯示網(wǎng)絡(luò)釣魚網(wǎng)站文件為同一起源并可能來自同一文件家族。一般來說,本方法包括把網(wǎng)頁比如網(wǎng)站索引頁解析為抽象語法樹。源代碼構(gòu)造成分可以包括網(wǎng)頁的常用元素比如表單、表或JavaScript代碼,但不限于僅僅這些組件。不是語法樹的每個構(gòu)造成分都被解析,因為某些網(wǎng)頁可能包含數(shù)千個構(gòu)造成分,可能導(dǎo)致比較和分析中的問題。下一步,對每個構(gòu)造成分都計算散列值,并且構(gòu)造成分散列值的集與其他釣魚網(wǎng)頁的構(gòu)造成分集進行對比。最后步驟使用相似系數(shù)(如KulCZynski2)產(chǎn)生相似度評分。取決于相似度評分的預(yù)定閾值,該網(wǎng)站被認為是與特定商標比如美國銀行相關(guān)聯(lián)的網(wǎng)絡(luò)釣魚網(wǎng)站。另外,根據(jù)相似度評分能夠確定該網(wǎng)站的起源。[0023]參考圖1,所構(gòu)建的系統(tǒng)10為了運行在計算機系統(tǒng)比如計算機服務(wù)器上,具有現(xiàn)代化的操作系統(tǒng),象微軟的視窗或UNIX的變種比如Linux。數(shù)據(jù)庫功能目前由PostgreSQL提供,它是強大的開源的對象-關(guān)系數(shù)據(jù)庫系統(tǒng),但是也可以用于其他數(shù)據(jù)庫平臺。目前,在系統(tǒng)中使用PERL控制經(jīng)由因特網(wǎng)的通信并解析所收到的電子郵件。雖然本發(fā)明人目前使用解釋型語言PERL,但是預(yù)期編譯語言比如C語言會最終實施所述系統(tǒng)的特征。[0024]啟動11后,系統(tǒng)10接收13所供給的URL12的字符串并把它們解析13為文本文件,每行具有分開的URL。URL12由各種各樣的來源提供,比如反垃圾郵件公司、反網(wǎng)絡(luò)釣魚公司、“關(guān)機”公司、受益人(如客戶)、客戶轉(zhuǎn)發(fā)的電子郵件、積極預(yù)防網(wǎng)絡(luò)釣魚網(wǎng)站泛濫的其他實體的通知或者保存著由反垃圾郵件協(xié)會所維護的URL集合的自動化數(shù)據(jù)庫發(fā)出的通信。此外,消費者可能有在其PC上運行的自治程序,自動從疑似網(wǎng)絡(luò)釣魚網(wǎng)站俘獲通信并把這些通信發(fā)送到系統(tǒng)10進行自動處理,或者消費者有可能手動地激活已安裝的插件,它被設(shè)計為與消費者的電子郵件程序合作,轉(zhuǎn)發(fā)疑似網(wǎng)絡(luò)釣魚通信的取證原始副本。另外,預(yù)解析程序(未顯示)可以接收向本系統(tǒng)轉(zhuǎn)發(fā)的電子郵件,并且提取電子郵件中出現(xiàn)的URL再把這些URL饋送到系統(tǒng)。典型情況下,編程語言PERL在其函數(shù)庫中包括解析函數(shù),能夠用于成功地解析電子郵件,產(chǎn)生電子郵件本體中出現(xiàn)的URL。[0025]決策步驟14提供了對重復(fù)URL和可能已被消費者報告為潛在網(wǎng)絡(luò)釣魚網(wǎng)站,但是被系統(tǒng)10的受益人先前確定為合法網(wǎng)站的URL的排除。例如,如果某特定域被預(yù)定義為保持受益人站點,那么利用該域名報告的全部URL將會被排除在系統(tǒng)的分析之外。去除有利的和重復(fù)的URL后,每個剩余疑似網(wǎng)絡(luò)釣魚網(wǎng)站URL的索引頁的網(wǎng)站內(nèi)容文件14都由系統(tǒng)10在因特網(wǎng)上檢索并下載。然后系統(tǒng)10預(yù)處理16每個網(wǎng)站內(nèi)容文件,包括去除網(wǎng)站內(nèi)容文件中的全部空格,并使文件不區(qū)分大小寫。預(yù)處理進一步包括去除在解壓網(wǎng)站上釣魚工具箱期間被添加到文件中的動態(tài)內(nèi)容或定位。預(yù)處理產(chǎn)生標準化的網(wǎng)站內(nèi)容文件。[0026]利用諸如BeautifulSoup的程序,識別了解析破損HTML的Python包、標準化網(wǎng)站內(nèi)容文件內(nèi)的HTML標簽,比如〈form〉、〈script〉和〈table〉標簽,并且為每個網(wǎng)站創(chuàng)建了抽象語法樹17。其他編程語言也可以用于解析網(wǎng)站文件。圖2展示了示范內(nèi)容文件。抽象語法樹由標識的HTML實體構(gòu)建,它們在樹中排列的順序與在導(dǎo)出它們的網(wǎng)站內(nèi)容文件中呈現(xiàn)的順序相同。[0027]把標準化網(wǎng)站內(nèi)容文件解析為抽象語法樹后,對每個標識的HTML實體計算18散列值。散列值集從每個網(wǎng)站內(nèi)容文件的每個HTML實體的散列值構(gòu)建并存儲在數(shù)據(jù)庫中。散列值通過計算MD5檢查和而獲得,利用了稱為“md5de印”的已知庫函數(shù)。Md5deep是使用MD5(消息摘要算法5)的散列函數(shù),產(chǎn)生唯一表示下載索引頁的單一整數(shù)值。眾所周知,散列函數(shù)是任何明確定義的過程序或數(shù)學(xué)函數(shù),將大量的有可能可變規(guī)模量的數(shù)據(jù)轉(zhuǎn)換為小數(shù)據(jù)項,通常是單一整數(shù),可以用作陣列的索引。在這種情況下,MD5散列函數(shù)被用來計算散列值,與其他存儲的散列值進行對比。[0028]一旦已存儲,從網(wǎng)站內(nèi)容文件的散列值集中隨機選擇的散列值便與已知網(wǎng)絡(luò)釣魚網(wǎng)站的HTML實體的散列值進行對比19。散列值呈現(xiàn)在按時間順序排列的散列值表中并被存儲在數(shù)據(jù)庫20上。散列值從最新到最舊排列。在對比期間,隨機選取的散列值與已知網(wǎng)絡(luò)釣魚網(wǎng)站的散列值按它們在表中呈現(xiàn)的順序進行對比。這樣,隨機選擇的散列值首先與近期添加的已知網(wǎng)絡(luò)釣魚散列值對比,然后再與較舊的散列值對比。如果對第一個隨機選擇的散列值在數(shù)據(jù)庫20中沒有找到匹配,便執(zhí)行來自疑似網(wǎng)站內(nèi)容文件的另一個散列值。如果在數(shù)據(jù)庫20中沒有找到匹配,反映所處理的URL沒有匹配,此URL就能夠被升級為由干預(yù)團隊進行人工審核。[0029]如果在數(shù)據(jù)庫20中找到了匹配,疑似網(wǎng)絡(luò)釣魚的URL的散列值集便與它已匹配的已知網(wǎng)絡(luò)釣魚的URL的散列值集進行對比,以產(chǎn)生相似度評分21。Kulczynski2系數(shù)產(chǎn)生相似度評分。Kulczynski2系數(shù)在公式I中表達,其中a是集合I與集合2之間匹配的文件構(gòu)造成分MD5或散列值的數(shù)量,b是集合I中的構(gòu)造成分沒有與集合2中文件構(gòu)造成分MD5匹配的數(shù)量,而c是集合2中的構(gòu)造成分沒有與集合I中文件構(gòu)造成分MD5匹配的數(shù)量?!緳?quán)利要求】1.一種識別網(wǎng)絡(luò)釣魚網(wǎng)站的方法,包括:a.提供計算機系統(tǒng),具有操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)以及用于控制通過因特網(wǎng)通信的通信系統(tǒng);b.向計算機系統(tǒng)發(fā)送通信,包含多個疑似網(wǎng)絡(luò)釣魚URL;c.檢索多個網(wǎng)絡(luò)釣魚URL的每個疑似網(wǎng)絡(luò)釣魚URL的網(wǎng)站內(nèi)容文件,該網(wǎng)站內(nèi)容文件包括構(gòu)造組件;d.預(yù)處理網(wǎng)站內(nèi)容文件,從而為多個疑似網(wǎng)絡(luò)釣魚URL的每一個產(chǎn)生標準化的網(wǎng)站內(nèi)容文件集;e.為標準化的網(wǎng)站內(nèi)容文件集的每一個創(chuàng)建抽象語法樹;f.為每個標準化的網(wǎng)站內(nèi)容文件集的每個構(gòu)造組件計算散列值,并且為每個標準化的網(wǎng)站內(nèi)容文件集都從中構(gòu)建散列值集;g.從第一個散列值集選擇第一個散列值并且把第一個散列值與已知網(wǎng)絡(luò)釣魚網(wǎng)站構(gòu)造組件的散列值進行對比,以定位匹配的散列值;h.如果匹配的散列值已定位,把第一個散列值集與匹配的散列值的散列值集進行對比并創(chuàng)建相似度評分;以及i.如果相似度評分達到或超過預(yù)定閾值,把導(dǎo)出第一個散列值的疑似URL指定為網(wǎng)絡(luò)釣魚網(wǎng)站。2.根據(jù)權(quán)利要求1的方法,其中,所述通信被發(fā)送自反垃圾郵件公司、反網(wǎng)絡(luò)釣魚公司、關(guān)機公司、在客戶計算機系統(tǒng)上運行的自治程序,該自治程序被配置為自動地俘獲疑似網(wǎng)絡(luò)釣魚網(wǎng)站的通信并把疑似網(wǎng)絡(luò)釣魚網(wǎng)站的通信發(fā)送到所述計算機系統(tǒng)。3.根據(jù)權(quán)利要求1的方法,其中,以電子郵件本體發(fā)送多個疑似網(wǎng)絡(luò)釣魚URL時,從采用第一解析程序的通信中提取所述多個疑似網(wǎng)絡(luò)釣魚URL。4.根據(jù)權(quán)利要求1的方法,進一步包括在步驟c之前,從多個疑似網(wǎng)絡(luò)釣魚URL中去除以下情形的任何疑似網(wǎng)絡(luò)釣魚URL:已知有利URL、已知網(wǎng)絡(luò)釣魚URL或者所述多個疑似網(wǎng)絡(luò)釣魚URL中另一個網(wǎng)絡(luò)釣魚URL的副本的URL。5.根據(jù)權(quán)利要求1的方法,進一步包括在所述計算機系統(tǒng)上存儲網(wǎng)站內(nèi)容文件。6.根據(jù)權(quán)利要求1的方法,其中,預(yù)處理包括一項或多項以下操作:從網(wǎng)站內(nèi)容文件中去除空格、使網(wǎng)站內(nèi)容文件不區(qū)分大小寫或者從網(wǎng)站內(nèi)容文件中去除動態(tài)內(nèi)容。7.根據(jù)權(quán)利要求1的方法,其中,網(wǎng)站內(nèi)容文件從所檢索的網(wǎng)站內(nèi)容文件的索引頁中導(dǎo)出。8.根據(jù)權(quán)利要求1的方法,其中,創(chuàng)建抽象語法樹包括解析標準化的網(wǎng)站內(nèi)容文件集內(nèi)的HTML標簽并構(gòu)建HTML實體的抽象語法樹。9.根據(jù)權(quán)利要求1的方法,進一步包括在所述計算機系統(tǒng)上存儲散列值。10.根據(jù)權(quán)利要求1的方法,進一步包括在所述計算機系統(tǒng)上把已知網(wǎng)絡(luò)釣魚網(wǎng)站的構(gòu)造組件的散列值存儲為散列值集表。11.根據(jù)權(quán)利要求1的方法,其中,使用Kulczynski2系數(shù)計算相似度評分。12.根據(jù)權(quán)利要求1的方法,進一步包括相似度評分達到或超過預(yù)定閾值時,把所述第一個散列值集添加到已知網(wǎng)絡(luò)釣魚網(wǎng)站構(gòu)造組件的散列值。13.根據(jù)權(quán)利要求1的方法,其中,構(gòu)造組件是HTML標簽。14.根據(jù)權(quán)利要求1的方法,進一步包括確定網(wǎng)絡(luò)釣魚網(wǎng)站的起源。15.根據(jù)權(quán)利要求14的方法,其中,確定網(wǎng)絡(luò)釣魚網(wǎng)站的起源包括把網(wǎng)絡(luò)釣魚網(wǎng)站的散列值集與已知網(wǎng)絡(luò)釣魚網(wǎng)站的散列值集進行對比并對每個已知網(wǎng)絡(luò)釣魚網(wǎng)站計算相似度評分。16.根據(jù)權(quán)利要求15的方法,進一步包括識別最高的相似度評分并把所述網(wǎng)絡(luò)釣魚網(wǎng)站與從其算出最高相似度評分的已知網(wǎng)絡(luò)釣魚網(wǎng)站聚集。17.一種識別網(wǎng)絡(luò)釣魚網(wǎng)站的方法,包括:a.接收包含多個疑似網(wǎng)絡(luò)釣魚URL的通信;b.檢索多個網(wǎng)絡(luò)釣魚URL的每個疑似網(wǎng)絡(luò)釣魚URL的網(wǎng)站內(nèi)容文件,該網(wǎng)站內(nèi)容文件包括構(gòu)造組件;c.為每個網(wǎng)站內(nèi)容文件創(chuàng)建抽象語法樹;d.為每個網(wǎng)站內(nèi)容文件的每個構(gòu)造組件計算散列值,并且為每個網(wǎng)站內(nèi)容文件集都從中構(gòu)建散列值集;e.從第一個散列值集選擇第一個散列值并且把第一個散列值與已知網(wǎng)絡(luò)釣魚網(wǎng)站構(gòu)造組件的散列值進行對比,以定位匹配的散列值;f.如果匹配的散列值已定位,把第一個散列值集與匹配的散列值的散列值集進行對比并創(chuàng)建相似度評分;以及g.如果相似度評分達到或超過預(yù)定閾值,把導(dǎo)出第一個散列值的疑似URL指定為網(wǎng)絡(luò)釣魚網(wǎng)站。18.根據(jù)權(quán)利要求17的方法,進一步包括確定網(wǎng)絡(luò)釣魚網(wǎng)站的起源,方式為把網(wǎng)絡(luò)釣魚網(wǎng)站的散列值集與已知網(wǎng)絡(luò)釣魚網(wǎng)站的散列值集進行對比并對每個已知網(wǎng)絡(luò)釣魚網(wǎng)站計算相似度評分。19.一種識別網(wǎng)絡(luò)釣魚網(wǎng)站的方法,包括:a.提供計算機系統(tǒng),具有操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)以及用于控制通過因特網(wǎng)通信的通信系統(tǒng);b.向計算機系統(tǒng)發(fā)送通信,包含多個疑似網(wǎng)絡(luò)釣魚URL;c.在步驟d之前,從多個疑似網(wǎng)絡(luò)釣魚URL中去除以下情形的任何疑似網(wǎng)絡(luò)釣魚URL:已知有利URL、已知網(wǎng)絡(luò)釣魚URL或者所述多個疑似網(wǎng)絡(luò)釣魚URL中另一個網(wǎng)絡(luò)釣魚URL的副本的URL;d.檢索多個網(wǎng)絡(luò)釣魚URL的每個疑似網(wǎng)絡(luò)釣魚URL的網(wǎng)站內(nèi)容文件,其中,網(wǎng)站內(nèi)容文件包括構(gòu)造組件并且從所檢索的網(wǎng)站內(nèi)容文件的索引頁中導(dǎo)出;e.預(yù)處理網(wǎng)站內(nèi)容文件,從而為多個疑似網(wǎng)絡(luò)釣魚URL的每一個產(chǎn)生標準化的網(wǎng)站內(nèi)容文件集,其中,預(yù)處理包括一項或多項以下操作:從網(wǎng)站內(nèi)容文件中去除空格、使網(wǎng)站內(nèi)容文件不區(qū)分大小寫或者從網(wǎng)站內(nèi)容文件中去除動態(tài)內(nèi)容;f.為標準化的網(wǎng)站內(nèi)容文件集的每一個創(chuàng)建抽象語法樹,其中,創(chuàng)建抽象語法樹包括解析標準化的網(wǎng)站內(nèi)容文件集內(nèi)的HTML標簽并構(gòu)建HTML實體的抽象語法樹;g.為每個標準化的網(wǎng)站內(nèi)容文件集的每個構(gòu)造組件計算散列值,并且為每個標準化的網(wǎng)站內(nèi)容文件集都從中構(gòu)建散列值集;h.從第一個散列值集選擇第一個散列值并且把第一個散列值與已知網(wǎng)絡(luò)釣魚網(wǎng)站構(gòu)造組件的散列值進行對比,以定位匹配的散列值;i.如果匹配的散列值已定位,把第一個散列值集與匹配的散列值的散列值集進行對比并創(chuàng)建相似度評分;以及j.如果相似度評分達到或超過預(yù)定閾值,把導(dǎo)出第一個散列值的疑似URL指定為網(wǎng)絡(luò)釣魚網(wǎng)站。20.根據(jù)權(quán)利要求19的方法,進一步包括確定網(wǎng)絡(luò)釣魚網(wǎng)站的起源,方式為把網(wǎng)絡(luò)釣魚網(wǎng)站的散列值集與已知網(wǎng)絡(luò)釣魚網(wǎng)站的散列值集進行對比并對每個已知網(wǎng)絡(luò)釣魚網(wǎng)站計算相似度評分?!疚臋n編號】G06Q10/10GK103843003SQ201280039933【公開日】2014年6月4日申請日期:2012年7月9日優(yōu)先權(quán)日:2011年7月8日【發(fā)明者】B·瓦德曼,W·哈頓克申請人:Uab研究基金會