專利名稱:由釣魚網(wǎng)頁查找目標(biāo)網(wǎng)頁的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種由釣魚網(wǎng)頁查找目標(biāo)網(wǎng)頁的方法,主要從釣魚網(wǎng)頁與對應(yīng)目標(biāo)網(wǎng) 頁之間在文本和圖像特征之間的相似性來查找目標(biāo)網(wǎng)頁,以更新釣魚檢測時(shí)所需要的白名單,屬于信息安全領(lǐng)域。
背景技術(shù):
釣魚網(wǎng)站是隨著網(wǎng)絡(luò)普及和在線交易的増加而變得異常猖獗的網(wǎng)絡(luò)詐騙行為。釣魚網(wǎng)站是犯罪分子模仿合法網(wǎng)頁做出的詐騙網(wǎng)站,釣魚網(wǎng)站通常與銀行網(wǎng)站或其他知名網(wǎng)站幾乎完全相同,從而引誘網(wǎng)站使用者在釣魚網(wǎng)站上提交出敏感信息,如用戶名、ロ令、銀行帳號或信用卡詳細(xì)信息等。最典型的網(wǎng)絡(luò)釣魚攻擊過程如下首先將用戶引誘到ー個(gè)通過精心設(shè)計(jì)與目標(biāo)組織的網(wǎng)站非常相似的釣魚網(wǎng)站上,然后獲取用戶在該釣魚網(wǎng)站上輸入的個(gè)人敏感信息,例如銀行帳號、銀行密碼等。通常這個(gè)攻擊過程不會讓受害者警覺。這些個(gè)人信息對釣魚網(wǎng)站持有者具有非常大的吸引力,通過使用竊取到的個(gè)人信息,他們可以假冒受害者進(jìn)行欺詐性金融交易,獲得極大的經(jīng)濟(jì)利益,而受害者們卻因此而遭受到巨大的經(jīng)濟(jì)損失,非但如此,被竊取的個(gè)人信息還可能被用于其他非法活動。如何識別釣魚網(wǎng)站,如何保證網(wǎng)站信息傳輸?shù)谋C芡暾?,愈發(fā)的顯示出其重要性和必要性。大多數(shù)用戶會受騙,很多時(shí)候是由于釣魚網(wǎng)頁總是與真實(shí)網(wǎng)頁有高度的相似性。如果我們能從相似性的角度檢測釣魚網(wǎng)頁,不失為ー個(gè)很好的方法。然而在釣魚檢測的過程中,除了釣魚檢測方法外,特征庫的好壞也直接影響到檢測的準(zhǔn)確率,如何能找到釣魚網(wǎng)頁的目標(biāo)網(wǎng)頁,是本發(fā)明的研究重點(diǎn)。Zhang在2007年提出CANTINA[Zhang2007],該方法通過借助第三方工具,比如搜索引擎,來檢測釣魚網(wǎng)頁,它首先統(tǒng)計(jì)網(wǎng)頁中詞的TF-IDF (TF-IDF,詞頻-反文檔頻率,是ー種統(tǒng)計(jì)方法,用以評估一個(gè)字或詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度),把TF-IDF排序靠前的幾個(gè)詞條利用搜索引擎檢索,如果該網(wǎng)頁不出現(xiàn)在搜索結(jié)果的前面30個(gè)結(jié)果中,則認(rèn)為是釣魚網(wǎng)頁。該方法具有較高的精度和較小的誤判率。但是該方法只是基于網(wǎng)頁內(nèi)容的,對于ー種文字很少,圖片很多的網(wǎng)頁,或者是文字在圖片中的網(wǎng)頁將無能為力。本發(fā)明將從文本和圖片兩種途徑提取關(guān)鍵詞,然后在多個(gè)搜索引擎上檢索,綜合多個(gè)搜索引擎的結(jié)果,最后再從圖片角度利用圖像感知哈技術(shù)查找最相似的目標(biāo)網(wǎng)頁。[Zhang2007] Y. Zhang, J. Hong, and L. Cranor. Cantina: A content-basedapproach to detecting phishing websites. WWW, 2007.
[Fu2006] Anthony Y. Fuj Wenyin Liuj Xiaotie Deng. Detecting PhishingWeb Pages with Visual similarity Assessment based on Earth Mover’ s Distance(EMD). IEEE Transactions on Dependable and Secure Computing, 2006,3(4),pages301-311.[Dong2010]X. Dong, J. A. Clark, J. L. Jacob. Defending the weakest丄ink: phishing websites detection by analysing user behaviours. SpringerScience+Business Media, LLC 2010.
[Cao2009]Jiuxin Caoj Bo Maoj Junzhou Luoj and Bo Liu. A Phishing Web PagesDetection Algorithm Based on Nested Structure of Earth Mover’ s Distance(Nested-EMD) · Chinese Journal of Computers. 2009,(05): 922-929.
[Chen2009]K.-T. Chen, J. -Y. Chen, C. -R. Huang, and C. -S. Chen. FightingPhishing with Discriminative Keypoint Features of Webpages. IEEE InternetComputing, 2009.
[Afroz2009]Sadia Afroz and Rachel Greenstadt. Phishzoo: An Automated WebPhishing Detection Approach Based on Profiling and Fuzzy Matching. TechnicalReport DU-CS-09-03,Drexel University, 2009.
[Henzinger2006]M. Henzinger. Finding near-duplicate Web pages: A丄arge—scale evaluation of algorithms. Proceedings of the Internationa丄 ACMSIGIR Conference on Research and Development in Information Retrieval, 2006.
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明提出的由釣魚網(wǎng)頁查找目標(biāo)網(wǎng)頁的方法,是ー種結(jié)合網(wǎng)頁文本和圖像特征,借用第三方工具和圖像感知哈希技術(shù)來查找目標(biāo)網(wǎng)頁的方法。釣魚者為了取得用戶的信任,他們通常會模仿合法網(wǎng)頁來構(gòu)建釣魚網(wǎng)頁,所以ー個(gè)釣魚網(wǎng)頁與它的目標(biāo)網(wǎng)頁在視覺上是非常相似的,兩者之間是有很好的關(guān)聯(lián)性的。以往目標(biāo)網(wǎng)頁的檢測是通過人工識別的,本發(fā)明提出的方法是從相似性角度查找目標(biāo)網(wǎng)頁,將更接近實(shí)際情況,同時(shí)可以保證釣魚檢測的高精度和低誤判率。技術(shù)方案大多數(shù)用戶會受騙,很多時(shí)候是由于釣魚網(wǎng)頁與真實(shí)網(wǎng)頁有高度的相似性。如果我們能從相似性的角度檢測釣魚網(wǎng)頁,不失為ー個(gè)很好的方法。然而在釣魚檢測的過程中,除了釣魚檢測方法外,特征庫的好壞也直接影響到檢測的準(zhǔn)確率,本發(fā)明的研究重點(diǎn)就是如何能找到釣魚網(wǎng)頁的目標(biāo)網(wǎng)頁。如果能找到與其最相近的目標(biāo)網(wǎng)頁,那么如果再次遇到該目標(biāo)網(wǎng)頁的釣魚網(wǎng)頁,就能很好地被檢測出來,提高檢測的準(zhǔn)確率。由釣魚網(wǎng)頁查找目標(biāo)網(wǎng)頁的方法,首先從網(wǎng)頁標(biāo)題、主體和網(wǎng)頁圖片中提取關(guān)鍵詞,組成該釣魚網(wǎng)頁的詞匯簽名;然后在多個(gè)搜索引擎上用詞匯簽名進(jìn)行檢索,綜合這些搜索引擎的結(jié)果,找出最相近的前K個(gè)網(wǎng)頁,K為整數(shù);將這K個(gè)網(wǎng)頁和釣魚網(wǎng)頁以圖片形式保存,提取圖像感知哈希序列,最后分別計(jì)算這K個(gè)網(wǎng)頁圖片與釣魚網(wǎng)頁圖片之間海明距離,根據(jù)距離的大小可以選出該釣魚網(wǎng)頁的一個(gè)或者多個(gè)目標(biāo)網(wǎng)頁。該方法主要包括詞匯簽名的生成部分、多個(gè)搜索引擎檢索部分、圖像感知哈希序列的生成及匹配部分。詞匯簽名的生成部分需要的步驟如下
步驟11)分別從網(wǎng)頁標(biāo)題和主體中提取純文本文字;
步驟12)獲取網(wǎng)頁中的圖片,通過光學(xué)字符識別OCR技術(shù)提取出嵌在圖片中的文字; 步驟13)綜合網(wǎng)頁標(biāo)題、主體和圖片中的文字,計(jì)算這些文字的詞頻-反文檔頻率TF-IDF值,由前5個(gè)最高TF-IDF的詞構(gòu)成ー個(gè)詞匯簽名;
多個(gè)搜索引擎檢索部分需要的步驟如下
步驟21)將生成的詞匯簽名分別在N個(gè)搜索引擎上進(jìn)行檢索,N為整數(shù);
步驟22)找出至少出現(xiàn)在兩個(gè)搜索引擎結(jié)果中的網(wǎng)頁,組成一個(gè)網(wǎng)頁列表;
步驟23)由公式1、2、3計(jì)算網(wǎng)頁列表中各個(gè)網(wǎng)頁的相關(guān)度;
權(quán)利要求
1.一種由釣魚網(wǎng)頁查找目標(biāo)網(wǎng)頁的方法,其特征在于首先從網(wǎng)頁標(biāo)題、主體和網(wǎng)頁圖片中提取關(guān)鍵詞,組成該釣魚網(wǎng)頁的詞匯簽名;然后在多個(gè)搜索引擎上用詞匯簽名進(jìn)行檢索,綜合這些搜索引擎的結(jié)果,找出最相近的前K個(gè)網(wǎng)頁,K為整數(shù);將這K個(gè)網(wǎng)頁和釣魚網(wǎng)頁以圖片形式保存,提取圖像感知哈希序列,最后分別計(jì)算這K個(gè)網(wǎng)頁圖片與釣魚網(wǎng)頁圖片之間海明距離,根據(jù)距離的大小選出該釣魚網(wǎng)頁的一個(gè)或者多個(gè)目標(biāo)網(wǎng)頁; 該方法主要包括詞匯簽名的生成部分、多個(gè)搜索引擎檢索部分、圖像感知哈希序列的生成及匹配部分; 詞匯簽名的生成部分需要的步驟如下 步驟11)分別從網(wǎng)頁標(biāo)題和主體中提取純文本文字; 步驟12)獲取網(wǎng)頁中的圖片,通過光學(xué)字符識別OCR技術(shù)提取出嵌在圖片中的文字; 步驟13)綜合網(wǎng)頁標(biāo)題、主體和圖片中的文字,計(jì)算這些文字的詞頻-反文檔 頻率TF-IDF值,由前5個(gè)最高TF-IDF的詞構(gòu)成一個(gè)詞匯簽名; 多個(gè)搜索引擎檢索部分需要的步驟如下 步驟21)將生成的詞匯簽名分別在N個(gè)搜索引擎上進(jìn)行檢索,N為整數(shù); 步驟22)找出至少出現(xiàn)在兩個(gè)搜索引擎結(jié)果中的網(wǎng)頁,組成一個(gè)網(wǎng)頁列表; 步驟23)由公式1、2、3計(jì)算網(wǎng)頁列表中各個(gè)網(wǎng)頁的相關(guān)度; U2,l ·■ ■■ UN,I Ii·\ ntln 產(chǎn)\■■■··■ _■m mμ ·(I) ■ ■m ■■ ■■ m ■ _Ul,Nr U2,Nr ■■ ■· UN,Nr _ 其中,uU表示第i個(gè)搜索引擎的檢索結(jié)果中排名為j的網(wǎng)址,1=1,2,......,N,J=U,......,Nr, N 與Ff.均為整數(shù);'N-(Ri ,-I)f1 Wu = ^^^ ……,構(gòu)⑵ Oeke 其中,表示第i個(gè)搜索引擎中的排名為j的相關(guān)度I表示一個(gè)搜索引擎所取的搜索結(jié)果總數(shù)Aij表示第i個(gè)搜索引擎中的第j個(gè)結(jié)果的排名為j鳥=J ;Uy表示第i個(gè)搜索引擎的檢索結(jié)果中排名為j的網(wǎng)址,如果1^ 只在一個(gè)搜索引擎中出現(xiàn),那么= 0 ;UP表示至少出現(xiàn)在兩個(gè)搜索引擎結(jié)果中的網(wǎng)址,P = 1,2,......,M,M為整數(shù)且M < N*Nr ; H Hs = ΣΣ , ο)P W j-1K0J Kj-uPiP = 1,2,......,Μ 其中,5V表示 在N個(gè)搜索引擎中的相關(guān)度之和;%表示至少出現(xiàn)在兩個(gè)搜索引擎結(jié)果中的網(wǎng)址,P = IA......M為整數(shù)且M <N*Nr 表示第i個(gè)搜索引擎的搜索結(jié)果中排名為j的網(wǎng)址,如果只在一個(gè)搜索引擎中出現(xiàn),那么= O 表示第i個(gè)搜索引擎中的排名為j的相關(guān)度,N與AT,均為整數(shù); 步驟24)由公式3和4計(jì)算出前K個(gè)相關(guān)度高的網(wǎng)頁,認(rèn)為這K個(gè)網(wǎng)頁與該 釣魚網(wǎng)頁最相關(guān),作為該釣魚網(wǎng)頁的候選目標(biāo)網(wǎng)頁,K為不大于的整數(shù);
全文摘要
本發(fā)明是一種由釣魚網(wǎng)頁查找目標(biāo)網(wǎng)頁的方法,首先從網(wǎng)頁文本和網(wǎng)頁圖片中提取關(guān)鍵詞,組成該釣魚網(wǎng)頁的詞匯簽名,然后在多個(gè)搜索引擎上用詞匯簽名進(jìn)行檢索,綜合這些搜索引擎的結(jié)果,找出最相近的前K個(gè)網(wǎng)頁,將這K個(gè)網(wǎng)頁和釣魚網(wǎng)頁以圖片形式保存,提取圖像感知哈希序列,最后分別計(jì)算這K個(gè)網(wǎng)頁圖片與釣魚網(wǎng)頁圖片之間的海明距離,根據(jù)距離的大小可以選出該釣魚網(wǎng)頁模仿的一個(gè)或者多個(gè)合法網(wǎng)頁,即目標(biāo)網(wǎng)頁。
文檔編號G06F17/30GK102629261SQ20121005117
公開日2012年8月8日 申請日期2012年3月1日 優(yōu)先權(quán)日2012年3月1日
發(fā)明者周國富, 周國強(qiáng), 張衛(wèi)豐, 張迎周, 王慕妮, 田先桃, 許碧歡, 陸柳敏, 顧賽賽 申請人:南京郵電大學(xué)