專利名稱:釣魚網(wǎng)頁檢測方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明實施例涉及網(wǎng)絡(luò)技術(shù),尤其涉及一種釣魚網(wǎng)頁檢測方法及設(shè)備。
背景技術(shù):
釣魚網(wǎng)站舉報機制是防護釣魚網(wǎng)站攻擊的一種基礎(chǔ)性解決方法。反釣魚組織鼓勵 終端用戶提交發(fā)現(xiàn)的Phishing (釣魚)信息,phishing信息包括統(tǒng)一資源定位符(Uniform Resource Locator,簡稱URL),郵件內(nèi)容等,然后將收集到的phishing信息進行甄別處理 組織成知識庫,例如URL列表方式、單向哈希(Hash)值方式等。將知識庫部署在各類安全設(shè) 備或客戶端軟件中,上述設(shè)備監(jiān)測到知識庫存在當(dāng)前訪問的網(wǎng)頁時對該網(wǎng)頁攔截和過濾, 防止釣魚網(wǎng)頁的攻擊,目前,通用的方法是將Wiishing檢測模塊集成到客戶端軟件中,當(dāng)用戶通過瀏 覽器訪問網(wǎng)頁時,Wiishing檢測模塊依據(jù)本地或者遠程數(shù)據(jù)查詢結(jié)果計算出該網(wǎng)頁的可 疑度,當(dāng)可疑度較高時,向用戶發(fā)出告警信息。遠程Anti-Phishing服務(wù)器向眾多客戶端 Phishing檢測模塊提供數(shù)據(jù)更新、查詢、過濾等功能。Wiishing檢測模塊的監(jiān)測依據(jù)主要 包括已知phishing的URL列表,Phishing的IP列表,信任域名列表,phishing關(guān)鍵詞、 phishing網(wǎng)頁通用特征等。phishing網(wǎng)頁通用特征包括擁有超文本置標(biāo)語言(HyperText Markup Language, HTML)輸入標(biāo)簽,有符合社會保險號碼的數(shù)據(jù),顯示的URL和真實URL不 一致等,由于,釣魚網(wǎng)頁的URL、IP和域名經(jīng)常變化,有許多正常網(wǎng)頁也包括phishing關(guān)鍵 詞。因此,通過上述方法檢測釣魚網(wǎng)頁時,不僅對釣魚網(wǎng)頁的識別率較低,而且對正常網(wǎng)頁 的誤判率也較高、因而,現(xiàn)有釣魚網(wǎng)頁檢測方法的檢測準(zhǔn)確率較低。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種釣魚網(wǎng)頁檢測方法及設(shè)備,用以提高釣魚網(wǎng)站的檢測準(zhǔn)確率。本發(fā)明實施例提供一種釣魚網(wǎng)頁檢測方法,包括判斷信任域名庫中是否存在待檢測網(wǎng)頁對應(yīng)的唯一域名;在所述信任域名庫中不存在所述唯一域名時,分別確定從所述待檢測網(wǎng)頁中提取 的內(nèi)容特征與模板文件庫的各模板文件中內(nèi)容特征的相似度;所述內(nèi)容特征至少包括編 碼格式、文檔對象模型、詞匯和詞匯數(shù)量;在從所述待檢測網(wǎng)頁中提取的內(nèi)容特征,至少與一個所述模板文件中內(nèi)容特征的 相似度大于預(yù)設(shè)的相似閾值時,確定所述待檢測網(wǎng)頁為釣魚網(wǎng)頁。本發(fā)明實施例提供一種釣魚網(wǎng)頁檢測設(shè)備,包括信任域名庫,用于保存受信任網(wǎng)頁對應(yīng)的唯一域名;模板文件庫,用于保存多個模板文件,所述模板文件包括從網(wǎng)頁中提取的內(nèi)容特 征;所述內(nèi)容特征至少包括網(wǎng)頁的編碼格式、文檔對象模型、詞匯和詞匯數(shù)量;
域名確定模塊,用于判斷信任域名庫中是否存在待檢測網(wǎng)頁對應(yīng)的唯一域名;內(nèi)容提取模塊,用于在所述信任域名庫中不存在所述唯一域名時,從所述待檢測 網(wǎng)頁中提取的內(nèi)容特征;相似度確定模塊,用于分別確定從所述待檢測網(wǎng)頁中提取的內(nèi)容特征與所述模板 文件庫的各模板文件中內(nèi)容特征的相似度;釣魚網(wǎng)頁確定模塊,用于在從所述待檢測網(wǎng)頁中提取的內(nèi)容特征,至少與一個所 述模板文件中內(nèi)容特征的相似度大于預(yù)設(shè)的相似閾值時,確定所述待檢測網(wǎng)頁為釣魚網(wǎng)頁。本發(fā)明實施例,確定待檢測網(wǎng)頁的唯一域名不是信任域名后,通過待檢測網(wǎng)頁的 內(nèi)容特征確定與模板文件庫中各模板文件的相似度,如編碼格式、文檔對象模型、詞匯和詞 匯數(shù)量等內(nèi)容特征與模板文件庫中各模板文件中內(nèi)容特征的相似度,確定該待檢測網(wǎng)頁是 否為釣魚網(wǎng)頁。因此本發(fā)明通過內(nèi)容特征確定網(wǎng)頁是否釣魚網(wǎng)頁,可提高釣魚網(wǎng)頁檢測結(jié) 果的準(zhǔn)確性。另外,由于本發(fā)明通過不斷更新的信任域名庫先確定待檢測網(wǎng)頁是否為受信 任的網(wǎng)頁,從而減少了將品牌網(wǎng)頁誤判為釣魚網(wǎng)頁的幾率。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明提供的釣魚網(wǎng)頁檢測方法實施例一流程圖;圖2為本發(fā)明提供的釣魚網(wǎng)頁檢測方法實施例二流程圖;圖3為本發(fā)明提供的釣魚網(wǎng)頁檢測方法實施例三流程圖;圖4A為本發(fā)明提供的釣魚網(wǎng)頁檢測設(shè)備實施例一結(jié)構(gòu)示意圖;圖4B為本發(fā)明提供的釣魚網(wǎng)頁檢測設(shè)備一種應(yīng)用場景示意圖;圖4C為本發(fā)明提供的釣魚網(wǎng)頁檢測設(shè)備另一種應(yīng)用場景示意圖;圖5為本發(fā)明提供的釣魚網(wǎng)頁檢測設(shè)備實施例二結(jié)構(gòu)示意圖;圖6為圖4或圖5中相似度確定模塊的結(jié)構(gòu)示意圖;圖7為本發(fā)明提供的釣魚網(wǎng)頁檢測設(shè)備實施例三結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖1為本發(fā)明提供的釣魚網(wǎng)頁檢測方法實施例一流程圖。如圖1所示,本實施例 包括步驟11 判斷信任域名庫中是否存在待檢測網(wǎng)頁對應(yīng)的唯一域名。本實施例中待檢測網(wǎng)頁可以有多種獲取方式,一種是根據(jù)URL下載待檢測網(wǎng)頁,將下載后的待檢測網(wǎng)頁存儲于存儲介質(zhì)中;一種是從網(wǎng)絡(luò)通信流量中直接提取數(shù)據(jù)包。直 接從網(wǎng)絡(luò)通信流量中提取數(shù)據(jù)包時,進一步將數(shù)據(jù)包進行解析直接形成HTML文件。獲取待檢測網(wǎng)頁后,從待檢測網(wǎng)頁對應(yīng)的URL中提取出唯一域名,并在信任域名 庫查找該唯一域名。信任域名庫中存在該唯一域名時,即該唯一域名為信任域名,表明該唯 一域名對應(yīng)的待檢測網(wǎng)頁不是釣魚網(wǎng)頁。信任域名庫中沒有該唯一域名時,該待檢測網(wǎng)頁 有可能是釣魚網(wǎng)頁,也可能不是釣魚網(wǎng)頁,需進一步通過后續(xù)的內(nèi)容特征匹配過程,檢測該 待檢測網(wǎng)頁是否為釣魚網(wǎng)頁。信任域名庫中保存有萬級、百萬級甚至千萬級受信任網(wǎng)頁的唯一域名,目的是在 檢測釣魚網(wǎng)頁時,先通過唯一域名排除品牌網(wǎng)頁或從未受到釣魚網(wǎng)站攻擊的網(wǎng)頁。信任域 名庫需要周期性更新,域名的收集和提取主要依據(jù)如下原則從收集的URL列表逐一取出 URL,在某一 URL中頂級域名為非國家頂級域名時,從該URL中提取出二級域名寫入信任域 名庫;該URL中頂級域名是國家域名且二級域名是頂級域名字符串,從URL中提取三級域名 寫入信任域名庫。例如,URL中頂級域名是“· com”、"· org”、"· edu”、“. net”、"· gov”、“int”、“mil”、 “!^”、“^^”、、!^”、“皿!^”和“丨加”等非國家頂級域名,則URL中提取二級域名。頂級 域名是國家或地區(qū)域名,則判斷二級域是否為常用的頂級域名字符串,例如“com”、“org”、 “net”、“g0V”、“edU”和“biz”等,則提取到三級域名,否則只提取到二級域名。提取到的域 名如下所不:huawei. com、huawei. com. cn、sina. com. cn、apwg. org、apwg. net 等。域名提 取后,將提取到的域名轉(zhuǎn)換成Hash表存儲以利于后續(xù)查詢,建立Hash表的具體Hash算法 可以采用MD5、SHAl等標(biāo)準(zhǔn)算法,也可以采用自定義算法。步驟12 在信任域名庫中不存在唯一域名時,分別確定從待檢測網(wǎng)頁中提取的內(nèi) 容特征與模板文件庫的各模板文件中內(nèi)容特征的相似度。模板文件庫可為品牌模板庫,也可為釣魚模板庫。模板文件庫用于保存包括從釣 魚網(wǎng)頁提取的內(nèi)容特征的模板文件,或用于保存包括從品牌網(wǎng)頁提取的內(nèi)容特征的模板文 件;內(nèi)容特征至少包括從網(wǎng)頁提取的編碼格式、文檔對象模型、詞匯和詞匯數(shù)量。在信任域名庫不存在該待檢測網(wǎng)頁對應(yīng)的唯一域名時,從該待檢測網(wǎng)頁中提取內(nèi) 容特征,與釣魚模板庫中每個模板文件中保存的內(nèi)容特征進行匹配;另外,也可與品牌模板 庫中每個模板文件中保存的內(nèi)容特征進行匹配,確定從待檢測網(wǎng)頁中提取的內(nèi)容特征與各 模板文件中內(nèi)容特征的相似度。由于大量釣魚網(wǎng)站通過自動程序產(chǎn)生或直接仿冒品牌網(wǎng)頁時,通常會采用相同的 編碼格式、較接近的詞匯和相似的文檔對象模型(Document Object Model,簡稱DOM),并且 詞匯數(shù)量也基本接近,因此,本發(fā)明實施例通過分析包括編碼格式、文檔對象模型、詞匯和 詞匯數(shù)量的內(nèi)容特征,可以確定待檢測網(wǎng)頁與品牌網(wǎng)頁或釣魚網(wǎng)頁的相似度。釣魚模板庫中包括多個釣魚模板文件,用于保存從各釣魚網(wǎng)頁提取的內(nèi)容特征。 建立釣魚模板庫時,從多個釣魚網(wǎng)頁分別提取出內(nèi)容特征,以模板文件形式分別保存每個 釣魚網(wǎng)頁的內(nèi)容特征。品牌模板庫中包括多個品牌模板文件,用于保存從各品牌網(wǎng)頁提取的內(nèi)容特征。 品牌網(wǎng)頁為經(jīng)常被仿冒的網(wǎng)頁或可能被仿冒的網(wǎng)頁,比如全球各大銀行網(wǎng)頁、保險公司網(wǎng) 頁、網(wǎng)上支付機構(gòu)或企業(yè)網(wǎng)頁、社交網(wǎng)站登陸網(wǎng)頁等。建立品牌模板庫時,從多個品牌網(wǎng)頁分別提取出內(nèi)容特征,以模板文件形式分別保存每個品牌網(wǎng)頁的內(nèi)容特征。步驟13 在從待檢測網(wǎng)頁中提取的內(nèi)容特征,至少與一個模板文件中內(nèi)容特征的 相似度大于預(yù)設(shè)的相似閾值時,確定待檢測網(wǎng)頁為釣魚網(wǎng)頁。從待檢測網(wǎng)頁中提取的內(nèi)容特征,與釣魚模板庫中一個或一個以上的釣魚模板文 件中內(nèi)容特征的相似度大于預(yù)設(shè)的相似閾值時,即在釣魚模板庫中存在與該待檢測網(wǎng)頁相 似的釣魚模板文件時,確定該待檢測網(wǎng)頁為非仿冒品牌網(wǎng)頁的釣魚網(wǎng)頁。例如,相似度可 以是百分比數(shù)值,也可以是其他的自定義的類型,當(dāng)相似度是百分比數(shù)值時,百分比數(shù)值越 高,相似度越大;相似度也可以是0到100的數(shù)值,在這種情況下,數(shù)值越大相似度越大,其 中,預(yù)設(shè)的相似閾值可以是經(jīng)驗值。另外,由于釣魚模板庫每個模板文件對應(yīng)一個釣魚網(wǎng)頁,在確定該待檢測網(wǎng)頁中 內(nèi)容特征與釣魚網(wǎng)頁的內(nèi)容特征相同時,還可確定與該待檢測網(wǎng)頁相似的釣魚網(wǎng)頁的網(wǎng)頁 名稱。從待檢測網(wǎng)頁中提取的內(nèi)容特征,與品牌模板庫中一個或一個以上的品牌模板文 件中內(nèi)容特征的相似度大于預(yù)設(shè)的相似閥值時,即在品牌模板庫中存在與該待檢測網(wǎng)頁相 似的品牌模板文件時,由于該待檢測網(wǎng)頁對應(yīng)的唯一域名不是信任域名,因此確定該待檢 測網(wǎng)頁為仿冒品牌網(wǎng)頁的釣魚網(wǎng)頁。本發(fā)明實施例,確定待檢測網(wǎng)頁的唯一域名不是信任域名后,通過待檢測網(wǎng)頁的 內(nèi)容特征確定與模板文件庫中各模板文件的相似度,確定該待檢測網(wǎng)頁是否為釣魚網(wǎng)頁。 品牌模板文件保存的是品牌網(wǎng)頁的內(nèi)容特征,在該待檢測網(wǎng)頁的唯一域名不是信任域名的 情況下,其內(nèi)容特征與品牌網(wǎng)頁的相似度較高時,確定該待檢測網(wǎng)頁為仿冒品牌網(wǎng)頁的釣 魚網(wǎng)頁。模板文件保存的是釣魚網(wǎng)頁的內(nèi)容特征或品牌網(wǎng)頁的內(nèi)容特征,在該待檢測網(wǎng)頁 的肉容特征與模板文件的相似度較高時,確定該待檢測網(wǎng)頁為非仿冒品牌網(wǎng)頁的釣魚網(wǎng) 頁。由于釣魚網(wǎng)頁通常由自動程序產(chǎn)生或直接仿冒品牌網(wǎng)頁,且大多數(shù)釣魚網(wǎng)頁的內(nèi)容特 征基本相似,內(nèi)容特征反映出釣魚網(wǎng)頁的特性。因此本發(fā)明通過內(nèi)容特征確定網(wǎng)頁是否釣 魚網(wǎng)頁,可提高釣魚網(wǎng)頁檢測結(jié)果的準(zhǔn)確性。另外,由于本發(fā)明通過不斷更新的信任域名庫 先確定待檢測網(wǎng)頁是否為受信任的網(wǎng)頁,從而減少了將品牌網(wǎng)頁誤判為釣魚網(wǎng)頁的幾率。圖2為本發(fā)明提供的釣魚網(wǎng)頁檢測方法實施例二流程圖。本實例主要說明如何將 待檢測網(wǎng)頁的內(nèi)容特征與釣魚模板庫中釣魚模板文件進行匹配的方法。如圖2所示,本實 施例包括步驟20 從待檢測網(wǎng)頁中提取出內(nèi)容特征。在步驟20之前,先在信任域名庫查找待檢測網(wǎng)頁的唯一域名,由于信任域名庫保 存的是受信任的唯一域名,因此當(dāng)信任域名庫存在待檢測網(wǎng)頁的唯一域名時,確定待檢測 網(wǎng)頁為受信任的網(wǎng)頁。如果信任域名庫中不存在待檢測網(wǎng)頁的唯一域名執(zhí)行步驟20,通過 待檢測網(wǎng)頁的內(nèi)容特征判斷其是否為釣魚網(wǎng)頁。步驟21 判斷釣魚模板庫中是否存在還沒有與待檢測網(wǎng)頁進行匹配的釣魚模板 文件。如果是則執(zhí)行步驟22,否則結(jié)束。如果采用品牌模板庫中品牌模板文件與待檢測網(wǎng)頁進行匹配,則步驟21可為判 斷品牌模板庫是否存在還沒有與該待檢測網(wǎng)頁進行匹配的品牌模板文件。步驟22 從釣魚模板庫中按序讀取一個還沒有與待檢測頁匹配的釣魚模板文件。
建立釣魚模板庫時,為避免在釣魚品牌庫保存內(nèi)容特征相似的釣魚模板文件,從 釣魚網(wǎng)頁提取出內(nèi)容特征后,將從釣魚網(wǎng)頁提取的內(nèi)容特征與釣魚模板庫中各釣魚模板文 件中內(nèi)容特征進行匹配,確定從釣魚網(wǎng)頁提取的內(nèi)容特征與各釣魚模板文件的相似度,通 過相似度大小確定是否將該內(nèi)容特征以釣魚模板文件的形式寫入釣魚模板庫。在從釣魚網(wǎng) 頁提取的內(nèi)容特征與各釣魚模板文件的相似度均小于預(yù)設(shè)的相似閾值時,將從釣魚網(wǎng)頁提 取的內(nèi)容特征形成釣魚模板文件寫入釣魚模板庫。同理,建立品牌模板庫時,為避免在品牌庫保存內(nèi)容特征相同的品牌模板文件,從 品牌網(wǎng)頁提取出內(nèi)容特征后,將從品牌網(wǎng)頁提取的內(nèi)容特征與品牌模板庫中各品牌模板文 件中內(nèi)容特征進行匹配,確定從品牌網(wǎng)頁提取的內(nèi)容特征與各品牌模板文件的相似度,通 過相似度大小確定是否將該內(nèi)容特征以品牌模板文件的形式寫入品牌模板庫。在從品牌網(wǎng) 頁提取的內(nèi)容特征與各品牌模板文件的相似度均小于預(yù)設(shè)的相似閾值時,將從品牌網(wǎng)頁提 取的內(nèi)容特征形成品牌模板文件寫入品牌模板庫。步驟23 判斷該待檢測網(wǎng)頁的編碼格式是否與當(dāng)前釣魚模板文件中的編碼格式 相同。如果不相同返回步驟21執(zhí)行,如果相同執(zhí)行步驟24。步驟M 在該待檢測網(wǎng)頁的編碼格式與當(dāng)前釣魚模板文件中的編碼格式相同時, 判斷從待檢測網(wǎng)頁中提取的詞匯數(shù)量與當(dāng)前模板文件中的詞匯數(shù)量差值的絕對值是否在 數(shù)量相似預(yù)設(shè)范圍內(nèi)。如果不在數(shù)量相似預(yù)設(shè)范圍內(nèi),返回步驟21執(zhí)行;如果在數(shù)量相似 預(yù)設(shè)范圍內(nèi),執(zhí)行步驟25。從待檢測網(wǎng)頁中提取的詞匯數(shù)量與當(dāng)前釣魚模板文件中的詞匯數(shù)量的差值的絕 對值在數(shù)量相似預(yù)設(shè)范圍內(nèi)時,表明從待檢測網(wǎng)頁中提取的詞匯數(shù)量與當(dāng)前模板文件中的 詞匯數(shù)量較接近,該待檢測網(wǎng)頁有可能是釣魚網(wǎng)頁,需通過進一步的判斷才可確定其是否 釣魚網(wǎng)頁。通過數(shù)量相似預(yù)設(shè)范圍可確定從待檢測網(wǎng)頁中提取的詞匯數(shù)量與當(dāng)前釣魚模板 文件中的詞匯數(shù)量是否在一個量級,如果兩者相差較大,則認為待檢測網(wǎng)頁與當(dāng)前釣魚模 板文件不相似,數(shù)量相似預(yù)設(shè)范圍可根據(jù)待檢測網(wǎng)頁中的詞匯數(shù)量設(shè)置。步驟25 從待檢測網(wǎng)頁中提取的詞匯數(shù)量在數(shù)量相似預(yù)設(shè)范圍時,判斷從待檢測 網(wǎng)頁中提取的詞匯與當(dāng)前釣魚模板文件中詞匯的詞匯相似度是否在詞匯相似高預(yù)設(shè)值與 詞匯相似低預(yù)設(shè)值之間。如果詞匯相似度在詞匯相似高預(yù)設(shè)值與詞匯相似低預(yù)設(shè)值之間執(zhí) 行步驟沈。若詞匯相似度不在詞匯相似高預(yù)設(shè)值與詞匯相似低預(yù)設(shè)值之間,但詞匯相似度 大于詞匯相似高預(yù)設(shè)值時執(zhí)行步驟27,詞匯相似度小于詞匯相似低預(yù)設(shè)值時返回步驟21 執(zhí)行。詞匯相似度是指待檢測網(wǎng)頁中的詞匯與某一釣魚模板文件有多少相同的詞匯的 度量,一般情況下詞匯相似度可以描述成某種算式,比如待檢測網(wǎng)頁有m個詞匯,而某一 釣魚模板文件有η個詞匯,兩者有s個相同的詞匯,此時詞匯相似度可描述為一個百分比數(shù) 值[2Xs/(m+n)] X 100,當(dāng)該數(shù)值高于某一閾值,則認為待檢測網(wǎng)頁中的詞匯與某一釣魚 模板文件的詞匯相似度很高。詞匯相似度大于詞匯相似高預(yù)設(shè)值時,表明待檢測網(wǎng)頁的詞匯與釣魚模板文件的 相同詞匯較多,由于當(dāng)前釣魚模板文件對應(yīng)的網(wǎng)頁是釣魚網(wǎng)頁,因此可確定待檢測網(wǎng)頁為 釣魚網(wǎng)頁。如果當(dāng)前品牌模板文件對應(yīng)的網(wǎng)頁為品牌網(wǎng)頁,由于在提取待檢測網(wǎng)頁的內(nèi)容 特征之前,已確定在信任域名庫中沒有該待檢測網(wǎng)頁的唯一域名,因此,同樣可確定該待檢測網(wǎng)頁為釣魚網(wǎng)頁。詞匯相似度小于詞匯相似高預(yù)設(shè)值時,表明待檢測網(wǎng)頁的詞匯與模板文件的相同 詞匯較少,可確定該待檢測網(wǎng)頁不是釣魚網(wǎng)頁。步驟沈詞匯相似度在詞匯相似高預(yù)設(shè)值與詞匯相似低預(yù)設(shè)值之間時,判斷從待 檢測網(wǎng)頁中提取的文檔對象模型與當(dāng)前釣魚模板文件中文檔對象模型的模型相似度是否 大于模型相似預(yù)設(shè)值。如果是執(zhí)行步驟27,否則返回步驟21執(zhí)行。從待檢測網(wǎng)頁中提取的文檔對象模型與當(dāng)前釣魚模板文件中文檔對象模型的模 型相似度大于模型相似預(yù)設(shè)值,表明兩者在文檔對象模型方面的相似程度較高。模型相似 度可以換算成百分比數(shù),模型相似度也可以換算成0到100的數(shù)值。將模型相似度換算成 百分比數(shù)時模型相似預(yù)設(shè)值可以為80%。將模型相似度換算成0到100的數(shù)值時,模型相 似預(yù)設(shè)值可以是50。步驟27 在模型相似度大于模型相似預(yù)設(shè)值時,確定待檢測網(wǎng)頁為釣魚網(wǎng)頁,并 輸出該釣魚模板文件對應(yīng)的釣魚網(wǎng)頁名稱。返回步驟21執(zhí)行。在確定待檢測網(wǎng)頁為釣魚網(wǎng)頁后,與后續(xù)的模板文件繼續(xù)匹配的目的是,可根據(jù) 模型相似度從多個達到模型相似預(yù)設(shè)值的模板文件中找出相似度最高的模板文件,從而輸 出該相似度最高的模板文件對應(yīng)的釣魚網(wǎng)頁名稱。如果在步驟22中讀取的是品牌模板庫中品牌模板文件,則步驟27中輸出該品牌 模板文件對應(yīng)的品牌網(wǎng)頁的網(wǎng)頁名稱。本發(fā)明實施例。通過從待檢測網(wǎng)頁提取的內(nèi)容特征待檢測網(wǎng)頁的編碼格式、詞 匯、網(wǎng)頁詞匯量和D0M,分別與釣魚模板庫中各釣魚模板文件保存的內(nèi)容特征進行匹配,在 編碼格式與當(dāng)前匹配的釣魚模板文件相同時,則確定待檢測網(wǎng)頁為釣魚網(wǎng)頁,并繼續(xù)與下 一個釣魚模板文件進行匹配。在編碼格式不同時,與當(dāng)前釣魚模板文件中的詞匯數(shù)量進行 匹配,在與當(dāng)前釣魚模板文件的詞匯數(shù)量接近時,確定該待檢測網(wǎng)頁為釣魚網(wǎng)頁,否則繼續(xù) 與該釣魚模板文件進行詞匯相似度匹配。在詞匯相似度達到詞匯相似預(yù)設(shè)值時確定該待 檢測網(wǎng)頁為釣魚網(wǎng)頁,并繼續(xù)與下一個釣魚模板文件進行匹配;否則與該釣魚模板文件的 DOM進行模型相似度匹配,模型相似預(yù)設(shè)值時,確定待檢測網(wǎng)頁為釣魚網(wǎng)頁。在確定待檢測 網(wǎng)頁為釣魚網(wǎng)頁時,同時還輸出當(dāng)前匹配的釣魚模板議論折的網(wǎng)頁名稱。另外,還可將待檢 測網(wǎng)頁的內(nèi)容特征與品牌模板庫中各模板文件進行匹配。確定該待檢測網(wǎng)頁為釣魚網(wǎng)頁的 同時,還可輸出該模板文件對應(yīng)網(wǎng)頁的名稱,即該待檢測網(wǎng)頁所仿冒的品牌網(wǎng)頁的名稱。圖3為本發(fā)明提供的釣魚網(wǎng)頁檢測方法實施例三流程圖。本實例主要說明品牌模 板庫中品牌模板文件建立過程。釣魚模板庫中釣魚模板文件建立過程與品牌模板庫相似, 區(qū)別僅在于釣魚模板庫中釣魚模板文件用于保存已知釣魚網(wǎng)頁的內(nèi)容特征,而品牌模板庫 中品牌模板文件用于保存已知品牌網(wǎng)頁的內(nèi)容特征。如圖3所示,本實施例包括步驟30 判斷品牌URL列表中是否還存在沒有處理的URL。如果是執(zhí)行步驟31, 否則結(jié)束。步驟31 從品牌URL列表按序讀取一個沒有處理的URL。步驟32 根據(jù)讀取的URL下載相應(yīng)的網(wǎng)頁。步驟33 從下載網(wǎng)頁中提取出內(nèi)容特征下載網(wǎng)頁的編碼格式、詞匯、詞匯數(shù)量和 DOM。
步驟34 判斷品牌模板庫是否存在還沒有匹配的品牌模板文件。具體判斷品牌模 板庫是否存在還沒有與從下載網(wǎng)頁中提取出內(nèi)容特征進行匹配的品牌模板文件。如果存在 還沒有與從下載網(wǎng)頁中提取出內(nèi)容特征進行匹配的品牌模板文件,執(zhí)行步驟35,否則執(zhí)行 步驟37。步驟35 從品牌模板庫中按序讀取一個沒有匹配過的品牌模板文件。步驟36 判斷該下載網(wǎng)頁的內(nèi)容特征與當(dāng)前品牌模板文件的內(nèi)容特征的相似度 是否小于預(yù)設(shè)的相似閾值。如果小于預(yù)設(shè)的相似閾值,確定該下載網(wǎng)與當(dāng)前品牌模板文件 不相似,返回步驟34執(zhí)行繼續(xù)與后續(xù)的品牌模板文件進行匹配。如果大于預(yù)設(shè)的相似閾 值,確定該下載網(wǎng)與當(dāng)前品牌模板文件相似,不需要在品牌模板庫中保存該下載網(wǎng)頁的內(nèi) 容特征,返回步驟30執(zhí)行,以對下一個URL對應(yīng)的下載網(wǎng)頁進行匹配。步驟37 將下載網(wǎng)頁的內(nèi)容特征以品牌模板文件形式寫入品牌模板庫。返回步驟 30繼續(xù)執(zhí)行。本發(fā)明實施例建立品牌模板庫時,將下載網(wǎng)頁的內(nèi)容特征與品牌模板庫中已有品 牌模板文件進行匹配,只有在品牌模板庫中不存在與該下載網(wǎng)頁的內(nèi)容特征相似的品牌模 板文件(即下載網(wǎng)頁與所有品牌模板文件都不相似)時,才將該下載網(wǎng)頁以品牌模板文件 形式存入品牌模板庫中,從而避免了在品牌模板庫中重復(fù)保存多個相似網(wǎng)頁的品牌模板文 件。圖4A為本發(fā)明提供的釣魚網(wǎng)頁檢測設(shè)備實施例一結(jié)構(gòu)示意圖。如圖4所示,本實 施例包括信任域名庫40、域名確定模塊41、內(nèi)容提取模塊42、相似度確定模塊43和釣魚 網(wǎng)頁確定模塊44以及模板文件庫45。信任域名庫40,用于保存受信任的唯一域名。模板文件庫45,用于保存多個模板 文件,模板文件包括從網(wǎng)頁中提取的內(nèi)容特征;所述內(nèi)容特征至少包括網(wǎng)頁的編碼格式、 文檔對象模型、詞匯和詞匯數(shù)量。具體地,模板文件庫包括釣魚模板庫和品牌模板庫。釣 魚模板庫,用于保存包括從釣魚網(wǎng)頁中提取的內(nèi)容特征的模板文件。品牌模板庫,用于保存 包括從品牌網(wǎng)頁中提取的內(nèi)容特征的模板文件。域名確定模塊41,用于判斷信任域名庫40中是否存在待檢測網(wǎng)頁對應(yīng)的唯一域 名。內(nèi)容提取模塊42,用于在域名確定模塊41確定信任域名庫中不存在唯一域名時,從待 檢測網(wǎng)頁中提取的內(nèi)容特征。相似度確定模塊43,用于分別確定內(nèi)容提取模塊42從待檢測網(wǎng)頁中提取的內(nèi)容 特征與模板文件庫45的各模板文件中內(nèi)容特征的相似度。釣魚網(wǎng)頁確定模塊44,用于在從待檢測網(wǎng)頁中提取的內(nèi)容特征,至少與一個模板 文件中內(nèi)容特征的相似度大于預(yù)設(shè)的相似閾值時,確定待檢測網(wǎng)頁為釣魚網(wǎng)頁。由于本發(fā)明實施例釣魚網(wǎng)頁檢測設(shè)備檢測網(wǎng)頁,不需要遠程設(shè)備配合完成,可以 部署于任意網(wǎng)絡(luò)節(jié)點處,支持大流量檢測。例如可部署于網(wǎng)絡(luò)流量監(jiān)控設(shè)備、防火墻設(shè)備和 路由器等。圖4B為本發(fā)明提供的釣魚網(wǎng)頁檢測設(shè)備一種應(yīng)用場景示意圖。如圖4B所示, 本發(fā)明實施例釣魚網(wǎng)頁檢測設(shè)備從網(wǎng)絡(luò)流量監(jiān)控設(shè)備中獲取待檢測網(wǎng)頁的URL,根據(jù)URL 從網(wǎng)絡(luò)下載待檢測網(wǎng)頁后進行檢測,將檢測結(jié)果輸出給其它設(shè)備。圖4C為本發(fā)明提供的釣 魚網(wǎng)頁檢測設(shè)備另一種應(yīng)用場景示意圖。如圖4C所示,本發(fā)明實施例釣魚網(wǎng)頁檢測設(shè)備直 接從網(wǎng)絡(luò)流量監(jiān)控設(shè)備獲取HTTP數(shù)據(jù)包進行釣魚網(wǎng)頁檢測,將檢測結(jié)果輸出給其它設(shè)備。步,如圖5所示,本實施例還包括網(wǎng)頁名稱輸出模塊46,用于確定與從待檢 測網(wǎng)頁中提取的內(nèi)容特征的相似度大于預(yù)設(shè)的相似閾值的模板文件,輸出該些模板文件所 對應(yīng)的釣魚網(wǎng)頁名稱或?qū)?yīng)的被仿冒品牌網(wǎng)頁名稱。上述各模塊的工作機理參見圖1對應(yīng)實施例的描述,在此不再贅述。本發(fā)明實施例釣魚檢測設(shè)備,在檢測待檢測網(wǎng)頁時,域名確定模塊41從本地保存 的信任域名庫中查找待檢測頁面對應(yīng)的唯一域名,在信任域名庫中不存在該唯一域名時, 相似度確定模塊43將待檢測網(wǎng)頁的內(nèi)容特征,與保存在本地的模板文件進行匹配確定相 似度。由于釣魚網(wǎng)頁通常由自動程序產(chǎn)生或直接仿冒品牌網(wǎng)頁,釣魚網(wǎng)頁的內(nèi)容特征基本 相似,內(nèi)容特征可反映出釣魚網(wǎng)頁的特性。因此本發(fā)明通過內(nèi)容特征確定網(wǎng)頁是否釣魚網(wǎng) 頁,提高了釣魚網(wǎng)頁檢測結(jié)果的準(zhǔn)確性。另外,由于本發(fā)明通過不斷更新的信任域名庫先確 定待檢測網(wǎng)頁是否為受信任的網(wǎng)頁,從而減少了將品牌網(wǎng)頁誤判為釣魚網(wǎng)頁的幾率。圖6為圖4或圖5中相似度確定模塊的結(jié)構(gòu)示意圖。如圖6所示,相似度確定模塊 43包括讀取單元431、編碼格式確定單元432、詞匯數(shù)量確定單元433、詞匯確定單元434 和對象模型確定單元435。讀取單元431,用于從釣魚模板庫或品牌模板庫中讀取一模板文件。編碼格式確定單元432,用于判斷從待檢測網(wǎng)頁中提取的編碼格式是否與模板文 件中的編碼格式相同。詞匯數(shù)量確定單元433,用于在編碼格式確定單元432確定編碼格式相同時,判斷 從待檢測網(wǎng)頁中提取的詞匯數(shù)量是否在模板文件中的詞匯數(shù)量對應(yīng)的數(shù)量相似預(yù)設(shè)范圍 內(nèi)。詞匯確定單元434,用于詞匯數(shù)量確定單元433確定詞匯數(shù)量在數(shù)量相似預(yù)設(shè)范 圍時,判斷從待檢測網(wǎng)頁中提取的詞匯與模板文件中詞匯的詞匯相似度是否在詞匯相似高 預(yù)設(shè)值與詞匯相似低預(yù)設(shè)值之間。對象模型確定單元435,用于在詞匯確定單元434確定所述詞匯相似度在詞匯相 似高預(yù)設(shè)值與詞匯相似低預(yù)設(shè)值之間時,確定從所述待檢測網(wǎng)頁中提取的文檔對象模型與 所述模板文件中文檔對象模型的模型相似度,并判斷所述模型相似度是否大于模型相似預(yù) 設(shè)值。釣魚網(wǎng)頁確定模塊44,具體用于在對象模型確定單元435確定模型相似度大于模 型相似預(yù)設(shè)值或在詞匯確定單元434詞匯相似度高于詞匯相似高預(yù)設(shè)值時,確定待檢測網(wǎng) 頁為釣魚網(wǎng)頁。上述各模塊的工作機理參見圖2對應(yīng)實施例的描述,在此不再贅述。本發(fā)明實施例。通過從待檢測網(wǎng)頁提取的內(nèi)容特征網(wǎng)頁編碼格式、網(wǎng)頁詞匯、網(wǎng) 頁詞匯量和網(wǎng)頁D0M,分別與釣魚模板庫中各模板文件保存的內(nèi)容特征進行匹配,得到多個 相似度。只要其中一個相似度大于預(yù)設(shè)的相似閾值,則確定該待檢測網(wǎng)頁是釣魚網(wǎng)頁,并還 可確定相似度大于預(yù)設(shè)的相似閾值的模板文件對應(yīng)的網(wǎng)頁名稱,從而確定該待檢測網(wǎng)頁相 似的釣魚網(wǎng)頁。另外,還可將待檢測網(wǎng)頁的內(nèi)容特征與品牌模板庫中各模板文件進行匹配。 在品牌模板庫中確定出相似度大于預(yù)設(shè)的相似閥值的模板文件時,確定該待檢測網(wǎng)頁為釣 魚網(wǎng)頁的同時,還可輸出該模板文件對應(yīng)網(wǎng)頁的名稱,即該待檢測網(wǎng)頁所仿冒的品牌網(wǎng)頁 的名稱。
圖7為本發(fā)明提供的釣魚網(wǎng)頁檢測設(shè)備實施例三結(jié)構(gòu)示意圖。如圖7所示,在圖 5所示的基礎(chǔ)上還包括釣魚模板庫建立模塊47、品牌模板庫建立模塊48和信任域名庫建 立模塊49。釣魚模板庫建立模塊47,用于將從釣魚網(wǎng)頁提取的內(nèi)容特征,與釣魚模板庫中各 模板文件中內(nèi)容特征進行匹配,確定從釣魚網(wǎng)頁提取的內(nèi)容特征與各模板文件的相似度; 在從釣魚網(wǎng)頁提取的內(nèi)容特征與各模板文件的相似度均小于預(yù)設(shè)的相似閾值時,將從釣魚 網(wǎng)頁提取的內(nèi)容特征形成模板文件寫入釣魚模板庫。品牌模板庫建立模塊48,用于將從品牌網(wǎng)頁提取的內(nèi)容特征,與品牌模板庫中各 模板文件中內(nèi)容特征進行匹配,確定從品牌網(wǎng)頁提取的內(nèi)容特征與各模板文件的相似度; 在從品牌網(wǎng)頁提取的內(nèi)容特征與各模板文件的相似度均小于預(yù)設(shè)的相似閾值時,將從品牌 網(wǎng)頁提取的內(nèi)容特征形成模板文件寫入品牌模板庫。信任域名庫建立模塊49,用于若URL中頂級域名為非國家頂級域名,從URL中提取 出二級域名寫入信任域名庫;若URL中頂級域名是國家域名且二級域名是頂級域字符串, 從URL中提取三級域名寫入信任域名庫。上述各模塊的工作機理參見圖3對應(yīng)實施例的描述,在此不再贅述。本發(fā)明實施例建立品牌模板庫時,將下載網(wǎng)頁的內(nèi)容特征與品牌模板庫中已有模 板文件進行匹配,只有在品牌模板庫中不存在與該下載網(wǎng)頁的內(nèi)容特征相似的模板文件 時,才將該下載網(wǎng)頁以模板文件形式存入品牌模板庫中,從而避免了在品牌模板庫中重復(fù) 保存多個相似網(wǎng)頁的模板文件。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述方法實施例的全部或部分步驟可以通過 程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序 在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括R0M、RAM、磁碟或者 光盤等各種可以存儲程序代碼的介質(zhì)。最后應(yīng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡 管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解其依然 可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替 換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精 神和范圍。
權(quán)利要求
1.一種釣魚網(wǎng)頁檢測方法,其特征在于,包括判斷信任域名庫中是否存在待檢測網(wǎng)頁對應(yīng)的唯一域名;在所述信任域名庫中不存在所述唯一域名時,分別確定從所述待檢測網(wǎng)頁中提取的內(nèi) 容特征與模板文件庫的各模板文件中內(nèi)容特征的相似度;所述內(nèi)容特征至少包括編碼格 式、文檔對象模型、詞匯和詞匯數(shù)量;在從所述待檢測網(wǎng)頁中提取的內(nèi)容特征,至少與一個所述模板文件中內(nèi)容特征的相似 度大于預(yù)設(shè)的相似閾值時,確定所述待檢測網(wǎng)頁為釣魚網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁檢測方法,其特征在于,所述信任域名庫用于保存 待檢測網(wǎng)頁受信任的唯一域名,所述模板文件庫為品牌模板庫或釣魚模板庫;所述釣魚模 板庫中模板文件中包括從釣魚網(wǎng)頁提取的內(nèi)容特征,所述品牌模板庫中模板文件包括從品 牌網(wǎng)頁提取的內(nèi)容特征。
3.根據(jù)權(quán)利要求1或2所述的釣魚網(wǎng)頁檢測方法,其特征在于,在所述確定所述待檢測 網(wǎng)頁為釣魚網(wǎng)頁之后,還包括在確定與從所述待檢測網(wǎng)頁中提取的內(nèi)容特征的相似度大于所述預(yù)設(shè)的相似閾值的 模板文件時,輸出所述模板文件所對應(yīng)的釣魚網(wǎng)頁名稱或?qū)?yīng)的被仿冒品牌網(wǎng)頁名稱。
4.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁檢測方法,其特征在于,所述分別確定從所述待檢 測網(wǎng)頁中提取的內(nèi)容特征與模板文件庫的各模板文件中內(nèi)容特征的相似度,包括從所述模板文件庫中讀取模板文件,判斷從所述待檢測網(wǎng)頁中提取的編碼格式是否與 所述模板文件中的編碼格式相同;在從所述待檢測網(wǎng)頁中提取的編碼格式與所述模板文件中的編碼格式相同時,判斷從 所述待檢測網(wǎng)頁中提取的詞匯數(shù)量與所述模板文件中詞匯數(shù)量的差值的絕對值是否在數(shù) 量相似預(yù)設(shè)范圍內(nèi);所述詞匯數(shù)量在所述數(shù)量相似預(yù)設(shè)范圍時,確定從所述待檢測網(wǎng)頁中提取的詞匯與所 述模板文件中詞匯的詞匯相似度是否在詞匯相似高預(yù)設(shè)值與詞匯相似低預(yù)設(shè)值之間;在所述詞匯相似度在詞匯相似高預(yù)設(shè)值與詞匯相似低預(yù)設(shè)值之間時,計算從所述待檢 測網(wǎng)頁中提取的文檔對象模型與所述模板文件中文檔對象模型的模型相似度;在所述模型相似度大于模型相似預(yù)設(shè)值或在所述詞匯相似度高于詞匯相似高預(yù)設(shè)值 時,確定所述待檢測網(wǎng)頁為釣魚網(wǎng)頁;從所述釣魚模板庫或所述品牌模板庫讀取下一模板 文件,重復(fù)執(zhí)行上述步驟,直至根據(jù)模型相似度從多個達到模型相似預(yù)設(shè)值的模板文件中 找出相似度最高的模板文件。
5.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁檢測方法,其特征在于,在所述判斷信任域名庫中 是否存在待檢測網(wǎng)頁對應(yīng)的唯一域名之前還包括將從釣魚網(wǎng)頁提取的內(nèi)容特征,與釣魚模板庫中各模板文件中內(nèi)容特征進行匹配,確 定從釣魚網(wǎng)頁提取的內(nèi)容特征與各所述模板文件的相似度;在從所述釣魚網(wǎng)頁提取的內(nèi)容特征與各所述模板文件的相似度均小于所述預(yù)設(shè)的相 似閾值時,將從釣魚網(wǎng)頁提取的內(nèi)容特征形成模板文件寫入所述釣魚模板庫。
6.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁檢測方法,其特征在于,在所述判斷信任域名庫中 是否存在待檢測網(wǎng)頁對應(yīng)的唯一域名之前還包括將從品牌網(wǎng)頁提取的內(nèi)容特征,與品牌模板庫中各模板文件中內(nèi)容特征進行匹配,確定從品牌網(wǎng)頁提取的內(nèi)容特征與各所述模板文件的相似度;在從所述品牌網(wǎng)頁提取的內(nèi)容特征與各所述模板文件的相似度均小于所述模型相似 預(yù)設(shè)值時,將從品牌網(wǎng)頁提取的內(nèi)容特征形成模板文件寫入所述品牌模板庫。
7.根據(jù)權(quán)利要求5或6所述的釣魚網(wǎng)頁檢測方法,其特征在于,在所述判斷信任域名庫 中是否存在待檢測網(wǎng)頁對應(yīng)的唯一域名之前還包括收集的統(tǒng)一資源定位符中頂級域名為非國家頂級域名時,從所述統(tǒng)一資源定位符中提 取出二級域名寫入所述信任域名庫;收集的所述統(tǒng)一資源定位符中頂級域名是國家域名且二級域名是頂級域名字符串時, 從所述統(tǒng)一資源定位符中提取三級域名寫入所述信任域名庫。
8.一種釣魚網(wǎng)頁檢測設(shè)備,其特征在于,包括信任域名庫,用于保存受信任網(wǎng)頁對應(yīng)的唯一域名;模板文件庫,用于保存多個模板文件,所述模板文件包括從網(wǎng)頁中提取的內(nèi)容特征;所 述內(nèi)容特征至少包括編碼格式、文檔對象模型、詞匯和詞匯數(shù)量;域名確定模塊,用于判斷信任域名庫中是否存在待檢測網(wǎng)頁對應(yīng)的唯一域名; 內(nèi)容提取模塊,用于在所述信任域名庫中不存在所述唯一域名時,從所述待檢測網(wǎng)頁 中提取的內(nèi)容特征;相似度確定模塊,用于分別確定從所述待檢測網(wǎng)頁中提取的內(nèi)容特征與所述模板文件 庫的各所述模板文件中內(nèi)容特征的相似度;釣魚網(wǎng)頁確定模塊,用于在從所述待檢測網(wǎng)頁中提取的內(nèi)容特征,至少與一個所述模 板文件中內(nèi)容特征的相似度大于預(yù)設(shè)的相似閾值時,確定所述待檢測網(wǎng)頁為釣魚網(wǎng)頁。
9.根據(jù)權(quán)利要求8所述的釣魚網(wǎng)頁檢測設(shè)備,其特征在于,還包括網(wǎng)頁名稱輸出模塊,用于確定與從所述待檢測網(wǎng)頁中提取的內(nèi)容特征的相似度大于所 述預(yù)設(shè)的相似閾值預(yù)設(shè)的相似閥值的模板文件,輸出所述模板文件所對應(yīng)的釣魚網(wǎng)頁名稱 或?qū)?yīng)的被仿冒品牌網(wǎng)頁名稱。
10.根據(jù)權(quán)利要求9所述的釣魚網(wǎng)頁檢測設(shè)備,其特征在于,所述相似度確定模塊包括讀取單元,用于從釣魚模板庫或品牌模板庫中讀取模板文件; 編碼格式確定單元,用于判斷從所述待檢測網(wǎng)頁中提取的編碼格式是否與所述模板文 件中的編碼格式相同;詞匯數(shù)量確定單元,用于在從所述待檢測網(wǎng)頁中提取的編碼格式與所述模板文件中的 編碼格式相同時,判斷從所述待檢測網(wǎng)頁中提取的詞匯數(shù)量與所述模板文件中詞匯數(shù)量的 差值的絕對值是否在數(shù)量相似預(yù)設(shè)范圍內(nèi);詞匯確定單元,用于從所述待檢測網(wǎng)頁中提取的詞匯數(shù)量與所述模板文件中詞匯數(shù)量 的差值的絕對值在所述數(shù)量相似預(yù)設(shè)范圍內(nèi)時,判斷從所述待檢測網(wǎng)頁中提取的詞匯與所 述模板文件中詞匯的詞匯相似度是否在詞匯相似高預(yù)設(shè)值與詞匯相似低預(yù)設(shè)值之間;對象模型確定單元,用于在所述詞匯相似度在詞匯相似高預(yù)設(shè)值與詞匯相似低預(yù)設(shè)值 之間時,確定從所述待檢測網(wǎng)頁中提取的文檔對象模型與所述模板文件中文檔對象模型的 模型相似度,并判斷所述模型相似度是否大于所述模型相似預(yù)設(shè)值;所述釣魚網(wǎng)頁確定模塊,具體用于在所述模型相似度大于模型相似預(yù)設(shè)值或在所述詞匯相似度高于詞匯相似高預(yù)設(shè)值時,確定所述待檢測網(wǎng)頁為釣魚網(wǎng)頁。
11.根據(jù)權(quán)利要求10所述的釣魚網(wǎng)頁檢測設(shè)備,其特征在于,所述模板文件庫包括釣魚模板庫,用于保存包括從釣魚網(wǎng)頁中提取的內(nèi)容特征的模板文件;品牌模板庫,用于保存包括從品牌網(wǎng)頁中提取的內(nèi)容特征的模板文件。
12.根據(jù)權(quán)利要求11所述的釣魚網(wǎng)頁檢測設(shè)備,其特征在于,還包括釣魚模板庫建立模塊,用于將從釣魚網(wǎng)頁提取的內(nèi)容特征,與釣魚模板庫中各模板文 件中內(nèi)容特征進行匹配,確定從釣魚網(wǎng)頁提取的內(nèi)容特征與各所述模板文件的相似度;在 從所述釣魚網(wǎng)頁提取的內(nèi)容特征與各所述模板文件的相似度均小于所述預(yù)設(shè)的相似閾值 時,將從釣魚網(wǎng)頁提取的內(nèi)容特征形成模板文件寫入所述釣魚模板庫;品牌模板庫建立模塊,用于將從品牌網(wǎng)頁提取的內(nèi)容特征,與品牌模板庫中各模板文 件中內(nèi)容特征進行匹配,確定從品牌網(wǎng)頁提取的內(nèi)容特征與各所述模板文件的相似度;在 從所述品牌網(wǎng)頁提取的內(nèi)容特征與各所述模板文件的相似度均小于所述預(yù)設(shè)的相似閾值 時,將從品牌網(wǎng)頁提取的內(nèi)容特征形成模板文件寫入所述品牌模板庫。
13.根據(jù)權(quán)利要求12所述的釣魚網(wǎng)頁檢測設(shè)備,其特征在于,還包括信任域名庫建立 模塊,用于收集的統(tǒng)一資源定位符中頂級域名為非國家頂級域名時,從所述統(tǒng)一資源定位 符中提取出二級域名寫入所述信任域名庫;收集的統(tǒng)一資源定位符中頂級域名是國家域名 且二級域名是頂級域名字符串時,從所述統(tǒng)一資源定位符中提取三級域名寫入所述信任域 名庫。
全文摘要
本發(fā)明實施例提供一種釣魚網(wǎng)頁檢測方法及設(shè)備,該方法包括判斷信任域名庫中是否存在待檢測網(wǎng)頁對應(yīng)的唯一域名;在信任域名庫中不存在唯一域名時,分別確定從待檢測網(wǎng)頁中提取的內(nèi)容特征與模板文件庫的各模板文件中內(nèi)容特征的相似度;內(nèi)容特征至少包括編碼格式、文檔對象模型、詞匯和詞匯數(shù)量;在從待檢測網(wǎng)頁中提取的內(nèi)容特征,至少與一個模板文件中內(nèi)容特征的相似度大于預(yù)設(shè)的相似閾值時,確定待檢測網(wǎng)頁為釣魚網(wǎng)頁。本發(fā)明實施例提高了釣魚網(wǎng)頁檢測結(jié)果的準(zhǔn)確性。
文檔編號H04L12/26GK102082792SQ20101062064
公開日2011年6月1日 申請日期2010年12月31日 優(yōu)先權(quán)日2010年12月31日
發(fā)明者郭輝, 馬勺布 申請人:成都市華為賽門鐵克科技有限公司