識(shí)別釣魚網(wǎng)站的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)安全領(lǐng)域,尤其涉及一種識(shí)別釣魚網(wǎng)站的方法及裝置。
【背景技術(shù)】
[0002]釣魚網(wǎng)站通常是指?jìng)窝b成銀行網(wǎng)站或電子商務(wù)網(wǎng)站、用以竊取用戶提交的私人信息的網(wǎng)站。不法分子利用各種手段仿冒真實(shí)網(wǎng)站的統(tǒng)一資源定位符(Uniform ResourceLocator,簡(jiǎn)稱URL)及頁面內(nèi)容,誘導(dǎo)用戶訪問仿冒的頁面內(nèi)容,以此來騙取用戶輸入的銀行帳號(hào)、密碼等私人信息。釣魚網(wǎng)站的出現(xiàn)嚴(yán)重影響了在線金融服務(wù)的發(fā)展,破壞了公眾使用互聯(lián)網(wǎng)的信心。因此對(duì)釣魚網(wǎng)站進(jìn)行有效識(shí)別就成為互聯(lián)網(wǎng)安全領(lǐng)域中的一項(xiàng)重要工作。
[0003]現(xiàn)有識(shí)別釣魚網(wǎng)站的方式為:通過未知URL向目標(biāo)網(wǎng)站請(qǐng)求頁面內(nèi)容,獲取并識(shí)別頁面內(nèi)容中的特征向量,根據(jù)特征向量的特點(diǎn)判斷目標(biāo)網(wǎng)站是否為釣魚網(wǎng)站。例如,對(duì)頁面內(nèi)容中文字、圖片、輸入框、控件等對(duì)象的位置、尺寸、樣式風(fēng)格進(jìn)行識(shí)別,判斷該頁面內(nèi)容是否與正規(guī)的銀行或電子商務(wù)網(wǎng)站的頁面內(nèi)容相似。如果相似則可確定該目標(biāo)網(wǎng)站為釣魚網(wǎng)站,該未知URL為釣魚URL。
[0004]現(xiàn)有方式需要以獲取目標(biāo)網(wǎng)站的頁面內(nèi)容為前提,但是實(shí)際應(yīng)用中部分釣魚網(wǎng)站具有針對(duì)安全檢測(cè)的防御機(jī)制。這些釣魚網(wǎng)站可以通過頁面請(qǐng)求方的網(wǎng)間協(xié)議(InternetProtocol,簡(jiǎn)稱IP)地址識(shí)別出請(qǐng)求方的身份。如果請(qǐng)求方身份為互聯(lián)網(wǎng)安全機(jī)構(gòu),那么釣魚網(wǎng)站就會(huì)對(duì)請(qǐng)求方的IP地址進(jìn)行屏蔽,使得請(qǐng)求方無法獲得釣魚網(wǎng)站的頁面內(nèi)容,從而也就無法基于頁面內(nèi)容對(duì)釣魚網(wǎng)站進(jìn)行有效識(shí)別。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供了一種識(shí)別釣魚網(wǎng)站的方法及裝置,能夠解決因IP地址被屏蔽而導(dǎo)致的無法識(shí)別釣魚網(wǎng)站的問題。
[0006]為解決上述問題,一方面,本發(fā)明提供了一種識(shí)別釣魚網(wǎng)站的方法,該方法包括:
[0007]獲取已知釣魚網(wǎng)站的統(tǒng)一資源定位符URL作為樣本URL ;
[0008]根據(jù)樣本URL的特征信息訓(xùn)練檢測(cè)模型;
[0009]使用檢測(cè)模型對(duì)未知URL的特征信息進(jìn)行匹配,獲得未知URL的檢測(cè)結(jié)果。
[0010]另一方面,本發(fā)明還提供了一種識(shí)別釣魚網(wǎng)站的裝置,該裝置包括:
[0011]獲取單元,用于獲取已知釣魚網(wǎng)站的統(tǒng)一資源定位符URL作為樣本URL ;
[0012]訓(xùn)練單元,用于根據(jù)樣本URL的特征信息訓(xùn)練檢測(cè)模型;
[0013]匹配單元,用于使用檢測(cè)模型對(duì)未知URL的特征信息進(jìn)行匹配,獲得未知URL的檢測(cè)結(jié)果。
[0014]本發(fā)明提供的識(shí)別釣魚網(wǎng)站的方法及裝置,能夠根據(jù)釣魚網(wǎng)站的URL訓(xùn)練檢測(cè)模型,并使用檢測(cè)模型對(duì)未知URL中的特征信息進(jìn)行匹配,從而獲得未知URL是否為釣魚網(wǎng)站URL的檢測(cè)結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明僅對(duì)未知URL進(jìn)行檢測(cè)就可以達(dá)到識(shí)別釣魚網(wǎng)站的目的,無需通過未知URL向未知網(wǎng)站請(qǐng)求頁面內(nèi)容,即使未知網(wǎng)站對(duì)請(qǐng)求方的IP地址進(jìn)行屏蔽也不影響對(duì)釣魚網(wǎng)站的識(shí)別。
[0015]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0016]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0017]圖1示出了本發(fā)明實(shí)施例提供的一種識(shí)別釣魚網(wǎng)站的方法流程圖;
[0018]圖2示出了本發(fā)明實(shí)施例提供的另一種識(shí)別釣魚網(wǎng)站的方法流程圖;
[0019]圖3示出了本發(fā)明實(shí)施例提供的一種識(shí)別釣魚網(wǎng)站的裝置的組成框圖;
[0020]圖4示出了本發(fā)明實(shí)施例提供的另一種識(shí)別釣魚網(wǎng)站的裝置的組成框圖。
【具體實(shí)施方式】
[0021]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0022]本發(fā)明實(shí)施例提供了一種識(shí)別釣魚網(wǎng)站的方法,該方法通過對(duì)未知URL進(jìn)行模型匹配的方式識(shí)別釣魚網(wǎng)站。如圖1所示,該方法包括:
[0023]101、獲取已知釣魚網(wǎng)站的URL作為樣本URL。
[0024]本發(fā)明實(shí)施例可以由第三方的安全服務(wù)器或監(jiān)控客戶端進(jìn)行實(shí)現(xiàn)。監(jiān)控客戶端的實(shí)體形式包括但不限于是手機(jī)、個(gè)人電腦(Personal Computer,簡(jiǎn)稱PC)、平板電腦以及可穿戴式電子設(shè)備。為便于表述本發(fā)明實(shí)施例后續(xù)將以安全服務(wù)器為例進(jìn)行說明。
[0025]本實(shí)施例中,訓(xùn)練檢測(cè)模型的數(shù)據(jù)材料是已知釣魚網(wǎng)站的URL,服務(wù)器可以通過現(xiàn)有手段收集已知釣魚網(wǎng)站的URL,包括但不限于是:1、從URL黑名單中獲??;2、通過用戶網(wǎng)絡(luò)舉報(bào)獲?。?、向第三方監(jiān)管機(jī)構(gòu)獲??;4、通過頁面內(nèi)容檢測(cè)確定。實(shí)際應(yīng)用中,訓(xùn)練檢測(cè)模型的數(shù)據(jù)材料可以一次性給出,也可以隨時(shí)間的推移不斷增量更新,本實(shí)施例不對(duì)數(shù)據(jù)材料的數(shù)量進(jìn)行限制。
[0026]102、根據(jù)樣本URL的特征信息訓(xùn)練檢測(cè)模型。
[0027]釣魚網(wǎng)站的URL (后續(xù)簡(jiǎn)稱為釣魚URL)與正規(guī)網(wǎng)站的URL (后續(xù)簡(jiǎn)稱為安全URL)之間,在URL結(jié)構(gòu)或內(nèi)容上通常有所差異,例如釣魚URL的域名注冊(cè)時(shí)間較短、域名級(jí)數(shù)較少等,可以將這種差異作為識(shí)別釣魚URL的判斷標(biāo)準(zhǔn)。所謂特征信息就是指樣本URL (釣魚URL)的結(jié)構(gòu)及內(nèi)容,將樣本URL中預(yù)設(shè)字段上的內(nèi)容進(jìn)行提取,作為特征信息輸入到檢測(cè)模型中進(jìn)行訓(xùn)練,可以使檢測(cè)模型獲得識(shí)別釣魚網(wǎng)站的判斷標(biāo)準(zhǔn),從而在后續(xù)可以對(duì)釣魚URL進(jìn)行有效識(shí)別。實(shí)際應(yīng)用中樣本URL的數(shù)量越多、特征信息越明顯,檢測(cè)模型的識(shí)別準(zhǔn)確度就越高。
[0028]本實(shí)施例中,可以通過機(jī)器學(xué)習(xí)的方式訓(xùn)練檢測(cè)模型。在學(xué)習(xí)方式上具體可以包括監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)、半監(jiān)督式學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。在學(xué)習(xí)算法的種類方面,可以包括回歸算法、基于實(shí)例的算法、正則化算法、決策樹算法、貝葉斯算法、基于核的算法、聚類算法、分類算法、關(guān)聯(lián)規(guī)則算法、人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、降低維度算法、集成算法等。本實(shí)施例不對(duì)訓(xùn)練檢測(cè)模型的方式進(jìn)行具體限制。
[0029]103、使用檢測(cè)模型對(duì)未知URL的特征信息進(jìn)行匹配,獲得未知URL的檢測(cè)結(jié)果。
[0030]在獲得檢測(cè)模型后就可以使用該模型對(duì)未知URL進(jìn)行檢測(cè)了。所謂未知URL就是作為檢測(cè)對(duì)象的目標(biāo)網(wǎng)站的URL。檢測(cè)未知URL的目的在于判斷該URL是否為釣魚網(wǎng)站的URL。而在本實(shí)施例的一種實(shí)現(xiàn)方式中,也可以不給出是否為釣魚URL的定性結(jié)論,而是給出未知URL可能為釣魚URL的概率大小,本實(shí)施例不對(duì)檢測(cè)結(jié)果的形式和內(nèi)容進(jìn)行具體限制,一切基于特征信息檢測(cè)給出的、能夠?yàn)橛脩粽鐒e釣魚網(wǎng)站提供指導(dǎo)性意見的信息均包含于所述檢測(cè)結(jié)果的范疇內(nèi)。
[0031]在對(duì)未知URL進(jìn)行匹配時(shí),需要從未知URL中提取特征信息,這里所述的特征信息是指與前述樣本URL的結(jié)構(gòu)或內(nèi)容對(duì)應(yīng)的信息,但并不一定是在結(jié)果或內(nèi)容上相同的特征信息。這是由于,對(duì)于未知URL而言,其有可能是釣魚URL也有可能是安全URL,當(dāng)為釣魚URL時(shí),其特征信息會(huì)與某個(gè)或某些樣本URL的特征信息相同,當(dāng)為安全URL時(shí),其特征信息與樣本URL的特征信息不同。在提取未知URL的特征信息時(shí)無需也無法確定其特征信息的性質(zhì),只要按照提取樣本URL特征信息的方式提取對(duì)應(yīng)位置上的內(nèi)容即可。
[0032]在獲得未知URL的特征信息后,使用檢測(cè)模型對(duì)其進(jìn)行匹配,若符合檢測(cè)標(biāo)準(zhǔn)或檢測(cè)規(guī)則,則確定其為釣魚URL,否則確定其為安全URL。當(dāng)然,實(shí)際應(yīng)用中也可以根據(jù)特征信息與檢測(cè)標(biāo)準(zhǔn)或檢測(cè)規(guī)則的匹配程度,給出未知URL為釣魚URL的概率大小。
[0033]本實(shí)施例中,可以將樣本URL及未知URL直接輸入到檢測(cè)模型中,無需單獨(dú)執(zhí)行特征信息提取的步驟。實(shí)際應(yīng)用中可以為檢測(cè)模型提供URL的存儲(chǔ)路徑,或者通過專用的人機(jī)交互界面將外部輸入的URL發(fā)送給檢測(cè)模型,本實(shí)施例對(duì)此不作限制。
[0034]本發(fā)明實(shí)施例提供的識(shí)別釣魚網(wǎng)站的方法,能夠根據(jù)釣魚網(wǎng)站的URL訓(xùn)練檢測(cè)模型,并使