專利名稱:釣魚網(wǎng)站收集方法和釣魚網(wǎng)站收集設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息技術(shù)領(lǐng)域,特別涉及一種釣魚網(wǎng)站收集方法和釣魚網(wǎng)站收集設(shè)備。
背景技術(shù):
目前,釣魚網(wǎng)站的數(shù)量急劇增加,并且來源甚廣,例如利用用戶本身漏洞,通過相似域名,或者做競價排名等方式,對網(wǎng)民的上網(wǎng)安全造成重大威脅?,F(xiàn)有技術(shù)中,各代理反釣魚網(wǎng)站業(yè)務(wù)的網(wǎng)站均采用單一的爬蟲程序搜索釣魚網(wǎng)站,然而,當(dāng)代理網(wǎng)站的爬蟲程序的性能與不斷涌現(xiàn)的各種釣魚網(wǎng)站不相適應(yīng)時,則會影響收集釣魚網(wǎng)站的準(zhǔn)確率。
發(fā)明內(nèi)容
本發(fā)明提供了一種釣魚網(wǎng)站收集方法和釣魚網(wǎng)站收集設(shè)備,以提高收集釣魚網(wǎng)站的準(zhǔn)確率。一方面,本發(fā)明提供一種釣魚網(wǎng)站收集方法,包括獲取爬蟲程序代理列表,所述爬蟲程序代理列表中包括多種爬蟲程序;獲取所述爬蟲程序代理列表中各爬蟲程序的性能加權(quán)值;根據(jù)各爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序;采用所述目標(biāo)爬蟲程序獲取與搜索主題相關(guān)的釣魚網(wǎng)站。另一方面,本發(fā)明還提供一種釣魚網(wǎng)站收集設(shè)備,包括獲取模塊,用于獲取爬蟲程序代理列表,所述爬蟲程序代理列表中包括多種爬蟲程序;處理模塊,用于獲取所述爬蟲程序代理列表中各爬蟲程序的性能加權(quán)值;還用于根據(jù)各爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序;搜索模塊,用于采用所述目標(biāo)爬蟲程序獲取與搜索主題相關(guān)的釣魚網(wǎng)站。本發(fā)明提供的釣魚網(wǎng)站收集方法和設(shè)備,根據(jù)各代理反釣魚網(wǎng)站業(yè)務(wù)的網(wǎng)站采用的爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序,采用該目標(biāo)爬蟲程序搜索釣魚網(wǎng)站,從而能夠根據(jù)不斷出現(xiàn)的釣魚網(wǎng)站適應(yīng)調(diào)整目標(biāo)爬蟲程序,提高收集釣魚網(wǎng)站的準(zhǔn)確率。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明提供的釣魚網(wǎng)站收集方法一個實施例的流程圖;圖2為本發(fā)明提供的釣魚網(wǎng)站收集方法又一個實施例的流程圖3為本發(fā)明提供的釣魚網(wǎng)站收集設(shè)備一個實施例的結(jié)構(gòu)示意圖;圖4為本發(fā)明提供的釣魚網(wǎng)站收集設(shè)備又一個實施例的結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖1為本發(fā)明提供的釣魚網(wǎng)站收集方法一個實施例的流程圖,如圖1所示,該方法包括S101、獲取爬蟲程序代理列表,爬蟲程序代理列表中包括多種爬蟲程序。目前,代理反釣魚網(wǎng)站業(yè)務(wù)的各種網(wǎng)站通常采用不同的爬蟲程序來收集釣魚網(wǎng)站,本發(fā)明實施例中,可以首先獲取代理反釣魚網(wǎng)站業(yè)務(wù)的各種網(wǎng)站所采用的各種爬蟲程序。具體可以采用爬蟲程序在互聯(lián)網(wǎng)上爬取代理反釣魚網(wǎng)站業(yè)務(wù)的各種網(wǎng)站信息,來獲取各種不同的爬蟲程序。S102、獲取爬蟲程序代理列表中各爬蟲程序的性能加權(quán)值。其中,爬蟲程序的性能可以通過多種因數(shù)來體現(xiàn),例如是否處于存活期、近期更新情況、搜索效率及搜索速率等,在此不一一列舉??梢灶A(yù)先為爬蟲程序的性能包括的各種因數(shù)設(shè)定重要性因子,各種因素的重要性因子之和為1,每種因數(shù)的重要性因子可以根據(jù)該中因數(shù)對爬蟲程序總體性能的影響力來確定,也可以根據(jù)搜索的實際需求等因素來確定。例如可以將存活期因數(shù)的重要性因子設(shè)定為0. 5,搜索效率因數(shù)的重要性因子設(shè)定為0. 3,搜索速率因數(shù)的重要性因子設(shè)定為0. 2。重要性因子設(shè)定后,可以將存活期、近期更新情況、搜索效率及搜索速率的實際值分別與對應(yīng)的重要性因子相乘后,再將各乘積家和得到每種爬蟲程序的性能加權(quán)值。需要說明的是,對于搜索效率和搜索速率可以直接得到相應(yīng)數(shù)值,而對于存活期、 近期更新情況等,可以將剩余存活有限期、更新天數(shù)等與對應(yīng)的重要性因子相乘。S103、根據(jù)各爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序。在獲取各爬蟲程序的性能加權(quán)值之后,可以選取加權(quán)值最大的爬蟲程序作為目標(biāo)爬蟲程序。如果存在多個目標(biāo)爬蟲程序,作為一種可行的實施方式,還可以從中選擇一個所關(guān)注的性能因數(shù)最優(yōu)的,例如搜索效率最高的爬蟲程序作為目標(biāo)爬蟲程序。S104、采用目標(biāo)爬蟲程序獲取與搜索主題相關(guān)的釣魚網(wǎng)站。目標(biāo)爬蟲程序可以采用相似域名的方法爬取與搜索主題相關(guān)的釣魚網(wǎng)站。具體的,目標(biāo)爬蟲程序可以預(yù)先設(shè)定一定的搜索主題,例如搜索主題可以是招商銀行的網(wǎng)址 www. cmbchina. com,則目標(biāo)爬蟲程序可以搜索與www. cmbchina. com相關(guān)的釣魚網(wǎng)站,例如www. cmdchina. com, www. cbmchina. com等。這些與搜索主題相關(guān)的釣魚網(wǎng)站可以是與搜索主題的字符串相近或類似的網(wǎng)站,還可以是與搜索主題的意思相近或類似的網(wǎng)站等等,在此不做具體限制,可以根據(jù)具體需求進行設(shè)定。本實施例提供的釣魚網(wǎng)站收集方法,根據(jù)各代理反釣魚網(wǎng)站業(yè)務(wù)的網(wǎng)站采用的爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序,采用該目標(biāo)爬蟲程序搜索釣魚網(wǎng)站,從而能夠根據(jù)不斷出現(xiàn)的釣魚網(wǎng)站適應(yīng)調(diào)整目標(biāo)爬蟲程序,提高收集釣魚網(wǎng)站的準(zhǔn)確率。圖2為本發(fā)明提供的釣魚網(wǎng)站收集方法又一個實施例的流程圖,如圖2所示,該方法包括S201、獲取爬蟲程序代理列表,爬蟲程序代理列表中包括多種爬蟲程序。S202、為爬蟲程序的性能中包括的各種因數(shù)設(shè)定重要性因子。S203、根據(jù)各種因數(shù)與對應(yīng)的重要性因子的乘積之和,確定各爬蟲程序的性能加權(quán)值。其中,爬蟲程序的性能包括以下一種或任意種因數(shù)的組合存活期、搜索效率和搜索速率??梢灶A(yù)先為爬蟲程序的性能包括的各種因數(shù)設(shè)定重要性因子,各種因素的重要性因子之和為1,每種因數(shù)的重要性因子可以根據(jù)該中因數(shù)對爬蟲程序總體性能的影響力來確定,也可以根據(jù)搜索的實際需求等因素來確定。例如可以將存活期因數(shù)的重要性因子設(shè)定為0. 5,搜索效率因數(shù)的重要性因子設(shè)定為0. 3,搜索速率因數(shù)的重要性因子設(shè)定為0. 2。重要性因子設(shè)定后,可以將存活期、近期更新情況、搜索效率及搜索速率的實際值分別與對應(yīng)的重要性因子相乘后,再將各乘積家和得到每種爬蟲程序的性能加權(quán)值。需要說明的是,對于搜索效率和搜索速率可以直接得到相應(yīng)數(shù)值,而對于存活期、 近期更新情況等,可以將剩余存活有限期、更新天數(shù)等與對應(yīng)的重要性因子相乘。S204、周期性更新爬蟲程序代理列表。由于各種類型的釣魚網(wǎng)站不斷升級或更新,相應(yīng)的,各種爬蟲程序也不斷涌現(xiàn),基于這種情況,可以周期性地對爬蟲程序代理列表中的爬蟲程序種類進行更新,例如可以增加新出現(xiàn)的爬蟲程序,或者可以對已有的爬蟲程序進行更新等。S205、根據(jù)各爬蟲程序的性能變化更新各爬蟲程序的性能加權(quán)值。由于爬蟲程序本身的存活期不斷變化,更新情況不斷變化,爬蟲程序針對新出現(xiàn)的各種釣魚網(wǎng)站的搜索效率和搜索速率也是不斷變化的,并且,爬蟲程序代理列表也可以周期性更新,因此,可以基于上述的某種變化或任意種變化的組合,周期性地更新爬蟲程序代理列表中的各爬蟲程序的性能加權(quán)值,從而可以不斷更新目標(biāo)爬蟲程序,以提高收集釣魚網(wǎng)站的準(zhǔn)確率。S206、根據(jù)各爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序。在獲取各爬蟲程序的性能加權(quán)值之后,可以選取加權(quán)值最大的爬蟲程序作為目標(biāo)爬蟲程序。如果存在多個目標(biāo)爬蟲程序,作為一種可行的實施方式,還可以從中選擇一個所關(guān)注的性能因數(shù)最優(yōu)的,例如搜索效率最高的爬蟲程序作為目標(biāo)爬蟲程序。S207、采用目標(biāo)爬蟲程序進行與搜索主題相關(guān)的文本搜索和/或圖像搜索,獲取數(shù)個統(tǒng)一資源定位符(Uniform Resource Locator, URL)。作為一種可行的實施方式,搜索主題可以是一些關(guān)鍵字,例如工商銀行、建設(shè)銀行等。目標(biāo)爬蟲程序可以在各種URL指向的網(wǎng)頁中,搜索出主題內(nèi)容與搜索主題提供的關(guān)鍵字相近或類似的URL,或者是搜索主題提供的關(guān)鍵字或近似的詞匯出現(xiàn)頻率較高的URL寸。作為另一種可行的實施方式,搜索主題還可以是圖像或者圖像特征標(biāo)識,例如工商銀行的標(biāo)識(Logo),或者建設(shè)銀行的標(biāo)識。目標(biāo)爬蟲程序可以在各種URL指向的網(wǎng)頁中,搜索出圖片信息與搜索主題提供的圖像或圖像標(biāo)識相近或類似的URL,或者是搜索主題提供的圖像或者圖像特征標(biāo)識出現(xiàn)頻率較高的URL等。S208、對數(shù)個URL進行過濾,獲取目標(biāo)釣魚網(wǎng)站。對疑似釣魚網(wǎng)站的URL進行過濾可以采用現(xiàn)有的各種方法。作為一種可行的實施方式,可以通過網(wǎng)站的建立時間、點擊率情況或者活躍度等信息初步判斷是否可能為釣魚網(wǎng)站;還可以根據(jù)已確定的釣魚網(wǎng)站的IP信息確定是否可能為釣魚站點,在此不一一列舉。S209、在獲取目標(biāo)釣魚網(wǎng)站后,可以將這些釣魚網(wǎng)站上報給相應(yīng)的處理設(shè)備進行阻斷處理,或者上報給有關(guān)部門執(zhí)行關(guān)閉網(wǎng)站處理。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random AccessMemory, RAM)等。圖3為本發(fā)明提供的釣魚網(wǎng)站收集設(shè)備一個實施例的結(jié)構(gòu)示意圖,如圖3所示,該釣魚網(wǎng)站收集設(shè)備包括獲取模塊11、處理模塊12和搜索模塊13 ;其中獲取模塊11,用于獲取爬蟲程序代理列表,爬蟲程序代理列表中包括多種爬蟲程序;處理模塊12,用于獲取爬蟲程序代理列表中各爬蟲程序的性能加權(quán)值;還用于根據(jù)各爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序;搜索模塊13,用于采用目標(biāo)爬蟲程序獲取與搜索主題相關(guān)的釣魚網(wǎng)站。本實施例提供的釣魚網(wǎng)站收集設(shè)備,根據(jù)各代理反釣魚網(wǎng)站業(yè)務(wù)的網(wǎng)站采用的爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序,采用該目標(biāo)爬蟲程序搜索釣魚網(wǎng)站,從而能夠根據(jù)不斷出現(xiàn)的釣魚網(wǎng)站適應(yīng)調(diào)整目標(biāo)爬蟲程序,提高收集釣魚網(wǎng)站的準(zhǔn)確率。圖4為本發(fā)明提供的釣魚網(wǎng)站收集設(shè)備又一個實施例的結(jié)構(gòu)示意圖,如圖4所示, 該釣魚網(wǎng)站收集設(shè)備包括獲取模塊11、處理模塊12和搜索模塊13 ;進一步的,還可以包括更新模塊14,用于周期性更新獲取模塊獲取的爬蟲程序代理列表,和/或,根據(jù)各爬蟲程序的性能變化更新處理模塊得到的各爬蟲程序的性能加權(quán)值。作為一種可行的實施方式,爬蟲程序的性能包括以下一種或任意種因數(shù)的組合 存活期、搜索效率和搜索速率;相應(yīng)的,處理模塊12可以具體用于為爬蟲程序的性能中包括的各種因數(shù)設(shè)定重要性因子;根據(jù)各種因數(shù)與對應(yīng)的重要性因子的乘積之和,確定各爬蟲程序的性能加權(quán)值。搜索模塊13可以具體用于采用目標(biāo)爬蟲程序進行與搜索主題相關(guān)的文本搜索和/或圖像搜索,獲取數(shù)個統(tǒng)一資源定位符URL ;對數(shù)個URL中進行過濾,確定目標(biāo)釣魚網(wǎng)站。該釣魚網(wǎng)站收集設(shè)備還可以包括上報模塊15,用于將目標(biāo)釣魚網(wǎng)站上報至釣魚網(wǎng)站處理設(shè)備進行阻斷處理。本發(fā)明提供的釣魚網(wǎng)站收集設(shè)備實施例,與本發(fā)明提供的釣魚網(wǎng)站收集方法實施例相對應(yīng),為釣魚網(wǎng)站收集方法的執(zhí)行設(shè)備,其執(zhí)行釣魚網(wǎng)站收集方法的過程可參見方法實施例中的相關(guān)描述,在此不再贅述。 最后應(yīng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。
權(quán)利要求
1.一種釣魚網(wǎng)站收集方法,其特征在于,包括獲取爬蟲程序代理列表,所述爬蟲程序代理列表中包括多種爬蟲程序; 獲取所述爬蟲程序代理列表中各爬蟲程序的性能加權(quán)值; 根據(jù)各爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序; 采用所述目標(biāo)爬蟲程序獲取與搜索主題相關(guān)的釣魚網(wǎng)站。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序之前,還包括周期性更新所述爬蟲程序代理列表,和/或,根據(jù)所述各爬蟲程序的性能變化更新所述各爬蟲程序的性能加權(quán)值。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述爬蟲程序的性能包括以下一種或任意種因數(shù)的組合存活期、搜索效率和搜索速率;所述獲取所述爬蟲程序代理列表中各爬蟲程序的性能加權(quán)值,具體為 為所述爬蟲程序的性能中包括的各種因數(shù)設(shè)定重要性因子;根據(jù)各種所述因數(shù)與對應(yīng)的所述重要性因子的乘積之和,確定各爬蟲程序的性能加權(quán)值。
4.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述采用所述目標(biāo)爬蟲程序獲取與搜索主題相關(guān)的釣魚網(wǎng)站,包括采用所述目標(biāo)爬蟲程序進行與所述搜索主題相關(guān)的文本搜索和/或圖像搜索,獲取數(shù)個統(tǒng)一資源定位符URL ;對所述數(shù)個URL進行過濾,確定目標(biāo)釣魚網(wǎng)站。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對所述數(shù)個URL進行過濾,確定目標(biāo)釣魚網(wǎng)站之后,還包括將所述目標(biāo)釣魚網(wǎng)站上報至釣魚網(wǎng)站處理設(shè)備進行阻斷處理。
6.一種釣魚網(wǎng)站收集設(shè)備,其特征在于,包括獲取模塊,用于獲取爬蟲程序代理列表,所述爬蟲程序代理列表中包括多種爬蟲程序;處理模塊,用于獲取所述爬蟲程序代理列表中各爬蟲程序的性能加權(quán)值;還用于根據(jù)各爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序;搜索模塊,用于采用所述目標(biāo)爬蟲程序獲取與搜索主題相關(guān)的釣魚網(wǎng)站。
7.根據(jù)權(quán)利要求6所述的釣魚網(wǎng)站收集設(shè)備,其特征在于,還包括更新模塊,用于周期性更新所述獲取模塊獲取的所述爬蟲程序代理列表,和/或,根據(jù)所述各爬蟲程序的性能變化更新所述處理模塊得到的所述各爬蟲程序的性能加權(quán)值。
8.根據(jù)權(quán)利要求6所述的釣魚網(wǎng)站收集設(shè)備,其特征在于,所述爬蟲程序的性能包括以下一種或任意種因數(shù)的組合存活期、搜索效率和搜索速率;所述處理模塊具體用于為所述爬蟲程序的性能中包括的各種因數(shù)設(shè)定重要性因子; 根據(jù)各種所述因數(shù)與對應(yīng)的所述重要性因子的乘積之和,確定各爬蟲程序的性能加權(quán)值。
9.根據(jù)權(quán)利要求6-8任一項所述的釣魚網(wǎng)站收集設(shè)備,其特征在于,所述搜索模塊具體用于采用所述目標(biāo)爬蟲程序進行與所述搜索主題相關(guān)的文本搜索和/或圖像搜索,獲取數(shù)個統(tǒng)一資源定位符URL ;對所述數(shù)個URL進行過濾,確定目標(biāo)釣魚網(wǎng)站。
10.根據(jù)權(quán)利要求9所述的釣魚網(wǎng)站收集設(shè)備,其特征在于,還包括 上報模塊,用于將所述目標(biāo)釣魚網(wǎng)站上報至釣魚網(wǎng)站處理設(shè)備進行阻斷處理。
全文摘要
本發(fā)明提供一種釣魚網(wǎng)站收集方法和釣魚網(wǎng)站收集設(shè)備。方法包括獲取爬蟲程序代理列表,所述爬蟲程序代理列表中包括多種爬蟲程序;獲取所述爬蟲程序代理列表中各爬蟲程序的性能加權(quán)值;根據(jù)各爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序;采用所述目標(biāo)爬蟲程序獲取與搜索主題相關(guān)的釣魚網(wǎng)站。本發(fā)明根據(jù)各代理反釣魚網(wǎng)站業(yè)務(wù)的網(wǎng)站采用的爬蟲程序的性能加權(quán)值,確定目標(biāo)爬蟲程序,采用該目標(biāo)爬蟲程序搜索釣魚網(wǎng)站,從而能夠根據(jù)不斷出現(xiàn)的釣魚網(wǎng)站適應(yīng)調(diào)整目標(biāo)爬蟲程序,提高收集釣魚網(wǎng)站的準(zhǔn)確率。
文檔編號H04L29/06GK102567513SQ201110444848
公開日2012年7月11日 申請日期2011年12月27日 優(yōu)先權(quán)日2011年12月27日
發(fā)明者劉可春, 盧善成, 盧小海, 盧梁, 葉興, 張鴻勛, 李晨, 李鈉, 柯強, 鄭偉, 黃碩 申請人:北京神州綠盟信息安全科技股份有限公司