一種基于關(guān)鍵字匹配的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,尤其涉及一種基于關(guān)鍵字匹配的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)方法及系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)上經(jīng)常會(huì)針對(duì)熱點(diǎn)話題和熱點(diǎn)事件提供相應(yīng)的網(wǎng)頁(yè)鏈接或者下載資源。通?;馃岬挠懻摲諊蛘吆闷嫘臅?huì)使得人們放松警惕。同時(shí),有的黑客在提供下載資源的同時(shí),會(huì)提示用戶:文件包含破解文件,可能會(huì)被殺毒軟件誤殺,所以最好關(guān)閉殺毒軟件,否則無法正常下載。所以有很多網(wǎng)民會(huì)抱著僥幸心理,順從的關(guān)閉殺毒軟件,從而進(jìn)入掛馬網(wǎng)站或者釣魚網(wǎng)站,但是毫不知情。傳統(tǒng)進(jìn)行網(wǎng)絡(luò)檢測(cè)的方法會(huì)占用大量的系統(tǒng)資源,并耗費(fèi)較長(zhǎng)時(shí)間進(jìn)行檢測(cè)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明所述的技術(shù)方案通過對(duì)獲取的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行拆分,從而獲取數(shù)據(jù)元素,基于預(yù)設(shè)規(guī)則將所述數(shù)據(jù)元素組合成數(shù)據(jù)向量表,將所述數(shù)據(jù)向量表與預(yù)先準(zhǔn)備的可疑樣本庫(kù)進(jìn)行匹配,從而判斷是否是可疑數(shù)據(jù)。本發(fā)明所述的方法與傳統(tǒng)的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)方法不同,首先通過匹配判斷網(wǎng)絡(luò)數(shù)據(jù)是否是可疑數(shù)據(jù),如果是可疑數(shù)據(jù)再利用惡意代碼檢測(cè)方法進(jìn)行檢測(cè)。從而可以有效定位可疑數(shù)據(jù),并避免占用過多資源和檢測(cè)時(shí)間長(zhǎng)的問題。
[0004]本發(fā)明采用如下方法來實(shí)現(xiàn):一種基于關(guān)鍵字匹配的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)方法,包括: 獲取網(wǎng)絡(luò)數(shù)據(jù);
將所述網(wǎng)絡(luò)數(shù)據(jù)與白名單匹配,若成功匹配,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為安全數(shù)據(jù),否則,將所述網(wǎng)絡(luò)數(shù)據(jù)與黑名單匹配,若成功匹配,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為惡意數(shù)據(jù);
基于語(yǔ)義庫(kù)和知識(shí)庫(kù)對(duì)沒有成功匹配的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行拆分后獲取數(shù)據(jù)元素;
基于預(yù)設(shè)規(guī)則將數(shù)據(jù)元素組合形成數(shù)據(jù)向量表;
將所述數(shù)據(jù)向量表與可疑樣本庫(kù)匹配,若成功匹配,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),否則判定為安全數(shù)據(jù);
基于已知惡意代碼檢測(cè)策略對(duì)可疑數(shù)據(jù)進(jìn)行檢測(cè),并反饋檢測(cè)結(jié)果;
所述可疑樣本庫(kù)中包含基于預(yù)設(shè)規(guī)則形成的用于可疑數(shù)據(jù)檢測(cè)的關(guān)鍵字。
[0005]進(jìn)一步地,所述獲取網(wǎng)絡(luò)數(shù)據(jù)包括:通過敏感URL獲取網(wǎng)絡(luò)數(shù)據(jù),或者當(dāng)監(jiān)測(cè)到存在流量異常時(shí)獲取網(wǎng)絡(luò)數(shù)據(jù)。
[0006]進(jìn)一步地,所述基于預(yù)設(shè)規(guī)則將數(shù)據(jù)元素組合形成數(shù)據(jù)向量表,包括:
為每個(gè)數(shù)據(jù)元素設(shè)置權(quán)值,并計(jì)算每個(gè)數(shù)據(jù)元素的hash值,對(duì)所述hash值進(jìn)行加權(quán)合并后形成數(shù)據(jù)向量表。
[0007]更進(jìn)一步地,所述將所述數(shù)據(jù)向量表與可疑樣本庫(kù)進(jìn)行匹配,若成功匹配,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),否則判定為安全數(shù)據(jù),具體為:
將所述數(shù)據(jù)向量表與可疑樣本庫(kù)中的關(guān)鍵字進(jìn)行對(duì)比,判斷是否存在關(guān)鍵字與數(shù)據(jù)向量表的相似度達(dá)到預(yù)設(shè)值以上,若存在,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),否則判定為安全數(shù)據(jù)。
[0008]進(jìn)一步地,所述將所述數(shù)據(jù)向量表與可疑樣本庫(kù)進(jìn)行匹配,若成功匹配,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),否則判定為安全數(shù)據(jù),具體為:
將所述數(shù)據(jù)向量表與可疑樣本庫(kù)進(jìn)行對(duì)比,判斷在可疑樣本庫(kù)中出現(xiàn)的數(shù)據(jù)元素個(gè)數(shù)與數(shù)據(jù)向量表中的數(shù)據(jù)元素總數(shù)的比值是否超過預(yù)設(shè)值,若是,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),否則判定為安全數(shù)據(jù)。
[0009]進(jìn)一步地,所述白名單包括:各官方網(wǎng)站URL或者新聞媒體網(wǎng)站URL。
[0010]本發(fā)明可以采用如下系統(tǒng)來實(shí)現(xiàn):一種基于關(guān)鍵字匹配的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)系統(tǒng),包括:
數(shù)據(jù)獲取模塊,用于獲取網(wǎng)絡(luò)數(shù)據(jù);
黑白名單過濾模塊,用于將所述網(wǎng)絡(luò)數(shù)據(jù)與白名單匹配,若成功匹配,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為安全數(shù)據(jù),否則,將所述網(wǎng)絡(luò)數(shù)據(jù)與黑名單匹配,若成功匹配,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為惡意數(shù)據(jù);
數(shù)據(jù)拆分模塊,用于基于語(yǔ)義庫(kù)和知識(shí)庫(kù)對(duì)沒有成功匹配的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行拆分后獲取數(shù)據(jù)元素;
數(shù)據(jù)處理模塊,用于基于預(yù)設(shè)規(guī)則將數(shù)據(jù)元素組合形成數(shù)據(jù)向量表;
判定模塊,用于將所述數(shù)據(jù)向量表與可疑樣本庫(kù)匹配,若成功匹配,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),否則判定為安全數(shù)據(jù);
檢測(cè)模塊,用于基于已知惡意代碼檢測(cè)策略對(duì)可疑數(shù)據(jù)進(jìn)行檢測(cè),并反饋檢測(cè)結(jié)果; 可疑樣本庫(kù),用于存儲(chǔ)基于預(yù)設(shè)規(guī)則形成的用于可疑數(shù)據(jù)檢測(cè)的關(guān)鍵字。
[0011]進(jìn)一步地,所述數(shù)據(jù)獲取模塊,具體用于:通過敏感URL獲取網(wǎng)絡(luò)數(shù)據(jù),或者當(dāng)監(jiān)測(cè)到存在流量異常時(shí)獲取網(wǎng)絡(luò)數(shù)據(jù)。
[0012]進(jìn)一步地,所述數(shù)據(jù)處理模塊,具體用于:
為每個(gè)數(shù)據(jù)元素設(shè)置權(quán)值,并計(jì)算每個(gè)數(shù)據(jù)元素的hash值,對(duì)所述hash值進(jìn)行加權(quán)合并后形成數(shù)據(jù)向量表。
[0013]更進(jìn)一步地,所述判定模塊,具體用于:
將所述數(shù)據(jù)向量表與可疑樣本庫(kù)中的關(guān)鍵字進(jìn)行對(duì)比,判斷是否存在關(guān)鍵字與數(shù)據(jù)向量表的相似度達(dá)到預(yù)設(shè)值以上,若存在,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),否則判定為安全數(shù)據(jù)。
[0014]進(jìn)一步地,所述判定模塊,具體用于:
將所述數(shù)據(jù)向量表與可疑樣本庫(kù)進(jìn)行對(duì)比,判斷在可疑樣本庫(kù)中出現(xiàn)的數(shù)據(jù)元素個(gè)數(shù)與數(shù)據(jù)向量表中的數(shù)據(jù)元素總數(shù)的比值是否超過預(yù)設(shè)值,若是,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),否則判定為安全數(shù)據(jù)。
[0015]進(jìn)一步地,所述白名單包括:各官方網(wǎng)站URL或者新聞媒體網(wǎng)站URL。
[0016]綜上,本發(fā)明給出一種基于關(guān)鍵字匹配的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)方法及系統(tǒng),首先基于異常網(wǎng)絡(luò)行為提取網(wǎng)絡(luò)數(shù)據(jù),經(jīng)過黑白名單過濾后,將所述網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行拆分,提取對(duì)識(shí)別惡意網(wǎng)絡(luò)數(shù)據(jù)有幫助的數(shù)據(jù)元素,基于預(yù)設(shè)規(guī)則對(duì)所述數(shù)據(jù)元素進(jìn)行處理后形成數(shù)據(jù)向量表,將數(shù)據(jù)向量表與可疑樣本庫(kù)進(jìn)行匹配,進(jìn)而判斷是否是可疑數(shù)據(jù)。
[0017]有益效果為:本發(fā)明所述技術(shù)方案在無人干預(yù)的條件下,主動(dòng)發(fā)現(xiàn)惡意網(wǎng)絡(luò)數(shù)據(jù),以最快的速度定位惡意數(shù)據(jù)來源,達(dá)到惡意樣本預(yù)警的目的。
【附圖說明】
[0018]為了更清楚地說明本發(fā)明的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0019]圖1為本發(fā)明提供的一種基于關(guān)鍵字匹配的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)方法實(shí)施例流程圖;
圖2為本發(fā)明提供的一種基于關(guān)鍵字匹配的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)系統(tǒng)實(shí)施例結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0020]本發(fā)明給出了一種基于關(guān)鍵字匹配的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)方法及系統(tǒng)實(shí)施例,為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例中的技術(shù)方案,并使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明中技術(shù)方案作進(jìn)一步詳細(xì)的說明:
本發(fā)明首先提供了一種基于關(guān)鍵字匹配的網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)方法實(shí)施例,如圖1所示,包括:
S101獲取網(wǎng)絡(luò)數(shù)據(jù);
S102將所述網(wǎng)絡(luò)數(shù)據(jù)與白名單進(jìn)行匹配,并判斷是否成功匹配,若是,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為安全數(shù)據(jù),否則執(zhí)行S103 ;
S103將所述網(wǎng)絡(luò)數(shù)據(jù)與黑名單進(jìn)行匹配,并判斷是否成功匹配,若是,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為惡意數(shù)據(jù),否則執(zhí)行S104 ;
S104基于語(yǔ)義庫(kù)和知識(shí)庫(kù)對(duì)沒有成功匹配的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行拆分后獲取數(shù)據(jù)元素;
S105基于預(yù)設(shè)規(guī)則將數(shù)據(jù)元素組合形成數(shù)據(jù)向量表;
S106將所述數(shù)據(jù)向量表與可疑樣本庫(kù)進(jìn)行匹配,并判斷是否成功匹配,若是,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),繼續(xù)執(zhí)行S107,否則判定為安全數(shù)據(jù),結(jié)束;
S107基于已知惡意代碼檢測(cè)策略對(duì)可疑數(shù)據(jù)進(jìn)行檢測(cè),并反饋檢測(cè)結(jié)果;
所述可疑樣本庫(kù)中包含基于預(yù)設(shè)規(guī)則形成的用于可疑數(shù)據(jù)檢測(cè)的關(guān)鍵字。
[0021]優(yōu)選地,所述獲取網(wǎng)絡(luò)數(shù)據(jù),包括:通過敏感URL獲取網(wǎng)絡(luò)數(shù)據(jù),或者當(dāng)監(jiān)測(cè)到存在流量異常時(shí)獲取網(wǎng)絡(luò)數(shù)據(jù)。
[0022]優(yōu)選地,所述白名單包括:各官方網(wǎng)站URL或者新聞媒體網(wǎng)站URL。
[0023]優(yōu)選地,所述基于預(yù)設(shè)規(guī)則將數(shù)據(jù)元素組合形成數(shù)據(jù)向量表,包括:
為每個(gè)數(shù)據(jù)元素設(shè)置權(quán)值,并計(jì)算每個(gè)數(shù)據(jù)元素的hash值,對(duì)所述hash值進(jìn)行加權(quán)合并后形成數(shù)據(jù)向量表。
[0024]更為優(yōu)選地,所述將所述數(shù)據(jù)向量表與可疑樣本庫(kù)進(jìn)行匹配,若成功匹配,則判定所述網(wǎng)絡(luò)數(shù)據(jù)為可疑數(shù)據(jù),否則判定為安全數(shù)據(jù),具體為:
將所述數(shù)據(jù)向量表與可疑樣本庫(kù)中的關(guān)鍵字進(jìn)行對(duì)比,判斷是否存在關(guān)鍵字與數(shù)據(jù)向量表的相似度達(dá)到預(yù)設(shè)值以上,若存在,則判定所述網(wǎng)絡(luò)數(shù)據(jù)