基于MapReduce并行AP聚類的網(wǎng)絡(luò)入侵檢測(cè)方法
【專利摘要】一種基于MapReduce并行AP聚類的網(wǎng)絡(luò)入侵檢測(cè)方法,所述檢測(cè)方法包括如下步驟:第一步,入侵檢測(cè)樣本數(shù)據(jù)預(yù)處理,完成特征數(shù)據(jù)的數(shù)值化和歸一化;第二步,利用基于MapReduce的并行AP聚類壓縮入侵檢測(cè)樣本數(shù);第三步,利用壓縮后的數(shù)據(jù)樣本,通過(guò)KNN或SVM分類器實(shí)現(xiàn)高效檢測(cè)。本發(fā)明提供一種基于MapReduce并行AP聚類的網(wǎng)絡(luò)入侵檢測(cè)方法,對(duì)數(shù)據(jù)樣本處理具備良好的擴(kuò)展性,可實(shí)現(xiàn)對(duì)海量數(shù)據(jù)樣本的有效壓縮,提高檢測(cè)速度和檢測(cè)精度。
【專利說(shuō)明】基于MapReduce并行AP聚類的網(wǎng)絡(luò)入侵檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)安全【技術(shù)領(lǐng)域】,尤其是一種網(wǎng)絡(luò)入侵檢測(cè)方法。
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)流量的急劇膨脹,海量數(shù)據(jù)處理和計(jì)算已是入侵檢測(cè)的常見(jiàn)問(wèn)題,許多傳統(tǒng) 的入侵檢測(cè)方法往往只適用于小規(guī)模數(shù)據(jù)的處理,當(dāng)數(shù)據(jù)量增大時(shí),它們往往因計(jì)算量的 增大而速度減慢甚至無(wú)法運(yùn)行。
【發(fā)明內(nèi)容】
[0003] 為了克服已有網(wǎng)絡(luò)入侵檢測(cè)方法在數(shù)據(jù)量增大時(shí)檢測(cè)速度較慢、檢測(cè)精度較低的 不足,本發(fā)明提供一種在海量數(shù)據(jù)時(shí)提高檢測(cè)速度、檢測(cè)精度較高的基于MapReduce并行 AP聚類的網(wǎng)絡(luò)入侵檢測(cè)方法。
[0004] 本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:
[0005] -種基于MapReduce并行AP聚類的網(wǎng)絡(luò)入侵檢測(cè)方法,所述檢測(cè)方法包括如下步 驟:
[0006] 第一步,入侵檢測(cè)樣本的常規(guī)預(yù)處理,即完成特征數(shù)據(jù)的數(shù)值化和歸一化處理;
[0007] 第二步,利用基于MapReduce的并行AP聚類壓縮入侵檢測(cè)樣本數(shù),過(guò)程如下: (2. 1)相似度矩陣計(jì)算的MapReduce并行化
[0008] AP聚類采用歐式距離的負(fù)值來(lái)衡量數(shù)據(jù)點(diǎn)間的相似度,歐式距離的計(jì)算公式:
【權(quán)利要求】
1. 一種基于MapReduce并行AP聚類的網(wǎng)絡(luò)入侵檢測(cè)方法,其特征在于:所述檢測(cè)方法 包括如下步驟: 第一步,入侵檢測(cè)樣本的預(yù)處理,即完成特征數(shù)據(jù)的數(shù)值化和歸一化處理; 第二步,利用基于MapReduce的并行AP聚類壓縮入侵檢測(cè)樣本數(shù),過(guò)程如下: (2. 1)相似度矩陣計(jì)算的MapReduce并行化 AP聚類采用歐式距離的負(fù)值來(lái)衡量數(shù)據(jù)點(diǎn)間的相似度,歐式距離的計(jì)算公式:
并行化計(jì)算的輸入可以看成是每行保存一個(gè)數(shù)據(jù)點(diǎn)的矩陣A,公式的前兩項(xiàng)和第三項(xiàng) 可以分開(kāi)算,前兩項(xiàng)計(jì)算時(shí)每個(gè)節(jié)點(diǎn)不依賴其它節(jié)點(diǎn)上的數(shù)據(jù),每個(gè)節(jié)點(diǎn)都可以單獨(dú)計(jì)算 存儲(chǔ)在自身節(jié)點(diǎn)上數(shù)據(jù)點(diǎn)的各個(gè)維度的平方和,而第三項(xiàng)實(shí)際就是輸入矩陣A與其轉(zhuǎn)置矩 陣A t相乘得到的矩陣T的第i行第j列的值,假設(shè)X是第i個(gè)點(diǎn),而y是第j個(gè)點(diǎn),因此第 三項(xiàng)的計(jì)算采用類似于并行化計(jì)算矩陣相乘的方法; 第三項(xiàng)的計(jì)算過(guò)程如下:
先對(duì)輸入矩陣A轉(zhuǎn)置,然后求每行中各項(xiàng)與其后面各項(xiàng)的乘積,并以各項(xiàng)所在的列作 為行鍵,最后對(duì)相同行鍵的行進(jìn)行縱向求和匯總即可得到歐式距離計(jì)算公式中第三項(xiàng)的 值; (2. 2)吸引度矩陣和歸屬度矩陣計(jì)算的MapReduce并行化 用MapReduce并行化計(jì)算吸引度值時(shí)在Map中將相似度值s (i,k)和歸屬度值a (i,k) 以其所在行作為鍵輸出,使同一行的a (i, k)和s (i, k)洗牌到(Shuffle)同一 reduce的節(jié) 點(diǎn)進(jìn)行計(jì)算,而計(jì)算歸屬度值時(shí)可以在Map中將吸引度值r(i,k)以其所在列作為鍵輸出, 使同一列的r(i, k)洗牌到同一 reduce節(jié)點(diǎn)進(jìn)行計(jì)算,使用了 Point結(jié)構(gòu)來(lái)保存s (i,k)、 r (i,k)和 a(i,k); 在Map階段以Point所在列為鍵輸出,Reduce階段計(jì)算同一列的歸屬度值; (2. 3)聚類中心計(jì)算的MapReduce并行化 計(jì)算聚類中心時(shí)只用到a(k,k)和r (k,k)的值,而使用Point同時(shí)保存了這兩個(gè)值,所 以各個(gè)節(jié)點(diǎn)獨(dú)立計(jì)算本節(jié)點(diǎn)上的數(shù)據(jù)點(diǎn)有哪些是聚類中心,并行化計(jì)算聚類中心時(shí)在Map 階段判斷本節(jié)點(diǎn)上有哪些數(shù)據(jù)點(diǎn)是聚類中心,輸出是聚類中心的點(diǎn),而在reduce階段匯總 各個(gè)節(jié)點(diǎn)的計(jì)算結(jié)果,得到最終的聚類中心,以此完成數(shù)據(jù)樣本壓縮; 第三步,基于MapReduce的AP并行化聚類處理獲得壓縮后的數(shù)據(jù)樣本,再利用KNN或 SVM分類器實(shí)現(xiàn)入侵檢測(cè)。
【文檔編號(hào)】H04L29/06GK104378371SQ201410643024
【公開(kāi)日】2015年2月25日 申請(qǐng)日期:2014年11月14日 優(yōu)先權(quán)日:2014年11月14日
【發(fā)明者】陳鐵明, 張旭 申請(qǐng)人:浙江工業(yè)大學(xué)