本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種異常訪問檢測(cè)方法。本申請(qǐng)同時(shí)還涉及一種異常訪問檢測(cè)設(shè)備。
背景技術(shù):
數(shù)據(jù)挖掘是從大規(guī)模的數(shù)據(jù)集中提取潛在的、隱含的、有價(jià)值的知識(shí)、模式或規(guī)則的過程。從大規(guī)模的數(shù)據(jù)集中挖掘的模式一般可以分為五類:關(guān)聯(lián)規(guī)則、分類和預(yù)測(cè)、聚類、演變分析以及異常點(diǎn)檢測(cè)等。異常點(diǎn)數(shù)據(jù)的挖掘包括異常點(diǎn)數(shù)據(jù)檢測(cè)和異常點(diǎn)數(shù)據(jù)分析兩個(gè)部分。異常點(diǎn)數(shù)據(jù)是與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù),它們是數(shù)據(jù)集中與眾不同的數(shù)據(jù),這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。異常點(diǎn)數(shù)據(jù)挖掘有著廣泛的應(yīng)用,如欺詐檢測(cè),用異常點(diǎn)檢測(cè)來探測(cè)不尋常的信用卡使用或者電信服務(wù);預(yù)測(cè)市場(chǎng)動(dòng)向;在市場(chǎng)分析中分析客戶的流失等異常行為;或者在醫(yī)療分析中發(fā)現(xiàn)對(duì)多種治療方式的不尋常的反應(yīng)等等;通過對(duì)這些數(shù)據(jù)進(jìn)行研究,發(fā)現(xiàn)不正常的行為和模式,實(shí)現(xiàn)異常數(shù)據(jù)挖掘功能。
如圖1所示,為現(xiàn)有的異常點(diǎn)監(jiān)測(cè)技術(shù)手段解決服務(wù)響應(yīng)問題的示意圖,異常點(diǎn)監(jiān)測(cè)技術(shù)手段目前有著廣泛的應(yīng)用。在該問題中,多個(gè)用戶會(huì)向服務(wù)器提交相應(yīng)的服務(wù)申請(qǐng),在這些申請(qǐng)中,有的申請(qǐng)是正常申請(qǐng),有的申請(qǐng)是異常申請(qǐng)。如果服務(wù)器接受了異常申請(qǐng),那么將會(huì)嚴(yán)重影響服務(wù)器工作,也會(huì)對(duì)其他正常的申請(qǐng)?jiān)斐梢欢ǖ挠绊憽?/p>
為解決上述技術(shù)問題,現(xiàn)有技術(shù)中使系統(tǒng)根據(jù)用戶的請(qǐng)求以及用戶的信息記錄決定是否響應(yīng)用戶請(qǐng)求。在判定過程中,會(huì)引入一些機(jī)器學(xué)習(xí)的算法進(jìn)行學(xué)習(xí),現(xiàn)在常用的方法包括根據(jù)用戶屬性構(gòu)造馬氏距離挖掘處于離群點(diǎn) 的用戶、以及根據(jù)用戶提交請(qǐng)求的頻率進(jìn)行異常點(diǎn)判別等方法,具體判別過程如下:
(1)在根據(jù)馬氏距離進(jìn)行異常點(diǎn)判別的過程中,首先計(jì)算用戶屬性間的協(xié)方差矩陣,其定義如下:
σ=e{(x-e[x])(x-e[x])t}
隨后根據(jù)該協(xié)方差矩陣計(jì)算馬氏距離,其定義如下:
ma=(x-μ)tσ-1(x-μ)
最后根據(jù)該距離的大小進(jìn)行判別,一些距離過大的點(diǎn)將被判定為離群點(diǎn)。
(2)在根據(jù)用戶提交請(qǐng)求的頻率進(jìn)行異常點(diǎn)判別的方法中,用戶單位時(shí)間提交請(qǐng)求的次數(shù)超過一定閾值之后,將會(huì)直接被判定為異常點(diǎn)。
因此如何利用已有的訪問數(shù)據(jù)和用戶信息,更加準(zhǔn)確地鑒別出異常請(qǐng)求,并采取相應(yīng)措施,切實(shí)關(guān)系到服務(wù)資源分配的穩(wěn)定性和經(jīng)濟(jì)性,是服務(wù)響應(yīng)策略中的一個(gè)非常重要的問題。
然而,發(fā)明人在實(shí)現(xiàn)本申請(qǐng)的過程中發(fā)現(xiàn),現(xiàn)有帶時(shí)序數(shù)據(jù)的異常點(diǎn)檢測(cè)算法或者只利用了訪問用戶本身的特征數(shù)據(jù),進(jìn)行聚類,只能反映訪問用戶屬性上的特征;或者只利用了訪問的時(shí)序數(shù)據(jù),手動(dòng)設(shè)置閾值來發(fā)現(xiàn)一些異常點(diǎn)(即確認(rèn)當(dāng)前的訪問為異常)。這兩種方式都沒有充分發(fā)揮數(shù)據(jù)的價(jià)值,得出的結(jié)果往往并不十分的準(zhǔn)確以及有效。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)?zhí)峁┝艘环N異常方法檢測(cè)方法,用以提高針對(duì)異常訪問的檢測(cè)效率以及準(zhǔn)確性。該方法包括以下步驟:
獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù);
根據(jù)所述屬性數(shù)據(jù)以及檢測(cè)參數(shù)生成與所述訪問請(qǐng)求對(duì)應(yīng)的異常概率,所述檢測(cè)參數(shù)根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成;
判斷所述異常概率是否大于預(yù)設(shè)的異常閾值;
若是,確認(rèn)所述訪問請(qǐng)求為異常訪問請(qǐng)求;
若否,確認(rèn)所述訪問請(qǐng)求為正常訪問請(qǐng)求。
優(yōu)選地,在獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù)之前,還包括:
根據(jù)各所述樣本訪問請(qǐng)求的訪問頻次信息確定各所述樣本訪問請(qǐng)求是否異常;
分別為正常樣本訪問請(qǐng)求以及異常樣本訪問請(qǐng)求賦予不同取值的標(biāo)簽;
根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成原始檢測(cè)參數(shù);
根據(jù)所述原始檢測(cè)參數(shù)生成所述檢測(cè)參數(shù)。
優(yōu)選地,所述訪問頻次信息包括所述樣本訪問請(qǐng)求對(duì)應(yīng)的用戶標(biāo)識(shí)以及訪問時(shí)間,根據(jù)各所述樣本訪問請(qǐng)求的訪問頻次信息確定各所述樣本訪問請(qǐng)求是否異常,具體為:
根據(jù)所述用戶標(biāo)識(shí)獲取在所述訪問時(shí)間之前的時(shí)間窗口內(nèi)由相同用戶提交的樣本訪問請(qǐng)求的第一數(shù)量,以及獲取在所述訪問時(shí)間之后的所述時(shí)間窗口內(nèi)由相同用戶提交的樣本訪問請(qǐng)求的第二數(shù)量;
判斷所述第一數(shù)量與所述第二數(shù)量之和是否大于預(yù)設(shè)的次數(shù)閾值;
若是,確認(rèn)所述樣本訪問請(qǐng)求為異常樣本訪問請(qǐng)求;
若否,確認(rèn)所述樣本訪問請(qǐng)求為正常樣本訪問請(qǐng)求。
優(yōu)選地,具體根據(jù)以下公式生成原始檢測(cè)參數(shù):
其中,為所述原始檢測(cè)參數(shù)的取值函數(shù),w為所述原始檢測(cè)參數(shù),且w為求和項(xiàng)對(duì)應(yīng)的最小值,n為所述樣本訪問請(qǐng)求的個(gè)數(shù),為各所述樣本訪問請(qǐng)求的標(biāo)簽的取值。
優(yōu)選地,所述異常閾值具體通過以下方式生成:
獲取異常樣本訪問請(qǐng)求占所有樣本訪問請(qǐng)求的百分比;
根據(jù)所述檢測(cè)參數(shù)獲取與各所述樣本訪問請(qǐng)求對(duì)應(yīng)的異常概率;
將各所述樣本訪問請(qǐng)求對(duì)應(yīng)的異常概率從小至大進(jìn)行排序處理;
根據(jù)所述排序結(jié)果確定與所述百分比對(duì)應(yīng)的異常概率,并將所述異常概率作為所述異常閾值。
相應(yīng)地,本申請(qǐng)還提出了一種異常訪問檢測(cè)設(shè)備,其特征在于,包括:
獲取模塊,獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù);
第一生成模塊,根據(jù)所述屬性數(shù)據(jù)以及檢測(cè)參數(shù)生成與所述訪問請(qǐng)求對(duì)應(yīng)的異常概率,所述檢測(cè)參數(shù)根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成;
判斷模塊,判斷所述異常概率是否大于預(yù)設(shè)的異常閾值;
若是,所述判斷模塊確認(rèn)所述訪問請(qǐng)求為異常訪問請(qǐng)求;
若否,所述判斷模塊確認(rèn)所述訪問請(qǐng)求為正常訪問請(qǐng)求。
優(yōu)選地,還包括:
確定模塊,根據(jù)各所述樣本訪問請(qǐng)求的訪問頻次信息確定各所述樣本訪問請(qǐng)求是否異常;
分配模塊,分別為正常樣本訪問請(qǐng)求以及異常樣本訪問請(qǐng)求賦予不同取值的標(biāo)簽;
第二生成模塊,根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成原始檢測(cè)參數(shù);
第三生成模塊,根據(jù)所述原始檢測(cè)參數(shù)生成所述檢測(cè)參數(shù)。
優(yōu)選地,所述訪問頻次信息包括所述樣本訪問請(qǐng)求對(duì)應(yīng)的用戶標(biāo)識(shí)id以及訪問時(shí)間,所述確定模塊具體用于:
根據(jù)所述用戶id獲取在所述訪問時(shí)間之前的時(shí)間窗口內(nèi)由相同用戶提交的樣本訪問請(qǐng)求的第一數(shù)量,以及獲取在所述訪問時(shí)間之后的所述時(shí)間窗口內(nèi)由相同用戶提交的樣本訪問請(qǐng)求的第二數(shù)量;
判斷所述第一數(shù)量與所述第二數(shù)量之和是否大于預(yù)設(shè)的次數(shù)閾值;
若是,確認(rèn)所述樣本訪問請(qǐng)求為異常樣本訪問請(qǐng)求;
若否,確認(rèn)所述樣本訪問請(qǐng)求為正常樣本訪問請(qǐng)求。
優(yōu)選地,具體根據(jù)以下公式生成原始檢測(cè)參數(shù):
其中,argminw為所述原始檢測(cè)參數(shù)的取值函數(shù),w為所述原始檢測(cè)參數(shù),且w為求和項(xiàng)對(duì)應(yīng)的最小值,n為所述樣本訪問請(qǐng)求的個(gè)數(shù),vi為各所述樣本訪問請(qǐng)求的標(biāo)簽的取值。
優(yōu)選地,所述異常閾值具體通過以下方式生成:
獲取異常樣本訪問請(qǐng)求占所有樣本訪問請(qǐng)求的百分比;
根據(jù)所述檢測(cè)參數(shù)獲取與各所述樣本訪問請(qǐng)求對(duì)應(yīng)的異常概率;
將各所述樣本訪問請(qǐng)求對(duì)應(yīng)的異常概率從小至大進(jìn)行排序處理;
根據(jù)所述排序結(jié)果確定與所述百分比對(duì)應(yīng)的異常概率,并將所述異常概率作為所述異常閾值。
由此可見,通過應(yīng)用本申請(qǐng)的技術(shù)方案,在獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù)之后,根據(jù)屬性數(shù)據(jù)以及檢測(cè)參數(shù)生成與訪問請(qǐng)求對(duì)應(yīng)的異常概率,由于檢測(cè)參數(shù)根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成,因此在判斷異常概率是否大于預(yù)設(shè)的異常閾值之后,即可基于二者的大小確認(rèn)訪問請(qǐng)求是否為異常訪問請(qǐng)求。從而能夠在海量的訪問請(qǐng)求中準(zhǔn)確地針對(duì)異常訪問請(qǐng)求進(jìn)行識(shí)別處理,保證了網(wǎng)絡(luò)的穩(wěn)定性與安全性。
附圖說明
圖1為現(xiàn)有技術(shù)中異常檢測(cè)在服務(wù)響應(yīng)上的應(yīng)用示意圖;
圖2為本申請(qǐng)?zhí)岢龅囊环N異常訪問檢測(cè)方法的流程示意圖;
圖3為本申請(qǐng)具體實(shí)施例中基于時(shí)序特征提取的異常點(diǎn)檢測(cè)流程圖;
圖4為本申請(qǐng)具體實(shí)施例中時(shí)序數(shù)據(jù)的特征提取示意圖;
圖5為本申請(qǐng)具體實(shí)施例中閾值計(jì)算流程示意圖;
圖6為本申請(qǐng)?zhí)岢龅囊环N異常訪問檢測(cè)設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
如背景技術(shù)所述,針對(duì)含時(shí)序申請(qǐng)數(shù)據(jù)的特點(diǎn),進(jìn)一步提高異常點(diǎn)檢測(cè)的準(zhǔn)確性以及有效性,是關(guān)系到系統(tǒng)準(zhǔn)確有效運(yùn)行的一個(gè)關(guān)鍵問題,也是本申請(qǐng)所要解決的技術(shù)問題。
為解決上述技術(shù)問題,本申請(qǐng)?zhí)岢隽艘环N異常點(diǎn)檢測(cè)方法,將用戶統(tǒng)計(jì)數(shù)據(jù)和時(shí)序訪問數(shù)據(jù)結(jié)合起來,通過時(shí)序數(shù)據(jù)按規(guī)則給出一個(gè)初步的標(biāo)簽并采用邏輯回歸的方法對(duì)初步標(biāo)簽和用戶屬性進(jìn)行訓(xùn)練來得出最終結(jié)果,從而使異常點(diǎn)判定的結(jié)果得以進(jìn)一步提高。
如圖2所示,為本申請(qǐng)?zhí)岢龅囊环N異常點(diǎn)檢測(cè)方法的流程示意圖,包括以下步驟:
s201獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù)。
在本申請(qǐng)的實(shí)施方式中,在模型以及檢測(cè)參數(shù)生成之后,對(duì)于每一次新訪問請(qǐng)求預(yù)測(cè)的過程中,即在判斷訪問請(qǐng)求是否異常的過程中,僅由該次訪問請(qǐng)求的屬性決定,異常檢測(cè)問題轉(zhuǎn)化成為分類問題,對(duì)于該分類問題,僅需獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù)得到全部屬性向量即可,也就是說,在此步驟中不需要再獲取新訪問請(qǐng)求的時(shí)序數(shù)據(jù)。
因此本申請(qǐng)的實(shí)施方式在進(jìn)行新訪問請(qǐng)求異常預(yù)測(cè)之前,還需要通過對(duì) 各所述樣本訪問請(qǐng)求對(duì)應(yīng)的初步標(biāo)簽和用戶屬性進(jìn)行邏輯回歸訓(xùn)練,來獲得分類模型并得到檢測(cè)參數(shù),進(jìn)而可以實(shí)現(xiàn)將用戶數(shù)據(jù)和時(shí)序訪問數(shù)據(jù)結(jié)合起來的目的。本申請(qǐng)邏輯回歸訓(xùn)練以及檢測(cè)參數(shù)獲取的方式具體如下:
a)根據(jù)各所述樣本訪問請(qǐng)求的訪問頻次信息確定各所述樣本訪問請(qǐng)求是否異常;
b)分別為正常樣本訪問請(qǐng)求以及異常樣本訪問請(qǐng)求賦予不同取值的標(biāo)簽;
c)根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成原始檢測(cè)參數(shù);
d)根據(jù)所述原始檢測(cè)參數(shù)生成所述檢測(cè)參數(shù)。
另外,通過上述步驟可以看出,如何準(zhǔn)確判斷樣本訪問請(qǐng)求是否異常是決定分類模型以及檢測(cè)參數(shù)精度的重要參數(shù),故本申請(qǐng)具體實(shí)施方式提出了確定各所述樣本訪問請(qǐng)求是否異常的具體步驟:
a)根據(jù)所述用戶標(biāo)識(shí)獲取在所述訪問時(shí)間之前的時(shí)間窗口內(nèi)由相同用戶提交的樣本訪問請(qǐng)求的第一數(shù)量,以及獲取在所述訪問時(shí)間之后的所述時(shí)間窗口內(nèi)由相同用戶提交的樣本訪問請(qǐng)求的第二數(shù)量;
b)判斷所述第一數(shù)量與所述第二數(shù)量之和是否大于預(yù)設(shè)的次數(shù)閾值;
c)若是,確認(rèn)所述樣本訪問請(qǐng)求為異常樣本訪問請(qǐng)求;
d)若否,確認(rèn)所述樣本訪問請(qǐng)求為正常樣本訪問請(qǐng)求。
在本申請(qǐng)的實(shí)施方式中,所述訪問頻次信息包括所述樣本訪問請(qǐng)求對(duì)應(yīng)的用戶標(biāo)識(shí)以及訪問時(shí)間。其中,用戶標(biāo)識(shí)是作為區(qū)分不同用戶的憑證,只要保證不同用戶對(duì)應(yīng)有不同的用戶標(biāo)識(shí)即可,故可能會(huì)出現(xiàn)多種形式和內(nèi)容。舉例來說,用戶標(biāo)識(shí)可以為用戶對(duì)應(yīng)終端的mac地址,也可以為用戶在服務(wù)終端的注冊(cè)id。訪問時(shí)間為由服務(wù)器記錄的該訪問請(qǐng)求的訪問時(shí)間點(diǎn)。
需要說明的是,以上用戶標(biāo)識(shí)的具體實(shí)例僅為本申請(qǐng)優(yōu)選實(shí)施例提出的示例,在此基礎(chǔ)上還可以選擇其他類型的用戶標(biāo)識(shí),以使本申請(qǐng)適用于更多的應(yīng)用領(lǐng)域,這些改進(jìn)都屬于本發(fā)明的保護(hù)范圍。
需要說明的是,以上確定樣本訪問請(qǐng)求是否異常的方法僅為本申請(qǐng)具體實(shí)施例提出的一種優(yōu)選方案,在保證具有一定確定精度的前提下,本領(lǐng)域技術(shù)人員也可以采用其他方式進(jìn)行確定,這些都屬于本申請(qǐng)的保護(hù)范圍。
s202根據(jù)所述屬性數(shù)據(jù)以及檢測(cè)參數(shù)生成與所述訪問請(qǐng)求對(duì)應(yīng)的異常概率,所述檢測(cè)參數(shù)根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成。
在本申請(qǐng)的實(shí)施方式中,異常閾值應(yīng)該根據(jù)長(zhǎng)期的經(jīng)驗(yàn)進(jìn)行調(diào)整,以達(dá)到一個(gè)合適的數(shù)值范圍。如果異常閾值的取值較大,則會(huì)將部分異常點(diǎn)其判斷為正常訪問,故可能會(huì)漏掉很多異常點(diǎn);相反的,如果異常閾值的取值過小,則會(huì)將部分正常點(diǎn)判斷為異常點(diǎn),影響正常用戶的使用。因此如何通調(diào)整獲得合適的異常閾值對(duì)以提高異常點(diǎn)檢測(cè)的精度是至關(guān)重要的,故本申請(qǐng)通過以下方式來生成異常閾值:
a)獲取異常樣本訪問請(qǐng)求占所有樣本訪問請(qǐng)求的百分比;
b)根據(jù)所述檢測(cè)參數(shù)獲取與各所述樣本訪問請(qǐng)求對(duì)應(yīng)的異常概率;
c)將各所述樣本訪問請(qǐng)求對(duì)應(yīng)的異常概率從小至大進(jìn)行排序處理;
d)根據(jù)所述排序結(jié)果確定與所述百分比對(duì)應(yīng)的異常概率,并將所述異常概率作為所述異常閾值。
在本申請(qǐng)的具體實(shí)施例中,生成原始檢測(cè)參數(shù)一個(gè)參考公式如下:
其中,argminw為所述原始檢測(cè)參數(shù)的取值函數(shù),w為所述原始檢測(cè)參數(shù), 且w為求和項(xiàng)對(duì)應(yīng)的最小值,n為所述樣本訪問請(qǐng)求的個(gè)數(shù),vi為各所述樣本訪問請(qǐng)求的標(biāo)簽的取值。
通過上述生成原始檢測(cè)參數(shù)的參考公式,計(jì)算結(jié)果是參數(shù)w就是所述原始檢測(cè)參數(shù)。在后續(xù)過程中即可利用原始檢測(cè)參數(shù)w對(duì)所有新訪問請(qǐng)求進(jìn)行計(jì)算,通過對(duì)計(jì)算結(jié)果與異常閾值進(jìn)行判斷,進(jìn)而實(shí)現(xiàn)對(duì)新訪問請(qǐng)求是否異常進(jìn)行預(yù)測(cè)。
需要說明的是,以上公式僅為本申請(qǐng)具體實(shí)施例提出的一種優(yōu)選方案,然而,在保證計(jì)算結(jié)果能夠作為原始檢測(cè)參數(shù)的前提下,本領(lǐng)域技術(shù)人員也可以對(duì)該公式進(jìn)行修改或者變形,這些都屬于本申請(qǐng)的保護(hù)范圍。
s203判斷所述異常概率是否大于預(yù)設(shè)的異常閾值。
在本申請(qǐng)的實(shí)施方式中,在新訪問請(qǐng)求到達(dá)時(shí),通過分類模型來預(yù)測(cè)新訪問請(qǐng)求是否為異常訪問請(qǐng)求。具體的,首先通過將新訪問請(qǐng)求的屬性數(shù)據(jù)代入分類模型,可以得到該次訪問為異常訪問請(qǐng)求的概率,即異常概率,通過將該常訪問請(qǐng)求的異常概率與預(yù)設(shè)的異常閾值進(jìn)行比較,判斷所述異常概率是否大于預(yù)設(shè)的異常閾值。若該新訪問請(qǐng)求的異常概率大于異常閾值時(shí),則判定為異常訪問請(qǐng)求,即執(zhí)行s204;若該新訪問請(qǐng)求的異常概率小于異常閾值時(shí),則判定為正常訪問請(qǐng)求,即執(zhí)行s205。
s204若是,確認(rèn)所述訪問請(qǐng)求為異常訪問請(qǐng)求。
s205若否,確認(rèn)所述訪問請(qǐng)求為正常訪問請(qǐng)求。
由此可見,通過應(yīng)用以上技術(shù)方案,在獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù)之后,根據(jù)屬性數(shù)據(jù)以及檢測(cè)參數(shù)生成與訪問請(qǐng)求對(duì)應(yīng)的異常概率,由于檢測(cè)參數(shù)根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成,因此在判斷異常概率是否大于預(yù)設(shè)的異常閾值之后,即可基于二者的大小確認(rèn)訪問請(qǐng)求是否為異常訪問請(qǐng)求。從而能夠在海量的訪問請(qǐng)求中準(zhǔn)確地針對(duì)異常 訪問請(qǐng)求進(jìn)行識(shí)別處理,保證了網(wǎng)絡(luò)的穩(wěn)定性與安全性。
為了進(jìn)一步闡述本申請(qǐng)的技術(shù)思想,現(xiàn)結(jié)合如圖2所示的具體的應(yīng)用場(chǎng)景,對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行說明。該基于時(shí)序特征提取的異常點(diǎn)檢測(cè)流程通過時(shí)序序列分析、線性分類器訓(xùn)練和預(yù)測(cè)三個(gè)步驟實(shí)現(xiàn)了異常點(diǎn)的檢測(cè),這三個(gè)不同步驟的具體介紹如下:
(1)通過時(shí)序序列生成標(biāo)簽
根據(jù)時(shí)序序列的特點(diǎn),在訓(xùn)練集中,首先將所有用戶訪問數(shù)據(jù)按照時(shí)間順序進(jìn)行排序,排序完成之后,我們對(duì)比每次一訪問的用戶id,設(shè)定一個(gè)滑動(dòng)窗口向后移動(dòng),按序遍歷每一次訪問。對(duì)于每一次訪問,如果在它的前半個(gè)窗口和后半個(gè)窗口中由相同用戶提交的訪問次數(shù)大于一定閾值則標(biāo)記為異常點(diǎn)。那么異常點(diǎn)的標(biāo)簽的集合可記作:
其中,vi表示第i個(gè)訪問的標(biāo)簽,
(2)線性分類器訓(xùn)練
在所有訪問標(biāo)簽生成完畢之后,對(duì)于每一次訪問,我們認(rèn)為該次訪問是否是異常的,完全由該次訪問的屬性所決定,問題轉(zhuǎn)化為一個(gè)分類問題,對(duì)于該分類問題來講,不需要在使用時(shí)序的數(shù)據(jù)。根據(jù)每次訪問的其他屬性特征和標(biāo)簽,進(jìn)行邏輯回歸訓(xùn)練,得到一個(gè)分類模型。該模型的結(jié)果是參數(shù)w,滿足:
其中,argminw是一個(gè)參數(shù)w的取值函數(shù),w的值使得右邊求和項(xiàng)取最小值。n代表總的學(xué)習(xí)樣本個(gè)數(shù),vi表示上一步的異常點(diǎn)標(biāo)簽。wt表示w的轉(zhuǎn)置。在實(shí)際進(jìn)行邏輯回歸訓(xùn)練的時(shí)候,采用l-bfgs算法對(duì)其進(jìn)行加速。
(3)新訪問預(yù)測(cè)
當(dāng)有新的訪問到達(dá)時(shí),能通過分類模型來預(yù)測(cè)新的訪問是否是異常點(diǎn)。將新的訪問數(shù)據(jù)代入分類模型后,能得到該次訪問是異常點(diǎn)的概率,設(shè)定一個(gè)閾值,當(dāng)該訪問為異常的概率大于該閾值時(shí),則判定為異常點(diǎn),所有異常新訪問的集合表示為:
{vi|wtxi>pt}
其中vi表示第i次訪問,xi表示該次訪問的所有屬性向量,pt為判斷異常點(diǎn)的閾值。在這里,閾值應(yīng)該根據(jù)長(zhǎng)期的經(jīng)驗(yàn)進(jìn)行調(diào)整,直到一個(gè)合適的數(shù)字。如果該閾值取值太大,則會(huì)漏掉很多異常點(diǎn),將其判為正常訪問;如果該閾值取值太小,則會(huì)將很多正常點(diǎn)判定為異常點(diǎn),影響正常用戶使用。因此調(diào)節(jié)一個(gè)合適的閾值是非常必要的,在這里可以根據(jù)百分比的方式來設(shè)置,首先找到異常點(diǎn)占總體訓(xùn)練數(shù)據(jù)的百分比,然后將訓(xùn)練數(shù)據(jù)帶入模型按模型計(jì)算出概率,接著對(duì)該概率進(jìn)行排序,找到在異常點(diǎn)占總體百分比位置的概率,將其設(shè)為閾值。具體示意圖如圖5所示。
上述應(yīng)用場(chǎng)景的技術(shù)方案,通過樣本數(shù)據(jù)的時(shí)序特征為分類模型提供訓(xùn)練標(biāo)簽,再根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成檢測(cè)參數(shù);在獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù)之后,根據(jù)屬性數(shù)據(jù)以及檢測(cè)參數(shù)生成與訪問請(qǐng)求對(duì)應(yīng)的異常概率,因此在判斷異常概率是否大于預(yù)設(shè)的異 常閾值之后,即可基于二者的大小確認(rèn)訪問請(qǐng)求是否為異常訪問請(qǐng)求。從而能夠在海量的訪問請(qǐng)求中準(zhǔn)確地針對(duì)異常訪問請(qǐng)求進(jìn)行識(shí)別處理,保證了網(wǎng)絡(luò)的穩(wěn)定性與安全性。
為達(dá)到以上技術(shù)目的,本申請(qǐng)還提出了一種異常訪問檢測(cè)設(shè)備,如圖6所示,包括以下模塊:
獲取模塊610,獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù);
第一生成模塊620,根據(jù)所述屬性數(shù)據(jù)以及檢測(cè)參數(shù)生成與所述訪問請(qǐng)求對(duì)應(yīng)的異常概率,所述檢測(cè)參數(shù)根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成;
判斷模塊630,判斷所述異常概率是否大于預(yù)設(shè)的異常閾值;
若是,所述判斷模塊630確認(rèn)所述訪問請(qǐng)求為異常訪問請(qǐng)求;
若否,所述判斷模塊630確認(rèn)所述訪問請(qǐng)求為正常訪問請(qǐng)求。
在具體的應(yīng)用場(chǎng)景中,還包括:
確定模塊,根據(jù)各所述樣本訪問請(qǐng)求的訪問頻次信息確定各所述樣本訪問請(qǐng)求是否異常;
分配模塊,分別為正常樣本訪問請(qǐng)求以及異常樣本訪問請(qǐng)求賦予不同取值的標(biāo)簽;
第二生成模塊,根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成原始檢測(cè)參數(shù);
第三生成模塊,根據(jù)所述原始檢測(cè)參數(shù)生成所述檢測(cè)參數(shù)。
在具體的應(yīng)用場(chǎng)景中,所述訪問頻次信息包括所述樣本訪問請(qǐng)求對(duì)應(yīng)的用戶標(biāo)識(shí)id以及訪問時(shí)間,所述確定模塊具體用于:
根據(jù)所述用戶id獲取在所述訪問時(shí)間之前的時(shí)間窗口內(nèi)由相同用戶提交的樣本訪問請(qǐng)求的第一數(shù)量,以及獲取在所述訪問時(shí)間之后的所述時(shí)間窗口 內(nèi)由相同用戶提交的樣本訪問請(qǐng)求的第二數(shù)量;
判斷所述第一數(shù)量與所述第二數(shù)量之和是否大于預(yù)設(shè)的次數(shù)閾值;
若是,確認(rèn)所述樣本訪問請(qǐng)求為異常樣本訪問請(qǐng)求;
若否,確認(rèn)所述樣本訪問請(qǐng)求為正常樣本訪問請(qǐng)求。
在具體的應(yīng)用場(chǎng)景中,具體根據(jù)以下公式生成原始檢測(cè)參數(shù):
其中,argminw為所述原始檢測(cè)參數(shù)的取值函數(shù),w為所述原始檢測(cè)參數(shù),且w為求和項(xiàng)對(duì)應(yīng)的最小值,n為所述樣本訪問請(qǐng)求的個(gè)數(shù),vi為各所述樣本訪問請(qǐng)求的標(biāo)簽的取值。
在具體的應(yīng)用場(chǎng)景中,所述異常閾值具體通過以下方式生成:
獲取異常樣本訪問請(qǐng)求占所有樣本訪問請(qǐng)求的百分比;
根據(jù)所述檢測(cè)參數(shù)獲取與各所述樣本訪問請(qǐng)求對(duì)應(yīng)的異常概率;
將各所述樣本訪問請(qǐng)求對(duì)應(yīng)的異常概率從小至大進(jìn)行排序處理;
根據(jù)所述排序結(jié)果確定與所述百分比對(duì)應(yīng)的異常概率,并將所述異常概率作為所述異常閾值。
通過應(yīng)用本申請(qǐng)的技術(shù)方案,在獲取待檢測(cè)的訪問請(qǐng)求的屬性數(shù)據(jù)之后,根據(jù)屬性數(shù)據(jù)以及檢測(cè)參數(shù)生成與訪問請(qǐng)求對(duì)應(yīng)的異常概率,由于檢測(cè)參數(shù)根據(jù)各個(gè)樣本訪問請(qǐng)求對(duì)應(yīng)的標(biāo)簽的取值以及屬性數(shù)據(jù)生成,因此在判斷異常概率是否大于預(yù)設(shè)的異常閾值之后,即可基于二者的大小確認(rèn)確認(rèn)訪問請(qǐng)求是否為異常訪問請(qǐng)求。從而能夠在海量的訪問請(qǐng)求中準(zhǔn)確地針對(duì)異常訪問請(qǐng)求進(jìn)行識(shí)別處理,保證了網(wǎng)絡(luò)的穩(wěn)定性與安全性。
通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請(qǐng)可以通過硬件實(shí)現(xiàn),也可以借助軟件加必要的通用硬件平臺(tái)的方式來實(shí)現(xiàn)。 基于這樣的理解,本申請(qǐng)的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲(chǔ)在一個(gè)非易失性存儲(chǔ)介質(zhì)(可以是cd-rom,u盤,移動(dòng)硬盤等)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施場(chǎng)景所述的方法。
本領(lǐng)域技術(shù)人員可以理解附圖只是一個(gè)優(yōu)選實(shí)施場(chǎng)景的示意圖,附圖中的模塊或流程并不一定是實(shí)施本申請(qǐng)所必須的。
本領(lǐng)域技術(shù)人員可以理解實(shí)施場(chǎng)景中的裝置中的模塊可以按照實(shí)施場(chǎng)景描述進(jìn)行分布于實(shí)施場(chǎng)景的裝置中,也可以進(jìn)行相應(yīng)變化位于不同于本實(shí)施場(chǎng)景的一個(gè)或多個(gè)裝置中。上述實(shí)施場(chǎng)景的模塊可以合并為一個(gè)模塊,也可以進(jìn)一步拆分成多個(gè)子模塊。
上述本申請(qǐng)序號(hào)僅僅為了描述,不代表實(shí)施場(chǎng)景的優(yōu)劣。
以上公開的僅為本申請(qǐng)的幾個(gè)具體實(shí)施場(chǎng)景,但是,本申請(qǐng)并非局限于此,任何本領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本申請(qǐng)的保護(hù)范圍。