国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種異常檢測(cè)方法及裝置的制造方法

      文檔序號(hào):10492237閱讀:697來(lái)源:國(guó)知局
      一種異常檢測(cè)方法及裝置的制造方法
      【專利摘要】本發(fā)明實(shí)施例公開(kāi)了一種異常檢測(cè)方法及裝置,應(yīng)用于服務(wù)器,其中方法中包括:獲取多個(gè)待檢測(cè)樣本;針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量;對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),并輸出異常檢測(cè)結(jié)果。其中,所述最大頻繁項(xiàng)集為利用FPGrowth關(guān)聯(lián)分析算法獲得的正常樣本群體的正常特征的集合。應(yīng)用本發(fā)明實(shí)施例,將先驗(yàn)知識(shí)用于了異常檢測(cè),使正常樣本和異常樣本能夠更好的區(qū)分。
      【專利說(shuō)明】
      一種異常檢測(cè)方法及裝置
      技術(shù)領(lǐng)域
      [0001 ]本發(fā)明涉及信息安全技術(shù)領(lǐng)域,特別涉及一種異常檢測(cè)方法及裝置。
      【背景技術(shù)】
      [0002]在信息安全技術(shù)領(lǐng)域,一個(gè)很重要的問(wèn)題是如何在海量日志數(shù)據(jù)樣本中檢測(cè)出異常的行為,因此有很多的人力財(cái)力投入到異常檢測(cè)中。異常檢測(cè)是根據(jù)目標(biāo)系統(tǒng)的正常行為輪廓特征訓(xùn)練出正常行為模型,如果檢測(cè)到當(dāng)前行為偏離了正常行為模型,則認(rèn)為系統(tǒng)遭到入侵。異常檢測(cè)適應(yīng)性較好,具備檢測(cè)未知入侵的能力,因此受到了更多的青睞,許多領(lǐng)域和學(xué)科的技術(shù)滲入到異常檢測(cè)技術(shù)中,使該技術(shù)不斷完善和發(fā)展。
      [0003]但是,目前的異常檢測(cè)方法主要是通過(guò)對(duì)樣本特征值估計(jì)概率統(tǒng)計(jì)分布或者計(jì)算相似度距離來(lái)實(shí)現(xiàn)的,這些方法中缺少標(biāo)注數(shù)據(jù)這類先驗(yàn)知識(shí),因此存在正常樣本與異常樣本不能更好的區(qū)分的問(wèn)題。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明實(shí)施例公開(kāi)了一種異常檢測(cè)方法及裝置,將先驗(yàn)知識(shí)應(yīng)用于異常檢測(cè)方法中,以更好的區(qū)分異常樣本和正常樣本。
      [0005]為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種異常檢測(cè)方法,應(yīng)用于服務(wù)器,包括:
      [0006]獲取多個(gè)待檢測(cè)樣本;
      [0007]針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量;
      [0008]對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),并輸出異常檢測(cè)結(jié)果。
      [0009]較佳地,所述預(yù)設(shè)的最大頻繁項(xiàng)集為利用FPGrowth關(guān)聯(lián)分析算法獲得的正常樣本群體的最常出現(xiàn)的特征的集合。
      [0010]較佳地,所述對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),包括:
      [0011]采用冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本的離群屬性值;
      [0012]對(duì)所述離群屬性值進(jìn)行判決,獲得離群判決結(jié)果;
      [0013]將離群判決結(jié)果進(jìn)行投票合并,獲得每個(gè)具有第二特征向量的待檢測(cè)樣本的異常檢測(cè)結(jié)果。
      [0014]較佳地,所述Jaccard相似度為:
      [0015]Jaccard(Ai,Bj)=|AiintersectBj|/|Aiun1nBj
      [0016]其中,Ai為第i個(gè)待檢測(cè)樣本的第一特征向量,Bj為第j個(gè)最大頻繁項(xiàng)集。
      [0017]為達(dá)到上述目的,本發(fā)明實(shí)施例還公開(kāi)了一種異常檢測(cè)裝置,應(yīng)用于服務(wù)器,包括:
      [0018]樣本獲取模塊,用于獲取多個(gè)待檢測(cè)樣本;
      [0019]相似度確定模塊,用于針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量;
      [0020]異常檢測(cè)模塊,用于對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),并輸出異常檢測(cè)結(jié)果。
      [0021]較佳地,所述預(yù)設(shè)的最大頻繁項(xiàng)集為利用FPGrowth關(guān)聯(lián)分析算法獲得的正常樣本群體的最常出現(xiàn)的特征的集合。
      [0022]較佳地,所述異常檢測(cè)模塊包括:
      [0023]離群屬性獲取子模塊,用于采用冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本的離群屬性值;
      [0024]離群屬性判決子模塊,用于對(duì)所述離群屬性值進(jìn)行判決,獲得離群判決結(jié)果;
      [0025]樣本異常判決子模塊,用于將離群判決結(jié)果進(jìn)行投票合并,獲得每個(gè)具有第二特征向量的待檢測(cè)樣本的異常檢測(cè)結(jié)果;
      [0026]檢測(cè)結(jié)果輸出子模塊,用于輸出所述異常檢測(cè)結(jié)果。
      [0027]較佳地,所述Jaccard相似度為:
      [0028]Jaccard(Ai,Bj)=|AiintersectBj|/|Aiun1nBj
      [0029]其中,Ai為第i個(gè)待檢測(cè)樣本的第一特征向量,Bj為第j個(gè)最大頻繁項(xiàng)集。
      [0030]由上述技術(shù)方案可知,本發(fā)明實(shí)施例公開(kāi)了一種異常檢測(cè)方法及裝置,應(yīng)用于服務(wù)器,方法中包括獲取多個(gè)待檢測(cè)樣本;針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量;對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),并輸出異常樣本。其中,所述最大頻繁項(xiàng)集為利用FPGrowth關(guān)聯(lián)分析算法獲得的正常樣本群體的最常出現(xiàn)的特征的集合。
      [0031]應(yīng)用本發(fā)明實(shí)施例,通過(guò)利用FPGrowth關(guān)聯(lián)分析算法獲得了正常樣本群體的最常出現(xiàn)的特征的集合,并針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)最大頻繁項(xiàng)集求Jaccard相似度,這樣便將先驗(yàn)知識(shí)用于了異常檢測(cè),使正常樣本和異常樣本能夠更好的區(qū)分,采用多種異常檢測(cè)方法進(jìn)行異常檢測(cè),從而能夠適用于復(fù)雜的安全分析等場(chǎng)景。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
      【附圖說(shuō)明】
      [0032]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
      [0033]圖1為本發(fā)明實(shí)施例一提供的異常檢測(cè)方法的流程示意圖;
      [0034]圖2為本發(fā)明實(shí)施例二提供的異常檢測(cè)方法的流程示意圖;
      [0035]圖3為本發(fā)明實(shí)施例三提供的異常檢測(cè)方法的流程示意圖;
      [0036]圖4為本發(fā)明實(shí)施例四提供的異常檢測(cè)裝置的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0037]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
      [0038]本發(fā)明實(shí)施例公開(kāi)了一種異常檢測(cè)方法及裝置,以下進(jìn)行詳細(xì)說(shuō)明。
      [0039]實(shí)施例一
      [0040]本實(shí)施例提供了一種異常檢測(cè)方法,如圖1所示,所述方法應(yīng)用于風(fēng)險(xiǎn)控制系統(tǒng),風(fēng)險(xiǎn)控制系統(tǒng)配置在用于監(jiān)控的服務(wù)器上,所述方法包括以下步驟:
      [0041 ]步驟S110,獲取多個(gè)待檢測(cè)樣本。
      [0042]所述待檢測(cè)樣本為用戶行為數(shù)據(jù),包括但不限于以下數(shù)據(jù):用戶登錄時(shí)間,IP地址,觀看的視頻種類,登錄的設(shè)備,用戶未登錄觀看視頻的數(shù)據(jù)等等。具體地,用戶對(duì)系統(tǒng)數(shù)據(jù)的操作在數(shù)據(jù)庫(kù)日志中留下了痕跡,日志記錄的數(shù)據(jù)包括操作人員的名稱、操作的時(shí)間、操作內(nèi)容等。對(duì)這些日志數(shù)據(jù)進(jìn)行預(yù)處理,便可以得到反映用戶行為的用戶行為數(shù)據(jù)。對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理的過(guò)程屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0043]所述待檢測(cè)樣本可以是帳號(hào)安全(防盜號(hào),撞庫(kù)等)、支付安全(如支付寶之類的支付時(shí)的安全)、防刷(如企業(yè)有優(yōu)惠活動(dòng)時(shí),防止羊毛黨惡意搶企業(yè)的優(yōu)惠活動(dòng),如優(yōu)惠券)等場(chǎng)景中的用戶行為數(shù)據(jù)。
      [0044]步驟S120,針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量。
      [0045]第一特征向量為待檢測(cè)樣本的特征屬性值構(gòu)成的集合,例如,待檢測(cè)樣本的第一特征向量可以為(13點(diǎn),Andor i d6.0 ),其中13點(diǎn)為“登錄時(shí)間”這一特征的屬性值,Andor id6.0為“用戶設(shè)備”這一特征的屬性值。
      [0046]最大頻繁項(xiàng)集為正常樣本群體的最常出現(xiàn)的特征的集合。
      [0047]作為本實(shí)施例的一種優(yōu)選方案,預(yù)設(shè)的最大頻繁項(xiàng)集可以利用FPGrowth關(guān)聯(lián)分析算法獲得的正常樣本群體的最常出現(xiàn)的特征的集合。正常樣本群體可以包括全量日志數(shù)據(jù),利用FPGrowth關(guān)聯(lián)分析算法獲得日志數(shù)據(jù)的最大頻繁項(xiàng)集屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0048]作為本實(shí)施例的另一種優(yōu)選方案,針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,所述Jaccard相似度可以為:
      [0049]Jaccard(Ai,Bj)=|AiintersectBj|/|Aiun1nBj
      [0050]其中,Ai為第i個(gè)待檢測(cè)樣本的第一特征向量,Bj為第j個(gè)最大頻繁項(xiàng)集,Aiintersect Bj為Ai和Bj兩個(gè)集合中的元素的交集中的元素?cái)?shù)目,Aiun1nBj為Ai和Bj兩個(gè)集合中的元素的并集中的元素?cái)?shù)目。
      [0051]通過(guò)利用FPGrowth關(guān)聯(lián)分析算法獲得了正常樣本群體的最常出現(xiàn)的特征的集合,并針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)最大頻繁項(xiàng)集求Jaccard相似度,這樣便將先驗(yàn)知識(shí)用于了異常檢測(cè),使正常樣本和異常樣本能夠更好的區(qū)分。
      [0052]將獲得的對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量。
      [0053]步驟S130,對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),并輸出異常檢測(cè)結(jié)果O
      [0054]為了獲得更好的檢測(cè)性能,對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè)時(shí),可構(gòu)建高維特征空間,在構(gòu)建高維特征空間中進(jìn)行異常檢測(cè)。
      [0055]具體地,根據(jù)預(yù)設(shè)的最大頻繁項(xiàng)集以及具有第二特征向量的待檢測(cè)樣本構(gòu)建高維特征空間,高維特征空間的維數(shù)等于最大頻繁項(xiàng)集的個(gè)數(shù),在高維特征空間中的待檢測(cè)樣本為具有第二特征向量的待檢測(cè)樣本。例如,假設(shè)獲取是待檢測(cè)樣本的特征空間為三維特征空間,預(yù)設(shè)的最大頻繁項(xiàng)集為五個(gè),則構(gòu)建的高維特征空間為五維特征空間,在五維特征空間中,待檢測(cè)樣本為步驟120獲得的具有第二特征向量的待檢測(cè)樣本,這樣就將原來(lái)三維特征空間里的待檢測(cè)樣本映射到了五維特征空間里,且在五維特征空間里的待檢測(cè)樣本具有新的特征向量(即第二特征向量)。
      [0056]通過(guò)在構(gòu)建的高維特征空間中進(jìn)行異常檢測(cè),能夠使正常樣本和異常樣本更好的區(qū)別開(kāi),獲得更好的檢測(cè)性能。
      [0057]為了使該異常檢測(cè)方法適用于復(fù)雜的安全分析場(chǎng)景,對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè)時(shí),可以采用多種異常檢測(cè)方法進(jìn)行異常檢測(cè),采用的異常檢測(cè)方法包括但不限于:冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法。
      [0058]輸出對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè)的異常檢測(cè)結(jié)果,當(dāng)異常檢測(cè)結(jié)果為異常時(shí),可向客戶端發(fā)出報(bào)警信號(hào),有助于用戶及時(shí)發(fā)現(xiàn)威脅。
      [0059]應(yīng)用本實(shí)施例,通過(guò)利用FPGrowth關(guān)聯(lián)分析算法獲得了正常樣本群體的最常出現(xiàn)的特征的集合,并針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)最大頻繁項(xiàng)集求Jaccard相似度,這樣便將先驗(yàn)知識(shí)用于了異常檢測(cè),使正常樣本和異常樣本能夠更好的區(qū)分。
      [0060]實(shí)施例二
      [0061]作為實(shí)施例一的一種優(yōu)選方案,實(shí)施例二與實(shí)施例一不同的地方在于,本實(shí)施例中采用冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法進(jìn)行異常檢測(cè),如圖2所示,包括以下步驟:
      [0062]步驟S210,獲取多個(gè)待檢測(cè)樣本。
      [0063]步驟S220,針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量。
      [0064]步驟S210和步驟S220對(duì)應(yīng)的過(guò)程與實(shí)施例——樣,本實(shí)施例不重復(fù)贅述。
      [0065]步驟S230,采用冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本的離群屬性值。
      [0066]具體地,冪律分布離群點(diǎn)檢測(cè)方法通過(guò)構(gòu)建數(shù)學(xué)模型計(jì)算待檢測(cè)樣本的離群屬性值,所述離群屬性值為待檢測(cè)樣本出現(xiàn)概率,即待檢測(cè)樣本滿足預(yù)設(shè)的數(shù)學(xué)分布的可能性,該數(shù)學(xué)分布為根據(jù)已有樣本通過(guò)冪律分布構(gòu)建出來(lái)的數(shù)學(xué)分布,根據(jù)構(gòu)建好的數(shù)學(xué)分布計(jì)算待檢測(cè)樣本出現(xiàn)的概率。具體構(gòu)建數(shù)學(xué)分布的過(guò)程以及根據(jù)構(gòu)建好的數(shù)學(xué)分布計(jì)算樣本出現(xiàn)概率的過(guò)程屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0067]高斯分布離群點(diǎn)檢測(cè)方法也通過(guò)構(gòu)建數(shù)學(xué)模型計(jì)算待檢測(cè)樣本的離群屬性值,所述離群屬性值為待檢測(cè)樣本出現(xiàn)概率,即待檢測(cè)樣本滿足預(yù)設(shè)的數(shù)學(xué)分布的可能性,該數(shù)學(xué)分布為根據(jù)已有樣本通過(guò)高斯分布構(gòu)建出來(lái)的數(shù)學(xué)分布,根據(jù)構(gòu)建好的數(shù)學(xué)分布計(jì)算待檢測(cè)樣本出現(xiàn)的概率。具體構(gòu)建數(shù)學(xué)分布的過(guò)程以及根據(jù)構(gòu)建好的數(shù)學(xué)分布計(jì)算樣本出現(xiàn)概率的過(guò)程屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0068]相對(duì)密度離群點(diǎn)檢測(cè)方法是基于歐式距離來(lái)計(jì)算待檢測(cè)樣本的離群屬性值的,所述離群屬性值為待檢測(cè)樣本相對(duì)于已有樣本的歐氏距離的比值。具體計(jì)算歐式距離的過(guò)程屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0069]步驟S240,對(duì)所述離群屬性值進(jìn)行判決,獲得離群判決結(jié)果。
      [0070]可以采用0-1判決方法對(duì)所述離群屬性值進(jìn)行判決,當(dāng)離群屬性值小于預(yù)設(shè)的閾值時(shí),判決結(jié)果為“O”,否則,判決結(jié)果為“I”。
      [0071]對(duì)于冪律分布離群點(diǎn)檢測(cè)方法和高斯分布離群點(diǎn)檢測(cè)方法,判斷這兩種方法計(jì)算出的出現(xiàn)概率是否小于預(yù)設(shè)的閾值,若小于,判決結(jié)果為“O”,否則,判決結(jié)果為“I”。
      [0072]對(duì)于相對(duì)密度離群點(diǎn)檢測(cè)方法,判斷該方法計(jì)算出來(lái)的歐氏距離比值是否小于預(yù)設(shè)的閾值,若小于,判決結(jié)果為“O”,否則,判決結(jié)果為“I”。
      [0073]步驟S250,將離群判決結(jié)果進(jìn)行投票合并,獲得每個(gè)具有第二特征向量樣本的異常檢測(cè)結(jié)果。
      [0074]具體地,可以采用大數(shù)判決方法對(duì)判決結(jié)果進(jìn)行合并,例如,三種異常檢測(cè)方法獲得的離群判決結(jié)果分別為“O”,“O”,“I”,則最終判決結(jié)果為“O”,則檢測(cè)結(jié)果為該樣本異常。
      [0075]當(dāng)然,也可以混合使用其他異常檢測(cè)方法進(jìn)行異常檢測(cè),混合使用的異常檢測(cè)方法也可以包括五種,或更多種。
      [0076]應(yīng)用本實(shí)施例,通過(guò)將多種異常檢測(cè)方法進(jìn)行融合,能夠使該異常檢測(cè)方法適用于復(fù)雜的安全分析場(chǎng)景。
      [0077]實(shí)施例三
      [0078]本實(shí)施例以兩個(gè)樣本為例,對(duì)本發(fā)明實(shí)施例提供的異常檢測(cè)方法進(jìn)行了詳細(xì)說(shuō)明,如圖3所示,包括以下步驟:
      [0079]步驟S310,獲取多個(gè)待檢測(cè)樣本。
      [0080]假設(shè)獲取的待檢測(cè)樣本為樣本I和樣本2。
      [0081]步驟S320,針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量。
      [0082]第一特征向量為待檢測(cè)樣本特征屬性值的集合,假設(shè)樣本I的第一特征向量為A1=(al,b2,c2,d3),樣本2的第一特征向量為A2 = (a2,b2,c3,dl),利用用FPGrowth關(guān)聯(lián)分析算法獲得的最大頻繁項(xiàng)集為Bi = (al,d3),B2= (a2,c3),B3= (b2,d3),B4= (c2,(Il)Bs= (c3,dl),其中,al,a2為特征a的屬性值,bl,b2為特征b的屬性值,cl,c2,c3為特征c的屬性值,(11,(12,(13為特征(1的屬性值。
      [0083]樣本I的第一特征向量Al,分別與每一個(gè)最大頻繁項(xiàng)集求Jaccard相似度為:
      [0084]Jaccard(Ai ,Bi) = | Aiintersect Bi | / | Aiun1n Bi | =2/4 = 0.5
      [0085]Jaccard(Ai ,B2) = | Aiintersect B21 / I Aiun1n B21 =0/6 = 0
      [0086]Jaccard(Ai,B3) = I Aiintersect B31 / I Aiun1n B31 =2/4 = 0.5
      [0087]Jaccard(Ai ,B4) = | Aiintersect B41 / I Aiun1n B41 =1/5 = 0.2
      [0088]Jaccard(Ai ,B5) = | Aiintersect Bs I / I Aiun1n B51 =0/6 = 0
      [0089]樣本2的第一特征向量A2,分別與每一個(gè)最大頻繁項(xiàng)集求Jaccard相似度為:
      [0090]Jaccard(A2 ,Bi) = I A2intersect Bi | / | A2un1n Bi | =0/6 = 0
      [0091]Jaccard(A2,B2) = I A2intersect B21 / I A2un1n B21 =2/4 = 0.5
      [0092]Jaccard(A2,B3) = I A2intersect B31 / I A2un1n B31 =1/5 = 0.2
      [0093]Jaccard(A2,B4) = I A2intersect B41 / I A2un1n B41 =1/5 = 0.2
      [0094]Jaccard(A2,B5) = I A2intersect B51 / I A2un1n B51 =2/4 = 0.5
      [0095]將對(duì)應(yīng)于樣本I的所有Jaccard相似度(0.5,0,0.5,0.2,0)確定為樣本I的第二特征向量,將對(duì)應(yīng)于樣本2的所有Jaccard相似度(O,0.5,0.2,0.2,0.5)確定為樣本2的第二特征向量。
      [0096]步驟S330,構(gòu)建高維特征空間,并將獲取的的待檢測(cè)樣本映射到高維特征空間中。
      [0097]根據(jù)最大頻繁項(xiàng)集的個(gè)數(shù)為五個(gè),構(gòu)建五維特征空間,并將樣本I和樣本2映射到五維特征空間中,即在五維特征空間中,待檢測(cè)樣本為特征向量為(0.5,0,0.5,0.2,O)的樣本I和特征向量為(0,0.5,0.2,0.2,0.5)的樣本2。
      [0098]步驟S340,采用冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本的離群屬性值。
      [0099]采用冪律分布離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本離群屬性值為每個(gè)待檢測(cè)樣本的出現(xiàn)概率。具體計(jì)算過(guò)程屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0100]采用高斯分布離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本離群屬性值為每個(gè)待檢測(cè)樣本的出現(xiàn)概率。具體計(jì)算過(guò)程屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0101]采用相對(duì)密度離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本離群屬性值為每個(gè)待檢測(cè)樣本相對(duì)于已有樣本的歐氏距離比值。具體計(jì)算過(guò)程屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0102]步驟S350,對(duì)所述離群屬性值進(jìn)行判決,獲得離群判決結(jié)果。
      [0103]可以采用0-1判決方法對(duì)所述離群屬性值進(jìn)行判決,當(dāng)離群屬性值小于預(yù)設(shè)的閾值時(shí),判決結(jié)果為“O”,否則,判決結(jié)果為“I”。
      [0104]假設(shè),樣本I通過(guò)三種異常檢測(cè)方法獲得的離群判決結(jié)果分別為“O”,“O”,“I”;樣本2通過(guò)三種異常檢測(cè)方法獲得的離群判決結(jié)果分別為“I”,“O”,“I”。
      [0105]步驟S360,將離群判決結(jié)果進(jìn)行投票合并,獲得每個(gè)樣本的異常檢測(cè)結(jié)果。
      [0106]可以采用大數(shù)判決方法對(duì)判決結(jié)果進(jìn)行合并,樣本I通過(guò)三種異常檢測(cè)方法獲得的離群判決結(jié)果分別為“O”,“O”,“I”,則樣本I的最終判決結(jié)果為“O”,則可獲得樣本I的異常檢測(cè)結(jié)果為樣本I異常;樣本2通過(guò)三種異常檢測(cè)方法獲得的離群判決結(jié)果分別為“I”,“O”,“I”,則樣本2的最終判決結(jié)果為“I”,則可獲得樣本I的異常檢測(cè)結(jié)果為樣本2正常。
      [0107]步驟S370,若異常檢測(cè)結(jié)果為異常,則向客戶端發(fā)送報(bào)警信息。
      [0108]樣本I的異常檢測(cè)結(jié)果為異常,則向客戶端發(fā)送異常報(bào)警信息,向客戶端發(fā)送報(bào)警信息屬于現(xiàn)有技術(shù),本實(shí)施例不贅述。
      [0109]實(shí)施例四
      [0110]本發(fā)明實(shí)施例還提供了一種異常檢測(cè)裝置,如圖4所示,應(yīng)用于服務(wù)器,包括:
      [0111]樣本獲取模塊410,用于獲取多個(gè)待檢測(cè)樣本。
      [0112]所述待檢測(cè)樣本為用戶行為數(shù)據(jù),包括但不限于以下數(shù)據(jù):用戶登錄時(shí)間,IP地址,觀看的視頻種類,登錄的設(shè)備,用戶未登錄觀看視頻的數(shù)據(jù)等等。具體地,用戶對(duì)系統(tǒng)數(shù)據(jù)的操作在數(shù)據(jù)庫(kù)日志中留下了痕跡,日志記錄的數(shù)據(jù)包括操作人員的名稱、操作的時(shí)間、操作內(nèi)容等。對(duì)這些日志數(shù)據(jù)進(jìn)行預(yù)處理,便可以得到反映用戶行為的用戶行為數(shù)據(jù)。對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理的過(guò)程屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0113]所述待檢測(cè)樣本可以是帳號(hào)安全(防盜號(hào),撞庫(kù)等)、支付安全(如支付寶之類的支付時(shí)的安全)、防刷(如企業(yè)有優(yōu)惠活動(dòng)時(shí),防止羊毛黨惡意搶企業(yè)的優(yōu)惠活動(dòng),如優(yōu)惠券)等系統(tǒng)中的用戶行為數(shù)據(jù)。
      [0114]相似度確定模塊420,用于針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量。
      [0115]第一特征向量為待檢測(cè)樣本的特征屬性值構(gòu)成的集合,例如,待檢測(cè)樣本的第一特征向量可以為(13點(diǎn),Andor i d6.0 ),其中13點(diǎn)為“登錄時(shí)間”這一特征的屬性值,Andor id6.0為“用戶設(shè)備”這一特征的屬性值。
      [0116]最大頻繁項(xiàng)集為正常樣本群體的最常出現(xiàn)的特征的集合。
      [0117]作為本實(shí)施例的一種優(yōu)選方案,預(yù)設(shè)的最大頻繁項(xiàng)集可以利用FPGrowth關(guān)聯(lián)分析算法獲得的正常樣本群體的最常出現(xiàn)的特征的集合。正常樣本群體可以包括全量日志數(shù)據(jù),利用FPGrowth關(guān)聯(lián)分析算法獲得日志數(shù)據(jù)的最大頻繁項(xiàng)集屬于現(xiàn)有技術(shù),本實(shí)施例不再贅述。
      [0118]作為本實(shí)施例的另一種優(yōu)選方案,針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,所述Jaccard相似度可以為:
      [0119]Jaccard(Ai,Bj)=|AiintersectBj|/|Aiun1nBj
      [0120]其中,Ai為第i個(gè)待檢測(cè)樣本的第一特征向量,Bj為第j個(gè)最大頻繁項(xiàng)集,Aiintersect Bj為Ai和Bj兩個(gè)集合中的元素的交集中的元素?cái)?shù)目,Aiun1nBj為Ai和Bj兩個(gè)集合中的元素的并集中的元素?cái)?shù)目。
      [0121]通過(guò)利用FPGrowth關(guān)聯(lián)分析算法獲得了正常樣本群體的最常出現(xiàn)的特征的集合,并針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)最大頻繁項(xiàng)集求Jaccard相似度,這樣便將先驗(yàn)知識(shí)用于了異常檢測(cè),使正常樣本和異常樣本能夠更好的區(qū)分。
      [0122]將獲得的對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量。
      [0123]異常檢測(cè)模塊430,用于對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),并輸出異常檢測(cè)結(jié)果。
      [0124]為了獲得更好的檢測(cè)性能,對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè)時(shí),可構(gòu)建高維特征空間,在構(gòu)建高維特征空間中進(jìn)行異常檢測(cè)。
      [0125]具體地,根據(jù)預(yù)設(shè)的最大頻繁項(xiàng)集以及具有第二特征向量的待檢測(cè)樣本構(gòu)建高維特征空間,高維特征空間的維數(shù)等于最大頻繁項(xiàng)集的個(gè)數(shù),在高維特征空間中的待檢測(cè)樣本為具有第二特征向量的待檢測(cè)樣本。例如,假設(shè)獲取是待檢測(cè)樣本的特征空間為三維特征空間,預(yù)設(shè)的最大頻繁項(xiàng)集為五個(gè),則構(gòu)建的高維特征空間為五維特征空間,在五維特征空間中,待檢測(cè)樣本為步驟102獲得的具有第二特征向量的待檢測(cè)樣本,這樣就將原來(lái)三維特征空間里的待檢測(cè)樣本映射到了五維特征空間里,且在五維特征空間里的待檢測(cè)樣本具有新的特征向量(即第二特征向量)。
      [0126]通過(guò)在構(gòu)建的高維特征空間中進(jìn)行異常檢測(cè),能夠使正常樣本和異常樣本更好的區(qū)別開(kāi),獲得更好的檢測(cè)性能。
      [0127]為了使該異常檢測(cè)方法適用于復(fù)雜的安全分析場(chǎng)景,對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè)時(shí),可以采用多種異常檢測(cè)方法進(jìn)行異常檢測(cè)
      [0128],采用的異常檢測(cè)方法包括但不限于:冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法。
      [0129]作為本實(shí)施例的又一種優(yōu)選方案,異常檢測(cè)模塊還可以包括,離群屬性獲取子模塊(圖4中未示出),用于采用冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本的離群屬性值;離群屬性判決子模塊(圖4中未示出),用于對(duì)所述離群屬性值進(jìn)行判決,獲得離群判決結(jié)果;樣本異常判決子模塊(圖4中未示出),用于將離群判決結(jié)果進(jìn)行投票合并,獲得每個(gè)具有第二特征向量的待檢測(cè)樣本的異常檢測(cè)結(jié)果;檢測(cè)結(jié)果輸出模塊(圖4中未示出),用于輸出所述異常檢測(cè)結(jié)果。
      [0130]輸出對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè)的異常檢測(cè)結(jié)果,當(dāng)異常檢測(cè)結(jié)果為異常時(shí),可向客戶端發(fā)出報(bào)警信號(hào),有助于用戶及時(shí)發(fā)現(xiàn)威脅。
      [0131]應(yīng)用本實(shí)施例,通過(guò)利用FPGrowth關(guān)聯(lián)分析算法獲得了正常樣本群體的最常出現(xiàn)的特征的集合,并針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)最大頻繁項(xiàng)集求Jaccard相似度,這樣便將先驗(yàn)知識(shí)用于了異常檢測(cè),使正常樣本和異常樣本能夠更好的區(qū)分。
      [0132]對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
      [0133]需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
      [0134]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,這里所稱得的存儲(chǔ)介質(zhì),如:R0M/RAM、磁碟、光盤等。
      [0135]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。
      【主權(quán)項(xiàng)】
      1.一種異常檢測(cè)方法,其特征在于,應(yīng)用于服務(wù)器,包括: 獲取多個(gè)待檢測(cè)樣本; 針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量; 對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),并輸出異常檢測(cè)結(jié)果。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)的最大頻繁項(xiàng)集為利用FPGrowth關(guān)聯(lián)分析算法獲得的正常樣本群體的最常出現(xiàn)的特征的集合。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),包括: 采用冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本的離群屬性值; 對(duì)所述離群屬性值進(jìn)行判決,獲得離群判決結(jié)果; 將離群判決結(jié)果進(jìn)行投票合并,獲得每個(gè)具有第二特征向量的待檢測(cè)樣本的異常檢測(cè)結(jié)果。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述Jaccard相似度為: Jaccard(Ai,Bj)=|AiintersectBj|/|Aiun1nBj 其中,Ai為第i個(gè)待檢測(cè)樣本的第一特征向量,Bj為第j個(gè)最大頻繁項(xiàng)集。5.一種異常檢測(cè)裝置,其特征在于,應(yīng)用于服務(wù)器,包括: 樣本獲取模塊,用于獲取多個(gè)待檢測(cè)樣本; 相似度確定模塊,用于針對(duì)每一個(gè)待檢測(cè)樣本的第一特征向量,分別與每一個(gè)預(yù)設(shè)的最大頻繁項(xiàng)集求Jaccard相似度,并將對(duì)應(yīng)于每一個(gè)待檢測(cè)樣本的所有Jaccard相似度確定為該待檢測(cè)樣本的第二特征向量; 異常檢測(cè)模塊,用于對(duì)具有第二特征向量的待檢測(cè)樣本進(jìn)行異常檢測(cè),并輸出異常檢測(cè)結(jié)果。6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述預(yù)設(shè)的最大頻繁項(xiàng)集為利用FPGrowth關(guān)聯(lián)分析算法獲得的正常樣本群體的最常出現(xiàn)的特征的集合。7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述異常檢測(cè)模塊包括: 離群屬性獲取子模塊,用于采用冪律分布離群點(diǎn)檢測(cè)方法、高斯分布離群點(diǎn)檢測(cè)方法和相對(duì)密度離群點(diǎn)檢測(cè)方法計(jì)算每個(gè)具有第二特征向量的待檢測(cè)樣本的離群屬性值;離群屬性判決子模塊,用于對(duì)所述離群屬性值進(jìn)行判決,獲得離群判決結(jié)果; 樣本異常判決子模塊,用于將離群判決結(jié)果進(jìn)行投票合并,獲得每個(gè)具有第二特征向量的待檢測(cè)樣本的異常檢測(cè)結(jié)果; 檢測(cè)結(jié)果輸出子模塊,用于輸出所述異常檢測(cè)結(jié)果。8.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述Jaccard相似度為: Jaccard(Ai,Bj)=|AiintersectBj|/|Aiun1nBj 其中,Ai為第i個(gè)待檢測(cè)樣本的第一特征向量,Bj為第j個(gè)最大頻繁項(xiàng)集。
      【文檔編號(hào)】H04L29/06GK105847302SQ201610377469
      【公開(kāi)日】2016年8月10日
      【申請(qǐng)日】2016年5月31日
      【發(fā)明人】宗志遠(yuǎn)
      【申請(qǐng)人】北京奇藝世紀(jì)科技有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1