本發(fā)明涉及異常檢測(cè)技術(shù)領(lǐng)域,具體涉及一種異常檢測(cè)方法和裝置。
背景技術(shù):
隨著大數(shù)據(jù)時(shí)代的發(fā)展,越來(lái)越多的服務(wù)應(yīng)用都運(yùn)行在分布式系統(tǒng)中,部署分布式系統(tǒng)的機(jī)器集群規(guī)模也越來(lái)越大。在信息安全領(lǐng)域,一個(gè)很重要的問(wèn)題是如何在海量日志數(shù)據(jù)中發(fā)現(xiàn)異常的行為。而且在復(fù)雜的分布式系統(tǒng)下,當(dāng)程序出現(xiàn)性能異常時(shí),如何快速有效的進(jìn)行異常檢測(cè)與診斷,進(jìn)而幫助開(kāi)發(fā)者優(yōu)化程序,已成為分布式系統(tǒng)領(lǐng)域的一個(gè)重要問(wèn)題。目前,絕大多數(shù)計(jì)算機(jī)系統(tǒng)(包括分布式系統(tǒng))都使用輸出日志的方式來(lái)幫助用戶檢測(cè)和診斷系統(tǒng)異常。日志通常是非結(jié)構(gòu)化的文本信息,主要記錄系統(tǒng)運(yùn)行過(guò)程中系統(tǒng)或任務(wù)的狀態(tài)和發(fā)生的事件,然而用戶需要借助自己積累的專業(yè)知識(shí)來(lái)從日志中分析出問(wèn)題所在,這通常費(fèi)時(shí)費(fèi)力。
對(duì)于這類問(wèn)題,最直接的想法是將其建模為一個(gè)二分類的數(shù)學(xué)問(wèn)題,即設(shè)計(jì)和訓(xùn)練一個(gè)分類器以區(qū)分“正常樣本”和“異常樣本”。雖然這種基于標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)和分類技術(shù)能夠發(fā)現(xiàn)異常樣本,但卻面臨著標(biāo)注數(shù)據(jù)量大,標(biāo)注成本高等一系列問(wèn)題。而傳統(tǒng)的異常檢測(cè)技術(shù)主要是通過(guò)對(duì)樣本特征值估計(jì)概率統(tǒng)計(jì)分布或者計(jì)算相似度距離來(lái)實(shí)現(xiàn)的。這些方法由于缺少標(biāo)注數(shù)據(jù)這類先驗(yàn)知識(shí),也往往面臨參數(shù)敏感和線性不可分等問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種異常檢測(cè)方法和相應(yīng)的一種異常檢測(cè)裝置。
依據(jù)本發(fā)明的一個(gè)方面,提供了一種異常檢測(cè)方法,所述方法包括:
獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù);
利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到;
判斷所述第一概率是否大于預(yù)設(shè)閾值;如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。
可選地,在所述利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率的步驟之前,還包括:
利用多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練所述分類模型。
可選地,所述利用多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練所述分類模型的步驟,包括:
利用多個(gè)已知分類結(jié)果的訪問(wèn)樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集和測(cè)試樣本集;其中各所訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果由預(yù)設(shè)的分類規(guī)則確定;
以所述訓(xùn)練樣本集中的各所述訓(xùn)練日志數(shù)據(jù)作為所述分類模型的輸入,以相應(yīng)訓(xùn)練日志數(shù)據(jù)的分類結(jié)果作為輸出,訓(xùn)練所述分類模型;
根據(jù)所述測(cè)試樣本集中的各所述訪問(wèn)樣本數(shù)據(jù)對(duì)訓(xùn)練后的分類模型進(jìn)行優(yōu)化處理,使所述分類模型的分類結(jié)果滿足預(yù)設(shè)條件。
可選地,所述利用多個(gè)已知分類結(jié)果的訪問(wèn)樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集和測(cè)試樣本集的步驟,包括:
根據(jù)預(yù)設(shè)的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù);
根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各所述訪問(wèn)樣本數(shù)據(jù)中篩選出第一個(gè)數(shù)的正常樣本數(shù)據(jù)以及第二個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集;
根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各所述訪問(wèn)樣本數(shù)據(jù)中篩選出第三個(gè)數(shù)的正常樣本數(shù)據(jù)以及第四個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建測(cè)試樣本集;所述測(cè)試樣本集中包含的訪問(wèn)樣本數(shù)據(jù)與所述訓(xùn)練樣本集中包含的訪問(wèn)樣本數(shù)據(jù)互不相同。
可選地,所述根據(jù)所述測(cè)試樣本集中的各所述訪問(wèn)樣本數(shù)據(jù)對(duì)訓(xùn)練后的分類模型進(jìn)行優(yōu)化處理,使所述分類模型的分類結(jié)果滿足預(yù)設(shè)條件的步驟,包括:
利用訓(xùn)練后的所述分類模型計(jì)算所述測(cè)試樣本集中各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果;
計(jì)算利用訓(xùn)練后的所述分類模型對(duì)所述測(cè)試樣本集中各所述訪問(wèn)樣本數(shù)據(jù)進(jìn)行分類的準(zhǔn)確率;
根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果篩選出分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù);
根據(jù)調(diào)整后的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù),然后進(jìn)入利用多個(gè)已知分類結(jié)果的訪問(wèn)樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集和測(cè)試樣本集;其中各所訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果由預(yù)設(shè)的分類規(guī)則確定的步驟,直至本次計(jì)算得到的準(zhǔn)確率與前一次計(jì)算得到的準(zhǔn)確率的差值小于預(yù)設(shè)差值;其中所述調(diào)整后的分類規(guī)則為根據(jù)所述分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)對(duì)所述分類規(guī)則調(diào)整后得到。
可選地,所述分類模型為邏輯斯特回歸模型。
根據(jù)本發(fā)明的另一方面,提供了一種異常檢測(cè)裝置,所述裝置包括:
目標(biāo)日志數(shù)據(jù)獲取模塊,用于獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù);
第一概率獲取模塊,用于利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到;
判斷模塊,用于判斷所述第一概率是否大于預(yù)設(shè)閾值;
異常確認(rèn)模塊,用于如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。
可選地,還包括:
分類模型訓(xùn)練模塊,用于利用多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練所述分類模型。
可選地,所述分類模型訓(xùn)練模塊,包括:
樣本集構(gòu)建子模塊,用于利用多個(gè)已知分類結(jié)果的訪問(wèn)樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集和測(cè)試樣本集;其中各所訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果由預(yù)設(shè)的分類規(guī)則確定;
分類模型訓(xùn)練子模塊,用于以所述訓(xùn)練樣本集中的各所述訓(xùn)練日志數(shù)據(jù)作為所述分類模型的輸入,以相應(yīng)訓(xùn)練日志數(shù)據(jù)的分類結(jié)果作為輸出,訓(xùn)練所述分類模型;
分類模型優(yōu)化子模塊,用于根據(jù)所述測(cè)試樣本集中的各所述訪問(wèn)樣本數(shù)據(jù)對(duì)訓(xùn)練后的分類模型進(jìn)行優(yōu)化處理,使所述分類模型的分類結(jié)果滿足預(yù)設(shè)條件。
可選地,所述樣本集構(gòu)建子模塊,包括:
訪問(wèn)樣本數(shù)據(jù)分類單元,用于根據(jù)預(yù)設(shè)的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù);
訓(xùn)練樣本集構(gòu)建單元,用于根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各所述訪問(wèn)樣本數(shù)據(jù)中篩選出第一個(gè)數(shù)的正常樣本數(shù)據(jù)以及第二個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集;
測(cè)試樣本集構(gòu)建單元,用于根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各所述訪問(wèn)樣本數(shù)據(jù)中篩選出第三個(gè)數(shù)的正常樣本數(shù)據(jù)以及第四個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建測(cè)試樣本集;所述測(cè)試樣本集中包含的訪問(wèn)樣本數(shù)據(jù)與所述訓(xùn)練樣本集中包含的訪問(wèn)樣本數(shù)據(jù)互不相同。
可選地,所述分類模型優(yōu)化子模塊,包括:
測(cè)試樣本集分類單元,用于利用訓(xùn)練后的所述分類模型計(jì)算所述測(cè)試樣本集中各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果;
準(zhǔn)確率計(jì)算單元,用于計(jì)算利用訓(xùn)練后的所述分類模型對(duì)所述測(cè)試樣本集中各所述訪問(wèn)樣本數(shù)據(jù)進(jìn)行分類的準(zhǔn)確率;
不達(dá)標(biāo)樣本數(shù)據(jù)篩選單元,用于根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果篩選出分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù);
樣本數(shù)據(jù)更新分類單元,用于根據(jù)調(diào)整后的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù),然后進(jìn)入樣本集構(gòu)建子模塊,直至本次計(jì)算得到的準(zhǔn)確率與前一次計(jì)算得到的準(zhǔn)確率的差值小于預(yù)設(shè)差值;其中,所述調(diào)整后的分類規(guī)則為根據(jù)所述分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)對(duì)所述分類規(guī)則調(diào)整后得到。
可選地,所述分類模型為邏輯斯特回歸模型。
根據(jù)本發(fā)明的一種異常檢測(cè)方法和裝置,可以獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù);利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到;判斷所述第一概率是否大于預(yù)設(shè)閾值;如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。由此解決了現(xiàn)有的異常檢測(cè)方法標(biāo)注數(shù)據(jù)量大,標(biāo)注成本高,參數(shù)敏感和線性不可分等問(wèn)題。取得了降低標(biāo)注數(shù)據(jù)量以及標(biāo)注成本,提高檢測(cè)性能的有益效果。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種異常檢測(cè)方法的步驟流程圖;
圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種異常檢測(cè)方法的步驟流程圖;
圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種異常檢測(cè)方法的步驟流程圖;
圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種異常檢測(cè)裝置的結(jié)構(gòu)示意圖;以及
圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種異常檢測(cè)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
實(shí)施例一
詳細(xì)介紹本發(fā)明實(shí)施例提供的一種異常檢測(cè)方法。
參照?qǐng)D1,示出了本發(fā)明實(shí)施例中一種異常檢測(cè)方法的步驟流程圖。
步驟110,獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù)。
簡(jiǎn)單地說(shuō),日志數(shù)據(jù)(logdata)的核心就是日志消息或者日志。日志消息就是計(jì)算機(jī)系統(tǒng)、設(shè)備、軟件等在某種刺激下反應(yīng)生成的東西。確切的刺激在很大程度上取決于日志消息的來(lái)源。例如,unix操作系統(tǒng)會(huì)記錄用戶登錄和注銷的消息,防火墻將記錄acl(accesscontrollist,訪問(wèn)控制列表)通過(guò)和拒絕的消息,磁盤(pán)存儲(chǔ)系統(tǒng)在故障發(fā)生或者在某些系統(tǒng)認(rèn)為將會(huì)發(fā)生故障的情況下生成日志信息。
日志數(shù)據(jù)就是一條日志消息的內(nèi)在含義。換句話說(shuō),日志數(shù)據(jù)就是一條日志消息里用來(lái)告訴你為什么生成日志消息的信息。例如,web服務(wù)器一般會(huì)在有人訪問(wèn)web(萬(wàn)維網(wǎng))頁(yè)面請(qǐng)求資源(圖片、文件等等)的時(shí)候記錄日志。如果用戶訪問(wèn)的頁(yè)面需要通過(guò)認(rèn)證,日志消息將會(huì)包含用戶名。這就是日志數(shù)據(jù)的一個(gè)例子:可以使用用戶名來(lái)判斷誰(shuí)訪問(wèn)過(guò)一個(gè)資源。
日志(log)這個(gè)術(shù)語(yǔ)實(shí)際上指的是用于展示某些事件全貌的日志消息的集合。
日志消息可以分成下面的幾種通用類型:
信息:這種類型的消息被設(shè)計(jì)成告訴用戶和管理員一些沒(méi)有風(fēng)險(xiǎn)的事情發(fā)生了。例如,cisco(思科)ios(internetworkoperatingsystem,互聯(lián)網(wǎng)操作系統(tǒng))將在系統(tǒng)重啟的時(shí)候生成消息。例如,如果重啟發(fā)生在非正常維護(hù)時(shí)間或是業(yè)務(wù)時(shí)間,就有發(fā)出警報(bào)的理由。
調(diào)試:軟件系統(tǒng)在應(yīng)用程序代碼運(yùn)行時(shí)生成調(diào)試信息,是為了給軟件開(kāi)發(fā)人員提供故障檢測(cè)和定位問(wèn)題的幫助。
警告:警告消息是在系統(tǒng)需要或者丟失東西,而又不影響操作系統(tǒng)的情況下生成的。例如,如果一個(gè)程序沒(méi)有獲得正確數(shù)量的命令行參數(shù),但是它也能在沒(méi)有這些參數(shù)的情況下運(yùn)行,這種情況下程序記錄日志可能只是為了警告用戶或者操作人員。
錯(cuò)誤:錯(cuò)誤日志消息是用來(lái)傳達(dá)在計(jì)算機(jī)系統(tǒng)中出現(xiàn)的各種級(jí)別的錯(cuò)誤。例如,操作系統(tǒng)在無(wú)法同步緩沖區(qū)到磁盤(pán)的時(shí)候會(huì)生成錯(cuò)誤信息。不幸的是,許多錯(cuò)誤消息只能給出為什么出錯(cuò)的起點(diǎn),要尋找出導(dǎo)致錯(cuò)誤發(fā)生的根本原因還需要進(jìn)一步的調(diào)查。
警報(bào):警報(bào)表明發(fā)生了一些有趣的事情。一般情況下,警報(bào)是屬于安全設(shè)備和安全相關(guān)系統(tǒng)領(lǐng)域的,但這并不是硬性的規(guī)定。在計(jì)算機(jī)網(wǎng)絡(luò)中可能會(huì)運(yùn)行一個(gè)入侵預(yù)防系統(tǒng)(ips,intrusionpreventionsystem),檢查所有入站的流量。它將根據(jù)數(shù)據(jù)包的內(nèi)容判斷是否允許其進(jìn)行網(wǎng)絡(luò)連接。如果ips檢測(cè)到了一個(gè)惡意連接,可能會(huì)采取任何預(yù)先配置的行動(dòng)。ips會(huì)記錄下檢測(cè)結(jié)果以及所采取的行動(dòng)。
如前述,在信息安全領(lǐng)域,一個(gè)很重要的問(wèn)題是如何在海量日志數(shù)據(jù)中發(fā)現(xiàn)異常的行為。日志數(shù)據(jù)可以表征用戶或者是互聯(lián)網(wǎng)在接收到請(qǐng)求時(shí)所執(zhí)行的一些行為操作,那么則可以通過(guò)檢測(cè)日志數(shù)據(jù)進(jìn)而檢測(cè)出異常行為。因此在本申請(qǐng)中,首先需要獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù)。在本申請(qǐng)中,可以利用任何可以方法或設(shè)備獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù),對(duì)此本申請(qǐng)不加以限定。
步驟120,利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到。
在本申請(qǐng)中,分類模型可以直接輸出目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;另外,分類模型的輸出值也可以為目標(biāo)日志數(shù)據(jù)屬于正常分類的第二概率,而在實(shí)際應(yīng)用中,目標(biāo)日志數(shù)據(jù)如果不是異常那么則為正常,因此在獲取了目標(biāo)日志數(shù)據(jù)屬于正常分類的第二概率之后,則可以計(jì)算1與第二概率的差值即為目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率。對(duì)此本申請(qǐng)不加以限定。
其中的分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到。例如,如果已知某一訪問(wèn)樣本數(shù)據(jù)a所屬分類為異常,那么可以確定該訪問(wèn)樣本數(shù)據(jù)屬于異常分類的概率為1,而如果已知某一訪問(wèn)樣本數(shù)據(jù)b所屬分類為正常,那么可以確定該訪問(wèn)樣本數(shù)據(jù)屬于異常分類的概率為0。那么在利用訪問(wèn)樣本數(shù)據(jù)a和訪問(wèn)樣本數(shù)據(jù)b訓(xùn)練分類模型時(shí),可以分別以訪問(wèn)樣本數(shù)據(jù)a和訪問(wèn)樣本數(shù)據(jù)b作為分類模型的輸入,相應(yīng)的分別以1和0作為分類模型的輸出以訓(xùn)練分類模型。那么如果以目標(biāo)日志數(shù)據(jù)作為分類模型的輸入,此時(shí)利用該分類模型獲取的結(jié)果為目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率。
而對(duì)于前述的訪問(wèn)樣本數(shù)據(jù)a,可以確定該訪問(wèn)樣本數(shù)據(jù)屬于正常分類的概率為0,而對(duì)于前述的訪問(wèn)樣本數(shù)據(jù)b,可以確定該訪問(wèn)樣本數(shù)據(jù)屬于正常分類的概率為1,那么在訓(xùn)練分類模型時(shí),也可以分別以訪問(wèn)樣本數(shù)據(jù)a和訪問(wèn)樣本數(shù)據(jù)b作為分類模型的輸入,相應(yīng)的分別以0和1作為分類模型的輸出以訓(xùn)練分類模型。那么如果以目標(biāo)日志數(shù)據(jù)作為分類模型的輸入,此時(shí)利用該分類模型獲取的結(jié)果為目標(biāo)日志數(shù)據(jù)屬于正常分類的第二概率。
步驟130,判斷所述第一概率是否大于預(yù)設(shè)閾值。
步驟140,如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。
如前述,如果根據(jù)分類模型獲取到目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率,那么很明顯第一概率越大,則說(shuō)明目標(biāo)日志數(shù)據(jù)屬于異常分類的可能性越高。因此在本申請(qǐng)中,可以預(yù)先設(shè)置一預(yù)設(shè)閾值,進(jìn)而判斷第一概率是否大于預(yù)設(shè)閾值,如果第一概率大于預(yù)設(shè)閾值,則可以確認(rèn)相應(yīng)的目標(biāo)日志數(shù)據(jù)異常;而如果第一概率不大于預(yù)設(shè)閾值,則可以確認(rèn)相應(yīng)的目標(biāo)日志數(shù)據(jù)無(wú)異常。其中的預(yù)設(shè)閾值可以根據(jù)需求在本步驟之前,或者是本步驟之前的任一步驟之前進(jìn)行設(shè)定,對(duì)此本申請(qǐng)不加以限定。例如可以設(shè)定預(yù)設(shè)閾值為0.5,那么如果第一概率大于0.5則說(shuō)明相應(yīng)的目標(biāo)日志數(shù)據(jù)為異常數(shù)據(jù)。
另外,在本申請(qǐng)中,如果分類模型的輸出結(jié)果為目標(biāo)日志數(shù)據(jù)屬于正常分類的第二概率,很明顯目標(biāo)日志數(shù)據(jù)屬于正常分類的第二概率越小,則說(shuō)明該目標(biāo)日志數(shù)據(jù)異常的可能性越高,那么也可以直接判斷第二概率是否小于等于第二預(yù)設(shè)閾值,如果第二概率小于等于第二預(yù)設(shè)閾值,則說(shuō)明該目標(biāo)日志數(shù)據(jù)為異常數(shù)據(jù)。其中的第二預(yù)設(shè)閾值可以為1與前述的預(yù)設(shè)閾值的差值。在本申請(qǐng)中,也可以根據(jù)需求在本步驟之前,或者是本步驟之前的任一步驟之前設(shè)定第二預(yù)設(shè)閾值的具體取值,對(duì)此本申請(qǐng)不加以限定。
在本申請(qǐng)實(shí)施例中,可以獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù);利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到;判斷所述第一概率是否大于預(yù)設(shè)閾值;如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。由此取得了降低標(biāo)注數(shù)據(jù)量以及標(biāo)注成本,提高檢測(cè)性能的有益效果。
實(shí)施例二
詳細(xì)介紹本發(fā)明實(shí)施例提供的一種異常檢測(cè)方法。
參照?qǐng)D2,示出了本發(fā)明實(shí)施例中一種異常檢測(cè)方法的步驟流程圖。
步驟210,獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù)。
步驟220,利用多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練所述分類模型。
在本申請(qǐng)中,在利用分類模型獲取目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率之前,需要對(duì)分類模型進(jìn)行訓(xùn)練。具體的可以利用多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練分類模型。
例如,可以直接分別依次以多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)作為分類模型的輸入,以相應(yīng)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果作為分類模型的輸出。其中訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果可以為相應(yīng)訪問(wèn)樣本數(shù)據(jù)屬于異常數(shù)據(jù)的概率。如前述,如前述,如果訪問(wèn)樣本數(shù)據(jù)為異常數(shù)據(jù),那么其屬于異常數(shù)據(jù)的概率為1,而如果訪問(wèn)樣本數(shù)據(jù)為正常數(shù)據(jù),那么其屬于異常數(shù)據(jù)的概率為0。
另外,為了保證訓(xùn)練后的分類模型的性能穩(wěn)定性,可以從多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)中篩選出同樣數(shù)量的異常樣本數(shù)據(jù)和正常樣本數(shù)據(jù),然后分別依次以篩選出的異常樣本數(shù)據(jù)和正常樣本數(shù)據(jù)作為分類模型的輸入,以相應(yīng)的異常樣本數(shù)據(jù)或正常樣本數(shù)據(jù)的分類結(jié)果作為分類模型的輸出,以訓(xùn)練該分類模型。
例如,從多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)中篩選出兩個(gè)異常樣本數(shù)據(jù)分別為訪問(wèn)樣本數(shù)據(jù)a和訪問(wèn)樣本數(shù)據(jù)b,兩個(gè)正常樣本數(shù)據(jù)分別為訪問(wèn)樣本數(shù)據(jù)c和訪問(wèn)樣本數(shù)據(jù)d。
那么在訓(xùn)練分類模型時(shí),可以分別以訪問(wèn)樣本數(shù)據(jù)a作為分類模型的輸入,以1作為分類模型的輸出;以訪問(wèn)樣本數(shù)據(jù)b作為分類模型的輸入,以1作為分類模型的輸出;以訪問(wèn)樣本數(shù)據(jù)c作為分類模型的輸入,以0作為分類模型的輸出;以訪問(wèn)樣本數(shù)據(jù)d作為分類模型的輸入,以0作為分類模型的輸出。
其中,在本申請(qǐng)中可以利用任何可用方法或設(shè)備確定用以訓(xùn)練分類模型的多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,對(duì)此本申請(qǐng)不加以限定。
其中的分類模型可以為邏輯斯特回歸(logisticregression,lr)模型、神經(jīng)網(wǎng)絡(luò)模型、模糊數(shù)學(xué)模型、最大熵模型、邏輯回歸、線性回歸、支持向量回歸、提升回歸樹(shù)等等模型,對(duì)此本申請(qǐng)不加以限定。
其中,邏輯斯特回歸模型是經(jīng)典的適用于二分類問(wèn)題的分類模型,因此可選地,在本申請(qǐng)實(shí)施例中,所述分類模型為邏輯斯特回歸模型。
步驟230,利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到。
步驟240,判斷所述第一概率是否大于預(yù)設(shè)閾值。
步驟250,如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。
在本申請(qǐng)實(shí)施例中,可以獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù);利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到;判斷所述第一概率是否大于預(yù)設(shè)閾值;如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。由此取得了降低標(biāo)注數(shù)據(jù)量以及標(biāo)注成本,提高檢測(cè)性能的有益效果。
而且在本申請(qǐng)中,在利用分類模型之前,可以先利用多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練分類模型,從而可以進(jìn)一步提高異常檢測(cè)的準(zhǔn)確率。
實(shí)施例三
詳細(xì)介紹本發(fā)明實(shí)施例提供的一種異常檢測(cè)方法。
參照?qǐng)D3,示出了本發(fā)明實(shí)施例中一種異常檢測(cè)方法的步驟流程圖。
步驟310,獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù)。
步驟320,利用多個(gè)已知分類結(jié)果的訪問(wèn)樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集和測(cè)試樣本集;其中各所訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果由預(yù)設(shè)的分類規(guī)則確定。
在本申請(qǐng)中,為了對(duì)分類模型進(jìn)行訓(xùn)練,可以利用多個(gè)已知分類結(jié)果的訪問(wèn)樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集和測(cè)試樣本集。其中的訓(xùn)練樣本集可以用于對(duì)分類模型進(jìn)行訓(xùn)練,測(cè)試樣本集可以用于對(duì)訓(xùn)練后的分類模型進(jìn)行性能測(cè)試。訓(xùn)練樣本集與測(cè)試樣本集中包含的訪問(wèn)樣本數(shù)據(jù)可以存在部分重合的部分,但是在實(shí)際應(yīng)用中,對(duì)于測(cè)試樣本集與訓(xùn)練樣本集重合的訪問(wèn)樣本數(shù)據(jù),對(duì)分類模型的作用是重復(fù)的,因此在本申請(qǐng)中優(yōu)選地可以設(shè)置訓(xùn)練樣本集與測(cè)試樣本集中包含的訪問(wèn)樣本數(shù)據(jù)互不重合。例如,對(duì)于已知分類結(jié)果的訪問(wèn)樣本數(shù)據(jù)a、b、c和d,可以利用訪問(wèn)樣本數(shù)據(jù)a和b構(gòu)建訓(xùn)練樣本集,利用訪問(wèn)樣本數(shù)據(jù)c和d構(gòu)建訓(xùn)練樣本集。
其中,各所訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果由預(yù)設(shè)的分類規(guī)則確定。其中的分類規(guī)則可以在本步驟之前,或者是本步驟之前的任一步驟根據(jù)需求進(jìn)行設(shè)定,對(duì)此本申請(qǐng)不加以限定。
在本申請(qǐng)中,可以預(yù)先設(shè)置一個(gè)規(guī)則引擎,相關(guān)業(yè)務(wù)專家可以在該規(guī)則引擎中制定分類規(guī)則,并且還可以在該規(guī)則引擎中增加、刪除、修改、啟用、關(guān)閉某些分類規(guī)則,等等。例如,相關(guān)業(yè)務(wù)專家可以通過(guò)在規(guī)則引擎的操作界面輸入不同的指令控制增加、刪除、修改、啟用、暫停某些分類規(guī)則等等。例如,相關(guān)業(yè)務(wù)專家可以通過(guò)將操作界面中的開(kāi)關(guān)控件從on切換至off,即將相應(yīng)的分類規(guī)則從啟用狀態(tài)切換至關(guān)閉狀態(tài)。當(dāng)然,在本申請(qǐng)中也可以利用任何可用方式設(shè)置并存儲(chǔ)分類規(guī)則,對(duì)此本申請(qǐng)不加以限定。
可選地,在本申請(qǐng)實(shí)施例中,所述步驟320進(jìn)一步可以包括:
子步驟321,根據(jù)預(yù)設(shè)的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù)。
具體的在確定了分類規(guī)則之后,則可以根據(jù)分類規(guī)則確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù)。
例如,預(yù)設(shè)的分類規(guī)則可以如下所示:
(1)過(guò)去一個(gè)小時(shí)同一用戶出現(xiàn)的次數(shù)大于10,則判斷為“異?!?;
(2)過(guò)去十分鐘同一個(gè)ip登錄的用戶數(shù)目大于5,則判斷為“異?!?;
(3)同一個(gè)用戶在不同設(shè)備登錄的數(shù)目大于5,則判斷為“異?!薄?/p>
那么如果某一訪問(wèn)樣本數(shù)據(jù)中記錄的日志數(shù)據(jù)滿足上述任意一條分類規(guī)則,則可以確定該訪問(wèn)樣本數(shù)據(jù)為異常樣本數(shù)據(jù),而如果某一訪問(wèn)樣本數(shù)據(jù)中記錄的日志數(shù)據(jù)不滿足上述全部的分類規(guī)則,則可以確定該訪問(wèn)樣本數(shù)據(jù)為正常樣本數(shù)據(jù)。
子步驟322,根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各所述訪問(wèn)樣本數(shù)據(jù)中篩選出第一個(gè)數(shù)的正常樣本數(shù)據(jù)以及第二個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集。
那么,為了構(gòu)建訓(xùn)練樣本集,則可以從訪問(wèn)樣本數(shù)據(jù)中篩選出部分構(gòu)建訓(xùn)練樣本數(shù)據(jù)。另外,為了保證訓(xùn)練樣本集中包含的訪問(wèn)樣本數(shù)據(jù)種類的完備性,以提高訓(xùn)練后的分類模型的準(zhǔn)確性,需要保證訓(xùn)練樣本集中既包含正常樣本數(shù)據(jù)又包含異常樣本數(shù)據(jù)。
因此,在本申請(qǐng)中在確定了各訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果之后,則可以根據(jù)各訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各訪問(wèn)樣本數(shù)據(jù)中篩選出第一個(gè)數(shù)的正常樣本數(shù)據(jù)以及第二個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集。其中第一個(gè)數(shù)以及第二個(gè)數(shù)的具體取值可以根據(jù)需求在本步驟之前,或者是本步驟之前的任一步驟之前進(jìn)行設(shè)定,對(duì)此本申請(qǐng)不加以限定。
可選地,在本申請(qǐng)實(shí)施例中,所述第一個(gè)數(shù)與所述第二個(gè)數(shù)相同。
當(dāng)然,為了盡可能提高訓(xùn)練效果,可以設(shè)置第一個(gè)數(shù)與第二個(gè)數(shù)相同,也即第一個(gè)數(shù)與第二個(gè)數(shù)的具體取值相同。
子步驟323,根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各所述訪問(wèn)樣本數(shù)據(jù)中篩選出第三個(gè)數(shù)的正常樣本數(shù)據(jù)以及第四個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建測(cè)試樣本集;所述測(cè)試樣本集中包含的訪問(wèn)樣本數(shù)據(jù)與所述訓(xùn)練樣本集中包含的訪問(wèn)樣本數(shù)據(jù)互不相同。
同樣的,可以根據(jù)各訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各訪問(wèn)樣本數(shù)據(jù)中篩選出第三個(gè)數(shù)的正常樣本數(shù)據(jù)以及第四個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建測(cè)試樣本集,而且為了避免重復(fù),測(cè)試樣本集中包含的訪問(wèn)樣本數(shù)據(jù)與訓(xùn)練樣本集中包含的訪問(wèn)樣本數(shù)據(jù)互不相同。其中的第三個(gè)數(shù)與第四個(gè)數(shù)也都可以根據(jù)需求在本步驟之前,或者是本步驟之前的任一步驟之前進(jìn)行設(shè)定,對(duì)此本申請(qǐng)不加以限定。
可選地,在本申請(qǐng)實(shí)施例中,所述第三個(gè)數(shù)與所述第四個(gè)數(shù)相同。
同樣,為了盡可能提高測(cè)試效果,可以設(shè)置第三個(gè)數(shù)與第四個(gè)數(shù)相同,也即第三個(gè)數(shù)與第四個(gè)數(shù)的具體取值相同。
例如,在根據(jù)預(yù)設(shè)的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù)之后,可以按照正常樣本數(shù)據(jù)與異常樣本數(shù)據(jù)的比值為1:1,從多個(gè)訪問(wèn)樣本數(shù)據(jù)中抽樣正常樣本數(shù)據(jù)和異常樣本數(shù)據(jù),并劃分訓(xùn)練集和測(cè)試集。一般來(lái)說(shuō),可以利用抽樣得到的正常樣本數(shù)據(jù)和異常樣本數(shù)據(jù)的70%構(gòu)建訓(xùn)練樣本集,利用抽樣得到的正常樣本數(shù)據(jù)和異常樣本數(shù)據(jù)的30%構(gòu)建測(cè)試樣本集。
步驟330,以所述訓(xùn)練樣本集中的各所述訓(xùn)練日志數(shù)據(jù)作為所述分類模型的輸入,以相應(yīng)訓(xùn)練日志數(shù)據(jù)的分類結(jié)果作為輸出,訓(xùn)練所述分類模型。
那么在利用訓(xùn)練樣本集訓(xùn)練分類模型時(shí),則可以依次以訓(xùn)練樣本集中的各訓(xùn)練日志數(shù)據(jù)作為分類模型的輸入,以相應(yīng)訓(xùn)練日志數(shù)據(jù)的分類結(jié)果作為輸出,訓(xùn)練該分類模型。
例如,假設(shè)訓(xùn)練樣本集中包含兩個(gè)訓(xùn)練日志數(shù)據(jù)a和b,其中a為異常樣本數(shù)據(jù),b為正常樣本數(shù)據(jù),那么a對(duì)應(yīng)的分類結(jié)果為其屬于異常分類的概率為1,b對(duì)應(yīng)的分類結(jié)果為其屬于異常分類的概率為0。
那么在利用訓(xùn)練樣本集訓(xùn)練分類模型時(shí),則可以a作為分類模型的輸入,同時(shí)以1作為分類模型的輸出;以b作為分類模型的輸入,同時(shí)以0作為分類模型的輸出。
而如果分類模型的輸出結(jié)果為訓(xùn)練日志數(shù)據(jù)屬于正常樣本數(shù)據(jù)的概率。那么a對(duì)應(yīng)的分類結(jié)果為其屬于正常分類的概率為0,b對(duì)應(yīng)的分類結(jié)果為其屬于正常分類的概率為1。那么此時(shí)在利用訓(xùn)練樣本集訓(xùn)練分類模型時(shí),則可以a作為分類模型的輸入,同時(shí)以0作為分類模型的輸出;以b作為分類模型的輸入,同時(shí)以1作為分類模型的輸出。
步驟340,根據(jù)所述測(cè)試樣本集中的各所述訪問(wèn)樣本數(shù)據(jù)對(duì)訓(xùn)練后的分類模型進(jìn)行優(yōu)化處理,使所述分類模型的分類結(jié)果滿足預(yù)設(shè)條件。
在分類模型被訓(xùn)練完成之后,為了保證分類模型的性能達(dá)到要求,需要利用測(cè)試樣本集對(duì)訓(xùn)練后的分類模型進(jìn)行性能測(cè)試以及優(yōu)化處理,使分類模型的分類結(jié)果滿足預(yù)設(shè)條件。
其中的預(yù)設(shè)條件可以為訓(xùn)練后的分類模型的準(zhǔn)確率達(dá)到預(yù)設(shè)閾值。那么,此時(shí)可以利用訓(xùn)練后的分類模型分別獲取訓(xùn)練樣本集中的各訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,然后基于利用預(yù)設(shè)的分類規(guī)則確定的訓(xùn)練樣本集中的各訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,計(jì)算訓(xùn)練后的分類模型的準(zhǔn)確率。進(jìn)而比較計(jì)算的準(zhǔn)確率是否滿足預(yù)設(shè)條件,如果不滿足則可以繼續(xù)對(duì)該分類模型進(jìn)行訓(xùn)練。例如,利用測(cè)試樣本集繼續(xù)對(duì)分類模型進(jìn)行訓(xùn)練,或者是調(diào)整分類規(guī)則后,重新對(duì)各訓(xùn)練日志數(shù)據(jù)進(jìn)行分類,然后利用重新分類后的訓(xùn)練日志數(shù)據(jù)繼續(xù)訓(xùn)練分類模型;等等。對(duì)此本申請(qǐng)不加以限定。其中的預(yù)設(shè)條件可以根據(jù)需求在本步驟之前,或者是本步驟之前的任一步驟之前進(jìn)行設(shè)定,對(duì)此本申請(qǐng)不加以限定。
可選地,在本申請(qǐng)實(shí)施例中,所述步驟340進(jìn)一步可以包括:
子步驟341,利用訓(xùn)練后的所述分類模型計(jì)算所述測(cè)試樣本集中各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果。
具體的可以分別依次以測(cè)試樣本集中各訪問(wèn)樣本數(shù)據(jù)作為訓(xùn)練后的分類模型的輸入,那么分類模型的輸出即為相應(yīng)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果。
子步驟342,計(jì)算利用訓(xùn)練后的所述分類模型對(duì)所述測(cè)試樣本集中各所述訪問(wèn)樣本數(shù)據(jù)進(jìn)行分類的準(zhǔn)確率。
例如,如果測(cè)試樣本集中包含4個(gè)訪問(wèn)樣本數(shù)據(jù)分別為l、m、n和j,其中l(wèi)、m為正常樣本數(shù)據(jù),n和j為異常樣本數(shù)據(jù),假設(shè)判定屬于異常數(shù)據(jù)的預(yù)設(shè)閾值為0.5。假設(shè)訓(xùn)練后的分類模型的輸出結(jié)果為訪問(wèn)樣本數(shù)據(jù)屬于異常樣本數(shù)據(jù)的概率,也即屬于異常分類的第一概率。
如果利用訓(xùn)練后的分類模型對(duì)測(cè)試樣本集中的4個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果分別為:l為0.6、m為0.4、n為0.8、j為0.9??梢钥闯銎渲衛(wèi)、n和j屬于異常分類的第一概率大于預(yù)設(shè)閾值,那么則可以確定利用分類模型獲取的分類結(jié)果為l、n和j為異常分類,m為正常分類。那么其中m,n和j的分類結(jié)果與利用分類規(guī)則確定的分類結(jié)果一致。也即此時(shí)分類模型的準(zhǔn)確率為3/4,即0.75。
子步驟343,根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果篩選出分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)。
在本申請(qǐng)中,可以通過(guò)以公式表示的策略進(jìn)行迭代選取分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)。其中,m為訪問(wèn)樣本數(shù)據(jù)的類別,這里取m=1或2,其中1可以表示異常分類,那么2則表示正常分類;而如果1表示正常分類,2則表示異常分類。du表示測(cè)試樣本集,p(yi=m|xi)為分類模型給出的測(cè)試樣本集中的第xi個(gè)訪問(wèn)樣本數(shù)據(jù)屬于第m類別的概率。通過(guò)該準(zhǔn)則,可以依次選取到目前為止最難區(qū)分的訪問(wèn)樣本數(shù)據(jù),并反饋給相關(guān)的業(yè)務(wù)專家。在本申請(qǐng)中,可以通過(guò)前述的規(guī)則引擎將篩選出的分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)返回至相關(guān)的業(yè)務(wù)專家,例如可以直接在前述的規(guī)則引擎頁(yè)面中展示篩選出的分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù),等等。
子步驟344,根據(jù)調(diào)整后的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù),然后進(jìn)入步驟320;其中各所訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果由預(yù)設(shè)的分類規(guī)則確定的步驟,直至本次計(jì)算得到的準(zhǔn)確率與前一次計(jì)算得到的準(zhǔn)確率的差值小于預(yù)設(shè)差值;所述調(diào)整后的分類規(guī)則為根據(jù)所述分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)對(duì)所述分類規(guī)則調(diào)整后得到。
那么相關(guān)的業(yè)務(wù)專家則可以得到的分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)制定新的分類規(guī)則,或者是修改調(diào)整現(xiàn)有的分類規(guī)則,或者是刪除現(xiàn)有的分類規(guī)則,等等。具體的也可以在前述的規(guī)則引擎中對(duì)分類規(guī)則進(jìn)行調(diào)整。
此時(shí)的預(yù)設(shè)條件可以為連續(xù)兩次迭代獲得的分類模型的準(zhǔn)確率的差值小于一個(gè)預(yù)設(shè)差值。那么此時(shí)則可以繼續(xù)根據(jù)調(diào)整后的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù)。其中調(diào)整后的分類規(guī)則為相關(guān)的業(yè)務(wù)專家根據(jù)當(dāng)前獲取到的分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)對(duì)前一次使用的分類規(guī)則調(diào)整后得到。然后繼續(xù)依次執(zhí)行前述的步驟320至步驟340直至分類模型的分類結(jié)果滿足預(yù)設(shè)條件,也即本次計(jì)算得到的準(zhǔn)確率與前一次計(jì)算得到的準(zhǔn)確率的差值小于預(yù)設(shè)差值。其中的預(yù)設(shè)差值可以根據(jù)需求在本步驟之前,或者是在本步驟之前的任一步驟之前進(jìn)行設(shè)定,對(duì)此本申請(qǐng)不加以限定。
步驟350,利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到。
步驟360,判斷所述第一概率是否大于預(yù)設(shè)閾值。
步驟370,如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。
在本申請(qǐng)實(shí)施例中,可以獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù);利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到;判斷所述第一概率是否大于預(yù)設(shè)閾值;如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。由此取得了降低標(biāo)注數(shù)據(jù)量以及標(biāo)注成本,提高檢測(cè)性能的有益效果。
而且在本申請(qǐng)中,在利用分類模型之前,可以先利用多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練分類模型,從而可以進(jìn)一步提高異常檢測(cè)的準(zhǔn)確率。
另外,在本申請(qǐng)中,可以通過(guò)規(guī)則引擎提供業(yè)務(wù)專家的人工標(biāo)注,這樣帶來(lái)的收益是業(yè)務(wù)專家可以快速對(duì)樣本進(jìn)行分類,便于后續(xù)的迭代調(diào)整。并且采用迭代的主動(dòng)學(xué)習(xí)方式完成少量樣本的監(jiān)督學(xué)習(xí),這樣帶來(lái)的收益是大大降低了有監(jiān)督學(xué)習(xí)對(duì)標(biāo)注數(shù)據(jù)量的要求,節(jié)省了大量人力物力,同時(shí)還能獲得優(yōu)于無(wú)監(jiān)督異常檢測(cè)的性能。
對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
實(shí)施例四
詳細(xì)介紹本發(fā)明實(shí)施例提供的一種異常檢測(cè)裝置。
參照?qǐng)D4,示出了本發(fā)明實(shí)施例中一種異常檢測(cè)裝置的結(jié)構(gòu)示意圖。
目標(biāo)日志數(shù)據(jù)獲取模塊410,用于獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù)。
第一概率獲取模塊420,用于利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到。
判斷模塊430,用于判斷所述第一概率是否大于預(yù)設(shè)閾值。
異常確認(rèn)模塊440,用于如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。
在本申請(qǐng)實(shí)施例中,可以獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù);利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到;判斷所述第一概率是否大于預(yù)設(shè)閾值;如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。由此取得了降低標(biāo)注數(shù)據(jù)量以及標(biāo)注成本,提高檢測(cè)性能的有益效果。
實(shí)施例五
詳細(xì)介紹本發(fā)明實(shí)施例提供的一種異常檢測(cè)裝置。
參照?qǐng)D5,示出了本發(fā)明實(shí)施例中一種異常檢測(cè)裝置的結(jié)構(gòu)示意圖。
目標(biāo)日志數(shù)據(jù)獲取模塊510,用于獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù)。
分類模型訓(xùn)練模塊520,用于利用多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練所述分類模型。
可選地,在本申請(qǐng)實(shí)施例中,所述分類模型訓(xùn)練模塊520進(jìn)一步可以包括:
樣本集構(gòu)建子模塊521,用于利用多個(gè)已知分類結(jié)果的訪問(wèn)樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集和測(cè)試樣本集;其中各所訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果由預(yù)設(shè)的分類規(guī)則確定。
可選地,在本申請(qǐng)實(shí)施例中,所述樣本集構(gòu)建子模塊521進(jìn)一步可以包括:
訪問(wèn)樣本數(shù)據(jù)分類單元,用于根據(jù)預(yù)設(shè)的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù)。
訓(xùn)練樣本集構(gòu)建單元,用于根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各所述訪問(wèn)樣本數(shù)據(jù)中篩選出第一個(gè)數(shù)的正常樣本數(shù)據(jù)以及第二個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本集。
測(cè)試樣本集構(gòu)建單元,用于根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果,從各所述訪問(wèn)樣本數(shù)據(jù)中篩選出第三個(gè)數(shù)的正常樣本數(shù)據(jù)以及第四個(gè)數(shù)的異常樣本數(shù)據(jù)構(gòu)建測(cè)試樣本集;所述測(cè)試樣本集中包含的訪問(wèn)樣本數(shù)據(jù)與所述訓(xùn)練樣本集中包含的訪問(wèn)樣本數(shù)據(jù)互不相同。
分類模型訓(xùn)練子模塊522,用于以所述訓(xùn)練樣本集中的各所述訓(xùn)練日志數(shù)據(jù)作為所述分類模型的輸入,以相應(yīng)訓(xùn)練日志數(shù)據(jù)的分類結(jié)果作為輸出,訓(xùn)練所述分類模型。
分類模型優(yōu)化子模塊523,用于根據(jù)所述測(cè)試樣本集中的各所述訪問(wèn)樣本數(shù)據(jù)對(duì)訓(xùn)練后的分類模型進(jìn)行優(yōu)化處理,使所述分類模型的分類結(jié)果滿足預(yù)設(shè)條件。
可選地,在本申請(qǐng)實(shí)施例中,所述分類模型優(yōu)化子模塊523,進(jìn)一步可以包括:
測(cè)試樣本集分類單元,用于利用訓(xùn)練后的所述分類模型計(jì)算所述測(cè)試樣本集中各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果。
準(zhǔn)確率計(jì)算單元,用于計(jì)算利用訓(xùn)練后的所述分類模型對(duì)所述測(cè)試樣本集中各所述訪問(wèn)樣本數(shù)據(jù)進(jìn)行分類的準(zhǔn)確率。
不達(dá)標(biāo)樣本數(shù)據(jù)篩選單元,用于根據(jù)各所述訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果篩選出分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)。
樣本數(shù)據(jù)更新分類單元,用于根據(jù)調(diào)整后的分類規(guī)則,確定多個(gè)訪問(wèn)樣本數(shù)據(jù)的分類結(jié)果為正常樣本數(shù)據(jù)還是異常樣本數(shù)據(jù),然后進(jìn)入樣本集構(gòu)建子模塊521,直至本次計(jì)算得到的準(zhǔn)確率與前一次計(jì)算得到的準(zhǔn)確率的差值小于預(yù)設(shè)差值;其中,所述調(diào)整后的分類規(guī)則為根據(jù)所述分類結(jié)果不達(dá)標(biāo)的訪問(wèn)樣本數(shù)據(jù)對(duì)所述分類規(guī)則調(diào)整后得到。
第一概率獲取模塊530,用于利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到。
判斷模塊540,用于判斷所述第一概率是否大于預(yù)設(shè)閾值。
異常確認(rèn)模塊550,用于如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。
在本申請(qǐng)實(shí)施例中,可以獲取待檢測(cè)的目標(biāo)日志數(shù)據(jù);利用預(yù)設(shè)的分類模型獲取所述目標(biāo)日志數(shù)據(jù)屬于異常分類的第一概率;所述分類模型由多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練得到;判斷所述第一概率是否大于預(yù)設(shè)閾值;如果所述第一概率大于預(yù)設(shè)閾值,則確認(rèn)所述目標(biāo)日志數(shù)據(jù)異常。由此取得了降低標(biāo)注數(shù)據(jù)量以及標(biāo)注成本,提高檢測(cè)性能的有益效果。
而且在本申請(qǐng)中,在利用分類模型之前,可以先利用多個(gè)已確定所屬分類的訪問(wèn)樣本數(shù)據(jù)訓(xùn)練分類模型,從而可以進(jìn)一步提高異常檢測(cè)的準(zhǔn)確率。
另外,在本申請(qǐng)中,可以通過(guò)規(guī)則引擎提供業(yè)務(wù)專家的人工標(biāo)注,這樣帶來(lái)的收益是業(yè)務(wù)專家可以快速對(duì)樣本進(jìn)行分類,便于后續(xù)的迭代調(diào)整。并且采用迭代的主動(dòng)學(xué)習(xí)方式完成少量樣本的監(jiān)督學(xué)習(xí),這樣帶來(lái)的收益是大大降低了有監(jiān)督學(xué)習(xí)對(duì)標(biāo)注數(shù)據(jù)量的要求,節(jié)省了大量人力物力,同時(shí)還能獲得優(yōu)于無(wú)監(jiān)督異常檢測(cè)的性能。
對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。
類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書(shū)由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(dsp)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的異常檢測(cè)設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。