一種異常檢測訓(xùn)練集的構(gòu)建方法及裝置制造方法
【專利摘要】本申請公開了一種異常檢測訓(xùn)練集構(gòu)建方法及裝置,該方法將獲取到的樣本數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,依據(jù)接收到的各個當(dāng)前標(biāo)注指令,在當(dāng)前數(shù)據(jù)集合中獲取已標(biāo)注數(shù)據(jù),將已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合,判斷異常點(diǎn)數(shù)據(jù)的個數(shù)是否達(dá)到預(yù)設(shè)數(shù)值,若是,依據(jù)已標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)生成訓(xùn)練集,若否,依據(jù)第一數(shù)據(jù)集合計算未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,依據(jù)異常點(diǎn)概率對所述未標(biāo)注數(shù)據(jù)進(jìn)行排序,并確定為當(dāng)前數(shù)據(jù)集合,返回執(zhí)行獲取各個當(dāng)前標(biāo)注指令。與現(xiàn)有技術(shù)單次計算異常點(diǎn)概率相比,本方法利用已標(biāo)注數(shù)據(jù)對未標(biāo)注數(shù)據(jù)重新計算異常點(diǎn)概率,依據(jù)異常點(diǎn)概率排序后異常點(diǎn)排序前移,可減少標(biāo)注次數(shù),提高訓(xùn)練集構(gòu)建效率。
【專利說明】一種異常檢測訓(xùn)練集的構(gòu)建方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及異常檢測【技術(shù)領(lǐng)域】,尤其是一種異常檢測訓(xùn)練集的構(gòu)建方法及裝置。【背景技術(shù)】
[0002]異常檢測,是對某個事務(wù)活動中產(chǎn)生的大量數(shù)據(jù)進(jìn)行檢測以確定其中的異常數(shù)據(jù),所述異常數(shù)據(jù)被稱為異常點(diǎn)。異常點(diǎn)具有不符合正常數(shù)據(jù)的分布特征或表現(xiàn)模式,通過分析異常點(diǎn)可以獲知事務(wù)活動的安全狀態(tài),例如:信貸事務(wù)中的異常點(diǎn)可能代表一項信貸欺詐,網(wǎng)絡(luò)通信中的異常點(diǎn)可能代表黑客對電腦的攻擊。異常檢測的主要方式是,利用預(yù)先構(gòu)建的訓(xùn)練集,使用異常檢測算法對所述大量數(shù)據(jù)進(jìn)行檢測。因此,訓(xùn)練集是所述異常檢測方式的基礎(chǔ)。
[0003]發(fā)明人通過研究發(fā)現(xiàn),現(xiàn)有的訓(xùn)練集構(gòu)建方式為:獲得多個樣本數(shù)據(jù),所述各個樣本數(shù)據(jù)可能為異常點(diǎn),也可能為正常點(diǎn),利用現(xiàn)有檢測算法如無監(jiān)督異常點(diǎn)檢測算法計算各個樣本數(shù)據(jù)是異常點(diǎn)的概率,依據(jù)所述概率的大小,對所述各個樣本數(shù)據(jù)進(jìn)行排序后生成樣本數(shù)據(jù)集合。依次獲取所述樣本數(shù)據(jù)集合中的樣本數(shù)據(jù),人工標(biāo)注所述各個樣本數(shù)據(jù)是正常點(diǎn)或異常點(diǎn),當(dāng)標(biāo)注的樣本數(shù)據(jù)中異常點(diǎn)達(dá)到預(yù)設(shè)的數(shù)量時,停止所述構(gòu)建過程。
[0004]所述構(gòu)建方式中單次計算樣本數(shù)據(jù)的異常點(diǎn)概率,計算的異常點(diǎn)概率正確率較低,對樣本數(shù)據(jù)進(jìn)行標(biāo)注的次數(shù)較多,導(dǎo)致訓(xùn)練集的構(gòu)建效率較低。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本申請?zhí)峁┝艘环N異常檢測訓(xùn)練集的構(gòu)建方法及裝置,以解決現(xiàn)有構(gòu)建方式中單次計算樣本數(shù)據(jù)的異常點(diǎn)概率,計算的異常點(diǎn)概率正確率較低,對樣本數(shù)據(jù)進(jìn)行標(biāo)注的次數(shù)較多,導(dǎo)致訓(xùn)練集的構(gòu)建效率較低的問題。本申請的技術(shù)方案如下:
[0006]一種異常檢測訓(xùn)練集的構(gòu)建方法,包括:
[0007]獲取樣本數(shù)據(jù)集合,并將所述獲取到的樣本數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合;
[0008]獲取各個當(dāng)前標(biāo)注指令;
[0009]依據(jù)獲取到的所述各個當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個當(dāng)前標(biāo)注指令相對應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù);
[0010]判斷所述第一數(shù)據(jù)集合中異常點(diǎn)數(shù)據(jù)的個數(shù)是否達(dá)到預(yù)設(shè)數(shù)值;
[0011]若是,依據(jù)所述第一數(shù)據(jù)集合中的已標(biāo)記數(shù)據(jù)和所述第二數(shù)據(jù)集合中的未標(biāo)記數(shù)據(jù),生成訓(xùn)練集;
[0012]若否,依據(jù)所述第一數(shù)據(jù)集合,計算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,依據(jù)所述異常點(diǎn)概率,對所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)進(jìn)行排序,將排序后的第二數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,返回執(zhí)行所述獲取各個當(dāng)前標(biāo)注指令。
[0013]優(yōu)選的,所述依據(jù)獲取到的所述各個當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個當(dāng)前標(biāo)注指令相對應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合,包括:
[0014]解析獲取到的所述各個標(biāo)注指令,獲得與所述各個標(biāo)注指令相對應(yīng)的標(biāo)注;
[0015]依據(jù)標(biāo)注指令與數(shù)據(jù)間的對應(yīng)關(guān)系,為所述各個數(shù)據(jù)添加相對應(yīng)的標(biāo)注;其中,所述各個數(shù)據(jù)是在所述當(dāng)前數(shù)據(jù)集合中獲取的;
[0016]將所述各個添加標(biāo)注的數(shù)據(jù)確定為已標(biāo)注數(shù)據(jù),并將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù);
[0017]將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合。
[0018]優(yōu)選的,正常點(diǎn)的標(biāo)注為1,異常點(diǎn)的標(biāo)注為0,則:
[0019]所述依據(jù)所述第一數(shù)據(jù)集合,計算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,包括:
[0020]將所述樣本數(shù)據(jù)集合表示為X=U1, X2,...xn},將第一數(shù)據(jù)集合表示為L= {χ1; X2,...X1I,將第二數(shù)據(jù)集合表示為 U= {x1+1, x1+2,...xn};
[0021]依據(jù)所述第一數(shù)據(jù)集合中各個數(shù)據(jù)的標(biāo)注生成標(biāo)注集合F= Iu1, u2,...uj ;其中,所述ui為I或O ;
[0022]依據(jù)所述第一數(shù)據(jù)集合、所述第二數(shù)據(jù)集合及所述標(biāo)注集合,利用公
式
【權(quán)利要求】
1.一種異常檢測訓(xùn)練集的構(gòu)建方法,其特征在于,包括: 獲取樣本數(shù)據(jù)集合,并將所述獲取到的樣本數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合; 獲取各個當(dāng)前標(biāo)注指令; 依據(jù)獲取到的所述各個當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個當(dāng)前標(biāo)注指令相對應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù); 判斷所述第一數(shù)據(jù)集合中異常點(diǎn)數(shù)據(jù)的個數(shù)是否達(dá)到預(yù)設(shè)數(shù)值; 若是,依據(jù)所述第一數(shù)據(jù)集合中的已標(biāo)記數(shù)據(jù)和所述第二數(shù)據(jù)集合中的未標(biāo)記數(shù)據(jù),生成訓(xùn)練集; 若否,依據(jù)所述第一數(shù)據(jù)集合,計算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,依據(jù)所述異常點(diǎn)概率,對所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)進(jìn)行排序,將排序后的第二數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,返回執(zhí)行所述獲取各個當(dāng)前標(biāo)注指令。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)獲取到的所述各個當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個當(dāng)前標(biāo)注指令相對應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合,包括: 解析獲取到的所述各個標(biāo)注指令,獲得與所述各個標(biāo)注指令相對應(yīng)的標(biāo)注; 依據(jù)標(biāo)注指令與數(shù)據(jù)間的對應(yīng)關(guān)系,為所述各個數(shù)據(jù)添加相對應(yīng)的標(biāo)注;其中,所述各個數(shù)據(jù)是在所述當(dāng)前數(shù)據(jù)集合中獲取的; 將所述各個添加標(biāo)注的數(shù)據(jù)確定為已標(biāo)注數(shù)據(jù),并將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù); 將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,正常點(diǎn)的標(biāo)注為1,異常點(diǎn)的標(biāo)注為O,則: 所述依據(jù)所述第一數(shù)據(jù)集合,計算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,包括: 將所述樣本數(shù)據(jù)集合表示為X=U1, χ2,...χη},將第一數(shù)據(jù)集合表示為L= {χ1; X2,...X1I,將第二數(shù)據(jù)集合表示為 U= {x1+1, x1+2,...xn}; 依據(jù)所述第一數(shù)據(jù)集合中各個數(shù)據(jù)的標(biāo)注生成標(biāo)注集合F=Iu1, U2,...uj ;其中,所述Ui為I或O ; 依據(jù)所述第一數(shù)據(jù)集合、所述第二數(shù)據(jù)集合及所述標(biāo)注集合,利用公式
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)所述當(dāng)前標(biāo)注指令為多個時,則所述獲取各個當(dāng)前標(biāo)注指令,包括: 在所述當(dāng)前數(shù)據(jù)集合中獲取多個概率大于等于預(yù)設(shè)閾值的數(shù)據(jù),生成備選數(shù)據(jù)集合;依據(jù)所述備選數(shù)據(jù)集合及預(yù)設(shè)值,利用聚類算法,在所述備選數(shù)據(jù)集合中獲取K個數(shù)據(jù);其中,所述預(yù)設(shè)值為大于I的整數(shù),所述K值與所述預(yù)設(shè)值相同; 將所述K個數(shù)據(jù)作為待標(biāo)注數(shù)據(jù); 依據(jù)所述待標(biāo)注數(shù)據(jù),獲取當(dāng)前標(biāo)注指令。
5.一種異常檢測訓(xùn)練集的構(gòu)建裝置,其特征在于,包括: 當(dāng)前數(shù)據(jù)集合確定單元,用于獲取樣本數(shù)據(jù)集合,并將所述獲取到的樣本數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合; 當(dāng)前標(biāo)注指令獲取單元,用于獲取各個當(dāng)前標(biāo)注指令; 數(shù)據(jù)集合區(qū)分單元,用于依據(jù)獲取到的所述各個當(dāng)前標(biāo)注指令,在所述當(dāng)前數(shù)據(jù)集合中獲取與所述各個當(dāng)前標(biāo)注指令相對應(yīng)的已標(biāo)注數(shù)據(jù),將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合,將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù); 判斷單元,用于判斷所述第一數(shù)據(jù)集合中異常點(diǎn)數(shù)據(jù)的個數(shù)是否達(dá)到預(yù)設(shè)數(shù)值,如果是,觸發(fā)第一判斷結(jié)果單元,否則,觸發(fā)第二判斷結(jié)果單元; 第一判斷結(jié)果單元,用于依據(jù)所述第一數(shù)據(jù)集合中的已標(biāo)記數(shù)據(jù)和所述第二數(shù)據(jù)集合中的未標(biāo)記數(shù)據(jù),生成訓(xùn)練集; 第二判斷結(jié)果單元,用于依據(jù)所述第一數(shù)據(jù)集合,計算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率,依據(jù)所述異常點(diǎn)概率,對所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)進(jìn)行排序,將排序后的第二數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,觸發(fā)所述當(dāng)前標(biāo)注指令獲取單元。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述數(shù)據(jù)集合區(qū)分單元包括: 解析子單元,用于解析獲取到的所述各個標(biāo)注指令,獲得與所述各個標(biāo)注指令相對應(yīng)的標(biāo)注; 標(biāo)注子單元,用于依據(jù)標(biāo)注指令與數(shù)據(jù)間的對應(yīng)關(guān)系,為所述各個數(shù)據(jù)添加相對應(yīng)的標(biāo)注;其中,所述各個數(shù)據(jù)是在所述當(dāng)前數(shù)據(jù)集合中獲取的; 加入子單元,用于將所述各個添加標(biāo)注的數(shù)據(jù)確定為已標(biāo)注數(shù)據(jù),并將所述已標(biāo)注數(shù)據(jù)加入第一數(shù)據(jù)集合;其中,所述已標(biāo)注數(shù)據(jù)包括正常點(diǎn)數(shù)據(jù)或異常點(diǎn)數(shù)據(jù); 組成子單元,用于將所述當(dāng)前數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)組成第二數(shù)據(jù)集合。
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述第二判斷結(jié)果單元包括: 計算單元,用于依據(jù)所述第一數(shù)據(jù)集合,計算所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)的異常點(diǎn)概率;排序單元,用于依據(jù)所述異常點(diǎn)概率,對所述第二數(shù)據(jù)集合中的未標(biāo)注數(shù)據(jù)進(jìn)行排序; 確定單元,用于將排序后的第二數(shù)據(jù)集合確定為當(dāng)前數(shù)據(jù)集合,觸發(fā)所述當(dāng)前標(biāo)注指令獲取單元執(zhí)行所述獲取各個當(dāng)前標(biāo)注指令。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,正常點(diǎn)的標(biāo)注為1,異常點(diǎn)的標(biāo)注為O,則所述計算單元包括: 集合表示子單元,用于將所述樣本數(shù)據(jù)集合表示為
9.根據(jù)權(quán)利要求5所述的裝置,其特征在于,當(dāng)所述當(dāng)前標(biāo)注指令獲取單元獲取的所述當(dāng)前標(biāo)注指令為多個時,所述當(dāng)前標(biāo)注指令獲取單元包括: 備選數(shù)據(jù)集合生成子單元,用于在所述當(dāng)前數(shù)據(jù)集合中獲取多個概率大于等于預(yù)設(shè)閾值的數(shù)據(jù),生成備選數(shù)據(jù)集合; 多個數(shù)據(jù)獲取子單元,用于依據(jù)所述備選數(shù)據(jù)集合及預(yù)設(shè)值,利用聚類算法,在所述備選數(shù)據(jù)集合中獲取K個數(shù)據(jù);其中,所述預(yù)設(shè)值為大于I的整數(shù),所述K值與所述預(yù)設(shè)值相同; 待標(biāo)注數(shù)據(jù)生成子單元,用于將所述K個數(shù)據(jù)作為待標(biāo)注數(shù)據(jù); 當(dāng)前標(biāo)注指令獲取子單元,用于依據(jù)所述待標(biāo)注數(shù)據(jù),獲取當(dāng)前標(biāo)注指令。
【文檔編號】G06F19/00GK103559420SQ201310589362
【公開日】2014年2月5日 申請日期:2013年11月20日 優(yōu)先權(quán)日:2013年11月20日
【發(fā)明者】趙朋朋, 周徐, 吳健, 辛潔, 鮮學(xué)豐, 崔志明 申請人:蘇州大學(xué)