一種基于知識熵的異常數(shù)據(jù)檢測方法

文檔序號：6634413閱讀：304來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于知識熵的異常數(shù)據(jù)檢測方法
【專利摘要】一種基于知識熵的異常數(shù)據(jù)檢測方法，其特征在于包括如下步驟：1)樣本集合的屬性分析階段：收集應(yīng)用程序生成的數(shù)據(jù)樣本集合U及其對應(yīng)的屬性集合A；對數(shù)據(jù)樣本集U中的屬性值進(jìn)行規(guī)范化預(yù)處理；基于屬性全集A對數(shù)據(jù)樣本集U的作聚類處理，并計(jì)算A的知識熵；分別計(jì)算各個(gè)屬性的重要度，據(jù)此構(gòu)造屬性集合的序列；結(jié)束。2)樣本集合的數(shù)據(jù)樣本檢測階段：計(jì)算每個(gè)數(shù)據(jù)樣本的異常因子；根據(jù)異常因子輸出異常數(shù)據(jù)集合；結(jié)束。本發(fā)明在利用聚類效果的同時(shí)避免聚類的不確定性，可以有效地保證異常數(shù)據(jù)的檢測準(zhǔn)確率。
【專利說明】一種基于知識熵的異常數(shù)據(jù)檢測方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及異常數(shù)據(jù)檢測方法，尤其是在計(jì)算機(jī)信息系統(tǒng)生成的大量數(shù)據(jù)集的基礎(chǔ)之上探索數(shù)據(jù)中異常信息的方法，更具體的涉及基于聚類和知識熵的異常數(shù)據(jù)檢測方法。

【背景技術(shù)】
[0002] 異常數(shù)據(jù)檢測也稱離群點(diǎn)檢測和例外挖掘，常見的異常成因是數(shù)據(jù)來源于不同的類（如欺詐、入侵等）、數(shù)據(jù)變量自然變異（如基因突變，顧客新的購買模式等）、以及數(shù)據(jù) 測量或收集誤差。由于離群點(diǎn)可以發(fā)現(xiàn)與眾不同的新信息，所以廣泛應(yīng)用于入侵檢測、欺詐檢測、公共衛(wèi)生、電商平臺中顧客購買行為分析等眾多領(lǐng)域。
[0003] 異常數(shù)據(jù)檢測的方法主要包括以下幾種：（1)基于統(tǒng)計(jì)的技術(shù)：首先建立一個(gè)數(shù) 據(jù)模型，異常是那些同模型不能完美擬合的對象；如果模型是簇的集合，則異常是不顯著屬于任何簇的對象；在使用回歸模型時(shí)，異常是相對遠(yuǎn)離預(yù)測值的對象。（2)基于鄰近度的技術(shù)：通?？梢栽趯ο笾g定義鄰近性度量，異常對象是那些遠(yuǎn)離其他對象的對象。（3)基于密度的技術(shù)：僅當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)將其分類為異常點(diǎn)。（4) 基于聚類的技術(shù)：以遠(yuǎn)離其他簇的小簇作為異常點(diǎn)。
[0004] 異常數(shù)據(jù)檢測的主要難點(diǎn)在于比較難于處理非數(shù)值類型的樣本、高維數(shù)據(jù)的數(shù)據(jù) 維度信息評價(jià)、非單一維度的數(shù)據(jù)異常等等?；诮y(tǒng)計(jì)的技術(shù)難以處理高維數(shù)據(jù)；基于鄰近度的技術(shù)不能處理具有不同密度區(qū)域的數(shù)據(jù)集；基于密度的技術(shù)難以調(diào)參；基于聚類的技術(shù)難以保證產(chǎn)生的簇的質(zhì)量，對離群點(diǎn)的質(zhì)量影響非常大。
[0005] 為了提高異常數(shù)據(jù)檢測的效果，在利用聚類效果的同時(shí)避免聚類的不確定性，本發(fā)明提出一種基于知識熵的異常數(shù)據(jù)檢測方法，可以有效地保證異常數(shù)據(jù)的檢測準(zhǔn)確率。

【發(fā)明內(nèi)容】

[0006] 發(fā)明目的：本發(fā)明提供了一種檢測應(yīng)用收集的大量數(shù)據(jù)樣本集合中異常數(shù)據(jù)的方法，該方法首先基于知識熵計(jì)算數(shù)據(jù)樣本集合中各個(gè)屬性的重要程度，然后計(jì)算每個(gè)數(shù)據(jù) 樣本的異常因子，最后輸出異常數(shù)據(jù)集合。
[0007] 本發(fā)明的技術(shù)方案是：基于知識熵的異常數(shù)據(jù)點(diǎn)檢測方法包括如下步驟：
[0008] 1)數(shù)據(jù)樣本集合的屬性分析階段：
[0009] a)收集應(yīng)用程序生成的數(shù)據(jù)樣本集合U及其對應(yīng)的屬性集合A ;
[0010] b)對數(shù)據(jù)樣本集U中的屬性值進(jìn)行規(guī)范化預(yù)處理；
[0011] C)基于屬性全集A對數(shù)據(jù)樣本集U的作聚類處理，并計(jì)算A的知識熵；
[0012] d)分別計(jì)算各個(gè)屬性的重要度，據(jù)此構(gòu)造屬性集合的序列；
[0013] e)結(jié)束。
[0014] 2)數(shù)據(jù)樣本集合的數(shù)據(jù)樣本檢測階段：
[0015] a)計(jì)算每個(gè)數(shù)據(jù)樣本的異常因子；
[0016] b)根據(jù)異常因子輸出異常數(shù)據(jù)集合；
[0017] c)結(jié)束。
[0018] 其中步驟1-b的具體過程如下：
[0019] 1)遍歷數(shù)據(jù)樣本集U的屬性全集A ;
[0020] 2)對于屬性值為數(shù)值類型的屬性％，根據(jù)所有數(shù)據(jù)樣本該屬性的最小值合最大值作規(guī)范化處理：規(guī)范化屬性值V' u = (Vu-Vi^in) AVi^x-VuJ，使規(guī)范化后的屬性值在〇到1. 〇之間；其中Vu是規(guī)范前的屬性值，是規(guī)范前所有數(shù)據(jù)樣本在％屬性上的最小值，是規(guī)范前所有數(shù)據(jù)樣本在ai屬性上的最大值；
[0021] 3)對于屬性值不為數(shù)值類型的屬性ak，依據(jù)非數(shù)值屬性值出現(xiàn)的頻率賦予0到 I. 〇相應(yīng)的值：V' U =屬性ak取值為Vlu的樣本數(shù)/樣本總數(shù)。
[0022] 步驟I-C的具體過程如下：
[0023] 1)考慮數(shù)據(jù)樣本集的屬性全集A對應(yīng)的數(shù)據(jù)集合U ;
[0024] 2)計(jì)算集合U的直徑L，

【權(quán)利要求】
1. 一種基于知識熵的異常數(shù)據(jù)檢測方法，其特征在于包括如下步驟： 1) 數(shù)據(jù)樣本集合的屬性分析階段： a) 收集應(yīng)用程序生成的數(shù)據(jù)樣本集合U及其對應(yīng)的屬性集合A ; b) 對數(shù)據(jù)樣本集U中的屬性值進(jìn)行規(guī)范化預(yù)處理； c) 基于屬性全集A對數(shù)據(jù)樣本集U的作聚類處理，并計(jì)算A的知識熵； d) 分別計(jì)算各個(gè)屬性的重要度，據(jù)此構(gòu)造屬性集合的序列； e) 結(jié)束。 2) 數(shù)據(jù)樣本集合的數(shù)據(jù)樣本檢測階段： a) 計(jì)算每個(gè)數(shù)據(jù)樣本的異常因子； b) 根據(jù)異常因子輸出異常數(shù)據(jù)集合； c) 結(jié)束。其中步驟Ι-b的所述的規(guī)范化預(yù)處理具體過程如下： 1) 遍歷數(shù)據(jù)樣本集U的屬性全集A ; 2) 對于屬性值為數(shù)值類型的屬性％，根據(jù)所有數(shù)據(jù)樣本在該屬性上的最小值和最大值作規(guī)范化處理：規(guī)范化屬性值V' u = (Vu-Vi^in) AVi^x-VuJ，使規(guī)范化后的屬性值在O 到1. 〇之間；其中Vu是規(guī)范前的屬性值，\min是規(guī)范前所有數(shù)據(jù)樣本在％屬性上的最小值，是規(guī)范前所有數(shù)據(jù)樣本在 ai屬性上的最大值； 3) 對于屬性值不為數(shù)值類型的屬性ak，依據(jù)非數(shù)值屬性值出現(xiàn)的頻率賦予O到I. O相應(yīng)的值u =屬性ak取值為Vlu的樣本數(shù)/樣本總數(shù)； 4) 結(jié)束。
2. 根據(jù)權(quán)利要求1所述的基于知識熵的異常數(shù)據(jù)檢測方法，其特征在于基于Ι-c所述的基于聚類的知識熵計(jì)算方法； 1) 考慮數(shù)據(jù)樣本集的屬性全集A對應(yīng)的數(shù)據(jù)集合U ; 2) 計(jì)算集合U的直徑：
，設(shè)閾值S = L/10 ; 3) 對U基于參數(shù)δ作完全鏈接聚類，得到聚類結(jié)果（E1, E2, E3，…，Ek)，其中E1是一個(gè) 數(shù)據(jù)樣本集合聚類后的集合，滿 fl=l
4) 計(jì)算屬性全集A的知識熵
5) 結(jié)束。步驟Ι-d的具體過程如下： 1) 對屬性全集A中每一個(gè)屬性叫，計(jì)算其屬性重要度：sig(ai) =E㈧-E(A-{ai}); 2) 對屬性全集A根據(jù)屬性重要度排序得到屬性序列S =〈a、a'2,……，a'|A|>，其中滿足 sig(a' D 彡 sig(a' i+1); 3) 構(gòu)造屬性集合序列AS =〈A" A2,......，Am>，其中對1彡i彡m，為G A A1 = A, Am = {a' J ,并且滿足 Ai+1 = Ai- {a' J。
3. 根據(jù)權(quán)利要求1所述的基于知識熵的異常數(shù)據(jù)檢測方法，其特征在于基于2-a所述的數(shù)據(jù)樣本異常因子計(jì)算算法： 1) 對S中每個(gè)屬性a' i作步驟I-C的聚類得到>； 2) 對AS中每個(gè)屬性集合Ai也作步驟1-c的聚類得到<.4 ……，罵.*,. h 3) 對U中每個(gè)數(shù)據(jù)樣本X，計(jì)算其權(quán)重w(x)，
其中IXLi i表示義在81 聚類結(jié)果中所屬于的聚類；
4) 計(jì)算X的異常因子d(x)，其中表示X在 Aj聚類結(jié)果中所屬于的聚類； 5) 結(jié)束；步驟2-b的具體過程如下： 1) /) - 0: 2) 對U中每個(gè)數(shù)據(jù)樣本X，若d (X) >0. 85,則D = D U {x}; 3) 輸出D ; 4) 結(jié)束。
【文檔編號】G06F17/30GK104376078SQ201410650726
【公開日】2015年2月25日申請日期:2014年11月14日優(yōu)先權(quán)日:2014年11月14日
【發(fā)明者】劉峰, 劉欽, 楊瑞, 呂傳耀申請人:南京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉峰;劉欽;楊瑞;呂傳耀;
技術(shù)所有人：南京大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

數(shù)據(jù)挖掘異常檢測方法相關(guān)技術(shù)

數(shù)據(jù)異常檢測方法相關(guān)技術(shù)

異常數(shù)據(jù)的檢測方法相關(guān)技術(shù)

異常檢測方法相關(guān)技術(shù)

網(wǎng)絡(luò)異常檢測方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于知識熵的異常數(shù)據(jù)檢測方法