一種基于角度的高維數(shù)據(jù)離群檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于角度的高維數(shù)據(jù)離群檢測(cè)方法,屬于離群數(shù)據(jù)挖掘技術(shù)領(lǐng) 域。
【背景技術(shù)】
[0002] 離群數(shù)據(jù)挖掘技術(shù)是目前數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)之一,廣泛應(yīng)用于網(wǎng)絡(luò)流量入 侵檢測(cè)、交通事故檢測(cè)、科學(xué)數(shù)據(jù)測(cè)量異常檢測(cè)等領(lǐng)域。目前已有的離群數(shù)據(jù)挖掘主要基于 距離或最近鄰概念進(jìn)行離群挖掘,在高維數(shù)據(jù)中,高維空間距離和最近鄰已經(jīng)不再具有歐 式空間的特性,就會(huì)出現(xiàn)距離維度災(zāi)難的情況。在高維數(shù)據(jù)中,由于離群點(diǎn)遠(yuǎn)離其它數(shù)據(jù) 點(diǎn),離群點(diǎn)與其它點(diǎn)組成的向量的夾角變化不大,而非離群點(diǎn)被包圍在數(shù)據(jù)點(diǎn)中,非離群點(diǎn) 與其它點(diǎn)組成的向量的夾角變化較大,因此根據(jù)夾角變化的方差可以發(fā)現(xiàn)隱藏在高維數(shù)據(jù) 中的離群數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0003] 為解決現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于,提供一種基于角度的高維數(shù)據(jù)離群 檢測(cè)方法,本發(fā)明可以高效快速地從大規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù),可以 廣泛應(yīng)用于信用卡欺詐檢測(cè)、交通事故檢測(cè)、科學(xué)數(shù)據(jù)測(cè)量異常檢測(cè)等高維數(shù)據(jù)中。
[0004] 本發(fā)明的技術(shù)方案為:一種基于角度的高維數(shù)據(jù)離群檢測(cè)方法,其特征在于,包括 以下步驟:
[0005] (1)在數(shù)據(jù)集D中,對(duì)于每一個(gè)數(shù)據(jù)點(diǎn)A e D,獲取A的k個(gè)最近鄰點(diǎn);
[0006] (2)計(jì)算各數(shù)據(jù)點(diǎn)基于角度的離群因子,即對(duì)于每個(gè)數(shù)據(jù)點(diǎn)A,分別計(jì)算A點(diǎn)到其 余所有任意兩個(gè)點(diǎn)B和C組成的向量和?芒的夾角的方差;
[0007] (3)按從小到大的順序排序各數(shù)據(jù)點(diǎn)的離群因子,得到離群因子序列L,選取離群 因子最小的點(diǎn)集為數(shù)據(jù)離群度最大的離群點(diǎn)集,選取方法為:劃分平均間距序列L為2類(lèi) (;和C b,按照分類(lèi)算法依次比較平均間距序列L中的前后數(shù)據(jù),如果數(shù)值變化小于某一閾值 ε,則該數(shù)據(jù)及其后面所有的數(shù)據(jù)都劃分為類(lèi)Ca,其中,ε由用戶(hù)確定,BP
[0008] VZi el, Ca= Φ, Cb= L
[0009] 如果 d = I Iw-Ii I〈 ε,則 Ca= C AU {1 J
[0010] 否貝iJ,Cb= CbVU,
[0011] 其中,I1表示平均間距序列L中的第i個(gè)數(shù)據(jù),Φ表示空集;
[0012] (4)確定離群數(shù)據(jù),檢查所述步驟(3)中獲得的類(lèi)別Ca,如果Ca的數(shù)據(jù)個(gè)數(shù)大于某 一閾值S,則該大規(guī)模高維數(shù)據(jù)中沒(méi)有檢測(cè)到離群點(diǎn),否則C a中所有數(shù)據(jù)對(duì)應(yīng)的點(diǎn)為離群 點(diǎn),其中,S由用戶(hù)設(shè)定。
[0013] 前述的一種基于角度的高維數(shù)據(jù)離群檢測(cè)方法,其特征在于,所述步驟(1)包括 以下步驟:
[0014] 1-1)形式化數(shù)據(jù)集,高維數(shù)據(jù)形式化為:
[0015] 對(duì)于給定的高維數(shù)據(jù)集Dei?'范數(shù)M · 11定義為Rd-R+,內(nèi)積〈·,·>定義為 RdXRd- R,v點(diǎn)A,B e D,1吞表示向量亙一云,其中Rd表示d維實(shí)數(shù)空間,R +表示正實(shí)數(shù), Rd- R+表示d維實(shí)數(shù)空間上的元素到正實(shí)數(shù)的一個(gè)映射,R dXRd- R表示d維實(shí)數(shù)空間上 的兩個(gè)向量作內(nèi)積運(yùn)算;
[0016] 1-2)對(duì)于給定的高維數(shù)據(jù)集中的,采用超球搜索法獲取A的k個(gè)最近鄰 點(diǎn),表示為點(diǎn)集N k(A) e D。
[0017] 前述的一種基于角度的高維數(shù)據(jù)離群檢測(cè)方法,其特征在于,所述步驟(2)包括 以下步驟:
[0018] 2-1)定義離群因子AOF㈧G D , A的離群因子AOF㈧定義為A點(diǎn)到任意兩 點(diǎn)B和C組成的向量和的角度方差,具體描述為:
[0019] VA e D,Bi?,C 6-0,且 B ε D\ {A}, C ε D\ {A, B}
[0020]
[0021]
[0022]
[0023] 其中Var表示向量通_:和.衣^_的夾角ΦΒΜ方差,<:4爲(wèi)此>表示向量I和無(wú)的 內(nèi)積,和iC分別表示向量的范數(shù),ΕΦΒΑ(;表示夾角Φ BAe的數(shù)學(xué)期望;
[0024] 2-2)根據(jù)步驟1-2)獲得A的k近鄰Nk (A) e D,則2-1)中離群因子AOF (A)
[0025] 描述為基于A的k近鄰的離群因子,即:
[0026] V/\ € D, Nk (A) e D, B, C e Nk (A)
[0027]
[0028] *
[0029] 其中Var表示向量和JC的夾角Φ μ;方差,<JC >表示向量和乂C的 內(nèi)積,/IS和』Γ分別表示向量的范數(shù),ΕΦΒΑ(;表示夾角Φ BAe的數(shù)學(xué)期望。
[0030] 本發(fā)明所達(dá)到的有益效果:本發(fā)明可以高效快速地從大規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏 在其中的離群數(shù)據(jù),基于向量夾角的離群因子,能有效克服基于高維距離和最近鄰等離群 檢測(cè)方法的"維度災(zāi)難"問(wèn)題,利用本發(fā)明可以廣泛應(yīng)用于信用卡欺詐檢測(cè)、交通事故檢測(cè)、 科學(xué)數(shù)據(jù)測(cè)量異常檢測(cè)等高維數(shù)據(jù)中。
【附圖說(shuō)明】
[0031] 圖1為本發(fā)明的一種基于角度的高維數(shù)據(jù)離群檢測(cè)方法的流程圖。
【具體實(shí)施方式】
[0032] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步描述。以下實(shí)施例僅用于更加清楚地說(shuō)明本發(fā)明 的技術(shù)方案,而不能以此來(lái)限制本發(fā)明的保護(hù)范圍。
[0033] 如圖1所示,一種基于角度的高維數(shù)據(jù)離群檢測(cè)方法,包括以下步驟:
[0034] 1)在數(shù)據(jù)集D中,對(duì)于每一個(gè)數(shù)據(jù)點(diǎn)A e D,獲取A的k個(gè)最近鄰點(diǎn);
[0035] 為了得到各數(shù)據(jù)點(diǎn)的k個(gè)最近鄰點(diǎn),需要給出高維數(shù)據(jù)的形式化描述、k個(gè)近鄰點(diǎn) 的的計(jì)算方法,分別為:
[0036] 1-1)形式化數(shù)據(jù)集,所述高維數(shù)據(jù)形式化為:
[0037] 對(duì)于給定的高維數(shù)據(jù)集及e 范數(shù)11 · 11定義為Rd- R+,內(nèi)積〈·,· >定義為 RdXRd-R,¥AA,B e D,i表示向量3-i,其中Rd表示d維實(shí)數(shù)空間,R+表示正實(shí)數(shù), Rd- R+表示d維實(shí)數(shù)空間上的元素到正實(shí)數(shù)的一個(gè)映射,R dXRd- R表示d維實(shí)數(shù)空間上 的兩個(gè)向量作內(nèi)積運(yùn)算;
[0038] 1-2)對(duì)于給定的高維數(shù)據(jù)集中的點(diǎn)VJ e D,獲取A的k個(gè)最近鄰點(diǎn),表示為點(diǎn)集 Nk(A) e D,方法為:米用超球搜索法獲取k近鄰點(diǎn)。
[0039] 超球搜索法的基本思想是將高維空間劃分成若干個(gè)體積相等的超立方體,也即為 基元超立方體,并依次進(jìn)行編碼,然后在以A為中心的超球內(nèi)(由若干個(gè)基元超立方體覆 蓋)進(jìn)行搜索,逐漸擴(kuò)大超球半徑直至超球內(nèi)包含k個(gè)樣本為止。該超球內(nèi)的k近鄰即為 整個(gè)空間內(nèi)的k近鄰。該方法通過(guò)對(duì)特征空間的預(yù)組織,使分類(lèi)在以A為中心的超球內(nèi)進(jìn) 行。超球半徑由零開(kāi)始逐漸增大至超球內(nèi)包含k個(gè)以上模式樣本為止。超球搜索法分為兩 個(gè)階段:第一階段為組織階