專利名稱:一種基于集合特征向量的快速聚類方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘、聚類分析、高維數(shù)據(jù)聚類等技術(shù)領(lǐng)域,具體涉及一種基于集合特征向量的快速聚類方法和裝置。
背景技術(shù):
聚類是數(shù)據(jù)挖掘領(lǐng)域最為常見(jiàn)的任務(wù)之一,用于發(fā)現(xiàn)在數(shù)據(jù)集中未知的對(duì)象類。對(duì)高維數(shù)據(jù)的處理能力是聚類研究的一個(gè)重要內(nèi)容。許多聚類算法在維數(shù)比較低的情況下能夠生成質(zhì)量比較高的聚類結(jié)果,卻難以應(yīng)用于高維數(shù)據(jù)的情況,有時(shí)甚至可能會(huì)產(chǎn)生錯(cuò)誤的聚類結(jié)果。在提出本發(fā)明之前,我們已經(jīng)在高維數(shù)據(jù)挖掘領(lǐng)域,特別是高維稀疏數(shù)據(jù)挖掘領(lǐng)域,提出了一個(gè)有效的算法——CAB0SFV聚類算法。CAB0SFV算法從集合的角度定義了一種新的差異度計(jì)算方法,稱為“稀疏特征差異度(Sparse Feature Distance, SFD)”以此反映一個(gè)集合內(nèi)部對(duì)象間的相似程度,并通過(guò)新定義的一個(gè)概念“稀疏特征向量(Sparse Feature Vector, SFV)”來(lái)概括一個(gè)對(duì)象集合所包含的全部聚類相關(guān)信息,可以方便地計(jì)算集合內(nèi)對(duì)象的相似程度。稀疏特征向量能夠?qū)?shù)據(jù)進(jìn)行有效壓縮,使得數(shù)據(jù)處理量大大減少,并且只需進(jìn)行一次數(shù)據(jù)掃描就可以生成聚類結(jié)果。CAB0SFV聚類算法中差異度的計(jì)算是基于集合給出的,其定義如下:集合的稀疏差異度:假設(shè)有η個(gè)對(duì)象,描述每個(gè)對(duì)象的屬性有m個(gè),Y為其中的一個(gè)對(duì)象子集,其中的對(duì)象個(gè)數(shù) 可以用|γ|表示,在該子集中所有對(duì)象稀疏特征取值皆為I的屬性個(gè)數(shù)為a(0 < a < m),稀 疏特征取值不全相同的屬性個(gè)數(shù)為e (O < e < m),則集合Y的稀疏差異度SFD(Y)定義為:
權(quán)利要求
1.一種基于集合特征向量的快速聚類方法,其特征在于,包括以下步驟: (1)數(shù)據(jù)屬性轉(zhuǎn)換步驟:將輸入的混合屬性數(shù)據(jù)轉(zhuǎn)化為二值屬性; (2)數(shù)據(jù)排序步驟:按照對(duì)象稀疏性指數(shù)或不干涉序列指數(shù)對(duì)數(shù)據(jù)進(jìn)行排序; (3)初次聚類步驟:該步驟包括兩個(gè)子步驟: 首先,令排序后的第一個(gè)對(duì)象單獨(dú)成類,得到其集合特征向量, 然后,順序掃描其余待聚類對(duì)象,如果將當(dāng)前掃描到的對(duì)象并入任何一個(gè)已經(jīng)創(chuàng)建的類中,都會(huì)使得并入后的集合差異度大于集合差異度上限h,則創(chuàng)建一個(gè)新類,該新類僅包含當(dāng)前掃描到的對(duì)象;否則,將當(dāng)前對(duì)象并入使得并入后集合差異度最小的類中,并更新該類的集合特征向量; (4)二次聚類步驟:將初次聚類步驟得到的初次聚類結(jié)果作為輸入進(jìn)行二次聚類。然后去除聚類結(jié)果中的孤立點(diǎn),得到最終聚類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟2)中的對(duì)象稀疏性指數(shù)是指對(duì)象屬性中取值為I的個(gè)數(shù);所述不干涉序列指數(shù)是指不干涉序列與對(duì)象的屬性的內(nèi)積,其計(jì)算方法如下:設(shè)一個(gè)二值屬性數(shù)據(jù)集X有η個(gè)對(duì)象,每個(gè)對(duì)象共有m個(gè)屬性。X為數(shù)據(jù)集X中的一個(gè)對(duì)象,其屬性值分別為(I1(X), d2(x),…,dm(x), ((Ii(X)=O或I, i=l, 2,..., m),則對(duì)象 X 的不干涉序列指數(shù)為:Q(X7M)=Cl1 (X) MJd2 (X) M2+...+(!_ (X) Mm 其中(M1, M2,…,Mm)為某選定的不干涉序列M= (M1, M2, M3,…,Mi,…)的前m項(xiàng)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟3)中的集合特征向量是指集合內(nèi)所有對(duì)象參與聚類所需的相關(guān)信息的特征表示向量,其定義如下:設(shè)一個(gè)二值屬性數(shù)據(jù)集有η個(gè)對(duì)象,描述每個(gè)對(duì)象的 屬性有m個(gè),Y為其中的一個(gè)對(duì)象子集,其中的對(duì)象個(gè)數(shù)可以用IyI表示,在該子集中所有對(duì)象取值皆為I的屬性個(gè)數(shù)為a(0<a<m),對(duì)應(yīng)的屬性序號(hào)為j2,...,ja,取值不全相同的屬性個(gè)數(shù)為e (O彡e彡m),對(duì)應(yīng)的屬性序號(hào)為kp K2,…,ke,則向量SFV⑴=(I Y|,S(Y),NS(Y),SD(Y))稱為對(duì)象集合Y的集合特征向量。其中S(Y)為Y中所有對(duì)象取值都為I的屬性序號(hào)集合,NS (Y)為取值不全相同的屬性序號(hào)集合,SD (Y)為集合差異度;所述集合差異度是指集合內(nèi)對(duì)象間的差異程度,其計(jì)算方法如下:設(shè)一個(gè)二值屬性數(shù)據(jù)集有η個(gè)對(duì)象,描述每個(gè)對(duì)象的屬性有m個(gè),Y為其中的一個(gè)對(duì)象子集,其中的對(duì)象個(gè)數(shù)記為I Yl,在該子集中所有對(duì)象取值皆為I的屬性個(gè)數(shù)為a (O m),取值不全相同的屬性個(gè)數(shù)為e (O ( e ( m),則定義為子集Y的集合差異度。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟4)中對(duì)初次聚類結(jié)果進(jìn)行二次聚類是指將初次聚類結(jié)果中各個(gè)類的集合特征向量視作待聚類對(duì)象,將每個(gè)集合特征向量的S集中的屬性作為該集合特征向量的集合屬性值,并將步驟2)和步驟3)中的集合差異度、集合特征向量對(duì)應(yīng)改變?yōu)橥卣辜喜町惗群屯卣辜咸卣飨蛄?,同時(shí)將集合差異度上限h改變?yōu)橥卣辜喜町惗壬舷辀2后,按照步驟2)和步驟3)進(jìn)行聚類的過(guò)程。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述的集合屬性值定義如下:設(shè)函數(shù)f:Xi — Vk表示集合X中的某個(gè)對(duì)象Xi對(duì)應(yīng)的屬性值vk(i = I, 2,..., n ;k = I, 2,..., I),其中I表示所有屬性取值的總數(shù)量。當(dāng)集合X內(nèi)的每個(gè)對(duì)象都對(duì)應(yīng)某個(gè)屬性值Vk時(shí),稱該屬性值為集合X的集合屬性值,集合X的所有集合屬性值可以表示為AVS(X)。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述的拓展集合差異度是指多個(gè)集合之間的總體差異程度。其計(jì)算方法如下:對(duì)于數(shù)據(jù)集U,X為U的一個(gè)劃分X = {X1; X2,,Xk},k e N,Xi是X中的某一個(gè)元素,Xi的集合屬性值為AVS(Xi),Q是X的一個(gè)子集,Q為其元素個(gè)數(shù),|q| ( k,對(duì)于該子集中的所有集合,相同的集合屬性個(gè)數(shù)為S(Q),不全相同的集合屬性值個(gè)數(shù)為NS (Q),則定義= 為子集Q的拓展集合差異度,對(duì)應(yīng)地,定義ESFV(Q) = (|Q|,S(Q),NS(Q) ,ESD(Q))為拓展集合特征向量。
7.一種基于集合特征向量的快速聚類裝置,其特征在于,包括以下組成模塊: 數(shù)據(jù)輸入模塊:用于將載于其他媒介上的信息數(shù)字化并且讀入計(jì)算機(jī)中,或者將載于其他計(jì)算機(jī)、存儲(chǔ)設(shè)備中的信息直接讀入該裝置所處的計(jì)算機(jī)中; 數(shù)據(jù)屬性轉(zhuǎn)換模塊,用于對(duì)數(shù)據(jù)進(jìn)行屬性轉(zhuǎn)換,將混合數(shù)據(jù)中的分類屬性和數(shù)值屬性轉(zhuǎn)換為二值屬性; 數(shù)據(jù)排序模塊,用于按照對(duì)象稀疏性指數(shù)或不干涉序列指數(shù)對(duì)數(shù)據(jù)進(jìn)行排序; 初次聚類模塊,用于對(duì)數(shù)據(jù)進(jìn)行初次聚類; 二次聚類模塊,用于在初次聚類的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行二次排序; 結(jié)果展示模塊,用于將二次聚類模塊得到的聚類結(jié)果以圖形或/和文字的形式展示出來(lái)。
全文摘要
本發(fā)明提供一種基于集合特征向量的快速聚類方法和裝置。所述方法有如下步驟1)將輸入的混合屬性數(shù)據(jù)轉(zhuǎn)化為二值屬性;2)按照對(duì)象稀疏性指數(shù)或不干涉序列指數(shù)排序;3)令排序后的第一個(gè)對(duì)象單獨(dú)成類,得到其集合特征向量,然后順序掃描其余待聚類對(duì)象,由當(dāng)前掃描到的對(duì)象并入已經(jīng)創(chuàng)建類的集合差異度與集合差異度上限b1的大小決定該對(duì)象是并入某個(gè)已經(jīng)創(chuàng)建的類中還是單獨(dú)創(chuàng)建一個(gè)新類;4)對(duì)步驟3)得到的初次聚類結(jié)果進(jìn)行二次聚類,然后去除聚類結(jié)果中的孤立點(diǎn),得到最終聚類結(jié)果。本發(fā)明只需要對(duì)數(shù)據(jù)進(jìn)行一次排序和一次掃描即可完成聚類過(guò)程,兼顧聚類質(zhì)量的同時(shí),大幅降低了聚類所需的時(shí)間,而且聚類結(jié)果可以不受數(shù)據(jù)輸入順序的影響。
文檔編號(hào)G06F17/30GK103077228SQ20131000040
公開(kāi)日2013年5月1日 申請(qǐng)日期2013年1月2日 優(yōu)先權(quán)日2013年1月2日
發(fā)明者武森, 姜敏, 魏桂英, 鄂旭 申請(qǐng)人:北京科技大學(xué)