一種基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方法
【專(zhuān)利摘要】一種基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方法,所述聚類(lèi)方法包括以下步驟:1)染色體編碼和種群初始化;2)計(jì)算個(gè)體適應(yīng)度;3)采用動(dòng)態(tài)識(shí)別方法識(shí)別群體中的小生境位置、內(nèi)容和數(shù)目;4)執(zhí)行多樣化半徑機(jī)制調(diào)整各個(gè)小生境的半徑信息;5)應(yīng)用適應(yīng)度共享函數(shù)重新計(jì)算個(gè)體的新適應(yīng)度;6)執(zhí)行選擇、交叉和變異操作;7)執(zhí)行精英策略替換群體中最差的個(gè)體;8)若滿(mǎn)足終止條件,則終止運(yùn)行;否則,跳轉(zhuǎn)至步驟5)。本發(fā)明提供一種具有很好的聚類(lèi)效果、穩(wěn)定性良好的基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方法。
【專(zhuān)利說(shuō)明】一種基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方 法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),尤其是一種聚類(lèi)方法。
【背景技術(shù)】
[0002] 數(shù)據(jù)挖掘是從海量的、模糊的、有噪聲的、隨機(jī)的、不完全的數(shù)據(jù)中,發(fā)掘隱含的、 尚未發(fā)現(xiàn)的、卻又是可能有用的信息和知識(shí)的過(guò)程。聚類(lèi)分析是數(shù)據(jù)挖掘的一個(gè)重要內(nèi)容 和基本形式之一,數(shù)據(jù)聚類(lèi)是指根據(jù)數(shù)據(jù)的內(nèi)在特征,通過(guò)某種度量方式將數(shù)據(jù)分成若干 聚合類(lèi),使每一個(gè)聚合類(lèi)內(nèi)的數(shù)據(jù)具有相似的特性,不同聚合類(lèi)之間的數(shù)據(jù)的特性具有盡 可能大的差異性。
[0003] 對(duì)于實(shí)際要解決的數(shù)據(jù)集,在進(jìn)行聚類(lèi)分析時(shí),具體應(yīng)該選擇哪種或哪類(lèi)聚類(lèi)算 法,主要考慮數(shù)據(jù)的類(lèi)型特征、算法的特點(diǎn)以及聚類(lèi)的目標(biāo)幾個(gè)因素。有時(shí),也需要同時(shí)采 用多種聚類(lèi)方法,以從不同的角度分析數(shù)據(jù)的特征,從而找出真正想要的結(jié)果??傮w上,主 要的聚類(lèi)算法可以分為如下幾類(lèi):
[0004] 1)基于劃分方法
[0005] 對(duì)于含有η個(gè)數(shù)據(jù)的數(shù)據(jù)集,基于劃分的方法需要用戶(hù)預(yù)先給定最終劃分的數(shù)目 k,然后根據(jù)目標(biāo)函數(shù)的最小化組合,將數(shù)據(jù)劃分為k組。此時(shí),劃分為k組的數(shù)據(jù)應(yīng)滿(mǎn)足一 下兩個(gè)要求:1)每個(gè)組至少包含一個(gè)數(shù)據(jù);2)每個(gè)數(shù)據(jù)至少屬于且唯一屬于一個(gè)組?;?劃分的方法,算法首先要建立一個(gè)初始劃分,即隨機(jī)選取k個(gè)數(shù)據(jù)點(diǎn)作為初始劃分中心點(diǎn), 然后采用迭代重定位技術(shù),并通過(guò)不斷移動(dòng)數(shù)據(jù)在組間的劃分找到最優(yōu)劃分。劃分過(guò)程中 采用的唯一準(zhǔn)則就是:基于某種相似性度量方式,使同一個(gè)組內(nèi)的數(shù)據(jù)盡可能的相似,不同 組內(nèi)數(shù)據(jù)的差異性盡可能的大 [38]?;趧澐址椒ǖ木垲?lèi)方法主要有:k-means、k-中心點(diǎn)、 PAM、CLARA、CLARANS等。
[0006] 2)基于層次方法
[0007] 基于層次的方法按照對(duì)象的分層建立簇,同時(shí)形成一顆以簇為節(jié)點(diǎn)的樹(shù)。根據(jù)層 次分解形成的過(guò)程不同,基于層次的方法可以分成分裂的或凝聚的方法。凝聚法,也叫自底 向上的方法,它首先將每個(gè)數(shù)據(jù)作為一個(gè)單獨(dú)的組,然后不斷的把相近的組或數(shù)據(jù)組合成 一個(gè)組,直到所有的數(shù)據(jù)都被放在一個(gè)組里或者滿(mǎn)足某個(gè)終止條件為止。分裂法,也叫自 頂向下的方法,它首先把所有的數(shù)據(jù)都看成同一個(gè)簇,然后進(jìn)行不斷的迭代分裂,每次迭代 的目的都是為了把上一個(gè)簇分成更小的簇,直到每個(gè)對(duì)象各自成為一個(gè)簇或者滿(mǎn)足某個(gè)終 止條件。這種方法的缺陷在于,合并或分裂簇的操作都是不可逆,這給聚類(lèi)的結(jié)果帶來(lái)了不 準(zhǔn)確性。目前有一些技術(shù)試圖克服這一缺陷。有人試圖通過(guò)移動(dòng)樹(shù)的分支以改善全局目標(biāo) 函數(shù)。也有人使用劃分聚類(lèi)的技術(shù)來(lái)創(chuàng)建許多小簇,然后從這些小簇出發(fā)進(jìn)行層次聚類(lèi)?;?于層次方法的聚類(lèi)算法主要有:BIRCH,CURE,ROCK,COBWEB算法等。
[0008] 3)基于密度的方法
[0009] 目前很多算法都是根據(jù)數(shù)據(jù)之間的距離來(lái)確定對(duì)象間的相似性的,前面提到的基 于劃分和基于層次的方法就是基于這種相似性來(lái)進(jìn)行聚類(lèi)。然而這類(lèi)方法的缺陷在于,它 們只能找到球形簇,而對(duì)于其他形狀的簇則可能無(wú)法很好的辨別,甚至無(wú)法正確的進(jìn)行聚 類(lèi)。因此產(chǎn)生了基于密度的方法。這種聚類(lèi)方法的主要思想就是:根據(jù)數(shù)據(jù)點(diǎn)的密集程度 來(lái)確定是否需要繼續(xù)聚類(lèi) [4°]。該種方法可以發(fā)現(xiàn)任意形狀的簇,而且能夠有效的去除噪聲 數(shù)據(jù)。典型的基于密度的聚類(lèi)方法包括DBSCAN和OPTICS。
[0010] 4)基于網(wǎng)格的方法
[0011] 基于網(wǎng)格方法的基本思想就是把對(duì)象空間量化為一定數(shù)目的單元,這些單元組成 一個(gè)網(wǎng)格結(jié)構(gòu),然后在這個(gè)結(jié)構(gòu)上進(jìn)行聚類(lèi)操作。該方法主要的優(yōu)點(diǎn)是:有著非??斓奶幚?速度,它的處理時(shí)間與數(shù)據(jù)對(duì)象的數(shù)量是無(wú)關(guān)的,只與量化空間的每一維的單元數(shù)有關(guān)系 [41]。比較典型的基于網(wǎng)格的算法有:CLIQUE算法、OptiGird算法、STING算法等。
[0012] 5)基于模型的方法
[0013] 基于模型的聚類(lèi)方法將不同的簇假定不同的模型,然后不斷的尋找一定的數(shù)據(jù) 集,使這個(gè)數(shù)據(jù)集能夠與給定到的模型形成最佳的擬合。該方法的主要目的是試圖將給定 的數(shù)據(jù)和假定模型之間找出一個(gè)最優(yōu)的組合。這種方法主要分成兩類(lèi):一種是統(tǒng)計(jì)學(xué)方法, 主要代表算法有COBWEB算法、CLASSIT算法、和AutoClass算法;另一種是神經(jīng)網(wǎng)絡(luò)方法, 主要算法有競(jìng)爭(zhēng)學(xué)習(xí)法和自組織特征映射法。
[0014] 采用遺傳算法解決數(shù)據(jù)聚類(lèi)的問(wèn)題,是一種新的聚類(lèi)分析方法,對(duì)于數(shù)值屬性和 符號(hào)屬性的數(shù)據(jù)進(jìn)行聚類(lèi),具有較好的效果。近年來(lái)也有很多學(xué)者對(duì)基于遺傳算法的聚 類(lèi)分析做了深入研究。現(xiàn)有的聚類(lèi)方法存在的缺陷是:聚類(lèi)效果相對(duì)較差、穩(wěn)定性較差。
【發(fā)明內(nèi)容】
[0015]為了克服已有基于遺傳算法的聚類(lèi)方法的聚類(lèi)效果較差、穩(wěn)定性較差的不足,本 發(fā)明提供一種具有很好的聚類(lèi)效果、穩(wěn)定性良好的基于帶有多樣化半徑技術(shù)的小生境遺傳 算法的聚類(lèi)方法。
[0016] 本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:
[0017] 一種基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方法,所述聚類(lèi)方法包括 以下步驟:
[0018] 1)染色體編碼和種群初始化
[0019] 一個(gè)染色體被編碼成一個(gè)聚類(lèi)中心,每個(gè)染色體由V個(gè)實(shí)數(shù)組成,染色體表示為C =[C1,C2,…,Cv],這里V代表特征空間的維數(shù);
[0020] 隨機(jī)選取N個(gè)數(shù)據(jù)點(diǎn),N為群體規(guī)模,每個(gè)數(shù)據(jù)點(diǎn)是由V維實(shí)數(shù)組成,每個(gè)數(shù)據(jù)點(diǎn) 表示一個(gè)染色體且沒(méi)有重復(fù)的數(shù)據(jù)點(diǎn);
[0021] 2)計(jì)算個(gè)體適應(yīng)度
[0022] 令X= (X1,X2,…,xn}是N維向量空間的一個(gè)子集,K是聚類(lèi)數(shù)目,S(Xj,Ci)表示 數(shù)據(jù)點(diǎn)&和第i個(gè)聚類(lèi)中心Ci的相似性度量函數(shù),聚類(lèi)目標(biāo)是找出Ci使總相似度J(C)最 大,J(C)表示為:
【權(quán)利要求】
1. 一種基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方法,其特征在于:所述聚 類(lèi)方法包括以下步驟: 1) 染色體編碼和種群初始化 一個(gè)染色體被編碼成一個(gè)聚類(lèi)中心,每個(gè)染色體由V個(gè)實(shí)數(shù)組成,染色體表示為C= [C1,C2,…,Cv],這里V代表特征空間的維數(shù); 隨機(jī)選取N個(gè)數(shù)據(jù)點(diǎn),N為群體規(guī)模,每個(gè)數(shù)據(jù)點(diǎn)是由V維實(shí)數(shù)組成,每個(gè)數(shù)據(jù)點(diǎn)表示 一個(gè)染色體且沒(méi)有重復(fù)的數(shù)據(jù)點(diǎn); 2) 計(jì)算個(gè)體適應(yīng)度 令X=Ix1,X2,…,xj是N維向量空間的一個(gè)子集,K是聚類(lèi)數(shù)目,S(Xj,Ci)表示數(shù)據(jù) 點(diǎn)&和第i個(gè)聚類(lèi)中心Ci的相似性度量函數(shù),聚類(lèi)目標(biāo)是找出Ci使總相似度J(C)最大, J(C)表示為: =(1) /-Iy-1 P C= (c"c2,…,Ck),β定義為: XTXi ~X β=^:1J- (2) η 其中,入&, η, 令Js(Xk)表示數(shù)據(jù)點(diǎn)Xk到其他所有點(diǎn)的總相似度,且Js(Xk)的計(jì)算方式如下: n - JMk)=X(exp(- 7〇ky=ι,2,·..,《· (3) j-i P 該函數(shù)近似的看成是數(shù)據(jù)點(diǎn)Xk的領(lǐng)域密度函數(shù); Y的值用CCA算法來(lái)估計(jì),在得到γ的估計(jì)值之后,函數(shù)Js(Xk)則成為了一個(gè)多模函 數(shù),函數(shù)峰的數(shù)量等于聚類(lèi)中心的數(shù)量,峰值點(diǎn)的位置也與聚類(lèi)中心的位置相同; 3) 采用動(dòng)態(tài)識(shí)別方法識(shí)別群體中的小生境位置、內(nèi)容和數(shù)目,過(guò)程如下: 3. 1)將群體中的個(gè)體按照適應(yīng)度的大小進(jìn)行從大到小排序; 3. 2)設(shè)定算法進(jìn)化過(guò)程中的控制參數(shù):令t代的候選小生境數(shù)v(t) =O;t代的實(shí)際 小生境數(shù)u(t) =O;當(dāng)前動(dòng)態(tài)物種集⑶SS=O; 3. 3)從第一個(gè)個(gè)體順序執(zhí)行下列步驟到最后一個(gè)個(gè)體: (3.3. 1)若個(gè)體未被標(biāo)記,則標(biāo)記該個(gè)體為新的小生境中心,且該個(gè)體為該小生境的優(yōu) 勝者; (3. 3. 2)將群體中與該個(gè)體的距離小于該小生境半徑,同時(shí)尚未被標(biāo)記的個(gè)體分配給 這個(gè)小生境; (3. 3. 3)計(jì)算小生境中個(gè)體的數(shù)目,若個(gè)體數(shù)目大于1,則令候選小生境數(shù)加1 ; 4) 執(zhí)行多樣化半徑機(jī)制調(diào)整各個(gè)小生境的半徑信息; 基于相鄰小生境的位置關(guān)系來(lái)判斷兩個(gè)小生境是否需要合并,若合并,新產(chǎn)生的小生 境的半徑則要重新計(jì)算;再者,提出了一個(gè)小生境個(gè)體剔除的操作,這個(gè)操作的目的是把不 屬于該小生境的個(gè)體剔除。 5) 應(yīng)用適應(yīng)度共享函數(shù)重新計(jì)算個(gè)體的新適應(yīng)度; 設(shè)t表示個(gè)體i和個(gè)體j之間的密切程度的度量,Sh為共享函數(shù),Hli表示個(gè)體i在群 η 體中的共享度,則有計(jì)算出所有個(gè)體的共享度后,個(gè)體適應(yīng)度f(wàn)(i)依據(jù)下 M 式調(diào)整為fsh(i):fs⑴=f⑴Aii; 6) 執(zhí)行選擇、交叉和變異操作; 7) 執(zhí)行精英策略替換群體中最差的個(gè)體; 8) 若滿(mǎn)足終止條件,則終止運(yùn)行;否則,跳轉(zhuǎn)至步驟5)。
2. 如權(quán)利要求1所述的基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方法,其特 征在于:所述步驟3)中,小生境的代表著是第一個(gè)被識(shí)別的領(lǐng)導(dǎo)個(gè)體。當(dāng)小生境的領(lǐng)導(dǎo)個(gè) 體被選定后,這個(gè)小生境則被定義為勻* 0。如果群體中至少有一個(gè)個(gè)體與領(lǐng)導(dǎo)個(gè)體的距 離小于相應(yīng)的小生境半徑,并且未被標(biāo)記過(guò),則領(lǐng)導(dǎo)個(gè)體作為新產(chǎn)生小生境的代表者,同時(shí) 標(biāo)記從屬的個(gè)體;否則,該領(lǐng)導(dǎo)個(gè)體被視為獨(dú)立個(gè)體。這是一個(gè)循環(huán)迭代的過(guò)程,當(dāng)這個(gè)過(guò) 程執(zhí)行到群體的最后一個(gè)個(gè)體后,群體Pt被分為V(t)個(gè)小生境和若干獨(dú)立個(gè)體的集合; 群體用下面的公式表示:
這里$代表候選小生境個(gè)體的集合,式代表獨(dú)立個(gè)體的集合。
3. 如權(quán)利要求1或2所述的基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方法, 其特征在于:所述步驟4)中,定義1為合并規(guī)則:令Ni和%分別表示兩個(gè)不同的小生境, 他們的領(lǐng)導(dǎo)個(gè)體的適應(yīng)度分別為fi和A,若則將%合并到Ni中去,否則,將Ni合并 到%中去; 定義2為距離度量方式:令個(gè)體Mi和%分別表示小生境Ni和%的領(lǐng)導(dǎo)個(gè)體,則這兩 個(gè)小生境之間的距離可以表示為 (KNilNj) = (KMilMj) =IIMi-MjII2. (5) 基于上定義1和定義2,小生境合并操作的步驟如下:對(duì)于任意使用DNI產(chǎn)生的候選小 生境,用歐幾里得距離公式找到與其最近的小生境,用一個(gè)V(t)XV(t)的矩陣W來(lái)表示任 意兩個(gè)小生境之間的關(guān)系,
這里(KNi,Nj)表示小生境i和j之間的距離,Wij = 1表示這兩個(gè)小生境之間是最近的, 合并因子用表示,若= 1,則二者需要合并,合并因子是由理論1來(lái)決定的, 理論1 :令Ni和%分別表示兩個(gè)不同的小生境,個(gè)體Mi和%分別表示小生境Ni和Nj 的領(lǐng)導(dǎo)個(gè)體,且這兩個(gè)領(lǐng)導(dǎo)個(gè)體的適應(yīng)度分別為A和&,則連接兩個(gè)領(lǐng)導(dǎo)個(gè)體的連線表示 為: X=Mi+k(MrMi),ke(〇, 1). (7) 然后沿著這條連線分別產(chǎn)生r個(gè)隨機(jī)點(diǎn),同時(shí)計(jì)算它們的適應(yīng)度,若存在me(〇, 1)滿(mǎn) 足 f (xm) <min(fi,fj), (8) 也就是說(shuō),有凹點(diǎn)存在于Ni和Nj之間,因此Ni和Nj不需要合并,此時(shí)Cij = 0 ;在理論 1中,給定歐式空間中的兩個(gè)端點(diǎn),沿著由這兩個(gè)端點(diǎn)組成的連線上隨機(jī)的產(chǎn)生若干點(diǎn)并 且計(jì)算它們的適應(yīng)度,判斷在這兩個(gè)端點(diǎn)中間是否存在凹點(diǎn);如果有凹點(diǎn)存在,則兩個(gè)相鄰 的小生境是獨(dú)立的,它們不需要合并;若沒(méi)有凹點(diǎn)存在,則說(shuō)明兩個(gè)相鄰的小生境不是獨(dú)立 的,也就是說(shuō)他們屬于同一個(gè)小生境,需要合并成一個(gè)小生境; 如果確定了兩個(gè)小生境需要合并,則合并操作的具體描述見(jiàn)理論2, 理論2 :令Ni和Nj為最相鄰的兩個(gè)小生境,定義g,與分別為小生境Ni和Nj的個(gè)體集 合,個(gè)體Mi和%分別表示小生境Ni和%的領(lǐng)導(dǎo)個(gè)體,且這兩個(gè)領(lǐng)導(dǎo)個(gè)體的適應(yīng)度分別為& 和f」。若Cij = 1,且f^fj,則把Nj合并到Ni中 5/= +Sjt, (9) 如果小生境Nj中的個(gè)體k是離領(lǐng)導(dǎo)者M(jìn)i最遠(yuǎn)的個(gè)體,則小生境Ni的半徑調(diào)整為
這里%中的個(gè)體k,同時(shí),設(shè)置 S'/ =0 (11) u(t)=u(t)-1. (12) 在執(zhí)行了小生境的合并操作之后,隨后開(kāi)始操作個(gè)體剔除的操作,參照理論3 : 理論3 :令個(gè)體Mi表示小生境Ni的領(lǐng)導(dǎo)個(gè)體,iVf表示小生境中適應(yīng)度最低的個(gè)體,iV/ 表示小生境中離領(lǐng)導(dǎo)個(gè)體最遠(yuǎn)的個(gè)體,則下一代使用的小生境半徑則按下式進(jìn)行調(diào)整:
多樣化半徑機(jī)制的具體過(guò)程如下: 4. 1)計(jì)算所有候選小生境之間的距離; 4. 2)從第一個(gè)小生境順序執(zhí)行下列步驟到最后一個(gè)小生境: (4. 2. 1)若小生境i與j是最相近的兩個(gè)子群體,則根據(jù)理論1計(jì)算Sij ; (4. 2. 2)若Sij = 1,則根據(jù)定義1合并i和j,同時(shí)根據(jù)理論2調(diào)整小生境i和j的信 息; 4. 3)根據(jù)理論3更新所有小生境的半徑; 4. 4)調(diào)整初始半徑 在執(zhí)行多樣化小生境半徑的操作后,對(duì)群體則有了一個(gè)新的劃分,劃分結(jié)果如下:
然后群體中所有個(gè)體的適應(yīng)度進(jìn)行調(diào)整,獨(dú)立個(gè)體的適應(yīng)度不變,小生境數(shù)目的計(jì)算 方式修改如下: Dii -^.shid::) (15 )。 Pf
4. 如權(quán)利要求3所述的基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方法,其特 征在于:定義一個(gè)忍受因子S,此時(shí)公式8則修改為: f (xm) <δmin(fi;fj). (16)。
5. 如權(quán)利要求4所述的基于帶有多樣化半徑技術(shù)的小生境遺傳算法的聚類(lèi)方法,其特 征在于:所述步驟6)中,若C1和C2為父代個(gè)體,則后代c在父代經(jīng)過(guò)中間重組交叉操作后 的結(jié)果是:c=Cl+r(C1-C2),這里!是[0, 1]之間的符合平均分布的隨機(jī)數(shù); 每個(gè)染色體的變異概率為Pm。假設(shè)數(shù)據(jù)集中第q維的最大和最小值分別為CmJ和Cmax% 變異基因點(diǎn)的值為c%則一致領(lǐng)域變異的結(jié)果為: 4 =C^+TmRiclax-CiLi)U7) 這里R是符合平均分布的隨機(jī)數(shù),取值區(qū)間為[_l,l],rme(〇,1)。
【文檔編號(hào)】G06N3/12GK104239434SQ201410431949
【公開(kāi)日】2014年12月24日 申請(qǐng)日期:2014年8月28日 優(yōu)先權(quán)日:2014年8月28日
【發(fā)明者】盛偉國(guó), 范東成, 汪曉妍, 李軍偉, 何俊麗, 陳勝勇 申請(qǐng)人:浙江工業(yè)大學(xué)