本發(fā)明涉及計(jì)算機(jī)人工智能領(lǐng)域,尤其涉及一種基于混合聚類集成選擇策略的聚類集成方法。
背景技術(shù):
聚類算法是重要的無(wú)監(jiān)督學(xué)習(xí)方法,在機(jī)器學(xué)習(xí)、生物信息學(xué)、模式識(shí)別和多媒體等領(lǐng)域具有良好的應(yīng)用性。但單一聚類算法難以保證對(duì)各種復(fù)雜數(shù)據(jù)集的聚類準(zhǔn)確性,因此聚類集成算法的研究逐漸受到關(guān)注,聚類集成算法通過(guò)對(duì)多個(gè)基礎(chǔ)聚類結(jié)果進(jìn)行有機(jī)融合,得到更準(zhǔn)確更魯棒的聚類結(jié)果。在聚類集成中加入聚類集成選擇策略,能有效剔除對(duì)最終集成結(jié)果沒(méi)有幫助的基礎(chǔ)聚類結(jié)果,提高聚類集成性能。
以往的聚類集成選擇策略并沒(méi)有得到很好的優(yōu)化,仍需更深入地研究。kuncheva等人認(rèn)為應(yīng)使用高多樣性的聚類結(jié)果子集。hadjitodorov等人則認(rèn)為應(yīng)選擇中等多樣性的聚類結(jié)果子集。azimi等人設(shè)定相關(guān)閾值來(lái)選擇中等多樣性和高多樣性的聚類結(jié)果子集。fer等人利用人工參數(shù)構(gòu)造多樣性與一致性結(jié)合的目標(biāo)公式并據(jù)此進(jìn)行聚類集成選擇。目前大多數(shù)聚類集成選擇策略具有以下局限性:第一,依賴于經(jīng)驗(yàn)選擇或人工參數(shù),可擴(kuò)展性差;第二,選擇的聚類結(jié)果子集冗余度高;第三,算法大多采用貪心策略,優(yōu)化不足。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有技術(shù)存在的缺點(diǎn)與不足,本發(fā)明提供一種基于混合聚類集成選擇策略的聚類集成方法,通過(guò)將基礎(chǔ)聚類結(jié)果視作特征的新視角,設(shè)計(jì)了混合聚類集成選擇策略,達(dá)到了比目前聚類集成算法更好的聚類效果。
為解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案:一種基于混合聚類集成選擇策略的聚類集成方法,包括如下步驟:
s1、輸入測(cè)試數(shù)據(jù)集樣本矩陣x;
s2、使用基礎(chǔ)聚類算法對(duì)測(cè)試數(shù)據(jù)集樣本矩陣x進(jìn)行聚類操作,生成基礎(chǔ)聚類結(jié)果集合;
s3、將基礎(chǔ)聚類結(jié)果集合轉(zhuǎn)換到新特征空間,且基礎(chǔ)聚類結(jié)果集合中的每一個(gè)聚類結(jié)果作為新特征空間的每一個(gè)特征;
s4、使用特征選擇技術(shù)對(duì)特征進(jìn)行聚類集成選擇,得到聚類結(jié)果子集;
s5、對(duì)聚類結(jié)果子集使用賦權(quán)函數(shù)獲得最終聚類結(jié)果子集;
s6、集成最終聚類結(jié)果子集,得到最終聚類結(jié)果。
進(jìn)一步地,所述步驟s1的測(cè)試數(shù)據(jù)集樣本矩陣x,其行向量對(duì)應(yīng)樣本維、列向量對(duì)應(yīng)屬性維。
進(jìn)一步地,所述步驟s2具體為:
s21、使用k均值聚類算法或譜聚類算法作為基礎(chǔ)聚類算法;
s22、設(shè)creal為真實(shí)聚類數(shù),取區(qū)間[2,2creal]內(nèi)隨機(jī)整數(shù)用于設(shè)置基礎(chǔ)聚類算法的聚類數(shù)參數(shù);
s23、使用基礎(chǔ)聚類算法和聚類數(shù)參數(shù)對(duì)測(cè)試數(shù)據(jù)集樣本矩陣x進(jìn)行聚類操作;
s24、根據(jù)設(shè)定次數(shù),重復(fù)步驟s21-s23,產(chǎn)生基礎(chǔ)聚類結(jié)果集合l={l1,l2,…,ls}。
進(jìn)一步地,所述k均值聚類算法的使用方式為:先隨機(jī)選取k個(gè)樣本作為初始聚類中心,接著計(jì)算每個(gè)樣本與各聚類中心的歐氏距離,把每個(gè)樣本分配給最近的聚類中心,然后將每個(gè)聚類中心更新為各個(gè)聚類內(nèi)樣本的均值,上述過(guò)程不斷重復(fù)直至滿足所述設(shè)定次數(shù),所述設(shè)定次數(shù)根據(jù)實(shí)際需求進(jìn)行調(diào)整;
所述譜聚類算法的使用方式為:通過(guò)生成圖的鄰接矩陣得到歸一化拉普拉斯矩陣,通過(guò)對(duì)拉普拉斯矩陣最小k個(gè)特征值對(duì)應(yīng)的特征向量進(jìn)行k均值聚類算法聚類,得到基礎(chǔ)聚類結(jié)果。
進(jìn)一步地,所述設(shè)定次數(shù)為100次。
進(jìn)一步地,所述步驟s3,具體為:
s31、將每個(gè)聚類結(jié)果作為新特征空間的一個(gè)特征;
s32、將每個(gè)聚類結(jié)果對(duì)測(cè)試數(shù)據(jù)集樣本中某一樣本的聚類標(biāo)簽構(gòu)成列向量,得到該樣本在新特征空間表示;
s33、使用步驟s32得到的所有列向量構(gòu)成新特征空間下的樣本矩陣
進(jìn)一步地,所述步驟s4,具體為:
s41、采用spec算法作為特征選擇技術(shù)對(duì)特征進(jìn)行聚類集成選擇,得到聚類結(jié)果子集lspec;
s42、采用relief算法作為特征選擇技術(shù)對(duì)特征進(jìn)行聚類集成選擇,得到聚類結(jié)果子集lrelief;
s43、采用mrmr算法作為特征選擇技術(shù)對(duì)特征進(jìn)行聚類集成選擇,得到得到聚類結(jié)果子集lmrmr;
44、采用disr算法作為特征選擇技術(shù)對(duì)特征進(jìn)行聚類集成選擇,得到聚類結(jié)果子集ldisr。
進(jìn)一步地,所述spec算法使用徑向基函數(shù)來(lái)生成相似度矩陣a,其元素aij(i,j∈{1,…,s})計(jì)算公式如下:
式中,li和lj是集合l中第i和第j個(gè)聚類結(jié)果,參數(shù)ε=1;接著,spec算法從成對(duì)相似矩陣a構(gòu)造標(biāo)準(zhǔn)化拉普拉斯矩陣z:
z=d-1/2ad1/2
式中,d為對(duì)角矩陣;然后計(jì)算z的特征值及其對(duì)應(yīng)特征向量:
z*ξi=λi*ξi
式中,λi表示第i個(gè)特征值,ξi為對(duì)應(yīng)的特征向量;最后spec算法使用賦權(quán)函數(shù)δ1來(lái)對(duì)除了第一個(gè)的前s′個(gè)特征值賦權(quán),進(jìn)行無(wú)監(jiān)督聚類結(jié)果選擇,公式如下:
式中,s′為預(yù)先定義的聚類結(jié)果子集大小,δij表示聚類結(jié)果li與特征向量ξj夾角的余弦值;
所述relief算法尋找在相同類別中有相同值、在不同類別中有不同值的離散屬性,并根據(jù)賦權(quán)公式δ2為l中屬性賦權(quán):
式中,f為l中的屬性值集合,c是聚類集合,通過(guò)relief算法獲得所選擇聚類結(jié)果子集lrelief;
所述mrmr算法同時(shí)考慮了聚類結(jié)果和類別標(biāo)簽之間的相關(guān)度κi和li的冗余度ιi,并逐步選出聚類結(jié)果,算法目標(biāo)函數(shù)為:
κi=i(c,li)
式中,i()表示互信息計(jì)算;mrmr算法根據(jù)最小冗余度最大相關(guān)度指標(biāo)來(lái)找到冗余性和相關(guān)性的最佳平衡,以此達(dá)到聚類結(jié)果的選擇;
所述disr算法考慮了兩個(gè)聚類結(jié)果的聯(lián)合概率分布,基于對(duì)稱相關(guān)性γ定義了指標(biāo)函數(shù)δ4,具體如下:
式中,h()為熵計(jì)算。
進(jìn)一步地,所述步驟s5,具體為:
s51、類內(nèi)聚集度最小化所有樣本點(diǎn)到聚類中心的距離平方均值,定義如下:
式中,
式中,ch表示在第h個(gè)聚類類別中的樣本,τ(ci,x-ci)衡量了ci和其他聚類之間的關(guān)聯(lián)度,ζ(ci,x)衡量了ci和x之間的關(guān)聯(lián)度;對(duì)于聚類結(jié)果子集l′g,包含了s′g個(gè)基礎(chǔ)聚類結(jié)果,l′g中的聚類結(jié)果li權(quán)重計(jì)算如下:
式中,f為類內(nèi)聚集度和類間離散度之一;另一方面,對(duì)于基礎(chǔ)聚類結(jié)果集合l中沒(méi)有被選擇到的聚類結(jié)果權(quán)重設(shè)置為0,即對(duì)所有l(wèi)i∈l-l′g有
s52、聚類結(jié)果子集的權(quán)重由它所包含的聚類結(jié)果決定,公式如下:
式中,s′g為第g個(gè)子集中的聚類結(jié)果數(shù);
s53、聚類結(jié)果子集權(quán)重歸一化公式為:
s54、基礎(chǔ)聚類結(jié)果權(quán)重ψ(lj)根據(jù)步驟s51中的基礎(chǔ)聚類結(jié)果權(quán)重和步驟s53中的聚類結(jié)果子集權(quán)重計(jì)算得到,具體公式如下:
s55、選擇權(quán)重最大的前sf個(gè)基礎(chǔ)聚類結(jié)果構(gòu)成最終聚類結(jié)果子集;所述sf的個(gè)數(shù)根據(jù)實(shí)際情況設(shè)定,需滿足sf≤s,所述s為所述設(shè)定次數(shù)。
進(jìn)一步地,所述步驟s6,具體為:
s61、計(jì)算一致性矩陣,首先將聚類結(jié)果子集中每個(gè)聚類結(jié)果li轉(zhuǎn)化為鄰接矩陣mi,mi中元素為:
一致性矩陣w由所有鄰接矩陣根據(jù)以下公式得到:
根據(jù)一致性矩陣和測(cè)試數(shù)據(jù)集構(gòu)造圖g=(x,w),節(jié)點(diǎn)為樣本點(diǎn),節(jié)點(diǎn)i和節(jié)點(diǎn)j的邊對(duì)應(yīng)于一致性矩陣w中的權(quán)重wij,該權(quán)重度量了兩個(gè)樣本處于同個(gè)聚類中的概率。
s62、對(duì)s61中g(shù)使用ncut算法進(jìn)行聚類,所述ncut算法具體為:
首先求解(d-w)θ=λdθ中第中的特征值和對(duì)應(yīng)特征向量,式中λ為特征值,θ為對(duì)應(yīng)特征向量,d為n×n對(duì)角矩陣,其對(duì)角線元素為dii=∑jwij;
將所有特征值從大到小排序,取前creal個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)成n×creal的矩陣l,l即測(cè)試數(shù)據(jù)集新的樣本表示,每一行是一個(gè)樣本的矢量表示,對(duì)l使用k均值算法聚類得到ncut聚類結(jié)果,即最終聚類結(jié)果。
采用上述技術(shù)方案后,本發(fā)明至少具有如下有益效果:
(1)使用k均值聚類算法和譜聚類算法生成基礎(chǔ)聚類結(jié)果,從兩種不同角度對(duì)數(shù)據(jù)集進(jìn)行聚類,基礎(chǔ)聚類結(jié)果更具多樣性;
(2)創(chuàng)新性地將聚類集成選擇問(wèn)題轉(zhuǎn)化為了特征選擇問(wèn)題,為解決聚類集成選擇問(wèn)題提供了新視角;
(3)基于四種成熟特征選擇算法進(jìn)行聚類結(jié)果子集選擇,考慮到了特征、樣本與類別之間的關(guān)系,避免了人為因素及冗余度問(wèn)題;
(4)基于類內(nèi)聚集度或類間離散度設(shè)計(jì)了賦權(quán)函數(shù),既考慮了局部各聚類結(jié)果子集的權(quán)重,也考慮了全局聚類結(jié)果的權(quán)重,有機(jī)結(jié)合四個(gè)聚類結(jié)果子集得到最終聚類結(jié)果子集。
附圖說(shuō)明
圖1為本發(fā)明基于混合聚類集成選擇策略的聚類集成方法的步驟流程圖。
具體實(shí)施方式
需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步詳細(xì)說(shuō)明。
如圖1所示,本發(fā)明提供一種基于混合聚類集成選擇策略的聚類集成方法,主要步驟包括下面所述。
步驟1:輸入測(cè)試數(shù)據(jù)集樣本矩陣x
測(cè)試數(shù)據(jù)集樣本矩陣x,其行向量對(duì)應(yīng)樣本維,列向量對(duì)應(yīng)屬性維。
步驟2:生成基礎(chǔ)聚類結(jié)果集合
2a)隨機(jī)使用k均值聚類算法或譜聚類算法作為本次迭代的基礎(chǔ)聚類算法。k均值聚類算法先隨機(jī)選取k個(gè)樣本作為初始聚類中心,接著計(jì)算每個(gè)樣本與各聚類中心的歐氏距離,把每個(gè)樣本分配給最近的聚類中心,然后每個(gè)聚類中心更新為各個(gè)聚類內(nèi)樣本的均值,上述過(guò)程不斷重復(fù)直至滿足終止條件;而譜聚類算法通過(guò)生成圖的鄰接矩陣得到歸一化拉普拉斯矩陣,通過(guò)對(duì)拉普拉斯矩陣最小k個(gè)特征值對(duì)應(yīng)的特征向量進(jìn)行k均值聚類算法聚類,得到聚類結(jié)果。
2b)設(shè)creal為真實(shí)聚類數(shù),取區(qū)間[2,2creal]內(nèi)隨機(jī)整數(shù)用于設(shè)置2a)中基礎(chǔ)聚類算法的聚類數(shù)。
2c)使用2a)選擇的基礎(chǔ)聚類算法和2b)選擇的聚類數(shù)參數(shù)對(duì)x進(jìn)行聚類操作。
2d)對(duì)重復(fù)步驟2a)、2b)和2c)s次,產(chǎn)生基礎(chǔ)聚類結(jié)果集合l={l1,l2,…,ls}。
步驟3:將樣本轉(zhuǎn)換到新特征空間
3a)將每個(gè)聚類結(jié)果作為新特征空間的一個(gè)特征。
3b)將每個(gè)聚類結(jié)果對(duì)某一樣本的聚類標(biāo)簽構(gòu)成列向量,得到該樣本在新特征空間表示。
3c)使用步驟3b)得到的所有列向量構(gòu)成新特征空間下的樣本矩陣
步驟4:使用特征選擇技術(shù)進(jìn)行聚類集成選擇
4a)spec算法為基于譜圖的特征選擇算法,它是基于圖論為全局特征統(tǒng)一賦權(quán)的特征選擇算法,使用徑向基函數(shù)來(lái)生成相似度矩陣a,其元素aij(i,j∈{1,…,s})計(jì)算公式如下:
其中l(wèi)i和lj是集合l中第i和第j個(gè)聚類結(jié)果,參數(shù)ε=1;接著,spec從成對(duì)相似矩陣a構(gòu)造標(biāo)準(zhǔn)化拉普拉斯矩陣z:
z=d-1/2ad1/2
其中d為對(duì)角矩陣。然后計(jì)算z的特征值及其對(duì)應(yīng)特征向量:
z*ξi=λi*ξi
λi表示第i個(gè)特征值,ξi為對(duì)應(yīng)的特征向量;最后spec使用賦權(quán)函數(shù)δ1來(lái)對(duì)除了第一個(gè)的前s′個(gè)特征值賦權(quán),進(jìn)行無(wú)監(jiān)督聚類結(jié)果選擇,公式如下:
其中s′為預(yù)先定義的聚類結(jié)果子集大小,δij表示聚類結(jié)果li與特征向量ξj夾角的余弦值,通過(guò)這種方法,使用spec獲得選擇的聚類結(jié)果子集lspec。
4b)relief算法為基于relief的特征選擇算法,尋找在相同類別中有相同值、在不同類別中有不同值的離散屬性,并根據(jù)賦權(quán)公式δ2為l中屬性賦權(quán):
其中f為l中的屬性值集合,c是聚類集合,通過(guò)relief將獲得所選擇聚類結(jié)果子集lrelief。
4c)mrmr算法為基于最小冗余度最大相關(guān)度的特征選擇算法,它同時(shí)考慮了聚類結(jié)果和類別標(biāo)簽之間的相關(guān)度κi和li的冗余度li,并逐步選出聚類結(jié)果,算法目標(biāo)函數(shù)為:
κi=i(c,li)
其中i()表示互信息計(jì)算。mrmr算法根據(jù)最小冗余度最大相關(guān)度指標(biāo)來(lái)找到冗余性和相關(guān)性的最佳平衡,以此達(dá)到聚類結(jié)果的選擇,由上述步驟,mrmr算法得到聚類結(jié)果子集lmrmr。
4d)disr算法為基于雙輸入對(duì)稱相關(guān)性的特征選擇算法,它考慮了兩個(gè)聚類結(jié)果的聯(lián)合概率分布,基于對(duì)稱相關(guān)性γ定義了指標(biāo)函數(shù)δ4,具體如下:
其中h()為熵計(jì)算,通過(guò)disr算法得到第四個(gè)聚類結(jié)果子集ldisr。
步驟5:使用賦權(quán)函數(shù)獲得最終聚類結(jié)果子集:“類內(nèi)聚集度”和“類間離散度”是一種對(duì)聚類結(jié)果好壞的衡量指標(biāo),因?yàn)榫垲愃惴〞?huì)將數(shù)據(jù)集中樣本聚成多個(gè)類別,“類內(nèi)聚集度”主要衡量這些類別內(nèi)樣本點(diǎn)的緊湊度,“類間離散度”主要用來(lái)衡量這些類別兩兩之間的區(qū)分度;
5a)類內(nèi)聚集度最小化所有樣本點(diǎn)到聚類中心的距離平方均值,定義如下:
其中
其中ch表示在第h個(gè)聚類類別中的樣本,τ(ci,x-ci)衡量了ci和其他聚類之間的關(guān)聯(lián)度,ζ(ci,x)衡量了ci和x之間的關(guān)聯(lián)度;對(duì)于聚類結(jié)果子集l′g,包含了s′g個(gè)基礎(chǔ)聚類結(jié)果,l′g中的聚類結(jié)果li權(quán)重計(jì)算如下:
其中f為類內(nèi)聚集度和類間離散度之一;另一方面,對(duì)于中沒(méi)有被選擇到的聚類結(jié)果權(quán)重設(shè)置為0,即對(duì)所有l(wèi)i∈l-l′g有
5b)聚類結(jié)果子集的權(quán)重由它所包含的聚類結(jié)果決定,公式如下:
其中s′g為第g個(gè)子集中的聚類結(jié)果數(shù)。
5c)聚類結(jié)果子集權(quán)重歸一化公式為:
5d)基礎(chǔ)聚類結(jié)果權(quán)重ψ(lj)根據(jù)步驟5a)中的基礎(chǔ)聚類結(jié)果權(quán)重和步驟5c)中的聚類結(jié)果子集權(quán)重計(jì)算得到,具體公式如下:
步驟6:聚類結(jié)果子集集成
6a)計(jì)算一致性矩陣,首先將聚類結(jié)果子集中每個(gè)聚類結(jié)果li轉(zhuǎn)化為鄰接矩陣mi,mi中元素為:
一致性矩陣w由所有鄰接矩陣根據(jù)以下公式得到:
根據(jù)一致性矩陣和原始數(shù)據(jù)集可以構(gòu)造圖g=(x,w),節(jié)點(diǎn)為樣本點(diǎn),節(jié)點(diǎn)i和節(jié)點(diǎn)j的邊對(duì)應(yīng)于一致性矩陣w中的權(quán)重wij,該權(quán)重度量了兩個(gè)樣本處于同個(gè)聚類中的概率。
6b)ncut算法的目標(biāo)函數(shù)就是最小化聚類之間的相關(guān)性并同時(shí)最大化聚類內(nèi)的關(guān)聯(lián)度,定義如下:
節(jié)點(diǎn)集x被分成兩個(gè)子集x1和x2,τ(x1,x2)表示x1和x2之間的相關(guān)度,wpq為節(jié)點(diǎn)xp和xq之間邊的權(quán)重,且p,q,o∈{1,…,n},求解上述目標(biāo)函數(shù)可以轉(zhuǎn)化到求解(d-w)θ=λdθ中第二小的特征值對(duì)應(yīng)的特征向量,其中d為n×n對(duì)角矩陣,其對(duì)角線元素為dii=∑jwij。
盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以理解的是,在不脫離本發(fā)明的原理和精神的情況下可以對(duì)這些實(shí)施例進(jìn)行多種等效的變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同范圍限定。