專利名稱:基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聚類分析技術(shù)領(lǐng)域,尤其涉及一種基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法。
背景技術(shù):
聚類方法能夠根據(jù)數(shù)據(jù)本身的相似性,自動地將數(shù)據(jù)分成若干個小的簇,使每個簇內(nèi)部的數(shù)據(jù)之間彼此相似,而與其他簇內(nèi)的數(shù)據(jù)相異。通過這樣的自動聚合,聚類分析能夠幫助人們發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的潛在知識,對于信息的處理和知識的發(fā)現(xiàn)有著非常重要的意義。目前,聚類方法已經(jīng)被廣泛地應(yīng)用于圖像處理、異常檢測、Web熱點發(fā)現(xiàn)、社區(qū)發(fā)現(xiàn)、 信用卡欺詐檢測、商務(wù)數(shù)據(jù)分析等方面。例如,在模式識別方面,通過對圖片特征向量的處理,自動將一組動物的圖片自動歸類為羊、狗、蛇等;在異常檢測方面,通過對產(chǎn)品屬性的聚類,自動發(fā)現(xiàn)其中的次品;在市場研究方面,通過對用戶進(jìn)行聚類來將用戶自動歸類,進(jìn)而輔助決策者制定市場策略?,F(xiàn)有的聚類方法為了能夠得到較好的處理效果大都采用了較為復(fù)雜的計算方式, 處理速度較慢,無法適用于大規(guī)模的數(shù)據(jù)處理。另外,噪聲也是影響聚類方法質(zhì)量的一個重要因素。
發(fā)明內(nèi)容
針對以上存在的技術(shù)問題,本發(fā)明的目的是基于數(shù)據(jù)場,提出了一種快速高效的自動聚類方法,以解決對大量數(shù)據(jù)進(jìn)行聚類處理時的速度和效率問題。為達(dá)到上述目的,本發(fā)明采用下的技術(shù)方案包括以下步驟步驟1,讀取待進(jìn)行聚類分析的所有數(shù)據(jù),數(shù)據(jù)的維度為n,根據(jù)用戶提供的網(wǎng)格劃分參數(shù)k將數(shù)據(jù)空間等分為kn個網(wǎng)格,根并將每個數(shù)據(jù)分配到相應(yīng)的網(wǎng)格中;步驟2,將數(shù)據(jù)場的影響因子ο設(shè)定為步驟1所劃分網(wǎng)格的最大邊長;步驟3,將每個網(wǎng)格看作一個具有一定質(zhì)量的數(shù)據(jù)點,數(shù)據(jù)點的質(zhì)量在數(shù)值上等于網(wǎng)格中包含的數(shù)據(jù)總數(shù)量,數(shù)據(jù)點的坐標(biāo)為網(wǎng)格的重心坐標(biāo),計算由這些數(shù)據(jù)點相互作用形成的數(shù)據(jù)場在各個網(wǎng)格重心處的勢值和一階偏導(dǎo)絕對值;步驟4,遍歷步驟1劃分所得每個網(wǎng)格,如果其中某一網(wǎng)格的勢值取值大于該網(wǎng)格每個維度上所有直接相鄰網(wǎng)格的勢值取值,則認(rèn)為該網(wǎng)格包含聚類中心;步驟5,分別以步驟4找到的每個包含聚類中心的網(wǎng)格為起點,搜索滿足條件的直接相鄰網(wǎng)格,再以搜索到的網(wǎng)格為起點繼續(xù)搜索滿足條件的直接相鄰網(wǎng)格,直到搜索不到滿足條件的直接相鄰網(wǎng)格為止,搜索得到的所有滿足條件的網(wǎng)格構(gòu)成聚類簇;所述條件為, 勢值小于作為起點的網(wǎng)格,并且一階偏導(dǎo)絕對值大于作為起點的網(wǎng)格;步驟6,計算步驟5找到的所有聚類簇中所有網(wǎng)格的質(zhì)量平均值,將該平均值作為噪聲閥值t ;步驟7,根據(jù)步驟6所得噪聲閥值t,將步驟5找到的各聚類簇中的所有質(zhì)量小于噪聲閥值t的網(wǎng)格刪除;步驟8,當(dāng)存在兩個或者以上聚類簇包含有相同的網(wǎng)格時,將這兩個或者以上聚類簇合并;步驟9,將所得各聚類簇作為聚類結(jié)果輸出。
本發(fā)明的技術(shù)方案與已有的聚類方法相比,利用劃分網(wǎng)格的方式將運算復(fù)雜度降低為0(k),其中k為網(wǎng)格劃分參數(shù),極大地提高了方案實施的處理速度;通過一階偏導(dǎo)來確定簇的中心和邊緣,可以有效地避免對噪聲的處理,從而使方法具有很好的健壯性。
圖1是數(shù)據(jù)場勢函數(shù)的變化曲線;圖2是數(shù)據(jù)場勢函數(shù)及一階偏導(dǎo)絕對值的變化曲線;圖3是本發(fā)明實施例二維數(shù)據(jù)的坐標(biāo)分布示意圖;圖4是本發(fā)明實施例劃分網(wǎng)格示意圖;圖5是本發(fā)明實施例根據(jù)勢值找到的局部聚類中心示意圖;圖6是本發(fā)明實施例根據(jù)聚類中心找到的聚類網(wǎng)格簇示意圖;圖7是本發(fā)明實施例的聚類結(jié)果示意圖。
具體實施例方式受到物理學(xué)中場論的啟發(fā),王樹良等提出數(shù)據(jù)場的思想。數(shù)據(jù)通過數(shù)據(jù)輻射將其數(shù)據(jù)能量從樣本空間輻射到整個母體空間,接受數(shù)據(jù)能量并被數(shù)據(jù)輻射所覆蓋的空間,叫做數(shù)據(jù)場。數(shù)據(jù)場可視為一個充滿數(shù)據(jù)能量的空間,數(shù)據(jù)通過自己的數(shù)據(jù)場,對場中的另一數(shù)據(jù)發(fā)射能量。數(shù)據(jù)場中的數(shù)據(jù)點之間會相互輻射能量,這些能量相互疊加形成數(shù)據(jù)場的勢。根據(jù)數(shù)據(jù)對象的不同,數(shù)據(jù)場的場強(qiáng)函數(shù)可以定義為多種形式,在本發(fā)明中采用核輻射衍生場,則相應(yīng)的勢函數(shù)如公式(一)。、+ = tr— , ^^ 公式(一)其中,x,y為兩個數(shù)據(jù)點,σ為數(shù)據(jù)場的影響因子,I |X-y| I2為兩個數(shù)據(jù)點X,y之間的歐氏距離,m為數(shù)據(jù)點y的質(zhì)量,e為數(shù)學(xué)常數(shù)。所求得丨表示數(shù)據(jù)點y在χ處的影響作用。公式(一)所定義的數(shù)據(jù)場勢值函數(shù)具有很好的衰減性(如附圖1中σ分別取值1、0. 5和2時的曲線),適用于聚類方法根據(jù)相似性劃分簇的根本目的。附圖1中橫軸是數(shù)據(jù)場源點的距離,縱軸是m = 1時對應(yīng)的勢值和一階偏導(dǎo)值。另外,由于數(shù)據(jù)場定義的勢函數(shù)具有很好的連續(xù)性,所以只要選取合適的影響因子,數(shù)據(jù)場就能夠很好地反映數(shù)據(jù)的分布特性。附圖2即為附圖3所示的數(shù)據(jù)集中劃線區(qū)域的勢值及一階偏導(dǎo)絕對值,橫軸是數(shù)據(jù)點的(圖3中豎直方向)屬性值,縱軸是勢值和一階偏導(dǎo)絕對值。從簇的邊緣到中心再到邊緣的變化過程中,數(shù)據(jù)場的勢值是一個先增后減的變化過程,并且在簇中心處取取最大值。數(shù)據(jù)場勢值的變化情況可以用一階導(dǎo)數(shù)來進(jìn)行描述。在本發(fā)明中,數(shù)據(jù)場勢值的一階偏導(dǎo)根據(jù)公式(二)來進(jìn)行計算,即
權(quán)利要求
1. 一種基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法,其特征在于,包括以下步驟 步驟1,讀取待進(jìn)行聚類分析的所有數(shù)據(jù),數(shù)據(jù)的維度為n,根據(jù)用戶提供的網(wǎng)格劃分參數(shù)k將數(shù)據(jù)空間等分為kn個網(wǎng)格,根并將每個數(shù)據(jù)分配到相應(yīng)的網(wǎng)格中; 步驟2,將數(shù)據(jù)場的影響因子ο設(shè)定為步驟1所劃分網(wǎng)格的最大邊長; 步驟3,將每個網(wǎng)格看作一個具有一定質(zhì)量的數(shù)據(jù)點,數(shù)據(jù)點的質(zhì)量在數(shù)值上等于網(wǎng)格中包含的數(shù)據(jù)總數(shù)量,數(shù)據(jù)點的坐標(biāo)為網(wǎng)格的重心坐標(biāo),計算由這些數(shù)據(jù)點相互作用形成的數(shù)據(jù)場在各個網(wǎng)格重心處的勢值和一階偏導(dǎo)絕對值;步驟4,遍歷步驟1劃分所得每個網(wǎng)格,如果其中某一網(wǎng)格的勢值取值大于該網(wǎng)格每個維度上所有直接相鄰網(wǎng)格的勢值取值,則認(rèn)為該網(wǎng)格包含聚類中心;步驟5,分別以步驟4找到的每個包含聚類中心的網(wǎng)格為起點,搜索滿足條件的直接相鄰網(wǎng)格,再以搜索到的網(wǎng)格為起點繼續(xù)搜索滿足條件的直接相鄰網(wǎng)格,直到搜索不到滿足條件的直接相鄰網(wǎng)格為止,搜索得到的所有滿足條件的網(wǎng)格構(gòu)成聚類簇;所述條件為,勢值小于作為起點的網(wǎng)格,并且一階偏導(dǎo)絕對值大于作為起點的網(wǎng)格;步驟6,計算步驟5找到的所有聚類簇中所有網(wǎng)格的質(zhì)量平均值,將該平均值作為噪聲閥值t ;步驟7,根據(jù)步驟6所得噪聲閥值t,將步驟5找到的各聚類簇中的所有質(zhì)量小于噪聲閥值t的網(wǎng)格刪除;步驟8,當(dāng)存在兩個或者以上聚類簇包含有相同的網(wǎng)格時,將這兩個或者以上聚類簇合并;步驟9,將所得各聚類簇作為聚類結(jié)果輸出。
全文摘要
本發(fā)明提供了一種基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法,將劃分所得每個網(wǎng)格看作一個具有質(zhì)量的數(shù)據(jù)點,它們之間彼此相互影響形成數(shù)據(jù)場,所有數(shù)據(jù)點之間的相互疊加作用表現(xiàn)為數(shù)據(jù)場的勢值。本發(fā)明首先通過搜索數(shù)據(jù)場勢值的局部極大值來發(fā)現(xiàn)數(shù)據(jù)的簇中心,進(jìn)而根據(jù)簇中心向周圍搜索并確定簇的邊緣,最終將整個簇搜索出來,可以被應(yīng)用于圖像處理、社區(qū)發(fā)現(xiàn)、異常檢測、市場研究等領(lǐng)域。與現(xiàn)有的聚類方法相比,本方法具有處理速度快,并且對噪聲不敏感的特點。
文檔編號G06F17/30GK102184216SQ20111011454
公開日2011年9月14日 申請日期2011年5月4日 優(yōu)先權(quán)日2011年5月4日
發(fā)明者王樹良, 陳亞森 申請人:武漢大學(xué)