基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法

文檔序號：6423547閱讀：251來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法
技術(shù)領(lǐng)域：
本發(fā)明涉及聚類分析技術(shù)領(lǐng)域，尤其涉及一種基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法。
背景技術(shù)：
聚類方法能夠根據(jù)數(shù)據(jù)本身的相似性，自動地將數(shù)據(jù)分成若干個小的簇，使每個簇內(nèi)部的數(shù)據(jù)之間彼此相似，而與其他簇內(nèi)的數(shù)據(jù)相異。通過這樣的自動聚合，聚類分析能夠幫助人們發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的潛在知識，對于信息的處理和知識的發(fā)現(xiàn)有著非常重要的意義。目前，聚類方法已經(jīng)被廣泛地應(yīng)用于圖像處理、異常檢測、Web熱點發(fā)現(xiàn)、社區(qū)發(fā)現(xiàn)、信用卡欺詐檢測、商務(wù)數(shù)據(jù)分析等方面。例如，在模式識別方面，通過對圖片特征向量的處理，自動將一組動物的圖片自動歸類為羊、狗、蛇等；在異常檢測方面，通過對產(chǎn)品屬性的聚類，自動發(fā)現(xiàn)其中的次品；在市場研究方面，通過對用戶進(jìn)行聚類來將用戶自動歸類，進(jìn)而輔助決策者制定市場策略?，F(xiàn)有的聚類方法為了能夠得到較好的處理效果大都采用了較為復(fù)雜的計算方式，處理速度較慢，無法適用于大規(guī)模的數(shù)據(jù)處理。另外，噪聲也是影響聚類方法質(zhì)量的一個重要因素。

發(fā)明內(nèi)容
針對以上存在的技術(shù)問題，本發(fā)明的目的是基于數(shù)據(jù)場，提出了一種快速高效的自動聚類方法，以解決對大量數(shù)據(jù)進(jìn)行聚類處理時的速度和效率問題。為達(dá)到上述目的，本發(fā)明采用下的技術(shù)方案包括以下步驟步驟1，讀取待進(jìn)行聚類分析的所有數(shù)據(jù)，數(shù)據(jù)的維度為n，根據(jù)用戶提供的網(wǎng)格劃分參數(shù)k將數(shù)據(jù)空間等分為kn個網(wǎng)格，根并將每個數(shù)據(jù)分配到相應(yīng)的網(wǎng)格中；步驟2，將數(shù)據(jù)場的影響因子ο設(shè)定為步驟1所劃分網(wǎng)格的最大邊長；步驟3，將每個網(wǎng)格看作一個具有一定質(zhì)量的數(shù)據(jù)點，數(shù)據(jù)點的質(zhì)量在數(shù)值上等于網(wǎng)格中包含的數(shù)據(jù)總數(shù)量，數(shù)據(jù)點的坐標(biāo)為網(wǎng)格的重心坐標(biāo)，計算由這些數(shù)據(jù)點相互作用形成的數(shù)據(jù)場在各個網(wǎng)格重心處的勢值和一階偏導(dǎo)絕對值；步驟4，遍歷步驟1劃分所得每個網(wǎng)格，如果其中某一網(wǎng)格的勢值取值大于該網(wǎng)格每個維度上所有直接相鄰網(wǎng)格的勢值取值，則認(rèn)為該網(wǎng)格包含聚類中心；步驟5，分別以步驟4找到的每個包含聚類中心的網(wǎng)格為起點，搜索滿足條件的直接相鄰網(wǎng)格，再以搜索到的網(wǎng)格為起點繼續(xù)搜索滿足條件的直接相鄰網(wǎng)格，直到搜索不到滿足條件的直接相鄰網(wǎng)格為止，搜索得到的所有滿足條件的網(wǎng)格構(gòu)成聚類簇；所述條件為，勢值小于作為起點的網(wǎng)格，并且一階偏導(dǎo)絕對值大于作為起點的網(wǎng)格；步驟6，計算步驟5找到的所有聚類簇中所有網(wǎng)格的質(zhì)量平均值，將該平均值作為噪聲閥值t ；步驟7，根據(jù)步驟6所得噪聲閥值t，將步驟5找到的各聚類簇中的所有質(zhì)量小于噪聲閥值t的網(wǎng)格刪除；步驟8，當(dāng)存在兩個或者以上聚類簇包含有相同的網(wǎng)格時，將這兩個或者以上聚類簇合并；步驟9，將所得各聚類簇作為聚類結(jié)果輸出。

本發(fā)明的技術(shù)方案與已有的聚類方法相比，利用劃分網(wǎng)格的方式將運算復(fù)雜度降低為0(k)，其中k為網(wǎng)格劃分參數(shù)，極大地提高了方案實施的處理速度；通過一階偏導(dǎo)來確定簇的中心和邊緣，可以有效地避免對噪聲的處理，從而使方法具有很好的健壯性。

圖1是數(shù)據(jù)場勢函數(shù)的變化曲線；圖2是數(shù)據(jù)場勢函數(shù)及一階偏導(dǎo)絕對值的變化曲線；圖3是本發(fā)明實施例二維數(shù)據(jù)的坐標(biāo)分布示意圖；圖4是本發(fā)明實施例劃分網(wǎng)格示意圖；圖5是本發(fā)明實施例根據(jù)勢值找到的局部聚類中心示意圖；圖6是本發(fā)明實施例根據(jù)聚類中心找到的聚類網(wǎng)格簇示意圖；圖7是本發(fā)明實施例的聚類結(jié)果示意圖。
具體實施例方式受到物理學(xué)中場論的啟發(fā)，王樹良等提出數(shù)據(jù)場的思想。數(shù)據(jù)通過數(shù)據(jù)輻射將其數(shù)據(jù)能量從樣本空間輻射到整個母體空間，接受數(shù)據(jù)能量并被數(shù)據(jù)輻射所覆蓋的空間，叫做數(shù)據(jù)場。數(shù)據(jù)場可視為一個充滿數(shù)據(jù)能量的空間，數(shù)據(jù)通過自己的數(shù)據(jù)場，對場中的另一數(shù)據(jù)發(fā)射能量。數(shù)據(jù)場中的數(shù)據(jù)點之間會相互輻射能量，這些能量相互疊加形成數(shù)據(jù)場的勢。根據(jù)數(shù)據(jù)對象的不同，數(shù)據(jù)場的場強(qiáng)函數(shù)可以定義為多種形式，在本發(fā)明中采用核輻射衍生場，則相應(yīng)的勢函數(shù)如公式(一)。、+ = tr— , ^^ 公式(一)其中，x，y為兩個數(shù)據(jù)點，σ為數(shù)據(jù)場的影響因子，I |X-y| I2為兩個數(shù)據(jù)點X，y之間的歐氏距離，m為數(shù)據(jù)點y的質(zhì)量，e為數(shù)學(xué)常數(shù)。所求得丨表示數(shù)據(jù)點y在χ處的影響作用。公式(一)所定義的數(shù)據(jù)場勢值函數(shù)具有很好的衰減性(如附圖1中σ分別取值1、0. 5和2時的曲線)，適用于聚類方法根據(jù)相似性劃分簇的根本目的。附圖1中橫軸是數(shù)據(jù)場源點的距離，縱軸是m = 1時對應(yīng)的勢值和一階偏導(dǎo)值。另外，由于數(shù)據(jù)場定義的勢函數(shù)具有很好的連續(xù)性，所以只要選取合適的影響因子，數(shù)據(jù)場就能夠很好地反映數(shù)據(jù)的分布特性。附圖2即為附圖3所示的數(shù)據(jù)集中劃線區(qū)域的勢值及一階偏導(dǎo)絕對值，橫軸是數(shù)據(jù)點的(圖3中豎直方向)屬性值，縱軸是勢值和一階偏導(dǎo)絕對值。從簇的邊緣到中心再到邊緣的變化過程中，數(shù)據(jù)場的勢值是一個先增后減的變化過程，并且在簇中心處取取最大值。數(shù)據(jù)場勢值的變化情況可以用一階導(dǎo)數(shù)來進(jìn)行描述。在本發(fā)明中，數(shù)據(jù)場勢值的一階偏導(dǎo)根據(jù)公式(二)來進(jìn)行計算，即
權(quán)利要求
1. 一種基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法，其特征在于，包括以下步驟步驟1，讀取待進(jìn)行聚類分析的所有數(shù)據(jù)，數(shù)據(jù)的維度為n，根據(jù)用戶提供的網(wǎng)格劃分參數(shù)k將數(shù)據(jù)空間等分為kn個網(wǎng)格，根并將每個數(shù)據(jù)分配到相應(yīng)的網(wǎng)格中；步驟2，將數(shù)據(jù)場的影響因子ο設(shè)定為步驟1所劃分網(wǎng)格的最大邊長；步驟3，將每個網(wǎng)格看作一個具有一定質(zhì)量的數(shù)據(jù)點，數(shù)據(jù)點的質(zhì)量在數(shù)值上等于網(wǎng)格中包含的數(shù)據(jù)總數(shù)量，數(shù)據(jù)點的坐標(biāo)為網(wǎng)格的重心坐標(biāo)，計算由這些數(shù)據(jù)點相互作用形成的數(shù)據(jù)場在各個網(wǎng)格重心處的勢值和一階偏導(dǎo)絕對值；步驟4，遍歷步驟1劃分所得每個網(wǎng)格，如果其中某一網(wǎng)格的勢值取值大于該網(wǎng)格每個維度上所有直接相鄰網(wǎng)格的勢值取值，則認(rèn)為該網(wǎng)格包含聚類中心；步驟5，分別以步驟4找到的每個包含聚類中心的網(wǎng)格為起點，搜索滿足條件的直接相鄰網(wǎng)格，再以搜索到的網(wǎng)格為起點繼續(xù)搜索滿足條件的直接相鄰網(wǎng)格，直到搜索不到滿足條件的直接相鄰網(wǎng)格為止，搜索得到的所有滿足條件的網(wǎng)格構(gòu)成聚類簇；所述條件為，勢值小于作為起點的網(wǎng)格，并且一階偏導(dǎo)絕對值大于作為起點的網(wǎng)格；步驟6，計算步驟5找到的所有聚類簇中所有網(wǎng)格的質(zhì)量平均值，將該平均值作為噪聲閥值t ；步驟7，根據(jù)步驟6所得噪聲閥值t，將步驟5找到的各聚類簇中的所有質(zhì)量小于噪聲閥值t的網(wǎng)格刪除；步驟8，當(dāng)存在兩個或者以上聚類簇包含有相同的網(wǎng)格時，將這兩個或者以上聚類簇合并；步驟9，將所得各聚類簇作為聚類結(jié)果輸出。
全文摘要
本發(fā)明提供了一種基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法，將劃分所得每個網(wǎng)格看作一個具有質(zhì)量的數(shù)據(jù)點，它們之間彼此相互影響形成數(shù)據(jù)場，所有數(shù)據(jù)點之間的相互疊加作用表現(xiàn)為數(shù)據(jù)場的勢值。本發(fā)明首先通過搜索數(shù)據(jù)場勢值的局部極大值來發(fā)現(xiàn)數(shù)據(jù)的簇中心，進(jìn)而根據(jù)簇中心向周圍搜索并確定簇的邊緣，最終將整個簇搜索出來，可以被應(yīng)用于圖像處理、社區(qū)發(fā)現(xiàn)、異常檢測、市場研究等領(lǐng)域。與現(xiàn)有的聚類方法相比，本方法具有處理速度快，并且對噪聲不敏感的特點。
文檔編號G06F17/30GK102184216SQ20111011454
公開日2011年9月14日申請日期2011年5月4日優(yōu)先權(quán)日2011年5月4日
發(fā)明者王樹良, 陳亞森申請人:武漢大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王樹良;陳亞森
技術(shù)所有人：武漢大學(xué)
我是此專利的發(fā)明人

上一篇：一種多尺度空中運動目標(biāo)檢測方法
上一篇：隨機(jī)特征防偽標(biāo)簽及其制備方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

基于網(wǎng)格的聚類方法相關(guān)技術(shù)

基于網(wǎng)格的聚類算法相關(guān)技術(shù)

網(wǎng)格聚類相關(guān)技術(shù)

網(wǎng)格聚類算法相關(guān)技術(shù)

基于網(wǎng)格的聚類相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于數(shù)據(jù)場劃分網(wǎng)格的自動聚類方法