一種基于粗糙集的數(shù)據(jù)挖掘算法的制作方法

文檔序號：6587161閱讀：511來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于粗糙集的數(shù)據(jù)挖掘算法的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一種基于粗糙集的數(shù)據(jù)挖掘方法。屬于計算機(jī)信息技術(shù)領(lǐng)域。
背景技術(shù)：
隨著現(xiàn)代的通信技術(shù)的發(fā)展，越來越多的數(shù)據(jù)被收集和整合在一起，建立一個大的社會網(wǎng)絡(luò)成為可能。例如，可以通過電子郵件的日志來建立使用者之間的聯(lián)系網(wǎng)絡(luò)，或者通過網(wǎng)絡(luò)日志及網(wǎng)絡(luò)通訊錄等方式將用戶提交的聯(lián)系人信息建立社會網(wǎng)絡(luò)。所以，現(xiàn)在的社會網(wǎng)絡(luò)規(guī)模比早期網(wǎng)絡(luò)龐大，通常包含幾千或者幾萬的結(jié)點，甚至有多達(dá)百萬個結(jié)點的網(wǎng)絡(luò)。面對這樣龐大復(fù)雜的網(wǎng)絡(luò)，簡單的數(shù)學(xué)知識和原始的人工處理已經(jīng)不可能進(jìn)行有效的分析。數(shù)據(jù)挖掘是從巨量數(shù)據(jù)中發(fā)現(xiàn)有效的、新穎的、潛在有用的并且最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘就是為了解決當(dāng)今擁有大量數(shù)據(jù)，但缺乏有效分析手段的困境而出現(xiàn)的研究領(lǐng)域。目前，已經(jīng)在包括生物信息學(xué)，自然語言處理等許多方面發(fā)揮了巨大的作用。為了獲得最佳的數(shù)據(jù)挖掘效果，將采用一定的算法，建立模型，一種針對異常點的數(shù)據(jù)挖掘的新算法。利用粗糙特征選擇方法，采用相似知識粒度的距離度量，研究不確定信息，在減少數(shù)據(jù)特征的同時還保留其性能。然后再對給定的特征值對對象進(jìn)行排序，以提高計算復(fù)雜性。

發(fā)明內(nèi)容
本發(fā)明提出一種基于粗糙集的數(shù)據(jù)挖掘方法，該方法主要解決異常點的數(shù)據(jù)挖掘問題，保證獲得最佳的數(shù)據(jù)挖掘效果。為達(dá)到上述目的，本發(fā)明采取的技術(shù)方案為:首先是該方法首先是根據(jù)用粗糙特征選擇方法，采用相似知識粒度的距離度量，研究不確定信息，在減少數(shù)據(jù)特征的同時還保留其性能。然后再對給定的特征值對對象進(jìn)行排序，以提高計算復(fù)雜性。最后通過在淋巴數(shù)據(jù)集上進(jìn)行了實驗分析。結(jié)果表明，該數(shù)據(jù)挖掘算法可以把大部分異常點檢測出來本發(fā)明提出的技術(shù)方案具體步驟包括:粗糙集是它把知識分類嵌套到集合內(nèi)，并作為集合組成的一部分。根據(jù)傳統(tǒng)的方法來判斷一個對象a是否屬于集合X，通常分成3種情況:(I)對象a可能屬于也可能不屬于集合X ; (2)對象a肯定不屬于集X ； (3)對象a肯定屬于集合X ;下面給出其定義。假定U為非空的有限集合，I為U中的一個等價類關(guān)系，則二元對K= (U, I)稱之為集合U的一個近似空間。假設(shè)X為集合U的一個子集，X為集合U中的一個對象，所有與X不可區(qū)分的對象所組成的一個集合設(shè)為I (X)，I (χ)中的每個對象都與對象X有同樣的特征屬性。對于每個子集X Qt/和一個等價關(guān)系I e Ind(K)，都可以定義兩個子集。
集合X關(guān)于I的下近似如式權(quán)利要求
1.一種基于粗糙集的數(shù)據(jù)挖掘方法，其特征在于:該方法首先是根據(jù)粗糙集理論與一定的數(shù)據(jù)挖掘技術(shù)，提出了一種針對異常點的數(shù)據(jù)挖掘的方法。利用粗糙特征選擇方法，采用相似知識粒度的距離度量，研究不確定信息，在減少數(shù)據(jù)特征的同時還保留其性能。然后再對給定的特征值對對象進(jìn)行排序，以提高計算復(fù)雜性。最后通過在淋巴數(shù)據(jù)集上進(jìn)行了實驗分析。結(jié)果表明，該數(shù)據(jù)挖掘算法可以把大部分異常點檢測出來，可以很好地進(jìn)行有用信息的數(shù)據(jù)挖掘。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，粗糙集是把知識分類嵌套到集合內(nèi)，并作為集合組成的一部分。根據(jù)傳統(tǒng)的方法來判斷一個對象a是否屬于集合X，通常分成3種情況:(1)對象a可能屬于也可能不屬于集合X ； (2)對象a肯定不屬于集X ； (3)對象a肯定屬于集合X。粗糙集把知識看作是對論域的劃分，從而使知識具有了顆粒性。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，利用粗糙集對異常點進(jìn)行檢測，其算法由以下步驟產(chǎn)生: (1)根據(jù)初始狀態(tài)輸入系統(tǒng)信息。
(2)對信息進(jìn)行排序、劃分等價類。
(3)然后判斷屬性個數(shù)。
(4)構(gòu)建遞減屬性序列。
(5)重復(fù)2，3，否則對對象進(jìn)行知識粒度和權(quán)重計算。
(6)然后判斷屬性個數(shù)。判斷對象個數(shù)。否則對異常點進(jìn)行排序。
全文摘要
為了完善異常點的檢測算法，基于粗糙集理論與一定的數(shù)據(jù)挖掘技術(shù)，提出了一種針對異常點的數(shù)據(jù)挖掘的方法。利用粗糙特征選擇方法，采用相似知識粒度的距離度量，研究不確定信息，在減少數(shù)據(jù)特征的同時還保留其性能。然后再對給定的特征值對對象進(jìn)行排序，以提高計算復(fù)雜性。最后通過在淋巴數(shù)據(jù)集上進(jìn)行了實驗分析。結(jié)果表明，該數(shù)據(jù)挖掘算法可以把大部分異常點檢測出來。同現(xiàn)有的算法相比較，此算法對異常點的檢測性質(zhì)提高了10％～20％左右，表現(xiàn)極大的優(yōu)越性。
文檔編號G06F17/30GK103150354SQ20131005484
公開日2013年6月12日申請日期2013年1月30日優(yōu)先權(quán)日2013年1月30日
發(fā)明者王少夫申請人:王少夫

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王少夫
技術(shù)所有人：王少夫
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)挖掘算法種類相關(guān)技術(shù)

數(shù)據(jù)挖掘算法相關(guān)技術(shù)

數(shù)據(jù)挖掘十大算法相關(guān)技術(shù)

數(shù)據(jù)挖掘算法實例相關(guān)技術(shù)

大數(shù)據(jù)挖掘算法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于粗糙集的數(shù)據(jù)挖掘算法的制作方法