專利名稱:一種基于粗糙集的數(shù)據(jù)挖掘算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一種基于粗糙集的數(shù)據(jù)挖掘方法。屬于計算機(jī)信息技術(shù)領(lǐng)域。
背景技術(shù):
隨著現(xiàn)代的通信技術(shù)的發(fā)展,越來越多的數(shù)據(jù)被收集和整合在一起,建立一個大的社會網(wǎng)絡(luò)成為可能。例如,可以通過電子郵件的日志來建立使用者之間的聯(lián)系網(wǎng)絡(luò),或者通過網(wǎng)絡(luò)日志及網(wǎng)絡(luò)通訊錄等方式將用戶提交的聯(lián)系人信息建立社會網(wǎng)絡(luò)。所以,現(xiàn)在的社會網(wǎng)絡(luò)規(guī)模比早期網(wǎng)絡(luò)龐大,通常包含幾千或者幾萬的結(jié)點,甚至有多達(dá)百萬個結(jié)點的網(wǎng)絡(luò)。面對這樣龐大復(fù)雜的網(wǎng)絡(luò),簡單的數(shù)學(xué)知識和原始的人工處理已經(jīng)不可能進(jìn)行有效的分析。數(shù)據(jù)挖掘是從巨量數(shù)據(jù)中發(fā)現(xiàn)有效的、新穎的、潛在有用的并且最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘就是為了解決當(dāng)今擁有大量數(shù)據(jù),但缺乏有效分析手段的困境而出現(xiàn)的研究領(lǐng)域。目前,已經(jīng)在包括生物信息學(xué),自然語言處理等許多方面發(fā)揮了巨大的作用。為了獲得最佳的數(shù)據(jù)挖掘效果,將采用一定的算法,建立模型,一種針對異常點的數(shù)據(jù)挖掘的新算法。利用粗糙特征選擇方法,采用相似知識粒度的距離度量,研究不確定信息,在減少數(shù)據(jù)特征的同時還保留其性能。然后再對給定的特征值對對象進(jìn)行排序,以提高計算復(fù)雜性。
發(fā)明內(nèi)容
本發(fā)明提出一種基于粗糙集的數(shù)據(jù)挖掘方法,該方法主要解決異常點的數(shù)據(jù)挖掘問題,保證獲得最佳的數(shù)據(jù)挖掘效果。為達(dá)到上述目的, 本發(fā)明采取的技術(shù)方案為:首先是該方法首先是根據(jù)用粗糙特征選擇方法,采用相似知識粒度的距離度量,研究不確定信息,在減少數(shù)據(jù)特征的同時還保留其性能。然后再對給定的特征值對對象進(jìn)行排序,以提高計算復(fù)雜性。最后通過在淋巴數(shù)據(jù)集上進(jìn)行了實驗分析。結(jié)果表明,該數(shù)據(jù)挖掘算法可以把大部分異常點檢測出來本發(fā)明提出的技術(shù)方案具體步驟包括:粗糙集是它把知識分類嵌套到集合內(nèi),并作為集合組成的一部分。根據(jù)傳統(tǒng)的方法來判斷一個對象a是否屬于集合X,通常分成3種情況:(I)對象a可能屬于也可能不屬于集合X ; (2)對象a肯定不屬于集X ; (3)對象a肯定屬于集合X ;下面給出其定義。假定U為非空的有限集合,I為U中的一個等價類關(guān)系,則二元對K= (U, I)稱之為集合U的一個近似空間。假設(shè)X為集合U的一個子集,X為集合U中的一個對象,所有與X不可區(qū)分的對象所組成的一個集合設(shè)為I (X),I (χ)中的每個對象都與對象X有同樣的特征屬性。對于每個子集X Qt/和一個等價關(guān)系I e Ind(K),都可以定義兩個子集。
集合X關(guān)于I的下近似如式權(quán)利要求
1.一種基于粗糙集的數(shù)據(jù)挖掘方法,其特征在于:該方法首先是根據(jù)粗糙集理論與一定的數(shù)據(jù)挖掘技術(shù),提出了一種針對異常點的數(shù)據(jù)挖掘的方法。利用粗糙特征選擇方法,采用相似知識粒度的距離度量,研究不確定信息,在減少數(shù)據(jù)特征的同時還保留其性能。然后再對給定的特征值對對象進(jìn)行排序,以提高計算復(fù)雜性。最后通過在淋巴數(shù)據(jù)集上進(jìn)行了實驗分析。結(jié)果表明,該數(shù)據(jù)挖掘算法可以把大部分異常點檢測出來,可以很好地進(jìn)行有用信息的數(shù)據(jù)挖掘。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,粗糙集是把知識分類嵌套到集合內(nèi),并作為集合組成的一部分。根據(jù)傳統(tǒng)的方法來判斷一個對象a是否屬于集合X,通常分成3種情況:(1)對象a可能屬于也可能不屬于集合X ; (2)對象a肯定不屬于集X ; (3)對象a肯定屬于集合X。粗糙集把知識看作是對論域的劃分,從而使知識具有了顆粒性。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用粗糙集對異常點進(jìn)行檢測,其算法由以下步驟產(chǎn)生: (1)根據(jù)初始狀態(tài)輸入系統(tǒng)信息。
(2)對信息進(jìn)行排序、劃分等價類。
(3)然后判斷屬性個數(shù)。
(4)構(gòu)建遞減屬性序列。
(5)重復(fù)2,3,否則對對象進(jìn)行知識粒度和權(quán)重計算。
(6)然后判斷屬性個數(shù)。判斷對象個數(shù)。否則對異常點進(jìn)行排序。
全文摘要
為了完善異常點的檢測算法,基于粗糙集理論與一定的數(shù)據(jù)挖掘技術(shù),提出了一種針對異常點的數(shù)據(jù)挖掘的方法。利用粗糙特征選擇方法,采用相似知識粒度的距離度量,研究不確定信息,在減少數(shù)據(jù)特征的同時還保留其性能。然后再對給定的特征值對對象進(jìn)行排序,以提高計算復(fù)雜性。最后通過在淋巴數(shù)據(jù)集上進(jìn)行了實驗分析。結(jié)果表明,該數(shù)據(jù)挖掘算法可以把大部分異常點檢測出來。同現(xiàn)有的算法相比較,此算法對異常點的檢測性質(zhì)提高了10%~20%左右,表現(xiàn)極大的優(yōu)越性。
文檔編號G06F17/30GK103150354SQ20131005484
公開日2013年6月12日 申請日期2013年1月30日 優(yōu)先權(quán)日2013年1月30日
發(fā)明者王少夫 申請人:王少夫