一種數(shù)據(jù)挖掘用粗糙近似表示系統(tǒng)構(gòu)建方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)挖掘用粗糙近似表示系統(tǒng)構(gòu)建方法,包括構(gòu)建向量數(shù)據(jù)組,構(gòu)建數(shù)據(jù)覆蓋,構(gòu)建粗糙近似表示系統(tǒng)及數(shù)據(jù)處理等四步。本發(fā)明較傳統(tǒng)的智能信息識別計算方式,基于多種聚類方法結(jié)果,在包容聚類結(jié)論差異性的前提下,建立了知識系統(tǒng)?;谝灾R系統(tǒng)用近似表示刻畫系統(tǒng)內(nèi)無法精確刻畫的集合。實現(xiàn)了在現(xiàn)有知識體系下,對任意信息的識別,從而極大提高了信息識別的適應(yīng)性。
【專利說明】
一種數(shù)據(jù)挖掘用粗糙近似表示系統(tǒng)構(gòu)建方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于智能數(shù)據(jù)辨識處理技術(shù)領(lǐng)域,具體涉及一種數(shù)據(jù)挖掘用粗糙近似表示 系統(tǒng)構(gòu)建方法。
【背景技術(shù)】
[0002] 目前在搜索引擎、郵件分類等數(shù)據(jù)分類過程中,人們會使用多種判別方法將其所 得數(shù)據(jù)進行分類整理。這種分類的形成就是數(shù)據(jù)挖掘出來知識,使用這種知識,人們可以探 索,如Google使用其搜索引擎探索量子計算機構(gòu)建的可能性等。在人工智能領(lǐng)域知識構(gòu)建 方式多種多樣,如深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)、模糊控制器中經(jīng)驗閾值等。粗糙集理論是一種處 理不精確、不確定和模糊知識的數(shù)學(xué)工具,它已被廣泛應(yīng)用于數(shù)據(jù)挖掘、人工智能、模式識 別與智能信息處理等領(lǐng)域。使用擬單層覆蓋粗糙集理論構(gòu)建的知識表示系統(tǒng)可用于存儲整 理分類知識,并其分類知識應(yīng)用于識別未知信息。針對這一需要,迫切需要研發(fā)一種新型的 數(shù)據(jù)處理運算方法,以滿足實際使用的需要。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明目的就在于克服上述不足,提供一種數(shù)據(jù)挖掘用粗糙近似表示系統(tǒng)構(gòu)建方 法。
[0004] 為實現(xiàn)上述目的,本發(fā)明是通過以下技術(shù)方案來實現(xiàn): 一種數(shù)據(jù)挖掘用粗糙近似表示系統(tǒng)構(gòu)建方法,包括如下步驟: 第一步,構(gòu)建向量數(shù)據(jù)組,從數(shù)據(jù)源中提取數(shù)據(jù)特征,生成多維空間,其中每一個維度 代表一個特征,一條數(shù)據(jù)轉(zhuǎn)換為特征值向量,形成多維向量數(shù)據(jù); 第二步,構(gòu)建數(shù)據(jù)覆蓋,將第一步的構(gòu)建的向量數(shù)據(jù)在各維度上進行分類標(biāo)一一并形 成數(shù)據(jù)集覆蓋; 第三步,構(gòu)建粗糙近似表示系統(tǒng),將第二步形成數(shù)據(jù)集覆蓋的各類數(shù)據(jù)按照分類進行 匯總,從而形成數(shù)據(jù)集粗糙近似表示系統(tǒng); 第四步,數(shù)據(jù)處理,在第三步形成的數(shù)據(jù)集粗糙近似表示系統(tǒng)中,根據(jù)需要刻畫集合生 成其DE近似表示和DA近似表示; 進一步的,所述的第二步中,向量數(shù)據(jù)使用多種聚類方法,形成數(shù)據(jù)聚類矩陣,然后通 過判斷數(shù)據(jù)對象是否在多種聚類方法結(jié)果中同屬一類,從而判斷數(shù)據(jù)屬于核心位置還是邊 緣位置,并最終通過對所有數(shù)據(jù)的判斷形成數(shù)據(jù)集覆蓋。
[0005] 進一步的,所述的數(shù)據(jù)聚類矩陣M為夂XtmXfi對稱矩陣,其中n為系統(tǒng)中對象的數(shù) 量,矩陣中元素為N維0,1向量,其中N為引入聚類算法數(shù)量,若對象構(gòu)^與V·'.中第k種聚類方 法中為同一類別,則數(shù)據(jù)聚類矩陣中第i行第j列中第k維值為1,否則該值為0。
[0006] 進一步的,所述的數(shù)據(jù)多種聚類計算方法包括: 生成每個聚類方法結(jié)果,根據(jù)數(shù)據(jù)聚類矩陣M中向量,通過將同一維度k上值為1元素形 成聚類方法k的分類結(jié)果墨。~>私悉.…備],其中_是分類數(shù)量。
[0007] 第一個聚類標(biāo)記名稱,對于1?%中分類犠__標(biāo)記名稱猶雋,L =' I S ?, J , J ?^' i' = 1 5 .2, ., , , ? ^ .其它聚類標(biāo)記名稱,對其它聚類結(jié)身_ . _ ...... _ ..示記名
稱為 name: name、 生成數(shù)據(jù)集覆_ _氧的核心元I 進一步的,所述的近似表示空間每對象與覆蓋集存在多對多映射,即一個對象屬于至 少一個覆蓋,一個覆蓋包含至少一個對象。
[0008] 進一步的,所述的第四步中DE近似表示和DA近似表示計算方法為: 1)在近似表示空間中,對象雜對應(yīng)的覆蓋集合為興沐#場1=魏¥ 2 )對于:? Ss,若所有K都滿足承_纖.汽:1.餐:孩,則的避做表泰 瓦'€.1的.賊上近似表示,若技;^僅滿足存在覆蓋,:球?qū)?愛:#::艮.萍賢多^ xeX的泥上近似表示;若所有K者滿足_迄:1 :|el,則 寥的:.祕卞遊似象示 X eX的DA下近似表示,若,K僅滿足存在覆蓋K s X S £>:,則:? £}{的DE上近丨以表示 X ex的DS上近似表示; 3) 遍歷近似表示空間中所有元素 X,使用其對應(yīng)覆蓋集編巧,即可生成X的DA上下近似 表示及DE上下近似表示; 4) X的DA上下近似表示即為X的DA近似表示,X的DE上下近似表示即為X的DE近似表示。
[0009] 本發(fā)明較傳統(tǒng)的智能信息識別計算方式,?;诙喾N聚類方法結(jié)果,在包容聚類結(jié) 論差異性的前提下,建立了知識系統(tǒng)?;谝灾R系統(tǒng)用近似表示刻畫系統(tǒng)內(nèi)無法精確刻 畫的集合。實現(xiàn)了在現(xiàn)有知識體系下,對任意信息的識別,從而極大提高了信息識別的適應(yīng) 性。
【附圖說明】
[0010] 圖1是本發(fā)明系統(tǒng)總體設(shè)計圖; 圖2是本發(fā)明中覆蓋生成模塊示意圖; 圖3是本發(fā)明中DA、DE近似表示生模塊示意圖。
【具體實施方式】
[0011] 下面將結(jié)合本發(fā)明的附圖及具體實施例,對本發(fā)明的技術(shù)方案進行清楚、完整地 描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā) 明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施 例,都屬于本發(fā)明保護的范圍。
[0012] 如圖1、2和3所述,并以收集并整理出某類紅酒數(shù)據(jù)10組,形成向量化數(shù)據(jù) >:1>:(2一...:41(^:1,3!:2,,.,,:?1{)為數(shù)據(jù)處理基礎(chǔ), 一種數(shù)據(jù)挖掘用粗糙近似表示系統(tǒng)構(gòu)建方法,包括如下步驟: 第一步,構(gòu)建向量數(shù)據(jù)組,從數(shù)據(jù)源中提取數(shù)據(jù)特征,生成多維空間,其中每一個維度 代表一個特征,一條數(shù)據(jù)轉(zhuǎn)換為特征值向量,形成向量數(shù)據(jù); 第二步,構(gòu)建數(shù)據(jù)覆蓋,將第一步的構(gòu)建的向量數(shù)據(jù)進行分類標(biāo)記并形成數(shù)據(jù)集覆蓋; 第三步,構(gòu)建粗糙近似表示系統(tǒng),將第二步形成數(shù)據(jù)集覆蓋的各類數(shù)據(jù)按照分類進行 匯總,從而形成數(shù)據(jù)集粗糙近似表示系統(tǒng); 第四步,數(shù)據(jù)處理,在第三步形成的數(shù)據(jù)集粗糙近似表示系統(tǒng)中,根據(jù)需要刻畫集合的 生成其DE近似表示和DA近似表示; 本實施例中,所述的第二步中,向量數(shù)據(jù)使用多種聚類方法,形成數(shù)據(jù)聚類矩陣,然后 通過判斷數(shù)據(jù)對象是否在多種聚類方法結(jié)果中同屬一類,從而判斷數(shù)據(jù)屬于核心位置還是 邊緣位置,并最終通過對所有數(shù)據(jù)的判斷形成數(shù)據(jù)集覆蓋,所形成的向量化數(shù)據(jù)為: 形成向量化數(shù)據(jù)&$:._〖,¥ :<:;錄_1^|..1._-.、、_?發(fā)· xl =(14.23, 1.71, 2.78) x2=( 13.2, 1.78, 2.14) x3=(13.16, 2.36, 2.67) x4=(14.37, 1.95, 2.5) x5=(13.24, 2.59, 2.87) x6=(14.2, 1.76, 2.45) x7=(14.39, 1.87, 2.45) x8=(14.06, 2.65, 2.61) x9=(14.83, 1.64, 2.17) xl0=(13.86, 1.35, 2.27) 本實施例中,所述的數(shù)據(jù)聚類矩陣M為對稱矩陣,其中n為系統(tǒng)中對象的數(shù) 量,矩陣中元素為N維0,1向量,其中N為引入聚類算法數(shù)量,若對象中第k種聚類方 法中為同一類別,則數(shù)據(jù)聚類矩陣中第i行第j列中第k維值為1,否則該值為0。
[0013] 本實施例中,所述的數(shù)據(jù)多種聚類計算方法包括: 生成每個聚類方法結(jié)果,根據(jù)數(shù)據(jù)聚類矩陣M中向量,通過將同一維度k上值為1元素形 成聚類方法k的分類結(jié)果^ = …..f .?.動),其中·是分類數(shù)量。
[0014] 第一個聚類標(biāo)記名稱,對于_ %中分類標(biāo)記名稱 其它聚類標(biāo)記名稱,對其它聚類結(jié)果__(|: = %.:_事|=%<.^)中·^
稱為 narneparne;·, 生成數(shù)據(jù)集覆I 和的核心元S 具體計算時: 選擇兩種不同聚類方法,如區(qū)間均分法與KNN分類法,分類數(shù)量為2,分別對于數(shù)據(jù)每一 列進行分類得到數(shù)據(jù)聚類矩陣M,其中M為對稱矩陣,左上部分未標(biāo)明位置值為(0,0)。 :x2 xS x4 jii: js:6 jsIO xi .::1) 麻銀 % 切 或 Cis I) ?:ι; |): CU) 微 ? 適 ο,?) α, :〇 mi) Jil C:i/# β,屬 惑 (IiI) (0?:::1) 邁 (i:f B ca::i) :.忒: (M) (Ui) ;ta:i) 痛 α,:?) tu) (Li :κ9 (?, ?) (?Λ:〇) si Q (1;,: I)
[0015] 形成覆蓋集 本實施例中,所述的第四步中DE近似表示和DA近似表示計算方法為: 其中:較:=::1?:?:??於'擇:故令泰%的核心兀素為各知_.辛.::|1辦齡&_ 4?;句,輯紙 霞2 齡凝浼的核心元素為 為_&:秀:__興3&每。__辭1為縣Ki與職的邊界,I
[0016] 若此時,若資,則, X的DA下近似為31X的DA上近似表示為1知顧驛兵υ E3 = P3A8A1詠 X的DE下近似為:發(fā)@,Χ的DE上近似表示為_公_ = 義 ^2?. =_、:33義:7,8沒·_; 若?[蛘_義這琪與孤餐爲(wèi)乃,則, X的DA下近似為路奪觀口 Ii論餘亂X的DA上近似表示為祖· _s 綱絲 X的DE下近似為·;姿·_,Χ的DE上近似表示為?α。K2 = {iJ =:£14 賊 J;M_。
[0017] 本發(fā)明較傳統(tǒng)的智能信息識別計算方式,基于多種聚類方法結(jié)果,在包容聚類結(jié) 論差異性的前提下,建立了知識系統(tǒng)?;谝灾R系統(tǒng)用近似表示刻畫系統(tǒng)內(nèi)無法精確刻 畫的集合。實現(xiàn)了在現(xiàn)有知識體系下,對任意信息的識別,從而極大提高了信息識別的適應(yīng) 性。
[0018]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準(zhǔn)。
【主權(quán)項】
1. 一種數(shù)據(jù)挖掘用粗糖近似表示系統(tǒng)構(gòu)建方法,其特征在于:所述的數(shù)據(jù)挖掘用粗糖 近似表示系統(tǒng)構(gòu)建方法包括如下步驟: 第一步,構(gòu)建向量數(shù)據(jù)組,從數(shù)據(jù)源中提取數(shù)據(jù)特征,生成多維空間,其中每一個維度 代表一個特征,一條數(shù)據(jù)轉(zhuǎn)換為特征值向量,形成多維向量數(shù)據(jù); 第二步,構(gòu)建數(shù)據(jù)覆蓋,將第一步的構(gòu)建的向量數(shù)據(jù)在各維度上進行分類標(biāo)記,并形成 數(shù)據(jù)集覆蓋; 第Ξ步,構(gòu)建粗糖近似表示系統(tǒng),將第二步形成數(shù)據(jù)集覆蓋的各類數(shù)據(jù)按照分類進行 匯總,從而形成數(shù)據(jù)集粗糖近似表示系統(tǒng); 第四步,數(shù)據(jù)處理,在第Ξ步形成的數(shù)據(jù)集粗糖近似表示系統(tǒng)中,根據(jù)需要刻畫集合生 成其DE近似表示和DA近似表示。2. 根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)挖掘用粗糖近似表示系統(tǒng)構(gòu)建方法,其特征在于:所 述的第二步中,向量數(shù)據(jù)使用多種聚類方法,形成數(shù)據(jù)聚類矩陣,然后通過判斷數(shù)據(jù)對象是 否在多種聚類方法結(jié)果中同屬一類,從而判斷數(shù)據(jù)屬于核屯、位置還是邊緣位置,并最終通 過對所有數(shù)據(jù)的判斷形成數(shù)據(jù)集覆蓋。3. 根據(jù)權(quán)利要求2所述的一種數(shù)據(jù)挖掘用粗糖近似表示系統(tǒng)構(gòu)建方法,其特征在于:所 述的數(shù)據(jù)聚類矩陣Μ為nnx 對稱矩陣,其中η為系統(tǒng)中對象的數(shù)量,矩陣中元素為N維0, 1向量,其中Ν為引入聚類算法數(shù)量,若對象亭S與辦沖第k種聚類方法中為同一類別,則數(shù) 據(jù)聚類矩陣中第i行第j列中第k維值為1,否則該值為0。4. 根據(jù)權(quán)利要求3所述的一種數(shù)據(jù)挖掘用粗糖近似表示系統(tǒng)構(gòu)建方法,其特征在于:所 述的數(shù)據(jù)多種聚類計算方法包括: 生成每個聚類方法結(jié)果,根據(jù)數(shù)據(jù)聚類矩陣Μ中向量,通過將同一維度k上值為1元素形 成聚類方法k的分類結(jié)果t;巧I彭趙髮,…廣涕誨滬.…餐苗,其中祭堤分類數(shù)量。 第一個聚類標(biāo)記名稱,對于輸:?中分類鶴滿粒標(biāo)記名稱驗親轅磯!難^;二物讓齡;,謹(jǐn) 玉,占.,…,g. 其它聚類標(biāo)記名稱,對其它聚類結(jié)果難%1=%巧潑f =也-:.,雨 稱為纏麵i孩疑描薪,運里? 幽;甘舞!'二圭.系·。。,;聾. 生成數(shù)據(jù)集覆蓋浪辟》狼:,:.岡琴^ =:縱屈托.,馬},其中 :轉(zhuǎn):苗泌踐;耗電技駭萬,秘都為巧思Ε碼讀:='表志鍵 緩鶴的核必元素馬 &。二。起;.S C,,松皂稱都為-城巧6山;二至>么.…巧'!。5. 根據(jù)權(quán)利要求3所述的一種數(shù)據(jù)挖掘用粗糖近似表示系統(tǒng)構(gòu)建方法,其特征在于,所 述的近似表示空間每對象與覆蓋集存在多對多映射,即一個對象屬于至少一個覆蓋,一個 覆蓋包含至少一個對象。6. 根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)挖掘用粗糖近似表示系統(tǒng)構(gòu)建方法,其特征在于,所 述的第四步中DE近似表示和DA近似表示計算方法為: 1)在近似表示空間中,對象轉(zhuǎn)對應(yīng)的覆蓋集合為鼓滬撰物卷湯技產(chǎn)繼話環(huán); 2 )對于Κ, Κχ,若所有Κ都滿足狡貌懲栽參彰:貧料;孩,則立電滾說編鑑概崇泰 X e X的DA上近做表示,若詞秘僅滿足存在覆蓋難津黎旁竊貨玲濃摩導(dǎo),則託或祗線主近極兼泰 seS的跪上近機榮示;若所有K都滿足聽拉衰裝SI,則:κ《:1肋I撫節(jié)適慨寨親 X e X的貼下近做表子,若裝,輪僅滿足存在覆蓋接巖ims器,則&運篡始:線止遼憐兼荒 X F X的跑上近似表于; 3)遍歷近似表示空間中所有元素 X,使用其對應(yīng)覆蓋集類粗,即可生成X的DA上下近似表 示及DE上下近似表示; 4. X的DA上下近似表示即為X的DA近似表示,X的DE上下近似表示即為X的DE近似表示。
【文檔編號】G06F17/30GK105938488SQ201610232523
【公開日】2016年9月14日
【申請日】2016年4月15日
【發(fā)明人】吳正江, 王巖, 張江麗
【申請人】河南理工大學(xué)