基于模糊粗糙集條件熵屬性約簡(jiǎn)的數(shù)據(jù)分析方法
【專利摘要】本發(fā)明公開(kāi)了基于模糊粗糙集條件熵屬性約簡(jiǎn)的數(shù)據(jù)分析方法,屬于數(shù)據(jù)分析領(lǐng)域,包括以下步驟,將數(shù)據(jù)的屬性構(gòu)造為一個(gè)模糊粗糙集,同時(shí)確定數(shù)據(jù)的模糊決策表本發(fā)明的有益效果如下:基于模糊粗糙集的條件熵,并對(duì)傳統(tǒng)的信息熵和條件熵進(jìn)行了重新定義,根據(jù)要求獲得條件熵最小時(shí)的屬性,從而得到一個(gè)新的屬性約簡(jiǎn)方法,應(yīng)用到人體健康數(shù)據(jù)的屬性約簡(jiǎn)分類中,而根據(jù)約簡(jiǎn)之后的健康數(shù)據(jù)屬性,可以快速而準(zhǔn)確地完成健康數(shù)據(jù)的分析,由于該種方法約簡(jiǎn)的結(jié)果,能較好的保留原來(lái)連續(xù)屬性值之間的差異性及過(guò)渡性,從而保留了原來(lái)屬性的特征,根據(jù)這些約簡(jiǎn)后的數(shù)據(jù)就可以較快地判定人體的健康情況。
【專利說(shuō)明】基于模糊粗糙集條件熵屬性約簡(jiǎn)的數(shù)據(jù)分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,具體涉及基于模糊粗糙集條件熵屬性約簡(jiǎn)的數(shù)據(jù)分析方法。
【背景技術(shù)】
[0002]進(jìn)入21世界以來(lái),人們的生活水平隨科技的發(fā)展而逐步提高,越來(lái)越多的人開(kāi)始關(guān)注自身的健康問(wèn)題,而醫(yī)學(xué)上會(huì)根據(jù)測(cè)量得到的人體健康數(shù)據(jù)進(jìn)行健康情況的判定。由于所獲得的眾多數(shù)據(jù)會(huì)出現(xiàn)屬性一樣、類別相同的數(shù)據(jù),這些數(shù)據(jù)對(duì)于判斷整體健康數(shù)據(jù)來(lái)說(shuō)沒(méi)有太多幫助,因此如何從眾多的數(shù)據(jù)屬性當(dāng)中獲得有效的數(shù)據(jù)是本領(lǐng)域的重要內(nèi)容。
[0003]屬性約簡(jiǎn)是粗糙集和模糊粗糙集應(yīng)用于醫(yī)學(xué)領(lǐng)域的重要技術(shù)。在生物醫(yī)學(xué)中,使用到模糊粗糙集的屬性約簡(jiǎn),可以大大提高人類健康數(shù)據(jù)分析的效率。生物醫(yī)學(xué)領(lǐng)域當(dāng)中會(huì)根據(jù)對(duì)人體檢測(cè)獲得的健康數(shù)據(jù)進(jìn)行分析,從而根據(jù)分析的結(jié)果來(lái)判定該實(shí)體的健康情況,但是一個(gè)實(shí)體的健康數(shù)據(jù)會(huì)有很多,真正有決策意義的數(shù)據(jù)卻并沒(méi)有測(cè)得的數(shù)據(jù)那樣多,這就涉及到屬性約簡(jiǎn)的方法,采用基于模糊粗糙集條件熵屬性約簡(jiǎn)可以對(duì)獲得的人體健康數(shù)據(jù)進(jìn)行屬性歸類,從眾多數(shù)據(jù)中獲得需要的有用健康信息。
[0004]屬性約簡(jiǎn)當(dāng)中涉及到模糊粗糙集,模糊粗糙集是D.Dubios和H.Prad在1992年提出的,他們將模糊集和粗糙集結(jié)合,對(duì)粗糙集理論進(jìn)行了擴(kuò)展,從而得到了模糊粗糙集。模糊粗糙集相對(duì)經(jīng)典粗糙集的優(yōu)勢(shì)就在于引入了模糊集理論,該理論是用模糊集合及隸屬度來(lái)描述一個(gè)對(duì)象,使得模糊粗糙集不需要進(jìn)行經(jīng)典粗糙集的離散化過(guò)程,只需要進(jìn)行的是模糊化過(guò)程,即求解對(duì)象隸屬度值的過(guò)程。相比離散化,模糊化能夠較好的保留原來(lái)健康數(shù)據(jù)連續(xù)屬性值之間的差異性及過(guò)渡性。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是為了提高數(shù)據(jù)分析的效率而提出的一種基于模糊粗糙集條件熵屬性約簡(jiǎn)的數(shù)據(jù)分析方法。
[0006]為了實(shí)現(xiàn)以上發(fā)明目的,本發(fā)明采取的技術(shù)方案如下:一種基于模糊粗糙集條件熵屬性約簡(jiǎn)的數(shù)據(jù)分析方法,包括以下步驟:
[0007]S1:將數(shù)據(jù)的屬性構(gòu)造為一個(gè)模糊粗糙集,同時(shí)確定數(shù)據(jù)的模糊決策表DT= (1.:, X = CuD.V.f),其中u是論域,A是由對(duì)象的基本屬性構(gòu)成的集合,C為條件屬性,D為決策屬性,V代表信息函數(shù)f的值域;
[0008]S2:取一個(gè)集合T,并規(guī)定它為空集,令這個(gè)集合T的最優(yōu)依賴函數(shù)Hbest為0,A的個(gè)數(shù)i=l ;
[0009]S3:在每一次判斷時(shí),都使得集合T為前一次執(zhí)行時(shí)符合條件的集合T,并使得期望的依賴函數(shù)Hpra為最優(yōu)依賴函數(shù)值Hbejst ;[0010]S4:對(duì)于每一個(gè)a∈ c-r,其中R是等價(jià)關(guān)系的集合,計(jì)算獲得決策屬性D和屬性的條件熵并判斷它與條件熵H(D|T)的大小關(guān)系;如果前者小
于后者,那么就令集合T為新的集合;如果前者大于后者,那么就需要尋找新的更加符合條件的屬性集合;
[0011]S5:當(dāng)判斷〃 是否為新的數(shù)據(jù)屬性集合時(shí),要判斷i個(gè)子集A是否已經(jīng)全部
覆蓋了集合C-R,如果還沒(méi)有覆蓋完全,即i〈基數(shù)I C-Rl,則讓i=i+l,同時(shí)重復(fù)S4 ;如果此時(shí)i為C-R的基數(shù)I C-RI,則進(jìn)行S6 ;
[0012]S6:當(dāng)i為C-R的基數(shù)|C-R|后,令最優(yōu)依賴函數(shù)Hbest為條件熵H(D|T);
[0013]S7:比較期望的依賴函數(shù)Hpm與最優(yōu)依賴函數(shù)Hbest的差值是否在規(guī)定的誤差閾值n范圍之內(nèi),如果在規(guī)定的范圍之內(nèi)則輸出約簡(jiǎn)結(jié)果;如果不在規(guī)定的范圍之內(nèi)則返回S3重新進(jìn)行約簡(jiǎn)。
[0014]進(jìn)一步的,SI具體步驟如下:輸入數(shù)據(jù)屬性模糊決策表DT=0(;,^ = CuD?V,f);
[0015]其中,四元組(U,A, V,f)表示一個(gè)信息系統(tǒng),
[0016]U:U={x1, X2, --? xn)為論域,由所要研究的對(duì)象構(gòu)成,且U#0 ;
[0017]A:A={a j I a j G A}是由對(duì)象的基本屬性構(gòu)成的集合;
[0018]V:V= U Vj (I ^ j ^ m)代表信息函數(shù)f的值域,Vj為屬性a j的值域;
[0019]f:f={fj I fJ:U- VjI是信息系統(tǒng)的信息函數(shù),為對(duì)象Xi賦予相應(yīng)的值。
[0020]進(jìn)一步的,SI具體還包括:對(duì)于一個(gè)決策系統(tǒng)DT=(U,C U D, V, f),VPeC,VQeD, C為條件屬性,D為決策屬性,則定義
[0021]Y p (Q) =k= I posp (Q) |/|U (I)
[0022]為屬性Q依賴于屬性P的程度;其中互(0為屬性Q的P正域,所述的正
域所包含的對(duì)象是指被劃分到Q的等價(jià)類中去的P的等價(jià)類里的對(duì)象;|U|表示集合U的基數(shù)。
[0023]進(jìn)一步的,S2具體如下:重新定義數(shù)據(jù)的模糊屬性?和劃分論域U結(jié)果^X=U/P={XpX2,-,X?}, Y=U/Q={YpY2,-,Ym},為了與原定義的模糊等價(jià)類集合X1, X2,…,乂?進(jìn)行區(qū)分,將原集合定義為&,各2,…,,同理YpYv Y根據(jù)模糊粗糙集中引入的模糊集隸屬度函數(shù),對(duì)于Xk E U,它屬于模糊等價(jià)類各,ex的隸屬度也可以表示為屬于該等價(jià)類的概率,那么X出現(xiàn)的概率Al)就可以通過(guò)各對(duì)象的隸屬度決定,也就是
【權(quán)利要求】
1.一種基于模糊粗糙集條件熵屬性約簡(jiǎn)的數(shù)據(jù)分析方法,其特征在于:包括以下步驟:S1:將數(shù)據(jù)的屬性構(gòu)造為一個(gè)模糊粗糙集,同時(shí)確定數(shù)據(jù)的模糊決策表DT= (I;, = CuD.V.r),其中U是論域,A是由對(duì)象的基本屬性構(gòu)成的集合,C為條件屬性,D為決策屬性,V代表信息函數(shù)f的值域;S2:取一個(gè)集合T,并規(guī)定它為空集,令這個(gè)集合T的最優(yōu)依賴函數(shù)Hbest為O,A的個(gè)數(shù)i=l ; S3:在每一次判斷時(shí),都使得集合T為前一次執(zhí)行時(shí)符合條件的集合T,并使得期望的依賴函數(shù)Hpra為最優(yōu)依賴函數(shù)值Hbest ;S4:對(duì)于每一個(gè)A丨e C-/?,其中R是等價(jià)關(guān)系的集合,計(jì)算獲得決策屬性D和屬性的條件熵并判斷它與條件熵H(D|T)的大小關(guān)系;如果前者小于后者,那么就令集合T為新的集合如果前者大于后者,那么就需要尋找新的更加符合條件的屬性集合;S5:當(dāng)判斷是否為新的數(shù)據(jù)屬性集合時(shí),要判斷i個(gè)子集A是否已經(jīng)全部覆蓋了集合C-R,如果還沒(méi)有覆蓋完全,即i〈基數(shù)|C-R|,則讓i=i+l,同時(shí)重復(fù)S4 ;如果此時(shí)i為C-R的基數(shù)I C-R |,則進(jìn)行S6 ; S6:當(dāng)i為C-R的基數(shù)|C-R|后,令最優(yōu)依賴函數(shù)Hbest為條件熵H(D|T); S7:比較期望的依賴函數(shù)Hrm與最優(yōu)依賴函數(shù)Hbest的差值是否在規(guī)定的誤差閾值n范圍之內(nèi),如果在規(guī)定的范圍之內(nèi)則輸出約簡(jiǎn)結(jié)果;如果不在規(guī)定的范圍之內(nèi)則返回S3重新進(jìn)行約簡(jiǎn)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:S1具體步驟如下:輸入數(shù)據(jù)屬性模糊決策表DT=(U, ^ = CuD5V,f); 其中,四元組(U,A,V,f)表示一個(gè)信息系統(tǒng), U:U= (X1, X2,…X1J為論域,由所要研究的對(duì)象構(gòu)成,且U式0; A:A={aj a j G A}是由對(duì)象的基本屬性構(gòu)成的集合; V:V= U Vj (I≤j≤m)代表信息函數(shù)f的值域,Vj為屬性a」的值域; f:f={fj I fj:U- VjI是信息系統(tǒng)的信息函數(shù),為對(duì)象Xi賦予相應(yīng)的值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,SI具體還包括:對(duì)于一個(gè)決策系統(tǒng)DT=(U,C U D,V,f),VP gC, VQgD , C為條件屬性,D為決策屬性,則定義 YP(Q) =k=Iposp(Q) |/|U(I)為屬性Q依賴于屬性P的程度;其中/心>(0=釗0為屬性Q的P正域,所述的正域所包含的對(duì)象是指被劃分到Q的等價(jià)類中去的P的等價(jià)類里的對(duì)象;|U|表示集合U的基數(shù)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于:S2具體如下:重新定義數(shù)據(jù)的模糊屬11P和9,劃分論域U結(jié)果為X=U/?U,32,…么},Y=U/9={YpY2,…U,為了與原定義的模糊等價(jià)類集合X1,x2,…,乂?進(jìn)行區(qū)分,將原集合定義為X,各2,…,各?,同理YpY2,…,Y?,根據(jù)模糊粗糙集中引入的模糊集隸屬度函數(shù),對(duì)于Xk G U,它屬于模糊等價(jià)類的隸屬度也可以表示為屬于該等價(jià)類的概率,那么¥,出現(xiàn)的概率/>(¥,)就可以通過(guò)各對(duì)象的隸屬度決定,也就是
【文檔編號(hào)】G06F19/00GK103632051SQ201310616310
【公開(kāi)日】2014年3月12日 申請(qǐng)日期:2013年11月27日 優(yōu)先權(quán)日:2013年11月27日
【發(fā)明者】賈海濤, 張偉, 唐建楊, 莫祖忠, 楊鋒 申請(qǐng)人:電子科技大學(xué)