專利名稱::數(shù)據(jù)挖掘方法和裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及通信
技術(shù)領(lǐng)域:
,特別涉及一種數(shù)據(jù)挖掘方法和裝置。
背景技術(shù):
:數(shù)據(jù)挖掘技術(shù)是近年來對人類生活影響最大的幾項信息技術(shù)(InformationTechnology;簡稱IT)技術(shù)之一。數(shù)據(jù)挖掘技術(shù)的目的是從大量的數(shù)據(jù)中快速、有效地挖掘出對預(yù)測趨勢和決策行為有用的信息,因此數(shù)據(jù)挖掘技術(shù)需要高效的搜索算法。遺傳算法由于其運算簡單和有效的解決問題的能力而被廣泛應(yīng)用到數(shù)據(jù)挖掘領(lǐng)域。理論上,遺傳算法可以從概率的意義上以隨機的方式尋求到問題的最優(yōu)數(shù)據(jù)。遺傳算法的主要算子包括選擇算子、交叉算子和變異算子。遺傳算法使用交叉算子可以從全局的角度出發(fā)找到一些較好的個體(染色體),它們有助于接近問題的最優(yōu)解。但僅使用交叉算子無法對搜索空間的細節(jié)進行局部搜索,這時使用變異算子來調(diào)整個體編碼串中的部分基因,可以從局部的角度出發(fā)使個體更加逼近最優(yōu)解。其中變異算子用于增加遺傳算法的局部搜索能力,變異操作是對種群模式的擾動,有利于增加種群的多樣性。但是,如果變異概率太小很難產(chǎn)生新模式,變異概率太大則會使遺傳算法成為隨機搜索算法?;具z傳算法使用基本位變異算子,即對個體編碼串中以變異概率P隨機指定某一位或某幾位基因進行變異,由于一般變異概率都很小,在現(xiàn)有的遺傳算法運算過程中以固定的變異概率變異所有基因位,在遺傳算法運算前期的全局搜索階段,不易產(chǎn)生新的個體,使算法易陷于早熟;在遺傳算法運算后期的局部搜索階段,變異概率小,發(fā)揮作用慢,局部搜索能力差。綜上所述,現(xiàn)有遺傳算法出現(xiàn)的主要問題是早熟、收斂速度慢,也存在局部尋優(yōu)能力較差的問題。
發(fā)明內(nèi)容本發(fā)明提供一種數(shù)據(jù)挖掘方法和裝置,目的是解決現(xiàn)有的數(shù)據(jù)挖掘采用的遺傳算法存在的早熟、收斂速度慢差等缺點,以減緩早熟,提高遺傳算法的收斂速度,快速準確地得到最優(yōu)數(shù)據(jù)。本發(fā)明提供一種數(shù)據(jù)挖掘方法,包括對由初始群體編碼得到的決策信息表進行屬性約簡,獲得所述決策信息表的屬性約簡集合;根據(jù)所述屬性約簡集合確定的遺傳算法,對所述初始群體進行選擇、交叉和變異運算,獲取最優(yōu)數(shù)據(jù)。本發(fā)明又提供一種數(shù)據(jù)挖掘裝置,包括屬性約簡模塊,用于對由初始群體編碼得到的決策信息表進行屬性約簡,獲得所述決策信息表的屬性約簡集合;遺傳算法模塊,用于根據(jù)所述屬性約簡集合確定的遺傳算法,對所述初始群體進行選擇、交叉和變異運算,獲取最優(yōu)數(shù)據(jù)。本發(fā)明提供的數(shù)據(jù)挖掘方法和裝置,對初始群體編碼得到的決策信息表進行屬性約簡后,根據(jù)得到的屬性約簡集合可以確定遺傳算法,采用該遺傳算法對初始群體進行選擇、交叉和變異運算,能夠加快遺傳算法的收斂速度,克服遺傳算法的早熟,快速準確地得到最優(yōu)數(shù)據(jù)。圖1為本發(fā)明數(shù)據(jù)挖掘方法第一實施例的流程圖;圖2為本發(fā)明數(shù)據(jù)挖掘方法第二實施例的流程圖;圖3為本發(fā)明數(shù)據(jù)挖掘方法第—三實施例的流程圖;圖4為本發(fā)明數(shù)據(jù)挖掘方法第—三實施例中最優(yōu)解查找部分的流程5為本發(fā)明數(shù)據(jù)挖掘方法第—三實施例中變異運算的流程圖;圖6為本發(fā)明數(shù)據(jù)挖掘裝置第一實施例的結(jié)構(gòu)示意圖;圖7為本發(fā)明數(shù)據(jù)挖掘裝置第二實施例的結(jié)構(gòu)示意圖。具體實施例方式下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。圖l為本發(fā)明數(shù)據(jù)挖掘方法第一實施例的流程圖,如圖l所示,該數(shù)據(jù)挖掘方法包括以下步驟步驟101、對由初始群體編碼得到的決策信息表進行屬性約簡,獲得所述決策信息表的屬性約簡集合。對初始群體編碼得到的決策信息表后,采用粗糙集的屬性約簡算法,可以對決策信息表進行屬性約簡,獲得決策信息表的屬性約簡集合,其中屬性約簡集合可以是決策信息表的最小屬性約簡集合。步驟102、根據(jù)所述屬性約簡集合確定的遺傳算法,對所述初始群體進行選擇、交叉和變異運算,獲取最優(yōu)數(shù)據(jù)。將決策信息表的屬性約簡集合包括的條件屬性作為關(guān)鍵基因位,決策信息表的除了屬性約簡集合以外的其它條件屬性作為非關(guān)鍵基因位,可以確定遺傳算法,設(shè)定遺傳算法中各個基因位的變異概率,例如將關(guān)鍵基因位的變異概率設(shè)定為P1,非關(guān)鍵基因位的變異概率設(shè)定為P2。然后,根據(jù)確定的遺傳算法,對初始群體進行選擇、交叉和變異運算后,可以將得到數(shù)據(jù)進行解碼后輸出最優(yōu)數(shù)據(jù)。本實施例對初始群體編碼得到的決策信息表進行屬性約簡后,根據(jù)得到的屬性約簡集合可以確定遺傳算法,采用該遺傳算法對初始群體進行選擇、交叉和變異運算,能夠加快遺傳算法的收斂速度,克服遺傳算法的早熟,快速準確地得到最優(yōu)數(shù)據(jù)。圖2為本發(fā)明數(shù)據(jù)挖掘方法第二實施例的流程圖,如圖2所示,在數(shù)據(jù)挖掘方法第一實施例的基礎(chǔ)上,在步驟101之前,該數(shù)據(jù)挖掘方法還可以包括步驟100、對每個初始群體中的染色體按照設(shè)定位數(shù)進行二進制編碼,得到所述決策信息表,每個初始群體中的染色體在所述決策信息表中對應(yīng)為一個樣本,所有初始群體中的染色體經(jīng)二進制編碼得到的相同基因位的數(shù)據(jù)在所述決策信息表中對應(yīng)為一個條件屬性子集,所述決策信息表中所有的條件屬性子集構(gòu)成條件屬性集合,每個樣本在所述決策信息表中對應(yīng)一個決策屬性,所有樣本的決策屬性在所述決策信息表中對應(yīng)為一個決策屬性集合。對每個初始群體中的染色體進行二進制編碼,可以得到?jīng)Q策信息系統(tǒng)S={U,Q,V,fh直觀表示為決策信息表的形式。其中,U為樣本的有限集合,在決策信息表中可以表示為{&,X2,X3,X4,X5......},每一個樣本對應(yīng)一個初始群體中的染色體。Q為屬性的有限集合,Q=CUD,C是條件屬性集合,在決策信息表中可以按照二進制編碼對應(yīng)表示為{Q,C2,C3,C4,C5,......},條件屬性集合C對應(yīng)著所有初始群體中的染色體經(jīng)二進制編碼得到的相同基因位的數(shù)據(jù)。D是決策屬性集合,在決策信息表中可以表示為WhC和D都是Q的子集。V為屬性的值域,對應(yīng)著每個基因位的取值范圍,例如在二進制中V二{0,1}。f可以表示為UXQ—V的映射,為U中各樣本的屬性指定惟一值,使每個樣本的屬性GU,qGQ),滿足f(Xi,q)GV,例如樣本&在條件屬性Q上的取值為0,則可以得到f,C》=0;樣本^在決策屬性上的取值為l,則可以得到f(&,d》=1。屬性約簡(AttributeReduction)是指在一個信息系統(tǒng)中,經(jīng)過屬性約簡后的屬性約簡集合具有同原始屬性集合相同的分類質(zhì)量,最小屬性約簡集合是指含有屬性個數(shù)最少的屬性約簡集合。因此,步驟101具體可以包括步驟201、從所述決策信息表的辨別矩陣中,獲取所述決策信息表的核心條件屬性子集。首先計算決策信息表的核心條件屬性子集CORE也稱為核,具體方法如下公式(1):CORE={cGC:1^.={c},1《j《i《n}(1)公式(1)中c為從可辨識矩陣M中選取的核心條件屬性,C為條件屬性集合;niij為可辨識矩陣M的元素??梢詮目杀孀R矩陣M中選取具有單一條件屬性子集的元素作為核心條件屬性子集;如果M中沒有單一條件屬性子集的元素,也可以選取出現(xiàn)頻率最多的條件屬性子集作為核心條件屬性子集;n為自然數(shù),表示初始種群中染色體的個數(shù)。步驟202、判斷所述決策信息表的決策屬性集合對所述核心條件屬性子集的依賴程度是否等于所述決策屬性集合對條件屬性集合的依賴程度,如果是,則將所述核心條件屬性作為屬性約簡集合;否則,執(zhí)行步驟203。決策信息表決策屬性集合D對任意一個條件屬性子集P的依賴程度(也稱相關(guān)程度)滿足公式(2):<formula>formulaseeoriginaldocumentpage7</formula>(2)公式(2)中,Y(P,D)為D對P的依賴程度,0《Y(P,D)《1;P^C;card(P0SP(D))為POSp(D)中元素的個數(shù);POSp(D)為P關(guān)于D的"正區(qū)域",表示根據(jù)P能夠正確分入的所有樣本。步驟203、判斷所述決策信息表的決策屬性集合對條件屬性集合中至少一個非核心條件屬性子集與所述核心條件屬性子集的并集的依賴程度是否等于所述決策屬性集合對條件屬性集合的依賴程度,如果是,則將所述至少一個非核心條件屬性子集與所述核心條件屬性子集的并集作為屬性約簡集合。得到?jīng)Q策信息表的屬性約簡集合后,還可以驗證該屬性約簡集合是否是該決策信息表的最小屬性約簡集合,驗證的方法是從屬性約簡集合RED(U)取出任意一個非核心條件屬性子集{a};如果決策屬性集合D對從屬性約簡集合取出任意一個{a}剩余的數(shù)據(jù)RED(U)-(al的依賴程度都不等于D對條件屬性集合C的依賴程度,則該屬性約簡集合為最小屬性約簡集合;否則,如果D對RED(U)-(al的依賴程度等于D對C的依賴程度,則將屬性約簡集合RED(U)替換為RED(U)-(ah再繼續(xù)循環(huán)執(zhí)行上述的驗證步驟,直到屬性約簡集合為最小屬性約簡集合為止??梢圆捎米钚傩约s簡集合作為后續(xù)確定遺傳算法的依據(jù),能夠減少遺傳算法的運算再進一步地,步驟102可以包括選擇、交叉和變異運算,具體為步驟204、根據(jù)每個初始群體中的染色體的適應(yīng)度計算所述初始群體對應(yīng)的遺傳概率,按照所述遺傳概率選擇第一數(shù)量個染色體??梢圆捎萌缦鹿?3)計算初始群體中每個初始群體中的染色體被選中遺傳到下一代群體的遺傳概率,然后按照遺傳概率選擇第一數(shù)量個染色體?!?F(X,)/2f(X,)(3)在公式(3)中,Pi為初始群體中第i個染色體的遺傳概率,F(xiàn)i為初始群體中第i個染色體的適應(yīng)度,本實施例中,假設(shè)染色體適應(yīng)度計算滿足函數(shù)F(Xi)=&2,M為初始群體中染色體的個數(shù)??梢苑諱次從M個初始種群中選定M個染色體。步驟205、隨機選取交叉點,根據(jù)設(shè)定的交叉概率從所述第一數(shù)量個染色體中選取第二數(shù)量個染色體,根據(jù)交叉點對所述第二數(shù)量個染色體上的基因位進行交叉運算。采用最優(yōu)保存策略,保留適應(yīng)度最大的一個染色體,對剩余的第二數(shù)量個染色體進行交叉運算。例如交叉點為3時,可以按照交叉概率將決策信息表的第3個基因位及其右端的基因位進行交叉。步驟206、根據(jù)設(shè)定的關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,對所述染色體的基因位進行變異運算,所述關(guān)鍵基因位為所述決策信息表的屬性約簡集合包括的基因位,所述非關(guān)鍵基因位為所述決策信息表的非屬性約簡集合包括的基因位,所述第一變異概率的初始值大于所述第二變異概率的初始值。其中,步驟206具體可以包括步驟2061、根據(jù)所述關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,隨機選取變異點;步驟2062、判斷所述變異點的基因位所屬的子代染色體的適應(yīng)度是否大于父代染色體的適應(yīng)度,如果是,則所述變異點的基因位變異,使所述變異點的基因位所屬的子代染色體替換父代染色體;否則,所述變異點的基因位不變異,使所述變異點的基因位所屬的父代染色體保持不變;步驟2063、將所述第一變異概率減去設(shè)定的第一差值、所述第二變異概率加上設(shè)定的第二差值、循環(huán)次數(shù)累加后,判斷所述循環(huán)次數(shù)是否達到設(shè)定的迭代次數(shù),如果是,則獲取當前適應(yīng)度最高的染色體;否則,可以返回執(zhí)行步驟204。步驟2061到步驟2063是變異運算的過程,變異運算可以分為全局搜索和局部搜索,在全局搜索時可以設(shè)定一個全局搜索次數(shù),例如假設(shè)迭代次數(shù)為N,可以將全局搜索次數(shù)設(shè)定為2N/3;當循環(huán)次數(shù)達到全局搜索次數(shù)時,結(jié)束全局搜索,開始局部搜索。然后,對當前適應(yīng)度最高的染色體進行二進制解碼后,可以得到并輸出最優(yōu)數(shù)據(jù)。在本實施例中,交叉概率、迭代次數(shù)、第一變異概率的初始值、第二變異概率的初始值、第一差值、第二差值等都可以預(yù)先設(shè)定,還可以預(yù)先設(shè)定第一變異概率減小到的閾值和第二變異概率增加到的閾值。本實施例采用粗糙集算法得到?jīng)Q策信息表的屬性約簡集合后,將屬性約簡結(jié)合包括的關(guān)鍵基因位作為確定遺傳算法的依據(jù),將關(guān)鍵基因位的第一變異概率初始值設(shè)定為大于非關(guān)鍵基因位的第二變異概率初始值,能夠加快遺傳算法的收斂速度;在全局搜索階段可以提高種群的多樣性,在局部搜索階段可以提高局部搜索能力;增加了遺傳算法的全局搜索能力和局部搜索能力,從而可以減緩早熟,提高收斂速度,快速準確地得到最優(yōu)數(shù)據(jù)。圖3為本發(fā)明數(shù)據(jù)挖掘方法第三實施例的流程圖,如圖3所示,在數(shù)據(jù)挖掘方法第一、第二實施例的基礎(chǔ)上,本實施例中以具體的數(shù)值為例對該數(shù)據(jù)挖掘方法進行說明,具體過程分為數(shù)據(jù)預(yù)處理部分301、屬性約簡部分302、最優(yōu)解查找部分303和數(shù)據(jù)展現(xiàn)部分304?!?、數(shù)據(jù)預(yù)處理部分301,對應(yīng)上述實施例中的步驟100。隨機取幾個位于之間的值,例如取值為{7,15,2,24,16,1},初始種群個數(shù)為M=6,對這6個初始種群的染色體進行二進制編碼后,得到的決策信息表可以如下表1。表1決策信息表<table>tableseeoriginaldocumentpage9</column></row><table>其中,表1對應(yīng)的決策信息系統(tǒng)為S={U,Q,V,f},U={XpX2,X3,X4,X5,X6}為樣本集合;Q為屬性集合,Q=CUD,C=C2,C3,C4,Cj為條件屬性集合,D=xv3r9jzsqg是決策屬性集合;(CJ到{CJ是條件屬性子集。表1中樣本的生成方法例如樣本乂4=24,進行二進制轉(zhuǎn)換后為11000,則樣本乂4的各個位的數(shù)值按照從低位到高位的順序進行排列對應(yīng)為{&,C2,C3,C4,C5}=(O,O,O,1,1},其它樣本依次類推,得到如表1所示的決策信息表中各個樣本對應(yīng)的各個位上的數(shù)值。并且,根據(jù)如下的公式(4),可以得到?jīng)Q策信息表中各個樣本對應(yīng)的決策屬性d的取值魂)。縱)=1,/(X,)2/(Z)1,仰一i;服)Lo,/(x;)</(x)............在公式(4)中,fd(Xi)是某個樣本對應(yīng)的第i位的數(shù)值,n為決策信息表中的樣本個數(shù)。另外,樣本在決策信息表中的排列順序也可以為從高位到低位,例如樣本^的各個位的數(shù)值也可以按照{(diào)C5,C4,C3,C2,={1,1,0,0,0}的排列順序生成決策信息表,如下表2:表2決策信息表<table>tableseeoriginaldocumentpage10</column></row><table>二、屬性約簡部分302,對應(yīng)上述實施例中的步驟101。利用粗糙集算法對6個初始種群中的染色體進行屬性約簡,可以得到關(guān)鍵基因位,這一過程實際上是對數(shù)據(jù)預(yù)處理后得到的決策信息表進行屬性約簡,得到該決策信息表的屬性約簡集合的過程。第一步,計算決策信息表的核心條件屬性子集CORE:需要計算決策信息表的辨別矩陣M,M中的元素mi,j的計算公式,參照如下公式(5):附'V=AX,,Xye/)的同一等價類AX,,X7.e"的不同等價類,對WeC,/(d,)=/(c,X》l{CeC:/(C,X,)*/(c,X》},e"的不同等價類(5)在公式(5)中,Xi,XjGU,U={XnX2,X3,X4,X5,X6},因此1《i《6,1《j《6,辨別矩陣M為一個6*6的矩陣;f(c,X》為決策信息表中樣本&與在條件屬性集合C中的各個屬性的數(shù)值,其中c屬于{C5,C4,C3,C2,C卩;小為空集。其中,辨識矩陣M的生成方法的示例如下(I)計算mu由于i=j=l,樣本A=X"從表1可知&,&在決策屬性集合D上對應(yīng)的取值均為O;可以得出Xi,Xj是D的同一等價類,所以mu二小;同理M對角線上所有的元素都等于小。(11)計算1%3由于i=2,j=3,從表1可知X2在D上對應(yīng)的取值為1,X3在決策屬性集合D上對應(yīng)的取值為0;因此,X2,X3是D的不同等價類。并且,在表1中f(C"X2)-f(Q,X3)、f(C2,X2)=f(C2,X3)、f(C3,X2)-f(C3,X3)、f(C4,X2)-f(C4,X3)、f(C5,X2)=f(C5,X3),因此,在辨識矩陣中,元素m2,3={Q,C3,C4}。同理可得元素m3,2={Q,C3,C4}。(111)計算1112,5由于i=2,j=5,從表1可知X2在D上對應(yīng)的取值為1,X5在D上對應(yīng)的取值為1,所以乂2,乂5是0的同一等價類,1112,5=(Km2,5=小,同理可得,1%2=(K綜上可得可辨別矩陣M為對稱矩陣。根據(jù)表1得到的可辨識矩陣M的(僅包括上三角元素)為如下公式(6):<formula>formulaseeoriginaldocumentpage11</formula>對所有的屬性cGC,cGC0RE(C,D)的充要條件是存在i,j(1《i<j《6),使得mi,j={c},即從可辨識矩陣M中選取具有單一條件屬性子集的元素作為核心條件屬性子集,因此從公式(6)可得CORE二{C4}。如果M中沒有單一條件屬性子集的元素,也可以選取出現(xiàn)頻率最高的條件屬性子集最為核心條件屬性子集。此時,核心條件屬性子集RED(U)=CORE={C4},C,=C-RED(U)={C"C2,C3,Cj。第二步,計算決策屬性集合D對核心條件屬性子集RED(U)的依賴程度,以及D對條件屬性集合的依賴程度:Y=(RED(U),D)和Y(C,D)。(I)Y(C,D)的計算方法滿足如下公式(7):在公式(7)中,POSc(D)=={PGU/C1U/D,且PGU/C}。其中,條件屬性等價類U/C表示樣本集合U在條件屬性集合C上的分類;從表1可知U/C為按C={Q,C2,C3,C4,CJ的取值對U={X"X2,X3,X4,X5,X6}進行分類,由于{7,15,2,24,16,1}都不相等,可以得到U/C二{{&},{X2},{X3},{X4},{X5},{X6}}。決策屬性等價類U/D表示樣本集合U在決策屬性集合D上的分類,按D=xv3r9jzsqg的取值對U={&,X2,X3,X4,X5,X6}進行分類,由于{XpX^Xe}在D上的取值為0,{X2,X4,XJ在D上的取值為1,因此U/D={{XpX^Xe},{X2,X4,XJ}。因此POSc(D)=={PgU/C1U/D,且PgU/C}={{Xj,{X2},{X3},{X4},{X5},(XeH,從而得到P0Sc(D)中元素的個數(shù)card(POSc(D))=6。而樣本集合U中元素的個數(shù)card(U)=6,所以y(C,D)=1。(II)y=(RED(U),D)的計算方法滿足如下公式(8):CfifW(POS"麵〃、(D))H及幼("),")=——^——,;)、w(8)在公式(8)中,POS輔)(D)={PgU/{C4}IU/D,且PgU/{C4}}。其中條件屬性等價類U/(CJ表示U在核心條件屬性子集RED(U)={CJ上的分類,U/{C4}={{X2,X4},{X!,X3,X5,X6}};決策屬性等價類U/D={{X"X3,X6},{X2,X4,X5}}。因此,POS腳加(D)={PgU/{C4}IU/D,且PgU/{C4}}={{X2,X4}}。從而得到:card(P0SKED(u)(D))=2,card(U)=6,所以y=(RED(U),D)=2/6。(II工)由于y=(RED(U),D)-y(C,D),此時令C,=C-RED(U)={q,C2,C3,C5}從C,中選擇一個非核心條件屬性子集{a}(agC'),使得SGF(a,RED(U),D)=max(SGF(ai,RED(U),D))。其中,SGF的計算方法滿足如下公式(9):假設(shè)從c'隨機選擇{a}=(:5,將(:5的取值代入公式(8)中,計算結(jié)果滿足如下公式(10):SOP(C5,M)(t/),£))=y(C5+-y(M)(t/),")一ca^尸as朋,)+c5(z)))—c^Y/(戶as朋D叨(D》(10)由于U在RED(U)+C5={C4,C5}上的分類U/{C4,C5}={{X2},{X4},仏,X3,X6},{X5}};U在決策屬性D上的分類U/D={{X"X3,X6},{X2,X4,Xj};因此,尸0S咖a/)+c5(。)=(PeU/{C4,C5}1U/D,且PgU/{C4,C5}}=HX"X3,XJ,{X2},{X4},{XJ}。從而得到card((Z>))=6,并且由于card(POS咖加(D))=2,代入公式(10)可以得出^<^((75^/)(^7),/))=^=委。66根據(jù)上述方法計算,同理可得SGF(C3,i^D(t/),_D)=4,6<formula>formulaseeoriginaldocumentpage13</formula>此外,由于SGF(C5,RED(U),D)的值最大,所以將非核心條件屬性子集{C5}與核心條件屬性子集RED(U)進行并集運算,得到RED(劇CJ=RED(U)+C5={C4,Cj。此時,D對該并集的依賴程度為以得到該決策信息表的屬性約簡集合為{C4,C5}。第三步,驗證屬性約簡集合是否是該決策信息表的最小屬性約簡集合。先計算屬性約簡集合中元素的個數(shù)I{C4,CJI=2,從屬性約簡集合中取出一個非核心條件屬性子集{C5},然后計算D對剩余的數(shù)據(jù)的依賴程度由于y"CJ,D)=y(RED(U),D)=2/6,與y(C,D)不相等,經(jīng)過屬性約簡后的屬性約簡集合{C4,C5}具有同原始屬性集合相同的分類質(zhì)量,而則取出{C5}后則達不到原始屬性集合的分類質(zhì)量,所以最小屬性約簡集是{c4,c5}。三、最優(yōu)解查找部分303和數(shù)據(jù)展現(xiàn)部分304,對應(yīng)上述實施例中的步驟102。將屬性約簡集合中的各個屬性作為關(guān)鍵基因位,可以確定遺傳算法,其中該屬性約簡集合可以是最小屬性約簡集合,也可以不是最小屬性約簡集合。根據(jù)最小屬性約簡集合確定,可以使遺傳算法的運算量較小,本實施例中以屬性約簡集合為最小屬性約簡集合為例進行說明。采用屬性約簡集合確定的遺傳算法,進行最優(yōu)解查找的過程包括選擇運算、交叉運算和變異運算。遺傳算法中的迭代次數(shù)和交叉概率等參數(shù)可以預(yù)先設(shè)定,本實施例中假設(shè)預(yù)先設(shè)定的迭代次數(shù)N=20,交叉概率Pc=75%。圖4為本發(fā)明數(shù)據(jù)挖掘方法第三實施例中最優(yōu)解查找部分的流程圖,如圖4所示,該最優(yōu)解查找部分包括以下步驟步驟401、計算每個初始群體中的染色體的適應(yīng)度Fi。步驟402、進行比例選擇運算。利用比例選擇算子,計算每個初始群體中的染色體被選中遺傳到下一代群體的概率,即遺傳概率。其中,比例選擇算子是指染色體被選中并遺傳到下一代群體中的概率與該染色體的適應(yīng)度大小成正比。比例選擇實際上是一種有退還隨機選擇,也叫做賭盤選擇(RouletteWheel),具體是先計算群體種所有染色體的適應(yīng)度的總和;再計算出每個染色體的相對適應(yīng)度的大小,即各染色體被遺傳到下一代群體中的概率;最后再使用模擬賭盤操作(即0到1之間的隨機數(shù))來確定各個染色體被選中的次數(shù)。遺傳概率滿足前述的公式(3)f,具體地計算結(jié)果示例當{X"X2,X3,X4,X5,X6}={7,15,2,24,16,1}時,每個初始群體中的染色體的適應(yīng)度分別為F(X》=X/=49,F(xiàn)(X2)=X22=225,F(xiàn)(X3)=4,F(xiàn)(X4)=576,F(xiàn)(X5)=256,F(xiàn)(X6)=l,遺傳到下一代的概率分別是pi=49/(49+225+4+576+256+1)=0.044p2=225/(49+225+4+576+256+1)=0.202;k({C4,C5},Z))=y(i幼(")+C5,£)=hy(C,")所以可p3=4/(49+225+4+576+256+1)=0.004p4=576/(49+225+4+576+256+1)=0.518p5=256/(49+225+4+576+256+1)=0.231p6=1/(49+225+4+576+256+1)=0.001對初始種群個數(shù)為M的所有染色體,按照遺傳概率Pi所決定的遺傳概率,分M次從M個初始種群中隨機選定M個染色體。假設(shè)本次選擇運算后,選擇的染色體分別為X/=11110(X2),X2'=00001(X5),V=11110(X2),X4,=00011(X4),X5,=00011(X4),X6,=00011(x4)。本實施例中的二進制編碼數(shù)值取自表1,皆為逆序表達。采用最優(yōu)保存策略,保留適應(yīng)度最大的染色體Xe'(Xe'不進行交叉和變異操作,X/和V的適應(yīng)度與Xe'相同,也可以保留V或x/),對其余的(V,V,V,V,V}進行后續(xù)的交叉和變異操作;步驟403、進行單點交叉運算。在本實施例中采用的交叉運算是采用單點交叉算子,隨機選擇交叉點,并將交叉點右端的基因進行交叉。因為設(shè)定的交叉概率Pc二75X,所以隨機對(V,V,V,V,V}中的4染色體進行交叉,例如X/和X2'交叉,X/和X/進行交叉。如果隨機選擇交叉點為第3位,對X/和X/進行交叉的過程如下V=15,二進制編碼11;110X/=24,二進制編碼00;011將二者虛線后的三位進行交換,就是從交叉點第3位開始交叉。交叉運算后,X3"=11011,X4"=00110。同理,X/和X/交叉后得到X/,二11001,X2"=00110;此外,其他的染色體數(shù)值不變,此時&"=&'=00011,X6"=X6,=00011。其中x6'適應(yīng)度最高,因此沒有參加交叉運算,而x/雖然參加了交叉運算,但未被選中。404、根據(jù)最小約簡集進行變異運算。其中,如圖5所示,為本發(fā)明數(shù)據(jù)挖掘方法第三實施例中變異運算的流程圖,該變異運算可以包括以下步驟步驟501、預(yù)先設(shè)定各個基因位的變異概率,假設(shè)將關(guān)鍵基因位的第一變異概率設(shè)定為P工=0.08,非關(guān)鍵基因位的第二變異概率設(shè)定為P2=0.Ol,其中,P工的初始值大于P2的初始值,第一變異概率減小到的閾值設(shè)定為Plm=0.005,第二變異概率增加到的閾值設(shè)定為P加=0.05。步驟502、判斷循環(huán)次數(shù)是否達到設(shè)定的迭代次數(shù),是則結(jié)束遺傳算法,否則執(zhí)行步驟503。步驟503、判斷是否是全局搜索階段,是則執(zhí)行步驟504,否則執(zhí)行步驟505。遺傳算法的變異運算的過程可以分為全局搜索階段和局部搜索階段,可以根據(jù)迭代次數(shù)劃分。這是由于遺傳算法是啟發(fā)式搜索算法,需要搜索一定的解空間以找到最優(yōu)解,而全局搜索階段就是在大范圍內(nèi)找最優(yōu)解,但遺傳算法最終要收斂,則必須縮小搜索范圍,進入局部搜索階段,即在某個解附近找最優(yōu)解。假設(shè)循環(huán)次數(shù)在2N/3次之前的變異運算屬于全局搜索階段,則當循環(huán)次數(shù)小于2N/3時,在全局搜索階段;大于或等于2N/3時,在局部搜索階段。步驟504、在全局搜索階段,對于最小屬性約簡集合決定的關(guān)鍵基因位以較大的第一變異概率Pi變異,對于其他的非關(guān)鍵基因位以較小的第二變異概率P2變異,在搜索過程中不斷調(diào)整各個基因位的變異概率,即關(guān)鍵基因位的Pi逐漸降低,其他基因位的P2逐漸增加,執(zhí)行步驟506。步驟505、在局部搜索階段,關(guān)鍵基因位的變異率P工一直降低到閾值P^=0.005,非關(guān)鍵基因位的變異率&一直增加到閾值P^=0.05,執(zhí)行步驟506。步驟506、在變異的過程中采用"精英保留策略",即對計算變異后的子代染色體的適應(yīng)度,判斷子代染色體的適應(yīng)度是否高于父代染色體的適應(yīng)度,則執(zhí)行步驟507,否則執(zhí)行步驟508。步驟507、用子代染色體取代父代染色體,返回執(zhí)行步驟502。步驟508、沿用父代的染色體,返回執(zhí)行步驟502。例如全局搜索階段開始時,P工=0.08,在最小屬性約簡集合決定的關(guān)鍵基因位共有6(染色體數(shù)量)*2(關(guān)鍵基因位數(shù)量)*0.08=0.96(約等于1)個基因位變異;P2=0.Ol,在其他非關(guān)鍵基因位共有6*4*0.01=0.24(四舍五入)不足1位基因位變異,因此非關(guān)鍵基因位基本不變異。根據(jù)P工和P2隨機選取變異點,例如在X/,中的第4位(C4在最小屬性約簡集合內(nèi))由"0"變異為"1",則V"=11011(27)。由于,X/"適應(yīng)度為27*27=729,大于X/,二11001的適應(yīng)度15*15=225,所以采用X/"=11011替代X/=11110。替換后的x/"適應(yīng)度大于原適應(yīng)度最高的染色體Xe",所將X/"作為適應(yīng)度最高的染色體不參與下一次的交叉和變異操作。由于關(guān)鍵基因位對應(yīng)的是{C4,C5},因此,在全局搜索階段主要變異的是染色體的第4基因位和第5基因位。所有染色體的所有基因位中每次只變異1個基因位,每次變異結(jié)束后,可以將Pi減去一個設(shè)定的第一差值(例如(P^-P》/N)和P2加上一個設(shè)定的第二差值(例如(P2m-P2)/N),并將循環(huán)次數(shù)加1(假設(shè)循環(huán)次數(shù)初始為0)。對變異后的新一代染色體,需要重新進行選擇和交叉運算后,再進行下一次變異。在全局搜索階段,循環(huán)進行2N/3次選擇、交叉、變異運算后,假設(shè)得到的染色體為X/"=11011(27)、X2",=00111(28)、X3",=11011(27)、X4",=00111(28)、X5",=00011(24)和X6=00011(24)。其中,V"適應(yīng)度最高。在局部搜索階段(假設(shè)為循環(huán)次數(shù)在后N/3次的變異運算屬于局部搜索階段),關(guān)鍵基因位的變異率Pi—直降低到閾值Plm=0.005,非關(guān)鍵基因位的變異率P2—直增加到閾值P^=0.05。假設(shè)P工=Plm=0.005,則在最小屬性集決定的關(guān)鍵基因位共有6(染色體數(shù)量)*2(關(guān)鍵基因位數(shù)量)*0.005=0.06,不足1位,關(guān)鍵基因位基本不變異;P2=P2m=0.05,在非關(guān)鍵基因位共有6*4*0.05=1.2,有1個基因位變異。根據(jù)當前的P工和P2隨機選取變異點,例如將X/"中的第3位由"0"變異為"1",則X/",=11111(31)。此時X/",的適應(yīng)度為31*13=961大于X/"的適應(yīng)度27*27=729,所以用&""=11111替代X/"=11011。替換后X/"'的適應(yīng)度大于原適應(yīng)度最高的染色體X/",所以X/"'作為適應(yīng)度最高的染色體不參與下一次的交叉和變異操作。15由于關(guān)鍵基因位對應(yīng)的是{CnC2,C3},因此,在局部搜索階段主要變異的是染色體的第1、2、3基因位。所有染色體的所有基因位中在局部搜素階段,每次變異運算時也只變異l個基因位。步驟405、判斷循環(huán)次數(shù)是否達到設(shè)定的迭代次數(shù)N,循環(huán)次數(shù)達到N后,結(jié)束遺傳算法,得到適應(yīng)度最高的染色體,否則返回執(zhí)行步驟401。本例中,11111為該遺傳算法得到的適應(yīng)度最高的染色體。數(shù)據(jù)展現(xiàn)部分具體為將11111解碼后,從二進制轉(zhuǎn)化為十進制,得到X/",=11111=31(逆序計算),最后輸出的最優(yōu)數(shù)據(jù)為31。下面舉例說明該數(shù)據(jù)挖掘方法在一個具體數(shù)據(jù)庫中的應(yīng)用。假設(shè),企業(yè)為了招聘到滿足一定需要的員工,在網(wǎng)上海量存儲各應(yīng)聘人員的簡歷,并將這些簡歷中的關(guān)鍵信息存入數(shù)據(jù)庫,在需要招聘時,篩選這些簡歷可以得到合適的人選。根據(jù)本發(fā)明數(shù)據(jù)挖掘方法,可以按照企業(yè)招聘的標準,快速從數(shù)據(jù)庫中查找到所需的信息,具體說明如下從如表3所示的存儲的雇傭歷史中,可以獲取相關(guān)的招聘標準,根據(jù)各個人員(XI到X6,相當于本發(fā)明實施例中的染色體)的具體信息,可以生成如表4所示的決策信息表。表3招聘歷史信息表學(xué)歷(m)實習經(jīng)驗(w)英語水平(e)計算機等級(c)結(jié)論(c)XI博士國家級項目六級3級雇用X2碩士企業(yè)級項目六級2級不雇用X3本科企業(yè)級項目四級3級不雇用X4本科國家級項目四級2級不雇用X5本科無四級無不雇用X6碩士企業(yè)級項目六級3級雇用表4決策信息表國家企業(yè)計算計算博士碩士本科級項級項英語英語機機二結(jié)論(Cl)(C2)(C3)百百六級四級三級級(d)(C4)(C5)(C6)(C7)(C8)(C9)XI1111011111X2011011101016<table>tableseeoriginaldocumentpage17</column></row><table>將表4中的數(shù)據(jù)代入本實施例中的粗糙集算法,可得該決策信息表的核心條件屬性子集CORE二(C8h屬性約簡集為{C1,C2,C8}。根據(jù)表3中歷史招聘信息可得,企業(yè)招聘時比較關(guān)注的是學(xué)歷和計算機等級(對應(yīng)屬性約簡集中的關(guān)鍵基因位)。然后根據(jù)屬性約簡集確定的遺傳算法,求解該企業(yè)的招聘標準,具體過程如下先確定各個員工在表4中對應(yīng)的適應(yīng)度函數(shù),由于適應(yīng)度函數(shù)需要綜合考慮表4中每個條件屬性子集對決策屬性集合的依賴程度,則轉(zhuǎn)化為求解適應(yīng)度函數(shù)的最大值的過程。根據(jù)不同的應(yīng)用實例,選取的適應(yīng)度函數(shù)可以不同。例如可以假設(shè)本例中各個染色體的適應(yīng)度函數(shù)滿足如下F(X):F(X)=C1*y({Cl},D)+C2*y({c2},D)+C3*y({c3},D)+C4*y({c4},D)+C5*y({cj,D)+C6*y({c6},D)+C7*y({c7},D)+C8*y({c8},D)+C9*y({c9},D)變異后的染色體的決策屬性d的取值按上述的公式(4)計算。然后,根據(jù)此適應(yīng)度函數(shù)進行選擇,交叉和變異運算,假設(shè)迭代次數(shù)為10次,使用比例選擇算子、單點交叉算子,且變異概率Pi=0.08、P2=0.01、Plm=0.005、P2m=0.05,用matlab仿真可得最優(yōu)數(shù)據(jù)是011011110,即歷史招聘信息顯示歷史的招聘標準是學(xué)歷碩士、項目經(jīng)驗是企業(yè)級項目、英語水平達六級、計算機等級到三級,符合此標準的可考慮錄用。本實施例采用粗糙集算法得到?jīng)Q策信息表的屬性約簡集合后,將屬性約簡結(jié)合包括的關(guān)鍵基因位作為確定遺傳算法的依據(jù),將關(guān)鍵基因位的第一變異概率初始值設(shè)定為大于非關(guān)鍵基因位的第二變異概率初始值,能夠加快遺傳算法的收斂速度;在全局搜索階段可以提高種群的多樣性,在局部搜索階段可以提高局部搜索能力;增加了遺傳算法的全局搜索能力和局部搜索能力,從而可以減緩早熟,提高收斂速度,快速準確地得到最優(yōu)數(shù)據(jù)。圖6為本發(fā)明數(shù)據(jù)挖掘裝置第一實施例的結(jié)構(gòu)示意圖,如圖6所示,該數(shù)據(jù)挖掘裝置包括屬性約簡模塊61和遺傳算法模塊62。其中,屬性約簡模塊61,用于對由初始群體編碼得到的決策信息表進行屬性約簡,獲得所述決策信息表的屬性約簡集合;遺傳算法模塊62,用于根據(jù)所述屬性約簡集合確定的遺傳算法,對所述初始群體進行選擇、交叉和變異運算,獲取最優(yōu)數(shù)據(jù)。具體地,屬性約簡模塊61采用粗糙計算法對由初始群體編碼得到的決策信息表進行屬性約簡后,可以得到?jīng)Q策信息表的屬性約簡集合,該屬性約簡集合可以是決策信息表的最小屬性約簡集合,也可以不是決策信息表的最小屬性約簡集合。遺傳算法模塊62根據(jù)屬性約簡集合中包括的關(guān)鍵基因位,可以確定遺傳算法,例如將關(guān)鍵基因位的變異概率的初始值設(shè)定為大于非關(guān)鍵基因位的變異概率的初始值,然后遺傳算法模塊62對該初始群體進行選擇、交叉和變異運算后,可以得到并編碼輸出最優(yōu)數(shù)據(jù)。本實施例屬性約簡模塊對初始群體編碼得到的決策信息表進行屬性約簡后,遺傳算法模塊根據(jù)得到的屬性約簡集合可以確定遺傳算法,采用該遺傳算法對初始群體進行選擇、交叉和變異運算,能夠加快遺傳算法的收斂速度,克服遺傳算法的早熟,快速準確地得到最優(yōu)數(shù)據(jù)。圖7為本發(fā)明數(shù)據(jù)挖掘裝置第二實施例的結(jié)構(gòu)示意圖,如圖7所示,在本發(fā)明數(shù)據(jù)挖掘裝置第一實施例的基礎(chǔ)上,該數(shù)據(jù)挖掘裝置還可以包括編碼模塊63,用于對每個初始群體中的染色體按照設(shè)定位數(shù)進行二進制編碼,得到所述決策信息表,每個初始群體中的染色體在所述決策信息表中對應(yīng)為一個樣本,所有初始群體中的染色體經(jīng)二進制編碼得到的相同基因位的數(shù)據(jù)在所述決策信息表中對應(yīng)為一個條件屬性子集,所述決策信息表中所有的條件屬性子集構(gòu)成條件屬性集合,每個樣本在所述決策信息表中對應(yīng)一個決策屬性,所有樣本的決策屬性在所述決策信息表中對應(yīng)為一個決策屬性集合。編碼模塊63對每個初始群體中的染色體進行二進制編碼,可以得到?jīng)Q策信息系統(tǒng)S=(U,Q,V,fh直觀表示為決策信息表的形式。具體可以參照本發(fā)明數(shù)據(jù)挖掘方法第二、第三實施例中的相關(guān)描述及表1、表2。進一步地,屬性約簡模塊61可以包括核心子模塊611和判斷子模塊612。其中,核心子模塊611,用于從所述決策信息表的辨別矩陣中,獲取所述決策信息表的核心條件屬性子集;判斷子模塊612,用于判斷所述決策信息表的決策屬性集合對所述核心條件屬性子集的依賴程度是否等于所述決策屬性集合對條件屬性集合的依賴程度,如果是,則將所述核心條件屬性作為屬性約簡集合;否則,判斷所述決策信息表的決策屬性集合對條件屬性集合中至少一個非核心條件屬性子集與所述核心條件屬性子集的并集的依賴程度是否等于所述決策屬性集合對條件屬性集合的依賴程度,如果是,則所述將至少一個非核心條件屬性子集與所述核心條件屬性子集的并集作為屬性約簡集合。具體地,核心子模塊611采用粗糙計算法從決策信息表的辨別矩陣中獲取核心條件屬性子集后,判斷子模塊612根據(jù)依賴程度進行屬性約簡集合的判斷,最終得到?jīng)Q策信息表的屬性約簡集合,具體過程可以參照本發(fā)明第二實施例中的步驟201到步驟203,以及第三實施例中的屬性約簡部分的相關(guān)描述。此外,遺傳算法模塊62可以包括選擇子模塊621、交叉子模塊622和變異子模塊623。其中,選擇子模塊621,用于根據(jù)每個初始群體中的染色體的適應(yīng)度計算所述初始群體對應(yīng)的遺傳概率,按照所述遺傳概率選擇第一數(shù)量個染色體;交叉子模塊622,用于隨機選取交叉點,根據(jù)設(shè)定的交叉概率從所述第一數(shù)量個染色體中選取第二數(shù)量個染色體,根據(jù)交叉點對所述第二數(shù)量個染色體上的基因位進行交叉運算;變異子模塊623,用于根據(jù)設(shè)定的關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,對所述染色體的基因位進行變異運算,所述關(guān)鍵基因位為所述決策信息表的屬性約簡集合包括的基因位,所述非關(guān)鍵基因位為所述決策信息表的非屬性約簡集合包括的基因位,所述第一變異概率的初始值大于所述第二變異概率的初始值。再進一步地,變異子模塊623可以包括變異點選取單元、適應(yīng)度判斷單元和獲取單元。其中,變異點選取單元,用于根據(jù)所述關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,隨機選取變異點;適應(yīng)度判斷單元,用于判斷所述變異點的基因位所屬的子代染色體的適應(yīng)度是否大于父代染色體的適應(yīng)度,如果是,則所述變異點的基因位變異,使所述變異點的基因位所屬的子代染色體替換父代染色體;否則,所述變異點的基因位不變異,使所述變異點的基因位所屬的父代染色體保持不變;獲取單元,用于將所述第一變異概率減去設(shè)定的第一差值、所述第二變異概率加上設(shè)定的第二差值、循環(huán)次數(shù)累加后,判斷所述循環(huán)次數(shù)是否達到設(shè)定的迭代次數(shù),如果是,則獲取當前適應(yīng)度最高的染色體。具體地,選擇子模塊621采用比例選擇算子,計算出初始群體對應(yīng)的遺傳概率,按照遺傳概率選擇第一數(shù)量個染色體;交叉子模塊622采用單點交叉算子,隨機選取交叉點后,根據(jù)設(shè)定的交叉概率將第二數(shù)量個染色體上的基因位進行交叉運算;然后變異子模塊623根據(jù)設(shè)定的關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,對染色體的基因位進行變異運算。在變異運算的過程中,變異點選取單元根據(jù)第一變異概率和第二變異概率,隨機選取變異點;適應(yīng)度判斷單元判斷選取的變異點的基因位所屬的子代染色體的適應(yīng)度是否大于父代染色體的適應(yīng)度,是則該變異點的基因位變異,使所述變異點的基因位所屬的子代染色體替換父代染色體;否則,該變異點的基因位不變異,使該變異點的基因位所屬的父代染色體保持不變。最后,循環(huán)次數(shù)達到設(shè)定的迭代次數(shù)后,獲取單元獲取當前適應(yīng)度最高的染色體。最后,遺傳算法模塊62可以將當前適應(yīng)度最高的染色體進行二進制解碼,輸出最優(yōu)數(shù)據(jù)。本實施例屬性約簡模塊的各個子模塊采用粗糙集算法得到?jīng)Q策信息表的屬性約簡集合后,遺傳算法模塊將屬性約簡結(jié)合包括的關(guān)鍵基因位作為確定遺傳算法的依據(jù),變異子模塊根據(jù)設(shè)定的關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率初始值進行變異運算,能夠加快遺傳算法的收斂速度;在全局搜索階段可以提高種群的多樣性,在局部搜索階段可以提高局部搜索能力;增加了遺傳算法的全局搜索能力和局部搜索能力,從而可以減緩早熟,提高收斂速度,快速準確地得到最優(yōu)數(shù)據(jù)。最后應(yīng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。19權(quán)利要求一種數(shù)據(jù)挖掘方法,其特征在于,包括對由初始群體編碼得到的決策信息表進行屬性約簡,獲得所述決策信息表的屬性約簡集合;根據(jù)所述屬性約簡集合確定的遺傳算法,對所述初始群體進行選擇、交叉和變異運算,獲取最優(yōu)數(shù)據(jù)。2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘方法,其特征在于,在所述對由初始群體編碼得到的決策信息表進行屬性約簡,獲得所述決策信息表的屬性約簡集合之前,還包括對每個初始群體中的染色體按照設(shè)定位數(shù)進行二進制編碼,得到所述決策信息表,每個初始群體中的染色體在所述決策信息表中對應(yīng)為一個樣本,所有初始群體中的染色體經(jīng)二進制編碼得到的相同基因位的數(shù)據(jù)在所述決策信息表中對應(yīng)為一個條件屬性子集,所述決策信息表中所有的條件屬性子集構(gòu)成條件屬性集合,每個樣本在所述決策信息表中對應(yīng)一個決策屬性,所有樣本的決策屬性在所述決策信息表中對應(yīng)為一個決策屬性集合。3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)挖掘方法,其特征在于,所述對由初始群體編碼得到的決策信息表進行屬性約簡,獲得所述決策信息表的屬性約簡集合,包括從所述決策信息表的辨別矩陣中,獲取所述決策信息表的核心條件屬性子集;判斷所述決策信息表的決策屬性集合對所述核心條件屬性子集的依賴程度是否等于所述決策屬性集合對條件屬性集合的依賴程度,如果是,則將所述核心條件屬性作為屬性約簡集合;否則,判斷所述決策信息表的決策屬性集合對條件屬性集合中至少一個非核心條件屬性子集與所述核心條件屬性子集的并集的依賴程度是否等于所述決策屬性集合對條件屬性集合的依賴程度,如果是,則將所述至少一個非核心條件屬性子集與所述核心條件屬性子集的并集作為屬性約簡集合。4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘方法,其特征在于,所述根據(jù)所述屬性約簡集合確定的遺傳算法,對所述初始群體進行選擇、交叉和變異運算,包括根據(jù)每個初始群體中的染色體的適應(yīng)度計算所述初始群體對應(yīng)的遺傳概率,按照所述遺傳概率選擇第一數(shù)量個染色體;隨機選取交叉點,根據(jù)設(shè)定的交叉概率從所述第一數(shù)量個染色體中選取第二數(shù)量個染色體,根據(jù)交叉點對所述第二數(shù)量個染色體上的基因位進行交叉運算;根據(jù)設(shè)定的關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,對所述染色體的基因位進行變異運算,所述關(guān)鍵基因位為所述決策信息表的屬性約簡集合包括的基因位,所述非關(guān)鍵基因位為所述決策信息表的非屬性約簡集合包括的基因位,所述第一變異概率的初始值大于所述第二變異概率的初始值。5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)挖掘方法,其特征在于,所述根據(jù)設(shè)定的關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,對所述染色體的基因位進行變異運算,包括根據(jù)所述關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,隨機選取變異點;判斷所述變異點的基因位所屬的子代染色體的適應(yīng)度是否大于父代染色體的適應(yīng)度,如果是,則所述變異點的基因位變異,使所述變異點的基因位所屬的子代染色體替換父代染色體;否則,所述變異點的基因位不變異,使所述變異點的基因位所屬的父代染色體保持不變;將所述第一變異概率減去設(shè)定的第一差值、所述第二變異概率加上設(shè)定的第二差值、循環(huán)次數(shù)累加后,判斷所述循環(huán)次數(shù)是否達到設(shè)定的迭代次數(shù),如果是,則獲取當前適應(yīng)度最高的染色體。6.—種數(shù)據(jù)挖掘裝置,其特征在于,包括屬性約簡模塊,用于對由初始群體編碼得到的決策信息表進行屬性約簡,獲得所述決策信息表的屬性約簡集合;遺傳算法模塊,用于根據(jù)所述屬性約簡集合確定的遺傳算法,對所述初始群體進行選擇、交叉和變異運算,獲取最優(yōu)數(shù)據(jù)。7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)挖掘裝置,其特征在于,還包括編碼模塊,用于對每個初始群體中的染色體按照設(shè)定位數(shù)進行二進制編碼,得到所述決策信息表,每個初始群體中的染色體在所述決策信息表中對應(yīng)為一個樣本,所有初始群體中的染色體經(jīng)二進制編碼得到的相同基因位的數(shù)據(jù)在所述決策信息表中對應(yīng)為一個條件屬性子集,所述決策信息表中所有的條件屬性子集構(gòu)成條件屬性集合,每個樣本在所述決策信息表中對應(yīng)一個決策屬性,所有樣本的決策屬性在所述決策信息表中對應(yīng)為一個決策屬性集合。8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)挖掘裝置,其特征在于,所述屬性約簡模塊包括核心子模塊,用于從所述決策信息表的辨別矩陣中,獲取所述決策信息表的核心條件屬性子集;判斷子模塊,用于判斷所述決策信息表的決策屬性集合對所述核心條件屬性子集的依賴程度是否等于所述決策屬性集合對條件屬性集合的依賴程度,如果是,則將所述核心條件屬性作為屬性約簡集合;否則,判斷所述決策信息表的決策屬性集合對條件屬性集合中至少一個非核心條件屬性子集與所述核心條件屬性子集的并集的依賴程度是否等于所述決策屬性集合對條件屬性集合的依賴程度,如果是,則將所述至少一個非核心條件屬性子集與所述核心條件屬性子集的并集作為屬性約簡集合。9.根據(jù)權(quán)利要求6所述的數(shù)據(jù)挖掘裝置,其特征在于,所述遺傳算法模塊包括選擇子模塊,用于根據(jù)每個初始群體中的染色體的適應(yīng)度計算所述初始群體對應(yīng)的遺傳概率,按照所述遺傳概率選擇第一數(shù)量個染色體;交叉子模塊,用于隨機選取交叉點,根據(jù)設(shè)定的交叉概率從所述第一數(shù)量個染色體中選取第二數(shù)量個染色體,根據(jù)交叉點對所述第二數(shù)量個染色體上的基因位進行交叉運算;變異子模塊,用于根據(jù)設(shè)定的關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,對所述染色體的基因位進行變異運算,所述關(guān)鍵基因位為所述決策信息表的屬性約簡集合包括的基因位,所述非關(guān)鍵基因位為所述決策信息表的非屬性約簡集合包括的基因位,所述第一變異概率的初始值大于所述第二變異概率的初始值。10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)挖掘裝置,其特征在于,所述變異子模塊包括變異點選取單元,用于根據(jù)所述關(guān)鍵基因位的第一變異概率和非關(guān)鍵基因位的第二變異概率,隨機選取變異點;適應(yīng)度判斷單元,用于判斷所述變異點的基因位所屬的子代染色體的適應(yīng)度是否大于父代染色體的適應(yīng)度,如果是,則所述變異點的基因位變異,使所述變異點的基因位所屬的子代染色體替換父代染色體;否則,所述變異點的基因位不變異,使所述變異點的基因位所屬的父代染色體保持不變;獲取單元,用于將所述第一變異概率減去設(shè)定的第一差值、所述第二變異概率加上設(shè)定的第二差值、循環(huán)次數(shù)累加后,判斷所述循環(huán)次數(shù)是否達到設(shè)定的迭代次數(shù),如果是,則獲取當前適應(yīng)度最高的染色體。全文摘要本發(fā)明涉及一種數(shù)據(jù)挖掘方法和裝置,其中,該數(shù)據(jù)挖掘方法,包括對由初始群體編碼得到的決策信息表進行屬性約簡,獲得所述決策信息表的屬性約簡集合;根據(jù)所述屬性約簡集合確定的遺傳算法,對所述初始群體進行選擇、交叉和變異運算,獲取最優(yōu)數(shù)據(jù)。本發(fā)明對初始群體編碼得到的決策信息表進行屬性約簡后,根據(jù)得到的屬性約簡集合可以確定遺傳算法,采用該遺傳算法對初始群體進行選擇、交叉和變異運算,能夠加快遺傳算法的收斂速度,克服遺傳算法的早熟,快速準確地得到最優(yōu)數(shù)據(jù)。文檔編號G06N3/12GK101706883SQ20091023727公開日2010年5月12日申請日期2009年11月9日優(yōu)先權(quán)日2009年11月9日發(fā)明者劉翼光,宋雙,高強,黃昭婷申請人:北京航空航天大學(xué)