国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種混合數(shù)據(jù)挖掘方法

      文檔序號(hào):6426471閱讀:502來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):一種混合數(shù)據(jù)挖掘方法
      一種混合數(shù)據(jù)挖掘方法技術(shù)領(lǐng)域
      本發(fā)明屬于計(jì)算機(jī)軟件領(lǐng)域,特別涉及一種混合數(shù)據(jù)挖掘方法,及該方法在商業(yè)智能軟件的應(yīng)用。技術(shù)背景
      隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)庫(kù)技術(shù)及數(shù)據(jù)庫(kù)管理系統(tǒng)應(yīng)用日益廣泛,數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫(kù)中抽取出來(lái),將為公司創(chuàng)造很多潛在的利潤(rùn),而這種從海量數(shù)據(jù)庫(kù)中挖掘信息的技術(shù),就稱(chēng)之為數(shù)據(jù)挖掘(Data Mining-DM)。
      粗集理論是一種刻畫(huà)不完整性和不確定性信息的數(shù)學(xué)工具,能有效地分析和處理不精確、不一致、不完整等各種不完備信息,并從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律。粗集理論以觀察和測(cè)量所得的數(shù)據(jù)并進(jìn)行分類(lèi)的方法為基礎(chǔ),它認(rèn)為知識(shí)是基于對(duì)對(duì)象分類(lèi)的能力,知識(shí)直接與真實(shí)或抽象世界有關(guān)的不同分類(lèi)模式聯(lián)系在一起。粗集用上近似、下近似和邊界來(lái)刻畫(huà)信息的不確定性。
      神經(jīng)網(wǎng)絡(luò)是通過(guò)網(wǎng)絡(luò)中各連接權(quán)值的改變,實(shí)現(xiàn)信息的處理和存儲(chǔ)。在神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元既是信息的存儲(chǔ)單元,又是信息的處理單元,信息的處理與存儲(chǔ)合二為一,由這些神經(jīng)元構(gòu)成的網(wǎng)絡(luò)在每個(gè)神經(jīng)元的共同作用下,完成對(duì)輸入模式的識(shí)別與記憶。人工神經(jīng)網(wǎng)絡(luò)以神經(jīng)元間廣泛的互連分布來(lái)存貯信息,以非線(xiàn)性神經(jīng)元來(lái)協(xié)同處理信息。因此, 它具有大規(guī)模并行處理、極強(qiáng)的魯棒性和容錯(cuò)性,很強(qiáng)的自學(xué)習(xí)功能。
      由于粗集和神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的優(yōu)勢(shì)互補(bǔ)性,因此將兩種技術(shù)的有效結(jié)合是當(dāng)前的一個(gè)研究熱點(diǎn),已引起了許多學(xué)者的廣泛關(guān)注。
      在現(xiàn)行的各種結(jié)合方式中,粗集理論的屬性約簡(jiǎn)是其中的重要組成部分之一,通過(guò)用其對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)進(jìn)行約簡(jiǎn),減少網(wǎng)絡(luò)學(xué)習(xí)所需數(shù)據(jù)量,達(dá)到進(jìn)一步改善神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效率和精度的目的。然而在實(shí)際應(yīng)用中,對(duì)于一些規(guī)模較大的網(wǎng)絡(luò),粗集的處理效率還值得深入研究。發(fā)明內(nèi)容
      由于基于并行遺傳算法的屬性約簡(jiǎn)方法可有效解決數(shù)據(jù)量大、維數(shù)多時(shí)的快速約簡(jiǎn)問(wèn)題,因而可考慮首先用其對(duì)神經(jīng)網(wǎng)絡(luò)的輸入空間進(jìn)行快速選取,在此基礎(chǔ)上用神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)挖掘,以進(jìn)一步提高應(yīng)用粗集和神經(jīng)網(wǎng)絡(luò)對(duì)大型實(shí)際數(shù)據(jù)庫(kù)進(jìn)行挖掘時(shí)的效率。
      基于上述分析,本發(fā)明設(shè)計(jì)了一種利用粗集理論和神經(jīng)網(wǎng)絡(luò)的混合數(shù)據(jù)挖掘方法。
      為了實(shí)現(xiàn)發(fā)明目的,采用的技術(shù)原理如下
      對(duì)樣本數(shù)據(jù)進(jìn)行分析,然后據(jù)已知的領(lǐng)域知識(shí)形成一個(gè)初始的信息表,采用合理的離散方法對(duì)連續(xù)屬性進(jìn)行離散化,用基于遺傳算法的并行約簡(jiǎn)算法對(duì)數(shù)據(jù)進(jìn)行快速屬性約簡(jiǎn)(水平約簡(jiǎn)),以約簡(jiǎn)后的屬性作為輸入層神經(jīng)元,然后對(duì)數(shù)據(jù)進(jìn)行垂直約簡(jiǎn),包括消除數(shù)據(jù)中的不一致對(duì)象和冗余對(duì)象,最后用神經(jīng)網(wǎng)絡(luò)對(duì)處理后的精簡(jiǎn)數(shù)據(jù)進(jìn)行訓(xùn)練。并行約簡(jiǎn)算法的引入可以進(jìn)一步提高粗集和神經(jīng)網(wǎng)絡(luò)方法的整體挖掘效率。處理過(guò)程如圖1所7J\ ο


      圖1是本發(fā)明的數(shù)據(jù)處理流程圖。
      具體實(shí)施方式
      本方法的主要組成部分有
      (1)連續(xù)屬性離散化用粗集方法對(duì)數(shù)據(jù)進(jìn)行分析前,需要將連續(xù)變量離散化,離散化本質(zhì)上可歸結(jié)為利用選取的斷點(diǎn)來(lái)對(duì)條件屬性構(gòu)成的空間進(jìn)行劃分的問(wèn)題,把η維空間劃分成有限個(gè)區(qū)域,使得每個(gè)區(qū)域中的對(duì)象的決策值相同。常用的方法有距離劃分方法、等頻率劃分方法、Naive Scaler方法等。
      (2)決策表形成采用量化后的條件屬性和決策屬性值形成一張二維表格每一行描述一個(gè)對(duì)象,每一列對(duì)應(yīng)對(duì)象的一種屬性。
      (3)屬性約簡(jiǎn)決策表屬性約簡(jiǎn)的過(guò)程,就是從決策表系統(tǒng)的條件屬性中去掉不必要的的條件屬性,從而分析所得到約簡(jiǎn)中的條件屬性對(duì)于決策屬性的決策規(guī)則。本文所用流程
      輸入條件屬性集合C= {Y1LY12,……,Y53},決策屬性集合D = xv3r9jzsqg;
      輸出一個(gè)屬性約簡(jiǎn)集合REDU
      Stepl 計(jì)算條件屬性C有D正域POSC(D);
      乂印2:對(duì)屬性Yij e C,計(jì)算去除它所得到的條件屬性子集C\{Yij}的D正域 P0Sc\{Yij}(D);
      St印3 如果P0Sc\{Yij} (D) = POSC(D),則說(shuō)明屬性Yij對(duì)于決策屬性d是不必要的,這時(shí)C = C\{Yij},轉(zhuǎn)St印2 ;否則,輸出屬性約簡(jiǎn)REDU = C。
      (4)對(duì)象約簡(jiǎn)消除數(shù)據(jù)中的不一致對(duì)象和冗余對(duì)象,不一致對(duì)象為條件屬性相同而決策屬性不同的對(duì)象,冗余對(duì)象為條件屬性相同而決策屬性也相同的對(duì)象。
      (5)神經(jīng)網(wǎng)絡(luò)模型確定神經(jīng)網(wǎng)絡(luò)按類(lèi)型可分為BP網(wǎng)絡(luò)、ART網(wǎng)絡(luò)、RBF網(wǎng)絡(luò)和 LVM網(wǎng)絡(luò)等,本專(zhuān)利采用最常用的BP網(wǎng)絡(luò)。
      (6)網(wǎng)絡(luò)的學(xué)習(xí)與檢驗(yàn)根據(jù)神經(jīng)網(wǎng)絡(luò)模型輸入,從初始連續(xù)屬性決策表選擇相應(yīng)的訓(xùn)練數(shù)據(jù)和屬性對(duì)網(wǎng)絡(luò)訓(xùn)練,并用相應(yīng)的測(cè)試樣本進(jìn)行測(cè)試。
      本方法的具體實(shí)踐如下
      現(xiàn)將此方法應(yīng)用于某超市會(huì)員購(gòu)物的分析決策中,下面以會(huì)員特征分析為例進(jìn)行說(shuō)明營(yíng)銷(xiāo)分析人員希望分析出某段時(shí)間內(nèi),對(duì)顧客在超市購(gòu)物的變化起決定性作用的客戶(hù)特征,并以此為基礎(chǔ)對(duì)未來(lái)顧客的消費(fèi)趨勢(shì)進(jìn)行預(yù)測(cè)。其中,顧客這一主題所涉及的維有年齡、職業(yè)、收入、性別、婚姻狀況等。在相關(guān)人員的幫助下,我們從超市會(huì)員數(shù)據(jù)倉(cāng)庫(kù)中選取2005年1月至2006年5月間的數(shù)據(jù)進(jìn)行分析。結(jié)合現(xiàn)有數(shù)據(jù)的實(shí)際情況,選取的每條記錄中包括各不同年齡、收入、職業(yè)、性別、婚姻的客戶(hù)數(shù)目購(gòu)物金額變化率作為輸入的條件4屬性,整體的購(gòu)物金額變化率作為決策屬性D。以2005年1月至2005年12月的數(shù)據(jù)作為訓(xùn)練集,2006年1月至5月的數(shù)據(jù)作為測(cè)試集,按照本文的模型進(jìn)行處理,首先進(jìn)行維數(shù)約簡(jiǎn),得到對(duì)購(gòu)物金額變化率影響大的客戶(hù)類(lèi)型為年齡在30-40,收入在4000-6000,職業(yè)為文教業(yè),性別為男性的已婚客戶(hù),以此為基礎(chǔ)利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),采用圖1的結(jié)構(gòu), 神經(jīng)元激勵(lì)函數(shù)采用sigmoid函數(shù)。同時(shí)研究傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),粗糙集的預(yù)測(cè)結(jié)果,以比較本文所提模型的性能。通過(guò)比較可以看出本文提出的模型無(wú)論是在訓(xùn)練集還是測(cè)試集的預(yù)測(cè)精度都高于其他兩種網(wǎng)絡(luò)結(jié)構(gòu)的預(yù)測(cè)精度,這說(shuō)明了粗集預(yù)處理過(guò)程的有效性,粗集預(yù)處理的水平約簡(jiǎn)和垂直約簡(jiǎn)減小了網(wǎng)絡(luò)的規(guī)模,從而減少了網(wǎng)絡(luò)訓(xùn)練和測(cè)試的時(shí)間和復(fù)雜性;其中并行約簡(jiǎn)進(jìn)一步提高了本文模型的計(jì)算效率。
      權(quán)利要求
      1.一種混合數(shù)據(jù)挖掘方法,其特征在于集成了粗集理論和神經(jīng)網(wǎng)絡(luò)兩種方法;
      2.一種混合數(shù)據(jù)挖掘方法,其特征在于離散方法對(duì)連續(xù)屬性進(jìn)行離散化,在基于遺傳算法進(jìn)行約減;
      3.一種混合數(shù)據(jù)挖掘方法,其特征在于用神經(jīng)網(wǎng)絡(luò)對(duì)處理后的精簡(jiǎn)數(shù)據(jù)進(jìn)行訓(xùn)練。并行約簡(jiǎn)算法的引入可以進(jìn)一步提高粗集和神經(jīng)網(wǎng)絡(luò)方法的整體挖掘效率;
      4.根據(jù)權(quán)利要求2、3所述的混合數(shù)據(jù)挖掘方法,其特征在于采用的BP神經(jīng)網(wǎng)絡(luò)。
      全文摘要
      在處理大數(shù)據(jù)量,消除冗余信息等方面,粗集理論有著良好效果。而神經(jīng)網(wǎng)絡(luò)則具有獨(dú)特的模型結(jié)構(gòu)和固有的非線(xiàn)性模擬能力,以及高度的自適應(yīng)和容錯(cuò)特性等突出特征。因此,兩種技術(shù)的有效結(jié)合是近幾年數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)。本發(fā)明提出了一個(gè)新的混合挖掘方法。
      文檔編號(hào)G06N3/12GK102542335SQ201110162618
      公開(kāi)日2012年7月4日 申請(qǐng)日期2011年6月16日 優(yōu)先權(quán)日2011年6月16日
      發(fā)明者嚴(yán)道平 申請(qǐng)人:廣州市龍?zhí)┬畔⒓夹g(shù)有限公司
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1