一種數(shù)據(jù)挖掘方法及數(shù)據(jù)挖掘系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)挖掘方法及數(shù)據(jù)挖掘系統(tǒng),包括以下步驟:A、數(shù)據(jù)分隔;B、數(shù)據(jù)篩選;C、數(shù)據(jù)迭代處理;D、數(shù)據(jù)歸一化;E、結果判斷。本發(fā)明能夠解決現(xiàn)有技術的不足,通過優(yōu)化數(shù)據(jù)處理流程,顯著提高了對于大數(shù)據(jù)量的數(shù)據(jù)挖掘的處理速度。
【專利說明】一種數(shù)據(jù)挖掘方法及數(shù)據(jù)挖掘系統(tǒng)
【技術領域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘【技術領域】,涉及一種數(shù)據(jù)挖掘方法及數(shù)據(jù)挖掘系統(tǒng)。
【背景技術】
[0002]數(shù)據(jù)挖掘(Data Mining,DM)是目前人工智能和數(shù)據(jù)庫領域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策?,F(xiàn)有數(shù)據(jù)挖掘的方法計算量普遍較大,面對大數(shù)據(jù)量的數(shù)據(jù)源時經(jīng)常出現(xiàn)反應慢的問題。
【發(fā)明內容】
[0003]本發(fā)明的目的在于提供一種數(shù)據(jù)挖掘方法,解決了現(xiàn)有的現(xiàn)有數(shù)據(jù)挖掘的方法計算量較大的問題。
[0004]本發(fā)明的另一個目的是提供一種數(shù)據(jù)挖掘系統(tǒng)。
[0005]本發(fā)明所采用的技術方案是按照以下步驟進行:
[0006]A、數(shù)據(jù)分隔:從數(shù)據(jù)源中抽取若干個采樣數(shù)據(jù),其中采樣方法為系統(tǒng)每生成一個隨機數(shù),使用隨機數(shù)從數(shù)據(jù)源中抽取對應位置的數(shù)據(jù);計算采樣數(shù)據(jù)的分布關系,并根據(jù)采樣數(shù)據(jù)的分布關系將數(shù)據(jù)源中其余的數(shù)據(jù)進行分隔,形成若干個數(shù)據(jù)集合,每個采樣數(shù)據(jù)代表一個數(shù)據(jù)集合。每個采樣數(shù)據(jù)所包含的特征元素為其對應的數(shù)據(jù)集合的特征向量;根據(jù)數(shù)據(jù)類型和挖掘要求的不同而不同。
[0007]B、數(shù)據(jù)篩選:確定特征向量中各個元素的權重值,權重值根據(jù)各個元素對數(shù)據(jù)挖掘重要性的強弱進行設定,元素對數(shù)據(jù)挖掘的重要性使用I?10區(qū)間內的數(shù)值表示,設權重值為L,元素即特征向量的組成部分對數(shù)據(jù)挖掘的重要性參數(shù)為b,則L = b2,對特征向量進行修正;
[0008]C、數(shù)據(jù)迭代處理:迭代的目的是為了得到一個滿足標準的集合,提前設定的標準就是目標集合,根據(jù)目標集合的格式設置迭代矩陣,隨機選擇符合要求的迭代矩陣,通過循環(huán)迭代進行修正,逐步靠近目標。將數(shù)據(jù)集合與迭代矩陣相乘,然后與修正后的特征向量相乘,得到第一中間數(shù)據(jù)集合,求出第一中間數(shù)據(jù)集合與數(shù)據(jù)集合的第一偏移率;使用第一中間數(shù)據(jù)集合與迭代矩陣相乘,然后與修正后的特征向量相乘,得到第二中間數(shù)據(jù)集合,求出第二中間數(shù)據(jù)集合與第一中間數(shù)據(jù)集合的第二偏移率,當?shù)诙坡市∮诘谝黄坡蕰r,繼續(xù)上述迭代過程,直至第N偏移率小于設定的閾值,得到目標數(shù)據(jù)集合(目標數(shù)據(jù)集合即最后一次的中間數(shù)據(jù)集合,當?shù)诙坡蚀笥诘谝黄坡蕰r,修訂迭代矩陣,重新進行迭代;
[0009]D、數(shù)據(jù)歸一化:將目標數(shù)據(jù)集合內的數(shù)據(jù)進行歸一化,將歸一化過程中刪除的數(shù)據(jù)進行原始位置標記,并存入數(shù)據(jù)緩沖集合;原始位置標記采用三維數(shù)據(jù)組的形式,三個維度的數(shù)據(jù)分別為數(shù)據(jù)絕對位置、與上一個數(shù)據(jù)的相對位置、與下一個數(shù)據(jù)的相對位置;歸一化的目標函數(shù)方法:
[0010]方法1:歸一化的目標函數(shù)的形式為Y = ax2+bx+ex+c ;
[0011]方法2:歸一化的目標函數(shù)的形式為Y = ax3+bx2+tan(x/lnx);
[0012]E、結果判斷:根據(jù)數(shù)據(jù)歸一化的結果,從決策表中選取相應決策。決策表采用若干個堆棧結構并列設置而成。
[0013]進一步,所述步驟A中隨機數(shù)據(jù)選取過程:記數(shù)據(jù)源的數(shù)據(jù)總量與采樣數(shù)據(jù)的數(shù)量進行除法運算后的結果為a,例如數(shù)據(jù)源的數(shù)據(jù)總量為10000,采樣數(shù)據(jù)量為10,那么a就是1000。任意兩個隨機數(shù)的差值均大于a/5。
[0014]進一步,所述步驟B中數(shù)據(jù)集合優(yōu)選相鄰的兩個數(shù)據(jù)集合之間保留有10%~15%的重疊區(qū),重疊區(qū)域同一個數(shù)據(jù)屬于多個數(shù)據(jù)集合。
[0015]進一步,所述步驟B中特征向量修正過程為依照權重值由高至低的順序依次對數(shù)據(jù)集合進行篩選,根據(jù)篩選的結果對特征向量的元素進行修正f(x,y)代表修正的特征向量:
[0016]方式1:修正公式如下:
[0017]
【權利要求】
1.一種數(shù)據(jù)挖掘方法,其特征在于按照以下步驟進行: A、數(shù)據(jù)分隔:從數(shù)據(jù)源中抽取若干個采樣數(shù)據(jù),其中采樣方法為系統(tǒng)每生成一個隨機數(shù),使用隨機數(shù)從數(shù)據(jù)源中抽取對應位置的數(shù)據(jù);計算采樣數(shù)據(jù)的分布關系,并根據(jù)采樣數(shù)據(jù)的分布關系將數(shù)據(jù)源中其余的數(shù)據(jù)進行分隔,形成若干個數(shù)據(jù)集合; B、數(shù)據(jù)篩選:確定特征向量中各個元素的權重值,設權重值為L,元素即特征向量的組成部分對數(shù)據(jù)挖掘的重要性參數(shù)為b,則L = b2,對特征向量進行修正; C、數(shù)據(jù)迭代處理:迭代的目的是為了得到一個滿足標準的集合,根據(jù)目標集合的格式設置迭代矩陣,隨機選擇符合要求的迭代矩陣,通過循環(huán)迭代進行修正,逐步靠近目標;將數(shù)據(jù)集合與迭代矩陣相乘,然后與修正后的特征向量相乘,得到第一中間數(shù)據(jù)集合,求出第一中間數(shù)據(jù)集合與數(shù)據(jù)集合的第一偏移率;使用第一中間數(shù)據(jù)集合與迭代矩陣相乘,然后與修正后的特征向量相乘,得到第二中間數(shù)據(jù)集合,求出第二中間數(shù)據(jù)集合與第一中間數(shù)據(jù)集合的第二偏移率,當?shù)诙坡市∮诘谝黄坡蕰r,繼續(xù)上述迭代過程,直至第N偏移率小于設定的閾值,得到目標數(shù)據(jù)集合,當?shù)诙坡蚀笥诘谝黄坡蕰r,修訂迭代矩陣,重新進行迭代; D、數(shù)據(jù)歸一化:將目標數(shù)據(jù)集合內的數(shù)據(jù)進行歸一化,將歸一化過程中刪除的數(shù)據(jù)進行原始位置標記,并存入數(shù)據(jù)緩沖集合; E、結果判斷:根據(jù)數(shù)據(jù)歸一化的結果,從決策表中選取相應決策。
2.按照權利要求1所述一種數(shù)據(jù)挖掘方法,其特征在于:所述步驟A中隨機數(shù)據(jù)選取過程:記數(shù)據(jù)源的數(shù)據(jù)總量與采樣數(shù)據(jù)的數(shù)量進行除法運算后的結果為a,例如數(shù)據(jù)源的數(shù)據(jù)總量為10000,采樣數(shù)據(jù)量為10,那么a就是1000 ;任意兩個隨機數(shù)的差值均大于a/5。
3.按照權利要求1所述一種數(shù)據(jù)挖掘方法,其特征在于:所述步驟B中數(shù)據(jù)集合優(yōu)選相鄰的兩個數(shù)據(jù)集合之間保留有10%~15%的重疊區(qū),重疊區(qū)域同一個數(shù)據(jù)屬于多個數(shù)據(jù)集合。
4.按照權利要求1所述一種數(shù)據(jù)挖掘方法,其特征在于:所述步驟B中特征向量修正過程為依照權重值由高至低的順序依次對數(shù)據(jù)集合進行篩選,根據(jù)篩選的結果對特征向量的元素進行修正f(x,y)代表修正的特征向量: 方式1:修正公式如下:
5.按照權利要求1所述一種數(shù)據(jù)挖掘方法,其特征在于:所述步驟C中迭代矩陣采用對角矩陣。
6.按照權利要求1所述一種數(shù)據(jù)挖掘方法,其特征在于:所述步驟C中偏移率的計算方法為以下兩種: 方法1:其中偏移率的計算,首先計算每個數(shù)據(jù)間的歐氏距離,然后將其歐氏距離設置為歐氏距離矩陣,歐氏距離矩陣的特征值即為所求偏移率,閾值設定為上述歐氏距離的3 % ; 方法2:其中偏移率的計算,其過程為求出第N-1中間數(shù)據(jù)集合的加和平均值,第N中間數(shù)據(jù)集合與第N-1中間數(shù)據(jù)集合的偏移率為第N中間數(shù)據(jù)集合中各個數(shù)據(jù)與N-1中間數(shù)據(jù)集合平均值差值的加權平均值,其中加權值為步驟B中特征向量中各個元素的修正權重值;閾值為上述加權平均值的1%。
7.應用于權利要求1所述一種數(shù)據(jù)挖掘方法的數(shù)據(jù)挖掘系統(tǒng),其特征在于:包括 數(shù)據(jù)庫,用于存儲數(shù)據(jù)源; 分選模塊,用于將數(shù)據(jù)庫中數(shù)據(jù)源進行分隔; 篩選模塊,用于依據(jù)權重值對數(shù)據(jù)進行篩選和修正; 迭代模塊,用于對數(shù)據(jù)集合進行矩陣轉換,并迭代計算; 轉化模塊,用于對目標數(shù)據(jù)集合進行歸一化運算; 決策模塊,用于存儲決策條目,并根據(jù)選擇函數(shù)使用數(shù)據(jù)歸一化的結果進行選擇。
【文檔編號】G06F17/30GK103995873SQ201410219319
【公開日】2014年8月20日 申請日期:2014年5月22日 優(yōu)先權日:2014年5月22日
【發(fā)明者】劉艷秋, 王小虎, 王春影, 胡婷, 丁健生, 聞喆, 王旭 申請人:長春工業(yè)大學