一種海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng)的制作方法

文檔序號：6571569閱讀：330來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域，具體涉及一種基于相關(guān)系數(shù)的海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng)。
背景技術(shù)：
隨著信息化時代的到來，計算機(jī)的使用已經(jīng)深入到了我們的工作和生活的各個方面，在眾多的領(lǐng)域中，數(shù)據(jù)量都正在爆炸式的增長。當(dāng)數(shù)據(jù)量增長超過普通桌面硬盤的存儲容量時，稱之為海量數(shù)據(jù)。海量數(shù)據(jù)是一種重要的數(shù)據(jù)資源，包含了很多有用的信息。如何對海量的數(shù)據(jù)進(jìn)行管理并從中提取有用的知識是現(xiàn)在面臨的一個重大的問題。數(shù)據(jù)挖掘中的預(yù)處理主要是接受并理解用戶的發(fā)現(xiàn)要求，確定發(fā)現(xiàn)任務(wù)，抽取與發(fā)現(xiàn)任務(wù)相關(guān)的知識源，根據(jù)與知識源相關(guān)的背景知識中的約束性規(guī)則對數(shù)據(jù)進(jìn)行檢查，通過清理和歸納等操作，生成供挖掘核心算法使用的目標(biāo)數(shù)據(jù)，即知識基。知識基是原始數(shù)據(jù)庫經(jīng)過數(shù)據(jù)匯集處理得到的二維表，縱向為屬性，橫向為元組。它匯集了原始數(shù)據(jù)庫中與發(fā)現(xiàn)任務(wù)相關(guān)的所有數(shù)據(jù)的總體特征，是知識發(fā)現(xiàn)狀態(tài)空間的基地，也可以認(rèn)為是最初始的知識模板。而海量數(shù)據(jù)預(yù)處理的主要任務(wù)是對數(shù)據(jù)的縱向降維和橫向壓縮。目前對海量數(shù)據(jù)的處理大部分是采用分布式、硬件升級以及云計算相結(jié)合的方式來解決。如果不采用有效的預(yù)處理技術(shù)，將極大的浪費這些寶貴的資源增加數(shù)據(jù)處理系統(tǒng)的壓力，因此找到一種高效的對海量數(shù)據(jù)的預(yù)處理的方法十分必要。

發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足，本發(fā)明提供一種海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng)，可以有效的對海量數(shù)據(jù)進(jìn)行降維和壓縮，便于從中提取有用的信息，提高資源的利用率，而不損失原數(shù)據(jù)的內(nèi)在信息。本發(fā)明提供的一種海量數(shù)據(jù)預(yù)處理方法，其改進(jìn)之處在于，所述方法包括如下步驟(I)將海量數(shù)據(jù)以時間片輪轉(zhuǎn)的方式進(jìn)行存儲，存儲為文本文件并從小到大順序編號
；(2)通過隨機(jī)數(shù)生成算法和取模運(yùn)算后，得到時間片編號，將此編號的時間片作為海量數(shù)據(jù)屬性相關(guān)性分析的抽樣樣本；(3)計算所述抽樣樣本中各個屬性間的相關(guān)系數(shù)，建立屬性相關(guān)系數(shù)為權(quán)值的矩陣；(4)將所述矩陣通過和值計算得到各個屬性的相關(guān)性權(quán)值Wi，該權(quán)值代表了該屬性和其它屬性的相關(guān)性程度。(5)將屬性的相關(guān)性權(quán)值Wi (其中i G [l，q])，按照由大到小順序進(jìn)行排序，體現(xiàn)了屬性相關(guān)性的強(qiáng)弱排序；(6)選取所述相關(guān)性權(quán)值Wi由大到小的前n個屬性為要壓縮的屬性；
(7)將選取的n個屬性從屬性集中去除，留q_n個屬性，完成數(shù)據(jù)降維的過程；其中，n為要降的維度，q為屬性個數(shù)；(8)選取所述相關(guān)性權(quán)值Wi由小到大的前m個屬性；其中m+n〈=q ;m為聚類分析的維數(shù)；(9)將所述m個屬性進(jìn)行聚類分析，設(shè)定壓縮后的數(shù)據(jù)數(shù)量，采用k中心算法對其進(jìn)行計算分析，從而使數(shù)據(jù)壓縮為設(shè)定的量，并使壓縮后的數(shù)據(jù)具有代表性且保持?jǐn)?shù)據(jù)間的相互關(guān)系。優(yōu)選的，步驟(2)所述采用一個隨機(jī)數(shù)產(chǎn)生器，通過隨機(jī)數(shù)產(chǎn)生算法，將產(chǎn)生的數(shù)值對時間片的總數(shù)取模計算，得到的值作為抽樣時間片的編號；通過隨機(jī)數(shù)產(chǎn)生器產(chǎn)生隨機(jī)數(shù)，對時間片總數(shù)取模運(yùn)算，得到抽樣時間片編號的公式為num = rand ()mod sum ；其中，rand()為隨機(jī)數(shù)產(chǎn)生器，sum為時間片的總數(shù)，num為最后抽樣的時間片編號。優(yōu)選的，步驟(3)計算屬性的相關(guān)系數(shù)的公式為
權(quán)利要求
1.一種海量數(shù)據(jù)預(yù)處理方法，其特征在于，所述方法包括如下步驟 (1)將海量數(shù)據(jù)以時間片輪轉(zhuǎn)的方式進(jìn)行存儲，存儲為文本文件并從小到大順序編號; (2)通過隨機(jī)數(shù)生成算法和取模運(yùn)算后，得到時間片編號，將此編號的時間片作為海量數(shù)據(jù)屬性相關(guān)性分析的抽樣樣本； (3)計算所述抽樣樣本中各個屬性間的相關(guān)系數(shù)，建立屬性相關(guān)系數(shù)為權(quán)值的矩陣； (4)將所述矩陣通過和值計算得到各個屬性的相關(guān)性權(quán)值Wi； (5)將屬性的相關(guān)性權(quán)值Wi,按照由大到小順序進(jìn)行排序； (6)選取所述相關(guān)性權(quán)值Wi由大到小的前n個屬性為要壓縮的屬性； (7)將選取的n個屬性從屬性集中去除，留q_n個屬性，完成數(shù)據(jù)降維的過程；其中，n為要降的維度，q為屬性個數(shù)； (8)選取所述相關(guān)性權(quán)值wi由小到大的前m個屬性；其中m+n〈=q；m為聚類分析的維數(shù)； (9)將所述m個屬性進(jìn)行聚類分析，設(shè)定壓縮后的數(shù)據(jù)數(shù)量，采用k中心算法對其進(jìn)行計算分析，從而使數(shù)據(jù)壓縮為設(shè)定的量，并使壓縮后的數(shù)據(jù)具有代表性且保持?jǐn)?shù)據(jù)間的相互關(guān)系。
2.如權(quán)利要求I所述的預(yù)處理方法，其特征在于，步驟(2)所述采用一個隨機(jī)數(shù)產(chǎn)生器，通過隨機(jī)數(shù)產(chǎn)生算法，將產(chǎn)生的數(shù)值對時間片的總數(shù)取模計算，得到的值作為抽樣時間片的編號；通過隨機(jī)數(shù)產(chǎn)生器產(chǎn)生隨機(jī)數(shù)，對時間片總數(shù)取模運(yùn)算，得到抽樣時間片編號的公式為num = rand Omodsum ；其中，rand()為隨機(jī)數(shù)產(chǎn)生器，sum為時間片的總數(shù)，num為最后抽樣的時間片編號。
3.如權(quán)利要求I所述的預(yù)處理方法，其特征在于，步驟(3)計算屬性的相關(guān)系數(shù)的公式為 _ ^(A-A)(B-B) ^ (q-l)aAa,, 其中，I和I分別是A和B的均值，0 A和0 B是A和B的標(biāo)準(zhǔn)差，q為屬性個數(shù)。
4.如權(quán)利要求I所述的預(yù)處理方法，其特征在于，步驟(3)所述屬性相關(guān)系數(shù)為權(quán)值的矩陣為 1 …jU1 r H r_ qJm_ 其中，該矩陣為對稱矩陣，r.j為屬性i、j的相關(guān)系數(shù)，q為屬性個數(shù)。
5.如權(quán)利要求I所述的預(yù)處理方法，其特征在于，步驟(3)和值計算公式為 W>4Zi|l；l 其中，為屬性i、j的相關(guān)系數(shù)，q為屬性個數(shù)。
6.如權(quán)利要求I所述的預(yù)處理方法，其特征在于，步驟(2)采用一個隨機(jī)數(shù)產(chǎn)生器，將產(chǎn)生的數(shù)值對所述時間片的總數(shù)進(jìn)行取模計算，得到時間片編號。
7.如權(quán)利要求3所述的預(yù)處理方法，其特征在于，所述計算屬性的相關(guān)系數(shù)公式中，若rAB > O，則A增加B也增加，rAB越大，則A、B之間的關(guān)聯(lián)就越緊密；若rAB = 0,則A和B是獨立的；若< 0，則A和B是負(fù)相關(guān)的，一個值隨另一個值的減少而增加。
8.—種海量數(shù)據(jù)預(yù)處理系統(tǒng)，其特征在于，所述系統(tǒng)包括海量數(shù)據(jù)抽樣模塊、相關(guān)系數(shù)矩陣處理模塊、數(shù)據(jù)降維模塊和數(shù)據(jù)壓縮模塊；所述海量數(shù)據(jù)抽樣模塊用于對海量數(shù)據(jù)以時間片輪轉(zhuǎn)的方式進(jìn)行存儲，通過隨機(jī)數(shù)生成算法和取模運(yùn)算后，得到時間片編號，將此編號的時間片作為海量數(shù)據(jù)屬性相關(guān)性分析的抽樣樣本；所述相關(guān)系數(shù)矩陣處理模塊用于得到抽樣樣本后，計算屬性間數(shù)據(jù)相關(guān)系數(shù)，建立以相關(guān)系數(shù)為權(quán)值的屬性相關(guān)性矩陣，并對通過矩陣的和值計算得到的相關(guān)性權(quán)值排序；所述數(shù)據(jù)降維模塊用于選取與其它屬性相關(guān)性強(qiáng)的屬性進(jìn)行降維；所述數(shù)據(jù)壓縮模塊用于選取降維之后的與其它屬性相關(guān)性弱的屬性進(jìn)行聚類分析。
9.如權(quán)利要求7所述的預(yù)處理系統(tǒng)，其特征在于，采用一個隨機(jī)數(shù)產(chǎn)生器，通過隨機(jī)數(shù)產(chǎn)生算法，將產(chǎn)生的數(shù)值對時間片的總數(shù)取模計算，得到的值作為時間片編號；所述通過隨機(jī)數(shù)產(chǎn)生器產(chǎn)生隨機(jī)數(shù)，對時間片總數(shù)取模運(yùn)算，得到抽樣時間片編號的公式為num = rand Omodsum ；其中，rand()為隨機(jī)數(shù)產(chǎn)生器，sum為時間片的總數(shù)，num為最后抽樣的時間片編號。
10.如權(quán)利要求7所述的預(yù)處理系統(tǒng)，其特征在于，所述相關(guān)系數(shù)矩陣處理模塊計算屬性間相關(guān)系數(shù)的公式為其中，S和5分別是A和B的均值，％和％是八和B的標(biāo)準(zhǔn)差，q為屬性個數(shù)；若rAB> 0，則A增加B也增加，rAB越大，則A、B之間的關(guān)聯(lián)就越緊密；若rAB = 0,則A和B是獨立的；若I^ab < 0，則A和B是負(fù)相關(guān)的，一個值隨另一個值的減少而增加；所述屬性相關(guān)性矩陣為其中，該矩陣為對稱矩陣，r.j為屬性i、j的相關(guān)系數(shù)，q為屬性個數(shù)。
11.如權(quán)利要求7所述的預(yù)處理系統(tǒng)，其特征在于，所述和值計算公式為 W>=-ShKI 其中，為屬性i、j的相關(guān)系數(shù)，q為屬性個數(shù)。
全文摘要
本發(fā)明涉及一種海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng)，通過以相關(guān)系數(shù)作為數(shù)據(jù)降維和壓縮的依據(jù)，有效的利用的屬性之間的相關(guān)性。將海量數(shù)據(jù)以時間片輪轉(zhuǎn)的方式進(jìn)行存儲和順序編號，通過隨機(jī)數(shù)生成算法和取模運(yùn)算后，確定抽樣樣本的編號。提取樣本后進(jìn)行相關(guān)性的分析，將屬性間的相關(guān)系數(shù)作為屬性相關(guān)性矩陣的值，通過相關(guān)系數(shù)的計算得到體現(xiàn)屬性相關(guān)性的權(quán)值。權(quán)值越大即屬性的相關(guān)性越強(qiáng)，反之亦然。以相關(guān)性分析為基礎(chǔ)，將相關(guān)性強(qiáng)的屬性在降維過程中吸收掉，將相關(guān)性弱的屬性進(jìn)行聚類分析，有效的利用屬性相關(guān)性，在保持原數(shù)據(jù)內(nèi)在信息的基礎(chǔ)上，實現(xiàn)海量數(shù)據(jù)的降維和壓縮。
文檔編號G06F17/30GK102799682SQ20121026065
公開日2012年11月28日申請日期2012年7月25日優(yōu)先權(quán)日2012年5月10日
發(fā)明者李偉偉, 鄧松, 張濤, 林為民, 時堅, 汪晨, 周誠, 管小娟, 朱其軍, 蔣靜, 劉時敏, 錢炫宇申請人:中國電力科學(xué)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李偉偉;鄧松;張濤;林為民;時堅;汪晨;周誠;管小娟;朱其軍;蔣靜;劉時敏;錢炫宇
技術(shù)所有人：中國電力科學(xué)研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)預(yù)處理方法相關(guān)技術(shù)

數(shù)據(jù)預(yù)處理的方法相關(guān)技術(shù)

數(shù)據(jù)預(yù)處理方法和內(nèi)容相關(guān)技術(shù)

spss數(shù)據(jù)預(yù)處理方法相關(guān)技術(shù)

圖像數(shù)據(jù)預(yù)處理方法相關(guān)技術(shù)

大數(shù)據(jù)預(yù)處理方法相關(guān)技術(shù)

數(shù)據(jù)清洗與預(yù)處理方法相關(guān)技術(shù)

大數(shù)據(jù)的預(yù)處理方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng)的制作方法