專利名稱:一種海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于相關(guān)系數(shù)的海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng)。
背景技術(shù):
隨著信息化時代的到來,計算機(jī)的使用已經(jīng)深入到了我們的工作和生活的各個方面,在眾多的領(lǐng)域中,數(shù)據(jù)量都正在爆炸式的增長。當(dāng)數(shù)據(jù)量增長超過普通桌面硬盤的存儲容量時,稱之為海量數(shù)據(jù)。海量數(shù)據(jù)是一種重要的數(shù)據(jù)資源,包含了很多有用的信息。如何對海量的數(shù)據(jù)進(jìn)行管理并從中提取有用的知識是現(xiàn)在面臨的一個重大的問題。數(shù)據(jù)挖掘中的預(yù)處理主要是接受并理解用戶的發(fā)現(xiàn)要求,確定發(fā)現(xiàn)任務(wù),抽取與發(fā)現(xiàn)任務(wù)相關(guān)的知識源,根據(jù)與知識源相關(guān)的背景知識中的約束性規(guī)則對數(shù)據(jù)進(jìn)行檢查,通過清理和歸納等操作,生成供挖掘核心算法使用的目標(biāo)數(shù)據(jù),即知識基。知識基是原始數(shù)據(jù)庫經(jīng)過數(shù)據(jù)匯集處理得到的二維表,縱向為屬性,橫向為元組。它匯集了原始數(shù)據(jù)庫中與發(fā)現(xiàn)任務(wù)相關(guān)的所有數(shù)據(jù)的總體特征,是知識發(fā)現(xiàn)狀態(tài)空間的基地,也可以認(rèn)為是最初始的知識模板。而海量數(shù)據(jù)預(yù)處理的主要任務(wù)是對數(shù)據(jù)的縱向降維和橫向壓縮。目前對海量數(shù)據(jù)的處理大部分是采用分布式、硬件升級以及云計算相結(jié)合的方式來解決。如果不采用有效的預(yù)處理技術(shù),將極大的浪費這些寶貴的資源增加數(shù)據(jù)處理系統(tǒng)的壓力,因此找到一種高效的對海量數(shù)據(jù)的預(yù)處理的方法十分必要。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng),可以有效的對海量數(shù)據(jù)進(jìn)行降維和壓縮,便于從中提取有用的信息,提高資源的利用率,而不損失原數(shù)據(jù)的內(nèi)在信息。本發(fā)明提供的一種海量數(shù)據(jù)預(yù)處理方法,其改進(jìn)之處在于,所述方法包括如下步驟(I)將海量數(shù)據(jù)以時間片輪轉(zhuǎn)的方式進(jìn)行存儲,存儲為文本文件并從小到大順序編號
;(2)通過隨機(jī)數(shù)生成算法和取模運(yùn)算后,得到時間片編號,將此編號的時間片作為海量數(shù)據(jù)屬性相關(guān)性分析的抽樣樣本;(3)計算所述抽樣樣本中各個屬性間的相關(guān)系數(shù),建立屬性相關(guān)系數(shù)為權(quán)值的矩陣;(4)將所述矩陣通過和值計算得到各個屬性的相關(guān)性權(quán)值Wi,該權(quán)值代表了該屬性和其它屬性的相關(guān)性程度。(5)將屬性的相關(guān)性權(quán)值Wi (其中i G [l,q]),按照由大到小順序進(jìn)行排序,體現(xiàn)了屬性相關(guān)性的強(qiáng)弱排序;(6)選取所述相關(guān)性權(quán)值Wi由大到小的前n個屬性為要壓縮的屬性;
(7)將選取的n個屬性從屬性集中去除,留q_n個屬性,完成數(shù)據(jù)降維的過程;其中,n為要降的維度,q為屬性個數(shù);(8)選取所述相關(guān)性權(quán)值Wi由小到大的前m個屬性;其中m+n〈=q ;m為聚類分析的維數(shù);(9)將所述m個屬性進(jìn)行聚類分析,設(shè)定壓縮后的數(shù)據(jù)數(shù)量,采用k中心算法對其進(jìn)行計算分析,從而使數(shù)據(jù)壓縮為設(shè)定的量,并使壓縮后的數(shù)據(jù)具有代表性且保持?jǐn)?shù)據(jù)間的相互關(guān)系。優(yōu)選的,步驟(2)所述采用一個隨機(jī)數(shù)產(chǎn)生器,通過隨機(jī)數(shù)產(chǎn)生算法,將產(chǎn)生的數(shù)值對時間片的總數(shù)取模計算,得到的值作為抽樣時間片的編號;通過隨機(jī)數(shù)產(chǎn)生器產(chǎn)生隨機(jī)數(shù),對時間片總數(shù)取模運(yùn)算,得到抽樣時間片編號的公式為num = rand ()mod sum ; 其中,rand()為隨機(jī)數(shù)產(chǎn)生器,sum為時間片的總數(shù),num為最后抽樣的時間片編號。優(yōu)選的,步驟(3)計算屬性的相關(guān)系數(shù)的公式為
權(quán)利要求
1.一種海量數(shù)據(jù)預(yù)處理方法,其特征在于,所述方法包括如下步驟 (1)將海量數(shù)據(jù)以時間片輪轉(zhuǎn)的方式進(jìn)行存儲,存儲為文本文件并從小到大順序編號; (2)通過隨機(jī)數(shù)生成算法和取模運(yùn)算后,得到時間片編號,將此編號的時間片作為海量數(shù)據(jù)屬性相關(guān)性分析的抽樣樣本; (3)計算所述抽樣樣本中各個屬性間的相關(guān)系數(shù),建立屬性相關(guān)系數(shù)為權(quán)值的矩陣; (4)將所述矩陣通過和值計算得到各個屬性的相關(guān)性權(quán)值Wi; (5)將屬性的相關(guān)性權(quán)值Wi,按照由大到小順序進(jìn)行排序; (6)選取所述相關(guān)性權(quán)值Wi由大到小的前n個屬性為要壓縮的屬性; (7)將選取的n個屬性從屬性集中去除,留q_n個屬性,完成數(shù)據(jù)降維的過程;其中,n為要降的維度,q為屬性個數(shù); (8)選取所述相關(guān)性權(quán)值wi由小到大的前m個屬性;其中m+n〈=q;m為聚類分析的維數(shù); (9)將所述m個屬性進(jìn)行聚類分析,設(shè)定壓縮后的數(shù)據(jù)數(shù)量,采用k中心算法對其進(jìn)行計算分析,從而使數(shù)據(jù)壓縮為設(shè)定的量,并使壓縮后的數(shù)據(jù)具有代表性且保持?jǐn)?shù)據(jù)間的相互關(guān)系。
2.如權(quán)利要求I所述的預(yù)處理方法,其特征在于,步驟(2)所述采用一個隨機(jī)數(shù)產(chǎn)生器,通過隨機(jī)數(shù)產(chǎn)生算法,將產(chǎn)生的數(shù)值對時間片的總數(shù)取模計算,得到的值作為抽樣時間片的編號; 通過隨機(jī)數(shù)產(chǎn)生器產(chǎn)生隨機(jī)數(shù),對時間片總數(shù)取模運(yùn)算,得到抽樣時間片編號的公式為num = rand Omodsum ; 其中,rand()為隨機(jī)數(shù)產(chǎn)生器,sum為時間片的總數(shù),num為最后抽樣的時間片編號。
3.如權(quán)利要求I所述的預(yù)處理方法,其特征在于,步驟(3)計算屬性的相關(guān)系數(shù)的公式為 _ ^(A-A)(B-B) ^ (q-l)aAa,, 其中,I和I分別是A和B的均值,0 A和0 B是A和B的標(biāo)準(zhǔn)差,q為屬性個數(shù)。
4.如權(quán)利要求I所述的預(yù)處理方法,其特征在于,步驟(3)所述屬性相關(guān)系數(shù)為權(quán)值的矩陣為 1 …jU1 r H r_ qJm_ 其中,該矩陣為對稱矩陣,r.j為屬性i、j的相關(guān)系數(shù),q為屬性個數(shù)。
5.如權(quán)利要求I所述的預(yù)處理方法,其特征在于,步驟(3)和值計算公式為 W>4Zi|l;l 其中,為屬性i、j的相關(guān)系數(shù),q為屬性個數(shù)。
6.如權(quán)利要求I所述的預(yù)處理方法,其特征在于,步驟(2)采用一個隨機(jī)數(shù)產(chǎn)生器,將產(chǎn)生的數(shù)值對所述時間片的總數(shù)進(jìn)行取模計算,得到時間片編號。
7.如權(quán)利要求3所述的預(yù)處理方法,其特征在于,所述計算屬性的相關(guān)系數(shù)公式中,若rAB > O,則A增加B也增加,rAB越大,則A、B之間的關(guān)聯(lián)就越緊密;若rAB = 0,則A和B是獨立的;若< 0,則A和B是負(fù)相關(guān)的,一個值隨另一個值的減少而增加。
8.—種海量數(shù)據(jù)預(yù)處理系統(tǒng),其特征在于,所述系統(tǒng)包括海量數(shù)據(jù)抽樣模塊、相關(guān)系數(shù)矩陣處理模塊、數(shù)據(jù)降維模塊和數(shù)據(jù)壓縮模塊; 所述海量數(shù)據(jù)抽樣模塊用于對海量數(shù)據(jù)以時間片輪轉(zhuǎn)的方式進(jìn)行存儲,通過隨機(jī)數(shù)生成算法和取模運(yùn)算后,得到時間片編號,將此編號的時間片作為海量數(shù)據(jù)屬性相關(guān)性分析的抽樣樣本; 所述相關(guān)系數(shù)矩陣處理模塊用于得到抽樣樣本后,計算屬性間數(shù)據(jù)相關(guān)系數(shù),建立以相關(guān)系數(shù)為權(quán)值的屬性相關(guān)性矩陣,并對通過矩陣的和值計算得到的相關(guān)性權(quán)值排序; 所述數(shù)據(jù)降維模塊用于選取與其它屬性相關(guān)性強(qiáng)的屬性進(jìn)行降維; 所述數(shù)據(jù)壓縮模塊用于選取降維之后的與其它屬性相關(guān)性弱的屬性進(jìn)行聚類分析。
9.如權(quán)利要求7所述的預(yù)處理系統(tǒng),其特征在于,采用一個隨機(jī)數(shù)產(chǎn)生器,通過隨機(jī)數(shù)產(chǎn)生算法,將產(chǎn)生的數(shù)值對時間片的總數(shù)取模計算,得到的值作為時間片編號; 所述通過隨機(jī)數(shù)產(chǎn)生器產(chǎn)生隨機(jī)數(shù),對時間片總數(shù)取模運(yùn)算,得到抽樣時間片編號的公式為num = rand Omodsum ; 其中,rand()為隨機(jī)數(shù)產(chǎn)生器,sum為時間片的總數(shù),num為最后抽樣的時間片編號。
10.如權(quán)利要求7所述的預(yù)處理系統(tǒng),其特征在于,所述相關(guān)系數(shù)矩陣處理模塊計算屬性間相關(guān)系數(shù)的公式為 其中,S和5分別是A和B的均值,%和%是八和B的標(biāo)準(zhǔn)差,q為屬性個數(shù);若rAB> 0,則A增加B也增加,rAB越大,則A、B之間的關(guān)聯(lián)就越緊密;若rAB = 0,則A和B是獨立的;若I^ab < 0,則A和B是負(fù)相關(guān)的,一個值隨另一個值的減少而增加; 所述屬性相關(guān)性矩陣為 其中,該矩陣為對稱矩陣,r.j為屬性i、j的相關(guān)系數(shù),q為屬性個數(shù)。
11.如權(quán)利要求7所述的預(yù)處理系統(tǒng),其特征在于,所述和值計算公式為 W>=-ShKI 其中,為屬性i、j的相關(guān)系數(shù),q為屬性個數(shù)。
全文摘要
本發(fā)明涉及一種海量數(shù)據(jù)預(yù)處理方法及其系統(tǒng),通過以相關(guān)系數(shù)作為數(shù)據(jù)降維和壓縮的依據(jù),有效的利用的屬性之間的相關(guān)性。將海量數(shù)據(jù)以時間片輪轉(zhuǎn)的方式進(jìn)行存儲和順序編號,通過隨機(jī)數(shù)生成算法和取模運(yùn)算后,確定抽樣樣本的編號。提取樣本后進(jìn)行相關(guān)性的分析,將屬性間的相關(guān)系數(shù)作為屬性相關(guān)性矩陣的值,通過相關(guān)系數(shù)的計算得到體現(xiàn)屬性相關(guān)性的權(quán)值。權(quán)值越大即屬性的相關(guān)性越強(qiáng),反之亦然。以相關(guān)性分析為基礎(chǔ),將相關(guān)性強(qiáng)的屬性在降維過程中吸收掉,將相關(guān)性弱的屬性進(jìn)行聚類分析,有效的利用屬性相關(guān)性,在保持原數(shù)據(jù)內(nèi)在信息的基礎(chǔ)上,實現(xiàn)海量數(shù)據(jù)的降維和壓縮。
文檔編號G06F17/30GK102799682SQ20121026065
公開日2012年11月28日 申請日期2012年7月25日 優(yōu)先權(quán)日2012年5月10日
發(fā)明者李偉偉, 鄧松, 張濤, 林為民, 時堅, 汪晨, 周誠, 管小娟, 朱其軍, 蔣靜, 劉時敏, 錢炫宇 申請人:中國電力科學(xué)研究院