基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)及其應(yīng)用方法
【專利摘要】本發(fā)明公開了一種基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)及其應(yīng)用方法,主要解決了現(xiàn)有技術(shù)中存在的數(shù)據(jù)倉(cāng)庫(kù)不能滿足用戶對(duì)海量數(shù)據(jù)信息存儲(chǔ)與提取的可靠性、一致性和共享性的要求的問(wèn)題。其包括:數(shù)據(jù)抽取層:抽取聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源及脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中的數(shù)據(jù),并將抽取的數(shù)據(jù)導(dǎo)入數(shù)據(jù)存儲(chǔ)層;數(shù)據(jù)存儲(chǔ)層:包括對(duì)面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的數(shù)據(jù)進(jìn)行存儲(chǔ)的ODS,對(duì)企業(yè)級(jí)數(shù)據(jù)進(jìn)行存儲(chǔ)的EDW,以及數(shù)據(jù)集市;數(shù)據(jù)訪問(wèn)層:以報(bào)表、圖形或者數(shù)據(jù)分析的方式對(duì)數(shù)據(jù)存儲(chǔ)層中的數(shù)據(jù)進(jìn)行訪問(wèn),并進(jìn)行分析預(yù)測(cè)。通過(guò)上述方案,本發(fā)明達(dá)到了安全可靠、便捷地對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)與訪問(wèn)的目的,具有很高的實(shí)用價(jià)值和推廣價(jià)值。
【專利說(shuō)明】基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)及其應(yīng)用方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)倉(cāng)庫(kù),具體地說(shuō),是涉及一種基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)及其應(yīng)用方法。
【背景技術(shù)】
[0002]隨著電力工業(yè)的飛速發(fā)展和計(jì)算機(jī)技術(shù)在電力系統(tǒng)中的普及,調(diào)度自動(dòng)化、能量管理系統(tǒng)(EMS)及地理信息管理系統(tǒng)(GIS)等已在電網(wǎng)中得到了愈來(lái)愈廣泛的應(yīng)用。電網(wǎng)規(guī)模的不斷擴(kuò)大使得如何對(duì)海量、時(shí)變及移動(dòng)數(shù)據(jù)進(jìn)行綜合處理,以及對(duì)采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合和數(shù)據(jù)挖掘成為電力系統(tǒng)中關(guān)注的焦點(diǎn)。由于電力系統(tǒng)自動(dòng)化管理系統(tǒng)功能的不斷完善和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和分布式結(jié)構(gòu)的應(yīng)用,使得待處理的數(shù)據(jù)信息量大大增加,人們對(duì)數(shù)據(jù)信息的可靠性、一致性和共享性提出了更高的要求,如何更好的利用和管理這些日益龐大的同構(gòu)和異構(gòu)數(shù)據(jù)庫(kù),并挖掘出數(shù)據(jù)之間的潛在聯(lián)系,幫助企業(yè)更好的分析和決策,已成為電力公司日益迫切需要解決的問(wèn)題。因此,如何對(duì)數(shù)據(jù)進(jìn)行有效收集、存儲(chǔ)與提取是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的研究重點(diǎn)和難點(diǎn)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于提供一種基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)及其應(yīng)用方法,主要解決現(xiàn)有技術(shù)中存在的數(shù)據(jù)倉(cāng)庫(kù)不能滿足用戶對(duì)海量數(shù)據(jù)信息存儲(chǔ)與提取的可靠性、一致性和共享性的要求的問(wèn)題。
[0004]為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù),包括:
數(shù)據(jù)抽取層:抽取聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源及脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中的數(shù)據(jù),并將抽取的數(shù)據(jù)導(dǎo)入數(shù)據(jù)存儲(chǔ)層;
數(shù)據(jù)存儲(chǔ)層:包括對(duì)面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的數(shù)據(jù)進(jìn)行存儲(chǔ)的0DS,對(duì)企業(yè)級(jí)數(shù)據(jù)進(jìn)行存儲(chǔ)的EDW,以及數(shù)據(jù)集市;
數(shù)據(jù)訪問(wèn)層:以報(bào)表、圖形或者數(shù)據(jù)分析的方式對(duì)數(shù)據(jù)存儲(chǔ)層中的數(shù)據(jù)進(jìn)行訪問(wèn),并進(jìn)行分析預(yù)測(cè)。
[0005]具體地說(shuō),所述數(shù)據(jù)抽取層通過(guò)互聯(lián)、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控的方式對(duì)數(shù)據(jù)進(jìn)行抽取。
[0006]進(jìn)一步地,所述數(shù)據(jù)存儲(chǔ)層中,ODS將抽取后的數(shù)據(jù)進(jìn)行短期存儲(chǔ);EDW將抽取后的數(shù)據(jù)進(jìn)行長(zhǎng)期存儲(chǔ);數(shù)據(jù)集市按照用戶需求將數(shù)據(jù)組織后進(jìn)行存儲(chǔ)。
[0007]本發(fā)明中,公開了一種上述基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用方法,包括以下步驟:
(1)數(shù)據(jù)抽取層對(duì)聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源及脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中的數(shù)據(jù)進(jìn)行瀏覽和預(yù)處理,并對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行抽取和合并處理;
(2)數(shù)據(jù)存儲(chǔ)層通過(guò)關(guān)聯(lián)分析、序列模式分析、分類分析和聚類分析將數(shù)據(jù)抽取層中的數(shù)據(jù)進(jìn)行分析組合及挖掘,并將挖掘的數(shù)據(jù)分類存儲(chǔ)于ODS、EDff或數(shù)據(jù)集市中;
(3)用戶在數(shù)據(jù)訪問(wèn)層輸入數(shù)據(jù)訪問(wèn)請(qǐng)求,數(shù)據(jù)訪問(wèn)層根據(jù)用戶輸入的訪問(wèn)請(qǐng)求的類型確定從ODS、EDff或數(shù)據(jù)集市中提取相應(yīng)數(shù)據(jù)進(jìn)行顯示。
[0008]進(jìn)一步的,所述步驟(I)中,采用多源數(shù)據(jù)融合技術(shù)對(duì)抽取的數(shù)據(jù)進(jìn)行篩選合并;所述步驟(I)中,預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。
[0009]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
(I)本發(fā)明利用數(shù)據(jù)融合和數(shù)據(jù)挖掘的特性進(jìn)行數(shù)據(jù)采集、預(yù)處理和訪問(wèn),實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)穩(wěn)定、可靠、便捷的存儲(chǔ)和提取,十分適用,符合實(shí)際需求,適合大規(guī)模推廣應(yīng)用。
【專利附圖】
【附圖說(shuō)明】
[0010]圖1為本發(fā)明的結(jié)構(gòu)示意圖。
[0011]圖2為本發(fā)明中數(shù)據(jù)挖掘的流程示意圖。
【具體實(shí)施方式】
[0012]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明,本發(fā)明的實(shí)施方式包括但不限于下列實(shí)施例。
實(shí)施例
[0013]如圖1所示,本發(fā)明主要包括數(shù)據(jù)抽取層、數(shù)據(jù)存儲(chǔ)層和數(shù)據(jù)訪問(wèn)層。
[0014]數(shù)據(jù)抽取層:通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理,過(guò)程包括源數(shù)據(jù)分析與映射、數(shù)據(jù)抽取、轉(zhuǎn)換和加載、數(shù)據(jù)審計(jì);
數(shù)據(jù)存儲(chǔ)層:該層是整個(gè)系統(tǒng)的核心,包含ODS、EDff和數(shù)據(jù)集市3層。其中,ODS存放經(jīng)過(guò)輕度清洗,與生產(chǎn)系統(tǒng)基本保持?jǐn)?shù)據(jù)細(xì)節(jié)的一致性的數(shù)據(jù),數(shù)據(jù)存儲(chǔ)周期較短;EDW存放經(jīng)過(guò)整理的,以客戶為中心的企業(yè)數(shù)據(jù),數(shù)據(jù)存放周期較長(zhǎng),從ODS向EDW轉(zhuǎn)換的過(guò)程中,首先要做到客戶歸屬,之后完成客戶關(guān)系的歸屬;數(shù)據(jù)集市是針對(duì)某些主題的業(yè)務(wù)進(jìn)行問(wèn)題分析,按照主題對(duì)數(shù)據(jù)做進(jìn)一步組織,在EDW基礎(chǔ)上根據(jù)分析需求創(chuàng)建相應(yīng)的從屬數(shù)據(jù)集合,一般采取數(shù)據(jù)模型存儲(chǔ)數(shù)據(jù);
數(shù)據(jù)訪問(wèn)層:在數(shù)據(jù)展現(xiàn)方面主要有以下幾種方式:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的知識(shí)。
[0015]如圖2所示,在進(jìn)行數(shù)據(jù)挖掘前,需進(jìn)行數(shù)據(jù)準(zhǔn)備,該階段分為數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換四個(gè)部分,之后通過(guò)關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等分析數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)中的數(shù)據(jù),最后將數(shù)據(jù)進(jìn)行存儲(chǔ)并在用戶訪問(wèn)時(shí)進(jìn)行提取便可,為了使獲取的信息便于用戶理解和觀察,可以使用可視化工具。
[0016]為了使本發(fā)明中通過(guò)數(shù)據(jù)挖掘獲得的數(shù)據(jù)關(guān)系和模式知識(shí)能對(duì)評(píng)價(jià)和控制對(duì)象做出一致性解釋和全面描述,本發(fā)明中將不同來(lái)源、不同模式、不同介質(zhì)及在時(shí)間、空間上冗余和互補(bǔ)信息進(jìn)行多源數(shù)據(jù)融合,得到一種更為合理有效的信息組合準(zhǔn)則,繼而制定優(yōu)化控制策略。利用多源數(shù)據(jù)的融合技術(shù)能夠從這些海量的數(shù)據(jù)中篩選出各部門所需要的數(shù)據(jù)呈現(xiàn)出來(lái)。
[0017]本發(fā)明通過(guò)構(gòu)建基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù),首先利用數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)意模糊性,處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù)等;利用一些數(shù)據(jù)庫(kù)操作對(duì)數(shù)據(jù)進(jìn)行處理,從數(shù)據(jù)中提取出需要挖掘的數(shù)據(jù)集合;利用數(shù)據(jù)預(yù)處理技術(shù)檢查數(shù)據(jù)的完整性和一致性,對(duì)其中的噪聲數(shù)據(jù)進(jìn)行處理,確定將要進(jìn)行的挖掘操作的類型;利用數(shù)據(jù)挖掘需要進(jìn)行相關(guān)數(shù)據(jù)轉(zhuǎn)換;選定運(yùn)用數(shù)據(jù)挖掘方法;根據(jù)最終用戶的決策目的對(duì)提取的知識(shí)進(jìn)行分析和評(píng)價(jià);將不同來(lái)源、不同模式、不同介質(zhì)及在時(shí)間、空間上冗余和互補(bǔ)信息加以有機(jī)結(jié)合,找出了一種更為合理有效的信息組合準(zhǔn)貝U,對(duì)評(píng)價(jià)和控制對(duì)象的一致性解釋和全面描述,繼而制定優(yōu)化控制策略;利用多源數(shù)據(jù)融合技術(shù)將這些海量的數(shù)據(jù)篩選和呈現(xiàn)出各部門所需要的數(shù)據(jù)。
[0018]按照上述實(shí)施例,便可很好地實(shí)現(xiàn)本發(fā)明。
【權(quán)利要求】
1.基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù),其特征在于,包括: 數(shù)據(jù)抽取層:抽取聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源及脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中的數(shù)據(jù),并將抽取的數(shù)據(jù)導(dǎo)入數(shù)據(jù)存儲(chǔ)層; 數(shù)據(jù)存儲(chǔ)層:包括對(duì)面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的數(shù)據(jù)進(jìn)行存儲(chǔ)的ODS,對(duì)企業(yè)級(jí)數(shù)據(jù)進(jìn)行存儲(chǔ)的EDW,以及數(shù)據(jù)集市; 數(shù)據(jù)訪問(wèn)層:以報(bào)表、圖形或者數(shù)據(jù)分析的方式對(duì)數(shù)據(jù)存儲(chǔ)層中的數(shù)據(jù)進(jìn)行訪問(wèn),并進(jìn)行分析預(yù)測(cè)。
2.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù),其特征在于,所述數(shù)據(jù)抽取層通過(guò)互聯(lián)、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控的方式對(duì)數(shù)據(jù)進(jìn)行抽取。
3.根據(jù)權(quán)利要求2所述的基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù),其特征在于,所述數(shù)據(jù)存儲(chǔ)層中,ODS將抽取后的數(shù)據(jù)進(jìn)行短期存儲(chǔ);EDW將抽取后的數(shù)據(jù)進(jìn)行長(zhǎng)期存儲(chǔ);數(shù)據(jù)集市按照用戶需求將數(shù)據(jù)組織后進(jìn)行存儲(chǔ)。
4.權(quán)利要求廣3任意一項(xiàng)所述的基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用方法,其特征在于,包括以下步驟: (1)數(shù)據(jù)抽取層對(duì)聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源及脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中的數(shù)據(jù)進(jìn)行瀏覽和預(yù)處理,并對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行抽取和合并處理; (2)數(shù)據(jù)存儲(chǔ)層通過(guò)關(guān)聯(lián)分析、序列模式分析、分類分析和聚類分析將數(shù)據(jù)抽取層中的數(shù)據(jù)進(jìn)行分析組合及挖掘,并將挖掘的數(shù)據(jù)分類存儲(chǔ)于ODS、EDff或數(shù)據(jù)集市中; (3)用戶在數(shù)據(jù)訪問(wèn)層輸入數(shù)據(jù)訪問(wèn)請(qǐng)求,數(shù)據(jù)訪問(wèn)層根據(jù)用戶輸入的訪問(wèn)請(qǐng)求的類型確定從ODS、EDff或數(shù)據(jù)集市中提取相應(yīng)數(shù)據(jù)進(jìn)行顯示。
5.根據(jù)權(quán)利要求4所述的基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用方法,其特征在于,所述步驟(I)中,采用多源數(shù)據(jù)融合技術(shù)對(duì)抽取的數(shù)據(jù)進(jìn)行篩選合并。
6.根據(jù)權(quán)利要求5所述的基于數(shù)據(jù)融合和數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用方法,其特征在于,所述步驟(I)中,預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。
【文檔編號(hào)】G06F17/30GK103577605SQ201310583160
【公開日】2014年2月12日 申請(qǐng)日期:2013年11月20日 優(yōu)先權(quán)日:2013年11月20日
【發(fā)明者】姬源, 陳曉謹(jǐn), 沈冠全, 許良柱, 吳建國(guó), 龍家煥, 何靜, 張韻, 唐雷, 劉俊勇, 呂林, 沈曉東, 劉洋, 魏震波, 劉繼春, 李成鑫, 黃媛 申請(qǐng)人:貴州電網(wǎng)公司電力調(diào)度控制中心, 凱里供電局