一種面向電力大數(shù)據(jù)可視化的數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于電力大數(shù)據(jù)數(shù)據(jù)融合與處理技術(shù)領(lǐng)域,特別是涉及一種面向電力大數(shù) 據(jù)可視化的數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002] 電力關(guān)系經(jīng)濟發(fā)展、社會穩(wěn)定和群眾生活,電力需求變化是經(jīng)濟運行的"晴雨表" 和"風(fēng)向標(biāo)",能夠真實、客觀地反映國民經(jīng)濟的發(fā)展?fàn)顩r與態(tài)勢。根據(jù)麥肯錫(McKinsey) 2011年5月發(fā)布的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》報告,數(shù)據(jù)已經(jīng)滲透到每 一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素。對于電力行業(yè)而言,電力生產(chǎn)涉及的 運行工況、參數(shù)、設(shè)備運行狀態(tài)等實時生產(chǎn)數(shù)據(jù),現(xiàn)場總線系統(tǒng)所采集的設(shè)備監(jiān)測數(shù)據(jù)以及 發(fā)電量、電壓穩(wěn)定性等方面的數(shù)據(jù),電力企業(yè)運營和管理數(shù)據(jù),如交易電價、售電量、用電客 戶信息、ERP綜合數(shù)據(jù)等,共同構(gòu)成了"電力大數(shù)據(jù)"。不僅歷史數(shù)據(jù)量巨大,而且實時采集及 產(chǎn)生的數(shù)據(jù)量正迅速增長。目前面臨的問題不僅是如何采集、存儲和檢索數(shù)據(jù),關(guān)鍵是如何 分析和利用此類數(shù)據(jù)并提供有價值的信息,進而全面管控電力企業(yè)業(yè)務(wù),為電力企業(yè)管理 和戰(zhàn)略決策提供數(shù)據(jù)支撐。
[0003] 由于電力大數(shù)據(jù)綜合了電力企業(yè)的產(chǎn)、運、銷及運營和管理數(shù)據(jù),因此已成為電力 企業(yè)深化應(yīng)用、提升應(yīng)用層次、強化集團企業(yè)管控的有力技術(shù)手段。例如,用電行為模式的 認(rèn)知是發(fā)現(xiàn)眾多用電行為的規(guī)律,利用各類數(shù)據(jù)分析發(fā)現(xiàn)影響用電行為的各種關(guān)聯(lián)因素。 提取用電負(fù)荷、電量、電費臺賬、繳費信息、客戶信息、電網(wǎng)網(wǎng)架結(jié)構(gòu)、電價政策、天氣參數(shù)等 相關(guān)數(shù)據(jù),建立多層次、多粒度、多刻面的用電行為模型,從不同分類視角(如行業(yè)、規(guī)模 等)、不同時空粒度,綜合全面描述用戶用電行為,建立模式識別方法。并以此為依據(jù),利用 各類數(shù)據(jù),從用電行為上將相似的用戶聚類,并對每類用戶的行為模式進行識別與分析,提 取模式特征,支持用電行為模式的深入理解。而這些都必須通過數(shù)據(jù)分析來完成。
[0004] 數(shù)據(jù)分析是大數(shù)據(jù)發(fā)揮其核心價值的重要流程,傳統(tǒng)的分析技術(shù)有數(shù)據(jù)挖掘、機 器學(xué)習(xí)、統(tǒng)計分析等,分析的結(jié)論可用于推薦系統(tǒng)、專家系統(tǒng)、商業(yè)智能和決策支持系統(tǒng)等。 而聚類分析作為數(shù)據(jù)挖掘中的重要部分可以用來把大量電力客戶分組,其中組內(nèi)的客戶具 有非常類似的特征。聚類分析迎合電力大數(shù)據(jù)的應(yīng)用需求,例如異常用能、反竊電分析,目 前對于低壓用戶,主要是通過開蓋次數(shù)或者用電量突增突減來確定是否有竊電的嫌疑;對 于高壓用戶,通過檢測電壓、電流是否異常來確定是否有竊電的嫌疑。因為單純通過這些數(shù) 據(jù)得來的疑似用戶較多,所以只能對疑似用戶數(shù)的5%進行現(xiàn)場檢查,完成確定工作。借助 數(shù)據(jù)分析,進行用戶用電行為特征分析,分析得出用電行為將作為歷史數(shù)據(jù)存至大數(shù)據(jù)平 臺。從而確定用戶有無異常用電行為和竊電行為。避免違章、違規(guī)用電,減少偷竊電行為,提 升售電收入。同時,可對竊電重點區(qū)域設(shè)置預(yù)警功能。
[0005] 在數(shù)據(jù)分析的基礎(chǔ)上,終端用戶往往最關(guān)心的是數(shù)據(jù)的展示方式,如果分析結(jié)果 沒有采用適當(dāng)?shù)慕忉尫椒ǎ玫降姆治鼋Y(jié)論往往讓用戶難以理解,極端情況下甚至?xí)` 導(dǎo)用戶。傳統(tǒng)的解釋方法僅是文本、圖表等電腦終端上的直觀顯示,提升數(shù)據(jù)解釋能力可以 引入標(biāo)簽云(tagc loud)等數(shù)據(jù)可視化技術(shù)解決,甚至可以采用人機交互技術(shù),在交互過程 中逐步引導(dǎo)用戶進入分析流程,達到最佳的數(shù)據(jù)解釋效果。
[0006] 電網(wǎng)業(yè)務(wù)數(shù)據(jù)大致可分為生產(chǎn)數(shù)據(jù)(如發(fā)電量、電壓穩(wěn)定性等數(shù)據(jù))、運營數(shù)據(jù)(如 交易電價、售電量、用電客戶等數(shù)據(jù))和管理數(shù)據(jù)(如ERP、一體化平臺、協(xié)同辦公等數(shù)據(jù))。隨 著電網(wǎng)企業(yè)信息化建設(shè)的不斷推進,電網(wǎng)企業(yè)的數(shù)據(jù)量、數(shù)據(jù)類型、來源等都有了巨大變 化,數(shù)據(jù)量以幾何級爆炸式速度增長,同時數(shù)據(jù)類型越來越復(fù)雜、多樣。利用大數(shù)據(jù)的概念 和技術(shù),深度分析利用電網(wǎng)企業(yè)大容量、類型繁多的數(shù)據(jù),能夠獲取大量的數(shù)據(jù)附加價值, 為電網(wǎng)企業(yè)在大數(shù)據(jù)背景下的發(fā)展、管理、規(guī)劃提供有效支撐。但目前尚缺少有效的面向電 力大數(shù)據(jù)可視化的數(shù)據(jù)挖掘方法。
【發(fā)明內(nèi)容】
[0007] 為了解決上述問題,本發(fā)明的目的在于提供一種面向電力大數(shù)據(jù)可視化的數(shù)據(jù)挖 掘方法。
[0008] 為了達到上述目的,本發(fā)明提供的面向電力大數(shù)據(jù)可視化的數(shù)據(jù)挖掘方法包括按 順序執(zhí)行的下列步驟:
[0009] 步驟1)獲取所采集的由&1,&2,一,&"共11個數(shù)據(jù)樣本構(gòu)成的電力營銷數(shù)據(jù)集4,其中 數(shù)據(jù)樣本 &1為多維向量,將上述η個數(shù)據(jù)樣本中的數(shù)據(jù)聚類劃分成k類,分別為Q,C2,…,Ck, 然后利用核函數(shù)將上述劃分后的數(shù)據(jù)映射到核空間中,并確定出各聚類的中心nu,m 2,…, mk;
[0010] 步驟2)構(gòu)建數(shù)據(jù)集A相對應(yīng)的核矩陣;
[0011] 步驟3)縮減核矩陣的規(guī)模:削減后的核矩陣記為K%
[0012] 步驟4)為全體數(shù)據(jù)樣本^構(gòu)造分類向量,然后根據(jù)上述步驟獲取的縮減后的核矩 陣K1夬速計算距離,更新分類向量,以重新確定該數(shù)據(jù)樣本^的分類歸屬。
[0013] 在步驟1)中,所述的利用核函數(shù)將劃分后的數(shù)據(jù)映射到核空間所采用的公式為:
[0014] 其中:
[0015] k(Xi,Xj)表示核函數(shù);
[0016]函數(shù)Φ將Xi,Xj從輸入空間#到一個新的空間Rd;
[0017] 〇>〇,是核函數(shù)的半徑;
[00?8] 所述的確定各聚類的中心mi,m2,…,mk所采用的公式為:
[0019]
[0020] 具中| Q |為類Qi的基數(shù)。
[0021 ]在步驟2)中,所述的構(gòu)建數(shù)據(jù)集A相對應(yīng)的核矩陣為:
[0022]
[0023] 其中:
[0024] Kij = K(xi,xj)
[0025] K(xi,xj)= φ (xi) φ (xj)。
[0026] 在步驟3)中,所述的縮減核矩陣的規(guī)模的具體方法為:
[0027] 步驟3.1)以升序方式排列核矩陣K中第i行Ki,i = 1,2,…,η,得到一個排序向量 ri:rij,i = l,2,···,]!;其中:
[0028]
[0029] 步驟3.2)將上一步驟中的1^'二值化,然后以降序方式排列1^',」=1,2,-_,11,若 陽'為排序中的前10%,則令^ = 1;否則,令^ = 0;所設(shè)置的閾值為10%,得到構(gòu)造的二值 向量Vi,Vi= [Vil,Vi2,…,Vin]T;
[0030] 步驟3.3)將上一步驟中得到的所有二值向量相加得到/ = Σ二h,定義<是聚 類基數(shù)j所得權(quán)值;
[0031 ] 步碟3.4)誦討h-步碟得到的v*計筧出得分向量s:其中:
[0039]
[0040] d中的最小值決定了節(jié)點i的新的分類,然后更新分類向量〇直到不再變化為止;
[0041] 步驟4.3)最后將數(shù)據(jù)樣本^中的數(shù)據(jù)劃分到與之最近的聚類中心所在的聚類中, 由此確定出數(shù)據(jù)樣本^的準(zhǔn)確聚類。
[0042] 本發(fā)明提供的面向電力大數(shù)據(jù)可視化的數(shù)據(jù)挖掘方法可以對營銷數(shù)據(jù)進行有效 的聚類和分類分析,可以更好地識別用戶群體、獲取分類用戶用電特征,從而能夠為電力營 銷智能化奠定基礎(chǔ)。
【附圖說明】
[0043] 圖1為本發(fā)明提供的基于面向電力大數(shù)據(jù)可視化的數(shù)據(jù)挖掘方法流程圖。
【具體實施方式】
[0044] 下面結(jié)合附圖和具體實施例對本發(fā)明提供的面向電力大數(shù)據(jù)可視化的數(shù)據(jù)挖掘 方法進行詳細(xì)說明。
[0045] 如圖1所示,本發(fā)明提供的面向電力大數(shù)據(jù)可視化的數(shù)據(jù)挖掘方法包括按順序執(zhí) 行的下列步驟:
[0046] 步驟1)獲取所采集的由&1,&2,一,&"共11個數(shù)據(jù)樣本構(gòu)成的電力營銷數(shù)據(jù)集4,其中 數(shù)據(jù)樣本 &1為多維向量,將上述η個數(shù)據(jù)樣本中的數(shù)據(jù)聚類劃分成k類,分別為Q,C2,…,Ck, 然后利用核函數(shù)將上述劃分后的數(shù)據(jù)映射到核空間中,并確定出各聚類的中心nu,m 2,…, mk;
[0047] 步驟2)構(gòu)建數(shù)據(jù)集A相對應(yīng)的核矩陣:在計算高維空間中點積時,并不是在每次計 算距離時再計算核函數(shù),而是一次計算出空間點的所有可能組合的核函數(shù),并存儲于核矩 陣中;
[0048] 步驟3)縮減核矩陣的規(guī)模:當(dāng)數(shù)據(jù)集A規(guī)模較大時,則由全體樣本^數(shù)據(jù)點形成 的所有可能組合核函數(shù)構(gòu)成的核矩陣規(guī)模巨大,若直接對如此規(guī)模的核矩陣進行處理,會 嚴(yán)重降低處理的效率,為此,需要將核矩陣的規(guī)模進行縮減,削減后的核矩陣記為K%
[0049] 步驟4)由于初始劃分的數(shù)據(jù)樣本而得到的聚類并不是最優(yōu)的,為此,首先為全體 數(shù)據(jù)樣本^構(gòu)造分類向量,然后根據(jù)上述步驟獲取的縮減后的核矩陣K1 夬速計算距離,更 新分類向量,以重新確定該數(shù)據(jù)樣本^的分類歸屬。
[