国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種電力營銷缺失數據補全方法

      文檔序號:6638167閱讀:437來源:國知局
      一種電力營銷缺失數據補全方法
      【專利摘要】本發(fā)明公開一種電力營銷缺失數據補全方法?;陔娏祿诓杉^程中的大量缺失問題進行分析,在對比一般貝葉斯方法和雙尺度貝葉斯方法后,對方法進行了綜合改進,使其適應于關聯關系較弱、而獨立性較強的電力營銷數據中。同時將該算法用于數據集中進行測試,效果具有一定的提高。后續(xù)需要在營銷系統中進行海量數據應用,使補全的數據能滿足進一步營銷數據挖掘。
      【專利說明】一種電力營銷缺失數據補全方法

      【技術領域】
      [0001] 本發(fā)明涉及電力系統數據處理領域。

      【背景技術】
      [0002] 數據缺失即數據不完整,表現在數據庫中,即為該記錄屬性為空,通常數據缺失從 缺失機制上可以分為完全性隨機缺失、隨機性缺失以及非完全性隨機缺失。
      [0003] 從對象是否存在屬性缺失,可以把變量分為不完全變量,即指存在數據缺失的變 量或者屬性;完全變量,即數據集數據完整,不含缺失屬性。
      [0004] 現實條件下,數據缺失的主要原因可以歸為以下幾類:
      [0005] (1)無法有效使用的數據
      [0006] 這類數據,主要是指統計屬性對于對象主體不具有實際意義,例如:該用戶用電量 為0,但其用電時間統計非0,則該數據是無效數據。
      [0007] (2)遺漏數據
      [0008] 比如,由于采集設備問題,數據采集過程中造成的數據缺失,同時由于采集過程不 可逆,采集實時性要求很高,則不能通過其他方法獲取數據?;蛘?,由于系統設計有問題,用 戶在數據填寫過程中,某一數據的漏填或者采集不全。
      [0009] (3)無法獲取的數據
      [0010] 由于人為或者系統問題,在短期內無法實現采集的數據。比如說,醫(yī)院臨床檢驗的 時候,在一段時間內,有些數據無法得到。
      [0011] (4)獲取代價很大的數據
      [0012] 采集需要耗費大量的人力和物力導致采集方無法進行全面的數據采集而造成的 缺失。
      [0013] 現有的缺失數據補全方法包括以下幾種:
      [0014] (1)刪除法
      [0015] 將含有缺失數據的對象全部屬性刪除,剩余數據集作為整體進行數據處理。根據 研究對象的特征,刪除法又包括:配對刪除、列表刪除、個案刪除三種。
      [0016] (2)常量補全
      [0017] 常量補全基于對數據集的研究上,對于不同的數據集,根據該對象屬性的數據特 性,采用一個固定的常量值進行補全,也可以針對數據全集進行全局數據補全。例如,常用 Null代替關系型數據庫中的缺失數據。
      [0018] (3)簡單補全
      [0019] 指利用簡單易懂的公式進行數據的補全。例如,在缺失數據附近進行歐式距離計 算,確定K個相鄰數據,將這幾個數據進行加權均值計算,作為補全數據。該方法的缺點是, 進行歐式距離計算時,需要進行數據遍歷,真對大量數據計算效率較低。
      [0020] (4)統計補全
      [0021] 通過對已知的數據集進行統計方法計算,對缺失數據進行補全。根據數據特點,可 以對數據集進行總體統計補全,也可以將數據集分組,進行組內統計補全。
      [0022] (5)復雜估算方法補全
      [0023] 該方法是目前較為有效的缺失數據補全方法。基于全局數據,進行模型建立,預測 每一個缺失的數據進行補全。主要方法有:回歸模型補全方法、貝葉斯補全方法、決策樹補 全方法、期望值最大化補全方法等。
      [0024] 由于電力營銷數據來源廣泛、類型復雜,在數據倉庫建立過程中,數據冗余和不一 致、噪音數據、表示方法錯誤、數據缺失等問題嚴重干擾了數據挖掘的結果,上述補全方法 仍然不能夠完全解決這些問題。


      【發(fā)明內容】

      [0025] 本發(fā)明基于對數據缺失現象的原因分析,提出雙尺度貝葉斯數據補全方法,以解 決數據挖掘前期數據缺失問題。
      [0026] 為實現本發(fā)明目的而采用的技術方案是這樣的,一種電力營銷缺失數據補全方 法,其特征在于:
      [0027] 1)采集電力營銷數據,并將這些數據保存在數據集中,所述數據集中有N個記錄, 每個記錄有M個屬性;數據集中任意一個紀錄記為記錄x,x為紀錄的序列號,取值為自然 數;記錄x的屬性分別為Xp......,XM ;令Cp. . .,q是Xi樣本空間的劃分,i= 1、2......m; 屬性\的分類個數為Q 代表了包含已知\屬性的記錄個數;當\等于它的第K個分類 時,cik的記錄的個數設為Nik ;N#|ik是當Xj等于它的第r個分類的記錄的個數;
      [0028] 2)計算紀錄x的屬性Xi缺失概率:P(ck/X) ':
      [0029] 計算每一個屬性的先驗概率:
      [0030] P(Xj=cik) =Nik/Nj
      [0031] i= 1, . . . ,M;k= 1, . . . ,Lj
      [0032] 計算當\ =cik時,屬性Xj的后驗概率:
      [0033] P(Xj=cJr|Xi=cik) =NJr|ik/Nik
      [0034] j = 1,? ? ?,M ; j 尹 i ;r = 1,? ? ?,Lj
      [0035] 當記錄x的屬性Xi存在一個缺失時,令J為x的非缺失數據索引;
      [0036] 當\ =cik:時,計算條件概率,在此表示為修正因子:
      [0037] 0 =P(Xj|Xj=cik)
      [0038] =Nj|ik/Nik,
      [0039]Xj=x:nx2n......Xjn......nxM ;j^i
      [0040] 后驗概率Pi的計算公式如下:

      【權利要求】
      1. 一種電力營銷缺失數據補全方法,其特征在于: 1) 采集電力營銷數據,并將這些數據保存在數據集中,所述數據集中有N個記錄,每個 記錄有M個屬性;數據集中任意一個紀錄記為記錄X,X為紀錄的序列號,取值為自然數;記 錄X的屬性分別為X1,......,Xm ;令C1,. . .,Clj是Xi樣本空間的劃分,i = 1、2......m ;屬性Xi 的分類個數為Li 代表了包含已知Xi屬性的記錄個數;當Xi等于它的第K個分類時,C ik 的記錄的個數設為Nik ;N#|ik是當&等于它的第r個分類的記錄的個數; 2) 計算紀錄X的屬性Xi缺失概率:P (ck/X) ' : 計算每一個屬性的先驗概率: P (Xi = Cik) = Nik/Ni i = 1,· · ·,M ;k = 1,· · ·,Li 計算當Xi = Cik時,屬性Xj的后驗概率: P (Xj = CjJxi = cik) = NJr|ik/Nik j = I,. . . , M ;j ^ i ;r = I,. . . , Lj 當記錄x的屬性Xi存在一個缺失時,令J為x的非缺失數據索引; 當Xi = cik:時,計算\條件概率,在此表示為修正因子: Θ = P (Xj I Xi = cik) =Nj|ik/Nik, Xj = X1 n X2 η......Xj η......η χΜ ;j ^ ? 后驗概率P1的計算公式如下:
      后驗概率P2的計算公式如下:
      最終計算公式為: P(ck/X),=Ρ1+(Ρ2-Ρ1)*Θ 3) 當計算出缺失概率后,采用最大概率填充法、概率分布填充法或權值填充法,進行缺 失數據填充。
      【文檔編號】G06Q50/06GK104392400SQ201410758328
      【公開日】2015年3月4日 申請日期:2014年12月10日 優(yōu)先權日:2014年12月10日
      【發(fā)明者】吉濤, 慕福林, 翁亞利, 譚元剛, 王剛, 趙莉, 傅宏, 張向東, 鄭迎春, 邱小平, 孔維禪, 孫淵, 劉虓豪 申請人:國家電網公司, 國網重慶市電力公司客戶服務中心, 重慶小目科技有限責任公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1