一種基于數(shù)值關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法
【專利摘要】本發(fā)明公開了一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,包括如下步驟:S1、展示模塊定義異常數(shù)據(jù)判斷條件,并將異常數(shù)據(jù)判斷條件存儲至源指標數(shù)據(jù)庫中;S2、數(shù)據(jù)訪問層遍歷源指標數(shù)據(jù)庫中的業(yè)務指標數(shù)據(jù),判斷其是否符合異常數(shù)據(jù)判斷條件,將符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)在展示模塊進行展示,同時執(zhí)行步驟S3;S3、業(yè)務邏輯模塊對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正,并根據(jù)需要將修正后的數(shù)據(jù)存儲至源指標數(shù)據(jù)庫。本發(fā)明大大的提高了電網(wǎng)業(yè)務數(shù)據(jù)的準確性,提高了計算統(tǒng)計數(shù)據(jù)群的精度,使得統(tǒng)計分析結果更為可靠,為企業(yè)投資評價、效益分析等方面提供更為有利的數(shù)據(jù)支持。
【專利說明】一種基于數(shù)值關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法
【技術領域】
[0001]本發(fā)明涉及一種異常數(shù)據(jù)處理方法,具體涉及一種基于數(shù)值關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法。
【背景技術】
[0002]隨著企業(yè)信息化的全面開展,企業(yè)對數(shù)據(jù)的依賴程度也逐步加大,數(shù)據(jù)信息日益成為企業(yè)重要的戰(zhàn)略資源,數(shù)據(jù)質量的好壞直接關系到信息的準確程度,也影響了企業(yè)的生存和競爭能力。在智能電網(wǎng)推進的大背景下,電網(wǎng)企業(yè)基于自身的業(yè)務特色不斷建立和改進現(xiàn)有的信息系統(tǒng),基本覆蓋了財務、營銷、安全生產(chǎn)、協(xié)同辦公、人力資源、物資、項目管理、綜合等電力企業(yè)的主要業(yè)務范圍。同時,在電網(wǎng)公司信息化建設的過程中,電網(wǎng)企業(yè)各應用系統(tǒng)所產(chǎn)生的業(yè)務數(shù)據(jù)急劇增加,關系型數(shù)據(jù)、文本型數(shù)據(jù)、實時數(shù)據(jù)等各種類型的電網(wǎng)企業(yè)業(yè)務數(shù)據(jù)呈海量增長,大量業(yè)務數(shù)據(jù)產(chǎn)生并積累。在業(yè)務數(shù)據(jù)產(chǎn)生的過程中,由于數(shù)據(jù)采集技術、統(tǒng)計口徑、人員素質、管理機制等方面的差異和漏洞,導致相當一部分業(yè)務數(shù)據(jù)在準確性方面不滿足業(yè)務需求,從而對企業(yè)的數(shù)據(jù)分析、數(shù)據(jù)處理、投資決策等工作帶來嚴重的負面影響。數(shù)據(jù)作為信息系統(tǒng)的基礎和核心,起著至關重要的作用,數(shù)據(jù)質量的高低對整個系統(tǒng)有直接的影響。好的數(shù)據(jù)質量是數(shù)據(jù)分析得到有意義結果的基本條件,而質量低劣的數(shù)據(jù)已經(jīng)成為影響企業(yè)進行正確決策的重要因素。因此,電網(wǎng)企業(yè)對高質量數(shù)據(jù)的需求日益增長。
[0003]信息系統(tǒng)的信息質量主要是由數(shù)據(jù)質量及系統(tǒng)處理數(shù)據(jù)的業(yè)務過程所決定的。根據(jù)“進來的是垃圾,出去的也是垃圾”這一著名的論斷,在數(shù)據(jù)集成的過程中進行數(shù)據(jù)質量的治理,對于提高信息系統(tǒng)的信息質量將起到至關重要的作用。準確性是數(shù)據(jù)價值的體現(xiàn),也是衡量數(shù)據(jù)質量的重要標準。數(shù)據(jù)的準確性治理是指保證數(shù)據(jù)實際值與數(shù)據(jù)合理值的一致性,目前比較流行的判斷數(shù)據(jù)準確性的方法有閾值標定校準、均值校準、關聯(lián)方程式校準和人工校準等,其中,閾值標定校準是通過判斷數(shù)據(jù)值是否在數(shù)據(jù)的合理波動區(qū)間范圍內,來衡量數(shù)據(jù)的準確性;均值校準是指通過均值來衡量數(shù)據(jù)的偏差程度,進而判斷數(shù)據(jù)是否準確;關聯(lián)方程式校準是通過分析目標數(shù)據(jù)函數(shù)依賴關系中的約束條件,從而利用這種約束條件對目標數(shù)據(jù)進行校準;人工校準是指相關的專家技術人員利用豐富的領域知識發(fā)現(xiàn)業(yè)務數(shù)據(jù)中所存在的問題數(shù)據(jù)。這些方法能夠尋找出不準確的數(shù)據(jù),但如何修正這些不準確數(shù)據(jù)才是重點,因此,尋找一個數(shù)據(jù)準確性的治理方案顯得尤為重要。
【發(fā)明內容】
[0004]發(fā)明目的:本發(fā)明的目的在于針對現(xiàn)有技術的不足,提供一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,使工業(yè)生產(chǎn)的統(tǒng)計分析工作更加準確,為下一步的生產(chǎn)計劃提供數(shù)據(jù)保障。
[0005]技術方案:本發(fā)明所述的一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,包括彼此進行數(shù)據(jù)通信的源指標數(shù)據(jù)庫、數(shù)據(jù)訪問模塊、業(yè)務邏輯模塊和展示模塊,包括如下步驟:
[0006]S1、展示模塊定義異常數(shù)據(jù)判斷條件,并將異常數(shù)據(jù)判斷條件存儲至源指標數(shù)據(jù)庫中,同時,源指標數(shù)據(jù)庫中還存儲業(yè)務指標定義和業(yè)務指標數(shù)據(jù);
[0007]S2、數(shù)據(jù)訪問層遍歷源指標數(shù)據(jù)庫中的業(yè)務指標數(shù)據(jù),判斷其是否符合異常數(shù)據(jù)判斷條件,將符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)在展示模塊進行展示,同時執(zhí)行步驟S3 ;
[0008]S3、業(yè)務邏輯模塊對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正,并根據(jù)需要將修正后的數(shù)據(jù)存儲至源指標數(shù)據(jù)庫。
[0009]本發(fā)明技術方案的進一步限定為,步驟SI中,展示模塊定義的異常數(shù)據(jù)判斷條件包括:閾值標定條件、歷史趨勢縱向校準條件和關聯(lián)性橫向校準條件,所述閾值標定條件為定義業(yè)務指標的最大值和最小值;所述歷史趨勢縱向校準條件為通過分析特定時間周期內的歷史數(shù)據(jù)變化趨勢,歸納出的線性回歸方程式;所述關聯(lián)性橫向校準條件為分析指標之間的依賴關系確定的函數(shù)依賴表達式。
[0010]進一步地,步驟S3中,對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正時,判斷是否選擇系統(tǒng)推薦的修正算法,如果選擇,則執(zhí)行所選擇的修正算法,如果不選擇,則重新定義修正算法進行修正。
[0011]進一步地,步驟S3中,對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正的修正算法包括閾值中值修正,具體方法為:
[0012]Y1、取得符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)后,判斷源指標數(shù)據(jù)庫中是否存在該業(yè)務指標對用的閾值,如果存在,則取出該業(yè)務指標對應的最大值Vmax和最小值Vmin,如果不存在,則定義該指標對應的閾值存入源指標數(shù)據(jù)庫中;
[0013]Y2、業(yè)務邏輯層計算閾值中值做為修正值,修正值V= (Vmax+Vmin) /2。
[0014]進一步地,步驟S3中,對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正的修正算法包括函數(shù)依賴關系式修正,具體方法為:
[0015]H1、取得符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)后,判斷源指標數(shù)據(jù)庫中是否存在該業(yè)務指標對應的函數(shù)依賴關系式,如果存在,則提取該函數(shù)依賴關系式;如果不存在,則定義該業(yè)務指標對應的函數(shù)依賴關系式存入源指標數(shù)據(jù)庫中;
[0016]H2、業(yè)務邏輯層根據(jù)取得的函數(shù)依賴關系式對異常數(shù)據(jù)進行修正,得到修正值。
[0017]進一步地,步驟S3中,對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正的修正算法包括EM填充法,具體方法為:
[0018]E1、取得符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)后,判斷指標數(shù)據(jù)庫中是否存在該指標對應的樣本預測群,如果存在,則提取該樣本預測群;如果不存在,則定義該業(yè)務指標的樣本預測群;
[0019]E2、以提取的樣本預測群為基礎,計算期望E,并對計算得到的期望E進行最大化處理,判斷最大化處理后的結果是否滿足方案中已經(jīng)制定好的線性回歸方程式,若不滿足,則重新執(zhí)行步驟E2,若滿足,則此最大化處理的期望E即為修正值。
[0020]進一步地,所述計算期望E,并對計算得到的期望E進行最大化處理的方法為:
[0021]1、設fx(x/ Θ )表示觀測數(shù)據(jù)密度,fY(y/ Θ )表示完全數(shù)據(jù)的密度,修正數(shù)據(jù)的假設等同一個邊際化模型,z是修正值,亦可看作是某種多到少的映射X = M(Y)的應用,則X的密度為
【權利要求】
1.一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,其特征在于,包括彼此進行數(shù)據(jù)通信的源指標數(shù)據(jù)庫、數(shù)據(jù)訪問模塊、業(yè)務邏輯模塊和展示模塊,包括如下步驟: 51、展示模塊定義異常數(shù)據(jù)判斷條件,并將異常數(shù)據(jù)判斷條件存儲至源指標數(shù)據(jù)庫中,同時,源指標數(shù)據(jù)庫中還存儲業(yè)務指標定義和業(yè)務指標數(shù)據(jù); 52、數(shù)據(jù)訪問層遍歷源指標數(shù)據(jù)庫中的業(yè)務指標數(shù)據(jù),判斷其是否符合異常數(shù)據(jù)判斷條件,將符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)在展示模塊進行展示,同時執(zhí)行步驟S3 ; 53、業(yè)務邏輯模塊對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正,并根據(jù)需要將修正后的數(shù)據(jù)存儲至源指標數(shù)據(jù)庫。
2.根據(jù)權利要求1所述的一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,其特征在于,步驟SI中,展示模塊定義的異常數(shù)據(jù)判斷條件包括:閾值標定條件、歷史趨勢縱向校準條件和關聯(lián)性橫向校準條件,所述閾值標定條件為定義業(yè)務指標的最大值和最小值;所述歷史趨勢縱向校準條件為通過分析特定時間周期內的歷史數(shù)據(jù)變化趨勢,歸納出的線性回歸方程式;所述關聯(lián)性橫向校準條件為分析指標之間的依賴關系確定的函數(shù)依賴表達式。
3.根據(jù)權利要求1所述的一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,其特征在于,步驟S3中,對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正時,判斷是否選擇系統(tǒng)推薦的修正算法,如果 選擇,則執(zhí)行所選擇的修正算法,如果不選擇,則重新定義修正算法進行修正。
4.根據(jù)權利要求1所述的一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,其特征在于,步驟S3中,對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正的修正算法包括閾值中值修正,具體方法為: Y1、取得符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)后,判斷源指標數(shù)據(jù)庫中是否存在該業(yè)務指標對用的閾值,如果存在,則取出該業(yè)務指標對應的最大值Vmax和最小值Vmin,如果不存在,則定義該指標對應的閾值存入源指標數(shù)據(jù)庫中; Y2、業(yè)務邏輯層計算閾值中值做為修正值,修正值V= (Vmax+Vmin) /2。
5.根據(jù)權利要求1所述的一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,其特征在于,步驟S3中,對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正的修正算法包括函數(shù)依賴關系式修正,具體方法為: H1、取得符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)后,判斷源指標數(shù)據(jù)庫中是否存在該業(yè)務指標對應的函數(shù)依賴關系式,如果存在,則提取該函數(shù)依賴關系式;如果不存在,則定義該業(yè)務指標對應的函數(shù)依賴關系式存入源指標數(shù)據(jù)庫中; H2、業(yè)務邏輯層根據(jù)取得的函數(shù)依賴關系式對異常數(shù)據(jù)進行修正,得到修正值。
6.根據(jù)權利要求1所述的一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,其特征在于,步驟S3中,對符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)進行修正的修正算法包括EM填充法,具體方法為: E1、取得符合異常數(shù)據(jù)判斷條件的業(yè)務指標數(shù)據(jù)后,判斷指標數(shù)據(jù)庫中是否存在該指標對應的樣本預測群,如果存在,則提取該樣本預測群;如果不存在,則定義該業(yè)務指標的樣本預測群; E2、以提取的樣本預測群為基礎,計算期望E,并對計算得到的期望E進行最大化處理,判斷最大化處理后的結果是否滿足方案中已經(jīng)制定好的線性回歸方程式,若不滿足,則重新執(zhí)行步驟E2,若滿足,則此最大化處理的期望E即為修正值。
7.根據(jù)權利要求6所述的一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,其特征在于,所述計算期望E,并對計算得到的期望E進行最大化處理的方法為: 1、設fx(x/Θ )表示觀測數(shù)據(jù)密度,fY(y/ Θ )表示完全數(shù)據(jù)的密度,修正數(shù)據(jù)的假設等同一個邊際化模型,z是修正值,亦可看作是某種多到少的映射X = M⑴的應用,則X的密度為
8.根據(jù)權利要求7所述的一種基于數(shù)據(jù)關聯(lián)性模型的異常數(shù)據(jù)探測及修正方法,其特征在于,步驟III的E步時,當該期望值難以解析計算時,第t次E步操作可以由下面的兩個步驟替代: (1)從fz/x(z/x,θω)中抽取獨立同分布的修正數(shù)據(jù)集4'...j-,每個Zf邑用來修正觀測陣的所有異常數(shù)據(jù)的一個向量,這樣I = U,Zj)表示一個填充完整的數(shù)據(jù)陣,其中修正值由Zj代替;
【文檔編號】G06F17/30GK103514259SQ201310350038
【公開日】2014年1月15日 申請日期:2013年8月13日 優(yōu)先權日:2013年8月13日
【發(fā)明者】吳克河, 朱亞運, 黨芳芳 申請人:江蘇華大天益電力科技有限公司