一種火電廠制粉系統(tǒng)數(shù)據(jù)中異常數(shù)據(jù)的檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明一種火電廠制粉系統(tǒng)中數(shù)據(jù)處理的方法,具體涉及一種火電廠制粉系統(tǒng)數(shù) 據(jù)中異常數(shù)據(jù)的檢測方法。
【背景技術(shù)】
[0002] 制粉系統(tǒng)是火力發(fā)電廠的主要輔助系統(tǒng)之一,為了保證其運行安全和運行效率, 數(shù)據(jù)挖掘技術(shù)被應(yīng)用在制粉系統(tǒng)的分析及控制上。由于制粉系統(tǒng)的數(shù)據(jù)不可避免的存在 不完整、不一致的臟數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,因此我們需要對制粉系統(tǒng)的數(shù)據(jù)進行清 洗。
[0003]目前大多采用異常數(shù)據(jù)檢測算法來識別被認為被污染了的臟數(shù)據(jù)。異常數(shù)據(jù)檢測 算法為每個數(shù)據(jù)賦予一個異常因子,異常因子值高于設(shè)定閾值的數(shù)據(jù)被認為是異常數(shù)據(jù)。 常見的異常數(shù)據(jù)檢測算法有L0F算法和C0F算法。L0F算法由人工選擇MinPts參數(shù)來確定 對象的近鄰個數(shù)以及MinPts近鄰距離,由此計算對象的局部密度。L0F值是對象局部密度 和近鄰的平均局部密度之間的比值。因此,對象的局部密度越低并且近鄰的局部密度越高, 那么對象的L0F值越高。C0F算法計算每個對象的鏈接異常程度C0F值來表示對象的異常 程度,C0F值是對象平均鏈接距離和對象的MinPts近鄰的平均鏈接距離的平均值之間的比 值。還有一些經(jīng)過改進的異常數(shù)據(jù)檢測算法,但這些算法都不能很好地區(qū)分正常數(shù)據(jù)集邊 緣的對象和異常數(shù)據(jù),并且MinPts的選取會影響到異常數(shù)據(jù)檢測的結(jié)果。
[0004]由于自身的局限性,上述算法對火電廠制粉系統(tǒng)的數(shù)據(jù)的異常數(shù)據(jù)檢測結(jié)果并不 理想,導(dǎo)致火電廠制粉系統(tǒng)的數(shù)據(jù)挖掘結(jié)果不準確。
【發(fā)明內(nèi)容】
[0005] 為了解決上述現(xiàn)有技術(shù)存在的問題,本發(fā)明提供一種火電廠制粉系統(tǒng)數(shù)據(jù)中異常 數(shù)據(jù)的檢測方法,基于最小球計算密度,實現(xiàn)對制粉系統(tǒng)的工作數(shù)據(jù)進行檢測分析并判斷 是否為異常數(shù)據(jù),以提高對火電廠制粉系統(tǒng)的數(shù)據(jù)挖掘的效果。
[0006] 為了達到上述目的,本發(fā)明采用如下技術(shù)方案:
[0007] -種火電廠制粉系統(tǒng)數(shù)據(jù)中異常數(shù)據(jù)的檢測方法,步驟如下:
[0008] 步驟1:首先火電廠制粉系統(tǒng)采集信號數(shù)據(jù)構(gòu)成現(xiàn)場歷史數(shù)據(jù)庫D,該數(shù)據(jù)庫D 包括六個變量:磨機負荷、磨機出入口壓差、磨機入口負壓、磨機出口溫度、粗粉分離器出 口負壓和細粉分離器出口負壓;這樣,數(shù)據(jù)庫D是一個六維數(shù)據(jù)庫;這里設(shè)定正整數(shù)k為 12(k彡6);計算數(shù)據(jù)集D中對象兩兩之間的距離并且確定出每個對象p的k近鄰NNk(p);
[0009] 對任意的自然數(shù)k,定義p的k-距離為p和某個對象0之間的距離d(p,0),這里 的〇滿足:
[0010] (1)至少存在k個對象o'GD\{p},使得d(p,c/ )彡d(p, 〇),并且
[0011]⑵至多存在k-1 個對象o'GD\{p},使得d(p,o' ) <d(p, 〇);
[0012] p的k近鄰包含所有與p的距離不超過k_距離的對象;這樣p的k近鄰的個數(shù)可 能比k大;
[0013]步驟2:火電廠制粉系統(tǒng)通過步驟1得到p的k近鄰NNk (p),將近鄰NNk (p)按照距 離P的遠近進行排序,構(gòu)成距離近鄰序列NNS(p) = {p,q,c2,......,cr},這里r= |NNk(p) |, NNk(p),i= 1, 2,......,r;步驟2是一個反復(fù)計算的過程,NNS(p)的初始值是{p};在 每次計算時,算法不斷從NNk(p)剩下對象中找到距離p最近的數(shù)據(jù),并把找出的對象加到NNS(p)中去;如果找到的對象不只一個,則根據(jù)事先排好的對象順序加到NNS(p)中去;在 每次計算完畢后,更新NNS(p)信息后再進行下一次計算;當(dāng)NNk(p)中所有對象都被陸續(xù)加 入到NNS(p)后,該步驟結(jié)束;
[0014] 步驟3 :火電廠制粉系統(tǒng)根據(jù)步驟2所得NNS(p)計算所有數(shù)據(jù)的最小球;根據(jù)包 含P的k-距離近鄰的最小球,計算p的空間密度;最小球是包含NNS(p)中所有數(shù)據(jù)的球中 半徑最小的那個球;對于2維數(shù)據(jù)來說,最小球是一個圓,而3維數(shù)據(jù)的最小球是球體,3維 以上的最小球是超球;
[0015] 最小球求解問題轉(zhuǎn)變?yōu)榍笙铝蟹匠探M的最優(yōu)解問題:
【主權(quán)項】
1. 一種火電廠制粉系統(tǒng)數(shù)據(jù)中異常數(shù)據(jù)的檢測方法,其特征在于:步驟如下: 步驟1 :首先火電廠制粉系統(tǒng)采集信號數(shù)據(jù)構(gòu)成現(xiàn)場歷史數(shù)據(jù)庫D,該數(shù)據(jù)庫D包括六 個變量:磨機負荷、磨機出入口壓差、磨機入口負壓、磨機出口溫度、粗粉分離器出口負壓和 細粉分離器出口負壓;這樣,數(shù)據(jù)庫D是一個六維數(shù)據(jù)庫;這里設(shè)定正整數(shù)k為12 (k多6); 計算數(shù)據(jù)集D中對象兩兩之間的距離并且確定出每個對象p的k近鄰NNk(p); 對任意的自然數(shù)k,定義p的k-距離為p和某個對象〇之間的距離d(p,〇),這里的〇 滿足: (1) 至少存在k個對象o'GD\{p},使得d(p,o' )<d(p,o),并且 (2) 至多存在k-1 個對象o'GD\{p},使得d(p,o' )<d(p,o); P的k近鄰包含所有與p的距離不超過k-距離的對象;這樣p的k近鄰的個數(shù)可能比k大; 步驟2 :火電廠制粉系統(tǒng)通過步驟1得到p的k近鄰NNk(p),將近鄰NNk(p)按照距離P的遠近進行排序,構(gòu)成距離近鄰序列NNS(p) = {p,Cpc2,......,cj,這里r= |NNk(p) |, NNk(p),i= 1, 2,......,r;步驟2是一個反復(fù)計算的過程,NNS(p)的初始值是{p};在 每次計算時,算法不斷從NNk(p)剩下對象中找到距離p最近的數(shù)據(jù),并把找出的對象加到NNS(p)中去;如果找到的對象不只一個,則根據(jù)事先排好的對象順序加到NNS(p)中去;在 每次計算完畢后,更新NNS(p)信息后再進行下一次計算;當(dāng)NNk(p)中所有對象都被陸續(xù)加 入到NNS(p)后,該步驟結(jié)束; 步驟3 :火電廠制粉系統(tǒng)根據(jù)步驟2所得NNS(p)計算所有數(shù)據(jù)的最小球;根據(jù)包含p的k-距離近鄰的最小球,計算p的空間密度;最小球是包含NNS(p)中所有數(shù)據(jù)的球中半徑 最小的那個球;對于2維數(shù)據(jù)來說,最小球是一個圓,而3維數(shù)據(jù)的最小球是球體,3維以上 的最小球是超球; 最小球求解問題轉(zhuǎn)變?yōu)榍笙铝蟹匠探M的最優(yōu)解問題:
0是最小球球心,R是最小球半徑; 步驟4 :火電廠制粉系統(tǒng)得到所有點的最小球的半徑之后,對象p的空間密度表示為:
這里|NNS(p) |是NNS(p)中的數(shù)據(jù)個數(shù),R(p)是最小球半徑; 步驟5 :火電廠制粉系統(tǒng)計算出每個數(shù)據(jù)的空間密度之后,計算每兩個數(shù)據(jù)的空間 密度差;兩個數(shù)據(jù)的空間密度差表示為:Aspden(x,y) = |spden(y)_spden(x)|,因此 Aspden(x,y) =Aspden(y,x); 步驟6 :火電廠制粉系統(tǒng)得到空間密度和密度差之后,計算每個數(shù)據(jù)的背離程度;在p的k近鄰NNS(p)中,排位越靠前的數(shù)據(jù)對p的影響越大;依據(jù)空間密度差,計算NNS(p)中 CN104809662A_權(quán)利要求書_ _2/2頁 的第i個數(shù)據(jù)對對象P的密度背離程度
?,(^為NNS(p)中的第i個 數(shù)據(jù); 那么,NNS(p)中的數(shù)據(jù)對p總的密度背離程度表示為:
這里r= |NNk (p) | ; 步驟7 :火電廠制粉系統(tǒng)通過下列算式得到p的異常程度:
NDD0F值表示數(shù)據(jù)的異常程度;設(shè)定NDD0F閾值為1. 5,當(dāng)NDD0F大于閾值時認為是異 常數(shù)據(jù)。
2. 根據(jù)權(quán)利要求1所述的火電廠制粉系統(tǒng)數(shù)據(jù)中異常數(shù)據(jù)的檢測方法,其特征在于: 所述火電廠制粉系統(tǒng)采用PLC和計算機組成的直接數(shù)字控制系統(tǒng),并對相關(guān)過程變量進行 米集,米集頻率為1Hz以上。
3. 根據(jù)權(quán)利要求1所述的火電廠制粉系統(tǒng)數(shù)據(jù)中異常數(shù)據(jù)的檢測方法,其特征在于: 所述k大于數(shù)據(jù)庫的維數(shù)。
【專利摘要】一種火電廠制粉系統(tǒng)數(shù)據(jù)中異常數(shù)據(jù)的檢測方法,包括選取適當(dāng)?shù)膋來計算數(shù)據(jù)的近鄰數(shù)據(jù),當(dāng)近鄰數(shù)據(jù)確定之后,計算包含近鄰數(shù)據(jù)的最小球,再根據(jù)近鄰數(shù)據(jù)個數(shù)和最小球半徑計算數(shù)據(jù)的空間密度,用空間密度和近鄰序列計算數(shù)據(jù)的密度背離程度,進而計算數(shù)據(jù)的密度近鄰背離程度NDDOF值來表征數(shù)據(jù)的異常程度;本發(fā)明在準確檢測出異常數(shù)據(jù)的基礎(chǔ)上,提高火電廠制粉系統(tǒng)的數(shù)據(jù)挖掘效果。
【IPC分類】G06F17-30, G06Q50-06
【公開號】CN104809662
【申請?zhí)枴緾N201510227457
【發(fā)明人】曹暉, 苑易偉, 張彥斌, 賈立新, 司剛?cè)?
【申請人】西安交通大學(xué)
【公開日】2015年7月29日
【申請日】2015年5月6日