本發(fā)明屬于市政、信息處理及智能樓宇領(lǐng)域,具體涉及一種基于距離的異常數(shù)據(jù)檢測(cè)方法,本發(fā)明還涉及實(shí)現(xiàn)該方法的系統(tǒng)。
背景技術(shù):
隨著物聯(lián)網(wǎng)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,在供熱、空調(diào)、給水、排水等市政以及智能樓宇領(lǐng)域,市政系統(tǒng)中諸如壓力、溫度、流量、智能樓宇領(lǐng)域的諸如能源消耗、室內(nèi)溫度、濕度等參數(shù)的測(cè)量和采集都采用自動(dòng)化儀表,測(cè)量數(shù)據(jù)自動(dòng)采集,并實(shí)現(xiàn)數(shù)據(jù)遠(yuǎn)程傳輸。這種方式一方面使得數(shù)據(jù)能夠?qū)崟r(shí)采集,是系統(tǒng)實(shí)現(xiàn)自控的必要環(huán)節(jié),另一方面實(shí)現(xiàn)了高頻率的電子化數(shù)據(jù),方便管理人員運(yùn)行管理和故障的診斷、處理等功能,提高服務(wù)品質(zhì)的同時(shí)大大降低了能源消耗。然而隨著數(shù)據(jù)采集種類的越來越多,采集的頻次越來越高,數(shù)據(jù)數(shù)量越來越大,異常數(shù)據(jù)的產(chǎn)生難以避免,從而影響服務(wù)質(zhì)量、浪費(fèi)能源甚至引起安全事故,因此在使用數(shù)據(jù)前必須進(jìn)行異常數(shù)據(jù)的檢測(cè)和剔除。
可以看到,這些數(shù)據(jù)具有如下特征:
(1)多數(shù)情況下,這些數(shù)據(jù)為時(shí)間序列數(shù)據(jù),呈一維性特征,正常的時(shí)間序列數(shù)據(jù)具有時(shí)間自相關(guān)性,即如果兩個(gè)測(cè)量的時(shí)間很接近,則這些測(cè)量的值通常非常相似。
(2)這些數(shù)據(jù)隨著時(shí)間具有一定的變化規(guī)律,比如累積熱量會(huì)隨著時(shí)間遞增,室外溫度在24小時(shí)內(nèi)呈現(xiàn)一定的周期性等等,考察不同變量的變化規(guī)律,以此對(duì)變量進(jìn)行處理,可以得到一個(gè)在正常情況下數(shù)值比較穩(wěn)定的 新變量,比如可以將累積熱量數(shù)據(jù)處理為日耗熱量。
(3)在得到的新變量中,異常點(diǎn)將會(huì)明顯地遠(yuǎn)離其他正常點(diǎn),即異常點(diǎn)與正常點(diǎn)之間的差值將遠(yuǎn)大于正常點(diǎn)之間的差值。并且在新變量所有對(duì)象的取值區(qū)間內(nèi),異常點(diǎn)將位于區(qū)間的兩端(或其中一端)。
目前已經(jīng)提出的異常檢測(cè)方法有很多種,主要有基于分布、距離、密度、聚類和分類的方法,但要么涉及的邊界閾值選取存在一定困難,要么計(jì)算極其復(fù)雜,又或者人為限制了某個(gè)數(shù)據(jù)集中可能存在的異常點(diǎn)的數(shù)量,缺乏靈活性。
本發(fā)明基于上述數(shù)據(jù)特征,提出一種簡單而又高效的異常數(shù)據(jù)檢測(cè)方法以及實(shí)現(xiàn)該方法的系統(tǒng)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提出一種基于距離的異常數(shù)據(jù)檢測(cè)方法,其解決所述技術(shù)問題采用的技術(shù)方案包括如下步驟:
(1)確定需要處理的數(shù)據(jù)集合s,s中的元素?cái)?shù)量大于1;
(2)提取需要處理的數(shù)據(jù)集合中的最小數(shù)據(jù)minvalue和最大數(shù)據(jù)maxvalue;
(3)將取值范圍(minvalue,maxvalue)等分成n個(gè)區(qū)間,定義區(qū)間間隔mind為異常點(diǎn)與正常點(diǎn)的距離閾值,mind按照式(1)計(jì)算:
則第i個(gè)分隔區(qū)間為:
di=[minvalue+(i-1)*mind,minvalue+i*mind)
其中i=1,……,n;n通過觀察確定的任意整數(shù),n大于1;
(4)統(tǒng)計(jì)落在每個(gè)區(qū)間di范圍上數(shù)據(jù)的數(shù)量;
(5)給出數(shù)量閾值k,對(duì)各個(gè)區(qū)間進(jìn)行分類。若區(qū)間內(nèi)數(shù)據(jù)數(shù)量≤k,將該區(qū)間分類為異常點(diǎn)候選區(qū)間;若區(qū)間內(nèi)數(shù)據(jù)數(shù)量>k,將該區(qū)間分類為正常區(qū)間,k通過觀察確定的任意整數(shù),但k應(yīng)小于數(shù)據(jù)集合s中的元素?cái)?shù)量;
(6)對(duì)異常點(diǎn)候選區(qū)間進(jìn)行判定,判斷規(guī)則為:
對(duì)于任意一個(gè)p∈s(k),滿足:
式中
distance(p,q)—p與q之間的距離;
value(p)——p的值;
value(q)—q的值;
s(normal)——包含所有最初被標(biāo)定為正常區(qū)間中的數(shù)據(jù)的集合;
s(k)——異常點(diǎn)區(qū)間內(nèi)所有數(shù)據(jù)的集合;
(7)基于第(6)步的規(guī)則,則可以按照下述方式進(jìn)行操作:第一,若某異常點(diǎn)候選區(qū)間在兩個(gè)正常區(qū)間之間,將其重新劃分為正常區(qū)間;第二,若某異常點(diǎn)候選區(qū)間與正常區(qū)間緊鄰,將其重新劃分為正常區(qū)間。剩余的異常點(diǎn)候選區(qū)間將作為異常點(diǎn)區(qū)間,包含在這些區(qū)間內(nèi)的點(diǎn)即為異常點(diǎn)。需要注意的是,若一個(gè)異常點(diǎn)候選區(qū)間在判定后被重新劃分為正常區(qū)間,那么該正常區(qū)間不參與其他異常點(diǎn)候選區(qū)間的判定。
其特征還在于:檢測(cè)出的異常數(shù)據(jù)可以進(jìn)行剔除處理,也可以采用修正、替換等其他方式處理;
其特征還在于:用于檢測(cè)的數(shù)據(jù)可以是數(shù)據(jù)庫系統(tǒng)里的已經(jīng)存在的數(shù)據(jù),也可以是實(shí)時(shí)采集上傳的數(shù)據(jù);
其特征還在于:可以在線實(shí)時(shí)對(duì)采集上來的數(shù)據(jù)進(jìn)行異常數(shù)據(jù)檢測(cè),也可以將采集上來的數(shù)據(jù)先存儲(chǔ)到數(shù)據(jù)庫,然后在某個(gè)時(shí)間調(diào)出需要處理的數(shù)據(jù)集中進(jìn)行異常數(shù)據(jù)檢測(cè);
本發(fā)明為解決所述技術(shù)問題,還提供了一種基于距離的異常數(shù)據(jù)檢測(cè)系統(tǒng),其特征在于:該系統(tǒng)由數(shù)據(jù)采集模塊、中央服務(wù)器和數(shù)據(jù)檢測(cè)模塊構(gòu)成,其中采集模塊用來采集數(shù)據(jù),上傳至中央服務(wù)器,內(nèi)置在中央服務(wù)器里的數(shù)據(jù)檢測(cè)模塊根據(jù)本發(fā)明提供的方法進(jìn)行異常數(shù)據(jù)檢測(cè)和剔除或修正處理。
如前所述,本發(fā)明方法和基于該方法的系統(tǒng)可以有效識(shí)別并剔除數(shù)據(jù)中存在的異常點(diǎn),對(duì)于數(shù)據(jù)的有效利用具有重要的實(shí)際意義。
附圖說明
圖1是基于距離的異常數(shù)據(jù)檢測(cè)系統(tǒng)原理架構(gòu)圖。
具體實(shí)施方式
下面結(jié)合附圖及實(shí)例對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步說明,但它不構(gòu)成對(duì)本發(fā)明權(quán)利要求的限制:
實(shí)施例1:
在供熱系統(tǒng)進(jìn)行運(yùn)行調(diào)節(jié)或者熱費(fèi)分?jǐn)傆?jì)算時(shí),樓棟熱量表采集的“累計(jì)耗熱量”qc非常重要。如圖1所示,熱量表作為數(shù)據(jù)采集模塊,將實(shí)時(shí)采集的數(shù)據(jù)上傳至中心服務(wù)器,中心服務(wù)器收到數(shù)據(jù)后,首先計(jì)算“日耗熱量”qdh,再采用本專利提供的方法對(duì)“日耗熱量”進(jìn)行異常點(diǎn)檢測(cè)識(shí)別,進(jìn)而識(shí)別出“累計(jì)耗熱量”的故障數(shù)據(jù),具體按照如下步驟進(jìn)行處理:
(1)每個(gè)“累計(jì)耗熱量”qc,i對(duì)應(yīng)的記錄均有一個(gè)采樣時(shí)間τi數(shù)據(jù),根據(jù)式(3), 可得樓棟日耗熱量qdh,確定樓棟日耗熱量為處理數(shù)據(jù)的集合s
式中qdh,i——τi時(shí)刻的日耗熱量,kwh/d;
qc,i——時(shí)刻的累計(jì)耗熱量,kwh;
τi——采樣時(shí)間,d。
(2)提取需要處理的數(shù)據(jù)集合中的最小日耗熱量minqdh和最大日耗熱量數(shù)據(jù)maxqdh;
(3)將取值范圍(minqdh,maxqdh)等分成n個(gè)區(qū)間,n取40,定義區(qū)間間隔mind為異常點(diǎn)與正常點(diǎn)的距離閾值,mind按照式(3)計(jì)算:
則第i個(gè)分隔區(qū)間為
di=[minqdh+(i-1)*mind,minqdh+i*mind)
其中i=1,……,n;
(4)統(tǒng)計(jì)落在每個(gè)區(qū)間di范圍上數(shù)據(jù)的數(shù)量;
(5)給出數(shù)量閾值k,k取2;對(duì)各個(gè)區(qū)間進(jìn)行分類。若區(qū)間內(nèi)數(shù)據(jù)數(shù)量≤k,將該區(qū)間分類為異常點(diǎn)候選區(qū)間;若區(qū)間內(nèi)數(shù)據(jù)數(shù)量>k,將該區(qū)間分類為正常區(qū)間;
(6)對(duì)異常點(diǎn)候選區(qū)間進(jìn)行判定,判斷規(guī)則為:
對(duì)于任意一個(gè)p∈s(k),滿足:
式中s(normal)——包含所有最初被標(biāo)定為正常區(qū)間中的數(shù)據(jù)的集合;
s(k)——異常點(diǎn)區(qū)間內(nèi)所有數(shù)據(jù)的集合
(7)基于上述規(guī)則,按照下述方式進(jìn)行操作:第一,若某異常點(diǎn)候選區(qū)間在兩個(gè)正常區(qū)間之間,將其重新劃分為正常區(qū)間;第二,若某異常點(diǎn)候選區(qū)間與正常區(qū)間緊鄰,將其重新劃分為正常區(qū)間。剩余的異常點(diǎn)候選區(qū)間將作為異常點(diǎn)區(qū)間,包含在這些區(qū)間內(nèi)的點(diǎn)即為異常點(diǎn)。需要注意的是,若一個(gè)異常點(diǎn)候選區(qū)間在判定后被重新劃分為正常區(qū)間,那么該正常區(qū)間不參與其他異常點(diǎn)候選區(qū)間的判定。
實(shí)施例2:
在獲取了某個(gè)用戶間隔30分鐘的大量室溫?cái)?shù)據(jù)后,對(duì)室溫進(jìn)行異常點(diǎn)檢測(cè),具體按照如下步驟進(jìn)行處理:
(1)確定用戶室溫?cái)?shù)據(jù)為處理數(shù)據(jù)的集合s;
(2)提取需要處理的數(shù)據(jù)集合中的最低溫度mint和最高溫度maxt;
(3)將取值范圍(mint,maxt)等分成n個(gè)區(qū)間,定義區(qū)間間隔mind為異常點(diǎn)與正常點(diǎn)的距離閾值,mind按照式(3)計(jì)算:
則第i個(gè)分隔區(qū)間為
di=[mint+(i-1)*mind,mint+i*mind)
其中i=1,……,n;n取10;
(4)統(tǒng)計(jì)落在每個(gè)區(qū)間di范圍上數(shù)據(jù)的數(shù)量;
(5)給出數(shù)量閾值k,對(duì)各個(gè)區(qū)間進(jìn)行分類。若區(qū)間內(nèi)數(shù)據(jù)數(shù)量≤k,將該區(qū)間分類為異常點(diǎn)候選區(qū)間;若區(qū)間內(nèi)數(shù)據(jù)數(shù)量>k,將該區(qū)間分類為正常區(qū)間,k取5;
(6)對(duì)異常點(diǎn)候選區(qū)間進(jìn)行判定,判斷規(guī)則為:
對(duì)于任意一個(gè)p∈s(k),滿足:
式中s(normal)——包含所有最初被標(biāo)定為正常區(qū)間中的數(shù)據(jù)的集合;
s(k)——異常點(diǎn)區(qū)間內(nèi)所有數(shù)據(jù)的集合
(7)基于上述規(guī)則,按照下述方式進(jìn)行操作:第一,若某異常點(diǎn)候選區(qū)間在兩個(gè)正常區(qū)間之間,將其重新劃分為正常區(qū)間;第二,若某異常點(diǎn)候選區(qū)間與正常區(qū)間緊鄰,將其重新劃分為正常區(qū)間。剩余的異常點(diǎn)候選區(qū)間將作為異常點(diǎn)區(qū)間,包含在這些區(qū)間內(nèi)的點(diǎn)即為異常點(diǎn)。需要注意的是,若一個(gè)異常點(diǎn)候選區(qū)間在判定后被重新劃分為正常區(qū)間,那么該正常區(qū)間不參與其他異常點(diǎn)候選區(qū)間的判定。
應(yīng)當(dāng)理解,上述實(shí)施方式僅為本發(fā)明的較佳實(shí)施例而已,用來描述本發(fā)明原理的應(yīng)用,在不背離本發(fā)明的精神或本質(zhì)特性的情況下,本發(fā)明可以實(shí)施為其他的具體形式。所述實(shí)施方式無論從哪一方面來看都應(yīng)當(dāng)認(rèn)為僅是作為說明性的,而不應(yīng)認(rèn)為是限制性的。因此,本發(fā)明的范圍應(yīng)當(dāng)以所附權(quán)利要求為準(zhǔn),而不是以前述發(fā)明為準(zhǔn),根據(jù)權(quán)利要求的實(shí)質(zhì)精神和等效手段所做的變型都落入其范圍之內(nèi)。
盡管已經(jīng)利用與目前認(rèn)為是本發(fā)明的最實(shí)用以及優(yōu)選的實(shí)施方式相關(guān)的特性和細(xì)節(jié)全面地描述了本發(fā)明,但對(duì)于本領(lǐng)域技術(shù)人員來說顯而易見的各種變化和/或改善,包括但不限制于大小,材料,形狀,接口形式,接口位置、功能和操作方式,組裝和做出的使用上的改變,這些都不背離在權(quán)利要求中闡述的本發(fā)明的原理和概念。