用于檢測實時序列中的異常的方法
【專利說明】
[0001] 相關(guān)申請
[0002] 此專利申請關(guān)于MERL-2729,在此共同申請并通過引用并入本文中。兩個申請使用 相似性矩陣應(yīng)對處理數(shù)據(jù),以形成圖拉普拉斯矩陣(graph Laplacian)。
技術(shù)領(lǐng)域
[0003] 本發(fā)明一般涉及時間序列數(shù)據(jù)的數(shù)據(jù)分析以檢測數(shù)據(jù)中的異常,更具體地,涉及 存儲由非常大數(shù)量的傳感器從大型工業(yè)機器或機器的整個安裝獲得的傳感器數(shù)據(jù)的大型 數(shù)據(jù)庫。
【背景技術(shù)】
[0004] 機器和設(shè)備的狀況的自動化監(jiān)視使用處理非常大的傳感器數(shù)據(jù)流的方法,該傳感 器數(shù)據(jù)流包括通過以高速率對各種傳感器進行采樣獲得的許多單獨讀數(shù)。數(shù)據(jù)獲取、通信 以及存儲技術(shù)的迅速降低的成本使得以多元時間序列數(shù)據(jù)的形式積累大量的數(shù)據(jù)是經(jīng)濟 上可行的,其中,時間序列的每個組分(變量)可以被視為指示正在被監(jiān)視的系統(tǒng)的狀態(tài)的 觀測向量的單獨維度。
[0005] 這種數(shù)據(jù)的主要用途之一是自動地檢測可能意味著系統(tǒng)中存在故障的異常狀況。 這種故障可以包括松動的或破壞的組件、錯誤的操作順序、異常的操作條件等等。在大多數(shù) 情況下,為了確保安全、使材料的浪費最小化或執(zhí)行維護以避免災難性故障,立即發(fā)現(xiàn)這種 異常狀況是非常希望的。
[0006] 發(fā)現(xiàn)異常的一種可能的方式是以描述當變量超出它的正常范圍時的邏輯規(guī)則的 形式明確地指定被認為是異常的狀況。對于一些系統(tǒng),這種方法是非常成功的,例如,當監(jiān) 視主動地調(diào)整一些參數(shù)(諸如,溫度,壓力,濕度等等)的過程,并且他們的正常范圍是已知 的時。
[0007] 當這樣的范圍不可用時,可以通過數(shù)據(jù)驅(qū)動的方法獲得正常的操作極限,其中,數(shù) 據(jù)變量都是在正常條件下測得的,并且從該數(shù)據(jù)提取正常操作范圍的描述符。這種描述 符的示例是邏輯規(guī)則,或概率分布。例如,如果X表示來自監(jiān)視系統(tǒng)的瞬時測量變量的向 量,并且,f(x)是在X的域上的概率密度函數(shù)(其對應(yīng)于值X與系統(tǒng)的正常操作對應(yīng)的概 率),則可以連續(xù)地評價這個概率密度,并且,當f(x)小于預定的閾值τ時,可以用通報 (signal)報警。
[0008] 然后問題變成怎樣確定概率密度函數(shù)f(x)的適當?shù)墓烙?,假定所觀測的數(shù)據(jù)的 數(shù)據(jù)庫X = [X1, X2,…,Xn],其中,Xt是在時間t確定的觀測列向量,t = 1,…,N。向量X t 包括M個變量,使得Xlt是在時間t的第i個變量的值,i = 1,. . .,M。
[0009] 存在用于從域中所獲得的數(shù)據(jù)點的采樣估計該域上的概率密度函數(shù)的許多方法。 參數(shù)方法做出關(guān)于分布類型的明確的假設(shè),并且然后估計分布的參數(shù)。例如,如果函數(shù)是高 斯分布,則參數(shù)是分布的均值μ和協(xié)方差矩陣S。在這種情況下,
[0011] 其中,T是轉(zhuǎn)置運算符。
[0012] 當變量的數(shù)目M非常大時,如對于許多工業(yè)系統(tǒng)來說是典型的,產(chǎn)生的估計可能 是不精確的,并且不方便使用。它可能不是非常精確,因為正確的概率分布與高斯分布差異 很大。該估計可能不方便使用,因為協(xié)方差矩陣S盡管對稱,但是當M非常大時它可以包含 M2的量級的數(shù)量,例如,數(shù)量以數(shù)千或數(shù)百萬計。因此,在存儲器中保持S實際上變得難以 處理。此外,不能估計具有獨立條目的全協(xié)方差矩陣S,除非讀數(shù)的數(shù)目N大于數(shù)據(jù)向量M 的維數(shù),并且至少M+1個數(shù)據(jù)點在普通位置,也就是,線性無關(guān)。
[0013] 然而,其他的估計模型和方法(諸如,混合高斯分布)可以被用來克服信號單個多 元高斯分布的精度問題,這些方法仍然遭受與使用大的協(xié)方差矩陣相關(guān)的問題,當考慮一 個以上的高斯分量時,該問題變得更糟糕。
[0014] 相比參數(shù)模型,非參數(shù)密度估計方法(諸如,Parzen核密度估計(PKDE))不假設(shè) 用于分布的特定的參數(shù)形式,而是通過合適的核函數(shù)K估計密度
[0016] 作為單獨分量的總和,其中,每個所獲取的數(shù)據(jù)點一個單獨分量。然而,核函數(shù)的 選擇通常是不容易的,并且這個方法也需要將所有N個獲取的數(shù)據(jù)點保持在存儲器中,當 這個數(shù)目很大,并且甚至無限時,這是有問題的。
[0017] 這些方法的另一個共同的缺點是它們不能容易地處理混合型的數(shù)據(jù),例如,當一 些變量是連續(xù)的,并且其他的是離散的時。
[0018] 當數(shù)據(jù)向量的數(shù)目很大時,用來處理數(shù)據(jù)向量的高維度的更有效的方法是嘗試在 數(shù)據(jù)向量X的子集上將概率分布f(x)分解(因式(factor))為P個單獨的概率分布,使得
[0020] 其中,fp(X(p))是在數(shù)據(jù)向量的子集χ(ρ)上的概率密度函數(shù)。設(shè)%代表從X到X (p) 的投影算子,也就是,X(p)= JT Ρ(Χ)。設(shè)V= {1,2,···,Μ}是數(shù)據(jù)變量的所有指數(shù)的集合,Vp 是在部分P中的變量的指數(shù)的集合,并且Mp= IvpI是部分P中變量的數(shù)目。然后,期望獲 得V到集合Vp的合適的分割,使得
并且,相應(yīng)地,
[0023] 通過改變每個部分的大小,可以控制需要被估計并存儲在存儲器中的參數(shù)的數(shù) 目。例如,如果高斯模型適合每個部分,則針對某部分的協(xié)方差矩陣包含M 21J^量級的元素。 這種方法也處理混合型的變量,其中連續(xù)的和離散的變量可以被放入不同的部分,并且不 同的參數(shù)模型可以適合這些部分,例如,高斯、伯努利以及多項式模型。
[0024] 然而,使用最小可能部分對于異常檢測的目的是不太有效的。平凡因式分解(其 中,每個變量在它自己的部分內(nèi))使得P = M,Vp= {p},Mp= 1,將確實導致概率密度的 非常緊促的表示,但是將不能捕獲變量之間的依存關(guān)系,并且將不能檢測所謂的前后關(guān)系 (contextual)的異常。這些變量由可能是整體的一個變量的讀數(shù)表示,而不是當另一變量 具有特定的值時。例如,所測得的空氣溫度可以是90° F,并且這本身未必就是信號異常氣 候條件,但是如果表示日歷月的另一變量的值被設(shè)為十二月,并且測量位置在北半球,則兩 個讀數(shù)一起將清晰地表示異常。
[0025] 因此,需要確定一種在所識別的部分的尺寸、可用于每個部分中單獨的密度函數(shù) 的估計的點的數(shù)目以及所得到的密度的精度之間具有合理均衡的分割方法。
【發(fā)明內(nèi)容】
[0026] 本發(fā)明的實施方式提供了一種用于將一大組變量分割成較小部分的方法,使得在 變量的整個集合上的正常行為的模型可以被因式分解(factor)為在每個部分上的單獨模 型,并且這些單獨部分特定模型更容易估計、維持以及用于時間序列數(shù)據(jù)中的異常檢測。該 方法使用沒有明確地確定所有變量上的全協(xié)方差矩陣的譜聚類方法,但是對于非常大的特 征值問題,反而依賴于有效的特征值的解決方法。
[0027] 具體地,通過首先確定多對正常的時間序列數(shù)據(jù)之間的成對相似性的相似性矩陣 來檢測實時序列中的異常。將譜聚類過程應(yīng)用到相似性矩陣以將表示時間序列數(shù)據(jù)的維度 的變量分割為互斥的組。針對每個組估計正常行為的模型。然后,針對實時序列數(shù)據(jù),使用 針對每個組的模型確定異常分數(shù),并且將該異常分數(shù)與預定的閾值進行比較,以用通報該 異常。
【附圖說明】
[0028] 圖1是根據(jù)本發(fā)明的實施方式的用于檢測實時序列數(shù)據(jù)中的異常的方法的流程 圖。
【具體實施方式】
[0029] 如圖1所示,我們的發(fā)明的實施方式提供了一種用于檢測實時序列數(shù)據(jù)140中的 異常171的方法。從正常的時間序列數(shù)據(jù)101的多對維度之間的成對相似性確定110非負 相似性矩陣A 111。譜聚類120被應(yīng)用于相似性矩陣,以將表示時間序列數(shù)據(jù)的維度112的 變量分割120為組121,其中,這些組是互斥的。針對每個組,確定130正常行為的模型131。 對于實時序列數(shù)據(jù)140,使用針對每個組的模型確定150異常分數(shù)151。然后,將異常分數(shù) 與預定的閾值τ 169進行比較,以通報異常171。
[0030] 可選地,可以將單獨的異常分數(shù)組合160以形成全局的異常分數(shù)161,并且可以將 全局的異常分數(shù)與預定的閾值τ 169進行比較,以通報異常171。
[0031] 可以在連接到存儲器和如本領(lǐng)域已知的通過