專利名稱:事件流的偏差檢測(cè)系統(tǒng)和/或方法
技術(shù)領(lǐng)域:
本發(fā)明實(shí)施例涉及一種事件流的偏差檢測(cè)系統(tǒng)和/或方法。進(jìn)一步地,本發(fā)明實(shí)施例涉及一種復(fù)雜事件處理(Complex event processing, CEP)中的事件流可被分析和檢測(cè)偏差。在本發(fā)明的實(shí)施例中,CEP發(fā)動(dòng)機(jī)接收一個(gè)或多個(gè)事件流,并利用基于密度的偏差檢測(cè)檢測(cè)事件流中的偏差。本發(fā)明實(shí)施例涉及到復(fù)雜事件處理、事件流處理、數(shù)據(jù)流處理和數(shù)據(jù)流挖掘等情況下的流向、異常值和/或偏向檢測(cè)。
背景技術(shù):
復(fù)雜事件處理(Complex event processing, CEP) 一般適用于處理每個(gè)高效率情況下的瞬時(shí)事件數(shù)據(jù)。CEP發(fā)動(dòng)機(jī)通過(guò)過(guò)濾、聚集、相關(guān)性等方式連續(xù)分析進(jìn)來(lái)的事件流,從
而實(shí)時(shí)傳遞相關(guān)的業(yè)務(wù)模式。通常CEP應(yīng)用中的事件流隨著時(shí)間的推移不具備穩(wěn)定性和連續(xù)性。在對(duì)應(yīng)的CEP應(yīng)用中,事件流的偏差可能為一個(gè)時(shí)機(jī)或一個(gè)威脅。相應(yīng)地,早期的為與事件流緊密相關(guān)的或通過(guò)其他某種方式依賴或依靠事件流的業(yè)務(wù)的事件流探測(cè)可能是有利的(例如,高價(jià)值)。基于事件流處理的要求,希望基于事件流偏差的檢測(cè)提供理由充分的分析結(jié)果。同樣,也希望可以這種聯(lián)機(jī)方式(例如,實(shí)時(shí),正在處理以及非存儲(chǔ)等等)的結(jié)果。在一些例子中,被處理的流的特性可能無(wú)法預(yù)先知道,該探測(cè)可能不具備流的特性等的適用的預(yù)備知識(shí)?,F(xiàn)有技術(shù)中,包括多種用于探測(cè)一連串給定的數(shù)據(jù)的不規(guī)則性的傳統(tǒng)技術(shù)。其中一個(gè)傳統(tǒng)的方式是利用數(shù)據(jù)庫(kù)探測(cè)置于數(shù)據(jù)中的數(shù)據(jù)的特性和不規(guī)則性。利用編程語(yǔ)言例如SQL或數(shù)據(jù)庫(kù)上的數(shù)據(jù)挖掘算法,數(shù)據(jù)被設(shè)置且其相應(yīng)的特性被分析。然而,不幸的是,對(duì)于大容量低延時(shí)的事件流處理的情況下,數(shù)據(jù)庫(kù)方式并不是一直可行的。另外,由于典型的高計(jì)算機(jī)要求,數(shù)據(jù)挖掘方式也可能不可行。數(shù)據(jù)挖掘算法需要對(duì)數(shù)據(jù)多次起下作業(yè),通常不適用于CEP場(chǎng)景中,該場(chǎng)景中事件流往往潛能無(wú)限地并連續(xù)地流入。CEP應(yīng)用往往推行硬性處理要求例如單通道流和限制的計(jì)算機(jī)資源。因此,CEP發(fā)動(dòng)機(jī)通常逐步處理近來(lái)的事件。通常地,CEP發(fā)動(dòng)機(jī)通常依照SQL、基于規(guī)則的或基于狀態(tài)的方式,并通過(guò)瞬時(shí)條款被擴(kuò)展。這些條款可能允許事件流分析被限制或限定到一個(gè)瞬時(shí)窗口。例如,這允許每隔10分鐘或其他時(shí)間間隔計(jì)算股價(jià)。因此,依賴時(shí)間窗口的建立,用戶可以注重分析更多的最新數(shù)據(jù)?;赟QL的CEP發(fā)動(dòng)機(jī)可以利用特定的SQL功能進(jìn)行偏差檢測(cè)。SQL提供包括例如MIN、MAX、VAR以及AVG等的集合。為了檢測(cè)偏差,一個(gè)連續(xù)的SQL查詢能夠,例如,通過(guò)布林線計(jì)算最新值的偏差。布林線可以限定一個(gè)接近平均值的兩個(gè)標(biāo)準(zhǔn)偏差的envelope。如果一個(gè)新值在布林線外,則歸類為一個(gè)偏差。然而,這種方法具有限制,需要數(shù)據(jù)排布正常以獲得可靠的分析結(jié)果。另外,標(biāo)準(zhǔn)的SQL集合表示有限。比如,它們僅提供基礎(chǔ)分布的根據(jù)經(jīng)驗(yàn)的摘要測(cè)量,但無(wú)法容易地檢測(cè)不規(guī)則或多樣模式的分布。例如,上述的這種利用布林線的方式,假設(shè)一個(gè)事件流的標(biāo)準(zhǔn)分布,以及無(wú)法支持隨意的流的假設(shè)。因而,非標(biāo)準(zhǔn)分布的結(jié)果可能為低質(zhì)量的,因?yàn)樗鼈儼ú灰?guī)則的或多樣模式的分布?;谝?guī)則的或基于狀態(tài)的CEP發(fā)動(dòng)機(jī)也可能提供簡(jiǎn)單的集合例如上述的SQL功能。那么規(guī)則或狀態(tài)可能也利用這些集合從平均性能檢測(cè)偏差。因此,利用基于規(guī)則的或基于狀態(tài)的CEP發(fā)動(dòng)機(jī),基于SQL的CEP發(fā)動(dòng)機(jī)的相關(guān)問(wèn)題也仍然會(huì)發(fā)生在基于規(guī)則的或基于狀態(tài)的CEP發(fā)動(dòng)機(jī)上。一般標(biāo)準(zhǔn)集合只提供摘要測(cè)量,這些摘要測(cè)量不檢測(cè)不規(guī)則的或多樣模式的分布。另一個(gè)相關(guān)的新技術(shù)在流挖掘算法上毫無(wú)希望。流挖掘算法分析事件流是一種實(shí)時(shí)的行為。然而,這領(lǐng)域的成果只是發(fā)展初期,還需要更多的成果。因此,本領(lǐng)域需要一種提高的系統(tǒng)和/或方法以檢測(cè)事件流的偏差,例如,提供一種CEP應(yīng)用或類似的東西。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的一個(gè)目的是能夠在至少兩個(gè)時(shí)間窗口內(nèi)計(jì)算事件流的偏差。在某些實(shí)施例中,其中的一個(gè)時(shí)間可能圍繞整個(gè)事件流。本發(fā)明實(shí)施例的另一個(gè)目的是通過(guò)使用核密度估計(jì)(KDEs)估算事件流的偏差。本發(fā)明實(shí)施例的再一個(gè)目的是一旦產(chǎn)生一個(gè)事件流的偏差,就會(huì)發(fā)送通知。本發(fā)明實(shí)施例的另一個(gè)目的是在事件流的理想性能和事件流性能的短期計(jì)算之間計(jì)算一個(gè)偏差。本發(fā)明實(shí)施例的再一個(gè)目的是比對(duì)一個(gè)長(zhǎng)期時(shí)間窗口的偏差和短期時(shí)間窗口的偏差。本發(fā)明實(shí)施例的再一個(gè)目的是對(duì)比事件流的偏差和閥值。在本發(fā)明實(shí)施例中,提供了一種適用于處理系統(tǒng)如至少包括一個(gè)處理器上的偏差檢測(cè)方法。處理系統(tǒng)接收至少一個(gè)事件流數(shù)據(jù),其中該事件流數(shù)據(jù)包括至少一個(gè)屬性。計(jì)算一個(gè)長(zhǎng)期統(tǒng)計(jì)量,這個(gè)長(zhǎng)期統(tǒng)計(jì)量相應(yīng)于在第一個(gè)時(shí)間窗口中的至少一個(gè)事件流數(shù)據(jù)的至少一個(gè)監(jiān)測(cè)屬性的概率密度函數(shù)(PDF)的第一次估算。計(jì)算一個(gè)短期統(tǒng)計(jì)量,這個(gè)統(tǒng)計(jì)量相應(yīng)于在第二個(gè)時(shí)間窗口中的至少一個(gè)事件數(shù)據(jù)流的至少一個(gè)監(jiān)測(cè)屬性的概率密度函數(shù)(HF)的第二次估算。分別計(jì)算理想的密度分布和長(zhǎng)、短期統(tǒng)計(jì)量之間的第一和第二距離。至少基于第一、第二距離計(jì)算最新的偏差。最新的偏差與閥值比較。如果更多的監(jiān)測(cè)事件通過(guò)至少一個(gè)事件數(shù)據(jù)流被傳遞,重復(fù)上述步驟。在本發(fā)明的實(shí)施例中,提供一種適用于處理系統(tǒng)如至少包括一個(gè)處理器上的偏差檢測(cè)方法。處理系統(tǒng)接收至少一個(gè)事件流數(shù)據(jù)。在第一時(shí)間段中,為至少一個(gè)事件數(shù)據(jù)流的至少一個(gè)監(jiān)測(cè)事件,需要提供一個(gè)短期的核密度估計(jì)(KDE)。在第二時(shí)間段中,為至少一個(gè)事件數(shù)據(jù)流的至少一個(gè)監(jiān)測(cè)事件,需要提供一個(gè)長(zhǎng)期的核密度估計(jì)(KDE)。依靠短期的、長(zhǎng)期的核密度估計(jì)(KDE)計(jì)算一個(gè)至少預(yù)設(shè)定的概率密度函數(shù)(HF)的偏差。偏差與閥值比較以檢測(cè)一個(gè)事件流偏差。本發(fā)明實(shí)施例也包括穩(wěn)定的計(jì)算機(jī)易讀存儲(chǔ)介質(zhì),當(dāng)在至少一個(gè)處理器上根據(jù)存儲(chǔ)指令明白處理時(shí),也執(zhí)行上述和/和其他的方法。
同樣地,本發(fā)明實(shí)施例提供的系統(tǒng)也使用上述方法,包括用于接收至少一個(gè)事件數(shù)據(jù)流的適配器和執(zhí)行上述和/或其他方法的處理器。某些實(shí)施例中提供數(shù)據(jù)存儲(chǔ)以用于測(cè)井有關(guān)檢測(cè)偏差的信息。這些信息包括,例如偏差的時(shí)間/日期,期待值或值的范圍,實(shí)測(cè)值或值的范圍等。這些方面的實(shí)施例可以單獨(dú)使用和/或形成不同組合以獲得更多的實(shí)施例。
在圖中至少實(shí)質(zhì)上與功能符合的部件在這種情況下可以用同樣的標(biāo)記指出,這些部件不需要在所有圖中指出或解釋。在圖中圖I是根據(jù)本發(fā)明實(shí)施例的偏差檢測(cè)方法的流程圖。圖2顯示了根據(jù)本發(fā)明實(shí)施例的偏差檢測(cè)方法得到的圖表和基于密度的偏差計(jì)
晳奸里圖3是根據(jù)本發(fā)明實(shí)施例的偏差檢測(cè)方法的用于偏差檢測(cè)的程序用戶界面。圖4為根據(jù)本發(fā)明實(shí)施例的執(zhí)行CEP處理的處理系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。在本發(fā)明的實(shí)施例中,提供一種計(jì)算機(jī)執(zhí)行程序從期待的流屬性中檢測(cè)運(yùn)行中的實(shí)值數(shù)據(jù)流的偏差(例如,檢測(cè)事件流的屬性)。實(shí)施例中可能使用非參數(shù)領(lǐng)域的技術(shù),例如密度估計(jì)器,去估算提供的事件流的值分布。這種技術(shù)提供的分布可能傳遞一個(gè)壓縮簡(jiǎn)要的實(shí)值數(shù)據(jù)流的統(tǒng)計(jì)模型和/或一個(gè)流的屬性。在某些實(shí)施例中,根據(jù)各個(gè)不同時(shí)間域計(jì)算的多密度組合估計(jì)量,在細(xì)微的時(shí)間分辨率上檢測(cè)流的偏差。另外,在某些實(shí)施例中,依照CEP處理程序,偏差能夠在線(如在運(yùn)行中,實(shí)時(shí))檢測(cè)并直接回復(fù)給用戶(例如,通過(guò)通知或用戶界面)。另外,或可替代地,某些實(shí)施例中提供了更直觀形象化的偏差檢測(cè)的具體情況。在某實(shí)施例中,偏差檢測(cè)包括實(shí)值事件流的屬性的值分布。在某些實(shí)施例中,該值分布為概率密度函數(shù)(PDF)以及提供全部的或基本全部的給定的數(shù)據(jù)集的特性。換句話說(shuō),一個(gè)實(shí)值事件流數(shù)據(jù)的基礎(chǔ)屬性的密度可能不知道,但可以被估算。相應(yīng)地,在一些實(shí)施例中,可能使用核密度估計(jì)(KDE)。如所知道的,核是一種用于估算的加權(quán)函數(shù),而核密度估計(jì)(KDE)為非參數(shù)統(tǒng)計(jì)的形式,可以估算隨機(jī)變量的概率密度函數(shù)(PDF)。這樣,核密度估計(jì)(KDE)的一個(gè)功能為可自由假設(shè),例如,不需要估算的流的公知常識(shí)。這樣,某些執(zhí)行實(shí)施例中的核密度估計(jì)(KDEs)能夠?yàn)殡S意的實(shí)值事件流的屬性提供定義明確的估算。在某些實(shí)施例中,事件流的偏差檢查可能基于三個(gè)連續(xù)保持的KDEs。首先,用戶(例如操作者)可能定義一個(gè)理想密度,用于將流的理想性能模型化。第二,一個(gè)長(zhǎng)期KDE可以對(duì)應(yīng)完整的流(或者一個(gè)流的實(shí)質(zhì)性部分)進(jìn)行連續(xù)計(jì)算。另外,長(zhǎng)期KDE可以將流的長(zhǎng)期傾向模型化。第三,短期KDE可以對(duì)應(yīng)一個(gè)(相關(guān)的)短時(shí)間窗口進(jìn)行連續(xù)計(jì)算。與長(zhǎng)期KDE相似,短期KDE也可以將流的短期傾向連續(xù)地或基本上連續(xù)地模型化。在某些實(shí)施例中,所述時(shí)間窗口可能接近一個(gè)小時(shí),但也可能根據(jù)使用要求、用戶選擇和監(jiān)測(cè)參數(shù)的類型等而改變。示例的時(shí)間窗口和它們的實(shí)施會(huì)在下面進(jìn)一步進(jìn)行詳細(xì)討論。在某些實(shí)施例中,一個(gè)應(yīng)用程序中的運(yùn)行時(shí)間能夠連續(xù)地或者基本上連續(xù)地監(jiān)測(cè)長(zhǎng)期、短期KDE與給定的事件流的理想密度之間的不同。長(zhǎng)期KDE和理想密度的區(qū)別為流的預(yù)期和慣有的偏差。而短期KDE與理想密度間的區(qū)別可能為流的當(dāng)前的偏差。這樣,如果預(yù)期的和當(dāng)前的偏差之間的區(qū)別過(guò)高,該應(yīng)用會(huì)報(bào)告一個(gè)善意的偏差或涉及的偏差。在一些實(shí)施例中,用戶可以通過(guò)為一個(gè) 可接納的偏差設(shè)定一個(gè)閥值以控制應(yīng)用的靈敏度,例如,使用一個(gè)合適的用戶界面。相應(yīng)地,偏差監(jiān)測(cè)的應(yīng)用可以通過(guò)在線(例如,實(shí)時(shí)或在運(yùn)行中)方式運(yùn)行。這樣,當(dāng)一個(gè)新的時(shí)間流進(jìn)應(yīng)用程序時(shí),估算量可以逐步提高,KDEs間的差別被計(jì)算出來(lái),以及檢測(cè)到的偏差會(huì)報(bào)告給用戶或外部應(yīng)用等。進(jìn)一步的,在某些實(shí)施例執(zhí)行中,KDEs可能直觀地并連續(xù)地或基本連續(xù)地向用戶提供由應(yīng)用程序監(jiān)測(cè)的流的當(dāng)前性能的一個(gè)簡(jiǎn)明實(shí)時(shí)或基本實(shí)時(shí)的視圖。這個(gè)實(shí)時(shí)或基本實(shí)時(shí)的視圖能夠有助提供用戶一個(gè)調(diào)整閥值和時(shí)間域等直觀基礎(chǔ)。上述的應(yīng)用程序運(yùn)行算法規(guī)則(或任何適合的算法規(guī)則)能夠通過(guò)在線方式計(jì)算計(jì)算KDEs,例如,基于一個(gè)時(shí)間窗口的KDE和基于完整流(或完整流的較大部分,相比于小部分)的KDE。一般,一個(gè)KDE包括核功能和寬帶等地參數(shù)。一個(gè)KDE基于一串?dāng)?shù)值(例如事件流)被計(jì)算和傳遞一個(gè)有充分根據(jù)的值分布的估算值。在某些實(shí)施例中,一個(gè)KDE算法規(guī)則可以利用Epanechnikov kernel作為一個(gè)核功能以及利用Normal Scale Rule作為一個(gè)寬帶。可以理解地,除了這些設(shè)置外,其他實(shí)施例中還可以利用其他的核/寬帶設(shè)置方式代替,例如,均值(uniform),三角形的(triangle),四次式(quartic),三次方的(tricube),高斯的(gaussian)以及余弦的(cosine)核功能。核功能的方程式如下設(shè)定Epanechnikov K(U) = 3/4 (l_u2) I {μ < 1}UniformK(U) = 1/21 {|u| ^ 1}TriangleK (u) = (I-1 u |) I {|u| 在 1}QuarticK(U) = (15/16) (l_u2)2l{|u| <1}TricubeK(u) = (35/32) (l~u2)3I{|u| ^ 1}GaussianK (u) = I/ V (2 π ) e_1/2u2CosineK(U) = ( π /4) cos (( π /2)u) I{|u| ^ 1}表I在這些公式中,K(U)代表核功能,而I {......}代表指示功能。在一些實(shí)施例中,一個(gè)KDE的估計(jì)要求接入對(duì)應(yīng)的數(shù)據(jù)集(如事件流)的所有值。例如,在CEP情況下的KDE的估算要求接入所有連續(xù)流進(jìn)的值/事件。同樣在CEP情況下,隨著時(shí)間流逝,連續(xù)的事件流可能進(jìn)一步提供對(duì)應(yīng)的KDE的計(jì)算數(shù)據(jù)。可以理解地,上述的存儲(chǔ)完整的事件流的長(zhǎng)期KDE為可行或不可行的。相應(yīng)地,在一些實(shí)施例中,應(yīng)用程序中的算法規(guī)則可能使用聚類核(Cluster kernel)。Clusterkernel可能連續(xù)或基本連續(xù)地保持事件流的分區(qū)總和并利用該總和重采樣分區(qū)事件。在整個(gè)事件處理過(guò)程中,分區(qū)事件的重采樣的估算進(jìn)一步接近KDE。相應(yīng)地,Cluster kernel由于較低的近似錯(cuò)誤值而更利于接近KDEs。同樣,Cluster kernel能夠逐漸更新。例如,最新的事件的估算量能夠更新,而不需要重新計(jì)算抓取的數(shù)據(jù)。在一些實(shí)施例中,為了排除舊數(shù)據(jù),Cluster kernel會(huì)定期重置。例如,Cluster kernel每月重置一次。關(guān)于基于時(shí)間窗口的短期KDE,這種KDE基于窗口的時(shí)間量度內(nèi)的當(dāng)前事件。相應(yīng)地,一個(gè)新的事件進(jìn)入窗口,而舊事件從特定時(shí)間框架中下降以從窗口中刪除。KDE也會(huì)類似地以逐漸的方式進(jìn)行更新,例如,舊時(shí)間可能從KDE的內(nèi)狀態(tài)中刪除而離開窗口,而新事件插入到KDE中。在一些實(shí)施例中,可以設(shè)置四次以限定一個(gè)應(yīng)用程序使用的算法規(guī)則的操作因素,以檢測(cè)事件流的偏差。第一個(gè)設(shè)置可為事件流的理想值分布。在一些實(shí)施例中,這可能為表示理想值和非常小的標(biāo)準(zhǔn)偏差的一般分布,能夠作為最大允許偏差的模型。這樣,這個(gè)分布可為一個(gè)peek的形式。可替換地,或除此之外,可以使用多種理想值。帶多種值的理想分布可能被限 定為帶這些值和改變小的一般分布的總和。在一些實(shí)施例中,多種理性值可能具有不同的權(quán)重。在這種理想值帶不同權(quán)重的情況下(例如,值I同值2 —樣發(fā)生兩次),那么一般分布的權(quán)重總和能夠與相應(yīng)的設(shè)置的權(quán)重一起使用。第二個(gè)設(shè)置關(guān)于短期估算量(例如短期KDE)的時(shí)間窗口。在一些實(shí)施例中,還需要額外考慮流率,因此流率的結(jié)果和時(shí)間窗口的尺寸會(huì)等同于窗口中的事件平均數(shù)。如果窗口中的事件平均數(shù)太高,用于更新和估計(jì)KDE的時(shí)間可能大于兩個(gè)事件之間的到達(dá)時(shí)間。第三個(gè)設(shè)置為偏差的尺度。在一些實(shí)施例中,可以使用任意的(例如,預(yù)設(shè)定的,用戶自定義的,或等等)的距離尺度表示實(shí)值功能的屬性。該值從整體上表示兩種功能完全不同。例如,由于KDEs為密集的從而集合為1,這種尺度利用區(qū)間0,2內(nèi)的值傳達(dá)KDEs距離。因此,當(dāng)前的偏向也在區(qū)間0,2內(nèi)。第四個(gè)設(shè)置為偏差測(cè)量的閥值。在一些實(shí)施例中,算法規(guī)則的靈敏度被這個(gè)因素控制。例如,當(dāng)設(shè)置一個(gè)低的閥值,更多的偏差會(huì)被報(bào)告??梢岳斫獾兀@種設(shè)置可能依賴應(yīng)用(例如,適用于真實(shí)的流事件數(shù)據(jù))。在一些實(shí)施例中,偏差檢測(cè)算法規(guī)則可能擴(kuò)展到檢查設(shè)置的不同的閥值以及讓用戶確定偏差。在一些實(shí)施例中,一種學(xué)術(shù)算法規(guī)則可能適用到這些閥值/偏差組合中。因此,使主要的算法規(guī)則和相關(guān)的應(yīng)用程序適用于用戶提供給定的應(yīng)用方案和明確的閥值。下面限定了上述實(shí)施例中的用于隨后算法規(guī)則的因素
權(quán)利要求
1.一種適用于處理系統(tǒng)上的偏差檢測(cè)方法,所述處理系統(tǒng)包括至少一個(gè)處理器,其特征在于,所述偏差檢測(cè)方法包括步驟 (a)從處理系統(tǒng)中接收至少一個(gè)事件流數(shù)據(jù),所述事件流數(shù)據(jù)包括至少一個(gè)屬性; (b)通過(guò)至少一個(gè)處理器,更新一個(gè)長(zhǎng)期統(tǒng)計(jì)量,所述長(zhǎng)期統(tǒng)計(jì)量相對(duì)于在第一個(gè)時(shí)間窗口的至少一個(gè)事件流數(shù)據(jù)里的至少一個(gè)監(jiān)測(cè)屬性的概率密度函數(shù)的第一次估算; (C)通過(guò)至少一個(gè)處理器,更新一個(gè)短期統(tǒng)計(jì)量,所述長(zhǎng)期統(tǒng)計(jì)量相對(duì)于在第二個(gè)時(shí)間窗口的至少一個(gè)事件流數(shù)據(jù)里的至少一個(gè)監(jiān)測(cè)屬性的概率密度函數(shù)的第二次估算,且所述第二個(gè)時(shí)間窗口持續(xù)的時(shí)間短于所述第一個(gè)時(shí)間窗口; (d)通過(guò)至少一個(gè)處理器,分別計(jì)算理想的密度分布和長(zhǎng)、短期統(tǒng)計(jì)量之間的第一和第二距離; (e)通過(guò)至少一個(gè)處理器,至少基于所述第一、第二距離計(jì)算當(dāng)前的偏差; (f)將當(dāng)前的偏差與閥值進(jìn)行比較; (g)對(duì)至少一個(gè)事件流數(shù)進(jìn)一步提供的檢測(cè)事件重復(fù)步驟(a) (f)。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述事件流數(shù)據(jù)的理想密度分布基于多種理想值。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述短期統(tǒng)計(jì)量為短期的核密度估計(jì),所述長(zhǎng)期統(tǒng)計(jì)量為長(zhǎng)期的核密度估計(jì)。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述第二時(shí)間窗口基本圍繞整個(gè)所述至少一個(gè)事件流數(shù)據(jù)。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述閥值由用戶設(shè)定。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述閥值由處理系統(tǒng)自動(dòng)決定。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述計(jì)算長(zhǎng)期統(tǒng)計(jì)量包括使用聚類核。
8.根據(jù)權(quán)利要求I所述的方法,其特征在于,進(jìn)一步包括步驟在顯示屏上顯示當(dāng)前的偏差與閥值比較的結(jié)果,所述顯示屏與處理系統(tǒng)連接。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,進(jìn)一步包括步驟在數(shù)據(jù)存儲(chǔ)器或外部應(yīng)用上輸出當(dāng)前的偏差與閥值比較的結(jié)果。
10.根據(jù)權(quán)利要求I所述的方法,其特征在于,進(jìn)一步包括步驟當(dāng)所述當(dāng)前的偏差超過(guò)閥值時(shí)發(fā)出通知。
11.一種適用于處理系統(tǒng)上的偏差檢測(cè)方法,所述處理系統(tǒng)包括至少一個(gè)處理器,其特征在于,所述偏差檢測(cè)方法包括步驟 從處理系統(tǒng)中接收至少一個(gè)事件流數(shù)據(jù); 在第一時(shí)間段中,維持一個(gè)短期的核密度估計(jì),用于至少一個(gè)事件流數(shù)據(jù)里的至少一個(gè)監(jiān)測(cè)事件; 在第二時(shí)間段中,維持一個(gè)長(zhǎng)期的核密度估計(jì),用于至少一個(gè)事件流數(shù)據(jù)里的至少一個(gè)監(jiān)測(cè)事件; 通過(guò)依靠所述短期的和長(zhǎng)期的核密度估計(jì)的至少一個(gè)概率密度函數(shù)計(jì)算一個(gè)偏差; 將所述偏差與閥值比較,從而檢測(cè)所述至少一個(gè)事件流數(shù)據(jù)的偏差。
12.一種用于事件處理的偏差檢測(cè)系統(tǒng),其特征在于包括 一適配器,用于接收至少一個(gè)事件流數(shù)據(jù);和至少一個(gè)處理器,所述處理器被設(shè)置為 更新一個(gè)長(zhǎng)期統(tǒng)計(jì)量,所述長(zhǎng)期統(tǒng)計(jì)量相對(duì)于在第一個(gè)時(shí)間窗口的至少一個(gè)事件流數(shù)據(jù)里的至少一個(gè)監(jiān)測(cè)屬性的概率密度函數(shù)的第一次估算; 更新一個(gè)短期統(tǒng)計(jì)量,所述長(zhǎng)期統(tǒng)計(jì)量相對(duì)于在第二個(gè)時(shí)間窗口的至少一個(gè)事件流數(shù)據(jù)里的至少一個(gè)監(jiān)測(cè)屬性的概率密度函數(shù)的第二次估算,且所述第二個(gè)時(shí)間窗口持續(xù)的時(shí)間短于所述第一個(gè)時(shí)間窗口; 分別計(jì)算理想的密度分布和長(zhǎng)、短期統(tǒng)計(jì)量之間的第一和第二距離; 至少基于所述第一、第二距離計(jì)算當(dāng)前的偏差 將當(dāng)前的偏差與閥值進(jìn)行比較; 對(duì)至少一個(gè)事件流數(shù)進(jìn)一步接收的檢測(cè)事件進(jìn)行重復(fù)更新、計(jì)算和比較。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述短期統(tǒng)計(jì)量為短期的核密度估計(jì),所述長(zhǎng)期統(tǒng)計(jì)量為長(zhǎng)期的核密度估計(jì)。
14.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述第二時(shí)間窗口基本圍繞整個(gè)所述至少一個(gè)事件流數(shù)據(jù)。
15.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述閥值由用戶設(shè)定。
16.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述閥值由處理系統(tǒng)自動(dòng)決定。
17.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述計(jì)算長(zhǎng)期統(tǒng)計(jì)量包括使用聚類核。
18.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,還包括用戶界面,用于顯示當(dāng)前的偏差與閥值比較的結(jié)果。
19.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,還包括數(shù)據(jù)存儲(chǔ)器,用于記錄檢測(cè)到的偏差有關(guān)的息。
20.一種非短暫的計(jì)算機(jī)可讀存儲(chǔ)媒介,當(dāng)由至少一個(gè)處理器進(jìn)行存儲(chǔ)指令處理時(shí),執(zhí)行如權(quán)利要求I所述的方法。
全文摘要
本發(fā)明公開了一種事件流的偏差檢測(cè)系統(tǒng)和/或方法。更具體地,本發(fā)明實(shí)施例涉及到更新進(jìn)來(lái)的事件流數(shù)據(jù)的短期和長(zhǎng)期的統(tǒng)計(jì)量。在一些實(shí)施例中,至少基于所述長(zhǎng)、短期統(tǒng)計(jì)量計(jì)算當(dāng)前的偏差。然后將當(dāng)前的偏差與閥值進(jìn)行比較。在某些實(shí)施例中,所述統(tǒng)計(jì)量需求的估算通過(guò)核密度估計(jì)完成。
文檔編號(hào)G06F17/30GK102902699SQ20111042863
公開日2013年1月30日 申請(qǐng)日期2011年12月19日 優(yōu)先權(quán)日2010年12月17日
發(fā)明者邁克爾·卡馬特, 克斯利多夫·海因茨, 尤爾根·克雷默, 托拜厄斯·里門施奈德 申請(qǐng)人:德商賽克公司