專利名稱:確定時間數(shù)據(jù)中的周期性效應(yīng)的制作方法
確定時間數(shù)據(jù)中的周期性效應(yīng)
背景技術(shù):
為了更好地理解企業(yè)(如公司、教育機(jī)構(gòu)、政府機(jī)構(gòu),等等)內(nèi)的操作,企業(yè)可以收集與這樣的操作有關(guān)的各方面的信息。例如,將監(jiān)視器加入到信息技術(shù)(IT)系統(tǒng)以在IT 系統(tǒng)操作期間收集數(shù)據(jù)。企業(yè)還可以收集與企業(yè)的業(yè)務(wù)方面有關(guān)的信息,如與由企業(yè)提供的產(chǎn)品(貨物和/或服務(wù))有關(guān)的信息。所期望的是分析數(shù)據(jù)以執(zhí)行異常檢測,如檢測故降情況,錯誤,或企業(yè)可能希望解決的任何其他情況。然而,由于所接收的數(shù)據(jù)中存在周期性(seasonality)(或周期性效應(yīng) (seasonal effect)),這樣的數(shù)據(jù)分析是復(fù)雜的。
本發(fā)明的一些實(shí)施例針對下圖進(jìn)行描述圖1是根據(jù)一個實(shí)施例,檢測時間數(shù)據(jù)中的周期性的過程的流程圖;圖2是根據(jù)一個實(shí)施例,說明時間數(shù)據(jù)和相應(yīng)桶(bucket)之間的映射;圖3是根據(jù)一個實(shí)施例,說明通過一過程計算的作為不同周期(season)的函數(shù)的誤差分?jǐn)?shù)的圖表;圖4是根據(jù)一個實(shí)施例,計算連續(xù)時間數(shù)據(jù)的誤差分?jǐn)?shù)的過程的流程圖;圖5是根據(jù)一個實(shí)施例,計算離散時間數(shù)據(jù)的誤差分?jǐn)?shù)的過程的流程圖;圖6是其中包括本發(fā)明實(shí)施例的示例性計算機(jī)的框圖;以及圖7是根據(jù)一個實(shí)施例的基線估計的過程的流程圖。
具體實(shí)施例方式為實(shí)現(xiàn)準(zhǔn)確分析所收集的有關(guān)企業(yè)的時間數(shù)據(jù),所期望的是識別時間數(shù)據(jù)的周期性效應(yīng)(或周期性)。周期性效應(yīng)指隨時間的推移(在時間序列上)收集的時間數(shù)據(jù)中的時間相關(guān)模式,其中該模式趨向于每一定長度的周期(或循環(huán))重復(fù)一次。長度可以是秒、 分鐘、小時、天、月、年等等。時間數(shù)據(jù)的周期性行為可以基于不同的使用模式、系統(tǒng)內(nèi)部過程,或其他因素。例如,相應(yīng)于典型的系統(tǒng)訪問模式,用戶卷(user volume)往往顯示每日和每周循環(huán)。在沒有識別時間數(shù)據(jù)中的周期性的情況下,對時間數(shù)據(jù)執(zhí)行的一些分析可能不會產(chǎn)生準(zhǔn)確的結(jié)果,如假警報??梢詫r間數(shù)據(jù)執(zhí)行分析以用于異常檢測,如確定故障情況、 錯誤、或企業(yè)可能希望解決的任何其他情況。根據(jù)一些實(shí)施例的周期性檢測算法并不假定周期性效應(yīng)是基于靜態(tài)的周期,如小時、天、或星期。相反,根據(jù)一些實(shí)施例的周期性檢測算法能夠考慮到任意變化長度的周期, 以及識別周期之一來代表時間數(shù)據(jù)中的周期性效應(yīng)。例如,考慮到的不同可能周期開始于一小時并以一小時的增量繼續(xù)直到某一最大周期大小(例如,一星期、一月、或一年)。誤差分?jǐn)?shù)被用于幫助選擇周期之一作為時間數(shù)據(jù)中的周期性的代表,其中基于在考慮到相應(yīng)周期的同時基于時間數(shù)據(jù)計算的統(tǒng)計計量來得到誤差分?jǐn)?shù)。因此,對于多個考慮到的周期(候選周期),產(chǎn)生多個相應(yīng)誤差分?jǐn)?shù)。以不同方式執(zhí)行誤差分?jǐn)?shù)計算取決于時間數(shù)據(jù)是連續(xù)的時間數(shù)據(jù)還是離散的時間數(shù)據(jù)(如下文進(jìn)一步所討論的)。選擇與最低 (或最優(yōu))誤差分?jǐn)?shù)相關(guān)聯(lián)的候選周期作為最有可能代表時間數(shù)據(jù)中的的周期性效應(yīng)的周期。在另一個實(shí)施例中,不是使用誤差分?jǐn)?shù),而是可以使用可能性分?jǐn)?shù)作為代替。即使在時間數(shù)據(jù)中存在間隙,根據(jù)一些實(shí)施例的周期性檢測算法能夠執(zhí)行周期性識別。除此之外,周期性檢測算法能夠相對好地容許噪聲輸入數(shù)據(jù)。此外,周期性檢測算法對時間數(shù)據(jù)(連續(xù)的或離散的)起作用而無需固定的(規(guī)則的)采樣間隔。圖1是根據(jù)一個實(shí)施例,識別時間數(shù)據(jù)中的周期性的周期性檢測算法的流程圖。 如圖1所示,接收時間數(shù)據(jù)(在10 。所接收的時間數(shù)據(jù)是時間序列形式的數(shù)據(jù),其包括沿時間點(diǎn)的數(shù)據(jù)值。時間數(shù)據(jù)可以由一個或多個監(jiān)視器收集,例如,如計算機(jī)系統(tǒng)、存儲系統(tǒng)、 網(wǎng)絡(luò)系統(tǒng)等等中的監(jiān)視器??商鎿Q地,時間數(shù)據(jù)可以是與企業(yè)相關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)。根據(jù)一些實(shí)施例的技術(shù)適用于任何類型的時間數(shù)據(jù)。周期性檢測算法還接收(在104) —組用于測試的候選周期。例如,候選周期可以是范圍從0小時到目標(biāo)小時數(shù)的周期。因此,候選周期可以是1小時周期、2小時周期、4小時周期、15小時周期、40小時周期,等等。鑒于周期性檢測算法相對簡單并因此可以及時地執(zhí)行這一事實(shí),被測試的候選周期的數(shù)可以相對較大。因?yàn)槟軌蚩紤]相對大數(shù)量的任意長度的候選周期,所以能夠?qū)崿F(xiàn)時間數(shù)據(jù)中周期性的更準(zhǔn)確識別。每個候選周期被稱為周期 k,其中k = 1到nun^easons,其中nun^easons彡2代表所考慮的周期的數(shù)量。圖1中的塊106描繪了針對該組中每個候選周期要執(zhí)行的處理。所考慮的周期的間隔被劃分(在108)為多個桶i (其中i = 1到Nbk,Nbk 代表周期k中桶的數(shù)量)。例如,如果所考慮的周期是1小時周期,即間隔為1小時,并且該間隔可以被劃分到15分鐘的桶中。圖2示出將周期間隔200劃分到四個十五分鐘桶202A、202B、202C、及202D中的例子。對于具有不同間隔的其他周期,可以確定不同長度的桶。接下來,基于每個樣本的時間,將所接收的時間數(shù)據(jù)中的樣本分配(在110)至相應(yīng)的桶。特定樣本的時間落入一個桶。在上面的例子中,如果特定樣本的時間發(fā)生在小時后的15分鐘和四分鐘之間,則該特定樣本將被分配至圖2的第二桶202B中。這在圖2中示出,其中小時后的第一個一刻鐘中所取的所有數(shù)據(jù)樣本被分配至桶202A中,小時后的第二個一刻鐘中所取的所有數(shù)據(jù)樣本被分配至桶202B中,小時后的第三個一刻鐘中所取的所有數(shù)據(jù)樣本被分配至桶202C中,并且小時后的第四個一刻鐘中所取的所有數(shù)據(jù)樣本被分配至桶202D中。因此,如圖2所示,將12:00和12:14之間所取的數(shù)據(jù)樣本分配至桶202A 中,將1:00和1:14之間所取的數(shù)據(jù)樣本分配至桶202A中,以及將2:00和2:14之間所取的數(shù)據(jù)樣本分配至桶202A中。接下來,基于周期k的桶中的數(shù)據(jù)樣本,計算(在112)周期k的誤差分?jǐn)?shù), error (k)。為確定誤差分?jǐn)?shù),基于時間數(shù)據(jù)是連續(xù)的時間數(shù)據(jù)還是離散的時間數(shù)據(jù)執(zhí)行不同的處理,如結(jié)合圖4和圖5所述。離散的時間數(shù)據(jù)指具有少于某預(yù)定義數(shù)量(如,10)的離散值的數(shù)據(jù)。針對每個考慮到的候選周期重復(fù)塊106的處理,從而為相應(yīng)的候選周期產(chǎn)生相應(yīng)的誤差分?jǐn)?shù)。然后比較(在114)候選周期的誤差分?jǐn)?shù)。然后輸出(在116)最小誤差分?jǐn)?shù)的指示。例如,相應(yīng)候選周期的誤差分?jǐn)?shù)可以存儲在誤差向量中,并且在116輸出的指示可以是該誤差向量的索引。標(biāo)識相應(yīng)周期的輸出索引(或其他指示)可以用于后續(xù)處理中以識別時間數(shù)據(jù)的周期性。在不同的實(shí)施例中,不是選擇最小的誤差分?jǐn)?shù),而是可以選擇具有另外最優(yōu)值(如,最大分?jǐn)?shù))的分?jǐn)?shù)一具有“最優(yōu)”值的分?jǐn)?shù)取決于所計算的分?jǐn)?shù)類型。圖3示出根據(jù)圖1的過程為不同候選周期所計算的示例誤差分?jǐn)?shù)的圖表。在圖3 的例子中,考慮到的候選周期在從0到168小時的范圍變動。圖表中每個點(diǎn)繪制出相應(yīng)候選周期的誤差分?jǐn)?shù)。點(diǎn)300與最小誤差分?jǐn)?shù)相關(guān)聯(lián)。在圖3的例子中,點(diǎn)300對應(yīng)于M小時的周期。因此,從中得出圖3的誤差分?jǐn)?shù)的時間數(shù)據(jù)具有M小時的周期性。如上所述,誤差分?jǐn)?shù)的計算取決于時間數(shù)據(jù)是連續(xù)的還是離散的數(shù)據(jù)而不同。圖 4是在時間數(shù)據(jù)是連續(xù)的情況下計算周期k的誤差分?jǐn)?shù),error (k)的流程圖,而圖5是在時間數(shù)據(jù)是離散的情況下計算周期k的誤差分?jǐn)?shù),error (k)的流程圖。在圖4中,為所考慮的周期的每個桶i計算(在40 統(tǒng)計計量。在一個例子中, 所述統(tǒng)計計量是被分配到桶的數(shù)據(jù)樣本的中值(median)。在其他例子中,統(tǒng)計計量可以是數(shù)據(jù)樣本的平均數(shù),數(shù)據(jù)樣本的標(biāo)準(zhǔn)偏差,或數(shù)據(jù)樣本的某種概率分布。然后計算(在404)桶中數(shù)據(jù)樣本與桶的統(tǒng)計計量(如,中值)之間的絕對偏差。對為特定桶所計算的這些絕對偏差求和以產(chǎn)生相應(yīng)的偏差和Deviati0n_SUm(i)= Σ IDi(J)-Hiedi I,其中Hiedi代表桶i的中值,Di(J)代表桶i中的數(shù)據(jù)樣本j,其中i = 1至 Nbs (桶的數(shù)量),以及j = 1至numDataGS i中的數(shù)據(jù)樣本的數(shù)量)。桶的偏差和,Deviation_Sum(i),繼而被聚合(在406),如通過求和,為相應(yīng)的候選周期k產(chǎn)生誤差分?jǐn)?shù),error (k)0按如下執(zhí)行對偏差和的求和以產(chǎn)生如下的周期k的誤差分?jǐn)?shù),error (k)error(k)= ^ Deviation_Sum Ci).
1=1在可替換的實(shí)施方案中,當(dāng)計算桶中數(shù)據(jù)樣本與桶的相應(yīng)統(tǒng)計計量之間的絕對偏差時,為避免過度擬合,周期性檢測算法進(jìn)行η重交叉驗(yàn)證。通過η重交叉驗(yàn)證,每個桶中的數(shù)據(jù)樣本被隨機(jī)地劃分為η組(η > 1)。然后對η-1個組計算統(tǒng)計計量,對其余組計算絕對偏差。然后針對η個組的每一個重復(fù)該過程。圖5圖示在時間數(shù)據(jù)是離散數(shù)據(jù)的情況下的誤差分?jǐn)?shù)計算。在一個實(shí)施例中, 用于離散時間數(shù)據(jù)的誤差計量是每個桶中數(shù)據(jù)樣本的熵的平均。基于桶中的數(shù)據(jù)樣本計
算(在502)概率質(zhì)量函數(shù)(PMF),& [{^,^^^,其中 ㈣是^桶中的值乂^]的概
率(其中k為周期),其中ν是V中的索引,其是一個發(fā)現(xiàn)于數(shù)據(jù)中的不同值的數(shù)組,并且 Iength(V)代表V的長度。PMF是為每個bk桶計算的統(tǒng)計計量的一個例子。在其他實(shí)施方案中,可以使用其他統(tǒng)計計量。然后基于PMF計算(在504)每個桶中數(shù)據(jù)樣本的熵
VH(Pbk) = Y^pvbtIogpvbk接下來,將周期k的誤差分?jǐn)?shù)計算(在506)為所有桶的平均熵
權(quán)利要求
1.一種確定時間數(shù)據(jù)中的周期性效應(yīng)的方法,包括 接收(104)與企業(yè)的一方面有關(guān)的時間數(shù)據(jù);對于多個候選周期中的每一個,由計算機(jī)(600)執(zhí)行 定義相應(yīng)候選周期的間隔;將所述間隔劃分(108)為包含各自時間數(shù)據(jù)集合的多個桶, 計算相應(yīng)桶的統(tǒng)計計量,以及使用所計算的統(tǒng)計計量來計算(11 相應(yīng)候選周期的分?jǐn)?shù),其中為相應(yīng)候選周期所計算的分?jǐn)?shù)被用于識別所述候選周期中的哪個候選周期代表時間數(shù)據(jù)的周期性效應(yīng)。
2.如權(quán)利要求1的方法,其中計算統(tǒng)計計量包括計算從由中值、平均值、標(biāo)準(zhǔn)偏差、以及概率分布構(gòu)成的組中選擇的統(tǒng)計計量。
3.如權(quán)利要求1的方法,其中計算分?jǐn)?shù)包括計算誤差分?jǐn)?shù)。
4.如權(quán)利要求3的方法,其中計算誤差分?jǐn)?shù)包括在每個桶內(nèi),基于桶中的時間數(shù)據(jù)值和桶的統(tǒng)計計量應(yīng)用數(shù)學(xué)函數(shù)以產(chǎn)生輸出值;以及對為桶產(chǎn)生的輸出值進(jìn)行聚合以計算誤差分?jǐn)?shù)。
5.如權(quán)利要求4的方法,其中應(yīng)用數(shù)學(xué)函數(shù)包括根據(jù)桶的統(tǒng)計計量來計算桶中時間數(shù)據(jù)值的絕對偏差,以及對相應(yīng)桶的絕對偏差求和以產(chǎn)生相應(yīng)的輸出值。
6.如權(quán)利要求1的方法,其中計算統(tǒng)計計量包括計算概率映射函數(shù)。
7.如權(quán)利要求6的方法,進(jìn)一步包括基于每個桶的概率映射函數(shù)計算熵。
8.如權(quán)利要求7的方法,其中基于桶的熵計算分?jǐn)?shù)。
9.如權(quán)利要求1的方法,進(jìn)一步包括基于時間數(shù)據(jù)是連續(xù)的還是離散的,選擇性地使用不同的技術(shù)計算分?jǐn)?shù)。
10.如權(quán)利要求1的方法,進(jìn)一步包括在識別與時間數(shù)據(jù)相關(guān)聯(lián)的周期之后,為時間數(shù)據(jù)估計基線,其中估計基線包括將所識別周期的間隔劃分成桶;將時間數(shù)據(jù)映射到所識別周期的間隔的桶中;基于所識別周期的間隔的桶中的時間數(shù)據(jù)值計算統(tǒng)計量;以及基于統(tǒng)計量計算閾值。
11.如權(quán)利要求10的方法,進(jìn)一步包括 接收新的數(shù)據(jù)樣本;以及將新的數(shù)據(jù)樣本與閾值比較以確定新的數(shù)據(jù)樣本是正常的還是異常的。
12.—種計算機(jī)(600)包括存儲時間數(shù)據(jù)的存儲介質(zhì)(608);以及處理器(604)用于 定義一組任意長度的候選周期;對于組中的每個候選周期,基于將時間數(shù)據(jù)劃分至相應(yīng)候選周期的間隔內(nèi)的多個桶中來計算分?jǐn)?shù),其中為相應(yīng)多個桶計算統(tǒng)計計量以實(shí)現(xiàn)分?jǐn)?shù)的計算;以及比較相應(yīng)候選周期的分?jǐn)?shù)以識別候選周期中的一個作為時間數(shù)據(jù)的周期性的代表。
13.如權(quán)利要求12的計算機(jī),其中處理器被配置為進(jìn)一步對于每個桶,計算桶中每個時間數(shù)據(jù)值與桶的統(tǒng)計計量之間的絕對偏差, 其中基于桶的絕對偏差計算分?jǐn)?shù)。
14.如權(quán)利要求12的計算機(jī),其中處理器被配置為進(jìn)一步 對于每個桶,基于桶的統(tǒng)計計量計算熵,其中基于桶的熵計算分?jǐn)?shù)。
15.如權(quán)利要求12的計算機(jī),其中時間數(shù)據(jù)包括在沒有規(guī)則采樣間隔的情況下獲得的連續(xù)數(shù)據(jù)和離散數(shù)據(jù)之一。
16.一種包括至少一個計算機(jī)可讀存儲介質(zhì)的物品,所述計算機(jī)可讀存儲介質(zhì)包含指令,所述指令在執(zhí)行時使計算機(jī)(600)接收與企業(yè)的一方面有關(guān)的時間數(shù)據(jù);對于多個候選周期中的每一個定義相應(yīng)候選周期的間隔;將所述間隔劃分為包含各自時間數(shù)據(jù)集合的多個桶,計算相應(yīng)桶的統(tǒng)計計量,以及使用所計算的統(tǒng)計計量來計算相應(yīng)候選周期的分?jǐn)?shù),其中為相應(yīng)候選周期計算的分?jǐn)?shù)被用于識別所述候選周期中的哪個候選周期代表時間數(shù)據(jù)的周期性效應(yīng)。
17.如權(quán)利要求16的物品,其中所述指令在執(zhí)行時使計算機(jī)進(jìn)一步 基于每個桶中的時間數(shù)據(jù)值和桶的相應(yīng)統(tǒng)計計量計算絕對偏差,其中基于絕對偏差計算分?jǐn)?shù)。
18.如權(quán)利要求16的物品,其中所述指令在執(zhí)行時使計算機(jī)進(jìn)一步 基于每個桶中的時間數(shù)據(jù)值和桶的相應(yīng)統(tǒng)計計量計算熵,其中基于熵計算分?jǐn)?shù)。
19.如權(quán)利要求18的物品,其中所述統(tǒng)計計量是概率質(zhì)量函數(shù)。
20.如權(quán)利要求16的物品,其中所述指令在執(zhí)行時使計算機(jī)進(jìn)一步基于時間數(shù)據(jù)是連續(xù)的還是離散的,選擇性地使用不同的技術(shù)計算分?jǐn)?shù)。
全文摘要
為確定時間數(shù)據(jù)中的周期性效應(yīng),對于多個候選周期中的每一個,執(zhí)行以下步驟。定義相應(yīng)候選周期的間隔。將所述間隔劃分(108)為包含各自時間數(shù)據(jù)集合的多個桶,以及計算相應(yīng)桶的統(tǒng)計計量。使用所計算的統(tǒng)計計量來計算(112)相應(yīng)候選周期的分?jǐn)?shù)。為相應(yīng)候選周期所計算的分?jǐn)?shù)被用于識別所述候選周期中的哪個候選周期代表時間數(shù)據(jù)的周期性效應(yīng)。
文檔編號G06F17/40GK102483738SQ200980160657
公開日2012年5月30日 申請日期2009年7月14日 優(yōu)先權(quán)日2009年7月14日
發(fā)明者A·克雷佩爾, I·科亨, K·埃森伯格, L·阿什克納茲, M·利安, M·羅斯曼 申請人:惠普開發(fā)有限公司