本發(fā)明涉及事件預測,更具體地說,涉及使用窗口周期標識事件的時滯指標。
背景技術:
事件預測是一種數(shù)據(jù)分析應用,其旨在基于分析歷史和其它數(shù)據(jù)來預測未來事件。通常,頻繁并且定期發(fā)生的事件比不頻繁并且不定期發(fā)生的事件更容易預測。這是因為使用時間模式的傳統(tǒng)關聯(lián)規(guī)則挖掘不太可能預測此類不定期的事件。
技術實現(xiàn)要素:
根據(jù)本發(fā)明的第一方面,一種標識待預測事件的時滯指標的方法包括:接收包括因素指示的信息,所述因素是不同于所述待預測事件的事件;使用處理器標識其中所述事件與所述因素在統(tǒng)計上相關的窗口周期;在所述窗口周期的持續(xù)時間內收集數(shù)據(jù),所述數(shù)據(jù)指示所述因素和所述事件的出現(xiàn);以及基于分析所述數(shù)據(jù),標識所述事件對所述因素的時滯依賴性。
根據(jù)本發(fā)明的第二方面,一種用于標識待預測事件的時滯指標的系統(tǒng)包括:輸入接口,其被配置為接收包括因素指示的信息,所述因素是不同于所述待預測事件的事件;以及處理器,其被配置為:標識其中所述事件與所述因素在統(tǒng)計上相關的窗口周期;在所述窗口周期的持續(xù)時間內收集數(shù)據(jù),所述數(shù)據(jù)指示所述因素和所述事件的出現(xiàn);以及基于分析所述數(shù)據(jù),標識所述事件對所述因素的時滯依賴性。
根據(jù)本發(fā)明的第三方面,一種計算機程序產(chǎn)品包括指令,當所述指令由處理器處理時,導致所述處理器實現(xiàn)一種標識待預測事件的時滯指標的方法。所述方法包括:接收包括因素指示的信息,所述因素是不同于所述待預測事件的事件;標識其中所述事件與所述因素在統(tǒng)計上相關的窗口周期;在所述窗口周期的持續(xù)時間內收集數(shù)據(jù),所述數(shù)據(jù)指示所述因素和所述事件的出現(xiàn);以及基于分析所述數(shù)據(jù),標識所述事件對所述因素的時滯依賴性。
通過本發(fā)明的技術實現(xiàn)其它特性和優(yōu)點。在此詳細描述了本發(fā)明的其它實施例和方面,并且它們被視為要求保護的本發(fā)明的一部分。為了更好地理解本發(fā)明以及優(yōu)點和特性,請參考說明書和附圖。
附圖說明
在說明書結尾處的權利要求中具體指出并明確要求保護了被視為本發(fā)明的主題?,F(xiàn)在將僅通過實例的方式并參考附圖描述本發(fā)明的優(yōu)選實施例,這些附圖是:
圖1是根據(jù)本發(fā)明各實施例的用于基于標識時滯指標來執(zhí)行事件預測的系統(tǒng)的框圖;
圖2是根據(jù)本發(fā)明各實施例的基于標識和使用窗口周期來標識事件的時滯指標的方法的過程流;
圖3示出根據(jù)本發(fā)明各實施例的用于標識窗口周期的示例性數(shù)據(jù)集;
圖4示出根據(jù)本發(fā)明的一個實施例的窗口周期;
圖5示出根據(jù)本發(fā)明的另一個實施例的窗口周期;
圖6示出根據(jù)本發(fā)明的一個實施例的用于在兩個示例性候選因素中標識因素的樣本表;以及
圖7示出根據(jù)本發(fā)明的一個實施例的用于標識時滯依賴性的樣本表。
具體實施方式
如上所述,不頻繁并且不定期的事件可能難以預測。這些事件是隨機的并且沒有明顯的時間模式。此外,它們的出現(xiàn)具有不確定性,并且通常取決于其它因素。因此,可以查找同現(xiàn)(co-occurrence)型關系的傳統(tǒng)關聯(lián)規(guī)則挖掘或相關性分析可能在預測不頻繁并且不定期的事件方面是有限的。這些事件高度依賴于兩種類型的模式,可以預先知道有關它們的信息。一種類型的模式是計時。例如,一盒黃油可能在購買一個月內過期,從而有助于預測何時將購買另一盒黃油。另一種類型的模式是與待預測事件相關的其它因素。例如,汽車被盜可能是與預測盜竊相關的因素,因為在盜竊中經(jīng)常使用被盜汽車。如果僅使用同現(xiàn)或時間一致性建立關系,則因素可能與實際上與它們無關的事件關聯(lián)。另一方面,可能未標識因素,盡管它們確實影響事件預測。發(fā)明人已發(fā)現(xiàn),在窗口周期內準確地標識因素和事件之間的統(tǒng)計關系(同時減少假相關)。在此詳述的系統(tǒng)和方法的各實施例涉及標識相關窗口周期以及使用該窗口周期標識時滯指標以便用于事件預測。即,各實施例詳述了基于來自因素的時滯來開發(fā)事件預測公式,該因素是不同于感興趣事件的與感興趣事件相關的事件。
圖1是根據(jù)本發(fā)明各實施例的用于基于標識時滯指標來執(zhí)行事件預測的系統(tǒng)110的框圖。系統(tǒng)110包括輸入接口112以便從源130接收信息。信息可以以無線方式接收,或者可以通過網(wǎng)絡120接收。信息可以包括現(xiàn)有知識、調查信息、或專業(yè)知識、歷史事件信息或相關因素信息。信息指示或者可以用于標識感興趣因素。如下面詳述的,部分或全部信息用于標識其中可標識事件102與感興趣因素(多個)103之間的統(tǒng)計相關性的窗口周期101。部分或全部信息然后用于標識時滯指標(應用于因素的規(guī)則)以便預測事件102。即,根據(jù)一個實施例,可以針對在接收的信息中標識為因素103的(已知)因素103,確定窗口周期101和時滯指標。根據(jù)另一個實施例,可以通過確定窗口周期101以及確定哪個候選因素103與事件最密切相關,嘗試兩個或更多(潛在)因素103。下面進一步討論這兩個實施例。部分或全部數(shù)據(jù)可以存儲在系統(tǒng)110的一個或多個存儲設備113中,以便由一個或多個處理器115在處理時使用。處理器115可以標識窗口周期101,以便在窗口周期101內收集樣本數(shù)據(jù)并將樣本數(shù)據(jù)存儲在存儲設備113中。處理器115還標識時滯依賴性,以便在存儲設備113中構建知識庫,存儲設備113還可以維護實時事件102和實時相關因素103的數(shù)據(jù)庫。輸出接口117促進輸出包括窗口周期101和時滯指標信息(事件預測規(guī)則)的數(shù)據(jù)以便進一步處理,或者基于處理器115的處理促進輸出事件預測信息。輸出可以通過顯示器提供給操作者,或者以無線方式或通過網(wǎng)絡傳輸?shù)搅硪粋€系統(tǒng)。系統(tǒng)110的組件(112、113、115、117)可以通過公共總線共享數(shù)據(jù),或者可以以其它方式互連。
圖2是根據(jù)本發(fā)明各實施例的基于標識和使用窗口周期101來標識事件102的時滯指標的方法的過程流。在方框210,接收信息包括現(xiàn)有知識、調查信息、或專業(yè)知識、歷史事件信息或相關因素信息中的任何或全部信息?,F(xiàn)有知識包括有關事件102的信息和有關一個或多個潛在因素103的信息。調查信息和專業(yè)知識例如可以有助于選擇候選因素103。歷史事件信息和相關因素信息用于確定窗口周期101,如下面詳述的那樣。在方框210接收的信息還可以包括做出預測(在方框250)所需的當前或實時信息。如上所述,接收的信息(方框210)可以涉及兩個實施例之一。
根據(jù)一個實施例,所述信息基于從源130接收的現(xiàn)有知識、調查、專業(yè)知識或其它信息,標識因素103。根據(jù)該實施例,針對(已知)因素103,在方框220確定窗口周期101(如下面詳述的)。確定窗口周期之后,在方框230在窗口周期101內收集因素103和事件102的樣本將促進分析(不執(zhí)行在方框235的處理)。在方框240,該分析促進標識事件102對因素103的時滯依賴性(并且因此標識事件預測規(guī)則)。在方框250,預測事件102基于所標識的時滯依賴性(事件預測規(guī)則)以及有關因素103的歷史或實時出現(xiàn)的信息(方框210)。即,根據(jù)一個實施例,可以根據(jù)歷史可用數(shù)據(jù)進行驗證。在一個備選實施例中,可以使用實時數(shù)據(jù)進行驗證(即,向新出現(xiàn)的因素應用時滯依賴性)。實時驗證的實用性可以更大或更小,具體取決于窗口周期101的持續(xù)時間(即,當窗口周期101相對長時,使用實時信息進行驗證可能不切實際)。基于在方框260驗證預測,在方框270補充信息包括補充與相關的因素103和事件102有關的知識庫。
根據(jù)一個備選實施例,所述信息標識兩個或更多候選因素103(或因素103的集合)。針對所有候選因素103,執(zhí)行在方框220確定窗口周期101以及在方框230在窗口周期101內收集樣本的過程。然后在方框235標識感興趣因素103。在方框235標識因素103之后,在方框240標識時滯依賴性(和對應的事件預測規(guī)則)的過程以及后續(xù)過程(250-270)與上述實施例相同。下面詳述每個過程。首先詳述確定窗口周期101(方框220)。
圖3示出根據(jù)本發(fā)明各實施例的用于標識窗口周期101的示例性數(shù)據(jù)集。示例性時間線310被示出具有(歷史)事件102Y和因素103X的出現(xiàn)時間。如所指出的,給定事件102(例如,入室盜竊)的因素103(例如,汽車被盜)可以是已知因素103。此外,可以在時間線310上使用多個候選因素103。即,因素103X可以是多種類型的因素(例如,汽車被盜、槍支被盜),它們可能潛在地與感興趣事件102Y(例如,入室盜竊)相關。在圖3中的時間線310上標記一組事件102Y1、Y2、Y3、Y4的出現(xiàn)時間(例如,四次入室盜竊的時間),并且通過在事件102Y1和Y4之間散布的所有其它標記指示一個或多個因素103的出現(xiàn)時間(例如,十一次汽車被盜的時間或者七次汽車被盜和四次槍支被盜的時間)。將給定事件102Y和緊跟事件102之后的因素103X之間的時間間隔標記為GF,并且將給定事件102Y和緊接事件102之前的因素103X之間的時間間隔標記為GP。根據(jù)一個備選實施例,其中事件102具有硬結束(下面進一步描述),給定事件102Y與因素103X和事件102Y之前的硬結束之間的時間間隔為GP。對于給定的一組事件102Y{Y1,Y2,…,Yi}和給定的一組因素103X{X1,X2,…,Xj},GF和GP的總數(shù)為i-1(以事件Y開始和結束的持續(xù)時間內)。在圖3所示的實例中,i為4,j為11,并且GF和GP的總數(shù)為i-1或3,如圖所示。用于計算窗口周期101的a 104、b 105、c 106和d 107的值基于GF和GP的i-1值的匯總統(tǒng)計(假設正態(tài)分布),如下所示:
Tyn和Tym是兩個事件的出現(xiàn)時間,其中Tyn是后出現(xiàn)的事件。a 104、b 105、c 106和d 107中的每一個值都可以加上或減去標準偏差??梢愿鶕?jù)現(xiàn)有知識確定標準偏差值。下面參考圖4和5,針對兩個不同實施例解釋使用a 104、b 105、c 106和d 107確定窗口周期。
圖4示出根據(jù)本發(fā)明的一個實施例的窗口周期101。根據(jù)圖2中所示的實施例,沒有c 106(沒有硬結束,以便c=0),如下面進一步解釋的那樣。事件102之間的總時間周期(軟開始到軟結束)由d 107給出,如等式3指示的那樣。如等式1指示的,事件102和緊跟之后的因素103之間的平均間隔或間距(平均GF)由a 104給出。因素103的出現(xiàn)開始是待計算值的窗口周期101。如等式2指示的,因素103和后續(xù)事件102之間的平均間隔或間距(平均GP)由b 105給出。因為使用可用歷史數(shù)據(jù)計算a104、b 105和d 107的值(使用等式1、等式2、等式3,其中等式2提供b 105,其中沒有c 106或c=0),所以可以根據(jù)以下等式計算窗口周期101:
d-(a+b) [等式4]
圖5示出根據(jù)本發(fā)明的另一個實施例的窗口周期101。圖5中所示的實施例包括持續(xù)時間c 105,其表示事件102的最后結束(硬結束)。例如,當待預測事件102是購買黃油時,先前購買的黃油的到期日期將提供c106。如圖4中所示的實施例指示的,用作窗口周期101擴展的最后結束可能不適用于特定事件102。如有關圖3的討論中所指出的,當感興趣事件102具有硬結束時,GP為b+c。在這種情況下,等式2提供b 105和c 106的和,并且窗口周期101由以下等式給出:
d-(a+b+c) [等式5]
已知窗口周期之后,從接收的信息(圖2,方框210)中收集事件102和因素103出現(xiàn)的樣本(圖2,方框230)或者實時收集,以便分析和確定事件102對因素103的時滯依賴性(圖2,方框240),如下面詳述的那樣。根據(jù)一個實施例,在方框240確定時滯依賴性之前,從候選因素103之中選擇因素103作為最密切相關的因素103。首先討論該實施例。
圖6示出根據(jù)本發(fā)明的一個實施例的用于在兩個示例性候選因素103之中標識因素103的樣本表610。圖6示出根據(jù)所述實施例的在方框235的處理,其中在從源130接收的信息中標識多個(潛在)因素103。盡管出于解釋目的在圖6中示出兩個候選因素103(因素1和因素2),但可以考慮其它候選因素103(在方框220確定窗口周期101時以及在方框235的處理時,以便標識與感興趣事件102最密切相關的候選因素103)。樣本表610包括在三個窗口周期101-1、101-2、101-3內,感興趣事件102以及候選因素103(因素1和因素2)的出現(xiàn)數(shù)量。窗口周期101之間的時間是間隔a 104。在求和表620中對候選因素103(因素1和因素2)的出現(xiàn)數(shù)量進行求和。求和表620指示在獲得樣本的窗口周期101內,第一候選因素103(因素1)比第二候選因素103(因素2)出現(xiàn)次數(shù)多?;诖耍瑢⒌谝缓蜻x因素103(因素1)標識為要用于預測事件102的因素103,因為它與事件102更密切相關。在圖2中所示的過程流的該階段(在完成方框235之后),已標識窗口周期101,并且還標識單個因素103(無論從一開始知道因素103還是在方框235確定因素103)。接下來詳述標識事件102對因素103的時滯依賴性(方框240)。
圖7示出根據(jù)本發(fā)明的一個實施例的用于標識時滯依賴性的樣本表710。當已知單個因素103與感興趣事件102相關時,不生成圖6中所示的樣本表610和求和表620。但是,可以使用在樣本表610中收集的樣本確定時滯依賴性。出于解釋目的,討論與一個感興趣因素103(例如,根據(jù)參考圖6的討論標識的因素103(因素1))關聯(lián)的樣本表710和相關性表720,而不是樣本表610以及與樣本表610和因素103(因素1)對應的相關性表。在圖7中所示的實例中,假設窗口周期101為7天。因此,對于樣本表710中指示的每個事件日期,示出在事件102的當天以及七天之前的每一天的因素103出現(xiàn)(由“1”指示)。基于樣本表710中指示的因素103出現(xiàn),生成相關性表720,其指示在實例中的七天窗口周期101的每一天,因素103和事件102之間的相關性??梢岳缡褂闷柹璕相關性來量化相關性,如圖7中所示。在備選實施例中,可以使用另一種類型的相關性(例如,克拉默V相關性)。使用窗口周期101的相關性表720中指示的相關性之中的最高相關性來確定時滯依賴性。在此示例性情況中,因為七天的窗口周期101中的“5天前”指示最高相關性值,所以時滯依賴性被確定為五天。基于時滯指標(因素103出現(xiàn)),事件預測由以下等式給出:
factor_occurrence+a+time_lag [等式6]
從因素103的出現(xiàn)時間,上面參考相關性表720討論的持續(xù)時間a 104和時滯指示預測的事件102的出現(xiàn)。對于上面討論的實例,事件102之前的五天導致因素103與事件102之間的最高相關性。因此,在此示例性情況中,等式6中的time_lag將為5。在確定窗口周期101(圖2,方框220)的過程中,將使用等式1確定a 104的值。
在此使用的術語只是為了描述特定的實施例并且并非旨在作為本發(fā)明的限制。如在此使用的,單數(shù)形式“一”、“一個”和“該”旨在同樣包括復數(shù)形式,除非上下文明確地另有所指。還將理解,當在此說明書中使用時,術語“包括”和/或“包含”指定了聲明的特性、整數(shù)、步驟、操作、元素和/或組件的存在,但是并不排除多個其它特性、整數(shù)、步驟、操作、元素、組件和/或其組合的存在或增加。
下面權利要求中的對應結構、材料、操作以及所有功能性限定的裝置或步驟的等同替換,旨在包括任何用于與在權利要求中具體指出的其它元件相組合地執(zhí)行該功能的結構、材料或操作。出于示例和說明目的給出了對本發(fā)明的描述,但所述描述并非旨在是窮舉的或是將本發(fā)明限于所公開的形式。在不偏離本發(fā)明的范圍和精神的情況下,對于所屬技術領域的普通技術人員來說許多修改和變化都將是顯而易見的。實施例的選擇和描述是為了最佳地解釋本發(fā)明的原理和實際應用,并且當適合于所構想的特定使用時,使得所屬技術領域的其它普通技術人員能夠理解本發(fā)明的具有各種修改的各種實施例。
在此示出的流程圖只是一個實例。在此描述的這些圖或步驟(或操作)可以存在許多變化而不偏離本發(fā)明的精神。例如,可以按不同的順序執(zhí)行步驟,或者可以添加、刪除或修改步驟。所有這些變化都被視為要求保護的本發(fā)明的一部分。
盡管描述了本發(fā)明的優(yōu)選實施例,但所屬技術領域的技術人員應該理解,可以在現(xiàn)在和將來進行各種落入下面權利要求范圍的改進和增強。這些權利要求應該被解釋為維護對最初描述的本發(fā)明的正確保護。