一種時間序列數(shù)據(jù)分析方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種時間序列數(shù)據(jù)分析方法及裝置,用以準確、直觀地展示時間序列數(shù)據(jù)。所述方法包括:提取時間序列數(shù)據(jù)的特征信息;查找所述特征信息相同的時間序列數(shù)據(jù);分析所述特征信息相同的時間序列數(shù)據(jù)是否由同一源代碼產生;當所述特征信息相同的時間序列數(shù)據(jù)由同一源代碼產生,對所述特征信息相同的時間序列數(shù)據(jù)進行聚類展示。
【專利說明】一種時間序列數(shù)據(jù)分析方法及裝置
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網【技術領域】,特別涉及一種時間序列數(shù)據(jù)分析方法及裝置。
【背景技術】
[0002]在信息技術飛速發(fā)展的今天,人們在各種社會和經濟活動中產生大量的數(shù)字信息,企業(yè)信息技術基礎設施建設規(guī)模不斷擴大,IT監(jiān)控、運維系統(tǒng)也得到廣泛運用,同時各種傳感器、智能家電產生的數(shù)據(jù),以及各種交易系統(tǒng)(證券交易系統(tǒng)、電子商務交易系統(tǒng))產生的日志數(shù)量巨大,格式也不盡相同,很難得到利用。
[0003]大量的日志信息如何查看也是一大難題。隨著日志容量和類型的增長,日志數(shù)據(jù)已經超出了人類的認知能力,單憑人力已經無法跟上機器產生數(shù)據(jù)的速度。對日志內容進行分析并追蹤潛在的問題越來越困難,尤其是在多日志相關性分析出現(xiàn)之后,需要經驗豐富的操作人員跟蹤事件鏈、過濾噪音,并最終診斷出問題出現(xiàn)的根本原因。
[0004]現(xiàn)有技術實現(xiàn)了對日志內容的關鍵字檢索和結果展現(xiàn),系統(tǒng)根據(jù)用戶輸入的關鍵字進行檢索,然后依照時間戳的先后順序將搜索結果呈現(xiàn)給用戶。
[0005]當前對日志的檢索及分析技術通常以時間戳作為日志展現(xiàn)順序,在輸入關鍵詞后,用戶看到的搜索結果中,某一類型的相關日志并沒有集中展示,不同類型的日志混雜在一起,這需要用戶自己掌握搜索技巧進行過濾操作,大大增加了查看難度和所花費的時間。
【發(fā)明內容】
[0006]本發(fā)明提供一種時間序列數(shù)據(jù)分析方法及裝置,用以準確、直觀地展示時間序列數(shù)據(jù)。
[0007]本發(fā)明提供一種時間序列數(shù)據(jù)分析方法,包括:
[0008]提取時間序列數(shù)據(jù)的特征信息;
[0009]查找所述特征信息相同的時間序列數(shù)據(jù);
[0010]分析所述特征信息相同的時間序列數(shù)據(jù)是否由同一源代碼產生;
[0011 ]當所述特征信息相同的時間序列數(shù)據(jù)由同一源代碼產生,對所述特征信息相同的時間序列數(shù)據(jù)進行聚類展示。
[0012]可選的,所述提取時間序列數(shù)據(jù)的特征信息,包括:
[0013]根據(jù)預設的正則表達式對所述時間序列數(shù)據(jù)進行匹配;
[0014]當匹配成功時,確定所述預設的正則表達式為所述時間序列數(shù)據(jù)的特征信息。
[0015]可選的,所述提取時間序列數(shù)據(jù)的特征信息,包括:
[0016]按順序提取所述時間序列數(shù)據(jù)中的非字母、非數(shù)字的特殊字符;
[0017]確定所述特殊字符為所述時間序列數(shù)據(jù)的特征信息。
[0018]可選的,所述提取時間序列數(shù)據(jù)的特征信息,包括:
[0019]獲取所述時間序列數(shù)據(jù)的文本特征模板;
[0020]確定所述文本特征模板為所述時間序列數(shù)據(jù)的特征信息。
[0021]可選的,所述對所述特征信息相同的時間序列數(shù)據(jù)進行聚類展示,包括:
[0022]將所述特征信息相同的時間序列數(shù)據(jù)集中展示。
[0023]本發(fā)明提供一種時間序列數(shù)據(jù)分析裝置,包括:
[0024]提取模塊,用于提取時間序列數(shù)據(jù)的特征信息;
[0025]查找模塊,用于查找所述特征信息相同的時間序列數(shù)據(jù);
[0026]分析模塊,用于分析所述特征信息相同的時間序列數(shù)據(jù)是否由同一源代碼產生;
[0027]聚類展示模塊,用于當所述特征信息相同的時間序列數(shù)據(jù)由同一源代碼產生,對所述特征信息相同的時間序列數(shù)據(jù)進行聚類展示。
[0028]可選的,所述提取模塊,包括:
[0029]匹配子模塊,用于根據(jù)預設的正則表達式對所述時間序列數(shù)據(jù)進行匹配;
[0030]確定子模塊,用于當匹配成功時,確定所述預設的正則表達式為所述時間序列數(shù)據(jù)的特征信息。
[0031]可選的,所述提取模塊,包括:
[0032]提取子模塊,用于按順序提取所述時間序列數(shù)據(jù)中的非字母、非數(shù)字的特殊字符;
[0033]確定子模塊,用于確定所述特殊字符為所述時間序列數(shù)據(jù)的特征信息;
[0034]可選的,所述提取模塊,包括:
[0035]獲取子模塊,用于獲取所述時間序列數(shù)據(jù)的文本特征模板;
[0036]確定子模塊,用于確定所述文本特征模板為所述時間序列數(shù)據(jù)的特征信息。
[0037]可選的,所述聚類展示模塊,用于將所述特征信息相同的時間序列數(shù)據(jù)集中展示。
[0038]本實施例中,通過將由同一源代碼產生的時間序列數(shù)據(jù)聚合到一起進行展示,使得可以準確、直觀地展示時間序列數(shù)據(jù)。無需用戶進行復雜的搜索或過濾操作,也不需要掌握正則表達式的寫法以及其他語句的運用,只需要直接上傳數(shù)據(jù)內容并輸入關鍵詞進行查詢即可。系統(tǒng)會自動將搜索結果進行聚類,并一起展現(xiàn),方便用戶查看和分析。
[0039]本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現(xiàn)和獲得。
[0040]下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。
【專利附圖】
【附圖說明】
[0041]附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中:
[0042]圖1是本發(fā)明實施例時間序列數(shù)據(jù)分析方法的流程圖;
[0043]圖2是本發(fā)明另一實施例時間序列數(shù)據(jù)分析方法的流程圖;
[0044]圖3是本發(fā)明另一實施例時間序列數(shù)據(jù)分析方法的流程圖;
[0045]圖4是本發(fā)明另一實施例時間序列數(shù)據(jù)分析方法的流程圖;
[0046]圖5是本發(fā)明另一實施例時間序列數(shù)據(jù)分析裝置的框圖;
[0047]圖6是本發(fā)明實施例提取模塊的框圖;
[0048]圖7是本發(fā)明實施例提取模塊的框圖;
[0049]圖8是本發(fā)明實施例提取模塊的框圖。
【具體實施方式】
[0050]以下結合附圖對本發(fā)明的優(yōu)選實施例進行說明,應當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0051]本發(fā)明實施例中,主要是對時間序列數(shù)據(jù)進行分析。時間序列數(shù)據(jù)即為在不同時間點上收集到的數(shù)據(jù),這類數(shù)據(jù)反映了某一事物、現(xiàn)象等隨時間的變化狀態(tài)或程度。例如,我國國內生產總值從1949到2009的變化就是時間序列數(shù)據(jù)。本發(fā)明實施例中的時間序列數(shù)據(jù)不僅包括日志,還包括各種傳感器、智能家電以及各種交易系統(tǒng)(電商、銀行、互聯(lián)網金融)等產生的帶有時間戳的所有數(shù)據(jù)。
[0052]圖1是本發(fā)明實施例時間序列數(shù)據(jù)分析方法的流程圖,如圖1所示,該時間序列數(shù)據(jù)檢索方法,包括:
[0053]步驟S11,提取時間序列數(shù)據(jù)的特征信息;
[0054]步驟S12,查找特征信息相同的時間序列數(shù)據(jù);
[0055]步驟S13,分析特征信息相同的時間序列數(shù)據(jù)是否由同一源代碼產生;
[0056]步驟S14,當特征信息相同的時間序列數(shù)據(jù)由同一源代碼產生,對特征信息相同的時間序列數(shù)據(jù)進行聚類展示。
[0057]例如,某條時間序列數(shù)據(jù)為:
[0058]01/Aug/2014:12:07:39[Error]: status code is I。
[0059]通過分析,可以獲得該條時間序列數(shù)據(jù)的特征信息為:
[0060]u [Error]: status code is% d,,。
[0061]可以查找到與該條時間序列數(shù)據(jù)的特征信息相同的其他時間序列數(shù)據(jù)為:
[0062]02/Aug/2014:12:08:40 [Error]: status code is 5;
[0063]03/Aug/2014:12:09:59 [Error]: status code is 10;
[0064]......
[0065]通過分析,可以獲得產生上述多條時間序列數(shù)據(jù)的源代碼為:
[0066]logging C [Error]: status code is% d", code)。
[0067]因此,將上述多條時間序列數(shù)據(jù)歸為一類,在搜索結果中都可以集中展示,方便用戶查看。
[0068]本實施例中,通過將由同一源代碼產生的時間序列數(shù)據(jù)聚合到一起進行展示,使得可以準確、直觀地展示時間序列數(shù)據(jù)。無需用戶進行復雜的搜索或過濾操作,也不需要掌握正則表達式的寫法以及其他語句的運用,只需要直接上傳數(shù)據(jù)內容并輸入關鍵詞進行查詢即可。系統(tǒng)會自動將搜索結果進行聚類,并一起展現(xiàn),方便用戶查看和分析。
[0069]圖2是本發(fā)明另一實施例時間序列數(shù)據(jù)分析方法的流程圖,如圖2所示,可選的,上述步驟Sll包括:
[0070]步驟S21,根據(jù)預設的正則表達式對時間序列數(shù)據(jù)進行匹配;
[0071]步驟S22,當匹配成功時,確定預設的正則表達式為時間序列數(shù)據(jù)的特征信息。
[0072]圖3是本發(fā)明另一實施例時間序列數(shù)據(jù)分析方法的流程圖,如圖3所示,可選的,上述步驟Sll包括:
[0073]步驟S31,按順序提取時間序列數(shù)據(jù)中的非字母、非數(shù)字的特殊字符;
[0074]步驟S32,確定特殊字符為時間序列數(shù)據(jù)的特征信息。
[0075]例如,按順序提取該日志中的非字母、非數(shù)字的符號(包括出現(xiàn)的順序和個數(shù)),如空格、標點符號、括號、中劃線、下劃線等作為時間序列數(shù)據(jù)的特征信息。
[0076]圖4是本發(fā)明另一實施例時間序列數(shù)據(jù)分析方法的流程圖,如圖4所示,可選的,上述步驟Sll包括:
[0077]步驟S41,獲取時間序列數(shù)據(jù)的文本特征模板;
[0078]步驟S42,確定文本特征模板為時間序列數(shù)據(jù)的特征信息。
[0079]例如,通過數(shù)據(jù)挖掘、機器學習等途徑,抽取某種時間序列數(shù)據(jù)類型的文本特征模版,將文本特征模板作為時間序列數(shù)據(jù)的特征信息。
[0080]在上述可選方案中,時間序列數(shù)據(jù)的特征信息可以通過上述三種方法中至少一種獲得,通過提取時間序列數(shù)據(jù)的特征信息,以便查找到特征信息相同的時間序列數(shù)據(jù),可確定特征信息相同的時間序列數(shù)據(jù)為同一源代碼產生的。這樣,可以更加準確地分析出同一源代碼產生的時間序列數(shù)據(jù),對同一源代碼產生的時間序列數(shù)據(jù)進行聚類后,直觀地進行展示,方便用戶查看和分析。
[0081]可選的,上述步驟S14包括:
[0082]將所述特征信息相同的時間序列數(shù)據(jù)集中展示。
[0083]在可選方案中,將特征信息相同的時間序列數(shù)據(jù),即同一源代碼產生的時間序列數(shù)據(jù),集中在一個區(qū)域進行顯示,方便用戶查看和分析。
[0084]圖5是本發(fā)明實施例時間序列數(shù)據(jù)分析裝置的框圖,如圖5所示,該時間序列數(shù)據(jù)檢索裝置,包括:
[0085]提取模塊51,用于提取時間序列數(shù)據(jù)的特征信息;
[0086]查找模塊52,用于查找所述特征信息相同的時間序列數(shù)據(jù);
[0087]分析模塊53,用于分析所述特征信息相同的時間序列數(shù)據(jù)是否由同一源代碼產生;
[0088]聚類展示模塊54,用于當所述特征信息相同的時間序列數(shù)據(jù)由同一源代碼產生,對所述特征信息相同的時間序列數(shù)據(jù)進行聚類展示。
[0089]圖6是本發(fā)明實施例提取模塊的框圖,如圖6所示,可選的,所述提取模塊51,包括:
[0090]匹配子模塊61,用于根據(jù)預設的正則表達式對所述時間序列數(shù)據(jù)進行匹配;
[0091]確定子模塊62,用于當匹配成功時,確定所述預設的正則表達式為所述時間序列數(shù)據(jù)的特征信息。
[0092]圖7是本發(fā)明實施例提取模塊的框圖,如圖7所示,可選的,所述提取模塊,包括:
[0093]提取子模塊71,用于按順序提取所述時間序列數(shù)據(jù)中的非字母、非數(shù)字的特殊字符;
[0094]確定子模塊72,用于確定所述特殊字符為所述時間序列數(shù)據(jù)的特征信息;
[0095]圖8是本發(fā)明實施例提取模塊的框圖,如圖8所示,可選的,所述提取模塊,包括:
[0096]獲取子模塊81,用于獲取所述時間序列數(shù)據(jù)的文本特征模板;
[0097]確定子模塊82,用于確定所述文本特征模板為所述時間序列數(shù)據(jù)的特征信息。
[0098]可選的,所述聚類展示模塊54,用于將所述特征信息相同的時間序列數(shù)據(jù)集中展
/Jn ο
[0099]關于上述實施例中的裝置,其中各個模塊執(zhí)行操作的具體方式已經在有關該方法的實施例中進行了詳細描述,此處將不做詳細闡述說明。
[0100]本實施例中,通過將由同一源代碼產生的時間序列數(shù)據(jù)聚合到一起進行展示,使得可以準確、直觀地展示時間序列數(shù)據(jù)。無需用戶進行復雜的搜索或過濾操作,也不需要掌握正則表達式的寫法以及其他語句的運用,只需要直接上傳數(shù)據(jù)內容并輸入關鍵詞進行查詢即可。系統(tǒng)會自動將搜索結果進行聚類,并一起展現(xiàn),方便用戶查看和分析。
[0101]本領域內的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產品的形式。
[0102]本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0103]這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0104]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0105]顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內,則本發(fā)明也意圖包含這些改動和變型在內。
【權利要求】
1.一種時間序列數(shù)據(jù)分析方法,其特征在于,包括: 提取時間序列數(shù)據(jù)的特征信息; 查找所述特征信息相同的時間序列數(shù)據(jù); 分析所述特征信息相同的時間序列數(shù)據(jù)是否由同一源代碼產生; 當所述特征信息相同的時間序列數(shù)據(jù)由同一源代碼產生,對所述特征信息相同的時間序列數(shù)據(jù)進行聚類展示。
2.如權利要求1所述的方法,其特征在于,所述提取時間序列數(shù)據(jù)的特征信息,包括: 根據(jù)預設的正則表達式對所述時間序列數(shù)據(jù)進行匹配; 當匹配成功時,確定所述預設的正則表達式為所述時間序列數(shù)據(jù)的特征信息。
3.如權利要求1所述的方法,其特征在于,所述提取時間序列數(shù)據(jù)的特征信息,包括: 按順序提取所述時間序列數(shù)據(jù)中的非字母、非數(shù)字的特殊字符; 確定所述特殊字符為所述時間序列數(shù)據(jù)的特征信息。
4.如權利要求1所述的方法,其特征在于,所述提取時間序列數(shù)據(jù)的特征信息,包括: 獲取所述時間序列數(shù)據(jù)的文本特征模板; 確定所述文本特征模板為所述時間序列數(shù)據(jù)的特征信息。
5.如權利要求1所述的方法,其特征在于,所述對所述特征信息相同的時間序列數(shù)據(jù)進行聚類展示,包括: 將所述特征信息相同的時間序列數(shù)據(jù)集中展示。
6.一種時間序列數(shù)據(jù)分析裝置,其特征在于,包括: 提取模塊,用于提取時間序列數(shù)據(jù)的特征信息; 查找模塊,用于查找所述特征信息相同的時間序列數(shù)據(jù); 分析模塊,用于分析所述特征信息相同的時間序列數(shù)據(jù)是否由同一源代碼產生;聚類展示模塊,用于當所述特征信息相同的時間序列數(shù)據(jù)由同一源代碼產生,對所述特征信息相同的時間序列數(shù)據(jù)進行聚類展示。
7.如權利要求6所述的裝置,其特征在于,所述提取模塊,包括: 匹配子模塊,用于根據(jù)預設的正則表達式對所述時間序列數(shù)據(jù)進行匹配; 確定子模塊,用于當匹配成功時,確定所述預設的正則表達式為所述時間序列數(shù)據(jù)的特征信息。
8.如權利要求6所述的裝置,其特征在于,所述提取模塊,包括: 提取子模塊,用于按順序提取所述時間序列數(shù)據(jù)中的非字母、非數(shù)字的特殊字符; 確定子模塊,用于確定所述特殊字符為所述時間序列數(shù)據(jù)的特征信息。
9.如權利要求6所述的裝置,其特征在于,所述提取模塊,包括: 獲取子模塊,用于獲取所述時間序列數(shù)據(jù)的文本特征模板; 確定子模塊,用于確定所述文本特征模板為所述時間序列數(shù)據(jù)的特征信息。
10.如權利要求6所述的裝置,其特征在于,所述聚類展示模塊,用于將所述特征信息相同的時間序列數(shù)據(jù)集中展示。
【文檔編號】G06F17/30GK104239477SQ201410447046
【公開日】2014年12月24日 申請日期:2014年9月3日 優(yōu)先權日:2014年9月3日
【發(fā)明者】陳軍, 梁玫娟 申請人:北京優(yōu)特捷信息技術有限公司