一種利用正則表達(dá)式自定義提取日志關(guān)鍵信息的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明專利涉及計算機領(lǐng)域,尤其涉及提取出日志中的關(guān)鍵信息來進行格式化分 析的方法。
【背景技術(shù)】
[0002] 在計算機領(lǐng)域中的日志,一般都是以某種格式約定,但卻是以純文本的格式存在 的。
[0003] -條Iinux安全的日志格式,如表1所不。
[0004] 表 1
[0005]
[0006] 其中包含了 Iinux用戶名、登錄的結(jié)果、登錄的時間等信息。
[0007]因為日志分析端接收到的日志是純文本形態(tài),所以在日志的分析中存在著很大的 困難,即很難從一堆日志中統(tǒng)計出關(guān)鍵信息,例如,root用戶登錄失敗的次數(shù),登錄成功和 登錄失敗的比率、通過各種方式登錄的比率等等。
【發(fā)明內(nèi)容】
[0008] 為解決上述技術(shù)問題,本發(fā)明提供了一種利用正則表達(dá)式自定義提取日志關(guān)鍵信 息的方法,能夠?qū)⑷罩具M行分解,提取出需要分析的內(nèi)容來格式化存儲,方便將來的進一步 精確分析。
[0009] 為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案。
[0010] -種利用正則表達(dá)式自定義提取日志關(guān)鍵信息的方法,包括如下步驟:
[0011] (1)定義若干條規(guī)則庫;包括:確定需要匹配該規(guī)則庫的日志和規(guī)則庫里的規(guī)則 集。
[0012] 所述規(guī)則集為對日志進行解析的規(guī)則集合,規(guī)則的內(nèi)容包括:規(guī)則的名稱和ID 號、規(guī)則正則表達(dá)式、提取字段說明表達(dá)式。
[0013] (2)規(guī)則匹配;具體步驟如下:
[0014] 將接收到的日志依次與規(guī)則集中的規(guī)則正則表達(dá)式相匹配。
[0015] 遇到匹配的規(guī)則,則退出匹配;否則繼續(xù)匹配下一條規(guī)則。
[0016] 如匹配,按該條規(guī)則提取出關(guān)鍵信息,并按照規(guī)則中的提取字段說明表達(dá)式將關(guān) 鍵信息的名稱與內(nèi)容對應(yīng)起來。
[0017] 如果所有的規(guī)則都不匹配,則將日志整體存儲。
[0018] 本發(fā)明的有益效果是,日志分析服務(wù),一般按照固定的規(guī)則或全文索引的方式來 進行分析,而本發(fā)明提出了一種允許用戶自定義如何分析日志、提取日志中關(guān)鍵信息的方 法,其基于正則表達(dá)式的分析方法通用性和靈活性都很強,可以滿足需求。
[0019] 當(dāng)然,實施本發(fā)明的任一產(chǎn)品或方法并不一定需要同時達(dá)到以上所述的所有優(yōu) 點。
【附圖說明】
[0020] 圖1是本發(fā)明流程不意圖。
【具體實施方式】
[0021] 下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施 例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0022] 如圖1所示,本發(fā)明的利用正則表達(dá)式自定義提取日志關(guān)鍵信息的方法,包括如 下步驟:
[0023] 首先由用戶或系統(tǒng)來定義η條規(guī)則庫。規(guī)則庫包括兩方面:1.哪些日志需要匹配 該規(guī)則庫。2.該規(guī)則庫里的規(guī)則集,由規(guī)則集來決定。
[0024] 此步驟需要定義好不同來源的日志由什么規(guī)則來解析。不同來源的日志可以由該 日志的"主機名" "IP" "應(yīng)用名"來組合界定使用哪種規(guī)則集來匹配,也可以不指定其來源, 舉例如表2。
[0025] 表 2
[0026]
[0027] 規(guī)則集為如何對H志進行觶析的規(guī)
則集合,由一組止則表達(dá)式及其表述構(gòu)成,每 條規(guī)則的內(nèi)容一般包括:
[0028] 1.規(guī)則的名稱和ID號。
[0029] 2.規(guī)則正則表達(dá)式。
[0030] 3.提取字段說明表達(dá)式。
[0031] 規(guī)則匹配的過程為:
[0032] 1.將接收到的日志依次與規(guī)則集中的規(guī)則正則表達(dá)式相匹配。
[0033] 2.遇到第一條匹配的規(guī)則,則退出匹配,否則繼續(xù)匹配下一條規(guī)則。
[0034] 3.如匹配,按該條規(guī)則提取出關(guān)鍵信息,并按照規(guī)則中的提取字段說明表達(dá)式將 關(guān)鍵信息的名稱與內(nèi)容對應(yīng)起來。
[0035] 4.如果所有的規(guī)則都不匹配,則將日志整體存儲。
[0036] 本實施例通過如下舉例說明本發(fā)明的技術(shù)方案。
[0037] 表 3
[0038] CN 105138593 A 說明書 3/3 頁
[0039] 提取字段說明表達(dá)式為:src_ip = = $2 ; ;dst_ip = = $3 ; ;name = = $1。
[0040] 這樣將從日志中提取3個關(guān)鍵字:src_ip、dst_ip、name,內(nèi)容根據(jù)正則表達(dá)式的 匹配,分別為 192. 168. 1. 73、114. 218. 6. 2、ICMP-unreachable。
[0041 ] 解析后,可將輸出的內(nèi)容發(fā)送給后端,做進一步處理。
[0042] 上述雖然結(jié)合附圖對本發(fā)明的【具體實施方式】進行了描述,但并非對本發(fā)明保護范 圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不 需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護范圍以內(nèi)。
【主權(quán)項】
1. 一種利用正則表達(dá)式自定義提取日志關(guān)鍵信息的方法,其特征是,包括如下步驟: (1) 定義若干條規(guī)則庫;包括:確定需要匹配該規(guī)則庫的日志和規(guī)則庫里的規(guī)則集; 所述規(guī)則集為對日志進行解析的規(guī)則集合,規(guī)則的內(nèi)容包括:規(guī)則的名稱和ID號、規(guī) 則正則表達(dá)式、提取字段說明表達(dá)式; (2) 規(guī)則匹配;具體步驟如下: 將接收到的日志依次與規(guī)則集中的規(guī)則正則表達(dá)式相匹配; 遇到匹配的規(guī)則,則退出匹配;否則繼續(xù)匹配下一條規(guī)則; 如匹配,按該條規(guī)則提取出關(guān)鍵信息,并按照規(guī)則中的提取字段說明表達(dá)式將關(guān)鍵信 息的名稱與內(nèi)容對應(yīng)起來; 如果所有的規(guī)則都不匹配,則將日志整體存儲。
【專利摘要】本發(fā)明公開了一種利用正則表達(dá)式自定義提取日志關(guān)鍵信息的方法,包括如下步驟:(1)定義若干條規(guī)則庫。包括:確定需要匹配該規(guī)則庫的日志和規(guī)則庫里的規(guī)則集。(2)規(guī)則匹配。具體步驟如下:將接收到的日志依次與規(guī)則集中的規(guī)則正則表達(dá)式相匹配;遇到匹配的規(guī)則,則退出匹配,否則繼續(xù)匹配下一條規(guī)則;如匹配,按該條規(guī)則提取出關(guān)鍵信息,并按照規(guī)則中的提取字段說明表達(dá)式將關(guān)鍵信息的名稱與內(nèi)容對應(yīng)起來;如果所有的規(guī)則都不匹配,則將日志整體存儲。本發(fā)明提出了一種允許用戶自定義如何分析日志、提取日志中關(guān)鍵信息的方法,其基于正則表達(dá)式的分析方法通用性和靈活性都很強,可以滿足需求。
【IPC分類】G06F17/30
【公開號】CN105138593
【申請?zhí)枴緾N201510465448
【發(fā)明人】張明, 馬黎黎
【申請人】山東蟻巡網(wǎng)絡(luò)科技有限公司
【公開日】2015年12月9日
【申請日】2015年7月31日