一種處理告警事件的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)程序管理領(lǐng)域,特別涉及一種處理告警事件的方法及系統(tǒng)。
【背景技術(shù)】
[0002]—般的集群管理系統(tǒng)的告警模塊包括告警級別、問題描述、時間提示和解決方案。通過告警模塊來收集、反饋和推送系統(tǒng)運(yùn)行時遇到的各種問題和操作,讓系統(tǒng)管理員及時了解系統(tǒng)運(yùn)行時所遇到的各種問題,由于系統(tǒng)的復(fù)雜性和邏輯上的關(guān)聯(lián)性,單一的設(shè)備故障可能引發(fā)大量的告警,形成告警風(fēng)暴,但是告警模塊不能直接判定出錯原因,而是根據(jù)出錯的問題一一給出解決方案,不能找到問題關(guān)鍵所在,主要是靠系統(tǒng)管理者個人的維護(hù)經(jīng)驗(yàn)對其進(jìn)行人工分類判斷和分析,并最終得出發(fā)生告警事件的根源所在。
[0003]因此,現(xiàn)有技術(shù)中的告警問題都比較單一,只是針對當(dāng)前的問題故障提供一些解決方法。維護(hù)起來費(fèi)時費(fèi)力,不能精確找到處理問題的關(guān)鍵。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種處理告警事件的方法,該方法能夠在有效處理告警信息的同時,節(jié)省了因試用不同的處理方案所產(chǎn)生的人力物力的浪費(fèi),提高解決集群告警問題的效率;此外,本發(fā)明的另一目的是提供一種處理告警事件的系統(tǒng)。
[0005]為解決上述技術(shù)問題,本發(fā)明提供一種處理告警事件的方法,應(yīng)用于集群管理系統(tǒng),利用關(guān)聯(lián)規(guī)則對告警數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,形成告警關(guān)聯(lián)規(guī)則庫,還包括:
[0006]獲取故障告警信息;
[0007]將所述故障告警信息進(jìn)行處理,得到索引信息;
[0008]將所述索引信息與所述告警關(guān)聯(lián)規(guī)則庫中的數(shù)據(jù)進(jìn)行對比,確定與所述索引信息相對應(yīng)的處理方案。
[0009]其中,將所述故障告警信息進(jìn)行處理,得到索引信息包括:
[0010]將所述故障告警信息進(jìn)行語義分析,將提取的關(guān)鍵詞作為索引信息。
[0011]其中,將所述索引信息與所述告警關(guān)聯(lián)規(guī)則庫中的數(shù)據(jù)進(jìn)行對比,確定與所述索引信息相對應(yīng)的處理方案包括:
[0012]將所述索引信息與所述告警關(guān)聯(lián)規(guī)則庫中的關(guān)聯(lián)規(guī)則列表數(shù)據(jù)進(jìn)行對比,確定關(guān)聯(lián)規(guī)則;
[0013]根據(jù)所述關(guān)聯(lián)規(guī)則,確定與所述關(guān)聯(lián)規(guī)則相對應(yīng)的處理方案。
[0014]其中,還包括:
[0015]將所述故障告警信息上報至所述告警數(shù)據(jù)庫。
[0016]其中,還包括:
[0017]定期對所述告警關(guān)聯(lián)規(guī)則庫進(jìn)行更新。
[0018]本發(fā)明還提供一種處理告警事件的系統(tǒng),應(yīng)用于集群管理系統(tǒng),包括告警關(guān)聯(lián)規(guī)則庫,用于利用關(guān)聯(lián)規(guī)則對告警數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,形成告警關(guān)聯(lián)規(guī)則庫,還包括:
[0019]獲取模塊,用于獲取故障告警信息;
[0020]處理模塊,用于將所述故障告警信息進(jìn)行處理,得到索引信息;
[0021]對比模塊,用于將所述索引信息與所述告警關(guān)聯(lián)規(guī)則庫中的數(shù)據(jù)進(jìn)行對比,確定與所述索引信息相對應(yīng)的處理方案。
[0022]其中,所述處理模塊包括:
[0023]將所述故障告警信息進(jìn)行語義分析,將提取的關(guān)鍵詞作為索引信息。
[0024]其中,所述對比模塊包括:
[0025]對比單元,用于將所述索引信息與所述告警關(guān)聯(lián)規(guī)則庫中的關(guān)聯(lián)規(guī)則列表數(shù)據(jù)進(jìn)行對比,確定關(guān)聯(lián)規(guī)則;
[0026]確定單元,用于根據(jù)所述關(guān)聯(lián)規(guī)則,確定與所述關(guān)聯(lián)規(guī)則相對應(yīng)的處理方案。
[0027]其中,還包括:
[0028]上報模塊,用于將所述故障告警信息上報至所述告警數(shù)據(jù)庫。
[0029]其中,還包括:
[0030]更新模塊,用于定期對所述告警關(guān)聯(lián)規(guī)則庫進(jìn)行更新。
[0031]本發(fā)明所提供的處理告警事件的方法,應(yīng)用于集群管理系統(tǒng),利用關(guān)聯(lián)規(guī)則對告警數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,形成告警關(guān)聯(lián)規(guī)則庫,還包括:獲取故障告警信息;將所述故障告警信息進(jìn)行處理,得到索引信息;將所述索引信息與所述告警關(guān)聯(lián)規(guī)則庫中的數(shù)據(jù)進(jìn)行對比,確定與所述索引信息相對應(yīng)的處理方案;
[0032]該方法改變現(xiàn)有技術(shù)中告警級別、問題描述、時間提示和解決方法單一,只是針對當(dāng)前的問題故障提供一些固定解決方法;該方法通過將告警數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,找到各個數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,形成告警關(guān)聯(lián)規(guī)則庫;告警關(guān)聯(lián)規(guī)則庫可以排除一些不必要的解決方案,增加靈活度,協(xié)助管理人員分析故障信息,提高了處理告警信息的準(zhǔn)確性和實(shí)效性。即該方法利用告警關(guān)聯(lián)規(guī)則庫能夠在有效處理告警信息的同時,節(jié)省了因試用不同的處理方案所產(chǎn)生的人力物力的浪費(fèi),提高解決集群告警問題的效率。
【附圖說明】
[0033]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
[0034]圖1為本發(fā)明實(shí)施例所提供的處理告警事件的方法的流程圖;
[0035]圖2為本發(fā)明實(shí)施例所提供的處理告警事件的系統(tǒng)的結(jié)構(gòu)框圖;
[0036]圖3為本發(fā)明實(shí)施例所提供的另一處理告警事件的系統(tǒng)的結(jié)構(gòu)框圖;
[0037]圖4為本發(fā)明實(shí)施例所提供的又一處理告警事件的系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0038]本發(fā)明的核心是提供一種處理告警事件的方法,該方法能夠在有效處理告警信息的同時,節(jié)省了因試用不同的處理方案所產(chǎn)生的人力物力的浪費(fèi),提高解決集群告警問題的效率。
[0039]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0040]請參考圖1,圖1為本發(fā)明實(shí)施例所提供的處理告警事件的方法的流程圖;該方法應(yīng)用于集群管理系統(tǒng),首先利用關(guān)聯(lián)規(guī)則對告警數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,形成告警關(guān)聯(lián)規(guī)則庫;形成告警關(guān)聯(lián)規(guī)則庫;其中,通過對一個大型的告警數(shù)據(jù)庫進(jìn)行分析處理,最終形成一個告警關(guān)聯(lián)規(guī)則庫。
[0041]基于該告警關(guān)聯(lián)規(guī)則庫,該方法可以包括:
[0042]SlOO、獲取故障告警信息;
[0043]其中,當(dāng)發(fā)生故障發(fā)生后,集群告警模塊會上報告警信息,集群收集故障告警信息。告警信息可以包括:告警級別、問題描述、時間提示等描述該故障的信息。
[0044]SllO、將所述故障告警信息進(jìn)行處理,得到索引信息;
[0045]其中,對該故障告警信息進(jìn)行處理,可以得到關(guān)鍵的索引信息;例如故障設(shè)備的名稱,故障種類,故障級別等。將這些信息作為索引信息。
[0046]sl20、將所述索引信息與所述告警關(guān)聯(lián)規(guī)則庫中的數(shù)據(jù)進(jìn)行對比,確定與所述索引信息相對應(yīng)的處理方案。
[0047]其中,將索引信息與告警關(guān)聯(lián)規(guī)則庫中的數(shù)據(jù)進(jìn)行對比;例如通過索引信息中的設(shè)備名稱映射到告警關(guān)聯(lián)規(guī)則庫中的設(shè)備進(jìn)行比較,確定與該設(shè)備有關(guān)的存儲空間,再根據(jù)其他索引信息進(jìn)行對比,并最終確定與所述索引信息相對應(yīng)的處理方案。
[0048]由于告警關(guān)聯(lián)規(guī)則庫中的解決方案并不是針對單一問題進(jìn)行的,而是根據(jù)對大量的數(shù)據(jù)分析,確定的高效的解決方案。例如A設(shè)備出現(xiàn)某個故障,根據(jù)實(shí)際設(shè)備的運(yùn)行,可以知道該故障可能會影響到另一問題,因此,在解決該問題時,不僅僅是克服該故障,而是從根源解決由此來帶的問題。達(dá)到使系統(tǒng)管理員能夠快速準(zhǔn)確找到問題,并提供最有效的解決方案。
[0049]即本發(fā)明的集群管理系統(tǒng)的環(huán)境是搭建在集群環(huán)境中,因此,在集群環(huán)境搭建完成后,集群管理系統(tǒng)的告警數(shù)據(jù)庫里會存儲大量的告警信息,其中蘊(yùn)含了許多規(guī)律性的有用信息,因此可通過數(shù)據(jù)分析,找到告警的關(guān)聯(lián)規(guī)則。通過這些關(guān)聯(lián)規(guī)則推測出事件發(fā)生的根源,產(chǎn)生一條新的解決方案。
[0050]基于上述技術(shù)方案,本發(fā)明實(shí)施例提供的處理告警事件的方法,該方法改變現(xiàn)有技術(shù)中告警級別、問題描述、時間提示和解決方法單一,只是針對當(dāng)前的問題故障提供一些固定解決方法;該方法通過將告警數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,找到各個數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,形成告警關(guān)聯(lián)規(guī)則庫;告警關(guān)聯(lián)規(guī)則庫可以排除一些不必要的解決方案,增加靈活度,協(xié)助管理人員分析故障信息,提高了處理告警信息的準(zhǔn)確性和實(shí)效性。即該方法利用告警關(guān)聯(lián)規(guī)則庫能夠在有效處理告警信息的同時,節(jié)省了因試用不同的處理方案所產(chǎn)生的人力物力的浪費(fèi),提高解決集群告警問題的效率。
[0051]基于上述技術(shù)方案,可選的,上述方法中將所述故障告警信息進(jìn)行處理,得到索引信息可以包括:
[0052]將所述故障告警信息進(jìn)行語義分析,將提取的關(guān)鍵詞作為索引信息。
[0053]其中,這里可以利用語義分析技術(shù),提取故障告警信息中的