一種基于故障知識(shí)庫的自動(dòng)化故障處理系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明公開一種基于故障知識(shí)庫的自動(dòng)化故障處理系統(tǒng)及方法,屬于故障處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]隨著數(shù)據(jù)中心的飛速發(fā)展,數(shù)據(jù)中心的規(guī)模越來越大,所涉及的運(yùn)維和故障處理工作也越來越多、越來越復(fù)雜,更何況目前的發(fā)展趨勢下數(shù)據(jù)中心的規(guī)模在不斷擴(kuò)大、數(shù)據(jù)中心中的資源類型也越來越多、越復(fù)雜。例如,一個(gè)包括了 200種資源類型、10000個(gè)資源的數(shù)據(jù)中心,用傳統(tǒng)的故障處理方式已經(jīng)無法滿足,傳統(tǒng)的故障處理方式只能散亂地、相對(duì)獨(dú)立地處理監(jiān)控報(bào)告出來的問題,并且是各類管理員各自處理其領(lǐng)域內(nèi)的故障,各類管理員所面對(duì)的故障問題不能很好的關(guān)聯(lián)協(xié)調(diào),也無法一步到位地定位到故障發(fā)生的根本原因,并且在故障處理時(shí)只能憑借管理員自身的經(jīng)驗(yàn)水平完成故障處理,往往造成數(shù)據(jù)庫管理員浪費(fèi)很多時(shí)間去定位問題,導(dǎo)致大規(guī)模數(shù)據(jù)中心故障處理的不夠及時(shí)和效率不高。為此,本發(fā)明提供一種基于故障知識(shí)庫的自動(dòng)化故障處理系統(tǒng)及方法,采用故障知識(shí)庫與故障處理策略庫的相結(jié)合的方式,自動(dòng)化故障處理模塊完成故障原因分析、匹配故障處理策略并根據(jù)處理方式驅(qū)動(dòng)完成故障處理,并在檢測確認(rèn)后將故障處理的經(jīng)驗(yàn)積累到故障知識(shí)庫中;故障處理策略管理模塊分析故障知識(shí)庫中的故障原因,生成處理策略,定義故障處理方式,使得故障處理能夠自動(dòng)化,從而大大提高了故障處理的及時(shí)性和有效性。
【發(fā)明內(nèi)容】
[0003]本發(fā)明針對(duì)目前大規(guī)模數(shù)據(jù)中心故障問題處理的不夠及時(shí)和效率不高的問題,提供一種基于故障知識(shí)庫的自動(dòng)化故障處理系統(tǒng)及方法,使得故障處理能夠自動(dòng)化,從而大大提高了故障處理的及時(shí)性和有效性。
[0004]本發(fā)明提出的具體方案是:
一種基于故障知識(shí)庫的自動(dòng)化故障處理系統(tǒng),包括故障監(jiān)測模塊、故障處理策略管理模塊、故障原因分析模塊、故障知識(shí)庫、自動(dòng)化故障處理模塊;
故障監(jiān)測模塊負(fù)責(zé)監(jiān)控系統(tǒng),發(fā)現(xiàn)故障問題后,根據(jù)故障知識(shí)庫將故障進(jìn)行歸類處理并交由自動(dòng)化故障處理模塊進(jìn)行處理;
故障處理策略管理模塊基于故障知識(shí)庫的積累,調(diào)用故障原因分析模塊逐條分析故障原因,并根據(jù)具體的故障原因定義對(duì)應(yīng)的處理策略,形成故障處理策略庫;
故障知識(shí)庫為每類故障定義參數(shù),以便查找故障信息,并不斷完善故障信息;
自動(dòng)化故障處理模塊利用故障處理策略庫中的數(shù)據(jù)信息,在接收到故障監(jiān)測模塊監(jiān)測到的故障后先進(jìn)行故障定位,再調(diào)用故障原因分析模塊進(jìn)行故障分析,在故障處理策略庫中進(jìn)行選擇匹配,進(jìn)行故障處理,同時(shí),當(dāng)故障處理完成并檢測確認(rèn)為故障恢復(fù)時(shí),還將此次故障處理中所積累的知識(shí)提交到故障知識(shí)庫中,循環(huán)往復(fù),不斷積累。
[0005]所述故障處理策略庫由故障處理策略管理模塊負(fù)責(zé)維護(hù),在對(duì)故障知識(shí)庫中的故障原因逐個(gè)分析后,分別生成對(duì)應(yīng)的處理策略,并形成具體的處理方式反饋并儲(chǔ)存到故障處理策略庫中。
[0006]所述故障處理策略庫內(nèi)建立處理策略信息表,對(duì)應(yīng)故障類型、處理策略、處理方式。
[0007]所述處理策略包括執(zhí)行系統(tǒng)命令、服務(wù)器重啟、進(jìn)程重啟、切斷電源供電、重新進(jìn)行網(wǎng)絡(luò)連接、用戶自定義處理腳本。還包括其他處理策略,比如硬盤上線,空調(diào)調(diào)溫等,根據(jù)具體情況,具體制定。
[0008]所述故障知識(shí)庫內(nèi)建立故障知識(shí)信息表,對(duì)應(yīng)故障編號(hào)、知識(shí)分類。
[0009]—種基于故障知識(shí)庫的自動(dòng)化故障處理方法,利用所述的系統(tǒng)進(jìn)行故障自動(dòng)化處理,利用故障監(jiān)測模塊監(jiān)控系統(tǒng),發(fā)現(xiàn)故障問題,根據(jù)故障知識(shí)庫將故障進(jìn)行歸類處理并交由自動(dòng)化故障處理模塊進(jìn)行處理;
利用故障處理策略管理模塊基于故障知識(shí)庫的積累,調(diào)用故障原因分析模塊逐條分析故障原因,并根據(jù)具體的故障原因定義對(duì)應(yīng)的處理策略,形成故障處理策略庫;
在故障知識(shí)庫中為每類故障定義參數(shù),以便查找故障信息,并不斷完善故障信息;再利用自動(dòng)化故障處理模塊通過故障處理策略庫中的數(shù)據(jù)信息,在接收到故障監(jiān)測模塊監(jiān)測到的故障后先進(jìn)行故障定位,再調(diào)用故障原因分析模塊進(jìn)行故障分析,在故障處理策略庫中進(jìn)行選擇匹配,進(jìn)行故障處理,同時(shí),當(dāng)故障處理完成并檢測確認(rèn)為故障恢復(fù)時(shí),還將此次故障處理中所積累的知識(shí)提交到故障知識(shí)庫中,循環(huán)往復(fù),不斷積累。
[0010]所述故障處理策略庫內(nèi)建立處理策略信息表,對(duì)應(yīng)故障類型、處理策略、處理方式。
[0011]所述故障知識(shí)庫內(nèi)建立故障知識(shí)信息表,對(duì)應(yīng)故障編號(hào)、故障原因、知識(shí)分類。
[0012]利用故障處理策略庫中的數(shù)據(jù)信息,在接收到故障監(jiān)測模塊監(jiān)測到的故障后進(jìn)行故障類型定位,根據(jù)故障的具體故障類型進(jìn)行故障原因分析,利用故障知識(shí)庫中故障知識(shí)信息表查找具體詳細(xì)的故障原因后,將其在故障處理策略庫中進(jìn)行選擇匹配,啟動(dòng)故障處理進(jìn)程完成故障處理。
[0013]本發(fā)明的有益之處是:利用本發(fā)明方法發(fā)現(xiàn)故障問題后,根據(jù)故障知識(shí)庫將故障進(jìn)行歸類并處理,完成故障原因分析、進(jìn)行故障處理策略匹配并根據(jù)策略自動(dòng)運(yùn)行故障處理命令或腳本,處理完成后收集處理結(jié)果并進(jìn)行相應(yīng)的檢測確認(rèn),再將故障處理的經(jīng)驗(yàn)積累到故障知識(shí)庫中,形成循環(huán);通過自動(dòng)化故障處理與故障處理策略的關(guān)聯(lián),結(jié)合故障處理策略與故障知識(shí),使得故障處理能夠自動(dòng)化,并且能夠進(jìn)行故障知識(shí)的積累、故障處理策略的積累,從而大大提高了故障處理的及時(shí)性和效率性,有效避免了因各類管理員不熟悉彼此領(lǐng)域?qū)е碌墓收咸幚碣Y源浪費(fèi)和時(shí)間浪費(fèi),同時(shí)又加入了自動(dòng)化的方式,使數(shù)據(jù)中心的故障處理更準(zhǔn)確到位。
【附圖說明】
[0014]圖1傳統(tǒng)故障處理方法原理示意圖;
圖2本發(fā)明自動(dòng)化故障處理模塊工作示意圖;
圖3本發(fā)明故障處理策略管理模塊工作示意圖;
圖4本發(fā)明系統(tǒng)工作示意圖。
【具體實(shí)施方式】
[0015]一種基于故障知識(shí)庫的自動(dòng)化故障處理系統(tǒng),包括故障監(jiān)測模塊、故障處理策略管理模塊、故障原因分析模塊、故障知識(shí)庫、自動(dòng)化故障處理模塊;
故障監(jiān)測模塊負(fù)責(zé)監(jiān)控系統(tǒng),發(fā)現(xiàn)故障問題后,根據(jù)故障知識(shí)庫將故障進(jìn)行歸類處理并交由自動(dòng)化故障處理模塊進(jìn)行處理;
故障處理策略管理模塊基于故障知識(shí)庫的積累,調(diào)用故障原因分析模塊逐條分析故障原因,并根據(jù)具體的故障原因定義對(duì)應(yīng)的處理策略,形成故障處理策略庫;
故障知識(shí)庫為每類故障定義參數(shù),以便查找故障信息,并不斷完善故障信息;
自動(dòng)化故障處理模塊利用故障處理策略庫中的數(shù)據(jù)信息,在接收到故障監(jiān)測模塊監(jiān)測到的故障后先進(jìn)行故障定位,再調(diào)用故障原因分析模塊進(jìn)行故障分析,在故障處理策略庫中進(jìn)行選擇匹配,進(jìn)行故障處理,同時(shí),當(dāng)故障處理完成并檢測確認(rèn)為故障恢復(fù)時(shí),還將此次故障處理中所積累的知識(shí)提交到故障知識(shí)庫中,循環(huán)往復(fù),不斷積累。
[0016]在上述方法基礎(chǔ)上,結(jié)合附圖,對(duì)本發(fā)明具體的實(shí)施作進(jìn)一步闡述。
[0