1.一種IT軟硬件運行狀態(tài)監(jiān)控系統(tǒng),其特征在于,包括:
規(guī)則引擎:維護系統(tǒng)所有的配置數(shù)據(jù),包括被采集網(wǎng)元的配置數(shù)據(jù)、計算引擎評分時所需的規(guī)則數(shù)據(jù)、展示引擎顯示數(shù)據(jù)時業(yè)務(wù)與平臺網(wǎng)元的對應(yīng)關(guān)系以及網(wǎng)元與指標的對應(yīng)關(guān)系;
采集引擎:通過規(guī)則引擎的配置數(shù)據(jù)采集被監(jiān)控網(wǎng)元的運行狀態(tài)數(shù)據(jù);
計算引擎:根據(jù)網(wǎng)元多個指標計算出單個網(wǎng)元的健康度得分,并且生成相關(guān)事件;
展示引擎:按照規(guī)則引擎中配置的業(yè)務(wù)域關(guān)系對外顯示。
2.如權(quán)利要求1所述的IT軟硬件運行狀態(tài)監(jiān)控系統(tǒng),其特征在于,所述規(guī)則引擎通過在前臺頁面增加、修改、刪除規(guī)則維護系統(tǒng)所有的配置數(shù)據(jù),并且保存計算引擎所產(chǎn)生的動態(tài)評分規(guī)則用以下次評分時作為參照。
3.如權(quán)利要求1所述的IT軟硬件運行狀態(tài)監(jiān)控系統(tǒng),其特征在于,所述采集引擎包括采集模塊和規(guī)整模塊,所述采集模塊從規(guī)則引擎中讀取被監(jiān)控網(wǎng)元的配置信息與所需采集的指標信息,根據(jù)配置規(guī)則周期性地從被監(jiān)控網(wǎng)元側(cè)采集運行數(shù)據(jù);所述規(guī)整模塊將采集模塊所采集的數(shù)據(jù)合并到同一個時間版本內(nèi),并且對所采集的數(shù)據(jù)進行有效性檢查,如果存在數(shù)據(jù)未采集到則通知采集模塊再次發(fā)起采集,在預設(shè)次數(shù)內(nèi)未采集到有效數(shù)據(jù),則采用默認值合并,保證數(shù)據(jù)時間版本的統(tǒng)一。
4.如權(quán)利要求3所述的IT軟硬件運行狀態(tài)監(jiān)控系統(tǒng),其特征在于,所述采集引擎首先讀取配置引擎中被監(jiān)控網(wǎng)元列表,獲取有效被監(jiān)控網(wǎng)元類型ID與網(wǎng)元地址、網(wǎng)元數(shù)據(jù)庫連接串,通過多線程方式對被采集網(wǎng)元進行批量處理;每個采集線程根據(jù)被采集網(wǎng)元ID與網(wǎng)元類型ID讀取規(guī)則引擎中的預設(shè)指標,所述預設(shè)指標包括指標ID、指標名稱、指標說明和采集周期;每個采集線程判斷是否滿足采集周期,如是則連接被采集網(wǎng)元進行相關(guān)數(shù)據(jù)的采集,通過規(guī)整模塊將數(shù)據(jù)按照時間標簽整理完畢后發(fā)送給消息模塊并入庫;所述消息模塊提供一個數(shù)據(jù)流的通道,并供訂閱相關(guān)消息的模塊讀取消費。
5.如權(quán)利要求1所述的IT軟硬件運行狀態(tài)監(jiān)控系統(tǒng),其特征在于,所述計算引擎包括:
評分模塊:將規(guī)整模塊整理后的網(wǎng)元運行數(shù)據(jù)與規(guī)則引擎中的配置進行匹配,并按100分制給每個網(wǎng)元的運行健康度打分;
事件模塊:根據(jù)配置引擎中的規(guī)則,對評分模塊產(chǎn)生的分數(shù)匹配生成事件,當?shù)陀?0分時產(chǎn)生預警事件,當?shù)陀?0分時產(chǎn)生告警事件;
下鉆模塊:根據(jù)事件模塊產(chǎn)生的事件匹配規(guī)則引擎中配置的規(guī)則對相關(guān)指標進行下鉆數(shù)據(jù)抓取,下鉆所要采集的數(shù)據(jù)以及格式均通過場景化設(shè)計產(chǎn)生,當未有事件產(chǎn)生時,每個指標周期性會進行一次常規(guī)下鉆,用以與異常事件進行對比分析;
診斷模塊:根據(jù)下鉆模塊中采集的信息與正常時間點采集的下鉆數(shù)據(jù)進行對比,自動分析診斷引起指標事件產(chǎn)生的原因;
自動處理模塊:當診斷模塊確認事件原因后通知自動處理模塊,所述自動處理模塊根據(jù)事件原因匹配調(diào)用引擎中預先配置的相關(guān)自動處理腳本。
6.如權(quán)利要求5所述的IT軟硬件運行狀態(tài)監(jiān)控系統(tǒng),其特征在于,對于系統(tǒng)性能問題引起的事件,所述診斷模塊查找得出需要被KILL的進程列表或者重啟操作命令,所述自動處理模塊通過調(diào)用KILL或者重啟命令解決性能問題;對于主機文件系統(tǒng)和數(shù)據(jù)表空間異常引起的事件,所述自動處理模塊通過調(diào)用預設(shè)方案進行恢復,所述預設(shè)方案為根據(jù)被監(jiān)控網(wǎng)元與指標名稱以及系統(tǒng)運行情況設(shè)置的可恢復異常情況的腳本或者命令。
7.如權(quán)利要求1所述的IT軟硬件運行狀態(tài)監(jiān)控系統(tǒng),其特征在于,所述展示引擎包括:
業(yè)務(wù)域展示模塊:展示業(yè)務(wù)網(wǎng)元和平臺網(wǎng)元,每個業(yè)務(wù)網(wǎng)元設(shè)置有需要展示的指標,所有的業(yè)務(wù)網(wǎng)元均在同一塊區(qū)域中展示,并通過不同顏色突出顯示的策略進行滾動展示;所述平臺網(wǎng)元按照設(shè)備類型劃分為主機、存儲、數(shù)據(jù)庫、網(wǎng)路和負載均衡,同時平臺網(wǎng)元展示還包含了該業(yè)務(wù)域所包含的所有網(wǎng)元所觸發(fā)的事件,所有事件按照事件發(fā)生先后進行排序;當業(yè)務(wù)網(wǎng)元展示區(qū)域選擇事件范圍和時間點后,默認平臺網(wǎng)元數(shù)據(jù)展示為選中時間點的鏡像數(shù)據(jù);
平臺域展示模塊:將平臺網(wǎng)元按照設(shè)備類型進行展示,每一種設(shè)備類型均包含了所有被監(jiān)控網(wǎng)元下同類型的網(wǎng)元組件,并可在頁面上搜索網(wǎng)元名稱找到被監(jiān)控網(wǎng)元;
網(wǎng)元展示模塊:展示單個網(wǎng)元的運行情況,根據(jù)網(wǎng)元類型定義多種指標反映網(wǎng)元的運行狀態(tài),顯示各指標項得分及扣分情況,同時根據(jù)扣分情況生成相關(guān)事件;
下鉆展示模塊:通過業(yè)務(wù)域展示模塊中的事件列表或者網(wǎng)元展示模塊中事件列表進入,主要展示計算引擎中下鉆模塊所采集的數(shù)據(jù)與診斷模塊所分析的結(jié)論,通過場景化的數(shù)據(jù)采集與展示,在頁面上直觀顯示系統(tǒng)存在的問題、問題導致的原因、問題時間點與之前時間點運行狀態(tài)的對比,以及系統(tǒng)故障的定位方向。