一種系統(tǒng)運行故障自檢測及自修復的方法和系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及通訊監(jiān)測領域,特別涉及一種系統(tǒng)運行故障自檢測及自修復的方法和 系統(tǒng)。
【背景技術】
[0002] 在當今信息化時代下,信息數(shù)據(jù)的處理依托計算機的軟件系統(tǒng)進行,目前絕大多 數(shù)系統(tǒng)的服務器設備安放在服務器機房或外場環(huán)境中,需要維護人員定期去目標場所依次 檢查設備中運行軟件的狀況。但是,該人工監(jiān)測的方法的不僅耗費大量人力,并且并不能及 時獲取設備中運行軟件的異常信息,容易造成較大的損失。
[0003] 基于上述現(xiàn)況,工程師研發(fā)了監(jiān)測系統(tǒng),能夠代替人工監(jiān)測設備中運行軟件的狀 況?,F(xiàn)有的監(jiān)測系統(tǒng)仍有不足: 現(xiàn)有的監(jiān)測系統(tǒng)采用監(jiān)測被監(jiān)測的軟件線程的方法,以便能夠有效監(jiān)測到軟件的運行 的基本信息。但是,在被監(jiān)測軟件運行時,偶爾會產(chǎn)生線程正常但實際軟件不能實現(xiàn)功能的 "假死"狀態(tài),現(xiàn)有的監(jiān)測系統(tǒng)并不能實現(xiàn)識別該軟件"假死"狀態(tài),更不能解決軟件"假死" 時被監(jiān)測軟件失去功能的技術問題。
[0004] 有鑒于此,特提出本發(fā)明。
【發(fā)明內容】
[0005] 本發(fā)明要解決的技術問題在于克服現(xiàn)有技術的不足,提供一種系統(tǒng)運維功能的方 法及系統(tǒng),有效識別假死狀態(tài),達到更好的監(jiān)測效果。
[0006] 為解決上述技術問題,本發(fā)明采用技術方案的基本構思是: 一種系統(tǒng)運行故障自檢測及自修復的方法,其特征在于,包括: 51、 采集被監(jiān)測設備的數(shù)據(jù)信息; 52、 根據(jù)預先設置的過濾策略,從所獲取的數(shù)據(jù)信息中過濾出有效數(shù)據(jù)信息并存儲;以 及 53、 根據(jù)預設設置的報警策略過濾出需報警的有效數(shù)據(jù)信息,報警并記錄; 54、 根據(jù)需報警的有效數(shù)據(jù)信息,控制被監(jiān)測軟件重啟或者啟動; 所述步驟S1包括采集被監(jiān)測設備軟件的運行數(shù)據(jù)信息的子步驟S12和采集被監(jiān)測設 備軟件的異常數(shù)據(jù)信息的子步驟S13 ; 步驟S12包括: 5121、 調用被監(jiān)測設備的任務管理器; 5122、 根據(jù)該任務管理器中的進程記錄被監(jiān)測軟件啟動時間點、關閉時間點和運行時 間;生成運行數(shù)據(jù)信息; 步驟S13包括: 5131、 調用被監(jiān)測設備的任務管理器; 5132、 根據(jù)配置軟件名稱和地址,在任務管理器中確定被監(jiān)測軟件的進程; S133、根據(jù)被監(jiān)測軟件的名稱和地址監(jiān)聽相應的ini文件;生成異常數(shù)據(jù)信息。
[0007] 上述的系統(tǒng)運行故障自檢測及自修復的方法,所述步驟S3中過濾需要報警的有 效運行數(shù)據(jù)信息的過濾方法為: 調取有效運行數(shù)據(jù)信息,將該有效運行數(shù)據(jù)信息與預設值進行對比,誤差超過閾值時, 則該有效運行數(shù)據(jù)信息為需要報警的有效運行數(shù)據(jù)信息; 步驟S4中,需要報警的有效運行數(shù)據(jù)信息出現(xiàn),則調用被監(jiān)測設備的任務管理器的命 令使被監(jiān)測的軟件啟動。
[0008] 上述的系統(tǒng)運行故障自檢測及自修復的方法,所述步驟S3中過濾需要報警的有 效異常數(shù)據(jù)信息的過濾方法為: 調取有效異常數(shù)據(jù)信息, 確定與該異常數(shù)據(jù)信息采集時間點最近一次ini文件內容變化的時間點, 當該時間點與該采集時間點的時間間隔超過閾值時, 調取相應有效運行數(shù)據(jù)信息確定采集時間點被監(jiān)測軟件的運行狀態(tài),若被監(jiān)測軟件處 于開啟狀態(tài),則該有效異常數(shù)據(jù)信息為需要報警的有效異常信息; 步驟S4中,出現(xiàn)需要報警的有效異常數(shù)據(jù)信息,則調用被監(jiān)測設備的任務管理器的命 令使被監(jiān)測的軟件重啟。
[0009] 上述的系統(tǒng)運行故障自檢測及自修復的方法,所述步驟S1還包括采集被監(jiān)測設 備與其外接設備連接數(shù)據(jù)信息的子步驟S11 ; S11包括: 5111、 調用被監(jiān)測設備的通信協(xié)議Ping命令向與該被監(jiān)測設備連接的外接設備發(fā)送 一個ICMP; 5112、 獲取的ICMPecho內容;生成連接數(shù)據(jù)信息。
[0010] 一種運行故障自檢測及自修復的系統(tǒng),包括運行狀態(tài)獲取單元、異常數(shù)據(jù)監(jiān)測單 元、數(shù)據(jù)存儲單元和運行軟件重啟單元; 所述運行狀態(tài)獲取單元,用于采集被監(jiān)測設備中軟件的運行數(shù)據(jù)信息; 所述異常數(shù)據(jù)監(jiān)測單元,用于采集被監(jiān)測設備的指定軟件在運行中出現(xiàn)的異常數(shù)據(jù)信 息; 所述數(shù)據(jù)存儲單元,用于獲取運行數(shù)據(jù)信息和異常數(shù)據(jù)信息并進行處理、解析和存 儲; 所述運行軟件重啟單元,用于根據(jù)運行數(shù)據(jù)信息和異常數(shù)據(jù)信息重啟被監(jiān)測軟件以及 根據(jù)預設時間實現(xiàn)對被監(jiān)測軟件實現(xiàn)運行狀態(tài)控制。
[0011] 上述的運行故障自檢測及自修復的系統(tǒng),還包括連接狀態(tài)獲取單元; 所述連接狀態(tài)獲取單元,用于獲取被監(jiān)測設備與其所連接的外設之間的連接數(shù)據(jù)信 息;該連接數(shù)據(jù)信息也由所述數(shù)據(jù)存儲單元獲取。
[0012] 上述的運行故障自檢測及自修復的系統(tǒng),還包括數(shù)據(jù)查詢導出單元; 所述數(shù)據(jù)查詢導出單元,用于調取信息數(shù)據(jù),支持按時間范圍進行數(shù)據(jù)導出。
[0013] 上述的運行故障自檢測及自修復的系統(tǒng),還包括第一網(wǎng)絡通信單元和第二網(wǎng)絡通 信單元; 所述第一網(wǎng)絡通信單元,用于獲取運行數(shù)據(jù)信息和異常數(shù)據(jù)信息,并傳遞給的第二網(wǎng) 絡通信單元; 所述第二網(wǎng)絡通信單元,用于接收運行數(shù)據(jù)信息和異常數(shù)據(jù)信息并傳遞給所述數(shù)據(jù)存 儲單元。
[0014] 上述的運行故障自檢測及自修復的系統(tǒng),還包括通信檢測單元; 通信檢測單元,用于檢測第一網(wǎng)絡通信單元和第二網(wǎng)絡通信單元的連接狀態(tài)信息。
[0015] 上述的運行故障自檢測及自修復的系統(tǒng),所述運行狀態(tài)獲取單元、所述異常數(shù)據(jù) 監(jiān)測單元、第一網(wǎng)絡通信單元和所述運行軟件重啟單元設置于客戶端,所述數(shù)據(jù)存儲單元 和第二網(wǎng)絡通信單元設置于服務端,所述服務端通過客戶端的IP地址和端口識別來自不 同客戶端的數(shù)據(jù)信息。
[0016] 采用上述技術方案后,本發(fā)明與現(xiàn)有技術相比具有以下有益效果: 1、 通過線程監(jiān)測方式與配置文件監(jiān)測方式結合,有效解決了軟件"假死"不能監(jiān)測的現(xiàn) 象; 2、 能夠根據(jù)需報警的異常數(shù)據(jù)信息和軟件運行信息對被監(jiān)測軟件進行運行控制,解決 異常問題,實現(xiàn)被監(jiān)測軟件功能修復; 3、 多個軟件的狀態(tài)參數(shù)能夠進行集中處理和統(tǒng)一管理,有效簡化操作量; 4、 具有連接狀態(tài)監(jiān)測功能,能夠保證監(jiān)測功能全程實現(xiàn); 5、 每個數(shù)據(jù)存儲單元能夠能夠有效支持多個軟件書數(shù)據(jù)的采集,有效拓展本發(fā)明系統(tǒng) 的兼容性。
【附圖說明】
[0017]圖1是本發(fā)明運行故障自檢測及自修復的系統(tǒng)的結構框圖。
[0018] 圖2是本發(fā)明系統(tǒng)運行故障自檢測及自修復方法的框圖。
[0019] 上述附圖中,1、客戶端;2、服務端;3、配置模塊。
【具體實施方式】
[0020] 下面結合附圖和具體實施例,對本發(fā)明作進一步說明,以助于理解本發(fā)明的內容。
[0021] 如圖1所示,本發(fā)明提供了一種運行故障自檢測及自修復的系統(tǒng),包括運行狀態(tài) 獲取單元、異常數(shù)據(jù)監(jiān)測單元、數(shù)據(jù)存儲單元、所述運行軟件重啟單元、連接狀態(tài)獲取單元、 數(shù)據(jù)查詢導出單元、第一網(wǎng)絡通信單元、第二網(wǎng)絡通信單元和通信檢測單元; 所述運行狀態(tài)獲取單元,用于采集被監(jiān)測設備中軟件的運行數(shù)據(jù)信息;該運行狀態(tài)獲 取單元調取被監(jiān)測設備的任務管理器,根據(jù)任務管理器中被監(jiān)測軟件的進程獲取該被監(jiān)測 軟件的運行數(shù)據(jù)信息。該基本運行狀態(tài)信息包括軟件開啟時間、關閉時間和運行時間。
[0022] 所述異常數(shù)據(jù)監(jiān)測單元,用于采集被監(jiān)測設備的指定軟件在運行中出現(xiàn)的異常數(shù) 據(jù)信息;由于被監(jiān)測軟件周期性向固定ini文件內寫入