本發(fā)明涉及一種服務(wù)器監(jiān)測(cè)系統(tǒng)及其方法,尤其是一種基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)系統(tǒng)及監(jiān)測(cè)方法。
背景技術(shù):
簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(simplenetworkmanagementprotocol,snmp),由一組網(wǎng)絡(luò)管理的標(biāo)準(zhǔn)組成,包含一個(gè)應(yīng)用層協(xié)議(applicationlayerprotocol)、數(shù)據(jù)庫(kù)模型(databaseschema)和一組資源對(duì)象。該協(xié)議能夠支持網(wǎng)絡(luò)管理系統(tǒng),用以監(jiān)測(cè)連接到網(wǎng)絡(luò)上的設(shè)備是否有任何引起管理上關(guān)注的情況。snmp能夠使網(wǎng)絡(luò)管理員提高網(wǎng)絡(luò)管理效能,及時(shí)發(fā)現(xiàn)并解決網(wǎng)絡(luò)問(wèn)題以及規(guī)劃網(wǎng)絡(luò)的增長(zhǎng)。但是只采用snmp管理服務(wù)器具有容易造成ip浪費(fèi)、故障時(shí)無(wú)法管理等問(wèn)題。
智能平臺(tái)管理接口(intelligentplatformmanagementinterface,ipmi)是一種開(kāi)放標(biāo)準(zhǔn)的硬件管理接口規(guī)格,定義了嵌入式管理子系統(tǒng)進(jìn)行通信的特定方法。ipmi信息通過(guò)基板管理控制器(bmc)(位于ipmi規(guī)格的硬件組件上)進(jìn)行交流。使用低級(jí)硬件智能管理而不使用操作系統(tǒng)進(jìn)行管理,具有兩個(gè)主要優(yōu)點(diǎn):首先,此配置允許進(jìn)行帶外服務(wù)器管理;其次,操作系統(tǒng)不必負(fù)擔(dān)傳輸系統(tǒng)狀態(tài)數(shù)據(jù)的任務(wù)。但是單獨(dú)采用ipmi管理服務(wù)器,單獨(dú)構(gòu)建網(wǎng)絡(luò)會(huì)使得成本比較高。
大型企業(yè)內(nèi)部往往部署多種服務(wù)器,服務(wù)器的正常運(yùn)行關(guān)系到企業(yè)各項(xiàng)業(yè)務(wù)的正常運(yùn)轉(zhuǎn),尤其對(duì)于承擔(dān)核心業(yè)務(wù)的服務(wù)器,一旦服務(wù)器運(yùn)行狀態(tài)出現(xiàn)異常,短時(shí)間內(nèi)沒(méi)有得到及時(shí)處理造成服務(wù)器宕機(jī),不僅會(huì)影響到企業(yè)的安全指標(biāo),更重要的是會(huì)對(duì)企業(yè)的形象、蒙受的損失造成不可估量的影響,如何采取有效的措施,在服務(wù)器出現(xiàn)異常時(shí)及時(shí)排查出故障原因,是系統(tǒng)運(yùn)維人員日常工作中最重要的事,在現(xiàn)有的技術(shù)條件下,運(yùn)維人員往往會(huì)逐個(gè)對(duì)服務(wù)器進(jìn)行排查,人工排查不僅會(huì)耗費(fèi)大量的時(shí)間,并且也會(huì)受到運(yùn)維人員專業(yè)技術(shù)水平等人為因素的影響造成排查不準(zhǔn)確的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明是為避免上述已有技術(shù)中存在的不足之處,提供一種基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)系統(tǒng)及監(jiān)測(cè)方法,以實(shí)現(xiàn)對(duì)服務(wù)器異常狀態(tài)準(zhǔn)確定位與告警,縮短運(yùn)維人員故障排查定位時(shí)間,便于及時(shí)處理故障。
本發(fā)明為解決技術(shù)問(wèn)題采用以下技術(shù)方案。
基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)系統(tǒng),包括監(jiān)測(cè)服務(wù)器,所述監(jiān)測(cè)服務(wù)器內(nèi)包括有數(shù)據(jù)獲取子系統(tǒng)、數(shù)據(jù)聚集處理子系統(tǒng)以及接口交互子系統(tǒng);所述數(shù)據(jù)獲取子系統(tǒng)包括多個(gè)數(shù)據(jù)采集單元;所述數(shù)據(jù)聚集處理子系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元和數(shù)據(jù)處理單元;所述接口交互子系統(tǒng)包括通信傳輸單元和告警顯示單元;
所述數(shù)據(jù)采集單元,用于周期性的發(fā)送基于snmp協(xié)議狀態(tài)信息請(qǐng)求和ipmi協(xié)議的狀態(tài)信息請(qǐng)求,對(duì)各服務(wù)器的運(yùn)行狀態(tài)進(jìn)行信息采集;
所述數(shù)據(jù)存儲(chǔ)單元,用于將當(dāng)前數(shù)據(jù)采集單元根據(jù)采集協(xié)議采集的服務(wù)器運(yùn)行狀態(tài)信息進(jìn)行封裝;當(dāng)前數(shù)據(jù)采集單元將封裝后的信息發(fā)送至數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行解析和數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化,并保存;
所述數(shù)據(jù)處理單元,用于對(duì)數(shù)據(jù)庫(kù)中保存的服務(wù)器狀態(tài)信息進(jìn)行安全閾值的比對(duì),對(duì)在安全閾值范圍內(nèi)的狀態(tài)信息不做處理,對(duì)超過(guò)安全閾值的服務(wù)器狀態(tài)信息做標(biāo)記,并將狀態(tài)信息發(fā)送至告警顯示單元;
所述通信傳輸單元用于保證對(duì)等網(wǎng)絡(luò)中各服務(wù)器節(jié)點(diǎn)之間運(yùn)行狀態(tài)數(shù)據(jù)的安全可靠傳輸;
所述告警顯示單元,用于將告警信息及時(shí)、準(zhǔn)確地告知運(yùn)維人員。
所述數(shù)據(jù)采集單元采集的服務(wù)器狀態(tài)信息包括cpu使用率、內(nèi)存使用率、硬盤(pán)占用率、進(jìn)程個(gè)數(shù)、網(wǎng)絡(luò)帶寬占用率、中間件響應(yīng)時(shí)間、溫度、電壓、電流、風(fēng)扇工作狀態(tài)、電源狀態(tài)11種運(yùn)行參數(shù)。
所述數(shù)據(jù)采集單元是由多個(gè)采集節(jié)點(diǎn)組成,各采集節(jié)點(diǎn)將采集到的對(duì)應(yīng)服務(wù)器狀態(tài)信息發(fā)送至數(shù)據(jù)存儲(chǔ)單元保存。
本發(fā)明還提供了一種基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)系統(tǒng)的監(jiān)測(cè)方法。
基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)方法,包括以下幾個(gè)步驟:
步驟1:將多服務(wù)器間建立起一個(gè)對(duì)等網(wǎng)絡(luò);
步驟2:由數(shù)據(jù)采集單元周期性的發(fā)送基于snmp協(xié)議狀態(tài)信息請(qǐng)求和ipmi協(xié)議的狀態(tài)信息請(qǐng)求,對(duì)各服務(wù)器的運(yùn)行狀態(tài)進(jìn)行信息采集;
步驟3:由數(shù)據(jù)存儲(chǔ)單元將當(dāng)前數(shù)據(jù)采集單元根據(jù)采集協(xié)議采集的服務(wù)器運(yùn)行狀態(tài)信息進(jìn)行封裝;當(dāng)前數(shù)據(jù)采集單元將封裝后的信息發(fā)送至數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行解析和數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化,并保存;
步驟4:由數(shù)據(jù)處理單元對(duì)數(shù)據(jù)庫(kù)中保存的服務(wù)器狀態(tài)信息進(jìn)行安全閾值的比對(duì),對(duì)在安全閾值范圍內(nèi)的狀態(tài)信息不做處理,對(duì)超過(guò)安全閾值的服務(wù)器狀態(tài)信息做標(biāo)記,并將狀態(tài)信息發(fā)送至告警顯示單元;
步驟5:由告警顯示單元將告警信息及時(shí)、準(zhǔn)確地告知運(yùn)維人員,實(shí)現(xiàn)多服務(wù)器監(jiān)測(cè)。
步驟2中,服務(wù)器的運(yùn)行狀態(tài)包括cpu使用率、內(nèi)存使用率、硬盤(pán)占用率、進(jìn)程個(gè)數(shù)、網(wǎng)絡(luò)帶寬占用率、中間件響應(yīng)時(shí)間、溫度、電壓、電流、風(fēng)扇工作狀態(tài)、電源狀態(tài)。
與已有技術(shù)相比,本發(fā)明有益效果體現(xiàn)在:
本發(fā)明的基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)系統(tǒng),包括監(jiān)測(cè)服務(wù)器,所述監(jiān)測(cè)服務(wù)器內(nèi)設(shè)置有數(shù)據(jù)獲取子系統(tǒng)、數(shù)據(jù)聚集處理子系統(tǒng)以及接口交互子系統(tǒng);所述數(shù)據(jù)獲取子系統(tǒng)包括多個(gè)數(shù)據(jù)采集單元;所述數(shù)據(jù)聚集處理子系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元和數(shù)據(jù)處理單元;所述接口交互子系統(tǒng)包括通信傳輸單元和告警顯示單元。
監(jiān)測(cè)方法包括:數(shù)據(jù)獲取子系統(tǒng)周期性的采集服務(wù)器的運(yùn)行狀態(tài)信息,該狀態(tài)信息包括cpu使用率、內(nèi)存使用率、硬盤(pán)占用率、進(jìn)程個(gè)數(shù)、網(wǎng)絡(luò)帶寬占用率、中間件響應(yīng)時(shí)間、溫度、電壓、電流、風(fēng)扇工作狀態(tài)、電源狀態(tài)這11種運(yùn)行參數(shù),數(shù)據(jù)獲取子系統(tǒng)將采集到的運(yùn)行狀態(tài)信息發(fā)送至數(shù)據(jù)聚集處理子系統(tǒng),數(shù)據(jù)聚集處理子系統(tǒng)對(duì)不同運(yùn)行狀態(tài)信息所設(shè)置的安全值進(jìn)行閾值判斷,超過(guò)安全值,接口交互子系統(tǒng)對(duì)故障快速定位,并及時(shí)將故障服務(wù)器與故障原因以web界面顯示和短信的方式通知運(yùn)維人員進(jìn)行處理。
本發(fā)明的基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)系統(tǒng)及監(jiān)測(cè)方法,用于解決現(xiàn)有監(jiān)測(cè)系統(tǒng)中無(wú)法對(duì)多服務(wù)器運(yùn)行狀態(tài)進(jìn)行統(tǒng)一監(jiān)測(cè)、統(tǒng)一管理的問(wèn)題,減少人工排查故障時(shí)間及人為因素造成排查不準(zhǔn)確的問(wèn)題,提高管理效率,具有完整數(shù)據(jù)對(duì)象的管理和服務(wù)功能、結(jié)構(gòu)靈活、系統(tǒng)維護(hù)性強(qiáng)等優(yōu)點(diǎn)。
附圖說(shuō)明
圖1為本發(fā)明的基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)系統(tǒng)的框架圖。
具體實(shí)施方式
參見(jiàn)圖1,基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)系統(tǒng),包括監(jiān)測(cè)服務(wù)器,所述監(jiān)測(cè)服務(wù)器內(nèi)包括有數(shù)據(jù)獲取子系統(tǒng)、數(shù)據(jù)聚集處理子系統(tǒng)以及接口交互子系統(tǒng);所述數(shù)據(jù)獲取子系統(tǒng)包括多個(gè)數(shù)據(jù)采集單元;所述數(shù)據(jù)聚集處理子系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元和數(shù)據(jù)處理單元;所述接口交互子系統(tǒng)包括通信傳輸單元和告警顯示單元;
所述數(shù)據(jù)采集單元,用于周期性的發(fā)送基于snmp協(xié)議狀態(tài)信息請(qǐng)求和ipmi協(xié)議的狀態(tài)信息請(qǐng)求,對(duì)各服務(wù)器的運(yùn)行狀態(tài)進(jìn)行信息采集;
所述數(shù)據(jù)存儲(chǔ)單元,用于將當(dāng)前數(shù)據(jù)采集單元根據(jù)采集協(xié)議采集的服務(wù)器運(yùn)行狀態(tài)信息進(jìn)行封裝;當(dāng)前數(shù)據(jù)采集單元將封裝后的信息發(fā)送至數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行解析和數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化,并按照預(yù)定的規(guī)則保存;
所述數(shù)據(jù)處理單元,用于對(duì)數(shù)據(jù)庫(kù)中保存的服務(wù)器狀態(tài)信息進(jìn)行安全閾值的比對(duì),對(duì)在安全閾值范圍內(nèi)的狀態(tài)信息不做處理,對(duì)超過(guò)安全閾值的服務(wù)器狀態(tài)信息做標(biāo)記,并將狀態(tài)信息發(fā)送至告警顯示單元;
所述通信傳輸單元用于保證對(duì)等網(wǎng)絡(luò)中各服務(wù)器節(jié)點(diǎn)之間運(yùn)行狀態(tài)數(shù)據(jù)的安全可靠傳輸;
所述告警顯示單元,用于將告警信息及時(shí)、準(zhǔn)確地告知運(yùn)維人員。
在多服務(wù)器間建立起一個(gè)對(duì)等網(wǎng)絡(luò),對(duì)等網(wǎng)絡(luò)獨(dú)立于原有的服務(wù)器業(yè)務(wù)承載網(wǎng)絡(luò),對(duì)等網(wǎng)絡(luò)中的各服務(wù)器節(jié)點(diǎn)組成一個(gè)單獨(dú)的局域網(wǎng),減少服務(wù)器傳輸核心業(yè)務(wù)數(shù)據(jù)的鏈路負(fù)載。對(duì)等網(wǎng)絡(luò)非中心化特點(diǎn),網(wǎng)絡(luò)中的資源和服務(wù)以及數(shù)據(jù)的傳輸分別分布在所有的節(jié)點(diǎn)上進(jìn)行,使得對(duì)等網(wǎng)絡(luò)本身具有天然的可擴(kuò)展、健壯型和隱私保護(hù)。服務(wù)器節(jié)點(diǎn)的增加與刪除更加簡(jiǎn)單,更加適合于監(jiān)測(cè)系統(tǒng)網(wǎng)絡(luò)中。監(jiān)測(cè)系統(tǒng)服務(wù)器由數(shù)據(jù)獲取子系統(tǒng)、數(shù)據(jù)聚集處理子系統(tǒng)以及接口交互子系統(tǒng)組成。其中,數(shù)據(jù)獲取子系統(tǒng)包括多個(gè)數(shù)據(jù)采集單元節(jié)點(diǎn),各數(shù)據(jù)采集單元節(jié)點(diǎn)通過(guò)服務(wù)器內(nèi)置snmp服務(wù)和ipmi接口周期性的向服務(wù)器發(fā)送基于snmp協(xié)議和ipmi協(xié)議的狀態(tài)信息請(qǐng)求,對(duì)各服務(wù)器的運(yùn)行狀態(tài)(cpu使用率、內(nèi)存使用率、硬盤(pán)占用率、進(jìn)程個(gè)數(shù)、網(wǎng)絡(luò)帶寬占用率、中間件響應(yīng)時(shí)間、溫度、電壓、電流、風(fēng)扇工作狀態(tài)、電源狀態(tài)11種運(yùn)行參數(shù))進(jìn)行信息采集,在對(duì)等網(wǎng)絡(luò)中,各數(shù)據(jù)采集單元節(jié)點(diǎn)之間相互通信,對(duì)原始采集服務(wù)器運(yùn)行狀態(tài)數(shù)據(jù)進(jìn)行歸一化處理后傳遞給數(shù)據(jù)聚集處理子系統(tǒng),數(shù)據(jù)聚集處理子系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元和數(shù)據(jù)處理單元,數(shù)據(jù)存儲(chǔ)單元是將當(dāng)前數(shù)據(jù)采集單元根據(jù)采集協(xié)議snmp協(xié)議和ipmi協(xié)議采集的服務(wù)器運(yùn)行狀態(tài)信息進(jìn)行封裝;當(dāng)前數(shù)據(jù)采集單元將封裝后的信息發(fā)送至數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行解析和數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化,并按照一定的規(guī)則保存。數(shù)據(jù)處理單元同時(shí)調(diào)用數(shù)據(jù)庫(kù)中保存的服務(wù)器各項(xiàng)運(yùn)行狀態(tài)參數(shù)安全運(yùn)行值與當(dāng)前服務(wù)器狀態(tài)信息參數(shù)值進(jìn)行安全閾值的比對(duì),對(duì)在安全閾值范圍內(nèi)的狀態(tài)信息參數(shù)值不做處理,對(duì)超過(guò)安全閾值的服務(wù)器狀態(tài)信息參數(shù)值做標(biāo)記,并將狀態(tài)信息發(fā)送至接口交互子系統(tǒng)。接口交互子系統(tǒng)包括通信傳輸單元和告警顯示單元,通信傳輸單元用于保證對(duì)等網(wǎng)絡(luò)中各服務(wù)器節(jié)點(diǎn)之間運(yùn)行狀態(tài)數(shù)據(jù)的安全可靠傳輸,告警顯示單元將當(dāng)前多服務(wù)器中異常服務(wù)器的異常狀態(tài)告警信息及時(shí)、準(zhǔn)確地告知運(yùn)維人員,告警方式本地采用響鈴+屏幕彈出窗口,遠(yuǎn)程采用短信平臺(tái)方式,并將發(fā)生變化的服務(wù)器狀態(tài)數(shù)據(jù)寫(xiě)入相應(yīng)的數(shù)據(jù)庫(kù)文件中,便于歷史告警數(shù)據(jù)的查詢和分析。
所述數(shù)據(jù)存儲(chǔ)單元采用raid10磁盤(pán)陣列存儲(chǔ)數(shù)據(jù),數(shù)據(jù)庫(kù)操作系統(tǒng)采用可移植性與兼容性強(qiáng),安裝管理維護(hù)簡(jiǎn)便的mysql數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)存儲(chǔ)管理。告警顯示單元的告警方式本地采用響鈴+屏幕彈出窗口,遠(yuǎn)程采用短信平臺(tái)方式。
所述數(shù)據(jù)采集單元采集的服務(wù)器狀態(tài)信息包括cpu使用率、內(nèi)存使用率、硬盤(pán)占用率、進(jìn)程個(gè)數(shù)、網(wǎng)絡(luò)帶寬占用率、中間件響應(yīng)時(shí)間、溫度、電壓、電流、風(fēng)扇工作狀態(tài)、電源狀態(tài)11種運(yùn)行參數(shù)。
所述數(shù)據(jù)采集單元是由多個(gè)采集節(jié)點(diǎn)組成,各采集節(jié)點(diǎn)將采集到的對(duì)應(yīng)服務(wù)器狀態(tài)信息發(fā)送至數(shù)據(jù)存儲(chǔ)單元保存。每個(gè)采集節(jié)點(diǎn)對(duì)應(yīng)一臺(tái)服務(wù)器,多個(gè)采集節(jié)點(diǎn)對(duì)應(yīng)多服務(wù)器,各采集節(jié)點(diǎn)之間相互通信。
基于snmp及ipmi協(xié)議的多服務(wù)器監(jiān)測(cè)方法,包括以下幾個(gè)步驟:
步驟1:將多服務(wù)器間建立起一個(gè)對(duì)等網(wǎng)絡(luò);
步驟2:由數(shù)據(jù)采集單元周期性的發(fā)送基于snmp協(xié)議狀態(tài)信息請(qǐng)求和ipmi協(xié)議的狀態(tài)信息請(qǐng)求,對(duì)各服務(wù)器的運(yùn)行狀態(tài)進(jìn)行信息采集;
步驟3:由數(shù)據(jù)存儲(chǔ)單元將當(dāng)前數(shù)據(jù)采集單元根據(jù)采集協(xié)議采集的服務(wù)器運(yùn)行狀態(tài)信息進(jìn)行封裝;當(dāng)前數(shù)據(jù)采集單元將封裝后的信息發(fā)送至數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行解析和數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化,并(按照預(yù)定的規(guī)則)保存;
步驟4:由數(shù)據(jù)處理單元對(duì)數(shù)據(jù)庫(kù)中保存的服務(wù)器狀態(tài)信息進(jìn)行安全閾值的比對(duì),對(duì)在安全閾值范圍內(nèi)的狀態(tài)信息不做處理,對(duì)超過(guò)安全閾值的服務(wù)器狀態(tài)信息做標(biāo)記,并將狀態(tài)信息發(fā)送至告警顯示單元;
步驟5:由告警顯示單元將告警信息及時(shí)、準(zhǔn)確地告知運(yùn)維人員,實(shí)現(xiàn)多服務(wù)器監(jiān)測(cè)。
步驟2中,服務(wù)器的運(yùn)行狀態(tài)包括cpu使用率、內(nèi)存使用率、硬盤(pán)占用率、進(jìn)程個(gè)數(shù)、網(wǎng)絡(luò)帶寬占用率、中間件響應(yīng)時(shí)間、溫度、電壓、電流、風(fēng)扇工作狀態(tài)、電源狀態(tài)。
本發(fā)明的監(jiān)測(cè)系統(tǒng)網(wǎng)絡(luò)包括兩套網(wǎng)絡(luò):一種是用于承載業(yè)務(wù)數(shù)據(jù)的企業(yè)數(shù)據(jù)網(wǎng),一種是監(jiān)測(cè)服務(wù)器運(yùn)行狀態(tài)的專用管理網(wǎng)絡(luò)。數(shù)據(jù)和管理不再共用同一物理信道,數(shù)據(jù)網(wǎng)絡(luò)和管理網(wǎng)絡(luò)完全獨(dú)立互不影響。
從專業(yè)的角度來(lái)說(shuō),網(wǎng)絡(luò)管理可以分為帶內(nèi)管理和帶外管理兩種模式,當(dāng)企業(yè)網(wǎng)絡(luò)建成后,網(wǎng)絡(luò)上會(huì)傳輸各種企業(yè)的業(yè)務(wù)數(shù)據(jù),如果網(wǎng)絡(luò)出現(xiàn)問(wèn)題,仍然通過(guò)這個(gè)網(wǎng)絡(luò)排除故障,這種方式稱為帶內(nèi)管理;如果另外再建一套網(wǎng)絡(luò)系統(tǒng),通過(guò)這新建系統(tǒng)去管理業(yè)務(wù)網(wǎng)絡(luò),這種就是帶外管理。帶內(nèi)采集屬于帶內(nèi)管理范疇,帶外采集屬于帶外管理范疇。在本發(fā)明中,服務(wù)器的負(fù)載數(shù)據(jù)采集通過(guò)帶內(nèi)采集抓取,主要包括:cpu使用率、內(nèi)存使用率、硬盤(pán)占用率、進(jìn)程個(gè)數(shù)、網(wǎng)絡(luò)帶寬占用率、中間件響應(yīng)時(shí)間等負(fù)載信息。服務(wù)器的物理數(shù)據(jù)通過(guò)帶外采集抓取,主要包括:服務(wù)器運(yùn)行時(shí)的溫度、電壓、電流、風(fēng)扇工作狀態(tài)、電源狀態(tài)等物理信息。
在數(shù)據(jù)獲取子系統(tǒng)中,每臺(tái)被監(jiān)測(cè)的服務(wù)器均被視作一個(gè)數(shù)據(jù)采集單元節(jié)點(diǎn)。一般來(lái)說(shuō),數(shù)據(jù)采集單元進(jìn)行數(shù)據(jù)的采集需要周期性的發(fā)送相應(yīng)的通信協(xié)議實(shí)現(xiàn),采集周期在監(jiān)測(cè)系統(tǒng)服務(wù)器的數(shù)據(jù)獲取子系統(tǒng)中設(shè)置,采集協(xié)議包括snmp協(xié)議和ipmi協(xié)議。需要注意的是,通過(guò)snmp協(xié)議采集服務(wù)器上的數(shù)據(jù)前,采集服務(wù)器上必須要先安裝并運(yùn)行了snmp服務(wù)。一般服務(wù)器中均內(nèi)置了snmp服務(wù)。
數(shù)據(jù)采集單元節(jié)點(diǎn)根據(jù)不同采集協(xié)議采集到的服務(wù)器運(yùn)行狀態(tài)信息封裝后發(fā)送至數(shù)據(jù)獲取子模塊中的控制節(jié)點(diǎn),控制節(jié)點(diǎn)對(duì)數(shù)據(jù)進(jìn)行歸一化處理后將數(shù)據(jù)發(fā)送給數(shù)據(jù)聚集處理子系統(tǒng),數(shù)據(jù)聚集子處理系統(tǒng)中的數(shù)據(jù)存儲(chǔ)單元將當(dāng)前數(shù)據(jù)獲取子模塊中控制節(jié)點(diǎn)發(fā)送的數(shù)據(jù)進(jìn)行解析和數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化,并按照一定的規(guī)則保存。數(shù)據(jù)處理單元同時(shí)調(diào)用數(shù)據(jù)庫(kù)中保存的服務(wù)器各項(xiàng)運(yùn)行狀態(tài)參數(shù)安全運(yùn)行值與當(dāng)前服務(wù)器狀態(tài)信息參數(shù)值進(jìn)行安全閾值的比對(duì),對(duì)在安全閾值范圍內(nèi)的狀態(tài)信息參數(shù)值不做處理,對(duì)超過(guò)安全閾值的服務(wù)器狀態(tài)信息參數(shù)值做標(biāo)記,并將狀態(tài)信息發(fā)送至接口交互子系統(tǒng)。接口交互子系統(tǒng)的通信傳輸單元用于保證對(duì)等網(wǎng)絡(luò)中各服務(wù)器節(jié)點(diǎn)之間運(yùn)行狀態(tài)數(shù)據(jù)的安全可靠傳輸,告警顯示單元將當(dāng)前數(shù)據(jù)聚集處理系統(tǒng)中的數(shù)據(jù)處理單元發(fā)送來(lái)的多服務(wù)器中異常服務(wù)器異常狀態(tài)告警信息及時(shí)、準(zhǔn)確地告知運(yùn)維人員,告警方式本地采用響鈴+屏幕彈出窗口,遠(yuǎn)程采用短信平臺(tái)方式,并將發(fā)生變化的服務(wù)器狀態(tài)數(shù)據(jù)寫(xiě)入相應(yīng)的數(shù)據(jù)庫(kù)文件中,便于歷史告警數(shù)據(jù)的查詢和分析。
本發(fā)明在多服務(wù)器異常發(fā)現(xiàn)及故障準(zhǔn)確定位方面有較大的現(xiàn)實(shí)意義,對(duì)于及時(shí)化解承擔(dān)核心業(yè)務(wù)服務(wù)器的安全隱患和風(fēng)險(xiǎn),避免因服務(wù)器故障而造成的信息安全事件的發(fā)生具有重要的意義。有效提高運(yùn)維效率,減少了信息運(yùn)維人員日常運(yùn)維工作量。確保了企業(yè)的業(yè)務(wù)系統(tǒng)正??煽窟\(yùn)行,為企業(yè)的生產(chǎn)經(jīng)營(yíng)提供有效支撐。
對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無(wú)論從哪一點(diǎn)來(lái)看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說(shuō)明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。
此外,應(yīng)當(dāng)理解,雖然本說(shuō)明書(shū)按照實(shí)施方式加以描述,但并非每個(gè)實(shí)施方式僅包含一個(gè)獨(dú)立的技術(shù)方案,說(shuō)明書(shū)的這種敘述方式僅僅是為清楚起見(jiàn),本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說(shuō)明書(shū)作為一個(gè)整體,各實(shí)施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。