一種故障定位方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明實施例中提供了一種故障定位方法、裝置及系統(tǒng),通過向服務(wù)器發(fā)送監(jiān)控請求報文,接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息,根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。實現(xiàn)了服務(wù)器故障的有效定位,使得系統(tǒng)維護人員可以迅速有效的定位系統(tǒng)故障。
【專利說明】一種故障定位方法、裝置及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機領(lǐng)域,尤其涉及一種故障定位方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002]伴隨計算機技術(shù)的發(fā)展,計算機系統(tǒng)復(fù)雜度不斷提升,相應(yīng)的對系統(tǒng)的運行管理也提出更改的要求,目前自動化的監(jiān)控技術(shù)得到廣泛應(yīng)用,可以實時監(jiān)控計算機系統(tǒng)的運行情況,以便及時發(fā)現(xiàn)故障,但是,由于計算機系統(tǒng)規(guī)模不斷加大,監(jiān)控參數(shù)不斷增多,分析這些信息需要很強的專業(yè)性,系統(tǒng)運行維護人員根據(jù)監(jiān)控數(shù)據(jù)表現(xiàn)的狀態(tài)無法及時準(zhǔn)確的定位系統(tǒng)發(fā)生的故障,需要對每種可能的問題進(jìn)行排查,隨著系統(tǒng)復(fù)雜度的提高,排查的工作量將不斷加大。
【發(fā)明內(nèi)容】
[0003]本發(fā)明實施例中提供一種故障定位方法、裝置及系統(tǒng),解決系統(tǒng)故障頻發(fā),故障無法及時有效定位的問題。
[0004]本發(fā)明實施例的目的是通過以下技術(shù)方案實現(xiàn)的:
[0005]一種故障定位方法,包括:
[0006]向服務(wù)器發(fā)送監(jiān)控請求報文;
[0007]接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息;
[0008]根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。
[0009]一種故障定位裝置,包括:
[0010]發(fā)送模塊,用于向服務(wù)器發(fā)送監(jiān)控請求報文;
[0011]接收模塊,用于接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息;
[0012]故障定位模塊,用于根據(jù)故障定位規(guī)則,對所述接收模塊接收的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。
[0013]一種故障定位系統(tǒng),所述系統(tǒng)包括服務(wù)器和故障定位裝置,
[0014]其中,所述故障定位裝置用于向服務(wù)器發(fā)送監(jiān)控請求報文;接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息;根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位;
[0015]所述服務(wù)器用于,接收來自所述故障定位裝置的所述監(jiān)控請求報文;向所述故障定位裝置發(fā)送所述監(jiān)控數(shù)據(jù)報文。
[0016]通過本發(fā)明實施例中提供了一種故障定位方法、裝置及系統(tǒng),通過向服務(wù)器發(fā)送監(jiān)控請求報文,接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息,根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。實現(xiàn)了服務(wù)器故障的有效定位,使得系統(tǒng)維護人員可以迅速有效的定位系統(tǒng)故障。
【專利附圖】
【附圖說明】
[0017]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1是本發(fā)明實施例中提供的一種服務(wù)器運行監(jiān)控系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)圖;
[0019]圖2是本發(fā)明實施例中提供的一種故障定位方法的流程圖;
[0020]圖3是本發(fā)明實施例中提供的另一種故障定位方法的流程圖;
[0021]圖4是本發(fā)明實施例中提供的一種故障定位裝置的示意圖;
[0022]圖5是本發(fā)明實施例中提供的一種監(jiān)控系統(tǒng)的示意圖。
【具體實施方式】
[0023]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0024]本發(fā)明實施例中的一種服務(wù)器運行監(jiān)控系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)圖,如圖1所示,監(jiān)控主機100,該監(jiān)控主機上安裝了監(jiān)控端服務(wù)程序,提供了監(jiān)控管理、維護、數(shù)據(jù)采集和數(shù)據(jù)展現(xiàn)功能。服務(wù)器110、服務(wù)器120和服務(wù)器130為被監(jiān)控的服務(wù)器,其上安裝了被監(jiān)控服務(wù)程序,可以為一種監(jiān)控代理,負(fù)責(zé)采集整理,并提供監(jiān)控數(shù)據(jù)。
[0025]實施例一
[0026]本發(fā)明實施例一提供了一種故障定位方法,以監(jiān)控主機100為例,如圖2所示,該方法包括如下步驟:
[0027]步驟201、發(fā)送監(jiān)控請求報文;
[0028]其中,監(jiān)控主機100通過向服務(wù)器110、服務(wù)器120和服務(wù)器130發(fā)送監(jiān)控請求報文,以觸發(fā)服務(wù)器的監(jiān)控服務(wù)程序。該請求報文可以采用標(biāo)準(zhǔn)的網(wǎng)絡(luò)管理的協(xié)議,例如:RPC、SNMP, SYSLOG和腳本等,或者,用戶自定義的協(xié)議報文。為了能指定監(jiān)控的對象,例如指定監(jiān)控服務(wù)器的內(nèi)存使用率,可以在請求報文中攜帶監(jiān)控參數(shù)信息,該監(jiān)控參數(shù)信息用于指示需要監(jiān)控的參數(shù)。另外,為減輕監(jiān)控主機的運行負(fù)擔(dān),可以預(yù)設(shè)一定時間,向服務(wù)器發(fā)送監(jiān)控請求報文。
[0029]步驟202、接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息;
[0030]其中,監(jiān)控主機可接收到服務(wù)器110、服務(wù)器120和服務(wù)器130采集的監(jiān)控數(shù)據(jù)報文,該監(jiān)控數(shù)據(jù)報文中包括了服務(wù)器的運行信息,例如:CPU占用率,溫度,內(nèi)存使用率和運行進(jìn)程數(shù)等。
[0031]步驟203、根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。
[0032]其中,故障定位規(guī)則屬于一種對服務(wù)器的運行信息進(jìn)行分析,而得出故障結(jié)論的規(guī)則,例如:監(jiān)控數(shù)據(jù)顯示JAVA虛擬機內(nèi)存使用率持續(xù)大于95%,JAVA虛擬機垃圾回收操作持續(xù)出現(xiàn)間隔時間少于5秒,執(zhí)行時間大于10秒。根據(jù)故障定位規(guī)則對該數(shù)據(jù)進(jìn)行分析,可以定位服務(wù)器發(fā)生出dump的故障(指JAVA虛擬機出現(xiàn)宕機前的一種狀態(tài)),而現(xiàn)有技術(shù)中需要非常有經(jīng)驗的系統(tǒng)運維人員,通過排查多種可能,才能定位系統(tǒng)故障為服務(wù)器發(fā)生出dump故障,如不及時定位故障并處理,服務(wù)器中的JAVA虛擬機將可能因為死鎖、內(nèi)存溢出、應(yīng)用程序錯誤等原因產(chǎn)生dump文件而宕機,進(jìn)而影響用戶使用。
[0033]通過本發(fā)明實施例中提供的一種故障定位方法,通過向服務(wù)器發(fā)送監(jiān)控請求報文,接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息,根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。實現(xiàn)了服務(wù)器故障的有效定位,使得系統(tǒng)維護人員可以迅速有效的定位系統(tǒng)故障。
[0034]實施例二
[0035]本實施例在實施例一的基礎(chǔ)上,增加了故障定位規(guī)則的生成步驟。以監(jiān)控主機100為例,如圖3所示,該方法包括如下步驟:
[0036]步驟301、生成故障定位規(guī)則;
[0037]其中,生成故障定位規(guī)則有兩種方式,這兩種方式可以結(jié)合使用,也可以單獨使用。
[0038]第一種:將歷史監(jiān)控數(shù)據(jù)導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以使所述自組織神經(jīng)網(wǎng)絡(luò)模型進(jìn)行自學(xué)習(xí),生成所述故障定位規(guī)則,例如:故障定位規(guī)則可以通過自組織神經(jīng)網(wǎng)絡(luò)模型生成,其中,自組織神經(jīng)網(wǎng)絡(luò)模型又稱為自組織特征映射(Self-OrganizationFeature Mapping, SOFM)模型,或kohonen模型,該模型可根據(jù)一定的訓(xùn)練樣本(即已知的輸入和輸出關(guān)系),改變模型內(nèi)部結(jié)構(gòu)使模型特性逼近訓(xùn)練樣本(即自學(xué)習(xí)、自組織和自適應(yīng)的概念),SOFM是一種無監(jiān)督的自學(xué)習(xí)、自組織人工神經(jīng)網(wǎng)絡(luò)。它利用腦神經(jīng)的空間結(jié)構(gòu)映射外部復(fù)雜數(shù)據(jù)結(jié)構(gòu)。Kohonen模型是用一個像大腦皮層那樣的二維平面網(wǎng)絡(luò)來表征輸入信息,通過學(xué)習(xí)算法,使相鄰近的節(jié)點表征出輸人的不同類別特性,稱之為特征映射。通過反復(fù)地將輸入圖樣和存儲在每一個節(jié)點上的矢量進(jìn)行比較,如輸入與節(jié)點矢量相匹配,則用該節(jié)點處的映射區(qū)域來優(yōu)先表征該類訓(xùn)練數(shù)據(jù)的特征。實際操作中將歷史一段時間的監(jiān)控數(shù)據(jù)以及歷史的故障記錄數(shù)據(jù)導(dǎo)入SOFM模型中,經(jīng)過自學(xué)習(xí),得到了針對該系統(tǒng)的SOFM模型,基于該SOFM模型即可確定故障定位規(guī)則;
[0039]第二種:將故障定位經(jīng)驗規(guī)則導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以生成所述故障定位規(guī)則。例如:將日常經(jīng)驗中總結(jié)的故障定位方法,總結(jié)為故障定位經(jīng)驗規(guī)則,將這些規(guī)則直接導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,省略了自學(xué)習(xí)過程。
[0040]步驟302、向服務(wù)器發(fā)送監(jiān)控請求報文;
[0041]步驟303、接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息;
[0042]步驟304、根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。
[0043]為了不斷提升故障定位規(guī)則的準(zhǔn)確性,步驟301的可以每隔一定時間操作一次,以更新故障定位規(guī)則。
[0044]通過本發(fā)明實施例中提供的另一種故障定位方法,通過生成故障定位規(guī)則,向服務(wù)器發(fā)送監(jiān)控請求報文,接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息,根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。實現(xiàn)了服務(wù)器故障的有效定位,使得系統(tǒng)維護人員可以迅速有效的定位系統(tǒng)故障,同時,通過采用自組織特征映射方法(SOFM)模型生成的故障定位規(guī)則,可自動地對監(jiān)控數(shù)據(jù)變化的進(jìn)行分析,可以判斷不同的系統(tǒng)運行狀態(tài),及時進(jìn)行故障定位,排除了安全隱患。
[0045]實施例三
[0046]本發(fā)明實施例三提供了一種故障定位裝置,如圖4所示,該裝置包括:
[0047]發(fā)送模塊410,用于向服務(wù)器發(fā)送監(jiān)控請求報文;
[0048]接收模塊420,用于接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息;
[0049]故障定位模塊430,用于根據(jù)故障定位規(guī)則,對所述接收模塊接收的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。
[0050]其中,所述裝置還包括:
[0051]定位規(guī)則生成模塊440,用于通過自組織神經(jīng)網(wǎng)絡(luò)模型生成所述故障定位規(guī)則。該定位規(guī)則生成模塊440具體用于將歷史監(jiān)控數(shù)據(jù)導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以使所述自組織神經(jīng)網(wǎng)絡(luò)模型進(jìn)行自學(xué)習(xí),生成所述故障定位規(guī)則;和/或,將故障定位經(jīng)驗規(guī)則導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以生成所述故障定位規(guī)則。
[0052]實施例四
[0053]本發(fā)明實施例四提供了一種故障定位系統(tǒng),如圖5所示,該系統(tǒng)包括:包括故障定位裝置510和服務(wù)器520,
[0054]其中,所述故障定位裝置510用于向服務(wù)器發(fā)送監(jiān)控請求報文;接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息;根據(jù)故障定位規(guī)貝1J,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位;
[0055]所述服務(wù)器520用于,接收來自所述故障定位裝置510的所述監(jiān)控請求報文;向所述故障定位裝置發(fā)送所述監(jiān)控數(shù)據(jù)報文。
[0056]其中,所述故障定位裝置510通過自組織神經(jīng)網(wǎng)絡(luò)模型生成所述故障定位規(guī)則。該故障定位裝置510通過自組織神經(jīng)網(wǎng)絡(luò)模型生成所述故障定位規(guī)則,包括:所述故障定位裝置將歷史監(jiān)控數(shù)據(jù)導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以使所述自組織神經(jīng)網(wǎng)絡(luò)模型進(jìn)行自學(xué)習(xí),以生成所述故障定位規(guī)則;和/或,所述故障定位裝置將故障定位經(jīng)驗規(guī)則導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以生成所述故障定位規(guī)則。
[0057]通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的硬件平臺的方式來實現(xiàn),當(dāng)然也可以全部通過硬件來實施,但很多情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案對【背景技術(shù)】做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。
[0058]以上對本發(fā)明進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種故障定位方法,其特征在于,包括: 向服務(wù)器發(fā)送監(jiān)控請求報文; 接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息; 根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過自組織神經(jīng)網(wǎng)絡(luò)模型生成所述故障定位規(guī)則。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過自組織神經(jīng)網(wǎng)絡(luò)模型生成所述故障定位規(guī)則,包括: 將歷史監(jiān)控數(shù)據(jù)導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以使所述自組織神經(jīng)網(wǎng)絡(luò)模型進(jìn)行自學(xué)習(xí),生成所述故障定位規(guī)則、; 和/或, 將故障定位經(jīng)驗規(guī)則導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以生成所述故障定位規(guī)則。
4.根據(jù)權(quán)利要求1至3中任意一項所述的方法,其特征在于,所述監(jiān)控請求報文中包括監(jiān)控參數(shù)信息,所述監(jiān)控參數(shù)信息用于指示需要監(jiān)控的參數(shù)。
5.一種故障定位裝置,其特征在于,包括: 發(fā)送模塊,用于向服務(wù)器發(fā)送監(jiān)控請求報文; 接收模塊,用于接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息; 故障定位模塊,用于根據(jù)故障定位規(guī)則,對所述接收模塊接收的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述裝置還包括: 定位規(guī)則生成模塊,用于通過自組織神經(jīng)網(wǎng)絡(luò)模型生成所述故障定位規(guī)則。
7.根據(jù)權(quán)利要求5或6所述的裝置,其特征在于,所述定位規(guī)則生成模塊具體用于將歷史監(jiān)控數(shù)據(jù)導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以使所述自組織神經(jīng)網(wǎng)絡(luò)模型進(jìn)行自學(xué)習(xí),生成所述故障定位規(guī)則;和/或,將故障定位經(jīng)驗規(guī)則導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以生成所述故障定位規(guī)則。
8.一種故障定位系統(tǒng),其特征在于,所述系統(tǒng)包括服務(wù)器和故障定位裝置, 其中,所述故障定位裝置用于向服務(wù)器發(fā)送監(jiān)控請求報文;接收所述服務(wù)器發(fā)送的監(jiān)控數(shù)據(jù)報文,所述監(jiān)控數(shù)據(jù)報文中包括所述服務(wù)器的運行信息;根據(jù)故障定位規(guī)則,對所述服務(wù)器的運行信息進(jìn)行分析,以對所述服務(wù)器進(jìn)行故障定位; 所述服務(wù)器用于,接收來自所述故障定位裝置的所述監(jiān)控請求報文;向所述故障定位裝置發(fā)送所述監(jiān)控數(shù)據(jù)報文。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述故障定位裝置通過自組織神經(jīng)網(wǎng)絡(luò)模型生成所述故障定位規(guī)則。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述故障定位裝置通過自組織神經(jīng)網(wǎng)絡(luò)模型生成所述故障定位規(guī)則,包括: 所述故障定位裝置將歷史監(jiān)控數(shù)據(jù)導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以使所述自組織神經(jīng)網(wǎng)絡(luò)模型進(jìn)行自學(xué)習(xí),以生成所述故障定位規(guī)則;和/或,所述故障定位裝置將故障定位經(jīng)驗規(guī)則導(dǎo)入所述自組織神經(jīng)網(wǎng)絡(luò)模型,以生成所述故障定位規(guī)則 。
【文檔編號】H04L12/24GK103580924SQ201310559348
【公開日】2014年2月12日 申請日期:2013年11月12日 優(yōu)先權(quán)日:2013年11月12日
【發(fā)明者】彭超, 陳志武, 薛宏春 申請人:武漢鋼鐵(集團)公司, 武漢鋼鐵工程技術(shù)集團自動化有限責(zé)任公司