(關(guān)于相關(guān)申請(qǐng)的記載)
本發(fā)明要求日本專利申請(qǐng):特愿2014-126807號(hào)(2014年6月20日申請(qǐng))的優(yōu)先權(quán),該申請(qǐng)的所有記載內(nèi)容將通過引用而被援引到本說明書中。
本發(fā)明涉及故障通知裝置、故障通知方法以及程序。特別是,涉及將具有顯示設(shè)備的裝置作為被監(jiān)控對(duì)象的故障通知裝置、故障通知方法以及程序。
背景技術(shù):
近年來,以計(jì)算機(jī)網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行各種業(yè)務(wù)和服務(wù),計(jì)算機(jī)網(wǎng)絡(luò)成為社會(huì)上重要的基礎(chǔ)設(shè)施。因此,對(duì)構(gòu)成計(jì)算機(jī)網(wǎng)絡(luò)的各種裝置(例如,服務(wù)器等)是否正常動(dòng)作進(jìn)行監(jiān)控的重要性增加。
在專利文獻(xiàn)1中公開了能夠遠(yuǎn)程掌握與確認(rèn)對(duì)象裝置之間的通信中斷的原因及其嚴(yán)重性的操作系統(tǒng)(OS;Operating System)動(dòng)作狀態(tài)確認(rèn)系統(tǒng)。
在專利文獻(xiàn)2中公開了在故障原因分析系統(tǒng)中檢測(cè)故障原因判定規(guī)則的變更并迅速地進(jìn)行修正的系統(tǒng)。
現(xiàn)有技術(shù)文獻(xiàn)
專利文獻(xiàn)
專利文獻(xiàn)1:日本特開2012-038257號(hào)公報(bào)
專利文獻(xiàn)2:日本特開2012-003713號(hào)公報(bào)
技術(shù)實(shí)現(xiàn)要素:
發(fā)明所要解決的課題
另外,將上述現(xiàn)有技術(shù)文獻(xiàn)的各公開內(nèi)容通過引用援引到本說明書中。以下的分析是由本申請(qǐng)發(fā)明人完成的。
如專利文獻(xiàn)1和專利文獻(xiàn)2所公開,為了通知在計(jì)算機(jī)系統(tǒng)中產(chǎn)生的故障的檢測(cè)和迅速地恢復(fù)故障,安裝有各種對(duì)策和功能。這種功能等有時(shí)在構(gòu)成系統(tǒng)的裝置之間協(xié)作而實(shí)現(xiàn),也有時(shí)通過計(jì)算機(jī)裝置單體實(shí)現(xiàn)。
例如,在計(jì)算機(jī)啟動(dòng)時(shí)BIOS(Basic Input Output System:基本輸入輸出系統(tǒng))啟動(dòng),通常進(jìn)行構(gòu)成計(jì)算機(jī)的設(shè)備的初始化和進(jìn)行狀態(tài)確認(rèn)的POST(Power On Self Test:開機(jī)自檢)。當(dāng)POST結(jié)束時(shí),OS啟動(dòng),作為OS具有的一個(gè)功能開始將在硬件等中產(chǎn)生的故障(錯(cuò)誤)作為事件進(jìn)行存儲(chǔ)的事件日志服務(wù)。通過將具有這種功能的計(jì)算機(jī)組裝到系統(tǒng),從而系統(tǒng)管理者能夠迅速地掌握在計(jì)算機(jī)中產(chǎn)生的故障,并采取其應(yīng)對(duì)措施。
但是,有時(shí)系統(tǒng)管理者很難確認(rèn)在計(jì)算機(jī)中產(chǎn)生的故障。例如,OS能夠存儲(chǔ)事件日志是在OS啟動(dòng)之后。因此,在OS啟動(dòng)之前,無法進(jìn)行事件日志的存儲(chǔ)。即,當(dāng)在POST結(jié)束之后且OS啟動(dòng)完成前(即,OS的啟動(dòng)中)在計(jì)算機(jī)中產(chǎn)生了某種故障時(shí),系統(tǒng)管理者無法獲取事件日志。
因此,關(guān)于在上述期間產(chǎn)生的故障,用于分析故障的信息少,系統(tǒng)管理者很難準(zhǔn)確地掌握成為被監(jiān)控對(duì)象的計(jì)算機(jī)的系統(tǒng)狀態(tài)。
本發(fā)明的目的在于提供一種故障通知裝置、故障通知方法以及程序,即使在OS的啟動(dòng)中產(chǎn)生了故障的情況下,也能夠有助于準(zhǔn)確地掌握被監(jiān)控對(duì)象裝置的狀態(tài)。
用于解決課題的手段
根據(jù)本發(fā)明的第一觀點(diǎn),提供一種故障通知裝置,具有:第一取得部,以被監(jiān)控對(duì)象裝置中的故障檢測(cè)為契機(jī),取得所述被監(jiān)控對(duì)象裝置顯示于顯示設(shè)備的畫面數(shù)據(jù);以及通知部,當(dāng)所述取得的畫面數(shù)據(jù)在規(guī)定的期間內(nèi)沒有變化時(shí),將從所述取得的畫面數(shù)據(jù)得到的信息通知給外部。
根據(jù)本發(fā)明的第二觀點(diǎn),提供一種故障通知方法,包括以下工序:以被監(jiān)控對(duì)象裝置中的故障檢測(cè)為契機(jī),取得所述被監(jiān)控對(duì)象裝置顯示于顯示設(shè)備的畫面數(shù)據(jù);以及在所述取得的畫面數(shù)據(jù)在規(guī)定的期間內(nèi)沒有變化時(shí),將從所述取得的畫面數(shù)據(jù)得到的信息通知給外部。
根據(jù)本發(fā)明的第三觀點(diǎn),提供一種程序,使對(duì)故障通知裝置進(jìn)行控制的計(jì)算機(jī)執(zhí)行以下處理:以被監(jiān)控對(duì)象裝置中的故障檢測(cè)為契機(jī),取得所述被監(jiān)控對(duì)象裝置顯示于顯示設(shè)備的畫面數(shù)據(jù);以及在所述取得的畫面數(shù)據(jù)在規(guī)定的期間內(nèi)沒有變化時(shí),將從所述取得的畫面數(shù)據(jù)得到的信息通知給外部。
另外,該程序能夠記錄在計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì)中。存儲(chǔ)介質(zhì)可以是半導(dǎo)體存儲(chǔ)器、硬盤、磁記錄介質(zhì)、光記錄介質(zhì)等非瞬態(tài)(non-transient)介質(zhì)。本發(fā)明還能夠作為計(jì)算機(jī)程序產(chǎn)品來具體實(shí)現(xiàn)。
發(fā)明效果
根據(jù)本發(fā)明的各觀點(diǎn),提供一種故障通知裝置、故障通知方法以及程序,即使當(dāng)在OS的啟動(dòng)中產(chǎn)生了故障的情況下,也能夠有助于準(zhǔn)確地掌握被監(jiān)控對(duì)象裝置的狀態(tài)。
附圖說明
圖1是用于說明一實(shí)施方式的概要的圖。
圖2是示出第一實(shí)施方式的故障通知系統(tǒng)的整體結(jié)構(gòu)的一例的圖。
圖3使示出用戶計(jì)算機(jī)的內(nèi)部結(jié)構(gòu)的一例的圖。
圖4是示出故障通知裝置的內(nèi)部結(jié)構(gòu)的一例的圖。
圖5是示出系統(tǒng)事件日志數(shù)據(jù)庫所存儲(chǔ)的信息的一例的圖。
圖6是示出錯(cuò)誤信息數(shù)據(jù)庫存儲(chǔ)的信息的一例的圖。
圖7是示出第一實(shí)施方式的故障通知系統(tǒng)的動(dòng)作的一例的時(shí)序圖。
具體實(shí)施方式
首先,使用圖1對(duì)一實(shí)施方式的概要進(jìn)行說明。另外,付記在該概要的附圖參照標(biāo)號(hào)是作為用于幫助理解的一例為了方便而付記在各要素上的,該概要的記載不意圖進(jìn)行任何的限定。
如上所述,期望如下的故障通知裝置:即使在OS的啟動(dòng)中產(chǎn)生了故障的情況下,也能夠準(zhǔn)確地把握被監(jiān)控對(duì)象裝置的狀態(tài)。
因此,作為一例提供圖1所示的故障通知裝置100。故障通知裝置100具備第一取得部101和通知部102。第一取得部101以被監(jiān)控對(duì)象裝置中的故障檢測(cè)為契機(jī),取得被監(jiān)控對(duì)象裝置顯示于顯示設(shè)備的畫面數(shù)據(jù)。在所取得的畫面數(shù)據(jù)在規(guī)定的期間內(nèi)沒有變化時(shí),通知部102將從所取得的畫面數(shù)據(jù)得到的信息通知給外部。
即使在被監(jiān)控對(duì)象裝置(例如,圖2所示的用戶計(jì)算機(jī)10)的OS啟動(dòng)中產(chǎn)生故障,被監(jiān)控對(duì)象裝置無法生成事件日志的狀況下,在液晶面板等顯示設(shè)備上也應(yīng)持續(xù)顯示某些消息?;蛘?,當(dāng)在OS啟動(dòng)中陷入無法動(dòng)作狀態(tài)(所謂的死機(jī)狀態(tài))時(shí),被監(jiān)控對(duì)象裝置的畫面顯示不應(yīng)被更新。故障通知裝置100以這種被監(jiān)控對(duì)象裝置中的畫面顯示的更新停止的情況為契機(jī),將從畫面數(shù)據(jù)得到的信息通知給外部(例如,圖2的監(jiān)控中心)。其結(jié)果是,例如,在監(jiān)控中心,能夠掌握在OS啟動(dòng)中陷入死機(jī)狀態(tài)的被監(jiān)控對(duì)象裝置的存在。
以下參照附圖進(jìn)一步詳細(xì)說明具體的實(shí)施方式。
[第一實(shí)施方式]
使用附圖更詳細(xì)地說明第一實(shí)施方式。
圖2是示出第一實(shí)施方式的故障通知系統(tǒng)的整體結(jié)構(gòu)的一例的圖。當(dāng)參照?qǐng)D2時(shí),故障通知系統(tǒng)構(gòu)成為包含用戶計(jì)算機(jī)10、故障通知裝置20及接收終端30。
用戶計(jì)算機(jī)10與故障通知裝置20通過由因特網(wǎng)、LAN(Local Area Network:局域網(wǎng))等構(gòu)成的網(wǎng)絡(luò)41連接。同樣,故障通知裝置20與接收終端30通過網(wǎng)絡(luò)42連接。
用戶計(jì)算機(jī)10是故障通知系統(tǒng)中的成為被監(jiān)控對(duì)象的裝置。用戶計(jì)算機(jī)10是服務(wù)器等的信息處理裝置。
故障通知裝置20是如下的裝置:對(duì)用戶計(jì)算機(jī)10的動(dòng)作狀況、故障產(chǎn)生狀況進(jìn)行監(jiān)控,以故障產(chǎn)生為契機(jī),將用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài)通知給監(jiān)控中心。另外,根據(jù)通過在用戶計(jì)算機(jī)10中產(chǎn)生的故障,需要基于系統(tǒng)管理者的應(yīng)對(duì)措施,因此故障通知裝置20根據(jù)需要將需要基于系統(tǒng)管理者的應(yīng)對(duì)措施的要旨通知給監(jiān)控中心。
接收終端30是設(shè)置在監(jiān)控中心內(nèi)且系統(tǒng)管理者等使用的終端。系統(tǒng)管理者根據(jù)通過接收終端30得到的用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài),采取適當(dāng)?shù)膽?yīng)對(duì)措施。例如,在從故障通知裝置20通知需要對(duì)在用戶計(jì)算機(jī)10中產(chǎn)生的故障采取何種應(yīng)對(duì)時(shí),進(jìn)行與所通知的用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài)對(duì)應(yīng)的應(yīng)對(duì)措施。
圖3是示出用戶計(jì)算機(jī)10的內(nèi)部結(jié)構(gòu)的一例的圖。當(dāng)參照?qǐng)D3時(shí),用戶計(jì)算機(jī)10構(gòu)成為包含控制部201、存儲(chǔ)部202、第一通信部203、顯示部204、BMC部205及第二通信部206。
控制部201、存儲(chǔ)部202、第一通信部203、顯示部204以及BMC部205分別通過總線彼此連接。另一方面,第二通信部206不與控制部201等連接而與BMC部205連接。即,第二通信部206是對(duì)BMC部205設(shè)置的專用的通信單元。
控制部201通過CPU(Central Processing Unit:中央處理器)等的處理器構(gòu)成,是對(duì)用戶計(jì)算機(jī)10的整體進(jìn)行控制的單元。控制部201通過CPU執(zhí)行存儲(chǔ)在存儲(chǔ)部202中的OS或與各種應(yīng)用有關(guān)的程序來實(shí)現(xiàn)。
存儲(chǔ)部202存儲(chǔ)OS等程序,并且存儲(chǔ)在控制部201的動(dòng)作中所需的信息。
第一通信部203是控制部201在與外部的通信中使用的單元。例如,在用戶計(jì)算機(jī)10接入到圖2中未圖示的服務(wù)器裝置等時(shí)使用第一通信部203。
顯示部204構(gòu)成為包含液晶面板等顯示設(shè)備和用于驅(qū)動(dòng)顯示設(shè)備的驅(qū)動(dòng)器。顯示部204是對(duì)用戶提供用戶計(jì)算機(jī)10進(jìn)行了信息處理的結(jié)果的單元。
BMC部205是包含獨(dú)立于控制部201而動(dòng)作的處理器的控制單元。BMC部205作為所謂BMC(Baseboard Management Controller:主板管理控制器)來動(dòng)作。BMC部205對(duì)作為構(gòu)成用戶計(jì)算機(jī)10的硬件的控制部201和顯示部204的狀態(tài)進(jìn)行管理。在控制部201由主處理器構(gòu)成時(shí),BMC部205由副處理器構(gòu)成。
BMC部205還具有將在用戶計(jì)算機(jī)10中產(chǎn)生的事件作為系統(tǒng)事件日志(SEL;System Event Log)存儲(chǔ)在存儲(chǔ)部202中的功能。更具體地講,在構(gòu)成用戶計(jì)算機(jī)10的硬件上產(chǎn)生了某種故障時(shí),BMC部205生成系統(tǒng)事件日志并儲(chǔ)存到存儲(chǔ)部202中。
在第一實(shí)施方式中,對(duì)作為BMC部205與控制部201等的接口規(guī)格使用IPMI(Intelligent Platform Management Interface:智能平臺(tái)管理接口)標(biāo)準(zhǔn)進(jìn)行了說明。但是,不意味著限定所使用的接口標(biāo)準(zhǔn),只要是能夠監(jiān)控用戶計(jì)算機(jī)10的硬件的標(biāo)準(zhǔn)則可以是任何標(biāo)準(zhǔn)。
BMC部205根據(jù)來自故障通知裝置20的請(qǐng)求,通過第二通信部206將與用戶計(jì)算機(jī)10有關(guān)的信息發(fā)送到故障通知裝置20。在BMC部205發(fā)送到故障通知裝置20的信息中至少包含畫面捕捉數(shù)據(jù)和系統(tǒng)事件日志。
更具體地講,BMC部205從顯示部204取得與畫面顯示有關(guān)的畫面數(shù)據(jù),將該畫面數(shù)據(jù)作為畫面捕捉數(shù)據(jù)發(fā)送到故障通知裝置20。另外,BMC部205讀出儲(chǔ)存在存儲(chǔ)部202中的系統(tǒng)事件日志并發(fā)送到故障通知裝置20。
圖4是示出故障通知裝置20的內(nèi)部結(jié)構(gòu)的一例的圖。當(dāng)參照?qǐng)D4時(shí),故障通知裝置20構(gòu)成為包含控制部301、存儲(chǔ)部302、通信部303、顯示部304。
控制部301、存儲(chǔ)部302、通信部303以及顯示部304分別通過總線彼此連接。
控制部301對(duì)故障通知裝置20的整體進(jìn)行控制??刂撇?01經(jīng)由通信部303與連接于網(wǎng)絡(luò)的用戶計(jì)算機(jī)10和接收終端30彼此通信??刂撇?01經(jīng)由顯示部304向系統(tǒng)管理者(或者操作員)提供所需的信息。
另外,控制部301具有如下功能:對(duì)用戶計(jì)算機(jī)10的動(dòng)作狀態(tài)進(jìn)行監(jiān)控,當(dāng)在用戶計(jì)算機(jī)10中產(chǎn)生了故障時(shí),將用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài)和基于系統(tǒng)管理者的應(yīng)對(duì)的有無發(fā)送到監(jiān)控中心的接收終端30。另外,控制部301還能夠通過計(jì)算機(jī)程序來實(shí)現(xiàn),該計(jì)算機(jī)程序使搭載在故障通知裝置20中的計(jì)算機(jī)使用其硬件執(zhí)行包含在之后詳細(xì)敘述的控制部301中的各部的處理。
存儲(chǔ)部302存儲(chǔ)控制部301的動(dòng)作中所需的信息等。另外,在存儲(chǔ)部302中構(gòu)筑有系統(tǒng)事件日志(SEL)數(shù)據(jù)庫401和錯(cuò)誤信息數(shù)據(jù)庫402的數(shù)據(jù)庫。而且,在存儲(chǔ)部302中還存在儲(chǔ)存數(shù)據(jù)的數(shù)據(jù)區(qū)域403。
控制部301構(gòu)成為包含動(dòng)作狀態(tài)監(jiān)控部501、畫面捕捉數(shù)據(jù)取得部502、系統(tǒng)事件日志取得部503、錯(cuò)誤信息取得管理部504及錯(cuò)誤信息通知部505。
動(dòng)作狀態(tài)監(jiān)控部501與用戶計(jì)算機(jī)10之間定期地進(jìn)行與平(PING)命令有關(guān)的包等的通信,對(duì)用戶計(jì)算機(jī)10是否正常動(dòng)作進(jìn)行監(jiān)控。
在用戶計(jì)算機(jī)10的動(dòng)作確認(rèn)的結(jié)果是判斷為用戶計(jì)算機(jī)10沒有正常動(dòng)作時(shí),畫面捕捉數(shù)據(jù)取得部502取得用戶計(jì)算機(jī)10的畫面捕捉數(shù)據(jù)。具體地講,畫面捕捉數(shù)據(jù)取得部502接入到用戶計(jì)算機(jī)10的BMC部205并取得畫面捕捉數(shù)據(jù)。
在用戶計(jì)算機(jī)10的動(dòng)作確認(rèn)的結(jié)果是判斷為用戶計(jì)算機(jī)10沒有正常動(dòng)作時(shí),系統(tǒng)事件日志取得部503取得用戶計(jì)算機(jī)10的系統(tǒng)事件日志。具體地講,系統(tǒng)事件日志取得部503接入到用戶計(jì)算機(jī)10的BMC部205并經(jīng)由BMC部205取得系統(tǒng)事件日志。
錯(cuò)誤信息取得管理部504根據(jù)通過畫面捕捉數(shù)據(jù)取得部502取得的畫面捕捉數(shù)據(jù)和通過系統(tǒng)事件日志取得部503取得的系統(tǒng)事件日志,確定是繼續(xù)這些錯(cuò)誤信息的取得還是停止這些錯(cuò)誤信息的取得。即,錯(cuò)誤信息取得管理部504根據(jù)所取得的畫面捕捉數(shù)據(jù)和系統(tǒng)事件日志,對(duì)畫面捕捉數(shù)據(jù)取得部502和系統(tǒng)事件日志取得部503的數(shù)據(jù)取得動(dòng)作進(jìn)行管理。
錯(cuò)誤信息取得管理部504根據(jù)所取得的系統(tǒng)事件日志和儲(chǔ)存在系統(tǒng)事件日志數(shù)據(jù)庫401中的信息,判定是繼續(xù)錯(cuò)誤信息的取得還是停止錯(cuò)誤信息的取得。而且,錯(cuò)誤信息取得管理部504根據(jù)所取得的畫面捕捉數(shù)據(jù)是否在規(guī)定的期間內(nèi)被更新,判斷是繼續(xù)錯(cuò)誤信息的取得還是停止錯(cuò)誤信息的取得。
當(dāng)在用戶計(jì)算機(jī)10中產(chǎn)生了故障時(shí),錯(cuò)誤信息通知部505將表示用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài)的信息、表示是否需要基于系統(tǒng)管理者的應(yīng)對(duì)的信息通知給監(jiān)控中心。具體地講,作為表示用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài)的信息,錯(cuò)誤信息通知部505將所取得的畫面捕捉數(shù)據(jù)和系統(tǒng)事件日志發(fā)送給接收終端30。
在系統(tǒng)事件日志數(shù)據(jù)庫401中,對(duì)于系統(tǒng)事件日志的所取得的每個(gè)數(shù)據(jù)值,預(yù)先登記是否繼續(xù)錯(cuò)誤信息的取得、以及是否需要基于系統(tǒng)管理者的應(yīng)對(duì)。
圖5是示出系統(tǒng)事件日志數(shù)據(jù)庫401存儲(chǔ)的信息的一例的圖。當(dāng)參照?qǐng)D5時(shí),對(duì)于系統(tǒng)事件日志的所取得的每個(gè)值,存儲(chǔ)有繼續(xù)錯(cuò)誤信息的取得還是停止錯(cuò)誤信息的取得、以及是否需要基于系統(tǒng)管理者的應(yīng)對(duì)。另外,與圖5所示的“傳感器類型”等一起記載的帶括弧的字節(jié)數(shù),是從IPMI規(guī)格的“SEL記錄格式”得到的從頭部開始的字節(jié)數(shù)。例如,“傳感器類型”能夠通過參照系統(tǒng)事件日志的第11字節(jié)來得到。
在錯(cuò)誤信息數(shù)據(jù)庫402中,對(duì)于錯(cuò)誤產(chǎn)生時(shí)的每個(gè)報(bào)文,存儲(chǔ)有與是否繼續(xù)錯(cuò)誤信息的取得、以及是否需要基于系統(tǒng)管理者的某種應(yīng)對(duì)有關(guān)的信息。具體地講,在故障產(chǎn)生時(shí)將預(yù)想要顯示在用戶計(jì)算機(jī)10的畫面上的錯(cuò)誤報(bào)文作為字符串預(yù)先登記在錯(cuò)誤信息數(shù)據(jù)庫402中。
圖6是示出錯(cuò)誤信息數(shù)據(jù)庫402存儲(chǔ)的信息的一例的圖。當(dāng)參照?qǐng)D6時(shí),對(duì)于每個(gè)錯(cuò)誤報(bào)文存儲(chǔ)有與是否繼續(xù)錯(cuò)誤信息的取得、以及是否需要通過系統(tǒng)管理者進(jìn)行某種應(yīng)對(duì)有關(guān)的信息。
接著,對(duì)第一實(shí)施方式的故障通知系統(tǒng)的動(dòng)作進(jìn)行說明。
圖7是示出第一實(shí)施方式的故障通知系統(tǒng)的動(dòng)作的一例的時(shí)序圖。
在步驟S101中,故障通知裝置20進(jìn)行用戶計(jì)算機(jī)10的動(dòng)作狀態(tài)的監(jiān)控。具體地講,動(dòng)作狀態(tài)監(jiān)控部501向用戶計(jì)算機(jī)10發(fā)送基于PING命令的“Echo Request(響應(yīng)請(qǐng)求)”包,對(duì)用戶計(jì)算機(jī)10的死機(jī)與否進(jìn)行確認(rèn)。
如果用戶計(jì)算機(jī)10正常動(dòng)作,則用戶計(jì)算機(jī)10響應(yīng)發(fā)送“Echo Reply(響應(yīng)應(yīng)答)”包(步驟S201)。
故障通知裝置20確認(rèn)來自用戶計(jì)算機(jī)10的響應(yīng)發(fā)送的接收有無(步驟S102),如果接收了響應(yīng)發(fā)送則重復(fù)進(jìn)行步驟S101的包發(fā)送處理。即,如果在用戶計(jì)算機(jī)10中沒有產(chǎn)生故障,則故障通知裝置20和用戶計(jì)算機(jī)10重復(fù)進(jìn)行步驟S101、S102以及S201的動(dòng)作。
接著,考慮在用戶計(jì)算機(jī)10中產(chǎn)生了故障的情況。
此時(shí),用戶計(jì)算機(jī)10無法對(duì)來自故障通知裝置20的“Echo Request”包進(jìn)行響應(yīng)發(fā)送(步驟S102,否分支)。因此,故障通知裝置20執(zhí)行步驟S103之后的處理。動(dòng)作狀態(tài)監(jiān)控部501存儲(chǔ)確定了對(duì)于PING命令無法從用戶計(jì)算機(jī)10確認(rèn)響應(yīng)發(fā)送的時(shí)刻(基于PING命令的死機(jī)與否監(jiān)控中斷的時(shí)刻)下的時(shí)間戳。
另外,雖然在圖7所示的時(shí)序圖中未圖示,但是故障通知裝置20是在步驟S102之后恢復(fù)在用戶計(jì)算機(jī)10中產(chǎn)生的故障時(shí)所具備的、發(fā)送與“Echo Request”有關(guān)的包的裝置。
在步驟S103中,故障通知裝置20通過用戶計(jì)算機(jī)10的第二通信部206接入到BMC部205。
之后,在步驟S104中,故障通知裝置20開始從用戶計(jì)算機(jī)10取得錯(cuò)誤信息。具體地講,畫面捕捉數(shù)據(jù)取得部502開始用戶計(jì)算機(jī)10的畫面捕捉數(shù)據(jù)的取得。同樣,系統(tǒng)事件日志取得部503開始系統(tǒng)事件日志的取得。
所取得的畫面捕捉數(shù)據(jù)和系統(tǒng)事件日志被儲(chǔ)存在存儲(chǔ)部302的數(shù)據(jù)區(qū)域403中。
之后,錯(cuò)誤信息取得管理部504將所取得的(儲(chǔ)存在數(shù)據(jù)區(qū)域403中的)系統(tǒng)事件日志與存儲(chǔ)在系統(tǒng)事件日志數(shù)據(jù)庫401中的信息進(jìn)行對(duì)照確認(rèn)(步驟S105)。具體地講,錯(cuò)誤信息取得管理部504判定所取得的系統(tǒng)事件日志的一部分是否與預(yù)先登記在系統(tǒng)事件日志數(shù)據(jù)庫401中的表示錯(cuò)誤信息取得的停止的值一致。
在判定的結(jié)果是所取得的系統(tǒng)事件日志為指示錯(cuò)誤信息取得的停止的日志時(shí)(步驟S105,是分支),轉(zhuǎn)移到步驟S110。
另一方面,如果判定的結(jié)果是所取得的系統(tǒng)事件日志不是指示錯(cuò)誤信息取得的停止的日志(步驟S105,否分支),則執(zhí)行步驟S106之后的處理。
在步驟S106中,動(dòng)作狀態(tài)監(jiān)控部501從用戶計(jì)算機(jī)10確認(rèn)響應(yīng)發(fā)送的接收有無(步驟S106)。在接收到響應(yīng)發(fā)送時(shí)(步驟S106,是分支),轉(zhuǎn)移到步驟S110。在沒有接收到響應(yīng)發(fā)送時(shí)(步驟S106,否分支),動(dòng)作狀態(tài)監(jiān)控部501執(zhí)行步驟S107之后的處理。
在步驟S107中,錯(cuò)誤信息取得管理部504通過確認(rèn)畫面捕捉數(shù)據(jù)的更新有無,判定是否存在用戶計(jì)算機(jī)10的畫面變化。即,從故障通知裝置20監(jiān)控用戶計(jì)算機(jī)10上的畫面顯示的變化。
在用戶計(jì)算機(jī)10中確認(rèn)到畫面變化的期間(步驟S107,是分支),重復(fù)進(jìn)行從步驟S106開始的處理。
另一方面,在經(jīng)過規(guī)定的時(shí)間(例如,一分鐘等)無法確認(rèn)畫面變化時(shí)(步驟S107,否分支),執(zhí)行步驟S108之后的處理。另外,當(dāng)在由畫面捕捉數(shù)據(jù)構(gòu)成的畫面中無法確認(rèn)字符串的狀態(tài)持續(xù)時(shí),也判斷為在用戶計(jì)算機(jī)10中無法確認(rèn)畫面變化。另外,在畫面變化的確認(rèn)的有無中能夠利用與畫面監(jiān)控有關(guān)的應(yīng)用程序。
在步驟S108中,錯(cuò)誤信息通知部505從畫面捕捉數(shù)據(jù)提取錯(cuò)誤報(bào)文。具體地講,錯(cuò)誤信息通知部505利用與字符識(shí)別有關(guān)的應(yīng)用程序等,提取包含在畫面捕捉數(shù)據(jù)中的報(bào)文(字符串)。另外,錯(cuò)誤信息通知部505還提取存儲(chǔ)在數(shù)據(jù)區(qū)域403中的用戶計(jì)算機(jī)10的系統(tǒng)事件日志。另外,將錯(cuò)誤信息通知部505提取錯(cuò)誤信息的期間設(shè)為從基于PING命令的死機(jī)與否監(jiān)控中斷的時(shí)刻到本步驟為止的期間。
在步驟S109中,錯(cuò)誤信息通知部505將所提取的報(bào)文與存儲(chǔ)在錯(cuò)誤信息數(shù)據(jù)庫402中的信息進(jìn)行對(duì)照。錯(cuò)誤信息通知部505通過這種對(duì)照處理而生成通知給監(jiān)控中心的信息(與用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài)有關(guān)的信息)。具體地講,如果與所提取的錯(cuò)誤報(bào)文一致的報(bào)文被登記到錯(cuò)誤信息數(shù)據(jù)庫402中,則錯(cuò)誤信息通知部505使該登記的信息(字符串和是否需要應(yīng)對(duì))成為通知給監(jiān)控中心的信息。另一方面,在用戶計(jì)算機(jī)10的畫面在規(guī)定的時(shí)間內(nèi)沒有變化,沒有顯示在錯(cuò)誤信息數(shù)據(jù)庫402中也沒有登記的錯(cuò)誤報(bào)文,或者錯(cuò)誤報(bào)文自身沒有顯示時(shí),認(rèn)為用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài)為死機(jī),因此錯(cuò)誤信息通知部505使該要旨成為通知給監(jiān)控中心的信息。
在步驟S110中,錯(cuò)誤信息取得管理部504對(duì)畫面捕捉數(shù)據(jù)取得部502和系統(tǒng)事件日志取得部503指示停止各自的數(shù)據(jù)取得動(dòng)作。
在步驟S111中,錯(cuò)誤信息通知部505將表示用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài)的信息、是否需要基于系統(tǒng)管理者的應(yīng)對(duì)的信息發(fā)送到監(jiān)控中心的接收終端30。
具體地講,在所取得的系統(tǒng)事件日志存儲(chǔ)在系統(tǒng)事件日志數(shù)據(jù)庫401中且為表示日志取得的停止的日志時(shí),將該所取得的系統(tǒng)事件日志和畫面捕捉數(shù)據(jù)作為用戶計(jì)算機(jī)10的系統(tǒng)狀態(tài)進(jìn)行通知。
另外,即使當(dāng)在用戶計(jì)算機(jī)10中產(chǎn)生了故障時(shí),有時(shí)也存在用戶計(jì)算機(jī)10恢復(fù)到正常(步驟S202),進(jìn)行“Echo Reply”包的響應(yīng)發(fā)送的情況(步驟S203)。如上所述在用戶計(jì)算機(jī)10的動(dòng)作狀態(tài)恢復(fù)的情況下,錯(cuò)誤信息通知部505判斷為用戶計(jì)算機(jī)10的OS啟動(dòng),停止畫面的捕捉,將所取得的畫面捕捉數(shù)據(jù)和系統(tǒng)事件日志發(fā)送到監(jiān)控中心。
而且,當(dāng)用戶計(jì)算機(jī)10的畫面顯示在規(guī)定的期間內(nèi)停止時(shí),錯(cuò)誤信息通知部505將從畫面捕捉數(shù)據(jù)提取的錯(cuò)誤報(bào)文、登記在錯(cuò)誤信息數(shù)據(jù)庫402中的信息、表示用戶計(jì)算機(jī)10處于死機(jī)狀態(tài)的信息中的任意一個(gè)和系統(tǒng)事件日志作為系統(tǒng)狀態(tài)發(fā)送到監(jiān)控中心。
監(jiān)控中心的接收終端30接收這些信息(步驟S301)。
如上所述,在通過系統(tǒng)事件日志數(shù)據(jù)庫401確認(rèn)出了在步驟S105中取得的系統(tǒng)事件日志的應(yīng)對(duì)方法時(shí),故障通知裝置20判斷為產(chǎn)生了已知的故障。此時(shí),故障通知裝置20停止系統(tǒng)事件日志和畫面捕捉數(shù)據(jù)的取得,將所取得的這些數(shù)據(jù)發(fā)送到監(jiān)控中心。
另一方面,在系統(tǒng)事件日志與系統(tǒng)事件日志數(shù)據(jù)庫401的信息的對(duì)照的結(jié)果是判斷為沒有應(yīng)對(duì)方法的未知的問題時(shí),進(jìn)行從畫面捕捉數(shù)據(jù)得到的錯(cuò)誤報(bào)文與錯(cuò)誤信息數(shù)據(jù)庫402的信息的對(duì)照。此時(shí),在用戶計(jì)算機(jī)10的畫面顯示沒有在一定期間更新時(shí),故障通知裝置20考慮用戶計(jì)算機(jī)10處于死機(jī)狀態(tài)的可能性,將其要旨和所取得的系統(tǒng)事件日志發(fā)送到監(jiān)控中心。
另外,第一實(shí)施方式的故障通知裝置20等為例示且能夠進(jìn)行各種變形。例如,在第一實(shí)施方式中對(duì)故障通知裝置20取得用戶計(jì)算機(jī)10的BMC部205生成的系統(tǒng)事件日志的方式進(jìn)行了說明。但是,不意味著限定故障通知裝置20取得的日志的種類。例如,用戶計(jì)算機(jī)10所包含的控制部201,即使在OS的啟動(dòng)前也采取與在構(gòu)成用戶計(jì)算機(jī)10的硬件中產(chǎn)生的故障有關(guān)的日志,如果能夠儲(chǔ)存到存儲(chǔ)部202,則故障通知裝置20也可以將這種日志也作為取得的對(duì)象。
如上所述,第一實(shí)施方式的故障通知裝置20使用PING命令等監(jiān)控用戶計(jì)算機(jī)10的死機(jī)與否。此時(shí),在判斷為用戶計(jì)算機(jī)10的動(dòng)作停止時(shí),接入到用戶計(jì)算機(jī)10內(nèi)的BMC部205,取得作為硬件信息的系統(tǒng)事件日志和畫面捕捉數(shù)據(jù)。
而且,在判斷為用戶計(jì)算機(jī)10的畫面在規(guī)定的期間內(nèi)沒有變化時(shí),故障通知裝置20從畫面捕捉數(shù)據(jù)提取錯(cuò)誤報(bào)文,將用戶計(jì)算機(jī)10的故障產(chǎn)生通知給監(jiān)控中心。或者,故障通知裝置20將用戶計(jì)算機(jī)10死機(jī)的可能性通知給監(jiān)控中心。
其結(jié)果是,即使在用戶計(jì)算機(jī)10中產(chǎn)生故障,在OS的啟動(dòng)中途死機(jī)的情況下,第一實(shí)施方式的故障通知裝置20也能夠?qū)⑴c系統(tǒng)狀態(tài)有關(guān)的適當(dāng)?shù)男畔⑻峁┙o系統(tǒng)管理者。另外,由于在經(jīng)過規(guī)定的期間之后沒有進(jìn)行畫面捕捉數(shù)據(jù)和系統(tǒng)事件日志的取得,因此能夠取得適當(dāng)?shù)钠陂g的錯(cuò)誤信息(畫面捕捉數(shù)據(jù)、系統(tǒng)事件日志)。另外,將來自畫面捕捉數(shù)據(jù)的錯(cuò)誤報(bào)文和系統(tǒng)事件日志與對(duì)應(yīng)的數(shù)據(jù)庫的信息進(jìn)行對(duì)照,從而能夠適當(dāng)?shù)嘏袛嘤脩粲?jì)算機(jī)10的系統(tǒng)狀態(tài)。其結(jié)果是,能夠提高故障分析的精度。
關(guān)于上述的實(shí)施方式的一部分或全部,還能夠如以下的付記記載,但是不限定于以下。
[付記1]
一種故障通知裝置,具有:
第一取得部,以被監(jiān)控對(duì)象裝置中的故障檢測(cè)為契機(jī),取得所述被監(jiān)控對(duì)象裝置顯示于顯示設(shè)備的畫面數(shù)據(jù);以及
通知部,當(dāng)所述取得的畫面數(shù)據(jù)在規(guī)定的期間內(nèi)沒有變化時(shí),將從所述取得的畫面數(shù)據(jù)得到的信息通知給外部。
[付記2]
根據(jù)付記1所述的故障通知裝置,其中,
還具有第二取得部,該第二取得部以所述被監(jiān)控對(duì)象裝置中的故障檢測(cè)為契機(jī),取得所述被監(jiān)控對(duì)象裝置生成的日志,
所述通知部將所述取得的日志通知給外部。
[付記3]
根據(jù)付記2所述的故障通知裝置,其中,
還具有管理部,該管理部根據(jù)所述取得的畫面數(shù)據(jù)和日志,對(duì)所述第一取得部和所述第二取得部的數(shù)據(jù)取得動(dòng)作進(jìn)行管理。
[付記4]
根據(jù)付記3所述的故障通知裝置,其中,
在所述取得的畫面數(shù)據(jù)在規(guī)定的期間內(nèi)沒有變化時(shí),所述管理部停止所述第一取得部和所述第二取得部的數(shù)據(jù)取得動(dòng)作。
[付記5]
根據(jù)付記1至4中的任意一項(xiàng)所述的故障通知裝置,其中,
在所述取得的畫面數(shù)據(jù)在規(guī)定的期間內(nèi)沒有變化時(shí),所述通知部將從所述取得的畫面數(shù)據(jù)提取的字符串通知給外部。
[付記6]
根據(jù)付記3至5中的任意一項(xiàng)所述的故障通知裝置,其中,
在所述取得的日志的一部分與預(yù)先確定的值一致時(shí),所述管理部停止所述第二取得部的數(shù)據(jù)取得動(dòng)作。
[付記7]
根據(jù)付記2至6中的任意一項(xiàng)所述的故障通知裝置,其中,
所述第一取得部從副處理器取得所述畫面數(shù)據(jù),所述副處理器為包含于所述被監(jiān)控對(duì)象裝置中的處理器,且獨(dú)立于使操作系統(tǒng)動(dòng)作的主處理器而動(dòng)作,
所述第二取得部從所述副處理器取得所述日志。
[付記8]
還具有監(jiān)控部,該監(jiān)控部對(duì)所述被監(jiān)控對(duì)象裝置發(fā)送規(guī)定的包,并根據(jù)有無來自所述被監(jiān)控對(duì)象裝置的響應(yīng)來監(jiān)控所述被監(jiān)控對(duì)象裝置的動(dòng)作狀態(tài)。
[付記9]
一種故障通知方法,包括以下工序:
以被監(jiān)控對(duì)象裝置中的故障檢測(cè)為契機(jī),取得所述被監(jiān)控對(duì)象裝置顯示于顯示設(shè)備的畫面數(shù)據(jù);以及
在所述取得的畫面數(shù)據(jù)在規(guī)定的期間內(nèi)沒有變化時(shí),將從所述取得的畫面數(shù)據(jù)得到的信息通知給外部。
[付記10]
一種程序,使對(duì)故障通知裝置進(jìn)行控制的計(jì)算機(jī)執(zhí)行以下處理:
以被監(jiān)控對(duì)象裝置中的故障檢測(cè)為契機(jī),取得所述被監(jiān)控對(duì)象裝置顯示于顯示設(shè)備的畫面數(shù)據(jù);以及
在所述取得的畫面數(shù)據(jù)在規(guī)定的期間內(nèi)沒有變化時(shí),將從所述取得的畫面數(shù)據(jù)得到的信息通知給外部。
另外,付記9和付記10的方式與付記1的方式相同,能夠在付記2~付記8的方式上進(jìn)行展開。
另外,將所引用的上述的專利文獻(xiàn)等的各公開援引到本說明書中。在本發(fā)明的所有公開(包含權(quán)利要求書)的框架內(nèi),能夠進(jìn)一步根據(jù)其基本的技術(shù)思想,進(jìn)行實(shí)施方式或?qū)嵤├淖兏ふ{(diào)整。另外,能夠在本發(fā)明的所有公開的框架內(nèi)進(jìn)行各種公開要素(包含各權(quán)利要求的各要素、各實(shí)施方式或?qū)嵤├母饕亍⒏鞲綀D的各要素等)的多種組合或選擇。即,本發(fā)明當(dāng)然包含包括權(quán)利要求書在內(nèi)的所有公開、本領(lǐng)域技術(shù)人員能夠根據(jù)技術(shù)思想得到的各種變形、修正。特別是,關(guān)于記載于本說明書的數(shù)值范圍,包含在該范圍內(nèi)的任意的數(shù)值或小范圍在沒有特別的記載時(shí)也應(yīng)解釋為被具體地記載。
標(biāo)號(hào)說明
10 用戶計(jì)算機(jī)
20、100 故障通知裝置
30 接收終端
41、42 網(wǎng)絡(luò)
101 第一取得部
102 通知部
201、301 控制部
202、302 存儲(chǔ)部
203 第一通信部
204、304 顯示部
205 BMC(Baseboard Management Controller:主板管理控制器)部
206 第二通信部
303 通信部
401 系統(tǒng)事件日志(SEL;System Event Log)數(shù)據(jù)庫
402 錯(cuò)誤信息數(shù)據(jù)庫
403 數(shù)據(jù)區(qū)域
501 動(dòng)作狀態(tài)監(jiān)控部
502 畫面捕捉數(shù)據(jù)取得部
503 系統(tǒng)事件日志取得部
504 錯(cuò)誤信息取得管理部
505 錯(cuò)誤信息通知部。