管理計算機系統(tǒng)的管理系統(tǒng)及其管理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及管理計算機系統(tǒng)的管理系統(tǒng)及其管理方法。
【背景技術(shù)】
[0002]專利文獻I公開了如下的技術(shù):通過選擇成為性能降低的原因的原因事件和由原因事件引起的關(guān)聯(lián)事件組,來確定故障原因。具體來說,解析引擎將事先規(guī)定的由條件語句和解析結(jié)果構(gòu)成的解析規(guī)則應(yīng)用于管理下的機器中的性能值超過閾值的事件,來選擇事件,其中,解析引擎用于對在管理下的機器中發(fā)生的多個故障事件的因果關(guān)系進行解析。
[0003]專利文獻2示出了在發(fā)生故障時由用于確定故障的日志(log)進行的原因診斷、和利用了診斷結(jié)果的用于調(diào)用恢復(fù)模塊的過程。
[0004]現(xiàn)有技術(shù)文獻
[0005]專利文獻
[0006]專利文獻1:日本特開2010-86115號公報
[0007]專利文獻2:美國專利申請公開第2004/0225381號說明書
【發(fā)明內(nèi)容】
[0008]在應(yīng)對根據(jù)專利文獻I公開的技術(shù)而確定的故障的情況下,存在如下的問題:不知道具體要如何進行故障恢復(fù),從發(fā)生故障到進行故障恢復(fù)要花費成本。專利文獻2的技術(shù)在獲取用于確定故障原因的日志診斷方法與利用了診斷結(jié)果的恢復(fù)模塊的調(diào)用方法之間的映射的基礎(chǔ)上,在確定故障原因時能夠迅速執(zhí)行恢復(fù),從而具有能夠解決該問題的可能性。
[0009]然而,在計算機系統(tǒng)中,通常多個服務(wù)器計算機、存儲裝置經(jīng)由網(wǎng)絡(luò)連接。就這種結(jié)構(gòu)而言,某個裝置的處理可能會影響其他裝置,在此的處理不限于恢復(fù)處理。因此,需要在自動執(zhí)行處理之前暫且停止系統(tǒng),在運行管理者確認了處理的內(nèi)容之后再執(zhí)行。
[0010]本發(fā)明的一個方案為管理系統(tǒng),該管理系統(tǒng)管理包括多個監(jiān)視對象裝置的計算機系統(tǒng),其包括存儲器和處理器。所述存儲器保持:所述計算機系統(tǒng)的結(jié)構(gòu)信息;解析規(guī)則,其對在所述計算機系統(tǒng)中可能發(fā)生的原因事件與受到該原因事件的影響而可能發(fā)生的派生事件建立關(guān)聯(lián),并利用所述計算機系統(tǒng)的組件的種類來定義所述原因事件和所述派生事件;和方案執(zhí)行影響規(guī)則,其示出受到所述計算機系統(tǒng)中的結(jié)構(gòu)變更的影響的組件種類及內(nèi)容。所述處理器利用所述方案執(zhí)行影響規(guī)則及所述結(jié)構(gòu)信息來確定在執(zhí)行第一方案的情況下可能發(fā)生的第一事件,所述第一方案是指變更所述計算機系統(tǒng)的結(jié)構(gòu)的方案,并利用所述解析規(guī)則及所述結(jié)構(gòu)信息,來確定所述第一事件的影響波及的范圍。
[0011]發(fā)明效果
[0012]根據(jù)本發(fā)明的一個方案,能夠考慮由計算機系統(tǒng)的結(jié)構(gòu)變更帶來的影響而更恰當?shù)毓芾碛嬎銠C系統(tǒng)。
【附圖說明】
[0013]圖1是表示第一實施方式的計算機系統(tǒng)的概念圖。
[0014]圖2是表示計算機系統(tǒng)的物理結(jié)構(gòu)例的圖。
[0015]圖3是表不第一實施方式中說明的狀況的概念圖。
[0016]圖4是表示在第一實施方式中,管理服務(wù)器計算機所具有的裝置性能管理表的結(jié)構(gòu)例的圖。
[0017]圖5是表示在第一實施方式中,管理服務(wù)器計算機所具有的文件拓撲管理表的結(jié)構(gòu)例的圖。
[0018]圖6是表示在第一實施方式中,管理服務(wù)器計算機所具有的網(wǎng)絡(luò)拓撲管理表的結(jié)構(gòu)例的圖。
[0019]圖7是表示在第一實施方式中,管理服務(wù)器計算機所具有的VM(虛擬機)結(jié)構(gòu)管理表的結(jié)構(gòu)例的圖。
[0020]圖8是表示在第一實施方式中,管理服務(wù)器計算機所具有的事件管理表的結(jié)構(gòu)例的圖。
[0021]圖9A是表示在第一實施方式中,管理服務(wù)器計算機所具有的解析規(guī)則的結(jié)構(gòu)例的圖。
[0022]圖9B是表示在第一實施方式中,管理服務(wù)器計算機所具有的解析規(guī)則的結(jié)構(gòu)例的圖。
[0023]圖10是表示在第一實施方式中,管理服務(wù)器計算機所具有的解析結(jié)果管理表的結(jié)構(gòu)例的圖。
[0024]圖11是表示在第一實施方式中,管理服務(wù)器計算機所具有的通用方案的結(jié)構(gòu)例的圖。
[0025]圖12是表示在第一實施方式中,管理服務(wù)器計算機所具有的展開方案的結(jié)構(gòu)例的圖。
[0026]圖13是表示在第一實施方式中,管理服務(wù)器計算機所具有的規(guī)則/方案對應(yīng)管理表的結(jié)構(gòu)例的圖。
[0027]圖14是表示在第一實施方式中,管理服務(wù)器計算機所具有的方案執(zhí)行影響規(guī)則的結(jié)構(gòu)例的圖。
[0028]圖15是用于說明在第一實施方式中,管理服務(wù)器計算機所執(zhí)行的從性能信息獲取處理到故障原因解析、方案展開處理、方案執(zhí)行影響解析處理的流程的流程圖。
[0029]圖16是用于說明在第一實施方式中,管理服務(wù)器計算機所執(zhí)行的方案展開處理的流程圖。
[0030]圖17是用于說明在第一實施方式中,管理服務(wù)器計算機所執(zhí)行的方案執(zhí)行影響特定處理的流程圖。
[0031]圖18是表不在第一實施方式中,向管理者提不的對策方案一覽圖像的一個例子的圖。
[0032]圖19是表示在第二實施方式中,管理服務(wù)器計算機所具有的方案執(zhí)行記錄管理表的結(jié)構(gòu)例的圖。
[0033]圖20是用于說明在第二實施方式中,管理服務(wù)器計算機所執(zhí)行的針對其他方案的方案執(zhí)行影響特定處理的流程圖。
[0034]圖21是表示在第二實施方式中,向管理者提示的對策方案一覽圖像的一個例子的圖。
【具體實施方式】
[0035]以下,根據(jù)附圖,詳細說明實施方式。此外,本發(fā)明不限于在以下說明的例子。此夕卜,在以下的說明中,以“aaa表”、“aaa目錄”等表現(xiàn)形式來說明本實施方式的信息,但這些信息也可以用表、目錄等數(shù)據(jù)結(jié)構(gòu)以外的形式來表現(xiàn)。
[0036]為了表示不依存于數(shù)據(jù)結(jié)構(gòu),有時將“aaa表”、“aaa目錄”等稱為“aaa信息”。而且,在說明各信息的內(nèi)容時,利用“標識符”、“名”、“ID”等表現(xiàn)形式,對此能夠互相置換。
[0037]在以下的說明中,存在將“程序”作為主語來進行說明的情況,但程序是通過由處理器執(zhí)行而利用存儲器及通信端口(通信控制設(shè)備)進行規(guī)定的處理,因此,也可以將處理器作為主語進行說明。
[0038]可以將以程序為主語公開的處理看作是由管理服務(wù)器計算機等計算機、信息處理裝置進行的處理。程序的一部分或全部可以由專用硬件來實現(xiàn)。各種程序可以通過程序分發(fā)服務(wù)器、計算機可讀的存儲介質(zhì)而安裝在各計算機中。
[0039]以下,有時將管理信息處理系統(tǒng)且顯示本申請發(fā)明的顯示用信息的一個以上的計算機的集合稱為管理系統(tǒng)。在管理計算機對顯示用信息進行顯示的情況下,管理計算機為管理系統(tǒng)。管理計算機和顯示用計算機的組合也為管理系統(tǒng)。為了實現(xiàn)管理處理的高速化、高可靠性化,可以通過多個計算機實現(xiàn)與管理計算機同等的處理,在該情況下,該多個計算機(在顯示用計算機進行顯示的情況下,還包括顯示用計算機)為管理系統(tǒng)。
[0040]第一實施方式
[0041]〈概要〉
[0042]本實施方式事先將計算機系統(tǒng)的結(jié)構(gòu)變更方案和在執(zhí)行該方案時有可能直接受到影響的某個組件形式化,以體現(xiàn)影響波及關(guān)系的解析規(guī)則為基礎(chǔ)來確定計算機系統(tǒng)的結(jié)構(gòu)信息和有可能二次間接受到影響的某個裝置。
[0043]本實施方式在向運行管理者提示對計算機系統(tǒng)執(zhí)行的方案時,一并提示執(zhí)行該方案的影響。本實施方式能夠?qū)\行管理者判斷方案可否執(zhí)行進行支援。例如,在發(fā)生故障時制定了用于恢復(fù)的方案的情況下,縮短直到故障恢復(fù)為止花費的時間。
[0044]圖1是第一實施方式中的計算機系統(tǒng)的概念圖。該計算機系統(tǒng)包括管理對象計算機系統(tǒng)1000和經(jīng)由網(wǎng)絡(luò)等與該管理對象計算機系統(tǒng)1000連接的管理服務(wù)器1100。
[0045]裝置性能獲取程序1110和結(jié)構(gòu)管理信息獲取程序1120監(jiān)視著管理對象計算機系統(tǒng)1000。結(jié)構(gòu)管理信息獲取程序1120在每次結(jié)構(gòu)變更時,向結(jié)構(gòu)信息庫1130記錄結(jié)構(gòu)信息。當裝置性能獲取程序1110根據(jù)所獲取的裝置性能信息檢測出管理對象計算機系統(tǒng)1000中發(fā)生故障時,為了確定原因而調(diào)用故障原因解析程序1140。
[0046]故障原因解析程序1140確定故障原因。在故障波及關(guān)系規(guī)則1150中定義有規(guī)則化了的故障波及關(guān)系。故障原因解析程序1140通過對照故障波及關(guān)系規(guī)則1150和從結(jié)構(gòu)信息庫1130獲取的結(jié)構(gòu)信息,來確定故障原因。
[0047]故障原因解析程序1140為了制定針對所確定的原因的應(yīng)對方案而調(diào)用方案制定程序1160。方案制定程序1160利用事先將故障與對應(yīng)的方案之間的關(guān)系形式化了的通用方案1170,來制定具體的應(yīng)對方案(展開方案)。
[0048]方案執(zhí)行影響解析程序1180確定由于執(zhí)行方案制定程序1160所制定的應(yīng)對方案而受到影響的裝置、構(gòu)成裝置的部件及程序。以下,分別將裝置、裝置內(nèi)的部位(硬件部件或程序)稱為組件。
[0049]方案執(zhí)行影響解析程序1180通過對照所制定的應(yīng)對方案、結(jié)構(gòu)信息庫1130示出的結(jié)構(gòu)信息以及故障波及關(guān)系規(guī)則1150,來確定因執(zhí)行應(yīng)對方案而帶來的影響。
[0050]圖像顯示程序1190向運行管理者一并顯示所制定的應(yīng)對方案和因執(zhí)行該應(yīng)對方案而引起的波及關(guān)系。第一實施方式中,對伴隨著基于故障原因解析程序1140對故障原因的確定而制定出的應(yīng)對方案進行說明,但本發(fā)明不限于對故障原因的確定,還能夠適用于對伴隨著計算機系統(tǒng)中的結(jié)構(gòu)變更的、各種各樣的方案的影響的確定。
[0051]圖2示出本實施方式中的計算機系統(tǒng)的物理結(jié)構(gòu)例。該計算機系統(tǒng)具有存儲裝置20000、主機計算機10000、管理服務(wù)器計算機30000、WEB(網(wǎng)頁)瀏覽器啟動服務(wù)器計算機35000以及IP(Internet Protocol:網(wǎng)絡(luò)之間互連的協(xié)議)開關(guān)40000,這些裝置經(jīng)由網(wǎng)絡(luò)45000而連接。也可以省略圖2中的一部分裝置,也可以僅使一部分裝置相互連接。
[0052]主機計算機10000至10010例如從與它們連接的未圖示的客戶端計算機接收文件的I/o請求,并基于該I/O請求實現(xiàn)向存儲裝置20000至20010的訪問。在此,主機計算機10000至10010為服務(wù)器計算機。
[0053]主機計算機10000至10010彼此經(jīng)由網(wǎng)絡(luò)45000而在程序之間執(zhí)行通信來交換文件。因此,主機計算機10000至10010具有用于與網(wǎng)絡(luò)45000連接的端口 11010。管理服務(wù)器計算機30000管理該計算機系統(tǒng)整體的運行。
[0054]WEB瀏覽器啟動服務(wù)器計算機35000經(jīng)由網(wǎng)絡(luò)45000與管理服務(wù)器計算機30000的圖像顯示程序1190進行通信,而在WEB瀏覽器上顯示各種信息。用戶通過參照在WEB瀏覽器啟動服務(wù)器上的WEB瀏覽器上顯示的信息,來管理計算機系統(tǒng)內(nèi)的裝置。不過,管理服務(wù)器計算機30000和WEB瀏覽器啟動服務(wù)器計算機35000可以由一臺服務(wù)器計算機構(gòu)成。
[0055]<系統(tǒng)結(jié)構(gòu)例>
[0056]圖3是說明與以下說明的管理服務(wù)器計算機30000所保持的表對應(yīng)的系統(tǒng)結(jié)構(gòu)例的概念圖。在該圖中,IP開關(guān)40000、40010各自的ID分別為IPSWl、IPSW2。IP開關(guān)IPSWl、IPSW2分別具有用于與網(wǎng)絡(luò)45000連接的端口 40010。
[0057]IP開關(guān)IPSWl的端口 40010的ID分別為端口 1、端口 2、端口 8。IP開關(guān)IPSW2的端口 40010的ID分別為端口 1、端口 8。端口的ID在IP開關(guān)內(nèi)是唯一的。
[0058]主機計算機10000、10005、10010 各自的 ID 分別為 SERVER10、SERVER11、SERVER20。主機計算機10000、10005、10010分別經(jīng)由端口 11010與網(wǎng)絡(luò)45000連接。各端口的ID為端口 101、端口 111、端口 201。
[0059]在本結(jié)構(gòu)例中,在各個主機計算機10000、10005、10010上,服務(wù)器虛擬化機構(gòu)(服務(wù)器虛擬化程序)進行動作。在主機計算機10000、10005上,虛擬機(VM) 11000進行動作。各VM11000的ID為HOSTlO至H0ST13。雖未圖示,但在各VM11000上安裝有OS(操作系統(tǒng)),在該OS上,WEB服務(wù)進行動作。
[0060]