專利名稱:故障檢測設(shè)備、故障檢測方法和程序記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種故障檢測設(shè)備、故障檢測方法和程序記錄介質(zhì)。
背景技術(shù):
大規(guī)模信息系統(tǒng)例如商業(yè)信息系統(tǒng)和IDC (因特網(wǎng)數(shù)據(jù)中心)系統(tǒng)中,隨著作為社會基礎(chǔ)結(jié)構(gòu)的信息和通信服務(wù)(例如web服務(wù)和商業(yè)服務(wù))的重要性增長,提供這些服務(wù)的計算機系統(tǒng)需要保持運行穩(wěn)定性。此類計算機系統(tǒng)的運行管理通常由管理員手工執(zhí)行。隨著系統(tǒng)變得大規(guī)模和復(fù)雜化,管理員的負擔(dān)急劇增加,由于判斷失誤或者誤操作導(dǎo)致的服務(wù)掛起變得更加容易發(fā)生。出于這個原因,提供了一種集成的故障原因提取系統(tǒng),該系統(tǒng)以統(tǒng)一方式監(jiān)控和控制包含在上述系統(tǒng)中的硬件和軟件的運行狀態(tài)。在集成故障原因提取系統(tǒng)中,由該集成系統(tǒng)管理的多個計算機系統(tǒng)中的硬件和軟件的運行狀態(tài)信息被獲取并輸出至與該系統(tǒng)連接的故障原因提取設(shè)備。用于判別被管理系統(tǒng)的故障的裝置包括預(yù)先對運行信息設(shè)置閾值的裝置,以及評估該運行信息與其平均值之間的偏差的裝置。例如,在該故障原因提取系統(tǒng)的故障原因提取設(shè)備中,為各個性能信息設(shè)置閾值,通過查找超過其各自閾值的各個性能信息來檢測故障。故障原因提取設(shè)備預(yù)先設(shè)置一個指示異常的值作為閾值,檢測各個元素的異常并且將其報告給管理員。當(dāng)報告檢測到異常時,管理員需要確定異常發(fā)生的原因以解決它。異常發(fā)生的典型原因是,例如,CPU超負荷、內(nèi)存容量不足或者網(wǎng)絡(luò)超負荷。為了識別異常發(fā)生的原因,需要識別可能與該異常相關(guān)的計算機,然后調(diào)查其系統(tǒng)日志和參數(shù)。該操作需要每個管理員具有高度的知識或者知道如何去做,并且需要每個管理員花費大量時間和精力。由于這一點,該集成故障原因提取系統(tǒng)基于從多個裝置獲得的事件數(shù)據(jù)(狀態(tài)通知),通過對運行狀態(tài)等的組合自動執(zhí)行相關(guān)分析,為管理員提供針對異常的對策支持,從更廣的角度估計問題或原因,然后將其通知給管理員。特別地 ,為了確保這些服務(wù)長期、連續(xù)運行的可靠性,其不僅需要針對已經(jīng)發(fā)生的異常采取措施,還需要提取出成為未來異常可能原因的元素,即使這些異常目前還沒有明顯的發(fā)生,然后采取措施,例如以規(guī)劃的方式強化設(shè)備。例如,以下所示的每個專利文獻中描述了這樣的故障原因提取系統(tǒng),或者與該系統(tǒng)中的相關(guān)分析相關(guān)并且可應(yīng)用于該系統(tǒng)的技術(shù)。專利文獻I中公開的技術(shù)通過推導(dǎo)出關(guān)于正常狀態(tài)下的任意兩個性能信息的值(性能值)的時間序列的轉(zhuǎn)換函數(shù)來生成相關(guān)模型,其中將一個序列作為輸入,另一個作為輸出。該技術(shù)將根據(jù)相關(guān)模型的轉(zhuǎn)換函數(shù)的性能值與在另一時間獲得的性能信息進行比較,并且基于相關(guān)破壞程度來檢測故障。將更加詳細地解釋專利文獻I中描述的技術(shù)。圖17是示出根據(jù)專利文獻I中描述的技術(shù)包括故障原因提取設(shè)備910的故障原因提取系統(tǒng)901的示意性整體配置的說明圖。故障原因提取系統(tǒng)901包括作為多個被管理設(shè)備的被監(jiān)控計算機902A,902B,902C,…,以及管理這些計算機902的運行的故障原因提取設(shè)備910,它們通過網(wǎng)絡(luò)903連接從而可以相互通信。故障原因提取設(shè)備910從每個被監(jiān)控的計算機902A,902B,902C,…獲取包括多個性能項目(例如,CPU利用率或者剩余內(nèi)存容量)中每個性能項目的性能值在內(nèi)的性能信息,并且基于該性能信息執(zhí)行如下所述的操作。此處,性能項目、被管理設(shè)備(被監(jiān)控計算機902)或其組合被定義為性能信息中的一個元素(性能值的類型,或者僅僅是類型)。圖18是示出如圖17所示的故 障原因提取設(shè)備910和被監(jiān)控計算機902的配置的說明圖。如圖17所示的被監(jiān)控計算機902A,902B,902C,…具有與被監(jiān)控計算機902A相同的配置,在圖18中省略了詳細描述,它們被共同命名為被監(jiān)控計算機902。圖19是示出圖18中所示的故障原因提取設(shè)備910的處理流程的說明圖。根據(jù)專利文獻I所描述的技術(shù),故障原因提取設(shè)備910,例如,是一個通用計算機設(shè)備,包括作為計算機程序執(zhí)行的核心的主運算控制單元(CPU:中央處理單元)911,存儲數(shù)據(jù)的存儲單元912,通過網(wǎng)絡(luò)903與其他計算機進行數(shù)據(jù)通信的通信單元913,以及接受用戶(在此情形下為網(wǎng)絡(luò)管理員)的操作并且呈現(xiàn)處理結(jié)果的輸入/輸出單元914。在該故障原因提取設(shè)備910的主運算控制單元911中,性能信息累積單元922、相關(guān)模型生成單元923、相關(guān)分析單元924、故障分析單元925和管理員交互單元926中的每個都以計算機程序的形式運行。進而,正常狀態(tài)性能信息931、相關(guān)模型信息932和分析設(shè)置信息933中的每個均存儲在存儲單元912中。如故障原因提取設(shè)備910 —樣,被監(jiān)控計算機902也包括主運算控制單元951、存儲單元952和通信單元953。當(dāng)這些單元的功能分別與故障原因提取設(shè)備910中的主運算控制單元911、存儲單元912和通信單元913相同時,被監(jiān)控計算機902的主運算控制單元951中的服務(wù)執(zhí)行單元961、信息收集單元962、對策執(zhí)行單元963中的每個均以計算機程序的形式運行。被監(jiān)控計算機902的服務(wù)執(zhí)行單元961提供例如web服務(wù)和商業(yè)服務(wù)的信息和通信服務(wù)。信息收集單元962檢測服務(wù)執(zhí)行單元961的運行狀態(tài),獲取包括在運行狀態(tài)中的性能信息,并將信息發(fā)送給故障原因提取設(shè)備910的性能信息累積單元922。故障原因提取設(shè)備910的性能信息累積單元922接收來自每個被監(jiān)控計算機902的信息收集單元962的性能信息,并將該信息作為正常狀態(tài)性能信息931進行存儲。相關(guān)模型生成單元923在某個時間段內(nèi)從正常狀態(tài)性能信息931獲得性能信息,針對性能信息中的性能值的兩種任意類型的時間序列推導(dǎo)出轉(zhuǎn)換函數(shù)(相關(guān)函數(shù)),其中將兩個時間序列中的一個作為輸入,另一個作為輸出。相關(guān)模型生成單元923將由該轉(zhuǎn)換函數(shù)生成的性能值序列與該性能值的實際檢測值序列進行比較,并且由這兩個值的序列之間的差值來計算轉(zhuǎn)換函數(shù)的權(quán)重信息。進而,通過對每對類型重復(fù)該過程,相關(guān)模型生成單元923針對服務(wù)執(zhí)行單元961的總運行狀態(tài)生成一個相關(guān)模型。相關(guān)模型生成單元923將生成的相關(guān)模型作為相關(guān)模型信息932進行存儲。相關(guān)分析單元924接收來自性能信息累積單元922的、新檢測到的性能信息,分析包含在接收的性能信息中的性能值是否在一定的誤差范圍內(nèi)滿足由存儲在相關(guān)模型信息932中的相關(guān)模型的每個轉(zhuǎn)換函數(shù)表示的關(guān)系,并輸出分析結(jié)果。相關(guān)分析單元924基于第一元素的新檢測性能值和相關(guān)函數(shù),計算針對第二元素的預(yù)測性能值,然后,通過比較第二元素的新檢測性能值與該預(yù)測性能值來計算預(yù)測誤差。相關(guān)分析單元924分析該預(yù)測誤差是否在預(yù)定的誤差范圍內(nèi)。當(dāng)預(yù)測誤差超出預(yù)定的誤差范圍時,相關(guān)分析單元924判斷第一和第二元素之間的相互關(guān)系被破壞。錯誤分析單元925接收由性能信息累積單元922收集的運行狀態(tài)以及由相關(guān)分析單元924執(zhí)行分析的結(jié)果,并且根據(jù)預(yù)先存儲在分析設(shè)置信息933中的分析設(shè)置內(nèi)容來執(zhí)行故障分析。管理員交互單元926接收來自故障分析單元925的故障分析結(jié)果并且通過輸入/輸出單元14將其呈現(xiàn)給管理員。然后,管理員交互單元926接受來自管理員的操作輸入,并指示被監(jiān)測計算機902的對策執(zhí)行單元963根據(jù)該操作輸入執(zhí)行對策。該對策執(zhí)行單元963響應(yīng)于來自管理員交互單元926的命令,執(zhí)行針對服務(wù)執(zhí)行單元961上的故障的對策過程。 管理員交互單元926通過輸入/輸出單元14將該故障分析結(jié)果呈現(xiàn)給管理員。當(dāng)管理員通過輸入/輸出單元14進行用于指示某種對策的輸入時,管理員交互單元926將該輸入的內(nèi)容發(fā)送給對策執(zhí)行單元963并使其執(zhí)行該對策。例如,當(dāng)被監(jiān)控計算機902中的某個特定計算機出現(xiàn)CPU利用率或者剩余內(nèi)存容量異常時,管理員指示一種對策,例如減少指示給被監(jiān)控計算機902中的該特定計算機的操作的量,然后將這些操作轉(zhuǎn)移到被監(jiān)控計算機902中的其他計算機。隨后,如果在性能信息累積單元922以固定時間間隔收集的性能信息值中沒有檢測到相關(guān)破壞,則故障分析單元925判斷其是否從該故障中恢復(fù),并且通過管理員交互單元926將該結(jié)果呈現(xiàn)給管理員。通過重復(fù)該收集信息、分析、采取對策的過程,持續(xù)地執(zhí)行故障檢測和針對服務(wù)執(zhí)行單元961上的故障的對策。圖20是示出圖18和圖19所示的性能信息累積單元922中累積的正常狀態(tài)性能 信息931的例子的說明圖。被監(jiān)控計算機902的信息收集單元962檢測服務(wù)執(zhí)行單元961的運行狀態(tài),從運行狀態(tài)中提取性能信息并將該信息發(fā)送給故障原因提取設(shè)備910的性能信息累積單元922。性能信息累積單元922將接收到的性能信息作為正常狀態(tài)性能信息931進行記錄和累積。正常狀態(tài)性能信息931是由信息收集單元962為服務(wù)執(zhí)行單元961持續(xù)收集的性能信息的列表。每個性能信息包括由圖17中所示的每個被監(jiān)控計算機902同時測量的多個性能值項目,并且按照預(yù)定的時間間隔將其列出。例如,當(dāng)在服務(wù)執(zhí)行單元961處執(zhí)行web服務(wù)時,信息收集單元962以預(yù)定的時間間隔檢測提供web服務(wù)的每個被監(jiān)控計算機902的CPU利用率或者剩余內(nèi)存容量,并將該信息發(fā)送給故障原因提取設(shè)備910的性能信息累積單元922。性能信息累積單元922將該信息作為正常狀態(tài)性能信息931進行記錄和累積。圖20示出了如此累積的正常狀態(tài)性能信息931的例子。此處,圖17所示的被監(jiān)控計算機902分別被指定為被監(jiān)控計算機902A,902B, 902C,…。被監(jiān)控計算機902A,902B,902C,…的名稱分別為“A”、“B”、“C”。例如,類型“A. CPU”表示被監(jiān)控計算機902A(A)的CPU利用率,可以看出“A. CPU”的性能值在2010年4月5日17:25測量為“12”,隨后,以一分鐘的間隔從17:26順序測量的性能值分別為“15”、“34”、“63”…。類似地,類型“A. MEM”表示被監(jiān)控計算機902A(A)的內(nèi)存使用情況,與“A. CPU”同時測量的“A. MEM”的性能值被呈現(xiàn)。類型“B. CPU”表示被監(jiān)控計算機902B⑶的CPU利用率,與其他性能值同時被測量的“B. CPU”的性能值被呈現(xiàn)。相關(guān)模型生成單元923對如此累積的正常狀態(tài)性能信息931中的每種類型的性能值執(zhí)行如下所示的相關(guān)模型生成處理。例如,相關(guān)模型生成單元923將X和y之間的關(guān)系近似為一個近似式“y = f(x) = Ax+B” (A和B是常數(shù)),其中“A. CPU”被視為χ,Α.ΜΕΜ”被視為y,并且以“A = -0. 6”和“B = 100”為系數(shù)值進行計算。相關(guān)模型生成單元923由基于轉(zhuǎn)換函數(shù)的預(yù)測性能值序列與實際性能值之間的差值計算出權(quán)重值“w = O. 88”。圖21示出了由相關(guān)模型生成單元923根據(jù)圖20所示的正常狀態(tài)性能信息931生成的相關(guān)模型信息932的示例的說明圖。圖22示出了由圖18所示的故障原因提取設(shè)備910執(zhí)行的故障原因提取操作的流程圖。對于上述正常狀態(tài)性能信息931記錄的每一對類型,相關(guān)模型信息932包括被視為該轉(zhuǎn)換函數(shù)的輸入和輸出的類型名稱、指定轉(zhuǎn)換函數(shù)的系數(shù)和權(quán)重的各值、以及用于指示對應(yīng)的相互關(guān)系是否有效的相互關(guān)系判斷信息(有效性)。 例如,關(guān)于圖21所示的“A. CPU”與“A. MEM”之間的相互關(guān)系,對于輸出“A. MEM",式“y = f(x) = Ax+B”中系數(shù)A的值為“-O. 6”、系數(shù)B的值為“100”并且權(quán)重值為“O. 88”的相互關(guān)系被存儲在相關(guān)模型信息932中。相關(guān)模型生成單元923針對性能信息累積單元922中累積的正常狀態(tài)性能信息931中的每一對類型執(zhí)行這樣的分析,并基于在整個故障原因提取系統(tǒng)901穩(wěn)定且正常地運行時獲得的性能信息生成相關(guān)模型信息932 (圖22中的步驟S991)。圖23是示出基于圖21所示的相關(guān)模型信息932由管理員交互單元926呈現(xiàn)給管理員的顯示畫面990的內(nèi)容的說明圖。圖23所示的顯示畫面990顯示了相關(guān)破壞數(shù)量990a、相關(guān)圖990b和異常元素列表990c中的每個。以下將示出其細節(jié)。相關(guān)圖990b表不該故障原因提取系統(tǒng)901中的一個兀素與另一個兀素之間的相互關(guān)系。在圖23所示的例子中,三個被監(jiān)控計算機902A、902B和902C的CPU利用率和內(nèi)存使用情況中的每個被分別表示為性能信息的A到F六個元素。元素A、B…分別用帶圓圈的…表示。被監(jiān)控計算機的CPU利用率和內(nèi)存使用情況分別被表示為902A的“A. CPU”和“A. MEM”,902B 的 “B. CPU” 和 “B. MEM” ...。元素 A 代表 “A. CPU”,即,被監(jiān)控計算機 902A 的CPU利用率。類似地,元素D代表“C. CPU”,即,被監(jiān)控計算機902C的CPU利用率。然后,將各個元素相互連接的線代表相關(guān)模型中的轉(zhuǎn)換函數(shù)所表示的關(guān)系。將權(quán)重w定義為處于O到I的范圍內(nèi),如果權(quán)重w等于或大于O. 5,則用實線表示該關(guān)系,如果權(quán)重w小于O. 5則不表示該關(guān)系。例如,因為元素A和B之間的相互關(guān)系的權(quán)重w等于或大于O. 5,所以這些元素之間用實線連接。因為元素A和F之間的相互關(guān)系的權(quán)重w小于O. 5,所以這些元素之間沒有連接。對于權(quán)重值w等于或大于O. 5的每一對類型,相關(guān)分析單元924判斷權(quán)重w是否等于或者大于一個特定閾值,即,該相互關(guān)系是否有效。并且,相關(guān)分析單元924對新獲得的性能信息執(zhí)行上述相互關(guān)系分析(圖22中的步驟S992)。然后,可能存在這樣一種情形,S卩,當(dāng)故障原因提取系統(tǒng)901整體正常運行時,隨著時間的推移,有效的相互關(guān)系變得無效。這就是該示例性實施方式中定義的“相關(guān)破壞”,它意味著在故障原因提取系統(tǒng)901的運行狀態(tài)中無疑已發(fā)生了某種改變。
當(dāng)檢測到相關(guān)破壞時,相關(guān)分析單元924將其顯示在顯示畫面990上(圖22中的步驟S993至994)。相關(guān)破壞數(shù)量990a表示時間序列中檢測到的相關(guān)破壞發(fā)生的數(shù)量。異常元素列表990c表示發(fā)生相關(guān)破壞的元素。相關(guān)圖990b用粗線表示被破壞的相互關(guān)系。響應(yīng)于由管理員在顯示畫面上的操作,可以在顯示畫面990上示出每個元素的細節(jié)并且可以發(fā)出指示以對該元素采取對策。以上是專利文獻I中描述的故障原因提取設(shè)備910的操作。除了專利文獻I外,還存在以下技術(shù)文獻。專利文獻2中公開的故障檢測設(shè)備為了預(yù)測實際運行中發(fā)生的瓶頸,采用了與專利文獻I中相同的相關(guān)模型。專利文獻3中公開的異常故障現(xiàn)象檢測設(shè)備計算相關(guān)系數(shù)矩陣及其轉(zhuǎn)置矩陣,并且檢測被監(jiān)控設(shè)備的異常故障現(xiàn)象。[引用列表][專利文獻][專利文獻I]日本專利公開No.2009-199533[專利文獻2]日本專利公開No.2009-199534[專利文獻3]日本專利公開No.2008-14659
發(fā)明內(nèi)容
[技術(shù)問題]在專利文獻I公開的技術(shù)中,物理連接關(guān)系中的相鄰設(shè)備的異常程度能夠基于與被破壞的相互關(guān)系有關(guān)的元素的數(shù)量、破壞程度的總和、或者被破壞的相互關(guān)系的比值來計算。即使當(dāng)前沒有明顯的故障發(fā)生,也可以通過檢測相關(guān)破壞來提取作為故障的可能原因的元素,并且采取例如強化設(shè)備的對策。然而,專利文獻I公開的技術(shù)沒有考慮也沒有預(yù)先提出“對于檢測的相關(guān)破壞可能出現(xiàn)的特定異?!薄@?,當(dāng)專利文獻I的技術(shù)應(yīng)用于包括web服務(wù)器、應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器的通用三層系統(tǒng)時,沒有預(yù)先提出對于檢測的相關(guān)破壞,web服務(wù)器是否可以處于超負荷狀態(tài)或者應(yīng)用服務(wù)器是否可以處于故障狀態(tài)。因此,難于針對可能出現(xiàn)的故障準(zhǔn)備對策。類似的,專利文獻2和3公開的技術(shù)沒有考慮“對于檢測的相關(guān)破壞可能出現(xiàn)的特定異常”,因此,即使這些技術(shù)方案與專利文獻I中描述的技術(shù)相結(jié)合,也沒有提出對于檢測的相關(guān)破壞可能出現(xiàn)的特定故障。本發(fā)明的目的在于提供一種故障檢測設(shè)備、故障檢測方法和程序記錄介質(zhì),其能夠估計對于檢測的相關(guān)破壞可能發(fā)生的故障。[問題的解決方案]根據(jù)本發(fā)明的一個示例性方面的故障檢測設(shè)備包括存儲裝置,用于存儲相關(guān)破壞集合信息,該相關(guān)破壞集合信息指示相關(guān)模型中所包含的相互關(guān)系中的、與故障發(fā)生時檢測到的相關(guān)破壞有關(guān)的相互關(guān)系,相關(guān)模型表示系統(tǒng)的多種類型的性能值之間的相互關(guān)系,以及相關(guān)模型比較裝置,用于計算包含在相關(guān)破壞集合信息中的相互關(guān)系和與針對輸入的性能值檢測到的相關(guān)破壞有關(guān)的相互關(guān)系之間的共性程度。根據(jù)本發(fā)明的一個示例性方面的故障檢測方法包括存儲相關(guān)破壞集合信息,該相關(guān)破壞集合信息指示相關(guān)模型中所包含的相互關(guān)系中的、與故障發(fā)生時檢測到的相關(guān)破壞有關(guān)的相互關(guān)系,該相關(guān)模型表示系統(tǒng)的多種類型的性能值之間的相互關(guān)系,以及計算包含在相關(guān)破壞集合信息中的相互關(guān)系和與針對輸入的性能值檢測到的相關(guān)破壞有關(guān)的相互關(guān)系之間的共性程度。根據(jù)本發(fā)明的一個示例性方面的計算機可讀存儲介質(zhì)在其上記錄程序,使得計算機執(zhí)行一種方法,該方法包括存儲相關(guān)破壞集合信息,該相關(guān)破壞集合信息指示相關(guān)模型中所包含的相互關(guān)系中的、與故障發(fā)生時檢測到的相關(guān)破壞有關(guān)的相互關(guān)系,相關(guān)模型表示系統(tǒng)的多種類型的性能值之間的相互關(guān)系,以及計算包含在相關(guān)破壞集合信息中的相互關(guān)系和與針對輸入的性能值檢測到的相關(guān)破壞有關(guān)的相互關(guān)系之間的共性程度。[發(fā)明的有益效果]本發(fā)明的效果在于能夠估計對于檢測的相關(guān)破壞可能發(fā)生的故障。
圖1是示出了根據(jù)本發(fā)明第一示例性實施方式的故障檢測設(shè)備和被監(jiān)控計算機的配置的說明圖。圖2是示出了根據(jù)本發(fā)明第一示例性實施方式的、包括故障檢測設(shè)備的故障原因提取系統(tǒng)I的示意性整體配置的示例的說明圖。圖3是示出了圖1所示的故障檢測設(shè)備的處理流程的說明圖。圖4是解釋圖1和圖3所示的相關(guān)分析單元的更詳細操作的說明圖。圖5是不出了圖1和圖3所不的相關(guān)I旲型和相關(guān)破壞集合/[目息的不例的說明圖。圖6是示出了作為圖7所示處理的結(jié)果、由管理員交互單元呈現(xiàn)的示出了顯示畫面示例的說明圖。圖7是示出了由圖1和圖3所示的故障檢測設(shè)備執(zhí)行的、基于被破壞的相互關(guān)系預(yù)測可能發(fā)生的異常的操作的流程圖。圖8是示出了根據(jù)本發(fā)明第二示例性實施方式的、包括故障檢測設(shè)備的故障原因提取系統(tǒng)的示意性整體配置的示例的說明圖。圖9是示出了圖8所示的故障檢測設(shè)備的配置的說明圖。圖10是示出了圖9所示的故障檢測設(shè)備的處理流程的說明圖。圖11是示出了圖9和圖10所示的故障檢測設(shè)備執(zhí)行的、基于被破壞的相互關(guān)系預(yù)測可能發(fā)生的異常的操作的流程圖。圖12是示出了作為圖11所示處理的結(jié)果、由管理員交互單元向管理員呈現(xiàn)的示出了顯示畫面示例的說明圖。圖13是示出了根據(jù)本發(fā)明第三示例性實施方式的、包括故障檢測設(shè)備的故障原因提取系統(tǒng)的示意性整體配置的示例的說明圖。圖14是示出了圖13所示的故障檢測設(shè)備的配置的說明圖。圖15是示出了圖14所示的故障檢測設(shè)備的處理流程的說明圖。圖16是示出了圖14所示的故障檢測設(shè)備檢測到相關(guān)破壞的情況下,由管理員交互單元向管理員呈現(xiàn)的顯示畫面內(nèi)容的說明圖。圖17是示出了根據(jù)專利文獻I中描述的技術(shù)、包括故障原因提取設(shè)備的故障原因提取系統(tǒng)的示意性整體配置的示例的說明圖。圖18是示出了圖17所示的故障原因提取設(shè)備和被監(jiān)控計算機的配置的說明圖。圖19是示出了圖18所示的故障原因提取設(shè)備的處理流程的說明圖。圖20是示出了圖18和圖19所示的性能信息累積單元所累積的正常狀態(tài)性能信息示例的說明圖。圖21是示出了由相關(guān)模型生成單元根據(jù)圖20所示的正常狀態(tài)性能信息生成的相關(guān)模型信息示例的說明圖。圖22是示出了由圖18所示的故障原因提取設(shè)備執(zhí)行的故障原因提取操作的流程圖。圖23是示出了基于圖21所示的相關(guān)模型信息、由管理員交互單元呈現(xiàn)給管理員的顯示畫面內(nèi)容的說明圖。圖24是示出了根據(jù)本發(fā)明的第一示例性實施方式的特征配置的框圖。
具體實施例方式(第一示例性實施方式)下文中,將基于圖1解釋本發(fā)明的第一示例性實施方式的配置。首先將解釋第一示例性實施方式的基本內(nèi)容,此后,將解釋更詳細的內(nèi)容。根據(jù)第一示例性實施方式的故障檢測設(shè)備10從包括在系統(tǒng)中的多個為計算機設(shè)備的被管理設(shè)備2獲取與被管理設(shè)備2的運行狀態(tài)相關(guān)的多個性能項目中每個性能項目的、包括性能值的性能信息,并且提取被管理設(shè)備中發(fā)生的故障原因。故障檢測設(shè)備10包括相關(guān)模型生成單元23、相關(guān)分析單元24和相關(guān)模型比較單元25。在性能項目、被管理設(shè)備或其組合被定義為一個元素(性能值的類型,或者僅僅是類型)的情況下,相關(guān)模型生成單元23從多個性能序列信息中推導(dǎo)出性能序列信息的任意兩個元素之間的相關(guān)函數(shù),并且生成包括針對每對元素的相關(guān)函數(shù)的相關(guān)模型,其中每個性能序列信息表示以固定的時間間隔獲得的每個元素的性能值的時間序列變化。當(dāng)新檢測到性能信息時,相關(guān)分析單元24對任意兩個元素中第一元素新檢測到的性能值應(yīng)用該相關(guān)模型中的相關(guān)函數(shù),針對任意兩個元素中的第二元素計算預(yù)測性能值,比較第二元素的檢測性能值與預(yù)測性能值并且計算預(yù)測誤差。相關(guān)分析單元24針對新檢測到的性能信息中的每一對元素分析預(yù)測誤差是否位于預(yù)定誤差范圍內(nèi),如果該預(yù)測誤差超出了誤差范圍,則判斷第一和第二元素之間的相互關(guān)系被破壞。存儲單元12預(yù)先存儲相關(guān)破壞集合信息33與該相關(guān)模型。相關(guān)破壞集合信息33是這樣一種數(shù)據(jù),其將當(dāng)被管理設(shè)備中實際已發(fā)生故障時,該相關(guān)模型中已經(jīng)由相關(guān)分析單兀24判斷為相互關(guān)系被破壞的兀素對的列表(與故障發(fā)生時檢測到的相關(guān)破壞有關(guān)的相互關(guān)系的列表)與已發(fā)生的故障的現(xiàn)象名稱相關(guān)聯(lián)。相關(guān)模型比較單元25在由相關(guān)分析單元24已經(jīng)判斷其相互關(guān)系最近被破壞的元素對(最近檢測到其相關(guān)破壞的相互關(guān)系)與相關(guān)破壞集合信息33之間執(zhí)行匹配核查,并且計算共性程度,該共性程度是指其兩者之間匹配對(相互關(guān)系)的數(shù)量與在相關(guān)破壞集合信息33中注冊的對(相互關(guān)系)的總數(shù)的比值。當(dāng)共性程度等于或大于預(yù)先給出的邊界共性程度時,相關(guān)模型比較單元25發(fā)出警告。此處,相關(guān)破壞集合信息33包括與對的列表關(guān)聯(lián)的邊界共性程度和現(xiàn)象名稱。故障檢測設(shè)備10包括管理員交互單元28,其顯示帶有警告的共性程度的時間序列變化。按照這樣的配置,故障檢測設(shè)備10能夠估計對于相互關(guān)系破壞可能發(fā)生的故障。下文中將更加詳細的解釋第一示例性實施方式。圖2是示出根據(jù)本發(fā)明第一示例性實施方式的、包括故障檢測設(shè)備10的故障原因提取系統(tǒng)I的示意性整體配置的說明圖。根據(jù)第一示例性實施方式的故障原因提取系統(tǒng)I包括作為多個被管理設(shè)備的被監(jiān)控計算機2A,2B,2C,…,以及管理這些計算機2的運行的 故障檢測設(shè)備10,它們通過網(wǎng)絡(luò)3連接,從而能夠相互通信。故障檢測設(shè)備10從每個被監(jiān)控計算機2A,2B, 2C,…獲取性能信息,以及基于該性能信息執(zhí)行以下描述的操作,其中該性能信息包括針對多個性能項目(例如,CPU利用率或者剩余內(nèi)存容量)中的每個性能項目的性能值。盡管圖2中示出了存在四個被監(jiān)控計算機2A,2B, 2C, 2D的例子,但是被監(jiān)控計算機2的數(shù)量是任意的。圖1是根據(jù)本發(fā)明第一示例性實施方式的故障檢測設(shè)備10和被監(jiān)控計算機2的配置的說明圖。由于圖2所示的被監(jiān)控計算機2A,2B,2C,…具有與被監(jiān)控計算機2A相同的配置,因此圖1中省略了詳細描述并且將它們共同命名為被監(jiān)控計算機2。圖3是示出圖1所示的故障檢測設(shè)備10的處理流程的說明圖。根據(jù)本發(fā)明第一示例性實施方式的故障檢測設(shè)備10例如是通用計算機設(shè)備,并且包括作為計算機程序執(zhí)行核心的主運算控制單元(CPU :中央處理單元)11,存儲數(shù)據(jù)的存儲單元12,通過網(wǎng)絡(luò)3與其他計算機進行數(shù)據(jù)通信的通信單元13,以及接受來自管理員的操作并呈現(xiàn)處理結(jié)果的輸入/輸出單元14。在故障檢測設(shè)備10的主運算控制單元11中,性能信息累積單元22、相關(guān)模型生成單元23、相關(guān)分析單元24、相關(guān)模型比較單元25、故障分析單元27和管理員交互單元28中的每個均以計算機程序的形式運行。此外,正常狀態(tài)性能信息31、相關(guān)模型信息32、相關(guān)破壞集合信息33和分析設(shè)置信息34中的每個被存儲在存儲單元12中。被監(jiān)控計算機2與故障檢測設(shè)備10 —樣,也包括主運算控制單元51、存儲單元52和通信單元53。當(dāng)這些單元的功能分別與故障檢測設(shè)備10中的主運算控制單元11、存儲單元12和通信單元13相同時,被監(jiān)控計算機2的主運算控制單元51中的服務(wù)執(zhí)行單元61、信息收集單元62和對策執(zhí)行單元63中的每個均以計算機程序的形式運行。被監(jiān)控計算機2的服務(wù)執(zhí)行單元61提供信息和通信服務(wù),例如web服務(wù)和商業(yè)服務(wù)。信息收集單元62檢測服務(wù)執(zhí)行單元61的運行狀態(tài),獲取包含在運行狀態(tài)中的性能信息,并將該信息發(fā)送給故障檢測設(shè)備10的性能信息累積單元22。故障檢測設(shè)備10的性能信息累積單元22接收來自每個被監(jiān)控計算機2的信息收集單元62的性能信息,并將該信息作為正常狀態(tài)性能信息31進行存儲。相關(guān)模型生成單元23在某個時間段內(nèi)從正常狀態(tài)性能信息31中取得性能信息,針對性能信息中的任意兩個類型的性能值的時間序列,以兩個時間序列中的一個作為輸入、另一個作為輸出,從而推導(dǎo)出轉(zhuǎn)換函數(shù)(相關(guān)函數(shù))。相關(guān)模型生成單元23將由該轉(zhuǎn)換函數(shù)生成的性能值的序列與性能值的實際檢測值的序列進行比較,根據(jù)兩個值的序列之間的差值計算轉(zhuǎn)換函數(shù)的權(quán)重信息。此外,通過對每一對類型重復(fù)該過程,相關(guān)模型生成單元23針對服務(wù)執(zhí)行單元61的整體運行狀態(tài)生成相關(guān)模型。相關(guān)模型生成單元23將生成的相關(guān)模型作為相關(guān)模型信息32進行存儲。相關(guān)分析單元24從性能信息累積單元22接收新檢測到的性能信息(運行中的性能信息),分析包含在接收到的性能信息中的性能值是否在一定的誤差范圍內(nèi)滿足由存儲在相關(guān)模型信息32中的相關(guān)模型的每個轉(zhuǎn)換函數(shù)所表示的關(guān)系,并輸出分析結(jié)果。圖4是更詳細地解釋圖1和圖3所示的相關(guān)分析單元24的操作的說明圖。相關(guān)分析單元24包括作為函數(shù)的性能預(yù)測函數(shù)24a、預(yù)測誤差計算函數(shù)24b、誤差范圍分析函數(shù)24c和相關(guān)破壞輸出函數(shù)24d。性能預(yù)測函數(shù)24a將針對從性能信息累積單元22新接收的運行中的性能信息的第一元素的性能值應(yīng)用到相關(guān)函數(shù),并針對第二元素計算出預(yù)測性能值。預(yù)測誤差計算函數(shù)24b將性能值與第二元素的預(yù)測性能值進行比較,并計算出預(yù)測誤差。誤差范圍分析函數(shù)24c分析該預(yù)測誤差是否在預(yù)定的誤差范圍內(nèi)。如果預(yù)測誤差超出了誤差范圍,則相關(guān)破壞輸出函數(shù)24d判斷第一元素和第二元素之間的相互關(guān)系被破壞并將其輸出。當(dāng)?shù)谝缓偷诙氐倪\行中的性能信息分別被視為X和y,相關(guān)模型信息32中的相關(guān)函數(shù)被視為f,性能預(yù)測函數(shù)24a由X計算f (x),預(yù)測誤差計算函數(shù)24b計算預(yù)測誤差
y-f(x) I。誤差范圍分析函數(shù)24c分析該預(yù)測誤差|y-f(x) I是否處于預(yù)先存儲在相關(guān)分析單元24中的閾值的范圍內(nèi),如果該預(yù)測誤差超出了誤差范圍,則相關(guān)破壞輸出函數(shù)24d將其輸出。故障分析單元27接收由性能信息累積單元22收集的運行狀態(tài)和由相關(guān)分析單元24執(zhí)行的分析結(jié)果,根據(jù)預(yù)先存儲在分析設(shè)置信息34中的分析設(shè)置內(nèi)容對故障的發(fā)生進行分析。分析設(shè)置單元34進一步包括作為相關(guān)分析單元24判斷相互關(guān)系破壞的標(biāo)準(zhǔn)的閾值。管理員交互單元28接收來自故障分析單元27的故障分析結(jié)果,通過輸入/輸出單元14將其呈現(xiàn)給管理員。然后,管理員交互單元28接收來自管理員的操作輸入,并根據(jù)該操作輸入命令被監(jiān)控計算機2的對策執(zhí)行單元63采取對策。對策執(zhí)行單元63響應(yīng)于來自管理員交互單元28的指令,執(zhí)行針對服務(wù)執(zhí)行單元61上的故障的對策處理。以上是關(guān)于與前述專利文獻I中公開的故障檢測設(shè)備相同的配置和操作。根據(jù)第一示例性實施方式的故障檢測設(shè)備10進一步包括運行在主運算控制單元11中的相關(guān)模型比較單元25和存儲在存儲單元12中的相關(guān)破壞集合信息33。當(dāng)相關(guān)模型比較單元25判斷該共性程度超過閾值時,管理員交互單元28將包括判斷結(jié)果、被破壞的相互關(guān)系和該共性程度的警告顯示給管理員。圖5是不出圖1和圖3所不的相關(guān)I旲型和相關(guān)破壞集合/[目息33的不例的說明圖。相關(guān)破壞集合信息33包括過去發(fā)生的故障的現(xiàn)象名稱33a、破壞相關(guān)列表33b以及邊界共性程度33c,其中破壞相關(guān)列表33b是故障發(fā)生時觀察到的破壞的相互關(guān)系的列表,邊界共性程度33c是用于判斷故障發(fā)生的共性程度的閾值。邊界共性程度33c是被破壞的相互關(guān)系相對于破壞相關(guān)列表33b中的相互關(guān)系的比值的閾值。相關(guān)破壞集合信息33由系統(tǒng)管理員基于故障實際發(fā)生時由相關(guān)分析單元24檢測到的相關(guān)破壞的內(nèi)容預(yù)先輸入。多個這樣的現(xiàn)象名稱33a、破壞相關(guān)列表33b和邊界共性程度33c的集合被存儲。相關(guān)模型比較單元25將由相關(guān)分析單元24檢測到的當(dāng)前被破壞的相互關(guān)系的列表與相關(guān)破壞集合信息33中的破壞相關(guān)列表33b相比較,基于這兩者之間共同的被破壞的相互關(guān)系的數(shù)量計算“共性程度”,并且將該共性程度與邊界共性程度33c相比較。在相關(guān)模型比較單元25中,存儲在相關(guān)破壞集合信息33中的多個現(xiàn)象名稱33a、破壞相關(guān)列表33b和邊界共性程度33c的集合中的僅一個集合被用于比較。例如,在包括web服務(wù)器、應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器的典型三層配置的系統(tǒng)中,對于同一個相關(guān)模型,假使web服務(wù)器處于異常狀態(tài)時的被破壞的相互關(guān)系和假使應(yīng)用服務(wù)器處于異常狀態(tài)時的被破壞的相互關(guān)系是不同的。例如,在前一種情形下,現(xiàn)象名稱33a“web服務(wù)器異?!迸c包括那時觀察到破壞的相互關(guān)系的破壞相關(guān)列表33b互相關(guān)聯(lián)地存儲?,F(xiàn)象名稱33a “應(yīng)用服務(wù)器異常”也是如此。邊界共性程度33c是用于判斷上述每種情況下現(xiàn)象正在發(fā)生的閾值。作為邊界共性程度33c的值,用于判斷的每個現(xiàn)象的不同值可由系統(tǒng)管理員預(yù)先輸入。當(dāng)具有現(xiàn)象名稱33a的故障發(fā)生時,較高的邊界共性程度33c使得能夠僅檢測與針對該故障觀察到的相關(guān)破壞狀態(tài)接近的相關(guān)破壞狀態(tài)。然而,即使出現(xiàn)表示有很大可能性發(fā)生故障的相關(guān)破壞狀態(tài),也可以不輸出警告且管理員可忽略該狀態(tài)。相反地,較低的邊界共性程度33c降低了表示有很大可能性發(fā)生故障的狀態(tài)被忽略的可能性。然而,即使出現(xiàn)了并非由故障引起并且不需要緊急處理的相關(guān)破壞狀態(tài),也可以輸出警告。系統(tǒng)管理員在設(shè)置邊界共性程度33c時需要考慮到這一點。在圖2和圖5(A)所示的例子中,存在四個計算機SI至S4作為被監(jiān)控計算機2。這四個計算機SI至S4中的每個計算機中,信息收集單元62獲取包括“CPU利用率”和“剩余內(nèi)容容量”的性能信息作為性能項目,并將其傳送給故障檢測設(shè)備10。在此,例如,計算機SI的CPU利用率“S1. CPU”和剩余內(nèi)存容量“S1. MEM”分別被視為元素“A”和“B”。計算機S2的CPU利用率“S2. CPU”和剩余內(nèi)存容量“S2. MEM”分別被視為元素“C”和“D”。計算機S3的CPU利用率“S3. CPU”和剩余內(nèi)存容量“S3. MEM”分別被視為元素“E”和“F”。計算機S4的CPU利用率“S4. CPU”和剩余內(nèi)存容量“S4. MEM”分別被視為元素“G”和“H”。圖5(A)表示用于說明由相關(guān)模型生成單元23為計算機SI至S4生成的相關(guān)模型信息32的相關(guān)模型101。在相關(guān)模型101中,分別地,計算出的權(quán)重等于或大于O. 5的相互關(guān)系用“粗實線”表示,計算出的權(quán)重小于O. 5的相互關(guān)系用“細實線”表示。在相關(guān)分析單元24的分析中,對相關(guān)模型中的六個條目(相互關(guān)系)“A-C”、“A-D”、“A-E”、“A-H”、“C-D”、“G-H”檢測相關(guān)破壞。每個被檢測到相關(guān)破壞的相互關(guān)系用“粗虛線”表示。圖5 (B)表示存儲在相關(guān)模型101的相關(guān)破壞集合信息33中的內(nèi)容。在該示例中,表示以往四個計算機S1-S4中發(fā)生“SI超負荷”故障時有7個條目“A-C”、“A-D”、“A-E”、“A-H”、“C-D”、“C-E”和“E-F”被檢測到相關(guān)破壞的信息已經(jīng)被存儲?,F(xiàn)象名稱33a為“SI超負荷”,與之關(guān)聯(lián)的破壞相關(guān)列表33b包括“A-C,,、“A-D,,、“A-E,,、“A-H,,、“C-D,,、“CHP“E-F”這7個條目。此外,新檢測到表示條目(相互關(guān)系)“A-C”、“A-D”、“A-E”、“A-H”、“C-D”、“C_E”和“E-F”中的每個被檢測到相關(guān)破壞的信息。這些條目被表示在相關(guān)破壞檢測列表102中。相關(guān)模型比較單元25將相關(guān)破壞檢測列表102中的每個條目和與相關(guān)破壞集合信息33中的現(xiàn)象名稱33a“Sl超負荷”相關(guān)聯(lián)的破壞相關(guān)列表33b中的每個條目進行比較。結(jié)果是,檢測到相關(guān)破壞的7個條目中的5個條目被包含在與現(xiàn)象名稱33a “SI超負荷”相關(guān)聯(lián)的破壞相關(guān)列表33b中。相關(guān)模型比較單元25將這些條目的數(shù)量應(yīng)用于下面的式I中以得到共性程度。[式I]共性程度=(相關(guān)破壞檢測列表102與破壞相關(guān)列表33b之間共同的條目數(shù)量)/(破壞相關(guān)列表33b中的條目總數(shù))假設(shè)圖5所示的例子中,與現(xiàn)象名稱33a “SI超負荷”相關(guān)聯(lián)的破壞相關(guān)列表33b的全部7個條目中有5個條目分別與相關(guān)破壞檢測列表102中的條目匹配,則共性程度被計算為5/7,大約等于71. 4%。例如,如果與現(xiàn)象名稱33a “SI超負荷”相關(guān)聯(lián)的邊界共性程度33c定義為“大于或等于70% ”,由于計算出的共性程度“71.4%”超過了邊界共性程度33c,所以相關(guān)模型比較單元25通過管理員交互單元28向管理員呈現(xiàn)如下所述的警告屏幕。注意,如上所述的邊界共性程度33c的定義可以設(shè)為任意的,設(shè)置為“等于或大于70% ”僅僅是其中的一個例子。圖7是示出由圖1和圖3所示的故障檢測設(shè)備10執(zhí)行的、基于被破壞的相互關(guān)系預(yù)測可能發(fā)生的異常的操作的流程圖。故障檢測設(shè)備10接受來自管理員的如圖5所示的相關(guān)破壞集合信息33的輸入(步驟S101)。故障檢測設(shè)備10接受針對相關(guān)破壞集合信息33中的現(xiàn)象名稱和破壞相關(guān)列表的每個集合的邊界共性程度33c的輸入(步驟S102)。故障檢測設(shè)備10按照與專利文獻I中公開的方式相同的方式,檢測被監(jiān)控計算機2的每個元素中發(fā)生的相關(guān)破壞,即,來自運行中的性能信息的相關(guān)破壞檢測列表102的每個條目(步驟S103)。相關(guān)模型比較單元25將相關(guān)破壞集合信息33的破壞相關(guān)列表33b與針對檢測到相關(guān)破壞的相關(guān)破壞檢測列表102進行比較,從而利用式I獲得共性程度。結(jié)果是,當(dāng)破壞相關(guān)列表33b與步驟S103中檢測的相關(guān)破壞檢測列表102之間的相關(guān)破壞的共性程度等于或者大于邊界共性程度33c的值(步驟S104中為“是”)時,該相關(guān)模型比較單元25通過管理員交互單元28將其顯示給管理員(步驟S105)。當(dāng)共性程度小于邊界共性程度33c的值(步驟S104中為“否”)時,從步驟S103繼續(xù)處理。注意,當(dāng)多個現(xiàn)象名稱33a和與之相關(guān)聯(lián)的數(shù)據(jù)的集合存儲在相關(guān)破壞集合信息33中時,故障檢測設(shè)備10可以預(yù)先選擇例如其中的任意一個集合,并且執(zhí)行如圖7所示的處理。故障檢測設(shè)備10也可以針對相關(guān)破壞集合信息33中的多個數(shù)據(jù)集合中的每個執(zhí)行該處理。當(dāng)其中一個共性程度大于邊界共性程度33c的值時,發(fā)出步驟S105中的警告。圖6是示出作為圖7所示的處理結(jié)果的、由管理員交互單元28呈現(xiàn)的顯示畫面200的示例的說明圖。顯示畫面200包括將當(dāng)前檢測的相關(guān)破壞狀態(tài)與相關(guān)破壞集合信息33中注冊的破壞相關(guān)列表33b相比較的比較顯示200a、顯示相關(guān)破壞共性程度的時間序列變化的共性程度變化圖200b、和顯示用于判斷關(guān)于相關(guān)破壞狀態(tài)的現(xiàn)象名稱33a的異常類型顯示200c。(第一示例性實施方式的整體操作)接下來解釋上述第一示例性實施方式的整體操作。根據(jù)示例性實施方式的故障檢測設(shè)備10從包含在系統(tǒng)中的作為計算機設(shè)備的多個被管理設(shè)備2獲取包括性能值的性能信息,并且提取被管理設(shè)備中發(fā)生的故障的原因,其中該性能信息是針對與被管理設(shè)備2的運行狀態(tài)有關(guān)的多個性能項目中的每個性能項目的。在性能項目、被管理設(shè)備或其組合被定義為一個元素(性能值的類型,或者僅僅是類型)的情況下,相關(guān)模型生成單元23從多個性能序列信息中推導(dǎo)出性能序列信息的任意兩個元素之間的相關(guān)函數(shù),并且生成包括針對每對元素的相關(guān)函數(shù)的相關(guān)模型,其中每個性能序列信息表示以固定的時間間隔獲得的每個元素的性能值的時間序列變化。當(dāng)新檢測到性能信息時,相關(guān)分析單元24對任意兩個元素中第一元素新檢測到的性能值應(yīng)用該相關(guān)模型中的相關(guān)函數(shù),針對任意兩個元素中的第二元素計算預(yù)測性能值,比較第二元素的檢測性能值與預(yù)測性能值并且計算預(yù)測誤差。相關(guān)分析單元24針對新檢測到的性能信息中的每一對元素分析預(yù)測誤差是否位于預(yù)定誤差范圍內(nèi),如果該預(yù)測誤差超出了誤差范圍,則判斷第一和第二元素之間的相互關(guān)系被破壞。存儲單元12將相關(guān)破壞集合信息33與相關(guān)模型一起存儲(圖7中的步驟SlOl至102)。相關(guān)破壞集合信息33是這樣一種數(shù)據(jù),其將已判斷為相互關(guān)系被破壞的元素對的列表(被檢測到相關(guān)破壞的相互關(guān)系的列表)與已發(fā)生的故障的現(xiàn)象名稱相關(guān)聯(lián)。相關(guān)模型比較單元25在已經(jīng)判斷其相互關(guān)系最近被破壞的元素對(最近被檢測到相關(guān)破壞的相互關(guān)系)與相關(guān)破壞集合信息33之間執(zhí)行匹配核查,并且計算共性程度,該共性程度是指其兩者之間匹配對(相互關(guān)系)的數(shù)量與在數(shù)值相關(guān)破壞集合信息33中注冊的對(相互關(guān)系)的總數(shù)的比值。當(dāng)共性程度等于或大于預(yù)先給出的邊界共性程度時,相關(guān)模型比較單元25發(fā)出警告(圖7中的步驟S105)。注意,以上描述的每個操作步驟都可以表達為程序,從而其可以由計算機執(zhí)行,而且該程序可由作為可直接執(zhí)行上述步驟的計算機的故障檢測設(shè)備10執(zhí)行。接下來將解釋本發(fā)明的第一示例性實施方式的特征配置。圖24是示出本發(fā)明的第一示例性實施方式的特征配置的框圖。故障檢測設(shè)備10包括存儲單元12和相關(guān)模型比較單元25。存儲單元12存儲相關(guān)破壞集合信息33,相關(guān)破壞集合信息33指示在表示系統(tǒng)中的多個性能值類型之間的相互關(guān)系的相關(guān)模型中包含的相互關(guān)系中,與發(fā)生故障時檢測到相關(guān)破壞有關(guān)的相互關(guān)系。相關(guān)模型比較單元25針對輸入的性能值計算包含在相關(guān)破壞集合信息33中的相互關(guān)系與被檢測到相關(guān)破壞的相互關(guān)系之間的共性程度。根據(jù)本發(fā)明的第一示例性實施方式,對于被檢測到的相關(guān)破壞,能夠估計可能發(fā)生的故障,因為已預(yù)先準(zhǔn)備了當(dāng)系統(tǒng)發(fā)生故障時被檢測到相關(guān)破壞的、包括元素對(相互關(guān)系)列表的相關(guān)破壞集合信息33,并且計算出包含在相互關(guān)系列表中的相互關(guān)系與新檢測到相關(guān)破壞的相互關(guān)系之間的共性程度。結(jié)果是,可以預(yù)測出具有高出現(xiàn)可能性的故障,并且提前準(zhǔn)備針對該故障的對策。此外,由于基于過去實際發(fā)生的故障的內(nèi)容被存儲在相關(guān)破壞集合信息33中,所以根據(jù)過去的經(jīng)驗準(zhǔn)備故障的對策內(nèi)容很有可能是顯然的。因此,管理員針對故障準(zhǔn)備對策的負擔(dān)得以減輕。(第二示例性實施方式)
除了根據(jù)第一示例性實施方式的故障檢測設(shè)備10的配置之外,在根據(jù)第二示例性實施方式的故障檢測設(shè)備310中,相關(guān)破壞集合信息33包括被檢測到相關(guān)破壞的元素對(相互關(guān)系)列表與被管理設(shè)備2中實際發(fā)生的多個故障中的每個故障的現(xiàn)象名稱之間的關(guān)聯(lián)。對于多個故障中的每個故障,相關(guān)模型比較單元325計算針對相關(guān)分析單元24已經(jīng)判斷相互關(guān)系最近被破壞的元素對(最近被檢測到相關(guān)破壞的相互關(guān)系)的共性程度,并且從最高的共性程度開始順序地發(fā)出警告。結(jié)果是,除了第一示例性實施方式的效果外,第二示例性實施方式還具有以下效果,即,針對很可能連續(xù)發(fā)生的多種故障類型,管理員也可以容易地采取對策。以下將更加詳細地解釋這一點。圖8是示出根據(jù)本發(fā)明第二示例性實施方式、包括故障檢測設(shè)備310的故障原因提取系統(tǒng)301的示意性整體配置的示例的說明圖。根據(jù)第二示例性實施方式的故障原因提取系統(tǒng)301包括作為多個被管理設(shè)備的被監(jiān)控計算機2A,2B,2C,…,以及管理這些計算機 2的運行的故障檢測設(shè)備310,它們通過網(wǎng)絡(luò)3連接,從而能夠相互通信。被監(jiān)控計算機2A,2B, 20··與在第一不例性實施方式中解釋的被監(jiān)控計算機2相同。根據(jù)第一不例性實施方式的故障原因提取系統(tǒng)I的故障檢測設(shè)備10被替換為故障檢測設(shè)備310。圖9是示出圖8所示的故障檢測設(shè)備310的配置的說明圖。圖10是示出圖9所示的故障檢測設(shè)備310的處理流程的說明圖。盡管根據(jù)本發(fā)明的第二示例性實施方式的故障檢測設(shè)備310的基本配置與根據(jù)第一示例性實施方式的故障檢測設(shè)備10相同,但是相關(guān)模型比較單元25被替換為相關(guān)模型比較單元325。圖11是示出由圖9和圖10所示的故障檢測設(shè)備310執(zhí)行的、基于被破壞的相互關(guān)系預(yù)測可能發(fā)生的異常的操作流程圖。在圖11中,對與根據(jù)圖7所示的第一示例性實施方式的操作相同的操作給出了相同的參考數(shù)字。步驟SlOl至S103與根據(jù)第一示例性實施方式的操作相同。對于相關(guān)破壞集合信息33中存儲的多個現(xiàn)象名稱33a、破壞相關(guān)列表33b和邊界共性程度33c的集合中的每個集合,相關(guān)模型比較單元325將步驟S103中檢測到的當(dāng)前被破壞的相互關(guān)系與破壞相關(guān)列表33b進行比較,并利用上述圖1所示的等式來計算共性程度。相關(guān)模型比較單元325判斷是否存在其中共性程度等于或者大于邊界共性程度33c的集合(注冊數(shù)據(jù))(步驟S404)。當(dāng)存在其中計算的共性程度等于或大于邊界共性程度33c的注冊數(shù)據(jù)時,相關(guān)模型比較單元25通過管理員交互單元28向管理員呈現(xiàn)對應(yīng)于具有最高計算共性程度的破壞相關(guān)列表33b的現(xiàn)象名稱33a(步驟S405)。當(dāng)步驟S404中不存在其中計算的共性程度等于或大于邊界共性程度33c的注冊數(shù)據(jù)時,從步驟S103重復(fù)該處理。圖12是示出作為圖11所示的處理結(jié)果的、由管理員交互單元28向管理員呈現(xiàn)的顯示畫面500的示例的說明圖。顯示畫面500包括異常類型顯示500b和比較顯示500a,其中,異常類型顯示500b從最高的共性程度開始順序地顯示與其中共性程度等于或大于邊界共性程度33c的破壞相關(guān)列表33b相關(guān)聯(lián)的現(xiàn)象名稱33a,比較顯示500a顯示當(dāng)前檢測到的相關(guān)破壞狀態(tài)與對應(yīng)于異常類型顯示500b中顯示的現(xiàn)象名稱33a的破壞相關(guān)列表33b的比較結(jié)果。(第三示例性實施方式)
除了根據(jù)第一示例性實施方式的故障檢測設(shè)備10的配置之外,根據(jù)第三示例性實施方式的故障檢測設(shè)備610還包括相關(guān)破壞集合注冊單元626。相關(guān)破壞集合注冊單元626從管理員接受當(dāng)前正在發(fā)生的現(xiàn)象名稱的輸入,并且將該元素對的列表(相互關(guān)系列表)與現(xiàn)象名稱相互關(guān)聯(lián)的存儲為相關(guān)破壞集合信息33,其中所述現(xiàn)象名稱是針對相關(guān)分析單元24已經(jīng)判斷相互關(guān)系當(dāng)前被破壞的元素對的列表(被檢測到相關(guān)破壞的相互關(guān)系的列表)的。結(jié)果是,除了第一示例性實施方式的效果之外,第三示例性實施方式還具有以下效果,即關(guān)于實際發(fā)生的故障的相關(guān)破壞集合信息的注冊變得更加容易。以下將更加詳細地解釋這一點。圖13是示出根據(jù)本發(fā)明第三示例性實施方式的、包括故障檢測設(shè)備610的故障原 因提取系統(tǒng)601的示意性整體配置示例的說明圖。根據(jù)第三示例性實施方式的故障原因提取系統(tǒng)601包括作為多個被管理設(shè)備的被監(jiān)控計算機2A,2B, 2C,…,以及管理這些計算機2的運行的故障檢測設(shè)備610,它們通過網(wǎng)絡(luò)3連接,從而能夠相互通信。被監(jiān)控計算機2A,2B, 20··與在第一不例性實施方式中解釋的被監(jiān)控計算機2相同。根據(jù)第一不例性實施方式的故障原因提取系統(tǒng)I的故障檢測設(shè)備10被替換為故障檢測設(shè)備610。圖14是示出圖13所示的故障檢測設(shè)備610的配置的說明圖。圖15是示出圖14所示的故障檢測設(shè)備610的處理流程的說明圖。除了相關(guān)破壞集合注冊單元626也在主運算控制單元11中運行之外,根據(jù)本發(fā)明的第三示例性實施方式的故障檢測設(shè)備610的配置與根據(jù)第一不例性實施方式的故障檢測設(shè)備10相同。相關(guān)破壞集合注冊單元626請求管理員針對相關(guān)分析單元24檢測到的相關(guān)破壞集合輸入現(xiàn)象名稱和邊界共性程度,并將輸入的內(nèi)容分別視為現(xiàn)象名稱33a和邊界共性程度33c。相關(guān)破壞集合注冊單元626將檢測到的相關(guān)破壞集合視為破壞相關(guān)列表33b,并且在相關(guān)破壞集合信息33中將破壞相關(guān)列表33b、現(xiàn)象名稱33a和邊界共性程度33c相互關(guān)聯(lián)地進行存儲。圖16是示出圖14所示的故障檢測設(shè)備610中檢測到相關(guān)破壞的情況下、由管理員交互單元28呈現(xiàn)給管理員的顯示畫面700的內(nèi)容的說明圖。這一點對應(yīng)于圖23中所示的背景技術(shù)中所描述的故障原因提取設(shè)備910中的顯示畫面990。與顯示畫面990相同,相關(guān)破壞的數(shù)量700a、相關(guān)圖700b、異常元素列表700c中的每一個都被顯示在顯示畫面700上,此外,還提供了故障注冊按鈕700d。當(dāng)管理員按下該故障注冊按鈕700d時,打開對話框700e,管理員可以輸入現(xiàn)象名稱33a和邊界共性程度33c。相關(guān)破壞集合注冊單元626將顯示為相關(guān)圖700b的相關(guān)破壞集合視為破壞相關(guān)列表33b,并將破壞相關(guān)列表33b、輸入的現(xiàn)象名稱33a和邊界共性程度33c相互關(guān)聯(lián)地注冊在相關(guān)破壞集合信息33中。相關(guān)模型比較單元25利用注冊的相關(guān)破壞集合信息33執(zhí)行的操作與根據(jù)第一示例性實施方式的故障檢測設(shè)備10相同。注意,相關(guān)破壞集合注冊單元626可被添加到根據(jù)第二示例性實施方式的故障檢測設(shè)備310中。雖然參考其示例性實施方式詳細示出和描述了本發(fā)明,但本發(fā)明并不限于這些實施方式。本領(lǐng)域普通技術(shù)人員可以理解的是,對此進行各種形式和細節(jié)上的改變將不脫離由權(quán)利要求所限定的本發(fā)明的實質(zhì)和保護范圍。
本發(fā)明基于并且要求2010年6月7日提交的日本專利申請No. 2010-129842的優(yōu)先權(quán),在此通過引用并入其全部公開內(nèi)容。工業(yè)實用件本發(fā)明可應(yīng)用于提供信息和通信服務(wù)的通用計算機網(wǎng)絡(luò)。參考標(biāo)記列表1,301,601故障檢測系統(tǒng)2,2A,2B,2C被監(jiān)控計算機3 網(wǎng)絡(luò)10,310,610故障檢測設(shè)備11,51主運算控制單元12,52存儲單元13,53通信單元14輸入/輸出單元22性能信息累積單元23相關(guān)模型生成單元24相關(guān)分析單元25,325相關(guān)模型比較單元27故障分析單元28管理員交互單元31正常狀態(tài)性能信息32相關(guān)模型信息33相關(guān)破壞集合信息33a現(xiàn)象名稱33b破壞相關(guān)列表33c邊界共性程度34分析設(shè)置信息61服務(wù)執(zhí)行單元62信息收集單元63對策執(zhí)行單元101相關(guān)模型200,500,700 顯示畫面200a, 500a 比較顯示200b共性程度變化圖200c, 500b異常類型顯示625相關(guān)破壞集合注冊單元700a相關(guān)破壞的數(shù)量700b 相關(guān)圖700c異常元素列表700d故障注冊按鈕
700e 對話框
權(quán)利要求
1.一種故障檢測設(shè)備,包括存儲裝置,用于存儲相關(guān)破壞集合信息,所述相關(guān)破壞集合信息指示相關(guān)模型中所包含的相互關(guān)系中的、與故障發(fā)生時檢測到的相關(guān)破壞有關(guān)的相互關(guān)系,所述相關(guān)|旲型表不系統(tǒng)的多種類型的性能值之間的相互關(guān)系,以及相關(guān)模型比較裝置,用于計算包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系和與針對輸入的性能值檢測到的相關(guān)破壞有關(guān)的相互關(guān)系之間的共性程度。
2.根據(jù)權(quán)利要求1所述的故障檢測設(shè)備,其中所述相關(guān)模型比較裝置計算相匹配的相互關(guān)系的數(shù)量與包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系的數(shù)量的比值,以作為所述共性程度,所述相匹配的相互關(guān)系是包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系和與針對所述輸入的性能值檢測到的相關(guān)破壞有關(guān)的所述相互關(guān)系之間相匹配的相互關(guān)系。
3.根據(jù)權(quán)利要求1或2所述的故障檢測設(shè)備,其中所述相關(guān)破壞集合信息包括所述故障的故障名稱,并且如果所述共性程度等于或大于預(yù)定閾值,則所述相關(guān)模型比較裝置輸出所述故障的所述故障名稱。
4.根據(jù)權(quán)利要求1至3中任一項所述的故障檢測設(shè)備,其中所述相關(guān)破壞集合信息包括指示與多個所述故障的每個故障名稱相關(guān)聯(lián)的所述相互關(guān)系的信息,所述相互關(guān)系與所述故障發(fā)生時檢測到的相關(guān)破壞有關(guān),以及所述相關(guān)模型比較裝置針對所述多個故障中的每個故障計算所述共性程度,所述共性程度是包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系和與針對所述輸入的性能值檢測到的相關(guān)破壞有關(guān)的所述相互關(guān)系之間的共性程度。
5.根據(jù)權(quán)利要求1至4中任一項所述的故障檢測設(shè)備,進一步包括相關(guān)破壞集合注冊裝置,用于當(dāng)輸入所述系統(tǒng)中發(fā)生的所述故障的所述故障名稱時, 注冊指示與所述故障名稱相關(guān)聯(lián)的所述相互關(guān)系的信息,所述相互關(guān)系與針對所述輸入的性能值檢測到的相關(guān)破壞有關(guān)。
6.一種故障檢測方法,包括存儲相關(guān)破壞集合信息,所述相關(guān)破壞集合信息指示相關(guān)模型中所包含的相互關(guān)系中的、與故障發(fā)生時檢測到的相關(guān)破壞有關(guān)的相互關(guān)系,所述相關(guān)模型表示系統(tǒng)的多種類型的性能值之間的相互關(guān)系,以及計算包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系和與針對輸入的性能值檢測到的相關(guān)破壞有關(guān)的相互關(guān)系之間的共性程度。
7.根據(jù)權(quán)利要求6所述的故障檢測方法,其中所述計算共性程度計算相匹配的相互關(guān)系的數(shù)量與包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系的數(shù)量的比值,以作為所述共性程度,所述相匹配的相互關(guān)系是包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系和與針對所述輸入的性能值檢測到的相關(guān)破壞有關(guān)的所述相互關(guān)系之間相匹配的相互關(guān)系。
8.根據(jù)權(quán)利要求6或7所述的故障檢測方法,其中所述相關(guān)破壞集合信息包括所述故障的故障名稱,并且如果所述共性程度等于或大于預(yù)定閾值,則所述計算共性程度輸出所述故障的所述故障名稱。
9.根據(jù)權(quán)利要求6至8中任一項所述的故障檢測方法,其中所述相關(guān)破壞集合信息包括指示與多個所述故障的每個故障名稱相關(guān)聯(lián)的所述相互關(guān)系的信息,所述相互關(guān)系與所述故障發(fā)生時檢測到的相關(guān)破壞有關(guān),以及所述計算共性程度針對所述多個故障中的每個故障計算所述共性程度,所述共性程度是包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系和與針對所述輸入的性能值檢測到的相關(guān)破壞有關(guān)的所述相互關(guān)系之間的共性程度。
10.根據(jù)權(quán)利要求6至9中任一項所述的故障檢測方法,進一步包括當(dāng)輸入所述系統(tǒng)中發(fā)生的所述故障的所述故障名稱時,注冊指示與所述故障名稱相關(guān)聯(lián)的所述相互關(guān)系的信息,所述相互關(guān)系與針對所述輸入的性能值檢測到的相關(guān)破壞有關(guān)。
11.一種計算機可讀存儲介質(zhì),其上記錄程序,所述程序使得計算機執(zhí)行一種方法,所述方法包括存儲相關(guān)破壞集合信息,所述相關(guān)破壞集合信息指示相關(guān)模型中所包含的相互關(guān)系中的、與故障發(fā)生時檢測到的相關(guān)破壞有關(guān)的相互關(guān)系,所述相關(guān)模型表示系統(tǒng)的多種類型的性能值之間的相互關(guān)系,以及計算包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系和與針對輸入的性能值檢測到的相關(guān)破壞有關(guān)的相互關(guān)系之間的共性程度。
12.根據(jù)權(quán)利要求11所述的計算機可讀存儲介質(zhì),其上記錄所述程序,其中所述計算共性程度計算相匹配的相互關(guān)系的數(shù)量與包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系的數(shù)量的比值,以作為所述共性程度,所述相匹配的相互關(guān)系是包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系和與針對所述輸入的性能值檢測到的相關(guān)破壞有關(guān)的所述相互關(guān)系之間相匹配的相互關(guān)系。
13.根據(jù)權(quán)利要求11或12所述的計算機可讀存儲介質(zhì),其上記錄所述程序,其中所述相關(guān)破壞集合信息包括所述故障的故障名稱,并且如果所述共性程度等于或大于預(yù)定閾值,則所述計算共性程度輸出所述故障的所述故障名稱。
14.根據(jù)權(quán)利要求11至13中任一項所述的計算機可讀存儲介質(zhì),其上記錄所述程序,其中所述相關(guān)破壞集合信息包括指示與多個所述故障的每個故障名稱相關(guān)聯(lián)的所述相互關(guān)系的信息,所述相互關(guān)系與所述故障發(fā)生時檢測到的相關(guān)破壞有關(guān),以及所述計算共性程度針對所述多個故障中的每個故障計算所述共性程度,所述共性程度是包含在所述相關(guān)破壞集合信息中的所述相互關(guān)系和與針對所述輸入的性能值檢測到的相關(guān)破壞有關(guān)的所述相互關(guān)系之間的共性程度。
15.根據(jù)權(quán)利要求11至14中任一項所述的計算機可讀存儲介質(zhì),其上記錄所述程序, 進一步包括當(dāng)輸入所述系統(tǒng)中發(fā)生的所述故障的所述故障名稱時,注冊指示與所述故障名稱相關(guān)聯(lián)的所述相互關(guān)系的信息,所述相互關(guān)系與針對所述輸入的性能值檢測到的相關(guān)破壞有關(guān)。
全文摘要
對檢測到的相關(guān)破壞估計可能發(fā)生的故障。故障檢測設(shè)備(10)包括存儲單元(12)和相關(guān)模型比較單元(25)。存儲單元(12)存儲相關(guān)破壞集合信息(33),該相關(guān)破壞集合信息指示相關(guān)模型中所包含的相互關(guān)系中的、與故障發(fā)生時檢測到的相關(guān)破壞有關(guān)的相互關(guān)系,該相關(guān)模型表示系統(tǒng)中的多種類型的性能值之間的相互關(guān)系。相關(guān)模型比較單元(25)計算包含在相關(guān)破壞集合信息中的相互關(guān)系和與針對輸入的性能值檢測到的相關(guān)破壞有關(guān)的相互關(guān)系之間的共性程度。
文檔編號G06F11/34GK103026344SQ20118002802
公開日2013年4月3日 申請日期2011年6月6日 優(yōu)先權(quán)日2010年6月7日
發(fā)明者石王堅 申請人:日本電氣株式會社