專利名稱:產(chǎn)生將計(jì)算機(jī)故障存檔的事故單的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)處理系統(tǒng)技術(shù)領(lǐng)域,具體地說(shuō)屬于管理數(shù)據(jù)處理系統(tǒng)故障的技術(shù)領(lǐng)域。
背景技術(shù):
在數(shù)據(jù)處理系統(tǒng)領(lǐng)域,使客戶機(jī)系統(tǒng)的管理自動(dòng)化是降低用戶的總擁有成本的關(guān)鍵因素。自主修復(fù)(autonomic repair)出故障的系統(tǒng)是自動(dòng)客戶機(jī)管理的一個(gè)重要部分。自主修復(fù)的目的是在出現(xiàn)問(wèn)題時(shí)解決問(wèn)題而不需要用戶干預(yù),以及或許更重要的是,不用啟動(dòng)幫助臺(tái)電話呼叫或現(xiàn)場(chǎng)服務(wù)事件。當(dāng)前,在遇到一個(gè)系統(tǒng)出現(xiàn)了故障而不能通過(guò)一個(gè)自動(dòng)化的過(guò)程或在簡(jiǎn)單的用戶干預(yù)下排除故障時(shí),就啟動(dòng)一個(gè)幫助臺(tái)呼叫。幫助臺(tái)可以試圖指導(dǎo)用戶通過(guò)一系列診斷步驟來(lái)解決問(wèn)題或更精確地確定問(wèn)題。如果幫助臺(tái)呼叫沒(méi)有解決問(wèn)題,幫助中心可以根據(jù)問(wèn)題的性質(zhì)和嚴(yán)重程度將一些新的部件、一臺(tái)新的計(jì)算機(jī)遞送給用戶,甚至可能派遣現(xiàn)場(chǎng)服務(wù)技術(shù)人員到用戶的場(chǎng)所。
計(jì)算機(jī)及相關(guān)服務(wù)的廠商和供應(yīng)商有興趣保存有關(guān)在他們的系統(tǒng)上出現(xiàn)故障的頻率和類型的信息。然而,通常得到報(bào)告的數(shù)據(jù)是偏頗的,偏向于需要幫助臺(tái)干預(yù)、現(xiàn)場(chǎng)服務(wù)干預(yù)或者這兩者的事件。具體地說(shuō),由于可能有許多問(wèn)題在啟動(dòng)幫助臺(tái)呼叫之前已由系統(tǒng)自行糾正,因此幫助臺(tái)呼叫的樣本可能代表不了現(xiàn)場(chǎng)出現(xiàn)的各種故障模式的類型及其相應(yīng)頻率。所希望的是實(shí)現(xiàn)一種方法和系統(tǒng),其使數(shù)據(jù)處理供應(yīng)商能監(jiān)視和分析最經(jīng)常使他們的系統(tǒng)出現(xiàn)故障的機(jī)理,無(wú)論這些故障是否最終需要進(jìn)行幫助臺(tái)呼叫之類。還希望所實(shí)現(xiàn)的解決方案不顯著增加擁有和/或操作相應(yīng)數(shù)據(jù)處理系統(tǒng)的成本或復(fù)雜性。
發(fā)明內(nèi)容
上述目的按照本發(fā)明的一個(gè)實(shí)施例主要是通過(guò)使一個(gè)數(shù)據(jù)處理系統(tǒng)和網(wǎng)絡(luò)能將不只是需要外部干預(yù)的故障而且還有可以在本地在有或沒(méi)有用戶干預(yù)的情況下確定或修復(fù)的那些故障記入日志來(lái)達(dá)到的。在一個(gè)實(shí)施例中,用戶的數(shù)據(jù)處理系統(tǒng)配置有至少兩個(gè)引導(dǎo)映像(boot image)。第一引導(dǎo)映像包括系統(tǒng)的正常操作系統(tǒng),而第二引導(dǎo)映像包括一個(gè)自動(dòng)調(diào)試或診斷例程。如果出現(xiàn)一個(gè)諸如OS崩潰之類的系統(tǒng)故障,系統(tǒng)可以被引導(dǎo)進(jìn)入診斷模式,然后執(zhí)行適合于這個(gè)系統(tǒng)的診斷程序,并記錄表示各個(gè)診斷測(cè)試的結(jié)果的數(shù)據(jù)。該診斷工具于是可以確定檢測(cè)到的問(wèn)題(如果有的話)是否可以本地糾正。如果問(wèn)題可以本地解決,系統(tǒng)就可以調(diào)用自動(dòng)糾正動(dòng)作,試圖修復(fù)系統(tǒng)。自動(dòng)糾正動(dòng)作可以包括諸如重新引導(dǎo)系統(tǒng)和下載一個(gè)或多個(gè)計(jì)算機(jī)軟件(例如,軟件驅(qū)動(dòng)程序)、將映像恢復(fù)到一個(gè)已知的良好狀態(tài)或訪問(wèn)一個(gè)存有先前對(duì)于類似問(wèn)題的解決情況的知識(shí)數(shù)據(jù)庫(kù)之類的動(dòng)作。
無(wú)論響應(yīng)診斷程序而最終所采取的是什么動(dòng)作,這個(gè)動(dòng)作是否包括一個(gè)幫助臺(tái)呼叫或其他外部事件,都產(chǎn)生一個(gè)事故單(trouble ticket),將與這故障有關(guān)的信息存檔。事故單然后被轉(zhuǎn)送事故單信息數(shù)據(jù)庫(kù)并存儲(chǔ)在其中,于是就可以對(duì)事故單進(jìn)行分析,得出包括最經(jīng)常出現(xiàn)的故障的類型和調(diào)試程序在本地糾正故障中的效能的信息。本發(fā)明按照一個(gè)實(shí)施例實(shí)現(xiàn)為一種由一個(gè)或多個(gè)第三方提供的服務(wù)。在本發(fā)明的這個(gè)實(shí)施例中,數(shù)據(jù)處理商品和/或服務(wù)的供應(yīng)商為用戶提供自動(dòng)診斷代碼,然后接收和監(jiān)視系統(tǒng)產(chǎn)生的事故單以指導(dǎo)供應(yīng)商修改這個(gè)自動(dòng)化的軟件以進(jìn)一步減少幫助中心呼叫和/或現(xiàn)場(chǎng)服務(wù)事件,就有關(guān)為了改善系統(tǒng)的可用性而可以進(jìn)行的改變向用戶提供建議,或者這些的組合。
本發(fā)明的其他目的和優(yōu)點(diǎn)從以下結(jié)合附圖所作的詳細(xì)說(shuō)明中可以清楚看出,在這些附圖中圖1為示出在結(jié)合本發(fā)明的一個(gè)實(shí)施例中所用的一個(gè)數(shù)據(jù)處理網(wǎng)絡(luò)的一些所選組成部分的方框圖;圖2為在按照本發(fā)明的一個(gè)實(shí)施例設(shè)計(jì)的數(shù)據(jù)處理系統(tǒng)中的自主故障修復(fù)方法的流程圖;圖3為著重示出利用圖1的數(shù)據(jù)處理系統(tǒng)和網(wǎng)絡(luò)為用戶提供自主故障糾正和分析服務(wù)的流程圖;以及圖4為示出按照本發(fā)明的實(shí)施例設(shè)計(jì)的圖1的數(shù)據(jù)處理系統(tǒng)的配置的流程圖,著重示出系統(tǒng)在出現(xiàn)一個(gè)系統(tǒng)故障后引導(dǎo)入自動(dòng)診斷模式的能力。
雖然本發(fā)明可以有各種修改和可替代的形式,但在附圖中只例示了本發(fā)明的一些具體實(shí)施例并在下面就此予以詳細(xì)說(shuō)明。然而,應(yīng)該理解,在這里給出的這些附圖和詳細(xì)說(shuō)明不是用來(lái)將本發(fā)明限制在所揭示的這些具體實(shí)施例,而是用來(lái)涵蓋在如所附權(quán)利要求書所給出的本發(fā)明的精神實(shí)質(zhì)和專利保護(hù)范圍內(nèi)的所有修改的、等效的和替代的實(shí)施方式。
具體實(shí)施例方式
概括地說(shuō),本發(fā)明考慮的是利用數(shù)據(jù)處理系統(tǒng)的自動(dòng)或自主故障管理的系統(tǒng)和方法。用戶的數(shù)據(jù)處理系統(tǒng)配置成包括至少兩個(gè)引導(dǎo)映像(即,至少兩個(gè)在系統(tǒng)復(fù)位和/或系統(tǒng)加電后的工作模式)。第一引導(dǎo)映像表示系統(tǒng)的常規(guī)操作系統(tǒng)(OS),而第二引導(dǎo)映像是在系統(tǒng)出現(xiàn)故障后調(diào)用的診斷映像。診斷映像配置成在系統(tǒng)上運(yùn)行一個(gè)診斷程序,以得到有關(guān)故障原因的信息和試圖采取糾正動(dòng)作。糾正動(dòng)作可以是自動(dòng)的,可以需要用戶輸入,也可以是這兩者相結(jié)合的。診斷程序產(chǎn)生一個(gè)包括與使系統(tǒng)出現(xiàn)故障的原因有關(guān)的信息的記錄(在這里稱為事故單)。也可能診斷程序向用戶詢問(wèn)與故障有關(guān)的信息,以幫助確定正確的糾正動(dòng)作。在本發(fā)明的一個(gè)重要方面,診斷程序配置成對(duì)于需要其他支持(諸如幫助臺(tái)呼叫或現(xiàn)場(chǎng)服務(wù)呼叫)的事件和對(duì)于糾正動(dòng)作奏效的事件都產(chǎn)生事故單。通過(guò)提供對(duì)于自動(dòng)修復(fù)的事件和對(duì)于需要其他支持的事件的事故單,本發(fā)明改善了服務(wù)供應(yīng)商和他的用戶確定在系統(tǒng)上出現(xiàn)的事件的類型的能力,而且提高了被設(shè)計(jì)成在出現(xiàn)故障時(shí)排除故障的自動(dòng)化軟件的效能。
現(xiàn)在來(lái)看這些附圖,圖中示出了可以在其上有益地應(yīng)用本發(fā)明的一個(gè)有代表性的數(shù)據(jù)處理網(wǎng)絡(luò)100中的所選的一些組成部分。所示的這個(gè)網(wǎng)絡(luò)包括一個(gè)局域網(wǎng)(LAN)102,它通過(guò)網(wǎng)關(guān)設(shè)備130與廣域網(wǎng)(WAN)106連接。所示出的還有連接到WAN 106上的外部服務(wù)器140和數(shù)據(jù)庫(kù)142,外部供應(yīng)商可以通過(guò)WAN 106為L(zhǎng)AN 102安裝、配置或提供自動(dòng)數(shù)據(jù)處理修復(fù)功能。
在所示的這個(gè)實(shí)施例中,LAN 102表示一個(gè)企業(yè)的數(shù)據(jù)處理網(wǎng)絡(luò)。LAN102包括一系列服務(wù)器120A至120D(總稱為服務(wù)器120),各種設(shè)備和系統(tǒng)連接到這些服務(wù)器上。服務(wù)器120A和120B都連接到一組數(shù)據(jù)處理系統(tǒng)125A至125D。每個(gè)數(shù)據(jù)處理系統(tǒng)125表示一個(gè)諸如臺(tái)式或筆記本式個(gè)人計(jì)算機(jī)、網(wǎng)絡(luò)計(jì)算機(jī)之類的基于微處理器的數(shù)據(jù)處理系統(tǒng)。LAN 102還示為包括一個(gè)與網(wǎng)絡(luò)的盤存儲(chǔ)裝置連接的服務(wù)器120C和一個(gè)提供為數(shù)據(jù)處理系統(tǒng)125所能訪問(wèn)的應(yīng)用132的應(yīng)用服務(wù)器120D。這組服務(wù)器120示為通過(guò)網(wǎng)絡(luò)媒體135連接到一個(gè)網(wǎng)關(guān)設(shè)備130上。LAN 102和網(wǎng)絡(luò)媒體135可以實(shí)現(xiàn)為和遵從于如在IEEE標(biāo)準(zhǔn)802.3中規(guī)定的以太網(wǎng)。圖1這種配置當(dāng)然只是可用來(lái)說(shuō)明本發(fā)明的一些方面的一個(gè)可能的典型網(wǎng)絡(luò)的例示。熟悉局域網(wǎng)和企業(yè)系統(tǒng)設(shè)計(jì)的人員可以理解,下面所說(shuō)明的這些創(chuàng)造性的構(gòu)思可以應(yīng)用于其他配置而具有同樣的效果。
本發(fā)明的實(shí)質(zhì)性部分可以實(shí)現(xiàn)為一組計(jì)算機(jī)可執(zhí)行指令或計(jì)算機(jī)可執(zhí)行指令的一個(gè)序列(即,計(jì)算機(jī)軟件)。在這樣的實(shí)施例中,軟件可以存儲(chǔ)在多種計(jì)算機(jī)可讀媒體中任何一種上,這些計(jì)算機(jī)可讀媒體包括諸如磁盤和/或磁帶、軟盤驅(qū)動(dòng)器、CD ROM、閃速存儲(chǔ)器、ROM之類。在軟件的一些部分執(zhí)行期間,這些指令也可以存儲(chǔ)在系統(tǒng)存儲(chǔ)器(DRAM)內(nèi),或存儲(chǔ)在內(nèi)部或外部的高速緩沖存儲(chǔ)器(SRAM)內(nèi)。
現(xiàn)在來(lái)看圖2,圖中示出了在一個(gè)諸如圖1的數(shù)據(jù)處理系統(tǒng)125之類的數(shù)據(jù)處理系統(tǒng)上執(zhí)行自動(dòng)故障分析的方法200的一些所選步驟的流程圖。在所示這個(gè)實(shí)施例中,方法200包括一個(gè)初始方框(方框202),在此一個(gè)代表性的數(shù)據(jù)處理系統(tǒng)125在它的正常工作狀態(tài)下發(fā)揮功能和運(yùn)行。
系統(tǒng)125一直保持在這個(gè)正常工作狀態(tài),直到檢測(cè)到一個(gè)故障(方框204)。在方框204中檢測(cè)到的故障的典型例子為使系統(tǒng)完全或基本上不能工作的操作系統(tǒng)崩潰或者故障。在方框204中可以檢測(cè)到的其他故障包括系統(tǒng)各個(gè)組成部分產(chǎn)生的硬件中斷。在方框204中檢測(cè)到一個(gè)故障時(shí),系統(tǒng)125進(jìn)入或調(diào)用(方框206)一個(gè)自動(dòng)調(diào)試?yán)袒虼?。也可能的是,用戶可以判定系統(tǒng)125工作不正常,進(jìn)而手動(dòng)啟動(dòng)自動(dòng)調(diào)試?yán)袒虼怼?br>
本發(fā)明的一個(gè)實(shí)施例依賴于存在一個(gè)存儲(chǔ)在系統(tǒng)125上的系統(tǒng)BIOS、諸如CD之類的可引導(dǎo)設(shè)備和/或硬盤驅(qū)動(dòng)器的保護(hù)區(qū)內(nèi)的可引導(dǎo)調(diào)試或診斷例程。在發(fā)生系統(tǒng)故障后就調(diào)用這個(gè)可引導(dǎo)調(diào)試?yán)?。在這個(gè)實(shí)施例中,如圖4這個(gè)流程圖更詳細(xì)示出的那樣,系統(tǒng)125由用戶或由第三方服務(wù)供應(yīng)商配置成具有雙引導(dǎo)映像。第一引導(dǎo)映像是系統(tǒng)的正常操作系統(tǒng),而第二映像是自動(dòng)調(diào)試?yán)獭?br>
在圖4所示的這個(gè)實(shí)施例中,系統(tǒng)125對(duì)系統(tǒng)復(fù)位的發(fā)生進(jìn)行監(jiān)視或檢測(cè)(方框402)。在檢測(cè)到復(fù)位后,系統(tǒng)125于是確定(方框404)故障標(biāo)志或其他適當(dāng)?shù)南到y(tǒng)故障指示是否已經(jīng)設(shè)置。如果故障標(biāo)志已設(shè)置,系統(tǒng)125就引導(dǎo)本身至自動(dòng)調(diào)試配置(方框406)。如果故障標(biāo)志沒(méi)有設(shè)置,從而表明這個(gè)電復(fù)位不是系統(tǒng)故障引起的,系統(tǒng)125引導(dǎo)(方框408)它的正常操作系統(tǒng)映像,并繼續(xù)正常運(yùn)行,直到發(fā)現(xiàn)下一個(gè)復(fù)位。也可能的是用戶強(qiáng)迫系統(tǒng)引導(dǎo)到自動(dòng)調(diào)試配置。這可以用多種方式實(shí)現(xiàn),包括讓用戶來(lái)設(shè)置故障標(biāo)志和/或有允許用戶選擇的引導(dǎo)菜單,或者在加電時(shí)有一個(gè)鍵序列強(qiáng)迫引導(dǎo)到自動(dòng)調(diào)試配置。
在方框406中將一個(gè)出現(xiàn)故障的系統(tǒng)引導(dǎo)入自動(dòng)調(diào)試映像后,執(zhí)行自動(dòng)調(diào)試代碼(方框410)。該自動(dòng)調(diào)試程序可以執(zhí)行各種系統(tǒng)診斷例程,并且然后可以試圖采取糾正動(dòng)作(方框412)。這個(gè)糾正動(dòng)作可以包括執(zhí)行自動(dòng)關(guān)機(jī)和重新引導(dǎo)、刪除懷疑含有病毒的代碼段、檢驗(yàn)系統(tǒng)配置和解決任何配置沖突、運(yùn)行綜合系統(tǒng)診斷例程、整理系統(tǒng)硬盤驅(qū)動(dòng)器碎片、將硬盤驅(qū)動(dòng)器恢復(fù)到已知的良好狀態(tài)和/或檢測(cè)網(wǎng)絡(luò)設(shè)置的修改。作為一個(gè)例子,可以采用一個(gè)諸如Rapid Restore PC(快速恢復(fù)PC)之類的恢復(fù)實(shí)用程序幫助將一個(gè)驅(qū)動(dòng)器恢復(fù)到已知的良好狀態(tài)。這個(gè)程序也可以向用戶詢問(wèn)與故障有關(guān)的信息和用這信息指導(dǎo)用戶進(jìn)行可能的修復(fù)和/或根據(jù)一個(gè)知識(shí)數(shù)據(jù)庫(kù)確定修復(fù)。
系統(tǒng)125采取了任何糾正動(dòng)作后,產(chǎn)生一個(gè)“事故單”(方框414)。事故單414包括涉及故障的時(shí)間和原因、系統(tǒng)的序號(hào)或其他跟蹤信息、所采取的糾正動(dòng)作的性質(zhì)和糾正動(dòng)作奏效與否的信息。重要的是,注意到無(wú)論系統(tǒng)125所采取的任何糾正動(dòng)作奏效與否,都由系統(tǒng)125產(chǎn)生事故單。因此,即使糾正動(dòng)作在解決引起故障的問(wèn)題中有效,也仍然產(chǎn)生一個(gè)事故單,來(lái)將可糾正的故障的發(fā)生和實(shí)現(xiàn)成功修復(fù)所用的手段存檔。
所產(chǎn)生的事故單然后被轉(zhuǎn)送一個(gè)系統(tǒng)支持/系統(tǒng)幫助區(qū)。系統(tǒng)支持區(qū)在圖1表示為外部服務(wù)器140和數(shù)據(jù)庫(kù)142。在其他實(shí)施例中,事故單信息被本地存儲(chǔ)在發(fā)生故障的系統(tǒng)本身內(nèi)或者存儲(chǔ)在LAN存儲(chǔ)裝置內(nèi)某處。本地存儲(chǔ)信息可以有利地幫助在隨后的調(diào)試努力期間的自動(dòng)調(diào)試代理。例如,如果系統(tǒng)未通過(guò)一個(gè)先前未通過(guò)的特定檢驗(yàn),那末本地存儲(chǔ)事故單信息可以有助于自動(dòng)調(diào)試代理確定這個(gè)故障先前是否出現(xiàn)過(guò),以及如果出現(xiàn)過(guò),先前在解決這個(gè)問(wèn)題中什么動(dòng)作是有效的。該信息可用于按優(yōu)先次序排列出解決當(dāng)前沖突所要采取的動(dòng)作。用這樣的方式,本地存儲(chǔ)事故單信息可以使一系統(tǒng)在采取費(fèi)時(shí)的、先前解決類似問(wèn)題沒(méi)有奏效的糾正動(dòng)作之前能執(zhí)行正確的糾正。也可能的是可以定期地用服務(wù)器副本更新本地?cái)?shù)據(jù)庫(kù),從而可以獲得對(duì)與它類似的所有系統(tǒng)的所有問(wèn)題的解決辦法的益處。在客戶機(jī)空間中,有可能存在數(shù)百萬(wàn)的類似系統(tǒng),因此很可能一類似的系統(tǒng)先前出現(xiàn)過(guò)類似問(wèn)題,而糾正動(dòng)作已經(jīng)知道并已存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi)。
如果自動(dòng)調(diào)試?yán)滩扇〉募m正動(dòng)作在解決這個(gè)故障中是有效的,如在方框416中所確定的,系統(tǒng)被重新引導(dǎo)(方框420)入它的正常操作系統(tǒng),并重新開始正常運(yùn)行。如果糾正動(dòng)作沒(méi)能找到這個(gè)問(wèn)題的原因,系統(tǒng)可能停機(jī)和/或在非最佳狀態(tài)下運(yùn)行(方框418),直到幫助中心能通過(guò)發(fā)送糾正軟件、發(fā)送更換部件或者適當(dāng)?shù)脑拞?dòng)現(xiàn)場(chǎng)服務(wù)呼叫來(lái)解決這個(gè)問(wèn)題。
現(xiàn)在返回圖2,在執(zhí)行自動(dòng)調(diào)試?yán)毯蟠_定使系統(tǒng)125發(fā)生故障的問(wèn)題是否已得到糾正(方框208)。如上所述,方法200包括產(chǎn)生一個(gè)事故單,無(wú)論導(dǎo)致問(wèn)題的故障是否還在。如果自動(dòng)調(diào)試?yán)虥](méi)有解決問(wèn)題,就產(chǎn)生一個(gè)包括與故障有關(guān)的信息的“標(biāo)準(zhǔn)”事故單(方框210)。如果故障被自動(dòng)調(diào)試?yán)碳m正,就產(chǎn)生一個(gè)“非干預(yù)”事故單(方框212)。非干預(yù)事故單除故障源或故障性質(zhì)之外還包括在消除故障中有效的診斷糾正動(dòng)作以及一個(gè)正常事故單的所有信息。
無(wú)論在消除故障中任何所采取的糾正動(dòng)作奏效與否,響應(yīng)故障而產(chǎn)生的事故單都轉(zhuǎn)送一個(gè)支持區(qū)(可以是在本地和/或外部)(方框214)。事故單于是被存儲(chǔ)(方框216)在一個(gè)事故單數(shù)據(jù)庫(kù)內(nèi)供以后分析。系統(tǒng)管理員于是可以訪問(wèn)和操作數(shù)據(jù)庫(kù),確定出現(xiàn)的是什么類型的故障以及哪些糾正動(dòng)作(如果有的話)在消除故障中是有用的。作為另一個(gè)例子,數(shù)據(jù)庫(kù)信息可用來(lái)按照最常遇到的故障對(duì)糾正措施進(jìn)行排序,以更快解決問(wèn)題。
在圖3這個(gè)流程圖所著重示出的實(shí)施例中,本發(fā)明實(shí)現(xiàn)為一個(gè)由一個(gè)或多個(gè)供應(yīng)商為數(shù)據(jù)處理用戶提供的服務(wù)。具體地說(shuō),圖3這個(gè)流程圖示出了為用戶提供自動(dòng)診斷服務(wù)的方法300。在所示的這個(gè)實(shí)施例中,該方法300包括一初始步驟,在此為一用戶提供自動(dòng)調(diào)試代理(方框302)。提供這個(gè)軟件可以包括安裝這個(gè)軟件和/或配置用戶的系統(tǒng)125,以便正確地進(jìn)入和執(zhí)行調(diào)試功能。在其他實(shí)施例中,與該自動(dòng)調(diào)試?yán)滔嚓P(guān)聯(lián)的安裝和/或配置由用戶執(zhí)行。在圖3這個(gè)流程圖所著重示出的實(shí)施例中,調(diào)試功能的提供者也是調(diào)試支持服務(wù)的提供者。在這個(gè)實(shí)施例中,該提供者被配置成對(duì)接收由用戶的系統(tǒng)產(chǎn)生的事故單進(jìn)行檢測(cè)(方框304)。
返回看一下圖1,自動(dòng)調(diào)試功能和服務(wù)的提供者表示為外部服務(wù)器140和外部數(shù)據(jù)庫(kù)142。如圖1所示,外部服務(wù)器140可通過(guò)一個(gè)諸如因特網(wǎng)之類的廣域網(wǎng)由LAN 102訪問(wèn)。在這種實(shí)現(xiàn)方式中,外部服務(wù)器140配置成將自動(dòng)調(diào)試功能提供給LAN 102上的系統(tǒng)125。提供這個(gè)功能可以用與在傳統(tǒng)與網(wǎng)絡(luò)連接的系統(tǒng)中進(jìn)行BIOS和其他固件更新類似的方式實(shí)現(xiàn)。在其他實(shí)施例中,將系統(tǒng)125配置成包括自動(dòng)調(diào)試功能可能需要進(jìn)行本地操作,諸如由本地技術(shù)人員或系統(tǒng)管理員將一CD或其他媒體插入適當(dāng)?shù)南到y(tǒng)和引導(dǎo)這個(gè)系統(tǒng)之類。也可能的是配置系統(tǒng)以將自動(dòng)調(diào)試功能本有地添加到系統(tǒng)。這是可以從網(wǎng)絡(luò)或一CD或USB外部設(shè)備運(yùn)行的一次性準(zhǔn)備步驟。它將留出部分硬盤驅(qū)動(dòng)器,并將自動(dòng)調(diào)試功能復(fù)制到驅(qū)動(dòng)器上。
檢測(cè)到接收到一個(gè)事故單后,調(diào)試服務(wù)提供者將事故單信息存儲(chǔ)(方框306)在諸如圖1中所示的數(shù)據(jù)庫(kù)142之類的數(shù)據(jù)庫(kù)內(nèi)。然后,自動(dòng)調(diào)試服務(wù)提供者可以不時(shí)對(duì)事故單數(shù)據(jù)庫(kù)進(jìn)行分析(方框308),以將用戶的系統(tǒng)的主要故障模式存檔和評(píng)估自動(dòng)調(diào)試?yán)谈鱾€(gè)部分的效用。作為這種分析的結(jié)果,自動(dòng)調(diào)試服務(wù)提供者可以修改其自動(dòng)調(diào)試軟件,例如刪去調(diào)試中在解決一個(gè)問(wèn)題上很少奏效的部分,添加對(duì)付當(dāng)前還沒(méi)有對(duì)付的故障造成模式的功能,等等。這樣,自動(dòng)調(diào)試服務(wù)的提供者可以提高用戶的數(shù)據(jù)處理系統(tǒng)檢測(cè)和糾正它們自己的故障的能力,從而改善系統(tǒng)可用性和降低系統(tǒng)維護(hù)費(fèi)用。
熟悉該技術(shù)領(lǐng)域的人員從這里所公開的可以看到本發(fā)明考慮的是數(shù)據(jù)處理系統(tǒng)的自動(dòng)故障管理??梢岳斫猓谠敿?xì)說(shuō)明和附圖中所示出和描述的本發(fā)明的形式只應(yīng)視為目前優(yōu)選的例子。以下權(quán)利要求書旨在被廣義地解釋以包括所公開的這些優(yōu)選實(shí)施例的所有變形。
權(quán)利要求
1.一種自動(dòng)數(shù)據(jù)處理系統(tǒng)管理服務(wù)方法,所述方法包括以下步驟使得一數(shù)據(jù)處理系統(tǒng)響應(yīng)檢測(cè)到一系統(tǒng)故障而執(zhí)行診斷處理;使得所述系統(tǒng)在所述自動(dòng)診斷處理期間執(zhí)行糾正動(dòng)作,以試圖排除所述系統(tǒng)故障;以及將所述系統(tǒng)配置成產(chǎn)生含有表征所述系統(tǒng)故障和任何所嘗試的糾正動(dòng)作的信息的事故單,無(wú)論所述糾正動(dòng)作在排除所述系統(tǒng)故障中奏效與否。
2.權(quán)利要求1的方法,所述方法還包括使得所述數(shù)據(jù)處理系統(tǒng)響應(yīng)來(lái)自懷疑有系統(tǒng)故障的用戶的請(qǐng)求而執(zhí)行所述診斷處理。
3.權(quán)利要求1的方法,其中使得所述系統(tǒng)執(zhí)行診斷處理還具有的特征是將所述數(shù)據(jù)處理系統(tǒng)配置成具有一個(gè)操作分區(qū)和一個(gè)能執(zhí)行所述診斷處理的診斷分區(qū),以及將所述數(shù)據(jù)處理系統(tǒng)配置成響應(yīng)所述系統(tǒng)故障引導(dǎo)所述診斷分區(qū)。
4.權(quán)利要求1的方法,所述方法還包括使得所述系統(tǒng)將所述事故單轉(zhuǎn)送給一個(gè)外部數(shù)據(jù)庫(kù)。
5.權(quán)利要求4的方法,其中使得所述系統(tǒng)執(zhí)行診斷處理和糾正動(dòng)作還具有的特征是使得所述系統(tǒng)訪問(wèn)所述外部數(shù)據(jù)庫(kù),以確定所檢測(cè)到的故障是否先前遇到過(guò)。
6.權(quán)利要求4的方法,所述方法還將所述系統(tǒng)配置成使一用戶可以分析所述外部數(shù)據(jù)庫(kù),以確定從各種故障模式的頻率和糾正動(dòng)作在排除故障中的效能中選擇的一特征。
7.權(quán)利要求1的方法,其中所述診斷處理和糾正動(dòng)作包括請(qǐng)求指導(dǎo)所述診斷處理和糾正動(dòng)作的用戶輸入。
8.一種包括存儲(chǔ)在計(jì)算機(jī)可讀媒體上的用來(lái)診斷數(shù)據(jù)處理系統(tǒng)的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括用于響應(yīng)從懷疑有一系統(tǒng)故障的一用戶請(qǐng)求所述診斷處理的事件和所述系統(tǒng)檢測(cè)到一故障的事件中選擇的一事件,執(zhí)行診斷處理的計(jì)算機(jī)代碼單元;用于執(zhí)行試圖排除所述故障的糾正動(dòng)作的計(jì)算機(jī)代碼單元;以及用于產(chǎn)生標(biāo)識(shí)所述系統(tǒng)、表征所述故障和標(biāo)識(shí)所采取的糾正動(dòng)作和所述糾正動(dòng)作奏效與否的一事故單的計(jì)算機(jī)代碼單元,無(wú)論所述糾正動(dòng)作奏效與否所述用于產(chǎn)生所述事故單的代碼單元都會(huì)執(zhí)行。
9.權(quán)利要求8的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品還包括用于響應(yīng)所述事件引導(dǎo)所述數(shù)據(jù)處理系統(tǒng)中含有所述診斷處理代碼單元的診斷分區(qū)的代碼單元。
10.權(quán)利要求8的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品還包括將所述事故單轉(zhuǎn)給一外部數(shù)據(jù)庫(kù)的代碼單元。
11.權(quán)利要求10的計(jì)算機(jī)程序產(chǎn)品,其中所述診斷處理和糾正動(dòng)作代碼單元包括用于訪問(wèn)所述外部數(shù)據(jù)庫(kù)以確定所述系統(tǒng)故障先前是否遇到過(guò)的代碼單元。
12.權(quán)利要求11的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品還包括用于在所述問(wèn)題先前遇到過(guò)時(shí)至少部分根據(jù)所述外部數(shù)據(jù)庫(kù)按優(yōu)先次序排列出所述糾正動(dòng)作序列的代碼單元。
13.權(quán)利要求10的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品還包括用于分析所述外部數(shù)據(jù)庫(kù)以確定從各種故障模式的頻率和所述糾正動(dòng)作在排除故障中的效能中選擇的一特征的代碼單元。
14.一種包括處理器、存儲(chǔ)媒體和I/O裝置的數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括用于響應(yīng)一系統(tǒng)故障的一指示執(zhí)行診斷處理的計(jì)算機(jī)代碼單元;用于執(zhí)行排除所述故障的糾正動(dòng)作的計(jì)算機(jī)代碼單元;以及用于產(chǎn)生標(biāo)識(shí)所述系統(tǒng)、表征所述故障和標(biāo)識(shí)所采取的糾正動(dòng)作和所述糾正動(dòng)作奏效與否的一事故單的計(jì)算機(jī)代碼單元。
15.權(quán)利要求14的數(shù)據(jù)處理系統(tǒng),其中所述數(shù)據(jù)處理系統(tǒng)的所述存儲(chǔ)媒體包括一個(gè)操作分區(qū)和一個(gè)診斷分區(qū),所述診斷分區(qū)包括所述診斷處理代碼。
16.權(quán)利要求14的數(shù)據(jù)處理系統(tǒng),所述數(shù)據(jù)處理系統(tǒng)還包括將所述事故單轉(zhuǎn)送給一個(gè)本地?cái)?shù)據(jù)庫(kù)和一個(gè)外部數(shù)據(jù)庫(kù)的代碼單元,其中所述診斷處理代碼單元包括用于訪問(wèn)所述外部和本地?cái)?shù)據(jù)庫(kù)中至少一個(gè)以確定所述系統(tǒng)故障的先前發(fā)生和利用所述數(shù)據(jù)庫(kù)信息指導(dǎo)要采取的糾正動(dòng)作的代碼單元。
17.一種數(shù)據(jù)處理系統(tǒng)維護(hù)服務(wù)方法,所述方法包括以下步驟提供能采取糾正動(dòng)作的診斷處理代碼;使得所述系統(tǒng)響應(yīng)一系統(tǒng)故障的一指示執(zhí)行所述診斷代碼;其中,響應(yīng)排除所述系統(tǒng)故障的所述糾正動(dòng)作,所述診斷代碼產(chǎn)生包括表明所述系統(tǒng)、所述系統(tǒng)故障和所述糾正動(dòng)作的信息的一事故單,以及將所述事故單轉(zhuǎn)送給一外部數(shù)據(jù)庫(kù),以使所述數(shù)據(jù)庫(kù)能監(jiān)視與本地所排除的系統(tǒng)故障有關(guān)的頻率、特征和糾正動(dòng)作。
18.權(quán)利要求17的數(shù)據(jù)處理系統(tǒng)維護(hù)服務(wù)方法,其中所述診斷代碼還將所述事故單存儲(chǔ)在一本地?cái)?shù)據(jù)庫(kù)內(nèi)。
19.權(quán)利要求17的數(shù)據(jù)處理系統(tǒng)維護(hù)服務(wù)方法,其中提供診斷代碼還具有以下特征將所述系統(tǒng)劃分為包括一診斷分區(qū)的至少兩個(gè)分區(qū),所述診斷分區(qū)包括所述診斷處理代碼,以及響應(yīng)所述系統(tǒng)故障的所述指示引導(dǎo)所述診斷分區(qū)。
20.權(quán)利要求17的數(shù)據(jù)處理系統(tǒng)維護(hù)服務(wù)方法,其中所述糾正動(dòng)作是從一列表中選出的,該列表包括重新引導(dǎo)所述系統(tǒng)、下載軟件驅(qū)動(dòng)程序、將所述系統(tǒng)恢復(fù)到最近一個(gè)所知的良好狀態(tài)和訪問(wèn)一個(gè)含有指示先前系統(tǒng)故障和糾正動(dòng)作的信息的數(shù)據(jù)庫(kù)。
全文摘要
數(shù)據(jù)處理系統(tǒng)服務(wù)包括使得系統(tǒng)響應(yīng)系統(tǒng)故障執(zhí)行診斷處理和使得系統(tǒng)在自動(dòng)診斷處理期間執(zhí)行試圖排除系統(tǒng)故障的糾正動(dòng)作。這種服務(wù)還包括將系統(tǒng)配置成產(chǎn)生一個(gè)含有表征所述系統(tǒng)故障和任何所嘗試的糾正動(dòng)作的事故單,無(wú)論所述糾正動(dòng)作在排除系統(tǒng)故障中奏效與否。還可以使得系統(tǒng)將事故單轉(zhuǎn)送給一個(gè)外部數(shù)據(jù)庫(kù)進(jìn)行分析和訪問(wèn)外部數(shù)據(jù)庫(kù)以確定檢測(cè)到的故障先前是否遇到過(guò)。系統(tǒng)可以被劃分成包括一個(gè)診斷分區(qū)的兩個(gè)分區(qū)。系統(tǒng)可以在出現(xiàn)故障后或響應(yīng)用戶的請(qǐng)求引導(dǎo)到這個(gè)診斷分區(qū)。
文檔編號(hào)G06F11/00GK1606002SQ200410070539
公開日2005年4月13日 申請(qǐng)日期2004年8月3日 優(yōu)先權(quán)日2003年10月10日
發(fā)明者R·W·切斯頓, D·C·克羅默, R·A·達(dá)揚(yáng), H·J·洛克 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司