專利名稱:用于跟蹤與數(shù)據(jù)存儲驅(qū)動有關(guān)的錯誤事件的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)存儲的錯誤處理,尤其涉及跟蹤自動數(shù)據(jù)存儲庫 子系統(tǒng)的數(shù)據(jù)存儲驅(qū)動和數(shù)據(jù)存儲介質(zhì)的錯誤事件。
背景技術(shù):
數(shù)據(jù)存儲子系統(tǒng)包括用于數(shù)據(jù)存儲和訪問的高度可靠的裝置。自 動數(shù)據(jù)存儲庫子系統(tǒng)提供了大量數(shù)據(jù)存儲介質(zhì)的存儲并且一般具有 大量的數(shù)據(jù)存儲驅(qū)動,而且可以提供高速緩存和其它中間存儲,以 便將數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)存儲介質(zhì)以及從數(shù)據(jù)存儲介質(zhì)中訪問數(shù)據(jù)。當(dāng) 錯誤可能出現(xiàn)時,希望既確保防止數(shù)據(jù)丟失又確保防止數(shù)據(jù)存儲介 質(zhì)或數(shù)據(jù)存儲驅(qū)動的不必要移除和替換,并避免更新子系統(tǒng)和/或數(shù) 據(jù)所需的時間。另外,還希望確保防止不必要的服務(wù)呼叫并且避免 可能導(dǎo)致的潛在停機時間。這意味著自動檢查錯誤事件并實施移除、 替換以及在必要時提供服務(wù)呼叫是所希望的。
發(fā)明內(nèi)容
在某些實施例中,自動數(shù)據(jù)存儲庫子系統(tǒng)、計算機程序產(chǎn)品及方 法涉及自動數(shù)據(jù)存儲庫子系統(tǒng)的庫控制器,該庫具有被配置成存儲 數(shù)據(jù)存儲介質(zhì)的存儲架、多個數(shù)據(jù)存儲驅(qū)動以及被配置成在存儲架 和數(shù)據(jù)存儲驅(qū)動之間傳送數(shù)據(jù)存儲介質(zhì)的至少 一 個自動機存取器
(robot accessor)。
在一個實施例中, 一種方法,檢測涉及數(shù)據(jù)存儲驅(qū)動和數(shù)據(jù)存儲 介質(zhì)的被選錯誤事件的發(fā)生; 一旦被選錯誤事件涉及數(shù)據(jù)存儲介質(zhì), 就嘗試把該數(shù)據(jù)存儲介質(zhì)移到另 一數(shù)據(jù)存儲驅(qū)動,并實施與導(dǎo)致該 被選錯誤事件的操作類似的操作;分開跟蹤個體數(shù)據(jù)存儲驅(qū)動和個
體數(shù)據(jù)存儲介質(zhì)的連續(xù)錯誤事件,其中數(shù)據(jù)存儲驅(qū)動和/或數(shù)據(jù)存儲
介質(zhì)的完整成功操作打斷了連續(xù)錯誤事件的鏈;把數(shù)據(jù)存儲驅(qū)動和/ 或數(shù)據(jù)存儲介質(zhì)的連續(xù)錯誤事件的數(shù)目與門限值進行比較;并且一 旦連續(xù)錯誤事件的數(shù)目達到門限值,就把數(shù)據(jù)存儲驅(qū)動和/或數(shù)據(jù)存 儲介質(zhì)放置在故障類別中。
在另一個實施例中, 一種方法,還涉及把涉及數(shù)據(jù)存儲驅(qū)動的 錯誤事件和涉及數(shù)據(jù)存儲介質(zhì)的錯誤事件分類為
1) 在數(shù)據(jù)存儲介質(zhì)安裝到數(shù)據(jù)存儲驅(qū)動中之前或期間的錯誤事 件;
2) 在數(shù)據(jù)存儲介質(zhì)成功安裝到數(shù)據(jù)存儲驅(qū)動中之后的錯誤事 件;
并對于數(shù)據(jù)存儲驅(qū)動和數(shù)據(jù)存儲介質(zhì)的每個類別分別地實施跟蹤、 比較和放置步驟。
在又一個實施例中, 一種方法,還把錯誤事件還分類為
A) 即時錯誤事件;和
B) 非即時錯誤事件;
一旦隔離了具有即時錯誤事件的數(shù)據(jù)存儲驅(qū)動或數(shù)據(jù)存儲介 質(zhì),就把被隔離的數(shù)據(jù)存儲介質(zhì)或數(shù)據(jù)存儲驅(qū)動放置在故障類別中; 并對于在所述即時錯誤事件中涉及的所述數(shù)據(jù)存儲驅(qū)動或所述數(shù)據(jù) 存儲介質(zhì)中的所述非即時錯誤事件實施所述跟蹤、比較和放置步驟, 所述即時錯誤事件具有所述故障類別數(shù)據(jù)存儲介質(zhì)或所述故障類別 數(shù)據(jù)存儲驅(qū)動,而不必在錯誤事件的所述連續(xù)或所述累計中考慮所 述即時錯誤事件。
在又一個實施例中, 一種方法,分別累計在一段時間周期上每 個類別中的關(guān)于個體數(shù)據(jù)存儲驅(qū)動和關(guān)于個體數(shù)據(jù)存儲介質(zhì)的被選 錯誤事件;把類別中的數(shù)據(jù)存儲驅(qū)動的和數(shù)據(jù)存儲介質(zhì)的累計錯誤 事件數(shù)目與門限值進行比較;并且一旦該類別中的累計錯誤事件數(shù) 目達到該門限值,就把數(shù)據(jù)存儲驅(qū)動和/或數(shù)據(jù)存儲介質(zhì)放置在故障 類別中。
在另一個實施例中, 一種方法,還涉及如果錯誤事件彼此相 關(guān),則降低這些錯誤事件在被選錯誤事件的連續(xù)之中以及累計中的權(quán)重。
在又一個實施例中, 一種方法,還涉及如果數(shù)據(jù)存儲驅(qū)動從 子系統(tǒng)中被移除,則清除在被移除數(shù)據(jù)存儲驅(qū)動處發(fā)生的數(shù)據(jù)存儲 介質(zhì)的錯誤事件。
在另一個實施例中, 一種方法,還涉及如果數(shù)據(jù)存儲驅(qū)動從 子系統(tǒng)中被移除并被返回,則清除被移除并被返回的數(shù)據(jù)存儲驅(qū)動 的錯誤事件。
在又一個實施例中, 一種方法,還涉及如果數(shù)據(jù)存儲介質(zhì)從 子系統(tǒng)中被移除,則清除在數(shù)據(jù)存儲驅(qū)動處發(fā)生的關(guān)于該被移除數(shù) 據(jù)存儲介質(zhì)的數(shù)據(jù)存儲驅(qū)動錯誤事件。
在又一個實施例中, 一種方法,還涉及如果數(shù)據(jù)存儲介質(zhì)從 子系統(tǒng)中被移除并被返回,則清除被移除并被返回的數(shù)據(jù)存儲介質(zhì) 的錯誤事件。
在另一個實施例中, 一種方法,還涉及把相關(guān)錯誤減少成單個 被選錯誤事件。
在又一個實施例中, 一種方法,還涉及在數(shù)據(jù)庫中存儲與被選 錯誤事件相關(guān)的信息,其中被選錯誤事件與數(shù)據(jù)存儲介質(zhì)和數(shù)據(jù)存 儲驅(qū)動都相關(guān),該信息描述了數(shù)據(jù)存儲介質(zhì)和數(shù)據(jù)存儲驅(qū)動以及被 選錯誤事件。
為了更完整地理解本發(fā)明,請參考結(jié)合附圖進行的隨后的詳細說明。
圖1是可以實現(xiàn)本發(fā)明的自動數(shù)據(jù)存儲庫的等尺寸圖; 圖2是圖1的自動數(shù)據(jù)存儲庫的打開框架的示意圖; 圖3是系統(tǒng)方框示意圖,該系統(tǒng)包括有具有圖1和圖2的自動數(shù) 據(jù)存儲庫的自動數(shù)據(jù)存儲庫子系統(tǒng);和
圖4是描述了根據(jù)本發(fā)明的圖3的自動數(shù)據(jù)存儲庫子系統(tǒng)的自動 操作的流程圖。
具體實施例方式
在如下描述中將參考附圖以優(yōu)選實施例來描述本發(fā)明,其中,相 同的附圖標(biāo)記表示相同或類似的元件。雖然本發(fā)明是按照實現(xiàn)本發(fā) 明目的的最佳模式來描述的,但是本領(lǐng)域的技術(shù)人員將會明白,參 照這些教導(dǎo)在不脫離本發(fā)明的精神或范圍的前提下可以實現(xiàn)各種變化。
圖1、 2和3說明了根據(jù)本發(fā)明在子系統(tǒng)101中配置的自動數(shù)據(jù) 存儲庫100的一個實施例,所述自動數(shù)據(jù)存儲庫100被布置成一般 響應(yīng)于來自至少 一 個外部主機系統(tǒng)21的命令來訪問諸如^茲帶盒之類 的數(shù)據(jù)存儲介質(zhì),并且包括一個或多個框架50、 51、 52、 53、 54和 55,它們每一個都具有多個用于存儲數(shù)據(jù)存儲介質(zhì)的存儲架66,并 且可以具有多個用于相對于數(shù)據(jù)存儲介質(zhì)進行讀取和寫入數(shù)據(jù)的數(shù) 據(jù)存儲驅(qū)動10。庫100還包括至少一個用于在存儲架66和數(shù)據(jù)存儲 驅(qū)動IO之間傳送數(shù)據(jù)存儲介質(zhì)的自動機存取器68。自動機存取器 68包括用于夾持一個或多個數(shù)據(jù)存儲介質(zhì)的夾持器組件60,而且可 以包括存取器感應(yīng)器72以讀取數(shù)據(jù)存儲介質(zhì)的標(biāo)簽。例如,在輸入 /輸出臺77處,磁帶數(shù)據(jù)存儲盒可以被添加到庫中或者從庫中被移 除。在此,自動數(shù)據(jù)存儲庫子系統(tǒng)101可以包括單個自動數(shù)據(jù)存儲 庫100,或包括多個庫。多個庫可以-故物理地連接到一起,以4吏自動 機存取器可以在每個庫之間移動以及移動到每個庫中,或者使得建 立一個通路以便允許數(shù)據(jù)存儲介質(zhì)在各個庫之間移動。
庫子系統(tǒng)101還包括庫控制器80,它可以被分布在各個框架之 中以便操作該庫、與主機系統(tǒng)21通信以及與數(shù)據(jù)存儲驅(qū)動IO通信。 另外,庫可以提供一個或多個操作面板93用于與庫控制器通信。自 動數(shù)據(jù)存儲庫的一個例子包括IBM 3584磁帶庫,并且自動數(shù)據(jù)存儲 庫的另一個例子包括IBlVf3494磁帶庫。在此,"庫控制器,,可以包
括任何合適的邏輯、微處理器以及用于對程序代碼進行響應(yīng)的相關(guān) 聯(lián)的存儲器和/或數(shù)據(jù)存儲,并且相關(guān)聯(lián)的存儲器和/或數(shù)據(jù)存儲可以 包括固定的或者可重寫的存儲器或數(shù)據(jù)存儲設(shè)備。通過以下方式程 序代碼可以像來自數(shù)據(jù)存儲設(shè)備或存儲器中 一樣被直接提供給庫控
制器例如,在例如操作面板93處通過來自光盤的輸入、或者例如 在數(shù)據(jù)存儲驅(qū)動IO處通過從磁帶盒中讀取、或者例如經(jīng)由主機系統(tǒng) 21來自網(wǎng)絡(luò)、或者通過任何其它合適的方式。庫控制器80—般位于 自動數(shù)據(jù)存儲庫100中,但是也可物理上位于子系統(tǒng)中的任意點處, 或者跨該庫或子系統(tǒng)分布。
庫子系統(tǒng)101可以包括或者不包括虛擬化節(jié)點40,并且可以包 括或者不包括高速緩存45。虛擬化節(jié)點40可以包括庫控制器的 一部 分或者可以包括獨立實體,并且包括磁帶守護進程(daemon) 41, 其才莫擬對主機系統(tǒng)21的》茲帶驅(qū)動,但是正如本領(lǐng)域技術(shù)人員已知的 那樣,它實際上對位于高速緩存45上的文件進行操作。正如本領(lǐng)域 技術(shù)人員已知的那樣,高速緩存45 —般是諸如RAID (獨立冗余磁盤 陣列)之類的一個磁盤文件子系統(tǒng),或者是若干個如此的磁盤文件子
系統(tǒng)。子系統(tǒng)把數(shù)據(jù)從主機系統(tǒng)放到高速緩存中并把該數(shù)據(jù)移到自 動數(shù)據(jù)存儲庫。數(shù)據(jù)可被保留在高速緩存45中,以供主機系統(tǒng)快速 訪問,并且,如果數(shù)據(jù)已被轉(zhuǎn)移,則正如本領(lǐng)域技術(shù)人員已知的那 樣,它 一般從自動數(shù)據(jù)存儲庫被移到高速緩存并使其可從高速緩存 中獲得。
雖然庫、數(shù)據(jù)存儲驅(qū)動和數(shù)據(jù)存儲介質(zhì)是高度可靠的,但是錯誤 還是可能發(fā)生,并且錯誤類型可能極不相同。為了避免一些錯誤, 可以實施各種重試過程。例如,讀取錯誤可能是由于如下問題所引 起正在從磁帶數(shù)據(jù)存儲介質(zhì)中讀取數(shù)據(jù)的磁帶驅(qū)動的讀頭未對準(zhǔn)、 寫入數(shù)據(jù)的磁帶驅(qū)動的寫頭未對準(zhǔn)、磁帶數(shù)據(jù)存儲介質(zhì)中的缺陷、 延伸的磁帶數(shù)據(jù)存儲介質(zhì)、正在讀取數(shù)據(jù)的磁帶驅(qū)動中的伺服錯誤 等等。因此,重試過程可以嘗試改變磁帶驅(qū)動的一個或多個參數(shù), 比如使伺服少量偏移等等。在此,不是每個錯誤都導(dǎo)致"被選錯誤
事件,,。例如,如果驅(qū)動實施最終起作用的重試過程,則原始錯誤 可能不包括被選錯誤事件??商鎿Q地,如果在操作成功完成之前實 施了大量重試過程,則可以將原始錯誤認為是一些未來問題的警告, 并且因此原始(或上一個)錯誤可以被認為是被選錯誤事件。仍然 可替換地,該錯誤可以是重試不會起作用的類型,諸如數(shù)據(jù)存儲介 質(zhì)盒從存儲架中丟失之類的錯誤,例如,操作員未更新庫目錄將其 從庫中移除,因此無法找到標(biāo)簽或者無法訪問由該物理目錄指示的 物理存儲架處的盒的錯誤可能構(gòu)成被選錯誤事件而無有效的重試過 程。在同一情形下,如果錯誤是無法讀取標(biāo)簽(因為標(biāo)簽不在那里), 則在錯誤變成被選錯誤事件之前,可以實施相當(dāng)數(shù)量的重試以便確 定存在該錯誤。許多其它場景是本領(lǐng)域技術(shù)人員已知的,并且,關(guān) 于選擇哪些種錯誤類型以及在潛在的錯誤變成被選錯誤事件之前所 需的重試量在此易受到相當(dāng)大的改變。
另外,許多錯誤可能在不知道該錯誤是由于數(shù)據(jù)存儲驅(qū)動、數(shù)據(jù) 存儲介質(zhì)、前一數(shù)據(jù)存儲驅(qū)動、或另一實體或設(shè)備所引起的情況下 發(fā)生。被選錯誤事件可以只提供描述被檢測到的錯誤或問題的錯誤 代碼,而不必識別該錯誤或問題的來源。
參見圖3和4,示出了一種用于相對于自動數(shù)據(jù)存儲庫子系統(tǒng)實 現(xiàn)本發(fā)明的方法實施例。在步驟200中,檢測如上所討論的被選錯 誤事件。檢測可以是通過數(shù)據(jù)存儲驅(qū)動10、通過自動機存取器68 等等來進行,并且一般借助于錯誤代碼來進行報告。在此,檢測還 描述了所涉及的數(shù)據(jù)存儲驅(qū)動和/或數(shù)據(jù)存儲介質(zhì)。
步驟202把被選錯誤事件中彼此可能相關(guān)的 一些進行分組,把檢 測到的錯誤事件減少成單個錯誤事件。例如,數(shù)據(jù)存儲驅(qū)動在打開 已經(jīng)被安裝在該驅(qū)動中的數(shù)據(jù)存儲介質(zhì)的文件時可能有錯誤,在從 該數(shù)據(jù)存儲介質(zhì)讀取數(shù)據(jù)時可能有錯誤,在向該數(shù)據(jù)存儲介質(zhì)寫入 數(shù)據(jù)時可能有錯誤,并且在關(guān)閉文件時可能有錯誤。所有這些錯誤 可能只有一個原因,于是被減少成單個錯誤事件。
在步驟205中,可以將檢測信息提供給庫控制器80的數(shù)據(jù)庫85,
并被存儲在其中,例如在驅(qū)動-介質(zhì)表中,列出所涉及的數(shù)據(jù)存儲驅(qū) 動和所涉及的數(shù)據(jù)存儲介質(zhì)相關(guān)的每個被選錯誤事件。如果與被選 錯誤事件相關(guān)的信息與數(shù)據(jù)存儲介質(zhì)和數(shù)據(jù)存儲驅(qū)動都相關(guān),則存 儲在數(shù)據(jù)庫中的信息描述該數(shù)據(jù)存儲介質(zhì)和錯誤事件,并且描述該 數(shù)據(jù)存儲驅(qū)動和被選錯誤事件。該表格慮及了將要描述的被選錯誤 事件的跟蹤。為了一些與錯誤無關(guān)的目的,庫中的所有介質(zhì)可以在
數(shù)據(jù)庫85中都有條目。存儲在數(shù)據(jù)庫中的信息的例子包括巻名、它 所包含的數(shù)據(jù)的狀態(tài)以及數(shù)量。步驟205確定所涉及的數(shù)據(jù)存儲驅(qū) 動(如果有)以及所涉及的數(shù)據(jù)存儲介質(zhì)(如果有),并把該信息 存儲在數(shù)據(jù)庫85中。數(shù)據(jù)庫85可以包括庫控制器的一部分存儲器 和/或數(shù)據(jù)存儲,或者可以包括不同的存儲器和/或不同的數(shù)據(jù)存儲。
關(guān)于本發(fā)明,數(shù)據(jù)庫85還至少識別這個介質(zhì)所安裝到其上的、 具有前一錯誤的上一物理驅(qū)動。在步驟207,基于存在錯誤的上一物 理驅(qū)動的數(shù)據(jù)庫信息,庫嘗試把該錯誤中所涉及的數(shù)據(jù)存儲介質(zhì)移 到另 一數(shù)據(jù)存儲驅(qū)動去,并且實施與導(dǎo)致該被選錯誤事件的操作類 似的操作。例如如果通過錯誤檢測步驟200的重復(fù)等等而發(fā)現(xiàn)錯誤 在第二數(shù)據(jù)存儲驅(qū)動上重復(fù),那么該介質(zhì)很可能是該問題的原因。 如果錯誤未重復(fù),那么不知道該錯誤是否被另一個驅(qū)動所克服或者 該原始的驅(qū)動是否是該問題的原因。步驟207防止重試過程再次嘗 試該操作,但是發(fā)現(xiàn)當(dāng)前可用的唯一驅(qū)動是發(fā)生該問題的那個驅(qū)動, 并且可能再三在原始驅(qū)動處嘗試該操作且重復(fù)該問題。
在步驟210中, 一些被選錯誤事件可以被認為是"即時事件,,。 一個例子包括庫子系統(tǒng)嘗試訪問數(shù)據(jù)存儲介質(zhì)盒但無法定位該盒, 這意味著不可訪問或者放置錯誤,例如,該盒已經(jīng)從庫子系統(tǒng)中被 移除而未更新目錄。另一個例子包括驅(qū)動已被重新配置但是重新配 置還未通知庫控制器,因此重新配置之前的驅(qū)動不再"存在"于庫 中。步驟210將錯誤事件分類為A)即時錯誤事件;和B)非即時錯 誤事件。
如果錯誤事件是即時錯誤事件,則步驟213隔離具有即時錯誤事
件的數(shù)據(jù)存儲介質(zhì)或數(shù)據(jù)存儲驅(qū)動,并且在步驟215,把被隔離的數(shù) 據(jù)存儲介質(zhì)或數(shù)據(jù)存儲驅(qū)動放在故障類別中。例如,如果數(shù)據(jù)存儲 介質(zhì)盒不能被訪問,則該介質(zhì)發(fā)生故障。如果數(shù)據(jù)存儲驅(qū)動無法被 找到,則該驅(qū)動發(fā)生故障。關(guān)于故障介質(zhì)或者故障驅(qū)動的信息可被 保持在數(shù)據(jù)庫中,以防該介質(zhì)或驅(qū)動再出現(xiàn)。
如果錯誤事件是非即時錯誤事件,則步驟220把涉及數(shù)據(jù)存儲驅(qū) 動和/或數(shù)據(jù)存儲介質(zhì)的錯誤事件分類為1)在數(shù)據(jù)存儲介質(zhì)安裝到 數(shù)據(jù)存儲驅(qū)動中之前或期間的錯誤事件;2)在數(shù)據(jù)存儲介質(zhì)成功安 裝到數(shù)據(jù)存儲驅(qū)動中之后的錯誤事件。
在數(shù)據(jù)存儲介質(zhì)的情況下,不是在錯誤事件之后把該介質(zhì)表征為 出故障,而是至少在某些錯誤之后可以把該介質(zhì)發(fā)送到恢復(fù)隊列。 在恢復(fù)隊列中的數(shù)據(jù)存儲介質(zhì)然后可以通過只讀恢復(fù)處理,以便恢 復(fù)盡可能多的數(shù)據(jù)。在此,術(shù)語"故障類別"和類似的術(shù)語是指故 障的特征以及在恢復(fù)處理中的放置其中之 一 或者兩者。
在安裝數(shù)據(jù)存儲介質(zhì)之前或期間的錯誤事件的例子包括不能被 裝入(threaded)驅(qū)動中的磁帶導(dǎo)帶塊(leader block),例如,由于 導(dǎo)帶塊丟失或者在錯誤的位置,或者由于驅(qū)動裝入(threading)機構(gòu) 工作不正常。在成功安裝之后的一個錯誤事件例子是不能將數(shù)據(jù)寫 入介質(zhì),例如是由于寫保護按鈕已被設(shè)置,或者由于驅(qū)動寫入驅(qū)動 器未正常起作用。在成功安裝之后的另 一錯誤事件例子是伺服錯誤, 例如由于磁帶被延伸并錯誤定位了伺服軌跡,或者由于驅(qū)動伺服有 跟蹤錯誤。如果可能是驅(qū)動或者介質(zhì)的錯誤發(fā)生,則錯誤事件歸因 于二者。
根據(jù)本發(fā)明,被分類的錯誤事件在性質(zhì)上如此不同以至于它們毫 不相干,并且跟蹤這些不同類型的連續(xù)錯誤很可能導(dǎo)致驅(qū)動或介質(zhì) 的錯誤故障。
提供僅僅兩種類別把重點放在特定的驅(qū)動或者特定的介質(zhì)上,而 非放在錯誤類型上,改變重點將其從具體驅(qū)動如何編碼錯誤移開。 以這種方式,該算法對驅(qū)動類型或者驅(qū)動制造商是不可知的,這些
制造商可能以特別f I起他們興趣的特定方法對錯誤進行編碼。
步驟221降低相關(guān)錯誤事件的權(quán)重。例如,如果庫斷電,則當(dāng)該 庫再次加電和/或重新初始化時,可能在一些或者所有數(shù)據(jù)存儲驅(qū)動 處發(fā)生錯誤,并且步驟221降低權(quán)重或者除去出現(xiàn)的與加電和/或重 新初始化相關(guān)的所有錯誤。
步驟230分開跟蹤在步驟220的兩個類別中的個體數(shù)據(jù)存儲驅(qū)動 和個體數(shù)據(jù)存儲介質(zhì)的連續(xù)錯誤事件。如果數(shù)據(jù)存儲驅(qū)動或數(shù)據(jù)存 儲介質(zhì)沒有歸因于其的錯誤事件,則數(shù)據(jù)存儲驅(qū)動或數(shù)據(jù)存儲介質(zhì) 根本不需要被跟蹤。連續(xù)錯誤事件例如從上面討論的數(shù)據(jù)庫中的條
目被跟蹤。在此,"分開跟蹤"可以指分開跟蹤所有驅(qū)動和介質(zhì)的 每一個并且指出它們是否有錯誤事件;或者只分開跟蹤已經(jīng)被識別 為具有錯誤事件的驅(qū)動和介質(zhì)。正如上面所討論的那樣,如果可能 是驅(qū)動或者介質(zhì)的錯誤發(fā)生,則錯誤事件歸因于二者。假設(shè)由于步 驟207把介質(zhì)移到另 一驅(qū)動的連續(xù)錯誤出現(xiàn)是因為具有連續(xù)錯誤事 件的驅(qū)動或介質(zhì)就是問題所在。
在步驟232中,數(shù)據(jù)存儲驅(qū)動和/或數(shù)據(jù)存儲介質(zhì)的完整的成功 操作打斷了連續(xù)錯誤事件的鏈。根據(jù)本發(fā)明,該鏈只與錯誤事件的 特定類別相關(guān)。因此,盒的成功安裝打斷了與被安裝的盒相關(guān)和/或 與在其位置處盒正被安裝的驅(qū)動相關(guān)的安裝之前或期間的錯誤事件 的鏈,但是沒有打斷在成功安裝之后發(fā)生的錯誤事件的鏈。在安裝 之后的成功操作將打斷"成功安裝之后,,類別的錯誤事件的鏈。
在此,術(shù)語"數(shù)據(jù)存儲驅(qū)動和/或數(shù)據(jù)存儲介質(zhì)",或者反過來 "數(shù)據(jù)存儲介質(zhì)和/或數(shù)據(jù)存儲驅(qū)動",以及類似的術(shù)語,是指與數(shù) 據(jù)存儲驅(qū)動和數(shù)據(jù)存儲介質(zhì)中的至少一個相關(guān)的動作。因此,在成 功安裝之后涉及數(shù)據(jù)存儲盒的連續(xù)錯誤事件鏈的例子中,其中數(shù)據(jù) 存儲驅(qū)動沒有當(dāng)前錯誤事件鏈,則驅(qū)動和盒的成功操作只打斷盒的 連續(xù)錯誤事件鏈。
步驟235把數(shù)據(jù)存儲驅(qū)動和/或數(shù)據(jù)存儲介質(zhì)的連續(xù)錯誤事件的 數(shù)目與門限值237進行比較;并且一旦連續(xù)錯誤事件的數(shù)目達到該
門限值,就在步驟238把數(shù)據(jù)存儲驅(qū)動和/或數(shù)據(jù)存儲介質(zhì)放在故障 類別中。
可為數(shù)據(jù)存儲介質(zhì)和數(shù)據(jù)存儲驅(qū)動設(shè)置不同的步驟237的門限 值,并且可為不同的錯誤事件類別設(shè)置不同的步驟237的門限值。 驅(qū)動的門限值可以被保守地設(shè)置,例如以便使驅(qū)動容易故障從而阻 止情況更糟以及潛在地損毀若干介質(zhì),或者或許以便補償不像其它 驅(qū)動精確的那些驅(qū)動。門限值可以被設(shè)置得較高,例如以避免或者 延遲在不尋常的高的裝載周期期間花很長時間交換驅(qū)動。介質(zhì)的門 限值可以被保守地設(shè)置以便更好地確保防止?jié)撛诘臄?shù)據(jù)丟失,或者 可以對于具有諸如地震數(shù)據(jù)串之類非關(guān)鍵數(shù)據(jù)的介質(zhì)而將所述門限 值設(shè)置為較高。
一串連續(xù)錯誤事件的發(fā)生是具有連續(xù)錯誤的驅(qū)動或介質(zhì)有問題 的強有力證據(jù)。因此門限值的 一 個例子是4個連續(xù)錯誤事件。
步驟240分開累計在一個時間周期上在每個類別中關(guān)于個體數(shù) 據(jù)存儲驅(qū)動以及關(guān)于個體數(shù)據(jù)存儲介質(zhì)的被選錯誤事件。例如是24 小時一個周期的時間可以通過重置243來控制。這個累計不被成功 操作重置,并且累計在整個周期內(nèi)繼續(xù)。例如,在關(guān)于介質(zhì)的錯誤 事件之后,以至于該介質(zhì)在步驟207被安裝到不同的驅(qū)動上,則對 于不同的介質(zhì)成功完成了不同的操作,這打斷了步驟232的鏈,但 是錯誤事件在這一天中稍后再次發(fā)生。這也可能是指示驅(qū)動有問題。
步驟235把類別中的數(shù)據(jù)存儲驅(qū)動和/或數(shù)據(jù)存儲介質(zhì)的累計錯 誤事件的數(shù)目與門限值237進行比較;并且一旦該類別中的累計錯 誤事件的數(shù)目達到該門限值,則在步驟238把數(shù)據(jù)存儲驅(qū)動和/或數(shù) 據(jù)存儲介質(zhì)放到故障類別中。
與步驟230的連續(xù)事件相比,可以為步驟240的累計錯誤事件設(shè) 置不同的步驟237的門限值。另外,該門限值對于數(shù)據(jù)存儲介質(zhì)和 對于數(shù)據(jù)存儲驅(qū)動可以不同,而且對于不同類別的錯誤事件可以設(shè) 置為不同。正如在上面討論的那樣,驅(qū)動的門限值可以被保守地設(shè) 置,例如以便使驅(qū)動容易故障從而阻止情況更糟以及潛在地損毀若
干介質(zhì),或者或許以便補償不像其它驅(qū)動精確的那些驅(qū)動。門限值 可以被設(shè)置為較高,例如以避免或者延遲在不尋常的高的裝載周期 期間花很長時間交換驅(qū)動。介質(zhì)的門限值可以被保守地設(shè)置以便更 好地確保防止?jié)撛诘臄?shù)據(jù)丟失,或者可以對于具有諸如地震數(shù)據(jù)串 之類非關(guān)鍵數(shù)據(jù)的介質(zhì)將所述門限值設(shè)置為較高。
在一個給定時間周期內(nèi)若干錯誤事件的發(fā)生是有錯誤的驅(qū)動或
介質(zhì)有問題的證據(jù)。因此門限值的 一個例子是累計4個錯誤事件。
如果哪個門限值都不滿足,則該處理從步驟241繼續(xù)以檢查數(shù)據(jù) 庫以便跟蹤并累計錯誤事件計數(shù)。
一種備選故障類型在步驟250中被指出,其中不但一個驅(qū)動或介 質(zhì)故障,而且相當(dāng)多的驅(qū)動和/或介質(zhì)已經(jīng)出故障從而呈現(xiàn)出需要另 外引起注意的情形。因此,在步驟250,"call home (呼叫中心)" 信號被發(fā)出以便呼叫管理員、和/或庫制造商、和/或驅(qū)動制造商或供 應(yīng)商、和/或介質(zhì)制造商或供應(yīng)商。隨后的分析可能導(dǎo)致或者可能不 會導(dǎo)致服務(wù)呼叫。
一旦通過步驟260檢測到故障驅(qū)動或介質(zhì)被移除,則可能是現(xiàn)在 解決了該驅(qū)動或介質(zhì)涉及的介質(zhì)或驅(qū)動的錯誤事件,這些錯誤事件 也已經(jīng)被添加到數(shù)據(jù)庫,用于受到影響的其它介質(zhì)或驅(qū)動。
在步驟260和265中,如果數(shù)據(jù)存儲驅(qū)動從子系統(tǒng)中被移除,則 清除該被移除的數(shù)據(jù)存儲驅(qū)動處發(fā)生的數(shù)據(jù)存儲介質(zhì)的錯誤事件。
類似地,在步驟260和265中,如果數(shù)據(jù)存儲介質(zhì)從子系統(tǒng)中被 移除,則清除在數(shù)據(jù)存儲驅(qū)動處發(fā)生的關(guān)于該被移除的數(shù)據(jù)存儲介 質(zhì)的數(shù)據(jù)存儲驅(qū)動的錯誤事件。
一旦故障驅(qū)動或介質(zhì)通過步驟270已被檢測到已被移除然后被 返回,則可以假定該驅(qū)動或介質(zhì)在被返回之前已被修理。
在步驟270和275中,如果數(shù)據(jù)存儲驅(qū)動從子系統(tǒng)中被移除然后 被返回,則清除該被移除并被返回的數(shù)據(jù)存儲驅(qū)動的錯誤事件。
同樣在步驟270和275中,如果數(shù)據(jù)存儲介質(zhì)從子系統(tǒng)中被移除 然后被返回,則清除該被移除并被返回的數(shù)據(jù)存儲介質(zhì)的錯誤事件。
在即時錯誤事件的情況下,在步驟280,如果數(shù)據(jù)存儲驅(qū)動在步 驟210、 213和215出故障,則在該故障數(shù)據(jù)存儲驅(qū)動處發(fā)生的數(shù)據(jù) 存儲介質(zhì)的相應(yīng)錯誤不被認為是錯誤事件。類似地,如果數(shù)據(jù)存儲 介質(zhì)在步驟210、 213和215出故障,則相對于該故障數(shù)據(jù)存儲介質(zhì) 而發(fā)生的數(shù)據(jù)存儲驅(qū)動的相應(yīng)錯誤不被認為是錯誤事件。
本領(lǐng)域技術(shù)人員應(yīng)該理解對于上面所討論的這些方法可以進行 各種改變,包括對步驟的排序的改變或者各種步驟的移除。另外, 本領(lǐng)域技術(shù)人員應(yīng)該理解除了在此示出的布置之外還可以使用不 同的特定組件布置。
雖然已詳細說明了本發(fā)明的優(yōu)選實施例,但是應(yīng)該明白對本領(lǐng) 域技術(shù)人員來說,可以想到對于那些實施例的改變和修改,而未偏 離如隨后權(quán)利要求中所闡明的本發(fā)明的范圍。
權(quán)利要求
1.一種在自動數(shù)據(jù)存儲庫子系統(tǒng)中的方法,其中所述自動數(shù)據(jù)存儲庫子系統(tǒng)具有被配置成存儲數(shù)據(jù)存儲介質(zhì)的存儲架、多個數(shù)據(jù)存儲驅(qū)動和被配置成在所述存儲架和所述數(shù)據(jù)存儲驅(qū)動之間傳送數(shù)據(jù)存儲介質(zhì)的至少一個自動機存取器,該方法包括檢測涉及數(shù)據(jù)存儲驅(qū)動的被選錯誤事件和涉及數(shù)據(jù)存儲介質(zhì)的被選錯誤事件的發(fā)生;一旦被選錯誤事件涉及數(shù)據(jù)存儲介質(zhì),就嘗試把所述數(shù)據(jù)存儲介質(zhì)移到另一數(shù)據(jù)存儲驅(qū)動,并實施與導(dǎo)致所述被選錯誤事件的操作類似的操作;分開跟蹤個體數(shù)據(jù)存儲驅(qū)動和個體數(shù)據(jù)存儲介質(zhì)的連續(xù)錯誤事件,其中所述數(shù)據(jù)存儲驅(qū)動和所述數(shù)據(jù)存儲介質(zhì)中至少一個的完整成功操作打斷了所述連續(xù)錯誤事件的鏈;把所述數(shù)據(jù)存儲驅(qū)動和所述數(shù)據(jù)存儲介質(zhì)中至少一個的所述連續(xù)錯誤事件的數(shù)目與門限值進行比較;以及一旦所述連續(xù)錯誤事件的所述數(shù)目達到所述門限值,就把所述數(shù)據(jù)存儲驅(qū)動和所述數(shù)據(jù)存儲介質(zhì)中的至少一個放置在故障類別中。
2. 根據(jù)權(quán)利要求1的方法,還包括把涉及所述數(shù)據(jù)存儲驅(qū)動的所述錯誤事件和涉及所述數(shù)據(jù)存儲 介質(zhì)的所述錯誤事件分類為1 )在數(shù)據(jù)存儲介質(zhì)安裝到數(shù)據(jù)存儲驅(qū)動中之前和期間的錯誤事件;2 )在數(shù)據(jù)存儲介質(zhì)成功安裝到數(shù)據(jù)存儲驅(qū)動中之后的錯誤事件; 對于所述數(shù)據(jù)存儲驅(qū)動和所述數(shù)據(jù)存儲介質(zhì)的每個所述類別實施所述跟蹤、比較和放置步驟。
3. 根據(jù)權(quán)利要求2的方法,還包括 把所述錯誤事件分類為A) 即時錯誤事件;和2 B) 非即時錯誤事件;以及一旦隔離了具有所述即時錯誤事件的數(shù)據(jù)存儲驅(qū)動和數(shù)據(jù)存儲 介質(zhì)中的至少一個,就把所述數(shù)據(jù)存儲介質(zhì)和所述數(shù)據(jù)存儲驅(qū)動中 所述被隔離的至少 一 個放置在故障類別中;并對于在所述即時錯誤一個的所述非即時錯誤事件實施所述跟蹤、比較和放置步驟,所述 即時錯誤事件具有所述故障類別數(shù)據(jù)存儲介質(zhì)和所述故障類別數(shù)據(jù) 存儲驅(qū)動中至少一個,而不必在錯誤事件的所述連續(xù)或所述累計中 考慮所述即時錯誤事件。
4. 根據(jù)權(quán)利要求2的方法,還包括分開累計在一個時間周期上每個所述類別中關(guān)于個體數(shù)據(jù)存儲 驅(qū)動和關(guān)于個體數(shù)據(jù)存儲介質(zhì)的被選錯誤事件;把類別中的數(shù)據(jù)存儲驅(qū)動和數(shù)據(jù)存儲介質(zhì)中至少 一個的所述累 計錯誤事件數(shù)目與門限值進行比較;以及一旦所述類別中的所述累計錯誤事件的所述數(shù)目達到所述門限 值,就把所述數(shù)據(jù)存儲驅(qū)動和所述數(shù)據(jù)存儲介質(zhì)中的所述至少 一個 放置在故障類別中。
5. 根據(jù)權(quán)利要求4的方法,還包括如果錯誤事件彼此相關(guān),則降低所述錯誤事件在所述被選錯誤 事件的所述連續(xù)中以及所述累計之中的權(quán)重。
6. 根據(jù)權(quán)利要求1的方法,還包括如果數(shù)據(jù)存儲驅(qū)動從所述子系統(tǒng)中被移除,則清除在所述被移 除數(shù)據(jù)存儲驅(qū)動處發(fā)生的數(shù)據(jù)存儲介質(zhì)的所述錯誤事件。
7. 根據(jù)權(quán)利要求6的方法,還包括如果數(shù)據(jù)存儲驅(qū)動從所述子系統(tǒng)中被移除并被返回,則清除所 述被移除并被返回的數(shù)據(jù)存儲驅(qū)動的所述錯誤事件。
8. 權(quán)利要求1的方法,還包括如果數(shù)據(jù)存儲介質(zhì)從所述子系統(tǒng)中被移除,則清除在所述數(shù)據(jù) 存儲驅(qū)動處發(fā)生的關(guān)于所述被移除數(shù)據(jù)存儲介質(zhì)的數(shù)據(jù)存儲驅(qū)動的 所述錯誤事件。
9. 根據(jù)權(quán)利要求8的方法,還包括如果數(shù)據(jù)存儲介質(zhì)從所述子系統(tǒng)中被移除并被返回,則清除所 述被移除并被返回的數(shù)據(jù)存儲介質(zhì)的所述錯誤事件。
10. 根據(jù)權(quán)利要求1的方法,還包括 把相關(guān)錯誤減少成單個所述被選錯誤事件。
11. 根據(jù)權(quán)利要求1的方法,還包括在數(shù)據(jù)庫中存儲與所述被選錯誤事件相關(guān)的信息,其中所述被選 錯誤事件與數(shù)據(jù)存儲介質(zhì)和數(shù)據(jù)存儲驅(qū)動都相關(guān),所述信息描述了 所述數(shù)據(jù)存儲介質(zhì)和所述數(shù)據(jù)存儲驅(qū)動以及所述被選錯誤事件。
12. —種自動數(shù)據(jù)存儲庫子系統(tǒng),包括 存儲架,被配置成存儲數(shù)據(jù)存儲介質(zhì);多個數(shù)據(jù)存儲驅(qū)動,被配置成安裝、卸下數(shù)據(jù)存儲介質(zhì)、以及對 于數(shù)據(jù)存儲介質(zhì)進行數(shù)據(jù)寫入和讀取;至少一個自動機存取器,被配置成在所述存儲架和所述數(shù)據(jù)存儲 驅(qū)動之間傳送數(shù)據(jù)存儲介質(zhì);以及庫控制器,被配置成檢測涉及數(shù)據(jù)存儲驅(qū)動的被選錯誤事件的發(fā)生; 把所述錯誤事件分類為1) 在數(shù)據(jù)存儲介質(zhì)安裝到數(shù)據(jù)存儲驅(qū)動中之前和期間的錯誤事 件;2) 在數(shù)據(jù)存儲介質(zhì)成功安裝到數(shù)據(jù)存儲驅(qū)動中之后的錯誤事 件;分開跟蹤每個所述類別中的個體數(shù)據(jù)存儲驅(qū)動的連續(xù)錯誤事件, 其中所述數(shù)據(jù)存儲驅(qū)動的完整的成功操作打斷了所述連續(xù)錯誤事件 的鏈;把類別中的數(shù)據(jù)存儲驅(qū)動的所述連續(xù)錯誤事件的數(shù)目與門限值 進行比較;以及一旦所述連續(xù)錯誤事件的所述數(shù)目達到所述門限值,就把所述數(shù)據(jù)存儲驅(qū)動放置在故障類別中。
13. 根據(jù)權(quán)利要求12的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成檢測涉及數(shù)據(jù)存儲介質(zhì)的被選錯誤事件的發(fā)生; 把涉及所述數(shù)據(jù)存儲介質(zhì)的所述錯誤事件分類為1) 在數(shù)據(jù)存儲介質(zhì)安裝到數(shù)據(jù)存儲驅(qū)動中之前和期間的錯誤事 件;2) 在數(shù)據(jù)存儲介質(zhì)成功安裝到數(shù)據(jù)存儲驅(qū)動中之后的錯誤事 件;分開跟蹤每個所述類別中的個體數(shù)據(jù)存儲介質(zhì)的連續(xù)錯誤事件, 其中所述數(shù)據(jù)存儲介質(zhì)相對于數(shù)據(jù)存儲驅(qū)動的完整的成功操作打斷 了所述連續(xù)錯誤事件的鏈;把類別中的數(shù)據(jù)存儲介質(zhì)的所述連續(xù)錯誤事件的數(shù)目與門限值 進行比較;以及一旦所述連續(xù)錯誤事件的所述數(shù)目達到所述門限值,就把所述數(shù) 據(jù)存儲介質(zhì)放置在故障類別中。
14. 根據(jù)權(quán)利要求13的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成把所述錯誤事件分類為A) 即時錯誤事件;和B) 非即時錯誤事件;以及一旦隔離了具有所述即時錯誤事件的數(shù)據(jù)存儲驅(qū)動和數(shù)據(jù)存儲 介質(zhì)中的至少一個,就把所述數(shù)據(jù)存儲介質(zhì)和所述數(shù)據(jù)存儲驅(qū)動中 所述被隔離的至少一個放置在故障類別中;并對于在所述即時錯誤 事件中涉及的所述數(shù)據(jù)存儲驅(qū)動和所述數(shù)據(jù)存儲介質(zhì)中的所述至少 一個的所述非即時錯誤事件實施所述跟蹤、比較和放置步驟,所述 即時錯誤事件具有所述故障類別數(shù)據(jù)存儲介質(zhì)和所述故障類別數(shù)據(jù) 存儲驅(qū)動中至少 一個,而不必在錯誤事件的所述連續(xù)中考慮所迷即 時錯誤事件。
15. 根據(jù)權(quán)利要求13的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成分開累計在一個時間周期上在所述類別中關(guān)于個體數(shù)據(jù)存儲驅(qū) 動和關(guān)于個體數(shù)據(jù)存儲介質(zhì)的被選錯誤事件;把數(shù)據(jù)存儲驅(qū)動和數(shù)據(jù)存儲介質(zhì)中的至少 一個的所述累計錯誤 事件數(shù)目與門限值進行比較;以及一旦所述累計錯誤事件的所述數(shù)目達到所述門限值,就把所述數(shù) 據(jù)存儲驅(qū)動和所述數(shù)據(jù)存儲介質(zhì)中的所述至少一個放置在故障類別 中。
16. 根據(jù)權(quán)利要求15的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成如果錯誤事件彼此相關(guān),則降低所述錯誤事件在所述被選錯誤 事件的所述連續(xù)之中以及所述累計之中的權(quán)重。
17. 根據(jù)權(quán)利要求13的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成如果數(shù)據(jù)存儲驅(qū)動從所述子系統(tǒng)中被移除,則清除在所述被移 除數(shù)據(jù)存儲驅(qū)動處發(fā)生的數(shù)據(jù)存儲介質(zhì)的所述錯誤事件。
18. 根據(jù)權(quán)利要求17的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成如果數(shù)據(jù)存儲驅(qū)動從所述子系統(tǒng)中被移除并被返回,則清除所 述被移除并被返回的數(shù)據(jù)存儲驅(qū)動的所述錯誤事件。
19. 根據(jù)權(quán)利要求13的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成如果數(shù)據(jù)存儲介質(zhì)從所述子系統(tǒng)中被移除,則清除在所述數(shù)據(jù) 存儲驅(qū)動處發(fā)生的關(guān)于所述被移除數(shù)據(jù)存儲介質(zhì)的數(shù)據(jù)存儲驅(qū)動的 所述錯誤事件。
20. 根據(jù)權(quán)利要求19的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成如果數(shù)據(jù)存儲介質(zhì)從所述子系統(tǒng)中被移除并被返回,則清除所 述被移除并被返回的數(shù)據(jù)存儲介質(zhì)的所述錯誤事件。
21. 根據(jù)權(quán)利要求13的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成把相關(guān)錯誤減少成單個所述被選錯誤事件。
22. 根據(jù)權(quán)利要求12的自動數(shù)據(jù)存儲庫子系統(tǒng),其中所述庫控 制器還被配置成在數(shù)據(jù)庫中存儲與所述被選錯誤事件相關(guān)的信息,其中所述被選 錯誤事件與數(shù)據(jù)存儲介質(zhì)和數(shù)據(jù)存儲驅(qū)動都相關(guān),所述信息描述了 所述數(shù)據(jù)存儲介質(zhì)和所述數(shù)據(jù)存儲驅(qū)動以及所述被選錯誤事件。
23. —種自動數(shù)據(jù)存儲庫子系統(tǒng),包括 存儲架,被配置成存儲數(shù)據(jù)存儲介質(zhì);多個數(shù)據(jù)存儲驅(qū)動,被配置成安裝、卸下數(shù)據(jù)存儲介質(zhì)、以及對 于數(shù)據(jù)存儲介質(zhì)進行數(shù)據(jù)寫入和讀?。恢辽僖粋€自動機存取器,被配置成在所述存儲架和所述數(shù)據(jù)存儲 驅(qū)動之間傳送數(shù)據(jù)存儲介質(zhì);以及庫控制器,被配置成檢測涉及數(shù)據(jù)存儲介質(zhì)的被選錯誤事件和涉及數(shù)據(jù)存儲驅(qū)動的 被選錯誤事件的發(fā)生;一旦被選錯誤事件涉及數(shù)據(jù)存儲介質(zhì),就嘗試把所述數(shù)據(jù)存儲介 質(zhì)移到另 一 數(shù)據(jù)存儲驅(qū)動,并實施與導(dǎo)致所述被選錯誤事件的操作 類似的操作;分開跟蹤個體數(shù)據(jù)存儲驅(qū)動的連續(xù)錯誤事件,其中所述數(shù)據(jù)存儲 驅(qū)動的完整成功操作打斷了所述連續(xù)錯誤事件的鏈;把數(shù)據(jù)存儲驅(qū)動的所述連續(xù)錯誤事件的數(shù)目與門限值進行比較; 一旦所述連續(xù)錯誤事件的所述數(shù)目達到所述門限值,就把所述數(shù)據(jù)存儲驅(qū)動放置在故障類別中;分開跟蹤個體數(shù)據(jù)存儲介質(zhì)的連續(xù)錯誤事件,其中所述數(shù)據(jù)存儲介質(zhì)的完整成功操作打斷了所述連續(xù)錯誤事件的鏈;把數(shù)據(jù)存儲介質(zhì)的所述連續(xù)錯誤事件的數(shù)目與門限值進行比較; 以及一旦所述連續(xù)錯誤事件的所述數(shù)目達到所述門限值,就把所述數(shù) 據(jù)存儲介質(zhì)放置在故障類別中。
24. —種包括計算機可用介質(zhì)的計算機程序產(chǎn)品,其中所述計算 機可用介質(zhì)具有體現(xiàn)在其中用于操作自動數(shù)據(jù)存儲庫子系統(tǒng)的庫控 制器的計算機可用程序代碼,所述子系統(tǒng)包括存儲架,被配置成 存儲數(shù)據(jù)存儲介質(zhì);多個數(shù)據(jù)存儲驅(qū)動,被配置成安裝、卸下數(shù)據(jù) 存儲介質(zhì)、以及對于數(shù)據(jù)存儲介質(zhì)進行數(shù)據(jù)讀取和寫入;至少一個 自動機存取器,被配置成在所述存儲架和所述數(shù)據(jù)存儲驅(qū)動之間傳 送數(shù)據(jù)存儲介質(zhì);所述計算機可用程序代碼被配置成,當(dāng)在所述庫 控制器上執(zhí)行時,使得所述庫控制器檢測涉及數(shù)據(jù)存儲驅(qū)動的被選錯誤事件的發(fā)生;把所述錯誤事件分類為1) 在數(shù)據(jù)存儲介質(zhì)安裝到數(shù)據(jù)存儲驅(qū)動中之前和期間的錯誤事 件;2) 在數(shù)據(jù)存儲介質(zhì)成功安裝到數(shù)據(jù)存儲驅(qū)動中之后的錯誤事 件;分開跟蹤每個所述類別中的個體數(shù)據(jù)存儲驅(qū)動的連續(xù)錯誤事件, 其中所述數(shù)據(jù)存儲驅(qū)動的完整成功操作打斷了所述連續(xù)錯誤事件的 鏈;把類別中的數(shù)據(jù)存儲驅(qū)動的所述連續(xù)錯誤事件的數(shù)目與門限值 進4亍比4交;以及一旦所述連續(xù)錯誤事件的所述數(shù)目達到所述門限值,就把所述數(shù) 據(jù)存儲驅(qū)動放置在故障類別中。
全文摘要
當(dāng)檢測到涉及數(shù)據(jù)存儲驅(qū)動和數(shù)據(jù)存儲介質(zhì)的被選錯誤事件,子系統(tǒng)嘗試把介質(zhì)移動到另一驅(qū)動上,并實施類似的操作。該子系統(tǒng)分開跟蹤個體驅(qū)動和個體介質(zhì)的連續(xù)錯誤事件,其中完整的成功操作打斷了連續(xù)錯誤事件的鏈;并且一旦連續(xù)錯誤事件的數(shù)目達到門限值,就使該數(shù)據(jù)存儲驅(qū)動或數(shù)據(jù)存儲介質(zhì)故障。錯誤事件被分類為1)在介質(zhì)安裝到驅(qū)動之前或期間的錯誤事件;和2)在介質(zhì)成功安裝到驅(qū)動之后的錯誤事件;并且對于驅(qū)動和介質(zhì)的每個類別分別實施跟蹤、比較和故障步驟。
文檔編號G11B15/68GK101154410SQ200710147709
公開日2008年4月2日 申請日期2007年8月24日 優(yōu)先權(quán)日2006年9月26日
發(fā)明者C·M·弗里奧夫, D·A·李, G·T·基希, K·A·貝洛 申請人:國際商業(yè)機器公司