国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于無共享集群的集群管理方法和設(shè)備的制作方法

      文檔序號:7996130閱讀:127來源:國知局
      用于無共享集群的集群管理方法和設(shè)備的制作方法
      【專利摘要】本發(fā)明提供了一種用于無共享集群的集群管理方法和設(shè)備。無共享集群包括一個(gè)或多個(gè)運(yùn)行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點(diǎn)。所述集群管理方法包括:收集與所述數(shù)據(jù)節(jié)點(diǎn)相關(guān)聯(lián)的集群配置信息;基于所收集的集群配置信息,獲得制表圖像;以及響應(yīng)于確定一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn),以恢復(fù)其操作系統(tǒng)。利用本發(fā)明的方法和設(shè)備,能夠快速、有效地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點(diǎn),而無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)。
      【專利說明】用于無共享集群的集群管理方法和設(shè)備
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明總體上涉及無共享集群領(lǐng)域,特別地,涉及恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點(diǎn)的集群管理方法和設(shè)備。
      【背景技術(shù)】
      [0002]近年來,諸如Hadoop的無共享集群因其能夠可靠、高效地對大量數(shù)據(jù)進(jìn)行分布式處理而受到廣泛關(guān)注并實(shí)現(xiàn)了飛速發(fā)展。無共享集群通常包含相當(dāng)大量的機(jī)器和盤來存儲大量數(shù)據(jù)。為了實(shí)現(xiàn)最大的商業(yè)價(jià)值,大數(shù)據(jù)管理需要優(yōu)先確保集群數(shù)據(jù)可靠性、集群可伸縮性以及集群管理效率。
      [0003]圖7A中示出了一種典型的現(xiàn)有無共享集群的架構(gòu)。通常,無共享集群中的一臺或多臺機(jī)器被指定為主節(jié)點(diǎn),例如圖7A中的主節(jié)點(diǎn)710 ;集群中的其余機(jī)器可以被指定為從節(jié)點(diǎn)或稱數(shù)據(jù)節(jié)點(diǎn),例如圖7A中的數(shù)據(jù)節(jié)點(diǎn)720。通常,每個(gè)主節(jié)點(diǎn)用于監(jiān)管一個(gè)或多個(gè)數(shù)據(jù)節(jié)點(diǎn);至少部分?jǐn)?shù)據(jù)節(jié)點(diǎn)上運(yùn)行有操作系統(tǒng)(OS)和應(yīng)用,其中應(yīng)用一般包括集群應(yīng)用和/或本地應(yīng)用。如圖7B所示,數(shù)據(jù)節(jié)點(diǎn)上通常還包括本地?cái)?shù)據(jù)文件、集群數(shù)據(jù)副本以及應(yīng)用文件。
      [0004]然而,現(xiàn)有的無共享集群架構(gòu)存在危害集群可靠性的隱患。例如,當(dāng)集群中的某數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)故障時(shí),該數(shù)據(jù)節(jié)點(diǎn)上的應(yīng)用以及本地和集群數(shù)據(jù)都不能再直接使用。
      [0005]盡管某些無共享文件系統(tǒng)(例如,Hadoop分布式文件系統(tǒng)(HDFS))能夠通過使用存儲在其他數(shù)據(jù)節(jié)點(diǎn)上的集群數(shù)據(jù)副本來保證集群數(shù)據(jù)的可靠性,但是恢復(fù)故障數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)和應(yīng)用是無法通過集群性能來實(shí)現(xiàn)的。即,目前還不支持對集群中某一數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)、本地?cái)?shù)據(jù)文件和本地及集群應(yīng)用的自動重啟和失效備援(failover)。
      [0006]更嚴(yán)重的,若存儲某一集群數(shù)據(jù)的所有數(shù)據(jù)節(jié)點(diǎn)碰巧都出現(xiàn)故障,那么不僅這些數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)、本地?cái)?shù)據(jù)文件和本地及集群應(yīng)用不能再直接使用,而且其共同存儲的集群數(shù)據(jù)也不能立即被集群的用戶直接使用。
      [0007]為了恢復(fù)操作系統(tǒng)出現(xiàn)故障的數(shù)據(jù)節(jié)點(diǎn),現(xiàn)在用戶不得不:
      [0008](i)在集群中的其他數(shù)據(jù)節(jié)點(diǎn)上備份故障數(shù)據(jù)節(jié)點(diǎn)上存儲的集群數(shù)據(jù);
      [0009](ii)逐一(若有多個(gè)數(shù)據(jù)節(jié)點(diǎn)故障的話)從集群中手動移除故障的數(shù)據(jù)節(jié)點(diǎn);
      [0010](iii)在故障的數(shù)據(jù)節(jié)點(diǎn)上格式化先前的部分?jǐn)?shù)據(jù)并重新安裝操作系統(tǒng);
      [0011](iv)在故障的數(shù)據(jù)節(jié)點(diǎn)上重新配置多種應(yīng)用;
      [0012](V)使得故障的數(shù)據(jù)節(jié)點(diǎn)成為一個(gè)新數(shù)據(jù)節(jié)點(diǎn),并手動將該新節(jié)點(diǎn)添加到當(dāng)前運(yùn)行的無共享集群中;并且
      [0013](Vi)根據(jù)需要,在添加了新數(shù)據(jù)節(jié)點(diǎn)的集群中出現(xiàn)不平衡時(shí)進(jìn)行數(shù)據(jù)再平衡。
      [0014]在上述(i )至(Vi )操作中,數(shù)據(jù)節(jié)點(diǎn)中的數(shù)據(jù)都不能再被直接利用,并且運(yùn)行中的應(yīng)用會丟失。操作(i)中備份先前的大量數(shù)據(jù)以及操作(iii)中數(shù)據(jù)格式化和安裝操作系統(tǒng)將花費(fèi)相當(dāng)長的時(shí)間。對集群移除/添加節(jié)點(diǎn)需要停止運(yùn)行的集群應(yīng)用。[0015]而且,將新數(shù)據(jù)節(jié)點(diǎn)添加到集群中通常會使得集群不平衡,還需要在新集群中進(jìn)行數(shù)據(jù)再平衡,這會影響集群性能。如果集群中數(shù)據(jù)節(jié)點(diǎn)數(shù)量較大,例如有100個(gè)節(jié)點(diǎn),那么即使僅一個(gè)節(jié)點(diǎn)的操作系統(tǒng)故障,也將需要花費(fèi)大約10天時(shí)間來使得整個(gè)集群再平衡并恢復(fù)原集群中的所有節(jié)點(diǎn)。隨著集群規(guī)模越來越大,上述故障恢復(fù)處理將花費(fèi)越來越長的時(shí)間,成本極為昂貴。
      [0016]因此,需要一種能夠快速、便捷地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點(diǎn)的集群管理方法和設(shè)備。
      [0017]進(jìn)一步,需要一種能夠有效地同時(shí)恢復(fù)無共享集群中的多個(gè)故障數(shù)據(jù)節(jié)點(diǎn)的集群管理方法和設(shè)備。

      【發(fā)明內(nèi)容】

      [0018]本發(fā)明的一個(gè)目的在于,快速、有效地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點(diǎn),而無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)。
      [0019]為此,本發(fā)明的集群管理方法和設(shè)備動態(tài)地收集集群配置信息,并根據(jù)收集的集群配置信息獲得包括最小運(yùn)行操作系統(tǒng)和最小運(yùn)行應(yīng)用的制表圖像(tabulation image),然后響應(yīng)于確定集群中的一個(gè)或多個(gè)數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到故障數(shù)據(jù)節(jié)點(diǎn),從而快速地恢復(fù)其操作系統(tǒng)和應(yīng)用。
      [0020]根據(jù)本發(fā)明的第一方面,提供了一種用于無共享集群的集群管理方法,其中,所述無共享集群包括一個(gè)或多個(gè)運(yùn)行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點(diǎn),所述集群管理方法包括:收集與所述數(shù)據(jù)節(jié)點(diǎn)相關(guān)聯(lián)的集群配置信息;基于所收集的集群配置信息,獲得制表圖像;以及響應(yīng)于確定一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn),以恢復(fù)其操作系統(tǒng)。
      [0021]在一個(gè)實(shí)施例中,獲得制表圖像包括:獲取無共享集群的集群運(yùn)行狀態(tài)信息;利用所獲取的集群運(yùn)行狀態(tài)信息和所收集的集群配置信息,生成包括最小運(yùn)行操作系統(tǒng)的制表圖像;以及存儲所生成的制表圖像。在一個(gè)實(shí)施例中,所生成的制表圖像還可以包括最小運(yùn)行應(yīng)用。
      [0022]在一個(gè)實(shí)施例中,響應(yīng)于確定多個(gè)數(shù)據(jù)節(jié)點(diǎn)的操作系統(tǒng)發(fā)生故障,在這多個(gè)數(shù)據(jù)節(jié)點(diǎn)上并行安裝所述最小運(yùn)行操作系統(tǒng)。在一個(gè)實(shí)施例中,響應(yīng)于在所述多個(gè)數(shù)據(jù)節(jié)點(diǎn)上安裝了最小運(yùn)行操作系統(tǒng),在所述多個(gè)數(shù)據(jù)節(jié)點(diǎn)上并行安裝最小運(yùn)行應(yīng)用。在一個(gè)實(shí)施例中,對所述最小運(yùn)行操作系統(tǒng)和最小運(yùn)行應(yīng)用中至少一個(gè)的安裝是在所述多個(gè)數(shù)據(jù)節(jié)點(diǎn)的內(nèi)存中進(jìn)行的。
      [0023]根據(jù)本發(fā)明的第二方面,提供了一種用于無共享集群的集群管理器,其中所述無共享集群包括一個(gè)或多個(gè)運(yùn)行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點(diǎn),所述集群管理器包括:集群配置信息收集裝置,配置為收集與所述數(shù)據(jù)節(jié)點(diǎn)相關(guān)聯(lián)的集群配置信息;制表圖像獲得裝置,配置為基于由所述集群配置信息收集裝置收集的集群配置信息,獲得制表圖像;和故障恢復(fù)裝置,配置為響應(yīng)于確定一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將由所述制表圖像獲得裝置獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn),以恢復(fù)其操作系統(tǒng)。
      [0024]根據(jù)本發(fā)明的第三方面,提供了一種無共享集群,包括:一個(gè)或多個(gè)運(yùn)行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點(diǎn);一個(gè)或多個(gè)主節(jié)點(diǎn),每個(gè)主節(jié)點(diǎn)用于監(jiān)管一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn);以及如本發(fā)明第二方面所述的集群管理器,配置為處理所述數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的操作系統(tǒng)或應(yīng)用的故障。
      [0025]利用本發(fā)明的方法和設(shè)備,提供了透明的操作系統(tǒng)/應(yīng)用的失效備援,能夠無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點(diǎn),從而提高了集群性倉泛。
      [0026]利用本發(fā)明的方法和設(shè)備,節(jié)省了安裝操作系統(tǒng)/應(yīng)用的時(shí)間、人力和成本,從而在數(shù)據(jù)節(jié)點(diǎn)發(fā)生故障時(shí)能夠快速恢復(fù),例如幾秒內(nèi)。進(jìn)一步,利用包括最小運(yùn)行操作系統(tǒng)的制表圖像來實(shí)現(xiàn)恢復(fù),從而降低操作系統(tǒng)部件復(fù)雜性,加速恢復(fù)處理。更進(jìn)一步,對操作系統(tǒng)的安裝可以在數(shù)據(jù)節(jié)點(diǎn)機(jī)器的內(nèi)存中而非在直接連接盤中進(jìn)行,使得恢復(fù)處理更加快捷。
      [0027]利用本發(fā)明的方法和設(shè)備,消除了在多個(gè)故障數(shù)據(jù)節(jié)點(diǎn)上的重復(fù)安裝操作,從而節(jié)省了時(shí)間和成本。
      [0028]利用本發(fā)明的方法和設(shè)備,在數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)崩潰時(shí)能夠幾乎直接再利用節(jié)點(diǎn)上存儲的數(shù)據(jù),不會丟失應(yīng)用,從而提高了數(shù)據(jù)節(jié)點(diǎn)的安全性。
      【專利附圖】

      【附圖說明】
      [0029]通過結(jié)合附圖對本公開示例性實(shí)施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實(shí)施方式中,相同的參考標(biāo)號通常代表相同部件。
      [0030]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器的框圖。
      [0031]圖2例示了根據(jù)本發(fā)明實(shí)施例的無共享集群的架構(gòu),包括集群管理器。
      [0032]圖3是例示了根據(jù)本發(fā)明實(shí)施例的由圖2中的集群管理器執(zhí)行的集群管理方法的總流程圖。
      [0033]圖4例示了獲得制表圖像的一種具體實(shí)現(xiàn)處理。
      [0034]圖5示意性地示出了根據(jù)本發(fā)明實(shí)施例的集群管理器的一個(gè)運(yùn)行實(shí)例。
      [0035]圖6示意性地示出了根據(jù)本發(fā)明實(shí)施例的集群管理器的功能框圖。
      [0036]圖7A和7B示出了一種典型的現(xiàn)有無共享集群的架構(gòu)。
      【具體實(shí)施方式】
      [0037]下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實(shí)施方式。雖然附圖中顯示了本公開的優(yōu)選實(shí)施方式,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
      [0038]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本公開可以具體實(shí)現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實(shí)施例中,本發(fā)明還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。
      [0039]可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲介質(zhì)。計(jì)算機(jī)可讀存儲介質(zhì)例如可以是一但不限于一電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
      [0040]計(jì)算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計(jì)算機(jī)可讀的信號介質(zhì)還可以是計(jì)算機(jī)可讀存儲介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
      [0041]計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、電線、光纜、RF等等,或者上述的任意合適的組合。
      [0042]可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言一諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設(shè)計(jì)語言一諸如”C”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
      [0043]下面將參照本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,這些計(jì)算機(jī)程序指令通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行,產(chǎn)生了實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。
      [0044]也可以把這些計(jì)算機(jī)程序指令存儲在能使得計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,這樣,存儲在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出一個(gè)包括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instructionmeans)的制造品(manufacture)。
      [0045]也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,從而使得在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令能夠提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
      [0046]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖1顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個(gè)示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。[0047]如圖1所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
      [0048]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)局域總線以及外圍組件互連(PCI)總線。
      [0049]計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
      [0050]系統(tǒng)存儲器28可以包括易失性存儲器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(RAM)30和/或高速緩存存儲器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖1未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖1中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個(gè)驅(qū)動器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
      [0051]具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
      [0052]計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個(gè)或多個(gè)外部設(shè)備14 (例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、RAID系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
      [0053]如前所述,本發(fā)明的集群管理方法和設(shè)備動態(tài)地收集集群配置信息,并根據(jù)收集的集群配置信息獲得包括最小運(yùn)行操作系統(tǒng)和最小運(yùn)行應(yīng)用的制表圖像,然后響應(yīng)于確定集群中的一個(gè)或多個(gè)數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到故障數(shù)據(jù)節(jié)點(diǎn),從而快速地恢復(fù)其操作系統(tǒng)和應(yīng)用。
      [0054]下面將參照圖2至圖6來具體地描述本發(fā)明的實(shí)施例。圖2例示了根據(jù)本發(fā)明實(shí)施例的無共享集群的架構(gòu)。與圖7A中示出的現(xiàn)有技術(shù)的無共享集群的架構(gòu)相比,本發(fā)明實(shí)施例的集群架構(gòu)除了主節(jié)點(diǎn)210和數(shù)據(jù)節(jié)點(diǎn)220之外,還包括集群管理器230。主節(jié)點(diǎn)210可以監(jiān)管一個(gè)或多個(gè)運(yùn)行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點(diǎn)220。集群管理器230配置為根據(jù)從集群中的主節(jié)點(diǎn)210收集關(guān)于數(shù)據(jù)節(jié)點(diǎn)220的配置信息,處理數(shù)據(jù)節(jié)點(diǎn)220上操作系統(tǒng)或應(yīng)用的故障。
      [0055]圖3是例示了根據(jù)本發(fā)明實(shí)施例的由圖2中的集群管理器230執(zhí)行的集群管理方法300的總流程圖。首先,在步驟302中,收集與數(shù)據(jù)節(jié)點(diǎn)220相關(guān)聯(lián)的集群配置信息。
      [0056]在一個(gè)實(shí)施例中,集群配置信息可以包括與在數(shù)據(jù)節(jié)點(diǎn)220上運(yùn)行的操作系統(tǒng)相關(guān)的信息。在另一實(shí)施例中,集群配置信息還可以包括與在數(shù)據(jù)節(jié)點(diǎn)220上運(yùn)行的應(yīng)用相關(guān)的信息,包括集群應(yīng)用和/或本地應(yīng)用。
      [0057]在一個(gè)實(shí)施例中,集群管理器230可以從主節(jié)點(diǎn)210獲取該主節(jié)點(diǎn)210所監(jiān)管的數(shù)據(jù)節(jié)點(diǎn)220的集群配置信息,例如交互變化的集群矩陣配置和動作。
      [0058]接著,在步驟304中,基于所收集的數(shù)據(jù)節(jié)點(diǎn)的集群配置信息,獲得制表圖像。在一個(gè)實(shí)施例中,制表圖像可以包括數(shù)據(jù)節(jié)點(diǎn)上的最小運(yùn)行操作系統(tǒng),例如操作系統(tǒng)內(nèi)核。在另一實(shí)施例中,制表圖像還可以包括數(shù)據(jù)節(jié)點(diǎn)上的最小運(yùn)行應(yīng)用,包括最小運(yùn)行集群和/或本地應(yīng)用。
      [0059]在一個(gè)實(shí)例中,集群管理器230可以動態(tài)地收集數(shù)據(jù)節(jié)點(diǎn)的集群矩陣配置信息,優(yōu)化并精煉出最小運(yùn)行操作系統(tǒng)和應(yīng)用,由此生成用于數(shù)據(jù)節(jié)點(diǎn)的制表圖像。利用包括最小運(yùn)行操作系統(tǒng)的制表圖像來實(shí)現(xiàn)恢復(fù),從而降低操作系統(tǒng)部件復(fù)雜性,加速恢復(fù)處理。
      [0060]需要說明的是,集群管理器230對集群配置信息的收集可以定時(shí)或?qū)崟r(shí)進(jìn)行。由此,集群管理器始終保持最新的制表圖像。例如,當(dāng)有集群矩陣配置更新時(shí),生成最新制表圖像。
      [0061]圖4詳細(xì)地例示了步驟304的一種具體實(shí)現(xiàn)處理400。處理400可以在步驟402開始。在步驟402中,獲取無共享集群的集群運(yùn)行狀態(tài)信息。集群運(yùn)行狀態(tài)信息例如可以包括集群文件系統(tǒng)配置屬性和數(shù)據(jù)存儲狀態(tài)信息、集群分布式計(jì)算作業(yè)進(jìn)度配置屬性和運(yùn)行作業(yè)應(yīng)用狀態(tài)信息,等等。在一個(gè)實(shí)施例中,集群運(yùn)行狀態(tài)信息還可以包括集群節(jié)點(diǎn)信息,例如指示主節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的信息。在這種情況下,獲取集群運(yùn)行狀態(tài)信息的步驟可以在方法300中的收集與數(shù)據(jù)節(jié)點(diǎn)相關(guān)聯(lián)的集群配置信息的步驟302之前執(zhí)行。
      [0062]接下來,利用所獲取的集群運(yùn)行狀態(tài)信息和在步驟302中所收集的集群配置信息,進(jìn)行制表圖像的生成。在步驟404中,可以獲取先前存儲的制表圖像。然后,將所獲取的集群運(yùn)行狀態(tài)信息和所收集的集群配置信息與先前存儲的制表圖像進(jìn)行比較(步驟406),例如比較兩者的外觀和行為以找到不一致之處。若發(fā)現(xiàn)兩者不一致,接著,基于不一致之處的比較結(jié)果,生成最新的包括最小運(yùn)行操作系統(tǒng)和/或最小運(yùn)行應(yīng)用的制表圖像(步驟408)。例如,通過整合集群運(yùn)行狀態(tài)信息和集群配置信息來生成最新的制表圖像。最后,在步驟410中,存儲所生成的制表圖像。
      [0063]下面返回到圖3的集群管理方法300。在獲得了制表圖像之后,接下來,在步驟306中,先確定是否有數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障。若有,將在步驟304中獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn),以恢復(fù)其操作系統(tǒng),并可選地恢復(fù)其上運(yùn)行的應(yīng)用。
      [0064]在一個(gè)實(shí)施例中,響應(yīng)于在步驟306中確定多個(gè)數(shù)據(jù)節(jié)點(diǎn)的操作系統(tǒng)發(fā)生故障,可以在這多個(gè)數(shù)據(jù)節(jié)點(diǎn)上并行安裝制表圖像中的最小運(yùn)行操作系統(tǒng),進(jìn)而可選地并行安裝制表圖像中的最小運(yùn)行應(yīng)用。在一個(gè)實(shí)施例中,對操作系統(tǒng)和/或應(yīng)用的安裝可以在數(shù)據(jù)節(jié)點(diǎn)機(jī)器的內(nèi)存中而非在直接連接盤中進(jìn)行,這可以使得恢復(fù)處理更加快捷。
      [0065]需要說明的是,集群管理器230中保存的制表圖像可以不止一個(gè)。例如,無共享集群中包含的數(shù)據(jù)節(jié)點(diǎn)可以根據(jù)功能分為一個(gè)或多個(gè)數(shù)據(jù)節(jié)點(diǎn)組,假設(shè)每個(gè)數(shù)據(jù)節(jié)點(diǎn)組中的所有數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的操作系統(tǒng)和應(yīng)用相同,而不同數(shù)據(jù)節(jié)點(diǎn)組中的數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)或應(yīng)用不同??梢葬槍γ總€(gè)數(shù)據(jù)節(jié)點(diǎn)組來分別執(zhí)行圖3中的步驟302和304。即,針對每個(gè)數(shù)據(jù)節(jié)點(diǎn)組,基于從該組所包括的數(shù)據(jù)節(jié)點(diǎn)收集的集群配置信息,獲得該組的制表圖像。在執(zhí)行步驟306之前,先確定操作系統(tǒng)發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)所屬的數(shù)據(jù)節(jié)點(diǎn)組,然后將集群管理器230中保存的與該數(shù)據(jù)節(jié)點(diǎn)組對應(yīng)的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)。
      [0066]圖5示意性地示出了圖2中的集群管理器的一個(gè)運(yùn)行實(shí)例。首先,將無共享集群的固件/網(wǎng)絡(luò)配置信息輸入到集群管理器中,因而集群管理器具有所有集群節(jié)點(diǎn)的信息。接著,在集群管理器上從當(dāng)前制表圖像獲得集群數(shù)據(jù)節(jié)點(diǎn)列表。集群管理器定期向數(shù)據(jù)節(jié)點(diǎn)列表中的數(shù)據(jù)節(jié)點(diǎn)發(fā)送并行網(wǎng)絡(luò)訪問命令,以查看數(shù)據(jù)節(jié)點(diǎn)的運(yùn)行是否正常,以及其上的操作系統(tǒng)是否故障。響應(yīng) 于訪問命令,數(shù)據(jù)節(jié)點(diǎn)將檢查結(jié)果返回到集群管理器,集群管理器由此確定并記錄故障數(shù)據(jù)節(jié)點(diǎn)列表。
      [0067]然后,集群管理器觸發(fā)集群制表圖像更新請求,以捕捉最新運(yùn)行的集群制表圖像。集群管理器向數(shù)據(jù)節(jié)點(diǎn)和集群作業(yè)運(yùn)行實(shí)例請求OS及作業(yè)應(yīng)用信息和狀態(tài),數(shù)據(jù)節(jié)點(diǎn)和集群作業(yè)運(yùn)行實(shí)例響應(yīng)于集群管理器的請求而將OS及作業(yè)應(yīng)用變換制表返回到集群管理器。接著,集群管理器向無共享文件系統(tǒng)(FS)實(shí)例收集文件系統(tǒng)制表,文件系統(tǒng)實(shí)例響應(yīng)于集群管理器的請求而將文件系統(tǒng)變換制表返回到集群管理器。
      [0068]集群管理器整合所收集到的變換制表,由此生成最新的集群制表圖像,該制表圖像包括數(shù)據(jù)節(jié)點(diǎn)的最小運(yùn)行操作系統(tǒng)和最小運(yùn)行應(yīng)用。通過將最新的集群制表圖像與集群管理器中存儲的當(dāng)前集群制表圖像在外觀和行為方面進(jìn)行比較,以查找兩者的不一致處。若兩者相同,則保持集群管理器中當(dāng)前存儲的集群制表圖像不變;若兩者不同,則更新當(dāng)前存儲的制表圖像使其與最新的制表圖像一致,此外可以將更新事件記錄到集群管理器的日
      士由;ι?> I ο
      [0069]然后,集群管理器將最新的集群制表圖像分發(fā)到先前獲得的故障數(shù)據(jù)節(jié)點(diǎn)列表中的數(shù)據(jù)節(jié)點(diǎn),使得在數(shù)據(jù)節(jié)點(diǎn)的內(nèi)存中并行安裝最小運(yùn)行操作系統(tǒng),并在安裝完成之后將操作系統(tǒng)安裝狀態(tài)返回到集群管理器。集群管理器在接收到表示操作系統(tǒng)安裝完成的信息之后,指示數(shù)據(jù)節(jié)點(diǎn)在其內(nèi)存中并行啟動集群應(yīng)用和/或本地應(yīng)用,之后數(shù)據(jù)節(jié)點(diǎn)將節(jié)點(diǎn)應(yīng)用啟動狀態(tài)返回到集群管理器。
      [0070]至此,集群管理器完成了對集群中故障數(shù)據(jù)節(jié)點(diǎn)的恢復(fù)處理。如前所述,圖5中例示的上述全部操作可以在秒級時(shí)間內(nèi)完成。數(shù)據(jù)節(jié)點(diǎn)上存儲的各種數(shù)據(jù)可以直接再被使用,而且所恢復(fù)的數(shù)據(jù)節(jié)點(diǎn)仍可被運(yùn)行的集群識別。
      [0071 ] 圖6示出了根據(jù)本發(fā)明實(shí)施例的用于無共享集群的集群管理器600的功能框圖。集群管理器600的功能模塊可以由實(shí)現(xiàn)本發(fā)明原理的硬件、軟件或硬件和軟件的結(jié)合來實(shí)現(xiàn)。本領(lǐng)域技術(shù)人員可以理解的是圖6中所描述的功能模塊可以組合起來或者劃分成子模塊,從而實(shí)現(xiàn)上述發(fā)明的原理。因此,本文的描述可以支持對本文描述的功能模塊的任何可能的組合、或者劃分、或者更進(jìn)一步的限定。
      [0072]集群管理器600能夠快速、有效地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點(diǎn),而無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)。無共享集群可以包括一個(gè)或多個(gè)運(yùn)行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點(diǎn)。無共享集群還可以包括一個(gè)或多個(gè)主節(jié)點(diǎn),每個(gè)主節(jié)點(diǎn)用于監(jiān)管一個(gè)或多個(gè)數(shù)據(jù)節(jié)點(diǎn)。集群管理器600可以包括集群配置信息收集裝置620、制表圖像獲得裝置640和故障恢復(fù)裝置660。
      [0073]集群配置信息收集裝置620可以配置為收集與數(shù)據(jù)節(jié)點(diǎn)相關(guān)聯(lián)的集群配置信息。在一個(gè)示例中,集群配置信息可以包括與在數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的操作系統(tǒng)相關(guān)的信息。在另一示例中,集群配置信息還可以包括與在數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的應(yīng)用相關(guān)的信息。進(jìn)一步,在數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的應(yīng)用可以包括集群應(yīng)用和/或本地應(yīng)用。在一個(gè)實(shí)施例中,集群配置信息收集裝置620可以包括配置為從主節(jié)點(diǎn)收集該主節(jié)點(diǎn)監(jiān)管的數(shù)據(jù)節(jié)點(diǎn)的集群配置信息的
      裝直。
      [0074]制表圖像獲得裝置640可以配置為基于由集群配置信息收集裝置620收集的集群配置信息,獲得制表圖像。在一個(gè)實(shí)施例中,制表圖像獲得裝置640可以包括運(yùn)行狀態(tài)獲取裝置642、制表圖像生成裝置644和制表圖像存儲裝置646。
      [0075]運(yùn)行狀態(tài)獲取裝置642可以配置為獲取無共享集群的集群運(yùn)行狀態(tài)信息。制表圖像生成裝置644可以配置為利用由運(yùn)行狀態(tài)獲取裝置642獲取的集群運(yùn)行狀態(tài)信息和由集群配置信息收集裝置620收集的集群配置信息,生成包括最小運(yùn)行操作系統(tǒng)的制表圖像。在一個(gè)實(shí)施例中,制表圖像生成裝置644生成的制表圖像還可以包括最小運(yùn)行應(yīng)用。制表圖像存儲裝置646可以配置為存儲所生成的制表圖像。
      [0076]在一個(gè)示例中,制表圖像生成裝置644可以包括先前制表圖像獲取裝置652、制表圖像比較裝置654和制表圖像生成執(zhí)行裝置656。先前制表圖像獲取裝置652可以配置為獲取先前存儲的制表圖像。制表圖像比較裝置654可以配置為將由運(yùn)行狀態(tài)獲取裝置642獲取的集群運(yùn)行狀態(tài)信息和由集群配置信息收集裝置620收集的集群配置信息與由先前制表圖像獲取裝置652獲取的先前存儲的制表圖像進(jìn)行比較。制表圖像生成執(zhí)行裝置656可以配置為基于制表圖像比較裝置654的比較結(jié)果,生成最新的包括最小運(yùn)行操作系統(tǒng)的制表圖像。
      [0077]故障恢復(fù)裝置660可以配置為響應(yīng)于確定一個(gè)或多個(gè)數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將由制表圖像獲得裝置640獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn),以恢復(fù)其操作系統(tǒng)。在一個(gè)實(shí)施例中,故障恢復(fù)裝置660還配置為響應(yīng)于確定多個(gè)數(shù)據(jù)節(jié)點(diǎn)的操作系統(tǒng)發(fā)生故障,在這多個(gè)數(shù)據(jù)節(jié)點(diǎn)上并行安裝最小運(yùn)行操作系統(tǒng)。在一個(gè)實(shí)施例中,故障恢復(fù)裝置660還配置為響應(yīng)于在多個(gè)數(shù)據(jù)節(jié)點(diǎn)上安裝了最小運(yùn)行操作系統(tǒng),在這多個(gè)數(shù)據(jù)節(jié)點(diǎn)上并行安裝最小運(yùn)行應(yīng)用。在一個(gè)實(shí)施例中,所述對最小運(yùn)行操作系統(tǒng)和最小運(yùn)行應(yīng)用中至少一個(gè)的安裝是在數(shù)據(jù)節(jié)點(diǎn)的內(nèi)存中進(jìn)行的。
      [0078]在一個(gè)實(shí)施例中,無共享集群中包含的數(shù)據(jù)節(jié)點(diǎn)可以分為一個(gè)或多個(gè)數(shù)據(jù)節(jié)點(diǎn)組,假設(shè)每個(gè)數(shù)據(jù)節(jié)點(diǎn)組中的所有數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的操作系統(tǒng)和應(yīng)用相同。制表圖像獲得裝置640可以包括:配置為針對每個(gè)數(shù)據(jù)節(jié)點(diǎn)組,基于從該組所包括的數(shù)據(jù)節(jié)點(diǎn)收集的集群配置信息,獲得該組的制表圖像的裝置。故障恢復(fù)裝置660可以包括:配置為確定操作系統(tǒng)發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)所屬的數(shù)據(jù)節(jié)點(diǎn)組的裝置;和配置為將與該數(shù)據(jù)節(jié)點(diǎn)組對應(yīng)的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)的裝置。
      [0079]本發(fā)明的集群管理方法和設(shè)備可以與多種現(xiàn)有的無共享集群相結(jié)合,例如直接安裝在集群管理層中。作為一個(gè)示例,本發(fā)明的集群管理方法和設(shè)備可以結(jié)合到IBM公司的Big Data平臺的集群管理層中。
      [0080]利用本發(fā)明的方法和設(shè)備,提供了透明的操作系統(tǒng)/應(yīng)用的失效備援,能夠無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點(diǎn),從而提高了集群性倉泛。
      [0081]利用本發(fā)明的方法和設(shè)備,節(jié)省了安裝操作系統(tǒng)/應(yīng)用的時(shí)間、人力和成本,從而在數(shù)據(jù)節(jié)點(diǎn)發(fā)生故障時(shí)能夠快速恢復(fù),例如幾秒內(nèi)。進(jìn)一步,利用包括最小運(yùn)行操作系統(tǒng)的制表圖像來實(shí)現(xiàn)恢復(fù),從而降低操作系統(tǒng)部件復(fù)雜性,加速恢復(fù)處理。更進(jìn)一步,對操作系統(tǒng)的安裝可以在數(shù)據(jù)節(jié)點(diǎn)機(jī)器的內(nèi)存中而非在直接連接盤中進(jìn)行,使得恢復(fù)處理更加快捷。
      [0082]利用本發(fā)明的方法和設(shè)備,消除了在多個(gè)故障數(shù)據(jù)節(jié)點(diǎn)上的重復(fù)安裝操作,從而節(jié)省了時(shí)間和成本。
      [0083]利用本發(fā)明的方法和設(shè)備,在數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)崩潰時(shí)能夠幾乎直接再利用節(jié)點(diǎn)上存儲的數(shù)據(jù),不會丟失應(yīng)用,從而提高了數(shù)據(jù)節(jié)點(diǎn)的安全性。
      [0084]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
      [0085]以上已經(jīng)描述了本發(fā)明的各實(shí)施例,上述說明是示例性的,并非窮盡性的,并且也不限于所披露的各實(shí)施例。在不偏離所說明的各實(shí)施例的范圍和精神的情況下,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說許多修改和變更都是顯而易見的。本文中所用術(shù)語的選擇,旨在最好地解釋各實(shí)施例的原理、實(shí)際應(yīng)用或?qū)κ袌鲋械募夹g(shù)的技術(shù)改進(jìn),或者使本【技術(shù)領(lǐng)域】的其它普通技術(shù)人員能理解本文披露的各實(shí)施例。
      【權(quán)利要求】
      1.一種用于無共享集群的集群管理方法,其中所述無共享集群包括一個(gè)或多個(gè)運(yùn)行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點(diǎn),所述集群管理方法包括: 收集與所述數(shù)據(jù)節(jié)點(diǎn)相關(guān)聯(lián)的集群配置信息; 基于所收集的集群配置信息,獲得制表圖像;以及 響應(yīng)于確定一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn),以恢復(fù)其操作系統(tǒng)。
      2.根據(jù)權(quán)利要求1所述的集群管理方法,其中,所述集群配置信息包括與在數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的操作系統(tǒng)相關(guān)的信息。
      3.根據(jù)權(quán)利要求2所述的集群管理方法,其中,所述集群配置信息還包括與在數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的應(yīng)用相關(guān)的信息,其中應(yīng)用包括集群應(yīng)用和本地應(yīng)用中的至少一個(gè)。
      4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的集群管理方法,其中,獲得制表圖像包括: 獲取無共享集群的集群運(yùn)行狀態(tài)信息; 利用所獲取的集群運(yùn)行狀態(tài)信息和所收集的集群配置信息,生成包括最小運(yùn)行操作系統(tǒng)的制表圖像;以及 存儲所生成的制表圖像。
      5.根據(jù)權(quán)利要求4所 述的集群管理方法,其中響應(yīng)于確定一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)以恢復(fù)其操作系統(tǒng)包括: 響應(yīng)于確定多個(gè)數(shù)據(jù)節(jié)點(diǎn)的操作系統(tǒng)發(fā)生故障,在這多個(gè)數(shù)據(jù)節(jié)點(diǎn)上并行安裝所述最小運(yùn)行操作系統(tǒng)。
      6.根據(jù)權(quán)利要求5所述的集群管理方法,其中所述制表圖像還包括最小運(yùn)行應(yīng)用,并且 其中響應(yīng)于確定一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)以恢復(fù)其操作系統(tǒng)還包括: 響應(yīng)于在所述多個(gè)數(shù)據(jù)節(jié)點(diǎn)上安裝了最小運(yùn)行操作系統(tǒng),在所述多個(gè)數(shù)據(jù)節(jié)點(diǎn)上并行安裝最小運(yùn)行應(yīng)用。
      7.根據(jù)權(quán)利要求6所述的集群管理方法,其中,對所述最小運(yùn)行操作系統(tǒng)和最小運(yùn)行應(yīng)用中至少一個(gè)的安裝是在所述多個(gè)數(shù)據(jù)節(jié)點(diǎn)的內(nèi)存中進(jìn)行的。
      8.根據(jù)權(quán)利要求4所述的集群管理方法,其中,生成包括最小運(yùn)行操作系統(tǒng)的制表圖像包括: 獲取先前存儲的制表圖像; 將所獲取的集群運(yùn)行狀態(tài)信息和所收集的集群配置信息與先前存儲的制表圖像進(jìn)行比較;以及 基于比較結(jié)果,生成最新的包括最小運(yùn)行操作系統(tǒng)的制表圖像。
      9.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的集群管理方法,其中,所述無共享集群還包括一個(gè)或多個(gè)主節(jié)點(diǎn),每個(gè)主節(jié)點(diǎn)用于監(jiān)管一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn), 其中收集與所述數(shù)據(jù)節(jié)點(diǎn)相關(guān)聯(lián)的集群配置信息包括:從所述主節(jié)點(diǎn)收集該主節(jié)點(diǎn)監(jiān)管的數(shù)據(jù)節(jié)點(diǎn)的集群配置信息。
      10.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的集群管理方法,其中,所述無共享集群中包含的數(shù)據(jù)節(jié)點(diǎn)分為一個(gè)或多個(gè)數(shù)據(jù)節(jié)點(diǎn)組,每個(gè)數(shù)據(jù)節(jié)點(diǎn)組中的所有數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的操作系統(tǒng)和應(yīng)用相同, 其中獲得制表圖像包括:針對每個(gè)數(shù)據(jù)節(jié)點(diǎn)組,基于從該組所包括的數(shù)據(jù)節(jié)點(diǎn)收集的集群配置信息,獲得該組的制表圖像;并且 其中將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)包括: 確定操作系統(tǒng)發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)所屬的數(shù)據(jù)節(jié)點(diǎn)組;和 將與該數(shù)據(jù)節(jié)點(diǎn)組對應(yīng)的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)。
      11.一種用于無共享集群的集群管理器,其中所述無共享集群包括一個(gè)或多個(gè)運(yùn)行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點(diǎn),所述集群管理器包括: 集群配置信息收集裝置,配置為收集與所述數(shù)據(jù)節(jié)點(diǎn)相關(guān)聯(lián)的集群配置信息; 制表圖像獲得裝置,配置為基于由所述集群配置信息收集裝置收集的集群配置信息,獲得制表圖像;和 故障恢復(fù)裝置,配置為響應(yīng)于確定一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn)上的操作系統(tǒng)發(fā)生故障,將由所述制表圖像獲得裝 置獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn),以恢復(fù)其操作系統(tǒng)。
      12.根據(jù)權(quán)利要求11所述的集群管理器,其中,所述集群配置信息包括與在數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的操作系統(tǒng)相關(guān)的信息。
      13.根據(jù)權(quán)利要求12所述的集群管理器,其中,所述集群配置信息還包括與在數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的應(yīng)用相關(guān)的信息,其中應(yīng)用包括集群應(yīng)用和本地應(yīng)用中的至少一個(gè)。
      14.根據(jù)權(quán)利要求11至13中任一項(xiàng)所述的集群管理器,其中,所述制表圖像獲得裝置包括: 運(yùn)行狀態(tài)獲取裝置,配置為獲取無共享集群的集群運(yùn)行狀態(tài)信息; 制表圖像生成裝置,配置為利用由所述運(yùn)行狀態(tài)獲取裝置獲取的集群運(yùn)行狀態(tài)信息和由所述集群配置信息收集裝置收集的集群配置信息,生成包括最小運(yùn)行操作系統(tǒng)的制表圖像;以及 制表圖像存儲裝置,配置為存儲所生成的制表圖像。
      15.根據(jù)權(quán)利要求14所述的集群管理器,所述故障恢復(fù)裝置還配置為:響應(yīng)于確定多個(gè)數(shù)據(jù)節(jié)點(diǎn)的操作系統(tǒng)發(fā)生故障,在這多個(gè)數(shù)據(jù)節(jié)點(diǎn)上并行安裝所述最小運(yùn)行操作系統(tǒng)。
      16.根據(jù)權(quán)利要求15所述的集群管理器,其中所述制表圖像還包括最小運(yùn)行應(yīng)用,并且 其中所述故障恢復(fù)裝置還配置為:響應(yīng)于在所述多個(gè)數(shù)據(jù)節(jié)點(diǎn)上安裝了最小運(yùn)行操作系統(tǒng),在所述多個(gè)數(shù)據(jù)節(jié)點(diǎn)上并行安裝最小運(yùn)行應(yīng)用。
      17.根據(jù)權(quán)利要求16所述的集群管理器,其中,對所述最小運(yùn)行操作系統(tǒng)和最小運(yùn)行應(yīng)用中至少一個(gè)的安裝是在所述多個(gè)數(shù)據(jù)節(jié)點(diǎn)的內(nèi)存中進(jìn)行的。
      18.根據(jù)權(quán)利要求14所述的集群管理器,其中,所述制表圖像生成裝置包括: 先前制表圖像獲取裝置,配置為獲取先前存儲的制表圖像; 制表圖像比較裝置,配置為將由所述運(yùn)行狀態(tài)獲取裝置獲取的集群運(yùn)行狀態(tài)信息和由所述集群配置信息收集裝置收集的集群配置信息與由所述先前制表圖像獲取裝置獲取的先前存儲的制表圖像進(jìn)行比較;以及制表圖像生成執(zhí)行裝置,配置為基于所述制表圖像比較裝置的比較結(jié)果,生成最新的包括最小運(yùn)行操作系統(tǒng)的制表圖像。
      19.根據(jù)權(quán)利要求11至13中任一項(xiàng)所述的集群管理器,其中,所述無共享集群還包括一個(gè)或多個(gè)主節(jié)點(diǎn),每個(gè)主節(jié)點(diǎn)用于監(jiān)管一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn), 其中所述集群配置信息收集裝置包括:配置為從所述主節(jié)點(diǎn)收集該主節(jié)點(diǎn)監(jiān)管的數(shù)據(jù)節(jié)點(diǎn)的集群配置信息的裝置。
      20.根據(jù)權(quán)利要求11至13中任一項(xiàng)所述的集群管理器,其中,所述無共享集群中包含的數(shù)據(jù)節(jié)點(diǎn)分為一個(gè)或多個(gè)數(shù)據(jù)節(jié)點(diǎn)組,每個(gè)數(shù)據(jù)節(jié)點(diǎn)組中的所有數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的操作系統(tǒng)和應(yīng)用相同, 其中所述制表圖像獲得裝置包括:配置為針對每個(gè)數(shù)據(jù)節(jié)點(diǎn)組,基于從該組所包括的數(shù)據(jù)節(jié)點(diǎn)收集的集群配置信息,獲得該組的制表圖像的裝置;并且 其中所述故障恢復(fù)裝置包括: 配置為確定操作系統(tǒng)發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)所屬的數(shù)據(jù)節(jié)點(diǎn)組的裝置;和 配置為將與該數(shù)據(jù)節(jié)點(diǎn)組對應(yīng)的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點(diǎn)的裝置。
      21.一種無共享集群,包括: 一個(gè)或多個(gè)運(yùn)行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點(diǎn); 一個(gè)或多個(gè)主節(jié)點(diǎn),每個(gè)主節(jié)點(diǎn)用于監(jiān)管一個(gè)或多個(gè)所述數(shù)據(jù)節(jié)點(diǎn);以及 如權(quán)利要求11至20中任一項(xiàng)所述的集群管理器,配置為處理所述數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的操作系統(tǒng)或應(yīng)用的故障。
      【文檔編號】H04L12/24GK103973470SQ201310036718
      【公開日】2014年8月6日 申請日期:2013年1月31日 優(yōu)先權(quán)日:2013年1月31日
      【發(fā)明者】張莉蘋, 陳奇, D·S·梅里克塞蒂安 申請人:國際商業(yè)機(jī)器公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1