專利名稱:一種大規(guī)模集群系統(tǒng)及其構(gòu)建方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡信息技術(shù),尤其涉及一種大規(guī)模集群系統(tǒng)及其構(gòu)建方法。
背景技術(shù):
大規(guī)模集群系統(tǒng),諸如大規(guī)模高性能計算集群、網(wǎng)絡附加存儲(NAS)集群存儲系 統(tǒng)等,其服務節(jié)點高可用的構(gòu)建方式一般兩兩(Active-Active)高可用或者所有服務節(jié)點 集群高可用(Cluster HA)的方法。 在兩兩高可用方法構(gòu)建的集群系統(tǒng)中,當兩個服務節(jié)點中的一個(假設節(jié)點A)失 效的時候,另外一個節(jié)點(假設節(jié)點B)就失去高可用保護,如果此時節(jié)點B再失效,整個集 群系統(tǒng)將宕機,因此兩兩高可用方法構(gòu)建的集群系統(tǒng)存在高可用冗余度不夠的問題。而且, 兩兩高可用方法構(gòu)建的集群系統(tǒng),其負載均衡能力受到極大限制,只能在兩個節(jié)點之間均 衡部分服務,很容易造成集群系統(tǒng)整體性能受限于性能表現(xiàn)最差的一個服務節(jié)點的情況。
所有服務節(jié)點集群高可用方法構(gòu)建的集群規(guī)模一般在32 64個節(jié)點之間。當 服務節(jié)點達到數(shù)百乃至數(shù)千個服務節(jié)點的時候,目前通用的集群高可用機制將不再穩(wěn)定可 靠,如集群高可用心跳信號將無法有效地維持這些節(jié)點的在線狀態(tài),并且隨著服務節(jié)點數(shù) 量的增多,一旦出現(xiàn)單個或多個節(jié)點失效,整個集群系統(tǒng)都將進入震蕩狀態(tài),這將顯著影響 所有節(jié)點服務質(zhì)量,嚴重的情況下將導致系統(tǒng)整體宕機。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是需要提供一種大規(guī)模集群系統(tǒng)及其構(gòu)建方法,提高 了集群系統(tǒng)的高可用冗余度。 為了解決上述技術(shù)問題,本發(fā)明提供了一種大規(guī)模集群系統(tǒng),包括共享存儲模塊、 子集群及調(diào)度節(jié)點,其中 所述共享存儲模塊,用于提供存儲功能并提供數(shù)據(jù)高可用服務功能; 所述子集群,用于與所述共享存儲模塊之間進行數(shù)據(jù)映射,提供數(shù)據(jù)高可用服務
功能,與外部進行并行輸入輸出; 所述調(diào)度節(jié)點,用于監(jiān)控所述子集群的工作狀態(tài),維護所述子集群與共享存儲模 塊的映射關(guān)系,以及調(diào)度輸入輸出負載。 優(yōu)選地,所述共享存儲模塊,包括FC-SAN磁盤陣列或IP-SAN磁盤陣列。 優(yōu)選地,所述子集群包含有多個服務節(jié)點,所有服務節(jié)點構(gòu)建集群高可用關(guān)系,并
用于完成數(shù)據(jù)輸入輸出控制、協(xié)議轉(zhuǎn)換或應用計算。 優(yōu)選地,所述調(diào)度節(jié)點用于將由至少一個所述共享存儲模塊映射過來的邏輯單元 號映射到所述子集群內(nèi)兩個或兩個以上的服務節(jié)點。 優(yōu)選地,所述調(diào)度節(jié)點用于通過所述子集群動態(tài)收集所述共享存儲模塊的利用 率,并動態(tài)收集所述子集群中各服務節(jié)點的負載情況,實時調(diào)度計算資源和存儲資源。
為了解決上述技術(shù)問題,本發(fā)明還提供了一種大規(guī)模集群系統(tǒng)的構(gòu)建方法,包括 設置共享存儲模塊; 構(gòu)造子集群,完成所述子集群與所述共享存儲模塊之間進行數(shù)據(jù)映射; 監(jiān)控所述子集群的工作狀態(tài),維護所述子集群與共享存儲模塊的映射關(guān)系,以及
調(diào)度輸入輸出負載;
其中, 所述共享存儲用于提供存儲功能并提供數(shù)據(jù)高可用服務功能; 所述子集群用于提供數(shù)據(jù)高可用服務功能,與外部進行并行輸入輸出。 優(yōu)選地,所述共享存儲模塊包括FC-SAN磁盤陣列或IP-SAN磁盤陣列。 優(yōu)選地,提供多個服務節(jié)點,將所有服務節(jié)點構(gòu)建成集群高可用,并構(gòu)造成至少一
個所述子集群;其中,服務節(jié)點用于完成數(shù)據(jù)輸入輸出控制、協(xié)議轉(zhuǎn)換或應用計算。 優(yōu)選地,維護所述子集群與共享存儲模塊的映射關(guān)系的步驟,包括 將由至少一個所述共享存儲模塊映射過來的邏輯單元號映射到所述子集群內(nèi)兩
個或兩個以上的服務節(jié)點。 優(yōu)選地,通過所述子集群動態(tài)收集所述共享存儲模塊的利用率,并動態(tài)收集所述 子集群中各服務節(jié)點的負載情況,實時調(diào)度計算資源和存儲資源。 與現(xiàn)有技術(shù)相比,本發(fā)明的至少一個實施例至少提高了大規(guī)模集群系統(tǒng)的高可用 冗余度和穩(wěn)定性,本發(fā)明的另一個實施例另外還至少保證了大規(guī)模集群系統(tǒng)的負載均衡 性。另外,用本發(fā)明技術(shù)方案構(gòu)建的大規(guī)模集群系統(tǒng)可以擴展至成百、數(shù)千個節(jié)點,具有良 好的擴展性。 本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變 得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權(quán)利 要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實
施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中 圖1為本發(fā)明集群系統(tǒng)實施例的組成示意圖; 圖2為本發(fā)明大規(guī)模集群系統(tǒng)的構(gòu)建方法實施例的流程示意圖。
具體實施例方式
以下將結(jié)合附圖及實施例來詳細說明本發(fā)明的實施方式,借此對本發(fā)明如何應用
技術(shù)手段來解決技術(shù)問題,并達成技術(shù)效果的實現(xiàn)過程能充分理解并據(jù)以實施。 需要說明的是,如果不沖突,本發(fā)明實施例以及實施例中的各個特征可以相互結(jié)
合,均在本發(fā)明的保護范圍之內(nèi)。另外,在附圖的流程圖示出的步驟可以在諸如一組計算機
可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況
下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。 圖1為本發(fā)明集群系統(tǒng)實施例的組成示意圖。如圖1所示,該集群系統(tǒng)實施例主 要包括至少一個共享存儲模塊110、至少一個子集群120,以及調(diào)度節(jié)點130,其中
共享存儲模塊110,為物理存儲介質(zhì),用于提供存儲功能并提供一定程度的數(shù)據(jù)高
可用,可以是FC-SAN磁盤陣列(圖中以115示出)或IP-SAN磁盤陣列; 子集群120,包含有多個服務節(jié)點(圖中以125示出),所有服務節(jié)點構(gòu)建集群高
可用關(guān)系,實現(xiàn)多對多(N-to-N)的冗余,共同管理至少一個共享存儲模塊110映射過來的
邏輯單元號(Logical Unit Number, LUN,指物理存儲的邏輯表示),并對集群系統(tǒng)提供高可
用的服務; 調(diào)度節(jié)點130,與所有子集群120相連,是本發(fā)明集群系統(tǒng)實施例的管理中心和監(jiān) 控中心,用于監(jiān)控各子集群120中所有服務節(jié)點的工作狀態(tài)、維護各服務節(jié)點與共享存儲 模塊110的映射關(guān)系,以及調(diào)度集群系統(tǒng)的輸入輸出(I/O)負載等;在本實施例中,集群系 統(tǒng)與外部是并行輸入輸出; 上述子集群120中的服務節(jié)點,用于完成數(shù)據(jù)輸入輸出控制、協(xié)議轉(zhuǎn)換以及應用 計算等其中至少一種服務。 上述調(diào)度節(jié)點130構(gòu)建為高可用,以保證整個集群系統(tǒng)的管理、監(jiān)控和服務調(diào)度 等不因單個服務節(jié)點的失效而導致失控。調(diào)度節(jié)點130維護各服務節(jié)點與共享存儲模塊 110的映射關(guān)系,將由至少一個共享存儲模塊110映射過來的LUN映射到子集群內(nèi)兩個或兩 個以上的服務節(jié)點,優(yōu)選映射到子集群內(nèi)的所有服務節(jié)點,從而保證了冗余度大于l,能提 供高可用的服務,比如某個子集群120中的某個服務節(jié)點失效、或者根據(jù)性能監(jiān)控某個服 務節(jié)點出現(xiàn)過載狀態(tài)的時候,調(diào)度節(jié)點130可以根據(jù)系統(tǒng)管理員預先設定的調(diào)度策略,在 集群系統(tǒng)中動態(tài)設置LUN的主控權(quán)限,保證集群系統(tǒng)的高可用、負載均衡等性能。
調(diào)度節(jié)點130通過各子集群,動態(tài)收集各共享存儲模塊110的利用率,以及子集群 中各服務節(jié)點的負載情況,實時調(diào)度集群系統(tǒng)的計算資源和存儲資源,從而可以提高大規(guī) 模集群的工作效能。 在由多個子集群120構(gòu)成的集群系統(tǒng),運行一至多個集群服務。構(gòu)成集群系統(tǒng)的 所有子集群120之間通過調(diào)度節(jié)點130進行關(guān)聯(lián),如子集群120之間在線遷移服務節(jié)點等。 集群系統(tǒng)中的不同子集群120可以運行不同的集群服務,多個子集群120也可以共同提供 一個集群服務。 大規(guī)模集群系統(tǒng)一般包含數(shù)百乃至數(shù)千個服務節(jié)點,提供幾十GB的吞吐帶寬, 百萬億次乃至千萬億次的計算能力。各子集群120中的服務節(jié)點后端連接共享存儲模塊 110。 結(jié)合圖1所示的系統(tǒng)實施例,圖2示出了本發(fā)明大規(guī)模集群系統(tǒng)的構(gòu)建方法實施 例的流程。如圖2所示,該構(gòu)建方法實施例主要包括如下步驟 步驟S210,設置共享存儲模塊;該共享存儲用于提供存儲功能并提供數(shù)據(jù)高可用 服務功能; 步驟S220,構(gòu)造子集群,完成該子集群與該共享存儲模塊之間進行數(shù)據(jù)映射;該 子集群用于提供數(shù)據(jù)高可用服務功能,與外部進行并行輸入輸出; 步驟S230,監(jiān)控該子集群的工作狀態(tài),維護該子集群與共享存儲模塊的映射關(guān)系, 以及調(diào)度輸入輸出負載。 該共享存儲模塊包括FC-SAN磁盤陣列或IP-SAN磁盤陣列。 提供多個服務節(jié)點,將所有服務節(jié)點構(gòu)建成集群高可用,將該多個服務節(jié)點構(gòu)造成該子集群;該服務節(jié)點用于完成數(shù)據(jù)輸入輸出控制、協(xié)議轉(zhuǎn)換或應用計算。
維護該子集群與共享存儲模塊的映射關(guān)系,將由至少一個共享存儲模塊110映射 過來的LUN映射到該子集群內(nèi)兩個或兩個以上的服務節(jié)點,優(yōu)選映射到該子集群內(nèi)的所有 服務節(jié)點,從而保證了冗余度大于l,能提供高可用的服務。 通過該子集群動態(tài)收集該共享存儲模塊的利用率,以及該子集群中各服務節(jié)點的 負載情況,實時調(diào)度計算資源和存儲資源。 在實際應用中,還可以在服務節(jié)點上實現(xiàn)監(jiān)控和告警等基本功能,保證系統(tǒng)管理 員可以隨時獲知集群系統(tǒng)的健康狀態(tài)。 本發(fā)明技術(shù)方案具有良好的穩(wěn)定性。本發(fā)明技術(shù)方案通過多個可靠、穩(wěn)定的小規(guī) 模子集群來構(gòu)造大規(guī)模網(wǎng)絡附加存儲(NAS)集群或其他計算機集群,在不增加任何硬件設 備的情況下,有效解決了大規(guī)模集群系統(tǒng)隨著規(guī)模上升導致穩(wěn)定性下降、不可控等問題,利 用小規(guī)模子集群的較高冗余度、較好的穩(wěn)定性,以及子集群內(nèi)和子集群之間提供的一定程 度的負載均衡能力,保證了整個集群系統(tǒng)的穩(wěn)定性。 本發(fā)明技術(shù)方案具有良好的可擴展性。本發(fā)明中的子集群內(nèi)服務節(jié)點數(shù)量一般控 制在8-16個之間,在此規(guī)模時集群高可用的穩(wěn)定性、延遲等指標較為理想,并將單個服務 節(jié)點失效對整個集群的震蕩限制在子集群之內(nèi)。整個集群系統(tǒng)中子集群的數(shù)量則無限制, 從而保證了本發(fā)明的集群系統(tǒng)規(guī)模可以輕松擴展到成百、數(shù)千個節(jié)點,而整個集群系統(tǒng)的 穩(wěn)定性仍可預期及可控制。 本發(fā)明的集群系統(tǒng)具有良好的負載均衡能力。本發(fā)明中的子集群內(nèi)存儲資源的主 控權(quán)限以及集群服務等可以根據(jù)應用需要進行動態(tài)調(diào)整,較易實現(xiàn)子集群內(nèi)的負載均衡。 本發(fā)明的集群系統(tǒng)可以根據(jù)對各服務節(jié)點的負載、健康狀態(tài)的監(jiān)控,動態(tài)調(diào)整子集群內(nèi)的 共享存儲模塊映射關(guān)系及其10負載、子集群之間的服務節(jié)點從屬關(guān)系,從而為高負載子集 群配備相對較多的節(jié)點,提高了集群整體的性能。子集群之間通過服務節(jié)點的在線轉(zhuǎn)移,避 免出現(xiàn)某個子集群過載而其他子集群負載較輕的情況,保證了集群整體效能的充分發(fā)揮。
本發(fā)明技術(shù)方案還可以根據(jù)對服務節(jié)點的負載、監(jiān)控狀態(tài)的監(jiān)控,動態(tài)添加或者 移除服務節(jié)點,從而有效控制大規(guī)模集群系統(tǒng)的處理能力。 本發(fā)明中的集群系統(tǒng)可以運行多個集群任務或應用,并由調(diào)度節(jié)點設置這些集群 任務或應用之間的隔離,保證服務的質(zhì)量。 本發(fā)明技術(shù)方案通過多個可靠、穩(wěn)定的小規(guī)模子集群(Sub-Cluster)來構(gòu)建大規(guī) 模集群,避免了兩兩高可用方式冗余度的不夠的缺陷和性能負載均衡受限的不足,也避免 了所有數(shù)據(jù)節(jié)點集群高可用的模式時可能導致的集群震蕩。 需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的 計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不 同于此處的順序執(zhí)行所示出或描述的步驟。另外,本領(lǐng)域的技術(shù)人員應該明白,上述的本發(fā) 明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上, 或者分布在多個計算裝置所組成的網(wǎng)絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代 碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成 各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這 樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
雖然本發(fā)明所揭露的實施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采 用的實施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本 發(fā)明所揭露的精神和范圍的前提下,可以在實施的形式上及細節(jié)上作任何的修改與變化, 但本發(fā)明的專利保護范圍,仍須以所附的權(quán)利要求書所界定的范圍為準。
權(quán)利要求
一種大規(guī)模集群系統(tǒng),其特征在于,包括共享存儲模塊、子集群及調(diào)度節(jié)點,其中所述共享存儲模塊,用于提供存儲功能并提供數(shù)據(jù)高可用服務功能;所述子集群,用于與所述共享存儲模塊之間進行數(shù)據(jù)映射,提供數(shù)據(jù)高可用服務功能,與外部進行并行輸入輸出;所述調(diào)度節(jié)點,用于監(jiān)控所述子集群的工作狀態(tài),維護所述子集群與共享存儲模塊的映射關(guān)系,以及調(diào)度輸入輸出負載。
2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述共享存儲模塊,包括FC-SAN磁盤陣列或IP-SAN磁盤陣列。
3. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述子集群包含有多個服務節(jié)點,所有服務節(jié)點構(gòu)建集群高可用關(guān)系,并用于完成數(shù) 據(jù)輸入輸出控制、協(xié)議轉(zhuǎn)換或應用計算。
4. 根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于所述調(diào)度節(jié)點用于將由至少一個所述共享存儲模塊映射過來的邏輯單元號映射到所 述子集群內(nèi)兩個或兩個以上的服務節(jié)點。
5. 根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于所述調(diào)度節(jié)點用于通過所述子集群動態(tài)收集所述共享存儲模塊的利用率,并動態(tài)收集 所述子集群中各服務節(jié)點的負載情況,實時調(diào)度計算資源和存儲資源。
6. —種大規(guī)模集群系統(tǒng)的構(gòu)建方法,其特征在于,包括設置共享存儲模塊;構(gòu)造子集群,完成所述子集群與所述共享存儲模塊之間進行數(shù)據(jù)映射; 監(jiān)控所述子集群的工作狀態(tài),維護所述子集群與共享存儲模塊的映射關(guān)系,以及調(diào)度 輸入輸出負載; 其中,所述共享存儲用于提供存儲功能并提供數(shù)據(jù)高可用服務功能; 所述子集群用于提供數(shù)據(jù)高可用服務功能,與外部進行并行輸入輸出。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于所述共享存儲模塊包括FC-SAN磁盤陣列或IP-SAN磁盤陣列。
8. 根據(jù)權(quán)利要求1所述的方法,其特征在于提供多個服務節(jié)點,將所有服務節(jié)點構(gòu)建成集群高可用,并構(gòu)造成至少一個所述子集群;其中,服務節(jié)點用于完成數(shù)據(jù)輸入輸出控制、協(xié)議轉(zhuǎn)換或應用計算。
9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,維護所述子集群與共享存儲模塊的映射 關(guān)系的步驟,包括將由至少一個所述共享存儲模塊映射過來的邏輯單元號映射到所述子集群內(nèi)兩個或 兩個以上的服務節(jié)點。
10. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于通過所述子集群動態(tài)收集所述共享存儲模塊的利用率,并動態(tài)收集所述子集群中各服 務節(jié)點的負載情況,實時調(diào)度計算資源和存儲資源。
全文摘要
本發(fā)明公開了一種大規(guī)模集群系統(tǒng)及其構(gòu)建方法,提高了集群系統(tǒng)的高可用冗余度。其中該系統(tǒng)主要包括共享存儲模塊,用于提供存儲功能并提供數(shù)據(jù)高可用服務功能;子集群,用于與共享存儲模塊之間進行數(shù)據(jù)映射,提供數(shù)據(jù)高可用服務功能,與外部進行并行輸入輸出;調(diào)度節(jié)點,用于監(jiān)控子集群的工作狀態(tài),維護子集群與共享存儲模塊的映射關(guān)系,以及調(diào)度輸入輸出負載。本發(fā)明的提高了大規(guī)模集群系統(tǒng)的高可用冗余度和穩(wěn)定性。
文檔編號H04L29/08GK101778002SQ20101010506
公開日2010年7月14日 申請日期2010年2月2日 優(yōu)先權(quán)日2010年2月2日
發(fā)明者張立強 申請人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司