国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      利用網(wǎng)絡介質(zhì)鏈接狀態(tài)功能來提高計算機集群系統(tǒng)可用性的方法

      文檔序號:6476129閱讀:165來源:國知局
      專利名稱:利用網(wǎng)絡介質(zhì)鏈接狀態(tài)功能來提高計算機集群系統(tǒng)可用性的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及計算機集群系統(tǒng),特別涉及一種在集群系統(tǒng)內(nèi)的服務器發(fā)生通訊丟失的情況下,提高計算機集群系統(tǒng)資源和數(shù)據(jù)的可用性和可靠性的方法。
      背景技術(shù)
      一個典型的計算機集群包含兩個或更多服務器以及一個或更多的網(wǎng)絡設備,它們通過計算機網(wǎng)絡互相之間進行通訊。計算機集群正常運行時,服務器為網(wǎng)絡設備提供計算機資源以及存儲和檢索數(shù)據(jù)的場所。在現(xiàn)有的計算機集群配置中,計算機集群數(shù)據(jù)存儲在共享的計算機磁盤上,并可被任何網(wǎng)絡設備訪問。
      一個典型的計算機集群如

      圖1所示,其中兩臺網(wǎng)絡服務器110和120通過計算機網(wǎng)絡101與網(wǎng)絡設備130,140和150通訊。網(wǎng)絡服務器110和網(wǎng)絡服務器120各自通過通訊線路105和106與共享磁盤104通訊。
      在使用計算機集群時,通常希望它能夠提供計算機集群資源的持續(xù)可用性,特別是當計算機集群支持許多用戶工作站,個人電腦,或其他網(wǎng)絡客戶端設備時。通常還希望它能夠維持在計算機集群系統(tǒng)中各個不同文件服務器之間的數(shù)據(jù)一致性,以及維持這些數(shù)據(jù)對客戶端設備的持續(xù)可用性。若想達到計算機集群資源和數(shù)據(jù)的可靠可用性,必須保證計算機集群可以承受軟硬件問題或故障。采用冗余的計算機和大容量存儲設備通??梢宰龅竭@些,這樣在發(fā)生故障時,一個備份計算機或磁盤驅(qū)動器就可以馬上接管系統(tǒng)工作。
      如圖1所示,使用共享磁盤配置來實現(xiàn)計算機集群資源和數(shù)據(jù)的可靠可用性的現(xiàn)有技術(shù),包含法定數(shù)額的概念,它指的是一種狀態(tài),在這種狀態(tài)下,一臺網(wǎng)絡服務器將控制網(wǎng)絡設備的指定最小數(shù)目;這樣在其他任何網(wǎng)絡服務器提供的服務發(fā)生中斷時,持有法定數(shù)額的網(wǎng)絡服務器擁有控制計算機集群資源和數(shù)據(jù)可用性的權(quán)利。一臺特定的網(wǎng)絡服務器獲取法定數(shù)額的方法可以被描述成每臺服務器和其他網(wǎng)絡設備進行“投票表決”的過程。例如在如圖1所示的有兩臺服務器的集群配置下,網(wǎng)絡服務器110和網(wǎng)絡服務器120各投一票以決定哪一臺網(wǎng)絡服務器可擁有法定數(shù)額。如果沒有一臺網(wǎng)絡服務器可以獲得大多數(shù)票,那么共享磁盤104將投一票,使得兩臺網(wǎng)絡服務器110和120其中的一臺可以獲得大多數(shù)票,其結(jié)果是兩服務器之一以一種可被了解和接受的方式取得法定數(shù)額。在任何時間,只能有一臺服務器持有法定數(shù)額,這樣保證在網(wǎng)絡服務器110和120之間的通訊丟失的情況下,只有一臺網(wǎng)絡服務器可以獲取對整個網(wǎng)絡的完全控制。
      在發(fā)生中斷事件時,試圖使用法定數(shù)額以恢復網(wǎng)絡服務器可用性的過程描述如下服務器110可以檢測到與服務器120的通訊丟失,通常有兩個原因。第一個原因是基于一種事件,例如服務器120的一次系統(tǒng)崩潰,這樣服務器120將不能為網(wǎng)絡客戶提供網(wǎng)絡資源。第二個原因是由于兩臺服務器間網(wǎng)絡通訊基礎結(jié)構(gòu)101中斷,此時服務器120仍然可以在網(wǎng)絡中正常運行。如果服務器110不能與服務器120進行通訊,它的第一步操作就是判斷自己是否持有法定數(shù)額。如果服務器110判斷自己沒有法定數(shù)額,那么它將向共享磁盤104發(fā)送一個命令請求其投票,以獲得法定數(shù)額。如果共享磁盤104不投票給服務器110,那么服務器110將自行關(guān)閉以避免脫離服務器120的單獨操作。在這種情況下,服務器110假定服務器120持有法定數(shù)額,并且服務器120繼續(xù)控制整個計算機集群。然而,如果共享磁盤104投票給網(wǎng)絡服務器110,該服務器將持有法定數(shù)額并取得對整個計算機集群的控制權(quán),并繼續(xù)工作,此時假定網(wǎng)絡服務器120已經(jīng)發(fā)生故障。
      在網(wǎng)絡中發(fā)生故障時,使用法定數(shù)額以確保多個服務器中的一個可以繼續(xù)提供網(wǎng)絡資源的方法通常是令人滿意的,但是共享磁盤的使用卻讓整個網(wǎng)絡和磁盤上的數(shù)據(jù)面臨丟失的危險。例如,如果不是網(wǎng)絡服務器110和120其中之一,而是共享磁盤104發(fā)生故障,所有服務器都將不能工作,并且數(shù)據(jù)有可能永久丟失。此外,在使用共享磁盤配置的計算機集群中,服務器通常都放置在彼此很近的距離。這樣,一旦發(fā)生自然災害或電源故障,整個計算機集群都有崩潰的可能。

      發(fā)明內(nèi)容
      本發(fā)明涉及一種在計算機集群系統(tǒng)中,可提高計算機集群資源和數(shù)據(jù)的可用性和可靠性的方法。兩臺服務器各自有一個與之相連的磁盤,并通過計算機網(wǎng)絡進行通訊。每臺服務器都可以為計算機網(wǎng)絡中的所有網(wǎng)絡設備提供計算機集群資源,并可訪問整個計算機集群中的數(shù)據(jù)。在發(fā)生通訊丟失的情況下,每臺服務器都具有判斷通訊丟失原因和決定自己是否繼續(xù)運行的能力。
      當一臺網(wǎng)絡服務器檢測到與另一臺網(wǎng)絡服務器的通訊發(fā)生中斷的情況時,通訊丟失的原因可以歸結(jié)為通訊鏈路的故障或是另一臺網(wǎng)絡服務器的故障。由于每臺網(wǎng)絡服務器都擁有整個網(wǎng)絡數(shù)據(jù)的完整鏡像備份,在發(fā)生通訊丟失后,每臺網(wǎng)絡服務器上都會執(zhí)行一系列動作,以確保網(wǎng)絡服務器不會發(fā)生脫離另一臺服務器而單獨運行的情況。如果不執(zhí)行這一系列動作,多臺網(wǎng)絡服務器會脫離其他服務器而各自單獨運行,從而造成所不希望的“大腦分裂(split brain)”狀況,網(wǎng)絡服務器之間數(shù)據(jù)鏡像的建立將不能正常執(zhí)行,并因此導致潛在的數(shù)據(jù)損壞危險。
      當計算機集群開始工作時,一臺服務器被指派可以控制集群的資源和數(shù)據(jù),并被賦予“生存權(quán)”,使其在通訊鏈路發(fā)生故障并導致網(wǎng)絡服務器之間的通訊丟失時可以繼續(xù)對集群系統(tǒng)實施控制。為便于表達,在正常運行的情況下持有“生存權(quán)”的服務器,于此被指定為“主”服務器;在通常運轉(zhuǎn)的情況下不持有“生存權(quán)”的服務器被指定為“從”服務器。要指出,此處的“主”和“從”不意味服務器之間彼此相對的重要性,同樣也不是表明哪一個服務器主要負責為網(wǎng)絡設備提供網(wǎng)絡資源。在正常運行情況下,從提供網(wǎng)絡資源的角度,主服務器和從服務器可以互換。在網(wǎng)絡服務器之間的通訊發(fā)生丟失時,“生存權(quán)”作為一種缺省的協(xié)議,以確?!按竽X分裂”的情況不會發(fā)生。
      當主服務器檢測到通訊丟失時,它可以繼續(xù)工作,因為它能夠假定另外的從服務器發(fā)生了故障,不能正常運轉(zhuǎn)。當從服務器檢測到通訊丟失時,它所采取的一系列動作就比較復雜。它并不是簡單地中止運行,而是進行推斷通訊丟失是主服務器故障的結(jié)果,還是由于通訊鏈路的故障所導致的。如果通訊鏈路可以正常運轉(zhuǎn),從服務器就斷定主服務器發(fā)生了故障。此種情況下,從服務器繼續(xù)正常工作,并且不會造成發(fā)生“大腦分裂”問題的風險。然而,如果從服務器判斷通訊鏈路出現(xiàn)故障,它就假定主服務器仍然能夠正常運行。針對此種假設,從服務器停止工作以避免造成“大腦分裂”的情況。
      本發(fā)明的一個重要優(yōu)點就是最初不持有“生存權(quán)”的從服務器,在能斷定與主服務器之間的通訊丟失不是由于通訊鏈路故障造成的情況下,仍然可以繼續(xù)工作。由于缺乏對通訊鏈路的分析,如果發(fā)生與主服務器通訊丟失的情況,要求從服務器能夠自動關(guān)閉,以避免發(fā)生“大腦分裂”的問題。需要指明的是,在一個每臺網(wǎng)絡服務器都擁有專用磁盤鏡像或大容量存儲設備的計算機集群中,針對服務器間發(fā)生的通訊丟失情況,使用本發(fā)明中上述的方法可以增強計算機集群系統(tǒng)的可靠性和可用性;其原因在于當主服務器出現(xiàn)故障時,發(fā)生“大腦分裂”問題的可能性并不強制性要求從服務器必須離線。
      在每臺網(wǎng)絡服務器都擁有專用磁盤鏡像的計算機集群中,常規(guī)的“法定數(shù)額”規(guī)則的應用通常并不理想。例如,如果擁有“法定數(shù)額”的網(wǎng)絡服務器發(fā)生故障,就將不會有共享磁盤可以投票,以將“法定數(shù)額”重新分配給另一個網(wǎng)絡服務器。其結(jié)果是,針對此類計算機集群,如果擁有“法定數(shù)額”的網(wǎng)絡服務器發(fā)生故障,直接使用常規(guī)的“法定數(shù)額”規(guī)則將導致不持有“法定數(shù)額”的網(wǎng)絡服務器不必要的關(guān)閉。
      在分離的磁盤鏡像中保存數(shù)據(jù)的方式顯著減少了丟失網(wǎng)絡數(shù)據(jù)的可能,但這也造成了一個經(jīng)常面臨的問題在計算機集群中需要有一個單獨的磁盤在各網(wǎng)絡服務器之間共享。由此,依照本發(fā)明,服務器不需要共享一個單獨的磁盤,服務器的分布就不會受到磁盤驅(qū)動器之間連線長度的限制。因此,各網(wǎng)絡服務器及與其相連的磁盤鏡像互相之間就可以遠距離分布。這樣就減少了突然發(fā)生的自然災害或電源故障有可能造成整個計算機集群癱瘓的可能。
      本發(fā)明其他特性和優(yōu)點將在下文中闡述,根據(jù)敘述其中部分內(nèi)容將會十分明顯,或通過對本發(fā)明的實踐,也可掌握部分內(nèi)容。采用所附權(quán)利要求中的工具和手段,可了解掌握本發(fā)明的特性和優(yōu)勢。通過下面的敘述和所附權(quán)利要求,本發(fā)明的特性將充分表露出來,或可通過如下文所述的對本發(fā)明的實踐,從而為人所知。
      附圖簡述為了解本發(fā)明上述以及其他優(yōu)點特性,附圖中舉例說明了一些明確的實施例。需要說明,這些附圖僅展示了本發(fā)明的一些典型的實施例,不能因此認為本發(fā)明僅限于這些范圍,本發(fā)明其他特征與細節(jié)也將描述在下列附圖中圖1為常規(guī)的計算機集群結(jié)構(gòu)圖,其中服務器共享一個磁盤。
      圖2為根據(jù)本發(fā)明提供合適的運行環(huán)境的計算機集群的示意圖。
      圖3是在一臺服務器上不同軟件模塊之間的通訊過程,使得服務器可以決定是否采取“生存權(quán)”。
      圖4是服務器在檢測到與其他服務器發(fā)生通訊丟失的情況下,如何決定是否采取“生存權(quán)”的方法流程5是在計算機集群中,針對其他服務器的故障,服務器如何持有“生存權(quán)”的方法流程圖。
      發(fā)明詳述本發(fā)明涉及一種提高計算機集群系統(tǒng)中資源和數(shù)據(jù)的可用性和可靠性的方法。計算機集群至少包含兩個服務器,每臺服務器都有一個專用的大容量存儲設備。服務器互相之間以及與其他網(wǎng)絡設備之間通過計算機網(wǎng)絡進行通訊。數(shù)據(jù)在每臺服務器的磁盤之間建立鏡像,如果一臺服務器發(fā)生故障,網(wǎng)絡設備仍然可以訪問可信賴的數(shù)據(jù)。在服務器之間發(fā)生通訊丟失時,通訊模塊在每臺服務器上運作以決定本服務器是否應當自行關(guān)閉。
      短語“生存權(quán)”是指,在服務器間的通訊鏈路發(fā)生故障從而導致服務器間的通訊丟失的情況下,一臺服務器是否具有繼續(xù)運行的權(quán)利。例如如果檢測到兩個服務器間發(fā)生通訊丟失,且其原因是由于通訊鏈路的物理中斷,持有“生存權(quán)”的服務器可以繼續(xù)運行,而不持有“生存權(quán)”的服務器將自行關(guān)閉。如前所述,“主”服務器就是在服務器間發(fā)生通訊丟失時持有“生存權(quán)”的服務器;相反,“次”服務器就是不持有“生存權(quán)”的服務器。
      短語“大腦分裂”是指,在計算機集群中,具有專用大容量存儲設備的每臺網(wǎng)絡服務器出現(xiàn)互相之間沒有建立數(shù)據(jù)鏡像,獨立工作這種不被希望出現(xiàn)的情況。本發(fā)明技術(shù)之前,當網(wǎng)絡服務器之間發(fā)生通訊丟失時,每臺服務器都假定其他服務器出現(xiàn)故障,并維持自己的正常運行,這時就會發(fā)生“大腦分裂”的問題。當發(fā)生“大腦分裂”的問題時,每臺服務器上的鏡像數(shù)據(jù)不再互相匹配并因此被破壞。考慮上例,由于通訊鏈路的物理中斷而導致服務器間通訊丟失,如果服務器不能判斷原因是由于物理損壞,每臺服務器都將繼續(xù)工作,并將其自己的數(shù)據(jù)寫入到與其相連的大容量存儲設備中。然而,由于通訊鏈路發(fā)生損壞,數(shù)據(jù)將不能建立鏡像從而導致大容量存儲設備上的數(shù)據(jù)不能維持其一致性。當通訊丟失是由于主服務器的故障造成時,通過令從服務器繼續(xù)工作,本發(fā)明便可防止計算機集群工作在“大腦分裂”的模式下。
      在本發(fā)明范圍內(nèi)的實施例同樣包括已保存有計算機可執(zhí)行的指令或數(shù)據(jù)結(jié)構(gòu)的計算機可讀介質(zhì)。這些計算機可讀介質(zhì)可以是任何能夠被常用的計算機,或是有任何特殊用途的計算機訪問的介質(zhì)。作為示例,但不限于這些示例,這些計算機可讀介質(zhì)可以包括RAM,ROM,EEPROM,CD-ROM等,或其他光學磁盤存儲設備,磁盤存儲器備或其他磁存儲設備,或是其他任何介質(zhì),這些介質(zhì)可以攜帶或存儲由計算機可執(zhí)行指令或由數(shù)據(jù)結(jié)構(gòu)組成的程序代碼,并且這些代碼可被常用的或者是有特殊用途的計算機所訪問。當信息通過網(wǎng)絡或另一種通訊連接方式(可以是有線方式,無線方式,或是有線與無線結(jié)合的方式)被傳遞或提供給計算機時,計算機可能將通訊連接視為計算機可讀介質(zhì)。上述連接方式的組合也包括在計算機可讀介質(zhì)的范圍內(nèi)。計算機可執(zhí)行指令包括,例如,一些指令和數(shù)據(jù),它們可讓常用計算機或是具有特殊用途的計算機,或具有特殊用途的處理設備執(zhí)行一個或一組特定的功能。
      圖2和下面的論述將提供關(guān)于本發(fā)明實現(xiàn)的合適的計算機環(huán)境的簡要描述。盡管不是必需的,本發(fā)明將以計算機可執(zhí)行指令的常用形式進行敘述,例如可由網(wǎng)絡環(huán)境中的計算機執(zhí)行的程序模塊形式。通常,程序模塊包括子程序、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等,它們可以組合完成特定的工作或是實現(xiàn)對特定抽象數(shù)據(jù)類型的操作。計算機可執(zhí)行指令、相關(guān)數(shù)據(jù)結(jié)構(gòu)和程序模塊表示了用于執(zhí)行此處說明的方法的步驟的程序代碼實例。這些可執(zhí)行指令或相關(guān)數(shù)據(jù)結(jié)構(gòu)的特定序列表示了用于實現(xiàn)這些步驟中描述的功能的對應動作的實例。
      本領(lǐng)域一般技術(shù)人員將發(fā)現(xiàn)本發(fā)明可以實際用在多種計算機系統(tǒng)配置的網(wǎng)絡計算環(huán)境中,包括個人電腦,手持設備,多處理器系統(tǒng),基于微處理器或可編程的消費電子產(chǎn)品,網(wǎng)絡PC,小型機,大型機,以及類似環(huán)境。本發(fā)明同樣可以用在分布式計算環(huán)境中,在這種環(huán)境下,任務由通過通訊網(wǎng)絡連接(可以是有線方式,無線方式,或是有線與無線聯(lián)合的方式)在一起的本地和遠程處理設備完成。在分布式計算環(huán)境中,程序模塊可以同時駐留在本地和遠程的內(nèi)存存儲設備中。
      圖2描述了采用本發(fā)明方法的一種具有代表性的計算機集群配置。計算機集群包括兩臺服務器,分別標為服務器A 210和服務器B220。雖然在圖2中只描述了兩臺服務器,此處說明的基本原則同樣適用于具有多于兩臺服務器的計算機集群。服務器A 210和服務器B220都運行一個文件操作系統(tǒng),可以是Microsoft Windows NT,其他多種操作系統(tǒng)同樣可被本發(fā)明使用。服務器A 210包含通過網(wǎng)絡接口211與網(wǎng)絡201相連的計算機212,和通過大容量存儲控制器213與之相連的大容量存儲設備214。同樣,服務器B 220包含通過網(wǎng)絡接口221與網(wǎng)絡201相連的計算機222,和通過大容量存儲控制器223與之相連的大容量存儲設備224。網(wǎng)絡201可以是以太網(wǎng),令牌網(wǎng),增強資源計算機網(wǎng)絡(ARCNET),或其他網(wǎng)絡,利用它使得服務器A 210和服務器B 220可以與網(wǎng)絡設備230,240和250進行通訊。
      然而服務器A 210和服務器B 220的組成不必完全相同,在許多實際情況中也是如此。其他場合中,服務器A 210和服務器B 220可能有不同的處理器類型,不同的處理器運行速度,不同的大容量存儲設備容量或者任何其他類型的硬件差異。必須具備的條件就是服務器A 210和服務器B 220必須能夠運行文件操作系統(tǒng),并且一臺服務器上的驅(qū)動器不能過大到以至在另一臺服務器上將不能建立其鏡像。
      如圖2所示的實施例中,專用鏈路202建立起了服務器A 210和服務器B 220之間的通訊聯(lián)系。計算機212通過通訊附加裝置215與專用鏈路202相連,計算機222通過通訊附加裝置225與專用鏈路202相連。專用鏈路202可以通過本領(lǐng)域一般技術(shù)人員所熟知的多種技術(shù)實現(xiàn)。舉一種實施例,專用鏈路202可以是使用以太網(wǎng)協(xié)議的一條鏈路。其他方法包括使用計算機212和222的串行通訊端口進行高速連接,亦可使用計算機212和222的并行接口。依照另外的實現(xiàn)方式,可以不使用專用鏈路202和通訊附加裝置215和225,服務器A 210和服務器B 220之間的通訊由一個虛擬回路或由網(wǎng)絡201搭載的信道所建立。用于實現(xiàn)專用鏈路202的特定硬件類型并不重要,提供的數(shù)據(jù)傳輸速率與大容量存儲設備214和224的數(shù)據(jù)傳輸速率具有可比性,因此系統(tǒng)運行效率不受限制。
      網(wǎng)絡設備230,240和250分別通過網(wǎng)絡接口231,241和251與網(wǎng)絡201相連接。它們就是使用計算機系統(tǒng)210與220的資源來訪問存儲在大容量存儲設備214和224上面的數(shù)據(jù)的客戶端設備。網(wǎng)絡設備230,240和250可以是能夠通過網(wǎng)絡201進行通訊的任何設備。
      在計算機集群運行過程中,服務器A 210和服務器B 220可為任何網(wǎng)絡設備230,240和250提供資源。此外,服務器A 210和服務器B 220都可以感知到專用鏈路202完整性上的錯誤。當一個網(wǎng)絡設備與服務器A 210進行通訊,對大容量存儲設備214上的數(shù)據(jù)進行添加,修改或刪除,所做的更新通過專用鏈路202在大容量存儲設備224上建立鏡像。同樣地,一個網(wǎng)絡設備與服務器B 220進行通訊,對大容量存儲設備224上的數(shù)據(jù)進行添加,修改或刪除,所做的更新也通過專用鏈路202在大容量存儲設備214上建立鏡像。由于在圖2所示的實施例中,數(shù)據(jù)通過專用鏈路202建立鏡像,它不會對網(wǎng)絡201產(chǎn)生擁塞。
      建立鏡像的結(jié)果就是在大容量存儲設備214和224中都包含有所有計算機集群數(shù)據(jù)完全一致的拷貝。因此,如果一個大容量存儲設備發(fā)生故障,計算機集群仍然可以繼續(xù)可靠運行。如果大容量存儲設備214發(fā)生故障,導致網(wǎng)絡設備230,240和250不能訪問其上的數(shù)據(jù),它們就可以訪問大容量存儲設備224上的數(shù)據(jù),反之亦然。由于服務器A 210和服務器B 220沒有共享同一個大容量存儲設備,因此不會發(fā)生一處數(shù)據(jù)毀壞導致所有數(shù)據(jù)毀壞的情況,并且它們彼此之間可以相隔很遠。服務器A 210和服務器B 220之間的遠距離分布減少了由于電源斷電或自然災害導致所有的大容量存儲設備中的數(shù)據(jù)同時都不能訪問的風險。
      當服務器A 210和服務器B 220進行初始化配置時,其中一臺服務器由操作員賦予“生存權(quán)”。本實例中的“生存權(quán)”由一個軟件標志表示,并且可以被設置為“開”或“關(guān)”。通常,在計算機集群進行正常運轉(zhuǎn)時,“生存權(quán)”標志在一臺服務器上并且只能在一臺服務器上設置為“開”。當完成初始化配置后,在下文將要詳細描述的某些網(wǎng)絡情況下,服務器可以將其“生存權(quán)”標志由“關(guān)”變?yōu)椤伴_”的位置。
      如果服務器間的通訊發(fā)生丟失,“生存權(quán)”用來決定哪一臺服務器可以繼續(xù)對集群的操作,以及哪一臺服務器必須中止對集群的操作。服務器A 210和服務器B 220之間發(fā)生通訊丟失,主要有兩種情況。第一種情況發(fā)生在由于服務器發(fā)生軟件故障或掉電,導致一臺服務器終止了通過專用鏈路202進行的通訊。第二種情況發(fā)生在專用鏈路202的完整性發(fā)生故障時。
      如上所述,服務器A 210和服務器B 220可以區(qū)分兩種不同類型的通訊失敗的情況。在下面的論述中,假定服務器B 220是主服務器,即在計算機集群正常運作的初始化時期,服務器B 220持有“生存權(quán)”;此時,服務器A 210為從服務器,開始并不持有“生存權(quán)”。如果主服務器B 220檢測到與服務器A 210發(fā)生通訊丟失,由于持有“生存權(quán)”,服務器B 220繼續(xù)運行,并且不關(guān)心通訊丟失的原因是由于專用鏈路202的故障,還是服務器A 210的故障。
      當從服務器A 210檢測到與服務器B 220發(fā)生通訊丟失,服務器A 210停止操作,除非它確定對它來說承擔“生存權(quán)”是安全的。如果服務器A 210確定通訊丟失的原因是在通訊鏈路202上的故障,服務器A 210就假定主服務器B 220仍然可以繼續(xù)工作。因此,由于服務器A 210沒有“生存權(quán)”,它便終止動作,以避免發(fā)生“大腦分裂”的問題。然而,如果從服務器A 210確定通訊鏈路202沒有故障,它便假定是由于主服務器B 220的故障或是其不再能夠提供網(wǎng)絡服務導致發(fā)生通訊丟失。在這種情況下,從服務器A 210為自己賦予“生存權(quán)”并繼續(xù)工作,不必擔心在集群中發(fā)生“大腦分裂”的問題。在后種情況中,服務器A 210可以處理來自網(wǎng)絡設備230,240和250的資源請求,否則,這些請求將被提交到發(fā)生故障的服務器B 220處。在前述的任何情況中,服務器間發(fā)生通訊丟失后,只能有一臺服務器可以繼續(xù)運行,以避免發(fā)生“大腦分裂”之問題。
      圖3展示了在依照本發(fā)明的一種實施例所實現(xiàn)的具有代表性的計算機系統(tǒng)之中,各軟件模塊之間的交互作用。圖3所示的系統(tǒng)和結(jié)構(gòu)提供了一個實例,說明服務器A 210在檢測到與其他服務器之間的通訊丟失后,如何決定自己是否應該獲得“生存權(quán)”并繼續(xù)工作。在計算機集群初始化操作時,“生存權(quán)”標志306可以由系統(tǒng)管理員或是自動進行初始設置。如上所述,當檢測到與其他服務器發(fā)生通訊丟失時,持有“生存權(quán)”標志且設置為“開”的服務器繼續(xù)工作,并且不關(guān)心原因是在專用鏈路202完整性上的錯誤,或是由于其他服務器故障所導致。此處本發(fā)明所概括性描述的內(nèi)容延伸到主服務器,其“生存權(quán)”標志306初始化時設置為“開”位置,在發(fā)生通訊丟失后,它仍然可以繼續(xù)工作。下面將要詳細論述圖3中關(guān)于從服務器的內(nèi)容,此時從服務器丟失與其他服務器的通訊,并且其“生存權(quán)”標志306設置為“關(guān)”位置。
      如圖3所示,當服務器A 210在計算機集群中工作時,它在計算機集群中各組件間接收和發(fā)送數(shù)據(jù)。數(shù)據(jù)308表示由服務器B 220通過專用鏈路202發(fā)送到服務器A 210的心跳信號。此處使用的短語“心跳信號”可以是以任何形式存在的任何信號或數(shù)據(jù),并可由服務器用來確定另一臺服務器是否正常工作。通訊附加裝置驅(qū)動程序301是用來控制通訊附加裝置215和接收數(shù)據(jù)308的軟件模塊。同樣,數(shù)據(jù)309表示傳送在網(wǎng)絡201上的數(shù)據(jù)。網(wǎng)絡接口驅(qū)動程序302控制網(wǎng)絡接口211并接收數(shù)據(jù)309。
      在“生存權(quán)”標志306被置為“關(guān)”位置時,當可以斷定與服務器B 220的通訊發(fā)生丟失時,作為響應,服務器A 210可以使用數(shù)據(jù)308和用來處理分析數(shù)據(jù)308和專用鏈路210的模塊來決定是否應當繼續(xù)工作。服務器A 210包含一個服務器通訊探測器303,可以用來監(jiān)控與服務器B 220的通訊,以判斷是否按預期接收到了數(shù)據(jù)308。連接狀態(tài)探測器304可為任何硬件組件,軟件組件,或軟、硬件的結(jié)合;當與服務器B 220的通訊丟失時,可以用來探測專用鏈路202是否出現(xiàn)故障。在許多情況下,服務器通訊探測器303和連接狀態(tài)探測器304可以是分離的模塊,雖然二者的功能可以合并為一個結(jié)構(gòu)。
      在本例中,通訊探測器303和連接狀態(tài)探測器304監(jiān)控數(shù)據(jù)308和專用鏈路202的完整性。然而,在另外一個實施例中,與服務器B 220的通訊是使用網(wǎng)絡201和網(wǎng)絡接口驅(qū)動302來傳遞數(shù)據(jù),而不是使用專用鏈路202;服務器通訊探測器303和連接狀態(tài)探測器304監(jiān)控數(shù)據(jù)309和網(wǎng)絡201的完整性。
      在上述任意一種情形中,服務器通訊探測器303判斷是否檢測到了服務器B 220的心跳信號。當發(fā)現(xiàn)來自服務器B 220的心跳信號丟失時,連接狀態(tài)探測器分析傳送心跳信號的通訊鏈路(例如專用鏈接202或網(wǎng)絡201)的完整性。當發(fā)生與服務器B 220的通訊丟失時,服務器通訊探測器303和連接狀態(tài)探測器304向負責處理通訊丟失的管理器305通報該現(xiàn)象,并告知其是否有可能是傳送心跳信號的通訊鏈路發(fā)生故障。接下來,負責處理通訊丟失的管理器305根據(jù)“生存權(quán)”306的狀態(tài)和來自服務器通訊探測器303和連接狀態(tài)探測器304的信息,決定是否關(guān)閉服務器A 210,或允許其繼續(xù)工作。
      總結(jié)負責處理通訊丟失的管理器305采取的規(guī)則,可以得到如果“生存權(quán)”標志306標明服務器A 210持有“生存權(quán)”,那么服務器A 210就可以繼續(xù)工作。然而,假設與服務器B 220的通訊丟失時,服務器A 210是從服務器,且根據(jù)“生存權(quán)”標志306,服務器A 210不持有“生存權(quán)”;那么,如果可以斷定是通訊鏈路的故障導致通訊丟失,負責處理通訊丟失的管理器305就使服務器A 210停止工作。如果通訊鏈路的故障導致通訊丟失,那么就假定服務器B 220可以正常運轉(zhuǎn),在這種情況下,使服務器A 210停止工作可以避免整個計算機集群工作在“大腦分裂”模式下的可能。
      相反,如果負責處理通訊丟失的管理器305斷定服務器A 210與服務器B 220之間發(fā)生通訊丟失,并且通訊鏈路沒有發(fā)生故障,負責處理通訊丟失的管理器305就推斷服務器B 220出現(xiàn)故障。假定服務器A 210是從服務器,接下來,“生存權(quán)”標志306就被設定為“開”的位置,表明服務器A 210擁有了“生存權(quán)”。在此種狀況下,服務器A 210通過滿足以前對服務器B 220發(fā)出的服務請求,對計算機集群進行“重組”。通過發(fā)送命令給網(wǎng)絡接口驅(qū)動302,使網(wǎng)絡接口驅(qū)動302對以前網(wǎng)絡設備在網(wǎng)絡201上發(fā)送到服務器B 220的請求進行服務,服務器A 210達到了“重組”的目的。
      圖4為下列步驟的流程圖在計算機集群中,當主服務器(亦即初始化時持有“生存權(quán)”的服務器)發(fā)生故障時,為提高網(wǎng)絡資源可用性,依照本發(fā)明的一個實施例,在從服務器(亦即現(xiàn)在還沒有“生存權(quán)”的服務器)上會采取一系列步驟。需要注意的是,當與從服務器發(fā)生通訊丟失時,主服務器不需要采取圖4中的一系列步驟;因為主服務器持有“生存權(quán)”,這使得它可以繼續(xù)工作而不需關(guān)心通訊丟失的原因,相關(guān)內(nèi)容將參考圖5在后文作詳細闡述。
      繼續(xù)研究圖4,在判別框401中,從服務器A試圖檢測與服務器B通訊是否可信賴。如果服務器A能夠檢測到與服務器B的可信賴通訊,程序進行到步驟402,其中服務器等待一個特定的時間間隔,然后重復判別框401中的判斷。
      如果在判別框401中,服務器A未探測到與服務器B的可信賴通訊,那么在判別框403中,服務器A就檢查通訊鏈路的可靠性。如果在判別框403中服務器A未檢測到可信賴的通訊鏈路,那么在步驟405中,服務器A就終止在集群中的活動,以避免工作在“大腦分裂”模式中。
      然而,在判別框403中,如果服務器A確實檢測到了可信賴的通訊鏈路,那么程序進行到判別框407。在判別框407中,程序判斷在假定服務器B發(fā)生故障之前,服務器A是否等待了必需的若干個時間間隔。如果根據(jù)判別框407,服務器A尚未等待必需的若干個時間間隔,程序進行到步驟408,該步驟中服務器A等待一個時間間隔。等待過后,在判別框409中,服務器A試圖再次檢測是否與服務器B有可信賴通訊。如果在判別框409中服務器A檢測到了與服務器B的可信賴通訊,程序返回步驟402。根據(jù)步驟407,408和409定義的循環(huán),重復檢測重新建立的通訊連接,以避免在重組集群系統(tǒng)之前,由于服務器B上不重要的軟件錯誤造成的短暫停頓,使得服務器A取代服務器B的位置進行工作。
      如果服務器A在若干次必需的嘗試后仍沒有檢測到與服務器B的可信賴通訊,在步驟411中,服務器A就為自身賦予“生存權(quán)”,并在步驟412中對集群進行重組。服務器A完成對集群的重組后,它再一次于判別框413中開始檢測來自服務器B的通訊是否可信賴。如果服務器B從一個非終止類型的軟件錯誤中恢復,在集群完成重組后,它可能繼續(xù)向服務器A發(fā)送心跳信號和其他數(shù)據(jù)以與服務器A保持通訊。只要沒有檢測到來自服務器B的通訊,那么就如判別框413和步驟414組成的循環(huán)所示,服務器A繼續(xù)工作,并周期性地監(jiān)控來自服務器B的通訊。如果在判別框413中,檢測到來自服務器B的通訊重新建立完成,程序進行到步驟415,其中服務器B在發(fā)生任何磁盤訪問事件之前自行關(guān)閉,以避免工作在“大腦分裂”模式并由此導致服務器A和服務器B的大容量存儲設備中的數(shù)據(jù)產(chǎn)生矛盾。
      根據(jù)本發(fā)明的一個實施例,持有“生存權(quán)”的主服務器可以執(zhí)行圖5中的程序步驟,作為針對來自其他服務器發(fā)生通訊丟失的反應。在判別框501中,主服務器B試圖檢測與服務器A的可信賴通訊。如果主服務器B能夠檢測到與服務器A的可信賴通訊,程序進行到步驟502,其中服務器B等待一個特定的時間間隔,然后繼續(xù)重復判別框501中的動作。
      在判別框501中,如果服務器B沒有檢測到與服務器A的可信賴通訊,程序進行到判別框507,判斷在假定服務器A發(fā)生故障之前,服務器B是否等待了必需的若干個時間間隔。如果根據(jù)判別框507,服務器B尚未等待必需的若干個時間間隔,程序進行到步驟508,該步驟中服務器B等待一個時間間隔。等待過后,在判別框509中,服務器B試圖再次檢測是否與服務器A有可信賴通訊。如果在判別框509中服務器B檢測到了與服務器A的可信賴通訊,程序返回步驟502。根據(jù)步驟507,508和509定義的循環(huán),重復檢測重新建立的通訊連接,以避免在重組集群系統(tǒng)之前,由于服務器A上不致命的軟件錯誤造成的短暫停頓,使得服務器B取代服務器A的位置進行工作。
      如果服務器B在若干次必需的嘗試后仍沒有檢測到與服務器A的可信賴通訊,在步驟512中,服務器B對集群進行重組。服務器B完成對集群的重組后,它再一次于判別框513中開始檢測來自服務器A的通訊是否可信賴。如果服務器A從一個非終止類型的軟件錯誤中恢復,在集群完成重組后,它可能繼續(xù)向服務器B發(fā)送心跳信號和其他數(shù)據(jù)以與服務器B保持通訊。只要沒有檢測到來自服務器A的通訊,那么就如判別框513和步驟514組成的循環(huán)所示,服務器B繼續(xù)工作,并周期性地監(jiān)控來自服務器A的通訊。如果在判別框513中,檢測到來自服務器A的通訊重新建立完成,程序進行到步驟516,其中服務器B重組集群以接納服務器A恢復工作。
      在不背離本發(fā)明的精神和必需特征的前提下,本發(fā)明可以通過其他特定方式實現(xiàn)。上述實施例應被認為僅作為說明行為,而非僅限于此。因此,本發(fā)明的范圍由所附權(quán)利要求所標明,而非前文描述。在不背離和超出本發(fā)明的權(quán)利要求及其等同物所限定的范圍內(nèi),可以進行修改。
      權(quán)利要求
      1.一種提高包括通過通訊鏈路相連的第一服務器和第二服務器的計算機集群系統(tǒng)可用性和可靠性的方法,其中所述計算機集群中一旦出現(xiàn)中斷的情況,所述第二服務器被賦予生存權(quán);所述方法包括下列動作所述第一服務器檢測從所述第二服務器到所述第一服務器的通訊丟失;所述第一服務器分析通訊鏈路以確定通訊鏈路是否正常工作;如果判定通訊鏈路能夠正常工作,則所述第一服務器繼續(xù)運行并承擔生存權(quán);以及如果判定通訊鏈路不能正常工作,則所述第一服務器停止運行。
      2.如權(quán)利要求1所述的方法,其特征在于檢測通訊丟失的動作包括,所述第一服務器判定無法在通訊鏈路上檢測到由第二服務器生成的心跳信號。
      3.如權(quán)利要求2所述的方法,其特征在于通訊鏈路包括連接第一服務器和第二服務器的專用鏈路。
      4.如權(quán)利要求1所述的方法,其特征在于所述通訊鏈路包括建立在計算機網(wǎng)絡中的虛擬信道,所述計算機網(wǎng)絡包括一個或多個彼此相連并且與所述第一服務器和所述第二服務器相連的網(wǎng)絡設備。
      5.如權(quán)利要求1所述的方法,其特征在于所述第一服務器和所述第二服務器中的每臺,還包括一個文件操作系統(tǒng)和至少一個附屬大容量存儲設備;并且所述第一服務器和所述第二服務器中的每臺執(zhí)行所述文件操作系統(tǒng),從而能為來自其他網(wǎng)絡設備的網(wǎng)絡請求提供服務;所述網(wǎng)絡請求包括對使用所述第一服務器和所述第二服務器之上的資源的請求。
      6.如權(quán)利要求5所述的方法,還包括以下動作將所述第一服務器的至少一個附屬存儲設備上的數(shù)據(jù)鏡像至所述第二服務器的至少一個附屬大容量存儲設備上;并且將所述第二服務器的至少一個附屬存儲設備上的數(shù)據(jù)鏡像至所述第一服務器的至少一個附屬存儲設備上。
      7.如權(quán)利要求6所述的方法,其特征在于所述通訊鏈路為僅連接所述第一服務器和所述第二服務器的專用通訊鏈路;檢測通訊丟失的動作包括以下動作所述第一服務器嘗試通過所述通訊鏈路與所述第二服務器進行通訊;并且所述第一服務器分析通過所述通訊鏈路嘗試通訊的結(jié)果,以判定所述第一服務器不能與所述第二服務器進行通訊。
      8.如權(quán)利要求1所述的方法,其特征在于,分析通訊鏈路以判定所述通訊鏈路是否正常工作的動作還包括如下動作,所述第一服務器反復檢查通訊鏈路傳輸特性,以判定這些特性是否在規(guī)定參數(shù)范圍內(nèi)。
      9.如權(quán)利要求1所述的方法,其特征在于所述第一服務器判定所述通訊鏈路能夠正常工作,該方法進一步包括所述第一服務器對由網(wǎng)絡設備向所述第二服務器提出的網(wǎng)絡請求進行服務的動作。
      10.如權(quán)利要求9所述的方法,進一步包括以下動作所述第一服務器判定來自所述第二服務器的通訊已恢復;并且所述第二服務器停止運行。
      11.如權(quán)利要求1所述的方法,其特征在于所述第一服務器判定所述通訊鏈路未正常工作,該方法進一步包括所述第二服務器繼續(xù)工作,并對在所述第一服務器停止工作后,向所述第一服務器提出的網(wǎng)絡請求進行服務的動作。
      12.一種提高包括通過通訊鏈路相連的第一服務器和第二服務器的計算機集群系統(tǒng)可用性和可靠性的方法,所述第一服務器和所述第二服務器中的每臺都包括一個文件操作系統(tǒng)和至少一個關(guān)聯(lián)的附屬大容量存儲設備,使得所述第一服務器和所述第二服務器中的每臺都可以接收導致數(shù)據(jù)在所述至少一個附屬大容量存儲設備進行寫入或讀出的請求,所述計算機集群中一旦出現(xiàn)中斷的情況,所述第二服務器就被賦予生存權(quán);所述方法包括所述第一服務器判定無法在所述通訊鏈路上檢測到與所述第二服務器相關(guān)的心跳信號;所述第一服務器分析通訊鏈路以判定通訊鏈路之完整性是否存在任何錯誤;如果所述第一服務器判定通訊鏈路之完整性存在錯誤,所述第一服務器停止工作,并且所述第二服務器重組計算機集群系統(tǒng),使得所述第二服務器為網(wǎng)絡請求服務,否則,這些需求將被導向所述第一服務器;并且如果所述第一服務器判定通訊鏈路之物理完整性不存在錯誤,所述第一服務器為自己賦予生存權(quán),并且所述第一服務器重新配置計算機集群系統(tǒng),使得所述第一服務器為網(wǎng)絡請求服務,否則,這些需求將被導向所述第二服務器。
      13.如權(quán)利要求12所述的方法,進一步包括在判定無法檢測到與所述第二服務器相關(guān)的心跳信號的動作之前,所述第一服務器和所述第二服務器為所述第一服務器的至少一個大容量存儲設備和所述第二服務器的至少一個大容量存儲設備上的數(shù)據(jù)建立鏡像的動作。
      14.如權(quán)利要求13所述的方法,其特征在于,建立數(shù)據(jù)鏡像的動作包括在第一服務器和第二服務器之間的通訊鏈路上傳遞數(shù)據(jù)。
      15.如權(quán)利要求13所述的方法,其特征在于,所述第一服務器判定無法檢測到與第二服務器相關(guān)的心跳信號的動作包括所述第一服務器反復監(jiān)控通訊鏈路上的心跳信號;并且當所述第一服務器在一段特定時間內(nèi)反復執(zhí)行監(jiān)控通訊鏈路的動作無法檢測到心跳信號時,所述第一服務器判定再也不能檢測到心跳信號。
      16.如權(quán)利要求12所述的方法,進一步包括在所述第一服務器完成對集群系統(tǒng)的重新配置動作之后的下列動作所述第一服務器再次檢測與第二服務器相關(guān)的心跳信號;并且在訪問與所述第二服務器相關(guān)的至少一個大容量存儲設備之前,所述第二服務器停止工作。
      17.一種提高包括通過通訊鏈路相連的第一服務器和第二服務器的計算機集群系統(tǒng)可用性和可靠性的方法,所述第一服務器和所述第二服務器中的每臺都包括一個文件操作系統(tǒng)和至少一個關(guān)聯(lián)的附屬大容量存儲設備,使得所述第一服務器和所述第二服務器可以接收導致數(shù)據(jù)在所述至少一個附屬大容量存儲設備進行寫入或讀出的請求,所述計算機集群中一旦出現(xiàn)中斷的情況,所述第二服務器就被賦予生存權(quán);所述方法包括下列動作在計算機集群系統(tǒng)的正常運行中,通過使用所述通訊鏈路在第一服務器和第二服務器之間傳輸數(shù)據(jù),在所述與第一服務器相關(guān)的至少一個大容量存儲設備上和與所述第二服務器相關(guān)的至少一個大容量存儲設備上建立數(shù)據(jù)鏡像;所述第一服務器判定所述第二服務器不能正常工作,包括下列動作所述第一服務器以特定時間間隔分析所述通訊鏈路;所述第一服務器無法檢測到在所述通訊鏈路上來自所述第二服務器的通訊;以及所述第一服務器根據(jù)分析所述通訊鏈路的結(jié)果判定所述通訊鏈路是否可以正常工作;所述第一服務器取得對計算機集群系統(tǒng)的控制;以及所述第一服務器重新配置計算機集群系統(tǒng),使得所述第一服務器接收文件服務器的請求,否則,這些請求將被導向到所述第二服務器。
      18.如權(quán)利要求17所述的方法,還包括下列動作在所述第一服務器取得對計算機集群系統(tǒng)的控制后,所述第一服務器判定所述第二服務器已經(jīng)可以正常運行;以及在訪問所述與第二服務器相關(guān)的至少一個大容量存儲設備之前,所述第二服務器停止工作。
      19.一種計算機程序產(chǎn)品,用于在包含于一個計算機集群系統(tǒng)的第一服務器中實現(xiàn)一種方法,所述計算機集群系統(tǒng)還包括一個第二服務器以及連接第一服務器和第二服務器的通訊鏈路,所述方法用于所述第一服務器響應于所述第二服務器之故障取得對計算機集群系統(tǒng)的控制,該計算機程序產(chǎn)品包括計算機可讀的介質(zhì),載有用于實現(xiàn)所述方法的計算機可執(zhí)行指令,所述計算機可執(zhí)行指令包括如果所述第一服務器檢測不到來自所述第二服務器的通訊,用來判定所述第一服務器是否有生存權(quán)的程序代碼,所述第一服務器初始時沒有生存權(quán);用來檢測發(fā)生來自所述第二服務器的通訊丟失的程序代碼;用來響應于通訊丟失,判定通訊鏈路是否能夠正常工作的程序代碼;用來執(zhí)行下列動作的程序代碼如果通訊鏈路不能正常工作,停止所述第一服務器的工作;以及如果通訊鏈路能夠正常工作,繼續(xù)所述第一服務器的工作,盡管所述第一服務器初始時并未持有生存權(quán)。
      20.如權(quán)利要求19所述的計算機程序產(chǎn)品,其特征在于,通訊鏈路包含位于第一服務器和第二服務器之間的一條專用鏈路。
      21.如權(quán)利要求19所述的計算機程序產(chǎn)品,其特征在于,所述通訊鏈路包括一個包含于網(wǎng)絡中的虛擬信道,所述網(wǎng)絡連接第一服務器,第二服務器和若干網(wǎng)絡設備。
      22.如權(quán)利要求19所述的計算機程序產(chǎn)品,其特征在于,所述計算機可執(zhí)行指令還包括,在計算機集群系統(tǒng)正常工作時,用來在與所述第一服務器相關(guān)的至少一個大容量存儲設備和與所述第二服務器相關(guān)的至少一個大容量存儲設備之間建立數(shù)據(jù)鏡像的程序代碼,且第一服務器和第二服務器互相通訊。
      23.如權(quán)利要求19所述的計算機程序產(chǎn)品,其特征在于,用來判定所述第一服務器是否持有生存權(quán)的程序代碼包括,檢查第一服務器所保存的生存權(quán)標志的程序代碼。
      全文摘要
      本發(fā)明用于計算機集群系統(tǒng),本發(fā)明是一種當系統(tǒng)中一臺服務器(220)運行失敗時,用于增強另一臺服務器(210)的可用性的方法。在集群系統(tǒng)中,每臺服務器(210,220)都有一個附屬的大容量存儲設備(214,224),并且每臺服務器(210,220)都可以處理來自集群系統(tǒng)中任何網(wǎng)絡設備(230,240,250)的請求。在服務器(210,220)的大容量存儲設備(214,224)中的數(shù)據(jù)互為鏡像,這樣每臺服務器的大容量存儲設備中都保存有整個集群系統(tǒng)數(shù)據(jù)的一個完整備份。建立數(shù)據(jù)鏡像的過程通過服務器間的一個專用鏈路(202)實現(xiàn),這樣可以減少集群系統(tǒng)中其他部分發(fā)生擁塞的情況。當?shù)谝慌_服務器(210)檢測到發(fā)生來自第二臺服務器(220)的通訊數(shù)據(jù)丟失的情況時,第一臺服務器(210)判斷是否是由于專用鏈路(202)的故障導致了通訊數(shù)據(jù)丟失。如果專用鏈路(202)運行失敗,第一臺服務器停止運行,以避免將數(shù)據(jù)寫入其相連的大容量存儲設備(214),因為這些數(shù)據(jù)由于通訊的丟失將不能被建立鏡像。如果專用鏈路(202)可以正常運行,第一臺服務器(210)繼續(xù)運行。在上述兩種情況下,因為每臺服務器(210,220)都可以處理來自任何網(wǎng)絡設備(230,240,250)的請求,并且每臺服務器都有整個網(wǎng)絡數(shù)據(jù)的完整拷貝,因此,即使一臺服務器被關(guān)閉,整個集群系統(tǒng)仍然可以正常使用。
      文檔編號G06F11/00GK1483163SQ01821130
      公開日2004年3月17日 申請日期2001年12月19日 優(yōu)先權(quán)日2000年12月21日
      發(fā)明者丹尼爾·M·普里塞, 丹尼爾 M 普里塞 申請人:雷卡托系統(tǒng)公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1