集群系統(tǒng),服務(wù)器設(shè)備,集群系統(tǒng)管理方法和計(jì)算機(jī)可讀記錄介質(zhì)的制作方法
【專利摘要】一種集群系統(tǒng)包括通過通信路徑相連的服務(wù)器裝置(10,20)。每個(gè)服務(wù)器裝置包括:經(jīng)由通信路徑(30?50)向其他服務(wù)器裝置發(fā)送指示自身存在的信號(hào)的信號(hào)發(fā)送單元(11);確定通信路徑(30?50)是否可靠的可靠性確定單元(12);以及處理管理單元(13),當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。
【專利說明】
集群系統(tǒng),服務(wù)器設(shè)備,集群系統(tǒng)管理方法和計(jì)算機(jī)可讀記錄介質(zhì)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及包括多個(gè)服務(wù)器裝置的集群系統(tǒng)、其中使用的服務(wù)器裝置、管理集群系統(tǒng)的方法以及存儲(chǔ)用于實(shí)現(xiàn)它們的程序的計(jì)算機(jī)可讀記錄介質(zhì)。
【背景技術(shù)】
[0002]公司等使用集群系統(tǒng)以允許在系統(tǒng)故障事件中繼續(xù)執(zhí)行操作。在集群系統(tǒng)中,多個(gè)服務(wù)器裝置相互連接,并且這些服務(wù)器裝置對(duì)用戶整體表現(xiàn)為單個(gè)服務(wù)器裝置。
[0003]此外,在集群系統(tǒng)中,通過服務(wù)器裝置之間的心跳通信來檢測(cè)故障,以阻止操作的停止(例如,參見專利文獻(xiàn)I和2)。在心跳通信中,服務(wù)器裝置以設(shè)定間隔向相互發(fā)送指示自身存在的信號(hào)(以下稱為“心跳”)。
[0004]具體地,在專利文獻(xiàn)I和2公開的系統(tǒng)中,每個(gè)服務(wù)器裝置先確定與每個(gè)通信路徑有關(guān)的心跳通信中是否出現(xiàn)超時(shí)。當(dāng)出現(xiàn)超時(shí)時(shí),確定出現(xiàn)某種故障。當(dāng)確定出現(xiàn)故障時(shí),每個(gè)服務(wù)器確定在設(shè)定超時(shí)時(shí)段內(nèi)是否有接收分組通過網(wǎng)絡(luò)到達(dá)。如果接收分組未到達(dá)(超時(shí)),確定出現(xiàn)通信故障。如果接收分組到達(dá),確定伙伴服務(wù)器中出現(xiàn)異常。
[0005]在專利文獻(xiàn)I和2公開的系統(tǒng)中,一旦檢測(cè)到出現(xiàn)故障,無故障服務(wù)器裝置將接管故障服務(wù)器裝置的操作。這阻止了操作的停止。
[0006]現(xiàn)有技術(shù)文獻(xiàn)列表
[0007][專利文獻(xiàn)]
[0008]專利文獻(xiàn)1:JP2003-173299A
[0009]專利文獻(xiàn)2:JP2008-172592A
【發(fā)明內(nèi)容】
[0010]發(fā)明要解決的技術(shù)問題
[0011]然而,在專利文獻(xiàn)I和2公開的系統(tǒng)中,故障出現(xiàn)的檢測(cè)基于是否接收到心跳以及從網(wǎng)絡(luò)接收的分組的接收狀態(tài)。這便帶來出現(xiàn)所謂腦裂(sp I i t-brain)癥狀的可能性。
[0012]例如,假設(shè)專利文獻(xiàn)I和2公開的系統(tǒng)中的一個(gè)服務(wù)器裝置的通信接口(網(wǎng)卡)出現(xiàn)故障。在該情形中,上文提到的一個(gè)服務(wù)器裝置無法從網(wǎng)絡(luò)接收心跳或分組,因而確定出現(xiàn)通信故障。另一方面,另一個(gè)服務(wù)器裝置無法接收心跳,但可以從網(wǎng)絡(luò)接收分組,因而確定上文提到的一個(gè)服務(wù)器裝置因故障出現(xiàn)而停機(jī)。如果上文提到的一個(gè)服務(wù)器裝置正在執(zhí)行操作處理,另一個(gè)服務(wù)器裝置也開始操作處理。因此,兩個(gè)服務(wù)器裝置執(zhí)行相同的操作處理。
[0013]在該情形中,如果操作處理是例如只提供信息的靜態(tài)網(wǎng)站的呈現(xiàn),則不會(huì)有問題出現(xiàn)。但是,如果操作處理是數(shù)據(jù)的更新,則將存在處理的內(nèi)容的沖突;這就是腦裂癥狀。
[0014]本發(fā)明的一個(gè)示例性目的在于提供一種集群系統(tǒng)、服務(wù)器裝置、管理集群系統(tǒng)的方法和計(jì)算機(jī)可讀記錄介質(zhì),其可以解決上述問題并阻止集群系統(tǒng)中的處理的內(nèi)容的沖關(guān)ο
[0015]解決問題的途徑
[0016]為實(shí)現(xiàn)上述目的,在本發(fā)明的一個(gè)方面中,一種集群系統(tǒng)包括通過通信路徑相連的多個(gè)服務(wù)器裝置,所述多個(gè)服務(wù)器裝置中的每一個(gè)包括:信號(hào)發(fā)送單元,經(jīng)由所述通信路徑向另一個(gè)服務(wù)器裝置發(fā)送指示自身存在的信號(hào);可靠性確定單元,確定所述通信路徑是否可靠;以及處理管理單元,當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。
[0017]為實(shí)現(xiàn)上述目的,在本發(fā)明的另一方面中,一種服務(wù)器裝置通過通信路徑連接到另一個(gè)服務(wù)器裝置,并且包括:信號(hào)發(fā)送單元,經(jīng)由所述通信路徑向其他服務(wù)器裝置發(fā)送指示自身存在的信號(hào);可靠性確定單元,確定所述通信路徑是否可靠;以及處理管理單元,當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。
[0018]為實(shí)現(xiàn)上述目的,在本發(fā)明的再一個(gè)方面中,一種管理集群系統(tǒng)的方法使用通過通信路徑相連的多個(gè)服務(wù)器裝置,并且包括由多個(gè)服務(wù)器裝置中的每一個(gè)執(zhí)行的以下步驟:步驟(a),經(jīng)由所述通信路徑向另一個(gè)服務(wù)器裝置發(fā)送指示自身存在的信號(hào);步驟(b),確定所述通信路徑是否可靠;以及步驟(c),當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。
[0019]為實(shí)現(xiàn)上述目的,在本發(fā)明的再一個(gè)方面中,一種計(jì)算機(jī)可讀記錄介質(zhì)存儲(chǔ)包括指令的程序,所述指令使計(jì)算機(jī)執(zhí)行以下步驟,所述計(jì)算機(jī)通過通信路徑連接到另一個(gè)計(jì)算機(jī):步驟(a),經(jīng)由所述通信路徑向其他計(jì)算機(jī)發(fā)送指示自身存在的信號(hào);步驟(b),確定所述通信路徑是否可靠;以及步驟(C),當(dāng)處于無法從其他計(jì)算機(jī)接收信號(hào)的狀態(tài)時(shí),檢查到其他計(jì)算機(jī)的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。
[0020]本發(fā)明的有益效果
[0021 ]如上所述,本發(fā)明可以阻止集群系統(tǒng)中的處理的內(nèi)容的沖突。
【附圖說明】
[0022]圖1是示出根據(jù)本發(fā)明實(shí)施例的集群系統(tǒng)的配置的示意圖。
[0023]圖2是示出根據(jù)本發(fā)明實(shí)施例的集群系統(tǒng)和服務(wù)器裝置的配置的框圖。
[0024]圖3是示出根據(jù)本發(fā)明實(shí)施例的組成集群系統(tǒng)的服務(wù)器裝置的行為的流程圖。
[0025]圖4示出了根據(jù)本發(fā)明實(shí)施例的由組成集群系統(tǒng)的服務(wù)器裝置做出的可靠性確定的結(jié)果。
[0026]圖5是示出根據(jù)本發(fā)明實(shí)施例的實(shí)現(xiàn)服務(wù)器裝置的計(jì)算機(jī)的示例的框圖。
【具體實(shí)施方式】
[0027](實(shí)施例)
[0028]以下參考圖1至5描述根據(jù)本發(fā)明實(shí)施例的集群系統(tǒng)、服務(wù)器裝置、管理服務(wù)器裝置的方法和程序。
[0029][系統(tǒng)配置]
[0030]首先,使用圖1來描述根據(jù)本發(fā)明實(shí)施例的集群系統(tǒng)和服務(wù)器裝置的配置。圖1是示出根據(jù)本發(fā)明實(shí)施例的集群系統(tǒng)的配置的示意圖。
[0031]如圖1所示,根據(jù)本實(shí)施例的集群系統(tǒng)100包括通過通信路徑30至50相連的服務(wù)器裝置10和20。在集群系統(tǒng)100中,當(dāng)一個(gè)服務(wù)器裝置中出現(xiàn)故障時(shí),其他服務(wù)器裝置接管故障服務(wù)器裝置正在執(zhí)行的處理。這阻止了操作的停止。
[0032]服務(wù)器裝置10和20中的每一個(gè)經(jīng)由通信路徑30至50,向其他服務(wù)器裝置發(fā)送指示自身存在的信號(hào)(即心跳),并且還能夠確定通信路徑30至50是否可靠。
[0033]當(dāng)服務(wù)器裝置10和20中的每一個(gè)都處于無法從其他服務(wù)器裝置接收心跳的狀態(tài)時(shí),其檢查到其他服務(wù)器裝置的通信路徑30至50是否已被確定為可靠。如果檢查結(jié)果表明通信路徑30至50未被確定為可靠,則每個(gè)服務(wù)器裝置可以停止正在執(zhí)行的處理。
[0034]因此,在本實(shí)施例中,服務(wù)器裝置10和20做出關(guān)于通信路徑30至50對(duì)心跳通信的可靠性的確定,并且可以根據(jù)確定結(jié)果來停止處理,即使實(shí)際上沒有裝置停機(jī)。這樣阻止了處理的內(nèi)容的沖突,即,所謂腦裂癥狀的出現(xiàn)。
[0035]以下使用圖2詳細(xì)描述根據(jù)本實(shí)施例的集群系統(tǒng)和服務(wù)器裝置的配置。圖2是示出根據(jù)本發(fā)明實(shí)施例的集群系統(tǒng)和服務(wù)器裝置的配置的框圖。
[0036]如圖2所示,在本實(shí)施例中,通信路徑30是用作經(jīng)過網(wǎng)絡(luò)31的通信路徑的公共局域網(wǎng)(LAN)。通信路徑40是用作直接連接在服務(wù)器裝置之間的通信路徑的互連LAN。通信路徑50經(jīng)過存儲(chǔ)裝置51。
[0037]服務(wù)器裝置10、20和存儲(chǔ)裝置51通過使用小型計(jì)算機(jī)系統(tǒng)接口(SCSI)或光纖信道(FC)的通信路徑50相連。通信路徑50可以通過使用諸如互聯(lián)網(wǎng)而非專用線路的網(wǎng)絡(luò)來構(gòu)建。
[0038]在本實(shí)施例中,如圖2所示,服務(wù)器裝置10包括信號(hào)發(fā)送單元11、可靠性確定單元
12、處理管理單元13、信號(hào)接收單元14、自動(dòng)停止單元15、對(duì)應(yīng)于通信路徑的通信接口 16至
18、以及操作處理執(zhí)行單元19。其中,通信接口 16至18由例如網(wǎng)絡(luò)接口卡(NIC)構(gòu)成。
[0039]信號(hào)發(fā)送單元11經(jīng)由通信路徑30至50向其他服務(wù)器裝置發(fā)送心跳。除了通信路徑30至50,信號(hào)發(fā)送單元11還在經(jīng)由通信路徑進(jìn)行發(fā)送的同時(shí)向自動(dòng)停止單元15發(fā)送心跳。注意,可以周期性地發(fā)送心跳,或根據(jù)設(shè)定條件發(fā)送心跳。
[0040]信號(hào)接收單元14經(jīng)由通信接口16至18從其他服務(wù)器裝置接收心跳。信號(hào)接收單元
14還確定是否處于無法從其他服務(wù)器裝置接收心跳的狀態(tài),具體地,心跳是否已超時(shí)。
[0041]可靠性確定單元12確定通信路徑30至50是否可靠。具體地,對(duì)于通信路徑40,可靠性確定單元12向網(wǎng)絡(luò)31中的設(shè)備(路由器)32發(fā)送請(qǐng)求(ICMP回聲請(qǐng)求),并且當(dāng)從設(shè)備32返回對(duì)該請(qǐng)求的響應(yīng)(ICMP回聲答復(fù))時(shí),確定通信路徑40可靠。
[0042]當(dāng)對(duì)用作通信接口17的NIC施加電力時(shí),可靠性確定單元12確定通信路徑40可靠。具體地,對(duì)于通信路徑50,可靠性確定單元12向存儲(chǔ)裝置51發(fā)送SCSI或FC規(guī)定的命令,并且當(dāng)從存儲(chǔ)裝置51返回對(duì)該命令的響應(yīng)時(shí),確定通信路徑50可靠。
[0043]操作處理執(zhí)行單元19執(zhí)行對(duì)集群系統(tǒng)100執(zhí)行的操作的處理(操作處理)。具體地,操作處理執(zhí)行單元19通過用于操作處理的應(yīng)用程序來構(gòu)建。操作處理執(zhí)行單元19基于逐步操作來構(gòu)建。
[0044]當(dāng)信號(hào)接收單元14確定處于無法從其他服務(wù)器裝置接收心跳的狀態(tài)時(shí),處理管理單元13檢查可靠性確定單元12是否已確定通信路徑30至50可靠。
[0045]如果檢查結(jié)果表明通信路徑30至50未被確定為可靠,則處理管理單元13使得操作處理執(zhí)行單元19停止正在執(zhí)行的處理。另一方面,如果檢查結(jié)果表明一個(gè)或多個(gè)通信路徑已被確定為可靠,則處理管理單元13確定其他服務(wù)器裝置中出現(xiàn)異常。在該情形中,如果操作處理執(zhí)行單元19已在執(zhí)行操作處理,則處理管理單元13使得操作處理執(zhí)行單元19繼續(xù)執(zhí)行該處理。另一方面,如果操作處理執(zhí)行單元19不在執(zhí)行操作處理,則處理管理單元13使得操作處理執(zhí)行單元19替代其他服務(wù)器裝置去執(zhí)行其他服務(wù)器裝置正在執(zhí)行的操作處理。
[0046]當(dāng)來自信號(hào)發(fā)送單元11的心跳的發(fā)送已停止時(shí),自動(dòng)停止單元15使服務(wù)器裝置10停止。具體地,自動(dòng)停止單元15通過事先構(gòu)建在服務(wù)器裝置10中的看門狗定時(shí)器來實(shí)現(xiàn)。由此提供自動(dòng)停止單元15,當(dāng)例如服務(wù)器裝置10簡(jiǎn)單掛起時(shí),服務(wù)器裝置10也停止。采取該動(dòng)作的理由如下。在服務(wù)器裝置10掛起后,服務(wù)器裝置20確定服務(wù)器裝置10中出現(xiàn)故障并接管服務(wù)器裝置10的處理。然后,如果服務(wù)器裝置10從掛起狀態(tài)中恢復(fù),則將出現(xiàn)腦裂癥狀。
[0047]服務(wù)器裝置20包括信號(hào)發(fā)送單元21、可靠性確定單元22、處理管理單元23、信號(hào)接收單元24、自動(dòng)停止單元25、對(duì)應(yīng)于通信路徑的通信接口 16至18、以及操作處理執(zhí)行單元29。由于服務(wù)器裝置10和20以相同方式配置且具有相同功能,省略對(duì)服務(wù)器裝置20的組件的描述。盡管在圖1和2的示例中僅有兩個(gè)服務(wù)器裝置組成集群系統(tǒng)100,本實(shí)施例中服務(wù)器裝置的數(shù)量沒有特定限制。
[0048][系統(tǒng)行為]
[0049]現(xiàn)在使用圖3來描述根據(jù)本發(fā)明實(shí)施例的集群系統(tǒng)100的行為。圖3是示出根據(jù)本發(fā)明實(shí)施例的組成集群系統(tǒng)的服務(wù)器裝置的行為的流程圖。
[0050]集中在服務(wù)器裝置10并在需要時(shí)參考圖2,提供以下描述。在本實(shí)施例中,通過使集群系統(tǒng)100操作來實(shí)現(xiàn)管理集群系統(tǒng)的方法。因此,以下對(duì)集群系統(tǒng)的行為的描述適用于根據(jù)本實(shí)施例的管理集群系統(tǒng)的方法。
[0051]其前提是,在服務(wù)器裝置10中,信號(hào)發(fā)送單元11以設(shè)定間隔經(jīng)由通信接口16至18向服務(wù)器裝置20發(fā)送心跳。此外,在服務(wù)器裝置10中,與心跳的發(fā)送或接收時(shí)刻同步,可靠性確定單元12確定通信路徑30至50是否可靠。
[0052]類似地,在服務(wù)器裝置20中,信號(hào)發(fā)送單元21以設(shè)定間隔經(jīng)由通信接口 26至28向服務(wù)器裝置10發(fā)送心跳。此外,同樣在服務(wù)器裝置20中,與心跳的發(fā)送或接收時(shí)刻同步,可靠性確定單元22確定通信路徑30至50是否可靠。
[0053]如圖3所示,在服務(wù)器裝置10中,信號(hào)接收單元14確定來自服務(wù)器裝置20的心跳的接收是否已超時(shí)(步驟Al)。
[0054]如果步驟Al的確定結(jié)果表明心跳的接收未超時(shí),則信號(hào)接收單元14在設(shè)定時(shí)間段結(jié)束后再次執(zhí)行步驟Al。另一方面,如果步驟Al的確定結(jié)果表明心跳的接收已超時(shí),則信號(hào)接收單元14向處理管理單元13通知超時(shí)。
[0055]一旦被通知超時(shí),處理管理單元13確定通信路徑30至50中的一個(gè)或多個(gè)是否可靠(步驟A2)。如果步驟A2的確定結(jié)果表明通信路徑中的一個(gè)或多個(gè)可靠,則處理管理單元13確定操作處理執(zhí)行單元19是否正在執(zhí)行操作處理(步驟A3)。
[0056]如果步驟A3的確定結(jié)果表明操作處理執(zhí)行單元19正在執(zhí)行操作處理,則處理管理單元13使得操作處理執(zhí)行單元19繼續(xù)操作處理(步驟A4)。相反,如果步驟A3的確定結(jié)果表明操作處理執(zhí)行單元19不在執(zhí)行操作處理,則處理管理單元13使得操作處理執(zhí)行單元19接管服務(wù)器裝置20正在執(zhí)行的處理(步驟A5)。
[0057]如果步驟A2的確定結(jié)果表明沒有通信路徑可靠,類似地,處理管理單元13確定操作處理執(zhí)行單元19是否正在執(zhí)行操作處理(步驟A6)。
[0058]如果步驟A6中的確定結(jié)果表明操作處理執(zhí)行單元19不在執(zhí)行操作處理,則結(jié)束服務(wù)器裝置10的處理。另一方面,如果步驟A6的確定結(jié)果表明操作處理執(zhí)行單元19正在執(zhí)行操作處理,則處理管理單元13使得操作處理執(zhí)行單元19停止操作處理(步驟A7)。
[0059]服務(wù)器裝置10重復(fù)執(zhí)行上述步驟Al至A7。同樣,服務(wù)器裝置20重復(fù)執(zhí)行與步驟Al至A7類似的步驟。
[0060][具體示例]
[0061]現(xiàn)在將使用圖4來描述具體示例。圖4示出了根據(jù)本發(fā)明實(shí)施例的由組成集群系統(tǒng)的服務(wù)器裝置做出的可靠性確定的結(jié)果。
[0062]例如,假設(shè)圖2中示出的服務(wù)器裝置10和20無法經(jīng)由任何通信路徑接收心跳。在該情形中,在服務(wù)器裝置10中,可靠性確定單元12確定通信路徑30至50當(dāng)前是否可靠。
[0063]如圖4所示,如果確定結(jié)果表明在服務(wù)器裝置10中通信路徑30和40被確定為可靠,則服務(wù)器裝置10確定在服務(wù)器裝置20中出現(xiàn)故障。理由是,即使服務(wù)器裝置10已確定一個(gè)或多個(gè)通信路徑可靠,當(dāng)服務(wù)器裝置20無法發(fā)送心跳時(shí),認(rèn)為服務(wù)器裝置20是問題來源。
[0064]現(xiàn)在假設(shè)服務(wù)器裝置20中實(shí)際上沒有出現(xiàn)故障,并且由于服務(wù)器裝置20附近的通信路徑30至50的問題而無法發(fā)送/接收心跳。在該情形中,如圖4所示,服務(wù)器裝置20確定通信路徑30至50中沒有一個(gè)是可靠的;因此,如果服務(wù)器裝置20正在執(zhí)行操作處理,則即使其中沒有出現(xiàn)故障也停止操作處理。由此,阻止了腦裂癥狀的出現(xiàn)。
[0065]另一方面,當(dāng)由于服務(wù)器裝置20中出現(xiàn)故障而無法送心跳時(shí),服務(wù)器裝置20不執(zhí)行上述步驟Al至A7的處理,但其中已停止操作處理。因此,不出現(xiàn)腦裂癥狀。
[0066]當(dāng)服務(wù)器裝置20僅因服務(wù)器裝置20的掛起而無法向服務(wù)器裝置10發(fā)送心跳時(shí),月艮務(wù)器裝置10也確定服務(wù)器裝置20中出現(xiàn)故障。這種簡(jiǎn)單掛起將允許服務(wù)器裝置20稍后從掛起狀態(tài)中恢復(fù)。這便帶來出現(xiàn)腦裂癥狀的可能性。因此,在本實(shí)施例中,服務(wù)器裝置10和20都配備有自動(dòng)停止單元15,稍后將描述。其阻止腦裂癥狀的出現(xiàn)。
[0067][程序]
[0068]根據(jù)本實(shí)施例的程序足以使得計(jì)算機(jī)執(zhí)行圖3中示出的步驟Al至A7。根據(jù)本實(shí)施例的集群系統(tǒng)、服務(wù)器裝置和管理集群系統(tǒng)的方法可以通過在計(jì)算機(jī)中安裝該程序并執(zhí)行安裝后的程序來實(shí)現(xiàn)。在該情形中,用作服務(wù)器裝置10的計(jì)算機(jī)的中央處理單元(CPU)起到信號(hào)發(fā)送單元11、可靠性確定單元12、處理管理單元13、信號(hào)接收單元14和自動(dòng)停止單元15的作用,并執(zhí)行處理。用作服務(wù)器裝置20的計(jì)算機(jī)的中央處理單元(CPU)起到信號(hào)發(fā)送單元
21、可靠性確定單元22、處理管理單元23、信號(hào)接收單元24和自動(dòng)停止單元25的作用,并執(zhí)行處理。
[0069][修改示例]
[0070]在上述示例中,每個(gè)服務(wù)器裝置中的可靠性確定單元做出與所有通信路徑的可靠性有關(guān)的確定。然而,本實(shí)施例不限于該模式。本實(shí)施例可以涉及可靠性確定單元做出僅與一部分通信路徑的可靠性有關(guān)的確定的模式。
[0071 ] 此外,在上述示例中,通信路徑基于公共LAN、互連LAN和SCSI/FC。然而,在本實(shí)施例中,連接在服務(wù)器裝置之間的通信路徑的數(shù)量和類型沒有具體限制。其他通信路徑的示例包括用于控制基板管理控制器(BMC)的LAN、使用RS-232-C端口的通信路徑、使用無線LAN的通信路徑以及使用USB終端的通信路徑。
[0072][物理配置]
[0073]現(xiàn)在使用圖5,描述通過執(zhí)行根據(jù)本實(shí)施例的程序來實(shí)現(xiàn)服務(wù)器裝置的計(jì)算機(jī)。圖5是示出根據(jù)本發(fā)明實(shí)施例的實(shí)現(xiàn)服務(wù)器裝置的計(jì)算機(jī)的示例的框圖。
[0074]如圖5所示,計(jì)算機(jī)110包括CPU 111、主存儲(chǔ)器112、存儲(chǔ)裝置113、輸入接口 114、顯示控制器115、數(shù)據(jù)讀取器/寫入器116和通信接口 117。這些組件以使得其可以經(jīng)由總線121相互執(zhí)行數(shù)據(jù)通信的方式相互連接。
[0075]通過將存儲(chǔ)在存儲(chǔ)裝置113中的根據(jù)本實(shí)施例的程序(代碼)部署到主存儲(chǔ)器112中,并以預(yù)定順序執(zhí)行部署后的程序,CPU 111執(zhí)行各種類型的計(jì)算。主存儲(chǔ)器112通常是易失性存儲(chǔ)裝置,例如動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)。提供根據(jù)本實(shí)施例的程序,該程序存儲(chǔ)在計(jì)算機(jī)可讀記錄介質(zhì)120中。注意,可以經(jīng)由通信接口 117在互聯(lián)網(wǎng)上分發(fā)根據(jù)本實(shí)施例的程序。
[0076]存儲(chǔ)裝置113的具體示例包括硬盤和半導(dǎo)體存儲(chǔ)裝置,例如閃存。輸入接口114傳遞CPU 111與諸如鍵盤和鼠標(biāo)之類的輸入裝置118之間的數(shù)據(jù)傳輸。顯示控制器115與顯示裝置119相連并控制顯示裝置119上的顯示。
[0077]數(shù)據(jù)讀取器/寫入器116傳遞CPU111與記錄介質(zhì)120之間的數(shù)據(jù)傳輸。數(shù)據(jù)讀取器/寫入器116從記錄介質(zhì)120讀取程序,并將計(jì)算機(jī)110的處理結(jié)果寫入記錄介質(zhì)120。通信接口 117傳遞CPU 111和其他計(jì)算機(jī)之間的數(shù)據(jù)傳輸。
[0078]記錄介質(zhì)120的具體示例包括:通用半導(dǎo)體存儲(chǔ)裝置,例如壓縮閃存(CF,注冊(cè)商標(biāo))和安全數(shù)字(SD);磁存儲(chǔ)介質(zhì),例如柔性盤;以及光存儲(chǔ)介質(zhì),例如壓縮盤只讀存儲(chǔ)器(CD-ROM)0
[0079]上述實(shí)施例的一部分或全部可以被描述為但不限于以下附記I至24。
[0080]〈附記1>
[0081]—種集群系統(tǒng),包括通過通信路徑相連的多個(gè)服務(wù)器裝置,所述多個(gè)服務(wù)器裝置中的每一個(gè)包括:信號(hào)發(fā)送單元,經(jīng)由所述通信路徑向另一個(gè)服務(wù)器裝置發(fā)送指示自身存在的信號(hào);可靠性確定單元,確定所述通信路徑是否可靠;以及處理管理單元,當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。
[0082]〈附記2>
[0083]根據(jù)附記I所述的集群系統(tǒng),其中,當(dāng)檢查結(jié)果表明通信路徑被確定為可靠時(shí),所述處理管理單元確定在所述其他服務(wù)器裝置中出現(xiàn)異常,并使其服務(wù)器裝置繼續(xù)執(zhí)行正在執(zhí)行的處理,或替代所述其他服務(wù)器裝置執(zhí)行所述其他服務(wù)器裝置正在執(zhí)行的處理。
[0084]〈附記3>
[0085]根據(jù)附記2所述的集群系統(tǒng),其中,所述多個(gè)服務(wù)器裝置通過兩個(gè)或更多個(gè)通信路徑相互連接,以及當(dāng)所述通信路徑中的一個(gè)或多個(gè)被確定為可靠時(shí),每個(gè)服務(wù)器裝置的處理管理單元確定在所述其他服務(wù)器裝置中出現(xiàn)異常。
[0086]〈附記4>
[0087]根據(jù)附記3所述的集群系統(tǒng),其中,所述多個(gè)服務(wù)器裝置通過直接連接在所述服務(wù)器裝置之間的通信路徑、經(jīng)過網(wǎng)絡(luò)的通信路徑以及經(jīng)過存儲(chǔ)裝置的通信路徑而相互連接。
[0088]〈附記5>
[0089]根據(jù)附記4所述的集群系統(tǒng),其中所述可靠性確定單元:當(dāng)對(duì)通信接口施加電力時(shí),確定直接連接在所述服務(wù)器裝置之間的通信路徑可靠;對(duì)于經(jīng)過所述網(wǎng)絡(luò)的通信路徑,向所述網(wǎng)絡(luò)中的設(shè)備發(fā)送請(qǐng)求,并且當(dāng)從所述設(shè)備返回對(duì)所述請(qǐng)求的響應(yīng)時(shí),確定經(jīng)過所述網(wǎng)絡(luò)的通信路徑可靠;以及對(duì)于經(jīng)過所述存儲(chǔ)裝置的通信路徑,向所述存儲(chǔ)裝置發(fā)送命令,并且當(dāng)從所述存儲(chǔ)裝置返回對(duì)所述命令的響應(yīng)時(shí),確定經(jīng)過所述存儲(chǔ)裝置的通信路徑可靠。
[0090]〈附記6>
[0091]根據(jù)附記I所述的集群系統(tǒng),其中,所述多個(gè)服務(wù)器裝置中的每一個(gè)還包括自動(dòng)停止單元,當(dāng)來自所述信號(hào)發(fā)送單元的信號(hào)的傳輸停止時(shí),所述自動(dòng)停止單元使其服務(wù)器裝置停止。
[0092]〈附記7>
[0093]—種服務(wù)器裝置,通過通信路徑連接到另一個(gè)服務(wù)器裝置,所述服務(wù)器裝置包括:信號(hào)發(fā)送單元,經(jīng)由所述通信路徑向其他服務(wù)器裝置發(fā)送指示自身存在的信號(hào);可靠性確定單元,確定所述通信路徑是否可靠;以及處理管理單元,當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。
[0094]〈附記8>
[0095]根據(jù)附記7所述的服務(wù)器裝置,其中,當(dāng)檢查結(jié)果表明通信路徑被確定為可靠時(shí),所述處理管理單元確定在所述其他服務(wù)器裝置中出現(xiàn)異常,并使所述服務(wù)器裝置繼續(xù)執(zhí)行正在執(zhí)行的處理,或替代所述其他服務(wù)器裝置執(zhí)行所述其他服務(wù)器裝置正在執(zhí)行的處理。
[0096]〈附記9>
[0097]根據(jù)附記8所述的服務(wù)器裝置,其中,所述服務(wù)器裝置通過兩個(gè)或更多個(gè)通信路徑連接到所述其他服務(wù)器裝置,以及當(dāng)所述通信路徑中的一個(gè)或多個(gè)被確定為可靠時(shí),所述處理管理單元確定在所述其他服務(wù)器裝置中出現(xiàn)異常。
[0098]〈附記10>
[0099]根據(jù)附記9所述的服務(wù)器裝置,所述服務(wù)器裝置通過直接連接在所述服務(wù)器裝置之間的通信路徑、經(jīng)過網(wǎng)絡(luò)的通信路徑以及經(jīng)過存儲(chǔ)裝置的通信路徑而連接到所述其他服務(wù)器裝置。
[0100]〈附記11>
[0101]根據(jù)附記10所述的服務(wù)器裝置,其中所述可靠性確定單元:當(dāng)對(duì)通信接口施加電力時(shí),確定直接連接在所述服務(wù)器裝置之間的通信路徑可靠;對(duì)于經(jīng)過所述網(wǎng)絡(luò)的通信路徑,向所述網(wǎng)絡(luò)中的設(shè)備發(fā)送請(qǐng)求,并且當(dāng)從所述設(shè)備返回對(duì)所述請(qǐng)求的響應(yīng)時(shí),確定經(jīng)過所述網(wǎng)絡(luò)的通信路徑可靠;以及對(duì)于經(jīng)過所述存儲(chǔ)裝置的通信路徑,向所述存儲(chǔ)裝置發(fā)送命令,并且當(dāng)從所述存儲(chǔ)裝置返回對(duì)所述命令的響應(yīng)時(shí),確定經(jīng)過所述存儲(chǔ)裝置的通信路徑可靠。
[0102]〈附記12>
[0103]根據(jù)附記7所述的服務(wù)器裝置,還包括自動(dòng)停止單元,當(dāng)來自所述信號(hào)發(fā)送單元的信號(hào)的傳輸停止時(shí),所述自動(dòng)停止單元使所述服務(wù)器裝置停止。
[0104]〈附記13>
[0105]—種管理集群系統(tǒng)的方法,所述集群系統(tǒng)使用通過通信路徑相連的多個(gè)服務(wù)器裝置,所述方法包括由所述多個(gè)服務(wù)器裝置中的每一個(gè)執(zhí)行的以下步驟:步驟(a),經(jīng)由所述通信路徑向另一個(gè)服務(wù)器裝置發(fā)送指示自身存在的信號(hào);步驟(b),確定所述通信路徑是否可靠;以及步驟(C),當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。
[0106]〈附記14>
[0107]根據(jù)附記13所述的管理集群系統(tǒng)的方法,其中在步驟(C)中,當(dāng)檢查結(jié)果表明通信路徑被確定為可靠時(shí),確定在所述其他服務(wù)器裝置中出現(xiàn)異常,并且所述服務(wù)器裝置繼續(xù)執(zhí)行正在執(zhí)行的處理,或替代所述其他服務(wù)器裝置執(zhí)行所述其他服務(wù)器裝置正在執(zhí)行的處理。
[0108]〈附記15>
[0109]根據(jù)附記14所述的管理集群系統(tǒng)的方法,其中,所述多個(gè)服務(wù)器裝置通過兩個(gè)或更多個(gè)通信路徑相互連接,以及在步驟(C)中,當(dāng)所述通信路徑中的一個(gè)或多個(gè)被確定為可靠時(shí),確定在所述其他服務(wù)器裝置中出現(xiàn)異常。
[0110]〈附記16>
[0111]根據(jù)附記15所述的管理集群系統(tǒng)的方法,其中,所述多個(gè)服務(wù)器裝置通過直接連接在所述服務(wù)器裝置之間的通信路徑、經(jīng)過網(wǎng)絡(luò)的通信路徑以及經(jīng)過存儲(chǔ)裝置的通信路徑而相互連接。
[0112]〈附記17>
[0113]根據(jù)附記16所述的管理集群系統(tǒng)的方法,其中,在步驟(b)中,當(dāng)對(duì)通信接口施加電力時(shí),確定直接連接在服務(wù)器裝置之間的通信路徑可靠;對(duì)于經(jīng)過所述網(wǎng)絡(luò)的通信路徑,向所述網(wǎng)絡(luò)中的設(shè)備發(fā)送請(qǐng)求,并且當(dāng)從所述設(shè)備返回對(duì)所述請(qǐng)求的響應(yīng)時(shí),確定經(jīng)過所述網(wǎng)絡(luò)的通信路徑可靠;以及對(duì)于經(jīng)過所述存儲(chǔ)裝置的通信路徑,向所述存儲(chǔ)裝置發(fā)送命令,并且當(dāng)從所述存儲(chǔ)裝置返回對(duì)所述命令的響應(yīng)時(shí),確定經(jīng)過所述存儲(chǔ)裝置的通信路徑可靠。
[0114]〈附記18>
[0115]根據(jù)附記13所述的管理集群系統(tǒng)的方法,還包括由所述多個(gè)服務(wù)器裝置中的每一個(gè)執(zhí)行的以下步驟:步驟(d),當(dāng)步驟(a)中的信號(hào)的傳輸停止時(shí),使所述服務(wù)器裝置停止。
[0116]〈附記19>
[0117]—種存儲(chǔ)包括指令的程序的計(jì)算機(jī)可讀記錄介質(zhì),所述指令使計(jì)算機(jī)執(zhí)行以下步驟,所述計(jì)算機(jī)通過通信路徑連接到另一個(gè)計(jì)算機(jī):步驟(a),經(jīng)由所述通信路徑向其他計(jì)算機(jī)發(fā)送指示自身存在的信號(hào);步驟(b),確定所述通信路徑是否可靠;以及步驟(C),當(dāng)處于無法從其他計(jì)算機(jī)接收信號(hào)的狀態(tài)時(shí),檢查到其他計(jì)算機(jī)的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。
[0118]〈附記20>
[0119]根據(jù)附記19所述的計(jì)算機(jī)可讀記錄介質(zhì),其中在步驟(C)中,當(dāng)檢查結(jié)果表明通信路徑被確定為可靠時(shí),確定在所述其他計(jì)算機(jī)中出現(xiàn)異常,并且所述計(jì)算機(jī)繼續(xù)執(zhí)行正在執(zhí)行的處理,或替代所述其他計(jì)算機(jī)執(zhí)行所述其他計(jì)算機(jī)正在執(zhí)行的處理。
[0120]〈附記21>
[0121]根據(jù)附記20所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,所述計(jì)算機(jī)通過兩個(gè)或更多個(gè)通信路徑連接到所述其他計(jì)算機(jī),以及在步驟(C)中,當(dāng)所述通信路徑中的一個(gè)或多個(gè)被確定為可靠時(shí),確定在所述其他計(jì)算機(jī)中出現(xiàn)異常。
[0122]〈附記22>
[0123]根據(jù)附記21所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,所述計(jì)算機(jī)通過直接連接在所述計(jì)算機(jī)之間的通信路徑、經(jīng)過網(wǎng)絡(luò)的通信路徑以及經(jīng)過存儲(chǔ)裝置的通信路徑而連接到所述其他計(jì)算機(jī)。
[0124]〈附記23>
[0125]根據(jù)附記22所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,在步驟(b)中,當(dāng)對(duì)通信接口施加電力時(shí),確定直接連接在所述計(jì)算機(jī)之間的通信路徑可靠;對(duì)于經(jīng)過所述網(wǎng)絡(luò)的通信路徑,向所述網(wǎng)絡(luò)中的設(shè)備發(fā)送請(qǐng)求,并且當(dāng)從所述設(shè)備返回對(duì)所述請(qǐng)求的響應(yīng)時(shí),確定經(jīng)過所述網(wǎng)絡(luò)的通信路徑可靠;以及對(duì)于經(jīng)過所述存儲(chǔ)裝置的通信路徑,向所述存儲(chǔ)裝置發(fā)送命令,并且當(dāng)從所述存儲(chǔ)裝置返回對(duì)所述命令的響應(yīng)時(shí),確定經(jīng)過所述存儲(chǔ)裝置的通信路徑可靠。
[0126]〈附記24>
[0127]根據(jù)附記19所述的記錄介質(zhì),其中所述程序還包括使所述計(jì)算機(jī)執(zhí)行步驟(d)的指令,步驟(d):當(dāng)步驟(a)中的信號(hào)的傳輸停止時(shí)使所述計(jì)算機(jī)停止。
[0128]雖然以上已經(jīng)基于實(shí)施例描述了本申請(qǐng)的發(fā)明,本申請(qǐng)的發(fā)明不限于上述實(shí)施例。可以用本領(lǐng)域技術(shù)人員可以理解的、落入本申請(qǐng)的范圍內(nèi)的各種變化來修改本申請(qǐng)的發(fā)明的配置和細(xì)節(jié)。
[0129]本申請(qǐng)要求2013年12月25日提交的日本專利申請(qǐng)N0.2013-267038的優(yōu)先權(quán),該日本專利申請(qǐng)的公開內(nèi)容通過引用的方式完整地并入本文。
[0130][工業(yè)適用性]
[0131]如上所述,本發(fā)明可以阻止集群系統(tǒng)中的處理的內(nèi)容的沖突。本發(fā)明用于集群系統(tǒng)的管理。
[0132]參考符號(hào)列表
[0133]10:服務(wù)器裝置
[0134]11:信號(hào)發(fā)送單元
[0135]12:可靠性確定單元
[0136]13:處理管理單元
[0137]14:信號(hào)接收單元
[0138]15:自動(dòng)停止單元
[0139]16、17、18:通信接口
[0140]19:操作處理執(zhí)行單元
[0141]20:服務(wù)器裝置
[0142]21:信號(hào)發(fā)送單元
[0143]22:可靠性確定單元
[0144]23:處理管理單元
[0145]24:信號(hào)接收單元
[0146]25:自動(dòng)停止單元
[0147]26、27、28:通信接口
[0148]29:操作處理執(zhí)行單元
[0149]30:通信路徑
[0150]31:網(wǎng)絡(luò)
[0151]32:路由器
[0152]40:通信路徑
[0153]50:通信路徑
[0154]51:存儲(chǔ)裝置
[0155]100:集群系統(tǒng)
[0156]110:計(jì)算機(jī)
[0157]IlliCPU
[0158]112:主存儲(chǔ)器
[0159]113:存儲(chǔ)裝置
[0160]114:輸入接口
[0161]115:顯示控制器
[0162]116:數(shù)據(jù)讀取器/寫入器
[0163]117:通信接口
[0164]118:輸入裝置
[0165]119:顯示裝置
[0166]120:記錄介質(zhì)
[0167]121:總線
【主權(quán)項(xiàng)】
1.一種集群系統(tǒng),包括通過通信路徑相連的多個(gè)服務(wù)器裝置,所述多個(gè)服務(wù)器裝置中的每一個(gè)包括: 信號(hào)發(fā)送單元,經(jīng)由所述通信路徑向另一個(gè)服務(wù)器裝置發(fā)送指示自身存在的信號(hào); 可靠性確定單元,確定所述通信路徑是否可靠;以及 處理管理單元,當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。2.根據(jù)權(quán)利要求1所述的集群系統(tǒng), 其中,當(dāng)檢查結(jié)果表明通信路徑被確定為可靠時(shí),所述處理管理單元確定在所述其他服務(wù)器裝置中出現(xiàn)異常,并使其服務(wù)器裝置繼續(xù)執(zhí)行正在執(zhí)行的處理,或替代所述其他服務(wù)器裝置執(zhí)行所述其他服務(wù)器裝置正在執(zhí)行的處理。3.根據(jù)權(quán)利要求2所述的集群系統(tǒng), 其中,所述多個(gè)服務(wù)器裝置通過兩個(gè)或更多個(gè)通信路徑相互連接,以及 當(dāng)所述通信路徑中的一個(gè)或多個(gè)被確定為可靠時(shí),每個(gè)服務(wù)器裝置的所述處理管理單元確定在所述其他服務(wù)器裝置中出現(xiàn)異常。4.根據(jù)權(quán)利要求3所述的集群系統(tǒng), 其中,所述多個(gè)服務(wù)器裝置通過直接連接在所述服務(wù)器裝置之間的通信路徑、經(jīng)過網(wǎng)絡(luò)的通信路徑以及經(jīng)過存儲(chǔ)裝置的通信路徑而相互連接。5.根據(jù)權(quán)利要求4所述的集群系統(tǒng), 其中所述可靠性確定單元: 當(dāng)對(duì)通信接口施加電力時(shí),確定直接連接在所述服務(wù)器裝置之間的通信路徑可靠; 對(duì)于經(jīng)過所述網(wǎng)絡(luò)的通信路徑,向所述網(wǎng)絡(luò)中的設(shè)備發(fā)送請(qǐng)求,并且當(dāng)從所述設(shè)備返回對(duì)所述請(qǐng)求的響應(yīng)時(shí),確定經(jīng)過所述網(wǎng)絡(luò)的通信路徑可靠;以及 對(duì)于經(jīng)過所述存儲(chǔ)裝置的通信路徑,向所述存儲(chǔ)裝置發(fā)送命令,并且當(dāng)從所述存儲(chǔ)裝置返回對(duì)所述命令的響應(yīng)時(shí),確定經(jīng)過所述存儲(chǔ)裝置的通信路徑可靠。6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的集群系統(tǒng), 其中,所述多個(gè)服務(wù)器裝置中的每一個(gè)還包括自動(dòng)停止單元,當(dāng)來自所述信號(hào)發(fā)送單元的信號(hào)的傳輸停止時(shí),所述自動(dòng)停止單元使其服務(wù)器裝置停止。7.一種服務(wù)器裝置,通過通信路徑連接到另一個(gè)服務(wù)器裝置,所述服務(wù)器裝置包括: 信號(hào)發(fā)送單元,經(jīng)由所述通信路徑向其他服務(wù)器裝置發(fā)送指示自身存在的信號(hào); 可靠性確定單元,確定所述通信路徑是否可靠;以及 處理管理單元,當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。8.根據(jù)權(quán)利要求7所述的服務(wù)器裝置, 其中,當(dāng)檢查結(jié)果表明通信路徑被確定為可靠時(shí),所述處理管理單元確定在所述其他服務(wù)器裝置中出現(xiàn)異常,并使所述服務(wù)器裝置繼續(xù)執(zhí)行正在執(zhí)行的處理,或替代所述其他服務(wù)器裝置執(zhí)行所述其他服務(wù)器裝置正在執(zhí)行的處理。9.根據(jù)權(quán)利要求8所述的服務(wù)器裝置, 其中,所述服務(wù)器裝置通過兩個(gè)或更多個(gè)通信路徑連接到所述其他服務(wù)器裝置,以及當(dāng)所述通信路徑中的一個(gè)或多個(gè)被確定為可靠時(shí),所述處理管理單元確定在所述其他服務(wù)器裝置中出現(xiàn)異常。10.根據(jù)權(quán)利要求9所述的服務(wù)器裝置, 其中,所述服務(wù)器裝置通過直接連接在所述服務(wù)器裝置之間的通信路徑、經(jīng)過網(wǎng)絡(luò)的通信路徑以及經(jīng)過存儲(chǔ)裝置的通信路徑而連接到所述其他服務(wù)器裝置。11.根據(jù)權(quán)利要求10所述的服務(wù)器裝置, 其中所述可靠性確定單元: 當(dāng)對(duì)通信接口施加電力時(shí),確定直接連接在所述服務(wù)器裝置之間的通信路徑可靠; 對(duì)于經(jīng)過所述網(wǎng)絡(luò)的通信路徑,向所述網(wǎng)絡(luò)中的設(shè)備發(fā)送請(qǐng)求,并且當(dāng)從所述設(shè)備返回對(duì)所述請(qǐng)求的響應(yīng)時(shí),確定經(jīng)過所述網(wǎng)絡(luò)的通信路徑可靠;以及 對(duì)于經(jīng)過所述存儲(chǔ)裝置的通信路徑,向所述存儲(chǔ)裝置發(fā)送命令,并且當(dāng)從所述存儲(chǔ)裝置返回對(duì)所述命令的響應(yīng)時(shí),確定經(jīng)過所述存儲(chǔ)裝置的通信路徑可靠。12.根據(jù)權(quán)利要求7至11中任一項(xiàng)所述的服務(wù)器裝置,還包括自動(dòng)停止單元,當(dāng)來自所述信號(hào)發(fā)送單元的信號(hào)的傳輸停止時(shí),所述自動(dòng)停止單元使所述服務(wù)器裝置停止。13.—種管理集群系統(tǒng)的方法,所述集群系統(tǒng)使用通過通信路徑相連的多個(gè)服務(wù)器裝置,所述方法包括由所述多個(gè)服務(wù)器裝置中的每一個(gè)執(zhí)行的以下步驟: 步驟(a),經(jīng)由所述通信路徑向另一個(gè)服務(wù)器裝置發(fā)送指示自身存在的信號(hào); 步驟(b),確定所述通信路徑是否可靠;以及 步驟(c),當(dāng)處于無法從其他服務(wù)器裝置接收信號(hào)的狀態(tài)時(shí),檢查到其他服務(wù)器裝置的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。14.根據(jù)權(quán)利要求13所述的管理集群系統(tǒng)的方法, 其中在步驟(c)中,當(dāng)檢查結(jié)果表明通信路徑被確定為可靠時(shí),確定在所述其他服務(wù)器裝置中出現(xiàn)異常,并且所述服務(wù)器裝置繼續(xù)執(zhí)行正在執(zhí)行的處理,或替代所述其他服務(wù)器裝置執(zhí)行所述其他服務(wù)器裝置正在執(zhí)行的處理。15.根據(jù)權(quán)利要求14所述的管理集群系統(tǒng)的方法, 其中,所述多個(gè)服務(wù)器裝置通過兩個(gè)或更多個(gè)通信路徑相互連接,以及在步驟(c)中,當(dāng)所述通信路徑中的一個(gè)或多個(gè)被確定為可靠時(shí),確定在所述其他服務(wù)器裝置中出現(xiàn)異常。16.根據(jù)權(quán)利要求15所述的管理集群系統(tǒng)的方法, 其中,所述多個(gè)服務(wù)器裝置通過直接連接在所述服務(wù)器裝置之間的通信路徑、經(jīng)過網(wǎng)絡(luò)的通信路徑以及經(jīng)過存儲(chǔ)裝置的通信路徑而相互連接。17.根據(jù)權(quán)利要求16所述的管理集群系統(tǒng)的方法, 其中在步驟(b)中, 當(dāng)對(duì)通信接口施加電力時(shí),確定直接連接在服務(wù)器裝置之間的通信路徑可靠; 對(duì)于經(jīng)過所述網(wǎng)絡(luò)的通信路徑,向所述網(wǎng)絡(luò)中的設(shè)備發(fā)送請(qǐng)求,并且當(dāng)從所述設(shè)備返回對(duì)所述請(qǐng)求的響應(yīng)時(shí),確定經(jīng)過所述網(wǎng)絡(luò)的通信路徑可靠;以及 對(duì)于經(jīng)過所述存儲(chǔ)裝置的通信路徑,向所述存儲(chǔ)裝置發(fā)送命令,并且當(dāng)從所述存儲(chǔ)裝置返回對(duì)所述命令的響應(yīng)時(shí),確定經(jīng)過所述存儲(chǔ)裝置的通信路徑可靠。18.根據(jù)權(quán)利要求13至17中任一項(xiàng)所述的管理集群系統(tǒng)的方法,還包括由所述多個(gè)服務(wù)器裝置中的每一個(gè)執(zhí)行的以下步驟:步驟(d),當(dāng)步驟(a)中的信號(hào)的傳輸停止時(shí),使所述服務(wù)器裝置停止。19.一種存儲(chǔ)包括指令的程序的計(jì)算機(jī)可讀記錄介質(zhì),所述指令使計(jì)算機(jī)執(zhí)行以下步驟,所述計(jì)算機(jī)通過通信路徑連接到另一個(gè)計(jì)算機(jī): 步驟(a),經(jīng)由所述通信路徑向其他計(jì)算機(jī)發(fā)送指示自身存在的信號(hào); 步驟(b),確定所述通信路徑是否可靠;以及 步驟(C),當(dāng)處于無法從其他計(jì)算機(jī)接收信號(hào)的狀態(tài)時(shí),檢查到其他計(jì)算機(jī)的通信路徑是否已被確定為可靠,并且當(dāng)檢查結(jié)果表明所述通信路徑未被確定為可靠時(shí),停止正在執(zhí)行的處理。20.根據(jù)權(quán)利要求19所述的計(jì)算機(jī)可讀記錄介質(zhì), 其中在步驟(c)中,當(dāng)檢查結(jié)果表明通信路徑被確定為可靠時(shí),確定在所述其他計(jì)算機(jī)中出現(xiàn)異常,并且所述計(jì)算機(jī)繼續(xù)執(zhí)行正在執(zhí)行的處理,或替代所述其他計(jì)算機(jī)執(zhí)行所述其他計(jì)算機(jī)正在執(zhí)行的處理。21.根據(jù)權(quán)利要求20所述的計(jì)算機(jī)可讀記錄介質(zhì), 其中,所述計(jì)算機(jī)通過兩個(gè)或更多個(gè)通信路徑連接到所述其他計(jì)算機(jī),以及 在步驟(C)中,當(dāng)所述通信路徑中的一個(gè)或多個(gè)被確定為可靠時(shí),確定在所述其他計(jì)算機(jī)中出現(xiàn)異常。22.根據(jù)權(quán)利要求21所述的計(jì)算機(jī)可讀記錄介質(zhì), 其中,所述計(jì)算機(jī)通過直接連接在所述計(jì)算機(jī)之間的通信路徑、經(jīng)過網(wǎng)絡(luò)的通信路徑以及經(jīng)過存儲(chǔ)裝置的通信路徑而連接到所述其他計(jì)算機(jī)。23.根據(jù)權(quán)利要求22所述的計(jì)算機(jī)可讀記錄介質(zhì), 其中在步驟(b)中, 當(dāng)對(duì)通信接口施加電力時(shí),確定直接連接在所述計(jì)算機(jī)之間的通信路徑可靠, 對(duì)于經(jīng)過所述網(wǎng)絡(luò)的通信路徑,向所述網(wǎng)絡(luò)中的設(shè)備發(fā)送請(qǐng)求,并且當(dāng)從所述設(shè)備返回對(duì)所述請(qǐng)求的響應(yīng)時(shí),確定經(jīng)過所述網(wǎng)絡(luò)的通信路徑可靠,以及 對(duì)于經(jīng)過所述存儲(chǔ)裝置的通信路徑,向所述存儲(chǔ)裝置發(fā)送命令,并且當(dāng)從所述存儲(chǔ)裝置返回對(duì)所述命令的響應(yīng)時(shí),確定經(jīng)過所述存儲(chǔ)裝置的通信路徑可靠。24.根據(jù)權(quán)利要求19至23中任一項(xiàng)所述的計(jì)算機(jī)可讀記錄介質(zhì), 其中所述程序還包括使所述計(jì)算機(jī)執(zhí)行步驟(d)的指令,步驟(d):當(dāng)步驟(a)中的信號(hào)的傳輸停止時(shí)使所述計(jì)算機(jī)停止。
【文檔編號(hào)】G06F11/30GK105849702SQ201480070639
【公開日】2016年8月10日
【申請(qǐng)日】2014年12月15日
【發(fā)明人】下問勝司
【申請(qǐng)人】日本電氣方案創(chuàng)新株式會(huì)社