專利名稱:大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)系統(tǒng)管理自動(dòng)化領(lǐng)域,具體涉及一種大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法及裝置。
背景技術(shù):
并行計(jì)算機(jī)系統(tǒng)通常包含許多通過高速互連網(wǎng)絡(luò)連接的計(jì)算機(jī)結(jié)點(diǎn),這些計(jì)算機(jī)結(jié)點(diǎn)都具有自己的微處理器、本地內(nèi)存、高速互連接口和I/o接口,是物理結(jié)構(gòu)相同但又相對(duì)獨(dú)立的系統(tǒng)。為了進(jìn)行區(qū)分,每個(gè)計(jì)算機(jī)結(jié)點(diǎn)都分配一組全局唯一的標(biāo)識(shí),如網(wǎng)絡(luò)標(biāo)識(shí)(NID-Network Identification)、IP地址和hostname等,這些具有一定規(guī)律的標(biāo)識(shí)稱為特征參數(shù)。并行計(jì)算機(jī)系統(tǒng)的結(jié)點(diǎn)可以配置本地硬盤并設(shè)置為從本地啟動(dòng)系統(tǒng),但是,在大規(guī)模系統(tǒng)中,本地系統(tǒng)的安裝、配置和更新非常麻煩并且不易維護(hù)版本的一致性。因此,無論是否配置本地硬盤,通過網(wǎng)絡(luò)從啟動(dòng)服務(wù)器獲取相應(yīng)的網(wǎng)絡(luò)引導(dǎo)程序和系統(tǒng)內(nèi)核來初始化硬件并引導(dǎo)其它程序的方法是當(dāng)前普遍采用的啟動(dòng)方式。在數(shù)以千計(jì)甚至上萬個(gè)結(jié)點(diǎn)構(gòu)成的大規(guī)模并行計(jì)算機(jī)系統(tǒng)中,存在不同程度的對(duì)多個(gè)結(jié)點(diǎn)加電/復(fù)位的應(yīng)用需求,快速啟動(dòng)這些計(jì)算機(jī)結(jié)點(diǎn)是并行計(jì)算機(jī)系統(tǒng)管理軟件的主要功能之一,是并行計(jì)算機(jī)系統(tǒng)管理自動(dòng)化的重要組成部分。對(duì)于大規(guī)模并行計(jì)算機(jī)系統(tǒng)而言,全系統(tǒng)啟動(dòng)時(shí)間在很大程度上取決于結(jié)點(diǎn)特征參數(shù)的配置方法和內(nèi)核的分發(fā)策略。目前,配置結(jié)點(diǎn)特征參數(shù)的方法主要有兩種一種方法是借助網(wǎng)絡(luò)接口卡(NIC-Network Interface Control)的MAC地址的唯一性來標(biāo)識(shí)結(jié)點(diǎn)。結(jié)點(diǎn)加電/復(fù)位時(shí),兼容預(yù)啟動(dòng)執(zhí)行環(huán)境(PXE — Preboot Execution Environment)規(guī)范的BIOS將MAC地址廣播到動(dòng)態(tài)主機(jī)配置協(xié)議(DHCP — Dynamic Host Configure Protocol)服務(wù)器,DHCP服務(wù)器按照配置文件的約定返回結(jié)點(diǎn)IP地址、啟動(dòng)服務(wù)器IP地址和其它參數(shù)。但是,這種方法在更換計(jì)算機(jī)結(jié)點(diǎn)或更換NIC后將導(dǎo)致MAC地址變化,DHCP服務(wù)器軟件必須覆蓋足夠多的MAC地址,同時(shí)并行計(jì)算機(jī)系統(tǒng)管理軟件還必須定期檢測(cè)結(jié)點(diǎn)的MAC地址是否發(fā)生變動(dòng),在大規(guī)模并行計(jì)算機(jī)系統(tǒng)中,由于計(jì)算機(jī)結(jié)點(diǎn)數(shù)量非常多,這些工作非常耗時(shí);另一種方法是將計(jì)算機(jī)結(jié)點(diǎn)所連接的交換機(jī)端口號(hào)作為配置依據(jù),好處是可隨意替換計(jì)算機(jī)結(jié)點(diǎn)無需考慮MAC地址改變帶來的影響。但是,這種方法要求交換機(jī)是可以被管理的并且結(jié)點(diǎn)和交換機(jī)端口的映射關(guān)系不能隨意變動(dòng)。事實(shí)上,一個(gè)交換機(jī)的端口因狀態(tài)不穩(wěn)定而不得不換用其它端口的事情經(jīng)常發(fā)生,因此這種方法仍然缺乏靈活性。PXE是Intel提出的一個(gè)業(yè)內(nèi)標(biāo)準(zhǔn)的網(wǎng)絡(luò)啟動(dòng)方法,受到許多軟硬件供應(yīng)商支持,因其開放性得到最廣泛應(yīng)用。兼容PXE規(guī)范的NIC是PXE客戶端,DHCP服務(wù)器和啟動(dòng)服務(wù)器是PXE服務(wù)器端,PXE客戶端啟動(dòng)時(shí),必須執(zhí)行以下兩個(gè)操作從DHCP服務(wù)器獲得一個(gè)IP地址和找到一臺(tái)PXE啟動(dòng)服務(wù)器,該服務(wù)器將向PXE客戶端發(fā)送啟動(dòng)所需的文件。一般情況下,并行計(jì)算機(jī)系統(tǒng)配置一臺(tái)DHCP服務(wù)器和一臺(tái)啟動(dòng)服務(wù)器(也可能啟動(dòng)服務(wù)器上同時(shí) 運(yùn)行DHCP服務(wù)),所有結(jié)點(diǎn)從同一個(gè)地點(diǎn)獲取內(nèi)核和應(yīng)用軟件。然而,當(dāng)前計(jì)算機(jī)系統(tǒng)的發(fā)展速度已超出人們的想象,網(wǎng)格、云等大規(guī)模計(jì)算機(jī)系統(tǒng)層出不窮,超過99%的T0P500計(jì)算機(jī)系統(tǒng)中結(jié)點(diǎn)數(shù)均已超過K級(jí)(2011年6月統(tǒng)計(jì)數(shù)字),在這樣的系統(tǒng)中,當(dāng)較多的計(jì)算機(jī)結(jié)點(diǎn)同時(shí)啟動(dòng)時(shí),啟動(dòng)服務(wù)器的性能和帶寬可能與需求失配導(dǎo)致系統(tǒng)啟動(dòng)緩慢。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種啟動(dòng)速度快、啟動(dòng)效率高、靈活性好、實(shí)施成本低的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法及裝置。為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為
一種大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法,其實(shí)施步驟如下為每一個(gè)計(jì)算機(jī)結(jié)點(diǎn)設(shè)置配置接口,計(jì)算機(jī)結(jié)點(diǎn)在啟動(dòng)前預(yù)先讀取配置接口中存儲(chǔ)的用于系統(tǒng)啟動(dòng)所需的特征參數(shù);如果配置接口中的特征參數(shù)可用,則計(jì)算機(jī)結(jié)點(diǎn)根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng);如果配置接口中的特征參數(shù)不可用,則先通過一個(gè)管理控制器為該計(jì)算機(jī)結(jié)點(diǎn)生成特征參數(shù)并寫入所對(duì)應(yīng)的配置接口,然后計(jì)算機(jī)結(jié)點(diǎn)從配置接口讀取特征參數(shù)并根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng)。 作為本發(fā)明大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法的進(jìn)一步改進(jìn)
所述管理控制器的工作流程為
1)每個(gè)管理控制器對(duì)應(yīng)一組計(jì)算機(jī)結(jié)點(diǎn)并形成一個(gè)管理域,每一個(gè)管理控制器分配有唯一的系統(tǒng)編號(hào),每一個(gè)管理域內(nèi)的計(jì)算機(jī)結(jié)點(diǎn)均被分配一個(gè)唯一的域編號(hào),并為管理域指定用于提供啟動(dòng)文件服務(wù)的啟動(dòng)服務(wù)器;
2)管理控制器通過帶外管理網(wǎng)絡(luò)接收計(jì)算機(jī)結(jié)點(diǎn)發(fā)送的中斷請(qǐng)求;
3)管理控制器收到中斷請(qǐng)求后根據(jù)自身的系統(tǒng)編號(hào)和計(jì)算機(jī)結(jié)點(diǎn)的域編號(hào)生成唯一的網(wǎng)絡(luò)標(biāo)識(shí),管理控制器為計(jì)算機(jī)結(jié)點(diǎn)生成網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑;
4)管理控制器將所述網(wǎng)絡(luò)標(biāo)識(shí)、網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑作為特征參數(shù)寫入計(jì)算機(jī)結(jié)點(diǎn)所對(duì)應(yīng)的配置接口。所述步驟4)還包括管理控制器對(duì)特征參數(shù)寫入進(jìn)行驗(yàn)證的步驟在將生成的特征參數(shù)寫入計(jì)算機(jī)結(jié)點(diǎn)的配置接口后,所述管理控制器從所述配置接口中讀取已寫入的特征參數(shù),并將生成的特征參數(shù)和已寫入的特征參數(shù)進(jìn)行比較;如果所述生成的特征參數(shù)和已寫入的特征參數(shù)相同,則管理控制器將所述配置接口中的特征參數(shù)標(biāo)記為可用;如果所述生成的特征參數(shù)和已寫入的特征參數(shù)不同,則管理控制器重復(fù)執(zhí)行特征參數(shù)寫入并對(duì)寫入特征參數(shù)進(jìn)行驗(yàn)證;如果重復(fù)執(zhí)行次數(shù)超過預(yù)設(shè)的最大寫入次數(shù)仍未寫入成功,則將計(jì)算機(jī)結(jié)點(diǎn)配置接口中的特征參數(shù)標(biāo)記為不可用。所述計(jì)算機(jī)結(jié)點(diǎn)根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng)的詳細(xì)步驟包括
A)預(yù)先修改計(jì)算機(jī)結(jié)點(diǎn)的BIOS的網(wǎng)卡初始化代碼,刪除BIOS廣播DHCPDISC0VER消息的過程,刪除BIOS向啟動(dòng)服務(wù)器發(fā)送DHCPREQUEST消息請(qǐng)求網(wǎng)絡(luò)引導(dǎo)程序的過程,增加BIOS與啟動(dòng)服務(wù)器建立網(wǎng)絡(luò)連接、請(qǐng)求傳送及接收由特征參數(shù)指定的啟動(dòng)文件的過程;
B)計(jì)算機(jī)結(jié)點(diǎn)根據(jù)所述網(wǎng)卡參數(shù)對(duì)網(wǎng)卡進(jìn)行初始化;
C)計(jì)算機(jī)結(jié)點(diǎn)根據(jù)啟動(dòng)服務(wù)器IP與啟動(dòng)服務(wù)器建立點(diǎn)對(duì)點(diǎn)的連接;
D)計(jì)算機(jī)結(jié)點(diǎn)根據(jù)啟動(dòng)文件路徑向啟動(dòng)服務(wù)器依次獲取系統(tǒng)內(nèi)核、根文件系統(tǒng)、應(yīng)用軟件,計(jì)算機(jī)結(jié)點(diǎn)在接收文件成功后微處理器將控制權(quán)轉(zhuǎn)交給內(nèi)核,結(jié)束引導(dǎo)過程并進(jìn)入計(jì)算機(jī)結(jié)點(diǎn)的系統(tǒng)啟動(dòng)過程。
本發(fā)明還提供一種大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)裝置,包括用于生成計(jì)算機(jī)結(jié)點(diǎn)系統(tǒng)啟動(dòng)所需的特征參數(shù)的管理控制器和用于存儲(chǔ)特征參數(shù)的配置接口,所述管理控制器與配置接口相連,所述配置接口設(shè)于計(jì)算機(jī)結(jié)點(diǎn)內(nèi)并與計(jì)算機(jī)結(jié)點(diǎn)一一對(duì)應(yīng);所述配置接口與計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連。作為本發(fā)明大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)裝置的進(jìn)一步改進(jìn)
本發(fā)明還包括用于提供啟動(dòng)文件服務(wù)的啟動(dòng)服務(wù)器和設(shè)于計(jì)算機(jī)結(jié)點(diǎn)BIOS中的網(wǎng)卡初始化模塊,所述管理控制器通過帶外管理網(wǎng)絡(luò)與配置接口相連,所述啟動(dòng)服務(wù)器通過高 速互連網(wǎng)絡(luò)與計(jì)算機(jī)結(jié)點(diǎn)相連,所述網(wǎng)卡初始化模塊根據(jù)特征參數(shù)初始化計(jì)算機(jī)結(jié)點(diǎn)的網(wǎng)卡、并根據(jù)特征參數(shù)通過高速互連網(wǎng)絡(luò)向所述啟動(dòng)服務(wù)器獲取計(jì)算機(jī)結(jié)點(diǎn)的啟動(dòng)文件。所述管理控制器包括管理控制處理器、中斷處理邏輯、帶外接口模塊、管理網(wǎng)絡(luò)接口、非易失性存儲(chǔ)器和內(nèi)存,所述管理控制處理器、中斷處理邏輯、帶外接口模塊、管理網(wǎng)絡(luò)接口、非易失性存儲(chǔ)器和內(nèi)存均連接至管理控制器的內(nèi)部總線上,所述中斷處理邏輯的輸入端與配置接口相連,所述帶外接口模塊與配置接口相連。所述配置接口包括特征參數(shù)存儲(chǔ)模塊和用于向管理控制器發(fā)送特征參數(shù)配置請(qǐng)求的配置請(qǐng)求模塊,所述特征參數(shù)存儲(chǔ)模塊包括用于標(biāo)記特征參數(shù)可用狀態(tài)的配置狀態(tài)寄存器和一組用于存儲(chǔ)特征參數(shù)的配置參數(shù)寄存器,所述配置狀態(tài)寄存器的輸入端、配置參數(shù)寄存器的輸入端分別與帶外接口模塊相連,所述配置狀態(tài)寄存器的輸出端、配置參數(shù)寄存器的輸出端分別與計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連;所述配置請(qǐng)求模塊包括中斷控制邏輯、在線狀態(tài)寄存器、至少一個(gè)中斷寄存器,所述中斷控制邏輯的輸入端分別與在線狀態(tài)寄存器、中斷寄存器以及計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連,所述中斷控制邏輯的輸出端與中斷處理邏輯的輸入端相連。本發(fā)明還包括用于實(shí)時(shí)管理所述管理控制器以及控制計(jì)算機(jī)結(jié)點(diǎn)加電或者復(fù)位的管理終端,所述管理終端與管理控制器以及各個(gè)計(jì)算機(jī)結(jié)點(diǎn)的加電或者復(fù)位控制端相連。本發(fā)明大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法具有下述優(yōu)點(diǎn)
I、本發(fā)明為每一個(gè)計(jì)算機(jī)結(jié)點(diǎn)設(shè)置用于存儲(chǔ)系統(tǒng)啟動(dòng)所需特征參數(shù)的配置接口,計(jì)算機(jī)結(jié)點(diǎn)在啟動(dòng)前預(yù)先讀取特征參數(shù),如果讀取的特征參數(shù)不可用則通過一個(gè)用于提供特征參數(shù)配置服務(wù)的管理控制器為計(jì)算機(jī)結(jié)點(diǎn)生成特征參數(shù)并寫入計(jì)算機(jī)結(jié)點(diǎn)的配置接口,因此能夠自動(dòng)、實(shí)時(shí)配置結(jié)點(diǎn)特征參數(shù)使處于待機(jī)狀態(tài)的結(jié)點(diǎn)也能立刻擁有唯一身份,以加快系統(tǒng)啟動(dòng)過程,計(jì)算機(jī)結(jié)點(diǎn)在引導(dǎo)過程中直接根據(jù)特征參數(shù)從啟動(dòng)服務(wù)器獲取啟動(dòng)所需的參數(shù)和文件從而快速啟動(dòng)進(jìn)入可用狀態(tài),能夠?yàn)橛?jì)算機(jī)結(jié)點(diǎn)提供永久可用的特征參數(shù),而且計(jì)算機(jī)結(jié)點(diǎn)引導(dǎo)啟動(dòng)階段能夠在高速互連網(wǎng)絡(luò)帶寬受限的情況下進(jìn)行,能夠加快大規(guī)模并行計(jì)算機(jī)結(jié)點(diǎn)的全系統(tǒng)啟動(dòng)速度,具有靈活性好、啟動(dòng)速度快、啟動(dòng)效率高、實(shí)施成本低的優(yōu)點(diǎn)。2、本發(fā)明的管理控制器進(jìn)一步以管理控制器為中心將計(jì)算機(jī)結(jié)點(diǎn)以管理域的形式進(jìn)行組織,且根據(jù)管理域的信息來為計(jì)算機(jī)結(jié)點(diǎn)分配網(wǎng)絡(luò)標(biāo)識(shí)、網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑等,并將網(wǎng)絡(luò)標(biāo)識(shí)、網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑作為特征參數(shù)寫入計(jì)算機(jī)結(jié)點(diǎn)配置接口,通過管理控制器能夠自動(dòng)、實(shí)時(shí)配置各個(gè)計(jì)算機(jī)結(jié)點(diǎn)的特征參數(shù)使處于待機(jī)狀態(tài)的結(jié)點(diǎn)也能立刻擁有唯一的網(wǎng)絡(luò)標(biāo)識(shí),特征參數(shù)配置過程不再依賴硬件,允許重用管理軟件,增強(qiáng)了服務(wù)器端軟件的可重用性,提高了系統(tǒng)管理的靈活性和效率,能夠提高大規(guī)模并行計(jì)算機(jī)系統(tǒng)的管理效率;網(wǎng)絡(luò)標(biāo)識(shí)、網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑上述特征參數(shù)與硬件無關(guān),能夠簡化大規(guī)模并行計(jì)算機(jī)系統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),在計(jì)算機(jī)結(jié)點(diǎn)開機(jī)時(shí)無需進(jìn)行DHCP獲取網(wǎng)絡(luò)配置參數(shù)的交互過程,計(jì)算機(jī)結(jié)點(diǎn)通過BIOS就能夠?qū)崿F(xiàn)與啟動(dòng)服務(wù)器之間的直接連接,能夠替代DHCP服務(wù)為計(jì)算機(jī)結(jié)點(diǎn)提供網(wǎng)卡配置參數(shù),因此能夠省略標(biāo)準(zhǔn)網(wǎng)絡(luò)啟動(dòng)過程的多個(gè)交互步驟,簡化了大規(guī)模并行計(jì)算機(jī)系統(tǒng)的啟動(dòng)過程,降低對(duì)高速互連網(wǎng)絡(luò)帶寬的要求,而且本發(fā)明同時(shí)設(shè)置多個(gè)啟動(dòng)服務(wù)器,可以根據(jù)需要靈活調(diào)節(jié)啟動(dòng)服務(wù)器的負(fù)荷,有助于降低設(shè)計(jì)難度、規(guī)避設(shè)計(jì)風(fēng)險(xiǎn);而且計(jì)算機(jī)結(jié)點(diǎn)通過點(diǎn)對(duì)點(diǎn)通信方式直接向啟動(dòng)服務(wù)器獲取系統(tǒng)內(nèi)核、根文件系統(tǒng)以及應(yīng)用軟件,各個(gè)計(jì)算機(jī)結(jié)點(diǎn)通過獨(dú)立并行的經(jīng)濟(jì)、高效、快速的啟動(dòng),能夠大幅提高全系統(tǒng)的啟動(dòng)速度。3、本發(fā)明進(jìn)一步包括管理控制器對(duì)寫入特征參數(shù)進(jìn)行驗(yàn)證的步驟,對(duì)寫入特征參數(shù)進(jìn)行讀回和驗(yàn)證,能夠提高特征參數(shù)寫入的可靠性。4、本發(fā)明計(jì)算機(jī)結(jié)點(diǎn)進(jìn)一步根據(jù)特征參數(shù)中的啟動(dòng)文件路徑向啟動(dòng)服務(wù)器依次獲取系統(tǒng)內(nèi)核、根文件系統(tǒng)、應(yīng)用軟件,因此計(jì)算機(jī)結(jié)點(diǎn)的系統(tǒng)、根文件系統(tǒng)和應(yīng)用軟件能 夠在啟動(dòng)服務(wù)器上進(jìn)行統(tǒng)一部署,部署和升級(jí)簡單方便。本發(fā)明的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)裝置也具有與上述大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法的優(yōu)點(diǎn)相對(duì)應(yīng)的優(yōu)點(diǎn)。此外,本發(fā)明的快速啟動(dòng)裝置進(jìn)一步包括管理終端,能夠控制計(jì)算機(jī)結(jié)點(diǎn)加電或者復(fù)位、配置管理控制器,因此能夠提高并行計(jì)算機(jī)系統(tǒng)的啟動(dòng)管理效率。
圖I為本發(fā)明實(shí)施例快速啟動(dòng)方法的流程示意圖。圖2為本發(fā)明實(shí)施例生成特征參數(shù)并寫入配置接口的流程示意圖。圖3為本發(fā)明實(shí)施例快速啟動(dòng)裝置的框架結(jié)構(gòu)示意圖。圖4為應(yīng)用本發(fā)明實(shí)施例的并行計(jì)算機(jī)系統(tǒng)的拓?fù)浣Y(jié)構(gòu)示意圖。圖例說明1、管理控制器;11、管理控制處理器;12、中斷處理邏輯;13、帶外接口模塊;14、管理網(wǎng)絡(luò)接口 ;15、非易失性存儲(chǔ)器;16、內(nèi)存;2、配置接口 ;21、特征參數(shù)存儲(chǔ)模塊;211、配置狀態(tài)寄存器;212、配置參數(shù)寄存器;22、配置請(qǐng)求模塊;221、中斷控制邏輯;222、在線狀態(tài)寄存器;223、中斷寄存器;3、啟動(dòng)服務(wù)器;4、管理終端。
具體實(shí)施例方式如圖I所示,本實(shí)施例的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法,其實(shí)施步驟如下為每一個(gè)計(jì)算機(jī)結(jié)點(diǎn)設(shè)置配置接口,計(jì)算機(jī)結(jié)點(diǎn)在啟動(dòng)前預(yù)先讀取配置接口中存儲(chǔ)的用于系統(tǒng)啟動(dòng)所需的特征參數(shù);如果配置接口中的特征參數(shù)可用,則計(jì)算機(jī)結(jié)點(diǎn)根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng);如果配置接口中的特征參數(shù)不可用,則先通過一個(gè)管理控制器為該計(jì)算機(jī)結(jié)點(diǎn)生成特征參數(shù)并寫入所對(duì)應(yīng)的配置接口,然后計(jì)算機(jī)結(jié)點(diǎn)從配置接口讀取特征參數(shù)并根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng)。如圖2所示,本實(shí)施例管理控制器的工作流程為
I)每個(gè)管理控制器對(duì)應(yīng)一組計(jì)算機(jī)結(jié)點(diǎn)并形成一個(gè)管理域,每一個(gè)管理控制器分配有唯一的系統(tǒng)編號(hào),每一個(gè)管理域內(nèi)的計(jì)算機(jī)結(jié)點(diǎn)均被分配一個(gè)唯一的域編號(hào),并為管理域指定用于提供啟動(dòng)文件服務(wù)的啟動(dòng)服務(wù)器;
2)管理控制器通過帶外管理網(wǎng)絡(luò)接收計(jì)算機(jī)結(jié)點(diǎn)發(fā)送的中斷請(qǐng)求;
3)管理控制器收到中斷請(qǐng)求后根據(jù)自身的系統(tǒng)編號(hào)和計(jì)算機(jī)結(jié)點(diǎn)的域編號(hào)生成唯一的網(wǎng)絡(luò)標(biāo)識(shí)(NID),管理控制器為計(jì)算機(jī)結(jié)點(diǎn)生成網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑;
4)管理控制器將網(wǎng)絡(luò)標(biāo)識(shí)、網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑作為特征參數(shù)寫入計(jì)算機(jī)結(jié)點(diǎn)所對(duì)應(yīng)的配置接口。本實(shí)施例中通過預(yù)先設(shè)置好計(jì)算規(guī)則,可以通過NID直接計(jì)算生成計(jì)算機(jī)結(jié)點(diǎn)的網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑。此外,也可以僅僅通過配置接口存儲(chǔ)最基本的NID,然后在計(jì)算機(jī)結(jié)點(diǎn)啟動(dòng)時(shí)通過BIOS來根據(jù)NID計(jì)算獲取計(jì)算機(jī)結(jié)點(diǎn)的網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑信息并保存在計(jì)算機(jī)結(jié)點(diǎn)的RAM內(nèi)。 本實(shí)施例中,步驟4)還包括管理控制器對(duì)特征參數(shù)寫入進(jìn)行驗(yàn)證的步驟在將生成的特征參數(shù)寫入計(jì)算機(jī)結(jié)點(diǎn)的配置接口后,管理控制器從配置接口中讀取已寫入的特征參數(shù),并將生成的特征參數(shù)和已寫入的特征參數(shù)進(jìn)行比較;如果生成的特征參數(shù)和已寫入的特征參數(shù)相同,則管理控制器將配置接口中的特征參數(shù)標(biāo)記為可用;如果生成的特征參數(shù)和已寫入的特征參數(shù)不同,則管理控制器重復(fù)執(zhí)行特征參數(shù)寫入并對(duì)寫入特征參數(shù)進(jìn)行驗(yàn)證;如果重復(fù)執(zhí)行次數(shù)超過預(yù)設(shè)的最大寫入次數(shù)仍未寫入成功,則將計(jì)算機(jī)結(jié)點(diǎn)配置接口中的特征參數(shù)標(biāo)記為不可用。計(jì)算機(jī)結(jié)點(diǎn)通過讀取的特征參數(shù)啟動(dòng)系統(tǒng)的詳細(xì)步驟包括
A)預(yù)先修改計(jì)算機(jī)結(jié)點(diǎn)的BIOS的網(wǎng)卡初始化代碼,刪除BIOS廣播DHCPDISC0VER消息的過程,刪除BIOS向啟動(dòng)服務(wù)器發(fā)送DHCPREQUEST消息請(qǐng)求網(wǎng)絡(luò)引導(dǎo)程序的過程,增加BIOS與啟動(dòng)服務(wù)器建立網(wǎng)絡(luò)連接、請(qǐng)求傳送及接收由特征參數(shù)指定的啟動(dòng)文件的過程;
B)計(jì)算機(jī)結(jié)點(diǎn)根據(jù)網(wǎng)卡參數(shù)對(duì)網(wǎng)卡進(jìn)行初始化;
C)計(jì)算機(jī)結(jié)點(diǎn)根據(jù)啟動(dòng)服務(wù)器IP與啟動(dòng)服務(wù)器建立點(diǎn)對(duì)點(diǎn)的連接;
D)計(jì)算機(jī)結(jié)點(diǎn)根據(jù)啟動(dòng)文件路徑向啟動(dòng)服務(wù)器依次獲取系統(tǒng)內(nèi)核、根文件系統(tǒng)、應(yīng)用軟件,計(jì)算機(jī)結(jié)點(diǎn)在接收文件成功后微處理器將控制權(quán)轉(zhuǎn)交給內(nèi)核,結(jié)束引導(dǎo)過程并進(jìn)入計(jì)算機(jī)結(jié)點(diǎn)的系統(tǒng)啟動(dòng)過程。并行是提高效率最直接的手段,本實(shí)施例中配置多臺(tái)物理上分散的啟動(dòng)服務(wù)器,啟動(dòng)服務(wù)器是在普通服務(wù)器的基礎(chǔ)上增加一個(gè)高速互連接口,用于向結(jié)點(diǎn)發(fā)送網(wǎng)絡(luò)引導(dǎo)程序、內(nèi)核和應(yīng)用軟件等文件,這些文件在多臺(tái)啟動(dòng)服務(wù)器間保持一致。系統(tǒng)管理員指定每臺(tái)啟動(dòng)服務(wù)器為哪些結(jié)點(diǎn)提供下載服務(wù),多臺(tái)啟動(dòng)服務(wù)器在實(shí)現(xiàn)文件共享的同時(shí)降低了對(duì)高速互連網(wǎng)絡(luò)帶寬的要求,有助于降低定制NIC的設(shè)計(jì)難度、規(guī)避設(shè)計(jì)風(fēng)險(xiǎn)。計(jì)算機(jī)結(jié)點(diǎn)包括微處理器、本地存儲(chǔ)器、高速互連接口、配置接口和1/0接口。微處理器直接訪問本地存儲(chǔ)器,并通過高速互連接口訪問其它結(jié)點(diǎn)上的資源;配置接口在微處理器和管理控制器之間建立聯(lián)系,實(shí)現(xiàn)帶外監(jiān)控管理功能;1/0接口用于掛接10總線和10設(shè)備,具有本地和遠(yuǎn)程訪問能力。由于本實(shí)施例的特征參數(shù)能夠直接或間接地提供結(jié)點(diǎn)IP地址、啟動(dòng)服務(wù)器IP地址等重要信息,因此計(jì)算機(jī)結(jié)點(diǎn)可直接與啟動(dòng)服務(wù)器之間建立點(diǎn)到點(diǎn)連接并傳輸文件,DHCP服務(wù)不再是必須服務(wù),因此能夠?qū)?biāo)準(zhǔn)的網(wǎng)絡(luò)啟動(dòng)方法進(jìn)行修改,主要修改包括
(al)刪除BIOS廣播DHCPDISCOVER消息的過程,因此不會(huì)收到包含IP的DHCPOFFER消息,也無需進(jìn)行此類消息的處理;
(a2)刪除BIOS向啟動(dòng)服務(wù)器發(fā)送DHCPREQUEST消息請(qǐng)求網(wǎng)絡(luò)引導(dǎo)程序的過程,網(wǎng)絡(luò)引導(dǎo)程序負(fù)責(zé)加載系統(tǒng)內(nèi)核和文件系統(tǒng);
(a3)增加過程通過增加的過程能夠直接與啟動(dòng)服務(wù)器建立點(diǎn)一點(diǎn)連接,請(qǐng)求傳送及接收由特征參數(shù)指定的系統(tǒng)內(nèi)核、文件系統(tǒng)和應(yīng)用軟件。本實(shí)施例修改后的網(wǎng)絡(luò)啟動(dòng)方法進(jìn)行的修改與標(biāo)準(zhǔn)網(wǎng)絡(luò)啟動(dòng)方法的區(qū)別在于不需要廣播DHCPDISCOVER消息、不需要處理DHCPOFFER消息、不需要向啟動(dòng)服務(wù)器發(fā)送DHCPREQUEST消息。簡化了計(jì)算機(jī)結(jié)點(diǎn)啟動(dòng)過程中的交互過程,提升單個(gè)計(jì)算機(jī)結(jié)點(diǎn)的啟動(dòng)效率,進(jìn)而能夠提高大規(guī)模并行計(jì)算機(jī)系統(tǒng)的啟動(dòng)效率。如圖3所示,本實(shí)施例的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)裝置包括用于生成計(jì)算機(jī)結(jié)點(diǎn)系統(tǒng)啟動(dòng)所需的特征參數(shù)的管理控制器I和用于存儲(chǔ)特征參數(shù)的配置接口 2,管理控制器I與配置接口 2相連,配置接口 2設(shè)于計(jì)算機(jī)結(jié)點(diǎn)內(nèi)并與計(jì)算機(jī)結(jié)點(diǎn)一一對(duì)應(yīng);配置接口 2與計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連。如圖4所示,本實(shí)施例還包括用于提供啟動(dòng)文件服務(wù)的啟動(dòng)服務(wù)器3和設(shè)于計(jì)算機(jī)結(jié)點(diǎn)BIOS中的網(wǎng)卡初始化模塊,管理控制器I通過帶外管理網(wǎng)絡(luò)與配置接口 2相連,啟動(dòng)服務(wù)器3通過高速互連網(wǎng)絡(luò)與計(jì)算機(jī)結(jié)點(diǎn)相連,網(wǎng)卡初始化模塊根據(jù)特征參數(shù)初始化計(jì)算機(jī)結(jié)點(diǎn)的網(wǎng)卡、并根據(jù)特征參數(shù)通過高速互連網(wǎng)絡(luò)向啟動(dòng)服務(wù)器3獲取計(jì)算機(jī)結(jié)點(diǎn)的啟動(dòng)文件。本實(shí)施例中的網(wǎng)卡初始化模塊是基于現(xiàn)有的BIOS的網(wǎng)卡初始化程序進(jìn)行修改得來的,通過刪除廣播DHCPDISCOVER消息、向啟動(dòng)服務(wù)器發(fā)送DHCPREQUEST消息、增加網(wǎng)絡(luò)請(qǐng)求、接受啟動(dòng)文件功能,本實(shí)施例能夠省略DHCP交互的步驟,能夠提高并行計(jì)算機(jī)啟動(dòng)的速度和效率。本實(shí)施例還包括用于實(shí)時(shí)管理管理控制器I以及控制計(jì)算機(jī)結(jié)點(diǎn)加電或者復(fù)位的管理終端4,管理終端4與管理控制器I以及各個(gè)計(jì)算機(jī)結(jié)點(diǎn)的加電或者復(fù)位控制端相連,通過管理終端4能夠?qū)芾砜刂破鬟M(jìn)行實(shí)施的管理配置、監(jiān)控、診斷等,還可以對(duì)計(jì)算機(jī)結(jié)點(diǎn)進(jìn)行加電或者復(fù)位集中控制,能夠提高大規(guī)模并行計(jì)算機(jī)的啟動(dòng)效率。管理控制器I包括管理控制處理器11、中斷處理邏輯12、帶外接口模塊13、管理網(wǎng)絡(luò)接口 14、非易失性存儲(chǔ)器15和內(nèi)存16,管理控制處理器11、中斷處理邏輯12、帶外接口模塊13、管理網(wǎng)絡(luò)接口 14、非易失性存儲(chǔ)器15和內(nèi)存16均連接至管理控制器I的內(nèi)部總線上,中斷處理邏輯12的輸入端與配置接口 2相連,帶外接口模塊13與配置接口 2相連。管理控制器I具有帶外管理功能,即在不影響系統(tǒng)正常工作的情況下能夠?qū)τ?jì)算機(jī)結(jié)點(diǎn)進(jìn)行監(jiān)控、診斷和測(cè)試。管理控制器I的數(shù)量可以根據(jù)系統(tǒng)規(guī)模和管理控制器I的性能進(jìn)行合理配置,每臺(tái)管理控制器I可管理的結(jié)點(diǎn)數(shù)不盡相同,同一個(gè)管理控制器I管理的若干結(jié)點(diǎn)構(gòu)成一個(gè)管理域,管理控制器I具有全局唯一的系統(tǒng)編號(hào),管理域內(nèi)每個(gè)計(jì)算機(jī)結(jié)點(diǎn)具有唯一的域編號(hào)。管理功能可以定期查詢或中斷方式實(shí)現(xiàn),為更好地發(fā)揮本發(fā)明的優(yōu)勢(shì),本實(shí)施例的管理控制器I以中斷方式接收、處理系統(tǒng)的所有操作和異常。配置接口 2包括特征參數(shù)存儲(chǔ)模塊21和用于向管理控制器I發(fā)送特征參數(shù)配置請(qǐng)求的配置請(qǐng)求模塊22,特征參數(shù)存儲(chǔ)模塊21包括用于標(biāo)記特征參數(shù)可用狀態(tài)的配置狀態(tài)寄存器211和一組用于存儲(chǔ)特征參數(shù)的配置參數(shù)寄存器212,配置狀態(tài)寄存器211的輸入端、配置參數(shù)寄存器212的輸入端分別與帶外接口模塊13相連,配置狀態(tài)寄存器211的輸出端、配置參數(shù)寄存器212的輸出端分別與計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連;配置請(qǐng)求模塊22包括中斷控制邏輯221、在線狀態(tài)寄存器222、至少一個(gè)中斷寄存器223,中斷控制邏輯221的輸入端分別與在線狀態(tài)寄存器222、中斷寄存器223以及計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連,中斷控制邏輯221的輸出端與中斷處理邏輯12的輸入端相連。配置接口 2模塊功能簡單,硬件邏輯少,可采用Xilinx Spartan系列可編程邏輯器件、Altera MAX3000系列可編程邏輯器件等可編程邏輯器件來實(shí)現(xiàn)。管理控制器I通過配置接口 2實(shí)時(shí)檢測(cè)計(jì)算機(jī)結(jié)點(diǎn)的在線狀態(tài)、寫入特征參數(shù),微處理器從配置參數(shù)寄存器212中讀取特征參數(shù)進(jìn)行計(jì)算。此外也可以僅僅使用一個(gè)配置參數(shù)寄存器212存儲(chǔ)管理控制器寫入的NID,然后在計(jì)算機(jī)結(jié)點(diǎn)啟動(dòng)時(shí)通過BIOS計(jì)算獲取計(jì)算機(jī)結(jié)點(diǎn)的網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑信息并保存在計(jì)算機(jī)結(jié)點(diǎn)的RAM內(nèi)。配置狀態(tài)寄存器211用于標(biāo)識(shí)配置寄存器中的數(shù)據(jù)是否可用,由管理控制器I寫入,由計(jì)算機(jī)結(jié)點(diǎn)的微處理器讀取。中斷控制邏輯221根據(jù)微處理器的指令和在線狀態(tài)寄存器222、中斷寄存器223的內(nèi)容生成相應(yīng)的中斷信號(hào),用于計(jì)算機(jī)結(jié)點(diǎn)和管理控制器I之間的實(shí)時(shí)交 互。在線狀態(tài)寄存器222用于記錄結(jié)點(diǎn)的在線情況,本實(shí)施例僅包含一個(gè)中斷寄存器223,中斷寄存器223用于記錄“重新配置”中斷情況,此外可以采用更多的中斷寄存器223來記錄更多的中斷類型;在線狀態(tài)寄存器222、中斷寄存器223均由計(jì)算機(jī)結(jié)點(diǎn)的微處理器寫入,在線狀態(tài)寄存器222、中斷寄存器223均由中斷控制邏輯221讀取。在線狀態(tài)寄存器222、中斷寄存器223這兩種寄存器同時(shí)分配內(nèi)存映射的地址,保證計(jì)算機(jī)結(jié)點(diǎn)在引導(dǎo)過程中能夠被微處理器訪問。本實(shí)施例中,中斷控制邏輯221通過SM_INT信號(hào)接口實(shí)現(xiàn)與管理控制器I相連。SM_INT信號(hào)包含一組信號(hào),標(biāo)識(shí)結(jié)點(diǎn)是否有需要立即處理的異常以及異常的類型,本實(shí)施例中SM_INT信號(hào)包括“新插入結(jié)點(diǎn)”和“重新配置”兩種中斷信號(hào)。在線狀態(tài)寄存器222記錄結(jié)點(diǎn)的在線情況,本實(shí)施例采用電平信號(hào)表示結(jié)點(diǎn)是否在線,“ I ”表示結(jié)點(diǎn)在線,“0”表示結(jié)點(diǎn)不在線,反之也可,具體實(shí)現(xiàn)根據(jù)設(shè)計(jì)需求確定。計(jì)算機(jī)結(jié)點(diǎn)接入并行計(jì)算機(jī)系統(tǒng)時(shí)改變?cè)诰€狀態(tài)寄存器222的值,從而中斷控制邏輯221將觸發(fā)SM_INT信號(hào),管理控制器I收到“新插入結(jié)點(diǎn)”中斷,開始自動(dòng)計(jì)算、配置相關(guān)特征參數(shù)。中斷寄存器223包含一個(gè)“重新配置”位,由微處理器根據(jù)配置狀態(tài)寄存器的內(nèi)容設(shè)置,表示請(qǐng)求管理控制器I重新配置特征參數(shù),本發(fā)明采用電平信號(hào)“I”表示特征參數(shù)錯(cuò)誤(不可用),請(qǐng)求管理控制器重新計(jì)算并寫入,“0”表示配置參數(shù)正確(可用),不需要管理控制器I重新配置,反之也可,具體實(shí)現(xiàn)根據(jù)設(shè)計(jì)需求確定。在線狀態(tài)寄存器222和中斷寄存器223的“重新配置”位,只要有I個(gè)使能,就會(huì)產(chǎn)生SM_INT信號(hào)。管理控制器I的帶外接口模塊13通過SMBus/I2C總線端口訪問配置接口 2中的配置狀態(tài)寄存器211和配置參數(shù)寄存器212,I2C是Philips提出的管理接口協(xié)議,SMBus是Intel在I2C基礎(chǔ)上做了部分?jǐn)U展。SMBus/I2C包含SCL和SDA兩個(gè)信號(hào)線。管理控制器I和配置接口 2之間的連接以帶外方式實(shí)現(xiàn),同時(shí)按照PCI Express規(guī)范要求,接口內(nèi)的寄存器被映射到Memory Base Memory Limit地址范圍內(nèi),保證管理控制器和微處理器均可訪問。Memory Base和Memory Limit是系統(tǒng)設(shè)計(jì)人員為配置接口分配的memory映射空間,無論配置接口集成在微處理器內(nèi)部還是獨(dú)立實(shí)現(xiàn),處理器均可通過load/store指令直接訪問。
如圖4所示,帶有配置接口 2的計(jì)算機(jī)結(jié)點(diǎn)被分為若干組,每組由一個(gè)管理控制器I實(shí)施帶外管理,構(gòu)成一個(gè)管理域。管理控制器I擁有唯一的系統(tǒng)編號(hào),結(jié)點(diǎn)擁有唯一的域編號(hào)。系統(tǒng)管理員通過管理終端4可登錄到任意一臺(tái)管理控制器1,實(shí)現(xiàn)對(duì)控制域內(nèi)結(jié)點(diǎn)的實(shí)時(shí)監(jiān)控和診斷。物理上分散的多臺(tái)啟動(dòng)服務(wù)器3存儲(chǔ)系統(tǒng)所需的各種版本內(nèi)核、文件系統(tǒng)和相關(guān)應(yīng)用軟件,并保證文件之間版本的一致性。啟動(dòng)服務(wù)器3支持報(bào)文的并發(fā)傳輸,通過正確配置的TFTP/HTTP服務(wù)同時(shí)為多個(gè)結(jié)點(diǎn)提供文件。管理控制器I和計(jì)算機(jī)結(jié)點(diǎn)之間通過帶外管理網(wǎng)絡(luò)(SMBus/I2C)通信,計(jì)算機(jī)結(jié)點(diǎn)和啟動(dòng)服務(wù)器3之間通過高速互連網(wǎng)絡(luò)通信。圖中①表示計(jì)算機(jī)結(jié)點(diǎn)的各種狀態(tài)信號(hào)以中斷方式發(fā)送給管理控制器1,請(qǐng)求立即處理,②表示中斷處理的結(jié)果,即無論結(jié)點(diǎn)處于何種電源狀態(tài),管理控制器I都立即將計(jì)算所得特征參數(shù)通過帶外管理網(wǎng)絡(luò)寫入計(jì)算機(jī)結(jié)點(diǎn)的配置接口 2,①和②構(gòu)成了并行計(jì)算機(jī)系統(tǒng)快速啟動(dòng)方法的第一階段一結(jié)點(diǎn)特征參數(shù)自動(dòng)配置階段。③表示系統(tǒng)管理員通過管理終端4對(duì)計(jì)算機(jī)結(jié)點(diǎn)進(jìn)行加電/復(fù)位控制,這一操作使微處理器開始執(zhí)行BIOS代碼,計(jì)算機(jī)結(jié)點(diǎn)進(jìn)入引導(dǎo)啟動(dòng)階段。在完成一系列的測(cè)試和必要的初始化后,計(jì)算機(jī)結(jié)點(diǎn)在步驟④通過高速互連網(wǎng)絡(luò)向啟動(dòng)服務(wù)器3發(fā)出請(qǐng)求,請(qǐng)求傳送啟動(dòng)所需的內(nèi)核、文件系統(tǒng)和若干應(yīng)用軟件,這些文件的位置由結(jié)點(diǎn)特征參數(shù)給出。啟動(dòng)服務(wù)器3在步驟⑤將指定的文件返 回請(qǐng)求結(jié)點(diǎn),當(dāng)所有文件拷貝到RAM內(nèi)展開后,微處理器將控制權(quán)移交給內(nèi)核,引導(dǎo)過程結(jié)束,系統(tǒng)開始啟動(dòng)。如圖2所示,本實(shí)施例中管理控制器I的詳細(xì)工作過程如下
(bl)判斷是否有來自計(jì)算機(jī)結(jié)點(diǎn)的中斷如果有中斷,轉(zhuǎn)步驟(b2),否則,繼續(xù)等待中斷。(b2)如果是其它中斷,管理控制器I調(diào)用相應(yīng)的中斷處理程序進(jìn)行處理后轉(zhuǎn)步驟(bl);如果收到“新插入結(jié)點(diǎn)”和“重新配置”兩種中斷,則首先根據(jù)自身的系統(tǒng)編號(hào)和新插入結(jié)點(diǎn)的域編號(hào)計(jì)算出結(jié)點(diǎn)的網(wǎng)絡(luò)標(biāo)識(shí)(NID),然后根據(jù)全系統(tǒng)的軟硬件布局映射出計(jì)算機(jī)結(jié)點(diǎn)IP地址和NIC類型,進(jìn)而求得啟動(dòng)服務(wù)器3的IP地址和計(jì)算機(jī)結(jié)點(diǎn)的啟動(dòng)文件路徑。本實(shí)施例引用的包含512個(gè)計(jì)算機(jī)結(jié)點(diǎn)的并行計(jì)算機(jī)系統(tǒng)的軟硬件布局如下
............................................................................................................................................... ...........................
nip結(jié)妙me扇動(dòng)臟螫sip
i丨i丨 fft I
0-127 2B. 100, Lf.卜-I I 1.0I 202. 197.2^ 9I /r"wf/krr"HWOI |
25. IOOt L 12 丨 t,xjix950iafx] r 丨丨丨
VlH--2hh nnim 丨丨iI
25, 10(1,2. mII丨丨
.........................................................A...................................................................................4....................................................................................i............................................................................................M............................................................................................................................4
2mr-ml 25. Mia 3, C卜-I hill-]I 202. 19 . 29, 10 丨 /rw(/ktuiicl/MCK 丨
2R, I Oil. 3, 127 丨 9.1IH.FP丨丨I
-......................................................-.......______________________......—-...........丄....................................................................十-............................................................................................................................................................................................................-J
:剛.......5 H 25, HKL 4, 0......... | GA丨,AXY TOP | 202, IOT, 29. I I ; /rm>iI /prlp ;
25. 100.4. 127 [[jI
本實(shí)施例的啟動(dòng)文件路徑包括內(nèi)核與根文件系統(tǒng)的路徑以及應(yīng)用軟件的文件路徑,上表中僅僅列出內(nèi)核與根文件系統(tǒng)的路徑以供說明。根據(jù)上表,只要給定一個(gè)結(jié)點(diǎn)的NID,根據(jù)此表可找到對(duì)應(yīng)的IP、使用的NIC類型和型號(hào)以及結(jié)點(diǎn)啟動(dòng)時(shí)自動(dòng)連接的啟動(dòng)服務(wù)器3的IP地址和啟動(dòng)文件路徑。(b3)將上述特征參數(shù)通過SMBus/I2C總線寫入結(jié)點(diǎn)配置接口的配置參數(shù)寄存器212。(b4)通過SMBus/I2C總線依次讀回配置參數(shù)寄存器212中的數(shù)據(jù)并進(jìn)行正確性驗(yàn)證,將讀取的參數(shù)與生成的特征參數(shù)進(jìn)行比較如果讀取的參數(shù)與生成的特征參數(shù)相同,則判定所有配置參數(shù)均寫成功,管理控制器通過SMBus/I2C總線將配置狀態(tài)寄存器211置為可用,然后轉(zhuǎn)入執(zhí)行步驟(bl);如果讀取的參數(shù)與生成的特征參數(shù)不同,則管理控制器I重復(fù)執(zhí)行特征參數(shù)寫入并對(duì)寫入特征參數(shù)進(jìn)行驗(yàn)證,如果重復(fù)執(zhí)行次數(shù)超過預(yù)設(shè)的最大寫入次數(shù)仍未寫入成功則將配置狀態(tài)寄存器211記為不可用,然后轉(zhuǎn)入執(zhí)行步驟(bl)。如前文所述,計(jì)算機(jī)結(jié)點(diǎn)需要對(duì)標(biāo)準(zhǔn)的網(wǎng)絡(luò)啟動(dòng)方法進(jìn)行修改,因此需要預(yù)先對(duì)所有計(jì)算機(jī)結(jié)點(diǎn)的BIOS中的網(wǎng)卡初始化模塊進(jìn)行修改,因此在執(zhí)行前必須完成以下準(zhǔn)備工作
(Cl)預(yù)先修改計(jì)算機(jī)結(jié)點(diǎn)的BIOS的網(wǎng)卡初始化代碼,刪除BIOS廣播DHCPDISCOVER消息的過程,刪除BIOS向啟動(dòng)服務(wù)器發(fā)送DHCPREQUEST消息請(qǐng)求網(wǎng)絡(luò)引導(dǎo)程序的過程,增加BIOS與啟動(dòng)服務(wù)器建立網(wǎng)絡(luò)連接、請(qǐng)求傳送及接收由特征參數(shù)指定的啟動(dòng)文件的過程。(c2)在BIOS中設(shè)置結(jié)點(diǎn)以PXE方式啟動(dòng)。(c3)啟動(dòng)服務(wù)器3準(zhǔn)備好各種版本的內(nèi)核、文件系統(tǒng)和應(yīng)用軟件,正確配置TFTP/HTTP 服務(wù)。在計(jì)算機(jī)結(jié)點(diǎn)準(zhǔn)備好以后,系統(tǒng)管理員從管理終端4發(fā)出加電或者復(fù)位命令,或者直接按下計(jì)算機(jī)結(jié)點(diǎn)的加電或者復(fù)位按鈕來使各個(gè)計(jì)算機(jī)結(jié)點(diǎn)進(jìn)行加電或者復(fù)位。如圖I所示,計(jì)算機(jī)結(jié)點(diǎn)收到加電或者復(fù)位命令并按照下述步驟開始工作
(dl)微處理器跳到系統(tǒng)BIOS中的代碼,首先執(zhí)行上電自檢(POST,Power OnSelf-Test),檢測(cè)系統(tǒng)中的主要設(shè)備以及這些設(shè)備是否正常。(d2)微處理器通過load指令直接訪問配置接口 2的配置狀態(tài)寄存器211,確認(rèn)特征參數(shù)是否可用,如果特征參數(shù)不可用,通過中斷控制邏輯221向管理控制器I發(fā)出中斷,管理控制器I重新配置特征參數(shù)并寫入配置參數(shù)寄存器212,在此過程中計(jì)算機(jī)結(jié)點(diǎn)的引導(dǎo)過程進(jìn)入等待狀態(tài);最終計(jì)算機(jī)結(jié)點(diǎn)訪問配置參數(shù)寄存器212,獲取結(jié)點(diǎn)的特征參數(shù),包括網(wǎng)絡(luò)NID、結(jié)點(diǎn)IP地址、NIC類型、啟動(dòng)服務(wù)器IP地址、啟動(dòng)文件路徑。(d3)微處理器將NIC ROM中的代碼調(diào)入內(nèi)存執(zhí)行,根據(jù)特征參數(shù)自動(dòng)計(jì)算路由等信息,對(duì)網(wǎng)卡進(jìn)行初始化,系統(tǒng)高速互連網(wǎng)絡(luò)進(jìn)入工作狀態(tài)。(d4)微處理器將其它硬件設(shè)備ROM中的代碼調(diào)入內(nèi)存執(zhí)行,進(jìn)行相應(yīng)初始化。(d5)微處理器與啟動(dòng)服務(wù)器IP地址對(duì)應(yīng)的啟動(dòng)服務(wù)器3建立TFTP/HTTP連接,請(qǐng)求啟動(dòng)服務(wù)器3傳送由特征參數(shù)指定的系統(tǒng)內(nèi)核。本實(shí)施例的啟動(dòng)服務(wù)器3可以通過TFTP(小文件傳輸協(xié)議,Trivial File Transfer Protocol)或者HTTP (超文本傳輸協(xié)議,HyperText Transfer Protocol)發(fā)送系統(tǒng)內(nèi)核和文件系統(tǒng)到結(jié)點(diǎn)的RAM內(nèi)。TFTP和HTTP兩種協(xié)議是計(jì)算機(jī)網(wǎng)絡(luò)通信領(lǐng)域常見的通信協(xié)議,因此在啟動(dòng)服務(wù)器3上配置TFTP服務(wù)或者HTTP 服務(wù)非常簡單,能夠簡化啟動(dòng)服務(wù)器的管理和維護(hù)。與TFTP協(xié)議相比,HTTP協(xié)議能夠處理更大的文件,并且可以跨網(wǎng)段進(jìn)行傳輸,在上述步驟(d5)中可以根據(jù)實(shí)際需要采用不同的協(xié)議。 (d6)啟動(dòng)服務(wù)器3按照要求發(fā)送系統(tǒng)內(nèi)核。(d7)微處理器請(qǐng)求啟動(dòng)服務(wù)器3傳送根文件系統(tǒng)。(d8)啟動(dòng)服務(wù)器3按照要求發(fā)送根文件系統(tǒng)。(d9)微處理器請(qǐng)求啟動(dòng)服務(wù)器3傳送其它應(yīng)用軟件。(dlO)啟動(dòng)服務(wù)器3按照要求發(fā)送應(yīng)用軟件。(dll)微處理器正確接收啟動(dòng)所需的文件后,將控制權(quán)轉(zhuǎn)交給內(nèi)核,引導(dǎo)過程結(jié)束,開始進(jìn)入系統(tǒng)啟動(dòng)過程。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,本發(fā)明的保護(hù)范圍并不僅局限于上述實(shí)施例,凡屬于本發(fā)明思路下的技術(shù)方案均屬于本發(fā)明的保護(hù)范圍。應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理前提下的若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法,其特征在于其實(shí)施步驟如下:為每ー個(gè)計(jì)算機(jī)結(jié)點(diǎn)設(shè)置配置接ロ,計(jì)算機(jī)結(jié)點(diǎn)在啟動(dòng)前預(yù)先讀取配置接ロ中存儲(chǔ)的用于系統(tǒng)啟動(dòng)所需的特征參數(shù);如果配置接口中的特征參數(shù)可用,則計(jì)算機(jī)結(jié)點(diǎn)根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng);如果配置接口中的特征參數(shù)不可用,則先通過ー個(gè)管理控制器為該計(jì)算機(jī)結(jié)點(diǎn)生成特征參數(shù)并寫入所對(duì)應(yīng)的配置接ロ,然后計(jì)算機(jī)結(jié)點(diǎn)從配置接ロ讀取特征參數(shù)并根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng)。
2.根據(jù)權(quán)利要求I所述的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法,其特征在于,所述管理控制器的工作流程為 1)每個(gè)管理控制器對(duì)應(yīng)ー組計(jì)算機(jī)結(jié)點(diǎn)并形成ー個(gè)管理域,每ー個(gè)管理控制器分配有唯一的系統(tǒng)編號(hào),每ー個(gè)管理域內(nèi)的計(jì)算機(jī)結(jié)點(diǎn)均被分配ー個(gè)唯一的域編號(hào),并為管理域指定用于提供啟動(dòng)文件服務(wù)的啟動(dòng)服務(wù)器; 2)管理控制器通過帶外管理網(wǎng)絡(luò)接收計(jì)算機(jī)結(jié)點(diǎn)發(fā)送的中斷請(qǐng)求; 3)管理控制器收到中斷請(qǐng)求后根據(jù)自身的系統(tǒng)編號(hào)和計(jì)算機(jī)結(jié)點(diǎn)的域編號(hào)生成唯一的網(wǎng)絡(luò)標(biāo)識(shí),管理控制器為計(jì)算機(jī)結(jié)點(diǎn)生成網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑; 4)管理控制器將所述網(wǎng)絡(luò)標(biāo)識(shí)、網(wǎng)卡參數(shù)、啟動(dòng)服務(wù)器IP和啟動(dòng)文件路徑作為特征參數(shù)寫入計(jì)算機(jī)結(jié)點(diǎn)所對(duì)應(yīng)的配置接ロ。
3.根據(jù)權(quán)利要求2所述的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法,其特征在于,所述步驟4)還包括管理控制器對(duì)特征參數(shù)寫入進(jìn)行驗(yàn)證的步驟在將生成的特征參數(shù)寫入計(jì)算機(jī)結(jié)點(diǎn)的配置接ロ后,所述管理控制器從所述配置接口中讀取已寫入的特征參數(shù),并將生成的特征參數(shù)和已寫入的特征參數(shù)進(jìn)行比較;如果所述生成的特征參數(shù)和已寫入的特征參數(shù)相同,則管理控制器將所述配置接口中的特征參數(shù)標(biāo)記為可用;如果所述生成的特征參數(shù)和已寫入的特征參數(shù)不同,則管理控制器重復(fù)執(zhí)行特征參數(shù)寫入并對(duì)寫入特征參數(shù)進(jìn)行驗(yàn)證;如果重復(fù)執(zhí)行次數(shù)超過預(yù)設(shè)的最大寫入次數(shù)仍未寫入成功,則將計(jì)算機(jī)結(jié)點(diǎn)配置接口中的特征參數(shù)標(biāo)記為不可用。
4.根據(jù)權(quán)利要求2或3所述的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法,其特征在于,所述計(jì)算機(jī)結(jié)點(diǎn)根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng)的詳細(xì)步驟包括 A)預(yù)先修改計(jì)算機(jī)結(jié)點(diǎn)的BIOS的網(wǎng)卡初始化代碼,刪除BIOS廣播DHCPDISCOVER消息的過程,刪除BIOS向啟動(dòng)服務(wù)器發(fā)送DHCPREQUEST消息請(qǐng)求網(wǎng)絡(luò)引導(dǎo)程序的過程,増加BIOS與啟動(dòng)服務(wù)器建立網(wǎng)絡(luò)連接、請(qǐng)求傳送及接收由特征參數(shù)指定的啟動(dòng)文件的過程; B)計(jì)算機(jī)結(jié)點(diǎn)根據(jù)所述網(wǎng)卡參數(shù)對(duì)網(wǎng)卡進(jìn)行初始化; C)計(jì)算機(jī)結(jié)點(diǎn)根據(jù)啟動(dòng)服務(wù)器IP與啟動(dòng)服務(wù)器建立點(diǎn)對(duì)點(diǎn)的連接; D)計(jì)算機(jī)結(jié)點(diǎn)根據(jù)啟動(dòng)文件路徑向啟動(dòng)服務(wù)器依次獲取系統(tǒng)內(nèi)核、根文件系統(tǒng)、應(yīng)用軟件,計(jì)算機(jī)結(jié)點(diǎn)在接收文件成功后微處理器將控制權(quán)轉(zhuǎn)交給內(nèi)核,結(jié)束引導(dǎo)過程并進(jìn)入計(jì)算機(jī)結(jié)點(diǎn)的系統(tǒng)啟動(dòng)過程。
5.一種大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)裝置,其特征在于包括用于生成計(jì)算機(jī)結(jié)點(diǎn)系統(tǒng)啟動(dòng)所需的特征參數(shù)的管理控制器(I)和用于存儲(chǔ)特征參數(shù)的配置接ロ(2),所述管理控制器(I)與配置接ロ( 2 )相連,所述配置接ロ( 2 )設(shè)于計(jì)算機(jī)結(jié)點(diǎn)內(nèi)并與計(jì)算機(jī)結(jié)點(diǎn)一一對(duì)應(yīng);所述配置接ロ(2)與計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連。
6.根據(jù)權(quán)利要求5所述的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)裝置,其特征在于還包括用于提供啟動(dòng)文件服務(wù)的啟動(dòng)服務(wù)器(3)和設(shè)于計(jì)算機(jī)結(jié)點(diǎn)BIOS中的網(wǎng)卡初始化模塊,所述管理控制器(I)通過帶外管理網(wǎng)絡(luò)與配置接ロ(2)相連,所述啟動(dòng)服務(wù)器(3)通過高速互連網(wǎng)絡(luò)與計(jì)算機(jī)結(jié)點(diǎn)相連,所述網(wǎng)卡初始化模塊根據(jù)特征參數(shù)初始化計(jì)算機(jī)結(jié)點(diǎn)的網(wǎng)卡、井根據(jù)特征參數(shù)通過高速互連網(wǎng)絡(luò)向所述啟動(dòng)服務(wù)器(3)獲取計(jì)算機(jī)結(jié)點(diǎn)的啟動(dòng)文件。
7.根據(jù)權(quán)利要求6所述的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)裝置,其特征在于所述管理控制器(I)包括管理控制處理器(11)、中斷處理邏輯(12)、帶外接ロ模塊(13)、管理網(wǎng)絡(luò)接ロ(14)、非易失性存儲(chǔ)器(15)和內(nèi)存(16),所述管理控制處理器(11)、中斷處理邏輯(12)、帶外接ロ模塊(13)、管理網(wǎng)絡(luò)接ロ(14)、非易失性存儲(chǔ)器(15)和內(nèi)存(16)均連接至管理控制器(I)的內(nèi)部總線上,所述中斷處理邏輯(12)的輸入端與配置接ロ(2)相連,所述帶外接ロ模塊(13)與配置接ロ(2)相連。
8.根據(jù)權(quán)利要求7所述的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)裝置,其特征在于所述配置接ロ( 2 )包括特征參數(shù)存儲(chǔ)模塊(21)和用于向管理控制器(I)發(fā)送特征參數(shù)配置請(qǐng)求的配置請(qǐng)求模塊(22),所述特征參數(shù)存儲(chǔ)模塊(21)包括用于標(biāo)記特征參數(shù)可用狀態(tài)的配置狀態(tài)寄存器(211)和一組用于存儲(chǔ)特征參數(shù)的配置參數(shù)寄存器(212),所述配置狀態(tài)寄存器(211)的輸入端、配置參數(shù)寄存器(212)的輸入端分別與帶外接ロ模塊(13)相連,所述配置狀態(tài)寄存器(211)的輸出端、配置參數(shù)寄存器(212)的輸出端分別與計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連;所述配置請(qǐng)求模塊(22)包括中斷控制邏輯(221)、在線狀態(tài)寄存器(222)、至少ー個(gè)中斷寄存器(223),所述中斷控制邏輯(221)的輸入端分別與在線狀態(tài)寄存器(222)、中斷寄存器(223)以及計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連,所述中斷控制邏輯(221)的輸出端與中斷處理邏輯(12)的輸入端相連。
9.根據(jù)權(quán)利要求7或8所述的大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)裝置,其特征在于還包括用于實(shí)時(shí)管理所述管理控制器(I)以及控制計(jì)算機(jī)結(jié)點(diǎn)加電或者復(fù)位的管理終端(4),所述管理終端(4)與所述管理網(wǎng)絡(luò)接ロ(14)相連,所述管理終端(4)與管理控制器(I)以及各個(gè)計(jì)算機(jī)結(jié)點(diǎn)的加電或者復(fù)位控制端相連。
全文摘要
本發(fā)明公開了一種大規(guī)模并行計(jì)算機(jī)系統(tǒng)的快速啟動(dòng)方法及裝置,方法包括為每一個(gè)計(jì)算機(jī)結(jié)點(diǎn)設(shè)置配置接口,計(jì)算機(jī)結(jié)點(diǎn)在啟動(dòng)前預(yù)先讀取配置接口中存儲(chǔ)的用于系統(tǒng)啟動(dòng)所需的特征參數(shù);如果配置接口中的特征參數(shù)可用,則計(jì)算機(jī)結(jié)點(diǎn)根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng);如果配置接口中的特征參數(shù)不可用,則先通過一個(gè)管理控制器為該計(jì)算機(jī)結(jié)點(diǎn)生成特征參數(shù)并寫入所對(duì)應(yīng)的配置接口,然后計(jì)算機(jī)結(jié)點(diǎn)從配置接口讀取特征參數(shù)并根據(jù)讀取的特征參數(shù)啟動(dòng)系統(tǒng);裝置包括管理控制器和配置接口,配置接口設(shè)于各個(gè)計(jì)算機(jī)結(jié)點(diǎn)內(nèi)并與計(jì)算機(jī)結(jié)點(diǎn)的微處理器相連,管理控制器與至少一個(gè)配置接口相連。本發(fā)明具有啟動(dòng)速度快、啟動(dòng)效率高、靈活性好、實(shí)施成本低的優(yōu)點(diǎn)。
文檔編號(hào)G06F9/445GK102662696SQ201210083039
公開日2012年9月12日 申請(qǐng)日期2012年3月27日 優(yōu)先權(quán)日2012年3月27日
發(fā)明者付清朝, 宋振龍, 屈婉霞, 張曉明, 徐煒遐, 李寶峰, 李小芳, 田寶華, 蔣句平, 謝旻, 遲萬慶, 邢建英, 鄭明玲 申請(qǐng)人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)