本發(fā)明涉及服務(wù)器領(lǐng)域,特別涉及一種服務(wù)器散熱控制系統(tǒng)、方法、服務(wù)器系統(tǒng)及存儲介質(zhì)。
背景技術(shù):
1、服務(wù)器散熱為保證服務(wù)器正常工作所要關(guān)注的重要功能。相關(guān)技術(shù)中,服務(wù)器散熱功能可由液冷分配單元(cdu,cool?distribution?unit)提供。然而,針對液冷分配單元的故障檢測機制與服務(wù)器自身相對獨立,即在液冷分配單元故障時,服務(wù)器可能仍處于高負載運算狀態(tài);并且,液冷分配單元缺少冗余機制,即在液冷分配單元故障時,服務(wù)器無法主動更換可用的液冷分配單元,進而導(dǎo)致現(xiàn)有的服務(wù)器散熱機制可靠性較差。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供一種服務(wù)器散熱控制系統(tǒng)、方法、服務(wù)器系統(tǒng)及存儲介質(zhì),可確保服務(wù)器節(jié)點的上限功率隨液冷分配單元的故障情況動態(tài)調(diào)整,同時具備可切換的備用液冷分配單元,從而可有效提升服務(wù)器散熱系統(tǒng)的可靠性。
2、為解決上述技術(shù)問題,本發(fā)明提供一種服務(wù)器散熱控制系統(tǒng),包括:服務(wù)器管控模塊和液冷管控模塊,多個服務(wù)器節(jié)點與所述服務(wù)器管控模塊連接,所述服務(wù)器管控模塊與所述液冷管控模塊連接,所述液冷管控模塊與多個液冷分配單元連接;
3、所述服務(wù)器管控模塊,用于向所述液冷管控模塊獲取所述液冷分配單元的故障信息,根據(jù)所述故障信息對所述服務(wù)器節(jié)點的上限功率進行調(diào)整,以及根據(jù)所述故障信息控制所述液冷管控模塊切換執(zhí)行散熱業(yè)務(wù)的液冷分配單元;
4、所述液冷管控模塊,用于檢測并記錄各所述液冷分配單元的故障信息,以及在所述服務(wù)器管控模塊的控制下切換執(zhí)行散熱業(yè)務(wù)的液冷分配單元。
5、可選地,所述服務(wù)器管控模塊包括:第一管理控制單元和第一硬件檢測單元,所述服務(wù)器節(jié)點與所述第一管理控制單元一一連接,多個所述第一管理控制單元與所述第一硬件檢測單元連接,所述第一硬件檢測單元與所述液冷管控模塊連接;
6、所述第一管理控制單元,用于向所述第一硬件檢測單元獲取所述液冷分配單元的故障信息,并根據(jù)所述故障信息對所述服務(wù)器節(jié)點的上限功率進行調(diào)整;
7、所述第一硬件檢測單元,用于向所述液冷管控模塊獲取所述液冷分配單元的故障信息并保存,以及根據(jù)所述故障信息控制所述液冷管控模塊切換執(zhí)行散熱業(yè)務(wù)的液冷分配單元。
8、可選地,所述液冷管控模塊,還用于在解除對各所述液冷分配單元的電源限制時,向所述第一硬件檢測單元發(fā)送電源限制解除信號;
9、所述第一硬件檢測單元,還用于:
10、在接收到所述液冷管控模塊發(fā)送的所述電源解除限制信號時,向各所述第一管理控制單元發(fā)送自檢信號;
11、在接收到所有所述第一管理控制單元發(fā)送的自檢成功信號時,解除對各所述服務(wù)器節(jié)點的電源限制,以便所述服務(wù)器節(jié)點上電啟動;
12、所述第一管理控制單元,還用于在接收到所述第一硬件檢測單元發(fā)送的自檢信號時進行自檢操作,并在確定自檢成功時向所述第一硬件檢測單元發(fā)送所述自檢完成信號;
13、可選地,所述第一硬件檢測單元,還用于:
14、向所述液冷管控模塊獲取所述液冷分配單元的離線信息并保存;
15、在接收到第一管理控制單元發(fā)送的下電信號時,向所述液冷管控模塊發(fā)送所述下電信號;
16、所述第一管理控制單元,還用于:
17、根據(jù)當(dāng)前執(zhí)行散熱業(yè)務(wù)的液冷分配單元的故障信息以及各所述液冷分配單元的離線信息確定故障等級;其中,所述故障等級與所述上限功率呈負相關(guān)關(guān)系;
18、根據(jù)所述故障等級對所述服務(wù)器節(jié)點的上限功率進行調(diào)整;
19、在根據(jù)所述離線信息確定當(dāng)前執(zhí)行散熱業(yè)務(wù)的液冷分配單元離線且不存在可切換的液冷分配單元時,控制所述服務(wù)器節(jié)點下電;
20、在確定所述服務(wù)器節(jié)點下電結(jié)束時,向所述第一硬件檢測單元發(fā)送所述下電信號;
21、所述液冷管控模塊,還用于:
22、保存各所述液冷分配單元的離線信息;
23、在接收到所述下電信號時,控制各所述液冷分配單元下電。
24、可選地,所述第一管理控制單元,還用于:
25、在確定當(dāng)前執(zhí)行散熱業(yè)務(wù)的液冷分配單元存在新增的故障信息或所述當(dāng)前執(zhí)行散熱業(yè)務(wù)的液冷分配單元離線時,對所述故障等級進行上調(diào);
26、在確定當(dāng)前執(zhí)行散熱業(yè)務(wù)的液冷分配單元的故障信息減少和/或已離線的液冷分配單元重新上線時,對所述故障等級進行下調(diào)。
27、可選地,所述液冷管控模塊,包括:第二管理控制單元、第二硬件檢測單元和多路選擇器,所述液冷分配單元與所述第二管理控制單元一一連接,所述第二管理控制單元與所述第二硬件檢測單元一一連接,多個所述第二硬件檢測單元與所述多路選擇器連接,所述多路選擇器與所述服務(wù)器管控模塊連接;
28、所述第二管理控制單元,用于檢測所述液冷分配單元的故障信息,并將所述故障信息發(fā)送至所述第二硬件檢測單元;
29、所述第二硬件檢測單元,用于記錄所述故障信息;
30、所述多路選擇器,用于在所述服務(wù)器管控模塊的控制下,將所述服務(wù)器管控模塊與執(zhí)行散熱業(yè)務(wù)的液冷分配單元對應(yīng)的第二硬件檢測單元之間的鏈路設(shè)置為選通狀態(tài)。
31、可選地,所述第二硬件檢測單元,還用于:
32、在接收到所有所述第二管控控制單元發(fā)送的自檢成功信號時,解除對所述多個液冷分配單元的電源限制,以使所述液冷分配單元上電啟動;
33、在解除對所述多個液冷分配單元的電源限制時,向所述服務(wù)器管控模塊發(fā)送電源限制解除信號;
34、所述第二管理控制單元,還用于進行自檢操作,并在確定自檢成功時向所述第二硬件檢測單元發(fā)送所述自檢完成信號。
35、可選地,所述第二硬件檢測單元,還用于在接收到服務(wù)器管控模塊發(fā)送的下電信號時,向所述第二管理控制單元發(fā)送所述下電信號;
36、所述第二管理控制單元,還用于在接收到所述下電信號時,控制各所述液冷分配單元下電。
37、本發(fā)明還提供一種服務(wù)器散熱控制方法,應(yīng)用于如上所述的服務(wù)器散熱控制系統(tǒng),所述方法包括:
38、服務(wù)器管控模塊向液冷管控模塊獲取液冷分配單元的故障信息,根據(jù)所述故障信息對服務(wù)器節(jié)點的上限功率進行調(diào)整,以及根據(jù)所述故障信息控制所述液冷管控模塊切換執(zhí)行散熱業(yè)務(wù)的液冷分配單元;
39、液冷管控模塊檢測并記錄各所述液冷分配單元的故障信息,以及在所述服務(wù)器管控模塊的控制下切換執(zhí)行散熱業(yè)務(wù)的液冷分配單元。
40、本發(fā)明還提供一種服務(wù)器系統(tǒng),包括:多個服務(wù)器節(jié)點、多個液冷分配單元和如上所述的服務(wù)器散熱控制系統(tǒng)。
41、本發(fā)明還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令被處理器加載并執(zhí)行時,實現(xiàn)如上所述的服務(wù)器散熱控制方法。
42、本發(fā)明提供一種服務(wù)器散熱控制系統(tǒng),包括:服務(wù)器管控模塊和液冷管控模塊,多個服務(wù)器節(jié)點與所述服務(wù)器管控模塊連接,所述服務(wù)器管控模塊與所述液冷管控模塊連接,所述液冷管控模塊與多個液冷分配單元連接;所述服務(wù)器管控模塊,用于向所述液冷管控模塊獲取所述液冷分配單元的故障信息,根據(jù)所述故障信息對所述服務(wù)器節(jié)點的上限功率進行調(diào)整,以及根據(jù)所述故障信息控制所述液冷管控模塊切換執(zhí)行散熱業(yè)務(wù)的液冷分配單元;所述液冷管控模塊,用于檢測并記錄各所述液冷分配單元的故障信息,以及在所述服務(wù)器管控模塊的控制下切換執(zhí)行散熱業(yè)務(wù)的液冷分配單元。
43、可見,本發(fā)明可提供一種服務(wù)器散熱控制系統(tǒng),其包含服務(wù)器管控模塊和液冷管控模塊,服務(wù)器管控模塊與服務(wù)器節(jié)點和液冷管控模塊連接,而液冷管控模塊進一步與多個液冷分配單元連接。在應(yīng)用過程中,服務(wù)器管控模塊首先用于向液冷管控模塊獲取液冷分配單元的故障信息,并可根據(jù)故障信息對服務(wù)器節(jié)點的上限功率進行調(diào)整;而液冷管控模塊首先可用于檢測并記錄各液冷分配單元的故障信息。進而,可確保服務(wù)器節(jié)點的上限功率隨液冷分配單元的故障情況動態(tài)調(diào)整,避免服務(wù)器節(jié)點在液冷分配單元故障時產(chǎn)生過量熱量。另外,服務(wù)器管控模塊還可根據(jù)故障信息控制液冷管控模塊切換執(zhí)行散熱業(yè)務(wù)的液冷分配單元,而液冷管控模塊還可在服務(wù)器管控模塊的控制下切換執(zhí)行散熱業(yè)務(wù)的液冷分配單元,這樣確保服務(wù)器在確定液冷分配單元故障時,可主動切換其他備用的液冷分配單元,從而可提升系統(tǒng)冗余性,進而可有效提升服務(wù)器散熱系統(tǒng)的可靠性。本發(fā)明還提供一種服務(wù)器散熱方法、服務(wù)器系統(tǒng)及計算機可讀存儲介質(zhì),具有上述有益效果。