本發(fā)明屬于算力網(wǎng)絡(luò)領(lǐng)域,特別是關(guān)于一種ib(infiniband,無(wú)限帶寬)算力網(wǎng)絡(luò)的智能管控方法。
背景技術(shù):
1、隨著人工智能的發(fā)展,單個(gè)數(shù)據(jù)中心內(nèi)的服務(wù)器數(shù)量已從數(shù)百臺(tái)增加到數(shù)萬(wàn)臺(tái),同時(shí),分布式訓(xùn)練的大模型算法需依托大量的底層網(wǎng)絡(luò)設(shè)備如服務(wù)器、交換機(jī),管理難度大幅上升,使得運(yùn)維方必須能高效地管理和調(diào)度大規(guī)模、分散的算力資源?,F(xiàn)有的ib網(wǎng)絡(luò)管控平臺(tái)擴(kuò)展性不佳、難以靈活應(yīng)對(duì)大規(guī)模網(wǎng)絡(luò)環(huán)境和快速增長(zhǎng)的各種底層網(wǎng)絡(luò)設(shè)備數(shù)量,不能及時(shí)支持最新的網(wǎng)絡(luò)技術(shù)和服務(wù),自動(dòng)化程度不高、運(yùn)維效率低,用戶界面和體驗(yàn)不夠直觀、友好,網(wǎng)絡(luò)管理員需要較長(zhǎng)時(shí)間的學(xué)習(xí)才能適應(yīng)。
技術(shù)實(shí)現(xiàn)思路
1、為解決前述技術(shù)問(wèn)題,本發(fā)明提供一種ib算力網(wǎng)絡(luò)的智能管控方法,包括以下步驟:
2、s1、部署nodeagent采集程序、switchagent?docker、kafka集群、數(shù)據(jù)庫(kù)集群,數(shù)據(jù)庫(kù)集群包括influxdb數(shù)據(jù)庫(kù)、mysql數(shù)據(jù)庫(kù)和redis數(shù)據(jù)庫(kù);
3、s2、nodeagent采集程序采集資源負(fù)載數(shù)據(jù),并將其發(fā)送至kafka集群,資源負(fù)載數(shù)據(jù)包括gpu數(shù)據(jù)、dpu數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù);
4、s3、switchagent?docker啟動(dòng)switchagent服務(wù),switchagent服務(wù)自動(dòng)確定網(wǎng)絡(luò)鄰居并生成網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),主備競(jìng)爭(zhēng)后自動(dòng)生成switchagent?master節(jié)點(diǎn),switchagentmaster節(jié)點(diǎn)分配節(jié)點(diǎn)lid、下發(fā)ltf表以及擁塞控制策略;
5、s4、網(wǎng)絡(luò)狀態(tài)穩(wěn)定后,switchagent服務(wù)將采集的網(wǎng)絡(luò)鄰居數(shù)據(jù)、交換機(jī)節(jié)點(diǎn)數(shù)據(jù)、日志數(shù)據(jù)寫入mysql數(shù)據(jù)庫(kù);
6、s5、switchagent服務(wù)定期將交換機(jī)節(jié)點(diǎn)的網(wǎng)絡(luò)端口流量數(shù)據(jù)、擁塞數(shù)據(jù)寫入influxdb數(shù)據(jù)庫(kù);
7、s6、kafka集群對(duì)資源負(fù)載數(shù)據(jù)進(jìn)行負(fù)載均衡處理;
8、s7、kafka集群以平緩的方式,將網(wǎng)絡(luò)鄰居數(shù)據(jù)、交換機(jī)節(jié)點(diǎn)數(shù)據(jù)及負(fù)載均衡處理后的資源負(fù)載數(shù)據(jù)中的dpu數(shù)據(jù)、gpu數(shù)據(jù)寫入mysql數(shù)據(jù)庫(kù),將日志數(shù)據(jù)寫入influxdb數(shù)據(jù)庫(kù),并將mysql數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)寫入redis數(shù)據(jù)庫(kù)作為備份數(shù)據(jù);
9、s8、讀取mysql數(shù)據(jù)庫(kù)內(nèi)的網(wǎng)絡(luò)鄰居數(shù)據(jù)、交換機(jī)節(jié)點(diǎn)數(shù)據(jù),匯總后自動(dòng)生成節(jié)點(diǎn)層次化結(jié)構(gòu),將每個(gè)交換機(jī)節(jié)點(diǎn)重新編號(hào),根據(jù)交換機(jī)節(jié)點(diǎn)的層次位置、編號(hào)智能編排交換機(jī),再將與智能編排后的交換機(jī)對(duì)應(yīng)的交換機(jī)節(jié)點(diǎn)名稱下發(fā)到kafka集群,switchagent服務(wù)從kafka集群讀取交換機(jī)節(jié)點(diǎn)名稱并將其寫入對(duì)應(yīng)的交換機(jī)節(jié)點(diǎn);
10、s9、生成層次化拓?fù)浣Y(jié)構(gòu),并將層次化拓?fù)浣Y(jié)構(gòu)的對(duì)應(yīng)數(shù)據(jù)同步發(fā)送至前端;
11、s10、更新交換機(jī)節(jié)點(diǎn)數(shù)據(jù)、dpu數(shù)據(jù)、gpu數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù),并將更新后的數(shù)據(jù)同步發(fā)送至前端,前端對(duì)更新后的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,生成可實(shí)時(shí)更新的可視化數(shù)據(jù)。
12、進(jìn)一步地,步驟s1中,nodeagent采集程序部署于底層服務(wù)器。
13、進(jìn)一步地,底層服務(wù)器包括gpu服務(wù)器、dpu服務(wù)器。
14、進(jìn)一步地,switchagent?docker部署于主備服務(wù)器。
15、進(jìn)一步地,kafka集群、數(shù)據(jù)庫(kù)集群部署于管理服務(wù)器。
16、進(jìn)一步地,交換機(jī)節(jié)點(diǎn)的交換機(jī)為64×400g端口leaf交換機(jī)、64×400g端口spine交換機(jī)。
17、進(jìn)一步地,步驟s4還包括:switchagent服務(wù)實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并將更新后的交換機(jī)節(jié)點(diǎn)數(shù)據(jù)、網(wǎng)絡(luò)鄰居數(shù)據(jù)寫入mysql數(shù)據(jù)庫(kù)。
18、進(jìn)一步地,數(shù)據(jù)處理采用的算法包括:數(shù)據(jù)壓縮算法、數(shù)據(jù)分類算法、滑動(dòng)窗口算法。
19、與現(xiàn)有技術(shù)相比,本發(fā)明提供的ib算力網(wǎng)絡(luò)的智能管控方法,可解決ib算力網(wǎng)絡(luò)中復(fù)雜網(wǎng)絡(luò)環(huán)境資源難以協(xié)調(diào)管控的問(wèn)題,底層網(wǎng)絡(luò)設(shè)備如服務(wù)器、交換機(jī)的數(shù)量可擴(kuò)展性佳,保證在ai大模型訓(xùn)練過(guò)程中對(duì)底層網(wǎng)絡(luò)設(shè)備資源的監(jiān)控,還能分布式、靈活控制底層網(wǎng)絡(luò)設(shè)備資源的彈性設(shè)置。
1.ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s1中,所述nodeagent采集程序部署于底層服務(wù)器。
3.根據(jù)權(quán)利要求2所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述底層服務(wù)器包括gpu服務(wù)器、dpu服務(wù)器。
4.根據(jù)權(quán)利要求1所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s1中,所述switchagent?docker部署于主備服務(wù)器。
5.根據(jù)權(quán)利要求1所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s1中,所述kafka集群、數(shù)據(jù)庫(kù)集群部署于管理服務(wù)器。
6.根據(jù)權(quán)利要求1所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述交換機(jī)節(jié)點(diǎn)的交換機(jī)為64×400g端口leaf交換機(jī)、64×400g端口spine交換機(jī)。
7.根據(jù)權(quán)利要求1~6中任一項(xiàng)所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s4還包括:所述switchagent服務(wù)實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并將更新后的交換機(jī)節(jié)點(diǎn)數(shù)據(jù)、網(wǎng)絡(luò)鄰居數(shù)據(jù)寫入所述mysql數(shù)據(jù)庫(kù)。
8.根據(jù)權(quán)利要求7所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s10中,所述數(shù)據(jù)處理采用的算法包括:數(shù)據(jù)壓縮算法、數(shù)據(jù)分類算法、滑動(dòng)窗口算法。