国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      IB算力網(wǎng)絡(luò)的智能管控方法與流程

      文檔序號(hào):39622159發(fā)布日期:2024-10-11 13:42閱讀:16來(lái)源:國(guó)知局
      IB算力網(wǎng)絡(luò)的智能管控方法與流程

      本發(fā)明屬于算力網(wǎng)絡(luò)領(lǐng)域,特別是關(guān)于一種ib(infiniband,無(wú)限帶寬)算力網(wǎng)絡(luò)的智能管控方法。


      背景技術(shù):

      1、隨著人工智能的發(fā)展,單個(gè)數(shù)據(jù)中心內(nèi)的服務(wù)器數(shù)量已從數(shù)百臺(tái)增加到數(shù)萬(wàn)臺(tái),同時(shí),分布式訓(xùn)練的大模型算法需依托大量的底層網(wǎng)絡(luò)設(shè)備如服務(wù)器、交換機(jī),管理難度大幅上升,使得運(yùn)維方必須能高效地管理和調(diào)度大規(guī)模、分散的算力資源?,F(xiàn)有的ib網(wǎng)絡(luò)管控平臺(tái)擴(kuò)展性不佳、難以靈活應(yīng)對(duì)大規(guī)模網(wǎng)絡(luò)環(huán)境和快速增長(zhǎng)的各種底層網(wǎng)絡(luò)設(shè)備數(shù)量,不能及時(shí)支持最新的網(wǎng)絡(luò)技術(shù)和服務(wù),自動(dòng)化程度不高、運(yùn)維效率低,用戶界面和體驗(yàn)不夠直觀、友好,網(wǎng)絡(luò)管理員需要較長(zhǎng)時(shí)間的學(xué)習(xí)才能適應(yīng)。


      技術(shù)實(shí)現(xiàn)思路

      1、為解決前述技術(shù)問(wèn)題,本發(fā)明提供一種ib算力網(wǎng)絡(luò)的智能管控方法,包括以下步驟:

      2、s1、部署nodeagent采集程序、switchagent?docker、kafka集群、數(shù)據(jù)庫(kù)集群,數(shù)據(jù)庫(kù)集群包括influxdb數(shù)據(jù)庫(kù)、mysql數(shù)據(jù)庫(kù)和redis數(shù)據(jù)庫(kù);

      3、s2、nodeagent采集程序采集資源負(fù)載數(shù)據(jù),并將其發(fā)送至kafka集群,資源負(fù)載數(shù)據(jù)包括gpu數(shù)據(jù)、dpu數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù);

      4、s3、switchagent?docker啟動(dòng)switchagent服務(wù),switchagent服務(wù)自動(dòng)確定網(wǎng)絡(luò)鄰居并生成網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),主備競(jìng)爭(zhēng)后自動(dòng)生成switchagent?master節(jié)點(diǎn),switchagentmaster節(jié)點(diǎn)分配節(jié)點(diǎn)lid、下發(fā)ltf表以及擁塞控制策略;

      5、s4、網(wǎng)絡(luò)狀態(tài)穩(wěn)定后,switchagent服務(wù)將采集的網(wǎng)絡(luò)鄰居數(shù)據(jù)、交換機(jī)節(jié)點(diǎn)數(shù)據(jù)、日志數(shù)據(jù)寫入mysql數(shù)據(jù)庫(kù);

      6、s5、switchagent服務(wù)定期將交換機(jī)節(jié)點(diǎn)的網(wǎng)絡(luò)端口流量數(shù)據(jù)、擁塞數(shù)據(jù)寫入influxdb數(shù)據(jù)庫(kù);

      7、s6、kafka集群對(duì)資源負(fù)載數(shù)據(jù)進(jìn)行負(fù)載均衡處理;

      8、s7、kafka集群以平緩的方式,將網(wǎng)絡(luò)鄰居數(shù)據(jù)、交換機(jī)節(jié)點(diǎn)數(shù)據(jù)及負(fù)載均衡處理后的資源負(fù)載數(shù)據(jù)中的dpu數(shù)據(jù)、gpu數(shù)據(jù)寫入mysql數(shù)據(jù)庫(kù),將日志數(shù)據(jù)寫入influxdb數(shù)據(jù)庫(kù),并將mysql數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)寫入redis數(shù)據(jù)庫(kù)作為備份數(shù)據(jù);

      9、s8、讀取mysql數(shù)據(jù)庫(kù)內(nèi)的網(wǎng)絡(luò)鄰居數(shù)據(jù)、交換機(jī)節(jié)點(diǎn)數(shù)據(jù),匯總后自動(dòng)生成節(jié)點(diǎn)層次化結(jié)構(gòu),將每個(gè)交換機(jī)節(jié)點(diǎn)重新編號(hào),根據(jù)交換機(jī)節(jié)點(diǎn)的層次位置、編號(hào)智能編排交換機(jī),再將與智能編排后的交換機(jī)對(duì)應(yīng)的交換機(jī)節(jié)點(diǎn)名稱下發(fā)到kafka集群,switchagent服務(wù)從kafka集群讀取交換機(jī)節(jié)點(diǎn)名稱并將其寫入對(duì)應(yīng)的交換機(jī)節(jié)點(diǎn);

      10、s9、生成層次化拓?fù)浣Y(jié)構(gòu),并將層次化拓?fù)浣Y(jié)構(gòu)的對(duì)應(yīng)數(shù)據(jù)同步發(fā)送至前端;

      11、s10、更新交換機(jī)節(jié)點(diǎn)數(shù)據(jù)、dpu數(shù)據(jù)、gpu數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù),并將更新后的數(shù)據(jù)同步發(fā)送至前端,前端對(duì)更新后的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,生成可實(shí)時(shí)更新的可視化數(shù)據(jù)。

      12、進(jìn)一步地,步驟s1中,nodeagent采集程序部署于底層服務(wù)器。

      13、進(jìn)一步地,底層服務(wù)器包括gpu服務(wù)器、dpu服務(wù)器。

      14、進(jìn)一步地,switchagent?docker部署于主備服務(wù)器。

      15、進(jìn)一步地,kafka集群、數(shù)據(jù)庫(kù)集群部署于管理服務(wù)器。

      16、進(jìn)一步地,交換機(jī)節(jié)點(diǎn)的交換機(jī)為64×400g端口leaf交換機(jī)、64×400g端口spine交換機(jī)。

      17、進(jìn)一步地,步驟s4還包括:switchagent服務(wù)實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并將更新后的交換機(jī)節(jié)點(diǎn)數(shù)據(jù)、網(wǎng)絡(luò)鄰居數(shù)據(jù)寫入mysql數(shù)據(jù)庫(kù)。

      18、進(jìn)一步地,數(shù)據(jù)處理采用的算法包括:數(shù)據(jù)壓縮算法、數(shù)據(jù)分類算法、滑動(dòng)窗口算法。

      19、與現(xiàn)有技術(shù)相比,本發(fā)明提供的ib算力網(wǎng)絡(luò)的智能管控方法,可解決ib算力網(wǎng)絡(luò)中復(fù)雜網(wǎng)絡(luò)環(huán)境資源難以協(xié)調(diào)管控的問(wèn)題,底層網(wǎng)絡(luò)設(shè)備如服務(wù)器、交換機(jī)的數(shù)量可擴(kuò)展性佳,保證在ai大模型訓(xùn)練過(guò)程中對(duì)底層網(wǎng)絡(luò)設(shè)備資源的監(jiān)控,還能分布式、靈活控制底層網(wǎng)絡(luò)設(shè)備資源的彈性設(shè)置。



      技術(shù)特征:

      1.ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,包括以下步驟:

      2.根據(jù)權(quán)利要求1所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s1中,所述nodeagent采集程序部署于底層服務(wù)器。

      3.根據(jù)權(quán)利要求2所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述底層服務(wù)器包括gpu服務(wù)器、dpu服務(wù)器。

      4.根據(jù)權(quán)利要求1所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s1中,所述switchagent?docker部署于主備服務(wù)器。

      5.根據(jù)權(quán)利要求1所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s1中,所述kafka集群、數(shù)據(jù)庫(kù)集群部署于管理服務(wù)器。

      6.根據(jù)權(quán)利要求1所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述交換機(jī)節(jié)點(diǎn)的交換機(jī)為64×400g端口leaf交換機(jī)、64×400g端口spine交換機(jī)。

      7.根據(jù)權(quán)利要求1~6中任一項(xiàng)所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s4還包括:所述switchagent服務(wù)實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并將更新后的交換機(jī)節(jié)點(diǎn)數(shù)據(jù)、網(wǎng)絡(luò)鄰居數(shù)據(jù)寫入所述mysql數(shù)據(jù)庫(kù)。

      8.根據(jù)權(quán)利要求7所述的ib算力網(wǎng)絡(luò)的智能管控方法,其特征在于,所述步驟s10中,所述數(shù)據(jù)處理采用的算法包括:數(shù)據(jù)壓縮算法、數(shù)據(jù)分類算法、滑動(dòng)窗口算法。


      技術(shù)總結(jié)
      本發(fā)明公開了一種IB算力網(wǎng)絡(luò)的智能管控方法,nodeagent采集程序采集資源負(fù)載數(shù)據(jù),switchagent?docker啟動(dòng)switchagent服務(wù),自動(dòng)確定網(wǎng)絡(luò)鄰居并生成網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);switchagent服務(wù)進(jìn)行數(shù)據(jù)吸入;kafka集群對(duì)資源負(fù)載數(shù)據(jù)進(jìn)行負(fù)載均衡處理,并以平緩的方式寫入數(shù)據(jù);自動(dòng)生成節(jié)點(diǎn)層次化結(jié)構(gòu),將每個(gè)交換機(jī)節(jié)點(diǎn)重新編號(hào),根據(jù)交換機(jī)節(jié)點(diǎn)的層次位置、編號(hào)智能編排交換機(jī),再將與智能編排后的交換機(jī)對(duì)應(yīng)的交換機(jī)節(jié)點(diǎn)名稱下發(fā)到kafka集群;生成層次化拓?fù)浣Y(jié)構(gòu),并將其對(duì)應(yīng)數(shù)據(jù)同步發(fā)送至前端;更新交換機(jī)節(jié)點(diǎn)數(shù)據(jù)、DPU數(shù)據(jù)、GPU數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù),前端對(duì)更新后的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,生成可實(shí)時(shí)更新的可視化數(shù)據(jù)。本IB算力網(wǎng)絡(luò)的智能管控方法解決IB算力網(wǎng)絡(luò)中復(fù)雜網(wǎng)絡(luò)環(huán)境資源難以協(xié)調(diào)管控的問(wèn)題。

      技術(shù)研發(fā)人員:陳維,于士超
      受保護(hù)的技術(shù)使用者:南京基流科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1