1.一種分布式計算系統(tǒng)的訓練方法,其特征在于,應用于分布式計算系統(tǒng),所述分布式計算系統(tǒng)包括多個異構的計算節(jié)點,所述分布式計算系統(tǒng)的訓練方法包括:
2.如權利要求1所述的分布式計算系統(tǒng)的訓練方法,其特征在于,獲取每個所述計算節(jié)點的計算能力,包括:
3.如權利要求2所述的分布式計算系統(tǒng)的訓練方法,其特征在于,所述性能指標參數(shù)包括浮點運算性能、內(nèi)存帶寬、內(nèi)存延遲、輸入/輸出吞吐率、錯誤率及單位能效中的一種或多種的組合;根據(jù)所述性能指標參數(shù)確定每個所述計算節(jié)點的第一能力參數(shù),包括:
4.如權利要求3所述的分布式計算系統(tǒng)的訓練方法,其特征在于,根據(jù)所述浮點運算性能、所述內(nèi)存帶寬、所述內(nèi)存延遲、所述輸入/輸出吞吐率、所述錯誤率分別對應的權重系數(shù)、所述單位能效,確定所述第一能力參數(shù),包括:
5.如權利要求2所述的分布式計算系統(tǒng)的訓練方法,其特征在于,控制每個所述計算節(jié)點執(zhí)行預設測試任務,并根據(jù)每個所述計算節(jié)點執(zhí)行所述預設測試任務的測試結果確定第二能力參數(shù),包括:
6.如權利要求1所述的分布式計算系統(tǒng)的訓練方法,其特征在于,根據(jù)每個所述計算節(jié)點的計算能力為每個所述計算節(jié)點分配目標模型的訓練任務,包括:
7.如權利要求1-6任一項所述的分布式計算系統(tǒng)的訓練方法,其特征在于,還包括:
8.如權利要求7所述的分布式計算系統(tǒng)的訓練方法,其特征在于,獲取當前的網(wǎng)絡狀態(tài)參數(shù),包括:
9.如權利要求7所述的分布式計算系統(tǒng)的訓練方法,其特征在于,還包括:
10.如權利要求9所述的分布式計算系統(tǒng)的訓練方法,其特征在于,所述網(wǎng)絡狀態(tài)參數(shù)為網(wǎng)絡擁塞程度,根據(jù)當前的所述網(wǎng)絡狀態(tài)參數(shù)、每個所述訓練任務的所述優(yōu)先級實時調(diào)整所述通信間隔時間,包括:
11.如權利要求9所述的分布式計算系統(tǒng)的訓練方法,其特征在于,獲取每個所述訓練任務的優(yōu)先級,包括:
12.如權利要求11所述的分布式計算系統(tǒng)的訓練方法,其特征在于,根據(jù)每個所述訓練任務對應的所述第一權重、所述第一評分、所述第二權重和所述第二評分,確定每個所述訓練任務的優(yōu)先級,包括:
13.一種分布式計算系統(tǒng)的訓練裝置,其特征在于,包括:
14.一種計算機程序產(chǎn)品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權利要求1-12任一項所述分布式計算系統(tǒng)的訓練方法的步驟。
15.一種非易失性存儲介質,其特征在于,所述非易失性存儲介質上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1-12任一項所述的分布式計算系統(tǒng)的訓練方法的步驟。