本發(fā)明涉及一種面向邊緣分布式訓(xùn)練的資源動(dòng)態(tài)分析與樣本負(fù)載調(diào)度優(yōu)化方法,屬于邊緣計(jì)算與人工智能融合。
背景技術(shù):
1、隨著萬物互聯(lián)時(shí)代的到來,物聯(lián)網(wǎng)與人工智能的融合是發(fā)展的趨勢,智能終端設(shè)備的普及呈現(xiàn)爆發(fā)性增長,邊緣ai應(yīng)用的數(shù)量也將在未來幾年中激增。為了提高用戶服務(wù)質(zhì)量,需要高效利用終端設(shè)備中產(chǎn)生的海量數(shù)據(jù)進(jìn)行模型訓(xùn)練任務(wù),以實(shí)現(xiàn)物聯(lián)網(wǎng)與人工智能的深度融合。然而,傳統(tǒng)的云計(jì)算模式在處理巨大的數(shù)據(jù)洪流時(shí)存在網(wǎng)絡(luò)負(fù)擔(dān)重、延遲高、隱私泄露風(fēng)險(xiǎn)大等問題,使云難以應(yīng)對邊緣ai應(yīng)用的需求。
2、為此,邊緣計(jì)算作為新的計(jì)算范式,通過將計(jì)算從云下沉至邊緣,在就近的邊緣設(shè)備上處理數(shù)據(jù)與任務(wù),進(jìn)行分布式模型訓(xùn)練,從而為緩解核心網(wǎng)絡(luò)負(fù)載壓力,為用戶提供了低延時(shí)高安全性的服務(wù)。然而,在邊緣環(huán)境中執(zhí)行高效的模型訓(xùn)練任務(wù)面臨了諸多挑戰(zhàn)。
3、首先,邊緣環(huán)境存在設(shè)備異構(gòu)的問題。邊緣計(jì)算希望網(wǎng)絡(luò)邊緣的各種設(shè)備都可能參與執(zhí)行訓(xùn)練任務(wù),而邊緣設(shè)備在地理位置上天然具有分布式的特點(diǎn),同時(shí)不同設(shè)備間硬件資源會(huì)有較大差異,這為如何有效評估各邊緣節(jié)點(diǎn)的算力資源,進(jìn)而分配合理的工作負(fù)載帶來了挑戰(zhàn)。同時(shí),邊緣設(shè)備資源受限。邊緣節(jié)點(diǎn)的算力資源較為有限,且時(shí)常需要占用部分資源響應(yīng)用戶的服務(wù)請求使可用算力資源發(fā)生波動(dòng),導(dǎo)致各節(jié)點(diǎn)完成訓(xùn)練任務(wù)的時(shí)間發(fā)生變化,給訓(xùn)練與更新模型參數(shù)的過程帶來不確定性,影響了模型整體收斂效率。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是:如何解決邊緣環(huán)境中設(shè)備異構(gòu)且算力資源有限的問題。
2、為解決上述技術(shù)問題,本發(fā)明是采用下述技術(shù)方案實(shí)現(xiàn)的。
3、本發(fā)明提供一種面向邊緣分布式訓(xùn)練的資源動(dòng)態(tài)分析與樣本負(fù)載調(diào)度優(yōu)化方法,包括:
4、獲取邊緣環(huán)境中的所有節(jié)點(diǎn);
5、將邊緣環(huán)境中的一個(gè)節(jié)點(diǎn)作為參數(shù)服務(wù)器,其他節(jié)點(diǎn)作為計(jì)算節(jié)點(diǎn);
6、根據(jù)獲取的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型中操作符的操作強(qiáng)度均值,統(tǒng)計(jì)計(jì)算密集型操作符占比和存儲(chǔ)訪問密集型操作符占比;
7、在計(jì)算節(jié)點(diǎn)上運(yùn)行算力資源的單一資源密集型負(fù)載,獲取負(fù)載的訓(xùn)練樣本總數(shù)、算力資源利用率和負(fù)載完成時(shí)間,所述算力資源包括cpu性能、gpu性能、內(nèi)存性能和磁盤性能;?根據(jù)負(fù)載的訓(xùn)練樣本總數(shù)以及負(fù)載完成時(shí)間計(jì)算任務(wù)執(zhí)行強(qiáng)度值;
8、根據(jù)算力資源利用率以及任務(wù)執(zhí)行強(qiáng)度值計(jì)算算力資源評估值;
9、根據(jù)所述算力資源,將計(jì)算密集型操作符占比和存儲(chǔ)訪問密集型操作符占比作為權(quán)重調(diào)整因子,確定畸變雷達(dá)圖;
10、將所述算力資源評估值標(biāo)記在畸變雷達(dá)圖中并計(jì)算得到計(jì)算節(jié)點(diǎn)的算力資源與任務(wù)匹配度比值;
11、基于計(jì)算節(jié)點(diǎn)的算力資源與任務(wù)匹配度比值,利用參數(shù)服務(wù)器將最慢節(jié)點(diǎn)中的樣本部分負(fù)載分發(fā)至最快節(jié)點(diǎn),以最小化最慢節(jié)點(diǎn)與最快節(jié)點(diǎn)完成迭代的時(shí)間間隔為優(yōu)化目標(biāo)建立優(yōu)化模型,計(jì)算得到樣本負(fù)載分配優(yōu)化方案。
12、進(jìn)一步地,根據(jù)獲取的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型中操作符的操作強(qiáng)度均值,統(tǒng)計(jì)計(jì)算密集型操作符占比和存儲(chǔ)訪問密集型操作符占比的方法包括:
13、將高于所述操作強(qiáng)度均值的操作符作為計(jì)算密集型操作符;
14、將低于所述操作強(qiáng)度均值的操作符作為存儲(chǔ)密集型操作符;
15、根據(jù)操作符的操作強(qiáng)度均值以及操作符的總數(shù),統(tǒng)計(jì)計(jì)算密集型操作符占比和存儲(chǔ)訪問密集型操作符占比。
16、進(jìn)一步地,根據(jù)負(fù)載的訓(xùn)練樣本總數(shù)以及負(fù)載完成時(shí)間計(jì)算任務(wù)執(zhí)行強(qiáng)度值,其中,將所述任務(wù)執(zhí)行強(qiáng)度值的計(jì)算式表示為:
17、(3);
18、式中, e w,d表示計(jì)算節(jié)點(diǎn) d在運(yùn)行負(fù)載 w時(shí)的任務(wù)執(zhí)行強(qiáng)度值, capacity w表示負(fù)載w的訓(xùn)練樣本總數(shù), time w,?d表示計(jì)算節(jié)點(diǎn) d執(zhí)行負(fù)載w的負(fù)載完成時(shí)間。
19、進(jìn)一步地,根據(jù)算力資源利用率以及任務(wù)執(zhí)行強(qiáng)度值計(jì)算算力資源評估值,其中,將所述算力資源評估值的計(jì)算式表示為:
20、(4);
21、式中, n表示算力資源的性能評估值, w表示負(fù)載, w表示單一資源密集型負(fù)載集, d表示計(jì)算節(jié)點(diǎn), d表示計(jì)算節(jié)點(diǎn)集合,表示計(jì)算節(jié)點(diǎn) d在運(yùn)行負(fù)載 w時(shí)的算力資源利用率,表示計(jì)算節(jié)點(diǎn) d在運(yùn)行負(fù)載 w時(shí)的任務(wù)執(zhí)行強(qiáng)度值,n表示單一資源密集型負(fù)載集的負(fù)載總數(shù)。
22、進(jìn)一步地,根據(jù)所述算力資源,將計(jì)算密集型操作符占比和存儲(chǔ)訪問密集型操作符占比作為權(quán)重調(diào)整因子,確定畸變雷達(dá)圖,包括:
23、將所述算力資源劃分為計(jì)算能力和存儲(chǔ)能力,所述計(jì)算能力包括cpu性能和gpu性能,所述存儲(chǔ)能力包括內(nèi)存性能和磁盤性能;
24、根據(jù)計(jì)算能力和存儲(chǔ)能力構(gòu)建雷達(dá)圖;
25、將計(jì)算密集型操作符占比和存儲(chǔ)訪問密集型操作符占比作為權(quán)重調(diào)整因子,對所述雷達(dá)圖進(jìn)行畸變,得到畸變雷達(dá)圖。
26、進(jìn)一步地,將所述算力資源評估值標(biāo)記在畸變雷達(dá)圖中并計(jì)算得到計(jì)算節(jié)點(diǎn)的算力資源與任務(wù)匹配度比值,其中,將所述算力資源與任務(wù)匹配度比值的計(jì)算式表示為:
27、(6);
28、式中, m表示算力資源與任務(wù)匹配度比值, s cgmd表示算力資源cpu性能c、gpu性能g、內(nèi)存性能m和磁盤性能d標(biāo)準(zhǔn)化后的算力資源評估值標(biāo)記點(diǎn)圍成的面積, s rador表示畸變雷達(dá)圖的總面積。
29、進(jìn)一步地,基于計(jì)算節(jié)點(diǎn)的算力資源與任務(wù)匹配度比值,利用參數(shù)服務(wù)器將最慢節(jié)點(diǎn)中的樣本部分負(fù)載分發(fā)至最快節(jié)點(diǎn),以最小化最慢節(jié)點(diǎn)與最快節(jié)點(diǎn)完成迭代的時(shí)間間隔為優(yōu)化目標(biāo)建立優(yōu)化模型,計(jì)算得到樣本負(fù)載分配優(yōu)化方案,包括:
30、根據(jù)所有計(jì)算節(jié)點(diǎn)的算力資源與任務(wù)匹配度比值,利用參數(shù)服務(wù)器將最慢節(jié)點(diǎn)中的樣本部分負(fù)載分發(fā)至最快節(jié)點(diǎn),獲得最快節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間和最慢節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間與最快節(jié)點(diǎn)的樣本負(fù)載和最慢節(jié)點(diǎn)的樣本負(fù)載;
31、根據(jù)最快節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間和最慢節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間與最快節(jié)點(diǎn)的樣本負(fù)載和最慢節(jié)點(diǎn)的樣本負(fù)載,以最小化最快節(jié)點(diǎn)與最慢節(jié)點(diǎn)完成迭代的時(shí)間間隔為目標(biāo),建立優(yōu)化模型,獲得樣本負(fù)載分配優(yōu)化方案。
32、進(jìn)一步地,根據(jù)計(jì)算節(jié)點(diǎn)的算力資源與任務(wù)匹配度比值,利用參數(shù)服務(wù)器將最慢節(jié)點(diǎn)中的樣本部分負(fù)載分發(fā)至最快節(jié)點(diǎn),其中,將利用參數(shù)服務(wù)器分發(fā)給計(jì)算節(jié)點(diǎn)的樣本負(fù)載表示為:
33、(7);
34、式中, f d表示分發(fā)給計(jì)算節(jié)點(diǎn) d的樣本負(fù)載,使用 m d表示計(jì)算節(jié)點(diǎn)d的算力資源與任務(wù)匹配度, f表示負(fù)載的訓(xùn)練樣本總數(shù), m表示算力資源與任務(wù)匹配度比值。
35、進(jìn)一步地,在利用參數(shù)服務(wù)器將最慢節(jié)點(diǎn)中的樣本部分負(fù)載分發(fā)至最快節(jié)點(diǎn)的過程中,負(fù)載量決定節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間,其中,將節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間 t與負(fù)載量 f之間的關(guān)系表示為:
36、(8);
37、式中, t表示節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間, f表示負(fù)載量,表示完成時(shí)間與負(fù)載量之間的線性關(guān)系的斜率參數(shù),表示計(jì)算節(jié)點(diǎn)的完成時(shí)間的偏移量。
38、進(jìn)一步地,根據(jù)最快節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間和最慢節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間與最快節(jié)點(diǎn)的樣本負(fù)載和最慢節(jié)點(diǎn)的樣本負(fù)載,以最小化最快節(jié)點(diǎn)與最慢節(jié)點(diǎn)完成迭代的時(shí)間間隔為目標(biāo),其中,將優(yōu)化目標(biāo)表示為:
39、(9);
40、式中,表示完成時(shí)間與負(fù)載量之間的線性關(guān)系的斜率參數(shù),表示最快節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間,表示從最慢節(jié)點(diǎn)分配給最快節(jié)點(diǎn)的部分樣本負(fù)載量,表示計(jì)算節(jié)點(diǎn)的完成時(shí)間的偏移量,表示最慢節(jié)點(diǎn)迭代訓(xùn)練完成時(shí)間, min表示最小化。
41、與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果:
42、1.本發(fā)明提供的一種面向邊緣分布式訓(xùn)練的資源動(dòng)態(tài)分析與樣本負(fù)載調(diào)度優(yōu)化方法,在邊緣環(huán)境下開展,量化了異構(gòu)節(jié)點(diǎn)的算力資源。將計(jì)算節(jié)點(diǎn)的算力資源分為計(jì)算能力和存儲(chǔ)能力,通過運(yùn)行單一資源密集型負(fù)載集,使用算力資源利用率和任務(wù)執(zhí)行強(qiáng)度值,得出邊緣異構(gòu)的計(jì)算節(jié)點(diǎn)的算力資源性能評估值。
43、2.本發(fā)明將計(jì)算節(jié)點(diǎn)的算力資源,包括cpu性能、gpu性能、內(nèi)存性能和磁盤性能的性能評估值標(biāo)記在神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練任務(wù)的畸變雷達(dá)圖中,并計(jì)算計(jì)算節(jié)點(diǎn)的算力資源與任務(wù)匹配度來決定計(jì)算節(jié)點(diǎn)在模型訓(xùn)練任務(wù)中的樣本負(fù)載,提高了整體的模型訓(xùn)練效率。
44、3.本發(fā)明以最小化最快與最慢節(jié)點(diǎn)之間完成時(shí)間間隔為目標(biāo),構(gòu)建優(yōu)化問題并求解,獲得樣本負(fù)載分配優(yōu)化方案,縮短了最快與最慢節(jié)點(diǎn)間迭代完成時(shí)間間隔。
45、4.本發(fā)明通過引入節(jié)點(diǎn)資源的動(dòng)態(tài)評估方法,根據(jù)節(jié)點(diǎn)間性能評估差異分配樣本負(fù)載,并結(jié)合迭代時(shí)組間最快與最慢節(jié)點(diǎn)完成時(shí)間間隔,動(dòng)態(tài)調(diào)整節(jié)點(diǎn)間樣本負(fù)載,使得模型在邊緣異構(gòu)場景下能夠高效地進(jìn)行分布式訓(xùn)練,滿足了邊緣場景下進(jìn)行模型訓(xùn)練的需求。