1.一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:具體步驟如下:
2.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述步驟(1)中動(dòng)作空間的設(shè)計(jì)如下:
3.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述步驟(1)中獎(jiǎng)勵(lì)的設(shè)計(jì)如下:
4.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述決策模型的訓(xùn)練是從drl智能體出發(fā),結(jié)合dueling?dqn來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),以逼近最優(yōu)策略;其中,將drl智能體對(duì)訓(xùn)練函數(shù)優(yōu)化迭代過程中所挑選的歷史動(dòng)作作為訓(xùn)練數(shù)據(jù),訓(xùn)練函數(shù)來自基準(zhǔn)函數(shù),訓(xùn)練函數(shù)被收集到一個(gè)隊(duì)列中,在訓(xùn)練的每個(gè)階段,從隊(duì)列中選擇一個(gè)訓(xùn)練函數(shù)作為訓(xùn)練目標(biāo);每一個(gè)回合的訓(xùn)練按照輪詢調(diào)度模式循環(huán)地從訓(xùn)練函數(shù)隊(duì)列中進(jìn)行選擇,drl智能體根據(jù)步驟(2)中設(shè)計(jì)的狀態(tài)空間得到對(duì)woa環(huán)境的當(dāng)前狀態(tài),再根據(jù)訓(xùn)練經(jīng)驗(yàn),從步驟(1)中的動(dòng)作空間選擇某個(gè)動(dòng)作并執(zhí)行,接著根據(jù)步驟(1)中的woa環(huán)境設(shè)計(jì),從當(dāng)前狀態(tài)轉(zhuǎn)換到下一個(gè)新的狀態(tài),對(duì)于新的狀態(tài),woa環(huán)境按照步驟(1)中的獎(jiǎng)勵(lì)設(shè)計(jì)得到drl智能體此動(dòng)作的獎(jiǎng)勵(lì)反饋;重復(fù)訓(xùn)練,通過不斷地試錯(cuò)和交互,最終得到?jīng)Q策模型。
5.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述步驟(2)中狀態(tài)空間的設(shè)計(jì)如下:
6.根據(jù)權(quán)利要求5所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述歸一化種群多樣性指標(biāo)ndiv的設(shè)計(jì)如下:
7.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述步驟(2)具體如下:首先導(dǎo)入步驟(1)中訓(xùn)練好的決策模型,并完成相關(guān)參數(shù)的初始化,其中相關(guān)參數(shù)包括種群數(shù)量、問題規(guī)模維度、最大迭代步數(shù)、drl智能體中的超參數(shù)和woa中的超參數(shù);然后,根據(jù)設(shè)定的最大迭代次數(shù),構(gòu)造與woa環(huán)境相關(guān)的狀態(tài)空間,再通過決策模型來指導(dǎo)搜索代理從步驟(1)中的動(dòng)作空間中選擇最優(yōu)動(dòng)作對(duì)ris問題進(jìn)行迭代優(yōu)化,來更新解;最后,當(dāng)?shù)阉鹘K止時(shí),得到最佳解。