一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法

文檔序號(hào)：40403500發(fā)布日期：2024-12-20 12:27閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法

技術(shù)特征：

1.一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：具體步驟如下：

2.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述步驟(1)中動(dòng)作空間的設(shè)計(jì)如下：

3.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述步驟(1)中獎(jiǎng)勵(lì)的設(shè)計(jì)如下：

4.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述決策模型的訓(xùn)練是從drl智能體出發(fā)，結(jié)合dueling?dqn來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，以逼近最優(yōu)策略；其中，將drl智能體對(duì)訓(xùn)練函數(shù)優(yōu)化迭代過程中所挑選的歷史動(dòng)作作為訓(xùn)練數(shù)據(jù)，訓(xùn)練函數(shù)來自基準(zhǔn)函數(shù)，訓(xùn)練函數(shù)被收集到一個(gè)隊(duì)列中，在訓(xùn)練的每個(gè)階段，從隊(duì)列中選擇一個(gè)訓(xùn)練函數(shù)作為訓(xùn)練目標(biāo)；每一個(gè)回合的訓(xùn)練按照輪詢調(diào)度模式循環(huán)地從訓(xùn)練函數(shù)隊(duì)列中進(jìn)行選擇，drl智能體根據(jù)步驟(2)中設(shè)計(jì)的狀態(tài)空間得到對(duì)woa環(huán)境的當(dāng)前狀態(tài)，再根據(jù)訓(xùn)練經(jīng)驗(yàn)，從步驟(1)中的動(dòng)作空間選擇某個(gè)動(dòng)作并執(zhí)行，接著根據(jù)步驟(1)中的woa環(huán)境設(shè)計(jì)，從當(dāng)前狀態(tài)轉(zhuǎn)換到下一個(gè)新的狀態(tài)，對(duì)于新的狀態(tài)，woa環(huán)境按照步驟(1)中的獎(jiǎng)勵(lì)設(shè)計(jì)得到drl智能體此動(dòng)作的獎(jiǎng)勵(lì)反饋；重復(fù)訓(xùn)練，通過不斷地試錯(cuò)和交互，最終得到?jīng)Q策模型。

5.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述步驟(2)中狀態(tài)空間的設(shè)計(jì)如下：

6.根據(jù)權(quán)利要求5所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述歸一化種群多樣性指標(biāo)ndiv的設(shè)計(jì)如下：

7.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，其特征在于：所述步驟(2)具體如下：首先導(dǎo)入步驟(1)中訓(xùn)練好的決策模型，并完成相關(guān)參數(shù)的初始化，其中相關(guān)參數(shù)包括種群數(shù)量、問題規(guī)模維度、最大迭代步數(shù)、drl智能體中的超參數(shù)和woa中的超參數(shù)；然后，根據(jù)設(shè)定的最大迭代次數(shù)，構(gòu)造與woa環(huán)境相關(guān)的狀態(tài)空間，再通過決策模型來指導(dǎo)搜索代理從步驟(1)中的動(dòng)作空間中選擇最優(yōu)動(dòng)作對(duì)ris問題進(jìn)行迭代優(yōu)化，來更新解；最后，當(dāng)?shù)阉鹘K止時(shí)，得到最佳解。

技術(shù)總結(jié)
本發(fā)明公開了一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法，首先結(jié)合DRL算法，從歷史數(shù)據(jù)中學(xué)習(xí)在WOA搜索過程中有關(guān)探索和開發(fā)的經(jīng)驗(yàn)，并訓(xùn)練一個(gè)最優(yōu)的決策模型；隨后，利用訓(xùn)練好的模型，搜索代理能夠在每次迭代中實(shí)現(xiàn)最佳的動(dòng)作選擇，可有效引導(dǎo)搜索代理在全局探索和局部開發(fā)之間實(shí)現(xiàn)更好的平衡，提高其收斂速度和求解質(zhì)量，最終得到RIS問題的最優(yōu)解。

技術(shù)研發(fā)人員：舒挺,潘志杰
受保護(hù)的技術(shù)使用者：浙江理工大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法