国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法

      文檔序號(hào):40403500發(fā)布日期:2024-12-20 12:27閱讀:來源:國知局

      技術(shù)特征:

      1.一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:具體步驟如下:

      2.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述步驟(1)中動(dòng)作空間的設(shè)計(jì)如下:

      3.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述步驟(1)中獎(jiǎng)勵(lì)的設(shè)計(jì)如下:

      4.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述決策模型的訓(xùn)練是從drl智能體出發(fā),結(jié)合dueling?dqn來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),以逼近最優(yōu)策略;其中,將drl智能體對(duì)訓(xùn)練函數(shù)優(yōu)化迭代過程中所挑選的歷史動(dòng)作作為訓(xùn)練數(shù)據(jù),訓(xùn)練函數(shù)來自基準(zhǔn)函數(shù),訓(xùn)練函數(shù)被收集到一個(gè)隊(duì)列中,在訓(xùn)練的每個(gè)階段,從隊(duì)列中選擇一個(gè)訓(xùn)練函數(shù)作為訓(xùn)練目標(biāo);每一個(gè)回合的訓(xùn)練按照輪詢調(diào)度模式循環(huán)地從訓(xùn)練函數(shù)隊(duì)列中進(jìn)行選擇,drl智能體根據(jù)步驟(2)中設(shè)計(jì)的狀態(tài)空間得到對(duì)woa環(huán)境的當(dāng)前狀態(tài),再根據(jù)訓(xùn)練經(jīng)驗(yàn),從步驟(1)中的動(dòng)作空間選擇某個(gè)動(dòng)作并執(zhí)行,接著根據(jù)步驟(1)中的woa環(huán)境設(shè)計(jì),從當(dāng)前狀態(tài)轉(zhuǎn)換到下一個(gè)新的狀態(tài),對(duì)于新的狀態(tài),woa環(huán)境按照步驟(1)中的獎(jiǎng)勵(lì)設(shè)計(jì)得到drl智能體此動(dòng)作的獎(jiǎng)勵(lì)反饋;重復(fù)訓(xùn)練,通過不斷地試錯(cuò)和交互,最終得到?jīng)Q策模型。

      5.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述步驟(2)中狀態(tài)空間的設(shè)計(jì)如下:

      6.根據(jù)權(quán)利要求5所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述歸一化種群多樣性指標(biāo)ndiv的設(shè)計(jì)如下:

      7.根據(jù)權(quán)利要求1所述一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,其特征在于:所述步驟(2)具體如下:首先導(dǎo)入步驟(1)中訓(xùn)練好的決策模型,并完成相關(guān)參數(shù)的初始化,其中相關(guān)參數(shù)包括種群數(shù)量、問題規(guī)模維度、最大迭代步數(shù)、drl智能體中的超參數(shù)和woa中的超參數(shù);然后,根據(jù)設(shè)定的最大迭代次數(shù),構(gòu)造與woa環(huán)境相關(guān)的狀態(tài)空間,再通過決策模型來指導(dǎo)搜索代理從步驟(1)中的動(dòng)作空間中選擇最優(yōu)動(dòng)作對(duì)ris問題進(jìn)行迭代優(yōu)化,來更新解;最后,當(dāng)?shù)阉鹘K止時(shí),得到最佳解。


      技術(shù)總結(jié)
      本發(fā)明公開了一種工業(yè)操作系統(tǒng)資源實(shí)例調(diào)度最優(yōu)化方法,首先結(jié)合DRL算法,從歷史數(shù)據(jù)中學(xué)習(xí)在WOA搜索過程中有關(guān)探索和開發(fā)的經(jīng)驗(yàn),并訓(xùn)練一個(gè)最優(yōu)的決策模型;隨后,利用訓(xùn)練好的模型,搜索代理能夠在每次迭代中實(shí)現(xiàn)最佳的動(dòng)作選擇,可有效引導(dǎo)搜索代理在全局探索和局部開發(fā)之間實(shí)現(xiàn)更好的平衡,提高其收斂速度和求解質(zhì)量,最終得到RIS問題的最優(yōu)解。

      技術(shù)研發(fā)人員:舒挺,潘志杰
      受保護(hù)的技術(shù)使用者:浙江理工大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      當(dāng)前第2頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1