国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于李雅普諾夫和深度強(qiáng)化學(xué)習(xí)的任務(wù)卸載方法

      文檔序號:39616058發(fā)布日期:2024-10-11 13:27閱讀:15來源:國知局
      一種基于李雅普諾夫和深度強(qiáng)化學(xué)習(xí)的任務(wù)卸載方法

      本發(fā)明屬于移動邊緣計(jì)算,具體涉及一種基于李雅普諾夫和深度強(qiáng)化學(xué)習(xí)的計(jì)算卸載方法。


      背景技術(shù):

      1、智能移動設(shè)備的日益普及正在推動移動應(yīng)用程序的開發(fā),這些應(yīng)用程序可能是計(jì)算密集型的,例如交互式在線游戲、人臉識別和3d建模。這對計(jì)算體驗(yàn)的質(zhì)量提出了更嚴(yán)格的要求,而移動設(shè)備有限的處理能力很難輕易滿足這一要求。因此,出現(xiàn)了新的解決方案來處理爆炸性的計(jì)算需求和不斷增長的計(jì)算質(zhì)量要求。移動邊緣計(jì)算(mec)是一種很有前途的技術(shù),可以緩解計(jì)算密集型應(yīng)用和資源受限的移動設(shè)備之間的緊張關(guān)系。與使用遠(yuǎn)程公共云的傳統(tǒng)云計(jì)算系統(tǒng)不同,mec在無線電接入網(wǎng)絡(luò)中提供計(jì)算能力。因此,通過將計(jì)算任務(wù)從移動設(shè)備卸載到mec服務(wù)器,可以極大地提高計(jì)算體驗(yàn)的質(zhì)量,包括設(shè)備的能耗和執(zhí)行延遲。

      2、現(xiàn)有研究工作以優(yōu)化時延、能耗等為目標(biāo),采用深度強(qiáng)化學(xué)習(xí)方法,開展了大量研究工作。在此基礎(chǔ)上,通過將時延與能耗的加權(quán)和定義為系統(tǒng)開銷,并加以優(yōu)化,可以根據(jù)物聯(lián)網(wǎng)應(yīng)用的要求動態(tài)優(yōu)化時延和能耗指標(biāo)。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明的目的在于提供一種基于李雅普諾夫和多智能體任務(wù)卸載方法及系統(tǒng),以解決性能優(yōu)化的問題。

      2、為了達(dá)到上述目的,本發(fā)明的基礎(chǔ)方案為:

      3、本發(fā)明提出的基于李雅普諾夫優(yōu)化和深度強(qiáng)化學(xué)習(xí)的計(jì)算卸載方法,應(yīng)用于移動邊緣計(jì)算任務(wù)卸載系統(tǒng),移動邊緣計(jì)算任務(wù)卸載系統(tǒng)包括n個移動終端和移動邊緣計(jì)算服務(wù)器,包括:

      4、分別建立本地計(jì)算模型和邊緣計(jì)算模型,根據(jù)分析的時延和能耗的特性,構(gòu)建了一個以最小化任務(wù)能耗和時延的加權(quán)和為目標(biāo)的長期系統(tǒng)優(yōu)化問題;

      5、通過引入能量隊(duì)列和李雅普諾夫函數(shù),保證系統(tǒng)穩(wěn)定性的同時最小化能耗和時延;

      6、基于李雅普諾夫優(yōu)化理論將原問題解耦為獨(dú)立時隙策略優(yōu)化問題,以保證系統(tǒng)的穩(wěn)定性;

      7、將上述子問題進(jìn)一步劃分為任務(wù)卸載比例、cpu周期頻率以及傳輸功率問題;

      8、在各時隙內(nèi),進(jìn)行求解,以確定最優(yōu)的任務(wù)卸載比例、cpu周期頻率以及傳輸功率;

      9、應(yīng)用深度強(qiáng)化學(xué)習(xí),采用無模型的多智能體深度強(qiáng)化學(xué)習(xí)(madrl),并提出學(xué)習(xí)最優(yōu)解決方案;

      10、我們采用雙層競爭深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為基礎(chǔ),即每個智能體由兩個actor-critic(ac)網(wǎng)絡(luò)組成,評估ac和目標(biāo)ac。其中actor用于生成動作,而critic用于引導(dǎo)actor生成更好的動作。

      11、初始化計(jì)算網(wǎng)絡(luò)、優(yōu)先級經(jīng)驗(yàn)回放緩存池、邊緣計(jì)算系統(tǒng)環(huán)境,并接收邊緣計(jì)算系統(tǒng)環(huán)境的初始狀態(tài);

      12、每個移動終端wd作為一個智能體學(xué)習(xí)其任務(wù)遷移決策、任務(wù)遷移比例與傳輸功率。因此,n個wd組成智能體集合n={1,...,n}。

      13、狀態(tài)空間描述任務(wù)的運(yùn)行狀態(tài)以及邊緣端計(jì)算和通信資源。在每一個決策時刻t,狀態(tài)si(t)由數(shù)據(jù)大小、計(jì)算資源需求、信道功率增益以及能量隊(duì)列積壓組成,即:

      14、si(t)={di(t),ci(t),hi(t),qi(t)}

      15、動作空間展示了所有智能體的策略。在每一個決策時刻t,根據(jù)整個狀態(tài)和(p2)問題中的約束執(zhí)行動作ai(t)。動作ai(t)由任務(wù)遷移比例、cpu周期頻率與傳輸功率組成,定義為:

      16、

      17、獎勵表示在給定狀態(tài)下采取動作時獲得的獎勵或懲罰。對于n個終端設(shè)備與環(huán)境互動并根據(jù)狀態(tài)和策略協(xié)同合作,以獲得各自的獎勵ri(t),具體來說,在每一個決策時刻t,在狀態(tài)si(t)下執(zhí)行動作ai(t),獲得獎勵ri(t)并轉(zhuǎn)移到下一個狀態(tài)si(t+1);

      18、根據(jù)目標(biāo)函數(shù)p2,在時隙t內(nèi),第i個終端設(shè)備的獎勵ri(t)定義為:

      19、

      20、基于此,所有終端設(shè)備獲得的獎勵之和計(jì)算為:

      21、累積獎勵可計(jì)算為給定時長t內(nèi)所有終端設(shè)備得到的獎勵之和,即:

      22、

      23、其中,γ為折扣系數(shù),表示歷史獎勵對當(dāng)前獎勵的影響;

      24、在算法訓(xùn)練過程中,加入經(jīng)驗(yàn)回放機(jī)制,構(gòu)建一個經(jīng)驗(yàn)池來存儲智能體與環(huán)境交互獲得的經(jīng)驗(yàn),設(shè)置經(jīng)驗(yàn)池中可以存儲的樣本數(shù)量,即當(dāng)前狀態(tài)、動作、獎勵與下一時隙狀態(tài),其中經(jīng)驗(yàn)池大小為c。

      25、重復(fù)訓(xùn)練過程,直到達(dá)到經(jīng)驗(yàn)池上限,然后從經(jīng)驗(yàn)池中隨機(jī)采樣一批次經(jīng)驗(yàn)數(shù)據(jù)(s,a,r,s')來更新神經(jīng)網(wǎng)絡(luò)。



      技術(shù)特征:

      1.一種基于李雅普諾夫優(yōu)化和深度強(qiáng)化學(xué)習(xí)的邊緣計(jì)算任務(wù)卸載方法,應(yīng)用于移動邊緣計(jì)算任務(wù)卸載,其特征在于,包括以下步驟:

      2.根據(jù)權(quán)利要求1所述的計(jì)算卸載方法,其特征在于,以移動邊緣計(jì)算任務(wù)卸載系統(tǒng)的總時延、總消耗能耗的加權(quán)和為系統(tǒng)開銷,建立優(yōu)化模型如下:

      3.根據(jù)權(quán)利要求1所述的一種基于李雅普諾夫優(yōu)化理論的任務(wù)卸載優(yōu)化方法,其特征在于,通過最小化李雅普諾夫漂移加懲罰項(xiàng)之和求出新的優(yōu)化方程:

      4.根據(jù)權(quán)利要求3所述的一種基于李雅普諾夫漂移函數(shù)的動態(tài)任務(wù)卸載方法,其特征在于,構(gòu)建的不等式方程表

      5.根據(jù)權(quán)利要求1所述的基于多智能體深度強(qiáng)化學(xué)習(xí)任務(wù)卸載方法,其特征在于,對問題(p2)進(jìn)行建模并基于drl算法進(jìn)行求解:

      6.根據(jù)權(quán)利要求1所述的通過經(jīng)驗(yàn)回放機(jī)制和梯度下降算法,我們采用雙層競爭深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為基礎(chǔ),即每個智能體由兩個actor-critic(ac)網(wǎng)絡(luò)組成,評估ac和目標(biāo)ac。其中actor用于生成動作,而critic用于引導(dǎo)actor生成更好的動作。在算法訓(xùn)練過程中,加入經(jīng)驗(yàn)回放機(jī)制,構(gòu)建一個經(jīng)驗(yàn)池來存儲智能體與環(huán)境交互獲得的經(jīng)驗(yàn),設(shè)置經(jīng)驗(yàn)池中可以存儲的樣本數(shù)量,即當(dāng)前狀態(tài)、動作、獎勵與下一時隙狀態(tài),其中經(jīng)驗(yàn)池大小為c。重復(fù)訓(xùn)練過程,直到達(dá)到經(jīng)驗(yàn)池上限,然后從經(jīng)驗(yàn)池中隨機(jī)采樣一批次經(jīng)驗(yàn)數(shù)據(jù)(s,a,r,s')來更新神經(jīng)網(wǎng)絡(luò)。


      技術(shù)總結(jié)
      本發(fā)明涉及了多移動設(shè)備和單個邊緣服務(wù)器之間的端邊協(xié)同任務(wù)處理系統(tǒng)。移動設(shè)備通過無線信道卸載計(jì)算密集型任務(wù)到邊緣服務(wù)器,可以選擇在本地計(jì)算和邊緣計(jì)算兩種模式,并且構(gòu)建了一個以最小化任務(wù)能耗和時延的加權(quán)和為目標(biāo)的長期系統(tǒng)優(yōu)化問題。我們通過引入虛擬能量隊(duì)列和李雅普諾夫函數(shù),保證系統(tǒng)穩(wěn)定性的同時最小化能耗和時延。引入多智能體深度強(qiáng)化學(xué)習(xí)方法,利用雙層競爭深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行任務(wù)遷移比例、CPU周期頻率與傳輸功率的優(yōu)化。算法通過經(jīng)驗(yàn)回放機(jī)制和梯度下降算法訓(xùn)練智能體的actor和critic網(wǎng)絡(luò),實(shí)現(xiàn)各終端設(shè)備在動態(tài)環(huán)境中的最優(yōu)策略學(xué)習(xí)。與現(xiàn)有技術(shù)相比,本發(fā)明能夠有效降低任務(wù)處理時延和能耗,保證系統(tǒng)穩(wěn)定性。

      技術(shù)研發(fā)人員:趙夢迪,羅智勇,孫哲
      受保護(hù)的技術(shù)使用者:哈爾濱理工大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1