国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于深度強(qiáng)化學(xué)習(xí)的eMBB和URLLC業(yè)務(wù)資源分配方法及系統(tǒng)

      文檔序號(hào):40286006發(fā)布日期:2024-12-13 10:59閱讀:9來源:國知局
      基于深度強(qiáng)化學(xué)習(xí)的eMBB和URLLC業(yè)務(wù)資源分配方法及系統(tǒng)

      本發(fā)明屬于無線通信,特別是涉及一種5g網(wǎng)絡(luò)中基于深度強(qiáng)化學(xué)習(xí)的embb和urllc業(yè)務(wù)資源分配方法及系統(tǒng)。


      背景技術(shù):

      1、itu為5g定義了三大業(yè)務(wù)場(chǎng)景,分別是:增強(qiáng)移動(dòng)寬帶(embb)、超高可靠低時(shí)延(urllc)和海量機(jī)器類通信(mmtc)。mmtc支持海量物聯(lián)網(wǎng)設(shè)備的連接,滿足智能家居、智慧城市、工業(yè)自動(dòng)化等場(chǎng)景的需求。embb專注于提供高速率、大容量的無線寬帶服務(wù),適用于高清視頻、虛擬現(xiàn)實(shí)、云游戲等大流量應(yīng)用,滿足用戶對(duì)更快、更穩(wěn)定網(wǎng)絡(luò)的需求。urllc專注于提供極低的時(shí)延和高可靠性通信服務(wù),適用于無人駕駛、遠(yuǎn)程手術(shù)、工業(yè)控制等對(duì)時(shí)延和可靠性要求極高的應(yīng)用,確保關(guān)鍵任務(wù)型應(yīng)用的實(shí)時(shí)性和穩(wěn)定性。在5g網(wǎng)絡(luò)部署中,embb和urllc的共存是典型應(yīng)用場(chǎng)景,由于這兩種業(yè)務(wù)共存時(shí)存在頻譜資源競(jìng)爭(zhēng),因此需要采用合理的資源分配使能技術(shù)。

      2、現(xiàn)有技術(shù)中,對(duì)于embb和urllc共存場(chǎng)景下的資源分配,常采用資源打孔方法,即在urllc業(yè)務(wù)到達(dá)時(shí)對(duì)embb業(yè)務(wù)的資源進(jìn)行打孔,被打孔的資源用于傳輸urllc業(yè)務(wù)。關(guān)于embb和urllc的共存時(shí)的資源分配方法,早期的研究主要采用優(yōu)化理論構(gòu)建聯(lián)合資源分配優(yōu)化模型,近年來業(yè)界越來越多地采用構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,利用深度學(xué)習(xí)算法來求解。目前,在滿足可靠性、時(shí)延和速率要求的同時(shí),如何更有效地為embb和urllc業(yè)務(wù)動(dòng)態(tài)分配合適的資源,尚需深入研究,成為本領(lǐng)域需要重點(diǎn)解決的技術(shù)問題。


      技術(shù)實(shí)現(xiàn)思路

      1、為克服現(xiàn)有技術(shù)存在的上述局限性,本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的embb/urllc資源分配方法及系統(tǒng),本發(fā)明技術(shù)方案,首先分配embb業(yè)務(wù)的資源,然后在urllc業(yè)務(wù)到達(dá)后,對(duì)embb業(yè)務(wù)的資源進(jìn)行打孔。通過本發(fā)明提供的技術(shù)方案,可以更好地解決在5g網(wǎng)絡(luò)上urllc和embb的復(fù)用問題,實(shí)現(xiàn)資源的合理分配和業(yè)務(wù)的高效傳輸。

      2、本發(fā)明采用如下技術(shù)方案:

      3、基于深度強(qiáng)化學(xué)習(xí)的embb和urllc業(yè)務(wù)資源分配方法,具體步驟如下:

      4、步驟1、建立embb和urllc資源分配問題的馬爾可夫決策過程(markov?decisionprocess,mdp)。完成動(dòng)作空間、狀態(tài)空間、獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)。每個(gè)迷你時(shí)隙embb資源由基站分配,urllc資源通過本發(fā)明的資源分配方法確定,對(duì)于一個(gè)迷你時(shí)隙,在發(fā)送urllc數(shù)據(jù)包時(shí),對(duì)所占用的embb資源進(jìn)行打孔。

      5、步驟2、初始化模型參數(shù);

      6、步驟3、強(qiáng)化學(xué)習(xí)訓(xùn)練過程;

      7、步驟4、更新評(píng)估神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò);

      8、步驟5、輸出通過目標(biāo)神經(jīng)網(wǎng)絡(luò)優(yōu)化得到的embb/urllc分配結(jié)果。

      9、優(yōu)選的,步驟1中,馬爾可夫決策過程描述為由狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)組成的三元組;

      10、動(dòng)作空間的設(shè)計(jì):在迷你時(shí)隙t的可能動(dòng)作a(t)被收集在集合at={0,1,…,f}中,其中0表示urllc業(yè)務(wù)包無傳輸,其他情況下該動(dòng)作表示當(dāng)前迷你時(shí)隙傳輸urllc包的頻道索引;

      11、狀態(tài)空間的設(shè)計(jì):每個(gè)迷你時(shí)隙的狀態(tài)由表示,表示迷你時(shí)隙t的urllc業(yè)務(wù)的狀態(tài)變量,表示迷你時(shí)隙t的embb業(yè)務(wù)的狀態(tài)變量;其中,qt表示迷你時(shí)隙t中urllc隊(duì)列的長(zhǎng)度,qt≤qmax,qmax表示urllc隊(duì)列的最大長(zhǎng)度;表示urllc隊(duì)列能等待的最大迷你時(shí)隙個(gè)數(shù),lt表示迷你時(shí)隙t中urllc業(yè)務(wù)的當(dāng)前延時(shí)的迷你時(shí)隙個(gè)數(shù),若則當(dāng)前迷你時(shí)隙立即對(duì)到達(dá)的urllc數(shù)據(jù)包進(jìn)行發(fā)送;為f維向量,表示f個(gè)頻譜信道中的每一個(gè)變量st(f),f=1,2,…,f;st(f)表示頻譜信道f上傳輸?shù)膃mbb碼字是否中斷,st(f)=-1表示中斷,st(f)≥0表示非中斷;設(shè)pt(w)表示碼字w從集合開始時(shí)被打孔的次數(shù),c(w)表示碼字w允許打孔的最多迷你時(shí)隙個(gè)數(shù),則有st(f)=max(c(w)-pt(w),-1);

      12、獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì):對(duì)于碼字w,定義embb獎(jiǎng)勵(lì)函數(shù)et(w)如下:

      13、

      14、定義urllc獎(jiǎng)勵(lì)函數(shù)其中k0表示系統(tǒng)配置的違反urllc時(shí)延約束時(shí)的懲罰閾值;因此,在迷你時(shí)隙t上,當(dāng)前狀態(tài)為s,當(dāng)前動(dòng)作為a,下一狀態(tài)為s'的當(dāng)前獎(jiǎng)勵(lì)函數(shù)表示為:

      15、

      16、優(yōu)化目標(biāo)是找到最優(yōu)策略π以最大化累計(jì)獎(jiǎng)勵(lì),即最大化策略π的累積獎(jiǎng)勵(lì)函數(shù):

      17、

      18、其中,eπ表示在策略π上取數(shù)學(xué)期望;

      19、引入包含具有不同神經(jīng)網(wǎng)絡(luò)參數(shù)θ和θ'的相同結(jié)構(gòu)的兩個(gè)神經(jīng)網(wǎng)絡(luò),分別作為評(píng)估神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò);通過(3)式在狀態(tài)s執(zhí)行動(dòng)作a,下一狀態(tài)轉(zhuǎn)移為s'的近似q值為:

      20、

      21、其中,γ為遺忘因子,配置為大于0小于1的常數(shù);上式中,s為st的簡(jiǎn)寫,s'為st+1的簡(jiǎn)寫,a為a(t)的簡(jiǎn)寫;用s表示當(dāng)前狀態(tài),s'表示下一狀態(tài),a表示當(dāng)前動(dòng)作。

      22、優(yōu)選的,步驟2中,初始化的參數(shù)包括:迷你時(shí)隙的最大個(gè)數(shù)t,頻道個(gè)數(shù)f,迷你時(shí)隙t中傳輸?shù)乃衑mbb碼字的集合wt,urllc隊(duì)列的最大長(zhǎng)度qmax,urllc隊(duì)列能等待的最大迷你時(shí)隙個(gè)數(shù)神經(jīng)網(wǎng)絡(luò)參數(shù)θ和θ',經(jīng)驗(yàn)緩沖區(qū)大小g,批量訓(xùn)練數(shù)據(jù)集大小gb,最大迭代次數(shù)smax,初始狀態(tài)s。

      23、優(yōu)選的,步驟3具體如下:初始化環(huán)境并接收初始狀態(tài)s,并置終止標(biāo)志d=0;然后,從評(píng)估神經(jīng)網(wǎng)絡(luò)中獲得資源分配的動(dòng)作,在當(dāng)前狀態(tài)s下采取動(dòng)作a能獲得獎(jiǎng)勵(lì)r,下一狀態(tài)為s',結(jié)合每個(gè)迷你時(shí)隙的獎(jiǎng)勵(lì)獲得累積獎(jiǎng)勵(lì),后將(s,a,r,s')存儲(chǔ)在經(jīng)驗(yàn)緩沖區(qū)中;判斷所有urllc數(shù)據(jù)包隊(duì)列中的數(shù)據(jù)是否都完成傳輸,若所有urllc數(shù)據(jù)包隊(duì)列中的數(shù)據(jù)都完成傳輸,設(shè)置終止標(biāo)志d=1,反之,未完成所有urllc數(shù)據(jù)包隊(duì)列中的數(shù)據(jù)傳輸時(shí),返回執(zhí)行從評(píng)估神經(jīng)網(wǎng)絡(luò)中獲得資源分配的動(dòng)作;判斷是否達(dá)到最大迭代次數(shù),若未達(dá)到最大迭代次數(shù),則進(jìn)入下一次迭代,若達(dá)到最大迭代次數(shù),則結(jié)束。

      24、優(yōu)選的,步驟4具體如下:當(dāng)緩沖區(qū)樣本數(shù)量達(dá)到閾值時(shí),啟動(dòng)評(píng)估神經(jīng)網(wǎng)絡(luò)的更新;從經(jīng)驗(yàn)緩沖區(qū)中隨機(jī)取出部分?jǐn)?shù)據(jù),通過梯度下降法最小化損失函數(shù)來訓(xùn)練評(píng)估神經(jīng)網(wǎng)絡(luò)參數(shù)θ,并在得到最大迭代次數(shù)smax后通過硬拷貝評(píng)估神經(jīng)網(wǎng)絡(luò)參數(shù)θ的方式更新目標(biāo)神經(jīng)網(wǎng)絡(luò)參數(shù)θ'。

      25、優(yōu)選的,在步驟4中,損失函數(shù)定義為:

      26、l(θ)=||y(s,a,s')-q(s,a;θ)||2????????????????????????(5)

      27、其中,||·||表示歐式距離,q(s,a;θ)表示利用參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)對(duì)(4)式的q函數(shù)的估計(jì),

      28、

      29、本發(fā)明還公開了一種基于深度強(qiáng)化學(xué)習(xí)的embb和urllc業(yè)務(wù)資源分配系統(tǒng),用于執(zhí)行上述方法,包括如下模塊:

      30、mdp建立模塊:建立embb和urllc資源分配的馬爾可夫決策過程;

      31、初始化模塊:進(jìn)行初始化參數(shù);

      32、強(qiáng)化學(xué)習(xí)模塊:進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練;

      33、網(wǎng)絡(luò)更新模塊:更新評(píng)估神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò);

      34、結(jié)果輸出模塊:輸出通過目標(biāo)神經(jīng)網(wǎng)絡(luò)優(yōu)化得到的embb/urllc業(yè)務(wù)資源分配結(jié)果。

      35、本發(fā)明提供的技術(shù)方案,可以更好地解決5g網(wǎng)絡(luò)中embb和urllc的復(fù)用問題,滿足urllc業(yè)務(wù)的嚴(yán)格時(shí)延和高可靠性要求,同時(shí)最大化embb業(yè)務(wù)的數(shù)據(jù)傳輸速率,從而實(shí)現(xiàn)業(yè)務(wù)的高效傳輸和資源的合理分配。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1