基于深度強(qiáng)化學(xué)習(xí)的eMBB和URLLC業(yè)務(wù)資源分配方法及系統(tǒng)

文檔序號(hào)：40286006發(fā)布日期：2024-12-13 10:59閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于無線通信，特別是涉及一種5g網(wǎng)絡(luò)中基于深度強(qiáng)化學(xué)習(xí)的embb和urllc業(yè)務(wù)資源分配方法及系統(tǒng)。

背景技術(shù)：

1、itu為5g定義了三大業(yè)務(wù)場(chǎng)景，分別是：增強(qiáng)移動(dòng)寬帶(embb)、超高可靠低時(shí)延(urllc)和海量機(jī)器類通信(mmtc)。mmtc支持海量物聯(lián)網(wǎng)設(shè)備的連接，滿足智能家居、智慧城市、工業(yè)自動(dòng)化等場(chǎng)景的需求。embb專注于提供高速率、大容量的無線寬帶服務(wù)，適用于高清視頻、虛擬現(xiàn)實(shí)、云游戲等大流量應(yīng)用，滿足用戶對(duì)更快、更穩(wěn)定網(wǎng)絡(luò)的需求。urllc專注于提供極低的時(shí)延和高可靠性通信服務(wù)，適用于無人駕駛、遠(yuǎn)程手術(shù)、工業(yè)控制等對(duì)時(shí)延和可靠性要求極高的應(yīng)用，確保關(guān)鍵任務(wù)型應(yīng)用的實(shí)時(shí)性和穩(wěn)定性。在5g網(wǎng)絡(luò)部署中，embb和urllc的共存是典型應(yīng)用場(chǎng)景，由于這兩種業(yè)務(wù)共存時(shí)存在頻譜資源競(jìng)爭(zhēng)，因此需要采用合理的資源分配使能技術(shù)。

2、現(xiàn)有技術(shù)中，對(duì)于embb和urllc共存場(chǎng)景下的資源分配，常采用資源打孔方法，即在urllc業(yè)務(wù)到達(dá)時(shí)對(duì)embb業(yè)務(wù)的資源進(jìn)行打孔，被打孔的資源用于傳輸urllc業(yè)務(wù)。關(guān)于embb和urllc的共存時(shí)的資源分配方法，早期的研究主要采用優(yōu)化理論構(gòu)建聯(lián)合資源分配優(yōu)化模型，近年來業(yè)界越來越多地采用構(gòu)建神經(jīng)網(wǎng)絡(luò)模型，利用深度學(xué)習(xí)算法來求解。目前，在滿足可靠性、時(shí)延和速率要求的同時(shí)，如何更有效地為embb和urllc業(yè)務(wù)動(dòng)態(tài)分配合適的資源，尚需深入研究，成為本領(lǐng)域需要重點(diǎn)解決的技術(shù)問題。

技術(shù)實(shí)現(xiàn)思路

1、為克服現(xiàn)有技術(shù)存在的上述局限性，本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的embb/urllc資源分配方法及系統(tǒng)，本發(fā)明技術(shù)方案，首先分配embb業(yè)務(wù)的資源，然后在urllc業(yè)務(wù)到達(dá)后，對(duì)embb業(yè)務(wù)的資源進(jìn)行打孔。通過本發(fā)明提供的技術(shù)方案，可以更好地解決在5g網(wǎng)絡(luò)上urllc和embb的復(fù)用問題，實(shí)現(xiàn)資源的合理分配和業(yè)務(wù)的高效傳輸。

2、本發(fā)明采用如下技術(shù)方案：

3、基于深度強(qiáng)化學(xué)習(xí)的embb和urllc業(yè)務(wù)資源分配方法，具體步驟如下：

4、步驟1、建立embb和urllc資源分配問題的馬爾可夫決策過程(markov?decisionprocess，mdp)。完成動(dòng)作空間、狀態(tài)空間、獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)。每個(gè)迷你時(shí)隙embb資源由基站分配，urllc資源通過本發(fā)明的資源分配方法確定，對(duì)于一個(gè)迷你時(shí)隙，在發(fā)送urllc數(shù)據(jù)包時(shí)，對(duì)所占用的embb資源進(jìn)行打孔。

5、步驟2、初始化模型參數(shù)；

6、步驟3、強(qiáng)化學(xué)習(xí)訓(xùn)練過程；

7、步驟4、更新評(píng)估神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò)；

8、步驟5、輸出通過目標(biāo)神經(jīng)網(wǎng)絡(luò)優(yōu)化得到的embb/urllc分配結(jié)果。

9、優(yōu)選的，步驟1中，馬爾可夫決策過程描述為由狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)組成的三元組；

10、動(dòng)作空間的設(shè)計(jì)：在迷你時(shí)隙t的可能動(dòng)作a(t)被收集在集合at＝{0,1,…,f}中，其中0表示urllc業(yè)務(wù)包無傳輸，其他情況下該動(dòng)作表示當(dāng)前迷你時(shí)隙傳輸urllc包的頻道索引；

11、狀態(tài)空間的設(shè)計(jì)：每個(gè)迷你時(shí)隙的狀態(tài)由表示，表示迷你時(shí)隙t的urllc業(yè)務(wù)的狀態(tài)變量，表示迷你時(shí)隙t的embb業(yè)務(wù)的狀態(tài)變量；其中，qt表示迷你時(shí)隙t中urllc隊(duì)列的長(zhǎng)度，qt≤qmax，qmax表示urllc隊(duì)列的最大長(zhǎng)度；表示urllc隊(duì)列能等待的最大迷你時(shí)隙個(gè)數(shù)，lt表示迷你時(shí)隙t中urllc業(yè)務(wù)的當(dāng)前延時(shí)的迷你時(shí)隙個(gè)數(shù)，若則當(dāng)前迷你時(shí)隙立即對(duì)到達(dá)的urllc數(shù)據(jù)包進(jìn)行發(fā)送；為f維向量，表示f個(gè)頻譜信道中的每一個(gè)變量st(f)，f＝1,2,…,f；st(f)表示頻譜信道f上傳輸?shù)膃mbb碼字是否中斷，st(f)＝-1表示中斷，st(f)≥0表示非中斷；設(shè)pt(w)表示碼字w從集合開始時(shí)被打孔的次數(shù)，c(w)表示碼字w允許打孔的最多迷你時(shí)隙個(gè)數(shù)，則有st(f)＝max(c(w)-pt(w),-1)；

12、獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)：對(duì)于碼字w，定義embb獎(jiǎng)勵(lì)函數(shù)et(w)如下：

13、

14、定義urllc獎(jiǎng)勵(lì)函數(shù)其中k0表示系統(tǒng)配置的違反urllc時(shí)延約束時(shí)的懲罰閾值；因此，在迷你時(shí)隙t上，當(dāng)前狀態(tài)為s，當(dāng)前動(dòng)作為a，下一狀態(tài)為s'的當(dāng)前獎(jiǎng)勵(lì)函數(shù)表示為：

15、

16、優(yōu)化目標(biāo)是找到最優(yōu)策略π以最大化累計(jì)獎(jiǎng)勵(lì)，即最大化策略π的累積獎(jiǎng)勵(lì)函數(shù)：

17、

18、其中，eπ表示在策略π上取數(shù)學(xué)期望；

19、引入包含具有不同神經(jīng)網(wǎng)絡(luò)參數(shù)θ和θ'的相同結(jié)構(gòu)的兩個(gè)神經(jīng)網(wǎng)絡(luò)，分別作為評(píng)估神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò)；通過(3)式在狀態(tài)s執(zhí)行動(dòng)作a，下一狀態(tài)轉(zhuǎn)移為s'的近似q值為：

20、

21、其中，γ為遺忘因子，配置為大于0小于1的常數(shù)；上式中，s為st的簡(jiǎn)寫，s'為st+1的簡(jiǎn)寫，a為a(t)的簡(jiǎn)寫；用s表示當(dāng)前狀態(tài)，s'表示下一狀態(tài)，a表示當(dāng)前動(dòng)作。

22、優(yōu)選的，步驟2中，初始化的參數(shù)包括：迷你時(shí)隙的最大個(gè)數(shù)t，頻道個(gè)數(shù)f，迷你時(shí)隙t中傳輸?shù)乃衑mbb碼字的集合wt，urllc隊(duì)列的最大長(zhǎng)度qmax，urllc隊(duì)列能等待的最大迷你時(shí)隙個(gè)數(shù)神經(jīng)網(wǎng)絡(luò)參數(shù)θ和θ'，經(jīng)驗(yàn)緩沖區(qū)大小g，批量訓(xùn)練數(shù)據(jù)集大小gb，最大迭代次數(shù)smax，初始狀態(tài)s。

23、優(yōu)選的，步驟3具體如下：初始化環(huán)境并接收初始狀態(tài)s，并置終止標(biāo)志d＝0；然后，從評(píng)估神經(jīng)網(wǎng)絡(luò)中獲得資源分配的動(dòng)作，在當(dāng)前狀態(tài)s下采取動(dòng)作a能獲得獎(jiǎng)勵(lì)r，下一狀態(tài)為s'，結(jié)合每個(gè)迷你時(shí)隙的獎(jiǎng)勵(lì)獲得累積獎(jiǎng)勵(lì)，后將(s,a,r,s')存儲(chǔ)在經(jīng)驗(yàn)緩沖區(qū)中；判斷所有urllc數(shù)據(jù)包隊(duì)列中的數(shù)據(jù)是否都完成傳輸，若所有urllc數(shù)據(jù)包隊(duì)列中的數(shù)據(jù)都完成傳輸，設(shè)置終止標(biāo)志d＝1，反之，未完成所有urllc數(shù)據(jù)包隊(duì)列中的數(shù)據(jù)傳輸時(shí)，返回執(zhí)行從評(píng)估神經(jīng)網(wǎng)絡(luò)中獲得資源分配的動(dòng)作；判斷是否達(dá)到最大迭代次數(shù)，若未達(dá)到最大迭代次數(shù)，則進(jìn)入下一次迭代，若達(dá)到最大迭代次數(shù)，則結(jié)束。

24、優(yōu)選的，步驟4具體如下：當(dāng)緩沖區(qū)樣本數(shù)量達(dá)到閾值時(shí)，啟動(dòng)評(píng)估神經(jīng)網(wǎng)絡(luò)的更新；從經(jīng)驗(yàn)緩沖區(qū)中隨機(jī)取出部分?jǐn)?shù)據(jù)，通過梯度下降法最小化損失函數(shù)來訓(xùn)練評(píng)估神經(jīng)網(wǎng)絡(luò)參數(shù)θ，并在得到最大迭代次數(shù)smax后通過硬拷貝評(píng)估神經(jīng)網(wǎng)絡(luò)參數(shù)θ的方式更新目標(biāo)神經(jīng)網(wǎng)絡(luò)參數(shù)θ'。

25、優(yōu)選的，在步驟4中，損失函數(shù)定義為：

26、l(θ)＝||y(s,a,s')-q(s,a；θ)||2????????????????????????(5)

27、其中，||·||表示歐式距離，q(s,a；θ)表示利用參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)對(duì)(4)式的q函數(shù)的估計(jì)，

28、

29、本發(fā)明還公開了一種基于深度強(qiáng)化學(xué)習(xí)的embb和urllc業(yè)務(wù)資源分配系統(tǒng)，用于執(zhí)行上述方法，包括如下模塊：

30、mdp建立模塊：建立embb和urllc資源分配的馬爾可夫決策過程；

31、初始化模塊：進(jìn)行初始化參數(shù)；

32、強(qiáng)化學(xué)習(xí)模塊：進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練；

33、網(wǎng)絡(luò)更新模塊：更新評(píng)估神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò)；

34、結(jié)果輸出模塊：輸出通過目標(biāo)神經(jīng)網(wǎng)絡(luò)優(yōu)化得到的embb/urllc業(yè)務(wù)資源分配結(jié)果。

35、本發(fā)明提供的技術(shù)方案，可以更好地解決5g網(wǎng)絡(luò)中embb和urllc的復(fù)用問題，滿足urllc業(yè)務(wù)的嚴(yán)格時(shí)延和高可靠性要求，同時(shí)最大化embb業(yè)務(wù)的數(shù)據(jù)傳輸速率，從而實(shí)現(xiàn)業(yè)務(wù)的高效傳輸和資源的合理分配。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳江,程維維,占敖,吳呈瑜,徐偉強(qiáng),張焱
技術(shù)所有人：浙江理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于深度強(qiáng)化學(xué)習(xí)的eMBB和URLLC業(yè)務(wù)資源分配方法及系統(tǒng)