本發(fā)明屬于移動通信,特別是涉一種無蜂窩大規(guī)模mimo系統(tǒng)的策略優(yōu)化算法。
背景技術:
1、隨著物聯(lián)網(wǎng)和邊緣計算技術的蓬勃發(fā)展,全球通信流量爆炸式增長,對無線網(wǎng)絡架構提出了新的技術挑戰(zhàn)。由于傳統(tǒng)蜂窩網(wǎng)絡固有的結構化邊界和中心化管理機制,已難以高效地應對當前復雜、高密度的通信業(yè)務需求。為此,無線通信領域開始轉向新型網(wǎng)絡架構的研究和探索,其中無蜂窩大規(guī)模mimo(cell-free?massive?mimo,cf-mmimo)被認為是一個有潛力的解決方案。不同于傳統(tǒng)蜂窩mimo系統(tǒng)的固定邊界,cf-mmimo通過大量分布式節(jié)點部署為用戶提供服務,從而實現(xiàn)更為均勻的網(wǎng)絡覆蓋,并憑借其去分布式的網(wǎng)絡特征,為通信網(wǎng)絡的靈活性和自適應性帶來了顯著提升。
2、現(xiàn)有技術大多針對傳統(tǒng)cf-mmimo網(wǎng)絡場景和一致性的用戶業(yè)務需求,且未充分考慮到多用戶cf-mmimo網(wǎng)絡環(huán)境中內(nèi)容緩存部署、用戶關聯(lián)和資源分配間的耦合關系。而在實際的網(wǎng)絡場景中,多樣化用戶業(yè)務需求、去中心化的資源部署以及動態(tài)的網(wǎng)絡環(huán)境,使得cf-mmimo網(wǎng)絡的資源管理問題變的十分復雜。首先,多樣化用戶業(yè)務需求使得不同ap節(jié)點在內(nèi)容緩存、資源分配等方面具有顯著的空間差異性,給ap節(jié)點間的高效協(xié)作帶來了挑戰(zhàn);其次,cf-mmimo網(wǎng)絡的去中心化資源部署導致資源分布不均勻,影響ap間的管理性能和網(wǎng)絡資源使用效率;此外,網(wǎng)絡環(huán)境的動態(tài)性也會造成網(wǎng)絡狀態(tài)和資源可用性的深度不確定性,傳統(tǒng)的用戶關聯(lián)和資源分配策略已難以適應高度動態(tài)的網(wǎng)絡環(huán)境變化。
3、綜上所述現(xiàn)有技術問題是:cf-mmimo內(nèi)容緩存網(wǎng)絡中用戶動態(tài)變化的需求影響ap的緩存部署與資源分配,而無線ap緩存能力有限,不足以存儲用戶可能請求的所有服務,因此需要從前傳鏈路或回程鏈路獲取缺失內(nèi)容,這將會導致用戶內(nèi)容獲取時延增加,服務質量不高。
技術實現(xiàn)思路
1、為解決背景技術中存在的問題,本發(fā)明提出一種無蜂窩大規(guī)模mimo系統(tǒng)的策略優(yōu)化算法,以學習最優(yōu)的內(nèi)容緩存、用戶關聯(lián)和功率分配策略,所述系統(tǒng)包括:n個具有緩存資源的接入點ap和m個移動設備md,其特征在于,包括:
2、s1:構建用戶關聯(lián)模型,所述用戶關聯(lián)模型用于建模移動設備md和接入點ap之間在每個時隙的關聯(lián)關系;
3、s2:構建下行信號模型,所述下行信號模型用于建模無蜂窩大規(guī)模mimo系統(tǒng)在每個時隙的網(wǎng)絡可達速率;
4、s3:構建系統(tǒng)能耗模型,所述系統(tǒng)能耗模型用于建模在每個時隙提供內(nèi)容服務的所有接入點ap的總能耗;
5、s4:根據(jù)構建的用戶關聯(lián)模型、下行信號模型和系統(tǒng)能耗模型構建目標優(yōu)化問題模型;
6、s5:將目標優(yōu)化問題模型構建為部分可觀測的馬爾科夫決策過程模型,并利用基于圖注意力的多智能體強化學習算法進行求解得到接入點ap和移動設備md之間的關聯(lián)策略、接入點ap的內(nèi)容緩存策略和接入點ap的功率分配策略。
7、優(yōu)選地,所述用戶關聯(lián)模型包括:
8、
9、
10、且
11、其中,表示在時隙與第i個移動設備mdi關聯(lián)的接入點ap集合,表示時隙集合;表示在時隙t第i個移動設備mdi和第j個接入點apj的關聯(lián)關系;表示集合中接入點ap的數(shù)量;表示所有移動設備md的集合,表示所有接入點ap的集合。
12、優(yōu)選地,所述下行信號模型包括:
13、
14、
15、gij(t)=(dij/d0)-αhij(t)
16、
17、其中,rsum(t)表示無蜂窩大規(guī)模mimo系統(tǒng)在時隙t的網(wǎng)絡可達速率;ri(t)表示在時隙t第i個移動設備mdi的接收信號速率;表示在時隙t與第i個移動設備mdi關聯(lián)的接入點ap集合;表示在時隙t所有具有服務需求的移動設備md集合;vij(t)表示在時隙t第i個移動設備mdi和第j個接入點apj的關聯(lián)關系;pij(t)表示在時隙t第j個接入點apj分配給第i個移動設備mdi的傳輸功率;表示第j個接入點apj的最大傳輸功率;gij(t)表示第j個接入點apj到第i個移動設備mdi的下行信道;表示在時隙t所有處于服務狀態(tài)的ap集合;表示在時隙t第j個接入點apj到第i′個移動設備mdi′的估計信道增益;pi′j(t)表示在時隙t第j個接入點apj分配給第i′個移動設備mdi′的傳輸功率;vi′j(t)表示在時隙t第j個接入點apj和第i′個移動設備mdi′的關聯(lián)關系;wi(t)表示在時隙t第i個移動設備mdi收到的干擾信號;dij表示第j個接入點apj和第i個移動設備mdi之間的實際距離;d0表示參考距離;α為路徑衰減因子;hij(t)表示服從復高斯分布的小尺度衰落。
18、優(yōu)選地,所述系統(tǒng)能耗模型包括:
19、
20、
21、
22、
23、
24、
25、其中,p(t)表示在時隙t所有正在服務的ap總能耗,表示在時隙t所有處于服務狀態(tài)的ap集合;pj(t)表示在時隙t第j個接入點apj的總能耗;表示在時隙t第j個接入點apj的下行鏈路內(nèi)容傳輸功耗;pij(t)表示在時隙t第j個接入點apj分配給第i個移動設備mdi的傳輸功率;表示在時隙t第j個接入點apj服務的md集合;表示在時隙t第j個接入點apj的服務內(nèi)容更新或替換的能耗;pfl為前傳鏈路傳輸單位內(nèi)容所需能耗;表示第j個接入點apj在時隙t緩存的服務內(nèi)容集合,表示第j個接入點apj能夠緩存的最大內(nèi)容緩存容量;f表示網(wǎng)絡中服務內(nèi)容的種類數(shù)量;表示第j個接入點apj在時隙t-1緩存的服務內(nèi)容集合;表示在時隙t第j個接入點apj的內(nèi)容轉發(fā)能耗;σpen表示第j個接入點apj獲取一個未緩存內(nèi)容的能耗因子;表示在時隙t與接入點apj關聯(lián)的所有移動設備md的所有內(nèi)容請求集合;表示在時隙t第i個移動設備mdi請求的服務內(nèi)容,表示網(wǎng)絡中服務內(nèi)容集合。
26、優(yōu)選地,所述目標優(yōu)化問題模型p1包括:
27、
28、
29、
30、
31、
32、
33、其中,為時隙t接入點ap的內(nèi)容緩存策略,表示時隙t第j個接入點apj在時隙t緩存的服務內(nèi)容集合,n表示接入點ap的數(shù)量;表示時隙t接入點ap和移動設備md之間的關聯(lián)策略,表示在時隙與第i個移動設備mdi關聯(lián)的接入點ap集合;為接入點ap的功率分配策略,為apj的功率分配集合,pij(t)在時隙t第j個接入點apj分配給第i個移動設備mdi的傳輸功率;t表示時隙的數(shù)量;表示數(shù)學期望;rsum(t)表示無蜂窩大規(guī)模mimo系統(tǒng)在時隙t的網(wǎng)絡可達速率;p(t)表示在時隙t所有正在服務的ap總能耗;vij(t)表示在時隙t第i個移動設備mdi和第j個接入點apj的關聯(lián)關系;表示第j個接入點apj的最大功率值;表示apj服務的md集合;表示第j個接入點apj能夠緩存的最大內(nèi)容緩存容量;表示移動設備集合;表示接入點ap集合。
34、優(yōu)選地,所述將目標優(yōu)化問題模型構建為部分可觀測的馬爾科夫決策過程模型包括:
35、將目標優(yōu)化問題模型轉換為有n個接入點ap的dec-pomdp模型,其中,每個ap代表一個智能體并用元組表示無蜂窩大規(guī)模mimo系統(tǒng)的全局網(wǎng)絡環(huán)境狀態(tài);表示第j個接入點apj的局部觀測空間;表示第j個接入點apj的動作空間,r是獎勵函數(shù),γ∈[0,1)表示折扣因子;
36、在時隙t,環(huán)境狀態(tài)定義為:
37、
38、其中,表示時隙t第j個接入點apj的內(nèi)容緩存狀態(tài);kfj(t)=1表示第j個接入點apj在時隙t已經(jīng)緩存了內(nèi)容f,否則kfj(t)=0;gij(t)表示時隙t第j個接入點apj與第i個移動設備mdi之間的信道增益;li(t)表示第i個移動設備mdi的位置信息;
39、在時隙t,局部觀測定義為:
40、
41、在時隙t,動作空間定義為:
42、
43、其中,表示第j個接入點apj在時隙t緩存的服務內(nèi)容集合;表示第j個接入點apj在時隙t關聯(lián)的移動設備md集合;表示在時隙t第j個接入點api的功率分配集合;
44、在時隙t,獎勵函數(shù)r(t)∈r定義為:
45、
46、其中,rsum(t)表示無蜂窩大規(guī)模mimo系統(tǒng)在時隙t的網(wǎng)絡可達速率;p(t)表示在時隙t所有正在服務的ap總能耗。
47、優(yōu)選地,所述利用基于圖注意力的多智能體強化學習算法進行求解包括:局部動作價值網(wǎng)絡、圖注意力模塊和混合模塊;
48、所述局部動作價值網(wǎng)絡為每個智能體都配置一個由多層感知器組成的深度q網(wǎng)絡,在時隙t,智能體apj接收局部觀測值oj(t),并選擇動作aj(t),將oj(t)和aj(t)輸入深度q網(wǎng)絡輸出局部動作價值qj(oj(t),aj(t));
49、所述圖注意力模塊將環(huán)境狀態(tài)s(t)首先輸入mlp編碼器,將s(t)編碼為局部潛在表示向量h1(t),h2(t),...,hn(t),其中,hj(t)表示第j個接入點apj的特征表示;再采用gat自適應地捕獲智能體之間的相關性得到智能體apj的特征向量表示h′j(t);再將智能體apj的特征向量表示h′j(t)輸入mlp為智能體apj的局部動作價值生成權重wj(t);
50、所述混合模塊根據(jù)局部動作價值qj(oj(t),aj(t))和局部動作價值的wj(t)計算聯(lián)合動作價值
51、通過最小化損失函數(shù)的方式對強化學習模型訓練,即:
52、
53、其中,θ表示評估網(wǎng)絡的參數(shù),x表示從經(jīng)驗回放池中隨機采樣的小批量樣本數(shù),x表示樣本序號,ytot=r+γmaxa′qtot(s′,a′;θ-),r表示獎勵,a和a′表示動作,s和s′表示環(huán)境狀態(tài);θ-表示目標網(wǎng)絡的參數(shù);
54、通過訓練好的強化學習模型對目標優(yōu)化問題模型進行求解得到接入點ap和移動設備md之間的關聯(lián)策略、接入點ap的內(nèi)容緩存策略和接入點ap的功率分配策略。
55、本發(fā)明至少具有以下有益效果
56、本發(fā)明針對動態(tài)時變的網(wǎng)絡環(huán)境和不完備的網(wǎng)絡狀態(tài)觀測,將上述聯(lián)合優(yōu)化問題抽象為分布式部分可觀測馬爾科夫決策過程(decentralized?partially?observablemarkov?decision?process,dec-pomdp),并設計了自主決策內(nèi)容緩存部署、用戶關聯(lián)和傳輸功率控制??紤]到cf-mmimo場景中多樣化內(nèi)容緩存需求和廣域差異化網(wǎng)絡空間特征,采用圖注意力網(wǎng)絡學習和捕捉網(wǎng)絡空間特征,以實現(xiàn)對內(nèi)容下發(fā)過程中自適應干擾控制,并滿足不同業(yè)務需求。