本發(fā)明屬于無人機(jī)在緩存服務(wù)場景的自適應(yīng)決策,尤其涉及基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃方法。
背景技術(shù):
1、近年來,物聯(lián)網(wǎng)和智能設(shè)備的快速發(fā)展促進(jìn)了數(shù)據(jù)密集型應(yīng)用井噴式出現(xiàn),但激增的請求數(shù)據(jù)流量也帶來了巨大的網(wǎng)絡(luò)負(fù)載。因此,為了減輕重復(fù)的內(nèi)容傳輸造成的回程鏈路擁塞,邊緣緩存作為一種有效的解決方案應(yīng)運(yùn)而生。通過將流行的內(nèi)容緩存在邊緣側(cè),可以減少用戶的訪問延遲并提高服務(wù)質(zhì)量。然而,靜態(tài)的邊緣服務(wù)器在面對動態(tài)變化的網(wǎng)絡(luò)拓?fù)鋾r,可能無法提供可靠的內(nèi)容傳輸,給用戶帶來不好的體驗(yàn),而部署多個邊緣服務(wù)器又會面臨額外的成本問題。
2、無人機(jī)作為空中基站,能夠提供更廣的覆蓋范圍和更高的傳輸速率,為無線網(wǎng)絡(luò)提供靈活的無線接入。通過無人機(jī)增強(qiáng)地面蜂窩網(wǎng)絡(luò),能夠擴(kuò)大在農(nóng)村和偏遠(yuǎn)地區(qū)、熱點(diǎn)地區(qū)和緊急情況下的服務(wù)覆蓋范圍。但是無人機(jī)的緩存和存儲有限,可能無法滿足用戶的請求,因此高空平臺可以作為無人機(jī)網(wǎng)絡(luò)的補(bǔ)充組件,協(xié)助無人機(jī)覆蓋更大的區(qū)域。此外,啟用緩存的無人機(jī)可以根據(jù)需要動態(tài)部署來為用戶提供服務(wù),從而提高緩存效率。
3、傳統(tǒng)的軌跡優(yōu)化算法需要全局信息,包括用戶位置、信道狀態(tài)和內(nèi)容流行度分布等信息,而有些信息在動態(tài)變化的環(huán)境中通常是不可用的。此外,用戶位置和請求內(nèi)容等信息屬于用戶隱私,在集中式的方法中會導(dǎo)致隱私泄露問題。因此,無需共享原始數(shù)據(jù)就能協(xié)作訓(xùn)練的聯(lián)邦學(xué)習(xí)作為一種很有前途的方法被引入。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提出基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃方法,研究多無人機(jī)的內(nèi)容緩存與軌跡規(guī)劃場景,為了保護(hù)用戶隱私,提出了一種聯(lián)邦學(xué)習(xí)框架,并使用基于深度強(qiáng)化學(xué)習(xí)的方法對緩存替換策略和無人機(jī)的軌跡進(jìn)行優(yōu)化。為了提高緩存命中率,無人機(jī)從高空平臺下載預(yù)訓(xùn)練的緩存替換模型進(jìn)行本地替換決策。同時,無人機(jī)將在本地進(jìn)行分布式訓(xùn)練,通過最大化公平吞吐量來優(yōu)化軌跡,并將模型權(quán)重上傳到高空平臺。高空平臺通過聯(lián)邦學(xué)習(xí)算法聚合所有無人機(jī)的模型,并使用全局模型協(xié)助更新無人機(jī)的本地模型。本實(shí)施例提出的方法在保護(hù)隱私的前提下能夠進(jìn)行更充分的探索,以解決緩存命中和用戶的公平通信問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃方法,包括:
3、構(gòu)建空地?zé)o線通信緩存網(wǎng)絡(luò),獲取空地?zé)o線通信緩存網(wǎng)絡(luò)的累計(jì)平均吞吐量;其中,所述空地?zé)o線通信緩存網(wǎng)絡(luò)包括:m架無人機(jī)和m個服務(wù)群組;
4、基于所述累計(jì)平均吞吐量,構(gòu)建無人機(jī)軌跡的優(yōu)化目標(biāo)函數(shù);
5、將無人機(jī)中的緩存替換模型構(gòu)建為第一mdp模型,將無人機(jī)的軌跡設(shè)計(jì)構(gòu)建為第二mdp模型;
6、基于所述優(yōu)化目標(biāo)函數(shù),采用聯(lián)邦深度強(qiáng)化學(xué)習(xí)的算法,計(jì)算所述第一mdp模型和第二mdp模型的全局參數(shù),基于所述全局參數(shù)進(jìn)行多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃。
7、可選地,獲取空地?zé)o線通信緩存網(wǎng)絡(luò)的累計(jì)平均吞吐量包括:
8、獲取用戶n在前t個時隙中的時間累計(jì)吞吐量;
9、定義用戶n的吞吐量比;
10、利用所述吞吐量比,獲取基于jain公平指數(shù)的公平指數(shù);
11、基于前t個時隙中的時間累計(jì)吞吐量和公平指數(shù),獲取所述累計(jì)平均吞吐量。
12、可選地,獲取用戶n在前t個時隙中的時間累計(jì)吞吐量包括:
13、計(jì)算內(nèi)容的請求概率用來模擬用戶請求概率;
14、基于所述用戶請求概率,獲取時隙t內(nèi)無人機(jī)m對用戶n的緩存命中概率;
15、獲取無人機(jī)和用戶之間的下行數(shù)據(jù)傳輸速率;
16、基于時隙t內(nèi)無人機(jī)m對用戶n的緩存命中概率和所述下行數(shù)據(jù)傳輸速率,獲取用戶n在前t個時隙中的時間累計(jì)吞吐量。
17、可選地,前t個時隙中的時間累計(jì)吞吐量為:
18、
19、其中,dn(t)為時間累計(jì)吞吐量,為時隙t內(nèi)無人機(jī)m對于用戶n的緩存命中率,rm,n(t)為時隙t內(nèi)無人機(jī)m與用戶n之間的數(shù)據(jù)傳輸速率;i是累加函數(shù)中的變量,用來指代t;
20、用戶n的吞吐量比為:
21、
22、其中,fn(t)為用戶n的吞吐量比,n為用戶的數(shù)量;
23、所述公平指數(shù)為:
24、
25、其中,為公平指數(shù);
26、所述累計(jì)平均吞吐量為:
27、
28、其中,df為累計(jì)平均吞吐量,t為總時隙數(shù)。
29、可選地,時隙t內(nèi)無人機(jī)m對于用戶n的緩存命中概率為:
30、
31、其中,為時隙t內(nèi)無人機(jī)m對于用戶n的緩存命中概率,ψm(t)為無人機(jī)m的緩存空間,ξ為無人機(jī)的緩存替換策略,am,n(t)為時隙t中的訪問決策,為命中的緩存內(nèi)容數(shù),為總請求數(shù);
32、所述內(nèi)容的請求概率為:
33、
34、其中,pi表示內(nèi)容的請求概率,k表示緩存內(nèi)容塊的數(shù)量,j表示{1,...,k},λ表示流行度系數(shù);
35、所述無人機(jī)和用戶之間的下行數(shù)據(jù)傳輸速率為:
36、
37、其中,rm,n(t)表示無人機(jī)和用戶之間的下行數(shù)據(jù)傳輸速率,am,n(t)表示時隙t中的訪問決策,bm,n(t)表示用戶n分配到的信道帶寬,p0和n0分別代表傳輸功率和噪聲功率譜密度,表示無人機(jī)-用戶鏈路的平均路徑損耗。
38、可選地,無人機(jī)軌跡的所述優(yōu)化目標(biāo)函數(shù)為:
39、
40、s.t.c1:
41、c2:
42、c3:
43、c4:
44、c5:
45、c6:
46、其中,df表示系統(tǒng)的累計(jì)平均吞吐量,pm(t)表示無人機(jī)的軌跡,qn表示群組用戶的位置,c1和c2表示有限區(qū)域的約束條件,c3和c4表示無人機(jī)的飛行速度約束,其最大速度為vmax,最大加速度為amax,c5表示無人機(jī)的機(jī)載能量約束,xm(t)表示無人機(jī)m在時隙t的水平橫坐標(biāo),xmax表示用戶分布區(qū)域的范圍,表示對任意的無人機(jī)m都滿足,表示對任意的時隙t都滿足,ym(t)表示無人機(jī)m在時隙t的水平縱坐標(biāo),ymax表示用戶分布區(qū)域的范圍,vm(t)表示無人機(jī)m在時隙t的速度,am(t)表示無人機(jī)m在時隙t的加速度,einit表示無人機(jī)初始的能量值,e(t)表示無人機(jī)在時隙t的剩余能量,k表示內(nèi)容塊的數(shù)量,表示無人機(jī)m在時隙t的緩存決策,c表示緩存空間的大小。
47、可選地,所述無人機(jī)在時隙t的剩余能量的獲取方法為:
48、獲取無人機(jī)飛行過程中旋翼的推力;
49、基于無人機(jī)飛行過程中旋翼的推力,獲取無人機(jī)在飛行過程中消耗的能量;
50、基于無人機(jī)在飛行過程中消耗的能量,獲取無人機(jī)在時隙t的剩余能量。
51、可選地,無人機(jī)m在下一時隙的位置為:
52、
53、其中,pm(t)為無人機(jī)m在時隙t的位置,vm(t)為無人機(jī)m在時隙t的速度向量,am(t)為無人機(jī)m在時隙t的加速度向量,δ為每個時隙的長度。
54、無人機(jī)飛行過程中旋翼的推力為:
55、
56、其中,m為無人機(jī)的質(zhì)量,ρ為空氣密度,v=‖v‖為無人機(jī)速度的絕對值,sfp為等效平板面積,g為重力加速度矢量,th(v,a)為無人機(jī)飛行過程中旋翼的推力;
57、無人機(jī)在飛行過程中消耗的能量為:
58、
59、其中,p(v,th)為無人機(jī)在飛行過程中消耗的能量,nr為旋翼數(shù)量,th為無人機(jī)飛行過程中旋翼的推力,τc為爬升角,d0為各個旋翼的機(jī)身阻力比,cs為各旋翼的實(shí)心度,a為各旋翼的盤面積,δ為局部葉截面阻力系數(shù),ct為基于制動盤面積的推力系數(shù),cf為感應(yīng)功率增量修正系數(shù);
60、無人機(jī)在時隙t的剩余能量為:
61、
62、其中,e(t)為無人機(jī)在時隙t的剩余能量,einit為無人機(jī)的初始能量,δ為時隙的長度。
63、可選地,所述第一mdp模型包括:第一狀態(tài)空間、第一動作空間、第一獎勵設(shè)計(jì);
64、所述第一狀態(tài)空間為:
65、st={v0,v1,...,vc}
66、其中,vi,i=0,...,c是請求內(nèi)容的特征向量,由三個部分組成:短期特征vsi,中期特征vmi和長期特征vli,分別表示特定時間窗口內(nèi)對應(yīng)內(nèi)容的請求總數(shù);
67、所述第一動作空間為:
68、at=ξ∈{1,...,c}
69、其中,ξ=1,...,c表示使用當(dāng)前請求的內(nèi)容替換對應(yīng)位置緩存的內(nèi)容;
70、所述第一獎勵設(shè)計(jì)為:
71、
72、其中,h(t)是第t個決策時期每個緩存內(nèi)容的累計(jì)命中數(shù)量,使用權(quán)重wi來突出顯示每個緩存槽上的差異;
73、所述第二mdp模型包括:第二狀態(tài)空間、第二動作空間、第二獎勵設(shè)計(jì);
74、所述第二狀態(tài)空間為:
75、st=(lm,n(t),v(t),vp(t))
76、其中,lm,n(t)是無人機(jī)和用戶的相對位置,v(t)是無人機(jī)的飛行速度,vp(t)是無人機(jī)的飛行方向;
77、所述第二動作空間為:
78、at={a(t),ap(t)}
79、其中,a(t)是無人機(jī)加速度的大小,ap(t)是無人機(jī)加速度的方向;
80、所述第二獎勵設(shè)計(jì)為:
81、rt=rtth+rtpe
82、其中,rtth是吞吐量獎勵,rtpe是約束負(fù)激勵。
83、可選地,采用聯(lián)邦深度強(qiáng)化學(xué)習(xí)的算法計(jì)算全局參數(shù)為:
84、ωglobal(ε)=ρiωi(ε)
85、其中,ρi是第i個代理的重要性權(quán)重,ωglobal(ε)表示全局模型參數(shù),ωi表示第i個分布式代理的本地模型參數(shù)。
86、本發(fā)明具有以下有益效果:
87、本發(fā)明研究多無人機(jī)的內(nèi)容緩存與軌跡規(guī)劃場景。為了保護(hù)用戶隱私,提出了一種聯(lián)邦學(xué)習(xí)框架,并使用基于深度強(qiáng)化學(xué)習(xí)的方法對緩存替換策略和無人機(jī)的軌跡進(jìn)行優(yōu)化。為了提高緩存命中率,無人機(jī)從高空平臺下載預(yù)訓(xùn)練的緩存替換模型進(jìn)行本地替換決策。同時,無人機(jī)將在本地進(jìn)行分布式訓(xùn)練,通過最大化公平吞吐量來優(yōu)化軌跡,并將模型權(quán)重上傳到高空平臺。高空平臺通過聯(lián)邦學(xué)習(xí)算法聚合所有無人機(jī)的模型,并使用全局模型協(xié)助更新無人機(jī)的本地模型。本發(fā)明提出的方法在保護(hù)隱私的前提下能夠進(jìn)行更充分的探索,以解決緩存命中和用戶的公平通信問題。