国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃方法

      文檔序號:40236888發(fā)布日期:2024-12-06 16:59閱讀:24來源:國知局
      基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃方法

      本發(fā)明屬于無人機(jī)在緩存服務(wù)場景的自適應(yīng)決策,尤其涉及基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃方法。


      背景技術(shù):

      1、近年來,物聯(lián)網(wǎng)和智能設(shè)備的快速發(fā)展促進(jìn)了數(shù)據(jù)密集型應(yīng)用井噴式出現(xiàn),但激增的請求數(shù)據(jù)流量也帶來了巨大的網(wǎng)絡(luò)負(fù)載。因此,為了減輕重復(fù)的內(nèi)容傳輸造成的回程鏈路擁塞,邊緣緩存作為一種有效的解決方案應(yīng)運(yùn)而生。通過將流行的內(nèi)容緩存在邊緣側(cè),可以減少用戶的訪問延遲并提高服務(wù)質(zhì)量。然而,靜態(tài)的邊緣服務(wù)器在面對動態(tài)變化的網(wǎng)絡(luò)拓?fù)鋾r,可能無法提供可靠的內(nèi)容傳輸,給用戶帶來不好的體驗(yàn),而部署多個邊緣服務(wù)器又會面臨額外的成本問題。

      2、無人機(jī)作為空中基站,能夠提供更廣的覆蓋范圍和更高的傳輸速率,為無線網(wǎng)絡(luò)提供靈活的無線接入。通過無人機(jī)增強(qiáng)地面蜂窩網(wǎng)絡(luò),能夠擴(kuò)大在農(nóng)村和偏遠(yuǎn)地區(qū)、熱點(diǎn)地區(qū)和緊急情況下的服務(wù)覆蓋范圍。但是無人機(jī)的緩存和存儲有限,可能無法滿足用戶的請求,因此高空平臺可以作為無人機(jī)網(wǎng)絡(luò)的補(bǔ)充組件,協(xié)助無人機(jī)覆蓋更大的區(qū)域。此外,啟用緩存的無人機(jī)可以根據(jù)需要動態(tài)部署來為用戶提供服務(wù),從而提高緩存效率。

      3、傳統(tǒng)的軌跡優(yōu)化算法需要全局信息,包括用戶位置、信道狀態(tài)和內(nèi)容流行度分布等信息,而有些信息在動態(tài)變化的環(huán)境中通常是不可用的。此外,用戶位置和請求內(nèi)容等信息屬于用戶隱私,在集中式的方法中會導(dǎo)致隱私泄露問題。因此,無需共享原始數(shù)據(jù)就能協(xié)作訓(xùn)練的聯(lián)邦學(xué)習(xí)作為一種很有前途的方法被引入。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明的目的在于提出基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃方法,研究多無人機(jī)的內(nèi)容緩存與軌跡規(guī)劃場景,為了保護(hù)用戶隱私,提出了一種聯(lián)邦學(xué)習(xí)框架,并使用基于深度強(qiáng)化學(xué)習(xí)的方法對緩存替換策略和無人機(jī)的軌跡進(jìn)行優(yōu)化。為了提高緩存命中率,無人機(jī)從高空平臺下載預(yù)訓(xùn)練的緩存替換模型進(jìn)行本地替換決策。同時,無人機(jī)將在本地進(jìn)行分布式訓(xùn)練,通過最大化公平吞吐量來優(yōu)化軌跡,并將模型權(quán)重上傳到高空平臺。高空平臺通過聯(lián)邦學(xué)習(xí)算法聚合所有無人機(jī)的模型,并使用全局模型協(xié)助更新無人機(jī)的本地模型。本實(shí)施例提出的方法在保護(hù)隱私的前提下能夠進(jìn)行更充分的探索,以解決緩存命中和用戶的公平通信問題。

      2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃方法,包括:

      3、構(gòu)建空地?zé)o線通信緩存網(wǎng)絡(luò),獲取空地?zé)o線通信緩存網(wǎng)絡(luò)的累計(jì)平均吞吐量;其中,所述空地?zé)o線通信緩存網(wǎng)絡(luò)包括:m架無人機(jī)和m個服務(wù)群組;

      4、基于所述累計(jì)平均吞吐量,構(gòu)建無人機(jī)軌跡的優(yōu)化目標(biāo)函數(shù);

      5、將無人機(jī)中的緩存替換模型構(gòu)建為第一mdp模型,將無人機(jī)的軌跡設(shè)計(jì)構(gòu)建為第二mdp模型;

      6、基于所述優(yōu)化目標(biāo)函數(shù),采用聯(lián)邦深度強(qiáng)化學(xué)習(xí)的算法,計(jì)算所述第一mdp模型和第二mdp模型的全局參數(shù),基于所述全局參數(shù)進(jìn)行多無人機(jī)內(nèi)容緩存與軌跡規(guī)劃。

      7、可選地,獲取空地?zé)o線通信緩存網(wǎng)絡(luò)的累計(jì)平均吞吐量包括:

      8、獲取用戶n在前t個時隙中的時間累計(jì)吞吐量;

      9、定義用戶n的吞吐量比;

      10、利用所述吞吐量比,獲取基于jain公平指數(shù)的公平指數(shù);

      11、基于前t個時隙中的時間累計(jì)吞吐量和公平指數(shù),獲取所述累計(jì)平均吞吐量。

      12、可選地,獲取用戶n在前t個時隙中的時間累計(jì)吞吐量包括:

      13、計(jì)算內(nèi)容的請求概率用來模擬用戶請求概率;

      14、基于所述用戶請求概率,獲取時隙t內(nèi)無人機(jī)m對用戶n的緩存命中概率;

      15、獲取無人機(jī)和用戶之間的下行數(shù)據(jù)傳輸速率;

      16、基于時隙t內(nèi)無人機(jī)m對用戶n的緩存命中概率和所述下行數(shù)據(jù)傳輸速率,獲取用戶n在前t個時隙中的時間累計(jì)吞吐量。

      17、可選地,前t個時隙中的時間累計(jì)吞吐量為:

      18、

      19、其中,dn(t)為時間累計(jì)吞吐量,為時隙t內(nèi)無人機(jī)m對于用戶n的緩存命中率,rm,n(t)為時隙t內(nèi)無人機(jī)m與用戶n之間的數(shù)據(jù)傳輸速率;i是累加函數(shù)中的變量,用來指代t;

      20、用戶n的吞吐量比為:

      21、

      22、其中,fn(t)為用戶n的吞吐量比,n為用戶的數(shù)量;

      23、所述公平指數(shù)為:

      24、

      25、其中,為公平指數(shù);

      26、所述累計(jì)平均吞吐量為:

      27、

      28、其中,df為累計(jì)平均吞吐量,t為總時隙數(shù)。

      29、可選地,時隙t內(nèi)無人機(jī)m對于用戶n的緩存命中概率為:

      30、

      31、其中,為時隙t內(nèi)無人機(jī)m對于用戶n的緩存命中概率,ψm(t)為無人機(jī)m的緩存空間,ξ為無人機(jī)的緩存替換策略,am,n(t)為時隙t中的訪問決策,為命中的緩存內(nèi)容數(shù),為總請求數(shù);

      32、所述內(nèi)容的請求概率為:

      33、

      34、其中,pi表示內(nèi)容的請求概率,k表示緩存內(nèi)容塊的數(shù)量,j表示{1,...,k},λ表示流行度系數(shù);

      35、所述無人機(jī)和用戶之間的下行數(shù)據(jù)傳輸速率為:

      36、

      37、其中,rm,n(t)表示無人機(jī)和用戶之間的下行數(shù)據(jù)傳輸速率,am,n(t)表示時隙t中的訪問決策,bm,n(t)表示用戶n分配到的信道帶寬,p0和n0分別代表傳輸功率和噪聲功率譜密度,表示無人機(jī)-用戶鏈路的平均路徑損耗。

      38、可選地,無人機(jī)軌跡的所述優(yōu)化目標(biāo)函數(shù)為:

      39、

      40、s.t.c1:

      41、c2:

      42、c3:

      43、c4:

      44、c5:

      45、c6:

      46、其中,df表示系統(tǒng)的累計(jì)平均吞吐量,pm(t)表示無人機(jī)的軌跡,qn表示群組用戶的位置,c1和c2表示有限區(qū)域的約束條件,c3和c4表示無人機(jī)的飛行速度約束,其最大速度為vmax,最大加速度為amax,c5表示無人機(jī)的機(jī)載能量約束,xm(t)表示無人機(jī)m在時隙t的水平橫坐標(biāo),xmax表示用戶分布區(qū)域的范圍,表示對任意的無人機(jī)m都滿足,表示對任意的時隙t都滿足,ym(t)表示無人機(jī)m在時隙t的水平縱坐標(biāo),ymax表示用戶分布區(qū)域的范圍,vm(t)表示無人機(jī)m在時隙t的速度,am(t)表示無人機(jī)m在時隙t的加速度,einit表示無人機(jī)初始的能量值,e(t)表示無人機(jī)在時隙t的剩余能量,k表示內(nèi)容塊的數(shù)量,表示無人機(jī)m在時隙t的緩存決策,c表示緩存空間的大小。

      47、可選地,所述無人機(jī)在時隙t的剩余能量的獲取方法為:

      48、獲取無人機(jī)飛行過程中旋翼的推力;

      49、基于無人機(jī)飛行過程中旋翼的推力,獲取無人機(jī)在飛行過程中消耗的能量;

      50、基于無人機(jī)在飛行過程中消耗的能量,獲取無人機(jī)在時隙t的剩余能量。

      51、可選地,無人機(jī)m在下一時隙的位置為:

      52、

      53、其中,pm(t)為無人機(jī)m在時隙t的位置,vm(t)為無人機(jī)m在時隙t的速度向量,am(t)為無人機(jī)m在時隙t的加速度向量,δ為每個時隙的長度。

      54、無人機(jī)飛行過程中旋翼的推力為:

      55、

      56、其中,m為無人機(jī)的質(zhì)量,ρ為空氣密度,v=‖v‖為無人機(jī)速度的絕對值,sfp為等效平板面積,g為重力加速度矢量,th(v,a)為無人機(jī)飛行過程中旋翼的推力;

      57、無人機(jī)在飛行過程中消耗的能量為:

      58、

      59、其中,p(v,th)為無人機(jī)在飛行過程中消耗的能量,nr為旋翼數(shù)量,th為無人機(jī)飛行過程中旋翼的推力,τc為爬升角,d0為各個旋翼的機(jī)身阻力比,cs為各旋翼的實(shí)心度,a為各旋翼的盤面積,δ為局部葉截面阻力系數(shù),ct為基于制動盤面積的推力系數(shù),cf為感應(yīng)功率增量修正系數(shù);

      60、無人機(jī)在時隙t的剩余能量為:

      61、

      62、其中,e(t)為無人機(jī)在時隙t的剩余能量,einit為無人機(jī)的初始能量,δ為時隙的長度。

      63、可選地,所述第一mdp模型包括:第一狀態(tài)空間、第一動作空間、第一獎勵設(shè)計(jì);

      64、所述第一狀態(tài)空間為:

      65、st={v0,v1,...,vc}

      66、其中,vi,i=0,...,c是請求內(nèi)容的特征向量,由三個部分組成:短期特征vsi,中期特征vmi和長期特征vli,分別表示特定時間窗口內(nèi)對應(yīng)內(nèi)容的請求總數(shù);

      67、所述第一動作空間為:

      68、at=ξ∈{1,...,c}

      69、其中,ξ=1,...,c表示使用當(dāng)前請求的內(nèi)容替換對應(yīng)位置緩存的內(nèi)容;

      70、所述第一獎勵設(shè)計(jì)為:

      71、

      72、其中,h(t)是第t個決策時期每個緩存內(nèi)容的累計(jì)命中數(shù)量,使用權(quán)重wi來突出顯示每個緩存槽上的差異;

      73、所述第二mdp模型包括:第二狀態(tài)空間、第二動作空間、第二獎勵設(shè)計(jì);

      74、所述第二狀態(tài)空間為:

      75、st=(lm,n(t),v(t),vp(t))

      76、其中,lm,n(t)是無人機(jī)和用戶的相對位置,v(t)是無人機(jī)的飛行速度,vp(t)是無人機(jī)的飛行方向;

      77、所述第二動作空間為:

      78、at={a(t),ap(t)}

      79、其中,a(t)是無人機(jī)加速度的大小,ap(t)是無人機(jī)加速度的方向;

      80、所述第二獎勵設(shè)計(jì)為:

      81、rt=rtth+rtpe

      82、其中,rtth是吞吐量獎勵,rtpe是約束負(fù)激勵。

      83、可選地,采用聯(lián)邦深度強(qiáng)化學(xué)習(xí)的算法計(jì)算全局參數(shù)為:

      84、ωglobal(ε)=ρiωi(ε)

      85、其中,ρi是第i個代理的重要性權(quán)重,ωglobal(ε)表示全局模型參數(shù),ωi表示第i個分布式代理的本地模型參數(shù)。

      86、本發(fā)明具有以下有益效果:

      87、本發(fā)明研究多無人機(jī)的內(nèi)容緩存與軌跡規(guī)劃場景。為了保護(hù)用戶隱私,提出了一種聯(lián)邦學(xué)習(xí)框架,并使用基于深度強(qiáng)化學(xué)習(xí)的方法對緩存替換策略和無人機(jī)的軌跡進(jìn)行優(yōu)化。為了提高緩存命中率,無人機(jī)從高空平臺下載預(yù)訓(xùn)練的緩存替換模型進(jìn)行本地替換決策。同時,無人機(jī)將在本地進(jìn)行分布式訓(xùn)練,通過最大化公平吞吐量來優(yōu)化軌跡,并將模型權(quán)重上傳到高空平臺。高空平臺通過聯(lián)邦學(xué)習(xí)算法聚合所有無人機(jī)的模型,并使用全局模型協(xié)助更新無人機(jī)的本地模型。本發(fā)明提出的方法在保護(hù)隱私的前提下能夠進(jìn)行更充分的探索,以解決緩存命中和用戶的公平通信問題。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1