国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種經(jīng)驗(yàn)權(quán)重更新和時(shí)延敏感獎(jiǎng)勵(lì)的多任務(wù)群體感知方法

      文檔序號:40443226發(fā)布日期:2024-12-24 15:17閱讀:9來源:國知局
      一種經(jīng)驗(yàn)權(quán)重更新和時(shí)延敏感獎(jiǎng)勵(lì)的多任務(wù)群體感知方法

      本發(fā)明屬于移動群體感知領(lǐng)域,具體涉及一種經(jīng)驗(yàn)權(quán)重更新和時(shí)延敏感獎(jiǎng)勵(lì)的多任務(wù)群體感知方法。


      背景技術(shù):

      1、交通監(jiān)測對于管理城市擁堵和促進(jìn)高效交通系統(tǒng)至關(guān)重要。傳統(tǒng)的數(shù)據(jù)收集方法主要依賴于個(gè)體感知設(shè)備和傳感器網(wǎng)絡(luò),存在覆蓋范圍小、數(shù)據(jù)質(zhì)量低、感知層次淺等局限性。個(gè)體感知設(shè)備如智能手機(jī)和固定傳感器,盡管在一定程度上緩解了交通監(jiān)測的壓力,但其覆蓋范圍有限,難以滿足大規(guī)模、全方位的交通數(shù)據(jù)需求。傳感器網(wǎng)絡(luò)的組網(wǎng)成本高、維護(hù)難度大,并且難以應(yīng)對快速變化的交通環(huán)境,這使得傳統(tǒng)方法難以在實(shí)際應(yīng)用中發(fā)揮最大效用。

      2、為解決這些問題,移動群體感知(mobile?crowdsensing,mcs)技術(shù)應(yīng)運(yùn)而生。mcs利用攜帶人類群體或者無人設(shè)備(如無人機(jī)、自動駕駛汽車)群體收集和共享環(huán)境數(shù)據(jù),具有成本低、覆蓋廣、實(shí)時(shí)性強(qiáng)等優(yōu)勢。在mcs場景中,移動群體憑借其靈活性和高效的數(shù)據(jù)收集能力,成為一種理想的感知設(shè)備。移動群體能夠快速覆蓋大面積區(qū)域,并能深入到傳統(tǒng)設(shè)備難以到達(dá)的地方進(jìn)行數(shù)據(jù)收集,從而顯著提升交通監(jiān)測的效率和精度。

      3、然而,傳統(tǒng)的mcs方法主要關(guān)注單一任務(wù)的優(yōu)化,難以同時(shí)處理多種類型的感知任務(wù)。在實(shí)際交通監(jiān)測場景中,往往需要同時(shí)處理多種不同類型的任務(wù),如常規(guī)的交通流量監(jiān)控和緊急的事故現(xiàn)場處理。這些任務(wù)具有不同的時(shí)延閾值要求,如何在有限資源下高效地分配和執(zhí)行這些任務(wù),成為一大挑戰(zhàn)。具體來說,這些挑戰(zhàn)包括以下幾個(gè)方面:

      4、首先,由于移動群體的感知能力有限,它們必須分布在不同的地理區(qū)域內(nèi),協(xié)同規(guī)劃其軌跡以滿足各種任務(wù)要求,同時(shí)最小化總能量消耗。其次,緊急任務(wù)的發(fā)生時(shí)間和地點(diǎn)是不可預(yù)測的。因此,移動群體需要迅速反應(yīng)以處理多個(gè)緊急情況,同時(shí)在持續(xù)任務(wù)之間保持良好的平衡。最后,常規(guī)監(jiān)控任務(wù)和緊急任務(wù)之間的需求差異進(jìn)一步增加了復(fù)雜性。常規(guī)監(jiān)控任務(wù)可能需要長時(shí)間的穩(wěn)定覆蓋,而緊急任務(wù)則需要立即響應(yīng),這就需要在任務(wù)分配和資源調(diào)度上進(jìn)行精細(xì)的權(quán)衡。移動群體在處理緊急任務(wù)時(shí),如何有效兼顧常規(guī)監(jiān)控任務(wù),同時(shí)確保整個(gè)系統(tǒng)的高效運(yùn)行,成為一個(gè)難題。

      5、為了應(yīng)對這些挑戰(zhàn),傳統(tǒng)的優(yōu)化算法(如凸優(yōu)化)往往難以找到合適的解決方案,因?yàn)檫@些算法在面對動態(tài)變化和多目標(biāo)優(yōu)化問題時(shí)表現(xiàn)出局限性。因此,需要采用更為靈活和智能的算法,如多智能體深度強(qiáng)化學(xué)習(xí)(madrl)算法。madrl算法通過模擬多智能體的交互和學(xué)習(xí),可以在復(fù)雜的動態(tài)環(huán)境中逐步優(yōu)化決策過程,從而更有效地處理多種任務(wù)的并發(fā)執(zhí)行。


      技術(shù)實(shí)現(xiàn)思路

      1、針對現(xiàn)有技術(shù)中的缺陷空白,本發(fā)明提出一種經(jīng)驗(yàn)權(quán)重更新和時(shí)延敏感獎(jiǎng)勵(lì)的多任務(wù)群體感知方法(稱為drl-mtucs),它包括一個(gè)高層任務(wù)分配器以及一組底層任務(wù)執(zhí)行的移動群體,移動群體中每個(gè)個(gè)體對應(yīng)一個(gè)經(jīng)驗(yàn)緩沖區(qū)和一個(gè)時(shí)延敏感獎(jiǎng)勵(lì)用于多任務(wù)執(zhí)行,任務(wù)分配器是一個(gè)神經(jīng)網(wǎng)絡(luò),它通過觀測環(huán)境的全局狀態(tài)信息、個(gè)體的局部特征以及當(dāng)前緊急興趣點(diǎn)的特征來判斷是否把該任務(wù)插入到個(gè)體對應(yīng)的緩沖區(qū)中,內(nèi)在獎(jiǎng)勵(lì)是結(jié)合每個(gè)個(gè)體自身動機(jī)而產(chǎn)生的獎(jiǎng)勵(lì),與環(huán)境提供的獎(jiǎng)勵(lì)無關(guān)。

      2、本發(fā)明所述方法包括以下步驟:

      3、步驟1、仿真平臺進(jìn)行算法的初始化;

      4、步驟2、指揮中心初始化環(huán)境;

      5、步驟3、仿真平臺根據(jù)當(dāng)前保存的任務(wù)分配器策略π進(jìn)行任務(wù)分配;如果當(dāng)前有緊急興趣點(diǎn)存在,策略π觀測全局狀態(tài)并輸出分配結(jié)果,將該緊急興趣點(diǎn)插入到對應(yīng)移動群體的經(jīng)驗(yàn)緩沖區(qū)中;如果沒有緊急任務(wù)興趣點(diǎn),轉(zhuǎn)步驟4;

      6、步驟4、根據(jù)當(dāng)前保存的時(shí)序預(yù)測器參數(shù)ψ對每個(gè)個(gè)體經(jīng)驗(yàn)緩沖區(qū)中的緊急任務(wù)興趣點(diǎn)進(jìn)行更新;

      7、步驟5、仿真平臺根據(jù)當(dāng)前保存的每個(gè)個(gè)體的策略πk,在時(shí)間片[t,t+1),每一個(gè)個(gè)體u處理兩類興趣點(diǎn),如果是監(jiān)控興趣點(diǎn),轉(zhuǎn)步驟6;如果是緊急興趣點(diǎn),轉(zhuǎn)步驟7;

      8、步驟6、處理監(jiān)控任務(wù)時(shí),個(gè)體花費(fèi)τmove時(shí)間以速度向方向移動;個(gè)體花費(fèi)τ-τmove的時(shí)間從各個(gè)興趣點(diǎn)經(jīng)由地對空上行信道收集數(shù)據(jù),基于正交頻分多址技術(shù)(ofdma);地對空信道包括視距(los)和非視距(nlos)的損失,單位帶寬為b,噪聲的功率譜密度為wn;

      9、步驟7、處理緊急任務(wù)時(shí),個(gè)體對緊急任務(wù)區(qū)域進(jìn)行拍照掃描;拍照時(shí)個(gè)體仍在移動,因此拍攝的照片會存在位移,存在模糊;為了有效處理緊急任務(wù),拍攝的照片需要滿足最大模糊需求δmax,也就是個(gè)體的速度必須滿足

      10、步驟8、個(gè)體u根據(jù)當(dāng)前觀測、當(dāng)前目標(biāo),從環(huán)境獲得獎(jiǎng)勵(lì)和下一時(shí)間片的局部觀測其中外在獎(jiǎng)勵(lì)是指himdp中完成多任務(wù)群體感知任務(wù)的獎(jiǎng)勵(lì);同時(shí),個(gè)體將當(dāng)前時(shí)間片的局部觀測、下一時(shí)間片的局部觀測、當(dāng)前時(shí)間片的外在獎(jiǎng)勵(lì)、以及交互經(jīng)驗(yàn)發(fā)送至仿真平臺的策略軌跡緩沖區(qū),策略軌跡緩沖區(qū)保存交互經(jīng)驗(yàn)數(shù)據(jù),當(dāng)策略軌跡緩沖區(qū)存儲滿交互經(jīng)驗(yàn)數(shù)據(jù)時(shí),最早被存入的交互經(jīng)驗(yàn)數(shù)據(jù)被覆蓋;

      11、步驟9、仿真平臺計(jì)算每個(gè)個(gè)體的最終獎(jiǎng)勵(lì)

      12、步驟10、在時(shí)間片[t,t+1)結(jié)束時(shí),所有興趣點(diǎn)的時(shí)延計(jì)數(shù)器根據(jù)處理情況進(jìn)行更新;t=t+1,仿真平臺反復(fù)執(zhí)行步驟4至步驟9,直到t=t,回合結(jié)束;

      13、步驟11、仿真平臺對任務(wù)分配器的策略π和價(jià)值函數(shù)v進(jìn)行更新;

      14、步驟12、訓(xùn)練由ψ參數(shù)化的時(shí)序預(yù)測器;

      15、步驟13、根據(jù)步驟11,對每一個(gè)個(gè)體的策略πu和價(jià)值函數(shù)vu進(jìn)行損失函數(shù)的計(jì)算,并對總損失函數(shù)進(jìn)行梯度下降,如式(8)所示:

      16、

      17、步驟14、當(dāng)仿真平臺測試當(dāng)前移動群體策略{πu|u=1,2,…,u}所得的有效任務(wù)處理指數(shù)比之前所有測試的結(jié)果都高,保存當(dāng)前的移動群體策略參數(shù);

      18、步驟15、仿真平臺反復(fù)執(zhí)行步驟3至步驟14,直到交互的回合數(shù)量達(dá)到上限;

      19、步驟16、仿真平臺取出保存的drl-mtucs算法的移動群體最優(yōu)策略參數(shù),即得到能夠最大化有效任務(wù)處理指數(shù)移動群體最優(yōu)策略,基于最優(yōu)策略得到移動群體每一步的最佳動作,向移動群體和任務(wù)分配器發(fā)送控制指令以采集任務(wù)區(qū)域內(nèi)興趣點(diǎn)的數(shù)據(jù)并將數(shù)據(jù)發(fā)送回仿真平臺。

      20、進(jìn)一步地,步驟1所述仿真平臺進(jìn)行算法的初始化,包括:

      21、步驟101、初始化時(shí)序預(yù)測器ψ的參數(shù);

      22、步驟102、初始化每個(gè)個(gè)體u的策略πu的參數(shù)和價(jià)值函數(shù)vu的參數(shù);

      23、步驟103、初始化上層分配器的策略π和價(jià)值函數(shù)v的參數(shù);

      24、步驟104、初始化每個(gè)個(gè)體的經(jīng)驗(yàn)緩沖區(qū)。

      25、進(jìn)一步地,步驟2所述指揮中心初始化環(huán)境;包括:

      26、環(huán)境中存在兩類興趣點(diǎn):監(jiān)控任務(wù)興趣點(diǎn)和緊急任務(wù)興趣點(diǎn),兩類興趣點(diǎn)總數(shù)共p個(gè),監(jiān)控任務(wù)興趣點(diǎn)是數(shù)據(jù)傳感器,位置由具體的真實(shí)數(shù)據(jù)集給出,緊急任務(wù)興趣點(diǎn)是邊長為lemer的方形區(qū)域,位置隨機(jī)生成;整個(gè)感知任務(wù)被劃分為相等的t個(gè)時(shí)間片,每個(gè)時(shí)間片具有相同的時(shí)長τ,在處理監(jiān)控任務(wù)興趣點(diǎn)時(shí),一個(gè)時(shí)間片被分為移動群體移動時(shí)間τmove和數(shù)據(jù)收集時(shí)間τcoll兩部分,在處理緊急任務(wù)興趣點(diǎn)時(shí),移動群體以特定的速度按之字形覆蓋整個(gè)緊急區(qū)域;每個(gè)興趣點(diǎn)處設(shè)置時(shí)延計(jì)數(shù)器,只要該興趣點(diǎn)在時(shí)間片[t,t+1)未被處理,則計(jì)數(shù)器加一;指揮中心部署1個(gè)任務(wù)分配器和u個(gè)攜帶滿能量emax的移動群體作為感知數(shù)據(jù)采集的執(zhí)行者,指揮中心設(shè)置t=0并準(zhǔn)備好調(diào)度移動群體與環(huán)境交互一個(gè)回合,這里及以下所稱的一個(gè)回合是在考慮的場景中,移動群體的軌跡規(guī)劃問題被建模為分層馬爾可夫決策過程(himdp)。

      27、進(jìn)一步地,步驟4所述根據(jù)當(dāng)前保存的時(shí)序預(yù)測器參數(shù)ψ對每個(gè)個(gè)體經(jīng)驗(yàn)緩沖區(qū)中的緊急任務(wù)興趣點(diǎn)進(jìn)行更新,包括:

      28、步驟401、仿真平臺將每個(gè)個(gè)體u的當(dāng)前局部觀測和該個(gè)體的經(jīng)驗(yàn)緩沖區(qū)發(fā)送給時(shí)序預(yù)測器;

      29、步驟402、對于經(jīng)驗(yàn)緩沖區(qū)中的每個(gè)緊急任務(wù)興趣點(diǎn),時(shí)序預(yù)測器構(gòu)建個(gè)體u到達(dá)該緊急任務(wù)興趣點(diǎn)時(shí)的目標(biāo)觀測狀態(tài);

      30、步驟403、時(shí)序預(yù)測器讀入當(dāng)前局部觀測和目標(biāo)觀測預(yù)測該個(gè)體到達(dá)緊急任務(wù)興趣點(diǎn)的期望步數(shù)nπ,如式(1)所示:

      31、

      32、其中,代表從當(dāng)前局部觀測到達(dá)目標(biāo)觀測的消耗函數(shù),eπ代表期望;

      33、步驟404、將期望步數(shù)發(fā)回經(jīng)驗(yàn)緩沖區(qū);

      34、步驟405、每個(gè)個(gè)體的經(jīng)驗(yàn)緩沖區(qū)將權(quán)重最高的緊急任務(wù)興趣點(diǎn)設(shè)置為對應(yīng)個(gè)體u的目標(biāo)并發(fā)送給個(gè)體u。

      35、進(jìn)一步地,步驟9所述仿真平臺計(jì)算每個(gè)個(gè)體的最終獎(jiǎng)勵(lì)包括:

      36、步驟901、個(gè)體u將自己當(dāng)前的緊急任務(wù)興趣點(diǎn)目標(biāo)g、距離該興趣點(diǎn)的歸一化距離以及從接收到該任務(wù)起開始計(jì)算的總時(shí)延發(fā)送給仿真平臺;

      37、步驟902、仿真平臺獲取個(gè)體u的鄰居信息,選取離個(gè)體u最近的另外一架個(gè)體u'作為反目標(biāo),并計(jì)算兩個(gè)個(gè)體之間的歸一化距離作為反目標(biāo)的內(nèi)在獎(jiǎng)勵(lì);

      38、步驟903、仿真平臺將時(shí)延和歸一化距離相乘,作為目標(biāo)的內(nèi)在獎(jiǎng)勵(lì);

      39、步驟904、仿真平臺根據(jù)內(nèi)在獎(jiǎng)勵(lì)權(quán)重系數(shù)ω如式(2)計(jì)算內(nèi)在獎(jiǎng)勵(lì):

      40、

      41、進(jìn)一步地,步驟11所述仿真平臺對任務(wù)分配器的策略π和價(jià)值函數(shù)v進(jìn)行更新,包括

      42、步驟1101、計(jì)算用于更新策略函數(shù)的裁剪損失函數(shù)如式(3)所示:

      43、

      44、其中,rt(θ)是ppo算法的重要性采樣比率,是估算的優(yōu)勢函數(shù),clip是裁剪函數(shù);∈是一個(gè)超參數(shù),用于控制裁剪的幅度;

      45、步驟1102、計(jì)算時(shí)間片[t,t+1)中估算的價(jià)值函數(shù)如式(4)所表示:

      46、

      47、其中,v(st;φ)是st下的真實(shí)價(jià)值函數(shù),φ代表神經(jīng)網(wǎng)絡(luò)的估算參數(shù);

      48、步驟1103、計(jì)算用于更新價(jià)值函數(shù)v的均方誤差損失函數(shù),如式(5)所示:

      49、

      50、其中,∈'是一個(gè)超參數(shù),用于控制價(jià)值函數(shù)裁剪的幅度;

      51、步驟1104、計(jì)算總損失函數(shù),如式(6)所示:

      52、

      53、其中,ccritic,centropy是超參數(shù),是策略π的熵。

      54、進(jìn)一步地,步驟12所述訓(xùn)練由ψ參數(shù)化的時(shí)序預(yù)測器,包括:

      55、步驟1201、收集策略π收集軌跡,并在π訪問的狀態(tài)對之間生成標(biāo)簽;

      56、步驟1202、選擇從軌跡中出現(xiàn)緊急任務(wù)興趣點(diǎn)的片段開始的片段(開始于一個(gè)個(gè)體被分配一個(gè)緊急興趣點(diǎn)時(shí),結(jié)束于一個(gè)個(gè)體成功處理該緊急興趣點(diǎn)時(shí)),創(chuàng)建初始狀態(tài)和隨后時(shí)間片中的每個(gè)狀態(tài)之間的狀態(tài)對;

      57、步驟1203、生成策略π從初始狀態(tài)到片段中任一未來狀態(tài)的實(shí)際時(shí)間片標(biāo)簽;通過最小化式(7)對時(shí)序預(yù)測器的網(wǎng)絡(luò)進(jìn)行訓(xùn)練:

      58、

      59、本發(fā)明與本技術(shù)領(lǐng)域現(xiàn)有技術(shù)相比較具有的有益效果是:

      60、1、本發(fā)明所述方法通過分層多智能體強(qiáng)化學(xué)習(xí)算法,結(jié)合經(jīng)驗(yàn)緩沖區(qū)和時(shí)間預(yù)測器,有效提升了多任務(wù)移動群體感知的處理效率和能量利用率;移動群體在完成緊急任務(wù)后能夠利用剩余時(shí)間處理監(jiān)控任務(wù),實(shí)現(xiàn)高效的任務(wù)調(diào)度和軌跡規(guī)劃,顯著提升系統(tǒng)整體響應(yīng)速度和處理效率,同時(shí)最小化能量消耗。

      61、2、本發(fā)明所述方法在提升數(shù)據(jù)時(shí)效性方面,設(shè)計(jì)了一個(gè)新的度量指標(biāo)“有效任務(wù)處理指數(shù)”,用于衡量算法在處理多種類型任務(wù)時(shí)的整體性能。通過結(jié)合不同任務(wù)的時(shí)延要求和權(quán)重設(shè)置,實(shí)現(xiàn)了對監(jiān)控任務(wù)和緊急任務(wù)的有效平衡,確保了數(shù)據(jù)的實(shí)時(shí)性和時(shí)效性。算法將各興趣點(diǎn)的時(shí)延保持在指定的閾值以下,顯著減少了閾值違反情況,能夠更好地支持交通管理和決策。

      62、3、本發(fā)明所述方法為增強(qiáng)系統(tǒng)魯棒性,采用時(shí)延敏感獎(jiǎng)勵(lì)機(jī)制,通過引導(dǎo)移動群體在緊急任務(wù)和監(jiān)控任務(wù)之間保持平衡,提高了系統(tǒng)的魯棒性;在面對多種不可預(yù)測的任務(wù)場景時(shí),移動群體能夠靈活調(diào)整策略,確保任務(wù)的高效完成,顯著提升了系統(tǒng)在實(shí)際應(yīng)用中的適應(yīng)性和穩(wěn)定性。

      63、4、本發(fā)明所述方法在系統(tǒng)建模方面具備高度的嚴(yán)謹(jǐn)性,對監(jiān)控任務(wù)和緊急任務(wù)的處理方式進(jìn)行了詳細(xì)建模,例如監(jiān)控任務(wù)的通信模型和緊急任務(wù)的拍照處理方法、照片的最大模糊度要求;針對不同任務(wù)類型制定了相應(yīng)的處理策略,確保各類任務(wù)能夠高效、準(zhǔn)確地完成;通過精確的模型和算法設(shè)計(jì),提高了系統(tǒng)在復(fù)雜環(huán)境中的實(shí)際應(yīng)用效果。

      64、5、本發(fā)明所述方法基于warpdrive開發(fā)訓(xùn)練框架,將gpu并行化的優(yōu)勢擴(kuò)展到多智體強(qiáng)化學(xué)習(xí)中,不僅將神經(jīng)網(wǎng)絡(luò)訓(xùn)練移至顯卡,還將環(huán)境交互過程并行化,實(shí)現(xiàn)了高效的環(huán)境模擬和訓(xùn)練,能夠在顯卡上同時(shí)運(yùn)行上百個(gè)環(huán)境實(shí)例,顯著提升了算法的訓(xùn)練效率和適應(yīng)能力,支持更大規(guī)模的多任務(wù)執(zhí)行場景。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1