国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種無人艇群的數(shù)據(jù)通信和協(xié)同方法

      文檔序號:39345917發(fā)布日期:2024-09-10 12:09閱讀:21來源:國知局
      一種無人艇群的數(shù)據(jù)通信和協(xié)同方法

      本發(fā)明屬于通信,尤其涉及一種無人艇群的數(shù)據(jù)通信和協(xié)同方法。


      背景技術(shù):

      1、多智能體(如無人機(jī)、無人艇)間的通信尤為重要。2016年,j.n.foerster等人最先提出基于通信機(jī)制的多智能體強(qiáng)化學(xué)習(xí)交互方式rial,先將智能體的決策網(wǎng)絡(luò)一分為二,動(dòng)作選擇網(wǎng)絡(luò)和消息網(wǎng)絡(luò)。之后,作者又提出dial算法,增加了反饋循環(huán)以提升魯棒性。2016年,facebook?ai?research團(tuán)隊(duì)提出了commnet,使用了集中訓(xùn)練集中執(zhí)行框架,給出了分層分組廣播消息的想法。2017年,peng等人使用雙向rnn作為通信通道,使用基于策略梯度的更新方法進(jìn)行參數(shù)更新,提出了bicnet算法,但是該算法要求獲取全局狀態(tài)進(jìn)行訓(xùn)練,在真實(shí)場景中有一定的困難性。2018年,北京大學(xué)團(tuán)隊(duì)提出了atoc算法,該算法不同于上述預(yù)定義式的通信方式,最先放松了限制,讓智能體決定是否通信、何時(shí)通信和與哪一個(gè)智能體通信。算法采用了actor-critic框架,更新過程基于ddpg算法。2019年,d.kim等人又再次對atoc算法進(jìn)行改進(jìn),考慮了真實(shí)場景中通信的信道是有限性,引入了通信領(lǐng)域的medium?access?control對智能體間發(fā)送的信息進(jìn)行了約束;2019年,facebook?airesearch團(tuán)隊(duì)提出了tarmac算法,該算法引入了多頭注意力機(jī)制對發(fā)送信息進(jìn)行融合,基于局部狀態(tài)和歷史信息分別生成查詢向量和鍵值對信息,對發(fā)送信息進(jìn)行基于自注意機(jī)制的高效選取。2020年,哈佛大學(xué)研究團(tuán)隊(duì)提出了tmc算法,引入了信息增益值得概念,開始嘗試避免不必要的收發(fā)操作,進(jìn)而做到高效的通信。

      2、上述方法只能針對已有的信息進(jìn)行基于注意力機(jī)制的高效選取,缺乏對信息的對抗觀測和基于自身觀測對于整個(gè)智能系統(tǒng)關(guān)系的圖建模,進(jìn)而生成更加準(zhǔn)確和表達(dá)力強(qiáng)的信息。另一方面,在多智能體的通信交互過程中,缺乏對于真實(shí)場景下間斷通信,通信中斷保障等問題的研究,只能在特定的仿真平臺中運(yùn)行,更缺乏到真實(shí)場景中的遷移能力。


      技術(shù)實(shí)現(xiàn)思路

      1、針對開放環(huán)境細(xì)節(jié)眾多、任務(wù)繁雜、難以從簡單仿真環(huán)境進(jìn)行直接遷移的問題,本申請?jiān)跇?gòu)建多智能體系統(tǒng)圖模型的基礎(chǔ)上將智能實(shí)體間的信息融合,并根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值,通過決策函數(shù)模擬出實(shí)體針對所接受的不同信息做出不同的決策,然后對決策進(jìn)行反饋,計(jì)算決策的獎(jiǎng)勵(lì)期望,構(gòu)建面向環(huán)境突變的多智能體不確定圖模型和動(dòng)態(tài)環(huán)境下的多智能體時(shí)序圖模型。

      2、為實(shí)現(xiàn)上述目的,本申請公開的無人艇群的數(shù)據(jù)通信和協(xié)同方法,包括以下步驟:

      3、建立由無人艇群組成的多智能體系統(tǒng)中的拓?fù)浣Y(jié)構(gòu),一個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)多智能系統(tǒng)中的無人艇,各個(gè)節(jié)點(diǎn)之間的邊表示無人艇間的數(shù)據(jù)通信;

      4、每個(gè)無人艇與其它無人艇之間的信息進(jìn)行融合,得到融合后的信息;

      5、每個(gè)無人艇基于其動(dòng)作價(jià)值函數(shù)計(jì)算行動(dòng)反饋值;

      6、根據(jù)行動(dòng)反饋值計(jì)算融合決策;

      7、計(jì)算決策的期望獎(jiǎng)勵(lì),當(dāng)期望獎(jiǎng)勵(lì)值大于預(yù)設(shè)閾值時(shí),則無人艇群按照融合決策進(jìn)行協(xié)同,小于預(yù)設(shè)閾值時(shí),繼續(xù)進(jìn)行優(yōu)化。

      8、進(jìn)一步地,計(jì)算無人艇i與無人艇j的融合信息fij如下:

      9、

      10、其中,σ是激活函數(shù),k是通信鏈路總數(shù),表示無人艇i與無人艇j之間在通信鏈路k上的信息傳遞概率,表示無人艇i與無人艇j之間在通信鏈路k上傳遞的共享信息,是無人艇i的局部觀測矩陣,n是矩陣的維數(shù)。

      11、進(jìn)一步地,根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值如下:

      12、

      13、表示無人艇i根據(jù)t時(shí)刻與無人艇j之間在通信鏈路k上的通信信息基礎(chǔ)上的動(dòng)作價(jià)值函數(shù),ai,t表示無人艇i在時(shí)刻t的動(dòng)作,si,t表示無人艇i在時(shí)刻t的狀態(tài),表示無人艇i根據(jù)t-1時(shí)刻與無人艇j之間在通信鏈路k上的通信信息基礎(chǔ)上的動(dòng)作價(jià)值函數(shù),ai,t―1表示無人艇i在時(shí)刻t-1的動(dòng)作,si,t―1表示無人艇i在時(shí)刻t-1的狀態(tài),q(,)是q函數(shù),r(,)是獎(jiǎng)勵(lì),當(dāng)y(i)>1時(shí),為正反饋,當(dāng)y(i)<1時(shí),為負(fù)反饋。

      14、進(jìn)一步地,根據(jù)正反饋、負(fù)反饋融合計(jì)算決策;

      15、

      16、為正反饋,為負(fù)反饋,μ0和μ1分別是負(fù)反饋和正反饋的均值,σ0和σ1分別是負(fù)反饋和正反饋的方差,aggregate為融合函數(shù)。

      17、進(jìn)一步地,得到?jīng)Q策的期望獎(jiǎng)勵(lì)為:

      18、e[rt|st=s,dt=d](ai,t)

      19、ai,t表示無人艇i在t時(shí)刻的動(dòng)作,上式表示轉(zhuǎn)移到狀態(tài)st下且采取決策dt時(shí)獲得的期望獎(jiǎng)勵(lì)。

      20、本申請的有益效果如下:

      21、本申請?jiān)跇?gòu)建多智能體系統(tǒng)圖模型的基礎(chǔ)上將智能實(shí)體間的信息融合,并根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值,通過決策函數(shù)模擬出實(shí)體針對所接受的不同信息做出不同的決策,然后對決策進(jìn)行反饋,計(jì)算決策的期望獎(jiǎng)勵(lì),利用期望獎(jiǎng)勵(lì)來評估和融合不同特征的重要性,使得模型能夠更有效地處理不完全或不確定的信息。



      技術(shù)特征:

      1.一種無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,包括以下步驟:

      2.根據(jù)權(quán)利要求1所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,計(jì)算無人艇i與無人艇j的融合信息fij如下:

      3.根據(jù)權(quán)利要求2所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值如下:

      4.根據(jù)權(quán)利要求3所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,根據(jù)正反饋、負(fù)反饋融合計(jì)算決策;

      5.根據(jù)權(quán)利要求4所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,得到?jīng)Q策的期望獎(jiǎng)勵(lì)為:


      技術(shù)總結(jié)
      本發(fā)明公開了一種無人艇群的數(shù)據(jù)通信和協(xié)同方法,包括步驟:建立由無人艇群組成的多智能體系統(tǒng)中的拓?fù)浣Y(jié)構(gòu);每個(gè)無人艇與其它無人艇之間的信息進(jìn)行融合,得到融合后的信息;每個(gè)無人艇基于其動(dòng)作價(jià)值函數(shù)計(jì)算行動(dòng)反饋值;根據(jù)行動(dòng)反饋值融合計(jì)算決策;計(jì)算決策的期望獎(jiǎng)勵(lì),當(dāng)獎(jiǎng)勵(lì)期望值大于預(yù)設(shè)閾值時(shí),則無人艇群按照融合決策進(jìn)行協(xié)同,小于預(yù)設(shè)閾值時(shí),繼續(xù)進(jìn)行優(yōu)化。本申請將智能實(shí)體間的信息融合,并根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值,通過決策函數(shù)模擬出實(shí)體針對所接受的不同信息做出不同的決策,然后對決策進(jìn)行反饋,計(jì)算決策的獎(jiǎng)勵(lì)期望,利用獎(jiǎng)勵(lì)期望來評估和融合不同特征的重要性,使得模型能夠更有效地處理不完全或不確定的信息。

      技術(shù)研發(fā)人員:黃金才,宋惟韜,程光權(quán),黃魁華,杜航,張勇
      受保護(hù)的技術(shù)使用者:中國人民解放軍國防科技大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/9/9
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1