一種無人艇群的數(shù)據(jù)通信和協(xié)同方法

文檔序號：39345917發(fā)布日期：2024-09-10 12:09閱讀：21來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于通信，尤其涉及一種無人艇群的數(shù)據(jù)通信和協(xié)同方法。

背景技術(shù)：

1、多智能體(如無人機(jī)、無人艇)間的通信尤為重要。2016年，j.n.foerster等人最先提出基于通信機(jī)制的多智能體強(qiáng)化學(xué)習(xí)交互方式rial，先將智能體的決策網(wǎng)絡(luò)一分為二，動(dòng)作選擇網(wǎng)絡(luò)和消息網(wǎng)絡(luò)。之后，作者又提出dial算法，增加了反饋循環(huán)以提升魯棒性。2016年，facebook?ai?research團(tuán)隊(duì)提出了commnet，使用了集中訓(xùn)練集中執(zhí)行框架，給出了分層分組廣播消息的想法。2017年，peng等人使用雙向rnn作為通信通道，使用基于策略梯度的更新方法進(jìn)行參數(shù)更新，提出了bicnet算法，但是該算法要求獲取全局狀態(tài)進(jìn)行訓(xùn)練，在真實(shí)場景中有一定的困難性。2018年，北京大學(xué)團(tuán)隊(duì)提出了atoc算法，該算法不同于上述預(yù)定義式的通信方式，最先放松了限制，讓智能體決定是否通信、何時(shí)通信和與哪一個(gè)智能體通信。算法采用了actor-critic框架，更新過程基于ddpg算法。2019年，d.kim等人又再次對atoc算法進(jìn)行改進(jìn)，考慮了真實(shí)場景中通信的信道是有限性，引入了通信領(lǐng)域的medium?access?control對智能體間發(fā)送的信息進(jìn)行了約束；2019年，facebook?airesearch團(tuán)隊(duì)提出了tarmac算法，該算法引入了多頭注意力機(jī)制對發(fā)送信息進(jìn)行融合，基于局部狀態(tài)和歷史信息分別生成查詢向量和鍵值對信息，對發(fā)送信息進(jìn)行基于自注意機(jī)制的高效選取。2020年，哈佛大學(xué)研究團(tuán)隊(duì)提出了tmc算法，引入了信息增益值得概念，開始嘗試避免不必要的收發(fā)操作，進(jìn)而做到高效的通信。

2、上述方法只能針對已有的信息進(jìn)行基于注意力機(jī)制的高效選取，缺乏對信息的對抗觀測和基于自身觀測對于整個(gè)智能系統(tǒng)關(guān)系的圖建模，進(jìn)而生成更加準(zhǔn)確和表達(dá)力強(qiáng)的信息。另一方面，在多智能體的通信交互過程中，缺乏對于真實(shí)場景下間斷通信，通信中斷保障等問題的研究，只能在特定的仿真平臺中運(yùn)行，更缺乏到真實(shí)場景中的遷移能力。

技術(shù)實(shí)現(xiàn)思路

1、針對開放環(huán)境細(xì)節(jié)眾多、任務(wù)繁雜、難以從簡單仿真環(huán)境進(jìn)行直接遷移的問題，本申請?jiān)跇?gòu)建多智能體系統(tǒng)圖模型的基礎(chǔ)上將智能實(shí)體間的信息融合，并根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值，通過決策函數(shù)模擬出實(shí)體針對所接受的不同信息做出不同的決策，然后對決策進(jìn)行反饋，計(jì)算決策的獎(jiǎng)勵(lì)期望，構(gòu)建面向環(huán)境突變的多智能體不確定圖模型和動(dòng)態(tài)環(huán)境下的多智能體時(shí)序圖模型。

2、為實(shí)現(xiàn)上述目的，本申請公開的無人艇群的數(shù)據(jù)通信和協(xié)同方法，包括以下步驟：

3、建立由無人艇群組成的多智能體系統(tǒng)中的拓?fù)浣Y(jié)構(gòu)，一個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)多智能系統(tǒng)中的無人艇，各個(gè)節(jié)點(diǎn)之間的邊表示無人艇間的數(shù)據(jù)通信；

4、每個(gè)無人艇與其它無人艇之間的信息進(jìn)行融合，得到融合后的信息；

5、每個(gè)無人艇基于其動(dòng)作價(jià)值函數(shù)計(jì)算行動(dòng)反饋值；

6、根據(jù)行動(dòng)反饋值計(jì)算融合決策；

7、計(jì)算決策的期望獎(jiǎng)勵(lì)，當(dāng)期望獎(jiǎng)勵(lì)值大于預(yù)設(shè)閾值時(shí)，則無人艇群按照融合決策進(jìn)行協(xié)同，小于預(yù)設(shè)閾值時(shí)，繼續(xù)進(jìn)行優(yōu)化。

8、進(jìn)一步地，計(jì)算無人艇i與無人艇j的融合信息fij如下：

9、

10、其中，σ是激活函數(shù)，k是通信鏈路總數(shù)，表示無人艇i與無人艇j之間在通信鏈路k上的信息傳遞概率，表示無人艇i與無人艇j之間在通信鏈路k上傳遞的共享信息，是無人艇i的局部觀測矩陣，n是矩陣的維數(shù)。

11、進(jìn)一步地，根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值如下：

12、

13、表示無人艇i根據(jù)t時(shí)刻與無人艇j之間在通信鏈路k上的通信信息基礎(chǔ)上的動(dòng)作價(jià)值函數(shù)，ai,t表示無人艇i在時(shí)刻t的動(dòng)作,si,t表示無人艇i在時(shí)刻t的狀態(tài)，表示無人艇i根據(jù)t-1時(shí)刻與無人艇j之間在通信鏈路k上的通信信息基礎(chǔ)上的動(dòng)作價(jià)值函數(shù)，ai,t―1表示無人艇i在時(shí)刻t-1的動(dòng)作,si,t―1表示無人艇i在時(shí)刻t-1的狀態(tài)，q(,)是q函數(shù)，r(,)是獎(jiǎng)勵(lì)，當(dāng)y(i)>1時(shí)，為正反饋，當(dāng)y(i)<1時(shí)，為負(fù)反饋。

14、進(jìn)一步地，根據(jù)正反饋、負(fù)反饋融合計(jì)算決策；

15、

16、為正反饋，為負(fù)反饋，μ0和μ1分別是負(fù)反饋和正反饋的均值，σ0和σ1分別是負(fù)反饋和正反饋的方差，aggregate為融合函數(shù)。

17、進(jìn)一步地，得到?jīng)Q策的期望獎(jiǎng)勵(lì)為：

18、e[rt|st＝s,dt＝d](ai,t)

19、ai,t表示無人艇i在t時(shí)刻的動(dòng)作，上式表示轉(zhuǎn)移到狀態(tài)st下且采取決策dt時(shí)獲得的期望獎(jiǎng)勵(lì)。

20、本申請的有益效果如下：

21、本申請?jiān)跇?gòu)建多智能體系統(tǒng)圖模型的基礎(chǔ)上將智能實(shí)體間的信息融合，并根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值，通過決策函數(shù)模擬出實(shí)體針對所接受的不同信息做出不同的決策，然后對決策進(jìn)行反饋，計(jì)算決策的期望獎(jiǎng)勵(lì)，利用期望獎(jiǎng)勵(lì)來評估和融合不同特征的重要性，使得模型能夠更有效地處理不完全或不確定的信息。

技術(shù)特征：

1.一種無人艇群的數(shù)據(jù)通信和協(xié)同方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法，其特征在于，計(jì)算無人艇i與無人艇j的融合信息fij如下：

3.根據(jù)權(quán)利要求2所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法，其特征在于，根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值如下：

4.根據(jù)權(quán)利要求3所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法，其特征在于，根據(jù)正反饋、負(fù)反饋融合計(jì)算決策；

5.根據(jù)權(quán)利要求4所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法，其特征在于，得到?jīng)Q策的期望獎(jiǎng)勵(lì)為：

技術(shù)總結(jié)
本發(fā)明公開了一種無人艇群的數(shù)據(jù)通信和協(xié)同方法，包括步驟：建立由無人艇群組成的多智能體系統(tǒng)中的拓?fù)浣Y(jié)構(gòu)；每個(gè)無人艇與其它無人艇之間的信息進(jìn)行融合，得到融合后的信息；每個(gè)無人艇基于其動(dòng)作價(jià)值函數(shù)計(jì)算行動(dòng)反饋值；根據(jù)行動(dòng)反饋值融合計(jì)算決策；計(jì)算決策的期望獎(jiǎng)勵(lì)，當(dāng)獎(jiǎng)勵(lì)期望值大于預(yù)設(shè)閾值時(shí)，則無人艇群按照融合決策進(jìn)行協(xié)同，小于預(yù)設(shè)閾值時(shí)，繼續(xù)進(jìn)行優(yōu)化。本申請將智能實(shí)體間的信息融合，并根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值，通過決策函數(shù)模擬出實(shí)體針對所接受的不同信息做出不同的決策，然后對決策進(jìn)行反饋，計(jì)算決策的獎(jiǎng)勵(lì)期望，利用獎(jiǎng)勵(lì)期望來評估和融合不同特征的重要性，使得模型能夠更有效地處理不完全或不確定的信息。

技術(shù)研發(fā)人員：黃金才,宋惟韜,程光權(quán),黃魁華,杜航,張勇
受保護(hù)的技術(shù)使用者：中國人民解放軍國防科技大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/9/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃金才,宋惟韜,程光權(quán),黃魁華,杜航,張勇
技術(shù)所有人：中國人民解放軍國防科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種無人艇群的數(shù)據(jù)通信和協(xié)同方法