本發(fā)明屬于通信,尤其涉及一種無人艇群的數(shù)據(jù)通信和協(xié)同方法。
背景技術(shù):
1、多智能體(如無人機(jī)、無人艇)間的通信尤為重要。2016年,j.n.foerster等人最先提出基于通信機(jī)制的多智能體強(qiáng)化學(xué)習(xí)交互方式rial,先將智能體的決策網(wǎng)絡(luò)一分為二,動(dòng)作選擇網(wǎng)絡(luò)和消息網(wǎng)絡(luò)。之后,作者又提出dial算法,增加了反饋循環(huán)以提升魯棒性。2016年,facebook?ai?research團(tuán)隊(duì)提出了commnet,使用了集中訓(xùn)練集中執(zhí)行框架,給出了分層分組廣播消息的想法。2017年,peng等人使用雙向rnn作為通信通道,使用基于策略梯度的更新方法進(jìn)行參數(shù)更新,提出了bicnet算法,但是該算法要求獲取全局狀態(tài)進(jìn)行訓(xùn)練,在真實(shí)場景中有一定的困難性。2018年,北京大學(xué)團(tuán)隊(duì)提出了atoc算法,該算法不同于上述預(yù)定義式的通信方式,最先放松了限制,讓智能體決定是否通信、何時(shí)通信和與哪一個(gè)智能體通信。算法采用了actor-critic框架,更新過程基于ddpg算法。2019年,d.kim等人又再次對atoc算法進(jìn)行改進(jìn),考慮了真實(shí)場景中通信的信道是有限性,引入了通信領(lǐng)域的medium?access?control對智能體間發(fā)送的信息進(jìn)行了約束;2019年,facebook?airesearch團(tuán)隊(duì)提出了tarmac算法,該算法引入了多頭注意力機(jī)制對發(fā)送信息進(jìn)行融合,基于局部狀態(tài)和歷史信息分別生成查詢向量和鍵值對信息,對發(fā)送信息進(jìn)行基于自注意機(jī)制的高效選取。2020年,哈佛大學(xué)研究團(tuán)隊(duì)提出了tmc算法,引入了信息增益值得概念,開始嘗試避免不必要的收發(fā)操作,進(jìn)而做到高效的通信。
2、上述方法只能針對已有的信息進(jìn)行基于注意力機(jī)制的高效選取,缺乏對信息的對抗觀測和基于自身觀測對于整個(gè)智能系統(tǒng)關(guān)系的圖建模,進(jìn)而生成更加準(zhǔn)確和表達(dá)力強(qiáng)的信息。另一方面,在多智能體的通信交互過程中,缺乏對于真實(shí)場景下間斷通信,通信中斷保障等問題的研究,只能在特定的仿真平臺中運(yùn)行,更缺乏到真實(shí)場景中的遷移能力。
技術(shù)實(shí)現(xiàn)思路
1、針對開放環(huán)境細(xì)節(jié)眾多、任務(wù)繁雜、難以從簡單仿真環(huán)境進(jìn)行直接遷移的問題,本申請?jiān)跇?gòu)建多智能體系統(tǒng)圖模型的基礎(chǔ)上將智能實(shí)體間的信息融合,并根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值,通過決策函數(shù)模擬出實(shí)體針對所接受的不同信息做出不同的決策,然后對決策進(jìn)行反饋,計(jì)算決策的獎(jiǎng)勵(lì)期望,構(gòu)建面向環(huán)境突變的多智能體不確定圖模型和動(dòng)態(tài)環(huán)境下的多智能體時(shí)序圖模型。
2、為實(shí)現(xiàn)上述目的,本申請公開的無人艇群的數(shù)據(jù)通信和協(xié)同方法,包括以下步驟:
3、建立由無人艇群組成的多智能體系統(tǒng)中的拓?fù)浣Y(jié)構(gòu),一個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)多智能系統(tǒng)中的無人艇,各個(gè)節(jié)點(diǎn)之間的邊表示無人艇間的數(shù)據(jù)通信;
4、每個(gè)無人艇與其它無人艇之間的信息進(jìn)行融合,得到融合后的信息;
5、每個(gè)無人艇基于其動(dòng)作價(jià)值函數(shù)計(jì)算行動(dòng)反饋值;
6、根據(jù)行動(dòng)反饋值計(jì)算融合決策;
7、計(jì)算決策的期望獎(jiǎng)勵(lì),當(dāng)期望獎(jiǎng)勵(lì)值大于預(yù)設(shè)閾值時(shí),則無人艇群按照融合決策進(jìn)行協(xié)同,小于預(yù)設(shè)閾值時(shí),繼續(xù)進(jìn)行優(yōu)化。
8、進(jìn)一步地,計(jì)算無人艇i與無人艇j的融合信息fij如下:
9、
10、其中,σ是激活函數(shù),k是通信鏈路總數(shù),表示無人艇i與無人艇j之間在通信鏈路k上的信息傳遞概率,表示無人艇i與無人艇j之間在通信鏈路k上傳遞的共享信息,是無人艇i的局部觀測矩陣,n是矩陣的維數(shù)。
11、進(jìn)一步地,根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值如下:
12、
13、表示無人艇i根據(jù)t時(shí)刻與無人艇j之間在通信鏈路k上的通信信息基礎(chǔ)上的動(dòng)作價(jià)值函數(shù),ai,t表示無人艇i在時(shí)刻t的動(dòng)作,si,t表示無人艇i在時(shí)刻t的狀態(tài),表示無人艇i根據(jù)t-1時(shí)刻與無人艇j之間在通信鏈路k上的通信信息基礎(chǔ)上的動(dòng)作價(jià)值函數(shù),ai,t―1表示無人艇i在時(shí)刻t-1的動(dòng)作,si,t―1表示無人艇i在時(shí)刻t-1的狀態(tài),q(,)是q函數(shù),r(,)是獎(jiǎng)勵(lì),當(dāng)y(i)>1時(shí),為正反饋,當(dāng)y(i)<1時(shí),為負(fù)反饋。
14、進(jìn)一步地,根據(jù)正反饋、負(fù)反饋融合計(jì)算決策;
15、
16、為正反饋,為負(fù)反饋,μ0和μ1分別是負(fù)反饋和正反饋的均值,σ0和σ1分別是負(fù)反饋和正反饋的方差,aggregate為融合函數(shù)。
17、進(jìn)一步地,得到?jīng)Q策的期望獎(jiǎng)勵(lì)為:
18、e[rt|st=s,dt=d](ai,t)
19、ai,t表示無人艇i在t時(shí)刻的動(dòng)作,上式表示轉(zhuǎn)移到狀態(tài)st下且采取決策dt時(shí)獲得的期望獎(jiǎng)勵(lì)。
20、本申請的有益效果如下:
21、本申請?jiān)跇?gòu)建多智能體系統(tǒng)圖模型的基礎(chǔ)上將智能實(shí)體間的信息融合,并根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值,通過決策函數(shù)模擬出實(shí)體針對所接受的不同信息做出不同的決策,然后對決策進(jìn)行反饋,計(jì)算決策的期望獎(jiǎng)勵(lì),利用期望獎(jiǎng)勵(lì)來評估和融合不同特征的重要性,使得模型能夠更有效地處理不完全或不確定的信息。
1.一種無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,計(jì)算無人艇i與無人艇j的融合信息fij如下:
3.根據(jù)權(quán)利要求2所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,根據(jù)動(dòng)作價(jià)值函數(shù)計(jì)算反饋值如下:
4.根據(jù)權(quán)利要求3所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,根據(jù)正反饋、負(fù)反饋融合計(jì)算決策;
5.根據(jù)權(quán)利要求4所述的無人艇群的數(shù)據(jù)通信和協(xié)同方法,其特征在于,得到?jīng)Q策的期望獎(jiǎng)勵(lì)為: