本發(fā)明涉及多無人艇協(xié)同圍捕控制領(lǐng)域,具體涉及一種基于通道注意力機(jī)制深度強(qiáng)化學(xué)習(xí)算法的多無人艇協(xié)同圍捕方法。
背景技術(shù):
1、隨著國內(nèi)外無人平臺的研究高速發(fā)展,無人艇作為一種小型海上無人任務(wù)平臺,兼具高速智能、靈活隱蔽等特點,軍事應(yīng)用價值顯著;伴隨無人裝備的加速發(fā)展,無人作戰(zhàn)將成為未來戰(zhàn)爭中的重要作戰(zhàn)樣式。無人集群自主執(zhí)行任務(wù)的能力是提升其作戰(zhàn)效能的關(guān)鍵;與單艘無人艇相比,多艘無人艇具有負(fù)載能力強(qiáng)、覆蓋范圍廣、信息處理能力強(qiáng)等特點。多無人艇協(xié)同狩獵問題是國內(nèi)外多無人系統(tǒng)研究的熱點問題,在軍事領(lǐng)域具有重要意義。
2、相較于單艘無人艇海上作業(yè),多無人艇協(xié)同任務(wù)仍存在著較大的提升空間,傳統(tǒng)的控制方法未考慮到海上復(fù)雜的動態(tài)環(huán)境變化,任務(wù)完成效率較低;如何提升無人艇集群在復(fù)雜多變的海上環(huán)境決策能力是影響無人艇在軍事應(yīng)用普及的關(guān)鍵因素。多無人艇協(xié)同圍捕主要面臨如下幾個難點:首先海上逃逸目標(biāo)行為較為復(fù)雜,?雙方博弈過程中的當(dāng)前決策需要充分考慮前后階段產(chǎn)生的影響結(jié)果,傳統(tǒng)的路徑規(guī)劃指導(dǎo)不適用于動態(tài)目標(biāo)圍捕任務(wù);其次海上多變的對抗博弈環(huán)境要求無人艇集群在執(zhí)行協(xié)同任務(wù)時具有一定的魯棒性,在少量無人艇因突發(fā)情況損毀時仍需具備繼續(xù)執(zhí)行任務(wù)的能力;最后策略網(wǎng)絡(luò)需要具備一定的可拓展性,可以適應(yīng)無人艇集群在執(zhí)行不同任務(wù)中數(shù)量的動態(tài)變化。
技術(shù)實現(xiàn)思路
1、針對多無人艇協(xié)同圍捕面臨的上述難點,本發(fā)明提出一種基于通道注意力機(jī)制深度強(qiáng)化學(xué)習(xí)算法的多無人艇協(xié)同圍捕方法,通過改進(jìn)的通道注意力機(jī)制和集群與單體相結(jié)合的獎勵函數(shù)設(shè)計,結(jié)合該問題結(jié)構(gòu)特征,克服該問題面臨的動態(tài)逃逸目標(biāo)行為復(fù)雜、集群任務(wù)執(zhí)行的穩(wěn)定性以及集群動態(tài)數(shù)量變化的難點。
2、實現(xiàn)本發(fā)明目的的技術(shù)方案為:一種基于通道注意力機(jī)制深度強(qiáng)化學(xué)習(xí)算法的多無人艇協(xié)同圍捕方法,包括如下步驟:
3、步驟1,建立多無人艇協(xié)同圍捕海域環(huán)境;并將海域環(huán)境中的島礁信息以及各無人艇位置角度信息參數(shù)化,給出逃逸船的策略函數(shù);
4、步驟2,將無人艇的交互信息建模成馬爾可夫決策模型,設(shè)計多無人艇協(xié)同圍捕任務(wù)動作空間,觀測空間和獎勵函數(shù);
5、步驟3,構(gòu)建通道注意力網(wǎng)絡(luò),對友方無人艇狀態(tài)觀測信息進(jìn)行處理后與逃逸艇和自身狀態(tài)觀測信息進(jìn)行拼接輸入到算法模塊中;
6、步驟4,構(gòu)建基于actor-critic的目標(biāo)網(wǎng)絡(luò),將無人艇的動作,狀態(tài)和獎勵作為批經(jīng)驗存儲經(jīng)驗池中,在訓(xùn)練過程中,中心化的評價函數(shù)critic使用經(jīng)驗池中的聯(lián)合經(jīng)驗來更新網(wǎng)絡(luò)參數(shù),而actor函數(shù)會依據(jù)?critic?給出的q值更新策略;
7、步驟5,在執(zhí)行階段用更新后的?actor決策函數(shù)進(jìn)行去中心化決策,執(zhí)行階段僅使用自身的局部觀測得到策略。
8、進(jìn)一步的,步驟1包括:
9、步驟1-1,建立所述海域的空間坐標(biāo)系并規(guī)定空間坐標(biāo)系的正方向,設(shè)置海域的邊界以及各無人艇和島礁的位置坐標(biāo)信息;
10、步驟1-2,定義如下圍捕成功條件:
11、?(1)
12、其中,表示我方圍捕艇到逃逸艇的歐式距離,表示逃逸艇的圍捕半徑,表示我方相鄰圍捕艇之間的夾角;
13、步驟1-3,建立如下逃逸策略:
14、??????????????????(2)
15、其中,表示敵方逃逸艇的逃逸速度向量,表示我方圍捕艇的位置坐標(biāo)信息,表示逃逸艇的位置坐標(biāo)信息,表示我方圍捕艇到逃逸艇的歐式距離,為引力調(diào)節(jié)系數(shù),表示島礁的位置坐標(biāo)信息。
16、進(jìn)一步的,步驟2包括:
17、步驟2-1,對于多無人艇協(xié)同圍捕任務(wù)可描述為馬爾可夫博弈,用元組表示,為全局狀態(tài),圍捕艇的聯(lián)合觀測空間為為圍捕艇的聯(lián)合動作空間,表示在狀態(tài)下采取策略動作后轉(zhuǎn)移到下一個狀態(tài)的轉(zhuǎn)移概率,為累計折扣獎勵的衰減系數(shù);
18、步驟2-2,建立圍捕艇二階運動學(xué)方程,并定義連續(xù)動作空間:
19、?(3)
20、?(4)
21、其中,公式(3)中和分別表示無人艇的線速度和角速度,和分別表示無人艇的線速度和角速度相對于時間的導(dǎo)數(shù),和分別表示無人艇的線加速度和角加速度,表示無人艇在海域上的位置坐標(biāo),和分別表示無人艇在橫縱坐標(biāo)方向下的瞬時速度,為無人艇的航向角,?為無人艇的瞬時航向角;公式(4)中,表示無人艇在時刻下在海域上的位置坐標(biāo),為無人艇的二維連續(xù)動作空間,其中為無人艇在軸方向上輸出的瞬時速度,為無人艇在軸方向上輸出的瞬時速度,時間間隔,表示無人艇在時刻下經(jīng)過時間間隔后在海域上的位置坐標(biāo);策略網(wǎng)絡(luò)輸出動作后無人艇根據(jù)公式(4)進(jìn)行位置更新;
22、步驟2-3,對于第艘無人艇,定義觀測空間如下:
23、?(5)
24、?(6)
25、其中,公式(5)表示無人艇的觀測空間包含:對逃逸艇的觀測,對參與同一協(xié)同圍捕任務(wù)的友方無人艇的觀測以及自身的狀態(tài)觀測;公式(6)表示這三部分觀測的組成成分,其中和表示為逃逸艇相對于無人艇的舷角及其變化率;距離逃逸艇的距離及其變化率;敵方的速度及其變化率;和表示為無人艇相距于友方無人艇的距離和變化率,表示相互間的舷角及其變化率,表示無人艇和無人艇的夾角;無人艇左右相鄰友方無人艇的夾角差值為,表示為圍捕艇群體距離逃逸艇的距離均值;
26、步驟2-4,?對于無人艇集群協(xié)同圍捕任務(wù)設(shè)計獎勵函數(shù)如下:
27、?(7)
28、?(8)
29、?(9)
30、????(10)
31、(11)
32、其中,公式(7)表示無人艇的獎勵函數(shù)由單體獎勵和集群獎勵構(gòu)成;公式(8)表示單體獎勵由4部分組成,分別是距離獎勵,避碰獎勵,角度獎勵以及進(jìn)入圍捕圈內(nèi)的額外獎勵;公式(9)表示集群獎勵由兩部分組成,分別是距離協(xié)作獎勵和角度協(xié)作獎勵;公式(10)中為參與圍捕任務(wù)的我方所有圍捕艇個數(shù),表示無人艇相距于友方無人艇的最短距離,表示我方任意一艘圍捕艇進(jìn)入到敵方圍捕區(qū)域內(nèi)所獲獎勵,表示我方全部圍捕艇均進(jìn)入敵方圍捕區(qū)域所獲獎勵;公式(11)中和分別表示距離協(xié)作獎勵和角度協(xié)作獎勵,無人艇左右相鄰友方無人艇的夾角差值為,表示為圍捕艇群體距離逃逸艇的距離均值。
33、進(jìn)一步的,步驟3包括:
34、步驟3-1,讀取每艘無人艇對友方無人艇的觀測信息;
35、步驟3-2,對觀測信息不同類型屬性進(jìn)行特征重構(gòu),使角度,距離觀測值在同一定量尺度上,得到n組維向量;
36、步驟3-3,將n組維特征向量經(jīng)過3個不同深度的全連接層,得到同一組觀測狀態(tài)的3個不同尺度表達(dá);
37、步驟3-4,將3個不同尺度的狀態(tài)表達(dá)作為通道注意力模塊的輸入,經(jīng)過壓縮激勵層,得到7個通道之間的權(quán)重關(guān)系,最后與輸入信息進(jìn)行加權(quán)平均輸出。
38、進(jìn)一步的,步驟4包括:
39、步驟4-1,初始化艘無人艇的價值網(wǎng)絡(luò),策略網(wǎng)絡(luò)參數(shù)的網(wǎng)絡(luò)參數(shù)和,并將和復(fù)制傳遞給對應(yīng)目標(biāo)網(wǎng)絡(luò)的參數(shù);初始化經(jīng)驗庫,其中價值網(wǎng)絡(luò)表示在參數(shù)確定下,無人艇從狀態(tài)開始,在選擇動作后,能夠獲得的期望累計獎勵;策略網(wǎng)絡(luò)表示在參數(shù)確定下,網(wǎng)絡(luò)以當(dāng)前狀態(tài)作為輸入,輸出動作的參數(shù)化分布,和分別表示部署在第1艘至第艘我方圍捕無人艇上價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的參數(shù);
40、步驟4-2,?當(dāng)經(jīng)驗庫存儲數(shù)據(jù)大于預(yù)設(shè)閾值時,隨機(jī)從中抽取組序列作為一個批次對在線網(wǎng)絡(luò)進(jìn)行訓(xùn)練;
41、步驟4-3,?以第組序列為例定義目標(biāo)值如下:
42、(12)
43、其中為經(jīng)驗池中存儲的經(jīng)驗數(shù)據(jù)即當(dāng)下時刻的狀態(tài),動作,獎勵和下一時刻狀態(tài)的四元組,目標(biāo)值為,?其中為當(dāng)下時刻的獎勵,為累計折扣獎勵的衰減系數(shù),表示為無人艇從下一時刻狀態(tài)開始通過策略網(wǎng)絡(luò)選擇動作,能夠獲得的期望累積獎勵;公式(12)作為目標(biāo)q值,定義損失函數(shù)如下:
44、(13)
45、最小化更新在線critic網(wǎng)絡(luò)參數(shù),其中為從經(jīng)驗池中抽取的序列總組數(shù),表示無人艇從狀態(tài)開始,在選擇動作后,能夠獲得的期望累計獎勵;
46、步驟4-4,?樣本策略梯度如下:
47、(14)
48、表示對目標(biāo)策略函數(shù)求關(guān)于的梯度,通過梯度下降更新網(wǎng)絡(luò)參數(shù),其中表示對無人艇在狀態(tài)下的策略網(wǎng)絡(luò)函數(shù)求關(guān)于的梯度,表示從狀態(tài)開始,通過各個圍捕無人艇策略網(wǎng)絡(luò)得到聯(lián)合動作后,能夠獲得的期望累積獎勵,根據(jù)梯度的鏈?zhǔn)椒▌t,表示對價值網(wǎng)絡(luò)求關(guān)于的梯度;
49、步驟4-5,滑動法更新目標(biāo)網(wǎng)絡(luò)參數(shù),?:
50、(15)
51、其中為更新超參數(shù),和為更新之前的critic網(wǎng)絡(luò)和actor網(wǎng)絡(luò)參數(shù)。
52、進(jìn)一步的,步驟5包括:
53、每個無人艇根據(jù)actor決策函數(shù)通過自身的局部觀測采取合適的動作,不需要與其他智能體的狀態(tài)進(jìn)行交互。
54、一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述方法的步驟。
55、一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)上述方法的步驟。
56、一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述方法的步驟。
57、本發(fā)明由于采用以上技術(shù)方案,能夠取得如下的技術(shù)效果:建立的多無人艇協(xié)同圍捕控制馬氏決策模型能夠有效表征在復(fù)雜環(huán)境中動態(tài)逃逸目標(biāo)未來不確定圍捕策略需求,同時考慮了執(zhí)行圍捕策略前后變化的環(huán)境狀態(tài)影響結(jié)果,從而能夠提高集群對復(fù)雜環(huán)境下動態(tài)逃逸目標(biāo)圍捕的適應(yīng)能力。基于上述馬氏決策模型,提出了改進(jìn)的通道注意力機(jī)制,結(jié)合特征重構(gòu)后的不同維度觀測類型,能夠有處理集群動態(tài)數(shù)量變化的難點,同時本算法設(shè)計了集群與單體相結(jié)合的獎勵函數(shù),相比于傳統(tǒng)控制器方法,能夠在少量無人艇因突發(fā)情況損毀時仍具備繼續(xù)執(zhí)行任務(wù)的能力。