本發(fā)明屬于無(wú)人艇,具體涉及一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法。
背景技術(shù):
1、探索先進(jìn)的無(wú)人艇跟蹤攔截技術(shù),建設(shè)具有高效率、高可靠的無(wú)人艇智能跟蹤攔截系統(tǒng),對(duì)于提升無(wú)人艇在復(fù)雜海況下的跟蹤攔截能力具有重大意義。作為海上無(wú)人系統(tǒng)的重要組成部分,高效且安全的跟蹤攔截系統(tǒng)是保障海上領(lǐng)土安全的關(guān)鍵。研究無(wú)人艇艦隊(duì)跟蹤攔截方法,不僅能為新一代無(wú)人艇智能自主作業(yè)提供理論支撐,同時(shí)也為無(wú)人艇在海上跟蹤攔截提供堅(jiān)實(shí)的技術(shù)保障。
2、隨著新一代自動(dòng)駕駛技術(shù)的發(fā)展,無(wú)人艇已經(jīng)能夠協(xié)助甚至取代人工處理高風(fēng)險(xiǎn)任務(wù),如打擊海上走私、販毒、海盜等海上犯罪情況,有利于減少人員傷亡。在這些任務(wù)中,無(wú)人艇需要在復(fù)雜多變的海洋環(huán)境中盡可能快地?cái)r截移動(dòng)船只,確保成功率。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法,(1)為加快模型訓(xùn)練速度,提出了一種單神經(jīng)元比例自適應(yīng)控制方法對(duì)策略網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練;(2)為實(shí)現(xiàn)安全穩(wěn)定地追蹤目標(biāo)船,采用了基于演員-評(píng)論家方案的安全李雅普諾夫深度策略性梯度算法。與現(xiàn)有技術(shù)相比,本發(fā)明提升了系統(tǒng)的跟蹤攔截效率,降低攔截耗時(shí),有效提高了系統(tǒng)跟蹤攔截的魯棒性、安全性和穩(wěn)定性,為無(wú)人艇攔截控制系統(tǒng)的可靠安全運(yùn)行提供了解決方案。
2、本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案如下:
3、步驟1:構(gòu)建基于比例引導(dǎo)和單神經(jīng)元自適應(yīng)控制的單神經(jīng)元比例自適應(yīng)控制追蹤方法;
4、步驟2:構(gòu)建基于演員-評(píng)論家方案的李雅普諾夫函數(shù)的深度策略性梯度算法。
5、進(jìn)一步地,所述步驟1具體為:
6、步驟1-1:以攔截艇和入侵艇的速度信息和位置信息作為參考量,根據(jù)運(yùn)動(dòng)學(xué)關(guān)系計(jì)算出攔截艇的下一預(yù)測(cè)狀態(tài):x'd,y'd,ψ'd;
7、步驟1-2:將攔截艇預(yù)測(cè)狀態(tài)與入侵艇當(dāng)前狀態(tài)的航跡偏差作為神經(jīng)元的輸入變量,經(jīng)過(guò)比例積分控制器,輸出控制律u(k),得到運(yùn)動(dòng)力矩,控制攔截艇的運(yùn)動(dòng);
8、步驟1-3:通過(guò)對(duì)攔截艇的當(dāng)前狀態(tài)的反饋,調(diào)整攔截艇的速度、航向,實(shí)現(xiàn)對(duì)入侵艇的追蹤;
9、步驟1-4:通過(guò)輸入攔截艇和入侵艇的狀態(tài)信息和動(dòng)作信息,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,得到初始參數(shù),完成對(duì)策略網(wǎng)絡(luò)的預(yù)訓(xùn)練。
10、進(jìn)一步地,所述步驟2具體為:
11、步驟2-1:根據(jù)環(huán)境信息st在預(yù)訓(xùn)練的輸出狀態(tài)中選取at,設(shè)為訓(xùn)練模型的初始狀態(tài),通過(guò)環(huán)境交互獲得動(dòng)作at對(duì)應(yīng)的獎(jiǎng)勵(lì)rt以及下一狀態(tài)st+1,得到新數(shù)據(jù)組(st,at,rt,ct,st+1),形成經(jīng)驗(yàn)數(shù)據(jù)并存儲(chǔ)于經(jīng)驗(yàn)池;
12、步驟2-2:經(jīng)驗(yàn)池的經(jīng)驗(yàn)數(shù)據(jù)達(dá)到預(yù)設(shè)量時(shí),從經(jīng)驗(yàn)池中隨機(jī)采樣經(jīng)驗(yàn)數(shù)據(jù)作為樣本數(shù)據(jù),將當(dāng)前狀態(tài)和動(dòng)作輸入到在線演員網(wǎng)絡(luò)中,計(jì)算價(jià)值函數(shù)q(s,a),將下一狀態(tài)st+1輸入到演員目標(biāo)網(wǎng)絡(luò)中,選出對(duì)應(yīng)的動(dòng)作at+1,目標(biāo)評(píng)論家網(wǎng)絡(luò)輸入下一狀態(tài)和動(dòng)作,計(jì)算價(jià)值函數(shù)q'(s,a)值,由目標(biāo)評(píng)論家網(wǎng)絡(luò)與當(dāng)前網(wǎng)絡(luò)的價(jià)值函數(shù)計(jì)算價(jià)值網(wǎng)絡(luò)的價(jià)值梯度,通過(guò)神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來(lái)更新當(dāng)前評(píng)論家網(wǎng)絡(luò)的所有參數(shù);
13、步驟2-3:若輸出數(shù)據(jù)不安全,則經(jīng)過(guò)安全網(wǎng)絡(luò)使用李雅普諾夫邊界函數(shù)訓(xùn)練最小化在線演員網(wǎng)絡(luò)的損失函數(shù),計(jì)算策略網(wǎng)絡(luò)的策略梯度,通過(guò)神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來(lái)更新當(dāng)前演員網(wǎng)絡(luò)的所有參數(shù);
14、步驟2-4:通過(guò)軟更新不斷地進(jìn)行調(diào)整演員和評(píng)論家網(wǎng)絡(luò)的參數(shù),直至達(dá)到邊界,獲取路徑規(guī)劃模型。
15、本發(fā)明的有益效果如下:
16、(1)本發(fā)明通過(guò)設(shè)計(jì)比例導(dǎo)引法和單神經(jīng)元自適應(yīng)控制策略對(duì)策略網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,縮短了后向跟蹤場(chǎng)景下的攔截時(shí)間,在前向攔截場(chǎng)景下具有更強(qiáng)的魯棒性,以減少訓(xùn)練步驟,提高初始獎(jiǎng)勵(lì)。
17、(2)本發(fā)明通過(guò)引入安全李雅普諾夫網(wǎng)絡(luò),具有較高的初始獎(jiǎng)勵(lì)和平滑的獎(jiǎng)勵(lì)收斂曲線,為無(wú)人艇攔截水上移動(dòng)目標(biāo)提供支持。
1.一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法,其特征在于,所述步驟1具體為:
3.根據(jù)權(quán)利要求2所述的一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法,其特征在于,所述步驟2具體為: