一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法

文檔序號(hào)：40239068發(fā)布日期：2024-12-06 17:04閱讀：13來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于無(wú)人艇，具體涉及一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法。

背景技術(shù)：

1、探索先進(jìn)的無(wú)人艇跟蹤攔截技術(shù)，建設(shè)具有高效率、高可靠的無(wú)人艇智能跟蹤攔截系統(tǒng)，對(duì)于提升無(wú)人艇在復(fù)雜海況下的跟蹤攔截能力具有重大意義。作為海上無(wú)人系統(tǒng)的重要組成部分，高效且安全的跟蹤攔截系統(tǒng)是保障海上領(lǐng)土安全的關(guān)鍵。研究無(wú)人艇艦隊(duì)跟蹤攔截方法，不僅能為新一代無(wú)人艇智能自主作業(yè)提供理論支撐，同時(shí)也為無(wú)人艇在海上跟蹤攔截提供堅(jiān)實(shí)的技術(shù)保障。

2、隨著新一代自動(dòng)駕駛技術(shù)的發(fā)展，無(wú)人艇已經(jīng)能夠協(xié)助甚至取代人工處理高風(fēng)險(xiǎn)任務(wù)，如打擊海上走私、販毒、海盜等海上犯罪情況，有利于減少人員傷亡。在這些任務(wù)中，無(wú)人艇需要在復(fù)雜多變的海洋環(huán)境中盡可能快地?cái)r截移動(dòng)船只，確保成功率。

技術(shù)實(shí)現(xiàn)思路

1、為了克服現(xiàn)有技術(shù)的不足，本發(fā)明提供了一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法，(1)為加快模型訓(xùn)練速度，提出了一種單神經(jīng)元比例自適應(yīng)控制方法對(duì)策略網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練；(2)為實(shí)現(xiàn)安全穩(wěn)定地追蹤目標(biāo)船，采用了基于演員-評(píng)論家方案的安全李雅普諾夫深度策略性梯度算法。與現(xiàn)有技術(shù)相比，本發(fā)明提升了系統(tǒng)的跟蹤攔截效率，降低攔截耗時(shí)，有效提高了系統(tǒng)跟蹤攔截的魯棒性、安全性和穩(wěn)定性，為無(wú)人艇攔截控制系統(tǒng)的可靠安全運(yùn)行提供了解決方案。

2、本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案如下：

3、步驟1：構(gòu)建基于比例引導(dǎo)和單神經(jīng)元自適應(yīng)控制的單神經(jīng)元比例自適應(yīng)控制追蹤方法；

4、步驟2：構(gòu)建基于演員-評(píng)論家方案的李雅普諾夫函數(shù)的深度策略性梯度算法。

5、進(jìn)一步地，所述步驟1具體為：

6、步驟1-1：以攔截艇和入侵艇的速度信息和位置信息作為參考量，根據(jù)運(yùn)動(dòng)學(xué)關(guān)系計(jì)算出攔截艇的下一預(yù)測(cè)狀態(tài)：x'd,y'd,ψ'd；

7、步驟1-2：將攔截艇預(yù)測(cè)狀態(tài)與入侵艇當(dāng)前狀態(tài)的航跡偏差作為神經(jīng)元的輸入變量，經(jīng)過(guò)比例積分控制器，輸出控制律u(k)，得到運(yùn)動(dòng)力矩，控制攔截艇的運(yùn)動(dòng)；

8、步驟1-3：通過(guò)對(duì)攔截艇的當(dāng)前狀態(tài)的反饋，調(diào)整攔截艇的速度、航向，實(shí)現(xiàn)對(duì)入侵艇的追蹤；

9、步驟1-4：通過(guò)輸入攔截艇和入侵艇的狀態(tài)信息和動(dòng)作信息，訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，得到初始參數(shù)，完成對(duì)策略網(wǎng)絡(luò)的預(yù)訓(xùn)練。

10、進(jìn)一步地，所述步驟2具體為：

11、步驟2-1：根據(jù)環(huán)境信息st在預(yù)訓(xùn)練的輸出狀態(tài)中選取at，設(shè)為訓(xùn)練模型的初始狀態(tài)，通過(guò)環(huán)境交互獲得動(dòng)作at對(duì)應(yīng)的獎(jiǎng)勵(lì)rt以及下一狀態(tài)st+1，得到新數(shù)據(jù)組(st,at,rt,ct,st+1)，形成經(jīng)驗(yàn)數(shù)據(jù)并存儲(chǔ)于經(jīng)驗(yàn)池；

12、步驟2-2：經(jīng)驗(yàn)池的經(jīng)驗(yàn)數(shù)據(jù)達(dá)到預(yù)設(shè)量時(shí)，從經(jīng)驗(yàn)池中隨機(jī)采樣經(jīng)驗(yàn)數(shù)據(jù)作為樣本數(shù)據(jù)，將當(dāng)前狀態(tài)和動(dòng)作輸入到在線演員網(wǎng)絡(luò)中，計(jì)算價(jià)值函數(shù)q(s,a)，將下一狀態(tài)st+1輸入到演員目標(biāo)網(wǎng)絡(luò)中，選出對(duì)應(yīng)的動(dòng)作at+1，目標(biāo)評(píng)論家網(wǎng)絡(luò)輸入下一狀態(tài)和動(dòng)作，計(jì)算價(jià)值函數(shù)q'(s,a)值，由目標(biāo)評(píng)論家網(wǎng)絡(luò)與當(dāng)前網(wǎng)絡(luò)的價(jià)值函數(shù)計(jì)算價(jià)值網(wǎng)絡(luò)的價(jià)值梯度，通過(guò)神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來(lái)更新當(dāng)前評(píng)論家網(wǎng)絡(luò)的所有參數(shù)；

13、步驟2-3：若輸出數(shù)據(jù)不安全，則經(jīng)過(guò)安全網(wǎng)絡(luò)使用李雅普諾夫邊界函數(shù)訓(xùn)練最小化在線演員網(wǎng)絡(luò)的損失函數(shù)，計(jì)算策略網(wǎng)絡(luò)的策略梯度，通過(guò)神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來(lái)更新當(dāng)前演員網(wǎng)絡(luò)的所有參數(shù)；

14、步驟2-4：通過(guò)軟更新不斷地進(jìn)行調(diào)整演員和評(píng)論家網(wǎng)絡(luò)的參數(shù)，直至達(dá)到邊界，獲取路徑規(guī)劃模型。

15、本發(fā)明的有益效果如下：

16、(1)本發(fā)明通過(guò)設(shè)計(jì)比例導(dǎo)引法和單神經(jīng)元自適應(yīng)控制策略對(duì)策略網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練，縮短了后向跟蹤場(chǎng)景下的攔截時(shí)間，在前向攔截場(chǎng)景下具有更強(qiáng)的魯棒性，以減少訓(xùn)練步驟，提高初始獎(jiǎng)勵(lì)。

17、(2)本發(fā)明通過(guò)引入安全李雅普諾夫網(wǎng)絡(luò)，具有較高的初始獎(jiǎng)勵(lì)和平滑的獎(jiǎng)勵(lì)收斂曲線，為無(wú)人艇攔截水上移動(dòng)目標(biāo)提供支持。

技術(shù)特征：

1.一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法，其特征在于，包括如下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法，其特征在于，所述步驟1具體為：

3.根據(jù)權(quán)利要求2所述的一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法，其特征在于，所述步驟2具體為：

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法，(1)為加快模型訓(xùn)練速度，提出了一種單神經(jīng)元比例自適應(yīng)控制方法對(duì)策略網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練；(2)為實(shí)現(xiàn)安全穩(wěn)定地追蹤目標(biāo)船，采用了基于演員?評(píng)論家方案的安全李雅普諾夫深度策略性梯度算法。與現(xiàn)有技術(shù)相比，本發(fā)明提升了系統(tǒng)的跟蹤攔截效率，降低攔截耗時(shí)，有效提高了系統(tǒng)跟蹤攔截的魯棒性、安全性和穩(wěn)定性，為無(wú)人艇攔截控制系統(tǒng)的可靠安全運(yùn)行提供了解決方案。

技術(shù)研發(fā)人員：杜彬,王楠,楊坤德,張衛(wèi)東,黃悅欣,謝威,孫志堅(jiān)
受保護(hù)的技術(shù)使用者：西北工業(yè)大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/5

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：杜彬,王楠,楊坤德,張衛(wèi)東,黃悅欣,謝威,孫志堅(jiān)
技術(shù)所有人：西北工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于深度策略性梯度的無(wú)人艇對(duì)抗反制方法