基于IPPO算法的航天器追逐控制方法

文檔序號(hào)：39440716發(fā)布日期：2024-09-20 22:41閱讀：57來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及多航天器控制分配，具體是涉及一種基于ippo算法的航天器追逐控制方法。

背景技術(shù)：

1、現(xiàn)代航天器在完成目標(biāo)近距離接近時(shí)，大多采用基于cw方程的運(yùn)動(dòng)模型，cw方程是連續(xù)的微分方程，能夠描述航天器的運(yùn)動(dòng)隨時(shí)間的連續(xù)變化，這使得cw方程能夠提供對(duì)航天器狀態(tài)的實(shí)時(shí)更新，有助于實(shí)時(shí)導(dǎo)航、控制和任務(wù)規(guī)劃，根據(jù)cw方程的解析解形式，在可接受的范圍內(nèi)進(jìn)行合理的假設(shè)忽略了在相應(yīng)情景下的極小變量，使航天器控制的數(shù)學(xué)形式直觀清晰、邏輯性強(qiáng)，簡(jiǎn)化了航天器運(yùn)動(dòng)控制時(shí)的復(fù)雜方程并且降低了計(jì)算量，同時(shí)增強(qiáng)了地面工作人員對(duì)航天器的控制和反饋體驗(yàn)。航天器的追逐、跟蹤、接近通常采用多脈沖交會(huì)法與平行接近法，這些方法利用航天器運(yùn)動(dòng)模型的解析形式，在初始狀態(tài)的已知的情況下進(jìn)行定量的計(jì)算從而得到相應(yīng)控制量的大小。

2、但這些傳統(tǒng)的控制技術(shù)計(jì)算量要求較大，求解復(fù)雜，適應(yīng)度差，要求初始狀態(tài)已知，且目標(biāo)不具備自主規(guī)避能力，難以跟蹤具有一定運(yùn)動(dòng)能力的目標(biāo)，難以在未知環(huán)境進(jìn)行博弈，沒有考慮到航天器機(jī)載計(jì)算機(jī)的性能限制。傳統(tǒng)的控制系統(tǒng)通常依賴于數(shù)學(xué)模型和規(guī)則，這些模型和規(guī)則可能難以捕捉到復(fù)雜系統(tǒng)的所有變化和情況。而人工智能技術(shù)能夠通過學(xué)習(xí)和適應(yīng)，使得控制系統(tǒng)能夠更好地適應(yīng)各種環(huán)境和變化。許多現(xiàn)代系統(tǒng)具有非線性和復(fù)雜的特性，傳統(tǒng)的控制方法難以對(duì)其進(jìn)行準(zhǔn)確建模和控制。人工智能技術(shù)如深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)可以在某種程度上來解決這些問題，實(shí)現(xiàn)對(duì)復(fù)雜系統(tǒng)的精確控制。同時(shí)人工智能技術(shù)在控制領(lǐng)域中也廣泛應(yīng)用于實(shí)時(shí)決策和優(yōu)化問題?？傊?，人工智能技術(shù)的應(yīng)用是現(xiàn)代航天器設(shè)計(jì)和制造的必要趨勢(shì)，可以為航天器的性能、安全性和自主控制能力提供更穩(wěn)定和可靠的保障。然而，航天器數(shù)量增加，以及目標(biāo)物具有一定的規(guī)避能力時(shí)，如何施加合理的控制指令給航天器成為了新的需要解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、發(fā)明目的：針對(duì)以上缺點(diǎn)，本發(fā)明提供一種更好控制效果的基于ippo算法的航天器追逐控制方法。

2、技術(shù)方案：為解決上述問題，本發(fā)明采用一種基于ippo算法的航天器追逐控制方法，包括以下步驟：

3、（1）建立基于深度強(qiáng)化學(xué)習(xí)的航天器控制模型，將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程；

4、（2）根據(jù)ippo算法，搭建多航天器逐層優(yōu)化策略網(wǎng)絡(luò)，并進(jìn)行訓(xùn)練；航天器與環(huán)境交互后，通過獎(jiǎng)勵(lì)函數(shù)獲得每一步的獎(jiǎng)勵(lì)，神經(jīng)網(wǎng)絡(luò)利用這些獎(jiǎng)勵(lì)通過ippo算法進(jìn)行相應(yīng)的更新；具體包括：

5、（2.1）基于初始化目標(biāo)狀態(tài)，在設(shè)定環(huán)境中采用ppo算法訓(xùn)練單個(gè)航天器神經(jīng)網(wǎng)絡(luò)模型；

6、（2.2）基于已訓(xùn)練好的單個(gè)航天器神經(jīng)網(wǎng)絡(luò)模型，在設(shè)定環(huán)境中采用ppo算法訓(xùn)練目標(biāo)神經(jīng)網(wǎng)絡(luò)模型；

7、（2.3）基于已訓(xùn)練好的單個(gè)航天器神經(jīng)網(wǎng)絡(luò)模型和目標(biāo)神經(jīng)網(wǎng)絡(luò)模型，在設(shè)定環(huán)境中對(duì)單個(gè)航天器和目標(biāo)各自采用ppo算法進(jìn)行博弈訓(xùn)練；

8、（2.4）基于步驟（2.3）中已訓(xùn)練好的單個(gè)航天器神經(jīng)網(wǎng)絡(luò)模型和目標(biāo)神經(jīng)網(wǎng)絡(luò)模型，對(duì)多個(gè)航天器基于ippo算法在設(shè)定的環(huán)境中進(jìn)行訓(xùn)練；

9、（3）多航天器利用訓(xùn)練好的策略網(wǎng)絡(luò)，根據(jù)自身對(duì)環(huán)境的觀測(cè)信息輸出控制指令，實(shí)現(xiàn)多航天器追逐目標(biāo)控制。

10、進(jìn)一步的，所述步驟（1）中基于深度強(qiáng)化學(xué)習(xí)的航天器控制模型為：

11、；

12、其中，為航天器當(dāng)前狀態(tài)，航天器采取動(dòng)作后的更新狀態(tài)，為狀態(tài)更新矩陣；動(dòng)作為航天器脈沖控制量；

13、狀態(tài)更新矩陣的表達(dá)式為：

14、；

15、其中，為參考軌道角速度；為仿真步長(zhǎng)。

16、進(jìn)一步的，所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中，構(gòu)建的航天器的獎(jiǎng)勵(lì)函數(shù)包括：終端獎(jiǎng)勵(lì)、距離獎(jiǎng)勵(lì)、燃料獎(jiǎng)勵(lì)；

17、航天器的終端獎(jiǎng)勵(lì)為：若航天器接近目標(biāo)至預(yù)設(shè)范圍內(nèi)時(shí)，此時(shí)認(rèn)為完成任務(wù)給予航天器一個(gè)正的數(shù)值獎(jiǎng)勵(lì)，若航天器到達(dá)仿真最大步數(shù)還未接近目標(biāo)至預(yù)設(shè)范圍內(nèi)時(shí)，則終端獎(jiǎng)勵(lì)為0；

18、航天器的距離獎(jiǎng)勵(lì)為：航天器與目標(biāo)之間的距離相關(guān)的負(fù)值獎(jiǎng)勵(lì)，航天器與目標(biāo)之間的距離越小，距離獎(jiǎng)勵(lì)的絕對(duì)值越?。?/p>

19、航天器的燃料獎(jiǎng)勵(lì)為：與航天器的脈沖控制量絕對(duì)值相關(guān)的負(fù)值函數(shù)。

20、進(jìn)一步的，所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中，構(gòu)建的目標(biāo)的獎(jiǎng)勵(lì)函數(shù)包括：終端獎(jiǎng)勵(lì)、距離獎(jiǎng)勵(lì)、燃料獎(jiǎng)勵(lì)；

21、目標(biāo)的終端獎(jiǎng)勵(lì)為：若航天器到達(dá)仿真最大步數(shù)還未接近目標(biāo)至預(yù)設(shè)范圍內(nèi)時(shí)，此時(shí)認(rèn)為目標(biāo)完成了規(guī)避任務(wù)給予目標(biāo)一個(gè)正的數(shù)值獎(jiǎng)勵(lì)，若航天器接近目標(biāo)至預(yù)設(shè)范圍內(nèi)時(shí)，給予目標(biāo)一個(gè)負(fù)的數(shù)值；

22、目標(biāo)的距離獎(jiǎng)勵(lì)為：目標(biāo)與航天器之間的距離相關(guān)的正值獎(jiǎng)勵(lì)，目標(biāo)與航天器之間的距離越大，距離獎(jiǎng)勵(lì)的絕對(duì)值越大；

23、目標(biāo)的燃料獎(jiǎng)勵(lì)為：與目標(biāo)的脈沖控制量絕對(duì)值相關(guān)的負(fù)值函數(shù)。

24、進(jìn)一步的，所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中，構(gòu)建的狀態(tài)空間為航天器與目標(biāo)在坐標(biāo)系的相對(duì)距離和航天器與目標(biāo)的相對(duì)速度，其表達(dá)形式為：

25、；

26、其中，為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)距離，為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)距離，為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)距離；為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)速度，為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)速度，為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)速度。

27、進(jìn)一步的，所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中，構(gòu)建的動(dòng)作空間為航天器在坐標(biāo)系上的三軸的脈沖控制量，其表達(dá)形式為:

28、；

29、其中，為航天器在坐標(biāo)軸上的脈沖控制量，為航天器在坐標(biāo)軸上的脈沖控制量，為航天器在坐標(biāo)軸上的脈沖控制量。

30、進(jìn)一步的，所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中，構(gòu)建的策略網(wǎng)絡(luò)actor設(shè)置為深度為三層的神經(jīng)網(wǎng)絡(luò)，其中輸入層結(jié)構(gòu)為[6,128]；隱藏層為[128,128]；輸出層為[128,3]，策略網(wǎng)絡(luò)actor輸入為航天器的六維狀態(tài)，輸出為三維的脈沖控制量。

31、進(jìn)一步的，所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中，構(gòu)建的狀態(tài)價(jià)值網(wǎng)絡(luò)critic設(shè)置為深度為三層的神經(jīng)網(wǎng)絡(luò)，其中輸入層結(jié)構(gòu)為[6,128]；隱藏層為[128,128];輸出層為[128,1]，狀態(tài)價(jià)值網(wǎng)絡(luò)critic輸入為航天器的六維狀態(tài)，輸出為對(duì)該狀態(tài)的價(jià)值評(píng)估。

32、進(jìn)一步的，所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中，所采用的激活函數(shù)均為tanh函數(shù)。

33、有益效果：本發(fā)明相對(duì)于現(xiàn)有技術(shù)，其顯著優(yōu)點(diǎn)是通過神經(jīng)網(wǎng)絡(luò)智能控制克服了傳統(tǒng)控制計(jì)算復(fù)雜、難以追逐具有自主運(yùn)動(dòng)能力的目標(biāo)等不足，通過逐層優(yōu)化訓(xùn)練，提高了算法的收斂速度，克服了航天器運(yùn)動(dòng)時(shí)狀態(tài)空間過大的問題導(dǎo)致的訓(xùn)練效率不高的問題?？紤]到目標(biāo)的自主運(yùn)動(dòng)，以及航天器的控制量約束，從簡(jiǎn)單的情景下增加難度訓(xùn)練，提高了航天器神經(jīng)網(wǎng)絡(luò)的性能與泛化能力，提高了航天器的控制精度，可靠性更高。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邵書義,陳熠祺,陳謀
技術(shù)所有人：南京航空航天大學(xué)
我是此專利的發(fā)明人

上一篇：一種建材加工噴漆裝置的制作方法
上一篇：一種新型防水光纜RFID標(biāo)簽的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于IPPO算法的航天器追逐控制方法