本發(fā)明涉及多航天器控制分配,具體是涉及一種基于ippo算法的航天器追逐控制方法。
背景技術(shù):
1、現(xiàn)代航天器在完成目標(biāo)近距離接近時(shí),大多采用基于cw方程的運(yùn)動(dòng)模型,cw方程是連續(xù)的微分方程,能夠描述航天器的運(yùn)動(dòng)隨時(shí)間的連續(xù)變化,這使得cw方程能夠提供對(duì)航天器狀態(tài)的實(shí)時(shí)更新,有助于實(shí)時(shí)導(dǎo)航、控制和任務(wù)規(guī)劃,根據(jù)cw方程的解析解形式,在可接受的范圍內(nèi)進(jìn)行合理的假設(shè)忽略了在相應(yīng)情景下的極小變量,使航天器控制的數(shù)學(xué)形式直觀清晰、邏輯性強(qiáng),簡(jiǎn)化了航天器運(yùn)動(dòng)控制時(shí)的復(fù)雜方程并且降低了計(jì)算量,同時(shí)增強(qiáng)了地面工作人員對(duì)航天器的控制和反饋體驗(yàn)。航天器的追逐、跟蹤、接近通常采用多脈沖交會(huì)法與平行接近法,這些方法利用航天器運(yùn)動(dòng)模型的解析形式,在初始狀態(tài)的已知的情況下進(jìn)行定量的計(jì)算從而得到相應(yīng)控制量的大小。
2、但這些傳統(tǒng)的控制技術(shù)計(jì)算量要求較大,求解復(fù)雜,適應(yīng)度差,要求初始狀態(tài)已知,且目標(biāo)不具備自主規(guī)避能力,難以跟蹤具有一定運(yùn)動(dòng)能力的目標(biāo),難以在未知環(huán)境進(jìn)行博弈,沒有考慮到航天器機(jī)載計(jì)算機(jī)的性能限制。傳統(tǒng)的控制系統(tǒng)通常依賴于數(shù)學(xué)模型和規(guī)則,這些模型和規(guī)則可能難以捕捉到復(fù)雜系統(tǒng)的所有變化和情況。而人工智能技術(shù)能夠通過學(xué)習(xí)和適應(yīng),使得控制系統(tǒng)能夠更好地適應(yīng)各種環(huán)境和變化。許多現(xiàn)代系統(tǒng)具有非線性和復(fù)雜的特性,傳統(tǒng)的控制方法難以對(duì)其進(jìn)行準(zhǔn)確建模和控制。人工智能技術(shù)如深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)可以在某種程度上來解決這些問題,實(shí)現(xiàn)對(duì)復(fù)雜系統(tǒng)的精確控制。同時(shí)人工智能技術(shù)在控制領(lǐng)域中也廣泛應(yīng)用于實(shí)時(shí)決策和優(yōu)化問題??傊?,人工智能技術(shù)的應(yīng)用是現(xiàn)代航天器設(shè)計(jì)和制造的必要趨勢(shì),可以為航天器的性能、安全性和自主控制能力提供更穩(wěn)定和可靠的保障。然而,航天器數(shù)量增加,以及目標(biāo)物具有一定的規(guī)避能力時(shí),如何施加合理的控制指令給航天器成為了新的需要解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:針對(duì)以上缺點(diǎn),本發(fā)明提供一種更好控制效果的基于ippo算法的航天器追逐控制方法。
2、技術(shù)方案:為解決上述問題,本發(fā)明采用一種基于ippo算法的航天器追逐控制方法,包括以下步驟:
3、(1)建立基于深度強(qiáng)化學(xué)習(xí)的航天器控制模型,將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程;
4、(2)根據(jù)ippo算法,搭建多航天器逐層優(yōu)化策略網(wǎng)絡(luò),并進(jìn)行訓(xùn)練;航天器與環(huán)境交互后,通過獎(jiǎng)勵(lì)函數(shù)獲得每一步的獎(jiǎng)勵(lì),神經(jīng)網(wǎng)絡(luò)利用這些獎(jiǎng)勵(lì)通過ippo算法進(jìn)行相應(yīng)的更新;具體包括:
5、(2.1)基于初始化目標(biāo)狀態(tài),在設(shè)定環(huán)境中采用ppo算法訓(xùn)練單個(gè)航天器神經(jīng)網(wǎng)絡(luò)模型;
6、(2.2)基于已訓(xùn)練好的單個(gè)航天器神經(jīng)網(wǎng)絡(luò)模型,在設(shè)定環(huán)境中采用ppo算法訓(xùn)練目標(biāo)神經(jīng)網(wǎng)絡(luò)模型;
7、(2.3)基于已訓(xùn)練好的單個(gè)航天器神經(jīng)網(wǎng)絡(luò)模型和目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,在設(shè)定環(huán)境中對(duì)單個(gè)航天器和目標(biāo)各自采用ppo算法進(jìn)行博弈訓(xùn)練;
8、(2.4)基于步驟(2.3)中已訓(xùn)練好的單個(gè)航天器神經(jīng)網(wǎng)絡(luò)模型和目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,對(duì)多個(gè)航天器基于ippo算法在設(shè)定的環(huán)境中進(jìn)行訓(xùn)練;
9、(3)多航天器利用訓(xùn)練好的策略網(wǎng)絡(luò),根據(jù)自身對(duì)環(huán)境的觀測(cè)信息輸出控制指令,實(shí)現(xiàn)多航天器追逐目標(biāo)控制。
10、進(jìn)一步的,所述步驟(1)中基于深度強(qiáng)化學(xué)習(xí)的航天器控制模型為:
11、;
12、其中,為航天器當(dāng)前狀態(tài),航天器采取動(dòng)作后的更新狀態(tài),為狀態(tài)更新矩陣;動(dòng)作為航天器脈沖控制量;
13、狀態(tài)更新矩陣的表達(dá)式為:
14、;
15、其中,為參考軌道角速度;為仿真步長(zhǎng)。
16、進(jìn)一步的,所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中,構(gòu)建的航天器的獎(jiǎng)勵(lì)函數(shù)包括:終端獎(jiǎng)勵(lì)、距離獎(jiǎng)勵(lì)、燃料獎(jiǎng)勵(lì);
17、航天器的終端獎(jiǎng)勵(lì)為:若航天器接近目標(biāo)至預(yù)設(shè)范圍內(nèi)時(shí),此時(shí)認(rèn)為完成任務(wù)給予航天器一個(gè)正的數(shù)值獎(jiǎng)勵(lì),若航天器到達(dá)仿真最大步數(shù)還未接近目標(biāo)至預(yù)設(shè)范圍內(nèi)時(shí),則終端獎(jiǎng)勵(lì)為0;
18、航天器的距離獎(jiǎng)勵(lì)為:航天器與目標(biāo)之間的距離相關(guān)的負(fù)值獎(jiǎng)勵(lì),航天器與目標(biāo)之間的距離越小,距離獎(jiǎng)勵(lì)的絕對(duì)值越?。?/p>
19、航天器的燃料獎(jiǎng)勵(lì)為:與航天器的脈沖控制量絕對(duì)值相關(guān)的負(fù)值函數(shù)。
20、進(jìn)一步的,所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中,構(gòu)建的目標(biāo)的獎(jiǎng)勵(lì)函數(shù)包括:終端獎(jiǎng)勵(lì)、距離獎(jiǎng)勵(lì)、燃料獎(jiǎng)勵(lì);
21、目標(biāo)的終端獎(jiǎng)勵(lì)為:若航天器到達(dá)仿真最大步數(shù)還未接近目標(biāo)至預(yù)設(shè)范圍內(nèi)時(shí),此時(shí)認(rèn)為目標(biāo)完成了規(guī)避任務(wù)給予目標(biāo)一個(gè)正的數(shù)值獎(jiǎng)勵(lì),若航天器接近目標(biāo)至預(yù)設(shè)范圍內(nèi)時(shí),給予目標(biāo)一個(gè)負(fù)的數(shù)值;
22、目標(biāo)的距離獎(jiǎng)勵(lì)為:目標(biāo)與航天器之間的距離相關(guān)的正值獎(jiǎng)勵(lì),目標(biāo)與航天器之間的距離越大,距離獎(jiǎng)勵(lì)的絕對(duì)值越大;
23、目標(biāo)的燃料獎(jiǎng)勵(lì)為:與目標(biāo)的脈沖控制量絕對(duì)值相關(guān)的負(fù)值函數(shù)。
24、進(jìn)一步的,所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中,構(gòu)建的狀態(tài)空間為航天器與目標(biāo)在坐標(biāo)系的相對(duì)距離和航天器與目標(biāo)的相對(duì)速度,其表達(dá)形式為:
25、;
26、其中,為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)距離,為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)距離,為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)距離;為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)速度,為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)速度,為坐標(biāo)軸上航天器與目標(biāo)的相對(duì)速度。
27、進(jìn)一步的,所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中,構(gòu)建的動(dòng)作空間為航天器在坐標(biāo)系上的三軸的脈沖控制量,其表達(dá)形式為:
28、;
29、其中,為航天器在坐標(biāo)軸上的脈沖控制量,為航天器在坐標(biāo)軸上的脈沖控制量,為航天器在坐標(biāo)軸上的脈沖控制量。
30、進(jìn)一步的,所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中,構(gòu)建的策略網(wǎng)絡(luò)actor設(shè)置為深度為三層的神經(jīng)網(wǎng)絡(luò),其中輸入層結(jié)構(gòu)為[6,128];隱藏層為[128,128];輸出層為[128,3],策略網(wǎng)絡(luò)actor輸入為航天器的六維狀態(tài),輸出為三維的脈沖控制量。
31、進(jìn)一步的,所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中,構(gòu)建的狀態(tài)價(jià)值網(wǎng)絡(luò)critic設(shè)置為深度為三層的神經(jīng)網(wǎng)絡(luò),其中輸入層結(jié)構(gòu)為[6,128];隱藏層為[128,128];輸出層為[128,1],狀態(tài)價(jià)值網(wǎng)絡(luò)critic輸入為航天器的六維狀態(tài),輸出為對(duì)該狀態(tài)的價(jià)值評(píng)估。
32、進(jìn)一步的,所述將控制航天器追逐目標(biāo)問題描述為馬爾科夫決策過程中,所采用的激活函數(shù)均為tanh函數(shù)。
33、有益效果:本發(fā)明相對(duì)于現(xiàn)有技術(shù),其顯著優(yōu)點(diǎn)是通過神經(jīng)網(wǎng)絡(luò)智能控制克服了傳統(tǒng)控制計(jì)算復(fù)雜、難以追逐具有自主運(yùn)動(dòng)能力的目標(biāo)等不足,通過逐層優(yōu)化訓(xùn)練,提高了算法的收斂速度,克服了航天器運(yùn)動(dòng)時(shí)狀態(tài)空間過大的問題導(dǎo)致的訓(xùn)練效率不高的問題??紤]到目標(biāo)的自主運(yùn)動(dòng),以及航天器的控制量約束,從簡(jiǎn)單的情景下增加難度訓(xùn)練,提高了航天器神經(jīng)網(wǎng)絡(luò)的性能與泛化能力,提高了航天器的控制精度,可靠性更高。