本發(fā)明涉及飛行器制導(dǎo)技術(shù)領(lǐng)域,特別是一種基于自適應(yīng)動態(tài)規(guī)劃的輸入受限微分對策制導(dǎo)方法。
背景技術(shù):
現(xiàn)代及未來作戰(zhàn)環(huán)境的日益多樣化,使得導(dǎo)彈制導(dǎo)律的設(shè)計越來越凸顯出其不可替代的作用。隨著航空航天技術(shù)的高速發(fā)展,各種強機動、智能化、靈巧化目標(如戰(zhàn)術(shù)彈道導(dǎo)彈、智能無人機、智能巡航導(dǎo)彈等)不斷涌現(xiàn)。這給攔截彈的制導(dǎo)與控制技術(shù)帶來嚴重的挑戰(zhàn)。傳統(tǒng)的制導(dǎo)律(比例制導(dǎo))由于其結(jié)構(gòu)簡單、易于實現(xiàn)的優(yōu)點,已經(jīng)被廣泛應(yīng)用于實際作戰(zhàn)系統(tǒng)中。然而,面對各類新型機動智能目標,傳統(tǒng)制導(dǎo)律的制導(dǎo)精度將明顯下降,已經(jīng)不能滿足未來作戰(zhàn)的要求。微分對策理論將對策論與最優(yōu)控制理論相結(jié)合,是一種描述雙方或多方連續(xù)動態(tài)沖突、競爭和合作問題的一種數(shù)學(xué)工具。與控制理論相比,具有更強的競爭性、對抗性和實用性。微分對策制導(dǎo)律的設(shè)計問題具體可描述為“追逃問題”,而這正好是微分對策理論所闡述的二人零和微分對策理論。因此,近年來,利用微分對策理論設(shè)計制導(dǎo)律的方法受到很多學(xué)者的關(guān)注。
然而,現(xiàn)有的微分對策制導(dǎo)律設(shè)計方法大部分基于線性系統(tǒng),即通過對導(dǎo)彈-目標動力學(xué)系統(tǒng)線性化,得到其線性系統(tǒng)模型,在此基礎(chǔ)上,利用微分對策理論設(shè)計制導(dǎo)律。但在實際應(yīng)用中,導(dǎo)彈-目標的“追逃問題”通常表現(xiàn)為非線性,強耦合系統(tǒng)。因此,發(fā)展導(dǎo)彈-目標的非線性微分對策制導(dǎo)律設(shè)計方法尤為重要。設(shè)計非線性微分對策制導(dǎo)律的前提是求解其相關(guān)的非線性Hamilton-Jacobi-Isaacs(HJI)方程。然而由于HJI方程本質(zhì)上屬于非線性偏微分方程,很難求出其解析解。因此,如何高效地求解HJI方程成為設(shè)計非線性微分對策制導(dǎo)律的關(guān)鍵問題。自適應(yīng)動態(tài)規(guī)劃技術(shù)是利用函數(shù)近似結(jié)構(gòu)來估計代價函數(shù),用于按時間正向求解動態(tài)規(guī)劃問題。近年來,被廣泛應(yīng)用于非線性最優(yōu)控制問題,具有很好的應(yīng)用前景。此外,在制導(dǎo)過程中,輸入受限問題可能導(dǎo)致制導(dǎo)過程失敗。因此,在設(shè)計制導(dǎo)律的過程中,考慮輸入受限問題至關(guān)重要,這更加符合實際應(yīng)用的要求。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的不足而提供一種基于自適應(yīng)動態(tài)規(guī)劃的輸入受限微分對策制導(dǎo)方法,旨在解決非線性微分對策問題中的HJI方程求解問題以及輸入飽和問題。該方法利用自適應(yīng)動態(tài)規(guī)劃技術(shù)實現(xiàn)非線性微分對策的輸入受限求解問題,結(jié)合神經(jīng)網(wǎng)絡(luò)和Lyapunov方法得到制導(dǎo)控制量。
本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
根據(jù)本發(fā)明提出的一種基于自適應(yīng)動態(tài)規(guī)劃的輸入受限微分對策制導(dǎo)方法,包括以下步驟:
步驟1、設(shè)導(dǎo)彈與目標的運動為質(zhì)點運動,且其速度大小恒定,定義M和T分別表示導(dǎo)彈和目標,VM表示導(dǎo)彈的速度,VT表示目標的速度;α表示導(dǎo)彈的航向角,β表示目標的航向角,表示α對時間的一階導(dǎo)數(shù),表示β對時間的一階導(dǎo)數(shù);θ為視線角;視線角速率表示為σ;導(dǎo)彈與目標之間的相對距離為r,表示r對時間的一階導(dǎo)數(shù);Vr表示導(dǎo)彈與目標之間的視線角相對速度;uM表示導(dǎo)彈垂直于速度向量的加速度控制量,vT表示目標垂直于速度向量的加速度控制量;建立二維平面導(dǎo)彈-目標的相對運動方程:
考慮導(dǎo)彈與目標均表現(xiàn)為一階自動駕駛儀,定義(xM,yM)為攔截彈在二維平面的坐標位置,且表示xM對時間的一階導(dǎo)數(shù),表示yM對時間的一階導(dǎo)數(shù);aM表示導(dǎo)彈側(cè)向加速度,表示aM對時間的一階導(dǎo)數(shù);τM為攔截彈自動駕駛儀時間常數(shù);攔截彈自動駕駛儀如公式(2)所示:
定義(xT,yT)是目標在二維平面的坐標位置,且為xT對時間的一階導(dǎo)數(shù),為yT對時間的一階導(dǎo)數(shù);aT表示目標側(cè)向加速度,表示aT對時間的一階導(dǎo)數(shù);τT為目標自動駕駛儀時間常數(shù);目標自動駕駛儀如公式(3)所示:
步驟2、基于平行接近法,在制導(dǎo)末時刻,通過保證導(dǎo)彈與目標之間的視線角速率等于零,即σ=0,從而保證導(dǎo)彈與目標之間的距離最小,實現(xiàn)成功攔截;對式(1)進行簡化,并定義為σ對時間的一階導(dǎo)數(shù);獲得關(guān)于視線角速率σ的微分方程
步驟3、設(shè)計新的獨立變量t=ln(r(0))-ln(r(t)),其中,r(0)表示導(dǎo)彈與目標之間的初始距離;r(t)表示在t時刻導(dǎo)彈與目標之間的距離;符號ln(·)表示對數(shù)運算;定義剩余時間tgo=-r/Vr;基于獨立變量定義狀態(tài)變量x1和x2,x1=θ,x2=σtgo,并將x1和x2表示為向量形式,即狀態(tài)變量x=[x1,x2]T=[θ,σtgo]T,上標T表示轉(zhuǎn)置;基于獨立變量t,對式(4)進行變換,得到新模型如下:
式(5)中,導(dǎo)彈和目標新的控制量u和v分別表示為
對公式(5)和(6)整理得到微分對策模型為:
x′=f(x)+g(x)u+k(x)v (7)
式(7)中,x′表示狀態(tài)變量x對獨立變量求導(dǎo),即,
導(dǎo)彈新的控制量u考慮輸入受限問題,表述為|u|≤λ,λ表示控制輸入飽和界限;
步驟4、根據(jù)二人零和微分對策方法,分別定義導(dǎo)彈和目標的反饋控制量為u(x)和v(x),得到輸入受限微分對策制導(dǎo)律如下:
其中,上標*表示變量的最優(yōu)值,R2>0為預(yù)先設(shè)計的正定對稱矩陣,上標-1表示求逆運算,R1為預(yù)先設(shè)定的正定對稱矩陣,Vx表示性能指標函數(shù)V(x)對狀態(tài)x求偏導(dǎo)數(shù),即,tanh(·)表示雙曲正切函數(shù);Q(x)≥0表示與狀態(tài)相關(guān)的半正定函數(shù),滿足如下HJI方程:
步驟5、執(zhí)行微分對策制導(dǎo)律;具體如下:
根據(jù)神經(jīng)網(wǎng)絡(luò)逼近方法,設(shè)計評價網(wǎng)絡(luò)近似最優(yōu)代價函數(shù),V*(x)的近似形式表示為
式(9)中,為評價網(wǎng)絡(luò)近似權(quán)值向量,σc(x)是評價網(wǎng)絡(luò)激活函數(shù)向量;
利用式(9),得到近似的輸入受限微分對策制導(dǎo)律,定義導(dǎo)彈的近似反饋控制量為目標的近似反饋控制量為表示為
其中,表示激活函數(shù)σc(x)對狀態(tài)x的偏導(dǎo)數(shù),即,
設(shè)計更新律如下:
式(11)中,表示對時間的一階導(dǎo)數(shù),ec為評價網(wǎng)絡(luò)的輸出誤差,Jx表示連續(xù)可微的徑向無界Lyapunov函數(shù)J(x)對狀態(tài)變量x求偏導(dǎo)數(shù);sgn(·)表示符號函數(shù);α1>0表示權(quán)值學(xué)習(xí)率;Y1和Y2表示設(shè)計參數(shù);定義為如下表達式:
表示函數(shù)J(x)對時間t求導(dǎo);
通過設(shè)計更新律,輸入受限微分對策制導(dǎo)律能夠在線執(zhí)行,完成對機動目標的攔截。
作為本發(fā)明所述的一種基于自適應(yīng)動態(tài)規(guī)劃的輸入受限微分對策制導(dǎo)方法進一步優(yōu)化方案,所述步驟4中構(gòu)建HJI方程、輸入受限微分對策制導(dǎo)律的具體過程如下:
定義性能指標函數(shù)為:
式(12)中,Q(x)≥0表示與狀態(tài)相關(guān)的半正定函數(shù),U(u)是與輸入飽和信息相關(guān)的非二次型函數(shù),定義如下:
式(13)中,tanh(·)表示雙曲正切函數(shù),上標-1表示求逆運算,υ表示積分變量;
定義Hamilton函數(shù)為:
其中,Vx表示性能指標函數(shù)V(x)對狀態(tài)變量x求偏導(dǎo)數(shù),即,
根據(jù)二人零和微分對策理論,推導(dǎo)得到輸入受限微分對策制導(dǎo)律如下:
將式(15)中的u*(x)表達式帶入式(13),并作運算,得如下表達式:
進而可得耦合HJI方程為:
作為本發(fā)明所述的一種基于自適應(yīng)動態(tài)規(guī)劃的輸入受限微分對策制導(dǎo)方法進一步優(yōu)化方案,τM=0.1s。
作為本發(fā)明所述的一種基于自適應(yīng)動態(tài)規(guī)劃的輸入受限微分對策制導(dǎo)方法進一步優(yōu)化方案,τT=0.1s。
作為本發(fā)明所述的一種基于自適應(yīng)動態(tài)規(guī)劃的輸入受限微分對策制導(dǎo)方法進一步優(yōu)化方案,
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
(1)本發(fā)明利用自適應(yīng)動態(tài)規(guī)劃技術(shù)研究微分對策制導(dǎo)問題,有效解決了耦合HJI方程的求解問題,使得非線性微分對策制導(dǎo)律設(shè)計成為可能,避免了非線性微分對策問題離線計算的缺點。
(2)本發(fā)明通過在設(shè)計制導(dǎo)律的過程中,考慮了輸入飽和受限問題,使得所設(shè)計的微分對策制導(dǎo)律更加合理,在飛行器制導(dǎo)技術(shù)領(lǐng)域?qū)崿F(xiàn)了自主化、智能化等要求;
(3)本發(fā)明通過構(gòu)造評價網(wǎng)絡(luò),設(shè)計權(quán)值更新律,近似估計最優(yōu)代價函數(shù),實現(xiàn)了微分對策制導(dǎo)律的在線學(xué)習(xí)能力;同時,保證了學(xué)習(xí)過程中系統(tǒng)的穩(wěn)定性。
附圖說明
圖1是本發(fā)明的導(dǎo)彈-目標的二維平面相對運動示意圖。
圖2為本發(fā)明方法的制導(dǎo)控制流程圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的技術(shù)方案做進一步的詳細說明:
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面結(jié)合附圖對本發(fā)明的設(shè)計過程作詳細說明。其中,自始至終相同或類似的符號表示相同或類似功能。
圖2為本發(fā)明方法的制導(dǎo)控制流程圖。
步驟1,建立二維平面導(dǎo)彈-目標的相對運動方程。
如圖1所示,假設(shè)導(dǎo)彈與目標的運動為質(zhì)點運動,且其速度大小恒定。定義M和T分別表示導(dǎo)彈和目標,VM和VT分別表示導(dǎo)彈和目標的速度;α和β分別表示導(dǎo)彈與目標的航向角,且分別表示航向角α,β對時間的一階導(dǎo)數(shù);θ為視線角;視線角速率表示為σ;導(dǎo)彈與目標之間的相對距離為r,表示r對時間的一階導(dǎo)數(shù);Vr表示導(dǎo)彈與目標之間的視線角相對速度;uM和vT分別表示導(dǎo)彈和目標垂直于速度向量的加速度控制量;則,導(dǎo)彈-目標的二維平面相對運動可表示為如下運動方程:
本發(fā)明考慮導(dǎo)彈與目標均表現(xiàn)為一階自動駕駛儀。
定義(xM,yM)為攔截彈在二維平面的坐標位置,且表示xM對時間的一階導(dǎo)數(shù),表示yM對時間的一階導(dǎo)數(shù);aM表示導(dǎo)彈側(cè)向加速度,表示aM對時間的一階導(dǎo)數(shù);τM為攔截彈自動駕駛儀時間常數(shù),在本發(fā)明中設(shè)定為τM=0.1s。則,攔截彈自動駕駛儀為:
定義(xT,yT)是目標在二維平面的坐標位置,且為xT對時間的一階導(dǎo)數(shù),為yT對時間的一階導(dǎo)數(shù);aT表示目標側(cè)向加速度,表示aT對時間的一階導(dǎo)數(shù);τT為目標自動駕駛儀時間常數(shù),在本發(fā)明中設(shè)定為τT=0.1s。則,目標自動駕駛儀為:
步驟2,基于平行接近法,在制導(dǎo)末時刻,通過保證導(dǎo)彈與目標之間的視線角速率等于零,即σ=0,從而保證導(dǎo)彈與目標之間的距離最小,實現(xiàn)成功攔截。通過對式(18)進行簡化,并定義為σ對時間的一階導(dǎo)數(shù),可獲得關(guān)于視線角速率σ的微分方程
式(21)中,隨著導(dǎo)彈與目標之間的距離不斷減小,將趨于無窮大,因此,系統(tǒng)函數(shù)不滿足Lipschitz條件。
步驟3,設(shè)計新的獨立變量其中r(0)表示導(dǎo)彈與目標之間的初始距離;r(t)表示在t時刻導(dǎo)彈與目標之間的距離;符號ln(·)表示對數(shù)運算。定義剩余時間tgo=-r/Vr;則,狀態(tài)變量x對獨立變量的導(dǎo)數(shù)可表示為:
基于獨立變量以及式(22),定義狀態(tài)變量x1=θ,x2=σtgo,將其表示為向量形式,即x=[x1,x2]T=[θ,σtgo]T,得到導(dǎo)彈-目標攔截系統(tǒng)新模型如下:
式(23)中,導(dǎo)彈和目標新的控制量u和v分別表示為
對式(23)和(24)整理可得到微分對策模型為:
x′=f(x)+g(x)u+k(x)v (25)
式(25)中,x′表示狀態(tài)變量x對獨立變量求導(dǎo),即,
導(dǎo)彈新的控制量u考慮輸入受限問題,可表述為|u|≤λ,λ表示控制輸入飽和界限。
此時,系統(tǒng)函數(shù)f(x)是局部Lipschitz連續(xù)的,且輸入函數(shù)g(x)和k(x)均有界。同時,我們可以看到,當(dāng)r(t)→0時,即,導(dǎo)彈與目標之間的有限時間動態(tài)博弈被轉(zhuǎn)化為無限時間動態(tài)博弈。因此,通過轉(zhuǎn)化,導(dǎo)彈-目標攔截制導(dǎo)律的設(shè)計問題,可以轉(zhuǎn)化為對非線性系統(tǒng)(25)的控制問題,這使得利用微分對策理論設(shè)計制導(dǎo)律成為可能。
步驟4,推導(dǎo)輸入受限微分對策閉環(huán)解形式
定義性能指標函數(shù)為:
式(26)中,Q(x)≥0是與狀態(tài)相關(guān)的半正定函數(shù),R2>0為預(yù)先設(shè)計的正定對稱矩陣;U(u)是與輸入飽和信息相關(guān)的非二次型函數(shù),本發(fā)明中,定義如下:
式(27)中,R1為預(yù)先設(shè)定的正定對稱矩陣,上標T表示轉(zhuǎn)置運算(下同),tanh(·)表示雙曲正切函數(shù),上標-1表示求逆運算(下同),υ表示積分變量。
定義Hamilton函數(shù)為:
其中,Vx表示性能指標函數(shù)V(x)對狀態(tài)變量x求偏導(dǎo)數(shù),即,
根據(jù)二人零和微分對策理論,分別定義導(dǎo)彈與目標的反饋控制量為u(x)和v(x),推導(dǎo)得到輸入受限微分對策制導(dǎo)律如下:
式(29)中,上標*表示變量的最優(yōu)值(下同);
將式(29)中的u*(x)表達式帶入式(27),并作簡單運算,可得如下表達式:
結(jié)合式(28),(29)和(30),可得耦合HJI方程為:
因此,只要能夠求解耦合HJI方程(31),輸入受限微分對策制導(dǎo)律即可獲得。但考慮到該HJI方程本質(zhì)上屬于非線性偏微分方程,很難獲得其解析解。因此,本發(fā)明將采用自適應(yīng)動態(tài)規(guī)劃技術(shù)近似求解該HJI方程。
步驟5,執(zhí)行微分對策制導(dǎo)律。
根據(jù)神經(jīng)網(wǎng)絡(luò)的全局逼近方法,本發(fā)明構(gòu)造評價網(wǎng)絡(luò)近似代價函數(shù)。其理想近似可表示為
式(32)中,Wc為評價網(wǎng)絡(luò)理想權(quán)值向量,σc(x)為評價網(wǎng)絡(luò)激活函數(shù),ε(x)表示近似逼近誤差。
由于理想近似中,理想權(quán)值Wc往往未知,不能直接用來執(zhí)行微分對策制導(dǎo)律,故采用實際近似方式表達。
實際近似可表示為
其中,分別表示其理想值V(x)和Wc的近似值。則評價網(wǎng)絡(luò)權(quán)值誤差為
利用式(33),我們可以得到近似的輸入受限微分對策制導(dǎo)律,在此,定義導(dǎo)彈的近似反饋控制量為目標的近似反饋控制量為表示為
其中,表示激活函數(shù)σc(x)對狀態(tài)x的偏導(dǎo)數(shù),即,
結(jié)合式(31)和(34),可以得到評價網(wǎng)絡(luò)的輸出誤差如下:
其中,
因此,我們需要設(shè)計評價網(wǎng)絡(luò)權(quán)值更新律,使得如下誤差函數(shù)最小化。換言之,評價網(wǎng)絡(luò)權(quán)值誤差趨近于,即,
另外,為了保證閉環(huán)系統(tǒng)在學(xué)習(xí)過程中的有界性,本發(fā)明設(shè)計一個連續(xù)可微的徑向無界Lyapunov函數(shù),表示為J(x),使得其能夠滿足如下條件:其中表示函數(shù)J(x)對時間t求導(dǎo),Jx表示函數(shù)J(x)對狀態(tài)x求偏導(dǎo)數(shù),即,
基于梯度下降方法,綜合考慮閉環(huán)系統(tǒng)的穩(wěn)定性,設(shè)計如下評價網(wǎng)絡(luò)更新律:
式(37)中,表示對時間的一階導(dǎo)數(shù),ec為評價網(wǎng)絡(luò)的輸出誤差,sgn(·)表示符號函數(shù);α1>0表示權(quán)值學(xué)習(xí)率。Y1和Y2表示設(shè)計參數(shù);定義為如下表達式:
基于以上評價網(wǎng)絡(luò)更新律,輸入受限微分對策制導(dǎo)律(34)可以在線實時獲得,使得導(dǎo)彈-目標相對運動關(guān)系中的視線角速率σ趨近于零,從而保證攔截成功。
以上所述,僅是本發(fā)明的部分實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進,這些改進應(yīng)視為本發(fā)明的保護范圍。