本發(fā)明屬于機(jī)器人領(lǐng)域,具體涉及一種預(yù)定性能下抗擾動(dòng)的無(wú)人機(jī)強(qiáng)化學(xué)習(xí)追蹤控制方法,旨在實(shí)現(xiàn)無(wú)人機(jī)在預(yù)定性能下的抗擾動(dòng)高效追蹤控制。
背景技術(shù):
1、無(wú)人機(jī)在軍事、民用、商業(yè)等領(lǐng)域的應(yīng)用越來(lái)越廣泛,無(wú)人機(jī)的追蹤控制是無(wú)人機(jī)應(yīng)用的重要技術(shù)之一。無(wú)人機(jī)追蹤控制是指無(wú)人機(jī)在執(zhí)行任務(wù)時(shí),根據(jù)任務(wù)要求,實(shí)現(xiàn)無(wú)人機(jī)實(shí)際軌跡對(duì)期望軌跡的有效追蹤。無(wú)人機(jī)追蹤控制的性能直接影響無(wú)人機(jī)的任務(wù)執(zhí)行效果,因此,提高無(wú)人機(jī)的追蹤控制性能是無(wú)人機(jī)應(yīng)用的重要研究方向。
2、現(xiàn)有的無(wú)人機(jī)追蹤控制方法主要包括模型預(yù)測(cè)控制、自適應(yīng)控制、魯棒控制等方法。這些方法在一定程度上提高了無(wú)人機(jī)的追蹤控制性能,但是在實(shí)際應(yīng)用中,無(wú)人機(jī)追蹤控制仍然存在一些問(wèn)題,包括無(wú)人機(jī)追蹤控制性能不穩(wěn)定、抗擾動(dòng)性能差、無(wú)人機(jī)控制輸入計(jì)算量大等問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有無(wú)人機(jī)追蹤控制方法存在的問(wèn)題,提高無(wú)人機(jī)的追蹤控制性能和抗擾動(dòng)性能,本發(fā)明提供了一種預(yù)定性能下抗擾動(dòng)的無(wú)人機(jī)強(qiáng)化學(xué)習(xí)追蹤控制方法?;趶?qiáng)化學(xué)習(xí)的方法,通過(guò)建立預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤控制動(dòng)力學(xué)系統(tǒng),設(shè)計(jì)無(wú)人機(jī)最優(yōu)控制器,考慮無(wú)人機(jī)最壞擾動(dòng),實(shí)現(xiàn)了在預(yù)定性能下的無(wú)人機(jī)追蹤控制,并提升了無(wú)人機(jī)追蹤控制的抗擾動(dòng)性能。
2、為了達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:
3、一種預(yù)定性能下抗擾動(dòng)的無(wú)人機(jī)強(qiáng)化學(xué)習(xí)追蹤控制方法,包括如下步驟:
4、步驟一:設(shè)置無(wú)人機(jī)速度控制動(dòng)力學(xué)系統(tǒng)和期望軌跡xd,根據(jù)期望軌跡和無(wú)人機(jī)速度控制動(dòng)力學(xué)系統(tǒng)建立無(wú)人機(jī)追蹤控制動(dòng)力學(xué)系統(tǒng):
5、
6、其中x為無(wú)人機(jī)速度控制動(dòng)力學(xué)系統(tǒng)的狀態(tài)變量,xd為期望軌跡的狀態(tài)變量,f(x)為無(wú)人機(jī)速度控制動(dòng)力學(xué)系統(tǒng)的偏移動(dòng)態(tài),g(x)為無(wú)人機(jī)速度控制動(dòng)力學(xué)系統(tǒng)的輸入矩陣,k(x)為無(wú)人機(jī)速度控制動(dòng)力學(xué)系統(tǒng)的擾動(dòng)矩陣,fd為期望軌跡的偏移動(dòng)態(tài),e=x-xd為無(wú)人機(jī)的追蹤誤差,為追蹤誤差e的導(dǎo)數(shù),u為無(wú)人機(jī)控制輸入,ω為無(wú)人機(jī)擾動(dòng)輸入;
7、步驟二:根據(jù)步驟一建立的無(wú)人機(jī)追蹤控制動(dòng)力學(xué)系統(tǒng),為實(shí)現(xiàn)無(wú)人機(jī)追蹤控制過(guò)程中滿足預(yù)定的誤差范圍,將無(wú)人機(jī)的追蹤誤差e映射到無(wú)人機(jī)轉(zhuǎn)化追蹤誤差上,得到預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)化追蹤誤差,在得到的預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)化追蹤誤差上進(jìn)行后續(xù)的追蹤控制器設(shè)計(jì)即能滿足預(yù)定的誤差范圍要求,即預(yù)定性能;預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤誤差如下所示:
8、∈i=φ(ei,εl,i,εu,i)
9、εl,i≤ei≤εu,i
10、其中ei為追蹤誤差的第i個(gè)分量,εl,i和εu,i分別為追蹤誤差的第i個(gè)分量的下界和上界,∈i為無(wú)人機(jī)轉(zhuǎn)換追蹤誤差的第i個(gè)分量,φ(ei,εl,i,εu,i)為追蹤誤差的第i個(gè)分量的轉(zhuǎn)換函數(shù);
11、步驟三:根據(jù)步驟二建立的預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤誤差,建立預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤誤差的動(dòng)態(tài):
12、
13、其中φi表示無(wú)人機(jī)轉(zhuǎn)化追蹤誤差的第i個(gè)分量關(guān)于上下界鏈?zhǔn)綄?dǎo)數(shù)之和,為追蹤誤差e的第i個(gè)分量的導(dǎo)數(shù),和分別為追蹤誤差的第i個(gè)分量的下界和上界的導(dǎo)數(shù);
14、步驟四:根據(jù)步驟三建立的預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤誤差的動(dòng)態(tài),建立預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤控制動(dòng)力學(xué)系統(tǒng):
15、
16、其中f=h(f(x)-fd),g=h×g(x),k=h×k(x);
17、步驟五:根據(jù)步驟四建立的預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤控制動(dòng)力學(xué)系統(tǒng),設(shè)置無(wú)人機(jī)二次型性能指標(biāo):
18、
19、其中q為系統(tǒng)狀態(tài)懲罰矩陣,γ為擾動(dòng)衰減系數(shù),為無(wú)人機(jī)控制輸入懲罰函數(shù),usat為無(wú)人機(jī)控制輸入飽和值,r為無(wú)人機(jī)控制輸入懲罰矩陣;
20、步驟六:根據(jù)步驟五設(shè)置的無(wú)人機(jī)二次型性能指標(biāo),建立預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤控制動(dòng)力學(xué)系統(tǒng)的無(wú)人機(jī)最優(yōu)控制輸入和無(wú)人機(jī)最壞擾動(dòng):
21、
22、其中為無(wú)人機(jī)二次型性能指標(biāo)j的梯度,u*為無(wú)人機(jī)最優(yōu)控制輸入,ω*為無(wú)人機(jī)最壞擾動(dòng);
23、步驟七:根據(jù)步驟五建立的無(wú)人機(jī)二次型性能指標(biāo)與步驟六建立的預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤控制動(dòng)力學(xué)系統(tǒng)的無(wú)人機(jī)最優(yōu)控制輸入和無(wú)人機(jī)最壞擾動(dòng),建立并訓(xùn)練神經(jīng)網(wǎng)絡(luò),用于逼近無(wú)人機(jī)二次型性能指標(biāo)j:
24、
25、其中為神經(jīng)網(wǎng)絡(luò)的權(quán)重,ψ(∈)為神經(jīng)網(wǎng)絡(luò)的基元,為無(wú)人機(jī)二次型性能指標(biāo)的神經(jīng)網(wǎng)絡(luò)逼近;
26、步驟八:根據(jù)步驟七建立的神經(jīng)網(wǎng)絡(luò),建立預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤控制動(dòng)力學(xué)系統(tǒng)的無(wú)人機(jī)最優(yōu)控制輸入的神經(jīng)網(wǎng)絡(luò)逼近和最壞擾動(dòng)的神經(jīng)網(wǎng)絡(luò)逼近:
27、
28、其中為無(wú)人機(jī)最優(yōu)控制輸入的神經(jīng)網(wǎng)絡(luò)逼近,為無(wú)人機(jī)最壞擾動(dòng)的神經(jīng)網(wǎng)絡(luò)逼近;
29、通過(guò)計(jì)算步驟八設(shè)計(jì)的的無(wú)人機(jī)最優(yōu)控制輸入的神經(jīng)網(wǎng)絡(luò)逼近和最壞擾動(dòng)的神經(jīng)網(wǎng)絡(luò)逼近,無(wú)人機(jī)實(shí)現(xiàn)預(yù)定性能下抗擾動(dòng)的追蹤控制,提高了無(wú)人機(jī)的追蹤控制性能和抗擾動(dòng)性能。
30、和現(xiàn)有技術(shù)相比較,本發(fā)明具備如下優(yōu)點(diǎn):
31、1.本發(fā)明通過(guò)建立預(yù)定性能下的無(wú)人機(jī)轉(zhuǎn)換追蹤控制動(dòng)力學(xué)系統(tǒng),設(shè)計(jì)無(wú)人機(jī)最優(yōu)控制器,考慮無(wú)人機(jī)最壞擾動(dòng),實(shí)現(xiàn)了在預(yù)定性能下的無(wú)人機(jī)追蹤控制,并提升了無(wú)人機(jī)追蹤控制的抗擾動(dòng)性能。
32、2.本發(fā)明通過(guò)強(qiáng)化學(xué)習(xí)設(shè)計(jì)和訓(xùn)練的無(wú)人機(jī)最優(yōu)控制輸入的神經(jīng)網(wǎng)絡(luò)逼近,對(duì)期望軌跡進(jìn)行實(shí)時(shí)跟蹤,降低了無(wú)人機(jī)計(jì)算最優(yōu)控制輸入的計(jì)算量,有效提高了無(wú)人機(jī)實(shí)現(xiàn)期望軌跡追蹤控制任務(wù)的效率。
1.一種預(yù)定性能下抗擾動(dòng)的無(wú)人機(jī)強(qiáng)化學(xué)習(xí)追蹤控制方法,其特征在于:包括如下步驟: