本申請(qǐng)涉及無人機(jī),尤其涉及一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法、裝置、終端及介質(zhì)。
背景技術(shù):
1、無人機(jī),又稱無人駕駛飛機(jī),是利用無線電遙控設(shè)備和自備的程序控制裝置操縱的不載人飛機(jī),或者由車載計(jì)算機(jī)完全地或間歇地自主地操作,以較常見的四旋翼無人機(jī)為例,這類無人機(jī)可以垂直起降,具有卓越的機(jī)動(dòng)性,能夠在復(fù)雜環(huán)境下迅速改變方向,且機(jī)械結(jié)構(gòu)簡(jiǎn)單,在操作和維護(hù)方面便捷,具備較高的系統(tǒng)可靠性;有效載荷能力出眾,能夠攜帶大量的傳感器或負(fù)載等。故而四旋翼無人機(jī)被廣泛應(yīng)用于軍用民用領(lǐng)域,例如在民用領(lǐng)域中航拍和攝影、基礎(chǔ)設(shè)施勘探和監(jiān)測(cè)、搜索救援與災(zāi)害響應(yīng)、農(nóng)藥噴灑和森林管理、電力線巡檢和通信中繼等。
2、為實(shí)現(xiàn)四旋翼無人機(jī)的自主飛行和高可靠性,準(zhǔn)確控制無人機(jī)位姿,保證飛行姿態(tài)快速響應(yīng)并處于穩(wěn)定狀態(tài)是關(guān)鍵,然而在實(shí)際應(yīng)用中,無人機(jī)在在復(fù)雜環(huán)境中執(zhí)行任務(wù)時(shí),容易受暴雨狂風(fēng)等惡劣環(huán)境因素影響,當(dāng)出現(xiàn)有執(zhí)行機(jī)構(gòu)完全失效的情況時(shí),現(xiàn)有的容錯(cuò)控制方式難以保持有效的穩(wěn)定性。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┝艘环N基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法、裝置、終端及介質(zhì),用于解決現(xiàn)有容錯(cuò)控制機(jī)制面對(duì)有執(zhí)行機(jī)構(gòu)完全失效的情況時(shí)難以保持有效的穩(wěn)定性的技術(shù)問題。
2、為解決上述技術(shù)問題,本申請(qǐng)第一方面提供了一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法,包括:
3、獲取無人機(jī)的實(shí)時(shí)運(yùn)行數(shù)據(jù),其中,所述實(shí)時(shí)運(yùn)行數(shù)據(jù)具體包括:實(shí)際軌跡、旋轉(zhuǎn)速度和運(yùn)動(dòng)速度;
4、當(dāng)無人機(jī)存在執(zhí)行機(jī)構(gòu)失效時(shí),通過基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制模型,以所述實(shí)際軌跡和預(yù)設(shè)的期望軌跡的偏差的累積值作為位置誤差,將所述位置誤差、所述旋轉(zhuǎn)速度、所述運(yùn)動(dòng)速度和預(yù)設(shè)的坐標(biāo)系旋轉(zhuǎn)矩陣作為狀態(tài)變量,以根據(jù)當(dāng)前狀態(tài)變量,結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù),更新所述近端策略優(yōu)化函數(shù)的策略參數(shù)以及所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量,并根據(jù)預(yù)設(shè)的獎(jiǎng)勵(lì)懲罰函數(shù),對(duì)所述無人機(jī)控制模型進(jìn)行強(qiáng)化學(xué)習(xí);
5、根據(jù)所述動(dòng)作變量計(jì)算所述無人機(jī)中各個(gè)旋翼的升力參數(shù),再根據(jù)所述升力參數(shù),通過無人機(jī)動(dòng)力學(xué)模型的計(jì)算,得到所述無人機(jī)的控制參數(shù),以將所述控制參數(shù)用于所述無人機(jī)的控制。
6、優(yōu)選地,所述獎(jiǎng)勵(lì)懲罰函數(shù)具體包括:位置獎(jiǎng)勵(lì)子函數(shù)、姿態(tài)獎(jiǎng)勵(lì)子函數(shù)、角速度獎(jiǎng)勵(lì)子函數(shù)和墜毀懲罰子函數(shù)。
7、優(yōu)選地,當(dāng)無人機(jī)存在執(zhí)行機(jī)構(gòu)失效時(shí),所述獎(jiǎng)勵(lì)懲罰函數(shù)中還包括:動(dòng)作連續(xù)變化獎(jiǎng)勵(lì)子函數(shù)。
8、優(yōu)選地,所述根據(jù)當(dāng)前狀態(tài)變量,結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù),更新所述近端策略優(yōu)化函數(shù)的策略參數(shù)以及所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量具體包括:
9、根據(jù)當(dāng)前狀態(tài)變量,結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù)中的重要性采樣比計(jì)算式,計(jì)算當(dāng)前策略參數(shù)與上一輪策略參數(shù)的概率分布比;
10、根據(jù)所述概率分布比,結(jié)合所述近端策略優(yōu)化函數(shù)中的目標(biāo)函數(shù),以所述目標(biāo)函數(shù)的輸出值,更新所述近端策略優(yōu)化函數(shù)的策略參數(shù)以及所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量。
11、優(yōu)選地,還包括:
12、通過預(yù)設(shè)的緩存單元,記錄所述無人機(jī)控制模型多輪運(yùn)算得出的緩存數(shù)據(jù),所述緩存數(shù)據(jù)包括:t時(shí)刻狀態(tài)變量、t時(shí)刻動(dòng)作變量、t+1時(shí)刻獎(jiǎng)勵(lì)變量以及t+1時(shí)刻狀態(tài)變量;
13、當(dāng)所述緩存數(shù)據(jù)的數(shù)據(jù)量達(dá)到預(yù)設(shè)閾值時(shí),則根據(jù)所述緩存數(shù)據(jù)批量更新所述近端策略優(yōu)化函數(shù)的策略參數(shù),并根據(jù)預(yù)設(shè)的獎(jiǎng)勵(lì)懲罰函數(shù),對(duì)所述無人機(jī)控制模型進(jìn)行強(qiáng)化學(xué)習(xí)。
14、優(yōu)選地,還包括:
15、當(dāng)無人機(jī)無執(zhí)行機(jī)構(gòu)失效時(shí),通過pid反饋控制,以所述實(shí)際軌跡和預(yù)設(shè)的期望軌跡的偏差作為位置誤差,以根據(jù)所述位置誤差計(jì)算所述無人機(jī)的期望加速度;
16、根據(jù)所述期望加速度,結(jié)合預(yù)設(shè)的升力修正公式,得到升力控制修正量,以根據(jù)所述升力控制修正量。
17、優(yōu)選地,當(dāng)無人機(jī)無執(zhí)行機(jī)構(gòu)失效時(shí),所述獎(jiǎng)勵(lì)懲罰函數(shù)中還包括:能量獎(jiǎng)勵(lì)子函數(shù)。
18、同時(shí),本申請(qǐng)第二方面提供了一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制裝置,包括:
19、運(yùn)行數(shù)據(jù)獲取單元,用于獲取無人機(jī)的實(shí)時(shí)運(yùn)行數(shù)據(jù),其中,所述實(shí)時(shí)運(yùn)行數(shù)據(jù)具體包括:實(shí)際軌跡、旋轉(zhuǎn)速度和運(yùn)動(dòng)速度;
20、強(qiáng)化學(xué)習(xí)優(yōu)化單元,用于當(dāng)無人機(jī)存在執(zhí)行機(jī)構(gòu)失效時(shí),通過基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制模型,以所述實(shí)際軌跡和預(yù)設(shè)的期望軌跡的偏差的累積值作為位置誤差,將所述位置誤差、所述旋轉(zhuǎn)速度、所述運(yùn)動(dòng)速度和預(yù)設(shè)的坐標(biāo)系旋轉(zhuǎn)矩陣作為狀態(tài)變量,以根據(jù)當(dāng)前狀態(tài)變量,結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù),更新所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量,并根據(jù)預(yù)設(shè)的獎(jiǎng)勵(lì)懲罰函數(shù),對(duì)所述無人機(jī)控制模型進(jìn)行強(qiáng)化學(xué)習(xí);
21、控制參數(shù)確定單元,用于根據(jù)所述動(dòng)作變量計(jì)算所述無人機(jī)中各個(gè)旋翼的升力參數(shù),再根據(jù)所述升力參數(shù),通過無人機(jī)動(dòng)力學(xué)模型的計(jì)算,得到所述無人機(jī)的控制參數(shù),以將所述控制參數(shù)用于所述無人機(jī)的控制。
22、本申請(qǐng)第三方面提供了一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制終端,包括:存儲(chǔ)器和處理器;
23、所述存儲(chǔ)器用于存儲(chǔ)程序代碼,所述程序代碼與如本申請(qǐng)第一方面提供的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法相對(duì)應(yīng);
24、所述處理器用于讀取并執(zhí)行所述程序代碼。
25、本申請(qǐng)第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中保存有程序代碼,當(dāng)所述程序代碼被處理器執(zhí)行時(shí),可實(shí)現(xiàn)如本申請(qǐng)第一方面提供的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法。
26、從以上技術(shù)方案可以看出,本申請(qǐng)具有以下優(yōu)點(diǎn):
27、本申請(qǐng)?zhí)峁┑姆桨府?dāng)無人機(jī)處于有執(zhí)行機(jī)構(gòu)失效的情況,由于當(dāng)系統(tǒng)存在穩(wěn)態(tài)誤差而此時(shí)策略網(wǎng)絡(luò)根據(jù)系統(tǒng)狀態(tài)輸出的動(dòng)作不能進(jìn)一步讓四旋翼無人機(jī)往目標(biāo)位置運(yùn)動(dòng)時(shí),將系統(tǒng)狀態(tài)里的實(shí)際軌跡和期望軌跡的偏差做累積后得到的數(shù)據(jù)作為實(shí)際的位置誤差項(xiàng),即積分后的系統(tǒng)狀態(tài),當(dāng)系統(tǒng)存在穩(wěn)態(tài)誤差而此時(shí)策略網(wǎng)絡(luò)根據(jù)系統(tǒng)狀態(tài)輸出的動(dòng)作不能進(jìn)一步讓四旋翼無人機(jī)往目標(biāo)位置運(yùn)動(dòng)時(shí),位置誤差項(xiàng)會(huì)不斷累積增大,從而驅(qū)使策略網(wǎng)絡(luò)產(chǎn)生更大的動(dòng)作值從而使四旋翼無人機(jī)收斂到目標(biāo)值和增高控制精度,從而提高無人機(jī)在面對(duì)有執(zhí)行機(jī)構(gòu)完全失效的情況下的飛行穩(wěn)定性。
1.一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法,其特征在于,所述獎(jiǎng)勵(lì)懲罰函數(shù)具體包括:位置獎(jiǎng)勵(lì)子函數(shù)、姿態(tài)獎(jiǎng)勵(lì)子函數(shù)、角速度獎(jiǎng)勵(lì)子函數(shù)和墜毀懲罰子函數(shù)。
3.根據(jù)權(quán)利要求2所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法,其特征在于,當(dāng)無人機(jī)存在執(zhí)行機(jī)構(gòu)失效時(shí),所述獎(jiǎng)勵(lì)懲罰函數(shù)中還包括:動(dòng)作連續(xù)變化獎(jiǎng)勵(lì)子函數(shù)。
4.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法,其特征在于,所述根據(jù)當(dāng)前狀態(tài)變量,結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù),更新所述近端策略優(yōu)化函數(shù)的策略參數(shù)以及所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量具體包括:
5.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法,其特征在于,還包括:
6.根據(jù)權(quán)利要求2所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法,其特征在于,還包括:
7.根據(jù)權(quán)利要求6所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法,其特征在于,當(dāng)無人機(jī)無執(zhí)行機(jī)構(gòu)失效時(shí),所述獎(jiǎng)勵(lì)懲罰函數(shù)中還包括:能量獎(jiǎng)勵(lì)子函數(shù)。
8.一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制裝置,其特征在于,包括:
9.一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制終端,其特征在于,包括:存儲(chǔ)器和處理器;
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中保存有程序代碼,當(dāng)所述程序代碼被處理器執(zhí)行時(shí),可實(shí)現(xiàn)如權(quán)利要求1至7任意一項(xiàng)所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法。