基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法、裝置、終端及介質(zhì)

文檔序號(hào)：40395327發(fā)布日期：2024-12-20 12:18閱讀：5來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及無人機(jī)，尤其涉及一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法、裝置、終端及介質(zhì)。

背景技術(shù)：

1、無人機(jī)，又稱無人駕駛飛機(jī)，是利用無線電遙控設(shè)備和自備的程序控制裝置操縱的不載人飛機(jī)，或者由車載計(jì)算機(jī)完全地或間歇地自主地操作，以較常見的四旋翼無人機(jī)為例，這類無人機(jī)可以垂直起降，具有卓越的機(jī)動(dòng)性，能夠在復(fù)雜環(huán)境下迅速改變方向，且機(jī)械結(jié)構(gòu)簡(jiǎn)單，在操作和維護(hù)方面便捷，具備較高的系統(tǒng)可靠性；有效載荷能力出眾，能夠攜帶大量的傳感器或負(fù)載等。故而四旋翼無人機(jī)被廣泛應(yīng)用于軍用民用領(lǐng)域，例如在民用領(lǐng)域中航拍和攝影、基礎(chǔ)設(shè)施勘探和監(jiān)測(cè)、搜索救援與災(zāi)害響應(yīng)、農(nóng)藥噴灑和森林管理、電力線巡檢和通信中繼等。

2、為實(shí)現(xiàn)四旋翼無人機(jī)的自主飛行和高可靠性，準(zhǔn)確控制無人機(jī)位姿，保證飛行姿態(tài)快速響應(yīng)并處于穩(wěn)定狀態(tài)是關(guān)鍵，然而在實(shí)際應(yīng)用中，無人機(jī)在在復(fù)雜環(huán)境中執(zhí)行任務(wù)時(shí)，容易受暴雨狂風(fēng)等惡劣環(huán)境因素影響，當(dāng)出現(xiàn)有執(zhí)行機(jī)構(gòu)完全失效的情況時(shí)，現(xiàn)有的容錯(cuò)控制方式難以保持有效的穩(wěn)定性。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)?zhí)峁┝艘环N基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法、裝置、終端及介質(zhì)，用于解決現(xiàn)有容錯(cuò)控制機(jī)制面對(duì)有執(zhí)行機(jī)構(gòu)完全失效的情況時(shí)難以保持有效的穩(wěn)定性的技術(shù)問題。

2、為解決上述技術(shù)問題，本申請(qǐng)第一方面提供了一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法，包括：

3、獲取無人機(jī)的實(shí)時(shí)運(yùn)行數(shù)據(jù)，其中，所述實(shí)時(shí)運(yùn)行數(shù)據(jù)具體包括：實(shí)際軌跡、旋轉(zhuǎn)速度和運(yùn)動(dòng)速度；

4、當(dāng)無人機(jī)存在執(zhí)行機(jī)構(gòu)失效時(shí)，通過基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制模型，以所述實(shí)際軌跡和預(yù)設(shè)的期望軌跡的偏差的累積值作為位置誤差，將所述位置誤差、所述旋轉(zhuǎn)速度、所述運(yùn)動(dòng)速度和預(yù)設(shè)的坐標(biāo)系旋轉(zhuǎn)矩陣作為狀態(tài)變量，以根據(jù)當(dāng)前狀態(tài)變量，結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù)，更新所述近端策略優(yōu)化函數(shù)的策略參數(shù)以及所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量，并根據(jù)預(yù)設(shè)的獎(jiǎng)勵(lì)懲罰函數(shù)，對(duì)所述無人機(jī)控制模型進(jìn)行強(qiáng)化學(xué)習(xí)；

5、根據(jù)所述動(dòng)作變量計(jì)算所述無人機(jī)中各個(gè)旋翼的升力參數(shù)，再根據(jù)所述升力參數(shù)，通過無人機(jī)動(dòng)力學(xué)模型的計(jì)算，得到所述無人機(jī)的控制參數(shù)，以將所述控制參數(shù)用于所述無人機(jī)的控制。

6、優(yōu)選地，所述獎(jiǎng)勵(lì)懲罰函數(shù)具體包括：位置獎(jiǎng)勵(lì)子函數(shù)、姿態(tài)獎(jiǎng)勵(lì)子函數(shù)、角速度獎(jiǎng)勵(lì)子函數(shù)和墜毀懲罰子函數(shù)。

7、優(yōu)選地，當(dāng)無人機(jī)存在執(zhí)行機(jī)構(gòu)失效時(shí)，所述獎(jiǎng)勵(lì)懲罰函數(shù)中還包括：動(dòng)作連續(xù)變化獎(jiǎng)勵(lì)子函數(shù)。

8、優(yōu)選地，所述根據(jù)當(dāng)前狀態(tài)變量，結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù)，更新所述近端策略優(yōu)化函數(shù)的策略參數(shù)以及所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量具體包括：

9、根據(jù)當(dāng)前狀態(tài)變量，結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù)中的重要性采樣比計(jì)算式，計(jì)算當(dāng)前策略參數(shù)與上一輪策略參數(shù)的概率分布比；

10、根據(jù)所述概率分布比，結(jié)合所述近端策略優(yōu)化函數(shù)中的目標(biāo)函數(shù)，以所述目標(biāo)函數(shù)的輸出值，更新所述近端策略優(yōu)化函數(shù)的策略參數(shù)以及所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量。

11、優(yōu)選地，還包括：

12、通過預(yù)設(shè)的緩存單元，記錄所述無人機(jī)控制模型多輪運(yùn)算得出的緩存數(shù)據(jù)，所述緩存數(shù)據(jù)包括：t時(shí)刻狀態(tài)變量、t時(shí)刻動(dòng)作變量、t+1時(shí)刻獎(jiǎng)勵(lì)變量以及t+1時(shí)刻狀態(tài)變量；

13、當(dāng)所述緩存數(shù)據(jù)的數(shù)據(jù)量達(dá)到預(yù)設(shè)閾值時(shí)，則根據(jù)所述緩存數(shù)據(jù)批量更新所述近端策略優(yōu)化函數(shù)的策略參數(shù)，并根據(jù)預(yù)設(shè)的獎(jiǎng)勵(lì)懲罰函數(shù)，對(duì)所述無人機(jī)控制模型進(jìn)行強(qiáng)化學(xué)習(xí)。

14、優(yōu)選地，還包括：

15、當(dāng)無人機(jī)無執(zhí)行機(jī)構(gòu)失效時(shí)，通過pid反饋控制，以所述實(shí)際軌跡和預(yù)設(shè)的期望軌跡的偏差作為位置誤差，以根據(jù)所述位置誤差計(jì)算所述無人機(jī)的期望加速度；

16、根據(jù)所述期望加速度，結(jié)合預(yù)設(shè)的升力修正公式，得到升力控制修正量，以根據(jù)所述升力控制修正量。

17、優(yōu)選地，當(dāng)無人機(jī)無執(zhí)行機(jī)構(gòu)失效時(shí)，所述獎(jiǎng)勵(lì)懲罰函數(shù)中還包括：能量獎(jiǎng)勵(lì)子函數(shù)。

18、同時(shí)，本申請(qǐng)第二方面提供了一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制裝置，包括：

19、運(yùn)行數(shù)據(jù)獲取單元，用于獲取無人機(jī)的實(shí)時(shí)運(yùn)行數(shù)據(jù)，其中，所述實(shí)時(shí)運(yùn)行數(shù)據(jù)具體包括：實(shí)際軌跡、旋轉(zhuǎn)速度和運(yùn)動(dòng)速度；

20、強(qiáng)化學(xué)習(xí)優(yōu)化單元，用于當(dāng)無人機(jī)存在執(zhí)行機(jī)構(gòu)失效時(shí)，通過基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制模型，以所述實(shí)際軌跡和預(yù)設(shè)的期望軌跡的偏差的累積值作為位置誤差，將所述位置誤差、所述旋轉(zhuǎn)速度、所述運(yùn)動(dòng)速度和預(yù)設(shè)的坐標(biāo)系旋轉(zhuǎn)矩陣作為狀態(tài)變量，以根據(jù)當(dāng)前狀態(tài)變量，結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù)，更新所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量，并根據(jù)預(yù)設(shè)的獎(jiǎng)勵(lì)懲罰函數(shù)，對(duì)所述無人機(jī)控制模型進(jìn)行強(qiáng)化學(xué)習(xí)；

21、控制參數(shù)確定單元，用于根據(jù)所述動(dòng)作變量計(jì)算所述無人機(jī)中各個(gè)旋翼的升力參數(shù)，再根據(jù)所述升力參數(shù)，通過無人機(jī)動(dòng)力學(xué)模型的計(jì)算，得到所述無人機(jī)的控制參數(shù)，以將所述控制參數(shù)用于所述無人機(jī)的控制。

22、本申請(qǐng)第三方面提供了一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制終端，包括：存儲(chǔ)器和處理器；

23、所述存儲(chǔ)器用于存儲(chǔ)程序代碼，所述程序代碼與如本申請(qǐng)第一方面提供的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法相對(duì)應(yīng)；

24、所述處理器用于讀取并執(zhí)行所述程序代碼。

25、本申請(qǐng)第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中保存有程序代碼，當(dāng)所述程序代碼被處理器執(zhí)行時(shí)，可實(shí)現(xiàn)如本申請(qǐng)第一方面提供的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法。

26、從以上技術(shù)方案可以看出，本申請(qǐng)具有以下優(yōu)點(diǎn)：

27、本申請(qǐng)?zhí)峁┑姆桨府?dāng)無人機(jī)處于有執(zhí)行機(jī)構(gòu)失效的情況，由于當(dāng)系統(tǒng)存在穩(wěn)態(tài)誤差而此時(shí)策略網(wǎng)絡(luò)根據(jù)系統(tǒng)狀態(tài)輸出的動(dòng)作不能進(jìn)一步讓四旋翼無人機(jī)往目標(biāo)位置運(yùn)動(dòng)時(shí)，將系統(tǒng)狀態(tài)里的實(shí)際軌跡和期望軌跡的偏差做累積后得到的數(shù)據(jù)作為實(shí)際的位置誤差項(xiàng)，即積分后的系統(tǒng)狀態(tài)，當(dāng)系統(tǒng)存在穩(wěn)態(tài)誤差而此時(shí)策略網(wǎng)絡(luò)根據(jù)系統(tǒng)狀態(tài)輸出的動(dòng)作不能進(jìn)一步讓四旋翼無人機(jī)往目標(biāo)位置運(yùn)動(dòng)時(shí)，位置誤差項(xiàng)會(huì)不斷累積增大，從而驅(qū)使策略網(wǎng)絡(luò)產(chǎn)生更大的動(dòng)作值從而使四旋翼無人機(jī)收斂到目標(biāo)值和增高控制精度，從而提高無人機(jī)在面對(duì)有執(zhí)行機(jī)構(gòu)完全失效的情況下的飛行穩(wěn)定性。

技術(shù)特征：

1.一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法，其特征在于，所述獎(jiǎng)勵(lì)懲罰函數(shù)具體包括：位置獎(jiǎng)勵(lì)子函數(shù)、姿態(tài)獎(jiǎng)勵(lì)子函數(shù)、角速度獎(jiǎng)勵(lì)子函數(shù)和墜毀懲罰子函數(shù)。

3.根據(jù)權(quán)利要求2所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法，其特征在于，當(dāng)無人機(jī)存在執(zhí)行機(jī)構(gòu)失效時(shí)，所述獎(jiǎng)勵(lì)懲罰函數(shù)中還包括：動(dòng)作連續(xù)變化獎(jiǎng)勵(lì)子函數(shù)。

4.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法，其特征在于，所述根據(jù)當(dāng)前狀態(tài)變量，結(jié)合預(yù)設(shè)的近端策略優(yōu)化函數(shù)，更新所述近端策略優(yōu)化函數(shù)的策略參數(shù)以及所述無人機(jī)各個(gè)有效執(zhí)行機(jī)構(gòu)的動(dòng)作變量具體包括：

5.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法，其特征在于，還包括：

6.根據(jù)權(quán)利要求2所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法，其特征在于，還包括：

7.根據(jù)權(quán)利要求6所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法，其特征在于，當(dāng)無人機(jī)無執(zhí)行機(jī)構(gòu)失效時(shí)，所述獎(jiǎng)勵(lì)懲罰函數(shù)中還包括：能量獎(jiǎng)勵(lì)子函數(shù)。

8.一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制裝置，其特征在于，包括：

9.一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制終端，其特征在于，包括：存儲(chǔ)器和處理器；

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中保存有程序代碼，當(dāng)所述程序代碼被處理器執(zhí)行時(shí)，可實(shí)現(xiàn)如權(quán)利要求1至7任意一項(xiàng)所述的一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法。

技術(shù)總結(jié)
本申請(qǐng)公開了一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法、裝置、終端及介質(zhì)，本申請(qǐng)?zhí)峁┑姆桨府?dāng)無人機(jī)處于有執(zhí)行機(jī)構(gòu)失效的情況，由于當(dāng)系統(tǒng)存在穩(wěn)態(tài)誤差而此時(shí)策略網(wǎng)絡(luò)根據(jù)系統(tǒng)狀態(tài)輸出的動(dòng)作不能進(jìn)一步讓四旋翼無人機(jī)往目標(biāo)位置運(yùn)動(dòng)時(shí)，將系統(tǒng)狀態(tài)里的實(shí)際軌跡和期望軌跡的偏差做累積后得到的數(shù)據(jù)作為實(shí)際的位置誤差項(xiàng)，即積分后的系統(tǒng)狀態(tài)，當(dāng)系統(tǒng)存在穩(wěn)態(tài)誤差而此時(shí)策略網(wǎng)絡(luò)根據(jù)系統(tǒng)狀態(tài)輸出的動(dòng)作不能進(jìn)一步讓四旋翼無人機(jī)往目標(biāo)位置運(yùn)動(dòng)時(shí)，位置誤差項(xiàng)會(huì)不斷累積增大，從而驅(qū)使策略網(wǎng)絡(luò)產(chǎn)生更大的動(dòng)作值從而使四旋翼無人機(jī)收斂到目標(biāo)值和增高控制精度，從而提高無人機(jī)在面對(duì)有執(zhí)行機(jī)構(gòu)完全失效的情況下的飛行穩(wěn)定性。

技術(shù)研發(fā)人員：侯治威,張?jiān)粕?程煒毅,陳洪波,莊學(xué)彬
受保護(hù)的技術(shù)使用者：中山大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：侯治威,張?jiān)粕?程煒毅,陳洪波,莊學(xué)彬
技術(shù)所有人：中山大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法、裝置、終端及介質(zhì)

基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制方法、裝置、終端及介質(zhì)