本發(fā)明涉及無人機(jī),特別是一種自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法。
背景技術(shù):
1、無人機(jī)技術(shù)的飛速演進(jìn),尤其是在自主導(dǎo)航與智能控制領(lǐng)域,已推動(dòng)其在諸多行業(yè)的廣泛應(yīng)用,然而,傳統(tǒng)無人機(jī)的路徑規(guī)劃與電池管理受限于預(yù)設(shè)路線和固定模式,缺乏適應(yīng)環(huán)境變化的能力,盡管多模態(tài)感知技術(shù)的引入增強(qiáng)了無人機(jī)的數(shù)據(jù)采集能力,但現(xiàn)有技術(shù)在數(shù)據(jù)融合、實(shí)時(shí)路徑規(guī)劃以及電池動(dòng)態(tài)管理上仍存在不足,包括傳感器數(shù)據(jù)融合偏倚、無法動(dòng)態(tài)響應(yīng)環(huán)境變化、電池管理策略保守以及多無人機(jī)協(xié)同作業(yè)時(shí)的資源分配低效等問題;
2、為克服上述挑戰(zhàn),本發(fā)明提出了一種自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法,通過深度學(xué)習(xí)模型對(duì)多模態(tài)感知數(shù)據(jù)進(jìn)行智能融合,生成環(huán)境感知圖,進(jìn)而利用強(qiáng)化學(xué)習(xí)算法實(shí)時(shí)規(guī)劃最優(yōu)路徑并動(dòng)態(tài)調(diào)整電池管理策略,顯著提升了無人機(jī)在復(fù)雜環(huán)境中的自主決策能力,此外,結(jié)合群體智能算法優(yōu)化多無人機(jī)任務(wù)分配,實(shí)現(xiàn)了資源的高效利用與協(xié)同作業(yè)的智能化,全面增強(qiáng)了無人機(jī)系統(tǒng)的性能與可靠性。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明提供了一種自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法解決在復(fù)雜環(huán)境中實(shí)時(shí)感知、智能決策、高效路徑規(guī)劃以及優(yōu)化電池使用的關(guān)鍵問題。
3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:
4、第一方面,本發(fā)明實(shí)施例提供了一種自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法,其包括,在地面控制站激活無人機(jī)的多模態(tài)感知,收集無人機(jī)的多模態(tài)感知數(shù)據(jù)并進(jìn)行預(yù)處理;利用深度學(xué)習(xí)模型對(duì)預(yù)處理后的多模態(tài)數(shù)據(jù)進(jìn)行融合分析,生成環(huán)境感知圖;基于環(huán)境感知圖,采用強(qiáng)化學(xué)習(xí)算法進(jìn)行自適應(yīng)路徑規(guī)劃,并通過無人機(jī)狀態(tài)和環(huán)境條件,動(dòng)態(tài)生成最優(yōu)飛行路徑和電池管理策略深度學(xué)習(xí)模型;將路徑規(guī)劃和電池管理策略上傳至群體智能中心節(jié)點(diǎn),利用基于群體智能算法進(jìn)行全局優(yōu)化,生成優(yōu)化后的任務(wù)分配和飛行策略;
5、執(zhí)行優(yōu)化后的飛行策略,持續(xù)監(jiān)測(cè)環(huán)境變化并實(shí)時(shí)更新環(huán)境感知圖,動(dòng)態(tài)調(diào)整飛行路徑和電池管理策略;飛行任務(wù)完成后,收集飛行數(shù)據(jù)、環(huán)境感知數(shù)據(jù)和決策記錄反饋至地面控制站并進(jìn)行迭代訓(xùn)練。
6、作為本發(fā)明所述自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法的一種優(yōu)選方案,其中:所述在地面控制站激活無人機(jī)的多模態(tài)感知,收集無人機(jī)的多模態(tài)感知數(shù)據(jù)并進(jìn)行預(yù)處理,具體步驟為:
7、在無人機(jī)起飛前,在地面控制站激活無人機(jī)多模態(tài)感知,多模態(tài)感知包括,高清攝像頭傳感器c、紅外熱像儀傳感器i、雷達(dá)傳感器r、聲納傳感器s、激光雷達(dá)傳感器l;
8、傳感器開始收集環(huán)境信息數(shù)據(jù);
9、將數(shù)據(jù)實(shí)時(shí)傳輸至機(jī)載處理單元進(jìn)行預(yù)處理。
10、作為本發(fā)明所述自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法的一種優(yōu)選方案,其中:所述利用深度學(xué)習(xí)模型對(duì)預(yù)處理后的多模態(tài)數(shù)據(jù)進(jìn)行融合分析,生成環(huán)境感知圖,具體步驟為:
11、將預(yù)處理后的各傳感器的環(huán)境信息數(shù)據(jù)進(jìn)行融合;
12、將融合過后的數(shù)據(jù),通過多模態(tài)融合網(wǎng)絡(luò)mmfn模型進(jìn)行深度學(xué)習(xí)處理,生成環(huán)境感知圖,
13、作為本發(fā)明所述自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法的一種優(yōu)選方案,其中:所述基于環(huán)境感知圖,采用強(qiáng)化學(xué)習(xí)算法進(jìn)行自適應(yīng)路徑規(guī)劃,并通過無人機(jī)狀態(tài)和環(huán)境條件,動(dòng)態(tài)生成最優(yōu)飛行路徑和電池管理策略,具體步驟為:
14、基于環(huán)境感知圖,無人機(jī)的中央控制器使用強(qiáng)化學(xué)習(xí)算法進(jìn)行路徑規(guī)劃,定義為路徑規(guī)劃函數(shù)p(x),表達(dá)式為:
15、
16、其中,p(x)是當(dāng)前狀態(tài)和環(huán)境感知選擇最優(yōu)路徑?jīng)Q策的函數(shù),q(s,e,a)是一個(gè)稱為q函數(shù)的量度,ss代表環(huán)境的狀態(tài),e代表環(huán)境感知,a代表動(dòng)作集合;
17、考慮到電池狀態(tài)和預(yù)測(cè)能耗,通過路徑規(guī)劃智能調(diào)整飛行模式和速度,優(yōu)化電池使用,表達(dá)式為:
18、
19、其中,bopt是優(yōu)化后的電池狀態(tài),b代表無人機(jī)的初始電池狀態(tài),t是飛行時(shí)間,ce(at)代表在時(shí)刻t執(zhí)行動(dòng)作at的能耗成本,at是在時(shí)間步t上無人機(jī)執(zhí)行的動(dòng)作。
20、作為本發(fā)明所述自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法的一種優(yōu)選方案,其中:所述將路徑規(guī)劃和電池管理策略上傳至群體智能中心節(jié)點(diǎn),利用基于群體智能算法進(jìn)行全局優(yōu)化,生成優(yōu)化后的任務(wù)分配和飛行策略,具體步驟為:
21、在多無人機(jī)場(chǎng)景中,每架無人機(jī)將路徑規(guī)劃和電池管理策略上傳至群體智能中心節(jié)點(diǎn);
22、中心節(jié)點(diǎn)運(yùn)行群體智能算法進(jìn)行全局優(yōu)化,定義全局優(yōu)化函數(shù)g(x),基于每架無人機(jī)的策略集合pi和電池狀態(tài)bi,生成優(yōu)化后的任務(wù)分配和飛行策略,表達(dá)式為:
23、
24、其中,g(x)是全局優(yōu)化函數(shù)的輸出,i為遍歷無人機(jī)群中的每一架無人機(jī)的索引,pi代表第i架無人機(jī)的路徑規(guī)劃策略,bi代表第i架無人機(jī)的電池狀態(tài),di代表第i架無人機(jī)的任務(wù)需求,n是無人機(jī)總數(shù),bavg是群體中所有無人機(jī)的平均電池狀態(tài)。
25、作為本發(fā)明所述自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法的一種優(yōu)選方案,其中:所述執(zhí)行優(yōu)化后的飛行策略,持續(xù)監(jiān)測(cè)環(huán)境變化并實(shí)時(shí)更新環(huán)境感知圖,動(dòng)態(tài)調(diào)整飛行路徑和電池管理策略,具體步驟為:
26、無人機(jī)根據(jù)優(yōu)化后的策略執(zhí)行任務(wù),多模態(tài)感知持續(xù)監(jiān)控環(huán)境變化,實(shí)時(shí)更新環(huán)境感知圖;
27、無人機(jī)的中央控制器根據(jù)新的環(huán)境感知圖,動(dòng)態(tài)調(diào)整飛行路徑和電池管理策略,定義動(dòng)態(tài)調(diào)整函數(shù)d(x),表達(dá)式為:
28、
29、其中,d(x)代表動(dòng)態(tài)調(diào)整函數(shù),p′表示調(diào)整后的飛行路徑,bm表示基于新路徑和環(huán)境感知圖的電池管理策略,e(xt)是基于原始環(huán)境感知圖的預(yù)測(cè)環(huán)境狀態(tài),e′(xt)是基于更新后環(huán)境感知圖的實(shí)際環(huán)境狀態(tài),xt是無人機(jī)在時(shí)刻t的位置,t是預(yù)測(cè)的時(shí)間步數(shù),λp和λb是路徑偏差和電池狀態(tài)調(diào)整的權(quán)重,b′是無人機(jī)當(dāng)前的電池狀態(tài),v是無人機(jī)當(dāng)前的速度。
30、作為本發(fā)明所述自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法的一種優(yōu)選方案,其中:所述飛行任務(wù)完成后,收集飛行數(shù)據(jù)、環(huán)境感知數(shù)據(jù)和決策記錄反饋至地面控制站并進(jìn)行迭代訓(xùn)練,具體步驟為:
31、飛行任務(wù)結(jié)束后,無人機(jī)將飛行數(shù)據(jù)、環(huán)境感知數(shù)據(jù)和決策過程記錄反饋至地面控制站;
32、地面控制站接收數(shù)據(jù)后進(jìn)行預(yù)處理;
33、采用損失函數(shù)l綜合考慮分類任務(wù)和回歸任務(wù)的重要性,表達(dá)式為:
34、
35、其中,l(dc;θold)為損失函數(shù),ce(yp,yt)為交叉熵?fù)p失函數(shù),yp是模型預(yù)測(cè)的標(biāo)簽,yt是實(shí)際的標(biāo)簽,為均方誤差損失函數(shù),是模型預(yù)測(cè)的電池狀態(tài),bt是實(shí)際的電池狀態(tài),λ是平衡因子;
36、基于計(jì)算損失函數(shù)l,計(jì)算當(dāng)前模型參數(shù)θold的梯度,使用學(xué)習(xí)率η更新參數(shù),表達(dá)式為:
37、
38、θnew=θold+δθ;
39、其中,δθ是參數(shù)更新量,η是學(xué)習(xí)率,是損失函數(shù)l關(guān)于模型參數(shù)θold的梯度,θold是當(dāng)前的模型參數(shù),θnew是更新后的模型參數(shù);
40、通過模型進(jìn)行迭代訓(xùn)練,并利用反向傳播算法更新模型參數(shù),定義模型更新函數(shù)m(x),表達(dá)式為:
41、
42、其中,θnew是更新后的模型參數(shù),θold是更新前的模型參數(shù),η是學(xué)習(xí)率,dc是收集的數(shù)據(jù)集;
43、模型更新在訓(xùn)練循環(huán)中重復(fù)進(jìn)行;
44、最后在測(cè)試數(shù)據(jù)集上評(píng)估模型性能。
45、作為本發(fā)明所述自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法的一種優(yōu)選方案,其中:所述地面控制站接收數(shù)據(jù)后進(jìn)行預(yù)處理,具體步驟為:
46、收集所有必要的數(shù)據(jù)集,初步審查數(shù)據(jù);
47、刪除并使用均值、中位數(shù)、眾數(shù)填充缺失數(shù)據(jù),并使用機(jī)器學(xué)習(xí)算法識(shí)別并處理缺失數(shù)據(jù);
48、采用z-score方法識(shí)別并處理異常值;
49、檢查數(shù)據(jù)類型、單位和格式的統(tǒng)一;
50、生成統(tǒng)計(jì)摘要,使用可視化工具,探索數(shù)據(jù)的基本分布和內(nèi)在結(jié)構(gòu);
51、識(shí)別并刪除重復(fù)的數(shù)據(jù)記錄,將數(shù)據(jù)轉(zhuǎn)換到相同的尺度;
52、采用獨(dú)熱編碼和標(biāo)簽編碼,將分類變量轉(zhuǎn)化為機(jī)器可讀的數(shù)值變量,創(chuàng)建新特征,從時(shí)間序列數(shù)據(jù)中提取季節(jié)性特征;
53、將經(jīng)過清洗和轉(zhuǎn)換后的數(shù)據(jù)表連接起來,整合無人機(jī)遙感數(shù)據(jù)的不同傳感器信息;
54、數(shù)據(jù)集成完畢,通過主成分分析pca進(jìn)行降維處理;
55、應(yīng)用過濾、包裹和嵌入方法從眾多特征中篩選出最具預(yù)測(cè)力的子集;
56、最后將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
57、第二方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其中:所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法的任一步驟。
58、第三方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中:所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面所述的自適應(yīng)路徑規(guī)劃的無人機(jī)電池動(dòng)態(tài)管理強(qiáng)化學(xué)習(xí)方法的任一步驟。
59、本發(fā)明有益效果為:通過多模態(tài)感知與預(yù)處理,增強(qiáng)了無人機(jī)環(huán)境適應(yīng)性,深度學(xué)習(xí)融合分析生成環(huán)境感知圖,提升路徑規(guī)劃精度,強(qiáng)化學(xué)習(xí)動(dòng)態(tài)調(diào)整飛行與電池策略,優(yōu)化續(xù)航與任務(wù)效率,群體智能全局優(yōu)化,實(shí)現(xiàn)多機(jī)高效協(xié)同,動(dòng)態(tài)調(diào)整策略確保靈活應(yīng)對(duì)變化,迭代訓(xùn)練持續(xù)提升系統(tǒng)智能,加強(qiáng)決策準(zhǔn)確性,此發(fā)明顯著提高無人機(jī)任務(wù)執(zhí)行的安全性、效率與智能化水平。