1.一種能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法,其特征在于,所述隨機化方法包括:
3.根據(jù)權(quán)利要求1所述的能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法,其特征在于,所述通過prm算法,根據(jù)所述隨機節(jié)點建立節(jié)點間的連接,形成初始路徑網(wǎng)絡(luò),包括:
4.根據(jù)權(quán)利要求1所述的能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法,其特征在于,所述調(diào)整障礙物約束和路徑節(jié)點包括增加或減少障礙物,并相應(yīng)地增加或減少路徑節(jié)點。
5.根據(jù)權(quán)利要求4所述的能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法,其特征在于,所述調(diào)整障礙物約束和路徑節(jié)點,并采用增量式prm對節(jié)點間的連接進(jìn)行重新評估和更新,以更新地圖的路徑網(wǎng)絡(luò)結(jié)構(gòu),包括:
6.根據(jù)權(quán)利要求1所述的能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法,其特征在于,所述dqn模型采用多層感知器結(jié)構(gòu),所述利用dqn模型對生成的節(jié)點路徑進(jìn)行分析,以估計每個動作的預(yù)期獎勵或價值,包括:
7.根據(jù)權(quán)利要求6所述的能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法,其特征在于,所述結(jié)合能源消耗采用優(yōu)先級經(jīng)驗回放策略來減少觀測數(shù)據(jù)間的時間相關(guān)性,包括:
8.根據(jù)權(quán)利要求7所述的能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法,其特征在于,所述依據(jù)經(jīng)過dqn模型優(yōu)化后的動作價值函數(shù),選擇最優(yōu)動作序列,進(jìn)而將這些動作轉(zhuǎn)化為實際移動或路徑?jīng)Q策,包括:
9.一種計算機設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器中存儲有計算機程序,當(dāng)所述計算機程序被所述處理器加載并執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任一項所述的能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法。
10.一種計算機可讀存儲介質(zhì),其特征在于,存儲有程序,當(dāng)所述程序被處理器加載時實現(xiàn)如權(quán)利要求1至8中任一項所述的能源受限環(huán)境下的動態(tài)避障路徑規(guī)劃方法。