国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      能源受限環(huán)境下的動(dòng)態(tài)避障路徑規(guī)劃方法、設(shè)備和介質(zhì)

      文檔序號(hào):39961628發(fā)布日期:2024-11-12 14:19閱讀:22來(lái)源:國(guó)知局
      能源受限環(huán)境下的動(dòng)態(tài)避障路徑規(guī)劃方法、設(shè)備和介質(zhì)

      本發(fā)明涉及機(jī)器人路徑規(guī)劃算法,具體而言,涉及一種能源受限環(huán)境下的動(dòng)態(tài)避障路徑規(guī)劃方法、設(shè)備和介質(zhì)。


      背景技術(shù):

      1、隨著人工智能和機(jī)器人技術(shù)的迅速發(fā)展,以及應(yīng)用需求的不斷增長(zhǎng),自動(dòng)化設(shè)備在各種復(fù)雜環(huán)境中的應(yīng)用日益普及。這一領(lǐng)域主要關(guān)注如何高效地指導(dǎo)機(jī)器人或設(shè)備從一個(gè)位置移動(dòng)到另一個(gè)位置,同時(shí)規(guī)避障礙、優(yōu)化路徑長(zhǎng)度和完成目標(biāo)需求。傳統(tǒng)的路徑規(guī)劃方法,在簡(jiǎn)單或靜態(tài)環(huán)境中效果顯著,但它們?cè)谔幚砟茉词芟拗坪铜h(huán)境動(dòng)態(tài)變化的多目標(biāo)問(wèn)題時(shí)面臨諸多挑戰(zhàn),缺乏必要的適應(yīng)性和準(zhǔn)確性。

      2、深度強(qiáng)化學(xué)習(xí)(deep?reinforcement?learning,drl)作為一種融合了強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的先進(jìn)技術(shù),在路徑規(guī)劃領(lǐng)域引起了極大關(guān)注。drl通過(guò)機(jī)器人與環(huán)境的互動(dòng)學(xué)習(xí)過(guò)程,能夠發(fā)掘出解決路徑規(guī)劃問(wèn)題的有效策略。然而,盡管其在路徑規(guī)劃領(lǐng)域表現(xiàn)出巨大潛力,但仍存在兩個(gè)主要挑戰(zhàn):(1)在復(fù)雜環(huán)境下的決策效率問(wèn)題,drl需要在復(fù)雜的環(huán)境中迅速做出有效決策,這對(duì)環(huán)境和算法本身有著更高要求;(2)快速適應(yīng)環(huán)境變化的能力,drl必須能夠適應(yīng)環(huán)境的快速變化,以有效應(yīng)對(duì)新的挑戰(zhàn)和條件。

      3、因此,存在一種迫切需要,即開(kāi)發(fā)一種新的路徑規(guī)劃方法,該方法能夠有效地處理復(fù)雜、多目標(biāo)環(huán)境中的路徑規(guī)劃問(wèn)題,同時(shí)克服傳統(tǒng)方法的局限性和現(xiàn)有深度強(qiáng)化學(xué)習(xí)方法的挑戰(zhàn)。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在現(xiàn)有規(guī)劃方法在能源受限的動(dòng)態(tài)環(huán)境中路徑規(guī)劃方面具有較大局限性,難以作出有效規(guī)劃的技術(shù)問(wèn)題。

      2、為此,本發(fā)明第一方面提供了一種能源受限環(huán)境下的動(dòng)態(tài)避障路徑規(guī)劃方法。

      3、本發(fā)明第二方面提供了一種計(jì)算機(jī)設(shè)備。

      4、本發(fā)明第三方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

      5、本發(fā)明提供了一種能源受限環(huán)境下的動(dòng)態(tài)避障路徑規(guī)劃方法,包括:

      6、在給定的環(huán)境地圖框架內(nèi),采用隨機(jī)化方法在環(huán)境中生成代表可能路徑點(diǎn)的隨機(jī)節(jié)點(diǎn)、附加障礙物和能源補(bǔ)給站;其中,所述給定的環(huán)境地圖框架包括固定障礙物的分布以及確定的起始與結(jié)束點(diǎn);

      7、通過(guò)prm算法(概率路線圖方法),根據(jù)所述隨機(jī)節(jié)點(diǎn)建立節(jié)點(diǎn)間的連接,形成初始路徑網(wǎng)絡(luò);其中,利用kd樹(shù)算法優(yōu)化鄰近節(jié)點(diǎn)的搜索過(guò)程,并采用幾何碰撞檢測(cè)方法評(píng)估節(jié)點(diǎn)間的可達(dá)性及路徑的有效性;

      8、調(diào)整障礙物約束和路徑節(jié)點(diǎn),并采用增量式prm對(duì)節(jié)點(diǎn)間的連接進(jìn)行重新評(píng)估和更新,以更新地圖的路徑網(wǎng)絡(luò)結(jié)構(gòu);

      9、利用dqn模型(結(jié)合深度學(xué)習(xí)和q-learning的強(qiáng)化學(xué)習(xí)算法)對(duì)生成的節(jié)點(diǎn)路徑進(jìn)行分析,以估計(jì)每個(gè)動(dòng)作的預(yù)期獎(jiǎng)勵(lì)或價(jià)值,其中,dqn模型根據(jù)環(huán)境數(shù)據(jù)和歷史路徑效果學(xué)習(xí)選擇最優(yōu)運(yùn)動(dòng)策略,dqn模型使用價(jià)值函數(shù)估計(jì)在狀態(tài)s下采取動(dòng)作a的預(yù)期回報(bào);

      10、依據(jù)經(jīng)過(guò)dqn模型優(yōu)化后的動(dòng)作價(jià)值函數(shù),選擇最優(yōu)動(dòng)作序列,進(jìn)而將這些動(dòng)作轉(zhuǎn)化為實(shí)際移動(dòng)或路徑?jīng)Q策。

      11、根據(jù)本發(fā)明上述技術(shù)方案的能源受限環(huán)境下的動(dòng)態(tài)避障路徑規(guī)劃方法,還可以具有以下附加技術(shù)特征:

      12、在上述技術(shù)方案中,所述隨機(jī)化方法包括:

      13、在給定的環(huán)境地圖框架內(nèi),通過(guò)標(biāo)準(zhǔn)隨機(jī)采樣放置若干個(gè)附加障礙物;

      14、在給定的環(huán)境地圖框架內(nèi),通過(guò)區(qū)域內(nèi)隨機(jī)采樣確定能源補(bǔ)給站的位置,其中,能源補(bǔ)給站站點(diǎn)不與障礙物重疊;

      15、在給定的環(huán)境地圖框架內(nèi),通過(guò)標(biāo)準(zhǔn)隨機(jī)采樣生成第一設(shè)定比例的所述隨機(jī)節(jié)點(diǎn),通過(guò)密集采樣方法在障礙物密集區(qū)域生成第二設(shè)定比例的所述隨機(jī)節(jié)點(diǎn);其中,所述隨機(jī)節(jié)點(diǎn)不與障礙物和能源補(bǔ)給站重疊。

      16、在上述技術(shù)方案中,所述通過(guò)prm算法,根據(jù)所述隨機(jī)節(jié)點(diǎn)建立節(jié)點(diǎn)間的連接,形成初始路徑網(wǎng)絡(luò),包括:

      17、根據(jù)隨機(jī)節(jié)點(diǎn)n={n1,n2,..,nk}使用kd樹(shù)算法構(gòu)建節(jié)點(diǎn)的空間索引,以查詢節(jié)點(diǎn)間的最近鄰關(guān)系,將隨機(jī)節(jié)點(diǎn)ni的最近鄰節(jié)點(diǎn)集合定義為nn(ni);

      18、對(duì)于任一隨機(jī)節(jié)點(diǎn)ni,確定與其相連的邊,包括:

      19、e(ni)={(ni,nj)|nj∈nn(ni),且dist(ni,nj)≤dmax,且無(wú)障礙物碰撞}

      20、其中,e(ni)表示與隨機(jī)節(jié)點(diǎn)ni相連的邊的集合,dist(ni,nj)表示隨機(jī)節(jié)點(diǎn)ni和nj之間的歐氏距離,dmax表示設(shè)定的最大連接距離,i和j分別表示節(jié)點(diǎn)編號(hào),k表示隨機(jī)節(jié)點(diǎn)數(shù)量。

      21、在上述技術(shù)方案中,所述調(diào)整障礙物約束和路徑節(jié)點(diǎn)包括增加或減少障礙物,并相應(yīng)地增加或減少路徑節(jié)點(diǎn)。

      22、在上述技術(shù)方案中,所述調(diào)整障礙物約束和路徑節(jié)點(diǎn),并采用增量式prm對(duì)節(jié)點(diǎn)間的連接進(jìn)行重新評(píng)估和更新,以更新地圖的路徑網(wǎng)絡(luò)結(jié)構(gòu),包括:

      23、周期性地增加或減少障礙物;增加障礙物時(shí),移除被新增障礙物覆蓋的節(jié)點(diǎn);減少障礙物時(shí),如果存在歷史節(jié)點(diǎn)被該減少的障礙物覆蓋,則將歷史節(jié)點(diǎn)重新啟用,如果不存在歷史節(jié)點(diǎn),則在移除的障礙物的中心位置添加一個(gè)新的路徑節(jié)點(diǎn);

      24、節(jié)點(diǎn)減少、重新啟用或者節(jié)點(diǎn)增加后通過(guò)kd-tree算法來(lái)改進(jìn)增量式prm用于檢索在最大連接距離dmax范圍內(nèi)的其他節(jié)點(diǎn),根據(jù)增量式prm算法的節(jié)點(diǎn)連接策略,對(duì)節(jié)點(diǎn)進(jìn)行相應(yīng)的局部重構(gòu)。

      25、在上述技術(shù)方案中,所述dqn模型采用多層感知器結(jié)構(gòu),所述利用dqn模型對(duì)生成的節(jié)點(diǎn)路徑進(jìn)行分析,以估計(jì)每個(gè)動(dòng)作的預(yù)期獎(jiǎng)勵(lì)或價(jià)值,包括:

      26、利用dqn模型估計(jì)的q值q(s,a;θ)表示在給定狀態(tài)s下選擇動(dòng)作a的預(yù)期回報(bào);q值由以下公式更新:

      27、q(s,a;θ)←q(s,a;θ)+α[r+γmaxa′q(s′,a′;θ-)-q(s,a;θ)]

      28、其中,s′表示采取新動(dòng)作a后的新?tīng)顟B(tài),a′表示動(dòng)作a的下一個(gè)動(dòng)作,r表示收到的即時(shí)獎(jiǎng)勵(lì),γ表示折扣因子,α表示學(xué)習(xí)率,θ表示當(dāng)前q網(wǎng)絡(luò)的參數(shù),θ-表示目標(biāo)q網(wǎng)絡(luò)的參數(shù);

      29、采用擴(kuò)展的獨(dú)熱編碼作為狀態(tài)表示,其中,狀態(tài)向量靠前部分為節(jié)點(diǎn)位置,后兩位分別表示能量水平和到最近能源補(bǔ)給站的距離;

      30、獎(jiǎng)勵(lì)函數(shù)r(s,a)根據(jù)狀態(tài)s和動(dòng)作a計(jì)算即時(shí)獎(jiǎng)勵(lì),包括:

      31、

      32、其中,rewards表示即時(shí)獎(jiǎng)勵(lì);rstep表示每次移動(dòng)的懲罰,rgoal(s′)表示成功抵達(dá)目標(biāo)時(shí)獲得的獎(jiǎng)勵(lì),rdistance(s,s′)表示基于當(dāng)前位置和下一個(gè)位置到目標(biāo)的距離差的獎(jiǎng)勵(lì),rfuel_station_reward(s′)表示需要補(bǔ)充能源時(shí)靠近能源補(bǔ)給站獲得的獎(jiǎng)勵(lì)與能源水平過(guò)低時(shí)遠(yuǎn)離能源補(bǔ)給站的懲罰,rempyt(s′)表示能源耗盡的懲罰;

      33、將當(dāng)前節(jié)點(diǎn)所有可達(dá)的節(jié)點(diǎn)作為可能的動(dòng)作,如果沒(méi)有連接節(jié)點(diǎn)則隨機(jī)選擇一個(gè)節(jié)點(diǎn)作為可能的動(dòng)作,從所有可行的動(dòng)作中挑選出具有最高長(zhǎng)期回報(bào)的動(dòng)作,采用ε-貪心策略進(jìn)行動(dòng)作選擇并根據(jù)移動(dòng)距離計(jì)算能源消耗;將在給定狀態(tài)s下選擇動(dòng)作的規(guī)則定義為運(yùn)動(dòng)策略π(s),則運(yùn)動(dòng)策略π(s)和能源消耗energy_consume_d表示為:

      34、

      35、其中,argmax表示最大值索引函數(shù);rand(a)表示動(dòng)作合集中的一個(gè)隨機(jī)動(dòng)作;distance_energy表示兩個(gè)節(jié)點(diǎn)之間的歐式距離;max_energy_scale表示能量消耗的最大規(guī)模;dmax表示設(shè)定的最大連接距離;ε表示概率參數(shù),取值介于0到1之間;

      36、結(jié)合能源消耗采用優(yōu)先級(jí)經(jīng)驗(yàn)回放策略來(lái)減少觀測(cè)數(shù)據(jù)間的時(shí)間相關(guān)性;其中,通過(guò)重要性采樣方法平衡采樣分布,設(shè)置重要性權(quán)重;

      37、在學(xué)習(xí)更新時(shí),使用加權(quán)的損失函數(shù)來(lái)減少由于高采樣概率帶來(lái)的潛在偏差,包括:

      38、l(θi)=(q(s,a;θ)-(r+γ·maxa′q(s′,a′;θ-)-c·energy_consumed))2

      39、loss=∑iwi·l(θi)

      40、其中,l(θi)表示在樣本i上的損失函數(shù),loss表示加權(quán)的損失函數(shù);r表示智能體從環(huán)境中接收到的立即獎(jiǎng)勵(lì);c表示能源消耗的成本系數(shù);wi表示第i個(gè)樣本的重要性權(quán)重。

      41、在上述技術(shù)方案中,所述結(jié)合能源消耗采用優(yōu)先級(jí)經(jīng)驗(yàn)回放策略來(lái)減少觀測(cè)數(shù)據(jù)間的時(shí)間相關(guān)性,包括:

      42、計(jì)算預(yù)測(cè)的q值與實(shí)際獲得的獎(jiǎng)勵(lì)之間的差值tderror:

      43、tderror=|r+γ·maxa′q(s′,a′;θ-)-q(s,a;θ)-c·energy_consumed|

      44、在訓(xùn)練過(guò)程中,根據(jù)經(jīng)驗(yàn)元素的優(yōu)先級(jí)進(jìn)行采樣,優(yōu)先級(jí)pi和采樣概率p(i)表示為:

      45、

      46、其中,z表示優(yōu)先級(jí)影響程度參數(shù);β表示控制優(yōu)先級(jí)計(jì)算的指數(shù)參數(shù);τ表示設(shè)定數(shù)值,用以避免優(yōu)先級(jí)為零的情況;

      47、通過(guò)重要性采樣方法平衡采樣分布,設(shè)置重要性權(quán)重wi:

      48、

      49、其中,n表示經(jīng)驗(yàn)回放緩沖區(qū)中的樣本總數(shù),β′表示控制重要性權(quán)重。

      50、在上述技術(shù)方案中,所述依據(jù)經(jīng)過(guò)dqn模型優(yōu)化后的動(dòng)作價(jià)值函數(shù),選擇最優(yōu)動(dòng)作序列,進(jìn)而將這些動(dòng)作轉(zhuǎn)化為實(shí)際移動(dòng)或路徑?jīng)Q策,包括:

      51、從dqn模型的輸出中選擇具有最高預(yù)期獎(jiǎng)勵(lì)的路徑,并將所選的最優(yōu)路徑轉(zhuǎn)化為機(jī)器人的實(shí)際移動(dòng)指令。

      52、本發(fā)明提供的一種計(jì)算機(jī)設(shè)備,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理器加載并執(zhí)行時(shí)實(shí)現(xiàn)如上述技術(shù)方案中任一項(xiàng)所述的能源受限環(huán)境下的動(dòng)態(tài)避障路徑規(guī)劃方法。

      53、本發(fā)明提供的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有程序,當(dāng)所述程序被處理器加載時(shí)實(shí)現(xiàn)如上述技術(shù)方案中任一項(xiàng)所述的能源受限環(huán)境下的動(dòng)態(tài)避障路徑規(guī)劃方法。

      54、綜上所述,由于采用了上述技術(shù)特征,本發(fā)明的有益效果是:

      55、本發(fā)明提出的一種能源受限環(huán)境下的動(dòng)態(tài)避障路徑規(guī)劃方法,專為動(dòng)態(tài)復(fù)雜環(huán)境且對(duì)能源管理有要求的路徑規(guī)劃問(wèn)題設(shè)計(jì)。此方法首先利用prm算法在環(huán)境中生成關(guān)鍵節(jié)點(diǎn),構(gòu)建初步的路徑規(guī)劃框架。接著,通過(guò)dqn模型對(duì)這些節(jié)點(diǎn)路徑進(jìn)行深入分析和優(yōu)化,準(zhǔn)確估計(jì)每個(gè)動(dòng)作的潛在價(jià)值,從而制定出最優(yōu)的行動(dòng)策略。

      56、本發(fā)明的核心優(yōu)勢(shì)在于其在能源受限的動(dòng)態(tài)環(huán)境中具有出色的處理能力。通過(guò)prm的高效空間采樣和dqn的先進(jìn)強(qiáng)化學(xué)習(xí)能力的結(jié)合,本方法不僅大大提高了路徑規(guī)劃的適應(yīng)性和靈活性,而且通過(guò)prm在障礙物密集的環(huán)境中的有效采樣,并通過(guò)利用kd-tree算法改進(jìn)增量式prm的方式進(jìn)一步提高處理障礙物和地圖更新效率,顯著減輕了障礙物對(duì)dqn決策過(guò)程的影響,使得dqn能專注于路徑優(yōu)化。此外,該發(fā)明通過(guò)持續(xù)收集環(huán)境數(shù)據(jù),并利用經(jīng)驗(yàn)回放池策略不斷優(yōu)化dqn模型,從而顯著提升了路徑規(guī)劃策略的性能。

      57、本發(fā)明中還特別考慮了機(jī)器人的能源管理問(wèn)題。通過(guò)設(shè)定能源補(bǔ)給站節(jié)點(diǎn),并在路徑規(guī)劃中考慮能源消耗,能夠保證機(jī)器人在有限的能源供應(yīng)下有效地完成任務(wù)。不僅提高了路徑規(guī)劃的實(shí)用性,也增加了其在能源受限環(huán)境中的適用性。

      58、與傳統(tǒng)方法相比,本發(fā)明在處理大規(guī)模動(dòng)態(tài)空間數(shù)據(jù)和優(yōu)化長(zhǎng)期路徑規(guī)劃策略方面表現(xiàn)出色。它在各類應(yīng)用場(chǎng)景中,如機(jī)器人導(dǎo)航、能源覆蓋規(guī)劃等領(lǐng)域,展現(xiàn)了巨大的潛力。通過(guò)智能化路徑規(guī)劃和考慮能源約束,本發(fā)明顯著提高了在動(dòng)態(tài)環(huán)境中的導(dǎo)航效率和安全性。

      59、本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述部分中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1