国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型及方法

      文檔序號:40393745發(fā)布日期:2024-12-20 12:17閱讀:來源:國知局

      技術特征:

      1.一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述模型的構建包括以下步驟:

      2.根據(jù)權利要求1所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述離線機器人路徑規(guī)劃數(shù)據(jù)集包括由專家指導的最優(yōu)路徑集合或/和其他高性能機器人路徑規(guī)劃算法所完成的機器人路徑規(guī)劃數(shù)據(jù)集。

      3.根據(jù)權利要求1所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述預處理具體為:將強化學習中的最后k個時間步輸入決策轉換器,將r,s,a分別映射到一個嵌入并與位置編碼相加,得到設定長度的標志tokens,作為當前狀態(tài)的特征,這個特征包含局部特征和全局特征。

      4.根據(jù)權利要求3所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述狀態(tài)預測網(wǎng)絡具體為transformers模型;所述transformers模型由堆疊的自注意力層和連接層組成;將r,s,a的token輸入transformer模型,transformer模型輸出一個隱藏狀態(tài),將該隱藏狀態(tài)輸入到一個線性層來預測下一個狀態(tài);

      5.根據(jù)權利要求4所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述步驟4中的損失函數(shù)具體為交叉熵損失函數(shù),計算公式如下:

      6.根據(jù)權利要求5所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述執(zhí)行策略網(wǎng)絡只以當前狀態(tài)s和下一個狀態(tài)s′作為輸入,選擇在當前狀態(tài)下的最優(yōu)動作a,使用策略梯度方法來訓練,具體構建執(zhí)行策略網(wǎng)絡的公式如下:

      7.根據(jù)權利要求6所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述優(yōu)化執(zhí)行策略網(wǎng)絡的具體流程如下:

      8.根據(jù)權利要求7所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述超參數(shù)包括狀態(tài)預測網(wǎng)絡與執(zhí)行策略網(wǎng)絡的學習率、經(jīng)驗回放池大、探索步數(shù)、訓練步數(shù)、優(yōu)化步數(shù)。

      9.一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃方法,其特征在于,包括以下步驟:


      技術總結
      本發(fā)明公開了一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型及方法,屬于機器智能決策與控制技術領域。該方法包括一種基于兩階段解耦離線強化學習的神經(jīng)網(wǎng)絡模型,該模型利用Transformer架構避免傳統(tǒng)基于策略約束方法和基于值函數(shù)正則方法存在的分布外泛化問題,并修改現(xiàn)有的基于Transformer架構強化學習方法,使預測狀態(tài)與預測動作兩階段解耦,令智能體不局限于模仿數(shù)據(jù)集中軌跡與動作組合,而是能夠學習到具有高期望回報的狀態(tài),通過拼接次優(yōu)軌跡和狀態(tài)組合實現(xiàn)超越數(shù)據(jù)集中最優(yōu)軌跡的行為策略。該方法旨在解決現(xiàn)有機器人路徑規(guī)劃方法計算資源需求高,模型泛化能力差,模型應對不確定性和容易陷入局部最優(yōu)等問題。

      技術研發(fā)人員:解修蕊,張東陽,胡翔宇,陳宇,曾誠,馮敬軒
      受保護的技術使用者:電子科技大學
      技術研發(fā)日:
      技術公布日:2024/12/19
      當前第2頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1