1.一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述模型的構建包括以下步驟:
2.根據(jù)權利要求1所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述離線機器人路徑規(guī)劃數(shù)據(jù)集包括由專家指導的最優(yōu)路徑集合或/和其他高性能機器人路徑規(guī)劃算法所完成的機器人路徑規(guī)劃數(shù)據(jù)集。
3.根據(jù)權利要求1所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述預處理具體為:將強化學習中的最后k個時間步輸入決策轉換器,將r,s,a分別映射到一個嵌入并與位置編碼相加,得到設定長度的標志tokens,作為當前狀態(tài)的特征,這個特征包含局部特征和全局特征。
4.根據(jù)權利要求3所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述狀態(tài)預測網(wǎng)絡具體為transformers模型;所述transformers模型由堆疊的自注意力層和連接層組成;將r,s,a的token輸入transformer模型,transformer模型輸出一個隱藏狀態(tài),將該隱藏狀態(tài)輸入到一個線性層來預測下一個狀態(tài);
5.根據(jù)權利要求4所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述步驟4中的損失函數(shù)具體為交叉熵損失函數(shù),計算公式如下:
6.根據(jù)權利要求5所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述執(zhí)行策略網(wǎng)絡只以當前狀態(tài)s和下一個狀態(tài)s′作為輸入,選擇在當前狀態(tài)下的最優(yōu)動作a,使用策略梯度方法來訓練,具體構建執(zhí)行策略網(wǎng)絡的公式如下:
7.根據(jù)權利要求6所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述優(yōu)化執(zhí)行策略網(wǎng)絡的具體流程如下:
8.根據(jù)權利要求7所述的一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃模型,其特征在于,所述超參數(shù)包括狀態(tài)預測網(wǎng)絡與執(zhí)行策略網(wǎng)絡的學習率、經(jīng)驗回放池大、探索步數(shù)、訓練步數(shù)、優(yōu)化步數(shù)。
9.一種基于兩階段解耦離線強化學習的機器人路徑規(guī)劃方法,其特征在于,包括以下步驟: