1.一種基于強化學習的隧道伺服支撐體系與自適應控制方法,其特征在于:包括如下的步驟:
2.根據(jù)權利要求1所述的基于強化學習的隧道伺服支撐體系與自適應控制方法,其特征在于:所述步驟s1包括如下具體步驟:
3.根據(jù)權利要求1所述的基于強化學習的隧道伺服支撐體系與自適應控制方法,其特征在于:所述步驟s3包括如下具體步驟:
4.根據(jù)權利要求1所述的基于強化學習的隧道伺服支撐體系與自適應控制方法,其特征在于:所述步驟s4包括如下具體步驟:
5.根據(jù)權利要求1所述的基于強化學習的隧道伺服支撐體系與自適應控制方法,其特征在于:所述伺服參數(shù)的強化學習模型包括強化學習策略網絡、伺服支撐動態(tài)模型、伺服支撐評價網絡和強化學習價值網絡;所述強化學習策略網絡根據(jù)當前環(huán)境狀態(tài)的輸入,策略網絡輸出一個動作作為伺服參數(shù),這個動作被應用到伺服支撐動態(tài)模型中;所述伺服支撐動態(tài)模型是模擬伺服支撐體系的動態(tài)特性,預測在不同動作下的狀態(tài)轉移情況,根據(jù)當前的伺服參數(shù)更新位移狀態(tài);所述伺服支撐評價網絡是評估當前狀態(tài)下伺服支撐體系的表現(xiàn),輸出作為獎勵信號,用來指導價值網絡的學習過程;所述強化學習價值網絡是評估在當前狀態(tài)下選擇某個動作的長期回報,輸出幫助策略網絡更好地選擇動作,長期獲得更高的獎勵。
6.根據(jù)權利要求1所述的基于強化學習的隧道伺服支撐體系與自適應控制方法,其特征在于:所述步驟s5包括如下具體步驟:
7.一種計算機系統(tǒng),包括存儲器、處理器及存儲在存儲器上的計算機程序,其特征在于:所述處理器執(zhí)行所述計算機程序以實現(xiàn)權利要求1所述方法的步驟。
8.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于:該計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1所述方法的步驟。
9.一種計算機程序產品,包括計算機程序,其特征在于:該計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1所述方法的步驟。