本技術(shù)涉及軌道交通領(lǐng)域,尤其涉及一種基于強化學習的列車運行調(diào)整方法、裝置和電子設備。
背景技術(shù):
1、隨著高速鐵路的飛速發(fā)展,高鐵路網(wǎng)規(guī)模擴大,路網(wǎng)結(jié)構(gòu)更加復雜,加上惡劣天氣、設備故障等突發(fā)事件的影響,可能導致列車出現(xiàn)延誤晚點現(xiàn)象,嚴重時會造成巨大的社會影響和經(jīng)濟效益損失。列車運行調(diào)整是鐵路行車調(diào)度指揮工作的重要內(nèi)容,通過對列車運行計劃進行動態(tài)調(diào)整,可以協(xié)調(diào)各趟列車盡快恢復有序運行,減小延誤時間,縮小影響范圍。因此,對列車運行調(diào)整問題的研究具有非常重要的現(xiàn)實意義。列車運行環(huán)境的復雜性決定了列車運行調(diào)整問題是一個大規(guī)模的復雜組合優(yōu)化問題。強化學習可以通過與環(huán)境的交互來學習最優(yōu)策略,能夠在復雜環(huán)境中進行自主學習和逐步優(yōu)化,適用于復雜環(huán)境下的決策問題,因此常被用于列車運行調(diào)整問題中。但現(xiàn)有的基于強化學習的列車運行調(diào)整方法存在計算復雜度高、難以對列車運行計劃進行整體調(diào)整等缺點。
技術(shù)實現(xiàn)思路
1、有鑒于此,本技術(shù)提出了一種基于強化學習的列車運行調(diào)整方法、裝置和電子設備,可以對同一列車運行線路上的多趟列車的運行方案進行整體調(diào)整,減少列車整體晚點時間,并且可以保證調(diào)整后的列車運行方案與原本的列車運行方案相比不會存在過大的差異,避免對列車群的運行方案進行大規(guī)模調(diào)整。
2、根據(jù)本技術(shù)的一方面,提供了一種基于強化學習的列車運行調(diào)整方法,包括:獲取同一列車運行線路上的多趟列車的第一列車計劃運行方案;所述列車運行線路包括多個車站;所述第一列車計劃運行方案包括所述多趟列車中各趟列車計劃到達所述列車運行線路中各車站的第一計劃到達時間、所述各趟列車在所述各車站的第一計劃停靠時長以及所述各趟列車在所述列車運行線路中各運行區(qū)間的第一計劃運行時長;所述運行區(qū)間表示所述列車運行線路中兩個相鄰車站之間的區(qū)間;建立列車運行狀態(tài)集合和列車運行動作集合;所述列車運行狀態(tài)集合包括所述各趟列車在所述各車站的晚點值;所述列車運行動作集合包括所述各趟列車在所述各車站的停靠時長和所述各趟列車在所述各運行區(qū)間的行駛速度;所述晚點值表示所述各趟列車到達所述各車站的時間與所述各趟列車計劃到達所述各車站的第一計劃到達時間的差值;根據(jù)所述各趟列車在所述各車站的晚點值、所述各趟列車在所述各車站的??繒r長和所述第一計劃??繒r長、所述各趟列車在所述各運行區(qū)間的運行時長和所述第一計劃運行時長,配置目標回報函數(shù);所述各趟列車在所述各運行區(qū)間的運行時長根據(jù)所述各運行區(qū)間的路程和所述各趟列車在所述各運行區(qū)間的行駛速度確定;根據(jù)所述列車運行狀態(tài)集合、所述列車運行動作集合和所述目標回報函數(shù),基于深度確定性策略梯度ddpg算法對強化學習模型進行訓練,得到訓練好的強化學習模型;利用所述訓練好的強化學習模型,得到第二列車計劃運行方案;所述第二列車計劃運行方案包括所述各趟列車計劃到達所述各車站的第二計劃到達時間、所述各趟列車在所述各車站的第二計劃??繒r長和所述各趟列車在所述各運行區(qū)間的第二計劃運行時長。
3、在一種可能的實現(xiàn)方式中,若第一列車在第一車站的第一計劃停靠時長不為0,則所述列車運行動作集合中所述第一列車在所述第一車站的??繒r長也不為0,且所述第一列車在所述第一車站的??繒r長大于或等于最小預設停靠時長;其中,所述第一列車為所述多趟列車中的任一列車;所述第一車站為所述多個車站中的任一車站。
4、在一種可能的實現(xiàn)方式中,所述列車運行動作集合中所述第一列車在所述各運行區(qū)間的行駛速度小于或等于所述第一列車的最大預設行駛速度,且所述第一列車在第一運行區(qū)間的行駛速度小于或等于所述第一運行區(qū)間的最大允許行駛速度;所述第一運行區(qū)間為所述各運行區(qū)間中的任一運行區(qū)間。
5、在一種可能的實現(xiàn)方式中,所述目標回報函數(shù)包括第一回報函數(shù)、第二回報函數(shù)和第三回報函數(shù);所述目標回報函數(shù)的值通過對所述第一回報函數(shù)的值、所述第二回報函數(shù)的值和所述第三回報函數(shù)的值進行加權(quán)求和得到;其中,所述第一回報函數(shù)的值根據(jù)所述各趟列車在第二車站的晚點值與所述各趟列車在第三車站的晚點值的差值進行計算;所述第二回報函數(shù)的值根據(jù)所述各趟列車在所述多個車站中的始發(fā)站的晚點值和所述各趟列車在所述多個車站中的終點站的晚點值的差值進行計算;所述第三回報函數(shù)的值根據(jù)所述各趟列車在第一車站的第一計劃??繒r長與所述各趟列車在所述第一車站的停靠時長的差值、所述各趟列車在第一運行區(qū)間的第一計劃運行時長與所述各趟列車在所述第一運行區(qū)間的運行時長的差值進行計算;所述第一車站為所述多個車站中的任一車站;所述第二車站為所述多個車站中除所述終點站外的任一車站;所述第三車站為所述多個車站中與所述第二車站相鄰的下一個車站;所述第一運行區(qū)間為所述各運行區(qū)間中的任一運行區(qū)間。
6、在一種可能的實現(xiàn)方式中,所述強化學習模型包括當前行動者actor網(wǎng)絡、目標actor網(wǎng)絡、當前價值critic網(wǎng)絡和目標critic網(wǎng)絡;所述列車運行線路包括m+1個車站;所述根據(jù)所述列車運行狀態(tài)集合、所述列車運行動作集合和所述目標回報函數(shù),基于深度確定性策略梯度ddpg算法對強化學習模型進行訓練,得到訓練好的強化學習模型,包括:將第k個列車運行狀態(tài)輸入至所述當前actor網(wǎng)絡,得到所述第k個列車運行狀態(tài)對應的動作差值;所述第k個列車運行狀態(tài)為所述列車運行狀態(tài)集合中所述各趟列車在所述列車運行線路中第k個車站的晚點值;所述第k個列車運行狀態(tài)對應的動作差值包括所述各趟列車在所述第k個車站的??繒r長與所述各趟列車在所述第k個車站的第一計劃??繒r長的差值、所述各趟列車在第k+1個運行區(qū)間的運行時長與所述各趟列車在所述第k+1個運行區(qū)間的第一計劃運行時長的差值;所述第k+1個運行區(qū)間為所述列車運行線路中第k個車站到第k+1個車站之間的運行區(qū)間;0≤k≤m;根據(jù)所述第k個列車運行狀態(tài)對應的動作差值,得到所述第k個列車運行狀態(tài)對應的動作;所述第k個列車運行狀態(tài)對應的動作包括從所述列車運行動作集合中選擇的所述各趟列車在所述第k個車站的??繒r長以及所述各趟列車在所述第k+1個運行區(qū)間的行駛速度;將所述第k個列車運行狀態(tài)和所述第k個列車運行狀態(tài)對應的動作輸入至所述當前critic網(wǎng)絡,得到當前回報值;所述當前回報值根據(jù)所述目標回報函數(shù)進行計算;根據(jù)所述當前回報值對所述當前actor網(wǎng)絡的參數(shù)進行更新,直至滿足第一預設訓練條件時,停止更新所述當前actor網(wǎng)絡的參數(shù),得到訓練好的當前actor網(wǎng)絡;將第k+1個列車運行狀態(tài)輸入至所述目標actor網(wǎng)絡,得到所述第k+1個列車運行狀態(tài)對應的動作差值;根據(jù)所述第k+1個列車運行狀態(tài)對應的動作差值,得到所述第k+1個列車運行狀態(tài)對應的動作;將所述第k+1個列車運行狀態(tài)和所述第k+1個列車運行狀態(tài)對應的動作輸入至所述目標critic網(wǎng)絡,得到目標回報值;所述目標回報值根據(jù)所述目標回報函數(shù)進行計算;根據(jù)所述當前回報值和所述目標回報值對所述當前critic網(wǎng)絡的參數(shù)進行更新,直至滿足第二預設訓練條件時,停止更新所述當前critic網(wǎng)絡的參數(shù),得到訓練好的當前critic網(wǎng)絡;將所述訓練好的當前actor網(wǎng)絡的參數(shù)作為所述目標actor網(wǎng)絡的參數(shù),將所述訓練好的當前critic網(wǎng)絡的參數(shù)作為所述目標critic網(wǎng)絡的參數(shù),得到訓練好的目標actor網(wǎng)絡和訓練好的目標critic網(wǎng)絡;根據(jù)所述訓練好的當前actor網(wǎng)絡、所述訓練好的當前critic網(wǎng)絡、所述訓練好的目標actor網(wǎng)絡和所述訓練好的目標critic網(wǎng)絡,得到訓練好的強化學習模型。
7、在一種可能的實現(xiàn)方式中,所述當前actor網(wǎng)絡和所述目標actor網(wǎng)絡包括隱藏層和輸出層;所述將第k個列車運行狀態(tài)輸入至所述當前actor網(wǎng)絡,得到所述第k個列車運行狀態(tài)對應的動作差值,包括:將所述第k個列車運行狀態(tài)輸入至所述當前actor網(wǎng)絡的隱藏層并應用線性整流relu激活函數(shù),得到第一特征值;將所述第一特征值輸入至所述當前actor網(wǎng)絡的輸出層并應用雙曲正切tanh激活函數(shù)后乘以預設系數(shù),得到所述各趟列車在所述第k+1個運行區(qū)間的運行時長與所述各趟列車在所述第k+1個運行區(qū)間的第一計劃運行時長的差值;將所述第一特征值輸入至所述當前actor網(wǎng)絡的輸出層并應用tanh激活函數(shù),得到第二特征值;將所述第二特征值除以2后應用relu激活函數(shù),得到所述各趟列車在所述第k個車站的??繒r長與所述各趟列車在所述第k個車站的第一計劃??繒r長的差值;所述將第k+1個列車運行狀態(tài)輸入至所述目標actor網(wǎng)絡,得到所述第k+1個列車運行狀態(tài)對應的動作差值,包括:將所述第k+1個列車運行狀態(tài)輸入至所述目標actor網(wǎng)絡的隱藏層并應用relu激活函數(shù),得到第三特征值;將所述第三特征值輸入至所述目標actor網(wǎng)絡的輸出層并應用tanh激活函數(shù)后乘以所述預設系數(shù),得到所述各趟列車在第k+2個運行區(qū)間的運行時長與所述各趟列車在所述第k+2個運行區(qū)間的第一計劃運行時長的差值;將所述第三特征值輸入至所述目標actor網(wǎng)絡的輸出層并應用tanh激活函數(shù),得到第四特征值;將所述第四特征值除以2后應用relu激活函數(shù),得到所述各趟列車在第k+1個車站的??繒r長與所述各趟列車在所述第k+1個車站的第一計劃??繒r長的差值。
8、在一種可能的實現(xiàn)方式中,所述利用所述訓練好的強化學習模型,得到第二列車計劃運行方案,包括:獲取初始晚點集合;所述初始晚點集合包括所述各趟列車在所述列車運行線路上已到達的車站的晚點值;根據(jù)所述初始晚點集合、所述列車運行動作集合和所述訓練好的強化學習模型,確定所述各趟列車在所述各車站的第二計劃??繒r長和所述各趟列車在所述各運行區(qū)間的第二計劃運行時長;根據(jù)所述初始晚點集合、所述各趟列車在所述各車站的第二計劃??繒r長和所述各趟列車在所述各運行區(qū)間的第二計劃運行時長,確定所述各趟列車計劃到達所述各車站的第二計劃到達時間。
9、根據(jù)本技術(shù)的另一方面,提供了一種基于強化學習的列車運行調(diào)整裝置,包括:獲取模塊,用于獲取同一列車運行線路上的多趟列車的第一列車計劃運行方案;所述列車運行線路包括多個車站;所述第一列車計劃運行方案包括所述多趟列車中各趟列車計劃到達所述列車運行線路中各車站的第一計劃到達時間、所述各趟列車在所述各車站的第一計劃停靠時長以及所述各趟列車在所述列車運行線路中各運行區(qū)間的第一計劃運行時長;所述運行區(qū)間表示所述列車運行線路中兩個相鄰車站之間的區(qū)間;狀態(tài)集和動作集建立模塊,用于建立列車運行狀態(tài)集合和列車運行動作集合;所述列車運行狀態(tài)集合包括所述各趟列車在所述各車站的晚點值;所述列車運行動作集合包括所述各趟列車在所述各車站的??繒r長和所述各趟列車在所述各運行區(qū)間的行駛速度;所述晚點值表示所述各趟列車到達所述各車站的時間與所述各趟列車計劃到達所述各車站的第一計劃到達時間的差值;回報函數(shù)配置模塊,用于根據(jù)所述各趟列車在所述各車站的晚點值、所述各趟列車在所述各車站的??繒r長和所述第一計劃??繒r長、所述各趟列車在所述各運行區(qū)間的運行時長和所述第一計劃運行時長,配置目標回報函數(shù);所述各趟列車在所述各運行區(qū)間的運行時長根據(jù)所述各運行區(qū)間的路程和所述各趟列車在所述各運行區(qū)間的行駛速度確定;訓練模塊,用于根據(jù)所述列車運行狀態(tài)集合、所述列車運行動作集合和所述目標回報函數(shù),基于深度確定性策略梯度ddpg算法對強化學習模型進行訓練,得到訓練好的強化學習模型;運行方案調(diào)整模塊,用于利用所述訓練好的強化學習模型,得到第二列車計劃運行方案;所述第二列車計劃運行方案包括所述各趟列車計劃到達所述各車站的第二計劃到達時間、所述各趟列車在所述各車站的第二計劃??繒r長和所述各趟列車在所述各運行區(qū)間的第二計劃運行時長。
10、根據(jù)本技術(shù)的另一方面,提供了一種電子設備,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為在執(zhí)行所述存儲器存儲的指令時,實現(xiàn)上述基于強化學習的列車運行調(diào)整方法。
11、根據(jù)本技術(shù)的另一方面,提供了一種非易失性計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,其中,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)上述基于強化學習的列車運行調(diào)整方法。
12、根據(jù)本技術(shù)的另一方面,提供了一種計算機程序產(chǎn)品,包括計算機可讀代碼,或者承載有計算機可讀代碼的非易失性計算機可讀存儲介質(zhì),當所述計算機可讀代碼在電子設備的處理器中運行時,所述電子設備中的處理器執(zhí)行上述基于強化學習的列車運行調(diào)整方法。
13、本技術(shù)的基于強化學習的列車運行調(diào)整方法,根據(jù)列車在各車站的晚點值建立狀態(tài)集,根據(jù)列車在各車站的??繒r長和列車在各運行區(qū)間的行駛速度建立動作集,根據(jù)列車的晚點值和原本的列車運行方案與列車在動作集中所采用的動作之間的差距設置回報函數(shù),并基于ddpg算法對強化學習模型進行訓練,通過訓練好的強化學習模型得到調(diào)整后的列車運行方案,可以對同一列車運行線路上的列車群的運行方案進行整體調(diào)整,減少列車整體晚點時間,并且可以保證調(diào)整后的列車運行方案與原本的列車運行方案相比不會存在過大的差異,避免對列車群的運行方案進行大規(guī)模調(diào)整。
14、根據(jù)下面參考附圖對示例性實施例的詳細說明,本技術(shù)的其它特征及方面將變得清楚。