本發(fā)明涉及智能交通,特別涉及一種基于深度強化學習的信號燈智能控制方法。
背景技術(shù):
1、隨著城市中汽車保有量的增加,路網(wǎng)承受負荷加重,道路通行能力不滿足當前需求,交通堵塞等問題在城市路網(wǎng)系統(tǒng)中愈發(fā)突出。交叉路口作為交通路網(wǎng)的瓶頸,其管理策略對路網(wǎng)的綜合通行能力影響最深,現(xiàn)有的交叉路口信號燈調(diào)控手段仍有提升的余地。如何使其可以根據(jù)道路車輛的密度和分布狀態(tài)動態(tài)調(diào)整相位策略,提高道路通行能力,是一個需要迫切解決的問題。
2、傳統(tǒng)的信號燈智能控制方法往往不能充分利用現(xiàn)有的傳感器、攝像頭等聯(lián)網(wǎng)設(shè)備收集的多維交通數(shù)據(jù),大多依據(jù)專家的經(jīng)驗判斷而設(shè)置信號燈相位,這種策略往往缺乏靈活性和及時性。
3、為了提高交叉路口信號燈調(diào)控效率,本發(fā)明提出了一種基于深度強化學習的信號燈智能控制方法。
技術(shù)實現(xiàn)思路
1、本發(fā)明為了彌補現(xiàn)有技術(shù)的缺陷,提供了一種簡單高效的基于深度強化學習的信號燈智能控制方法。
2、本發(fā)明是通過如下技術(shù)方案實現(xiàn)的:
3、一種基于深度強化學習的信號燈智能控制方法,包括以下步驟:
4、步驟s1、搭建仿真平臺;
5、基于sumo(simulation?of?urban?mobility)仿真軟件和python構(gòu)建仿真平臺,在sumo仿真軟件中搭建路網(wǎng),路網(wǎng)策略中包含交叉口策略、信號燈策略以及輸入車輛策略;
6、步驟s2、設(shè)計控制策略模型;
7、基于柔性動作-評價算法(soft?actor-critic,sac)設(shè)計入匝道車輛的控制策略模型,分別定義模型中的狀態(tài)空間s、動作空間a和獎勵函數(shù)r;
8、其中,狀態(tài)空間s為車輛的位置和速度,為一維數(shù)組;動作空間a定義為信號燈的相位;獎勵函數(shù)r為車輛排隊長度、車輛平均速度和車輛等待時間加權(quán)求和得到的值,具體如下:
9、r=μ1*rlength+μ2rspeed+μ3rwaittime
10、其中μ1、μ2與μ3分別為車輛排隊長度、車輛平均速度和車輛等待時間的權(quán)重參數(shù),權(quán)重和為1,表示不同指標對獎勵函數(shù)的影響;rlength表示路口車輛平均排隊長度,rspeed為所有車輛通過路口的平均車速,rwaittime為所有車輛在路口的平均等待時間;
11、步驟s3、定義算法流程;
12、在進行模型訓練前初始化所有參數(shù),根據(jù)智能體執(zhí)行動作更新環(huán)境狀態(tài)數(shù)據(jù),并產(chǎn)生獎勵,將智能體執(zhí)行動作的各個步驟中產(chǎn)生的經(jīng)驗存儲到經(jīng)驗回放池中;當經(jīng)驗存儲量達到自定義閾值時,開始學習過程,對目標網(wǎng)絡(luò)進行更新,以確保訓練的穩(wěn)定;
13、所述步驟s3中,算法流程如下:
14、步驟s3.1、在進行模型訓練前初始化所有參數(shù),包括最大時間步m、初始化策略網(wǎng)絡(luò)參數(shù)q值函數(shù)參數(shù)v值函數(shù)參數(shù)γ和經(jīng)驗回放池d;
15、步驟s3.2、智能體根據(jù)環(huán)境狀態(tài)和策略網(wǎng)絡(luò)選擇一個動作,智能體執(zhí)行動作at使環(huán)境更新到新的狀態(tài)st+1,并產(chǎn)生獎勵rt;
16、步驟s3.3、將各個步驟中產(chǎn)生的經(jīng)驗(st,at,st+1,r)存儲到經(jīng)驗回放池d中,當經(jīng)驗回放池d中的經(jīng)驗達到自定義閾值時,開始學習過程;
17、步驟s3.4、學習過程中,在經(jīng)驗回放池d中進行隨機采樣,通過算法的損失函數(shù)來更新q值函數(shù)、v值函數(shù)、策略參數(shù)和目標值網(wǎng)絡(luò)參數(shù),對目標網(wǎng)絡(luò)進行更新,以確保訓練的穩(wěn)定。
18、步驟s4、模型訓練與驗證;
19、在訓練過程中,模型以最大化累計獎勵函數(shù)為目標,通過智能體在模擬環(huán)境中不斷探索的方式訓練模型,以提高其控制信號燈的策略方式,并通過車輛仿真技術(shù)驗證模型的有效性。
20、所述步驟s4中,模型訓練過程如下:
21、步驟s4.1、通過設(shè)置車輛的輸入規(guī)則初始化環(huán)境數(shù)據(jù);
22、步驟s4.2、通過調(diào)用traci接口的方式收集路口車輛信息數(shù)據(jù),并記錄環(huán)境狀態(tài)、智能體采取的動作、即時獎勵和下一個環(huán)境狀態(tài);
23、步驟s4.3、計算目標策略熵、更新評論家critic網(wǎng)絡(luò)、行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò);
24、步驟s4.4、在訓練過程中,自動調(diào)整目標策略熵以平衡探索和利用的策略;如果策略的熵低于目標策略熵,則增加目標策略熵的值,以鼓勵更多的探索;
25、步驟s4.5、重復步驟s4.2~步驟s4.4,直到達到用戶自定義預定的訓練輪數(shù)。
26、所述步驟s4中,模型驗證過程與模型訓練過程的區(qū)別僅在于,在驗證過程中不再更新行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。
27、步驟s5、模型應用;
28、在仿真平臺中,智能體通過python調(diào)用sumo仿真軟件的traci接口實時獲取道路車輛信息,利用經(jīng)過訓練與驗證的模型實現(xiàn)對信號燈的實時控制。
29、一種基于深度強化學習的信號燈智能控制系統(tǒng),包括:
30、仿真平臺搭建模塊,負責基于sumo(simulation?of?urban?mobility)仿真軟件和python構(gòu)建仿真平臺,在sumo仿真軟件中搭建路網(wǎng),路網(wǎng)策略中包含交叉口策略、信號燈策略以及輸入車輛策略;在仿真平臺中,智能體通過python調(diào)用sumo仿真軟件的traci接口實時獲取道路車輛信息,實現(xiàn)對信號燈的實時控制;
31、控制策略模型設(shè)計模塊,負責基于柔性動作-評價算法(soft?actor-critic,sac)設(shè)計入匝道車輛的控制策略模型,分別定義模型中的狀態(tài)空間s、動作空間a和獎勵函數(shù)r;
32、其中,狀態(tài)空間s為車輛的位置和速度,為一維數(shù)組;動作空間a定義為信號燈的相位;獎勵函數(shù)r為車輛排隊長度、車輛平均速度和車輛等待時間加權(quán)求和得到的值,具體如下:
33、r=μ1*rlength+μ2rspeed+μ3rwaittime
34、其中μ1、μ2與μ3分別為車輛排隊長度、車輛平均速度和車輛等待時間的權(quán)重參數(shù),權(quán)重和為1,表示不同指標對獎勵函數(shù)的影響;rlength表示路口車輛平均排隊長度,rspeed為所有車輛通過路口的平均車速,rwaittime為所有車輛在路口的平均等待時間;
35、算法流程定義模塊,負責在進行模型訓練前初始化所有參數(shù),根據(jù)智能體執(zhí)行動作更新環(huán)境狀態(tài)數(shù)據(jù),并產(chǎn)生獎勵,將智能體執(zhí)行動作的各個步驟中產(chǎn)生的經(jīng)驗存儲到經(jīng)驗回放池中;當經(jīng)驗存儲量達到自定義閾值時,開始學習過程,對目標網(wǎng)絡(luò)進行更新,以確保訓練的穩(wěn)定;
36、所述算法流程定義模塊負責執(zhí)行的算法流程如下:
37、步驟s3.1、在進行模型訓練前初始化所有參數(shù),包括最大時間步m、初始化策略網(wǎng)絡(luò)參數(shù)q值函數(shù)參數(shù)v值函數(shù)參數(shù)γ和經(jīng)驗回放池d;
38、步驟s3.2、智能體根據(jù)環(huán)境狀態(tài)和策略網(wǎng)絡(luò)選擇一個動作,智能體執(zhí)行動作at使環(huán)境更新到新的狀態(tài)st+1,并產(chǎn)生獎勵rt;
39、步驟s3.3、將各個步驟中產(chǎn)生的經(jīng)驗(st,at,st+1,r)存儲到經(jīng)驗回放池d中,當經(jīng)驗回放池d中的經(jīng)驗達到自定義閾值時,開始學習過程;
40、步驟s3.4、學習過程中,在經(jīng)驗回放池d中進行隨機采樣,通過算法的損失函數(shù)來更新q值函數(shù)、v值函數(shù)、策略參數(shù)和目標值網(wǎng)絡(luò)參數(shù),對目標網(wǎng)絡(luò)進行更新,以確保訓練的穩(wěn)定。
41、模型訓練與驗證模塊,負責對模型進行訓練與驗證;在訓練過程中,模型以最大化累計獎勵函數(shù)為目標,通過智能體在模擬環(huán)境中不斷探索的方式訓練模型,以提高其控制信號燈的策略方式,并通過車輛仿真技術(shù)驗證模型的有效性。
42、所述模型訓練與驗證模塊中,模型訓練過程如下:
43、步驟s4.1、通過設(shè)置車輛的輸入規(guī)則初始化環(huán)境數(shù)據(jù);
44、步驟s4.2、通過調(diào)用traci接口的方式收集路口車輛信息數(shù)據(jù),并記錄環(huán)境狀態(tài)、智能體采取的動作、即時獎勵和下一個環(huán)境狀態(tài);
45、步驟s4.3、計算目標策略熵、更新評論家critic網(wǎng)絡(luò)、行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò);
46、步驟s4.4、在訓練過程中,自動調(diào)整目標策略熵以平衡探索和利用的策略;如果策略的熵低于目標策略熵,則增加目標策略熵的值,以鼓勵更多的探索;
47、步驟s4.5、重復步驟s4.2~步驟s4.4,直到達到用戶自定義預定的訓練輪數(shù)。
48、所述模型訓練與驗證模塊中,模型驗證過程與模型訓練過程的區(qū)別僅在于,在驗證過程中不再更新行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。
49、模型應用模塊,負責在仿真平臺中,通過python調(diào)用sumo仿真軟件的traci接口實時獲取道路車輛信息,利用經(jīng)過訓練與驗證的模型實現(xiàn)對信號燈的實時控制。
50、一種基于深度強化學習的信號燈智能控制設(shè)備,其特征在于:包括存儲器和處理器;所述存儲器用于存儲計算機程序,所述處理器用于執(zhí)行所述計算機程序時實現(xiàn)上述的方法步驟。
51、一種可讀存儲介質(zhì),其特征在于:所述可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的方法步驟。
52、本發(fā)明的有益效果是:該基于深度強化學習的信號燈智能控制方法,不僅能夠控制信號燈相位,還可以根據(jù)各個道路的車流密度動態(tài)調(diào)整信號燈相位,進而平衡了各個方向車輛的等待時間,提高了路口的通行效率。