一種基于深度強化學習的信號燈智能控制方法與流程

文檔序號：40278643發(fā)布日期：2024-12-11 13:14閱讀：19來源：國知局

本發(fā)明涉及智能交通，特別涉及一種基于深度強化學習的信號燈智能控制方法。

背景技術(shù)：

1、隨著城市中汽車保有量的增加，路網(wǎng)承受負荷加重，道路通行能力不滿足當前需求，交通堵塞等問題在城市路網(wǎng)系統(tǒng)中愈發(fā)突出。交叉路口作為交通路網(wǎng)的瓶頸，其管理策略對路網(wǎng)的綜合通行能力影響最深，現(xiàn)有的交叉路口信號燈調(diào)控手段仍有提升的余地。如何使其可以根據(jù)道路車輛的密度和分布狀態(tài)動態(tài)調(diào)整相位策略，提高道路通行能力，是一個需要迫切解決的問題。

2、傳統(tǒng)的信號燈智能控制方法往往不能充分利用現(xiàn)有的傳感器、攝像頭等聯(lián)網(wǎng)設(shè)備收集的多維交通數(shù)據(jù)，大多依據(jù)專家的經(jīng)驗判斷而設(shè)置信號燈相位，這種策略往往缺乏靈活性和及時性。

3、為了提高交叉路口信號燈調(diào)控效率，本發(fā)明提出了一種基于深度強化學習的信號燈智能控制方法。

技術(shù)實現(xiàn)思路

1、本發(fā)明為了彌補現(xiàn)有技術(shù)的缺陷，提供了一種簡單高效的基于深度強化學習的信號燈智能控制方法。

2、本發(fā)明是通過如下技術(shù)方案實現(xiàn)的：

3、一種基于深度強化學習的信號燈智能控制方法，包括以下步驟：

4、步驟s1、搭建仿真平臺；

5、基于sumo(simulation?of?urban?mobility)仿真軟件和python構(gòu)建仿真平臺，在sumo仿真軟件中搭建路網(wǎng)，路網(wǎng)策略中包含交叉口策略、信號燈策略以及輸入車輛策略；

6、步驟s2、設(shè)計控制策略模型；

7、基于柔性動作-評價算法(soft?actor-critic，sac)設(shè)計入匝道車輛的控制策略模型，分別定義模型中的狀態(tài)空間s、動作空間a和獎勵函數(shù)r；

8、其中，狀態(tài)空間s為車輛的位置和速度，為一維數(shù)組；動作空間a定義為信號燈的相位；獎勵函數(shù)r為車輛排隊長度、車輛平均速度和車輛等待時間加權(quán)求和得到的值，具體如下：

9、r＝μ1*rlength+μ2rspeed+μ3rwaittime

10、其中μ1、μ2與μ3分別為車輛排隊長度、車輛平均速度和車輛等待時間的權(quán)重參數(shù)，權(quán)重和為1，表示不同指標對獎勵函數(shù)的影響；rlength表示路口車輛平均排隊長度，rspeed為所有車輛通過路口的平均車速，rwaittime為所有車輛在路口的平均等待時間；

11、步驟s3、定義算法流程；

12、在進行模型訓練前初始化所有參數(shù)，根據(jù)智能體執(zhí)行動作更新環(huán)境狀態(tài)數(shù)據(jù)，并產(chǎn)生獎勵，將智能體執(zhí)行動作的各個步驟中產(chǎn)生的經(jīng)驗存儲到經(jīng)驗回放池中；當經(jīng)驗存儲量達到自定義閾值時，開始學習過程，對目標網(wǎng)絡(luò)進行更新，以確保訓練的穩(wěn)定；

13、所述步驟s3中，算法流程如下：

14、步驟s3.1、在進行模型訓練前初始化所有參數(shù)，包括最大時間步m、初始化策略網(wǎng)絡(luò)參數(shù)q值函數(shù)參數(shù)v值函數(shù)參數(shù)γ和經(jīng)驗回放池d；

15、步驟s3.2、智能體根據(jù)環(huán)境狀態(tài)和策略網(wǎng)絡(luò)選擇一個動作，智能體執(zhí)行動作at使環(huán)境更新到新的狀態(tài)st+1，并產(chǎn)生獎勵rt；

16、步驟s3.3、將各個步驟中產(chǎn)生的經(jīng)驗(st,at,st+1,r)存儲到經(jīng)驗回放池d中，當經(jīng)驗回放池d中的經(jīng)驗達到自定義閾值時，開始學習過程；

17、步驟s3.4、學習過程中，在經(jīng)驗回放池d中進行隨機采樣，通過算法的損失函數(shù)來更新q值函數(shù)、v值函數(shù)、策略參數(shù)和目標值網(wǎng)絡(luò)參數(shù)，對目標網(wǎng)絡(luò)進行更新，以確保訓練的穩(wěn)定。

18、步驟s4、模型訓練與驗證；

19、在訓練過程中，模型以最大化累計獎勵函數(shù)為目標，通過智能體在模擬環(huán)境中不斷探索的方式訓練模型，以提高其控制信號燈的策略方式，并通過車輛仿真技術(shù)驗證模型的有效性。

20、所述步驟s4中，模型訓練過程如下：

21、步驟s4.1、通過設(shè)置車輛的輸入規(guī)則初始化環(huán)境數(shù)據(jù)；

22、步驟s4.2、通過調(diào)用traci接口的方式收集路口車輛信息數(shù)據(jù)，并記錄環(huán)境狀態(tài)、智能體采取的動作、即時獎勵和下一個環(huán)境狀態(tài)；

23、步驟s4.3、計算目標策略熵、更新評論家critic網(wǎng)絡(luò)、行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)；

24、步驟s4.4、在訓練過程中，自動調(diào)整目標策略熵以平衡探索和利用的策略；如果策略的熵低于目標策略熵，則增加目標策略熵的值，以鼓勵更多的探索；

25、步驟s4.5、重復步驟s4.2～步驟s4.4，直到達到用戶自定義預定的訓練輪數(shù)。

26、所述步驟s4中，模型驗證過程與模型訓練過程的區(qū)別僅在于，在驗證過程中不再更新行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。

27、步驟s5、模型應用；

28、在仿真平臺中，智能體通過python調(diào)用sumo仿真軟件的traci接口實時獲取道路車輛信息，利用經(jīng)過訓練與驗證的模型實現(xiàn)對信號燈的實時控制。

29、一種基于深度強化學習的信號燈智能控制系統(tǒng)，包括：

30、仿真平臺搭建模塊，負責基于sumo(simulation?of?urban?mobility)仿真軟件和python構(gòu)建仿真平臺，在sumo仿真軟件中搭建路網(wǎng)，路網(wǎng)策略中包含交叉口策略、信號燈策略以及輸入車輛策略；在仿真平臺中，智能體通過python調(diào)用sumo仿真軟件的traci接口實時獲取道路車輛信息，實現(xiàn)對信號燈的實時控制；

31、控制策略模型設(shè)計模塊，負責基于柔性動作-評價算法(soft?actor-critic，sac)設(shè)計入匝道車輛的控制策略模型，分別定義模型中的狀態(tài)空間s、動作空間a和獎勵函數(shù)r；

32、其中，狀態(tài)空間s為車輛的位置和速度，為一維數(shù)組；動作空間a定義為信號燈的相位；獎勵函數(shù)r為車輛排隊長度、車輛平均速度和車輛等待時間加權(quán)求和得到的值，具體如下：

33、r＝μ1*rlength+μ2rspeed+μ3rwaittime

34、其中μ1、μ2與μ3分別為車輛排隊長度、車輛平均速度和車輛等待時間的權(quán)重參數(shù)，權(quán)重和為1，表示不同指標對獎勵函數(shù)的影響；rlength表示路口車輛平均排隊長度，rspeed為所有車輛通過路口的平均車速，rwaittime為所有車輛在路口的平均等待時間；

35、算法流程定義模塊，負責在進行模型訓練前初始化所有參數(shù)，根據(jù)智能體執(zhí)行動作更新環(huán)境狀態(tài)數(shù)據(jù)，并產(chǎn)生獎勵，將智能體執(zhí)行動作的各個步驟中產(chǎn)生的經(jīng)驗存儲到經(jīng)驗回放池中；當經(jīng)驗存儲量達到自定義閾值時，開始學習過程，對目標網(wǎng)絡(luò)進行更新，以確保訓練的穩(wěn)定；

36、所述算法流程定義模塊負責執(zhí)行的算法流程如下：

37、步驟s3.1、在進行模型訓練前初始化所有參數(shù)，包括最大時間步m、初始化策略網(wǎng)絡(luò)參數(shù)q值函數(shù)參數(shù)v值函數(shù)參數(shù)γ和經(jīng)驗回放池d；

38、步驟s3.2、智能體根據(jù)環(huán)境狀態(tài)和策略網(wǎng)絡(luò)選擇一個動作，智能體執(zhí)行動作at使環(huán)境更新到新的狀態(tài)st+1，并產(chǎn)生獎勵rt；

39、步驟s3.3、將各個步驟中產(chǎn)生的經(jīng)驗(st,at,st+1,r)存儲到經(jīng)驗回放池d中，當經(jīng)驗回放池d中的經(jīng)驗達到自定義閾值時，開始學習過程；

40、步驟s3.4、學習過程中，在經(jīng)驗回放池d中進行隨機采樣，通過算法的損失函數(shù)來更新q值函數(shù)、v值函數(shù)、策略參數(shù)和目標值網(wǎng)絡(luò)參數(shù)，對目標網(wǎng)絡(luò)進行更新，以確保訓練的穩(wěn)定。

41、模型訓練與驗證模塊，負責對模型進行訓練與驗證；在訓練過程中，模型以最大化累計獎勵函數(shù)為目標，通過智能體在模擬環(huán)境中不斷探索的方式訓練模型，以提高其控制信號燈的策略方式，并通過車輛仿真技術(shù)驗證模型的有效性。

42、所述模型訓練與驗證模塊中，模型訓練過程如下：

43、步驟s4.1、通過設(shè)置車輛的輸入規(guī)則初始化環(huán)境數(shù)據(jù)；

44、步驟s4.2、通過調(diào)用traci接口的方式收集路口車輛信息數(shù)據(jù)，并記錄環(huán)境狀態(tài)、智能體采取的動作、即時獎勵和下一個環(huán)境狀態(tài)；

45、步驟s4.3、計算目標策略熵、更新評論家critic網(wǎng)絡(luò)、行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)；

46、步驟s4.4、在訓練過程中，自動調(diào)整目標策略熵以平衡探索和利用的策略；如果策略的熵低于目標策略熵，則增加目標策略熵的值，以鼓勵更多的探索；

47、步驟s4.5、重復步驟s4.2～步驟s4.4，直到達到用戶自定義預定的訓練輪數(shù)。

48、所述模型訓練與驗證模塊中，模型驗證過程與模型訓練過程的區(qū)別僅在于，在驗證過程中不再更新行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。

49、模型應用模塊，負責在仿真平臺中，通過python調(diào)用sumo仿真軟件的traci接口實時獲取道路車輛信息，利用經(jīng)過訓練與驗證的模型實現(xiàn)對信號燈的實時控制。

50、一種基于深度強化學習的信號燈智能控制設(shè)備，其特征在于：包括存儲器和處理器；所述存儲器用于存儲計算機程序，所述處理器用于執(zhí)行所述計算機程序時實現(xiàn)上述的方法步驟。

51、一種可讀存儲介質(zhì)，其特征在于：所述可讀存儲介質(zhì)上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的方法步驟。

52、本發(fā)明的有益效果是：該基于深度強化學習的信號燈智能控制方法，不僅能夠控制信號燈相位，還可以根據(jù)各個道路的車流密度動態(tài)調(diào)整信號燈相位，進而平衡了各個方向車輛的等待時間，提高了路口的通行效率。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：韋凱,朱勇,張東海,張衡,李兆凱
技術(shù)所有人：浪潮云信息技術(shù)股份公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、畢老師：機構(gòu)動力學與控制
4、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
5、周老師：1.智能機器人技術(shù) 2.智能檢測與控制技術(shù) 3.機構(gòu)運動學與動力學 4.機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于深度強化學習的信號燈智能控制方法與流程