国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于深度強化學習的信號燈智能控制方法與流程

      文檔序號:40278643發(fā)布日期:2024-12-11 13:14閱讀:19來源:國知局
      一種基于深度強化學習的信號燈智能控制方法與流程

      本發(fā)明涉及智能交通,特別涉及一種基于深度強化學習的信號燈智能控制方法。


      背景技術(shù):

      1、隨著城市中汽車保有量的增加,路網(wǎng)承受負荷加重,道路通行能力不滿足當前需求,交通堵塞等問題在城市路網(wǎng)系統(tǒng)中愈發(fā)突出。交叉路口作為交通路網(wǎng)的瓶頸,其管理策略對路網(wǎng)的綜合通行能力影響最深,現(xiàn)有的交叉路口信號燈調(diào)控手段仍有提升的余地。如何使其可以根據(jù)道路車輛的密度和分布狀態(tài)動態(tài)調(diào)整相位策略,提高道路通行能力,是一個需要迫切解決的問題。

      2、傳統(tǒng)的信號燈智能控制方法往往不能充分利用現(xiàn)有的傳感器、攝像頭等聯(lián)網(wǎng)設(shè)備收集的多維交通數(shù)據(jù),大多依據(jù)專家的經(jīng)驗判斷而設(shè)置信號燈相位,這種策略往往缺乏靈活性和及時性。

      3、為了提高交叉路口信號燈調(diào)控效率,本發(fā)明提出了一種基于深度強化學習的信號燈智能控制方法。


      技術(shù)實現(xiàn)思路

      1、本發(fā)明為了彌補現(xiàn)有技術(shù)的缺陷,提供了一種簡單高效的基于深度強化學習的信號燈智能控制方法。

      2、本發(fā)明是通過如下技術(shù)方案實現(xiàn)的:

      3、一種基于深度強化學習的信號燈智能控制方法,包括以下步驟:

      4、步驟s1、搭建仿真平臺;

      5、基于sumo(simulation?of?urban?mobility)仿真軟件和python構(gòu)建仿真平臺,在sumo仿真軟件中搭建路網(wǎng),路網(wǎng)策略中包含交叉口策略、信號燈策略以及輸入車輛策略;

      6、步驟s2、設(shè)計控制策略模型;

      7、基于柔性動作-評價算法(soft?actor-critic,sac)設(shè)計入匝道車輛的控制策略模型,分別定義模型中的狀態(tài)空間s、動作空間a和獎勵函數(shù)r;

      8、其中,狀態(tài)空間s為車輛的位置和速度,為一維數(shù)組;動作空間a定義為信號燈的相位;獎勵函數(shù)r為車輛排隊長度、車輛平均速度和車輛等待時間加權(quán)求和得到的值,具體如下:

      9、r=μ1*rlength+μ2rspeed+μ3rwaittime

      10、其中μ1、μ2與μ3分別為車輛排隊長度、車輛平均速度和車輛等待時間的權(quán)重參數(shù),權(quán)重和為1,表示不同指標對獎勵函數(shù)的影響;rlength表示路口車輛平均排隊長度,rspeed為所有車輛通過路口的平均車速,rwaittime為所有車輛在路口的平均等待時間;

      11、步驟s3、定義算法流程;

      12、在進行模型訓練前初始化所有參數(shù),根據(jù)智能體執(zhí)行動作更新環(huán)境狀態(tài)數(shù)據(jù),并產(chǎn)生獎勵,將智能體執(zhí)行動作的各個步驟中產(chǎn)生的經(jīng)驗存儲到經(jīng)驗回放池中;當經(jīng)驗存儲量達到自定義閾值時,開始學習過程,對目標網(wǎng)絡(luò)進行更新,以確保訓練的穩(wěn)定;

      13、所述步驟s3中,算法流程如下:

      14、步驟s3.1、在進行模型訓練前初始化所有參數(shù),包括最大時間步m、初始化策略網(wǎng)絡(luò)參數(shù)q值函數(shù)參數(shù)v值函數(shù)參數(shù)γ和經(jīng)驗回放池d;

      15、步驟s3.2、智能體根據(jù)環(huán)境狀態(tài)和策略網(wǎng)絡(luò)選擇一個動作,智能體執(zhí)行動作at使環(huán)境更新到新的狀態(tài)st+1,并產(chǎn)生獎勵rt;

      16、步驟s3.3、將各個步驟中產(chǎn)生的經(jīng)驗(st,at,st+1,r)存儲到經(jīng)驗回放池d中,當經(jīng)驗回放池d中的經(jīng)驗達到自定義閾值時,開始學習過程;

      17、步驟s3.4、學習過程中,在經(jīng)驗回放池d中進行隨機采樣,通過算法的損失函數(shù)來更新q值函數(shù)、v值函數(shù)、策略參數(shù)和目標值網(wǎng)絡(luò)參數(shù),對目標網(wǎng)絡(luò)進行更新,以確保訓練的穩(wěn)定。

      18、步驟s4、模型訓練與驗證;

      19、在訓練過程中,模型以最大化累計獎勵函數(shù)為目標,通過智能體在模擬環(huán)境中不斷探索的方式訓練模型,以提高其控制信號燈的策略方式,并通過車輛仿真技術(shù)驗證模型的有效性。

      20、所述步驟s4中,模型訓練過程如下:

      21、步驟s4.1、通過設(shè)置車輛的輸入規(guī)則初始化環(huán)境數(shù)據(jù);

      22、步驟s4.2、通過調(diào)用traci接口的方式收集路口車輛信息數(shù)據(jù),并記錄環(huán)境狀態(tài)、智能體采取的動作、即時獎勵和下一個環(huán)境狀態(tài);

      23、步驟s4.3、計算目標策略熵、更新評論家critic網(wǎng)絡(luò)、行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò);

      24、步驟s4.4、在訓練過程中,自動調(diào)整目標策略熵以平衡探索和利用的策略;如果策略的熵低于目標策略熵,則增加目標策略熵的值,以鼓勵更多的探索;

      25、步驟s4.5、重復步驟s4.2~步驟s4.4,直到達到用戶自定義預定的訓練輪數(shù)。

      26、所述步驟s4中,模型驗證過程與模型訓練過程的區(qū)別僅在于,在驗證過程中不再更新行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。

      27、步驟s5、模型應用;

      28、在仿真平臺中,智能體通過python調(diào)用sumo仿真軟件的traci接口實時獲取道路車輛信息,利用經(jīng)過訓練與驗證的模型實現(xiàn)對信號燈的實時控制。

      29、一種基于深度強化學習的信號燈智能控制系統(tǒng),包括:

      30、仿真平臺搭建模塊,負責基于sumo(simulation?of?urban?mobility)仿真軟件和python構(gòu)建仿真平臺,在sumo仿真軟件中搭建路網(wǎng),路網(wǎng)策略中包含交叉口策略、信號燈策略以及輸入車輛策略;在仿真平臺中,智能體通過python調(diào)用sumo仿真軟件的traci接口實時獲取道路車輛信息,實現(xiàn)對信號燈的實時控制;

      31、控制策略模型設(shè)計模塊,負責基于柔性動作-評價算法(soft?actor-critic,sac)設(shè)計入匝道車輛的控制策略模型,分別定義模型中的狀態(tài)空間s、動作空間a和獎勵函數(shù)r;

      32、其中,狀態(tài)空間s為車輛的位置和速度,為一維數(shù)組;動作空間a定義為信號燈的相位;獎勵函數(shù)r為車輛排隊長度、車輛平均速度和車輛等待時間加權(quán)求和得到的值,具體如下:

      33、r=μ1*rlength+μ2rspeed+μ3rwaittime

      34、其中μ1、μ2與μ3分別為車輛排隊長度、車輛平均速度和車輛等待時間的權(quán)重參數(shù),權(quán)重和為1,表示不同指標對獎勵函數(shù)的影響;rlength表示路口車輛平均排隊長度,rspeed為所有車輛通過路口的平均車速,rwaittime為所有車輛在路口的平均等待時間;

      35、算法流程定義模塊,負責在進行模型訓練前初始化所有參數(shù),根據(jù)智能體執(zhí)行動作更新環(huán)境狀態(tài)數(shù)據(jù),并產(chǎn)生獎勵,將智能體執(zhí)行動作的各個步驟中產(chǎn)生的經(jīng)驗存儲到經(jīng)驗回放池中;當經(jīng)驗存儲量達到自定義閾值時,開始學習過程,對目標網(wǎng)絡(luò)進行更新,以確保訓練的穩(wěn)定;

      36、所述算法流程定義模塊負責執(zhí)行的算法流程如下:

      37、步驟s3.1、在進行模型訓練前初始化所有參數(shù),包括最大時間步m、初始化策略網(wǎng)絡(luò)參數(shù)q值函數(shù)參數(shù)v值函數(shù)參數(shù)γ和經(jīng)驗回放池d;

      38、步驟s3.2、智能體根據(jù)環(huán)境狀態(tài)和策略網(wǎng)絡(luò)選擇一個動作,智能體執(zhí)行動作at使環(huán)境更新到新的狀態(tài)st+1,并產(chǎn)生獎勵rt;

      39、步驟s3.3、將各個步驟中產(chǎn)生的經(jīng)驗(st,at,st+1,r)存儲到經(jīng)驗回放池d中,當經(jīng)驗回放池d中的經(jīng)驗達到自定義閾值時,開始學習過程;

      40、步驟s3.4、學習過程中,在經(jīng)驗回放池d中進行隨機采樣,通過算法的損失函數(shù)來更新q值函數(shù)、v值函數(shù)、策略參數(shù)和目標值網(wǎng)絡(luò)參數(shù),對目標網(wǎng)絡(luò)進行更新,以確保訓練的穩(wěn)定。

      41、模型訓練與驗證模塊,負責對模型進行訓練與驗證;在訓練過程中,模型以最大化累計獎勵函數(shù)為目標,通過智能體在模擬環(huán)境中不斷探索的方式訓練模型,以提高其控制信號燈的策略方式,并通過車輛仿真技術(shù)驗證模型的有效性。

      42、所述模型訓練與驗證模塊中,模型訓練過程如下:

      43、步驟s4.1、通過設(shè)置車輛的輸入規(guī)則初始化環(huán)境數(shù)據(jù);

      44、步驟s4.2、通過調(diào)用traci接口的方式收集路口車輛信息數(shù)據(jù),并記錄環(huán)境狀態(tài)、智能體采取的動作、即時獎勵和下一個環(huán)境狀態(tài);

      45、步驟s4.3、計算目標策略熵、更新評論家critic網(wǎng)絡(luò)、行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò);

      46、步驟s4.4、在訓練過程中,自動調(diào)整目標策略熵以平衡探索和利用的策略;如果策略的熵低于目標策略熵,則增加目標策略熵的值,以鼓勵更多的探索;

      47、步驟s4.5、重復步驟s4.2~步驟s4.4,直到達到用戶自定義預定的訓練輪數(shù)。

      48、所述模型訓練與驗證模塊中,模型驗證過程與模型訓練過程的區(qū)別僅在于,在驗證過程中不再更新行動者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。

      49、模型應用模塊,負責在仿真平臺中,通過python調(diào)用sumo仿真軟件的traci接口實時獲取道路車輛信息,利用經(jīng)過訓練與驗證的模型實現(xiàn)對信號燈的實時控制。

      50、一種基于深度強化學習的信號燈智能控制設(shè)備,其特征在于:包括存儲器和處理器;所述存儲器用于存儲計算機程序,所述處理器用于執(zhí)行所述計算機程序時實現(xiàn)上述的方法步驟。

      51、一種可讀存儲介質(zhì),其特征在于:所述可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的方法步驟。

      52、本發(fā)明的有益效果是:該基于深度強化學習的信號燈智能控制方法,不僅能夠控制信號燈相位,還可以根據(jù)各個道路的車流密度動態(tài)調(diào)整信號燈相位,進而平衡了各個方向車輛的等待時間,提高了路口的通行效率。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1