1.一種基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈智能控制方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈智能控制方法,其特征在于:所述步驟s3中,算法流程如下:
3.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈智能控制方法,其特征在于:所述步驟s4中,模型訓(xùn)練過程如下:
4.根據(jù)權(quán)利要求3所述的基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈智能控制方法,其特征在于:所述步驟s4中,模型驗(yàn)證過程與模型訓(xùn)練過程的區(qū)別僅在于,在驗(yàn)證過程中不再更新行動(dòng)者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。
5.一種基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈智能控制系統(tǒng),其特征在于:包括:
6.根據(jù)權(quán)利要求5所述的基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈智能控制系統(tǒng),其特征在于:所述算法流程定義模塊負(fù)責(zé)執(zhí)行的算法流程如下:
7.根據(jù)權(quán)利要求5所述的基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈智能控制系統(tǒng),其特征在于:所述模型訓(xùn)練與驗(yàn)證模塊中,模型訓(xùn)練過程如下:
8.根據(jù)權(quán)利要求7所述的基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈智能控制系統(tǒng),其特征在于:所述模型訓(xùn)練與驗(yàn)證模塊中,模型驗(yàn)證過程與模型訓(xùn)練過程的區(qū)別僅在于,在驗(yàn)證過程中不再更新行動(dòng)者actor網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。
9.一種基于深度強(qiáng)化學(xué)習(xí)的信號(hào)燈智能控制設(shè)備,其特征在于:包括存儲(chǔ)器和處理器;所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序,所述處理器用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至4任意一項(xiàng)所述的方法。
10.一種可讀存儲(chǔ)介質(zhì),其特征在于:所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至4任意一項(xiàng)所述的方法。