本發(fā)明涉及智能交通,更具體地,涉及深度強化學(xué)習(xí)和風(fēng)險場的十字路口多車雙層調(diào)度方法。
背景技術(shù):
1、智能交通系統(tǒng)引入了網(wǎng)聯(lián)自動駕駛車輛(connected?autonomous?vehicles,cavs)和車聯(lián)網(wǎng)(vehicle-to-everything,v2x)技術(shù),能夠?qū)崿F(xiàn)車輛與車輛(vehicle-to-vehicle,v2v)、車輛與基礎(chǔ)設(shè)施(vehicle-to-infrastructure,v2i)、車輛與行人(vehicle-to-pedstrain,v2p)以及車輛與網(wǎng)絡(luò)(vehicle-to-network,v2n)之間的實時信息交互。這為無信號燈十字路口調(diào)度提供了新的解決方案,通過動態(tài)感知交通流量和環(huán)境信息,優(yōu)化車輛的通行路徑和通行時間,提高交通效率和通行安全性。
2、目前,無信號燈十字路口多車調(diào)度的研究大多集中在集中式調(diào)度方法上,即利用整個交叉口的全局信息,對所有駛近車輛的運動進行集中組織。在這類調(diào)度方法中,計算量通常隨著車輛數(shù)量的增加而迅速增加,需要仔細確定,以保證實時實現(xiàn)的可行性。此外,目前大多數(shù)研究都只考慮網(wǎng)聯(lián)自動駕駛汽車,但目前來說,實現(xiàn)完全網(wǎng)聯(lián)自動駕駛?cè)杂芯嚯x,因而在實現(xiàn)多車調(diào)度的時候考慮人類駕駛車輛或者其他障礙物是有必要的。
3、申請公布號為cn117373249a的發(fā)明公開了一種雙向兩車道無信號交叉路口的車輛調(diào)度方法及系統(tǒng),包括:步驟s1:根據(jù)給定的真實雙向兩車道十字交叉路口車輛行駛情況對車輛進行預(yù)處理,判斷車輛之間是否會發(fā)生碰撞,分析車輛間的沖突關(guān)系;步驟s2:構(gòu)建基于沖突關(guān)系深度搜索的車輛調(diào)度模型;步驟s3:利用非線性規(guī)劃實現(xiàn)車輛的行動決策,求出最優(yōu)通過時間及車輛行駛加速度;根據(jù)車輛調(diào)度模型,進行下層規(guī)劃,設(shè)計無信號交叉口車輛調(diào)度實現(xiàn)策略;步驟s4:根據(jù)給定的真實十字交叉路口場景搭建十字交叉路口仿真場景,初始化各車輛的車輛信息;步驟s5:將車輛信息輸入至車輛調(diào)度模型,進行行為決策,得到下一時刻各車輛的動作輸出。該發(fā)明能夠提高網(wǎng)聯(lián)自動駕駛車輛通行效率,降低事故發(fā)生概率,但是不能在減少調(diào)度算法復(fù)雜度和計算量,保證實時調(diào)度的同時考慮人類駕駛車輛或障礙物的影響以調(diào)整局部軌跡規(guī)劃。
技術(shù)實現(xiàn)思路
1、本發(fā)明為克服上述現(xiàn)有技術(shù)存在的在減少調(diào)度算法復(fù)雜度和計算量,保證實時調(diào)度的同時考慮人類駕駛車輛或障礙物的影響以調(diào)整局部軌跡規(guī)劃的缺陷,提供一種十字路口多車雙層調(diào)度方法。
2、為了實現(xiàn)上述發(fā)明目的,本發(fā)明的技術(shù)方案包括:
3、構(gòu)建十字路口模型和車輛運動模型;
4、基于所述十字路口模型和車輛運動模型,建立attd3算法模型并進行訓(xùn)練,利用所述attd3算法模型來設(shè)計上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略;
5、在每輛網(wǎng)聯(lián)自動駕駛車輛根據(jù)所述上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略得到一條可行軌跡后,對所述可行軌跡進行frenet坐標系下的軌跡規(guī)劃,并利用風(fēng)險場建立人類駕駛車輛模型,基于所述frenet坐標系下的軌跡規(guī)劃和所述利用風(fēng)險場建立人類駕駛車輛模型來設(shè)計下層網(wǎng)聯(lián)自動駕駛車輛局部軌跡重規(guī)劃策略;
6、基于所述上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略和下層網(wǎng)聯(lián)自動駕駛車輛局部軌跡重規(guī)劃策略進行十字路口多車輛調(diào)度。
7、進一步地,所述十字路口為無信號燈雙向兩車道十字路口,所述十字路口模型的地圖基于lanelet2框架繪制而成,對于靠右車道,車輛可以選擇右轉(zhuǎn)或者直行,對于靠左車道,車輛可以選擇左轉(zhuǎn)或者直行。
8、進一步地,規(guī)定每輛網(wǎng)聯(lián)自動駕駛車輛在進入十字路口后都遵循車道的一條既定路徑駕駛,車輛的運動可以分解為x軸上和y軸上的運動,所述車輛運動模型表示為如下公式:
9、vi(t+1)=vi(t)+ai(t)τ
10、xi(t+1)=xi(t)+vi(t+1)cosθτ
11、yi(t+1)=y(tǒng)i(t)+vi(t+1)sinθτ
12、其中,θ是車輛的航向角,通過車輛當前位置以及目標點的位置計算而來,τ是控制時間步長,vi和ai分別是車輛的加速度和速度,xi和yi是車輛x軸和y軸兩個方向上的位置。
13、進一步地,所述建立attd3算法模型并進行訓(xùn)練包括如下步驟:
14、基于所述十字路口模型和車輛運動模型,建立馬爾科夫決策過程mdp模型;
15、根據(jù)所述mdp模型,構(gòu)建td3算法模型;
16、在所述td3模型中引入注意力機制self-attention,構(gòu)建attd3算法模型并進行訓(xùn)練。
17、更進一步地,所述馬爾科夫決策過程mdp模型由元組(s,a,p,e,γ)組成,其中s是狀態(tài)空間,a是動作空間,p是狀態(tài)轉(zhuǎn)移概率、r是獎勵函數(shù)、γ∈(0,1)是折扣因子;
18、采用無模型強化學(xué)習(xí),不設(shè)定狀態(tài)轉(zhuǎn)移概率p,狀態(tài)空間s包括每輛車的位置和速度信息,網(wǎng)聯(lián)自動駕駛車輛在既定路徑行駛,動作空間a為每輛車的加速度;
19、從車輛的行駛效率、車輛行駛的舒適度以及避免車輛間碰撞發(fā)生這三個方面考慮,設(shè)置如下獎勵函數(shù):
20、
21、其中,vcurrent是車輛當前速度,vmax是車輛最大速度;
22、
23、其中,aokd為上次的加速度,anew為當前的加速度;
24、
25、其中,dist是車輛發(fā)生碰撞時,碰撞車輛之間的距離之和;
26、
27、rtotal=ωeff*reff+ωcom*rcom+ωcol*rcol+ωrearrea
28、其中,rtotal為總獎勵,reff是針對車輛行駛效率的獎勵函數(shù),rcom是針對車輛行駛舒適度的獎勵函數(shù),rcol是避免車輛間碰撞的獎勵函數(shù),rrea為任務(wù)完成的獎勵函數(shù),ωeff、ωcom、ωcol、ωrea分別為對應(yīng)的獎勵系數(shù)。
29、進一步地,所述根據(jù)mdp模型,構(gòu)建td3算法模型包括如下步驟:
30、td3算法由六個網(wǎng)絡(luò)組成,分別是actor網(wǎng)絡(luò)π(·|φπ)、critic1網(wǎng)絡(luò)critic2網(wǎng)絡(luò)target?actor網(wǎng)絡(luò)π′(·|φπ′)、target?critic1網(wǎng)絡(luò)和target?critic2網(wǎng)絡(luò)
31、在每個時間步中,獲取當前智能體狀態(tài)s,根據(jù)當前狀態(tài)s從actor網(wǎng)絡(luò)選擇動作a;
32、執(zhí)行相應(yīng)動作獲得相應(yīng)獎勵r和目標狀態(tài)s′,并將元組(s,a,r,s′)存儲到經(jīng)驗回放緩沖區(qū);
33、在經(jīng)驗回放緩沖區(qū)隨機采樣一個小批量經(jīng)驗(s,a,r,s′),批次大小為n,依次從target?actor網(wǎng)絡(luò)生成目標動作a′;
34、根據(jù)貝爾曼公式從target?critic1和target?critirc2網(wǎng)絡(luò)計算目標q值y;
35、計算td-error作為critic1和critic2網(wǎng)絡(luò)的損失函數(shù);
36、通過最小化critic1和critic2網(wǎng)絡(luò)的損失函數(shù)更新critic網(wǎng)絡(luò)參數(shù);
37、針對actor網(wǎng)絡(luò)和目標網(wǎng)絡(luò)的更新,actor網(wǎng)絡(luò)采用延遲更新,目標網(wǎng)絡(luò)更新同時采用延遲更新和軟更新,在每隔n步后,首先計算actor網(wǎng)絡(luò)的損失函數(shù);
38、通過最小化actor網(wǎng)絡(luò)的損失函數(shù)更新actor網(wǎng)絡(luò)參數(shù);
39、更進一步地,所述構(gòu)建attd3算法模型并進行訓(xùn)練包括:
40、在每個時間步中,獲取當前智能體狀態(tài)s,根據(jù)當前狀態(tài)s從actor網(wǎng)絡(luò)選擇動作ab;
41、提取actor網(wǎng)絡(luò)、critic1和critic2網(wǎng)絡(luò)的特征,得到actor特征、critic1特征以及critic2特征;
42、通過求解critic1特征、critic2特征的平均和得到相應(yīng)的critic特征;
43、將actor特征作為注意力機制中的query和value,critic特征作為key,通過自注意力機制網(wǎng)絡(luò)輸出attention?actor特征;
44、將attention?actor特征輸入到actor網(wǎng)絡(luò)的輸出層,得到新的動作at;
45、根據(jù)由正常actor網(wǎng)絡(luò)輸出的動作ab以及注意力機制影響后的動作at,分別計算兩個動作的q值;
46、最后選擇q值較大對應(yīng)的動作作為對應(yīng)輸出動作a;
47、之后訓(xùn)練過程與所述td3算法模型一致,對在引入注意力機制時引入的新的注意力網(wǎng)絡(luò)層設(shè)置損失函數(shù),損失函數(shù)設(shè)計如下:
48、
49、其中,注意力機制網(wǎng)絡(luò)層更新與actor網(wǎng)絡(luò)和目標網(wǎng)絡(luò)的更新同步。
50、進一步地,所述對可行軌跡進行frenet坐標系下的軌跡規(guī)劃包括:
51、將在笛卡爾坐標系下的軌跡規(guī)劃轉(zhuǎn)換到frenet坐標系下,在frenet坐標系下,沿著參考軌跡的方向為縱向s,垂直于參考軌跡方向為橫向d,車輛的運動狀態(tài)為
52、將frenet坐標系下的軌跡規(guī)劃分為橫向規(guī)劃和縱向規(guī)劃,規(guī)定網(wǎng)聯(lián)自動駕駛車輛沿著既定路徑行駛;
53、針對橫向規(guī)劃,設(shè)置初始時間配置條件、目標時刻配置條件、采樣間隔以及橫向偏移,生成不同的橫向軌跡,并得到橫向軌跡的代價函數(shù);
54、針對縱向規(guī)劃,設(shè)置初始時間配置條件、目標時刻配置條件、采樣間隔以及速度間隔,生成不同的縱向軌跡,并得到縱向軌跡的代價函數(shù);
55、軌跡的總代價如下:
56、costtotal=ωloncosts+ωlatcostd
57、其中,costs、costd分別是縱向規(guī)劃和橫向規(guī)劃的代價,ωlon、ωlat為對應(yīng)的系數(shù);
58、在每個時間步都得到許多橫向軌跡和縱向軌跡后,判斷每個時間步的軌跡是否滿足速度小于最大速度、加速度小于最大加速度、曲率小于最大曲率、不與人類駕駛車輛發(fā)生碰撞的所有條件,計算滿足所有條件的每條軌跡的代價大小,選擇代價最小的軌跡作為當前時間步的最優(yōu)軌跡。
59、進一步地,所述定義風(fēng)險場并利用所述風(fēng)險場建立人類駕駛車輛模型包括:
60、定義風(fēng)險場函數(shù)如下:
61、
62、
63、其中,下標x和y代表x方向和y方向,非下標x代表計算點的x位置,非下標y代表計算點的y位置,lvehicle是車輛長度,wvehicle是車輛寬度,βx、βy為對應(yīng)的系數(shù),αx、αy為x和y方向的加速度,vx(t)、vy(t)為x和y方向的速度。
64、設(shè)置風(fēng)險閾值與風(fēng)險場函數(shù)rvehicle(x,y,t)的值進行比較,判斷網(wǎng)聯(lián)自動駕駛車輛是否可能與人類駕駛車輛或障礙物發(fā)生碰撞。
65、進一步地,所述方法還包括仿真步驟,通過設(shè)定上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略和下層網(wǎng)聯(lián)自動駕駛車輛局部軌跡重規(guī)劃策略的各個參數(shù),在十字路口模型中進行仿真,驗證所述十字路口多車雙層調(diào)度方法的可靠性。
66、與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:
67、本發(fā)明通過在設(shè)計上層多網(wǎng)聯(lián)自動駕駛車輛調(diào)度策略時使用深度強化學(xué)習(xí)算法td3并采用注意力機制,從而構(gòu)建了attd3算法并為新引入的注意力網(wǎng)絡(luò)設(shè)計了合理的損失函數(shù),提高了算法的收斂速度,同時下層網(wǎng)聯(lián)自動駕駛車輛局部軌跡重規(guī)劃策略考慮了人類駕駛車輛或障礙物的影響,利用風(fēng)險場來模擬不同駕駛風(fēng)格的人類駕駛車輛或障礙物,能準確、實時地對車輛的駕駛軌跡進行局部重規(guī)劃。