本發(fā)明涉及車(chē)輛優(yōu)化控制方法的,具體而言,尤其涉及基于強(qiáng)化學(xué)習(xí)策略的智能網(wǎng)聯(lián)車(chē)輛分布式優(yōu)化控制方法。
背景技術(shù):
1、近年來(lái),隨著道路交通系統(tǒng)的不斷優(yōu)化和機(jī)動(dòng)車(chē)數(shù)量的持續(xù)增長(zhǎng),盡管出行便利性顯著提高,卻也伴隨著交通擁堵、能源消耗過(guò)大和環(huán)境污染嚴(yán)重等問(wèn)題。所以,在城市高速發(fā)展的背景下,采用高科技手段提高車(chē)輛智能化水平和道路利用率成為重中之重。
2、伴隨著人工智能與5g通信技術(shù)的迅猛進(jìn)展,智能網(wǎng)聯(lián)汽車(chē)(intelligentconnected?vehicle,icv)[1]的發(fā)展已成為現(xiàn)實(shí),開(kāi)啟了汽車(chē)行業(yè)的新篇章。車(chē)輛隊(duì)列控制是一種微觀駕駛行為,主要指的是在同一車(chē)道上多輛車(chē)進(jìn)行隊(duì)列式行駛,并同時(shí)保持期望的車(chē)間距和相同的駕駛速度[2],研究表明,自主車(chē)輛隊(duì)列控制系統(tǒng)具有顯著的交通擁堵緩解、交通效率改善、駕駛安全性提高和燃油經(jīng)濟(jì)改進(jìn)的潛力[3]-[4]。然而,車(chē)隊(duì)控制需要同時(shí)考慮車(chē)輛穩(wěn)定性、魯棒性、安全性以及車(chē)間通信故障等問(wèn)題,難以兼顧多項(xiàng)目標(biāo)控制。在智能網(wǎng)聯(lián)汽車(chē)的駕駛系統(tǒng)中,尤其是在微觀駕駛行為決策過(guò)程中,車(chē)輛對(duì)自身狀態(tài)和外部環(huán)境狀態(tài)的感知存在固有的偏差和擾動(dòng),這些因素會(huì)導(dǎo)致車(chē)輛在決策和協(xié)同控制上的不一致性,從而影響整體行駛的安全性和效率?;趶?qiáng)化學(xué)習(xí)的車(chē)輛軌跡規(guī)劃與跟蹤控制,可以提高軌跡規(guī)劃和跟蹤控制的泛化和靈活性而且極大降低了計(jì)算的復(fù)雜程度。因此,有必要進(jìn)一步研究智能網(wǎng)聯(lián)車(chē)中車(chē)輛隊(duì)列控制的行為決策與跟蹤控制問(wèn)題。
3、目前國(guó)內(nèi)外學(xué)者對(duì)車(chē)輛隊(duì)列控制開(kāi)展了深入研究,并取得了一定的研究成果,peters?a等人[5]考慮了通信延遲問(wèn)題。通過(guò)提高傳輸效率降低通信受限制問(wèn)題,但沒(méi)有實(shí)現(xiàn)智能化控制,車(chē)隊(duì)控制場(chǎng)景不具有普遍性。ge?guo團(tuán)隊(duì)[6]提出了一種分層的控制結(jié)構(gòu)來(lái)實(shí)現(xiàn)車(chē)隊(duì)協(xié)調(diào)控制,上層采用二次間隔策略與速度優(yōu)化算法規(guī)劃最優(yōu)速度,下層設(shè)計(jì)pid滑模控制器實(shí)現(xiàn)速度跟蹤,旨在有效抑制車(chē)輛速度以及車(chē)間距存在的抖動(dòng),并保證較快的收斂速率,然而,該方法并未考慮車(chē)輛行駛過(guò)程中存在的外部擾動(dòng)問(wèn)題。
4、現(xiàn)有的車(chē)輛隊(duì)列控制算法大多需要在線解決最優(yōu)控制問(wèn)題。基于規(guī)則的控制方法在處理多變的工況時(shí)難以將所有可能的狀態(tài)和對(duì)應(yīng)的控制策略映射成數(shù)學(xué)模型。因此,在適應(yīng)性和泛化能力方面受限,并且常常涉及復(fù)雜的計(jì)算過(guò)程,導(dǎo)致擴(kuò)展性和效率不足。強(qiáng)化學(xué)習(xí)算法在解決此類(lèi)問(wèn)題上效果顯著,因此受到廣泛重視。羅穎等學(xué)者[7]提出了一種改進(jìn)型ddpg決策算法,專(zhuān)注于車(chē)輛低速跟隨行為決策的研究。該算法將ddpg算法與cbf算法結(jié)合,進(jìn)行安全補(bǔ)償控制,在車(chē)流量較大的情況下成功實(shí)現(xiàn)了車(chē)輛低速近距離跟隨。然而,該控制策略?xún)H適用于車(chē)流量較大且低速行駛的情況。liming?jiang等學(xué)者[8]提出了一種軟-演員-評(píng)論(soft?actor?critic,sac)強(qiáng)化學(xué)習(xí)算法,該算法設(shè)計(jì)了可減少速度頻繁變化的回報(bào)函數(shù),解決了車(chē)隊(duì)行駛過(guò)程中走走停停工況下的安全性與穩(wěn)定性問(wèn)題,他們還指出了強(qiáng)化學(xué)習(xí)在抑制交通振蕩方面的優(yōu)勢(shì)。然而,該控制策略未考慮復(fù)雜路況下的車(chē)間通信異常問(wèn)題。ruidong?yan等學(xué)者[9]提出了一種cacc結(jié)合深度確定性策略梯度(deepdeterministic?policy?gradient,ddpg)的切換控制策略。該策略保證了汽車(chē)跟隨性能的基本穩(wěn)定性,并且充分利用了ddpg在復(fù)雜環(huán)境下進(jìn)行探索的優(yōu)勢(shì)。仿真結(jié)果顯示,與傳統(tǒng)的ddpg和cacc相比,該策略在汽車(chē)跟隨性能上取得了顯著的改進(jìn)。然而,該控制策略增加了智能體的決策過(guò)程計(jì)算量,導(dǎo)致收斂速率較慢。
5、參考文件:
6、[1]sikai?l,yingfeng?c,long?c,et?al.a?sharing?deep?reinforcementlearning?method?for?efficient?vehicle?platooning?control[j].iet?intelligenttransport?systems,2021,16(12):1697-1709.
7、[2]qin?yanyan,wang?hao,wang?wei,and?nidai-heng.summary?of?adaptivecruise?control?vehicle-following?models[j].journal?of?traffic?andtransportation?engineering,2017,17(3):121-130.
8、[3]francisco?j.martinez,chai-keong?toh,juan?carlos?cano,carlost.calafate,pietro?manzoni.emergency?services?in?future?intelligenttransporta-
9、tation?systems?based?on?vehicular?communication?networks[j].intelligent?transportation?systems?magazine,ieee,2010,2(2):6-20.
10、[4]alam?a?a,gattami?a,johansson?k?h.an?experimental?study?on?the?fuelreduction?potential?of[15]kia,solmaz?s,cortés,jorge,martínez,sonia.distributed?convex?optimization?via?continuous-time?coordinationalgorithms?with?discrete-time?communication[j].automatica,2015,55:254-264heavy?duty?vehicle?platooning[c].intelligent?transportation?systems(itsc),2010,13th?international?ieee?conference?on.ieee,2010:306-311.
11、[5]andres?a,peters,richard?h.middleton,oliver?mason.leader?trackingin?homogeneous?vehicle?platoons?with?broadcast?delays[j].automatica,2014,50(1):64-74.
12、[6]ge?guo,dongqi?yang,renyongkang?zhang.distributed?trajectoryoptimization?and?platooning?of?vehicles?to?guarantee?smooth?traffic?flow[j].ieee?transactions?on?intelligent?vehicles,2023,8(1):684-695
13、[7]羅穎,秦文虎,翟金鳳.基于改進(jìn)ddpg算法的車(chē)輛低速跟馳行為決策研究[j].測(cè)控技術(shù),2019,38(9):19-23.
14、[8]liming?jiang.reinforcement?learning?based?cooperative?longitudinalcontrol?for?reducing?traffic?oscillations?and?improving?platoon?stability[j].transportation?research?part?c:emerging?technologies,2022,141:103744.
15、[9]ruidong?yan,rui?jiang,bin?jia,jin?huang,diange?yang.hybrid?car-following?strategy?based?on?deep?deterministic?policy?gradient?andcooperative?adaptive?cruise?control[j].ieee?transactions?on?automationscience?and?engineering,2022,19(4):2816-2824.
16、[10]shixi?wen;ge?guo.distributed?trajectory?optimization?and?slidingmode?control?of?heterogenous?vehicular?platoons[j].ieee?transactions?onintelligent?transportation?systems,2022,vol.23(7):7096-7111
17、[11]daizhan?cheng.nonlinear?output?regulation?theory?andapplications,jie?huang,siam,philadelphia,2004,318pp.isbn?0-89871-562-8[j].international?journal?of?robust?and?nonlinear?control,2006,16(8):413-415
18、[12]jian?y?d,konglong?w.note?on?graph-based?bcj?relation?for?berends-giele?currents[j].journal?of?high?energy?physics,2022,2022(12):34-27
19、[13]daizhan?cheng.nonlinear?output?regulation?theory?andapplications,jie?huang,siam,philadelphia,2004,318pp.isbn?0-89871-562-8[j].international?journal?of?robust?and?nonlinear?control,2006,16(8):413-415
20、[14]de?persis,c,jayawardhana,b.on?the?internal?model?principle?in?thecoordination?of?nonlinear?systems(article)[j].ieee?transactions?on?control?ofnetwork?systems,2014,1(3):272-282
21、[15]kia,solmaz?s,cortés,jorge,martínez,sonia.distributed?convexoptimization?via?continuous-time?coordination?algorithms?with?discrete-timecommunication[j].automatica,2015,55:254-264
22、[16]wang,xh(wang,xinghu),hong,yg(hong,yiguang),ji,hb(ji,haibo).,distributed?optimization?for?a?class?of?nonlinear?multiagent?systems?withdisturbance?rejection[j].ieee?transactions?on?cybernetics,2016,vol.46(7):1655-1666
23、[17]lewis?fl,abu-khalaf?m.nearly?optimal?control?laws?for?nonlinearsystems?with?saturating?actuators?using?a?neural?network?hjb?approach[j].automatica,2005,41(5):779-791
24、[18]li?y,tee?p?k,yan?r,et?al.a?framework?of?human-robot?coordinationbased?on?game?theory?and?policy?iteration[j].ieee?trans.robotics,2016,32(6):1408-1418.
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)上述背景技術(shù)中提到的技術(shù)問(wèn)題,而提供基于強(qiáng)化學(xué)習(xí)策略的智能網(wǎng)聯(lián)車(chē)輛分布式優(yōu)化控制方法。
2、本發(fā)明采用的技術(shù)手段如下:
3、基于強(qiáng)化學(xué)習(xí)策略的智能網(wǎng)聯(lián)車(chē)輛分布式優(yōu)化控制方法,具有分層結(jié)構(gòu),包括以下步驟:
4、步驟1:建立車(chē)輛縱向動(dòng)力學(xué)模型,并設(shè)定上層及下層的控制目標(biāo)
5、步驟2:對(duì)上層即軌跡優(yōu)化控制層進(jìn)行設(shè)計(jì);基于分布式凸優(yōu)化算法結(jié)合內(nèi)模原理的軌跡規(guī)劃控制器,結(jié)合內(nèi)模原理設(shè)計(jì)的控制器去除上層軌跡規(guī)劃過(guò)程中的外部干擾;
6、步驟3:對(duì)下層即跟蹤控制層進(jìn)行設(shè)計(jì);基于強(qiáng)化學(xué)習(xí)actor-critic框架的最優(yōu)軌跡跟蹤控制器,其中,actor網(wǎng)絡(luò)用于逼近最優(yōu)跟蹤控制器,critic神經(jīng)網(wǎng)絡(luò)用于逼近最優(yōu)代價(jià)函數(shù);
7、步驟4:通過(guò)lyapunov穩(wěn)定性判據(jù)分析跟蹤控制系統(tǒng)的穩(wěn)定性及收斂性,保證對(duì)參考軌跡的精確跟蹤;
8、步驟5:通過(guò)仿真實(shí)驗(yàn)驗(yàn)證所提算法的可行性。
9、進(jìn)一步地,所述步驟1中,定義xi,vi和ai分別表示第i輛車(chē)的位置,速度和加速度,領(lǐng)航車(chē)編號(hào)為0,跟隨車(chē)的編號(hào)為1到n;通過(guò)有向連通圖表示車(chē)隊(duì)的通信拓?fù)浣Y(jié)構(gòu),每輛跟隨車(chē)均通過(guò)車(chē)載自組網(wǎng)與相鄰車(chē)通信獲取信息,且車(chē)間的通信穩(wěn)定且可靠;只考慮車(chē)輛縱向動(dòng)力學(xué)模型,建立縱向動(dòng)力學(xué)模型為底層控制器的設(shè)計(jì)提供依據(jù),車(chē)輛i的縱向動(dòng)力學(xué)模型表示為:
10、
11、其中,θi表示車(chē)輛傳動(dòng)系統(tǒng)不確定時(shí)間常數(shù),ui2(t)表示跟隨車(chē)i的下層系統(tǒng)控制輸入;對(duì)車(chē)輛i定如下跟蹤誤差:
12、δi=xi-1(t)-xi(t)-di,i-1;
13、其中,di,i-1>0表示車(chē)輛i與車(chē)輛i-1之間的期望車(chē)間距;采用恒定間距策略,即di,i-1=d;
14、所述上層的軌跡規(guī)劃控制目標(biāo)為:
15、
16、
17、其中,f(t)表示代價(jià)函數(shù),且是凸函數(shù);
18、所述下層的系統(tǒng)誤差方程為:
19、
20、其中,分別表示上層、規(guī)劃的參考位置、參考速度以及參考加速度;定義跟蹤誤差向量表示為因此,車(chē)輛i的誤差動(dòng)力學(xué)方程表示為:
21、
22、其中,bi=[0?0?ξi]t,定義軌跡跟蹤控制層的控制目標(biāo)為:
23、
24、進(jìn)一步地,所述步驟2中,定義參考動(dòng)力學(xué)方程為:
25、
26、其中,表示車(chē)輛i上層受到的外部干擾,表示關(guān)于μi的多項(xiàng)式,w表示多項(xiàng)式系數(shù),λ1,λ2,λ3表示控制增益;則μi的擾動(dòng)為:
27、
28、其中,矩陣si的所由特征值具有非負(fù)實(shí)部;
29、根據(jù)參考參考動(dòng)力學(xué)方程,則分布式輸出反饋控制器,表示為:
30、
31、其中,ξi(0)=0,表示fi的度;引入?yún)⒖嘉恢谜`差、參考速度誤差和參考加速度誤差表示為:
32、
33、根據(jù)上式得到:
34、
35、求導(dǎo)得:
36、
37、則,控制目標(biāo)為:
38、
39、
40、分布式優(yōu)化問(wèn)題有可行解,對(duì)任意集合向量常數(shù)ρ>0,可以設(shè)計(jì)分布式優(yōu)化控制器ui1,保證閉環(huán)系統(tǒng)的解ai(t)=1,...,n收斂到同一點(diǎn)a0∈x*,對(duì)任意的和
41、進(jìn)一步地,所述步驟2中,為了去除外部干擾,將分布式優(yōu)化問(wèn)題轉(zhuǎn)換成具有im的分布式穩(wěn)定性問(wèn)題;
42、因?yàn)樗缘谋磉_(dá)式為:
43、
44、的極小多項(xiàng)式表示為:
45、
46、其中,表示實(shí)數(shù),通過(guò)定義得到如下表達(dá)式:
47、
48、其中,
49、因?yàn)?ψi,φi)是能觀的,存在矩陣gi,使得mi=φi+giui1表示赫爾維茲矩陣,此時(shí),車(chē)輛i的im為:
50、
51、定義坐標(biāo)變換為:
52、
53、帶入后得:
54、
55、其中
56、
57、
58、定義向量表示為
59、
60、
61、
62、
63、對(duì)任意存在分布式輸出反饋控制器:
64、
65、當(dāng)ξi′(0)時(shí),對(duì)任意的則系統(tǒng)的解有界[0,∞),且可以收斂到0。
66、進(jìn)一步地,所述步驟3中,控制輸入ui2為最優(yōu)時(shí),系統(tǒng)跟蹤誤差動(dòng)力學(xué)模型改寫(xiě)為:
67、
68、則最優(yōu)代價(jià)函數(shù)為:
69、
70、結(jié)合最優(yōu)控制理論,求導(dǎo)構(gòu)建相應(yīng)的hjb方程:
71、
72、其中,表示代價(jià)函數(shù)最優(yōu)梯度值;根據(jù)最優(yōu)控制理論,系統(tǒng)的hjb方程應(yīng)滿足:
73、
74、根據(jù)故理想的最優(yōu)控制器的控制律表示為:
75、
76、帶入hjb方程得
77、
78、進(jìn)一步地,所述critic神經(jīng)網(wǎng)絡(luò)中,最優(yōu)代價(jià)函近似為:
79、
80、其中,表示最優(yōu)代價(jià)函數(shù)的理想權(quán)重矢量,n表示神經(jīng)元數(shù)量,表示神經(jīng)元回歸矢量,并且,表示網(wǎng)絡(luò)逼近誤差;
81、最優(yōu)代價(jià)函數(shù)對(duì)應(yīng)的梯度表示為:
82、
83、其中,表示關(guān)于ei的梯度;得到函數(shù)逼近誤差的殘差,表示如下:
84、
85、隨著隱藏層n的增加,殘差逐漸收斂到零;即,
86、
87、由于理想權(quán)重矢量是未知的,引出代價(jià)函數(shù)的估計(jì)值逼近以獲得實(shí)際最優(yōu)代價(jià)函數(shù):
88、
89、其中,表示理想權(quán)重的估計(jì)值;
90、則hjb方程改寫(xiě)為:
91、
92、給定任意控制策略u(píng)i2,調(diào)整適當(dāng)?shù)氖沟玫钠椒阶钚?,定義如下目標(biāo)函數(shù):
93、
94、根據(jù)梯度下降算法,所述critic神經(jīng)網(wǎng)絡(luò)的權(quán)重更新律:
95、
96、其中,用于歸一化,a1>0表示學(xué)習(xí)率;
97、定義下權(quán)重估計(jì)誤差得到權(quán)重估計(jì)誤差更新律為:
98、
99、其中,
100、則存在常數(shù)β1>0,β2>0,t>0,滿足:
101、
102、則當(dāng)時(shí),權(quán)重估計(jì)誤差收斂到零,或者有界貝爾曼誤差可使critic權(quán)重估計(jì)誤差收斂到殘差集。
103、進(jìn)一步地,所述actor網(wǎng)絡(luò)逼近的最優(yōu)控制策略的控制律為:
104、
105、其中,表示理想神經(jīng)網(wǎng)絡(luò)權(quán)重的估計(jì)值,actor網(wǎng)絡(luò)的權(quán)重更新率為:
106、
107、其中,是有界的,即πi是設(shè)定的正常數(shù),f2>0,f1>0為調(diào)節(jié)參數(shù),a2表示actor網(wǎng)絡(luò)學(xué)習(xí)率;critic神經(jīng)網(wǎng)絡(luò)的權(quán)重更新律為:
108、
109、其中,
110、較現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
111、本發(fā)明針對(duì)網(wǎng)聯(lián)車(chē)輛列隊(duì)控制中的軌跡規(guī)劃與軌跡跟蹤控制問(wèn)題進(jìn)行研究。首先,僅利用鄰居車(chē)輛之間的信息交換信息,解決分布式的網(wǎng)聯(lián)車(chē)輛的軌跡規(guī)劃,保證車(chē)輛的間距誤差最??;然后,基于強(qiáng)化學(xué)習(xí)策略,完成對(duì)規(guī)劃的參考軌跡的優(yōu)化跟蹤控制,擺脫對(duì)于精準(zhǔn)的車(chē)輛動(dòng)力學(xué)方程的依賴(lài)。