本發(fā)明涉及自動(dòng)駕駛領(lǐng)域,更具體地說,涉及一種面向動(dòng)態(tài)交通環(huán)境的強(qiáng)化學(xué)習(xí)多車道駕駛決策方法。
背景技術(shù):
1、自動(dòng)駕駛汽車的核心功能包括環(huán)境感知、自主決策、路徑規(guī)劃和運(yùn)動(dòng)控制。環(huán)境感知涉及使用車載傳感器和通信系統(tǒng)感知周圍交通路況和障礙物。自主決策包括識(shí)別其他交通參與者的意圖和預(yù)測(cè)軌跡,以制定駕駛行為和規(guī)劃參考軌跡。路徑規(guī)劃負(fù)責(zé)選擇最佳行駛路線,考慮道路狀況、交通情況和目的地,以確保高效、安全的導(dǎo)航。運(yùn)動(dòng)控制則將決策結(jié)果轉(zhuǎn)化為底層控制指令,掌握油門、剎車和方向盤等關(guān)鍵要素。由于自主決策和運(yùn)動(dòng)控制可建模為動(dòng)態(tài)過程的最優(yōu)化問題,且二者相互依賴,因此它們可以集成為一個(gè)統(tǒng)一的功能模塊。這一模塊在自動(dòng)駕駛汽車中扮演著類似大腦的角色,其智能水平影響著汽車的自主駕駛性能。
2、現(xiàn)有技術(shù)中的輔助駕駛決策方法依賴城市區(qū)域道路地圖,這可能導(dǎo)致地理局限性。在未被完整映射或道路數(shù)據(jù)更新不及時(shí)的地區(qū),決策可能會(huì)受到限制?,F(xiàn)有技術(shù)中構(gòu)建的是全局路徑規(guī)劃方案,只能作為駕駛的輔助,無法為局部的自動(dòng)駕駛提供支撐。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題在于,提供一種面向動(dòng)態(tài)交通環(huán)境的強(qiáng)化學(xué)習(xí)多車道駕駛決策方法,使車輛可以實(shí)現(xiàn)多車道自動(dòng)駕駛,而無需依賴外部數(shù)據(jù)和高精度地圖。
2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:構(gòu)造一種面向動(dòng)態(tài)交通環(huán)境的強(qiáng)化學(xué)習(xí)多車道駕駛決策方法,包括:
3、利用多車道駕駛決策的場(chǎng)景中狀態(tài)空間、動(dòng)作空間和軌跡采樣信息建立決策神經(jīng)網(wǎng)絡(luò)模型;利用綜合獎(jiǎng)勵(lì)函數(shù)對(duì)所述決策神經(jīng)網(wǎng)絡(luò)模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練;
4、通過車輛配備的傳感器數(shù)組對(duì)周圍環(huán)境進(jìn)行連續(xù)而深入的感知,捕獲感知的環(huán)境信息,環(huán)境信息包括車道線、交通參與者的位置、速度及其預(yù)期行為信息;
5、將感知的環(huán)境信息輸入到所述決策神經(jīng)網(wǎng)絡(luò)模型中,決策神經(jīng)網(wǎng)絡(luò)模型根據(jù)當(dāng)前的環(huán)境信息預(yù)測(cè)未來一段時(shí)間內(nèi)的車輛軌跡和推薦的駕駛操作;
6、將決策神經(jīng)網(wǎng)絡(luò)模型輸出的推薦駕駛操作轉(zhuǎn)化為具體的控制指令,并將指令發(fā)送至車輛的線控底盤和執(zhí)行器。
7、上述方案中,所述狀態(tài)空間包括自車狀態(tài)、參考路徑信息和周車狀態(tài);
8、所述自車狀態(tài)包括車速和航向角速度;參考路徑信息包括連續(xù)的路線上的一系列路徑點(diǎn),每個(gè)路徑點(diǎn)包含的信息有縱向位置、橫向位置和航向角;周車狀態(tài)包括給定數(shù)量的若干周車,每個(gè)車輛的狀態(tài)包括縱向位置、橫向位置、航向角、車身長(zhǎng)度和車身寬度。
9、上述方案中,所述動(dòng)作空間包括車輛縱向加速度和方向盤轉(zhuǎn)角,將控制量的增量作為策略輸出,與自車當(dāng)前控制量相加后,得到實(shí)際控制量。
10、上述方案中,所述軌跡采樣信息采樣n條可能的軌跡,設(shè)τi為第i條軌跡,其中i=1,2,…,n;
11、τi={st,at,st+1,at+1,...,st}
12、其中,t為軌跡的結(jié)束時(shí)間,并且at是在時(shí)間t采取的行動(dòng)。
13、上述方案中,采用a2c強(qiáng)化學(xué)習(xí)方法,并引入critic網(wǎng)絡(luò)和actor網(wǎng)絡(luò)對(duì)決策神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;
14、critic網(wǎng)絡(luò)的結(jié)構(gòu)包括三層全連接層,激活函數(shù)為relu,處理時(shí)序信息的部分采用lstm,輸入為當(dāng)前狀態(tài)與對(duì)應(yīng)的軌跡,輸出為軌跡的價(jià)值,軌跡的分?jǐn)?shù)基于預(yù)期的未來獎(jiǎng)勵(lì);
15、actor網(wǎng)絡(luò)的結(jié)構(gòu)包括兩層全連接層,激活函數(shù)為tanh,輸入為當(dāng)前狀態(tài)與critic網(wǎng)絡(luò)確定的最優(yōu)軌跡,actor網(wǎng)絡(luò)根據(jù)輸入的狀態(tài)及最優(yōu)軌跡,直接生成相應(yīng)的控制指令來跟蹤最優(yōu)軌跡。
16、上述方案中,所述綜合獎(jiǎng)勵(lì)函數(shù)考慮了安全性、效率和舒適性;
17、針對(duì)安全性;如果預(yù)測(cè)的軌跡與其他車輛的距離低于預(yù)定義的安全閾值,會(huì)施加強(qiáng)烈的負(fù)向獎(jiǎng)勵(lì);計(jì)算車輛與所在車道中心的距離,距離越大,獎(jiǎng)勵(lì)越小;對(duì)于違反交通規(guī)則的行為,如在禁止變道區(qū)域變道,會(huì)給予嚴(yán)格的負(fù)獎(jiǎng)勵(lì);
18、針對(duì)效率;當(dāng)車輛在適當(dāng)?shù)臈l件下成功超越前方的低速車輛時(shí),會(huì)給予正獎(jiǎng)勵(lì);比較車輛的實(shí)際速度與所在車道的理想速度之間的差異,差異越小,獎(jiǎng)勵(lì)越大;
19、針對(duì)舒適性;對(duì)于頻繁的車道變更或急劇的轉(zhuǎn)向行為,會(huì)施加負(fù)獎(jiǎng)勵(lì);檢測(cè)急加速或急剎車,并施加負(fù)獎(jiǎng)勵(lì)。
20、上述方案中,針對(duì)安全性的獎(jiǎng)勵(lì)采用約束函數(shù)對(duì)自車與周圍車輛的碰撞進(jìn)行懲罰;約束函數(shù)采用雙圓法計(jì)算自車與周車之間的距離,該方法用兩個(gè)圓形覆蓋車身的平面形狀,將車輛之間的距離約束轉(zhuǎn)化為圓心之間的距離約束;用雙圓法計(jì)算車車距離時(shí),需要計(jì)算自車的兩個(gè)圓心與每輛周車的兩個(gè)圓心之間的距離,然后取最小距離作為車車距離,為保證駕駛策略的安全性,安全距離在兩車圓半徑之和基礎(chǔ)上增加一個(gè)量,稱為冗余安全距離;對(duì)于車車距離小于安全距離的所有周車,都需要計(jì)算碰撞約束懲罰,然后將這些懲罰項(xiàng)相加,得到最終的約束函數(shù)。
21、上述方案中,決策神經(jīng)網(wǎng)絡(luò)模型根據(jù)當(dāng)前的環(huán)境信息預(yù)測(cè)未來一段時(shí)間內(nèi)的車輛軌跡和推薦的駕駛操作的方法包括:
22、根據(jù)識(shí)別到的車道線信息,判斷自車兩側(cè)是否有可選道路,基于可選車道,進(jìn)行軌跡采樣,設(shè)計(jì)若干條備選軌跡。
23、用critic網(wǎng)絡(luò)計(jì)算每條可選軌跡的價(jià)值函數(shù),并選出價(jià)值最高的軌跡,記為最優(yōu)車道;若最優(yōu)軌跡所在車道為當(dāng)前所選車道,則保持所選車道,車道選擇流程結(jié)束,否則繼續(xù)判斷流程;
24、若所選車道非安全車道,即會(huì)發(fā)生碰撞,則立即選擇最優(yōu)軌跡,流程結(jié)束,否則繼續(xù)。這一判斷條件的作用是處理緊急情況,若所選車道即將發(fā)生碰撞,則沒有時(shí)間再進(jìn)行后續(xù)車道保持和換道等待的操作,必須立即切換至安全車道;
25、在考慮車道更換決策時(shí),首先評(píng)估當(dāng)前所選車道的安全性;若車輛在當(dāng)前車道已保持一定時(shí)間,并且在連續(xù)的一段時(shí)間內(nèi),評(píng)估出的最優(yōu)車道保持穩(wěn)定,才考慮進(jìn)行車道更換;滿足上述約束后,車輛將按照評(píng)估結(jié)果選擇最優(yōu)車道;
26、將選擇的最優(yōu)軌跡作為參考軌跡,與當(dāng)前車輛狀態(tài)及環(huán)境狀態(tài)異同輸入actor網(wǎng)絡(luò),得到控制指令,并下發(fā)給控制器執(zhí)行。
27、本發(fā)明還提供了一種面向動(dòng)態(tài)交通環(huán)境的強(qiáng)化學(xué)習(xí)多車道駕駛決策裝置,包括:
28、決策神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練模塊,用于利用多車道駕駛決策的場(chǎng)景中狀態(tài)空間、動(dòng)作空間和軌跡采樣信息建立決策神經(jīng)網(wǎng)絡(luò)模型;利用綜合獎(jiǎng)勵(lì)函數(shù)對(duì)所述決策神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;
29、信息感知模塊,用于通過車輛配備的傳感器數(shù)組對(duì)周圍環(huán)境進(jìn)行連續(xù)而深入的感知,捕獲感知的環(huán)境信息,環(huán)境信息包括車道線、其他交通參與者的位置、速度及其預(yù)期行為信息;
30、決策模塊,用于將感知的環(huán)境信息輸入到所述決策神經(jīng)網(wǎng)絡(luò)模型中,決策神經(jīng)網(wǎng)絡(luò)模型根據(jù)當(dāng)前的環(huán)境信息預(yù)測(cè)未來一段時(shí)間內(nèi)的車輛軌跡和推薦的駕駛操作;
31、控制模塊,用于將決策神經(jīng)網(wǎng)絡(luò)模型輸出的推薦駕駛操作轉(zhuǎn)化為具體的控制指令,并將指令發(fā)送至車輛的線控底盤和執(zhí)行器。
32、本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有可執(zhí)行指令,該指令被處理器執(zhí)行時(shí)使處理器實(shí)現(xiàn)所述面向動(dòng)態(tài)交通環(huán)境的強(qiáng)化學(xué)習(xí)多車道駕駛決策方法的步驟。
33、本發(fā)明還提供了一種電子設(shè)備,包括:處理器、通信接口、存儲(chǔ)器和通信總線,其中,處理器,通信接口,存儲(chǔ)器通過通信總線完成相互間的通信;所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行所述面向動(dòng)態(tài)交通環(huán)境的強(qiáng)化學(xué)習(xí)多車道駕駛決策方法的步驟。
34、實(shí)施本發(fā)明的面向動(dòng)態(tài)交通環(huán)境的強(qiáng)化學(xué)習(xí)多車道駕駛決策方法,具有以下有益效果:
35、1、本發(fā)明利用強(qiáng)化學(xué)習(xí),車輛能夠根據(jù)不斷變化的道路環(huán)境進(jìn)行自我學(xué)習(xí)和調(diào)整,具有很好的適應(yīng)性。通過加入規(guī)則約束,在保證適應(yīng)性的同時(shí),也確保了車輛的行駛決策具有一定的確定性和規(guī)范性。
36、2、本發(fā)明主要依賴于車輛的傳感器數(shù)據(jù)、強(qiáng)化學(xué)習(xí)技術(shù)和一些基礎(chǔ)的規(guī)則約束,而并沒有涉及到復(fù)雜的地圖信息或其他外部資源,減少了對(duì)外部信息的依賴,提高了系統(tǒng)的獨(dú)立性和穩(wěn)定性。節(jié)省了一部分地圖成本。在沒有地圖的情況下,車輛可以更好地適應(yīng)各種環(huán)境,例如在某些地圖尚未覆蓋或更新不及時(shí)的地區(qū)。