本公開屬于智能交通和自動駕駛,具體而言涉及一種基于預訓練大語言模型的車輛軌跡預測方法。
背景技術:
1、車輛軌跡預測在自動駕駛系統(tǒng)中扮演著至關重要的作用,其為下游的規(guī)劃與決策模塊提供了豐富的感知線索。然而,由于駕駛行為的固有隨機性,要使自動駕駛車輛具備像人類一樣預測周圍車輛運動的能力依舊充滿挑戰(zhàn)。
2、現(xiàn)有研究主要利用不同的深度網絡模塊來挖掘時間動態(tài)和空間交互。具體而言,大多研究采用rnn及transformer編碼時間依賴性,應用池化機制及gcn整合來自周圍車輛的信息。盡管這些方法能夠顯著提升軌跡預測性能,但與人類駕駛員相比,其在場景認知及理解方面仍存在差距。
3、最近,大語言模型(llms)在諸多模仿人類理解和推理能力的任務上展現(xiàn)出巨大潛力。同時,llms能夠提供高級語義和廣泛知識,這種涌現(xiàn)能力拓展了其在語言處理領域之外的應用。探索llms應用在軌跡預測中,將增強預測模型的場景認知和理解能力。
技術實現(xiàn)思路
1、本公開正是基于現(xiàn)有技術的上述需求而提出的,本公開要解決的技術問題是提供一種基于預訓練大語言模型的車輛軌跡預測方法以增強預測模型的場景認知和理解能力,進而使得軌跡預測接近人為選擇。
2、為了解決上述問題,本公開提供的技術方案包括:
3、提供了一種基于預訓練大語言模型的車輛軌跡預測方法,包括:獲取車輛狀態(tài)和車道信息的時空場景;編碼所述車輛狀態(tài)和車道信息的時空場景,包括通過嵌入網絡提取高維特征,所述嵌入網絡由門控循單元和多層感知機組成;融合高維特征以進行車輛信息和車道信息的信息交換,輸出稀疏上下文聯(lián)合編碼;構建大語言模型,凍結部分預訓練的參數(shù),并引入可訓練的側向層,利用低秩自適應更新注意力層,形成大語言模型;稀疏上下文聯(lián)合編碼基于預訓練的大語言模型得到高級交互狀態(tài);在每一時間步通過mamba層同步目標車輛的運動和車道信息,所述mamba層包括mamba塊、歸一層、逐點前饋網絡和殘差連接;mamba層對通過高級交互狀態(tài)和部分的稀疏上下文聯(lián)合編碼形成的第一輸入進行批歸一化處理,得到第一輸出;通過mamba塊將第一輸出映射并得到第二輸出;基于第一輸出和第二輸出,結合批歸一化和殘差連接得到隱式狀態(tài);通過逐點前饋網絡改進隱藏層維度中的車道感知估計建模,得到第三輸出;基于隱式狀態(tài)和第三輸出,通過批歸一化和殘差連接得到車道感知學習向量;車道感知學習向量進入多層感知機,得到對應時間步內的多個車道段的預測分數(shù),最接近真實軌跡位置車道段的預測分數(shù)為1,其余車道段的預測分數(shù)為0;通過多模態(tài)高斯解碼器處理第二輸入,所述第二輸入由稀疏上下文聯(lián)合編碼、高級交互特征和多變量正態(tài)分布采樣的潛向量組成,得到在連續(xù)時間步中的車輛軌跡。
4、優(yōu)選地,所述融合高維特征以進行車輛信息和車道信息的信息交換,輸出稀疏上下文聯(lián)合編碼包括:通過多頭自注意力機制和門控線性單元進行車輛之間的特征融合;通過多頭注意力機制和殘差連接,對車輛和車道進行更新,實現(xiàn)車輛之間的特征融合以及車輛和車道之間的特征融合;表示為:,其中hi和fl為車輛狀態(tài)和車輛信息的時空場景通過嵌入網絡后提出的高維特征,multiselfatt()為多頭自注意力機制,glu()為門控線性單元,n為車輛數(shù),l’為車段數(shù);將和連接起來,形成系數(shù)上下文聯(lián)合編碼gi。
5、優(yōu)選地,利用低秩自適應更新注意力層包括:設低秩自適應lora的秩為r,第j個注意力層網絡θj的輸入為aj,其維度為d,輸出為其維度為k,lora通過以下方式近似更新網絡θj中的預訓練權重矩陣w∈rd×k:其中,秩分解矩陣b∈rd×r,a∈rr×k,且r<<min(d,k);在訓練過程中,凍結w∈rd×k,b和a為可訓練參數(shù),分別初始化為0和高斯分布。
6、優(yōu)選地,lora的前向傳遞函數(shù)表示為:將上下文聯(lián)合編碼gi輸入至大語言模型llms()中,輸出得到:zi=llms(gi),zi通過多層感知機進行變換以匹配gi的維度,從而生成最終的高級交互狀態(tài)si。
7、優(yōu)選地,mamba層對第一輸入進行批歸一化處理,得到第一輸出;通過mamba塊將第一輸出映射并得到第二輸出,包括:q=mamba(batchnorm(f)),其中,q為第二輸出,batchnorm()為批歸一化,mamba()表示經過mamba塊的處理后的輸出,f為第一輸入,si為高級交互狀態(tài),為部分的稀疏上下文聯(lián)合編碼,b為批次大小,l為車道段長度,d為隱藏層維度。
8、優(yōu)選地,mamba塊的處理包括利用線性投影擴展輸入維度,擴展系數(shù)為e,生成兩個并行分支的不同表示,分別記為m和n;通過一維卷積和silu激活函數(shù)來捕捉車道感知依賴關系m′,將m′分別線性投影為o、c和δ,δ用于變換o和結構化狀態(tài)矩陣u生成和選擇性狀態(tài)模型接受m′、和c作為輸入,生成修正的車道感知特征q;引入silu激活函數(shù)來產生可過濾無關信息的門控信號n′;q與n′相乘并經過線性投影后輸出q。
9、優(yōu)選地,所述基于第一輸出和第二輸出,結合批歸一化和殘差連接得到隱式狀態(tài)包括:其中為隱式狀態(tài);所述通過逐點前饋網絡改進隱藏層維度中的車道感知估計建模,得到第三輸出包括:其中,為第三輸出,w(0)、w(1)、b(0)和b(1)為可訓練參數(shù)relu()為非線性激活函數(shù);所述基于隱式狀態(tài)和第三輸出,通過批歸一化和殘差連接得到車道感知學習向量包括:其中s為車道感知學習向量。
10、優(yōu)選地,所述車道感知學習向量進入多層感知機,得到對應時間步內的多個車道段的預測分數(shù)包括:其中,pl,t為在時間t的第l個車道段的預測分數(shù);sl為第l個車道段的車道感知學習向量,sj為第j個車道段的車道感知學習向量,exp()為以自然常數(shù)e為底的指數(shù)函數(shù)。
11、優(yōu)選地,車道感知估計建模通過二元交叉熵損失函數(shù)來優(yōu)化概率,表示為:其中,llane為二元交叉熵損失函數(shù),lce表示為二元交叉熵函數(shù),pt表示為預測分數(shù),表示為實際分數(shù)標簽,每個時間步長t∈{1,...,tf}。
12、優(yōu)選地,通過多模態(tài)高斯解碼器處理第二輸入ei,所述第二輸入由稀疏上下文聯(lián)合編碼、高級交互特征和多變量正態(tài)分布采樣的潛向量組成,得到在連續(xù)時間步中的車輛軌跡st為軌跡,為均值,n為高斯分布,pi為模態(tài)似然度,均值為協(xié)方差為k個模態(tài)的似然性p1:k在時間上呈現(xiàn)相關性,ei由稀疏上下文聯(lián)合編碼gi、車道感知引導的高級交互特征以及由多變量正態(tài)分布采樣的潛向量o組成,si和m′執(zhí)行交叉注意力生成m′由測評分數(shù)最高的候選車道段連接形成。
13、與現(xiàn)有技術相比,本公開通過在軌跡預測任務中引入預訓練的大語言模型的先進能力進行軌跡的預測,同時基于mamba模塊驅動車道感知學習,以模擬人類在駕駛決策過程中關注潛在車道的認知活動,進而增強預訓練大語言模型的車輛軌跡預測中對于車道信息時空場景的理解能力,同時便于引導車輛的運動狀態(tài)與潛在車道段對其,以能夠盡可能的使得最終的車輛軌跡預測結果接近人類駕駛員的駕駛,以使得自動駕駛車輛具備類似于人類的預測周圍車輛運動的能力,以有效避免碰撞,同時提高機動性和靈活性。