本發(fā)明涉及自動駕駛,具體是一種基于大型視覺語言模型的自動駕駛解釋文本確定方法。
背景技術(shù):
1、最近,大型視覺語言模型(large?vision-language?model,lvlm)的快速發(fā)展及其出色的常識推理和泛化能力引發(fā)了一系列在端到端自動駕駛中的應(yīng)用。端到端自動駕駛旨在通過使用車載傳感器數(shù)據(jù)作為輸入,直接預(yù)測車輛的控制信號和/或計(jì)劃路徑。然而,實(shí)現(xiàn)端到端自動駕駛面臨的首要挑戰(zhàn)是場景理解,涉及在復(fù)雜多變、全局協(xié)同的3d場景中導(dǎo)航,并直接影響車輛的未來狀態(tài)預(yù)測、駕駛行為決策以及與環(huán)境的安全互動。因此,lvlm需要將能力從二維理解擴(kuò)展到全面的三維動/靜態(tài)情境感知,將局部場景與全局地圖的視覺表示進(jìn)行統(tǒng)一,以充分釋放其在現(xiàn)實(shí)應(yīng)用中的潛力。盡管先前的研究已經(jīng)展示了在端到端自動駕駛中成功應(yīng)用llm的實(shí)例,但仍需要一種整體的方法,將lvlm的應(yīng)用擴(kuò)展到復(fù)雜的真實(shí)駕駛場景中。
2、端到端自動駕駛另一個亟待解決的挑戰(zhàn)是決策過程的可解釋性。端到端自動駕駛將全棧駕駛組件集成到一個綜合框架,消除了非連續(xù)中間步驟的累積誤差、協(xié)調(diào)不足與資源次優(yōu)利用,然而運(yùn)作方式類似于“黑匣子”,這意味著決策過程缺乏直觀的可解釋性,可能導(dǎo)致廣泛的公眾不信任和法律關(guān)切。一些方法依賴可視化地圖作為一種手段來解釋系統(tǒng)的決策,或者通過提供有意義的中間表示來進(jìn)行決策,但對于駕乘人員而言,可視化地圖或中間表示往往難以理解。此外,一些方法還通過lvlm將復(fù)雜的決策過程轉(zhuǎn)化為易于理解的自然語言文本,從而為傳統(tǒng)系統(tǒng)提供了新的解釋層次,但是它們一般只考慮場景潛在因素,忽略了車輛未來控制指令序列的文本行為描述。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,以解決上述背景技術(shù)中提出的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,所述方法包括:
3、獲取多視角攝像頭圖像、bev地圖圖像以及文本查詢模板;
4、基于視頻編碼器對多視角攝像頭圖像中的視頻特征進(jìn)行提取,基于圖像編碼器對bev地圖圖像中的圖像特征進(jìn)行提??;
5、基于模態(tài)編碼器對圖像特征與視頻特征進(jìn)行對齊;
6、將文本查詢模板進(jìn)行編碼,生成文本標(biāo)記,基于共享投影器將對齊后的圖像特征與視頻特征映射到文本嵌入空間,生成視覺標(biāo)記;
7、將視覺標(biāo)記與文本標(biāo)記輸入llm骨干模型,輸出自動駕駛解釋文本。
8、作為本發(fā)明更進(jìn)一步的方案,所述文本查詢模板包括歷史控制信號模板以及任務(wù)指令模板。
9、作為本發(fā)明更進(jìn)一步的方案,所述共享投影器為兩層感知器。
10、作為本發(fā)明更進(jìn)一步的方案,還包括:基于多視角攝像頭圖像、bev地圖圖像構(gòu)建視頻圖像問答基準(zhǔn),所述視頻圖像問答基準(zhǔn)包括3d場景理解基準(zhǔn)以及可解釋的端到端駕駛基準(zhǔn)。
11、作為本發(fā)明更進(jìn)一步的方案,所述3d場景理解基準(zhǔn)的構(gòu)建步驟具體包括:
12、基于多視角攝像頭圖像、bev地圖圖像確定3d場景分層體系;
13、基于3d場景分層體系確定問題選項(xiàng)和答案模板;
14、基于gpt-4v生成場景理解問答對;
15、作為本發(fā)明更進(jìn)一步的方案,所述可解釋的端到端駕駛基準(zhǔn)的構(gòu)建步驟包括:
16、基于多視角攝像頭圖像、bev地圖圖像獲取控制信號序列;
17、確定閾值向量,基于閾值向量確定自車元動作;
18、基于自車元動作、控制信號序列以及場景理解問答對通過chatgpt生成解釋文本。
19、作為本發(fā)明更進(jìn)一步的方案,還包括:
20、將2d空間域中圖像特征、視頻特征與大型語言模型的嵌入空間之間進(jìn)行對齊;
21、對3d場景理解基準(zhǔn)進(jìn)行3d微調(diào);
22、對可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)。
23、作為本發(fā)明更進(jìn)一步的方案,所述將2d空間域中圖像特征、視頻特征與大型語言模型的嵌入空間之間進(jìn)行對齊的步驟中包括:
24、將視頻編碼器、圖像編碼器、和llm骨干的權(quán)重保持凍結(jié),僅更新共享投影器的權(quán)重。
25、作為本發(fā)明更進(jìn)一步的方案,所述對3d場景理解基準(zhǔn)進(jìn)行3d微調(diào)步驟以及對可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)的步驟包括:
26、視頻編碼器和圖像編碼器的權(quán)重保持凍結(jié),通過最小化交叉熵?fù)p失更新共享投影器和llm骨干的權(quán)重。
27、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:通過模態(tài)編碼器來聯(lián)合編碼動態(tài)的3d多視角場景視頻和靜態(tài)的bev地圖圖像,實(shí)現(xiàn)了全面的三維動/靜態(tài)情境感知以及局部場景與全局地圖的視覺表示統(tǒng)一。相比于其他端到端模型,本發(fā)明提出的3d?lvlm架構(gòu)具備出色的三維空間理解和動態(tài)時間推理能力,有效提升端到端自動駕駛的準(zhǔn)確性和安全性。
1.一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,其特征在于,所述文本查詢模板包括歷史控制信號模板以及任務(wù)指令模板。
3.根據(jù)權(quán)利要求1所述的一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,其特征在于,所述共享投影器為兩層感知器。
4.根據(jù)權(quán)利要求1所述的一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,其特征在于,還包括:基于多視角攝像頭圖像、bev地圖圖像構(gòu)建視頻圖像問答基準(zhǔn),所述視頻圖像問答基準(zhǔn)包括3d場景理解基準(zhǔn)以及可解釋的端到端駕駛基準(zhǔn)。
5.根據(jù)權(quán)利要求4所述的一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,其特征在于,所述3d場景理解基準(zhǔn)的構(gòu)建步驟具體包括:
6.根據(jù)權(quán)利要求5所述的一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,其特征在于,所述可解釋的端到端駕駛基準(zhǔn)的構(gòu)建步驟包括:
7.根據(jù)權(quán)利要求6所述的一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,其特征在于,還包括:
8.根據(jù)權(quán)利要求7所述的一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,其特征在于,所述將2d空間域中圖像特征、視頻特征與大型語言模型的嵌入空間之間進(jìn)行對齊的步驟中包括:
9.根據(jù)權(quán)利要求7所述的一種基于大型視覺語言模型的自動駕駛解釋文本確定方法,其特征在于,所述對3d場景理解基準(zhǔn)進(jìn)行3d微調(diào)步驟以及對可解釋的端到端駕駛基準(zhǔn)進(jìn)行端到端微調(diào)的步驟包括: