面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)方法及系統(tǒng)與流程

文檔序號：40405782發(fā)布日期：2024-12-20 12:29閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)方法及系統(tǒng)與流程

本發(fā)明涉及智駕技術(shù)，尤其涉及面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)方法及系統(tǒng)。

背景技術(shù)：

1、傳統(tǒng)的駕駛培訓(xùn)主要依賴教練員的經(jīng)驗和指導(dǎo)，存在教學(xué)質(zhì)量不穩(wěn)定、針對性不強、實時反饋不足等問題。受限于人力和時間成本，教練員難以全面觀察和評估學(xué)員在不同駕駛場景下的多維度行為表現(xiàn)，也無法針對每位學(xué)員的個性化需求提供持續(xù)的行為優(yōu)化指導(dǎo)。

2、為克服上述局限性，現(xiàn)有技術(shù)中已有研究探索利用智能算法輔助駕駛培訓(xùn)。一些方案采用車載傳感器采集學(xué)員駕駛數(shù)據(jù)，通過與標準模板對比分析，評估其操作是否規(guī)范。但這類方法未考慮駕駛環(huán)境的動態(tài)變化，缺乏對學(xué)員行為的情境化解釋。另一些方案引入虛擬現(xiàn)實技術(shù)，為學(xué)員提供逼真的模擬訓(xùn)練環(huán)境。然而，當前的駕駛模擬器大多基于預(yù)設(shè)場景，生成的交通流行為規(guī)律單一，難以模擬現(xiàn)實世界中復(fù)雜多變的路況。

3、此外，已有的智能駕培系統(tǒng)大多采用預(yù)先定義好的評判規(guī)則，或者通過有限的人工標注數(shù)據(jù)訓(xùn)練評估模型。這些方法難以應(yīng)對駕駛場景的豐富多樣性，缺乏對學(xué)員行為的精準分析和具體改進指導(dǎo)。同時，針對學(xué)員駕駛行為的反饋通常滯后且非實時，無法在學(xué)員出現(xiàn)錯誤操作時及時給出提醒和指導(dǎo)。

技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)方法及系統(tǒng)，能夠解決現(xiàn)有技術(shù)中的問題。

2、本發(fā)明實施例的第一方面，

3、提供面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)方法，包括：

4、獲取智能體在多源異構(gòu)駕駛培訓(xùn)平臺中產(chǎn)生的全場景駕駛行為數(shù)據(jù)，所述全場景駕駛行為數(shù)據(jù)包括智能體在基于實車、虛擬仿真不同駕駛培訓(xùn)平臺下的駕駛決策數(shù)據(jù)、駕駛操作數(shù)據(jù)和駕駛認知數(shù)據(jù)；對所述全場景駕駛行為數(shù)據(jù)進行分類標注與融合映射，通過知識圖譜構(gòu)建算法，映射生成智能體駕駛行為知識圖譜，所述駕駛行為知識圖譜包含智能體在全場景駕駛過程中表現(xiàn)出的駕駛決策知識、駕駛操作知識和駕駛認知知識；

5、基于所述駕駛行為知識圖譜，利用知識蒸餾技術(shù)，學(xué)習(xí)提煉智能體駕駛經(jīng)驗，并使用圖神經(jīng)網(wǎng)絡(luò)算法，構(gòu)建智能體駕駛行為認知模型；將所述智能體駕駛行為認知模型與預(yù)先構(gòu)建的駕駛行為樣本進行對比分析，通過相似度計算和偏差分析，判別智能體在不同駕駛維度、不同駕駛場景下存在的駕駛行為缺陷；

6、針對智能體的駕駛行為缺陷，自動規(guī)劃多個階段性的強化學(xué)習(xí)任務(wù)，每個階段性強化學(xué)習(xí)任務(wù)聚焦智能體在對應(yīng)駕駛維度、駕駛場景下的行為缺陷，并匹配生成對應(yīng)的駕駛行為強化學(xué)習(xí)場景；將智能體置于駕駛行為強化學(xué)習(xí)場景中，構(gòu)建包含行為評估、行為矯正、行為鞏固的閉環(huán)交互學(xué)習(xí)流程，引導(dǎo)智能體掌握針對駕駛行為缺陷的最優(yōu)應(yīng)對策略，用于實時智能化教學(xué)。

7、在一種可選的實施方式中，

8、對所述全場景駕駛行為數(shù)據(jù)進行分類標注與融合映射，通過知識圖譜構(gòu)建算法，映射生成智能體駕駛行為知識圖譜包括：

9、針對所述全場景駕駛行為數(shù)據(jù)，基于駕駛行為學(xué)從駕駛決策、駕駛操作和駕駛認知三個維度，對全場景駕駛行為數(shù)據(jù)進行多維度分類標注，標注內(nèi)容涵蓋駕駛決策類型、決策時機、決策果斷程度、駕駛操作規(guī)范性、操作熟練度以及駕駛認知的多個特征；

10、采用本體匹配技術(shù)，對分類標注后的全場景駕駛行為數(shù)據(jù)中表征相同駕駛行為的實體進行識別與對齊，建立統(tǒng)一的實體名稱空間；然后利用自然語言處理技術(shù)，提取實體的語義信息并進行語義對齊，完成全場景駕駛行為數(shù)據(jù)的跨平臺融合映射，得到行為描述數(shù)據(jù)；

11、對所述行為描述數(shù)據(jù)進行知識抽取，利用模式匹配、依存分析算法，抽取出智能體駕駛行為知識圖譜的實體、關(guān)系和屬性的基本構(gòu)成要素；采用transe或者transr的知識表示模型，將實體、關(guān)系、屬性映射到低維語義空間進行向量化表征；

12、通過知識圖譜匹配和知識推理技術(shù)，實現(xiàn)不同場景、不同粒度駕駛行為知識圖譜的融合，識別語義等價的實體和關(guān)系，并推斷知識圖譜之間高層語義關(guān)聯(lián)，生成智能體駕駛行為知識圖譜。

13、在一種可選的實施方式中，

14、基于所述駕駛行為知識圖譜，利用知識蒸餾技術(shù)，學(xué)習(xí)提煉智能體駕駛經(jīng)驗，并使用圖神經(jīng)網(wǎng)絡(luò)算法，構(gòu)建智能體駕駛行為認知模型包括：

15、將駕駛行為知識圖譜作為教師網(wǎng)絡(luò)，通過教師-學(xué)生知識蒸餾范式，學(xué)習(xí)得到第一個壓縮后的學(xué)生網(wǎng)絡(luò)；

16、將得到的第一個壓縮后的學(xué)生網(wǎng)絡(luò)作為新的教師網(wǎng)絡(luò)，重復(fù)通過教師-學(xué)生知識蒸餾范式，得到第二個壓縮后的學(xué)生網(wǎng)絡(luò)；迭代進行多輪自蒸餾，構(gòu)建基學(xué)習(xí)器池，將每一輪自蒸餾學(xué)習(xí)到的學(xué)生網(wǎng)絡(luò)作為一個基學(xué)習(xí)器，加入集成學(xué)習(xí)器的基學(xué)習(xí)器池；

17、對于給定的駕駛行為決策任務(wù)，綜合不同輪次學(xué)生網(wǎng)絡(luò)的預(yù)測結(jié)果，采用加權(quán)投票的方式得到集成學(xué)習(xí)器的最終決策；

18、采用貝葉斯優(yōu)化方法，通過最大化兼顧新、老知識比例的目標函數(shù)，自動調(diào)整集成學(xué)習(xí)器中各基學(xué)習(xí)器的權(quán)重，以平衡新知識和歷史知識的權(quán)重占比；通過交替迭代自蒸餾和集成學(xué)習(xí)，最終得到目標駕駛行為知識圖譜，并使用圖神經(jīng)網(wǎng)絡(luò)算法，對所述目標駕駛行為知識圖譜進行隨機游走，構(gòu)建智能體駕駛行為認知模型。

19、在一種可選的實施方式中，

20、采用貝葉斯優(yōu)化方法，通過最大化兼顧新、老知識比例的目標函數(shù)，自動調(diào)整集成學(xué)習(xí)器中各基學(xué)習(xí)器的權(quán)重包括：

21、所述目標函數(shù)如下公式所示：

22、；

23、其中， n表示自蒸餾的輪數(shù)，表示第i輪自蒸餾學(xué)生網(wǎng)絡(luò)的權(quán)重因子，為控制衰減速率的參數(shù)，表示第i輪自蒸餾學(xué)生網(wǎng)絡(luò)的平衡因子，用于平衡權(quán)重因子，為平滑項，為第i輪自蒸餾學(xué)生網(wǎng)絡(luò)的冪指數(shù)；

24、表示交互項的權(quán)重因子，分別表示第i輪和第j輪自蒸餾學(xué)生網(wǎng)絡(luò)的準確率， d(s i ,s j )分別表示第i輪自蒸餾過程的知識 s i和第j輪自蒸餾過程的知識 s j的輪次距離，表示第i輪和第j輪自蒸餾學(xué)生網(wǎng)絡(luò)之間的相關(guān)系數(shù)。

25、在一種可選的實施方式中，

26、針對智能體的駕駛行為缺陷，自動規(guī)劃多個階段性的強化學(xué)習(xí)任務(wù)，每個階段性強化學(xué)習(xí)任務(wù)聚焦智能體在對應(yīng)駕駛維度、駕駛場景下的行為缺陷，并匹配生成對應(yīng)的駕駛行為強化學(xué)習(xí)場景包括：

27、根據(jù)駕駛行為偏差抽象出形式化的缺陷模式，并用元組<維度,場景,缺陷類型>進行標識，然后基于缺陷模式的嚴重程度、出現(xiàn)頻率和對駕駛安全的影響計算優(yōu)先級得分；

28、利用缺陷模式的優(yōu)先級得分，通過啟發(fā)式搜索算法，生成一系列聚焦于具體行為缺陷的強化學(xué)習(xí)子任務(wù)，針對每個強化學(xué)習(xí)子任務(wù)，利用深度圖卷積神經(jīng)網(wǎng)絡(luò)，從高保真駕駛仿真平臺場景庫中檢索與<維度,場景>組合最相關(guān)的駕駛場景子集，然后通過端到端的條件生成對抗網(wǎng)絡(luò)，將道路拓撲、交通參與者、環(huán)境條件的參數(shù)進行隨機擾動組合，動態(tài)生成覆蓋當前行為缺陷的訓(xùn)練環(huán)境組；

29、基于所述訓(xùn)練環(huán)境組結(jié)合強化學(xué)習(xí)子任務(wù)的特定行為改進目標，利用逆強化學(xué)習(xí)框架，從相關(guān)駕駛場景的人類駕駛經(jīng)驗中自動提取隱式獎勵函數(shù)，將駕駛行為維度的表現(xiàn)量化為即時獎勵；同時采用元學(xué)習(xí)方法，自適應(yīng)調(diào)整強化學(xué)習(xí)算法的探索率和學(xué)習(xí)率；

30、當智能體在當前階段性任務(wù)中達成預(yù)設(shè)的行為改進目標，或訓(xùn)練輪次達到上限時，終止當前階段強化學(xué)習(xí)，將智能體遷移至實際道路場景中，重新評估其駕駛行為，對改進效果進行驗證，基于評估結(jié)果，調(diào)整下一階段的任務(wù)規(guī)劃和學(xué)習(xí)配置，形成閉環(huán)迭代。

31、在一種可選的實施方式中，

32、基于所述訓(xùn)練環(huán)境組結(jié)合強化學(xué)習(xí)子任務(wù)的特定行為改進目標，利用逆強化學(xué)習(xí)框架，從相關(guān)駕駛場景的人類駕駛經(jīng)驗中自動提取隱式獎勵函數(shù)，將駕駛行為維度的表現(xiàn)量化為即時獎勵包括：

33、基于所述訓(xùn)練環(huán)境組構(gòu)建包含速度、加速度、軌跡偏離量的駕駛行為關(guān)鍵維度的特征空間，從人類駕駛軌跡數(shù)據(jù)集中采樣得到參考專家軌跡，其中各時間步均對應(yīng)一個行為特征向量；

34、利用最大熵逆強化學(xué)習(xí)算法，通過最大化參考專家軌跡的對數(shù)似然，學(xué)習(xí)一個隱式獎勵函數(shù)，使得基于隱式獎勵函數(shù)得到的策略分布與預(yù)先獲取的專家策略分布的kl散度最??；

35、引入迪利克雷過程先驗，將隱式獎勵函數(shù)分解為多個獨立高斯過程的加權(quán)和，從參考專家軌跡中通過貝葉斯非參數(shù)方法，自適應(yīng)地確定最優(yōu)高斯過程分量的數(shù)量和各分量對應(yīng)的核函數(shù)的超參數(shù)后驗分布；

36、在因果推斷框架下，基于反事實推理評估駕駛行為關(guān)鍵維度的因果效應(yīng)，并基于因果效應(yīng)大小對隱式獎勵函數(shù)各維度分量權(quán)重進行重調(diào)；

37、將學(xué)習(xí)得到的驅(qū)動因果的隱式獎勵函數(shù)嵌入強化學(xué)習(xí)駕駛環(huán)境，基于策略梯度優(yōu)化智能體駕駛策略，最大化期望累積獎勵，并利用因果權(quán)重對梯度方向進行重要性采樣，將駕駛行為維度的表現(xiàn)量化為即時獎勵。

38、本發(fā)明實施例的第二方面，

39、提供面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)系統(tǒng)，包括：

40、第一單元，用于獲取智能體在多源異構(gòu)駕駛培訓(xùn)平臺中產(chǎn)生的全場景駕駛行為數(shù)據(jù)，所述全場景駕駛行為數(shù)據(jù)包括智能體在基于實車、虛擬仿真不同駕駛培訓(xùn)平臺下的駕駛決策數(shù)據(jù)、駕駛操作數(shù)據(jù)和駕駛認知數(shù)據(jù)；對所述全場景駕駛行為數(shù)據(jù)進行分類標注與融合映射，通過知識圖譜構(gòu)建算法，映射生成智能體駕駛行為知識圖譜，所述駕駛行為知識圖譜包含智能體在全場景駕駛過程中表現(xiàn)出的駕駛決策知識、駕駛操作知識和駕駛認知知識；

41、第二單元，用于基于所述駕駛行為知識圖譜，利用知識蒸餾技術(shù)，學(xué)習(xí)提煉智能體駕駛經(jīng)驗，并使用圖神經(jīng)網(wǎng)絡(luò)算法，構(gòu)建智能體駕駛行為認知模型；將所述智能體駕駛行為認知模型與預(yù)先構(gòu)建的駕駛行為樣本進行對比分析，通過相似度計算和偏差分析，判別智能體在不同駕駛維度、不同駕駛場景下存在的駕駛行為缺陷；

42、第三單元，用于針對智能體的駕駛行為缺陷，自動規(guī)劃多個階段性的強化學(xué)習(xí)任務(wù)，每個階段性強化學(xué)習(xí)任務(wù)聚焦智能體在對應(yīng)駕駛維度駕駛場景下的行為缺陷，并匹配生成對應(yīng)的駕駛行為強化學(xué)習(xí)場景；將智能體置于駕駛行為強化學(xué)習(xí)場景中，構(gòu)建包含行為評估、行為矯正、行為鞏固的閉環(huán)交互學(xué)習(xí)流程，引導(dǎo)智能體掌握針對駕駛行為缺陷的最優(yōu)應(yīng)對策略，用于實時智能化教學(xué)。

43、本發(fā)明實施例的第三方面，

44、提供一種電子設(shè)備，包括：

45、處理器；

46、用于存儲處理器可執(zhí)行指令的存儲器；

47、其中，所述處理器被配置為調(diào)用所述存儲器存儲的指令，以執(zhí)行前述所述的方法。

48、本發(fā)明實施例的第四方面，

49、提供一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序指令，所述計算機程序指令被處理器執(zhí)行時實現(xiàn)前述所述的方法。

50、本技術(shù)從多場景駕駛行為數(shù)據(jù)中抽取形成的知識圖譜往往較為局部和片段化，最后需要利用知識融合技術(shù)，實現(xiàn)不同場景、不同粒度的駕駛行為知識圖譜的融合。一方面，可通過本體匹配方法，識別不同圖譜中語義等價的實體和關(guān)系，實現(xiàn)跨圖譜的實體對齊和關(guān)系對齊；另一方面，可通過知識推理方法，基于局部圖譜的語義信息，推斷出圖譜之間在更高層語義上的關(guān)聯(lián)，實現(xiàn)圖譜的擴展與補全。

51、本技術(shù)形成了一個完整的自蒸餾增強行為知識圖譜壓縮流程。相較單純的教師-學(xué)生知識蒸餾，該方法引入了學(xué)生網(wǎng)絡(luò)的自我學(xué)習(xí)機制，在壓縮的同時實現(xiàn)了知識的進一步提煉；同時，通過集成學(xué)習(xí)融合了不同粒度學(xué)生網(wǎng)絡(luò)的知識優(yōu)勢，獲得了兼顧細節(jié)和重點的圖譜表示。經(jīng)過自蒸餾增強壓縮的駕駛行為知識圖譜，在體量更小的情況下，仍能準確刻畫行為數(shù)據(jù)的內(nèi)在關(guān)聯(lián)，可有效支撐智能體駕駛的認知、決策與優(yōu)化任務(wù)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬宏,段桂江
技術(shù)所有人：易顯智能科技有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：一種低噪音耐低溫耐腐蝕柔性電纜的制作方法
上一篇：一種塑袋包裝的果凍條分切設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

智能駕考培訓(xùn)系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)方法及系統(tǒng)與流程