本發(fā)明涉及智駕技術(shù),尤其涉及面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)方法及系統(tǒng)。
背景技術(shù):
1、傳統(tǒng)的駕駛培訓(xùn)主要依賴教練員的經(jīng)驗和指導(dǎo),存在教學(xué)質(zhì)量不穩(wěn)定、針對性不強、實時反饋不足等問題。受限于人力和時間成本,教練員難以全面觀察和評估學(xué)員在不同駕駛場景下的多維度行為表現(xiàn),也無法針對每位學(xué)員的個性化需求提供持續(xù)的行為優(yōu)化指導(dǎo)。
2、為克服上述局限性,現(xiàn)有技術(shù)中已有研究探索利用智能算法輔助駕駛培訓(xùn)。一些方案采用車載傳感器采集學(xué)員駕駛數(shù)據(jù),通過與標準模板對比分析,評估其操作是否規(guī)范。但這類方法未考慮駕駛環(huán)境的動態(tài)變化,缺乏對學(xué)員行為的情境化解釋。另一些方案引入虛擬現(xiàn)實技術(shù),為學(xué)員提供逼真的模擬訓(xùn)練環(huán)境。然而,當前的駕駛模擬器大多基于預(yù)設(shè)場景,生成的交通流行為規(guī)律單一,難以模擬現(xiàn)實世界中復(fù)雜多變的路況。
3、此外,已有的智能駕培系統(tǒng)大多采用預(yù)先定義好的評判規(guī)則,或者通過有限的人工標注數(shù)據(jù)訓(xùn)練評估模型。這些方法難以應(yīng)對駕駛場景的豐富多樣性,缺乏對學(xué)員行為的精準分析和具體改進指導(dǎo)。同時,針對學(xué)員駕駛行為的反饋通常滯后且非實時,無法在學(xué)員出現(xiàn)錯誤操作時及時給出提醒和指導(dǎo)。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例提供面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)方法及系統(tǒng),能夠解決現(xiàn)有技術(shù)中的問題。
2、本發(fā)明實施例的第一方面,
3、提供面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)方法,包括:
4、獲取智能體在多源異構(gòu)駕駛培訓(xùn)平臺中產(chǎn)生的全場景駕駛行為數(shù)據(jù),所述全場景駕駛行為數(shù)據(jù)包括智能體在基于實車、虛擬仿真不同駕駛培訓(xùn)平臺下的駕駛決策數(shù)據(jù)、駕駛操作數(shù)據(jù)和駕駛認知數(shù)據(jù);對所述全場景駕駛行為數(shù)據(jù)進行分類標注與融合映射,通過知識圖譜構(gòu)建算法,映射生成智能體駕駛行為知識圖譜,所述駕駛行為知識圖譜包含智能體在全場景駕駛過程中表現(xiàn)出的駕駛決策知識、駕駛操作知識和駕駛認知知識;
5、基于所述駕駛行為知識圖譜,利用知識蒸餾技術(shù),學(xué)習(xí)提煉智能體駕駛經(jīng)驗,并使用圖神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建智能體駕駛行為認知模型;將所述智能體駕駛行為認知模型與預(yù)先構(gòu)建的駕駛行為樣本進行對比分析,通過相似度計算和偏差分析,判別智能體在不同駕駛維度、不同駕駛場景下存在的駕駛行為缺陷;
6、針對智能體的駕駛行為缺陷,自動規(guī)劃多個階段性的強化學(xué)習(xí)任務(wù),每個階段性強化學(xué)習(xí)任務(wù)聚焦智能體在對應(yīng)駕駛維度、駕駛場景下的行為缺陷,并匹配生成對應(yīng)的駕駛行為強化學(xué)習(xí)場景;將智能體置于駕駛行為強化學(xué)習(xí)場景中,構(gòu)建包含行為評估、行為矯正、行為鞏固的閉環(huán)交互學(xué)習(xí)流程,引導(dǎo)智能體掌握針對駕駛行為缺陷的最優(yōu)應(yīng)對策略,用于實時智能化教學(xué)。
7、在一種可選的實施方式中,
8、對所述全場景駕駛行為數(shù)據(jù)進行分類標注與融合映射,通過知識圖譜構(gòu)建算法,映射生成智能體駕駛行為知識圖譜包括:
9、針對所述全場景駕駛行為數(shù)據(jù),基于駕駛行為學(xué)從駕駛決策、駕駛操作和駕駛認知三個維度,對全場景駕駛行為數(shù)據(jù)進行多維度分類標注,標注內(nèi)容涵蓋駕駛決策類型、決策時機、決策果斷程度、駕駛操作規(guī)范性、操作熟練度以及駕駛認知的多個特征;
10、采用本體匹配技術(shù),對分類標注后的全場景駕駛行為數(shù)據(jù)中表征相同駕駛行為的實體進行識別與對齊,建立統(tǒng)一的實體名稱空間;然后利用自然語言處理技術(shù),提取實體的語義信息并進行語義對齊,完成全場景駕駛行為數(shù)據(jù)的跨平臺融合映射,得到行為描述數(shù)據(jù);
11、對所述行為描述數(shù)據(jù)進行知識抽取,利用模式匹配、依存分析算法,抽取出智能體駕駛行為知識圖譜的實體、關(guān)系和屬性的基本構(gòu)成要素;采用transe或者transr的知識表示模型,將實體、關(guān)系、屬性映射到低維語義空間進行向量化表征;
12、通過知識圖譜匹配和知識推理技術(shù),實現(xiàn)不同場景、不同粒度駕駛行為知識圖譜的融合,識別語義等價的實體和關(guān)系,并推斷知識圖譜之間高層語義關(guān)聯(lián),生成智能體駕駛行為知識圖譜。
13、在一種可選的實施方式中,
14、基于所述駕駛行為知識圖譜,利用知識蒸餾技術(shù),學(xué)習(xí)提煉智能體駕駛經(jīng)驗,并使用圖神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建智能體駕駛行為認知模型包括:
15、將駕駛行為知識圖譜作為教師網(wǎng)絡(luò),通過教師-學(xué)生知識蒸餾范式,學(xué)習(xí)得到第一個壓縮后的學(xué)生網(wǎng)絡(luò);
16、將得到的第一個壓縮后的學(xué)生網(wǎng)絡(luò)作為新的教師網(wǎng)絡(luò),重復(fù)通過教師-學(xué)生知識蒸餾范式,得到第二個壓縮后的學(xué)生網(wǎng)絡(luò);迭代進行多輪自蒸餾,構(gòu)建基學(xué)習(xí)器池,將每一輪自蒸餾學(xué)習(xí)到的學(xué)生網(wǎng)絡(luò)作為一個基學(xué)習(xí)器,加入集成學(xué)習(xí)器的基學(xué)習(xí)器池;
17、對于給定的駕駛行為決策任務(wù),綜合不同輪次學(xué)生網(wǎng)絡(luò)的預(yù)測結(jié)果,采用加權(quán)投票的方式得到集成學(xué)習(xí)器的最終決策;
18、采用貝葉斯優(yōu)化方法,通過最大化兼顧新、老知識比例的目標函數(shù),自動調(diào)整集成學(xué)習(xí)器中各基學(xué)習(xí)器的權(quán)重,以平衡新知識和歷史知識的權(quán)重占比;通過交替迭代自蒸餾和集成學(xué)習(xí),最終得到目標駕駛行為知識圖譜,并使用圖神經(jīng)網(wǎng)絡(luò)算法,對所述目標駕駛行為知識圖譜進行隨機游走,構(gòu)建智能體駕駛行為認知模型。
19、在一種可選的實施方式中,
20、采用貝葉斯優(yōu)化方法,通過最大化兼顧新、老知識比例的目標函數(shù),自動調(diào)整集成學(xué)習(xí)器中各基學(xué)習(xí)器的權(quán)重包括:
21、所述目標函數(shù)如下公式所示:
22、;
23、其中, n表示自蒸餾的輪數(shù),表示第i輪自蒸餾學(xué)生網(wǎng)絡(luò)的權(quán)重因子,為控制衰減速率的參數(shù),表示第i輪自蒸餾學(xué)生網(wǎng)絡(luò)的平衡因子,用于平衡權(quán)重因子,為平滑項,為第i輪自蒸餾學(xué)生網(wǎng)絡(luò)的冪指數(shù);
24、表示交互項的權(quán)重因子,分別表示第i輪和第j輪自蒸餾學(xué)生網(wǎng)絡(luò)的準確率, d(s i ,s j )分別表示第i輪自蒸餾過程的知識 s i和第j輪自蒸餾過程的知識 s j的輪次距離,表示第i輪和第j輪自蒸餾學(xué)生網(wǎng)絡(luò)之間的相關(guān)系數(shù)。
25、在一種可選的實施方式中,
26、針對智能體的駕駛行為缺陷,自動規(guī)劃多個階段性的強化學(xué)習(xí)任務(wù),每個階段性強化學(xué)習(xí)任務(wù)聚焦智能體在對應(yīng)駕駛維度、駕駛場景下的行為缺陷,并匹配生成對應(yīng)的駕駛行為強化學(xué)習(xí)場景包括:
27、根據(jù)駕駛行為偏差抽象出形式化的缺陷模式,并用元組<維度,場景,缺陷類型>進行標識,然后基于缺陷模式的嚴重程度、出現(xiàn)頻率和對駕駛安全的影響計算優(yōu)先級得分;
28、利用缺陷模式的優(yōu)先級得分,通過啟發(fā)式搜索算法,生成一系列聚焦于具體行為缺陷的強化學(xué)習(xí)子任務(wù),針對每個強化學(xué)習(xí)子任務(wù),利用深度圖卷積神經(jīng)網(wǎng)絡(luò),從高保真駕駛仿真平臺場景庫中檢索與<維度,場景>組合最相關(guān)的駕駛場景子集,然后通過端到端的條件生成對抗網(wǎng)絡(luò),將道路拓撲、交通參與者、環(huán)境條件的參數(shù)進行隨機擾動組合,動態(tài)生成覆蓋當前行為缺陷的訓(xùn)練環(huán)境組;
29、基于所述訓(xùn)練環(huán)境組結(jié)合強化學(xué)習(xí)子任務(wù)的特定行為改進目標,利用逆強化學(xué)習(xí)框架,從相關(guān)駕駛場景的人類駕駛經(jīng)驗中自動提取隱式獎勵函數(shù),將駕駛行為維度的表現(xiàn)量化為即時獎勵;同時采用元學(xué)習(xí)方法,自適應(yīng)調(diào)整強化學(xué)習(xí)算法的探索率和學(xué)習(xí)率;
30、當智能體在當前階段性任務(wù)中達成預(yù)設(shè)的行為改進目標,或訓(xùn)練輪次達到上限時,終止當前階段強化學(xué)習(xí),將智能體遷移至實際道路場景中,重新評估其駕駛行為,對改進效果進行驗證,基于評估結(jié)果,調(diào)整下一階段的任務(wù)規(guī)劃和學(xué)習(xí)配置,形成閉環(huán)迭代。
31、在一種可選的實施方式中,
32、基于所述訓(xùn)練環(huán)境組結(jié)合強化學(xué)習(xí)子任務(wù)的特定行為改進目標,利用逆強化學(xué)習(xí)框架,從相關(guān)駕駛場景的人類駕駛經(jīng)驗中自動提取隱式獎勵函數(shù),將駕駛行為維度的表現(xiàn)量化為即時獎勵包括:
33、基于所述訓(xùn)練環(huán)境組構(gòu)建包含速度、加速度、軌跡偏離量的駕駛行為關(guān)鍵維度的特征空間,從人類駕駛軌跡數(shù)據(jù)集中采樣得到參考專家軌跡,其中各時間步均對應(yīng)一個行為特征向量;
34、利用最大熵逆強化學(xué)習(xí)算法,通過最大化參考專家軌跡的對數(shù)似然,學(xué)習(xí)一個隱式獎勵函數(shù),使得基于隱式獎勵函數(shù)得到的策略分布與預(yù)先獲取的專家策略分布的kl散度最??;
35、引入迪利克雷過程先驗,將隱式獎勵函數(shù)分解為多個獨立高斯過程的加權(quán)和,從參考專家軌跡中通過貝葉斯非參數(shù)方法,自適應(yīng)地確定最優(yōu)高斯過程分量的數(shù)量和各分量對應(yīng)的核函數(shù)的超參數(shù)后驗分布;
36、在因果推斷框架下,基于反事實推理評估駕駛行為關(guān)鍵維度的因果效應(yīng),并基于因果效應(yīng)大小對隱式獎勵函數(shù)各維度分量權(quán)重進行重調(diào);
37、將學(xué)習(xí)得到的驅(qū)動因果的隱式獎勵函數(shù)嵌入強化學(xué)習(xí)駕駛環(huán)境,基于策略梯度優(yōu)化智能體駕駛策略,最大化期望累積獎勵,并利用因果權(quán)重對梯度方向進行重要性采樣,將駕駛行為維度的表現(xiàn)量化為即時獎勵。
38、本發(fā)明實施例的第二方面,
39、提供面向駕駛培訓(xùn)全場景行為的實時智能化教學(xué)系統(tǒng),包括:
40、第一單元,用于獲取智能體在多源異構(gòu)駕駛培訓(xùn)平臺中產(chǎn)生的全場景駕駛行為數(shù)據(jù),所述全場景駕駛行為數(shù)據(jù)包括智能體在基于實車、虛擬仿真不同駕駛培訓(xùn)平臺下的駕駛決策數(shù)據(jù)、駕駛操作數(shù)據(jù)和駕駛認知數(shù)據(jù);對所述全場景駕駛行為數(shù)據(jù)進行分類標注與融合映射,通過知識圖譜構(gòu)建算法,映射生成智能體駕駛行為知識圖譜,所述駕駛行為知識圖譜包含智能體在全場景駕駛過程中表現(xiàn)出的駕駛決策知識、駕駛操作知識和駕駛認知知識;
41、第二單元,用于基于所述駕駛行為知識圖譜,利用知識蒸餾技術(shù),學(xué)習(xí)提煉智能體駕駛經(jīng)驗,并使用圖神經(jīng)網(wǎng)絡(luò)算法,構(gòu)建智能體駕駛行為認知模型;將所述智能體駕駛行為認知模型與預(yù)先構(gòu)建的駕駛行為樣本進行對比分析,通過相似度計算和偏差分析,判別智能體在不同駕駛維度、不同駕駛場景下存在的駕駛行為缺陷;
42、第三單元,用于針對智能體的駕駛行為缺陷,自動規(guī)劃多個階段性的強化學(xué)習(xí)任務(wù),每個階段性強化學(xué)習(xí)任務(wù)聚焦智能體在對應(yīng)駕駛維度駕駛場景下的行為缺陷,并匹配生成對應(yīng)的駕駛行為強化學(xué)習(xí)場景;將智能體置于駕駛行為強化學(xué)習(xí)場景中,構(gòu)建包含行為評估、行為矯正、行為鞏固的閉環(huán)交互學(xué)習(xí)流程,引導(dǎo)智能體掌握針對駕駛行為缺陷的最優(yōu)應(yīng)對策略,用于實時智能化教學(xué)。
43、本發(fā)明實施例的第三方面,
44、提供一種電子設(shè)備,包括:
45、處理器;
46、用于存儲處理器可執(zhí)行指令的存儲器;
47、其中,所述處理器被配置為調(diào)用所述存儲器存儲的指令,以執(zhí)行前述所述的方法。
48、本發(fā)明實施例的第四方面,
49、提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)前述所述的方法。
50、本技術(shù)從多場景駕駛行為數(shù)據(jù)中抽取形成的知識圖譜往往較為局部和片段化,最后需要利用知識融合技術(shù),實現(xiàn)不同場景、不同粒度的駕駛行為知識圖譜的融合。一方面,可通過本體匹配方法,識別不同圖譜中語義等價的實體和關(guān)系,實現(xiàn)跨圖譜的實體對齊和關(guān)系對齊;另一方面,可通過知識推理方法,基于局部圖譜的語義信息,推斷出圖譜之間在更高層語義上的關(guān)聯(lián),實現(xiàn)圖譜的擴展與補全。
51、本技術(shù)形成了一個完整的自蒸餾增強行為知識圖譜壓縮流程。相較單純的教師-學(xué)生知識蒸餾,該方法引入了學(xué)生網(wǎng)絡(luò)的自我學(xué)習(xí)機制,在壓縮的同時實現(xiàn)了知識的進一步提煉;同時,通過集成學(xué)習(xí)融合了不同粒度學(xué)生網(wǎng)絡(luò)的知識優(yōu)勢,獲得了兼顧細節(jié)和重點的圖譜表示。經(jīng)過自蒸餾增強壓縮的駕駛行為知識圖譜,在體量更小的情況下,仍能準確刻畫行為數(shù)據(jù)的內(nèi)在關(guān)聯(lián),可有效支撐智能體駕駛的認知、決策與優(yōu)化任務(wù)。