1.基于模仿學(xué)習(xí)的駕駛培訓(xùn)教學(xué)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過最小化所述第一特征期望與所述第二特征期望之間的差異并且結(jié)合生成對抗網(wǎng)絡(luò)交替優(yōu)化更新所述隱含獎勵函數(shù)的參數(shù)包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述智能體駕駛策略用于所述智能體的輔助駕駛決策,以使智能體在面臨新的駕駛場景時,能夠根據(jù)學(xué)習(xí)到的隱含獎勵函數(shù)做出與人類駕駛員相似的駕駛決策包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在計算長期累積獎勵期望值時,采用蒙特卡洛樹搜索算法,通過在決策樹上進(jìn)行多次隨機(jī)模擬,估計每個決策節(jié)點的期望回報包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,從根節(jié)點出發(fā),通過上置信界算法遞歸選擇所述根節(jié)點對應(yīng)的子節(jié)點包括:
7.基于模仿學(xué)習(xí)的駕駛培訓(xùn)教學(xué)系統(tǒng),用于實現(xiàn)前述權(quán)利要求1-6中任一項所述的方法,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括:
9.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序指令,其特征在于,所述計算機(jī)程序指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任意一項所述的方法。