本技術(shù)涉及運(yùn)動(dòng)控制領(lǐng)域,特別是涉及一種多模態(tài)移動(dòng)平臺(tái)的模態(tài)決策方法及裝置。
背景技術(shù):
1、自動(dòng)駕駛技術(shù)近年來(lái)迅速發(fā)展,在縮短運(yùn)輸成本、提高城市運(yùn)行效率以及探索危險(xiǎn)工況等具有極其廣泛的應(yīng)用前景。目前,有關(guān)傳統(tǒng)純輪式移動(dòng)平臺(tái)自動(dòng)駕駛領(lǐng)域得到了充分的發(fā)展。然而,由于越障能力的限制傳統(tǒng)純輪式移動(dòng)平臺(tái)在城市臺(tái)階路況、野外丘陵等具有挑戰(zhàn)性的工況中難以通過(guò),作為多模態(tài)移動(dòng)平臺(tái)的輪腿式移動(dòng)平臺(tái)是一種可行的解決方案。輪腿式移動(dòng)平臺(tái)將驅(qū)動(dòng)輪與腿集成到一起,這種設(shè)計(jì)使車輛能夠在較為平坦的路面上長(zhǎng)距離高效行駛,同時(shí)在具有挑戰(zhàn)性的地形中保持一定程度的越障能力。想要發(fā)揮輪腿式移動(dòng)平臺(tái)高機(jī)動(dòng)性與高通行效率的巨大潛力,需要解決輪腿混合運(yùn)動(dòng)控制、實(shí)現(xiàn)高效平穩(wěn)的起伏越野環(huán)境導(dǎo)航。
2、首先,輪腿混合運(yùn)動(dòng)控制問(wèn)題極具挑戰(zhàn)性。盡管純輪式和四足機(jī)器人控制算法均已發(fā)展成熟,例如基于模型預(yù)測(cè)控制的純輪式算法和受自然啟發(fā)的四足控制策略,輪腿混合系統(tǒng)的有效控制仍然復(fù)雜。這些系統(tǒng)通常采用基于啟發(fā)式的算法,將輪式和腿式運(yùn)動(dòng)分為兩種模式,從而分別實(shí)現(xiàn)高效的輪式控制和優(yōu)良的越障性能。然而,具體使用什么模態(tài)目前只能人為調(diào)控,這阻礙了多模態(tài)移動(dòng)平臺(tái)自動(dòng)駕駛技術(shù)的發(fā)展。
3、其次,對(duì)輪腿式平臺(tái)而言,實(shí)現(xiàn)高效穩(wěn)定的2.5d導(dǎo)航至關(guān)重要。盡管已有多種針對(duì)純輪式車輛的二維導(dǎo)航技術(shù),如基于樣本、人工勢(shì)場(chǎng)法、圖理論和強(qiáng)化學(xué)習(xí)方法,這些技術(shù)能在平坦開闊地區(qū)提供穩(wěn)定導(dǎo)航。然而,這些方法往往忽略輪腿平臺(tái)的多模態(tài)運(yùn)動(dòng)特性,未能充分利用其優(yōu)越的越障能力,例如在具有一定高度障礙的地形中,這些算法只能規(guī)劃出躲避這些高度障礙的軌跡而不是從上面跨越。為綜合速度、效率和越障性能,導(dǎo)航算法需考慮這些多模態(tài)特性,以在平坦地形中高效規(guī)劃同時(shí)在障礙面前保持敏捷。2.5d導(dǎo)航系統(tǒng)在傳統(tǒng)導(dǎo)航系統(tǒng)的基礎(chǔ)上增加了三維軌跡規(guī)劃的功能,能夠規(guī)劃出跨越障礙物的軌跡?,F(xiàn)有的2.5d導(dǎo)航方法多設(shè)計(jì)于無(wú)輪式模態(tài)的四足機(jī)器人,其規(guī)劃出的軌跡不包含模態(tài)決策信息,無(wú)法利用輪式模態(tài)在平坦區(qū)域的高效運(yùn)行。
4、輪腿式移動(dòng)平臺(tái)融合了純輪式與四足機(jī)器人的運(yùn)動(dòng)控制策略,雖然各自獨(dú)立控制技術(shù)已相對(duì)成熟,但如何高效地整合這兩種模式以實(shí)現(xiàn)自適應(yīng)模態(tài)切換和動(dòng)態(tài)環(huán)境應(yīng)對(duì),仍然是一大技術(shù)挑戰(zhàn)。目前,輪腿混合系統(tǒng)的模式選擇依賴于人工調(diào)控,這限制了其在復(fù)雜地形和自動(dòng)駕駛場(chǎng)景下的應(yīng)用效果和效率。
5、目前的導(dǎo)航技術(shù)主要分為針對(duì)純輪式移動(dòng)平臺(tái)與針對(duì)四足機(jī)器人兩類。針對(duì)純輪式移動(dòng)平臺(tái)的導(dǎo)航技術(shù)不具備三維軌跡規(guī)劃的能力,在越過(guò)障礙物時(shí)只能選擇繞行,不能發(fā)揮出多模態(tài)移動(dòng)平臺(tái)的越障優(yōu)勢(shì)。針對(duì)四足機(jī)器人的導(dǎo)航技術(shù)屬于2.5d導(dǎo)航技術(shù),具備了規(guī)劃出三維軌跡的能力,但是全程只能使用足式模態(tài),不能發(fā)揮出多模態(tài)移動(dòng)平臺(tái)在平地工況時(shí)輪式高效移動(dòng)的優(yōu)勢(shì)。
6、因此,目前急需一種新的導(dǎo)航技術(shù)框架以充分發(fā)揮多模態(tài)運(yùn)動(dòng)的潛力。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的是提供一種多模態(tài)移動(dòng)平臺(tái)的模態(tài)決策方法及裝置,可實(shí)現(xiàn)多模態(tài)移動(dòng)平臺(tái)的模態(tài)運(yùn)動(dòng)決策控制。
2、為實(shí)現(xiàn)上述目的,本技術(shù)提供了如下方案:
3、第一方面,本技術(shù)提供了一種多模態(tài)移動(dòng)平臺(tái)的模態(tài)決策方法,所述多模態(tài)移動(dòng)平臺(tái)的模態(tài)決策方法包括:
4、獲取多模態(tài)移動(dòng)平臺(tái)的基本參數(shù)數(shù)據(jù);所述基本參數(shù)數(shù)據(jù)包括:跨越高度閾值、移動(dòng)過(guò)程閾值和高程地圖信息;所述移動(dòng)過(guò)程閾值包括:長(zhǎng)度、寬度和高度;
5、根據(jù)所述基本參數(shù)數(shù)據(jù)確定軌跡信息數(shù)據(jù);所述軌跡信息數(shù)據(jù)是由多個(gè)時(shí)間步對(duì)應(yīng)的軌跡數(shù)據(jù)構(gòu)成的;
6、將狀態(tài)空間數(shù)據(jù)輸入至馬爾可夫決策模型,輸出模態(tài)決策信息;所述狀態(tài)空間數(shù)據(jù)包括所述基本參數(shù)數(shù)據(jù)和所述軌跡信息數(shù)據(jù);所述馬爾可夫決策模型包括:相互連接的策略神經(jīng)網(wǎng)絡(luò)和獎(jiǎng)勵(lì)神經(jīng)網(wǎng)絡(luò);所述策略神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述狀態(tài)空間數(shù)據(jù)確定行為空間數(shù)據(jù),并基于所述行為空間數(shù)據(jù)確定模態(tài)決策;所述行為空間數(shù)據(jù)為各個(gè)時(shí)間步對(duì)應(yīng)的模態(tài)決策指令數(shù)據(jù);所述模態(tài)決策包括:輪式運(yùn)動(dòng)模式和腿式運(yùn)動(dòng)模式;所述獎(jiǎng)勵(lì)神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述模態(tài)決策和所述狀態(tài)空間數(shù)據(jù)確定目標(biāo)函數(shù),并基于獎(jiǎng)勵(lì)函數(shù)和所述目標(biāo)函數(shù),采用梯度下降的方法,對(duì)所述策略神經(jīng)網(wǎng)絡(luò)中的參數(shù)進(jìn)行更新;所述參數(shù)包括:散度閾值;
7、根據(jù)所述模態(tài)決策信息控制所述多模態(tài)移動(dòng)平臺(tái)進(jìn)行移動(dòng)。
8、可選地,所述目標(biāo)函數(shù)的表達(dá)式為:
9、;
10、其中,為目標(biāo)函數(shù);為截?cái)嗪瘮?shù);為超參數(shù);為概率比;為在第時(shí)間步的行為數(shù)據(jù)、策略模型、第時(shí)間步的狀態(tài)數(shù)據(jù)的遷移遵循遷移概率函數(shù)的條件下的期望值;為優(yōu)勢(shì)函數(shù)。
11、可選地,所述獎(jiǎng)勵(lì)函數(shù)是采用近似值函數(shù)對(duì)優(yōu)勢(shì)函數(shù)進(jìn)行計(jì)算得到的;
12、所述獎(jiǎng)勵(lì)函數(shù),具體包括:
13、;
14、;
15、其中,為優(yōu)勢(shì)函數(shù);為第時(shí)間步的行為數(shù)據(jù);為策略模型;為第時(shí)間步的狀態(tài)數(shù)據(jù);為平滑參數(shù);為折扣因子;為第時(shí)間步的散度閾值;為第時(shí)間步的散度閾值;為第時(shí)間步的散度閾值;為第時(shí)間步的狀態(tài)數(shù)據(jù)的近似值函數(shù);為第時(shí)間步的狀態(tài)數(shù)據(jù)的近似值函數(shù);為第時(shí)間步的獎(jiǎng)勵(lì)。
16、可選地,所述策略神經(jīng)網(wǎng)絡(luò)包括依次連接的第一輸入層、第一正則化處理層、第一全連接層和第一輸出層;
17、所述第一輸入層用于接收所述狀態(tài)空間數(shù)據(jù);
18、所述第一正則化處理層用于對(duì)所述狀態(tài)空間數(shù)據(jù)進(jìn)行正則化處理,以去除噪聲干擾,得到處理后的數(shù)據(jù);
19、所述第一全連接層用于采用激活函數(shù)根據(jù)處理后的數(shù)據(jù)確定模態(tài)決策;
20、所述第一輸出層用于輸出所述模態(tài)決策。
21、可選地,所述激活函數(shù)采用relu函數(shù)。
22、可選地,所述獎(jiǎng)勵(lì)神經(jīng)網(wǎng)絡(luò)包括依次連接的第二輸入層、第二正則化處理層、第二全連接層和第二輸出層;所述第二輸出層和所述第一輸入層連接;
23、所述第二正則化處理層用于對(duì)所述第二輸入層接收的所述模態(tài)決策和所述狀態(tài)空間數(shù)據(jù),進(jìn)行去噪處理,得到處理數(shù)據(jù);
24、所述第二全連接層用于根據(jù)所述處理數(shù)據(jù)確定目標(biāo)函數(shù),并基于獎(jiǎng)勵(lì)函數(shù)和所述目標(biāo)函數(shù),采用梯度下降的方法,對(duì)所述策略神經(jīng)網(wǎng)絡(luò)中的參數(shù)進(jìn)行更新,得到更新參數(shù);
25、所述第二輸出層用于將所述更新參數(shù)輸出至所述第一輸入層。
26、可選地,所述獎(jiǎng)勵(lì)神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述模態(tài)決策確定目標(biāo)函數(shù),并基于獎(jiǎng)勵(lì)函數(shù)和所述目標(biāo)函數(shù),采用梯度下降的方法,以損失函數(shù)的值最小為目標(biāo),對(duì)所述策略神經(jīng)網(wǎng)絡(luò)中的參數(shù)進(jìn)行更新;所述損失函數(shù)是根據(jù)所述軌跡信息數(shù)據(jù)和實(shí)時(shí)獲取的軌跡數(shù)據(jù)之間的差值確定的。
27、第二方面,本技術(shù)提供了一種多模態(tài)移動(dòng)平臺(tái)的模態(tài)決策裝置,所述多模態(tài)移動(dòng)平臺(tái)的模態(tài)決策裝置包括:2.5d導(dǎo)航系統(tǒng)、移動(dòng)控制模塊和由上述所述的多模態(tài)移動(dòng)平臺(tái)的模態(tài)決策方法實(shí)現(xiàn)的模態(tài)決策模塊;
28、所述2.5d導(dǎo)航系統(tǒng)與所述模態(tài)決策模塊連接;所述移動(dòng)控制模塊與所述模態(tài)決策模塊連接;
29、所述2.5d導(dǎo)航系統(tǒng)用于獲取多模態(tài)移動(dòng)平臺(tái)的基本參數(shù)數(shù)據(jù),并根據(jù)所述基本參數(shù)數(shù)據(jù)確定軌跡信息數(shù)據(jù);所述基本參數(shù)數(shù)據(jù)包括:跨越高度閾值、移動(dòng)過(guò)程閾值和高程地圖信息;所述移動(dòng)過(guò)程閾值包括:長(zhǎng)度、寬度和高度;所述軌跡信息數(shù)據(jù)是由多個(gè)時(shí)間步對(duì)應(yīng)的軌跡數(shù)據(jù)構(gòu)成的;
30、所述模態(tài)決策模塊用于獲取所述2.5d導(dǎo)航系統(tǒng)中的狀態(tài)數(shù)據(jù),并將狀態(tài)空間數(shù)據(jù)輸入至馬爾可夫決策模型,輸出模態(tài)決策信息;所述狀態(tài)空間數(shù)據(jù)包括所述基本參數(shù)數(shù)據(jù)和所述軌跡信息數(shù)據(jù);所述馬爾可夫決策模型包括:依次連接的策略神經(jīng)網(wǎng)絡(luò)和獎(jiǎng)勵(lì)神經(jīng)網(wǎng)絡(luò);所述策略神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述狀態(tài)空間數(shù)據(jù)確定行為空間數(shù)據(jù),并基于所述行為空間數(shù)據(jù)確定模態(tài)決策;所述行為空間數(shù)據(jù)為各個(gè)時(shí)間步對(duì)應(yīng)的模態(tài)決策指令數(shù)據(jù);所述模態(tài)決策包括:輪式運(yùn)動(dòng)模式和腿式運(yùn)動(dòng)模式;所述獎(jiǎng)勵(lì)神經(jīng)網(wǎng)絡(luò)用于根據(jù)所述模態(tài)決策確定目標(biāo)函數(shù),并基于獎(jiǎng)勵(lì)函數(shù)和所述目標(biāo)函數(shù),采用梯度下降的方法,對(duì)所述策略神經(jīng)網(wǎng)絡(luò)中的參數(shù)進(jìn)行更新;所述參數(shù)包括:散度閾值;
31、所述移動(dòng)控制模塊用于根據(jù)所述模態(tài)決策信息控制所述多模態(tài)移動(dòng)平臺(tái)進(jìn)行移動(dòng)。
32、可選地,所述2.5d導(dǎo)航系統(tǒng)包括:數(shù)據(jù)獲取模塊和軌跡信息數(shù)據(jù)確定模塊;
33、所述數(shù)據(jù)獲取模塊和所述軌跡信息數(shù)據(jù)確定模塊連接;
34、所述數(shù)據(jù)獲取模塊用于獲取多模態(tài)移動(dòng)平臺(tái)的基本參數(shù)數(shù)據(jù);
35、所述軌跡信息數(shù)據(jù)確定模塊用于根據(jù)所述基本參數(shù)數(shù)據(jù)確定軌跡信息數(shù)據(jù)。
36、可選地,所述數(shù)據(jù)獲取模塊采用感知設(shè)備。
37、根據(jù)本技術(shù)提供的具體實(shí)施例,本技術(shù)公開了以下技術(shù)效果:
38、本技術(shù)提供了一種多模態(tài)移動(dòng)平臺(tái)的模態(tài)決策方法及裝置,通過(guò)根據(jù)獲取的基本參數(shù)數(shù)據(jù)確定軌跡信息數(shù)據(jù);將狀態(tài)空間數(shù)據(jù)輸入至馬爾可夫決策模型,輸出模態(tài)決策信息;狀態(tài)空間數(shù)據(jù)包括基本參數(shù)數(shù)據(jù)和軌跡信息數(shù)據(jù);馬爾可夫決策模型包括:相互連接的策略神經(jīng)網(wǎng)絡(luò)和獎(jiǎng)勵(lì)神經(jīng)網(wǎng)絡(luò);根據(jù)模態(tài)決策信息控制多模態(tài)移動(dòng)平臺(tái)進(jìn)行移動(dòng)。本技術(shù)將模態(tài)決策問(wèn)題進(jìn)行了馬爾可夫建模,創(chuàng)新性地設(shè)計(jì)了狀態(tài)空間、行為空間與獎(jiǎng)勵(lì)函數(shù)。狀態(tài)空間跟隨時(shí)間步滾動(dòng),從而減少策略獲得的冗余信息并減小策略的計(jì)算需求。獎(jiǎng)勵(lì)函數(shù)考慮了安全與效率的綜合性能,旨在保證安全的前提下通過(guò)模態(tài)決策最大化通行效率。由此,本技術(shù)能夠?qū)崿F(xiàn)多模態(tài)移動(dòng)平臺(tái)的模態(tài)運(yùn)動(dòng)決策控制。