本發(fā)明涉及運動規(guī)劃領(lǐng)域,具體來說涉及運動規(guī)劃領(lǐng)域中的軌跡規(guī)劃技術(shù),更具體地說,涉及一種混合地形軌跡規(guī)劃系統(tǒng)、行進控制系統(tǒng)。
背景技術(shù):
1、在野外環(huán)境下的導(dǎo)航任務(wù)中,軌跡規(guī)劃是至關(guān)重要的一環(huán),它為森林監(jiān)測、采礦、高原運輸、搜索與救援等任務(wù)提供了高效、安全的執(zhí)行路徑。鑒于野外環(huán)境的特殊性,軌跡規(guī)劃不僅需要考慮地形的幾何特征,還需要考慮豐富的語義信息;同時,由于野外環(huán)境下進行軌跡規(guī)劃的參數(shù)空間不再是類似于城市空間的se(2)空間,而是需要考慮高度變化的se(3)空間,因此,在野外環(huán)境下的軌跡規(guī)劃需要獲取野外環(huán)境信息并對其進行處理以獲取地形信息,進而根據(jù)獲取的地形信息來規(guī)劃合理的運動軌跡。
2、隨著計算機視覺技術(shù)的飛速發(fā)展,在執(zhí)行軌跡規(guī)劃任務(wù)時可以采用計算機視覺技術(shù)來獲取野外環(huán)境下的地形信息,具體的執(zhí)行流程為:獲取野外環(huán)境下采集得到的rgb圖像,為rgb圖像中的每個像素賦予單一的地形類別標簽,比如,賦予草地、泥土、碎石等地形類別標簽。除了這種方式獲取地形信息以外,還可以通過構(gòu)建可通行地圖的方式來提取地形信息,具體的執(zhí)行流程為:采用分類網(wǎng)絡(luò)或人為定義的通行標準判斷圖像中某個地形是否能夠通行,并在可通行的區(qū)域內(nèi)打上可通行標注、在不可通行的區(qū)域內(nèi)打上不可通行標注,得到二維的柵格地圖。
3、獲取得到地形信息后,目前主流的處理方式是通過傳統(tǒng)規(guī)劃方法或強化學(xué)習(xí)的方法來進行軌跡規(guī)劃。對于傳統(tǒng)規(guī)劃方法,其通?;诙S的柵格地圖中所表示的可通行信息使用rrt*或a*等方法來進行軌跡規(guī)劃,簡單來說就是通過二維的柵格地圖中所表示的可通行信息在可通行區(qū)域搜索可行的下一步位置來尋找一條無障礙軌跡,并在規(guī)劃過程中添加線性約束以使規(guī)劃的軌跡更加合理高效。對于強化學(xué)習(xí)的方法,其通過運動目標在真實世界實時采集的rgb圖像來獲取地形信息,并將獲取得到的地形信息作為輸入、規(guī)劃軌跡作為輸出來在線訓(xùn)練策略網(wǎng)絡(luò),并將策略網(wǎng)絡(luò)輸出的規(guī)劃軌跡傳遞給運動目標執(zhí)行,并根據(jù)運動目標的執(zhí)行反饋不斷優(yōu)化策略網(wǎng)絡(luò)。
4、雖然現(xiàn)有技術(shù)能夠通過獲取地形信息來進行軌跡規(guī)劃,但是現(xiàn)有技術(shù)得到的規(guī)劃軌跡質(zhì)量較差,不僅難以控制運動目標沿規(guī)劃軌跡運動,還可能在運動過程中使運動目標面臨潛在的危險。
5、需要說明的是:本背景技術(shù)僅用于介紹本發(fā)明的相關(guān)信息,以便于幫助理解本發(fā)明的技術(shù)方案,但并不意味著相關(guān)信息必然是現(xiàn)有技術(shù)。在沒有證據(jù)表明相關(guān)信息已在本發(fā)明的申請日以前公開的情況下,相關(guān)信息不應(yīng)被視為現(xiàn)有技術(shù)。
技術(shù)實現(xiàn)思路
1、因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種混合地形軌跡規(guī)劃系統(tǒng)和一種行進目標行進控制系統(tǒng)。
2、本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的。
3、根據(jù)本發(fā)明的第一方面,提供一種混合地形軌跡規(guī)劃系統(tǒng),用于在混合地形環(huán)境下為行進目標規(guī)劃行進路徑,所述系統(tǒng)包括:感知處理模塊,其配置有預(yù)訓(xùn)練語義分割網(wǎng)絡(luò)和編碼器;其中,所述預(yù)訓(xùn)練語義分割網(wǎng)絡(luò)用于對行進目標采集的多個時刻連續(xù)的rgb地形圖像進行語義特征提取以得到每個時刻的多標簽地形特征圖;所述編碼器用于對每個時刻的多標簽地形特征圖進行編碼處理以得到每個時刻的混合地形語義特征圖;其中,多標簽地形特征圖表征rgb地形圖像中每個像素所包含的地形類別,混合地形語義特征圖表征rgb地形圖像中不同地形類別的通行難易程度;軌跡規(guī)劃模塊,用于基于其上配置的策略網(wǎng)絡(luò)對行進目標采集的多個時刻連續(xù)的行進目標的行進狀態(tài)、地形深度圖以及感知處理模塊傳遞的與之對應(yīng)的多個時刻連續(xù)的混合地形語義特征圖進行處理以獲取目標規(guī)劃軌跡;其中,所述策略網(wǎng)絡(luò)以多個時刻連續(xù)的混合地形語義特征圖、地形深度圖和行進狀態(tài)為輸入,以目標規(guī)劃軌跡為輸出,基于元強化學(xué)習(xí)方式離線訓(xùn)練獲得。
4、在本發(fā)明的一些實施例中,所述預(yù)訓(xùn)練語義分割網(wǎng)絡(luò)被配置為對每個時刻的rgb地形圖像中的每個像素進行地形分類,以獲取每個時刻的rgb地形圖像中每個像素屬于每種地形類別的概率,并將每個像素中大于預(yù)設(shè)分類閾值的所有地形類別概率對應(yīng)的地形類別作為該像素的地形類別標簽得到多標簽地形特征圖。
5、在本發(fā)明的一些實施例中,所述編碼模塊被配置為按照如下方式對多標簽地形特征圖進行編碼處理以獲取混合地形語義特征圖:基于預(yù)設(shè)的地形類別通行難度,計算多標簽地形特征圖中每個像素對應(yīng)的所有地形類別標簽對應(yīng)地形的通行難度的求和均值。
6、在本發(fā)明的一些實施例中,所述策略網(wǎng)絡(luò)包括并行連接的第一前置網(wǎng)絡(luò)和第二前置網(wǎng)絡(luò),以及串行連接在第一前置網(wǎng)絡(luò)與第二前置網(wǎng)絡(luò)之后的多個全連接層、長短時記憶網(wǎng)絡(luò)和輸出層;其中,第一前置網(wǎng)絡(luò)由多個全連接層組成,用于提取多個時刻連續(xù)的行進狀態(tài)的狀態(tài)特征信息;第二前置網(wǎng)絡(luò)由多個卷積層組成,用于提取多個時刻連續(xù)的混合地形語義特征圖的地形語義信息以及多個時刻連續(xù)的地形深度圖的地形幾何信息;全連接層用于對第一前置網(wǎng)絡(luò)傳遞的多個時刻連續(xù)的狀態(tài)特征信息以及第二前置網(wǎng)絡(luò)傳遞的多個時刻的地形語義信息和地形幾何信息進行融合處理得到序列融合特征;長短時記憶網(wǎng)絡(luò)用于提取序列融合特征中的依賴關(guān)系得到時序特征;所述輸出層用于基于時序特征進行軌跡預(yù)測以獲取目標規(guī)劃軌跡。
7、在本發(fā)明的一些實施例中,所述策略網(wǎng)絡(luò)被配置為按照如下方式訓(xùn)練:基于已有的路徑數(shù)據(jù)構(gòu)建訓(xùn)練集,其中,訓(xùn)練集包括多個序列數(shù)據(jù),每個序列數(shù)據(jù)有對應(yīng)的標準規(guī)劃軌跡,每個序列數(shù)據(jù)包括多個時刻連續(xù)的rgb地形圖像、對應(yīng)的地形深度圖和行進狀態(tài);采用感知處理模塊對每個序列數(shù)據(jù)中的多個時刻連續(xù)的rgb地形圖像進行處理以獲取該序列數(shù)據(jù)中每個時刻的混合地形語義特征圖,以處理后的多個序列數(shù)據(jù)作為策略網(wǎng)絡(luò)的輸入、目標規(guī)劃軌跡為輸出進行多輪訓(xùn)練,并基于預(yù)設(shè)訓(xùn)練目標來更新策略網(wǎng)絡(luò)的參數(shù)。
8、優(yōu)選的,所述預(yù)設(shè)訓(xùn)練目標為:
9、
10、其中,表示策略網(wǎng)絡(luò);θ表示策略網(wǎng)絡(luò)的參數(shù);t表示時間長度;t表示時刻;γt表示折扣系數(shù);r(·)表示獎勵函數(shù);xt表示序列數(shù)據(jù);qt表示序列數(shù)據(jù)xt對應(yīng)的標準規(guī)劃軌跡;表示執(zhí)行標準規(guī)劃軌跡所獲得的總獎勵;qt′表示策略網(wǎng)絡(luò)基于序列數(shù)據(jù)xt得到的目標規(guī)劃軌跡;表示執(zhí)行目標規(guī)劃軌跡所獲得的總獎勵;dkl(πθ||πβ)表示πθ與πβ之間的kl散度,πθ表示更新前的策略網(wǎng)絡(luò),πβ表示以πθ為基準更新多次后的策略網(wǎng)絡(luò);∈表示超參數(shù)。
11、在本發(fā)明的一些實施例中,所述系統(tǒng)還包括:自糾正模塊,用于收集行進目標按照目標規(guī)劃軌跡運動后得到的與對應(yīng)目標規(guī)劃軌跡之間的歐幾里得距離大于等于預(yù)設(shè)距離閾值的所有實際運動軌跡作為糾正軌跡集合,并將糾正軌跡集合傳遞給所述軌跡規(guī)劃模塊以使軌跡規(guī)劃模塊上配置的策略網(wǎng)絡(luò)基于糾正軌跡集合進行重訓(xùn)練,其中,歐幾里得距離用于衡量實際運動軌跡與其對應(yīng)的目標規(guī)劃軌跡之間的相似程度。
12、在本發(fā)明的一些實施例中,所述策略網(wǎng)絡(luò)被配置為按照如下方式進行重訓(xùn)練:將糾正軌跡集合中每一個實際運動軌跡對應(yīng)的目標規(guī)劃軌跡對應(yīng)的多個時刻的rgb地形圖像、地形深度圖和行進狀態(tài)作為重訓(xùn)練序列數(shù)據(jù),并將該實際運動軌跡作為其對應(yīng)重訓(xùn)練序列數(shù)據(jù)的標準運動軌跡,所有的重訓(xùn)練序列數(shù)據(jù)及其對應(yīng)的標準運動軌跡構(gòu)成重訓(xùn)練數(shù)據(jù)集;采用感知處理模塊對重訓(xùn)練數(shù)據(jù)集中每個重訓(xùn)練序列數(shù)據(jù)中多個時刻的rgb地形圖像進行處理以獲取每個時刻的混合地形語義特征圖,以處理后的多個重訓(xùn)練序列數(shù)據(jù)作為輸入、新的目標規(guī)劃軌跡為輸出進行多輪訓(xùn)練,并基于新的訓(xùn)練目標來更新策略網(wǎng)絡(luò)的參數(shù)。
13、優(yōu)選的,所述新的訓(xùn)練目標為:
14、
15、其中,表示重訓(xùn)練后的策略網(wǎng)絡(luò),ct表示重訓(xùn)練序列數(shù)據(jù),kt表示重訓(xùn)練序列數(shù)據(jù)ct對應(yīng)的標準運動軌跡,r(ct,kt)表示執(zhí)行標準運動軌跡所獲得的獎勵,kt′表示策略網(wǎng)絡(luò)基于重訓(xùn)練序列數(shù)據(jù)ct得到的新的目標規(guī)劃軌跡,r(ct,kt′)表示執(zhí)行新的目標規(guī)劃軌跡所獲得的獎勵,α表示標準運動軌跡與新的目標規(guī)劃軌跡之間的歐幾里得距離。
16、根據(jù)本發(fā)明的第二方面,提供一種行進目標行進控制系統(tǒng),所述系統(tǒng)包括:如本發(fā)明第一方面所述的混合地形軌跡規(guī)劃系統(tǒng),用于為在混合地形環(huán)境下為行進目標規(guī)劃行進路徑以獲取目標規(guī)劃軌跡;運動控制模塊,用于基于所述目標規(guī)劃軌跡計算行進目標執(zhí)行目標規(guī)劃軌跡時的角速度和線速度;pid控制模塊,用于基于所述運動控制模塊得到的角速度和線速度控制行進目標按照目標規(guī)劃軌跡運動。
17、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:(1)對rgb圖像進行多標簽地形分類的方式來獲取更加全面的地形信息,以此來避免地形信息提取不足所導(dǎo)致的關(guān)鍵信息丟失問題;(2)采用離線元強化學(xué)習(xí)的方式來訓(xùn)練策略網(wǎng)絡(luò),避免了在線訓(xùn)練時與現(xiàn)實世界交互所面臨的危險規(guī)劃,同時元強化學(xué)習(xí)能夠為不同地形類型分別建立最優(yōu)的規(guī)劃策略,通過將不同地形上的規(guī)劃任務(wù)作為不同元任務(wù)來訓(xùn)練一個可以應(yīng)對復(fù)雜多變的地形環(huán)境的策略網(wǎng)絡(luò);(3)設(shè)置自糾正模塊來實現(xiàn)策略網(wǎng)絡(luò)的自我修正和優(yōu)化,使策略網(wǎng)絡(luò)在復(fù)雜多變的地形環(huán)境中保持較好的適應(yīng)性和穩(wěn)定性。