本發(fā)明涉及一種面向多智能體路徑規(guī)劃的分層協(xié)同深度強化學(xué)習(xí)決策方法,屬于多智能體路徑規(guī)劃。
背景技術(shù):
1、深度強化學(xué)習(xí)(deep?reinforcement?learning,drl)是將深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合的一種算法,用于實現(xiàn)從原始輸入到輸出的端到端控制,根據(jù)當(dāng)前智能體的狀態(tài)和行為,優(yōu)化策略,在完成任務(wù)的同時達(dá)到最佳性能。因此,drl被認(rèn)為是解決多智能體路徑規(guī)劃(multi-agentpath?finding,mapf)問題的有效方法。mapf涉及到多個智能體執(zhí)行任務(wù)期間能夠在同一環(huán)境下尋找到達(dá)目標(biāo)的最佳路徑。然而,現(xiàn)有的mapf研究大多集中在路徑規(guī)劃本身,而忽略了與任務(wù)資源分配相關(guān)的要求,特別是在倉儲環(huán)境中。在這樣的環(huán)境中,智能體首先需要接受系統(tǒng)進(jìn)行的資源任務(wù)分配,然后進(jìn)行規(guī)劃路徑,以滿足實際需求并提高整體效率。當(dāng)前的研究往往無法很好地解決這一問題,導(dǎo)致實際應(yīng)用中存在資源浪費和效率低下的情況。此外,基于多智能體drl的研究也面臨著系統(tǒng)狀態(tài)不穩(wěn)定的挑戰(zhàn)。每個智能體僅具有局部視野,其他智能體都處于動態(tài)的情況,每個智能體的局部信息會同時發(fā)生變化,從而影響個體決策的準(zhǔn)確性和一致性。隨著智能體數(shù)量的增加,系統(tǒng)的復(fù)雜性增加,智能體之間的相互作用會導(dǎo)致整個系統(tǒng)的行為變得不穩(wěn)定。系統(tǒng)的非穩(wěn)定性進(jìn)一步造成多智能體協(xié)同困難,導(dǎo)致系統(tǒng)資源利用率低,執(zhí)行效率低等問題。
2、有鑒于此,特提出本發(fā)明。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種面向多智能體路徑規(guī)劃的分層協(xié)同深度強化學(xué)習(xí)決策方法,以用于構(gòu)建基于ppo的分層協(xié)同決策模型,以解決現(xiàn)有深度強化學(xué)習(xí)方法在環(huán)境中進(jìn)行路徑規(guī)劃任務(wù)時面臨的挑戰(zhàn)。
2、本發(fā)明的技術(shù)方案是:
3、一種面向多智能體路徑規(guī)劃的分層協(xié)同深度強化學(xué)習(xí)決策方法,包括:通過底層任務(wù)分配決策模塊和以ppo為框架的上層行為決策模塊構(gòu)建基于ppo的分層協(xié)同決策模型;以環(huán)境rgb圖像數(shù)據(jù)、任務(wù)請求以及觀測信息作為基于ppo的分層協(xié)同決策模型的輸入;其中,觀測信息包括底層觀測信息、上層觀測信息;通過不斷訓(xùn)練基于ppo的分層協(xié)同決策模型,獲得多智能體系統(tǒng)最優(yōu)控制策略。
4、各智能體底層觀測信息轉(zhuǎn)化為dec-pomdp過程,表達(dá)式為:其中,表示t時刻的底層狀態(tài);表示智能體決定是否接受任務(wù)請求的底層決策動作;為智能體執(zhí)行底層決策動作動作后使得狀態(tài)變化的轉(zhuǎn)換函數(shù);表示底層任務(wù)分配決策下智能體的視野,v表示可見的環(huán)境地圖,e表示距離權(quán)重集合;為t時刻執(zhí)行底層決策后的預(yù)期獎勵。
5、各智能體上層觀測信息轉(zhuǎn)化為dec-pomdp過程,表達(dá)式為:其中,表示t時刻的上層狀態(tài)的狀態(tài)集合;表示t時刻智能體的可執(zhí)行的上層決策動作的動作集合;為智能體執(zhí)行上層決策動作后狀態(tài)發(fā)生變化的狀態(tài)轉(zhuǎn)移概率分布;表示上層行為決策模塊中智能體的視野;為t時刻執(zhí)行上層決策后的預(yù)期獎勵。
6、所述基于ppo的分層協(xié)同決策模型依據(jù)熵函數(shù)、具有分層決策獎勵的集中策略網(wǎng)絡(luò)目標(biāo)函數(shù)和具有分層決策獎勵的集中價值網(wǎng)絡(luò)目標(biāo)函數(shù)構(gòu)建的損失函數(shù)。
7、所述損失函數(shù),表達(dá)式為:
8、
9、其中,lp(θ)表示具有分層決策獎勵的集中策略網(wǎng)絡(luò)目標(biāo)函數(shù),表示具有分層決策獎勵的集中價值網(wǎng)絡(luò)目標(biāo)函數(shù),c1和c2分別為具有分層決策獎勵的集中價值網(wǎng)絡(luò)目標(biāo)函數(shù)和熵函數(shù)ls(θ)的權(quán)重系數(shù)。
10、所述具有分層決策獎勵的集中策略網(wǎng)絡(luò)目標(biāo)函數(shù),表達(dá)式為:
11、
12、其中,lp(θ)表示具有分層決策獎勵的集中策略網(wǎng)絡(luò)目標(biāo)函數(shù),θ為集中策略網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);j表示智能體數(shù)量;t表示離散時間步總數(shù);min表示取最小值函數(shù);ε表示裁剪因子,ξ代表重要性采樣比例;clip()表示裁剪函數(shù),表示智能體j在t時刻的具有分層決策獎勵的優(yōu)勢估計量。
13、所述具有分層決策獎勵的優(yōu)勢估計量,表達(dá)式為:
14、
15、其中,l表示優(yōu)勢估計量的估計步長,表示智能體j在t時刻估計步長為l時的具有分層決策獎勵的值函數(shù)估計值誤差;λ為平滑因子;γ∈[0,1]為折扣因子。
16、所述具有分層決策獎勵的值函數(shù)估計值誤差,表達(dá)式為:
17、
18、其中,為智能體j在t時刻的分層決策獎勵;為智能體j在t+1時刻,上層狀態(tài)為2st+1時采用舊價值函數(shù)時的價值估計值;為智能體j在t時刻,上層狀態(tài)為2st時采用舊價值函數(shù)時的價值估計值;為智能體j在t時刻對t+1時刻具有分層決策獎勵的預(yù)測值。
19、所述具有分層決策獎勵的集中價值網(wǎng)絡(luò)目標(biāo)函數(shù),表達(dá)式為:
20、
21、其中,表示具有分層決策獎勵的集中價值網(wǎng)絡(luò)目標(biāo)函數(shù);為集中價值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);j表示智能體數(shù)量;t表示離散時間步總數(shù);min表示取最小值函數(shù);clip()表示裁剪函數(shù);為智能體j在t時刻,上層狀態(tài)為2st時的價值函數(shù)值;為智能體j在t時刻對t+1時刻具有分層決策獎勵的預(yù)測值;為智能體j在t時刻,上層狀態(tài)為2st時采用舊價值函數(shù)時的價值估計值;ε表示裁剪因子。
22、所述基于ppo的分層協(xié)同決策模型的訓(xùn)練,包括:初始化所有智能體的底層任務(wù)分配決策模塊、上層行為決策模塊;所有智能體與環(huán)境進(jìn)行交互,生成預(yù)設(shè)數(shù)量的底層任務(wù)分配決策模塊數(shù)據(jù)和上層行為決策模塊數(shù)據(jù),并分別存入經(jīng)驗池中;依據(jù)當(dāng)前底層狀態(tài),從經(jīng)驗池中抽取底層任務(wù)分配決策模塊數(shù)據(jù)來確定各智能體是否接受當(dāng)前任務(wù)請求并計算所有智能體底層決策后的預(yù)期獎勵,進(jìn)而得到具有任務(wù)的智能體和不具有任務(wù)的智能體;不具有任務(wù)的智能體不進(jìn)入上層行為決策模塊,具有任務(wù)的智能體進(jìn)入上層行為決策模塊;依據(jù)具有任務(wù)的智能體的當(dāng)前上層狀態(tài),從經(jīng)驗池中抽取上層行為決策模塊數(shù)據(jù)來確定各智能體的執(zhí)行動作,進(jìn)而計算各智能體具有分層決策獎勵的優(yōu)勢函數(shù);依據(jù)各智能體具有分層決策獎勵的優(yōu)勢函數(shù),計算多智能體系統(tǒng)的具有分層決策獎勵的集中策略網(wǎng)絡(luò)目標(biāo)函數(shù);依據(jù)多智能體系統(tǒng)的熵函數(shù)、具有分層決策獎勵的集中策略網(wǎng)絡(luò)目標(biāo)函數(shù)和具有分層決策獎勵的集中價值網(wǎng)絡(luò)目標(biāo)函數(shù),獲得多智能體系統(tǒng)的損失函數(shù);依據(jù)多智能體系統(tǒng)的損失函數(shù),對集中策略網(wǎng)絡(luò)和集中價值網(wǎng)絡(luò)的參數(shù)進(jìn)行更新,將更新后的集中價值網(wǎng)絡(luò)參數(shù)固定,將使用更新后的集中策略網(wǎng)絡(luò)的所有智能體繼續(xù)與環(huán)境進(jìn)行交互,并生成新的底層任務(wù)分配決策模塊數(shù)據(jù)和上層行為決策模塊數(shù)據(jù)存入經(jīng)驗池,直至達(dá)到終止條件,訓(xùn)練完成。
23、本發(fā)明的有益效果是:
24、本發(fā)明提出的多智能體路徑規(guī)劃的分層協(xié)同深度強化學(xué)習(xí)的決策方法,旨在解決現(xiàn)有深度強化學(xué)習(xí)方法在環(huán)境中進(jìn)行路徑規(guī)劃任務(wù)時面臨的挑戰(zhàn),包括與系統(tǒng)任務(wù)資源分配的斷聯(lián)性、多智能體協(xié)同困難以及系統(tǒng)非穩(wěn)定性以及造成的系統(tǒng)資源利用率差以及執(zhí)行任務(wù)期間的效率低下等問題。以下是本發(fā)明的主要優(yōu)勢:
25、高效的任務(wù)資源分配:本發(fā)明充分考慮了真實環(huán)境下環(huán)境中的任務(wù)資源分配要求,使得智能體在規(guī)劃路徑之前就能夠獲取任務(wù)資源分配信息,避免了資源浪費,提高資源利用率,從而降低了運營成本。
26、穩(wěn)定的系統(tǒng)狀態(tài):本發(fā)明通過引入了集中策略網(wǎng)絡(luò)和集中價值網(wǎng)絡(luò),使得每個智能體能夠觀察到其余智能體的狀態(tài)和行為,能夠更加穩(wěn)定地做出決策,避免了系統(tǒng)狀態(tài)的頻繁波動。這一優(yōu)勢使得整個系統(tǒng)在動態(tài)環(huán)境下能夠保持穩(wěn)定的運行,提高了系統(tǒng)的可靠性。
27、減少執(zhí)行時間:本發(fā)明提出了聯(lián)合資源按需分配與路徑規(guī)劃的聯(lián)合決策,使得所有智能體能夠更加高效地執(zhí)行任務(wù),減少任務(wù)執(zhí)行時間,提高了整個系統(tǒng)的響應(yīng)速度。
28、增強系統(tǒng)魯棒性:本發(fā)明的多智能體分層決策機制增強了系統(tǒng)在不穩(wěn)定環(huán)境下的魯棒性。每個智能體能夠根據(jù)局部信息做出穩(wěn)定的決策,降低了環(huán)境變化對系統(tǒng)穩(wěn)定性的影響,提高了系統(tǒng)的可靠性。