一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法

文檔序號(hào)：40393140發(fā)布日期：2024-12-20 12:16閱讀：5來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及多機(jī)器人移動(dòng)控制，尤其是涉及一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法。

背景技術(shù)：

1、在多機(jī)器人協(xié)作系統(tǒng)中，機(jī)器人路徑規(guī)劃是一項(xiàng)重要的任務(wù)。當(dāng)前多數(shù)路徑規(guī)劃方法針對(duì)的是靜態(tài)環(huán)境下的機(jī)器人路徑規(guī)劃，即主要依據(jù)人工設(shè)定的規(guī)劃點(diǎn)或路徑來進(jìn)行移動(dòng)控制。然而，在動(dòng)態(tài)環(huán)境下，比如有人或其他移動(dòng)物體存在的情況下，這些靜態(tài)方法將會(huì)受到很大的限制。

2、此外，在多機(jī)器人系統(tǒng)中，如果是分布式機(jī)器人系統(tǒng)，機(jī)器人之間的交互信息將急劇減小。因此，機(jī)器人有必要將其他機(jī)器人也識(shí)別為障礙物，并且根據(jù)傳感器信息獲取動(dòng)態(tài)障礙物移動(dòng)的位置和方向，當(dāng)障礙物在一定的速度范圍內(nèi)，機(jī)器人需要能夠有效避開動(dòng)態(tài)和靜態(tài)障礙物。

3、近年來，強(qiáng)化學(xué)習(xí)技術(shù)在機(jī)器人路徑規(guī)劃中得到了廣泛應(yīng)用，但在實(shí)際中還存在預(yù)測(cè)路徑不準(zhǔn)確、預(yù)測(cè)速度較低等缺陷，導(dǎo)致機(jī)器人無法快速精準(zhǔn)地實(shí)現(xiàn)避障連續(xù)移動(dòng)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，能夠循環(huán)準(zhǔn)確產(chǎn)生預(yù)測(cè)路徑，并相應(yīng)控制多機(jī)器人實(shí)現(xiàn)精準(zhǔn)避障移動(dòng)。

2、本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn)：一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，包括以下步驟：

3、s1、分別實(shí)時(shí)獲取多機(jī)器人系統(tǒng)中各機(jī)器人的周圍環(huán)境信息；

4、s2、將機(jī)器人的周圍環(huán)境信息以及機(jī)器人對(duì)應(yīng)的設(shè)定目標(biāo)點(diǎn)信息輸入預(yù)先構(gòu)建的路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)中，得到各機(jī)器人對(duì)應(yīng)的多個(gè)預(yù)測(cè)路徑點(diǎn)；

5、s3、根據(jù)各機(jī)器人對(duì)應(yīng)的多個(gè)預(yù)測(cè)路徑點(diǎn)，確定出各機(jī)器人對(duì)應(yīng)的完整預(yù)測(cè)路徑；

6、s4、基于各機(jī)器人對(duì)應(yīng)的完整預(yù)測(cè)路徑，相應(yīng)控制各機(jī)器人按照對(duì)應(yīng)的完整預(yù)測(cè)路徑發(fā)生移動(dòng)。

7、進(jìn)一步地，所述多機(jī)器人系統(tǒng)中各機(jī)器人均搭載有雷達(dá)傳感器，用于采集周圍環(huán)境信息，具體為周圍障礙物與機(jī)器人之間的距離信息。

8、進(jìn)一步地，所述步驟s1具體包括以下步驟：

9、s11、多機(jī)器人系統(tǒng)中機(jī)器人m通過其搭載的雷達(dá)傳感器采集得到信息：

10、

11、其中，為機(jī)器人m的雷達(dá)傳感器采集的第i幀信息，k為雷達(dá)傳感器的連續(xù)幀數(shù)量；

12、s12、對(duì)于每一幀傳感器信息根據(jù)雷達(dá)特性，其掃描周圍環(huán)境一周，每一角度獲得一個(gè)數(shù)據(jù)，共得到360個(gè)數(shù)據(jù)，數(shù)據(jù)記錄的是障礙物距離雷達(dá)傳感器的距離信息，障礙物距離雷達(dá)傳感器越近，則數(shù)據(jù)值越小；

13、障礙物距離雷達(dá)傳感器越遠(yuǎn)，則數(shù)據(jù)值越大；

14、即有：di表示雷達(dá)傳感器采集的第i幀距離信息；

15、s13、將雷達(dá)傳感器所有幀的距離信息匯總，得到機(jī)器人m的周圍環(huán)境信息為：

16、進(jìn)一步地，所述步驟s2中路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)具體是結(jié)合ppo(proximal?policyoptimization，近端策略優(yōu)化)算法以及馬爾可夫模型構(gòu)建得到，構(gòu)建過程包括：

17、搭建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，將周圍環(huán)境信息映射至輸入層，經(jīng)過多層非線性變化后輸出機(jī)器人的行動(dòng)信息；

18、根據(jù)獎(jiǎng)勵(lì)函數(shù)的反饋信息，迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)，以獲得最優(yōu)獎(jiǎng)勵(lì)值對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)，即為路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)。

19、進(jìn)一步地，所述獎(jiǎng)勵(lì)函數(shù)包括第一獎(jiǎng)勵(lì)和第二獎(jiǎng)勵(lì)，所述第一獎(jiǎng)勵(lì)用于評(píng)判預(yù)測(cè)路徑是否使機(jī)器人距離對(duì)應(yīng)的設(shè)定目標(biāo)點(diǎn)更近，即使機(jī)器人能朝向?qū)?yīng)的設(shè)定目標(biāo)點(diǎn)移動(dòng)；

20、所述第二獎(jiǎng)勵(lì)用于評(píng)判預(yù)測(cè)路徑是否與障礙物碰撞。

21、進(jìn)一步地，所述第一獎(jiǎng)勵(lì)的計(jì)算公式具體為：

22、

23、其中，ds為完整預(yù)測(cè)路徑最后一個(gè)路徑點(diǎn)qs與機(jī)器人設(shè)定目標(biāo)點(diǎn)t之間的距離，dt為機(jī)器人設(shè)定目標(biāo)點(diǎn)t與機(jī)器人當(dāng)前所在位置之間的距離，條件not?reach表示未到達(dá)目標(biāo)點(diǎn)，條件reach?goal表示已經(jīng)到達(dá)目標(biāo)點(diǎn)。

24、進(jìn)一步地，所述第二獎(jiǎng)勵(lì)的計(jì)算公式具體為：

25、

26、其中，條件safe表示完整預(yù)測(cè)路徑上所有路徑點(diǎn)與其他障礙物的安全范圍均沒有交集，條件else表示除條件safe以外的其他情況、即表示預(yù)測(cè)路徑與障礙物發(fā)生碰撞。

27、進(jìn)一步地，所述步驟s2中得到機(jī)器人對(duì)應(yīng)的多個(gè)預(yù)測(cè)路徑點(diǎn)的具體過程為：

28、將機(jī)器人當(dāng)前位置、機(jī)器人的周圍環(huán)境信息以及機(jī)器人對(duì)應(yīng)的設(shè)定目標(biāo)點(diǎn)信息輸入路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)，輸出得到第一個(gè)預(yù)測(cè)路徑點(diǎn)；

29、再將第一個(gè)預(yù)測(cè)路徑點(diǎn)、機(jī)器人的周圍環(huán)境信息以及機(jī)器人對(duì)應(yīng)的設(shè)定目標(biāo)點(diǎn)信息輸入路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)，輸出得到第二個(gè)預(yù)測(cè)路徑點(diǎn)，再依次循環(huán)操作得到多個(gè)預(yù)測(cè)路徑點(diǎn)。

30、進(jìn)一步地，所述預(yù)測(cè)路徑點(diǎn)的信息包括位移和轉(zhuǎn)動(dòng)角度，所述位移具體是指機(jī)器人前一個(gè)位置點(diǎn)與當(dāng)前預(yù)測(cè)路徑點(diǎn)之間的位移；

31、所述轉(zhuǎn)動(dòng)角度具體是指機(jī)器人前一個(gè)位置點(diǎn)移動(dòng)到當(dāng)前預(yù)測(cè)路徑點(diǎn)所需轉(zhuǎn)動(dòng)的角度。

32、進(jìn)一步地，所述步驟s3中具體是將多個(gè)預(yù)測(cè)路徑點(diǎn)按順序通過曲線優(yōu)化后得到一條連續(xù)可導(dǎo)的圓弧型路徑，即為完整預(yù)測(cè)路徑。

33、與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點(diǎn)：

34、一、本發(fā)明通過實(shí)時(shí)獲取多機(jī)器人系統(tǒng)中各機(jī)器人的周圍環(huán)境信息，再結(jié)合構(gòu)建的路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)，以得到各機(jī)器人對(duì)應(yīng)的多個(gè)預(yù)測(cè)路徑點(diǎn)，基于此確定出各機(jī)器人對(duì)應(yīng)的完整預(yù)測(cè)路徑，再相應(yīng)控制各機(jī)器人按照對(duì)應(yīng)的完整預(yù)測(cè)路徑發(fā)生移動(dòng)。由此能夠?qū)崟r(shí)動(dòng)態(tài)循環(huán)生成對(duì)應(yīng)于單個(gè)機(jī)器人的完整預(yù)測(cè)路徑，使得各機(jī)器人均能夠按照相應(yīng)預(yù)測(cè)路徑移動(dòng)至對(duì)應(yīng)設(shè)定目標(biāo)點(diǎn)，并且能夠避開周圍所有障礙物。

35、二、本發(fā)明結(jié)合ppo算法以及馬爾可夫模型，并設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，通過迭代訓(xùn)練的方式，以構(gòu)建得到路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)，其中，獎(jiǎng)勵(lì)函數(shù)采用預(yù)測(cè)路徑與目標(biāo)點(diǎn)之間距離、障礙物避免程度作為評(píng)估指標(biāo)，由此一方面能夠加快預(yù)測(cè)路徑生成速度，另一方面能夠提高生成預(yù)測(cè)路徑的準(zhǔn)確性，使得機(jī)器人能夠精準(zhǔn)避開周圍所有障礙物、且朝著對(duì)應(yīng)設(shè)定目標(biāo)點(diǎn)發(fā)生移動(dòng)。

36、三、本發(fā)明利用雷達(dá)傳感器采集機(jī)器人的周圍環(huán)境信息，能夠采集得到機(jī)器人周圍360個(gè)角度的信息，有利于后續(xù)生成預(yù)測(cè)路徑時(shí)能夠精準(zhǔn)避開周圍所有障礙物。

37、四、本發(fā)明利用路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)來循環(huán)生成多個(gè)預(yù)測(cè)路徑點(diǎn)，其中，每個(gè)預(yù)測(cè)路徑點(diǎn)的信息包括機(jī)器人前一個(gè)位置點(diǎn)與當(dāng)前預(yù)測(cè)路徑點(diǎn)之間的位移、機(jī)器人前一個(gè)位置點(diǎn)移動(dòng)到當(dāng)前預(yù)測(cè)路徑點(diǎn)所需轉(zhuǎn)動(dòng)的角度，之后通過曲線優(yōu)化的方式，得到由圓弧路徑組成的完整預(yù)測(cè)路徑，確保多機(jī)器人系統(tǒng)中各機(jī)器人能夠根據(jù)自身的完整預(yù)測(cè)路徑，動(dòng)態(tài)避開障礙物后到達(dá)設(shè)定目標(biāo)點(diǎn)。

技術(shù)特征：

1.一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，所述多機(jī)器人系統(tǒng)中各機(jī)器人均搭載有雷達(dá)傳感器，用于采集周圍環(huán)境信息，具體為周圍障礙物與機(jī)器人之間的距離信息。

3.根據(jù)權(quán)利要求2所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，所述步驟s1具體包括以下步驟：

4.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，所述步驟s2中路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)具體是結(jié)合ppo算法以及馬爾可夫模型構(gòu)建得到，構(gòu)建過程包括：

5.根據(jù)權(quán)利要求4所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，所述獎(jiǎng)勵(lì)函數(shù)包括第一獎(jiǎng)勵(lì)和第二獎(jiǎng)勵(lì)，所述第一獎(jiǎng)勵(lì)用于評(píng)判預(yù)測(cè)路徑是否使機(jī)器人距離對(duì)應(yīng)的設(shè)定目標(biāo)點(diǎn)更近，即使機(jī)器人能朝向?qū)?yīng)的設(shè)定目標(biāo)點(diǎn)移動(dòng)；

6.根據(jù)權(quán)利要求5所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，所述第一獎(jiǎng)勵(lì)的計(jì)算公式具體為：

7.根據(jù)權(quán)利要求5所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，所述第二獎(jiǎng)勵(lì)的計(jì)算公式具體為：

8.根據(jù)權(quán)利要求4所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，所述步驟s2中得到機(jī)器人對(duì)應(yīng)的多個(gè)預(yù)測(cè)路徑點(diǎn)的具體過程為：

9.根據(jù)權(quán)利要求8所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，所述預(yù)測(cè)路徑點(diǎn)的信息包括位移和轉(zhuǎn)動(dòng)角度，所述位移具體是指機(jī)器人前一個(gè)位置點(diǎn)與當(dāng)前預(yù)測(cè)路徑點(diǎn)之間的位移；

10.根據(jù)權(quán)利要求1～9任一所述的一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，其特征在于，所述步驟s3中具體是將多個(gè)預(yù)測(cè)路徑點(diǎn)按順序通過曲線優(yōu)化后得到一條連續(xù)可導(dǎo)的圓弧型路徑，即為完整預(yù)測(cè)路徑。

技術(shù)總結(jié)
本發(fā)明涉及一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法，包括以下步驟：分別實(shí)時(shí)獲取多機(jī)器人系統(tǒng)中各機(jī)器人的周圍環(huán)境信息；將機(jī)器人的周圍環(huán)境信息以及機(jī)器人對(duì)應(yīng)的設(shè)定目標(biāo)點(diǎn)信息輸入預(yù)先構(gòu)建的路徑預(yù)測(cè)循環(huán)網(wǎng)絡(luò)中，得到各機(jī)器人對(duì)應(yīng)的多個(gè)預(yù)測(cè)路徑點(diǎn)；根據(jù)各機(jī)器人對(duì)應(yīng)的多個(gè)預(yù)測(cè)路徑點(diǎn)，確定出各機(jī)器人對(duì)應(yīng)的完整預(yù)測(cè)路徑；基于各機(jī)器人對(duì)應(yīng)的完整預(yù)測(cè)路徑，相應(yīng)控制各機(jī)器人按照對(duì)應(yīng)的完整預(yù)測(cè)路徑發(fā)生移動(dòng)。與現(xiàn)有技術(shù)相比，本發(fā)明能夠循環(huán)快速地產(chǎn)生準(zhǔn)確的預(yù)測(cè)路徑，并相應(yīng)控制多機(jī)器人實(shí)現(xiàn)精準(zhǔn)避障移動(dòng)，確保多機(jī)器人系統(tǒng)中各機(jī)器人均能夠在動(dòng)態(tài)環(huán)境下避開周圍所有障礙物后移動(dòng)至對(duì)應(yīng)目標(biāo)點(diǎn)。

技術(shù)研發(fā)人員：李偉,張隆源,王冀,朱繼偉
受保護(hù)的技術(shù)使用者：復(fù)旦大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李偉,張隆源,王冀,朱繼偉
技術(shù)所有人：復(fù)旦大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于強(qiáng)化學(xué)習(xí)的分布式多機(jī)器人系統(tǒng)移動(dòng)控制方法