一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法和裝置

文檔序號(hào)：40394957發(fā)布日期：2024-12-20 12:18閱讀：12來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>五金工具產(chǎn)品及配附件制造技術(shù)

一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法和裝置

本發(fā)明涉及多機(jī)械臂系統(tǒng)協(xié)同控制，特別涉及一種基于深度確定性策略梯度算法的多機(jī)械臂再生物品分揀控制方法和裝置。

背景技術(shù)：

1、隨著人口的增長(zhǎng)和城市化的加速，垃圾分類處理已成為環(huán)境保護(hù)和資源回收利用的重要課題。傳統(tǒng)的垃圾分類方式主要依賴于人工分揀，但這種方式效率低、成本高，難以滿足大規(guī)模垃圾處理的需求。隨著科技的進(jìn)步，機(jī)械分選、氣吹分選和光學(xué)分選等技術(shù)被廣泛的應(yīng)用，其顯著提升了分類的效率和準(zhǔn)確性，為實(shí)現(xiàn)綠色環(huán)保的社會(huì)目標(biāo)提供堅(jiān)實(shí)的技術(shù)支持。

2、在機(jī)械臂分揀領(lǐng)域，精確的控制直接影響整個(gè)分揀系統(tǒng)的可靠性和穩(wěn)定性。傳統(tǒng)控制方法如比例積分微分(proportional?integral?derivative，pid)控制和計(jì)算力矩控制往往依賴于精確的系統(tǒng)模型和參數(shù)，難以應(yīng)對(duì)非線性、耦合等復(fù)雜的系統(tǒng)特性。近年來，隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，其中，深度確定性策略梯度(deep?deterministic?policygradient,，ddpg)算法作為一種兼具深度神經(jīng)網(wǎng)絡(luò)和確定性策略梯度優(yōu)化的深度強(qiáng)化學(xué)習(xí)方法，具有在連續(xù)動(dòng)作空間中訓(xùn)練穩(wěn)定、收斂快速等優(yōu)點(diǎn)，被廣泛應(yīng)用于機(jī)械臂的控制領(lǐng)域。

3、盡管ddpg算法在單機(jī)械臂的精確控制和任務(wù)執(zhí)行上取得了顯著進(jìn)展，然而，當(dāng)涉及到多機(jī)械臂協(xié)同作業(yè)，特別是在再生物品分揀這類復(fù)雜且動(dòng)態(tài)的任務(wù)時(shí)，ddpg算法的應(yīng)用相對(duì)較少，且面臨著一系列挑戰(zhàn)。首先，多機(jī)械臂系統(tǒng)涉及到的不僅是單臂的獨(dú)立控制策略，還包括它們之間的互動(dòng)和協(xié)調(diào)機(jī)制。其次，ddpg算法雖然在處理連續(xù)動(dòng)作空間問題上有優(yōu)勢(shì)，但它也存在一些固有的缺點(diǎn)。例如，在訓(xùn)練過程中往往需要大量的數(shù)據(jù)來探索環(huán)境，而這些數(shù)據(jù)的相關(guān)性通常較高，導(dǎo)致樣本利用率不高。這種數(shù)據(jù)利用的低效率不僅延長(zhǎng)了訓(xùn)練時(shí)間，而且可能導(dǎo)致算法難以收斂到最優(yōu)策略。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要克服現(xiàn)有技術(shù)的上述缺點(diǎn)，提供一種改進(jìn)ddpg算法的多機(jī)械臂再生物品分揀控制方法，以解決傳統(tǒng)ddpg算法在多機(jī)械臂再生物品分揀任務(wù)中存在的獎(jiǎng)勵(lì)稀疏、經(jīng)驗(yàn)池采樣效率低下、狀態(tài)空間存在長(zhǎng)期依賴關(guān)系以及多機(jī)械臂協(xié)作沖突等問題。

2、本發(fā)明的第一個(gè)方面提供的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法，包括以下步驟：

3、步驟1，目標(biāo)確定：確定機(jī)械臂需要夾取的目標(biāo)物品，例如塑料瓶，以及待夾取目標(biāo)的具體位置和姿態(tài)；

4、步驟2，基于ddpg算法構(gòu)建改進(jìn)型ddpg網(wǎng)絡(luò)結(jié)構(gòu)，得到rnn-maddpg多機(jī)械臂再生物品分揀控制算法；

5、進(jìn)一步地，所述的rnn-maddpg算法改進(jìn)部分主要分為以下.三個(gè)部分，分別是算法網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)、經(jīng)驗(yàn)回放池設(shè)計(jì)；

6、步驟a：增加序列數(shù)據(jù)依賴關(guān)系檢測(cè)，將ddpg算法策略網(wǎng)絡(luò)架構(gòu)中普通全連接層神經(jīng)網(wǎng)絡(luò)替換成rnn循環(huán)神經(jīng)網(wǎng)絡(luò)。在多機(jī)械臂的協(xié)同作業(yè)中，每個(gè)臂的動(dòng)作不僅取決于當(dāng)前的環(huán)境狀態(tài)，還受到之前動(dòng)作和狀態(tài)的影響，rnn能夠捕捉并利用這些時(shí)間序列信息，從而更好地預(yù)測(cè)下一步的最優(yōu)動(dòng)作，更好的指導(dǎo)機(jī)械臂的抓取策略。

7、步驟b：在ddpg算法評(píng)價(jià)網(wǎng)絡(luò)架構(gòu)中引入一對(duì)多判別架構(gòu)，以適應(yīng)多機(jī)械臂系統(tǒng)的訓(xùn)練。一對(duì)多的判別架構(gòu)允許單個(gè)評(píng)價(jià)網(wǎng)絡(luò)針對(duì)不同的機(jī)械臂輸出各自的價(jià)值評(píng)估，這種結(jié)構(gòu)使得網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)多個(gè)任務(wù)(在這里指每個(gè)機(jī)械臂的控制策略)，從而在一個(gè)共享的網(wǎng)絡(luò)結(jié)構(gòu)中捕捉不同機(jī)械臂行為的共性和個(gè)性，能解決多智能體環(huán)境中的協(xié)作和競(jìng)爭(zhēng)問題。

8、步驟c：提出一種多獎(jiǎng)勵(lì)策略融合的復(fù)合獎(jiǎng)勵(lì)函數(shù)，該方法設(shè)計(jì)了一種多機(jī)械臂再生物品分揀場(chǎng)景下的復(fù)合獎(jiǎng)勵(lì)函數(shù)r，所述獎(jiǎng)勵(lì)函數(shù)由三部分組成，分別考慮了機(jī)械臂末端位置與目標(biāo)物體的距離、機(jī)械臂末端執(zhí)行器的夾取方向與目標(biāo)物體姿態(tài)的適應(yīng)度以及機(jī)械臂的避障情況，降低ddpg算法在垃圾分揀機(jī)械臂分揀場(chǎng)景下的獎(jiǎng)勵(lì)稀疏問題，為機(jī)械臂提供更及時(shí)、更豐富的反饋信號(hào)，降低多機(jī)械臂系統(tǒng)訓(xùn)練時(shí)間。

9、步驟d：改進(jìn)經(jīng)驗(yàn)池采樣機(jī)制，在原有ddpg算法單經(jīng)驗(yàn)池的基礎(chǔ)上，引入一種雙池經(jīng)驗(yàn)回放機(jī)制，增大經(jīng)驗(yàn)池的容量，為均勻取樣提供了足夠的數(shù)據(jù)支撐，同時(shí)與原有ddpg算法經(jīng)驗(yàn)池隨機(jī)取樣相結(jié)合，此方法降低樣本間的相關(guān)性，提高樣本利用率，增強(qiáng)學(xué)習(xí)過程的多樣性和穩(wěn)定性。

10、步驟3，虛擬仿真訓(xùn)練：再生物品分揀機(jī)械臂先在虛擬環(huán)境中隨機(jī)執(zhí)行抓取動(dòng)作,并記錄機(jī)械臂的狀態(tài)及感知值，完成樣本收集，當(dāng)經(jīng)驗(yàn)池填滿之后開始參數(shù)訓(xùn)練。結(jié)合步驟1中得到的感知數(shù)據(jù)訓(xùn)練步驟2中的rnn-maddpg多機(jī)械臂再生物品分揀控制算法，每回合試驗(yàn)中存在交互過程與參數(shù)更新同時(shí)進(jìn)行的情況，直至完成所有網(wǎng)絡(luò)參數(shù)的更新。經(jīng)過訓(xùn)練，各網(wǎng)絡(luò)參數(shù)獲得更新，獲得最大期望獎(jiǎng)勵(lì)回報(bào)與最優(yōu)策略。

11、步驟4，分揀任務(wù)執(zhí)行：使用訓(xùn)練好的ddpg算法，將該算法部署到實(shí)際的多機(jī)械臂再生物品分揀任務(wù)中，監(jiān)控機(jī)械臂的執(zhí)行情況，并根據(jù)需要進(jìn)行調(diào)整和改進(jìn)。

12、本發(fā)明的第二個(gè)方面涉及一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制裝置，包括存儲(chǔ)器和一個(gè)或多個(gè)處理器，所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼，所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí)，用于實(shí)現(xiàn)本發(fā)明的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法。

13、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有程序，該程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)本發(fā)明的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法。

14、本發(fā)明包括：獲取目標(biāo)物體和多機(jī)械臂系統(tǒng)狀態(tài)信息；構(gòu)建深度確定性策略梯度(deep?deterministic?policy?gradient,，ddpg)算法網(wǎng)絡(luò)架構(gòu)、設(shè)置經(jīng)驗(yàn)回放池、智能體獎(jiǎng)勵(lì)函數(shù)；部署到真實(shí)分揀環(huán)境進(jìn)行運(yùn)動(dòng)指導(dǎo)。其中，該方法在ddpg算法策略網(wǎng)絡(luò)架構(gòu)中使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent?neural?network，rnn)作為主干特征提取網(wǎng)絡(luò)，以捕捉輸入數(shù)據(jù)的長(zhǎng)期依賴關(guān)系，更好的指導(dǎo)機(jī)械臂的抓取策略；在評(píng)價(jià)網(wǎng)絡(luò)架構(gòu)中引入一對(duì)多判別架構(gòu)，以適應(yīng)多機(jī)械臂系統(tǒng)的訓(xùn)練；提出了一種復(fù)合獎(jiǎng)勵(lì)函數(shù)和雙池經(jīng)驗(yàn)回放機(jī)制，為機(jī)械臂提供更及時(shí)、更豐富的反饋信號(hào)，降低了數(shù)據(jù)相關(guān)性，提高樣本利用率，提高多機(jī)械臂再生物品分揀的成功率和效率。

15、本發(fā)明的有益效果：通過使用rnn循環(huán)神經(jīng)網(wǎng)絡(luò)作為ddpg算法中策略網(wǎng)絡(luò)主干特征提取網(wǎng)絡(luò)，使該方法在訓(xùn)練機(jī)械臂時(shí)其能夠有效捕捉狀態(tài)空間中的長(zhǎng)期依賴關(guān)系，更好的指導(dǎo)機(jī)械臂的抓取策略；改進(jìn)ddpg算法評(píng)價(jià)網(wǎng)絡(luò)，引入一對(duì)多判別架構(gòu)，以適應(yīng)多機(jī)械臂系統(tǒng)的訓(xùn)練；設(shè)計(jì)了一種適用于多機(jī)械臂協(xié)作控制的復(fù)合獎(jiǎng)勵(lì)函數(shù)和雙池經(jīng)驗(yàn)回放機(jī)制，為機(jī)械臂提供更及時(shí)、更豐富的反饋信號(hào)，降低了數(shù)據(jù)相關(guān)性，提高樣本利用率，提高多機(jī)械臂再生物品分揀的成功率和效率。

技術(shù)特征：

1.一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法，包括如下步驟：

2.如權(quán)利要求1所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法，其特征在于，步驟1具體包括：

3.如權(quán)利要求1所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法，其特征在于，步驟2具體包括：所述的rnn-maddpg算法構(gòu)建包括：網(wǎng)絡(luò)架構(gòu)、狀態(tài)集、動(dòng)作集、獎(jiǎng)勵(lì)函數(shù)、經(jīng)驗(yàn)回放池；具體包括：

4.如權(quán)利要求1所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法，其特征在于，步驟2.5中，在經(jīng)過十回合的訓(xùn)練后，計(jì)算十回合的平均q值，采用了爬山法動(dòng)態(tài)調(diào)整隨機(jī)采樣與均勻采樣的比例。

5.如權(quán)利要求1所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法，其特征在于，步驟3中rnn-maddpg算法訓(xùn)練過程如下：

6.一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制裝置，其特征在于，包括存儲(chǔ)器和一個(gè)或多個(gè)處理器，所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼，所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí)，用于實(shí)現(xiàn)權(quán)利要求1-5中任一項(xiàng)所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法。

7.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，其上存儲(chǔ)有程序，該程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)權(quán)利要求1-5中任一項(xiàng)所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法。

技術(shù)總結(jié)
一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法和裝置，其方法包括：獲取目標(biāo)物體和多機(jī)械臂系統(tǒng)狀態(tài)信息；構(gòu)建深度確定性策略梯度(Deep?Deterministic?Policy?Gradient,DDPG)算法網(wǎng)絡(luò)架構(gòu)、設(shè)置經(jīng)驗(yàn)回放池、智能體獎(jiǎng)勵(lì)函數(shù)；部署到真實(shí)分揀環(huán)境進(jìn)行運(yùn)動(dòng)指導(dǎo)。其中，該方法在DDPG算法策略網(wǎng)絡(luò)架構(gòu)中使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent?Neural?Network，RNN)作為主干特征提取網(wǎng)絡(luò)，以捕捉輸入數(shù)據(jù)的長(zhǎng)期依賴關(guān)系，更好的指導(dǎo)機(jī)械臂的抓取策略；在評(píng)價(jià)網(wǎng)絡(luò)架構(gòu)中引入一對(duì)多判別架構(gòu)，以適應(yīng)多機(jī)械臂系統(tǒng)的訓(xùn)練；提出了一種復(fù)合獎(jiǎng)勵(lì)函數(shù)和雙池經(jīng)驗(yàn)回放機(jī)制，為機(jī)械臂提供更及時(shí)、更豐富的反饋信號(hào)，降低了數(shù)據(jù)相關(guān)性，提高樣本利用率，提高多機(jī)械臂再生物品分揀的成功率和效率。

技術(shù)研發(fā)人員：董紅召,汪二毛,張利強(qiáng),熊偉,張利紅,孫梟童,潘松青
受保護(hù)的技術(shù)使用者：浙江工業(yè)大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董紅召,汪二毛,張利強(qiáng),熊偉,張利紅,孫梟童,潘松青
技術(shù)所有人：浙江工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種自動(dòng)出液按壓瓶的制作方法
上一篇：一種便于調(diào)節(jié)的廣告圖板裁切裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、平老師：1.功能涂層設(shè)計(jì)與應(yīng)用 2.柔性電子器件設(shè)計(jì)與應(yīng)用 3.結(jié)構(gòu)動(dòng)態(tài)參數(shù)測(cè)試與裝置研發(fā) 4.智能機(jī)電一體化產(chǎn)品研發(fā) 5.3D打印工藝與設(shè)備
2、潘老師：1.機(jī)電一體化裝備及其控制技術(shù) 2.多傳感器信息融合與質(zhì)量評(píng)定
3、王老師：機(jī)械制造
4、袁老師：1.薄膜氣敏傳感器 2.薄膜太陽(yáng)能電池
5、李老師：新型電力電子技術(shù)在微網(wǎng)中的應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法和裝置