本發(fā)明涉及多機(jī)械臂系統(tǒng)協(xié)同控制,特別涉及一種基于深度確定性策略梯度算法的多機(jī)械臂再生物品分揀控制方法和裝置。
背景技術(shù):
1、隨著人口的增長(zhǎng)和城市化的加速,垃圾分類處理已成為環(huán)境保護(hù)和資源回收利用的重要課題。傳統(tǒng)的垃圾分類方式主要依賴于人工分揀,但這種方式效率低、成本高,難以滿足大規(guī)模垃圾處理的需求。隨著科技的進(jìn)步,機(jī)械分選、氣吹分選和光學(xué)分選等技術(shù)被廣泛的應(yīng)用,其顯著提升了分類的效率和準(zhǔn)確性,為實(shí)現(xiàn)綠色環(huán)保的社會(huì)目標(biāo)提供堅(jiān)實(shí)的技術(shù)支持。
2、在機(jī)械臂分揀領(lǐng)域,精確的控制直接影響整個(gè)分揀系統(tǒng)的可靠性和穩(wěn)定性。傳統(tǒng)控制方法如比例積分微分(proportional?integral?derivative,pid)控制和計(jì)算力矩控制往往依賴于精確的系統(tǒng)模型和參數(shù),難以應(yīng)對(duì)非線性、耦合等復(fù)雜的系統(tǒng)特性。近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,其中,深度確定性策略梯度(deep?deterministic?policygradient,,ddpg)算法作為一種兼具深度神經(jīng)網(wǎng)絡(luò)和確定性策略梯度優(yōu)化的深度強(qiáng)化學(xué)習(xí)方法,具有在連續(xù)動(dòng)作空間中訓(xùn)練穩(wěn)定、收斂快速等優(yōu)點(diǎn),被廣泛應(yīng)用于機(jī)械臂的控制領(lǐng)域。
3、盡管ddpg算法在單機(jī)械臂的精確控制和任務(wù)執(zhí)行上取得了顯著進(jìn)展,然而,當(dāng)涉及到多機(jī)械臂協(xié)同作業(yè),特別是在再生物品分揀這類復(fù)雜且動(dòng)態(tài)的任務(wù)時(shí),ddpg算法的應(yīng)用相對(duì)較少,且面臨著一系列挑戰(zhàn)。首先,多機(jī)械臂系統(tǒng)涉及到的不僅是單臂的獨(dú)立控制策略,還包括它們之間的互動(dòng)和協(xié)調(diào)機(jī)制。其次,ddpg算法雖然在處理連續(xù)動(dòng)作空間問題上有優(yōu)勢(shì),但它也存在一些固有的缺點(diǎn)。例如,在訓(xùn)練過程中往往需要大量的數(shù)據(jù)來探索環(huán)境,而這些數(shù)據(jù)的相關(guān)性通常較高,導(dǎo)致樣本利用率不高。這種數(shù)據(jù)利用的低效率不僅延長(zhǎng)了訓(xùn)練時(shí)間,而且可能導(dǎo)致算法難以收斂到最優(yōu)策略。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要克服現(xiàn)有技術(shù)的上述缺點(diǎn),提供一種改進(jìn)ddpg算法的多機(jī)械臂再生物品分揀控制方法,以解決傳統(tǒng)ddpg算法在多機(jī)械臂再生物品分揀任務(wù)中存在的獎(jiǎng)勵(lì)稀疏、經(jīng)驗(yàn)池采樣效率低下、狀態(tài)空間存在長(zhǎng)期依賴關(guān)系以及多機(jī)械臂協(xié)作沖突等問題。
2、本發(fā)明的第一個(gè)方面提供的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法,包括以下步驟:
3、步驟1,目標(biāo)確定:確定機(jī)械臂需要夾取的目標(biāo)物品,例如塑料瓶,以及待夾取目標(biāo)的具體位置和姿態(tài);
4、步驟2,基于ddpg算法構(gòu)建改進(jìn)型ddpg網(wǎng)絡(luò)結(jié)構(gòu),得到rnn-maddpg多機(jī)械臂再生物品分揀控制算法;
5、進(jìn)一步地,所述的rnn-maddpg算法改進(jìn)部分主要分為以下.三個(gè)部分,分別是算法網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)、經(jīng)驗(yàn)回放池設(shè)計(jì);
6、步驟a:增加序列數(shù)據(jù)依賴關(guān)系檢測(cè),將ddpg算法策略網(wǎng)絡(luò)架構(gòu)中普通全連接層神經(jīng)網(wǎng)絡(luò)替換成rnn循環(huán)神經(jīng)網(wǎng)絡(luò)。在多機(jī)械臂的協(xié)同作業(yè)中,每個(gè)臂的動(dòng)作不僅取決于當(dāng)前的環(huán)境狀態(tài),還受到之前動(dòng)作和狀態(tài)的影響,rnn能夠捕捉并利用這些時(shí)間序列信息,從而更好地預(yù)測(cè)下一步的最優(yōu)動(dòng)作,更好的指導(dǎo)機(jī)械臂的抓取策略。
7、步驟b:在ddpg算法評(píng)價(jià)網(wǎng)絡(luò)架構(gòu)中引入一對(duì)多判別架構(gòu),以適應(yīng)多機(jī)械臂系統(tǒng)的訓(xùn)練。一對(duì)多的判別架構(gòu)允許單個(gè)評(píng)價(jià)網(wǎng)絡(luò)針對(duì)不同的機(jī)械臂輸出各自的價(jià)值評(píng)估,這種結(jié)構(gòu)使得網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)多個(gè)任務(wù)(在這里指每個(gè)機(jī)械臂的控制策略),從而在一個(gè)共享的網(wǎng)絡(luò)結(jié)構(gòu)中捕捉不同機(jī)械臂行為的共性和個(gè)性,能解決多智能體環(huán)境中的協(xié)作和競(jìng)爭(zhēng)問題。
8、步驟c:提出一種多獎(jiǎng)勵(lì)策略融合的復(fù)合獎(jiǎng)勵(lì)函數(shù),該方法設(shè)計(jì)了一種多機(jī)械臂再生物品分揀場(chǎng)景下的復(fù)合獎(jiǎng)勵(lì)函數(shù)r,所述獎(jiǎng)勵(lì)函數(shù)由三部分組成,分別考慮了機(jī)械臂末端位置與目標(biāo)物體的距離、機(jī)械臂末端執(zhí)行器的夾取方向與目標(biāo)物體姿態(tài)的適應(yīng)度以及機(jī)械臂的避障情況,降低ddpg算法在垃圾分揀機(jī)械臂分揀場(chǎng)景下的獎(jiǎng)勵(lì)稀疏問題,為機(jī)械臂提供更及時(shí)、更豐富的反饋信號(hào),降低多機(jī)械臂系統(tǒng)訓(xùn)練時(shí)間。
9、步驟d:改進(jìn)經(jīng)驗(yàn)池采樣機(jī)制,在原有ddpg算法單經(jīng)驗(yàn)池的基礎(chǔ)上,引入一種雙池經(jīng)驗(yàn)回放機(jī)制,增大經(jīng)驗(yàn)池的容量,為均勻取樣提供了足夠的數(shù)據(jù)支撐,同時(shí)與原有ddpg算法經(jīng)驗(yàn)池隨機(jī)取樣相結(jié)合,此方法降低樣本間的相關(guān)性,提高樣本利用率,增強(qiáng)學(xué)習(xí)過程的多樣性和穩(wěn)定性。
10、步驟3,虛擬仿真訓(xùn)練:再生物品分揀機(jī)械臂先在虛擬環(huán)境中隨機(jī)執(zhí)行抓取動(dòng)作,并記錄機(jī)械臂的狀態(tài)及感知值,完成樣本收集,當(dāng)經(jīng)驗(yàn)池填滿之后開始參數(shù)訓(xùn)練。結(jié)合步驟1中得到的感知數(shù)據(jù)訓(xùn)練步驟2中的rnn-maddpg多機(jī)械臂再生物品分揀控制算法,每回合試驗(yàn)中存在交互過程與參數(shù)更新同時(shí)進(jìn)行的情況,直至完成所有網(wǎng)絡(luò)參數(shù)的更新。經(jīng)過訓(xùn)練,各網(wǎng)絡(luò)參數(shù)獲得更新,獲得最大期望獎(jiǎng)勵(lì)回報(bào)與最優(yōu)策略。
11、步驟4,分揀任務(wù)執(zhí)行:使用訓(xùn)練好的ddpg算法,將該算法部署到實(shí)際的多機(jī)械臂再生物品分揀任務(wù)中,監(jiān)控機(jī)械臂的執(zhí)行情況,并根據(jù)需要進(jìn)行調(diào)整和改進(jìn)。
12、本發(fā)明的第二個(gè)方面涉及一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制裝置,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)本發(fā)明的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法。
13、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)本發(fā)明的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法。
14、本發(fā)明包括:獲取目標(biāo)物體和多機(jī)械臂系統(tǒng)狀態(tài)信息;構(gòu)建深度確定性策略梯度(deep?deterministic?policy?gradient,,ddpg)算法網(wǎng)絡(luò)架構(gòu)、設(shè)置經(jīng)驗(yàn)回放池、智能體獎(jiǎng)勵(lì)函數(shù);部署到真實(shí)分揀環(huán)境進(jìn)行運(yùn)動(dòng)指導(dǎo)。其中,該方法在ddpg算法策略網(wǎng)絡(luò)架構(gòu)中使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent?neural?network,rnn)作為主干特征提取網(wǎng)絡(luò),以捕捉輸入數(shù)據(jù)的長(zhǎng)期依賴關(guān)系,更好的指導(dǎo)機(jī)械臂的抓取策略;在評(píng)價(jià)網(wǎng)絡(luò)架構(gòu)中引入一對(duì)多判別架構(gòu),以適應(yīng)多機(jī)械臂系統(tǒng)的訓(xùn)練;提出了一種復(fù)合獎(jiǎng)勵(lì)函數(shù)和雙池經(jīng)驗(yàn)回放機(jī)制,為機(jī)械臂提供更及時(shí)、更豐富的反饋信號(hào),降低了數(shù)據(jù)相關(guān)性,提高樣本利用率,提高多機(jī)械臂再生物品分揀的成功率和效率。
15、本發(fā)明的有益效果:通過使用rnn循環(huán)神經(jīng)網(wǎng)絡(luò)作為ddpg算法中策略網(wǎng)絡(luò)主干特征提取網(wǎng)絡(luò),使該方法在訓(xùn)練機(jī)械臂時(shí)其能夠有效捕捉狀態(tài)空間中的長(zhǎng)期依賴關(guān)系,更好的指導(dǎo)機(jī)械臂的抓取策略;改進(jìn)ddpg算法評(píng)價(jià)網(wǎng)絡(luò),引入一對(duì)多判別架構(gòu),以適應(yīng)多機(jī)械臂系統(tǒng)的訓(xùn)練;設(shè)計(jì)了一種適用于多機(jī)械臂協(xié)作控制的復(fù)合獎(jiǎng)勵(lì)函數(shù)和雙池經(jīng)驗(yàn)回放機(jī)制,為機(jī)械臂提供更及時(shí)、更豐富的反饋信號(hào),降低了數(shù)據(jù)相關(guān)性,提高樣本利用率,提高多機(jī)械臂再生物品分揀的成功率和效率。
1.一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法,包括如下步驟:
2.如權(quán)利要求1所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法,其特征在于,步驟1具體包括:
3.如權(quán)利要求1所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法,其特征在于,步驟2具體包括:所述的rnn-maddpg算法構(gòu)建包括:網(wǎng)絡(luò)架構(gòu)、狀態(tài)集、動(dòng)作集、獎(jiǎng)勵(lì)函數(shù)、經(jīng)驗(yàn)回放池;具體包括:
4.如權(quán)利要求1所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法,其特征在于,步驟2.5中,在經(jīng)過十回合的訓(xùn)練后,計(jì)算十回合的平均q值,采用了爬山法動(dòng)態(tài)調(diào)整隨機(jī)采樣與均勻采樣的比例。
5.如權(quán)利要求1所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法,其特征在于,步驟3中rnn-maddpg算法訓(xùn)練過程如下:
6.一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制裝置,其特征在于,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)權(quán)利要求1-5中任一項(xiàng)所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法。
7.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1-5中任一項(xiàng)所述的一種再生物品分揀的多機(jī)械臂深度強(qiáng)化學(xué)習(xí)控制方法。