本發(fā)明屬于車間調(diào)度相關(guān),更具體地,涉及一種基于softactor-critic強化學(xué)習的資源協(xié)同裝調(diào)車間自適應(yīng)調(diào)度方法及系統(tǒng)。
背景技術(shù):
1、隨著制造方式的不斷變化和生產(chǎn)規(guī)模的不斷擴大,生產(chǎn)制造車間正在發(fā)生前所未有的變化。傳統(tǒng)的生產(chǎn)制造方式已經(jīng)難以滿足日益增長的生產(chǎn)制造需求。物聯(lián)網(wǎng)等網(wǎng)絡(luò)信息技術(shù)的發(fā)展能夠使得制造產(chǎn)業(yè)完成智能化和數(shù)字化的轉(zhuǎn)變,而伴隨著新興的人工智能技術(shù)的發(fā)展,生產(chǎn)車間的制造方式朝著智能化的方向發(fā)展,進一步豐富了智能制造的內(nèi)容。生產(chǎn)調(diào)度作為智能制造的核心之一,是制造企業(yè)中生產(chǎn)運作管理的關(guān)鍵技術(shù),對企業(yè)的生產(chǎn)效益有著重要的影響。
2、在實際的資源協(xié)同裝調(diào)車間中,拓撲單元故障和工人請假等動態(tài)擾動事件頻發(fā),不論是生產(chǎn)運作的管理人員依據(jù)經(jīng)驗來指導(dǎo)自適應(yīng)調(diào)度,還是采用元啟發(fā)式算法重新生成排產(chǎn)計劃,都會存在效率低下和難以形成高效的排產(chǎn)方案等問題。強化學(xué)習(reinforcement?learning,rl)能夠讓智能體根據(jù)環(huán)境的實時狀態(tài),采取最合適的策略以保證累計收益最大化。面對擾動事件的動態(tài)性和頻發(fā)性,基于強化學(xué)習的智能體能夠?qū)_動快速響應(yīng),保障生產(chǎn)制造系統(tǒng)穩(wěn)定運行。
3、隨著計算機科學(xué)和人工智能的技術(shù)發(fā)展,深度神經(jīng)網(wǎng)絡(luò)被引入到強化學(xué)習中,用來作為環(huán)境的感知部分,形成新的強化學(xué)習方法-深度強化學(xué)習。相較于傳統(tǒng)的強化學(xué)習方法,深度強化學(xué)習具備更強的環(huán)境感知能力,能夠從復(fù)雜的環(huán)境中提取出有效的特征,同時也能夠?qū)Σ煌瑺顟B(tài)下的最優(yōu)策略進行擬合,保證智能體模型具有泛化能力,進一步增強了強化學(xué)習的決策能力。面對考慮批處理和工人協(xié)作的資源協(xié)同裝調(diào)車間自適應(yīng)調(diào)度問題,傳統(tǒng)的方法難以高效地處理如此復(fù)雜的問題,無法做出最優(yōu)決策。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的以上缺陷或改進需求,本發(fā)明提供了一種基于soft?actor-critic強化學(xué)習的資源協(xié)同裝調(diào)車間自適應(yīng)調(diào)度方法及系統(tǒng),采用基于soft?actor-critic算法的策略模塊對多層感知機模塊進行在線更新,能夠?qū)Σ煌瑺顟B(tài)下的最優(yōu)策略進行擬合,增強了智能體模型的決策能力。
2、為實現(xiàn)上述目的,按照本發(fā)明的第一方面,提供了一種基于soft?actor-critic強化學(xué)習的資源協(xié)同裝調(diào)車間自適應(yīng)調(diào)度方法,包括:s1:構(gòu)建加工工件任務(wù)池、加工工件選擇規(guī)則、拓撲單元分配規(guī)則、協(xié)作工人分配規(guī)則和智能體模型;其中,加工工件任務(wù)池被配置為容納待加工工件,拓撲單元分配規(guī)則被配置為優(yōu)先為工件分配等待時間最短的拓撲單元,協(xié)作工人分配規(guī)則被配置為優(yōu)先為工件分配等待時間最短的工人;所述智能體模型包括多層感知機模塊以及基于soft?actor-critic算法的策略模塊,所述策略模塊基于智能體與車間環(huán)境交互得到的樣本數(shù)據(jù),對所述多層感知機模塊的網(wǎng)絡(luò)參數(shù)進行更新,所述多層感知機模塊以車間環(huán)境當前狀態(tài)作為輸入,輸出加工工件選擇規(guī)則的權(quán)重向量;s2:采用所述多層感知機模塊獲取車間環(huán)境當前狀態(tài)下各加工工件選擇規(guī)則的權(quán)重向量,采用所述加工工件選擇規(guī)則的權(quán)重向量對加工工件任務(wù)池中的各工件的優(yōu)先權(quán)重進行重組,獲得加工工件任務(wù)池中各加工工件復(fù)合規(guī)則下的權(quán)重;s3:以各加工工件復(fù)合規(guī)則下的權(quán)重大小為先后順序,在所述拓撲單元分配規(guī)則以及協(xié)作工人分配規(guī)則下依次進行拓撲單元和協(xié)作工人分配,并存儲智能體模型與當前車間環(huán)境交互得到的樣本數(shù)據(jù),用于所述策略模塊更新多層感知機模塊的網(wǎng)絡(luò)參數(shù),然后進行下一次調(diào)度。
3、優(yōu)選地,步驟s3還包括判斷加工工件是否為批處理工件,當加工工件為批處理工件時,若拓撲單元的緩沖區(qū)中相同類型工件數(shù)量大于或者等于拓撲單元的批處理容量,則直接選擇加工時間最長的工件進行滿批處理,具體選擇規(guī)則如下:
4、
5、其中,ptbk為在拓撲單元mk上進行滿批處理的第b種類型工件的加工時間;
6、若拓撲單元的緩沖區(qū)中相同類型工件數(shù)量小于拓撲單元的批處理容量,則選擇非滿批處理工件加工時間損失最小的工件進行非滿批處理,按照以下規(guī)則進行決策:
7、
8、其中,bcbk為拓撲單元mk對其緩沖區(qū)中第b種類型工件的批處理容量,nbk為拓撲單元mk緩沖區(qū)中第b種類型工件的數(shù)量。
9、優(yōu)選地,步驟s3以各加工工件復(fù)合規(guī)則下的權(quán)重大小為先后順序,在所述拓撲單元分配規(guī)則以及協(xié)作工人分配規(guī)則下依次進行拓撲單元和協(xié)作工人分配,具體為:
10、依據(jù)拓撲單元分配規(guī)則,將所述加工工件放入對應(yīng)的拓撲單元的緩沖區(qū)中,并依據(jù)協(xié)作工人分配規(guī)則為拓撲單元分配協(xié)作工人;所述拓撲單元對緩沖區(qū)中的加工工件依次進行加工。
11、優(yōu)選地,步驟s3還包括若拓撲單元故障,則將故障的拓撲單元移除,將故障的拓撲單元上正在加工和緩沖區(qū)中的工件重新放入任務(wù)池,同時撤銷對應(yīng)的協(xié)作工人信息,重新更新車間環(huán)境狀態(tài),智能體模型根據(jù)拓撲單元分配規(guī)則和協(xié)作工人分配規(guī)則,為任務(wù)池中的工件重新分配對應(yīng)的拓撲單元和協(xié)作工人。
12、優(yōu)選地,步驟s3還包括若協(xié)作工人發(fā)生請假,則將請假的協(xié)作工人從可選工人中移除,并將工人輔助加工列表中的工件,利用協(xié)作工人分配規(guī)則,依次按順序?qū)⒐ぜ匦路峙浣o其他正常工作的相同類型工人,同時更新車間環(huán)境狀態(tài)。
13、優(yōu)選地,所述拓撲單元分配規(guī)則為:
14、
15、其中,ms為拓撲單元分配規(guī)則,ti′′j′k是工件i′的第j′道工序在拓撲單元mk上的剩余加工時間,ti′′j′′k是拓撲單元mk緩沖區(qū)中工件i″的第j″道工序的加工時間,是加工工件i的第j道工序的可選拓撲單元集合;
16、所述協(xié)作工人分配規(guī)則為:
17、
18、其中,ws為協(xié)作工人分配規(guī)則,wt′i′j′m為工件i′的第j′道工序需要工人wm輔助拓撲單元加工的剩余時間,wti″j″m為工人wm輔助加工列表中工件i″的第j″道工序的加工時間,wij為工件i的第j道工序的可選協(xié)作工人集合;
19、在工件工序可以進行批處理的情況下,若工件所在緩沖區(qū)中無相同類型工件或者相同類型工件數(shù)量為批處理容量倍數(shù)時,則依照上述規(guī)則分配協(xié)作工人;若工件所在緩沖區(qū)中相同類型工件數(shù)量不是批處理容量倍數(shù)時,則給當前工件分配的協(xié)作工人與緩沖區(qū)中上一相同類型工件所分配的協(xié)作工人一致。
20、優(yōu)選地,步驟s2中加工工件任務(wù)池中各加工工件復(fù)合規(guī)則下的權(quán)重wj為:
21、wj=wrule·{wij}t
22、其中,wrule為多層感知機模塊輸出車間環(huán)境當前狀態(tài)下各加工工件選擇規(guī)則的權(quán)重向量,wrule=[w1,w2,…,wq],q為加工工件選擇規(guī)則的總數(shù),wij為加工工件任務(wù)池中加工工件i在工件選擇規(guī)則j下的優(yōu)先權(quán)重。
23、優(yōu)選地,若加工工件選擇規(guī)則j的評價指標與統(tǒng)計的時間呈正相關(guān),則加工工件任務(wù)池中加工工件i的優(yōu)先權(quán)重wij為:
24、
25、其中,rtij為加工工件i在加工工件選擇規(guī)則j下的時間統(tǒng)計指標,np表示此刻加工工件任務(wù)池中工件的數(shù)量;
26、若加工工件選擇規(guī)則j的評價指標與統(tǒng)計的時間呈負相關(guān),則加工工件任務(wù)池中加工工件i的優(yōu)先權(quán)重wij為:
27、
28、優(yōu)選地,所述智能體模型的獎勵函數(shù)reward(t)為:
29、reward(t)=(makespan(t-1)-makespan(t))+(utilization(t)-utilization(t-1))
30、其中,makespan(t)為決策時刻t完成所有已安排工件加工的結(jié)束時間,utilization(t)為決策時刻t時拓撲單元資源利用率。
31、本發(fā)明第二方面提供了一種基于soft?actor-critic強化學(xué)習的資源協(xié)同裝調(diào)車間自適應(yīng)調(diào)度系統(tǒng),包括:構(gòu)建模塊:用于構(gòu)建加工工件任務(wù)池、加工工件選擇規(guī)則、拓撲單元分配規(guī)則、協(xié)作工人分配規(guī)則和智能體模型;其中,加工工件任務(wù)池被配置為容納待加工工件,拓撲單元分配規(guī)則被配置為優(yōu)先為工件分配等待時間最短的拓撲單元,協(xié)作工人分配規(guī)則被配置為優(yōu)先為工件分配等待時間最短的工人;所述智能體模型包括多層感知機模塊以及基于soft?actor-critic算法的策略模塊,所述策略模塊基于智能體與車間環(huán)境交互得到的樣本數(shù)據(jù),對所述多層感知機模塊的網(wǎng)絡(luò)參數(shù)進行更新,所述多層感知機模塊以車間環(huán)境當前狀態(tài)作為輸入,輸出加工工件選擇規(guī)則的權(quán)重向量;權(quán)重重組模塊:用于采用所述多層感知機模塊獲取車間環(huán)境當前狀態(tài)下各加工工件選擇規(guī)則的權(quán)重向量,采用所述加工工件選擇規(guī)則的權(quán)重向量對加工工件任務(wù)池中的各工件的優(yōu)先權(quán)重進行重組,獲得加工工件任務(wù)池中各加工工件復(fù)合規(guī)則下的權(quán)重;分配與更新模塊:用于以各加工工件復(fù)合規(guī)則下的權(quán)重大小為先后順序,在所述拓撲單元分配規(guī)則以及協(xié)作工人分配規(guī)則下依次進行拓撲單元和協(xié)作工人分配,并存儲智能體模型與當前車間環(huán)境交互得到的樣本數(shù)據(jù),用于所述策略模塊更新多層感知機模塊的網(wǎng)絡(luò)參數(shù),然后進行下一次調(diào)度。
32、總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,本發(fā)明提供的一種基于soft?actor-critic強化學(xué)習的資源協(xié)同裝調(diào)車間自適應(yīng)調(diào)度方法及系統(tǒng)主要具有以下有益效果:
33、1.本發(fā)明中智能體模型包括多層感知機模塊以及基于soft?actor-critic算法的策略模塊,策略模塊可以對多層感知機模塊的網(wǎng)絡(luò)參數(shù)進行更新,提升了智能體模型的決策性能,利于快速決策響應(yīng),同時多層感知機模塊對各工件的優(yōu)先權(quán)重進行重組,獲得加工工件任務(wù)池中各加工工件復(fù)合規(guī)則下的權(quán)重,依據(jù)復(fù)合規(guī)則下的權(quán)重進行加工決策,極大提升了決策的合理性。
34、2.本發(fā)明還包括工件批處理規(guī)則,解決了批處理和工人協(xié)作的資源協(xié)同自適應(yīng)調(diào)度的問題,提升了調(diào)度處理效率。
35、3.本發(fā)明所提供的多資源分配啟發(fā)式規(guī)則,能夠高效地解決考慮工人協(xié)作的資源協(xié)同裝調(diào)車間中拓撲單元和工人分配的問題,應(yīng)用場景更加符合實際車間的生產(chǎn)制造需求,對制造車間中的資源分配具有一定的指導(dǎo)意義。
36、4.本發(fā)明所提供的拓撲單元工件批處理的啟發(fā)式規(guī)則,充分考慮了拓撲單元工件批處理的特點,利用拓撲單元可進行工件批處理加工的優(yōu)勢,使得多個工件能夠在一臺拓撲單元上高效地進行并行加工,提高制造車間中工件的加工速度。
37、5.本發(fā)明還包括對拓撲單元故障和協(xié)作工人發(fā)生請假的情況進行調(diào)度處理,進而解決了針對動態(tài)擾動事件的調(diào)度問題,更加符合實際情況,提升了對復(fù)雜調(diào)度情況的處理能力,實現(xiàn)對復(fù)雜狀況的快速響應(yīng),使得生產(chǎn)制造系統(tǒng)高效運行。