国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      適用于多目標(biāo)動態(tài)FJSP的兩階段深度強化學(xué)習(xí)方法

      文檔序號:39996113發(fā)布日期:2024-11-15 14:51閱讀:11來源:國知局
      適用于多目標(biāo)動態(tài)FJSP的兩階段深度強化學(xué)習(xí)方法

      本發(fā)明適用于調(diào)度優(yōu)化,尤其涉及一種適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法。


      背景技術(shù):

      1、目前,隨著制造業(yè)需求的增大,生產(chǎn)車間逐漸面臨大量的生產(chǎn)訂單。由于訂單數(shù)量較大,且車間生產(chǎn)存在柔性,這使得傳統(tǒng)的排產(chǎn)規(guī)則難以在規(guī)定的交期時間內(nèi)求解出滿意解;除此以外,車間生產(chǎn)過程中也存在著許多不確定時間,諸如機器故障、新工件插入等,此類隨機事件也會造成生產(chǎn)效率的降低,甚至生產(chǎn)制造混亂。

      2、隨著智能制造技術(shù)的不斷發(fā)展,在面對此類隨機事件時,車間要有著響應(yīng)時間小、重調(diào)度策略優(yōu)等需求,一般的,用于解決多個優(yōu)化目標(biāo)的車間調(diào)度的問題被稱為多目標(biāo)動態(tài)柔性作業(yè)車間調(diào)度問題(dynamic?multi-objective?flexible?job?shop?problem,dmo-fjsp)。而現(xiàn)有的群智能算法等方法對于調(diào)度優(yōu)化的求解時間過長,難以應(yīng)對此類需求。


      技術(shù)實現(xiàn)思路

      1、本發(fā)明提供一種適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法,旨在解決現(xiàn)有的調(diào)度優(yōu)化方法的求解時間過長的問題。

      2、為解決上述技術(shù)問題,本發(fā)明提供一種適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法,包括以下步驟:

      3、s1、設(shè)定外部非支配集合,獲取車間實時加工數(shù)據(jù);

      4、s2、基于所述車間實時加工數(shù)據(jù)計算出多種工件狀態(tài)值,并將不同種類的所述工件狀態(tài)值組合得到狀態(tài)向量;

      5、s3、將所述狀態(tài)向量輸入預(yù)設(shè)第一階段雙層網(wǎng)絡(luò),計算出當(dāng)前輪次的獎勵函數(shù)計算方法;

      6、s4、將所述狀態(tài)向量輸入預(yù)設(shè)第二階段雙層網(wǎng)絡(luò),計算出當(dāng)前輪次的調(diào)度行為;

      7、s5、執(zhí)行所述調(diào)度行為,使車間進(jìn)入新的執(zhí)行狀態(tài),根據(jù)步驟s2-s4的方法計算出第二狀態(tài)向量,并根據(jù)所述狀態(tài)向量與所述第二狀態(tài)向量的差距計算出獎勵函數(shù),并將所述狀態(tài)向量、所述獎勵函數(shù)計算方法、所述調(diào)度行為與所述獎勵函數(shù)的數(shù)據(jù)按照階段分別存入第一經(jīng)驗回放池和第二經(jīng)驗回收池;

      8、s6、從所述第一經(jīng)驗回放池、所述第二經(jīng)驗回收池或所述外部非支配集合中隨機抽取數(shù)據(jù),對所述第一階段雙層網(wǎng)絡(luò)及所述第二階段雙層網(wǎng)絡(luò)進(jìn)行更新;

      9、s7、將所述調(diào)度行為輸入所述外部非支配集合,并對所述外部非支配集合做非支配排序,保留得到非支配解,根據(jù)所述非支配解得到當(dāng)前輪次的調(diào)度結(jié)果。

      10、更進(jìn)一步地,所述車間實時加工數(shù)據(jù)包括加工工件數(shù)量、工件完成加工的工序、各工序可用加工機器,所述多種工件狀態(tài)值包括機器平均利用率uave(t)、機器利用率的標(biāo)準(zhǔn)偏差ustd(t)、總工序完工率cro(t)、工件平均完工率crjave(t)、工件完工率的標(biāo)準(zhǔn)偏差crjstd(t),其中:

      11、

      12、m表示機器數(shù)量,uk(t)表示第k臺機器的利用率,t表示當(dāng)前執(zhí)行調(diào)度優(yōu)化的時間;

      13、

      14、ni表示第i個工件的總工序數(shù),opi(t)表示第i個工件的已完成工序;

      15、

      16、n表示工件數(shù)量,crji(t)表示第i個工件已完成工序;

      17、

      18、更進(jìn)一步地,定義不同種類的所述工件狀態(tài)值組合得到的所述狀態(tài)向量為state,所述預(yù)設(shè)第一階段雙層網(wǎng)絡(luò)包括第一階一層網(wǎng)絡(luò)和第一階二層網(wǎng)絡(luò),所述第一階段雙層網(wǎng)絡(luò)的輸出節(jié)點為2,步驟s3包括以下子步驟:

      19、將所述狀態(tài)向量state輸入所述第一階一層網(wǎng)絡(luò),得到所述獎勵函數(shù)計算方法goal以及對應(yīng)的第一索引值index1;

      20、將所述狀態(tài)向量state輸入所述第一階二層網(wǎng)絡(luò),并根據(jù)所述索引值index選擇對應(yīng)的網(wǎng)絡(luò)計算值q,計算得到第一標(biāo)簽值其滿足:

      21、

      22、其中,s'表示所述狀態(tài)向量state,a1'表示所述第一索引值index1,r表示預(yù)設(shè)獎勵值,γ表示預(yù)設(shè)折扣系數(shù),qw、qw-分別表示所述第一階一層網(wǎng)絡(luò)、所述第一階二層網(wǎng)絡(luò)的處理過程。

      23、更進(jìn)一步地,所述預(yù)設(shè)第二階段雙層網(wǎng)絡(luò)包括第二階一層網(wǎng)絡(luò)和第二階二層網(wǎng)絡(luò),所述第二階段雙層網(wǎng)絡(luò)的輸出節(jié)點為4,步驟s4包括以下子步驟:

      24、將所述狀態(tài)向量state輸入所述第二階一層網(wǎng)絡(luò),得到所述調(diào)度行為action以及對應(yīng)的第二索引值index2;

      25、將所述狀態(tài)向量state輸入所述第二階二層網(wǎng)絡(luò),并根據(jù)所述第二索引值index選擇對應(yīng)的網(wǎng)絡(luò)計算值q,計算得到第二標(biāo)簽值其滿足:

      26、

      27、其中,a2'表示所述第二索引值index2。

      28、更進(jìn)一步地,定義所述第二狀態(tài)向量為state_,所述獎勵函數(shù)為reward,所述第一經(jīng)驗回放池為replay1,所述第二經(jīng)驗回收池為replay2,步驟s5中,將所述狀態(tài)向量state、所述獎勵函數(shù)計算方法goal、所述獎勵函數(shù)reward以及所述第二狀態(tài)向量為state_放入所述第一經(jīng)驗回放池,將所述狀態(tài)向量state、調(diào)度行為action、所述獎勵函數(shù)reward以及所述第二狀態(tài)向量為state_放入所述第二經(jīng)驗回放池。

      29、更進(jìn)一步地,步驟s6包括以下子步驟:

      30、通過隨機的方式,從所述第一經(jīng)驗回放池replay1、所述第二經(jīng)驗回收池replay2、所述外部非支配集合中抽取預(yù)設(shè)大小的數(shù)據(jù),送入到所述第一階一層網(wǎng)絡(luò)和所述第二階一層網(wǎng)絡(luò)中進(jìn)行參數(shù)訓(xùn)練;

      31、根據(jù)所述第一標(biāo)簽值所述第二標(biāo)簽值與基于所述狀態(tài)向量state計算出的所述網(wǎng)絡(luò)計算值q做梯度下降;

      32、將所述第一階一層網(wǎng)絡(luò)、所述第二階一層網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)分別賦值給所述第一階二層網(wǎng)絡(luò)、所述第二階二層網(wǎng)絡(luò),以完成網(wǎng)絡(luò)更新

      33、本發(fā)明所達(dá)到的有益效果,在于提出了一種適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法,該方法采用雙層神經(jīng)網(wǎng)絡(luò)求解出當(dāng)前輪次中要使用的獎勵函數(shù)計算方法,并采用分階段的方式采用另一個雙層神經(jīng)網(wǎng)絡(luò)求解出在滿足這個獎勵函數(shù)的前提下要執(zhí)行的調(diào)度決策,并將最終調(diào)度結(jié)果保存至外部非支配集中,采用該非支配集中的解來更新網(wǎng)絡(luò)參數(shù),這個過程相較現(xiàn)有的強化學(xué)習(xí)算法能夠解決多目標(biāo)問題,同時極大地縮短了網(wǎng)絡(luò)參數(shù)訓(xùn)練時間,增加了模型的收斂性。



      技術(shù)特征:

      1.一種適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法,其特征在于,包括以下步驟:

      2.如權(quán)利要求1所述的適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法,其特征在于,所述車間實時加工數(shù)據(jù)包括加工工件數(shù)量、工件完成加工的工序、各工序可用加工機器,所述多種工件狀態(tài)值包括機器平均利用率uave(t)、機器利用率的標(biāo)準(zhǔn)偏差ustd(t)、總工序完工率cro(t)、工件平均完工率crjave(t)、工件完工率的標(biāo)準(zhǔn)偏差crjstd(t),其中:

      3.如權(quán)利要求2所述的適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法,其特征在于,定義不同種類的所述工件狀態(tài)值組合得到的所述狀態(tài)向量為state,所述預(yù)設(shè)第一階段雙層網(wǎng)絡(luò)包括第一階一層網(wǎng)絡(luò)和第一階二層網(wǎng)絡(luò),所述第一階段雙層網(wǎng)絡(luò)的輸出節(jié)點為2,步驟s3包括以下子步驟:

      4.如權(quán)利要求3所述的適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法,其特征在于,所述預(yù)設(shè)第二階段雙層網(wǎng)絡(luò)包括第二階一層網(wǎng)絡(luò)和第二階二層網(wǎng)絡(luò),所述第二階段雙層網(wǎng)絡(luò)的輸出節(jié)點為4,步驟s4包括以下子步驟:

      5.如權(quán)利要求4所述的適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法,其特征在于,定義所述第二狀態(tài)向量為state_,所述獎勵函數(shù)為reward,所述第一經(jīng)驗回放池為replay1,所述第二經(jīng)驗回收池為replay2,步驟s5中,將所述狀態(tài)向量state、所述獎勵函數(shù)計算方法goal、所述獎勵函數(shù)reward以及所述第二狀態(tài)向量為state_放入所述第一經(jīng)驗回放池,將所述狀態(tài)向量state、調(diào)度行為action、所述獎勵函數(shù)reward以及所述第二狀態(tài)向量為state_放入所述第二經(jīng)驗回放池。

      6.如權(quán)利要求5所述的適用于多目標(biāo)動態(tài)fjsp的兩階段深度強化學(xué)習(xí)方法,其特征在于,步驟s6包括以下子步驟:


      技術(shù)總結(jié)
      本發(fā)明提供了一種適用于多目標(biāo)動態(tài)FJSP的兩階段深度強化學(xué)習(xí)方法,該方法采用雙層神經(jīng)網(wǎng)絡(luò)求解出當(dāng)前輪次中要使用的獎勵函數(shù)計算方法,并采用分階段的方式采用另一個雙層神經(jīng)網(wǎng)絡(luò)求解出在滿足這個獎勵函數(shù)的前提下要執(zhí)行的調(diào)度決策,并將最終調(diào)度結(jié)果保存至外部非支配集中,采用該非支配集中的解來更新網(wǎng)絡(luò)參數(shù),這個過程相較現(xiàn)有的強化學(xué)習(xí)算法能夠解決多目標(biāo)問題,同時極大地縮短了網(wǎng)絡(luò)參數(shù)訓(xùn)練時間,增加了模型的收斂性。

      技術(shù)研發(fā)人員:岳磊,尤進(jìn)一,彭凱,林利彬,蔡習(xí)文,藍(lán)雪婧
      受保護(hù)的技術(shù)使用者:廣州大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/11/14
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1