国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法及裝置與流程

      文檔序號:39573402發(fā)布日期:2024-10-11 12:34閱讀:23來源:國知局
      基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法及裝置與流程

      本發(fā)明涉及自動化控制,尤其涉及一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法及裝置。


      背景技術:

      1、半導體芯片制造過程通常包括晶圓制造、檢測、封裝和最終測試四個關鍵工藝階段。其中。晶圓制造是在晶圓硅片上形成集成電路和器件的過程,也是整個半導體芯片制造過程中最復雜的階段,且包含最多的工序步驟。因此,如何進行晶圓的制造調(diào)度策略優(yōu)化獲取,以實現(xiàn)晶圓的高效加工制造是目前業(yè)界亟待解決的重要課題。

      2、傳統(tǒng)的晶圓的制造調(diào)度策略都是基于規(guī)則式方法尋優(yōu)實現(xiàn),如基于貪婪搜索方法或者基于啟發(fā)式算法方法;雖然這些方法能在一定程度上通過尋找到優(yōu)化的制造調(diào)度策略實現(xiàn)縮短晶圓加工時長,但是所能尋找到的加工策略容易陷入局部最優(yōu)解,導致加工時長較長,浪費能源。

      3、因此,亟需提供一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法及裝置來解決上述技術問題。


      技術實現(xiàn)思路

      1、本發(fā)明提供一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法及裝置,用以解決現(xiàn)有技術中晶圓的加工策略加工時長較長的問題,浪費能源的缺陷,實現(xiàn)以全局優(yōu)化策略對多機械臂協(xié)同調(diào)度優(yōu)化,以高效、低成本地進行晶圓加工。

      2、本發(fā)明提供一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法,包括:

      3、根據(jù)各晶圓加工腔室的駐留時間約束、處理時間和各所述晶圓加工腔室存儲的當前晶圓信息,以及各機械臂的駐留時間約束、處理時間和各所述機械臂存儲的當前晶圓信息,獲取當前加工狀態(tài)信息;

      4、將所述當前加工狀態(tài)信息輸入至決策模型,優(yōu)化得到各所述機械臂的當前決策動作;

      5、根據(jù)所述當前決策動作對應的控制信號,協(xié)同調(diào)度多個所述機械臂執(zhí)行晶圓加工作業(yè);

      6、其中,所述決策模型,是根據(jù)從經(jīng)驗池中循環(huán)獲取的各樣本數(shù)據(jù),對dqn模型進行訓練得到的;所述樣本數(shù)據(jù)包括樣本加工狀態(tài)信息、樣本決策動作、所述樣本決策動作對應的獎勵值,以及所述樣本決策動作對應的下一加工狀態(tài)信息。

      7、根據(jù)本發(fā)明提供的一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法,所述根據(jù)各晶圓加工腔室的駐留時間約束、處理時間和各所述晶圓加工腔室存儲的當前晶圓信息,以及各機械臂的駐留時間約束、處理時間和各所述機械臂存儲的當前晶圓信息,獲取當前加工狀態(tài)信息,包括:

      8、根據(jù)各所述晶圓加工腔室存儲的當前晶圓信息,獲取各所述晶圓加工腔室當前所加工的晶圓的編號和當前加工路徑序號;

      9、根據(jù)各所述晶圓加工腔室的駐留時間約束、處理時間,以及各所述晶圓加工腔室當前所加工的晶圓的編號和當前加工路徑序號,構(gòu)建第一加工狀態(tài)信息;

      10、根據(jù)各所述機械臂存儲的當前晶圓信息,獲取各所述機械臂當前所控制的晶圓的編號和當前加工路徑序號;

      11、根據(jù)各所述機械臂的駐留時間約束、處理時間,以及各所述機械臂當前所控制的晶圓的編號和當前加工路徑序號,構(gòu)建第二加工狀態(tài)信息;

      12、根據(jù)所述第一加工狀態(tài)信息和所述第二加工狀態(tài)信息進行狀態(tài)矩陣構(gòu)建,得到所述當前加工狀態(tài)信息。

      13、根據(jù)本發(fā)明提供的一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法,所述獎勵值是基于如下步驟確定的:

      14、確定所述樣本決策動作對應的目標動作類別;

      15、在所述目標動作類別為第一動作類別的情況下,確定所述獎勵值為第一獎勵值;

      16、在所述目標動作類別為第二動作類別的情況下,確定所述獎勵值為第二獎勵值;

      17、在所述目標動作類別為第三動作類別的情況下,確定所述獎勵值為第三獎勵值;

      18、其中,所述第一動作類別用于表征所述樣本決策動作對應的下一加工狀態(tài)信息與目標加工狀態(tài)信息一致;所述第二動作類別用于表征所述樣本決策動作對應的下一加工狀態(tài)信息與所述目標加工狀態(tài)信息不一致,以及所述樣本決策動作滿足預設調(diào)度條件;所述第三動作類別用于表征所述樣本決策動作對應的下一加工狀態(tài)信息與所述目標加工狀態(tài)信息不一致,以及所述樣本決策動作不滿足預設調(diào)度條件;所述第一獎勵值大于所述第二獎勵值,所述第二獎勵值大于所述第三獎勵值。

      19、根據(jù)本發(fā)明提供的一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法,所述樣本決策動作對應的下一加工狀態(tài)信息是基于如下步驟確定的:

      20、將所述樣本決策動作和所述樣本加工狀態(tài)信息輸入至狀態(tài)轉(zhuǎn)移函數(shù)中,得到所述樣本決策動作對應的下一加工狀態(tài)信息;

      21、其中,所述狀態(tài)轉(zhuǎn)移函數(shù)是基于各所述晶圓加工腔室的加工約束條件、各所述機械臂的傳輸范圍和加工約束條件、以及晶圓加工路徑約束條件構(gòu)建得到的。

      22、根據(jù)本發(fā)明提供的一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法,所述dqn模型包括評估網(wǎng)絡和目標網(wǎng)絡;

      23、所述決策模型是基于如下步驟訓練得到的:

      24、對于當前次迭代訓練,若判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量未達到預設數(shù)量,則基于上一次迭代訓練后的評估網(wǎng)絡進行樣本數(shù)據(jù)生成,并將生成的樣本數(shù)據(jù)循環(huán)存入所述經(jīng)驗池,直到判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量達到所述預設數(shù)量,則從所述經(jīng)驗池中隨機抽取多個所述樣本數(shù)據(jù);

      25、基于多個所述樣本數(shù)據(jù),構(gòu)建訓練數(shù)據(jù)集;

      26、對所述訓練數(shù)據(jù)集進行劃分,得到多個批次訓練對應的訓練數(shù)據(jù)子集;

      27、對于每一所述批次訓練執(zhí)行如下步驟:

      28、將當前批次訓練對應的訓練數(shù)據(jù)子集中的各所述樣本加工狀態(tài)信息輸入至上一批次訓練后的評估網(wǎng)絡,得到各所述樣本加工狀態(tài)信息對應的多個第一優(yōu)化決策動作的價值函數(shù)值,并在多個所述第一優(yōu)化決策動作的價值函數(shù)值中獲取各所述樣本決策動作的價值函數(shù)值;

      29、將所述當前批次訓練對應的訓練數(shù)據(jù)子集中的各所述下一加工狀態(tài)信息輸入至上一批次訓練后的目標網(wǎng)絡,得到各所述下一加工狀態(tài)信息對應的多個第二優(yōu)化決策動作的價值函數(shù)值,并在多個第二優(yōu)化決策動作的價值函數(shù)值中確定最優(yōu)價值函數(shù)值;

      30、基于所述當前批次訓練對應的訓練數(shù)據(jù)子集中各所述樣本決策動作對應的獎勵值、各所述樣本決策動作的價值函數(shù)值,以及所述最優(yōu)價值函數(shù)值,獲取損失函數(shù)值;

      31、基于所述損失函數(shù)值,對所述上一批次訓練后的評估網(wǎng)絡和所述上一批次訓練后的目標網(wǎng)絡進行多輪次的優(yōu)化訓練;

      32、對每一批次訓練后的評估網(wǎng)絡對應的加工性能進行驗證;

      33、根據(jù)驗證結(jié)果,選擇加工性能最優(yōu)的訓練后的評估網(wǎng)絡,構(gòu)建所述決策模型。

      34、根據(jù)本發(fā)明提供的一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法,所述若判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量未達到預設數(shù)量,則基于上一次迭代訓練后的評估網(wǎng)絡進行樣本數(shù)據(jù)生成,并將生成的樣本數(shù)據(jù)循環(huán)存入所述經(jīng)驗池,直到判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量達到所述預設數(shù)量,包括:

      35、將所述樣本加工狀態(tài)信息輸入至所述上一次迭代訓練后的評估網(wǎng)絡,得到所述樣本加工狀態(tài)信息對應的多個第三優(yōu)化決策動作,以及各所述第三優(yōu)化決策動作的價值函數(shù)值;

      36、根據(jù)所述當前次迭代訓練對應的探索率,從多個第三優(yōu)化決策動作中隨機確定任一優(yōu)化決策動作作為所述樣本決策動作,或者從多個第三優(yōu)化決策動作中確定最優(yōu)價值函數(shù)值對應的優(yōu)化決策動作作為所述樣本決策動作;

      37、根據(jù)所述樣本加工狀態(tài)信息和所述樣本決策動作,與環(huán)境模型進行交互,得到所述樣本決策動作對應的獎勵值,以及所述樣本決策動作對應的下一加工狀態(tài)信息;所述環(huán)境模型包括用于進行獎勵值獲取的獎勵函數(shù),以及用于進行下一加工狀態(tài)信息獲取的狀態(tài)轉(zhuǎn)移函數(shù);

      38、根據(jù)所述樣本加工狀態(tài)信息和所述樣本決策動作,以及所述樣本決策動作對應的下一加工狀態(tài)信息和獎勵值進行樣本數(shù)據(jù)生成,并將生成的樣本數(shù)據(jù)存入所述經(jīng)驗池;

      39、將所述下一加工狀態(tài)信息作為新的樣本加工狀態(tài)信息,對所述新的樣本加工狀態(tài)信息迭代進行樣本數(shù)據(jù)生成,并將生成的樣本數(shù)據(jù)循環(huán)存入所述經(jīng)驗池,直到判斷獲知所述經(jīng)驗池中的樣本數(shù)據(jù)的數(shù)量達到所述預設數(shù)量。

      40、本發(fā)明還提供一種基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化裝置,包括:

      41、狀態(tài)獲取單元,用于根據(jù)各晶圓加工腔室的駐留時間約束、處理時間和各所述晶圓加工腔室存儲的當前晶圓信息,以及各機械臂的駐留時間約束、處理時間和各所述機械臂存儲的當前晶圓信息,獲取當前加工狀態(tài)信息;

      42、決策優(yōu)化單元,用于將所述當前加工狀態(tài)信息輸入至決策模型,優(yōu)化得到各所述機械臂的當前決策動作;

      43、協(xié)同調(diào)度單元,用于根據(jù)所述當前決策動作對應的控制信號,協(xié)同調(diào)度多個所述機械臂執(zhí)行晶圓加工作業(yè);

      44、其中,所述決策模型,是根據(jù)從經(jīng)驗池中循環(huán)獲取的各樣本數(shù)據(jù),對dqn模型進行訓練得到的;所述樣本數(shù)據(jù)包括樣本加工狀態(tài)信息、樣本決策動作、所述樣本決策動作對應的獎勵值,以及所述樣本決策動作對應的下一加工狀態(tài)信息。

      45、本發(fā)明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法。

      46、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法。

      47、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法。

      48、本發(fā)明提供的基于駐留時間約束的多機械臂協(xié)同調(diào)度優(yōu)化方法及裝置,通過晶圓加工設備的樣本加工狀態(tài)信息、樣本決策動作、樣本決策動作對應的獎勵值,以及樣本決策動作對應的下一加工狀態(tài)信息進行訓練,使得所得到的決策模型能夠根據(jù)綜合考慮晶圓加工設備的駐留時間約束、處理時間以及所加工的當前晶圓信息所形成的當前加工狀態(tài)信息,更好地與環(huán)境不斷地交互、學習和優(yōu)化,以更好地全局優(yōu)化獲取各機械臂的當前決策動作,進而獲取全局最優(yōu)的晶圓制造調(diào)度策略優(yōu)化,提高了晶圓加工資源調(diào)度的合理性,由此實現(xiàn)高效、低成本地進行晶圓加工。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1