国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備

      文檔序號(hào):38037752發(fā)布日期:2024-05-17 13:25閱讀:43來(lái)源:國(guó)知局
      仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備

      本發(fā)明涉及深度強(qiáng)化學(xué)習(xí)的,特別是涉及一種仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備。


      背景技術(shù):

      1、近年來(lái),由于深度強(qiáng)化學(xué)習(xí)在游戲決策、機(jī)器人控制等領(lǐng)域大放異彩,人們逐漸嘗試將深度強(qiáng)化學(xué)習(xí)應(yīng)用到實(shí)際的工業(yè)生產(chǎn)控制過(guò)程當(dāng)中,以解決實(shí)際工業(yè)系統(tǒng)的實(shí)時(shí)變化和波動(dòng)性問(wèn)題,實(shí)現(xiàn)生產(chǎn)控制的自動(dòng)化和智能化,提高系統(tǒng)運(yùn)行的效率。

      2、當(dāng)前,在深度強(qiáng)化學(xué)習(xí)與實(shí)際工業(yè)生產(chǎn)控制結(jié)合的過(guò)程中仍面臨著許多問(wèn)題。一方面,工業(yè)系統(tǒng)通常非常復(fù)雜,具有大量的變量和相互關(guān)聯(lián)的因素,因此很難建立完備的仿真環(huán)境供深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練。另一方面,仿真環(huán)境的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)對(duì)算法的性能十分關(guān)鍵,其直接影響著智能體學(xué)習(xí)和決策的效果,設(shè)計(jì)不當(dāng)?shù)莫?jiǎng)勵(lì)函數(shù)會(huì)引導(dǎo)策略往錯(cuò)誤的方向發(fā)展。除此之外,從工業(yè)領(lǐng)域的安全性角度出發(fā),深度強(qiáng)化學(xué)習(xí)算法在實(shí)際應(yīng)用中應(yīng)排除錯(cuò)誤動(dòng)作發(fā)生的可能性,以實(shí)現(xiàn)工業(yè)系統(tǒng)安全、穩(wěn)定運(yùn)行。


      技術(shù)實(shí)現(xiàn)思路

      1、鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備,能夠基于深度強(qiáng)化學(xué)習(xí)的方式實(shí)現(xiàn)仿真環(huán)境建模,有效保證了系統(tǒng)的安全有效運(yùn)行。

      2、第一方面,本發(fā)明提供一種仿真環(huán)境建模方法,所述方法包括以下步驟:基于物理模型構(gòu)建仿真環(huán)境模型;構(gòu)建仿真環(huán)境模型的動(dòng)作空間、狀態(tài)空間;構(gòu)建所述仿真環(huán)境模型的獎(jiǎng)勵(lì)函數(shù);基于所述動(dòng)作空間、所述狀態(tài)空間和所述獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述仿真環(huán)境模型,并在訓(xùn)練所述仿真環(huán)境模型的過(guò)程中基于機(jī)理設(shè)計(jì)動(dòng)作約束;構(gòu)建所述仿真環(huán)境模型的安全性規(guī)范機(jī)制。

      3、在第一方面的一種實(shí)現(xiàn)方式中,基于物理模型構(gòu)建仿真環(huán)境模型包括以下步驟:

      4、獲取所述仿真環(huán)境的物理模型;

      5、建立所述仿真環(huán)境的組件機(jī)理模型;

      6、構(gòu)建所述仿真環(huán)境的控制優(yōu)化目標(biāo)。

      7、在第一方面的一種實(shí)現(xiàn)方式中,構(gòu)建仿真環(huán)境模型的動(dòng)作空間、狀態(tài)空間包括以下步驟:

      8、基于所述仿真環(huán)境模型的狀態(tài)組件的狀態(tài)參數(shù)構(gòu)建所述仿真環(huán)境模型的狀態(tài)空間;

      9、基于所述仿真環(huán)境模型的動(dòng)作組件的動(dòng)作參數(shù)構(gòu)建所述仿真環(huán)境模型的動(dòng)作空間。

      10、在第一方面的一種實(shí)現(xiàn)方式中,構(gòu)建所述仿真環(huán)境模型的獎(jiǎng)勵(lì)函數(shù)包括以下步驟:

      11、獲取所述仿真環(huán)境所需學(xué)習(xí)的策略;

      12、基于所述策略構(gòu)建所述仿真環(huán)境的各個(gè)子獎(jiǎng)勵(lì)函數(shù),基于所述子獎(jiǎng)勵(lì)函數(shù)之和構(gòu)建所述獎(jiǎng)勵(lì)函數(shù)。

      13、在第一方面的一種實(shí)現(xiàn)方式中,在訓(xùn)練所述仿真環(huán)境模型的過(guò)程中基于機(jī)理設(shè)計(jì)動(dòng)作約束包括以下步驟:

      14、確定動(dòng)作的約束方式;

      15、根據(jù)所述約束方式,設(shè)計(jì)對(duì)應(yīng)的約束流程。

      16、在第一方面的一種實(shí)現(xiàn)方式中,根據(jù)所述約束方式,設(shè)計(jì)對(duì)應(yīng)的約束流程包括:

      17、為不同維度的動(dòng)作設(shè)置優(yōu)先級(jí);

      18、在產(chǎn)生動(dòng)作沖突時(shí),根據(jù)動(dòng)作優(yōu)先級(jí)來(lái)選擇動(dòng)作。

      19、在第一方面的一種實(shí)現(xiàn)方式中,構(gòu)建所述仿真環(huán)境模型的安全性規(guī)范機(jī)制包括以下步驟:

      20、構(gòu)建仿真環(huán)境的安全性檢測(cè)機(jī)制,其中當(dāng)某一動(dòng)作對(duì)應(yīng)的參數(shù)偏離目標(biāo)值預(yù)設(shè)閾值時(shí),舍棄所述動(dòng)作;

      21、構(gòu)建仿真環(huán)境的動(dòng)作規(guī)范策略,其中當(dāng)某一動(dòng)作存在安全性問(wèn)題時(shí),構(gòu)建相應(yīng)的確定性策略來(lái)代替所述仿真環(huán)境模型的原有策略。

      22、第二方面,本發(fā)明提供一種仿真環(huán)境建模系統(tǒng),所述系統(tǒng)包括模型構(gòu)建模塊、空間構(gòu)建模塊、獎(jiǎng)勵(lì)構(gòu)建模塊、訓(xùn)練模塊和安全構(gòu)建模塊;

      23、所述模型構(gòu)建模塊用于基于物理模型構(gòu)建仿真環(huán)境模型;

      24、所述空間構(gòu)建模塊用于構(gòu)建仿真環(huán)境模型的動(dòng)作空間、狀態(tài)空間;

      25、所述獎(jiǎng)勵(lì)構(gòu)建模塊用于構(gòu)建所述仿真環(huán)境模型的獎(jiǎng)勵(lì)函數(shù);

      26、所述訓(xùn)練模塊用于基于所述動(dòng)作空間、所述狀態(tài)空間和所述獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述仿真環(huán)境模型,并在訓(xùn)練所述仿真環(huán)境模型的過(guò)程中基于機(jī)理設(shè)計(jì)動(dòng)作約束;

      27、所述安全構(gòu)建模塊用于構(gòu)建所述仿真環(huán)境模型的安全性規(guī)范機(jī)制。

      28、第三方面,本發(fā)明提供一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的仿真環(huán)境建模方法。

      29、第四方面,本發(fā)明提供一種電子設(shè)備,包括:處理器及存儲(chǔ)器;

      30、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;

      31、所述處理器用于執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)程序,以使所述電子設(shè)備執(zhí)行上述的仿真環(huán)境建模方法。

      32、如上所述,本發(fā)明的仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備,具有以下有益效果:

      33、(1)以基于機(jī)理的方式定義了工業(yè)生產(chǎn)控制當(dāng)中的深度強(qiáng)化學(xué)習(xí)仿真環(huán)境,使復(fù)雜、多變的物理模型抽象成簡(jiǎn)單、清晰的仿真模型,極大地提高了深度強(qiáng)化學(xué)習(xí)賦能工業(yè)生產(chǎn)自動(dòng)化、智能化的可能;

      34、(2)以實(shí)際場(chǎng)景、任務(wù)需求、最優(yōu)策略的角度出發(fā)設(shè)計(jì)深度強(qiáng)化學(xué)習(xí)仿真環(huán)境的獎(jiǎng)勵(lì)函數(shù),使仿真環(huán)境模型能學(xué)到更高效、更智能的策略;

      35、(3)在算法訓(xùn)練過(guò)程中,設(shè)計(jì)了基于機(jī)理的動(dòng)作約束機(jī)制,極大提高了算法的探索效率與訓(xùn)練效率;

      36、(4)在算法應(yīng)用過(guò)程中,為了實(shí)際工業(yè)生產(chǎn)的安全性,引入了算法安全性規(guī)范機(jī)制,極大保護(hù)了工業(yè)系統(tǒng)安全、穩(wěn)定地運(yùn)行。



      技術(shù)特征:

      1.一種仿真環(huán)境建模方法,其特征在于:所述方法包括以下步驟:

      2.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:基于物理模型構(gòu)建仿真環(huán)境模型包括以下步驟:

      3.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:構(gòu)建仿真環(huán)境模型的動(dòng)作空間、狀態(tài)空間包括以下步驟:

      4.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:構(gòu)建所述仿真環(huán)境模型的獎(jiǎng)勵(lì)函數(shù)包括以下步驟:

      5.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:在訓(xùn)練所述仿真環(huán)境模型的過(guò)程中基于機(jī)理設(shè)計(jì)動(dòng)作約束包括以下步驟:

      6.根據(jù)權(quán)利要求5所述的仿真環(huán)境建模方法,其特征在于:根據(jù)所述約束方式,設(shè)計(jì)對(duì)應(yīng)的約束流程包括:

      7.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:構(gòu)建所述仿真環(huán)境模型的安全性規(guī)范機(jī)制包括以下步驟:

      8.一種仿真環(huán)境建模系統(tǒng),其特征在于:所述系統(tǒng)包括模型構(gòu)建模塊、空間構(gòu)建模塊、獎(jiǎng)勵(lì)構(gòu)建模塊、訓(xùn)練模塊和安全構(gòu)建模塊;

      9.一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的仿真環(huán)境建模方法。

      10.一種電子設(shè)備,其特征在于,包括:處理器及存儲(chǔ)器;


      技術(shù)總結(jié)
      本發(fā)明提供一種仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備,所述方法包括以下步驟:基于物理模型構(gòu)建仿真環(huán)境模型;構(gòu)建仿真環(huán)境模型的動(dòng)作空間、狀態(tài)空間;構(gòu)建所述仿真環(huán)境模型的獎(jiǎng)勵(lì)函數(shù);基于所述動(dòng)作空間、所述狀態(tài)空間和所述獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述仿真環(huán)境模型,并在訓(xùn)練所述仿真環(huán)境模型的過(guò)程中基于機(jī)理設(shè)計(jì)動(dòng)作約束;構(gòu)建所述仿真環(huán)境模型的安全性規(guī)范機(jī)制。本發(fā)明的仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備能夠基于深度強(qiáng)化學(xué)習(xí)的方式實(shí)現(xiàn)仿真環(huán)境建模,有效保證了系統(tǒng)的安全有效運(yùn)行。

      技術(shù)研發(fā)人員:馬崛,寧德軍
      受保護(hù)的技術(shù)使用者:中國(guó)科學(xué)院上海高等研究院
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/5/16
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1