本發(fā)明涉及深度強(qiáng)化學(xué)習(xí)的,特別是涉及一種仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備。
背景技術(shù):
1、近年來(lái),由于深度強(qiáng)化學(xué)習(xí)在游戲決策、機(jī)器人控制等領(lǐng)域大放異彩,人們逐漸嘗試將深度強(qiáng)化學(xué)習(xí)應(yīng)用到實(shí)際的工業(yè)生產(chǎn)控制過(guò)程當(dāng)中,以解決實(shí)際工業(yè)系統(tǒng)的實(shí)時(shí)變化和波動(dòng)性問(wèn)題,實(shí)現(xiàn)生產(chǎn)控制的自動(dòng)化和智能化,提高系統(tǒng)運(yùn)行的效率。
2、當(dāng)前,在深度強(qiáng)化學(xué)習(xí)與實(shí)際工業(yè)生產(chǎn)控制結(jié)合的過(guò)程中仍面臨著許多問(wèn)題。一方面,工業(yè)系統(tǒng)通常非常復(fù)雜,具有大量的變量和相互關(guān)聯(lián)的因素,因此很難建立完備的仿真環(huán)境供深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練。另一方面,仿真環(huán)境的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)對(duì)算法的性能十分關(guān)鍵,其直接影響著智能體學(xué)習(xí)和決策的效果,設(shè)計(jì)不當(dāng)?shù)莫?jiǎng)勵(lì)函數(shù)會(huì)引導(dǎo)策略往錯(cuò)誤的方向發(fā)展。除此之外,從工業(yè)領(lǐng)域的安全性角度出發(fā),深度強(qiáng)化學(xué)習(xí)算法在實(shí)際應(yīng)用中應(yīng)排除錯(cuò)誤動(dòng)作發(fā)生的可能性,以實(shí)現(xiàn)工業(yè)系統(tǒng)安全、穩(wěn)定運(yùn)行。
技術(shù)實(shí)現(xiàn)思路
1、鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備,能夠基于深度強(qiáng)化學(xué)習(xí)的方式實(shí)現(xiàn)仿真環(huán)境建模,有效保證了系統(tǒng)的安全有效運(yùn)行。
2、第一方面,本發(fā)明提供一種仿真環(huán)境建模方法,所述方法包括以下步驟:基于物理模型構(gòu)建仿真環(huán)境模型;構(gòu)建仿真環(huán)境模型的動(dòng)作空間、狀態(tài)空間;構(gòu)建所述仿真環(huán)境模型的獎(jiǎng)勵(lì)函數(shù);基于所述動(dòng)作空間、所述狀態(tài)空間和所述獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述仿真環(huán)境模型,并在訓(xùn)練所述仿真環(huán)境模型的過(guò)程中基于機(jī)理設(shè)計(jì)動(dòng)作約束;構(gòu)建所述仿真環(huán)境模型的安全性規(guī)范機(jī)制。
3、在第一方面的一種實(shí)現(xiàn)方式中,基于物理模型構(gòu)建仿真環(huán)境模型包括以下步驟:
4、獲取所述仿真環(huán)境的物理模型;
5、建立所述仿真環(huán)境的組件機(jī)理模型;
6、構(gòu)建所述仿真環(huán)境的控制優(yōu)化目標(biāo)。
7、在第一方面的一種實(shí)現(xiàn)方式中,構(gòu)建仿真環(huán)境模型的動(dòng)作空間、狀態(tài)空間包括以下步驟:
8、基于所述仿真環(huán)境模型的狀態(tài)組件的狀態(tài)參數(shù)構(gòu)建所述仿真環(huán)境模型的狀態(tài)空間;
9、基于所述仿真環(huán)境模型的動(dòng)作組件的動(dòng)作參數(shù)構(gòu)建所述仿真環(huán)境模型的動(dòng)作空間。
10、在第一方面的一種實(shí)現(xiàn)方式中,構(gòu)建所述仿真環(huán)境模型的獎(jiǎng)勵(lì)函數(shù)包括以下步驟:
11、獲取所述仿真環(huán)境所需學(xué)習(xí)的策略;
12、基于所述策略構(gòu)建所述仿真環(huán)境的各個(gè)子獎(jiǎng)勵(lì)函數(shù),基于所述子獎(jiǎng)勵(lì)函數(shù)之和構(gòu)建所述獎(jiǎng)勵(lì)函數(shù)。
13、在第一方面的一種實(shí)現(xiàn)方式中,在訓(xùn)練所述仿真環(huán)境模型的過(guò)程中基于機(jī)理設(shè)計(jì)動(dòng)作約束包括以下步驟:
14、確定動(dòng)作的約束方式;
15、根據(jù)所述約束方式,設(shè)計(jì)對(duì)應(yīng)的約束流程。
16、在第一方面的一種實(shí)現(xiàn)方式中,根據(jù)所述約束方式,設(shè)計(jì)對(duì)應(yīng)的約束流程包括:
17、為不同維度的動(dòng)作設(shè)置優(yōu)先級(jí);
18、在產(chǎn)生動(dòng)作沖突時(shí),根據(jù)動(dòng)作優(yōu)先級(jí)來(lái)選擇動(dòng)作。
19、在第一方面的一種實(shí)現(xiàn)方式中,構(gòu)建所述仿真環(huán)境模型的安全性規(guī)范機(jī)制包括以下步驟:
20、構(gòu)建仿真環(huán)境的安全性檢測(cè)機(jī)制,其中當(dāng)某一動(dòng)作對(duì)應(yīng)的參數(shù)偏離目標(biāo)值預(yù)設(shè)閾值時(shí),舍棄所述動(dòng)作;
21、構(gòu)建仿真環(huán)境的動(dòng)作規(guī)范策略,其中當(dāng)某一動(dòng)作存在安全性問(wèn)題時(shí),構(gòu)建相應(yīng)的確定性策略來(lái)代替所述仿真環(huán)境模型的原有策略。
22、第二方面,本發(fā)明提供一種仿真環(huán)境建模系統(tǒng),所述系統(tǒng)包括模型構(gòu)建模塊、空間構(gòu)建模塊、獎(jiǎng)勵(lì)構(gòu)建模塊、訓(xùn)練模塊和安全構(gòu)建模塊;
23、所述模型構(gòu)建模塊用于基于物理模型構(gòu)建仿真環(huán)境模型;
24、所述空間構(gòu)建模塊用于構(gòu)建仿真環(huán)境模型的動(dòng)作空間、狀態(tài)空間;
25、所述獎(jiǎng)勵(lì)構(gòu)建模塊用于構(gòu)建所述仿真環(huán)境模型的獎(jiǎng)勵(lì)函數(shù);
26、所述訓(xùn)練模塊用于基于所述動(dòng)作空間、所述狀態(tài)空間和所述獎(jiǎng)勵(lì)函數(shù)訓(xùn)練所述仿真環(huán)境模型,并在訓(xùn)練所述仿真環(huán)境模型的過(guò)程中基于機(jī)理設(shè)計(jì)動(dòng)作約束;
27、所述安全構(gòu)建模塊用于構(gòu)建所述仿真環(huán)境模型的安全性規(guī)范機(jī)制。
28、第三方面,本發(fā)明提供一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的仿真環(huán)境建模方法。
29、第四方面,本發(fā)明提供一種電子設(shè)備,包括:處理器及存儲(chǔ)器;
30、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;
31、所述處理器用于執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)程序,以使所述電子設(shè)備執(zhí)行上述的仿真環(huán)境建模方法。
32、如上所述,本發(fā)明的仿真環(huán)境建模方法、系統(tǒng)、存儲(chǔ)介質(zhì)、電子設(shè)備,具有以下有益效果:
33、(1)以基于機(jī)理的方式定義了工業(yè)生產(chǎn)控制當(dāng)中的深度強(qiáng)化學(xué)習(xí)仿真環(huán)境,使復(fù)雜、多變的物理模型抽象成簡(jiǎn)單、清晰的仿真模型,極大地提高了深度強(qiáng)化學(xué)習(xí)賦能工業(yè)生產(chǎn)自動(dòng)化、智能化的可能;
34、(2)以實(shí)際場(chǎng)景、任務(wù)需求、最優(yōu)策略的角度出發(fā)設(shè)計(jì)深度強(qiáng)化學(xué)習(xí)仿真環(huán)境的獎(jiǎng)勵(lì)函數(shù),使仿真環(huán)境模型能學(xué)到更高效、更智能的策略;
35、(3)在算法訓(xùn)練過(guò)程中,設(shè)計(jì)了基于機(jī)理的動(dòng)作約束機(jī)制,極大提高了算法的探索效率與訓(xùn)練效率;
36、(4)在算法應(yīng)用過(guò)程中,為了實(shí)際工業(yè)生產(chǎn)的安全性,引入了算法安全性規(guī)范機(jī)制,極大保護(hù)了工業(yè)系統(tǒng)安全、穩(wěn)定地運(yùn)行。
1.一種仿真環(huán)境建模方法,其特征在于:所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:基于物理模型構(gòu)建仿真環(huán)境模型包括以下步驟:
3.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:構(gòu)建仿真環(huán)境模型的動(dòng)作空間、狀態(tài)空間包括以下步驟:
4.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:構(gòu)建所述仿真環(huán)境模型的獎(jiǎng)勵(lì)函數(shù)包括以下步驟:
5.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:在訓(xùn)練所述仿真環(huán)境模型的過(guò)程中基于機(jī)理設(shè)計(jì)動(dòng)作約束包括以下步驟:
6.根據(jù)權(quán)利要求5所述的仿真環(huán)境建模方法,其特征在于:根據(jù)所述約束方式,設(shè)計(jì)對(duì)應(yīng)的約束流程包括:
7.根據(jù)權(quán)利要求1所述的仿真環(huán)境建模方法,其特征在于:構(gòu)建所述仿真環(huán)境模型的安全性規(guī)范機(jī)制包括以下步驟:
8.一種仿真環(huán)境建模系統(tǒng),其特征在于:所述系統(tǒng)包括模型構(gòu)建模塊、空間構(gòu)建模塊、獎(jiǎng)勵(lì)構(gòu)建模塊、訓(xùn)練模塊和安全構(gòu)建模塊;
9.一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的仿真環(huán)境建模方法。
10.一種電子設(shè)備,其特征在于,包括:處理器及存儲(chǔ)器;