本發(fā)明涉及液體火箭發(fā)動機(jī)領(lǐng)域和強(qiáng)化學(xué)習(xí)算法,更具體地說,特別涉及一種液體火箭發(fā)動機(jī)起動過程控制方法及系統(tǒng)。
背景技術(shù):
1、2024年3月14日,spacex的重型可重復(fù)使用運(yùn)載火箭星艦,在經(jīng)歷了前兩次發(fā)射失敗之后,在第三次發(fā)射中成功入軌,將航天技術(shù)推向新的發(fā)展高度。液體火箭發(fā)動機(jī)的起動過程是一個極其復(fù)雜且關(guān)鍵的階段,涉及到多個系統(tǒng)和子系統(tǒng)的精確協(xié)調(diào)與控制。傳統(tǒng)的控制方法依賴于經(jīng)驗設(shè)計的控制策略和固定參數(shù),這雖然在一定程度上保證了發(fā)動機(jī)的啟動性能,但常常因缺乏適應(yīng)性而難以應(yīng)對多變的外部環(huán)境和內(nèi)部狀態(tài)變化。
2、隨著人工智能技術(shù)的發(fā)展,強(qiáng)化學(xué)習(xí)作為一種能夠通過與環(huán)境的交互學(xué)習(xí)最優(yōu)策略的算法,為動態(tài)復(fù)雜系統(tǒng)的控制提供了新的解決方案。強(qiáng)化學(xué)習(xí)通過不斷試錯來優(yōu)化控制策略,使得系統(tǒng)能夠在未知和變化的環(huán)境中找到性能最優(yōu)化的操作方式?;趶?qiáng)化學(xué)習(xí)的控制方法已近在航空航天領(lǐng)域的控制中進(jìn)行了一些初步的研究與應(yīng)用,并取得較好的結(jié)果。因此,強(qiáng)化學(xué)習(xí)成為一種為液體火箭發(fā)動機(jī)控制提供一種新的思路和技術(shù)途徑。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種液體火箭發(fā)動機(jī)起動過程控制方法及系統(tǒng),以克服現(xiàn)有技術(shù)所存在的缺陷。
2、為了達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下:
3、一種液體火箭發(fā)動機(jī)起動過程控制方法,包括以下步驟:
4、s1、建立火箭發(fā)動機(jī)模型;
5、s2、定義火箭發(fā)動機(jī)模型啟動過程中的狀態(tài)空間、動作空間和獎勵函數(shù);
6、s3、對td3算法進(jìn)行包括10次迭代的更新和使用退火學(xué)習(xí)率的改進(jìn),形成改進(jìn)后的im-td3算法;
7、s4、使用步驟s3中的im-td3算法設(shè)計、訓(xùn)練和評估rl控制器,將步驟s2中的狀態(tài)空間作為rl控制器的輸入,用于對液體火箭發(fā)動機(jī)起動過程進(jìn)行控制。
8、進(jìn)一步地,所述步驟s1采用仿真軟件或編程語言建立火箭發(fā)動機(jī)模型,該火箭發(fā)動機(jī)模型可使需要分析的變量能夠輸出。
9、進(jìn)一步地,所述步驟s2的狀態(tài)空間包括渦輪轉(zhuǎn)速、燃燒室壓力、混合比和閥門開度,所述動作空間包括啟動過程中控制的閥門,所述獎勵函數(shù)包括啟動成功后達(dá)到穩(wěn)態(tài)的目標(biāo)值、導(dǎo)致發(fā)動機(jī)損壞或啟動失敗的因素、影響發(fā)動機(jī)性能的因素。
10、進(jìn)一步地,所述觀察空間s的公式定義為:
11、s=[pg,pc,f,nt,nfpp,mrgg,posvgo,posvgf,posvcf]
12、式中,pg,pc,f,nt,nfpp,mrgg分別為燃?xì)獍l(fā)生器壓力、主燃燒室壓力、推力大小、主渦輪轉(zhuǎn)速、燃料預(yù)壓泵轉(zhuǎn)速、燃?xì)獍l(fā)生器混合比,posvgo,posvgf,posvcf為所控制的閥門的開度;
13、所述動作空間a的公式定義為:
14、a=[posvgo,posvgf,posvcf]
15、所述獎勵函數(shù)的公式定義為:
16、reward=r1+r2+r3+r4+r5
17、式中,εi∈[pg,pc,f,nt,nfpp]對目標(biāo)值靠近的獎勵;
18、r2=1-clip(f-fref/fref|,1);
19、
20、acti∈[posvgo,posvgf,posvcf]分別表示三個閥門的開度,s表示閥門前后兩個時間步長之間閥門位置的變化;
21、at表示閥門的開啟時間。
22、進(jìn)一步地,所述步驟s3中改進(jìn)后的im-td3算法具體包括以下步驟:
23、s30、初始化評價網(wǎng)絡(luò)qθ1、qθ2和行動者網(wǎng)絡(luò)πφ,參數(shù)θ1、θ2、φ隨機(jī)賦值;
24、s31、初始化目標(biāo)網(wǎng)絡(luò)θ1′←θ1、θ2′←θ2、φ′←φ;
25、s32、初始化回放緩沖區(qū)b和學(xué)習(xí)率調(diào)度器;
26、s33、對于t=1至t,執(zhí)行10次迭代訓(xùn)練更新。
27、進(jìn)一步地,所述步驟s33中執(zhí)行10次迭代訓(xùn)練更新具體包括:
28、s330、從回放緩沖區(qū)中抽樣得到轉(zhuǎn)移(s,a,r,s′,d);
29、s331、禁用目標(biāo)更新的梯度計算:
30、計算目標(biāo)動作a′=πφ′(s′)+clip(n(0,σ),-c,c)
31、計算目標(biāo)動作a′=πφ′(s′)+clip(n(0,σ),-c,c)
32、計算目標(biāo)qtarget=r+(1-d)·γ·q′
33、s332、使用mse損失更新評價網(wǎng)絡(luò):mse(qθ(s,a),qtarget);
34、s333、若i?modpolicy_freq=0,通過最大化評價網(wǎng)絡(luò)的q值來更新行動者網(wǎng)絡(luò)、軟更新目標(biāo)網(wǎng)絡(luò)θi′和φ′;
35、s334、使用調(diào)度器調(diào)整學(xué)習(xí)率;
36、其中,qθ1,qθ2:由參數(shù)θ1和θ2參數(shù)化的評價網(wǎng)絡(luò);
37、πφ:由參數(shù)φ參數(shù)化的行動者網(wǎng)絡(luò);
38、θ1′,θ2′,φ′表示評價和行動者網(wǎng)絡(luò)的目標(biāo)網(wǎng)絡(luò);
39、b表示用于存儲轉(zhuǎn)移元組的回放緩沖區(qū);
40、s,a,r,s′,d表示從回放緩沖區(qū)抽樣得到的狀態(tài)、動作、獎勵、下一狀態(tài)和完成標(biāo)志;
41、a′表示使用目標(biāo)行動者網(wǎng)絡(luò)和噪聲剪切計算的目標(biāo)動作;
42、q′表示使用目標(biāo)評價網(wǎng)絡(luò)計算的目標(biāo)q值;
43、qtarget表示q值更新的目標(biāo);
44、γ表示未來獎勵的折扣因子;
45、σ,c表示動作空間中噪聲生成和剪切的參數(shù);
46、mse表示用于更新評價網(wǎng)絡(luò)的均方誤差損失;
47、policy_freq表示策略更新相對于評價更新的頻率。
48、進(jìn)一步地,所述步驟s4中基于matlab-simulink仿真平臺,使用python代碼實現(xiàn)基于im-td3算法的rl控制器。
49、本發(fā)明還提供一種用于實現(xiàn)上述的液體火箭發(fā)動機(jī)起動過程控制方法的系統(tǒng),包括:
50、建模模塊,用于建立火箭發(fā)動機(jī)模型;
51、參數(shù)定義模塊,用于定義火箭發(fā)動機(jī)模型啟動過程中的狀態(tài)空間、動作空間和獎勵函數(shù);
52、算法改進(jìn)模塊,用于對td3算法進(jìn)行包括10次迭代的更新和使用退火學(xué)習(xí)率的改進(jìn),形成改進(jìn)后的im-td3算法;
53、rl控制器設(shè)計模塊,用于使用步驟s3中的im-td3算法設(shè)計、訓(xùn)練和評估rl控制器,將步驟s2中的狀態(tài)空間作為rl控制器的輸入,用于對液體火箭發(fā)動機(jī)起動過程進(jìn)行控制;
54、所述建模模塊、參數(shù)定義模塊、算法改進(jìn)模塊和rl控制器設(shè)計模塊依次連接。
55、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:本發(fā)明通過在建立的發(fā)動機(jī)模型上,確定狀態(tài)空間、動作空間和獎勵函數(shù),使用im-td3算法,設(shè)計、訓(xùn)練和評估rl控制器,用于對火箭發(fā)動機(jī)起動過程進(jìn)行控制。本發(fā)明實現(xiàn)火箭發(fā)動機(jī)的智能化控制,與傳統(tǒng)的開環(huán)、閉環(huán)控制方法相比,本發(fā)明不需要大量的地面試車經(jīng)驗,不需要設(shè)計復(fù)雜的控制邏輯,通過設(shè)計合適的獎勵函數(shù)能實現(xiàn)復(fù)雜的目標(biāo),并且與td3算法相比,該方法的在火箭發(fā)動機(jī)的控制問題上,模型訓(xùn)練的穩(wěn)定性和收斂性更好。