国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種液體火箭發(fā)動機(jī)起動過程控制方法及系統(tǒng)

      文檔序號:40444197發(fā)布日期:2024-12-24 15:18閱讀:38來源:國知局
      一種液體火箭發(fā)動機(jī)起動過程控制方法及系統(tǒng)

      本發(fā)明涉及液體火箭發(fā)動機(jī)領(lǐng)域和強(qiáng)化學(xué)習(xí)算法,更具體地說,特別涉及一種液體火箭發(fā)動機(jī)起動過程控制方法及系統(tǒng)。


      背景技術(shù):

      1、2024年3月14日,spacex的重型可重復(fù)使用運(yùn)載火箭星艦,在經(jīng)歷了前兩次發(fā)射失敗之后,在第三次發(fā)射中成功入軌,將航天技術(shù)推向新的發(fā)展高度。液體火箭發(fā)動機(jī)的起動過程是一個極其復(fù)雜且關(guān)鍵的階段,涉及到多個系統(tǒng)和子系統(tǒng)的精確協(xié)調(diào)與控制。傳統(tǒng)的控制方法依賴于經(jīng)驗設(shè)計的控制策略和固定參數(shù),這雖然在一定程度上保證了發(fā)動機(jī)的啟動性能,但常常因缺乏適應(yīng)性而難以應(yīng)對多變的外部環(huán)境和內(nèi)部狀態(tài)變化。

      2、隨著人工智能技術(shù)的發(fā)展,強(qiáng)化學(xué)習(xí)作為一種能夠通過與環(huán)境的交互學(xué)習(xí)最優(yōu)策略的算法,為動態(tài)復(fù)雜系統(tǒng)的控制提供了新的解決方案。強(qiáng)化學(xué)習(xí)通過不斷試錯來優(yōu)化控制策略,使得系統(tǒng)能夠在未知和變化的環(huán)境中找到性能最優(yōu)化的操作方式?;趶?qiáng)化學(xué)習(xí)的控制方法已近在航空航天領(lǐng)域的控制中進(jìn)行了一些初步的研究與應(yīng)用,并取得較好的結(jié)果。因此,強(qiáng)化學(xué)習(xí)成為一種為液體火箭發(fā)動機(jī)控制提供一種新的思路和技術(shù)途徑。


      技術(shù)實現(xiàn)思路

      1、本發(fā)明的目的在于提供一種液體火箭發(fā)動機(jī)起動過程控制方法及系統(tǒng),以克服現(xiàn)有技術(shù)所存在的缺陷。

      2、為了達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下:

      3、一種液體火箭發(fā)動機(jī)起動過程控制方法,包括以下步驟:

      4、s1、建立火箭發(fā)動機(jī)模型;

      5、s2、定義火箭發(fā)動機(jī)模型啟動過程中的狀態(tài)空間、動作空間和獎勵函數(shù);

      6、s3、對td3算法進(jìn)行包括10次迭代的更新和使用退火學(xué)習(xí)率的改進(jìn),形成改進(jìn)后的im-td3算法;

      7、s4、使用步驟s3中的im-td3算法設(shè)計、訓(xùn)練和評估rl控制器,將步驟s2中的狀態(tài)空間作為rl控制器的輸入,用于對液體火箭發(fā)動機(jī)起動過程進(jìn)行控制。

      8、進(jìn)一步地,所述步驟s1采用仿真軟件或編程語言建立火箭發(fā)動機(jī)模型,該火箭發(fā)動機(jī)模型可使需要分析的變量能夠輸出。

      9、進(jìn)一步地,所述步驟s2的狀態(tài)空間包括渦輪轉(zhuǎn)速、燃燒室壓力、混合比和閥門開度,所述動作空間包括啟動過程中控制的閥門,所述獎勵函數(shù)包括啟動成功后達(dá)到穩(wěn)態(tài)的目標(biāo)值、導(dǎo)致發(fā)動機(jī)損壞或啟動失敗的因素、影響發(fā)動機(jī)性能的因素。

      10、進(jìn)一步地,所述觀察空間s的公式定義為:

      11、s=[pg,pc,f,nt,nfpp,mrgg,posvgo,posvgf,posvcf]

      12、式中,pg,pc,f,nt,nfpp,mrgg分別為燃?xì)獍l(fā)生器壓力、主燃燒室壓力、推力大小、主渦輪轉(zhuǎn)速、燃料預(yù)壓泵轉(zhuǎn)速、燃?xì)獍l(fā)生器混合比,posvgo,posvgf,posvcf為所控制的閥門的開度;

      13、所述動作空間a的公式定義為:

      14、a=[posvgo,posvgf,posvcf]

      15、所述獎勵函數(shù)的公式定義為:

      16、reward=r1+r2+r3+r4+r5

      17、式中,εi∈[pg,pc,f,nt,nfpp]對目標(biāo)值靠近的獎勵;

      18、r2=1-clip(f-fref/fref|,1);

      19、

      20、acti∈[posvgo,posvgf,posvcf]分別表示三個閥門的開度,s表示閥門前后兩個時間步長之間閥門位置的變化;

      21、at表示閥門的開啟時間。

      22、進(jìn)一步地,所述步驟s3中改進(jìn)后的im-td3算法具體包括以下步驟:

      23、s30、初始化評價網(wǎng)絡(luò)qθ1、qθ2和行動者網(wǎng)絡(luò)πφ,參數(shù)θ1、θ2、φ隨機(jī)賦值;

      24、s31、初始化目標(biāo)網(wǎng)絡(luò)θ1′←θ1、θ2′←θ2、φ′←φ;

      25、s32、初始化回放緩沖區(qū)b和學(xué)習(xí)率調(diào)度器;

      26、s33、對于t=1至t,執(zhí)行10次迭代訓(xùn)練更新。

      27、進(jìn)一步地,所述步驟s33中執(zhí)行10次迭代訓(xùn)練更新具體包括:

      28、s330、從回放緩沖區(qū)中抽樣得到轉(zhuǎn)移(s,a,r,s′,d);

      29、s331、禁用目標(biāo)更新的梯度計算:

      30、計算目標(biāo)動作a′=πφ′(s′)+clip(n(0,σ),-c,c)

      31、計算目標(biāo)動作a′=πφ′(s′)+clip(n(0,σ),-c,c)

      32、計算目標(biāo)qtarget=r+(1-d)·γ·q′

      33、s332、使用mse損失更新評價網(wǎng)絡(luò):mse(qθ(s,a),qtarget);

      34、s333、若i?modpolicy_freq=0,通過最大化評價網(wǎng)絡(luò)的q值來更新行動者網(wǎng)絡(luò)、軟更新目標(biāo)網(wǎng)絡(luò)θi′和φ′;

      35、s334、使用調(diào)度器調(diào)整學(xué)習(xí)率;

      36、其中,qθ1,qθ2:由參數(shù)θ1和θ2參數(shù)化的評價網(wǎng)絡(luò);

      37、πφ:由參數(shù)φ參數(shù)化的行動者網(wǎng)絡(luò);

      38、θ1′,θ2′,φ′表示評價和行動者網(wǎng)絡(luò)的目標(biāo)網(wǎng)絡(luò);

      39、b表示用于存儲轉(zhuǎn)移元組的回放緩沖區(qū);

      40、s,a,r,s′,d表示從回放緩沖區(qū)抽樣得到的狀態(tài)、動作、獎勵、下一狀態(tài)和完成標(biāo)志;

      41、a′表示使用目標(biāo)行動者網(wǎng)絡(luò)和噪聲剪切計算的目標(biāo)動作;

      42、q′表示使用目標(biāo)評價網(wǎng)絡(luò)計算的目標(biāo)q值;

      43、qtarget表示q值更新的目標(biāo);

      44、γ表示未來獎勵的折扣因子;

      45、σ,c表示動作空間中噪聲生成和剪切的參數(shù);

      46、mse表示用于更新評價網(wǎng)絡(luò)的均方誤差損失;

      47、policy_freq表示策略更新相對于評價更新的頻率。

      48、進(jìn)一步地,所述步驟s4中基于matlab-simulink仿真平臺,使用python代碼實現(xiàn)基于im-td3算法的rl控制器。

      49、本發(fā)明還提供一種用于實現(xiàn)上述的液體火箭發(fā)動機(jī)起動過程控制方法的系統(tǒng),包括:

      50、建模模塊,用于建立火箭發(fā)動機(jī)模型;

      51、參數(shù)定義模塊,用于定義火箭發(fā)動機(jī)模型啟動過程中的狀態(tài)空間、動作空間和獎勵函數(shù);

      52、算法改進(jìn)模塊,用于對td3算法進(jìn)行包括10次迭代的更新和使用退火學(xué)習(xí)率的改進(jìn),形成改進(jìn)后的im-td3算法;

      53、rl控制器設(shè)計模塊,用于使用步驟s3中的im-td3算法設(shè)計、訓(xùn)練和評估rl控制器,將步驟s2中的狀態(tài)空間作為rl控制器的輸入,用于對液體火箭發(fā)動機(jī)起動過程進(jìn)行控制;

      54、所述建模模塊、參數(shù)定義模塊、算法改進(jìn)模塊和rl控制器設(shè)計模塊依次連接。

      55、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:本發(fā)明通過在建立的發(fā)動機(jī)模型上,確定狀態(tài)空間、動作空間和獎勵函數(shù),使用im-td3算法,設(shè)計、訓(xùn)練和評估rl控制器,用于對火箭發(fā)動機(jī)起動過程進(jìn)行控制。本發(fā)明實現(xiàn)火箭發(fā)動機(jī)的智能化控制,與傳統(tǒng)的開環(huán)、閉環(huán)控制方法相比,本發(fā)明不需要大量的地面試車經(jīng)驗,不需要設(shè)計復(fù)雜的控制邏輯,通過設(shè)計合適的獎勵函數(shù)能實現(xiàn)復(fù)雜的目標(biāo),并且與td3算法相比,該方法的在火箭發(fā)動機(jī)的控制問題上,模型訓(xùn)練的穩(wěn)定性和收斂性更好。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1