国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法、系統(tǒng)、電子設備及存儲介質

      文檔序號:39615600發(fā)布日期:2024-10-11 13:26閱讀:26來源:國知局
      一種基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法、系統(tǒng)、電子設備及存儲介質

      本發(fā)明屬于無人艇導航,具體涉及一種基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法、系統(tǒng)、電子設備及存儲介質。


      背景技術:

      1、無人水面艇作為具備自主航行能力的先進水上智能裝備,在民用、軍事以及海洋探索等多個領域均展現(xiàn)出巨大的應用潛力;其核心技術涉及傳感系統(tǒng)、通信系統(tǒng)、運動控制系統(tǒng)及自主導航系統(tǒng)等;其中,自主導航系統(tǒng)是保障無人水面艇安全、高效完成作業(yè)任務的關鍵。

      2、無人艇自主導航的主要任務是通過最優(yōu)化的動作和決策,驅動無人水面艇在復雜未知環(huán)境中安全、高效地到達目標點;但由于現(xiàn)有無人艇系統(tǒng)多采用欠驅動系統(tǒng),其實際控制輸入的維度小于無人艇運動空間的維度,這容易導致無人艇的動力學性能不足,需要通過耦合運動來實現(xiàn)航向保持、路徑跟蹤等操作;無人艇在實際的自主航行的過程中,還需應對各種復雜的動態(tài)障礙物以及多變的自然環(huán)境干擾,而現(xiàn)有無人艇多采用單一導航策略,這些外部因素會大幅度增加無人艇導航控制的難度,影響現(xiàn)有無人艇導航的穩(wěn)定性和可靠性。


      技術實現(xiàn)思路

      1、為了解決現(xiàn)有無人艇單一導航策略在環(huán)境適應能力方面不足的問題,本發(fā)明提供了一種能夠依據(jù)環(huán)境狀態(tài)自適應調整導航策略的基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法、系統(tǒng)、電子設備及存儲介質。

      2、基于上述目的,本發(fā)明通過如下技術方案實現(xiàn):

      3、本發(fā)明第一方面提供一種基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法,包括以下步驟:

      4、s1、采用最小池化方法降低激光雷達數(shù)據(jù)的維度。

      5、s2、根據(jù)目標點坐標信息與無人艇位姿及速度數(shù)據(jù),計算無人艇自身狀態(tài)信息。

      6、s3、收集包含當前時刻在內的前nstep個時間點的感知數(shù)據(jù)組織成序列向量。

      7、s4、采用長短時記憶網(wǎng)絡編碼激光雷達與無人艇自身狀態(tài)的序列數(shù)據(jù),以提取數(shù)據(jù)中的時序特征與狀態(tài)特征。

      8、s5、基于無人艇自適應導航問題構建高層決策模塊的馬爾可夫決策過程與獎勵函數(shù),利用高層決策模塊根據(jù)編碼后的觀測數(shù)據(jù)輸出導航技能向量。

      9、s6、基于無人艇自適應導航問題構建低層決策模塊的馬爾可夫決策過程與獎勵函數(shù),并利用低層決策模塊根據(jù)編碼后的觀測數(shù)據(jù)與高層決策模塊輸出的技能向量控制無人艇執(zhí)行具體的運動指令。

      10、s7、基于s6中低層決策模塊的馬爾可夫決策過程與獎勵函數(shù),采用深度強化學習算法訓練一組具有不同表現(xiàn)行為的無人艇導航策略,得到低層決策模塊的網(wǎng)絡模型。

      11、基于s6中低層決策模塊的馬爾可夫決策過程與獎勵函數(shù)采用sac(soft?actor-critic)算法(haarnoja?t,zhoua,abbeel?p,et?al.soft?actor-critic:off-policymaximum?entropy?deep?reinforcement?learning?with?a?stochastic?actor[j].)訓練低層決策模塊的網(wǎng)絡模型;

      12、s8、基于s5中高層決策模塊的馬爾可夫決策過程、獎勵函數(shù)以及s7訓練完成后的低層決策模塊,采用深度強化學習算法訓練得到高層決策模塊的網(wǎng)絡模型。

      13、基于s5中高層決策模塊的馬爾可夫決策過程、獎勵函數(shù)以及訓練完成后的低層決策模塊,采用sac算法訓練高層決策模塊的網(wǎng)絡模型;

      14、s9、基于s7中低層決策模塊的網(wǎng)絡模型和s8中高層決策模塊的網(wǎng)絡模型,利用高層決策模塊在更高層次上分析環(huán)境狀態(tài)并提供用于導航策略指導的技能向量,而低層決策模塊則依據(jù)高層決策模塊的指導執(zhí)行適宜的導航控制策略。

      15、根據(jù)上述基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法,優(yōu)選地,在步驟s1中,所述最小池化方法包括以下步驟:

      16、s100、根據(jù)水面與固體障礙物的反射率差異,去除水面產(chǎn)生的雷達反射數(shù)據(jù)。

      17、s101、將激光雷達檢測區(qū)域沿水平方向劃分成n個扇形子區(qū)間,并選取每個子區(qū)域中點云到無人艇的最短距離作為該區(qū)域的代表性輸出。

      18、根據(jù)上述基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法,優(yōu)選地,在步驟s2中,所述無人艇自身狀態(tài)信息的計算包括以下步驟:

      19、s200、根據(jù)目標點坐標信息(xtarget,ytarget)與無人艇位姿數(shù)據(jù)(x,y,φ),將目標點坐標信息轉換為極坐標信息(dgoal,θgoal);其中,φ表示無人艇的艏向角。

      20、s20l、根據(jù)無人艇位姿與速度數(shù)據(jù),獲取無人艇的運動速度v、角速度w、漂移角β。

      21、根據(jù)上述基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法,優(yōu)選地,在步驟s5中,構建高層決策模塊的馬爾可夫決策過程與獎勵函數(shù)包括以下步驟:

      22、s500、高層決策模塊的動作空間為一組五元的技能向量其中,技能向量ahigh作為低層決策模塊獎勵函數(shù)的系數(shù)。

      23、s501、高層決策模塊的狀態(tài)空間為長短時記憶網(wǎng)絡編碼后激光雷達的序列數(shù)據(jù)lstm(oscan)與無人艇自身狀態(tài)的序列數(shù)據(jù)lstm([dgoal,θgoal,v,w,β])。

      24、s502、高層決策模塊的獎勵函數(shù)rhigh為:

      25、

      26、其中,dreach表示無人艇到達目標點的閾值。

      27、根據(jù)上述基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法,優(yōu)選地,在步驟s6中,構建低層決策模塊的馬爾可夫決策過程與獎勵函數(shù)包括以下步驟:

      28、s600、低層決策模塊的動作空間為無人艇的實際控制指令ahigh=[nτ,nw];其中,nτ表示無人艇推進器的推進指令;nw表示無人艇推進器的轉向指令。

      29、s601、低層決策模塊的狀態(tài)空間為長短時記憶網(wǎng)絡編碼后的激光雷達的序列數(shù)據(jù)lstm(oscan)、無人艇自身狀態(tài)的序列數(shù)據(jù)lstm([dgoal,θgoal,v,w,β])和高層決策模塊輸出的技能向量ahigh。

      30、s602、低層決策模塊的導航結果獎勵函數(shù)rresult為:

      31、

      32、其中,dobstacles表示無人艇至任意障礙物的距離,dcollision表示無人艇發(fā)生碰撞的閾值。

      33、s603、低層決策模塊的過程獎勵函數(shù)rprocess、航行偏差懲罰速度獎勵rv、角速度獎勵rw為:

      34、

      35、其中,δdmax表示單步的最大航行距離;表示當前航向與目標點相對于無人艇方位的偏差值。

      36、s604、低層決策模塊的安全獎勵函數(shù)rsaje為:

      37、

      38、其中,dsafe表示無人艇的安全警戒距離;dscan表示任意激光點云距離。

      39、s605、根據(jù)低層決策模塊的導航結果獎勵函數(shù)、過程獎勵函數(shù)和安全獎勵函數(shù)得到低層決策模塊的最終獎勵函數(shù)r為:

      40、

      41、根據(jù)上述基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法,優(yōu)選地,在步驟s7中,所述低層決策模塊的網(wǎng)絡模型包括以下訓練步驟:

      42、s700、根據(jù)s6中的低層決策模塊的馬爾可夫決策過程搭建強化學習訓練環(huán)境。

      43、s701、搭建基于低層決策模塊actor-critic結構的深度神經(jīng)網(wǎng)絡。

      44、s702、設置深度強化學習算法的超參數(shù),并在每回合開始時為觀測狀態(tài)添加隨機的技能向量構成低層決策模塊的狀態(tài)空間,以開始訓練;所述深度強化學習算法為sac算法。

      45、s703、保存訓練好的網(wǎng)絡模型。

      46、根據(jù)上述基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法,優(yōu)選地,在步驟s8中,所述高層決策模塊的網(wǎng)絡模型包括以下訓練步驟:

      47、s800、根據(jù)s5中的高層決策模塊的馬爾可夫決策過程搭建強化學習訓練環(huán)境。

      48、s801、搭建基于高層決策模塊actor-critic結構的深度神經(jīng)網(wǎng)絡。

      49、s802、設置深度強化學習算法的超參數(shù),并加載訓練完成的低層決策模塊以開始訓練,并利用事后經(jīng)驗回放技術加速訓練過程;所述深度強化學習算法為sac算法。

      50、s803、保存訓練好的網(wǎng)絡模型。

      51、利用上述基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法的無人艇自適應導航系統(tǒng),包括長短時感知處理模塊、高層決策模塊和低層決策模塊,并設計多種形式的獎勵函數(shù)來指導模型進行訓練;所述長短時感知處理模塊利用長短時記憶網(wǎng)絡學習并解析激光雷達感知數(shù)據(jù)和無人艇自身狀態(tài)信息的時序特征,進而得到蘊含時域信息的狀態(tài)輸入,幫助決策網(wǎng)絡更好地理解預測復雜的動態(tài)環(huán)境;所述高層決策模塊用于根據(jù)當前時刻的狀態(tài)輸入,理解判斷當前環(huán)境局勢并制定宏觀策略向量,以指導低層決策模塊調用最佳的導航策略;所述低層決策模塊擁有一套具備不同策略傾向的導航技能,用于根據(jù)當前狀態(tài)輸入與高層決策模塊的宏觀策略向量,部署適當?shù)膶Ш郊寄埽则寗訜o人艇駛向目標點。

      52、本發(fā)明第二方面提供了一種電子設備,包括存儲器及處理器,所述存儲器上存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如第一方面所述的基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法中的任一步驟。

      53、本發(fā)明第三方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序經(jīng)計算機處理器執(zhí)行時實現(xiàn)如第一方面所述的基于分層式強化學習與長短時記憶網(wǎng)絡的無人艇自適應導航方法中的任一步驟。

      54、與現(xiàn)有技術相比,本發(fā)明的有益效果如下:

      55、1、本發(fā)明通過使用無人艇搭載的傳感器數(shù)據(jù)進行訓練,無需了解無人艇的運動學模型和動力學模型,就能夠直接將觀測狀態(tài)映射到無人艇的控制指令上,實現(xiàn)了端到端的訓練。

      56、2、本發(fā)明的長短時感知處理模塊通過長短時記憶網(wǎng)絡從時域維度處理激光雷達及無人艇的原始傳感數(shù)據(jù),進行時域特征提取,通過提取數(shù)據(jù)中的時序特征與狀態(tài)特征,來輔助模型理解預測復雜動態(tài)環(huán)境的變化,方便無人艇根據(jù)環(huán)境的變化自適應地選擇適宜的導航策略,提升無人艇對環(huán)境變化的適應能力,提升無人艇導航的自適應能力。

      57、3、本發(fā)明采用分層式控制框架,該框架利用高層決策模塊對觀測狀態(tài)進行綜合分析,并管理和協(xié)調一組低層決策模塊的導航控制策略,進而指導低層決策模塊部署適宜的導航策略,實現(xiàn)多導航策略的學習與自適應部署,使模型能夠適應各種環(huán)境狀況,增強策略的魯棒性與泛化性,方便無人艇依據(jù)環(huán)境自適應地部署最適宜的導航策略。

      58、4、本發(fā)明包括長短時感知處理模塊、高層決策模塊與低層決策模塊;長短時感知處理模塊利用最小化方法降低激光雷達數(shù)據(jù)的維度,并根據(jù)目標點坐標信息與無人艇位姿、速度數(shù)據(jù),計算無人艇自身狀態(tài)信息,同時收集一系列時序相連的感知數(shù)據(jù)組成序列向量,以利用長短時記憶網(wǎng)絡提取數(shù)據(jù)中的時序特征與狀態(tài)特征;本發(fā)明根據(jù)高層決策模塊的功能目標,基于無人艇自適應導航問題構建高層決策模塊的馬爾可夫決策過程與獎勵函數(shù);根據(jù)低層決策模塊的功能目標,基于無人艇自適應導航問題構建低層決策模塊的馬爾可夫決策過程與獎勵函數(shù);然后,基于低層決策模塊與高層決策模塊的馬爾可夫決策過程與獎勵函數(shù),采用深度強化學習算法訓練無人艇導航策略;最后將訓練好的模型搭載在無人艇上,利用高層決策模塊根據(jù)編碼后的觀測數(shù)據(jù)輸出導航技能向量,并利用低層決策模塊根據(jù)編碼后的觀測數(shù)據(jù)與高層決策模塊輸出的技能向量控制無人艇執(zhí)行具體的運動指令,方便無人艇部署適宜的導航控制策略;本發(fā)明實現(xiàn)了依據(jù)不同的環(huán)境狀態(tài)特征自適應地選擇適宜的導航策略,為后續(xù)開展無人艇導航策略的研究開拓了新的思路。

      59、綜上,本發(fā)明能夠綜合分析當前動態(tài)環(huán)境狀態(tài)特征,利用高層決策模塊在更高層次上抽象地分析環(huán)境狀態(tài),并指導低層決策模塊部署適宜的導航控制策略,從而令模型能夠適應各類環(huán)境狀況,增強策略的魯棒性與泛化性,使得本發(fā)明能夠依據(jù)不同的環(huán)境狀態(tài)自適應地選擇適宜的導航策略,方便無人艇在復雜未知水域環(huán)境狀態(tài)下實現(xiàn)自適應調整導航策略的目的。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1