国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于深度強化學習的車輛-無人機協(xié)同配送路徑優(yōu)化方法

      文檔序號:40442018發(fā)布日期:2024-12-24 15:16閱讀:24來源:國知局
      基于深度強化學習的車輛-無人機協(xié)同配送路徑優(yōu)化方法

      本發(fā)明涉及路徑優(yōu)化,具體涉及一種基于深度強化學習的車輛-無人機協(xié)同配送路徑優(yōu)化方法。


      背景技術(shù):

      1、隨著電商的快速發(fā)展,按需配送服務需求不斷增長,傳統(tǒng)物流配送模式效率低下,而無人機因其高機動性和不受地面交通影響,被視為解決這一問題的潛在方案。使用車輛-無人機協(xié)同配送,可彌補無人機續(xù)航和載重的不足,實現(xiàn)更高效的城市物流配送。

      2、車輛-無人機協(xié)同配送路徑優(yōu)化屬于旅行商問題(tsp),這是一個np-hard問題,目前多數(shù)研究采用精確算法或啟發(fā)式算法求解。精確算法通常只適用于求解小規(guī)模實例;啟發(fā)式算法在當前研究中占主導地位,但即使是目前最有效的啟發(fā)式算法,也可能需要數(shù)小時來為大規(guī)模問題生成高質(zhì)量的解決方案。此外,在城市終端配送中,需求和環(huán)境存在動態(tài)和不確定性,如訂單數(shù)量和位置的隨機性以及隨時間變化的交通流量,所有這些都將影響終端配送的效率和及時性。但目前多數(shù)研究僅考慮了基本的場景,忽略了交通流量的時變特性以及動態(tài)需求對路徑優(yōu)化結(jié)果的影響;而考慮環(huán)境的動態(tài)變化也將進一步增加問題的復雜度,降低算法求解效率。因此,需要綜合考慮動態(tài)需求以及動態(tài)交通流的對配送時間的影響,設(shè)計更為高效的深度強化學習算法,基于實時交通流數(shù)據(jù)動態(tài)調(diào)整分配策略,優(yōu)化配送路徑和時間。


      技術(shù)實現(xiàn)思路

      1、本發(fā)明公開了一種基于深度強化學習的車輛-無人機協(xié)同配送路徑優(yōu)化方法,旨在考慮不斷變化的交通條件和客戶需求,實時優(yōu)化車輛-無人機的配送路徑和時間,提高求解效率。

      2、為實現(xiàn)上述目的,本發(fā)明提供的技術(shù)方案是:

      3、一種基于深度強化學習的車輛-無人機協(xié)同配送路徑優(yōu)化方法,其特征在于,包括以下步驟:

      4、步驟1:考慮不同交通流狀態(tài)下車輛行駛速度不同,建立動態(tài)物流配送時間函數(shù),量化動態(tài)交通流狀態(tài)下的車輛-無人機協(xié)同配送時間變化;

      5、步驟2:考慮動態(tài)配送時間,以滿足客戶所有需求配送時效性最高為目標,建立車輛-無人機隊低空物流協(xié)同配送路徑優(yōu)化模型;

      6、步驟3:針對動態(tài)交通流狀態(tài)和客戶動態(tài)需求,建立帶有需求過期懲罰的獎勵函數(shù);

      7、步驟4:采用深度強化學習算法求解車輛-無人機低空物流協(xié)同配送路徑動態(tài)優(yōu)化模型。

      8、為優(yōu)化上述技術(shù)方案,采取的具體措施/限定還包括:

      9、在步驟1中,定義兩點之間的配送時間為變量,基于一天中的時間以及交通流狀態(tài)發(fā)生變化。首先考慮動態(tài)交通流的時變特性,定義3種交通流狀態(tài)下的車輛速度;

      10、通暢狀態(tài):在深夜或清晨時段,主干道上車輛平均行駛速度為32km/h,次要道路上車輛平均行駛速度為23km/h;

      11、擁堵狀態(tài):在高峰時間段,主干道上車輛平均行駛速度為24km/h,次要道路上車輛平均行駛速度為16km/h;

      12、中等狀態(tài):在高峰時間段后,主干道上車輛平均行駛速度為28km/h,次要道路上車輛平均行駛速度為20km/h。

      13、將節(jié)點間的歐式距離除以不同交通流狀態(tài)下隨時間變化的速度,建立動態(tài)物流配送時間函數(shù),模型捕捉了一天中不同交通流的波動性質(zhì)。

      14、在步驟2中,建立車輛-無人機隊低空物流協(xié)同配送路徑優(yōu)化模型??紤]隨時刻變化的動態(tài)配送時間,以最小化總配送時間為目標函數(shù),公式如下:

      15、;

      16、其中, t為時間段的集合,k為運輸方式的集合,包括車輛和無人機,a為節(jié)點之間路段的弧集合;表示在 t時刻,從節(jié)點 i到節(jié)點 j的運輸時間;為二進制變量,表示在 t時刻是否使用運輸方式 k從節(jié)點 i到節(jié)點 j。

      17、為適應動態(tài)配送環(huán)境,約束條件涵蓋了客戶服務分配、容量限制、訪問順序和時間窗口等多個方面,確保模型能夠應對隨時間變化的新增需求。

      18、在步驟3中,針對動態(tài)交通流狀態(tài)和客戶動態(tài)需求,建立帶有需求過期懲罰的獎勵函數(shù)。

      19、在強化學習框架中,獎勵函數(shù)引導智能體的行為走向預期的結(jié)果。在每個時間步長中,智能體接收到一個反饋信號,該反饋信號不僅包括來自原始函數(shù)的主要獎勵,而且還包含一個對于過期的需求的懲罰。定義需求過期懲罰如下:

      20、對于網(wǎng)絡(luò)中的每個節(jié)點,如果需求過期(即在規(guī)定的時間窗口內(nèi)沒有得到滿足),則使用-1的懲罰。帶有需求過期懲罰的獎勵函數(shù)計算公式如下:

      21、;

      22、其中, c為初始函數(shù)中獲得的獎勵, p為單位時間步長的累計懲罰, p的計算公式如下:

      23、;

      24、其中, n表示所有節(jié)點的集合,為指示函數(shù),如果節(jié)點 i上的需求已經(jīng)過期,則返回1,否則返回0。

      25、在步驟4中,設(shè)計深度強化學習算法,首先定義狀態(tài)空間和動作空間:

      26、狀態(tài)空間 s是在每個時間步長 t中捕獲決策所需的相關(guān)信息的多維空間,定義如下:

      27、;

      28、其中, s t表示單位時間步長 t內(nèi)的多維信息, l t表示車輛和無人機的當前位置, c t表示車輛和無人機的剩余容量, d t表示客戶的配送狀態(tài), t t表示當前路段的交通狀況, e t表示預計到達時間, b t表示客戶需求是否過期;

      29、動作空間 a定義了車輛和無人機在每個時刻 t的可選動作,包括選擇目的地節(jié)點或保持當前位置:

      30、;

      31、其中,和分別表示車輛和無人機在 t時刻的動作。

      32、在定義了狀態(tài)空間和動作空間的基礎(chǔ)上,建立隨時間變化的動態(tài)需求矩陣。該矩陣不僅記錄每個節(jié)點的需求狀態(tài),還根據(jù)車輛或無人機的移動和時間的推移進行更新。在決定下一步動作之前,首先檢查每個節(jié)點上的需求是否已經(jīng)過期。如果需求過期,則該節(jié)點從需求矩陣中移除或標記為滿足,確保資源的有效分配和優(yōu)化路徑規(guī)劃。

      33、采用馬爾可夫決策過程構(gòu)建深度強化學習模型的數(shù)學框架,具體步驟如下:

      34、step1:智能體觀察當前環(huán)境狀態(tài),包括具有時變特性的動態(tài)交通流和動態(tài)需求等信息;

      35、step2:智能體根據(jù)當前狀態(tài),采取特定動作;

      36、step3:采用獎勵函數(shù)衡量智能體在當前狀態(tài)下采取特定動作的價值;

      37、step4:訓練智能體的決策能力,以最大化累計獎勵為目標,對智能體在每個狀態(tài)下的動作選擇策略進行優(yōu)化。

      38、在求解模型的過程中,使用圖注意力網(wǎng)絡(luò)(gat)作為編碼器,捕獲道路網(wǎng)的結(jié)構(gòu)信息和節(jié)點之間的關(guān)系,將動態(tài)交通流、動態(tài)需求等狀態(tài)信息轉(zhuǎn)換為強化學習模型易于理解的潛在表示;

      39、使用基于transformer的解碼器,根據(jù)編碼器輸出的潛在表示,利用自注意機制來建模節(jié)點之間的依賴關(guān)系,生成車輛和無人機的下一步動作,為智能體做出決策;

      40、采用經(jīng)驗回放和目標網(wǎng)絡(luò)更新等技術(shù)訓練模型,基于收集到的經(jīng)驗,對智能體的策略和值函數(shù)進行迭代更新,適應動態(tài)環(huán)境,提高訓練過程的穩(wěn)定性和效率。

      41、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

      42、本發(fā)明針對現(xiàn)有車輛-無人機協(xié)同配送路徑優(yōu)化研究中的不足,提出了一種綜合考慮動態(tài)需求和交通流時變影響的深度強化學習方法,用于求解大規(guī)模動態(tài)tsp問題。與傳統(tǒng)的精確算法和啟發(fā)式算法相比,本發(fā)明采用深度強化學習框架,能夠自適應地處理訂單數(shù)量和位置的隨機變化,實時更新路徑規(guī)劃。同時,通過融合實時交通流數(shù)據(jù),模型能夠動態(tài)調(diào)整分配策略,在復雜多變的城市環(huán)境下提高路徑優(yōu)化效率,縮短配送時間。該方法不僅顯著提升了求解效率,還增強了在實際動態(tài)場景中的適應性,克服了傳統(tǒng)方法對靜態(tài)場景和理想化假設(shè)的依賴,滿足城市終端配送中對高效性和及時性的要求。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1