国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于深度強化學(xué)習(xí)的機車智能操縱方法與系統(tǒng)與流程

      文檔序號:12661291閱讀:693來源:國知局
      一種基于深度強化學(xué)習(xí)的機車智能操縱方法與系統(tǒng)與流程

      本發(fā)明涉及一種機車操縱方法與系統(tǒng),尤其涉及一種基于深度強化學(xué)習(xí)的機車智能操縱方法與系統(tǒng),屬于機車控制領(lǐng)域。



      背景技術(shù):

      鐵路機車的自動駕駛和優(yōu)化操縱對于解放人力、降低能耗、提高機車準點率和安全性等方面具有重要作用。由于列車運行環(huán)境復(fù)雜、影響因素眾多,各國學(xué)者在機車操縱優(yōu)化算法進行了大量研究,其中大體可以分為三類:解析求解方法、數(shù)值優(yōu)化方法和啟發(fā)式的優(yōu)化算法。在解析求解方法應(yīng)用中,一般分為兩種:一種應(yīng)用于輸入的牽引力和制動力是離散類型的機車,另一種應(yīng)用于輸入的牽引力和制動力是連續(xù)類型的機車。但是解析求解方法中的約束過于簡單,不能很好的擬合機車顯示運行情況,而數(shù)值優(yōu)化方法實時性較差,難以用于機車的實時優(yōu)化控制,啟發(fā)式的優(yōu)化算法具有人工依賴度過大的缺點。目前的機車操縱實時控制算法一般都會基于特定假設(shè)進行設(shè)計,難以適用于機車復(fù)雜的運行工況,從而難以確保機車運行安全。

      近年來,基于機器學(xué)習(xí)人工智能技術(shù)的機車優(yōu)化控制也成為研究熱點。Luo Hengyu和Xu Hongze提出了一個適用于高速機車自動化控制操作系統(tǒng)的綜合智能控制系統(tǒng)。系統(tǒng)中包含多個模糊神經(jīng)網(wǎng)絡(luò)控制器,并用專家決策系統(tǒng)基于機車的運行狀態(tài)自動選擇最優(yōu)的控制器以實現(xiàn)機車的有效控制。Heqing Sun等人提出了一個迭代的學(xué)習(xí)算法以實現(xiàn)機車運行軌跡的跟蹤,該算法基于機車動力學(xué)模型,聯(lián)合應(yīng)用了錯誤反饋機制。他們通過理論分析證明了算法的可收斂性。Lixing Yang等人針對不確定性條件干擾下的實時機車操控系統(tǒng)的實現(xiàn),基于專家學(xué)習(xí)提出了兩個RTO算法和一個在線學(xué)習(xí)算法,算法考慮了不確定性條件的干擾,滿足了多目標的要求。Jia TengYin等人在現(xiàn)有的ATO算法基礎(chǔ)上加入了基于數(shù)據(jù)挖掘算法和專家學(xué)習(xí)以及啟發(fā)式的機車停站算法(HSA),形成了優(yōu)化的STO算法。這些研究在一定程度上借助了人工駕駛經(jīng)驗,通過專家系統(tǒng)輔以機器學(xué)習(xí)等方式實現(xiàn)機車優(yōu)化操縱,但仍存在人工參與度過大且難以保證優(yōu)化效果。

      深度強化學(xué)習(xí)(Deep Reinforcement Learning)的發(fā)展也引起了機器學(xué)習(xí)領(lǐng)域的巨大轟動。以DeepMind團隊為代表的研究團隊首次提出基于DQN(Deep Q-Network)的深度強化學(xué)習(xí)方法,并使用Atari 2600部分游戲作為測試對象,結(jié)果可以超過人類玩家。該機器學(xué)習(xí)技術(shù)上的突破隨后在Nature期刊上進行發(fā)表,引起了機器學(xué)習(xí)研究領(lǐng)域的巨大轟動。該理論發(fā)展過程最早可以追溯到2010年Lange做的相關(guān)工作,他提出了Deep auto-encoder用于基于視覺的相關(guān)控制。2011年Cuccu等人和Abtahi等人均在相關(guān)方面作了研究,其中,Abtahi提出了用DBN代替?zhèn)鹘y(tǒng)強化學(xué)習(xí)中的逼近器的方法,這和深度強化學(xué)習(xí)的思想已非常接近。2012年,Lange進一步開始做應(yīng)用,提出了Deep Fitted Q學(xué)習(xí)用于車輛控制。2013年,Deep Mind團隊在NIPS上發(fā)表了他們的文章,將卷積神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)結(jié)合起來,以原始圖像數(shù)據(jù)作為輸入,以每個動作的Value Function作為輸出,并通過Atari 2600游戲作為測試,發(fā)現(xiàn)該方法測試的7個游戲中有6個超過了人類水平。之后DeepMind團隊在Nature上發(fā)表了改進版的DQN文章,引起人們的廣泛關(guān)注。試驗表明該方法較為適用于類似游戲、機車操縱等優(yōu)化序列控制過程,對鐵路機車優(yōu)化操縱提供了新的思路和機遇。



      技術(shù)實現(xiàn)要素:

      本發(fā)明利用機器學(xué)習(xí)領(lǐng)域深度強化學(xué)習(xí)方法的重大突破,實現(xiàn)完全應(yīng)用機器學(xué)習(xí)人工智能手段進行鐵路機車優(yōu)化操縱。針對該目標,本發(fā)明的重點為機車優(yōu)化操縱的深度強化學(xué)習(xí)算法,且深度強化學(xué)習(xí)過程所需的機車運行環(huán)境和機車實時操縱的評價機制學(xué)習(xí)也均使用機器學(xué)習(xí)方法實現(xiàn),并將兼顧環(huán)境中的不確定性和影響運行安全的不規(guī)范操作等。

      一種基于深度強化學(xué)習(xí)的機車智能操縱系統(tǒng),其特征在于,所述機車智能操縱系統(tǒng)包括數(shù)據(jù)源模塊、機車運行環(huán)境學(xué)習(xí)模塊、評價機制學(xué)習(xí)模塊和控制策略學(xué)習(xí)模塊;

      所述數(shù)據(jù)源模塊用于對獲得的數(shù)據(jù)源進行數(shù)據(jù)預(yù)處理,所述數(shù)據(jù)源所述數(shù)據(jù)源包括機車運行日志、列車運行交路數(shù)據(jù)、列車運行能耗信息和列車運行時刻表信息,所述數(shù)據(jù)預(yù)處理是將所述機車運行日志和所述列車運行交路數(shù)據(jù)輸送至所述機車運行環(huán)境學(xué)習(xí)模塊,將所述列車運行能耗信息和所述列車運行時刻表信息輸送至所述評價機制學(xué)習(xí)模塊;

      所述機車運行環(huán)境學(xué)習(xí)模塊用于構(gòu)建機車運行環(huán)境模型,所述機車運行環(huán)境學(xué)習(xí)包含列車運行參數(shù)的基礎(chǔ)參數(shù)部分和擾動參數(shù)部分的學(xué)習(xí),學(xué)習(xí)結(jié)果構(gòu)成機車具體的運行環(huán)境,所述機車運行環(huán)境學(xué)習(xí)模塊將獲得的所述機車具體的運行環(huán)境輸送至所述控制策略學(xué)習(xí)模塊;

      所述評價機制學(xué)習(xí)模塊將從所述數(shù)據(jù)源模塊中獲得的信息結(jié)合評價機制得到機車運行過程中所需要的獎賞函數(shù),所述獎賞函數(shù)作為所述評價機制的反饋數(shù)據(jù)被所述評價機制學(xué)習(xí)模塊輸送至所述控制策略學(xué)習(xí)模塊;

      所述控制策略學(xué)習(xí)模塊從所述機車運行環(huán)境學(xué)習(xí)模塊和所述評價機制學(xué)習(xí)模塊分別獲得所述機車具體的運行環(huán)境和所述獎賞函數(shù),并進行基于深度強化學(xué)習(xí)方法的列車優(yōu)化操縱策略學(xué)習(xí)訓(xùn)練,與所述機車運行環(huán)境模型進行不斷的交互學(xué)習(xí),通過所述評價機制學(xué)習(xí)模塊得到反饋的所述獎賞函數(shù)從而用于指導(dǎo)列車之后的操縱序列,并通過策略更新機制,得到所述機車最終的實際操縱策略。

      進一步地,所述評價機制包括列車操作評分機制學(xué)習(xí)和不規(guī)范操作懲罰評分機制設(shè)計。

      進一步地,所述控制策略學(xué)習(xí)模塊進行深度強化學(xué)習(xí)是基于DQN模型進行的,所述DQN模型與所述機車運行環(huán)境模型進行不斷的交互學(xué)習(xí)。

      本發(fā)明還包括一種基于深度強化學(xué)習(xí)的機車智能操縱方法,其特征在于,所述機車智能操縱方法通過如下步驟實現(xiàn):

      S1:對數(shù)據(jù)源進行預(yù)處理;

      從數(shù)據(jù)源中提取出機車運行環(huán)境模型學(xué)習(xí)的特征數(shù)據(jù),即機車運行日志和列車運行交路數(shù)據(jù),構(gòu)成機車運行環(huán)境監(jiān)督學(xué)習(xí)算法學(xué)習(xí)的樣本數(shù)據(jù)。從數(shù)據(jù)源中提取出列車運行能耗信息和列車運行時刻表信息的數(shù)據(jù)作為評價機制學(xué)習(xí)的參數(shù);

      S2:機車運行環(huán)境的學(xué)習(xí)與構(gòu)建;

      通過機車的運行環(huán)境信息采用基于歷史運行數(shù)據(jù)的監(jiān)督學(xué)習(xí)和動態(tài)時序圖算法進行機車運行環(huán)境模型的訓(xùn)練和構(gòu)建,機車運行環(huán)境模型通過學(xué)習(xí)獲得機車具體的運行環(huán)境,并將獲得的機車具體的運行環(huán)境用于控制策略學(xué)習(xí);

      S3:評價機制學(xué)習(xí);

      將從數(shù)據(jù)源中獲得的信息結(jié)合評價機制針對特定行駛路線和機車狀態(tài)信息進行短區(qū)間內(nèi)的目標觀察獲得機車運行的獎賞函數(shù),獎賞函數(shù)作為機車操縱的評價值被用于控制策略學(xué)習(xí);

      S4:控制策略學(xué)習(xí);

      采用深度強化學(xué)習(xí)方法對機車具體的運行環(huán)境進行控制策略學(xué)習(xí),并通過獲得的獎賞函數(shù)對運行狀態(tài)進行策略的更新與優(yōu)化,進而獲得機車的優(yōu)化操縱控制策略。

      進一步地,所述機車智能操縱方法還包括策略更新機制,優(yōu)化后的所述控制策略能夠應(yīng)用所述策略更新機制進行實時的策略更新,指導(dǎo)自身在當前控制策略的基礎(chǔ)上,實時自適應(yīng)學(xué)習(xí)得出更優(yōu)化的控制策略,實現(xiàn)機車控制策略的逐步優(yōu)化。

      進一步地,在步驟S2中,機車的運行環(huán)境信息包括機車運行日志、列車運行交路數(shù)據(jù)構(gòu)成的列車本身的狀態(tài)信息和外界的環(huán)境參數(shù)信息,其中大部分參數(shù)在一定的范圍內(nèi)波動,是可通過歷史數(shù)據(jù)觀察和預(yù)測到的波動信息,而有小部分參數(shù)在實際場景中是不確定性的,并可能發(fā)生不可預(yù)測的波動。

      進一步地,所述機車運行環(huán)境模型通過監(jiān)督學(xué)習(xí)算法基于機理模型完成列車運行基礎(chǔ)模型參數(shù)學(xué)習(xí)來實現(xiàn)對普場景的覆蓋,基于動態(tài)圖模型完成列車運行環(huán)境擾動參數(shù)學(xué)習(xí)。

      進一步地,所述監(jiān)督學(xué)習(xí)算法為決策樹算法或神經(jīng)網(wǎng)絡(luò)算法。

      進一步地,在步驟S3中,所述評價機制包括列車操作評分機制和不規(guī)范操作懲罰評分機制,所述列車操作評分機制基于歷史運行記錄制定,所述不規(guī)范操作懲罰評分機制基于不規(guī)范操作制定。

      進一步地,在步驟S4中,通過DQN模型完成控制策略學(xué)習(xí),基于所述深度強化學(xué)習(xí)算法,所述機車運行環(huán)境模型以機車操縱動作的實時評價作為反饋信息,評價機制通過獎賞或懲罰當前的操縱動作,給所述DQN模型反饋一個獎賞評價值,所述DQN模型結(jié)合運行狀態(tài)迭代地進行策略的更新與優(yōu)化。

      本發(fā)明的有益效果是:

      (1)通過機器的自主學(xué)習(xí)實現(xiàn)鐵路機車的優(yōu)化操縱,本發(fā)明基于深度強化學(xué)習(xí)算法,機車運行環(huán)境以及獎賞函數(shù)均通過機器的自主學(xué)習(xí)實現(xiàn),整個算法設(shè)計與實施過程中,盡最大可能性避免了人工的參與。

      (2)利用機器學(xué)習(xí)技術(shù)對機車的運行環(huán)境和機車操縱的獎賞函數(shù)進行訓(xùn)練與構(gòu)建,并兼顧了環(huán)境模型的不確定性與機車操縱的安全性。本發(fā)明針對機車的運行環(huán)境,采用了基于歷史運行數(shù)據(jù)的監(jiān)督學(xué)習(xí)和動態(tài)時序圖算法進行模型的訓(xùn)練和構(gòu)建。其中動態(tài)時序圖算法創(chuàng)新性地應(yīng)用于環(huán)境參數(shù)變化趨勢的學(xué)習(xí),以建立機車運行環(huán)境模型。本發(fā)明針對機車操縱的獎賞函數(shù),考慮機車操縱安全性問題,分別從正常操作和不規(guī)范操作兩個方面獲得獎賞函數(shù)值,并基于列車歷史記錄信息,應(yīng)用監(jiān)督學(xué)習(xí)完成了機車操縱的評價機制學(xué)習(xí)的訓(xùn)練。

      (3)面向機車優(yōu)化操縱與實時策略更新機制的深度強化學(xué)習(xí)算法。本發(fā)明具體實施中,基于深度強化學(xué)習(xí)算法(DQN模型)開創(chuàng)性地設(shè)計了適用于本問題的優(yōu)化算法方案,且該方案在具體實施中能夠結(jié)合深度學(xué)習(xí)算法訓(xùn)練得出實時策略更新機制。

      因此,本發(fā)明能更好的實現(xiàn)機車智能優(yōu)化操縱,并極大地減少了人工參與。

      附圖說明

      圖1為本發(fā)明基于深度強化學(xué)習(xí)的機車智能操縱系統(tǒng)結(jié)構(gòu)示意圖;

      圖2為本發(fā)明基于深度強化學(xué)習(xí)的機車智能操縱方法的技術(shù)路線流程圖;

      圖3為本發(fā)明中深度強化學(xué)習(xí)基本模型流程圖;

      圖4為本發(fā)明中DQN模型架構(gòu)圖。

      具體實施方式

      下面結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案進行詳述。

      本實施例提供一種基于深度強化學(xué)習(xí)的機車智能操縱系統(tǒng),如圖1所示,該系統(tǒng)包含四個模塊,分別是:數(shù)據(jù)源模塊、機車運行環(huán)境學(xué)習(xí)模塊、評價機制學(xué)習(xí)模塊和控制策略學(xué)習(xí)模塊。

      數(shù)據(jù)源模塊用于對獲得的數(shù)據(jù)源進行預(yù)處理,數(shù)據(jù)源包括機車運行日志、列車運行交路數(shù)據(jù)、列車運行能耗信息和列車運行時刻表信息,數(shù)據(jù)預(yù)處理即從數(shù)據(jù)源中提取出機車運行日志和列車運行交路數(shù)據(jù)作為機車運行環(huán)境的特征數(shù)據(jù)輸送至機車運行環(huán)境學(xué)習(xí)模塊,構(gòu)成機車運行環(huán)境學(xué)習(xí)的樣本數(shù)據(jù),將列車運行能耗信息和列車運行時刻表信息輸送至評價機制學(xué)習(xí)模塊,用于評價機制學(xué)習(xí)模塊對機車操縱進行實時評價。

      機車運行環(huán)境學(xué)習(xí)模塊用于構(gòu)建機車運行環(huán)境模型,機車運行環(huán)境學(xué)習(xí)包含兩部分參數(shù)的學(xué)習(xí),即列車運行參數(shù)的基礎(chǔ)參數(shù)部分和擾動參數(shù)部分的學(xué)習(xí),學(xué)習(xí)結(jié)果構(gòu)成機車具體的運行環(huán)境。通常分別使用經(jīng)典的監(jiān)督學(xué)習(xí)算法和動態(tài)時序圖算法對這兩部分參數(shù)進行學(xué)習(xí)。機車運行環(huán)境學(xué)習(xí)模塊將獲得的機車具體的運行環(huán)境輸送至控制策略學(xué)習(xí)模塊。

      評價機制學(xué)習(xí)模塊將從數(shù)據(jù)源模塊中獲得的信息結(jié)合評價機制得到機車運行過程中所需要的獎賞函數(shù)。評價機制包括列車操作評分機制學(xué)習(xí)和不規(guī)范操作懲罰評分機制設(shè)計。獎賞函數(shù)作為評價機制學(xué)習(xí)模塊的反饋數(shù)據(jù)被評價機制學(xué)習(xí)模塊輸送至控制策略學(xué)習(xí)模塊。

      控制策略學(xué)習(xí)模塊從機車運行環(huán)境學(xué)習(xí)模塊和評價機制學(xué)習(xí)模塊獲得具體的運行環(huán)境和獎賞函數(shù),并基于DQN模型進行深度強化學(xué)習(xí),即進行基于深度強化學(xué)習(xí)方法的列車優(yōu)化操縱策略學(xué)習(xí)訓(xùn)練,具體地,DQN模型與機車運行環(huán)境模型進行不斷的交互學(xué)習(xí)(見圖3),通過評價機制學(xué)習(xí)模塊得到反饋的獎賞函數(shù)從而用于指導(dǎo)列車之后的操縱序列,并通過策略更新機制,得到機車最終的實際操縱策略。

      上述機車智能操縱系統(tǒng)基于深度強化學(xué)習(xí)實現(xiàn)機車的智能操縱,如圖2所示,所用方法是:

      步驟1,對數(shù)據(jù)源進行預(yù)處理

      從數(shù)據(jù)源中提取出機車運行環(huán)境模型學(xué)習(xí)的特征數(shù)據(jù),即機車運行日志和列車運行交路數(shù)據(jù),構(gòu)成機車運行環(huán)境監(jiān)督學(xué)習(xí)算法學(xué)習(xí)的樣本數(shù)據(jù)。從數(shù)據(jù)源中提取出列車運行能耗信息和列車運行時刻表信息的數(shù)據(jù)作為評價機制學(xué)習(xí)的參數(shù)。

      步驟2,機車運行環(huán)境的學(xué)習(xí)與構(gòu)建

      機車的運行環(huán)境信息通常不只包括機車運行日志和列車運行交路數(shù)據(jù)構(gòu)成的列車本身的狀態(tài)信息,還包括外界的環(huán)境參數(shù)信息,其中大部分參數(shù)在一定的范圍內(nèi)波動,是可通過歷史數(shù)據(jù)觀察和預(yù)測到的波動信息;而有小部分參數(shù)在實際場景中是不確定性的,并可能發(fā)生不可預(yù)測的波動。本發(fā)明通過機車的運行環(huán)境信息采用基于歷史運行數(shù)據(jù)的監(jiān)督學(xué)習(xí)和動態(tài)時序圖算法進行不確定性的機車運行環(huán)境模型的訓(xùn)練和構(gòu)建。具體來講,通過監(jiān)督學(xué)習(xí)算法(如決策樹、神經(jīng)網(wǎng)絡(luò)等經(jīng)典算法)基于機理模型完成列車運行基礎(chǔ)模型參數(shù)學(xué)習(xí)來實現(xiàn)對普場景的覆蓋,基于動態(tài)圖模型完成列車運行環(huán)境擾動參數(shù)學(xué)習(xí)。

      機車運行環(huán)境模型通過學(xué)習(xí)獲得機車具體的運行環(huán)境,并將獲得的機車具體的運行環(huán)境用于控制策略學(xué)習(xí)。

      步驟3,評價機制學(xué)習(xí)

      評價機制學(xué)習(xí)是將從數(shù)據(jù)源中獲得的信息結(jié)合評價機制獲得機車運行的獎賞函數(shù),獎賞函數(shù)值作為機車操縱的評價值被用于控制策略學(xué)習(xí),是本發(fā)明基于的強化學(xué)習(xí)算法,基礎(chǔ)的策略選擇依據(jù)。該獎賞函數(shù)值在一般的應(yīng)用場景(如游戲操控、機器人控制)中是確定的、客觀的,如游戲操控中是直接根據(jù)游戲規(guī)則獲取該評價值。而在本發(fā)明中,獎賞函數(shù)作為機車操作的評價,是無法根據(jù)規(guī)則直接確定的,它需要將從數(shù)據(jù)源中獲得的信息結(jié)合評價機制針對特定行駛路線和機車狀態(tài)信息進行短區(qū)間內(nèi)的目標觀察來確定該值。本發(fā)明針對機車行駛優(yōu)化目標制定操作的評價機制。該評價機制包括基于歷史運行記錄制定的列車操作評分機制和通過對不規(guī)范操作分析后制定的不規(guī)范操作懲罰評分機制,特別地,基于不規(guī)范操作制定的不規(guī)范操作懲罰評分機制,考慮到高安全性的系統(tǒng)需求,對于可能造成嚴重后果的不規(guī)范操作(如坡停或超速風(fēng)險)給予最大的懲罰值,以規(guī)避該類不規(guī)范的機車操縱動作,有效保證策略生成的安全性。

      步驟4,控制策略學(xué)習(xí)

      本發(fā)明采用深度強化學(xué)習(xí)方法對機車具體的運行環(huán)境進行控制策略學(xué)習(xí),并通過獲得的獎賞函數(shù)對運行狀態(tài)進行策略的更新與優(yōu)化,進而獲得機車的優(yōu)化操縱控制策略。深度強化學(xué)習(xí)方法在復(fù)雜系統(tǒng)的優(yōu)化操縱策略生成方面具有顯著的優(yōu)勢。強化學(xué)習(xí)算法可以使算法依賴極少的外界信息,通過在環(huán)境中不斷迭代訓(xùn)練,并依靠自身學(xué)習(xí),得到優(yōu)化操縱控制策略。深度學(xué)習(xí)算法則在處理復(fù)雜多維數(shù)據(jù)方面具有顯著的優(yōu)勢。所以,強化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合的深度強化學(xué)習(xí)可以解決復(fù)雜系統(tǒng)下的優(yōu)化操縱策略生成問題。如圖3所示,任意狀態(tài)下,基于深度強化學(xué)習(xí)算法,機車運行環(huán)境模型以機車操縱動作的實時評價作為反饋信息,評價機制通過獎賞或懲罰當前的操縱動作,給DQN模型反饋一個獎賞函數(shù)作為獎賞評價值,DQN模型結(jié)合運行狀態(tài)迭代地進行策略的更新與優(yōu)化。

      本發(fā)明基于DQN模型進行深度強化學(xué)習(xí)方法的設(shè)計。具體地,DQN模型與機車運行環(huán)境模型進行不斷的交互學(xué)習(xí),應(yīng)用本發(fā)明中不確定的機車運行環(huán)境和評價機制做出改進,機車在任意狀態(tài)下每執(zhí)行一個操作(動作),評價機制就反饋一個獎賞評價值,用于指導(dǎo)列車之后的操縱序列,即不斷激勵DQN模型進行策略的更新與優(yōu)化,以解決機車優(yōu)化操縱問題,經(jīng)過多次的迭代之后,模型將最終收斂并得到最優(yōu)化的列車控制策略。

      DQN模型的詳細架構(gòu)圖如圖4所示,其中交互環(huán)境為不確定性列車運行環(huán)境。在具體實施中,強化學(xué)習(xí)算法采用了優(yōu)化的Q-learning算法,其優(yōu)化方法為:在Q-learning算法中結(jié)合Experience Replay的思想,即算法迭代過程中建立一個回放存儲池,將每次學(xué)習(xí)到的經(jīng)驗保存起來,下次訓(xùn)練時隨機選擇一個經(jīng)驗進行訓(xùn)練。應(yīng)用該思想相對普通的強化學(xué)習(xí)主要具有以下三個優(yōu)勢:(1)能夠有效打破狀態(tài)數(shù)據(jù)之間的相關(guān)性,降低數(shù)據(jù)更新的不確定性;(2)能夠有效避免算法收斂時造成局部最優(yōu)的惡劣情況;(3)解決強化學(xué)習(xí)算法的目標不固定問題。模型中采用深度學(xué)習(xí)算法(如深度神經(jīng)網(wǎng)絡(luò))與優(yōu)化的Q-learning算法相結(jié)合,能夠獲得近似Q矩陣的元素值(Q值即為圖2中所說的列車運行累計評估函數(shù)),如圖4中Q網(wǎng)絡(luò)為深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的Q矩陣的模型。具體算法實施中,Q網(wǎng)絡(luò)模型每迭代N次,則更新一次目標Q網(wǎng)絡(luò)參數(shù),然后進一步更新DQN模型的DQN差值,最終通過梯度下降算法指導(dǎo)Q網(wǎng)絡(luò)模型的不斷優(yōu)化訓(xùn)練。深度學(xué)習(xí)方法的應(yīng)用能夠有效解決系統(tǒng)狀態(tài)空間量級較大的問題。最后,DQN模型中機車操作(動作)的選擇使用常規(guī)的ε-greedy策略,即該策略以很小的概率隨機選擇操作而以較大概率選擇當前最優(yōu)的操作,最終迭代地生成機車優(yōu)化操縱策略。

      此外,機車智能操縱方法還包括策略更新機制,優(yōu)化后的控制策略能夠應(yīng)用策略更新機制進行實時的策略更新,即指導(dǎo)自身在當前控制策略的基礎(chǔ)上,實時自適應(yīng)學(xué)習(xí)得出更優(yōu)化的控制策略,實現(xiàn)機車控制策略的逐步優(yōu)化。

      雖然上面結(jié)合本發(fā)明的優(yōu)選實施例對本發(fā)明的原理進行了詳細的描述,本領(lǐng)域技術(shù)人員應(yīng)該理解,上述實施例僅僅是對本發(fā)明的示意性實現(xiàn)方式的解釋,并非對本發(fā)明包含范圍的限定。實施例中的細節(jié)并不構(gòu)成對本發(fā)明范圍的限制,在不背離本發(fā)明的精神和范圍的情況下,任何基于本發(fā)明技術(shù)方案的等效變換、簡單替換等顯而易見的改變,均落在本發(fā)明保護范圍之內(nèi)。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1