国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于因果圖的分層強化學習任務(wù)圖進化方法

      文檔序號:6438834閱讀:334來源:國知局
      專利名稱:基于因果圖的分層強化學習任務(wù)圖進化方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及利用計算機對分層強化學習的任務(wù)圖進行優(yōu)化的方法。
      背景技術(shù)
      分層強化學習是解決強化學習維數(shù)災(zāi)難問題的一種重要方法。目前分層強化學習中三種典型的方法分別是Sutton提出的Option、Parr提出的HAM和Dietterich提出的 MAXQ0分層強化學習的一個重要問題是分層任務(wù)圖需要由設(shè)計者根據(jù)專家知識事先給定。 由于手工構(gòu)造分層強化學習的層次結(jié)構(gòu)需要具備相關(guān)的專家知識,不能滿足動態(tài)未知環(huán)境的需要,于是如何自動發(fā)現(xiàn)并構(gòu)造任務(wù)的層次結(jié)構(gòu)成為分層強化學習的一個重大問題。而目前很多HRL自動分層方法都針對Option方法的,但是Option在利用先驗知識劃分子任務(wù)時任務(wù)的劃分結(jié)果表達不夠清晰且子任務(wù)內(nèi)部策略難以確定。早期的關(guān)于HRL的自動分層研究主要針對Option方法,主要從發(fā)現(xiàn)路標狀態(tài)、共用子空間、狀態(tài)的特征向量和使子空間具有良好的Markov性質(zhì)出發(fā)。這些自動分層方法總體上存在著對狀態(tài)空間的特性依賴過強的問題。由于MAMi方法能很好的利用先驗知識并具有很強的在線學習能力,故而基于MAXQ分層強化學習方法的自動分層方法研究具有重要的意義。目前,關(guān)于MAXQ自動分層方法主要有HI-MAT方法,但是HI-MAT得到的任務(wù)圖依賴于觀察到的一條成功路徑,從而得到任務(wù)圖結(jié)構(gòu)空間中和這條軌跡一致的任務(wù)圖,這樣容易陷入局部最優(yōu)。

      發(fā)明內(nèi)容
      本發(fā)明提供了一種對HI-MAT分層強化學習任務(wù)圖自動構(gòu)造方法構(gòu)造出的任務(wù)圖的進行改進的方法。該方法得到的任務(wù)圖的學習速度可以和依靠專家知識構(gòu)造出的任務(wù)圖一樣快,并在系統(tǒng)復(fù)雜時可以超過手工構(gòu)造的任務(wù)圖。而且本方面所設(shè)計的改進算法可以適應(yīng)環(huán)境動態(tài)變化的情況。為實現(xiàn)上述目的,本發(fā)明提供一種基于因果圖的分層強化學習任務(wù)圖進化方法。 在對本方法具體步驟進行描述之前,首先給出相關(guān)定義(a)因果圖頂點集合為狀態(tài)變量集合和獎賞結(jié)點,邊集合為動作的作用下狀態(tài)變量之間的依賴關(guān)系,兩個狀態(tài)變量i、j之間有有向邊當且僅當存在一個動作a且它的DBN 中i、j存在之間存在有向邊。(b)強連通組件由一個或者多個通過有向路徑可互達的狀態(tài)變量組成的集合火。 弓丨入強連通組件可對因果圖進行去環(huán)。(c)組件圖由強連通組件作為節(jié)點組成的有向圖,節(jié)點之間有邊當且僅當因果途中存在第一個節(jié)點組件中的某個狀態(tài)變量到第二個節(jié)點組件中的某個狀態(tài)變量在因果圖中有邊。組件圖是去環(huán)后的因果圖。(d)狀態(tài)變量V的依賴狀態(tài)變量集由其所在強連通組件中的其它狀態(tài)變量和組件圖中有到此強連通組件的邊的組件所含狀態(tài)變量組成。
      (e)任務(wù)(task) Ti = (Xi, Gi, Ci),其中Xi為Ti值函數(shù)的相關(guān)變量,Gi為目標或終止謂詞,Ci為子任務(wù)集合。(f)任務(wù)結(jié)點之間保持因果依賴性是指父任務(wù)結(jié)點Ti的\中存在狀態(tài)變量其依賴狀態(tài)變量集Vdi中含有子任務(wù)結(jié)點L的Xj中的狀態(tài)變量。即對父任務(wù)結(jié)點Ti和其任意子任務(wù)結(jié)點 Tp Ξ: V -Xi) Λ (V. EXj) A;- - Ve、(g)適應(yīng)度函數(shù)Fitness (g) = total-reward (g)/st印s,其中 g 為任務(wù)圖, total-reward為總的獎賞值,steps為時間步。本發(fā)明的技術(shù)方案如下一種基于因果圖的分層強化學習任務(wù)圖進化方法,步驟包括(1)參數(shù)設(shè)置;(2)探索目標環(huán)境的因果圖;(3)種群N初始化;(4)計算適應(yīng)度值;(5)遺傳操作,包括選擇、交叉和變異;操作時保持結(jié)點之間的因果關(guān)系;(6)判斷是否終止;(7)保存此因果圖對應(yīng)的k個適應(yīng)度最高的任務(wù)圖Gl,G2,…,GK ;(8)輸出適應(yīng)度最高的任務(wù)圖Gl。步驟1)中,進行進化的參數(shù)設(shè)置,包括種群規(guī)模、最大迭代次數(shù)、交叉概率和變異概率。所述步驟3)中,進行種群M的初始化已知層次圖種群Ul =HI-MAT構(gòu)造出的現(xiàn)有環(huán)境的任務(wù)圖,如數(shù)量少于一個閥值, 則進行單親繁殖,繁殖時保持因果依賴性;隨機生成圖種群U2 隨機構(gòu)造的任務(wù)圖,包括從包含所有原子動作的任務(wù)圖到包含所有合成子任務(wù)的任務(wù)圖;M = U1+U2,M指初始化后生成的種群。所述步驟4)中,計算適應(yīng)度值Fitness (g) = total-reward (g)/steps 運行種群中的任務(wù)圖,計算各個體的適應(yīng)度。所述步驟5)中,選擇對適應(yīng)度高的個體以更大(此處是經(jīng)典的遺傳算法選擇操作,是指對適應(yīng)度高的個體生存的概率更高的意思,適應(yīng)度的具體數(shù)值需要具體實施時控制)的概率進行
      復(fù)制,各個體被選擇進行復(fù)制的概率夂—=,選擇復(fù)制后生成N個個體;
      一 4 _ · 交叉隨機選擇N*P。個個體進行交配,每對個體通過交配產(chǎn)生兩個新個體,代替原來的“老”個體,而不參與交配的個體則保持不變;對于兩個父個體,其子任務(wù)節(jié)點的交換時保持因果依賴性;變異隨機選擇N*Pm個個體的基因進行變異操作;變異策略隨機選擇個體的若干個子任務(wù)結(jié)點,對這些結(jié)點進行以下三種變換中的一種
      將結(jié)點用隨機產(chǎn)生且保持父子任務(wù)結(jié)點的因果依賴關(guān)系的結(jié)點進行替換;重新產(chǎn)生新的子樹來替代舊子樹并保持因果依賴性;交換結(jié)點的左右子樹,更新M。本步驟中,Pc指交叉概率,Pffl指變異概率,在參數(shù)設(shè)置時進行設(shè)置。所述6)中,判斷是否終止的終止條件執(zhí)行次數(shù)大于η次且適應(yīng)度最高的k個個體結(jié)構(gòu)一樣且適應(yīng)度高的一半個體和此k個個體的距離< a ;未滿足終止條件則轉(zhuǎn)步驟3)。所述交叉時,根據(jù)各個體的距離,進行遠親雜交。當目標環(huán)境的因果圖逐漸變化時,需要調(diào)整算法適用這種動態(tài)變化的情況采用保存先前學習的因果圖的對應(yīng)k個適應(yīng)度最高的任務(wù)圖,利用這種記憶機制加快學習;處理變化的目標環(huán)境的步驟是(a)當任務(wù)圖的學習性能下降了一個閾值時,啟動DBN學習算法;(b)構(gòu)造因果圖;(c)此因果圖和先前保存的因果圖進行比較,選擇相同或最相似的因果圖對應(yīng)的k個適應(yīng)度最高的任務(wù)圖;(d)將此k個任務(wù)圖加入初始種群并重新啟動任務(wù)圖進化學習算法;(e)使用進化后的任務(wù)圖執(zhí)行任務(wù)。本發(fā)明提出的基于目標環(huán)境因果圖的MA)(Q任務(wù)圖的進化方法,根據(jù)目標環(huán)境的因果圖調(diào)整對任務(wù)圖層次空間搜索方向,從而加快搜索并可以更優(yōu)化的結(jié)果。本發(fā)明使用了 GP進化算法,其遺傳算子(主要包括交叉、變異運算)運算時保持任務(wù)圖中被調(diào)整結(jié)點的相關(guān)狀態(tài)變量在因果圖中的因果依賴性,以此在加快學習速度的過程中,改善任務(wù)圖的適應(yīng)性。實驗結(jié)果表明了進化的任務(wù)圖的優(yōu)越性。值得注意的是,本發(fā)明所涉及的任務(wù)圖改進算法對于最優(yōu)控制領(lǐng)域具有重要意義,對于大規(guī)模系統(tǒng)的復(fù)雜需求的分解同樣如此。本發(fā)明的特點構(gòu)造任務(wù)圖的自動化,任務(wù)圖的高效性,能適應(yīng)大規(guī)模復(fù)雜系統(tǒng), 能適用系統(tǒng)環(huán)境動態(tài)變化的情況。本方法僅僅依賴目標環(huán)境的因果圖變化情況,在目標環(huán)境因果圖有規(guī)律變化時能夠預(yù)測目標環(huán)境的任務(wù)層次變化情況,從而快速高效地生成目標環(huán)境的MMQ任務(wù)圖。


      圖1是基于因果圖的分層強化學習任務(wù)圖進化系統(tǒng)的工作流程圖。圖2是交叉操作圖。圖3因果圖示例圖。圖4是任務(wù)圖進化學習算法的基本流程。
      具體實施例方式下面結(jié)合附圖和對本發(fā)明進行詳細說明。HI-MAT利用在現(xiàn)有強化學習任務(wù)的一條成功軌跡上應(yīng)用DBN來構(gòu)造MAXQ任務(wù)層次,再將構(gòu)造出的任務(wù)圖用在目標任務(wù)上。但是HI-MAT得到的是和這條軌跡一致的任務(wù)結(jié)構(gòu)圖,這樣容易陷入局部最優(yōu)。本發(fā)明提出一種基于因果圖的任務(wù)圖進化方法,以構(gòu)造更適合目標環(huán)境的任務(wù)圖。本方法主要根據(jù)目標環(huán)境的因果圖調(diào)整對任務(wù)圖層次空間搜索方向,在遺傳算子運算時保持任務(wù)圖中被調(diào)整結(jié)點的相關(guān)狀態(tài)變量在因果圖中的因果依賴性,在加快學習速度的過程中,改善任務(wù)圖的適應(yīng)性,從而加快搜索并且具有更好的全局尋優(yōu)能力。本發(fā)明基于一種利用類別因果圖進行任務(wù)圖進化的方法,因果圖示例圖如圖3所示。使用DBN模型,可以構(gòu)造任務(wù)的一個因果圖(Causal Graph,CG),CG決定了狀態(tài)變量之間的影響關(guān)系。圖3為遞送咖啡任務(wù)的因果圖??Х冗f送任務(wù)由6個狀態(tài)變量( , , Sk, Sff, Sc, Sh)描述,其中&指機器人的位置(在office還是咖啡店), 指機器人是否帶了雨傘,&指是否下雨,、指機器人是否淋濕,&指機器人是否有咖啡,&指用戶是否有咖啡。 這里的六個狀態(tài)變量均是二元狀態(tài)變量,故使用D 5 = ; .,表示它們的取值,其中Si指狀態(tài)變量。對于SL而言,用L表示在咖啡店,£指在辦公室。機器人有四個動作(GO,BC,⑶, DC)。其中,動作GO改變機器人的位置,并在下雨且機器人未帶傘的情況下使它變濕;動作 BC指買咖啡,如果機器人在咖啡店,則使它有咖啡;動作GU指取傘,如果機器人在office 則是它帶上傘;動作DC指遞咖啡,如果機器人在office且有咖啡則使用戶有咖啡。所有的動作都有可能會執(zhí)行失敗。當用戶有咖啡時機器人得到0. 9的獎賞,機器人未淋濕時得到 0. 1的獎賞。如果在某個動作的DBN中,Si是h的前件(precondition),則稱Si影響。。 Si和。相互影響,則在因果圖中對應(yīng)一個環(huán)。圖3中未包含環(huán)。對于包含環(huán)的因果圖,弓丨入了強連通組件來去除圖中的環(huán)。一個強連通組件中的變量被視為一個變量。從因果圖很容易找出不相關(guān)的狀態(tài)變量集,即不影響前件的值得變量集合。因果圖從某種程度上反映了目標環(huán)境的層次結(jié)構(gòu)。圖1是基于因果圖的分層強化學習任務(wù)圖進化系統(tǒng)的工作流程圖。執(zhí)行進化算法時首先進行進化的參數(shù)設(shè)置,包括種群規(guī)模、最大迭代次數(shù)、交叉概率、變異概率。然后探索目標環(huán)境的因果圖GC。再進行種群的初始化已知層次圖種群UKHI-MAT構(gòu)造出的現(xiàn)有環(huán)境的任務(wù)圖,如數(shù)量少,則進行單親繁殖,繁殖時保持因果依賴性)、隨機生成圖種群U2(隨機構(gòu)造的任務(wù)圖,包括從包含所有原子動作的任務(wù)圖到包含所有合成子任務(wù)的任務(wù)圖),M =U1+U2。計算適應(yīng)度值Witness (g) = total-reward (g)/st印s (運行種群中的任務(wù)圖, 計算各個體的適應(yīng)度)。選擇對適應(yīng)值高的個體以更大的概率進行復(fù)制,各個體被選擇進
      行復(fù)制的概率f —選擇復(fù)制后生成N個個體。交叉隨機選擇N*P。個個體進行
      交配,每對個體通過交配產(chǎn)生兩個新個體,代替原來的“老”個體,而不參與交配的個體則保持不變。對于兩個父個體,其子任務(wù)節(jié)點的交換時保持因果依賴性。(圖3為交叉操作示意圖,對于兩個父個體M” Mp隨機取其第1層的子任務(wù) \、T2,如果交換T1和T2后M” Mj保持因果依賴性則進行交換,否則取T1J2的第一個父任務(wù)FI\、FT2和第一個子任務(wù)《!\、肌2,先后對Tl、MT2, T2, MT1, T1, FT2, T2, FT1執(zhí)行上述過程直至成功執(zhí)行為止,如果仍未成功則Mi, Mj不做改變。)。交叉時,根據(jù)各個體的距離,適當進行遠親雜交。變異隨機選擇個體的基因進行變異操作,變異策略(隨機選擇個體的若干個子任務(wù)結(jié)點,對這些結(jié)點進行以下三種變換中的一種將結(jié)點用隨機產(chǎn)生且保持父子任務(wù)結(jié)點的因果依賴關(guān)系的結(jié)點進行替換;重新產(chǎn)生新的子樹來替代舊子樹并保持因果依賴性;交換結(jié)點的左右子樹)更新M。判斷是否終止(終止條件執(zhí)行次數(shù)大于η次且適應(yīng)度最高的k個個體結(jié)構(gòu)一樣且適應(yīng)度高的一半個體和此k個個體的距離< a),未滿足終止條件則轉(zhuǎn)3。保存此因果圖對應(yīng)的k個適應(yīng)度最高的任務(wù)圖Gl,G2,. . .,GK。輸出適應(yīng)度最高的任務(wù)圖G1。從動作之間的時序關(guān)系和動作對狀態(tài)的影響關(guān)系可以得到任務(wù)圖關(guān)聯(lián)的狀態(tài)變量之間的層次關(guān)系。在調(diào)整任務(wù)圖層次結(jié)構(gòu)時保持狀態(tài)變量之間的因果依賴性,即保持層次結(jié)構(gòu)和因果圖之間的對應(yīng)關(guān)系,允許調(diào)整動作之間的時序關(guān)系和動作對狀態(tài)的影響關(guān)系即可以突破一條執(zhí)行軌跡的限制,從而搜索到更適合目標環(huán)境的任務(wù)圖。進化使得任務(wù)圖種群的適應(yīng)度呈現(xiàn)出一個上升的趨勢,而如果在HI-MAT基礎(chǔ)上不斷對路徑進行去環(huán)然后構(gòu)造得到的任務(wù)圖個體的適應(yīng)度沒有這種特點。采用記憶功能模型后,由保存的相似因果圖對應(yīng)的適應(yīng)度高的任務(wù)圖加入初始種群,在目標環(huán)境會有規(guī)律的變化時任務(wù)圖的進化代數(shù)可以大大減少,從而加快學習速度。 通過以上描述可以看出,本發(fā)明方法能自動構(gòu)造目標環(huán)境的任務(wù)圖,構(gòu)造出得任務(wù)圖的學習速度優(yōu)于HI-MAT構(gòu)造出的任務(wù)圖,且能適應(yīng)大規(guī)模復(fù)雜系統(tǒng),能適用系統(tǒng)環(huán)境動態(tài)變化的情況。本方法僅僅依賴目標環(huán)境的因果圖變化情況,在目標環(huán)境因果圖有規(guī)律變化時能夠預(yù)測目標環(huán)境的任務(wù)層次變化情況,從而快速高效地生成目標環(huán)境的MAXQ任務(wù)圖。
      權(quán)利要求
      1.一種基于因果圖的分層強化學習任務(wù)圖進化方法,其特征是步驟包括(1)參數(shù)設(shè)置;(2)探索目標環(huán)境的因果圖;(3)種群N初始化;(4)計算適應(yīng)度值;(5)遺傳操作,包括選擇、交叉和變異;操作時保持結(jié)點之間的因果關(guān)系;(6)判斷是否終止;(7)保存此因果圖對應(yīng)的k個適應(yīng)度最高的任務(wù)圖Gl,G2,…,GK;(8)輸出適應(yīng)度最高的任務(wù)圖G1。
      2.根據(jù)權(quán)利要求1所述的特征是所述的基于因果圖的分層強化學習任務(wù)圖進化方法, 其特征是步驟1)中,進行進化的參數(shù)設(shè)置,包括種群規(guī)模、最大迭代次數(shù)、交叉概率和變異概率。
      3.根據(jù)權(quán)利要求1所述的特征是所述的基于因果圖的分層強化學習任務(wù)圖進化方法, 其特征是所述步驟幻中,進行種群M的初始化已知層次圖種群Ul =HI-MAT構(gòu)造出的現(xiàn)有環(huán)境的任務(wù)圖,如數(shù)量少于一個閥值,則進行單親繁殖,繁殖時保持因果依賴性;隨機生成圖種群U2:隨機構(gòu)造的任務(wù)圖,包括從包含所有原子動作的任務(wù)圖到包含所有合成子任務(wù)的任務(wù)圖;M = U1+U2,M指初始化后生成的種群。
      4.根據(jù)權(quán)利要求1所述的特征是所述的基于因果圖的分層強化學習任務(wù)圖進化方法, 其特征是所述步驟4)中,計算適應(yīng)度值Fitness (g) = total-reward(g)/steps 運行種群中的任務(wù)圖,計算各個體的適應(yīng)度。
      5.根據(jù)權(quán)利要求1所述的特征是所述的基于因果圖的分層強化學習任務(wù)圖進化方法, 其特征是所述步驟5)中,選擇對適應(yīng)度高的個體以更大的概率進行復(fù)制,各個體被選擇進行復(fù)制的概率「—,選擇復(fù)制后生成N個個體;編 C; L 1交叉隨機選擇N*P。個個體進行交配,每對個體通過交配產(chǎn)生兩個新個體,代替原來的 “老”個體,而不參與交配的個體則保持不變;對于兩個父個體,其子任務(wù)節(jié)點的交換時保持因果依賴性;變異隨機選擇N*Pm個個體的基因進行變異操作;變異策略隨機選擇個體的若干個子任務(wù)結(jié)點,對這些結(jié)點進行以下三種變換中的一種將結(jié)點用隨機產(chǎn)生且保持父子任務(wù)結(jié)點的因果依賴關(guān)系的結(jié)點進行替換; 重新產(chǎn)生新的子樹來替代舊子樹并保持因果依賴性; 交換結(jié)點的左右子樹,更新M。本步驟中,Pc指交叉概率,Pffl指變異概率,在參數(shù)設(shè)置時進行設(shè)置。
      6.根據(jù)權(quán)利要求1所述的特征是所述的基于因果圖的分層強化學習任務(wù)圖進化方法, 其特征是所述6)中,判斷是否終止的終止條件執(zhí)行次數(shù)大于η次且適應(yīng)度最高的k個個體結(jié)構(gòu)一樣且適應(yīng)度高的一半個體和此k個個體的距離< a ;未滿足終止條件則轉(zhuǎn)步驟3)。
      7.根據(jù)權(quán)利要求1所述的特征是所述的基于因果圖的分層強化學習任務(wù)圖進化方法, 其特征是交叉時,根據(jù)各個體的距離,進行遠親雜交。
      8.根據(jù)權(quán)利要求1所述的基于因果圖的分層強化學習任務(wù)圖進化方法,其特征是當目標環(huán)境的因果圖逐漸變化時,需要調(diào)整算法適用這種動態(tài)變化的情況采用保存先前學習的因果圖的對應(yīng)k個適應(yīng)度最高的任務(wù)圖,利用這種記憶機制加快學習;處理變化的目標環(huán)境的步驟是(a)當任務(wù)圖的學習性能下降了一個閾值時,啟動DBN 學習算法;(b)構(gòu)造因果圖;(c)此因果圖和先前保存的因果圖進行比較,選擇相同或最相似的因果圖對應(yīng)的k個適應(yīng)度最高的任務(wù)圖;(d)將此k個任務(wù)圖加入初始種群并重新啟動任務(wù)圖進化學習算法;(e)使用進化后的任務(wù)圖執(zhí)行任務(wù)。
      全文摘要
      一種基于因果圖的分層強化學習任務(wù)圖進化方法,步驟包括(1)參數(shù)設(shè)置;(2)探索目標環(huán)境的因果圖;(3)種群N初始化;(4)計算適應(yīng)度值;(5)遺傳操作,包括選擇、交叉和變異;操作時保持結(jié)點之間的因果關(guān)系;(6)判斷是否終止;(7)保存此因果圖對應(yīng)的k個適應(yīng)度最高的任務(wù)圖G1,G2,…,GK;(8)輸出適應(yīng)度最高的任務(wù)圖G1。與現(xiàn)有技術(shù)相比本發(fā)明的構(gòu)造任務(wù)圖的自動化,任務(wù)圖的高效性,能適應(yīng)大規(guī)模復(fù)雜系統(tǒng),能適用系統(tǒng)環(huán)境動態(tài)變化的情況。本方法僅僅依賴目標環(huán)境的因果圖變化情況,在目標環(huán)境因果圖有規(guī)律變化時能夠預(yù)測目標環(huán)境的任務(wù)層次變化情況,從而快速高效地生成目標環(huán)境的MAXQ任務(wù)圖。
      文檔編號G06F15/18GK102521203SQ20111036984
      公開日2012年6月27日 申請日期2011年11月18日 優(yōu)先權(quán)日2011年11月18日
      發(fā)明者周建才, 王紅兵 申請人:東南大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1