本發(fā)明涉及的是一種信息處理領(lǐng)域的技術(shù),具體是一種基于層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的隨機(jī)最短路徑實現(xiàn)方法。
背景技術(shù):
最短路徑問題是指在已知源節(jié)點和目標(biāo)節(jié)點的前提下,確定最小的邊長度(權(quán)重,代價等)的問題,可以分為確定性最短路徑和隨機(jī)性最短路徑。確定性最短路徑問題是邊長度固定的最短路徑問題,隨機(jī)性最短路徑是指在最短路徑問題中允許邊長度隨機(jī)可變的問題??紤]到實際網(wǎng)絡(luò)的動態(tài)性,相比于確定性最短路徑,隨機(jī)最短路徑在現(xiàn)實問題中有著更廣泛的應(yīng)用。
目前解決隨機(jī)最短路徑的算法大體可以分為如下兩類:一是將各個邊的長度視作隨機(jī)變量,尋找使得期望長度最短的路徑;二是考慮邊的增刪可能,可以在不同的時間階段在線確定最短路徑的方法。但是任何情況下,當(dāng)前的算法均需要預(yù)先確定網(wǎng)絡(luò)中邊長度的分布情況。如果此先驗信息未知,當(dāng)前的算法將失去其效用。
學(xué)習(xí)自動機(jī)是通過與環(huán)境的交互,調(diào)整自身決策行為的一種自治系統(tǒng),隸屬于加強(qiáng)學(xué)習(xí)的領(lǐng)域。在每一次迭代過程中,學(xué)習(xí)自動機(jī)依概率向量選擇動作送入環(huán)境中。環(huán)境產(chǎn)生反饋后,更新算法以{動作,反饋}為輸入,調(diào)整當(dāng)前的概率分布,并作為下一輪循環(huán)中決策依據(jù)。每次循環(huán)相當(dāng)于對環(huán)境的一次采樣過程,這樣的循環(huán)不斷進(jìn)行,直到學(xué)習(xí)自動機(jī)以概率1收斂到某動作。如果這個行為在環(huán)境中具有最大獎勵概率,則這個學(xué)習(xí)自動機(jī)正確收斂。
學(xué)習(xí)自動機(jī)具有強(qiáng)大的隨機(jī)決策能力,在通信網(wǎng)絡(luò)和黑盒函數(shù)優(yōu)化領(lǐng)域體現(xiàn)出其特有的優(yōu)勢。目前有用分布式學(xué)習(xí)自動機(jī)解決隨機(jī)最短路徑的成果,但速度和準(zhǔn)確率都還有很大的提升空間。
技術(shù)實現(xiàn)要素:
本發(fā)明針對上述現(xiàn)有技術(shù)存在的不足,提出一種基于層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的隨機(jī)最短路徑實現(xiàn)方法,在速度、精度、開銷上,均優(yōu)于傳統(tǒng)方法。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
本發(fā)明涉及一種基于層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的隨機(jī)最短路徑實現(xiàn)方法,通過層級結(jié)構(gòu)的學(xué)習(xí)自動機(jī)網(wǎng)絡(luò)逐層更新收斂,當(dāng)任一層網(wǎng)絡(luò)達(dá)到收斂條件時,通過剔除該層最優(yōu)節(jié)點除外的節(jié)點及其子節(jié)點進(jìn)行層級結(jié)構(gòu)修剪,從而將選擇最短路徑的問題轉(zhuǎn)換為定位最優(yōu)節(jié)點的問題,最終得到的最短路徑即從第一層到最后一層的最優(yōu)節(jié)點組成的序列。
所述的學(xué)習(xí)自動機(jī)網(wǎng)絡(luò)中,源節(jié)點作為父節(jié)點,目標(biāo)節(jié)點作為葉子節(jié)點。
所述的層級結(jié)構(gòu)具體是指:隨機(jī)網(wǎng)絡(luò)g=(v,e,f),其中:v={1,2,…,n}表示節(jié)點的集合,
所述的層級結(jié)構(gòu)具體通過以下方式實現(xiàn)初始化:從源節(jié)點vs出發(fā),在vs上部署一個學(xué)習(xí)自動機(jī),該學(xué)習(xí)自動機(jī)行為的個數(shù)等于vs的出度;從vs的各個鄰居節(jié)點v2出發(fā),在各個v2上分別部署一個學(xué)習(xí)自動機(jī),其行為個數(shù)等于v2的出度;再從v2的各個鄰居節(jié)點v3出發(fā),逐層按相同方式部署學(xué)習(xí)自動機(jī),直到目標(biāo)節(jié)點vd的學(xué)習(xí)自動機(jī)部署完成;最后刪去未部署學(xué)習(xí)自動機(jī)的節(jié)點,由此形成了學(xué)習(xí)自動機(jī)的層級結(jié)構(gòu)網(wǎng)絡(luò);每個學(xué)習(xí)自動機(jī)各自完成初始化工作,初始化各自的概率向量為均勻分布;設(shè)置當(dāng)前節(jié)點為父節(jié)點,逐層依次選擇下一節(jié)點,所有節(jié)點組成當(dāng)前路徑φ。
所述的逐層更新,具體包括以下步驟:
①選取層級結(jié)構(gòu)中的當(dāng)前路徑中相鄰節(jié)點的隨機(jī)路徑依次相加,得到當(dāng)前路徑的代價值lφ。
②用動態(tài)閾值tk表示目前為止的所有采樣路徑的均值:當(dāng)路徑代價lφ小于動態(tài)閾值tk時,獎勵路徑φ上的所有學(xué)習(xí)自動機(jī),即β=1iflφ<tk;否則懲罰路徑φ上的所有學(xué)習(xí)自動機(jī),即β=0iflφ≥tk。
③學(xué)習(xí)自動機(jī)根據(jù)lri(linearreward-inaction)學(xué)習(xí)算法更新自身的概率向量。
所述的lri學(xué)習(xí)算法是指:學(xué)習(xí)自動機(jī)在環(huán)境獎勵時更新概率向量,在環(huán)境懲罰時不更新概率向量的機(jī)制,具體是指:p(k+1)=t(p(k))ifβ=1,p(k+1)=p(k),其中:t為更新機(jī)制。
所述的更新,在更新概率向量時,學(xué)習(xí)自動機(jī)增大選定行為的概率,減小其余行為的概率,具體是指:pi(k+1)=pi(k)+(1-λ)pi(k),pj(k+1)=pj(k)-λpj(k)(j≠i),其中:i為選定的行為。
④更新動態(tài)閾值
所述的收斂是指:當(dāng)父節(jié)點vp的最大概率大于預(yù)先設(shè)定的閾值pm時該層更新終止,移動父節(jié)點vp至最大概率對應(yīng)的行為所在的節(jié)點(概率最大的子節(jié)點),并進(jìn)行下一層更新,直到父節(jié)點vp到達(dá)目標(biāo)節(jié)點vd,完整整個網(wǎng)絡(luò)更新。
技術(shù)效果
在傳統(tǒng)的基于分布式學(xué)習(xí)自動機(jī)的隨機(jī)最短路徑算法中,整個結(jié)構(gòu)可以等效為一個學(xué)習(xí)自動機(jī),該等效學(xué)習(xí)自動機(jī)的行為集合為可供選擇的所有路徑,最優(yōu)行為即最短。而在層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)中,算法可以逐層收斂,每一層的行為個數(shù)為當(dāng)前層的行為個數(shù),遠(yuǎn)小于傳統(tǒng)算法中可供選擇的路徑個數(shù)。行為集的個數(shù)變小可以大大加快算法收斂的速度,提升算法收斂的準(zhǔn)確度。另一方面,層級結(jié)構(gòu)的學(xué)習(xí)自動機(jī)可以不斷修剪其結(jié)構(gòu),縮小搜索空間,進(jìn)一步提升算法速度,減小開銷。
與傳統(tǒng)的分布式方法相比,本發(fā)明具有更快的速度、更高的準(zhǔn)確率、更小卻更高效的采樣代價。在實際的工業(yè)應(yīng)用中,可以更好的發(fā)揮其價值。
附圖說明
圖1、圖2為本發(fā)明的實施例數(shù)據(jù)集;
圖3為本發(fā)明的層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)模型示意圖;
圖中:a為原始的隨機(jī)圖,b為部署學(xué)習(xí)自動機(jī)之后的層級結(jié)構(gòu)網(wǎng)絡(luò),c為b映射為層級結(jié)構(gòu)的學(xué)習(xí)自動機(jī)模型圖,d為c中的每個層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的具體結(jié)構(gòu)示意圖。
具體實施方式
如圖3a~圖3d所示,本方法具體通過以下方式實現(xiàn)層級結(jié)構(gòu)網(wǎng)絡(luò)的初始化:以圖3a為例,從源節(jié)點vs出發(fā),在vs上部署一個學(xué)習(xí)自動機(jī),該學(xué)習(xí)自動機(jī)行為的個數(shù)等于vs的出度;從vs的各個鄰居節(jié)點v2出發(fā),在各個v2上分別部署一個學(xué)習(xí)自動機(jī),其行為個數(shù)等于v2的出度;再從v2的各個鄰居節(jié)點v3出發(fā),逐層按相同方式部署學(xué)習(xí)自動機(jī),直到目標(biāo)節(jié)點vd的學(xué)習(xí)自動機(jī)部署完成;最后刪去未部署學(xué)習(xí)自動機(jī)的節(jié)點,由此形成了學(xué)習(xí)自動機(jī)的層級結(jié)構(gòu)網(wǎng)絡(luò),如圖3b所示;每個學(xué)習(xí)自動機(jī)各自完成初始化工作,初始化各自的概率向量為均勻分布;設(shè)置當(dāng)前節(jié)點為父節(jié)點,逐層依次選擇下一節(jié)點,所有節(jié)點組成當(dāng)前路徑φ。
如圖3c,3d所示,在完成初始化后對網(wǎng)絡(luò)進(jìn)行逐層更新,具體包括以下步驟:
①選取層級結(jié)構(gòu)中的當(dāng)前路徑中相鄰節(jié)點的隨機(jī)路徑依次相加,得到當(dāng)前路徑的代價值lφ。
②用動態(tài)閾值tk表示目前為止的所有采樣路徑的均值:當(dāng)路徑代價lφ小于動態(tài)閾值tk時,獎勵路徑φ上的所有學(xué)習(xí)自動機(jī);否則懲罰路徑φ上的所有學(xué)習(xí)自動機(jī)。
③學(xué)習(xí)自動機(jī)根據(jù)lri(linearreward-inaction)學(xué)習(xí)算法更新自身的概率向量。
④更新動態(tài)閾值
本實施例采用圖1的網(wǎng)絡(luò):該網(wǎng)絡(luò)有10個節(jié)點,23條邊,源節(jié)點為1,目標(biāo)節(jié)點為10,最短路徑為{1,4,9,10}。
參數(shù)設(shè)置:學(xué)習(xí)參數(shù)λ=0.01,收斂閾值pm=0.9。
實施本發(fā)明的具體包括步驟如下:
步驟一:學(xué)習(xí)自動機(jī)的部署。從源節(jié)點學(xué)習(xí)自動機(jī)#1出發(fā),在#1上部署一個學(xué)習(xí)自動機(jī),此學(xué)習(xí)自動機(jī)行為的個數(shù)等于#1的出度3;分別從#1的各個鄰居節(jié)點學(xué)習(xí)自動機(jī)#2、#3、#4出發(fā),在#2、#3、#4上各自部署一個學(xué)習(xí)自動機(jī),其行為個數(shù)分別等于#2、#3、#4的出度;再依次從#2、#3、#4的各個鄰居節(jié)點出發(fā)進(jìn)行相同方式的學(xué)習(xí)自動機(jī)部署,直到目標(biāo)節(jié)點學(xué)習(xí)自動機(jī)#10所在的學(xué)習(xí)自動機(jī)部署完成。刪去未部署學(xué)習(xí)自動機(jī)的節(jié)點,由此形成了學(xué)習(xí)自動機(jī)的分布式網(wǎng)絡(luò)。
步驟二:初始化各個學(xué)習(xí)自動機(jī)如下:
2.1)學(xué)習(xí)自動機(jī)#1的鄰居節(jié)點:#2、#3、#4。學(xué)習(xí)自動機(jī)#1部署3行為的學(xué)習(xí)自動機(jī),初始化其概率向量為[1/3,1/3,1/3]
2.2)學(xué)習(xí)自動機(jī)#2的鄰居節(jié)點:#5、#6。學(xué)習(xí)自動機(jī)#2部署2行為的學(xué)習(xí)自動機(jī),初始化其概率向量為[1/2,1/2]
2.3)學(xué)習(xí)自動機(jī)#3的鄰居節(jié)點:#2、#7、#8。學(xué)習(xí)自動機(jī)#3部署3行為的學(xué)習(xí)自動機(jī),初始化其概率向量為[1/3,1/3,1/3]
2.4)學(xué)習(xí)自動機(jī)#4的鄰居節(jié)點:#3、#9。學(xué)習(xí)自動機(jī)#4部署2行為的學(xué)習(xí)自動機(jī),初始化其概率向量為[1/2,1/2]
2.5)學(xué)習(xí)自動機(jī)#5的鄰居節(jié)點:#7、#10。學(xué)習(xí)自動機(jī)#5部署2行為的學(xué)習(xí)自動機(jī),初始化其概率向量為[1/2,1/2]
2.6)學(xué)習(xí)自動機(jī)#6的鄰居節(jié)點:#3、#5、#7。學(xué)習(xí)自動機(jī)#6部署3行為的學(xué)習(xí)自動機(jī),初始化其概率向量為[1/3,1/3,1/3]
2.7)學(xué)習(xí)自動機(jī)#7的鄰居節(jié)點:#6、#8、#9、#10。學(xué)習(xí)自動機(jī)#7部署4為的學(xué)習(xí)自動機(jī),初始化其概率向量為[1/4,1/4,1/4,1/4]
2.8)學(xué)習(xí)自動機(jī)#8的鄰居節(jié)點:#4、#7、#9。學(xué)習(xí)自動機(jī)#8部署3行為的學(xué)習(xí)自動機(jī),初始化其概率向量為[1/3,1/3,1/3]
2.9)學(xué)習(xí)自動機(jī)#9的鄰居節(jié)點:#10。學(xué)習(xí)自動機(jī)#9部署1行為的學(xué)習(xí)自動機(jī),初始化其概率向量為[1]
步驟三:變量設(shè)置:設(shè)置父節(jié)點為學(xué)習(xí)自動機(jī)#1
步驟四:路徑選擇。設(shè)置當(dāng)前節(jié)點為學(xué)習(xí)自動機(jī)#1,根據(jù)#1的概率向量選擇行為,并激活相應(yīng)的鄰居節(jié)點,依次類推,逐層選擇下一節(jié)點,所有節(jié)點組成當(dāng)前路徑。如φ={#1、#3、#7、#9、#10}。
步驟五:代價計算。將選取的當(dāng)前路徑φ={#1、#3、#7、#9、#10}中相鄰節(jié)點的隨機(jī)路徑依次相加,得到當(dāng)前路徑的代價值lφ。
步驟六:環(huán)境反饋。用動態(tài)閾值tk表示目前為止的所有采樣路徑的均值。當(dāng)路徑代價lφ小于動態(tài)閾值tk,獎勵路徑φ={#1、#3、#7、#9、#10}上的所有學(xué)習(xí)自動機(jī);否則,懲罰路徑φ={#1、#3、#7、#9、#10}上的所有學(xué)習(xí)自動機(jī)。
步驟七:概率更新。學(xué)習(xí)自動機(jī)根據(jù)學(xué)習(xí)算法lri更新自身的概率向量,具體如下:
7.1)在環(huán)境獎勵時:
第一層:對于學(xué)習(xí)自動機(jī)#1。增大#1選擇#3的概率,減小#1選擇#2、#4的概率。學(xué)習(xí)參數(shù)為λ
第二層:對于學(xué)習(xí)自動機(jī)#3。增大#3選擇#7的概率,減小#3選擇#2、#8的概率。學(xué)習(xí)參數(shù)為λ/pr{[1]→[3]},其中:pr{[1]→[3]}表示第一層的概率更新后#1選擇#3的概率
第三層:對于學(xué)習(xí)自動機(jī)#7。增大#7選擇#9的概率,減小#7選擇#6、#8、#10的概率。學(xué)習(xí)參數(shù)為λ/pr{[3]→[7]},其中:pr{[3]→[7]}表示第二層的概率更新后#3選擇#7的概率
第四層:對于學(xué)習(xí)自動機(jī)#9。增大#9選擇#10的概率。學(xué)習(xí)參數(shù)為λ/pr{[7]→[9]},其中:pr{[7]→[9]}表示第三層的概率更新后#7選擇#9的概率
上述增大概率的公式為pi=pi+(1-λ)pi,減小概率的公式為pj=pj-λpj,其中:pi指路徑上的當(dāng)前層學(xué)習(xí)自動機(jī)選擇下一層學(xué)習(xí)自動機(jī)的概率,pj指路徑上的當(dāng)前層學(xué)習(xí)自動機(jī)選擇非路徑學(xué)習(xí)自動機(jī)的概率。
7.2)在環(huán)境懲罰時:
各個學(xué)習(xí)自動機(jī)的概率向量保持不變。
步驟八:動態(tài)閾值更新
至此一次迭代完成,返回步驟四繼續(xù)執(zhí)行下一次的迭代循環(huán)。
當(dāng)學(xué)習(xí)自動機(jī)#1的最大概率大于預(yù)先設(shè)定的閾值pm=0.9時,迭代終止,完成一輪的循環(huán)。
移動父節(jié)點至最優(yōu)節(jié)點(概率最大的子節(jié)點),返回步驟四開始新一輪的循環(huán)。
假設(shè)第一輪循環(huán),父節(jié)點學(xué)習(xí)自動機(jī)#1的最優(yōu)節(jié)點為學(xué)習(xí)自動機(jī)#2;第二輪循環(huán),父節(jié)點學(xué)習(xí)自動機(jī)#2的最優(yōu)節(jié)點為學(xué)習(xí)自動機(jī)#4;第三輪循環(huán),父節(jié)點學(xué)習(xí)自動機(jī)#4的最優(yōu)節(jié)點為學(xué)習(xí)自動機(jī)#9;第四輪循環(huán),父節(jié)點學(xué)習(xí)自動機(jī)#9的最優(yōu)節(jié)點為學(xué)習(xí)自動機(jī)#10。第五輪循環(huán),父節(jié)點到達(dá)目標(biāo)節(jié)點學(xué)習(xí)自動機(jī)#10,更新終止。輸出最終路徑為學(xué)習(xí)自動機(jī)#1、#4、#9、#10。
以圖1為例,圖1的網(wǎng)絡(luò)有10個節(jié)點,23條邊,源節(jié)點為1,目標(biāo)節(jié)點為10,最短路徑為{1,4,9,10},學(xué)習(xí)參數(shù)設(shè)定為0.01時:
采用本發(fā)明提出的層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的平均迭代次數(shù)為850.93,分布式學(xué)習(xí)自動機(jī)的三種算法的平均迭代次數(shù)分別是1002.69,972.61,942.61,依次提升了15.1353%,12.5107%,9.7501%。
采用本發(fā)明提出的層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的準(zhǔn)確率為100%,分布式學(xué)習(xí)自動機(jī)的三種算法的準(zhǔn)確率均為100%,水平相當(dāng)。
采用本發(fā)明提出的層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的總采樣次數(shù)為2735.75,分布式學(xué)習(xí)自動機(jī)的三種算法的總采樣次數(shù)分別為3922.04,3666.11,3017.28,依次提升了30.2468%,25.3773%,9.3306%。
采用本發(fā)明提出的層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的最優(yōu)采樣率為0.544871,分布式學(xué)習(xí)自動機(jī)的三種算法的最優(yōu)采樣率分別為0.455821,0.472926,0.535214,依次提升了19.5362%,15.2127%,1.8043%。
以圖2為例,圖2的網(wǎng)絡(luò)有15個節(jié)點,42條邊,源節(jié)點為1,目標(biāo)節(jié)點為15,最短路徑為{1,2,5,15},學(xué)習(xí)參數(shù)設(shè)定為0.005時:
采用本發(fā)明提出的層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的平均迭代次數(shù)為4404.16,分布式學(xué)習(xí)自動機(jī)的三種算法的平均迭代次數(shù)分別是6800.97,6245.01,4658.9,依次提升了35.2422%,29.4771%,5.6703%。
采用本發(fā)明提出的層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的準(zhǔn)確率為90%,分布式學(xué)習(xí)自動機(jī)的三種算法的準(zhǔn)確率分別為86%,86%,87%,依次提升了4.6512%,3.4483%,3.4483%。
采用本發(fā)明提出的層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的總采樣次數(shù)為13076.4,分布式學(xué)習(xí)自動機(jī)的三種算法的總采樣次數(shù)分別為25803.7,24515.7,15082,依次提升了49.3237%,46.6661%,13.298%。
采用本發(fā)明提出的層級結(jié)構(gòu)學(xué)習(xí)自動機(jī)的最優(yōu)采樣率為0.561212,分布式學(xué)習(xí)自動機(jī)的三種算法的最優(yōu)采樣率分別為0.330965,0.37075,0.53564,依次提升了69.5684%,51.3721%,4.7741%。
本發(fā)明可廣泛應(yīng)用于交通規(guī)劃、通信網(wǎng)絡(luò)、軍事航空等領(lǐng)域。以通信領(lǐng)域為例,隨著無線通信網(wǎng)絡(luò)的發(fā)展特別是5g的興起,對網(wǎng)絡(luò)動態(tài)屬性的適應(yīng)性和魯棒性要求進(jìn)一步提升。通過充分發(fā)揮本發(fā)明在隨機(jī)環(huán)境中的優(yōu)勢,可解決一系列與無線通信網(wǎng)絡(luò)相關(guān)的問題。例如,一些無線網(wǎng)絡(luò)黑客往往隨機(jī)地沿最短路徑攻擊網(wǎng)絡(luò)的安全性,在最短路徑所在的網(wǎng)絡(luò)節(jié)點部署監(jiān)控器,可最大可能實現(xiàn)入侵檢測的目的。
上述具體實施可由本領(lǐng)域技術(shù)人員在不背離本發(fā)明原理和宗旨的前提下以不同的方式對其進(jìn)行局部調(diào)整,本發(fā)明的保護(hù)范圍以權(quán)利要求書為準(zhǔn)且不由上述具體實施所限,在其范圍內(nèi)的各個實現(xiàn)方案均受本發(fā)明之約束。