本發(fā)明涉及自主水下機(jī)器人(auv)決策、深度強(qiáng)化學(xué)習(xí)和水下目標(biāo)跟蹤領(lǐng)域,具體說是一種基于深度強(qiáng)化學(xué)習(xí)的雙基地聲吶水下目標(biāo)跟蹤auv決策方法。
背景技術(shù):
1、海洋安全是國防的重要組成部分,對水下目標(biāo)的探測和跟蹤是海洋安全面臨的主要挑戰(zhàn)。受水下環(huán)境特性的影響,聲波是目前能夠在水下遠(yuǎn)距離傳輸?shù)奈ㄒ环绞?,聲吶是遠(yuǎn)距離水下目標(biāo)探測和跟蹤的唯一有效工具。由于水下目標(biāo)降噪技術(shù)的提高,被動聲吶已經(jīng)難以滿足水下目標(biāo)跟蹤需求。得益于聲源的高聲源級,多基地聲吶特別是雙基地聲吶成為水下目標(biāo)跟蹤的有效工具。特別地,由自主水下機(jī)器人(auv)搭載聲吶構(gòu)成的雙基地聲吶具有機(jī)動性好、靈活性高、持久等優(yōu)勢,受到國內(nèi)外越來越多的關(guān)注。
2、水下目標(biāo)具有機(jī)動性,導(dǎo)致目標(biāo)跟蹤態(tài)勢復(fù)雜多變,需要auv根據(jù)態(tài)勢變化實(shí)時(shí)調(diào)整自己的行為,以最大化對目標(biāo)的跟蹤精度和跟蹤保持時(shí)間。針對該問題,目前主流的做法是根據(jù)人類對環(huán)境的先驗(yàn)知識,建立環(huán)境模型,并依據(jù)該模型建立目標(biāo)函數(shù)(如基于信噪比、探測概率或信息增益等),最后利用有效的求解工具(如樹搜索算法)得到最大化目標(biāo)函數(shù)的解。然而,這種基于模型的方法依賴于先驗(yàn)知識以建立模型,先驗(yàn)知識不足會導(dǎo)致建立的模型不準(zhǔn)確,進(jìn)而大幅降低性能。此外,由于狀態(tài)空間大,問題求解十分復(fù)雜和耗時(shí),難以滿足auv計(jì)算負(fù)載要求以及水下目標(biāo)跟蹤決策的實(shí)時(shí)性要求。
3、近年來,隨著深度強(qiáng)化學(xué)習(xí)的發(fā)展及其在眾多領(lǐng)域的成功應(yīng)用,利用深度強(qiáng)化學(xué)習(xí)求解auv水下目標(biāo)跟蹤的決策問題成為一種有希望的方式。一方面,無模型的深度強(qiáng)化學(xué)習(xí)不需要先驗(yàn)知識和模型,auv能夠直接通過和環(huán)境交互學(xué)習(xí)策略。另一方面,訓(xùn)練好的策略網(wǎng)絡(luò)能夠部署于auv上,且計(jì)算簡單高效。然而,基于深度強(qiáng)化學(xué)習(xí)的auv決策仍然面臨挑戰(zhàn)。首先,直接將毫無經(jīng)驗(yàn)的auv置于環(huán)境中交互使得auv的安全受到威脅。其次,完全基于深度強(qiáng)化學(xué)習(xí)得到的策略的性能無法得到保證。此外,無模型的深度強(qiáng)化學(xué)習(xí)樣本利用率較低,需要大量的人力、物力和財(cái)力開展訓(xùn)練。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有方法在雙基地聲吶水下目標(biāo)跟蹤auv自主決策應(yīng)用中的不足,本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的雙基地聲吶水下目標(biāo)跟蹤auv決策方法,避免對先驗(yàn)?zāi)P偷倪^度依賴,在保障auv安全的同時(shí)令auv自主學(xué)習(xí)到更好的策略,同時(shí)能夠大大降低訓(xùn)練所需的樣本量。訓(xùn)練得到的策略具有性能高、決策時(shí)間短、計(jì)算復(fù)雜度低的優(yōu)勢。
2、本發(fā)明為實(shí)現(xiàn)上述目的所采用的技術(shù)方案是:基于深度強(qiáng)化學(xué)習(xí)的雙基地聲吶水下目標(biāo)跟蹤auv決策方法,包括以下步驟:
3、建立雙基地聲吶水下目標(biāo)定位模型,將聲學(xué)信號處理產(chǎn)生的測量解算為二維坐標(biāo);基于解算的二維坐標(biāo)測量,利用多目標(biāo)跟蹤算法估計(jì)出水下目標(biāo)的狀態(tài)和狀態(tài)協(xié)方差矩陣;
4、建立雙基地聲吶水下目標(biāo)跟蹤環(huán)境模型,在雙基地聲吶水下目標(biāo)跟蹤環(huán)境模型、雙基地聲吶水下目標(biāo)定位模型和多目標(biāo)跟蹤算法基礎(chǔ)上,建立滾動時(shí)域優(yōu)化策略的目標(biāo)函數(shù)并構(gòu)建求解方法,以得到動作決策;
5、基于深度神經(jīng)網(wǎng)絡(luò)建立深度強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò),分別用于輸出auv的動作決策和評估狀態(tài)-動作值;同時(shí)利用滾動時(shí)域優(yōu)化策略和深度強(qiáng)化學(xué)習(xí)策略令auv與環(huán)境交互,將得到的樣本存到經(jīng)驗(yàn)池;
6、利用經(jīng)驗(yàn)池的數(shù)據(jù)訓(xùn)練策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò),調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù);
7、訓(xùn)練完成后,利用訓(xùn)練好的策略網(wǎng)絡(luò)進(jìn)行auv動作決策。
8、所述建立雙基地聲吶水下目標(biāo)定位模型,將聲學(xué)信號處理產(chǎn)生的測量解算為二維坐標(biāo),具體為:
9、將聲源、目標(biāo)和接收器的位置連線構(gòu)成三角形,在聲學(xué)信號處理得到的聲到達(dá)時(shí)間和到達(dá)角度的基礎(chǔ)上,結(jié)合聲源坐標(biāo)、接收器坐標(biāo),推算目標(biāo)的二維坐標(biāo)。
10、所述利用多目標(biāo)跟蹤算法估計(jì)水下目標(biāo)狀態(tài)和狀態(tài)協(xié)方差矩陣,具體為:
11、基于置信傳播算法,采用高斯混合的實(shí)現(xiàn)途徑,對解算的目標(biāo)二維坐標(biāo)進(jìn)行數(shù)據(jù)關(guān)聯(lián)和濾波,得到估計(jì)的包含位置和速度的目標(biāo)狀態(tài)以及狀態(tài)協(xié)方差矩陣。
12、所述建立雙基地聲吶水下目標(biāo)跟蹤環(huán)境模型,包括目標(biāo)強(qiáng)度模型、聲傳播模型、聲吶指向性模型、測量誤差模型,具體為:
13、對單基地聲吶目標(biāo)強(qiáng)度的蝴蝶圖進(jìn)行擬合,并將其擴(kuò)展到雙基地聲吶,得到雙基地聲吶的目標(biāo)強(qiáng)度模型;
14、基于bellhop模型建立聲傳播模型,用于計(jì)算聲傳播損失;
15、建立應(yīng)用于auv的聲吶線列陣的聲吶指向性模型;
16、基于目標(biāo)強(qiáng)度模型、聲傳播模型和聲吶指向性模型計(jì)算聲信噪比,然后基于woodward關(guān)系建立測量誤差模型,得到聲到達(dá)時(shí)間的誤差和聲到達(dá)角度的誤差。
17、所述在雙基地聲吶水下目標(biāo)跟蹤環(huán)境模型、雙基地聲吶水下目標(biāo)定位模型和多目標(biāo)跟蹤算法基礎(chǔ)上,建立滾動時(shí)域優(yōu)化策略的目標(biāo)函數(shù)并構(gòu)建求解方法,以得到最優(yōu)決策,具體為:
18、1)基于目標(biāo)狀態(tài)估計(jì)先驗(yàn)協(xié)方差矩陣和后驗(yàn)協(xié)方差矩陣的跡定義信息增益:
19、
20、其中,pj|j-1為先驗(yàn)協(xié)方差矩陣,為后驗(yàn)協(xié)方差矩陣,tr()表示矩陣的跡,nopt為優(yōu)化步長,為第i個(gè)決策序列中第j步的auv動作決策,表示執(zhí)行動作的信息增益;
21、在的計(jì)算過程中,所需的目標(biāo)位置測量生成方式為:
22、e.基于預(yù)測的目標(biāo)狀態(tài)計(jì)算無偏差的聲到達(dá)時(shí)間和到達(dá)角度;
23、f.基于雙基地聲吶水下目標(biāo)跟蹤環(huán)境模型計(jì)算聲到達(dá)時(shí)間和到達(dá)角度的測量誤差;
24、g.從以無偏差的到達(dá)時(shí)間為均值,以到達(dá)時(shí)間測量誤差為標(biāo)準(zhǔn)差的高斯分布中采樣得到最終的帶偏差的到達(dá)時(shí)間;從以無偏差的到達(dá)角度為均值,以到達(dá)角度測量誤差為標(biāo)準(zhǔn)差的高斯分布中采樣得到最終的帶偏差的到達(dá)角度;
25、h.基于帶偏差的到達(dá)時(shí)間和到達(dá)角度,通過雙基地聲吶水下目標(biāo)定位模型解算測量的目標(biāo)位置;
26、2)以最大化信息增益為目標(biāo)建立目標(biāo)函數(shù):
27、
28、其中,為第i個(gè)決策序列,wj為第j步的權(quán)重;
29、3)建立搜索樹,節(jié)點(diǎn)用于表征候選的auv動作決策,采用蒙特卡洛樹搜索算法對目標(biāo)函數(shù)進(jìn)行求解,以尋找最優(yōu)動作決策。
30、所述基于深度神經(jīng)網(wǎng)絡(luò)建立強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò),具體為:
31、策略網(wǎng)絡(luò)的輸入為聲源狀態(tài)、接收器狀態(tài)、估計(jì)目標(biāo)狀態(tài)以及估計(jì)目標(biāo)后驗(yàn)協(xié)方差矩陣的對角線元素,輸出為動作的均值和標(biāo)準(zhǔn)差,策略網(wǎng)絡(luò)采用2層隱藏層,層之間采用全連接,激活函數(shù)為relu;
32、評價(jià)網(wǎng)絡(luò)的輸入為聲源狀態(tài)、接收器狀態(tài)、估計(jì)目標(biāo)狀態(tài)、估計(jì)目標(biāo)后驗(yàn)協(xié)方差矩陣的對角線元素以及auv的動作,輸出為狀態(tài)-動作對的評估值,評價(jià)網(wǎng)絡(luò)采用2層隱藏層,層之間采用全連接,激活函數(shù)為relu。
33、所述同時(shí)利用滾動時(shí)域優(yōu)化和深度強(qiáng)化學(xué)習(xí)策略令auv與環(huán)境交互,將得到的樣本存到經(jīng)驗(yàn)池,具體為:
34、在訓(xùn)練初期,以概率p采取隨機(jī)動作策略,以概率1-p采取滾動時(shí)域優(yōu)化策略,p初值為1,且隨訓(xùn)練步數(shù)增加而減?。?/p>
35、訓(xùn)練中后期,則利用深度強(qiáng)化學(xué)習(xí)策略采取動作;
36、將訓(xùn)練收集到的經(jīng)驗(yàn)構(gòu)成5元組{s,a,r,s′,d};其中,s為當(dāng)前狀態(tài),包括聲源狀態(tài)、接收器狀態(tài)、估計(jì)目標(biāo)狀態(tài)以及估計(jì)目標(biāo)后驗(yàn)協(xié)方差矩陣的對角線元素,a為auv采取的動作,s′為auv采取動作a后到達(dá)的下一狀態(tài),r為在當(dāng)前狀態(tài)采取動作并轉(zhuǎn)移到下一狀態(tài)獲得的獎(jiǎng)勵(lì),d用來指示下一狀態(tài)是否為終止?fàn)顟B(tài),將收集到的經(jīng)驗(yàn)存放于經(jīng)驗(yàn)池。
37、深度強(qiáng)化學(xué)習(xí)采用soft?actor-critic算法,調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)方法為adam。
38、所述利用訓(xùn)練好的策略網(wǎng)絡(luò)進(jìn)行auv動作決策,具體為:
39、將聲源狀態(tài)、接收器狀態(tài)、估計(jì)目標(biāo)狀態(tài)以及估計(jì)目標(biāo)后驗(yàn)協(xié)方差矩陣的對角線元素輸入給策略網(wǎng)絡(luò),auv執(zhí)行策略網(wǎng)絡(luò)的動作輸出,以跟蹤水下目標(biāo)。
40、一種計(jì)算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的基于深度強(qiáng)化學(xué)習(xí)的雙基地聲吶水下目標(biāo)跟蹤auv決策方法。
41、本發(fā)明具有以下有益效果及優(yōu)點(diǎn):
42、1.基于深度強(qiáng)化學(xué)習(xí)方法的auv決策將深度學(xué)習(xí)的擬合能力與強(qiáng)化學(xué)習(xí)的學(xué)習(xí)能力結(jié)合,能夠使auv自主探索和學(xué)習(xí)動作策略,執(zhí)行端到端的輸出。
43、2.將基于模型的滾動時(shí)域優(yōu)化策略與無模型的深度強(qiáng)化學(xué)習(xí)相結(jié)合用于網(wǎng)絡(luò)訓(xùn)練,能夠利用已有模型保障auv學(xué)習(xí)的安全性,降低訓(xùn)練代價(jià),提高決策性能,同時(shí)避免對先驗(yàn)?zāi)P偷倪^度依賴。
44、3.在基于模型的滾動時(shí)域優(yōu)化中,基于信息增益建立目標(biāo)函數(shù),能夠有效刻畫auv水下目標(biāo)跟蹤性能。
45、4.利用蒙特卡洛樹搜索算法求解滾動時(shí)域優(yōu)化問題,相比于暴力搜索等其他方法更高效。