本發(fā)明涉及主動(dòng)視覺跟蹤,具體涉及一種尺度自適應(yīng)的主動(dòng)視覺跟蹤方法。
背景技術(shù):
1、視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在連續(xù)的圖像序列中跟蹤一個(gè)或多個(gè)目標(biāo)的過程。這一過程涉及檢測(cè)視頻幀中感興趣的目標(biāo),并在隨后的幀中連續(xù)定位該目標(biāo)的位置。這對(duì)于理解視頻內(nèi)容、智能監(jiān)控、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域至關(guān)重要。視覺目標(biāo)跟蹤按照是否需要對(duì)相機(jī)的運(yùn)動(dòng)進(jìn)行控制可以分為兩類:被動(dòng)視覺跟蹤和主動(dòng)視覺跟蹤。被動(dòng)視覺跟蹤的任務(wù)是在給定初始幀中目標(biāo)定位框的情況下,預(yù)測(cè)后續(xù)幀中目標(biāo)的定位框,不考慮相機(jī)的運(yùn)動(dòng)控制問題;與被動(dòng)視覺跟蹤不同的是,主動(dòng)視覺跟蹤不僅考慮在視頻序列中定位目標(biāo),還涉及控制相機(jī)的運(yùn)動(dòng)來主動(dòng)地跟隨目標(biāo),以使目標(biāo)始終以合適的大小位于相機(jī)視野中心,即處于理想位置。主動(dòng)視覺跟蹤包括兩個(gè)子任務(wù):視覺感知和動(dòng)作控制。視覺感知任務(wù)負(fù)責(zé)從輸入的視覺觀測(cè)圖像中提取特征并檢測(cè)識(shí)別目標(biāo),動(dòng)作控制任務(wù)則根據(jù)感知結(jié)果輸出相機(jī)動(dòng)作。
2、主動(dòng)視覺跟蹤方法可以分為兩類:傳統(tǒng)的兩階段方法和基于深度強(qiáng)化學(xué)習(xí)的端到端方法。傳統(tǒng)的兩階段方法將主動(dòng)視覺跟蹤劃分為被動(dòng)視覺跟蹤和控制器兩個(gè)模塊完成,其中被動(dòng)視覺跟蹤模塊用于從輸入的視覺觀測(cè)圖像中獲取目標(biāo)的定位框,控制器模塊根據(jù)定位框的位置和理想位置的差異輸出相機(jī)的動(dòng)作信號(hào)。兩階段方法存在以下局限性:被動(dòng)視覺跟蹤模塊通常采用現(xiàn)有的被動(dòng)視覺跟蹤算法,而訓(xùn)練這些算法需要大量人工標(biāo)注的數(shù)據(jù)集,耗時(shí)耗力;被動(dòng)視覺跟蹤模塊輸出的中間結(jié)果可能并不適合用于動(dòng)作決策;被動(dòng)視覺跟蹤和控制器兩個(gè)模塊之間的聯(lián)調(diào)困難。隨著近年來深度強(qiáng)化學(xué)習(xí)技術(shù)的不斷發(fā)展和在許多控制決策領(lǐng)域如機(jī)器人運(yùn)動(dòng)控制中取得的成功,基于深度強(qiáng)化學(xué)習(xí)的端到端方法取得了很大進(jìn)展,成為了一個(gè)研究熱點(diǎn)。
3、強(qiáng)化學(xué)習(xí)具有強(qiáng)大的決策能力,通過智能體(包括跟蹤器、目標(biāo)和干擾物三種)與環(huán)境的不斷交互和試錯(cuò),根據(jù)環(huán)境反饋的獎(jiǎng)勵(lì)來優(yōu)化智能體的動(dòng)作策略,目的是最大化獲得的累積獎(jiǎng)勵(lì)?;谏疃葟?qiáng)化學(xué)習(xí)的端到端方法結(jié)合了強(qiáng)化學(xué)習(xí)的決策能力和深度學(xué)習(xí)的感知能力,使用一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)直接將視覺觀測(cè)圖像映射為相機(jī)的動(dòng)作信號(hào),即跟蹤器的策略網(wǎng)絡(luò),并在跟蹤器與環(huán)境交互的過程中不斷優(yōu)化此策略網(wǎng)絡(luò)。基于深度強(qiáng)化學(xué)習(xí)的端到端方法具有計(jì)算效率高、泛化性能好等優(yōu)點(diǎn),取得了超越兩階段方法的效果,因此成為了主動(dòng)視覺跟蹤領(lǐng)域重要的研究方向。
4、luo等人在“end-to-end?active?object?tracking?via?reinforcementlearning,基于深度強(qiáng)化學(xué)習(xí)的端到端主動(dòng)目標(biāo)跟蹤”(見文獻(xiàn)luo?w,sun?p,zhong?f,etal.end-to-end?active?object?tracking?via?reinforcement?learning[c].international?conference?on?machine?learning.2018:3286–3295.)中首次提出了基于深度強(qiáng)化學(xué)習(xí)的主動(dòng)視覺跟蹤方法,該方法采用一個(gè)卷積長(zhǎng)短期記憶(convolutionallong?short?term?memory,conv-lstm)網(wǎng)絡(luò),輸入視頻圖像幀,輸出相機(jī)動(dòng)作。整個(gè)網(wǎng)絡(luò)在跟蹤器與環(huán)境交互的過程中通過強(qiáng)化學(xué)習(xí)a3c(asynchronous?advantage?actor-critic,a3c)算法進(jìn)行訓(xùn)練,訓(xùn)練過程中目標(biāo)按照預(yù)先設(shè)定的路線運(yùn)動(dòng)。然而,目標(biāo)按照固定路線運(yùn)動(dòng)會(huì)使其軌跡過于單一,進(jìn)而導(dǎo)致跟蹤器對(duì)特定的目標(biāo)運(yùn)動(dòng)軌跡過擬合,使得遇到其他運(yùn)動(dòng)軌跡的目標(biāo)時(shí)跟蹤失敗。為此,文獻(xiàn)“ad-vat:an?asymmetric?dueling?mechanism?forlearning?visual?active?tracking,基于非對(duì)稱對(duì)抗機(jī)制的視覺主動(dòng)跟蹤”(見文獻(xiàn)zhongf,sun?p,luo?w,et?al.ad-vat:an?asymmetric?dueling?mechanism?for?learningvisual?active?tracking[c].international?conference?on?learningrepresentations.2018.)中提出了一種基于對(duì)抗強(qiáng)化學(xué)習(xí)的非對(duì)稱對(duì)抗機(jī)制,將跟蹤器和目標(biāo)都建模為可學(xué)習(xí)的智能體,二者之間形成競(jìng)爭(zhēng)關(guān)系:跟蹤器學(xué)習(xí)跟蹤目標(biāo),而目標(biāo)嘗試擺脫跟蹤器。這種對(duì)抗機(jī)制是通過定義相反的跟蹤器和目標(biāo)的獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)的。為了使目標(biāo)能夠?qū)W習(xí)到遠(yuǎn)離跟蹤器的最優(yōu)策略,目標(biāo)被定義為能夠感知跟蹤器的觀測(cè)和動(dòng)作,其網(wǎng)絡(luò)不僅輸入自身的視覺觀測(cè),還輸入跟蹤器的視覺觀測(cè)和動(dòng)作信號(hào)。在訓(xùn)練過程中,跟蹤器和目標(biāo)互相優(yōu)化策略,跟蹤器能夠始終與具有合適難度的目標(biāo)競(jìng)爭(zhēng)。為了解決干擾物帶來的視覺混淆和遮擋目標(biāo)問題,文獻(xiàn)“towards?distraction-robust?active?visualtracking,面向干擾魯棒的主動(dòng)視覺跟蹤”(見文獻(xiàn)zhong?f,sun?p,luo?w,et?al.towardsdistraction-robust?active?visual?tracking[c].international?conference?onmachine?learning.2021:12782-12792.)中提出了一種混合協(xié)作競(jìng)爭(zhēng)多智能體博弈框架,將跟蹤器、目標(biāo)和干擾物都建模為可學(xué)習(xí)的智能體。這一多智能體博弈框架通過分別定義跟蹤器、目標(biāo)和干擾物的獎(jiǎng)勵(lì)函數(shù)來實(shí)現(xiàn),令下標(biāo)i∈{1,2,3}分別表示跟蹤器、目標(biāo)和干擾物,目標(biāo)的理想位置為跟蹤器正前方距離d處,跟蹤器與其他智能體(即目標(biāo)和干擾物)的幾何關(guān)系定義為其他智能體與目標(biāo)理想位置之間的位置差異d(i),d(i)表示第i個(gè)智能體與目標(biāo)理想位置的位置差異。跟蹤器的獎(jiǎng)勵(lì)函數(shù)定義為r1=1-d(2),d(2)表示目標(biāo)實(shí)際位置與目標(biāo)理想位置的位置差異。目標(biāo)的獎(jiǎng)勵(lì)函數(shù)定義為r2=-r1。干擾物的獎(jiǎng)勵(lì)函數(shù)定義為r3=r2-d(3),d(3)表示干擾物與目標(biāo)理想位置的位置差異。在博弈中,目標(biāo)和干擾物相互合作形成一個(gè)團(tuán)隊(duì)(稱為對(duì)手)與跟蹤器對(duì)抗,具體來說,跟蹤器跟隨目標(biāo)并與其保持特定的相對(duì)位姿,使目標(biāo)與理想位置的差異盡可能小;目標(biāo)擺脫跟蹤器,盡可能遠(yuǎn)離理想位置;干擾物與目標(biāo)合作,通過對(duì)跟蹤器造成視覺干擾或遮擋目標(biāo)來幫助目標(biāo)擺脫跟蹤器。由于直接利用強(qiáng)化學(xué)習(xí)訓(xùn)練視覺輸入的多個(gè)智能體效率低下,為此,該文獻(xiàn)中提出了一種跨模態(tài)師生學(xué)習(xí)方法,將訓(xùn)練過程劃分為教師訓(xùn)練階段和學(xué)生訓(xùn)練階段。在教師訓(xùn)練階段中,使用智能體的相對(duì)位姿訓(xùn)練元策略得到元跟蹤器(教師跟蹤器)、元目標(biāo)和元干擾物,由于相對(duì)位姿是低維的真實(shí)狀態(tài)信息,因此能夠容易地訓(xùn)練出接近最優(yōu)的策略。在學(xué)生訓(xùn)練階段中,通過采樣元目標(biāo)和元干擾物的策略,并使用教師跟蹤器提供的動(dòng)作標(biāo)簽對(duì)視覺跟蹤器進(jìn)行監(jiān)督訓(xùn)練,進(jìn)而優(yōu)化其策略網(wǎng)絡(luò),得到學(xué)生跟蹤器。
5、盡管現(xiàn)有的基于深度強(qiáng)化學(xué)習(xí)的端到端方法在主動(dòng)視覺跟蹤方法中取得了顯著進(jìn)展,但依然面臨著跟蹤過程中目標(biāo)尺度變化帶來的挑戰(zhàn)性問題。在主動(dòng)視覺跟蹤中,由于跟蹤器和目標(biāo)都在不斷運(yùn)動(dòng),目標(biāo)在跟蹤器視覺觀測(cè)中的尺度可能發(fā)生顯著變化。例如,當(dāng)目標(biāo)突然向后移動(dòng),其在跟蹤器相機(jī)視野中的尺度會(huì)顯著增大;相反,當(dāng)目標(biāo)向前加速時(shí),其尺度則會(huì)減小。這種尺度變化在環(huán)境中存在干擾物(如跟蹤場(chǎng)景中的其他的人或車輛等)時(shí)尤為突出,因?yàn)楦櫰饕曇爸锌赡芡瑫r(shí)出現(xiàn)多個(gè)尺度不同的物體,從而產(chǎn)生尺度干擾問題。目前,現(xiàn)有的主動(dòng)視覺跟蹤方法基本上均是專注于處理常規(guī)尺度的目標(biāo)跟蹤問題,并沒有考慮尺度變化問題及其帶來的影響,因而也并沒有提出有效的應(yīng)對(duì)方案。
6、因此,如何解決尺度變化問題,尤其是當(dāng)環(huán)境中存在干擾物時(shí),是主動(dòng)視覺跟蹤領(lǐng)域急需解決的難點(diǎn)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是針對(duì)主動(dòng)視覺跟蹤中的目標(biāo)尺度變化問題,提供一種尺度自適應(yīng)的主動(dòng)視覺跟蹤方法,能夠增強(qiáng)主動(dòng)跟蹤器在目標(biāo)尺度變化的情況下的跟蹤能力,提高主動(dòng)跟蹤器的跟蹤性能(包括累計(jì)獎(jiǎng)勵(lì)(accumulated?reward,ar)、幕長(zhǎng)度(episode?length,el)、跟蹤成功率(success?rate,sr)三個(gè)指標(biāo)),尤其提高當(dāng)環(huán)境中存在干擾物時(shí)的跟蹤性能。
2、本發(fā)明包括以下步驟:
3、第一步,構(gòu)建尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)。所述尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)由數(shù)據(jù)獲取模塊,數(shù)據(jù)預(yù)處理模塊,主動(dòng)視覺跟蹤教師模塊,主動(dòng)視覺跟蹤學(xué)生模塊構(gòu)成。
4、數(shù)據(jù)獲取模塊與跟蹤器的相機(jī)、所有智能體(跟蹤器、目標(biāo)、干擾物)的位姿傳感器、數(shù)據(jù)預(yù)處理模塊相連,從跟蹤器的相機(jī)獲取二維的視覺觀測(cè)圖像,從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取跟蹤器、目標(biāo)、干擾物的位姿數(shù)據(jù)。在訓(xùn)練時(shí),數(shù)據(jù)獲取模塊將從跟蹤器的相機(jī)獲取的視覺觀測(cè)圖像和從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊;而在實(shí)際對(duì)目標(biāo)進(jìn)行跟蹤時(shí),數(shù)據(jù)獲取模塊僅將從跟蹤器的相機(jī)獲取的視覺觀測(cè)圖像發(fā)送給數(shù)據(jù)預(yù)處理模塊。
5、數(shù)據(jù)預(yù)處理模塊與數(shù)據(jù)獲取模塊、主動(dòng)視覺跟蹤教師模塊、主動(dòng)視覺跟蹤學(xué)生模塊相連,從數(shù)據(jù)獲取模塊接收視覺觀測(cè)圖像、位姿數(shù)據(jù),對(duì)視覺觀測(cè)圖像、位姿數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的視覺觀測(cè)圖像和預(yù)處理后的位姿數(shù)據(jù)。在訓(xùn)練時(shí),數(shù)據(jù)預(yù)處理模塊將預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊,將預(yù)處理后的視覺觀測(cè)圖像發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊。在實(shí)際跟蹤時(shí),數(shù)據(jù)預(yù)處理模塊僅將預(yù)處理后的視覺觀測(cè)圖像發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊。
6、主動(dòng)視覺跟蹤教師模塊的功能是輔助主動(dòng)視覺跟蹤學(xué)生模塊,僅在訓(xùn)練時(shí)工作,在實(shí)際跟蹤時(shí)不參與工作。主動(dòng)視覺跟蹤教師模塊與數(shù)據(jù)預(yù)處理模塊和主動(dòng)視覺跟蹤學(xué)生模塊相連,由元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)、獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊、第一損失函數(shù)計(jì)算模塊組成。元跟蹤器網(wǎng)絡(luò)由第一雙向門控循環(huán)單元、第一長(zhǎng)短期記憶單元、第一全連接層、第二全連接層組成;第一雙向門控循環(huán)單元對(duì)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的位姿數(shù)據(jù)進(jìn)行編碼,得到跟蹤器的位姿特征,將跟蹤器的位姿特征發(fā)送給第一長(zhǎng)短期記憶單元;第一長(zhǎng)短期記憶單元對(duì)從第一雙向門控循環(huán)單元接收的跟蹤器的位姿特征進(jìn)行時(shí)序特征提取,得到跟蹤器的時(shí)序位姿特征,將跟蹤器的時(shí)序位姿特征發(fā)送給第一全連接層和第二全連接層;第一全連接層對(duì)從第一長(zhǎng)短期記憶單元接收的跟蹤器的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè),得到跟蹤器的動(dòng)作概率,在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí),第一全連接層將跟蹤器的動(dòng)作概率發(fā)送給元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)、第一損失函數(shù)計(jì)算模塊,在訓(xùn)練主動(dòng)視覺跟蹤學(xué)生模塊時(shí),第一全連接層將跟蹤器的動(dòng)作概率發(fā)送給元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)、主動(dòng)視覺跟蹤學(xué)生模塊(在圖1中使用虛線表示第一全連接層將跟蹤器的動(dòng)作概率發(fā)送給元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)、第一損失函數(shù)計(jì)算模塊、主動(dòng)視覺跟蹤學(xué)生模塊的第二損失函數(shù)計(jì)算模塊);第二全連接層對(duì)從第一長(zhǎng)短期記憶單元接收的跟蹤器的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì),得到跟蹤器的狀態(tài)價(jià)值,在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí),第二全連接層將跟蹤器的狀態(tài)價(jià)值發(fā)送給第一損失函數(shù)計(jì)算模塊。
7、元目標(biāo)網(wǎng)絡(luò)由第二雙向門控循環(huán)單元、第二長(zhǎng)短期記憶單元、第三全連接層、第四全連接層組成;第二雙向門控循環(huán)單元對(duì)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的位姿數(shù)據(jù)進(jìn)行編碼,得到目標(biāo)的位姿特征,將目標(biāo)的位姿特征發(fā)送給第二長(zhǎng)短期記憶單元;第二長(zhǎng)短期記憶單元對(duì)從第二雙向門控循環(huán)單元接收的目標(biāo)的位姿特征和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率進(jìn)行時(shí)序特征提取,得到目標(biāo)的時(shí)序位姿特征,將目標(biāo)的時(shí)序位姿特征發(fā)送給第三全連接層和第四全連接層;第三全連接層對(duì)從第二長(zhǎng)短期記憶單元接收的目標(biāo)的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè),得到目標(biāo)的動(dòng)作概率,在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí),第三全連接層將目標(biāo)的動(dòng)作概率發(fā)送給第一損失函數(shù)計(jì)算模塊;第四全連接層對(duì)從第二長(zhǎng)短期記憶單元接收的目標(biāo)的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì),得到目標(biāo)的狀態(tài)價(jià)值,在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí),第四全連接層將目標(biāo)的狀態(tài)價(jià)值發(fā)送給第一損失函數(shù)計(jì)算模塊。
8、元干擾物網(wǎng)絡(luò)由第三雙向門控循環(huán)單元、第三長(zhǎng)短期記憶單元、第五全連接層、第六全連接層組成;第三雙向門控循環(huán)單元對(duì)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的位姿數(shù)據(jù)進(jìn)行編碼,得到干擾物的位姿特征,將干擾物的位姿特征發(fā)送給第三長(zhǎng)短期記憶單元;第三長(zhǎng)短期記憶單元對(duì)從第三雙向門控循環(huán)單元接收的干擾物的位姿特征和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率進(jìn)行時(shí)序特征提取,得到干擾物的時(shí)序位姿特征,將干擾物的時(shí)序位姿特征發(fā)送給第五全連接層和第六全連接層;第五全連接層對(duì)從第三長(zhǎng)短期記憶單元接收的干擾物的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè),得到干擾物的動(dòng)作概率,在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí),第五全連接層將干擾物的動(dòng)作概率發(fā)送給第一損失函數(shù)計(jì)算模塊;第六全連接層對(duì)從第三長(zhǎng)短期記憶單元接收的干擾物的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì),得到干擾物的狀態(tài)價(jià)值,在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí),第六全連接層將干擾物的狀態(tài)價(jià)值發(fā)送給第一損失函數(shù)計(jì)算模塊。
9、獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊與數(shù)據(jù)預(yù)處理模塊、第一損失函數(shù)計(jì)算模塊相連。在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí),獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的位姿數(shù)據(jù)計(jì)算跟蹤器、目標(biāo)、干擾物的獎(jiǎng)勵(lì),將跟蹤器、目標(biāo)、干擾物的獎(jiǎng)勵(lì)發(fā)送給第一損失函數(shù)計(jì)算模塊。
10、第一損失函數(shù)計(jì)算模塊與獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊、元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)相連。在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí),第一損失函數(shù)計(jì)算模塊從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收跟蹤器、目標(biāo)、干擾物的獎(jiǎng)勵(lì),從元跟蹤器網(wǎng)絡(luò)接收跟蹤器的動(dòng)作概率、跟蹤器的狀態(tài)價(jià)值,從元目標(biāo)網(wǎng)絡(luò)接收目標(biāo)的動(dòng)作概率、目標(biāo)的狀態(tài)價(jià)值,從元干擾物網(wǎng)絡(luò)接收干擾物的動(dòng)作概率、干擾物的狀態(tài)價(jià)值,根據(jù)跟蹤器的獎(jiǎng)勵(lì)、動(dòng)作概率、狀態(tài)價(jià)值計(jì)算跟蹤器的時(shí)序差分誤差損失和策略梯度損失,根據(jù)目標(biāo)的獎(jiǎng)勵(lì)、動(dòng)作概率、狀態(tài)價(jià)值計(jì)算目標(biāo)的時(shí)序差分誤差損失和策略梯度損失,根據(jù)干擾物的獎(jiǎng)勵(lì)、動(dòng)作概率、狀態(tài)價(jià)值計(jì)算干擾物的時(shí)序差分誤差損失和策略梯度損失。在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí),主動(dòng)視覺跟蹤教師模塊通過最小化第一損失函數(shù)計(jì)算模塊得到的跟蹤器、目標(biāo)、干擾物的時(shí)序差分誤差損失和策略梯度損失優(yōu)化元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)。
11、主動(dòng)視覺跟蹤學(xué)生模塊與數(shù)據(jù)預(yù)處理模塊、主動(dòng)視覺跟蹤教師模塊相連,由視覺跟蹤器網(wǎng)絡(luò)、第二損失函數(shù)計(jì)算模塊組成。視覺跟蹤器網(wǎng)絡(luò)由卷積主干網(wǎng)、多尺度卷積網(wǎng)絡(luò)分支、尺度注意力模塊、自適應(yīng)融合模塊、循環(huán)注意力模塊、第八全連接層組成。
12、卷積主干網(wǎng)與數(shù)據(jù)預(yù)處理模塊、多尺度卷積網(wǎng)絡(luò)分支和尺度注意力模塊相連,對(duì)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的視覺觀測(cè)圖像進(jìn)行特征提取,得到視覺觀測(cè)圖像特征,將視覺觀測(cè)圖像特征發(fā)送給多尺度卷積網(wǎng)絡(luò)分支和尺度注意力模塊。
13、多尺度卷積網(wǎng)絡(luò)分支的分支數(shù)為4,由第一尺度卷積網(wǎng)絡(luò)分支、第二尺度卷積網(wǎng)絡(luò)分支、第三尺度卷積網(wǎng)絡(luò)分支、第四尺度卷積網(wǎng)絡(luò)分支組成。第一尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取,得到第一尺度視覺觀測(cè)圖像特征,將第一尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊;第二尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取,得到第二尺度視覺觀測(cè)圖像特征,將第二尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊;第三尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取,得到第三尺度視覺觀測(cè)圖像特征,將第三尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊;第四尺度卷積網(wǎng)絡(luò)分支對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征進(jìn)行降維和特征提取,得到第四尺度視覺觀測(cè)圖像特征,將第四尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊;第一尺度卷積網(wǎng)絡(luò)分支由卷積核大小為1×1的第一普通卷積層和卷積核大小為3×3、擴(kuò)張率為3的第一擴(kuò)張卷積層組成,感受野大小為7;第二尺度卷積網(wǎng)絡(luò)分支由卷積核大小為1×1的第二普通卷積層和卷積核大小為3×3、擴(kuò)張率為2的第二擴(kuò)張卷積層組成,感受野大小為5;第三尺度卷積網(wǎng)絡(luò)分支由卷積核大小為1×1的第三普通卷積層和卷積核大小為3×3、擴(kuò)張率為1的第三擴(kuò)張卷積層組成,感受野大小為3;第四尺度卷積網(wǎng)絡(luò)分支由卷積核大小為1×1的第四普通卷積層組成,感受野大小為1;第一尺度視覺觀測(cè)圖像特征、第二尺度視覺觀測(cè)圖像特征、第三尺度視覺觀測(cè)圖像特征、第四尺度視覺觀測(cè)圖像特征構(gòu)成多尺度視覺觀測(cè)圖像特征。多尺度卷積網(wǎng)絡(luò)分支能夠在多個(gè)尺度范圍(對(duì)應(yīng)不同大小的感受野)對(duì)視覺觀測(cè)圖像進(jìn)行特征提取,因此能夠提取尺度變化的目標(biāo)的特征。
14、尺度注意力模塊由卷積長(zhǎng)短期記憶單元、全局平均池化層、第七全連接層、sigmoid激活函數(shù)層組成;卷積長(zhǎng)短期記憶單元對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征進(jìn)行時(shí)序特征提取,得到視覺觀測(cè)圖像時(shí)序特征,將視覺觀測(cè)圖像時(shí)序特征發(fā)送給全局平均池化層;全局平均池化層對(duì)從卷積長(zhǎng)短期記憶單元接收的視覺觀測(cè)圖像時(shí)序特征在空間維度進(jìn)行特征壓縮,得到長(zhǎng)度等于視覺觀測(cè)圖像時(shí)序特征通道數(shù)的第一特征向量,將第一特征向量發(fā)送給第七全連接層;第七全連接層對(duì)從全局平均池化層接收的第一特征向量進(jìn)行特征壓縮,得到長(zhǎng)度等于多尺度卷積網(wǎng)絡(luò)分支數(shù)(為4)的第二特征向量,將第二特征向量發(fā)送給sigmoid激活函數(shù)層;sigmoid激活函數(shù)層將從第七全連接層接收的第二特征向量的值縮放到[0,1]范圍,得到多尺度視覺觀測(cè)圖像特征的權(quán)重,將多尺度視覺觀測(cè)圖像特征的權(quán)重發(fā)送給自適應(yīng)融合模塊。尺度注意力模塊能夠根據(jù)視覺觀測(cè)圖像中目標(biāo)的尺度大小自適應(yīng)地計(jì)算得到多尺度視覺觀測(cè)圖像特征的權(quán)重,包含較多目標(biāo)特征的尺度的視覺觀測(cè)圖像特征被賦予較大的權(quán)重,包含較少目標(biāo)特征的尺度的視覺觀測(cè)圖像特征被賦予較小的權(quán)重。
15、自適應(yīng)融合模塊與多尺度卷積網(wǎng)絡(luò)分支、尺度注意力模塊、循環(huán)注意力模塊相連,由加權(quán)拼接層、卷積核大小為1×1的第五普通卷積層組成;加權(quán)拼接層使用從尺度注意力模塊接收的多尺度視覺觀測(cè)圖像特征的權(quán)重對(duì)從多尺度卷積網(wǎng)絡(luò)分支接收的第一尺度視覺觀測(cè)圖像特征、第二尺度視覺觀測(cè)圖像特征、第三尺度視覺觀測(cè)圖像特征、第四尺度視覺觀測(cè)圖像特征進(jìn)行加權(quán)拼接,得到加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征,將加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征發(fā)送給第五普通卷積層;第五普通卷積層對(duì)從加權(quán)拼接層接收的加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征在通道維度進(jìn)行降維,得到自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征,將自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征發(fā)送給循環(huán)注意力模塊。自適應(yīng)融合模塊使用多尺度視覺觀測(cè)圖像特征的權(quán)重對(duì)多尺度視覺觀測(cè)圖像特征進(jìn)行加權(quán)融合,從而實(shí)現(xiàn)自適應(yīng)地對(duì)尺度變化的目標(biāo)進(jìn)行特征提取。
16、循環(huán)注意力模塊與自適應(yīng)融合模塊、第八全連接層相連,對(duì)從自適應(yīng)融合模塊接收的自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征進(jìn)行時(shí)序特征提取和加權(quán),得到自適應(yīng)時(shí)序尺度特征,將自適應(yīng)時(shí)序尺度特征發(fā)送給第八全連接層。
17、第八全連接層對(duì)從循環(huán)注意力模塊接收的自適應(yīng)時(shí)序尺度特征進(jìn)行動(dòng)作預(yù)測(cè),得到跟蹤器的動(dòng)作概率,在訓(xùn)練主動(dòng)視覺跟蹤學(xué)生模塊時(shí),第八全連接層將跟蹤器的動(dòng)作概率發(fā)送給第二損失函數(shù)計(jì)算模塊。
18、第二損失函數(shù)計(jì)算模塊與第八全連接層、元跟蹤器網(wǎng)絡(luò)相連,在訓(xùn)練主動(dòng)視覺跟蹤學(xué)生模塊時(shí),第二損失函數(shù)計(jì)算模塊對(duì)從第八全連接層接收的跟蹤器的動(dòng)作概率和從主動(dòng)視覺跟蹤教師模塊的元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率計(jì)算kl散度損失。在訓(xùn)練主動(dòng)視覺跟蹤學(xué)生模塊時(shí),主動(dòng)視覺跟蹤學(xué)生模塊通過最小化第二損失函數(shù)計(jì)算模塊得到的kl散度損失優(yōu)化視覺跟蹤器網(wǎng)絡(luò)。
19、第二步,對(duì)尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)中的主動(dòng)視覺跟蹤教師模塊和主動(dòng)視覺跟蹤學(xué)生模塊進(jìn)行訓(xùn)練。所述主動(dòng)視覺跟蹤教師模塊的訓(xùn)練方式為強(qiáng)化學(xué)習(xí)方式,所述主動(dòng)視覺跟蹤學(xué)生模塊的訓(xùn)練方式為監(jiān)督學(xué)習(xí)方式。
20、2.1采用強(qiáng)化學(xué)習(xí)的方式對(duì)主動(dòng)視覺跟蹤教師模塊進(jìn)行訓(xùn)練,方法是在跟蹤器、目標(biāo)、干擾物與環(huán)境交互的過程中采用對(duì)抗強(qiáng)化學(xué)習(xí)對(duì)元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)進(jìn)行多尺度多階段訓(xùn)練,每個(gè)階段中目標(biāo)和干擾物的獎(jiǎng)勵(lì)函數(shù)不同,對(duì)應(yīng)不同尺度的訓(xùn)練,具體為:
21、2.1.1采用強(qiáng)化學(xué)習(xí)的方式對(duì)主動(dòng)跟蹤教師模塊進(jìn)行第一階段常規(guī)尺度的訓(xùn)練,方法是:
22、2.1.1.1設(shè)置訓(xùn)練步數(shù)t為大于1000000的正整數(shù),優(yōu)選t=2000000,初始化已訓(xùn)練步數(shù)t=1。
23、2.1.1.2設(shè)置目標(biāo)位置熵獎(jiǎng)勵(lì)系數(shù)a為大于0.5的常數(shù),優(yōu)選a=0.8,設(shè)置正則化因子α為小于1的常數(shù),優(yōu)選α=0.005;設(shè)置獎(jiǎng)勵(lì)衰減因子γ為大于0.5的常數(shù),優(yōu)選γ=0.9;設(shè)置環(huán)境水平網(wǎng)格劃分?jǐn)?shù)n為正整數(shù),優(yōu)選n=10。
24、2.1.1.3設(shè)置用于計(jì)算目標(biāo)位置熵獎(jiǎng)勵(lì)的步數(shù)n=min(t,50);
25、2.1.1.4數(shù)據(jù)獲取模塊從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù),將第t步的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。第t步的位姿數(shù)據(jù)包括跟蹤器的位置坐標(biāo)和朝向角目標(biāo)的位置坐標(biāo)和朝向角干擾物的位置坐標(biāo)和朝向角
26、2.1.1.5數(shù)據(jù)預(yù)處理模塊采用第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理,得到第t步的預(yù)處理后的位姿數(shù)據(jù),將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。第一預(yù)處理方法為:
27、2.1.1.5.1計(jì)算目標(biāo)實(shí)際位置相對(duì)于跟蹤器的相對(duì)距離相對(duì)角度相對(duì)朝向角和干擾物實(shí)際位置相對(duì)于跟蹤器的相對(duì)距離相對(duì)角度相對(duì)朝向角
28、2.1.1.5.2設(shè)置目標(biāo)理想位置相對(duì)于跟蹤器的相對(duì)距離ρ*=250cm、相對(duì)角度θ*=0、相對(duì)朝向角ω*=0,表示目標(biāo)理想位置位于跟蹤器正前方距離250cm處且朝向與跟蹤器相同;設(shè)置跟蹤器視野范圍的最大距離ρmax=750cm和最大角度θmax=90°。
29、2.1.1.5.3計(jì)算目標(biāo)實(shí)際位置、干擾物實(shí)際位置的歸一化相對(duì)距離、歸一化表示的相對(duì)角度、歸一化表示的相對(duì)朝向角:
30、2.1.1.5.3.1計(jì)算目標(biāo)實(shí)際位置的歸一化相對(duì)距離干擾物實(shí)際位置的歸一化相對(duì)距離
31、2.1.1.5.3.2計(jì)算目標(biāo)實(shí)際位置的相對(duì)角度的正弦值和余弦值得到目標(biāo)實(shí)際位置的歸一化表示的相對(duì)角度;
32、2.1.1.5.3.3計(jì)算目標(biāo)實(shí)際位置的相對(duì)朝向角的正弦值sin和余弦值cos得到目標(biāo)實(shí)際位置的歸一化表示的相對(duì)朝向角;
33、2.1.1.5.3.4計(jì)算干擾物實(shí)際位置的相對(duì)角度的正弦值sin和余弦值cos得到干擾物實(shí)際位置的歸一化表示的相對(duì)角度;
34、2.1.1.5.3.5計(jì)算干擾物實(shí)際位置的相對(duì)朝向角的正弦值sin和余弦值cos得到干擾物實(shí)際位置的歸一化表示的相對(duì)朝向角。
35、2.1.1.5.4將跟蹤器的位置坐標(biāo)目標(biāo)的位置坐標(biāo)干擾物的位置坐標(biāo)目標(biāo)實(shí)際位置的相對(duì)距離相對(duì)角度相對(duì)朝向角干擾物實(shí)際位置的相對(duì)距離相對(duì)角度相對(duì)朝向角目標(biāo)實(shí)際位置的歸一化相對(duì)距離目標(biāo)實(shí)際位置的歸一化表示的相對(duì)角度sincos目標(biāo)實(shí)際位置的歸一化表示的相對(duì)朝向角sincos干擾物實(shí)際位置的歸一化相對(duì)距離干擾物實(shí)際位置的歸一化表示的相對(duì)角度sincos干擾物實(shí)際位置的歸一化表示的相對(duì)朝向角sincos組成第t步的預(yù)處理后的位姿數(shù)據(jù)。
36、2.1.1.6主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算跟蹤器的獎(jiǎng)勵(lì)
37、
38、2.1.1.7主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將訓(xùn)練環(huán)境劃分為i個(gè)網(wǎng)格,i=n×n,采用頻率計(jì)算方法根據(jù)過去t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算過去n步的目標(biāo)位置坐標(biāo)的集合(目標(biāo)位置坐標(biāo)的集合為)在每個(gè)網(wǎng)格中出現(xiàn)的頻率p1,…,pi,…,pi,方法是:
39、2.1.1.7.1初始化變量i=1;
40、2.1.1.7.2計(jì)算過去n步的目標(biāo)位置坐標(biāo)的集合在第i個(gè)網(wǎng)格中出現(xiàn)的頻率pi:
41、
42、其中ni為過去n步的目標(biāo)位置坐標(biāo)的集合中落在第i個(gè)網(wǎng)格中的位置數(shù),ni<n。
43、2.1.1.7.3令i=i+1,若i≤i,轉(zhuǎn)3.1.1.7.2;若i>i,得到p1,…,pi,…,pi,轉(zhuǎn)2.1.1.8。
44、2.1.1.8主動(dòng)視覺教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊計(jì)算目標(biāo)的位置熵獎(jiǎng)勵(lì)loc_entropy:
45、
46、2.1.1.9主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算目標(biāo)的獎(jiǎng)勵(lì)
47、
48、2.1.1.10主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算干擾物的獎(jiǎng)勵(lì)
49、
50、2.1.1.11主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊。
51、2.1.1.12主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì),得到跟蹤器的狀態(tài)價(jià)值v1(st)和跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和干擾物的動(dòng)作概率π3(at|st),方法為:
52、2.1.1.12.1令第t步的預(yù)處理后的位姿數(shù)據(jù)中目標(biāo)實(shí)際位置的歸一化相對(duì)距離歸一化表示的相對(duì)角度sincos歸一化表示的相對(duì)朝向角sincos干擾物實(shí)際位置的歸一化相對(duì)距離歸一化表示的相對(duì)角度sincos歸一化表示的相對(duì)朝向角sincos組成第t步的環(huán)境狀態(tài)
53、2.1.1.12.2元跟蹤器網(wǎng)絡(luò)中的第一雙向門控循環(huán)單元對(duì)st進(jìn)行編碼,得到跟蹤器的位姿特征,將跟蹤器的位姿特征發(fā)送給第一長(zhǎng)短期記憶單元;第一長(zhǎng)短期記憶單元對(duì)從第一雙向門控循環(huán)單元接收的跟蹤器的位姿特征進(jìn)行時(shí)序特征提取,得到跟蹤器的時(shí)序位姿特征,將跟蹤器的時(shí)序位姿特征發(fā)送給第一全連接層和第二全連接層;第一全連接層對(duì)從第一長(zhǎng)短期記憶單元接收的跟蹤器的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè),得到跟蹤器的動(dòng)作概率π1(at|st),第一全連接層將跟蹤器的動(dòng)作概率發(fā)送給元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò);第二全連接層對(duì)從第一長(zhǎng)短期記憶單元接收的跟蹤器的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì),得到跟蹤器的狀態(tài)價(jià)值v1(st)。
54、2.1.1.12.3元目標(biāo)網(wǎng)絡(luò)中的第二雙向門控循環(huán)單元對(duì)st進(jìn)行編碼,得到目標(biāo)的位姿特征,將目標(biāo)的位姿特征發(fā)送給第二長(zhǎng)短期記憶單元;第二長(zhǎng)短期記憶單元對(duì)從第二雙向門控循環(huán)單元接收的目標(biāo)的位姿特征和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率π1(at|st)進(jìn)行時(shí)序特征提取,得到目標(biāo)的時(shí)序位姿特征,將目標(biāo)的時(shí)序位姿特征發(fā)送給第三全連接層和第四全連接層;第三全連接層對(duì)從第二長(zhǎng)短期記憶單元接收的目標(biāo)的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè),得到目標(biāo)的動(dòng)作概率π2(at|st);第四全連接層對(duì)從第二長(zhǎng)短期記憶單元接收的目標(biāo)的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì),得到目標(biāo)的狀態(tài)價(jià)值v2(st)。
55、2.1.1.12.4元干擾物網(wǎng)絡(luò)中的第三雙向門控循環(huán)單元對(duì)st進(jìn)行編碼,得到干擾物的位姿特征,將干擾物的位姿特征發(fā)送給第三長(zhǎng)短期記憶單元;第三長(zhǎng)短期記憶單元對(duì)從第三雙向門控循環(huán)單元接收的干擾物的位姿特征和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率π1(at|st)進(jìn)行時(shí)序特征提取,得到干擾物的時(shí)序位姿特征,將干擾物的時(shí)序位姿特征發(fā)送給第五全連接層和第六全連接層;第五全連接層對(duì)從第三長(zhǎng)短期記憶單元接收的干擾物的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè),得到干擾物的動(dòng)作概率π3(at|st);第六全連接層對(duì)從第三長(zhǎng)短期記憶單元接收的干擾物的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì),得到干擾物的狀態(tài)價(jià)值v3(st)。其中at為表示智能體動(dòng)作的隨機(jī)變量,取值范圍為智能體的動(dòng)作范圍(跟蹤器、目標(biāo)、干擾物的動(dòng)作范圍均為7個(gè)動(dòng)作:向前、向后、向左、向右、向前并向左、向前并向右、停止),πk(at|st)為一個(gè)條件概率,表示在狀態(tài)st下智能體的動(dòng)作范圍中的7個(gè)動(dòng)作的概率分布,k∈{1,2,3},1表示跟蹤器,2表示目標(biāo),3表示干擾物。
56、2.1.1.13主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)將跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給跟蹤器。元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的狀態(tài)價(jià)值v2(st)和動(dòng)作概率π2(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo)。元干擾物網(wǎng)絡(luò)將干擾物的狀態(tài)價(jià)值v3(st)和動(dòng)作概率π3(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。
57、2.1.1.14若t=1,轉(zhuǎn)2.1.1.16;否則:主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊根據(jù)從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收的跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)和從元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)接收的跟蹤器的狀態(tài)價(jià)值v1(st)、跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)、目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)、干擾物的動(dòng)作概率π3(at|st)計(jì)算跟蹤器的時(shí)序差分誤差損失跟蹤器的策略梯度損失目標(biāo)的時(shí)序差分誤差損失目標(biāo)的策略梯度損失干擾物的時(shí)序差分誤差損失干擾物的策略梯度損失
58、
59、其中l(wèi)ogπk(at|st)為πk(at|st)的對(duì)數(shù),h(πk(·|st))為熵正則化項(xiàng),
60、2.1.1.15主動(dòng)視覺跟蹤教師模塊使用adam優(yōu)化算法(見文獻(xiàn)“kingma?d?p,baj.adam:a?method?for?stochastic?optimization[j].arxiv?preprint?arxiv:1412.6980,2014”,kingma的論文:adam,一種隨機(jī)優(yōu)化方法)最小化和來更新元跟蹤器網(wǎng)絡(luò)的參數(shù),使用adam優(yōu)化算法最小化和來更新元目標(biāo)網(wǎng)絡(luò)的參數(shù),使用adam優(yōu)化算法最小化和來更新元干擾物網(wǎng)絡(luò)的參數(shù)。
61、2.1.1.16跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。
62、2.1.1.17令t=t+1。若t≤t,轉(zhuǎn)2.1.1.18;若t>t,轉(zhuǎn)2.1.1.19。
63、2.1.1.18若t%10000=0:將元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)保存到對(duì)手模型池,轉(zhuǎn)2.1.1.3,采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練;否則:直接轉(zhuǎn)2.1.1.3采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。
64、2.1.1.19保存元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù),轉(zhuǎn)2.1.2。
65、2.1.2經(jīng)過第一階段常規(guī)尺度的訓(xùn)練,元跟蹤器網(wǎng)絡(luò)具備了對(duì)常規(guī)尺度的目標(biāo)進(jìn)行跟蹤的能力,但仍缺少對(duì)小尺度和大尺度的目標(biāo)進(jìn)行跟蹤的能力,因此在第一階段訓(xùn)練的基礎(chǔ)上采用強(qiáng)化學(xué)習(xí)的方式對(duì)主動(dòng)視覺跟蹤教師模塊進(jìn)一步進(jìn)行第二階段小尺度的訓(xùn)練,方法是:
66、2.1.2.1元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)加載2.1.1.19中第一階段訓(xùn)練結(jié)束時(shí)保存的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)。
67、2.1.2.2設(shè)置訓(xùn)練步數(shù)t為大于100000的正整數(shù),優(yōu)選t=1000000,初始化已訓(xùn)練步數(shù)t=1;
68、2.1.2.3設(shè)置目標(biāo)位置熵獎(jiǎng)勵(lì)系數(shù)a為大于0.5的常數(shù),優(yōu)選a=0.8;設(shè)置正則化因子α為小于1的常數(shù),優(yōu)選α=0.005;設(shè)置獎(jiǎng)勵(lì)衰減因子γ為大于0.5的常數(shù),優(yōu)選γ=0.9;設(shè)置環(huán)境水平網(wǎng)格劃分?jǐn)?shù)n為正整數(shù),優(yōu)選n=10;設(shè)置目標(biāo)遠(yuǎn)離跟蹤器的閾值距離ρs為100~1000cm,優(yōu)選ρs=500cm。
69、2.1.2.4設(shè)置用于計(jì)算目標(biāo)位置熵獎(jiǎng)勵(lì)的步數(shù)n=min(t,50)。
70、2.1.2.5數(shù)據(jù)獲取模塊從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù),將第t步的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。
71、2.1.2.6數(shù)據(jù)預(yù)處理模塊采用2.1.1.5所述第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理,得到第t步的預(yù)處理后的位姿數(shù)據(jù),將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。
72、2.1.2.7主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)按照2.1.1.6中的公式(7)計(jì)算跟蹤器的獎(jiǎng)勵(lì)
73、2.1.2.8主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將訓(xùn)練環(huán)境劃分為i個(gè)網(wǎng)格,采用2.1.1.7所述頻率計(jì)算方法根據(jù)過去t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算過去n步的目標(biāo)位置坐標(biāo)的集合在每個(gè)網(wǎng)格中出現(xiàn)的頻率p1,…,pi,…,pi。
74、2.1.2.9主動(dòng)視覺教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊按照2.1.1.8中的公式(9)計(jì)算目標(biāo)的位置熵獎(jiǎng)勵(lì)loc_entropy。
75、2.1.2.10主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算目標(biāo)的獎(jiǎng)勵(lì)
76、
77、2.1.2.11主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算干擾物的獎(jiǎng)勵(lì)
78、
79、2.1.2.12主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊。
80、2.1.2.13主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用2.1.1.12所述預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì),得到跟蹤器的狀態(tài)價(jià)值v1(st)和跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和干擾物的動(dòng)作概率π3(at|st)。
81、2.1.2.14主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)將跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給跟蹤器。元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的狀態(tài)價(jià)值v2(st)和動(dòng)作概率π2(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo)。元干擾物網(wǎng)絡(luò)將干擾物的狀態(tài)價(jià)值v3(st)和動(dòng)作概率π3(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。
82、2.1.2.15若t=1,轉(zhuǎn)2.1.2.17;否則,主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊按照2.1.1.14中的公式(12)和公式(13)根據(jù)從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收的跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)和從元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)接收的跟蹤器的狀態(tài)價(jià)值v1(st)、跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)、目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)、干擾物的動(dòng)作概率π3(at|st)計(jì)算跟蹤器的時(shí)序差分誤差損失跟蹤器的策略梯度損失目標(biāo)的時(shí)序差分誤差損失目標(biāo)的策略梯度損失干擾物的時(shí)序差分誤差損失干擾物的策略梯度損失
83、2.1.2.16主動(dòng)視覺跟蹤教師模塊使用adam優(yōu)化算法最小化和來更新元跟蹤器網(wǎng)絡(luò)的參數(shù),使用adam優(yōu)化算法最小化和來更新元目標(biāo)網(wǎng)絡(luò)的參數(shù),使用adam優(yōu)化算法最小化和來更新元干擾物網(wǎng)絡(luò)的參數(shù)。
84、2.1.2.17跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。
85、2.1.2.18令t=t+1,若t≤t,轉(zhuǎn)2.1.2.19;若t>t,轉(zhuǎn)2.1.2.20。
86、2.1.2.19若t%10000=0:將元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)保存到對(duì)手模型池,轉(zhuǎn)2.1.2.4采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練;否則:直接轉(zhuǎn)2.1.2.4采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。
87、2.1.2.20保存元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù),轉(zhuǎn)2.1.3。
88、2.1.3經(jīng)過第一階段常規(guī)尺度和第二階段小尺度的訓(xùn)練,元跟蹤器網(wǎng)絡(luò)具備了對(duì)常規(guī)尺度和小尺度的目標(biāo)進(jìn)行跟蹤的能力,但仍缺少對(duì)大尺度的目標(biāo)進(jìn)行跟蹤的能力,因此在第二階段訓(xùn)練的基礎(chǔ)上采用強(qiáng)化學(xué)習(xí)的方式對(duì)主動(dòng)視覺跟蹤教師模塊進(jìn)一步進(jìn)行第三階段大尺度的訓(xùn)練。
89、2.1.3.1元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)加載2.1.2.20中第二階段訓(xùn)練結(jié)束時(shí)保存的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)。
90、2.1.3.2設(shè)置訓(xùn)練步數(shù)t為大于100000的正整數(shù),優(yōu)選t=1000000,初始化已訓(xùn)練步數(shù)t=1;
91、2.1.3.3設(shè)置目標(biāo)位置熵獎(jiǎng)勵(lì)系數(shù)a為大于0.5的常數(shù),優(yōu)選a=0.8;設(shè)置正則化因子α為小于1的常數(shù),優(yōu)選α=0.005;設(shè)置獎(jiǎng)勵(lì)衰減因子γ為大于0.5的常數(shù),優(yōu)選γ=0.9;設(shè)置環(huán)境水平網(wǎng)格劃分?jǐn)?shù)n為正整數(shù),優(yōu)選n=10;設(shè)置目標(biāo)靠近跟蹤器的閾值距離ρl為100~1000cm,優(yōu)選ρl=150cm。
92、2.1.3.4設(shè)置用于計(jì)算目標(biāo)位置熵獎(jiǎng)勵(lì)的步數(shù)n=min(t,50)。
93、2.1.3.5數(shù)據(jù)獲取模塊從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù),將第t步的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。
94、2.1.3.6數(shù)據(jù)預(yù)處理模塊采用2.1.1.5所述第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理,得到第t步的預(yù)處理后的位姿數(shù)據(jù),將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。
95、2.1.3.7主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)按照2.1.1.6中的公式(7)計(jì)算跟蹤器的獎(jiǎng)勵(lì)
96、2.1.3.8主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將訓(xùn)練環(huán)境劃分為i個(gè)網(wǎng)格,采用2.1.1.7所述頻率計(jì)算方法根據(jù)過去t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算過去n步的目標(biāo)位置坐標(biāo)的集合在每個(gè)網(wǎng)格中出現(xiàn)的頻率p1,…,pi,…,pi。
97、2.1.3.9主動(dòng)視覺教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊按照2.1.1.8中的公式(9)計(jì)算目標(biāo)的位置熵獎(jiǎng)勵(lì)loc_entropy。
98、2.1.3.10主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算目標(biāo)的獎(jiǎng)勵(lì)
99、
100、2.1.3.11主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算干擾物的獎(jiǎng)勵(lì)
101、
102、2.1.3.12主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊。
103、2.1.3.13主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用2.1.1.12步所述預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì),得到跟蹤器的狀態(tài)價(jià)值v1(st)和跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和干擾物的動(dòng)作概率π3(at|st)。
104、2.1.3.14主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)將跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給跟蹤器。元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的狀態(tài)價(jià)值v2(st)和動(dòng)作概率π2(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo)。元干擾物網(wǎng)絡(luò)將干擾物的狀態(tài)價(jià)值v3(st)和動(dòng)作概率π3(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。
105、2.1.3.15若t=1,轉(zhuǎn)2.1.3.17;否則,主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊按照2.1.1.14中的公式(12)和公式(13)根據(jù)從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收的跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)和從元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)接收的跟蹤器的狀態(tài)價(jià)值v1(st)、跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)、目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)、干擾物的動(dòng)作概率π3(at|st)計(jì)算跟蹤器的時(shí)序差分誤差損失跟蹤器的策略梯度損失目標(biāo)的時(shí)序差分誤差損失目標(biāo)的策略梯度損失干擾物的時(shí)序差分誤差損失干擾物的策略梯度損失
106、2.1.3.16主動(dòng)視覺跟蹤教師模塊使用adam優(yōu)化算法最小化和來更新元跟蹤器網(wǎng)絡(luò)的參數(shù),使用adam優(yōu)化算法最小化和來更新元目標(biāo)網(wǎng)絡(luò)的參數(shù),使用adam優(yōu)化算法最小化和來更新元干擾物網(wǎng)絡(luò)的參數(shù)。
107、2.1.3.17跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。
108、2.1.3.18令t=t+1,若t≤t,轉(zhuǎn)2.1.3.19;若t>t,轉(zhuǎn)2.1.4。
109、2.1.3.19若t%10000=0,將元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)保存到對(duì)手模型池,轉(zhuǎn)2.1.3.4采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練;否則:直接轉(zhuǎn)2.1.3.4采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。
110、2.1.4主動(dòng)視覺跟蹤教師模塊保存元跟蹤器網(wǎng)絡(luò)的參數(shù),轉(zhuǎn)2.2。
111、2.2在跟蹤器與目標(biāo)、干擾物、環(huán)境交互的過程中采用強(qiáng)化學(xué)習(xí)的方式對(duì)元跟蹤器網(wǎng)絡(luò)進(jìn)一步進(jìn)行微調(diào)訓(xùn)練,僅優(yōu)化元跟蹤器網(wǎng)絡(luò)的參數(shù),方法為:
112、2.2.1主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)加載2.1.4步中保存的元跟蹤器網(wǎng)絡(luò)的參數(shù)。
113、2.2.2設(shè)置訓(xùn)練步數(shù)t=1000000,初始化已訓(xùn)練步數(shù)t=1。
114、2.2.3從對(duì)手模型池中隨機(jī)選取元目標(biāo)網(wǎng)絡(luò)的參數(shù),并加載到元目標(biāo)網(wǎng)絡(luò);從對(duì)手模型池中隨機(jī)選取元干擾物網(wǎng)絡(luò)的參數(shù),并加載到元干擾物網(wǎng)絡(luò)。
115、2.2.4固定元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)(在跟蹤器與目標(biāo)、干擾物、環(huán)境交互的過程中僅優(yōu)化元跟蹤器網(wǎng)絡(luò)的參數(shù))。
116、2.2.5數(shù)據(jù)獲取模塊從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù),將第t步的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。
117、2.2.6數(shù)據(jù)預(yù)處理模塊采用2.1.1.5所述第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理,得到第t步的預(yù)處理后的位姿數(shù)據(jù),將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。
118、2.2.7主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)按照2.1.1.6中的公式(7)計(jì)算跟蹤器的獎(jiǎng)勵(lì)
119、2.2.8主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將跟蹤器的獎(jiǎng)勵(lì)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊。
120、2.2.9主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用2.1.1.12步所述預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì),得到跟蹤器的狀態(tài)價(jià)值v1(st)和跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和干擾物的動(dòng)作概率π3(at|st)。
121、2.2.10主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)將跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊,并將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給跟蹤器。元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo)。元干擾物網(wǎng)絡(luò)將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。
122、2.2.11若t=1,轉(zhuǎn)2.2.13;否則,主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊按照2.1.1.14步中的公式(12)和公式(13)根據(jù)從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收的跟蹤器的獎(jiǎng)勵(lì)和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的狀態(tài)價(jià)值v1(st)、跟蹤器的動(dòng)作概率π1(at|st)計(jì)算跟蹤器的時(shí)序差分誤差損失跟蹤器的策略梯度損失
123、2.2.12主動(dòng)視覺跟蹤教師模塊使用adam優(yōu)化算法最小化和來更新元跟蹤器網(wǎng)絡(luò)的參數(shù)。
124、2.2.13跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。
125、2.2.14令t=t+1,若t≤t,轉(zhuǎn)2.2.15;若t>t,轉(zhuǎn)2.2.16。
126、2.2.15若t%5000=0,轉(zhuǎn)2.2.3,對(duì)加載了新的元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)的主動(dòng)視覺跟蹤教師模塊進(jìn)行訓(xùn)練;否則,轉(zhuǎn)2.2.5,采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。
127、2.2.16主動(dòng)視覺跟蹤教師模塊保存元跟蹤網(wǎng)絡(luò)器的參數(shù),轉(zhuǎn)2.3。
128、2.3采用監(jiān)督學(xué)習(xí)的方式對(duì)主動(dòng)視覺跟蹤學(xué)生模塊進(jìn)行訓(xùn)練,方法為:
129、2.3.1主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)加載2.2.16步中保存的元跟蹤器網(wǎng)絡(luò)的參數(shù)。
130、2.3.2固定元跟蹤器網(wǎng)絡(luò)的參數(shù)。
131、2.3.3設(shè)置訓(xùn)練步數(shù)t為大于100000的正整數(shù),優(yōu)選t=2000000,初始化已訓(xùn)練步數(shù)t=1。
132、2.3.4從對(duì)手模型池中隨機(jī)選取元目標(biāo)網(wǎng)絡(luò)的參數(shù),并加載到元目標(biāo)網(wǎng)絡(luò);從對(duì)手模型池中隨機(jī)選取元干擾物網(wǎng)絡(luò)的參數(shù),并加載到元干擾物網(wǎng)絡(luò)。
133、2.3.5固定元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)。
134、2.3.6數(shù)據(jù)獲取模塊從跟蹤器的相機(jī)獲取第t步的視覺觀測(cè)圖像ot,從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù),將第t步的視覺觀測(cè)圖像和位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。
135、2.3.7數(shù)據(jù)預(yù)處理模塊采用2.1.1.5步所述第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理,得到第t步的預(yù)處理后的位姿數(shù)據(jù),將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。
136、2.3.8數(shù)據(jù)預(yù)處理模塊采用第二預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的視覺觀測(cè)圖像ot進(jìn)行預(yù)處理,得到第t步的預(yù)處理后的視覺觀測(cè)圖像o′t,將第t步的預(yù)處理后的視覺觀測(cè)圖像o′t發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊。第二預(yù)處理方法為:
137、2.3.8.1將ot的寬縮放至320像素,高縮放至240像素,得到縮放后的視覺觀測(cè)圖像。
138、2.3.8.2將縮放后的視覺觀測(cè)圖像的像素值歸一化至[0,1]區(qū)間,得到第t步的歸一化后的視覺觀測(cè)圖像。
139、2.3.8.3對(duì)第t步的歸一化后的視覺觀測(cè)圖像隨機(jī)進(jìn)行水平翻轉(zhuǎn),得到第t步的預(yù)處理后的視覺觀測(cè)圖像o′t′。
140、2.3.9主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用2.1.1.12所述預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì),得到跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和動(dòng)作概率π3(at|st)。元跟蹤器網(wǎng)絡(luò)將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊中的第二損失函數(shù)計(jì)算模塊,元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo),元干擾物網(wǎng)絡(luò)將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。
141、2.3.10主動(dòng)視覺跟蹤學(xué)生模塊中的視覺跟蹤器網(wǎng)絡(luò)采用動(dòng)作預(yù)測(cè)方法對(duì)預(yù)處理后的視覺觀測(cè)圖像o′t進(jìn)行動(dòng)作預(yù)測(cè),得到跟蹤器的動(dòng)作概率π1*(at|o′t),方法是:
142、2.3.10.1視覺跟蹤器網(wǎng)絡(luò)中的卷積主干網(wǎng)對(duì)預(yù)處理后的視覺觀測(cè)圖像o′t進(jìn)行特征提取,得到視覺觀測(cè)圖像特征,將視覺觀測(cè)圖像特征發(fā)送給多尺度卷積網(wǎng)絡(luò)分支和尺度注意力模塊。
143、2.3.10.2多尺度卷積網(wǎng)絡(luò)分支中的第一尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取,得到第一尺度視覺觀測(cè)圖像特征,其中第一普通卷積層對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征在通道維度進(jìn)行降維,得到降維后的第一視覺觀測(cè)圖像特征,將降維后的第一視覺觀測(cè)圖像特征發(fā)送給第一擴(kuò)張卷積層;第一擴(kuò)張卷積層對(duì)從第一普通卷積層接收的降維后的第一視覺觀測(cè)圖像特征進(jìn)行特征提取,得到第一尺度視覺觀測(cè)圖像特征,將第一尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊;多尺度卷積網(wǎng)絡(luò)分支中的第二尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取,得到第二尺度視覺觀測(cè)圖像特征,其中第二普通卷積層對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征在通道維度進(jìn)行降維,得到降維后的第二視覺觀測(cè)圖像特征,將降維后的第二視覺觀測(cè)圖像特征發(fā)送給第二擴(kuò)張卷積層;第二擴(kuò)張卷積層對(duì)從第二普通卷積層接收的降維后的第二視覺觀測(cè)圖像特征進(jìn)行特征提取,得到第二尺度視覺觀測(cè)圖像特征,將第二尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊;多尺度卷積網(wǎng)絡(luò)分支中的第三尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取,得到第三尺度視覺觀測(cè)圖像特征,其中第三普通卷積層對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征在通道維度進(jìn)行降維,得到降維后的第三視覺觀測(cè)圖像特征,將降維后的第三視覺觀測(cè)圖像特征發(fā)送給第三擴(kuò)張卷積層;第三擴(kuò)張卷積層對(duì)從第三普通卷積層接收的降維后的第三視覺觀測(cè)圖像特征進(jìn)行特征提取,得到第三尺度視覺觀測(cè)圖像特征,將第三尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊;多尺度卷積網(wǎng)絡(luò)分支中的第四尺度卷積網(wǎng)絡(luò)分支中的第四普通卷積層對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征在通道維度進(jìn)行降維和特征提取,得到第四尺度視覺觀測(cè)圖像特征,將第四尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊;
144、2.3.10.3尺度注意力模塊中的卷積長(zhǎng)短期記憶單元對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征進(jìn)行時(shí)序特征提取,得到視覺觀測(cè)圖像時(shí)序特征,將視覺觀測(cè)圖像時(shí)序特征發(fā)送給全局平均池化層;全局平均池化層對(duì)從卷積長(zhǎng)短期記憶單元接收的視覺觀測(cè)圖像時(shí)序特征在空間維度進(jìn)行特征壓縮,得到長(zhǎng)度等于視覺觀測(cè)圖像時(shí)序特征通道數(shù)的第一特征向量,將第一特征向量發(fā)送給第七全連接層;第七全連接層對(duì)從全局平均池化層接收的第一特征向量進(jìn)行特征壓縮,得到長(zhǎng)度等于多尺度卷積網(wǎng)絡(luò)分支數(shù)(為4)的第二特征向量,將第二特征向量發(fā)送給sigmoid激活函數(shù)層;sigmoid激活函數(shù)層將從第七全連接層接收的第二特征向量的值縮放到[0,1]范圍,得到多尺度視覺觀測(cè)圖像特征的權(quán)重,將多尺度視覺觀測(cè)圖像特征的權(quán)重發(fā)送給自適應(yīng)融合模塊。
145、2.3.10.4自適應(yīng)融合模塊中的加權(quán)拼接層使用從尺度注意力模塊接收的多尺度視覺觀測(cè)圖像特征的權(quán)重對(duì)從多尺度卷積網(wǎng)絡(luò)分支接收的第一尺度視覺觀測(cè)圖像特征、第二尺度視覺觀測(cè)圖像特征、第三尺度視覺觀測(cè)圖像特征、第四尺度視覺觀測(cè)圖像特征進(jìn)行加權(quán)拼接,得到加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征,將加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征發(fā)送給第五普通卷積層;第五普通卷積層對(duì)從加權(quán)拼接層接收的加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征在通道維度進(jìn)行降維,得到自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征,將自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征發(fā)送給循環(huán)注意力模塊。
146、2.3.10.5循環(huán)注意力模塊對(duì)從自適應(yīng)融合模塊接收的自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征進(jìn)行時(shí)序特征提取和加權(quán),得到自適應(yīng)時(shí)序尺度特征,將自適應(yīng)時(shí)序尺度特征發(fā)送給第八全連接層。
147、2.3.10.6第八全連接層對(duì)從循環(huán)注意力模塊接收的自適應(yīng)時(shí)序尺度特征進(jìn)行動(dòng)作預(yù)測(cè),得到跟蹤器的動(dòng)作概率π1*(at|o′t)。
148、2.3.11主動(dòng)視覺跟蹤學(xué)生模塊中的視覺跟蹤器網(wǎng)絡(luò)(這里指視覺跟蹤器網(wǎng)絡(luò)中的第八全連接層)將跟蹤器的動(dòng)作概率π1*(at|o′t)發(fā)送給第二損失函數(shù)計(jì)算模塊和跟蹤器。
149、2.3.12主動(dòng)視覺跟蹤學(xué)生模塊中的第二損失函數(shù)計(jì)算模塊根據(jù)從視覺跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率π1*(at|o′t)和從主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率π1(at|st)計(jì)算kl散度損失dkl(π1*(at|o′t)|π1(at|st)):
150、
151、2.3.13主動(dòng)視覺跟蹤學(xué)生模塊使用adam優(yōu)化算法最小化dkl(π1*(at|o′t)|π1(at|st))來更新視覺跟蹤器網(wǎng)絡(luò)的參數(shù)。
152、2.3.14跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1*(at|o′t)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。同時(shí),干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作與環(huán)境交互。
153、2.3.15令t=t+1。若t≤t,轉(zhuǎn)2.3.16;若t>t,轉(zhuǎn)2.3.17。
154、2.3.16若t%5000=0,轉(zhuǎn)2.3.4,對(duì)加載了新的元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)的主動(dòng)視覺跟蹤教師模塊進(jìn)行訓(xùn)練;否則轉(zhuǎn)2.3.6,采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。
155、2.3.17保存視覺跟蹤器網(wǎng)絡(luò)的參數(shù),轉(zhuǎn)第三步。
156、第三步,尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)的主動(dòng)視覺跟蹤學(xué)生模塊加載2.3.17步保存的視覺跟蹤器網(wǎng)絡(luò)的參數(shù),得到訓(xùn)練后的尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)。
157、第四步,訓(xùn)練后的尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)對(duì)目標(biāo)進(jìn)行跟蹤,方法是:
158、4.1數(shù)據(jù)獲取模塊從跟蹤器的相機(jī)獲取實(shí)時(shí)視覺觀測(cè)圖像o,將o發(fā)送給數(shù)據(jù)預(yù)處理模塊。
159、4.2數(shù)據(jù)預(yù)處理模塊接收實(shí)時(shí)視覺觀測(cè)圖像o,采用2.3.8步所述的第二預(yù)處理方法對(duì)實(shí)時(shí)視覺觀測(cè)圖像o進(jìn)行預(yù)處理,得到預(yù)處理后的實(shí)時(shí)視覺觀測(cè)圖像o′,將o′發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊。
160、4.3主動(dòng)視覺跟蹤學(xué)生模塊接收預(yù)處理后的實(shí)時(shí)視覺觀測(cè)圖像o′,視覺跟蹤器網(wǎng)絡(luò)采用2.3.10步所述動(dòng)作預(yù)測(cè)方法對(duì)預(yù)處理后的實(shí)時(shí)視覺觀測(cè)圖像o′進(jìn)行動(dòng)作預(yù)測(cè),得到跟蹤器的動(dòng)作概率π1*(a′|o′)。a′為表示智能體動(dòng)作的隨機(jī)變量,取值范圍為智能體的動(dòng)作范圍。
161、4.4視覺跟蹤器網(wǎng)絡(luò)將跟蹤器的動(dòng)作概率π1*(a′|o′)發(fā)送給跟蹤器。
162、4.5跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1*(a′|o′)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作,并采取動(dòng)作對(duì)目標(biāo)進(jìn)行跟蹤。
163、采用本發(fā)明提供的一種尺度自適應(yīng)的主動(dòng)視覺跟蹤方法進(jìn)行跟蹤可以達(dá)到以下有益效果:
164、(1)本發(fā)明第一步構(gòu)建了一種尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng),通過在主動(dòng)視覺跟蹤學(xué)生模塊的視覺跟蹤器網(wǎng)絡(luò)中使用具有不同感受野大小的多尺度卷積網(wǎng)絡(luò)分支和尺度注意力模塊,能夠提取視覺觀測(cè)圖像的多尺度特征,并自適應(yīng)地融合多尺度特征,增強(qiáng)跟蹤器在目標(biāo)尺度變化的情況下的跟蹤性能。
165、(2)本發(fā)明第二步主動(dòng)視覺跟蹤教師模塊通過在多尺度多階段訓(xùn)練中分別進(jìn)行常規(guī)尺度、小尺度、大尺度訓(xùn)練,進(jìn)一步增強(qiáng)了跟蹤器在尺度變化環(huán)境中的跟蹤性能。
166、(3)本發(fā)明第二步主動(dòng)視覺跟蹤教師模塊的訓(xùn)練通過在目標(biāo)的獎(jiǎng)勵(lì)函數(shù)中增加位置熵獎(jiǎng)勵(lì),增強(qiáng)了目標(biāo)對(duì)環(huán)境的探索和運(yùn)動(dòng)模式的多樣性,進(jìn)而提高跟蹤器在環(huán)境中存在干擾物時(shí)的的跟蹤效果。
167、(4)本發(fā)明第四步采用訓(xùn)練后的尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)對(duì)目標(biāo)進(jìn)行跟蹤,提高了跟蹤器的跟蹤性能,即累計(jì)獎(jiǎng)勵(lì)ar、幕長(zhǎng)度el、跟蹤成功率sr都得到了提高。