一種尺度自適應(yīng)的主動(dòng)視覺跟蹤方法

文檔序號(hào)：40399267發(fā)布日期：2024-12-20 12:22閱讀：5來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及主動(dòng)視覺跟蹤，具體涉及一種尺度自適應(yīng)的主動(dòng)視覺跟蹤方法。

背景技術(shù)：

1、視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù)，它指的是在連續(xù)的圖像序列中跟蹤一個(gè)或多個(gè)目標(biāo)的過程。這一過程涉及檢測(cè)視頻幀中感興趣的目標(biāo)，并在隨后的幀中連續(xù)定位該目標(biāo)的位置。這對(duì)于理解視頻內(nèi)容、智能監(jiān)控、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域至關(guān)重要。視覺目標(biāo)跟蹤按照是否需要對(duì)相機(jī)的運(yùn)動(dòng)進(jìn)行控制可以分為兩類：被動(dòng)視覺跟蹤和主動(dòng)視覺跟蹤。被動(dòng)視覺跟蹤的任務(wù)是在給定初始幀中目標(biāo)定位框的情況下，預(yù)測(cè)后續(xù)幀中目標(biāo)的定位框，不考慮相機(jī)的運(yùn)動(dòng)控制問題；與被動(dòng)視覺跟蹤不同的是，主動(dòng)視覺跟蹤不僅考慮在視頻序列中定位目標(biāo)，還涉及控制相機(jī)的運(yùn)動(dòng)來主動(dòng)地跟隨目標(biāo)，以使目標(biāo)始終以合適的大小位于相機(jī)視野中心，即處于理想位置。主動(dòng)視覺跟蹤包括兩個(gè)子任務(wù)：視覺感知和動(dòng)作控制。視覺感知任務(wù)負(fù)責(zé)從輸入的視覺觀測(cè)圖像中提取特征并檢測(cè)識(shí)別目標(biāo)，動(dòng)作控制任務(wù)則根據(jù)感知結(jié)果輸出相機(jī)動(dòng)作。

2、主動(dòng)視覺跟蹤方法可以分為兩類：傳統(tǒng)的兩階段方法和基于深度強(qiáng)化學(xué)習(xí)的端到端方法。傳統(tǒng)的兩階段方法將主動(dòng)視覺跟蹤劃分為被動(dòng)視覺跟蹤和控制器兩個(gè)模塊完成，其中被動(dòng)視覺跟蹤模塊用于從輸入的視覺觀測(cè)圖像中獲取目標(biāo)的定位框，控制器模塊根據(jù)定位框的位置和理想位置的差異輸出相機(jī)的動(dòng)作信號(hào)。兩階段方法存在以下局限性：被動(dòng)視覺跟蹤模塊通常采用現(xiàn)有的被動(dòng)視覺跟蹤算法，而訓(xùn)練這些算法需要大量人工標(biāo)注的數(shù)據(jù)集，耗時(shí)耗力；被動(dòng)視覺跟蹤模塊輸出的中間結(jié)果可能并不適合用于動(dòng)作決策；被動(dòng)視覺跟蹤和控制器兩個(gè)模塊之間的聯(lián)調(diào)困難。隨著近年來深度強(qiáng)化學(xué)習(xí)技術(shù)的不斷發(fā)展和在許多控制決策領(lǐng)域如機(jī)器人運(yùn)動(dòng)控制中取得的成功，基于深度強(qiáng)化學(xué)習(xí)的端到端方法取得了很大進(jìn)展，成為了一個(gè)研究熱點(diǎn)。

3、強(qiáng)化學(xué)習(xí)具有強(qiáng)大的決策能力，通過智能體(包括跟蹤器、目標(biāo)和干擾物三種)與環(huán)境的不斷交互和試錯(cuò)，根據(jù)環(huán)境反饋的獎(jiǎng)勵(lì)來優(yōu)化智能體的動(dòng)作策略，目的是最大化獲得的累積獎(jiǎng)勵(lì)?；谏疃葟?qiáng)化學(xué)習(xí)的端到端方法結(jié)合了強(qiáng)化學(xué)習(xí)的決策能力和深度學(xué)習(xí)的感知能力，使用一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)直接將視覺觀測(cè)圖像映射為相機(jī)的動(dòng)作信號(hào)，即跟蹤器的策略網(wǎng)絡(luò)，并在跟蹤器與環(huán)境交互的過程中不斷優(yōu)化此策略網(wǎng)絡(luò)。基于深度強(qiáng)化學(xué)習(xí)的端到端方法具有計(jì)算效率高、泛化性能好等優(yōu)點(diǎn)，取得了超越兩階段方法的效果，因此成為了主動(dòng)視覺跟蹤領(lǐng)域重要的研究方向。

4、luo等人在“end-to-end?active?object?tracking?via?reinforcementlearning，基于深度強(qiáng)化學(xué)習(xí)的端到端主動(dòng)目標(biāo)跟蹤”(見文獻(xiàn)luo?w,sun?p,zhong?f,etal.end-to-end?active?object?tracking?via?reinforcement?learning[c].international?conference?on?machine?learning.2018:3286–3295.)中首次提出了基于深度強(qiáng)化學(xué)習(xí)的主動(dòng)視覺跟蹤方法，該方法采用一個(gè)卷積長(zhǎng)短期記憶(convolutionallong?short?term?memory，conv-lstm)網(wǎng)絡(luò)，輸入視頻圖像幀，輸出相機(jī)動(dòng)作。整個(gè)網(wǎng)絡(luò)在跟蹤器與環(huán)境交互的過程中通過強(qiáng)化學(xué)習(xí)a3c(asynchronous?advantage?actor-critic，a3c)算法進(jìn)行訓(xùn)練，訓(xùn)練過程中目標(biāo)按照預(yù)先設(shè)定的路線運(yùn)動(dòng)。然而，目標(biāo)按照固定路線運(yùn)動(dòng)會(huì)使其軌跡過于單一，進(jìn)而導(dǎo)致跟蹤器對(duì)特定的目標(biāo)運(yùn)動(dòng)軌跡過擬合，使得遇到其他運(yùn)動(dòng)軌跡的目標(biāo)時(shí)跟蹤失敗。為此，文獻(xiàn)“ad-vat:an?asymmetric?dueling?mechanism?forlearning?visual?active?tracking，基于非對(duì)稱對(duì)抗機(jī)制的視覺主動(dòng)跟蹤”(見文獻(xiàn)zhongf,sun?p,luo?w,et?al.ad-vat:an?asymmetric?dueling?mechanism?for?learningvisual?active?tracking[c].international?conference?on?learningrepresentations.2018.)中提出了一種基于對(duì)抗強(qiáng)化學(xué)習(xí)的非對(duì)稱對(duì)抗機(jī)制，將跟蹤器和目標(biāo)都建模為可學(xué)習(xí)的智能體，二者之間形成競(jìng)爭(zhēng)關(guān)系：跟蹤器學(xué)習(xí)跟蹤目標(biāo)，而目標(biāo)嘗試擺脫跟蹤器。這種對(duì)抗機(jī)制是通過定義相反的跟蹤器和目標(biāo)的獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)的。為了使目標(biāo)能夠?qū)W習(xí)到遠(yuǎn)離跟蹤器的最優(yōu)策略，目標(biāo)被定義為能夠感知跟蹤器的觀測(cè)和動(dòng)作，其網(wǎng)絡(luò)不僅輸入自身的視覺觀測(cè)，還輸入跟蹤器的視覺觀測(cè)和動(dòng)作信號(hào)。在訓(xùn)練過程中，跟蹤器和目標(biāo)互相優(yōu)化策略，跟蹤器能夠始終與具有合適難度的目標(biāo)競(jìng)爭(zhēng)。為了解決干擾物帶來的視覺混淆和遮擋目標(biāo)問題，文獻(xiàn)“towards?distraction-robust?active?visualtracking，面向干擾魯棒的主動(dòng)視覺跟蹤”(見文獻(xiàn)zhong?f,sun?p,luo?w,et?al.towardsdistraction-robust?active?visual?tracking[c].international?conference?onmachine?learning.2021:12782-12792.)中提出了一種混合協(xié)作競(jìng)爭(zhēng)多智能體博弈框架，將跟蹤器、目標(biāo)和干擾物都建模為可學(xué)習(xí)的智能體。這一多智能體博弈框架通過分別定義跟蹤器、目標(biāo)和干擾物的獎(jiǎng)勵(lì)函數(shù)來實(shí)現(xiàn)，令下標(biāo)i∈{1,2,3}分別表示跟蹤器、目標(biāo)和干擾物，目標(biāo)的理想位置為跟蹤器正前方距離d處，跟蹤器與其他智能體(即目標(biāo)和干擾物)的幾何關(guān)系定義為其他智能體與目標(biāo)理想位置之間的位置差異d(i)，d(i)表示第i個(gè)智能體與目標(biāo)理想位置的位置差異。跟蹤器的獎(jiǎng)勵(lì)函數(shù)定義為r1＝1-d(2)，d(2)表示目標(biāo)實(shí)際位置與目標(biāo)理想位置的位置差異。目標(biāo)的獎(jiǎng)勵(lì)函數(shù)定義為r2＝-r1。干擾物的獎(jiǎng)勵(lì)函數(shù)定義為r3＝r2-d(3)，d(3)表示干擾物與目標(biāo)理想位置的位置差異。在博弈中，目標(biāo)和干擾物相互合作形成一個(gè)團(tuán)隊(duì)(稱為對(duì)手)與跟蹤器對(duì)抗，具體來說，跟蹤器跟隨目標(biāo)并與其保持特定的相對(duì)位姿，使目標(biāo)與理想位置的差異盡可能小；目標(biāo)擺脫跟蹤器，盡可能遠(yuǎn)離理想位置；干擾物與目標(biāo)合作，通過對(duì)跟蹤器造成視覺干擾或遮擋目標(biāo)來幫助目標(biāo)擺脫跟蹤器。由于直接利用強(qiáng)化學(xué)習(xí)訓(xùn)練視覺輸入的多個(gè)智能體效率低下，為此，該文獻(xiàn)中提出了一種跨模態(tài)師生學(xué)習(xí)方法，將訓(xùn)練過程劃分為教師訓(xùn)練階段和學(xué)生訓(xùn)練階段。在教師訓(xùn)練階段中，使用智能體的相對(duì)位姿訓(xùn)練元策略得到元跟蹤器(教師跟蹤器)、元目標(biāo)和元干擾物，由于相對(duì)位姿是低維的真實(shí)狀態(tài)信息，因此能夠容易地訓(xùn)練出接近最優(yōu)的策略。在學(xué)生訓(xùn)練階段中，通過采樣元目標(biāo)和元干擾物的策略，并使用教師跟蹤器提供的動(dòng)作標(biāo)簽對(duì)視覺跟蹤器進(jìn)行監(jiān)督訓(xùn)練，進(jìn)而優(yōu)化其策略網(wǎng)絡(luò)，得到學(xué)生跟蹤器。

5、盡管現(xiàn)有的基于深度強(qiáng)化學(xué)習(xí)的端到端方法在主動(dòng)視覺跟蹤方法中取得了顯著進(jìn)展，但依然面臨著跟蹤過程中目標(biāo)尺度變化帶來的挑戰(zhàn)性問題。在主動(dòng)視覺跟蹤中，由于跟蹤器和目標(biāo)都在不斷運(yùn)動(dòng)，目標(biāo)在跟蹤器視覺觀測(cè)中的尺度可能發(fā)生顯著變化。例如，當(dāng)目標(biāo)突然向后移動(dòng)，其在跟蹤器相機(jī)視野中的尺度會(huì)顯著增大；相反，當(dāng)目標(biāo)向前加速時(shí)，其尺度則會(huì)減小。這種尺度變化在環(huán)境中存在干擾物(如跟蹤場(chǎng)景中的其他的人或車輛等)時(shí)尤為突出，因?yàn)楦櫰饕曇爸锌赡芡瑫r(shí)出現(xiàn)多個(gè)尺度不同的物體，從而產(chǎn)生尺度干擾問題。目前，現(xiàn)有的主動(dòng)視覺跟蹤方法基本上均是專注于處理常規(guī)尺度的目標(biāo)跟蹤問題，并沒有考慮尺度變化問題及其帶來的影響，因而也并沒有提出有效的應(yīng)對(duì)方案。

6、因此，如何解決尺度變化問題，尤其是當(dāng)環(huán)境中存在干擾物時(shí)，是主動(dòng)視覺跟蹤領(lǐng)域急需解決的難點(diǎn)問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要解決的技術(shù)問題是針對(duì)主動(dòng)視覺跟蹤中的目標(biāo)尺度變化問題，提供一種尺度自適應(yīng)的主動(dòng)視覺跟蹤方法，能夠增強(qiáng)主動(dòng)跟蹤器在目標(biāo)尺度變化的情況下的跟蹤能力，提高主動(dòng)跟蹤器的跟蹤性能(包括累計(jì)獎(jiǎng)勵(lì)(accumulated?reward，ar)、幕長(zhǎng)度(episode?length，el)、跟蹤成功率(success?rate，sr)三個(gè)指標(biāo))，尤其提高當(dāng)環(huán)境中存在干擾物時(shí)的跟蹤性能。

2、本發(fā)明包括以下步驟：

3、第一步，構(gòu)建尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)。所述尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)由數(shù)據(jù)獲取模塊，數(shù)據(jù)預(yù)處理模塊，主動(dòng)視覺跟蹤教師模塊，主動(dòng)視覺跟蹤學(xué)生模塊構(gòu)成。

4、數(shù)據(jù)獲取模塊與跟蹤器的相機(jī)、所有智能體(跟蹤器、目標(biāo)、干擾物)的位姿傳感器、數(shù)據(jù)預(yù)處理模塊相連，從跟蹤器的相機(jī)獲取二維的視覺觀測(cè)圖像，從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取跟蹤器、目標(biāo)、干擾物的位姿數(shù)據(jù)。在訓(xùn)練時(shí)，數(shù)據(jù)獲取模塊將從跟蹤器的相機(jī)獲取的視覺觀測(cè)圖像和從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊；而在實(shí)際對(duì)目標(biāo)進(jìn)行跟蹤時(shí)，數(shù)據(jù)獲取模塊僅將從跟蹤器的相機(jī)獲取的視覺觀測(cè)圖像發(fā)送給數(shù)據(jù)預(yù)處理模塊。

5、數(shù)據(jù)預(yù)處理模塊與數(shù)據(jù)獲取模塊、主動(dòng)視覺跟蹤教師模塊、主動(dòng)視覺跟蹤學(xué)生模塊相連，從數(shù)據(jù)獲取模塊接收視覺觀測(cè)圖像、位姿數(shù)據(jù)，對(duì)視覺觀測(cè)圖像、位姿數(shù)據(jù)進(jìn)行預(yù)處理，得到預(yù)處理后的視覺觀測(cè)圖像和預(yù)處理后的位姿數(shù)據(jù)。在訓(xùn)練時(shí)，數(shù)據(jù)預(yù)處理模塊將預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊，將預(yù)處理后的視覺觀測(cè)圖像發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊。在實(shí)際跟蹤時(shí)，數(shù)據(jù)預(yù)處理模塊僅將預(yù)處理后的視覺觀測(cè)圖像發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊。

6、主動(dòng)視覺跟蹤教師模塊的功能是輔助主動(dòng)視覺跟蹤學(xué)生模塊，僅在訓(xùn)練時(shí)工作，在實(shí)際跟蹤時(shí)不參與工作。主動(dòng)視覺跟蹤教師模塊與數(shù)據(jù)預(yù)處理模塊和主動(dòng)視覺跟蹤學(xué)生模塊相連，由元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)、獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊、第一損失函數(shù)計(jì)算模塊組成。元跟蹤器網(wǎng)絡(luò)由第一雙向門控循環(huán)單元、第一長(zhǎng)短期記憶單元、第一全連接層、第二全連接層組成；第一雙向門控循環(huán)單元對(duì)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的位姿數(shù)據(jù)進(jìn)行編碼，得到跟蹤器的位姿特征，將跟蹤器的位姿特征發(fā)送給第一長(zhǎng)短期記憶單元；第一長(zhǎng)短期記憶單元對(duì)從第一雙向門控循環(huán)單元接收的跟蹤器的位姿特征進(jìn)行時(shí)序特征提取，得到跟蹤器的時(shí)序位姿特征，將跟蹤器的時(shí)序位姿特征發(fā)送給第一全連接層和第二全連接層；第一全連接層對(duì)從第一長(zhǎng)短期記憶單元接收的跟蹤器的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè)，得到跟蹤器的動(dòng)作概率，在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí)，第一全連接層將跟蹤器的動(dòng)作概率發(fā)送給元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)、第一損失函數(shù)計(jì)算模塊，在訓(xùn)練主動(dòng)視覺跟蹤學(xué)生模塊時(shí)，第一全連接層將跟蹤器的動(dòng)作概率發(fā)送給元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)、主動(dòng)視覺跟蹤學(xué)生模塊(在圖1中使用虛線表示第一全連接層將跟蹤器的動(dòng)作概率發(fā)送給元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)、第一損失函數(shù)計(jì)算模塊、主動(dòng)視覺跟蹤學(xué)生模塊的第二損失函數(shù)計(jì)算模塊)；第二全連接層對(duì)從第一長(zhǎng)短期記憶單元接收的跟蹤器的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì)，得到跟蹤器的狀態(tài)價(jià)值，在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí)，第二全連接層將跟蹤器的狀態(tài)價(jià)值發(fā)送給第一損失函數(shù)計(jì)算模塊。

7、元目標(biāo)網(wǎng)絡(luò)由第二雙向門控循環(huán)單元、第二長(zhǎng)短期記憶單元、第三全連接層、第四全連接層組成；第二雙向門控循環(huán)單元對(duì)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的位姿數(shù)據(jù)進(jìn)行編碼，得到目標(biāo)的位姿特征，將目標(biāo)的位姿特征發(fā)送給第二長(zhǎng)短期記憶單元；第二長(zhǎng)短期記憶單元對(duì)從第二雙向門控循環(huán)單元接收的目標(biāo)的位姿特征和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率進(jìn)行時(shí)序特征提取，得到目標(biāo)的時(shí)序位姿特征，將目標(biāo)的時(shí)序位姿特征發(fā)送給第三全連接層和第四全連接層；第三全連接層對(duì)從第二長(zhǎng)短期記憶單元接收的目標(biāo)的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè)，得到目標(biāo)的動(dòng)作概率，在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí)，第三全連接層將目標(biāo)的動(dòng)作概率發(fā)送給第一損失函數(shù)計(jì)算模塊；第四全連接層對(duì)從第二長(zhǎng)短期記憶單元接收的目標(biāo)的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì)，得到目標(biāo)的狀態(tài)價(jià)值，在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí)，第四全連接層將目標(biāo)的狀態(tài)價(jià)值發(fā)送給第一損失函數(shù)計(jì)算模塊。

8、元干擾物網(wǎng)絡(luò)由第三雙向門控循環(huán)單元、第三長(zhǎng)短期記憶單元、第五全連接層、第六全連接層組成；第三雙向門控循環(huán)單元對(duì)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的位姿數(shù)據(jù)進(jìn)行編碼，得到干擾物的位姿特征，將干擾物的位姿特征發(fā)送給第三長(zhǎng)短期記憶單元；第三長(zhǎng)短期記憶單元對(duì)從第三雙向門控循環(huán)單元接收的干擾物的位姿特征和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率進(jìn)行時(shí)序特征提取，得到干擾物的時(shí)序位姿特征，將干擾物的時(shí)序位姿特征發(fā)送給第五全連接層和第六全連接層；第五全連接層對(duì)從第三長(zhǎng)短期記憶單元接收的干擾物的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè)，得到干擾物的動(dòng)作概率，在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí)，第五全連接層將干擾物的動(dòng)作概率發(fā)送給第一損失函數(shù)計(jì)算模塊；第六全連接層對(duì)從第三長(zhǎng)短期記憶單元接收的干擾物的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì)，得到干擾物的狀態(tài)價(jià)值，在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí)，第六全連接層將干擾物的狀態(tài)價(jià)值發(fā)送給第一損失函數(shù)計(jì)算模塊。

9、獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊與數(shù)據(jù)預(yù)處理模塊、第一損失函數(shù)計(jì)算模塊相連。在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí)，獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的位姿數(shù)據(jù)計(jì)算跟蹤器、目標(biāo)、干擾物的獎(jiǎng)勵(lì)，將跟蹤器、目標(biāo)、干擾物的獎(jiǎng)勵(lì)發(fā)送給第一損失函數(shù)計(jì)算模塊。

10、第一損失函數(shù)計(jì)算模塊與獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊、元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)相連。在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí)，第一損失函數(shù)計(jì)算模塊從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收跟蹤器、目標(biāo)、干擾物的獎(jiǎng)勵(lì)，從元跟蹤器網(wǎng)絡(luò)接收跟蹤器的動(dòng)作概率、跟蹤器的狀態(tài)價(jià)值，從元目標(biāo)網(wǎng)絡(luò)接收目標(biāo)的動(dòng)作概率、目標(biāo)的狀態(tài)價(jià)值，從元干擾物網(wǎng)絡(luò)接收干擾物的動(dòng)作概率、干擾物的狀態(tài)價(jià)值，根據(jù)跟蹤器的獎(jiǎng)勵(lì)、動(dòng)作概率、狀態(tài)價(jià)值計(jì)算跟蹤器的時(shí)序差分誤差損失和策略梯度損失，根據(jù)目標(biāo)的獎(jiǎng)勵(lì)、動(dòng)作概率、狀態(tài)價(jià)值計(jì)算目標(biāo)的時(shí)序差分誤差損失和策略梯度損失，根據(jù)干擾物的獎(jiǎng)勵(lì)、動(dòng)作概率、狀態(tài)價(jià)值計(jì)算干擾物的時(shí)序差分誤差損失和策略梯度損失。在訓(xùn)練主動(dòng)視覺跟蹤教師模塊時(shí)，主動(dòng)視覺跟蹤教師模塊通過最小化第一損失函數(shù)計(jì)算模塊得到的跟蹤器、目標(biāo)、干擾物的時(shí)序差分誤差損失和策略梯度損失優(yōu)化元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)。

11、主動(dòng)視覺跟蹤學(xué)生模塊與數(shù)據(jù)預(yù)處理模塊、主動(dòng)視覺跟蹤教師模塊相連，由視覺跟蹤器網(wǎng)絡(luò)、第二損失函數(shù)計(jì)算模塊組成。視覺跟蹤器網(wǎng)絡(luò)由卷積主干網(wǎng)、多尺度卷積網(wǎng)絡(luò)分支、尺度注意力模塊、自適應(yīng)融合模塊、循環(huán)注意力模塊、第八全連接層組成。

12、卷積主干網(wǎng)與數(shù)據(jù)預(yù)處理模塊、多尺度卷積網(wǎng)絡(luò)分支和尺度注意力模塊相連，對(duì)從數(shù)據(jù)預(yù)處理模塊接收的預(yù)處理后的視覺觀測(cè)圖像進(jìn)行特征提取，得到視覺觀測(cè)圖像特征，將視覺觀測(cè)圖像特征發(fā)送給多尺度卷積網(wǎng)絡(luò)分支和尺度注意力模塊。

13、多尺度卷積網(wǎng)絡(luò)分支的分支數(shù)為4，由第一尺度卷積網(wǎng)絡(luò)分支、第二尺度卷積網(wǎng)絡(luò)分支、第三尺度卷積網(wǎng)絡(luò)分支、第四尺度卷積網(wǎng)絡(luò)分支組成。第一尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取，得到第一尺度視覺觀測(cè)圖像特征，將第一尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊；第二尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取，得到第二尺度視覺觀測(cè)圖像特征，將第二尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊；第三尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取，得到第三尺度視覺觀測(cè)圖像特征，將第三尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊；第四尺度卷積網(wǎng)絡(luò)分支對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征進(jìn)行降維和特征提取，得到第四尺度視覺觀測(cè)圖像特征，將第四尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊；第一尺度卷積網(wǎng)絡(luò)分支由卷積核大小為1×1的第一普通卷積層和卷積核大小為3×3、擴(kuò)張率為3的第一擴(kuò)張卷積層組成，感受野大小為7；第二尺度卷積網(wǎng)絡(luò)分支由卷積核大小為1×1的第二普通卷積層和卷積核大小為3×3、擴(kuò)張率為2的第二擴(kuò)張卷積層組成，感受野大小為5；第三尺度卷積網(wǎng)絡(luò)分支由卷積核大小為1×1的第三普通卷積層和卷積核大小為3×3、擴(kuò)張率為1的第三擴(kuò)張卷積層組成，感受野大小為3；第四尺度卷積網(wǎng)絡(luò)分支由卷積核大小為1×1的第四普通卷積層組成，感受野大小為1；第一尺度視覺觀測(cè)圖像特征、第二尺度視覺觀測(cè)圖像特征、第三尺度視覺觀測(cè)圖像特征、第四尺度視覺觀測(cè)圖像特征構(gòu)成多尺度視覺觀測(cè)圖像特征。多尺度卷積網(wǎng)絡(luò)分支能夠在多個(gè)尺度范圍(對(duì)應(yīng)不同大小的感受野)對(duì)視覺觀測(cè)圖像進(jìn)行特征提取，因此能夠提取尺度變化的目標(biāo)的特征。

14、尺度注意力模塊由卷積長(zhǎng)短期記憶單元、全局平均池化層、第七全連接層、sigmoid激活函數(shù)層組成；卷積長(zhǎng)短期記憶單元對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征進(jìn)行時(shí)序特征提取，得到視覺觀測(cè)圖像時(shí)序特征，將視覺觀測(cè)圖像時(shí)序特征發(fā)送給全局平均池化層；全局平均池化層對(duì)從卷積長(zhǎng)短期記憶單元接收的視覺觀測(cè)圖像時(shí)序特征在空間維度進(jìn)行特征壓縮，得到長(zhǎng)度等于視覺觀測(cè)圖像時(shí)序特征通道數(shù)的第一特征向量，將第一特征向量發(fā)送給第七全連接層；第七全連接層對(duì)從全局平均池化層接收的第一特征向量進(jìn)行特征壓縮，得到長(zhǎng)度等于多尺度卷積網(wǎng)絡(luò)分支數(shù)(為4)的第二特征向量，將第二特征向量發(fā)送給sigmoid激活函數(shù)層；sigmoid激活函數(shù)層將從第七全連接層接收的第二特征向量的值縮放到[0,1]范圍，得到多尺度視覺觀測(cè)圖像特征的權(quán)重，將多尺度視覺觀測(cè)圖像特征的權(quán)重發(fā)送給自適應(yīng)融合模塊。尺度注意力模塊能夠根據(jù)視覺觀測(cè)圖像中目標(biāo)的尺度大小自適應(yīng)地計(jì)算得到多尺度視覺觀測(cè)圖像特征的權(quán)重，包含較多目標(biāo)特征的尺度的視覺觀測(cè)圖像特征被賦予較大的權(quán)重，包含較少目標(biāo)特征的尺度的視覺觀測(cè)圖像特征被賦予較小的權(quán)重。

15、自適應(yīng)融合模塊與多尺度卷積網(wǎng)絡(luò)分支、尺度注意力模塊、循環(huán)注意力模塊相連，由加權(quán)拼接層、卷積核大小為1×1的第五普通卷積層組成；加權(quán)拼接層使用從尺度注意力模塊接收的多尺度視覺觀測(cè)圖像特征的權(quán)重對(duì)從多尺度卷積網(wǎng)絡(luò)分支接收的第一尺度視覺觀測(cè)圖像特征、第二尺度視覺觀測(cè)圖像特征、第三尺度視覺觀測(cè)圖像特征、第四尺度視覺觀測(cè)圖像特征進(jìn)行加權(quán)拼接，得到加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征，將加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征發(fā)送給第五普通卷積層；第五普通卷積層對(duì)從加權(quán)拼接層接收的加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征在通道維度進(jìn)行降維，得到自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征，將自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征發(fā)送給循環(huán)注意力模塊。自適應(yīng)融合模塊使用多尺度視覺觀測(cè)圖像特征的權(quán)重對(duì)多尺度視覺觀測(cè)圖像特征進(jìn)行加權(quán)融合，從而實(shí)現(xiàn)自適應(yīng)地對(duì)尺度變化的目標(biāo)進(jìn)行特征提取。

16、循環(huán)注意力模塊與自適應(yīng)融合模塊、第八全連接層相連，對(duì)從自適應(yīng)融合模塊接收的自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征進(jìn)行時(shí)序特征提取和加權(quán)，得到自適應(yīng)時(shí)序尺度特征，將自適應(yīng)時(shí)序尺度特征發(fā)送給第八全連接層。

17、第八全連接層對(duì)從循環(huán)注意力模塊接收的自適應(yīng)時(shí)序尺度特征進(jìn)行動(dòng)作預(yù)測(cè)，得到跟蹤器的動(dòng)作概率，在訓(xùn)練主動(dòng)視覺跟蹤學(xué)生模塊時(shí)，第八全連接層將跟蹤器的動(dòng)作概率發(fā)送給第二損失函數(shù)計(jì)算模塊。

18、第二損失函數(shù)計(jì)算模塊與第八全連接層、元跟蹤器網(wǎng)絡(luò)相連，在訓(xùn)練主動(dòng)視覺跟蹤學(xué)生模塊時(shí)，第二損失函數(shù)計(jì)算模塊對(duì)從第八全連接層接收的跟蹤器的動(dòng)作概率和從主動(dòng)視覺跟蹤教師模塊的元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率計(jì)算kl散度損失。在訓(xùn)練主動(dòng)視覺跟蹤學(xué)生模塊時(shí)，主動(dòng)視覺跟蹤學(xué)生模塊通過最小化第二損失函數(shù)計(jì)算模塊得到的kl散度損失優(yōu)化視覺跟蹤器網(wǎng)絡(luò)。

19、第二步，對(duì)尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)中的主動(dòng)視覺跟蹤教師模塊和主動(dòng)視覺跟蹤學(xué)生模塊進(jìn)行訓(xùn)練。所述主動(dòng)視覺跟蹤教師模塊的訓(xùn)練方式為強(qiáng)化學(xué)習(xí)方式，所述主動(dòng)視覺跟蹤學(xué)生模塊的訓(xùn)練方式為監(jiān)督學(xué)習(xí)方式。

20、2.1采用強(qiáng)化學(xué)習(xí)的方式對(duì)主動(dòng)視覺跟蹤教師模塊進(jìn)行訓(xùn)練，方法是在跟蹤器、目標(biāo)、干擾物與環(huán)境交互的過程中采用對(duì)抗強(qiáng)化學(xué)習(xí)對(duì)元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)進(jìn)行多尺度多階段訓(xùn)練，每個(gè)階段中目標(biāo)和干擾物的獎(jiǎng)勵(lì)函數(shù)不同，對(duì)應(yīng)不同尺度的訓(xùn)練，具體為：

21、2.1.1采用強(qiáng)化學(xué)習(xí)的方式對(duì)主動(dòng)跟蹤教師模塊進(jìn)行第一階段常規(guī)尺度的訓(xùn)練，方法是：

22、2.1.1.1設(shè)置訓(xùn)練步數(shù)t為大于1000000的正整數(shù)，優(yōu)選t＝2000000,初始化已訓(xùn)練步數(shù)t＝1。

23、2.1.1.2設(shè)置目標(biāo)位置熵獎(jiǎng)勵(lì)系數(shù)a為大于0.5的常數(shù)，優(yōu)選a＝0.8，設(shè)置正則化因子α為小于1的常數(shù)，優(yōu)選α＝0.005；設(shè)置獎(jiǎng)勵(lì)衰減因子γ為大于0.5的常數(shù)，優(yōu)選γ＝0.9；設(shè)置環(huán)境水平網(wǎng)格劃分?jǐn)?shù)n為正整數(shù)，優(yōu)選n＝10。

24、2.1.1.3設(shè)置用于計(jì)算目標(biāo)位置熵獎(jiǎng)勵(lì)的步數(shù)n＝min(t,50)；

25、2.1.1.4數(shù)據(jù)獲取模塊從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù)，將第t步的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。第t步的位姿數(shù)據(jù)包括跟蹤器的位置坐標(biāo)和朝向角目標(biāo)的位置坐標(biāo)和朝向角干擾物的位置坐標(biāo)和朝向角

26、2.1.1.5數(shù)據(jù)預(yù)處理模塊采用第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理，得到第t步的預(yù)處理后的位姿數(shù)據(jù)，將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。第一預(yù)處理方法為：

27、2.1.1.5.1計(jì)算目標(biāo)實(shí)際位置相對(duì)于跟蹤器的相對(duì)距離相對(duì)角度相對(duì)朝向角和干擾物實(shí)際位置相對(duì)于跟蹤器的相對(duì)距離相對(duì)角度相對(duì)朝向角

28、2.1.1.5.2設(shè)置目標(biāo)理想位置相對(duì)于跟蹤器的相對(duì)距離ρ*＝250cm、相對(duì)角度θ*＝0、相對(duì)朝向角ω*＝0，表示目標(biāo)理想位置位于跟蹤器正前方距離250cm處且朝向與跟蹤器相同；設(shè)置跟蹤器視野范圍的最大距離ρmax＝750cm和最大角度θmax＝90°。

29、2.1.1.5.3計(jì)算目標(biāo)實(shí)際位置、干擾物實(shí)際位置的歸一化相對(duì)距離、歸一化表示的相對(duì)角度、歸一化表示的相對(duì)朝向角：

30、2.1.1.5.3.1計(jì)算目標(biāo)實(shí)際位置的歸一化相對(duì)距離干擾物實(shí)際位置的歸一化相對(duì)距離

31、2.1.1.5.3.2計(jì)算目標(biāo)實(shí)際位置的相對(duì)角度的正弦值和余弦值得到目標(biāo)實(shí)際位置的歸一化表示的相對(duì)角度；

32、2.1.1.5.3.3計(jì)算目標(biāo)實(shí)際位置的相對(duì)朝向角的正弦值sin和余弦值cos得到目標(biāo)實(shí)際位置的歸一化表示的相對(duì)朝向角；

33、2.1.1.5.3.4計(jì)算干擾物實(shí)際位置的相對(duì)角度的正弦值sin和余弦值cos得到干擾物實(shí)際位置的歸一化表示的相對(duì)角度；

34、2.1.1.5.3.5計(jì)算干擾物實(shí)際位置的相對(duì)朝向角的正弦值sin和余弦值cos得到干擾物實(shí)際位置的歸一化表示的相對(duì)朝向角。

35、2.1.1.5.4將跟蹤器的位置坐標(biāo)目標(biāo)的位置坐標(biāo)干擾物的位置坐標(biāo)目標(biāo)實(shí)際位置的相對(duì)距離相對(duì)角度相對(duì)朝向角干擾物實(shí)際位置的相對(duì)距離相對(duì)角度相對(duì)朝向角目標(biāo)實(shí)際位置的歸一化相對(duì)距離目標(biāo)實(shí)際位置的歸一化表示的相對(duì)角度sincos目標(biāo)實(shí)際位置的歸一化表示的相對(duì)朝向角sincos干擾物實(shí)際位置的歸一化相對(duì)距離干擾物實(shí)際位置的歸一化表示的相對(duì)角度sincos干擾物實(shí)際位置的歸一化表示的相對(duì)朝向角sincos組成第t步的預(yù)處理后的位姿數(shù)據(jù)。

36、2.1.1.6主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算跟蹤器的獎(jiǎng)勵(lì)

37、

38、2.1.1.7主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將訓(xùn)練環(huán)境劃分為i個(gè)網(wǎng)格，i＝n×n，采用頻率計(jì)算方法根據(jù)過去t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算過去n步的目標(biāo)位置坐標(biāo)的集合(目標(biāo)位置坐標(biāo)的集合為)在每個(gè)網(wǎng)格中出現(xiàn)的頻率p1,…,pi,…,pi，方法是：

39、2.1.1.7.1初始化變量i＝1；

40、2.1.1.7.2計(jì)算過去n步的目標(biāo)位置坐標(biāo)的集合在第i個(gè)網(wǎng)格中出現(xiàn)的頻率pi：

41、

42、其中ni為過去n步的目標(biāo)位置坐標(biāo)的集合中落在第i個(gè)網(wǎng)格中的位置數(shù)，ni<n。

43、2.1.1.7.3令i＝i+1,若i≤i，轉(zhuǎn)3.1.1.7.2；若i>i，得到p1,…,pi,…,pi，轉(zhuǎn)2.1.1.8。

44、2.1.1.8主動(dòng)視覺教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊計(jì)算目標(biāo)的位置熵獎(jiǎng)勵(lì)loc_entropy：

45、

46、2.1.1.9主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算目標(biāo)的獎(jiǎng)勵(lì)

47、

48、2.1.1.10主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算干擾物的獎(jiǎng)勵(lì)

49、

50、2.1.1.11主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊。

51、2.1.1.12主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì)，得到跟蹤器的狀態(tài)價(jià)值v1(st)和跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和干擾物的動(dòng)作概率π3(at|st)，方法為：

52、2.1.1.12.1令第t步的預(yù)處理后的位姿數(shù)據(jù)中目標(biāo)實(shí)際位置的歸一化相對(duì)距離歸一化表示的相對(duì)角度sincos歸一化表示的相對(duì)朝向角sincos干擾物實(shí)際位置的歸一化相對(duì)距離歸一化表示的相對(duì)角度sincos歸一化表示的相對(duì)朝向角sincos組成第t步的環(huán)境狀態(tài)

53、2.1.1.12.2元跟蹤器網(wǎng)絡(luò)中的第一雙向門控循環(huán)單元對(duì)st進(jìn)行編碼，得到跟蹤器的位姿特征，將跟蹤器的位姿特征發(fā)送給第一長(zhǎng)短期記憶單元；第一長(zhǎng)短期記憶單元對(duì)從第一雙向門控循環(huán)單元接收的跟蹤器的位姿特征進(jìn)行時(shí)序特征提取，得到跟蹤器的時(shí)序位姿特征，將跟蹤器的時(shí)序位姿特征發(fā)送給第一全連接層和第二全連接層；第一全連接層對(duì)從第一長(zhǎng)短期記憶單元接收的跟蹤器的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè)，得到跟蹤器的動(dòng)作概率π1(at|st)，第一全連接層將跟蹤器的動(dòng)作概率發(fā)送給元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)；第二全連接層對(duì)從第一長(zhǎng)短期記憶單元接收的跟蹤器的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì)，得到跟蹤器的狀態(tài)價(jià)值v1(st)。

54、2.1.1.12.3元目標(biāo)網(wǎng)絡(luò)中的第二雙向門控循環(huán)單元對(duì)st進(jìn)行編碼，得到目標(biāo)的位姿特征，將目標(biāo)的位姿特征發(fā)送給第二長(zhǎng)短期記憶單元；第二長(zhǎng)短期記憶單元對(duì)從第二雙向門控循環(huán)單元接收的目標(biāo)的位姿特征和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率π1(at|st)進(jìn)行時(shí)序特征提取，得到目標(biāo)的時(shí)序位姿特征，將目標(biāo)的時(shí)序位姿特征發(fā)送給第三全連接層和第四全連接層；第三全連接層對(duì)從第二長(zhǎng)短期記憶單元接收的目標(biāo)的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè)，得到目標(biāo)的動(dòng)作概率π2(at|st)；第四全連接層對(duì)從第二長(zhǎng)短期記憶單元接收的目標(biāo)的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì)，得到目標(biāo)的狀態(tài)價(jià)值v2(st)。

55、2.1.1.12.4元干擾物網(wǎng)絡(luò)中的第三雙向門控循環(huán)單元對(duì)st進(jìn)行編碼，得到干擾物的位姿特征，將干擾物的位姿特征發(fā)送給第三長(zhǎng)短期記憶單元；第三長(zhǎng)短期記憶單元對(duì)從第三雙向門控循環(huán)單元接收的干擾物的位姿特征和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率π1(at|st)進(jìn)行時(shí)序特征提取，得到干擾物的時(shí)序位姿特征，將干擾物的時(shí)序位姿特征發(fā)送給第五全連接層和第六全連接層；第五全連接層對(duì)從第三長(zhǎng)短期記憶單元接收的干擾物的時(shí)序位姿特征進(jìn)行動(dòng)作預(yù)測(cè)，得到干擾物的動(dòng)作概率π3(at|st)；第六全連接層對(duì)從第三長(zhǎng)短期記憶單元接收的干擾物的時(shí)序位姿特征進(jìn)行價(jià)值估計(jì)，得到干擾物的狀態(tài)價(jià)值v3(st)。其中at為表示智能體動(dòng)作的隨機(jī)變量，取值范圍為智能體的動(dòng)作范圍(跟蹤器、目標(biāo)、干擾物的動(dòng)作范圍均為7個(gè)動(dòng)作：向前、向后、向左、向右、向前并向左、向前并向右、停止)，πk(at|st)為一個(gè)條件概率，表示在狀態(tài)st下智能體的動(dòng)作范圍中的7個(gè)動(dòng)作的概率分布，k∈{1,2,3}，1表示跟蹤器，2表示目標(biāo)，3表示干擾物。

56、2.1.1.13主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)將跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給跟蹤器。元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的狀態(tài)價(jià)值v2(st)和動(dòng)作概率π2(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo)。元干擾物網(wǎng)絡(luò)將干擾物的狀態(tài)價(jià)值v3(st)和動(dòng)作概率π3(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。

57、2.1.1.14若t＝1，轉(zhuǎn)2.1.1.16；否則：主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊根據(jù)從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收的跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)和從元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)接收的跟蹤器的狀態(tài)價(jià)值v1(st)、跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)、目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)、干擾物的動(dòng)作概率π3(at|st)計(jì)算跟蹤器的時(shí)序差分誤差損失跟蹤器的策略梯度損失目標(biāo)的時(shí)序差分誤差損失目標(biāo)的策略梯度損失干擾物的時(shí)序差分誤差損失干擾物的策略梯度損失

58、

59、其中l(wèi)ogπk(at|st)為πk(at|st)的對(duì)數(shù)，h(πk(·|st))為熵正則化項(xiàng)，

60、2.1.1.15主動(dòng)視覺跟蹤教師模塊使用adam優(yōu)化算法(見文獻(xiàn)“kingma?d?p,baj.adam:a?method?for?stochastic?optimization[j].arxiv?preprint?arxiv:1412.6980,2014”，kingma的論文：adam，一種隨機(jī)優(yōu)化方法)最小化和來更新元跟蹤器網(wǎng)絡(luò)的參數(shù),使用adam優(yōu)化算法最小化和來更新元目標(biāo)網(wǎng)絡(luò)的參數(shù)，使用adam優(yōu)化算法最小化和來更新元干擾物網(wǎng)絡(luò)的參數(shù)。

61、2.1.1.16跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。

62、2.1.1.17令t＝t+1。若t≤t，轉(zhuǎn)2.1.1.18；若t>t，轉(zhuǎn)2.1.1.19。

63、2.1.1.18若t％10000＝0：將元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)保存到對(duì)手模型池，轉(zhuǎn)2.1.1.3，采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練；否則：直接轉(zhuǎn)2.1.1.3采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。

64、2.1.1.19保存元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)，轉(zhuǎn)2.1.2。

65、2.1.2經(jīng)過第一階段常規(guī)尺度的訓(xùn)練，元跟蹤器網(wǎng)絡(luò)具備了對(duì)常規(guī)尺度的目標(biāo)進(jìn)行跟蹤的能力，但仍缺少對(duì)小尺度和大尺度的目標(biāo)進(jìn)行跟蹤的能力，因此在第一階段訓(xùn)練的基礎(chǔ)上采用強(qiáng)化學(xué)習(xí)的方式對(duì)主動(dòng)視覺跟蹤教師模塊進(jìn)一步進(jìn)行第二階段小尺度的訓(xùn)練，方法是：

66、2.1.2.1元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)加載2.1.1.19中第一階段訓(xùn)練結(jié)束時(shí)保存的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)。

67、2.1.2.2設(shè)置訓(xùn)練步數(shù)t為大于100000的正整數(shù)，優(yōu)選t＝1000000，初始化已訓(xùn)練步數(shù)t＝1；

68、2.1.2.3設(shè)置目標(biāo)位置熵獎(jiǎng)勵(lì)系數(shù)a為大于0.5的常數(shù)，優(yōu)選a＝0.8；設(shè)置正則化因子α為小于1的常數(shù)，優(yōu)選α＝0.005；設(shè)置獎(jiǎng)勵(lì)衰減因子γ為大于0.5的常數(shù)，優(yōu)選γ＝0.9；設(shè)置環(huán)境水平網(wǎng)格劃分?jǐn)?shù)n為正整數(shù)，優(yōu)選n＝10；設(shè)置目標(biāo)遠(yuǎn)離跟蹤器的閾值距離ρs為100～1000cm，優(yōu)選ρs＝500cm。

69、2.1.2.4設(shè)置用于計(jì)算目標(biāo)位置熵獎(jiǎng)勵(lì)的步數(shù)n＝min(t,50)。

70、2.1.2.5數(shù)據(jù)獲取模塊從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù)，將第t步的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。

71、2.1.2.6數(shù)據(jù)預(yù)處理模塊采用2.1.1.5所述第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理，得到第t步的預(yù)處理后的位姿數(shù)據(jù)，將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。

72、2.1.2.7主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)按照2.1.1.6中的公式(7)計(jì)算跟蹤器的獎(jiǎng)勵(lì)

73、2.1.2.8主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將訓(xùn)練環(huán)境劃分為i個(gè)網(wǎng)格，采用2.1.1.7所述頻率計(jì)算方法根據(jù)過去t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算過去n步的目標(biāo)位置坐標(biāo)的集合在每個(gè)網(wǎng)格中出現(xiàn)的頻率p1,…,pi,…,pi。

74、2.1.2.9主動(dòng)視覺教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊按照2.1.1.8中的公式(9)計(jì)算目標(biāo)的位置熵獎(jiǎng)勵(lì)loc_entropy。

75、2.1.2.10主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算目標(biāo)的獎(jiǎng)勵(lì)

76、

77、2.1.2.11主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算干擾物的獎(jiǎng)勵(lì)

78、

79、2.1.2.12主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊。

80、2.1.2.13主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用2.1.1.12所述預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì)，得到跟蹤器的狀態(tài)價(jià)值v1(st)和跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和干擾物的動(dòng)作概率π3(at|st)。

81、2.1.2.14主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)將跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給跟蹤器。元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的狀態(tài)價(jià)值v2(st)和動(dòng)作概率π2(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo)。元干擾物網(wǎng)絡(luò)將干擾物的狀態(tài)價(jià)值v3(st)和動(dòng)作概率π3(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。

82、2.1.2.15若t＝1，轉(zhuǎn)2.1.2.17；否則，主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊按照2.1.1.14中的公式(12)和公式(13)根據(jù)從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收的跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)和從元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)接收的跟蹤器的狀態(tài)價(jià)值v1(st)、跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)、目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)、干擾物的動(dòng)作概率π3(at|st)計(jì)算跟蹤器的時(shí)序差分誤差損失跟蹤器的策略梯度損失目標(biāo)的時(shí)序差分誤差損失目標(biāo)的策略梯度損失干擾物的時(shí)序差分誤差損失干擾物的策略梯度損失

83、2.1.2.16主動(dòng)視覺跟蹤教師模塊使用adam優(yōu)化算法最小化和來更新元跟蹤器網(wǎng)絡(luò)的參數(shù),使用adam優(yōu)化算法最小化和來更新元目標(biāo)網(wǎng)絡(luò)的參數(shù)，使用adam優(yōu)化算法最小化和來更新元干擾物網(wǎng)絡(luò)的參數(shù)。

84、2.1.2.17跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。

85、2.1.2.18令t＝t+1，若t≤t，轉(zhuǎn)2.1.2.19；若t>t，轉(zhuǎn)2.1.2.20。

86、2.1.2.19若t％10000＝0：將元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)保存到對(duì)手模型池，轉(zhuǎn)2.1.2.4采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練；否則：直接轉(zhuǎn)2.1.2.4采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。

87、2.1.2.20保存元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)，轉(zhuǎn)2.1.3。

88、2.1.3經(jīng)過第一階段常規(guī)尺度和第二階段小尺度的訓(xùn)練，元跟蹤器網(wǎng)絡(luò)具備了對(duì)常規(guī)尺度和小尺度的目標(biāo)進(jìn)行跟蹤的能力，但仍缺少對(duì)大尺度的目標(biāo)進(jìn)行跟蹤的能力，因此在第二階段訓(xùn)練的基礎(chǔ)上采用強(qiáng)化學(xué)習(xí)的方式對(duì)主動(dòng)視覺跟蹤教師模塊進(jìn)一步進(jìn)行第三階段大尺度的訓(xùn)練。

89、2.1.3.1元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)加載2.1.2.20中第二階段訓(xùn)練結(jié)束時(shí)保存的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)。

90、2.1.3.2設(shè)置訓(xùn)練步數(shù)t為大于100000的正整數(shù)，優(yōu)選t＝1000000,初始化已訓(xùn)練步數(shù)t＝1；

91、2.1.3.3設(shè)置目標(biāo)位置熵獎(jiǎng)勵(lì)系數(shù)a為大于0.5的常數(shù)，優(yōu)選a＝0.8；設(shè)置正則化因子α為小于1的常數(shù)，優(yōu)選α＝0.005；設(shè)置獎(jiǎng)勵(lì)衰減因子γ為大于0.5的常數(shù)，優(yōu)選γ＝0.9；設(shè)置環(huán)境水平網(wǎng)格劃分?jǐn)?shù)n為正整數(shù)，優(yōu)選n＝10；設(shè)置目標(biāo)靠近跟蹤器的閾值距離ρl為100～1000cm，優(yōu)選ρl＝150cm。

92、2.1.3.4設(shè)置用于計(jì)算目標(biāo)位置熵獎(jiǎng)勵(lì)的步數(shù)n＝min(t,50)。

93、2.1.3.5數(shù)據(jù)獲取模塊從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù)，將第t步的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。

94、2.1.3.6數(shù)據(jù)預(yù)處理模塊采用2.1.1.5所述第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理，得到第t步的預(yù)處理后的位姿數(shù)據(jù)，將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。

95、2.1.3.7主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)按照2.1.1.6中的公式(7)計(jì)算跟蹤器的獎(jiǎng)勵(lì)

96、2.1.3.8主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將訓(xùn)練環(huán)境劃分為i個(gè)網(wǎng)格，采用2.1.1.7所述頻率計(jì)算方法根據(jù)過去t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算過去n步的目標(biāo)位置坐標(biāo)的集合在每個(gè)網(wǎng)格中出現(xiàn)的頻率p1,…,pi,…,pi。

97、2.1.3.9主動(dòng)視覺教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊按照2.1.1.8中的公式(9)計(jì)算目標(biāo)的位置熵獎(jiǎng)勵(lì)loc_entropy。

98、2.1.3.10主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算目標(biāo)的獎(jiǎng)勵(lì)

99、

100、2.1.3.11主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)計(jì)算干擾物的獎(jiǎng)勵(lì)

101、

102、2.1.3.12主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊。

103、2.1.3.13主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用2.1.1.12步所述預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì)，得到跟蹤器的狀態(tài)價(jià)值v1(st)和跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和干擾物的動(dòng)作概率π3(at|st)。

104、2.1.3.14主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)將跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給跟蹤器。元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的狀態(tài)價(jià)值v2(st)和動(dòng)作概率π2(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo)。元干擾物網(wǎng)絡(luò)將干擾物的狀態(tài)價(jià)值v3(st)和動(dòng)作概率π3(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。

105、2.1.3.15若t＝1，轉(zhuǎn)2.1.3.17；否則，主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊按照2.1.1.14中的公式(12)和公式(13)根據(jù)從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收的跟蹤器的獎(jiǎng)勵(lì)目標(biāo)的獎(jiǎng)勵(lì)干擾物的獎(jiǎng)勵(lì)和從元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)接收的跟蹤器的狀態(tài)價(jià)值v1(st)、跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)、目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)、干擾物的動(dòng)作概率π3(at|st)計(jì)算跟蹤器的時(shí)序差分誤差損失跟蹤器的策略梯度損失目標(biāo)的時(shí)序差分誤差損失目標(biāo)的策略梯度損失干擾物的時(shí)序差分誤差損失干擾物的策略梯度損失

106、2.1.3.16主動(dòng)視覺跟蹤教師模塊使用adam優(yōu)化算法最小化和來更新元跟蹤器網(wǎng)絡(luò)的參數(shù),使用adam優(yōu)化算法最小化和來更新元目標(biāo)網(wǎng)絡(luò)的參數(shù)，使用adam優(yōu)化算法最小化和來更新元干擾物網(wǎng)絡(luò)的參數(shù)。

107、2.1.3.17跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。

108、2.1.3.18令t＝t+1，若t≤t，轉(zhuǎn)2.1.3.19；若t>t，轉(zhuǎn)2.1.4。

109、2.1.3.19若t％10000＝0,將元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)保存到對(duì)手模型池，轉(zhuǎn)2.1.3.4采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練；否則：直接轉(zhuǎn)2.1.3.4采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。

110、2.1.4主動(dòng)視覺跟蹤教師模塊保存元跟蹤器網(wǎng)絡(luò)的參數(shù)，轉(zhuǎn)2.2。

111、2.2在跟蹤器與目標(biāo)、干擾物、環(huán)境交互的過程中采用強(qiáng)化學(xué)習(xí)的方式對(duì)元跟蹤器網(wǎng)絡(luò)進(jìn)一步進(jìn)行微調(diào)訓(xùn)練，僅優(yōu)化元跟蹤器網(wǎng)絡(luò)的參數(shù)，方法為：

112、2.2.1主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)加載2.1.4步中保存的元跟蹤器網(wǎng)絡(luò)的參數(shù)。

113、2.2.2設(shè)置訓(xùn)練步數(shù)t＝1000000,初始化已訓(xùn)練步數(shù)t＝1。

114、2.2.3從對(duì)手模型池中隨機(jī)選取元目標(biāo)網(wǎng)絡(luò)的參數(shù)，并加載到元目標(biāo)網(wǎng)絡(luò)；從對(duì)手模型池中隨機(jī)選取元干擾物網(wǎng)絡(luò)的參數(shù)，并加載到元干擾物網(wǎng)絡(luò)。

115、2.2.4固定元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)(在跟蹤器與目標(biāo)、干擾物、環(huán)境交互的過程中僅優(yōu)化元跟蹤器網(wǎng)絡(luò)的參數(shù))。

116、2.2.5數(shù)據(jù)獲取模塊從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù)，將第t步的位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。

117、2.2.6數(shù)據(jù)預(yù)處理模塊采用2.1.1.5所述第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理，得到第t步的預(yù)處理后的位姿數(shù)據(jù)，將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。

118、2.2.7主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊根據(jù)第t步的預(yù)處理后的位姿數(shù)據(jù)按照2.1.1.6中的公式(7)計(jì)算跟蹤器的獎(jiǎng)勵(lì)

119、2.2.8主動(dòng)視覺跟蹤教師模塊中的獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊將跟蹤器的獎(jiǎng)勵(lì)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊。

120、2.2.9主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用2.1.1.12步所述預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì)，得到跟蹤器的狀態(tài)價(jià)值v1(st)和跟蹤器的動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和目標(biāo)的動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和干擾物的動(dòng)作概率π3(at|st)。

121、2.2.10主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)將跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊，并將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給跟蹤器。元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo)。元干擾物網(wǎng)絡(luò)將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。

122、2.2.11若t＝1，轉(zhuǎn)2.2.13；否則，主動(dòng)視覺跟蹤教師模塊中的第一損失函數(shù)計(jì)算模塊按照2.1.1.14步中的公式(12)和公式(13)根據(jù)從獎(jiǎng)勵(lì)函數(shù)計(jì)算模塊接收的跟蹤器的獎(jiǎng)勵(lì)和從元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的狀態(tài)價(jià)值v1(st)、跟蹤器的動(dòng)作概率π1(at|st)計(jì)算跟蹤器的時(shí)序差分誤差損失跟蹤器的策略梯度損失

123、2.2.12主動(dòng)視覺跟蹤教師模塊使用adam優(yōu)化算法最小化和來更新元跟蹤器網(wǎng)絡(luò)的參數(shù)。

124、2.2.13跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。

125、2.2.14令t＝t+1，若t≤t，轉(zhuǎn)2.2.15；若t>t，轉(zhuǎn)2.2.16。

126、2.2.15若t％5000＝0,轉(zhuǎn)2.2.3，對(duì)加載了新的元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)的主動(dòng)視覺跟蹤教師模塊進(jìn)行訓(xùn)練；否則,轉(zhuǎn)2.2.5，采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。

127、2.2.16主動(dòng)視覺跟蹤教師模塊保存元跟蹤網(wǎng)絡(luò)器的參數(shù)，轉(zhuǎn)2.3。

128、2.3采用監(jiān)督學(xué)習(xí)的方式對(duì)主動(dòng)視覺跟蹤學(xué)生模塊進(jìn)行訓(xùn)練，方法為：

129、2.3.1主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)加載2.2.16步中保存的元跟蹤器網(wǎng)絡(luò)的參數(shù)。

130、2.3.2固定元跟蹤器網(wǎng)絡(luò)的參數(shù)。

131、2.3.3設(shè)置訓(xùn)練步數(shù)t為大于100000的正整數(shù)，優(yōu)選t＝2000000,初始化已訓(xùn)練步數(shù)t＝1。

132、2.3.4從對(duì)手模型池中隨機(jī)選取元目標(biāo)網(wǎng)絡(luò)的參數(shù)，并加載到元目標(biāo)網(wǎng)絡(luò)；從對(duì)手模型池中隨機(jī)選取元干擾物網(wǎng)絡(luò)的參數(shù)，并加載到元干擾物網(wǎng)絡(luò)。

133、2.3.5固定元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)的參數(shù)。

134、2.3.6數(shù)據(jù)獲取模塊從跟蹤器的相機(jī)獲取第t步的視覺觀測(cè)圖像ot，從跟蹤器、目標(biāo)、干擾物的位姿傳感器獲取第t步的位姿數(shù)據(jù)，將第t步的視覺觀測(cè)圖像和位姿數(shù)據(jù)發(fā)送給數(shù)據(jù)預(yù)處理模塊。

135、2.3.7數(shù)據(jù)預(yù)處理模塊采用2.1.1.5步所述第一預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的位姿數(shù)據(jù)進(jìn)行預(yù)處理，得到第t步的預(yù)處理后的位姿數(shù)據(jù)，將第t步的預(yù)處理后的位姿數(shù)據(jù)發(fā)送給主動(dòng)視覺跟蹤教師模塊。

136、2.3.8數(shù)據(jù)預(yù)處理模塊采用第二預(yù)處理方法對(duì)從數(shù)據(jù)獲取模塊接收的第t步的視覺觀測(cè)圖像ot進(jìn)行預(yù)處理，得到第t步的預(yù)處理后的視覺觀測(cè)圖像o′t，將第t步的預(yù)處理后的視覺觀測(cè)圖像o′t發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊。第二預(yù)處理方法為：

137、2.3.8.1將ot的寬縮放至320像素，高縮放至240像素，得到縮放后的視覺觀測(cè)圖像。

138、2.3.8.2將縮放后的視覺觀測(cè)圖像的像素值歸一化至[0,1]區(qū)間，得到第t步的歸一化后的視覺觀測(cè)圖像。

139、2.3.8.3對(duì)第t步的歸一化后的視覺觀測(cè)圖像隨機(jī)進(jìn)行水平翻轉(zhuǎn)，得到第t步的預(yù)處理后的視覺觀測(cè)圖像o′t′。

140、2.3.9主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)、元目標(biāo)網(wǎng)絡(luò)、元干擾物網(wǎng)絡(luò)采用2.1.1.12所述預(yù)估方法分別對(duì)預(yù)處理后的位姿數(shù)據(jù)進(jìn)行動(dòng)作預(yù)測(cè)和價(jià)值估計(jì)，得到跟蹤器的狀態(tài)價(jià)值v1(st)和動(dòng)作概率π1(at|st)、目標(biāo)的狀態(tài)價(jià)值v2(st)和動(dòng)作概率π2(at|st)、干擾物的狀態(tài)價(jià)值v3(st)和動(dòng)作概率π3(at|st)。元跟蹤器網(wǎng)絡(luò)將跟蹤器的動(dòng)作概率π1(at|st)發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊中的第二損失函數(shù)計(jì)算模塊，元目標(biāo)網(wǎng)絡(luò)將目標(biāo)的動(dòng)作概率π2(at|st)發(fā)送給目標(biāo)，元干擾物網(wǎng)絡(luò)將干擾物的動(dòng)作概率π3(at|st)發(fā)送給干擾物。

141、2.3.10主動(dòng)視覺跟蹤學(xué)生模塊中的視覺跟蹤器網(wǎng)絡(luò)采用動(dòng)作預(yù)測(cè)方法對(duì)預(yù)處理后的視覺觀測(cè)圖像o′t進(jìn)行動(dòng)作預(yù)測(cè)，得到跟蹤器的動(dòng)作概率π1*(at|o′t)，方法是：

142、2.3.10.1視覺跟蹤器網(wǎng)絡(luò)中的卷積主干網(wǎng)對(duì)預(yù)處理后的視覺觀測(cè)圖像o′t進(jìn)行特征提取，得到視覺觀測(cè)圖像特征，將視覺觀測(cè)圖像特征發(fā)送給多尺度卷積網(wǎng)絡(luò)分支和尺度注意力模塊。

143、2.3.10.2多尺度卷積網(wǎng)絡(luò)分支中的第一尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取，得到第一尺度視覺觀測(cè)圖像特征，其中第一普通卷積層對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征在通道維度進(jìn)行降維，得到降維后的第一視覺觀測(cè)圖像特征，將降維后的第一視覺觀測(cè)圖像特征發(fā)送給第一擴(kuò)張卷積層；第一擴(kuò)張卷積層對(duì)從第一普通卷積層接收的降維后的第一視覺觀測(cè)圖像特征進(jìn)行特征提取，得到第一尺度視覺觀測(cè)圖像特征，將第一尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊；多尺度卷積網(wǎng)絡(luò)分支中的第二尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取，得到第二尺度視覺觀測(cè)圖像特征，其中第二普通卷積層對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征在通道維度進(jìn)行降維，得到降維后的第二視覺觀測(cè)圖像特征，將降維后的第二視覺觀測(cè)圖像特征發(fā)送給第二擴(kuò)張卷積層；第二擴(kuò)張卷積層對(duì)從第二普通卷積層接收的降維后的第二視覺觀測(cè)圖像特征進(jìn)行特征提取，得到第二尺度視覺觀測(cè)圖像特征，將第二尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊；多尺度卷積網(wǎng)絡(luò)分支中的第三尺度卷積網(wǎng)絡(luò)分支對(duì)視覺觀測(cè)圖像特征進(jìn)行特征提取，得到第三尺度視覺觀測(cè)圖像特征，其中第三普通卷積層對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征在通道維度進(jìn)行降維，得到降維后的第三視覺觀測(cè)圖像特征，將降維后的第三視覺觀測(cè)圖像特征發(fā)送給第三擴(kuò)張卷積層；第三擴(kuò)張卷積層對(duì)從第三普通卷積層接收的降維后的第三視覺觀測(cè)圖像特征進(jìn)行特征提取，得到第三尺度視覺觀測(cè)圖像特征，將第三尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊；多尺度卷積網(wǎng)絡(luò)分支中的第四尺度卷積網(wǎng)絡(luò)分支中的第四普通卷積層對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征在通道維度進(jìn)行降維和特征提取，得到第四尺度視覺觀測(cè)圖像特征，將第四尺度視覺觀測(cè)圖像特征發(fā)送給自適應(yīng)融合模塊；

144、2.3.10.3尺度注意力模塊中的卷積長(zhǎng)短期記憶單元對(duì)從卷積主干網(wǎng)接收的視覺觀測(cè)圖像特征進(jìn)行時(shí)序特征提取，得到視覺觀測(cè)圖像時(shí)序特征，將視覺觀測(cè)圖像時(shí)序特征發(fā)送給全局平均池化層；全局平均池化層對(duì)從卷積長(zhǎng)短期記憶單元接收的視覺觀測(cè)圖像時(shí)序特征在空間維度進(jìn)行特征壓縮，得到長(zhǎng)度等于視覺觀測(cè)圖像時(shí)序特征通道數(shù)的第一特征向量，將第一特征向量發(fā)送給第七全連接層；第七全連接層對(duì)從全局平均池化層接收的第一特征向量進(jìn)行特征壓縮，得到長(zhǎng)度等于多尺度卷積網(wǎng)絡(luò)分支數(shù)(為4)的第二特征向量，將第二特征向量發(fā)送給sigmoid激活函數(shù)層；sigmoid激活函數(shù)層將從第七全連接層接收的第二特征向量的值縮放到[0,1]范圍，得到多尺度視覺觀測(cè)圖像特征的權(quán)重，將多尺度視覺觀測(cè)圖像特征的權(quán)重發(fā)送給自適應(yīng)融合模塊。

145、2.3.10.4自適應(yīng)融合模塊中的加權(quán)拼接層使用從尺度注意力模塊接收的多尺度視覺觀測(cè)圖像特征的權(quán)重對(duì)從多尺度卷積網(wǎng)絡(luò)分支接收的第一尺度視覺觀測(cè)圖像特征、第二尺度視覺觀測(cè)圖像特征、第三尺度視覺觀測(cè)圖像特征、第四尺度視覺觀測(cè)圖像特征進(jìn)行加權(quán)拼接，得到加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征，將加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征發(fā)送給第五普通卷積層；第五普通卷積層對(duì)從加權(quán)拼接層接收的加權(quán)拼接后的多尺度視覺觀測(cè)圖像特征在通道維度進(jìn)行降維，得到自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征，將自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征發(fā)送給循環(huán)注意力模塊。

146、2.3.10.5循環(huán)注意力模塊對(duì)從自適應(yīng)融合模塊接收的自適應(yīng)融合的多尺度視覺觀測(cè)圖像特征進(jìn)行時(shí)序特征提取和加權(quán)，得到自適應(yīng)時(shí)序尺度特征，將自適應(yīng)時(shí)序尺度特征發(fā)送給第八全連接層。

147、2.3.10.6第八全連接層對(duì)從循環(huán)注意力模塊接收的自適應(yīng)時(shí)序尺度特征進(jìn)行動(dòng)作預(yù)測(cè)，得到跟蹤器的動(dòng)作概率π1*(at|o′t)。

148、2.3.11主動(dòng)視覺跟蹤學(xué)生模塊中的視覺跟蹤器網(wǎng)絡(luò)(這里指視覺跟蹤器網(wǎng)絡(luò)中的第八全連接層)將跟蹤器的動(dòng)作概率π1*(at|o′t)發(fā)送給第二損失函數(shù)計(jì)算模塊和跟蹤器。

149、2.3.12主動(dòng)視覺跟蹤學(xué)生模塊中的第二損失函數(shù)計(jì)算模塊根據(jù)從視覺跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率π1*(at|o′t)和從主動(dòng)視覺跟蹤教師模塊中的元跟蹤器網(wǎng)絡(luò)接收的跟蹤器的動(dòng)作概率π1(at|st)計(jì)算kl散度損失dkl(π1*(at|o′t)|π1(at|st))：

150、

151、2.3.13主動(dòng)視覺跟蹤學(xué)生模塊使用adam優(yōu)化算法最小化dkl(π1*(at|o′t)|π1(at|st))來更新視覺跟蹤器網(wǎng)絡(luò)的參數(shù)。

152、2.3.14跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1*(at|o′t)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，目標(biāo)根據(jù)目標(biāo)的動(dòng)作概率π2(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。同時(shí)，干擾物根據(jù)干擾物的動(dòng)作概率π3(at|st)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作與環(huán)境交互。

153、2.3.15令t＝t+1。若t≤t，轉(zhuǎn)2.3.16；若t>t，轉(zhuǎn)2.3.17。

154、2.3.16若t％5000＝0,轉(zhuǎn)2.3.4，對(duì)加載了新的元目標(biāo)網(wǎng)絡(luò)和元干擾物網(wǎng)絡(luò)的參數(shù)的主動(dòng)視覺跟蹤教師模塊進(jìn)行訓(xùn)練；否則轉(zhuǎn)2.3.6，采用下一個(gè)時(shí)間步的數(shù)據(jù)繼續(xù)訓(xùn)練。

155、2.3.17保存視覺跟蹤器網(wǎng)絡(luò)的參數(shù)，轉(zhuǎn)第三步。

156、第三步，尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)的主動(dòng)視覺跟蹤學(xué)生模塊加載2.3.17步保存的視覺跟蹤器網(wǎng)絡(luò)的參數(shù)，得到訓(xùn)練后的尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)。

157、第四步，訓(xùn)練后的尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)對(duì)目標(biāo)進(jìn)行跟蹤，方法是：

158、4.1數(shù)據(jù)獲取模塊從跟蹤器的相機(jī)獲取實(shí)時(shí)視覺觀測(cè)圖像o，將o發(fā)送給數(shù)據(jù)預(yù)處理模塊。

159、4.2數(shù)據(jù)預(yù)處理模塊接收實(shí)時(shí)視覺觀測(cè)圖像o，采用2.3.8步所述的第二預(yù)處理方法對(duì)實(shí)時(shí)視覺觀測(cè)圖像o進(jìn)行預(yù)處理，得到預(yù)處理后的實(shí)時(shí)視覺觀測(cè)圖像o′，將o′發(fā)送給主動(dòng)視覺跟蹤學(xué)生模塊。

160、4.3主動(dòng)視覺跟蹤學(xué)生模塊接收預(yù)處理后的實(shí)時(shí)視覺觀測(cè)圖像o′，視覺跟蹤器網(wǎng)絡(luò)采用2.3.10步所述動(dòng)作預(yù)測(cè)方法對(duì)預(yù)處理后的實(shí)時(shí)視覺觀測(cè)圖像o′進(jìn)行動(dòng)作預(yù)測(cè)，得到跟蹤器的動(dòng)作概率π1*(a′|o′)。a′為表示智能體動(dòng)作的隨機(jī)變量，取值范圍為智能體的動(dòng)作范圍。

161、4.4視覺跟蹤器網(wǎng)絡(luò)將跟蹤器的動(dòng)作概率π1*(a′|o′)發(fā)送給跟蹤器。

162、4.5跟蹤器根據(jù)跟蹤器的動(dòng)作概率π1*(a′|o′)表示的條件概率從動(dòng)作范圍的7個(gè)動(dòng)作中選取動(dòng)作，并采取動(dòng)作對(duì)目標(biāo)進(jìn)行跟蹤。

163、采用本發(fā)明提供的一種尺度自適應(yīng)的主動(dòng)視覺跟蹤方法進(jìn)行跟蹤可以達(dá)到以下有益效果：

164、(1)本發(fā)明第一步構(gòu)建了一種尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)，通過在主動(dòng)視覺跟蹤學(xué)生模塊的視覺跟蹤器網(wǎng)絡(luò)中使用具有不同感受野大小的多尺度卷積網(wǎng)絡(luò)分支和尺度注意力模塊，能夠提取視覺觀測(cè)圖像的多尺度特征，并自適應(yīng)地融合多尺度特征，增強(qiáng)跟蹤器在目標(biāo)尺度變化的情況下的跟蹤性能。

165、(2)本發(fā)明第二步主動(dòng)視覺跟蹤教師模塊通過在多尺度多階段訓(xùn)練中分別進(jìn)行常規(guī)尺度、小尺度、大尺度訓(xùn)練，進(jìn)一步增強(qiáng)了跟蹤器在尺度變化環(huán)境中的跟蹤性能。

166、(3)本發(fā)明第二步主動(dòng)視覺跟蹤教師模塊的訓(xùn)練通過在目標(biāo)的獎(jiǎng)勵(lì)函數(shù)中增加位置熵獎(jiǎng)勵(lì)，增強(qiáng)了目標(biāo)對(duì)環(huán)境的探索和運(yùn)動(dòng)模式的多樣性，進(jìn)而提高跟蹤器在環(huán)境中存在干擾物時(shí)的的跟蹤效果。

167、(4)本發(fā)明第四步采用訓(xùn)練后的尺度自適應(yīng)主動(dòng)視覺跟蹤系統(tǒng)對(duì)目標(biāo)進(jìn)行跟蹤，提高了跟蹤器的跟蹤性能，即累計(jì)獎(jiǎng)勵(lì)ar、幕長(zhǎng)度el、跟蹤成功率sr都得到了提高。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李明龍,張標(biāo),楊文婧,宋林娜,文尚華,胡坤,戴勇軍,張翔
技術(shù)所有人：中國(guó)人民解放軍國(guó)防科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種尺度自適應(yīng)的主動(dòng)視覺跟蹤方法