本發(fā)明屬于深度學(xué)習(xí),具體涉及一種用于無人機(jī)視覺語言導(dǎo)航任務(wù)的數(shù)據(jù)增廣方法。
背景技術(shù):
1、視覺和語言導(dǎo)航(vln)是一項(xiàng)具有挑戰(zhàn)性的任務(wù),它要求智能體在未見過的真實(shí)環(huán)境中遵循人類自然語言指令進(jìn)行自主導(dǎo)航,如“走下樓,走向餐桌,左轉(zhuǎn)到廚房,停在冰箱前面。”
2、解決vln任務(wù)在很大程度上依賴于正確解釋指令、感知環(huán)境和從交互中學(xué)習(xí),這需要大量不同的視覺語言數(shù)據(jù)對模型進(jìn)行訓(xùn)練。然而,由于大規(guī)模導(dǎo)航數(shù)據(jù)收集過程的昂貴,視覺語言導(dǎo)航學(xué)習(xí)通常面臨數(shù)據(jù)稀缺問題。目前,已經(jīng)有很多方法來解決視覺語言導(dǎo)航數(shù)據(jù)稀缺問題,包括通過收集更多的人類注釋或創(chuàng)建新的環(huán)境來擴(kuò)增數(shù)據(jù),然而,這種方法成本過高。此外,最近的方法傾向于利用大量自動(dòng)生成的數(shù)據(jù)來推動(dòng)智能體性能的極限,或者引入大規(guī)模預(yù)訓(xùn)練方法來提高泛化能力,然而,自動(dòng)生成的數(shù)據(jù)面臨著數(shù)據(jù)質(zhì)量低等問題。
3、基于城市級無人機(jī)的視覺語言導(dǎo)航任務(wù)(aerialvln)是一項(xiàng)更具挑戰(zhàn)性的任務(wù)。相比于室內(nèi)或地面vln任務(wù),aerialvln有更大的行動(dòng)空間、更大更復(fù)雜的室外環(huán)境、更長的路徑和指令序列,這些特點(diǎn)共同決定了aerialvln任務(wù)的復(fù)雜性。由于aerialvln任務(wù)的平均導(dǎo)航路徑長度在600米以上,這點(diǎn)決定了其相應(yīng)的導(dǎo)航指令序列也會(huì)有更多更復(fù)雜的描述,因此針對于aerialvln任務(wù)的數(shù)據(jù)集增廣更加困難?,F(xiàn)有工作大多通過人工采集路徑并生成相應(yīng)的指令描述來完成的,這種方法成本較高且效率低,顯然不能滿足大規(guī)模數(shù)據(jù)增廣的需求。還有一些工作旨在通過自動(dòng)生成數(shù)據(jù)來實(shí)現(xiàn)大規(guī)模數(shù)據(jù)增廣,然而,大多數(shù)工作是針對室內(nèi)或地面vln任務(wù)進(jìn)行的,將其直接遷移到aerialvln任務(wù)的數(shù)據(jù)增廣任務(wù)中會(huì)出現(xiàn)隨著路徑長度變長關(guān)鍵動(dòng)作稀疏而無關(guān)語義冗余的“長平”問題。
4、視覺語言導(dǎo)航任務(wù)數(shù)據(jù)集主要包括兩個(gè)部分:路徑序列和導(dǎo)航指令,其中,生成豐富度高、符合人類語言習(xí)慣、具有豐富導(dǎo)航語義的導(dǎo)航指令是數(shù)據(jù)增廣面臨的主要挑戰(zhàn),很大程度上決定了智能體的性能?,F(xiàn)有方法大多利用特定場景的已有人工數(shù)據(jù)集訓(xùn)練一個(gè)本地小模型來解決導(dǎo)航指令生成任務(wù),然而這種方法經(jīng)常面臨著泛化能力不足、數(shù)據(jù)依賴性強(qiáng)、可遷移能力差等缺陷。典型方法主要有:
5、1)speaker-follower
6、speaker-follower方法由兩個(gè)主要組件組成:speaker模塊和follower模塊。follower模塊接收視覺輸入和語言指令,通過神經(jīng)網(wǎng)絡(luò)生成導(dǎo)航?jīng)Q策;speaker模塊則接收導(dǎo)航路徑,生成描述路徑的自然語言指令。通過現(xiàn)有數(shù)據(jù)集循環(huán)訓(xùn)練,speaker模塊生成新的指令-路徑對以增加數(shù)據(jù)多樣性,follower模塊利用這些數(shù)據(jù)進(jìn)行導(dǎo)航策略的學(xué)習(xí)。然而,speaker-follower方法有著對數(shù)據(jù)的高度依賴和模型復(fù)雜性的缺陷。生成的語言指令質(zhì)量和多樣性不足,影響導(dǎo)航策略的準(zhǔn)確性。此外,訓(xùn)練過程中需要同時(shí)優(yōu)化兩個(gè)復(fù)雜的模塊,增加了計(jì)算資源需求和模型訓(xùn)練的難度。指令理解與路徑執(zhí)行的解耦以及評價(jià)指標(biāo)的局限性也可能影響模型在實(shí)際環(huán)境中的表現(xiàn)。
7、2)ccc-speaker
8、ccc-speaker方法采用反事實(shí)循環(huán)一致學(xué)習(xí)框架,聯(lián)合訓(xùn)練“speaker”和“follower”兩個(gè)模型,并引入一個(gè)“creator”模塊。具體來說,speaker生成描述導(dǎo)航路徑的指令,follower根據(jù)指令進(jìn)行導(dǎo)航,而creator則負(fù)責(zé)生成反事實(shí)環(huán)境。通過循環(huán)一致性學(xué)習(xí),follower生成路徑并由speaker驗(yàn)證其正確性,反之亦然。這種方法不僅使用帶標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,還可以在無標(biāo)簽路徑上應(yīng)用,增強(qiáng)模型的泛化能力。盡管ccc-speaker方法在提升導(dǎo)航模型性能方面具有顯著效果,但也存在一些缺陷。首先,該方法增加了訓(xùn)練的復(fù)雜性和計(jì)算資源需求,因?yàn)樾枰瑫r(shí)訓(xùn)練三個(gè)復(fù)雜的模塊(speaker、follower和creator)。其次,盡管反事實(shí)環(huán)境的生成可以增強(qiáng)模型的魯棒性,但生成的反事實(shí)環(huán)境質(zhì)量難以保證,可能會(huì)影響模型的訓(xùn)練效果。此外,反事實(shí)環(huán)境的創(chuàng)建和現(xiàn)實(shí)環(huán)境的差異可能導(dǎo)致模型在實(shí)際應(yīng)用中表現(xiàn)不穩(wěn)定。
9、3)aigen
10、aigen(adversarial?instruction?generation?for?vision-and-languagenavigation)方法是一種基于生成對抗網(wǎng)絡(luò)(gans)的架構(gòu),旨在生成有意義且結(jié)構(gòu)良好的合成指令以提高導(dǎo)航代理的性能。該模型由一個(gè)transformer解碼器(gpt-2)和一個(gè)transformer編碼器(bert)組成。在訓(xùn)練階段,解碼器生成描述代理路徑的句子,編碼器則負(fù)責(zé)區(qū)分指令的真假。通過對未標(biāo)記的導(dǎo)航路徑生成合成指令,aigen可以顯著提高現(xiàn)成vln方法的性能,尤其是在habitat-matterport?3d(hm3d)數(shù)據(jù)集上生成217k條軌跡的指令,并在reverie和r2r數(shù)據(jù)集上進(jìn)行了驗(yàn)證,顯示出優(yōu)越的性能。盡管aigen方法在提升導(dǎo)航模型性能方面表現(xiàn)出色,但它也存在一些缺陷。首先,該方法的訓(xùn)練過程復(fù)雜,需要大量的計(jì)算資源和時(shí)間,因?yàn)樾枰瑫r(shí)訓(xùn)練生成器和鑒別器模塊。此外,aigen依賴于高質(zhì)量的物體檢測模型(如mask2former)來提取視覺特征,這一過程不僅耗時(shí),而且在視覺特征提取過程中可能存在誤差,影響生成指令的質(zhì)量。最后,雖然aigen生成的指令在實(shí)驗(yàn)中表現(xiàn)良好,但在真實(shí)環(huán)境中,其性能可能受到訓(xùn)練數(shù)據(jù)集和生成對抗訓(xùn)練一致性的限制,導(dǎo)致模型在實(shí)際應(yīng)用中的穩(wěn)定性和泛化能力不佳。
11、4)edrop-speaker
12、edrop-speaker方法通過引入環(huán)境丟失(environmental?dropout)策略來提升視覺語言導(dǎo)航(vln)模型在未知環(huán)境中的泛化能力。該方法在訓(xùn)練過程中采用兩階段策略:首先結(jié)合模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,然后通過環(huán)境丟失生成新的未見環(huán)境數(shù)據(jù)。在環(huán)境丟失過程中,模型隨機(jī)丟棄視覺特征,以模擬真實(shí)世界中的視角缺失和變化,并利用反向翻譯生成新的路徑和指令,增強(qiáng)模型的泛化能力。實(shí)驗(yàn)證明,通過在這些新生成的環(huán)境數(shù)據(jù)上進(jìn)行微調(diào),模型在未知環(huán)境中的導(dǎo)航性能顯著提升。盡管edrop-speaker方法在提升模型泛化能力方面表現(xiàn)出色,但也存在一些缺陷。首先,該方法的訓(xùn)練過程復(fù)雜,尤其是環(huán)境丟失和反向翻譯步驟,需要大量計(jì)算資源和時(shí)間。其次,環(huán)境丟失生成的新環(huán)境數(shù)據(jù)可能無法完全代表實(shí)際未知環(huán)境中的復(fù)雜變化,導(dǎo)致模型在實(shí)際應(yīng)用中的穩(wěn)定性和可靠性可能受限。此外,生成的新數(shù)據(jù)質(zhì)量和多樣性在一定程度上依賴于現(xiàn)有數(shù)據(jù)的質(zhì)量,數(shù)據(jù)不足或質(zhì)量不高可能限制模型的性能提升。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種用于無人機(jī)視覺語言導(dǎo)航任務(wù)的數(shù)據(jù)增廣方法,解決了現(xiàn)有技術(shù)中生成的自然語言導(dǎo)航指令質(zhì)量較差的問題。
2、為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:一種用于無人機(jī)視覺語言導(dǎo)航任務(wù)的數(shù)據(jù)增廣方法,包括如下步驟:
3、s1、獲取導(dǎo)航圖,使用啟發(fā)式搜索算法對導(dǎo)航圖進(jìn)行搜索,得到路徑和動(dòng)作序列,調(diào)用仿真器生成路徑對應(yīng)的視覺觀察,并根據(jù)路徑、動(dòng)作序列和視覺觀察,確定路徑-動(dòng)作序列-視覺觀察對;
4、其中,每個(gè)路徑包括至少兩個(gè)路徑點(diǎn);
5、s2、使用預(yù)訓(xùn)練的視覺特征編碼器和預(yù)訓(xùn)練的語言特征編碼器分別對現(xiàn)有視覺語言導(dǎo)航任務(wù)數(shù)據(jù)集、路徑-動(dòng)作序列-視覺觀察對進(jìn)行預(yù)處理,得到路徑-圖像特征-文本特征對;
6、現(xiàn)有視覺語言導(dǎo)航任務(wù)數(shù)據(jù)集中包括至少一個(gè)路徑-動(dòng)作序列-視覺觀察-指令描述對數(shù)據(jù);
7、s3、使用基于相等性判斷的動(dòng)態(tài)處理策略對路徑-圖像特征-文本特征對進(jìn)行動(dòng)態(tài)合并,得到合并后的路徑-圖像特征-文本特征對;
8、s4、根據(jù)視覺觀察和合并后的路徑-圖像特征-文本特征對,構(gòu)造用于訓(xùn)練投影層的訓(xùn)練數(shù)據(jù)集;
9、s5、使用訓(xùn)練數(shù)據(jù)集對投影層進(jìn)行訓(xùn)練,并基于現(xiàn)有視覺語言導(dǎo)航任務(wù)數(shù)據(jù)集使用模型微調(diào)方法對大語言模型進(jìn)行微調(diào);
10、s6、使用duet模型的視覺空間表征模塊對合并后的路徑-圖像特征-文本特征對進(jìn)行處理,得到路徑-圖像特征嵌入-文本特征嵌入對,并使用訓(xùn)練后的投影層將路徑-圖像特征嵌入-文本特征嵌入對投影到微調(diào)后的大語言模型的語義空間,通過微調(diào)后的大語言模型輸出路徑-圖像特征嵌入-文本特征嵌入-指令描述對;
11、s7、使用語言評價(jià)指標(biāo)對路徑-圖像特征嵌入-文本特征嵌入-指令描述對進(jìn)行篩選,得到增廣數(shù)據(jù)。
12、上述方案的有益效果是:
13、(1)本發(fā)明利用duet模型的雙尺度視覺表征能力和大語言模型的上下文學(xué)習(xí)推理能力構(gòu)建層次化指令生成體系結(jié)構(gòu),同時(shí)可以用提示模板或思維鏈?zhǔn)蛊渖尚Ч茫Z言描述更加精確,更符合人類風(fēng)格習(xí)慣,通過用現(xiàn)有數(shù)據(jù)集對其進(jìn)行訓(xùn)練并用lora進(jìn)行微調(diào),使得生成指令更符合aerialvln風(fēng)格,提高了生成指令的質(zhì)量。
14、(2)本發(fā)明中的duet模型可以對導(dǎo)航路徑上的空間視覺信息進(jìn)行全局編碼和局部編碼,即其不僅關(guān)注當(dāng)前空間視覺信息,同時(shí)關(guān)注全局歷史信息,因此,duet模型對路徑上空間視覺的表征不會(huì)隨著路徑序列的加長而出現(xiàn)衰退,并且本發(fā)明的動(dòng)態(tài)處理策略可以減少冗余特征,最終生成的指令是簡潔而包含關(guān)鍵動(dòng)作的,對于解決aerialvln任務(wù)的“長平”問題至關(guān)重要。
15、(3)本發(fā)明與典型的數(shù)據(jù)增廣方法例如數(shù)據(jù)插值和混合、噪聲注入和針對特定場景設(shè)計(jì)的專家模型相比,由于本發(fā)明利用的是大語言模型,得益于其大量豐富的語料進(jìn)行預(yù)訓(xùn)練,使得生成的數(shù)據(jù)具有豐富的導(dǎo)航語義信息且更符合人類的語言習(xí)慣。
16、進(jìn)一步地,步驟s2中,預(yù)訓(xùn)練的視覺特征編碼器為vit-b/16,預(yù)訓(xùn)練的語言特征編碼器為bert;
17、步驟s2,具體包括:
18、s21、使用vit-b/16對路徑-動(dòng)作序列-視覺觀察-指令描述對中的視覺觀察進(jìn)行特征提取,得到第一圖像特征;
19、s22、使用bert對路徑-動(dòng)作序列-視覺觀察-指令描述對中的動(dòng)作序列和指令描述進(jìn)行特征提取,得到第一文本特征;
20、s23、根據(jù)路徑-動(dòng)作序列-視覺觀察-指令描述對、第一圖像特征和第一文本特征,確定第一路徑-圖像特征-文本特征對;
21、s24、使用vit-b/16對路徑-動(dòng)作序列-視覺觀察對中的視覺觀察進(jìn)行特征提取,得到第二圖像特征;
22、s25、使用bert對路徑-動(dòng)作序列-視覺觀察對中的動(dòng)作序列進(jìn)行特征提取,得到第二文本特征;
23、s26、根據(jù)路徑-動(dòng)作序列-視覺觀察對、第二圖像特征和第二文本特征,得到第二路徑-圖像特征-文本特征對;
24、s27、對第一路徑-圖像特征-文本特征對和第二路徑-圖像特征-文本特征對進(jìn)行合并,得到路徑-圖像特征-文本特征對。
25、上述進(jìn)一步方案的有益效果是:視覺特征編碼器能夠從圖像或視頻中自動(dòng)提取有意義的特征表示,這些特征通常是對圖像內(nèi)容的高度概括且與任務(wù)相關(guān)的抽象描述,提高了后續(xù)任務(wù)處理的效率和效果。語言特征編碼器通過將文本數(shù)據(jù)轉(zhuǎn)化為高維的特征向量,語言特征編碼器能捕捉詞匯、短語乃至整個(gè)句子的語義信息,從而加深對文本意義的理解。
26、進(jìn)一步地,步驟s3中,使用基于相等性判斷的動(dòng)態(tài)處理策略對路徑-圖像特征-文本特征對進(jìn)行動(dòng)態(tài)合并,具體包括:
27、使用基于相等性判斷的動(dòng)態(tài)處理策略,遍歷路徑-圖像特征-文本特征對中的文本特征,判斷相鄰的文本特征是否相同,若是,則將相鄰的文本特征分別對應(yīng)的路徑-圖像特征-文本特征對進(jìn)行合并,若否,則繼續(xù)遍歷路徑-圖像特征-文本特征對。
28、上述進(jìn)一步方案的有益效果是:通過相等性判斷,可以快速識別出具有相同或相關(guān)聯(lián)路徑、圖像特征和文本特征的數(shù)據(jù)對,僅對這些匹配的數(shù)據(jù)進(jìn)行合并,減少了不必要的遍歷和處理操作,提升了處理速度。減少了冗余信息,有助于解決aerialvln指令中關(guān)鍵信號稀疏的問題,使得生成的指令簡潔同時(shí)包含關(guān)鍵動(dòng)作。
29、進(jìn)一步地,步驟s4,具體包括:
30、s41、將合并后的路徑-圖像特征-文本特征對輸入duet模型的粗尺度編碼模塊中進(jìn)行場景圖編碼,通過duet模型輸出路徑-場景圖編碼嵌入-文本特征對;
31、s42、使用圖像描述模型對視覺觀察進(jìn)行處理,得到視覺觀察對應(yīng)的自然語言描述;
32、s43、設(shè)計(jì)自然語言生成模板,并使用自然語言生成模板對大語言模型進(jìn)行訓(xùn)練;
33、s44、將路徑-場景圖編碼嵌入-文本特征對和自然語言描述輸入訓(xùn)練好的大語言模型,通過訓(xùn)練好的大語言模型輸出結(jié)構(gòu)化自然語言描述;
34、s45、將結(jié)構(gòu)化自然語言描述輸入語言編碼模塊,通過語言編碼模塊輸出場景圖編碼嵌入-自然語言編碼嵌入,作為用于訓(xùn)練投影層的訓(xùn)練數(shù)據(jù)集。
35、上述進(jìn)一步方案的有益效果是:通過將圖像特征、文本特征與場景圖編碼相結(jié)合,實(shí)現(xiàn)了視覺和語言信息的深層次融合,促進(jìn)了對復(fù)雜場景的綜合理解與表達(dá)。定制化的自然語言生成模板配合大語言模型訓(xùn)練,能夠生成更加精準(zhǔn)、結(jié)構(gòu)化且符合特定應(yīng)用場景的自然語言描述,提高了訓(xùn)練數(shù)據(jù)集的實(shí)用性和可讀性。
36、進(jìn)一步地,步驟s5,具體包括:
37、s51、使用隨機(jī)初始化的投影層將duet模型的全局空間視覺表征模塊與訓(xùn)練好的大語言模型的語義空間進(jìn)行連接,使用由instructblip初始化的q-former將duet模型的局部空間視覺表征模塊與訓(xùn)練好的大語言模型的語義空間進(jìn)行連接,形成投影層,并使用訓(xùn)練數(shù)據(jù)集對投影層進(jìn)行訓(xùn)練,得到訓(xùn)練好的投影層;
38、s52、將duet模型的視覺表征模塊和訓(xùn)練好的投影層的參數(shù)凍結(jié),并基于現(xiàn)有視覺語言導(dǎo)航任務(wù)數(shù)據(jù)集使用模型微調(diào)方法對訓(xùn)練好的大語言模型進(jìn)行微調(diào);
39、其中,duet模型的視覺表征模塊包括全局空間視覺表征模塊和局部空間視覺表征模塊。
40、上述進(jìn)一步方案的有益效果是:全局表征覆蓋整體語義,局部表征聚焦細(xì)節(jié)信息,二者的融合讓模型能夠同時(shí)理解圖像的宏觀背景和微觀元素,提高了對復(fù)雜場景的理解能力。全局和局部視覺特征與語言特征的有效整合,可以增強(qiáng)視覺信息與文本描述之間的一致性,提升圖像內(nèi)容描述的準(zhǔn)確性和豐富性。
41、進(jìn)一步地,步驟s7中,語言評價(jià)指標(biāo)包括bleu、meteor、rouge、cider、spice和nist。
42、上述進(jìn)一步方案的有益效果是:通過標(biāo)準(zhǔn)化的語言評價(jià)指標(biāo),可以客觀地量化機(jī)器翻譯、文本摘要、對話系統(tǒng)等生成式任務(wù)的質(zhì)量。有助于開發(fā)者和研究人員了解模型的強(qiáng)項(xiàng)和弱點(diǎn),指導(dǎo)模型的迭代優(yōu)化。
43、進(jìn)一步地,步驟s52中,模型微調(diào)方法包括lora、qlora、adapter-tuning和prefix-tuning。
44、上述進(jìn)一步方案的有益效果是:微調(diào)方法通過減少所需參數(shù)量、提高計(jì)算效率和靈活性,使得模型能夠更高效、針對性地應(yīng)用于特定任務(wù),同時(shí)也降低了實(shí)際應(yīng)用中的資源門檻。