技術(shù)特征:1.一種用于無(wú)人機(jī)視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的數(shù)據(jù)增廣方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟s2中,所述預(yù)訓(xùn)練的視覺(jué)特征編碼器為vit-b/16,所述預(yù)訓(xùn)練的語(yǔ)言特征編碼器為bert;
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟s3中,所述使用基于相等性判斷的動(dòng)態(tài)處理策略對(duì)所述路徑-圖像特征-文本特征對(duì)進(jìn)行動(dòng)態(tài)合并,具體包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟s4,具體包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟s5,具體包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟s7中,所述語(yǔ)言評(píng)價(jià)指標(biāo)包括bleu、meteor、rouge、cider、spice和nist。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述步驟s52中,所述模型微調(diào)方法包括lora、qlora、adapter-tuning和prefix-tuning。
技術(shù)總結(jié)本發(fā)明屬于深度學(xué)習(xí)技術(shù)領(lǐng)域,具體公開(kāi)了一種用于無(wú)人機(jī)視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的數(shù)據(jù)增廣方法,包括:確定路徑?動(dòng)作序列?視覺(jué)觀察對(duì);獲取路徑?圖像特征?文本特征對(duì);獲取合并后的路徑?圖像特征?文本特征對(duì);根據(jù)視覺(jué)觀察和合并后的路徑?圖像特征?文本特征對(duì),構(gòu)造用于訓(xùn)練投影層的訓(xùn)練數(shù)據(jù)集;使用訓(xùn)練數(shù)據(jù)集對(duì)投影層進(jìn)行訓(xùn)練;獲取路徑?圖像特征嵌入?文本特征嵌入?指令描述對(duì);對(duì)路徑?圖像特征嵌入?文本特征嵌入?指令描述對(duì)進(jìn)行篩選,得到增廣數(shù)據(jù)。本發(fā)明可以同時(shí)利用雙尺度圖Transformer模型的雙尺度視覺(jué)表征能力和大語(yǔ)言模型,提高了生成指令的質(zhì)量。解決了現(xiàn)有技術(shù)中生成的自然語(yǔ)言導(dǎo)航指令質(zhì)量較差的問(wèn)題。
技術(shù)研發(fā)人員:張艷寧,王鵬,郝天宇,張紅生,喬遷,柳書(shū)博
受保護(hù)的技術(shù)使用者:西北工業(yè)大學(xué)
技術(shù)研發(fā)日:技術(shù)公布日:2024/12/19