本發(fā)明屬于機(jī)器人,具體涉及一種基于transformer和對(duì)比學(xué)習(xí)的機(jī)器人視觸感知方法和系統(tǒng)。
背景技術(shù):
1、在機(jī)器人領(lǐng)域,智能感知和操作在多個(gè)應(yīng)用場(chǎng)景中扮演著關(guān)鍵角色。工業(yè)自動(dòng)化中,機(jī)器人需要精準(zhǔn)識(shí)別和操作各種復(fù)雜形狀和材質(zhì)的物體,提高生產(chǎn)效率和產(chǎn)品質(zhì)量。在醫(yī)療領(lǐng)域,手術(shù)機(jī)器人依賴于精確的感知和操作能力,進(jìn)行微創(chuàng)手術(shù)和精細(xì)操作,降低手術(shù)風(fēng)險(xiǎn)。在服務(wù)機(jī)器人中,家庭機(jī)器人和護(hù)理機(jī)器人需要能夠準(zhǔn)確識(shí)別和處理日常物品,提供安全和高效的服務(wù)。在機(jī)器人領(lǐng)域,實(shí)現(xiàn)智能感知和操作是關(guān)鍵目標(biāo)。視覺(jué)傳感器通過(guò)攝像頭提供對(duì)環(huán)境的全局感知,捕捉場(chǎng)景的整體布局和動(dòng)態(tài)變化,但在復(fù)雜環(huán)境中可能存在識(shí)別和定位的局限性。觸覺(jué)傳感器通過(guò)傳感器陣列提供局部接觸信息,如物體的形狀、紋理和硬度,這些細(xì)節(jié)對(duì)于精確操作和感知至關(guān)重要。然而,由于視覺(jué)和觸覺(jué)數(shù)據(jù)在特征表示上的顯著差異,有效融合這些模態(tài)數(shù)據(jù)以提高機(jī)器人感知和操作能力仍然面臨挑戰(zhàn)。
2、發(fā)明專利cn117435973a提出了一種基于深度學(xué)習(xí)的視覺(jué)觸覺(jué)多模態(tài)物體識(shí)別方法。方案設(shè)計(jì)使用光纖光柵傳感器封裝在硅膠套內(nèi),安裝于機(jī)器臂末端,通過(guò)接觸物體采集觸滑覺(jué)信號(hào),同時(shí)利用工業(yè)攝像頭采集視覺(jué)數(shù)據(jù)。觸滑覺(jué)信號(hào)經(jīng)過(guò)解調(diào)處理得到壓力和振動(dòng)數(shù)據(jù),視覺(jué)圖像經(jīng)過(guò)預(yù)處理并標(biāo)注表面特性。將觸滑覺(jué)數(shù)據(jù)與視覺(jué)數(shù)據(jù)融合,形成數(shù)據(jù)集,輸入到訓(xùn)練有素的多模態(tài)神經(jīng)網(wǎng)絡(luò)模型中,實(shí)現(xiàn)物體的精確識(shí)別。此方法通過(guò)特征級(jí)融合,結(jié)合觸覺(jué)和視覺(jué)信息,提高了識(shí)別準(zhǔn)確度,適用于智能機(jī)器人在復(fù)雜環(huán)境下的物體識(shí)別任務(wù)。
3、發(fā)明專利cn117611919a提出了一種基于視觸融合的抓握物體分類方法,通過(guò)數(shù)據(jù)預(yù)處理、特征提取、特征融合和分類決策四個(gè)步驟實(shí)現(xiàn)。首先,對(duì)原始視覺(jué)和觸覺(jué)圖像數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理;接著,使用殘差網(wǎng)絡(luò)和卷積注意力機(jī)制模塊提取并強(qiáng)化視覺(jué)與觸覺(jué)特征;然后,將兩種特征在通道維度上進(jìn)行拼接和融合,以增強(qiáng)特征的表征能力;最后,輸入融合特征至分類器模塊,通過(guò)全連接層和激活函數(shù)輸出分類結(jié)果。該方法的優(yōu)勢(shì)在于充分利用了視覺(jué)和觸覺(jué)數(shù)據(jù)的互補(bǔ)性,通過(guò)注意力機(jī)制提升了特征獲取能力,顯著提高了分類的準(zhǔn)確性和魯棒性,并在構(gòu)建的多模態(tài)數(shù)據(jù)集上驗(yàn)證了其有效性。
4、上述方案在多模態(tài)物體識(shí)別方面雖有創(chuàng)新,但一方面在視覺(jué)和觸覺(jué)數(shù)據(jù)融合上可能過(guò)于簡(jiǎn)單,未能深入挖掘不同模態(tài)間的互補(bǔ)性和內(nèi)在聯(lián)系,限制了識(shí)別系統(tǒng)的性能。其次,上述方法可能在特定環(huán)境或條件下表現(xiàn)良好,但在環(huán)境變化或面對(duì)復(fù)雜場(chǎng)景時(shí),其適應(yīng)性和魯棒性可能不足。此外,對(duì)大量標(biāo)注數(shù)據(jù)的依賴限制了模型在現(xiàn)實(shí)世界中的廣泛應(yīng)用,特別是在數(shù)據(jù)獲取成本高或難以標(biāo)注的場(chǎng)景下。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺點(diǎn),提供一種基于transformer和對(duì)比學(xué)習(xí)的機(jī)器人視觸感知方法和系統(tǒng),以解決現(xiàn)有技術(shù)中在多模態(tài)物體識(shí)別過(guò)程中,不同模態(tài)間的互補(bǔ)性不足,以及模型魯棒性不足的問(wèn)題。
2、為達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案予以實(shí)現(xiàn):
3、一種基于transformer和對(duì)比學(xué)習(xí)的機(jī)器人視觸感知方法,包括:
4、獲取物體的視覺(jué)圖像和觸覺(jué)圖像;
5、通過(guò)視覺(jué)編碼器從視覺(jué)圖像中提取視覺(jué)特征向量;所述視覺(jué)編碼器為第一增強(qiáng)型swin?transformer模型,所述第一增強(qiáng)型swin?transformer模型在其中的swintransformer塊前設(shè)置有坐標(biāo)注意力機(jī)制;所述第一增強(qiáng)型swin?transformer模型通過(guò)多模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練獲得;
6、通過(guò)觸覺(jué)編碼器從觸覺(jué)圖像中提取觸覺(jué)特征向量;所述觸覺(jué)編碼器為第二增強(qiáng)型swin?transformer模型,所述第二增強(qiáng)型swin?transformer模型在其中的swintransformer塊前設(shè)置有坐標(biāo)注意力機(jī)制;所述第二增強(qiáng)型swin?transformer模型通過(guò)多模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練獲得;
7、所述多模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練過(guò)程中視覺(jué)特征向量及觸覺(jué)特征向量分別進(jìn)行模態(tài)內(nèi)對(duì)比學(xué)習(xí),視覺(jué)特征向量和觸覺(jué)特征向量之間進(jìn)行模態(tài)間對(duì)比學(xué)習(xí);
8、融合視覺(jué)特征向量和觸覺(jué)特征向量,獲得融合特征;
9、將融合特征通過(guò)線性分類層處理后,獲得物體的分類結(jié)果。
10、本發(fā)明的進(jìn)一步改進(jìn)在于:
11、優(yōu)選的,所述模態(tài)內(nèi)對(duì)比學(xué)習(xí)包括兩個(gè)視覺(jué)特征向量對(duì)比學(xué)習(xí)和兩個(gè)觸覺(jué)特征向量對(duì)比學(xué)習(xí),兩個(gè)視覺(jué)特征向量分別通過(guò)視覺(jué)編碼器和動(dòng)量視覺(jué)編碼器提取獲得,兩個(gè)觸覺(jué)特征向量分別通過(guò)觸覺(jué)編碼器和動(dòng)量觸覺(jué)編碼器提取獲得;
12、所述模態(tài)間對(duì)比學(xué)習(xí)為視覺(jué)編碼器提取的一個(gè)視覺(jué)特征向量和動(dòng)量觸覺(jué)編碼器提取的一個(gè)觸覺(jué)特征向量對(duì)比學(xué)習(xí),以及動(dòng)量視覺(jué)編碼器提取的一個(gè)視覺(jué)特征向量和觸覺(jué)編碼器提取的一個(gè)觸覺(jué)特征向量對(duì)比學(xué)習(xí)。
13、優(yōu)選的,所述視覺(jué)編碼器獲得兩個(gè)視覺(jué)特征向量后,兩個(gè)視覺(jué)特征向量分別通過(guò)兩個(gè)參數(shù)有差異的mlp目標(biāo)頭進(jìn)行特征映射處理;所述動(dòng)量視覺(jué)編碼器獲得兩個(gè)視覺(jué)特征向量后,兩個(gè)視覺(jué)特征向量分別通過(guò)兩個(gè)參數(shù)有差異的mlp目標(biāo)頭處理;所述觸覺(jué)編碼器獲得兩個(gè)觸覺(jué)特征向量后,兩個(gè)觸覺(jué)特征向量分別通過(guò)兩個(gè)參數(shù)有差異的mlp目標(biāo)頭處理;所述動(dòng)量觸覺(jué)編碼器獲得兩個(gè)觸覺(jué)特征向量后,兩個(gè)觸覺(jué)特征向量分別通過(guò)兩個(gè)參數(shù)有差異的mlp目標(biāo)頭處理。
14、優(yōu)選的,所述視覺(jué)編碼器和對(duì)應(yīng)的mlp目標(biāo)頭通過(guò)對(duì)比學(xué)習(xí)結(jié)果訓(xùn)練,所述對(duì)比學(xué)習(xí)結(jié)果為兩個(gè)模態(tài)內(nèi)對(duì)比學(xué)習(xí)結(jié)果和兩個(gè)模態(tài)間對(duì)比學(xué)習(xí)結(jié)果的加和,所述動(dòng)量視覺(jué)編碼器和對(duì)應(yīng)的mlp目標(biāo)頭通過(guò)視覺(jué)編碼器輸出結(jié)果訓(xùn)練;
15、所述觸覺(jué)編碼器和對(duì)應(yīng)的mlp目標(biāo)頭通過(guò)對(duì)比學(xué)習(xí)結(jié)果訓(xùn)練,所述對(duì)比學(xué)習(xí)結(jié)果為兩個(gè)模態(tài)內(nèi)對(duì)比學(xué)習(xí)結(jié)果和兩個(gè)模態(tài)間對(duì)比學(xué)習(xí)結(jié)果的加和;所述動(dòng)量觸覺(jué)編碼器和對(duì)應(yīng)的mlp目標(biāo)頭通過(guò)觸覺(jué)編碼器輸出結(jié)果訓(xùn)練。
16、優(yōu)選的,所述視覺(jué)圖像通過(guò)數(shù)據(jù)增強(qiáng)后輸入至視覺(jué)編碼器和動(dòng)量視覺(jué)編碼器中;所述觸覺(jué)圖像通過(guò)數(shù)據(jù)增強(qiáng)后輸入至觸覺(jué)編碼器和動(dòng)量觸覺(jué)編碼器中。
17、優(yōu)選的,所述線性分類層通過(guò)訓(xùn)練獲得,線性分類層訓(xùn)練過(guò)程中視覺(jué)編碼器、動(dòng)量視覺(jué)編碼器、觸覺(jué)編碼器和動(dòng)量觸覺(jué)編碼器的參數(shù)固定。
18、優(yōu)選的,對(duì)比學(xué)習(xí)為將兩個(gè)輸入的特征向量通過(guò)信息對(duì)比估計(jì)損失函數(shù)以及監(jiān)督對(duì)比損失函數(shù)處理,將兩個(gè)對(duì)比損失函數(shù)結(jié)果分別與對(duì)應(yīng)的權(quán)重系數(shù)相乘后加和,獲得損失值。
19、優(yōu)選的,所述視覺(jué)編碼器或觸覺(jué)編碼器將圖像進(jìn)行分割后,將分割圖像進(jìn)行線性處理,將線性處理后的特征圖依次經(jīng)過(guò)4個(gè)階段的特征提取塊處理,每一個(gè)階段包括若干個(gè)特征提取塊,將提取結(jié)果通過(guò)層歸一化后進(jìn)行平均池化,獲得視覺(jué)特征向量或觸覺(jué)特征向量;特征圖在每一個(gè)所述特征提取塊中先通過(guò)坐標(biāo)注意力機(jī)制處理后,通過(guò)swintransformer塊處理;所述圖像為視覺(jué)圖像或觸覺(jué)圖像。
20、優(yōu)選的,所述多模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練的數(shù)據(jù)由tag數(shù)據(jù)集和calandra數(shù)據(jù)集的數(shù)據(jù)組成。
21、一種基于transformer和對(duì)比學(xué)習(xí)的機(jī)器人視觸感知系統(tǒng),包括:
22、采集單元,用于獲取物體的視覺(jué)圖像和觸覺(jué)圖像;
23、視覺(jué)特征單元,用于通過(guò)視覺(jué)編碼器從視覺(jué)圖像中提取視覺(jué)特征向量;所述視覺(jué)編碼器為第一增強(qiáng)型swin?transformer模型,所述第一增強(qiáng)型swin?transformer模型在其中的swin?transformer塊前設(shè)置有坐標(biāo)注意力機(jī)制;所述第一增強(qiáng)型swin?transformer模型通過(guò)多模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練獲得;
24、觸覺(jué)特征單元,用于通過(guò)觸覺(jué)編碼器從觸覺(jué)圖像中提取觸覺(jué)特征向量;所述觸覺(jué)編碼器為第二增強(qiáng)型swin?transformer模型,所述第二增強(qiáng)型swin?transformer模型在其中的swin?transformer塊前設(shè)置有坐標(biāo)注意力機(jī)制;所述第二增強(qiáng)型swin?transformer模型通過(guò)多模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練獲得;
25、多模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練過(guò)程中視覺(jué)特征向量及觸覺(jué)特征向量分別進(jìn)行模態(tài)內(nèi)對(duì)比學(xué)習(xí),視覺(jué)特征向量和觸覺(jué)特征向量之間進(jìn)行模態(tài)間對(duì)比學(xué)習(xí);
26、融合單元,用于融合視覺(jué)特征向量和觸覺(jué)特征向量,獲得融合特征;
27、分類單元,用于將融合特征通過(guò)線性分類層處理后,獲得分類結(jié)果。
28、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
29、本發(fā)明公開(kāi)了一種基于transformer和對(duì)比學(xué)習(xí)的機(jī)器人視觸感知方法,該方法設(shè)計(jì)了新的增強(qiáng)型swin?transformer模型,該模型以swin?transformer作為主干網(wǎng)絡(luò),通過(guò)滑動(dòng)窗口注意力機(jī)制提取全局信息,在其中引入坐標(biāo)注意力機(jī)制增強(qiáng)局部特征提取,使得提取出的特征既包括全面的圖像信息,又能有針對(duì)性的獲取局部特征;有效地提取并融合了視覺(jué)與觸覺(jué)數(shù)據(jù)中的全局與局部特征,顯著提升了特征的豐富性和準(zhǔn)確性。該模型在訓(xùn)練時(shí),通過(guò)聯(lián)合對(duì)比損失方法訓(xùn)練,結(jié)合兩類損失函數(shù)作為多模態(tài)訓(xùn)練的對(duì)比損失,多模態(tài)訓(xùn)練包括模態(tài)內(nèi)對(duì)比學(xué)習(xí)和模態(tài)間對(duì)比學(xué)習(xí),能夠充分利用標(biāo)注和未標(biāo)注數(shù)據(jù),生成更豐富和準(zhǔn)確的判別特征,從而有效提升機(jī)器人對(duì)環(huán)境的智能感知和操作能力。該方法可以在多模態(tài)數(shù)據(jù)融合中有效提取和利用不同模態(tài)間的相關(guān)性和協(xié)同作用,實(shí)現(xiàn)更深層次的多模態(tài)數(shù)據(jù)融合。其框架、核心思想與具體的視覺(jué)和觸覺(jué)傳感器類型無(wú)關(guān),具有較好的泛化性,能夠在不同應(yīng)用場(chǎng)景下提升機(jī)器人對(duì)環(huán)境的智能感知和操作能力。本發(fā)明還具有以下優(yōu)勢(shì):
30、(1),本發(fā)明在swin?transformer模型中引入了坐標(biāo)注意力機(jī)制,swintransformer能夠捕捉更豐富的視覺(jué)和觸覺(jué)特征,坐標(biāo)注意力機(jī)制專門(mén)針對(duì)觸覺(jué)數(shù)據(jù)的局部特征進(jìn)行增強(qiáng)提取,確保了即使再細(xì)微的特征差異也能被模型準(zhǔn)確捕捉,從而提升了數(shù)據(jù)融合的精度和細(xì)節(jié)表現(xiàn)力。
31、(2),結(jié)合上述的swin?transformer和坐標(biāo)注意力機(jī)制,本發(fā)明提出了一種新的多模態(tài)表征學(xué)習(xí)方法,這種方法通過(guò)深度融合視覺(jué)和觸覺(jué)數(shù)據(jù),解決了傳統(tǒng)融合方式無(wú)法充分利用模態(tài)間相關(guān)性和協(xié)同作用的問(wèn)題。
32、(3),本發(fā)明創(chuàng)新性地提出了結(jié)合infonce?loss和supcon?loss的聯(lián)合對(duì)比損失方法,這一方法能夠同時(shí)利用標(biāo)注和未標(biāo)注數(shù)據(jù),促進(jìn)模型在多模態(tài)環(huán)境下生成更豐富和準(zhǔn)確的判別特征,提高了模型的泛化能力和環(huán)境適應(yīng)性,顯著提高了機(jī)器人的智能感知和操作能力。
33、(4)該學(xué)習(xí)訓(xùn)練方法能夠更好地從大量未標(biāo)注數(shù)據(jù)中學(xué)習(xí),提高模型的泛化能力和對(duì)環(huán)境變化的適應(yīng)性,減少了對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴,優(yōu)化了小樣本學(xué)習(xí),使得機(jī)器人在復(fù)雜環(huán)境中的智能感知和操作更為精準(zhǔn)和靈活,為智能機(jī)器人技術(shù)的進(jìn)一步發(fā)展提供了創(chuàng)新的解決方案。