1.一種基于transformer和對比學(xué)習(xí)的機器人視觸感知方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于transformer和對比學(xué)習(xí)的機器人視觸感知方法,其特征在于,所述模態(tài)內(nèi)對比學(xué)習(xí)包括兩個視覺特征向量對比學(xué)習(xí)和兩個觸覺特征向量對比學(xué)習(xí),兩個視覺特征向量分別通過視覺編碼器和動量視覺編碼器提取獲得,兩個觸覺特征向量分別通過觸覺編碼器和動量觸覺編碼器提取獲得;
3.根據(jù)權(quán)利要求2所述的一種基于transformer和對比學(xué)習(xí)的機器人視觸感知方法,其特征在于,所述視覺編碼器獲得兩個視覺特征向量后,兩個視覺特征向量分別通過兩個參數(shù)有差異的mlp目標(biāo)頭進行特征映射處理;所述動量視覺編碼器獲得兩個視覺特征向量后,兩個視覺特征向量分別通過兩個參數(shù)有差異的mlp目標(biāo)頭處理;所述觸覺編碼器獲得兩個觸覺特征向量后,兩個觸覺特征向量分別通過兩個參數(shù)有差異的mlp目標(biāo)頭處理;所述動量觸覺編碼器獲得兩個觸覺特征向量后,兩個觸覺特征向量分別通過兩個參數(shù)有差異的mlp目標(biāo)頭處理。
4.根據(jù)權(quán)利要求3所述的一種基于transformer和對比學(xué)習(xí)的機器人視觸感知方法,其特征在于,所述視覺編碼器和對應(yīng)的mlp目標(biāo)頭通過對比學(xué)習(xí)結(jié)果訓(xùn)練,所述對比學(xué)習(xí)結(jié)果為兩個模態(tài)內(nèi)對比學(xué)習(xí)結(jié)果和兩個模態(tài)間對比學(xué)習(xí)結(jié)果的加和,所述動量視覺編碼器和對應(yīng)的mlp目標(biāo)頭通過視覺編碼器輸出結(jié)果訓(xùn)練;
5.根據(jù)權(quán)利要求2所述的一種基于transformer和對比學(xué)習(xí)的機器人視觸感知方法,其特征在于,所述視覺圖像通過數(shù)據(jù)增強后輸入至視覺編碼器和動量視覺編碼器中;所述觸覺圖像通過數(shù)據(jù)增強后輸入至觸覺編碼器和動量觸覺編碼器中。
6.根據(jù)權(quán)利要求2所述的一種基于transformer和對比學(xué)習(xí)的機器人視觸感知方法,其特征在于,所述線性分類層通過訓(xùn)練獲得,線性分類層訓(xùn)練過程中視覺編碼器、動量視覺編碼器、觸覺編碼器和動量觸覺編碼器的參數(shù)固定。
7.根據(jù)權(quán)利要求1所述的一種基于transformer和對比學(xué)習(xí)的機器人視觸感知方法,其特征在于,對比學(xué)習(xí)為將兩個輸入的特征向量通過信息對比估計損失函數(shù)以及監(jiān)督對比損失函數(shù)處理,將兩個對比損失函數(shù)結(jié)果分別與對應(yīng)的權(quán)重系數(shù)相乘后加和,獲得損失值。
8.根據(jù)權(quán)利要求1所述的一種基于transformer和對比學(xué)習(xí)的機器人視觸感知方法,其特征在于,所述視覺編碼器或觸覺編碼器將圖像進行分割后,將分割圖像進行線性處理,將線性處理后的特征圖依次經(jīng)過4個階段的特征提取塊處理,每一個階段包括若干個特征提取塊,將提取結(jié)果通過層歸一化后進行平均池化,獲得視覺特征向量或觸覺特征向量;特征圖在每一個所述特征提取塊中先通過坐標(biāo)注意力機制處理后,通過swin?transformer塊處理;所述圖像為視覺圖像或觸覺圖像。
9.根據(jù)權(quán)利要求1所述的一種基于transformer和對比學(xué)習(xí)的機器人視觸感知方法,其特征在于,所述多模態(tài)對比學(xué)習(xí)訓(xùn)練的數(shù)據(jù)由tag數(shù)據(jù)集和calandra數(shù)據(jù)集的數(shù)據(jù)組成。
10.一種基于transformer和對比學(xué)習(xí)的機器人視觸感知系統(tǒng),其特征在于,包括: