本公開涉及視覺目標跟蹤和人工智能領(lǐng)域,尤其涉及一種視覺目標跟蹤模型的訓(xùn)練方法及裝置、跟蹤方法及裝置。
背景技術(shù):
1、視覺單目標跟蹤是計算機視覺中的一項基本任務(wù),以視頻中的視覺跟蹤為例,它給定一段視頻中的第一幀圖像和對應(yīng)的目標包圍框,要求預(yù)測后續(xù)幀中的目標包圍框。目標跟蹤在機器視覺、智能監(jiān)控、無人駕駛等領(lǐng)域具有重要應(yīng)用。
2、在相關(guān)技術(shù)中,存在雙流架構(gòu)和單流架構(gòu),其中,雙流架構(gòu)作為一種傳統(tǒng)的跟蹤器架構(gòu),具有模板分支和搜索分支兩個分支,分別用于提取模板圖像和搜索圖像的特征,并且根據(jù)二者的特征預(yù)測搜索圖像中的目標包圍框和置信度。而單流架構(gòu)作為一種新興的跟蹤器架構(gòu),其可以基于transformer架構(gòu)使用令牌的數(shù)據(jù)形式,能夠?qū)⒛0鍒D像和搜索圖像的令牌進行拼接,一次性處理,通常精度相比雙流結(jié)構(gòu)更高。
3、現(xiàn)有的單流跟蹤器相對于雙流跟蹤器雖然在精度上有優(yōu)勢,但由于每一幀都需要重新計算模板特征,存在一定的計算冗余,限制了推理速度。
技術(shù)實現(xiàn)思路
1、本公開提供一種視覺目標跟蹤模型的訓(xùn)練方法及裝置、跟蹤方法及裝置,以至少解決現(xiàn)有的單流跟蹤器存在一定的計算冗余、限制推理速度的問題。本發(fā)明結(jié)合單流結(jié)構(gòu)和雙流架構(gòu)的優(yōu)點,提出一種具有信使令牌的雙流跟蹤器,同時提高速度和精度。本公開的技術(shù)方案如下:
2、根據(jù)本公開的第一方面,提供一種視覺目標跟蹤模型的訓(xùn)練方法,所述視覺目標跟蹤模型包括特征嵌入模塊、信息集成模塊、特征提取模塊、特征融合模塊和預(yù)測頭,所述特征提取模塊包括多個層,其中,所述訓(xùn)練方法包括:獲取多對訓(xùn)練樣本,其中,每對訓(xùn)練樣本包括模板樣本圖像、搜索樣本圖像以及樣本標注信息,所述模板樣本圖像中包含需要跟蹤的視覺目標,所述樣本標注信息表征所述視覺目標在所述搜索樣本圖像中的包圍框,其中,所述樣本標注信息包括真實標注信息和蒸餾標注信息;將所述訓(xùn)練樣本輸入到所述特征嵌入模塊,得到模板圖像特征和搜索圖像特征;利用所述特征提取模塊的各層,對第一特征和第二特征執(zhí)行特征提取操作,得到第一提取結(jié)果和第二提取結(jié)果,其中,所述第一特征包括所述模板圖像特征和第一信使特征,所述第二特征包括所述搜索圖像特征、第二信使特征、目標令牌和蒸餾令牌,所述第一信使特征和所述第二信使特征均包括可學(xué)習(xí)的參數(shù),所述第一信使特征和所述第二信使特征相同,所述目標令牌和所述蒸餾令牌均包括可學(xué)習(xí)參數(shù),其中,對于所述特征提取模塊的相鄰兩層,利用所述信息集成模塊,基于前一層的與所述第一信使特征對應(yīng)的輸出特征以及與所述第二信使特征對應(yīng)的輸出特征,確定后一層的與所述第二信使特征對應(yīng)的輸入特征;利用所述特征融合模塊,對所述第一提取結(jié)果和所述第二提取結(jié)果進行融合,得到融合結(jié)果;利用所述預(yù)測頭,基于所述融合結(jié)果進行預(yù)測,得到預(yù)測跟蹤結(jié)果,其中,所述預(yù)測跟蹤結(jié)果表示所述模板樣本圖像中的視覺目標在所述搜索樣本圖像中的包圍框;基于所述預(yù)測跟蹤結(jié)果、所述真實標注信息和所述蒸餾標注信息得到訓(xùn)練損失,對所述視覺目標跟蹤模型進行訓(xùn)練,得到訓(xùn)練好的視覺目標跟蹤模型。
3、可選地,所述特征提取模塊的每個層的輸入包括第一輸入特征和第二輸入特征,所述特征提取模塊的每個層的輸出包括第一輸出特征和第二輸出特征,所述第一輸出特征包括模板圖像提取特征和第一信使提取特征,所述第二輸出特征包括搜索圖像提取特征和第二信使提取特征,其中,針對所述特征提取模塊的每個層,所述特征提取操作包括:將前一層輸出的第一輸出特征作為當(dāng)前層的第一輸入特征,輸入到當(dāng)前層,得到當(dāng)前層的第一輸出特征;利用所述信息集成模塊,將前一層輸出的第一信使提取特征與前一層輸出的第二信使提取特征集成,得到新的信使提取特征;利用所述新的信使提取特征替換前一層輸出的第二輸出特征中的第二信使提取特征,得到新的第二輸出特征;將所述新的第二輸出特征作為當(dāng)前層的第二輸入特征,輸入到當(dāng)前層,得到當(dāng)前層的第二輸出特征,其中,所述特征提取模塊的第一層的第一輸入特征和第二輸入特征分別為所述第一特征和所述第二特征,所述特征提取模塊的最后一層的第一輸出特征和第二輸出特征分別包括所述第一提取結(jié)果和所述第二提取結(jié)果。
4、可選地,所述信息集成模塊通過以下方式中的一者得到所述新的信使提取特征:直接將所述第二信使提取特征作為所述新的信使提取特征;將所述第一信使提取特征與所述第二信使提取特征相加,得到所述新的信使提取特征;直接將所述第一信使提取特征作為所述新的信使提取特征。
5、可選地,所述蒸餾標注信息基于預(yù)先訓(xùn)練好的教師模型針對所述訓(xùn)練樣本預(yù)測得到的教師預(yù)測結(jié)果確定,所述預(yù)測跟蹤結(jié)果包括與所述目標令牌對應(yīng)的目標預(yù)測結(jié)果和與所述蒸餾令牌對應(yīng)的蒸餾預(yù)測結(jié)果,其中,通過以下方式對所述視覺目標跟蹤模型進行訓(xùn)練:通過比較所述目標預(yù)測結(jié)果和所述真實標注信息,得到第一損失;通過比較所述蒸餾預(yù)測結(jié)果和所述蒸餾標注信息,得到第二損失;基于所述第一損失和所述第二損失,確定預(yù)測損失;利用所述預(yù)測損失,調(diào)整所述視覺目標跟蹤模型的參數(shù),以對所述視覺目標跟蹤模型進行訓(xùn)練。
6、可選地,所述真實標注信息包括真實包圍框,所述蒸餾標注信息包括蒸餾包圍框,所述教師預(yù)測結(jié)果包括教師包圍框,其中,通過以下方式得到所述蒸餾包圍框:基于平滑系數(shù),對所述真實包圍框和所述教師包圍框進行加權(quán)后求和,得到所述蒸餾包圍框,其中,所述平滑系數(shù)表示所述真實包圍框在所述蒸餾包圍框中所占的比重。
7、可選地,所述視覺目標跟蹤模型還包括全連接層和sigmoid層,其中,通過以下方式確定所述平滑系數(shù):將所述融合結(jié)果中與所述目標令牌對應(yīng)的特征輸入到所述全連接層,得到全連接特征;將所述全連接特征輸入到所述sigmoid層,得到所述平滑系數(shù),其中,所述平滑系數(shù)為在[0,1]范圍內(nèi)的標量。
8、根據(jù)本公開的第二方面,提供一種視覺目標跟蹤方法,所述視覺目標跟蹤方法包括:獲取目標模板圖像和目標搜索圖像,其中,所述目標模板圖像包含需要跟蹤的視覺目標;將所述目標模板圖像和所述目標搜索圖像輸入到視覺目標跟蹤模型中,利用所述視覺目標跟蹤模型,預(yù)測所述視覺目標在所述目標搜索圖像中的包圍框,其中,所述視覺目標跟蹤模型是根據(jù)本公開的實施例所述的視覺目標跟蹤模型的訓(xùn)練方法訓(xùn)練得到的。
9、根據(jù)本公開的第三方面,提供一種視覺目標跟蹤模型的訓(xùn)練系統(tǒng),所述視覺目標跟蹤模型包括特征嵌入模塊、信息集成模塊、特征提取模塊、特征融合模塊和預(yù)測頭,所述特征提取模塊包括多個層,其中,所述訓(xùn)練系統(tǒng)包括:樣本獲取單元,被配置為獲取多對訓(xùn)練樣本,其中,每對訓(xùn)練樣本包括模板樣本圖像、搜索樣本圖像以及樣本標注信息,所述模板樣本圖像中包含需要跟蹤的視覺目標,所述樣本標注信息表征所述視覺目標在所述搜索樣本圖像中的包圍框,其中,所述樣本標注信息包括真實標注信息和蒸餾標注信息;第一確定單元,被配置為將所述訓(xùn)練樣本輸入到所述特征嵌入模塊,得到模板圖像特征和搜索圖像特征;第二確定單元,被配置為利用所述特征提取模塊的各層,對第一特征和第二特征執(zhí)行特征提取操作,得到第一提取結(jié)果和第二提取結(jié)果,其中,所述第一特征包括所述模板圖像特征和第一信使特征,所述第二特征包括所述搜索圖像特征、第二信使特征、目標令牌和蒸餾令牌,所述第一信使特征和所述第二信使特征均為可學(xué)習(xí)的參數(shù),所述第一信使特征和所述第二信使特征相同,所述目標令牌和所述蒸餾令牌均包括可學(xué)習(xí)參數(shù),其中,對于所述特征提取模塊的相鄰兩層,利用所述信息集成模塊,基于前一層的與所述第一信使特征對應(yīng)的輸出特征以及與所述第二信使特征對應(yīng)的輸出特征,確定后一層的與所述第二信使特征對應(yīng)的輸入特征;樣本融合單元,被配置為利用所述特征融合模塊,對所述第一提取結(jié)果和所述第二提取結(jié)果進行融合,得到融合結(jié)果;樣本預(yù)測單元,被配置為利用所述預(yù)測頭,基于所述融合結(jié)果進行預(yù)測,得到預(yù)測跟蹤結(jié)果,其中,所述預(yù)測跟蹤結(jié)果表示所述模板樣本圖像中的視覺目標在所述搜索樣本圖像中的包圍框;訓(xùn)練單元,被配置為基于所述預(yù)測跟蹤結(jié)果、所述真實標注信息和所述蒸餾標注信息得到訓(xùn)練損失,對所述視覺目標跟蹤模型進行訓(xùn)練,得到訓(xùn)練好的視覺目標跟蹤模型。
10、根據(jù)本公開的第四方面,提供一種視覺目標跟蹤系統(tǒng),所述視覺目標跟蹤系統(tǒng)包括:圖像獲取單元,被配置為獲取目標模板圖像和目標搜索圖像,其中,所述目標模板圖像包含需要跟蹤的視覺目標;視覺預(yù)測單元,被配置為將所述目標模板圖像和所述目標搜索圖像輸入到視覺目標跟蹤模型中,利用所述視覺目標跟蹤模型,預(yù)測所述視覺目標在所述目標搜索圖像中的包圍框,其中,所述視覺目標跟蹤模型是根據(jù)本公開所述的視覺目標跟蹤模型的訓(xùn)練方法訓(xùn)練得到的。
11、根據(jù)本公開的第五方面,提供一種電子設(shè)備,所述電子設(shè)備包括:處理器;用于存儲所述處理器可執(zhí)行指令的存儲器,其中,所述處理器可執(zhí)行指令在被所述處理器運行時,促使所述處理器執(zhí)行根據(jù)本公開的實施例所述的視覺目標跟蹤模型的訓(xùn)練方法或視覺目標跟蹤方法。
12、根據(jù)本公開的第六方面,提供一種計算機可讀存儲介質(zhì),當(dāng)所述計算機可讀存儲介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時,使得所述電子設(shè)備能夠執(zhí)行根據(jù)本公開的實施例所述的視覺目標跟蹤模型的訓(xùn)練方法或視覺目標跟蹤方法。
13、根據(jù)本公開的第七方面,提供一種計算機程序產(chǎn)品,包括計算機可執(zhí)行指令,所述計算機可執(zhí)行指令被至少一個處理器執(zhí)行時實現(xiàn)根據(jù)本公開的實施例所述的視覺目標跟蹤模型的訓(xùn)練方法或視覺目標跟蹤方法。
14、本公開提供的技術(shù)方案至少帶來以下有益效果:
15、采用本公開的方案,可以針對視覺目標跟蹤模型的特征嵌入模塊得到的模板圖像特征和搜索圖像特征,分別引入具有可學(xué)習(xí)參數(shù)的信使特征,使得相應(yīng)的信使特征可以學(xué)習(xí)到相應(yīng)的圖像特征提取分支的信息,在特征提取過程中,引入這樣的信使特征可以提高特征提取的效果,使得模型更準確地捕捉到模板圖像中的視覺信息,從而在保留了對模板圖像和搜索圖像分別進行特征提取的雙分支架構(gòu)所具有的高推理速度的優(yōu)勢的同時,還能夠提高模型的推理精度。
16、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。