本公開(kāi)涉及計(jì)算機(jī)視覺(jué),尤其涉及目標(biāo)檢測(cè)方法、目標(biāo)檢測(cè)模型及目標(biāo)檢測(cè)裝置。
背景技術(shù):
1、現(xiàn)有技術(shù)中開(kāi)放詞表目標(biāo)檢測(cè)通常是采用純文本提示在目標(biāo)圖像中查詢潛在目標(biāo),由于文字描述存在局限性,很難全面描述視覺(jué)細(xì)節(jié),純文本查詢主要存在以下問(wèn)題:第一,文本的描述很難全面描述視覺(jué)細(xì)節(jié),例如圖像中出現(xiàn)一些奇異的生物種類,就很難描述其為什么物種,并且為大量類別編寫(xiě)文本描述是一項(xiàng)繁瑣的工作;第二,類別歧義,同樣的文本可能會(huì)指代多種物體,有可能存在一詞多義的情形;第三,部分查詢目標(biāo)較難用一個(gè)短句或關(guān)鍵詞準(zhǔn)確描述,而使用較長(zhǎng)的查詢文本會(huì)增加預(yù)訓(xùn)練模型的理解難度。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)提供了一種目標(biāo)檢測(cè)方法、目標(biāo)檢測(cè)模型、目標(biāo)檢測(cè)裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。
2、根據(jù)本公開(kāi)的一方面,提供了一種目標(biāo)檢測(cè)方法,包括:
3、獲取待檢測(cè)圖像,從所述待檢測(cè)圖像中提取出第一圖像特征;
4、從所述待檢測(cè)圖像中獲取提示圖像,并從所述提示圖像中提取出第二圖像特征;
5、獲取提示文本,從所述提示文本中提取出文本特征;
6、將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征;
7、對(duì)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配,并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果。
8、根據(jù)本公開(kāi)的另一方面,提供了一種目標(biāo)檢測(cè)模型,包括:
9、第一圖像特征提取模型,被配置為獲取待檢測(cè)圖像,從所述待檢測(cè)圖像中提取出第一圖像特征;
10、第二圖像特征提取模型,被配置為從提示圖像中提取出第二圖像特征;其中,所述提示圖像是從所述待檢測(cè)圖像中獲取的;
11、文本特征提取模型,被配置為獲取提示文本,從所述提示文本中提取出文本特征;
12、線性層,被配置為將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征;
13、輸出層,被配置為對(duì)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配,并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果。
14、根據(jù)本公開(kāi)的第三方面,提供了一種目標(biāo)檢測(cè)裝置,包括:
15、第一圖像特征提取模塊,被配置為獲取待檢測(cè)圖像,從所述待檢測(cè)圖像中提取出第一圖像特征;
16、第二圖像特征提取模塊,被配置為從所述待檢測(cè)圖像中獲取提示圖像,并從所述提示圖像中提取出第二圖像特征;
17、文本特征提取模塊,被配置為獲取提示文本,從所述提示文本中提取出文本特征;
18、特征融合模塊,被配置為將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征;
19、輸出模塊,被配置為對(duì)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配,并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果。
20、根據(jù)本公開(kāi)的第四方面,提供了一種電子設(shè)備,包括:
21、至少一個(gè)處理器;以及
22、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
23、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行上述技術(shù)方案中任一項(xiàng)所述的方法。
24、根據(jù)本公開(kāi)的第五方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行上述技術(shù)方案中任一項(xiàng)所述的方法。
25、根據(jù)本公開(kāi)的第六方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述技術(shù)方案中任一項(xiàng)所述的方法。
26、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開(kāi)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開(kāi)的范圍。本公開(kāi)的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。
1.一種目標(biāo)檢測(cè)方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,對(duì)所述根據(jù)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配,并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果包括:
3.根據(jù)權(quán)利要求1所述的方法,其中,所述從所述待檢測(cè)圖像中獲取提示圖像包括:
4.根據(jù)權(quán)利要求1或3所述的方法,其中,所述從所述提示圖像中提取出第二圖像特征之后,還包括:
5.根據(jù)權(quán)利要求1所述的方法,其中,所述將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征包括:
6.根據(jù)權(quán)利要求1-5中任意一項(xiàng)所述的方法,其中,對(duì)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配,并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果包括:
7.一種目標(biāo)檢測(cè)模型,包括:
8.根據(jù)權(quán)利要求7所述的目標(biāo)檢測(cè)模型,其中,還包括:
9.根據(jù)權(quán)利要求7所述的目標(biāo)檢測(cè)模型,其中,還包括:
10.一種目標(biāo)檢測(cè)裝置,包括:
11.根據(jù)權(quán)利要求10所述的裝置,其中,所述輸出模塊包括:
12.根據(jù)權(quán)利要求10所述的裝置,其中,還包括:
13.根據(jù)權(quán)利要求10或12所述的裝置,其中,還包括:
14.根據(jù)權(quán)利要求10所述的裝置,其中,所述特征融合模塊將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征包括:
15.根據(jù)權(quán)利要求10-14中任意一項(xiàng)所述的裝置,其中,所述輸出模塊根據(jù)所述多模態(tài)特征和所述第一圖像特征輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果包括:
16.一種電子設(shè)備,包括:
17.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法。
18.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法。