目標(biāo)檢測(cè)方法、目標(biāo)檢測(cè)模型及目標(biāo)檢測(cè)裝置與流程

文檔序號(hào)：40271566發(fā)布日期：2024-12-11 13:05閱讀：9來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

目標(biāo)檢測(cè)方法、目標(biāo)檢測(cè)模型及目標(biāo)檢測(cè)裝置與流程

本公開(kāi)涉及計(jì)算機(jī)視覺(jué)，尤其涉及目標(biāo)檢測(cè)方法、目標(biāo)檢測(cè)模型及目標(biāo)檢測(cè)裝置。

背景技術(shù)：

1、現(xiàn)有技術(shù)中開(kāi)放詞表目標(biāo)檢測(cè)通常是采用純文本提示在目標(biāo)圖像中查詢潛在目標(biāo)，由于文字描述存在局限性，很難全面描述視覺(jué)細(xì)節(jié)，純文本查詢主要存在以下問(wèn)題：第一，文本的描述很難全面描述視覺(jué)細(xì)節(jié)，例如圖像中出現(xiàn)一些奇異的生物種類，就很難描述其為什么物種，并且為大量類別編寫(xiě)文本描述是一項(xiàng)繁瑣的工作；第二，類別歧義，同樣的文本可能會(huì)指代多種物體，有可能存在一詞多義的情形；第三，部分查詢目標(biāo)較難用一個(gè)短句或關(guān)鍵詞準(zhǔn)確描述，而使用較長(zhǎng)的查詢文本會(huì)增加預(yù)訓(xùn)練模型的理解難度。

技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)提供了一種目標(biāo)檢測(cè)方法、目標(biāo)檢測(cè)模型、目標(biāo)檢測(cè)裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。

2、根據(jù)本公開(kāi)的一方面，提供了一種目標(biāo)檢測(cè)方法，包括：

3、獲取待檢測(cè)圖像，從所述待檢測(cè)圖像中提取出第一圖像特征；

4、從所述待檢測(cè)圖像中獲取提示圖像，并從所述提示圖像中提取出第二圖像特征；

5、獲取提示文本，從所述提示文本中提取出文本特征；

6、將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征；

7、對(duì)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配，并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果。

8、根據(jù)本公開(kāi)的另一方面，提供了一種目標(biāo)檢測(cè)模型，包括：

9、第一圖像特征提取模型，被配置為獲取待檢測(cè)圖像，從所述待檢測(cè)圖像中提取出第一圖像特征；

10、第二圖像特征提取模型，被配置為從提示圖像中提取出第二圖像特征；其中，所述提示圖像是從所述待檢測(cè)圖像中獲取的；

11、文本特征提取模型，被配置為獲取提示文本，從所述提示文本中提取出文本特征；

12、線性層，被配置為將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征；

13、輸出層，被配置為對(duì)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配，并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果。

14、根據(jù)本公開(kāi)的第三方面，提供了一種目標(biāo)檢測(cè)裝置，包括：

15、第一圖像特征提取模塊，被配置為獲取待檢測(cè)圖像，從所述待檢測(cè)圖像中提取出第一圖像特征；

16、第二圖像特征提取模塊，被配置為從所述待檢測(cè)圖像中獲取提示圖像，并從所述提示圖像中提取出第二圖像特征；

17、文本特征提取模塊，被配置為獲取提示文本，從所述提示文本中提取出文本特征；

18、特征融合模塊，被配置為將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征；

19、輸出模塊，被配置為對(duì)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配，并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果。

20、根據(jù)本公開(kāi)的第四方面，提供了一種電子設(shè)備，包括：

21、至少一個(gè)處理器；以及

22、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，

23、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠執(zhí)行上述技術(shù)方案中任一項(xiàng)所述的方法。

24、根據(jù)本公開(kāi)的第五方面，提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行上述技術(shù)方案中任一項(xiàng)所述的方法。

25、根據(jù)本公開(kāi)的第六方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述技術(shù)方案中任一項(xiàng)所述的方法。

26、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開(kāi)的實(shí)施例的關(guān)鍵或重要特征，也不用于限制本公開(kāi)的范圍。本公開(kāi)的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。

技術(shù)特征：

1.一種目標(biāo)檢測(cè)方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，對(duì)所述根據(jù)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配，并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果包括：

3.根據(jù)權(quán)利要求1所述的方法，其中，所述從所述待檢測(cè)圖像中獲取提示圖像包括：

4.根據(jù)權(quán)利要求1或3所述的方法，其中，所述從所述提示圖像中提取出第二圖像特征之后，還包括：

5.根據(jù)權(quán)利要求1所述的方法，其中，所述將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征包括：

6.根據(jù)權(quán)利要求1-5中任意一項(xiàng)所述的方法，其中，對(duì)所述多模態(tài)特征和所述第一圖像特征進(jìn)行相似度匹配，并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果包括：

7.一種目標(biāo)檢測(cè)模型，包括：

8.根據(jù)權(quán)利要求7所述的目標(biāo)檢測(cè)模型，其中，還包括：

9.根據(jù)權(quán)利要求7所述的目標(biāo)檢測(cè)模型，其中，還包括：

10.一種目標(biāo)檢測(cè)裝置，包括：

11.根據(jù)權(quán)利要求10所述的裝置，其中，所述輸出模塊包括：

12.根據(jù)權(quán)利要求10所述的裝置，其中，還包括：

13.根據(jù)權(quán)利要求10或12所述的裝置，其中，還包括：

14.根據(jù)權(quán)利要求10所述的裝置，其中，所述特征融合模塊將所述文本特征與所述第二圖像特征融合得到多模態(tài)特征包括：

15.根據(jù)權(quán)利要求10-14中任意一項(xiàng)所述的裝置，其中，所述輸出模塊根據(jù)所述多模態(tài)特征和所述第一圖像特征輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果包括：

16.一種電子設(shè)備，包括：

17.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法。

18.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本公開(kāi)涉及計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域，尤其涉及目標(biāo)檢測(cè)方法、目標(biāo)檢測(cè)模型及目標(biāo)檢測(cè)裝置。具體實(shí)現(xiàn)方案為：從待檢測(cè)圖像中提取出第一圖像特征；從待檢測(cè)圖像中獲取提示圖像，并從提示圖像中提取出第二圖像特征；獲取提示文本，從提示文本中提取出文本特征；將文本特征與第二圖像特征融合得到多模態(tài)特征；對(duì)多模態(tài)特征和第一圖像特征進(jìn)行相似度匹配，并根據(jù)相似度匹配結(jié)果輸出對(duì)應(yīng)的目標(biāo)檢測(cè)結(jié)果。本公開(kāi)在純文本提示的基礎(chǔ)上增加了視覺(jué)提示，通過(guò)這種多模態(tài)查詢方式解決了僅使用純文本提示的局限性。并且本公開(kāi)中的第二圖像特征是從待檢測(cè)圖像摳出的更具有代表性的圖像區(qū)域，可以有針對(duì)地挖掘目標(biāo)對(duì)象的視覺(jué)信息，進(jìn)一步地提示查詢精度。

技術(shù)研發(fā)人員：戴永興,王文靜,時(shí)一峰
受保護(hù)的技術(shù)使用者：北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：戴永興,王文靜,時(shí)一峰
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

上一篇：一種噴膠機(jī)用測(cè)距結(jié)構(gòu)的制作方法
上一篇：一種新型聚酯胎基布的涂膠防護(hù)裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

目標(biāo)檢測(cè)方法、目標(biāo)檢測(cè)模型及目標(biāo)檢測(cè)裝置與流程

目標(biāo)檢測(cè)方法、目標(biāo)檢測(cè)模型及目標(biāo)檢測(cè)裝置與流程