基于多模態(tài)大模型的圖像標注方法、裝置及相關(guān)設(shè)備與流程

文檔序號：40076284發(fā)布日期：2024-11-27 11:17閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于多模態(tài)大模型的圖像標注方法、裝置及相關(guān)設(shè)備與流程

本發(fā)明涉及機器學(xué)習(xí)和多模態(tài)大模型，具體涉及一種基于多模態(tài)大模型的圖像標注方法、裝置及相關(guān)設(shè)備。

背景技術(shù)：

1、多模態(tài)大模型(multimodal?large?models)是指將文本、圖像、視頻、音頻等多模態(tài)信息聯(lián)合起來進行訓(xùn)練的模型，包括但不限于多模態(tài)大語言模型?！按笳Z言模型”是指大規(guī)模語言模型(large?language?model，llm)，是一種參數(shù)規(guī)模較大的語言模型，旨在理解和生成人類語言，通過大量的文本數(shù)據(jù)進行訓(xùn)練，可執(zhí)行包括文本總結(jié)、翻譯、情感分析等在內(nèi)的廣泛任務(wù)。大語言模型技術(shù)突飛猛進，為經(jīng)濟社會發(fā)展帶來新機遇，如何實現(xiàn)大語言模型的落地應(yīng)用是亟待研究的問題。

2、在機器學(xué)習(xí)和多模態(tài)大模型技術(shù)領(lǐng)域，通過將圖像上目標對象所在區(qū)域進行標注，再將標注后的圖像進行模型訓(xùn)練。在相關(guān)技術(shù)中，主要通過在圖像上涂抹出目標對象的蒙版，或者使用多邊形框選出目標對象的位置，以對目標對象進行標注。

3、但在相關(guān)技術(shù)中，需要通過人員依次對每個圖像進行標注，在圖像較多的情況下，對圖像標注花費的時間較長，將導(dǎo)致模型訓(xùn)練的效率較低。

技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供一種基于多模態(tài)大模型的圖像標注方法、裝置及相關(guān)設(shè)備，以解決相關(guān)技術(shù)中存在圖像標注花費的時間較長，導(dǎo)致模型訓(xùn)練的效率較低的問題。

2、為解決上述問題，本發(fā)明是這樣實現(xiàn)的：

3、第一方面，本發(fā)明實施例提供一種基于多模態(tài)大模型的圖像標注方法，包括：

4、步驟s1、獲取初始圖像和目標對象的文本信息，所述目標對象為需要標注的第一類型的對象，所述文本信息用于描述所述目標對象；

5、步驟s2、將所述初始圖像和所述文本信息輸入至預(yù)設(shè)多模態(tài)大模型中進行預(yù)測，得到第一標注區(qū)域和第一置信度，所述第一標注區(qū)域為預(yù)測得到的存在所述目標對象的區(qū)域，所述第一置信度為所述第一標注區(qū)域的置信度；

6、步驟s3、生成第一標注圖像，所述第一標注圖像為基于所述第一標注區(qū)域?qū)λ龀跏紙D像進行標注得到的圖像；

7、步驟s4、在所述第一置信度大于第一設(shè)定置信度閾值的情況下，將所述第一標注圖像設(shè)為目標標注圖像。

8、第二方面，本發(fā)明實施例還提供一種基于多模態(tài)大模型的圖像標注裝置，包括：

9、第一獲取模塊，用于獲取初始圖像和目標對象的文本信息，所述目標對象為需要標注的第一類型的對象，所述文本信息用于描述所述目標對象；

10、第一預(yù)測模塊，用于將所述初始圖像和所述文本信息輸入至預(yù)設(shè)多模態(tài)大模型中進行預(yù)測，得到第一標注區(qū)域和第一置信度，所述第一標注區(qū)域為預(yù)測得到的存在所述目標對象的區(qū)域，所述第一置信度為所述第一標注區(qū)域的置信度；

11、第一生成模塊，用于生成第一標注圖像，所述第一標注圖像為基于所述第一標注區(qū)域?qū)λ龀跏紙D像進行標注得到的圖像；

12、第一設(shè)置模塊，用于在所述第一置信度大于第一設(shè)定置信度閾值的情況下，將所述第一標注圖像設(shè)為目標標注圖像。

13、第三方面，本發(fā)明實施例還提供一種電子設(shè)備，包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如上述第一方面所述的基于多模態(tài)大模型的圖像標注方法中的步驟。

14、第四方面，本發(fā)明實施例還提供一種可讀存儲介質(zhì)，用于存儲程序，所述程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的基于多模態(tài)大模型的圖像標注方法中的步驟。

15、第五方面，本發(fā)明實施例還提供一種計算機程序產(chǎn)品，包括計算機指令，所述計算機指令被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的基于多模態(tài)大模型的圖像標注方法中的步驟。

16、在本申請實施例中，通過獲取初始圖像和目標對象的文本信息，目標對象為需要標注的第一類型的對象，文本信息用于描述目標對象；將初始圖像和文本信息輸入至預(yù)設(shè)多模態(tài)大模型中進行預(yù)測，得到第一標注區(qū)域和第一置信度，第一標注區(qū)域為預(yù)測得到的存在目標對象的區(qū)域，第一置信度為第一標注區(qū)域的置信度；生成第一標注圖像，第一標注圖像為基于第一標注區(qū)域?qū)Τ跏紙D像進行標注得到的圖像；在第一置信度大于第一設(shè)定置信度閾值的情況下，將第一標注圖像設(shè)為目標標注圖像，實現(xiàn)通過預(yù)設(shè)多模態(tài)大模型快速對初始圖像中的目標對象進行標注。這樣，通過預(yù)設(shè)多模態(tài)大模型對初始圖片進行標注，在對數(shù)量較多的初始圖片進行標注時耗時較少，從而提高模型訓(xùn)練的效率。

技術(shù)特征：

1.一種基于多模態(tài)大模型的圖像標注方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述修正信息包括目標坐標和標識信息，所述標識信息用于表征所述目標坐標是否在標注區(qū)域內(nèi)；

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述修正信息包括標記圖層，所述標記圖層為對所述初始圖像進行標記的圖層；

5.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述修正信息包括幾何邊框；

6.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述修正信息包括類型標識，所述類型標識用于表征所述第一標注區(qū)域的對象為第二類型的對象，所述第一類型與第二類型為不同類型；

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述預(yù)設(shè)多模態(tài)大模型通過如下方式得到：

8.一種基于多模態(tài)大模型的圖像標注裝置，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的基于多模態(tài)大模型的圖像標注方法中的步驟。

10.一種可讀存儲介質(zhì)，用于存儲程序，其特征在于，所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的基于多模態(tài)大模型的圖像標注方法中的步驟。

技術(shù)總結(jié)
本發(fā)明提供一種基于多模態(tài)大模型的圖像標注方法、裝置及相關(guān)設(shè)備，涉及機器學(xué)習(xí)和多模態(tài)大模型技術(shù)領(lǐng)域，該方法包括：步驟S1、獲取初始圖像和目標對象的文本信息，目標對象為需要標注的第一類型的對象，文本信息用于描述目標對象；步驟S2、將初始圖像和文本信息輸入至預(yù)設(shè)多模態(tài)大模型中進行預(yù)測，得到第一標注區(qū)域和第一置信度，第一標注區(qū)域為預(yù)測得到的存在目標對象的區(qū)域，第一置信度為第一標注區(qū)域的置信度；步驟S3、生成第一標注圖像，第一標注圖像為基于第一標注區(qū)域?qū)Τ跏紙D像進行標注得到的圖像；步驟S4、在第一置信度大于第一設(shè)定置信度閾值的情況下，將第一標注圖像設(shè)為目標標注圖像。本發(fā)明能減少圖像標注時間，提升模型的訓(xùn)練效率。

技術(shù)研發(fā)人員：張凱,路明奎,王清臣
受保護的技術(shù)使用者：北京九章云極科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/11/26

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張凱,路明奎,王清臣
技術(shù)所有人：北京九章云極科技有限公司
我是此專利的發(fā)明人

上一篇：一種烤煙施肥裝置的制作方法
上一篇：一種刀具壽命檢測設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于多模態(tài)大模型的圖像標注方法、裝置及相關(guān)設(shè)備與流程

基于多模態(tài)大模型的圖像標注方法、裝置及相關(guān)設(shè)備與流程