本發(fā)明涉及機器學(xué)習(xí)和多模態(tài)大模型,具體涉及一種基于多模態(tài)大模型的圖像標注方法、裝置及相關(guān)設(shè)備。
背景技術(shù):
1、多模態(tài)大模型(multimodal?large?models)是指將文本、圖像、視頻、音頻等多模態(tài)信息聯(lián)合起來進行訓(xùn)練的模型,包括但不限于多模態(tài)大語言模型?!按笳Z言模型”是指大規(guī)模語言模型(large?language?model,llm),是一種參數(shù)規(guī)模較大的語言模型,旨在理解和生成人類語言,通過大量的文本數(shù)據(jù)進行訓(xùn)練,可執(zhí)行包括文本總結(jié)、翻譯、情感分析等在內(nèi)的廣泛任務(wù)。大語言模型技術(shù)突飛猛進,為經(jīng)濟社會發(fā)展帶來新機遇,如何實現(xiàn)大語言模型的落地應(yīng)用是亟待研究的問題。
2、在機器學(xué)習(xí)和多模態(tài)大模型技術(shù)領(lǐng)域,通過將圖像上目標對象所在區(qū)域進行標注,再將標注后的圖像進行模型訓(xùn)練。在相關(guān)技術(shù)中,主要通過在圖像上涂抹出目標對象的蒙版,或者使用多邊形框選出目標對象的位置,以對目標對象進行標注。
3、但在相關(guān)技術(shù)中,需要通過人員依次對每個圖像進行標注,在圖像較多的情況下,對圖像標注花費的時間較長,將導(dǎo)致模型訓(xùn)練的效率較低。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例提供一種基于多模態(tài)大模型的圖像標注方法、裝置及相關(guān)設(shè)備,以解決相關(guān)技術(shù)中存在圖像標注花費的時間較長,導(dǎo)致模型訓(xùn)練的效率較低的問題。
2、為解決上述問題,本發(fā)明是這樣實現(xiàn)的:
3、第一方面,本發(fā)明實施例提供一種基于多模態(tài)大模型的圖像標注方法,包括:
4、步驟s1、獲取初始圖像和目標對象的文本信息,所述目標對象為需要標注的第一類型的對象,所述文本信息用于描述所述目標對象;
5、步驟s2、將所述初始圖像和所述文本信息輸入至預(yù)設(shè)多模態(tài)大模型中進行預(yù)測,得到第一標注區(qū)域和第一置信度,所述第一標注區(qū)域為預(yù)測得到的存在所述目標對象的區(qū)域,所述第一置信度為所述第一標注區(qū)域的置信度;
6、步驟s3、生成第一標注圖像,所述第一標注圖像為基于所述第一標注區(qū)域?qū)λ龀跏紙D像進行標注得到的圖像;
7、步驟s4、在所述第一置信度大于第一設(shè)定置信度閾值的情況下,將所述第一標注圖像設(shè)為目標標注圖像。
8、第二方面,本發(fā)明實施例還提供一種基于多模態(tài)大模型的圖像標注裝置,包括:
9、第一獲取模塊,用于獲取初始圖像和目標對象的文本信息,所述目標對象為需要標注的第一類型的對象,所述文本信息用于描述所述目標對象;
10、第一預(yù)測模塊,用于將所述初始圖像和所述文本信息輸入至預(yù)設(shè)多模態(tài)大模型中進行預(yù)測,得到第一標注區(qū)域和第一置信度,所述第一標注區(qū)域為預(yù)測得到的存在所述目標對象的區(qū)域,所述第一置信度為所述第一標注區(qū)域的置信度;
11、第一生成模塊,用于生成第一標注圖像,所述第一標注圖像為基于所述第一標注區(qū)域?qū)λ龀跏紙D像進行標注得到的圖像;
12、第一設(shè)置模塊,用于在所述第一置信度大于第一設(shè)定置信度閾值的情況下,將所述第一標注圖像設(shè)為目標標注圖像。
13、第三方面,本發(fā)明實施例還提供一種電子設(shè)備,包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如上述第一方面所述的基于多模態(tài)大模型的圖像標注方法中的步驟。
14、第四方面,本發(fā)明實施例還提供一種可讀存儲介質(zhì),用于存儲程序,所述程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的基于多模態(tài)大模型的圖像標注方法中的步驟。
15、第五方面,本發(fā)明實施例還提供一種計算機程序產(chǎn)品,包括計算機指令,所述計算機指令被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的基于多模態(tài)大模型的圖像標注方法中的步驟。
16、在本申請實施例中,通過獲取初始圖像和目標對象的文本信息,目標對象為需要標注的第一類型的對象,文本信息用于描述目標對象;將初始圖像和文本信息輸入至預(yù)設(shè)多模態(tài)大模型中進行預(yù)測,得到第一標注區(qū)域和第一置信度,第一標注區(qū)域為預(yù)測得到的存在目標對象的區(qū)域,第一置信度為第一標注區(qū)域的置信度;生成第一標注圖像,第一標注圖像為基于第一標注區(qū)域?qū)Τ跏紙D像進行標注得到的圖像;在第一置信度大于第一設(shè)定置信度閾值的情況下,將第一標注圖像設(shè)為目標標注圖像,實現(xiàn)通過預(yù)設(shè)多模態(tài)大模型快速對初始圖像中的目標對象進行標注。這樣,通過預(yù)設(shè)多模態(tài)大模型對初始圖片進行標注,在對數(shù)量較多的初始圖片進行標注時耗時較少,從而提高模型訓(xùn)練的效率。
1.一種基于多模態(tài)大模型的圖像標注方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述修正信息包括目標坐標和標識信息,所述標識信息用于表征所述目標坐標是否在標注區(qū)域內(nèi);
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述修正信息包括標記圖層,所述標記圖層為對所述初始圖像進行標記的圖層;
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述修正信息包括幾何邊框;
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述修正信息包括類型標識,所述類型標識用于表征所述第一標注區(qū)域的對象為第二類型的對象,所述第一類型與第二類型為不同類型;
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)多模態(tài)大模型通過如下方式得到:
8.一種基于多模態(tài)大模型的圖像標注裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的基于多模態(tài)大模型的圖像標注方法中的步驟。
10.一種可讀存儲介質(zhì),用于存儲程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的基于多模態(tài)大模型的圖像標注方法中的步驟。