本發(fā)明涉及多模態(tài)大模型,尤其涉及一種基于圖文全局信息的圖文模型訓練方法及系統(tǒng)。
背景技術:
1、圖像和句子匹配是視覺和語言領域的基本任務之一。這種跨模態(tài)匹配任務的目標是準確測量圖像和句子之間的視覺語義相似性。盡管近年來取得了重大進展,但它仍然是一個具有挑戰(zhàn)性的問題,因為它需要理解語言語義、視覺內容以及跨模態(tài)關系和對齊。在深度學習成功的推動下,主流已經轉變?yōu)槟B(tài)特定的深度特征學習,例如,學習圖像的卷積神經網絡和句子的循環(huán)神經網絡。對于視覺文本內容理解,發(fā)展了許多成熟的深度主干模型,例如vgg、resnet、bert,這將各種任務的性能提高到了顯著水平?,F有大多數成功的圖文匹配模型,根據模態(tài)表示的粒度可以分為兩類:全局嵌入的方法和局部推理的方法。前者首先將整個圖像和句子嵌入到聯(lián)合嵌入空間中,然后計算視覺語義相似度。然而,僅使用全局對齊的方法始終表現出有限的性能,因為文本描述通常包含更多細粒度的圖像細節(jié),這很容易被全局對齊平滑,導致對細粒度的建模不夠。后一種方法首先提取局部特征片段(例如,視覺區(qū)域和詞語)的更加細粒度的表示,然后聚合局部相似性以推斷圖像文本對齊。大多數現有方法通過將共享語義表示為所有特征片段(圖像區(qū)域或文本單詞)的加權組合來實現這一目標,其中與共享語義相關的特征片段獲得更多關注,否則獲得更少關注。然而,盡管相關因素對共享語義的貢獻更大,但不相關因素或多或少會于擾共享語義,從而導致相關階段的語義錯位。
2、在現有技術中,圖片信息單獨編碼,缺乏圖像間的信息交互,導致編碼特征中的關鍵信息缺失,如圖像間的對比關系、圖像間的發(fā)展趨勢、視頻中不同幀的聯(lián)系;無法準確根據輸入的文本指令進行冗余信息過濾,導致因關注點偏移而無法正確回答問題,或無法實現準確合理的推理路徑。通過lora訓練技術,專門訓練針對圖像模態(tài)的額外參數,圖文模態(tài)依然存在壁壘,無法實現深入協(xié)同理解;當前模型的訓練高度依賴圖文對齊數據,需要在數據上花大量人力和時間。圖文大模型的訓練無法像語言模型一樣,利用海量已有數據,無需大量人工處理,即可進行模型訓練。如“下一個字預測”的語言模型訓練范式,可以無需人工標注直接進行訓練,而圖文模型需要依賴人工標注的“圖文對”訓練數據。
技術實現思路
1、本發(fā)明提供一種基于圖文全局信息的圖文模型訓練方法及系統(tǒng),用以解決現有圖文模態(tài)之間存在數據壁壘,難以深入協(xié)同理解處理的問題。
2、本發(fā)明提供一種基于圖文全局信息的圖文模型訓練方法,包括:
3、獲取原始的文本信息、多圖范式和圖像信息;
4、將所述圖像信息輸入至預設的圖文模型中的多圖范式編碼器生成多個圖像的關聯(lián)特征;
5、將所述多圖范式和圖像信息輸入至預設的圖文模型中的圖文語義轉換器獲取轉換后的圖像特征;
6、將所述文本信息、所述多個圖像的關聯(lián)特征和轉換后的圖像特征輸入至預設的圖文模型中的大語言模型,對所述大語言模型進行訓練,完成多圖與視頻圖文之間的關聯(lián)識別,得到訓練后的多模態(tài)圖文模型。
7、根據本發(fā)明提供的一種基于圖文全局信息的圖文模型訓練方法,所述將所述圖像信息輸入至預設的圖文模型中的多圖范式編碼器生成多個圖像的關聯(lián)特征,具體包括:
8、所述多圖范式編碼器捕獲圖片間的關聯(lián)、對比關系和遞進關系;
9、對所述多圖范式編碼器的參數進行初始化,通過多圖范式編碼器生成多個圖像的關聯(lián)特征。
10、根據本發(fā)明提供的一種基于圖文全局信息的圖文模型訓練方法,所述預設的圖文模型基于原始文本信息和圖像信息經過第一次前向傳播獲取圖文全局語義向量。
11、根據本發(fā)明提供的一種基于圖文全局信息的圖文模型訓練方法,所述經過第一次前向傳播獲取圖文全局語義向量之后,還包括:
12、基于所述圖文全局語義向量,所述圖文模型進行第二次前向傳播,對原始輸入的文本信息和圖像信息去除冗余信息。
13、根據本發(fā)明提供的一種基于圖文全局信息的圖文模型訓練方法,所述將所述文本信息、所述多個圖像的關聯(lián)特征和轉換后的圖像特征輸入至預設的圖文模型中的大語言模型,對所述大語言模型進行訓練,完成多圖與視頻圖文之間的關聯(lián)識別,得到訓練后的多模態(tài)圖文模型,具體包括:
14、基于輸入的文本信息、所述多個圖像的關聯(lián)特征和轉換后的圖像特征采用多種方式分別刪除不同模態(tài)的輸入數據;
15、基于刪除不同模態(tài)的輸入數據強制圖文模型從圖文全局語義向量和多個圖像的關聯(lián)特征中提取任務所需的關鍵信息。
16、根據本發(fā)明提供的一種基于圖文全局信息的圖文模型訓練方法,所述基于輸入的文本信息、所述多個圖像的關聯(lián)特征和轉換后的圖像特征采用多種方式分別刪除不同模態(tài)的輸入數據,具體包括:
17、設置刪除文本信息的訓練目標,強化圖文模型對文本指令的理解,使得圖文模型從圖文全局語義向量中挖掘文本指令信息,需要構造無文本指令的訓練數據;
18、設置刪除圖像信息的訓練目標,強化圖文模型對圖像信息的記憶,使得圖文模型從圖文全局語義向量和多個圖像的關聯(lián)特征中挖掘圖像指令信息,需要構造無圖像輸入的訓練數據;
19、設置刪除多圖關聯(lián)信息的訓練目標,強化圖文模型對多圖關聯(lián)特征的抽取能力,使得圖文模型從圖文全局語義向量中挖掘多圖關聯(lián)信息,無需生成額外數據。
20、本發(fā)明還提供一種基于圖文全局信息的圖文模型訓練系統(tǒng),所述系統(tǒng)包括:
21、數據獲取模塊,用于獲取原始的文本信息、多圖范式和圖像信息;
22、關聯(lián)特征生成模塊,用于將所述圖像信息輸入至預設的圖文模型中的多圖范式編碼器生成多個圖像的關聯(lián)特征;
23、特征轉換模塊,用于將所述多圖范式和圖像信息輸入至預設的圖文模型中的圖文語義轉換器獲取轉換后的圖像特征;
24、模型訓練模塊,用于將所述文本信息、所述多個圖像的關聯(lián)特征和轉換后的圖像特征輸入至預設的圖文模型中的大語言模型,對所述大語言模型進行訓練,完成多圖與視頻圖文之間的關聯(lián)識別,得到訓練后的多模態(tài)圖文模型。
25、本發(fā)明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現如上述任一種所述基于圖文全局信息的圖文模型訓練方法。
26、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現如上述任一種所述基于圖文全局信息的圖文模型訓練方法。
27、本發(fā)明還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現如上述任一種所述基于圖文全局信息的圖文模型訓練方法。
28、本發(fā)明提供的一種基于圖文全局信息的圖文模型訓練方法及系統(tǒng),通過基于圖文全局信息和圖像間特征范式學習的圖文模型結構,設計針對圖文全局信息和圖像間特征范式學習的訓練策略。該策略包含與圖像描述生成的目標不同的新型預訓練目標,以及任務微調訓練目標;通過自動化數據批量生成方法,收集已有的“圖文對”數據,包含“文本-圖像”?數據對和“視頻-圖像”數據對兩種形式?;谝延小皥D文對”數據,無需人工標注,自動生成大量圖文交錯形式數據,最終基于這些數據進行模型預訓練和任務微調,打破圖文模態(tài)之間存在數據壁壘,實現深入協(xié)同理解處理。