本技術涉及神經(jīng)網(wǎng)絡技術,特別涉及多模態(tài)大模型的訓練方法、存儲介質(zhì)和電子設備。
背景技術:
1、多模態(tài)大模型(lmm)的訓練需要使用到多模態(tài)的指令問答數(shù)據(jù),形式上為“圖像-指令-答案”的三元組。為了使多模態(tài)大模型能夠獲得通用能力,多模態(tài)訓練數(shù)據(jù)一般具有較大規(guī)模的數(shù)據(jù)量,需要滿足多樣性和高質(zhì)量兩個要求。
2、多模態(tài)訓練數(shù)據(jù)的來源包括:互聯(lián)網(wǎng)公開的多模態(tài)訓練數(shù)據(jù)集、合成或改造的單一模態(tài)訓練數(shù)據(jù)集、強能力lmm的生成數(shù)據(jù)、人工標定等,并以不同的數(shù)據(jù)集形式存在。雖然這些多模態(tài)訓練數(shù)據(jù)集來源多樣,但是如果不加篩選,直接混合這些數(shù)據(jù)集用于lmm的訓練,就會存在以下問題:1.?圖像多樣性差:因為不同的數(shù)據(jù)集會高頻使用某些特定場景的圖像,如日常畫面、特寫鏡頭;2.?指令多樣性差:不同的數(shù)據(jù)集存在指令的偏好,而這些數(shù)據(jù)集的數(shù)據(jù)量是存在差異的,直接混合數(shù)據(jù)集會導致大數(shù)據(jù)量的數(shù)據(jù)集出現(xiàn)的指令類型占據(jù)了總數(shù)據(jù)中更大的比例,導致多樣性的失衡。所以,對各種來源收集到的多模態(tài)數(shù)據(jù)集進行進一步的處理篩選非常有必要,對未經(jīng)過篩選的數(shù)據(jù)稱之為原始多模態(tài)訓練數(shù)據(jù),用來區(qū)別篩選后實際用于訓練的數(shù)據(jù)?,F(xiàn)有的對原始多模態(tài)訓練數(shù)據(jù)進行篩選的方式,將篩選得到的訓練數(shù)據(jù)用于lmm的訓練后發(fā)現(xiàn),會導致lmm的模型性能受到影響,使模型性能變差。
技術實現(xiàn)思路
1、本技術提供一種多模態(tài)大模型的訓練方法、裝置、存儲介質(zhì)和電子設備,能夠利用篩選后的訓練數(shù)據(jù)進行多模態(tài)大模型訓練,并有效保證多模態(tài)大模型的性能。
2、為實現(xiàn)上述目的,本技術采用如下技術方案:
3、一種多模態(tài)大模型的訓練方法,包括:
4、利用預先訓練的用于進行標簽標注的標簽專家多模態(tài)大模型lmm,對原始多模態(tài)訓練數(shù)據(jù)預測標簽;其中,所述標簽包括用于標記圖像類別的圖像標簽、用于標記指令類別的指令標簽和用于標記答案質(zhì)量的答案評級標簽;
5、基于答案評級標簽對所述原始多模態(tài)訓練數(shù)據(jù)進行過濾,得到過濾數(shù)據(jù)集;
6、基于過濾數(shù)據(jù)集中的所有數(shù)據(jù)樣本的圖像標簽和指令標簽,從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),使基于所有采樣數(shù)據(jù)的圖像標簽和指令標簽確定的標簽熵最大化;
7、將所述采樣數(shù)據(jù)作為訓練樣本進行多模態(tài)大模型的訓練。
8、較佳地,該方法進一步包括:預先基于通用lmm,利用基于所述原始多模態(tài)數(shù)據(jù)確定的圖像標簽種子訓練數(shù)據(jù)、指令標簽種子訓練數(shù)據(jù)和答案評級標簽種子訓練數(shù)據(jù),訓練生成所述標簽專家lmm;
9、其中,所述圖像標簽種子訓練數(shù)據(jù)包括從所述原始多模態(tài)訓練數(shù)據(jù)中選擇出的圖片、用于指示對所述圖片進行圖像標簽預測的指令和用于記錄圖像標簽的答案;
10、所述指令標簽種子訓練數(shù)據(jù)包括從原始多模態(tài)訓練數(shù)據(jù)中選擇出的指令、與選擇出的指令對應的圖片和用于記錄指令標簽的答案;
11、所述答案評級標簽種子訓練數(shù)據(jù)包括從所述原始多模態(tài)訓練數(shù)據(jù)中基于答案選擇出的數(shù)據(jù)樣本中的圖片、用于指示進行答案評級的指令,以及用于記錄標簽評級的答案,所述標簽評級為所述選擇出的數(shù)據(jù)樣本中的答案所屬的答案標簽對應的評級結果。
12、較佳地,所述標簽評級為所述選擇出的數(shù)據(jù)樣本中答案所屬的各個標簽的標簽分級,該方法進一步包括:基于所述各個標簽的標簽分級確定綜合標簽分級;或者,所述答案評級標簽包括基于所述選擇出的數(shù)據(jù)樣本中答案所屬的各個標簽的標簽分級確定的綜合標簽分級;
13、所述基于答案評級標簽對所述原始多模態(tài)數(shù)據(jù)進行過濾,包括:將所述綜合標簽分級不符合設定要求的數(shù)據(jù)樣本過濾掉。
14、較佳地,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
15、a、將所述過濾數(shù)據(jù)集作為當前過濾數(shù)據(jù)集,將當前采樣數(shù)據(jù)集設置為空集;
16、b、在當前過濾數(shù)據(jù)集中,對于每個當前數(shù)據(jù)樣本,將該當前數(shù)據(jù)樣本與當前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計算標簽熵作為所述當前數(shù)據(jù)樣本對應的熵;
17、c、確定各個數(shù)據(jù)樣本對應的熵的最大值,將所述熵的最大值對應的數(shù)據(jù)樣本加入當前采樣數(shù)據(jù)集,并從所述當前過濾數(shù)據(jù)集中刪除相應的當前數(shù)據(jù)樣本,返回步驟b直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
18、較佳地,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
19、a、將當前采樣數(shù)據(jù)集設置為空集;
20、b、從所述過濾數(shù)據(jù)集中未經(jīng)遍歷的數(shù)據(jù)樣本中選擇n個數(shù)據(jù)樣本作為當前過濾數(shù)據(jù)集;n為預設的小于過濾數(shù)據(jù)集中數(shù)據(jù)樣本總數(shù)、且大于1的正整數(shù);
21、c、在當前過濾數(shù)據(jù)集中,遍歷每個當前數(shù)據(jù)樣本,將該當前數(shù)據(jù)樣本與當前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計算標簽熵作為所述當前數(shù)據(jù)樣本對應的熵;確定當前過濾數(shù)據(jù)集中各個數(shù)據(jù)樣本對應的熵的最大值,若該最大值大于當前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計算的標簽熵,則將所述熵的最大值對應的當前數(shù)據(jù)樣本加入當前采樣數(shù)據(jù)集,返回步驟b直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求;否則,直接返回步驟b直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
22、較佳地,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
23、a、將當前采樣數(shù)據(jù)集設置為空集;
24、b、在所述過濾數(shù)據(jù)集中,依次選擇一個當前數(shù)據(jù)樣本,將該當前數(shù)據(jù)樣本與當前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計算標簽熵作為所述當前數(shù)據(jù)樣本對應的熵;若所述當前數(shù)據(jù)樣本對應的熵大于當前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計算的標簽熵,則將所述當前數(shù)據(jù)樣本加入當前采樣數(shù)據(jù)集,并處理下一個被選擇的數(shù)據(jù)樣本,直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求;若所述當前數(shù)據(jù)樣本對應的熵不大于當前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計算的標簽熵,則直接處理下一個被選擇的數(shù)據(jù)樣本,直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
25、較佳地,該方法進一步包括:利用訓練好的多模態(tài)模型,進一步訓練所述標簽專家lmm;和/或,
26、將所述標簽專家lmm對原始多模態(tài)數(shù)據(jù)中的數(shù)據(jù)樣本預測得到的標簽和相應的數(shù)據(jù)樣本作為訓練數(shù)據(jù),用于進一步訓練所述標簽專家lmm。
27、一種多模態(tài)模型的訓練裝置,該裝置包括:標簽預測單元、數(shù)據(jù)過濾單元、數(shù)據(jù)采樣單元和多模態(tài)模型訓練單元;
28、所述標簽預測單元,用于利用預先訓練的用于進行標簽標注的標簽專家多模態(tài)大模型lmm,對原始多模態(tài)數(shù)據(jù)中的每個數(shù)據(jù)樣本預測標簽;其中,所述標簽包括用于標記圖像類別的圖像標簽、用于標記指令類別的指令標簽和用于標記答案質(zhì)量的答案評級標簽;
29、所述數(shù)據(jù)過濾單元,用于基于答案評級標簽對所述原始多模態(tài)數(shù)據(jù)進行過濾,得到過濾數(shù)據(jù)集;
30、所述數(shù)據(jù)采樣單元,用于基于過濾數(shù)據(jù)集中的所有數(shù)據(jù)樣本的圖像標簽和指令標簽,從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),使基于所有采樣數(shù)據(jù)的圖像標簽和指令標簽確定的標簽熵最大化;
31、所述多模態(tài)模型訓練單元,用于將所述采樣數(shù)據(jù)作為訓練樣本進行多模態(tài)模型的訓練。
32、較佳地,該裝置進一步包括標簽專家訓練單元,用于預先基于通用lmm,利用基于所述原始多模態(tài)數(shù)據(jù)確定的圖像標簽種子訓練數(shù)據(jù)、指令標簽種子訓練數(shù)據(jù)和答案評級標簽種子訓練數(shù)據(jù),訓練生成所述標簽專家lmm;
33、其中,所述圖像標簽種子訓練數(shù)據(jù)包括從所述原始多模態(tài)數(shù)據(jù)中選擇出的圖片、用于指示對所述圖片進行圖像標簽預測的指令和用于記錄圖像標簽的答案;
34、所述指令標簽種子訓練數(shù)據(jù)包括從原始多模態(tài)數(shù)據(jù)中選擇出的指令、與選擇出的指令對應的圖片和用于記錄指令標簽的答案;
35、所述答案評級標簽種子訓練數(shù)據(jù)包括從所述原始多模態(tài)數(shù)據(jù)中基于答案選擇出的數(shù)據(jù)樣本中的圖片和指令,以及用于記錄標簽評級的答案,所述標簽評級為所述選擇出的數(shù)據(jù)樣本中的答案所屬的答案標簽對應的評級結果。
36、較佳地,所述標簽評級為所述選擇出的數(shù)據(jù)樣本中答案所屬的各個標簽的標簽分級,所述標簽專家訓練單元,進一步用于基于所述各個標簽的標簽分級確定綜合標簽分級;或者,所述答案評級標簽為基于所述選擇出的數(shù)據(jù)樣本中答案所屬的各個標簽的標簽分級確定的綜合標簽分級;
37、所述數(shù)據(jù)過濾單元,用于將所述綜合標簽分級不符合設定要求的數(shù)據(jù)樣本過濾掉。
38、較佳地,在所述數(shù)據(jù)采樣單元中,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
39、a、將所述過濾數(shù)據(jù)集作為當前過濾數(shù)據(jù)集,將當前采樣數(shù)據(jù)集設置為空集;
40、b、在當前過濾數(shù)據(jù)集中,對于每個當前數(shù)據(jù)樣本,將該當前數(shù)據(jù)樣本與當前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計算標簽熵作為所述當前數(shù)據(jù)樣本對應的熵;
41、c、確定各個數(shù)據(jù)樣本對應的熵的最大值,將所述熵的最大值對應的數(shù)據(jù)樣本加入當前采樣數(shù)據(jù)集,并從所述當前過濾數(shù)據(jù)集中刪除相應的當前數(shù)據(jù)樣本,返回步驟b直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
42、較佳地,在所述數(shù)據(jù)采樣單元中,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
43、a、將當前采樣數(shù)據(jù)集設置為空集;
44、b、從所述過濾數(shù)據(jù)集中未經(jīng)遍歷的數(shù)據(jù)樣本中選擇n個數(shù)據(jù)樣本作為當前過濾數(shù)據(jù)集;
45、c、在當前過濾數(shù)據(jù)集中,遍歷每個當前數(shù)據(jù)樣本,將該當前數(shù)據(jù)樣本與當前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計算標簽熵作為所述當前數(shù)據(jù)樣本對應的熵;確定當前過濾數(shù)據(jù)集中各個數(shù)據(jù)樣本對應的熵的最大值,若該最大值大于當前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計算的標簽熵,則將所述熵的最大值對應的當前數(shù)據(jù)樣本加入當前采樣數(shù)據(jù)集,返回步驟b直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求;否則,直接返回步驟b直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
46、較佳地,在所述數(shù)據(jù)采樣單元中,所述從所述過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),包括:
47、a、將當前采樣數(shù)據(jù)集設置為空集;
48、b、在所述過濾數(shù)據(jù)集中,依次選擇一個當前數(shù)據(jù)樣本,將該當前數(shù)據(jù)樣本與當前采樣數(shù)據(jù)集中的所有數(shù)據(jù)樣本聯(lián)合計算標簽熵作為所述當前數(shù)據(jù)樣本對應的熵;若所述當前數(shù)據(jù)樣本對應的熵大于當前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計算的標簽熵,則將所述當前數(shù)據(jù)樣本加入當前采樣數(shù)據(jù)集,并處理下一個被選擇的數(shù)據(jù)樣本,直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求;若所述當前數(shù)據(jù)樣本對應的熵不大于當前采樣數(shù)據(jù)集中所有數(shù)據(jù)樣本聯(lián)合計算的標簽熵,則直接處理下一個被選擇的數(shù)據(jù)樣本,直到當前采樣數(shù)據(jù)集中的樣本數(shù)滿足要求。
49、較佳地,所述標簽專家訓練單元,用于利用訓練好的多模態(tài)模型,進一步訓練所述標簽專家lmm;和/或,
50、所述標簽專家訓練單元,用于將所述標簽專家lmm對原始多模態(tài)數(shù)據(jù)中的數(shù)據(jù)樣本預測得到的標簽和相應的數(shù)據(jù)樣本作為訓練數(shù)據(jù),用于進一步訓練所述標簽專家lmm。
51、一種計算機可讀存儲介質(zhì),其上存儲有計算機指令,所述指令被處理器執(zhí)行時可實現(xiàn)上述任一項所述的多模態(tài)模型訓練方法。
52、一種電子設備,該電子設備至少包括計算機可讀存儲介質(zhì),還包括處理器;
53、所述處理器,用于從所述計算機可讀存儲介質(zhì)中讀取可執(zhí)行指令,并執(zhí)行所述指令以實現(xiàn)上述任一項所述的多模態(tài)模型訓練方法。
54、由上述技術方案可見,本技術中,首先利用預先訓練的用于進行標簽標注的標簽專家lmm,對原始多模態(tài)訓練數(shù)據(jù)中的每個數(shù)據(jù)樣本預測標簽,得到圖像標簽、指令標簽和答案評級標簽,從而為每個數(shù)據(jù)樣本增加三個新的維度的信息,分別用來表征數(shù)據(jù)樣本的圖像類別、指令類別和答案質(zhì)量;接下來,基于各數(shù)據(jù)樣本的答案評級標簽對原始多模態(tài)數(shù)據(jù)進行過濾,得到過濾數(shù)據(jù)集,這一處理中由于答案評級標簽能夠表征數(shù)據(jù)樣本的答案質(zhì)量,因此相應的過濾處理可以將原始多模態(tài)訓練數(shù)據(jù)中質(zhì)量不符合要求的數(shù)據(jù)樣本過濾掉,從而提高多模態(tài)模型的訓練數(shù)據(jù)的質(zhì)量,進而改善訓練得到的多模態(tài)模型的性能;接下來,基于過濾數(shù)據(jù)集中的所有數(shù)據(jù)樣本的圖像標簽和指令標簽,從過濾數(shù)據(jù)集中選擇數(shù)據(jù)樣本作為采樣數(shù)據(jù),數(shù)據(jù)選擇的原則是使基于所有采樣數(shù)據(jù)的圖像標簽和指令標簽確定的標簽熵最大化,由于圖像標簽和指令標簽分別表征數(shù)據(jù)樣本的圖像類別和指令類別,因此基于標簽熵最大化的原則可以實現(xiàn)采樣數(shù)據(jù)的多樣性;最后,利用采樣數(shù)據(jù)進行多模態(tài)大模型的訓練。由于一方面通過答案評級標簽過濾了低質(zhì)量訓練數(shù)據(jù),另一方面通過圖像標簽和指令標簽選擇更具多樣性的數(shù)據(jù)用于模型訓練,因此,用于進行多模態(tài)大模型訓練的數(shù)據(jù)能夠同時滿足多樣性和高質(zhì)量的要求,基于這樣的數(shù)據(jù)進行訓練能夠有效保證多模態(tài)大模型的性能。