本發(fā)明涉及計(jì)算機(jī),特別是涉及一種多模態(tài)數(shù)據(jù)融合控制方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,以及多模態(tài)數(shù)據(jù)在現(xiàn)實(shí)世界中的廣泛存在,構(gòu)建能夠有效理解和生成跨模態(tài)信息的智能系統(tǒng),成為了自然語(yǔ)言處理和人工智能領(lǐng)域的一個(gè)重要課題。近年來,大型語(yǔ)言模型(large?language?model,llm)以其強(qiáng)大的語(yǔ)言理解和生成能力,為實(shí)現(xiàn)這一目標(biāo)提供了新的思路和方法。
2、然而,現(xiàn)有的多模態(tài)llm雖然在跨模態(tài)理解和生成任務(wù)上展現(xiàn)出了良好的性能,但仍存在一些局限和不足:通常大多采用淺層的特征級(jí)融合或簡(jiǎn)單的注意力交互,難以充分挖掘不同模態(tài)信息在深層語(yǔ)義上的關(guān)聯(lián)和互補(bǔ)性,這導(dǎo)致模型無(wú)法形成全面、準(zhǔn)確的多模態(tài)語(yǔ)義理解,在處理復(fù)雜場(chǎng)景時(shí)表現(xiàn)欠佳;大多數(shù)多模態(tài)llm采用固定的特征融合方式,這使得模型難以適應(yīng)不同場(chǎng)景下對(duì)多模態(tài)信息的動(dòng)態(tài)需求,影響了其泛化和遷移能力;模型主要通過隱式的特征交互來學(xué)習(xí)不同模態(tài)信息的對(duì)齊,導(dǎo)致會(huì)產(chǎn)生與輸入信息不相關(guān)、甚至相矛盾的輸出,影響了結(jié)果的可靠性和可用性等。多模態(tài)llm存在的上述局限和不足會(huì)導(dǎo)致在處理更加復(fù)雜和開放的多模態(tài)場(chǎng)景時(shí),生成內(nèi)容效果不佳,造成硬件處理效率不高。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種多模態(tài)數(shù)據(jù)融合控制方法、裝置、設(shè)備及介質(zhì),可以形成富有層次性和語(yǔ)義交互性的多模態(tài)表示,實(shí)現(xiàn)靈活、動(dòng)態(tài)的跨模態(tài)信息交互,顯著提升模型在跨模態(tài)理解和生成任務(wù)中的性能表現(xiàn),提高硬件處理效率。
2、為了解決上述技術(shù)問題,本發(fā)明提供一種多模態(tài)數(shù)據(jù)融合控制方法,所述方法包括:
3、將至少兩種模態(tài)數(shù)據(jù)輸入至預(yù)訓(xùn)練語(yǔ)言模型的輸入層中,對(duì)至少兩種模態(tài)數(shù)據(jù)分別進(jìn)行特征提取和嵌入映射,得到初始的不同模態(tài)嵌入表示;
4、在embedding層使用跨模態(tài)注意力對(duì)初始的不同模態(tài)嵌入表示進(jìn)行交互融合,得到跨模態(tài)融合特征,在transformer編碼器的每一層中使用跨模態(tài)注意力對(duì)所述跨模態(tài)融合特征進(jìn)行融合,得到多層次跨模態(tài)融合特征;
5、根據(jù)所述多層次跨模態(tài)融合特征和當(dāng)前解碼隱藏狀態(tài),動(dòng)態(tài)預(yù)測(cè)不同模態(tài)在當(dāng)前時(shí)間步的重要性權(quán)重,并利用所述重要性權(quán)重結(jié)合所述多層次跨模態(tài)融合特征,得到自適應(yīng)多模態(tài)融合特征;
6、通過最小化不同模態(tài)特征之間的對(duì)比損失以及所述自適應(yīng)多模態(tài)融合特征與各模態(tài)特征之間的對(duì)比損失,學(xué)習(xí)跨模態(tài)的語(yǔ)義對(duì)齊,并實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性,過濾掉不相關(guān)或不一致的生成結(jié)果;
7、采用多任務(wù)聯(lián)合訓(xùn)練策略將多個(gè)任務(wù)的相應(yīng)損失函數(shù)進(jìn)行加權(quán)求和,形成統(tǒng)一的訓(xùn)練目標(biāo),利用所述訓(xùn)練目標(biāo)對(duì)所述預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行訓(xùn)練;
8、將至少兩種待處理模態(tài)數(shù)據(jù)輸入至訓(xùn)練好的所述預(yù)訓(xùn)練語(yǔ)言模型,解碼生成與其中一種待處理模態(tài)數(shù)據(jù)語(yǔ)義一致的目標(biāo)模態(tài)數(shù)據(jù)。
9、第一方面,在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中,當(dāng)至少兩種模態(tài)數(shù)據(jù)包含文本和圖像時(shí),對(duì)至少兩種模態(tài)數(shù)據(jù)分別進(jìn)行特征提取和嵌入映射,得到初始的不同模態(tài)嵌入表示,包括:
10、使用詞嵌入矩陣將輸入的文本映射為實(shí)值向量表示:
11、;
12、其中,表示輸入的文本序列,為序列長(zhǎng)度,為文本特征的維度;
13、使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取輸入的圖像的高層語(yǔ)義特征,并通過線性變換層將所述高層語(yǔ)義特征映射到與文本特征相同的維度,得到圖像特征表示:
14、;
15、其中,表示輸入的圖像,為圖像特征的數(shù)量,為線性變換矩陣。
16、另一方面,在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中,在embedding層使用跨模態(tài)注意力對(duì)初始的不同模態(tài)嵌入表示進(jìn)行交互融合,得到跨模態(tài)融合特征,包括:
17、使用文本特征作為查詢,圖像特征作為鍵值,計(jì)算文本特征和圖像特征之間的注意力權(quán)重:
18、;
19、;
20、其中,為表示文本特征對(duì)圖像特征的關(guān)注程度,分別為查詢、鍵、值的線性變換矩陣,表示圖像特征的第行,為縮放因子,表示文本特征和圖像特征之間的注意力權(quán)重;
21、將注意力權(quán)重與原始的文本嵌入相加,并通過layernorm和殘差連接,得到融合后的多模態(tài)嵌入表示作為跨模態(tài)融合特征。
22、另一方面,在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中,在transformer編碼器的每一層中使用跨模態(tài)注意力對(duì)所述跨模態(tài)融合特征進(jìn)行融合,得到多層次跨模態(tài)融合特征,包括:
23、在transformer編碼器的每一層中,通過自注意力機(jī)制對(duì)文本特征進(jìn)行語(yǔ)義編碼:
24、;
25、;
26、;
27、其中,、、分別表示自注意力機(jī)制中的查詢、鍵和值的矩陣;
28、引入跨模態(tài)注意力子層,用于將圖像特征動(dòng)態(tài)地融入到文本特征中;以作為查詢,圖像特征作為鍵值,計(jì)算和圖像特征之間的注意力權(quán)重:
29、;
30、;
31、其中,為表示對(duì)圖像特征的關(guān)注程度,,,分別為查詢、鍵、值的線性變換矩陣,表示和圖像特征之間的注意力權(quán)重;
32、將跨模態(tài)注意力輸出與文本特征相加,并經(jīng)過layernorm和前饋神經(jīng)網(wǎng)絡(luò),得到當(dāng)前層的多模態(tài)融合特征:
33、;
34、;
35、其中,表示當(dāng)前層的多模態(tài)融合特征;
36、在transformer解碼器的每一層中,通過掩碼自注意力對(duì)已生成的文本序列進(jìn)行特征提??;
37、使用編碼-解碼注意力機(jī)制,將編碼器輸出的多模態(tài)特征融入到解碼器的隱藏狀態(tài)中;
38、將融合后的特征輸入到線性層和softmax層中,得到當(dāng)前位置的詞匯分布,并采樣生成下一個(gè)目標(biāo)詞。
39、另一方面,在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中,根據(jù)所述多層次跨模態(tài)融合特征和當(dāng)前解碼隱藏狀態(tài),動(dòng)態(tài)預(yù)測(cè)不同模態(tài)在當(dāng)前時(shí)間步的重要性權(quán)重,并利用所述重要性權(quán)重結(jié)合所述多層次跨模態(tài)融合特征,得到自適應(yīng)多模態(tài)融合特征,包括:
40、給定一個(gè)多模態(tài)輸入序列,并使用一個(gè)多層感知機(jī)對(duì)每個(gè)時(shí)間步的輸入進(jìn)行編碼,得到其隱藏表示;
41、使用一個(gè)注意力機(jī)制來聚合整個(gè)序列的隱藏表示,形成一個(gè)全局的上下文向量;
42、將上下文向量輸入到另一個(gè)多層感知機(jī),預(yù)測(cè)不同模態(tài)在當(dāng)前上下文下的重要性權(quán)重;
43、將每個(gè)時(shí)間步的輸入分解為不同模態(tài)的特征表示,并使用所述重要性權(quán)重對(duì)不同模態(tài)的特征表示進(jìn)行加權(quán)融合;
44、將融合后的表示輸入至transformer編碼器中,與多層次跨模態(tài)交互過程相結(jié)合,得到自適應(yīng)多模態(tài)融合特征。
45、另一方面,在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中,通過最小化不同模態(tài)特征之間的對(duì)比損失,包括:
46、在訓(xùn)練階段,假設(shè)有一個(gè)由圖文對(duì)組成的訓(xùn)練集,其中表示第個(gè)樣本的圖像,表示相應(yīng)的文本描述;目標(biāo)是學(xué)習(xí)一個(gè)跨模態(tài)匹配模型,使得匹配的圖文對(duì)之間的相似度高于不匹配的圖文對(duì);
47、構(gòu)建正負(fù)樣本對(duì)進(jìn)行訓(xùn)練,對(duì)于每個(gè)正樣本對(duì),從訓(xùn)練集中隨機(jī)選擇個(gè)負(fù)樣本,使得;
48、最小化對(duì)比損失函數(shù);所述對(duì)比損失函數(shù)為:
49、;
50、其中,表示第i個(gè)樣本的圖像特征向量和文本特征向量,表示匹配的圖文對(duì)之間的相似度函數(shù),表示不匹配的圖文對(duì)之間的相似度函數(shù),為溫度超參數(shù),用于控制softmax分布的平滑程度。
51、另一方面,在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中,實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性,包括:
52、當(dāng)生成內(nèi)容為文本時(shí),對(duì)于給定的圖像和生成的文本,使用跨模態(tài)匹配模型計(jì)算給定的圖像和生成的文本之間的相似度得分;
53、將所述相似度得分與預(yù)設(shè)閾值進(jìn)行比較,以判斷生成內(nèi)容是否與圖像語(yǔ)義一致。
54、為了解決上述技術(shù)問題,本發(fā)明還提供一種多模態(tài)數(shù)據(jù)融合控制裝置,所述裝置包括:
55、多模態(tài)輸入編碼模塊,用于將至少兩種模態(tài)數(shù)據(jù)輸入至預(yù)訓(xùn)練語(yǔ)言模型的輸入層中,對(duì)至少兩種模態(tài)數(shù)據(jù)分別進(jìn)行特征提取和嵌入映射,得到初始的不同模態(tài)嵌入表示;
56、多層次跨模態(tài)交互模塊,用于在embedding層使用跨模態(tài)注意力對(duì)初始的不同模態(tài)嵌入表示進(jìn)行交互融合,得到跨模態(tài)融合特征,在transformer編碼器的每一層中使用跨模態(tài)注意力對(duì)所述跨模態(tài)融合特征進(jìn)行融合,得到多層次跨模態(tài)融合特征;
57、動(dòng)態(tài)模態(tài)重要性調(diào)控模塊,用于根據(jù)所述多層次跨模態(tài)融合特征和當(dāng)前解碼隱藏狀態(tài),動(dòng)態(tài)預(yù)測(cè)不同模態(tài)在當(dāng)前時(shí)間步的重要性權(quán)重,并利用所述重要性權(quán)重結(jié)合所述多層次跨模態(tài)融合特征,得到自適應(yīng)多模態(tài)融合特征;
58、跨模態(tài)一致性約束模塊,用于通過最小化不同模態(tài)特征之間的對(duì)比損失以及所述自適應(yīng)多模態(tài)融合特征與各模態(tài)特征之間的對(duì)比損失,學(xué)習(xí)跨模態(tài)的語(yǔ)義對(duì)齊,并實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性,過濾掉不相關(guān)或不一致的生成結(jié)果;
59、多任務(wù)聯(lián)合訓(xùn)練模塊,用于采用多任務(wù)聯(lián)合訓(xùn)練策略將多個(gè)任務(wù)的相應(yīng)損失函數(shù)進(jìn)行加權(quán)求和,形成統(tǒng)一的訓(xùn)練目標(biāo),利用所述訓(xùn)練目標(biāo)對(duì)所述預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行訓(xùn)練;
60、跨模態(tài)推理生成模塊,用于將至少兩種待處理模態(tài)數(shù)據(jù)輸入至訓(xùn)練好的所述預(yù)訓(xùn)練語(yǔ)言模型,解碼生成與其中一種待處理模態(tài)數(shù)據(jù)語(yǔ)義一致的目標(biāo)模態(tài)數(shù)據(jù)。
61、為了解決上述技術(shù)問題,本發(fā)明還提供一種多模態(tài)數(shù)據(jù)融合控制設(shè)備,所述設(shè)備包括:
62、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;
63、處理器,用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的多模態(tài)數(shù)據(jù)融合控制方法的步驟。
64、為了解決上述技術(shù)問題,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的多模態(tài)數(shù)據(jù)融合控制方法的步驟。
65、從上述技術(shù)方案可以看出,本發(fā)明所提供的一種多模態(tài)數(shù)據(jù)融合控制方法,該方法包括:將至少兩種模態(tài)數(shù)據(jù)輸入至預(yù)訓(xùn)練語(yǔ)言模型的輸入層中,對(duì)至少兩種模態(tài)數(shù)據(jù)分別進(jìn)行特征提取和嵌入映射,得到初始的不同模態(tài)嵌入表示;在embedding層使用跨模態(tài)注意力對(duì)初始的不同模態(tài)嵌入表示進(jìn)行交互融合,得到跨模態(tài)融合特征,在transformer編碼器的每一層中使用跨模態(tài)注意力對(duì)跨模態(tài)融合特征進(jìn)行融合,得到多層次跨模態(tài)融合特征;根據(jù)多層次跨模態(tài)融合特征和當(dāng)前解碼隱藏狀態(tài),動(dòng)態(tài)預(yù)測(cè)不同模態(tài)在當(dāng)前時(shí)間步的重要性權(quán)重,并利用重要性權(quán)重結(jié)合多層次跨模態(tài)融合特征,得到自適應(yīng)多模態(tài)融合特征;通過最小化不同模態(tài)特征之間的對(duì)比損失以及自適應(yīng)多模態(tài)融合特征與各模態(tài)特征之間的對(duì)比損失,學(xué)習(xí)跨模態(tài)的語(yǔ)義對(duì)齊,并實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性,過濾掉不相關(guān)或不一致的生成結(jié)果;采用多任務(wù)聯(lián)合訓(xùn)練策略將多個(gè)任務(wù)的相應(yīng)損失函數(shù)進(jìn)行加權(quán)求和,形成統(tǒng)一的訓(xùn)練目標(biāo),利用訓(xùn)練目標(biāo)對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行訓(xùn)練;將至少兩種待處理模態(tài)數(shù)據(jù)輸入至訓(xùn)練好的預(yù)訓(xùn)練語(yǔ)言模型,解碼生成與其中一種待處理模態(tài)數(shù)據(jù)語(yǔ)義一致的目標(biāo)模態(tài)數(shù)據(jù)。
66、本發(fā)明的有益效果在于,本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法,通過在預(yù)訓(xùn)練語(yǔ)言模型的embedding層和transformer編碼器層引入跨模態(tài)注意力,實(shí)現(xiàn)模態(tài)間信息在不同語(yǔ)義層次上的充分融合,形成富有層次性和語(yǔ)義交互性的多模態(tài)表示,從而顯著提升模型的多模態(tài)理解能力;并且讓模型能夠自適應(yīng)地調(diào)節(jié)不同模態(tài)信息在多模態(tài)融合過程中的重要性權(quán)重,實(shí)現(xiàn)靈活、動(dòng)態(tài)的跨模態(tài)信息交互,提高模型在不同場(chǎng)景下的適應(yīng)能力和泛化能力;另外可以顯式地轉(zhuǎn)化生成內(nèi)容與源輸入在語(yǔ)義層面的一致性,并實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性,提高模型輸出內(nèi)容的準(zhǔn)確性、相關(guān)性和可靠性,且讓模型的決策過程更加透明和可理解,為其在實(shí)際場(chǎng)景中的應(yīng)用奠定基礎(chǔ)。這樣通過多層次跨模態(tài)交互機(jī)制、動(dòng)態(tài)模態(tài)重要性調(diào)控機(jī)制和跨模態(tài)一致性約束機(jī)制,不僅顯著提升預(yù)訓(xùn)練語(yǔ)言模型在跨模態(tài)理解和生成任務(wù)中的性能表現(xiàn),擴(kuò)大其應(yīng)用范圍和領(lǐng)域,提高硬件處理效率,也為探索多模態(tài)人工智能系統(tǒng)提供了重要的理論和方法支撐。
67、此外,本發(fā)明還針對(duì)多模態(tài)數(shù)據(jù)融合控制方法提供了相應(yīng)的多模態(tài)數(shù)據(jù)融合控制裝置、多模態(tài)數(shù)據(jù)融合控制設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),與上述提到的多模態(tài)數(shù)據(jù)融合控制方法具有相同或相對(duì)應(yīng)的技術(shù)特征,效果同上。