多模態(tài)數(shù)據(jù)融合控制方法、裝置、設(shè)備及介質(zhì)

文檔序號(hào)：39622719發(fā)布日期：2024-10-11 13:44閱讀：44來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)，特別是涉及一種多模態(tài)數(shù)據(jù)融合控制方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、隨著人工智能技術(shù)的快速發(fā)展，以及多模態(tài)數(shù)據(jù)在現(xiàn)實(shí)世界中的廣泛存在，構(gòu)建能夠有效理解和生成跨模態(tài)信息的智能系統(tǒng)，成為了自然語(yǔ)言處理和人工智能領(lǐng)域的一個(gè)重要課題。近年來，大型語(yǔ)言模型（large?language?model，llm）以其強(qiáng)大的語(yǔ)言理解和生成能力，為實(shí)現(xiàn)這一目標(biāo)提供了新的思路和方法。

2、然而，現(xiàn)有的多模態(tài)llm雖然在跨模態(tài)理解和生成任務(wù)上展現(xiàn)出了良好的性能，但仍存在一些局限和不足：通常大多采用淺層的特征級(jí)融合或簡(jiǎn)單的注意力交互，難以充分挖掘不同模態(tài)信息在深層語(yǔ)義上的關(guān)聯(lián)和互補(bǔ)性，這導(dǎo)致模型無(wú)法形成全面、準(zhǔn)確的多模態(tài)語(yǔ)義理解，在處理復(fù)雜場(chǎng)景時(shí)表現(xiàn)欠佳；大多數(shù)多模態(tài)llm采用固定的特征融合方式，這使得模型難以適應(yīng)不同場(chǎng)景下對(duì)多模態(tài)信息的動(dòng)態(tài)需求，影響了其泛化和遷移能力；模型主要通過隱式的特征交互來學(xué)習(xí)不同模態(tài)信息的對(duì)齊，導(dǎo)致會(huì)產(chǎn)生與輸入信息不相關(guān)、甚至相矛盾的輸出，影響了結(jié)果的可靠性和可用性等。多模態(tài)llm存在的上述局限和不足會(huì)導(dǎo)致在處理更加復(fù)雜和開放的多模態(tài)場(chǎng)景時(shí)，生成內(nèi)容效果不佳，造成硬件處理效率不高。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種多模態(tài)數(shù)據(jù)融合控制方法、裝置、設(shè)備及介質(zhì)，可以形成富有層次性和語(yǔ)義交互性的多模態(tài)表示，實(shí)現(xiàn)靈活、動(dòng)態(tài)的跨模態(tài)信息交互，顯著提升模型在跨模態(tài)理解和生成任務(wù)中的性能表現(xiàn)，提高硬件處理效率。

2、為了解決上述技術(shù)問題，本發(fā)明提供一種多模態(tài)數(shù)據(jù)融合控制方法，所述方法包括：

3、將至少兩種模態(tài)數(shù)據(jù)輸入至預(yù)訓(xùn)練語(yǔ)言模型的輸入層中，對(duì)至少兩種模態(tài)數(shù)據(jù)分別進(jìn)行特征提取和嵌入映射，得到初始的不同模態(tài)嵌入表示；

4、在embedding層使用跨模態(tài)注意力對(duì)初始的不同模態(tài)嵌入表示進(jìn)行交互融合，得到跨模態(tài)融合特征，在transformer編碼器的每一層中使用跨模態(tài)注意力對(duì)所述跨模態(tài)融合特征進(jìn)行融合，得到多層次跨模態(tài)融合特征；

5、根據(jù)所述多層次跨模態(tài)融合特征和當(dāng)前解碼隱藏狀態(tài)，動(dòng)態(tài)預(yù)測(cè)不同模態(tài)在當(dāng)前時(shí)間步的重要性權(quán)重，并利用所述重要性權(quán)重結(jié)合所述多層次跨模態(tài)融合特征，得到自適應(yīng)多模態(tài)融合特征；

6、通過最小化不同模態(tài)特征之間的對(duì)比損失以及所述自適應(yīng)多模態(tài)融合特征與各模態(tài)特征之間的對(duì)比損失，學(xué)習(xí)跨模態(tài)的語(yǔ)義對(duì)齊，并實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性，過濾掉不相關(guān)或不一致的生成結(jié)果；

7、采用多任務(wù)聯(lián)合訓(xùn)練策略將多個(gè)任務(wù)的相應(yīng)損失函數(shù)進(jìn)行加權(quán)求和，形成統(tǒng)一的訓(xùn)練目標(biāo)，利用所述訓(xùn)練目標(biāo)對(duì)所述預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行訓(xùn)練；

8、將至少兩種待處理模態(tài)數(shù)據(jù)輸入至訓(xùn)練好的所述預(yù)訓(xùn)練語(yǔ)言模型，解碼生成與其中一種待處理模態(tài)數(shù)據(jù)語(yǔ)義一致的目標(biāo)模態(tài)數(shù)據(jù)。

9、第一方面，在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中，當(dāng)至少兩種模態(tài)數(shù)據(jù)包含文本和圖像時(shí)，對(duì)至少兩種模態(tài)數(shù)據(jù)分別進(jìn)行特征提取和嵌入映射，得到初始的不同模態(tài)嵌入表示，包括：

10、使用詞嵌入矩陣將輸入的文本映射為實(shí)值向量表示：

11、；

12、其中，表示輸入的文本序列，為序列長(zhǎng)度，為文本特征的維度；

13、使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取輸入的圖像的高層語(yǔ)義特征，并通過線性變換層將所述高層語(yǔ)義特征映射到與文本特征相同的維度，得到圖像特征表示：

14、；

15、其中，表示輸入的圖像，為圖像特征的數(shù)量，為線性變換矩陣。

16、另一方面，在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中，在embedding層使用跨模態(tài)注意力對(duì)初始的不同模態(tài)嵌入表示進(jìn)行交互融合，得到跨模態(tài)融合特征，包括：

17、使用文本特征作為查詢，圖像特征作為鍵值，計(jì)算文本特征和圖像特征之間的注意力權(quán)重：

18、；

19、；

20、其中，為表示文本特征對(duì)圖像特征的關(guān)注程度，分別為查詢、鍵、值的線性變換矩陣，表示圖像特征的第行，為縮放因子，表示文本特征和圖像特征之間的注意力權(quán)重；

21、將注意力權(quán)重與原始的文本嵌入相加，并通過layernorm和殘差連接，得到融合后的多模態(tài)嵌入表示作為跨模態(tài)融合特征。

22、另一方面，在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中，在transformer編碼器的每一層中使用跨模態(tài)注意力對(duì)所述跨模態(tài)融合特征進(jìn)行融合，得到多層次跨模態(tài)融合特征，包括：

23、在transformer編碼器的每一層中，通過自注意力機(jī)制對(duì)文本特征進(jìn)行語(yǔ)義編碼：

24、；

25、；

26、；

27、其中，、、分別表示自注意力機(jī)制中的查詢、鍵和值的矩陣；

28、引入跨模態(tài)注意力子層，用于將圖像特征動(dòng)態(tài)地融入到文本特征中；以作為查詢，圖像特征作為鍵值，計(jì)算和圖像特征之間的注意力權(quán)重：

29、；

30、；

31、其中，為表示對(duì)圖像特征的關(guān)注程度，，，分別為查詢、鍵、值的線性變換矩陣，表示和圖像特征之間的注意力權(quán)重；

32、將跨模態(tài)注意力輸出與文本特征相加，并經(jīng)過layernorm和前饋神經(jīng)網(wǎng)絡(luò)，得到當(dāng)前層的多模態(tài)融合特征：

33、；

34、；

35、其中，表示當(dāng)前層的多模態(tài)融合特征；

36、在transformer解碼器的每一層中，通過掩碼自注意力對(duì)已生成的文本序列進(jìn)行特征提??；

37、使用編碼-解碼注意力機(jī)制，將編碼器輸出的多模態(tài)特征融入到解碼器的隱藏狀態(tài)中；

38、將融合后的特征輸入到線性層和softmax層中，得到當(dāng)前位置的詞匯分布，并采樣生成下一個(gè)目標(biāo)詞。

39、另一方面，在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中，根據(jù)所述多層次跨模態(tài)融合特征和當(dāng)前解碼隱藏狀態(tài)，動(dòng)態(tài)預(yù)測(cè)不同模態(tài)在當(dāng)前時(shí)間步的重要性權(quán)重，并利用所述重要性權(quán)重結(jié)合所述多層次跨模態(tài)融合特征，得到自適應(yīng)多模態(tài)融合特征，包括：

40、給定一個(gè)多模態(tài)輸入序列，并使用一個(gè)多層感知機(jī)對(duì)每個(gè)時(shí)間步的輸入進(jìn)行編碼，得到其隱藏表示；

41、使用一個(gè)注意力機(jī)制來聚合整個(gè)序列的隱藏表示，形成一個(gè)全局的上下文向量；

42、將上下文向量輸入到另一個(gè)多層感知機(jī)，預(yù)測(cè)不同模態(tài)在當(dāng)前上下文下的重要性權(quán)重；

43、將每個(gè)時(shí)間步的輸入分解為不同模態(tài)的特征表示，并使用所述重要性權(quán)重對(duì)不同模態(tài)的特征表示進(jìn)行加權(quán)融合；

44、將融合后的表示輸入至transformer編碼器中，與多層次跨模態(tài)交互過程相結(jié)合，得到自適應(yīng)多模態(tài)融合特征。

45、另一方面，在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中，通過最小化不同模態(tài)特征之間的對(duì)比損失，包括：

46、在訓(xùn)練階段，假設(shè)有一個(gè)由圖文對(duì)組成的訓(xùn)練集，其中表示第個(gè)樣本的圖像，表示相應(yīng)的文本描述；目標(biāo)是學(xué)習(xí)一個(gè)跨模態(tài)匹配模型，使得匹配的圖文對(duì)之間的相似度高于不匹配的圖文對(duì)；

47、構(gòu)建正負(fù)樣本對(duì)進(jìn)行訓(xùn)練，對(duì)于每個(gè)正樣本對(duì)，從訓(xùn)練集中隨機(jī)選擇個(gè)負(fù)樣本，使得；

48、最小化對(duì)比損失函數(shù)；所述對(duì)比損失函數(shù)為：

49、；

50、其中，表示第i個(gè)樣本的圖像特征向量和文本特征向量，表示匹配的圖文對(duì)之間的相似度函數(shù)，表示不匹配的圖文對(duì)之間的相似度函數(shù)，為溫度超參數(shù)，用于控制softmax分布的平滑程度。

51、另一方面，在本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法中，實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性，包括：

52、當(dāng)生成內(nèi)容為文本時(shí)，對(duì)于給定的圖像和生成的文本，使用跨模態(tài)匹配模型計(jì)算給定的圖像和生成的文本之間的相似度得分；

53、將所述相似度得分與預(yù)設(shè)閾值進(jìn)行比較，以判斷生成內(nèi)容是否與圖像語(yǔ)義一致。

54、為了解決上述技術(shù)問題，本發(fā)明還提供一種多模態(tài)數(shù)據(jù)融合控制裝置，所述裝置包括：

55、多模態(tài)輸入編碼模塊，用于將至少兩種模態(tài)數(shù)據(jù)輸入至預(yù)訓(xùn)練語(yǔ)言模型的輸入層中，對(duì)至少兩種模態(tài)數(shù)據(jù)分別進(jìn)行特征提取和嵌入映射，得到初始的不同模態(tài)嵌入表示；

56、多層次跨模態(tài)交互模塊，用于在embedding層使用跨模態(tài)注意力對(duì)初始的不同模態(tài)嵌入表示進(jìn)行交互融合，得到跨模態(tài)融合特征，在transformer編碼器的每一層中使用跨模態(tài)注意力對(duì)所述跨模態(tài)融合特征進(jìn)行融合，得到多層次跨模態(tài)融合特征；

57、動(dòng)態(tài)模態(tài)重要性調(diào)控模塊，用于根據(jù)所述多層次跨模態(tài)融合特征和當(dāng)前解碼隱藏狀態(tài)，動(dòng)態(tài)預(yù)測(cè)不同模態(tài)在當(dāng)前時(shí)間步的重要性權(quán)重，并利用所述重要性權(quán)重結(jié)合所述多層次跨模態(tài)融合特征，得到自適應(yīng)多模態(tài)融合特征；

58、跨模態(tài)一致性約束模塊，用于通過最小化不同模態(tài)特征之間的對(duì)比損失以及所述自適應(yīng)多模態(tài)融合特征與各模態(tài)特征之間的對(duì)比損失，學(xué)習(xí)跨模態(tài)的語(yǔ)義對(duì)齊，并實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性，過濾掉不相關(guān)或不一致的生成結(jié)果；

59、多任務(wù)聯(lián)合訓(xùn)練模塊，用于采用多任務(wù)聯(lián)合訓(xùn)練策略將多個(gè)任務(wù)的相應(yīng)損失函數(shù)進(jìn)行加權(quán)求和，形成統(tǒng)一的訓(xùn)練目標(biāo)，利用所述訓(xùn)練目標(biāo)對(duì)所述預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行訓(xùn)練；

60、跨模態(tài)推理生成模塊，用于將至少兩種待處理模態(tài)數(shù)據(jù)輸入至訓(xùn)練好的所述預(yù)訓(xùn)練語(yǔ)言模型，解碼生成與其中一種待處理模態(tài)數(shù)據(jù)語(yǔ)義一致的目標(biāo)模態(tài)數(shù)據(jù)。

61、為了解決上述技術(shù)問題，本發(fā)明還提供一種多模態(tài)數(shù)據(jù)融合控制設(shè)備，所述設(shè)備包括：

62、存儲(chǔ)器，用于存儲(chǔ)計(jì)算機(jī)程序；

63、處理器，用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的多模態(tài)數(shù)據(jù)融合控制方法的步驟。

64、為了解決上述技術(shù)問題，本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的多模態(tài)數(shù)據(jù)融合控制方法的步驟。

65、從上述技術(shù)方案可以看出，本發(fā)明所提供的一種多模態(tài)數(shù)據(jù)融合控制方法，該方法包括：將至少兩種模態(tài)數(shù)據(jù)輸入至預(yù)訓(xùn)練語(yǔ)言模型的輸入層中，對(duì)至少兩種模態(tài)數(shù)據(jù)分別進(jìn)行特征提取和嵌入映射，得到初始的不同模態(tài)嵌入表示；在embedding層使用跨模態(tài)注意力對(duì)初始的不同模態(tài)嵌入表示進(jìn)行交互融合，得到跨模態(tài)融合特征，在transformer編碼器的每一層中使用跨模態(tài)注意力對(duì)跨模態(tài)融合特征進(jìn)行融合，得到多層次跨模態(tài)融合特征；根據(jù)多層次跨模態(tài)融合特征和當(dāng)前解碼隱藏狀態(tài)，動(dòng)態(tài)預(yù)測(cè)不同模態(tài)在當(dāng)前時(shí)間步的重要性權(quán)重，并利用重要性權(quán)重結(jié)合多層次跨模態(tài)融合特征，得到自適應(yīng)多模態(tài)融合特征；通過最小化不同模態(tài)特征之間的對(duì)比損失以及自適應(yīng)多模態(tài)融合特征與各模態(tài)特征之間的對(duì)比損失，學(xué)習(xí)跨模態(tài)的語(yǔ)義對(duì)齊，并實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性，過濾掉不相關(guān)或不一致的生成結(jié)果；采用多任務(wù)聯(lián)合訓(xùn)練策略將多個(gè)任務(wù)的相應(yīng)損失函數(shù)進(jìn)行加權(quán)求和，形成統(tǒng)一的訓(xùn)練目標(biāo)，利用訓(xùn)練目標(biāo)對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行訓(xùn)練；將至少兩種待處理模態(tài)數(shù)據(jù)輸入至訓(xùn)練好的預(yù)訓(xùn)練語(yǔ)言模型，解碼生成與其中一種待處理模態(tài)數(shù)據(jù)語(yǔ)義一致的目標(biāo)模態(tài)數(shù)據(jù)。

66、本發(fā)明的有益效果在于，本發(fā)明提供的上述多模態(tài)數(shù)據(jù)融合控制方法，通過在預(yù)訓(xùn)練語(yǔ)言模型的embedding層和transformer編碼器層引入跨模態(tài)注意力，實(shí)現(xiàn)模態(tài)間信息在不同語(yǔ)義層次上的充分融合，形成富有層次性和語(yǔ)義交互性的多模態(tài)表示，從而顯著提升模型的多模態(tài)理解能力；并且讓模型能夠自適應(yīng)地調(diào)節(jié)不同模態(tài)信息在多模態(tài)融合過程中的重要性權(quán)重，實(shí)現(xiàn)靈活、動(dòng)態(tài)的跨模態(tài)信息交互，提高模型在不同場(chǎng)景下的適應(yīng)能力和泛化能力；另外可以顯式地轉(zhuǎn)化生成內(nèi)容與源輸入在語(yǔ)義層面的一致性，并實(shí)時(shí)評(píng)估生成內(nèi)容與其中一種模態(tài)數(shù)據(jù)之間的相關(guān)性，提高模型輸出內(nèi)容的準(zhǔn)確性、相關(guān)性和可靠性，且讓模型的決策過程更加透明和可理解，為其在實(shí)際場(chǎng)景中的應(yīng)用奠定基礎(chǔ)。這樣通過多層次跨模態(tài)交互機(jī)制、動(dòng)態(tài)模態(tài)重要性調(diào)控機(jī)制和跨模態(tài)一致性約束機(jī)制，不僅顯著提升預(yù)訓(xùn)練語(yǔ)言模型在跨模態(tài)理解和生成任務(wù)中的性能表現(xiàn)，擴(kuò)大其應(yīng)用范圍和領(lǐng)域，提高硬件處理效率，也為探索多模態(tài)人工智能系統(tǒng)提供了重要的理論和方法支撐。

67、此外，本發(fā)明還針對(duì)多模態(tài)數(shù)據(jù)融合控制方法提供了相應(yīng)的多模態(tài)數(shù)據(jù)融合控制裝置、多模態(tài)數(shù)據(jù)融合控制設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，與上述提到的多模態(tài)數(shù)據(jù)融合控制方法具有相同或相對(duì)應(yīng)的技術(shù)特征，效果同上。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鐘鎮(zhèn)濤,王強(qiáng)
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：一種牽引系統(tǒng)的制作方法
上一篇：一種易裝配和更換配件的線性燈照明結(jié)構(gòu)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

多模態(tài)數(shù)據(jù)融合控制方法、裝置、設(shè)備及介質(zhì)

多模態(tài)數(shù)據(jù)融合控制方法、裝置、設(shè)備及介質(zhì)