本發(fā)明涉及多模態(tài)的數(shù)據(jù)增強,尤其涉及一種基于多模態(tài)語言對齊的數(shù)據(jù)增強方法和裝置。
背景技術:
1、隨著人工智能技術的發(fā)展,多模態(tài)數(shù)據(jù)的研究和挖掘成為一個日益重要的研究領域。多模態(tài)數(shù)據(jù)是指包含多種類型信息的數(shù)據(jù)集合,例如圖像、文本、音頻或視頻等。多模態(tài)數(shù)據(jù)的應用范圍廣泛,涵蓋了醫(yī)療診斷、自動駕駛、虛擬現(xiàn)實、增強現(xiàn)實等多個領域。多模態(tài)數(shù)據(jù)提供了來自不同感官或來源的信息,這有助于模型從多個角度理解數(shù)據(jù),從而在面對新數(shù)據(jù)時具有更強的泛化能力和魯棒性。但與此同時,挖掘多模態(tài)數(shù)據(jù)時需要克服模態(tài)語義不一致、特征維度不匹配、不同模態(tài)間關聯(lián)強弱不一、模態(tài)數(shù)據(jù)可能缺失等情況。
2、多模態(tài)數(shù)據(jù)增強的目標是通過對這些不同類型的數(shù)據(jù)進行處理,來生成更豐富、更多樣化的訓練樣本,從而提高模型的泛化能力和魯棒性。隨著大語言模型(largelanguage?model,llm)的興起,由于其強大的語言理解和推理能力,在學術和工業(yè)界中越來越受歡迎。llm的進展也啟發(fā)了研究人員將llm作為多模態(tài)任務的接口,如視覺語言學習、音頻和語音識別、視頻理解等,因此多模態(tài)大語言模型(multimodal?large?language?model,mllm)也引起了研究人員的關注。目前使用大模型微調和vision?transformer(vit)等技術進行多模態(tài)的語言對齊訓練,其目的是訓練一個通用的多模態(tài)大模型。這種方法需要大量人工標注的圖片-文本對數(shù)據(jù),作為基礎數(shù)據(jù)進行訓練。除此之外,這些模型和數(shù)據(jù)針對的是通用數(shù)據(jù),不包含領域知識,只能進行簡單的問答。
3、隨著技術的不斷發(fā)展,醫(yī)學影像數(shù)據(jù)主要包括ct(computed?tomography,電子計算機斷層掃描)圖像、超聲(ultrasound,us)圖像、心電圖(electrocardiogram,ecg)、核磁共振(magnetic?resonance,mr)圖像、核醫(yī)學(spect,pet)圖像等。其中,ct圖像適用于對人體的硬組織如骨骼、金屬等成像,這些具有較高的灰度等級。超聲圖像適用于前列腺、血管等軟組織,有明顯的斑點噪聲。核磁共振圖像具有豐富的灰度信息,不僅對于骨骼等硬組織,同時對于腦白質、腦灰質等軟組織也有很好的分辨力,腦部檢測常用核磁共振。pet圖像是正電子的濃度圖像,對于早期的癌癥敏感性高,但圖像本身比較模糊,空間分辨率低,同時無法清晰反映人體內部的幾何拓撲信息。而心電圖是利用心電圖機從體表記錄心臟每一心動周期所產(chǎn)生的電活動變化圖形。這些多模態(tài)的數(shù)據(jù)為醫(yī)生診斷提供了巨大的參考依據(jù),但不同圖像之間,以及圖像和圖形之間差異巨大,且現(xiàn)實中,大部分患者并不具有或不必要進行所有的檢查,部分模態(tài)數(shù)據(jù)缺失是常見現(xiàn)象。如何統(tǒng)一多模態(tài)的數(shù)據(jù)表示,挖掘不同模態(tài)之間的關聯(lián),有效填充缺失模態(tài)數(shù)據(jù)是亟需解決的問題。因此,如果能夠對不同模態(tài)進行編碼,通過多模態(tài)數(shù)據(jù)增強的方法有效補充缺失模態(tài),不僅可以降低患者治療費用,還可以提高醫(yī)生診斷效率和正確性。
4、針對多模態(tài)的醫(yī)學影像數(shù)據(jù),本發(fā)明提出一種能夠直接進行不同模態(tài)-文本對的生成,并使用生成的文本之間的相似度做模態(tài)對齊或者模態(tài)數(shù)據(jù)插補的數(shù)據(jù)增強方法。該方法基于語言相似性直觀生成,可解釋性強,且不需預先人工標記文本對,可以生成不同模態(tài)-文本對解決目前多模態(tài)大模型研究中缺少數(shù)據(jù)量的問題,同時可以支持不同模態(tài)的下游任務研究,例如輔助診斷、疾病預測、并發(fā)癥預警等。
技術實現(xiàn)思路
1、本發(fā)明的目的在于針對現(xiàn)有技術的不足,提供一種基于多模態(tài)語言對齊的數(shù)據(jù)增強方法和裝置。
2、本發(fā)明的目的是通過以下技術方案來實現(xiàn)的:本發(fā)明實施例第一方面提供了一種基于多模態(tài)語言對齊的數(shù)據(jù)增強方法,包括以下步驟:
3、(1)采集電子病歷系統(tǒng)中患者的多模態(tài)醫(yī)學數(shù)據(jù);其中,所述多模態(tài)醫(yī)學數(shù)據(jù)包括基本信息、觀察窗期間的診斷報告和各類圖像數(shù)據(jù);
4、(2)對步驟(1)采集到的多模態(tài)醫(yī)學數(shù)據(jù)進行預處理,以將各類圖像的大小重置為相同的固定值,將圖像所對應的診斷報告進行清洗和標準化;
5、(3)分別對預處理后的圖像及其對應的診斷報告進行圖像數(shù)據(jù)編碼和文本數(shù)據(jù)編碼,得到編碼后的圖像嵌入表示和文本嵌入表示;
6、(4)將編碼后的圖像嵌入表示和編碼后的文本嵌入表示進行模態(tài)投影融合,通過使用對比學習方法學習正負樣本,以構建對比學習的損失函數(shù);以最小化對比學習的損失函數(shù)為目標,確定對齊的圖像嵌入表示和文本嵌入表示;
7、(5)根據(jù)步驟(4)確定的對齊的圖像嵌入表示和文本嵌入表示,為圖像生成對應的診斷報告,以及為診斷報告生成對應的圖像,以獲取對齊的圖像-文本對。
8、進一步地,所述步驟(1)中,基本信息包括年齡和性別;各類圖像數(shù)據(jù)包括ct圖像、超聲圖像、心電圖和核磁共振圖像。
9、進一步地,所述步驟(3)中,對預處理后的圖像進行圖像數(shù)據(jù)編碼,得到編碼后的圖像嵌入表示,具體包括:
10、(3.1)對預處理后的圖像進行切片,以獲取該圖像對應的多個切片圖像;
11、(3.2)通過線性映射進行切片嵌入,以將每個切片圖像卷積成d維嵌入向量;
12、(3.3)對于步驟(3.2)得到的每個切片圖像的嵌入向量,為其添加可學習的向量,再將該切片圖像對應的位置編碼和模態(tài)編碼標識拼接到該嵌入向量中,得到拼接后的嵌入向量;
13、(3.4)將拼接后的嵌入向量通過多個transformer編碼器層進行處理,最終得到編碼后的圖像嵌入表示。
14、進一步地,所述transformer編碼器層包括多頭注意力機制、前饋神經(jīng)網(wǎng)絡和標準化層,其輸入輸出的過程表示為:
15、
16、其中,msa表示多頭注意力機制,ln表示標準化層,mlp表示前饋神經(jīng)網(wǎng)絡,也表示多層感知機;表示第h-1個transformer編碼器層的輸出,表示第h個transformer編碼器層的中間向量,表示第h個transformer編碼器層的輸出;,h表示共有h個transformer編碼器層;y表示最后一個transformer編碼器層輸出的預測向量。
17、進一步地,所述步驟(3)中,對預處理后的診斷報告進行文本數(shù)據(jù)編碼,得到編碼后的文本嵌入表示,具體包括:
18、首先將預處理后的診斷報告轉化為二進制編碼向量;然后將其以及其模態(tài)標識拼接后輸入到雙向transformer編碼器中,經(jīng)過多個雙向transformer編碼器的處理后,得到編碼后的文本嵌入表示。
19、進一步地,所述雙向transformer編碼器包括雙向注意力機制、前饋神經(jīng)網(wǎng)絡和標準化層,其輸入輸出的過程表示為:
20、
21、其中,bi-a表示雙向注意力機制,表示第w-1個雙向transformer編碼器的輸出,表示第w個雙向transformer編碼器的中間向量,表示第w個雙向transformer編碼器的輸出,,w表示共有w個雙向transformer編碼器,表示最后一個雙向transformer編碼器輸出的編碼后的文本嵌入表示。
22、進一步地,所述步驟(4)中,所述對比學習的損失函數(shù)的表達式為:
23、
24、其中,表示對比學習的損失函數(shù),n為樣本的總數(shù)量,表示第i個樣本的圖像嵌入表示,表示第j個樣本的文本嵌入表示,表示和之間的余弦相似度,表示和之間的余弦相似度,是用來調整概率分布的超參數(shù)。
25、進一步地,所述步驟(5)中,所述為圖像生成對應的診斷報告具體包括:首先對給定的圖像進行圖像數(shù)據(jù)編碼,以獲取編碼后的圖像嵌入表示;然后計算該圖像嵌入表示和步驟(4)確定的所有文本嵌入表示之間的余弦相似度,選取最大余弦相似度對應的文本嵌入表示作為該圖像對應的診斷報告文本;
26、所述為診斷報告生成對應的圖像具體包括:首先對給定的診斷報告進行文本數(shù)據(jù)編碼,以獲取編碼后的文本嵌入表示;然后計算該文本嵌入表示和步驟(4)確定的所有圖像嵌入表示之間的余弦相似度,選取最大余弦相似度對應的圖像嵌入表示作為該診斷報告對應的圖像。
27、進一步地,在所述步驟(5)之后,還包括:
28、根據(jù)不同的下游任務設計不同的后處理過程,基于步驟(5)獲取的對齊的圖像-文本對,執(zhí)行對應的下游任務。
29、本發(fā)明實施例第二方面提供了一種基于多模態(tài)語言對齊的數(shù)據(jù)增強裝置,用于實現(xiàn)上述的基于多模態(tài)語言對齊的數(shù)據(jù)增強方法,包括:
30、數(shù)據(jù)采集模塊,用于采集電子病歷系統(tǒng)中患者的多模態(tài)醫(yī)學數(shù)據(jù);其中,所述多模態(tài)醫(yī)學數(shù)據(jù)包括基本信息、觀察窗期間的診斷報告和各類圖像數(shù)據(jù);
31、數(shù)據(jù)預處理模塊,用于對數(shù)據(jù)采集模塊采集到的多模態(tài)醫(yī)學數(shù)據(jù)進行預處理,以將各類圖像的大小重置為相同的固定值,將圖像所對應的診斷報告進行清洗和標準化;
32、各模態(tài)數(shù)據(jù)編碼模塊,包括圖像數(shù)據(jù)編碼模塊和文本數(shù)據(jù)編碼模塊,其中,所述圖像數(shù)據(jù)編碼模塊用于對預處理后的圖像進行圖像數(shù)據(jù)編碼,以獲取編碼后的圖像嵌入表示;所述文本數(shù)據(jù)編碼模塊用于對預處理后的診斷報告進行文本數(shù)據(jù)編碼,以獲取編碼后的文本嵌入表示;
33、投影模塊,用于將編碼后的圖像嵌入表示和編碼后的文本嵌入表示進行模態(tài)投影融合,通過使用對比學習方法學習正負樣本,以構建對比學習的損失函數(shù);以最小化對比學習的損失函數(shù)為目標,確定對齊的圖像嵌入表示和文本嵌入表示;和
34、解碼模塊,用于根據(jù)投影模塊確定的對齊的圖像嵌入表示和文本嵌入表示,為圖像生成對應的診斷報告,以及為診斷報告生成對應的圖像,以獲取對齊的圖像-文本對。
35、本發(fā)明的有益效果是,本發(fā)明通過一種多模態(tài)的編碼方法,將不同圖片模態(tài)和文本進行編碼,不僅可以區(qū)分圖像和文本之間的模態(tài),還將不同模態(tài)的圖片進行區(qū)分;本發(fā)明將多模態(tài)的醫(yī)學影像數(shù)據(jù)和文本數(shù)據(jù)進行語言層面的對齊,進而提出一種基于語言相似性的圖像-文本對生成的解碼方法,根據(jù)生成的圖像-文本對進行多模態(tài)大模型的研究,對于單模態(tài)數(shù)據(jù)較少的研究任務,可以生成指定模態(tài)的圖片,解決了多模態(tài)大模型研究中缺少數(shù)據(jù)量的問題,助力單模態(tài)下游任務研究,如輔助診斷、疾病預測、并發(fā)癥預警等。