本發(fā)明屬于醫(yī)學(xué)人工智能領(lǐng)域,尤其是涉及一種川崎病診斷系統(tǒng)。
背景技術(shù):
1、川崎病是一種全身炎癥反應(yīng)綜合征,為主要發(fā)生于5歲以下兒童的急性自限性血管炎,因容易并發(fā)冠脈損害造成冠脈血栓形成、冠脈狹窄或冠脈瘤,進(jìn)而引起心肌缺血甚至心肌梗死,已成為兒童獲得性心臟病的主要病因。川崎病的發(fā)病率呈逐漸上升趨勢(shì),雖然靜脈丙種球蛋白(intravenous?immunoglobulin,ivig)治療使冠脈病變發(fā)生率顯著下降,但仍存在10-15%的川崎病患兒對(duì)ivig耐藥,其冠脈病變的發(fā)生率更高。
2、引起兒童川崎病的病因眾多,診斷流程復(fù)雜,可能引起諸多并發(fā)癥,準(zhǔn)確識(shí)別病因、實(shí)施精準(zhǔn)治療是兒科醫(yī)生面臨的巨大挑戰(zhàn)。兒童川崎病常與多種疾病同時(shí)出現(xiàn),與患者病史、基礎(chǔ)疾病、先前治療效果、持續(xù)時(shí)間和嚴(yán)重程度相關(guān),對(duì)于兒科醫(yī)生分析病情、關(guān)聯(lián)病因提出較高要求。特別是基層醫(yī)生經(jīng)驗(yàn)不足,難以通過問診進(jìn)行精確診斷,從而導(dǎo)致誤診、漏診并采用不恰當(dāng)?shù)闹委煼桨福M(jìn)一步延長治療和恢復(fù)時(shí)間,增大后續(xù)治療難度。因此,運(yùn)用人工智能技術(shù)學(xué)習(xí)兒科專家診斷治療兒童川崎病的臨床數(shù)據(jù),構(gòu)建一套輔助診斷模型并應(yīng)用與基層,對(duì)于快速鑒別兒童川崎病兒及家庭痛苦,有效降低醫(yī)療費(fèi)用支出。
3、如公開號(hào)為cn109273094a的中國專利文獻(xiàn)公開了一種基于boosting算法的川崎病風(fēng)險(xiǎn)評(píng)估模型的構(gòu)建方法及構(gòu)建系統(tǒng)。構(gòu)建方法包括:從樣本數(shù)據(jù)集中提取可用于建模評(píng)估的有效樣本;從有效樣本的特征集合中篩選出符合現(xiàn)場(chǎng)醫(yī)療輔助診斷應(yīng)用的10項(xiàng)特征;將有效樣本的不完整數(shù)據(jù)集隨機(jī)分割為訓(xùn)練集和驗(yàn)證集;使用boosting的方法擬合訓(xùn)練集進(jìn)行模型構(gòu)建,采用十折交叉驗(yàn)證法,記錄最優(yōu)模型參數(shù);根據(jù)roc曲線使用驗(yàn)證集計(jì)算模型分類閾值t,從而構(gòu)建得到川崎病風(fēng)險(xiǎn)評(píng)估模型。還構(gòu)建相應(yīng)的川崎病風(fēng)險(xiǎn)評(píng)估系統(tǒng)應(yīng)用于對(duì)待評(píng)估數(shù)據(jù)進(jìn)行評(píng)估,得到kdx評(píng)分。該發(fā)明有助于降低川崎病的誤診率和漏診率,使患者在發(fā)病早期可以獲得有效的預(yù)防、干預(yù)和治療。
4、公開號(hào)為cn106339593a的中國專利文獻(xiàn)公開了基于醫(yī)療數(shù)據(jù)建模的川崎病分類預(yù)測(cè)方法,包括步驟1:數(shù)據(jù)樣本選擇;從樣本數(shù)據(jù)集中抽取可供建模的有效樣本;步驟2:特征篩選;從構(gòu)建樣本數(shù)據(jù)的特征集合中篩選出符合現(xiàn)場(chǎng)醫(yī)療輔助診斷應(yīng)用的19項(xiàng)特征進(jìn)行建模;步驟3:川崎病分類模型構(gòu)建與評(píng)價(jià),包括使用隨機(jī)森林分類方法在訓(xùn)練集上擬合xtrain數(shù)據(jù)集,記錄最優(yōu)模型參數(shù)和所有選取特征的權(quán)值;并根據(jù)分類模型進(jìn)行測(cè)試集樣本的分類預(yù)測(cè)。該發(fā)明將川崎病相關(guān)數(shù)據(jù)進(jìn)行系統(tǒng)的分析、建模,并給出模型預(yù)測(cè)的評(píng)價(jià)方法,通過該模型能夠基于川崎病數(shù)據(jù),對(duì)病人川崎病進(jìn)行有效的輔助診斷,使在發(fā)病前期進(jìn)行有效的預(yù)防干預(yù)和治療,為達(dá)到最佳治療效果提供依據(jù)。
5、現(xiàn)有的一些評(píng)價(jià)模型可以通過使用患者的臨床信息進(jìn)行構(gòu)建,從而達(dá)到根據(jù)樣本訓(xùn)練分類模型的目的,然而,現(xiàn)有的數(shù)據(jù)構(gòu)建模型往往只用到了單一種類的數(shù)據(jù),無法很好的結(jié)合多種不同種類的數(shù)據(jù),并將其應(yīng)用于模型構(gòu)建之中。同時(shí),醫(yī)療數(shù)據(jù)有著維度大的特點(diǎn),對(duì)于此類高維數(shù)據(jù),傳統(tǒng)的降維方法包括隨機(jī)森林、線性判別分析和主成分分析等方法,然而這類的方法精度仍有提高的空間。因此,如何盡可能地應(yīng)用川崎病患者及其對(duì)照組普通發(fā)熱病人的多種檢驗(yàn)檢測(cè)數(shù)據(jù),并從其中挖掘規(guī)律,輔助臨床醫(yī)生在普通發(fā)熱患者中診斷川崎病,是目前亟需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種川崎病診斷系統(tǒng),可以顯著提升川崎病的診斷準(zhǔn)確率和效率。
2、一種川崎病診斷系統(tǒng),包括計(jì)算機(jī)存儲(chǔ)器、計(jì)算機(jī)處理器以及存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中并可在計(jì)算機(jī)處理器上執(zhí)行的計(jì)算機(jī)程序,計(jì)算機(jī)存儲(chǔ)器中存儲(chǔ)有訓(xùn)練好的診斷模型,所述的診斷模型中包含圖像令牌化子模塊、文本處理子模塊、交叉模態(tài)多頭自注意力模塊和分類模塊;
3、所述的圖像令牌化子模塊采用預(yù)訓(xùn)練的vqgan模型,利用vqgan中的編碼器對(duì)圖像數(shù)據(jù)進(jìn)行編碼得到其在隱空間的特征,再利用vqgan中的碼本模塊對(duì)隱空間特征進(jìn)行向量量化,將連續(xù)的特征空間映射到離散的向量空間,將圖像數(shù)據(jù)轉(zhuǎn)換為離散的圖像令牌;
4、所述的文本處理子模塊用于對(duì)文本數(shù)據(jù)進(jìn)行處理,通過基于tokenization的方法進(jìn)行分詞得到文本令牌,再經(jīng)文本處理子模塊中集成的嵌入層以生成文本向量;所述的交叉模態(tài)多頭自注意力模塊用于對(duì)拼接后的圖像令牌和文本向量進(jìn)行注意力權(quán)重計(jì)算,將計(jì)算得到的特征矩陣輸入分類模塊后得到川崎病的各分型概率;
5、所述的計(jì)算機(jī)處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:將患者的超聲心電圖像數(shù)據(jù)和文本數(shù)據(jù)處理后輸入訓(xùn)練好的診斷模型,得到川崎病的各分型概率。
6、圖像數(shù)據(jù)為川崎病患者及普通發(fā)熱患者的超聲心電圖數(shù)據(jù),文本數(shù)據(jù)為臨床檢驗(yàn)數(shù)據(jù),包括病人的影像報(bào)告和實(shí)驗(yàn)室報(bào)告。
7、進(jìn)一步地,所述的vqgan模型包含碼本模塊(codebook)、編碼器、解碼器以及判別器;vqgan模型的預(yù)訓(xùn)練過程如下:
8、首先進(jìn)行生成器的前向計(jì)算過程,包括:將預(yù)處理好的圖像輸入至編碼器中得到其在隱空間的特征;由碼本模塊對(duì)隱空間特征進(jìn)行向量量化取得其在碼本中的特征表示;經(jīng)向量量化后的特征再經(jīng)解碼器重建回原始圖像;
9、接著,判別器對(duì)解碼器輸出的重建圖像和原始圖像進(jìn)行真?zhèn)闻袆e,以最大化判別器的錯(cuò)誤,最小化生成器與目標(biāo)概率分布的距離為訓(xùn)練目標(biāo)。
10、該訓(xùn)練流程定義了vqgan中編碼器作為與訓(xùn)練模型的權(quán)重獲取及更新過程,后續(xù)多模態(tài)模型的圖像編碼過程不需依賴判別器。
11、使用預(yù)處理好的圖像數(shù)據(jù)對(duì)vqgan模型進(jìn)行預(yù)訓(xùn)練,圖像數(shù)據(jù)的處理過程為:
12、川崎病患者及普通發(fā)熱患者的超聲心電圖數(shù)據(jù),通過去噪和標(biāo)準(zhǔn)化過程進(jìn)行預(yù)處理,對(duì)圖像應(yīng)用隨機(jī)旋轉(zhuǎn)、縮放和鏡像反轉(zhuǎn)操作,進(jìn)行數(shù)據(jù)增強(qiáng)。
13、對(duì)圖像應(yīng)用多種增強(qiáng)技術(shù),有助于模型學(xué)習(xí)從多樣化視角識(shí)別疾病特征,提高診斷的準(zhǔn)確性和魯棒性,得到增強(qiáng)后的圖像矩陣。
14、通過對(duì)文本數(shù)據(jù)進(jìn)行同義詞替換和句子重構(gòu)增強(qiáng),得到增強(qiáng)后的文本數(shù)據(jù)。
15、所述的文本處理子模塊包括預(yù)訓(xùn)練的自然語言處理模型和嵌入模型,先通過自然語言處理模塊將輸入的文本數(shù)據(jù)進(jìn)行分詞,再利用嵌入模型轉(zhuǎn)換為文本向量。
16、自然語言處理模型采用llama-med模型,該預(yù)訓(xùn)練的llama-med模型在多個(gè)醫(yī)療領(lǐng)域的子任務(wù)上取得sota效果,如報(bào)告生成,醫(yī)學(xué)問答等。
17、交叉模態(tài)多頭自注意力模塊采用基于transformer的架構(gòu)處理多模態(tài)輸入,該架構(gòu)能夠同時(shí)處理圖像令牌和文本向量,工作過程如下:
18、將圖像令牌和文本向量拼接,形成序列s,序列s進(jìn)入交叉模態(tài)多頭自注意力模塊,通過一系列交叉模態(tài)多頭自注意力層進(jìn)行處理;每一層都包含以下步驟:
19、查詢、鍵和值的生成:對(duì)于每個(gè)輸入令牌s∈s,經(jīng)可學(xué)習(xí)參數(shù)wi進(jìn)行矩陣左乘計(jì)算查詢q、鍵k和值v;
20、交叉模態(tài)自注意力計(jì)算:圖像令牌pi使用其查詢qi與文本令牌t的鍵kt和值vt進(jìn)行交互;同時(shí),文本令牌t使用其查詢qt與圖像令牌pi的鍵ki和值vi進(jìn)行交互;
21、注意力權(quán)重的計(jì)算:使用softmax函數(shù)計(jì)算注意力權(quán)重,得到注意力輸出;
22、多頭自注意力整合:將圖像對(duì)文本的注意力輸出和文本對(duì)圖像的注意力輸出在多個(gè)注意力頭中整合,形成增強(qiáng)的特征表示s';每個(gè)注意力頭的輸出通過不同的線性變換w處理后合并。
23、為了提高訓(xùn)練的穩(wěn)定性和效率,對(duì)每個(gè)交叉模態(tài)多頭自注意力層的輸出加上輸入前的殘差,并進(jìn)行層歸一化處理。
24、分類模塊采用多層感知機(jī)分類器,包括多個(gè)全連接層作為隱藏層和一個(gè)輸出層,在隱藏層之間以selu激活函數(shù)加強(qiáng)模型建模非線性的能力,輸出層使用softmax函數(shù)預(yù)測(cè)川崎病的分類。
25、訓(xùn)練診斷模型時(shí),使用交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo),采用余弦退火調(diào)度器來調(diào)整學(xué)習(xí)率,使用adamw優(yōu)化器進(jìn)行診斷模型的參數(shù)優(yōu)化。
26、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
27、1、本發(fā)明的診斷模型包含圖像令牌化子模塊和文本處理子模塊,圖像令牌化子模塊采用預(yù)訓(xùn)練的vqgan模型,對(duì)圖像數(shù)據(jù)進(jìn)行編碼和量化,經(jīng)碼本對(duì)隱空間特征進(jìn)行編碼以生成離散的圖像令牌。不同于常規(guī)的多模態(tài)特征融合方法,本發(fā)明創(chuàng)新性地將圖像patch經(jīng)詞元化思想的啟發(fā)進(jìn)行離散編碼以降低隱空間的信息損失,同時(shí)通過預(yù)訓(xùn)練的嵌入模型將文本數(shù)據(jù)轉(zhuǎn)換為向量形式,最后再將得到的圖像令牌和文本令牌進(jìn)行融合。
28、2、本發(fā)明的診斷模型進(jìn)一步引入了交叉多頭注意力機(jī)制,該機(jī)制通過在圖像令牌和文本令牌之間進(jìn)行精細(xì)的信息交互,提高了特征的相關(guān)性和表示的豐富性。通過這種深度交互,本發(fā)明的診斷模型能夠更全面地理解和分析患者的臨床信息與相應(yīng)的圖像數(shù)據(jù),從而顯著提升川崎病的診斷準(zhǔn)確率和效率。這種方法的應(yīng)用不僅提高了診斷的精確性,還為臨床決策提供了強(qiáng)有力的數(shù)據(jù)支持,有助于實(shí)現(xiàn)個(gè)性化和精準(zhǔn)醫(yī)療的目標(biāo)。