本發(fā)明涉及醫(yī)療相關(guān),特別涉及一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng)。
背景技術(shù):
1、大語(yǔ)言模型是指具有大規(guī)模參數(shù)和能力的自然語(yǔ)言處理模型。這些模型使用深度學(xué)習(xí)技術(shù),如神經(jīng)網(wǎng)絡(luò),通過(guò)大量的文本數(shù)據(jù)進(jìn)行訓(xùn)練,以學(xué)習(xí)語(yǔ)言的語(yǔ)法結(jié)構(gòu)、語(yǔ)義含義和上下文關(guān)系。這些模型通常可以執(zhí)行多種語(yǔ)言任務(wù),如文本生成、機(jī)器翻譯、問(wèn)答系統(tǒng)。它們的規(guī)模和能力使得它們能夠生成更加準(zhǔn)確、流暢的文本,以及更加復(fù)雜的語(yǔ)言理解和生成任務(wù)。
2、現(xiàn)有的大語(yǔ)言模型在中文處理醫(yī)療數(shù)據(jù)過(guò)程中,盡管取得了很大的進(jìn)展,但也還存在一些挑戰(zhàn),如中文的語(yǔ)法結(jié)構(gòu)復(fù)雜、歧義性較高、詞匯量大。不過(guò),隨著對(duì)中文醫(yī)療數(shù)據(jù)的更深入理解和技術(shù)的不斷改進(jìn),大語(yǔ)言模型在處理中文數(shù)據(jù)方面的能力將會(huì)不斷提升;
3、當(dāng)下國(guó)外在醫(yī)療領(lǐng)域的人工智能醫(yī)療項(xiàng)目,主要面向英語(yǔ)醫(yī)療知識(shí)進(jìn)行學(xué)習(xí)和訓(xùn)練,在面對(duì)中文醫(yī)療場(chǎng)景中的模型訓(xùn)練和知識(shí)學(xué)習(xí)仍有較大的不足。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),以解決上述背景技術(shù)中提出的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),包括醫(yī)療分診問(wèn)診系統(tǒng),用于對(duì)中文文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理;
3、所述醫(yī)療分診問(wèn)診系統(tǒng)包括有結(jié)構(gòu)化數(shù)據(jù)處理模塊、結(jié)構(gòu)化數(shù)據(jù)學(xué)習(xí)模塊和問(wèn)答生成模塊;
4、所述結(jié)構(gòu)化數(shù)據(jù)處理模塊包括有中文語(yǔ)言分析子模塊、結(jié)構(gòu)化數(shù)據(jù)抽取子模塊、結(jié)構(gòu)化數(shù)據(jù)處理子模塊和信息推斷子模塊;
5、中文語(yǔ)言分析子模塊,將輸入的文字進(jìn)行識(shí)別篩選,并輸入結(jié)構(gòu)化數(shù)據(jù)抽取子模塊;
6、結(jié)構(gòu)化數(shù)據(jù)抽取子模塊,用于對(duì)輸入的大量文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,從每條文本中提取出患者的癥狀、年齡、性別、分診科室和初步診斷結(jié)果信息,并將其逐條存儲(chǔ),對(duì)敏感信息如患者的姓名、身份證號(hào)、就診時(shí)間進(jìn)行初篩,形成結(jié)構(gòu)文本的相關(guān)關(guān)系,并輸入結(jié)構(gòu)化數(shù)據(jù)處理子模塊和信息推斷子模塊;
7、結(jié)構(gòu)化數(shù)據(jù)處理子模塊,對(duì)輸入的文本進(jìn)行預(yù)處理,并輸送至信息推斷子模塊;
8、信息推斷子模塊,用于對(duì)輸送來(lái)的文本進(jìn)行分析,并構(gòu)造出基礎(chǔ)癥狀和對(duì)應(yīng)描述,與待診科室和初步診斷之間的相關(guān)關(guān)系,形成初步的分診結(jié)果,以及附加概率值的輔助診斷結(jié)果。
9、優(yōu)選的,所述結(jié)構(gòu)化數(shù)據(jù)學(xué)習(xí)模塊將輸入的文本進(jìn)行tokenize處理,經(jīng)字符級(jí)切割后形成的向量依據(jù)bert大模型已有的詞匯表vocab,將分割后的字符依據(jù)其詞匯表中的位置,轉(zhuǎn)化為id表示,并將此向量的長(zhǎng)度進(jìn)行標(biāo)準(zhǔn)化處理,即多截少補(bǔ),然后按批次送入bert模型中進(jìn)行訓(xùn)練,在模型返回結(jié)果后添加一個(gè)全連接層并進(jìn)行正交化處理,所得向量中最大項(xiàng)的索引即為初步分診結(jié)果,該向量中不同項(xiàng)的值即為附加概率值的輔助診斷結(jié)果。
10、優(yōu)選的,所述結(jié)構(gòu)化數(shù)據(jù)處理子模塊可將患者的癥狀、病史、診斷結(jié)果和治療修正案以覆蓋各種疾病和癥狀,通過(guò)用醫(yī)療數(shù)據(jù)庫(kù)、醫(yī)療圖像數(shù)據(jù)庫(kù)和公開(kāi)可用的醫(yī)療數(shù)據(jù)集按照8:1:1的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。
11、優(yōu)選的,所述結(jié)構(gòu)化數(shù)據(jù)學(xué)習(xí)模塊包括有輸入子模塊、加載子模塊、微調(diào)訓(xùn)練子模塊和文本分類子模塊;
12、輸入子模塊,用于對(duì)輸入的文本進(jìn)行轉(zhuǎn)換,并輸送至加載子模塊;
13、加載子模塊,采用bertmodel.from_pretrained函數(shù)導(dǎo)入預(yù)訓(xùn)練好的bert-base-chinese模型,將模型參數(shù)加載到本地,并進(jìn)行初始化;
14、微調(diào)訓(xùn)練子模塊,用于對(duì)bert模型進(jìn)行微調(diào)并更新;
15、文本分類子模塊,用于對(duì)結(jié)構(gòu)化數(shù)據(jù)處理子模塊劃分出的測(cè)試集進(jìn)行測(cè)試,并通過(guò)準(zhǔn)確率和損失對(duì)模型進(jìn)行評(píng)估,也可用于單獨(dú)輸入患者癥狀,調(diào)用bert模型進(jìn)行評(píng)估,bert模型返回的向量中值最大的一項(xiàng)即為對(duì)應(yīng)預(yù)測(cè)的分診科室。
16、優(yōu)選的,所述輸入子模塊文本最大長(zhǎng)度為pad_size=50,詞匯表采用谷歌提供的vocab.txt,據(jù)此將輸入的文本轉(zhuǎn)化成token序列,即1*50的矩陣,不足部分用0填充,對(duì)于每條文本的mask向量,在文本長(zhǎng)度以內(nèi)設(shè)為1,以外設(shè)為0即可。
17、優(yōu)選的,所述微調(diào)訓(xùn)練子模塊在進(jìn)行微調(diào)時(shí)在bent模型原始的輸出后面調(diào)用fc函數(shù)添加一個(gè)全連接層,使其輸出一個(gè)1*x的向量,x為要分診的科室數(shù)目,每隔100輪對(duì)結(jié)果進(jìn)行評(píng)估并輸出,若損失比之前記錄的最優(yōu)情況更小,則更新模型,同時(shí)若在驗(yàn)證集上的損失超過(guò)1000輪沒(méi)有下降,則提前結(jié)束訓(xùn)練。
18、優(yōu)選的,所述問(wèn)答生成模塊包括有問(wèn)答輸入子模塊和預(yù)處理子模塊、回復(fù)子模塊和存儲(chǔ)子模塊;
19、問(wèn)答輸入子模塊,用于獲取問(wèn)診者所詢問(wèn)的癥狀和病史信息數(shù)據(jù);
20、預(yù)處理子模塊,將所接受的信息數(shù)據(jù)進(jìn)行特征提取和特征選擇;
21、回復(fù)子模塊,通過(guò)將提取的特征文本輸入至bert模型,并生成相應(yīng)的診斷和治療建議;
22、存儲(chǔ)子模塊,用于對(duì)生成的診斷和治療建議進(jìn)行存儲(chǔ)管理以保證數(shù)據(jù)的安全。
23、優(yōu)選的,所述問(wèn)答輸入子模塊通過(guò)提問(wèn)交互、語(yǔ)音交互或圖像交互的方式獲取問(wèn)診者所描述的癥狀和病史信息數(shù)據(jù),并根據(jù)問(wèn)診者所描述的信息,將其保存到數(shù)據(jù)記錄中。
24、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn):
25、本發(fā)明利用結(jié)構(gòu)化數(shù)據(jù)處理模塊、結(jié)構(gòu)化數(shù)據(jù)學(xué)習(xí)模塊和問(wèn)答生成模塊相配合的設(shè)置方式,可根據(jù)患者提供的個(gè)人信息和癥狀數(shù)據(jù),提供個(gè)性化的醫(yī)療建議和診斷,滿足患者不同健康需求,大語(yǔ)言人工智能模型能夠快速處理大量數(shù)據(jù),并迅速做出診斷和建議,縮短了患者待時(shí)間,提高了就醫(yī)效率,基于大語(yǔ)言人工智能模型的系統(tǒng)具備較高的準(zhǔn)確性,能夠通過(guò)分析患者信息和癥狀數(shù)據(jù),給出更精準(zhǔn)的診斷和治療建議,有助于提高醫(yī)療診斷的準(zhǔn)確性,通過(guò)有效的醫(yī)療分診,該系統(tǒng)可以將患者引導(dǎo)到合適的醫(yī)療資源,避免了資源的浪費(fèi)和醫(yī)療服務(wù)的重復(fù)利用,提高了醫(yī)療資源的利用效率,患者可以通過(guò)手機(jī)或電腦隨時(shí)隨地接受醫(yī)療咨詢和建議,無(wú)需前往醫(yī)院,提高了醫(yī)療服務(wù)的便捷性和可訪問(wèn)性,特別是對(duì)于一些行動(dòng)不便的患者而言更為重要,本發(fā)明通過(guò)綜合利用結(jié)構(gòu)化中文文本數(shù)據(jù)和大語(yǔ)言模型的優(yōu)點(diǎn),實(shí)現(xiàn)了在醫(yī)療ai分診問(wèn)診系統(tǒng)中既有流暢的交互體驗(yàn),又有高準(zhǔn)確性的目標(biāo)。
1.一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),包括:
2.根據(jù)權(quán)利要求1所述的一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)學(xué)習(xí)模塊將輸入的文本進(jìn)行tokenize處理,經(jīng)字符級(jí)切割后形成的向量依據(jù)bert大模型已有的詞匯表vocab,將分割后的字符依據(jù)其詞匯表中的位置,轉(zhuǎn)化為id表示,并將此向量的長(zhǎng)度進(jìn)行標(biāo)準(zhǔn)化處理,即多截少補(bǔ),然后按批次送入bert模型中進(jìn)行訓(xùn)練,在模型返回結(jié)果后添加一個(gè)全連接層并進(jìn)行正交化處理,所得向量中最大項(xiàng)的索引即為初步分診結(jié)果,該向量中不同項(xiàng)的值即為附加概率值的輔助診斷結(jié)果。
3.根據(jù)權(quán)利要求1所述的一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)處理子模塊可將患者的癥狀、病史、診斷結(jié)果和治療修正案以覆蓋各種疾病和癥狀,通過(guò)用醫(yī)療數(shù)據(jù)庫(kù)、醫(yī)療圖像數(shù)據(jù)庫(kù)和公開(kāi)可用的醫(yī)療數(shù)據(jù)集按照8:1:1的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。
4.根據(jù)權(quán)利要求1所述的一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)學(xué)習(xí)模塊包括有輸入子模塊、加載子模塊、微調(diào)訓(xùn)練子模塊和文本分類子模塊;
5.根據(jù)權(quán)利要求4所述的一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),其特征在于,所述輸入子模塊文本最大長(zhǎng)度為pad_size=50,詞匯表采用谷歌提供的vocab.txt,據(jù)此將輸入的文本轉(zhuǎn)化成token序列,即1*50的矩陣,不足部分用0填充,對(duì)于每條文本的mask向量,在文本長(zhǎng)度以內(nèi)設(shè)為1,以外設(shè)為0即可。
6.根據(jù)權(quán)利要求4所述的一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),其特征在于,所述微調(diào)訓(xùn)練子模塊在進(jìn)行微調(diào)時(shí)在bent模型原始的輸出后面調(diào)用fc函數(shù)添加一個(gè)全連接層,使其輸出一個(gè)1*x的向量,x為要分診的科室數(shù)目,每隔100輪對(duì)結(jié)果進(jìn)行評(píng)估并輸出,若損失比之前記錄的最優(yōu)情況更小,則更新模型,同時(shí)若在驗(yàn)證集上的損失超過(guò)1000輪沒(méi)有下降,則提前結(jié)束訓(xùn)練。
7.根據(jù)權(quán)利要求1所述的一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),其特征在于,所述問(wèn)答生成模塊包括有問(wèn)答輸入子模塊和預(yù)處理子模塊、回復(fù)子模塊和存儲(chǔ)子模塊;
8.根據(jù)權(quán)利要求7所述的一種大語(yǔ)言人工智能模型醫(yī)療分診問(wèn)診系統(tǒng),其特征在于,所述問(wèn)答輸入子模塊通過(guò)提問(wèn)交互、語(yǔ)音交互或圖像交互的方式獲取問(wèn)診者所描述的癥狀和病史信息數(shù)據(jù),并根據(jù)問(wèn)診者所描述的信息,將其保存到數(shù)據(jù)記錄中。