所屬的技術(shù)人員能夠理解,專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量檢測(cè)方法各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本公開(kāi)的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱(chēng)為“電路”、“模塊”或“系統(tǒng)”。本領(lǐng)域的技術(shù)人員應(yīng)理解,上述描述及附圖中所示的本發(fā)明的實(shí)施例只作為舉例而并不限制本發(fā)明。本發(fā)明的優(yōu)勢(shì)已經(jīng)完整并有效地實(shí)現(xiàn)。本發(fā)明的功能及結(jié)構(gòu)原理已在實(shí)施例中展示和說(shuō)明,在沒(méi)有背離所述原理下,本發(fā)明的實(shí)施方式可以有任何變形或修改。在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類(lèi)系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。類(lèi)似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。更確切地說(shuō),發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(shū)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(dsp)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的進(jìn)行資源優(yōu)化的服務(wù)器、客戶(hù)端和系統(tǒng)等物理設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
背景技術(shù):
1、目前醫(yī)院系統(tǒng)的數(shù)據(jù)庫(kù)中,存儲(chǔ)著大量的病歷信息。醫(yī)生通過(guò)對(duì)某種疾病下所有病歷信息的研究學(xué)習(xí),能夠促進(jìn)醫(yī)療水平的進(jìn)步。隨著醫(yī)院信息化建設(shè)的不斷發(fā)展,為了方便為醫(yī)療專(zhuān)業(yè)人員、研究人員和患者等相關(guān)人群提供一個(gè)權(quán)威、準(zhǔn)確的信息來(lái)源,以便更好地了解特定疾病的相關(guān)知識(shí)和信息,建立了專(zhuān)病數(shù)據(jù)庫(kù)。
2、專(zhuān)病數(shù)據(jù)庫(kù)是指針對(duì)特定疾病或病種建立的醫(yī)學(xué)數(shù)據(jù)庫(kù)或知識(shí)庫(kù)。它通常包含了該疾病的臨床特征、診斷標(biāo)準(zhǔn)、治療方法、藥物信息、預(yù)后評(píng)估等方面的專(zhuān)業(yè)知識(shí)和信息。它可以幫助醫(yī)生進(jìn)行疾病診斷和治療決策,為研究人員提供疾病數(shù)據(jù)和研究進(jìn)展,幫助患者了解和管理自身疾病。
3、在醫(yī)療信息化快速發(fā)展的背景下,專(zhuān)病數(shù)據(jù)庫(kù)作為臨床研究和診療的重要支撐,其數(shù)據(jù)質(zhì)量直接關(guān)系到科研結(jié)果的準(zhǔn)確性和臨床決策的可靠性。目前,專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量檢測(cè)方法一般為人工抽檢,需要耗費(fèi)大量的人力物力。
4、為此,本發(fā)明提供一種專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量檢測(cè)方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì),以解決上述的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量檢測(cè)方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì),用于解決上述任一方面的技術(shù)問(wèn)題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、第一方面,一種專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量檢測(cè)方法,所述專(zhuān)病數(shù)據(jù)庫(kù)中存儲(chǔ)了若干個(gè)字段類(lèi)型的字段結(jié)果,所述方法包括:
4、獲取待檢測(cè)的專(zhuān)病數(shù)據(jù)庫(kù)的字段類(lèi)型;
5、構(gòu)造若干個(gè)用于得到某一字段類(lèi)型下的字段結(jié)果的問(wèn)題;
6、將若干個(gè)得到該字段類(lèi)型下的字段結(jié)果的問(wèn)題統(tǒng)一管理構(gòu)建成prompt題庫(kù);
7、讀取專(zhuān)病數(shù)據(jù)庫(kù)中該字段類(lèi)型下的字段結(jié)果,并獲取該字段結(jié)果所對(duì)應(yīng)的原始醫(yī)學(xué)文本,驗(yàn)證字段結(jié)果的準(zhǔn)確性,選取部分驗(yàn)證通過(guò)的字段結(jié)果所對(duì)應(yīng)的原始文本數(shù)據(jù)作為訓(xùn)練文本數(shù)據(jù);
8、讀取訓(xùn)練文本數(shù)據(jù),并獲取該訓(xùn)練文本數(shù)據(jù)在構(gòu)造的問(wèn)題下對(duì)應(yīng)的字段結(jié)果,得到目標(biāo)答案;
9、將訓(xùn)練文本數(shù)據(jù)、目標(biāo)答案和prompt題庫(kù)中的得到字段結(jié)果的問(wèn)題輸入到預(yù)先構(gòu)建的質(zhì)量檢測(cè)模型中,對(duì)質(zhì)量檢測(cè)模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的質(zhì)量檢測(cè)模型;
10、將原始醫(yī)學(xué)文本數(shù)據(jù)和得到該字段類(lèi)型下的字段結(jié)果的問(wèn)題輸入到訓(xùn)練好的質(zhì)量檢測(cè)模型中,質(zhì)量檢測(cè)模型輸出字段結(jié)果,將該字段結(jié)果與專(zhuān)病數(shù)據(jù)庫(kù)中的字段結(jié)果的一致性進(jìn)行判斷,以判定專(zhuān)病數(shù)據(jù)庫(kù)中的字段結(jié)果的準(zhǔn)確性,從而檢測(cè)專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量。
11、進(jìn)一步地,構(gòu)造若干個(gè)用于得到某一字段類(lèi)型下的字段結(jié)果的問(wèn)題,其中:
12、對(duì)于專(zhuān)病數(shù)據(jù)庫(kù)中的每個(gè)字段類(lèi)型,至少分別構(gòu)造三個(gè)得到字段結(jié)果的問(wèn)題。
13、進(jìn)一步地,讀取專(zhuān)病數(shù)據(jù)庫(kù)中該字段類(lèi)型下的字段結(jié)果,并獲取該字段結(jié)果所對(duì)應(yīng)的原始醫(yī)學(xué)文本,包括如下具體步驟:
14、使用數(shù)據(jù)庫(kù)連接庫(kù)或api建立與專(zhuān)病數(shù)據(jù)庫(kù)的連接,并執(zhí)行查詢(xún)語(yǔ)句獲取專(zhuān)病數(shù)據(jù)庫(kù)中的字段結(jié)果;
15、通過(guò)專(zhuān)病數(shù)據(jù)庫(kù)中的關(guān)聯(lián)關(guān)系或索引,找到與字段結(jié)果對(duì)應(yīng)的原始醫(yī)學(xué)文本,并將獲取到的原始醫(yī)學(xué)文本進(jìn)行輸出。
16、進(jìn)一步地,預(yù)先構(gòu)建的質(zhì)量檢測(cè)模型為qwen1.5-14b模型。
17、進(jìn)一步地,在將訓(xùn)練文本數(shù)據(jù)、目標(biāo)答案和prompt題庫(kù)中的得到字段結(jié)果的問(wèn)題輸入到預(yù)先構(gòu)建的質(zhì)量檢測(cè)模型中,對(duì)質(zhì)量檢測(cè)模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的質(zhì)量檢測(cè)模型之后,還包括如下具體步驟:
18、將訓(xùn)練文本數(shù)據(jù)和prompt題庫(kù)中的得到字段結(jié)果的問(wèn)題輸入到訓(xùn)練好的qwen1.5-14b模型中,訓(xùn)練好的qwen1.5-14b模型輸出的預(yù)測(cè)字段結(jié)果;
19、通過(guò)損失函數(shù),對(duì)獲取目標(biāo)答案與預(yù)測(cè)字段結(jié)果進(jìn)行計(jì)算,得到計(jì)算結(jié)果;
20、通過(guò)adam優(yōu)化器根據(jù)計(jì)算結(jié)果對(duì)qwen1.5-14b模型進(jìn)行優(yōu)化;
21、重復(fù)執(zhí)行上述步驟,直至損失函數(shù)收斂,qwen1.5-14b模型的訓(xùn)練結(jié)束,得到優(yōu)化后的qwen1.5-14b模型。
22、進(jìn)一步地,在將原始醫(yī)學(xué)文本數(shù)據(jù)和prompt題庫(kù)中的得到該字段類(lèi)型下的字段結(jié)果的問(wèn)題輸入到訓(xùn)練好的質(zhì)量檢測(cè)模型中,訓(xùn)練好的質(zhì)量檢測(cè)模型輸出的預(yù)測(cè)字段結(jié)果之前,還包括:
23、設(shè)置qwen1.5-14b模型的訓(xùn)練參數(shù),所述訓(xùn)練參數(shù)包括:batch_size、epoch和梯度累積。
24、進(jìn)一步地,損失函數(shù)為交叉熵?fù)p失函數(shù),交叉熵?fù)p失函數(shù)的表達(dá)式為:
25、
26、式中,表示損失函數(shù),表示分類(lèi)個(gè)數(shù),表示標(biāo)注數(shù)據(jù)中的真實(shí)值,表示模型預(yù)測(cè)值。
27、第二方面,一種專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量檢測(cè)系統(tǒng),所述系統(tǒng)包括:
28、數(shù)據(jù)字段獲取單元,用于獲取待檢測(cè)的專(zhuān)病數(shù)據(jù)庫(kù)的字段類(lèi)型;
29、問(wèn)題構(gòu)造單元,用于構(gòu)造若干個(gè)用于得到某一字段類(lèi)型下的字段結(jié)果的問(wèn)題;
30、prompt題庫(kù)構(gòu)建單元,用于將若干個(gè)得到該字段類(lèi)型下的字段結(jié)果的問(wèn)題統(tǒng)一管理構(gòu)建成prompt題庫(kù);
31、數(shù)據(jù)提取單元,用于讀取專(zhuān)病數(shù)據(jù)庫(kù)中該字段類(lèi)型下的字段結(jié)果,并獲取該字段結(jié)果所對(duì)應(yīng)的原始醫(yī)學(xué)文本,驗(yàn)證字段結(jié)果的準(zhǔn)確性,選取部分驗(yàn)證通過(guò)的字段結(jié)果所對(duì)應(yīng)的原始文本數(shù)據(jù)作為訓(xùn)練文本數(shù)據(jù);
32、目標(biāo)答案獲取單元,用于讀取訓(xùn)練文本數(shù)據(jù),并獲取該訓(xùn)練文本數(shù)據(jù)在構(gòu)造的問(wèn)題下對(duì)應(yīng)的字段結(jié)果,得到目標(biāo)答案;
33、質(zhì)量檢測(cè)模型訓(xùn)練單元,用于將訓(xùn)練文本數(shù)據(jù)、目標(biāo)答案和prompt題庫(kù)中的得到字段結(jié)果的問(wèn)題輸入到預(yù)先構(gòu)建的質(zhì)量檢測(cè)模型中,對(duì)質(zhì)量檢測(cè)模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的質(zhì)量檢測(cè)模型;
34、質(zhì)量檢測(cè)單元,用于將原始醫(yī)學(xué)文本數(shù)據(jù)和得到該字段類(lèi)型下的字段結(jié)果的問(wèn)題輸入到訓(xùn)練好的質(zhì)量檢測(cè)模型中,質(zhì)量檢測(cè)模型輸出字段結(jié)果,將該字段結(jié)果與專(zhuān)病數(shù)據(jù)庫(kù)中的字段結(jié)果的一致性進(jìn)行判斷,以判定專(zhuān)病數(shù)據(jù)庫(kù)中的字段結(jié)果的準(zhǔn)確性,從而檢測(cè)專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量。
35、第三方面,一種電子設(shè)備,所述電子設(shè)備包括:
36、至少一個(gè)處理器;
37、以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;
38、存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行上述各方面所述的專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量檢測(cè)方法。
39、第四方面,一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令使所述計(jì)算機(jī)執(zhí)行上述各方面所述的專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量檢測(cè)方法。
40、本發(fā)明的有益效果:
41、本發(fā)明通過(guò)訓(xùn)練質(zhì)量檢測(cè)模型,將原始醫(yī)學(xué)文本數(shù)據(jù)和得到字段結(jié)果的問(wèn)題輸入到訓(xùn)練好的質(zhì)量檢測(cè)模型中,質(zhì)量檢測(cè)模型輸出字段結(jié)果,將該字段結(jié)果與專(zhuān)病數(shù)據(jù)庫(kù)中的字段結(jié)果的一致性進(jìn)行判斷,以判定專(zhuān)病數(shù)據(jù)庫(kù)中的字段結(jié)果的準(zhǔn)確性,從而檢測(cè)專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量,實(shí)現(xiàn)了對(duì)專(zhuān)病數(shù)據(jù)庫(kù)質(zhì)量的自動(dòng)化檢測(cè),提高了專(zhuān)病數(shù)據(jù)庫(kù)的質(zhì)量檢測(cè)的效率,大大降低了人力成本和時(shí)間成本。
42、本發(fā)明的這些和其它目的、特點(diǎn)和優(yōu)勢(shì),通過(guò)下述的詳細(xì)說(shuō)明,得以充分體現(xiàn)。