本發(fā)明屬于圍術(shù)期臨床思維訓(xùn)練,尤其涉及一種基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng)。
背景技術(shù):
1、麻醉醫(yī)師通過了解病例現(xiàn)有病情以及觀察圍術(shù)期各項生命體征指標,并結(jié)合過往經(jīng)驗選擇特定劑量的藥物、特定注射位置給予進行藥物注射。圍術(shù)期思維訓(xùn)練系統(tǒng)是通過觀察、處理、查看處理結(jié)果、再次處理,重復(fù)上述過程,直到各項生命體征指標平穩(wěn)的過程。對于麻醉醫(yī)師來說,由于缺少準確實用且包含大量各種類型病情真實病例的圍術(shù)期思維訓(xùn)練系統(tǒng),他們往往在高年資麻醉醫(yī)師的指導(dǎo)下,并且需通過多年的經(jīng)驗積累才能針對某一類病情完成快速地制定出正確且最合適的處理方案,而這個過程需要付出很長的時間成本和和其他高額代價。
技術(shù)實現(xiàn)思路
1、本發(fā)明采用?drl機器學(xué)習(xí)算法和醫(yī)學(xué)大數(shù)據(jù)分析技術(shù),構(gòu)建了一種基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)錄入模塊、數(shù)據(jù)清洗模塊、模型訓(xùn)練模塊和臨床操作模塊。其中,數(shù)據(jù)錄入模塊用于錄入病例的基本病例信息和各項醫(yī)學(xué)指標;數(shù)據(jù)處理模塊用于對數(shù)據(jù)進行預(yù)處理和特征提?。荒P陀?xùn)練模塊用于訓(xùn)練模型;臨床操作模塊用于模擬生成病例,供臨床模擬操作,并針對每一步操作根據(jù)明確結(jié)果反饋。
1.一種基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于,系統(tǒng)模塊包括:
2.根據(jù)權(quán)利要求1所述的基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于,將原始病歷數(shù)據(jù)統(tǒng)一標準化處理,提取病例手術(shù)類型、手術(shù)名稱、麻醉時間、術(shù)前誘導(dǎo)用藥藥物種類劑量、術(shù)中維持用藥藥物種類劑量、術(shù)中出血量、輸液量、輸血量基本數(shù)據(jù)和圍術(shù)期管理操作時間、用藥藥物類別、劑量、用藥方式等圍術(shù)期操作數(shù)據(jù),以及操作前后平穩(wěn)階段的血壓、心率、血氧飽和度、中心靜脈壓、肺動脈壓、血氣分析、心排血量、心指數(shù)、體循環(huán)阻力、腦氧監(jiān)測指標特征數(shù)值。
3.根據(jù)權(quán)利要求1所述的基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于,構(gòu)建模型時有效病例數(shù)不少于20000個。
4.根據(jù)權(quán)利要求1所述的基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于,模型構(gòu)建模塊通過drl機器學(xué)習(xí)算法來分析提取不同病例基本信息、不同圍術(shù)期操作對各項生命體征指標的影響系數(shù),并最終生成drl模型文件。
5.根據(jù)權(quán)利要求1所述的基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于,病例生成模塊基于生成的drl模型,通過調(diào)整手術(shù)類型、危重程度等參數(shù),模擬生成大量不同手術(shù)類型、不同危重程度的病例。
6.根據(jù)權(quán)利要求1所述的基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于,臨床操作模塊基于生成的drl模型文件,通過分析病例當前的血壓、心率、血氧飽和度、中心靜脈壓、肺動脈壓、血氣分析、心排血量、心指數(shù)、體循環(huán)阻力、腦氧監(jiān)測指標等參數(shù)以及模擬訓(xùn)練人員進行的模擬圍術(shù)期管理操作記錄,給出各項醫(yī)學(xué)生命指標參數(shù)變化的具體數(shù)值反饋,同時對反饋結(jié)果進行詳細分析說明,并對模擬訓(xùn)練人員給出操作意見,指導(dǎo)模擬訓(xùn)練人員進行下一步操作。
7.根據(jù)權(quán)利要求4所述的基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于,所述通過drl機器學(xué)習(xí)算法來分析提取不同病例基本信息、不同圍術(shù)期操作對病例各項生命體征指標的影響系數(shù),并最終生成drl模型文件,具體過程包括:?在drl機器學(xué)習(xí)的過程中,一般需要以下幾個重要的參數(shù):?狀態(tài)(state):狀態(tài)是指當前的環(huán)境狀態(tài),這里特指當前的病例病情基本數(shù)據(jù)、各項生命體征指標數(shù)據(jù)。?動作(action):動作是根據(jù)當前環(huán)境狀態(tài)中所采取的行為,這里特指根據(jù)當前的病例病情基本數(shù)據(jù)、各項生命體征指標數(shù)據(jù)所采取的特定圍術(shù)期管理操作。?策略(policy):策略是指在特定環(huán)境狀態(tài)下選擇某一動作的概率。模型訓(xùn)練過程中,通過強化學(xué)習(xí),找到drl的最優(yōu)策略,即為不同病情、不同各項生命體征指標參數(shù)的病例當前狀態(tài),制定一個能使當前病例各項生命體征指標趨于未定的圍術(shù)期操作。?獎勵(reward):獎勵是指在環(huán)境中采取某個動作后所得到的反饋,通常以數(shù)值的形式給出。獎勵的目的是在強化學(xué)習(xí)過程中做出引導(dǎo)。這里特指病例的各項生命體征指標與正常值的偏差,偏差越小,獎勵越高。?回報/累積獎勵(return):回報是指智能體在整個時間過程中獲得的獎勵之和,包含立即獎勵和未來獎勵。?價值函數(shù)(value?function):價值函數(shù)用來估計特定狀態(tài)或特定狀態(tài)--動作對未來回報的期望值。?折扣因子(discountfactor,γ):折扣因子是用于確定未來獎勵相對于立即獎勵的相對重要性。折扣因子越接近1,未來獎勵對價值函數(shù)的影響越大。
8.根據(jù)權(quán)利要求7所述的基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于,所述的drl模型構(gòu)建過程可以用(s,a,p,r,γ)來描述drl。drl根據(jù)環(huán)境的即時狀態(tài)st,?為了獲得環(huán)境反饋給drl的最大獎勵,?選擇并執(zhí)行其所認為的最優(yōu)動作at。環(huán)境接受動作at后,以一定概率轉(zhuǎn)移到下一狀態(tài)st+1,?并把一個獎勵rt反饋給drl,?drl根據(jù)獎勵rt和當前狀態(tài)st+1選擇下一個動作。而t時刻的累計獎勵rt就是即時獎勵rt與后續(xù)所有可能采取的動作和導(dǎo)致的環(huán)境狀態(tài)的價值之和。由于距離當前狀態(tài)越遠,?不確定性越高,?需要乘以一個折扣因子γ,?來調(diào)整未來的每個即時獎勵對于累計獎勵的影響。
9.根據(jù)權(quán)利要求8所述的基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于drl模型構(gòu)建過程的累計獎勵rt的計算公式如下:
10.根據(jù)權(quán)利要求9所述的基于drl機器學(xué)習(xí)的圍術(shù)期臨床思維訓(xùn)練系統(tǒng),其特征在于drl模型構(gòu)建過程的rt值越大模型效果越好,通過訓(xùn)練最終使rt的值收斂于一個最大值。