本發(fā)明涉及一種sbt成功率預(yù)測(cè)方法,尤其涉及一種基于集成模型的sbt成功率實(shí)時(shí)預(yù)測(cè)方法。
背景技術(shù):
1、自主呼吸實(shí)驗(yàn)(sbt)成功率預(yù)測(cè)是呼吸科臨床面臨的重要課題。當(dāng)前對(duì)于sbt成功率的預(yù)測(cè),大多依靠醫(yī)生的臨床經(jīng)驗(yàn),結(jié)合患者短時(shí)間內(nèi)的呼吸機(jī)數(shù)據(jù)及生命指標(biāo),通過臨床經(jīng)驗(yàn)認(rèn)為判斷,或者應(yīng)用人工智能的方法預(yù)測(cè)插管患者完全耐受撤機(jī)后自主呼吸的能力。
2、現(xiàn)有的采用臨床經(jīng)驗(yàn)人為判斷方法多由專家基于病理生理學(xué)定義風(fēng)險(xiǎn)因素,運(yùn)用t管或低水平支持的自主呼吸模式于接受有創(chuàng)機(jī)械通氣的病人,再根據(jù)臨床專業(yè)知識(shí)統(tǒng)計(jì)當(dāng)前狀況可能sbt失敗的原因,綜合預(yù)測(cè)sbt是否成功。使用該判斷方法醫(yī)生往往需要關(guān)注患者病情變化的實(shí)時(shí)信息,從而快速準(zhǔn)確采取相應(yīng)治療措施,同時(shí)合理分配醫(yī)療資源;然而現(xiàn)有人為方式預(yù)測(cè)sbt成功與否具有很多弊端,往往需要每位醫(yī)護(hù)人員都經(jīng)過專業(yè)培訓(xùn),并有足夠的臨床經(jīng)驗(yàn),會(huì)造成醫(yī)療資源的浪費(fèi);并且預(yù)測(cè)過程具有較強(qiáng)的主觀性,容易產(chǎn)生預(yù)測(cè)偏差。
3、現(xiàn)有的人工智能的方法,通常采用插管患者計(jì)劃做sbt前一段時(shí)間內(nèi)取自實(shí)驗(yàn)室數(shù)據(jù)和生命指標(biāo)等多來源特征基于改進(jìn)后的logistics模型算法訓(xùn)練模型,預(yù)測(cè)此段時(shí)間后sbt的成功率。由于不同的醫(yī)院可檢查的醫(yī)學(xué)指標(biāo)不同,不同患者需要檢查的信息不統(tǒng)一,難以在臨床層面實(shí)現(xiàn),因此缺少實(shí)際應(yīng)用價(jià)值;并且在深度學(xué)習(xí)判別sbt實(shí)驗(yàn)成功率過程中,僅僅應(yīng)用單一模型訓(xùn)練往往會(huì)導(dǎo)致模型欠擬合或過擬合,最終導(dǎo)致預(yù)測(cè)精度降低等負(fù)面影響。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)所存在的不足之處,本發(fā)明提供了一種基于集成模型的sbt成功率實(shí)時(shí)預(yù)測(cè)方法。
2、為了解決以上技術(shù)問題,本發(fā)明采用的技術(shù)方案是:一種基于集成模型的sbt成功率實(shí)時(shí)預(yù)測(cè)方法,包括以下步驟:
3、步驟s1:篩選實(shí)行sbt的數(shù)據(jù)作為樣本數(shù)據(jù),整合樣本數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)庫;
4、步驟s2:使用呼吸科常規(guī)變量作為候選常規(guī)變量;將候選常規(guī)變量作為特征;選取2小時(shí)作為數(shù)據(jù)窗口對(duì)常規(guī)臨床數(shù)據(jù)即候選常規(guī)數(shù)據(jù)進(jìn)行切片和標(biāo)注,以半小時(shí)為一個(gè)小范圍窗口分割標(biāo)注后的候選常規(guī)數(shù)據(jù)切片,預(yù)處理后得到sbt成功率實(shí)時(shí)預(yù)測(cè)模型即xg-ga-lightgbm模型采用的模型常規(guī)數(shù)據(jù);
5、步驟s3:候選常規(guī)變量基于xgboost模型選擇模型常規(guī)變量;
6、步驟s4:基于遺傳算法ga改進(jìn)lightgbm模型,建立xg-ga-lightgbm模型中的決策模塊;
7、步驟s5:基于步驟s3中模型常規(guī)變量和步驟s4中決策模塊,進(jìn)行xg-ga-lightgbm模型的模型訓(xùn)練,并得到xg-ga-lightgbm模型;
8、步驟s6:基于步驟s3中模型常規(guī)變量,提取并預(yù)處理該時(shí)刻之前2小時(shí)的常規(guī)數(shù)據(jù)切片作為樣本數(shù)據(jù)切片;
9、步驟s7:將樣本數(shù)據(jù)切片輸入xg-ga-lightgbm模型中;輸出值為當(dāng)前時(shí)刻實(shí)行sbt成功率的預(yù)測(cè)值,若輸出值大于所設(shè)閾值時(shí),預(yù)測(cè)當(dāng)前時(shí)刻實(shí)行sbt為成功,若輸出值小于所設(shè)閾值時(shí),預(yù)測(cè)當(dāng)前時(shí)刻實(shí)行sbt為失敗。
10、進(jìn)一步地,步驟s1中按照臨床試驗(yàn)入組標(biāo)準(zhǔn)和排除標(biāo)準(zhǔn)篩選實(shí)行sbt的數(shù)據(jù)作為樣本數(shù)據(jù)。
11、進(jìn)一步地,步驟s2中得到模型常規(guī)數(shù)據(jù),包括以下步驟:
12、s21:整理候選常規(guī)變量的數(shù)據(jù)即候選常規(guī)數(shù)據(jù);
13、s211:匯總候選常規(guī)變量即匯總在sbt實(shí)驗(yàn)前常規(guī)的檢測(cè)變量;
14、s212:基于基本數(shù)據(jù)庫提取各候選常規(guī)變量的對(duì)應(yīng)數(shù)據(jù),記錄各候選常規(guī)變量的對(duì)應(yīng)數(shù)據(jù)的數(shù)據(jù)采集時(shí)間戳的信息;
15、s213:將各候選常規(guī)變量對(duì)應(yīng)的數(shù)據(jù)按照采集時(shí)間的先后進(jìn)行排序,生成各組候選常規(guī)數(shù)據(jù);
16、s22:對(duì)候選常規(guī)數(shù)據(jù)進(jìn)行特征生成、切片和標(biāo)注;
17、s221:對(duì)候選常規(guī)數(shù)據(jù)進(jìn)行切片;選取2小時(shí)作為數(shù)據(jù)窗口,依據(jù)2小時(shí)內(nèi)各項(xiàng)候選常規(guī)變量的數(shù)據(jù),按照臨床經(jīng)驗(yàn)預(yù)測(cè)實(shí)行sbt成功的概率;
18、s222:候選常規(guī)數(shù)據(jù)切片后包括正樣本和負(fù)樣本;對(duì)于實(shí)行失敗的sbt實(shí)驗(yàn),在sbt失敗時(shí)刻向前截取2小時(shí)內(nèi)的數(shù)據(jù)作為負(fù)樣本,負(fù)樣本標(biāo)注的標(biāo)簽為0;對(duì)于已成功實(shí)行sbt實(shí)驗(yàn),在sbt成功時(shí)刻向前截取2小時(shí)的數(shù)據(jù)作為正樣本,正樣本標(biāo)注的標(biāo)簽為1;
19、s223:將標(biāo)注后的候選常規(guī)數(shù)據(jù)切片,以半小時(shí)為一個(gè)小范圍窗口進(jìn)行分割,分割后的數(shù)據(jù)段分別計(jì)算平均數(shù)、最小值、最大值、總和、中位數(shù),并按照平均數(shù)、最小值、最大值、總和、中位數(shù)的順序組合生成模型實(shí)際特征;
20、s23:對(duì)標(biāo)注后的候選常規(guī)數(shù)據(jù)切片進(jìn)行預(yù)處理;
21、s24:在預(yù)處理后的候選常規(guī)數(shù)據(jù)切片中提取各個(gè)常規(guī)數(shù)據(jù)變量對(duì)應(yīng)的數(shù)據(jù)作為特征,將全部的特征值進(jìn)行歸一化處理,生成模型數(shù)據(jù)切片;模型數(shù)據(jù)切片中的正樣本標(biāo)簽與s222中候選常規(guī)數(shù)據(jù)切片中的正樣本標(biāo)簽相同;模型數(shù)據(jù)切片中的負(fù)樣本標(biāo)簽與s222中候選常規(guī)數(shù)據(jù)切片中的負(fù)樣本標(biāo)簽相同。
22、進(jìn)一步地,s211中呼吸科內(nèi)插管病人在sbt實(shí)驗(yàn)前醫(yī)護(hù)人員常規(guī)的檢測(cè)變量包括24個(gè)變量,分別為年齡、性別、婚姻狀態(tài)、心率、血氧、血?dú)?、呼吸頻率、呼吸狀態(tài)、心臟射血分?jǐn)?shù)、出入量的正負(fù)狀態(tài)、氣進(jìn)關(guān)閉時(shí)吸氣0.1秒的口腔壓力或胸腔內(nèi)壓力、rass鎮(zhèn)靜程度評(píng)估表、最大吸氣壓、膈肌厚度、膈肌移動(dòng)度、二氧化碳分壓、血氧飽和度、酸堿度、肺順應(yīng)性、多巴胺用量、腎上腺素用量、潮氣量、流速、吸入氣體溫度。
23、進(jìn)一步地,s23中對(duì)候選常規(guī)數(shù)據(jù)切片進(jìn)行預(yù)處理,具體包括以下步驟:
24、s231:剔除缺失對(duì)應(yīng)數(shù)據(jù)超過90%以上的候選常規(guī)變量,以提高候選常規(guī)數(shù)據(jù)的質(zhì)量;
25、s232:使用z-score標(biāo)準(zhǔn)化的方式對(duì)候選常規(guī)數(shù)據(jù)進(jìn)行歸一化處理,經(jīng)過歸一化處理的候選常規(guī)數(shù)據(jù)能夠消除由于量綱差異而產(chǎn)生的對(duì)xg-ga-lightgbm模型的不利影響;
26、s233:將候選常規(guī)數(shù)據(jù)中非數(shù)值型數(shù)據(jù)通過one-hot編碼方法轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。
27、進(jìn)一步地,步驟s3中基于xboost模型選擇模型常規(guī)變量,包括以下步驟:
28、s31:選擇候選常規(guī)數(shù)據(jù)中70%的數(shù)據(jù)作為特征篩選訓(xùn)練集,剩余的30%的數(shù)據(jù)作為測(cè)試集;
29、s32:基于xgboost模型搭建特征遺忘模塊;通過特征篩選訓(xùn)練集數(shù)據(jù)樣本建立xg-ga-lightgbm模型的特征篩選模塊,特征篩選的目標(biāo)函數(shù)為:
30、
31、其中,loss為損失函數(shù);ω(ft)為正則項(xiàng);a為常數(shù)項(xiàng),是第t步之前的t-1的已知模型復(fù)雜度;為新樹的預(yù)測(cè)值;yt為樹的各結(jié)果之和;
32、s33:將s24中的特征分別帶入特征篩選模塊,通過可解釋機(jī)器學(xué)習(xí)庫計(jì)算特征的邊際貢獻(xiàn),取各特征所有邊際貢獻(xiàn)的平均值,記為該特征的貢獻(xiàn)度;
33、s34:剔除貢獻(xiàn)度小于所設(shè)閾值的候選常規(guī)變量,剩余變量作為模型常規(guī)變量。
34、進(jìn)一步地,s32中運(yùn)用貪心算法和近似算法組合的方式計(jì)算特征篩選的目標(biāo)函數(shù)lt下降情況,迭代循環(huán),進(jìn)而實(shí)現(xiàn)分裂增加分支;滿足如下條件之一即停止迭代:
35、s331:增加分支后增益小于所設(shè)閾值時(shí),進(jìn)行預(yù)剪枝;
36、s332:樹深度達(dá)到超參數(shù)max-depth最大深度時(shí);
37、s333:訓(xùn)練集數(shù)據(jù)樣本權(quán)重之和小于超參數(shù)min_child_weight葉子節(jié)點(diǎn)中樣本的數(shù)目時(shí)。
38、進(jìn)一步地,步驟s4中建立決策模塊,包括以下步驟:
39、步驟s41:針對(duì)經(jīng)過特征篩選模塊后的特征集,選擇auc作為評(píng)估指標(biāo),隨機(jī)生成多組lightgbm模型的超參數(shù)設(shè)置,進(jìn)行種群初始化,初始化參數(shù)包括交叉概率和變異概率;
40、步驟s42:定義優(yōu)化函數(shù),優(yōu)化函數(shù)輸入為超參數(shù);基于優(yōu)化函數(shù)訓(xùn)練lightgbm模型,并計(jì)算auc值作為適應(yīng)度值;
41、步驟s43:使用輪盤賭算法實(shí)現(xiàn)選擇機(jī)制,根據(jù)適應(yīng)度值高低分配選擇概率;
42、步驟s44:隨機(jī)選擇兩個(gè)父母,在參數(shù)分界點(diǎn)交換參數(shù)設(shè)置,進(jìn)行交叉變異操作以增加種群多樣性;
43、步驟s45:進(jìn)行選擇和交叉變異操作迭代100次;若適應(yīng)度值大于0.90,終止算法;若適應(yīng)度值小于或等于0.90,選擇最優(yōu)的適應(yīng)度值;
44、步驟s46:選擇最優(yōu)的適應(yīng)度值對(duì)應(yīng)的參數(shù),進(jìn)行訓(xùn)練,在s31中測(cè)試集上評(píng)估改進(jìn)后lightgbm模型性能,得到?jīng)Q策模塊。
45、進(jìn)一步地,步驟s5中進(jìn)行xg-ga-lightgbm模型的模型訓(xùn)練,包括以下步驟:
46、s51:取步驟s2中70%的候選常規(guī)數(shù)據(jù)切片及標(biāo)注作為模型訓(xùn)練集,剩余30%的候選常規(guī)數(shù)據(jù)切片及標(biāo)注作為驗(yàn)證集;
47、s52:模型訓(xùn)練集基于遺傳算法改進(jìn)的lightgbm模型計(jì)算sbt成功率預(yù)測(cè)模型的最優(yōu)超參數(shù),模型驗(yàn)證集輸出為當(dāng)前時(shí)刻實(shí)行sbt的成功率,設(shè)置閾值0.5,若大于所設(shè)閾值判定為實(shí)行sbt成功,若小于所設(shè)閾值判定為實(shí)行sbt失敗,進(jìn)而調(diào)整最優(yōu)超參數(shù),得到xg-ga-lightgbm模型。
48、進(jìn)一步地,s52中基于迭代反饋調(diào)整最優(yōu)超參數(shù)。
49、本發(fā)明公開了一種基于集成模型的sbt成功率實(shí)時(shí)預(yù)測(cè)方法,研發(fā)與應(yīng)用呼吸科常規(guī)變量的數(shù)據(jù),能夠獲取患者的全面信息,捕捉有利于sbt成功率預(yù)測(cè)的特征?;?小時(shí)內(nèi)的數(shù)據(jù),基于xg-ga-lightgbm模型預(yù)測(cè)實(shí)行sbt的成功率,不僅能夠做到實(shí)時(shí)預(yù)測(cè),還能夠適用于現(xiàn)實(shí)中數(shù)據(jù)缺失的情況,預(yù)測(cè)的準(zhǔn)確度更高。以半小時(shí)為一個(gè)小范圍窗口分割標(biāo)注后的候選常規(guī)數(shù)據(jù)切片,使得特征更具有普遍性;通過設(shè)置特征篩選模塊,剔除貢獻(xiàn)度低的特征能夠與簡(jiǎn)化模型。