本發(fā)明涉及數(shù)據(jù)分析和處理領(lǐng)域,尤其是涉及一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法和系統(tǒng)。
背景技術(shù):
1、血液短缺是一個(gè)全球性挑戰(zhàn)問題,出血風(fēng)險(xiǎn)高的擇期手術(shù)可能會(huì)因血液供應(yīng)不足而被推遲。準(zhǔn)確預(yù)測術(shù)中用血量、優(yōu)化血液資源利用、確保擇期手術(shù)患者及時(shí)、安全的救治已成為緊迫的問題。高風(fēng)險(xiǎn)手術(shù)患者通常面臨術(shù)中大出血的風(fēng)險(xiǎn),因此能否提供血液輸注以維持術(shù)中失血患者的血液動(dòng)力學(xué)穩(wěn)定是決定手術(shù)能否開展的前提條件。然而,隨著醫(yī)療技術(shù)進(jìn)步,不是所有患者都需要術(shù)中用血。伴隨全球血液資源緊張加劇,擇期手術(shù)可能因缺血而不能如期開展。因此如何精準(zhǔn)預(yù)測術(shù)中用血,最大化合理利用血液資源,保證高風(fēng)險(xiǎn)手術(shù)患者得到及時(shí)安全救治,成為用血預(yù)測中亟待解決的問題。
2、機(jī)器學(xué)習(xí)是一個(gè)基于計(jì)算建模從數(shù)據(jù)中學(xué)習(xí)的人工智能領(lǐng)域。機(jī)器學(xué)習(xí)作為人工智能的一種應(yīng)用,可用于分析大數(shù)據(jù)并生成預(yù)測結(jié)果的算法。機(jī)器學(xué)習(xí)的優(yōu)勢在于個(gè)性化預(yù)測,能夠?qū)崿F(xiàn)同時(shí)處理大量的預(yù)測變量,從已知的數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)隱藏的規(guī)律,并以非線性和高度交互的方式將它們整合起來,從患者個(gè)體水平來預(yù)測結(jié)果。因此,基于機(jī)器學(xué)習(xí)算法建立的輸血預(yù)測模型常用于預(yù)測各類手術(shù)患者的術(shù)中紅細(xì)胞輸血,根據(jù)預(yù)測結(jié)果可以對高危患者采取有針對性的預(yù)防措施,減少不必要的成本和副作用,有利于患者的治療和預(yù)后。
3、目前已有大量利用深度神經(jīng)網(wǎng)絡(luò)和其他復(fù)雜的機(jī)器學(xué)習(xí)模型的研究去解決術(shù)中輸血預(yù)測等相關(guān)問題。然而,這些模型的可解釋性仍然是一個(gè)困難的問題,特別是對于涉及高風(fēng)險(xiǎn)決策的應(yīng)用,比如臨床輸血預(yù)測問題。此外,當(dāng)原數(shù)據(jù)本身沒有得到很好地理解時(shí),可解釋的模型可以產(chǎn)生更深層次的見解并促進(jìn)推斷與決策。
4、然而,現(xiàn)有技術(shù)中的模型的可解釋性通常是以模型精度損失作為代價(jià)的。比如簡單的線性回歸模型和基于樹的模型可以很輕松地提供對模型做出的特定決策的解釋,但通常會(huì)在模型性能方面做出一些犧牲,這種犧牲是由于它們各自固有的問題所致:線性模型可能會(huì)存在較高的偏差,而基于樹的模型則可能出現(xiàn)較高的方差(完全成長的樹模型),導(dǎo)致模型過度擬合。相比之下,更復(fù)雜的模型,例如集成模型和近年來流行的深度學(xué)習(xí)模型,通常能夠獲得更好的性能,但它們往往被稱為“黑盒模型”,因?yàn)殡y以解釋模型如何真正做出決策。為了更好的可解釋性與預(yù)測性能之間的權(quán)衡,在先研究提出了各種方法。例如,顯著性方法被用于可視化單個(gè)輸入特征的激活程度,而像lime和shap這樣的歸因方法則可以量化每個(gè)特征對模型輸出的影響。然而,這些技術(shù)通常是事后解釋性的方法,而非旨在簡化模型本身。
5、其次,優(yōu)秀的特征篩選策略能夠提高可解釋性模型的預(yù)測精確度。然而在現(xiàn)有的許多輸血預(yù)測研究中,所使用的變量篩選方法通常是主觀的、準(zhǔn)確率低的,比如基于文獻(xiàn)檢索、臨床經(jīng)驗(yàn)和專家討論等,還有一些研究通過計(jì)算p值、遞歸特征消除等方法來篩選具有統(tǒng)計(jì)顯著性的特征,我們指出這些變量篩選方式是次優(yōu)的。另外,大多數(shù)研究所采用的缺失數(shù)據(jù)推斷方式僅使用對應(yīng)變量的均值或眾數(shù),這種方式?jīng)]有考慮到特征與特征之間的依賴性以及原數(shù)據(jù)的分布情況。
6、此外,如何進(jìn)行缺失數(shù)據(jù)的推斷同樣是一個(gè)重要的問題。在生物醫(yī)學(xué)領(lǐng)域中,數(shù)據(jù)缺失現(xiàn)象是十分普遍的。例如,臨床醫(yī)生在為患者安排實(shí)驗(yàn)室檢測時(shí)需要考慮經(jīng)濟(jì)負(fù)擔(dān),通過進(jìn)行最少數(shù)量的檢測和診斷以有效治療患者,這個(gè)過程中可能會(huì)造成數(shù)據(jù)缺失。對有缺失數(shù)據(jù)的數(shù)據(jù)集進(jìn)行分析可能會(huì)導(dǎo)致統(tǒng)計(jì)功效的損失或結(jié)果出現(xiàn)偏差,因此需要一種可靠的、高效的缺失推斷方法。過去大多數(shù)臨床輸血研究對于缺失數(shù)據(jù)的推斷僅限于均值填充(連續(xù)型數(shù)據(jù))、眾數(shù)填充(類別型數(shù)據(jù))或?qū)⑷笔食^給定閾值的樣本刪除。準(zhǔn)確的缺失推斷不僅需要建模特征之間的依賴關(guān)系,還要考慮原數(shù)據(jù)的分布,而這些預(yù)處理方式無法捕捉到特征與特征之間的依賴關(guān)系,甚至?xí)淖冊瓟?shù)據(jù)的分布,此外,直接刪除缺失值樣本可能會(huì)減少有效樣本量,從而影響下游分析的質(zhì)量。
7、基于深度學(xué)習(xí)方法的缺失推斷是十分有吸引力的,因?yàn)樯窠?jīng)網(wǎng)絡(luò)有能力捕捉各變量之間的復(fù)雜依賴關(guān)系,同時(shí)也能學(xué)習(xí)到數(shù)據(jù)分布特點(diǎn),另外,缺失數(shù)據(jù)可被看作是一種噪聲,它對原始數(shù)據(jù)進(jìn)行了干擾,利用神經(jīng)網(wǎng)絡(luò)自身的正則性,可以達(dá)到去噪目的(對原始數(shù)據(jù)進(jìn)行重建)。已有各種工作利用深度學(xué)習(xí)框架探索了缺失推斷的應(yīng)用,但現(xiàn)有的這些方法存在效率較低、算法復(fù)雜、計(jì)算量大、結(jié)果不夠精準(zhǔn)等缺點(diǎn)。
技術(shù)實(shí)現(xiàn)思路
1、相比于現(xiàn)有技術(shù),本發(fā)明為了解決上述技術(shù)問題提出一種基于kglr模型的風(fēng)險(xiǎn)因素分析方法和系統(tǒng),用于利用該簡單、透明、更稀疏和高精度的可解釋模型進(jìn)行快速精確的預(yù)測輸血高危的樣本,這樣有助于術(shù)前對患者進(jìn)行輸血預(yù)測和評估。
2、一方面在本申請改進(jìn)的方案中,基于所提出的復(fù)制掩碼機(jī)制(copy-masking)方法,構(gòu)建了一種輕量、高效的缺失推斷框架用于推斷和填充缺失數(shù)據(jù)。復(fù)制掩碼機(jī)制(copy-masking)模擬了現(xiàn)實(shí)中的一種傳播數(shù)據(jù)的缺失模式,可以在不減少有效樣本量的條件下實(shí)現(xiàn)缺失推斷,整個(gè)缺失推斷模型是一個(gè)自動(dòng)編碼器,它將具有缺失值的原始數(shù)據(jù)映射到一個(gè)隱藏表示,然后再映射到原始的特征空間實(shí)現(xiàn)重建。該缺失推斷方法在不減少有效樣本量的同時(shí),實(shí)現(xiàn)對缺失數(shù)據(jù)的高效且合理的推斷。
3、另一方面,本發(fā)明改進(jìn)一種基于knockoffgan框架的新模型kglr,在不假設(shè)任何特征分布情況下控制錯(cuò)誤發(fā)現(xiàn)率(fdr),挖掘出與響應(yīng)變量有潛在因果關(guān)聯(lián)的協(xié)變量,同時(shí)去除了其他冗余的協(xié)變量,再使用這些篩選后的特征擬合帶有l(wèi)1正則化的邏輯回歸模型完成紅細(xì)胞輸血的預(yù)測。
4、綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的有益效果是:
5、本發(fā)明提出了一種基于knockoffgan框架的新模型kglr用于進(jìn)行輸血預(yù)測,在不假設(shè)任何特征分布情況下控制錯(cuò)誤發(fā)現(xiàn)率,挖掘出與目標(biāo)變量有潛在因果關(guān)聯(lián)的協(xié)變量,同時(shí)去除了其他冗余的協(xié)變量,然后使用高度可解釋的模型來預(yù)測手術(shù)期間為患者輸注紅細(xì)胞的可能性。改進(jìn)方案的預(yù)測計(jì)算方法合理高效,適用于各種場合下的輸血預(yù)測計(jì)算,可以有效提升臨床可能的輸血預(yù)測評估準(zhǔn)確度,方案高效實(shí)用客觀準(zhǔn)確。
6、其次本發(fā)明還使用了一種深度學(xué)習(xí)缺失推斷框架,彌補(bǔ)了現(xiàn)有技術(shù)中在過去臨床輸血研究中所使用的基于均值、眾數(shù)缺失推斷方式等預(yù)處理方式會(huì)無法捕捉到特征與特征之間的依賴關(guān)系、可能會(huì)改變原數(shù)據(jù)的分布,從而可能影響下游分析的效果等缺陷。相比于使用其他更復(fù)雜的機(jī)器學(xué)習(xí)算法,本發(fā)明將基于復(fù)制掩碼機(jī)制的缺失推斷方法和基于knockoffgan的控制變量選擇相結(jié)合的kglr模型,提供了一個(gè)更簡單、更透明、更稀疏的高精度模型,這對于臨床輸血研究或其他生物醫(yī)學(xué)領(lǐng)域研究的開展有著重要意義。
1.一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法,其特征在于,包括如下步驟:
2.如權(quán)利要求1所述的一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法,其特征在于,所述步驟s01包括:
3.如權(quán)利要求1所述的一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法,其特征在于,所述步驟s103中利用基于復(fù)制掩碼機(jī)制的缺失推斷框架對樣本數(shù)據(jù)進(jìn)行缺失判斷包括:
4.如權(quán)利要求3所述的一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法,其特征在于,所述步驟s103還包括:
5.如權(quán)利要求1所述的一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法,其特征在于,所述步驟s102中的knockoffgan框架包含如下子網(wǎng)絡(luò):
6.如權(quán)利要求5所述的一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法,其特征在于,步驟s02包括:
7.如權(quán)利要求1所述的一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法,其特征在于,所述步驟s03中的同時(shí)控制錯(cuò)誤發(fā)現(xiàn)率和統(tǒng)計(jì)功效包括:同時(shí)使錯(cuò)誤發(fā)現(xiàn)率低且統(tǒng)計(jì)功效高。
8.如權(quán)利要求1所述的一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法,其特征在于,所述步驟s03中的錯(cuò)誤發(fā)現(xiàn)率fdr為:
9.如權(quán)利要求1所述的一種基于kglr模型進(jìn)行輸血概率預(yù)測的方法,其特征在于,所述步驟s03具體包括:
10.一種基于kglr模型進(jìn)行輸血概率預(yù)測的系統(tǒng),其特征在于,所述系統(tǒng)是基于權(quán)利要求1-9中任一輸血概率預(yù)測方法的步驟對應(yīng)的模塊單元組成的系統(tǒng),以用于對輸血概率進(jìn)行自動(dòng)預(yù)測和評估。