本發(fā)明涉及基于深度學習的生物信息處理,具體涉及一種疾病風險表征預測系統(tǒng)及方法。
背景技術(shù):
1、基因并不是獨立作用來產(chǎn)生或維持大腦功能的,而是存在共同調(diào)控的轉(zhuǎn)錄譜,并且在神經(jīng)發(fā)育和神經(jīng)元活動中發(fā)揮重要作用。因此,對于識別遺傳相互作用并闡明其對疾病風險的影響,基于轉(zhuǎn)錄組數(shù)據(jù)的基因共表達分析是一種很有前景的方法。因此,加權(quán)基因共表達網(wǎng)絡分析(wgcna)被用來分分析疾病共表達基因的潛在特征網(wǎng)絡。例如,radulescu等人基于wgcna,使用精神分裂癥(scz)患者大腦的轉(zhuǎn)錄組數(shù)據(jù)構(gòu)建共表達網(wǎng)絡,鑒定了一個含有許多參與突觸信號傳導和神經(jīng)可塑性基因的信號模塊,這也與scz的診斷和多基因風險評分高度相關。
2、目前,人工智能已經(jīng)廣泛應用于疾病的研究和診斷中。機器學習是人工智能的一個重要分支,主要研究計算機如何通過不同的算法或模型從數(shù)據(jù)中獲得有用的預測特征。機器學習(ml)模型被用于臨床數(shù)據(jù)收集以建立可靠的疾病風險或分層模型,但現(xiàn)有研究分析大多基于功能或結(jié)構(gòu)磁共振成像數(shù)據(jù),高維數(shù)據(jù)約簡是這些圖像處理方法的組成部分,ml方法可能會改變原始數(shù)據(jù)矩陣的結(jié)構(gòu),不足以提取有效的可復制和可解釋特征用于疾病風險表征和評估;而基于生物信息學的方法研究,其從數(shù)據(jù)中提取的特征信息不足,對疾病生物標志物的分析效率低,沒有產(chǎn)生有效結(jié)果。此外,將機器學習與rna測序(rna-seq)數(shù)據(jù)相結(jié)合可進行疾病風險表征,但基于深度學習的可靠機器學習模型的開發(fā)以表征和評估疾病風險仍是一個持續(xù)的挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種疾病風險表征預測方法及系統(tǒng),以解決上述背景技術(shù)中存在的至少一項技術(shù)問題。
2、為了實現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案:
3、第一方面,本發(fā)明提供一種疾病風險表征預測系統(tǒng),包括:
4、獲取模塊,用于獲取待檢測目標對象的生物標志物指標;
5、處理模塊,用于利用預先訓練好的疾病風險評估模型對獲取的待檢測目標對象的生物標志物指標進行處理,得到目標對象患病風險表征結(jié)果;其中,訓練所述疾病風險評估模型包括:所述疾病風險評估模型包括基礎學習器和元學習器,將目標對象的生物標志物指標輸入所述基礎學習器,所述元學習器輸出患病風險表征結(jié)果;訓練所述疾病風險評估模型中,所述基礎學習器用于使用訓練數(shù)據(jù)集作為輸入特征,每個基礎學習器對生物標志物的預測結(jié)果及其參數(shù)作為輸出;所述元學習器用于將每個基礎學習器的輸出作為輸入,通過優(yōu)化算法選擇最優(yōu)的基礎學習器組合,將選中的基礎學習器的結(jié)果進行集成學習,輸出最終的患病風險的概率預測結(jié)果。
6、作為第一方面的進一步限定,獲取所述訓練數(shù)據(jù)集包括:基于疾病相關rna-seq數(shù)據(jù)集,獲得與待表征疾病相關潛在途徑的差異表達蛋白編碼生物標志物,定義為重要生物標志物;使用互信息法評估各個重要生物標志物與待表征疾病狀態(tài)之間的相關性,使用遞歸特征消除模型來捕獲風險必需生物標志物,即根據(jù)各個重要生物標志物的重要性對其進行排序;對風險必需生物標志物應用多項式特征推導和互信息過濾識別其它與待表征疾病相關的基本生物標志物,得到所述訓練數(shù)據(jù)集。
7、作為第一方面的進一步限定,使用互信息法評估各個重要生物標志物與待表征疾病狀態(tài)之間的相關性,使用遞歸特征消除模型來捕獲風險必需生物標志物,即根據(jù)各個重要生物標志物的重要性對其進行排序,包括:使用互信息法評估每個生物標志物與疾病狀態(tài)的相關性,保留互信息值在0-0.052之間的生物標志物,利用預先訓練好的遞歸特征消除模型遍歷所有的重要生物標志物,根據(jù)遞歸特征消除模型的排名記錄每個重要生物標志物的重要性,當k-fold交叉驗證中的曲線下面積值不再隨著生物標志物數(shù)量的減少而增加時,保留此時的生物標志物數(shù)量;其中,將預先訓練好的遞歸特征消除模帶入遞歸特征消除搜索過程,設置遞歸特征消除參數(shù),即一次只消除一個重要生物標志物,遞歸特征消除過程將每次從當前數(shù)據(jù)集中移除重要性最低的重要生物標志物。
8、作為第一方面的進一步限定,預先訓練好的遞歸特征消除模型的訓練包括:采用基于tree-structured?parzen?estimator方法的貝葉斯優(yōu)化算法,引入5倍k-fold交叉驗證的數(shù)據(jù),對梯度提升樹算法模型的超參數(shù)進行優(yōu)化微調(diào),得到所述遞歸特征消除模型。
9、作為第一方面的進一步限定,對風險必需生物標志物應用多項式特征推導和互信息過濾識別其它與待表征疾病相關的基本生物標志物,包括:將風險必需生物標志物經(jīng)過多次多項式特征推導,將推導出的生物標志物與多項式推導之前的風險必需生物標志物結(jié)合,再通過互信息分析過濾相對無用的信息,得到其它與待表征疾病相關的基本生物標志物。
10、第二方面,本發(fā)明提供一種疾病風險表征預測方法,包括:
11、獲取待檢測目標對象的生物標志物指標;
12、利用預先訓練好的疾病風險評估模型對獲取的待檢測目標對象的生物標志物指標進行處理,得到目標對象患病風險表征結(jié)果;其中,訓練所述疾病風險評估模型包括:所述疾病風險評估模型包括基礎學習器和元學習器,將目標對象的生物標志物指標輸入所述基礎學習器,所述元學習器輸出患病風險表征結(jié)果;訓練所述疾病風險評估模型中,所述基礎學習器用于使用訓練數(shù)據(jù)集作為輸入特征,每個基礎學習器對生物標志物的預測結(jié)果及其參數(shù)作為輸出;所述元學習器用于將每個基礎學習器的輸出作為輸入,通過優(yōu)化算法選擇最優(yōu)的基礎學習器組合,將選中的基礎學習器的結(jié)果進行集成學習,輸出最終的患病風險的概率預測結(jié)果。
13、作為第二方面的進一步限定,獲取所述訓練數(shù)據(jù)集包括:基于疾病相關rna-seq數(shù)據(jù)集,獲得與待表征疾病相關潛在途徑的差異表達蛋白編碼生物標志物,定義為重要生物標志物;使用互信息法評估各個重要生物標志物與待表征疾病狀態(tài)之間的相關性,使用遞歸特征消除模型來捕獲風險必需生物標志物,即根據(jù)各個重要生物標志物的重要性對其進行排序;對風險必需生物標志物應用多項式特征推導和互信息過濾識別其它與待表征疾病相關的基本生物標志物,得到所述訓練數(shù)據(jù)集。
14、作為第二方面的進一步限定,使用互信息法評估各個重要生物標志物與待表征疾病狀態(tài)之間的相關性,使用遞歸特征消除模型來捕獲風險必需生物標志物,即根據(jù)各個重要生物標志物的重要性對其進行排序,包括:使用互信息法評估每個生物標志物與疾病狀態(tài)的相關性,保留互信息值在0-0.052之間的生物標志物,利用預先訓練好的遞歸特征消除模型遍歷所有的重要生物標志物,根據(jù)遞歸特征消除模型的排名記錄每個重要生物標志物的重要性,當k-fold交叉驗證中的曲線下面積值不再隨著生物標志物數(shù)量的減少而增加時,保留此時的生物標志物數(shù)量;其中,將預先訓練好的遞歸特征消除模帶入遞歸特征消除搜索過程,設置遞歸特征消除參數(shù),即一次只消除一個重要生物標志物,遞歸特征消除過程將每次從當前數(shù)據(jù)集中移除重要性最低的重要生物標志物。
15、作為第二方面的進一步限定,預先訓練好的遞歸特征消除模型的訓練包括:采用基于tree-structured?parzen?estimator方法的貝葉斯優(yōu)化算法,引入5倍k-fold交叉驗證的數(shù)據(jù),對梯度提升樹算法模型的超參數(shù)進行優(yōu)化微調(diào),得到遞歸特征消除模型。
16、作為第二方面的進一步限定,對風險必需生物標志物應用多項式特征推導和互信息過濾識別其它與待表征疾病相關的基本生物標志物,包括:將風險必需生物標志物經(jīng)過多次多項式特征推導,將推導出的生物標志物與多項式推導之前的風險必需生物標志物結(jié)合,再通過互信息分析過濾相對無用的信息,得到其它與待表征疾病相關的基本生物標志物。
17、本發(fā)明有益效果:將生物標志物的選擇納入融合模型的構(gòu)建過程中,融合模型使用盡可能少的reb來表征與疾病本身相關的大多數(shù)特征信息;通過特征推導獲取了不同生物標記物之間的潛在調(diào)節(jié)作用,使模型獲得更有效的表征信息;融合模型平衡了多個基本學習器的優(yōu)缺點,可以從多個基本學習器中相互學習到不一致的信息,具有更好的信息提取能力、更強的穩(wěn)健性。