本發(fā)明涉及胰腺癌早期診斷,尤其是結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法。
背景技術(shù):
1、胰腺導(dǎo)管腺癌(pdac)是最常見的胰腺癌,約占胰腺癌的90%,多在侵襲性不可治愈期被發(fā)現(xiàn)。由于胰腺癌預(yù)后差、侵襲性強、治療耐藥和診斷晚期,其發(fā)病率幾乎等于胰腺癌患者的死亡率。因此,實現(xiàn)胰腺癌的早期診斷,是胰腺癌診治的重要熱點課題之一。目前,胰腺癌的篩查手段主要集中在內(nèi)鏡超聲(eus)、磁共振成像(mri)等醫(yī)學(xué)影像手段。近年來,胰腺癌生物標志物鑒定和胰腺癌患者內(nèi)源化合物變化分析,也為胰腺癌的早期診斷和治療提供新的思路。
2、胰腺癌腫瘤的生物標志物和胰腺癌患者內(nèi)源性化合物的變化,可以通過對體液,如血液、尿液的代謝組學(xué)研究來獲取。已有研究通過ms和nmr技術(shù)分析胰腺癌患者的血清和尿液代謝譜,發(fā)現(xiàn)了一些潛在的生物標志物。然而,目前相關(guān)研究主要集中在胰腺癌患者與健康人群之間的分類,胰腺癌具體分期的研究仍然面臨挑戰(zhàn)?,F(xiàn)有的代謝組學(xué)方法難以在不同期pdac的代謝譜上獲得顯著的組間差異,這限制了通過代謝組學(xué)促進胰腺癌疾病診斷的進展。代謝組學(xué)數(shù)據(jù)特征變量多,有著高維稀疏的特點。機器學(xué)習(xí)能夠處理多變量數(shù)據(jù),通過訓(xùn)練從數(shù)據(jù)中提取知識,選取變量特征促進決策。盡管已有不少研究使用機器學(xué)習(xí)算法從代謝譜數(shù)據(jù)進行學(xué)習(xí)并實現(xiàn)了相應(yīng)疾病的預(yù)測,但對于難以區(qū)分的數(shù)據(jù),機器學(xué)習(xí)表現(xiàn)并不佳。深度學(xué)習(xí)作為機器學(xué)習(xí)技術(shù)的延伸,具有強大的學(xué)習(xí)能力和自動化訓(xùn)練性能,能夠?qū)ふ易兞恐g的非線性關(guān)系,實現(xiàn)更準確的分類預(yù)測,已被廣泛運用于各種預(yù)測問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于解決現(xiàn)有技術(shù)中的問題。
2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:提供一種結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法,包括以下步驟:
3、采集血清樣本并獲取血清代謝譜數(shù)據(jù),構(gòu)成數(shù)據(jù)集;
4、構(gòu)建由深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)任意組成的不同組合模型,用于對血清代謝譜數(shù)據(jù)進行特征提?。?/p>
5、構(gòu)建基于不同組合模型的不同混合模型,所述混合模型包括特征提取部分和分類部分,特征提取部分采用組合模型實現(xiàn)對血清代謝譜數(shù)據(jù)的特征提取,分類部分采用機器學(xué)習(xí)算法根據(jù)提取的特征進行分類;
6、基于數(shù)據(jù)集對不同混合模型進行訓(xùn)練,獲得訓(xùn)練好的不同混合模型并比較不同混合模型的性能,選擇性能最好的混合模型作為預(yù)測模型;
7、利用預(yù)測模型實現(xiàn)對pdac的分期預(yù)測。
8、優(yōu)選的,采用adasyn算法對數(shù)據(jù)集進行擴充。
9、優(yōu)選的,所述不同組合模型包括:
10、結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)構(gòu)建包括cnn層和lstm層的cnn-lstm模型,利用cnn層提取血清代謝譜的局部特征,利用lstm層處理序列數(shù)據(jù);
11、結(jié)合深度神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建包括dnn層和cnn層的dnn-cnn模型,利用dnn層提取全局特征,再由cnn層提取局部特征;
12、結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和雙向長短期記憶網(wǎng)絡(luò)構(gòu)建包括cnn層和雙向lstm層的cnn-bilstm模型,結(jié)合cnn層和雙向lstm層處理局部特征和前后文信息;
13、結(jié)合深度神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)構(gòu)建包括dnn層和lstm層的dnn-lstm模型,結(jié)合dnn層和lstm層處理高維特征和時間依賴信息。
14、優(yōu)選的,所述機器學(xué)習(xí)分類算法包括支持向量機、隨機森林、梯度提升決策樹和極限梯度提升。
15、優(yōu)選的,所述基于數(shù)據(jù)集對不同混合模型進行訓(xùn)練,具體為:通過網(wǎng)格搜索算法優(yōu)化cnn-lstm模型、dnn-cnn模型、cnn-bilstm模型和dnn-lstm模型及機器學(xué)習(xí)算法的超參數(shù),包括學(xué)習(xí)率、訓(xùn)練迭代次數(shù)、批處理大小、卷積核大小、池化核大小、正則化系數(shù)和lstm層神經(jīng)元數(shù)量,獲得訓(xùn)練好的不同混合模型。
16、優(yōu)選的,所述比較不同混合模型的性能,包括:
17、比較基于cnn-lstm模型的混合模型、基于dnn-cnn模型的混合模型、基于cnn-bilstm模型的混合模型和基于dnn-lstm模型的混合模型的roc曲線預(yù)測,獲得各混合模型的真陽性率和假陽性率;
18、比較基于cnn-lstm模型的混合模型、基于dnn-cnn模型的混合模型、基于cnn-bilstm模型的混合模型和基于dnn-lstm模型的混合模型的混淆矩陣,獲得各混合模型的分類準確率。
19、優(yōu)選的,所述預(yù)測模型采用cnn-lstm模型,利用cnn層提取血清代謝譜的局部特征,利用lstm層處理序列數(shù)據(jù),最后結(jié)合全連接層和relu激活函數(shù)進行特征展開;模型的輸出再作為機器學(xué)習(xí)分類算法的輸入,由機器學(xué)習(xí)分類算法進行pdac分期預(yù)測。
20、優(yōu)選的,所述cnn-lstm模型的cnn層包括多個卷積層和池化層,其中,卷積層包括tanh激活函數(shù);所述cnn-lstm模型的包括多層lstm層。
21、本發(fā)明還提供一種結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測裝置,包括:
22、數(shù)據(jù)采集模塊,采集血清樣本并獲取血清代謝譜數(shù)據(jù),構(gòu)成數(shù)據(jù)集;
23、組合模型構(gòu)建模塊,構(gòu)建由深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)任意組成的不同組合模型,用于對血清代謝譜數(shù)據(jù)進行特征提取;
24、混合模型構(gòu)建模塊,構(gòu)建基于不同組合模型的不同混合模型,所述混合模型包括特征提取部分和分類部分,特征提取部分采用組合模型實現(xiàn)對血清代謝譜數(shù)據(jù)的特征提取,分類部分采用機器學(xué)習(xí)算法根據(jù)提取的特征進行分類;
25、預(yù)測模型選擇模塊,基于數(shù)據(jù)集對不同混合模型進行訓(xùn)練,獲得訓(xùn)練好的不同混合模型并比較不同混合模型的性能,選擇性能最好的混合模型作為預(yù)測模型;
26、預(yù)測模型應(yīng)用模塊,利用預(yù)測模型實現(xiàn)對pdac的分期預(yù)測。
27、本發(fā)明具有如下有益效果:
28、(1)本發(fā)明的檢查數(shù)據(jù)采用血清代謝譜數(shù)據(jù),其獲取過程簡單且侵入性低,患者易于接受,同時提供豐富的生物化學(xué)信息,有助于更準確地判斷疾病狀態(tài);并且,血清代謝譜數(shù)據(jù)的高維特性和復(fù)雜性非常適合用于cnn-lstm-ml混合模型,從而充分發(fā)揮深度學(xué)習(xí)和機器學(xué)習(xí)算法的優(yōu)勢。
29、(2)本發(fā)明創(chuàng)新性地結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(cnn)和長短期記憶網(wǎng)絡(luò)(lstm),分別用于提取血清代謝譜數(shù)據(jù)的局部特征和捕捉時間序列信息,從而全面挖掘數(shù)據(jù)的復(fù)雜特征;該模型能夠處理多維度的血清代謝譜數(shù)據(jù),且由于cnn-lstm模塊能夠高效提取和表示復(fù)雜特征,這些特征可以無縫兼容多種機器學(xué)習(xí)算法設(shè)計允許其結(jié)合多種機器學(xué)習(xí)分類算法,通過這種設(shè)計,模型的泛化能力和預(yù)測準確性顯著提升,有效增強了對復(fù)雜代謝譜數(shù)據(jù)的分類與預(yù)測效果。
30、以下結(jié)合附圖及實施例對本發(fā)明作進一步詳細說明,但本發(fā)明不局限于實施例。
1.一種結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法,其特征在于,采用adasyn算法對數(shù)據(jù)集進行擴充。
3.根據(jù)權(quán)利要求1所述的結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法,其特征在于,所述不同組合模型包括:
4.根據(jù)權(quán)利要求3所述的結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法,其特征在于,所述機器學(xué)習(xí)分類算法包括支持向量機、隨機森林、梯度提升決策樹和極限梯度提升。
5.根據(jù)權(quán)利要求4所述的結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法,其特征在于,所述基于數(shù)據(jù)集對不同混合模型進行訓(xùn)練,具體為:通過網(wǎng)格搜索算法優(yōu)化cnn-lstm模型、dnn-cnn模型、cnn-bilstm模型和dnn-lstm模型及機器學(xué)習(xí)算法的超參數(shù),包括學(xué)習(xí)率、訓(xùn)練迭代次數(shù)、批處理大小、卷積核大小、池化核大小、正則化系數(shù)和lstm層神經(jīng)元數(shù)量,獲得訓(xùn)練好的不同混合模型。
6.根據(jù)權(quán)利要求5所述的結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法,其特征在于,所述比較不同混合模型的性能,包括:
7.根據(jù)權(quán)利要求6所述的結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法,其特征在于,所述預(yù)測模型采用cnn-lstm模型,利用cnn層提取血清代謝譜的局部特征,利用lstm層處理序列數(shù)據(jù),最后結(jié)合全連接層和relu激活函數(shù)進行特征展開;模型的輸出再作為機器學(xué)習(xí)分類算法的輸入,由機器學(xué)習(xí)分類算法進行pdac分期預(yù)測。
8.根據(jù)權(quán)利要求7所述的結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測方法,其特征在于,所述cnn-lstm模型的cnn層包括多個卷積層和池化層,其中,卷積層包括tanh激活函數(shù);所述cnn-lstm模型的包括多層lstm層。
9.一種結(jié)合深度學(xué)習(xí)與機器學(xué)習(xí)的pdac分期預(yù)測裝置,其特征在于,包括: