本發(fā)明涉及胃癌研究,具體為基于nsga-ann的特征基因篩選方法及cerna網(wǎng)絡(luò)的構(gòu)建方法。
背景技術(shù):
1、胃癌是一種起源于胃黏膜上皮的惡性腫瘤,一般表現(xiàn)為腺癌。早期胃癌的癥狀并不明顯,少數(shù)患者會產(chǎn)生惡心嘔吐或胃潰瘍等上消化道癥狀,難以引起足夠的重視。而晚期胃癌的進展十分迅速,且容易出現(xiàn)遠端轉(zhuǎn)移,晚期胃癌患者的5年生存率一般只有3%至5%,因此胃癌的早期篩查對于爭取治療時間、延緩胃癌發(fā)展速度乃至降低死亡率都格外重要。目前的胃癌早期篩查金標(biāo)準(zhǔn)是內(nèi)鏡及鏡下活檢,盡管十分準(zhǔn)確,但對時間和設(shè)備的要求更高,同時患者也要承受一定的痛苦。隨著分子生物技術(shù)的進步,在分子層面進行疾病診斷和治療的方法正在發(fā)展,其中的代表為靶向治療技術(shù)。該技術(shù)針對惡性腫瘤細胞上存在的特異性結(jié)合位點,設(shè)計相應(yīng)的抗腫瘤藥物并定向與腫瘤細胞結(jié)合發(fā)生作用,或是干擾腫瘤細胞的原癌基因表達以達到精確殺滅癌細胞的目的。然而該技術(shù)需要高度精確的靶點位置才有可能使治療效果最大化,考慮到胃癌的異質(zhì)性特點以及靶點檢測技術(shù)仍不夠精確,個體化靶向治療依然發(fā)展緩慢。
2、腫瘤的發(fā)展與基因表達存在密切聯(lián)系,癌細胞的生長往往受到多個基因的調(diào)控,這種調(diào)控關(guān)系盡管復(fù)雜且多樣,但與正常細胞相比則有顯著的區(qū)別,同時也不易受到個體和環(huán)境因素的干擾。因此腫瘤的差異表達基因可作為一種明確的生物標(biāo)記,用于辨別腫瘤組織和正常組織,并幫助闡明胃癌的發(fā)生機制,這能為胃癌的分子診斷和靶向治療提供新的思路。隨著信息技術(shù)和高通量測序技術(shù)發(fā)展,目前已有相當(dāng)數(shù)量的基因轉(zhuǎn)錄譜數(shù)據(jù)被測出。由基因芯片收集到的基因轉(zhuǎn)錄數(shù)據(jù)一般有上萬維,而其中只有少數(shù)基因?qū)毎陌┳兤鸬疥P(guān)鍵作用,多數(shù)基因的表達會受到這些關(guān)鍵基因的影響。想要挖掘出胃癌發(fā)展的本質(zhì)機制和關(guān)鍵控制靶點,就需要去除多數(shù)的冗余基因。
3、去除冗余基因本質(zhì)是特征選擇的過程,目前已開發(fā)出了多種計算方法用于特征選擇任務(wù),大致可分為過濾型、纏繞型和嵌入型方法。這些方法多是基于目標(biāo)基因?qū)εR床性狀的相關(guān)程度進行打分排序,或是結(jié)合分類模型同步進行選擇驗證,例如signal等人使用信噪比作為評價標(biāo)準(zhǔn),利用k-近鄰算法(knn)作為分類器,所選擇的特征基因在前列腺癌數(shù)據(jù)集上實現(xiàn)了良好的分類效果。李等人使用改進的信噪比評價函數(shù)篩選基因,并使用支持向量機(svm)進行分類,在白血病數(shù)據(jù)集上實現(xiàn)了接近100%的準(zhǔn)確率。li等人使用改進的排序過濾器結(jié)合爬山算法進行基因選擇,在18種腫瘤基因表達數(shù)據(jù)集上進行測試,實現(xiàn)了最高94。29%的準(zhǔn)確率。近年來,深度學(xué)習(xí)和進化優(yōu)化算法也開始應(yīng)用于基因篩選任務(wù)中,例如yuvaraj等人將卷積神經(jīng)網(wǎng)絡(luò)(cnn)與改進過的鯨魚優(yōu)化算法(iwoa)結(jié)合,構(gòu)建了一個強化學(xué)習(xí)模型并用于肺癌樣本的基因表達數(shù)據(jù)中,分類精度達到了97。5%。soumen等人根據(jù)基因表達矩陣?yán)L制了基因間相關(guān)性熱力圖,并選定與癌癥最相關(guān)的區(qū)域作為感興趣區(qū)域(rois),輸入到一個特定的圖神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練并預(yù)測,最終在白血病7129個原始基因中篩選出73個重點基因,在肺癌12533個原始基因中篩選出89個重點基因,在分類精度上均實現(xiàn)了良好性能。fu等人采用改進的多目標(biāo)海洋捕食者優(yōu)化算法,對16種常用腫瘤基因表達數(shù)據(jù)集進行測試,結(jié)果表明該方法在應(yīng)對高維度數(shù)據(jù)方面具有相當(dāng)大的優(yōu)勢。xiong等人提出了一種可解釋的異構(gòu)圖變換器模型,其結(jié)合了差異基因的編碼蛋白互作關(guān)系和kegg調(diào)控通路信息,相比傳統(tǒng)的篩選方法可以同時關(guān)注蛋白和作用通路對疾病的影響,在關(guān)鍵基因鑒別效果上均領(lǐng)先其他方法。
4、盡管目前已經(jīng)有許多方法用于關(guān)鍵基因的選擇,但多數(shù)研究只針對基因的表達情況,忽視了非編碼基因和mirna在基因調(diào)控中的影響。部分算法由于考慮了基因與基因和基因與蛋白質(zhì)之間的復(fù)雜關(guān)系,導(dǎo)致模型整體復(fù)雜度較高,數(shù)據(jù)獲取不易,因此需要對以上問題提出一種新的解決方案。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供基于nsga-ann的特征基因篩選方法及cerna網(wǎng)絡(luò)的構(gòu)建方法,旨在利用機器學(xué)習(xí)算法結(jié)合生物信息統(tǒng)計方法創(chuàng)建一個簡單易行的基因識別框架,并應(yīng)用于mrna,mirna和lncrna三類數(shù)據(jù)中,構(gòu)建競爭性內(nèi)源rna(cerna)調(diào)控網(wǎng)絡(luò),深入挖掘與胃癌發(fā)展密切相關(guān)的關(guān)鍵基因和預(yù)后情況指示物,為胃癌的早期分子診斷和靶向治療的目標(biāo)提供參考依據(jù),以解決背景技術(shù)中提出的技術(shù)問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于nsga-ann的特征基因篩選方法,至少包括以下步驟:
3、s1:進行數(shù)據(jù)收集,獲得癌癥樣本和正常對照樣本作為數(shù)據(jù),進而確定整個數(shù)據(jù)集由mrna、mirna和lncrna三種核苷酸序列構(gòu)成;
4、s2:分別對三種核苷酸數(shù)據(jù)進行差異分析,獲得在胃癌樣本和正常樣本中存在顯著差異表達的核苷酸,并對mrna數(shù)據(jù)進行wgcna劃分模塊,獲得差異化mirna、選擇目標(biāo)模塊和差異化incrna;
5、s3:進行數(shù)據(jù)預(yù)處理,根據(jù)注釋文件去除了錯誤和無效rna,并分離三種核苷酸;
6、s4:設(shè)計基于nsga-ann的特征基因篩選算法,基于nsga-ann的特征基因篩選算法為自適應(yīng)多步循環(huán)的優(yōu)化迭代方法,當(dāng)單次nsga選擇的基因數(shù)不再變化時,自動選取當(dāng)前適應(yīng)度高于某一閾值的個體,綜合其選擇并啟動下一次完整的nsga迭代過程,這種迭代訓(xùn)練方式可確保算法維持在優(yōu)化過程;
7、s5:設(shè)定基因選擇的評價方法,確定基于nsga-ann的特征基因篩選算法的可行性;
8、s6:通過nsga-ann的特征基因篩選算法進行對應(yīng)的篩選。
9、進一步的,所述s2至少包括以下步驟:
10、對于轉(zhuǎn)錄組數(shù)據(jù),使用負二項分布進行差異檢驗,當(dāng)基因的檢驗值滿足以下條件時,可以認(rèn)為是顯著差異的;
11、|log2?fold?change|gene≥1
12、這表示基因表達的變化倍數(shù)至少為2倍(或者反向變化至0。5倍);
13、log2表示以2為底的對數(shù)變換,這樣變化倍數(shù)為1的基因在對數(shù)尺度上變化值為1或-1,這個條件幫助篩選出在生物學(xué)上具有顯著變化的基因;
14、adjust?pgene<0.05
15、是進行多重檢驗校正后的p值,用于控制假陽性率,低于0.05的p值表明基因表達的變化在統(tǒng)計上顯著,校正后的p值用于處理多次比較問題,減少假陽性發(fā)現(xiàn),這表示在統(tǒng)計檢驗中,基因的p值經(jīng)過多重檢驗校正后小于0.05,表明結(jié)果具有統(tǒng)計學(xué)顯著性;
16、采用加權(quán)基因共表達網(wǎng)絡(luò)分析,即為wgcna描述不同樣品之間基因關(guān)聯(lián)模式;
17、表達量出現(xiàn)協(xié)同變化的基因群往往存在著上下游關(guān)系,若該基因群與臨床性狀又具有強相關(guān)性,則意味著該基因群的核心基因有可能是與疾病關(guān)系密切的驅(qū)動基因;
18、wgcna基于聚類的思想,根據(jù)基因間的協(xié)同變化劃分出不同的基因模塊,并計算各基因模塊與臨床性狀的相關(guān)性;
19、通過該方法可以迅速縮小關(guān)鍵基因的查找范圍;
20、由于wgcna通過計算基因間的相關(guān)性系數(shù)構(gòu)建共表達網(wǎng)絡(luò),所有基因均應(yīng)該考慮在內(nèi),否則網(wǎng)絡(luò)的權(quán)重可能會發(fā)生改變。
21、進一步地,所述基于nsga-ann的特征基因篩選算法的偽代碼如下:
22、
23、
24、cerna網(wǎng)絡(luò)的構(gòu)建方法,基于上述的基于nsga-ann的特征基因篩選方法中的得到的三種差異核苷酸;
25、結(jié)合mirtarbase和mirbase數(shù)據(jù)庫,獲得由7個mrna,5個lncrna和6個mirna組成的調(diào)控網(wǎng)絡(luò);根據(jù)競爭性內(nèi)源rna理論,確定胃癌中存在hotair/hottip-has-mir-143/has-mir-125b/has-mir559-erbb2調(diào)控通路,erbb2作為已知的原癌基因,該通路對于人為控制erbb2表達具有進一步研究的價值。
26、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
27、本發(fā)明利用公共基因表達數(shù)據(jù)庫,運用非支配排序遺傳算法和多層感知機結(jié)合生物統(tǒng)計方法實現(xiàn)了對胃癌關(guān)鍵相關(guān)基因的篩選,并構(gòu)建了競爭性內(nèi)源rna調(diào)控網(wǎng)絡(luò),發(fā)現(xiàn)了包括spp1、mmp13、erbb2等在內(nèi)的12個關(guān)鍵基因以及一條原癌基因調(diào)控通路,其中11個基因均會顯著影響胃癌患者的預(yù)后情況,有潛力作為靶點治療的目標(biāo)或進行早期分子診斷的指標(biāo)。