本技術(shù)涉及基于特定計(jì)算模型的計(jì)算機(jī)系統(tǒng)領(lǐng)域,具體地,涉及一種中樞神經(jīng)系統(tǒng)腫瘤分類模型的構(gòu)建方法、系統(tǒng)以及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、dna甲基化(dna?methylation)是屬于表觀遺傳學(xué)(epigenetics)的現(xiàn)象之一。隨著精準(zhǔn)醫(yī)學(xué)的興起,dna甲基化在胚胎發(fā)育、x染色體失活、免疫系統(tǒng)調(diào)節(jié)、腫瘤發(fā)生等生物學(xué)過程中發(fā)揮作用。甲基化芯片陣列技術(shù)是基于微陣列技術(shù)發(fā)展起來的一種高通量dna甲基化檢測方法,它利用特異性探針與基因組dna上的甲基化位點(diǎn)結(jié)合,通過熒光標(biāo)記的方式,實(shí)現(xiàn)不同位點(diǎn)的甲基化狀態(tài)分析。
2、甲基化芯片:甲基化芯片技術(shù)是基于微陣列技術(shù)發(fā)展起來的一種高通量dna甲基化檢測方法,它利用特異性探針與基因組dna上的甲基化位點(diǎn)結(jié)合,通過熒光標(biāo)記的方式,實(shí)現(xiàn)不同位點(diǎn)的甲基化狀態(tài)分析。目前常用的是illumina甲基化芯片,它是一種被廣泛應(yīng)用的dna甲基化檢測工具,它能以單堿基分辨率檢測全基因組上的cpg位點(diǎn),設(shè)計(jì)的位點(diǎn)主要分布在cpg島、干細(xì)胞中的非cpg甲基化位點(diǎn)、多種腫瘤的差異甲基化位點(diǎn)、啟動(dòng)子、增強(qiáng)子等區(qū)域。隨著甲基化芯片的發(fā)展,迭代出現(xiàn)了不同版本,根據(jù)檢測的cpg位點(diǎn)數(shù)量不同,分為450k(infinium?human?methylation450)、850k(methylation?epic?v1.0)、935k(methylation?epic?v2.0)。其中,850k(methylation?epic?v1.0)芯片已于2023年停產(chǎn)。目前市面可以購買到的是935k(methylation?epic?v2.0)芯片。
3、全基因組甲基化譜檢測:2021年世界衛(wèi)生組織中樞神經(jīng)系統(tǒng)腫瘤分類(第五版)中提及:目前,全基因組甲基化譜檢測是腦部和脊髓腫瘤分類的有效輔助方法,可能是具有不常見形態(tài)特征腫瘤的最有效分類方法,以及可能是識(shí)別一些罕見腫瘤和亞型的唯一方法。基于全基因組dna甲基化譜對中樞神經(jīng)系統(tǒng)腫瘤分類的方法,已被多篇文獻(xiàn)報(bào)道。目前通用的腫瘤分類依據(jù)是2016年第4版中樞神經(jīng)系統(tǒng)腫瘤的世界衛(wèi)生組織分類,將2801個(gè)樣本分為了91類甲基化分類(82類腫瘤類型和9類對照樣本類型)。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提出了一種中樞神經(jīng)系統(tǒng)腫瘤分類模型的訓(xùn)練方法,其特征在于,包括:基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結(jié)果獲取原始數(shù)據(jù);將所述850k甲基化芯片和所述935k甲基化芯片的原始數(shù)據(jù)的格式轉(zhuǎn)化為所述450k甲基化芯片的原始數(shù)據(jù)的格式;將所述850k甲基化芯片和所述935k甲基化芯片的轉(zhuǎn)化后的數(shù)據(jù)以及所述450k甲基化芯片的原始數(shù)據(jù)合并,得到合并后的數(shù)據(jù);基于minfi包的preprocessillumina()函數(shù),對所述合并后的數(shù)據(jù)進(jìn)行均一化處理,得到均一化的數(shù)據(jù);將所述均一化的數(shù)據(jù)轉(zhuǎn)換為methylset類數(shù)據(jù);去除所述methylset類數(shù)據(jù)中的非唯一比對的探針數(shù)據(jù)、與snp相關(guān)的探針數(shù)據(jù)以及與性染色體相關(guān)的探針數(shù)據(jù),得到數(shù)據(jù)矩陣;將所述數(shù)據(jù)矩陣拆分為訓(xùn)練集和測試集;基于所述訓(xùn)練集訓(xùn)練隨機(jī)森林分類模型;基于所述森林分類模型將所述測試集數(shù)據(jù)輸出為原始分?jǐn)?shù);基于所述原始分?jǐn)?shù),通過glmnet包的cv.glmnet()函數(shù),訓(xùn)練基于多元線性回歸算法的校正分?jǐn)?shù)分類模型。
2、根據(jù)本技術(shù)實(shí)施方式,基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結(jié)果獲取原始數(shù)據(jù)包括:通過minfi包的read.metharray.sheet()和read.metharray.exp()兩個(gè)函數(shù)將450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結(jié)果轉(zhuǎn)化成所述原始數(shù)據(jù),所述原始數(shù)據(jù)為rgchannelset類數(shù)據(jù)。
3、根據(jù)本技術(shù)實(shí)施方式,基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結(jié)果獲取原始數(shù)據(jù)還包括:
4、使用annotation()函數(shù)對所述935k甲基化芯片轉(zhuǎn)化的所述原始數(shù)據(jù)進(jìn)行注釋,注釋信息是illuminahumanmethylationepicv2。
5、根據(jù)本技術(shù)實(shí)施方式,將所述850k甲基化芯片和所述935k甲基化芯片的原始數(shù)據(jù)的格式轉(zhuǎn)化為所述450k甲基化芯片的原始數(shù)據(jù)的格式包括:通過minfi包的combinearrays()函數(shù)將所述850k甲基化芯片的原始數(shù)據(jù)的格式轉(zhuǎn)換成所述450k甲基化芯片的原始數(shù)據(jù)的格式;通過convertarray_935k()函數(shù)將935k甲基化芯片的原始數(shù)據(jù)的格式轉(zhuǎn)換成所述850k甲基化芯片的原始數(shù)據(jù)的格式,再利用所述minfi包的combinearrays()函數(shù)將所述850k甲基化芯片的原始數(shù)據(jù)的格式轉(zhuǎn)換成所述450k甲基化芯片的原始數(shù)據(jù)的格式。
6、根據(jù)本技術(shù)實(shí)施方式,所述convertarray_935k()函數(shù)所執(zhí)行的步驟包括:獲取所述935k甲基化芯片和所述850k甲基化芯片包含的所有探針編號,取850k甲基化芯片和935k甲基化芯片探針編號相同的探針,得到第一組探針;將所述第一組探針分為type?i類型、type?ii類型、type?snpi類型、type?snpii類型、type?control類型,依次按照各類型去除所述935k甲基化芯片和所述850k甲基化芯片中探針編號相同,但顏色通道、探針序列a、探針序列b中至少一項(xiàng)不一致的探針,得到第二組探針;去除所述935k甲基化芯片的原始數(shù)據(jù)中不屬于所述第二組探針的探針數(shù)據(jù),并將所述935k甲基化芯片的原始數(shù)據(jù)的注釋信息修改為illuminahumanmethylationepic。
7、本技術(shù)還提供了一種中樞神經(jīng)系統(tǒng)腫瘤分類模型的訓(xùn)練系統(tǒng),該訓(xùn)練系統(tǒng)包括:存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)可執(zhí)行指令;以及一個(gè)或多個(gè)處理器,所述一個(gè)或多個(gè)處理器與所述存儲(chǔ)器通信以執(zhí)行所述可執(zhí)行指令從而完成以下操作:基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結(jié)果獲取原始數(shù)據(jù);將所述850k甲基化芯片和所述935k甲基化芯片的原始數(shù)據(jù)的格式轉(zhuǎn)化為所述450k甲基化芯片的原始數(shù)據(jù)的格式;將所述850k甲基化芯片和所述935k甲基化芯片的轉(zhuǎn)化后的數(shù)據(jù)以及所述450k甲基化芯片的原始數(shù)據(jù)合并,得到合并后的數(shù)據(jù);基于minfi包的preprocessillumina()函數(shù),對所述合并后的數(shù)據(jù)進(jìn)行均一化處理,得到均一化的數(shù)據(jù);將所述均一化的數(shù)據(jù)轉(zhuǎn)換為methylset類數(shù)據(jù);去除所述methylset類數(shù)據(jù)中的非唯一比對的探針數(shù)據(jù)、與snp相關(guān)的探針數(shù)據(jù)以及與性染色體相關(guān)的探針數(shù)據(jù),得到數(shù)據(jù)矩陣;將所述數(shù)據(jù)矩陣拆分為訓(xùn)練集和測試集;基于所述訓(xùn)練集訓(xùn)練隨機(jī)森林分類模型;基于所述森林分類模型將所述測試集數(shù)據(jù)輸出為原始分?jǐn)?shù);基于所述原始分?jǐn)?shù),通過glmnet包的cv.glmnet()函數(shù),訓(xùn)練基于多元線性回歸算法的校正分?jǐn)?shù)分類模型。
8、本技術(shù)還提供了一種用于訓(xùn)練中樞神經(jīng)系統(tǒng)腫瘤分類模型的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)可執(zhí)行指令,所述可執(zhí)行指令能夠被一個(gè)或多個(gè)處理器執(zhí)行以完成以下操作:基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結(jié)果獲取原始數(shù)據(jù);將所述850k甲基化芯片和所述935k甲基化芯片的原始數(shù)據(jù)的格式轉(zhuǎn)化為所述450k甲基化芯片的原始數(shù)據(jù)的格式;將所述850k甲基化芯片和所述935k甲基化芯片的轉(zhuǎn)化后的數(shù)據(jù)以及所述450k甲基化芯片的原始數(shù)據(jù)合并,得到合并后的數(shù)據(jù);基于minfi包的preprocessillumina()函數(shù),對所述合并后的數(shù)據(jù)進(jìn)行均一化處理,得到均一化的數(shù)據(jù);將所述均一化的數(shù)據(jù)轉(zhuǎn)換為methylset類數(shù)據(jù);去除所述methylset類數(shù)據(jù)中的非唯一比對的探針數(shù)據(jù)、與snp相關(guān)的探針數(shù)據(jù)以及與性染色體相關(guān)的探針數(shù)據(jù),得到數(shù)據(jù)矩陣;將所述數(shù)據(jù)矩陣拆分為訓(xùn)練集和測試集;基于所述訓(xùn)練集訓(xùn)練隨機(jī)森林分類模型;基于所述森林分類模型將所述測試集數(shù)據(jù)輸出為原始分?jǐn)?shù);基于所述原始分?jǐn)?shù),通過glmnet包的cv.glmnet()函數(shù),訓(xùn)練基于多元線性回歸算法的校正分?jǐn)?shù)分類模型。
9、本技術(shù)提供的中樞神經(jīng)系統(tǒng)腫瘤分類系統(tǒng)的構(gòu)建方法使用多種類型的甲基化芯片數(shù)據(jù),實(shí)現(xiàn)了450k甲基化芯片、850k甲基化芯片和935k甲基化芯片在一個(gè)分類系統(tǒng)上的兼容,提高了利用甲基化芯片區(qū)分中樞神經(jīng)系統(tǒng)腫瘤類別的效率。