本發(fā)明屬于生物信息學(xué),涉及一種微小殘留病灶的檢測(cè)方法、裝置、存儲(chǔ)介質(zhì)和設(shè)備。
背景技術(shù):
1、微小殘留病灶(minimal?residual?disease,mrd)是指在患者接受治療期間或之后,其體內(nèi)仍有少量腫瘤細(xì)胞或者微小病灶的臨床狀態(tài),也叫分子殘留病變(molecularresidual?disease)或可測(cè)量殘留病灶(measurable?residual?disease)。mrd代表著腫瘤細(xì)胞的持續(xù)存在和臨床進(jìn)展可能。已有大量研究證實(shí)通過mrd監(jiān)測(cè)能夠有效地評(píng)估腫瘤患者的治療效果、警示復(fù)發(fā)或轉(zhuǎn)移風(fēng)險(xiǎn)和判斷疾病預(yù)后等,意義重大。
2、循環(huán)腫瘤dna(ctdna)是一類來源于死亡癌細(xì)胞的細(xì)胞外dna的總稱,攜帶有腫瘤細(xì)胞所特有的遺傳變異信息(如點(diǎn)突變、小片段插入或缺失、甲基化等)和片段組學(xué)特征,它們可以真實(shí)地反映腫瘤細(xì)胞的遺傳特征。近年來,在實(shí)體腫瘤中基于ctdna的mrd評(píng)估(ctdna-mrd)的臨床數(shù)據(jù)和證據(jù)越來越多,開啟了實(shí)體瘤mrd檢測(cè)的熱潮。
3、實(shí)體瘤ctdna-mrd檢測(cè)的技術(shù)主要有兩大類:1)腫瘤知情分析(tumor-informedassays):對(duì)原發(fā)腫瘤組織進(jìn)行全外顯子組測(cè)序以鑒定患者的特異基因組變異圖譜,然后定制個(gè)性化的集合(panel)進(jìn)行ctdna檢測(cè)分析。2)腫瘤不知情分析(tumor-uninformedassays):也可以稱為tumor-agnostic?assays或assays,即無需原發(fā)腫瘤組織,僅依賴于一組預(yù)先選定引物/探針設(shè)計(jì)的與癌癥類型相關(guān)的固定panel進(jìn)行ctdna檢測(cè)分析。
4、領(lǐng)星生物csmt算法提供了一種用于檢測(cè)多癌種mrd的方法,使用臨床全外顯子組測(cè)序技術(shù)對(duì)患者腫瘤和血液對(duì)照進(jìn)行基因檢測(cè),獲得患者腫瘤基因譜全貌,然后構(gòu)建腫瘤特意的dna突變圖譜,據(jù)此設(shè)計(jì)和定制患者特異性的檢測(cè)panel,采用超高深度測(cè)序(≥100000×),定期評(píng)估患者mrd水平。此種方法可達(dá)到0.02%的靈敏度,但需要患者腫瘤組織,個(gè)性化定制panel并進(jìn)行超高深度測(cè)序,整個(gè)過程較為繁復(fù),且不能保證所有患者都可以進(jìn)行個(gè)性化定制。
5、綜上所述,開發(fā)一種采樣簡(jiǎn)單且具有普適性的mrd檢測(cè)方法具有重要意義。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足和實(shí)際需求,本發(fā)明提供一種微小殘留病灶的檢測(cè)方法、裝置、存儲(chǔ)介質(zhì)和設(shè)備,開發(fā)設(shè)計(jì)操作簡(jiǎn)單、準(zhǔn)確性高、具備普適性同時(shí)不需要對(duì)樣本進(jìn)行超高深度測(cè)序的方法。
2、為達(dá)上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,本發(fā)明提供一種構(gòu)建微小殘留病灶的檢測(cè)模型的方法,所述方法包括以下步驟:
4、(1)對(duì)待測(cè)樣本的測(cè)序數(shù)據(jù)進(jìn)行預(yù)處理,得到包括待測(cè)樣本測(cè)序讀段序列質(zhì)量、比對(duì)位置、比對(duì)質(zhì)量及模板長(zhǎng)度的bam文件;
5、(2)基于步驟(1)得到的bam文件計(jì)算待測(cè)樣本特征值數(shù)據(jù),所述待測(cè)樣本特征值數(shù)據(jù)包括拷貝數(shù)絕對(duì)偏差中位值、不同長(zhǎng)度范圍片段數(shù)目占比、片段長(zhǎng)度分布比值比、顯著性甲基化位點(diǎn)和突變位點(diǎn);
6、所述拷貝數(shù)絕對(duì)偏差中位值的計(jì)算方法包括:
7、將待測(cè)樣本基因組常染色體區(qū)域均勻劃分為n個(gè)區(qū)域,每個(gè)區(qū)域長(zhǎng)度范圍為3kb~100kb(例如可以是4kb、5kb、6kb、7kb、8kb、9kb、15kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb或90kb,具體可以根據(jù)樣本測(cè)序深度進(jìn)行調(diào)整,例如1×全基因組測(cè)序可以選擇100kb,500×全外顯子測(cè)序可以選擇30kb),計(jì)算每個(gè)區(qū)域的拷貝數(shù);取待測(cè)樣本所有區(qū)域拷貝數(shù)的中位值作為所述拷貝數(shù)絕對(duì)偏差中位值;
8、(3)將步驟(2)計(jì)算得到的待測(cè)樣本特征值數(shù)據(jù),輸入判別模型中,輸出待測(cè)樣本是否發(fā)生轉(zhuǎn)移的結(jié)果。
9、本發(fā)明中,采用tumor-uninformed?assays的技術(shù)策略,通過患者血液樣本獲取ctdna多維度信息,包括拷貝數(shù)特征、片段組學(xué)特征、突變特征和甲基化特征等,并結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)一步提高微小殘留病灶(mrd)檢測(cè)靈敏度和特異性,在提高mrd檢測(cè)性能的同時(shí),大大降低樣本獲取難度,具有更高的適用性。
10、本發(fā)明的檢測(cè)方法具備普適性,無需針對(duì)患者個(gè)性化定制,可檢測(cè)多種腫瘤疾病如乳腺癌等mrd。
11、優(yōu)選地,步驟(2)所述拷貝數(shù)(cn)的計(jì)算方法包括:
12、區(qū)域i的拷貝數(shù)cni的計(jì)算公式為:其中,rdsi代表樣本區(qū)域i中的測(cè)序讀段數(shù)目,rdbi代表基線區(qū)域i中的測(cè)序讀段數(shù)目,各區(qū)域測(cè)序讀段數(shù)據(jù)基線根據(jù)健康人數(shù)據(jù)建立。
13、優(yōu)選地,拷貝數(shù)絕對(duì)偏差中位值mad的計(jì)算公式為:mad=median{cn1,cni,cni,……,cni,……,cnn},其中,median代表取一列數(shù)的中位值,cni代表區(qū)域i的拷貝數(shù)。
14、優(yōu)選地,步驟(3)所述判別模型包括:邏輯回歸(lr)模型、隨機(jī)森林(rf)、支持向量機(jī)(svm)或基于貝葉斯的模型中任意一種。
15、優(yōu)選地,步驟(1)所述預(yù)處理包括數(shù)據(jù)質(zhì)控、比對(duì)、排序和去重。
16、優(yōu)選地,區(qū)域i的拷貝數(shù)cni的計(jì)算公式為:其中,rdsi代表樣本區(qū)域i中的測(cè)序讀段數(shù)目,rdbi代表基線區(qū)域i中的測(cè)序讀段數(shù)目,各區(qū)域測(cè)序讀段數(shù)據(jù)基線根據(jù)健康人數(shù)據(jù)建立。
17、優(yōu)選地,拷貝數(shù)絕對(duì)偏差中位值mad的計(jì)算公式為:mad=median{cn1,cni,cni,……,cni,……,cnn},其中,median代表取一列數(shù)的中位值,cni代表區(qū)域i的拷貝數(shù)。
18、優(yōu)選地,步驟(2)所述不同長(zhǎng)度范圍片段數(shù)目占比的計(jì)算方法包括:
19、基于步驟(1)得到的bam文件提取dna片段的長(zhǎng)度分布{nl1,nl2,nl3,……,nli,……,nlm},以及總片段數(shù)目t,其中,li代表第i個(gè)長(zhǎng)度范圍,共m個(gè),nli代表落在長(zhǎng)度范圍li中的片段數(shù)目;
20、按公式(1)計(jì)算不同長(zhǎng)度范圍片段數(shù)目占比pli;
21、pli=nli/t??公式(1)。
22、優(yōu)選地,所述長(zhǎng)度范圍li劃分包括20~150bp、90~150bp、100~150bp、160~180bp、163~169bp、180~220bp和250~320bp等。
23、優(yōu)選地,步驟(2)所述片段長(zhǎng)度分布比值比的計(jì)算方法包括:
24、使用兩個(gè)所述不同長(zhǎng)度范圍片段數(shù)目占比計(jì)算比值,例如可包括p20~150/p160~180、p100~150/p163~169和p20~150/p180~220等,其中p20~150表示長(zhǎng)度范圍為20~150的長(zhǎng)度范圍片段數(shù)目占比,p163~169表示長(zhǎng)度范圍為163~169的長(zhǎng)度范圍片段數(shù)目占比,根據(jù)公式(1)得到。
25、優(yōu)選地,所述顯著性甲基化和突變位點(diǎn)的篩選方法包括:
26、整理腫瘤樣本和正常樣本的臨床信息、甲基化位點(diǎn)甲基化水平信息和突變信息,將樣本疾病狀態(tài)作為y(0代表正常,1代表腫瘤),臨床信息作為協(xié)變量,各甲基化位點(diǎn)和突變位點(diǎn)分別作為x,使用廣義線性回歸模型做回歸分析,分析與y有顯著性影響的x值,閾值可以選取小于等于0.05的值(例如可選擇5*10e-8作為閾值),當(dāng)回歸分析p值小于閾值,則判定x值具有顯著性,對(duì)應(yīng)的甲基化位點(diǎn)或突變位點(diǎn)與樣本疾病狀態(tài)顯著相關(guān)。
27、優(yōu)選地,所述臨床信息包括年齡、性別、種族、tnm分期、疾病分期和治療信息等。
28、本發(fā)明具體實(shí)施例中,選擇甲基化位點(diǎn)一共25978個(gè),突變位點(diǎn)一共8828個(gè),閾值設(shè)置為5*10e-8,最終共篩選出6283個(gè)甲基化位點(diǎn)和3041個(gè)突變位點(diǎn)。
29、第二方面,本發(fā)明提供一種微小殘留病灶的檢測(cè)裝置,所述裝置用于執(zhí)行第一方面所述的構(gòu)建微小殘留病灶的檢測(cè)模型的方法的步驟,所述裝置包括:
30、測(cè)序數(shù)據(jù)預(yù)處理模塊,用于執(zhí)行包括:
31、對(duì)待測(cè)樣本的測(cè)序數(shù)據(jù)進(jìn)行預(yù)處理,得到包括待測(cè)樣本測(cè)序讀段序列質(zhì)量、比對(duì)位置、比對(duì)質(zhì)量及模板長(zhǎng)度的bam文件;
32、獲取待測(cè)樣本特征值數(shù)據(jù)模塊,用于執(zhí)行包括:
33、基于測(cè)序數(shù)據(jù)預(yù)處理模塊得到的bam文件計(jì)算待測(cè)樣本特征值數(shù)據(jù),所述待測(cè)樣本特征值數(shù)據(jù)包括拷貝數(shù)絕對(duì)偏差中位值、不同長(zhǎng)度范圍片段數(shù)目占比、片段長(zhǎng)度分布比值比、顯著性甲基化位點(diǎn)和突變位點(diǎn);
34、所述拷貝數(shù)絕對(duì)偏差中位值的計(jì)算方法包括:
35、將待測(cè)樣本基因組常染色體區(qū)域均勻劃分為n個(gè)區(qū)域,每個(gè)區(qū)域長(zhǎng)度范圍為3kb~100kb(具體可以根據(jù)樣本測(cè)序深度進(jìn)行調(diào)整,例如1×全基因組測(cè)序可以選擇100kb,500×全外顯子測(cè)序可以選擇30kb),計(jì)算每個(gè)區(qū)域的拷貝數(shù);取待測(cè)樣本所有區(qū)域拷貝數(shù)的中位值作為所述拷貝數(shù)絕對(duì)偏差中位值;
36、判斷模塊,用于執(zhí)行包括:
37、將所述待測(cè)樣本特征值數(shù)據(jù),輸入判別模型中,輸出待測(cè)樣本是否發(fā)生轉(zhuǎn)移的結(jié)果。
38、優(yōu)選地,所述判別模型包括:邏輯回歸(lr)模型、隨機(jī)森林(rf)、支持向量機(jī)(svm)或基于貝葉斯的模型中任意一種。
39、優(yōu)選地,所述預(yù)處理包括數(shù)據(jù)質(zhì)控、比對(duì)、排序和去重。
40、優(yōu)選地,所述不同長(zhǎng)度范圍片段數(shù)目占比的計(jì)算方法包括:
41、基于步驟(1)得到的bam文件提取dna片段的長(zhǎng)度分布{nl1,nl2,nl3,……,nli,……,nlm},以及總片段數(shù)目t,其中,li代表第i個(gè)長(zhǎng)度范圍,共m個(gè),nli代表落在長(zhǎng)度范圍li中的片段數(shù)目;按公式(1)計(jì)算不同長(zhǎng)度范圍片段數(shù)目占比pli;
42、pli=nli/t??公式(1)。
43、優(yōu)選地,所述長(zhǎng)度范圍li劃分包括20~150bp、90~150bp、100~150bp、160~180bp、163~169bp、180~220bp和250~320bp。
44、優(yōu)選地,所述片段長(zhǎng)度分布比值比的計(jì)算方法包括:
45、使用兩個(gè)所述不同長(zhǎng)度范圍片段數(shù)目占比計(jì)算比值,例如可包括p20~150/p160~180、p100~150/p163~169和p20~150/p180~220等,其中p20~150表示長(zhǎng)度范圍為20~150bp的長(zhǎng)度范圍片段數(shù)目占比,p163~169表示長(zhǎng)度范圍為163~169bp的長(zhǎng)度范圍片段數(shù)目占比,根據(jù)公式(1)得到。
46、優(yōu)選地,所述顯著性甲基化和突變位點(diǎn)的篩選方法包括:
47、整理腫瘤樣本和正常樣本的臨床信息、甲基化位點(diǎn)甲基化水平信息和突變信息,將樣本疾病狀態(tài)作為y(0代表正常,1代表腫瘤),臨床信息作為協(xié)變量,各甲基化位點(diǎn)和突變位點(diǎn)分別作為x,使用廣義線性回歸模型做回歸分析,分析與y有顯著性影響的x值,閾值選取小于等于0.05的值,當(dāng)回歸分析p值小于閾值,則判定x值具有顯著性,對(duì)應(yīng)的甲基化位點(diǎn)或突變位點(diǎn)與樣本疾病狀態(tài)顯著相關(guān)。
48、優(yōu)選地,所述臨床信息包括年齡、性別、種族、tnm分期、疾病分期和治療信息。
49、第三方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序或指令,所述計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的構(gòu)建微小殘留病灶的檢測(cè)模型的方法的步驟。
50、第四方面,本發(fā)明提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序或指令,所述計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的構(gòu)建微小殘留病灶的檢測(cè)模型的方法的步驟。
51、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
52、本發(fā)明設(shè)計(jì)了一種實(shí)施簡(jiǎn)單,適用性更高的mrd檢測(cè)方法,綜合多維度癌癥分子信號(hào)(拷貝數(shù)特征、片段組學(xué)特征、突變特征和甲基化特征),在提高mrd檢測(cè)性能的同時(shí),大大降低樣本獲取難度,可用于八項(xiàng)測(cè)序的高測(cè)序深度的方法,具有更高的適用性。