檢測體細(xì)胞單核苷酸突變的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種檢測體細(xì)胞單核苷酸突變的方法和裝置。該方法包括以下步驟:S1,對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對,得到所有SNP位點(diǎn)的數(shù)據(jù);S2,篩選出發(fā)生在剪接位點(diǎn)上和外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一SNP位點(diǎn)集;S3,去除第一SNP位點(diǎn)集中千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集;S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn),得到第三SNP位點(diǎn)集;以及S5,從第三SNP位點(diǎn)集中篩選出支持序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法實(shí)現(xiàn)了利用單一樣品對體細(xì)胞突變的檢測,降低了成本。
【專利說明】檢測體細(xì)胞單核苷酸突變的方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及高通量測序領(lǐng)域,具體而言,涉及一種檢測體細(xì)胞單核苷酸突變的方 法和裝置。
【背景技術(shù)】
[0002] 個體的每個細(xì)胞中都可能會攜帶有兩種類型的突變:種系突變和體細(xì)胞突變,種 系突變是指在生殖細(xì)胞中發(fā)生的可遺傳突變,也稱為生殖細(xì)胞突變。假如種系突變發(fā)生,則 個體中的所有細(xì)胞都會攜帶該種系突變。種系突變之外的突變?yōu)轶w細(xì)胞突變,這些突變并 不是從親代遺傳得到,而是受環(huán)境和其他因素影響而發(fā)生了改變。
[0003] 使用高通量測序的方式可以測到覆蓋樣本中所有基因的序列,結(jié)合相關(guān)變異檢測 軟件可檢測到樣本中目標(biāo)基因上存在的所有變異信息。目前能夠用來檢測體細(xì)胞突變的方 法是使用mutect軟件,它在檢測體細(xì)胞突變時,需要一組成對的樣品,即可能帶有體細(xì)胞 突變的待檢樣品和可以提供種系突變的對照樣品。將兩個樣品進(jìn)行比對,當(dāng)突變在待檢樣 品中出現(xiàn),而未在對照樣品中出現(xiàn),則認(rèn)為該突變?yōu)榇龣z樣品中的一個體細(xì)胞突變。使用該 方法檢測體細(xì)胞突變時需要對兩個樣品分別進(jìn)行兩次高通量測序,增加了成本。
[0004] 目前使用單個樣本做變異檢測的軟件,對于檢測結(jié)果往往不區(qū)分種系突變和體細(xì) 胞突變。而提供體細(xì)胞突變信息的軟件,如mutect又需要一組成對的樣品。因而,現(xiàn)有技 術(shù)中還未開發(fā)出既能采用單個樣本進(jìn)行檢測從而降低檢測成本又能檢測到體細(xì)胞突變的 檢測方法,仍需要對現(xiàn)有技術(shù)進(jìn)行改進(jìn),以滿足行業(yè)內(nèi)對上述體細(xì)胞突變的檢測要求。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的主要目的在于提供一種檢測體細(xì)胞單核苷酸突變的方法和裝置,不僅能 夠利用單個樣品實(shí)現(xiàn)體細(xì)胞突變的檢測,而且降低檢測成本。
[0006] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種檢測體細(xì)胞單核苷酸突 變的方法,該方法包括以下步驟:S1,對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn) 行比對,得到所有SNP位點(diǎn)的數(shù)據(jù);其中,SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置 信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息;S2,從所有SNP位 點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非 同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集;S3,去除第一 SNP位點(diǎn)集中千人突變頻率高于 5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集;S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的 SNP位點(diǎn),得到第三SNP位點(diǎn)集;以及S5,從第三SNP位點(diǎn)集中篩選出測序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0007] 進(jìn)一步地,在步驟Sl中,來源于體細(xì)胞的DNA測序數(shù)據(jù)包括全基因組DNA測序數(shù) 據(jù)或目標(biāo)區(qū)域的DNA測序數(shù)據(jù)。
[0008] 進(jìn)一步地,當(dāng)來源于體細(xì)胞的DNA測序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測序數(shù)據(jù)時,來源于 體細(xì)胞的DNA測序數(shù)據(jù)的制備步驟包括:對來源于體細(xì)胞的DNA通過液相雜交捕獲的方法 制備成目標(biāo)區(qū)域的DNA測序文庫;對目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序,得到來源于體細(xì)胞 的DNA測序數(shù)據(jù)。
[0009] 進(jìn)一步地,步驟S3包括:將第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫進(jìn)行比對,得到比 對數(shù)據(jù);從比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集。
[0010] 進(jìn)一步地,步驟S4包括:將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù)據(jù)庫進(jìn)行比對,篩 選出第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn),得到過濾SNP位點(diǎn);對過濾SNP位點(diǎn) 與Clinvar數(shù)據(jù)庫進(jìn)行比對,篩選出過濾SNP位點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn),得到第 三SNP位點(diǎn)集。
[0011] 進(jìn)一步地,步驟S4中:單核苷酸多態(tài)性數(shù)據(jù)庫和Clinvar數(shù)據(jù)庫中來源于體細(xì)胞 突變的SNP位點(diǎn)的SAO值為2或3。
[0012] 進(jìn)一步地,步驟S5包括:對測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn) 行統(tǒng)計,得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列 的第二總序列數(shù);計算第二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值,得到同 一位置的測序序列的突變頻率;從第三SNP位點(diǎn)集中篩選出突變頻率低于75%的SNP位 點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0013] 根據(jù)本發(fā)明的另一方面,提供了一種檢測體細(xì)胞單核苷酸突變的裝置,該裝置包 括以下模塊:序列比對模塊,用于對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行 比對,得到所有SNP位點(diǎn)的數(shù)據(jù);其中,SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置信 息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息;第一篩選模塊:用 于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或/和發(fā)生在外顯子上且 導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集;第二篩選模塊;用于從第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集;第三篩選模塊: 用于從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn),得到第三SNP位點(diǎn)集;第四篩 選模塊:用于從第三SNP位點(diǎn)集中篩選出測序數(shù)據(jù)中包含SNP位點(diǎn)的序列的頻率低于75% 的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0014] 進(jìn)一步地,裝置還包括測序模塊,測序模塊包括:全基因組DNA測序子模塊:用于 對來源于體細(xì)胞的全基因組DNA測序文庫進(jìn)行測序,得到來源于體細(xì)胞的DNA測序數(shù)據(jù);或 者目標(biāo)區(qū)域DNA測序子模塊:用于對來源于體細(xì)胞的目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序,得 到來源于體細(xì)胞的DNA測序數(shù)據(jù)。
[0015] 進(jìn)一步地,目標(biāo)區(qū)域DNA測序子模塊中還包括:液相雜交捕獲單元:用于對來源于 體細(xì)胞的DNA進(jìn)行雜交捕獲,得到目標(biāo)區(qū)域的DNA測序文庫。
[0016] 進(jìn)一步地,第二篩選模塊還包括:第一比對子模塊:用于將第一 SNP位點(diǎn)集與人類 千人基因組數(shù)據(jù)庫進(jìn)行比對,得到比對數(shù)據(jù);第一篩選子模塊:用于從比對數(shù)據(jù)中去除千 人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集。
[0017] 進(jìn)一步地,第三篩選模塊還包括:第二比對子模塊:用于將第二SNP位點(diǎn)集與單核 苷酸多態(tài)性數(shù)據(jù)庫進(jìn)行比對,篩選出第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn),得到 過濾SNP位點(diǎn);第三比對子模塊:用于對過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對,篩選出 過濾SNP位點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn),得到第三SNP位點(diǎn)集。
[0018] 進(jìn)一步地,第四篩選模塊還包括:統(tǒng)計子模塊:對測序數(shù)據(jù)中比對到基因組同一 位置上的測序序列數(shù)進(jìn)行統(tǒng)計,得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹 配含有SNP位點(diǎn)的序列的第二總序列數(shù);計算子模塊:計算第二總序列數(shù)占第一總序列數(shù) 和第二總序列數(shù)之和的比值,得到同一位置的測序序列的突變頻率;第三篩選子模塊:用 于從第三SNP位點(diǎn)集中篩選出頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的 SNP位點(diǎn)。
[0019] 應(yīng)用本發(fā)明的技術(shù)方案,通過僅利用來源體細(xì)胞的測序數(shù)據(jù)與參考基因組進(jìn)行比 對,并將篩選出所有來源于體細(xì)胞的SNP位點(diǎn),接著將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位 點(diǎn)篩選出來,然后對這些SNP位點(diǎn)按照已知的種系細(xì)胞和體細(xì)胞的特征進(jìn)行篩選,便可得 到體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法簡單且實(shí)現(xiàn)了單一樣品對體細(xì)胞突變的檢測, 而且降低了檢測成本。
【專利附圖】
【附圖說明】
[0020] 構(gòu)成本申請的一部分的說明書附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示 意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0021] 圖1示出了根據(jù)本發(fā)明的一種典型的實(shí)施例中檢測體細(xì)胞單核苷酸突變的方法 流程示意圖;以及
[0022] 圖2示出了了根據(jù)本發(fā)明的一種典型的實(shí)施例中檢測體細(xì)胞單核苷酸突變的裝 置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023] 需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相 互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0024] 正如【背景技術(shù)】部分所提到的,現(xiàn)有技術(shù)中檢測體細(xì)胞突變的方法需要至少對兩個 樣品進(jìn)行測序,檢測成本較高,而采用單個樣品測序時,又無法檢測出體細(xì)胞突變。針對上 述缺陷,在本發(fā)明一種典型的實(shí)施方式中,提供了一種檢測體細(xì)胞單核苷酸突變的方法,如 圖1所示,該方法包括以下步驟:S1,對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn) 行比對,得到所有SNP位點(diǎn)的數(shù)據(jù);其中,SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置 信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息;S2,從所有SNP位 點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非 同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集;S3,去除第一 SNP位點(diǎn)集中千人突變頻率高于 5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集;S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的 SNP位點(diǎn),得到第三SNP位點(diǎn)集;以及S5,從第三SNP位點(diǎn)集中篩選出測序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0025] 本發(fā)明的上述方法,通過僅利用來源體細(xì)胞的測序數(shù)據(jù)與參考基因組進(jìn)行比對, 并將篩選出所有來源于體細(xì)胞的SNP位點(diǎn),接著將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn) 篩選出來,然后對這些SNP位點(diǎn)按照已知的種系細(xì)胞和體細(xì)胞的特征進(jìn)行篩選,便可得到 體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法簡單且實(shí)現(xiàn)了單一樣品對體細(xì)胞突變的檢測,而 且降低了檢測成本。
[0026] 本發(fā)明的上述方法中,步驟S2可以根據(jù)各SNP位點(diǎn)所在的染色體的功能區(qū)域進(jìn)行 篩選,發(fā)生在染色體的外顯子區(qū)域的屬于非同義突變的SNP位點(diǎn),會導(dǎo)致其編碼的氨基酸 發(fā)生改變,其結(jié)果是導(dǎo)致蛋白質(zhì)發(fā)生突變,可能會影響蛋白質(zhì)的功能,因此篩選具有上述特 點(diǎn)的位點(diǎn);發(fā)生在剪接位點(diǎn)處的SNP位點(diǎn)可能會影響氨基酸的編碼,因此這樣的位點(diǎn)也需 要保留。在本發(fā)明一種優(yōu)選的實(shí)施例中,可以利用Knowngene數(shù)據(jù)庫注釋出的功能(func) 信息即可篩選得到符合上述要求的SNP位點(diǎn)。
[0027] 本發(fā)明的上述方法中,上述步驟Sl中,來源于體細(xì)胞的DNA測序數(shù)據(jù)包括全基因 組DNA測序數(shù)據(jù)或目標(biāo)區(qū)域的DNA測序數(shù)據(jù)。在本發(fā)明一種優(yōu)選的實(shí)施例中,當(dāng)來源于體 細(xì)胞的DNA測序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測序數(shù)據(jù)時,來源于體細(xì)胞的DNA測序數(shù)據(jù)的制備 步驟包括:對來源于體細(xì)胞的DNA通過液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測序文 庫;對目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序,得到來源于體細(xì)胞的DNA測序數(shù)據(jù)。當(dāng)需要對全 基因組的體細(xì)胞突變進(jìn)行分析時,則不需要進(jìn)行液相雜交捕獲的步驟,直接將全基因組制 備成測序文庫進(jìn)行測序即可。
[0028] 在本發(fā)明一種具體的實(shí)施例中,上述待檢的樣品可以是腫瘤組織,也可以是外周 血中的游離DNA。上述樣品制備成測序文庫的步驟中,根據(jù)樣本的不同,使用不同的手段進(jìn) 行DNA的提取。使用自動聚焦聲波樣本處理儀(covaris)將DNA隨機(jī)打斷成雙鏈DNA,雙鏈 DNA的主峰在150-200bp。在隨機(jī)打斷的DNA的3'段添加上一個"A"堿基,生成一個單堿 基的粘性末端,對3端加"A"的DNA進(jìn)行adapter的連接。將連接有接頭的DNA片段使用 PCR技術(shù)進(jìn)行DNA富集。取富集后的DNA樣品750ng進(jìn)行雜交捕獲,在此過程中按照美國 安捷倫公司的SureSelect人類基因組外顯子捕獲試劑盒提供的說明書進(jìn)行操作。在本發(fā) 明中,采用高通量測序?qū)χ苽涞臏y序文庫進(jìn)行測序,具體測序平臺可以選擇Illumina公司 的 Hiseq2000、Hiseq2500、Nextseq500、Miseq,Life Technology 公司的 Ion torrent、Ion Proton等。各個測序平臺采用的測序方式雖不盡相同,最終都能夠得到來源于待測樣品的 體細(xì)胞的DNA測序數(shù)據(jù)。
[0029] 在本發(fā)明的上述方法中,上述步驟S3可以根據(jù)所得到的第一 SNP位點(diǎn)集中各SNP 位點(diǎn)的信息的不同,通過選擇并比對合適的數(shù)據(jù)庫即可將符合體細(xì)胞突變特點(diǎn)的SNP位點(diǎn) 進(jìn)行去除。在本發(fā)明一種優(yōu)選的實(shí)施例中,上述步驟S3包括:將第一 SNP位點(diǎn)集與人類千 人基因組數(shù)據(jù)庫進(jìn)行比對,得到比對數(shù)據(jù);從比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP 位點(diǎn),得到第二SNP位點(diǎn)集。體細(xì)胞突變在人類千人基因組數(shù)據(jù)庫(即IOOOg數(shù)據(jù)庫)中多 為低頻突變,因而,如果第一 SNP位點(diǎn)集中某一 SNP位點(diǎn)的突變頻率小于5%或在上述數(shù)據(jù) 庫中沒有注釋出突變頻率信息,即該SNP位點(diǎn)的突變?yōu)榈皖l突變,屬于體細(xì)胞突變的特征, 因而需要保留。另外,若在IOOOg數(shù)據(jù)庫中沒有給出相應(yīng)的信息,有可能該突變位點(diǎn)屬于新 的突變位點(diǎn),因而也需要保留此類SNP位點(diǎn)。
[0030] 在本發(fā)明的上述方法中,上述步驟S4同樣可以通過選擇合適的數(shù)據(jù)庫進(jìn)行比對, 只要能夠?qū)⒚黠@不符合體細(xì)胞突變特征的SNP位點(diǎn)去除掉即可得到上述第三SNP位點(diǎn)集。 在本發(fā)明一種優(yōu)選的實(shí)施例中,上述步驟S4包括:將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù) 據(jù)庫進(jìn)行比對,篩選出第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn),得到過濾SNP位 點(diǎn);對過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對,篩選出過濾SNP位點(diǎn)中來源于體細(xì)胞突變 的SNP位點(diǎn),得到第三SNP位點(diǎn)集。
[0031] dbSNP 數(shù)據(jù)庫(http://www. ncbi. nlm. nih. gov/projects/SNP/)是單核苷酸多 態(tài)性數(shù)據(jù)庫的簡稱,該數(shù)據(jù)庫不僅包含單核苷酸多態(tài)性信息,也包含其他類型的突變信息, 如小片段的插入和缺失多態(tài)性、串聯(lián)重復(fù)序列、多核苷酸多態(tài)性,這些突變在這個數(shù)據(jù)庫 中會給出特定的參考SNP編號(reference SNP ID)用以識別每一個突變,該數(shù)據(jù)庫給出 的位點(diǎn)不一定與疾病發(fā)生相關(guān)。dbSNP數(shù)據(jù)庫同時會給出突變的來源,表現(xiàn)形式是給出 SAO(Variant Allele Origin,突變來源)的值。
[0032] Clinvar 數(shù)據(jù)庫(http://www. ncbi. nlm. nih. gov/clinvar/)能夠提供與致病性 相關(guān)的突變。Clinvar數(shù)據(jù)庫能夠給出人類突變信息,同時解釋這些突變與人類健康的關(guān) 系,如果該突變與人類疾病發(fā)生相關(guān),數(shù)據(jù)庫會給出相關(guān)疾病的名稱,并給出相應(yīng)的支持證 據(jù)。通過Clinvar數(shù)據(jù)庫注釋出的信息,我們能夠判斷突變是否有致病性。Clinvar同時 會注釋出突變的來源,表現(xiàn)形式是給出SAO的值,SAO為0時表示該突變來源未知,SAO為1 時表示該突變?yōu)榉N系細(xì)胞突變,SAO為2時表示該突變?yōu)轶w細(xì)胞突變,SAO為3時表示該突 變既是種系突變也是體細(xì)胞突變。
[0033] 本發(fā)明的上述實(shí)施例,通過利用上述兩個數(shù)據(jù)庫中的信息即可篩選出具有體細(xì)胞 特征的SNP位點(diǎn),從而去除掉明顯不屬于體細(xì)胞突變的SNP位點(diǎn)。優(yōu)選上述步驟S4中單 核苷酸多態(tài)性數(shù)據(jù)庫和Clinvar數(shù)據(jù)庫中來源于體細(xì)胞突變的SNP位點(diǎn)的SAO(Variant Allele Origin)值為2或3,將SAO為2或3的SNP位點(diǎn)保留下來,即保留了具有體細(xì)胞特 征的SNP位點(diǎn),為篩選得到真正的SNP位點(diǎn)提供了較大可能性。
[0034] 在本發(fā)明的一種優(yōu)選的實(shí)施例中,上述步驟S5包括:對測序數(shù)據(jù)中比對到基因組 同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計,得到同一位置上匹配參考基因組序列的第一總序列數(shù) 和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù);計算第二總序列數(shù)占第一總序列數(shù)和第二總 序列數(shù)之和的比值,得到所述同一位置的測序序列的突變頻率;從第三SNP位點(diǎn)集中篩選 出突變頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0035] 在上述測序數(shù)據(jù)中,測序信息包含以下四個數(shù)值,支持匹配參考基因型正鏈序列 數(shù)目、支持匹配參考基因型負(fù)鏈序列數(shù)目、支持匹配突變基因型正鏈序列數(shù)目和支持匹配 突變基因型負(fù)鏈的序列數(shù)目,如果(匹配參考基因型正鏈序列數(shù)目+匹配參考基因型負(fù)鏈 序列數(shù)目V(匹配參考基因型正鏈reads+匹配參考基因型負(fù)鏈reads+匹配突變基因型 正鏈reads+匹配突變基因型負(fù)鏈reads)的比值小于0. 75,即某SNP位點(diǎn)的突變頻率小于 0. 75,則這樣篩選得到的SNP位點(diǎn)即為包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0036] 本發(fā)明的上述方法已經(jīng)能夠相對準(zhǔn)確地檢測到來源于單個樣本的體細(xì)胞單核苷 酸突變,為了進(jìn)一步提高檢測的準(zhǔn)確性,在本發(fā)明一種更優(yōu)選的實(shí)施例中,上述方法還包 括將在上述各篩選步驟中不符合條件的SNP位點(diǎn)進(jìn)行再次篩選,利用靶向數(shù)據(jù)庫(來自 MyCancerGenome)中的包括SNP和indel突變類型信息對上述不符合條件的SNP位點(diǎn)進(jìn)行 過濾。根據(jù)染色體、位置、參考基因型和突變基因型的信息進(jìn)行比對篩選,如果某SNP位點(diǎn) 的存在于靶向數(shù)據(jù)庫,則將該SNP位點(diǎn)加入到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)中。另 夕卜,若上述不符合條件的SNP位點(diǎn)出現(xiàn)在高頻突變數(shù)據(jù)庫(CLINSIG. pathogenic)中,則表 明該SNP位點(diǎn)屬于人群頻率大于5%且為致病基因的位點(diǎn),則該位點(diǎn)也加入到上述包含體 細(xì)胞單核苷酸突變的SNP位點(diǎn)中。
[0037] 在本發(fā)明另一種典型的實(shí)施方式中,提供了一種檢測體細(xì)胞單核苷酸突變的裝 置,如圖2所示,該裝置包括以下模塊:序列比對模塊,用于對來源于體細(xì)胞的DNA測序數(shù) 據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對,得到所有SNP位點(diǎn)的數(shù)據(jù);其中,SNP位點(diǎn)的數(shù)據(jù)包括SNP 位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類 型信息;第一篩選模塊:用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位 點(diǎn)或/和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集; 第二篩選模塊;用于從第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn),得到第二 SNP位點(diǎn)集;第三篩選模塊:用于從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn), 得到第三SNP位點(diǎn)集;第四篩選模塊:用于從第三SNP位點(diǎn)集中篩選出測序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0038] 本發(fā)明的上述裝置,通過序列比對模塊僅利用來源體細(xì)胞的測序數(shù)據(jù)與參考基因 組進(jìn)行比對,篩選出所有來源于體細(xì)胞的SNP位點(diǎn),接著利用第一篩選模塊將發(fā)生在外顯 子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來,然后利用第二篩選模塊和第三篩選模塊對這些SNP 位點(diǎn)按照已知的種系細(xì)胞突變和體細(xì)胞突變的特征進(jìn)行篩選,最后通過第四篩選模塊,測 序數(shù)據(jù)中包含SNP位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷酸突變 的SNP位點(diǎn)。該裝置不僅實(shí)現(xiàn)了利用單一樣品對體細(xì)胞突變的檢測,而且降低了檢測成本。
[0039] 在本發(fā)明的上述裝置中,第一篩選模塊可以根據(jù)現(xiàn)有的篩選模塊進(jìn)行合理改進(jìn), 只要能夠?qū)崿F(xiàn)將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來的功能即可適用于本發(fā) 明。在本發(fā)明一種優(yōu)選的實(shí)施例中,上述裝置還包括測序模塊,該測序模塊包括:全基因組 DNA測序子模塊:用于對來源于體細(xì)胞的全基因組DNA測序文庫進(jìn)行測序,得到來源于體細(xì) 胞的DNA測序數(shù)據(jù);目標(biāo)區(qū)域DNA測序子模塊:用于對來源于體細(xì)胞的目標(biāo)區(qū)域的DNA測序 文庫進(jìn)行測序,得到來源于體細(xì)胞的DNA測序數(shù)據(jù)。
[0040] 在本發(fā)明另一種優(yōu)選的實(shí)施例中,上述目標(biāo)區(qū)域DNA測序子模塊中還包括:液相 雜交捕獲單元:用于對來源于體細(xì)胞的DNA進(jìn)行雜交捕獲,得到目標(biāo)區(qū)域的DNA測序文庫。 通過液相雜交捕獲單元根據(jù)想要捕獲的目標(biāo)區(qū)域的DNA序列而預(yù)先設(shè)計好的探針與修復(fù) 好的帶有接頭序列的DNA片段進(jìn)行雜交,即可將所感興趣的目標(biāo)區(qū)域DNA片段從全基因組 DNA片段中捕獲出來,然后連上測序引物序列就形成了目標(biāo)區(qū)域DNA測序文庫,這樣的文庫 能夠從全基因組中把感興趣的目的區(qū)域富集出來,從而提高了目標(biāo)區(qū)域突變位點(diǎn)的檢出效 率。采用液相雜交捕獲單元能夠提高目標(biāo)區(qū)域DNA的捕獲效率。
[0041] 在本發(fā)明的上述裝置中,第二篩選模塊還包括:第一比對子模塊:用于將第一 SNP 位點(diǎn)集與人類千人基因組數(shù)據(jù)庫進(jìn)行比對,得到比對數(shù)據(jù);第一篩選子模塊:用于從比對 數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn)集。該實(shí)施例中第二篩選 模塊通過第一比對子模塊將第一 SNP位點(diǎn)集與人類千人基因組數(shù)據(jù)庫進(jìn)行比對,得到比對 數(shù)據(jù),然后利用第一篩選子模塊從比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到 第二SNP位點(diǎn)集。人類千人基因組數(shù)據(jù)庫中包括了 1000個人類全基因組測序數(shù)據(jù)中出現(xiàn) 的低頻突變或高頻突變的SNP位點(diǎn),對于突變頻率高于5%的SNP位點(diǎn),由于其在人類群體 中出現(xiàn)頻率較高,通常認(rèn)為是類似于種系細(xì)胞突變所引起的突變或者是遺傳引起的突變, 而非因環(huán)境或其他因素引起的種系細(xì)胞分化之后的體細(xì)胞突變,因而通過與上述數(shù)據(jù)庫進(jìn) 行比對,可以把某個體細(xì)胞來源的第一 SNP位點(diǎn)集中不屬于高頻突變位點(diǎn)的SNP位點(diǎn)保留 下來,從而得到可能真正引起功能突變的第二SNP位點(diǎn)集。
[0042] 在本發(fā)明的上述裝置中,上述第三篩選模塊通過選擇合適的篩選模塊進(jìn)行比對, 只要能夠?qū)⒚黠@不符合體細(xì)胞突變特征的SNP位點(diǎn)去除掉即可。在本發(fā)明一種優(yōu)選的實(shí)施 例中,上述第三篩選模塊包括:第二比對子模塊:用于將第二SNP位點(diǎn)集與單核苷酸多態(tài)性 數(shù)據(jù)庫進(jìn)行比對,篩選出第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn),得到過濾SNP位 點(diǎn);第三比對子模塊:用于對過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對,篩選出過濾SNP位 點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn),得到第三SNP位點(diǎn)集。
[0043] 上述第二比對子模塊和第三比對子模塊通過將第二SNP位點(diǎn)集與dbSNP數(shù)據(jù)庫 (http://www. nebi. nlm. nih. gov/projects/SNP/)和 Clinvar 數(shù)據(jù)庫進(jìn)行比對,dbSNP 數(shù)據(jù) 庫不僅包含單核苷酸多態(tài)性信息,也包含其他類型的突變信息,如小片段的插入和缺失多 態(tài)性、串聯(lián)重復(fù)序列、多核苷酸多態(tài)性,這些突變在這個數(shù)據(jù)庫中會給出特定的參考SNP編 號(reference SNP ID,簡稱RS號)用以識別每一個突變,該數(shù)據(jù)庫給出的位點(diǎn)不一定與疾 病發(fā)生相關(guān)。dbSNP數(shù)據(jù)庫同時會給出突變的來源,表現(xiàn)形式是給出SAO(Variant Allele Origin,突變來源)的值;同樣,Clinvar數(shù)據(jù)庫能夠給出人類突變信息,同時解釋這些突變 與人類健康的關(guān)系,如果該突變與人類疾病發(fā)生相關(guān),數(shù)據(jù)庫會給出相關(guān)疾病的名稱,并給 出相應(yīng)的支持證據(jù)。通過Clinvar數(shù)據(jù)庫注釋出的信息,我們能夠判斷突變是否有致病性。 Clinvar同時會注釋出突變的來源,表現(xiàn)形式是給出SAO的值,SAO為0時表示該突變來源 未知,SAO為1時表示該突變?yōu)榉N系細(xì)胞突變,SAO為2時表示該突變?yōu)轶w細(xì)胞突變,SAO為 3時表示該突變既是種系突變也是體細(xì)胞突變。因而與上述兩個數(shù)據(jù)庫進(jìn)行比對即可將符 合于體細(xì)胞突變特征的SNP位點(diǎn)進(jìn)行篩除,保留上述數(shù)據(jù)庫中未出現(xiàn)的SNP位點(diǎn)和上述數(shù) 據(jù)庫中表明符合體細(xì)胞特征的SNP位點(diǎn)。
[0044] 在本發(fā)明的上述裝置中,第四篩選模塊可以根據(jù)測序數(shù)據(jù)的不同,對常用的統(tǒng)計 和計算模塊進(jìn)行改進(jìn)即可得到。在本發(fā)明中,上述第四篩選模塊還包括:統(tǒng)計子模塊:對測 序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計,得到同一位置上匹配參考基因 組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù);計算子模塊:計算第 二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值,得到同一位置的測序序列的突變 頻率;第三篩選子模塊:用于從第三SNP位點(diǎn)集中篩選出所述頻率低于75%的SNP位點(diǎn),得 到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0045] 上述實(shí)施例中,第四篩選模塊首先通過利用統(tǒng)計子模塊對測序數(shù)據(jù)中比對到基因 組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計,得到基因組同一位置上的總比對序列數(shù)目;然后利 用計算子模塊計算包含各SNP位點(diǎn)的測序序列的數(shù)目占總比對序列數(shù)目的頻率,最后第三 篩選子模塊從第三SNP位點(diǎn)集中篩選出頻率低于75%的SNP位點(diǎn),得到包含體細(xì)胞單核苷 酸突變的SNP位點(diǎn)。其中,統(tǒng)計子模塊利用測序數(shù)據(jù)中所包含的以下四個數(shù)值:支持匹配參 考基因型正鏈序列數(shù)目、支持匹配參考基因型負(fù)鏈序列數(shù)目、支持匹配突變基因型正鏈序 列數(shù)目和支持匹配突變基因型負(fù)鏈的序列數(shù)目,即可統(tǒng)計出基因組同一位置上的總比對序 列數(shù)目。然后計算模塊通過計算(匹配參考基因型正鏈序列數(shù)目+匹配參考基因型負(fù)鏈序 列數(shù)目)八匹配參考基因型正鏈reads+匹配參考基因型負(fù)鏈reads+匹配突變基因型正鏈 reads+匹配突變基因型負(fù)鏈reads)的比值,當(dāng)該比值小于0. 75時,即某SNP位點(diǎn)的突變頻 率小于0. 75,則這樣篩選得到的SNP位點(diǎn)即為包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0046] 需要說明的是,本發(fā)明主要用于檢測基因外顯子或剪接位點(diǎn)處的體細(xì)胞單核苷酸 突變。高通量測序后會得到非常多的單核苷酸突變,本方法和裝置可以從眾多的單核苷酸 突變中篩選比較有意義的體細(xì)胞單核苷酸突變。篩選得到的體細(xì)胞單核苷酸突變是否與疾 病發(fā)生有直接或間接的關(guān)系,有待進(jìn)一步的驗(yàn)證,所以本方法和裝置僅適用于科研和學(xué)術(shù) 基礎(chǔ)研宄之用,而不適用于臨床上疾病的診斷。
[0047] 以下通過具體的實(shí)施例來進(jìn)一步說明本發(fā)明的有益效果。
[0048] 提取7個不同個體的肺癌組織體細(xì)胞和血中的白細(xì)胞,并提取DNA進(jìn)行測序分析。 然后利用mutect檢測方法和本發(fā)明的檢測方法分別對來源于肺癌組織的體細(xì)胞進(jìn)行單核 苷酸突變檢測。下列實(shí)施例中所用到的試劑、儀器或裝置除有特殊說明外,其余均來自美國 安捷倫公司。詳細(xì)檢測步驟如下:
[0049] 實(shí)驗(yàn)一:文庫制備
[0050] 分別提取肺癌癥組織和白細(xì)胞中的DNA,經(jīng)過使用covaris破碎儀(美國Covaris 公司)將DNA隨機(jī)打斷成雙鏈DNA,打斷片段的主帶在150bp-200bp之間;然后使用末端修 復(fù)酶將DNA片段進(jìn)行末端修復(fù),得到帶有平末端的片段混合物,并在DNA的3'端添加一個 "A"堿基生成粘性末端。接下來將接頭連接到帶有粘性末端的DNA片段上,每個接頭都帶有 一個"T"堿基,能提高接頭連接的效率,需要在T4DNA連接酶的催化下進(jìn)行。為了保證后續(xù) 分析有足夠量的DNA,連接上接頭的DNA片段需要使用PCR富集。
[0051] PCR 反應(yīng)體系為:98°C,2min ;98°C,30s 變性;65°C,30s 退火;72°C,lmin 延伸; 72 °C,IOmin延伸,約進(jìn)行4-7個PCR循環(huán);4 °C,保溫。富集完成后使用bioanalyzer DNAlOOOchip (美國安捷倫公司2100bioanalyzer)進(jìn)行定量。
[0052] 經(jīng)過擴(kuò)增的DNA樣品使用安捷倫公司的Agencourt AMPure XP磁珠純化體系,特 異的將帶有接頭的DNA片段進(jìn)一步純化。
[0053] 實(shí)驗(yàn)二:雜交捕獲并分別在每個文庫上的DNA片段上添加特異的標(biāo)簽序列
[0054] 取出富集純化之后的DNA約750ng (最大體積不能超過3. 4ul),使用安捷倫 SureSelect XT液相捕獲系統(tǒng)進(jìn)行目標(biāo)序列捕獲。本實(shí)施例分析的是人483個基因的外顯 子區(qū)域上的體細(xì)胞突變,假如需要分析全基因組的體細(xì)胞突變,則不需要進(jìn)行雜交捕獲的 步驟。
[0055] 分別對7個上述構(gòu)建好的DNA文庫單獨(dú)地進(jìn)行雜交和捕獲,然后再通過PCR反應(yīng) 引入標(biāo)簽序列,得到各樣品的目標(biāo)區(qū)域的測序文庫。
[0050] 實(shí)驗(yàn)三:上機(jī)測序
[0057] 將各樣品測序文庫稀釋到2nM,根據(jù)各文庫所需數(shù)據(jù)量進(jìn)行混池,獲得濃度為2nM 的文庫稀釋液。在文庫稀釋液中加入〇. 2N NaOH溶液,使文庫中的DNA變性成為單鏈的DNA。 之后使用illumina Nextseq500測序平臺對混池之后的文庫進(jìn)行上機(jī)測序,測序的長度為 雙端 75bp(PE 75)。
[0058] 實(shí)驗(yàn)四:測序數(shù)據(jù)質(zhì)控及比對
[0059] 1.原始測序數(shù)據(jù)以fastq文件格式存儲(文件名:*. fq),在進(jìn)行下一步分析之前 需要進(jìn)行常規(guī)的數(shù)據(jù)過濾步驟,過濾方法如下:
[0060] (1)過濾掉含有接頭序列的測序序列(reads);
[0061] (2)當(dāng)雙端測序序列中的某一單端序列中含有的不確定堿基N的含量超過該條序 列總長度比例的10%時,需要去除此對雙端測序序列;
[0062] (3)當(dāng)雙端測序序列中的某一單端序列中含有的低質(zhì)量(Q〈 = 5)堿基數(shù)超過該條 序列長度比例的50%時,需要去除此對雙端測序序列。
[0063] 2.經(jīng)過對測序數(shù)據(jù)的嚴(yán)格過濾,得到高質(zhì)量的有效數(shù)據(jù)(Clean data)。有效數(shù) 據(jù)通過 BWA(Burrows_Wheeler Alignment tool)軟件比對到 NCBI build 37/hgl9 參考 基因組上,比對時的參數(shù)為:"-t l〇-k 32-M"。比對結(jié)果使用samtools sort(http:// samtools. sourceforge. net/)功能進(jìn)行排序,并經(jīng) picard(http://broadinstitute. github. io/picard/)去除重復(fù),過濾掉錯配堿基數(shù)目超過5的序列。
[0064] 實(shí)驗(yàn)五:使用mutect軟件檢測肺癌組織細(xì)胞中存在的體細(xì)胞突變
[0065] Mutect軟件是美國broad研宄院開發(fā)的一款可以準(zhǔn)確的使用高通量測序發(fā)現(xiàn)體 細(xì)胞單核苷酸突變的軟件。使用mutect軟件尋找體細(xì)胞突變時需要輸入待檢細(xì)胞測序結(jié) 果的比對文件和對照細(xì)胞測序結(jié)果的比對文件,mutect使用了兩個貝葉斯分類器:一個識 別待檢樣品中存在的突變,另一個用于檢測對照樣品中是否存在該突變。通過兩個分類器, mutect即可發(fā)現(xiàn)待檢樣品中存在的體細(xì)胞突變。
[0066] 在本發(fā)明的實(shí)施例中,待檢樣品是每個個體中提取的肺癌組織細(xì)胞,而對照樣品 則是每個個體中提取的白細(xì)胞。在運(yùn)行mutect時,分別輸入這兩個樣品測序結(jié)果各自與參 考基因組的比對文件,mutect運(yùn)行時使用hg37版人類基因組,并指定能夠記錄目標(biāo)基因在 參考基因組上位置的bed文件。Bed文件中含有待檢測基因在參考基因組上的位置。采用 Mutect直接檢測的體細(xì)胞突變結(jié)果統(tǒng)計如下表1。
[0067] 表 1 :
[0068]
【權(quán)利要求】
1. 一種檢測體細(xì)胞單核巧酸突變的方法,其特征在于,所述方法包括w下步驟: S1,對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對,得到所有SNP位點(diǎn)的 數(shù)據(jù);其中,所述SNP位點(diǎn)的數(shù)據(jù)包括所述SNP位點(diǎn)位于基因上的位置信息和所述SNP位點(diǎn) 導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息; 52, 從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上 且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集; 53, 去除所述第一 SNP位點(diǎn)集中千人突變頻率高于5%的SNP位點(diǎn),得到第二SNP位點(diǎn) 集; 54, 從所述第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn),得到第S SNP位點(diǎn) 集;W及 55, 從所述第S SNP位點(diǎn)集中篩選出所述測序數(shù)據(jù)中包含所述SNP位點(diǎn)的序列的頻率 低于75%的SNP位點(diǎn),得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S1中,所述來源于體細(xì)胞的 DNA測序數(shù)據(jù)包括全基因組DNA測序數(shù)據(jù)或目標(biāo)區(qū)域的DNA測序數(shù)據(jù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)所述來源于體細(xì)胞的DNA測序數(shù)據(jù)為目 標(biāo)區(qū)域的DNA測序數(shù)據(jù)時,所述來源于體細(xì)胞的DNA測序數(shù)據(jù)的制備步驟包括: 對來源于體細(xì)胞的DNA通過液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測序文庫; 對所述目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序,得到所述來源于體細(xì)胞的DNA測序數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3包括: 將所述第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫進(jìn)行比對,得到比對數(shù)據(jù); 從所述比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到所述第二SNP位點(diǎn)集。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S4包括: 將所述第二SNP位點(diǎn)集與單核巧酸多態(tài)性數(shù)據(jù)庫進(jìn)行比對,篩選出所述第二SNP位點(diǎn) 集中來源于體細(xì)胞突變的SNP位點(diǎn),得到過濾SNP位點(diǎn); 對所述過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對,篩選出所述過濾SNP位點(diǎn)中來源于 體細(xì)胞突變的SNP位點(diǎn),得到所述第S SNP位點(diǎn)集。
6. 根據(jù)權(quán)利要求1或5所述的方法,其特征在于,所述步驟S4中;所述單核巧酸多態(tài) 性數(shù)據(jù)庫和所述Clinvar數(shù)據(jù)庫中來源于體細(xì)胞突變的SNP位點(diǎn)的SAO值為2或3。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S5包括: 對所述測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計,得到同一位置上 匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù); 計算所述第二總序列數(shù)占所述第一總序列數(shù)和所述第二總序列數(shù)之和的比值,得到所 述同一位置的測序序列的突變頻率; 從所述第S SNP位點(diǎn)集中篩選出所述突變頻率低于75%的SNP位點(diǎn),得到包含所述體 細(xì)胞單核巧酸突變的SNP位點(diǎn)。
8. -種檢測體細(xì)胞單核巧酸突變的裝置,其特征在于,所述裝置包括W下模塊: 序列比對模塊,用于對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對,得 到所有SNP位點(diǎn)的數(shù)據(jù);其中,所述SNP位點(diǎn)的數(shù)據(jù)包括所述SNP位點(diǎn)位于基因上的位置信 息和所述SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息; 第一篩選模塊,用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或 /和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn),得到第一 SNP位點(diǎn)集; 第二篩選模塊,用于從所述第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn), 得到第二SNP位點(diǎn)集; 第S篩選模塊,用于從所述第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn),得到 第;5^位點(diǎn)集;化及 第四篩選模塊,用于從所述第S SNP位點(diǎn)集中篩選出所述測序數(shù)據(jù)中包含所述SNP位 點(diǎn)的序列的頻率低于75%的SNP位點(diǎn),得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括測序模塊,所述測序模塊 包括: 全基因組DNA測序子模塊,用于對來源于體細(xì)胞的全基因組DNA測序文庫進(jìn)行測序,得 到所述來源于體細(xì)胞的DNA測序數(shù)據(jù);或者 目標(biāo)區(qū)域DNA測序子模塊,用于對來源于體細(xì)胞的目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序, 得到所述來源于體細(xì)胞的DNA測序數(shù)據(jù)。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述目標(biāo)區(qū)域DNA測序子模塊中還包 括: 液相雜交捕獲單元,用于對來源于體細(xì)胞的DNA進(jìn)行雜交捕獲,得到所述目標(biāo)區(qū)域的 DNA測序文庫。
11. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第二篩選模塊還包括: 第一比對子模塊,用于將所述第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫進(jìn)行比對,得到比 對數(shù)據(jù);W及 第一篩選子模塊,用于從所述比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn),得到 所述第二SNP位點(diǎn)集。
12. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第=篩選模塊還包括: 第二比對子模塊,用于將所述第二SNP位點(diǎn)集與單核巧酸多態(tài)性數(shù)據(jù)庫進(jìn)行比對,篩 選出所述第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn),得到過濾SNP位點(diǎn);W及 第S比對子模塊,用于對所述過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對,篩選出所述過 濾SNP位點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn),得到所述第S SNP位點(diǎn)集。
13. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第四篩選模塊還包括: 統(tǒng)計子模塊,對所述測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計,得 到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總 序列數(shù); 計算子模塊,計算所述第二總序列數(shù)占所述第一總序列數(shù)和所述第二總序列數(shù)之和的 比值,得到所述同一位置的測序序列的突變頻率擬及 第S篩選子模塊,用于從所述第S SNP位點(diǎn)集中篩選出所述頻率低于75%的SNP位點(diǎn), 得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
【文檔編號】G06F19/22GK104462869SQ201410708748
【公開日】2015年3月25日 申請日期:2014年11月28日 優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】張?zhí)m英, 于海燕, 張廣鑫, 龐行云, 孟雪紅, 曹銀川, 吳曉朦, 李林, 宋欠欠, 張燕艷 申請人:天津諾禾致源生物信息科技有限公司