檢測體細(xì)胞單核苷酸突變的方法和裝置制造方法

文檔序號：6636458閱讀：523來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

檢測體細(xì)胞單核苷酸突變的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種檢測體細(xì)胞單核苷酸突變的方法和裝置。該方法包括以下步驟：S1，對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對，得到所有SNP位點(diǎn)的數(shù)據(jù)；S2，篩選出發(fā)生在剪接位點(diǎn)上和外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一SNP位點(diǎn)集；S3，去除第一SNP位點(diǎn)集中千人突變頻率高于5％的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；S4，從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn)，得到第三SNP位點(diǎn)集；以及S5，從第三SNP位點(diǎn)集中篩選出支持序列的頻率低于75％的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法實(shí)現(xiàn)了利用單一樣品對體細(xì)胞突變的檢測，降低了成本。
【專利說明】檢測體細(xì)胞單核苷酸突變的方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及高通量測序領(lǐng)域，具體而言，涉及一種檢測體細(xì)胞單核苷酸突變的方法和裝置。

【背景技術(shù)】
[0002] 個體的每個細(xì)胞中都可能會攜帶有兩種類型的突變：種系突變和體細(xì)胞突變，種系突變是指在生殖細(xì)胞中發(fā)生的可遺傳突變，也稱為生殖細(xì)胞突變。假如種系突變發(fā)生，則個體中的所有細(xì)胞都會攜帶該種系突變。種系突變之外的突變?yōu)轶w細(xì)胞突變，這些突變并不是從親代遺傳得到，而是受環(huán)境和其他因素影響而發(fā)生了改變。
[0003] 使用高通量測序的方式可以測到覆蓋樣本中所有基因的序列，結(jié)合相關(guān)變異檢測軟件可檢測到樣本中目標(biāo)基因上存在的所有變異信息。目前能夠用來檢測體細(xì)胞突變的方法是使用mutect軟件，它在檢測體細(xì)胞突變時，需要一組成對的樣品，即可能帶有體細(xì)胞突變的待檢樣品和可以提供種系突變的對照樣品。將兩個樣品進(jìn)行比對，當(dāng)突變在待檢樣品中出現(xiàn)，而未在對照樣品中出現(xiàn)，則認(rèn)為該突變?yōu)榇龣z樣品中的一個體細(xì)胞突變。使用該方法檢測體細(xì)胞突變時需要對兩個樣品分別進(jìn)行兩次高通量測序，增加了成本。
[0004] 目前使用單個樣本做變異檢測的軟件，對于檢測結(jié)果往往不區(qū)分種系突變和體細(xì) 胞突變。而提供體細(xì)胞突變信息的軟件，如mutect又需要一組成對的樣品。因而，現(xiàn)有技術(shù)中還未開發(fā)出既能采用單個樣本進(jìn)行檢測從而降低檢測成本又能檢測到體細(xì)胞突變的檢測方法，仍需要對現(xiàn)有技術(shù)進(jìn)行改進(jìn)，以滿足行業(yè)內(nèi)對上述體細(xì)胞突變的檢測要求。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的主要目的在于提供一種檢測體細(xì)胞單核苷酸突變的方法和裝置，不僅能夠利用單個樣品實(shí)現(xiàn)體細(xì)胞突變的檢測，而且降低檢測成本。
[0006] 為了實(shí)現(xiàn)上述目的，根據(jù)本發(fā)明的一個方面，提供了一種檢測體細(xì)胞單核苷酸突變的方法，該方法包括以下步驟：S1，對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn) 行比對，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；S2,從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；S3,去除第一 SNP位點(diǎn)集中千人突變頻率高于 5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的 SNP位點(diǎn)，得到第三SNP位點(diǎn)集；以及S5,從第三SNP位點(diǎn)集中篩選出測序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0007] 進(jìn)一步地，在步驟Sl中，來源于體細(xì)胞的DNA測序數(shù)據(jù)包括全基因組DNA測序數(shù) 據(jù)或目標(biāo)區(qū)域的DNA測序數(shù)據(jù)。
[0008] 進(jìn)一步地，當(dāng)來源于體細(xì)胞的DNA測序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測序數(shù)據(jù)時，來源于體細(xì)胞的DNA測序數(shù)據(jù)的制備步驟包括：對來源于體細(xì)胞的DNA通過液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測序文庫；對目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序，得到來源于體細(xì)胞的DNA測序數(shù)據(jù)。
[0009] 進(jìn)一步地，步驟S3包括：將第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫進(jìn)行比對，得到比對數(shù)據(jù)；從比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集。
[0010] 進(jìn)一步地，步驟S4包括：將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù)據(jù)庫進(jìn)行比對，篩選出第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn)，得到過濾SNP位點(diǎn)；對過濾SNP位點(diǎn) 與Clinvar數(shù)據(jù)庫進(jìn)行比對，篩選出過濾SNP位點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn)，得到第三SNP位點(diǎn)集。
[0011] 進(jìn)一步地，步驟S4中：單核苷酸多態(tài)性數(shù)據(jù)庫和Clinvar數(shù)據(jù)庫中來源于體細(xì)胞突變的SNP位點(diǎn)的SAO值為2或3。
[0012] 進(jìn)一步地，步驟S5包括：對測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn) 行統(tǒng)計，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計算第二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值，得到同一位置的測序序列的突變頻率；從第三SNP位點(diǎn)集中篩選出突變頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0013] 根據(jù)本發(fā)明的另一方面，提供了一種檢測體細(xì)胞單核苷酸突變的裝置，該裝置包括以下模塊：序列比對模塊，用于對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；第一篩選模塊：用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或/和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；第二篩選模塊；用于從第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；第三篩選模塊：用于從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn)，得到第三SNP位點(diǎn)集；第四篩選模塊：用于從第三SNP位點(diǎn)集中篩選出測序數(shù)據(jù)中包含SNP位點(diǎn)的序列的頻率低于75% 的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0014] 進(jìn)一步地，裝置還包括測序模塊，測序模塊包括：全基因組DNA測序子模塊：用于對來源于體細(xì)胞的全基因組DNA測序文庫進(jìn)行測序，得到來源于體細(xì)胞的DNA測序數(shù)據(jù)；或者目標(biāo)區(qū)域DNA測序子模塊：用于對來源于體細(xì)胞的目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序，得到來源于體細(xì)胞的DNA測序數(shù)據(jù)。
[0015] 進(jìn)一步地，目標(biāo)區(qū)域DNA測序子模塊中還包括：液相雜交捕獲單元：用于對來源于體細(xì)胞的DNA進(jìn)行雜交捕獲，得到目標(biāo)區(qū)域的DNA測序文庫。
[0016] 進(jìn)一步地，第二篩選模塊還包括：第一比對子模塊：用于將第一 SNP位點(diǎn)集與人類千人基因組數(shù)據(jù)庫進(jìn)行比對，得到比對數(shù)據(jù)；第一篩選子模塊：用于從比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集。
[0017] 進(jìn)一步地，第三篩選模塊還包括：第二比對子模塊：用于將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù)據(jù)庫進(jìn)行比對，篩選出第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn)，得到過濾SNP位點(diǎn)；第三比對子模塊：用于對過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對，篩選出過濾SNP位點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn)，得到第三SNP位點(diǎn)集。
[0018] 進(jìn)一步地，第四篩選模塊還包括：統(tǒng)計子模塊：對測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計算子模塊：計算第二總序列數(shù)占第一總序列數(shù) 和第二總序列數(shù)之和的比值，得到同一位置的測序序列的突變頻率；第三篩選子模塊：用于從第三SNP位點(diǎn)集中篩選出頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的 SNP位點(diǎn)。
[0019] 應(yīng)用本發(fā)明的技術(shù)方案，通過僅利用來源體細(xì)胞的測序數(shù)據(jù)與參考基因組進(jìn)行比對，并將篩選出所有來源于體細(xì)胞的SNP位點(diǎn)，接著將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來，然后對這些SNP位點(diǎn)按照已知的種系細(xì)胞和體細(xì)胞的特征進(jìn)行篩選，便可得到體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法簡單且實(shí)現(xiàn)了單一樣品對體細(xì)胞突變的檢測，而且降低了檢測成本。

【專利附圖】

【附圖說明】
[0020] 構(gòu)成本申請的一部分的說明書附圖用來提供對本發(fā)明的進(jìn)一步理解，本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中：
[0021] 圖1示出了根據(jù)本發(fā)明的一種典型的實(shí)施例中檢測體細(xì)胞單核苷酸突變的方法流程示意圖；以及
[0022] 圖2示出了了根據(jù)本發(fā)明的一種典型的實(shí)施例中檢測體細(xì)胞單核苷酸突變的裝置結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0023] 需要說明的是，在不沖突的情況下，本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0024] 正如【背景技術(shù)】部分所提到的，現(xiàn)有技術(shù)中檢測體細(xì)胞突變的方法需要至少對兩個樣品進(jìn)行測序，檢測成本較高，而采用單個樣品測序時，又無法檢測出體細(xì)胞突變。針對上述缺陷，在本發(fā)明一種典型的實(shí)施方式中，提供了一種檢測體細(xì)胞單核苷酸突變的方法，如圖1所示，該方法包括以下步驟：S1，對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn) 行比對，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，SNP位點(diǎn)的數(shù)據(jù)包括SNP位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；S2,從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；S3,去除第一 SNP位點(diǎn)集中千人突變頻率高于 5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；S4,從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的 SNP位點(diǎn)，得到第三SNP位點(diǎn)集；以及S5,從第三SNP位點(diǎn)集中篩選出測序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0025] 本發(fā)明的上述方法，通過僅利用來源體細(xì)胞的測序數(shù)據(jù)與參考基因組進(jìn)行比對，并將篩選出所有來源于體細(xì)胞的SNP位點(diǎn)，接著將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn) 篩選出來，然后對這些SNP位點(diǎn)按照已知的種系細(xì)胞和體細(xì)胞的特征進(jìn)行篩選，便可得到體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該方法簡單且實(shí)現(xiàn)了單一樣品對體細(xì)胞突變的檢測，而且降低了檢測成本。
[0026] 本發(fā)明的上述方法中，步驟S2可以根據(jù)各SNP位點(diǎn)所在的染色體的功能區(qū)域進(jìn)行篩選，發(fā)生在染色體的外顯子區(qū)域的屬于非同義突變的SNP位點(diǎn)，會導(dǎo)致其編碼的氨基酸發(fā)生改變，其結(jié)果是導(dǎo)致蛋白質(zhì)發(fā)生突變，可能會影響蛋白質(zhì)的功能，因此篩選具有上述特點(diǎn)的位點(diǎn)；發(fā)生在剪接位點(diǎn)處的SNP位點(diǎn)可能會影響氨基酸的編碼，因此這樣的位點(diǎn)也需要保留。在本發(fā)明一種優(yōu)選的實(shí)施例中，可以利用Knowngene數(shù)據(jù)庫注釋出的功能（func) 信息即可篩選得到符合上述要求的SNP位點(diǎn)。
[0027] 本發(fā)明的上述方法中，上述步驟Sl中，來源于體細(xì)胞的DNA測序數(shù)據(jù)包括全基因組DNA測序數(shù)據(jù)或目標(biāo)區(qū)域的DNA測序數(shù)據(jù)。在本發(fā)明一種優(yōu)選的實(shí)施例中，當(dāng)來源于體細(xì)胞的DNA測序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測序數(shù)據(jù)時，來源于體細(xì)胞的DNA測序數(shù)據(jù)的制備步驟包括：對來源于體細(xì)胞的DNA通過液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測序文庫；對目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序，得到來源于體細(xì)胞的DNA測序數(shù)據(jù)。當(dāng)需要對全基因組的體細(xì)胞突變進(jìn)行分析時，則不需要進(jìn)行液相雜交捕獲的步驟，直接將全基因組制備成測序文庫進(jìn)行測序即可。
[0028] 在本發(fā)明一種具體的實(shí)施例中，上述待檢的樣品可以是腫瘤組織，也可以是外周血中的游離DNA。上述樣品制備成測序文庫的步驟中，根據(jù)樣本的不同，使用不同的手段進(jìn) 行DNA的提取。使用自動聚焦聲波樣本處理儀（covaris)將DNA隨機(jī)打斷成雙鏈DNA，雙鏈 DNA的主峰在150-200bp。在隨機(jī)打斷的DNA的3'段添加上一個"A"堿基，生成一個單堿基的粘性末端，對3端加"A"的DNA進(jìn)行adapter的連接。將連接有接頭的DNA片段使用 PCR技術(shù)進(jìn)行DNA富集。取富集后的DNA樣品750ng進(jìn)行雜交捕獲，在此過程中按照美國安捷倫公司的SureSelect人類基因組外顯子捕獲試劑盒提供的說明書進(jìn)行操作。在本發(fā) 明中，采用高通量測序?qū)χ苽涞臏y序文庫進(jìn)行測序，具體測序平臺可以選擇Illumina公司的 Hiseq2000、Hiseq2500、Nextseq500、Miseq，Life Technology 公司的 Ion torrent、Ion Proton等。各個測序平臺采用的測序方式雖不盡相同，最終都能夠得到來源于待測樣品的體細(xì)胞的DNA測序數(shù)據(jù)。
[0029] 在本發(fā)明的上述方法中，上述步驟S3可以根據(jù)所得到的第一 SNP位點(diǎn)集中各SNP 位點(diǎn)的信息的不同，通過選擇并比對合適的數(shù)據(jù)庫即可將符合體細(xì)胞突變特點(diǎn)的SNP位點(diǎn) 進(jìn)行去除。在本發(fā)明一種優(yōu)選的實(shí)施例中，上述步驟S3包括：將第一 SNP位點(diǎn)集與人類千人基因組數(shù)據(jù)庫進(jìn)行比對，得到比對數(shù)據(jù)；從比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP 位點(diǎn)，得到第二SNP位點(diǎn)集。體細(xì)胞突變在人類千人基因組數(shù)據(jù)庫（即IOOOg數(shù)據(jù)庫）中多為低頻突變，因而，如果第一 SNP位點(diǎn)集中某一 SNP位點(diǎn)的突變頻率小于5%或在上述數(shù)據(jù) 庫中沒有注釋出突變頻率信息，即該SNP位點(diǎn)的突變?yōu)榈皖l突變，屬于體細(xì)胞突變的特征，因而需要保留。另外，若在IOOOg數(shù)據(jù)庫中沒有給出相應(yīng)的信息，有可能該突變位點(diǎn)屬于新的突變位點(diǎn)，因而也需要保留此類SNP位點(diǎn)。
[0030] 在本發(fā)明的上述方法中，上述步驟S4同樣可以通過選擇合適的數(shù)據(jù)庫進(jìn)行比對，只要能夠?qū)⒚黠@不符合體細(xì)胞突變特征的SNP位點(diǎn)去除掉即可得到上述第三SNP位點(diǎn)集。在本發(fā)明一種優(yōu)選的實(shí)施例中，上述步驟S4包括：將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù) 據(jù)庫進(jìn)行比對，篩選出第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn)，得到過濾SNP位點(diǎn)；對過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對，篩選出過濾SNP位點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn)，得到第三SNP位點(diǎn)集。
[0031] dbSNP 數(shù)據(jù)庫（http://www. ncbi. nlm. nih. gov/projects/SNP/)是單核苷酸多態(tài)性數(shù)據(jù)庫的簡稱，該數(shù)據(jù)庫不僅包含單核苷酸多態(tài)性信息，也包含其他類型的突變信息，如小片段的插入和缺失多態(tài)性、串聯(lián)重復(fù)序列、多核苷酸多態(tài)性，這些突變在這個數(shù)據(jù)庫中會給出特定的參考SNP編號（reference SNP ID)用以識別每一個突變，該數(shù)據(jù)庫給出的位點(diǎn)不一定與疾病發(fā)生相關(guān)。dbSNP數(shù)據(jù)庫同時會給出突變的來源，表現(xiàn)形式是給出 SAO(Variant Allele Origin，突變來源）的值。
[0032] Clinvar 數(shù)據(jù)庫（http://www. ncbi. nlm. nih. gov/clinvar/)能夠提供與致病性相關(guān)的突變。Clinvar數(shù)據(jù)庫能夠給出人類突變信息，同時解釋這些突變與人類健康的關(guān) 系，如果該突變與人類疾病發(fā)生相關(guān)，數(shù)據(jù)庫會給出相關(guān)疾病的名稱，并給出相應(yīng)的支持證據(jù)。通過Clinvar數(shù)據(jù)庫注釋出的信息，我們能夠判斷突變是否有致病性。Clinvar同時會注釋出突變的來源，表現(xiàn)形式是給出SAO的值，SAO為0時表示該突變來源未知，SAO為1 時表示該突變?yōu)榉N系細(xì)胞突變，SAO為2時表示該突變?yōu)轶w細(xì)胞突變，SAO為3時表示該突變既是種系突變也是體細(xì)胞突變。
[0033] 本發(fā)明的上述實(shí)施例，通過利用上述兩個數(shù)據(jù)庫中的信息即可篩選出具有體細(xì)胞特征的SNP位點(diǎn)，從而去除掉明顯不屬于體細(xì)胞突變的SNP位點(diǎn)。優(yōu)選上述步驟S4中單核苷酸多態(tài)性數(shù)據(jù)庫和Clinvar數(shù)據(jù)庫中來源于體細(xì)胞突變的SNP位點(diǎn)的SAO(Variant Allele Origin)值為2或3,將SAO為2或3的SNP位點(diǎn)保留下來，即保留了具有體細(xì)胞特征的SNP位點(diǎn)，為篩選得到真正的SNP位點(diǎn)提供了較大可能性。
[0034] 在本發(fā)明的一種優(yōu)選的實(shí)施例中，上述步驟S5包括：對測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計，得到同一位置上匹配參考基因組序列的第一總序列數(shù) 和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計算第二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值，得到所述同一位置的測序序列的突變頻率；從第三SNP位點(diǎn)集中篩選出突變頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0035] 在上述測序數(shù)據(jù)中，測序信息包含以下四個數(shù)值，支持匹配參考基因型正鏈序列數(shù)目、支持匹配參考基因型負(fù)鏈序列數(shù)目、支持匹配突變基因型正鏈序列數(shù)目和支持匹配突變基因型負(fù)鏈的序列數(shù)目，如果（匹配參考基因型正鏈序列數(shù)目+匹配參考基因型負(fù)鏈序列數(shù)目V(匹配參考基因型正鏈reads+匹配參考基因型負(fù)鏈reads+匹配突變基因型正鏈reads+匹配突變基因型負(fù)鏈reads)的比值小于0. 75,即某SNP位點(diǎn)的突變頻率小于 0. 75,則這樣篩選得到的SNP位點(diǎn)即為包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0036] 本發(fā)明的上述方法已經(jīng)能夠相對準(zhǔn)確地檢測到來源于單個樣本的體細(xì)胞單核苷酸突變，為了進(jìn)一步提高檢測的準(zhǔn)確性，在本發(fā)明一種更優(yōu)選的實(shí)施例中，上述方法還包括將在上述各篩選步驟中不符合條件的SNP位點(diǎn)進(jìn)行再次篩選，利用靶向數(shù)據(jù)庫（來自 MyCancerGenome)中的包括SNP和indel突變類型信息對上述不符合條件的SNP位點(diǎn)進(jìn)行過濾。根據(jù)染色體、位置、參考基因型和突變基因型的信息進(jìn)行比對篩選，如果某SNP位點(diǎn) 的存在于靶向數(shù)據(jù)庫，則將該SNP位點(diǎn)加入到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)中。另夕卜，若上述不符合條件的SNP位點(diǎn)出現(xiàn)在高頻突變數(shù)據(jù)庫（CLINSIG. pathogenic)中，則表明該SNP位點(diǎn)屬于人群頻率大于5%且為致病基因的位點(diǎn)，則該位點(diǎn)也加入到上述包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)中。
[0037] 在本發(fā)明另一種典型的實(shí)施方式中，提供了一種檢測體細(xì)胞單核苷酸突變的裝置，如圖2所示，該裝置包括以下模塊：序列比對模塊，用于對來源于體細(xì)胞的DNA測序數(shù) 據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，SNP位點(diǎn)的數(shù)據(jù)包括SNP 位點(diǎn)位于基因上的位置信息和SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；第一篩選模塊：用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或/和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；第二篩選模塊；用于從第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二 SNP位點(diǎn)集；第三篩選模塊：用于從第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn)，得到第三SNP位點(diǎn)集；第四篩選模塊：用于從第三SNP位點(diǎn)集中篩選出測序數(shù)據(jù)中包含SNP 位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0038] 本發(fā)明的上述裝置，通過序列比對模塊僅利用來源體細(xì)胞的測序數(shù)據(jù)與參考基因組進(jìn)行比對，篩選出所有來源于體細(xì)胞的SNP位點(diǎn)，接著利用第一篩選模塊將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來，然后利用第二篩選模塊和第三篩選模塊對這些SNP 位點(diǎn)按照已知的種系細(xì)胞突變和體細(xì)胞突變的特征進(jìn)行篩選，最后通過第四篩選模塊，測序數(shù)據(jù)中包含SNP位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。該裝置不僅實(shí)現(xiàn)了利用單一樣品對體細(xì)胞突變的檢測，而且降低了檢測成本。
[0039] 在本發(fā)明的上述裝置中，第一篩選模塊可以根據(jù)現(xiàn)有的篩選模塊進(jìn)行合理改進(jìn)，只要能夠?qū)崿F(xiàn)將發(fā)生在外顯子和剪接位點(diǎn)上的SNP位點(diǎn)篩選出來的功能即可適用于本發(fā) 明。在本發(fā)明一種優(yōu)選的實(shí)施例中，上述裝置還包括測序模塊，該測序模塊包括：全基因組 DNA測序子模塊：用于對來源于體細(xì)胞的全基因組DNA測序文庫進(jìn)行測序，得到來源于體細(xì) 胞的DNA測序數(shù)據(jù)；目標(biāo)區(qū)域DNA測序子模塊：用于對來源于體細(xì)胞的目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序，得到來源于體細(xì)胞的DNA測序數(shù)據(jù)。
[0040] 在本發(fā)明另一種優(yōu)選的實(shí)施例中，上述目標(biāo)區(qū)域DNA測序子模塊中還包括：液相雜交捕獲單元：用于對來源于體細(xì)胞的DNA進(jìn)行雜交捕獲，得到目標(biāo)區(qū)域的DNA測序文庫。通過液相雜交捕獲單元根據(jù)想要捕獲的目標(biāo)區(qū)域的DNA序列而預(yù)先設(shè)計好的探針與修復(fù) 好的帶有接頭序列的DNA片段進(jìn)行雜交，即可將所感興趣的目標(biāo)區(qū)域DNA片段從全基因組 DNA片段中捕獲出來，然后連上測序引物序列就形成了目標(biāo)區(qū)域DNA測序文庫，這樣的文庫能夠從全基因組中把感興趣的目的區(qū)域富集出來，從而提高了目標(biāo)區(qū)域突變位點(diǎn)的檢出效率。采用液相雜交捕獲單元能夠提高目標(biāo)區(qū)域DNA的捕獲效率。
[0041] 在本發(fā)明的上述裝置中，第二篩選模塊還包括：第一比對子模塊：用于將第一 SNP 位點(diǎn)集與人類千人基因組數(shù)據(jù)庫進(jìn)行比對，得到比對數(shù)據(jù)；第一篩選子模塊：用于從比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集。該實(shí)施例中第二篩選模塊通過第一比對子模塊將第一 SNP位點(diǎn)集與人類千人基因組數(shù)據(jù)庫進(jìn)行比對，得到比對數(shù)據(jù)，然后利用第一篩選子模塊從比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集。人類千人基因組數(shù)據(jù)庫中包括了 1000個人類全基因組測序數(shù)據(jù)中出現(xiàn) 的低頻突變或高頻突變的SNP位點(diǎn)，對于突變頻率高于5%的SNP位點(diǎn)，由于其在人類群體中出現(xiàn)頻率較高，通常認(rèn)為是類似于種系細(xì)胞突變所引起的突變或者是遺傳引起的突變，而非因環(huán)境或其他因素引起的種系細(xì)胞分化之后的體細(xì)胞突變，因而通過與上述數(shù)據(jù)庫進(jìn) 行比對，可以把某個體細(xì)胞來源的第一 SNP位點(diǎn)集中不屬于高頻突變位點(diǎn)的SNP位點(diǎn)保留下來，從而得到可能真正引起功能突變的第二SNP位點(diǎn)集。
[0042] 在本發(fā)明的上述裝置中，上述第三篩選模塊通過選擇合適的篩選模塊進(jìn)行比對，只要能夠?qū)⒚黠@不符合體細(xì)胞突變特征的SNP位點(diǎn)去除掉即可。在本發(fā)明一種優(yōu)選的實(shí)施例中，上述第三篩選模塊包括：第二比對子模塊：用于將第二SNP位點(diǎn)集與單核苷酸多態(tài)性數(shù)據(jù)庫進(jìn)行比對，篩選出第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn)，得到過濾SNP位點(diǎn)；第三比對子模塊：用于對過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對，篩選出過濾SNP位點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn)，得到第三SNP位點(diǎn)集。
[0043] 上述第二比對子模塊和第三比對子模塊通過將第二SNP位點(diǎn)集與dbSNP數(shù)據(jù)庫 (http://www. nebi. nlm. nih. gov/projects/SNP/)和 Clinvar 數(shù)據(jù)庫進(jìn)行比對，dbSNP 數(shù)據(jù) 庫不僅包含單核苷酸多態(tài)性信息，也包含其他類型的突變信息，如小片段的插入和缺失多態(tài)性、串聯(lián)重復(fù)序列、多核苷酸多態(tài)性，這些突變在這個數(shù)據(jù)庫中會給出特定的參考SNP編號（reference SNP ID，簡稱RS號）用以識別每一個突變，該數(shù)據(jù)庫給出的位點(diǎn)不一定與疾病發(fā)生相關(guān)。dbSNP數(shù)據(jù)庫同時會給出突變的來源，表現(xiàn)形式是給出SAO(Variant Allele Origin，突變來源）的值；同樣，Clinvar數(shù)據(jù)庫能夠給出人類突變信息，同時解釋這些突變與人類健康的關(guān)系，如果該突變與人類疾病發(fā)生相關(guān)，數(shù)據(jù)庫會給出相關(guān)疾病的名稱，并給出相應(yīng)的支持證據(jù)。通過Clinvar數(shù)據(jù)庫注釋出的信息，我們能夠判斷突變是否有致病性。 Clinvar同時會注釋出突變的來源，表現(xiàn)形式是給出SAO的值，SAO為0時表示該突變來源未知，SAO為1時表示該突變?yōu)榉N系細(xì)胞突變，SAO為2時表示該突變?yōu)轶w細(xì)胞突變，SAO為 3時表示該突變既是種系突變也是體細(xì)胞突變。因而與上述兩個數(shù)據(jù)庫進(jìn)行比對即可將符合于體細(xì)胞突變特征的SNP位點(diǎn)進(jìn)行篩除，保留上述數(shù)據(jù)庫中未出現(xiàn)的SNP位點(diǎn)和上述數(shù) 據(jù)庫中表明符合體細(xì)胞特征的SNP位點(diǎn)。
[0044] 在本發(fā)明的上述裝置中，第四篩選模塊可以根據(jù)測序數(shù)據(jù)的不同，對常用的統(tǒng)計和計算模塊進(jìn)行改進(jìn)即可得到。在本發(fā)明中，上述第四篩選模塊還包括：統(tǒng)計子模塊：對測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計算子模塊：計算第二總序列數(shù)占第一總序列數(shù)和第二總序列數(shù)之和的比值，得到同一位置的測序序列的突變頻率；第三篩選子模塊：用于從第三SNP位點(diǎn)集中篩選出所述頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0045] 上述實(shí)施例中，第四篩選模塊首先通過利用統(tǒng)計子模塊對測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計，得到基因組同一位置上的總比對序列數(shù)目；然后利用計算子模塊計算包含各SNP位點(diǎn)的測序序列的數(shù)目占總比對序列數(shù)目的頻率，最后第三篩選子模塊從第三SNP位點(diǎn)集中篩選出頻率低于75%的SNP位點(diǎn)，得到包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。其中，統(tǒng)計子模塊利用測序數(shù)據(jù)中所包含的以下四個數(shù)值：支持匹配參考基因型正鏈序列數(shù)目、支持匹配參考基因型負(fù)鏈序列數(shù)目、支持匹配突變基因型正鏈序列數(shù)目和支持匹配突變基因型負(fù)鏈的序列數(shù)目，即可統(tǒng)計出基因組同一位置上的總比對序列數(shù)目。然后計算模塊通過計算（匹配參考基因型正鏈序列數(shù)目+匹配參考基因型負(fù)鏈序列數(shù)目）八匹配參考基因型正鏈reads+匹配參考基因型負(fù)鏈reads+匹配突變基因型正鏈 reads+匹配突變基因型負(fù)鏈reads)的比值，當(dāng)該比值小于0. 75時，即某SNP位點(diǎn)的突變頻率小于0. 75,則這樣篩選得到的SNP位點(diǎn)即為包含體細(xì)胞單核苷酸突變的SNP位點(diǎn)。
[0046] 需要說明的是，本發(fā)明主要用于檢測基因外顯子或剪接位點(diǎn)處的體細(xì)胞單核苷酸突變。高通量測序后會得到非常多的單核苷酸突變，本方法和裝置可以從眾多的單核苷酸突變中篩選比較有意義的體細(xì)胞單核苷酸突變。篩選得到的體細(xì)胞單核苷酸突變是否與疾病發(fā)生有直接或間接的關(guān)系，有待進(jìn)一步的驗(yàn)證，所以本方法和裝置僅適用于科研和學(xué)術(shù) 基礎(chǔ)研宄之用，而不適用于臨床上疾病的診斷。
[0047] 以下通過具體的實(shí)施例來進(jìn)一步說明本發(fā)明的有益效果。
[0048] 提取7個不同個體的肺癌組織體細(xì)胞和血中的白細(xì)胞，并提取DNA進(jìn)行測序分析。然后利用mutect檢測方法和本發(fā)明的檢測方法分別對來源于肺癌組織的體細(xì)胞進(jìn)行單核苷酸突變檢測。下列實(shí)施例中所用到的試劑、儀器或裝置除有特殊說明外，其余均來自美國安捷倫公司。詳細(xì)檢測步驟如下：
[0049] 實(shí)驗(yàn)一：文庫制備
[0050] 分別提取肺癌癥組織和白細(xì)胞中的DNA，經(jīng)過使用covaris破碎儀（美國Covaris 公司）將DNA隨機(jī)打斷成雙鏈DNA，打斷片段的主帶在150bp-200bp之間；然后使用末端修復(fù)酶將DNA片段進(jìn)行末端修復(fù)，得到帶有平末端的片段混合物，并在DNA的3'端添加一個 "A"堿基生成粘性末端。接下來將接頭連接到帶有粘性末端的DNA片段上，每個接頭都帶有一個"T"堿基，能提高接頭連接的效率，需要在T4DNA連接酶的催化下進(jìn)行。為了保證后續(xù) 分析有足夠量的DNA，連接上接頭的DNA片段需要使用PCR富集。
[0051] PCR 反應(yīng)體系為：98°C，2min ;98°C，30s 變性；65°C，30s 退火；72°C，lmin 延伸； 72 °C，IOmin延伸，約進(jìn)行4-7個PCR循環(huán)；4 °C，保溫。富集完成后使用bioanalyzer DNAlOOOchip (美國安捷倫公司2100bioanalyzer)進(jìn)行定量。
[0052] 經(jīng)過擴(kuò)增的DNA樣品使用安捷倫公司的Agencourt AMPure XP磁珠純化體系，特異的將帶有接頭的DNA片段進(jìn)一步純化。
[0053] 實(shí)驗(yàn)二：雜交捕獲并分別在每個文庫上的DNA片段上添加特異的標(biāo)簽序列
[0054] 取出富集純化之后的DNA約750ng (最大體積不能超過3. 4ul)，使用安捷倫 SureSelect XT液相捕獲系統(tǒng)進(jìn)行目標(biāo)序列捕獲。本實(shí)施例分析的是人483個基因的外顯子區(qū)域上的體細(xì)胞突變，假如需要分析全基因組的體細(xì)胞突變，則不需要進(jìn)行雜交捕獲的步驟。
[0055] 分別對7個上述構(gòu)建好的DNA文庫單獨(dú)地進(jìn)行雜交和捕獲，然后再通過PCR反應(yīng) 引入標(biāo)簽序列，得到各樣品的目標(biāo)區(qū)域的測序文庫。
[0050] 實(shí)驗(yàn)三：上機(jī)測序
[0057] 將各樣品測序文庫稀釋到2nM，根據(jù)各文庫所需數(shù)據(jù)量進(jìn)行混池，獲得濃度為2nM 的文庫稀釋液。在文庫稀釋液中加入〇. 2N NaOH溶液，使文庫中的DNA變性成為單鏈的DNA。之后使用illumina Nextseq500測序平臺對混池之后的文庫進(jìn)行上機(jī)測序，測序的長度為雙端 75bp(PE 75)。
[0058] 實(shí)驗(yàn)四：測序數(shù)據(jù)質(zhì)控及比對
[0059] 1.原始測序數(shù)據(jù)以fastq文件格式存儲（文件名：*. fq)，在進(jìn)行下一步分析之前需要進(jìn)行常規(guī)的數(shù)據(jù)過濾步驟，過濾方法如下：
[0060] (1)過濾掉含有接頭序列的測序序列（reads);
[0061] (2)當(dāng)雙端測序序列中的某一單端序列中含有的不確定堿基N的含量超過該條序列總長度比例的10%時，需要去除此對雙端測序序列；
[0062] (3)當(dāng)雙端測序序列中的某一單端序列中含有的低質(zhì)量（Q〈 = 5)堿基數(shù)超過該條序列長度比例的50%時，需要去除此對雙端測序序列。
[0063] 2.經(jīng)過對測序數(shù)據(jù)的嚴(yán)格過濾，得到高質(zhì)量的有效數(shù)據(jù)（Clean data)。有效數(shù) 據(jù)通過 BWA(Burrows_Wheeler Alignment tool)軟件比對到 NCBI build 37/hgl9 參考基因組上，比對時的參數(shù)為："-t l〇-k 32-M"。比對結(jié)果使用samtools sort(http:// samtools. sourceforge. net/)功能進(jìn)行排序，并經(jīng) picard(http://broadinstitute. github. io/picard/)去除重復(fù)，過濾掉錯配堿基數(shù)目超過5的序列。
[0064] 實(shí)驗(yàn)五：使用mutect軟件檢測肺癌組織細(xì)胞中存在的體細(xì)胞突變
[0065] Mutect軟件是美國broad研宄院開發(fā)的一款可以準(zhǔn)確的使用高通量測序發(fā)現(xiàn)體細(xì)胞單核苷酸突變的軟件。使用mutect軟件尋找體細(xì)胞突變時需要輸入待檢細(xì)胞測序結(jié) 果的比對文件和對照細(xì)胞測序結(jié)果的比對文件，mutect使用了兩個貝葉斯分類器：一個識別待檢樣品中存在的突變，另一個用于檢測對照樣品中是否存在該突變。通過兩個分類器， mutect即可發(fā)現(xiàn)待檢樣品中存在的體細(xì)胞突變。
[0066] 在本發(fā)明的實(shí)施例中，待檢樣品是每個個體中提取的肺癌組織細(xì)胞，而對照樣品則是每個個體中提取的白細(xì)胞。在運(yùn)行mutect時，分別輸入這兩個樣品測序結(jié)果各自與參考基因組的比對文件，mutect運(yùn)行時使用hg37版人類基因組，并指定能夠記錄目標(biāo)基因在參考基因組上位置的bed文件。Bed文件中含有待檢測基因在參考基因組上的位置。采用 Mutect直接檢測的體細(xì)胞突變結(jié)果統(tǒng)計如下表1。
[0067] 表 1 :
[0068]

【權(quán)利要求】
1. 一種檢測體細(xì)胞單核巧酸突變的方法，其特征在于，所述方法包括w下步驟： S1，對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，所述SNP位點(diǎn)的數(shù)據(jù)包括所述SNP位點(diǎn)位于基因上的位置信息和所述SNP位點(diǎn) 導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息； 52, 從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集； 53, 去除所述第一 SNP位點(diǎn)集中千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn) 集； 54, 從所述第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn)，得到第S SNP位點(diǎn) 集；W及 55, 從所述第S SNP位點(diǎn)集中篩選出所述測序數(shù)據(jù)中包含所述SNP位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述步驟S1中，所述來源于體細(xì)胞的 DNA測序數(shù)據(jù)包括全基因組DNA測序數(shù)據(jù)或目標(biāo)區(qū)域的DNA測序數(shù)據(jù)。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)所述來源于體細(xì)胞的DNA測序數(shù)據(jù)為目標(biāo)區(qū)域的DNA測序數(shù)據(jù)時，所述來源于體細(xì)胞的DNA測序數(shù)據(jù)的制備步驟包括：對來源于體細(xì)胞的DNA通過液相雜交捕獲的方法制備成目標(biāo)區(qū)域的DNA測序文庫；對所述目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序，得到所述來源于體細(xì)胞的DNA測序數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S3包括：將所述第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫進(jìn)行比對，得到比對數(shù)據(jù)；從所述比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到所述第二SNP位點(diǎn)集。
5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S4包括：將所述第二SNP位點(diǎn)集與單核巧酸多態(tài)性數(shù)據(jù)庫進(jìn)行比對，篩選出所述第二SNP位點(diǎn) 集中來源于體細(xì)胞突變的SNP位點(diǎn)，得到過濾SNP位點(diǎn)；對所述過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對，篩選出所述過濾SNP位點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn)，得到所述第S SNP位點(diǎn)集。
6. 根據(jù)權(quán)利要求1或5所述的方法，其特征在于，所述步驟S4中；所述單核巧酸多態(tài) 性數(shù)據(jù)庫和所述Clinvar數(shù)據(jù)庫中來源于體細(xì)胞突變的SNP位點(diǎn)的SAO值為2或3。
7. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S5包括：對所述測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計算所述第二總序列數(shù)占所述第一總序列數(shù)和所述第二總序列數(shù)之和的比值，得到所述同一位置的測序序列的突變頻率；從所述第S SNP位點(diǎn)集中篩選出所述突變頻率低于75%的SNP位點(diǎn)，得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
8. -種檢測體細(xì)胞單核巧酸突變的裝置，其特征在于，所述裝置包括W下模塊：序列比對模塊，用于對來源于體細(xì)胞的DNA測序數(shù)據(jù)與參考基因組數(shù)據(jù)進(jìn)行比對，得到所有SNP位點(diǎn)的數(shù)據(jù)；其中，所述SNP位點(diǎn)的數(shù)據(jù)包括所述SNP位點(diǎn)位于基因上的位置信息和所述SNP位點(diǎn)導(dǎo)致氨基酸發(fā)生同義突變或非同義突變的變異類型信息；第一篩選模塊，用于從所有SNP位點(diǎn)的數(shù)據(jù)中篩選出發(fā)生在剪接位點(diǎn)上的SNP位點(diǎn)或 /和發(fā)生在外顯子上且導(dǎo)致氨基酸發(fā)生非同義突變的SNP位點(diǎn)，得到第一 SNP位點(diǎn)集；第二篩選模塊，用于從所述第一 SNP位點(diǎn)集中去除千人突變頻率高于5%的SNP位點(diǎn)，得到第二SNP位點(diǎn)集；第S篩選模塊，用于從所述第二SNP位點(diǎn)集中篩選出體細(xì)胞突變來源的SNP位點(diǎn)，得到第；5^位點(diǎn)集；化及第四篩選模塊，用于從所述第S SNP位點(diǎn)集中篩選出所述測序數(shù)據(jù)中包含所述SNP位點(diǎn)的序列的頻率低于75%的SNP位點(diǎn)，得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
9. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述裝置還包括測序模塊，所述測序模塊包括：全基因組DNA測序子模塊，用于對來源于體細(xì)胞的全基因組DNA測序文庫進(jìn)行測序，得到所述來源于體細(xì)胞的DNA測序數(shù)據(jù)；或者目標(biāo)區(qū)域DNA測序子模塊，用于對來源于體細(xì)胞的目標(biāo)區(qū)域的DNA測序文庫進(jìn)行測序，得到所述來源于體細(xì)胞的DNA測序數(shù)據(jù)。
10. 根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述目標(biāo)區(qū)域DNA測序子模塊中還包括：液相雜交捕獲單元，用于對來源于體細(xì)胞的DNA進(jìn)行雜交捕獲，得到所述目標(biāo)區(qū)域的 DNA測序文庫。
11. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述第二篩選模塊還包括：第一比對子模塊，用于將所述第一 SNP位點(diǎn)集與千人基因組數(shù)據(jù)庫進(jìn)行比對，得到比對數(shù)據(jù)；W及第一篩選子模塊，用于從所述比對數(shù)據(jù)中去除千人突變頻率高于5%的SNP位點(diǎn)，得到所述第二SNP位點(diǎn)集。
12. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述第=篩選模塊還包括：第二比對子模塊，用于將所述第二SNP位點(diǎn)集與單核巧酸多態(tài)性數(shù)據(jù)庫進(jìn)行比對，篩選出所述第二SNP位點(diǎn)集中來源于體細(xì)胞突變的SNP位點(diǎn)，得到過濾SNP位點(diǎn)；W及第S比對子模塊，用于對所述過濾SNP位點(diǎn)與Clinvar數(shù)據(jù)庫進(jìn)行比對，篩選出所述過濾SNP位點(diǎn)中來源于體細(xì)胞突變的SNP位點(diǎn)，得到所述第S SNP位點(diǎn)集。
13. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述第四篩選模塊還包括：統(tǒng)計子模塊，對所述測序數(shù)據(jù)中比對到基因組同一位置上的測序序列數(shù)進(jìn)行統(tǒng)計，得到同一位置上匹配參考基因組序列的第一總序列數(shù)和匹配含有SNP位點(diǎn)的序列的第二總序列數(shù)；計算子模塊，計算所述第二總序列數(shù)占所述第一總序列數(shù)和所述第二總序列數(shù)之和的比值，得到所述同一位置的測序序列的突變頻率擬及第S篩選子模塊，用于從所述第S SNP位點(diǎn)集中篩選出所述頻率低于75%的SNP位點(diǎn)，得到包含所述體細(xì)胞單核巧酸突變的SNP位點(diǎn)。
【文檔編號】G06F19/22GK104462869SQ201410708748
【公開日】2015年3月25日申請日期:2014年11月28日優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】張?zhí)m英, 于海燕, 張廣鑫, 龐行云, 孟雪紅, 曹銀川, 吳曉朦, 李林, 宋欠欠, 張燕艷申請人:天津諾禾致源生物信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張?zhí)m英;于海燕;張廣鑫;龐行云;孟雪紅;曹銀川;吳曉朦;李林;宋欠欠;張燕艷;
技術(shù)所有人：天津諾禾致源生物信息科技有限公司;
我是此專利的發(fā)明人

上一篇：功耗控制方法和裝置制造方法
上一篇：一種極化sar目標(biāo)散射成分的分解方法和裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

體細(xì)胞突變相關(guān)技術(shù)

體細(xì)胞高頻突變相關(guān)技術(shù)

單核苷酸突變相關(guān)技術(shù)

體細(xì)胞突變學(xué)說相關(guān)技術(shù)

腫瘤體細(xì)胞突變的類型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

檢測體細(xì)胞單核苷酸突變的方法和裝置制造方法