專利名稱:檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法及 系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及生物技術(shù)領(lǐng)域,尤其涉及一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法 及系統(tǒng)。
背景技術(shù):
隨著人類基因組計(jì)劃和國際單體型圖計(jì)劃的勝利完成,生物學(xué)家通過遺傳連鎖或 關(guān)聯(lián)分析已經(jīng)定位了大量與人類疾病相關(guān)的基因組候選區(qū)域,然而識別這些區(qū)域中的致病 基因或突變需要對這些區(qū)域進(jìn)行重新測序。如果采用現(xiàn)有的全基因組重測序分析技術(shù),其成本較高;而且對于針對候選區(qū)域 等部分的研究、或者對于個(gè)體醫(yī)療給出有針對性的指導(dǎo)來說,全基因組重測序分析的結(jié)果 包含大量冗余信息,不利于高效率地得出較為準(zhǔn)確的研究成果。為了提高獲得有效信息的效率,將現(xiàn)有基因分析技術(shù)集中在高價(jià)值的基因研 究區(qū)域?qū)τ诳茖W(xué)研究和醫(yī)療指導(dǎo)具有重大意義。而且,傳統(tǒng)的基于PCR(聚合酶鏈?zhǔn)椒?應(yīng),Polymerase Chain Reaction)來對候選區(qū)域進(jìn)行測序的方法,費(fèi)時(shí)費(fèi)力,已經(jīng)無法 滿足研究者的要求;同時(shí)基于基因芯片的SNP(單核苷酸多態(tài)性,Single Nucleotide Polymorphism)分型技術(shù)也無法找出基因組上的稀有變異。隨著新一代高通量測序技術(shù)(如Solexa測序技術(shù))的出現(xiàn)以及測序成本的降低, 使得高通量,低成本測序成為可能。研究者迫切需要一種可以對基因組上任意感興趣的區(qū) 域進(jìn)行測序從而可以識別該區(qū)域上各種突變的技術(shù)。由于基因編碼區(qū)的突變是導(dǎo)致疾病的主要原因,因此將一個(gè)人基因組的所有編碼 區(qū)(即外顯子區(qū)域)提取出來進(jìn)行測序就可以很好的了解該個(gè)體的基因組突變信息,進(jìn)而 評估該個(gè)體的患病風(fēng)險(xiǎn)。因此,在當(dāng)前對全基因組進(jìn)行測序的成本還是很高的情況下,對所 有的人類外顯子進(jìn)行測序是解碼個(gè)人基因組和實(shí)現(xiàn)個(gè)體化醫(yī)療的重要手段。因此,基于外顯子區(qū)域或目標(biāo)區(qū)域捕獲(Target Region Capture)的高通量測序 方法應(yīng)運(yùn)而生。該技術(shù)的基本原理是使用一套寡核苷酸探針來捕獲基因組上的目標(biāo)序列, 然后使用通用引物對這些捕獲到的序列進(jìn)行PCR擴(kuò)增,最后對這些擴(kuò)增產(chǎn)物進(jìn)行高通量測 序,從而識別DNA樣品中的堿基序列。綜上所述,提供一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法及系統(tǒng),解決現(xiàn)有基 因組外顯子檢測手段不完善、數(shù)據(jù)龐雜、準(zhǔn)確度不高以及分析速度慢等缺陷,成為本領(lǐng)域亟 待解決的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明要解決的一個(gè)技術(shù)問題是提供一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方 法及系統(tǒng),通過對實(shí)驗(yàn)樣品進(jìn)行深度、覆蓋度分析、捕獲效率分析、性別檢驗(yàn)、SNP位點(diǎn)雜合 度一致性等檢驗(yàn),解決了基因組外顯子區(qū)域生物信息學(xué)分析方法和工具不完善的問題,大 大提高了對基因組外顯子數(shù)據(jù)分析的準(zhǔn)確性和可靠性。
4
本發(fā)明的一個(gè)方面提供了一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法,該方法包 括獲取外顯子測序結(jié)果步驟對人類基因組DNA樣品進(jìn)行測序和純化處理,得到外顯子區(qū) 域測序結(jié)果;將外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn)行比對得到精確的比對結(jié)果;去冗 余與排序步驟對比對后獲得的比對結(jié)果進(jìn)行去除重復(fù)信息和排序處理;統(tǒng)計(jì)分析步驟I 對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),以及用X,Y染色體的目標(biāo)區(qū)域的測序深度,對 樣本的性別進(jìn)行檢驗(yàn);判斷樣品是否被污染;探測SNP位點(diǎn)步驟從排序處理后的結(jié)果中找 到SNP位點(diǎn);SNP位點(diǎn)過濾步驟以質(zhì)量值為指標(biāo)對探測得到的SNP位點(diǎn)進(jìn)行篩選;統(tǒng)計(jì)分 析步驟II 對過濾后的SNP位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn)的最優(yōu)等位基因支 持深度和次優(yōu)等位基因支持深度進(jìn)行分析,判斷樣品是否被污染;SNP注釋步驟用過濾后 的SNP位點(diǎn)與dbSNP數(shù)據(jù)庫中的信息進(jìn)行比較,并結(jié)合ccds、refseq、ensembl數(shù)據(jù)庫中至 少一個(gè)中的數(shù)據(jù)對比對吻合的SNP位點(diǎn)進(jìn)行注釋與分類。本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的一個(gè)實(shí)施例中,在獲取 外顯子測序結(jié)果步驟中,通過將測序結(jié)果中含有的、由測序過程引入的linker序列和 adapter序列去除以實(shí)現(xiàn)純化處理;以及利用Soap工具將外顯子區(qū)域測序結(jié)果與參考基因 序列進(jìn)行比對,得到精確的比對結(jié)果。本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的一個(gè)實(shí)施例中,在去冗余 與排序步驟中,將比對結(jié)果去除重復(fù)信息后按照染色體和坐標(biāo)排序,排序處理后的結(jié)果作 為探測SNP位點(diǎn)步驟待處理的對象。本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的一個(gè)實(shí)施例中,在統(tǒng)計(jì)分 析步驟I中,采用工具soap, coverage對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),并繪制 具體分布圖,用以反映樣品目標(biāo)區(qū)域被覆蓋的均一性、大于預(yù)定值的堿基所占比例;以及用 X,Y染色體的目標(biāo)區(qū)域的測序深度,根據(jù)支持向量機(jī)的分析原理對樣本的性別進(jìn)行檢驗(yàn); 判斷樣品是否被污染;如果樣品在實(shí)驗(yàn)階段被污染,則給出具體的污染信息。本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的一個(gè)實(shí)施例中,在統(tǒng)計(jì)分 析步驟II中,如果SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度分析顯示全 局的SNP雜合率呈現(xiàn)集中趨勢,則判斷樣品被污染。本發(fā)明的另一個(gè)方面提供了一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng),該裝置 包括外顯子測序結(jié)果獲取模塊,用于對人類基因組DNA樣品進(jìn)行測序和純化處理,得到外 顯子區(qū)域測序結(jié)果;將外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn)行比對得到精確的比對結(jié) 果;去冗余與排序模塊,用于對比對后獲得的比對結(jié)果進(jìn)行去除重復(fù)信息和排序處理;統(tǒng) 計(jì)分析模塊,用于對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),以及用X,Y染色體的目標(biāo)區(qū) 域的測序深度,對樣本的性別進(jìn)行檢驗(yàn);判斷樣品是否被污染;對過濾后的SNP位點(diǎn)的覆蓋 度進(jìn)行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度進(jìn)行分 析,判斷樣品是否被污染;SNP位點(diǎn)探測模塊,用于從排序處理后的結(jié)果中找到SNP位點(diǎn); SNP位點(diǎn)過濾模塊,用于以質(zhì)量值為指標(biāo)對探測得到的SNP位點(diǎn)進(jìn)行篩選;SNP注釋模塊,用 于將過濾后的SNP位點(diǎn)與dbSNP數(shù)據(jù)庫中的信息進(jìn)行比較,并結(jié)合ccds、refseq、ensembl 數(shù)據(jù)庫中至少一個(gè)中的數(shù)據(jù)對比對吻合的SNP位點(diǎn)進(jìn)行注釋與分類。本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的一個(gè)實(shí)施例中,外顯子測 序結(jié)果獲取模塊進(jìn)一步包括純化處理子模塊,用于將測序結(jié)果中含有的、由測序過程引入
5的linker序列和adapter序列去除;比對子模塊,用于利用Soap工具將外顯子區(qū)域測序結(jié) 果與參考基因序列進(jìn)行比對,得到精確的比對結(jié)果。本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的一個(gè)實(shí)施例中,去冗余與 排序模塊進(jìn)一步包括去冗余子模塊,用于對比對后獲得的比對結(jié)果進(jìn)行去除重復(fù)信息處 理;排序子模塊,用于將去除重復(fù)信息后的比對結(jié)果按照染色體和坐標(biāo)進(jìn)行排序,排序處理 后的結(jié)果作為SNP位點(diǎn)探測模塊待處理的對象。本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的一個(gè)實(shí)施例中,統(tǒng)計(jì)分析 模塊進(jìn)一步包括第一統(tǒng)計(jì)分析子模塊,用于對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),以 及用x,Y染色體的目標(biāo)區(qū)域的測序深度,對樣本的性別進(jìn)行檢驗(yàn);判斷樣品是否被污染;第 二統(tǒng)計(jì)分析子模塊,用于對過濾后的SNP位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn)的最優(yōu) 等位基因支持深度和次優(yōu)等位基因支持深度進(jìn)行分析,判斷樣品是否被污染。本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的一個(gè)實(shí)施例中,第一統(tǒng)計(jì) 分析子模塊采用工具soap, coverage對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),并繪制具 體分布圖,用以反映樣品目標(biāo)區(qū)域被覆蓋的均一性、大于預(yù)定值的堿基所占比例;以及用 X,Y染色體的目標(biāo)區(qū)域的測序深度,根據(jù)支持向量機(jī)的分析原理對樣本的性別進(jìn)行檢驗(yàn); 判斷樣品是否被污染;如果樣品在實(shí)驗(yàn)階段被污染,則給出具體的污染信息;第二統(tǒng)計(jì)分 析子模塊對過濾后的SNP位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn)的最優(yōu)等位基因支持 深度和次優(yōu)等位基因支持深度進(jìn)行分析;如果SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等 位基因支持深度分析顯示全局的SNP雜合率呈現(xiàn)集中趨勢,則判斷樣品被污染。本發(fā)明提供了一種關(guān)于檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法及系統(tǒng),通過對 基因組特定區(qū)域測序進(jìn)行比對、SNP位點(diǎn)注釋與分類等操作,高效、快速地獲取高準(zhǔn)確度的 SNP注釋結(jié)果,為解碼個(gè)人基因組和實(shí)現(xiàn)個(gè)體化醫(yī)療提供保障,解決了基因組外顯子區(qū)域生 物信息學(xué)分析方法和工具不完善的問題。
圖1示出本發(fā)明實(shí)施例提供的一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的流 程圖;圖2示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的另一個(gè)實(shí)施例 的流程圖;圖3示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的另一個(gè)實(shí)施例 的流程圖;圖4示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的一個(gè)具體實(shí)施 方式的流程圖;圖5示出圖4所示的具體實(shí)施方式
采用soap, coverage對目標(biāo)區(qū)域進(jìn)行深度和覆 蓋度統(tǒng)計(jì)后繪制的目標(biāo)區(qū)域深度分布直方圖;圖6示出圖4所示的具體實(shí)施方式
采用soap, coverage對目標(biāo)區(qū)域進(jìn)行深度和覆 蓋度統(tǒng)計(jì)后繪制的目標(biāo)區(qū)域深度積累分布圖;圖7示出圖4所示的具體實(shí)施方式
采用soap, coverage對目標(biāo)區(qū)域進(jìn)行深度和覆 蓋度統(tǒng)計(jì)后繪制的測序深度飽和度曲線6
圖8示出圖4所示的具體實(shí)施方式
對每個(gè)SNP位點(diǎn)的最優(yōu)allele支持深度和次 優(yōu)allele支持深度進(jìn)行分析后繪制的SNP位點(diǎn)雜合度散點(diǎn)圖;圖9示出本發(fā)明實(shí)施例提供的一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的結(jié) 構(gòu)示意圖;圖10示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的另一個(gè)實(shí)施例 的結(jié)構(gòu)示意圖;圖11示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的另一個(gè)實(shí)施例 的結(jié)構(gòu)示意圖;圖12示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的另一個(gè)實(shí)施例 的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面參照附圖用本發(fā)明的示例性實(shí)施例對本發(fā)明進(jìn)行更全面的描述及說明。圖1示出本發(fā)明實(shí)施例提供的一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的流 程圖。如圖1所示,檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法100包括步驟102,獲取外顯 子測序結(jié)果步驟對人類基因組DNA樣品進(jìn)行測序和純化處理,得到外顯子區(qū)域測序結(jié)果; 將外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn)行比對得到精確的比對結(jié)果。本發(fā)明實(shí)施例中, 測序方法可以采用高通量測序技術(shù),例如采用Illumina GA Solexa測序技術(shù);Solexa是一 種基于邊合成邊測序技術(shù)(SBS,Sequencing-By-Synthesis)的新型測序方法,通過利用單 分子陣列實(shí)現(xiàn)在小型芯片(Flow Cell)上進(jìn)行橋式PCR反應(yīng)。新的可逆阻斷技術(shù)可實(shí)現(xiàn)每 次只合成一個(gè)堿基,不需要標(biāo)記熒光基團(tuán),再利用相應(yīng)的激光激發(fā)熒光基團(tuán)捕獲激發(fā)光,從 而讀取堿基信息。本發(fā)明的一個(gè)實(shí)施例中,可以采用本申請人(深圳華大基因科技有限公司)自主 研發(fā)的soap工具(該軟件可以免費(fèi)獲得,下載網(wǎng)址是http://soap, genomics, org. cn/)將 純化處理后的外顯子區(qū)域測序結(jié)果比對到參考基因組(參考基因組可以來自標(biāo)準(zhǔn)化組織 公開發(fā)布的基因組信息)上,得到精確的比對結(jié)果;其中對soap工具所涉及的具體方法可 以參見文獻(xiàn)SOAP short oligonucleotide alignment program ;Ruiqiang Li, Yingrui Li, Karsten Kristiansen and Jun Wang ;Bioinformatics ;200824(5) :713_714 ;doi 10.1093。步驟104,去冗余與排序步驟對比對后獲得的比對結(jié)果進(jìn)行去除重復(fù)信息和排 序處理。本發(fā)明提供的一個(gè)實(shí)施例中,通過將比對結(jié)果去除重復(fù)信息后按照“染色體和坐 標(biāo)”排序,排序處理后的結(jié)果作為探測SNP位點(diǎn)步驟待處理的對象。步驟106,統(tǒng)計(jì)分析步驟I 對全局的目標(biāo)區(qū)域(target region)進(jìn)行深度和覆蓋 度統(tǒng)計(jì),以及用X,Y染色體的目標(biāo)區(qū)域的測序深度,對樣本的性別進(jìn)行檢驗(yàn);判斷樣品是否 被污染,從而排除潛在的樣品污染。本發(fā)明中目標(biāo)區(qū)域可以是預(yù)先設(shè)定或已知的一系列參 考坐標(biāo),來標(biāo)示所關(guān)注的區(qū)域。本發(fā)明的一個(gè)實(shí)施例中,可以采用本申請人自主研發(fā)的工具 soap, coverage (Soap, coverage是一個(gè)完備的統(tǒng)計(jì)工具,該軟件可以免費(fèi)獲得,下載網(wǎng)址是 http://soap, genomics, org. cn/)對target區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì)。在分析報(bào)告中可以具體給出Pure或Polluted的定性分析結(jié)論。步驟108,探測SNP位點(diǎn)步驟從排序處理后的結(jié)果中找到SNP位點(diǎn)。單核苷酸多 態(tài)性(SNP)是指在基因組上單個(gè)核苷酸的變異,形成的遺傳標(biāo)記數(shù)量很多,多態(tài)性豐富。這 種發(fā)生在基因組序列上的變異,會影響遺傳疾病的發(fā)生,生物體對于各種病原體,化學(xué)品, 藥物以及疫苗等的反應(yīng)。人體許多表型差異、對疾病的易感性等等都可能與SNP有關(guān)。因 此,SNP被普遍認(rèn)為是實(shí)現(xiàn)個(gè)體化醫(yī)療的關(guān)鍵,對于SNP的分析檢測具有重大價(jià)值。本發(fā) 明的一個(gè)實(shí)施例中,可以采用本申請人自主開發(fā)的SNP探測工具SoapSNP(該軟件可以免 費(fèi)獲得,下載網(wǎng)址是http://soap. genomics, org. cn/)找到我們所關(guān)心的SNP位點(diǎn),其中 有關(guān) SoapSNP 工具的原理可以參見文獻(xiàn)SNP detection for massively parallel whole genome resequencing ;Ruiqiang Li, Yingrui Li, Xiaodong Fang, Huanming Yang, Jian Wang, Karsten Kristiansen and Junn Wang Genome Res. ;2009. 19 :1124_1132。步驟110,SNP位點(diǎn)過濾步驟以質(zhì)量值為指標(biāo)對探測得到的SNP位點(diǎn)進(jìn)行篩選。 本發(fā)明的一個(gè)實(shí)施例中,可以預(yù)先規(guī)定質(zhì)量值的閾值為20(閾值20代表錯(cuò)誤率是0. 01,低 于這個(gè)值可視為“不可信”),以此閾值作為篩選SNP位點(diǎn)的指標(biāo);本領(lǐng)域技術(shù)人員根據(jù)本發(fā) 明的教導(dǎo)可以清楚的知曉,根據(jù)具體的樣品進(jìn)行SNP位點(diǎn)篩選的標(biāo)準(zhǔn)是可以不同的,本領(lǐng) 域技術(shù)人員可以根據(jù)實(shí)際情況選取合適的閾值,前述所舉例說明的閾值并不用來限制本發(fā) 明的。步驟112,統(tǒng)計(jì)分析步驟II 對過濾后的SNP位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每個(gè) SNP位點(diǎn)的最優(yōu)等位基因(allele)支持深度和次優(yōu)等位基因支持深度進(jìn)行分析,判斷樣品 是否被污染。其中最優(yōu)等位基因“支持深度”,即有多少條基因序列在當(dāng)前坐標(biāo)的基因型與 最優(yōu)基因型一致;如果SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度分析顯 示全局的SNP雜合率呈現(xiàn)集中趨勢,例如散點(diǎn)呈現(xiàn)出線性關(guān)系,相關(guān)系數(shù)r的平方趨近于1 時(shí),斜率是否偏離0. 5(0. 5是正常值);據(jù)此判斷樣品被污染。步驟114,SNP注釋步驟用過濾后的SNP位點(diǎn)與dbSNP數(shù)據(jù)庫中的信息進(jìn)行比較, 并結(jié)合ccds (Consensus CDS的簡稱)、refseq、ensembl數(shù)據(jù)庫中至少一個(gè)中的數(shù)據(jù)對比 對吻合的SNP位點(diǎn)進(jìn)行注釋與分類。其中,dbSNP數(shù)據(jù)庫(單核苷酸多態(tài)性數(shù)據(jù)庫,Single Nucleotide Polymorphism Database)是美國國家生物技術(shù)信息中心(NCBI,National Center for Biotechnology Information)與國家人類基因組研究所(NHGRI,National Human Genome Research Institute)合作主辦,向公眾免費(fèi)提供在不同的物種內(nèi)的遺傳變 異的權(quán)威基因檔案。通過把當(dāng)前樣本中出現(xiàn)的SNP位點(diǎn)與數(shù)據(jù)庫中已知的SNP位點(diǎn)信息進(jìn) 行比較,確定基因突變的SNP位點(diǎn),從而尋找可能受到影響的基因,并對其進(jìn)行標(biāo)注分類。本發(fā)明一個(gè)實(shí)施例提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法,對基因組特定 區(qū)域測序進(jìn)行SNP分析,而且本發(fā)明檢測SNP結(jié)果準(zhǔn)確度高,速度快,成本低,全過程均可以 實(shí)現(xiàn)自動(dòng)化,即以原始測序數(shù)據(jù)為數(shù)據(jù)源,自動(dòng)生成高質(zhì)量SNP位點(diǎn),并對SNP位點(diǎn)進(jìn)行注 釋與分類。圖2示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的另一個(gè)實(shí)施例 的流程圖。如圖2所示,檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法200包括步驟202、203、 204-214,其中步驟204-214可以分別執(zhí)行與圖1所示的步驟104-114相同或相似的技術(shù)內(nèi)
8容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖2所示,步驟202,對人類基因組DNA樣品進(jìn)行測序,通過將測序結(jié)果中含有 的、由測序過程引入的linker序列和adapter序列去除以實(shí)現(xiàn)對外顯子區(qū)域測序結(jié)果的純 化處理。步驟203,利用Soap工具將外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn)行比對,得到 精確的比對結(jié)果。圖3示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的另一個(gè)實(shí)施例 的流程圖。如圖3所示,檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法300包括步驟302、304、 306-310、312、314,其中步驟302、304、308、310、312和314可以分別執(zhí)行與圖1所示的步驟 102、104、108、110、112和114相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖3所示,在步驟304后,執(zhí)行步驟306,采用工具soap, coverage對全局的目標(biāo) 區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),并繪制具體分布圖,用以反映樣品目標(biāo)區(qū)域被覆蓋的均一性、 大于預(yù)定值的堿基所占比例。例如,根據(jù)對目標(biāo)區(qū)域的深度和覆蓋度統(tǒng)計(jì)可以繪制目標(biāo)區(qū) 域深度分布直方圖,通過判斷該直方圖與泊松分布(Poisson distribution)的吻合程度來 反映樣品被測目標(biāo)區(qū)域被覆蓋的均一性;繪制目標(biāo)區(qū)域深度累積分布圖,反映某一深度值 的堿基占總長度的比率;此外,還可以繪制測序深度飽和度曲線圖,用來反映測序深度與目 標(biāo)區(qū)域覆蓋度的相關(guān)性。步驟307,用X,Y染色體的目標(biāo)區(qū)域的測序深度,根據(jù)SVM(支持向量機(jī),Support Vector Machine,一種廣泛使用的數(shù)理統(tǒng)計(jì)學(xué)習(xí)方法)的分析原理對樣本的性別進(jìn)行檢驗(yàn); 判斷樣品是否被污染;如果是,執(zhí)行步驟309 ;否則執(zhí)行步驟310。即通過用XY染色體深度 進(jìn)行性別檢驗(yàn),以排除潛在的樣品被污染的情形。步驟309,如果樣品在實(shí)驗(yàn)階段被污染,則給出具體的污染信息;實(shí)驗(yàn)失敗,可以 終止檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的流程。步驟312,判斷樣品是否被污染;如果是,執(zhí)行步驟309 ;否則執(zhí)行步驟314。圖4示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的一個(gè)具體實(shí)施 方式的流程圖。本發(fā)明中,檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法的各步流程都可以整合到軟 # ECP (Exome Capture processor)中,本軟件的運(yùn)行環(huán)境為Unix/Linux操作系統(tǒng),通過 Unix/Linux命令行運(yùn)行。具體操作步驟如下在Linux操作系統(tǒng)計(jì)算機(jī)終端中輸入以下命令ECP-lsample. list-o outdir-r hgl8. fa~t capture_regions/-i hs. fa. index-p-fref. fa. stat-x-q 20-SECP命令行參數(shù)包括-r參考序列路徑;-1樣品列表路徑(列表格式見下文)-0輸出文件夾路徑-t目標(biāo)區(qū)域文件夾路徑-i參考序列soap建庫文件路徑
-f參考序列Stat文件路徑-χ是否生成SNP文件-ρ 是否為 pair-end-S生成CNS文件-e外顯子區(qū)域文件加路徑-a ^^^ adapter-L 是否去 linker-h 幫助-ν當(dāng)前版本待分析數(shù)據(jù)包括(1)、測序數(shù)據(jù)PE_1. fq PE_2. fq(外顯子區(qū)域測序結(jié)果)(2)、參考序列hgl8. fa (物種參考序列)(3)、外顯子坐標(biāo)信息=Exome. target (外顯子在基因組中絕對坐標(biāo))(4)、樣品初始信息 sample, list 1)樣品名FC61K8AAAXX(該處使用的本樣品需經(jīng)本發(fā)明的發(fā)明人羅銳邦許可,本 領(lǐng)域技術(shù)人員應(yīng)該知曉,此處僅僅是選取一種樣品作為檢測對象,本發(fā)明具體方案的實(shí)現(xiàn) 不依賴于該特定的樣品,該處所使用的樣品不對本發(fā)明構(gòu)成任何限制);2) lane 號100509_I82_FC61K8AAAXX_L2_HUMlrbXAADCAAPEI-63)性別Male4)測序數(shù)據(jù)(該樣品對應(yīng)的測序數(shù)據(jù),僅作舉例說明,不對本發(fā)明技術(shù)方案的實(shí) 現(xiàn)構(gòu)成任何限制)100509_I82_FC61K8AAAXX_L2_HUMlrbXAADCAAPEI-6_l. fq100509_I82_FC61K8AAAXX_L2_HUMlrbXAADCAAPEI-6_2. fq5)插入片段大小100-200bp表一示出針對樣品(FC61K8AAAXX)進(jìn)行檢測的結(jié)果,涉及數(shù)據(jù)產(chǎn)量&捕獲效率的
分析結(jié)果等。
) 如圖4所示,在該具體實(shí)施方式
中選擇一名男性的基因組序列(樣品名 FC61K8AAAXX),經(jīng)過測序得到外顯子區(qū)域測序結(jié)果(reads file( * .fq)),經(jīng)過去除 linker和adapter的純化處理,得到高通量測序結(jié)果(solexa reads);隨后利用Soap工具 將該處理后的該高通量測序結(jié)果與參考基因組序列(* . fa)進(jìn)行比對,對結(jié)果中的重復(fù)信 息進(jìn)行去冗余和排序處理,從而得到具有唯一性的reads ;接下來進(jìn)行統(tǒng)計(jì)分析與質(zhì)量控 制檢測,具體來說,涉及采用soap, coverage對target區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),給出具 體分布圖。圖5示出圖4所示的具體實(shí)施方式
采用soap, coverage對目標(biāo)區(qū)域進(jìn)行深度和 覆蓋度統(tǒng)計(jì)后繪制的目標(biāo)區(qū)域深度分布直方圖。如圖5所示,通過判斷該直方圖與泊松分 布(Poisson distribution)的吻合程度來反映樣品被測目標(biāo)區(qū)域被覆蓋的均一性;具體 來說,主要涉及樣品目標(biāo)區(qū)域是否被測到,測到的區(qū)域分布是否均一。圖6示出圖4所示的具體實(shí)施方式
采用soap, coverage對目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì)后繪制的目標(biāo)區(qū)域深度積累分布圖。如圖6所示,繪制目標(biāo)區(qū)域深度累積分布圖,反映某一深度值的堿基占總 長度的比率;具體來說,主要涉及至少有多少百分比的堿基深度在多少層以上。圖7示出圖 4所示的具體實(shí)施方式
采用soap, coverage對目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì)后繪制的測 序深度飽和度曲線圖。如圖7所示,測序深度飽和度曲線圖,用來反映測序深度與目標(biāo)區(qū)域 覆蓋度的相關(guān)性,如多少層深度就能基本覆蓋全部區(qū)域,避免深度不夠?qū)е赂采w度的減少, 也避免深度太大造成數(shù)據(jù)冗余。以及針對前述排序處理后的結(jié)果,用SNP探測工具soapSNP找到我們所關(guān)心的SNP
位點(diǎn),如表二所示。 表二 SNP位點(diǎn)探測結(jié)果的節(jié)選根據(jù)所探測的SNP位點(diǎn),以質(zhì)量值為指標(biāo)進(jìn)行篩選過濾,并對外顯子區(qū)域的SNP位 點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并且以每個(gè)SNP位點(diǎn)的最優(yōu)allele支持深度和次優(yōu)allele支持深 度進(jìn)行分析。圖8示出圖4所示的具體實(shí)施方式
對每個(gè)SNP位點(diǎn)的最優(yōu)allele支持深度 和次優(yōu)allele支持深度進(jìn)行分析后繪制的SNP位點(diǎn)雜合度散點(diǎn)圖。如圖8所示,通過顯 示全局的SNP的雜合率是否有一定的集中趨勢來判斷樣品是否被污染,例如,若雜合位點(diǎn) 深度散點(diǎn)圖有高度集中的趨勢,即相關(guān)系數(shù)趨近1,且斜率偏離0. 5則說明有污染的可能。 最后可以將篩選過濾后獲得SNP位點(diǎn)結(jié)果,與dbSNP數(shù)據(jù)庫中的信息進(jìn)行比較,結(jié)合ccds、refseq和ensembl等數(shù)據(jù)庫中至少-類。
卜數(shù)據(jù)庫中的數(shù)據(jù)對其進(jìn)行注釋(如表三所示)與分 表三SNP位點(diǎn)注釋結(jié)果的節(jié)選本發(fā)明具體實(shí)施方式
提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法已整合成軟 件ECP,其檢測全過程都能夠通過自動(dòng)化的方式實(shí)現(xiàn),對計(jì)算機(jī)I/O資源,內(nèi)存資源有很好 控制。以管道技術(shù)代替以往以文件作為信息交換的方式,以二進(jìn)制內(nèi)存壓縮和二進(jìn)制文件 臨時(shí)存儲作為大內(nèi)存數(shù)據(jù)的解決方案,在理論上可以使本系統(tǒng)適應(yīng)任何能夠運(yùn)行SOAP的 硬件環(huán)境。圖9示出本發(fā)明實(shí)施例提供的一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的結(jié) 構(gòu)示意圖。如圖9所示,一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)900包括外顯子測序結(jié) 果獲取模塊902、去冗余與排序模塊904、統(tǒng)計(jì)分析模塊906、SNP位點(diǎn)探測模塊908、SNP位 點(diǎn)過濾模塊910和SNP注釋模塊912。其中,外顯子測序結(jié)果獲取模塊902,用于對人類基因組DNA樣品進(jìn)行測序和純 化處理,得到外顯子區(qū)域測序結(jié)果;將外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn)行比對得到 精確的比對結(jié)果。本發(fā)明實(shí)施例中,測序方法可以采用高通量測序技術(shù),例如Illumina GA Solexa測序技術(shù);本發(fā)明的一個(gè)實(shí)施例中,可以采用本申請人(深圳華大基因科技 有限公司)自主研發(fā)的soap工具將純化處理后的外顯子區(qū)域測序結(jié)果比對到參考基因 組(參考基因組可以來自標(biāo)準(zhǔn)化組織公開發(fā)布的基因組信息)上,得到精確的比對結(jié) 果;其中對soap工具所涉及的具體方法可以參見文獻(xiàn)S0AP :short oligonucleotide alignment program ;Ruiqiang Li, Yingrui Li, Karsten Kristiansen and Jun Wang; Bioinformatics ;200824(5) :713_714;doi :10·1093。去冗余與排序模塊904,用于對比對后獲得的比對結(jié)果進(jìn)行去除重復(fù)信息和排序 處理。本發(fā)明提供的一個(gè)實(shí)施例中,通過將比對結(jié)果去除重復(fù)信息后按照“染色體和坐標(biāo)” 排序,排序處理后的結(jié)果作為探測SNP位點(diǎn)步驟待處理的對象。統(tǒng)計(jì)分析模塊906,用于對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),以及用Χ,Υ染 色體的目標(biāo)區(qū)域的測序深度,對樣本的性別進(jìn)行檢驗(yàn);判斷樣品是否被污染;對過濾后的 SNP位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等位基因 支持深度進(jìn)行分析,判斷樣品是否被污染。本發(fā)明中目標(biāo)區(qū)域可以是預(yù)先設(shè)定或已知的一 系列參考坐標(biāo),來標(biāo)示所關(guān)注的區(qū)域。本發(fā)明的一個(gè)實(shí)施例中,可以采用本申請人自主研發(fā)的工具soap, coverage對target區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì)。其中,最優(yōu)等位基因“支持 深度”,即有多少條基因序列在當(dāng)前坐標(biāo)的基因型與最優(yōu)基因型一致;如果SNP位點(diǎn)的最優(yōu) 等位基因支持深度和次優(yōu)等位基因支持深度分析顯示全局的SNP雜合率呈現(xiàn)集中趨勢,則 判斷樣品被污染。SNP位點(diǎn)探測模塊908,用于從排序處理后的結(jié)果中找到SNP位點(diǎn)。本發(fā)明的一個(gè) 實(shí)施例中,可以采用本申請人自主開發(fā)的SNP探測工具soapSNP找到我們所關(guān)心的SNP位 點(diǎn),其中有關(guān)SoapSNP工具的原理可以參見文獻(xiàn)SNP detection for massively parallel whole genome resequencing ;Ruiqiang Li,Yingrui Li,Xiaodong Fang,Huanming Yang, Jian Wang, Karsten Kristiansen and Junn Wang Genome Res. ;2009. 19 :1124_1132。SNP位點(diǎn)過濾模塊910,用于以質(zhì)量值為指標(biāo)對探測得到的SNP位點(diǎn)進(jìn)行篩選。本 發(fā)明的一個(gè)實(shí)施例中,可以預(yù)先規(guī)定質(zhì)量值的閾值為20,以此閾值作為篩選SNP位點(diǎn)的指 標(biāo);本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的教導(dǎo)可以清楚的知曉,根據(jù)具體的樣品進(jìn)行SNP位點(diǎn)篩 選的標(biāo)準(zhǔn)是可以不同的,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際情況選取合適的閾值,前述所舉例 說明的閾值并不用來限制本發(fā)明的。SNP注釋模塊912,用于將過濾后的SNP位點(diǎn)與dbSNP數(shù)據(jù)庫中的信息進(jìn)行比較, 并結(jié)合ccds、refseq、ensembl數(shù)據(jù)庫中至少一個(gè)中的數(shù)據(jù)對比對吻合的SNP位點(diǎn)進(jìn)行注釋 與分類。通過把當(dāng)前樣本中出現(xiàn)的SNP位點(diǎn)與數(shù)據(jù)庫中已知的SNP位點(diǎn)信息進(jìn)行比較,確 定基因突變的SNP位點(diǎn),從而尋找可能受到影響的基因,并對其進(jìn)行標(biāo)注分類。本發(fā)明一個(gè)實(shí)施例提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng),對基因組特定 區(qū)域測序進(jìn)行SNP分析,而且本發(fā)明檢測SNP結(jié)果準(zhǔn)確度高,速度快,成本低,全過程均可以 實(shí)現(xiàn)自動(dòng)化,即以原始測序數(shù)據(jù)為數(shù)據(jù)源,自動(dòng)生成高質(zhì)量SNP位點(diǎn),并對SNP位點(diǎn)進(jìn)行注 釋與分類。圖10示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的另一個(gè)實(shí)施例 的結(jié)構(gòu)示意圖。如圖10所示,一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)1000包括外顯子測序 結(jié)果獲取模塊1002、去冗余與排序模塊1004、統(tǒng)計(jì)分析模塊1006、SNP位點(diǎn)探測模塊1008、 SNP位點(diǎn)過濾模塊1010和SNP注釋模塊1012,其中去冗余與排序模塊1004、統(tǒng)計(jì)分析模塊 1006、SNP位點(diǎn)探測模塊1008、SNP位點(diǎn)過濾模塊1010和SNP注釋模塊1012可以是與圖9 所示去冗余與排序模塊904、統(tǒng)計(jì)分析模塊906、SNP位點(diǎn)探測模塊908、SNP位點(diǎn)過濾模塊 910和SNP注釋模塊912相同或相似的功能模塊。為簡潔起見,這里不再贅述。如圖10所示,外顯子測序結(jié)果獲取模塊1002進(jìn)一步包括純化處理子模塊10021 和比對子模塊10022;其中純化處理子模塊10021,用于通過將測序結(jié)果中含有的、由測序過程引入的 linker ·歹禾口 adgipter ·歹[I。比對子模塊10022,用于利用Soap工具將外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn) 行比對,得到精確的比對結(jié)果。圖11示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的另一個(gè)實(shí)施例 的結(jié)構(gòu)示意圖。如圖11所示,一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)1100包括外顯子測序
15結(jié)果獲取模塊1102、去冗余與排序模塊1104、統(tǒng)計(jì)分析模塊1106、SNP位點(diǎn)探測模塊1108、 SNP位點(diǎn)過濾模塊1110和SNP注釋模塊1112,其中外顯子測序結(jié)果獲取模塊1102、統(tǒng)計(jì)分 析模塊1106、SNP位點(diǎn)探測模塊1108、SNP位點(diǎn)過濾模塊1110和SNP注釋模塊1112可以是 與圖9所示外顯子測序結(jié)果獲取模塊902、統(tǒng)計(jì)分析模塊906、SNP位點(diǎn)探測模塊908、SNP 位點(diǎn)過濾模塊910和SNP注釋模塊912相同或相似的功能模塊。為簡潔起見,這里不再贅 述。如圖11所示,去冗余與排序模塊1104進(jìn)一步包括去冗余子模塊11041和排序子 模塊11042,其中去冗余子模塊11041,用于對比對后獲得的比對結(jié)果進(jìn)行去除重復(fù)信息處理。排序子模塊11042,用于將去除重復(fù)信息后的比對結(jié)果按照染色體和坐標(biāo)進(jìn)行排 序,排序處理后的結(jié)果作為SNP位點(diǎn)探測模塊待處理的對象。圖12示出本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)的另一個(gè)實(shí)施例 的結(jié)構(gòu)示意圖。如圖12所示,一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng)1200包括外顯子測序 結(jié)果獲取模塊1202、去冗余與排序模塊1204、統(tǒng)計(jì)分析模塊1206、SNP位點(diǎn)探測模塊1208、 SNP位點(diǎn)過濾模塊1010和SNP注釋模塊1012,其中外顯子測序結(jié)果獲取模塊1202、去冗余 與排序模塊1204、SNP位點(diǎn)探測模塊1208、SNP位點(diǎn)過濾模塊1010和SNP注釋模塊1012可 以是與圖9所示外顯子測序結(jié)果獲取模塊902、去冗余與排序模塊904、SNP位點(diǎn)探測模塊 908、SNP位點(diǎn)過濾模塊910和SNP注釋模塊912相同或相似的功能模塊。為簡潔起見,這 里不再贅述。如圖12所示,統(tǒng)計(jì)分析模塊1206進(jìn)一步包括第一統(tǒng)計(jì)分析子模塊12061和第二 統(tǒng)計(jì)分析子模塊12062,其中第一統(tǒng)計(jì)分析子模塊12061,用于對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),以及 用x,Y染色體的目標(biāo)區(qū)域的測序深度,對樣本的性別進(jìn)行檢驗(yàn);判斷樣品是否被污染。本發(fā) 明提供的一個(gè)實(shí)施例中,第一統(tǒng)計(jì)分析子模塊采用工具soap, coverage對全局的目標(biāo)區(qū)域 進(jìn)行深度和覆蓋度統(tǒng)計(jì),并繪制具體分布圖,用以反映樣品目標(biāo)區(qū)域被覆蓋的均一性、大于 預(yù)定值的堿基所占比例;以及用X,Y染色體的目標(biāo)區(qū)域的測序深度,根據(jù)支持向量機(jī)的分 析原理對樣本的性別進(jìn)行檢驗(yàn);判斷樣品是否被污染;如果樣品在實(shí)驗(yàn)階段被污染,則給 出具體的污染信息。第二統(tǒng)計(jì)分析子模塊12062,用于對過濾后的SNP位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每 個(gè)SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度進(jìn)行分析,判斷樣品是否被 污染。本發(fā)明提供的一個(gè)實(shí)施例中,第二統(tǒng)計(jì)分析子模塊對過濾后的SNP位點(diǎn)的覆蓋度進(jìn) 行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度進(jìn)行分析; 如果SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度分析顯示全局的SNP雜合 率呈現(xiàn)集中趨勢,則判斷樣品被污染。本發(fā)明提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng),對實(shí)驗(yàn)樣品進(jìn)行詳盡統(tǒng)計(jì) 分析與質(zhì)量控制,涉及深度、覆蓋度分析、捕獲效率分析、性別檢驗(yàn)、SNP位點(diǎn)雜合度一致性 等檢驗(yàn)。通過前述分析流程大大提高了了對基因組外顯子數(shù)據(jù)分析的準(zhǔn)確性和可靠性,同 時(shí)還能夠?qū)ο鄳?yīng)錯(cuò)誤信息進(jìn)行適當(dāng)修正。
參考前述本發(fā)明示例性的描述,本領(lǐng)域技術(shù)人員可以清楚的知曉本發(fā)明提供的檢 測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法及系統(tǒng)所具有的前述優(yōu)點(diǎn);具體如下1、本發(fā)明一個(gè)實(shí)施例提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法及系統(tǒng),對基 因組特定區(qū)域測序進(jìn)行SNP分析,而且本發(fā)明檢測SNP結(jié)果準(zhǔn)確度高,速度快,成本低,全過 程均可以實(shí)現(xiàn)自動(dòng)化,即以原始測序數(shù)據(jù)為數(shù)據(jù)源,自動(dòng)生成高質(zhì)量SNP位點(diǎn),并對SNP位 點(diǎn)進(jìn)行注釋與分類。2、本發(fā)明一個(gè)實(shí)施例提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法及系統(tǒng),已整 合成軟件ECP,其檢測全過程都能夠通過自動(dòng)化的方式實(shí)現(xiàn),對計(jì)算機(jī)I/O資源,內(nèi)存資源 有很好控制。以管道技術(shù)代替以往以文件作為信息交換的方式,以二進(jìn)制內(nèi)存壓縮和二 進(jìn)制文件臨時(shí)存儲作為大內(nèi)存數(shù)據(jù)的解決方案,在理論上可以使本系統(tǒng)適應(yīng)任何能夠運(yùn)行 SOAP的硬件環(huán)境。3、本發(fā)明一個(gè)實(shí)施例提供的檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法及系統(tǒng),對實(shí) 驗(yàn)樣品進(jìn)行詳盡統(tǒng)計(jì)分析,涉及深度、覆蓋度分析、捕獲效率分析、性別檢驗(yàn)、SNP位點(diǎn)雜合 度一致性等檢驗(yàn)。通過前述分析流程大大提高了 了對基因組外顯子數(shù)據(jù)分析的準(zhǔn)確性和可 靠性,同時(shí)還能夠?qū)ο鄳?yīng)錯(cuò)誤信息進(jìn)行適當(dāng)修正。本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明 限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。本發(fā)明中 描述的功能模塊以及功能模塊的劃分方式僅為說明本發(fā)明的思想,本領(lǐng)域技術(shù)人員根據(jù)本 發(fā)明的教導(dǎo)以及實(shí)際應(yīng)用的需要可以自由改變功能模塊的劃分方式及其模塊構(gòu)造以實(shí)現(xiàn) 相同的功能;選擇和描述實(shí)施例是為了更好說明本發(fā)明的原理和實(shí)際應(yīng)用,并且使本領(lǐng)域 的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計(jì)適于特定用途的帶有各種修改的各種實(shí)施例。
權(quán)利要求
一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法,其特征在于,所述方法包括獲取外顯子測序結(jié)果步驟對人類基因組DNA樣品進(jìn)行測序和純化處理,得到外顯子區(qū)域測序結(jié)果;將所述外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn)行比對得到精確的比對結(jié)果;去冗余與排序步驟對比對后獲得的比對結(jié)果進(jìn)行去除重復(fù)信息和排序處理;統(tǒng)計(jì)分析步驟I對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),以及用X,Y染色體的目標(biāo)區(qū)域的測序深度,對樣本的性別進(jìn)行檢驗(yàn);判斷所述樣品是否被污染;探測SNP位點(diǎn)步驟從排序處理后的結(jié)果中找到SNP位點(diǎn);SNP位點(diǎn)過濾步驟以質(zhì)量值為指標(biāo)對探測得到的所述SNP位點(diǎn)進(jìn)行篩選;統(tǒng)計(jì)分析步驟II對過濾后的SNP位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度進(jìn)行分析,判斷所述樣品是否被污染;SNP注釋步驟用所述過濾后的SNP位點(diǎn)與dbSNP數(shù)據(jù)庫中的信息進(jìn)行比較,并結(jié)合ccds、refseq和ensembl數(shù)據(jù)庫中至少一個(gè)中的數(shù)據(jù)對比對吻合的SNP位點(diǎn)進(jìn)行注釋與分類。
2.如權(quán)利要求1所述的方法,其特征在于,在所述獲取外顯子測序結(jié)果步驟中,通過將 測序結(jié)果中含有的、由測序過程引入的linker序列和adapter序列去除以實(shí)現(xiàn)所述純化處 理;以及利用Soap工具將所述外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn)行比對,得到精確的比 對結(jié)果。
3.如權(quán)利要求1所述的方法,其特征在于,在所述去冗余與排序步驟中,將所述比對結(jié) 果去除重復(fù)信息后按照染色體和坐標(biāo)排序,排序處理后的結(jié)果作為所述探測SNP位點(diǎn)步驟 待處理的對象。
4.如權(quán)利要求1所述的方法,其特征在于,在所述統(tǒng)計(jì)分析步驟I中,采用工具soap, coverage對所述全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),并繪制具體分布圖,用以反映所 述樣品目標(biāo)區(qū)域被覆蓋的均一性、大于預(yù)定值的堿基所占比例;以及用X,Y染色體的目標(biāo)區(qū)域的測序深度,根據(jù)支持向量機(jī)的分析原理對樣本的性別 進(jìn)行檢驗(yàn);判斷所述樣品是否被污染;如果所述樣品在實(shí)驗(yàn)階段被污染,則給出具體的污染信息。
5.如權(quán)利要求1所述的方法,其特征在于,在所述統(tǒng)計(jì)分析步驟II中,如果SNP位點(diǎn)的 最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度分析顯示全局的SNP雜合率呈現(xiàn)集中趨 勢,則判斷所述樣品被污染。
6.一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的系統(tǒng),其特征在于,所述系統(tǒng)包括外顯子測序結(jié)果獲取模塊,用于對人類基因組DNA樣品進(jìn)行測序和純化處理,得到外 顯子區(qū)域測序結(jié)果;將所述外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn)行比對得到精確的比對 結(jié)果;去冗余與排序模塊,用于對比對后獲得的比對結(jié)果進(jìn)行去除重復(fù)信息和排序處理; 統(tǒng)計(jì)分析模塊,用于對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),以及用X,Y染色體的 目標(biāo)區(qū)域的測序深度,對樣本的性別進(jìn)行檢驗(yàn);判斷所述樣品是否被污染;對過濾后的SNP 位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn)的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度進(jìn)行分析,判斷所述樣品是否被污染;SNP位點(diǎn)探測模塊,用于從排序處理后的結(jié)果中找到SNP位點(diǎn);SNP位點(diǎn)過濾模塊,用于以質(zhì)量值為指標(biāo)對探測得到的所述SNP位點(diǎn)進(jìn)行篩選;SNP注釋模塊,用于將所述過濾后的SNP位點(diǎn)與dbSNP數(shù)據(jù)庫中的信息進(jìn)行比較,并結(jié) 合CCdS、refSeq和ensembl數(shù)據(jù)庫中至少一個(gè)中的數(shù)據(jù)對比對吻合的SNP位點(diǎn)進(jìn)行注釋與 分類。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述外顯子測序結(jié)果獲取模塊進(jìn)一步包括純化處理子模塊,用于將測序結(jié)果中含有的、由測序過程引入的linker序列和adapter序列去除;比對子模塊,用于利用Soap工具將所述外顯子區(qū)域測序結(jié)果與參考基因序列進(jìn)行比 對,得到精確的比對結(jié)果。
8.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述去冗余與排序模塊進(jìn)一步包括去冗余子模塊,用于對比對后獲得的比對結(jié)果進(jìn)行去除重復(fù)信息處理;排序子模塊,用于將去除重復(fù)信息后的比對結(jié)果按照染色體和坐標(biāo)進(jìn)行排序,排序處 理后的結(jié)果作為SNP位點(diǎn)探測模塊待處理的對象。
9.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述統(tǒng)計(jì)分析模塊進(jìn)一步包括第一統(tǒng)計(jì)分析子模塊,用于對全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),以及用X,Y染 色體的目標(biāo)區(qū)域的測序深度,對樣本的性別進(jìn)行檢驗(yàn);判斷所述樣品是否被污染;第二統(tǒng)計(jì)分析子模塊,用于對過濾后的SNP位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn) 的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度進(jìn)行分析,判斷所述樣品是否被污染。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述第一統(tǒng)計(jì)分析子模塊采用工具soap, coverage對所述全局的目標(biāo)區(qū)域進(jìn)行深度和覆蓋度統(tǒng)計(jì),并繪制具體分布圖,用以反映所 述樣品目標(biāo)區(qū)域被覆蓋的均一性、大于預(yù)定值的堿基所占比例;以及用X,Y染色體的目標(biāo) 區(qū)域的測序深度,根據(jù)支持向量機(jī)的分析原理對樣本的性別進(jìn)行檢驗(yàn);判斷所述樣品是否 被污染;如果所述樣品在實(shí)驗(yàn)階段被污染,則給出具體的污染信息;所述第二統(tǒng)計(jì)分析子模塊對過濾后的SNP位點(diǎn)的覆蓋度進(jìn)行統(tǒng)計(jì),并以每個(gè)SNP位點(diǎn) 的最優(yōu)等位基因支持深度和次優(yōu)等位基因支持深度進(jìn)行分析;如果SNP位點(diǎn)的最優(yōu)等位基 因支持深度和次優(yōu)等位基因支持深度分析顯示全局的SNP雜合率呈現(xiàn)集中趨勢,則判斷所 述樣品被污染。
全文摘要
本發(fā)明公開了一種檢測基因組目標(biāo)區(qū)域多態(tài)性位點(diǎn)的方法及系統(tǒng),該方法包括獲取外顯子測序結(jié)果步驟,去冗余與排序步驟,統(tǒng)計(jì)分析步驟I,探測SNP位點(diǎn)步驟,SNP位點(diǎn)過濾步驟,統(tǒng)計(jì)分析步驟II和SNP注釋步驟。本發(fā)明通過對基因組特定區(qū)域測序進(jìn)行SNP分析,而且本發(fā)明檢測SNP結(jié)果準(zhǔn)確度高,速度快,成本低,全過程均可以實(shí)現(xiàn)自動(dòng)化,即以原始測序數(shù)據(jù)為數(shù)據(jù)源,自動(dòng)生成高質(zhì)量SNP位點(diǎn),并對SNP位點(diǎn)進(jìn)行注釋與分類。
文檔編號C12Q1/68GK101914628SQ20101027046
公開日2010年12月15日 申請日期2010年9月2日 優(yōu)先權(quán)日2010年9月2日
發(fā)明者余昶, 張帆, 李英睿, 羅銳邦 申請人:深圳華大基因科技有限公司