專利名稱:對(duì)高等植物復(fù)雜基因組基因進(jìn)行富集建庫和snp分析的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于分子生物學(xué)領(lǐng)域,尤其涉及一種建立高等植物復(fù)雜基因組基因文庫的方法。
背景技術(shù):
限制性酶切位點(diǎn)關(guān)聯(lián)DNA (restriction-site associated DNA, RAD)標(biāo)記技術(shù)是指一種將基因組DNA用限制性內(nèi)切酶消化后,對(duì)酶切位點(diǎn)區(qū)域進(jìn)行序列分析的技術(shù)。RAD標(biāo)記應(yīng)用初期是使用基因芯片技術(shù)來對(duì)RAD標(biāo)記進(jìn)行分離。例如,Lewis等(2007)使用NotI對(duì)粗糙鏈孢菌DNA進(jìn)行了酶切,之后用基因芯片對(duì)NotI酶切位點(diǎn)區(qū)域進(jìn)行了序列分析,并完成了對(duì)突變位點(diǎn)的作圖;Miller等(2007)用基因芯片技術(shù)分析了斑馬魚基因組的EcoRI標(biāo)記,也完成了對(duì)突變位點(diǎn)的作圖;Miller等(2007)測試了使用RAD基因芯片對(duì)生物單體以及分離群體進(jìn)行基因分型,結(jié)果顯示,在模式生物與非模式生物中,RAD標(biāo)記都能很好的進(jìn)行分型。雖然基因芯片技術(shù)能夠高密度的尋找生物體基因組中的RAD標(biāo)記,但是由于其價(jià)格昂貴,限制了應(yīng)用芯片技術(shù)的RAD標(biāo)記的應(yīng)用。近幾年來,由于第二代測序技術(shù)的逐漸普及以及相比于芯片技術(shù)的價(jià)格低廉,發(fā)展了使用第二代測序技術(shù)對(duì)RAD標(biāo)記進(jìn)行分析的方法。例如,Baird等(2008)開發(fā)了一套利用Illumina測序技術(shù)對(duì)RAD標(biāo) 記附近區(qū)域進(jìn)行測序的建庫方法,該方法在尋找SNP與RAD標(biāo)記作圖方面取得了很好的效果。Hohenlohe等(2010)應(yīng)用第二代測序技術(shù)對(duì)RAD標(biāo)記區(qū)域進(jìn)行測序,在5個(gè)三刺魚群體共100個(gè)個(gè)體中找到了 45000個(gè)SNP位點(diǎn)。Chutimanitsakun等(2011)以大麥為模式生物,評(píng)測了 RAD測序技術(shù)在QTL方面的應(yīng)用。Pfender等(2011)使用RAD測序技術(shù)構(gòu)建的連鎖圖能夠快速分辨出黑麥草莖的抗銹病基因的QTL位點(diǎn)。截至目前,RAD技術(shù)已經(jīng)在制作遺傳連鎖圖、基因分型、QTL定位等方面得到了越來越廣泛地應(yīng)用,特別是在無參考序列的情況下尋找酶切位點(diǎn)附近區(qū)域SNP時(shí)展現(xiàn)出獨(dú)特優(yōu)勢。目前,RAD測序技術(shù)在建立文庫時(shí)使用的主要是Notl、EcoRI以及SbfI等酶。已報(bào)道的RAD測序技術(shù)的研究對(duì)象大多數(shù)都是基因組構(gòu)成較為簡單的生物。某些高等開花植物含有復(fù)雜的基因組,例如玉米基因組中80%以上是重復(fù)序列(Schnable等,2009)。重復(fù)序列區(qū)的大多數(shù)CG序列的胞嘧啶出現(xiàn)甲基化現(xiàn)象(Methylation),表示為5mC。而在基因區(qū)中的CG序列的胞卩密卩定很少發(fā)生甲基化(Gruenbaum等,1981 ;Vanyushin等,2011)。在研究這些復(fù)雜基因組時(shí),常規(guī)的RAD建庫方法得到的基因組文庫中含有大量的重復(fù)序列,不能起到富集基因組基因區(qū)的作用。雖然現(xiàn)有技術(shù)中已經(jīng)有對(duì)高等植物基因組基因區(qū)富集的方法,例如過濾掉甲基化序列的MF (Methylated Filtration) (Palmer等,2003)、過濾掉高拷貝序列的 HC(High-Cot)(Yuan 等,2003)、亞甲基部分限制 HMPR(Hypomethylated PartialRestriction)等,但是Emberton等(2005)的結(jié)果表明,上述三種方法構(gòu)建的文庫基因序列分別僅可以達(dá)到總序列的33.8%,23.4%,25.8%。本領(lǐng)域仍然需要一種適用于具有復(fù)雜基因組的高等植物的基因區(qū)建庫方法。
發(fā)明內(nèi)容
鑒于在研究某些含有復(fù)雜基因組的高等開花植物時(shí),常規(guī)的RAD建庫方法得到的基因組文庫中含有大量重復(fù)序列,給后續(xù)的信息分析造成干擾的事實(shí),本發(fā)明提供了一種新的建庫方法。在本發(fā)明的方法中,使用甲基化敏感酶替代常規(guī)的非甲基化敏感酶對(duì)基因組進(jìn)行酶切,之后進(jìn)行建庫。在一方面中,本發(fā)明提供了一種適合含有復(fù)雜基因組的高等開花植物的建庫方法,包括如下步驟:I)用甲基化敏感酶對(duì)從一個(gè)或多個(gè)樣本提取的基因組DNA進(jìn)行酶切,獲得DNA片段;2)對(duì)所述DNA片段進(jìn)行第一接頭連接,獲得具有第一接頭的連接產(chǎn)物,其中在多個(gè)樣本基因組DNA的情況下,每種樣品的DNA片段連接的第一接頭帶有不同標(biāo)簽序列,并將連接第一接頭后的連接產(chǎn)物混合;3)對(duì)所述具有第一接頭連接產(chǎn)物進(jìn)行打斷及片段回收,獲得回收產(chǎn)物;4)對(duì)所述回收產(chǎn)物進(jìn)行末端修復(fù),獲得經(jīng)過末端修復(fù)的DNA片段;5)對(duì)所述經(jīng)過末端修復(fù)的DNA片段的3'端加堿基A,獲得具有粘性末端A的DNA片段;`6)對(duì)所述具有粘性末端A的片段進(jìn)行第二接頭連接,獲得具有第二接頭的連接產(chǎn)物;7)對(duì)所述具有第二接頭連接產(chǎn)物進(jìn)行PCR擴(kuò)增,獲得擴(kuò)增產(chǎn)物,所述擴(kuò)增產(chǎn)物構(gòu)成所述基因組富集基因區(qū)測序文庫。本發(fā)明還提供了一種適合含有復(fù)雜基因組的高等開花植物的尋找SNP的方法,包括I)對(duì)本發(fā)明的建庫方法第7)步的擴(kuò)增片段進(jìn)行測序;2)將上述測序序列與參考序列做比對(duì)分析,尋找SNP。本發(fā)明是對(duì)常規(guī)RAD方法的改進(jìn),能夠較大程度地使得基因富集,并且富集效率要高于前人所用的MF、HC、HMPR方法。所以本發(fā)明所提供的技術(shù)是一種快速有效的對(duì)基因組,特別是對(duì)某些高等開花植物復(fù)雜基因組,基因富集的建庫方法。本發(fā)明的方法特別可以應(yīng)用于對(duì)含有復(fù)雜基因組的高等開花植物進(jìn)行生物信息學(xué)分析,例如可以用于快速尋找有參考基因組序列的SNP和無參考基因組序列的基因區(qū)酶切位點(diǎn)附近區(qū)域的SNP。
圖1DNA 檢測結(jié)果。MI 是 λ-Hind III digest (Takara) ;M2 是 D2000 (Tiangen)。圖2 玉米四個(gè)品種的 HpaI1、MspI 的酶切效果。Ml 是 λ-Hind IIIdigest (Takara);M2 是 D2000(Tiangen)。圖3 打斷產(chǎn)物的膠回收。M 是 IOObp DNA ladder (Tiangen)。圖4PCR 產(chǎn)物的切膠回收。M 是 IOObp DNA ladder (Tiangen)。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。在本發(fā)明的方法中,使用甲基化敏感酶替代常規(guī)的非甲基化敏感酶對(duì)基因組進(jìn)行酶切,之后進(jìn)行建庫,建庫步驟可以參考例如Baird開發(fā)的方法。
在本發(fā)明中,可以使用例如soap (version 2.21,獲自 http://soap, genomics,org.cn/)將測序序列與參考基因組序列進(jìn)行比對(duì)分析。在本發(fā)明實(shí)施例中,以玉米基因組為例,但本發(fā)明的方法不局限于玉米基因組,而是適用于任何高等開花植物復(fù)雜基因組以及其他基因組,特別是含有復(fù)雜的基因組的某些高等開花植物,例如基因組中80%以上是重復(fù)序列的高等開花植物。參考序列是所研究物種的基因序列,可以來自公共數(shù)據(jù)庫,或者來自商業(yè)數(shù)據(jù)庫。所述參考序列也可以來自測序所得的短片短序列(讀段),基因組測序技術(shù)已經(jīng)被市場化應(yīng)用。本發(fā)明中,建庫初始的DNA總量優(yōu)選高于普通RAD建庫所要求的DNA的量。若按常規(guī)RAD要求的DNA的量來建庫,可能導(dǎo)致最后DNA的量不夠。經(jīng)測試,本方法初始DNA用
1.5μ g為佳。在本發(fā)明中,甲基化敏感酶可以是HpaI1、AclI, HpvCH4IV等,但是在內(nèi)切酶的識(shí)別序列中必須出現(xiàn)CG序列。在使用甲基化敏感酶進(jìn)行酶切時(shí),酶切時(shí)間優(yōu)選為1.5h。更優(yōu)選達(dá)到以下酶切效果,即出現(xiàn)彌散條帶。在本發(fā)明中,所述打斷片段優(yōu)選為500bp左右,例如400_600bp。該片段大小是指打斷后進(jìn)行電泳主帶的位置,并不要求所有序列都是該片段大小。在本發(fā)明的一個(gè)實(shí)施方案中,可以對(duì)打斷后的DNA片段進(jìn)行回收,例如切膠。在本發(fā)明的一個(gè)實(shí)施方案中,回收的DNA片段大小可以為300-700bp,或者可以為300_500bp,又或者可以為500_700bp。在本發(fā)明中,加上Pl接頭和P2接頭是為了進(jìn)行擴(kuò)增和方便后續(xù)測序。Pl接頭和P2接頭一般可以從測序平臺(tái)提供商獲得,并按照其說明使用,例如來自illumina solexa、ABI SOLiD, Roche 454 等平臺(tái)。在本發(fā)明中,標(biāo)簽序列是為了在多個(gè)樣品的情況下區(qū)分不同樣品,根據(jù)樣品多少標(biāo)簽序列長度可以為2-10bp,也可以更長。接頭的標(biāo)簽部分可以由本領(lǐng)域技術(shù)人員根據(jù)常理設(shè)計(jì)。在本發(fā)明中,因?yàn)槊總€(gè)Pl接頭都可以連接有不同的標(biāo)簽序列,所以不同樣品混合在一起在測序時(shí)也可以區(qū)分開。在本發(fā)明中,測序可以在高通量測序平臺(tái)上進(jìn)行,如Illumina Solexa、ABI SOLiD或 Roche 454 等。在本發(fā)明中,測序可以是Solexa測序,深度優(yōu)選為0.4X的單向50循環(huán)測序。在本發(fā)明中,可以使用soap2.21將測序序列與參考基因組序列做比對(duì)分析,品種間SNP的尋找。在本發(fā)明中,為了評(píng)估本發(fā)明的方法的優(yōu)勢,可以統(tǒng)計(jì)基因富集效率和基因覆蓋效率。例如,基因富集效率和基因覆蓋效率按照如下公式進(jìn)行計(jì)算:
基因富集率=基因reads數(shù)/總reads數(shù)基因覆蓋度=文庫基因數(shù)/玉米總基因數(shù)其中,基因富集率表示的是基因富集的效果。基因覆蓋度表示的是能夠覆蓋到的基因數(shù)。例如,玉米有32000個(gè)基因,而在本發(fā)明的實(shí)施例中,使用的建庫結(jié)果中得到了其中26119個(gè)基因,則基因覆蓋度為26119/32000,結(jié)果為80.27%。在基因富集率高的情況下也要兼顧基因覆蓋度。80.27%這樣的基因覆蓋程度完全可滿足后續(xù)分析的要求。實(shí)施例材料:包括四個(gè)品種的玉米,分別是B73、農(nóng)科白、鄭58、7922。每個(gè)品種種植一株。本實(shí)施例中所用試劑及儀器請見表1、表2、表3、表4。表I
權(quán)利要求
1.一種構(gòu)建基因組富集基因區(qū)測序文庫的方法,包括如下步驟: 1)用甲基化敏感酶對(duì)從一個(gè)或多個(gè)樣本提取的基因組DNA進(jìn)行酶切,獲得DNA片段; 2)對(duì)所述DNA片段進(jìn)行第一接頭連接,獲得具有第一接頭的連接產(chǎn)物,其中在多個(gè)樣本基因組DNA的情況下,每種樣品的DNA片段連接的第一接頭帶有不同標(biāo)簽序列,并將連接第一接頭后的連接產(chǎn)物混合; 3)對(duì)所述具有第一接頭連接產(chǎn)物進(jìn)行打斷及片段回收,獲得回收產(chǎn)物; 4)對(duì)所述回收產(chǎn)物進(jìn)行末端修復(fù),獲得經(jīng)過末端修復(fù)的DNA片段; 5)對(duì)所述經(jīng)過末端修復(fù)的DNA片段的3'端加堿基A,獲得具有粘性末端A的DNA片段; 6)對(duì)所述具有粘性末端A的片段進(jìn)行第二接頭連接,獲得具有第二接頭的連接產(chǎn)物; 7)對(duì)所述具有第二接頭連接產(chǎn)物進(jìn)行PCR擴(kuò)增,獲得擴(kuò)增產(chǎn)物,所述擴(kuò)增產(chǎn)物構(gòu)成所述基因組富集基因區(qū)測序文庫; 其中, 任選地,步驟I)中的甲基化敏感酶為HpaI1、AclI和HpvCH4IV的至少一種; 任選地,步驟I)中的樣本來源于高等植物,優(yōu)選所述樣本來源于基因組中含重復(fù)序列大于等于80%的高等植物。
2.權(quán)利要求1的方法,其中步驟I)中提取的基因組DNA量大于等于1.0μ g,優(yōu)選所述基因組DNA量大于等于1.5 μ g。
3.權(quán)利要求1或2的方法,其中步驟2)中的第一接頭是雙鏈結(jié)構(gòu),所述雙鏈序列為SEQID N0.1 和 SEQ ID N0.2。
4.權(quán)利要求1或2的方法,其中步驟2)中的標(biāo)簽序列長度為2-10nt。
5.權(quán)利要求1或2的方法,其中步驟3)中回收片段的大小為300-700bp; 任選地,所述回收片段的大小為300-500bp ; 任選地,所述回收的片段大小為500-700bp。
6.權(quán)利要求1或2的方法,其中步驟6)中的第二接頭是雙鏈結(jié)構(gòu),所述雙鏈序列為SEQID N0.3 和 SEQ ID N0.4。
7.權(quán)利要求1或2的方法,其中步驟7)中的酶切時(shí)間為1.0-2.0小時(shí),優(yōu)選為1.5小時(shí)。
8.權(quán)利要求1或2的方法,其中步驟7)中的PCR擴(kuò)增的引物依照所述第一接頭和/或第二接頭設(shè)計(jì),例如所述引物序列為SEQ ID N0.5和/或SEQ ID N0.6。
9.一種對(duì)基因組富集基因區(qū)進(jìn)行SNP檢測的方法,包括如下步驟: 1)對(duì)根據(jù)權(quán)利要求1-8任一項(xiàng)所述的方法構(gòu)建的基因組富集基因區(qū)測序文庫進(jìn)行測序,獲得測序序列; 2)將所述測序序列與參考序列做比對(duì)分析,尋找SNP; 其中, 任選地,步驟I)中測序選自在illumina solexa、ABI SOLiD和Roche 454中的任一測序平臺(tái)上進(jìn)行; 任選地,步驟2)中的參考序列為同物種的參考基因組或同物種測序所得的讀段。
全文摘要
本發(fā)明提供了一種適合含有復(fù)雜基因組的高等開花植物基因區(qū)的建庫方法。在本發(fā)明的方法中,使用甲基化敏感酶替代常規(guī)的非甲基化敏感酶對(duì)基因組進(jìn)行基因區(qū)富集,之后進(jìn)行建庫。本發(fā)明還提供了一種適合含有復(fù)雜基因組的高等開花植物的尋找SNP的方法。
文檔編號(hào)C40B40/06GK103160937SQ20111042004
公開日2013年6月19日 申請日期2011年12月15日 優(yōu)先權(quán)日2011年12月15日
發(fā)明者郭鈺, 邵迪, 韓長磊, 陶曄, 楊煥明, 張秀清 申請人:深圳華大基因科技有限公司, 深圳華大基因研究院