專利名稱:一種配對雙末端文庫構(gòu)建方法及用該文庫進行基因組測序的方法
技術(shù)領域:
發(fā)明涉及一種配對雙末端文庫構(gòu)建方法及用該文庫進行基因組測序的方法。
背景技術(shù):
基因文庫的建立和使用是70年代早期重組DNA技術(shù)的一個發(fā)展。人們?yōu)榱朔蛛x基因,特別是分離真核生物的基因,從1974年起相繼建立了大腸桿菌、酵母菌、果蠅、雞、兔、 小鼠、人、大豆等生物以及一些生物的線粒體和葉綠體DNA的基因文庫。基因文庫的建立使分子遺傳學和遺傳工程的研究進入了一個新時期。一個生物體的基因組DNA用限制性內(nèi)切酶部分酶切后,將酶切片段插入到載體 DNA分子中,所有這些插入了基因組DNA片段的載體分子的集合體,將包含這個生物體的整個基因組,也就是構(gòu)成了這個生物體的基因文庫。將這些載體導入到受體細菌或細胞中,這樣每個細胞就包含了一個基因組DNA片段與載體重組DNA分子,經(jīng)過繁殖擴增,許多細胞一起包含了該生物全部基因組序列,我們將這一個集合體叫做基因文庫。由于制備DNA片段的切點是隨機的,所以每一克隆內(nèi)所含的DNA片段既可能是一個或幾個基因,也可能是一個基因的一部分或除完整基因外還包含著兩側(cè)的鄰近DNA順序。一個基因文庫中應包含的克隆數(shù)目與該生物的基因組的大小和被克隆DNA片段的長度有關(guān)。原核生物的基因組較小,需要的克隆數(shù)也較少;真核生物的基因組較大,克隆數(shù)需相應增加,才能包含所有的基因。此外,載體容納外源DNA片段的大小即載體容量越大,則所需總克隆數(shù)越少;反之則所需數(shù)越多。如果一個基因文庫的總克隆數(shù)較少,則從中篩選基因雖然比較容易,但給以后的分析造成困難,因為片段的長度增加了。如果要使每一克隆中的DNA片段縮短,就須增加克隆數(shù),所以在建立基因文庫前應根據(jù)研究目的來確定 DNA片段的長度和克隆的數(shù)目。隨著大規(guī)模測序與生物信息學技術(shù)的發(fā)展和廣泛應用,越來越多的物種的基因組數(shù)據(jù)被人們所利用,而對基因組數(shù)據(jù)拼接的精確性對人們認識并有效地利用這些信息起著至關(guān)重要的作用。制備配對雙末端文庫(Paired-end library)是一種增加數(shù)據(jù)拼接精確性的有效方法,通過應用hired-end技術(shù),可以對測序產(chǎn)生的鄰接片段(contigs)進行排序, 并決定它們的相對位置?,F(xiàn)在不同的測序公司均有推出不同的I^aired-end文庫制備方法, 如Roche,Illumina,并且得到廣泛應用,但其I^aired-end文庫的跨度均在201Λ以內(nèi),主要因為現(xiàn)有的制備方法先要將提取到的基因組DNA用Hydrogenaiear打斷到一定大小,片段長度越大,回收率越低,造成起始基因組量變大;同時片段長度越大,打斷后均一性越差, 對后期的基因組拼接會有影響;再者,在文庫制備中間有一步驟需要對片段進行自身環(huán)化, 片段越大,環(huán)化越難,成功率相對也降低。所以跨度更大的I^aired-end文庫制備方法現(xiàn)階段還未建立,研究這一方面新的方法進行研究探索將對基因組數(shù)據(jù)的拼接有著重要意義
發(fā)明內(nèi)容
本發(fā)明提供一種利用已構(gòu)建好的基因組DNA文庫構(gòu)建超長跨度的配對雙末端文庫的方法。本發(fā)明的配對雙末端文庫構(gòu)建方法,包括以下步驟(a)提取基因組文庫中的質(zhì)粒;(b)使步驟(a)中的質(zhì)粒片段化至具有預期尺寸的片段;(C)利用甲基轉(zhuǎn)移酶使步驟 (b)得到的片段上特定的限制性內(nèi)切酶位點甲基化;(d)補平步驟(C)得到的片段的末端, 并在補平的片段兩端連接接頭,所述接頭具有步驟(C)中所述的特定的限制性內(nèi)切酶位點, 用外切酶消化掉未連上接頭的片段;(e)使用所述特定的限制性內(nèi)切酶消化步驟(d)生成的片段,以產(chǎn)生粘性末端,隨后環(huán)化,并用外切酶消化掉未環(huán)化的線性片段;以及(f)使用復合引物進行擴增環(huán)化后的產(chǎn)物,并對產(chǎn)物進行篩選,得到目的片段。本發(fā)明的配對雙末端文庫構(gòu)建方法,優(yōu)選地,步驟(b)中的預期尺寸為比基因組文庫所用載體大100-1500bp的范圍。本發(fā)明的配對雙末端文庫構(gòu)建方法,優(yōu)選地,步驟(C)中被甲基化的特定的限制性內(nèi)切酶位點為EcoR I。本發(fā)明的配對雙末端文庫構(gòu)建方法,優(yōu)選地,步驟(d)中的所述接頭為莖環(huán)結(jié)構(gòu)。優(yōu)選地,步驟(e)中使用特定的限制性內(nèi)切酶消化片段之后,還包括PCR純化以及進行片段大小篩選的步驟,然后再對基因片段進行環(huán)化。優(yōu)選地可以使用PCR純化磁珠進行片段大小篩選。優(yōu)選地,本發(fā)明的配對雙末端文庫構(gòu)建方法中,在步驟(e)的環(huán)化過程后還包括用外切酶消化步驟,以去掉未環(huán)化的基因片段。優(yōu)選地,本發(fā)明的配對雙末端文庫構(gòu)建方法中,步驟(f)中產(chǎn)物的篩選步驟包括先進行第一次PCR,之后用PCR純化磁珠進行第一次片段大小篩選,再以第一次篩選后得到的片段為模板進行第二次PCR,隨后用膠回收的方法進行第二次片段大小篩選,得到目的片段。本發(fā)明的配對雙末端文庫構(gòu)建方法中,經(jīng)過篩選得到的目的片段的大小是根據(jù)后續(xù)使用的測序儀器所允許的合適的片段大小確定,使用不同的測序儀可能需要不同的合適大小的目的片段。如有的測序儀優(yōu)選300-500bp大小的片段,則就篩選300-500bp大小的目的片段。優(yōu)選地,本發(fā)明的配對雙末端文庫構(gòu)建方法中,步驟(f)中擴增所用引物為復合引物,其特征在于,該引物由兩部分組成,包括5’端的測序引物以及3’端的與質(zhì)粒載體末端互補的特異擴增引物。本發(fā)明的制備方法中的PCR擴增,所用的引物是同樣的,其5’端為測序引物,序列由之后選擇的測序儀及試劑決定,3’為與質(zhì)粒載體末端互補的特異擴增引物,一般商業(yè)化的質(zhì)粒載體會提供相應的擴增或測序引物,可以直接應用。引物結(jié)合的位置位于基因組文庫中所用的質(zhì)粒載體的線性化后的兩端,啦鄰插入片段的兩端,這樣擴增出來的產(chǎn)物主要為基因組插入片段的雙末端,只有極小部分為質(zhì)粒載體序列,可后期通過生物信息學方法去除。本發(fā)明的制備方法中使用的莖環(huán)結(jié)構(gòu)的接頭Hairpin Adaptor是商業(yè)化的產(chǎn)品, 其上的酶切位點的種類決定了步驟(c)中的被甲基化酶甲基化的酶切位點的種類。如在一個優(yōu)選實施例中,Hairpin Adaptor帶有EcoRl酶切位點,那么步驟(c)中則將片段中的EcoRl酶切位點甲基化,以保護片段中的該特定的酶切位點,以利于后期的制備過程的進行。若該莖環(huán)結(jié)構(gòu)上帶有的酶切位點為其他的種類的酶切位點,則相應地使用與之對應的甲基化酶甲基化基因片段上的該酶切位點。本發(fā)明還提供一種利用上述的配對雙末端文庫進行基因組文庫配對雙末端高通量測序的方法。包括以下步驟(i)按權(quán)利要求1的方法構(gòu)建所述基因組文庫的配對雙末端文庫;以及(ii)對配對雙末端文庫進行高通量測序。本發(fā)明構(gòu)建的配對雙末端文庫是利用已制備好的基因組文庫來構(gòu)建的,巧妙地利用目標基因組文庫的載體大小,將基因組質(zhì)粒打斷成比文庫中載體本身大小大100-1500bp 的片段長度,再利用后續(xù)的篩選步驟,篩選出載體兩端都含有一段插入基因的片段,構(gòu)建配對雙末端文庫,這樣載體兩端的插入基因片段之間的跨度大小取決于基因組文庫本身插入片段的大小,而非HydroShear打斷的大小。不同的基因組文庫已帶有不同長度的基因組DNA片段,如cosmid文庫的插入片段大小約為30-501Λ,PAC文庫的插入大小 130-1501Λ,細菌人工染色體(BAC)文庫中插入片段大小為100-3001Λ,對于不同的基因組文庫,利用本發(fā)明的配對雙末端文庫的制備方法只需將片段打斷到比基因組文庫質(zhì)粒載體稍大100-1500bp的片段便可得到插入的基因組片段雙末端,而這些質(zhì)粒載體大小通常為 7-15kb不等,由此避免了現(xiàn)有技術(shù)中存在的片段長度大、回收率低、環(huán)化困難的問題,所以用該方法構(gòu)建超長跨度的配對雙末端文庫非常合適。利用本發(fā)明的配對雙末端文庫的制備方法,可以對不同跨度大小的基因組文庫,以一種通用性的、簡單的方法構(gòu)建出其相應的配對雙末端文庫,從而進行高通量測序,減少傳統(tǒng)基因組文庫配對雙末端測序的工作量及費用,提高效率,同時,可大大提高基因組數(shù)據(jù)拼接的精確性。
圖1為本發(fā)明的配對雙末端文庫構(gòu)建方法的流程圖2為本發(fā)明的一個優(yōu)選實施例中,配對雙末端文庫構(gòu)建方法的流程圖; 圖3為實施例二的Agilent DNA 7500 Chip電泳圖譜; 圖4為實施例三的Agilent DNA 7500 Chip電泳圖譜。
具體實施例方式下面將結(jié)合具體實施例詳細介紹本發(fā)明的配對雙末端文庫構(gòu)建方法及用該文庫進行基因組測序的方法。如圖1所示,本發(fā)明的配對雙末端文庫構(gòu)建方法包括(a)提取基因組文庫中的質(zhì)粒;(b)使步驟(a)中的質(zhì)粒片段化至具有預期尺寸的片段;(c)利用甲基轉(zhuǎn)移酶使步驟 (b)得到的片段上特定的限制性內(nèi)切酶位點甲基化;(d)補平步驟(c)得到的片段的末端, 并在補平的片段兩端連接接頭,所述接頭具有步驟(c)中所述的特定的限制性內(nèi)切酶位點, 用外切酶消化掉未連上接頭的片段;(e)使用所述特定的限制性內(nèi)切酶消化步驟(d)生成的片段,以產(chǎn)生粘性末端,隨后環(huán)化,并用外切酶消化掉未環(huán)化的線性片段;以及(f)使用復合引物進行擴增環(huán)化后的產(chǎn)物,并對產(chǎn)物進行篩選,得到目的片段。利用上述建設的配對雙末端文庫進行高通量基因組測序。實施例一如圖2所示,為在本發(fā)明的另一個實施例中,配對雙末端文庫構(gòu)建的流程圖,具體過程
為
(1)質(zhì)粒DNA提取提取大片段質(zhì)粒DNA;
(2)質(zhì)粒片段化取不少于20ug步驟(1)中的質(zhì)粒,用儀器對樣品進行剪切,通過切膠回收的方法得到比基因組文庫所用載體大100-1500bp的片段;
(3)EcoR I酶切位點甲基化在EcoR I甲基化酶的作用下,將片段上的EcoR I酶切位點進行甲基化保護;
(4)片段末端補平在T4DNA聚合酶及T4多聚核苷酸激酶的作用下將片段末端補平; 連接Hairpin Adaptor 在連接酶的作用下,在甲基化的片段兩端加上Hairpin Adaptor接頭,該接頭為莖環(huán)結(jié)構(gòu),在靠近其環(huán)狀結(jié)構(gòu)的一端含有EcoR I酶切位點,用外切酶消化未加上接頭的片段;
(5)EcoR I酶切消化及PicoGreen熒光定量用高濃度的EcoR I限制性內(nèi)切酶對加了 Hairpin Adaptor后的片段進行消化;對消化后的片段進行PCR純化,用PicoGreen熒光定量,總量應大于30ng;
(6)DNA自身環(huán)化取30ng EcoR I限制性內(nèi)切酶消化并純化后片段,用連接酶進行環(huán)化反應,用外切酶消化掉為環(huán)化的片段;
(7)hired-end擴增及大小選擇取純化后環(huán)化產(chǎn)物的一半為模板,用特定的復合引物對樣品進行PCR擴增,此次擴增循環(huán)數(shù)為15-20cycles ;反應結(jié)束后用PCR純化磁珠 (Ampure Beads)對樣品進行大小選擇,去掉小于300bp及大于700bp的片段;純化后樣品進行第二次PCR擴增,此次擴增循環(huán)數(shù)為10-15cycles,反應結(jié)束后跑8%PAGE膠回收 300-500bp 片段。(8)文庫質(zhì)量評估與定量用Agilent DNA 7500 Chip (芯片)對文庫大小進行鑒定;用PicoGreen熒光定量試劑盒對文庫進行定量。(9)基因組測序。上述方法中,所用引物均有兩部分組成,其5’為測序引物ft~imer Α/Β, 3’端為基因組文庫質(zhì)粒載體上的特異引物。用此引物可以將含插入片段雙末端的序列特異的擴增出來,并且可以直接用于高通量測序。實施例二
平均插入片段長度 801Λ的白氏文昌魚單魚細菌人工染色體(Bacterial Artificial Chromosome, BAC)文庫配對雙末端(Paired-End)高通量測序。1)白氏文昌魚單魚BAC庫本實驗中所采用的BAC庫為中國白氏文昌魚單魚BAC 庫,該庫的載體為 CopyControl pCClBAC Vector (Epicentre),全長 8U8bp。該文庫由 44,706個克隆組成,插入片段的平均長度約801Λ。2)試劑及儀器DNA 片段化采用 Digilab Genomic Solutions 公司的 HydroShear 基因組DNA剪切儀。實驗中所用SAM,EcoR I甲基化酶,λ -外切酶,T7外切酶,核酸外切酶I均購自NEB;牛血清蛋白(BSA),ATP,PCR核酸混合物,Τ4 DNA聚合酶,Τ4聚核苷酸激酶(PNK),莖環(huán)結(jié)構(gòu)接頭(Hairpin Adaptor),快速連接酶,EcoRI (高濃度), GC-RICH PCR 體系,GS FLX Titanium Amplicon emPCR 試劑盒購自 Roche; Advantage 2 聚合酶購自 BD ;DNA 7500 LabChip 購自 Agilent ;AMPure 磁珠(AMPure Beads)購自Agencourt (Beckman);質(zhì)粒中提試劑盒,MinElute PCR純化試劑盒,Qiaquick PCR純化試劑盒購自Qiagen ;D-(+)_海藻糖購自Sigma ;Quant-iT PicoGreen dsDNA分析試劑盒及擴增引物均購自invitrogen。3)實驗方法
(1)搖菌及質(zhì)粒提取BAC庫中的所有克隆均培養(yǎng)于含LB Cl (12.5ng/ml)培養(yǎng)基的 96孔板中,37° C搖菌過夜,混合到一起提質(zhì)粒。(2) DNA片段化及大小選擇取40ug質(zhì)粒用HydroShear進行片段化,速率15, 循環(huán)數(shù)15.片段后跑膠回收,切取8-101Λ的條帶進行純化,溶于50ul洗脫緩沖液(IOmM Tris-Cl ρΗ8·5)。(3) EcoR I酶切位點甲基化 甲基化反應體系如下表一
表一、甲基化體系
權(quán)利要求
1.一種配對雙末端文庫構(gòu)建方法,其特征在于,包括以下步驟(a)提取基因組文庫中的質(zhì)粒;(b)使步驟(a)中的質(zhì)粒片段化至具有預期尺寸的片段;(c)利用甲基轉(zhuǎn)移酶使步驟(b)得到的片段上特定的限制性內(nèi)切酶位點甲基化;(d)補平步驟(c)得到的片段的末端,并在補平的片段兩端連接接頭,所述接頭具有步驟(c)中所述的特定的限制性內(nèi)切酶位點,用外切酶消化掉未連上接頭的片段;(e)使用所述特定的限制性內(nèi)切酶消化步驟(d)生成的片段,以產(chǎn)生粘性末端,隨后環(huán)化,并用外切酶消化掉未環(huán)化的線性片段;(f)使用復合引物擴增環(huán)化后的產(chǎn)物,并對產(chǎn)物進行篩選,得到目的片段。
2.如權(quán)利要求1所述的配對雙末端文庫構(gòu)建方法,其特征在于,步驟(b)中的預期尺寸為比基因組文庫所用載體大100_1500bp。
3.如權(quán)利要求1所述的配對雙末端文庫構(gòu)建方法,其特征在于,步驟(c)中被甲基化的特定的限制性內(nèi)切酶位點為EcoR I。
4.如權(quán)利要求1所述的配對雙末端文庫構(gòu)建方法,其特征在于,步驟(d)中的所述接頭為莖環(huán)結(jié)構(gòu)。
5.如權(quán)利要求4所述的配對雙末端文庫構(gòu)建方法,其特征在于,步驟(e)中使用特定的限制性內(nèi)切酶消化片段之后,還包括PCR純化以及進行片段大小篩選的步驟,然后再對基因片段進行環(huán)化。
6.如權(quán)利要求1所述的配對雙末端文庫構(gòu)建方法,其特征在于,步驟(f)中擴增所用的復合引物,該引物由兩部分組成,包括5’端的測序引物以及3’端的與質(zhì)粒載體末端互補的特異擴增引物。
7.如權(quán)利要求1所述的配對雙末端文庫構(gòu)建方法,其特征在于,步驟(f)中產(chǎn)物的篩選步驟包括先進行第一次PCR,之后用PCR純化磁珠進行第一次片段大小篩選,再以第一次篩選后得到的片段為模板進行第二次PCR,隨后用膠回收的方法進行第二次片段大小篩選, 得到目的片段。
8.一種基因組文庫配對雙末端高通量測序方法,其特征在于,包括以下步驟(i)按權(quán)利要求1的方法構(gòu)建所述基因組文庫的配對雙末端文庫;以及( )對配對雙末端文庫進行高通量測序。
全文摘要
本發(fā)明涉及一種配對雙末端文庫構(gòu)建方法及用該文庫進行基因組測序的方法。本發(fā)明的配對雙末端文庫的構(gòu)建是利用已經(jīng)構(gòu)建好的基因組DNA文庫,首先對文庫中的克隆進行質(zhì)粒提取,將提取的質(zhì)粒DNA片段化,對片段化的DNA上限制性內(nèi)切酶位點進行甲基化保護,接著加發(fā)夾型接頭、酶切、環(huán)化,得到環(huán)狀的DNA,然后通過一對復合引物將環(huán)化DNA中含基因組文庫配對雙末端的片段擴增出來,得到超長跨度的配對雙末端序列,最后進行高通量測序。利用該方法得到的配對雙末端序列可應用于新物種基因組序列的拼接,從而進一步提高拼接的質(zhì)量。
文檔編號C12N15/10GK102181943SQ20111004964
公開日2011年9月14日 申請日期2011年3月2日 優(yōu)先權(quán)日2011年3月2日
發(fā)明者付永貴, 周思思, 徐安龍 申請人:中山大學