專利名稱:Dna標(biāo)簽及其在構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)中的應(yīng)用的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及第ニ代高通量測(cè)序,特別是對(duì)配對(duì)末端文庫(kù)進(jìn)行混合測(cè)序的領(lǐng)域。更具體地,本發(fā)明涉及DNA標(biāo)簽及其在構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)中的應(yīng)用。
背景技術(shù):
配對(duì)末端文庫(kù)(mate-paired library)測(cè)序是指通過(guò)構(gòu)建大片段文庫(kù),獲得較大跨度(2-10kb)片段兩端的序列。這種從較大跨度兩端所獲得的序列對(duì)大基因組或者復(fù)雜基因組的組裝和基因組結(jié)構(gòu)變異的發(fā)掘具有非常重要的作用,特別適合于新基因組測(cè)序(De novo sequencing)項(xiàng)目。目前,ABI SOLiD測(cè)序平臺(tái)提供的配對(duì)末端文庫(kù)制備方法(Applied Biosystems SOLiD 4 System Library Preparation Guide P/N 4445673)如圖I所示,其包括步驟(1)片段化大核酸分子,產(chǎn)生目標(biāo)核酸;(2)對(duì)片段化的目標(biāo)核酸進(jìn)行純化和精修(End-Polishing) ; (3)將帽接頭(Cap Adaptor)連接至片段化的目標(biāo) 核酸的兩個(gè)末端,以形成連接物標(biāo)記的目標(biāo)核酸;(4)通過(guò)生物素化的中間接頭(InternalAdaptor)將上述連接有帽接頭的核酸片段環(huán)化連接,形成帶有生物素標(biāo)記的環(huán)形分子產(chǎn)物;(5)在目標(biāo)核酸區(qū)片段化所述環(huán)形核酸分子,產(chǎn)生含目標(biāo)核酸的兩個(gè)末端區(qū)的DNA構(gòu)建體;(6)通過(guò)生物素-鏈霉親和素親和作用,使用鏈霉親和素磁珠富集目標(biāo)核酸片段;(7)對(duì)富集的目標(biāo)核酸片段進(jìn)行精修,并用接頭Pl和接頭P2進(jìn)行平末端連接,然后進(jìn)行PCR擴(kuò)增以形成配對(duì)末端文庫(kù)。接著,對(duì)配對(duì)末端文庫(kù)的測(cè)序包括使用乳液PCR(emPCR)法將文庫(kù)模版擴(kuò)增到I μ m的磁珠上,在單個(gè)磁珠上形成包含4-6萬(wàn)條分子模板的單克隆分子簇;對(duì)模板磁珠進(jìn)行修飾,然后將其涂布在測(cè)序芯片上進(jìn)行測(cè)序;其中第一個(gè)配對(duì)末端區(qū)(TAGl)利用和Pl接頭特異配對(duì)的ー組測(cè)序引物進(jìn)行測(cè)序,第二個(gè)配對(duì)末端區(qū)(TAG2)利用與中間接頭和帽接頭特異配對(duì)的ー組測(cè)序引物進(jìn)行測(cè)序。圖2顯示的是SOLiD測(cè)序平臺(tái)對(duì) 2 X 50 配對(duì)末端文庫(kù)的測(cè)序流程(Applied Biosystems SOL iD 4 System LibraryPreparation Guide P/N 4445673)。DNA標(biāo)簽文庫(kù)測(cè)序可最大化測(cè)序容量,減少樣品制備流程,實(shí)現(xiàn)對(duì)多個(gè)DNA樣品的混合測(cè)序。目前,在SOLiD系統(tǒng)中,在單分區(qū)芯片上對(duì)多個(gè)樣品進(jìn)行混合測(cè)序利用的是Barcode 技術(shù)(SOLiD System Barcoding)。圖 3 為將 SOLiD Barcodes 整合到片段文庫(kù)或配對(duì)末端文庫(kù)的流程圖。特別地,對(duì)于配對(duì)末端文庫(kù)而言,文庫(kù)構(gòu)建的前期流程與圖I相同,但在進(jìn)行Pl和P2接頭連接步驟時(shí),對(duì)P2接頭進(jìn)行修飾,即,添加SOLiD-Barcode序列以用于區(qū)分和識(shí)別樣品,從而實(shí)現(xiàn)多個(gè)DNA樣品的混合測(cè)序。具體地,在P2接頭的連接位置附近添加一段由5-10個(gè)特異堿基組成的Barcode序列,從而在文庫(kù)制備過(guò)程中,隨著P2接頭的連接,Barcode序列相應(yīng)地被引入到待測(cè)序列的3'端;不同的樣品對(duì)應(yīng)不同的Barcode序列,從而對(duì)未知DNA序列和已知的Barcode序列的測(cè)序,使得能夠利用不同的Barcode序列來(lái)區(qū)分不同樣品的數(shù)據(jù)(參見圖3右側(cè))。目前,SOLiD Barcode s技術(shù)只在隨機(jī)片段文庫(kù)的混合測(cè)序中得到應(yīng)用(SOLiD 4 System Library Preparation QuicK Reference Card P/N 4445674B, MultiplexSequencing on the SOLiD Platform withlO, 16, or 96 Barcodes),其中,通過(guò) 2 次獨(dú)立的測(cè)序反應(yīng),分別測(cè)定目標(biāo)序列(TAGl)和Barcode序列(參見圖3左側(cè))。在理論上,也可將SOLiD Barcode技術(shù)應(yīng)用于多個(gè)配對(duì)末端文庫(kù)的混合測(cè)序,其中必須分別對(duì)兩段目標(biāo)序列(TAG1和TAG2)及Barcode進(jìn)行3次獨(dú)立的測(cè)序反應(yīng)(參見圖3右側(cè))。然而,一方面,3次獨(dú)立的測(cè)序反應(yīng)導(dǎo)致測(cè)序成本大大提高;另ー方面,在現(xiàn)有的SOLiD測(cè)序技術(shù)中,用于測(cè)定Barcode的引物序列和用于測(cè)定配對(duì)末端的TAG2區(qū)的引物序列是完全一致的,因此,不可能在同一個(gè)測(cè)序流程中既測(cè)定TAG2,又測(cè)定Barcode序列(相同的測(cè)序引物導(dǎo)致無(wú)法區(qū)分測(cè)序結(jié)果)。因此,到目前為止,SOLiD Barcoding技術(shù)還沒有正式應(yīng)用于多個(gè)配對(duì)末端文庫(kù)的混合測(cè)序。相反地,目前通常將不同的配對(duì)末端文庫(kù)樣品的模板磁珠分別涂布在測(cè)序芯片的不同分區(qū)內(nèi),然后再進(jìn)行測(cè)序,最后通過(guò)不同的分區(qū)來(lái)區(qū)分文庫(kù)樣品。然而,測(cè)序芯片的分區(qū)將占用芯片空間,減少單個(gè)芯片的利用率,從而導(dǎo)致數(shù)據(jù)產(chǎn)出量降低。表I顯示不同規(guī)格的分區(qū)芯片的單芯片磁珠涂布總量和預(yù)期數(shù)據(jù)產(chǎn)出量的対比。此外,現(xiàn)有的SOLiD測(cè)序儀 第四版測(cè)序芯片最多可以分為8個(gè)區(qū),S卩,每張測(cè)序芯片最多可以對(duì)8個(gè)配對(duì)末端文庫(kù)樣品進(jìn)行測(cè)序,這遠(yuǎn)遠(yuǎn)不能滿足測(cè)序通量日益增長(zhǎng)的需要。表I :不同規(guī)格的分區(qū)芯片的單芯片磁珠涂布總量和預(yù)期數(shù)據(jù)產(chǎn)出量的對(duì)比
芯片類型全芯片4分區(qū)芯片8分區(qū)芯片
項(xiàng)目-^---
可涂布磁珠數(shù)(M)708512448
數(shù)據(jù)產(chǎn)出(Gb)70. 851.244. 8因此,迫切需要對(duì)現(xiàn)有的配對(duì)末端文庫(kù)的構(gòu)建及測(cè)序方法進(jìn)行改迸,以提供更高效,且成本更低的配對(duì)末端文庫(kù)混合測(cè)序方法。
發(fā)明內(nèi)容
在本發(fā)明中,除非另有說(shuō)明,否則本文中使用的科學(xué)和技術(shù)術(shù)語(yǔ)具有本領(lǐng)域技術(shù)人員所通常理解的含義。同吋,為了更好地理解本發(fā)明,下面提供相關(guān)術(shù)語(yǔ)的定義和解釋。術(shù)語(yǔ)“標(biāo)簽(index) ”和“DNA標(biāo)簽(DNA index) ”在本文中可互換使用,其是指具有特定堿基序列的一段雙鏈寡核苷酸。在本發(fā)明中,DNA標(biāo)簽為長(zhǎng)度5bp的雙鏈寡核苷酸,并且其一條鏈的序列選自SEQ ID NO :1_24。特別地,在本說(shuō)明書中,當(dāng)用序列標(biāo)志符(SEQIDNO )表示標(biāo)簽時(shí),其表示標(biāo)簽的一條鏈的序列為該序列標(biāo)志符所示的序列。例如,當(dāng)用SEQID NO :I描述標(biāo)簽時(shí),其表示標(biāo)簽的一條鏈的序列為SEQ ID NO :I。另外,在本說(shuō)明書中,所有DNA序列以5'至3'的方向給出。如本文中使用的,“標(biāo)簽帽接頭(indexed-cap adaptor) ”是指帶有標(biāo)簽的帽接頭。如本文中使用的,“配對(duì)末端標(biāo)簽文庫(kù)(mate-paired indexed library)”是指使用標(biāo)簽帽接頭構(gòu)建的配對(duì)末端文庫(kù)。由于配對(duì)末端標(biāo)簽文庫(kù)所使用的標(biāo)簽帽接頭含有特異于樣品的標(biāo)簽,因此,配對(duì)末端標(biāo)簽文庫(kù)中的分子可以通過(guò)標(biāo)簽序列與樣品一一對(duì)應(yīng)。本發(fā)明基于目前ABI SOLiD測(cè)序平臺(tái)提供的配對(duì)末端文庫(kù)制備方法,提供了一組DNA標(biāo)簽(DNA index)及利用其構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)的方法,從而克服了 ABISOLiD測(cè)序平臺(tái)利用Barcode技術(shù)對(duì)多個(gè)配對(duì)末端文庫(kù)進(jìn)行混合測(cè)序需要3次獨(dú)立的測(cè)序反應(yīng)并且還未能得到實(shí)際應(yīng)用的缺陷。將DNA標(biāo)簽用于構(gòu)建并測(cè)序配對(duì)末端文庫(kù)時(shí),為了保證測(cè)序儀流程運(yùn)行正常,使信息分析流程足夠簡(jiǎn)便,其序列必須滿足如下原則①用于混合測(cè)序的各樣品的標(biāo)簽序列等長(zhǎng);②進(jìn)行混合測(cè)序的標(biāo)簽序列組合在同一 SOLiD測(cè)序循環(huán)中應(yīng)保證4種熒光染料信號(hào)都可以被讀出;③進(jìn)行混合測(cè)序的標(biāo)簽序列兩兩之間應(yīng)至少具有兩個(gè)堿基的差異,以確保一個(gè)堿基的錯(cuò)讀不至于混淆樣品來(lái)源;④標(biāo)簽序列的最后一位必須為G。因此,在本發(fā)明的ー個(gè)方面,提供了ー組DNA標(biāo)簽,所述標(biāo)簽為長(zhǎng)度5bp的寡核苷酸,并且其序列選自SEQ ID NO 1-24 (參見表2)。在本發(fā)明的一個(gè)優(yōu)選實(shí)施方案中,任意兩個(gè)所述標(biāo)簽的序列之間至少具有2個(gè)堿
基差異。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施方案中,一組標(biāo)簽包含選自SEQ ID NO :1-24的至少2種,優(yōu)選地至少4種、或至少6種、或至少8種、或至少10種、或至少12種、或至少16種、或至少20種或24種標(biāo)簽;更優(yōu)選地,ー組標(biāo)簽至少包括SEQ ID NO 1和2,或SEQ ID NO 3和 4,或 SEQ IDNO :5 和 6,或 SEQ ID NO :7 和 8,或 SEQ ID NO 9 和 10,或 SEQ ID NO : 11 和12,或 SEQ ID NO :13 和 14,或 SEQ ID NO :15 和 16,或 SEQ ID NO :17 和 18,或 SEQ ID NO 19和20,或SEQ ID NO :21和22,或SEQ ID NO :23和24所示的標(biāo)簽,或者其任何兩個(gè)或者多個(gè)的組合。在一個(gè)優(yōu)選實(shí)施方案中,本發(fā)明的標(biāo)簽用于標(biāo)記帽接頭,所述帽接頭的兩條鏈的序列分別為 SEQ ID NO 25 和 SEQ ID NO :26。在本發(fā)明的另ー個(gè)方面,提供了本發(fā)明的DNA標(biāo)簽的用途,其可用于制備標(biāo)簽帽接頭和/或用于構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)。優(yōu)選地,本發(fā)明的標(biāo)簽用于標(biāo)記其兩條鏈的序列分別為SEQ ID NO 25和SEQ ID NO 26的帽接頭,從而制備本發(fā)明的標(biāo)簽帽接頭。本發(fā)明的DNA標(biāo)簽還可以用于制備試劑盒,所述試劑盒用于制備標(biāo)簽帽接頭和/或用于構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)。在本發(fā)明的另ー個(gè)方面,提供了一種標(biāo)簽帽接頭,其具有下式的結(jié)構(gòu)5' -ACAGCAG(N)55' -phos-ACAGCAG(N)55' -phos-(N/ )5CTGCTGTAC 或 5' -phos-(N/ )5CTGCTGTAC其中,(N)5表示選自SEQ ID NO 1-24的標(biāo)簽序列,(N' )5表示所述標(biāo)簽序列的互補(bǔ)序列。可用于構(gòu)建配對(duì)末端文庫(kù)的帽接頭有兩種,其分別為EcoP15I帽接頭和LMP帽接頭,其中EcoP15I帽接頭的兩條鏈的5'端都被磷酸化,而LMP帽接頭只有一條鏈的5'端被磷酸化。在本發(fā)明的另ー個(gè)方面,提供了本發(fā)明的標(biāo)簽帽接頭的用途,其可以用于構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)。本發(fā)明的標(biāo)簽帽接頭還可以用于制備試劑盒,所述試劑盒用于構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)。在本發(fā)明的另ー個(gè)方面,提供了ー種試劑盒,其包含本發(fā)明的一組標(biāo)簽,或本發(fā)明的標(biāo)簽帽接頭。在本發(fā)明的一個(gè)優(yōu)選實(shí)施方案中,本發(fā)明的試劑盒還包含其他試劑,例如,其兩條鏈的序列分別為SEQ IDNO 25和SEQ ID NO 26的帽接頭。
在本發(fā)明的另ー個(gè)方面,提供了本發(fā)明的試劑盒的用途,其可以用于構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)。在本發(fā)明的另ー個(gè)方面,提供了一種構(gòu)建和測(cè)序DNA樣品的配對(duì)末端標(biāo)簽文庫(kù)的方法,其包括以下步驟I)片段化樣品DNA,其中,優(yōu)選地,片段化后的DNA片段長(zhǎng)度為1000_4000bp ;優(yōu)選地,片段化方法選自霧化法,超聲法和Hydroshear法;2)通過(guò)下列步驟構(gòu)建DNA樣品的配對(duì)末端標(biāo)簽文庫(kù)a.使用本發(fā)明的標(biāo)簽制備標(biāo)簽帽接頭并將所得的標(biāo)簽帽接頭連接至片段化后的DNA片段的兩個(gè)末端,或者將本發(fā)明的標(biāo)簽帽接頭連接至片段化后的DNA片段的兩個(gè)末端,從而形成帶有標(biāo)簽帽接頭的DNA片段,其中,每ー種DNA樣品使用一種標(biāo)簽帽接頭; b.利用生物素化的中間接頭環(huán)化連接帶有標(biāo)簽帽接頭的DNA片段;任選地,對(duì)環(huán)化連接產(chǎn)物進(jìn)行片段大小的選擇,優(yōu)選的選擇方法選自脈沖凝膠電泳、蔗糖或氯化銫梯度沉降和分子排阻層祈;優(yōu)選地,所述中間接頭的兩條鏈的序列分別為SEQ ID N0:27和SEQID NO 28 ;c.斷裂所得的環(huán)化連接產(chǎn)物,優(yōu)選地,使用超聲斷裂法和酶切法,例如限制性內(nèi)切酶法和缺刻平移-外切酶法;d.使用鏈霉親和素磁珠富集步驟c)所得的DNA片段,并將Pl接頭和P2接頭分別連接到富集所得的DNA片段的5'端和3'端;e.根據(jù)Pl接頭和P2接頭的序列設(shè)計(jì)引物,并擴(kuò)增步驟d)所得的DNA片段,形成配對(duì)末端標(biāo)簽文庫(kù)文庫(kù);3)任選地,將使用不同標(biāo)簽帽接頭的樣品的配對(duì)末端標(biāo)簽文庫(kù)等摩爾量混合,從而獲得混合的配對(duì)末端標(biāo)簽文庫(kù);4)使用乳液PCR法將步驟2)的配對(duì)末端標(biāo)簽文庫(kù)或步驟3)的混合的配對(duì)末端標(biāo)簽文庫(kù)擴(kuò)增到Pi磁珠上,所述磁珠上固定有Pi接頭引物;5)利用高通量測(cè)序技術(shù)例如用ABI SOLiD測(cè)序平臺(tái)對(duì)步驟4)的產(chǎn)物進(jìn)行測(cè)序,其中一個(gè)配對(duì)末端區(qū)(TAGl)利用和Pl接頭特異配對(duì)的ー組測(cè)序引物進(jìn)行測(cè)序,另ー個(gè)配對(duì)末端區(qū)(TAG2)利用和由中間接頭及部分標(biāo)簽帽接頭組成的序列特異配對(duì)的ー組測(cè)序引物進(jìn)行測(cè)序,從而獲得片段化后的DNA片段的兩個(gè)末端的序列;6)對(duì)步驟5)獲得的測(cè)序數(shù)據(jù)進(jìn)行處理,其中,利用標(biāo)簽序列將不同的測(cè)序讀段對(duì)應(yīng)到不同的DNA樣品,然后通過(guò)序列重疊和連鎖關(guān)系,從來(lái)自同一樣品的DNA片段的兩個(gè)末端的序列拼接出樣品的完整DNA序列。 在本發(fā)明的一個(gè)優(yōu)選實(shí)施方案中,所述DNA樣品是原核生物或真核生物DNA樣品。在本發(fā)明的一個(gè)優(yōu)選實(shí)施方案中,使用酶切法斷裂所得的環(huán)化連接產(chǎn)物。優(yōu)選地,所述酶切法包括限制性內(nèi)切酶法和缺刻平移-外切酶法;其中限制性內(nèi)切酶法利用的是III型限制性內(nèi)切酶,例如ECOP15I。在本發(fā)明的一個(gè)優(yōu)選實(shí)施方案中,由中間接頭及部分標(biāo)簽帽接頭組成的中間測(cè)序接頭的兩條鏈分別為5' -CTGCTGTACCGTACATCCGCCTTGGCCGTACAGCAG-3' (SEQ ID NO :29),5' -CTGCTGTACGGCCAAGGCGGATGTACGGTACAGCAG-3' (SEQ ID NO :30)。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施方案中,在將不同的測(cè)序讀段對(duì)應(yīng)到不同的DNA樣品后,剔除測(cè)序讀段中的標(biāo)簽序列。本發(fā)明的另一方面提供了一種配對(duì)末端標(biāo)簽文庫(kù),其使用本發(fā)明提供的方法制得。利用本發(fā)明的DNA標(biāo)簽對(duì)文庫(kù)樣品進(jìn)行測(cè)序,只需2次獨(dú)立的測(cè)序反應(yīng),即可實(shí)現(xiàn)在一個(gè)芯片分區(qū)上對(duì)多個(gè)配對(duì)末端文庫(kù)進(jìn)行混合測(cè)序。特別地,對(duì)于50+50bp的配對(duì)末端測(cè)序類型來(lái)說(shuō),測(cè)序后得到的結(jié)果是第二個(gè)配對(duì)末端(TAG2)的前5個(gè)堿基序列為標(biāo)簽序列,其用于確定序列的樣品來(lái)源;TAG2的剩余序列及第一個(gè)配對(duì)末端(TAGl)的全部序列則來(lái)自樣品,可用于進(jìn)一歩的信息分析。對(duì)短片段測(cè)序技術(shù)的深入研究表明,25_30bp的讀長(zhǎng)可滿足重測(cè)序研究中的生物信息學(xué)分析要求;當(dāng)讀長(zhǎng)達(dá)到IOObp或以上時(shí),即可進(jìn)行基因組的從頭組裝和測(cè)序工作(Whiteford N,Haslam N,Weber G,et al. An analysis of the feasibility of shortread sequencing. Nucleic Acids Res,2005,33 :el71)。因此,將 TAG2 的前 5 個(gè)減基序列 用作標(biāo)簽序列以標(biāo)記樣品來(lái)源,不會(huì)妨礙進(jìn)ー步的信息分析。表2 DNA標(biāo)簽序列
權(quán)利要求
1.一組標(biāo)簽,其包含選自SEQ ID NO :1-24的至少2種,優(yōu)選地至少4種、或至少6種、或至少8種、或至少10種、或至少12種、或至少16種、或至少20種或24種標(biāo)簽;更優(yōu)選地,其包括至少 SEQ ID NO :1 和 2,或 SEQ ID NO :3 和 4,或 SEQ ID NO :5 和 6,或 SEQ ID NO 7和 8,或 SEQ ID NO :9 和 10,或 SEQ ID NO 11 和 12,或 SEQ ID NO :13 和 14,或 SEQ ID NO 15 和 16,或 SEQ ID NO : 17 和 18,或 SEQ ID NO : 19 和 20,或 SEQ ID NO :21 和 22,或 SEQ IDNO :23和24所示的標(biāo)簽,或者其任何兩個(gè)或者多個(gè)的組合;優(yōu)選地,所述標(biāo)簽用于標(biāo)記帽接頭,所述帽接頭的兩條鏈的序列分別為SEQ ID NO:25和SEQ ID NO :26。
2.權(quán)利要求I的一組標(biāo)簽的用途,其用于制備標(biāo)簽帽接頭和/或用于構(gòu)建和測(cè)序配對(duì)末立而標(biāo)簽文庫(kù)。
3.權(quán)利要求I的一組標(biāo)簽在制備試劑盒中的用途,所述試劑盒用于制備標(biāo)簽帽接頭和/或用于構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)。
4.一種標(biāo)簽帽接頭,其具有下式的結(jié)構(gòu)5' -ACAGCAG(N) 55' -phos-(N' ) gCTGCTGTAC,或5' -Phos-ACAGCAG(N)55' -phos-(N' )5CTGCTGTAC, 其中,(N)5表示選自SEQ ID NO 1-24的標(biāo)簽序列,(N' ) 5表示所述標(biāo)簽序列的互補(bǔ)序列。
5.權(quán)利要求4的標(biāo)簽帽接頭的用途,其用于構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)或者制備試劑盒,所述試劑盒用于構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)。
6.ー種試劑盒,其包含權(quán)利要求I的一組標(biāo)簽,或權(quán)利要求5的標(biāo)簽帽接頭,優(yōu)選其還包含其他試劑,例如,其兩條鏈的序列分別為SEQ ID NO 25和SEQ ID NO 26的帽接頭。
7.權(quán)利要求6的試劑盒用于構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)的用途。
8.構(gòu)建和測(cè)序DNA樣品的配對(duì)末端標(biāo)簽文庫(kù)的方法,其包括以下步驟 1)片段化樣品DNA,其中,優(yōu)選片段化后的DNA片段為1000-4000bp;優(yōu)選片段化方法選自霧化法,超聲法和Hydroshear法; 2)通過(guò)下列步驟構(gòu)建DNA樣品的配對(duì)末端標(biāo)簽文庫(kù) a.使用權(quán)利要求I的標(biāo)簽制備標(biāo)簽帽接頭并將所得的標(biāo)簽帽接頭連接至片段化后的DNA片段的兩個(gè)末端,或者將權(quán)利要求4的標(biāo)簽帽接頭連接至片段化后的DNA片段的兩個(gè)末端,從而形成帶有標(biāo)簽帽接頭的DNA片段,其中,每ー種DNA樣品使用一種標(biāo)簽帽接頭; b.利用生物素化的中間接頭環(huán)化連接帶有標(biāo)簽帽接頭的DNA片段;任選地,對(duì)環(huán)化連接產(chǎn)物進(jìn)行片段大小的選擇,優(yōu)選選擇方法選自脈沖凝膠電泳、蔗糖或氯化銫梯度沉降和分子排阻層析;優(yōu)選地,所述中間接頭的兩條鏈的序列分別為SEQ ID N0:27和SEQ ID NO.28 ; c.斷裂所得的環(huán)化連接產(chǎn)物,優(yōu)選使用超聲斷裂法和酶切法,例如限制性內(nèi)切酶法和缺刻平移_外切酶法; d.使用鏈霉親和素磁珠富集步驟C)所得的DNA片段,并將Pl接頭和P2接頭分別連接到富集所得的DNA片段的5'端和3'端; e.根據(jù)Pl接頭和P2接頭的序列設(shè)計(jì)引物,并擴(kuò)增步驟d)所得的DNA片段,形成配對(duì)末端標(biāo)簽文庫(kù)文庫(kù); 3)任選地,將使用不同標(biāo)簽帽接頭的樣品的配對(duì)末端標(biāo)簽文庫(kù)等摩爾量混合,從而獲得混合的配對(duì)末端標(biāo)簽文庫(kù); 4)使用乳液PCR法將步驟2)的配對(duì)末端標(biāo)簽文庫(kù)或步驟3)的混合的配對(duì)末端標(biāo)簽文庫(kù)擴(kuò)增到Pl磁珠上,所述磁珠上固定有Pl接頭引物; 5)利用高通量測(cè)序技術(shù)例如用ABISOLiD測(cè)序平臺(tái)對(duì)步驟4)的產(chǎn)物進(jìn)行測(cè)序,其中一個(gè)配對(duì)末端區(qū)(TAGl)利用和Pl接頭特異配對(duì)的ー組測(cè)序引物進(jìn)行測(cè)序,另ー個(gè)配對(duì)末端區(qū)(TAG2)利用和由中間接頭及部分標(biāo)簽帽接頭組成的序列特異配對(duì)的ー組測(cè)序引物進(jìn)行測(cè)序,從而獲得片段化后的DNA片段的兩個(gè)末端的序列; 6)對(duì)步驟5)獲得的測(cè)序數(shù)據(jù)進(jìn)行處理,其中,利用標(biāo)簽序列將不同的測(cè)序讀段對(duì)應(yīng)到不同的DNA樣品,然后通過(guò)序列重疊和連鎖關(guān)系,從來(lái)自同一樣品的DNA片段的兩個(gè)末端的序列拼接出樣品的完整DNA序列; 其中,所述DNA樣品優(yōu)選是原核生物或真核生物DNA樣品。
9.一種配對(duì)末端標(biāo)簽文庫(kù),其根據(jù)權(quán)利要求8所述的方法制得。
全文摘要
本發(fā)明提供了一組DNA標(biāo)簽及其在構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)中的應(yīng)用,所述DNA標(biāo)簽具有選自SEQ ID NO1-24的序列。本發(fā)明還提供了構(gòu)建和測(cè)序配對(duì)末端標(biāo)簽文庫(kù)的方法,其只需通過(guò)2次獨(dú)立測(cè)序反應(yīng),即可實(shí)現(xiàn)在單個(gè)測(cè)序芯片分區(qū)中對(duì)多個(gè)配對(duì)末端文庫(kù)進(jìn)行混合測(cè)序,從而加速了高通量測(cè)序,降低了時(shí)間和試劑花費(fèi),降低了單位數(shù)據(jù)產(chǎn)出的成本。
文檔編號(hào)C40B50/06GK102690809SQ20111007117
公開日2012年9月26日 申請(qǐng)日期2011年3月24日 優(yōu)先權(quán)日2011年3月24日
發(fā)明者程磊 申請(qǐng)人:深圳華大基因研究院, 深圳華大基因科技有限公司