錨定前清洗的制作方法
【專利摘要】本發(fā)明針對(duì)包括酸和/或陽(yáng)離子表面活性劑的水洗溶液及其使用用于提高核酸測(cè)序反應(yīng)中的不一致率和映射產(chǎn)率的方法。
【專利說(shuō)明】錨定前清洗 相關(guān)申請(qǐng)的交叉引用
[0001] 本申請(qǐng)要求2012年4月23日提交的美國(guó)臨時(shí)專利申請(qǐng)第61/637, 240號(hào)的優(yōu)先 權(quán),該專利申請(qǐng)的全部?jī)?nèi)容以參考的方式并入本文中用于所有目的。
【背景技術(shù)】
[0002] 對(duì)核酸分子實(shí)施生物化學(xué)檢測(cè),諸如DNA測(cè)序,例如可以使DNA分子經(jīng)歷影響從這 種檢測(cè)中所獲得數(shù)據(jù)的惡劣環(huán)境。例如,在對(duì)被布置在固體基質(zhì)上的DNA分子實(shí)施多次循 環(huán)的DNA測(cè)序反應(yīng)之后,會(huì)存在不一致率的增加和映射率(mappingyield)的下降。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明涉及用于改善不一致率、可映射率和核酸測(cè)序反應(yīng)的其它指標(biāo)的方法和組 合物。具體地,根據(jù)本發(fā)明的一個(gè)實(shí)施方式,使用"錨定前清洗液",該清洗液是包含有效量 的弱酸或陽(yáng)離子表面活性劑的水洗溶液。在下面對(duì)本發(fā)明的描述中,清洗步驟被描述為在 將核酸連接到固體基質(zhì)表面之后、和在各循環(huán)或在隨后的循環(huán)中執(zhí)行測(cè)序反應(yīng)之前發(fā)生。 然而,該清洗步驟也可以在測(cè)序循環(huán)中的其它點(diǎn)發(fā)生。
[0004] 根據(jù)一個(gè)方面,本發(fā)明提供一種對(duì)核酸分子的靶序列進(jìn)行測(cè)序的方法,該方法包 括(a)提供包含核酸分子的表面,該核酸分子包括(i)包含第一錨位點(diǎn)的第一銜接物和 (ii)靶序列;(b)將包含有效量的酸、陽(yáng)離子表面活性劑、或者酸和陽(yáng)離子表面活性劑兩者 的水洗溶液涂覆于所述表面上;(c)將錨定分子雜交到第一錨位點(diǎn);(d)延伸錨定分子以產(chǎn) 生錨定延伸產(chǎn)物;(e)檢測(cè)該延伸產(chǎn)物,由此鑒定靶序列的堿基;和(f)重復(fù)步驟(b)至(e) 直到靶序列的序列被確定。根據(jù)一個(gè)實(shí)施方式,包含核酸分子的表面是包含一個(gè)表面和連 接到該表面的多個(gè)核酸分子的核酸陣列。根據(jù)另一個(gè)實(shí)施方式,核酸分子是包含多個(gè)單體 單元的多聯(lián)體,各單體單元包含第一銜接物和靶序列。根據(jù)另一個(gè)實(shí)施方式,這種方法包括 在將錨定分子雜交到第一錨位點(diǎn)之前將水洗溶液涂覆于表面,然而該水洗溶液可以用于測(cè) 序循環(huán)中的其它步驟。
[0005] 這種方法可以結(jié)合一些測(cè)序技術(shù)共同使用。根據(jù)另一個(gè)實(shí)施方式,這種方法包括 通過(guò)將核苷酸添加到錨定分子或者錨定分子的先前延伸的產(chǎn)物(例如,正如利用合成的測(cè) 序)而延伸錨定分子。根據(jù)另一個(gè)實(shí)施方式,這種方法包括通過(guò)將測(cè)序探針連接到錨定分 子或者錨定分子的先前延伸的產(chǎn)物而延伸錨定分子。根據(jù)一個(gè)實(shí)施方式,CPAL測(cè)序生物化 學(xué)的領(lǐng)域中所采使用的這種方法包括雙cPAL。因此,根據(jù)一個(gè)實(shí)施方式,這種方法包括:通 過(guò)(i)將一個(gè)或多個(gè)延伸錨定分子連接到錨定分子和(ii)將序列探針連接到所述的一個(gè) 或多個(gè)延伸錨定分子而使錨定分子延伸。
[0006] 根據(jù)另一個(gè)實(shí)施方式,這種方法包括在重復(fù)步驟(b)和(e)之前從核酸分子中除 去延伸產(chǎn)物。
[0007] 錨定前清洗試劑可以包含例如各種弱酸和陽(yáng)離子表面活性劑。根據(jù)一個(gè)實(shí)施 方式,酸是檸檬酸。根據(jù)另一個(gè)實(shí)施方式,陽(yáng)離子表面活性劑是十六烷基三甲基溴化銨 (CTAB)〇
[0008] 根據(jù)另一個(gè)方面,水洗溶液包含一定量的酸或陽(yáng)離子表面活性劑,該酸或陽(yáng)離子 表面活性劑與合適的對(duì)照品相比有效地降低不一致性達(dá)5%或5%以上或者提高可映射率 達(dá)0. 5%或0. 5%以上,或者兩者。
[0009] 根據(jù)另一個(gè)方面,提供一種用于對(duì)連接到表面的核酸分子進(jìn)行測(cè)序的水洗溶液, 該清洗溶液包含酸、陽(yáng)離子表面活性劑或者兩者,其中當(dāng)與合適的對(duì)照品比較時(shí)該清洗 溶液有效地可檢測(cè)地降低不一致性例如達(dá)5%以上,或者可檢測(cè)地提高可映射率例如達(dá) 0. 5%或0. 5%以上,或者兩者。
【專利附圖】
【附圖說(shuō)明】
[0010] 圖1是組合探針錨定連接方法的一個(gè)實(shí)施方式的示意圖。
[0011] 圖2是組合探針錨定連接方法的一個(gè)實(shí)施方式的示意圖。
[0012] 圖3是組合探針錨定連接方法的一個(gè)實(shí)施方式的示意圖。
[0013] 圖4是組合探針錨定連接方法的一個(gè)實(shí)施方式的示意圖。
[0014] 圖5示出了用0.ImMCTAB或10mM檸檬酸進(jìn)行錨定前清洗所獲得的結(jié)果。
【具體實(shí)施方式】
[0015] 除非另有說(shuō)明,本發(fā)明的實(shí)施可采用有機(jī)化學(xué)、聚合物技術(shù)、分子生物學(xué)(包括重 組技術(shù))、細(xì)胞生物學(xué)、生物化學(xué)、和免疫學(xué)中的常規(guī)技術(shù)和描述,這些技術(shù)是在本領(lǐng)域的技 術(shù)范圍內(nèi)的。這種常規(guī)技術(shù)包括聚合物陣列合成、雜交、連接、和使用標(biāo)記的雜交的檢測(cè)。 可以通過(guò)參考下文中的實(shí)例而獲得合適技術(shù)的具體說(shuō)明。然而,當(dāng)然也可以采用其它等效 的常規(guī)程序。這種常規(guī)技術(shù)和描述可以查閱標(biāo)準(zhǔn)實(shí)驗(yàn)室手冊(cè),例如《基因組分析:實(shí)驗(yàn)室 手冊(cè)序列(GenomeAnalysis:ALaboratoryManualSeries)(第I-IV卷)、《使用抗體: 實(shí)驗(yàn)室手冊(cè)(UsingAntibodies:ALaboratoryManual)》、《細(xì)胞:實(shí)驗(yàn)室手冊(cè)(Cells:A LaboratoryManual)》、《PCR引物:實(shí)驗(yàn)室手冊(cè)(PCRPrimer:ALaboratoryManual)》和《分 子克?。簩?shí)驗(yàn)室手冊(cè)(MolecularCloning:ALaboratoryManual)》(均來(lái)自于ColdSpring HarborLaboratory出版社),Stryer,L?的(I995)《生物化學(xué)(Biochemistry)》(第 4 版)Freeman,NewYork,Gait,《寡核苷酸合成:實(shí)用方法(OligonucleotideSynthesis:A PracticalApproach)》1984 年,IRL出版社,London,Nelson和Cox(2000),Lehninger的 《生物化學(xué)原理(PrinciplesofBiochemistry)》第 3 版,W.H.Freeman出版社,NewYork, N.Y?和Berg等人的(2002)《生物化學(xué)(Biochemistry)》第5版,W.H.Freeman出版社,New York,N.Y.,以上出版物的全部?jī)?nèi)容以參考的方式并入本文中用于所有目的。
[0016] 應(yīng)注意,除非上下文中明確指出,本文中和所附權(quán)利要求中使用的單數(shù)形式" 一"、 " 一個(gè)"和"該"包括復(fù)數(shù)所指對(duì)象。因此,例如"聚合酶"是指一個(gè)試劑或者這種試劑的混 合物,"方法"包括本領(lǐng)域技術(shù)人員已知的等效步驟和方法,等等。
[0017] 除非另有規(guī)定,本文中使用的所有科學(xué)技術(shù)術(shù)語(yǔ)具有與本發(fā)明所屬領(lǐng)域普通技術(shù) 人員通常所理解的相同的含義。本文中提及的所有出版物以參考的方式并入本文中用于描 述和公開裝置、組合物、制劑和方法的目的,這些裝置、組合物、制劑和方法描述于出版物中 并且可以與本文中描述的發(fā)明結(jié)合使用。
[0018] 在提供一系列值的情況下,應(yīng)當(dāng)理解的是,除非上下文明確指出,在該范圍的上限 和下限之間到下限的十分之一的各中間值和在該指定范圍中的任何其它陳述值或中間值 均包含在本發(fā)明中??瑟?dú)立地包含在較小范圍中的上限和下限也包含在本發(fā)明中,并受到 指定范圍中的任何具體排除的限值的制約。在指定范圍包括限值中的一個(gè)或兩個(gè)的情況 下,排除兩個(gè)限值中的任一個(gè)限值的范圍也包括在本發(fā)明中。
[0019] 在下面的描述中陳述了許多具體細(xì)節(jié),以便提供對(duì)本發(fā)明的更詳盡理解。然而,本 領(lǐng)域技術(shù)人員應(yīng)理解的是,可以在沒(méi)有這些具體細(xì)節(jié)中的一個(gè)或多個(gè)細(xì)節(jié)的情況下實(shí)施本 發(fā)明。在其它情況下,對(duì)本領(lǐng)域技術(shù)人員眾所周知的特征和構(gòu)成并未作描述,以避免使本發(fā) 明變得難以理解。
[0020] 盡管主要地參考【具體實(shí)施方式】來(lái)描述本發(fā)明,但也可以設(shè)想當(dāng)閱讀本公開時(shí)其它 實(shí)施方式對(duì)于本領(lǐng)域技術(shù)人員將變得顯見(jiàn),意圖是將這種實(shí)施方式包含在本發(fā)明的方法 中。 概沭
[0021] 本發(fā)明涉及用于改善不一致性、可映射率和核酸測(cè)序反應(yīng)的其它指標(biāo)的方法和組 合物。具體地,根據(jù)一個(gè)實(shí)施方式,將"錨定前清洗液",包含有效量的弱酸或陽(yáng)離子表面活 性劑的水洗溶液,使用于各循環(huán)。在下面對(duì)本發(fā)明的描述中,該清洗步驟被描述成在將核酸 連接到固體基質(zhì)的表面之后和在各循環(huán)中或者在隨后的循環(huán)中實(shí)施測(cè)序反之前發(fā)生。然 而,該清洗步驟也可以在測(cè)序循環(huán)中的其它點(diǎn)發(fā)生。 用于測(cè)序核酸復(fù)合物的方法 概沭
[0022] 根據(jù)一個(gè)實(shí)施方式,本發(fā)明應(yīng)用于如本文中所描述的對(duì)靶核酸進(jìn)行測(cè)序的方法的 上下文中,例如在美國(guó)專利申請(qǐng)公開2010/0105052和 US2007099208,以及美國(guó)專利申請(qǐng) 11/679, 124(在US2009/0264299 中公布); 11/981, 761(US2009/0155781) ;11/981, 661 (US2009/0005252); 11/981, 605 (US2009/0011943) ; 11/981, 793(US2009-0118488); 11/451, 691(US2007/0099208) ;11/981, 607(US2008/0234136); 11/981, 767(US2009/0137404) ; 11/982,467 (US2009/0137414); 11/451,692 (US2007/0072208) ;11/541, 225(US2010/0081128); 11/927, 356(US2008/0318796) ; 11/927,388 (US2009/0143235); 11/938,096 (US2008/0213771) ;11/938,106 (US2008/0171331); 10/547,214 (US2007/0037152) ; 11/981,730 (US2009/0005259); 11/981, 685(US2009/0036316) ;11/981,797(US2009/0011416); 11/934,695(US2009/0075343) ; 11/934, 697(US2009/0111705); 11/934, 703(US2009/0111706) ; 12/265,593 (US2009/0203551); 11/938, 213 (US2009/0105961) ;11/938,221 (US2008/0221832); 12/325,922 (US2009/0318304) ; 12/252,280 (US2009/0111115); 12/266, 385(US2009/0176652) ;12/335, 168(US2009/0311691); 12/335, 188(US2009/0176234) ; 12/361,507(US2009/0263802), 11/981,804 (US2011/0004413);和 12/329, 365 ;公布的國(guó)際專利申請(qǐng) W02007120208、W02006073504、和W02007133831中所描述的,以上所有專利文件的全 部?jī)?nèi)容以參考的方式并入本文中用于所有目的。用于識(shí)別與參考多核苷酸序列比較的多核 苷酸序列中的變異、和用于多核苷酸序列裝配(或者重新裝配)的示例性方法,例如,被描 述于美國(guó)專利申請(qǐng)2011-0004413(申請(qǐng)?zhí)?2/770,089);該專利申請(qǐng)的全部?jī)?nèi)容以參考的 方式并入本文中用于所有目的。也參見(jiàn)Drmanac等人,Science327, 78-81,2010。
[0023] 此方法包括從樣品中提取和裂解靶核酸。裂解的核酸被用于制作文庫(kù)構(gòu)建體,該 文庫(kù)構(gòu)建體通常包含一個(gè)或多個(gè)銜接物。將文庫(kù)構(gòu)建體擴(kuò)增以形成擴(kuò)增子,包括在一個(gè)實(shí) 施方式中被布置在表面上的多聯(lián)體擴(kuò)增子,多聯(lián)體擴(kuò)增子在本文中被稱"DNA納米球"或 "DNB"。在擴(kuò)增子上實(shí)施核酸測(cè)序,例如使用所謂組合探針錨定連接(cPAL)的利用連接的 測(cè)序方法。通過(guò)對(duì)所獲得的序列信息與參考序列進(jìn)行比較而確定序列突變,該序列突變包 括但不限于單核苷酸多態(tài)性(SNP)、插入和缺失(插入缺失)、結(jié)構(gòu)變異(SV)、拷貝數(shù)變異 (CNV)等。
[0024] 本文中使用的術(shù)語(yǔ)"核酸復(fù)合物"是指一大群的不全相同的核酸或多核苷酸。在 某些實(shí)施方式中,靶核酸是基因組DNA;外顯子組DNA(富含含有在基因組中的一組外顯子 的轉(zhuǎn)錄序列的全基因組DNA的亞組);轉(zhuǎn)錄組(S卩,在細(xì)胞或細(xì)胞群中產(chǎn)生的所有mRNA轉(zhuǎn)錄 體的組、或者由這種mRNA產(chǎn)生的cDNA)、甲基化組(S卩,在基因組中甲基化位點(diǎn)和甲基化圖 案的群);微生物體;不同生物體的基因組的混合物,是生物體的不同細(xì)胞類型的基因組的 混合物;和包含大量不同核酸分子(例子包括但不限于微生物體、異種移植物、包含正常細(xì) 胞和腫瘤細(xì)胞兩者的實(shí)體腫瘤活組織檢查等)的其它核酸復(fù)合物混合物,包括前述類型的 核酸復(fù)合物的亞組。在一個(gè)實(shí)施方式中,這種核酸復(fù)合物具有包含至少一個(gè)十億堿基(Gb) (包含大約6Gb序列的雙倍體人基因組)的完整序列。
[0025] 核酸復(fù)合物的非限制性例包括"循環(huán)核酸"(CNA),該循環(huán)核酸是在人血液或其 它體液(包括但不限于淋巴液、液體、腹水、乳汁、尿液、糞便和支氣管灌洗液)中循環(huán)的 核酸,例如可以被辨別為無(wú)細(xì)胞核酸(CF)或者與細(xì)胞相關(guān)的核酸(綜述于Pinzani等人 的,Methods50:302-307, 2010),例如,在懷孕母親的血流中循環(huán)的胚胎細(xì)胞(參見(jiàn)例如, Kavanagh等人,J.Chromatol.B878:1905-1911,2010)或者來(lái)自癌癥患者血流的循環(huán)的腫 瘤細(xì)胞(CTC)(參見(jiàn),例如Allard等人,Clin.CancerRes. 10:6897-6904,2004)。另一個(gè)例 子是來(lái)源于單細(xì)胞或者少量細(xì)胞的基因組DNA,例如來(lái)自活組織檢查(例如,從胚泡的滋養(yǎng) 外胚層中取出的胚胎細(xì)胞;來(lái)自實(shí)體腫瘤的針吸的癌細(xì)胞等)。另一個(gè)例子是病原體,例如 在組織、血液或其它體液等中的細(xì)菌細(xì)胞、病毒或其它病原體。
[0026] 本文中使用的術(shù)語(yǔ)"靶核酸"(或多核苷酸)或者"感興趣的核酸"是指適合于利 用本文中所描述方法進(jìn)行處理和測(cè)序的任何核酸(或多核苷酸)。核酸可以是單鏈或雙鏈 的,并且可包括DNA、RNA或者其它已知的核酸。靶核酸可以是任何生物體的核酸,該生物體 包括但不限于病毒、細(xì)菌、酵母菌、植物、魚類、爬行動(dòng)物、兩犧動(dòng)物、鳥類、和哺乳動(dòng)物(包 括但不限于小鼠、大鼠、狗、貓、山羊、綿羊、牛、馬、豬、兔、猴和其它非人靈長(zhǎng)類動(dòng)物、和人)。 靶核酸可以從一個(gè)個(gè)體或多個(gè)個(gè)體(即,群)中獲得。從其中獲取核酸的樣品可含有來(lái)自 于細(xì)胞混合物或者甚至生物體(諸如包括人細(xì)胞和細(xì)菌細(xì)胞的人唾液樣品、包括小鼠細(xì)胞 的小鼠異種移植物、和來(lái)自移植的人腫瘤的細(xì)胞等)的核酸。
[0027] 靶核酸可以是未擴(kuò)增的,或者可以利用本領(lǐng)域中已知的任何合適的核酸擴(kuò)增方法 將靶核酸擴(kuò)增;核酸擴(kuò)增方法包括但不限于:利用聚合酶鏈反應(yīng)(PCR)(包括例如二維PCR或者橋式擴(kuò)增)產(chǎn)生的擴(kuò)增子、鏈置換擴(kuò)增(SDA)、多重置換擴(kuò)增(MDA)、滾環(huán)擴(kuò)增(RCA)、滾 環(huán)復(fù)制(RCR),或者其它眾所周知的擴(kuò)增方法??梢愿鶕?jù)本領(lǐng)域中已知的方法將靶核酸純化 以除去細(xì)胞和亞細(xì)胞污染物(脂類、蛋白質(zhì)類、碳水化合物、除被測(cè)序核酸以外的核酸等), 或者它們可以是未純化的,即,包含至少一些細(xì)胞和亞細(xì)胞污染物,包括但不限于被破裂以 釋放它們的核酸進(jìn)行處理和測(cè)序的完整細(xì)胞??梢岳帽绢I(lǐng)域中已知的方法從任何合適樣 品中獲取靶核酸。這種樣品包括但不限于:組織、分離的細(xì)胞或細(xì)胞培養(yǎng)物、體液(包括但 不限于血液、尿液、血清、淋巴液、唾液、肛門和陰道分泌物、汗液和精液);空氣、農(nóng)業(yè)、水和 土壤樣品等。在一個(gè)方面,本發(fā)明的核酸構(gòu)建體是由基因組DNA構(gòu)成的。
[0028] 在鳥槍法測(cè)序中高覆蓋率是理想的,因?yàn)樗梢钥朔A基識(shí)別和裝配中的錯(cuò)誤。 本文中使用的用于在裝配序列中的任何給定位置的、術(shù)語(yǔ)"序列覆蓋冗余性"、"序列覆蓋 率"或者簡(jiǎn)單地"覆蓋率"表示代表該位置的閱讀數(shù)量。它可以以NXL/G的計(jì)算式從初始 基因組的長(zhǎng)度(G)、閱讀數(shù)量(N)、和平均閱讀長(zhǎng)度(L)計(jì)算出。覆蓋率也可以通過(guò)直接地 將各參考位置的全部堿基統(tǒng)計(jì)而計(jì)算出。就全基因組序列而言,覆蓋率是以裝配序列中的 所有堿基的平均值來(lái)表示的。序列覆蓋率是閱讀堿基的次數(shù)的平均數(shù)(如上所述)。它經(jīng) 常被表不為"彳首數(shù)覆蓋率",例如在"40X覆蓋率"中表不在最終裝配序列中各喊基是用在 40次閱讀中的平均值來(lái)表示的。
[0029] 本文中使用的術(shù)語(yǔ)"檢出率"表示被完全識(shí)別的核酸復(fù)合物的堿基%通常參照合 適的參考序列(例如參考基因組)的比較。因此,就全人基因組而言,"基因組檢出率"(或 簡(jiǎn)稱為"檢出率")是參照全人基因組而完全識(shí)別的人基因組的堿基%。"外顯子組檢出率" 是參照外顯子組參考而完全識(shí)別的外顯子組的堿基%??梢酝ㄟ^(guò)對(duì)利用各種已知方法增強(qiáng) 的部分的基因組進(jìn)行測(cè)序而獲得外顯子組序列,所述已知方法在測(cè)序之前選擇性地從DNA 樣品中捕獲感興趣的基因組區(qū)域??商娲兀赏ㄟ^(guò)對(duì)包含外顯子組序列的全人基因組進(jìn) 行測(cè)序而獲得外顯子組序列。因此,全人基因組序列可具有"基因組檢出率"和"外顯子組 檢出率"兩者。也存在反映與嘗試堿基總數(shù)區(qū)別的獲得A/C/G/T標(biāo)示的堿基數(shù)量的"原始 閱讀檢出率"。(偶爾,使用術(shù)語(yǔ)"覆蓋率"來(lái)代替"檢出率",但將從上下文中理解其含義)。
[0030] 在均勻溫度的溶液相反應(yīng)中利用滾環(huán)復(fù)制以高模板濃度(>20十億每ml)形成 DNB。此方法避免明顯的選擇瓶頸和非克隆擴(kuò)增子以及用于在乳液中的原位克隆擴(kuò)增或者 橋式PCR的要求準(zhǔn)確滴定模板濃度的方法的隨機(jī)低效率。這些特征也能夠?qū)崿F(xiàn)在標(biāo)準(zhǔn)96 孔板中每天數(shù)百個(gè)基因組的自動(dòng)化DNB生產(chǎn)。
[0031] 本發(fā)明的陣列適合于相對(duì)低成本和高效率的成像技術(shù)。高占用率和高密度納米陣 列在光照蝕刻圖案化的固相基質(zhì)上通過(guò)溶液相DNB的靜電吸附而自我裝配。與隨機(jī)位置 DNA陣列相比,這種圖案化陣列獲得高比例的可提供信息的像素。在緊湊的(在一些實(shí)施方 式中直徑約為300nm)DNB中的數(shù)百個(gè)反應(yīng)位點(diǎn)產(chǎn)生可用于快速成像的亮信號(hào)。這種點(diǎn)密度 和所形成的圖像效率和降低的試劑消耗能夠?qū)崿F(xiàn)每臺(tái)儀器的高測(cè)序通量,該高測(cè)序通量對(duì) 于用于研宄和臨床應(yīng)用的大規(guī)模人基因組測(cè)序而言會(huì)是重要的。
[0032] 本發(fā)明的"未鏈接"cPAL測(cè)序生物化學(xué)能夠?qū)崿F(xiàn)低成本和準(zhǔn)確的堿基閱讀。一般 來(lái)說(shuō),除本發(fā)明外,將兩種不同的測(cè)序化學(xué)用于目前的測(cè)序平臺(tái):利用合成的測(cè)序(SBS)和 利用連接的測(cè)序(SBL)。這兩種測(cè)序都采用"鏈接"的閱讀,其中用于N+1次循環(huán)的基質(zhì)取 決于N次循環(huán)的產(chǎn)物;因此在多次循環(huán)中錯(cuò)誤可累積,并且數(shù)據(jù)質(zhì)量會(huì)受在以前循環(huán)中所 發(fā)生的錯(cuò)誤的影響(特別是不完全延伸)。因此,需要用高濃度的昂貴的高純度標(biāo)記的基質(zhì) 分子和酶來(lái)驅(qū)動(dòng)這些鏈接的測(cè)序反應(yīng)到接近完成。因此,cPAL的獨(dú)立的未鏈接的性質(zhì)避免 錯(cuò)誤累積并且容許高質(zhì)量閱讀中的低質(zhì)量堿基,由此降低試劑成本。
[0033] 利用本發(fā)明的方法和組合物所生成的測(cè)序數(shù)據(jù)獲得針對(duì)完整基因組相關(guān)研宄、與 疾病或治療性處理相關(guān)的潛在罕見(jiàn)的突變的鑒定、和對(duì)體細(xì)胞突變的鑒定的足夠高的質(zhì)量 和精確度。消耗品的低成本和高效率的成像能夠?qū)崿F(xiàn)對(duì)數(shù)百個(gè)個(gè)體的研宄。臨床診斷用途 所要求的較高的精確度和完備性激勵(lì)了該技術(shù)和其它技術(shù)的持續(xù)改進(jìn)。 制各基閔組核酸的片段 核酸分離
[0034] 利用常規(guī)技術(shù)分離革E基因組DNA,例如所上所述的Sambrook和Russell的《分子克 ?。簩?shí)驗(yàn)室手冊(cè)(MolecularCloning:ALaboratoryManual)》中所揭不。在一些情況下, 尤其是如果將少量的DNA使用于特定步驟中,那么有利的是提供載體DNA,例如不相關(guān)的圓 形合成雙鏈DNA,將其混合并且用于樣品DNA,每當(dāng)僅可提供少量的樣品DNA并且存在由于 非特異性結(jié)合到例如容器壁等所造成損失的危險(xiǎn)性。
[0035] 術(shù)語(yǔ)"靶核酸"是指感興趣的核酸。在一個(gè)方面,本發(fā)明的靶核酸是基因組核酸, 但可以使用其它靶核酸,包括mRNA(和相應(yīng)的cDNA,等)。靶核酸包括天然存在的或者基因 工程改造的或合成方法制備的核酸(例如來(lái)自哺乳動(dòng)物疾病模型的基因組DNA)。實(shí)際上 可以從任何來(lái)源獲得靶核酸并且可以利用本領(lǐng)域已知的方法制備靶核酸。例如,可以在不 擴(kuò)增的情況下直接地分離靶核酸,通過(guò)利用本領(lǐng)域中已知的方法進(jìn)行擴(kuò)增而分離;已知方 法包括但不限于:聚合酶鏈反應(yīng)(PCR)、鏈置換擴(kuò)增(SDA)、多重置換擴(kuò)增(MDA)、滾環(huán)擴(kuò)增 (RCA)、滾環(huán)式復(fù)制(RCR)和其它擴(kuò)增方法??梢酝ㄟ^(guò)克隆獲得靶核酸,包括但不限于克隆 到載體(諸如質(zhì)粒、酵母菌、和細(xì)菌人工染色體)。
[0036] 在一些方面,靶核酸包括mRNA或cDNA。在某些實(shí)施方式中,利用從生物樣品中所 分離的轉(zhuǎn)錄體而形成靶DNA。可以利用常規(guī)技術(shù)將分離的mRNA逆轉(zhuǎn)錄到cDNA中,再次如 《基因組分析:實(shí)驗(yàn)室手冊(cè)系列(GenomeAnalysis:ALaboratoryManualSeries)(第I-IV 卷)》或《分子克?。簩?shí)驗(yàn)室手冊(cè)(MolecularCloning:ALaboratoryManual)》中所描述 的。
[0037] 按照規(guī)定,靶核酸可以是單鏈的或雙鏈的,或者含有雙鏈或單鏈序列兩者中的一 部分。根據(jù)用途,核酸可以是DNA(包括基因組和cDNA)、RNA(包括mRNA和rRNA)、或者雜 交體,其中核酸含有脫氧核糖核苷酸和核糖核苷酸的任意組合、和堿基的任意組合,堿基包 括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鳥嘌呤、肌苷、黃嘌呤、次黃嘌呤、異胞嘧啶、異鳥嘌呤 等。
[0038] 本文中的"核酸"或者"寡核苷酸"或"多核苷酸"或者語(yǔ)法等同物表示以共價(jià)鍵連 接在一起的至少兩個(gè)核苷酸。本發(fā)明的核酸通常將含有磷酸二酯鍵,但在一些情況下,如下 面的概述的(例如,在錨定、引物和探針的構(gòu)建中),所包含核酸類似物可具有替代的骨架, 包括例如磷酰胺(Beaucage等人,Tetrahedron49(10) :1925(1993)和其中的參考文獻(xiàn)); Letsinger,J.Org.Chem. 35:3800 (1970);Sprinzl等人,Eur.J.Biochem. 81:579 (1977); Letsinger等人,Nucl.AcidsRes. 14:3487(1986);Sawai等人,Chem.Lett. 805 (1984), Letsinger等人,J.Am.Chem.Soc. 110:4470(1988);和Pauwels等人,Chemica Scripta26:14191986))、硫代磷酸酯(Mag等人,NucleicAcidsRes. 19:1437(1991);和美 國(guó)專利 5, 644, 048)、二硫代磷酸酯(Briu等人,J.Am.Chem.Soc.Ill: 2321 (1989)、0-甲基亞 磷酰胺鍵(參見(jiàn)Eckstein的《寡核苷酸和類似物:實(shí)用方法》,牛津大學(xué)出版社)、和肽核酸 (本文中也被稱為"PNA")骨架和鍵(參見(jiàn)Egholm,J.Am.Chem.Soc. 114:1895(1992);Meier 等人,Chem.Int.Ed.Engl. 31:1008 (1992) ;Nielsen,Nature, 365: 566 (1993);Carlsson 等人,Nature380:207(1996),以上所有文獻(xiàn)的內(nèi)容以參考的方式并入本文中)。其它核 酸類似物包括具有二環(huán)結(jié)構(gòu)的核酸,包括鎖核酸(本文中也被稱為"LNA"),Koshkin等 人,J.Am.Chem.Soc. 120:132523 (1998);正骨架(Denpcy等人,Proc.Natl.Acad.Sci.USA 92:6097(1995);非離子骨架(美國(guó)專利 5, 386, 023、5, 637, 684、5, 602, 240、5, 216, 141 和 4,469,863;Kiedrowshi等人,Angew.Chem.Intl.Ed.English30:423(1991);Letsinger 等人,J.Am.Chem.Soc. 110:4470(1988);Letsinger等人,Nucleoside&Nucleotide 13:1597(1994);第2和第3章,ASCSymposiumSeries580,"反義研宄中的碳水化合 物修飾",由Y.S.Sanghui和P.DanCook編著;Mesmaeker等人,Bioorganic&Medicinal Chem.Lett. 4:395(1994);Jeffs等人,J.BiomoleculeNMR34:17(1994);Tetrahedron Lett. 37:743 (1996))和非核糖骨架,包括美國(guó)專利5, 235, 033和5, 034, 506,和由 Y.S.Sanghui和P.DanCook編著的ASCSymposium系列580 "反義研宄中的碳水化合物修 飾"的第6和7章中所描述的。含有一個(gè)或多個(gè)碳環(huán)糖的核酸也包含在核酸的定義中(參見(jiàn) Jenkins等人,Chem.Soc.Rev. (1995)第 169-176 頁(yè))。數(shù)種核酸類似物描述于Rawls,C&E News,Jun. 2, 1997第35頁(yè)。"鎖核酸"(LNA?)也包含在核酸類似物的定義中。LNA是一類 核酸類似物,其中核糖環(huán)被將2' -0原子與4' -C原子連接的亞甲基橋鎖定。所有的這些參 考文獻(xiàn)的全部?jī)?nèi)容以參考的方式并入本文中用于所有目的,并且尤其是用于與核酸相關(guān)的 所有教導(dǎo)。可以通過(guò)實(shí)施對(duì)核糖-磷酸酯骨架的這些修飾而提高這種分子在生理環(huán)境中的 穩(wěn)定性和半衰期。例如,PNA:DNA和LNA-DNA雜交能顯示較高的穩(wěn)定性,因此可以使用于一 些實(shí)施方式。
[0039] 根據(jù)本發(fā)明的一些實(shí)施方式,在進(jìn)行純化或不進(jìn)行純化的情況下從單個(gè)細(xì)胞或者 少量的細(xì)胞中獲取基因組DNA或者其它核酸復(fù)合物。
[0040] 例如,對(duì)于LFR而言長(zhǎng)片段是理想的。可以利用一些不同方法從細(xì)胞中分離出基 因組核酸的長(zhǎng)片段。在一個(gè)實(shí)施方式中,使細(xì)胞溶解并且用溫和離心步驟將完整核形成顆 粒。然后通過(guò)使用蛋白酶K和核糖核酸酶消化達(dá)數(shù)小時(shí)而釋放出基因組DNA??梢詫?duì)該材 料進(jìn)行處理,以降低剩余細(xì)胞廢物的濃度,例如通過(guò)透析持續(xù)一個(gè)時(shí)間段(即,2至16小 時(shí))和/或稀釋。因?yàn)檫@種方法無(wú)需采用許多破壞性步驟(諸如乙醇沉淀、離心、和渦旋), 基因組核酸大體保持完整,產(chǎn)生具有超過(guò)150千堿基長(zhǎng)度的大部分的片段。在一些實(shí)施方 式中,這些片段的長(zhǎng)度為大約5至大約750千堿基。在其它實(shí)施方式中,這些片段的長(zhǎng)度為 大約150至大約600、大約200至大約500、大約250至大約400、大約300至大約350千堿 基。可以用于LFR的最小片段是含有至少兩個(gè)螺旋(het)(大約2-5kb)的片段,并且沒(méi)有 最大理論尺寸,但是可以利用處理起始核酸制備所產(chǎn)生的剪切來(lái)限制片段長(zhǎng)度。產(chǎn)生較大 片段的技術(shù)導(dǎo)致需要較少的等分部分(aliquot),并且導(dǎo)致較短片段的技術(shù)會(huì)需要更多的 等分部分。以使DNA對(duì)容器的剪切或吸附最小化的方式,對(duì)長(zhǎng)DNA片段進(jìn)行分離和處理,包 括例如在瓊脂糖凝膠塊或油中的瓊脂糖中隔離細(xì)胞或者通過(guò)使用特別涂覆的管和平板。
[0041] 根據(jù)采用等分取樣的本發(fā)明的實(shí)施方式,一旦將DNA分離并且在將其等分取樣入 單獨(dú)的孔中之前,將DNA仔細(xì)地裂解以避免物質(zhì)的損失,尤其是來(lái)自各片段的末端的序列, 因?yàn)檫@種物質(zhì)損失會(huì)導(dǎo)致最終基因組裝配中的空缺。在一個(gè)實(shí)施方式中,通過(guò)使用罕見(jiàn)的 切口酶來(lái)避免序列損失,該切口酶在彼此距離大約l〇〇kb處形成用于聚合酶(例如phi29 聚合酶)的起始位點(diǎn)。當(dāng)聚合酶形成新DNA鏈時(shí),該新鏈替換老鏈,從而在聚合酶起始的位 點(diǎn)附近形成重疊的序列。因此,存在非常少的序列缺失。
[0042] 5'核酸外切酶的受控制使用(在擴(kuò)增(例如利用MDA)之前或者期間)可以促進(jìn) 來(lái)自單細(xì)胞的初始DNA的多次復(fù)制,因此通過(guò)拷貝的復(fù)制使早期錯(cuò)誤的傳播最小化。
[0043] 在一些實(shí)施方式中,通過(guò)將銜接物與單鏈引發(fā)突出端連接并且用銜接物特異性引 物和phi29聚合酶由各長(zhǎng)片段制作兩個(gè)拷貝,而實(shí)現(xiàn)在等分取樣之前從單細(xì)胞中進(jìn)一步復(fù) 制裂解的DNA。這可以由單細(xì)胞產(chǎn)生相當(dāng)于4個(gè)細(xì)胞的DNA。 裂解
[0044] 然后利用常規(guī)技術(shù)(包括酶消化、剪切、或超聲處理)將靶基因組DNA分解或裂解 成期望的尺寸,后兩種技術(shù)被發(fā)現(xiàn)特殊使用于本發(fā)明。
[0045] 靶核酸的片段大小可以根據(jù)所使用的源靶核酸和文庫(kù)構(gòu)建方法而變化,但就標(biāo)準(zhǔn) 全基因組測(cè)序而言,這種片段的長(zhǎng)度通常是在50至600個(gè)核苷酸的范圍內(nèi)。在另一個(gè)實(shí) 施方式中,這些片段的長(zhǎng)度為300至600或者200至2000個(gè)核苷酸。在又一個(gè)實(shí)施方式 中,這片段的長(zhǎng)度為 10-100、50_100、50-300、100-200、200-300、50-400、100-400、200-400、 300-400, 400-500、400-600、500-600、50-1000、100-1000、200-1000、300-1000、400-1000、 500-1000、600-1000, 700-1000、700-900、700-800、800-1000、900-1000、1500-2000、 1750-2000、和50-2000個(gè)核苷酸。較長(zhǎng)的片段用于LFR。
[0046] 在另一個(gè)實(shí)施方式中,將特定尺寸的片段或在特定尺寸范圍內(nèi)的片段加以分離。 這種方法在本領(lǐng)域是眾所周知的。例如,可以利用凝膠分離來(lái)形成在一系列堿基對(duì)中的具 有特定尺寸的一群片段,例如針對(duì)500個(gè)堿基對(duì)+50個(gè)堿基對(duì)。
[0047] 在許多情況下,對(duì)提取的DNA進(jìn)行酶消化是不要求的,因?yàn)樵谌馨吞崛∑陂g產(chǎn) 生的剪切力將產(chǎn)生在期望范圍內(nèi)的片段。在又一個(gè)實(shí)施方式中,可以通過(guò)使用限制性核酸 內(nèi)切酶的酶裂解產(chǎn)生較短的片段(l_5kb)。在再一個(gè)實(shí)施方式中,大約10至大約1,000, 000 基因組當(dāng)量的DNA確保該群的片段覆蓋完全基因組。因此,含有由這種群的重疊片段所產(chǎn) 生核酸模板的文庫(kù)將包含靶核酸,其序列一旦被確定和裝配將提供大部分或全部的完全基 因組的序列。
[0048] 在本發(fā)明的一些實(shí)施方式中,將受控制的隨機(jī)酶("Core")裂解方法用于制備片 段。Core裂解是酶端點(diǎn)檢測(cè),并且具有酶裂解的優(yōu)點(diǎn)(諸如將它使用于小量和/或小體積 的DNA的能力),而不具有許多的酶裂解的缺陷(包括對(duì)基質(zhì)或酶濃度變化的敏感性和對(duì)消 化時(shí)間的敏感性)。
[0049] 在一個(gè)方面,本發(fā)明提供一種裂解的方法,在本文中被稱為受控制的隨機(jī)酶 (Core)裂解,該方法可以單獨(dú)使用或者結(jié)合本領(lǐng)域中已知的其它機(jī)械裂解和酶裂解方法而 使用。Core裂解包括一系列的三個(gè)酶的步驟。首先,對(duì)核酸實(shí)施擴(kuò)增方法,也就是說(shuō)在參雜 有一部分脫氧尿苷("dU")或尿嘧啶("U")的dNTPs的存在下執(zhí)行從而導(dǎo)致在擴(kuò)增產(chǎn)物 的兩條鏈中在規(guī)定和可控制比例的T位置處的dUTP或UTP的置換。任何合適的擴(kuò)增方法 均可以用于本發(fā)明的此步驟。在某些實(shí)施方式中,在以對(duì)dTTP成規(guī)定比率參雜有dUTP或 UTP的dNTPs的存在下,利用多重置換擴(kuò)增(MDA)形成擴(kuò)增產(chǎn)物,其中將dUTP或UTP置換在 兩條鏈上的某些點(diǎn)。
[0050] 在將尿嘧啶基團(tuán)擴(kuò)增和插入后,將尿嘧啶切除(通常利用UDG、EndoVIII、和T4PNK 的組合),以形成具有5'磷酸酯和3'羥基末端官能團(tuán)的單堿基空缺。將以由MDA產(chǎn)物中 U的頻率所確定的平均間距,形成單堿基空缺。也就是說(shuō),dUTP的量越高,所形成片段就越 短。正如本領(lǐng)域技術(shù)人員將理解的,將用修飾核苷酸選擇性地置換核苷酸的其它技術(shù)可以 類似地導(dǎo)致切斷,諸如化學(xué)敏感或其它酶敏感的核苷酸。
[0051] 用具有核酸外切酶活性的聚合酶來(lái)處理空缺的核酸,導(dǎo)致切口沿核酸長(zhǎng)度的"平 移"或"易位"直到在相反鏈上的切口匯合,由此形成雙鏈斷裂,從而形成相對(duì)均勻的尺寸的 雙鏈片段的群。聚合酶(諸如Taq聚合酶)的核酸外切酶活性將切除該短DNA鏈,該短DNA 鏈緊靠切口同時(shí)聚合酶活性將"填充"該切口和該鏈中的后繼核苷酸(基本上,Taq沿該鏈 移動(dòng),利用核酸外切酶活性切除堿基并且添加相同的堿基,結(jié)果是切口沿該鏈易位直到酶 到達(dá)末端)。
[0052] 因?yàn)殡p鏈片段的尺寸分布是MDA反應(yīng)中所使用的dTTP與dUTP或UTP的量的結(jié)果, 而不是利用酶處理的持續(xù)時(shí)間和程度,此CoRE裂解方法獲得高程度的裂解再現(xiàn)性,從而形 成都具有相似尺寸的一群的雙鏈核酸片段。 片段末端的修復(fù)和修飾
[0053] 在某些實(shí)施方式中,根據(jù)本發(fā)明的方法,在裂解后對(duì)靶核酸作進(jìn)一步修飾,以制備 用于多個(gè)銜接物的插入的靶核酸。
[0054] 在物理裂解后,靶核酸常常具有鈍性末端和突出末端的組合、以及在末端的磷酸 酯與羥基化學(xué)基團(tuán)的組合。在此實(shí)施方式中,用數(shù)種酶對(duì)靶核酸進(jìn)行處理以形成具有特定 化學(xué)基團(tuán)的鈍性末端。在一個(gè)實(shí)施方式中,將聚合酶和dNTPs用于填充突出端的任何5'單 鏈以形成鈍性末端。將具有3'核酸外切酶活性的聚合酶(通常但不總是與5'活性聚合酶 相同的酶,諸如T4聚合酶)用于除去3'突出端。合適的聚合酶包括但不限于T4聚合酶、 Taq聚合酶、大腸桿菌DNA聚合酶1、Klenow片段、逆轉(zhuǎn)錄酶、phi29相關(guān)的聚合酶(包括野 生型phi29聚合酶和這種聚合酶的衍生物)、T7DNA聚合酶、TOTNA聚合酶、RNA聚合酶。這 些技術(shù)可以用于形成鈍性末端,這些鈍性末端可用于多種用途。
[0055] 在其它任選的實(shí)施方式中,改變?cè)谀┒说幕瘜W(xué)基團(tuán)以避免靶核酸彼此連接。例如, 除了聚合酶外,也可以將蛋白激酶使用于通過(guò)利用其3'磷酸酶活性將3'磷酸基轉(zhuǎn)化成羥 基而形成鈍性末端的步驟。這種激酶可以包括但不限于市售的激酶諸如T4激酶、以及不市 售但具有期望活性的激酶。
[0056] 類似地,可使用磷酸酶將末端磷酸基轉(zhuǎn)化成羥基。合適的磷酸酶包括但不限于堿 性磷酸酶(包括小牛腸堿性磷酸酶)、熱敏磷酸酶、三磷酸腺苷雙磷酸酶、焦磷酸酶、無(wú)機(jī) (酵母菌)熱穩(wěn)定的無(wú)機(jī)焦磷酸酶等,這些磷酸酶在本領(lǐng)域中是已知的。
[0057] 這些修飾防止在本發(fā)明方法的隨后步驟中靶核酸彼此連接,因此確保在將銜接物 (和/或銜接物臂)連接到靶核酸末端的步驟期間,將靶核酸連接到銜接物但不連接到其它 靶核酸。靶核酸可以在期望的方向上連接到銜接物。修飾末端避免了其中靶核酸彼此連接 并且/或者銜接物彼此連接的不期望的構(gòu)造。也可以通過(guò)控制銜接物和靶核酸兩者的末端 化學(xué)基團(tuán)而控制各銜接物-靶核酸連接的方向。這種修飾可以防止含有以未知構(gòu)象連接的 不同片段的核酸模板的形成,因此減少并且/或者除去由這種不期望的模板所造成的序列 鑒定和裝配中的錯(cuò)誤。
[0058] 在通過(guò)裂解而形成單鏈的片段之后,可以將DNA變性。 擴(kuò)增
[0059] 在一個(gè)實(shí)施方式中,在裂解后(實(shí)際上在本文中概述的步驟之前或之后)可以對(duì) 一群的裂解核酸實(shí)施擴(kuò)增步驟,以確保足夠高的濃度的所有片段可用于后繼的步驟。根據(jù) 本發(fā)明的一個(gè)實(shí)施方式,提供用于對(duì)少量核酸復(fù)合物(包括高級(jí)生物體的)進(jìn)行測(cè)序的方 法,其中將這種核酸復(fù)合物擴(kuò)增以便產(chǎn)生足夠的用于利用本文中所描述方法進(jìn)行測(cè)序的核 酸。本文中描述的測(cè)序方法以高檢出率提供高度準(zhǔn)確的序列,甚至將一部分的基因組當(dāng)量 作為具有充分?jǐn)U增的起始材料。應(yīng)注意,細(xì)胞含有大約6.6皮克(pg)的基因組DNA。來(lái)自 單個(gè)細(xì)胞或小數(shù)量生物體(包括高級(jí)生物體,例如人)的細(xì)胞的全基因組或者其它核酸復(fù) 合物可以用本發(fā)明的方法進(jìn)行實(shí)施??梢允褂米?、5口8、1(^8、3(^8、5(^8、10(^8或者1叩 的核酸復(fù)合物作為起始材料來(lái)完成高級(jí)生物體的核酸復(fù)合物的測(cè)序,利用本領(lǐng)域中已知的 任何核酸擴(kuò)增方法將該起始材料擴(kuò)增以產(chǎn)生例如200ng、400ng、600ng、800ng、1yg、2yg、 3yg、4yg、5yg、10yg或更多量的核酸復(fù)合物。我們也公開了使GC偏向性最小化的核酸 擴(kuò)增方案。然而,可以通過(guò)進(jìn)一步分離一個(gè)細(xì)胞或者少量的細(xì)胞,在本領(lǐng)域中已知的合適培 養(yǎng)條件下將它們培養(yǎng)達(dá)充分的時(shí)間,并且使用起始細(xì)胞的后代或用于測(cè)序的細(xì)胞的后代, 而減少對(duì)擴(kuò)增和后繼的GC偏向性的需求。
[0060] 這種擴(kuò)增方法包括但不限于:多重置換擴(kuò)增(MDA)、聚合酶鏈反應(yīng)(PCR)、連接鏈 反應(yīng)(有時(shí)被稱為寡核苷酸連接酶擴(kuò)增OLA)、循環(huán)探針技術(shù)(CPT)、鏈置換檢測(cè)(SDA)、轉(zhuǎn)錄 介導(dǎo)的擴(kuò)增(TMA)、基于核酸序列的擴(kuò)增(NASBA)、滾環(huán)擴(kuò)增(RCA)(用于圓形化片段)、和侵 入裂解技術(shù)。
[0061] 可以在裂解之后或者在任何步驟之前或之后實(shí)施本文中概述的擴(kuò)增。 具有減小的GC偏向件的MDA擴(kuò)增方案
[0062] 在一個(gè)方面,本發(fā)明提供制備樣品的方法,其中在文庫(kù)構(gòu)建和測(cè)序之前如實(shí)地進(jìn) 行每等分部分約l〇Mb的DNA的擴(kuò)增,例如根據(jù)起始DNA的量大約30, 000倍。
[0063] 根據(jù)本發(fā)明的LFR方法的一個(gè)實(shí)施方式,LFR開始于用5'核酸外切酶對(duì)基因組核 酸(通常是基因組DNA)進(jìn)行處理,以形成3'單鏈的突出端。這種單鏈突出端用作MDA起 始位點(diǎn)。核酸外切酶的使用也消除了在擴(kuò)增之前加熱或堿變性步驟的需求,并且不將偏向 性引入該群的片段。在另一個(gè)實(shí)施方式中,將堿變性與5'核酸外切酶處理相結(jié)合,導(dǎo)致比 在任何單獨(dú)處理中所看到偏向性的減小更多的偏向性的減小。如上所述,然后,將用5'核 酸外切酶且任選地用堿變性處理的DNA稀釋到亞基因組濃度并且分散在一些等分試樣上。 在分離成等分部分(例如在多個(gè)孔中)之后,將各等分部分中的片段擴(kuò)增。
[0064] 在一個(gè)實(shí)施方式中,采用phi29_堿基多重置換擴(kuò)增(MDA)。許多研宄已檢查了不 受歡迎的擴(kuò)增偏向性、背景產(chǎn)物形成、和由于基于phi29的MDA所產(chǎn)生的嵌合假象的范圍, 但許多的這些缺點(diǎn)在擴(kuò)增的極端條件下(大于1百萬(wàn)倍)已發(fā)生。通常,LFR采用基本上 較低水平的擴(kuò)增并且開始于長(zhǎng)DNA片段(例如,約100kb),從而實(shí)現(xiàn)高效率的MDA和更加可 接受水平的擴(kuò)增偏向性和其它與擴(kuò)增有關(guān)的問(wèn)題。
[0065] 我們已開發(fā)出了一種改進(jìn)的MDA方案來(lái)克服與使用各種添加劑(例如,DNA修飾 酶、糖類、和/或化學(xué)劑如DMSO)的MDA相關(guān)的問(wèn)題,并且/或者減少、增加或置換MDA的反 應(yīng)條件的不同組分,以進(jìn)一步改進(jìn)該方案。為了使嵌合體最小化,也可以使用試劑來(lái)減小替 換的單鏈DNA用作用于延伸DNA鏈的錯(cuò)誤模板的可利用性,這是嵌合體形成的常見(jiàn)機(jī)制。 由于MDA所造成的覆蓋率偏向性的主要來(lái)源是由富含GC的區(qū)域與富含AT的區(qū)域的擴(kuò)增的 差異所導(dǎo)致的。這可以通過(guò)在MDA反應(yīng)中使用不同試劑并且/或者通過(guò)調(diào)整引物濃度以形 成用于甚至啟動(dòng)在基因組的所有GCg%域的環(huán)境而加以糾正。在一些實(shí)施方式中,在啟動(dòng) MDA中使用隨機(jī)六聚體。在其它實(shí)施方式中,將其它引物設(shè)計(jì)用于降低偏向性。在其它實(shí)施 方式中,在MDA之前或期間使用5'核酸外切酶的使用可以有助于低偏向性的成功啟動(dòng),尤 其是用于對(duì)特征是長(zhǎng)片段復(fù)制(即,在一些癌細(xì)胞中)和復(fù)合物重復(fù)的區(qū)域進(jìn)行測(cè)序的較 長(zhǎng)(即,200kb至1Mb)片段。
[0066] 在一些實(shí)施方式中,采用經(jīng)改進(jìn)的更高效率的裂解和連接步驟減小制備樣品所需 的MDA擴(kuò)增的回合數(shù)量達(dá)高達(dá)10, 000倍,由此進(jìn)一步減小偏向性和來(lái)自MDA的嵌合體形 成。
[0067] 在一些實(shí)施方式中,MDA反應(yīng)被設(shè)計(jì)成在用于CoRE裂解的制備中將尿嘧啶導(dǎo)入擴(kuò) 增產(chǎn)物中。在一些實(shí)施方式中,將采用隨機(jī)六聚體的標(biāo)準(zhǔn)MDA反應(yīng)用于在各孔中的片段擴(kuò) 增;可替代地,可以將隨機(jī)8單體單元的引物用于減小片段的群中的擴(kuò)增偏向性(例如,GC 偏向性)。在其它實(shí)施方式中,也可以將數(shù)種不同的酶添加到MDA反應(yīng)中以減小擴(kuò)增的偏向 性。例如,可以將低濃度的非行進(jìn)性5'核酸外切酶和/或單鏈結(jié)合蛋白質(zhì)用于形成用于8 單體單元的結(jié)合位點(diǎn)。也可以將諸如甜菜堿、DMS0和海藻糖的化學(xué)試劑用于減小偏向性。
[0068] 在將各等分部分中的片段擴(kuò)增后,任選地可以使擴(kuò)增產(chǎn)物經(jīng)歷另一輪的裂解。在 一些實(shí)施方式中,將CoRE方法用于在擴(kuò)增后在各等分部分中將片段進(jìn)一步裂解。在這種實(shí) 施方式中,在各等分部分中的片段的MDA擴(kuò)增被設(shè)計(jì)成將尿嘧啶并入MDA產(chǎn)物。用尿嘧啶 DNA糖苷酶(UDG)、DNA糖苷酶裂解酶核酸內(nèi)切酶VIII、和T4多核苷酸激酶的混合物對(duì)含有 MDA產(chǎn)物的各等分部分進(jìn)行處理,以切除尿嘧啶堿基并且形成具有5'磷酸酯基和3'羥基官 能團(tuán)的單堿基空缺。通過(guò)使用諸如Taq聚合酶的聚合酶的切口平移導(dǎo)致雙鏈的鈍性末端斷 裂,從而形成具有取決于在MDA反應(yīng)中添加dUTP的濃度的尺寸范圍的可連接片段。在一些 實(shí)施方式中,所采用的CoRE方法包括通過(guò)使用phi29的聚合和鏈置換而除去尿嘧啶。也可 以利用超聲處理或酶處理來(lái)實(shí)現(xiàn)MDA產(chǎn)物的裂解。此實(shí)施方式中可以使用的酶處理包括但 不限于:DNase1、17核酸內(nèi)切酶I、微球菌核酸酶等。
[0069] 在MDA產(chǎn)物的裂解之后,可以對(duì)所形成片段的末端進(jìn)行修復(fù)。許多裂解技術(shù)可以 形成具有突出端的末端和具有不用于隨后連接反應(yīng)的官能團(tuán)(諸如3'和5'羥基和/或3' 和5'磷酸酯基)的末端。有用的是具有被修復(fù)以具有鈍性末端的片段。也理想的是,對(duì)末 端進(jìn)行修飾以便添加或除去磷酸基和羥基以防止靶序列的"聚合"。例如,可以使用磷酸酶 來(lái)消除磷酸基,使得所有的末端都含有羥基。然后,可以選擇性地改變各末端,以便允許在 期望的組件之間形成連接。然后,可以通過(guò)使用堿磷酸酶的處理,而將這些片段的一端"活 化"。然后,可以用銜接物來(lái)標(biāo)記這些片段以鑒定在LFR方法中來(lái)自相同等分部分的片段。 各等分部分中的片段的標(biāo)iP,
[0070] 根據(jù)一個(gè)實(shí)施方式,在擴(kuò)增后,對(duì)各等分部分中的DNA進(jìn)行標(biāo)記從而鑒定其中產(chǎn) 生各片段的等分部分。在其它實(shí)施方式中,在用銜接物進(jìn)行標(biāo)記之前,將各等分部分中的 擴(kuò)增DNA進(jìn)一步裂解,使得來(lái)自相同等分部分的片段都將含有相同的標(biāo)記;參見(jiàn)例如US 2007/0072208,該專利的內(nèi)容以參考的方式并入本文中。
[0071] 根據(jù)一個(gè)實(shí)施方式,銜接物被設(shè)計(jì)在兩個(gè)片段中,一個(gè)片段對(duì)于所有的孔是共有 的,并且鈍性末端利用本文中進(jìn)一步描述的方法直接連接到這些片段。以兩個(gè)銜接物臂的 形式添加"共有的"銜接物,一個(gè)臂連接到片段的5'端的鈍性末端,另一個(gè)臂連接到片段的 3'端的鈍性末端。標(biāo)記銜接物的第二片段對(duì)各孔是唯一的"條形碼"片段。此條形碼通常 是核苷酸的唯一序列,并且向特定孔中的各片段給予相同的條形碼。因此,當(dāng)來(lái)自所有孔的 標(biāo)記片段重新組合以便用于測(cè)序用途時(shí),可以通過(guò)對(duì)條形碼銜接物的鑒定而確定來(lái)自相同 孔的片段。將條形碼連接到共有的銜接物臂的5'端。共有銜接物和條形碼銜接物可以順 序地或同時(shí)地連接到該片段。正如將在本文中更詳細(xì)的描述,可以對(duì)共有銜接物的末端和 條形碼銜接物進(jìn)行修飾,使得各銜接物片段將在正確方向上連接到適當(dāng)?shù)姆肿印_@種修飾 通過(guò)確保這些片段不能彼此連接并且銜接物片段僅能夠在圖示的方向上連接而防止銜接 物片段或片段的"聚合"。
[0072] 在其它實(shí)施方式中,將三片段設(shè)計(jì)應(yīng)用于用來(lái)標(biāo)記各孔中的片段的銜接物。除了 將條形碼銜接物片段分裂成兩個(gè)片段外,該實(shí)施方式類似于上述條形碼銜接物設(shè)計(jì)。通過(guò) 允許通過(guò)將不同的條形碼片段連接在一起以形成全條形碼片段而產(chǎn)生組合條形碼銜接物 片段,此設(shè)計(jì)允許更寬范圍的合適條形碼。此組合設(shè)計(jì)提供合適條形碼銜接物的較大所有 組成成分,同時(shí)減少需要產(chǎn)生的全尺寸條形碼銜接物的數(shù)量。在其它實(shí)施方式中,用8-12 個(gè)堿基對(duì)錯(cuò)誤糾正條形碼來(lái)實(shí)現(xiàn)各等分部分的唯一鑒定。在一些實(shí)施方式中,使用與孔 (在上述非限制性實(shí)例中為384個(gè)和1536個(gè))相同數(shù)量的銜接物。在其它實(shí)施方式中,通 過(guò)基于兩組的40個(gè)半條形碼銜接物的新型組合標(biāo)記方法,來(lái)降低與形成銜接物相關(guān)的成 本。
[0073] 在一個(gè)實(shí)施方式中,文庫(kù)構(gòu)建包括使用兩個(gè)不同的銜接物。容易地對(duì)A和B銜接 物進(jìn)行修飾以便各自含有不同的半條形碼序列,從而產(chǎn)生數(shù)千種組合。在另一個(gè)實(shí)施方式 中,將條形碼序列并入在相同的銜接物上。這可以通過(guò)將B銜接物斷裂成兩個(gè)部分而實(shí)現(xiàn), 各部分具有被用于連接的共有重疊序列所分離的半條形碼序列。這兩個(gè)標(biāo)記組件各自具有 4-6個(gè)堿基。8堿基(2X4堿基)標(biāo)記組能夠唯一地標(biāo)記65, 000個(gè)等分部分。一個(gè)額外的 堿基(2X5堿基)將允許錯(cuò)誤檢測(cè)和12堿基標(biāo)記(2X6堿基,12百萬(wàn)個(gè)唯一的條形碼序 列)可以被設(shè)計(jì)成允許在采用Reed-Solomon設(shè)計(jì)的10, 000或10, 000以上等分部分中的 大量錯(cuò)誤檢測(cè)和糾正(美國(guó)專利申請(qǐng)12/697,995,在US2010/0199155中公布,該專利申 請(qǐng)的內(nèi)容以參考的方式并入本文中)。2X5堿基和2X6堿基標(biāo)記兩者均可包含簡(jiǎn)并堿基 (即,"通配符(wild-card)")的使用以實(shí)現(xiàn)最佳解碼效率。
[0074] 在將各孔中的片段進(jìn)行標(biāo)記后,將所有片段合并或匯集以形成單群。然后,可以將 這些片段用于形成用于測(cè)序的核酸模板或文庫(kù)構(gòu)建體。通過(guò)連接到各片段的條形碼標(biāo)記銜 接物,這些標(biāo)志片段所形成的核酸模板將是可辨認(rèn)的,因?yàn)閷儆谝粋€(gè)特定的孔。 f庫(kù)構(gòu)律體 概沭
[0075] 本發(fā)明提供包含靶核酸和多個(gè)散在銜接物的文庫(kù)構(gòu)建體。這些構(gòu)建體是通過(guò)在各 靶核酸中的多種位點(diǎn)處插入銜接物分子而形成的。散在銜接物允許從靶核酸中的多個(gè)位點(diǎn) 連續(xù)地或同時(shí)地獲得序列信息。
[0076] 本發(fā)明的核酸模板(本文中也被稱為"核酸構(gòu)建體"和"文庫(kù)構(gòu)建體")包含靶核 酸和銜接物。本文中使用的術(shù)語(yǔ)"銜接物"是指已知序列的寡核苷酸。本發(fā)明中使用的銜接 物可包含一些元件。銜接物中所包含元件的類型和數(shù)量(本文中也被稱為"特征")將取決 于銜接物的預(yù)期用途。本發(fā)明中使用的銜接物通常將包括但不限于:用于限制性核酸內(nèi)切 酶識(shí)別和/或切割的位點(diǎn);尤其是允許在銜接物內(nèi)部的一個(gè)識(shí)別位點(diǎn)處的核酸內(nèi)切酶結(jié)合 以及在銜接物外部切割的如下所述的IIs型識(shí)別位點(diǎn);用于引物結(jié)合(用于擴(kuò)增核酸構(gòu)建 體)或者錨定結(jié)合(用于對(duì)核酸構(gòu)建體中的靶核酸進(jìn)行測(cè)序)的位點(diǎn);切口酶位點(diǎn)等。在 一些實(shí)施方式中,銜接物將包含用于限制性核酸內(nèi)切酶的單個(gè)識(shí)別位點(diǎn),而在其它實(shí)施方 式中,銜接物將包含用于一個(gè)或多個(gè)限制性核酸內(nèi)切酶的2個(gè)或2個(gè)以上識(shí)別位點(diǎn)。如本 文中的概述,常常(但不排他地)在銜接物末端發(fā)現(xiàn)識(shí)別位點(diǎn),以便允許在距離銜接物末端 的最遠(yuǎn)合適位置處將雙鏈構(gòu)建體切斷。
[0077] 在一些實(shí)施方式中,根據(jù)銜接物中所包含特征的數(shù)量和大小,本發(fā)明的銜接物具 有大約10至大約250個(gè)核苷酸的長(zhǎng)度。在某些實(shí)施方式中,本發(fā)明的銜接物具有大約50 個(gè)核苷酸的長(zhǎng)度。在其它實(shí)施方式中,本發(fā)明中使用的銜接物具有大約20至大約225、大 約30至大約200、大約40至大約175、大約50至大約150、大約60至大約125、大約70至 大約100、和大約80至大約90個(gè)核苷酸的長(zhǎng)度。
[0078] 在其它實(shí)施方式中,銜接物可任選地包含元件,使得它們可以以兩個(gè)"臂"的形式 連接到靶核酸。這些臂中的一個(gè)或兩個(gè)臂可包含用于限制性核酸內(nèi)切酶的一個(gè)完整的識(shí)別 位點(diǎn),或者兩個(gè)臂均可包含用于限制性核酸內(nèi)切酶的部分的識(shí)別位點(diǎn)。在后者的情況下,含 有利用銜接物臂而結(jié)合在各末端的靶核酸的構(gòu)建體的圓形化,將重新構(gòu)建整個(gè)識(shí)別位點(diǎn)。
[0079] 在其它實(shí)施方式中,本發(fā)明中使用的銜接物將包含在它們銜接物的5'和3'端 的不同的錨定結(jié)合位點(diǎn)。如本文中的進(jìn)一步描述,這種錨定結(jié)合位點(diǎn)可以用于測(cè)序用途, 包括測(cè)序的組合探針錨定連接(cPAL)法,描述于本文中和美國(guó)專利申請(qǐng)60/992, 485、 61/026, 337、61/035, 914、61/061,134、61/116, 193、61/102, 586、12/265, 593、和 12/266, 385、11/938, 106、11/938, 096、11/982, 467、11/981,804、11/981,797、11/981,793、 11/981,767、11/981,761、11/981,730、11/981,685、11/981,661、11/981,607、11/981,605、 11/927, 388、11/927, 356、11/679, 124、11/541,225、10/547, 214、和 11/451,691 ;以上所有 專利文件的全部?jī)?nèi)容以參考的方式并入本文中,尤其是用于與利用連接進(jìn)行測(cè)序有關(guān)的公 開內(nèi)容。
[0080] 在一個(gè)方面,本發(fā)明的銜接物是散在銜接物。本文中的"散在銜接物"表示在靶核 酸內(nèi)部區(qū)域中的間隔位置插入的寡核苷酸。在一個(gè)方面,有關(guān)于靶核酸的"內(nèi)部"表示在處 理(諸如圓形化和切斷)之前在靶核酸內(nèi)部的位點(diǎn),所述處理會(huì)引入序列倒位、或者類似的 轉(zhuǎn)型,這破壞在靶核酸內(nèi)部的核苷酸的有序化。
[0081] 本發(fā)明的核酸模板構(gòu)建體含有在特定方向上插入靶核酸中的多個(gè)散在銜接物。如 本文中進(jìn)一步的論述,由從一個(gè)或多個(gè)細(xì)胞(包括1至數(shù)百萬(wàn)個(gè)細(xì)胞)中分離出的核酸而 形成靶核酸。然后,利用機(jī)械方法或酶方法將這些核酸裂解。
[0082] 成為本發(fā)明核酸模板構(gòu)建體的部分的靶核酸可具有在預(yù)定位置以在靶核酸相鄰 區(qū)域中的間隔而插入的散在銜接物。這些間隔可以相同的或者可以是不相同的。在一些方 面,散在銜接物之間的間距的精確度可以僅對(duì)一些核苷酸中的一個(gè)核苷酸的精確度是已知 的。在其它方面,銜接物的間距是未知的,并且各銜接物相對(duì)于文庫(kù)構(gòu)建體中的其它銜接物 的方向是已知的。也就是說(shuō),在許多實(shí)施方式中,在已知的距離處將銜接物插入,使得在天 然產(chǎn)生的基因組序列中的一個(gè)末端上的靶序列與在其它末端上的靶序列是相鄰的。例如, 在從位于進(jìn)入銜接物3個(gè)堿基的識(shí)別位點(diǎn)中切割出16個(gè)堿基的IIs型限制性核酸內(nèi)切酶 的情況下,核酸內(nèi)切酶從銜接物的末端頂部切割出13個(gè)堿基。在第二銜接物插入時(shí),在初 始靶序列中銜接物的靶序列"上游"和銜接物的靶序列"下游"實(shí)際上是相鄰的序列。這些 "配對(duì)"序列從構(gòu)建體中話延伸相鄰閱讀的數(shù)量,并且尤其可用于在基因組中的重復(fù)元件中 的閱讀。
[0083] 盡管本文中描述的本發(fā)明實(shí)施方式通常是用圓形核酸模板構(gòu)建體來(lái)描述的,但應(yīng) 當(dāng)理解的是核酸模板構(gòu)建體也可以是線形的。此外,本發(fā)明的核酸模板構(gòu)建體可以是單鏈 或雙鏈的,在一些實(shí)施方式中后者是優(yōu)選的。
[0084] 本發(fā)明提供包括含有一個(gè)或多個(gè)散在銜接物的靶核酸的核酸模板。在另一個(gè)實(shí)施 方式中,由多個(gè)基因組片段所構(gòu)成的核酸模板可以用于形成核酸模板的文庫(kù)。在一些實(shí)施 方式中,這種核酸模板的文庫(kù)將包含共同地包含所有或部分的完全基因組的靶核酸。也就 是說(shuō),通過(guò)使用足夠數(shù)量的起始基因組(例如細(xì)胞),連同隨機(jī)裂解,將所形成的特定尺寸 的靶核酸用于形成充分"覆蓋"基因組的本發(fā)明的圓形模板,但能理解的是,偶爾可以非故 意地導(dǎo)入偏向性以防止呈現(xiàn)完全基因組。
[0085] 本發(fā)明的核酸模板構(gòu)建體包含多個(gè)散在銜接物,在一些方面,這些散在銜接物包 含用于限制性核酸內(nèi)切酶的一個(gè)或多個(gè)識(shí)別位點(diǎn)。在其它方面,銜接物包含用于IIs型核 酸內(nèi)切酶的識(shí)別位點(diǎn)。IIs型核酸內(nèi)切酶通常是市售的并且在本領(lǐng)域中是眾所周知的。如 同它們的IIs型對(duì)應(yīng)物,IIs型核酸內(nèi)切酶識(shí)別在雙鏈多核苷酸序列中的核苷酸堿基對(duì)的 特定序列。當(dāng)識(shí)別該序列時(shí),核酸內(nèi)切酶將多核苷酸序列切斷,通常留下序列的一個(gè)鏈的突 出端,或者"粘性末端"。IIs型核酸內(nèi)切酶也通常在它們的識(shí)別位點(diǎn)的外部切斷;根據(jù)特定 的核酸內(nèi)切酶,距離可以是距離識(shí)別位點(diǎn)大約2至30個(gè)核苷酸的任意距離。一些IIs型核 酸內(nèi)切酶是從它們的識(shí)別位點(diǎn)切割出已知數(shù)量堿基的"精確切割酶"。在一些實(shí)施方式中, 使用并非"精確切割酶"而是在特定范圍(例如6至8個(gè)核苷酸)內(nèi)切割的IIs型核酸內(nèi)切 酶。通常,使用于本發(fā)明的IIs型限制性核酸內(nèi)切酶具有距離它們的識(shí)別位點(diǎn)至少達(dá)6個(gè) 核苷酸(即,在識(shí)別位點(diǎn)的端點(diǎn)與最近的切斷點(diǎn)之間的核苷酸的數(shù)量)的切斷位點(diǎn)。示例 性的IIs型限制性核酸內(nèi)切酶包括但不限于:Eco57MI、MmeI、AcuI、BpmI、BceAI、Bbv I、BciVI、BpuEI、BseMII、BseRI、BsgI、BsmFI、BtgZI、EciI、EcoP15I、Eco57MI、FokI、HgaI、HphI、MboII、MnlI、SfaNI、TspDTI、TspDWI、TaqII等。在一些示例 性實(shí)施方式中,用于本發(fā)明的IIs型限制性核酸內(nèi)切酶是Acul,該酶具有大約16個(gè)堿基的 切割長(zhǎng)度并且具有2-堿基3'突出端;和EcoP15,其具有大約25個(gè)堿基的切割長(zhǎng)度并且具 有2-堿基5'突出端。正如將在下面進(jìn)一步的論述,通過(guò)將IIs型位點(diǎn)包括在本發(fā)明核酸 模板構(gòu)建體的銜接物中,而提供用于在限定位置將多個(gè)銜接物插入靶核酸的工具。
[0086] 正如將會(huì)理解的,銜接物也可包含其它元件,包括用于其它(非IIs型)限制性核 酸內(nèi)切酶的識(shí)別位點(diǎn)、用于擴(kuò)增的引物結(jié)合位點(diǎn)、以及用于在本文中進(jìn)一步描述的測(cè)序反 應(yīng)中使用的錨定物的結(jié)合位點(diǎn)。
[0087] 在一個(gè)方面,本發(fā)明中使用的銜接物可以包含多個(gè)功能特征,包括用于IIs型限 制性核酸內(nèi)切酶的識(shí)別位點(diǎn)、用于切口核酸內(nèi)切酶的位點(diǎn)、能影響二級(jí)特性的序列(諸如 破壞發(fā)夾的堿基);等。另外,用于本發(fā)明的銜接物可含有回文序列,一旦將包含這種銜接 物的核酸模板用于產(chǎn)生多聯(lián)體,該回文序列可以用于促進(jìn)分子內(nèi)結(jié)合。 本發(fā)明的核酸樽板的制各
[0088] 用于制備文庫(kù)構(gòu)建體的方法詳細(xì)描述于例如美國(guó)專利申請(qǐng)公開 2010/0105052 和US2007099208,以及美國(guó)專利申請(qǐng) 11/679, 124(在US2009/0264299 中公開);ll/981,761(US2009/0155781);ll/981,661(US2009/0005252); 1 1/98 1, 605 (US2009/00 1 1943) ; 1 1/981, 793 (US2009-01 18488); 1 1/45 1, 69 1 (US2007/0099208) ; 1 1 /98 1 , 60 7 (US2008/0 2 34 1 36); 1 1 /98 1, 76 7 (US2009/0 1 3 7404) ; 1 1 /98 2, 46 7 (US2009/0 1 3 74 1 4); 11/451,692(US2007/0072208) ;11/541,225(US2010/0081128 ; 1 1/927, 356 (US2008/03 18796) ; 1 1/927, 388 (US2009/0 143235); 1 1 /9 38, 096(US2 0 0 8 /0 2 1 3 7 7 1 ) ; 1 1 /9 38, 1 06 (US2008/0 1 7 1 3 3 1 ); 1 0/547, 2 1 4(US2 0 0 7 /0 0 3 7 1 5 2 ) ; 1 1 /98 1 , 7 30 (US2009/000 5 2 59); 1 1 /98 1, 68 5 (US2009/00 36 3 1 6) ; 1 1/981, 797 (US2009/001 1416); 1 1 /9 34, 69 5 (US2009/00 7 5 343) ; 1 1/934, 697 (US2009/01 1 1705); 1 1/934, 703 (US2009/01 1 1706) ; 1 2 / 2 6 5, 5 9 3 (US2009/0 20 3 5 5 1 ); 1 1 /9 3 8, 2 1 3 (US2009/0 1 0 596 1 ) ; 1 1/938, 22 1 (US2008/022 1832); 1 2 / 3 2 5, 9 2 2 (US2009/0 3 1 8 304) ; 1 2 / 2 5 2, 2 8 0 (US2009/0 1 1 1 1 1 5); 1 2/266, 385 (US2009/0 1 76652) ; 12/335, 168 (US2009/031 1691); 12/335, 188 (US2009/0176234) ; 12/361, 507 (US2009/0263802)、 11/981, 804 (US2011/0004413);和 12/329, 365 ;公布的國(guó)際專利申請(qǐng)TO2007120208、 W02006073504和W02007133831,以上所有專利文件的全部?jī)?nèi)容以參考的方式并入本文中 用于所有目的。也參見(jiàn)Drmanac等人,Science327,78-81,2010。下面提供對(duì)這種方法的 實(shí)例的總結(jié)。圓形模板的形成的概述
[0089] 本發(fā)明涉及用于核酸鑒定和檢測(cè)的組合物和方法,這些組合物和方法可用于如本 文中所述的種類廣泛的用途,包括多種測(cè)序和基因分型用途。本文中描述的方法允許用于 擴(kuò)增反應(yīng)的圓形核酸模板的構(gòu)建,該擴(kuò)增反應(yīng)利用這種圓形模板形成單體圓形模板的串聯(lián) 體,從而形成下述的"DNA納米球",該納米球可用于多種測(cè)序和基因分型用途。本發(fā)明的圓 形或線形構(gòu)建體包含靶核酸序列,通常是基因組DNA的片段(盡管如本文中的描述,但也可 以使用其它模板諸如cDNA)具有散在的外源性核酸銜接物。本發(fā)明提供用于制造核酸模板 構(gòu)建體的方法,其中在規(guī)定位置并且也任選地在相對(duì)于一個(gè)或多個(gè)以前插入的銜接物的規(guī) 定方向上添加各后繼的銜接物。這些核酸模板構(gòu)建體通常是圓形核酸(盡管在某些實(shí)施方 式中構(gòu)建體可以是線形的),該圓形核酸包含具有多個(gè)散在銜接物的靶核酸。這些銜接物, 如下所述,是用于測(cè)序和基因分型用途的外源性序列,并且通常含有限制性核酸內(nèi)切酶位 點(diǎn),尤其是用于諸如在它們的識(shí)別位點(diǎn)的外部切割的IIs型酶的酶。為了便于分析,本發(fā)明 的反應(yīng)優(yōu)選地采用其中在特定方向上而不是隨機(jī)地插入銜接物的實(shí)施方式。因此,本發(fā)明 提供用于制造在特定方向上以規(guī)定的間距含有多個(gè)銜接物的核酸構(gòu)建體的方法。
[0090] 在包含多個(gè)銜接物的核酸模板構(gòu)建體中,至少一個(gè)銜接物將被插入靶核酸的相鄰 核苷酸,以便來(lái)自這些插入(本文中也被稱為"散在的")的銜接物的各末端的閱讀導(dǎo)致對(duì) 相鄰堿基的閱讀。例如,來(lái)自散在銜接物的各末端的10個(gè)堿基閱讀提供對(duì)靶核酸的20個(gè) 相鄰堿基的閱讀。
[0091 ] 對(duì)各后繼的銜接物的插入的間距和方向的控制提供相對(duì)于散在銜接物的隨機(jī)插 入的一些優(yōu)點(diǎn)。具體地,本文中描述的方法提高銜接物插入步驟的效率,因此減小當(dāng)插入 各后繼銜接物時(shí)引入擴(kuò)增步驟的需要。另外,控制各添加銜接物的間距和方向確保通常包 含在各銜接物中的限制性核酸內(nèi)切酶識(shí)別位點(diǎn)被映射成允許后繼的切斷和連接步驟在核 酸構(gòu)建體中的適當(dāng)點(diǎn)處發(fā)生,因此通過(guò)減少或消除在不適當(dāng)?shù)奈恢没蚍较蛏暇哂秀暯游锏?核酸模板的形成而進(jìn)一步提高步驟的效率。另外,對(duì)各后繼添加銜接物的位置和方向的控 制對(duì)于所形成核酸構(gòu)建體的某些用途會(huì)是有利的,因?yàn)闇y(cè)序用途中這些銜接物提供多種功 能,包括用作已知序列的參考點(diǎn),以幫助鑒定在靶核酸內(nèi)部某些位置確定的堿基的相對(duì)空 間位置。本文中將對(duì)這種銜接物在測(cè)序用途中的使用作進(jìn)一步描述。
[0092] 基因組核酸,通常是雙鏈DNA,是從一個(gè)或多個(gè)細(xì)胞(通常是大約5個(gè)、100個(gè)、或 者1000個(gè)或1000個(gè)以上的細(xì)胞)中獲得。利用諸如結(jié)合尺寸分離的物理分離或酶分離的 標(biāo)準(zhǔn)技術(shù),將基因組核酸分離成適當(dāng)?shù)某叽纭?br>
[0093] 另外,視需要,可以任選地利用種類廣泛的已知技術(shù)執(zhí)行擴(kuò)增,以增加基因組片段 的數(shù)量以便進(jìn)一步的操作,但在許多實(shí)施方式中,在此步驟中擴(kuò)增步驟是不需要的。 第一銜接物的添加
[0094] 作為在形成本發(fā)明的核酸模板中的第一步驟,將第一銜接物連接到靶核酸??蓪?整個(gè)第一銜接物添加到一個(gè)末端,或者可以將第一銜接物的兩個(gè)部分(在本文中被稱為 "銜接物臂")連接到靶核酸的各末端。第一銜接物臂被設(shè)計(jì)成使得當(dāng)連接時(shí)它們重新構(gòu)建 整個(gè)第一銜接物。如上所述,第一銜接物通常將包含用于IIs型限制性核酸內(nèi)切酶的一個(gè) 或多個(gè)識(shí)別位點(diǎn)。在一些實(shí)施方式中,IIs型限制性核酸內(nèi)切酶識(shí)別位點(diǎn)將在兩個(gè)銜接物 臂之間被分裂,因此當(dāng)將兩個(gè)銜接物臂連接時(shí)該位點(diǎn)僅可用于結(jié)合到限制性核酸內(nèi)切酶。
[0095] 根據(jù)用于裝配銜接物/靶核酸模板的一種方法(本文中也被稱為"靶文庫(kù)構(gòu)建 體"、"文庫(kù)構(gòu)建體"和所有的語(yǔ)法同等物),利用如上所述的標(biāo)準(zhǔn)技術(shù)將DNA(諸如基因組 DNA)分離并裂解成靶核酸。然后修復(fù)裂解的靶核酸,使得各鏈的5'和3'端是平齊(flush) 或鈍性的末端。在此反應(yīng)后,用利用非校讀聚合酶添加到裂解靶核酸的各鏈的3'端的單個(gè) A對(duì)各片段進(jìn)行"A-加尾"。A-加尾通常是通過(guò)使用聚合酶(諸如Taq聚合酶)而完成并 且僅提供腺苷核苷酸,以便驅(qū)使聚合酶以模板-序列-不依賴方式將一個(gè)或多個(gè)A'添加到 革巴核酸的末端。
[0096] 在一個(gè)示例性方法中,然后將第一銜接物的第一臂和第二臂連接到各靶核酸,從 而形成具有連接到各端的銜接物臂的靶核酸。在一個(gè)實(shí)施方式中,對(duì)銜接物臂進(jìn)行"T-加 尾","T-加尾"與靶核酸的A加尾是互補(bǔ)的,從而通過(guò)提供使銜接物臂首先退火到靶核酸然 后加入連接酶以便將銜接物臂連接到靶核酸的方法而有助于銜接物臂與靶核酸的連接。
[0097] 在另一個(gè)實(shí)施方式中,本發(fā)明以使分子內(nèi)或分子間連接假象的形成最小化的方式 將銜接物連接到各片段。這是理想的,因?yàn)楸舜藰?gòu)成連接假象的靶核酸的隨機(jī)片段在靶核 酸片段之間形成虛假的近端基因組關(guān)系,從而使序列聯(lián)配步驟復(fù)雜化。利用A加尾和T加 尾兩者將銜接物連接到DNA片段,防止銜接物與片段的隨機(jī)分子內(nèi)或分子間締合,這減少 將會(huì)由于自我連接、銜接物-銜接物連接或片段-片段連接所形成的假象。
[0098] 作為A/T加尾(或G/C加尾)的替代,可以執(zhí)行各種其它方法以防止靶核酸與銜 接物的連接假象的形成,以及相對(duì)于靶核酸確定銜接物臂的方位,包括使用在靶核酸和銜 接物臂中的互補(bǔ)的NN突出端,或者以適當(dāng)?shù)陌泻怂崤c銜接物的比率使用鈍性末端連接從 而優(yōu)化單片段核酸/銜接物臂連接比率。
[0099] 在形成包含靶核酸并且具有在各末端上的銜接物臂的線形構(gòu)建體之后,將線形靶 核酸圓形化(這是將在本文中作進(jìn)一步論述的步驟),從而形成包含靶核酸和銜接物的圓 形構(gòu)建體。應(yīng)注意,圓形化步驟導(dǎo)致將第一銜接物的第一臂與第二臂連接到一起,從而在圓 形構(gòu)建體中形成相鄰的第一銜接物。在一些實(shí)施方式中,例如通過(guò)使用例如隨機(jī)六聚體和 phi29或螺旋酶的循環(huán)依賴性擴(kuò)增,而將圓形構(gòu)建體擴(kuò)增??商娲?,靶核酸/銜接物結(jié)構(gòu) 可以仍然保持線形,可以利用從銜接物臂中的位點(diǎn)中引發(fā)的PCR而完成擴(kuò)增。擴(kuò)增優(yōu)選地 是受控制的擴(kuò)增過(guò)程,并且使用高保真度校讀聚合酶,從而形成擴(kuò)增的靶核酸/銜接物構(gòu) 建體的序列準(zhǔn)確的文庫(kù),其中存在被詢問(wèn)的基因組的一個(gè)或多個(gè)部分或者基因組的充分的 表現(xiàn)。 添加多個(gè)銜接物
[0100] 根據(jù)一種用于裝配銜接物/靶核酸模板的方法(本文中也被稱為"靶文庫(kù)構(gòu)建 體"、"文庫(kù)構(gòu)建體"和所有的語(yǔ)法等同物)。利用標(biāo)準(zhǔn)技術(shù)將DNA(諸如基因組DNA)加以分 離并裂解成靶核酸。在一些實(shí)施方式中,然后將裂解的靶核酸修復(fù)使得各鏈的5'和3'端 是平齊的或鈍性的。
[0101] 在一個(gè)方法中,將第一銜接物的第一臂和第二臂連接到各靶核酸,從而產(chǎn)生具有 連接到各末端的銜接物臂的靶核酸。
[0102] 在形成包含一個(gè)靶核酸和在各末端的一個(gè)銜接物臂的線形構(gòu)建體之后,將線形靶 核酸圓形化,步驟將在本文中作更詳細(xì)論述,該步驟導(dǎo)致形成包含靶核酸和銜接物的圓形 構(gòu)建體。應(yīng)注意,圓形化步驟導(dǎo)致將第一銜接物的第一臂與第二臂連接在一起以在圓形構(gòu) 建體中形成相鄰的第一銜接物。在一些實(shí)施方式中,例如通過(guò)使用例如隨機(jī)六聚體和phi29 或螺旋酶的循環(huán)依賴性擴(kuò)增,而將圓形構(gòu)建體擴(kuò)增??商娲兀泻怂?銜接物結(jié)構(gòu)可仍然 保持線形,并且可以利用從銜接物臂中的位點(diǎn)中引發(fā)的PCR完成擴(kuò)增。擴(kuò)增優(yōu)選地是受控 制的擴(kuò)增步驟并且使用高保真度校讀聚合酶,從而導(dǎo)致擴(kuò)增的靶核酸/銜接物構(gòu)建體的序 列準(zhǔn)確的文庫(kù),在靶核酸/銜接物構(gòu)建體中存在被詢問(wèn)的基因組或者基因組的一個(gè)或多個(gè) 部分的充分的表;
[0103] 類似于用于添加第一銜接物的步驟,可以將第二組的銜接物臂添加到線形分子的 各末端然后連接以形成全銜接物和圓形分子。此外,可以通過(guò)使用IIS型核酸內(nèi)切酶而將 第三銜接物添加到銜接物的其它側(cè),該IIs型核酸內(nèi)切酶在銜接物的其它側(cè)切斷,然后將 第三組的銜接物臂連接到線形化分子的各末端。最后,通過(guò)再次切斷圓形構(gòu)建體并且將第 四組的銜接物臂添加到線形化的構(gòu)建體中,可以添加第四銜接物。在一個(gè)方法中,施加具有 銜接物中的識(shí)別位點(diǎn)的IIs型核酸內(nèi)切酶以切斷圓形構(gòu)建體。銜接物中的識(shí)別位點(diǎn)可以是 相同的或不同的。類似地,所有銜接物中的識(shí)別位點(diǎn)可以是相同或不同的。
[0104]包含第一銜接物的圓形構(gòu)建體可含有在銜接物中的兩個(gè)IIs型限制性核酸內(nèi)切 酶識(shí)別位點(diǎn),該銜接物被定位成使得在識(shí)別序列外部的靶核酸(和銜接物的外部)被切割。 在一個(gè)步驟中,將EC〇P15(IIs型限制性核酸內(nèi)切酶)用于切割圓形構(gòu)建體。映射到靶核酸 中的一部分的各文庫(kù)構(gòu)建體中的一部分將被從構(gòu)建體中切割掉。在步驟中具有EcoP15的 文庫(kù)構(gòu)建體的限制形成含有第一銜接物的線形構(gòu)建體的文庫(kù),其中第一銜接物是在線形構(gòu) 建體的末端的"內(nèi)部"。所形成的線形文庫(kù)構(gòu)建體將具有由核酸內(nèi)切酶識(shí)別位點(diǎn)與核酸內(nèi)切 酶限制位點(diǎn)之間的距離外加銜接物尺寸所確定的尺寸。在此步驟中,利用常規(guī)方法對(duì)線形 構(gòu)建體(如裂解的靶核酸)進(jìn)行處理,從而變成鈍性或平齊末端,利用非校讀聚合酶將包含 單個(gè)A的A尾添加到線形文庫(kù)構(gòu)建體的3'端,并且通過(guò)A-T加尾和連接將第二銜接物的第 一和第二臂連接到線形化文庫(kù)構(gòu)建體的末端。所形成的文庫(kù)構(gòu)建體包含以下結(jié)構(gòu):第一銜 接物在線形構(gòu)建體端部的內(nèi)部,其中在一端部靶核酸與第一銜接物側(cè)面相接,并且在另一 端部靶核酸與第二銜接物的第一臂或第二臂側(cè)面相接。
[0105]在一個(gè)步驟中,對(duì)雙鏈線形文庫(kù)構(gòu)建體進(jìn)行處理從而變成單鏈的,然后將單鏈文 庫(kù)構(gòu)建體連接從而形成散在地具有兩個(gè)銜接物的靶核酸的單鏈循環(huán)。在使分子內(nèi)連接最優(yōu) 化的條件下,執(zhí)行連接/圓形化步驟。在某些濃度和反應(yīng)條件下,各核酸構(gòu)建體末端的局部 分子內(nèi)連接有利于分子之間的連接。
[0106]在一些實(shí)施方式中,2、3、4、5、6、7、8、9或10個(gè)銜接物包含在本發(fā)明的核酸模板 中,并且獨(dú)立地選擇各銜接物使得它們都可以是相同的、都是不同的、或者具有成組的相同 的銜接物(例如,具有相同序列的兩個(gè)銜接物、具有不同序列的兩個(gè)銜接物,以及如本文中 描述的所有可能組合)。如本文中的描述,可以使用任意數(shù)量的限制性核酸內(nèi)切酶,根據(jù)該 系統(tǒng)的格式它們可以是相同或不同的。各定向插入的銜接物除了cPAL外顯著地延伸SBS 或SBL的閱讀長(zhǎng)度。 DNB的制作
[0107]在一個(gè)方面,將本發(fā)明的核酸模板用于形成核酸納米球,該納米球在本文中也被 稱為"DNA納米球"、"DNB"、和"擴(kuò)增子"。這些核酸納米球通常是包含多個(gè)拷貝的單體單元 的多聯(lián)體,該單體單元是由圓形文庫(kù)構(gòu)建體的序列所構(gòu)成的。一般來(lái)說(shuō),在單反應(yīng)室中的溶 液中實(shí)施此擴(kuò)增過(guò)程,從而允許較高的密度和較低的試劑使用。另外,因?yàn)镈NB制作產(chǎn)生無(wú) 性系擴(kuò)增子,所以此擴(kuò)增方法通常不經(jīng)歷由于在其它方法中所固有的限制性稀釋造成的隨 機(jī)變異。根據(jù)本發(fā)明產(chǎn)生DNB的方法可以在1毫升的反應(yīng)體積中產(chǎn)生超過(guò)100億個(gè)DNB,這 些DNB足夠?qū)φ麄€(gè)人基因組進(jìn)行測(cè)序。
[0108] 在一個(gè)方面,將滾環(huán)式復(fù)制(RCR)用于形成本發(fā)明的多聯(lián)體。RCR步驟已證明產(chǎn) 生M13基因組的多個(gè)連續(xù)拷貝(Blanco等人(1989),JBiolChem264:8935-8940)。在這種 方法中,利用線形多聯(lián)(linearconcatemerization)復(fù)制核酸。對(duì)選擇用于RCR反應(yīng)的條 件和試劑的指導(dǎo)可查閱本領(lǐng)域技術(shù)人員可獲得的許多參考文獻(xiàn),包括美國(guó)專利5, 426, 180、 5, 854, 033、6, 143, 495和5, 871,921,以上各專利的全部?jī)?nèi)容以參考的方式并入本文中用 于所有目的,并且具體地與利用RCR或其它方法產(chǎn)生多聯(lián)體有關(guān)的所有教導(dǎo)。
[0109] 通常,RCR反應(yīng)組件包括單鏈DNA環(huán)、退火成DNA環(huán)的一個(gè)或多個(gè)引物、具有延伸 退火成DNA環(huán)的引物的3'端的鏈置換活性的DNA聚合酶、核苷三磷酸酯、和常規(guī)的聚合酶 反應(yīng)緩沖液。在允許引物退火成DNA環(huán)的條件下,將這種組件加以組合。使用DNA聚合酶 的這些引物延伸形成DNA環(huán)補(bǔ)體的多聯(lián)體。在一些實(shí)施方式中,本發(fā)明的核酸模板是雙鏈 的環(huán),將該環(huán)變性以形成可以用于RCR反應(yīng)的單鏈的環(huán)。
[0110] 在一些實(shí)施方式中,圓形核酸的擴(kuò)增可以通過(guò)短寡核苷酸(例如6單體單元)的 連續(xù)連接而實(shí)施,短寡核苷酸來(lái)自含有所有可能序列的混合物,或者如果環(huán)是合成的,短寡 核苷酸來(lái)自具有用于環(huán)復(fù)制的選擇序列的這些短寡核苷酸的限制混合物,這是被稱為"循 環(huán)依賴性擴(kuò)增"(CDA)的步驟。"循環(huán)依賴性擴(kuò)增"或者"CDA"是指使用退火到圓形模板的 兩條鏈的引物以產(chǎn)生代表模板的兩個(gè)鏈的產(chǎn)物,從而形成一系列多次雜交、引物延伸和鏈 置換事件的雙鏈圓形模板的多重置換擴(kuò)增。這導(dǎo)致引物結(jié)合位點(diǎn)數(shù)量的指數(shù)升高,并且隨 時(shí)間推移所產(chǎn)生產(chǎn)物的量呈指數(shù)地升高。所使用的引物可以是隨機(jī)序列(例如,隨機(jī)六聚 體)或者可具有用于對(duì)期望產(chǎn)物的擴(kuò)增進(jìn)行選擇的特定序列。CDA導(dǎo)致形成成組的多聯(lián)體 雙鏈的片段。
[0111] 也可以在與靶分子的開始端和末端兩者是互補(bǔ)的橋接模板DNA的存在下,通過(guò)靶 DNA的連接而形成多聯(lián)體??梢栽诙嗦?lián)體中利用相應(yīng)的橋接模板的混合物將一群不同的靶 DNA加以轉(zhuǎn)化。
[0112] 在一些實(shí)施方式中,可以基于特定特征(諸如期望數(shù)量或類型的銜接物)來(lái)分離 成群核酸模板的的亞組??梢岳贸R?guī)技術(shù)(例如常規(guī)的離心柱(spincolumn)等)對(duì)此 群進(jìn)行分離或處理(例如,選擇的尺寸),以形成成群的核酸模板,可以利用例如RCR的技術(shù) 從該核酸模板形成成群的多聯(lián)體。
[0113] 本發(fā)明的用于形成DNB的方法描述于公布的專利申請(qǐng)W02007120208、 恥2006073504、102007133831、和舊2007099208,和美國(guó)專利申請(qǐng) 60/992,485; 61/026,337 ;61/035,914 ;61/061, 134 ;61/116, 193 ;61/102,586 ; 12/265,593 ; 12/266, 385 ; 11/938, 096 ; 11/981, 804 ;11/981, 797 ;11/981, 793 ;11/981, 767 ; 11/981, 761 ;2007 年 10 月 31 日提交的 11/981, 730 ;11/981, 685 ;11/981, 661 ; 11/981, 607 ; 11/981, 605 ;11/927, 388 ;11/927, 356 ;11/679, 124 ; 11/541,225 ; 10/547,214 ;11/451,692 ;和11/451,691,以上所有專利的全部?jī)?nèi)容以參考的方式并入本 文中用于所有目的,尤其是用于與形成DNB相關(guān)的所有教導(dǎo)。 制作DNB的陣列
[0114] 在一個(gè)方面,將本發(fā)明的DNB布置在表面上,以形成單分子的隨機(jī)陣列。可以利用 多種技術(shù)(包括共價(jià)鍵連接和非共價(jià)鍵連接)將DNB固定到表面。在一個(gè)實(shí)施方式中,表面 可包含與多核苷酸分子的組件(諸如銜接物寡核苷酸)形成復(fù)合物(例如雙鏈的雙鏈體) 的捕獲性探針。在其它實(shí)施方式中,捕獲性探針可包含與銜接物形成三聚體的寡核苷酸夾 板或類似結(jié)構(gòu),正如Gryaznov等人的美國(guó)專利5, 473, 060中所描述的,該專利的全部?jī)?nèi)容 并入本文中。
[0115] 本發(fā)明的用于形成DNB的陣列的方法描述于公布的專利申請(qǐng)W02007120208、 W02006073504、W02007133831 和US2007099208,和美國(guó)專利申請(qǐng) 60/992, 485 ;61/026, 337 ; 61/035, 914 ;61/061, 134 ;61/116, 193 ;61/102, 586 ;12/265, 593 ;12/266, 385 ; 11/938, 096 ; 11/981, 804 ;11/981, 797 ;11/981, 793 ; 11/981,767 ; 11/981,761 ; 11/981, 730 ; 11/981, 685 ; 11/981, 661 ; 11/981, 607 ; 11/981, 605 ; 11/927, 388 ; 11/927, 356 ;11/679, 124 ;11/541,225 ;10/547, 214 ;11/451,692 ;和 11/451,691 中,以上 所有專利文件的全部?jī)?nèi)容以參考的方式并入本文中用于所有目的,尤其是用于與DNB的陣 列形成有關(guān)的所有教導(dǎo)。
[0116] 在一些實(shí)施方式中,將具有二維點(diǎn)陣列的圖案化基質(zhì)用于形成DNB的陣列。將這 些點(diǎn)活化以捕獲并保持DNB,同時(shí)DNB不停留在各點(diǎn)之間的區(qū)域中。一般來(lái)說(shuō),點(diǎn)上的DNB將 排斥其它DNB,從而形成每個(gè)點(diǎn)一個(gè)DNB。因?yàn)镈NB是三維的(即,不是DNA的線形短片), 所以本發(fā)明的陣列比傳統(tǒng)的DNA陣列獲得更多的每平方納米結(jié)合表面的DNA拷貝。此三維 質(zhì)量進(jìn)一步減小所需測(cè)序試劑的量,從而形成更亮的點(diǎn)和更高效率的成像。DNB陣列的占用 率通常超過(guò)90%,但也可以在50%至100%的范圍內(nèi)。
[0117] 在其它實(shí)施方式中,利用標(biāo)準(zhǔn)硅處理技術(shù)形成圖案化表面。這種圖案化的陣列獲 得比未圖案化陣列更高密度的DNB,從而獲得每堿基閱讀中較少的像素、更快的處理、和提 高的試劑使用效率。在其它實(shí)施方式中,圖案化基質(zhì)是25mmX75mm(r'X3")的標(biāo)準(zhǔn)顯微 鏡用載玻片,各自具有容納大約10億個(gè)可以結(jié)合DNB的單獨(dú)點(diǎn)的容量。正如將理解的,本 發(fā)明也涵蓋具有甚至較高密度的載玻片。因?yàn)樵谶@些實(shí)施方式中將DNB布置在表面上然后 粘附到活化點(diǎn),所以高密度DNB陣列基本上是從溶液中的DNB"自我裝配",從而消除了制作 傳統(tǒng)圖案化寡核苷酸或DNA陣列的最昂貴的方面中的一個(gè)方面。
[0118] 在一些實(shí)施方式中,表面可具有與多核苷酸分子上的互補(bǔ)官能團(tuán)發(fā)生反應(yīng)以 形成共價(jià)鍵的反應(yīng)性官能團(tuán),例如利用用于將cDNAs連接到微陣列的相同技術(shù),例如 Smirnov等人(2004),基因、染色體和癌癥(Genes,Chromosomes&Cancer),40:72-77 ; Beaucage(2001),CurrentMedicinalChemistry,8 :1213-1244,這些參考文獻(xiàn)的內(nèi)容以參 考的方式并入本文中。DNB也可高效率地連接到疏水性表面,例如具有低濃度的各種反應(yīng)性 官能團(tuán)(諸如0H基)的清潔玻璃表面。通過(guò)在多核苷酸分子與表面上反應(yīng)性官能團(tuán)之間 所形成共價(jià)鍵而實(shí)現(xiàn)的連接,在本文中也被稱為"化學(xué)連接(chemicalattachment)"。
[0119] 在其它實(shí)施方式中,多核苷酸分子可以吸附到表面。在這種實(shí)施方式中,通過(guò)與表 面的非特異性相互作用、或者通過(guò)非共價(jià)鍵相互作用(諸如氫鍵、范德華力等)將多核苷酸 分子加以固定。
[0120] 連接也可包括不同嚴(yán)格度的清洗步驟,該清洗步驟是用于除去不完全連接的單分 子或者從較早制備步驟中存在或者非特異性地結(jié)合到表面的其它試劑,這些試劑的存在是 不受歡迎的。
[0121] 在一個(gè)方面,表面上的DNB被局限在散在區(qū)的區(qū)域??衫帽绢I(lǐng)域已知的和本文 中進(jìn)一步描述的方法將散在區(qū)結(jié)合入表面。在示例性實(shí)施方式中,散在區(qū)含有可以用于將 多核苷酸分子固定的反應(yīng)性官能團(tuán)或者捕獲性探針。
[0122] 散在區(qū)可具有呈規(guī)則陣列的規(guī)定位置,這些位置可對(duì)應(yīng)于直線圖案、六邊形圖案 等。這種區(qū)域的規(guī)則陣列對(duì)于在分析期間從陣列中所采集信號(hào)的檢測(cè)和數(shù)據(jù)分析是有利 的。另外,被局限在散在區(qū)的受限制區(qū)域的第一和/或第二階段擴(kuò)增子提供更集中或更強(qiáng) 的信號(hào),尤其是將熒光探針用于分析操作時(shí),由此提供較高的信噪比值。在一些實(shí)施方式 中,將DNB隨機(jī)地分布在散在區(qū)上,使得給定區(qū)域同樣有可能接收任何的不同的單個(gè)分子。 換句話說(shuō),在制造時(shí)所形成陣列是不能立即空間尋址的,但可以通過(guò)執(zhí)行鑒定、測(cè)序和/或 解碼操作而尋址。因此,布置在表面上的本發(fā)明多核苷酸分子的特性(identity)是可辨別 的,但在最初將它們布置在表面上時(shí)是未知的。在一些實(shí)施方式中,對(duì)散在區(qū)域進(jìn)行選擇, 連同連接的化學(xué)鍵、所使用的大分子結(jié)構(gòu)等,以便對(duì)應(yīng)于本發(fā)明的單分子的尺寸,從而當(dāng)把 單分子施加到表面上時(shí)基本上每個(gè)區(qū)被不多于1個(gè)的單個(gè)分子所占據(jù)。在一些實(shí)施方式 中,以圖案化方式將DNB布置在包含散在區(qū)的表面上,以便將特定的DNB(在一個(gè)示例性實(shí) 施方式中,利用標(biāo)記銜接物或其它標(biāo)記加以鑒定)布置在特定的散在區(qū)或者成組的散在區(qū) 上。
[0123] 在一些實(shí)施方式中,散在區(qū)的面積小于1 ym2;在一些實(shí)施方式中,散在區(qū)的面積 是在0.04ym2至lym2的范圍內(nèi);在一些實(shí)施方式中,散在區(qū)的面積是在0.2ym2至lym2 的范圍內(nèi)。在其中散在區(qū)的形狀大致是圓形或正方形以便可以用單線形尺寸來(lái)表示它們的 尺寸的實(shí)施方式中,這種區(qū)域的尺寸是在125nm至250nm的范圍內(nèi)、或者在200nm至500nm 的范圍內(nèi)。在一些實(shí)施方式中,最近的相鄰散在區(qū)的中心-中心距離是在0. 25ym至20ym 的范圍內(nèi);在一些實(shí)施方式中,這種距離是在1Um至10ym的范圍內(nèi)、或者在50至lOOOnm 的范圍內(nèi)。通常,散在區(qū)被設(shè)計(jì)成使得表面上的大部分散在區(qū)是可光學(xué)分解的。在一些實(shí) 施方式中,可以將區(qū)域布置在表面上,實(shí)際上該表面上各區(qū)的任何圖案具有規(guī)定的位置。
[0124] 在其它實(shí)施方式中,將分子引導(dǎo)至表面的散在區(qū),因?yàn)樵谏⒃趨^(qū)之間的區(qū)域(在 本文中被稱為"區(qū)間區(qū)域")是惰性的,所以在某種程度上多聯(lián)體或其它大分子結(jié)構(gòu)并不結(jié) 合到這種區(qū)域。在一些實(shí)施方式中,可以用封閉劑(例如與多聯(lián)體DNA無(wú)關(guān)的DNAs、其它聚 合物等)對(duì)這種區(qū)間區(qū)域進(jìn)行處理。
[0125] 本發(fā)明組合物和方法可以使用種類廣泛的基質(zhì)來(lái)形成隨機(jī)陣列。在一個(gè)方面,基 質(zhì)是具有表面的剛性固體,優(yōu)選地基本上是平面型的表面,因此被詢問(wèn)的單個(gè)分子是在同 一平面中的。例如,后者的特征允許通過(guò)檢測(cè)光學(xué)信號(hào)而高效率地采集信號(hào)。在另一個(gè)方 面,基質(zhì)包含磁珠,其中磁珠的表面包含可以用于固定多核苷酸分子的反應(yīng)性官能團(tuán)或捕 獲性探針。
[0126] 在另一個(gè)方面,本發(fā)明的固體基質(zhì)是無(wú)孔的,尤其是當(dāng)利用要求小體積的雜交反 應(yīng)對(duì)單分子的隨機(jī)陣列進(jìn)行分析時(shí)。合適的固體基質(zhì)材料包括諸如玻璃、涂覆聚丙烯酰胺 的玻璃、陶瓷、二氧化硅、硅、石英、各種塑料等材料。在一個(gè)方面,平坦表面的面積可以在 0. 5至4cm2的范圍內(nèi)。在一個(gè)方面,固體基質(zhì)是玻璃或石英,例如具有被均勻地硅烷化的 表面的顯微鏡用載玻片。這可以利用常規(guī)方案而完成,例如進(jìn)行酸處理接著在80°C下浸 泡于3-環(huán)氧丙氧基丙基三甲氧基硅烷、N,N-二異丙基胺、和無(wú)水二甲苯(8:1:24v/v)的 溶液中,由此形成環(huán)氧娃燒化表面,例如Beattie等人(1995),分子生物技術(shù)(Molecular Biotechnology),4:213。可容易地對(duì)這種表面進(jìn)行處理以便實(shí)現(xiàn)捕獲性寡核苷酸的末端連 接,例如通過(guò)在涂覆到表面之前提供具有3'或5'三乙二醇磷?;g隔物的捕獲性寡核苷 酸(參見(jiàn)Beattie等人,上述)。用于官能化和進(jìn)一步制備用于本發(fā)明的表面的其它實(shí)施方 式描述于例如美國(guó)專利申請(qǐng)序列Nos. 60/992, 485 ;61/026, 337 ;61/035, 914 ;61/061,134 ; 61/116, 193 ;61/102, 586 ; 12/265, 593 ;12/266, 385 ;11/938, 096 ; 11/981,804 ; 11/981,797 ; 11/981,793 ; 11/981,767 ; 11/981,761 ; 11/981,730 ; 11/981,685 ; 11/981, 661 ; 11/981, 607 ; 11/981, 605 ;11/927, 388 ;11/927, 356 ;11/679, 124 ; 11/541,225 ;10/547, 214 ;11/451,692 ;和11/451,691中,以上各專利文件的全部?jī)?nèi)容以參 考的方式并入本文用于所有目的,尤其是用于與用于形成陣列的表面的制備相關(guān)的所有教 導(dǎo)以及與陣列尤其是與DNB的陣列的形成相關(guān)的所有教導(dǎo)。
[0127] 在其中需要散在區(qū)的圖案的本發(fā)明實(shí)施方式中,可以利用光刻、電子束光刻、納 米壓印光刻、和納米印刷以在種類廣泛的表面上生成這種圖案,例如Pirrung等人的美國(guó) 專利5,143,854 丨〇(1〇1'等人的美國(guó)專利 5,774,305;611〇(2004)了〇111'仙1(^?1^81。8 0: AppliedPhysics,37 :R123-141 ;這些文獻(xiàn)的內(nèi)容以參考的方式并入本文中。
[0128] 正如將理解的,可以將本發(fā)明的大范圍密度的DNB和/或核酸模板放置在包含散 在區(qū)的表面上,以形成陣列。在一些實(shí)施方式中,各散在區(qū)可包含大約1至大約1000個(gè)分 子。在其它實(shí)施方式中,各散在區(qū)域可包含大約10至大約900、大約20至大約800、大約30 至大約700、大約40至大約600、大約50至大約500、大約60至大約400、大約70至大約 300、大約80至大約200、和大約90至大約100個(gè)分子。
[0129] 在一些實(shí)施方式中,以每平方毫米至少0.5、1、2、3、4、5、6、7、8、9或10百萬(wàn)個(gè)分子 的密度提供核酸模板和/或DNB的陣列。 伸用DNB的方法
[0130] 根據(jù)上述方法制作的DNB提供鑒定靶核酸中的序列的優(yōu)點(diǎn),因?yàn)榘贒NB中的 銜接物提供已知序列的點(diǎn),這些點(diǎn)允許當(dāng)與使用錨定和測(cè)序探針的方法結(jié)合時(shí)確定空間方 向和序列。另外,因?yàn)榘行蛄械亩鄠€(gè)拷貝存在于單個(gè)DNB中,所以DNB避免了依賴于由單分 子測(cè)序系統(tǒng)所采用的單熒光團(tuán)測(cè)量的成本和問(wèn)題。
[0131] 根據(jù)本發(fā)明的使用DNB的方法包括對(duì)靶核酸中的特定序列進(jìn)行測(cè)序和檢測(cè)(例 如,對(duì)特定靶序列(例如特定的基因)進(jìn)行檢測(cè)、和/或?qū)NPs進(jìn)行鑒定和/或檢測(cè))。本 文中描述的方法也可以用于檢測(cè)核酸重排和拷貝數(shù)量變異。也可以利用本文中描述的方法 來(lái)完成核酸定量,例如數(shù)字基因表達(dá)(即,對(duì)整個(gè)轉(zhuǎn)錄組(存在于樣品中的全部mRNA)的分 析)和對(duì)樣品中的特定序列或各組序列的數(shù)量的檢測(cè)。盡管大部分的本文中論述涉及對(duì) DNB的序列的鑒定,但應(yīng)當(dāng)理解的是本文中所描述的實(shí)施方式中也可使用包含銜接物的其 它非多聯(lián)體核酸構(gòu)建體。 cPAL測(cè)序的概沭
[0132] 根據(jù)本發(fā)明的對(duì)DNB序列的鑒定,通常是利用在本文中被稱為組合探針-錨定連 接("cPAL")及其變體的方法,如下所述。簡(jiǎn)言之,cPAL包括通過(guò)檢測(cè)由至少一個(gè)錨定和 測(cè)序探針的連接所形成的連接產(chǎn)物而鑒定在靶核酸中特定檢測(cè)位置的核苷酸,所述至少一 個(gè)錨定雜交到所有或部分的銜接物,所述測(cè)序探針含有在對(duì)應(yīng)于(例如將雜交到)檢測(cè)位 置的"詢問(wèn)位置"的特定核苷酸。測(cè)序探針含有唯一的鑒定標(biāo)記。如果在詢問(wèn)位置的核苷酸 與在檢測(cè)位置的核苷酸是互補(bǔ)的,那么連接可以發(fā)生,從而形成含有唯一標(biāo)記的連接產(chǎn)物, 然后對(duì)該唯一標(biāo)記進(jìn)行檢測(cè)。下面提供對(duì)cPAL方法的不同示例性實(shí)施方式的描述。應(yīng)當(dāng) 理解的是,下面的描述并非意圖是限制性的,以下實(shí)施方式的變體也包含在本發(fā)明中。
[0133] 本發(fā)明的cPAL方法具有采用本領(lǐng)域中已知雜交方法進(jìn)行測(cè)序的許多優(yōu)點(diǎn),包括 DNA陣列并行性、獨(dú)立和非迭代的堿基閱讀、和每次反應(yīng)閱讀多個(gè)堿基的能力。另外,cPAL 解決了通過(guò)雜交進(jìn)行測(cè)序方法的兩個(gè)限制:不能閱讀簡(jiǎn)單的重復(fù),和需要密集的計(jì)算。
[0134] "互補(bǔ)的"或者"大致互補(bǔ)的"是指在核苷酸或核酸之間雜交或堿基配或者雙鏈的 形成,例如在雙鏈DNA分子的兩條鏈之間、或者在寡核苷酸引物與單鏈核酸上的引物結(jié)合 位點(diǎn)之間。互補(bǔ)的核苷酸通常是A和T(或A和U)、或者C和G。據(jù)說(shuō),當(dāng)核苷酸的一個(gè)鏈 (最佳地對(duì)準(zhǔn)并且與適當(dāng)?shù)暮塑账岵迦牖蛉笔П容^時(shí))與其它鏈中的至少大約80%配對(duì) (通常為至少大約90 %至大約95 %、甚至大約98 %至大約100% )時(shí),兩個(gè)單鏈RNA或DNA 分子是基本上互補(bǔ)的。
[0135] 本文中使用的"雜交"是指其中兩個(gè)單鏈多核苷酸以非共價(jià)鍵形式結(jié)合而形成穩(wěn) 定的雙鏈多核苷酸的步驟。所形成的(通常)雙鏈多核苷酸是"雜交的"或"雙鏈的"。"雜 交條件"通常將包括小于大約1M、更通常小于大約500mM并且可以是小于大約200mM的鹽 濃度。"雜交緩沖液"是緩沖的鹽溶液諸如5%SSPE、或者本領(lǐng)域中已知的其它的這種緩沖 液。雜交溫度可以低至5°C,但通常高于22°C、更通常高于約30°C、通常超過(guò)37°C。雜交通 常是在嚴(yán)格條件下實(shí)施的,即,在探針會(huì)雜交到其靶亞序列但不雜交到其它不互補(bǔ)序列的 條件下。嚴(yán)格的條件是序列依賴性的并且在不同的情況下是不同的。例如,與短片段相比, 較長(zhǎng)的片段會(huì)需要較高的針對(duì)特定雜交的雜交溫度。由于其它因素會(huì)影響雜交的嚴(yán)格度, 包括堿基組成和互補(bǔ)鏈的長(zhǎng)度、有機(jī)溶劑的存在、和堿基錯(cuò)配的程度,因此參數(shù)的組合比任 何一個(gè)單獨(dú)的參數(shù)的絕對(duì)測(cè)量更重要。通常將嚴(yán)格的條件選擇成在規(guī)定的離子強(qiáng)度和pH 下比用于特定序列的Tm低大約5°C。示例性的嚴(yán)格條件包括在大約7. 0至大約8. 3的pH 值和至少25°C的溫度下至少0. 01M至不大于1M鈉離子濃度(或其它鹽)的鹽濃度。例如, 5XSSPE(750mMNaCl、50mM磷酸鈉、5mMEDTA(pH= 7.4))和30°C溫度的條件適合于等位基 因特異性探針雜交。嚴(yán)格條件的其它例子在本領(lǐng)域中是眾所周知的,參見(jiàn)例如SambrookJ 等人(2001),分子克隆,實(shí)驗(yàn)室手冊(cè)(第三版,ColdSpringHarborLaboratory出版社)。
[0136] 本文中使用的術(shù)語(yǔ)"Tm"通常是指有一半群的雙鏈核酸分子變?yōu)榉蛛x成單鏈的溫 度。用于計(jì)算核酸的Tm的方程式在本領(lǐng)域是眾所周知的。如標(biāo)準(zhǔn)參考文獻(xiàn)中所指出的, 可利用方程式計(jì)算!"值的簡(jiǎn)單估計(jì)值:Tm= 81. 5+16. 6(loglO[Na+]) 0? 41 (% [G+C])-675/ n-1. 0m;當(dāng)核酸是在具有0. 5M以下陽(yáng)離子濃度的水溶液中時(shí),(G+C)含量是在30%和70% 之間,n為堿基的數(shù)量,m是堿基對(duì)錯(cuò)配的百分比(參見(jiàn)例如,SambrookJ等人(2001),分 子克隆,實(shí)驗(yàn)室手冊(cè)(MolecularCloning,ALaboratoryManual)(第三版,ColdSpring HarborLaboratory出版社)。其它參考文獻(xiàn)包括更復(fù)雜的計(jì)算,這些計(jì)算將結(jié)構(gòu)以及序列 特性考慮入^的計(jì)算中(也參見(jiàn)Anderson和Young(1985),定量過(guò)濾雜交(Quantitative FilterHybridization),NucleicAcidHybridization,及Allawi和SantaLucia(1997), 生物化學(xué)(Biochemistry) 36 :10581-94)。
[0137] 在cPAL方法的一個(gè)實(shí)例中,在本文中被稱為"單cPAL",如圖1中所示,錨定2302 雜交到在DNB2301的銜接物2308上的互補(bǔ)區(qū)域。錨定2302雜交到與靶核酸2309緊鄰的 銜接物區(qū),但在一些情況下,錨定可以被設(shè)計(jì)成通過(guò)在錨定的末端引入期望數(shù)量的簡(jiǎn)并堿 基而"進(jìn)入"靶核酸,如圖2中的示意性說(shuō)明和下面進(jìn)一步所描述的。區(qū)別標(biāo)記的測(cè)序探針 2305的庫(kù)將雜交到靶核酸的互補(bǔ)區(qū)域,并且將與錨定相鄰雜交的測(cè)序探針連接到錨定以形 成探針連接產(chǎn)物,通常通過(guò)使用連接酶。測(cè)序探針通常是成組或成庫(kù)的包含兩個(gè)部分(在 詢問(wèn)位置的不同的核苷酸,以及在其它位置的所有可能堿基(或者通用的堿基))的寡核苷 酸;因此,各探針代表在特別映射置的各堿基類型。用可檢測(cè)標(biāo)記物對(duì)測(cè)序探針進(jìn)行標(biāo)記, 將各測(cè)序探針與在該位置具有其它核苷酸的測(cè)序探針區(qū)分。因此,在圖1中所示的實(shí)例中, 與錨定2302相鄰雜交并且連接到錨定的測(cè)序探針2310將使在靶核酸中距離銜接物5個(gè)堿 基的位置的堿基鑒定為"G"。圖1示出了其中詢問(wèn)堿基是距離連接位點(diǎn)5個(gè)堿基的情況,但 正如下面更完全的描述的,詢問(wèn)堿基也可以"更接近"連接位點(diǎn),并且在一些情況下在連接 的點(diǎn)處。一旦被連接,將未連接的錨定和測(cè)序探針清洗掉,利用標(biāo)記物檢測(cè)連接產(chǎn)物是否存 在于陣列上。錨定和測(cè)序探針雜交和連接的多次循環(huán)可以用于在DNB中鑒定期望數(shù)量的在 各銜接物各側(cè)的靶核酸的堿基。錨定與測(cè)序探針的雜交可順序地或者同時(shí)地發(fā)生。堿基識(shí) 別的保真度部分地依賴于連接酶的保真度,如果存在接近連接位點(diǎn)的錯(cuò)配該連接酶通常將 不連接。
[0138] 本發(fā)明還提供其中在每個(gè)雜交-連接循環(huán)中使用2個(gè)或2個(gè)以上錨定的方法。圖 3示出了"具有突出端的雙cPAL"方法的另一個(gè)實(shí)例,其中第一錨定2502和第二錨定2505 各自雜交到銜接物的互補(bǔ)區(qū)域。在圖3中所示的實(shí)例中,第一錨定2502與銜接物2511的 第一區(qū)是完全互補(bǔ)的,第二錨定2505與和第一錨定的雜交位置相鄰的第二銜接物區(qū)是互 補(bǔ)的。第二錨定還包含在不與第一錨定相鄰的末端的簡(jiǎn)并堿基。因此,第二錨定能夠雜交 到靶核酸2512與銜接物2511相鄰的區(qū)域("突出端"部分)。第二錨定通常是太短難以單 獨(dú)維持在其雙鏈雜交狀態(tài),但當(dāng)連接到第一錨定時(shí)它形成較長(zhǎng)的錨定,該錨定穩(wěn)定地雜交 用以后繼的方法。如上所述,就"單cPAL"方法而言,將測(cè)序探針2508的庫(kù)雜交2509到銜 接物-錨定雙鏈并且連接到錨定的末端5'或3'堿基,測(cè)序探針2508的庫(kù)代表在靶核酸的 檢測(cè)位置的各堿基型并且用可檢測(cè)標(biāo)記物進(jìn)行標(biāo)記,該可檢測(cè)標(biāo)記物將各測(cè)序探針與在該 位置具有其它核苷酸的測(cè)序探針加以區(qū)分。在圖3中所示的實(shí)例中,測(cè)序探針被設(shè)計(jì)成對(duì) 在測(cè)序探針2514和連接的錨定2513之間的連接點(diǎn)的5個(gè)位置5'的堿基進(jìn)行詢問(wèn)。因?yàn)?第二(或"延伸")錨定2505具有在其5'端的5個(gè)簡(jiǎn)并堿基,所以它使5個(gè)堿基進(jìn)入靶核 酸2512,從而允許在距離靶核酸2512與銜接物2511之間的界面的完整1個(gè)堿基處用測(cè)序 探針進(jìn)行詢問(wèn)。
[0139] 在雙cPAL方法中,將利用單個(gè)錨定(即,沒(méi)有一個(gè)或多個(gè)延伸錨定)進(jìn)行測(cè)序的 與銜接物緊鄰的堿基稱為"內(nèi)部位置"。利用錨定和延伸錨定兩者對(duì)進(jìn)一步距離"內(nèi)部位 置"5個(gè)堿基(被稱為"外部位置"或"外部5個(gè)")的堿基進(jìn)行測(cè)序。2、3或更多的延伸錨 定可以用于對(duì)進(jìn)一步與銜接物相鄰的序列進(jìn)行測(cè)序。延伸錨定通常是完全簡(jiǎn)并的(并且雜 交到與銜接物相鄰的靶序列中的未知序列);由于該原因,可將它們稱為"簡(jiǎn)并錨定"。因 此,根據(jù)一個(gè)實(shí)施方式,"延伸錨定"實(shí)際上是成庫(kù)的規(guī)定長(zhǎng)度的隨機(jī)低聚物。
[0140] 在雙cPAL方法的上述實(shí)例的變形中,如果第一錨定在更接近銜接物的末端終止, 那么簡(jiǎn)并錨定將成比例地更加簡(jiǎn)并,因此將具有更大的可能性不僅連接到第一錨定的末端 而且連接到在DNB上的多個(gè)位點(diǎn)的其它簡(jiǎn)并錨定。為防止這種連接假象,可以選擇性地活 化簡(jiǎn)并錨定以便參與連接到第一錨定或者連接到測(cè)序探針。下面更詳細(xì)地描述這種活化方 法,并且包括方法,諸如選擇性地修飾錨定的末端使得它們能夠在相對(duì)于銜接物的特定方 向上只連接到特定錨定或測(cè)序探針。
[0141] 類似于上述雙cPAL方法,應(yīng)當(dāng)理解的是使用3個(gè)或3個(gè)以上錨定(即,1個(gè)第一錨 定和2個(gè)或2個(gè)以上的簡(jiǎn)并錨定)的cPAL方法也包含在本發(fā)明中。
[0142] 另外,可以在各銜接物的一個(gè)或兩個(gè)末端執(zhí)行測(cè)序反應(yīng),例如,測(cè)序反應(yīng)可以是 "未定向的"并且檢測(cè)發(fā)生在銜接物的3'或5'或其它位置,或者反應(yīng)可以是"雙向的",其 中在銜接物的檢測(cè)位置3'和5'對(duì)堿基進(jìn)行檢測(cè)。雙向測(cè)序反應(yīng)可以同時(shí)地發(fā)生,S卩,在相 同時(shí)間或者順序地以任意順序?qū)υ阢暯游飪蓚?cè)上的堿基進(jìn)行檢測(cè)。
[0143] cPAL(不論單、雙、三等)的多次循環(huán)將鑒定在與銜接物相鄰的靶核酸的區(qū)域中的 多個(gè)堿基。簡(jiǎn)言之,重復(fù)cPAL方法,以便通過(guò)使用被設(shè)計(jì)成檢測(cè)在從銜接物與靶核酸之間 的界面除去的不同位置的核苷酸的測(cè)序探針庫(kù)循環(huán)執(zhí)行錨定雜交和酶連接反應(yīng)而詢問(wèn)靶 核酸組合物中的多個(gè)相鄰的堿基。在任何給定的循環(huán)中,所使用的測(cè)序探針被設(shè)計(jì)成使得 一個(gè)或多個(gè)位置的一個(gè)或多個(gè)堿基的特性與連接到測(cè)序探針的標(biāo)記的特性相關(guān)。一旦連接 的測(cè)序探針(因此在詢問(wèn)位置的堿基)被檢測(cè),則將連接的復(fù)合物從DNB除去并且執(zhí)行銜 接物與測(cè)序探針雜交和連接的新循環(huán)。
[0144] 正如將理解的,本發(fā)明的DNB可以用于除上述cPAL方法以外的其它測(cè)序方法,包 括其它利用連接的測(cè)序方法以及其它測(cè)序方法,包括但不限于利用雜交的測(cè)序、利用合成 的測(cè)序(包括通過(guò)引物延伸進(jìn)行測(cè)序)、通過(guò)可切斷探針的連接的鏈接測(cè)序,等。
[0145] 類似于上述用于測(cè)序方法的方法也可以用于檢測(cè)靶核酸中的特定序列,包括單核 苷酸多態(tài)性(SNPs)的檢測(cè)。在這種方法中,將使用雜交到特定序列(例如含有SNP的序 列)的測(cè)序探針。這種測(cè)序探針可以區(qū)別地標(biāo)記以便鑒定哪個(gè)SNP存在于靶核酸中。錨定 也可以結(jié)合這種測(cè)序探針而使用,以提供進(jìn)一步的穩(wěn)定性和特異性。 將DNB加載到流動(dòng)載玻片上以及加載后處理
[0146] 根據(jù)一個(gè)實(shí)施方式,將DNB制品加載入流動(dòng)載玻片,如Drmanac等人,Science 327:78-81,2010中的描述。簡(jiǎn)略地,通過(guò)將DNB移液到載玻片上而加載載玻片。例如,可 以將比結(jié)合位點(diǎn)多2至3倍的DNB移液到載玻片上。在封閉室中將加載的載玻片在23°C下 保溫培養(yǎng)2小時(shí),沖洗到中性pH值,除去未結(jié)合的DNB。
[0147] 根據(jù)另一個(gè)實(shí)施方式,在將這種核酸分子加載到核酸陣列上之后,通過(guò)布置后處 理而使核酸分子在生物化學(xué)分析(包括但不限于核酸測(cè)序)期間對(duì)化學(xué)和物理降解是穩(wěn)定 的。
[0148] 為了使布置的DNB在測(cè)序步驟期間對(duì)化學(xué)和物理降解是穩(wěn)定的,可以在接觸陣列 和連接到(即,加載到)陣列之前對(duì)DNB進(jìn)行處理。根據(jù)一個(gè)實(shí)施方式,將DNB用一層部分 變性蛋白涂覆以提高DNB陣列的穩(wěn)定性,這相應(yīng)地提高從cPAL測(cè)序反應(yīng)(下述)獲得信號(hào) 的強(qiáng)度和特異性。各種蛋白質(zhì),包括但不限于血清白蛋白諸如牛血清白蛋白(BSA)和人血 清白蛋白,具有有助于檢測(cè)中的保護(hù)作用和非干擾的性能,因此它們不與核酸發(fā)生強(qiáng)相互 作用而是不可逆地結(jié)合到陣列結(jié)合基質(zhì)。這些性能取決于穩(wěn)定涂層分子的一些理化性質(zhì), 包括帶電性能(例如等電點(diǎn))、分子量、與核酸非反應(yīng)性和不能插入核酸。如果沒(méi)有此涂層, 那么在cPAL測(cè)序步驟期間,在少于30次的探針循環(huán)中探針DNB信號(hào)強(qiáng)度的質(zhì)量和特異性 會(huì)完全地降低。在具有此涂層的情況下,我們已使用DNB陣列達(dá)多于100次的循環(huán)并且通 常在70次循環(huán)中看到很少的降解或者沒(méi)有降解。
[0149] 已觀察到,如果在初始加載后直接地暴露于涂覆步驟,則陣列的單獨(dú)DNB經(jīng)歷某 種程度的在表面上的鋪展。在涂覆之前吹洗步驟和后繼的導(dǎo)致DNB縮合的清洗步驟的加 入,減小鋪展的量和相鄰核酸分子之間的物理相互作用(例如,DNB的攙和),由此提高生物 化學(xué)分析(例如探測(cè)DNB或執(zhí)行測(cè)序反應(yīng))中所生成數(shù)據(jù)的質(zhì)量。因此,根據(jù)一個(gè)實(shí)施方 式,將核酸分子涂覆一層部分變性蛋白質(zhì)以提高核酸分子陣列的穩(wěn)定性,這相應(yīng)地提高生 物化學(xué)分析(例如包含熒光染料的測(cè)序反應(yīng))中所產(chǎn)生信號(hào)的強(qiáng)度和特異性。
[0150] 盡管從以DNB形式的基因組DNA的測(cè)序的方面進(jìn)行描述,但根據(jù)本發(fā)明的加載后 處理也可用于提高穩(wěn)定性并且降低一系列生物分子的鋪展,這些生物分子包括但不限于連 接到或結(jié)合到用于大范圍生物化學(xué)反應(yīng)的任意類型的固體載體的核酸(單鏈和雙鏈DNA、 RNA等),所述生物化學(xué)反應(yīng)包括例如核酸雜交、酶反應(yīng)(例如,使用核酸內(nèi)切酶[包括限制 性核酸內(nèi)切酶]、核酸外切酶、激酶、磷酸酶、連接酶等)、核酸合成、核酸擴(kuò)增(例如,通過(guò)聚 合酶鏈反應(yīng)、滾環(huán)復(fù)制、全基因組擴(kuò)增、多重置換擴(kuò)增等)、和本領(lǐng)域中已知的任何其它形式 的生物化學(xué)分析。 錨宙前清洗
[0151]已發(fā)現(xiàn)某些試劑可以提高測(cè)序過(guò)程中的數(shù)據(jù)質(zhì)量。具體地,根據(jù)一個(gè)實(shí)施方式,在 將核酸連接到固體基質(zhì)的表面之后(包括但不限于,如本文中描述的DNB陣列)和在各循 環(huán)中或者在隨后的循環(huán)中實(shí)施測(cè)序反應(yīng)之前,或者在測(cè)序循環(huán)中的任何其它時(shí)間使用"錨 定前清洗液",這是包含有效量的弱酸或稀釋酸或陽(yáng)離子表面活性劑的水洗溶液。可以將在 后繼的測(cè)序步驟中改善這種指標(biāo)且不干擾酶反應(yīng)的任何物質(zhì)使用于錨定前清洗液。這種錨 定前清洗改善不一致性、可映射率和核酸測(cè)序反應(yīng)的其它指標(biāo)。盡管在本文中被稱為"錨定 前清洗",但此清洗步驟可發(fā)生在測(cè)序循環(huán)的任何階段,包括但不限于在除去試劑之后、在 錨定雜交或連接之后、在激酶前清洗之后、或者在激酶步驟之后。
[0152]對(duì)各種處理液進(jìn)行測(cè)試以便減小從經(jīng)過(guò)70次循環(huán)的cPAL測(cè)序反應(yīng)中所獲得數(shù)據(jù) 質(zhì)量的下降,該數(shù)據(jù)是大約在循環(huán)30至40次時(shí)開始觀察的。在標(biāo)準(zhǔn)測(cè)序方案中,在內(nèi)部位 置之后對(duì)內(nèi)部位置進(jìn)行測(cè)序。本文中使用的術(shù)語(yǔ)"雙cPAL"、術(shù)語(yǔ)"內(nèi)部位置"是指與銜接 物緊鄰的5個(gè)堿基;因此,可以利用錨定和探針對(duì)內(nèi)部位置進(jìn)行測(cè)序。術(shù)語(yǔ)"外部位置"是 指可以利用錨定、簡(jiǎn)并錨定(允許實(shí)施更遠(yuǎn)離銜接物的測(cè)序)和探針進(jìn)行測(cè)序的后5個(gè)堿 基。
[0153]陽(yáng)離子表面活性劑包括但不限于:苯扎氯按、節(jié)索氯按、Bronidox(5_溴-5-硝 基-1,3-二氧雜環(huán)己烷)、溴化十六烷基三甲銨(CTAB)、十六烷基三甲基氯化銨、二甲 基雙十八燒基氯化按、月桂基甲基葡糖醇聚醚輕丙基二甲基氯化按(Laurylmethyl gluceth-lOhydroxypropyldimoniumchloride)、和四甲基氫氧化按。
[0154] 弱酸包括但不限于檸檬酸〇(3=1.7\10,、硝酸〇(3=4.6\10,、氫氟酸〇( 3 = 3.5\10_4)、甲酸〇^=1.8\10_4)、苯甲酸〇^=6.5\10_ 5)、醋酸〇^=1.8\10_5)等。檸 檬酸已證明在采用cPAL測(cè)序方法進(jìn)行測(cè)序經(jīng)過(guò)全部70次循環(huán)中有效地提高數(shù)據(jù)質(zhì)量,雖 然酸性條件可以導(dǎo)致DNA模板的脫嘌呤作用(使用0. 25N鹽酸的部分脫嘌呤作用通常被 用于印跡雜交(Sourthernblotting)以促進(jìn)DNA轉(zhuǎn)移)。除了弱酸外,可使用任何強(qiáng)度的 (即,可使用Ka)的稀酸。具有較高Ka值的酸,包括但不限于在低濃度下的強(qiáng)酸(例如,小 于5毫摩爾),也可有效地形成可以促進(jìn)質(zhì)量提高的低pH環(huán)境。
[0155]在實(shí)施例中描述的測(cè)試中,當(dāng)使用于內(nèi)部位置上時(shí),發(fā)現(xiàn)錨定前清洗降低不一致 性超過(guò)40%且提高可映射率達(dá)5%,當(dāng)使用于外部位置上時(shí),錨定前清洗降低不一致性達(dá) 超過(guò)15 %且提高可映射率達(dá)超過(guò)2%。在這些實(shí)例中,錨定前清洗僅用于內(nèi)部位置或者外 部位置,盡管它可以用于各循環(huán)中,也就是說(shuō)同時(shí)用于內(nèi)部位置和外部位置。根據(jù)一個(gè)實(shí)施 方式,將錨定前清洗用于所有的循環(huán),但它可以用于亞組的循環(huán),例如單獨(dú)的內(nèi)部位置或者 外部位置或者僅在所選數(shù)量的循環(huán)之后(用于內(nèi)部位置、外部位置,或者兩者),例如在10、 20、30、40、50或60次循環(huán)之后。
[0156] 酸或陽(yáng)離子表面活性劑的有效量是降低不一致性或者提高可映射產(chǎn)率達(dá)可檢測(cè) 水平的量。根據(jù)一個(gè)實(shí)施方式,錨定前清洗液包含一定量的酸或陽(yáng)離子表面活性劑,與合適 的對(duì)照品相比在至少一個(gè)位置降低不一致性達(dá)5、10、15、20、25、30、35、或40%或更大,或 者在至少一個(gè)位置提高可映射率達(dá)0. 5、1. 0、1. 5、2、3、4或5%或更大,或者同時(shí)減小不一 致性且提高可映射率。 測(cè)序
[0157] 在一個(gè)方面,本發(fā)明提供用于鑒定DNB的序列的方法,通過(guò)采用利用連接進(jìn)行測(cè) 序的方法。在一個(gè)方面,本發(fā)明提供采用組合探針-錨定連接(cPAL)方法的用于鑒定DNB 的序列的方法。通常,cPAL包括通過(guò)檢測(cè)由于將錨定與測(cè)序探針連接所形成的探針連接產(chǎn) 物而鑒定在靶核酸中的檢測(cè)位置的核苷酸。本發(fā)明的方法可以用于對(duì)DNB中所含有的靶核 酸的一部分或整個(gè)的序列以及代表一部分或全部的基因組的許多DNB進(jìn)行測(cè)序。
[0158] 在一些方面,根據(jù)本發(fā)明的cPAL方法中的連接反應(yīng)僅驅(qū)動(dòng)到大約20%完成度。本 文中使用的"驅(qū)動(dòng)到"特定水平的完成度是指DNB中的必須顯現(xiàn)連接事件個(gè)體DNB或單體 的百分比。因?yàn)閏PAL方法中的各堿基閱讀是獨(dú)立的事件,所以每個(gè)DNB的每個(gè)單體中的 每個(gè)堿基不必支持連接反應(yīng),從而能夠在后續(xù)的雜交連接周期中閱讀沿該序列的下一個(gè)堿 基。結(jié)果,本發(fā)明的cPAL方法要求顯著較少量的試劑和時(shí)間,從而導(dǎo)致顯著的成本降低和 效率提高。在一些實(shí)施方式中,將根據(jù)本發(fā)明的cPAL方法中的連接反應(yīng)驅(qū)動(dòng)至大約20%、 25%、30%、35%、40%、45%、50%、60%、70%、80%、90%或100%完成度。在其它實(shí)施方 式中,將根據(jù)本發(fā)明的cPAL方法中的連接反應(yīng)驅(qū)動(dòng)至大約10%至大約100%完成度。在其 它實(shí)施方式中,將根據(jù)本發(fā)明的連接反應(yīng)驅(qū)動(dòng)至大約20% -95%、30 % -90%、40 % -85%、 50 %-80 %和60 %-75 %完成度。在一些實(shí)施方式中,通過(guò)改變?cè)噭舛?、溫度、和允許進(jìn)行 的反應(yīng)時(shí)間的長(zhǎng)度來(lái)影響反應(yīng)的完成度百分比。在其它實(shí)施方式中,可以通過(guò)對(duì)來(lái)自cPAL 連接反應(yīng)中的各DNB中獲得的信號(hào)進(jìn)行比較,并且將這些信號(hào)與來(lái)自直接雜交到DNB中的 銜接物的標(biāo)記的探針的信號(hào)進(jìn)行比較,而估計(jì)cPAL連接反應(yīng)的完成度百分比。來(lái)自直接雜 交到銜接物的可標(biāo)記探針的信號(hào)將會(huì)提供對(duì)具有可利用雜交位點(diǎn)的DNB的數(shù)量的估計(jì),然 后可以將此信號(hào)用作對(duì)來(lái)自cPAL反應(yīng)中的連接探針的信號(hào)進(jìn)行比較以便確定連接反應(yīng)的 完成度百分比的基線。在一些實(shí)施方式中,可以根據(jù)信息的最終用途來(lái)改變連接反應(yīng)的完 成度,其中一些用途比其它用途需要更高水平的完成度。
[0159] 如本文中進(jìn)一步的論述,每個(gè)DNB包括重復(fù)的單體單元,各單體單元包含一個(gè)或 多個(gè)銜接物和靶核酸。靶核酸包括多個(gè)檢測(cè)位置。術(shù)語(yǔ)"檢測(cè)位置"是指期望獲得序列信 息的靶序列中的位置。正如本領(lǐng)域技術(shù)人員將理解的,通常一個(gè)靶序列具有用于獲得序列 信息的多個(gè)檢測(cè)位置,例如在全基因組的測(cè)序中,如本文中的描述。在一些情況下,例如在 SNP分析中,理想的是僅閱讀在特定區(qū)域中的單個(gè)SNP。
[0160] 本發(fā)明提供應(yīng)用錨定與測(cè)序探針的組合的測(cè)序方法。本文中使用的"測(cè)序探針" 表示被設(shè)計(jì)成提供在靶核酸特定檢測(cè)位置的核苷酸的特性的寡核苷酸。雜交到在靶序列中 的結(jié)構(gòu)域的測(cè)序探針,例如第一測(cè)序探針可雜交到第一靶結(jié)構(gòu)域,并且第二測(cè)序探針可雜 交到第二靶結(jié)構(gòu)域。本文中術(shù)語(yǔ)"第一靶結(jié)構(gòu)域"和"第二靶結(jié)構(gòu)域"或者語(yǔ)法等同物表示 正在檢查中的核酸內(nèi)部的靶序列的兩個(gè)部分。第一靶結(jié)構(gòu)域可以直接地與第二靶結(jié)構(gòu)域相 鄰,或者第一靶結(jié)構(gòu)域與第二靶結(jié)構(gòu)域可以由中間序列(例如銜接物)隔離。術(shù)語(yǔ)"第一" 和"第二"不表示給予相對(duì)于靶序列的5'-3'方向的序列的方向。例如,假設(shè)互補(bǔ)靶序列是 5' _3'方向,那么第一靶結(jié)構(gòu)域可以位于第二結(jié)構(gòu)域的5',或者位于第二結(jié)構(gòu)域的3'。測(cè)序 探針可以重疊,例如第一測(cè)序探針可以雜交到與銜接物一個(gè)末端相鄰的前6個(gè)堿基,第二 測(cè)序探針可以雜交到距離銜接物末端的第4-第9個(gè)堿基(例如當(dāng)錨定具有3個(gè)簡(jiǎn)并堿基 時(shí))??商娲?,第一測(cè)序探針可以雜交到與銜接物"上游"末端相鄰的第6堿基,第二測(cè)序 探針可以雜交到與銜接物的"下游"末端相鄰的第6堿基。
[0161]測(cè)序探針通常將包含一些簡(jiǎn)并堿基和在探針內(nèi)部的特定位置的特定的核苷酸,用 于詢問(wèn)檢測(cè)位置(本文中也被稱為"詢問(wèn)位置")。
[0162] -般來(lái)說(shuō),當(dāng)使用簡(jiǎn)并堿基時(shí),使用測(cè)序探針的庫(kù)。也就是說(shuō),具有序列"NNNANN" 的探針實(shí)際上是具有在5個(gè)位置處的4個(gè)核苷酸堿基(即,1024個(gè)序列)與在第6位置的 腺嘌呤核苷的所有可能組合的成組的探針。(如本文中所指出,此術(shù)語(yǔ)也適用于簡(jiǎn)并錨定: 例如當(dāng)簡(jiǎn)并錨定具有"3個(gè)簡(jiǎn)并堿基"時(shí),例如它實(shí)際上是包含與銜接物序列互補(bǔ)的序列外 加在3個(gè)位置處的所有可能組合的成組的寡核苷酸,因此它是64個(gè)探針的庫(kù))。
[0163] 在一些實(shí)施方式中,就各詢問(wèn)位置而言,可以將4個(gè)不同標(biāo)記的庫(kù)組合在單庫(kù)中 并且使用于測(cè)序步驟中。因此,在任何的特定測(cè)序步驟中,使用4個(gè)庫(kù),各庫(kù)具有在詢問(wèn)位 置的不同的特定堿基并且具有對(duì)應(yīng)于在詢問(wèn)位置的堿基的不同標(biāo)記。也就是說(shuō),也通常對(duì) 測(cè)序探針進(jìn)行標(biāo)記,使得在特定詢問(wèn)位置的特定核苷酸與具有在相同詢問(wèn)位置所具有的不 同核苷酸的測(cè)序探針的標(biāo)記所不同的標(biāo)記相結(jié)合。例如,在單個(gè)步驟中可以使用4個(gè)庫(kù): NNNANN-染料1、NNNTNN-染料2、NNNCNN-染料3和NNNGNN-染料4,只要這些染料是可光學(xué) 重構(gòu)的。在一些實(shí)施方式中,例如就SNP檢測(cè)而言,它僅必須包括2個(gè)庫(kù),因?yàn)镾NP識(shí)別將是 C或A等。類似地,一些SNP具有三種可能性。可替代地,在一些實(shí)施方式中,如果反應(yīng)是順 序地而不是同時(shí)地進(jìn)行的,那么可以使用相同的染料,僅在不同的步驟中:例如NNNANN-染 料1探針可以單獨(dú)地用于反應(yīng),并且對(duì)信號(hào)進(jìn)行檢測(cè)或不進(jìn)行檢測(cè),并且將探針清洗掉;然 后,可以導(dǎo)入第二庫(kù),NNNTNN-染料1。
[0164] 在本文中描述的任何測(cè)序方法中,測(cè)序探針可具有大范圍的長(zhǎng)度,包括大約3至 大約25個(gè)堿基。在其它實(shí)施方式中,測(cè)序探針可具有在大約5至大約20、大約6至大約18、 大約7至大約16、大約8至大約14、大約9至大約12、大約10至大約11個(gè)堿基的長(zhǎng)度。
[0165] 本發(fā)明的測(cè)序探針被設(shè)計(jì)成與靶序列的序列是互補(bǔ)的并且一般來(lái)說(shuō)是完全互補(bǔ) 的,以便本發(fā)明的一部分的靶序列與探針發(fā)生雜交。具體地,重要的是詢問(wèn)位置堿基與檢測(cè) 位置堿基是完全互補(bǔ)的,并且本發(fā)明的方法不產(chǎn)生信號(hào),除非這是真的。
[0166] 在許多實(shí)施方式中,測(cè)序探針與它們所雜交的靶序列是完全互補(bǔ)的;也就是說(shuō),正 如本領(lǐng)域中已知的,在有利于完全堿基配對(duì)形成的條件下進(jìn)行這些實(shí)驗(yàn)。正如本領(lǐng)域技術(shù) 人員將理解的,與靶序列第一結(jié)構(gòu)域是完全互補(bǔ)的測(cè)序探針可以僅與相同靶序列的第二結(jié) 構(gòu)域是大致互補(bǔ)的;也就是說(shuō),在許多情況下本發(fā)明依賴于探針組的使用,例如六聚體的 組,該探針組與一些靶序列將是完全互補(bǔ)的而與其它靶序列是不完全互補(bǔ)的。
[0167] 在一些實(shí)施方式中,根據(jù)用途,測(cè)序探針與靶之間的互補(bǔ)性無(wú)需是完全的;可存在 任意數(shù)量的堿基對(duì)錯(cuò)配,這將干擾本發(fā)明的靶序列與單鏈核酸之間的雜交。然而,如果錯(cuò)配 的數(shù)量是如此之大以致不發(fā)生雜交甚至在最不嚴(yán)格的雜交條件下也不發(fā)生雜交,那么序列 不是互補(bǔ)的靶序列。因此,本文中的"大致互補(bǔ)的"表示測(cè)序在正常反應(yīng)條件下探針與雜交 的靶序列是充分互補(bǔ)的。然而,就大部分的用途而言,將這些條件設(shè)定為僅當(dāng)存在完全互補(bǔ) 性時(shí)有利于探針雜交??商娲?,需要充分的互補(bǔ)性以便允許發(fā)生連接酶反應(yīng);也就是說(shuō), 在序列的一些部分中可以存在錯(cuò)配,但只當(dāng)在該位置發(fā)生完全互補(bǔ)性時(shí)詢問(wèn)位置堿基應(yīng)當(dāng) 允許連接。
[0168] 在一些情況下,除了或者代替在本發(fā)明的探針中使用簡(jiǎn)并堿基,可以使用雜交到 多于1個(gè)堿基的通用堿基。例如,可以使用肌苷??梢允褂眠@些系統(tǒng)和探針組件的任意組 合。
[0169] 通常,可檢測(cè)地標(biāo)記本發(fā)明方法中所使用的測(cè)序探針。本文中的"標(biāo)記"或"標(biāo)記 的"表示化合物具有連接的至少一種元素、同位素或化合物從而能夠?qū)υ摶衔镞M(jìn)行檢測(cè)。 一般來(lái)說(shuō),本發(fā)明中使用的標(biāo)記包括但不限于同位素標(biāo)記(該同位素可以是放射性的或者 是重同位素)、磁性標(biāo)記、電標(biāo)記、熱標(biāo)記、著色和發(fā)光染料、以及酶和磁性顆粒。本發(fā)明中使 用的染料可以是發(fā)色基團(tuán)、熒光粉或熒光染料,這些染料由于它們具有強(qiáng)信號(hào)因而提供良 好的用于解碼的信-噪比。也可用量子點(diǎn)、熒光納米珠或者包含多于一個(gè)分子的相同熒光 團(tuán)的其他構(gòu)建體,對(duì)測(cè)序探針進(jìn)行標(biāo)記。包含多個(gè)分子的相同熒光團(tuán)的標(biāo)記通常將提供較 強(qiáng)的信號(hào)并且與包含單個(gè)分子的熒光團(tuán)的標(biāo)記相比將對(duì)淬滅較不敏感。理當(dāng)理解的是,本 文中對(duì)包含焚光團(tuán)的標(biāo)記的任何論述將適用于包含單個(gè)和多個(gè)焚光團(tuán)分子的標(biāo)記。
[0170] 本發(fā)明的許多實(shí)施方式包括熒光標(biāo)記的使用。用于本發(fā)明的合適的染料包 括但不限于:熒光鑭系元素(包括銪和鋱)復(fù)合物、熒光素、羅丹明、四甲基羅丹明、 曙紅、赤蘚紅、香豆素、甲基香豆素、花、孔雀石綠、芪、焚光黃、級(jí)聯(lián)藍(lán)?、德克薩斯紅、 和RichardP.Haugland編著的第6版分子探針手冊(cè)中描述的其它染料,該手冊(cè)的全 部?jī)?nèi)容以參考的方式并入本文中用于所有目的,具體地用于有關(guān)于根據(jù)本發(fā)明所使用 標(biāo)記的教導(dǎo)。用于結(jié)合入核酸的任何核苷酸的市售的熒光染料包括但不限于:Cy3、 Cy5(AmershamBiosciences,美國(guó),新澤西州,皮斯卡塔韋)、焚光素、四甲基羅丹明、德克 薩斯紅' 級(jí)聯(lián)藍(lán)ir、bodipy'^fl-ilbodtpyI、bodipy'k)tr-i4、羅丹明 綠TM、俄勒同綠? 488、BODIPY?630/650,BODIPY?650/665、AlexaFluor?488、 AlexaFluor? 532、AlexaFluor? 568、AlexaFlu〇r?:594、AlexaFlu〇r?: 546(Molecular Probes,Inc.,美國(guó),俄勒閃州,尤金)、Quasar570、Quasar670、CalRed610(BioSearch Technologies,加利福尼亞州,諾瓦托)??捎糜诤铣珊筮B接的其它熒光團(tuán)尤其包括: Alexa Fluor? 350、Alex£l Fluor? 532、Alexa Flu〇r?546、Alexa Fluor? 568、Alexa Fluor?, 594、AlexaFluor?647、B0DIPY493/503、B0DIPYFL、B0DIPYR6G、B0DIPY530/550、B0DIPY TMR、BODIPY558/568、B0DIPY558/568、B0DIPY564/570、B0DIPY576/589、B0DIPY581/591、 BODIPY630/650、B0DIPY650/665、級(jí)聯(lián)藍(lán)、級(jí)聯(lián)黃、丹磺酰、麗絲胺羅丹明B、Marina藍(lán)、 俄勒岡綠488、俄勒岡綠514、Pacific藍(lán)、羅丹明6G、羅丹明綠、羅丹明紅、四甲基羅丹明、 德克薩斯紅(MolecularProbes,Inc.,美國(guó),俄勒閃州,尤金),和Cy2、Cy3. 5、Cy5. 5、和 Cy7(AmershamBiosciences,美國(guó)新澤西州皮斯卡塔韋,和其它)。在一些實(shí)施方式中,本發(fā) 明方法中所使用的標(biāo)記包括熒光素、Cy3、德克薩斯紅、Cy5、Quasar570、Quasar670和Cal Red610。
[0171] 可以利用本領(lǐng)域中已知方法將標(biāo)記連接到核酸以形成本發(fā)明的標(biāo)記的測(cè)序探針, 并且連接到核苷的多種位置。例如,連接可以在核酸的任一末端和兩個(gè)末端處,或者在內(nèi)部 位置,或者兩者。例如,標(biāo)記的連接可以是在2'或3'位置(后者用于末端標(biāo)記)的核糖-磷 酸酯骨架的核糖進(jìn)行,在一個(gè)實(shí)施方式中利用酰胺鍵或胺鍵。連接也可利用核糖_磷酸酯 骨架的磷酸酯進(jìn)行,或者連接到核苷酸的堿基。標(biāo)記可以連接到探針的一端或兩端或者連 接到沿探針長(zhǎng)度的任何一個(gè)核苷酸。
[0172] 根據(jù)期望的詢問(wèn)位置,測(cè)序探針在結(jié)構(gòu)上是不同的。例如,在用熒光團(tuán)標(biāo)記的測(cè)序 探針的情況下,各測(cè)序探針內(nèi)部的單個(gè)位置將與用來(lái)進(jìn)行標(biāo)記的熒光團(tuán)的特性相關(guān)。通常, 熒光團(tuán)分子將連接到與用于連接到錨定的靶向末端相反的測(cè)序探針的末端。
[0173] 本文中使用的"錨定"表示被設(shè)計(jì)成與至少一部分銜接物是互補(bǔ)的寡核苷酸,在本 文中被稱為"錨位點(diǎn)"。根據(jù)下文,"錨定"可起引物的作用,例如在利用合成的測(cè)序反應(yīng)中, 其中利用聚合酶或其它酶將一個(gè)或多個(gè)核苷酸堿基添加到引物的末端。銜接物可以含有用 于與多個(gè)錨定進(jìn)行雜交的多個(gè)錨位點(diǎn),如本文中的描述。如本文中進(jìn)一步的論述,用于本發(fā) 明的錨定可以被設(shè)計(jì)成雜交到銜接物,使得錨定的至少一端與銜接物的一個(gè)末端("上游" 或"下游"或者兩者)平齊。在進(jìn)一步的實(shí)施方式中,錨定可以被設(shè)計(jì)成雜交到至少一部分 的銜接物(第一銜接物位點(diǎn))并且也具有與銜接物相鄰的靶核酸的至少一個(gè)核苷酸("突 出端")。如圖2中所示,錨定2402包含與一部分銜接物是互補(bǔ)的序列。錨定2402也包含 在1個(gè)末端處的4個(gè)簡(jiǎn)并堿基。此簡(jiǎn)并允許一部分的錨定群完全或部分地與銜接物相鄰的 靶核酸的序列配對(duì),并且允許錨定分子雜交到銜接物并進(jìn)入與銜接物相鄰的靶核酸,不論 與銜接物相鄰的靶核酸的核苷酸的特性如何。這種將錨定的末端堿基移位入靶核酸將被識(shí) 別堿基的位置移位到更靠近連接點(diǎn),因此允許保持連接酶的保真度(fidelity)。一般來(lái)說(shuō), 如果探針與它們所雜交的靶核酸的區(qū)域是完全互補(bǔ)的,則連接酶以較高的效率連接探針, 但連接酶的保真度隨著與連接點(diǎn)距離的增加而降低。因此,為了最小化并且/或者防止由 于測(cè)序探針與靶核酸之間的錯(cuò)誤配對(duì)所導(dǎo)致的錯(cuò)誤,可以有用的是保持被檢測(cè)核苷酸與測(cè) 序和錨定的連接點(diǎn)之間的距離。通過(guò)將錨定設(shè)計(jì)成進(jìn)入靶核酸,而維持連接酶的保真度同 時(shí)仍然允許更大數(shù)量核苷酸與被鑒定的各銜接物是相鄰的。盡管圖2中圖示說(shuō)明的實(shí)施方 式是其中測(cè)序探針雜交到在靶核酸的銜接物的一側(cè)的區(qū)域,但應(yīng)當(dāng)理解的是其中測(cè)序探針 雜交到銜接物另一側(cè)的實(shí)施方式也包含在本發(fā)明中。在圖2中,N"代表簡(jiǎn)并堿基,"B"代表 未確定序列的核苷酸。正如將理解的,在一些實(shí)施方式中,除了簡(jiǎn)并堿基外,也可使用通用 的喊基。
[0174] 本發(fā)明的錨定可包含允許錨定分子雜交到DNB、通常雜交到DNB的銜接物的任何 序列。這種錨定可包括序列,使得當(dāng)把錨定分子雜交到銜接物時(shí)整個(gè)長(zhǎng)度的錨定被包含在 銜接物中。在一些實(shí)施方式中,錨定可包含與至少一部分的銜接物是互補(bǔ)的并且也包含能 夠雜交到與銜接物相鄰的靶核酸區(qū)域的簡(jiǎn)并堿基的序列。在一些示例性實(shí)施方式中,錨定 是包含與銜接物互補(bǔ)的3個(gè)堿基和3個(gè)簡(jiǎn)并堿基的六聚體。在一些示例性實(shí)施方式中,錨 定是包含與銜接物互補(bǔ)的3個(gè)堿基和5個(gè)簡(jiǎn)并堿基的8單體單元。在進(jìn)一步的示例性實(shí)施 方式中,具體地當(dāng)使用多個(gè)錨定時(shí),第一錨定包含與銜接物互補(bǔ)的在一端的一些堿基和在 另一端的簡(jiǎn)并堿基,而第二錨定包含所有的簡(jiǎn)并堿基并且被設(shè)計(jì)成連接到包含簡(jiǎn)并堿基的 第一錨定的末端。應(yīng)當(dāng)理解的是,這些是示例性實(shí)施方式,并且已知堿基與簡(jiǎn)并堿基的大范 圍組合可以用于制作根據(jù)本發(fā)明所使用的錨定。
[0175] 本發(fā)明提供利用用于鑒定DNB的序列的連接方法而進(jìn)行測(cè)序。在某些方面,利用 本發(fā)明的通過(guò)連接進(jìn)行測(cè)序的方法包括提供錨定與測(cè)序探針的不同組合,測(cè)序探針當(dāng)雜交 到DNB上的相鄰區(qū)域可以被連接以形成探針連接產(chǎn)物。然后檢測(cè)這些探針連接產(chǎn)物,這提 供靶核酸中的一個(gè)或多個(gè)核苷酸的特性。本文中使用的"連接"表示將2個(gè)或2個(gè)以上的 核苷酸彼此連接的任何方法。連接可以包括化學(xué)連接以及酶連接。一般來(lái)說(shuō),本文中論述 的利用連接進(jìn)行測(cè)序的方法采用利用連接酶的酶連接。本發(fā)明的這種連接酶可以與用于形 成核酸模板的上述連接酶是相同或者不同的。這種連接酶包括但不限于DNA連接酶I、DNA 連接酶II、DNA連接酶III、DNA連接酶IV、大腸桿菌DNA連接酶、T4DNA連接酶、T4RNA連接 酶1、T4RNA連接酶2、17連接酶、T3DNA連接酶、和熱穩(wěn)定的連接酶(包括但不限于Taq連 接酶)等。如上所述,利用連接進(jìn)行測(cè)序的方法經(jīng)常依賴于連接酶的保真度,從而僅連接與 它們雜交的核酸是完全互補(bǔ)的探針。此保真度將隨著在探針中特映射置的堿基與兩個(gè)探針 間的連接點(diǎn)之間的距離增加而下降。因此,利用連接常規(guī)測(cè)序方法會(huì)受到可以確定的堿基 數(shù)量的限制。本發(fā)明提高可以通過(guò)使用多個(gè)探針庫(kù)所確定堿基的數(shù)量,如本文中進(jìn)一步的 描述。
[0176] 多種雜交條件可以用于測(cè)序的利用連接的測(cè)序方法以及本文中所描述的其它測(cè) 序方法。這些條件包括高、中等和低嚴(yán)格度條件;參見(jiàn)例如Maniatis等人,分子克?。簩?shí)驗(yàn) 室手冊(cè)(MolecularCloning:ALaboratoryManual),第 2 版,1989,和分子生物學(xué)中的短 方案(ShortProtocolsinMolecularBiology),Ausubel等人編著,這些文獻(xiàn)的內(nèi)容以參 考的方式并入本文中。嚴(yán)格的條件是序列依賴性的,并且在不同情況下將是不同的。較長(zhǎng) 的序列在較高的溫度下特異性地雜交。核酸雜交的廣泛指導(dǎo)可參見(jiàn)Tijssen的《雜交原理 和核酸檢測(cè)策略的概述》(Overviewofprinciplesofhybridizationandthestrategy ofnucleicacidassays) (1993)中的"生物化學(xué)和分子生物學(xué)中的技術(shù)一使用核酸探 針的雜交(BiochemistryandMolecularBiology-HybridizationwithNucleicAcid Probes) "。通常,將嚴(yán)格的條件選擇成在規(guī)定的離子強(qiáng)度和pH下比特定序列的熱熔點(diǎn)(Tm) 低大約5-10°C。Tm是(在規(guī)定的離子強(qiáng)度、pH和核酸濃度下)對(duì)雜交到靶序列的靶是互 補(bǔ)的50%的探針處于平衡狀態(tài)(當(dāng)靶序列過(guò)量存在時(shí),在Tm下,50%的探針處于平衡)的 溫度。嚴(yán)格的條件可以是其中鹽濃度小于大約1. 0M鈉離子,通常大約0. 01至1. 0M的鈉離 子濃度(或者其它的鹽)在pH7. 0至8. 3下,并且針對(duì)短探針(例如10至50個(gè)核苷酸) 的溫度為至少大約30°C和針對(duì)長(zhǎng)探針(例如,大于50個(gè)核苷酸)的溫度為至少大約60°C。 也可通過(guò)添加螺旋去穩(wěn)定劑(例如甲酰胺)而實(shí)現(xiàn)嚴(yán)格的條件。當(dāng)使用非離子骨架即PNA 時(shí),雜交條件也可變化,正如本領(lǐng)域中已知的。另外,可在靶結(jié)合之后添加交聯(lián)劑以將雜交 復(fù)合物的兩條鏈交聯(lián)(即共價(jià)連接)。
[0177] 盡管從本發(fā)明的核酸模板方面提供許多對(duì)測(cè)序方法的描述,但應(yīng)當(dāng)理解的是這些 測(cè)序方法還包括對(duì)由這種核酸模板所形成DNB中的序列進(jìn)行鑒定,如本文所描述的。
[0178] 就使用本發(fā)明的核酸模板的本【技術(shù)領(lǐng)域】中已知的和本文中描述的任何測(cè)序方法 而言,本發(fā)明提供用于確定靶核酸中至少大約10至大約200個(gè)堿基的方法。在其它實(shí)施方 式中,本發(fā)明提供用于確定靶核酸中至少大約20至大約180、大約30至大約160、大約40 至大約140、大約50至大約120、大約60至大約100、以及大約70至大約80個(gè)堿基的方法。 在其它實(shí)施方式中,將測(cè)序方法用于鑒定在本發(fā)明的核酸模板中與各銜接物的一端和兩端 相鄰的至少5、10、15、20、25、30或更多的堿基。
[0179] 本文中描述和本領(lǐng)域中已知的任何測(cè)序方法可以用于在溶液中的本發(fā)明的核酸 模板和/或DNB或者用于被布置在表面上和/或陣列中的核酸模板和/或DNB。 單cPAL
[0180] 在一個(gè)方面,本發(fā)明提供通過(guò)使用測(cè)序與雜交到DNB的相鄰區(qū)域并且連接(通常 是通過(guò)使用連接酶)的錨定的組合而鑒定DNB的序列的方法。這種方法通常在本文中被稱 為cPAL(組合探針錨定連接)方法。在一個(gè)方面,本發(fā)明的cPAL方法形成包含單個(gè)錨定和 單個(gè)測(cè)序探針的探針連接產(chǎn)物。其中僅使用單個(gè)錨定的這種cPAL方法在本文中被稱為"單 cPAL"。
[0181] 圖1中示出了單cPAL的一種實(shí)施方式。DNB的單體單元2301包括靶核酸2309 和銜接物2308。錨定2302雜交到銜接物2308上的互補(bǔ)區(qū)域。在圖1所示的實(shí)例中,錨定 2302雜交到與靶核酸2309緊鄰的銜接物區(qū),盡管如本文中的進(jìn)一步的論述,錨定也可以被 設(shè)計(jì)成通過(guò)在錨定的末端結(jié)合入期望數(shù)量的簡(jiǎn)并堿基而進(jìn)入與銜接物相鄰的靶核酸。區(qū)別 標(biāo)記的測(cè)序探針2306的庫(kù)將雜交到靶核酸的互補(bǔ)區(qū)域。雜交到與錨定2302相鄰區(qū)域的靶 核酸2309的測(cè)序探針2310將連接到錨定,從而形成探針連接產(chǎn)物。當(dāng)探針的詢問(wèn)位置中的 堿基與靶核酸的檢測(cè)位置中的未知堿基是互補(bǔ)時(shí),提高雜交和連接的效率。此提高的效率 有利于將完全互補(bǔ)的測(cè)序探針連接到在錯(cuò)配測(cè)序探針上的錨定。如上所述,連接通常是通 過(guò)使用連接酶的酶法而完成的,但也可以采用根據(jù)本發(fā)明的其它連接方法。在圖1中,"N" 代表簡(jiǎn)并堿基,"B"代表未確定序列的核苷酸。正如將理解的,在一些實(shí)施方式中,可使用 通用的堿基來(lái)代替簡(jiǎn)并堿基。
[0182] 亦如上所述,測(cè)序探針可以是代表在特映射置的各堿基型、并且用將各測(cè)序探針 與具有在該位置的其它核苷酸的測(cè)序探針加以區(qū)分的可檢測(cè)標(biāo)記進(jìn)行標(biāo)記的寡核苷酸。因 此,在圖1中所示的實(shí)例中,與錨定2302相鄰雜交并且連接到錨定的測(cè)序探針2310將在 靶核酸中的距離銜接物5堿基的位置處的堿基鑒定為"G"。多循環(huán)的錨定和測(cè)序探針雜交 和連接可以用于對(duì)在DNB中的各銜接物的各側(cè)上的靶核酸的期望數(shù)量的堿基進(jìn)行鑒定。
[0183] 正如將理解的,在本文中所描述的cPAL方法中的任何一種中,錨定與測(cè)序探針的 雜交可以是相繼的或者同時(shí)的。
[0184] 在圖1所示的實(shí)施方式中,測(cè)序探針2310雜交到銜接物的區(qū)域"上游",然而應(yīng)當(dāng) 理解的是測(cè)序探針可雜交到銜接物的"上游"或"下游"以便鑒定在銜接物兩側(cè)上的核酸中 的位置的核苷酸。這種實(shí)施方式允許從針對(duì)單cPAL方法的各雜交-連接-檢測(cè)循環(huán)的各 銜接物中生成多個(gè)數(shù)據(jù)點(diǎn)。根據(jù)系統(tǒng)的方向,術(shù)語(yǔ)"上游"和"下游"是指銜接物的5'區(qū)和 3'區(qū)。一般來(lái)說(shuō),"上游"和"下游"是相對(duì)的術(shù)語(yǔ),并非意圖是限制性的;相反,它們是用于 便于理解。
[0185] 在一些實(shí)施方式中,單cPAL方法中使用的探針可具有對(duì)應(yīng)于銜接物的大約3個(gè)至 大約20個(gè)堿基、和大約1至大約20個(gè)簡(jiǎn)并堿基(即,在錨定的庫(kù)中)。這種錨定也可包含 通用的堿基、以及簡(jiǎn)并的堿基與通用的堿基的組合。
[0186] 在一些實(shí)施方式中,具有簡(jiǎn)并堿基的錨定相對(duì)于銜接物序列可具有大約1-5個(gè)錯(cuò) 配,以提高在簡(jiǎn)并堿基處的完全匹配雜交的穩(wěn)定性。這種設(shè)計(jì)提供控制連接的錨定和測(cè)序 探針的穩(wěn)定性從而有利于完全匹配到靶(未知的)序列的探針的另一種方法。在其它實(shí)施 方式中,在錨定的簡(jiǎn)并部分中的一些堿基可以用基本位點(diǎn)(即,不具有在糖上的堿基的位 點(diǎn))或其它核苷酸類似物加以替換,以便影響雜交的探針的穩(wěn)定性從而有利于在將與測(cè)序 探針參與到連接反應(yīng)中的錨定的簡(jiǎn)并部分的遠(yuǎn)端的完全匹配雜交,如本文中的描述。這種 修飾可以例如在內(nèi)部堿基處并入,尤其是用于包含大數(shù)量(即,大于5)簡(jiǎn)并堿基的錨定。另 夕卜,在錨定遠(yuǎn)端的部分簡(jiǎn)并堿基或通用堿基可以被設(shè)計(jì)成在雜交(例如,通過(guò)尿嘧啶的并 入)后是可切斷的以便形成與測(cè)序探針或第二錨定的連接位點(diǎn),如下面進(jìn)一步的描述。
[0187]在其它實(shí)施方式中,可以通過(guò)反應(yīng)條件的操控(例如雜交的嚴(yán)格度)來(lái)控制錨定 的雜交。在一個(gè)示例性實(shí)施方式中,錨定雜交步驟可開始于高嚴(yán)格度(較高的溫度、較低的 鹽、較高的pH值、較高濃度的甲酰胺等)的條件,并且這些條件可以逐漸地或逐步地放松。 這會(huì)要求連續(xù)的雜交循環(huán),其中將不同庫(kù)的錨定除去然后在后繼的循環(huán)中添加。這種方法 提供較高百分比的被完全互補(bǔ)的錨定占據(jù)的靶核酸,尤其是在將被連接到測(cè)序探針的遠(yuǎn)端 的位置是完全互補(bǔ)的錨定。也可在各嚴(yán)格度條件下控制雜交時(shí)間,以獲得更大數(shù)量的完全 匹配雜交。 雙cPAL(和軺討)
[0188]在其它實(shí)施方式中,本發(fā)明提供在每個(gè)雜交-連接周期中使用兩個(gè)連接錨定的cPAL方法。參見(jiàn)例如美國(guó)專利申請(qǐng)序列No. 60/992, 485 ;No. 61/026, 337 ;No. 61/035, 914 和 No. 61/061,134,它們的全部?jī)?nèi)容以參考的方式并入本文中,特別是實(shí)施例和權(quán)利要求。圖 3示出了"雙cPAL"方法的實(shí)例,其中第一錨定2502和第二錨定2505雜交到銜接物的互補(bǔ) 區(qū)域;也就是說(shuō),第一錨定雜交到第一錨位點(diǎn)并且第二錨定雜交到第二銜接物位點(diǎn)。在圖3 所示的實(shí)例中,第一錨定2502與銜接物2511的區(qū)域(第一錨位點(diǎn))是完全互補(bǔ)的,第二錨 定2505與相鄰于第一錨定的雜交位置(第二錨位點(diǎn))的銜接物區(qū)是互補(bǔ)的。一般來(lái)說(shuō),第 一錨位點(diǎn)與第二錨位點(diǎn)是相鄰的。
[0189]第二錨定也可任選地在不與第一錨定相鄰的末端包含簡(jiǎn)并堿基使得它將雜交到 靶核酸2512與銜接物2511相鄰的區(qū)域。這允許產(chǎn)生用于更加遠(yuǎn)離銜接物/靶界面的靶核 酸堿基的序列信息。此外,如本文中所概述,當(dāng)探針被稱為具有"簡(jiǎn)并堿基"時(shí),它表示探針 實(shí)際上包含成組的探針,該探針具有在簡(jiǎn)并位置的序列的所有可能組合。例如,如果錨定長(zhǎng) 度為9個(gè)堿基,其中6個(gè)是已知的堿基且3個(gè)是簡(jiǎn)并堿基,那么錨定實(shí)際上是64個(gè)探針的 庫(kù)。
[0190]第二錨定通常過(guò)短以致難以單獨(dú)地維持在其雙鏈雜交狀態(tài),但當(dāng)連接到第一錨定 時(shí)它形成較長(zhǎng)的錨定,也就是說(shuō)對(duì)于后繼方法是穩(wěn)定的。在一些實(shí)施方式中,第二錨定具有 對(duì)于銜接物是互補(bǔ)的大約1至大約5個(gè)堿基、和大約5至大約10個(gè)堿基的簡(jiǎn)并序列。如上 面在"單cPAL"方法中所述,將代表在靶核酸檢測(cè)位置的各堿基型并且用將各測(cè)序探針與在 該位置具有其它核苷酸測(cè)序探針加以區(qū)分可檢測(cè)標(biāo)記進(jìn)行標(biāo)記的測(cè)序探針2508的庫(kù)雜交 2509到銜接物-錨定雙鏈并且連接到連接的錨定的末端5'或3'堿基。在圖3中圖示說(shuō)明 的實(shí)例中,測(cè)序探針被設(shè)計(jì)成詢問(wèn)測(cè)序探針2514與連接錨定2513之間的連接點(diǎn)的5個(gè)位 置5'的堿基。因?yàn)榈诙^定2505具有其5'端的5個(gè)簡(jiǎn)并堿基,所以它進(jìn)入靶核酸2512 達(dá)5個(gè)堿基,從而允許用測(cè)序探針在距離靶核酸2512與銜接物2511之間的界面的完全10 個(gè)堿基處進(jìn)行詢問(wèn)。在圖3中,"N"代表簡(jiǎn)并堿基,"B"代表未確定序列的核苷酸。正如將 理解的,在一些實(shí)施方式中,可使用通用的堿基來(lái)代替簡(jiǎn)并堿基。
[0191] 在一些實(shí)施方式中,第二錨定可具有對(duì)應(yīng)于銜接物的大約5-10個(gè)堿基、和通常是 簡(jiǎn)并的且對(duì)應(yīng)于靶核酸的大約5-15個(gè)堿基。可以首先在最佳條件下將此第二錨定雜交,以 便有利于高百分比的靶在兩個(gè)錨定之間的連接點(diǎn)附近的一些堿基處占據(jù)有完全匹配??梢?在單步驟中或者順序地將第一錨定和/或測(cè)序探針雜交并且連接到第二簡(jiǎn)并錨定。在一些 實(shí)施方式中,第一錨定和第二錨定可在它們的連接點(diǎn)具有與銜接物不是互補(bǔ)的大約5至大 約50個(gè)互補(bǔ)堿基,由此形成"分枝"雜交。此設(shè)計(jì)允許雜交第二錨定的銜接物特異性穩(wěn)定 化。在一些實(shí)施方式中,在第一錨的雜交之前將第二錨定連接到測(cè)序探針;在一些實(shí)施方式 中,在測(cè)序探針的雜交之前將第二錨定連接到第一錨定;在一些實(shí)施方式中,第一和第二錨 定和測(cè)序探針同時(shí)地雜交并且在第一錨定與第二錨定之間和在第二錨定與測(cè)序探針之間 同時(shí)或者基本上同時(shí)地發(fā)生連接,而在其它實(shí)施方式中第一錨定與第二錨定之間和第二錨 定與測(cè)序探針之間的連接是順序地按任意順序發(fā)生的??梢岳脟?yán)格的清洗條件除去未連 接的探針(例如,利用溫度、pH值、鹽、含有最佳濃度甲酰胺的緩沖液,并且利用本領(lǐng)域已知 的方法來(lái)確定最佳條件和/或濃度)。這種方法尤其可以用于使用具有大量在錨定與靶核 酸之間的相應(yīng)連接點(diǎn)的外部雜交的簡(jiǎn)并堿基的第二錨定的方法。
[0192] 在某些實(shí)施方式中,雙cPAL方法采用兩個(gè)錨定的連接,其中一個(gè)錨定與銜接物是 完全互補(bǔ)的,第二錨定是完全簡(jiǎn)并的(另外,實(shí)際上成庫(kù)的探針)。圖4示出了這種雙cPAL 方法的實(shí)例,其中第一錨定2602雜交到DNB2601的銜接物2611。第二錨定2605是完全簡(jiǎn) 并的,因此能夠雜交到靶核酸2612的與銜接物2611相鄰的區(qū)域的未知核苷酸。第二錨定 被設(shè)計(jì)成過(guò)短以致難以單獨(dú)維持在其雙鏈雜交狀態(tài),但當(dāng)連接到第一錨定時(shí),較長(zhǎng)連接錨 定構(gòu)建體的形成提供cPAL過(guò)程的后繼步驟所需的穩(wěn)定性。在一些實(shí)施方式中,第二完全簡(jiǎn) 并的錨定的長(zhǎng)度可以是大約5至大約20個(gè)堿基。就較長(zhǎng)的長(zhǎng)度(即,超過(guò)10個(gè)堿基)而 言,可以在雜交和連接條件中引入變更以降低簡(jiǎn)并錨定的有效Tm。較短的第二錨定通常將 非特異性地結(jié)合到靶核酸和銜接物,但其較短的長(zhǎng)度將影響雜交動(dòng)力學(xué),因此一般來(lái)說(shuō)僅 這些與銜接物相鄰的區(qū)域是完全互補(bǔ)的第二錨定和第一錨定將具有穩(wěn)定性從而允許連接 酶將第一錨定與第二錨定連接,從而產(chǎn)生較長(zhǎng)的連接的錨定構(gòu)建體。非特異性雜交的第二 錨定將不具有穩(wěn)定性以便保持雜交到DNB足夠長(zhǎng)的時(shí)間以便隨后連接到任何相鄰雜交的 測(cè)序探針。在一些實(shí)施方式中,在第二錨定與第一錨定的連接之后,通常利用清洗步驟將任 何未連接的錨定除去。在圖4中,"N"代表簡(jiǎn)并堿基,"B"代表未確定序列的核苷酸。正如 將理解的,在一些實(shí)施方式中,可使用通用的堿基來(lái)代替簡(jiǎn)并堿基。
[0193] 在其它示例性實(shí)施方式中,第一錨定將是包含與銜接物是互補(bǔ)的3個(gè)堿基和3個(gè) 簡(jiǎn)并堿基的六聚體,而第二錨定僅包含簡(jiǎn)并堿基并且第一和第二錨定被設(shè)計(jì)成使得僅具有 簡(jiǎn)并堿基的第一錨定的末端將連接到第二錨定。在其它示例性實(shí)施方式中,第一錨定是包 含與銜接物是互補(bǔ)的3個(gè)堿基的和5個(gè)簡(jiǎn)并堿基的8單體單元,再次第一和第二錨定被設(shè) 計(jì)成使得具有簡(jiǎn)并堿基的第一錨定的僅末端將連接到第二錨定。應(yīng)當(dāng)理解的是,這些是示 例性的實(shí)施方式并且已知堿基與簡(jiǎn)并堿基的大范圍組合可以用于第一和第二(在一些實(shí) 施方式中是第三和/或第四)錨定兩者的設(shè)計(jì)。
[0194] 在雙cPAL方法的上述實(shí)例的變體中,如果第一錨定終止于更靠近銜接物末端的 位置,則第二錨定將成比例地更加簡(jiǎn)并,因此將具有更大可能性不僅連接到第一錨定的末 端而且也連接到在DNB上的多個(gè)位點(diǎn)處的其它第二錨定。為了防止這種連接假象,可以選 擇性地將第二錨定活化以便參與連接到第一錨定或者連接到測(cè)序探針。這種活化包括選擇 性地修飾錨定的末端,使得它們能夠在相對(duì)于銜接物的特定方向上僅連接到特定錨定或測(cè) 序探針。例如,可將5'和3'磷酸基引入第二錨定,因此修飾的第二錨定將能夠連接到雜交 到銜接物的第一錨定的3'端,但兩個(gè)第二錨定將不能彼此連接(因?yàn)?'端被磷酸化,由 此將會(huì)防止酶連接)。一旦將第一錨定與第二錨定連接,可以通過(guò)除去3'磷酸基而將第二 錨定的3'端活化(例如T4多核苷酸激酶或磷酸酶,諸如蝦堿性磷酸酶和小牛腸堿性磷酸 酶)。
[0195] 如果期望在第二錨定的3'端與第一錨定的5'端之間發(fā)生連接,則第一錨定可以 被設(shè)計(jì)和/或修飾成在其5'端被磷酸化,且第二錨定可以被設(shè)計(jì)和/或修飾成不具有5' 或3'磷酸化修飾。此外,第二錨定將能夠連接到第一錨定,但不連接到其它第二錨定。在 第一錨定與第二錨定的連接之后,可以在第二錨定的自由末端形成5'磷酸基(例如,通過(guò) 使用T4多核苷酸激酶)從而使它在cPAL步驟的后繼步驟中能夠連接到測(cè)序探針。
[0196] 在一些實(shí)施方式中,將兩個(gè)錨定同時(shí)地施加到DNB。在一些實(shí)施方式中,順序地將 兩個(gè)錨定施加到DNB,從而允許一個(gè)錨定在另一個(gè)錨定之前雜交到DNB。在一些實(shí)施方式 中,在將第二銜接物連接到測(cè)序探針之前,將這兩個(gè)錨定彼此連接。在一些實(shí)施方式中,在 單步驟中將錨定與測(cè)序探針連接。在其中在單個(gè)步驟中將兩個(gè)錨定和測(cè)序探針連接的實(shí) 施方式中,第二銜接物可以被設(shè)計(jì)成具有足夠的穩(wěn)定性以保持其位置直到所有的3個(gè)探針 (兩個(gè)錨定和測(cè)序探針)位于用于連接的位置。例如,可以使用含與銜接物互補(bǔ)的5個(gè)堿基 和用于雜交到靶核酸的與銜接物相鄰的區(qū)域的5個(gè)簡(jiǎn)并堿基的第二錨定。這種第二錨定可 具有充分的穩(wěn)定性以便用低嚴(yán)格度的清洗而維持,因此在第二錨定的雜交與測(cè)序探針的雜 交的步驟之間連接步驟將不是必需的。在后繼的將測(cè)序探針連接到第二錨定中,第二錨定 也將會(huì)連接到第一錨定,從而在任何的單獨(dú)錨定或測(cè)序探針上方形成穩(wěn)定性提高的雙鏈。
[0197] 類似于上述的雙cPAL方法,應(yīng)當(dāng)理解的是具有三個(gè)或三個(gè)以上錨定的cPAL也包 含在本發(fā)明中??梢愿鶕?jù)本文中描述和本領(lǐng)域中已知的的方法來(lái)設(shè)計(jì)這種錨定,以便雜交 到銜接物的區(qū)域,從而使得錨定中的一個(gè)的一個(gè)末端可用于連接到與末端錨定相鄰雜交的 測(cè)序探針。在一個(gè)示例性實(shí)施方式中,提供三個(gè)錨定,2個(gè)錨定與銜接物中的不同序列是互 補(bǔ)的并且第三個(gè)錨定包含雜交到靶核酸中的序列的簡(jiǎn)并堿基。在另一個(gè)實(shí)施方式中,與銜 接物中的序列是互補(bǔ)的兩個(gè)錨定中的一個(gè)也可包含在末端上的一個(gè)或多個(gè)簡(jiǎn)并堿基,從而 允許該錨定進(jìn)入靶核酸以便與第三錨定連接。在其它實(shí)施方式中,錨定中的一個(gè)與銜接物 可以是完全或部分地互補(bǔ)的,第二和第三錨定將是完全簡(jiǎn)并的以便雜交到靶核酸。在其它 實(shí)施方式中,可以將4個(gè)或更多的完全簡(jiǎn)并錨定順序地連接到3個(gè)連接的錨定,以實(shí)現(xiàn)閱讀 進(jìn)一步延伸入靶核酸序列。在一個(gè)示例性實(shí)施方式中,包含與銜接物互補(bǔ)的12個(gè)堿基的第 一錨定可以與第二六聚體錨定連接,第二六聚體中所有的6個(gè)堿基是簡(jiǎn)并的。第三錨定,也 是完全簡(jiǎn)并的六聚體,也可以連接到第二錨定從而進(jìn)一步延伸入靶核酸的未知序列。也可 添加第四、第五、第六等錨定以便甚至進(jìn)一步延伸入未知的序列。在其它實(shí)施方式中并且根 據(jù)本文中描述的cPAL方法中的任何一種,一個(gè)或多個(gè)的錨定可包含一個(gè)或多個(gè)標(biāo)記,該標(biāo) 記是用于"標(biāo)記"錨定并且/或者鑒定雜交到DNB的銜接物的特定錨定。 檢側(cè)丨W光記白勺側(cè)丨序針
[0198] 如上所述,根據(jù)本發(fā)明所使用的測(cè)序探針可以用種類廣泛的標(biāo)記可檢測(cè)地進(jìn)行標(biāo) 記。盡管下面的描述主要涉及其中用熒光團(tuán)將測(cè)序探針進(jìn)行標(biāo)記的實(shí)施方式,但應(yīng)當(dāng)理解 的是采用包含其它類型標(biāo)記的測(cè)序探針的類似實(shí)施方式也包含在本發(fā)明中。
[0199]多次循環(huán)的cPAL(不論是單、雙、三等)將鑒定在靶核酸的與銜接物相鄰的區(qū)域中 的多個(gè)堿基。簡(jiǎn)言之,利用循環(huán)錨定雜交以及與被設(shè)計(jì)成在不同的位置檢測(cè)從銜接物與靶 核酸之間的界面除去的核苷酸的測(cè)序探針庫(kù)的酶連接反應(yīng)重復(fù)cPAL方法用于對(duì)靶核酸中 的多個(gè)堿基進(jìn)行詢問(wèn)。在任何給定的循環(huán)中,所使用的測(cè)序探針被設(shè)計(jì)成使得在一個(gè)或多 個(gè)位置的一個(gè)或多個(gè)堿基的特性與連接到該測(cè)序探針的標(biāo)記的特性相關(guān)。一旦連接的測(cè)序 探針被檢測(cè)(因此在詢問(wèn)位置的堿基被檢測(cè)),將連接的復(fù)合物從DNB中除去并且執(zhí)行銜接 物和測(cè)序探針雜交和連接的新循環(huán)。
[0200] 一般來(lái)說(shuō),通常利用四個(gè)熒光團(tuán)來(lái)鑒定在測(cè)序探針中的詢問(wèn)位置的堿基,并且在 每個(gè)雜交-連接-檢測(cè)循環(huán)中詢問(wèn)單個(gè)堿基。然而,正如將理解的,使用8、16、20和24個(gè) 或更多個(gè)熒光團(tuán)的實(shí)施方式也包含在本發(fā)明中。增加熒光團(tuán)的數(shù)量增加可以在任一次循環(huán) 期間中所確定堿基的數(shù)量。
[0201] 在一個(gè)示例性實(shí)施方式中,采用具有以下結(jié)構(gòu)的一組7單體單元的測(cè)序探針庫(kù): 3' -Fl-NNNNNNAp 3' -F2-NNNNNNGp3' -F3-NNNNNNCp 3' -F4-NNNN剛Tp
[0202] "p"代表用于連接的磷酸酯,"N"代表簡(jiǎn)并堿基。F1-F4代表四個(gè)不同的熒光團(tuán), 因此各熒光團(tuán)與特定的堿基相關(guān)。此示例性組的探針將會(huì)允許當(dāng)把把測(cè)序探針連接到雜交 到銜接物的錨定時(shí)對(duì)與銜接物近鄰的堿基進(jìn)行檢測(cè)。因此,將測(cè)序探針連接到錨定的連接 酶區(qū)別在探針詢問(wèn)位置的堿基與在靶核酸檢測(cè)位置的堿基之間的互補(bǔ)性,當(dāng)測(cè)序探針的雜 交和連接提供在靶核酸檢測(cè)位置的堿基的特性時(shí)將會(huì)對(duì)熒光信號(hào)進(jìn)行檢測(cè)。
[0203] 在一些實(shí)施方式中,一組測(cè)序探針將包含3個(gè)區(qū)別標(biāo)記的測(cè)序探針,其中第4可選 的測(cè)序探針仍然是未標(biāo)記的。
[0204] 在實(shí)施雜交-連接-檢測(cè)循環(huán)之后,將錨定-測(cè)序探針連接產(chǎn)物除去并且開始新 的循環(huán)。在一些實(shí)施方式中,可以獲得6個(gè)堿基或更多來(lái)自錨定與測(cè)序探針之間的連接點(diǎn)、 和12個(gè)堿基或更多的來(lái)自靶核酸與銜接物之間的界面的準(zhǔn)確序列信息??梢岳帽疚闹?描述的方法來(lái)提高可以確定的堿基數(shù)量,所述方法包括具有能夠進(jìn)一步進(jìn)入靶核酸的簡(jiǎn)并 端的錨定的使用。
[0205] 可以實(shí)施利用本領(lǐng)域中已知的方法圖像采集,包括商業(yè)成像軟件包諸如 Metamorph(MolecularDevices,Sunnyvale,CA)的使用。可以利用用例如C/C++編寫的一 系列二進(jìn)制數(shù)據(jù)來(lái)實(shí)施數(shù)據(jù)抽取,并且可以利用一系列的Matlab和Perlscripts來(lái)實(shí)施 堿基識(shí)別和閱讀映射。
[0206] 在一個(gè)示例性實(shí)施方式中,布置在表面上的DNB經(jīng)歷如本文中描述的cPAL的循 環(huán),其中用4個(gè)不同的熒光團(tuán)(各自對(duì)應(yīng)于在探針內(nèi)部詢問(wèn)位置的特定堿基)對(duì)所使用的 測(cè)序探針進(jìn)行標(biāo)記。為了確定布置在表面上的各DNB的堿基的特性,用對(duì)應(yīng)于4個(gè)熒光標(biāo) 記的測(cè)序探針的4個(gè)不同波長(zhǎng)對(duì)各視野("框架")進(jìn)行成像。將來(lái)自各循環(huán)的所有圖像保 存在循環(huán)目錄中,其中圖像的數(shù)量是框架四倍的數(shù)量(當(dāng)使用四個(gè)熒光團(tuán)時(shí))。然后,可以 將循環(huán)圖像數(shù)據(jù)保存入用于下游處理的目錄結(jié)構(gòu)。
[0207] 在一些實(shí)施方式中,數(shù)據(jù)抽取將依賴于兩種類型的圖像數(shù)據(jù):區(qū)分表面上的所有 DNB位置的亮場(chǎng)圖像、和在各測(cè)序循環(huán)中所需的各組熒光圖像。數(shù)據(jù)抽取軟件可以用于鑒定 亮場(chǎng)圖像中所有物體然后用于每個(gè)這種物體,可以利用該軟件計(jì)算各測(cè)序循環(huán)的平均熒光 值。就任何給定的循環(huán)而言,存在四個(gè)數(shù)據(jù)點(diǎn),對(duì)應(yīng)于在不同波長(zhǎng)處獲取的4個(gè)圖像,用于 詢問(wèn)該堿基是否是A、G、C或T。這些原始數(shù)據(jù)點(diǎn)(本文中也被稱為"堿基識(shí)別")是經(jīng)過(guò)處 理的,獲得各DNB的不連續(xù)的測(cè)序閱讀。
[0208] 然后,可以裝配該成群的確定的堿基,以便提供用于靶核酸的序列信息和/或鑒 定靶核酸中特定序列的存在。在一些實(shí)施方式中,通過(guò)從在多個(gè)DNB中實(shí)施的多個(gè)測(cè)序循 環(huán)中獲得的重疊的序列聯(lián)配將確定的堿基裝配入完整序列。本文中使用的術(shù)語(yǔ)"完整序列" 是指部分或全基因組的序列以及部分或全靶核酸。在其它實(shí)施方式中,裝配方法應(yīng)用可以 用于"拼湊"重疊的序列的算法以便提供完整序列。在其它實(shí)施方式中,參考表是用于幫助 將確定的序列裝配入完整序列??梢岳盟x擇生物體中的現(xiàn)有測(cè)序數(shù)據(jù)來(lái)編輯參考表。 例如,可以利用在ftp. ncbi. nih. gov/refseq/release的國(guó)家生物技術(shù)信息中心、或者通 過(guò)在http ://www. jcvi. org/researchhuref/中的J. Craig Venter研宄所訪問(wèn)人基因組數(shù) 據(jù)。所有或亞組的人基因組信息可以用于形成用于特定的測(cè)序詢問(wèn)的參考表。另外,可以 由從特定群中獲得的經(jīng)驗(yàn)數(shù)據(jù)來(lái)建立特定的參考表,包括來(lái)自具有特定種族、地理繼承、宗 教或文化規(guī)定的群的人的基因序列,根據(jù)包含在其中的信息的來(lái)源人基因組中差異可使參 考數(shù)據(jù)產(chǎn)生偏差。
[0209] 在任何的本文中描述的本發(fā)明實(shí)施方式中,成群的核酸模板和/或DNB可包含一 些靶核酸,以便大致地覆蓋全基因組或者全靶多核苷酸。本文中使用的"基本上覆蓋"表示 被分析的核苷酸(即,靶序列)的量,含有1當(dāng)量的靶多核苷酸的至少2個(gè)拷貝,或者在另一 方面,至少10個(gè)拷貝,或者在另一個(gè)方面,至少12個(gè)拷貝,或者在另一方面,至少100拷貝。 靶多核苷酸可包含DNA片段,包括基因組DNA片段和cDNA片段、和RNA片段。用于重新構(gòu) 建靶多核苷酸序列的步驟的指導(dǎo)可以在以下的參考文獻(xiàn)中看到,這些參考文獻(xiàn)的內(nèi)容以參 考的方式并入本文中:Lander等人,基因組(Genomics),2:231_239(1988) ;Vingron等人, J.Mol.Biol. ,235:1-12(1994)等。 探針的組
[0210] 正如將理解的,可以根據(jù)上述各種cPAL方法使用不同組合的測(cè)序與錨定。下面對(duì) 使用于本發(fā)明的各組探針(本文中也被稱為"探針的庫(kù)")的描述是示例性的實(shí)施方式,應(yīng) 當(dāng)理解的是本發(fā)明并不局限于這些組合。
[0211] 在一個(gè)方面,探針的組被設(shè)計(jì)成用于在距離銜接物特定距離的位置處鑒定核苷 酸。例如,某些組的探針可以用于在遠(yuǎn)離銜接物的堿基多達(dá)3、4、5、6、7、8、9、10、11、12、13、 14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30 和更多的位置處進(jìn)行鑒定。如上 所述,具有在一個(gè)末端的簡(jiǎn)并堿基的錨定可以被設(shè)計(jì)成進(jìn)入與銜接物相鄰的靶核酸,從而 允許測(cè)序探針連接從而進(jìn)一步遠(yuǎn)離銜接物,因此提供進(jìn)一步遠(yuǎn)離銜接物的堿基的特性。
[0212] 在一個(gè)示例性實(shí)施方式中,成組的探針包含被設(shè)計(jì)成雜交到銜接物的相鄰區(qū)域的 至少兩個(gè)錨定。在一個(gè)實(shí)施方式中,第一錨定與銜接物的區(qū)域是完全互補(bǔ)的,同時(shí)第二錨 定與銜接物的相鄰區(qū)域是互補(bǔ)的。在一些實(shí)施方式中,第二錨定將包含一個(gè)或多個(gè)簡(jiǎn)并核 苷酸,該簡(jiǎn)并核苷酸延伸入并雜交到與銜接物相鄰的靶核酸的核苷酸。在一個(gè)示例性實(shí)施 方式中,第二錨定包含至少1-10個(gè)簡(jiǎn)并堿基。在另一個(gè)示例性實(shí)施方式中,第二錨定包含 2-9、3-8、4-7、和5-6個(gè)簡(jiǎn)并堿基。在再一個(gè)示例性實(shí)施方式中,第二錨定包含在一個(gè)或兩 個(gè)末端處和/或在其序列的內(nèi)部區(qū)域中的一個(gè)或多個(gè)簡(jiǎn)并堿基。
[0213] 在另一個(gè)實(shí)施方式中,成組探針也將包含用于在一個(gè)或多個(gè)檢測(cè)位置中用靶核酸 確定堿基的一組或多組的測(cè)序探針。在一個(gè)實(shí)施方式中,該組包含足夠的不同組的測(cè)序探 針,用于鑒定靶核酸中的大約1至大約20個(gè)位置。在另一個(gè)示例性實(shí)施方式中,該組包含 足夠組的測(cè)序探針,用于鑒定靶核酸中的大約2至大約18、大約3至大約16、大約4至大約 14、 大約5至大約12、大約6至大約10、和大約7至大約8個(gè)位置。
[0214] 在其它示例性實(shí)施方式中,根據(jù)本發(fā)明將使用10個(gè)庫(kù)的標(biāo)記或標(biāo)記的探針。在其 它實(shí)施方式中,探針的組將包含具有不同序列的2個(gè)或2個(gè)以上的錨定。在其它實(shí)施方式 中,探針的組將包含3、4、5、6、7、8、9、10、11、12、13、14、15或更多的具有不同序列的錨定。
[0215] 在又一個(gè)示例性實(shí)施方式中,提供包含一組或多組的測(cè)序探針和三個(gè)錨定的成組 探針。第一錨定與銜接物的第一區(qū)是互補(bǔ)的,第二錨定與銜接物的第二區(qū)域是互補(bǔ)的,并且 第二區(qū)域與第一區(qū)彼此是相鄰的。第三錨定包含三個(gè)或三個(gè)以上的簡(jiǎn)并核苷酸并且能夠雜 交到與銜接物相鄰的靶核酸中的核苷酸。在一些實(shí)施方式中,第三錨定也可與銜接物的第 三區(qū)域是互補(bǔ)的,并且第三區(qū)域可與第二區(qū)域相鄰,使得第二錨映射于第一和第三錨定的 側(cè)面。
[0216] 在一些實(shí)施方式中,成組錨定和/或測(cè)序探針將包含可變濃度的各類型探針,并 且可變濃度可部分地取決于可以是包含在錨定中的簡(jiǎn)并堿基。例如,將具有較低的雜交穩(wěn) 定性的探針,諸如具有較大的A的數(shù)量和/或T的數(shù)量的探針,可以以較高的相對(duì)濃度而存 在,這作為抵消它們的較低穩(wěn)定性的方法。在其它實(shí)施方式中,通過(guò)獨(dú)立地制備較小的探針 的庫(kù),然后獨(dú)立地將它們混合而以適當(dāng)?shù)牧慨a(chǎn)生探針的庫(kù)而建立相對(duì)濃度中的這些差異。 連接反應(yīng)的特異件和保直度的提高
[0217] 在一些方面,本發(fā)明cPAL方法中所采用的連接反應(yīng)被修飾成包含用于提高相鄰 地雜交到靶核酸的兩個(gè)核酸的連接的保真度的元件。在一些實(shí)施方式中,這種方法包括添 加優(yōu)先地提高雙鏈核酸的穩(wěn)定性的物質(zhì),通常通過(guò)優(yōu)先地結(jié)合到雙鏈核酸("雙鏈結(jié)合基 團(tuán)")。在一些實(shí)施方式中,使用嵌入劑并且添加到連接反應(yīng)混合物中。本文中使用的"嵌 入劑"或者"嵌入物"是指能夠在核酸雙鏈中的相鄰堿基對(duì)之間插入的物質(zhì),例如相比單鏈 核酸優(yōu)先地結(jié)合到雙鏈核酸的物質(zhì)。類似地,正如本領(lǐng)域技術(shù)人員將會(huì)理解的,也可以使用 小溝和大溝結(jié)合基團(tuán)。
[0218] 在具體方面,嵌入劑包括但不限于:溴化乙錠、二氫乙啶、乙錠均二聚物-1、乙 錠均二聚物-2、叮啶、碘化丙啶、YOYO-1或TOTO-1、原黃素、柔紅霉素、阿霉素、POPO-1、 POPO-3、BOBO-1、BOBO-3、Psoralen、放線菌素D、SYBR綠或者沙利度胺(thalidomide),并 且可以是熒光或者非熒光的。在一個(gè)具體方面,嵌入劑是溴化乙錠。本發(fā)明中使用的溴化 乙錠的優(yōu)選范圍包括從0.lng/y1至大約20.Ong/y1、更優(yōu)選地從大約2. 5ng/y1至大約 15. Ong/y1、甚至更優(yōu)選地從大約5.Ong/y1至大約10.Ong/y1。
[0219] 在另一個(gè)實(shí)施方式中,本發(fā)明提供一種用于確定在靶核酸中的位置的堿基的特性 的方法,該方法包括:提供包含靶核酸和至少一個(gè)銜接物的文庫(kù)構(gòu)建體,其中靶核酸具有 被詢問(wèn)的位置;將錨定分子雜交到在文庫(kù)構(gòu)建體中的銜接物;將測(cè)序探針的庫(kù)雜交到靶核 酸;在雙鏈結(jié)合基團(tuán)(諸如嵌入劑)存在下將測(cè)序探針連接到錨定,其中與靶核酸是互補(bǔ)的 測(cè)序探針將高效率地連接到錨定;并且確定哪個(gè)測(cè)序探針被連接到錨定從而確定靶核酸的 序列。在具體的方面,在序列確定之前將未連接的測(cè)序探針丟棄。在一個(gè)優(yōu)選的方面,重復(fù) 這些步驟直到期望數(shù)量的堿基已被確定。
[0220] 在又一個(gè)實(shí)施方式中,本發(fā)明提供一種用于合成核酸文庫(kù)構(gòu)建體的方法,其包括: 獲得靶核酸;將第一銜接物連接到靶核酸以制作第一文庫(kù)構(gòu)建體,其中第一銜接物包含用 于在銜接物中結(jié)合但在靶核酸中切斷的酶的限制性核酸內(nèi)切酶識(shí)別位點(diǎn);擴(kuò)增第一文庫(kù)構(gòu) 建體;將第一文庫(kù)構(gòu)建體圓形化;用識(shí)別限制性核酸內(nèi)切酶識(shí)別位點(diǎn)第一銜接物的限制性 核酸內(nèi)切酶消化文庫(kù)構(gòu)建體;以及將第二銜接物連接到文庫(kù)構(gòu)建體以制作第二文庫(kù)構(gòu)建 體,其中這些步驟的一個(gè)或多個(gè)步驟包含在反應(yīng)混合物中的嵌入劑。在一個(gè)具體方面,可以 重復(fù)這些步驟直到期望數(shù)量的散在銜接物已連接到靶核酸。
[0221] 在再一個(gè)實(shí)施方式中,本發(fā)明提供一種用于增加組合的聚合酶反應(yīng)與連接反應(yīng)的 選擇性的方法,其包括:將核酸雜交到引物;通過(guò)用聚合酶使延伸引物以形成引物延伸產(chǎn) 物,并且將延伸的引物產(chǎn)物的一端連接到雙鏈核酸而對(duì)所述的雜交的核酸執(zhí)行延伸反應(yīng), 其中在嵌入劑存在下實(shí)施延伸反應(yīng)和連接反應(yīng)。在一個(gè)具體方面,引物延伸產(chǎn)物所連接的 雙鏈核酸是延伸的引物產(chǎn)物的相反端。在其它方面,將引物延伸產(chǎn)物連接到單獨(dú)的核酸。在 一個(gè)具體方面,分離的核酸是銜接物。這種方法可用于制造核酸文庫(kù),如上所述。
[0222] 如本文中更詳細(xì)的描述,在一些實(shí)施方式中,將布置的靶與錨定雜交,接著清洗并 丟棄掉過(guò)量的錨定。然后,將陣列與T4DNA連接酶和在3'端或者5'端標(biāo)記的9個(gè)單體單 元熒光測(cè)序探針的混合物進(jìn)行雜交。9個(gè)單體單元測(cè)序探針在T4連接酶的存在下參與和 錨定寡核苷酸連接,從而形成穩(wěn)定雜交以及以序列特異性方式形成熒光團(tuán)與錨定和靶核酸 的締合。任選地包含在這種連接反應(yīng)中的是雙鏈的結(jié)合基團(tuán),諸如溴化乙錠,其可以以變化 的濃度而存在,包括大約lng/ul至lOng/ul的濃度。替代的嵌入劑包括但不限于:二氫乙 啶、乙錠均二聚物-1、乙錠均二聚物-2、吖啶、碘化丙啶、Y0Y0-1或T0T0-1、原黃素、柔紅霉 素、阿霉素、和沙利度胺。
[0223] 信號(hào)強(qiáng)度受到存在于反應(yīng)物中的嵌入劑的濃度的影響。例如,將連接反應(yīng)中的溴 化乙錠濃度從lng/ul增加到lOng/ul導(dǎo)致全部4個(gè)熒光探針總信號(hào)強(qiáng)度的降低。信號(hào)強(qiáng) 度的降低可反應(yīng)溴化乙錠對(duì)雙鏈DNA的去穩(wěn)定化的作用并且提示用于提高色純度的機(jī)制。 當(dāng)向雙鏈?zhǔn)┘尤シ€(wěn)定化力時(shí),錯(cuò)配的加入具有產(chǎn)生比將錯(cuò)配添加到非去穩(wěn)定化雙鏈中更大 的去穩(wěn)定化的作用。降低的信號(hào)強(qiáng)度自身不是不利的,并且可以用測(cè)量?jī)x器的適當(dāng)?shù)拿舾?性加以補(bǔ)償。 其災(zāi)測(cè)序方法
[0224] 在一個(gè)方面,本發(fā)明的方法和組合物結(jié)合使用,例如W02007120208, W02006073504、TO2007133831 和US2007099208,以及美國(guó)專利申請(qǐng) 60/992,485 ; 61/026,337 ;61/035,914 ;61/061, 134 ;61/116, 193 ;61/102,586 ; 12/265,593 ; 12/266, 385 ; 11/938, 096 ; 11/981, 804 ;11/981, 797 ;11/981, 793 ;11/981, 767 ; 11/981,761 ; 11/981,730 ; 11/981,685 ; 11/981,661 ; 11/981,607 ; 11/981,605 ; 11/927, 388 ;11/927, 356 ;11/679, 124 ;11/541,225 ;10/547, 214 ;11/451,692;和 11/451,691中所描述的技術(shù),以上所有專利文件的全部?jī)?nèi)容以參考的方式并入本文中用于 所有目的,并且具體地用于與測(cè)序有關(guān)的所有揭示,尤其是多聯(lián)體的測(cè)序。
[0225] 在另一個(gè)方面,利用本領(lǐng)域中已知的測(cè)序方法鑒定DNB的序列,包括但不限 于基于雜交的方法,例如諸如公開于Drmanac的美國(guó)專利6, 864, 052 ;6, 309, 824 ;和 6, 401,267 ;和Drmanac等人的美國(guó)專利公開2005/0191656,和利用合成的測(cè)序方法, 例如Nyren等人的美國(guó)專利6, 210,891 ;Ronaghi的美國(guó)專利6,828, 100 ;Ronaghi等人 (1998),Science,281:363-365;Balasubramanian的美國(guó)專利 6, 833, 246;Quake的美國(guó)專 利 6, 911,345;Li等人,Proc.Natl.Acad.Sci.,100 :414-419(2003);Smith等人的PCT公 布TO2006/074351;Bowers等人,Nat.Methods6:593-595(2009);和Thompson等人,Curr. Protoc.Mol.Biol.,第 7 章:Unit7. 10 (2010);和基于連接的方法,例如Shendure等人 (2005),Science, 309:1728-1739,和Macevicz的美國(guó)專利 6, 306, 597 ;其中這些參考文獻(xiàn) 的全部?jī)?nèi)容以參考的方式并入本文中用于所有目的,并且尤其是關(guān)于描述組合物、使用該 組合物的方法和制造該組合物的方法的圖示、圖例和附屬文本的教導(dǎo),尤其是有關(guān)于測(cè)序 的教導(dǎo)。
[0226] 在一些實(shí)施方式中,將本發(fā)明的核酸模板、以及由這些模版產(chǎn)生的DNB用于利用 合成的測(cè)序方法。與不包括多個(gè)散在銜接物的常規(guī)的使用核酸的利用合成的測(cè)序方法相 比,利用使用本發(fā)明核酸模板的利用合成測(cè)序的方法的效率得到提高。不是單個(gè)長(zhǎng)閱讀,本 發(fā)明的核酸模板允許各自在模板中的一個(gè)銜接物處開始的多個(gè)短閱讀。這種短閱讀消耗較 少的標(biāo)記的dNTP,因此節(jié)約試劑的成本。另外,可以在DNB陣列上實(shí)施利用合成反應(yīng)的測(cè) 序,提供高密度的測(cè)序靶以及多個(gè)拷貝的單體單元。這種陣列以單個(gè)分子水平提供可檢測(cè) 信號(hào),同時(shí)提供增加量的序列信息,因?yàn)榇蟛糠只蛩械腄NB單體單元將在不損失測(cè)序相 的情況下被延伸。在一些實(shí)施方式中高密度的陣列也降低試劑成本,與常規(guī)的利用合成的 測(cè)序方法相比試劑成本的降低可以為大約30至大約40 %。在一些實(shí)施方式中,本發(fā)明的核 酸模板的散在的銜接物提供一種將大約2至大約10個(gè)標(biāo)準(zhǔn)的閱讀組合的方法,如果在彼此 相距大約30至大約100個(gè)堿基的距離處插入。在這種實(shí)施方式中,新合成的鏈將無(wú)需除去 用于進(jìn)一步的測(cè)序循環(huán),因此允許在利用合成循環(huán)進(jìn)行大約100至大約400次的測(cè)序中使 用單個(gè)DNB陣列。
[0227] 在本發(fā)明的一些實(shí)施方式中,將未鏈接的cPAL測(cè)序方法擴(kuò)展以包括使用測(cè)序探 針的2個(gè)或2個(gè)以上的連接事件。例如,在檢測(cè)到包含連接到含有一個(gè)或多個(gè)錨定的構(gòu)建 體的第一測(cè)序探針的第一連接產(chǎn)物之后,可以在第一連接產(chǎn)物相鄰的位置將第二測(cè)序探針 雜交到核酸靶并且連接到第一測(cè)序探針。然后,可以對(duì)第二測(cè)序探針進(jìn)行檢測(cè)。正如將會(huì) 理解的,多個(gè)測(cè)序探針可經(jīng)歷這種雜交-連接循環(huán)。然后可以將所得連接產(chǎn)物從靶中除去 并且可以執(zhí)行如本文中描述的另一回合的cPAL測(cè)序。在這種實(shí)施方式中,將未鏈接的cPAL 測(cè)序方法部分地與使用一個(gè)或多個(gè)額外的測(cè)序探針的鏈接方法組合。正如將理解的,可以 利用本【技術(shù)領(lǐng)域】中已知的方法檢測(cè)各新測(cè)序探針。例如,如果用熒光團(tuán)標(biāo)記測(cè)序探針,在檢 測(cè)各連接的測(cè)序探針之后,可以將附接的熒光團(tuán)切斷,從而允許第二測(cè)序探針添加到被檢 測(cè)的"鏈"中并且沒(méi)有來(lái)自在第一測(cè)序探針上的標(biāo)記的干擾。 兩相測(cè)丨序
[0228] 在一個(gè)方面,本發(fā)明提供用于"兩相"測(cè)序的方法,該測(cè)序在本文中也被稱為"鳥槍 法測(cè)序"。這種方法描述于2008年12月1日提交的美國(guó)專利申請(qǐng)12/325, 922中,該專利 申請(qǐng)的全部?jī)?nèi)容以參考的方式并入本文中用于所有目的,尤其是用于與兩相或鳥槍法測(cè)序 相關(guān)的所有教導(dǎo)。
[0229] 通常,本發(fā)明中采用的兩相測(cè)序方法包括以下步驟:(a)對(duì)靶核酸進(jìn)行測(cè)序以形 成包含一個(gè)或多個(gè)感興趣序列的初級(jí)靶核酸序列;(b)合成多個(gè)靶特異性寡核苷酸,其中 所述多個(gè)靶特異性寡核苷酸中的每個(gè)對(duì)應(yīng)于感興趣序列中的至少一個(gè);(c)提供雜交到多 個(gè)靶特異性寡核苷酸靶核酸的片段的文庫(kù)(或者包含還可包含例如銜接物和其它序列的 這種片段的構(gòu)建體,如本文中的描述);和(d)對(duì)片段的文庫(kù)(或者包含這種片段的構(gòu)建 體)進(jìn)行測(cè)序以便形成次極靶核酸序列。為了封閉由于缺失的序列所造成的空缺或者解決 低基因組DNA的初級(jí)序列中的可信度堿基識(shí)別,諸如人基因組DNA,用于這些方法被合成的 靶特異性寡核苷酸的數(shù)量可以是大約1萬(wàn)至大約1百萬(wàn);因此本發(fā)明預(yù)期至少大約10, 〇〇〇 個(gè)靶特異性寡核苷酸、或者大約25, 000、或者大約50, 000、或者大約100, 000、或者大約 20, 000、或者大約50, 000、或者大約100, 000、或者大約200, 000或200, 000以上的使用。
[0230] 說(shuō)到多個(gè)靶特異性寡核苷酸"對(duì)應(yīng)于"感興趣序列中的至少一個(gè),它表示這種靶特 異性寡核苷酸被設(shè)計(jì)成雜交到與(包括但不限于)感興趣的序列接近的相鄰的靶核酸,使 得雜交到這種寡核苷酸的靶核酸的片段將包括感興趣的序列存在較高可能性。因此,可將 這種靶特異性寡核苷酸用于雜交捕獲性方法,以形成富含這種感興趣序列的片段的文庫(kù), 作為對(duì)感興趣序列進(jìn)行測(cè)序的測(cè)序引物,作為用于擴(kuò)增感興趣序列的擴(kuò)增引物,或者為了 其它目的。
[0231] 在根據(jù)本發(fā)明的鳥槍法測(cè)序和其它測(cè)序方法中,在測(cè)序閱讀的裝配之后,本領(lǐng)域 技術(shù)人員將了解裝配的序列存在空缺或者一個(gè)或多個(gè)堿基或在序列中特位點(diǎn)的堿基伸展 中存在低可信度。感興趣的序列,可包括這種空缺、低可信度序列,或者簡(jiǎn)單地在特映射置 的不同序列(即,靶序列中的一個(gè)或多個(gè)核苷酸的變化),也可以通過(guò)將初級(jí)靶核酸序列與 參考序列進(jìn)行比較而確定。
[0232] 根據(jù)這種方法的一個(gè)實(shí)施方式,對(duì)靶核酸進(jìn)行測(cè)序以形成包含序列閱讀的計(jì)算輸 入和序列閱讀的計(jì)算裝配的初級(jí)靶核酸序列從而形成初級(jí)靶核酸序列。另外,可以計(jì)算靶 特異性寡核苷酸的設(shè)計(jì),并且可以將靶特異性寡核苷酸的這種計(jì)算的合成與序列閱讀的計(jì) 算的輸入和裝配以及靶特異性寡核苷酸設(shè)計(jì)相結(jié)合。這是特別有用的,因?yàn)楸缓铣傻陌刑?異性寡核苷酸的數(shù)量例如可以是高級(jí)生物體諸如人的基因組的數(shù)萬(wàn)個(gè)或數(shù)十萬(wàn)個(gè)。因此, 本發(fā)明提供由確定序列形成寡核苷酸庫(kù)與用于進(jìn)一步處理的確定的區(qū)域的步驟的自動(dòng)化 集成。在一些實(shí)施方式中,計(jì)算機(jī)驅(qū)動(dòng)程序使用靠近或者與這種確定的區(qū)域相鄰的確定的 區(qū)域和確定的序列來(lái)設(shè)計(jì)寡核苷酸以便分離并且/或者形成覆蓋這些區(qū)域的新片段。然 后,可以如本文中的描述將寡核苷酸用于從第一測(cè)序文庫(kù)或者從第一測(cè)序文庫(kù)的前體中分 離片段,或者從由相同的靶核酸形成相同的測(cè)序文庫(kù)中分離片段,或者直接地從靶核酸中 分離片段,等。在其它實(shí)施方式中,此自動(dòng)化集成的進(jìn)一步分析鑒定區(qū)域和分離/形成第二 文庫(kù)限定寡核苷酸庫(kù)中的寡核苷酸的序列的并且指導(dǎo)這些寡核苷酸的合成。
[0233] 在本發(fā)明的兩相測(cè)序方法的一些實(shí)施方式中,在雜交捕獲步驟后執(zhí)行釋放步驟, 在該技術(shù)的其它方面,在第二測(cè)序步驟之前執(zhí)行擴(kuò)增步驟。
[0234] 在其它實(shí)施方式中,在鑒定步驟中通過(guò)將確定的序列與參考序列進(jìn)行比較而確定 部分或全部的區(qū)域。在一些方面,基于參考序列利用包含寡核苷酸的寡核苷酸的庫(kù)將第二 鳥槍法測(cè)序文庫(kù)分離。另外,在一些方面,寡核苷酸的庫(kù)包含至少1000個(gè)不同序列的寡核 苷酸,在其它方面,寡核苷酸的庫(kù)包含至少10, 〇〇〇、25, 000、50, 000、75, 000或100, 000或更 多的不同序列的寡核苷酸。
[0235] 在本發(fā)明的一些方面,此兩相測(cè)序方法中使用的測(cè)序步驟中的一個(gè)或多個(gè)通過(guò)利 用連接的測(cè)序來(lái)實(shí)施,并且在其它方面,通過(guò)利用雜交的測(cè)序或者利用合成的測(cè)序來(lái)執(zhí)行 測(cè)序步驟中的一個(gè)或多個(gè)。
[0236] 在本發(fā)明的某些方面,確定在大約1至大約30%之間的靶核酸復(fù)合物要被執(zhí)行方 法的PhaseII中的重新測(cè)序,并且在其它方面,確定在大約1至大約10%之間的靶核酸復(fù) 合物要被執(zhí)行方法的PhaseII中的重新測(cè)序。在一些方面,確定的靶核酸復(fù)合物的覆蓋率 是在大約25x至大約100x之間。
[0237] 在其它方面,確定和合成用于在方法的PhaseII中重新測(cè)序的各靶核酸區(qū)域的1 至大約10個(gè)祀特異性選擇寡核苷酸;在其它方面,確認(rèn)用于在方法的PhaseII中的重新測(cè) 序的各靶核酸區(qū)域的大約3至大約6個(gè)靶特異性選擇寡核苷酸,以便執(zhí)行。
[0238] 在該技術(shù)的其它方面,利用自動(dòng)化步驟確認(rèn)并合成靶特異性選擇寡核苷酸,其中 鑒定核酸復(fù)合物缺失核酸序列或者具有低可信度核酸序列的區(qū)域和鑒定用于特異性選擇 寡核苷酸的序列的步驟與寡核苷酸合成軟件和硬件相互通信從而合成靶特異性選擇寡核 苷酸。在該技術(shù)的其它方面,靶特異性選擇寡核苷酸的長(zhǎng)度是在大約20和大約30個(gè)堿基 之間,并且在一些方面是未修飾的。
[0239] 不是所有確定進(jìn)一步分析的區(qū)域可以實(shí)際上存在于靶核酸復(fù)合物中。在預(yù)測(cè)區(qū) 域中缺乏覆蓋率的一個(gè)原因可以是預(yù)計(jì)在靶核酸復(fù)合物中的區(qū)域?qū)嶋H上可以是不存在的 (例如,可以被刪除或者重新布置在靶核酸中的區(qū)域),因此并非所有的由庫(kù)所形成的寡核 苷酸可將包含在第二鳥槍法測(cè)序文庫(kù)中的片段加以分離。在一些實(shí)施方式中,至少一個(gè)寡 核苷酸將被設(shè)計(jì)成和形成用于確定進(jìn)一步分析的各區(qū)域。在其它實(shí)施方式中,平均3個(gè)或3 個(gè)以上的寡核苷酸將被提供用于進(jìn)一步分析的被確認(rèn)各區(qū)域。本發(fā)明的一個(gè)特征是,寡核 苷酸的庫(kù)可以用于通過(guò)使用來(lái)源于靶核酸的模板將寡核苷酸聚合酶延伸而直接地形成第 二鳥槍法測(cè)序文庫(kù)。本發(fā)明的另一個(gè)特征是,寡核苷酸的庫(kù)可以用于通過(guò)使用寡核苷酸庫(kù) 的循環(huán)依賴性復(fù)制和循環(huán)依賴性復(fù)制而直接地形成擴(kuò)增子。本發(fā)明的另一個(gè)特征是所述方 法將提供測(cè)序信息以鑒定感興趣區(qū)域是否存在,例如確認(rèn)用于分析的預(yù)測(cè)的區(qū)域不存在, 例如由于缺失或者重排。
[0240] 兩相測(cè)序方法的上述實(shí)施方式可以結(jié)合本文中描述和本領(lǐng)域中已知的任何核酸 構(gòu)建體和測(cè)序方法而使用。 SNP檢測(cè)
[0241] 在其它實(shí)施方式中上述的方法和組合物可以用于檢測(cè)核酸構(gòu)建體中的特定序列 諸如DNB。具體地,采用測(cè)序和錨定的cPAL方法可以用于檢測(cè)與遺傳突變相關(guān)的多態(tài)性或 序列,包括單核苷酸多態(tài)性(SNP)。例如,為了檢測(cè)SNP的存在,可以使用兩組的區(qū)別標(biāo)記的 測(cè)序探針,使得對(duì)一個(gè)探針與其他探針相比的檢測(cè)表示多態(tài)性是否存在于樣品中。這種測(cè) 序探針可以結(jié)合在類似于上述cPAL方法的方法中的錨定使用以便進(jìn)一步提高SNP檢測(cè)的 特異性和效率。 長(zhǎng)片段閱讀摶術(shù) 概沭
[0242] 單獨(dú)的人基因組在本質(zhì)上是雙倍體,其中一半的同源染色體來(lái)源于各雙親。在每 個(gè)個(gè)體染色體上發(fā)生變異的情況對(duì)基因表達(dá)和調(diào)節(jié)以及基因組的其它轉(zhuǎn)錄區(qū)域具有深遠(yuǎn) 的影響。此外,確認(rèn)如果在基因的一個(gè)或兩個(gè)等位基因中發(fā)生2個(gè)潛在有害突變具有至高 的臨床重要性。
[0243] 用于全基因組測(cè)序的目前方法缺乏以成本效益的方式單獨(dú)地裝配雙親染色體的 能力,并且描述其中同時(shí)發(fā)生變異的上下文(單體型)。模擬實(shí)驗(yàn)表明染色體-水平單體型 分析需要跨過(guò)至少70-100kb的范圍的等位基因連接信息。這不能用使用擴(kuò)增的DNA的現(xiàn) 有技術(shù)來(lái)實(shí)現(xiàn),由于長(zhǎng)DNA分子難以均勻擴(kuò)增以及測(cè)序中連接信息損失,因而局限于閱讀 少于1000個(gè)堿基。配對(duì)技術(shù)可以提供延伸的閱讀長(zhǎng)度的等同物,但由于制作這種DNA文庫(kù) 的低效率(由于圓形化的DNA長(zhǎng)度長(zhǎng)于數(shù)kb的困難)因而局限于小于10kb。此方法也需 要最大程度的閱讀覆蓋率以連接所有雜合子。
[0244] 如果處理這種長(zhǎng)分子是可行的,如果單分子測(cè)序的精確度高,并且檢測(cè)/儀器成 本低,則大于l〇〇kbDNA片段的單分子測(cè)序?qū)⒖捎糜趩误w型分析。這非常難以在短分子上 以高產(chǎn)率實(shí)現(xiàn),更不用說(shuō)在l〇〇kb片段上。
[0245] 最近的人基因組測(cè)序已經(jīng)在短閱讀長(zhǎng)度(<200bp)、高度平行化的系統(tǒng)中實(shí)施,以 數(shù)百納克的DNA開始。這些技術(shù)非常優(yōu)越于快速并經(jīng)濟(jì)地生成大容量的數(shù)據(jù)。遺憾地,經(jīng) 常與小配對(duì)-空缺尺寸(500bp-10kb)配對(duì)的短閱讀消除了超過(guò)數(shù)千堿基的大部分的SNP 相信息(McKernan等人,GenomeRes. 19 :1527, 2009)。此外,由于剪切,在多處理步驟中在 無(wú)裂解段的情況下維持長(zhǎng)DNA片段是非常困難的。]
[0246] 目前,三個(gè)個(gè)人基因組:J.CraigVenter的個(gè)人基因組(Levy等人,PLoS Biol. 5:e254, 2007),GujaratiIndian(HapMap樣品NA20847;Kitzman等人,Nat. Biotechnol. 29:59, 2011),和兩個(gè)歐洲的(MaxPlanckOne[MPl];Suk等人,Genme Res.,2011 ;genome.cshlp.org/content/early/2011/09/02/gr. 125047. 111.full,pdf; 以及HapMap樣品NA12878;Duitama等人,Nucl.AcidsRes. 40:2041-2053,2012)已被 測(cè)序和裝配為雙倍體。所有的均涉及在類似于在人參考基因組的構(gòu)建期間所采用的細(xì) 菌人工染色體(BAC)測(cè)序的步驟中將長(zhǎng)DNA片段克隆入構(gòu)建體(Venter等人,Science 291:1304, 2001 ;Lander等人,Nature409 :860, 2001)。雖然這些步驟產(chǎn)生長(zhǎng)的分階段重 疊群(N50s具有 350kb[Levy等人,PLoSBiol. 5 :e254, 2007]、386kb[Kitzman等人,恥七 Biotechnol. 29 :59-63,2011]和lMb[Suk等人,基因組Res. 21 :1672-1685, 2011]),但它們 需要大量的初始DNA,密集的文庫(kù)處理,因而過(guò)于昂貴而難以在常規(guī)的臨床環(huán)境中使用。
[0247] 另外,已在中期染色體的直接分離中揭示全染色體單體型分析(Zhang等人, Nat.Genet. 38:382-387, 2006;Ma等人,Nat.Methods7 :299_301,2010;Fan等人,Nat. Biotechnol. 29 :51-57, 2011;Yang等人,Proc.Natl.Acad.Sci.USA108 :12-17, 2011)。這 些方法非常適用于長(zhǎng)范圍單體型分析但尚未用于全基因組測(cè)序,這些方法要求全中期染色 體的制備和分離,這對(duì)于一些臨床樣品是困難的。
[0248] LFR方法克服了這些限制。LFR包括DNA制備和標(biāo)記,連同相關(guān)的算法和軟件,從 而能夠在雙倍體基因組中準(zhǔn)確地裝配親代染色體的單獨(dú)序列(即,完全的單體型分析)從 而顯著地降低實(shí)驗(yàn)和計(jì)算成本。
[0249] LFR是基于跨過(guò)許多不同的等分部分的基因組DNA(或其它核酸)的長(zhǎng)片段的物 理分離,因此使得基因組的任何給定區(qū)域在相同的等分部分中呈現(xiàn)母源和親代組件兩者存 在低可能性。通過(guò)將唯一的標(biāo)識(shí)符置于各等分部分中并分析集合中的許多等分部分,可以 將DNA序列數(shù)據(jù)裝配入雙倍體基因組,例如,可以確定各親代染色體的序列。LFR不要求將 核酸復(fù)合物的片段克隆入載體,正如在使用大片段(例如BAC)文庫(kù)的單體型分析方法中。 LFR也不需要生物體的單獨(dú)染色體的直接分離。最后,可以在單獨(dú)生物體中實(shí)施LFR并且不 需要成群的生物體從而完成單倍型分階段。
[0250] 本文中使用的術(shù)語(yǔ)"載體"表示其中插入外源DNA片段的質(zhì)?;虿《据d體。利用 載體將外源DNA導(dǎo)入合適的宿主細(xì)胞,其中載體和插入的外源DNA由于載體的存在而復(fù)制, 例如,復(fù)制的功能源或者主動(dòng)復(fù)制序列的載體。本文中使用的術(shù)語(yǔ)"克隆"是指將DNA的片 段插入載體并且在合適的宿主細(xì)胞中復(fù)制插入的外源DNA。
[0251]LFR可以結(jié)合本文中詳細(xì)論述的測(cè)序方法使用,更通常,作為結(jié)合本領(lǐng)域中已知的 任何測(cè)序技術(shù)(包括短閱讀和較長(zhǎng)閱讀方法兩者)的預(yù)處理方法。LFR也可以結(jié)合各種類型 的分析(包括例如轉(zhuǎn)錄組、甲基化組等)的分析使用。因?yàn)樗枰浅I俚妮斎隓NA,所以 LFR可以用于對(duì)一個(gè)細(xì)胞或者少量的細(xì)胞測(cè)序和單體型分析,這對(duì)于癌癥、產(chǎn)前診斷和個(gè)體 化醫(yī)療是尤其重要的。這可以便于家族遺傳性疾病等的鑒定,等。由于能夠識(shí)別雙倍體樣 品中的兩組染色體,LFR也允許以低覆蓋率以較高可信度識(shí)別突變和非突變位置。LFR的其 它用途包括在癌癥基因組廣泛的重新布置的解析度和可替代地切除轉(zhuǎn)錄體的全長(zhǎng)度測(cè)序。
[0252]LFR可以用于處理和分析核酸復(fù)合物,包括但不限于基因組DNA,也就是說(shuō)純化的 或未純化的,包括在不剪切和過(guò)度地裂解這種核酸復(fù)合物的情況下輕柔地分裂以釋放這種 核酸復(fù)合物的細(xì)胞和組織。
[0253] 在一個(gè)方面,LFR形成長(zhǎng)度約為100-1000kb的虛擬閱讀長(zhǎng)度。
[0254] 另外,LFR也可以顯著地降低任何短閱讀技術(shù)的計(jì)算需求和相關(guān)的成本。重要地, 如果減小總產(chǎn)率,LFR除去對(duì)延伸測(cè)序閱讀長(zhǎng)度的需要。LFR的另一個(gè)益處是顯著降低由目 前測(cè)序技術(shù)造成的錯(cuò)誤或可疑堿基識(shí)別(10至1000倍),通常每l〇〇kbl個(gè),或者每個(gè)人基 因組30, 000假陽(yáng)性識(shí)別,以及每個(gè)人基因組類似數(shù)量的未檢測(cè)突變。該錯(cuò)誤的顯著減小使 對(duì)隨后對(duì)檢測(cè)的突變的確認(rèn)的需求最小化并且便于將人基因組測(cè)序用于診斷用途。
[0255] 除了適用于所有的測(cè)序平臺(tái)外,基于LFR的測(cè)序也可以用于任何用途,包括但不 限于:癌癥基因組中的結(jié)構(gòu)重排的研宄、包括甲基化位點(diǎn)的單倍型的全甲基化組分析,和巨 大基因組或新基因組測(cè)序的重新裝配應(yīng)用,新基因組甚至是如在植物中發(fā)現(xiàn)的復(fù)合物多倍 體基因組。
[0256] LFR提供獲得個(gè)體染色體的實(shí)際序列的能力,實(shí)際序列與雙親或相關(guān)的染色體的 一致序列相反(雖然它們具有高相似性以及長(zhǎng)重復(fù)和片段復(fù)制的存在)。為了生成此類型 的數(shù)據(jù),通常是在長(zhǎng)DNA范圍(例如100kb至1Mb)內(nèi)建立序列的連續(xù)性。
[0257] 本發(fā)明的另一個(gè)方面包括用于高效率地將LFR數(shù)據(jù)用于全染色體單倍型和結(jié)構(gòu) 變異映射、和假陽(yáng)性/陰性錯(cuò)誤糾正至每個(gè)人基因組小于300個(gè)誤差的軟件和算法。
[0258] 在再一個(gè)方面,根據(jù)等分部分和使用細(xì)胞的數(shù)量,本發(fā)明的LFR技術(shù)降低各等分 部分中的DNA復(fù)雜度達(dá)100-1000倍。復(fù)合度降低和>100kb長(zhǎng)DNA的單倍型分離可以有助 于更高效率且成本效益地(高達(dá)100倍的成本降低)裝配和檢測(cè)人和其它雙倍體基因組中 的所有變異。
[0259] 本文中描述的LFR方法可以用作利用本【技術(shù)領(lǐng)域】已知的任何測(cè)序方法測(cè)序雙 倍體基因組的預(yù)處理步驟。在其它實(shí)施方式中本文中描述的LFR方法可用于任意數(shù)量 的測(cè)序平臺(tái),包括例如但不限于:基于聚合酶的利用合成的測(cè)序(例如,HiSeq2500系 統(tǒng),Illumina,加州圣地亞哥),基于連接的測(cè)序(例如,S0LiD5500,LifeTechnologies 公司,加州卡爾斯巴德)、離子半導(dǎo)體測(cè)序(例如,離子PGM或者離子質(zhì)子測(cè)序儀,Life Technologies公司,加州卡爾斯巴德)、零模式波導(dǎo)(例如,PacBioRS測(cè)序儀,Pacific Biosciences,加州門洛帕克)、納米孔測(cè)序(例如,OxfordNanoporeTechnologied有限公 司,英國(guó)牛津)、pyro測(cè)序(例如,454LifeSciences,布蘭福德,CT),或者其它測(cè)序技術(shù)。這 些測(cè)序技術(shù)中的一些是短閱讀技術(shù),但其它技術(shù)則形成較長(zhǎng)的閱讀,例如GSFLX+ (454Life Sciences;多達(dá) 1000bp)、PacBioRS(PacificBiosciences;大約 1000bp)和納米孔測(cè)序 (OxfordNanoporeTechnologied有限公司;100kb)。就單倍型分階段而言,較長(zhǎng)的閱讀是 有利的,從而需要少得多的計(jì)算,丹它們往往具有較高的錯(cuò)誤率,并且需要按照本文中所陳 述的方法在單倍型分階段之前對(duì)這種長(zhǎng)閱讀中的錯(cuò)誤進(jìn)行確認(rèn)和糾正。
[0260] 根據(jù)本發(fā)明的一個(gè)實(shí)施方式,LFR的基本步驟包括:1)將核酸復(fù)合物(例如,基因 組DNA)的長(zhǎng)片段分離成等分部分,各等分部分含有一部分的基因組當(dāng)量的DNA; (2)擴(kuò)增各 等分部分中的基因組片段;(3)裂解擴(kuò)增的基因組片段以形成具有適合于文庫(kù)構(gòu)建的大小 的短片段(例如,在一個(gè)實(shí)施方式中長(zhǎng)度約為500個(gè)堿基);(4)標(biāo)記短片段從而允許短片 段所起源的等分部分的鑒定;(5)匯集標(biāo)記的片段;(6)對(duì)匯集的標(biāo)記的片段進(jìn)行測(cè)序;和 (7)對(duì)所形成的序列數(shù)據(jù)進(jìn)行分析以便映射和裝配數(shù)據(jù)并且獲得單倍型信息。根據(jù)一個(gè)實(shí) 施方式,LFR使用具有在各孔中的10-20%的單倍體基因組的384孔板,獲得各片段的母源 和親代等位基因的理論的19-38x物理覆蓋率。19-38x的初始DNA冗余性確保全基因組覆 蓋率和較高的突變識(shí)別和分階段精確度。LFR避免將核酸復(fù)合物的片段亞克隆入載體或者 分離單獨(dú)的染色體的需要(例如,中期染色體)并且它可以是完全自動(dòng)化的,使得它適合于 高吞吐量、成本效益的應(yīng)用。
[0261] 我們也已開發(fā)出了將LFR用于錯(cuò)誤減小和其它目的的技術(shù),如本文中的詳細(xì)說(shuō)明。 LFR方法描述于美國(guó)專利申請(qǐng)12/329, 365和13/447, 087、美國(guó)專利公開US2011-0033854 和 2009-0176234,和美國(guó)專利 7, 901,890、7, 897, 344、7, 906, 285、7, 901,891 和 7, 709, 197 中,以上所有專利的全部?jī)?nèi)容以參考的方式并入本文中。
[0262] 本文中使用的術(shù)語(yǔ)"單倍型"表示傳輸?shù)揭黄鸬娜旧w上相鄰位置(基因座)的 等位基因的組合,或者可替代地,在是統(tǒng)計(jì)學(xué)相關(guān)的染色體對(duì)的單個(gè)染色體上的成組序列 突變。每個(gè)人個(gè)體具有兩組染色體,一組是是親代的另一組是母源的。通常,DNA測(cè)序僅產(chǎn) 生基因型信息,沿DNA的片段的無(wú)序等位基因的序列。推斷基因型的單倍型將在各無(wú)序配 對(duì)中的等位基因分離成兩個(gè)單獨(dú)的序列,每個(gè)識(shí)別單倍型。單倍型信息對(duì)于許多不同類型 的遺傳分析是必需的,包括疾病關(guān)聯(lián)研宄并且做出關(guān)于群系譜的推論。
[0263] 本文中使用的術(shù)語(yǔ)"分階段"(或者分解)表示將序列數(shù)據(jù)分類為兩組的親代染色 體或者單倍型。單倍型分階段是指如下問(wèn)題:以用于1個(gè)個(gè)體或1個(gè)群的成組基因型作為 輸入接收(即,多于1個(gè)的個(gè)體)并且輸用于每個(gè)個(gè)體的成對(duì)單倍型,一個(gè)是親代而另一個(gè) 是母源的。分階段可以包括在基因組的區(qū)域或者少至在閱讀或重疊群中的2個(gè)序列突變上 解析序列數(shù)據(jù),這可以被稱為局部分階段,或者微分階段。它也可以包括較長(zhǎng)重疊群的分階 段,通常包括大于大約10個(gè)序列突變,或者甚至全基因組序列,這可以被稱為"通用的分階 段"。任選地,在基因組裝配期間發(fā)生分階段序列突變。 基閔組當(dāng)量的核酸復(fù)合物的等分部分
[0264] LFR步驟是基于將長(zhǎng)片段的基因組隨機(jī)物理分離成許多等分部分,使得各等分部 分含有一部分的單倍體基因組。當(dāng)各庫(kù)中的基因組的比例減小時(shí),具有來(lái)自相同庫(kù)中的親 代染色體的相應(yīng)片段的統(tǒng)計(jì)學(xué)可能性顯著地減小。
[0265] 在一些實(shí)施方式中,將10%基因組當(dāng)量等分入多孔板的各孔。在其它實(shí)施方式中, 將1%至50%的基因組當(dāng)量的核酸復(fù)合物等分入各孔。如上所述,等分部分和基因組當(dāng)量 的數(shù)量可以取決于等分部分的數(shù)量、初始片段大小、或者其它因素。任選地,在等分之前將 雙鏈核酸(例如,人基因組)變性;因此可以將單鏈補(bǔ)體分成不同的等分部分。
[0266] 例如,在每個(gè)等分部分0? 1基因組當(dāng)量(大約0? 66picogram或pg的DNA,在每個(gè) 人基因組大約6. 6pg)下,存在10%幾率的兩個(gè)片段將重疊和,50%的幾率片段這些將來(lái)源 于單獨(dú)的親代染色體;產(chǎn)生95%的幾率在等分部分中堿基對(duì)是非重疊的,S卩,5%總幾率特 定等分部分將不能提供用于給定片段的信息,因?yàn)榈确植糠趾衼?lái)源于母源染色體和親代 染色體兩者的片段??梢源_定不可提供信息的等分部分,因?yàn)閬?lái)源于這種等分部分的序列 數(shù)據(jù)含有增加量的"噪音",也就是說(shuō),成對(duì)的螺旋之間的連接矩陣中的雜質(zhì)。模糊干擾系統(tǒng) (FIS)允許針對(duì)某種程度雜質(zhì)的穩(wěn)健性,S卩,不管雜質(zhì)(高達(dá)某種程度)它可以糾正連接。 甚至可以使用較小量的基因組DNA,尤其是在微米或納米液滴或乳液的情況下,其中各液滴 可以包含一個(gè)DNA片段(例如,單個(gè)50kb片段的基因組DNA或者大約1. 5X10_5基因組當(dāng) 量)。甚至在50%的基因組當(dāng)量下,大部分的等分部分將會(huì)是可提供信息的。在較高的水 平下,例如70%的基因組當(dāng)量,可以確定和使用可提供信息的孔。根據(jù)本發(fā)明的一個(gè)方面, 0? 000015、0. 0001、0. 001、0. 01、0. 1、1、5、10、15、20、25、40、50、60 或 70% 的基因組當(dāng)量的 核酸復(fù)合物存在于各等分部分中。
[0267] 應(yīng)當(dāng)理解的是,稀釋因子以取決于片段的初始大小。也就是說(shuō),使用溫和技術(shù)來(lái)分 離基因組DNA,可以獲得大約100kb的片段,然后進(jìn)行等分。允許較大片段的技術(shù)導(dǎo)致需要 較少的等分部分,導(dǎo)致較短的片段會(huì)需要更多的稀釋。
[0268] 我們已成功地在不進(jìn)行DNA純化的情況下實(shí)施在相同反應(yīng)中的全部六個(gè)酶步驟, 這便于小型化和自動(dòng)化并且能夠使LFR適用于種類廣泛的平臺(tái)和樣品制備方法。
[0269] 根據(jù)一個(gè)實(shí)施方式,將各等分部分容納在多孔板(例如,384孔板)的單獨(dú)的孔中。 然而,本領(lǐng)域中已知的任何合適類型的容器或系統(tǒng)均可以用于容納等分部分,或者可以使 用微液滴或乳液來(lái)實(shí)施LFR步驟,如本文中的描述。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,將體積減 小到亞微升水平。在一個(gè)實(shí)施方式中,可以將自動(dòng)移液方法用于1536孔規(guī)格。
[0270] 一般來(lái)說(shuō),當(dāng)?shù)确植糠值臄?shù)量增加,例如增加到1536,基因組%減小至大約1%的 單倍體基因組,用于單倍型的統(tǒng)計(jì)基質(zhì)顯著地提高,因?yàn)樵谙嗤字心冈春陀H代單倍型兩 者的分散存在減小。因此,具有每個(gè)等分部分可忽略頻率的混合的單倍型的大量小等分部 分允許使用較少的細(xì)胞。類似地,較長(zhǎng)的片段(例如,300kb或更長(zhǎng))有助于在缺乏雜合位 點(diǎn)的片段上橋接。
[0271] 提供50-100nl非接觸移液的納升(nl)分配工具(例如,Hamilton機(jī)械手納升移 液頭,TTPLabTechMosquito,和其它)可以用于快速和低成本的移液以并行地制作數(shù)十個(gè) 基因組文庫(kù)。等分部分?jǐn)?shù)量的增加(與384孔板相比)導(dǎo)致各孔中基因組的復(fù)雜度的大幅 降低,降低總計(jì)算成本超過(guò)10倍并且提高數(shù)據(jù)質(zhì)量。此外,此步驟的自動(dòng)化增加吞吐量并 且降低制造文庫(kù)的處理成本。 伸用較小等分部分體積(包括微液滴和乳液)的LFR
[0272]使用微液滴甚至可以實(shí)現(xiàn)進(jìn)一步的成本降低和其它優(yōu)點(diǎn)。在一些實(shí)施方式中,在 乳液或微流控器件中用組合標(biāo)記實(shí)施LFR。在10, 000個(gè)等分部分中體積減小到皮升水平, 由于較低的試劑和計(jì)算成本可以實(shí)現(xiàn)甚至更大的成本降低。
[0273]在一個(gè)實(shí)施方式中,在384孔規(guī)格LFR使用每個(gè)孔10微升(yl)體積的試劑。 例如,在1536孔規(guī)格可以通過(guò)使用市售的自動(dòng)化移液裝置而減小這種體積。利用提供 50-100nl的非接觸移液的納升(nl)分配工具(例如,HamiltonRoboticsNano移液頭, TTPLabTechMosquito,和其它)可以實(shí)現(xiàn)進(jìn)一步的體積減小,這可以用于快速和低成本的 移液以并行地制作數(shù)十個(gè)基因組庫(kù)。增加等分部分的數(shù)量導(dǎo)致各孔內(nèi)基因組復(fù)雜度的大幅 降低,從而降低總計(jì)算成本并且提高數(shù)據(jù)質(zhì)量。此外,此步驟的自動(dòng)化增加吞吐量并且降低 制作文庫(kù)的成本。
[0274]在其它實(shí)施方式中,實(shí)現(xiàn)各等分部分的唯一的鑒定有8-12堿基對(duì)錯(cuò)誤糾正的條 形碼。在一些實(shí)施方式中,也可使用相同數(shù)量的銜接物。
[0275] 在其它實(shí)施方式中,基于兩組的40個(gè)半條形碼銜接物使用新型組合標(biāo)記方法。在 一個(gè)實(shí)施方式中,文庫(kù)構(gòu)建包括使用兩個(gè)不同的銜接物。A和B銜接物容易地被修飾以各自 含有不同的半條形碼序列從而產(chǎn)生數(shù)千種組合。在另一個(gè)實(shí)施方式中,將條形碼序列并入 在相同的銜接物上。這可以通過(guò)將B銜接物斷裂成各自具有由用于連接的共有的重疊的序 列隔離的半條形碼序列的兩個(gè)部分而實(shí)現(xiàn)。這兩個(gè)標(biāo)記組件各自具有4-6個(gè)堿基。8堿基 (2X4堿基)標(biāo)記組能夠唯一地標(biāo)記65, 000個(gè)等分部分。1個(gè)額外的堿基(2X5堿基)將 允許錯(cuò)誤檢測(cè)和12堿基標(biāo)記(2X6堿基,12百萬(wàn)個(gè)唯一的條形碼序列)可以被設(shè)計(jì)成允 許利用Reed-Solomon設(shè)計(jì)在10, 000或10, 000以上的等分部分中進(jìn)行大量的錯(cuò)誤檢測(cè)和 糾正。在示例性實(shí)施方式中,將2X5堿基和2X6堿基標(biāo)記兩者,包括簡(jiǎn)并堿基(即,"通配 符")用于實(shí)現(xiàn)最佳解碼效率。
[0276]將體積降低到皮升水平(例如,在10,000個(gè)等分部分中)可以實(shí)現(xiàn)甚至更大的試 劑和計(jì)算成本的降低。在一些實(shí)施方式中,通過(guò)使用組合標(biāo)記的LFR步驟與乳液或微流體 類型裝置的組合,而實(shí)現(xiàn)該水平的成本降低和密集的等分。在物DNA純化的情況下實(shí)施所 有酶步驟在相同的反應(yīng)中能力便于能力使此步驟小型化和自動(dòng)化的能力并且導(dǎo)致對(duì)種類 廣泛的平臺(tái)和樣品制備方法的適應(yīng)性。
[0277]在一個(gè)實(shí)施方式中,結(jié)合乳液型裝置而使用LFR方法。使LFR適應(yīng)乳液型裝置的第 一步驟是制備組合條形碼標(biāo)記的銜接物的乳液試劑,其中每個(gè)液滴具有單個(gè)唯一條形碼。 兩組100個(gè)半條形碼對(duì)于唯一地鑒定10, 000個(gè)等分部分是充分的。然而,將半條形碼銜接 物的數(shù)量增加超過(guò)300可以允許將條形碼液滴的隨機(jī)添加與樣品DNA結(jié)合,并且具有任何 兩個(gè)等分部分含有相同的組合條形碼的低可能性??梢灾谱鹘M合條形碼銜接物液滴并且儲(chǔ) 存在單個(gè)管中,作為用于數(shù)千個(gè)LFR文庫(kù)的試劑。
[0278] 在一個(gè)實(shí)施方式中,將本發(fā)明從10, 000放大到100, 000或100, 000以上的等分部 分文庫(kù)。在另一個(gè)實(shí)施方式中,通過(guò)增加初始半條形碼銜接物的數(shù)量,將LFR方法適用于這 種放大。然后,將這些組合銜接物液滴逐一地與含有代表小于1 %的單倍體基因組的連接閱 讀DNA的液滴融合。使用lnl每個(gè)液滴和10, 000滴的保守估計(jì),這表示用于整個(gè)LFR文庫(kù) 的10y1的總體積。
[0279] 近來(lái)的研宄也表明通過(guò)將反應(yīng)體積減小到納升程度改善了擴(kuò)增(例如,by MDA) 后GC偏向性并減小背景擴(kuò)增。
[0280]目前有數(shù)種類型的具有皮升/納升液滴制備、融合(3000/第二)和采集功能并且 可以用于LFR的這種實(shí)施方式的微流體裝置(例如,由AdvancedLiquidLogic公司銷售 的裝置,Morrisville,NC)或者皮升/納升液滴器(例如,RainDanceTechnologie,麻省列 克星敦)。在其它實(shí)施方式中,使用改進(jìn)的納移液或聲學(xué)液滴噴射技術(shù)(例如,LabCyte有 限公司,加州森尼維耳)或者使用能夠處理多達(dá)9216的單獨(dú)反應(yīng)孔的微流控器件(例如, Fluidigm,加州南舊金山)將約10-20納升的液滴沉積在3072-6144或者更高的規(guī)格的板 中或者玻璃載玻片上(仍具有成本效益的60y1的總MDA體積,并且不損失計(jì)算成本節(jié)約 或者從少量細(xì)胞對(duì)基因組DNA進(jìn)行測(cè)序的能力)。增加等分部分的數(shù)量導(dǎo)致各孔中基因組 的復(fù)雜度的大幅降低、計(jì)算總成本的降低和數(shù)據(jù)質(zhì)量的增加。此外,此步驟的自動(dòng)化增加吞 吐量并且降低制造文庫(kù)的成本。 擴(kuò)增
[0281] 根據(jù)一個(gè)實(shí)施方式,LFR步驟開始于使用5'核酸外切酶對(duì)基因組DNA的短處理, 以形成用作MDA起始位點(diǎn)的3'單鏈突出端。核酸外切酶的使用消除了在擴(kuò)增前加熱變性 或堿變性步驟的需要,并且不將偏向性導(dǎo)入該群的片段。堿變性可以與5'核酸外切酶處理 結(jié)合,由此導(dǎo)致偏向性的進(jìn)一步減小。然后將DNA稀釋到亞基因組濃度并且等分。在將片 段在各孔中等分之后例如利用MDA方法進(jìn)行擴(kuò)增。在某些實(shí)施方式中,MDA反應(yīng)是改進(jìn)的 基于phi29聚合酶的擴(kuò)增反應(yīng),但可以采用其他已知的擴(kuò)增方法。
[0282] 在一些實(shí)施方式中,MDA反應(yīng)被設(shè)計(jì)成將尿嘧啶導(dǎo)入擴(kuò)增產(chǎn)物。在一些實(shí)施方式 中,將采用隨機(jī)六聚體的標(biāo)準(zhǔn)MDA反應(yīng)用于在各孔中擴(kuò)增片段。在許多實(shí)施方式中,使用隨 機(jī)8單體單元引物代替隨機(jī)六聚體以減小在片段群中的擴(kuò)增偏向性。在其它實(shí)施方式中, 也可以將數(shù)種不同的酶添加到MDA反應(yīng)中以減小擴(kuò)增的偏向性。例如,可利用低濃度的非 進(jìn)行性5'核酸外切酶和/或單鏈結(jié)合蛋白形成用于8單體單元的結(jié)合位點(diǎn)。通過(guò)類似的 機(jī)制也可以將諸如甜菜堿、DMS0和海藻糖的化學(xué)試劑用于減小偏向性。 裂解
[0283] 根據(jù)一個(gè)實(shí)施方式,在各孔中擴(kuò)增DNA后,對(duì)擴(kuò)增產(chǎn)物實(shí)施一回合的裂解。在一些 實(shí)施方式中,利用上述c〇re方法在擴(kuò)增之后進(jìn)一步將在各孔的片段裂解。為了采用c〇re 方法,用于擴(kuò)增各孔中的片段的MDA反應(yīng)被設(shè)計(jì)成將尿嘧啶結(jié)合入MDA產(chǎn)物。也可以利用 超聲處理或者酶處理而實(shí)現(xiàn)MDA產(chǎn)物的裂解。
[0284] 如果將CoRE方法用于MDA產(chǎn)物的裂解,則將含有擴(kuò)增的DNA的各孔用尿嘧啶DNA 糖苷酶(UDG)、DNA糖苷酶-裂解酶核酸內(nèi)切酶VIII、以及T4多核苷酸激酶的混合物進(jìn)行 處理,以切除尿嘧啶堿基并形成具有5'磷酸酯和3'羥基官能團(tuán)的單堿基空缺。通過(guò)使用 聚合酶(諸如Taq聚合酶)的切口平移導(dǎo)致雙鏈鈍性末端斷裂,從而形成取決于在MDA反 應(yīng)中所添加dUTP的濃度的尺寸范圍的可連接片段。在一些實(shí)施方式中,所采用的CoRE方 法包括通過(guò)使用phi29的鏈置換和聚合而除去尿嘧啶。
[0285] 在MDA產(chǎn)物的裂解之后,可以將所形成片段的末端修復(fù)。這種修復(fù)會(huì)是必要的,因 為許多裂解技術(shù)可以導(dǎo)致具有突出端部的末端和具有不用于后繼連接反應(yīng)的官能團(tuán)的末 端,例如3'和5'羥基和/或3'和5'磷酸基。在本發(fā)明的許多方面,具有被修復(fù)而具有鈍 性末端的片段是有用的,并且在一些情況下,理想的是改變末端的化學(xué)性質(zhì)使得磷酸酯和 羥基的正確取向不存在,因此防止靶序列的"聚合"??梢岳帽尽炯夹g(shù)領(lǐng)域】已知的方法實(shí)現(xiàn) 對(duì)末端的化學(xué)性質(zhì)的控制。例如,在一些情況下,磷酸酶的使用消除了所有的磷酸基,使得 所有的末端含有羥基。然后可以選擇性地改變各末端以允許期望的組件之間的連接。然后, 在一些實(shí)施方式中,可以通過(guò)用堿性磷酸酶進(jìn)行處理而"活化"片段的一端。
[0286] 在裂解后任選地在末端修復(fù)后,將片段用銜接物進(jìn)行標(biāo)記。 MB
[0287] 通常,標(biāo)記銜接物臂被設(shè)計(jì)在兩個(gè)片段中,一個(gè)片段對(duì)所有的孔是共有的,并且利 用本文中進(jìn)一步描述的方法將鈍性末端直接地連接到片段。第二片段對(duì)各孔是唯一的并且 含有"條形碼"序列,使得當(dāng)把各孔的內(nèi)容物混合時(shí)可以確定來(lái)自各孔的片段。
[0288] 根據(jù)一個(gè)實(shí)施方式,以兩個(gè)銜接物臂的形式添加"共有的"銜接物,一個(gè)臂是連接 到該片段的5'端的鈍性末端,另一個(gè)臂是連接到該片段的3'端的鈍性末端。標(biāo)記銜接物 的第二片段是對(duì)各孔是唯一的"條形碼"片段。此條形碼通常是核苷酸的唯一序列,向特定 孔中的各片段給予相同的條形碼。因此,當(dāng)將來(lái)自所有孔的標(biāo)記片段重新組合用于測(cè)序用 途時(shí),可以通過(guò)對(duì)條形碼銜接物的鑒定而確定來(lái)自相同孔的片段。將條形碼連接到共有的 銜接物臂的5'端。共有的銜接物和條形碼銜接物可以順序地或者同時(shí)地連接到片段???以對(duì)共有銜接物的末端和條形碼銜接物進(jìn)行修飾,使得各銜接物片段將在正確的方向上連 接到適當(dāng)?shù)姆肿?。這種修飾通過(guò)確保這些片段不能彼此連接并且這些銜接物片段僅能夠在 圖示的方向上連接而防止銜接物片段或片段的"聚合"。
[0289] 在其它實(shí)施方式中,將三片段設(shè)計(jì)應(yīng)用于用于標(biāo)記各孔中的片段的銜接物。除了 將條形碼銜接物片段分裂成兩個(gè)片段以外,此實(shí)施方式類似于上述的條形碼銜接物設(shè)計(jì)。 通過(guò)允許通過(guò)將不同的條形碼片段連接在一起以形成全條形碼片段而產(chǎn)生組合條形碼銜 接物片段,此設(shè)計(jì)允許更寬范圍的可能條形碼。此組合設(shè)計(jì)提供可能條形碼銜接物的較大 指令表同時(shí)減小需要產(chǎn)生的全尺寸條形碼銜接物的數(shù)量。
[0290] 根據(jù)一個(gè)實(shí)施方式,在將各孔中的片段標(biāo)記后,將所有的片段合并以形成單群。然 后可以將這些片段用于產(chǎn)生本發(fā)明的用于測(cè)序的核酸模板。由這些標(biāo)記的片段來(lái)源于特定 孔的利用連接到各片段的條形碼標(biāo)記銜接物所產(chǎn)生的核酸模板是可辨認(rèn)的。類似地,在對(duì) 標(biāo)記進(jìn)行測(cè)序時(shí),也可辨認(rèn)所連接的來(lái)源于孔的基因組序列。
[0291] 在一些實(shí)施方式中,本文中描述的LFR方法不包括多水平或等級(jí)的裂解/等分,如 2006年6月13日提交的美國(guó)專利申請(qǐng)11/451,692中所描述,該專利申請(qǐng)的全部?jī)?nèi)容以參 考的方式并入本文中用于所有目的。也就是說(shuō),一些實(shí)施方式僅采用單回合的等分,并且也 允許用于單陣列的等分部分的重新匯集,而不是使用用于各等分部分的單獨(dú)的陣列。 伸用1個(gè)細(xì)朐或小量細(xì)朐作為核酸復(fù)合物的來(lái)源的LFR
[0292] 根據(jù)一個(gè)實(shí)施方式,將LFR方法用于分析單個(gè)細(xì)胞或少量細(xì)胞的基因組。在這種 情況下用于分離DNA的步驟類似于上述方法,但可在較小的體積中發(fā)生。
[0293] 如上所述,從細(xì)胞中分離基因組核酸的長(zhǎng)片段可以通過(guò)一些不同方法來(lái)實(shí)現(xiàn)。在 一個(gè)實(shí)施方式中,將細(xì)胞溶解并且利用溫和的離心步驟將完整的核形成顆粒。然后,通過(guò)蛋 白酶K和核糖核酸酶消化達(dá)數(shù)小時(shí)而釋放基因組DNA。然后,可以在一些實(shí)施方式中對(duì)物質(zhì) 進(jìn)行處理,以降低剩余的細(xì)胞廢物的濃度,這種處理在本領(lǐng)域中是眾所周知的并且可以包 括但不限于一時(shí)間段(例如2-16小時(shí))的透析和/或稀釋。因?yàn)檫@種分離核酸的方法不 包括許多破壞性的過(guò)程(諸如乙醇沉淀、離心、和渦旋),基因組核酸仍然保持大體完整,獲 得具有超過(guò)150千堿基的長(zhǎng)度的大部分的片段。在一些實(shí)施方式中,片段長(zhǎng)度為大約100 至大約750千堿基。在其它實(shí)施方式中,這些片段的長(zhǎng)度為大約150至大約600、大約200 至大約500、大約250至大約400、和大約300至大約350千堿基。
[0294] -旦在將其等分入單獨(dú)的孔中之前將DNA分離,則必須仔細(xì)地將基因組DNA裂解 以避免物質(zhì)的損失,尤其避免從各片段末端的序列損失,因?yàn)檫@種物質(zhì)的損失將導(dǎo)致最后 基因組裝配中的空缺。在一些情況下,通過(guò)使用罕見(jiàn)的切口酶而避免序列損失,其在彼此相 距大約100kb處形成用于聚合酶(例如29聚合酶)的起始位點(diǎn)。當(dāng)聚合酶形成新的DNA 鏈時(shí),它替換老的鏈,最終結(jié)果是在聚合酶起始位點(diǎn)附近存在重疊的序列,從而導(dǎo)致非常少 的序列缺失。
[0295] 在一些實(shí)施方式中,核酸外切酶5'的受控使用(在MDA反應(yīng)之前或者期間)可以 促進(jìn)從單細(xì)胞的初始DNA的多次復(fù)制,因此使由于拷貝的復(fù)制所造成的早期錯(cuò)誤的擴(kuò)展最 小化。
[0296] 在一個(gè)方面,本發(fā)明的方法從單個(gè)細(xì)胞形成質(zhì)量基因組數(shù)據(jù)。假設(shè)沒(méi)有DNA的損 失,則存在用少量的細(xì)胞(10個(gè)以下)開始而不是使用來(lái)自大制備品的同等量的DNA的優(yōu) 勢(shì)。用小于10個(gè)細(xì)胞開始和如實(shí)地等分基本上所有的DNA確保在基因組的任何給定區(qū)域的 長(zhǎng)片段中的均勻覆蓋率。用5個(gè)或5個(gè)以下的細(xì)胞起始允許在各等分部分每各個(gè)100kbDNA 片段的4倍或更大的覆蓋率,而不將閱讀的總數(shù)增加到超過(guò)120Gb(6Gb雙倍體基因組的20 倍覆蓋率)。然而,大量的等分部分(10, 〇〇〇或10, 〇〇〇以上)和較長(zhǎng)的DNA片段(>200kb) 對(duì)于來(lái)自一些細(xì)胞的測(cè)序是甚至更重要的,因?yàn)榫腿魏谓o定的序列而言,重疊的片段僅與 起始細(xì)胞的數(shù)量一樣多并且來(lái)自等分部分中的親代染色體的重疊片段的發(fā)生會(huì)是可怕的 f目息損失。
[0297]LFR非常適合于此問(wèn)題,因?yàn)閮H用價(jià)值為起始輸入基因組DNA的大約10個(gè)細(xì)胞開 始產(chǎn)生優(yōu)異的結(jié)果,甚至一個(gè)單細(xì)胞將會(huì)提供用于實(shí)施LFR的足夠的DNA。LFR中的第一步 驟通常在全基因組擴(kuò)增低偏向性,這在單細(xì)胞基因組分析中可以具有特定用途。由于在處 理中的DNA鏈斷裂和DNA損失,甚至單分子測(cè)序方法將會(huì)有可能需要一些水平的來(lái)自單個(gè) 細(xì)胞的DNA擴(kuò)增。單個(gè)細(xì)胞進(jìn)行測(cè)序的困難是由于試圖擴(kuò)增完全基因組。使用MDA在細(xì)菌 中實(shí)施的研宄在最終裝配的序列中具有大約一半的基因組的損失,并且覆蓋率中相當(dāng)大量 的差異發(fā)生在測(cè)序的區(qū)域中。這可以部分地被解釋成是具有切口和鏈斷裂的初始基因組 DNA不能在末端被復(fù)制因此在MDA步驟期間丟失的結(jié)果。LFR通過(guò)在MDA前形成基因組的 長(zhǎng)重疊的片段而提供針對(duì)此問(wèn)題的解決方法。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,為了實(shí)現(xiàn)該解 決方法,將溫和的步驟用于從細(xì)胞中分離出基因組DNA。然后,對(duì)大體完整的基因組DNA進(jìn) 行頻繁的切口酶處理,從而形成半隨機(jī)切口的基因組。然后,將Phi29的鏈置換能力用于從 形成非常長(zhǎng)的(>200kb)的重疊的片段的切口中聚合。然后,將這些片段用作用于LFR的起 始模板。 堿基識(shí)別、映射和裝配
[0298] 可以利用本領(lǐng)域中已知的方法對(duì)利用本文中描述的任何測(cè)序方法生成的數(shù)據(jù)進(jìn) 行分析和裝配。
[0299] 在一些實(shí)施方式中,對(duì)于詢問(wèn)的基因組位置產(chǎn)生四個(gè)圖像,各顏色的染料各一個(gè)。 通過(guò)調(diào)整染料與背景強(qiáng)度之間的串?dāng)_,而確定圖像中各點(diǎn)的位置和4種顏色中的各顏色所 形成的強(qiáng)度。可以將定量模型擬合到所形成的四維數(shù)據(jù)組。識(shí)別針對(duì)給定的點(diǎn)的堿基,和 反映4強(qiáng)度如何擬合該模型的質(zhì)量計(jì)分。
[0300] 在其它實(shí)施方式中,以緊湊的二進(jìn)制格式對(duì)閱讀數(shù)據(jù)進(jìn)行編碼并且閱讀數(shù)據(jù)包括 識(shí)別的堿基和質(zhì)量計(jì)分兩者。質(zhì)量計(jì)分與堿基精確度相關(guān)。分析軟件(包括序列裝配軟 件)可以利用計(jì)分來(lái)確定利用閱讀的個(gè)體堿基中的證據(jù)的貢獻(xiàn)率。
[0301] 由于DNB結(jié)構(gòu)閱讀通常是"空缺的"。由于酶消化中固有的變化性空缺尺寸發(fā)生變 化(通常+/-1堿基)。由于PAL的隨機(jī)訪問(wèn)性質(zhì),在高質(zhì)量DNB中閱讀偶爾會(huì)具有未閱讀 堿基("無(wú)識(shí)別")。將閱讀對(duì)進(jìn)行配對(duì),如本文中更詳細(xì)的描述。
[0302] 能夠?qū)㈤喿x數(shù)據(jù)與參考序列對(duì)齊的映射軟件可以用于利用本文中描述的測(cè)序方 法來(lái)生成映射數(shù)據(jù)。這種映射軟件通常將容許與自參考序列之間的小差異,諸如由于個(gè)體 基因組變異、閱讀錯(cuò)誤、或者未閱讀堿基所引起的差異。此實(shí)應(yīng)用性允許SNP的直接重新構(gòu) 建。為了支持包括大規(guī)模結(jié)構(gòu)變化或者區(qū)域致密變化的較大變異的裝配,可以單獨(dú)地映射 DNB的各臂,其中在聯(lián)配后應(yīng)用配對(duì)的約束。
[0303] 在一些實(shí)施方式中,序列閱讀的裝配可以采用支持DNB閱讀結(jié)構(gòu)的軟件(用未識(shí) 別堿基配對(duì)的,有空缺的閱讀)以形成雙倍體基因組裝配,可以在一些實(shí)施方式中調(diào)整本 發(fā)明的用于分階段雜合子位點(diǎn)的序列信息生成LFR方法。
[0304] 本發(fā)明的方法可用于重新構(gòu)建在參考序列中不存在的新片段。在一些實(shí)施方式中 可以采用基于證據(jù)(Bayesian)的推理和基于deBruijin圖形的算法的組合。在一些實(shí)施 方式中,可以使用經(jīng)驗(yàn)性地校準(zhǔn)到各數(shù)據(jù)組的統(tǒng)計(jì)學(xué)模型,允許在不進(jìn)行預(yù)過(guò)濾或數(shù)據(jù)修 整的情況下使用所有的閱讀數(shù)據(jù)。也可以通過(guò)杠桿配對(duì)閱讀來(lái)檢測(cè)大規(guī)模結(jié)構(gòu)變異(包括 但不限于缺失、易位等)和拷貝數(shù)變異。 實(shí)施例 實(shí)施例1 :制作DNB
[0305] 以下是由本發(fā)明的核酸模板制作DNB(本文中也被稱為"擴(kuò)增子")的示例性方案, 本發(fā)明的核酸模板包含具有一個(gè)或多個(gè)散在銜接物的靶核酸。首先,用磷酸化5'引物和生 物素化的3'引物對(duì)單鏈線形核酸模板實(shí)施擴(kuò)增,從而形成用生物素標(biāo)記的雙鏈線形核酸 模板。
[0306] 首先,通過(guò)在無(wú)核酸酶微量離心管中將MagPrep-鏈霉親合素磁珠(Novagen Part.No. 70716-3)再懸浮于lx磁珠結(jié)合緩沖液(150mMNaCl和 20mMTris,pH= 7. 5,在無(wú) 核酸酶的水)而制備鏈霉親合素磁珠。將這些管置于磁性管架中,讓磁性顆粒變澄清,取出 并丟棄上清液。然后,將磁珠在800y1的lx磁珠結(jié)合緩沖液中清洗2次,再懸浮于80y1 的lx磁珠結(jié)合緩沖液中。將來(lái)自PCR反應(yīng)的擴(kuò)增的核酸模板(本文中也被稱為"文庫(kù)構(gòu)建 體")調(diào)整到多達(dá)60y1的體積,將20y1的4x磁珠結(jié)合緩沖液添加到管中。然后將核酸 模板添加到含有MagPrep磁珠的管中,輕柔地混合,在室溫下保溫培養(yǎng)10分鐘,讓MagPrep 磁珠變澄清。取出并丟棄上清液。然后將MagPr印磁珠(與擴(kuò)增的文庫(kù)構(gòu)建體混合)在 800y1的lx磁珠結(jié)合緩沖液中清洗2次。在清洗后,將MagPr印磁珠再懸浮于80y1的 0.INNaOH中,輕柔地混合,在室溫下保溫培養(yǎng)并使其變澄清。取出上清液,添加到新準(zhǔn)備的 無(wú)核酸酶的管中。將4y1的3M醋酸鈉(pH= 5. 2)添加到各上清液并輕柔地混合。
[0307]接著,將 420y1 的PBI緩沖液(由QIApr印PCRPurificationKits提供)添 加到各管中,將樣品混合,然后施加到2ml收集管中的QIAprepMiniprep柱(QiagenPart No. 28106)并且以14,OOOrpm離心1分鐘。將溢流丟棄,將0? 75ml的PE緩沖液(由QIApr印 PCRPurifcicationKits提供)添加到各柱中,將柱再離心1分鐘。再次將溢流丟棄。將 柱轉(zhuǎn)移到新準(zhǔn)的管中,添加50y1的EB緩沖液(由QIAprepPCRPurificationKits提 供)。將這些柱以14, 000旋轉(zhuǎn)1分鐘以洗脫單鏈核酸模板。然后,測(cè)量各樣品的量。
[0308]使用CircLigase的單鏈樽板的圓形化:首先,將lOpmol的單鏈線形核酸模板轉(zhuǎn)移 帶無(wú)核酸酶的PCR管中。添加無(wú)核酸酶的水將反應(yīng)物體積調(diào)整到30yl,將樣品保持在冰 上。接著,將 4y1 的 10xCircLiagase反應(yīng)緩沖液(EpicentrePart.No.CL4155K)、2y1 的 ImMATP、2yl的 50mMMnCl2、和 2yl的CircLiagase(100U/yl)(全體地,4xCircLiagase Mix)添加到各管中,將這些樣品在60°C下保溫培養(yǎng)5分鐘。將另一 10y1的4xCircLiagase Mix添加到各管中并且將樣品在60°C下保溫培養(yǎng)2小時(shí),在80°C下保溫培養(yǎng)20分鐘,然后 在4°C下保溫培養(yǎng)。然后測(cè)量各樣品的量。
[0309]禾丨J用核酸夕卜切酶消仆,從CircLiagase反.應(yīng)、液中除去歹矣余的線形DNA:首先, 30yl的各CircLiagase樣品添加到無(wú)核酸酶的PCR管中,然后將3yl的水、4y1的10x 核酸外切酶反應(yīng)緩沖液(NewEnglandBiolabsPartNo.B0293S)、1.5yl的核酸外切酶 I(20U/y1,NewEnglandBiolabsPartNo.M0293L)、和 1. 5y1 的核酸外切酶III(100U/ yl,NewEnglandBiolabsPartNo.M0206L)添加到各樣品中。將這些樣品在37°C下保溫 培養(yǎng)45分鐘。接著,將75mMEDTA(pH= 8. 0)添加到各樣品中,將這些樣品在85°C下保溫 培養(yǎng)5分鐘,然后冷卻至4°C。然后將樣品轉(zhuǎn)移到清潔的無(wú)核酸酶的管中。接著,將500y1 的PN緩沖液(由QIAprepPCRPurificationKits提供)添加到各管中,混合,將樣品施 加在 2ml收集管中的QIAprepMiniprep柱(QiagenPartNo. 28106),以 14,OOOrpm離心 1 分鐘。將溢流丟棄,將0.75ml的PE緩沖液(由QIApr印PCRPurificationKits提供) 添加到各柱中,將這些柱再離心1分鐘。再次將溢流丟棄。將柱轉(zhuǎn)移到新管中,添加40yl 的EB緩沖液(由QIApr印PCRPurificationKits提供)。將柱以14, 000旋轉(zhuǎn)1分鐘,以 洗脫單鏈的文庫(kù)構(gòu)建體。然后測(cè)定各樣品的量。
[0310]用于DNB制各的循環(huán)依賴件復(fù)制:對(duì)核酸樽板實(shí)施循環(huán)依賴件復(fù)制,以形成包含 靶核酸與銜接物序列的串聯(lián)體的DNB。將40fmol的核酸外切酶-處理的單鏈循環(huán)添加到無(wú) 核酸酶的PCR除去管中,添加水將最終體積調(diào)整到10. 0y1。接著,將10y1的2x引物混合 物(7y1 水、2y1 的 10xphi29 反應(yīng)緩沖液(NewEnglandBiolabsPartNo.B0269S)、和 lul的引物(2yM))添加到各管中,將這些管在室溫下保溫培養(yǎng)30分鐘。接著,將20yl 的phi29 混合物(14y1 水、2y1 的 10xphi29 反應(yīng)緩沖液(NewEnglandBiolabsPart No.B0269S)、3. 2dNTP混合物(2. 5mM的各dATP、dCTP、dGTP和dTTP)、和 0? 8y1 的phi29DNA聚合酶(l〇U/yl,NewEnglandBiolabsPartNo.M0269S))添加到各管中。然后,將這些 管在30°C下保溫培養(yǎng)120分鐘。然后取出這些管,將75mMEDTA(pH= 8. 0)添加到各樣品 中。然后,測(cè)量循環(huán)依賴性復(fù)制產(chǎn)物的量。
[0311]確宙DNB質(zhì)量:一曰.DNB的數(shù)量被確定,通過(guò)觀察色純度而對(duì)DNB的質(zhì)量進(jìn)行評(píng) 估。將DNB懸浮于擴(kuò)增子稀釋緩沖液(0.8xphi29反應(yīng)緩沖液(NewEnglandBiolabsPart No.B0269S)和lOmMEDTA,pH= 8. 0)中,將各種稀釋液添加到流動(dòng)載玻片(flowslide)中 的道,在30°C下保溫培養(yǎng)30分鐘。然后,將流動(dòng)載玻片用緩沖液清洗,將含有四個(gè)不同的 用Cy5、德克薩斯紅,F(xiàn)ITC或Cy3標(biāo)記的隨機(jī)12單體單元探針的探針溶液添加到各道中。 將流動(dòng)載玻片轉(zhuǎn)移到預(yù)熱至30°C的熱塊上,在30°C下保溫培養(yǎng)30分鐘。然后利用Imager 3. 2. 1. 0軟件將流動(dòng)載玻片成像。然后,測(cè)量循環(huán)依賴性復(fù)制產(chǎn)物的量。 實(shí)施例2 :單c-PAL和雙c-PAL
[0312] 在二錨定探針檢測(cè)系統(tǒng)中對(duì)不同長(zhǎng)度的完全地簡(jiǎn)并第二錨定探針進(jìn)行測(cè)試。所使 用的組合是:(1)使用結(jié)合到與靶核酸相鄰的銜接物的錨定和9單體單元測(cè)序探針的標(biāo)準(zhǔn) 的一錨定連接,在離開銜接物的位置4處閱讀;(2)使用包含簡(jiǎn)并的5單體單元和9單體單 元測(cè)序探針的相同第一錨定和第二錨定的二錨定連接,在離開銜接物的位置9處閱讀;(3) 使用包含簡(jiǎn)并的6單體單元和9單體單元測(cè)序探針的相同的第一錨定和第二錨定的二錨定 連接,在離開銜接物的位置10處閱讀;和(4)使用包含簡(jiǎn)并8單體單元和9單體單元測(cè)序 探針的相同的第一錨定和第二錨定的二錨定連接,在離開銜接物的位置12處閱讀。lyM的 第一錨定探針和6yM的簡(jiǎn)并第二錨定探針與T4DNA連接酶在連接酶反應(yīng)緩沖液中混合并 且涂覆于反應(yīng)載玻片表面達(dá)30分鐘,然后將未反應(yīng)的探針和試劑從載玻片上清洗掉。將含 有連接酶和型 5'F1-NNNNNBNNN或者 5'F1-NNBNNNNNN5'F1-NNNBNNNNN5'F1-NNNNBNNNN 的熒光探針的第二反應(yīng)混合物導(dǎo)入。F1代表四個(gè)熒光團(tuán)中的一個(gè),N代表隨機(jī)引入的四個(gè) 堿基A、G、C或T中的任一個(gè),B代表四個(gè)堿基A、G、C或T中尤其與熒光團(tuán)相關(guān)的一個(gè)。在 連接1小時(shí)后,將未反應(yīng)的探針和試劑從載玻片上清洗掉,檢測(cè)與各DNA靶相關(guān)的熒光。
[0313] 我們檢查了與系統(tǒng)中不同長(zhǎng)度的簡(jiǎn)并第二錨定探針相關(guān)的信號(hào)強(qiáng)度,隨著第二錨 定探針長(zhǎng)度的增加強(qiáng)度下降。這種強(qiáng)度的擬合計(jì)分也隨著簡(jiǎn)并第二錨定的長(zhǎng)度增加而減 小,但仍然通過(guò)堿基10閱讀而產(chǎn)生合理的擬合計(jì)分。
[0314] 然后我們檢查了采用一錨定探針?lè)椒ê投^定探針?lè)椒ǖ淖饔脮r(shí)間。均使用具有 9單體單元測(cè)序探針的標(biāo)準(zhǔn)錨定和簡(jiǎn)并5單體單元分別在離開銜接物的位置4和9處閱讀。 盡管強(qiáng)度水平在兩錨定探針?lè)椒ㄖ杏懈蟮牟町悾珮?biāo)準(zhǔn)的一錨定方法和兩錨定探針?lè)椒?在這兩次均顯示相當(dāng)?shù)臄M合計(jì)分,各自超過(guò)0. 8。
[0315]簡(jiǎn)并第二錨宙探針長(zhǎng)度對(duì)強(qiáng)度和擬合計(jì)分的影晌:當(dāng)用于鑒宙銜接物的堿基5' 時(shí),將具有不同的第二錨定探針長(zhǎng)度和組成的第一錨定探針和第二錨定探針的不同組合用 于比較簡(jiǎn)并錨定探針對(duì)信號(hào)強(qiáng)度和擬合計(jì)分的作用。利用二錨定探針?lè)椒▽?biāo)準(zhǔn)的一錨 定方法與信號(hào)強(qiáng)度和擬合計(jì)分進(jìn)行比較,具有與銜接物的互補(bǔ)性的一些區(qū)域的部分簡(jiǎn)并探 針,或者完全地簡(jiǎn)并第二錨定探針。在一個(gè)濃度下使用5個(gè)單體單元到9個(gè)單體單元的簡(jiǎn) 并第二錨定探針,對(duì)這些6單體單元和7單體單元中的兩個(gè)也在4X濃度下進(jìn)行測(cè)試。也在 第一濃度下,對(duì)包含具有銜接物互補(bǔ)性的兩個(gè)核苷酸和在它們的3'端的不同長(zhǎng)度的簡(jiǎn)并核 苷酸的第二錨定探針進(jìn)行了測(cè)試。各反應(yīng)使用相同組的4個(gè)測(cè)序探針,對(duì)存在于靶核酸中 的閱讀位置的核苷酸進(jìn)行鑒定。
[0316] 實(shí)驗(yàn)中所使用的各組合如下: 反應(yīng)1 :1UM的12堿基第一錨定探針 無(wú)第二錨定探針 閱讀位置:距離銜接物端的第2堿基 反應(yīng)2 :1yM的12堿基第一錨定探針 20yM的5個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端第7堿基 反應(yīng)3 :1yM的12堿基第一錨定探針 20yM的6個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第8堿基 反應(yīng)4 :1yM的12喊基第一銷定探針 20yM的7個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第9堿基 反應(yīng)5 :1yM的12堿基第一錨定探針 20yM的8個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第10堿基 反應(yīng)6 :1yM的12堿基第一錨定探針 20yM的9個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第11堿基 反應(yīng)7 :1yM的12堿基第一錨定探針 80yM的6個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第8堿基 反應(yīng)8 :1yM的12喊基第一銷定探針 80yM的7個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第9堿基 反應(yīng)9 :1yM的12堿基第一錨定探針 20yM的第6第二錨定探針(4個(gè)簡(jiǎn)并堿基-2個(gè)未知堿基) 閱讀位置:距離銜接物端的第6個(gè)堿基 反應(yīng)10 :1yM的12堿基第一錨定探針 20yM的第7第二錨定探針(5個(gè)簡(jiǎn)并堿基-2個(gè)未知堿基) 閱讀位置:距離銜接物端的第7堿基 反應(yīng)11 :1yM的12堿基第一錨定探針 20yM的第8第二錨定探針(6個(gè)簡(jiǎn)并堿基-2個(gè)未知堿基) 閱讀位置:距離銜接物端的第8堿基
[0317] 在使用錨定探針與測(cè)序探針的不同組合的研宄中,使用6單體單元的簡(jiǎn)并第二錨 定探針的長(zhǎng)度被顯示出是最好的,不論它是完全簡(jiǎn)并或者部分簡(jiǎn)并的。使用完全簡(jiǎn)并的6 單體單元的信號(hào)強(qiáng)度在較高的濃度下顯示了類似于部分簡(jiǎn)并的6單體單元的信號(hào)強(qiáng)度。所 有的數(shù)據(jù)具有相當(dāng)好的擬合計(jì)分,除了使用最長(zhǎng)的第二錨定的一個(gè)反應(yīng),它也顯示出實(shí)施 的反應(yīng)的最低的強(qiáng)度計(jì)分。
[0318]第一錨宙探針長(zhǎng)度對(duì)強(qiáng)度和擬合計(jì)分的作用: 當(dāng)被用于鑒定銜接物的堿基3'時(shí),將具有不同的第一錨定探針長(zhǎng)度的第一錨定探針 與第二錨定探針的組合用于第一錨定探針長(zhǎng)度對(duì)信號(hào)強(qiáng)度和擬合計(jì)分的作用的比較。對(duì)標(biāo) 準(zhǔn)的一錨定方法與使用二錨定探針?lè)椒ǖ男盘?hào)強(qiáng)度和擬合計(jì)分進(jìn)行比較,與銜接物有互補(bǔ) 性的一些區(qū)域的部分簡(jiǎn)并的探針,或者完全簡(jiǎn)并的第二錨定探針。每個(gè)反應(yīng)使用相同組的 四個(gè)測(cè)序探針用于存在于靶核酸中的閱讀位置的核苷酸的鑒定。實(shí)驗(yàn)中所使用的各組合如 下: 反應(yīng)1 :1yM的12堿基第一錨定探針 無(wú)第二錨定探針 閱讀位置:距離銜接物端的第5堿基 反應(yīng)2 :1yM的12堿基第一錨定探針 20yM的5個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第10堿基 反應(yīng)3 :1yM的10堿基第一錨定探針 20yM的7nt第二錨定探針(5個(gè)簡(jiǎn)并堿基-2個(gè)未知堿基) 閱讀位置:距離銜接物端的第10堿基 反應(yīng)4 :1yM的13堿基第一錨定探針 20yM的7個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第12堿基 反應(yīng)5 :1yM的12堿基第一錨定探針 20yM的7個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第12堿基 反應(yīng)6 :1yM的11堿基第一錨定探針 20yM的7個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第12堿基 反應(yīng)7 :1yM的10堿基第一錨定探針 20yM的7個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第12堿基 反應(yīng)8 :1yM的9喊基第一銷定探針 80yM的7個(gè)簡(jiǎn)并堿基第二錨定探針 閱讀位置:距離銜接物端的第12堿基
[0319] 觀察的信號(hào)強(qiáng)度和擬合計(jì)分顯示由于使用較長(zhǎng)的第一錨定探針?biāo)斐傻淖罴褟?qiáng) 度,部分可以是由于熔點(diǎn)越高提供至組合的錨定探針的探針越長(zhǎng)。
[0320]采用二錨宙引物方法的激酶保淵培養(yǎng)對(duì)強(qiáng)度和擬合計(jì)分的作用:在不同的淵度 下使用1yM的10堿基第一錨定探針、20yM的7單體單元第二錨定探針,以及具有結(jié)構(gòu) Fluor-NNNNBNNNN的測(cè)序探針閱讀距離銜接物的位置10,在以1單位/ml激酶的存在下達(dá) 4天的時(shí)間段執(zhí)行如上所述的反應(yīng)。用15個(gè)單體單元的第一錨定的反應(yīng)并且將測(cè)序探針 用作陽(yáng)性對(duì)照品。盡管與對(duì)照品相比激酶確實(shí)對(duì)信號(hào)強(qiáng)度具有作用,但范圍并不從4°C變 化到37°C,并且擬合計(jì)分仍然與對(duì)照品是相當(dāng)?shù)摹4_實(shí)具有影響的激酶保溫培養(yǎng)的溫度為 42°C,這也顯示差的與數(shù)據(jù)的擬合。
[0321] 然后利用如上所述的相同的探針和條件對(duì)激酶所需的最小時(shí)間進(jìn)行檢查。5分鐘 或5分鐘以上的激酶保溫培養(yǎng)導(dǎo)致有效地當(dāng)量信號(hào)強(qiáng)度和擬合計(jì)分。 實(shí)施例3 :在自組裝的DNA利用未鏈接的堿基閱讀的人基閔組測(cè)序
[0322] 對(duì)3個(gè)人基因組進(jìn)行了測(cè)序,獲得每個(gè)基因組平均45至87倍的覆蓋率并且鑒定 出每個(gè)基因組3. 2-4. 5百萬(wàn)個(gè)序列突變。一個(gè)基因組數(shù)據(jù)組的確認(rèn)顯示每100千堿基大約 1個(gè)錯(cuò)誤突變的序列精確度。 樽板測(cè)序基質(zhì)的產(chǎn)牛
[0323] 通過(guò)基因組DNA裂解并且用IIS型限制酶回歸切割和定向銜接物插入,而產(chǎn)生測(cè) 序基質(zhì),如本文中的描述。四銜接物文庫(kù)構(gòu)建步驟導(dǎo)致:(i)高產(chǎn)率銜接物連接和DNA圓形 化并且形成最小的嵌合體,(ii)定向銜接物插入,具有最少形成的大部分含有不期望的銜 接物拓?fù)浣Y(jié)構(gòu)的結(jié)構(gòu)的,(iii)利用PCR對(duì)具有期望的銜接物拓?fù)浣Y(jié)構(gòu)的構(gòu)建體進(jìn)行迭代 選擇,(iv)高效率地形成鏈特異性ssDNA環(huán),和(v)ssDNA環(huán)的單管溶液相擴(kuò)增以產(chǎn)生高濃 度散在的(非纏繞的)DNA納米球(DNB)。盡管步驟包括許多獨(dú)立的酶步驟,但主要在本質(zhì) 上是回歸的并且經(jīng)歷96樣品批次的處理的自動(dòng)化。
[0324] 利用超聲處理將基因組DNA( "gDNA")裂解成500個(gè)堿基對(duì)("bp")的平均長(zhǎng)度, 將在100bp范圍變動(dòng)的片段(例如,約400至約500bp針對(duì)NA19240)從聚丙烯酰胺凝膠分 離,并且利用QiaQuick柱純化(Qiagen,Valencia,CA)加以回收。在37°C下將大約1yg(約 3pmol)的裂解的gDNA用 10 單位FastAP(Fermentas,Burlington,ON,CA)處理 60 分鐘,用 AMPure磁珠(AgencourtBioscience,Beverly,MA)進(jìn)行純化,用 40 單位的T4DNA聚合酶 (NewEnglandBiolabs(NEB),Ipswich,MA)在 12°C下保溫培養(yǎng) 1 小時(shí),再次進(jìn)行AMPure純 化,以上均按照生產(chǎn)商的建議,以形成非磷酸化的鈍性末端。然后,按照如本文中描述的切 口平移連接步驟將末端修復(fù)的gDNA片段連接到合成的銜接物1 (Adi)臂,由此形成具有最 小片段_片段和銜接物_銜接物連接的高效率的銜接物-片段連接。根據(jù)本發(fā)明的在銜接 物構(gòu)建和插入中所使用的寡核苷酸是從IDT公司購(gòu)得的。利用14個(gè)堿基分子內(nèi)雜交包括 回文以加強(qiáng)緊湊DNB的形成。
[0325] 在14°C下,將大約1. 5pmol的末端修復(fù)的gDNA片段在含有50mMTris-HCl(pH= 7.8)、5%PEG8000、10mMMgCl2、lmMrATP、10倍摩爾數(shù)過(guò)量的5' -磷酸化和3'雙脫氧封 端的Adi臂和4, 000單位的T4DNA連接酶(Enzymes,Beverly,MA)的反應(yīng)液中保溫培養(yǎng)120 分鐘。5'P04Adl臂末端與3'OHgDNA末端的T4DNA連接形成帶切口的中間結(jié)構(gòu),其中切口 是由雙脫氧(因此是不可連接的)3'Adi臂末端和非磷酸化(因此是不可連接的)5'gDNA 末端構(gòu)成的。在AMPure純化以除去未并入的Adi臂之后,將DNA在60°C下在含有200yM AdlPCRl引物、10mMTris-HCl(pH=7.3)、50mMKCl、1.5mMMgCl2、lmMrATP、100yMdNTPs 的反應(yīng)液中保溫培養(yǎng)15分鐘,從而將3'雙脫氧封端的Adi寡核苷酸與3'0H封端的AdlPCRl 引物進(jìn)行交換。然后將反應(yīng)物冷卻到37°C,在添加50單位的TaqDNA聚合酶(NEB)和 2000單位的T4DNA連接酶之后,在37°C下再保溫培養(yǎng)30分鐘,利用Taq催化的切口平移從 AdlPCRl引物3' 0H末端形成5'P04gDNA末端,并且利用T4DNA連接將所形成的修復(fù)的切口 密封。
[0326]在由 40單位的PfuTurboCx(Stratagene,LaJolla,CA)IXPfuTurboCx緩沖液、 3禮1%504、300 11]\1(1階1^、5%01^0、1]\1甜菜堿、和 50011]\1每個(gè)六(11?〇?1引物構(gòu)成的 800 1^ 反應(yīng)液中,對(duì)大約700pmo1的AMPure純化的Adi連接的材料實(shí)施PCR(6-8次循環(huán),95°C達(dá)30 秒,56°C達(dá)30秒,72°C達(dá)4分鐘)。此步驟導(dǎo)致約350fmol的含有左和右Adi臂兩者的模板 的選擇性擴(kuò)增,以形成大約30pmol的在Adi臂內(nèi)部的特定位置并入dU基團(tuán)的PCR產(chǎn)物。在 37°C下將大約24pmol的AMPure-純化產(chǎn)物用10單位的UDG/EndoVIII混合物(USER;NEB) 處理60分鐘,以形成具有互補(bǔ)的3'突出端的Adi臂并且使右Adi臂-編碼的Acul位點(diǎn)部 分地單鏈。將此DNA在 37°C下在含有 10mMTris-HCl(pH= 7.5)、50mMNaCl、lmMEDTA、 50yMs_ 腺苷基-L-蛋氨酸、和 50 單位的Eco57I(Fermentas,GlenBurnie,MD)的反應(yīng)液 中保溫培養(yǎng)12小時(shí),從而將左Adi臂Acul位點(diǎn)以及基因組Acul位點(diǎn)甲基化。在由16. 5mM Tris-〇Ac(pH= 7. 8)、33mMK0Ac、5mMMgOAc、和ImMATP組成的反應(yīng)液中將大約 18pmol的 AMPure純化的甲基化DNA稀釋到3nM的濃度,加熱到55°C維持10分鐘,冷卻到14°C并維持 10分鐘,以利于分子內(nèi)雜交(圓形化)。
[0327] 然后,在180nM的非磷酸化橋接寡核苷酸的存在下將反應(yīng)物與3600單位的T4DNA 連接酶在14°C下保溫培養(yǎng)2小時(shí),以形成含有頂-鏈-切口的Adi和雙鏈的未甲基化右 AdlAcul位點(diǎn)的單體dsDNA環(huán)。按照生產(chǎn)商的說(shuō)明書,通過(guò)AMPure純化將Adi環(huán)濃縮,在 37°C下與lOOUPlasmidSafe核酸外切酶(Epicentre,Madison,WI)保溫培養(yǎng)60分鐘,以消 除殘余的線形DNA。
[0328] 按照生產(chǎn)商的說(shuō)明書將大約12pmol的Adi循環(huán)用30單位的Acul(NEB)在37°C下 消化1小時(shí),以形成含有側(cè)面是兩個(gè)片段的Adi的插入DNA的線形dsDNA結(jié)構(gòu)。在AMPure 純化后,在60°C下將大約5pmol的線形化DNA在含有10mMTris-HCl(pH8. 3)、50mMKC1、 1. 5mMMgCl2、0. 163mMdNTP、0. 66mMdGTP、和 40 單位的TaqDNA聚合酶(NEB)的反應(yīng)液保 溫培養(yǎng)1小時(shí),以利用Adi頂部鏈切口的平移將活性(右)AdlAcul位點(diǎn)近端的3'突出端轉(zhuǎn) 化成 3'G突出端。在 14°C下將所得DNA在含有 50mMTris-HCl(pH= 7. 8)、5%PEG8000、 10mMMgCl2、lmMrATP、4000單位的T4DNA連接酶、和25倍摩爾數(shù)過(guò)量的對(duì)稱的Ad2臂的反 應(yīng)液中保溫培養(yǎng)2小時(shí),其中一個(gè)臂被設(shè)計(jì)成連接到3'G突出端,另一臂被設(shè)計(jì)成連接到 3'NN突出端,由此獲得定向性(相對(duì)于Adl)Ad2臂連接。將大約2pmol的Ad2-連接的材 料用AMPure磁珠進(jìn)行純化,用PfuTurboCx和含有dU的Ad2特異性引物進(jìn)行PCR擴(kuò)增,進(jìn) 行AMPure純化,用USER處理,用T4DNA連接酶圓形化,用AMPure濃縮并且用PlasmidSafe 進(jìn)行處理,均如上所述,以形成含有Adl+2的dsDNA環(huán)。
[0329] 用含有AdlPCR2dU的引物對(duì)大約lpmol的Adl+2循環(huán)進(jìn)行PCR擴(kuò)增,進(jìn)行AMPure 純化,進(jìn)行USER消化,均如上所述,以形成側(cè)面是Adi臂具有互補(bǔ)的3'突出端的片段,以使 左AdlAcul位點(diǎn)是部分單鏈的。將所形成的片段甲基化以滅活右AdlAcul位點(diǎn)以及基因組 Acul位點(diǎn),進(jìn)行AMPure純化和圓形化,如上所述,以形成含有底部鏈-切口Adi和雙鏈的未 甲基化的左AdlAcul位點(diǎn)的dsDNA環(huán)。這些環(huán)濃縮利用AMPure純化,Acul消化,AMPure純 化的G-加尾并連接到不對(duì)稱的Ad3臂,均如上所述,由此實(shí)現(xiàn)定向Ad3臂連接。對(duì)Ad3-連 接的材料進(jìn)行AMPure純化,用含有dU的Ad3特異性引物進(jìn)行PCR擴(kuò)增,進(jìn)行AMPure純化, USER消化,圓形化并濃縮,均如上所述,以形成含有Adl+2+3的循環(huán),其中Ad2和Ad3的側(cè)面 是Adi并且在它們的遠(yuǎn)端末端含有EcoP15識(shí)別位點(diǎn)。
[0330] 根據(jù)生產(chǎn)商的說(shuō)明書,在37°C下用100單位的EcoP15(NEB)將大約lOpmol的 Adl+2+3環(huán)消化4小時(shí),以釋放出含有散在于四個(gè)gDNA片段之間的3個(gè)銜接物的片段。在 AMPure純化后,用如上所述的T4DNA聚合酶對(duì)消化的DNA進(jìn)行末端修復(fù),以如上方式進(jìn) 行AMPure純化,在 37°C下在含有 50mMNaCl、10mMTris-HCl(pH7.9)、10mMMgCl2、0.5mM dATP、和16單位的Klenowexo-(NEB)的反應(yīng)液中保溫培養(yǎng)1小時(shí),以添加3'A突出端, 并且連接到T-加尾的Ad4臂,如上所述。在聚丙烯酰胺凝膠上執(zhí)行連接反應(yīng),將含有 Adl+2+3+Ad4-臂的片段從凝膠中洗脫出,利用QiaQuick純化可以回收。將大約2pmol的回 收的DNA擴(kuò)增,如上所述,用PfuTurboCx(Stratagene)外加對(duì)1個(gè)Ad4臂特異性的5'-生 物素化引物和對(duì)于其它Ad4臂是特異性的a5'P04引物。
[0331] 按照生產(chǎn)商的說(shuō)明書。將大約25pmol的生物素化PCR產(chǎn)物捕獲在涂覆鏈霉親 合素的Dynal順磁性的磁珠(Invitrogen,Carlsbad,CA)上,利用使用0?INNaOH的變 性將非生物素化的鏈回收,包含一個(gè)5'Ad4臂和一個(gè)3'Ad4臂。在中和后,在期望的相 對(duì)于Ad4臂的方向上將含有Adl+2+3的鏈純化雜交到3倍過(guò)量的Adi頂鏈特異性生物素 化捕獲性寡核苷酸,接著在鏈霉親合素磁珠上進(jìn)行捕獲和〇.INNaOH洗脫,以上均按照生 產(chǎn)商的說(shuō)明書。按照生產(chǎn)商的說(shuō)明書在60 °C下將大約3pmol回收的DNA與200單位的 CircLiagase(Epicentre)保溫培養(yǎng)1小時(shí),以形成含有單鏈(ss)DNAAdl+2+3+4的環(huán),然后 按照生產(chǎn)商的說(shuō)明書用100單位的Exol和300單位的ExoIII(兩者均來(lái)自Epicenter)在 37°C下保溫培養(yǎng)30分鐘,以消除非圓形的DNA。
[0332] 為了確定在循環(huán)構(gòu)建期間的代表性偏向性,利用具有StepOne平臺(tái)(App1ied Biosystems,F(xiàn)osterCity,CA)的定量PCR(QPCR)和基于SYBRGreen的QPCR檢測(cè)(Quanta Biosciences,存在和濃度Gaithersburg,MD)用于代表一系列基因座GC含量的一組 96dbSTS標(biāo)記的存在和濃度,對(duì)文庫(kù)構(gòu)建步驟中基因組DNA和中間步驟進(jìn)行檢測(cè)。從dbSTS 中選擇的標(biāo)記的長(zhǎng)度小于l〇〇bp,以使用長(zhǎng)度為20堿基并且具有45-55%的GC含量的引 物,并且代表一系列基因座GC含量。開始和停止的坐標(biāo)是來(lái)自于NCBIBuild36。擴(kuò)增子 GC內(nèi)容物是擴(kuò)增的PCR產(chǎn)物,并且基于擴(kuò)增子上lkb間隔為中心計(jì)算lkbGC含量。在各樣 品中采集用于各標(biāo)記的原始循環(huán)閾值(Ct)值。接著,將各樣品的平均Ct減去其各自的原 始Ct值以產(chǎn)生一組歸一化Ct值,使得各樣品的平均歸一化Ct值為零。最后,將gDNA中的 各標(biāo)記的平均(來(lái)自4此復(fù)制)歸一化Ct減去其各自的歸一化Ct值,以形成用于各樣品 中的各標(biāo)記的一組deltaCt值。此分析表明較高GC含量標(biāo)記的濃度增加但在Adl、Ad2、 和Ad3循環(huán)中相對(duì)于基因組DNA有較高的AT含量標(biāo)記。平均地,在基因座的濃度中存在 1. 4Ct(2. 5倍)差異并且lkbGC含量為30-35%相對(duì)于50-55%。此偏向性類似于在映射 的cPAL數(shù)據(jù)中所觀察的片段和堿基水平覆蓋率偏向性。
[0333] 為了確定文庫(kù)構(gòu)建體結(jié)構(gòu),進(jìn)行4Ad雜交捕獲,用TaqDNA聚合酶(NEB)和Ad4_特 異性PCR引物對(duì)單鏈的文庫(kù)DNA進(jìn)行PCR擴(kuò)增。用TopoTA克隆試劑盒(Invitrogen)將 這些PCR產(chǎn)物克隆,將菌落PCR用于從192單菌落中產(chǎn)生PCR擴(kuò)增子。將這些PCR產(chǎn)物用 AMPure磁珠進(jìn)行純化,和利用Sanger雙脫氧測(cè)序(MCLAB,SouthSanFrancisco,CA)從兩 條鏈中采集序列信息。將所形成的痕量物過(guò)濾以獲得高質(zhì)量數(shù)據(jù),將具有至少1個(gè)良好閱 讀的含有文庫(kù)插入物的克隆包括在分析中。表1示出了用于確定銜接物結(jié)構(gòu)的來(lái)自文庫(kù)的 Sanger測(cè)序的中間數(shù)據(jù)。192個(gè)文庫(kù)克隆中的147個(gè)含有至少一個(gè)高質(zhì)量Sanger閱讀。 這些147克隆中的143個(gè)(>97% )在預(yù)計(jì)的方向和順序含有所有的4個(gè)銜接物。此外,在 RCR反應(yīng)期間將4個(gè)克隆中的具有異常銜接物結(jié)構(gòu)3個(gè)(*)從用于產(chǎn)生DNB的文庫(kù)中消除, 這意味著預(yù)計(jì)大約99%的DNB具有正確的銜接物結(jié)構(gòu)。數(shù)據(jù)來(lái)源于NA07022。 表1
【權(quán)利要求】
1. 一種對(duì)核酸分子的靶序列進(jìn)行測(cè)序的方法,所述方法包括: (a) 提供包含所述核酸分子的表面,所述核酸分子包含:(i)包括第一錨位點(diǎn)的第一銜 接物、和(ii)所述靶序列; (b) 將包含有效量的酸、陽(yáng)離子表面活性劑、或者酸和陽(yáng)離子表面活性劑兩者的水洗溶 液涂覆于所述表面上; (c) 將錨定雜交到所述第一錨位點(diǎn); (d) 延伸所述銷定以產(chǎn)生銷定延伸產(chǎn)物; (e) 檢測(cè)所述延伸產(chǎn)物,由此鑒定所述靶序列的堿基;和 (f) 重復(fù)步驟(b)至(e)直到所述靶序列的序列被確定。
2. 如權(quán)利要求1所述的方法,其中包含所述核酸分子的所述表面是包含表面和連接到 所述表面的多個(gè)所述核酸分子的核酸陣列。
3. 如權(quán)利要求1或權(quán)利要求2所述的方法,其中所述核酸分子是包含多個(gè)單體單元的 多聯(lián)體,各單體單元包括所述第一銜接物和所述靶序列。
4. 如前述權(quán)利要求中任一項(xiàng)所述的方法,其包括:通過(guò)將核苷酸添加到所述錨定或者 先前的所述錨定的延伸的產(chǎn)物中,而延伸所述錨定。
5. 如前述權(quán)利要求中任一項(xiàng)所述的方法,其包括:通過(guò)將測(cè)序探針連接到所述錨定或 者先前的所述錨定的延伸的產(chǎn)物,而延伸所述錨定。
6. 如權(quán)利要求5所述的方法,其包括:通過(guò)(i)將一個(gè)或多個(gè)延伸錨定連接到所述錨 定和(ii)將所述序列探針連接到所述的一個(gè)或多個(gè)延伸銷定,而延伸所述銷定。
7. 如權(quán)利要求5所述的方法,其包括:在重復(fù)步驟(b)至(e)之前,從所述核酸分子中 除去所述延伸產(chǎn)物。
8. 如前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述水洗溶液包含檸檬酸。
9. 如前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述水洗溶液包含溴化十六烷基三甲銨 (CTAB)〇
10. 如前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述水洗溶液包含一定量的弱酸或陽(yáng) 離子表面活性劑,與合適的對(duì)照品相比所述弱酸或陽(yáng)離子表面活性劑有效地降低不一致性 達(dá)5 %或5%以上或者提高可映射率達(dá)0. 5 %或0. 5%以上或有效地降低不一致性達(dá)5 %或 5%以上且提高可映射率達(dá)0. 5%或0. 5%以上。
11. 如前述權(quán)利要求中任一項(xiàng)所述的方法,其包括:在將所述錨定雜交到所述第一錨 位點(diǎn)之前,將水洗溶液涂覆于所述表面。
12. -種用于對(duì)連接到表面的核酸分子進(jìn)行測(cè)序的水洗溶液,所述水洗溶液包含酸、陽(yáng) 離子表面活性劑或者兩者,其中與合適的對(duì)照品相比所述水洗溶液有效地可檢測(cè)地降低不 一致性或者提高可映射率達(dá)0. 5%或0. 5%以上或有效地可檢測(cè)地降低不一致性且提高可 映射率達(dá)0. 5%或0. 5%以上。
13. 如權(quán)利要求12所述的水洗溶液,其中與合適的對(duì)照品相比,所述水洗溶液有效地 降低不一致性達(dá)5%或5%以上。
14. 如權(quán)利要求12或權(quán)利要求13所述的水洗溶液,其中與合適的對(duì)照品相比,所述水 洗溶液有效地提高可映射率達(dá)〇. 5%或0. 5%以上。
15. 如權(quán)利要求1至9中任一項(xiàng)所述的方法,其中在步驟(b)中涂覆的水洗溶液是如權(quán) 利要求12至14所述的清洗溶液。
【文檔編號(hào)】C12Q1/68GK104508145SQ201380033351
【公開日】2015年4月8日 申請(qǐng)日期:2013年4月23日 優(yōu)先權(quán)日:2012年4月23日
【發(fā)明者】馬修·卡洛, 陳林蘇, 丹尼斯·G·巴林格 申請(qǐng)人:考利達(dá)基因組股份有限公司