專利名稱:新基因組測序策略的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從頭全基因組測序的有效方法。本發(fā)明涉及大規(guī)模核酸測序,特別是對生物的基因組或或其中一部分測序的方法。本發(fā)明涉及基于高通量測序技術(shù)測定優(yōu)選復(fù)雜(即大)基因組的序列的改良策略。
背景技術(shù):
許多測序設(shè)計(jì)的目的是首次測定目標(biāo)生物的完整基因組(從頭基因組草圖測序)。擁有基因組序列草圖能鑒定生物的有用遺傳信息,例如鑒定異種或同種不同個體之間基因改變的起源。因此,本領(lǐng)域?qū)τ谀軌蛞院侠沓杀竞途念^測定個體(無論是人、動物或植物)完整基因組序列的技術(shù)有廣泛的需求。這個目標(biāo)通常表現(xiàn)為1000$-基因組,即最高耗費(fèi)1000$來測定個體完整基因組序列(不考慮貨幣波動)。然而,實(shí)踐中1000$基因組并不必定依賴于從頭基因組測序和組裝策略,也可基于重測序法。后一種情況下,重測序的基因組并不從頭組裝,但其測序得到的DNA與現(xiàn)存的感興趣生物的參考基因組序列比較 (或作圖)。因此,重測序法技術(shù)上挑戰(zhàn)較小,花費(fèi)較少。為了清楚起見,本發(fā)明集中于從頭基因組測序策略,其能用于缺乏參考基因組序列的生物。目前的嘗試各種各樣,獲得了多種多樣和迅速增加的結(jié)果。但是,目標(biāo)還未實(shí)現(xiàn)。 以直截了當(dāng)?shù)姆绞綄ν暾蚪M測序和組裝仍然在經(jīng)濟(jì)上并不可行。本領(lǐng)域仍然存在對于改良從頭基因組測序策略的需要。W003/027311描述了一種克隆陣聚集鳥槍測序法(CAPPS)。該方法使用來自不同 (BAC)克隆池的隨機(jī)序列讀數(shù)?;谠撾S機(jī)讀數(shù)的交叉組裝,可從多個克隆產(chǎn)生序列重疊群,并可產(chǎn)生相對于序列的克隆的圖。該出版物更詳細(xì)描述了在多維收集池,例如兩維形式中BAC文庫的產(chǎn)生,該兩維形式是每個池和列含有148個BAC克隆(148x148形式)。使用 CAPPS,以平均4-5X覆蓋率對BAC池進(jìn)行測序,在兩維合并聚集方案中產(chǎn)生每BAC 8-10X覆蓋率。在兩維聚集方案中,基于在單獨(dú)一列和單獨(dú)池中出現(xiàn)的對BAC獨(dú)特的序列,對每個 BAC分別產(chǎn)生重疊群。然后,將這些BAC組裝成基因組的重疊群。出版物僅基于5個BAC演示了該技術(shù)。該出版物未提及數(shù)據(jù)加工的問題。然而該技術(shù)的缺點(diǎn)之一是,使用隨機(jī)剪切的片段需要大量讀數(shù),來以8-10倍的序列冗余水平覆蓋基因組,使得該方法在大規(guī)模下非常耗力。另外,其不產(chǎn)生基于序列的物理BAC圖。US2007/0082358描述了一種從頭組裝序列信息的方法,該方法基于克隆分離和擴(kuò)增的單鏈基因組DNA文庫,使用產(chǎn)生有序限制性圖的限制性酶,結(jié)合全基因組光學(xué)限制性作圖產(chǎn)生完整基因組鳥槍序列信息。US2002/0182630公開了一種通過比較亞序列的BAC重疊群作圖法。該方法旨在避免與重復(fù)序列有關(guān)的困難,以及通過在重復(fù)富集的區(qū)域產(chǎn)生橋來生成重疊群。以BAC為基礎(chǔ)測定物理圖譜可基于BAC文庫測序(基于序列的BAC克隆物理圖譜),使用例如Keygene在W02008/007951中描述的方法(也稱作“全基因組作圖”或WGP)。 簡單說,WGP涉及產(chǎn)生至少一部分基因組的物理圖譜,包括步驟從樣品DNA產(chǎn)生人工染色體文庫,聚集克隆,用限制性酶消化聚集的克隆,連接含標(biāo)識物的接頭,擴(kuò)增連接有含標(biāo)識物的接頭的限制性片段,將克隆的擴(kuò)增子與克隆相聯(lián)并排序片段,以產(chǎn)生重疊群,從而建立物理圖譜。雖然在高通量測序中有許多發(fā)展,高精確測定基因組序列草圖仍然被認(rèn)為是昂貴和耗時(shí)的。現(xiàn)有方法仍需要補(bǔ)充,以形成產(chǎn)生基因組序列草圖的有效且經(jīng)濟(jì)的方法。?特別是,目前的高通量測序技術(shù)提供了相對較短讀數(shù)(直到400nt),產(chǎn)生的較短重疊群難以組裝成更大重疊群,并對計(jì)算能力提出高要求。發(fā)明概述本發(fā)明人發(fā)現(xiàn),將基于克隆的基因組作圖與使用高通量測序技術(shù)的樣品(基因組)DNA的(高通量)測序結(jié)合起來,為高效迅速測定基因組序列草圖提供了卓越的策略。 通過從測序讀數(shù)產(chǎn)生重疊群,并將這些讀數(shù)錨定在全基因組作圖所得的BAC (或YAC或任何其它大插入克隆載體)_重疊群中,產(chǎn)生長度和密度都有所提高的重疊群。因此,獲得了一種基因組序列草圖,其通過較少的重疊群生成,從而提高了其質(zhì)量。^JL群聚術(shù)語“群聚”意味著在相同或相似核苷酸的短或長區(qū)段的存在下,比較兩個或多個核苷酸序列,并基于相同或類似序列的短(或長)區(qū)段將具有某最小水平序列同源性的序列集合在一起。比對將多個序列以表格形式放置,以盡可能,例如通過引入缺口獲得比對中不同序列之間的相同序列區(qū)域。本領(lǐng)域中已知幾種核苷酸序列的比對方法,在下文中進(jìn)一步詳述。AFLP =AFLP指一種選擇性擴(kuò)增核酸的方法,該方法基于用一種或多種限制性內(nèi)切核酸酶消化核酸,產(chǎn)生限制性片段,將接頭與限制性片段連接,用引物擴(kuò)增連有接頭的限制性片段,至少一種引物(部分)與接頭互補(bǔ),(部分)與剩余限制性內(nèi)切核酸酶互補(bǔ),且還在引物3’末端含有至少一種隨機(jī)選自A、T、C、或G(或在有些情況下是U)的核苷酸。AFLP 不需要任何現(xiàn)有序列信息,可在任何起始DNA上進(jìn)行。一般,AFLP包括以下步驟(a)用一種或多種特異性限制性內(nèi)切核酸酶消化核酸(特定是DNA或cDNA),使得 DNA片段成為一系列對應(yīng)的限制性片段;(b)將如此獲得的限制性片段與雙鏈合成寡核苷酸接頭連接,其一端與限制性片段的一端或兩端相容,從而產(chǎn)生連有接頭的起始DNA的限制性片段;(c)使連有接頭的限制性片段在雜交條件下與一種或多種寡核苷酸引物接觸,該引物被定向到接頭,且可在其3’末端包含選擇性核苷酸;(d)通過PCR或相似技術(shù)擴(kuò)增與引物雜交的連有接頭的限制性片段,從而使雜交的引物沿著與引物雜交的起始DNA的限制性片段延伸;(e)檢測、鑒定或回收由此獲得的擴(kuò)增或延伸的DNA。AFLP因此提供了連有接頭的片段的可重復(fù)亞組。AFLP如EP 534858,US 6045994 和Vos等1995所述。AFLP:—種DNA指紋分析的新技術(shù)。核酸研究(Nucleic Acids Research) 23 (21) :4407_4414。引用這些出版物進(jìn)一步詳細(xì)描述了 AFLP。AFLP通常作為有效、強(qiáng)大和可重復(fù)的復(fù)雜度減少的技術(shù)使用。選擇性堿基或選擇性核苷酸位于引物3’末端,引物的一部分與接頭互補(bǔ)且一部分與剩余限制性位點(diǎn)互補(bǔ),選擇性堿基隨機(jī)選自A,C,T或G(或可能的情況下為U)。通過用選擇性堿基延伸引物,隨后的擴(kuò)增僅僅得到連有接頭的限制性片段的可重復(fù)亞組,即僅用攜帶選擇性堿基的引物能擴(kuò)增出的片段??稍谝?’端加入1-10個選擇性核苷酸。一般,1-4個足夠。兩種引物都可含有不同數(shù)量的選擇性堿基。每加入一個選擇性堿基,亞組中擴(kuò)增的連有接頭的限制性片段數(shù)量就減少約4倍。通常,用于AFLP的選擇性堿基的數(shù)目以+N+M表示,其中一個引物攜帶N個選擇性核苷酸,另一個引物攜帶M個選擇性核苷酸。因此,EcoRI/MseI+l/+2AFLP是用EcoRI和MseI消化起始DNA,連接合適的接頭,并用引物擴(kuò)增,一種引物針對EcoRI限制性位點(diǎn),攜帶1個選擇性堿基,另一種引物針對MseI限制性位點(diǎn),攜帶2個選擇性核苷酸。用于AFLP的在3’末端攜帶至少一種選擇性核苷酸的引物也被稱作AFLP-引物。在3’末端不攜帶選擇性核苷酸,實(shí)際上與接頭和剩余限制性位點(diǎn)互補(bǔ)的引物有時(shí)被稱作AFLP+0引物。術(shù)語選擇性核苷酸也被用于目標(biāo)序列的核苷酸,這些核苷酸位于接頭區(qū)域附近并用選擇性引物鑒定,因而為人知曉。測序?術(shù)語測序指確定核酸樣品如DNA或RNA中的核苷酸順序(堿基序列)。 有許多技術(shù)可用,例如桑格測序和高通量測序技術(shù)(也稱作下一代測序技術(shù)),例如羅氏應(yīng)用科學(xué)基于焦磷酸測序提供的GS FLX平臺。限制性內(nèi)切核酸酶限制性內(nèi)切核酸酶或限制性酶是一種酶,其識別雙鏈DNA分子中的特定核苷酸序列(靶位點(diǎn)),并能在每個靶位點(diǎn)處或附近切開DNA分子雙鏈,得到鈍端或交錯末端。高頻剪切酶和低頻剪切酶限制性酶通常具有不同核苷酸數(shù)目的識別序列,從3、 4個(例如MseI)到6個(EcoRI),甚至8個(NotI)。所用的限制性酶可以是高頻剪切或低頻剪切。術(shù)語“高頻”在此特別相對于術(shù)語“低頻”使用。高頻剪切內(nèi)切核酸酶(即高頻剪切酶)是識別序列相對較短的限制性內(nèi)切核酸酶。高頻剪切酶通常識別3-5個核苷酸并隨后剪切。因此,高?頻剪切酶平均每64-10M個核苷酸剪切DNA序列一次。低頻剪切酶是具有相對較長識別序列的限制性內(nèi)切核酸酶。低頻剪切酶通常識別6個或更多核苷酸并隨后剪切。因此,低頻6-剪切酶平均每4096個核苷酸剪切DNA序列一次,得到更長的片段。 再次發(fā)現(xiàn),高頻和低頻的定義是彼此相對的,意味著當(dāng)4bp限制性酶例如MseI與5-剪切酶例如Avail組合使用時(shí),Avail視作低頻剪切酶,而MseI為高頻剪切酶。限制性片段用限制性內(nèi)切核酸酶消化產(chǎn)生的DNA分子被稱作限制性片段。用特定限制性內(nèi)切核酸酶消化任何給定基因組(或核酸,不論起源),得到一組不同的限制性片段。通過限制性內(nèi)切核酸酶剪切得到的DNA片段可在各種技術(shù)中進(jìn)一步使用且可用例如凝膠電泳檢測。連接連接酶催化的酶反應(yīng),其中兩條雙鏈DNA彼此共價(jià)連接,稱作連接。一般說, 兩條DNA鏈共價(jià)連接,但也可通過化學(xué)或酶修飾鏈末端之一來防止其中一條鏈連接。在此情況下,共價(jià)連接將僅發(fā)生在兩條DNA鏈的一條上。?合成寡核苷酸可化學(xué)合成的優(yōu)選具有約10-50個堿基的單鏈DNA分子被稱作合成寡核苷酸。一般這些合成的DNA分子設(shè)計(jì)成具有獨(dú)特或所需的核苷酸序列,雖然也可能合成具有相關(guān)序列的分子(其在核苷酸序列內(nèi)的特定位點(diǎn)具有不同核苷酸組成)家族。術(shù)語合成性寡核苷酸用于指具有經(jīng)設(shè)計(jì)或所需的核苷酸序列的DNA分子。接頭堿基對數(shù)量有限的短雙鏈DNA分子,例如長約10-30個堿基對,設(shè)計(jì)成可與限制性片段的末端連接。接頭通常由兩條核苷酸序列部分互補(bǔ)的合成性寡核苷酸組成。當(dāng)在合適條件下在溶液中混合兩種合成性寡核苷酸時(shí),它們彼此退火,形成雙鏈結(jié)構(gòu)。退火后,接頭分子的一端被設(shè)計(jì)成與限制性片段末端相容且可與其連接;接頭的另一端可設(shè)計(jì)成不能連接,但并不總是這樣(雙連接接頭)。連有接頭的限制性片段被接頭戴帽的限制性片段。引物一般,術(shù)語引物指能夠引發(fā)DNA合成的DNA鏈。DNA聚合酶不能在沒有引物的情況下從頭合成DNA 在一個反應(yīng)中只能延伸一條現(xiàn)有DNA鏈,其中互補(bǔ)鏈被用作模板, 指導(dǎo)組裝的核苷酸順序。我們將在聚合酶鏈?zhǔn)椒磻?yīng)(PCR)中使用的合成寡核苷酸分子稱作引物。DNA擴(kuò)增術(shù)語DNA擴(kuò)增通常指用PCR體外合成雙鏈DNA分子。應(yīng)注意存在其它擴(kuò)增方法,也可在本發(fā)明中使用而不違背其要旨。核酸本發(fā)明的核酸可包括嘧啶和嘌呤堿基的任何聚合物或寡聚物,優(yōu)選胞嘧啶、 胸腺嘧啶、尿嘧啶、腺嘌呤和鳥嘌呤(見Albert L. Lehninger,生物化學(xué)原理O^inciples of Biochemistry), 793-800 (Worth Pub. 1982)其全部內(nèi)容作為引用在此并入)。本發(fā)明考慮了任意脫氧核糖核苷酸、核糖核苷酸或肽核酸組分,以及其化學(xué)變體,例如這些堿基的甲基化、羥甲基化或糖基化形式等。組合物中的聚合物或寡聚物可以是異源或同源的,可以從天然存在的來源中分離,或者人工或合成產(chǎn)生。另外,核酸可以是DNA或RNA,或其混合物, 可永久或暫時(shí)以單鏈或雙鏈形式存在,包括同源雙鏈、異源雙鏈、和雜交狀態(tài)。復(fù)雜性減少術(shù)語復(fù)雜性減少用于指一種方法,其中通過產(chǎn)生或選擇樣品亞組來減少核酸樣品如基因組DNA的復(fù)雜性。該亞組可代表全部(即復(fù)合)樣品,優(yōu)選是可重復(fù)亞組??芍貜?fù)在此表示當(dāng)用相同的方法和實(shí)驗(yàn)條件減少同一樣品的復(fù)雜性時(shí),可獲得相同或至少相當(dāng)?shù)膩喗M。用于復(fù)雜性減少的方法可以是任何本領(lǐng)域已知的復(fù)雜性減少的方法。 復(fù)雜性減少的方法的例子包括例如AFLP (Keygene N. V.,荷蘭;見例如EP 0 534 858), Dong所述的方法(見例如WO 03/012118,WO 00/24939),索引連接(Unrau等,見下),等。 用于本發(fā)明的復(fù)雜性減少法的相同之處是它們都可重復(fù)??芍貜?fù)意味著當(dāng)以相同方式減少相同樣品的復(fù)雜性時(shí),獲得相同的樣品亞組,這與許多隨機(jī)復(fù)雜性減少法不同,例如顯微切割、隨機(jī)剪切、或使用表達(dá)所選組織中轉(zhuǎn)錄的部分基因組的mRNA(cDNA),其可重復(fù)性取決于組織選擇和分離時(shí)間等。標(biāo)記術(shù)語標(biāo)記指在核酸樣品中加入序列標(biāo)簽,從而使其與第二種或多種核酸樣品相區(qū)別。標(biāo)記可通過例如在復(fù)雜性減少過程中加入序列標(biāo)識物進(jìn)行,或使用任何本領(lǐng)域已知的其它方法,如單獨(dú)連接步驟。這種序列標(biāo)識物可以例如是長度不同但確定的獨(dú)特堿基序列,它特別用于鑒定特定核酸樣品。典型的例子是ZIP序列,在本領(lǐng)域作為獨(dú)特雜交檢測的常用標(biāo)記(Iarmone等Cytometry 39 131—140,2000)。使用基于核苷酸的標(biāo)簽,可在進(jìn)一步加工后確定樣品、克隆或擴(kuò)增產(chǎn)物的來源。在組合源于不同核酸樣品的加工產(chǎn)物的情況下,可用不同標(biāo)簽鑒定不同核酸樣品。標(biāo)識物一種短序列,它能加到接頭或引物上,或包含在其序列中,或用作標(biāo)記,以提供獨(dú)特的識別物(即條碼或指示)。這種序列標(biāo)識物(標(biāo)簽)可以是長度不同但確定的獨(dú)特堿基序列,通常為4-16bp,用于鑒定特定核酸樣品。例如4bp標(biāo)簽?zāi)軌虍a(chǎn)生4~4 = 256 個不同標(biāo)簽。使用這樣的標(biāo)識物,可在進(jìn)一步加工后測定PCR樣品的來源,或?qū)⑵闻c克隆聯(lián)系。還可用這些基于序列的識別物來區(qū)分收集池中的克隆。因此,識別物還可以是樣品特異性、收集池特異性、克隆特異性、擴(kuò)增子特異性等。在合并源于不同核酸樣品的加工產(chǎn)物的情況下,通常使用不同識別物鑒定不同核酸樣品。識別物優(yōu)選彼此至少有兩個堿基對差異,優(yōu)選不含兩個相同的連續(xù)堿基,以防止誤讀。識別物功能有時(shí)可以與其它功能組合, 例如接頭或引物,可位于任何便利位置。標(biāo)記文庫術(shù)語標(biāo)記文庫指核酸被標(biāo)記的文庫。比對和比對物術(shù)語“比對”和“比對物”表示基于相同或相似核苷酸的短或長區(qū)段,比較兩種或多種核苷酸序列。本領(lǐng)域中已知幾種核苷酸序列的比對方法,將在下文中進(jìn)一步闡述。術(shù)語“重疊群”用于DNA序列分析,指衍生自具有連續(xù)核苷酸序列的兩個或多個 DNA片段的DNA組裝連續(xù)區(qū)段。因此,重疊群是一組重疊的DNA片段,其提供了基因組中的部分連續(xù)序列?!爸Ъ堋敝敢幌盗许樞蛘_的重疊群,但不以連續(xù)順序連接,即包含缺口。重疊群圖也通過詳述一組克隆中的重疊關(guān)系描繪了基因組連續(xù)區(qū)域的結(jié)構(gòu)。例如,術(shù)語“重疊群(復(fù)數(shù))”包含一系列克隆載體,其順序是每個序列與其相鄰載體重疊。連接的克隆然后可以手工或優(yōu)選用合適的計(jì)算機(jī)程序,例如FPC,PHRAP, CAP3等編成重疊群組。術(shù)語“支架”用于通過含(未知)已知大小缺口的配對末端測序產(chǎn)生的重疊群。術(shù)語“超支架”用于通過WGP、BAC重疊群彼此連接的支架。高通量篩選高通量篩選通??s寫為HTS,是一種特別涉及生物學(xué)和化學(xué)領(lǐng)域的科學(xué)實(shí)驗(yàn)方法。通過現(xiàn)代機(jī)器人技術(shù)與其它專業(yè)實(shí)驗(yàn)室硬件的組合,研究者能夠同時(shí)有效篩選大量樣品。上游或下游以DNA序列方向(5’到3’)形式來描述DNA序列特征的用語。下游 (或3’ )是DNA序列3’末端的方向,而上游(5’ )是DNA序列5’端的方向。常規(guī)的單鏈 DNA序列、基因圖譜和RNA序列是根據(jù)轉(zhuǎn)錄(或翻譯)從左到右繪制的,因此下游在右(上游在左)。術(shù)語下游或上游可用于確定DNA序列中各種DNA片段彼此之間的相對位置。例如對于AFLP片段來說,片段中的選擇性核苷酸位于接頭上游,但引物中的選擇性核苷酸位于引物的接頭互補(bǔ)區(qū)段的下游(即其3’ )。
圖1是全基因組圖譜和使用BAC衍生序列的全基因組測序以及產(chǎn)生重疊群和支架的鳥槍測序的組合示意圖。圖2是全基因組圖譜和使用BAC衍生序列的全基因組測序以及與BAC-衍生重疊群互補(bǔ)且填充BAC重疊群之間缺口的鳥槍測序的組合示意圖。圖3是對甜瓜產(chǎn)生BAC衍生重疊群獲得的重疊群大小分布示意圖。圖4是引物結(jié)構(gòu)及其與接頭和標(biāo)識物相互作用的示意圖。圖5是支架產(chǎn)生的示意圖。塊是BAC重疊群,水平線是WGS支架,垂直線是連接的標(biāo)簽。圖6是分枝支架產(chǎn)生的示意圖。塊是BAC重疊群,水平線是WGS支架,垂直線是連接的標(biāo)簽。水平虛線顯示了與同一 BAC重疊群連接的另一 WGS支架,從而產(chǎn)生兩個分枝。發(fā)明詳述
本發(fā)明人發(fā)現(xiàn)了一種新的(植物)基因組測序策略,并用于商業(yè)化蔬菜作物(甜瓜)。該基因組測序策略基于兩個組成部分1)構(gòu)建基于序列的物理圖,優(yōu)選通過對人工染色體(優(yōu)選BAC)克隆池的片段末端測序(Amplicon Express,Rillman,USA),優(yōu)選使用基因組分析儀II,2)全基因組測序(WGS),優(yōu)選包括一組單個讀數(shù),31Λ配對末端讀數(shù)和長跳躍配對末端讀數(shù),使用GS FLX Titanium或GA II。當(dāng)用相同(純合體/近親)品系產(chǎn)生基于序列的物理圖和WGS序列時(shí),獲得最大組裝力,如所附實(shí)施例中所述用于作物。因此,首先,本發(fā)明涉及一種檢測基因組序列的方法,包括步驟-通過對BAC克隆池片段末端進(jìn)行測序,提供樣品基因組的物理圖譜;-提供一組來自樣品DNA的序列讀數(shù);-產(chǎn)生物理圖譜和序列讀數(shù)的重疊群。由此,可獲得有效和高質(zhì)量的基因組序列草圖,因?yàn)橥ㄟ^克隆測序片段末端的重疊群獲得的物理圖譜所提供的支架補(bǔ)充了序列讀數(shù)。在一個實(shí)施方式中,本發(fā)明涉及一種檢測基因組序列的方法,包括步驟(a)提供樣品 DNA ;(b)產(chǎn)生人工染色體(例如BAC、YAC)克隆庫,其中每個人工染色體含有部分樣品 DNA ;(c)在一個或多個收集池中合并人工染色體克隆,其中每個克隆存在于一個以上的池中,以產(chǎn)生文庫;(d)對每個收集池提供一組片段;(e)在片段一側(cè)或兩側(cè)連接接頭;(f)測定至少部分接頭和部分片段的序列;(g)將片段序列指定到對應(yīng)克??;(h)建立克隆-重疊群,從而產(chǎn)生樣品基因組的物理圖譜;(i)從樣品DNA產(chǎn)生序列讀數(shù);(j)將序列讀數(shù)和/或來自序列讀數(shù)的重疊群或支架與克隆重疊群比對,從而建立基因組序列/超支架。該策略聯(lián)合了基于BAC的物理圖譜與全基因測序的力量。本發(fā)明所述方法與現(xiàn)用的基因組測序策略相比大大節(jié)省了開支。該方法還更靈活地組合來自人工染色體如 BAC-衍生序列的序列信息和由直接產(chǎn)生序列信息的技術(shù)生成的序列信息,例如全基因組鳥槍測序和類似技術(shù)。本方法還可補(bǔ)充其它可用的序列信息,例如通過更常規(guī)技術(shù)如桑格雙脫氧測序獲得的信息等。在方法的步驟(a)中,提供了樣品DNA。這可通過本領(lǐng)域任何方式實(shí)現(xiàn),例如 Sambrook 等(Sambrook 禾口 Russell(2001) ” Molecular Cloning :A Laboratory Manual(3rd edition), Cold Spring Harbor Laboratory,Cold Spring Harbor Laboratory Press)公開的。樣品DNA可來自任何物種,特別是來自人、植物或動物來源。可以僅使用一部分基因組,但是這并不是必需的,因?yàn)楸景l(fā)明還提供了適合任何大小基因組的方法,例如通過可重復(fù)復(fù)雜性減少技術(shù),如基于AFLP的選擇性擴(kuò)增(EP534858),建立可重復(fù)亞組。因此通常,本方法使用整個基因組。在步驟(b)中,生成人工克隆庫。文庫可以是細(xì)菌人工染色體文庫(BAC)或基于酵母的人工染色體文庫(YAC)。也可使用其它文庫,例如基于f粘粒、粘粒、PAC、TAC或MAC。 優(yōu)選BAC文庫。文庫優(yōu)選是高質(zhì)量的,優(yōu)選是插入尺寸大的基因組文庫。這意味著各BAC 含有相對較大的要研究的基因組DNA插入片段(通常> 1251Λρ)。優(yōu)選大插入片段的尺寸取決于物種。在整篇申請中,提及BAC都作為人工染色體的例子。然而,應(yīng)注意到本發(fā)明不限于此,也可使用其它人工染色體而不違背本發(fā)明的要旨。文庫優(yōu)選含有至少5個基因組等價(jià)物,更優(yōu)選至少7個,最優(yōu)選至少8個。特別優(yōu)選的是至少10個。文庫中基因組等價(jià)物的數(shù)目越多,得到的重疊群和物理圖譜越可靠。收集文庫中的各個克隆,形成含有許多人工染色體或克隆的收集池。?收集可以是樣品中一些克隆的簡單組合(例如100個克隆并入10個收集池,每個含有10個克隆),也可以使用更復(fù)雜的收集策略。收集池中克隆的分布優(yōu)選是每個克隆存在于至少一個,或兩個,或多個收集池中,從而產(chǎn)生文庫。優(yōu)選每個收集池含有10-10000個克隆,優(yōu)選100-1000 個,更優(yōu)選250-750個。觀察到每個收集池的克隆數(shù)可以變化較大,該變化涉及例如研究的基因組大小。通常,收集池或亞收集池的最大尺寸由收集池中一組標(biāo)識物特異鑒定一個克隆的能力來決定。收集池中基因組等價(jià)物的典型范圍是0. 2-0. 3級別,這也可以視每個基因組而變化。收集池可基于本領(lǐng)域熟知的收集策略生成。本領(lǐng)域技術(shù)人員能夠根據(jù)基因組大小等因素選擇最佳收集策略。所得收集策略將視環(huán)境而定,其實(shí)施例是平板收集,N-維收集例如2D收集、3D收集、6D收集或復(fù)雜收集。為了便于處理大量收集池,收集池本身可以組合成超級池(即超級池是克隆池的收集池)或分成亞收集池。收集策略及其去卷積的其它實(shí)施例(即通過在一個或多個收集池或亞收集池中檢測克隆的已知相關(guān)標(biāo)志(即標(biāo)記或標(biāo)識物)的存在來正確識別文庫中每一個克隆),如US 6975943或Klein等,Genome Research, (2000),10,798-807所述。收集策略優(yōu)選是文庫中的每個克隆的分布使得對于每個克隆有獨(dú)特的收集池組合。其結(jié)果是某個(亞)收集池的組合獨(dú)特鑒定一個克隆。在方法的步驟(d)中,收集池被片段化且每個收集池產(chǎn)生一組片段。片段化可以是隨機(jī)的,即通過剪切或噴霧法生成一組片段。在一個優(yōu)選實(shí)施方式中,用限制性內(nèi)切核酸酶消化收集池得到限制性片段。每個收集池優(yōu)選獨(dú)立進(jìn)行內(nèi)切核酸酶消化。用相同的內(nèi)切核酸酶(組合)處理每個收集池。原則上可使用任何限制性內(nèi)切核酸酶。限制性內(nèi)切核酸酶可以是高頻剪切酶G或5剪切酶,例如MseI或Avail)或低頻剪切酶(6和更長的剪切酶,例如EcoRI,HindIII, PacI)。通常選擇的限制性內(nèi)切核酸酶使得獲得的限制性片段平均以一定量或一定長度分布存在,其足夠用于需要的譜型分析和/或隨后的步驟。在一些實(shí)施方式中,可用兩種或多種限制性內(nèi)切核酸酶,在一些實(shí)施方式中,可使用低頻和高頻剪切酶的組合。對于大基因組,利于使用例如三個或多個限制性內(nèi)切核酸酶。在一些實(shí)施方式中,可用產(chǎn)生鈍端的限制性酶。這樣對應(yīng)的接頭(見下文)也可以是鈍端的。對于片段的一端或兩端,接頭在步驟(e)中連接以提供連有接頭的片段。通常,接頭是本文他處定義的合成寡核苷酸。用于本發(fā)明的接頭優(yōu)選含有標(biāo)識物區(qū),也如本文他處定義。在一些實(shí)施方式中,接頭含有收集池特異性標(biāo)識物,即對于每個收集池,使用含有獨(dú)特標(biāo)識物的接頭,可明確表明產(chǎn)生片段的收集池。在一些實(shí)施方式中,接頭含有簡并標(biāo)識物區(qū),與含收集池特異性標(biāo)識物的引物組合使用。接頭還可含有引物結(jié)合位點(diǎn),隨后可在此開始擴(kuò)增。?這些引物結(jié)合位點(diǎn)也可在之后的階段中連接。優(yōu)選識別物區(qū)(不論是否簡并) 位于片段和引物結(jié)合位點(diǎn)之間,從而用與引物結(jié)合位點(diǎn)互補(bǔ)的引物從引物結(jié)合位點(diǎn)開始擴(kuò)增,至少擴(kuò)增出標(biāo)識物。在一些實(shí)施方式中,連有接頭的片段可合并成較大的組,特別是在接頭含有收集池特異性標(biāo)識物時(shí)。該較大組的組合有助于減少一個收集池獲得的連有接頭的限制片段的平行擴(kuò)增數(shù)??捎靡唤M引物擴(kuò)增連有接頭的片段,其中至少一個引物在接頭的收集池特異性或簡并標(biāo)識物處擴(kuò)增收集池特異性標(biāo)識物。引物可含有(部分)標(biāo)識物,但引物也可與位于標(biāo)識物外的接頭區(qū)域,即在銜接子下游互補(bǔ)。然后,可擴(kuò)增標(biāo)識物(同見圖4)。在一個實(shí)施方式中,引物可在與接頭互補(bǔ)部分的5’處含有標(biāo)識物,使得擴(kuò)增在所得擴(kuò)增子中引入標(biāo)識物。這種實(shí)施方式也能夠?qū)⑦B有接頭的片段分組,然后如上所述擴(kuò)增。在另一個實(shí)施方式中,用一組引物分別擴(kuò)增每個連有接頭的片段的收集池,其中接頭含有簡并標(biāo)識物區(qū)域,至少一個引物含有作為標(biāo)識物的收集池特異性區(qū)域,從而獨(dú)特識別收集池。在另一個實(shí)施方式中,引物與接頭至少一部分互補(bǔ),并通過在與接頭互補(bǔ)部分的5’末端包含標(biāo)識物序列,在擴(kuò)增出的連有接頭的片段中提供標(biāo)識物。用該引物的擴(kuò)增在擴(kuò)增子中加入標(biāo)識物。無論何種途徑,結(jié)果都得到一組擴(kuò)增出的連有接頭的片段,也稱作擴(kuò)增子,其與其來源的收集池由于收集池特異性標(biāo)識物在擴(kuò)增子中的存在而關(guān)聯(lián)。在一些實(shí)施方式中,可用例如在其3’末端攜帶選擇性核苷酸的引物選擇性擴(kuò)增產(chǎn)生擴(kuò)增子的亞組,如本文他處所述?!?shí)施方式中可將擴(kuò)增子組合成一組合并的擴(kuò)增子或所謂的序列文庫。在方法的步驟(f)中,對片段(或擴(kuò)增后對擴(kuò)增子)進(jìn)行測序,優(yōu)選下文所述的高通量測序。測序中,測定連有接頭的片段的至少一部分核苷酸序列。優(yōu)選測定至少部分接頭序列和部分片段序列。優(yōu)選經(jīng)測序的部分能將序列與BAC克隆關(guān)聯(lián)。優(yōu)選測定收集池特異性標(biāo)識物的序列與部分片段(即衍生自樣品基因組)。優(yōu)選測定片段的至少10個核苷酸序列。在一些實(shí)施方式中,測定了片段的至少11、12、13、14或15個核苷酸。要測定的核苷酸的最少數(shù)量應(yīng)該是基因組和測序平臺決定的。例如,在植物中存在更多重復(fù)序列,因此對于相當(dāng)質(zhì)量的重疊群要測定更長的序列05-75個核苷酸)。例如,在對擬南芥已知基因組序列的計(jì)算機(jī)模擬運(yùn)算中顯示,當(dāng)測序步驟中包括一個6bp限制性位點(diǎn)時(shí),每個片段需要測定約20bp,以確?;蚪M中大部分序列是獨(dú)特的。可以測定整個片段的序列,但是對于 BAC克隆重疊群構(gòu)建并不是絕對必需的。在測序步驟中,為了最大覆蓋所有片段和提高準(zhǔn)確率,可用至少為5的平均冗余水平(即過采樣率)對序列文庫測序。這意味著,一般來說用至少5個擴(kuò)增子來測定序列, 擴(kuò)增子通過擴(kuò)增一個特異性連有接頭的片段獲得。換言之每條片段(統(tǒng)計(jì)上)測序至少 5次。優(yōu)選增加冗余度,因?yàn)槠涮岣咴诿總€收集池中采樣的片段之間的分離和這些序列的準(zhǔn)確度,因此優(yōu)選冗余水平至少是7,更優(yōu)選至少10。用提高的平均測序冗余水平補(bǔ)償稱作 “采樣變動”的現(xiàn)象,即對大“群體”采樣獲得的亞組中的隨機(jī)統(tǒng)計(jì)學(xué)波動。另外,更高的平均采樣冗余水平減少了擴(kuò)增片段豐度中的可能差異,這是由片段之間的長度差異導(dǎo)致的擴(kuò)增速率不同和序列成分不同引起的。
在隨后的步驟(g)中,將(部分)測序的連有接頭的片段或擴(kuò)增子,關(guān)聯(lián)或指定到對應(yīng)克隆,通常使用計(jì)算機(jī)方法模擬。選擇在片段衍生部分中含有相同區(qū)段的連有接頭的片段或擴(kuò)增子。隨后,鑒定出存在于連有接頭的片段或擴(kuò)增子中的不同收集池特異性標(biāo)識物。不同的收集池特異性標(biāo)識物組合和片段序列可獨(dú)特指定給特定克隆(稱作“去卷積” 的過程)。例如,在3D收集策略(X,Y,Z)情況下,3個收集池特異性標(biāo)識物的組合可獨(dú)特用于文庫中的各收集池。每個克隆在文庫中出現(xiàn)超過一次,因此對于克隆在文庫中的每次出現(xiàn),可結(jié)合同一片段衍生的區(qū)段形成3個收集池特異性標(biāo)識物組合。換言之可用3種不同的標(biāo)識物標(biāo)記來源于一個克隆的片段衍生區(qū)段。當(dāng)聯(lián)合3種標(biāo)識物時(shí),獨(dú)特的片段衍生的區(qū)段可指定到一個BAC克隆。可對每個在片段衍生部分中含有其它獨(dú)特核苷酸區(qū)域的連有接頭的片段或擴(kuò)增子重復(fù)這個步驟。通過將每個收集池的基因組等價(jià)物維持在較低水平 (<0.3,優(yōu)選0. 2),可使得去卷積過程更加簡便,從而減少在衍生自不同克隆的相同收集池中相同片段存在2次的概率。樣品DNA被轉(zhuǎn)換成BAC文庫??蓪AC文庫并成一組收集池(M)(例如3個收集池,各含有約0. 3GE)。每個收集池分成(X+Y+Z)個亞收集池(通常為一摞微量滴定板,或橫向和/或縱向收集池)。經(jīng)測序的連有接頭的片段或擴(kuò)增子與文庫中的特定克隆相聯(lián)系,它們可基于片段衍生區(qū)段的序列匹配來構(gòu)建重疊群。然后可排列每個克隆的重疊群得到物理圖譜。在一個實(shí)施方式中,衍生自相同克隆的片段可排序得到克隆的重疊群?;趦蓚€或多個克隆中片段序列的出現(xiàn)(WGP標(biāo)記),可將克隆在本發(fā)明的步驟(h)中相互連接,從而產(chǎn)生克隆重疊群,并得到樣品基因組的物理圖譜。本發(fā)明所用的高通量測序是一種與生物學(xué)和化學(xué)領(lǐng)域尤其相關(guān)的科學(xué)實(shí)驗(yàn)方法。 通過現(xiàn)代機(jī)器人技術(shù)與其它專業(yè)實(shí)驗(yàn)硬件的組合,研究者能夠同時(shí)有效篩選大量樣品。優(yōu)選用高通量測序方法進(jìn)行測序,例如WO 03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007,和 WO 2005/003375,以及 Seo 等,Q004) Proc. Natl. Acad. Sci. USA 101 :5488-93, technologies of Helicos,Illumina),美國基因組學(xué)等公開的方法,作為引用在此并入。羅氏應(yīng)用科學(xué)在一些實(shí)施方式中,優(yōu)選用WO 03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005,WO 2004/070007,和WO 2005/003375公開的儀器和/或方法進(jìn)行測序,作為引用在此并入。目前,所述技術(shù)對于運(yùn)行一次GS FLX Titanium可測出400,000個序列讀數(shù),比競爭技術(shù)快100倍,便宜100倍。測序技術(shù)主要包含5步1)DNA片段化并連接特定接頭,形成單鏈DNA(ssDNA)文庫;2) ssDNA退火到珠,在油包水微反應(yīng)器中乳化珠,進(jìn)行乳化PCR,在珠上擴(kuò)增各ssDNA分子;3)選擇/富集表面含有擴(kuò)增的ssDNA分子的珠;4)在 PicoTiter 板上沉積攜帶DNA的珠;和幻通過產(chǎn)生焦磷酸光信號,在PicoTiter 平板的一百萬個以上的孔中同時(shí)進(jìn)行測序。該方法在下文進(jìn)一步詳述。在優(yōu)選實(shí)施方式中,測序包括步驟a.將銜接片段退火至珠,每個珠上退火有一個銜接的片段;b.在油包水微反應(yīng)器中乳化和擴(kuò)增珠上的退火片段,每個油包水微反應(yīng)器包括一個珠;
c.將珠加到孔中,每個孔包括一個珠;產(chǎn)生焦磷酸信號。在第一個步驟(a)中,測序接頭與組合文庫內(nèi)的片段連接。所述測序接頭包括至少一個用于與結(jié)合在珠上的互補(bǔ)寡核苷酸退火的區(qū)域,一個測序引物區(qū)和PCR引物區(qū)。如此獲得銜接的片段。在第一步內(nèi),銜接片段與珠退火,每個珠退火有一條銜接片段。在銜接片段的收集池中,過量加入珠,以確保大部分珠有一條銜接片段退火(泊松分布)。在本發(fā)明中,與獲得自克隆的限制性片段相連的接頭可包括能與珠退火的區(qū)段。在下一步中,在油包水微反應(yīng)器中乳化珠,每個油包水微反應(yīng)器包括一個珠。油包水微反應(yīng)器中存在PCR試劑,從而能在微反應(yīng)器中發(fā)生PCR反應(yīng)。然后打碎微反應(yīng)器,富集含有DNA的珠(DNA陽性珠),即與不含擴(kuò)增片段的珠分離。在下一步中,將富集的珠加到孔中,每孔包括一個珠。孔優(yōu)選是PicoTiter 平板的部分,能夠同時(shí)對大量片段進(jìn)行測序。加入攜帶酶的珠后,用焦磷酸測序確定片段序列。在隨后的步驟中,PicoTiter 平板和珠以及酶珠都在常規(guī)測序試劑存在下接觸不同的脫氧核糖核苷酸,摻入脫氧核糖核苷酸后,產(chǎn)生光信號并記錄下來。摻入正確核苷酸能產(chǎn)生可被檢測的焦磷酸測序信號。焦磷酸測序本身是本領(lǐng)域已知的,也在www. biotagebio. com ;www. pyrosequencing. com/section technology 中有所描述。該技術(shù)還用于例如 WO 03/004690, WO 03/054142,WO 2004/069849,WO 2004/070005,WO 2004/070007,和WO 2005/003375(所有都是以 454Life Sciences 名義,現(xiàn)為 Roche Diagnostics),以及 Margulies 等,nature 2005,437,376-380,作為引用在此并入。在本發(fā)明中,珠優(yōu)選配有引物序列或其部分,能通過聚合延伸,產(chǎn)生結(jié)合在珠上的擴(kuò)增子。在其它實(shí)施方式中,用于擴(kuò)增的引物在例如5’端具有能夠使擴(kuò)增子與珠結(jié)合的序列,從而能隨后發(fā)生乳液聚合,之后進(jìn)行測序。另外,擴(kuò)增子可與測序接頭連接,然后連接于珠或表面。經(jīng)測序的擴(kuò)增子將揭示標(biāo)識物的特性,從而用標(biāo)識物的組合揭示克隆的特性。Illumina 技術(shù)高通量測序方法之一可從 Illumina TechnoloRies (www, illumina. com)獲得,描述于 W00006770,W00027521, W00058507, W00123610, W00157248, W00157249, W002061127, W003016565, W003048387, W02004018497, W02004018493, W02004050915, W02004076692, W02005021786, W02005047301, W02005065814, W02005068656, W02005068089, W02005078130。大體上,方法開始于連有接頭的DNA片段,在此特定情況下是如本文他處所述的人工染色體收集池的連有接頭的限制性片段。連有接頭的DNA隨機(jī)結(jié)合到附于固相表面的致密引物區(qū)域上,通常在流動池中。。連有接頭的片段的另一端與表面上的互補(bǔ)引物雜交。引物在核苷酸和聚合酶的存在下在所謂的固相橋擴(kuò)增中延伸,產(chǎn)生雙鏈片段。該固相橋擴(kuò)增可以是選擇性擴(kuò)增。固相橋擴(kuò)增的變性和重復(fù)得到分散在表面上的致密的擴(kuò)增片段簇。通過在流動池中加入四種不同標(biāo)記的可逆終止子核苷酸、引物和聚合物引發(fā)測序。引物延伸過第一輪后,檢測標(biāo)記,記錄第一個摻入的堿基的種類,摻入堿基上的封閉3’末端和熒光團(tuán)被除去。然后以相同方式確定第二個堿基的種類,如此繼續(xù)測序。在本發(fā)明中,連有接頭的片段或擴(kuò)增子與表面通過引物結(jié)合序列或引物序列結(jié)合。所述測定序列,包括標(biāo)識物序列和(部分)片段。目前可用的技術(shù)能夠?qū)ψ铋L125個堿基的讀數(shù)長度進(jìn)行測序。出于全基因組譜型分析目的,36個堿基的序列讀數(shù)長度已經(jīng)足夠,但是這視基因組大小和序列成分(見下)而定。通過經(jīng)濟(jì)設(shè)計(jì)接頭和表面結(jié)合引物,測序步驟讀過樣品標(biāo)識物、限制性內(nèi)切核酸酶的識別序列的剩余部分、任選的選擇性堿基和限制性片段的內(nèi)部序列。例如,在36個堿基的序列讀數(shù)中,當(dāng)使用6堿基樣品標(biāo)識物、低頻剪切酶EcoRI (GAATTC)的剩余部分是6個堿基、使用2個選擇性堿基時(shí),限制性片段的內(nèi)部序列長度為36-14 = 22個堿基,這可用于獨(dú)特鑒定樣品中的限制性片段。注意到限制性酶位點(diǎn)的序列和(可任選的)選擇性堿基也可存在于基因組中,但是由于這些序列是所有限制性片段共有的,它們不影響將序列讀數(shù)指定給文庫中特定克隆的能力。在方法的步驟(i)中,從樣品DNA產(chǎn)生序列讀數(shù)。這可以是用于產(chǎn)生克隆庫的相同樣品,但也可以是來自同一物種的另一個樣品。使用不同來源的樣品產(chǎn)生序列讀數(shù)能夠使用現(xiàn)存的克隆庫,雖然會影響所獲得的基因組序列的質(zhì)量(產(chǎn)生重疊群可能更難)或所得基因組序列的質(zhì)量降低,或含有更多缺口??赏ㄟ^比對從序列讀數(shù)產(chǎn)生支架或重疊群,如步驟(j)所述,將其錨定到克隆重疊群,構(gòu)建超支架或基因組序列。在本發(fā)明的一個實(shí)施方式中,還可用來自BAC(或其它人工染色體)或BAC收集池的隨機(jī)生成片段并測定其(部分)序列,使用本文所述的測序技術(shù)。還可進(jìn)一步改善重疊群組裝的質(zhì)量,因?yàn)椴粌HBAC限制性片段末端是連接的,而且可產(chǎn)生(部分)BAC的重疊群。 優(yōu)選聯(lián)合序列讀數(shù)和從樣品DNA獲得的重疊群,可以進(jìn)一步提高質(zhì)量。因此在優(yōu)選實(shí)施方式中,從BAC衍生的重疊群(即從BAC末端序列和/或來自BAC 的限制性片段序列和/或隨機(jī)測序的BAC克隆)以及通過(限制性酶)片段化獲得的樣品 D//NA的序列讀數(shù)(產(chǎn)生重疊群)組合產(chǎn)生基因組序列草圖。與克隆-重疊群和/或物理圖譜生成平行或之后,可用更直接的方法從樣品獲得序列讀數(shù),也稱作“鳥槍測序”或“全基因組鳥槍測序” (WGS)。在該步驟中,從樣品和/或一個或多個樣品DNA的人工染色體克隆產(chǎn)生序列數(shù)據(jù)。樣品可以是準(zhǔn)備制備克隆庫的樣品, 但也可以是來自同一物種的另一個樣品或變體,因此與克隆庫樣品相比本身含有少量的多態(tài)性。通常通過樣品DNA的片段化,例如通過剪切、噴霧化或限制性酶消化來產(chǎn)生序列數(shù)據(jù)。片段可以連接接頭或不連接。接頭可含有標(biāo)記,用所謂的標(biāo)識物鑒定片段或樣品來源。 可選擇性或非選擇性擴(kuò)增連有接頭的片段,例如使用基于AFLP的技術(shù),采用在3’末端用一個或多個選擇性核苷酸延伸的接頭互補(bǔ)引物,如本文他處所述。無論如何,優(yōu)選用高通量測序技術(shù)產(chǎn)生序列讀數(shù),例如本文他處所述的基于焦磷酸測序的測序技術(shù)。然后將序列讀數(shù)組裝成重疊群和/或錨定到BAC文庫產(chǎn)生的重疊群。在一個優(yōu)選實(shí)施方式中,用一種以上的測序技術(shù)生成來自樣品DNA的序列讀數(shù)。 如附圖和文字所述,不同技術(shù)提供了不同長度的讀數(shù),能優(yōu)選幫助錨定和建立延伸的重疊群。使用“直接”序列讀數(shù)不僅完成了 BAC重疊群,還可填充在BAC產(chǎn)生的重疊群中留下的缺口內(nèi)。這實(shí)際上是本發(fā)明的主要優(yōu)勢之一。在先前的策略中,使用額外序列數(shù)據(jù) (不論是新產(chǎn)生的或來自已知來源)都僅僅考慮了將序列數(shù)據(jù)錨定到重疊群,以填充BAC重疊群的序列數(shù)據(jù),而并沒有將不同克隆重疊群聯(lián)系起來從而產(chǎn)生覆蓋基因組更大部分的重疊群(支架)。本發(fā)明還在一些實(shí)施方式中提供了延伸BAC-重疊群的可能性,并填充了在BAC和序列讀數(shù)產(chǎn)生的重疊群之間剩下的缺口,從而改進(jìn)了得到的基因組草圖的質(zhì)量,如圖中所示。任選的,也可用桑格雙脫氧測序技術(shù)獲得的序列數(shù)據(jù)補(bǔ)充序列讀數(shù)的數(shù)據(jù),因?yàn)檫@樣可以進(jìn)一步幫助組裝高質(zhì)量重疊群。還通過所謂的“下下代測序技術(shù)”,例如來自 Pacific Biosciences (太平洋生物科學(xué))的那些能夠傳遞達(dá)數(shù)1Λ長度的序列結(jié)果的技術(shù)來補(bǔ)充數(shù)據(jù)。在優(yōu)選實(shí)施方式中,獲得序列讀數(shù)時(shí),樣品DNA可以經(jīng)過多個復(fù)雜度減少技術(shù),例如AFLP (EP534585)和/或基于AFLP的復(fù)雜基因組測序技術(shù),如W02006/137734所公開,其中在AFLP技術(shù)中用兩個不同限制性酶組合產(chǎn)生序列讀數(shù)的重疊群。因此,本發(fā)明基于雙向途徑測定基因組序列草圖。第一條途徑是用全基因組譜型分析(WGP)產(chǎn)生人工染色體的重疊群(BAC)克隆。優(yōu)選通過使用隨機(jī)但可重復(fù)的BAC收集池的限制性片段亞組,可以相對較少量的覆蓋數(shù)據(jù)產(chǎn)生重疊群,使得BAC克隆的重疊群可被稱作“稀薄”或“低密度”?!跋” 笔侵冈跍y序的限制性片段之間有較大空間,能夠在相對較經(jīng)濟(jì)的測序量和計(jì)算力下組裝BAC的重疊群。因此,在WGP過程中測序的全基因部分比例相對較低(因?yàn)閃GP的目標(biāo)是克隆重疊而不是全基因組測序)。第二條途徑是用高通量測序機(jī)和方法產(chǎn)生/收集優(yōu)選相同(全DNA)樣品的序列數(shù)據(jù),這些機(jī)器和方法例如已知的羅氏應(yīng)用科學(xué)(產(chǎn)生達(dá)11Λ的讀數(shù))和Illumina(GS FLX)(產(chǎn)生 36-125nt 的讀數(shù))以及其它廠商(例如 Helicos,Intelligent Biosystem(智能生物系統(tǒng)),Danaher Motion-Dover,Pacific Biosciences等)。可直接將序列數(shù)據(jù)錨定于BAC重疊群,但首先可用于從序列數(shù)據(jù)產(chǎn)生重疊群。下一步,這些基于序列的重疊群可錨定于第一途徑中的BAC重疊群。另外,來自序列讀數(shù)的序列數(shù)據(jù)和重疊群可用于將現(xiàn)有 BAC重疊群彼此連接,即閉合支架之間和內(nèi)部的缺口。組合技術(shù)的優(yōu)勢是用不同方法從同一樣品獲得的序列數(shù)據(jù)可以彼此補(bǔ)充,如附圖所示。特別具有優(yōu)勢的是聯(lián)合WGP和兩種或多種不同的(高通量)測序技術(shù)。本文公開的策略的特別優(yōu)勢之一是使用相對較小的數(shù)據(jù)組,然后合并,與非常依賴粗略近似法的先前技術(shù)相反,例如W003/027311。對從(全DNA)樣品獲得的DNA進(jìn)行測序可基于減少復(fù)雜度的全DNA表征,例如通過使用限制性內(nèi)切核酸酶消化DNA得到限制性片段,如需要其可被標(biāo)記(“條碼化”),來表明其來源。然后可對這些限制性片段進(jìn)行測序,優(yōu)選使用高通量測序技術(shù),如本文他處所述的那些。也可考慮用其它形式減少復(fù)雜性,包括但不限于隨機(jī)片段化(通過噴霧化、超聲、 剪切或其它機(jī)械作用),然后在特定尺寸范圍內(nèi)選擇性篩選片段大小,Cot選擇(基于獨(dú)特序列相對重復(fù)序列的差異雜交動力學(xué))或其它復(fù)雜性降低的方法。原則上,使用限制性片段,例如通過低頻剪切酶如EcoRI限制性消化總DNA獲得的通常長2-31Λ (在AT富集基因組中)的片段,并測定限制性片段末端的核苷酸序列(通常每個末端30-400bp,視所用的測序技術(shù)而定),足以建立重疊群并將這些片段錨定到WGP重疊群(物理圖譜)。顯然也可使用其它限制性內(nèi)切核酸酶(例如高頻剪切酶,如MseI)和/或限制性內(nèi)切核酸酶的組合 (例如EcoRI/Msel)。優(yōu)選建立來自全DNA序列數(shù)據(jù)(相對較短片段)的重疊群,然后將這些(相對較長)的重疊群錨定到可用的BAC重疊群,而不是將測序讀數(shù)立刻錨定到BAC重疊群。再次,使用相對較小的數(shù)據(jù)亞組的優(yōu)勢在于更高效的“大批數(shù)據(jù)處理”,從而減輕對計(jì)算力的要求。這種方法的優(yōu)勢還在于可在臺式或筆記本電腦上計(jì)算其部分或元素,而不需要大型服務(wù)器和大型計(jì)算機(jī)。該雙向法的另一個優(yōu)勢在于使用全DNA作為序列信息的第二來源(相對于使用BAC文庫作為第一來源)。BAC文庫總是缺乏對基因組的完全和完整覆蓋。通過使用全DNA作為DNA的另外來源,可以有效實(shí)現(xiàn),或至少接近完全覆蓋研究中的基因組。這種基于限制性片段的測序的實(shí)施在例如W02006/137734中所述,其描述了使用 AFLP作為復(fù)雜性降低技術(shù),與高通量測序組合使用,以建立高質(zhì)量基因組序列草圖。因此在該實(shí)施方式中,如本文所述產(chǎn)生BAC重疊群,與通過W02006/137734所述方法得到的重疊群合并。在另一個實(shí)施方式中,基于全DNA的DNA測序可基于“隨機(jī)序列標(biāo)記”。聯(lián)合 Illumina的高通量系統(tǒng),還可將產(chǎn)生的序列信息錨定到從WGP獲得的BAC重疊群上。該實(shí)施方式認(rèn)識到BAC是最終“配對末端”。該技術(shù)的優(yōu)勢在于“深度測序”(即對數(shù)個基因組等價(jià)物(GE)進(jìn)行測序,以獲得高質(zhì)量數(shù)據(jù))并不再是獲得高質(zhì)量基因組裝配所必需的,因?yàn)榛蚪M的主要順序已經(jīng)由BAC重疊群提供(序列數(shù)據(jù)主要用于填充BAC重疊群中的縫隙)。 因此,該方法能夠用較少的序列數(shù)據(jù)(通過“較淺測序”,即對一個或僅數(shù)個GE測序)而不影響組裝質(zhì)量。這使得過程更經(jīng)濟(jì),因?yàn)椤拜^淺測序”本身就比深層測序節(jié)約成本。對于某些需要高質(zhì)量序列數(shù)據(jù)的領(lǐng)域,可通過選擇某些BAC克隆或BAC重疊群對所選區(qū)域進(jìn)行深度測序。因此,本發(fā)明的一個方面涉及對基因組部分或選定基因組區(qū)域使用本文所述的選擇性測序方法,優(yōu)選以可變覆蓋水平進(jìn)行。與W003/027311相比,本方法的不同是基于限制性片段或限制性片段結(jié)合隨機(jī)剪切和不單獨(dú)的隨機(jī)剪切來建立亞組。另外,與W003/027311相反,限制性片段的測序基于很低的覆蓋率?;谶@種低覆蓋率,產(chǎn)生了非?!” ?,即含有相對較少量數(shù)據(jù)的BAC重疊群。然后用序列讀數(shù)獲得的數(shù)據(jù)補(bǔ)充該‘稀薄’重疊群。這對于產(chǎn)生物理圖譜是一種更有效的方法,且對于這種規(guī)模的設(shè)計(jì)能更有效利用(有限)的計(jì)算力。產(chǎn)生的基因組草圖可作為單獨(dú)產(chǎn)物提供,優(yōu)選是以數(shù)字形式-與BAC文庫相關(guān)的序列數(shù)據(jù)和相關(guān)的BAC重疊群;-與全DNA測序相關(guān)的序列數(shù)據(jù)和相關(guān)的重疊群;-顯示BAC重疊群、DNA重疊群、合并重疊群和基因組序列草圖的軟件,從整體基因組序列草圖水平到核苷酸和片段間重疊部分的水平,;-從單獨(dú)序列數(shù)據(jù)產(chǎn)生重疊群的軟件-在不同重疊群和圖上顯示分子標(biāo)記的申請-呈現(xiàn)數(shù)據(jù)質(zhì)量和序列缺口的軟件。裝備有閃存或硬盤、只讀數(shù)據(jù)載體例如CD-ROM或DVD等的筆記本可提供該產(chǎn)物。 另外,基于網(wǎng)絡(luò)的服務(wù)器可提供產(chǎn)物,優(yōu)選在加密服務(wù)器上以數(shù)字形式提供。因此,產(chǎn)物的實(shí)施例可以包含下列組成的一種或多種a)組裝的物理圖(全基因組譜型分析,WGP)。可用重疊群建立軟件組裝圖,例如指紋化重疊群(FPC)軟件,適用于序列而不是條帶遷移率??苫诤喜⒖寺⊙苌暮塑账嵝蛄薪⒅丿B群,例如通過基于標(biāo)識物序列去卷積被指定到各克隆的BAC克隆。
b)組裝物,包括全基因組測序(WGQ的重疊群、超重疊群和/或支架??捎没蚪M裝配軟件包產(chǎn)生組裝物,例如Newbler(454Life Sciences/Roche Applied Sciences)和從頭短寡核苷酸分析軟件包(SOAP) (http//soap, genomics, org, m),基于下一代測序(即高通量焦磷酸測序)和/或桑格測序數(shù)據(jù)。c)基因組序列草圖?;蚪M序列草圖可基于整合WGP(在(a)下的圖和數(shù)據(jù))以及WGS((b)下的數(shù)據(jù))。 可以不同形式,包括fasta和tab分隔文檔提供基因組序列草圖;d)可視化軟件。用于觀察WGP和WGS集合,序列和關(guān)聯(lián)克隆及其組合的可視化軟件如FPC ;e)序列數(shù)據(jù)。用于產(chǎn)生物理圖譜或全基因組測序的實(shí)際序列數(shù)據(jù)。這可基于獲得例如額外的數(shù)據(jù)來協(xié)助進(jìn)一步改進(jìn)數(shù)據(jù),用于驗(yàn)證數(shù)據(jù),產(chǎn)生改善的物理圖譜。f) 一種存儲裝置或數(shù)據(jù)載體。裝置或載體可以是硬盤或閃存,包括(a)到(f)中所述的一種或多種數(shù)據(jù)和軟件;g)計(jì)算機(jī),例如筆記本或上網(wǎng)本,包括(a)到(f)的一個或多個組成或其部分。 實(shí)施例野生型擬南芥使用含有6144個BAC(約5個基因組等價(jià)物)的BAC文庫。對限制性酶(EcoRI和MseI)片段化的收集池進(jìn)行一次Illumina Classic,得到來自EcoRI側(cè)的約65000個不同的去卷積序列讀數(shù)。將讀數(shù)組裝(FPC,Soderlund, C., S. Humphrey, A. Dunhum,禾口 L. French (2000) · Contigs built with fingerprints, markers and FPC V4. 7. Genome Research 10 :1772-1787.)成 4599 個 BAC(74. 8% ),得到 234 個重疊群,每個重疊群有2-125個BAC。通過BLAST分析序列讀數(shù)對公開的基因組序列進(jìn)行驗(yàn)證,顯示約52000個讀數(shù)得到100 %命中,覆蓋基因組的99 %,最大缺口為1251Λρ。有50000 個特異命中;標(biāo)簽之間平均2355bp,代表了全部EcoRI位點(diǎn)的80%。艦甜瓜的基因組大小估計(jì)為450Mbp。分析了來自EcoRI和HindIII文庫的47,616個BAC,總共相當(dāng)于約13個基因組。 全部讀數(shù)的50%對BAC去卷積00,063BAC ;85% ),并被獨(dú)特標(biāo)記。用于重疊群建立36個堿基的9,417,M59 Illumina GA II讀數(shù);獲自5次GA II測序。196,256個獨(dú)特序列讀數(shù)與40,063個BAC克隆相連,平均錨定33個讀數(shù)。這些讀數(shù)組裝成670個重疊群和8,213 個單獨(dú)BAC。平均每個重疊群15個BAC( > 1. 8Mbp)基因組覆蓋率估計(jì)大于90%。見圖3 中重疊群大小分布。甜瓜將甜瓜WGS支架與甜瓜WGP BAC重疊群整合。甜瓜基因組大小估計(jì)的為450Mbp。輸入
權(quán)利要求
1.一種測定基因組序列的方法,包括步驟-通過對人工染色體克隆池片段末端進(jìn)行測序,提供樣品基因組的物理圖譜; -提供一組來自樣品基因組的序列讀數(shù); -產(chǎn)生物理圖譜和序列讀數(shù)的重疊群,建立基因組序列。
2.一種測定基因組序列的方法,包括步驟(a)提供樣品DNA;(b)產(chǎn)生人工染色體(例如BAC、YAC)克隆庫,其中每個人工染色體含有部分樣品DNA;(c)在一個或多個收集池中合并人工染色體克隆,其中每個克隆存在于一個以上的池中;(d)對每個收集池提供一組片段;(e)在片段一側(cè)或兩側(cè)連接接頭;(f)測定至少部分接頭和部分片段的序列;(g)將片段序列指定到對應(yīng)克??;(h)建立克隆-重疊群,從而產(chǎn)生樣品基因組的物理圖譜;?(i)從樣品DNA產(chǎn)生序列讀數(shù);(j)將序列讀數(shù)和/或來自序列讀數(shù)的重疊群或支架與克隆重疊群比對,從而建立基因組序列/超支架。
3.如權(quán)利要求2所述的方法,其中至少一個接頭分別含有收集池特異性標(biāo)識物或簡并標(biāo)識物區(qū)域,來提供含標(biāo)識物的連有接頭的片段。
4.如權(quán)利要求2-3所述的方法,其中擴(kuò)增連有接頭的片段,使用 -擴(kuò)增至少標(biāo)識物和部分片段的引物;或-含有與接頭中簡并部分互補(bǔ)的區(qū)域,且在擴(kuò)增的片段中引入標(biāo)識物的引物;或 -與至少部分接頭互補(bǔ)的引物,其在擴(kuò)增的連有街頭的片段中提供標(biāo)識物。
5.如權(quán)利要求2-4所述的方法,其中通過隨機(jī)片段化收集池和/或用限制性酶片段化收集池來產(chǎn)生收集池的片段。
6.如權(quán)利要求2-5所述的方法,其中從片段化樣品DNA和/或樣品DNA的一個或多個人工染色體克隆獲得序列。
7.如權(quán)利要求2-6所述的方法,其中從隨機(jī)片段化的樣品DNA和/或樣品DNA的一個或多個人工染色體克隆獲得序列讀數(shù)。
8.如權(quán)利要求2-6所述的方法,其中從通過限制性酶片段化樣品DNA所得限制性片段和/或樣品DNA的一個或多個人工染色體克隆獲得序列讀數(shù)。
9.如權(quán)利要求8所述的方法,其中限制性片段是連有接頭的限制性片段。
10.如權(quán)利要求9所述的方法,其中選擇性或非選擇性擴(kuò)增連有接頭的片段。
11.如前任一權(quán)利要求所述的方法,其中通過高通量測序進(jìn)行測序。
12.如權(quán)利要求11所述的方法,其中高通量測序在固相載體上進(jìn)行。
13.如權(quán)利要求11或12所述的方法,其中高通量測序基于合成測序。
14.如權(quán)利要求11-12所述的方法,其中測序基于焦磷酸測序。
全文摘要
本發(fā)明涉及一種測定基因組序列的方法,包括步驟通過對BAC克隆池的片段末端進(jìn)行測序,提供樣品基因組的物理圖;提供一組來自樣品基因組的序列讀數(shù),產(chǎn)生物理圖譜和序列讀數(shù)的重疊群。
文檔編號C12Q1/68GK102272334SQ201080004824
公開日2011年12月7日 申請日期2010年1月13日 優(yōu)先權(quán)日2009年1月13日
發(fā)明者A·A·A·W·揚(yáng)森, A·J·范托恩, M·J·T·范艾杰克 申請人:關(guān)鍵基因股份有限公司