專利名稱::用ultra-deep測序法測定序列變體的方法用ultra-deep測序法測定序列變體的方法發(fā)明領(lǐng)域本發(fā)明提供了在目標(biāo)多核苷酸群體中平行檢測和分析序列變體的方法、試劑和系統(tǒng),所述序列變體包括單核苦酸多態(tài)性(SNP)、插入/缺失變體(稱為"mdd")和等位基因頻率。本發(fā)明還涉及對由聚合酶鏈?zhǔn)椒磻?yīng)(PCR)復(fù)制得到的核酸通過平行焦磷酸鹽測序進(jìn)行研究的方法,以鑒別已知和未知序列中的突變和多態(tài)性。本發(fā)明包括使用核酸引物來擴(kuò)增被懷疑含有序列變體的靶核酸群體中的核酸的一個或多個區(qū)域,以產(chǎn)生擴(kuò)增子。各個擴(kuò)增子以高效的和節(jié)省成本的方式被測序,以形成在擴(kuò)增核酸中發(fā)現(xiàn)的序列變體的分布。發(fā)明背景除相同手足之外,各個個體之間的基因組DNA顯著不同。許多人類疾病起源于基因組變異。人和其它生命形式中的基因多樣性解釋了疾病易感性中觀察到的遺傳變異。源于這類遺傳變異的疾病包括Huntington's疾病、嚢肺性纖維化、Duchenne肌營養(yǎng)不良和某些形式的乳腺癌。這其中的每種疾病都與單個基因突變有關(guān)。疾病例如多發(fā)性石更化、糖尿病、帕金森氏癥、阿爾茨海默病和高血壓復(fù)雜得多。這些疾病可能是由于多基因(多個基因影響)或多因素(多個基因和環(huán)境影響)原因造成的。基因組中的許多變異不導(dǎo)致疾病性狀。但是,如上所述,單個突變可能導(dǎo)致疾病性狀。在醫(yī)學(xué)和人類生物學(xué)中,掃描人類基因組以鑒別作為這些疾病的病理學(xué)基礎(chǔ)或與之相關(guān)的基因的位置的能力是非常有用的工具。幾種類型的序列變異,包括插入和缺失(mdel)、重復(fù)序列數(shù)目上的差異和單個堿基對差異(SNP),導(dǎo)致基因組的多樣性。單個堿基對差異,被稱為單核苷酸多態(tài)性(SNP),是人類基因組中類型最常見的變異(大約每103個堿基中發(fā)生1個)。本文所用的SNP可以是至少兩個或更多個可選的核苷酸等位基因出現(xiàn)的任何基因組位置。本文所用的SNP還可以指任何單個堿基的插入/缺失變體(稱為"mdel"),或者涉及2個到100個或更多個石咸基的插入和/或缺失的mdel。SNP十分適合于研究序列變異,因為它們相對穩(wěn)定(即顯示出低的突變率),而且因為它們可能是造成遺傳特征的原因。應(yīng)當(dāng)理解在上述討論中,術(shù)語SNP還意味著可適用于"mdd"(定義如下)。用例如基于微衛(wèi)星的分析鑒別的多態(tài)性已被用于各種目的。使用基因連鎖策略鑒別單個孟德爾因子的位置已在許多案例中獲得成功(Benomaretal.(1995),Nat.Genet.,10:84-8;Blantonetal.(1991),Genomics,11:857-69)。肺瘤抑制基因的染色體位置的鑒別通常通過研究人腫瘤雜合性的丟失實現(xiàn)(Caveneeetal.(1983),Nature,305:779-784;Collmsetal.(1996),Proc.Natl.AcadSci.USA,93:14771-14775;Koufosetal.(1984),Nature,309:170-172;andLegmsetal.(1993),NatGenet.,3:122-126)。此外,使用遺傳標(biāo)記推斷引起復(fù)雜特征例如I型糖尿病的基因的染色體位置(Davisetal.(1994),Nature,371:130-136;Toddetal.(1995),Proc.Natl.Acad.Sci.USA,92:8560-8565)已成為人類遺傳學(xué)研究的焦點。雖然在鑒別許多人類疾病的遺傳基礎(chǔ)上已經(jīng)取得了顯著進(jìn)展,但是目前用于開發(fā)這種信息的方法受到了從大量樣品群體中獲得基因型信息所需的高昂成本和繁重工作的限制。這些限制使得對引起失調(diào)如糖尿病的復(fù)雜基因突變的鑒別極為困難。掃描人類基因組以鑒別疾病過程中涉及基因的位置的技術(shù)在二十世紀(jì)八十年代早期始于限制片段長度多態(tài)性(RFLP)分析的使用(Botsteinetal.(1980),Am.J.Hum.Genet.,32:314-31;Nakamuraetal.(1987),Science,235:1616-22)。RFLP分析包牙舌southernblotting和其它4支術(shù)。當(dāng)一夸Southernblotting用于大量沖羊品例如那些需要鑒別與具體表型相關(guān)的復(fù)雜基因型的樣品時,它既昂貴又費時。這其中的一些問題隨著基于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)的微衛(wèi)星標(biāo)記分析的開發(fā)而得以避免。微衛(wèi)星標(biāo)記是由二核苷酸重復(fù)、三核苷酸重復(fù)和四核苷酸重復(fù)組成的簡單序列長度多態(tài)性(SSLP)。其它類型的基因組分析是基于與具有多等位基因變異和高度雜合性的DNA的高變區(qū)雜交的標(biāo)記的使用??捎糜谥讣y分析基因組DNA的可變區(qū)是被稱為小衛(wèi)星的短序列的串聯(lián)重復(fù)。多態(tài)性是由于等位基因在重復(fù)數(shù)目的差異所致,這可能是起源于有絲分裂或減數(shù)分裂不平衡交換的結(jié)果或由復(fù)制過程中的DNA滑動造成。目前,通過DNA測序?qū)ψ儺惖蔫b別受到許多缺點的阻礙。在現(xiàn)有的方法中,在對所研究區(qū)域進(jìn)行擴(kuò)增后直接對擴(kuò)增產(chǎn)物(即變體序列的混合物)進(jìn)行測序?;蛘撸瑴y序步驟之前進(jìn)行微生物亞克隆步驟,即將擴(kuò)增產(chǎn)物重組插入到適合于在預(yù)定宿主生物體中繁殖的載體中。對擴(kuò)增產(chǎn)物直接測序的缺點在于序列中可變位點上產(chǎn)生的混合信號。這種混合信號中不同核苷酸的相對貢獻(xiàn)難于或無法定量,甚至是當(dāng)較低豐度的等位基因的頻率接近50%時。而且,如果所述變異是插入或缺失(而不是堿基替換),所引起的不同分子之間的移碼(phaseshift)會導(dǎo)致雜亂的、不能辨認(rèn)的信號。微生物克隆步驟的加入克服了直接測序所引起的問題,原因在于不會遇到混合信號。然而,這種策略需要大量的測序反應(yīng)。而且,微生物克隆步驟既昂貴且耗時,還可能有針對地挑選某些的變體,從而歪曲了變體的相對頻率。如果需要對大量(即數(shù)百個、數(shù)千個、數(shù)萬個)克隆進(jìn)行測序,成本就變得非常高。這些現(xiàn)有方法的每一種都具有明顯的缺點,因為它們耗時且在分辨率上受到限制。雖然DNA測序提供了最高的分辨率,但是它也是測定SNP的最昂貴的方法。這時,1000個不同樣品群體中進(jìn)行SNP頻率測定非常昂貴,100,000個不同樣品群體中進(jìn)行SNP頻率測定貴得令人不敢問津。因此,在該領(lǐng)域中持續(xù)存在對多核苷酸群體中存在的序列變體,特別是以低頻率存在的變體進(jìn)行鑒別和再測序的經(jīng)濟(jì)方法的需求。發(fā)明簡述現(xiàn)有方法的這些缺點以及它們所要求的在精確度、可靠性、成本和時間之間的折衷被提出,并通過本發(fā)明的方法在很大程度上得到了緩解。與上述的現(xiàn)有方法相反,本發(fā)明部分利用高通量的非Sanger測序技術(shù)的速度和處理量,從而在所研究的一個或多個特定多核苷酸區(qū)域或基因座處獲得了好的精確度和低的等位基因檢測閾值。術(shù)語"多核苷酸區(qū)域"和"基因座"在此可互換使用。本發(fā)明的擴(kuò)增和測序方法有助于對單個分子直接測序,或通過對源自于單個分子的克隆擴(kuò)增產(chǎn)物測序從而多核苷酸混合物中的變異進(jìn)行高度精確的檢測和/或頻率測定。在一方面,本發(fā)明包括能對核酸混合物中的序列變異,特別是以低一個發(fā)現(xiàn)靶向于核酸樣品中所研究特定區(qū)域的擴(kuò)增步驟以及所謂的單個分子測序技術(shù)的引入可精確、快速和低成本地發(fā)現(xiàn)序列變體和測定等位基因頻率。這種相對于先前已知方法的改進(jìn)部分通過在單個分子測序前使用序列特異的體外擴(kuò)增步驟實現(xiàn)。本發(fā)明的突出特點是以大深度(atgreatdepth)測定所研究多核苷酸區(qū)域的核苷酸序列的能力。深度(depth)是指跨越所研究給定區(qū)域的單個序列讀數(shù)(read)的數(shù)量。例如,如果1000個分子被分別測序,則深度等于1000,也可以稱為"1000倍,,或"1000X,,。根據(jù)本發(fā)明,深度可以從大約2至大約幾十億,例如從大約10至大約1百萬、從大約10至大約1千萬、從大約100至大約100,000或從大約1000至大約1百萬。深度可以大于大約2、大于大約10、大于大約100、大于大約1000、大于大約10,000、大于大約100,000、大于大約1百萬、大于大約1千萬、大于大約1億、大于大約10億。本發(fā)明的方法達(dá)到的序列深度遠(yuǎn)大于現(xiàn)有方法可達(dá)到的,實際達(dá)到的或可提供的深度。特別地,本發(fā)明的方法不需要微生物克隆。微生物克隆是在微生物宿主生物體例如大腸桿菌中擴(kuò)增多核苷酸。對本領(lǐng)域技術(shù)人員來說顯而易見的是,本發(fā)明可能達(dá)到的深度有助于稀少序列變體的檢測,并且相對容易、快速和低成本。本發(fā)明涉及通過鑒別特定多核苷酸序列判斷大量序列變體(例如等位基因變體、單核苷酸多態(tài)性變體、indel變體)的方法。現(xiàn)有的技術(shù)可通過例如聚合酶鏈?zhǔn)椒磻?yīng)(PCR)檢測SNP。然而,通過PCR檢測SNP要求設(shè)計與一種類型的SNP并且不與另一種類型的SNP雜交的特殊PCR引物。而且,雖然PCR是強(qiáng)有力的技術(shù),但是等位基因的特異PCR要求事先知道SNP的特征(序列)以及多個PCR循環(huán)和凝膠電泳分析,從而測定等位基因頻率。例如,5%的等位基因頻率(即20個中有1個)的檢測將會要求有至少20個PCR反應(yīng)。隨著等位基因頻率的降低,例如降低至4%、3%、2%、1%、0.5%、0.2%或更低,檢測等位基因頻率需要的PCR和凝膠電泳的數(shù)量急劇增加?,F(xiàn)有方法中沒有一個提供了通過鑒別特定DNA序列來檢測包括低豐度SNP在內(nèi)的SNP的簡單和快速的方法。我們發(fā)現(xiàn),與新的焦磷酸鹽測序技術(shù)結(jié)合的兩階段PCR技術(shù)可以'決速、可靠和節(jié)省成本的方式^^測序列變體(SNP、mdel和其它DNA多態(tài)性)。而且,本發(fā)明的方法可以檢測以非化學(xué)計量等位基因數(shù)量存在于DNA樣品中的序列變體,例如DNA變體的存在少于大約50%、少于大約25%、少于大約10%、少于大約5%或少于大約1%。這項技術(shù)可以4更利地p故稱為"ultradeep測序"。根據(jù)本發(fā)明,提供了通過對核酸樣品中的多個等位基因進(jìn)行特異性擴(kuò)增和測序來檢測序列變體(例如等位基因頻率、SNP頻率、mdd頻率)的方法。核酸首先用設(shè)計用于擴(kuò)增包圍所研究區(qū)域的區(qū)域的一對PCR引物進(jìn)行擴(kuò)增。然后將每一個PCR反應(yīng)產(chǎn)物(擴(kuò)增子)在單獨的反應(yīng)容器中用EBCA(基于乳液的克隆擴(kuò)增,EmulsionBasedClonalAmplification)分別進(jìn)行進(jìn)一步擴(kuò)增。對EBCA擴(kuò)增子(本文中被稱為第二擴(kuò)增子)進(jìn)行測序,來自于不同乳液PCR擴(kuò)增子的序列集合可以用于測定等位基因頻率。本發(fā)明的一個實施方案涉及在核酸群體中檢測序列變體的方法。所述序列變體可以是SNP、mdel、序列核苷酸頻率或等位基因頻率或這些參數(shù)的組合。所述方法包括用一對確定某個基因座的核酸引物擴(kuò)增所述核酸群體共有的DNA區(qū)段以產(chǎn)生第一擴(kuò)增子群體的步驟,其中每個擴(kuò)增子都含有所述DNA區(qū)段。第一個擴(kuò)增子群體中的每個成員被克隆擴(kuò)增以產(chǎn)生第二擴(kuò)增子的群體,其中第二擴(kuò)增子的每個群體源自于第一擴(kuò)增子的一個成員。所述第二擴(kuò)增子可以被固定在多個可移動的固相支持物上,以使每個可移動的固相支持物與所述第二擴(kuò)增子的一個群體相連。可對每個可移動固相支持物上的核酸測序以產(chǎn)生核酸序列群體——每個可移動固相支持物上有一種序列。序列變體、等位基因頻率、SNP或mdel可以從所述核酸序列群體測定。本發(fā)明的另一個實施方案涉及鑒別具有多種不同種的生物體的群體的方法。所述方法包括從所述群體中分離核酸樣品,使得所述核酸樣品是所述群體的每個成員的核酸的混合物。然后,所述群體中所有生物體共有基因座的核酸區(qū)段的核苷酸頻率可以根據(jù)前述段落所述的方法產(chǎn)生。所述基因座要求對于每個不同的種具有不同的序列(等位基因)。也就是,每個種在所述基因座應(yīng)當(dāng)具有不同的核酸序列。等位基因頻率可以#4居所述基因座上每種類型的核苦酸的出現(xiàn)率確定。生物體在所述群體中的分布可以根據(jù)所述等位基因頻率測定。在優(yōu)選的實施方案中,本發(fā)明的方法被用于測定核酸樣品中SNP 和/或mdel的分布。耙核酸群體可來自于個體、組織樣品、培養(yǎng)物樣品、環(huán)境樣品例如土壤樣品(參見例如實施例5和實施例3),或者任何其它類型的核酸樣品,這些核酸樣品含有至少兩種不同的多核苷酸,每種多核苷酸代表不同的等位基因。本發(fā)明的方法可以用于分析組織樣品以測定其等位基因組成。例如,可分析腫瘤組織以確定它們是否在致癌基因的基因座含有某個等位基因。使用這種方法,可確定腫瘤中具有激活的或突變的致癌基因的細(xì)胞的百分比和DNA樣品中腫瘤DNA的總量。本文所用的術(shù)語等位基因,包括在可變位點上的序列變異,其中所述變異可以出現(xiàn)在單個生物體中、同種生物的各個生物體之間,或出現(xiàn)在不同種的個體之間、一個或多個個體的正常和疾病組織之間以及病毒基因組之間。附圖簡述圖1是珠子乳液擴(kuò)增過程的一個實施方案的示意圖。圖2是ultmdeep測序方法的一個實施方案的示意圖。圖3是用引物對SAD1F/R-DD14(圖A)、SAD1F/R-DE15(圖B)和SAD1F/R-F5(圖C)產(chǎn)生的擴(kuò)增子的質(zhì)量評估。分析在BioAnalyzerDNA1000BioChip上進(jìn)行,中心峰代表PCR產(chǎn)物,側(cè)峰代表參照尺寸標(biāo)記物。每個峰測量在156-181個堿基對的理論大小的5bp之內(nèi)。圖4是代表MHCII基因座中兩個不同等位基因的擴(kuò)增子的核苷酸頻率(非匹配頻率),所述兩個等位基因(C等位基因?qū)等位基因)以近似于1J00(A)和1:1000(B)的比率混合,或僅為T等位基因(A)、克隆擴(kuò)增并在454LifeSciences測序平臺上測序。每一長方條代表偏離共有序列的頻率并根據(jù)堿基置換結(jié)果標(biāo)以顏色代碼(紅色=八;綠色=C;藍(lán)色=G;黃色=T)。圖5示出與圖4B和4C所示相同的數(shù)據(jù),但用圖4A所示的僅有T等位基因的樣品進(jìn)行了背景扣除。圖6是DD14HLA基因座的C相對于T等位基因的不同比率,混合所述等位基因并在454平臺上進(jìn)行測序以測定動態(tài)范圍。實驗實測比率相對于預(yù)測比率(橫坐標(biāo))繪制。每個數(shù)據(jù)點測序讀數(shù)的實際數(shù)目總結(jié)于表l?!D7A:顯示了定位于1.6Kb16S基因片段的讀數(shù)位置的圖形顯示,表明大約12,000個讀數(shù)定位于16S基因的前100個堿基。B:顯示了與7A類似的結(jié)果,所不同的是使用定位于堿基1000附近區(qū)域的V3引物。C:顯示了使用VI和V3引物情況下的讀數(shù)位置。圖8是系統(tǒng)樹,該系統(tǒng)數(shù)在全部200個序列中(一個除外)中清楚地區(qū)別出VI(圖左半邊較短長度)和V3(圖右半邊較長長度)序列。圖9是ultradeep測序方法的一個實施方案的示意圖。水平箭頭表示位于所研究區(qū)域側(cè)翼的引物。圖10是ultradeep測序方法的另一個實施方案的示意圖。水平箭頭表示位于所研究區(qū)域側(cè)翼的引物。發(fā)明詳述本發(fā)明涉及通過鑒別特定多核苷酸序列檢測一個或多個序列變體的方法。序列變體包括兩個核酸分子之間的任何序列差異。因此,序列變體被理解為也指至少單核苦酸多態(tài)性、插入/缺失(mdel)、等位基因頻率和核苷酸頻率——也就是^兌,這些術(shù)語是可以互換的。雖然本"i兌明書中始終用具體的實施例討論不同的檢測技術(shù),應(yīng)當(dāng)理解本發(fā)明的方法對于任何序列變體的檢測是同等適用的。例如,在本發(fā)明公開的內(nèi)容中對檢測SNP的方法的i侖述也可以適用于一企測mdel或核苦酸頻率的方法。本發(fā)明的方法可以用于擴(kuò)增和測序特定的靶;漠板,例如尤其是基因組、組織樣品、異質(zhì)細(xì)胞群體、病毒群體或環(huán)境樣品中的那些靶模板。這些模板可以包括例如PCR產(chǎn)物、候選基因、突變熱點、進(jìn)化上或醫(yī)學(xué)上重要的可變區(qū)。本發(fā)明的方法也可以用于應(yīng)用方面,如用可變或筒并擴(kuò)增引物進(jìn)行全基因組擴(kuò)增,隨后進(jìn)行全基因組測序。迄今為止,靶模板中新序列變體的發(fā)現(xiàn)要求全基因組的制備和測序,或者預(yù)先PCR擴(kuò)增所研究區(qū)域,然后或者對PCR產(chǎn)物分子群進(jìn)行測序,或者在微生物亞克隆擴(kuò)增后對單個PCR產(chǎn)物分子進(jìn)行測序。本發(fā)明的方法使得新序列變體的發(fā)現(xiàn)以及已知變體的4企測可以顯著較大的深度實施,并且相對于目前的現(xiàn)有技術(shù)具有顯著提高的靈敏度、速度以及較^氐的成本,同時回避了孩i生物亞克隆。在本發(fā)明公開的內(nèi)容中,單核苷酸多態(tài)性(SNP)可被定義為存在于至少兩個變體中的序列變異,其中最不常見的變體至少占群體的0.001%。應(yīng)當(dāng)理解本發(fā)明公開的方法可以應(yīng)用于"mdel"。因此,在本發(fā)明公開內(nèi)容提及SNP時,應(yīng)當(dāng)理解如果在任何位置將術(shù)語"SNP"換成術(shù)語"mdel",該^^開的內(nèi)容是同等適用的。本文所用的術(shù)語"wcfe/"意指與相關(guān)的核酸序列相比,在核酸序列中存在一個或多個核苷酸的插入或缺失。因此,與在相鄰核苷酸位置上的其它相同核酸序列相比,插入或缺失包括在一個核酸序列中一個或多個獨特核苷酸的存在或缺少。與相關(guān)的參考序列相比,插入和缺失可以包括例如在任何特定位置上的單個核苦酸、幾個核苦酸或多個核苦酸,包括5、10、20、50、100或更多個核苷酸??衫斫獾氖?,該術(shù)語還包括核酸序列比相關(guān)序列中多一個以上的插入或缺失。泊松統(tǒng)計表明滿負(fù)載的60mmX60mm的picotiter板(2X106個高質(zhì)量基底,包含200,000x100個堿基讀數(shù))檢測的下限(即小于一個事件)是三個事件(檢測置信度為95%)和五個事件(檢測置信度為99%)(參見表l)。這直接與讀數(shù)的數(shù)目成比例,因此在10,000個讀數(shù)、1000個讀數(shù)或IOO個讀數(shù)中具有相同的檢測極限,均是三個或五個事件。由于DNA讀數(shù)的實際數(shù)目高于200,000,所以,因檢測的靈敏度增加,實際的檢測下限預(yù)期在更低點上。作為比較,通過基于焦磷酸鹽的測序法對四倍體基因組上的各個等位基因狀態(tài)進(jìn)行的SNP檢測已被報道,只要頻率最低的等位基因在群體的10%或更多中存在(Rickertetal.,2002BioTechmques.32:592-603)。傳統(tǒng)的熒光DNA測序較不敏感,難于解析50/50(即50%)雜合等位基因(Ahmadianetal.,2000Anal.BioChem.280:103-110)。表1:基于整個群體中事件的數(shù)目檢測零個或一個或更多個事件的概率。"*"表示檢測三個事件失敗的概率為5%,因此檢測所述事件的概率為95%;類似地,表明檢測一個或多個發(fā)生5次的事件的概率為99.3%。<table>tableseeoriginaldocumentpage15</column></row><table>因此,使用完整的60x60mmpicotiter氺反檢測單個SNP4吏得可以才全測僅存在于群體的0.002%中的SNP,其置信度為95%,或僅存在于群體的0.003%中的SNP,其置信度為99%。自然地,多路分析比這種深度的檢測更加適用,表2顯示了在單個的picotiter板上同時監(jiān)測的SNP的數(shù)目,其最小等位基因頻率可以95%和99%的置信度檢測。表2<table>tableseeoriginaldocumentpage16</column></row><table>本發(fā)明的一個優(yōu)點是通常與樣品制備相關(guān)的步驟(例如從組織中提取和分離DNA以進(jìn)行測序)的數(shù)目可以取消或簡化。例如,由于所述方法的靈敏度,不再需要用常規(guī)的組織研磨技術(shù)和化學(xué)純化從組織中提取DNA。取而代之的是,體積少于一微升的小量組織樣品可以被煮沸并用于第一次PCR擴(kuò)增。該溶液擴(kuò)增的產(chǎn)物直^t妄加入到emPCR反應(yīng)中。因此,本發(fā)明的方法減少了時間和勞動強(qiáng)度以及產(chǎn)品的損失(包括由于人為失誤造成的損失)。本發(fā)明方法的另一個優(yōu)點是所述方法非常適于多路技術(shù)。如下所述的,本發(fā)明的雙向引物(bipartiteprimer)使得可以在一個溶液擴(kuò)增中將多個基因的引物對與相同的焦磷酸鹽測序引物對混合?;蛘?,多個制備物的產(chǎn)物可以置于一個乳液PCR反應(yīng)中。因此,本發(fā)明的方法在高通量的應(yīng)用方面顯示出相當(dāng)大的潛能。本發(fā)明的一個實施方案涉及測定等位基因頻率(包括SNP和mdel頻率)的方法。在第一個步驟中,第一擴(kuò)增子群體通過PCR產(chǎn)生,所述PCR使用第一對引物來擴(kuò)增含有待分析基因座的靶核酸群體。所述基因座可以含有多個等位基因,例如2、4、10、15或20個或更多個等位基因。第一擴(kuò)增子可以是任何大小,例如在大約50和大約100bp之間、在大約100bp和大約200bp之間、或大約200bp和大約lkb之間、或大約500bp和大約5000bp之間或大約2000bp和大約20000bp之間。所述方法的一個優(yōu)點是不需要兩個引物之間的核酸序列的信息。在下一個步驟中,第一擴(kuò)增子群體被遞送到油包水乳液中的含水農(nóng)么反應(yīng)器中,使得多個含水微反應(yīng)器含有(1)足夠的DNA以啟動受單個模板或擴(kuò)增子支配的擴(kuò)增反應(yīng)、(2)單個珠子和(3)含有實施核酸擴(kuò)增所必需的試劑(參見下述對EBCA(基于乳液的克隆擴(kuò)增,EmulsionBasedClonalAmplification)的討i侖)的擴(kuò)增反應(yīng)溶液。我們發(fā)5見,即4吏微反應(yīng)器中存在兩種或多種模板,也可實現(xiàn)受單個模板或擴(kuò)增子支配的擴(kuò)增反應(yīng)。因此,含有多于一種模板的含水微反應(yīng)器也在本發(fā)明的考慮的DNA模板。遞送步驟之后,第一擴(kuò)增子群體在微反應(yīng)器中擴(kuò)增以形成第二擴(kuò)增子。例如,擴(kuò)增可以通過EBCA(涉及PCR)(在WO2004/069849中描述)在熱循環(huán)儀中進(jìn)行以產(chǎn)生第二擴(kuò)增子。EBCA后,第二擴(kuò)增子可以結(jié)合于微反應(yīng)器的珠子上。結(jié)合有第二擴(kuò)增子的珠子被遞送到平坦表面上的反應(yīng)室陣列(例如至少10,000個反應(yīng)室的陣列)。所述遞送可以被調(diào)節(jié),從而使得多個反應(yīng)室含有不超過一個單個的珠子。例如,這可以通過使用其中反應(yīng)室小到只能容納一個單個的珠子的陣列實現(xiàn)。測序反應(yīng)可以同時在多個反應(yīng)室中進(jìn)行,以測定相應(yīng)于所述多個等位基因的多個核酸序列。用反應(yīng)室進(jìn)行平行測序的方法在上文另一部分中以及在實施例部分中被公開。測序之后,至少兩個等位基因的等位基因頻率可以通過分析來自靶核酸群體的序列來測定。作為實例,如果10000個序列被測定,9900個序列讀數(shù)為"aaa,,而100個序列讀數(shù)為"aag,,,則"aaa"等位基因可被稱為具有大約99%的頻率,而"aag,,等位基因?qū)哂写蠹s1%的頻率。這在說明書下文中和在實施例中會:故更詳細(xì)描述。本發(fā)明的方法的一個優(yōu)點是它具有比以前所獲得的更高水平的靈敏度。如果picotiter板被使用,本發(fā)明的方法可以在每個picotiter板中對超過100,000或超過300,000個不同的等位基因拷貝測序。4僉測的靈敏度應(yīng)該可檢測可代表大約1%或更少的等位基因變體的低豐度等位基因。本發(fā)明方法的另一個優(yōu)點是所述測序反應(yīng)還提供了所分析區(qū)域的序列。也就是說,不需要預(yù)先知道待分析基因座的序列信息。在優(yōu)選的實施方案中,本發(fā)明的方法可以檢測少于大約50%、少于大約20%、少于大約10%、少于大約5。/。或少于大約2%的等位基因頻率。在更優(yōu)選的實施方案中,所述方法可以;險測少于大約1%,例如少于大約0.5%、少于大約0.2%或少于大約0.02%的等位基因頻率。典型的才全測靈敏度范圍可以是在大約0.01%和大約100%之間、在大約0.01%和大約50%之間、在大約0.01%和大約10%之間如在大約0.1%和大約5%之間。目標(biāo)核酸群體可以來自于多種來源。例如,所述來源可以是來自于生物體的組織或體液。所述生物體可以是<壬<可生物體,包4舌4旦不限于哺乳動物。所述哺乳動物可以是人或有商業(yè)價值的家畜如牛、綿羊、豬、所有的才直物都可以通過本發(fā)明的方法分析,本發(fā)明的方法優(yōu)選的植物包括有商業(yè)價值的作物品種包括單子葉植物和雙子葉植物。在一個優(yōu)選的實施方案中,目標(biāo)核酸群體可以源自于谷物或食品,以測定構(gòu)成所述谷物或食品的基因型、等位基因或物種的來源和分布。這樣的谷物包括例如玉米、甜玉米、南瓜、甜瓜、黃瓜、甜菜、向日葵、稻、棉花、油菜、甘薯、豆、豇豆、煙草、大豆、苜蓿、小麥等。核酸樣品可以從多個生物體中收集。例如,iooo個體的群體的等位基因頻率可以在分析來自1000個體的混合DNA樣品的一個實驗中進(jìn)行。自然地,對于代表群體等位基因頻率的混合DNA樣品,群體的每個成員(每個個體)必須向混合樣品貢獻(xiàn)相同(或近似相同)量的核酸(相同數(shù)量的等位基因拷貝)。例如,在基因組等位基因頻率的分析中,每個個體可向混合DNA樣品貢獻(xiàn)來自于大約1.0xl()S個細(xì)胞的DNA。在本發(fā)明的另一個實施方案中,單個個體的多態(tài)性可以被測定。就是靶核酸可以從單個個體中分離。例如,可對來自一個個體的多個組織樣品的混合核酸的多態(tài)性和核苷酸頻率進(jìn)^亍才企查。例如,這可用于測定個體的腫瘤或懷疑含有腫瘤的組織中的多態(tài)性。例如,本發(fā)明的方法可以用于測定個體的組織樣品(或來自于多個組織樣品的混合DNA)中的激活的致癌基因的頻率。在這個實例中,激活的致癌基因的等位基因頻率為50%或更多可表明該腫瘤是單克隆的。存在少于50%的激活的致癌是多克隆的,或者所述組織樣品含有胂瘤組織和正常(非腫瘤)組織的組合。進(jìn)一步,在疑似組織的活組織^T查中,存在例如1%的激活的致癌基因可表明存在新出現(xiàn)的肺瘤,或者存在惡性腫瘤的滲透。此外,在其它藥物每t感腫瘤中,具有藥物抗性突變的腫瘤細(xì)胞組分的存在可以預(yù)示患者中具有完全藥物抗性胂瘤的復(fù)發(fā)。這種預(yù)測信息在癌癥治療和研究中將會具有無法估計的價值。靶核酸群體可以是任何核酸,包括DNA、RNA和這些DNA和RNA的多種形式,例如但不限于質(zhì)粒、粘粒、DNA病毒基因組、RNA病毒基因組、細(xì)菌基因組、真菌基因組、原生動物基因組、線粒體DNA、哺乳動物基因組和才直物基因組。核酸可以,人組織樣品或從體外培養(yǎng)物分離?;蚪MDNA可以從組織樣品、完整生物體或細(xì)胞樣品分離。如若需要,靶核酸群體可以被標(biāo)準(zhǔn)化,從而使其包含組成群體的每個個體的等量等位基因。本發(fā)明的一個優(yōu)點是基因組DNA可以直接被使用而無需進(jìn)一步處理。然而,在優(yōu)選的實施方案中,基因組DNA基本上不含干擾PCR或雜交過程的蛋白質(zhì),并且基本上也不含破壞DNA的蛋白質(zhì),例如核酸酶。優(yōu)選地,分離的基因組也不含會干擾PCR的非蛋白的聚合酶功能抑制劑(例如重金屬)和非蛋白的雜交抑制劑。蛋白質(zhì)可以通過本領(lǐng)域已知的許多方法乂人分離的基因組中除去。例如,可以用蛋白酶例如蛋白酶K或鏈霉蛋白酶除去蛋白質(zhì),用強(qiáng)力去垢劑例如十二烷基硫酸鈉(SDS)或十二烷基肌氨酸鈉(SLS)裂解獲得分離基因組的細(xì)胞除去蛋白質(zhì),或者一起使用來除去蛋白質(zhì)。裂解的細(xì)胞可以用苯酚和氯仿來提取,以產(chǎn)生含有包4舌分離基因組的核酸的水相,它可以用乙醇沉淀。靶核酸群體可以源自于具有未知來源DNA的來源例如土壤樣品、食物樣品等。例如,對來自于食物樣品的核酸樣品中的病原體中發(fā)現(xiàn)的發(fā)明的方法使得可以測定食物中病原體等位基因的分布。例如,本發(fā)明的方法可以測定環(huán)境樣品例如土壤樣品(參見實施例5)或海水樣品中具體生物體(例如細(xì)菌、病毒、病原體)的林(種)或抹(種)的分布。本文提供的方法的一個優(yōu)點是,本方法并不需要核酸或多核苷酸群體中突變或序列變體的先驗信息。由于所述方法是基于核酸測序,因此一個位置上所有的突變將會被檢測。而且,所述測序不需要微生物克隆。DNA樣品可以在一系列步驟中在體外擴(kuò)增和測序,而不需要克隆、亞克隆和克隆DNA的培養(yǎng)。本發(fā)明的方法可以用于例如病毒樣品中變體的4企測和定量。這些病毒樣品可以包括例如HIV病毒分離物。所述方法的其它應(yīng)用包括序列變體的群體研究。DNA樣品可以從生物體群體收集、混合并在一個實一驗中分析以測定等位基因頻率。所述生物體群體可以包4舌例如人群、家畜群、收獲的谷物群等。其它應(yīng)用包括對腫瘤活檢組織(例如肺和結(jié)腸直腸癌)中或來自于含有腫瘤和正常細(xì)胞的混合群體的活檢組織的體細(xì)胞突變的檢測和定量。本發(fā)明的方法還可以用于臨床相關(guān)易感基因(例如乳腺、卵巢、結(jié)腸直腸和胰腺癌、黑色素瘤)的高置信度再測序。本發(fā)明的另一個應(yīng)用包括與多個不同基因組相關(guān)的多態(tài)性的鑒別。所述不同基因組可以從與一些表型特征、家族起源、體格相似(physicalproximity)、種族、類別等相關(guān)的群體中被分離。在其它情它們彼此沒有關(guān)系。在一個優(yōu)選的實施方案中,可進(jìn)行本方法來測定具有特定表型特征例如遺傳疾病或其它特征的受試對象的基因型(例如SNP含量)。因組成,或用于測定特定SNP的等位基因頻率。此外,所述方法可用于通過鑒別基因組中一組SNP中每一個的存在與否從而生成基因組的基因組分類代碼,以及用于測定所述SNP的等位基因頻率。這些應(yīng)用的每一個在本文中一皮更詳細(xì)討論。本發(fā)明的一個優(yōu)選應(yīng)用包括高通量的基因分型方法。"基因分型"是鑒別在基因組DNA中特定基因組序列存在與否的方法。不同基因組可以從與一些表型特征、家族起源、體格相似、種族、類別等相關(guān)的群體的個體中分離,以鑒別與表型家族、位置、種族、類別等相關(guān)的多態(tài)性(例如與多個不同基因組相關(guān)的多態(tài)性)。或者,不同基因組可以從群體中隨機(jī)而不是依據(jù)它們在群體中的來源分離,以使它們彼此沒有關(guān)聯(lián)。這些基因組中多態(tài)性的鑒別表明總體上在群體中是否存在多態(tài)性,而不必需與特定的表型相關(guān)。由于基因組可以跨越長的DNA區(qū)域,可以包括多個染色體,所以本發(fā)明的檢測表型的方法需要分析多個位置上的多個序列變體,以99.99%可靠地檢測表型。雖然基因分型通常用于鑒別與特定表型特征相關(guān)的多態(tài)性,但這種關(guān)聯(lián)不是必需的?;蚍中蛢H僅要求存在多態(tài)性,它即可位于某個編碼區(qū),也可不位于某個編碼區(qū)域。當(dāng)基因分型用于鑒別表型特征的時候,推測所述多態(tài)性影響要被表征的表型特征。表型可以是所希望的、有害的或者在一些例子中是中性的。根據(jù)本發(fā)明方法鑒別的多態(tài)性可以導(dǎo)致某個表型。一些多態(tài)性出現(xiàn)在蛋白質(zhì)編碼序列內(nèi)部,因此會影響蛋白質(zhì)結(jié)構(gòu),從而引起或促成實測表型。其它多態(tài)性出現(xiàn)在蛋白質(zhì)編碼序列以外但影響基因的表達(dá)。還有其它多態(tài)性僅僅出現(xiàn)在所研究基因附近,可用作該基因的標(biāo)記。單個多態(tài)性可以引起或促成一個以上的表型特征,同樣地,單個表型特征可能是由一個以上的多態(tài)性引起的。通常,出現(xiàn)在給定基因的相同單倍型中的多個多態(tài)性與相同的表型相關(guān)。此外,個體的具體多態(tài)性是雜合還是純合可能影響具體表型特征的存在與否。表型相關(guān)性可以通過鑒別顯示出表型特征的受試對象的實驗群體和沒有表現(xiàn)出該表型特征的對照群體進(jìn)行。出現(xiàn)在共同具有某表型特征的受試對象的實驗群體中,并且不出現(xiàn)在對照群體中的多態(tài)性被認(rèn)為是與某個表型特征相關(guān)的多態(tài)性。一旦某個多態(tài)性被鑒別為與某個表型特征相關(guān),則可篩查可能出現(xiàn)某個表型特征的受試對象的基因組,以確定所述多態(tài)性在所述受試對象的基因組中是否出現(xiàn),目的是確定那些受試對象是否可能最終出現(xiàn)所述表型特征。這些類型的分析可以在有發(fā)生特定失調(diào)例如Huntington's疾病或乳腺癌的危險的受試對象中進(jìn)行。本發(fā)明的一個實施方案涉及將表型特征與SNP關(guān)聯(lián)的方法。表型特征包括任何類型的遺傳疾病、狀況或特征,它們的存在與否可以在患者的(例如,歸因于受試對象中SNP的出現(xiàn))并且是這類疾病的素因的多因素疾病。這些疾病包^fe例如^f旦不限于哮喘、癌癥、自身免疫疾病、炎癥、失明、潰瘍、心臟或心血管疾病、神經(jīng)系統(tǒng)失調(diào)和對病原樣i生物或病毒感染的易感性。自身免疫疾病包括但不限于風(fēng)濕性關(guān)節(jié)炎、多發(fā)性硬化、糖尿病、全身性紅斑狼瘡和格雷夫氏癥。癌癥包括但不限于膀胱癌、月鹵癌、乳&泉癌、結(jié)腸癌、食道癌、腎癌、造血系統(tǒng)癌癥如白血病、肝癌、肺癌、口腔癌、卵巢癌、胰腺癌、前列腺癌、皮膚癌、胃癌和子宮癌。表型特征還可以包括對藥物或其它治療手段的易感性、外表、高度、顏色(例如開花植物)、力度、速度(例如賽馬的速度)、毛發(fā)顏表型特征的實例已有描述,參見例如美國專利No.5,908,978(其中鑒別了某些植物品種中的疾病抗性與遺傳變異的關(guān)系)和美國專利No.5,942,392(其中描述了與阿爾茨海默病的發(fā)生相關(guān)的基因標(biāo)記)。遺傳變異(例如SNP的出現(xiàn))與表型特征之間的關(guān)聯(lián)的鑒別對于許多目的都是有用的。例如,受試對象中SNP等位基因的存在與所述受試變生活方式(例如,在對心血管疾病具有高于正常水平素因的受試對象中減少膽固醇或脂類食物以避免這種疾病),或密切監(jiān)測患者癌癥或其它疾病的發(fā)展是特別有用的。它在產(chǎn)前篩查以鑒別胎兒是否罹患或易于發(fā)生嚴(yán)重疾病中也是有用的。此外,為了增強(qiáng)或顯示所需特征,這種類型的信息可用于篩選動物或植物品種。一種測定與多個基因組相關(guān)的一個或多個SNP的方法是篩查在來自于具有所述特性的生物體的多個基因組樣品中SNP存在與否。為了確定哪些SNP與特定表型特征相關(guān),基因組樣品從顯示出所述特定表型特征的一組個體中被分離,并就是否存在共有SNP對所述樣品進(jìn)行分析。從每個個體獲得的基因組樣品可以被混合以形成混合基因組樣品。然后本發(fā)明的方法用于確定每個SNP的等位基因頻率。所述混合基因組樣品用本發(fā)明的高通量方法中的成組SNP(panelsofSNP)篩查,以確定是否存在與所述表型相關(guān)的特定的SNP(等位基因)。在一些例子中,可以預(yù)測特定受試對象顯示出所述相關(guān)表型的幾率。如果特定的多態(tài)性等位基因存在于30%發(fā)生阿爾茨海默病的個體中,但只存在于1%所述群體中,那么具有該等位基因的個體有較高的幾率發(fā)生阿爾茨海默病。該幾率還取決于幾個因素例如個體是否罹患具有這個等位基因的阿爾茨海默病以及其它因素是否與阿爾茨海默病的發(fā)生相關(guān)。這種類型的分析可用于測定特定表型被顯示出來的概率。為了增加這種類型的分析的預(yù)測能力,與特定表型相關(guān)的多個SNP可以被分析,相關(guān)值可以被鑒別。還可以鑒別與特定疾病分離的SNP。多個多態(tài)性位點可以被纟僉測和檢查以鑒別它們之間或標(biāo)記(SNP)和表型之間的物理連鎖。這可以用于將與某個表型特征連鎖或相關(guān)的基因位點定位到染色體位置上,從而揭示與所述表型特征相關(guān)的一個或多個基因。如果兩個多態(tài)性位點隨才幾分離,那么它們或者是在分離的染色體上,或者在同一個染色體上彼此相距足夠遠(yuǎn)使得它們沒有共分離(co-segregate)。如果兩個位點以顯著的頻率共分離,那么它們在同一個染色體上彼此連鎖。這些類型的連鎖分析可用于開發(fā)可定義對某個表型——包括疾病表型重要的基因組區(qū)域的基因圖譜。連鎖分析可以在展現(xiàn)出高比率特定表型或特定疾病的家族成員上進(jìn)行。生物樣品可以從顯示出某個表型特征的家族成員以及沒有顯示出所述表型特征的受試對象中分離。這些樣品每個都可以用于形成個體SNP等位基因頻率。數(shù)據(jù)可以被分析以確定各種SNP是否與所述表型特征相關(guān)以及任何SNP是否與所述表型特征分離。分析連鎖數(shù)據(jù)的方法在許多參考文獻(xiàn)中已有描述,這些參考文獻(xiàn)包括Thompson&Thompson,GeneticsmMedicine(5thedition),W.B.SaundersCo.,Philadelphia,1991;andStrachan,"MappingtheHumanGenome"intheHumanGenome(BiosScientificPublishersLtd.,Oxford)chapter4,并由Affymetrix,Inc.總結(jié)于PCT公開專利申請W098/18967中。涉及通過計算幾率值的log對數(shù)(LOD值)的連鎖分析揭示了在某個重組率下標(biāo)記和基因位點之間的連鎖幾率(與標(biāo)記和基因位點不連鎖時的值相比)。重組率表明了標(biāo)記連鎖的幾率。已分別開發(fā)了用于計算不同重組率值的LOD分?jǐn)?shù)和確定基于特定LOD分?jǐn)?shù)的重組率的計算機(jī)程序和數(shù)學(xué)用表。參見例如Lathrop,PNAS,USA81,3443-3446(1984);Smithetal.,MathematicalTablesforResearchWorkersinHumanGenetics(Churchill,London,1961);Smith,Ann.Hum.Genet.32,127-1500(1968)。LOD值用于表型特征的遺傳作圖在Affymetrix,Inc.的PCT公開專利申請W098/18%7中有描述。通常,正的LOD分?jǐn)?shù)值表示兩個遺傳基因座是連鎖的,+3或更高的LOD分?jǐn)?shù)是兩個基因座連鎖的強(qiáng)有力證據(jù)。負(fù)值提示連鎖的幾率較小。本發(fā)明的方法還可用于評價腫瘤中雜合性的丟失。腫瘤中雜合性的丟失對于確定胂瘤的狀態(tài)例如肺瘤是侵襲性肺瘤還是轉(zhuǎn)移性肺瘤是有用的。所述方法可以通過從來自具有相同類型的肺瘤的多個受試對象的腫瘤樣品中,以及得自相同受試對象的正常(即非癌性)組織中分離基因組DNA來進(jìn)行。這些基因組DNA樣品可以用于本發(fā)明的SNP檢測方法。與正常組織產(chǎn)生的SNP等位基因相比,肺瘤缺乏SNP等位基因表明雜合性的丟失是否發(fā)生。如果某個SNP等位基因與癌癥的轉(zhuǎn)移狀態(tài)相關(guān),則所述SNP等位基因的缺乏可以與其在非轉(zhuǎn)移性肺瘤樣品或正常組織樣品中的存在與否相比較。在正常和胂瘤組織中出現(xiàn)的SNP數(shù)據(jù)庫可以被形成,患者樣品中SNP的發(fā)生可以與數(shù)據(jù)庫相比較以達(dá)到診斷或預(yù)測的目的。能區(qū)分非轉(zhuǎn)移性原發(fā)腫瘤和轉(zhuǎn)移性腫瘤是有用的,因為轉(zhuǎn)移是癌癥患者治療失敗的主要原因。如果轉(zhuǎn)移可以被早期發(fā)現(xiàn),那么它可以被積極治療以減緩疾病的進(jìn)程。轉(zhuǎn)移是一個復(fù)雜的過程,包括細(xì)胞與原發(fā)胂瘤的分離、所述細(xì)胞通過循環(huán)系統(tǒng)移動以及肺瘤細(xì)胞在附近或遠(yuǎn)距組織位置的最終殖入。此外,希望能夠檢測發(fā)生特定癌癥的素因以使得監(jiān)測和早期治療可以開始。〖午多癌癥和腫瘤與基因改變相關(guān)。從肺瘤發(fā)生通過轉(zhuǎn)移階段并進(jìn)入到幾種基因畸變的階段的實體腫瘤進(jìn)展可負(fù)&發(fā)生。例如Smithetal.,BreastCancerRes.Terat.,18Suppl.1,S5-14,1991?;蚧儽幌嘈艜淖冸狭觯瑥亩蛊溥M(jìn)展到下一階段,即賦予其增殖優(yōu)勢,產(chǎn)生藥物抗性或血管生成、蛋白水解或轉(zhuǎn)移量增強(qiáng)的能力。這些基因畸變被稱為"雜合性的丟失"。雜合性的丟失可能是由缺失或重組引起的,所述缺失或重組導(dǎo)致在胂瘤發(fā)展中起作用的遺傳突變。腫瘤抑制基因的雜合性的丟失被相信在胂瘤發(fā)展中起作用。例如,相信位于染色體13ql4上的視網(wǎng)膜母細(xì)胞瘤抑制基因的突變導(dǎo)致視網(wǎng)膜母細(xì)胞瘤、骨肉瘤、小細(xì)胞肺癌和乳腺癌的發(fā)展。類似地,染色體3的短臂已蜂皮表明與癌癥如小細(xì)胞肺癌、腎癌和卵巢癌有關(guān)。例如,潰瘍性結(jié)腸炎是與增加的癌癥風(fēng)險相關(guān)的疾病,可能涉及包括累積的基因變化的多步驟發(fā)展(美國專利No.5,814,444)。已顯示罹患長期潰瘍性結(jié)腸炎的患者顯示出增加的癌癥風(fēng)險,一個早期標(biāo)志是染色體8的短臂末端的某個區(qū)域的雜合性的丟失。這個區(qū)域是推定的胂瘤抑制基因的位點,其可能還涉及前列腺癌和乳腺癌。雜合性的丟失可以容易地通過對罹患潰瘍性結(jié)腸炎的患者定期實施本發(fā)明的方法進(jìn)行檢測。類似的分析可以用來自其它已知的或被認(rèn)為與雜合性的丟失相關(guān)的肺瘤的樣品進(jìn)瘤才羊品可以在同一時間一皮;險測。所描述的發(fā)明部分涉及處理核酸以確定等位基因頻率的方法。這些方法中的一種可以寬泛地定義為下列三個步驟(1)樣品制備——第一擴(kuò)增子的制備;(2)珠子乳液PCR—一第二擴(kuò)增子的制備。(3)合成測序——測定第二擴(kuò)增子的多個序列以確定等位基因頻率。這其中的每一步在下文和實施例章節(jié)中一皮更詳細(xì)描述。1.核酸模板的制備核酸模板模板核酸可以從任何來源的核酸,例如任何細(xì)胞、組織或生物體構(gòu)建,并且可以用本領(lǐng)域/>知的方法產(chǎn)生?;蛘?,才莫壽反文庫可以通過從RNA如信使RNA(mRNA)產(chǎn)生互補(bǔ)DNA(cDNA)文庫制備。樣品制備的方法可以在共同未決的美國專利申請序列號No.10/767,779和PCT申請PCT/US04/02570中找到,還在WO/04070007中乂>開——所有文獻(xiàn)通過引用其全文的方式引入本發(fā)明。本發(fā)明的方法包含對來自于第一多核苷酸分子群體的所研究多核苷酸區(qū)域的選擇性擴(kuò)增。所述擴(kuò)增產(chǎn)生第二多核苷酸分子的群體,它源自于多個含有所研究區(qū)域的第一分子。即使每一個被擴(kuò)增的第一分子都含有所研究區(qū)域,應(yīng)當(dāng)知道在所述第一分子的所研究區(qū)域之間可能存在一個或多個序列變異。因此,所述群體中被擴(kuò)增的第一分子個體的數(shù)目可以從2到幾十億,有利地,多于大約100、多于大約1000、多于大約10,000、多于大約100,000、多于大約1百萬或多于大約十億個分子。選擇性擴(kuò)增是指擴(kuò)增針對所研究區(qū)域,因此優(yōu)先或?qū)iT擴(kuò)增所研究區(qū)域。理想地,只有所研究區(qū)域^皮擴(kuò)增。然而,本領(lǐng)域j支術(shù)人員應(yīng)當(dāng)知道,其它區(qū)域的大量非特異性的擴(kuò)增也可能出現(xiàn),正如核酸擴(kuò)增反應(yīng)中經(jīng)常觀察到的。這種非特異性擴(kuò)增產(chǎn)物可以通過對反應(yīng)條件的優(yōu)化,例如通過改變溫度、引物設(shè)計和濃度、緩沖液組分和核苷酸濃度等避免。本領(lǐng)域技術(shù)人員熟悉擴(kuò)增反應(yīng)優(yōu)化的策略,包括使用嵌套可1物來提高擴(kuò)增的特異性?;蛘撸魏畏翘禺愋詳U(kuò)增產(chǎn)物可以從所希望的產(chǎn)物中被分離,例如通過凝膠電泳或色譜技術(shù)進(jìn)行尺寸選擇。非特異性產(chǎn)物的去除可能完全沒有必要,這取決于非特異性擴(kuò)增的程度和特定的實驗設(shè)計。選擇性擴(kuò)增反應(yīng)可以通過本領(lǐng)域已知的多種方法進(jìn)行,包括等溫方法和需要熱循環(huán)的方法。例如,本領(lǐng)域技術(shù)人員已知的熱循環(huán)方法是聚合酶鏈?zhǔn)椒磻?yīng)(PCR)。選擇性擴(kuò)增的等溫方法的實例是Notomietal.,油c/"c」c油L2000;28(12):E63描述的環(huán)介導(dǎo)等溫擴(kuò)增(loop-mediatedisothermalamplification,LAMP)。LAMP利用由凈爭別"i殳"i十的一對靶特異性引物引發(fā)的自循環(huán)鏈置換DNA合成(self-recumngstranddisplacementDNAsynthesis)。所研究多核苷酸區(qū)域的大小即其長度在大約20和大約40,000個核苷酸之間,例如在大約50和大約10,000個核苷酸之間、在大約80和大約IOOO個核苷酸之間或在大約100和大約500個核普酸之間。大約50和大約2000個核苷酸之間的長度是優(yōu)選的。擴(kuò)增產(chǎn)物可以是單鏈或雙鏈多核苷酸形式,或是二者共存的形式。這些和其它DNA擴(kuò)增的方法在IWJJmpWcWo":Cwrew/1rec/mo/og/e5J/7p/zcW0似,V.DemidovandN.Broude,eds.,HorizonBioscience,2004中'不管所使用的;法是什么,、選擇性擴(kuò)增:導(dǎo)致第二多核苷酸分子群體的合成。因此,所述群體中被擴(kuò)增的第二多核苷酸分子個體的數(shù)目可以從2到幾十億,有利地,多于大約100、多于大約1000、多于大約IO,OOO、多于大約100,000、多于大約1百萬或多于大約十億個分子。被擴(kuò)增的多核苷酸區(qū)域可以是2到幾十億個核苷酸,有利地含有至少大約25個、至少大約50個、至少大約150個、至少大約300個、至少大約500個、至少大約1000個、至少大約5000個或至少大約10,000個核苷酸。選擇性擴(kuò)增還可以在多個反應(yīng)中或者在一個反應(yīng)中(即多路)靶定多個所研究區(qū)域。如果這樣的多個區(qū)域被分別擴(kuò)增,則擴(kuò)增產(chǎn)物可以在序列測定步驟之前的任何時刻被混合(集合)。核酸模板制備的一個優(yōu)選方法是在樣品上進(jìn)行PCR以擴(kuò)增含有所研究一個或多個(已知的或疑似)等位基因的區(qū)域。PCR技術(shù)可以應(yīng)用于任何核酸樣品(DNA、RNA、cDNA),使用彼此分隔開的寡核普酸引物。所述引物與雙鏈DNA分子的相反鏈互補(bǔ),典型地被大約50到2000個核苷酸或更多個隔開。然而,對達(dá)35000個堿基的區(qū)域的PCR擴(kuò)增,通過4吏用4交讀DNA聚合酶(Barnes,W.M.(1994)Proc.Natl.Acad.Sci.USA91:2216)是可能的。PCR方法在多個出版物中描述,包括Saikietal.,Science(1985)230:1350-1354;Saikietal.,Nature(1986)324:163-166;和Scharfetal.,Science(1986)233:1076-1078。還可以參見美國專利No.4,683,194;4,683,195和4,683,202,每個專利的文本在此通過引用的方式引入。PCR擴(kuò)增的其它方法在PCRTechnology:PrinciplesandApplicationsforDNAAmplificationed.HAErlich,FreemanPress,NewYork,N.Y.(1992》PCRProtocols:AGuidetoMethodsandApplications,eds.Innis,Gelfland,Snisky,andWhite,AcademicPress,SanDiego,Calif.(1990);Mattilaetal.(1991)NucleicAcidsRes.19:4967;Eckert,K.A.andKunkel,T.A.(1991)PCRMethodsandApplications1:17,and;PCR,eds.McPherson,Qmrkes,andTaylor,IRLPress,Oxford中描述,在此以引用的方式引入。2.核酸模板擴(kuò)增然后可對第二多核苷酸分子群體進(jìn)行序列分析,借此單個第二多核苷酸分子可被分別測序。但是任選地,在序列分析之前,單個第二多核苷酸分子被進(jìn)行第二輪體外擴(kuò)增,從而合成第三多核苷酸分子群體。所述第二輪擴(kuò)增可以本領(lǐng)域已知的幾種方法的任何一種進(jìn)行,使得得自每個第二分子的第三分子群體與得自其它第二分子的第三分子群體保持分離。這種類型的擴(kuò)增通常稱為克隆擴(kuò)增。本文所用的"克隆"指包含多個相同的分子或拷貝,例如包含從單個祖核酸分子擴(kuò)增的多個相同的核酸分子。特別地,每個群體是克隆的,因為它在后續(xù)的序列測定中代表單個第二多核苷酸分子。在一個實施方案中,第二輪擴(kuò)增可以在固相或半固相支持物上進(jìn)4亍,例如通過稱為橋式擴(kuò)增(bridgeamplification)的擴(kuò)增方法,如美國專利申請出版物No.2005/0100900、美國專利申請出版物No.2003/0022207和美國專利申請出版物No.2004/0096853中所述。因此,所述第二多核苦酸分子可以被退火結(jié)合固定在固相支持物上的合適寡核苷酸引物分子。所述引物然后可以被延伸,所述分子和所述引物可以彼此分離。延伸的引物然后可以被退火結(jié)合到另一個固定的引物上(從而形成"橋"),另一個引物可以被延伸。兩個延伸的引物然后可以彼此分離,并可以用于提供進(jìn)一步延伸的引物。該過程可以被重復(fù)以提供擴(kuò)增的、固定的第三多核苷酸分子群體。如果第二多核苦酸分子初始退火的操作使得退火的分子彼此相距足夠遠(yuǎn),則第三多核苷酸群體將傾向于以群落(colony)的方式彼此保持分離,并且因此是克隆的。因此,即使所述群落在單個固相或半支持物上彼此接近,在合適的起始條件下,所述群落的大部分仍然會保持分離并代表克隆擴(kuò)增產(chǎn)物。這些含有橋式擴(kuò)增產(chǎn)物的群落然后可以進(jìn)行核苷酸序列分析。在另一個實施方案中,第二輪擴(kuò)增可以通過在乳液中擴(kuò)增((wo20(M/069849和WO2005/073410)進(jìn)行。所述乳液可以含有數(shù)百萬個單獨的反應(yīng)。所述乳液可以含有微粒子,所述擴(kuò)增產(chǎn)物以克隆的方式與之結(jié)合。在另一個實施方案中,第二輪擴(kuò)增可以在半固相支持物上進(jìn)行,例如通過美國專利No.6,432,360、6,485,944和6,511,803中所述的聚合酶群落(polony)技術(shù)。例如,寡核苷酸引物被固定在半固相支持物上,模板核酸被接種到半固相支持物上并與引物雜交,用DNA聚合酶和脫氧三磷酸核苷延伸所述引物,然后變性。幾輪退火、延伸和變性導(dǎo)致在半相體支持物上原位克隆擴(kuò)增。擴(kuò)增產(chǎn)物在空間上限于緊鄰其所來源的模板分子處。這導(dǎo)致PCR群落的產(chǎn)生,本領(lǐng)域稱其為聚合酶群落。每個聚合酶群落中的核酸分子的多核苷酸序列然后可以用本領(lǐng)域已知的多種方法測定,包括合成測序方法,例如Mitraetal.(2003)Analyt.Biochem.320:55-65中所述的。在優(yōu)選的實施方案中,第二輪擴(kuò)增可以通過新的擴(kuò)增系統(tǒng)進(jìn)行,本文所稱的EBCA(基于乳液的克隆擴(kuò)增(EmulsionBasedClonal該第二擴(kuò)增。EBCA(WO2004/069849和WO2005/073410)通過將要被擴(kuò)增的模板核酸(例如DNA)連接到固相支持物優(yōu)選是通常的球形珠子形式上來進(jìn)行。根據(jù)本發(fā)明的樣品制備方法制備的單鏈模板DNA文庫是用于該擴(kuò)增方法的要被連接到珠子上的起始核酸模板文庫的合適來源的實例。所述珠子與大量互補(bǔ)于模板DNA某個區(qū)域的單個引物種類(即圖1中的引物B)連接。模板DNA退火結(jié)合到與珠子結(jié)合的引物上。所述珠子懸浮于含水反應(yīng)混合物中,然后封裝入油包水乳液中。所述乳液由直徑為大約60到200|imi、由熱穩(wěn)定油相包圍的不連續(xù)水相孩i滴構(gòu)成。每個微滴優(yōu)選包含擴(kuò)增反應(yīng)溶液(即核酸擴(kuò)增必需的試劑)。擴(kuò)增的實例是PCR反應(yīng)混合物(聚合酶、鹽、dNTP)和一對PCR引物(引物A和引物B)。參見圖1A。微滴群體的子集還包括含有DNA模板的DNA珠子。該微滴子集是擴(kuò)增的基礎(chǔ)。不在該子集中的微膠嚢沒有模板DNA,不參與擴(kuò)增。在一個實施方案中,擴(kuò)增技術(shù)是PCR,PCR引物以8:1或I6:1的比率(即8或16個一種引物比1個第二引物)存在以進(jìn)行不對稱PCR。概述來說,DNA退火結(jié)合到固定在珠子上的寡核苷酸(引物B)上。在熱循環(huán)期間(圖1B),單鏈DNA模板和珠子上固定的B引物之間的鍵被破壞,將所述模板釋放到周圍的微膠嚢化的溶液中。擴(kuò)增溶液(在此例子中為PCR溶液)包含額外的液相引物A和引物B。液相B引物容易與互補(bǔ)的模板b,區(qū)域結(jié)合,原因在于液相引物的結(jié)合動力學(xué)比固定化引物更快。在早期階段的PCR中,A和B鏈同樣良好擴(kuò)增(圖1C)。到中期階段的PCR(即在第10個循環(huán)和第30個循環(huán)之間),B引物被耗盡,停止指數(shù)擴(kuò)增。所述反應(yīng)然后進(jìn)入不對稱擴(kuò)增,擴(kuò)增子群體受A鏈支配(圖1D)。在晚期階段PCR(圖1E)中,在30到40個循環(huán)后,不對稱擴(kuò)增增加了溶液中A鏈的濃度。過量的A鏈開始退火結(jié)合到固定在珠子上的B引物上。熱穩(wěn)定的聚合酶然后使用A鏈作為模板合成固定的、與珠子結(jié)合的擴(kuò)增子的B鏈。在最后階段的PCR(圖1F)中,繼續(xù)的熱循環(huán)促使與珠子結(jié)合的引物的其它退火。液相擴(kuò)增在這個階段可能為最少,但固定的B鏈的濃度增加。然后,乳液被破壞,固定的產(chǎn)物通過變性(通過加熱、pH等)除去互補(bǔ)的A鏈變成單鏈。A引物被退火結(jié)合到固定鏈的A,區(qū)域上,固定鏈被加載測序酶和任何所需的輔助蛋白質(zhì)。所述珠子然后用公認(rèn)的焦磷酸鹽技術(shù)(例如在美國專利No.6,274,320、6,258,568和6,210,891中描述的焦磷酸鹽技術(shù),在此以引用的方式全部引入)被測序。在優(yōu)選的實施方案中,用于擴(kuò)增的引物是雙向的__含有5'部分和3'部分。引物的3'部分包含靶特異性序列(參見圖2),行使PCR引物的功能。引物的5,部分含有用于測序方法或固定方法的序列。例如,在圖2中,用于擴(kuò)增的兩個引物的5'部分包含與珠子上的引物或測序引物互補(bǔ)的序列(標(biāo)記為454正向和454反向)。也就是,5'部分包含正向列的測序引物啟動。這樣,一組含有互補(bǔ)于雙向引物的5'部分的序列的珠子可以被用于所有反應(yīng)中。類似地,一組含有互補(bǔ)于雙向引物的5,增子。在最優(yōu)選的實施方案中,所有用于擴(kuò)增的雙向引物對具有相同組的5,部分例如圖2中所示的454正向引物和454反向引物。在該例子中,所有擴(kuò)增子可以用包覆有互補(bǔ)于所述5'部分的寡核苷酸的標(biāo)準(zhǔn)珠子進(jìn)行分析。相同的寡核苷酸(固定于或不固定于珠子上)可以用作測序寡核苦酸。石皮壞乳液和珠子的回收模板擴(kuò)增后,乳液被"破壞"(在本領(lǐng)域中也被稱為"破乳")。有許多破壞乳液的方法(參見例如美國專利No.5,989,892及其引用的文獻(xiàn)),本領(lǐng)域技術(shù)人員能夠選擇合適的方法。一種優(yōu)選的破壞乳液的方法在實施例部分詳細(xì)描述。乳液被破壞后,含有擴(kuò)增才莫板的珠子然后可以一皮重懸于含水溶液中,以用于例如現(xiàn)有技術(shù)的測序反應(yīng)中。(參見Sanger,F.etal.,Proc.Natl.Acad.Sci.U.S.A.75,5463-5467(1977);Maxam,A.M.&Gilbert,W.ProcNatlAcadSciUSA74,560-564(1977);Ronaghi,M.etal.,Science281,363,365(1998);Lysov,I.etal.,DoklAkadNaukSSSR303,1508-1511(1988);BamsW.&SmithG.C.丄TheorBiol135,303-307(1988);Drnanac,R.etal.,Genomics4,114-128(1989);Khrapko,K.R.etal.,FEBSLett256.118-122(1989);PevznerP.A.JBiomolStructDyn7,63-73(1989);Southern,E.M.etal.,Genomics13,1008-1017(1992).)。如果所述珠子要用于基于焦磷酸鹽的測序反應(yīng)(例如在美國專利No.6,274,320、6258,568和6,210,891中描述,在此以引用的方式全部引入)中,那么必需除去PCR產(chǎn)物的第二條鏈,并將測序引物退火結(jié)合到與所述珠子相結(jié)合的單鏈模板上。這時,珠子上擴(kuò)增的DNA既可以在^朱子上直^妄^皮測序,也可在不同的反應(yīng)容器中被測序。在本發(fā)明的實施方案中,所述DNA通過將珠子轉(zhuǎn)移到反應(yīng)容器中并使DNA進(jìn)行測序反應(yīng)(例如焦磷酸鹽或Sanger測序)從而直接在^朱子上一皮測序。或者,所述珠子可以被分離,所述DNA可以從每個珠子上被移去并被測序。在任何一種情況下,測序步驟可以在每個單獨的3朱子上進(jìn)4亍。3.測序核酸的方法根據(jù)本發(fā)明,多個第二多核苷酸分子或第二多核苷酸分子的群體中的每一個,或者任選地,多個第三多核苷酸分子或第三多核苷酸分子的群體中的每一個,被進(jìn)行核苷酸序列分析。第二(以及任選地第三)多核苷酸分子的序列通過本發(fā)明的方法被測定,其范圍從2個到幾十億個,有利地,多于大約100個、多于大約1000個、多于大約10,000個、多于大約100,000個、多于大約1百萬個或多于大約十億個。所述序列可以含有至少兩個連續(xù)核苷酸,優(yōu)選至少大約5個、至少大約25個、至少大約50個、至少大約100個、至少大約150個、至少大約200個、至少大約300個、至少大約500個、至少大約1000個、至少大約5000個、至少大約10,000個或至少大約100,000個連續(xù)核苷酸,由每個第二(或任選地第三)多核苷酸分子測定。本領(lǐng)域技術(shù)人員熟悉多核苦酸測序的幾種方法。這些方法包括但不限于Sanger測序(也稱為雙脫氧測序)以及各種合成測序(SBS)方法,其綜述見Metzger(MetzgerML2005,G,膨7e廳rc/z1767),通過雜交、通過連接(例如,WO2005/021786)、通過降解(例如,美國專利No.5,622,824禾口6,]40,053)測序禾口纟內(nèi)米孑L測序(nanoporesequencing)。根據(jù)本發(fā)明,本領(lǐng)域已知的任何多核苷酸擴(kuò)增和測序的方法都可以被使用,只要所選擇的方法導(dǎo)致單個多核苷酸分子的序列測定,或任選地由所述單個多核苷酸分子擴(kuò)增獲得的克隆多核苷酸群體的序列測定。任何擴(kuò)增可在體外出現(xiàn),與通過微生物克隆的擴(kuò)增相反。在某些實施方案中,多核苷酸測序通過被稱為合成測序(SBS)的一組方法中的任何方法完成。SBS指確定一個或多個核苦酸在多核苷酸中或在多核苷酸群體中的同一性的方法,其中所述方法包括逐步合成互補(bǔ)于其核苷酸序列待測定的模板多核苷酸的單鏈多核苷酸。寡核苷酸引物被設(shè)計以退火結(jié)合到樣品模板分子的預(yù)先確定的互補(bǔ)位置上。在存在核酸聚合酶的條件下提供給所述引物/模板復(fù)合物某個核苷酸。如果所述核普酸與樣品模板分子上緊鄰寡核苷酸引物3'末端的位置互補(bǔ),那么聚合酶會用所述核苷酸延伸所述引物?;蛘?,同時提供給所述引物4莫板復(fù)合物所有所研究核苷酸(典型地A、G、C和T),與樣品模板分子上緊鄰寡核苷酸引物3'末端的位置互補(bǔ)的核苷酸被摻入。在每種情況下,所述核苷酸可以是被化學(xué)阻斷的(例如在3'-0位置)以阻止進(jìn)一步延伸,并且需要在下一4侖合成之前被去阻斷。所述核苷酸的任何4參入可以通過本領(lǐng)域已知的各種方法被;險測,例如通過化學(xué)發(fā)光才全測焦磷酸鹽(PPi)的釋放(美國專利No.6,210,891、6,258,568和6,828,100),或者使用與所述核苷酸結(jié)合的可檢測標(biāo)記??蓹z測標(biāo)記包括質(zhì)量標(biāo)簽(例如,美國專利No.5,622,824和6,140,053)和熒光或化學(xué)發(fā)光標(biāo)記??蓹z測的標(biāo)記直接或間接與所述核苷酸相結(jié)合。在熒光標(biāo)記的情況下,所述標(biāo)記可以直接被外部光刺激激發(fā),或者間接地通過熒光(FRET)或冷光(LRET)供體的發(fā)射光激發(fā)(美國專利No.6,982,146)。在檢測了可才全測標(biāo)記后,所述標(biāo)記必須被失活,或者從反應(yīng)中分離,以^吏它不會千擾來自隨后標(biāo)記的信號或與之相混合。標(biāo)記分離可以例如通過化學(xué)切割(例如美國專利申請出版物No.2003/0124594)或光切割實現(xiàn)。標(biāo)記失活可以例如通過光漂白實現(xiàn)。根據(jù)本發(fā)明,本領(lǐng)域已知的任何SBS方法可以用于第二多核苷酸或第三多核苷酸群體的測序中。根據(jù)本發(fā)明,多核苷酸測序還可以通過基于納米孔的方法實現(xiàn)。納米孔測序的基本原理是單鏈DNA或RNA分子可以被電泳驅(qū)動通過納米級的孔,通過這種方式,所述分子以嚴(yán)格線性的方式穿過該孔。由于移動的分子部分妨礙或阻斷了納米孔,所以它改變了孔的電性質(zhì)。這種電性質(zhì)的改變?nèi)Q于核苷酸序列,可以被測量。所述納米孔可以含有蛋白質(zhì)分子,或者它可以是固體狀態(tài)?;诩{米孔的方法的一個優(yōu)點是可以獲得非常長的讀長(readlength),例如數(shù)千個、數(shù)萬個或數(shù)十萬個連續(xù)核苷酸可以從一個單個的分子中讀出。通過納米孔進(jìn)行多核苷酸表征的方法在例如美國專利申請出版物No.2006/0063171、U.S.2006/0068401和U.S.2005/0202444中被討論。一種測序的方法是SBS方法,被稱為基于焦磷酸鹽的測序。在基于焦磷酸鹽的測序中,樣品DNA序列和延伸引物在存在三磷酸核苷的條件下進(jìn)行聚合酶反應(yīng),借此,所述三磷酸核苷在與靶位置的堿基互補(bǔ)的情況下被摻入并釋放焦磷酸(PPi),所述三磷酸核苷或者被加入到樣品-引物混合物的各個等分試樣中,或者依次被加入到相同的樣品-引物混合物中。然后檢測PPi的釋放以指示哪個核苷酸被摻入。在一個實施方案中,序列產(chǎn)物的某個區(qū)域通過將測序引物退火結(jié)合到模板核酸的某個區(qū)域上,然后使測序引物與DNA聚合酶和已知的三磷酸核苷,即dATP、dCTP、dGTP、dTTP或這些核苷酸之一的類似物接觸從而被測定。所述序列可以通過檢測序列反應(yīng)副產(chǎn)物被測定,如下文所述。所述序列引物可以是任何長度或堿基組成,只要它能夠特異地退火結(jié)合到擴(kuò)增核酸模板的某個區(qū)域上。對測序引物不要求特定的結(jié)構(gòu),只要它能特異地引導(dǎo)擴(kuò)增模板核酸上的區(qū)域。優(yōu)選地,所述測序引物與模板上要被表征的序列和能與錨定引物雜交的序列之間的區(qū)域互補(bǔ)。所述測序引物用DNA聚合酶延伸形成序列產(chǎn)物。所述延伸在存在一種或多種類型的三磷酸核苷進(jìn)行,如若需要,也可存在輔助結(jié)合蛋白。dNTP的摻入優(yōu)選通過檢測測序副產(chǎn)物的存在被確定。在優(yōu)選的實施方案中,由于dNMP被摻入到延伸的序列引物中,因此測序產(chǎn)物的核苷酸序列通過測量從三磷酸核苦(dNTP)釋放的無機(jī)焦磷酸鹽(PPi)診皮溯)J定。這種、測序方';去,牙爾為PyrosequencmgTM^支術(shù)(PyroSequencingAB,Stockholm,Sweden),可以在溶液中(液相)或作為固相技術(shù)一皮進(jìn)行?;赑Pi的測序方法在例如W09813523A1,Ronaghi,Wa/.,1996.j憩/.B/oc/7綴242:84-89,Ronaghi,"a/.,1998.Sc固ce281:363-365(1998)和US專利申請出W反物No.2001/0024790中一皮總體描述。這些PPiNo.6,210,891和6,258,568,其中每一篇在此以引用的方式全部完全引入。在優(yōu)選的實施方案中,DNA測序用在共同未決的專利申請USSN:10/768,729、USSN:10/767,779、USSN:10/767,899和USSN:10〃67,894——均于2004年1月28日提交——中公開的454/>司(454LifeSciences)的測序4義器和方法進(jìn)4亍。除非另外定義,本文所用的所有技術(shù)和科學(xué)術(shù)語具有與本發(fā)明所屬領(lǐng)域的普通技術(shù)人員的通常理解相同的意思。通常理解的定義包括那些在USSN:60/476,602(2003年6月6日提交)、USSN:60/476,504(2003年6月6日提交)、USSN:60/443,471(2003年6月29日提交)、USSN:60/476,313(2003年6月6日提交)、USSN:60/476,592(2003年6月6日提交)、USSN:60/465,071(2003年4月23日提交)、USSN:60/497,985(2003年8月25日提交)、USSN:10/767,779(2004年1月28日提交)、10〃67,899(2004年1月28日提交)、USSN:10〃67,894(2004年1月28日提交)中定義的。本申請中引用的所有專利、專利申請和參考文獻(xiàn)在此以引用的方式完全引入。實施例1HLA基因座的測序五個PCR引物對被設(shè)計以橫跨公開披露的II類MHC基因座中的SNP。引物用Pnmer3車欠4牛(WhiteheadInstituteforBiomedicalResearch)設(shè)計,用包括靶區(qū)域的長約200個堿基對的基因組序列作為輸入。每個引物由長度為20到24個堿基的基因座特異的3'部分和包括一個4堿基關(guān)鍵基元(key)(用粗體高亮顯示)的恒定的19個堿基的5,部分(用小寫字母表示)組成。引物購自IntegratedDNATechnologies(Coralville,IA):SAD1F-DC1gcctccctcgcgccatcagACCTCCCTCTGTGTCCTTACAA(SEQIDNO:l)SAD1R-DC1gccttgccagcccgctcagGGAGGGAATCATACTAGCACCA(SEQIDNO:2)SAD1F-DD14gcctccctcgcgccatcagTCTGACGATCTCTGTCTTCTAACC(SEQEDNO:"SAD1R-DD14gccttgccagcccgctcagGCCTTGAACTACACGTGGCT(SEQIDNO:勺S細(xì)F-DE15gcctccctcgcgccatcagATTTCTCTACCACCCCTGGC(SEQIDNO:5)SAD1R-DE15gccttgccagcccgctcagAGCTCATGTCTCCCGAAGAA(SEQIDNO:6)SAD1F-GA9gcctccctcgcgccatcagAAAGCCAGAAGAGGAAAGGC(SEQIDNO:7)SAD1R-GA9gccttgccagcccgctcagCTTGCAGATTGGTCATAAGG(SEQIDNO:8)SAD1F-F5gcctccctcgcgccatcagACAGTGCAAACACCACCAAA(SEQIDNO:9)SAD1R-F5gccttgccagcccgctcagCCAGTATTCATGGCAGGGTT(SEQIDNO:10)來自于4個個體的人基因組DNA(CornellMedicalInstituteforResearch,Camden,NJ)依據(jù)260nm處的光密度定量,100ng(大約15,000單倍體基因組(haploidgenome)等同物)用作每個PCR擴(kuò)增反應(yīng)的模板。PCR反應(yīng)用標(biāo)準(zhǔn)反應(yīng)條件(60mMTns-S04,pH8.9,18mM(NH4)2S04),2.5mMMgS〇4,1mMdNTP,每種引物各0.625一,4.5單位PlatinumTaq高保真聚合酶(Invitrogen,Carlsbad,CA))用下述溫度模式進(jìn)4亍3分鐘94°C;30個循環(huán)的30s94°C、45s57°C、1分鐘72。C;3分鐘72°C。擴(kuò)增產(chǎn)物用QiaQuickPCR純化試劑盒(Qiagen,Valencia,CA)純化,它們的預(yù)期大小(156到181個堿基對)在2100BioAnalyzer微流體儀器上用500DNALabChip(AgilentTechnologies,Inc,PaloAlto,CA)驗證。純化的擴(kuò)增子用PicoGreendsDNA定量試劑盒(MolecularProbes,Eugene,OR)定量并稀釋到每微升107個拷貝。EBCA(基于乳液的克隆擴(kuò)增)如前文所述進(jìn)行,每個珠子0.5擴(kuò)增子,使用擴(kuò)增引物SAD1F(GCCTCCCTCGCGCCA(SEQIDNO:ll))和SAD1R以及帶有SADRl(GCCTTGCCAGCCCGC(SEQIDNO:12))4煮獲引物(AmershamBiosciences,Piscataway,NJ)的Sepharose4乾獲J朱子。所有進(jìn)一步操作,包括-皮壞乳液和在PicoTiter纟反上測序如前文所述進(jìn)行。實施例2靈敏的突變檢測為了證明當(dāng)前系統(tǒng)(即454平臺)檢測低豐度序列變體,特別是單堿基置換的能力,設(shè)計實驗來對以各種比率混合的已知等位基因測序。對前文列出的6個引物對的擴(kuò)增效率進(jìn)行檢測,并用全都會產(chǎn)生不同擴(kuò)增產(chǎn)物的引物對SAD1F/R-DD14、SAD1F/R-DE15和SAD1F/R-F5進(jìn)行進(jìn)一步的分析(圖3)。全部8個人基因組DNA樣品在454平臺上被擴(kuò)增和測序以確定每個基因座的基因型。為了簡化實驗設(shè)置,所有進(jìn)一步的分析用引物對SAD1F/R-DD14(圖3A)進(jìn)行,兩個樣品在特定基因座的C或T等位基因表現(xiàn)出純合性。每個樣品的初級擴(kuò)增子被定量并通常與過量的T等位基因以從10:90下至1:1000的特定比率混合。樣品混合后被稀釋到每微升2x106個拷貝的工作濃度,進(jìn)行EBCA并在454平臺上測序。圖2是從C等位基因以適當(dāng)?shù)谋嚷蔿:500和1:1000與T等位基因的混合物獲得的測序數(shù)據(jù)。在兩種情況下,大約10,000個高質(zhì)量測序讀數(shù)被產(chǎn)生,并用于Blast分析以鑒別相對于參照序列(攜帶T等位基因的序列)的核苦酸置換。為了使結(jié)果可視化,置換頻率以顏色代碼的方式相對于參照序列繪圖。數(shù)據(jù)證明,在兩種樣品中,低頻率的單堿基置換容易被鑒別(圖4A-C)。另外,還發(fā)現(xiàn)背景在樣品之間相對恒定,這使得可以進(jìn)行背景扣除。這通常產(chǎn)生甚至是對于1:1000的等位基因為超過10的信噪比(圖5A和B)。用已知基因型的樣品所進(jìn)行的其它實驗證明了檢測下至至少0.1%豐度水平的單堿基置換的能力。低豐度變化的其它置信度可以通過對模板雙向測序獲得。通常,對于下至1%的豐度水平,兩個獨立的雙向數(shù)據(jù)組的頻率之間的差異在20%以內(nèi)。為了證明對于較寬范圍的等位基因比率為線性反應(yīng),代表DD14HLA基因座的T和C等位基因的擴(kuò)增子以1:10、1:20、1:50和1:200的比率(10%、5%、2%和0.50/。)混合、EBCA擴(kuò)增并測序。圖6表明,在整個范圍內(nèi)觀察到低頻率等位基因的相對數(shù)目呈線性增加(R2=0."27)。所記錄的絕對頻率稍微偏離預(yù)期比率(參見下表),通常是因為在定量、等分和混合小量DNA方面的實測困難。<table>tableseeoriginaldocumentpage36</column></row><table>用于產(chǎn)生圖6中繪圖的測序的總結(jié)。2-5列的數(shù)分別表示測序模板的總數(shù)以及每個等位基因的預(yù)期數(shù)和實測數(shù)。實施例3細(xì)菌16S方案——檢查細(xì)菌群體的方法細(xì)菌群體檢驗是許多領(lǐng)域的基本應(yīng)用技術(shù),除了醫(yī)藥、環(huán)境和農(nóng)業(yè)研究之外,還包括工業(yè)處理控制。一種常用的辦法使用16S核糖體RNA基因序歹寸來l岸另'J纟田菌菌種(Jonasson,Olofssonetal.2002;Grahn,Olofssonetal.2003)。另一種方法類似地檢查16S和23S核糖體RNA基因之間的間插序歹寸(Garcia-Martmez,Bescosetal.2001)。但是,大多凄t研究者發(fā)現(xiàn),用現(xiàn)有的樣品制備和測序技術(shù)對復(fù)雜細(xì)菌群體完全普查是不可能的;這樣一個計劃所需的勞動力或者是高得驚人的昂貴,或者是必須對所述群體進(jìn)行極其大量的二次取樣。目前,高通量的方法沒有被常規(guī)地用于檢查細(xì)菌群體。通常的實踐是使用通用引物擴(kuò)增16S核糖體RNA基因(或該基因內(nèi)的區(qū)域),然后再將該基因亞克隆到載體中并測序。限制性酶切消化經(jīng)常在載體上進(jìn)行,以通過消除表現(xiàn)出相同限制性酶切模式的載體來減少測序負(fù)荷。得到的序列與來自各種生物體的已知基因的數(shù)據(jù)庫相比較;對群體組成的評估根據(jù)種特異性或?qū)偬禺愋缘幕蛐蛄惺欠翊嬖谧鞒觥1疚墓_的方法通過去除克隆和限制性酶切消化步驟急劇減少勞動力成本,通過提供使得可以區(qū)分以前無法獲得的亞抹的16S(以及可能地基因間的和23S)RNA區(qū)域的完整序列從而增加信息輸出,通過將序列過采樣轉(zhuǎn)化為相對豐度從而可能提供對菌種密度的估計,能使對細(xì)菌群體的研究發(fā)生重大變化。核酸測序的一個優(yōu)選方法是由454LifeSciences開發(fā)的基于焦磷酸鹽的測序方法。本發(fā)明的方法結(jié)合大規(guī)模平行454技術(shù)(其中一些在本說明書中^^開)的所有方面的使用可以大大提高通量并減少群體鑒別的成本。454技術(shù)排除了對克隆大量單個PCR產(chǎn)物的需要,而小尺寸的16S基因(1.4kb)使得數(shù)萬個樣品可以被同時處理。所述方法以下文所描述的方式一皮成功;也i正明。開始,大腸桿菌(^foc/zerzc/n"co/,)16SDNA從co"TOP10感受態(tài)細(xì)胞(I歴trogen,Carlsbad,CA.)獲得,用PCR2.1載體轉(zhuǎn)化,接種于LB/氨芐青霉素平板(50^g/ml)上,在37。C培育過夜。挑取單菌落,接種于3mlLB/氨節(jié)青霉素肉湯中,在37°C以250RPM搖動6小時。一微升該溶液被用作擴(kuò)增16S序列的VI和V3區(qū)域的模板。設(shè)計了16S基因的兩個可變區(qū)的雙向PCR引物,表示為VI和V3,如Monstemetal(Monstein,Nikpour隱Badretal.2001)所述。由454特異的、19個堿基(15個堿基的擴(kuò)增引物,接著是3',4堿基(TCGA)關(guān)區(qū)域側(cè)翼的區(qū)域特異的正向和反向引物中。這可表示成5,-(15個堿基的正向或反向擴(kuò)增引物)-(4堿基關(guān)鍵基元)-(正向或反向VI或V3引物)-3'。用于產(chǎn)生16S擴(kuò)增子的引物包括下述序列,其中大寫字母表示的序列代表VI或V3特異性引物,粗體表示的四個堿基是所述關(guān)鍵基元,小寫字母的堿基表示454擴(kuò)增引物SAD-V1禹蟲^(正向)gcctccctcgcgccatcagSAD-V1禹蟲合(反向)gccttgccagcccgctcagSAD-V3禹蟲合(正向)gcctccctcgcgccatcagGCAACGCGAAGAACCTTACC(SEQIDNO:15)SAD-V3禹蟲^d向)gccttgccagcccgctcagACGACAGCCATGCAGCACCT(SEQIDNO:16)VI和V3擴(kuò)增子分別在包含下述試劑的PCR反應(yīng)中產(chǎn)生IXHiFi緩沖液、2.5mMMgS04(Invitrogen)、1mMdNTP(Pierce,MilwaukeeWI.)、VI或V3區(qū)域的每種正向和反向雙向引物lnM(IDT,Coralville,IA)、0.15U/plPlatinumH1F1Taq(Invitrogen)。一微升大腸桿菌/LB/氨千青霉素肉湯被加入到反應(yīng)混合物中,進(jìn)行35個循環(huán)的PCR(94°C30秒、55。C30秒、68。C150秒,最后一次循環(huán)后10°C—直保持)。然后,將1(il的擴(kuò)增反應(yīng)混合物上才羊到Agilent2100Bioanalyzer(Agilent,PaloAlto:CA)上以估計最終產(chǎn)物的濃度,確保合適大小的產(chǎn)物(對于VI是155bp,對于V3是145bp)被產(chǎn)生。VI和V3產(chǎn)物然后被混合,以每個DNA捕獲珠子0.5到10個模板分子的模板濃度乳化,通過如下文EBCA實驗方法部分所述的EBCA(基于乳液的克隆擴(kuò)增)方法擴(kuò)增。得到的克隆擴(kuò)增的珠子然后在454基因組測序4義(GenomeSequencer)(454LifeSciences,BranfordCT)上一皮測序。得自所述擴(kuò)增珠子的序列相對于大腸桿菌16S基因序列(Entrezgi174375)進(jìn)行比對??山邮艿?或"定位的(mapped)")比對與不可接受的(或"未定位的")比對通過計算每個序列的比對分?jǐn)?shù)區(qū)分。所述分?jǐn)?shù)是實測信號相應(yīng)于預(yù)期均聚物的概率的平均對數(shù),即S=Zln[P(s|h)]/N其中S是計算的比對分?jǐn)?shù),P是特定序列排布(flow)的概率,s是在該序列排布(flow)測量的信號,h是在該序列排布(flow)所預(yù)期的參照均聚物的長度,N是比對的序列排布(flow)的總數(shù)。然后將每個序列的比對分凄t與最大比^f分凄t(MaximumAlignmentScore)即MAS相比;分?jǐn)?shù)小于MAS的比對被認(rèn)為是"真實的"并被打印在輸出文件中。對于本方案,1.0的MAS(大約等于95%的同一性)被使用。對于用VI特異性引物產(chǎn)生的序列,在產(chǎn)生的13702個序列中,87.75%或11973個讀數(shù)被定位到基因組上,其比對分?jǐn)?shù)小于l.O,讀長大于21個堿基。顯示出定位到1.6Kb16S基因片段上的讀數(shù)的位置的圖示如圖7A所示,表明大約12,000個讀數(shù)定位到16S基因的前100個堿基上。將未修飾的共有序列據(jù)庫(http:〃greengenes.llnl.gov)進(jìn)行BLAST,大腸桿菌為匹配的第一個已知生物體<image>imageseeoriginaldocumentpage39</image>基于非常低的置信度分?jǐn)?shù),VI共有序列被編輯為CACATGCAAGTCGAACGGTAACAGGA(SEQIDNO:20),均聚物序列中第9位的第四個"T"(以粗體和下劃線標(biāo)識)被一全查并除去。編輯后的VI序列的BLAST結(jié)果證明對于大腸桿菌16S基因提高了命中結(jié)果。<image>imageseeoriginaldocumentpage39</image>用V3特異性引物獲得相似的結(jié)果,在與上述VI模板使用的相同的分析條件下,在17329個讀數(shù)中,71.00%定位到16S參照基因組上。這是個比87.75%的定位的VI讀數(shù)低的數(shù)字,這可能揭示了在V3樣品和參照序列之間存在比VI樣品和參照序列之間更大的差異。共有序列TGGCTGTCGTCTg(SEQIDNO:23),定位到參照基因組的966-1067區(qū)域,如圖7B所示。與V1序列不同,來自未修飾的共有序列的BLAST結(jié)果,大腸桿菌不是匹配的第一個已知生物體,而是第二個生物體。>lcl|088104AJ567617Escherichiacolipartial16SrRNAgene,cloneMBAE104Length=1497Score=147bits(74),Expect=3e-3SIdentities-98/102(96%),Gaps=3/102(2*)Strand=Plus/PlusQuery:1csacgcgaagasccttacctggtcttgacatccscgaagtttactagagatgagaatgtg60imiiiiimmmmiimimiiimmmimmiimimSbjct:956caacgcgaagaacc匕tacc匕ggtcttgacatccacgaagttttc—agagatgagaatgtg1014Query:61ccgttcgggaaccggtgagacaggtgctgcatggctgtcgtc102(SEQ工DNO:24)Sbjct:1015cc-ttcgggacc—gtgagacaggtgc匕3catggctgtcg仁c1054(SEQ工DNO:25)基于置信度分?jǐn)?shù),共有序列被檢查并編輯為<table>tableseeoriginaldocumentpage40</column></row><table>1054(SEQIDNO:28)第二個實驗是為了證明對于未處理的細(xì)菌細(xì)胞使用混合PCR引物的能力,其中大腸桿菌細(xì)胞生長至飽和,l(il的1:1000稀釋的細(xì)菌肉湯代替模板被加入到EBCA反應(yīng)混合物中。用于EBCA反應(yīng)的引物由VI-和V^特異的雙向引物(各0.(M)LiM)以及分別為0.e2S^iM和0.(H)liM的正向和反向454擴(kuò)增引物組成。另外,EBCA實驗方法接下來在下文描述。數(shù)據(jù)顯示VI和V3區(qū)域可以同時從未處理的細(xì)菌細(xì)胞混合物中一皮成功擴(kuò)增、測序并區(qū)分。在15484個讀數(shù)中,87.66%定位到16S參照基因組上,所述序列位于特征性VI和V3位置,如圖7C所示。區(qū)分VI和V3序列的能力的評估是通過收集VI和V3序列的100個讀數(shù),并將原始信號數(shù)據(jù)轉(zhuǎn)換成二進(jìn)制串,其中"1"表示在給定的序列排布(flow)中存在某個堿基,"0"表示不存在。均聚物序列分解為單個正值,這樣"A,,、"AA"和"AAAAA,,(SEQIDNO:29)全都接收到相同的分?jǐn)?shù)'T,。分解的二進(jìn)制串然后通過HierarchicalOrderedPartitioningandCollapsingHybrid(HOPACH)方法(PollardandvanderLaan2005)在R統(tǒng)計包(Team2004)中一皮串起來。得到的系統(tǒng)樹(如圖8所示)在全部200個序列(除了1個以外)中清楚區(qū)分了VI(較短長度的紅色標(biāo)記)和V3序列(較長長度的藍(lán)色標(biāo)記)。在相同生物體的相同基因的兩個相似區(qū)域之間清楚區(qū)分此的能力表明本項技術(shù)將會提高區(qū)分不同生物的可變區(qū)域的能力,提供有價值的診斷工具。實施例4EBCA實驗方法4.1DNA捕獲珠子的制備來自于lmLN-羥基琥珀酰亞胺酯(NHS)-活化的SepharoseHP親和4主(AmershamBiosciences,Piscataway,NJ)的;真充(packed)J朱子,人柱中取出,如產(chǎn)品手冊(AmershamPharmaciaProtocol#71700600AP)中所述活化。20mM磷酸鹽緩沖液(pH8.0)中的二十五微升lmM胺-標(biāo)記的HEG捕獲引物(5,-胺-3順序的18-原子六-乙二醇間隔物CCATCTGTTGCGTGCGTGTC-3'(SEQIDNO:30))(IDTTechnologies,Coralville,IA,USA),pH8.0,與珠子相結(jié)合,然后25-36pm的珠子通過連續(xù)通道穿過36和25pm孔的過濾器篩網(wǎng)部分(SefarAmerica,Depew,NY,USA)被挑選出來。通過第一層過濾器但被第二層過濾器留下的DNA捕獲珠子被收集到珠子貯存緩沖液(50mMTns、0.02%Tween、0.02%疊氮鈉,pH8)中,用Multisizer3Coulter計數(shù)器(BeckmanCoulter,Fullerton,CA,USA)定量并在4°C儲存?zhèn)溆谩?.2將模板種類與DNA捕獲珠子結(jié)合模板分子在UV-處理的層流操作臺中退火結(jié)合到DNA捕獲珠子上的互補(bǔ)引物上。懸浮于珠子貯存緩沖液中的六十萬個DNA捕獲珠子被轉(zhuǎn)移到200^LPCR管中,在臺式微量離心機(jī)中離心IO秒,管子轉(zhuǎn)180°,再旋轉(zhuǎn)IO秒以確保均衡形成沉淀。然后上清被除去,珠子用200pL退火緩沖液(20mMTns,pH7.5和5mM醋酸鎂)洗滌,渦旋5秒以重懸珠子和上述沉淀。除了珠子上方大約10pL以外的所有上清被除去,再加入200pL退火緩沖液。珠子再渦旋5秒,放置1分鐘,如上所述進(jìn)行沉淀。除了10pL以外的所有上清被棄去,0.48的每pL2x107個分子的模板文庫被加入到珠子中。管子渦旋5秒以混合內(nèi)容物,然后模板在MJ熱循環(huán)儀中在控制的變性/退火程序(80°C5分鐘,然后以0.1°C/秒降低到70°C,70°C1分鐘,以O(shè).rC/秒降低到60°C,在60。C保持i分鐘,以o.rc/秒降低到5o°c,在5o。c保持i分鐘,以o.rc/秒降低到2(TC,保持在20。C)中退火到珠子上。直到退火程序完成,珠子被儲存在水上備用。4.3PCR反應(yīng)混合物制備和配方為了減少污染的幾率,PCR反應(yīng)混合物在PCR超凈室中的UV-處理的層流操作臺中制備。對每個600,000個珠子的乳液PCR反應(yīng),225pL的反應(yīng)混合物(IXPlatinumHiFi緩沖液(Invitrogen)、lmMdNTP(Pierce)、2.5mMMgS〇4(Invitrogen)、0.1。/。乙?;疊SA(分子生物學(xué)等級,Sigma)、0.01%Tween-80(AcrosOrgamcs)、0.003U/pL熱穩(wěn)定的焦石壽酸酶(NEB)、0.625jiM正向引物(5'隱CGTTTCCCCTGTGTGCCTTG畫3,(SEQIDNO:31))和0.039pM反向引物(5,-CCATCTGTTGCGTGCGTGTC-3,(SEQIDNO:32》(IDTTechnologies,Coralville,IA,USA)和0.15U/pLPlatmumHi-FiTaq聚合酶(Invitrogen))制備于1.5mL的管子中。二十五微升反應(yīng)混合物被取出并儲存于單個的200pLPCR管中, 用作陰性對照。反應(yīng)混合物和陰性對照都儲存于水上備用。此外,為每個乳液準(zhǔn)備240pL模擬擴(kuò)增混合物(IXPlatmumHiFi緩沖液(I頭trogen)、2.5mMMgS04(I脂trogen)、0.1%BSA,0.01%Tween)于1.5mL管中,類似地儲存于室溫備用。4.4乳^^和擴(kuò)增乳化過程形成熱穩(wěn)定的油包水乳液,每微升有大約10,000個不連續(xù)的PCR微反應(yīng)器作為單個分子,靶文庫的單個分子克隆擴(kuò)增的基質(zhì)。單個反應(yīng)的反應(yīng)混合物和DNA捕獲珠子以下述方式^皮乳化在UV-處理的層流操作臺中,200(iL的PCR溶液被加入到包含600,000個DNA捕獲珠子的管中。珠子通過重復(fù)移吹打重懸,然后PCR-珠子混合物在室溫靜置至少2分鐘,使珠子與PCR溶液平衡。其間,400nL乳化油(60%(w/w)DC5225C配方助劑(DowChemicalCO,Midland,MI),30%(w/w)DC749流體(DowChemicalCO,Midland,MI)和30%(w/w)Ar20珪油(Sigma))被等分到平頂?shù)?mL離心管(DotScientific)中。然后240jiL模擬擴(kuò)增混合物被加入到400|iL乳化油中,管子牢固地蓋上蓋子并置于TissueLyserMM300(RetschGmbH&Co.KG,Haan,Germany)的24孑LTissueLyserAdaptor(Qiagen)中。所述乳液以25次振蕩/秒均質(zhì)化5分鐘以產(chǎn)生極小的乳液,或"微粉(microfme)",使得反應(yīng)具有額外的穩(wěn)定性。在微粉形成期間,160)iLPCR擴(kuò)增混合物被加入到退火模板和DNA捕獲珠子的混合物中?;旌系闹樽雍蚉CR反應(yīng)混合物短暫渦旋并平衡2分鐘。微粉形成后,擴(kuò)增混合物、模板和DNA捕獲珠子被加入到乳化物質(zhì)中。TissueLyser速度減至每秒15次振蕩,反應(yīng)混合物均質(zhì)化5分鐘。較低的均質(zhì)化速度在油混合物中產(chǎn)生小水滴,平均直徑為100到150pm,大到足夠包含DNA捕獲珠子和擴(kuò)增混合物。所述乳液被等分到7到8個單獨的PCR管中,每個包含大約80|iL。管子封口并與25[!l先前制備的陰性對照一起置于MJ熱循環(huán)儀中。使用下述循環(huán)時間1X(94。C4分鐘)-熱啟動、40X(94。C30秒、58。C60秒、68。C90秒)-擴(kuò)增,13X(94。C30秒、58°C360秒)一雜交延伸。PCR程序完成后,取出反應(yīng)物,乳液或者立刻被破壞(如下文所述),或者在啟動破壞過程之前將反應(yīng)物儲存在!0。C最長達(dá)16小時。4.5-皮壞乳液和J朱子的回收五十微升的異丙醇(Fisher)被加入到每個包含擴(kuò)增材料乳液的PCR管中,渦旋10秒以降低乳液粘度。管子在微量離心機(jī)中離心幾秒鐘以除去任何存在于管帽上的乳化物質(zhì)。乳液-異丙醇混合物被從每個管中抽到配有鈍的16號鈍針頭(BricoMedicalSupplies)的10mL-BD—次性注射器(FisherScientific)中。另外50|al異丙醇被加入到每個PCR管中,如前所述渦"走,離心,并加入到注射器的內(nèi)容物中。力口入異丙醇后注射器中的體積增加到9mL,然后所述注射器被顛倒,lmL空氣被吸進(jìn)注射器中以幫助混合異丙醇和乳液。取下鈍針頭,將含有15jum孑LNitexSievingFabric(SefarAmerica,Depew,NY,USA)的25mmSwinlock過濾架(Whatman)連接于注射器的luer接頭上,鈍針頭固定于Swinlock單元的相對側(cè)。注射器的內(nèi)容物通過Swmlock過濾單元和針頭一皮輕輕地但是完全地排到有漂白劑的廢物容器中。六毫升的新鮮異丙醇通過鈍針頭和Swmlock過濾單元被吸回到注射器中,注射器被顛倒10次以混合異丙醇、珠子和剩余的乳液組分。注射器的內(nèi)容物被再次排出到廢物容器中,該洗滌步驟重復(fù)兩次,每次洗滌用6mL額外的異丙醇。洗滌步驟用6mL80。/。乙醇/lX退火緩沖液(80%乙醇、20mMTns-HCl(pH7.6)、5mM醋酸鎂)重復(fù)。珠子然后用含有0.1%Tween(0.1%Tween-20、20mMTris-HCl(pH7.6),5mM醋酸鎂)的6mLIX退火緩沖液洗滌,然后用6mLpicopure7K洗涂。將最后的洗滌液排入廢物容器中之后,1.5mL的lmMEDTA被吸入注射器中,Swmlock過濾單元被取下并放置一邊。注射器的內(nèi)容物一皮連續(xù)轉(zhuǎn)移到1.5mL離心管中。管子在微量離心機(jī)中被定時地離心20秒以沉淀珠子,上清被除去,然后將注射器中剩下的內(nèi)容物加入到離心管中。Swmlock單元重新與過濾器相連,1.5mLEDTA被吸入到注射器中。最后一次中Swmlock過濾器被取下,并根據(jù)需要將珠子和EDTA加入到離心管中,沉淀珠子并除去上清。4.6第二鏈的去除固定在捕獲珠子上的擴(kuò)增DNA通過在堿性解鏈溶液中孵育以去除第二鏈,從而獲得單鏈。lmL新鮮制備的解鏈溶液(0.125MNaOH、0.2MNaCl)被加入到珠子中,沉淀通過以中等設(shè)置渦旋2秒被重懸,管子被置于ThermolyneLabQuake管式滾筒(tuberoller)中3分鐘。珠子然后如上所述被沉淀,上清小心地被移出和丟棄。剩余的解鏈溶液然后加入lmL退火緩沖液(20mMTns-醋酸(pH7.6)、5mM醋酸鎂)稀釋,然后所述珠子以中等速度渦旋2秒,珠子被沉淀,上清被除去,如上所述。重復(fù)退火緩沖液洗滌,所不同的是在離心后只有800pL退火緩沖液被除去。所述珠子和剩余的退火緩沖液被轉(zhuǎn)移到0.2mLPCR管中,或者立刻使用,或者在繼續(xù)進(jìn)行下面的富集步驟之前儲存于4°C最長達(dá)48小時。4.7珠子的富集到了此時,珠子堆由帶有擴(kuò)增的、固定的DNA鏈的珠子和未帶有擴(kuò)增產(chǎn)物的空珠子兩者構(gòu)成。富集方法被使用以選擇性捕獲帶有可測序量模板DNA的珠子而舍棄空珠子。得自前一步驟的單鏈珠子在臺式微量離心機(jī)中離心10秒鐘被沉淀,然后管子旋轉(zhuǎn)180°,再旋轉(zhuǎn)10秒以確保均衡形成沉淀。然后盡可能多地除去上清而不擾亂珠子。十五樣吏升的退火緩沖液一皮加入到珠子中,然后加入2tiL100生物素化的、40個堿基的HEG富集引物(5'生物素-18-原子六-乙二醇間隔子-NO:33),IDTTechnologies),所述引物與固定在珠子上的模板3'-末端的聯(lián)合擴(kuò)增和測序位點(每個長度為20堿基)互補(bǔ)。所述溶液以中等設(shè)置渦旋2秒被混合,富集引物在MJ熱循環(huán)儀中通過控制的變性/退火程序(65。C30秒,以0.1。C/秒降至58。C,58。C90秒,保持于10。C)退火到固定DNA鏈上。引物退火時,SeraMag-30磁性抗生物素蛋白鏈菌素珠子的儲液(Seradyn,Indmnapolis,IN,USA)通過輕輕渦S走一皮重懸,20|iLSeraMag珠子被加入到含有l(wèi)mL增強(qiáng)液(2MNaCl、10mMTris-HCl、lmMEDTA,pH7.5)的1.5mL孩i量離心管中。SeraMag珠子混合物渦旋5秒,管子被置于DynalMPC-S磁體中,沿微量離心管測面沉淀順磁珠。上清被小心取出并丟棄而不擾亂SeraMag珠。管子從;茲體中取出,力口入100pL增強(qiáng)液。管子渦旋3秒以重懸珠子,管子儲存于冰上備用。退火程序一結(jié)束,100pL的退火緩沖液就被加入到含有DNA捕獲珠子和富集引物的PCR管中,管子渦旋5秒,其內(nèi)容物被轉(zhuǎn)移到新的1.5mL微量離心管中。富集引物在其中退火至捕獲珠子上的PCR管用200pL退火緩沖液洗滌一次,洗滌溶液被加入到1.5mL管中。如前所述,珠子用lmL退火緩沖液洗滌三次、渦旋2秒、沉淀并小心除去上清。第三次洗滌后,珠子用lmL冰冷的增強(qiáng)液洗滌兩次、渦旋、沉淀、除去上清,如前所述。珠子然后重懸于150^L冰冷的增強(qiáng)液中,珠子溶液被加入到洗滌后的SeraMag珠子中。珠子混合物渦旋3秒,在室溫在LabQuake管式滾筒上孵育3分鐘,此時,抗生物素蛋白鏈菌素包覆的SeraMag珠子與退火到DNA捕獲珠子上的固定才莫才反上的生物素化的富集引物結(jié)合。i朱子然后以2,000RPM離心3分鐘,然后珠子被輕"彈"直至珠子被重懸。重懸的珠子然后置于冰上5分鐘。在冰上孵育后,冷的增強(qiáng)液被加入到珠子中使最終體積為1.5mL。管子被插入到DynalMPC-S磁體中,使珠子靜置120秒使得珠子緊靠磁體沉淀,然后上清(含有過量的SeraMag和空DNA捕獲珠子)被小心取出并除去。管子從MPC-S磁體中取出,lmL冷的增強(qiáng)液被加入到珠子中,珠子通過輕彈重懸。重要的是不要渦旋珠子,因為渦旋可能破壞SeraMag和DNA捕獲珠子之間的連接。珠子然后返回到^茲體中,除去上清。這種洗滌再重復(fù)三次以確保除去所有空捕獲珠子。為了從DNA捕獲J朱子上移去退火的富集引物和SeraMag珠子,珠子重懸于lmL解鏈溶液中,渦旋5秒,用磁體沉淀。含有富集的珠子的上清被轉(zhuǎn)移到分離的1.5mL微離心管中,珠子被沉淀,上清被丟棄。富集的珠子然后重懸于含有0.1%Tween-20的1X退火緩沖液中。珠子在MPC上再次沉淀,上清被轉(zhuǎn)移到新的1.SmL管中,保證最大限度地除去剩余的SeraMag珠子。珠子被離心,然后上清被除去,珠子用lmL1X退火緩沖液洗滌3次。第三次洗滌后,80(^L上清被除去,剩余的珠子和溶液轉(zhuǎn)移到0.2mLPCR管中。富集方法的平均產(chǎn)率為加入乳液的初始珠子的33%,或每個乳化反應(yīng)198,000個富集的珠子。由于60x60mmPTP版式需要900,000個富集的^朱子,每個測序的60x60mmPTP處理5批600,000個i朱子的乳液。4.8測序引物退火富集的珠子以2,000RPM離心3分鐘,傾去上清,然后加入15pL退火緩沖液和3測序引物(100mMSAD1F(5,-GCCTCCCTCGCGCCA-3,(SEQIDNO:34),IDTTechnologies)。管子然后渦旋5秒,置于MJ熱循環(huán)儀中進(jìn)行下述4階段退火程序65。C5分鐘,以0.1。C/秒降低至50°C,50°C1分鐘,以0.1。C/秒降低至40。C,在40。C保持1分鐘,以0.1。C/秒降低至15。C,在15。C保持。退火程序一結(jié)束,珠子就從熱循環(huán)儀中移出,離心10秒沉淀,管子旋轉(zhuǎn)180。,再離心10秒。棄去上清,加入200^L退火緩沖液。珠子通過5秒渦旋重懸,如前所述沉淀珠子。移去上清,珠子重懸于100pL退火緩沖液中,此時珠子用Multisizer3Coulter計數(shù)器定量。珠子被儲存于4。C,至少一周是穩(wěn)定的。4.9DNA珠子與BstDNA聚合酶,大片段和SSB蛋白一起孵育珠子洗滌緩沖液(100ml)通過向含有0.1%BSA的1X檢測緩沖液中加入腺苷三磷酸雙磷酸酶(Biotage)(最終活性為8.5單位/1)制備。光纖載玻片從picopure水中取出并在珠子洗滌緩沖液中孵育。九十萬個先前制備的DNA珠子被離心并小心移去上清。珠子然后在1290pl珠子洗滌緩沖液中孵育,所述洗滌緩沖液含有0.4mg/mL聚乙烯吡咯烷酮(MW360,000)、lmMDTT、175pg大腸桿菌單鏈結(jié)合蛋白(SSB)(UnitedStatesBiochemicals)和7000單位BstDNA聚合酶,大片段(NewEnglandBiolabs)。珠子在室溫在旋轉(zhuǎn)器中孵育30分鐘。4.10酶珠子和樣i粒子填充物的制備UltraGlow萸光素酶(Promega)和BstATP硫酸化酶自己制備為生物素羧基載體蛋白(BCCP)的融合體。87個氨基酸的BCCP區(qū)域包含在大腸桿菌中體內(nèi)表達(dá)融合蛋白時與生物素共價連接的賴氨酸殘基。根據(jù)制造商的說明,生物素化的熒光素酶U.2mg)和石克酸化酶(0.4mg)預(yù)混合,在4。C與2.0mLDynalM280順》茲珠(10mg/mL,DynalSA,Norway)結(jié)合。酶結(jié)合的珠子在2000珠子洗滌緩沖液中洗滌3次,重懸于2000^L珠子洗滌緩沖液中。Seradyn微粒子(PowerbindSA,0.8,,10mg/mL,SeradynInc)如下制備1050^L存料用1000(iL含有0.P/。BSA的1X檢測緩沖液洗滌。所述微粒子以9300g離心IO分鐘,除去上清。洗滌再重復(fù)2次,所述微粒子重懸于1050^L含有0.1%BSA的1X檢測緩沖液中。珠子和微粒子儲存于冰上備用。4.11^朱子的沉積Dynal酶珠子和Seradyn微粒子渦旋一分鐘,每種1000jiL在新的樣吏量離心管中混合,短暫渦旋并儲存于水上。酶/Semdyn珠子(1920)與DNA珠子(1300(iL)混合,用珠子洗滌緩沖液將最終體積調(diào)節(jié)為3460pL。珠子沉積為有序的層。光纖載玻片從珠子洗滌緩沖液中移出,第l層,DNA和酶/Seradyn珠子的混合物,被沉積。離心后,第1層的上清被從光纖載玻片上抽吸走,第2層,Dynal酶珠子,被沉積。這一節(jié)詳細(xì)描述不同的層如何浮皮離心。第l層.在60x60mm光纖載玻片表面上形成兩個30x60mm活性區(qū)域的墊片被小心裝配到夾具頂部的指定的不銹鋼銷釘上。光纖載玻片被放置在夾具中,載玻片的光滑的未蝕刻的一邊向下,夾具銷釘/墊片被裝到載玻片蝕刻的一邊。夾具銷釘然后用提供的螺釘適當(dāng)?shù)毓潭?,緊固相反端以使它們用手?jǐn)Q緊(fmgertight)。DNA-酶珠子混合物通過兩個夾具頂部提供的入口被加載到光纖載玻片上。要極度小心以在珠子混合物的加載過程中使氣泡減到最少。通過一次性輕輕地連續(xù)地推動移液管的活塞完成每次沉積。全部組裝件在帶有GH3.8-A轉(zhuǎn)子的BeckmanCoulterAllegra6離心才幾中以2800rpm離心10分鐘。離心后,上清用移液管除去。第2層.Dynal酶珠子(920jiL)與2760mL珠子洗條緩沖液混合,3400^L酶-珠子懸液被加載到光纖載玻片上,如前所述。載玻片組裝件以2800rpm離心10分鐘,棄去上清。光纖載玻片從夾具中移出,保存于珠子洗滌緩沖液中直至其可以被加載到儀器上。4.12在454^f義器上測序所有流動的試劑制備于含有0.4mg/mL聚乙烯吡咯烷酮(MW360,000)、1mMDTT和0.1%Tween20的lx檢測緩沖液中。底物(300pMD-熒光素(Regis)和2.5pM腺苷磷酸石克酸酐(Sigma))制備于含有0.4mg/mL聚乙蹄p比咯烷酮(MW360,000)、1mMDTT和0.1%Tween20的1X檢測緩沖液中。三磷酸腺苷雙磷酸酶洗滌液通過在1X檢測緩沖液中加入三磷酸腺苷雙磷酸酶至最終活性為每升8.5單位來制備,所述1X4全測緩沖液含有0.4mg/mL聚乙烯吡咯烷酮(MW360,000)、1mMDTT和0.1%Tween20。脫氧核苷酸dCTP、dGTP和dTTP(GEBiosciences)制備為最終濃度為6.5pM,a-硫代脫氧腺苷三磷酸(dATPocS,Biolog)和焦磷酸鈉(Sigma)制備于底物緩沖液中,最終濃度分別為50和0.1pM。454測序儀器由三個主要部件組成射流子系統(tǒng)、光纖載玻片盒/流動室和成像子系統(tǒng)。試劑輸入管道、多閥總管和蠕動泵構(gòu)成射流子系統(tǒng)的各部分。單個試劑與合適的試劑輸入管道相連,使得試劑被遞送到流動室中,一次一種試劑,按照預(yù)先設(shè)置的流速和持續(xù)時間。光纖載玻片盒/流動室在載^t片的蝕刻邊和流動室頂之間有250pm的空間。流動室還包括對試劑和光纖載玻片以及不透光外殼進(jìn)行溫度控制的設(shè)備。載玻片的磨光(未蝕刻)一邊直接與成像系統(tǒng)接觸放置。測序試劑向光纖載玻片孔中的循環(huán)遞送和測序反應(yīng)副產(chǎn)物從孔中的洗脫通過預(yù)先程序設(shè)定的射流子系統(tǒng)的操作完成。所述程序以InterfaceControlLanguage(ICL)腳本的形式編寫,說明每個腳本步驟的試劑名稱(洗滌液、dATPaS、dCTP、dGTP、dTTP和PPi標(biāo)準(zhǔn)品)、流速和持續(xù)時間。流速對于所有試劑i殳定為4mL/分鐘,流動室中的線性速度為大約1cm/s。測序試劑的流動順序神皮組織到核心程序中,其中第一個核心程序由PPi流動(21秒)、然后是14秒的底物流動、28秒的三磷酸腺苷雙磷酸酶洗滌和21秒的底物流動組成。第一個PPi流動后接著是21個循環(huán)的dNTP流動(dC-底物-三磷酸腺苷雙磷酸酶洗滌液-底物dA-三磷酸腺苷雙磷酸酶洗滌液-底物-dG-底物-三磷酸腺苦雙磷酸酶洗滌液-底物-dT-底物-三磷酸腺苷雙磷酸酶洗滌液-底物),其中每種dNTP流由4個單獨的核心程序組成。每個核心程序是84秒長(dNTP-21秒、底物流動-14秒、三磷酸腺苷雙磷酸酶洗滌液-28秒、底物流動-21秒);21秒和63秒后攝取圖像。21個循環(huán)的dNTP流動后,PPi核心程序被引入,然后接著是另一個21個循環(huán)的dNTP流動。測序進(jìn)程結(jié)束后跟著是第三個PPi核心程序。全部進(jìn)程的時間是244分鐘。完成這個進(jìn)程所需的試劑體積如下所示500mL的每種洗滌溶液、100mL的每種核苷酸溶液。在所述進(jìn)程中,所有的試劑都保持于室溫。流動室和流動室輸入管的溫度被控制在30°C,所有進(jìn)入流動室的試劑被預(yù)熱到30°C。實施例5土i襄樣品的分析核酸從土壤的生物體中被提取出來用于用本發(fā)明的方法進(jìn)行分析。才是取用來自Epicentre(Madison,WI,USA)的DNA提取試劑盒依據(jù)制造商的說明進(jìn)4亍。筒少豆來i兌,550pi的抑制免除才對月旨(inhibitorremovalresm)凈皮力口入到每個空的得自Epicentre的Spm柱中。所述柱以2000xg離心1分鐘以填充柱。流過液(theflow-through)被除去,另一個550pi的抑制免除樹脂被加入到每個柱中,然后以2000xg離心1分鐘。100mg土壤被收集到1.5ml的管子中,250^土壤DNA提取緩沖液中加入2(il蛋白酶K。溶液被渦旋,加入50(il土壤裂解緩沖液并再次渦旋。管子在65°C孵育10分鐘,然后以1000xg離心2分鐘。180(il上清被轉(zhuǎn)移到新管中,加入60pl蛋白質(zhì)沉淀試劑,通過顛倒管子充分混合。管子在冰上孵育8分鐘,以最大速度離心8分鐘。100-150pl上清被直接轉(zhuǎn)移到制備好的Spm柱上,該柱以2000xg離心2分鐘離心到1.5ml的管子中。柱被棄去,收集洗脫液,6(il的DNA沉淀溶液蜂皮加入到洗脫液中,管子通過短暫渦旋混合。室溫孵育5分鐘后,管子以最大速度離心5分鐘。除去上清,沉淀用500pl沉淀洗滌溶液洗滌。管子#皮顛倒以混合溶液,然后以最大速度離心3分鐘。除去上清,重復(fù)洗滌步驟。再次除去上清,最終的沉淀重懸于300plTE緩沖液中。產(chǎn)生的DNA樣品可以用于本發(fā)明的方法,至少包括檢測某一基因座上核苷酸頻率的方法。參考文獻(xiàn)BioAnalyzerUserManual(Agilent):hypertexttransferprotocol:〃worldwideweb.chem.agilent.comAemp/rad31B29/00033620.pdfBioAnalyzerDNAandRNALabChipUsage(Agilent):hypertexttransferprotocol:〃worldwideweb.agilent.comychem/labonachipBioAnalyzerRNA6000Ladder(Ambion):hypertexttransferprotocol:〃worldwideweb.ambion,com/techlib/spec/sp—7152.pdfBiomagneticTechniquesinMolecularBio〗ogy,TechnicalHandbook,3rdedition(Dynal,1998):hypertexttransferprotocol:〃worldwideweb.dynaLno/kunder/dynal/DynalPub36.nsPcb927fbabl27a0ad41256S3b004b0nc/4908f5bla66585Sa41256ad歸779薦FILE/DynabeadsM-280Streptavidin.pdf.Dinaueretal.,2000Sequence-basedtypingofHLAclassIIDQB1.T7wwe^(w/扭w55:364.Garcia-Martinez,J.,LBescos,etal.(2001)."RISSC:anoveldatabaseforribosomal16S-23SRNAgenesspacerregions."NucleicAcidsRes29(1):178-80,Grahn,N.,M.Olofsson,etal.(2003)."IdentificationofmixedbacterialDNAcontaminationinbroad-rangePCRamplificationof16SrDNAVIandV3variableregionsbypyrosequencingofclonedamplicons."FEMSMicrobiolLett219(1):87-91.Hamilton,S.C.,J.W".FarchausandM.C.Davis.2001.DNApolymerasesasenginesforbiotechnology._6z.orec/z—was31:370.Jonasson,J.,M.Olofsson,etal.(2002)."Classification,identificationandsubtypingofbacteriabasedonpyrosequencingandsignaturematchingof16SrDNAfragments."Apmis110(3):263-72.MinElutekit(QIAGEN):hypertexttransferprotocol:〃worldwideweb.qiagen.com71iterature/handbooks/minelute/1016839—HBMinElute—Prot—Gel.pdf.Monstein,H.,S,Nikpour-Badr,etal.(2001)."RapidmolecularidentificationandsubtypingofHelicobacterpyloribypyrosequencingofthe16SrDNAvariableVIandV3regions,"FEMSMicrobiolLett199(1):103-7.Norgaardetal"1997Sequencing-basedtypingofHLA-AlocususingmRNAandasinglelocus-specificPCRfollowedbycycle-sequencingwithAmpliTaqDNApolymerse.7V^weu4/"扭肌49:455-65.Pollard,K,S.andM.J.vanderLaan(2005)."ClsuterAnalysisofGenomicDatawithApplicationsinR."U.C.BerkeleyDivisionofBiostatisticsWorkingPaperSeries#167.QiaQuickSpinHandbook(QIAGEN,2001):hypertexttransferprotocol:〃worldwideweb.qiagen.com/literature/handbooks/qqspin/1016893HBQQSpin—PCR—mc_prot.pdf.QuickligationKit(NEB):hypertexttransferprotocol:〃woridwideweb.neb*com/neb/products/mod—enzymes/M2200.htm1.Shimizuetal"2002Universalfluorescentlabeling(UFL)methodforautomatedmicrosateliteanalysis.DiV^i".9:173-78.Steffensetal.,1997InfraredfluorescentdetectionofPCRamplifiedgenderidentifyingalleles./Fomuz'c42:452-60.Team,R.D.C.(2004).R:Alanguageandenvironmentforstatisticalcomputing.Vienna,Austria,RFoundationforStatisticalComputing-Tsangetal"2004DevelopmentofmultiplexDNAelectronicmicroarrayusingauniversaladaptorsystemfordetectionofsinglenucleotidepolymorphisms.Biotechniques36:682-88.權(quán)利要求1.一種檢測核酸群體中的一個或多個序列變體的方法,包括下列步驟(a)用確定基因座的一對核酸引物擴(kuò)增所述核酸群體共有的多核苷酸區(qū)段,以產(chǎn)生其中每個都包含所述多核苷酸區(qū)段的第一擴(kuò)增子群體;(b)克隆擴(kuò)增所述第一擴(kuò)增子群體的每個成員,以產(chǎn)生第二擴(kuò)增子的多個群體,其中第二擴(kuò)增子的每個群體源自于所述第一擴(kuò)增子群體的一個成員;(c)將所述第二擴(kuò)增子固定到多個可移動的固相支持物上,以使每個可移動的固相支持物含有所述第二擴(kuò)增子的一個群體;(d)確定每個固相支持物上的所述第二擴(kuò)增子的核酸序列,以產(chǎn)生核酸序列群體;(e)確定每種類型的核苷酸在所述多核苷酸區(qū)段的每個位置的出現(xiàn)率,以檢測所述核酸群體中的一個或多個序列變體。2.權(quán)利要求1的方法,其中所述引物是包括5'區(qū)域和3'區(qū)域的雙向引物,其中所述3,區(qū)域與所述多核苦酸區(qū)段上的某個區(qū)域互補(bǔ),其中所述5,區(qū)域與測序引物或其互補(bǔ)序列同源。3.權(quán)利要求2的方法,其中所述5,區(qū)域與所述可移動的固相支持物上的捕獲寡核苷酸或其互補(bǔ)序列同源。4.權(quán)利要求l的方法,其中所述擴(kuò)增通過聚合酶鏈?zhǔn)椒磻?yīng)進(jìn)行。5.權(quán)利要求1的方法,其中所述可移動的固相支持物是直徑為選自下組的珠子大約1到大約500微米之間、大約5到大約IOO微米之間、大約10到大約30微米之間以及大約15到大約25微米之間。6.權(quán)利要求1的方法,其中所述可移動的固相支持物包括雜交并固定所述第一擴(kuò)增子群體、第二擴(kuò)增子或二者的寡核苷酸。7.4又利要求1的方法,其中所述確定核酸序列的步驟通過將多個可移動的固相支持物遞送到在平坦表面上具有至少10,000個反應(yīng)室的陣列中,其中多個反應(yīng)室含有不超過一個的可移動的固相支持物;并確定每個所述可移動的固相支持物上的擴(kuò)增子的核酸序列來進(jìn)行。8.權(quán)利要求1的方法,其中所述確定核酸序列的步驟通過基于焦磷酸鹽的測序進(jìn)行。9.權(quán)利要求l的方法,其中所述序列變體具有選自下組的頻率小于大約50%、小于大約10%、小于大約5%、小于大約2%、小于大約1%、小于大約0.5%以及小于大約0.2%。10.權(quán)利要求l的方法,其中所述序列變體具有在0.2和5%之間的頻率。11.4又利要求1的方法,其中所述核酸群體包4舌DNA、RNA、cDNA或其組合。12.權(quán)利要求l的方法,其中所述核酸群體來自于多種生物體。13.權(quán)利要求l的方法,其中所述核酸群體來自于一種生物體。14.權(quán)利要求13的方法,其中所述核酸群體來自于所述生物體的多個組織樣品。15.權(quán)利要求13的方法,其中所述核酸群體來自于所述生物體的一個組織。16.權(quán)利要求l的方法,其中所述核酸群體來自于疾病組織。17.權(quán)利要求16的方法,其中所述疾病組織包括胂瘤組織。18.權(quán)利要求l的方法,其中所述核酸群體來自于細(xì)菌培養(yǎng)物、病毒培養(yǎng)物或環(huán)境樣品。19.權(quán)利要求1的方法,其中所述第一擴(kuò)增子群體長度為30到500個堿基。20.權(quán)利要求1的方法,其中所述第一擴(kuò)增子群體包含多于1000個擴(kuò)增子、多于5000個擴(kuò)增子或多于10000個擴(kuò)增子。21.權(quán)利要求1的方法,其中每個所述珠子結(jié)合所述多個第二擴(kuò)增子的至少10,000個成員。22.權(quán)利要求1的方法,其中所述多核苷酸區(qū)段的核酸序列在所述方法之前未一皮確定或部分未一皮確定。23.—種檢測第一多核苷酸分子群體中的一個或多個核苷酸序列變體的方法,所述方法包括下列步驟(a)體外選擇性擴(kuò)增多核苷酸區(qū)域,其中所述區(qū)域從多個第一多核苷酸分子中擴(kuò)增,從而產(chǎn)生第二多核苷酸分子的群體;并且(b)確定多個單獨的第二多核苷酸分子的核苷酸序列,每個序列包含至少兩個連續(xù)的核苷酸,其中任選地,在確定所述序列之前,每個所述多個單獨的第二多核苷酸分子在體外克隆擴(kuò)增,以產(chǎn)生第三多核苷酸分子的群體;并且(c)比較步驟(b)中確定的核苷酸序列,以鑒別任何第二多核苷酸分子之間以及任選地第三多核苷酸分子之間的序列差異,從而^r測所述第一多核苷酸分子群體中的一個或多個核苷酸序列變體。24.根據(jù)權(quán)利要求23的方法,其中所述多核苷酸擴(kuò)增通過等溫擴(kuò)增或熱循環(huán)擴(kuò)增進(jìn)行。25.根據(jù)權(quán)利要求24的方法,其中熱循環(huán)擴(kuò)增通過聚合酶鏈?zhǔn)椒磻?yīng)進(jìn)行。26.根據(jù)權(quán)利要求23的方法,其中所述第一多核苷酸分子群體包含多于大約100個、多于大約1000個、多于大約10,000個、多于大約100,000個、多于大約1百萬個或多于大約十億個分子。27.根據(jù)權(quán)利要求23的方法,其中所述第二多核苷酸分子的群體包含多于大約100個、多于大約1000個、多于大約10,000個、多于大約100,000個、多于大約1百萬個或多于大約十億個分子。28.根據(jù)權(quán)利要求23的方法,其中所述多個單獨的第二多核苷酸分子包含多于大約100個、多于大約1000個、多于大約10,000個、多于大約100,000個、多于大約1百萬個或多于大約十億個分子。29.權(quán)利要求23的方法,其中所述擴(kuò)增的多核苷酸區(qū)域包含至少大約25個、至少大約50個、至少大約150個、至少大約300個、至少大約500個、至少大約1000個、至少大約5000個或至少大約10,000個核苷酸。30.權(quán)利要求23的方法,其中每個所述序列包含至少大約5個、至少大約25個、至少大約50個、至少大約100個、至少大約150個、至少大約200個、至少大約300個、至少大約500個、至少大約1000個、至少大約5000個、至少大約10,000個或至少大約100,000個連續(xù)的核苦酸。31.權(quán)利要求23的方法,其中所述第二多核苷酸分子的群體固定在固相或半固相支持物上。32.權(quán)利要求23的方法,其中所述第三多核苷酸分子的群體固定在固相或半固相支持物上。33.權(quán)利要求23的方法,其中所述序列由選自下組的方法確定Sanger測序、合成測序、雜交測序、連一妄測序、降解測序和納米孔測序。34.權(quán)利要求33的方法,其中所述合成測序方法包括焦磷酸鹽的檢測。35.權(quán)利要求23的方法,其中所述序列的測定包括引入標(biāo)記的核苷酸,其中標(biāo)記選自熒光標(biāo)記、質(zhì)量標(biāo)簽和發(fā)光標(biāo)記。36.權(quán)利要求35的方法,其中所述標(biāo)簽通過光或化學(xué)處理除去或失活。37.權(quán)利要求23的方法,其中所述一個或多個核苷酸序列變體具有選自下組的頻率小于大約50%、小于大約20%、小于大約10%、小于大約5%、小于大約2%、小于大約1%、小于大約0.5%、小于大約0.2%以及小于大約0.02%。38.權(quán)利要求23的方法,其中所述一個或多個核苷酸序列變體中的至少一個在確定序列之前是未知的。法,包括下述步驟(a)從所述群體中分離核酸樣品;(b)用權(quán)利要求1或權(quán)利要求23任一項的方法確定含有所述群體中所有生物體共有的基因座的核酸區(qū)段的一個或多個序列變體,其中每個生物體在所述基因座包含不同的核酸序列;并且(c)基于所述核酸序列群體鑒別生物體在所述群體中的分布。39.40.權(quán)利要求39的方法,其中所述群體是選自細(xì)菌、病毒、單細(xì)胞生物、才直物和酵母的生物群體。41.一種確定組織樣品組成的方法,包括下列步驟(a)從所述組織樣品中分離核酸樣品;(b)用權(quán)利要求1或權(quán)利要求23任一項的方法檢測核酸區(qū)段的序列變體,其中所述區(qū)段包含所述組織樣品中所有細(xì)胞共有的基因座,其中每個細(xì)胞類型在所述基因座包含不同的序列變體;以及(c)才艮據(jù)所述核苷酸頻率確定所述組織樣品的組成。42.—種確定生物體基因型的自動化方法,包括(a)從所述生物體中分離核酸;(b)根據(jù)權(quán)利要求1或權(quán)利要求23任一項的方法確定所述核酸中一個或多個基因座上的核酸序列,以產(chǎn)生在所述一個或多個基因座上的核酸序列的群體;(c)#4居所述核酸序列群體確定所述一個或多個基因座上的純合性或雜合性,以確定所述生物體的基因型。43.權(quán)利要求42的方法,進(jìn)一步包括將所述核酸序列群體與一個或多個參考基因型的序列相比較以確定所述生物體的基因型的步驟(d)。44.權(quán)利要求42的方法,其中所述一個或多個基因座包含SNP,其中所述基因型是SNP基因型。45.權(quán)利要求23的方法,其中第三多核苷酸分子的群體通過橋式擴(kuò)增產(chǎn)生。46.權(quán)利要求23的方法,其中第三多核苷酸分子的群體通過在半固相支持物上擴(kuò)增產(chǎn)生。全文摘要要求保護(hù)的發(fā)明提供了新的樣品制備方法,使得可以用焦磷酸測序技術(shù)直接對PCR產(chǎn)物進(jìn)行測序。所述PCR產(chǎn)物可以是基因組的特定區(qū)域。本發(fā)明的公開內(nèi)容中提供的技術(shù)可以用于在一個個體或個體的群體中對個體等位基因多態(tài)性進(jìn)行SNP(單核苷酸多態(tài)性)檢測、分類和評價。結(jié)果可以用于患者的診斷和治療,以及病毒和細(xì)菌群體鑒別的評價。文檔編號C12Q1/68GK101171345SQ200680015255公開日2008年4月30日申請日期2006年4月12日優(yōu)先權(quán)日2005年4月12日發(fā)明者B·德薩尼,J·F·西蒙斯,J·H·利蒙,J·德拉克,J·羅思伯格,K·羅曼,M·T·羅南,M·埃格霍爾姆,W·L·李申請人:454生命科學(xué)公司