基于配對末端隨機序列的基因分型的制作方法

文檔序號：509968閱讀：473來源：國知局

基于配對末端隨機序列的基因分型的制作方法
【專利摘要】通過提供帶標識物標簽的限制性片段、使用配對高通量測序技術獲得序列信息、組合該序列信息并鑒定該樣品間多態(tài)性來同時發(fā)現(xiàn)、檢測樣品間多態(tài)性以及進行基因分型的方法。來自兩個末端的序列信息組合能發(fā)現(xiàn)、檢測高度重復性基因組中的多態(tài)性以及進行基因分型。
【專利說明】基于配對末端隨機序列的基因分型
[0001]發(fā)明背景
[0002]目前使用的大部分標記物發(fā)現(xiàn)和基因分型技術主要依賴于兩種不同的系統(tǒng)，一種是最初發(fā)現(xiàn)的SNP，另一種是之后對大量個體進行的基因分型。這激發(fā)本申請人:開發(fā)一種基于序列的同步標記物發(fā)現(xiàn)和檢測技術，稱為基于隨機序列的基因分型(rSBG)。該技術引入了 Illumina GAII的高通量測序能力以及AFLP'K' (EP534858)的基因組復雜性減低能力。其示例描述在本申請人:的W02007073165中。與各種通常經(jīng)靶向的其它基因分型技術(即，先選擇待檢測SNP，并用特異性檢測探針靶向)相反，rSBG是隨機方法。原則上，當AFLP模板中含有特異性序列時可鑒定品系間存在的所有SNP(通常在使用嚴格的挖掘過濾(miningfilter)后)。其中一個問題是當分析樣品來自含有相對大部分重復性序列的基因組時，例如辣椒，鑒定品系間多態(tài)性會由于重復性序列的存在而變得更難。

【發(fā)明內(nèi)容】

[0003]本發(fā)明人發(fā)現(xiàn)可改進在多種樣品中評分和基因分型的多態(tài)性數(shù)目，特別是在使用來自視作高度重復性(即包含許多重復)的基因組樣品，使用高通量測序方法來測序限制性片段的兩個末端時。通過采用稱為配對末端測序的方法，從相同限制性片段中獲得兩組序列數(shù)據(jù)(即序列讀數(shù))，各來自限制性片段的一端。通過組合這些數(shù)據(jù)組，原來由于例如源自重復片段從而不能相互區(qū)分的來自限制性片段的序列數(shù)據(jù)(序列讀數(shù))現(xiàn)在變得可區(qū)分了。原因是來自位于上百或甚至上千個核苷酸之外限制性片段另一端的序列讀數(shù)(通常依賴于所用的限制性酶或片段化方法)，能產(chǎn)生獨特的組合序列讀數(shù)(參見圖1)。這也能發(fā)現(xiàn)、檢測來自高度重復性基因組樣品的多態(tài)性以及進行基因分型。因此本發(fā)明方法相比現(xiàn)有技術方法可以最廣泛形式應用于更大范圍的樣品，因為其成功包括了高重復性樣品。本發(fā)明人發(fā)現(xiàn)用該配對末端方法相比單獨分析片段各端讀數(shù)可發(fā)現(xiàn)更多SNP并進行基因分型，即，由于在SNP的同步發(fā)現(xiàn)和基因分型中使用配對末端測序而獲得協(xié)同作用。
[0004]附圖簡要說明
[0005]圖1.基于配對末端隨機序列的基因分型示意圖。從限制性片段各端形成雙標簽(ditag)以實現(xiàn)最大的重復序列分離從而用于SNP鑒定。
[0006]定義
[0007]在以下說明和實施例中，使用了一些術語。為了提供對說明書和權利要求的清楚和一致的理解，包括給予所述術語的范圍，提供了下列定義。除非另外定義，本文中使用的所有技術和科學術語具有本發(fā)明所屬領域普通技術人員通常所理解的同樣含義。所有出版物、專利申請、專利和其他文獻的公開內(nèi)容都通過引用全文納入本文。
[0008]本領域技術人員清楚了解本發(fā)明方法實施所使用的常規(guī)技術。本領域技術人員熟知分子生物學、生物化學、計算化學、細胞培養(yǎng)、重組DNA、生物信息學、基因組學、測序和相關的領域中的常規(guī)技術實踐，并在例如以下參考文獻中描述:SambiOOk等，《分子克隆.實驗室手冊》(Molecular Cloning:A Laboratory Manual),第二版，紐約冷泉港的冷泉港出版社(Cold Spring Harbor Laboratory Press), 1989 ;Ausubel 等，《新編分子生物學實驗指南》(Current Protocols in Molecular Biology),紐約的約翰威利父子公司(John Wiley&Sons), 1987及定期更新；和《酶學方法》系列(the series Methods inEnzymology),圣地亞哥的學術出版社(Academic Press)。
[0009]本文所用的單數(shù)形式“一個”、“一種”和“該”包括復數(shù)指代形式，除非文中另有明確說明。例如，分離“一個”DNA分子的方法包括分離多個分子(例如，十、百、千、萬、十萬、百萬或更多的分子)。
[0010]多態(tài)性:多態(tài)性指一個群體中存在兩種或多種核苷酸序列變體。多態(tài)性可以包括一個或多個堿基改變，插入，重復，或缺失。多態(tài)性包括例如簡單序列重復(SSR)和單核苷酸多態(tài)性(SNP)，其為DNA序列變異，在單個核苷酸:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鳥嘌呤(G)改變時發(fā)生。通常群中至少1%發(fā)生變異被視為SNP。SNP占(例如)所有人類遺傳變異的90%，人類基因組中每100至300個堿基即出現(xiàn)。每三個SNP中有兩個是腺嘌呤(T)取代胞嘧啶(C)。例如人類和植物的DNA序列變異會影響其如何處理疾病、細菌、病毒、化學試劑、藥物等。
[0011]基因分型指測定種類中個體遺傳變異的方法。生物基因型是其遺傳密碼內(nèi)攜帶的遺傳指令(inherited instruction)。并非所有具有相同基因型的生物表觀或行為方式相同，因為表觀和行為由環(huán)境和發(fā)育條件修飾。同樣，并非所有看上去很像的生物肯定具有相同的基因型。單核苷酸多態(tài)性(SNP)是最常見的遺傳變異類型并定義為在高于1%群中發(fā)現(xiàn)的特異性基因座的單堿基差異。在基因組編碼以及非編碼區(qū)域都發(fā)現(xiàn)SNP，其可能導致不同表型，例如，在編碼區(qū)發(fā)現(xiàn)時，具有患病或耐受疾病的能力。因此，SNP常用作特定疾病或一些表型的標記物。當發(fā)現(xiàn)于非編碼區(qū)時，SNP用作進化基因組研究的標記物。SNP涉及不同長度的核苷酸“插入缺失標記(InDel)”或插入和缺失。第三種遺傳變異類型是拷貝數(shù)變異(CNV)，其源于不同基因組中具有不同拷貝數(shù)的DNA片段。編碼基因拷貝數(shù)變化的情況中，所述變化會導致對疾病的易感性或抵抗性。一些表型還是劑量敏感性，拷貝數(shù)引起種類成員間的不同差異。對于SNP和CNV基因分型，存在許多測定個體間基因型的方法。選擇方法通常取決于通量需要，其隨著基因分型的個體數(shù)量和各個體所測的基因型數(shù)量而變化。所選方法還取決于各個體或樣品中可得的樣品材料量。
[0012]基因型是細胞、器官、或個體(即個體的特異性等位基因組成)通常參照考慮中的特異性性狀和特性的遺傳組成。
[0013]表型是可觀察的生物性狀和特性，例如其形態(tài)、發(fā)育、生化或生理特性、物候?qū)W、行為和行為產(chǎn)物。表型來自環(huán)境因素的基因表達和影響以及兩者間的相互作用。雖然表型是生物表現(xiàn)出的總體可觀察特性，術語表型組有時指特性集合，其同步研究稱為表型組學。
[0014]表型分型是測定生物表型。
[0015]限制性內(nèi)切核酸酶:限制性內(nèi)切核酸酶或限制性酶是一種酶，其識別雙鏈DNA分子中的特定核苷酸序列(靶位點)，并能在每個靶位點處或附近切開兩條鏈，得到鈍端或交錯末端。
[0016]限制性片段:用限制性內(nèi)切核酸酶消化產(chǎn)生的DNA分子被稱作限制性片段。用特定限制性內(nèi)切核酸酶消化任何給定基因組(或核酸，不論其來源)，得到一組離散的限制性片段。限制性內(nèi)切酶切割產(chǎn)生的DNA片段還可用于各種技術。
[0017]加標簽:術語加標簽指在核酸樣品中加入標簽，從而能區(qū)分其與第二或更多核酸樣品。[0018]標識物或標識物標簽:一種短序列，其可加到銜接子或引物上，或包括在其序列中，或用作標記以提供獨特的識別物。這種序列標識物(標簽)可以例如是長度變化(通常為4-16bp)但確定的獨特堿基序列。標識物或標識物組合可用于鑒定特異性核酸樣品或連接或結(jié)合DNA產(chǎn)物，例如源自樣品的該樣品片段或PCR產(chǎn)物。例如4bp標簽能夠產(chǎn)生44=256個不同標簽。使用該標識物，可在進一步加工后測定樣品來源。在合并源于不同核酸樣品的加工產(chǎn)物的情況下，通?？捎貌煌瑯俗R物鑒定不同核酸樣品。標識物優(yōu)選彼此至少有兩個堿基對的差異，優(yōu)選不含兩個相同的連續(xù)堿基，以防止誤讀。標識物功能有時可與其它功能聯(lián)合，例如銜接子或引物。
[0019]標簽限制性片段；提供有標識物標簽的限制性片段。
[0020]連接有銜接子的限制性片段:被銜接子封端的限制性片段。
[0021]銜接子:短雙鏈DNA分子，具有有限數(shù)量的堿基對，例如長約10-30對堿基，設計成可與限制性片段的末端連接。銜接子通常由兩種合成寡核苷酸組成，其具有彼此部分互補的核苷酸序列。當在合適條件下于溶液中混合兩種合成寡核苷酸時，它們會彼此退火，形成雙鏈結(jié)構(gòu)。退火后，銜接子分子的一端被設計成與限制性片段末端相容，可與其連接；銜接子另一端可設計成不能連接，但不需如此(雙連接銜接子)。
[0022]連接:連接酶催化的酶反應，其中兩個雙鏈DNA分子彼此共價連接，稱作連接。一般來說，兩條DNA鏈共價連接，但也可通過化學或酶修飾鏈末端之一防止兩條鏈之一連接。該情況下，共價連接將僅發(fā)生在兩條DNA鏈的一條上。
[0023]引物:一般，術語引物指能夠引發(fā)DNA合成的DNA鏈。DNA聚合酶不能在沒有引物的情況下從頭合成DNA:在一個反應中只能延伸一條已存在的DNA鏈，其中互補鏈被用作模板，指導裝配的核苷酸的順序。我們將在聚合酶鏈式反應(PCR)中使用的合成寡核苷酸分子稱作引物。
[0024]合成寡核苷酸:可化學合成的具有優(yōu)選10-50個堿基的單鏈DNA分子被稱作合成寡核苷酸。一般這些合成DNA分子設計成具有獨特或所需的核苷酸序列，雖然也可能合成具有相關序列的分子(其在核苷酸序列內(nèi)的特定位點具有不同核苷酸組成)的家族。術語合成寡核苷酸用于指具有經(jīng)設計或所需核苷酸序列的DNA分子。
[0025]擴增:術語擴增通常用于指體外合成雙鏈DNA分子，一般使用PCR。應注意存在其它擴增方法，其可在本發(fā)明中使用而不違背其要旨。
[0026]擴增子:多核苷酸擴增反應的產(chǎn)物，即從一個或多個起始序列復制的多核苷酸群。擴增子可通過各種擴增反應產(chǎn)生，包括但不限于聚合酶鏈反應(PCR)、線性聚合酶反應、基于核酸序列的擴增、滾環(huán)擴增等反應。
[0027]復雜性降低:術語復雜性降低用于指一種方法，其中通過產(chǎn)生樣品亞組降低了核酸樣品，例如基因組DNA的復雜性。該亞組可代表全(即復雜)樣品，優(yōu)選是可重復亞組。可重復在此表示當用相同的方法降低同一樣品的復雜性時，可獲得相同或至少相當?shù)膩喗M。用于復雜性減低的方法可以是任何本領域已知的復雜性降低的方法。復雜性降低的方法示例包括例如AFLP? (Keygene N.V.,荷蘭；參見例如EP0534858)，Dong所述的方法(參見例如 W003/012118, W000/24939),索引連接(Unrau 等，1994，基因(Gene), 145:163-169)等。用于本發(fā)明的復雜性降低法方法的共同之處是它們都是可重復的?？芍貜鸵馕吨斠韵嗤绞浇档拖嗤瑯悠返膹碗s性時，獲得相同樣品亞組，與之截然相反的是更隨機的復雜性降低法，例如顯微切割或使用mRNA(cDNA)，其代表了所選組織中一部分轉(zhuǎn)錄的基因組，其可重復性取決于組織選擇和分離時間等。
[0028]選擇性堿基，選擇性核苷酸，隨機選擇性核苷酸:位于引物的3’端，選擇性堿基隨機選自A、C、T或G (或U，視情況而定)。通過用選擇性堿基延伸引物，隨后的擴增僅僅得到連接有銜接子的限制性片段的可重復亞組，即僅用攜帶選擇性堿基的引物能擴增出的片段。加到引物3’端的選擇性核苷酸數(shù)量可在1-10間不等。通常1-4足夠。兩種引物(PCR中)都可含有不同數(shù)量的選擇性堿基。使用各加入的選擇性堿基情況下，亞組使擴增的連接有銜接子的限制性片段量降低了約4倍。該類型復雜性降低視為隨機降低，因為其不需要或考慮任何之前序列信息，僅僅基于選擇性核苷酸。通常，用于AFLP技術(EP534858)的選擇性堿基的數(shù)目以+N+M表示，其中一個引物攜帶N個選擇性核苷酸，另一個引物攜帶M個選擇性核苷酸。因此，Eco/Mse+l/+2AFLP簡寫形式代表用EcoRI和MseI消化起始DNA，連接合適的銜接子并擴增，一種引物針對EcoRI限制性位點，其攜帶I個選擇性堿基，另一種引物針對MseI限制性位點，攜帶2個選擇性核苷酸。用于AFLP的在3’末端攜帶至少一種選擇性核苷酸的引物也稱為AFLP-引物。在3’末端不攜帶選擇性核苷酸，實際上與銜接子和其余限制性位點互補的引物有時被稱作AFLP+0引物。術語選擇性核苷酸也用于目標序列的核苷酸，其毗鄰銜接子部分并通過使用選擇性引物鑒定，因此該核苷酸被如此稱呼。
[0029]測序:術語測序指測定核酸樣品，例如DNA或RNA中的核苷酸順序(堿基序列)。可用許多技術例如桑格測序和高通量測序技術(也稱作下一代測序技術)，例如羅氏應用科學公司(Roche Applied Science)的GS FLX平臺，和億明達公司(Illumina)的基因組分析儀(Genome Analyzer),它們都基于焦磷酸測序。還存在其它平臺。
[0030]高通量測序或下一代測序是能產(chǎn)生大量讀數(shù)的測序技術，通常是上千(即上萬或上十萬)或百萬等級的序列讀數(shù)，而不是一次數(shù)百個。高通量測序區(qū)別于且不同于常規(guī)桑格或毛細管測序。一般地，測序產(chǎn)物是通常本身具有相對較短讀數(shù)(約600-30bp)的測序產(chǎn)物。該方法的示例為基于焦磷酸測序的方法，描述于W003/004690、W003/054142、W02004/069849, W020 04/070005, W02004/070007 和 W02005/003375, Seo 等，(2004)Proc.Natl.Acad.Sc1.USAlOl: 5488_93。該技術通常還包括廣泛且精確的數(shù)據(jù)儲存和用于讀數(shù)裝配的加工工作流程等。可用的高通量測序需要許多基因組分析的傳統(tǒng)工作流程和方法重新設計成容納目前產(chǎn)生的數(shù)據(jù)類型和質(zhì)量。
[0031]本文所用的“配對末端測序”是基于高通量測序的方法，特別是基于億明達公司和羅氏公司目前銷售的平臺。億明達公司發(fā)布了一種硬件模塊(PE模塊)，其可安裝在現(xiàn)有測序儀中作為升級形式，能對模板兩端測序，從而產(chǎn)生配對末端讀數(shù)。配對末端測序可通過在載體上對待測序DNA分子鏈重新取向來實現(xiàn)，在該載體中進行測序，例如Lakdawalla所述的“Next generation sequencing:towards personalized medicine(下一代測序:走向個體化醫(yī)療)”，Michael Janitz編，2008，威利(Wiley)部分2.4。這類配對末端測序通常用于更小的片段(高至約lOOObp)。配對末端測序的另一變體有時稱為伴侶配對測序，其中測序銜接子連接于DNA片段，該連接的DNA用識別序列包含在銜接子中的II亞類限制酶消化，自身環(huán)化，II亞類酶消化，得到配對末端測序。這特別有助于分析較大片段(約>1000bp)。也參見Wei等“下一代測序:走向個體化醫(yī)療”，Michael Janitz編，2008，威利部分13.2，圖 13.1。
[0032]II亞類限制性內(nèi)切酶是識別序列遠離限制性位點的內(nèi)切酶。換言之，II亞類限制性內(nèi)切酶在識別序列外部的一側(cè)切割。其示例為NmeAIII (GCCGAG(21/19)和Fok1、AlwI,Mmel。存在在識別為序列外部兩側(cè)切割的II亞類酶。
[0033]對齊和比對:術語“對齊”和“比對”表示根據(jù)相同或相似核苷酸的短或長延伸段的存在比較兩種或更多核苷酸序列。比對核苷酸序列的數(shù)種方法為本領域已知。
[0034]本文所用的“收集”指將多個樣品(或人工染色體或克隆或基因組亞組或可重復的復雜性降低基因組)組合到庫中。收集可以是將許多單獨樣品簡單合并成一個樣品(例如100個樣品合并成10個庫，每個含有10個樣品)，也可以使用更精細的收集策略。庫中樣品的分布優(yōu)選使得每個樣品存在于至少兩個或多個庫中。優(yōu)選每庫含有10-10000個，優(yōu)選100-1000，更優(yōu)選250-750個樣品。觀察到每個庫的樣品數(shù)可廣泛變化，該變化與例如研究的基因組大小或樣品數(shù)目有關。通常，庫或亞庫的最大尺寸由獨特鑒定一個庫中某一樣品的能力決定，例如通過一組標識物。用本領域熟知的收集策略產(chǎn)生庫。本領域技術人員能夠根據(jù)基因組大小、樣品數(shù)目等因素選擇最佳收集策略。得到的收集策略將視環(huán)境而定，其例子如平板收集，N-維收集例如3D收集、6D收集或復雜收集。為了便于處理大量庫，庫本身可以組合成超級庫(即，超級庫是樣品池的庫)或分成亞庫。收集策略及其去卷積的其它例子(即通過檢測一個或多個庫或亞庫中樣品的已知相關標志(即標記或標識物)的存在來正確鑒定文庫中每一個樣品)如US6975943或Klein等，GenomeResearch, (2000)，10，798-807所述。收集策略優(yōu)選文庫中每個樣品的分布使得對于每個樣品有獨特的庫組合。其結(jié)果是某個(亞)庫的組合獨特鑒定一個樣品。
[0035]群聚:術語“群聚”意味著在相同或相似核苷酸的短或長延伸段的存在下，比較兩個或多個核苷酸序列，并基于相同或類似序列的短(或更長)延伸段將具有某一最小水平序列同源性的序列分到一組。
[0036]發(fā)明詳述
[0037]第一方面，本發(fā)明涉及同時發(fā)現(xiàn)、檢測一個或多個或大量樣品中的一種或多種多態(tài)性以及進行基因分型，包括以下步驟:
[0038](a)從一個或多個或大量樣品中提供DNA;
[0039](b)用至少一種限制性內(nèi)切酶消化該DNA來降低樣品DNA復雜性以產(chǎn)生限制性片段；
[0040](c)將標識物標簽提供給樣品限制性片段以產(chǎn)生帶標簽的限制性片段；
[0041](d)對至少部分的帶標簽限制性片段進行配對末端測序；
[0042](e)鑒定樣品間的多態(tài)性。
[0043]復雜性降低可僅僅基于用一種或多種限制性內(nèi)切酶消化來自樣品的DNA。在某些實施方式中，可使用兩種或多種限制性酶。對于限制性片段，可連接銜接子。該銜接子可連接到限制性片段的一端或兩端，它們可相同或不同。用兩種或多種不同的限制性酶限制DNA從而獲得限制性片段時，可使用不同的銜接子。復雜性降低還可通過擴增限制性片段來實現(xiàn)，例如使用針對銜接子或其部分的引物。用于擴增的引物還可包含與限制性酶識別序列剩余部分互補的一部分。在某些實施方式中，可使用既定技術例如AFLP? (EP534858)，其中在至少一個引物的3’端添加1-10個隨機選擇性核苷酸以提供可重復的片段亞組。其它的復雜性降低技術也可用，只要其可重復。這里的可重復指相同樣品進行兩次復雜性降低時獲得相同亞組以及兩個基本相同的樣品間獲得相同亞組。
[0044]產(chǎn)生帶標簽限制性片段的標識物標簽可以許多方式提供。標識物標簽可通過以下方式提供:
[0045]-與限制性片段連接待標簽銜接子以產(chǎn)生連接有帶標簽銜接子的限制性片段；
[0046]或者
[0047]用至少一個帶標簽引物擴增連接銜接子的限制性片段，該引物與至少部分銜接子互補，以產(chǎn)生連接帶標簽銜接子的限制性片段。
[0048]該銜接子可僅由標識物標簽組成，或該銜接子可含有其它官能團，例如能選擇(部分)帶標簽限制性片段，例如以降低樣品的復雜性，例如在陣列上。
[0049]標志物標簽也可在銜接子連接、擴增或復雜性降低之前或之后的單獨步驟中添加，只要每個樣品提供獨特標簽，該標簽將限制性片段與其來源樣品相關聯(lián)。
[0050]測序步驟優(yōu)選使用高通量測序進行，使用包括伴侶配對測序在內(nèi)的末端配對測序。
[0051]在本發(fā)明的一個優(yōu)選實施方式中，測定限制性片段的部分序列。優(yōu)選測定限制性片段的兩端序列，優(yōu)選同時檢測，即在同一測序運行中。用于該序列測定的方案通常指定GA//和羅氏平臺用作配對末端測序，包括伴侶配對測序，如本文他處所定義。
[0052]使用配對末端測序，通常包括伴侶配對測序，獲得限制性片段兩端的序列信息。來自限制性片段兩端的序列信息(第一讀數(shù)和第二讀數(shù)，包括標識物)可合并，產(chǎn)生所謂的“雙標簽(ditag)”。雙標簽包含第一和第二讀數(shù)的組合信息，優(yōu)選可使用標識物標簽與樣品相聯(lián)。該標識物標簽優(yōu)選與第一讀數(shù)相關(或包含于其中)?？捎糜嬎銠C產(chǎn)生雙標簽。在一個優(yōu)選實施方式中，讀數(shù)之一，優(yōu)選第二讀數(shù)，在產(chǎn)生雙標簽前反向互補。這里的反向互補指讀取的序列是反向的(例如，N1N2N3N4N5N6變?yōu)镹6N5N4N3N2N1 )。因此，詳細的雙標簽為:
[0053]ID-讀數(shù) 1-讀數(shù) 2 (反向互補)JDIDIDIDM1M2M3M4M5M6N6N5N4N3N2N1
[0054]還可參見描述該概念的圖1。可從重復序列中獲得雙標簽一部分，但另一部分來自基因組序列的另一部分，因此增加產(chǎn)生兩部分獨特組合的可能性。這能鑒定其它情況下不可能鑒定的序列間多態(tài)性?，F(xiàn)有技術允許從片段兩端獲得150個核苷酸，產(chǎn)生300個參考性核苷酸。這顯著提高了每個樣品中獨特的組合片段數(shù)目，因此提高待鑒定的多態(tài)性數(shù)目?？稍谠试S配對末端(包括伴侶配對測序)的其它測序平臺上實施相同的技術概念。
[0055]高通量測序優(yōu)選基于以下方式的測序:合成測序，焦磷酸測序(固體載體上)例如億明達公司提供的平臺(Ga//、Hiseq、MiSeq)或羅氏GS FLX，通常稱為下一代測序。也可使用稱為下下代測序的技術。其示例是基于連接測序、雜交測序、納米孔測序(牛津納米孔技術或 NABsys (US20100096268, US20100078325, US20090099786))或太平洋生物科學公司(Pacific Biosciences)和離子激流公司(1n torrent)公司提供的那些(Nature475, 348-352 頁)。
[0056]獲得序列信息后，根據(jù)標識物標簽將序列分配到每個樣品。通過群集(或比對)序列，可鑒定序列間從而鑒定樣品間的多態(tài)性。這使得在多個樣品中同時鑒定SNP、檢測SNP并測定基因型?？捎帽绢I域常規(guī)技術進行群集或比對。
[0057]出于比較目的比對序列的方法為本領域熟知。各種程序和比對算法如下所述:Smith 和 Waterman (1981) Adv.Appl.Math.2:482; Needleman 和 Wunsch (1970) J.Mo1.Biol.48:443;Pearson 和 Lipman(1988)Proc.Natl.Acad.Sc1.USA85:2444;Higgins和 Sharp(1988)Gene73:237-244;Higgins 和 Sharp (1989)CAB10S5:151-153;Corpet等，(1988) Nucl.Acids Res.16: 10881-90 ; Huang 等，(1992) Computer Appl.1ntheBiosc1.8:155-65;以及 Pearson 等，(1994)Meth.Mo1.Biol.24:307-31，其通過引用納入本文。Altschul等，(1994) Nature Genet.6:119-29 (通過引用納入本文)提出了序列比對方法和同源性計算的詳細考量。
[0058]NCBI 基本局部比對搜索工具(Basic Local Alignment Search Tool) (BLAST)(Altschul等，1990J Mol Biol.5; 215 (3): 403-10)來自各種來源，包括國家生物信息中心(NCBI,馬里蘭州貝塞斯達)和因特網(wǎng)，用于和序列分析程序blastp、blastn、blastx、tblastn 和 tblastx 聯(lián)用。其可在 http: //www.ncb1.nlm.nih.gov/BLAST/ 獲得。怎樣使用該程序檢測序列相同性的說明可在http://www.ncb1.nlm.nih.gov/BLAST/blast help,html獲得。
[0059]通常對就銜接子/引物和/或標識物修整的序列數(shù)據(jù)進行比對，即僅使用源自核酸樣品的片段的序列數(shù)據(jù)。通常，獲得的序列數(shù)據(jù)用于鑒定片段來源(即來自哪個樣品)，來自銜接子和/或標識物的序列從數(shù)據(jù)中移出并對該修整組進行比對。
[0060]本發(fā)明的一個示例中，用兩種限制性酶EcoRI和MseI消化基因組DNA樣品，將銜接子連接到片段上?？刹捎肁FLP復雜性降低(取決于基因組復雜度)。最后，得到的片段適于GAII測序并用配對末端形式測序(每個方向76個核苷酸)。使用針對標簽定義的生物信息學方法和基因型鑒定(genotype calling),分析所得數(shù)據(jù)從而鑒定樣品間的多態(tài)性。詳細結(jié)果描述在實施例中。
[0061]該技術的附加值從以下幾方面體現(xiàn):
[0062]基于高通量測序限制性片段，通過使用制作物理圖譜所用的相同限制性酶，經(jīng)測序的標簽和所得基因分型可容易地與物理圖譜相關聯(lián)。
[0063]通過采用配對末端測序(即，對限制性片段兩端測序，即各片段的EcoRI和MseI端)隨后只比對獨特的EcoRI和MseI標簽組合，最大程度地在重復區(qū)域中進行SNP鑒定及基因分型。
[0064]通過AFLP采用穩(wěn)健的復雜性降低能收集大量樣品。因此在某些實施方式中，在測序前將復雜性降低的樣品收集在庫中。
[0065]優(yōu)選基于總基因組DNA的技術。
[0066]本申請通篇中，各種參考文獻以括號引用從而更全面描述本發(fā)明涉及的技術狀態(tài)。本說明書引用的所有專利和參考文獻均通過引用全文納入本文。
[0067]顯然上述說明和附圖意在說明本發(fā)明的一些實施方式，而并非限制該保護范圍。從本公開入手，更多的實施方式對于本領域技術人員是顯而易見的并在本發(fā)明的保護范圍和實質(zhì)內(nèi)容中，其為現(xiàn)有技術和本專利公開內(nèi)容的明顯組合。下文中本發(fā)明將通過非限制性實施例進一步說明。
實施例
[0068]本項目目的是產(chǎn)生在基于隨機序列的基因分型(rSBG)情況下分析配對末端序列數(shù)據(jù)的策略。使用配對末端(雙標簽)相比單末端策略對擬南芥(Arabidopsis)分析數(shù)據(jù)，評價并比較其性能。為了這些目的，用來自億明達GAII NGS平臺的序列數(shù)據(jù)通過從頭裝配策略產(chǎn)生參考序列。隨后，用億明達讀數(shù)對參考序列作圖。然后就SNP的存在檢測作圖結(jié)果O
[0069]擬南芥數(shù)據(jù)組遺傳材料由兩個親本、兩個Fl個體和28個來自回交(BC)群的后代組成。
[0070]用配對末端讀數(shù)建立構(gòu)建物，稱為雙標簽，其中所述讀數(shù)組合成單個“讀數(shù)”。雙標簽長度是每對讀數(shù)中各讀數(shù)的長度總和。此外，建立雙標簽前反向互補讀取讀數(shù)2，從而使雙標簽就參考(基因組)序列作圖。因此，雙標簽的最終結(jié)構(gòu)是:ID標簽-讀數(shù)1-讀數(shù)2(反向互補)。雙標簽建立在任何質(zhì)量控制步驟實施前，修改質(zhì)量控制方法以用過濾配對末端序列數(shù)據(jù)中各讀文件所用的相同標準來過濾雙標簽。
[0071]ID標簽存在于配對末端序列數(shù)據(jù)的讀數(shù)I以及讀數(shù)2序列中。
[0072]針對各擬南芥樣品產(chǎn)生EcoRI/Msel文庫并用億明達GAII測序。針對雙標簽以及來自配對末端序列數(shù)據(jù)的讀數(shù)I和讀數(shù)2文件實施質(zhì)量控制方法。
[0073]應用于擬南芥序列數(shù)據(jù)的質(zhì)量控制過濾所得的概括統(tǒng)計示于表1。
[0074]表1 一擬南芥中億明達GAII序列數(shù)據(jù)的描述統(tǒng)計。
[0075]
【權利要求】
1.一種同時發(fā)現(xiàn)、檢測一個或多個或大量樣品中一種或多種多態(tài)性以及進行基因分型的方法，所述方法包括以下步驟: (a)從一個或多個或大量樣品中提供DNA; (b)用至少一種限制性內(nèi)切酶消化所述DNA來降低所述樣品DNA的復雜性以產(chǎn)生限制性片段； (C)將至少一個標識物標簽提供給所述樣品限制性片段以產(chǎn)生帶標簽的限制性片段； (d)對至少部分的所述帶標簽限制性片段進行配對末端測序； (e)鑒定所述樣品間的多態(tài)性。
2.如權利要求1所述的方法，其特征在于，所述配對末端測序讀數(shù)的第一序列讀數(shù)和第二序列讀數(shù)組合成雙標簽，優(yōu)選在計算機中進行。
3.如權利要求1或2所述的方法，其特征在于，所述第一或第二序列讀數(shù)之一在組合成雙標簽前反向互補。
4.如權利要求1-3所述的方法，其特征在于，所述標識物標簽通過以下方式提供: -將帶標簽銜接子連接到所述限制性片段上以產(chǎn)生連接有帶標簽銜接子的限制性片段；或者 -用至少一個帶標簽引物擴增連接有銜接子的限制性片段，所述引物與至少部分銜接子互補，以產(chǎn)生連接有帶標簽銜接子的限制性片段。
5.如權利要求1-4所述的方法，其特征在于，所述序列根據(jù)標識物標簽分配到所述樣品中。
6.如權利要求1-5所述的方法，其特征在于，在樣品間比較所述分配的序列來鑒定樣品間序列的多態(tài)性。
7.如權利要求1-6所述的方法，其特征在于，在樣品間比較所述雙標簽。
8.如權利要求1-7所述的方法，其特征在于，根據(jù)所述鑒定的多態(tài)性對所述樣品進行基因分型。
9.如權利要求1-8所述的方法，其特征在于，所述復雜性降低包括用兩種或多種限制性內(nèi)切酶消化所述樣品DNA以產(chǎn)生限制性片段。
10.如權利要求1-9所述的方法，其特征在于，在所述限制性片段的一個末端或兩個末端連接銜接子以提供連接有銜接子的片段。
11.如權利要求9或10所述的方法，其特征在于，所述用不同限制性酶獲得的限制性片段的各末端上連接不同的銜接子。
12.如權利要求10或11所述的方法，其特征在于，所述復雜性降低還包括用至少一種引物擴增連接有銜接子的片段，所述引物至少與部分所述銜接子互補。
13.如權利要求12所述的方法，其特征在于，所述引物還與限制性內(nèi)切酶識別序列剩余部分的至少一部分互補。
14.如權利要求13所述的方法，其特征在于，所述引物還包含位于引物3’端的一種或多種隨機選擇性核苷酸。
15.如權利要求13所述的方法，其特征在于，所述引物包含位于引物3’端的一種或多種相同隨機選擇性核苷酸以用于一種或多種樣品。
16.如前述權利要求中任一項所述的方法，其特征在于，所述測序基于高通量測序。
17.如權利要求13所述的方法，其特征在于，所述高通量測序基于焦磷酸測序，優(yōu)選在固體載體上。
18.如權利要求13所述的方法，其特征在于，所述高通量測序基于連接測序或納米孔測序。
【文檔編號】C12Q1/68GK103476946SQ201280005358
【公開日】2013年12月25日申請日期:2012年1月13日優(yōu)先權日:2011年1月14日
【發(fā)明者】M·J·T·范艾克申請人:關鍵基因股份有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：M·J·T·范艾克
技術所有人：關鍵基因股份有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.食品功能因子基因工程菌種的構(gòu)建、智能高通量進化篩選 2.發(fā)酵工藝優(yōu)化
2、馬老師：1.酶工程與生物催化 2.釀造技術與風味分析 3.生物質(zhì)資源綜合利用
3、林老師：1.釀造微生物育種及關鍵釀造工藝開發(fā) 2. 真菌基因功能及調(diào)控網(wǎng)絡解析 3.精細化學品、蛋白真菌細胞底盤開發(fā)
4、張老師：1.發(fā)酵食品安全：危害物相關基因的篩選，危害物產(chǎn)生菌的快速檢測，危害物的預警和發(fā)酵過程控制 2.真菌次級代謝與調(diào)控 3.釀造酒相關研究
5、郭老師：1.現(xiàn)代釀造技術與食品安全 2. 酵母生物學 3.生物基化學品與合成生物學
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于配對末端隨機序列的基因分型的制作方法