国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于確定單倍型和定相單倍型的方法和系統(tǒng)的制作方法

      文檔序號(hào):467432閱讀:541來源:國知局
      用于確定單倍型和定相單倍型的方法和系統(tǒng)的制作方法
      【專利摘要】本公開內(nèi)容提供了用于確定和/或表征核酸樣品中一種或更多種單倍型和/或定相(phasing)單倍型的方法和系統(tǒng)。特別地,本公開內(nèi)容提供了用于通過以下確定核酸樣品中的單倍型和/或定相單倍型的方法:摻入合成的多態(tài)性到核酸樣品的片段中并利用合成的多態(tài)性來確定一種或更多種單倍型和/或定相單倍型。
      【專利說明】用于確定單倍型和定相單倍型的方法和系統(tǒng)
      [0001] 本申請(qǐng)要求2012年7月18日提交的美國臨時(shí)專利申請(qǐng)序列號(hào)61/673,052的優(yōu) 先權(quán),其通過引用全文并入本文。
      [0002] 背景
      [0003] 人類基因組項(xiàng)目的成果為人類基因組打開了更寬的窗戶。進(jìn)一步解鎖人類基因組 的工作正在進(jìn)行。HapMap(單倍型繪圖(HaplotypeMap))項(xiàng)目是針對(duì)通過比較來自無特定 疾病的人們的基因組信息與帶有該疾病的那些基因組信息而發(fā)現(xiàn)導(dǎo)致疾病的遺傳變體的 世界科研工作(scientificeffort)。等位基因,是特定基因的DNA序列的一種或更多種 形式,可包含一種或更多種不同的遺傳變體。鑒定在特定染色體上不同位置或基因座處的 單倍型或等位基因的組合是HapMap項(xiàng)目的主要焦點(diǎn)。當(dāng)兩組不同時(shí),鑒定的單倍型可能與 導(dǎo)致疾病的遺傳異常的位置相關(guān)。如此,HapMap結(jié)果將有助于描述人類中遺傳變異的共同 模式以及這些變異是否潛在地與疾病相關(guān)。確定單倍型方面的研究成果將有助于闡釋人類 中遺傳變異的共同模式以及這些變異是否潛在地與特定疾病相關(guān)。事實(shí)上,許多研究者同 意,對(duì)基因組單倍分型在將遺傳變異與表型和疾病關(guān)聯(lián)方面如果不是必需的,也將是有利 的。另外,特定單倍型可與治療方案的成功或失敗關(guān)聯(lián),并且如此可用于輔助臨床醫(yī)師針對(duì) 特定個(gè)體作出可能在該個(gè)體中具有最高的疾病根治成功度的治療方案的決定。
      [0004] 然而,存在與對(duì)基因組單倍分型有關(guān)的許多技術(shù)挑戰(zhàn)。例如,下一代測(cè)序技術(shù)盡管 增加了測(cè)序工作的容量和準(zhǔn)確性,但在許多情形中產(chǎn)生短的序列讀段(read),例如數(shù)個(gè)商 業(yè)平臺(tái)目前輸出長度小于400核苷酸的讀段每片段。如果位于染色體上的兩種或更多種遺 傳變體間隔比序列讀段長度還遠(yuǎn),即使該讀段長度是數(shù)千堿基對(duì)長,界定單倍型如果不是 不可能的也可以是困難的。如此,需要允許單倍分型特別是對(duì)在染色體上間隔比其所被發(fā) 現(xiàn)的DNA段(apieceofDNA)的測(cè)序長度遠(yuǎn)的遺傳變體單倍分型的方法和組合物。
      [0005] 簡(jiǎn)要概述
      [0006] 與下一代測(cè)序關(guān)聯(lián)的測(cè)序技術(shù)可產(chǎn)生短序列讀段,從而使得當(dāng)感興趣的序列位于 染色體上間隔足夠遠(yuǎn),使得它們?cè)谛蛄凶x段的長度提供的窗口之外時(shí),難以確定基因組的 單倍型定相(phasing)。
      [0007] 本公開內(nèi)容提供了用于利用摻入核酸中的合成的多態(tài)性對(duì)基因組樣品單倍分型 和/或確定單倍型的定相的方法和組合物。如本文描述的,可修飾核酸片段以轉(zhuǎn)化天然核 苷酸為合成或人工多態(tài)性諸如單核苷酸多態(tài)性(SNP)或其他遺傳異常,從而在待測(cè)序的核 酸片段中產(chǎn)生工程化的多態(tài)性的模式。測(cè)序后,可在片段之間比對(duì)合成的多態(tài)性的模式且 單倍型可作為比對(duì)的結(jié)果被確定(例如,可確定單倍型含量或相)。以這種方式,即使用于 單倍分型的等位基因位于不同基因組片段上也可對(duì)衍生自基因組樣品的修飾的片段的群 體單倍分型。
      [0008] 本文提供的在核酸序列中產(chǎn)生人工多態(tài)性的方法和組合物在單倍型確定和表征 和/或單倍型定相中特別有用;然而它們還可以對(duì)其他目的是有益的。例如,本文描述的 方法還可用于幫助從頭序列(denovosequence)組裝。另外,幾乎相同的重復(fù)區(qū)域,例如 用于法醫(yī)DNA指紋印跡的重復(fù)核苷酸區(qū)域諸如短串聯(lián)重復(fù)序列(shorttandemrepeats)、 中度串聯(lián)重復(fù)序列(intermediatetandemrepeats)等,可通過人工引入的多態(tài)性的獨(dú)特 模式彼此區(qū)分,且因此實(shí)現(xiàn)更準(zhǔn)確的序列組裝。例如,對(duì)于法醫(yī)測(cè)序,如果重復(fù)區(qū)域足夠長 使得它們?cè)趩文┒嘶虺蓪?duì)末端的序列讀段中不能被完全測(cè)序,則確定核苷酸重復(fù)區(qū)域的長 度、混雜重復(fù)區(qū)域的順序、和/或重復(fù)序列(即,短串聯(lián)重復(fù)序列、中度串聯(lián)重復(fù)序列等)的 數(shù)目可使用本文方法進(jìn)行。
      [0009] 對(duì)單倍型確定和/或單倍型定相、從頭測(cè)序、法醫(yī)目的等實(shí)施本文公開的方法可 提供對(duì)例如疾病和治療方案相關(guān)性有用的關(guān)鍵信息。特別地,當(dāng)個(gè)體的單倍型不僅可與疾 病關(guān)聯(lián),還可與對(duì)特定個(gè)體的治療方案成功性等等關(guān)聯(lián)時(shí),單倍型及其相確定在個(gè)體化用 藥中可變得關(guān)鍵。
      [0010] 在一個(gè)實(shí)施方案中,本公開內(nèi)容提供一種確定核酸樣品序列的方法,包括提供 第一長度的多個(gè)核酸片段,所述核酸片段被修飾以包含多個(gè)合成的多態(tài)性;制備包含第 二長度的包含多個(gè)合成的多態(tài)性的第二多個(gè)核酸片段的核酸文庫,所述第二長度小于來 自所述第一多個(gè)核酸片段的片段的所述第一長度(preparinganucleicacidlibrary comprisingasecondpluralityoffragmentsofnucleicacidsofasecondlength lessthanthatofthefirstlengthoffragmentsfromsaidfirstpluralityof nucleicacidfragmentscomprisingapluralityofsyntheticpolymorphisms);測(cè) 序所述核酸文庫;和比對(duì)測(cè)序的片段之間的所述多個(gè)合成的多態(tài)性以基于所述比對(duì)確定所 述核酸樣品的序列。在一些情形中,合成的多態(tài)性是在特定位置代替天然核苷酸的多個(gè)修 飾的核苷酸,且所述修飾的核苷酸選自由以下組成的組:8_氧鳥嘌呤、dPTP、異胞嘧啶和異 鳥嘌呤。在其他情形中,對(duì)核酸的修飾包括所述多個(gè)核酸片段中胞嘧啶的部分和不完全亞 硫酸氫鹽轉(zhuǎn)化。在一些情形中,合成的多態(tài)性比對(duì)包括將第一核酸片段序列中合成的多態(tài) 性的模式與第二核酸片段序列中合成的多態(tài)性的相似模式匹配(即,通過計(jì)算機(jī)實(shí)現(xiàn)的方 法),并以多個(gè)核酸片段序列重復(fù)所述匹配,從而基于多個(gè)核酸片段中多個(gè)合成的多態(tài)性產(chǎn) 生序列比對(duì)。在一些情形中,核酸文庫利用選自由以下組成的組的方法來測(cè)序:合成測(cè)序、 雜交測(cè)序、連接測(cè)序、單分子測(cè)序、納米孔測(cè)序、焦磷酸測(cè)序和聚合酶鏈?zhǔn)椒磻?yīng)。在一些情形 中,序列通過熒光檢測(cè)確定。在優(yōu)選的情形中,確定的序列包括一種或更多種單倍型并還包 括確定核酸樣品中兩種或更多種單倍型的相。通常,用于定相的單倍型位于不同的測(cè)序片 段上。以上公開的方法還可用于從頭測(cè)序。
      [0011] 在另一個(gè)實(shí)施方案中,本申請(qǐng)公開了用于表征核酸樣品的一種或更多種單倍型的 方法,包括提供片段化的核酸的集合(pool);在所述集合的片段化的核酸中引入多個(gè)合成 的多態(tài)性諸如單核苷酸多態(tài)性以產(chǎn)生包含多個(gè)合成的多態(tài)性的片段;制備長度比原始集合 的片段短的包含多個(gè)修飾的核酸的核酸片段的文庫(preparingalibraryofnucleic acidfragmentsthatareshorterinlengththantheoriginalpooloffragments comprisingapluralityofmodifiednucleicacids);測(cè)序文庫中的核酸片段;比對(duì)測(cè) 序的核酸片段的合成的多態(tài)性;和從測(cè)序的片段的比對(duì)的合成的多態(tài)性表征所述核酸樣品 的一種或更多種單倍型。在一些情形中,多個(gè)合成的單核苷酸多態(tài)性在摻入的位點(diǎn)代替天 然核苷酸并包含多個(gè)修飾的核苷酸。在一些情形中,修飾的核苷酸選自由以下組成的組: 8_氧鳥嘌呤、異胞嘧啶、異鳥嘌呤和dPTP。在一些情形中,合成的多態(tài)性的引入通過核酸片 段中胞嘧啶的部分和不完全亞硫酸氫鹽轉(zhuǎn)化來實(shí)現(xiàn)。在一些情形中,合成的多態(tài)性通過以 下比對(duì):將第一核酸片段序列中合成的多態(tài)性的模式與第二核酸片段序列中合成的多態(tài)性 的相似模式匹配(即,通過計(jì)算機(jī)實(shí)現(xiàn)的程序),并在多個(gè)核酸片段序列中重復(fù)所述匹配, 從而從所測(cè)序的核酸片段中合成的多態(tài)性產(chǎn)生序列比對(duì)。在一些情形中,測(cè)序通過合成測(cè) 序、雜交測(cè)序、連接測(cè)序、單分子測(cè)序、納米孔測(cè)序、焦磷酸測(cè)序和聚合酶鏈?zhǔn)椒磻?yīng)方法之一 進(jìn)行。在一些情形中,序列通過熒光檢測(cè)確定。在一些情形中,序列用于確定核酸樣品中兩 種或更多種單倍型的相。通常,用于定相的單倍型位于不同的測(cè)序片段上。在其他情形中, 以上描述的方法可用于從頭測(cè)序。
      [0012] 在另一個(gè)實(shí)施方案中,本公開內(nèi)容描述了用于鑒定核酸樣品的一種或更多種單 倍型的方法,包括提供具有多個(gè)核苷酸的核酸分子;修飾核酸分子中的多個(gè)核苷酸,從而 產(chǎn)生包含天然核苷酸和修飾的核苷酸的修飾的核酸分子;擴(kuò)增修飾的核酸分子以產(chǎn)生第 一長度的多個(gè)修飾的核酸拷貝;在產(chǎn)生第二長度的核酸片段的文庫的條件下片段化擴(kuò)增 的修飾的核酸拷貝,其中文庫中的個(gè)體核酸片段具有與文庫中至少一個(gè)其他核酸片段序 列重疊的區(qū)域(regionofsequenceoverlap)且其中序列重疊的區(qū)域包括至少一個(gè)修 飾的核苷酸;確定文庫的核酸片段的序列;和通過序列重疊的區(qū)域中修飾的核苷酸的位置 比對(duì)核酸片段的序列以鑒定核酸分子的一種或更多種單倍型(aligningthesequence ofnucleicacidfragmentsbythelocationsofthemodifiednucleotidesinthe regionsofsequenceoverlaptoidentifyoneormorehaplotypesofthenucleic acidmolecule)。在一些情形中,核酸分子包括沿著序列長度的數(shù)個(gè)不同核苷酸類型且在 修飾的核酸中核苷酸類型的一種類型可被修飾或在修飾的核酸中一種類型的所有核苷酸 可被修飾。在一些情形中,在修飾的核酸中僅一種類型的核苷酸的亞組被修飾。在一些情 形中,用于鑒定單倍型的方法還包括確定核酸分子中至少兩種單倍型的相。通常,用于定相 的單倍型位于不同的測(cè)序片段上。在一些情形中,對(duì)于單倍分型,核酸分子包含沿著序列長 度的數(shù)個(gè)不同核苷酸類型,其中至少兩種單倍型對(duì)所述核苷酸類型的兩種是雙等位基因的 (bi-allelicfortwoofthenucleotidetypes),且其中在修飾的核酸中第三核苷酸類 型被修飾。在其他情形中,至少兩種單倍型對(duì)選自由以下組成的組的核苷酸類型是雙等位 基因的:A、T和G,且其中在修飾的核酸中C被修飾為U。在其他情形中,至少兩種單倍型對(duì) T和G是雙等位基因的,且其中在修飾的核酸中C被修飾為U。在另外的實(shí)施方案中,至少 兩種單倍型對(duì)選自由以下組成的組的核苷酸類型是雙等位基因的:A、T和C,且其中在修飾 的核酸中G被修飾為8-oxo-G。在其他情形中,至少兩種單倍型對(duì)C和T是雙等位基因的, 且另外,修飾的核酸中G被修飾為8-oxo-G。

      【專利附圖】

      【附圖說明】
      [0013] 圖1顯示摻入修飾的核苷酸8-氧鳥嘌呤(8-oxoG)到DNA中從而轉(zhuǎn)化序列中的 天然核苷酸為序列中的合成的多態(tài)性的實(shí)施方案。
      [0014] 圖2顯示通過部分亞硫酸氫鈉轉(zhuǎn)化DNA中的胞嘧啶為尿嘧啶來摻入合成的多態(tài)性 到多核苷酸中的實(shí)施方案。
      [0015] 圖3描繪通過摻入修飾的核苷酸異胞嘧啶和異鳥嘌呤到DNA中代替天然核苷酸來 摻入合成的多態(tài)性到多核苷酸中的實(shí)施方案。
      [0016] 圖4展示了其中靶DNA包含利用亞硫酸氫鈉轉(zhuǎn)化方法產(chǎn)生的人工多態(tài)性的實(shí)施方 案。A)等位基因1上天然存在的SNP(加粗和加大的)G和C以及B)等位基因2上天然存 在的SNP(加粗和加大的)T和A被大于典型插入片段(insert)文庫尺寸的距離分隔并因 此SNP定相是不可確定的,而可通過部分亞硫酸氫鹽轉(zhuǎn)化被摻入核酸的人工C至T多態(tài)性 可用于比對(duì)測(cè)序片段,從而可對(duì)兩個(gè)等位基因確定單倍型。
      [0017] 圖5顯示單倍型重構(gòu)的實(shí)例。摻入的人工SNP被描繪為線性DNA片段等位基因1 和等位基因2上的垂直線。將DNA片段化、測(cè)序并基于摻入的合成的SNP的獨(dú)特模式比對(duì) 測(cè)序讀段(來自圖4的等位基因2在該圖中被描繪)。重疊片段中人工SNP的比對(duì)允許重 建原始基因組片段序列且可確定等位基因2的單倍型的重構(gòu)。
      [0018] 圖6顯示"第一鏈延伸反應(yīng)"的實(shí)施方案如何可用于摻入合成的多態(tài)性到DNA靶 中的實(shí)例。
      [0019] 圖7顯示摻入流動(dòng)池(flowcell)泳道1、2、3和4的phiX模板DNA延伸產(chǎn)物中的 修飾的核苷酸的百分比(%錯(cuò)誤率)的測(cè)序數(shù)據(jù)。
      [0020] 圖8顯示phiX測(cè)序讀段百分比對(duì)具有0、〈1、〈2、〈3或〈4個(gè)摻入的修飾的核苷酸 的循環(huán)的測(cè)序數(shù)據(jù)。Y軸是具有X個(gè)錯(cuò)誤或更少的讀段%,0-100 %,X軸是循環(huán)數(shù)0-100。
      [0021] 圖9顯示在第一鏈延伸期間引入每個(gè)流動(dòng)池泳道的phiX模板DNA的合成的多態(tài) 性的類型和頻率(錯(cuò)誤率)的復(fù)合(composite)。
      [0022] 圖10A-D代表引入phiX模板DNA的人工多態(tài)性的分布或覆蓋。
      [0023] 圖11顯示代表三個(gè)克隆圖A)克隆A、圖B)克隆B和圖C)克隆D的測(cè)序數(shù)據(jù)的覆 蓋圖(coverageplot)。圖代表摻入來源于Yoruban男性(NA18507)的DNA的p53基因序 列的合成的和天然雜合SNP的覆蓋和位置。每個(gè)圖都報(bào)告了每個(gè)克隆的p53基因的近似相 同區(qū)域中的序列且星號(hào)標(biāo)出隨機(jī)分布的引入的合成的SNP之間天然雜合SNP的近似位置。 具有峰的上方水平線代表參考調(diào)用(referencecall),且具有水平線下的垂直峰的連續(xù)基 線代表非參考調(diào)用。
      [0024] 詳述
      [0025] 確定基因組中一起遺傳的緊密連鎖的等位基因的組,或單倍分型的能力,可有助 于繪制人類疾病基因的圖譜。疾病圖譜可用于對(duì)患者診斷、預(yù)后和/或鑒定疾病或疾病的 風(fēng)險(xiǎn)以及確定任何一個(gè)人特有的潛在治療療法。這是個(gè)體化醫(yī)療的目標(biāo)之一。然而,這也 適用于植物和動(dòng)物物種,例如經(jīng)濟(jì)上有關(guān)的植物和動(dòng)物物種,其中序列知識(shí)諸如單倍分型 在獸醫(yī)和植物科學(xué)中也可有利地使用。如此,確定單倍型和/或定相單倍型從生物和臨床 二者的角度來講是重要的。測(cè)序樣品提供了序列信息,研究者可以以此開始以解開和確定 此類相關(guān)性。
      [0026] 如本文使用的,術(shù)語"單倍型"是指單倍體基因型,見于染色體上不同位置或基因 座處的等位基因或DNA序列的組合或組,其例如在重組事件過程中通常作為單元遺傳并是 連鎖的。單倍型可提供個(gè)體的獨(dú)特的遺傳模式。單倍型可對(duì)一個(gè)基因座、數(shù)個(gè)基因座、跨染 色體的部分或?qū)φ麄€(gè)染色體確定。術(shù)語"等位基因"與其在生物學(xué)領(lǐng)域中的含義一致地使 用。等位基因是見于染色體上特定位置、或基因座處的基因、遺傳序列或單核苷酸(例如, 單核苷酸多態(tài)性或SNP)的一種或更多種替代形式。術(shù)語"基因座"與其在生物學(xué)領(lǐng)域中的 含義一致地使用?;蜃╨ocus)(復(fù)數(shù)形式"基因座(loci)")是指染色體上鑒定具有 基因、遺傳序列或單核苷酸的特定位置或地方。如此,例如,對(duì)于特定基因的一種或更多種 等位基因,可見于染色體上特定基因座處。不同的基因可被鑒定具有染色體上不同的基因 座,其中每個(gè)基因,例如,可與一種或更多種不同的等位基因序列關(guān)聯(lián)。等位基因不限于任 何特定類型并可包括,例如正常遺傳序列或變異遺傳序列。例如,單核苷酸多態(tài)性(SNP)、 短串聯(lián)重復(fù)序列(STR)等可被包括作為變體和遺傳序列。術(shù)語"定相的等位基因(phased alleles)"是指特定等位基因在染色體上的分布。因此兩個(gè)等位基因的"相(phase)"可 以是指等位基因是位于單個(gè)染色體或是兩個(gè)分別的染色體(例如,母系或父系遺傳的染色 體)的表征或確定。
      [0027] 盡管測(cè)序技術(shù)可產(chǎn)生非常大數(shù)目的序列讀段,讀段長度可相對(duì)短。盡管下一代測(cè) 序技術(shù)可增加測(cè)序的準(zhǔn)確度并可用于調(diào)用變體,當(dāng)期望相或單倍型信息時(shí)該技術(shù)可具有有 限的用途。此前,來源于短序列讀段的定相信息非常難以確定,除非感興趣的兩個(gè)多態(tài)性彼 此如此接近以致它們存在于DNA的同一測(cè)序片段上,或可能處于以下情形:其中一個(gè)多態(tài) 性從第一序列讀段被確定存在且第二多態(tài)性在同一對(duì)核酸片段的第二序列讀段中被檢測(cè) 至IJ。由第二種情形導(dǎo)致的情況被認(rèn)為是罕見的,因?yàn)槿祟惢蚪M平均每1〇〇〇個(gè)核苷酸具有 一個(gè)多態(tài)性。如此,包含多態(tài)性的特定讀段的概率可以是大約15% (序列讀段長度/多態(tài) 性頻率為每1000個(gè)核苷酸一個(gè)多態(tài)性)。屬于各具有一個(gè)多態(tài)性的一對(duì)序列的兩個(gè)讀段 的合并概率是單獨(dú)概率的乘積(15%X15%)。因此預(yù)期,片段讀段對(duì)的小亞組,例如大約 2. 25%的短片段讀段對(duì),可包含形成單倍型的兩個(gè)變體序列。當(dāng)考慮到典型測(cè)序文庫的平 均插入片段尺寸分布時(shí)這進(jìn)一步復(fù)雜化,例如為下一代測(cè)序技術(shù)產(chǎn)生的文庫范圍可從大約 <50bp(例如,Life Technologies SOLiD測(cè)序以伴侶配對(duì)測(cè)序(mate paired sequencing)) 至大約〈400bp(例如,454 Life Sciences GS FLX Titanium測(cè)序)。如此,如果兩個(gè)多態(tài) 性處于彼此例如>400bp的距離,被來源于文庫的成對(duì)讀段連鎖的可能性幾乎是零。對(duì)于長 于400bp的讀段也是這樣,因?yàn)榧僭O(shè)測(cè)序讀段的長度在未來可增加,然而公開的方法仍將 適用,因?yàn)槿绻麅蓚€(gè)多態(tài)性處于比序列讀段大的距離,本方法可用于從位于不同讀段上的 多態(tài)性確定單倍型。
      [0028] 本公開內(nèi)容提供了表征基因組單倍型(例如,單倍型含量或相)的解決方案,其當(dāng) 處理短讀段長度序列信息時(shí)特別有用。本公開內(nèi)容提供了使得能夠從序列信息,特別是當(dāng) 感興趣的等位基因位于不同測(cè)序核酸片段上時(shí)進(jìn)行單倍型表征的方法和組合物。
      [0029] 本文的實(shí)施方案公開了用于產(chǎn)生"人工多態(tài)性"或"合成的多態(tài)性"諸如人工或合 成的單核苷酸多態(tài)性或"人工SNP"( "合成的SNP")的方法,其可在測(cè)序之前諸如通過用修 飾的核苷酸代替天然核苷酸,或通過經(jīng)由亞硫酸氫鹽轉(zhuǎn)化將一個(gè)核苷酸轉(zhuǎn)化為另一個(gè)被摻 入核酸中。如本文使用的,除非另外指明,術(shù)語"合成的多態(tài)性"或"人工多態(tài)性"是同義的。 合成的或人工多態(tài)性代表核酸樣品中并非核酸樣品天然存在的,而是通過方法手段摻入核 酸樣品中的序列。合成的多態(tài)性可被插入基因組序列中,或合成的多態(tài)性可代替核酸樣品 的序列。合成的多態(tài)性的實(shí)例包括但不限于,單核苷酸多態(tài)性(即,人工或合成的SNP)、二 核苷酸多態(tài)性、核酸(例如,一個(gè)或更多個(gè)核酸等)的插入和核酸(例如,一個(gè)或更多個(gè)核 酸等)的缺失。用于摻入天然核酸或多核苷酸樣品中的人工序列包括修飾的核苷酸,包括 但不限于,2-硫代胸苷三磷酸、5-(2' -脫氧-D-呋喃核糖基)-3_甲基-2-吡啶酮-5'三 磷酸、8-氧鳥嘌呤(8-羥基鳥嘌呤、8-氧-7, 8-二氫鳥嘌呤或2-氨基-7, 9-二氫-1H-嘌 呤-6, 8-二酮)、8_氧-2' -脫氧鳥苷-5' -三磷酸、2' -脫氧-P-核苷-5'三磷酸(dPTP)、 d5mCTP例如,m7G(5')ppp(5');Pl-5'-(7-甲基)-鳥苷-P3-5"-鳥苷三磷酸、甲基 5-dCTP、 羥甲基dCTP、異胞嘧啶、異鳥嘌呤、及其衍生物,諸如此類。
      [0030] 人工或合成的多態(tài)性可例如以一定頻率摻入,使得它們甚至從短序列讀段或讀段 對(duì)可被比對(duì)和定相。在一個(gè)實(shí)施方案中,用于在核酸鏈中產(chǎn)生人工多態(tài)性的方法包括在核 酸鏈中摻入多個(gè)核酸類似物,例如鳥嘌呤類似物諸如8-氧鳥嘌呤(8-oxoG)。通常見于哺 乳動(dòng)物DNA中的修飾的核苷酸8-氧鳥嘌呤(8-羥基鳥嘌呤、8-氧-7, 8-二氫鳥嘌呤或2-氨 基_7,9_二氫-1H-嘌呤_6,8_二酮(IUPAC))的量在DNA中增加,例如由于由氧自由基物質(zhì) 和/或電離福射導(dǎo)致的氧化損傷而被損害(1992,〇161^等,】13;[01016111267:166-172,通 過引用全文并入本文)。在復(fù)制期間,8-oxoG可經(jīng)由Hoogsteen堿基配對(duì)與胞啼陡(C)和 /或腺嘌呤(A)堿基配對(duì)(LePage等,NuclAcidsRes, 1998, 26:1276-1281,通過引用全文 并入本文)。8-oxoG(例如,通過在8-0x0-2' -脫氧鳥苷-5' -三磷酸或80xodGTP的延伸 反應(yīng)期間摻入)可通過多種手段摻入多核苷酸,例如通過電離輻射或氧化脅迫細(xì)胞DNA的 另一方式??蛇x地,修飾的核苷酸可被加入dNTP混合物,且在多核苷酸的一條或兩條鏈的 延伸反應(yīng)期間,可被摻入延伸的DNA鏈,從而以一定頻率代替正常摻入的非修飾的核苷酸。 摻入8-oxoG到多核苷酸鏈中之后,可通過DNA復(fù)制步驟期間親本鏈中8-oxoG相對(duì)復(fù)制 鏈中的腺嘌呤的配對(duì)實(shí)現(xiàn)腺嘌呤錯(cuò)配。
      [0031] 在一個(gè)實(shí)施方案中,8-oxoG可在用于測(cè)序的文庫制備之前摻入多核苷酸。例如, 基因組DNA樣品可被片段化,片段末端被修復(fù),腺嘌呤經(jīng)由A-加尾被添加至末端且引物接 頭被添加至末端用于復(fù)制和擴(kuò)增,例如。在片段復(fù)制期間,SOxodGTP可與規(guī)范的dNTP混合 物(dATP、dTTP、dGTP和dCTP) -起被加入,這將導(dǎo)致DNA片段中多個(gè)8-oxoG鳥嘌呤類似 物以隨機(jī)方式代替多個(gè)鳥嘌呤。80xodGTP的百分比可由經(jīng)驗(yàn)確定。在一些實(shí)施方案中, SOxodGTP的百分比是片段復(fù)制期間可用于摻入的鳥嘌呤(例如,作為dGTP的代替)的至 少10 %、至少20 %、至少30 %、至少30 %、至少50 %、至少60 %、至少70 %、至少80 %、至少 90%或至少100%。鳥嘌呤類似物與規(guī)范的dGTP相比的百分比以及因此的比例可針對(duì)使用 者期望的代替的量由經(jīng)驗(yàn)確定。將理解的是,例如為了引入人工SNP,對(duì)于使用本文列出的 方法和組合物摻入核酸的其他核苷酸(或修飾的核苷酸)可使用相似的百分比或比例。繼 續(xù)進(jìn)行8-oxoG的實(shí)例,包含8-oxoG的基因組片段隨后可與缺少8-oxoG的那些片段分 離。包含8-oxoG的片段的分離可以通過任何手段進(jìn)行。例如,復(fù)制期間使用的引物可與 結(jié)合用于分離目的的結(jié)合伴侶的結(jié)合分子復(fù)合。這樣的結(jié)合伴侶對(duì)包括但不限于,半抗原、 小分子、染料和抗體,諸如例如生物素/鏈霉親和素、生物素/抗生物素蛋白、生物素/中性 親和素、DNP/抗DNP、DIG/抗DIG等。包含8-oxoG的DNA的分離還可通過用8-oxoG特 異性抗體諸如氧鳥嘌呤8抗體[2Q2311] (ab64548,來自AbCam)捕獲來分離。包含8-oxoG 的DNA還可通過變性和洗滌或例如用甲酰胺基嘧啶DNA糖基化酶(Fpg)(還稱為8-氧鳥嘌 呤DNA糖基化酶,NEB)消化從下游單倍分型方法中消除。
      [0032] 圖1示例了在用于摻入合成的多態(tài)性到基因組DNA中的方法中使用80xodGTP的 實(shí)施方案。在圖1中,基因組DNA可被隨機(jī)片段化為大片段。原始大片段的尺寸可以是至 少 500bp、至少 750bp、至少lOOObp、至少 1500bp、至少 2000bp、至少 3000bp、至少 4000bp、至 少5000bp。原始片段的尺寸可由經(jīng)驗(yàn)確定并可在具有不同頻率的鳥嘌呤的基因組的不同區(qū) 域之間變化,不同頻率的鳥嘌呤將影響下游鳥嘌呤類似物摻入的量。片段化可以通過任何 手段,例如聲處理、水剪切、霧化、機(jī)械剪切和轉(zhuǎn)座子方法等。片段可被末端修復(fù)、加A尾和 接頭連接。核苷酸8-oxoG可通過引物延伸和包含80xodGTP的dNTP混合物被摻入基因組 片段的鏈中。用于DNA延伸和修飾的核苷酸摻入的引物可與生物素復(fù)合,隨后生物素可被 鏈霉親和素分子捕獲用于分離包含8- 〇X〇G的鏈。捕獲的包含8-〇X〇G的模板可被復(fù)制, 產(chǎn)生8-oxoG與腺嘌呤的錯(cuò)配,從而產(chǎn)生雙鏈DNA分子,其中模板包含鳥嘌呤類似物且拷貝 鏈包含錯(cuò)配的腺嘌呤。為了除去包含8-〇X〇G的鏈,從而留下包含腺嘌呤的鏈,用于第二鏈 復(fù)制的引物可附著于捕獲部分諸如生物素并可進(jìn)行被鏈霉親和素的捕獲。
      [0033] 剩余的包含腺嘌呤的多核苷酸可被進(jìn)一步擴(kuò)增和加工以產(chǎn)生片段的文庫用于測(cè) 序。片段中產(chǎn)生的合成的腺嘌呤SNP是隨機(jī)的,且由于鳥嘌呤被8-oxoG取代的隨機(jī)性,弓丨 入的合成的SNP的模式可用于獨(dú)特地鑒定親本片段。測(cè)序后,人工SNP模式可在所有片段 之間被比對(duì),從而以原始基因組順序組合片段序列用于單倍型確定,諸如確定單倍型含量 或相。
      [0034] 在另一個(gè)實(shí)施方案中,用于在基因組DNA中引入人工多態(tài)性用于測(cè)序的方法包括 用亞硫酸氫鹽修飾DNA,從而產(chǎn)生人工多態(tài)性的模式。在一個(gè)實(shí)例中,向核酸樣品應(yīng)用低濃 度的亞硫酸氫鹽或持續(xù)短時(shí)間段應(yīng)用亞硫酸氫鹽,可通過不完全和部分轉(zhuǎn)化未甲基化的胞 嘧啶殘基的亞組為尿嘧啶并其后轉(zhuǎn)化尿嘧啶為胸腺嘧啶,以在基因組DNA的多個(gè)位置處產(chǎn) 生人工胸腺嘧啶多態(tài)性來修飾DNA。當(dāng)用亞硫酸氫鹽處理哺乳動(dòng)物DNA時(shí),甲基化的胞嘧啶 (例如,5-甲基胞嘧啶)保持不變而未甲基化的胞嘧啶殘基被轉(zhuǎn)化為尿嘧啶。因此,通過利 用基因組DNA樣品的甲基化狀態(tài)并用亞硫酸氫鹽處理基因組DNA,可產(chǎn)生人工TSNP(C至U 至T)的模式,其可在測(cè)序后的片段之間比對(duì)以重構(gòu)基因組DNA染色體序列用于隨后的單倍 型表征(例如,單倍型含量或相的鑒定)。在優(yōu)選的實(shí)施方案中,當(dāng)實(shí)施本文公開的方法用 于產(chǎn)生多核苷酸中合成的多態(tài)性的模式時(shí),甲基化胞嘧啶殘基的部分和不完全轉(zhuǎn)化是優(yōu)選 的。
      [0035] 可以是部分亞硫酸氫鹽轉(zhuǎn)化的靶的天然胞嘧啶序列構(gòu)型的實(shí)例包括但不限于 CG甲基化二核苷酸(1994,Clark等,NuclAcidsRes22:2990-2997,通過引用全文并入 本文)、CpT和CpA二核苷酸區(qū)域(2000,Lyko等,Nature408:538-540 ;2000,Ramsahoye 等,ProcNatAcadSci97:5237-5242 ;2001,Haines等,DevBiol240:585-598,通過引 用全文并入本文)、和干細(xì)胞中的CHG和CHH,其中H可以是腺嘌呤(A)、胞嘧啶(C)或胸腺 嘧啶(T) (2009,Lister等,Nature462:315-322,通過引用全文并入本文)。
      [0036] 可利用擴(kuò)增步驟以在文庫制備之前產(chǎn)生帶有新整合的人工SNP的各親本片段的 多個(gè)拷貝。如此,見于母系和父系染色體上的甲基化模式之間的差異可按照本文公開的方 法來研究。
      [0037] 在其他實(shí)施方案中,DNA可被體外修飾以包括甲基化的核苷酸(例如,為非天然 甲基化核苷酸的修飾的核苷酸)。例如,甲基化的核苷酸可通過在規(guī)范的dNTP存在下的擴(kuò) 增,諸如核酸的擴(kuò)增被摻入多核苷酸中的多個(gè)位置,其中dNTP之一全部、優(yōu)先地部分被包 括但不限于以下的甲基化的dNTP代替:d5mCTP、m7G(5')ppp(5');Pl-5' -(7-甲基)-鳥 昔-P3-5"-鳥昔三憐酸(RocheAppliedScience)、甲基5_dCTP(ZymoResearch)、或輕甲基 dCTP(Bioline)。另外,在規(guī)范的dNTP的背景中,甲基化的dNTP可被間插入(spikeinto) 擴(kuò)增反應(yīng)。然后,如本文描述的,可對(duì)體外修飾的DNA進(jìn)行部分亞硫酸氫鹽轉(zhuǎn)化用于在核酸 樣品中產(chǎn)生合成的多態(tài)性的模式。
      [0038] 使用基因組DNA樣品的天然甲基化狀態(tài)以產(chǎn)生人工SNP用于單倍分型和/或單 倍型定相確定在圖2中示例。在圖2中,將基因組DNA如以上所述的片段化,并利用本 領(lǐng)域已知方法將片段末端修復(fù)和加A尾(例如參見MolecularCloning;ALaboratory Manual,Eds.Sambrook,Fritsch和Maniatus,ColdSpringHarborLaboratoryPress),如 此前在圖1中示例的??蓪⒅苽涞幕蚪M片段連接于接頭用于隨后的片段擴(kuò)增。用于與亞 硫酸氫鹽轉(zhuǎn)化方法一起使用以產(chǎn)生人工SNP的接頭可被設(shè)計(jì)使得它們?cè)趤喠蛩釟潲}處理 后是可延伸的和可擴(kuò)增的。例如,接頭可被預(yù)甲基化(即,甲基化接頭),或接頭可被設(shè)計(jì)為 當(dāng)引物結(jié)合發(fā)生時(shí)缺少胞嘧啶核苷酸。接頭連接的片段可在文庫制備之前使用dTTP代替 尿嘧啶來擴(kuò)增和拷貝。在文庫制備和測(cè)序后,片段化的序列中的人工SNP模式可被比對(duì)以 重構(gòu)原始基因組DNA,其然后可被單倍分型。胞嘧啶通過亞硫酸氫鹽轉(zhuǎn)化的部分轉(zhuǎn)化在片 段中產(chǎn)生合成的SNP,其中由于轉(zhuǎn)化的隨機(jī)性,合成的SNP的模式可用于獨(dú)特地鑒定親本片 段。
      [0039] 可選地,在一些實(shí)施方案中,胞嘧啶向尿嘧啶的部分轉(zhuǎn)化可在基因組DNA片段化 和/或接頭連接之前進(jìn)行,在這種情形中,連接的接頭不需要被甲基化或另外設(shè)計(jì)以抵抗 對(duì)胞嘧啶的亞硫酸氫鹽處理。
      [0040] 在另一個(gè)實(shí)施方案中,用于確定基因組序列的單倍型的方法包括使用修飾的核苷 酸諸如isoC和isoG。異胞嘧啶(isoC,iC)和異鳥嘌呤(isoG,iG),是與標(biāo)準(zhǔn)胞嘧啶和鳥 嘌呤核苷酸相比具有倒置的胺和酮基團(tuán)的修飾的核苷酸,可被錯(cuò)摻入DNA鏈,產(chǎn)生人工多 態(tài)性的隨機(jī)放置。在isoC和isoG的情形中,產(chǎn)生的多態(tài)性可在隨后的步驟中利用正確的 互補(bǔ)的非天然伴侶拷貝或測(cè)序。在這一實(shí)施方案中,在最初DNA復(fù)制步驟中錯(cuò)摻入isoC和 isoG并改變條件用于隨后的擴(kuò)增步驟(即,諸如文庫制備方法中使用的那些)以最小化或 優(yōu)先終止進(jìn)一步的錯(cuò)慘入(2005,Sismour和Benner,NuclAcidsRes33:5640-5646,通過 引用全文并入本文)以忠實(shí)復(fù)制新形成的人工多態(tài)性是有利的。
      [0041] 圖3是用于在DNA中產(chǎn)生人工多態(tài)性的方法中使用修飾的核苷酸的示例。例如, 可將基因組DNA如前所述地片段化??蓪⒔宇^如前所述地連接于隨機(jī)片段的末端。示例 性天然存在的SNPA和T被描繪在片段之一上;這些SNP被靶向作為單倍分型的實(shí)例。在 延伸期間,修飾的核苷酸,在這一實(shí)例中是iC,可被摻入延伸的鏈,其被附著于延伸引物的 結(jié)合部分進(jìn)一步末端標(biāo)記,所述結(jié)合部分在這一實(shí)例中是生物素。修飾的核苷酸脫氧異胞 嘧啶diCTP可以是延伸dNTP混合物中以界定的比例或百分比計(jì)的部分。這樣的比例或百 分比可針對(duì)研究者期望的合成的多態(tài)性摻入的量由經(jīng)驗(yàn)確定。包含修飾的核苷酸的鏈可 以用結(jié)合伴侶捕獲,所述結(jié)合伴侶在這一情形中是鏈霉親和素,且隨后的鏈加倍(strand duplication)可摻入伴侶到修飾的核苷酸,所述伴侶在這一1清形中是如針對(duì)iC描述的iG。 可擴(kuò)增在一條鏈上包含iC且在另一條鏈上包含iG的雙鏈片段,從而產(chǎn)生含兩種修飾的核 苷酸的多個(gè)片段,用于在文庫制備中使用。
      [0042] 在另一個(gè)實(shí)施方案中,合成的多態(tài)性可替代地被摻入片段文庫制備下游的基因組 文庫片段。例如,基因組文庫產(chǎn)生后(通過本領(lǐng)域技術(shù)人員已知的任何手段,例如如本文討 論的),合成的多態(tài)性可在文庫制備和測(cè)序之間的步驟被摻入。在一個(gè)非限制性實(shí)例中,合 成的多態(tài)性可在集落形成期間、合成測(cè)序方法之前被摻入。在這一情形中,DNA文庫可與附 著在基質(zhì)上的引物雜交且第一鏈延伸反應(yīng)可被用于摻入修飾的核苷酸到片段文庫中。這一 "第一鏈延伸反應(yīng)"格式在圖6中示例。簡(jiǎn)要地,與附著于DNA文庫片段末端的引物同源的 兩個(gè)引物(P1和P2)被結(jié)合到基質(zhì)諸如流動(dòng)池(例如,流動(dòng)池上的泳道或孔)、孔、板、和類 似物上的位置。模板DNA文庫片段可與基質(zhì)結(jié)合的引物雜交且互補(bǔ)DNA鏈可在修飾的核苷 酸存在下合成(例如,圖6上的第1鏈延伸)??蛇M(jìn)行聚類、測(cè)序和比對(duì)來比對(duì)摻入的人工 多態(tài)性以提供可用于單倍型確定的序列。
      [0043] 對(duì)于本文描述的摻入人工多態(tài)性到基因組DNA中用于測(cè)序的所有實(shí)施方案,用于 測(cè)序的文庫可利用與下游測(cè)序儀器相容的方法制備。例如當(dāng)序列讀段的長度比用于單倍型 確定的兩個(gè)等位基因之間的距離短時(shí),片段的序列,在確定后,可基于片段中存在的合成的 SNP比對(duì),且單倍型可基于該比對(duì)構(gòu)建和確定。
      [0044] 圖4A和B中的第一序列顯示包含天然存在多態(tài)性的兩個(gè)示例性等位基因(等位 基因1和2),所述多態(tài)性在這一實(shí)例中是SNP,其被多于400個(gè)核苷酸分隔(等位基因1中 的G-C和等位基因2中的T-A)。由于這些SNP之間的距離大于用于測(cè)序的文庫制備方法的 平均插入片段尺寸,利用未修飾的核苷酸對(duì)兩個(gè)SNP的定相或單倍分型將是不可確定的。 圖4A和B中的第二序列顯示實(shí)踐本公開內(nèi)容的方法,例如實(shí)踐在測(cè)序之前部分亞硫酸氫鹽 轉(zhuǎn)化親本基因組片段的方法之后,來自示例性等位基因1和2的相同區(qū)域。兩個(gè)修飾的等 位基因序列展示了人工多態(tài)性的獨(dú)特模式的實(shí)例,其可通過如本文公開的亞硫酸氫鹽轉(zhuǎn)化 產(chǎn)生。
      [0045] 測(cè)序后,短長度序列讀段將基于人工多態(tài)性被比對(duì)以對(duì)每個(gè)等位基因再生獨(dú)特的 模式,從而重構(gòu)原始基因組DNA片段(圖5)。利用圖5中的等位基因2對(duì)兩個(gè)等位基因的 單倍型重構(gòu),在基于合成的多態(tài)性模式的片段比對(duì)之后確定。如此,在測(cè)序之前摻入合成 的多態(tài)性到核酸分子中允許獨(dú)特的合成模式,其隨后可在測(cè)序后在不同序列片段之間被比 對(duì),從而提供在天然存在的SNP之間的距離架橋的手段以確定其單倍型含量或相。
      [0046] 另外,本文公開的方法提供用于確定測(cè)序片段來源的手段。例如,人工多態(tài)性產(chǎn)生 的相對(duì)頻率及其隨機(jī)性質(zhì)使得能夠確定兩個(gè)DNA測(cè)序群體(例如,兩種或更多種DNA簇、來 源于一個(gè)模板的DNA擴(kuò)增子的分離群體等)是否來源于同一原始親本DNA分子。如果兩個(gè) 或更多個(gè)群體共有人工多態(tài)性的相同重疊模式,預(yù)期它們來源于同一染色體并且因此群體 中存在的所有天然SNP可以是單倍型或定相在一起。
      [0047] 因此,在靶基因組序列中產(chǎn)生人工多態(tài)性的方法可用于連鎖靶序列中天然存在的 SNP,所述人工多態(tài)性被設(shè)計(jì)為在靶基因組DNA中以比天然存在的SNP的頻率(或鄰近)高 的多的頻率(或更鄰近)出現(xiàn),而由于靶中天然存在的SNP之間的分隔距離相對(duì)于序列讀 段長度,此前這是不可能的。而且,如本文公開的在靶基因組DNA中產(chǎn)生人工多態(tài)性的實(shí) 施方案不要求被單倍分型的序列的現(xiàn)有知識(shí)。盡管人工多態(tài)性的產(chǎn)生的確根本地改變了 被評(píng)價(jià)的序列,通過與無人工多態(tài)性的第2文庫比較,或通過忽略人工位置并使用來自其 他片段的序列數(shù)據(jù)以覆蓋那些堿基(例如,如果人工多態(tài)性以覆蓋特定位置的片段的例如 5-10%存在,則其可被鑒定并忽略)從區(qū)域的最終共有序列除去人工多態(tài)性是可能的。 [0048]在另一個(gè)實(shí)施方案中,用于確定核酸樣品單倍型的方法包括通過偏倚擴(kuò)增摻入人 工多態(tài)性到核酸中。用于進(jìn)行偏倚擴(kuò)增的示例性方法可見于例如,W02011/106368 (通過引 用全文并入本文)。偏倚擴(kuò)增(即,增加多核苷酸的數(shù)目的過程,其可以是線性或指數(shù)的)可 包括擴(kuò)增靶序列,其中所述擴(kuò)增導(dǎo)致脫氧核糖核苷酸三磷酸(dNTP)以比另一個(gè)核苷酸低 的效率被摻入核酸鏈。該方法可使用dNTP的集合,其中并非所有的dNTP(即,dATP、dTTP、 dCTP、dGTP)在集合中都以相同濃度存在。核苷酸的集合還可包括修飾的核苷酸諸如此前 提到的那些,其比規(guī)范的核苷酸較不有效(或較少)地?fù)饺搿?br> [0049] 例如,在本文所列的方法中進(jìn)行的步驟諸如擴(kuò)增反應(yīng)步驟中,一種或更多種dNTP 可以以小于任何其他核苷酸的合并濃度的一半的濃度存在。任何一種類型的dNTP的濃度 可以是,例如,小于其他合并的核苷酸的濃度的1/4、小于其他合并的核苷酸的濃度的1/5、 小于其他合并的核苷酸的濃度1/10的等??蛇x地,與用于擴(kuò)增反應(yīng)的存在的其余dNTP的 濃度(例如,200uM)相比,擴(kuò)增反應(yīng)中特定類型的dNTP的濃度可以是小于20uM、小于10uM、 小于0. 2uM。可選地,本文所列組合物或方法中特定類型的dNTP的濃度可以比存在的其余 dNTP的濃度小至少5倍、小至少10倍、小至少20倍、小至少50倍。在這樣的偏倚混合物 中,可加入一種或更多種佐劑。例如,乙二醇、聚乙二醇、1,2-丙二醇、二甲基亞砜、甘油、甲 酰胺、7-脫氮-GTP、乙酰胺、四甲基氯化銨、羧甲基三甲基銨的鹽。一種或更多種佐劑的濃 度可以在例如,2至5M之間。本領(lǐng)域技術(shù)人員將理解,條件可在反應(yīng)之間變化;如此對(duì)任何 特定體系的一些優(yōu)化被預(yù)期到(例如,擴(kuò)增反應(yīng)條件可根據(jù)W02011/106368優(yōu)化,其通過引 用全文并入本文)。
      [0050] 出于多種原因,預(yù)期在文庫制備之前摻入如本文描述的合成的多態(tài)性到感興趣 的靶核酸中是有利的。例如,不論何種檢驗(yàn)儀器,用于如本文所述的摻入合成的多核苷酸 到核酸中的方法可聯(lián)合任何文庫制備方法進(jìn)行(例如,用于在測(cè)序儀器中使用的文庫制備 方案包括但不限于,Illumina, Inc.、AppliedBiosystems?、IonTorrent?、454 Life Sciences>Complete Genomics、Pacific Biosciences、0xford Nanopore Technology等的 那些)。另外,在文庫制備方案上游實(shí)踐本文描述的方法允許合成的多態(tài)性在文庫制備之前 被固定且可確定。另外,實(shí)踐本文描述的方法提供了將基因組DNA最初片段化為較長片段, 例如多于l〇〇bp、多于300bp、多于500bp、多于1000bp、多于2000bp、多于10, 000bp等。盡 管對(duì)于下一代測(cè)序通常不是有利的,較長片段比較短片段(例如,<300bp)允許摻入更多合 成的多態(tài)性;如此提供合成的多態(tài)性的模式,其在將較長片段另外片段化為較短片段后,在 測(cè)序后可以是容易辨別的和可比對(duì)的。較長片段的另一優(yōu)點(diǎn)是,較長片段具有包含大于一 個(gè)天然SNP的可能性,如此使用較少片段可鑒定和比對(duì)更多SNP。
      [0051] 在一些實(shí)施方案中,合成的核苷酸可在核酸片段化之前摻入核酸中。例如,修飾的 核苷酸可在細(xì)胞培養(yǎng)期間摻入細(xì)胞核酸中。修飾的核苷酸可例如通過以足以導(dǎo)致修飾的核 苷酸摻入細(xì)胞DNA中的濃度包含修飾的核苷酸修飾培養(yǎng)基被摻入細(xì)胞核酸中。
      [0052] 在其他實(shí)施方案中,可使得基因組DNA成為包含修飾的核苷酸的較小基因組分 子,而不需要在修飾的核苷酸摻入后的機(jī)械、化學(xué)或生物片段化。例如,randomers(例如, 隨機(jī)序列六聚體)可用于產(chǎn)生來源于基因組DNA模板的多個(gè)核酸分子,而不是通過例如機(jī) 械或生物方法(例如,轉(zhuǎn)座子相關(guān)方法)初始片段化基因組DNA。例如,randomers可與基 因組DNA雜交并延伸(例如,通過滾環(huán)擴(kuò)增)從而產(chǎn)生DNA的長鏈,其將用于本文公開的片 段化的其他形式的相同目的(例如,產(chǎn)生較小的多核苷酸用于文庫制備,用于測(cè)序)。延伸 產(chǎn)生的延伸產(chǎn)物隨后可用在亞硫酸氫鹽轉(zhuǎn)化方法中用于轉(zhuǎn)化天然核苷酸為合成的多態(tài)性。 在其他實(shí)施方案中,修飾的核苷酸(例如,pPTP、8-〇x〇-G、isoC、isoG等)可在延伸反應(yīng)期 間摻入,產(chǎn)生包含修飾的核苷酸的延伸產(chǎn)物,從而連接(concatenating)從包含修飾的核 苷酸的基因組DNA產(chǎn)生較短分子的步驟,其然后可用于進(jìn)一步的文庫制備方法。
      [0053]不論用于摻入合成的多態(tài)性到核酸分子中的方法是哪一種,所得的包含合成的多 態(tài)性的多核苷酸都可用于下游檢驗(yàn)。例如,修飾的核酸分子可用于測(cè)序。包含合成的多態(tài)性 的核酸分子對(duì)于確定或表征樣品的單倍型特別有用。包含合成的多態(tài)性的核酸分子還對(duì)于 從頭測(cè)序特別有用,其中較短的序列讀段可被比對(duì)并組裝以產(chǎn)生全長、且有時(shí)是新的序列。 當(dāng)對(duì)基因組中包含高發(fā)生率的重復(fù)區(qū)域的區(qū)域測(cè)序時(shí),所述區(qū)域由于其重復(fù)性質(zhì)可以是難 以比對(duì)的,包含合成的多態(tài)性的核酸分子也特別有用。
      [0054] 利用本文公開的方法摻入合成的多態(tài)性的隨機(jī)性質(zhì)提供了具有摻入的多態(tài)性的 模式的修飾的核酸分子,其隨機(jī)模式在被確定后,可被比對(duì)和報(bào)告用于確定樣品單倍型 (例如,單倍型含量或相)、從頭序列,驗(yàn)證樣品序列、此前視為難以確定的基因組位置的序 列等。通過實(shí)踐本文公開的方法確定的序列例如確定的單倍型,可被診斷醫(yī)生、臨床醫(yī)生、 研究者或其他方使用,例如用于將序列與疾病狀態(tài)(例如,癌癥、神經(jīng)紊亂、退化性紊亂等) 信息關(guān)聯(lián),其轉(zhuǎn)而可用于診斷和預(yù)測(cè)個(gè)體是否可患有或不患有特定疾病或紊亂、或可具有 或不具有特定疾病或紊亂的傾向。另外,某些序列例如單倍型,可被與特定疾病或紊亂的優(yōu) 先治療方案關(guān)聯(lián),這可被健康護(hù)理專業(yè)人士用于確定任何特定個(gè)體特異性的治療方案。另 夕卜,方法可用于確定基因組中重復(fù)區(qū)域的類型和數(shù)目,例如為了法醫(yī)目的。
      [0055] 在一些實(shí)施方案中,包含合成的多態(tài)性的修飾的核酸分子在測(cè)序中特別有用,例 如用于確定單倍型、用于從頭測(cè)序等。包含合成的多態(tài)性的修飾的核酸分子可通過任何手 段被測(cè)序。靶核酸,例如基因組DNA,通常在測(cè)序之前從樣品提取并分離??蛇x地,RNA可 從樣品收獲且cDNA從分離的RNA產(chǎn)生,其中cDNA可用于測(cè)序。術(shù)語"核酸"和"多核苷酸" 是指脫氧核糖核酸(DNA)、核糖核酸(RNA)、互補(bǔ)DNA(cDNA)或DNA、cDNA或RNA的類似物。 核酸可以是單鏈或雙鏈分子。核酸或多核苷酸可以呈單鏈形式來源,諸如ssDNA或RNA,或 它們可以呈雙鏈形式(dsDNA)來源,諸如在基因組DNA、擴(kuò)增產(chǎn)物、和/或其片段等等中所見 的。不論什么鏈形式的核酸或多核苷酸,可來源于包括但不限于以下的多個(gè)來源的任一個(gè): 來自生物體的完整基因組互補(bǔ)序列的樣品、生物體的完整基因組互補(bǔ)序列的片段。核酸可 包括內(nèi)含子和外顯子序列或任何數(shù)目的調(diào)節(jié)和/或非調(diào)節(jié)序列。
      [0056] 樣品可來自任何來源,例如,原核生物、古細(xì)菌或真核生物。此外,樣品可以是液體 (即,血液、血清、血漿、腦脊液、尿等)或固體(即,細(xì)胞、組織等)。如本文使用的,術(shù)語"樣 品"與其在生物學(xué)和化學(xué)領(lǐng)域中的含義一致地使用。在某種意義上,它意圖包括來自從任何 來源諸如生物和環(huán)境樣品獲得的樣本或培養(yǎng)物的核酸或多核苷酸或其片段。生物樣品可獲 自動(dòng)物,包括但不限于人類、非人類靈長類、和非人類動(dòng)物,包括但不限于,脊椎動(dòng)物諸如嚙 齒類、羊、牛、反芻類、兔類、豬、山羊、馬、犬、貓、鳥綱等。生物樣品包括但不限于,液體諸如 血液制品、組織、細(xì)胞等等。生物樣品還可以是植物來源的,單子葉或雙子葉、每年落葉或常 綠植物、草本或木本,包括但不限于農(nóng)業(yè)植物、園林植物、苗圃植物等等。環(huán)境樣品可以是細(xì) 菌、病毒、真菌等等來源的。優(yōu)選的樣品是真核生物來源的。特別有用的樣品是來源于具有 多于一組單倍體染色體(該組是一個(gè)或更多個(gè)不同的染色體)的生物體的那些。例如,樣 品可來源于二倍體、三倍體或多倍體的生物體?;旧希诖_定序列信息方面研究者感興趣 的任何生物體核酸樣品來源都適用于本方法。樣品還可包括合成的核酸或其片段。還包括 核酸的衍生物或產(chǎn)物諸如擴(kuò)增的拷貝或化學(xué)修飾的物質(zhì)。在優(yōu)選的實(shí)施方案中,樣品來源 于哺乳動(dòng)物,例如人類。
      [0057] 如本領(lǐng)域技術(shù)人員已知的,多種方法和方案可用于從樣品分離核酸(諸如基因組 DNA或RNA),例如如MolecularCloning:ALaboratoryManual(Eds.,Sambrook,F(xiàn);ritsch 和Maniatus,ColdSpringHarborLaboratory),CurrentProtocolsinMolecular Biology,Johnffiley&Sons,Inc.(TheRedBook)和ShortProtocolsinMolecular Biology,Eds. ,Ausubel等,JohnWiley&Sons,Inc中描述的。還存在無數(shù)市售可得的產(chǎn)品 和試劑盒可用于從多種樣品類型分離DNA和RNA。本公開內(nèi)容不意圖受從樣品分離核酸的 方式限制。
      [0058] 從樣品提取和分離核酸后,核酸可在測(cè)序之前例如按照文庫制備方案被進(jìn)一步加 工。加工可依據(jù)研究者使用的哪種測(cè)序儀器和技術(shù)而不同。本文公開的方法和系統(tǒng)不必限 于任何特定文庫制備方法或技術(shù)。圖1-3示例了在實(shí)踐文庫制備之前,例如在一些實(shí)施方 案中實(shí)踐公開的方法。盡管在典型文庫方案之前進(jìn)行本文公開的方法存在益處,其中基因 組DNA的較小片段是期望的,方法可被并入典型文庫制備方法的工作流程中。例如,本文公 開的方法還可被并入在測(cè)序樣品之前的任何文庫制備步驟中。如此,在一些實(shí)施方案中,用 于摻入合成的多態(tài)性到靶DNA的方法可被并入樣品的文庫片段化之后和測(cè)序樣品DNA之前 的文庫工作流程中。作為一個(gè)實(shí)例,本文所述方法可被并入用于PACBIORSDNA模板制備 試劑盒(PacificBiosciences,Inc.,MenloPark,CA)的樣品制備工作流程中、或與其聯(lián)合 使用,該試劑盒使用SMRTbell?技術(shù)文庫格式,其中用于測(cè)序的插入片段長度可以在250 和6000bp之間。研究者可使用PCR相關(guān)的方法用于文庫制備或可替代地采用基于非PCR 的方法用于文庫制備。
      [0059] 如圖1-3中示例的,在一些實(shí)施方案中,表示為一對(duì)同源染色體的基因組DNA可被 隨機(jī)片段化為DNA片段的長段,例如至少300bp、至少500bp、至少750bp、至少1000bp、至少 2000bp、至少3000bp、至少5000bp長的片段。隨機(jī)片段化可通過本領(lǐng)域技術(shù)人員已知的多 種手段實(shí)現(xiàn)。例如,在一些實(shí)施方案中,機(jī)械和/或聲剪切可用于片段化基因組DNA,諸如通 過重復(fù)地迫使基因組DNA樣品通過小孔注射器、通過霧化、通過水剪切或通過聲處理。
      [0060] 核酸的初始片段化可與用于多種文庫制備方案的那些相同或不同。霧化實(shí)現(xiàn)的 DNA片段化的實(shí)例描述在Illumina,Inc的Paired-EndSample制備試劑盒和由454Life Sciences的GSJuniorandGSFLX測(cè)序系統(tǒng)(Branford,CT)采用的用于產(chǎn)生文庫DNA的 試劑盒中。在一些實(shí)施方案中,DNA的剪切通過水動(dòng)力例如由D1G1LAB?HydroShear技 術(shù)儀器提供的以及描述在SOLiD?MatePaired文庫試劑盒(AppliedBiosystems?Life Technologies,Carlsbad,CA)的工作流程中的那些實(shí)現(xiàn)。在一些實(shí)施方案中,DNA的剪切通 過聲/機(jī)械手段諸如由Covaris?adaptivefocusedacoustics(AFA)方法提供的那些實(shí) 現(xiàn)。在一些實(shí)施方案中,聲處理也可用于片段化基因組DNA,例如在SOLiD?片段文庫構(gòu)建試 劑盒(AppliedBiosystems?LifeTechnologies,Carlsbad,CA)的工作流程中示例的,其 中Covaris?聲處理技術(shù)用于剪切基因組DNA。在一些實(shí)施方案中,基于轉(zhuǎn)座子的技術(shù)可用 于片段化DNA,例如如Nextera?DNA樣品制備試劑盒(Illumina,Inc.)的工作流程中示例 的,其中基因組DNA可通過將輸入DNA同時(shí)片段化和加標(biāo)簽("加標(biāo)簽(tagmentation)")的 工程化的轉(zhuǎn)座體(transposome)被片段化,從而產(chǎn)生片段化的核酸分子的群體,其在片段 的末端包含獨(dú)特的接頭序列。當(dāng)期望長核酸片段時(shí),基于轉(zhuǎn)座子的方法是特別有利的。在一 些實(shí)施方案中,酶促片段化可用于片段化基因組DNA,例如如在IonPlusandIonXpress? Plus和片段化文庫試劑盒(IonTorrent?LifeTechnologies,Carlsbad,CA)的工作流程 中采用的。如展示的,存在用于片段化大核酸分子諸如基因組DNA的無數(shù)方法,且技術(shù)人員 將理解,方法可基于特定檢驗(yàn)技術(shù)和儀器來確定。
      [0061]在一些實(shí)施方案中,用于檢驗(yàn)的核酸被如前所述地初始片段化為長片段后,可進(jìn) 行樣品的進(jìn)一步加工。如在圖1-3中示例的,一些實(shí)施方案包括在核酸片段的末端附著另 外的序列諸如接頭序列。接頭序列可用于另外的下游方法諸如擴(kuò)增、聚合酶鏈?zhǔn)椒磻?yīng)、分子 捕獲方法等等。此類接頭序列可以是引物序列,其可與下游文庫制備試劑盒和方法中使用 的接頭序列相同或不同。接頭可以是雙鏈、單鏈、叉狀(即,接頭的一部分為雙鏈,且接頭的 一部分為兩個(gè)單鏈)或呈發(fā)夾構(gòu)型(即,接頭的一部分為雙鏈,且一部分為單鏈環(huán)結(jié)構(gòu))。 接頭還可包括獨(dú)特的序列,諸如條形碼,其可用于鑒定特定靶DNA。本文公開的方法不必限 于接頭的任何特定用途或序列,且本領(lǐng)域技術(shù)人員將理解,接頭的使用可基于被使用的檢 驗(yàn)和儀器來選擇。
      [0062] 圖1-3顯示摻入合成的多態(tài)性到核酸中的示例性實(shí)施方案。例如,如圖1-3中所示 的,修飾的核苷酸(例如,8-oxoG)的摻入、亞硫酸氫鹽轉(zhuǎn)化C為U、以及修飾的核苷酸(例 如,iC)的摻入可分別進(jìn)行用于在核酸中產(chǎn)生合成的多態(tài)性。在一些實(shí)施方案中,修飾的核 苷酸8-〇X〇G可通過將核酸片段暴露于氧自由基物質(zhì)和/或電離輻射被摻入雙鏈DNA中。 可選地,在規(guī)范的核苷酸dATP、dTTP、dCTP以及一定比例的dGTP與類似物80xodGTP的存 在下,8-oxoG可通過引物在核酸上退火和延伸被摻入核酸中。在一些實(shí)施方案中,dGTP與 80xodGTP的比例是至少 1:1、1:2、1:3、1:4、1:5、1:10、1:20、1:30、1:40、1:50、1:75、1:99。 在其他實(shí)施方案中,80xodGTP在用于摻入合成的多態(tài)性的方法中的百分比是100% (S卩,無 dGTP被加入反應(yīng))。可按照相同或相似的方法用于修飾的核苷酸諸如iC和iG的摻入,如 圖3中示例的。對(duì)于部分亞硫酸氫鹽轉(zhuǎn)化,可按照技術(shù)人員已知的用于亞硫酸氫鹽轉(zhuǎn)化的 常規(guī)方法,用于將DNA中的胞嘧啶部分轉(zhuǎn)化為尿嘧啶,如圖2中示例的。
      [0063]在一些實(shí)施方案中,用于結(jié)合接頭序列的一種或更多種引物可進(jìn)一步與結(jié)合部分 締合,用于實(shí)現(xiàn)修飾的核酸鏈從非修飾的鏈(即,無摻入的合成的多態(tài)性的核酸鏈)的捕獲 和純化,所述接頭序列用于通過引物的退火和延伸摻入修飾的核苷酸。如圖1和3中示例 的,半抗原生物素可與引物締合,用于隨后通過其結(jié)合伴侶鏈霉親和素的捕獲,從而將其從 非修飾的核酸純化。然而,本方法不必限于結(jié)合伴侶或捕獲系統(tǒng)的特定類型或組。在一些 實(shí)施方案中,當(dāng)包含修飾的核苷酸的鏈被捕獲并從非修飾的鏈純化后,通過例如結(jié)合附著 于核酸末端的接頭的引物、隨后加倍,修飾的鏈可被加倍且合成的多態(tài)性被復(fù)制,以產(chǎn)生具 有摻入的合成的多態(tài)性的雙鏈核酸分子。
      [0064]在一些實(shí)施方案中,不存在鏈的選擇性捕獲。例如,圖2展示了用于摻入合成的多 態(tài)性的方法,其中未進(jìn)行選擇性捕獲。這證明,盡管鏈選擇是有利的,它并不總是必須的。在 一些實(shí)施方案中,在包含修飾的核苷酸的核酸鏈被純化和/或從不包含修飾的核苷酸的其 互補(bǔ)鏈選擇后,選擇的鏈可通過例如引物延伸方法被復(fù)制,其中此類復(fù)制或加倍相對(duì)親本 鏈中其中修飾的核苷酸駐留的位置摻入合成的多態(tài)性。如圖1中示例的,包含8-oxoG的 模板核酸鏈的加倍產(chǎn)生相對(duì)模板鏈中8-〇X〇G核苷酸的位置包含新?lián)饺氲南汆堰剩ˋ)或偶 爾地胞嘧啶(C)的互補(bǔ)鏈。然而,腺嘌呤是與8-〇X〇G錯(cuò)配的核苷酸的示例。胞嘧啶也可 與修飾的核苷酸8-〇X〇G配對(duì)。如此,在一些實(shí)施方案中,其中8-〇X〇G被用作用于摻入合 成的多態(tài)性的修飾的核苷酸,腺嘌呤和/或胞嘧啶可被摻入作為合成的多態(tài)性。當(dāng)利用其 他修飾的核苷酸時(shí),所得的被摻入的合成的多態(tài)性可以是與該特定修飾的核苷酸配對(duì)的核 苷酸。
      [0065]圖1展示了在測(cè)序之前除去示例性修飾的核苷酸8-oxoG。核苷酸8-oxoG可與 腺嘌呤或胞嘧啶配對(duì),如此8-oxoG在用于測(cè)序的片段中的保持將是優(yōu)先的。在一些實(shí)施 方案中,修飾的核苷酸被保持在用于測(cè)序的核酸片段中。例如,摻入isoC(圖3)到核酸片 段中,其中在加倍后,核苷酸伴侶isoG也被摻入,從而提供包含isoC和isoG二者作為合成 的多態(tài)性的用于測(cè)序的核酸。
      [0066] 在本申請(qǐng)的實(shí)施方案中,包含合成的多態(tài)性的核酸片段可被擴(kuò)增。此類擴(kuò)增可富 集文庫中僅在兩末端包含接頭的那些核酸片段以及增加片段集合中進(jìn)入文庫制備過程的DNA的量。例如,摻入合成的多態(tài)性到核酸片段中后,可利用退火到連接于核酸片段末端的 接頭的引物進(jìn)行聚合酶鏈?zhǔn)椒磻?yīng)(PCR)擴(kuò)增。如本文使用的接頭可提供許多功能,其中之 一是用于與附著于基質(zhì)的同源序列雜交,例如為了進(jìn)行乳液PCR(emPCR)或用于在合成測(cè) 序方法中使用的克隆產(chǎn)生。
      [0067] 在靶核酸已被修飾以包含多個(gè)合成的多態(tài)性后,可例如通過進(jìn)行由特定測(cè)序方 法和儀器推薦的方法產(chǎn)生用于測(cè)序的文庫制品。例如,如用于在包括但不限于以下的許 多測(cè)序系統(tǒng)的任一種中使用的方案和手冊(cè)中描述的:Illumina,Inc.(例如,HiSeq1000、 HiSeq2000、HiSeq2500、MiSeq、Genome Analyzer系統(tǒng)等)、454Life Sciences(例如, GSJunior,GSFLX+等)、AppliedBiosystems?LifeTechnologies(例如,SOLiD? 測(cè) 序系統(tǒng))和IonTorrent?LifeTechnologies(例如,IonPGM?Sequencer、IonProton? Sequencer等)。還可通過例如多重鏈置換擴(kuò)增(MDA)技術(shù)擴(kuò)增DNA文庫樣品用于測(cè)序。技 術(shù)人員將認(rèn)識(shí)到用于產(chǎn)生核酸文庫的另外的方法和技術(shù),其也可與本文描述的方法聯(lián)合使 用用于摻入合成的多態(tài)性到核酸片段中。如此,除了在特定實(shí)施方案中,在那些方法之前或 之中摻入或產(chǎn)生合成的多態(tài)性以外,本文描述的實(shí)施方案不必限于用于產(chǎn)生文庫的任何特 定方法。
      [0068] 包含合成的多態(tài)性的核酸文庫用于在測(cè)序檢驗(yàn),例如用于確定單倍型、從頭序列 確定和法醫(yī)核苷酸應(yīng)用(即,核苷酸重復(fù)區(qū)域等)、諸如此類中使用是有利的。在一些實(shí)施 方案中,包含合成的多態(tài)性的DNA文庫可被固定在流動(dòng)池上。固定的核酸可利用單分子解 析技術(shù)(singlemoleculeresolutiontechniques)測(cè)序或固定的核酸可例如經(jīng)由橋式擴(kuò) 增被擴(kuò)增用于基于系綜的(ensemble-based)檢測(cè)??稍跍y(cè)序之前對(duì)固定的多核苷酸進(jìn)行 橋式擴(kuò)增,例如用于合成測(cè)序方法。在橋式擴(kuò)增中,固定的多核苷酸(例如,來自DNA文庫) 與固定的寡核苷酸引物雜交。固定的多核苷酸分子的3'末端為聚合酶催化的、模板引導(dǎo)的 從固定的寡核苷酸引物延伸的延長反應(yīng)(例如,引物延伸)提供模板。所得的雙鏈產(chǎn)物"橋 接"兩個(gè)引物且兩條鏈共價(jià)附接于支持物。在下一循環(huán)中,在產(chǎn)生固定于固體支持物的一對(duì) 單鏈(固定的模板和延伸的引物產(chǎn)物)的變性后,兩條固定的鏈可用作新的引物延伸的模 板。如此,第一和第二部分可被擴(kuò)增以在稱為"聚類"的過程中產(chǎn)生多個(gè)簇。簇和集群可互 換使用,并是指附接于表面的多個(gè)拷貝的核酸序列和/或其互補(bǔ)序列。通常,簇包含經(jīng)由其 5'末端附接于表面的多個(gè)拷貝的核酸序列和/或其互補(bǔ)序列。示例性橋式擴(kuò)增和聚類方法 在例如,PCT專利公布號(hào)W000/18957和W098/44151、美國專利號(hào)5, 641,658 ;美國專利公布 號(hào)2002/0055100 ;美國專利號(hào)7, 115, 400 ;美國專利公布號(hào)2004/0096853 ;美國專利公布 號(hào)2005/0100900、美國專利公布號(hào)2004/0002090 ;美國專利公布號(hào)2007/0128624 ;和美國 專利公布號(hào)2008/0009420中描述,其每一個(gè)都通過引用全文并入本文。如本文描述的組合 物和方法在利用包含簇的流動(dòng)池的合成測(cè)序方法中特別有用。
      [0069] 用于在測(cè)序之前擴(kuò)增核酸的乳液PCR(emPCR)方法也可聯(lián)合如本文描述的方法 和組合物使用。乳液PCR包括在油包水乳液中PCR擴(kuò)增接頭側(cè)翼的shotgunDNA文庫。PCR是多模板PCR;在特定實(shí)施方案中僅使用單引物。PCR引物之一被拴系于微尺度珠表 面(5'附接)。低模板濃度導(dǎo)致大多數(shù)具有零個(gè)或一個(gè)模板分子存在的包含珠的乳液微 泡。在生產(chǎn)性乳液微泡(其中珠和模板分子二者存在的乳液微泡)中,PCR擴(kuò)增子可被捕 獲到珠表面上。破壞乳液后,帶有擴(kuò)增產(chǎn)物的珠可被選擇性地富集。每個(gè)克隆擴(kuò)增的珠將 在其表面帶有對(duì)應(yīng)來自模板文庫的單分子擴(kuò)增的PCR產(chǎn)物。珠然后可在流動(dòng)池表面上成陣 列用于測(cè)序。乳液PCR方法的多種實(shí)施方案列在Dressman等,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003)、PCT專利公布號(hào)WO05/010145、美國專利公布號(hào) 2005/0130173、 2005/0064460和2005/0042648中,其每一個(gè)都通過引用全文并入本文。
      [0070] DNA納米球也可聯(lián)合如本文描述的方法和組合物使用。用于產(chǎn)生和利用DNA納 米球用于基因組測(cè)序的方法可見于,例如,美國專利和公布7, 910, 354、2009/0264299、 2009/0011943、2009/0005252、2009/0155781、2009/0118488 并如例如,Drmanac 等,2010,Science327 (5961) : 78-81中描述的;其所有都通過引用全文并入本文。簡(jiǎn)要地, 在基因組文庫DNA片段化后,將接頭與片段連接,接頭連接的片段通過以環(huán)連接酶連接被 環(huán)化并進(jìn)行滾環(huán)擴(kuò)增(如Lizardi等,1998.Nat.Genet. 19:225-232 和US2007/0099208 A1中描述的,其每一個(gè)都通過引用全文并入本文)。擴(kuò)增子的延伸的連環(huán)體結(jié)構(gòu) (concatamericstructure)促進(jìn)卷曲,從而產(chǎn)生緊密的DNA納米球。DNA納米球可被捕獲 到基質(zhì)上,優(yōu)選以產(chǎn)生有序的或模式化的陣列,從而保持每個(gè)納米球之間的距離,從而允許 測(cè)序單獨(dú)的DNA納米球。在一些實(shí)施方案諸如CompleteGenomics(MountainView,CA)使 用的那些中,在環(huán)化之前進(jìn)行接頭連接、擴(kuò)增和消化的連續(xù)輪以產(chǎn)生具有由接頭序列分隔 的數(shù)個(gè)基因組DNA片段的頭至尾構(gòu)建物。
      [0071]當(dāng)在測(cè)序,例如下一代("nexgen")合成測(cè)序(SBS)技術(shù)中使用時(shí),用于通過摻 入合成的多態(tài)性到多核苷酸或其片段中用于確定單倍型、從頭序列等的公開的方法特別有 用。合成測(cè)序通常包括利用聚合酶向以5'至3'方向漸增的多核苷酸鏈順序添加一個(gè)或更 多個(gè)核苷酸。延伸的多核苷酸鏈與附著于基質(zhì)(例如,流動(dòng)池、芯片、載玻片等)的核酸模 板互補(bǔ);靶序列包含合成的多態(tài)性。
      [0072]當(dāng)在連接測(cè)序、雜交測(cè)序和其他測(cè)序技術(shù)中使用時(shí),通過摻入合成的多態(tài)性到 多核苷酸或其片段中用于確定單倍型、從頭序列等的公開的方法也特別有用。示例性 的連接測(cè)序方法是由AppliedBiosystems'SOLiD?測(cè)序系統(tǒng)使用的二堿基編碼(例 如,顏色空間測(cè)序)(Voelkerding等,2009,ClinChem55:641-658;通過引用全文并入 本文)。雜交測(cè)序包括使用核苷酸探針的短序列的陣列,向其加入片段化的、標(biāo)記的靶 0嫩(01'111&仙。等,2002,八(1¥13;[0。116111£叩13;[0七6。111101 77:75-101;1^2&『(1;[等,2008,似七 Biotech26:649-650,美國專利7,071,324 ;通過引用全文并入本文)。雜交測(cè)序的進(jìn)一步 改進(jìn)可見于,例如,美國專利申請(qǐng)公布2007/0178516、2010/0063264和2006/0287833 (通 過引用全文并入本文)。組合雜交和連接生物化學(xué)的測(cè)序方法已被開發(fā)并商業(yè)化,諸如由 CompleteGenomics,MountainView,CA實(shí)踐的基因組測(cè)序技術(shù)。例如,復(fù)合探針-錨定分 子連接或cPAL?(Drmanac等,2010,Science327(5961) : 78-81)利用了連接生物化學(xué),同時(shí) 利用雜交測(cè)序的益處。本文公開的用于單倍分型、從頭測(cè)序等的方法可用在復(fù)合探針-錨 定分子連接測(cè)序技術(shù)中。預(yù)料的是,如本文描述的使用合成的多態(tài)性確定單倍型、從頭序列 等的方法不限于任何特定的測(cè)序方法。另外的測(cè)序技術(shù)包括但不限于,由polony測(cè)序技 術(shù)(DoverSystems)、雜交測(cè)序突光平臺(tái)(CompleteGenomics)和sTOP技術(shù)(Industrial TechnologyResearchInstitute)的一種或更多種實(shí)踐的那些。
      [0073] 單分子測(cè)序也可與本文公開的方法一起使用。例如,用于測(cè)序的非擴(kuò)增DNA文庫 可如前所述地制備。文庫片段可被雜交并捕獲在基質(zhì)諸如流動(dòng)池上,并在例如,HeliScope? SingleMoleculeSequence儀器上檢驗(yàn)。單分子測(cè)序的進(jìn)一步描述可見于,例如, Puchkarev等(2009,Nat.Biotechnol. 27:847-52,通過引用全文并入本文)和Thompson和 Steinmann(2010,Cur;r.P;rot.Mol.Biol.Cpt7,Unit7. 10,通過引用全文并入本文)。
      [0074] 本文列出的方法可聯(lián)合核酸檢測(cè)系統(tǒng)諸如由以下提供的那些使用:Illumiiia?, Inc.(HiSeq1000、HiSeq2000、HiSeq2500、GenomeAnalyzers、MiSeq、HiScan、iScan、 BeadExpress系統(tǒng))、AppliedBiosystems?LifeTechnologies(ABIPRISM? Sequence檢測(cè)系統(tǒng)、SOLiD?System)、IonTorrent?LifeTechnologies(IonPGM?、Ion Proton?)454LifeSciences(GSJunior、GSFLX+)、PacBioRS(PacificBiosc.ie.llC.es?' )、OxfordNanoporeTechnologies?(GridI0N、MinI0N)或其他測(cè)序儀器,進(jìn)一步如 例如,美國專利和專利申請(qǐng) 5, 888, 737、6, 175, 002、5, 695, 934、6, 140, 489、5, 863, 722、 2007/007991、2009/0247414、2010/0111768 和PCT申請(qǐng)W02007/123744 以及美國專利申請(qǐng) 序列號(hào) 61/431, 425、61/431, 440、61/431, 439、61/431, 429、61/438, 486 中描述的那些,其 每一個(gè)都通過引用全文并入本文。
      [0075] 來自測(cè)序儀器的輸出結(jié)果(output)可以是任何類型。例如,一些當(dāng)前技術(shù)利用產(chǎn) 生可讀輸出結(jié)果的光,諸如熒光或發(fā)光(luminescence)。其他技術(shù)利用基于在測(cè)序期間在 核苷酸摻入過程中釋放的氫離子檢測(cè)離子釋放并數(shù)字輸出序列的半導(dǎo)體。然而,本方法不 限于可讀輸出結(jié)果的類型,只要感興趣的特定序列的輸出信號(hào)中的差異是潛在可確定的。
      [0076] 可被使用或調(diào)整以表征來源于本文所述的實(shí)踐方法的輸出結(jié)果的分析軟件的實(shí) 例包括但不限于,Pipeline、CASAVA和GenomeStudio數(shù)據(jù)分析軟件(Illumina?,Inc.)、 S0LiD?、DNASTAR?SeqMan?NGen? 和partek?GenomicsSuite?數(shù)據(jù)分析軟 件(LifeTechnologies)^FeatureExtractionandAgilentGenomicsWorkbench數(shù)據(jù)分 析軟件(AgilentTechnologies)、GenotypingConsole?、ChromosomeAnalysisSuite數(shù) 據(jù)分析軟件(Affymetrix?)。預(yù)料的是,與本文公開的方法和組合物一起使用的一種或更 多種軟件程序?qū)⒕哂幸韵履芰Γ鹤R(shí)別片段序列數(shù)據(jù)中存在的摻入的合成的多態(tài)性模式、t匕 對(duì)片段序列數(shù)據(jù)中鑒定的多態(tài)性、以及基于該比對(duì)輸出序列。在一些實(shí)施方案中,輸出結(jié)果 可包括靶樣品的單倍型(例如,單倍型含量或相)。在其他實(shí)施方案中,輸出結(jié)果可包括靶 樣品的從頭序列信息。在其他實(shí)施方案中,輸出結(jié)果可包括法醫(yī)核苷酸重復(fù)信息,諸如類型 (即,重復(fù)序列的序列、重復(fù)序列的位置、短或中度串聯(lián)重復(fù)序列的數(shù)目等。
      [0077] 在一些實(shí)施方案中,序列分析和比對(duì)包括對(duì)參考基因組比對(duì)序列讀段,或例如通 過引入文庫片段中用于測(cè)序的條形碼從頭組裝可比對(duì)區(qū)域,如技術(shù)人員已知的。取決于人 工SNP的密度,預(yù)料的是,可使用標(biāo)準(zhǔn)比對(duì)軟件工具。例如,如果合成的SNP密度是高的,則 比對(duì)程序可被修改使得比對(duì)充分地足夠允許放置序列讀段。作為一個(gè)實(shí)例,當(dāng)合成的SNP 通過亞硫酸氫鹽轉(zhuǎn)化方法被摻入時(shí),用于亞硫酸氫鹽測(cè)序的現(xiàn)有的修改的比對(duì)pipelines 可被使用(例如,如www.bioinformatics,babraham.ac.uk/projects/bismark中描述的)。 對(duì)于從頭組裝,預(yù)料的是,當(dāng)讀取來源于實(shí)踐本文公開的方法的序列時(shí),可對(duì)標(biāo)準(zhǔn)短讀段組 裝器(assemblers)禁用內(nèi)置錯(cuò)誤校正模塊(2008,Zerbino和Birney, 2008,GenomeRes 18:821-829,通過引用全文并入本文)。
      [0078] 用于從短-序列讀段建立單倍型塊的算法可與本文公開的方法一起使用(Bansal 和Bafna, 2008,Bioinformatics24:il53_i159)。然而,可修改此類算法偏離兩個(gè)分離的單 倍型的標(biāo)準(zhǔn)假設(shè),如當(dāng)測(cè)序正常二倍體人類DNA分子時(shí)將預(yù)計(jì)的。例如,引入的合成的SNP 將產(chǎn)生對(duì)應(yīng)每個(gè)原始序列片段的更大數(shù)目的表觀或人工單倍型并因此將在算法中進(jìn)行修 改以適應(yīng)這一非標(biāo)準(zhǔn)信息。
      [0079] 可以以許多方式從正常核苷酸序列鑒定合成的SNP。例如,未被修飾的原始序列 可用作參考序列并因此用作不含合成的SNP的對(duì)照。以這種方法,原始序列中不存在的多 態(tài)性可被鑒定并與修飾的序列中的那些位置關(guān)聯(lián),從而鑒定修飾的序列中摻入合成的SNP 的位置。隨后,可利用那些鑒定的修飾的核苷酸進(jìn)行比對(duì)。對(duì)于共有序列調(diào)用(consensus calling),將預(yù)計(jì)合成的多態(tài)性是對(duì)原始序列獨(dú)特的。如此,通過在特定基因組位置測(cè)序原 始片段,多態(tài)性跨合成的單倍型的頻率可被估計(jì)并與正常二倍體人類樣品中預(yù)計(jì)的頻率比 較。
      [0080] 在一些實(shí)施方案中,人工單倍型的合并可通過被修改以鑒定合成的多態(tài)性的算法 諸如HapCUT或其修改形式進(jìn)行(2009,Bansal和Bafna)??尚薷乃惴ㄒ院喜⒈昏b定為非合 成的SNP但來源于不同的合成的單倍型的SNP,從而產(chǎn)生真正潛在的單倍型比對(duì)的圖譜。
      [0081] 在一些實(shí)施方案中,來自包含天然和合成的多態(tài)性二者的比對(duì)的序列的輸出結(jié)果 可包括重構(gòu)的單倍型中天然多態(tài)性的位置和合成的多態(tài)性的位置二者。可選地,輸出結(jié)果 可僅包括重構(gòu)的單倍型中天然多態(tài)性,合成的多態(tài)性被篩選出??梢砸远喾N方式,例如可使 用標(biāo)準(zhǔn)基因組瀏覽器諸如整合基因組學(xué)查看器(integrativegenomicsviewer,IGV)實(shí)現(xiàn) 可視化(2011,Robinson等,NatBiotech29:24-26,通過引用全文并入本文)。重構(gòu)的單倍 型可在基因組瀏覽器中被注釋以高亮真正的、天然多態(tài)性和/或合成的多態(tài)性(例如,如果 輸出結(jié)果中存在)的位置。然而,其他可視化工具也可使用,如技術(shù)人員已知的。本方法不 必限于用于比對(duì)和輸出或可視化來源于實(shí)踐本文公開的方法的序列的算法、方法或系統(tǒng)。 實(shí)施例
      [0082] 提供以下實(shí)施例以展示并進(jìn)一步闡釋公開的方法和組合物的某些優(yōu)選的實(shí)施方 案和方面,且不應(yīng)被解釋為限制其范圍。
      [0083] 在文庫制備之前,基因組DNA可被修飾以包括人工多態(tài)性?;蚪MDNA可被最初 片段化為大的段(例如數(shù)千堿基)。較大的片段尺寸最大化了兩個(gè)或更多個(gè)人工SNP在同 一片段中的出現(xiàn),同時(shí)最大化了更雜合的SNP的出現(xiàn)。轉(zhuǎn)座子介導(dǎo)的核酸片段化和水剪切 是用于產(chǎn)生例如,1,000-40,OOObp之間的初始DNA片段的方法的實(shí)例。
      [0084] 實(shí)施例1-合成的多態(tài)性摻入phiX基因組
      [0085] 進(jìn)行測(cè)序?qū)嶒?yàn)以評(píng)價(jià)修飾的核苷酸摻入DNA鏈用于下游測(cè)序的頻率。使用噬菌體 參考基因組phi 174或phiX,因?yàn)閜hiX具有5386個(gè)堿基的小的、充分界定的基因組序列。 兩種修飾的核苷80xodGTP和dPTP以與正常dNTP的不同組合摻入。dPTP可與A和G二者 喊基配對(duì),而80xoG可與A和C_者喊基配對(duì)。
      [0086] 按照制造商的方案將標(biāo)準(zhǔn)配對(duì)的末端Illumina流動(dòng)池接種2pM的濃度的標(biāo)準(zhǔn) phiX文庫。在文庫與流動(dòng)池結(jié)合的寡核苷酸雜交后,通過在DNA聚合酶和如見于表1的多 種核苷酸混合物(天然和非天然的)的存在下在40°C培養(yǎng)流動(dòng)池1小時(shí),DNA分子在流動(dòng) 池泳道中利用第一鏈延伸方法被復(fù)制。
      [0087] 表1以脫氧核苷濃度的phiX第一延伸檢驗(yàn)

      【權(quán)利要求】
      1. 一種用于確定核酸樣品的序列的方法,所述方法包括: a) 提供第一長度的多個(gè)核酸片段,所述核酸片段被修飾以包含多個(gè)合成的多態(tài)性, b) 制備包含第二長度的包含多個(gè)合成的多態(tài)性的第二多個(gè)核酸片段的核酸文庫,所述 第二長度小于來自所述第一多個(gè)核酸片段的片段的所述第一長度, c) 測(cè)序所述核酸文庫,和 d) 比對(duì)測(cè)序的片段之間的所述多個(gè)合成的多態(tài)性以基于所述比對(duì)確定所述核酸樣品 的序列。
      2. 如權(quán)利要求1所述的方法,其中所述合成的多態(tài)性是在特定位置代替天然核苷酸的 多個(gè)修飾的核苷酸。
      3. 如權(quán)利要求2所述的方法,其中所述修飾的核苷酸選自由以下組成的組:8_氧鳥嘌 呤、dPTP、異胞嘧啶和異鳥嘌呤。
      4. 如權(quán)利要求1至3中任一項(xiàng)所述的方法,其中所述修飾包括所述多個(gè)核酸片段中胞 嘧啶的部分和不完全亞硫酸氫鹽轉(zhuǎn)化。
      5. 如前述任一項(xiàng)權(quán)利要求所述的方法,其中所述比對(duì)包括將第一核酸片段序列中合成 的多態(tài)性的模式與第二核酸片段序列中合成的多態(tài)性的相似模式匹配,并以多個(gè)核酸片段 序列重復(fù)所述匹配,從而基于多個(gè)核酸片段中所述多個(gè)合成的多態(tài)性產(chǎn)生序列比對(duì)。
      6. 如前述任一項(xiàng)權(quán)利要求1所述的方法,其中所述測(cè)序是選自由以下組成的組的方 法:合成測(cè)序、雜交測(cè)序、連接測(cè)序、單分子測(cè)序、納米孔測(cè)序、焦磷酸測(cè)序和聚合酶鏈?zhǔn)椒?應(yīng)。
      7. 如前述任一項(xiàng)權(quán)利要求1所述的方法,其中所述確定包括熒光檢測(cè)。
      8. 如權(quán)利要求5所述的方法,其中所述匹配通過計(jì)算機(jī)實(shí)現(xiàn)的方法進(jìn)行。
      9. 如前述任一項(xiàng)權(quán)利要求1所述的方法,其中所述序列包括一種或更多種單倍型并還 包括確定所述核酸樣品中兩種或更多種單倍型的相。
      10. 如權(quán)利要求9所述的方法,其中用于定相的單倍型位于不同的測(cè)序片段上。
      11. 一種用于表征核酸樣品的一種或更多種單倍型的方法,所述方法包括: a) 提供片段化的核酸的集合, b) 在所述集合的所述片段化的核酸中引入多個(gè)合成的多態(tài)性以產(chǎn)生包含多個(gè)合成的 多態(tài)性的片段, c) 制備長度比原始集合的片段短的包含多個(gè)修飾的核酸的核酸片段的文庫, d) 測(cè)序所述文庫中的核酸片段, e) 比對(duì)測(cè)序的核酸片段的合成的多態(tài)性,和 f) 從測(cè)序的片段的比對(duì)的合成的多態(tài)性表征所述核酸樣品的一種或更多種單倍型。
      12. 如權(quán)利要求11所述的方法,其中所述合成的多態(tài)性是單核苷酸多態(tài)性。
      13. 如權(quán)利要求12所述的方法,其中所述多個(gè)合成的單核苷酸多態(tài)性在摻入的位點(diǎn)代 替天然核苷酸。
      14. 如權(quán)利要求12或13所述的方法,其中所述單核苷酸多態(tài)性包含多個(gè)修飾的核苷 酸。
      15. 如權(quán)利要求14所述的方法,其中所述修飾的核苷酸選自由以下組成的組:8_氧鳥 嘌呤、異胞嘧啶、異鳥嘌呤和dPTP。
      16. 如權(quán)利要求11至15中任一項(xiàng)所述的方法,其中所述引入包括所述核酸片段中胞嘧 啶的部分和不完全亞硫酸氫鹽轉(zhuǎn)化。
      17. 如權(quán)利要求11至16中任一項(xiàng)所述的方法,其中所述比對(duì)包括將第一核酸片段序列 中合成的多態(tài)性的模式與第二核酸片段序列中合成的多態(tài)性的相似模式匹配,并在多個(gè)核 酸片段序列中重復(fù)所述匹配,從而從測(cè)序的核酸片段中所述合成的多態(tài)性產(chǎn)生序列比對(duì)。
      18. 如權(quán)利要求11至17中任一項(xiàng)所述的方法,其中所述測(cè)序選自由以下組成的組:合 成測(cè)序、雜交測(cè)序、連接測(cè)序、單分子測(cè)序、納米孔測(cè)序、焦磷酸測(cè)序和聚合酶鏈?zhǔn)椒磻?yīng)。
      19. 如權(quán)利要求11至18中任一項(xiàng)所述的方法,其中所述確定包括熒光檢測(cè)。
      20. 如權(quán)利要求11至19中任一項(xiàng)所述的方法,還包括確定所述核酸樣品中兩種或更多 種單倍型的相。
      21. 如權(quán)利要求20所述的方法,其中用于定相的單倍型位于不同的測(cè)序片段上。
      22. -種用于鑒定核酸樣品的一種或更多種單倍型的方法,所述方法包括: a) 提供具有多個(gè)核苷酸的核酸分子; b) 修飾所述核酸分子中的多個(gè)核苷酸,從而產(chǎn)生包含天然核苷酸和修飾的核苷酸的修 飾的核酸分子; c) 擴(kuò)增所述修飾的核酸分子以產(chǎn)生第一長度的多個(gè)修飾的核酸拷貝; d) 在產(chǎn)生第二長度的核酸片段的文庫的條件下片段化所擴(kuò)增的修飾的核酸拷貝,其中 所述文庫中的個(gè)體核酸片段具有與所述文庫中至少一個(gè)其他核酸片段序列重疊的區(qū)域且 其中所述序列重疊的區(qū)域包括至少一個(gè)修飾的核苷酸; e) 確定所述文庫的核酸片段的序列,和 f) 通過所述序列重疊的區(qū)域中修飾的核苷酸的位置比對(duì)所述核酸片段的序列以鑒定 所述核酸分子的一種或更多種單倍型。
      23. 如權(quán)利要求22所述的方法,其中所述核酸分子包括沿著序列長度的數(shù)個(gè)不同核苷 酸類型。
      24. 如權(quán)利要求23所述的方法,其中在所述修飾的核酸中所述核苷酸類型的僅一種類 型被修飾。
      25. 如權(quán)利要求24所述的方法,其中在所述修飾的核酸中所述一種類型的所有核苷酸 被修飾。
      26. 如權(quán)利要求24所述的方法,其中在所述修飾的核酸中所述一種類型的核苷酸的亞 組被修飾。
      27. 如權(quán)利要求22至26中任一項(xiàng)所述的方法,還包括確定所述核酸分子中至少兩種單 倍型的相。
      28. 如權(quán)利要求27所述的方法,其中用于定相的單倍型位于不同的測(cè)序片段上。
      29. 如權(quán)利要求27或28所述的方法,其中所述核酸分子包含沿著序列長度的數(shù)個(gè)不同 核苷酸類型,其中所述至少兩種單倍型對(duì)所述核苷酸類型的兩種是雙等位基因的,且其中 在所述修飾的核酸中第三核苷酸類型被修飾。
      30. 如權(quán)利要求29所述的方法,其中所述至少兩種單倍型對(duì)選自由以下組成的組的核 苷酸類型是雙等位基因的:A、T和G,且其中在所述修飾的核酸中C被修飾為U。
      31. 如權(quán)利要求30所述的方法,其中所述至少兩種單倍型對(duì)T和G是雙等位基因的,且 其中在所述修飾的核酸中C被修飾為u。
      32. 如權(quán)利要求29所述的方法,其中所述至少兩種單倍型對(duì)選自由以下組成的組的核 苷酸類型是雙等位基因的:A、T和C,且其中在所述修飾的核酸中G被修飾為8-〇X〇-G。
      33. 如權(quán)利要求32所述的方法,其中所述至少兩種單倍型對(duì)C和T是雙等位基因的,且 其中在所述修飾的核酸中G被修飾為8-oxo-G。
      【文檔編號(hào)】C12Q1/68GK104508144SQ201380029854
      【公開日】2015年4月8日 申請(qǐng)日期:2013年5月20日 優(yōu)先權(quán)日:2012年7月18日
      【發(fā)明者】羅伯托·里加蒂, 喬納森·鮑特爾 申請(qǐng)人:伊魯米納劍橋有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1