檢測(cè)染色體異常的方法
【專利說(shuō)明】檢測(cè)染色體異常的方法 發(fā)明領(lǐng)域
[0001] 本發(fā)明涉及檢測(cè)染色體異常的方法,具體地講,本發(fā)明涉及胎兒染色體異常例如 三體性21 (唐氏綜合征)的診斷,其包括在胎兒妊娠期間得自母體血液的血漿樣品中的無(wú) 細(xì)胞DNA分子的序列分析。
[0002] 發(fā)明背景 唐氏綜合征(Down'ssyndrome)是一種相對(duì)常見(jiàn)的遺傳障礙,每800個(gè)活產(chǎn)嬰兒中大 約有一個(gè)罹患該綜合征。該綜合征是由額外的全染色體21 (三體性21、T21)的存在所致, 或較不常見(jiàn)地,由額外的該染色體的大部分的存在所致。涉及其它常染色體的三體性(即 T13或T18)也發(fā)生在活產(chǎn)嬰兒中,但比T21更罕見(jiàn)。
[0003] 通常,存在由額外染色體或染色體缺陷所致的胎兒非整倍性的病癥,在母體無(wú)細(xì) 胞血漿DNA中的胎兒DNA分子群體中產(chǎn)生失調(diào),這是可檢測(cè)的。
[0004] 開(kāi)發(fā)用于胎兒染色體異常的產(chǎn)前診斷的可靠方法在生殖保健中是一項(xiàng)長(zhǎng)期目標(biāo) (Puszyk等人,2008,PrenatDiagn28,1-6)?;谕ㄟ^(guò)羊膜穿刺術(shù)和絨毛膜絨毛取樣 而獲得胎兒材料的方法是侵入性的,并且對(duì)于妊娠具有不可忽視的風(fēng)險(xiǎn),甚至是在有經(jīng)驗(yàn) 的臨床醫(yī)生手中也如此。在目前的實(shí)踐中,這樣的侵入性診斷的方法在具有增加唐氏妊娠 機(jī)會(huì)的征兆(因母親年齡的原因,或用生化檢驗(yàn)或超聲檢查的先期篩查)的情況下被經(jīng)常使 用。需要可靠的、可用于頭3個(gè)月妊娠的、快速出結(jié)果的和廉價(jià)的非侵入性產(chǎn)前診斷(NIPD) 方法。
[0005] 為達(dá)到該目標(biāo)已經(jīng)獲得了進(jìn)展,即通過(guò)利用以下發(fā)現(xiàn):孕婦血漿中的無(wú)細(xì)胞DNA 包含胎兒來(lái)源的組分(Lo等人,1997,Lancet350,485-487)。無(wú)細(xì)胞血漿DNA(在下文 稱為"血漿DNA")主要由短DNA分子(80-200bp)構(gòu)成,典型地其中5%-20%是胎兒來(lái)源的, 其余的是母體的(Birch等人,2005,ClinChem51,312-320;Fan等人,2010,Clin Chem56,1279-1286)。對(duì)于血漿DNA分子的細(xì)胞起源以及它們進(jìn)入血液和隨后從循環(huán)中 被清除掉的機(jī)制,了解的很少。然而,普遍認(rèn)為胎兒組分主要是胎盤內(nèi)的凋亡細(xì)胞死亡的結(jié) 果(Bianchi,2004,Placenta25,S93-S101)。胎兒來(lái)源的血漿DNA分子部分因大量個(gè)體 差異而各有不同。疊加在個(gè)體差異上的是胎兒組分隨孕齡增加而增加的總趨勢(shì)(Birch等 人,2005,出處同上;Galbiati等人,2005,HumGenet117,243-248)。胎兒組分在 妊娠早期、典型地早在第8周時(shí)容易檢測(cè)。
[0006] 原則上,如果血漿中的無(wú)細(xì)胞胎兒DNA沒(méi)有被母體成分稀釋的話,通過(guò)與正常妊 娠相比,表征T21的額外染色體將預(yù)期導(dǎo)致50%過(guò)量的源自該染色體的DNA分子。然而,對(duì) 于胎兒來(lái)源的無(wú)細(xì)胞血漿DNA的組分采取典型值10%,所導(dǎo)致的失調(diào)預(yù)期僅為5%,或相對(duì)于 正常妊娠為1. 00的值而言,染色體21-衍生的片段的數(shù)量相對(duì)增加到1. 05的值。在血漿 DNA的胎兒組分小于或大于10%的值的情況下,在母體血漿中的分子群體中的染色體21-衍 生的分子數(shù)量的失調(diào)將會(huì)相應(yīng)地更小或更大。
[0007] 因此,對(duì)于T21的診斷檢驗(yàn)基礎(chǔ)是,獲得來(lái)自母體血漿的DNA分子的核苷酸序列數(shù) 據(jù)("DNA測(cè)序")。一旦部分或全部核苷酸序列信息已得自單個(gè)DNA分子后,必須應(yīng)用生物 信息技術(shù),最簡(jiǎn)單的是通過(guò)與一個(gè)或多個(gè)參考人類基因組進(jìn)行比較,將單個(gè)分子指定到其 來(lái)源的染色體。在涉及到T21胎兒的妊娠的情況下,分子群體的輕微失調(diào)是可檢測(cè)的,因?yàn)?染色體21-衍生的分子數(shù)量超過(guò)正常妊娠的預(yù)期數(shù)量。
[0008] 考慮到以下事實(shí):染色體21僅包含人類基因組的一小部分(小于2%),為了采集 來(lái)自該染色體的足夠大的數(shù)量用于可靠診斷,必須隨機(jī)采取來(lái)自母體血漿的大量DNA分子 樣品,測(cè)序和通過(guò)生物信息學(xué)指定到特定染色體。以下兩項(xiàng)所需的血漿DNA分子的總數(shù),小 于所有或大部分胎兒基因組的樣品采集所需,但有至少幾十萬(wàn)個(gè)分子:(1)通過(guò)衍生自它 們的核苷酸序列信息來(lái)表征,和然后(2)可靠地指定到染色體位置。所需的最少數(shù)量是血 漿DNA部分的函數(shù),所述部分構(gòu)成母體無(wú)細(xì)胞血漿DNA分子群體的胎兒組分。典型地,該數(shù) 量介于一百萬(wàn)或幾百萬(wàn)分子之間。
[0009] 應(yīng)用該方法的挑戰(zhàn)是相當(dāng)大的,因?yàn)樵趤?lái)自特定染色體位置的DNA分子的統(tǒng)計(jì)中 需要高的定量準(zhǔn)確率。此外,來(lái)自母體血漿的DNA是基因組的混合物,其中胎兒組分是少部 分。該定量技術(shù)的困難與識(shí)別DNA樣品中的特定基因座上的突變?cè)谛再|(zhì)上是不同的。
[0010] 鑒于對(duì)于足夠大量的血漿DNA可以獲得一些核苷酸序列數(shù)據(jù),并且鑒于可以可靠 地應(yīng)用生物信息學(xué)方法來(lái)將足夠大的數(shù)量指定到它們的染色體來(lái)源,可以應(yīng)用統(tǒng)計(jì)學(xué)方法 來(lái)確定血漿DNA分子群體中的染色體失調(diào)的存在或不存在,具有統(tǒng)計(jì)學(xué)置信度。
[0011] 這種對(duì)來(lái)自母體血漿的DNA片段的隨機(jī)樣品、而不是僅由全基因組的一部分所構(gòu) 成的樣品的測(cè)序想法,就是NIH)方法學(xué)的基礎(chǔ),該方法描述于Fan等乂,2008,Proc Natl Acad Sci U S A 105,16266-16271和Chiu等乂,2008,Proc Natl Acad Sci U S A 105, 20458-20463〇
[0012] 在該領(lǐng)域的先前的診斷方法學(xué)已經(jīng)利用大規(guī)模平行DNA測(cè)序技術(shù),得到高質(zhì)量序 列數(shù)據(jù),相對(duì)無(wú)誤差,以獲得足夠長(zhǎng)度的序列,以指定到它們的染色體來(lái)源。迄今為止已知 的為了該目的而使用大規(guī)模平行測(cè)序(也稱為下一代測(cè)序或第二代測(cè)序)的這些方法的 明顯缺點(diǎn),是測(cè)序是以高質(zhì)量在全服務(wù)(full-service)基因組測(cè)序儀(主要是Illumina HiSeq)上進(jìn)行的,所述測(cè)序儀產(chǎn)生非常大量的數(shù)據(jù),需要耗費(fèi)時(shí)間和昂貴的生物信息學(xué)。運(yùn) 行時(shí)間和分析過(guò)程總共可能需要數(shù)周。另一個(gè)缺點(diǎn)是這些裝置的資本支出是巨大的(現(xiàn)在 完全超過(guò)五十萬(wàn)美元),這限制了廣泛使用它們。此外,多路能力被限制,阻礙這些昂貴機(jī)器 和進(jìn)一步限制了使用快速通量診斷大量患者。然而,對(duì)于非侵入性產(chǎn)前診斷有臨床需要,使 得甚至這些種種缺點(diǎn)也未阻止開(kāi)始開(kāi)發(fā)大規(guī)模平行測(cè)序。
[0013] 然而,某些自動(dòng)化測(cè)序裝置典型地產(chǎn)生的序列數(shù)據(jù)的質(zhì)量比常規(guī)基因組測(cè)序所需 的差得遠(yuǎn)。如此產(chǎn)生的序列數(shù)據(jù)的特征在于頻繁誤差。這些誤差是各種各樣的,但最常見(jiàn) 的是非常頻繁的"indel",這是由測(cè)序裝置發(fā)出錯(cuò)誤的額外堿基(插入)或缺失堿基所致的 誤差。此外,在對(duì)小的均聚物的運(yùn)行(即若干相同堿基的運(yùn)行)進(jìn)行有效測(cè)序時(shí)具有固有 的無(wú)能。此外,測(cè)序誤差也可包括"錯(cuò)配",其中堿基被錯(cuò)誤地指定。
[0014] 這種"經(jīng)濟(jì)級(jí)"測(cè)序是通過(guò)一些臺(tái)式高通量測(cè)序儀例如IonTorrent測(cè)序平臺(tái)廉 價(jià)和快速產(chǎn)生的一類。該測(cè)序平臺(tái)是基于半導(dǎo)體測(cè)序技術(shù)(Rothberg等人,2011,Nature475,348-352)。在聚合酶-催化的反應(yīng)中,當(dāng)一個(gè)核苷酸摻入到生長(zhǎng)中的DNA鏈時(shí),就釋 放一個(gè)質(zhì)子。通過(guò)檢測(cè)pH的相關(guān)變化,該技術(shù)檢測(cè)核苷酸是否已經(jīng)添加。半導(dǎo)體芯片用4 種DNA核苷酸前體之一(dATP、dCTP、dGTP或dTTP)序貫注入。如果核苷酸沒(méi)有摻入到生長(zhǎng) 中的鏈,就不產(chǎn)生電壓;如果添加兩個(gè)核苷酸,電壓變化大約兩倍。對(duì)堿基均聚物運(yùn)行的測(cè) 序當(dāng)均聚物長(zhǎng)度增加時(shí)是困難的。Indel誤差(假堿基插入或缺失)是頻繁的,尤其是與均 聚物運(yùn)行相關(guān)時(shí)。
[0015] 在可以對(duì)DNA樣品測(cè)序之前,工作流程包括連接特定的銜接頭序列,和乳化PCR。 制備時(shí)間典型地小于6小時(shí),并且測(cè)序運(yùn)行本身小于3小時(shí)。IonTorrent測(cè)序平臺(tái)以及其 它高通量臺(tái)式測(cè)序儀的性能,最近已經(jīng)有綜述(Loman等乂 2012,NatureBiotechnology 30(5),434-439;Liu等乂 2012,JournalofBiomedicineandBiotechnology2012, 卜 11;Quail等乂 2012,BMCGenomics, 13(341))。通過(guò)IonTorrent裝置產(chǎn)生的序列 數(shù)據(jù)的質(zhì)量被認(rèn)為特征在于頻繁的indel誤差。
[0016] 胎兒異常領(lǐng)域內(nèi)的準(zhǔn)確診斷是至關(guān)重要的。因此非常需要診斷方法學(xué),其容忍非 常頻繁的插入或缺失(indel)誤差和誤操作的短均聚物運(yùn)行,典型地通過(guò)某些自動(dòng)化測(cè)序 裝置來(lái)表征。
[0017]發(fā)明概述 依照本發(fā)明的第一方面,提供在得自女性受試者的生物樣品中檢測(cè)胎兒染色體異常的 方法,所述方法包括以下步驟: (a) 獲得在所述生物樣品內(nèi)的核酸分子的序列數(shù)據(jù); (b) 在所述序列數(shù)據(jù)內(nèi)的每個(gè)核酸序列和對(duì)應(yīng)于參考基因組的獨(dú)特部分的序列之間 進(jìn)行匹配分析,使得每個(gè)匹配的核酸被指定到所述參考基因組內(nèi)的特定染色體或所述染色 體的一部分,其中所述匹配分析對(duì)于對(duì)應(yīng)于所述參考基因組中的堿基的每個(gè)核酸內(nèi)的每個(gè) 堿基產(chǎn)生準(zhǔn)確率分值并對(duì)于任何插入、缺失、模糊(ambiguity)和/或取代產(chǎn)生罰分,使得 如果每個(gè)核酸的總分值達(dá)到預(yù)定分值閾值,匹配被指定;和 (c) 測(cè)定指定到靶染色體的匹配的核酸總數(shù)相對(duì)于指定到一個(gè)或多個(gè)參考染色體的 每個(gè)的匹配