利用部分胎兒濃度確定核酸序列失衡的制作方法
【專利摘要】本發(fā)明提供了利用部分胎兒濃度確定核酸序列失衡的方法、系統(tǒng)和裝置。選取了用于確定,例如,兩個序列(或兩組序列)的比率的失衡的一個或多個截止值??梢灾辽俨糠值鼗诤心阁w核酸序列背景的諸如母體血漿的樣品中胎兒DNA的百分比來確定所述截止值。還可以基于每一反應(yīng)的序列的平均濃度來確定該截止值。在一方面,從估計含有特定核酸序列的信息孔的比例來確定該截止值,其中該比例基于上文所述的百分比和/或平均濃度來確定??梢岳弥T如序貫概率比檢驗(SPRT)的許多不同類型的方法來確定該截止值。
【專利說明】利用部分胎兒濃度確定核酸序列失衡
[0001]優(yōu)先權(quán)的要求
[0002]本申請要求于2007年7月23日提交的、題目為“核酸序列失衡的測定”的第60/951438號美國臨時申請(代理公司案卷號016285-005200US)的優(yōu)先權(quán),并且是所述臨時申請的正式申請,該臨時申請的全部內(nèi)容通過引用的方式并入本文用于所有目的。
[0003]相關(guān)申請的交叉引用
[0004]本申請還涉及同時提交的、題目為“利用基因組測序診斷胎兒染色體非整倍性”的正式申請(代理公司案卷號016285-005220US),該正式申請的全部內(nèi)容通過引用的方式并入本文用于所有目的。
發(fā)明領(lǐng)域
[0005]本發(fā)明一般地涉及通過確定兩個不同核酸序列之間的失衡對基因型和疾病進行的診斷檢測,更具體地,涉及通過檢測母體血液樣品對胎兒的唐氏綜合征、其它染色體非整倍性、突變和基因型的鑒定。本發(fā)明還涉及癌癥的檢測、移植的監(jiān)測和傳染病監(jiān)測。
[0006]發(fā)明背景
[0007]遺傳疾病、癌癥和其它病況通常由兩個對應(yīng)的染色體或等位基因或其它核酸序列中的失衡導(dǎo)致或產(chǎn)生兩個對應(yīng)的染色體或等位基因或其它核酸序列中的失衡。也就是說,一個序列相對于另一序列的量大于或小于正常值。通常地,正常比率恰好是50/50的比率。唐氏綜合征(21三體性)是具有額外的染色體21失衡的這類疾病。
[0008]21三體性的常規(guī)產(chǎn)前診斷方法包括通過諸如羊膜穿刺取樣或絨毛膜絨毛取樣的侵入性操作的胎兒物質(zhì)的取樣,這引起胎兒丟失的有限風險。諸如通過超聲波掃描術(shù)和生化標記物的篩查的無創(chuàng)性方法已經(jīng)用于在確定性的侵入性診斷方法前對孕婦進行風險分級(risk-stratify)。然而,這些篩查方法通常測量與21三體性有關(guān)的附帶現(xiàn)象,而不是核心染色體異常,因此該篩查方法的診斷準確性不是最佳的,并且具有其它劣勢,例如受孕齡影響大。
[0009]1997年發(fā)現(xiàn)的母體血漿中循環(huán)的無細胞胎兒DNA為無創(chuàng)產(chǎn)前診斷提供了新的可能性(Lo, YMD and Chiu, RWK2007Nat Rev Genet8, 71-77)。盡管這種方法已經(jīng)容易地應(yīng)用于性連鎖(Costa, JM et al.2002N Engl J Med346, 1502)和某些單基因病癥(Lo, YMDet al.1998N Engl J Med339, 1734-1738)的產(chǎn)前診斷,但是該方法在胎兒染色體非整倍性的產(chǎn)前檢測的應(yīng)用表現(xiàn)出相當?shù)奶魬?zhàn)(Lo,YMD and Chiu, RWK2007,見上文)。首先,胎兒核酸與經(jīng)常能夠干擾分析的母體來源的核酸的高背景共同存在于母體血漿中(Lo,YMD etal.1998Am J Hum Genet62,768-775)。其次,胎兒核酸主要以無細胞形式在母體血漿中循環(huán),這使得難以獲得胎兒基因組中的基因或染色體的劑量信息。
[0010]最近實現(xiàn)了克服這些挑戰(zhàn)的明顯發(fā)展(Benachi,A&Costa, JM2007Lancet369, 440-442)。一種方法檢測母體血漿中的胎兒特異性核酸,從而克服了母體背景干擾的問題(Lo, YMD and Chiu, RWK2007,見上文)。從源自胎盤的DNA/RNA分子中的多態(tài)性等位基因的比率來推斷染色體21的劑量。然而,當樣品含有較低量的靶向的基因時,這種方法較不準確,并且只能應(yīng)用于對靶向的多態(tài)性是雜合的胎兒,如果使用了一種多態(tài)性,則該靶向的多態(tài)性只是群體的子集。
[0011]Dhallan 等人(Dhal lan, R, et al.2007,見上文,Dhal lan, R, etal.2007Lancet369, 474-481)描述了通過向母體血漿中添加甲醛來富集循環(huán)的胎兒DNA比例的替代策略。通過評價對于染色體21上的單核苷酸多態(tài)性(SNP)遺傳自父親的胎兒特異性等位基因比非胎兒特異性等位基因的比率,來確定由母體血漿中胎兒貢獻的染色體21序列的比例。類似地計算參考染色體的SNP比率。然后通過檢測染色體21的SNP比率與參考染色體的SNP比率之間統(tǒng)計學的顯著差異來推斷胎兒染色體21的失衡,其中使用確定的小于0.05的P值來定義顯著。為了保證高群體覆蓋,祀向每個染色體多于500個的SNP。然而,對富集高比例的甲醛的有效性仍有爭議(Chung, GTY,et al.2005ClinChem51, 655-658),因此,該方法的可重復(fù)性需要進一步的評價。此外,由于每個胎兒和母親將提供每個染色體的不同數(shù)目的SNP的信息,所以SNP比率比較的統(tǒng)計學檢驗的效能在不同個例之間是可變的(Lo, YMD&Chiu, RffK.2007Lancet369, 1997)。而且,由于這些方法依賴于遺傳多態(tài)性的檢測,所以它們局限于對這些多態(tài)性是雜合的胎兒。
[0012]利用聚合酶鏈式反應(yīng)(PCR)以及從21三體性胎兒和整倍體胎兒獲得的羊膜細胞(amniocyte)培養(yǎng)物中的染色體21基因座和參考基因座的DNA定量,基于21三體性胎兒中染色體21的DNA序列的1.5倍的增加,Zimmermann等人(2002Clin Chem48, 362-363)能夠區(qū)分這兩組胎兒。由于DNA模板濃度的2倍差異組成了只有一個閥值循環(huán)的差別(Ct),所以1.5倍差異的鑒別已經(jīng)是常規(guī)實時PCR的極限。為了實現(xiàn)更精細程度的定量鑒別,亟需替代的策略。因此,出于這一目的,本發(fā)明的某些實施方案使用數(shù)字PCR(V0gelStein,B etal.1999Proc Natl Acad Sci USA96, 9236-9241)。
[0013]已經(jīng)開發(fā)了數(shù)字PCR來檢測核酸樣品中偏移的等位基因比率(Chang,HW etal.2002J Natl Cancer Inst94,1697-1703)。數(shù)字PCR在臨床上已經(jīng)被證實對于檢測腫瘤DNA樣品中的雜合性丟失(LOH)是有用的(Zhou, ff.et al.2002Lancet359, 219-225)。對于數(shù)字PCR結(jié)果分析,以前的研究采用了序貫概率比檢驗(SPRT)來將實驗結(jié)果分類為提示樣品中存在 LOH 或不存在 LOH(El Karoui et al.2006Stat Med25, 3124-3133)。在以前的研究所用的方法中,確定LOH的截止值(cutoff value)使用了 DNA中兩個等位基因的固定參考比率,該比率為2/3。由于母體血漿中胎兒核酸的量、比例和濃度是可變的,所以這些方法對于使用母體血漿中的母體核酸背景中的胎兒核酸來檢測21三體性是不合適的。
[0014]期望具有基于循環(huán)的胎兒核酸分析的胎兒21三體性(和其它失衡)檢測的無創(chuàng)檢測,特別是不依賴于遺傳多態(tài)性和/或胎兒特異性標記物的使用的無創(chuàng)檢測。還期望具有截止值和序列記數(shù)的準確測定,這能夠減少準確性所需的數(shù)據(jù)孔的數(shù)目和/或母體血漿核酸分子的量,從而提供了增加的效率和成本效益。還期望該無創(chuàng)檢測具有高靈敏度和特異性以將誤診斷降至最低。
[0015]母體血漿中胎兒DNA檢測的另一應(yīng)用是單基因病癥的產(chǎn)前診斷,例如β-地中海貧血癥。然而,由于胎兒DNA只組成了母體血漿DNA的一小部分,所以這種方法被認為只能夠檢測胎兒從其父親遺傳但是其母親沒有的突變。這種突變的實例包括導(dǎo)致β-地中海貧血癥的β-球蛋白基因的密碼子41/42的4bp缺失(Chiu RffK etal.2002Lancet, 360, 998-1000)和導(dǎo)致囊性纖維化的囊性纖維化跨膜傳導(dǎo)調(diào)節(jié)因子基因的Q890X 突變(Gonzalez-Gonzalez et al.2002Prenat Diagn, 22,946-8)。然而,由于 β-地中海貧血癥和囊性纖維化都是常染色體隱性條件的,其中在該疾病自身顯現(xiàn)前,胎兒需要繼承來自雙親中每個的突變,所以只檢測遺傳自父親的突變只會使得胎兒患有該疾病的風險從25%增加至50%。這在診斷上不是理想的。因此,當胎兒能夠被排除具有純合疾病狀態(tài)時,現(xiàn)有方法的主要診斷應(yīng)用是用于在母體血漿中不能檢測到遺傳自父親的胎兒突變的情況。然而,這種方法在診斷上的劣勢是,結(jié)論是基于父親突變的陰性檢測做出的。因此,允許從母體血漿中確定完整的胎兒基因型(純合正常、純合突變體或雜合)而沒有上文的限制的方法是非常理想的。
[0016]發(fā)明簡述
[0017]本發(fā)明的實施方案提供了用于確定在生物樣品中是否存在核酸序列失衡(例如,等位基因失衡、突變失衡或染色體失衡)的方法、系統(tǒng)和裝置。例如,選擇了用于確定兩個序列(或兩組序列)的量的比率的失衡的一個或多個截止值。
[0018]在一實施方案中,至少部分地基于諸如母體血漿或血清或尿的含有母體核酸序列背景的生物樣品中的胎兒(臨床相關(guān)的核酸)序列的百分比來確定所述截止值。在另一實施方案中,基于多個反應(yīng)中的序列的平均濃度來確定所述截止值。在一方面,從估計含有特定核酸序列的信息孔的比例來確定所述截止值,其中該比例是基于上文所述的百分比和/或平均濃度來確定的。
[0019]可以使用許多不同類型的方法來確定所述截止值,例如SPRT、假發(fā)現(xiàn)(falsediscovery)、置信區(qū)間、接收器工作特性(receiver operating characteristic) (ROC)。這種策略還在能夠做出置信分類(confident classification)前將檢測所要求的量降至最少。這種策略與模板的量通常是有限的血漿核酸分析是特別相關(guān)的。
[0020]根據(jù)一示例性實施方案,提供了用于確定生物樣品中是否存在核酸序列失衡的方法,該方法包括:接收來自多個反應(yīng)的數(shù)據(jù),其中該數(shù)據(jù)包括:(1)表明臨床相關(guān)的核酸序列的第一量的第一組定量數(shù)據(jù);和(2)表明不同于所述臨床相關(guān)的核酸序列的背景核酸序列的第二量的第二組定量數(shù)據(jù);從這兩個數(shù)據(jù)組來確定參數(shù);從多個反應(yīng)的每一個中的參考核酸序列的平均濃度導(dǎo)出第一截止值,其中該參考核酸序列是所述臨床相關(guān)的核酸序列或所述背景核酸序列;將所述參數(shù)與所述第一截止值比較;并且,基于該比較來確定是否存在核酸序列失衡的分類。
[0021]根據(jù)另一示例性實施方案,提供了用于確定生物樣品中是否存在核酸序列失衡的方法,該方法包括:接收來自多個反應(yīng)的數(shù)據(jù),其中該數(shù)據(jù)包括:(I)表明臨床相關(guān)的核酸序列的第一量的第一組定量數(shù)據(jù);和(2)表明不同于所述臨床相關(guān)的核酸序列的背景核酸序列的第二量的第二組定量數(shù)據(jù),其中,所述臨床相關(guān)的核酸序列和所述背景核酸序列來自第一類型的細胞和來自一種或多種第二類型的細胞;從這兩個數(shù)據(jù)集來確定參數(shù);從得自核酸序列的量的測量的第一百分比導(dǎo)出第一截止值,該核酸序列來自生物樣品中所述第一類型的細胞;將所述參數(shù)與所述截止值比較;并且,基于該比較來確定是否存在核酸序列失衡的分類。
[0022]本發(fā)明的其它實施方案涉及與本文所述的方法相關(guān)的系統(tǒng)和計算機可讀取的介質(zhì)。
[0023]參照下文的發(fā)明詳述和附圖將更好地理解本發(fā)明的特性和優(yōu)勢。[0024]附圖簡述
[0025]圖1是示出數(shù)字PCR實驗的流程圖。
[0026]圖2A示出本發(fā)明實施方案的數(shù)字RNA-SNP和RCD方法。
[0027]圖2B顯示了在癌癥中可頻繁檢測到的染色體畸變的實例的表格。
[0028]圖3示出按照本發(fā)明的實施方案用于確定唐氏綜合征的具有SPRT曲線的圖。
[0029]圖4顯示了按照本發(fā)明的實施方案利用胎兒細胞百分比來確定疾病狀態(tài)的方法。
[0030]圖5顯示了按照本發(fā)明的實施方案利用平均濃度來確定疾病狀態(tài)的方法。
[0031]圖6顯示的表格的列出了按照本發(fā)明的實施方案對于表示為每孔的平均參考模板濃度0?)的一系列模板濃度而言,21三體性樣品的預(yù)期數(shù)字RNA-SNP等位基因比率和Pro
[0032]圖7顯示的表格列出了按照本發(fā)明的實施方案對于表示為每孔的平均參考模板濃度Οτι,)的一系列模板濃度而言,21三體性樣品中的10%、25%、50%和100%的部分胎兒DNA濃度的預(yù)期Pr。
[0033]圖8顯示的圖示出了按照本發(fā)明的實施方案,數(shù)字RNA-SNP分析的0.1、0.5和1.0的m,值的SPRT曲線的差異程度。
[0034]圖9A顯示了按照本發(fā)明的實施方案在96孔數(shù)字RNA-SNP分析中比較用于分類整倍體和21三體性實例的新和舊SPRT算法的有效性的表格。
[0035]圖9B顯示了按照本發(fā)明的實施方案在384孔數(shù)字RNA-SNP分析中比較用于分類整倍體和21三體性實例的新和舊SPRT算法的有效性的表格。
[0036]圖10的表格顯示了按照本發(fā)明的實施方案,對于給定的信息計數(shù),被正確或錯誤分類為整倍體或非整倍體以及那些不可分類的胎兒的百分比。
[0037]圖11是表格1100,顯示了按照本發(fā)明的實施方案,純(100%)胎兒DNA樣品的數(shù)字RCD分析的計算機模擬。
[0038]圖12是表格1200,顯示了按照本發(fā)明的實施方案,m,=0.5的數(shù)字RCD分析的準確性的計算機模擬的結(jié)果,該數(shù)字RCD分析用于對來自具有不同部分濃度的胎兒DNA的整倍體或21三體性胎兒的樣品進行分類。
[0039]圖13A顯示了按照本發(fā)明的實施方案,整倍體妊娠和21三體性妊娠的胎盤組織的數(shù)字RNA-SNP分析的表格1300。
[0040]圖13B顯示了按照本發(fā)明的實施方案,來自整倍體妊娠和21三體性妊娠的母體血漿的數(shù)字RNA-SNP分析的表格1350。
[0041]圖14A-14C顯示的圖示例了按照本發(fā)明實施方案得自RCD分析的截止曲線。
[0042]圖15A顯示了按照本發(fā)明的實施方案,整倍體妊娠和21三體性妊娠的胎盤組織中的數(shù)字RNA-SNP分析的表格。
[0043]圖15B顯示了按照本發(fā)明的實施方案,來自一個母體血漿樣品的12個反應(yīng)板的數(shù)字RNA-SNP數(shù)據(jù)的表格。
[0044]圖15C顯示了按照本發(fā)明的實施方案,來自整倍體妊娠和21三體性妊娠的母體血漿的數(shù)字RNA-SNP分析的表格。
[0045]圖16A顯示了按照本發(fā)明的實施方案,整倍體胎盤和18三體性胎盤的數(shù)字RNA-SNP分析的表格。[0046]圖16B顯示了按照本發(fā)明的實施方案,整倍體胎盤和18三體性胎盤的數(shù)字RNA-SNP數(shù)據(jù)的SPRT解釋。
[0047]圖17顯示了按照本發(fā)明的實施方案,整倍體妊娠和21三體性妊娠的50%胎盤/母體血液細胞DNA混合物的數(shù)字RCD分析的表格。
[0048]圖18顯示的SPRT曲線示例了按照本發(fā)明的實施方案,用于正確分類的判定邊界(decision boundary)。
[0049]圖19顯示了按照本發(fā)明的實施方案,來自整倍體妊娠和21三體性妊娠的羊水樣品的數(shù)字RCD分析的表格。
[0050]圖20顯示了按照本發(fā)明的實施方案,來自整倍體妊娠和18三體性妊娠的胎盤DNA樣品的數(shù)字RCD分析的表格(E=整倍體;T18=18三體性)。
[0051]圖21顯示了按照本發(fā)明的實施方案,整倍體妊娠和21三體性妊娠的50%胎盤/母體血液細胞DNA混合物的多重數(shù)字RCD分析的表格(E=整倍體;Τ21=21三體性;U=未分類的)。
[0052]圖22A和22B顯示按照本發(fā)明的實施方案,50%整倍體或21三體性胎盤基因組DNA/50%母體血沉棕黃色層(buffy coat) DNA混合物的多重數(shù)字RCD分析的表格。Unclass表示不可分類的并且T21表示21三體性。
[0053]圖23顯示了雄性和雌性配偶都攜帶相同突變的情況。
[0054]圖24A顯示按照本發(fā)明的實施方案,雌性/雄性和雄性/雄性DNA混合物的數(shù)字RMD分析的表格。
[0055]圖24B顯示了按照本發(fā)明的實施方案,25%雌性與75%雄性DNA混合物的數(shù)字RMD分析的表格。
[0056]圖25顯示了按照本發(fā)明的實施方案,模擬母體血漿樣品HbE突變的15%_50%DNA混合物的數(shù)字RMD分析的表格。
[0057]圖26A顯示了按照本發(fā)明的實施方案,模擬母體血漿樣品⑶41/42突變的5%_50%的DNA混合物的數(shù)字RMD分析的表格。
[0058]圖26B顯示了按照本發(fā)明的實施方案,模擬母體血漿樣品⑶41/42突變的20%的DNA混合物的數(shù)字RMD分析的表格。
[0059]圖27顯示了可用于本發(fā)明的實施方案的系統(tǒng)和方法的示例性計算機裝置的方框圖。
[0060]定義
[0061]本文所用的術(shù)語“生物樣品”意指取自個體(例如,諸如孕婦的人)并含有一種或多種感興趣的核酸分子的任何樣品。
[0062]術(shù)語“核酸”或“多核苷酸”意指脫氧核糖核酸(DNA)或核糖核酸(RNA)及其單鏈或雙鏈形式的聚合物。除非特別地限定,該術(shù)語包括含有天然核苷酸的已知類似物的核酸,其具有與參考核酸類似的結(jié)合特性,并且以與天然存在的核苷酸類似的方式進行代謝。除非另外指明,特定的核酸序列還隱含地包括其保守地修飾的變體(例如,簡并密碼子取代)、等位基因、直向同源物、SNP和互補序列以及明確地指出的序列。具體地,簡并密碼子取代可以通過產(chǎn)生如下的序列實現(xiàn):其中一個或多個選擇的(或全部)密碼子的第三位被混合堿基和/或脫氧次黃苷殘基取代(Batzer et al., Nucleic AcidRes.19:5081(1991);Ohtsuka et al., J.Biol.Chem.260:2605-2608 (1985)和 Rossoliniet al.,Mol.Cell.Probes8:91-98 (1994))。術(shù)語核酸與基因、cDNA、mRNA、小非編碼 RNA、微RNA(miRNA)、Piwi_相互作用RNA以及基因或基因座編碼的短發(fā)夾RNA(shRNA)可交換使用。
[0063]術(shù)語“基因”表示與產(chǎn)生多肽鏈有關(guān)的DNA的片段。其可以包括編碼區(qū)之前和之后的區(qū)域(前導(dǎo)區(qū)和非轉(zhuǎn)錄尾區(qū))以及單獨的編碼片段(外顯子)之間的間插序列(內(nèi)含子)。
[0064]本文所用的術(shù)語“反應(yīng)”意指與表示感興趣的特定多核苷酸序列的存在或不存在的化學、酶或物理作用有關(guān)的任何過程?!胺磻?yīng)”的實例是諸如聚合酶鏈式反應(yīng)(PCR)的擴增反應(yīng)?!胺磻?yīng)”的另一實例是通過合成或通過連接的測序反應(yīng)。“信息反應(yīng)”是表明一種或多種感興趣的特定多核苷酸序列的存在的反應(yīng),并且在一種情況下,只存在一種感興趣的序列。本文所用的術(shù)語“孔”意指在有限的結(jié)構(gòu)內(nèi)的預(yù)定位置的反應(yīng),例如,PCR陣列中的孔狀小管、單元或室。
[0065]本文所用的術(shù)語“臨床相關(guān)的核酸序列”能夠指對應(yīng)于更大的基因組序列的片段的多核苷酸序列或者指更大的基因組序列自身,該多核苷酸序列的潛在失衡被檢測。一個實例是染色體21的序列。其它實例包括染色體18、13、X和Y。仍然其它的實例包括胎兒遺傳自其雙親中一個或兩個的突變的遺傳序列或遺傳多態(tài)性或拷貝數(shù)變異。仍然其它的實例包括在惡性腫瘤中突變、缺失或擴增的序列,例如,發(fā)生了雜合性丟失或基因重復(fù)的序列。在某些實施方案中,多個臨床相關(guān)的核酸序列或該臨床相關(guān)的核酸序列等同的多個標記物能夠用于提供檢測失衡的數(shù)據(jù)。例如,來自染色體21上的5個不連續(xù)序列的數(shù)據(jù)能夠以累加的方式用于確定可能的染色體21失衡,從而將所需的樣品體積有效地減少至1/5。
[0066]本文所用的術(shù)語“背景核酸序列”意指與所述臨床相關(guān)的核酸序列的正常比率是已知的核酸序列,例如,I比I的比率。作為一個實例,所述背景核酸序列和所述臨床相關(guān)的核酸序列是來自相同的染色體并且由于雜合性而不同的兩個等位基因。在另一實例中,所述背景核酸序列是與另一等位基因雜合的一個等位基因,所述另一等位基因是所述臨床相關(guān)的核酸序列。而且,某些背景核酸序列和臨床相關(guān)的核酸序列的每一個可以來自不同的個體。
[0067]本文所用的術(shù)語“參考核酸序列”意指每個反應(yīng)的平均濃度是已知的或者已經(jīng)被等同地測量過的核酸序列。
[0068]本文所用的術(shù)語“過度表現(xiàn)的(overrepresented)核酸序列”意指在生物樣品中的兩個感興趣的序列(例如,臨床相關(guān)的序列和背景序列)之中豐度比另一序列更高的的核酸序列。
[0069]本文所用的術(shù)語“基于”表示“至少部分地基于”,并且意指在確定另一值時所用的一個值(或結(jié)果),例如,發(fā)生在方法的輸入和該方法的輸出的聯(lián)系中。本文所用的術(shù)語“導(dǎo)出”也意指方法的輸入和該方法的輸出的聯(lián)系,例如,當導(dǎo)出是公式的計算時發(fā)生。
[0070]本文所用的術(shù)語“定量數(shù)據(jù)”表示從一個或多個反應(yīng)獲得并且提供一個或多個數(shù)值的數(shù)據(jù)。例如,顯示特定序列的熒光標記物的孔的數(shù)目是定量數(shù)據(jù)。
[0071]本文所用的術(shù)語“參數(shù)”表示表征定量數(shù)據(jù)組和/或定量數(shù)據(jù)組之間的數(shù)值聯(lián)系的數(shù)值。例如,第一核酸序列的第一量與第二核酸序列的第二量之間的比率(或比率的函數(shù))是參數(shù)。[0072]本文所用的術(shù)語“截止值”表示用于在生物樣品的兩個或更多個類別狀態(tài)(例如,患病和未患病)之間進行裁定(arbitrate)的數(shù)值。例如,如果參數(shù)大于截止值,將定量數(shù)據(jù)分為第一類(例如,患病狀態(tài)),或者如果該參數(shù)小于該截止值,則將定量數(shù)據(jù)分為另一類(例如,未患病狀態(tài))。
[0073]本文所用的術(shù)語“失衡”表示由臨床相關(guān)的核酸序列的量中至少一個截止值所定義的與參考量的任何顯著偏差。例如,該參考量能夠是3/5的比率,因此如果測量的比率是1:1,則發(fā)生了失衡。
[0074]發(fā)明詳述
[0075]本發(fā)明提供了方法、系統(tǒng)和裝置,用于確定在生物樣品中,與臨床相關(guān)的核酸序列相對于其它非臨床相關(guān)的序列的參考(例如,未患病)量比較,是否存在增加或減少(例如,染色體或等位基因失衡)。選擇一個或多個截止值來確定與參考量相比是否存在變化(即,失衡),例如,關(guān)于兩個序列(或兩組序列)的量的比率。檢測到的參考量變化可以是臨床相關(guān)的核酸序列與其它非臨床相關(guān)的序列的關(guān)系的任何偏差(上升或下降)。因此,參考狀態(tài)可以是任何比率或其它量(例如,除了 l-ι的對應(yīng)),并且表示變化的測量狀態(tài)可以是任何比率或不同于由一個或多個截止值所確定的參考量的其它量。
[0076]所述臨床相關(guān)的核酸序列和所述背景核酸序列可以來自第一類型的細胞和來自一種或多種第二類型的細胞。例如,源自胎兒/胎盤細胞的胎兒核酸序列存在于諸如母體血漿的生物樣品中,該生物樣品包含源自母體細胞的母體核酸序列的背景。因此,在一實施方案中,至少部分地基于生物樣品中所述第一類型的細胞的百分比來確定截止值。注意,可以通過任何源自胎兒的基因座來測定樣品中胎兒序列的百分比,并且不限于測量所述臨床相關(guān)的核酸序列。在另一實施方案中,至少部分地基于諸如血漿、血清、唾液或尿的生物樣品中腫瘤序列的百分比來確定截止值,該生物樣品包含源自體內(nèi)的非惡性細胞的核酸序列的背景。
[0077]仍然在另一實施方案中,基于多個反應(yīng)中序列的平均濃度來確定截止值。在一方面,從估計含有特定核酸序列的信息孔的比例來確定所述截止值,其中該比例是基于上文所述的百分比和/或平均濃度來確定的。可以使用許多不同類型的方法來確定截止值,例如,SPRT、假發(fā)現(xiàn)、置信區(qū)間、接收器工作特性(ROC)。這種策略還能夠在做出確信的分類前將檢測所要求的量降至最少。這與模板的量通常有限的血漿核酸分析是特別相關(guān)的。盡管通過數(shù)字PCR來表現(xiàn)這種策略,但是也可以使用其它方法。
[0078]數(shù)字PCR包括極端稀釋的核酸的多個PCR分析,從而大部分陽性擴增反映了來自單個模板分子的信號。由此數(shù)字PCR允許計數(shù)單獨的模板分子。分析的PCR總數(shù)中的陽性擴增的比例允許估計原始或未稀釋的樣品中的模板濃度。這種技術(shù)被認為允許檢測各種遺傳現(xiàn)象(Vogelstein, B et al.1999,見上文),并且最近被用于檢測腫瘤樣品(Zhou, ff.etal.2002,見上文)和癌癥患者血漿(Chang, HW et al.2002,見上文)中的雜合性丟失。由于通過數(shù)字PCR的模板分子定量不依賴于報道染料與核酸濃度之間的劑量反應(yīng)關(guān)系,所以理論上數(shù)字PCR分析的精度應(yīng)當高于實時PCR的精度。因此,數(shù)字PCR潛在地能夠允許鑒別靶基因座與參考基因座之間更精細程度的定量差異。
[0079]為了對此進行檢測,我們首先評價數(shù)字PCR是否能夠測定母體血漿中來自染色體21 的胎盤轉(zhuǎn)錄物,PLAC4mRNA 的等位基因比率(Lo, YMD, et al.2007Nat Medl3, 218-223),從而區(qū)分21三體性胎兒和整倍體胎兒。這種方法被稱為數(shù)字RNA-SNP方法。我們?nèi)缓笤u價數(shù)字PCR增加的精度是否能夠允許檢測胎兒的染色體非整倍性而不依賴于遺傳多態(tài)性。我們將這種方法稱為數(shù)字相關(guān)的染色體劑量(RCD)分析。數(shù)字RNA-SNP方法依賴于多態(tài)性,但是在定量鑒別中要求較低的精度,而數(shù)字相關(guān)的染色體劑量(RCD)分析不依賴于多態(tài)性,但是對于定量鑒別要求較高的精度。
[0080]1.數(shù)字 RNA-SNP
[0081]A.概述
[0082]數(shù)字PCR能夠檢測DNA樣品中兩個等位基因的等位基因比率偏移的存在。例如,數(shù)字PCR已經(jīng)用于檢測腫瘤DNA樣品中的雜合性丟失(LOH)。假定在DNA樣品中有兩個等位基因,即A和G,并且A等位基因?qū)⒃诩毎须S著LOH而丟失。當在腫瘤樣品的50%的細胞中存在LOH時,該DNA樣品中G:A的等位基因比率將是2:1。然而,如果在該腫瘤樣品中不存在LOHJU G:A的等位基因比率的比率將是1:1。
[0083]圖1是示出數(shù)字PCR實驗的流程圖。在步驟110中,將DNA樣品稀釋,然后分配至單獨的孔中。注意,發(fā)明人已經(jīng)確定在原始樣品中,某些血漿核酸種類已經(jīng)被充分地稀釋。因此,如果某些模板已經(jīng)以需要的濃度存在,則不需將它們稀釋。在以前的研究中(例如,Zhou et al.2002,見上文),將DNA樣品稀釋至特定的“模板DNA”的平均濃度約是每孔的兩個模板中的一個模板0.5分子的程度。注意,術(shù)語“模板DNA”看起來意指A等位基因或G等位基因,并且沒有為這種具體的濃度提供原理闡述。
[0084]在步驟120中,在每個孔中進行PCR過程來同時檢測A等位基因和/或G等位基因。在步驟130中,在每個孔中鑒定了標記物(例如,通過熒光),例如,A、G、A和G或者A和G都不是。在沒有LOH的情況下,DNA樣品中的A等位基因與G等位基因的豐度將是相同的(每孔一個拷貝)。因此,孔對該A等位基因與對該G等位基因是陽性的概率是相同的。這通過對該A等位基因或?qū)υ揋等位基因是陽性的孔的數(shù)目相似反映出。然而,當在腫瘤樣品的50%或更多的細胞中存在LOH時,G等位基因和A等位基因的等位基因比率將至少是2:1。以前的方法簡單地假定,樣品是至少50%癌性的。因此,孔對G等位基因是陽性的概率將高于對A等位基因是陽性的概率。因此,對G等位基因是陽性的孔的數(shù)目將大于對A等位基因是陽性的孔的數(shù)目。
[0085]在步驟140中,為了分類數(shù)字PCR的結(jié)果,計數(shù)對每個等位基因是陽性的,但是對另一等位基因不是陽性的孔。在上文的實例中,計數(shù)了對A等位基因是陽性,但對G等位基因是陰性的孔的數(shù)目和對G等位基因是陽性,但對A等位基因是陰性的孔的數(shù)目。在一實施方案中,表現(xiàn)出較少的陽性孔的等位基因被視為參考等位基因。
[0086]在步驟150中,信息孔的總數(shù)被確定為對所述兩個等位基因的任一個是陽性的孔的數(shù)目的總和。在步驟160中,計算了由具有較多的陽性孔的等位基因貢獻的信息孔的比例(PJ (參數(shù)的實例)。Pf只對具有較多陽性孔的等位基因是陽性的孔的數(shù)目/只對一個等位基因(A或G)是陽性的孔的總數(shù)。其它實施方案能夠使用具有一個等位基因的全部孔除以具有至少一個等位基因的全部孔。
[0087]在步驟170中,確定Pr的值是否表示等位基因失衡。由于期望準確度和效能,所以這一任務(wù)并非簡單的。確定失衡的一種方法使用了 Bayesian類似然方法,序貫概率比檢驗(SPRT)。SPRT是允許隨著數(shù)據(jù)的積累比較兩種概率假設(shè)的方法。換言之,SPRT是將數(shù)字PCR結(jié)果分類為表示等位基因偏移存在或不存在的統(tǒng)計學方法。該方法具有將獲得特定統(tǒng)計功效和準確度所需要分析的孔的數(shù)目減至最小的優(yōu)勢。
[0088]在示例性的SPRT分析中,將針對無效假設(shè)和備選假設(shè)來檢驗實驗結(jié)果。當在樣品中有等位基因比率偏移時,則接受備選假設(shè)。當在樣品中沒有等位基因比率偏移時,則接受無效假設(shè)。將該匕值與兩個截止值比較以接受無效假設(shè)或備選假設(shè)。如果沒有接受任何一個假設(shè),則將該樣品標記為未分類的,這表示觀察到的數(shù)字PCR結(jié)果不足以以期望的統(tǒng)計學可信度將該樣品進行分類。
[0089]通?;谠诩僭O(shè)中給出的假定下的己固定值來計算接受無效假設(shè)或備選假設(shè)的截止值。在所述無效假設(shè)中,假定樣品沒有表現(xiàn)出等位基因比率偏移。因此,對A等位基因和G等位基因是陽性的每個孔的概率將是相同的,因此,匕的預(yù)期值將是1/2。在所述備選假設(shè)中,Pr的預(yù)期值是2/3,或者大約是0.5與2/3的中間值,例如0.585。并且,由于有限的實驗數(shù)目,能夠選擇上限(.585+3/N)和表示為(.585-3/N)的下限。
[0090]B.唐氏綜合征的檢測
[0091]在本發(fā)明的一實施方案中,數(shù)字SNP用于從孕婦血漿中檢測胎兒唐氏綜合征。使用對胎兒/胎盤細胞特異性的標記物可以測量染色體21中的等位基因比率。例如,為了確定觀察到的PLAC4等位基因的過度表現(xiàn)的程度是否是統(tǒng)計學顯著的,使用SPRT。
[0092]根據(jù)一示例性的實施方案,數(shù)字RNA-SNP確定了位于PLAC4mRNA的A/G SNP,rs8130833的多態(tài)性等位基因比率的失衡,該mRNA是從染色體21轉(zhuǎn)錄并被胎盤表達的。對于雜合的整倍體胎兒,A等位基因和G等位基因應(yīng)當在胎兒基因組中被相等地表現(xiàn)(1:1基因組比率);而在21三體性中,三體的染色體21將與胎兒基因組中的一個SNP等位基因的額外拷貝有關(guān),從而獲得2:1的比率。數(shù)字PCR的目的是確定分析的樣品中的兩個PLAC4等位基因的量是否相等。因此,A PLAC4等位基因和G PLAC4等位基因都是靶模板。設(shè)計了實時PCR測定來擴增PLAC4mRNA,并且通過TaqMan熒光探針來鑒別這兩個SNP等位基因。分析步驟的示意圖示于圖2A中。
[0093]圖2A示出本發(fā)明實施方案的數(shù)字RNA-SNP方法200。在步驟210中,接收樣品。在步驟220中,在提取的RNA樣品中將諸如PLAC4mRNA的核酸序列定量。在一實施方案中,通過PLAC4mRNA的實時PCR來進行這種定量。在一方面,這個步驟為操作者提供在靶標達至IJ數(shù)字PCR分析的“范圍”前所需的稀釋程度的概念。
[0094]在步驟230中,將樣品稀釋。在步驟240中,測量稀釋的樣品的濃度。稀釋的樣品濃度可以被證實為約I個模板/孔(即,參考序列或非參考序列或任何一個等位基因)。某些實施方案使用第IV部分所述的技術(shù)來進行這一測量。例如,我們將稀釋的樣品分配至實時PCR分析的96個孔中來保證實現(xiàn)了可用的稀釋。如在后文中將解釋的,稀釋濃度也可以是未知的,從而省略這一步驟。
[0095]在步驟250中,在陣列的每個孔中進行數(shù)字PCR。例如,將相同的稀釋的樣品分配至實時PCR分析的384個孔中。從PCR結(jié)果中鑒定了每個核酸序列的標記物的量和信息孔的數(shù)目。信息孔被定義為僅對A等位基因或G等位基因是陽性,而不是對兩個等位基因都是陽性的孔。在步驟260中,計算匕的預(yù)期值。在后文中將更詳細地討論這些步驟。所述計算包括從步驟250所測定的值來確定參數(shù)。例如,可以計算每孔的實際平均模板濃度。
[0096]在步驟270中,可以進行SPRT或其它似然比率檢驗來確定是否存在失衡。對于整倍體情況,我們預(yù)期相等數(shù)目的A陽性孔和G陽性孔。然而,當分析來自21三體性胎兒的模板分子時,只含有一個等位基因的孔的數(shù)目將大于只含有另一等位基因的孔的數(shù)目。簡而言之,等位基因失衡對21三體性是預(yù)期的。
[0097]如上文所述的,SPRT是 Bayesian 類似然方法(Bayesian-type likelihoodmethod),該方法允許隨數(shù)據(jù)的積累比較兩個概率假設(shè)。在21三體性檢測的數(shù)字PCR分析中,當存在等位基因失衡時(即,檢測到21三體性),則接受備選假設(shè);當沒有等位基因失衡時(即,沒有檢測到21三體性),則接受無效假設(shè)。更多數(shù)目計數(shù)的等位基因被稱為潛在地過度表現(xiàn)的等位基因,并且將計算該等位基因在全部信息孔中的比例(Pr)。如果該已表明了足夠程度的對21三體性樣品預(yù)期的等位基因失衡,則應(yīng)用SPRT來進行確定。
[0098]可操作地,能夠通過使用具有一對SPRT曲線的圖來應(yīng)用和解釋SPRT,構(gòu)建該SPRT曲線來定義接受或拒絕任何一個假設(shè)的概率邊界。圖3示出按照本發(fā)明的實施方案用于確定唐氏綜合征的SPRT曲線的圖。當能做出確信的分類時,SPRT曲線將對潛在過度表現(xiàn)的等位基因是陽性的信息孔的所需比例已(y-軸)對信息孔的給定的總數(shù)(X-軸)作圖。如圖3所示,上部曲線設(shè)定接受備選假設(shè)的概率邊界,而下部曲線設(shè)定接受無效假設(shè)的概率邊界。
[0099]將實驗推導(dǎo)出的匕值與預(yù)期匕值相比較以便接受或拒絕任一假設(shè)。如果接受無效假設(shè),則將該樣品分類為從懷有整倍體胎兒的孕婦獲得的樣品。如果接受備選假設(shè),則將該樣品分類為從懷有21三體性胎兒的孕婦獲得的樣品??蛇x擇地,如果給定數(shù)目的信息計數(shù)的匕沒有達到疾病分類所要求的統(tǒng)計學可信度,則不能接受任何一個假設(shè)。在有更多的可用數(shù)據(jù)以前,這些情況被視為不可分類的。如果疾病分類是不可能的,則可以進行額外的384孔板直到累積的數(shù)據(jù)可以通過SPRT來分類。
[0100]因此,對于給定水平的可信度,SPRT比其它統(tǒng)計學方法提供了更少的所需檢測量的優(yōu)勢。在實踐中,只要積累了所需量的數(shù)據(jù),SPRT就允許接受或拒絕任何一個假設(shè),從而將不需要的額外分析降至最低。這種特性與通常以低濃度存在的血漿核酸的分析特別相關(guān),其中可用的模板的數(shù)目是有限的。除了嚴格的分類以外,所述分類還可以包括百分比準確度。例如,來自與截止值比較的分類可以提供表現(xiàn)出具有某一百分比的核酸序列失衡的可能性的樣品,或者,等效地提供準確至某一百分比或其它值的確定失衡。
[0101]利用母體血漿或血清中的胎兒核酸,可以應(yīng)用類似的方法來確定關(guān)于突變或遺傳多態(tài)性的胎兒基因型。應(yīng)當記得的是,胎兒將從其母親遺傳胎兒一半的基因組。作為示例,考慮具有兩個等位基因A和B的特定遺傳基因座。如果母親是基因型為AB的雜合子,則胎兒理論上能夠具有AA、BB或AB的基因型。如果胎兒的基因型為AB,即,與母親相同,則母體血漿中將只有AB基因型的核酸(既來自母親又來自胎兒)。因此,在母體血漿中觀察到了核酸或等位基因的平衡。在另一方面,如果胎兒的基因型為AA或BB,則在母體血漿中將分別有過度表現(xiàn)的A等位基因或B等位基因的等位基因失衡。這種考慮還適用于導(dǎo)致疾病的突變(例如,導(dǎo)致囊性纖維化、β -地中海貧血癥或脊髓型肌萎縮的那些突變),在這種情況下,A能夠被考慮為野生型等位基因,而B能夠被考慮為突變體等位基因。
[0102]I1.數(shù)字 RCD
[0103]數(shù)字RNA-SNP的劣勢是,其只能應(yīng)用于被分析的SNP是雜合的個例。一個改進是,基于循環(huán)的胎兒核酸分析的檢測胎兒21三體性或其它胎兒染色體非整倍性(例如,18三體性、13三體性和性染色體非整倍性)的無創(chuàng)檢測與遺傳多態(tài)性的使用無關(guān)將是理想的。因此,在一實施方案中,通過相對于位于參考染色體,即本研究中的染色體I上的基因座的非多態(tài)性的染色體21基因座的數(shù)字PCR分析來測定染色體劑量。從21三體性個例中區(qū)分整倍體胎兒基因組中染色體21比染色體I的比率偏離2:2的變化。在21三體性檢測的數(shù)字PCR分析中,要比較的兩個假設(shè)將是沒有染色體失衡(B卩,沒有檢測到21三體性)的無效假設(shè)和存在染色體失衡(即,檢測到了 21三體性)的備選假設(shè)。
[0104]這種方法能夠被推廣至與其它染色體非整倍性有關(guān)的其它染色體,例如,18三體性中的染色體18、13三體性中的染色體13、特納綜合征中的染色體X。另外,除了染色體1,與非整倍性無關(guān)的其它染色體也能夠用作參考染色體。通過分析在癌癥中通常部分地缺失的染色體比參考染色體的比率的變化,能夠?qū)㈩愃频姆椒☉?yīng)用于檢測癌癥。通常部分地缺失的染色體的實例包括直結(jié)腸癌中的染色體5q、肺癌中的染色體3p和鼻咽癌中的染色體9p。圖2B列出了某些導(dǎo)致序列失衡的某些常見的與癌癥有關(guān)的染色體畸變。
[0105]圖2A還示出本發(fā)明實施方案的數(shù)字RCD方法205。在步驟220-230的一實施方案中,例如,通過Nanodrop技術(shù),將提取的DNA定量,并稀釋至每孔大約一個靶模板的濃度,所述靶模板來自染色體21或標準化的染色體(例如,染色體I)的。在步驟240的一實施方案中,在384孔板中使用兩個TaqMan探針進行數(shù)字RCD分析前,可以進行如下證實:通過分析稀釋的DNA樣品來證實約37%的水平的孔是否是陰性的,該分析只通過使用96孔格式的染色體I探針的測定來進行。37%的顯著性將在后面的第IV部分中進行討論。 [0106]步驟240的檢測和步驟250的結(jié)果可以用設(shè)計成擴增存在于兩條染色體上的種內(nèi)同源序列(paralogous sequence) (Deutsch, S.et al.2004J Med Genet41, 908-915)的實時PCR測定來完成,所述染色體被通過一對TaqMan探針鑒別的平行同源序列變化所區(qū)分。在本文中,信息孔被定義為對任一染色體21或染色體I基因座是陽性的,而對這兩條染色體不都是陽性的孔。對于整倍體胎兒,對任一基因座是陽性的信息孔的數(shù)目應(yīng)當大致相等。對于21三體性胎兒,應(yīng)當有與染色體I陽性孔相比,染色體21陽性孔的過度表現(xiàn)。在下文的部分中描述了過度表現(xiàn)的確切比例。
[0107]II1.并入胎兒序列的百分比
[0108]上文所述的方法200和205的實施方案的劣勢在于胎兒特異性的標記物是必需的。因此,在本發(fā)明的一實施方案中使用了非胎兒特異性的標記物。為了使用這種非胎兒特異性的標記物,本發(fā)明的實施方案測量了母體血漿(即,生物樣品)中胎兒DNA的部分濃度(fractional concentration)。通過這些信息,可以按照如下步驟來計算更有用的P1?值。
[0109]即便對于母體血漿中胎兒DNA的小的部分百分比,21三體性胎兒將通過釋放至母體血衆(zhòng)中的胎兒DNA的基因組當量(genome-equivalent) (GE)貢獻額外劑量的染色體21序列。例如,含有50GE/ml總DNA和5GE/ml胎兒貢獻的DNA (即,10%胎兒DNA部分濃度)的來自整倍體妊娠的母體血漿樣品將會含有每毫升母體血漿總共100個拷貝(90個母體拷貝+10個胎兒拷貝)的染色體21序列。對于21三體性妊娠,每個胎兒GE將貢獻3個拷貝的染色體21,這導(dǎo)致母體血漿中總共105個拷貝/ml (90個母體拷貝+15個胎兒拷貝)的染色體21序列。因此,在10%的胎兒DNA濃度時,三體妊娠母體血漿中源自染色體21的序列的量將是整倍體情況的1.05倍。因此,如果能夠開發(fā)測定這種小程度的定量差異的分析方法,將實現(xiàn)不依賴于多態(tài)性的胎兒21三體性的無創(chuàng)產(chǎn)前診斷檢測。
[0110]因此,過度表現(xiàn)的程度將取決于分析的DNA樣品中部分胎兒DNA濃度。例如,當分析胎盤DNA時,胎兒基因組中的理論RCD比率應(yīng)當是3:2,即,1.5倍的差異。然而,如上文所述的,當分析含有10%的胎兒母體血漿時,該理論RCD比率將降至1.05。通過將只對染色體21基因座是陽性的孔的數(shù)目除以信息孔的總數(shù)來計算實驗導(dǎo)出的己。用計算的已和理論RCD比率來對實驗導(dǎo)出的進行SPRT分析。
[0111]圖4表示按照本發(fā)明的實施方案,利用胎兒核酸百分比來確定疾病狀態(tài)的方法400。在步驟410中,測量了胎兒物質(zhì)的部分百分比。在一實施方案中,通過測量相對于非胎兒特異性標記物(即,在母親和胎兒中都存在的基因序列)的胎兒特異性標記物(例如,Y染色體,遺傳多態(tài)性標記物(例如,SNP)、胎盤外遺傳特征(epigenetic signature))的量來確定所述部分百分比。通過實時PCR、數(shù)字PCR、測序反應(yīng)(包括大規(guī)模平行基因組測序)或任何其它定量方法來進行實際的測量。在一方面,優(yōu)選地不使用對于本測量能夠潛在地處于等位基因失衡的基因祀標。
[0112]在步驟420中,進行了數(shù)字PCR或其它測量方法,包括將樣品稀釋,將該稀釋的樣品置于孔中并測量每孔中的反應(yīng)。在步驟430中,將PCR結(jié)果用于鑒定不同參考核酸序列(例如染色體或等位基因)的標記物。在步驟440中,計算了過度表現(xiàn)的序列的實際比率(Pr)。在步驟450中,利用樣品中胎兒物質(zhì)的百分比來計算用于確定疾病狀態(tài)的截止值。在步驟460中,從該實際匕和該截止值來確定是否存在失衡。
[0113]在一實施方案中,將參考核酸序列的部分百分比并入數(shù)字RNA-SNP方法中。因此,當研究由于癌細胞的LOH時,能夠用少于50%癌細胞的腫瘤樣品來進行這一步驟。還可以將這一步驟用于多于50%的癌細胞的樣品以獲得更準確的已,并因此減少將導(dǎo)致錯誤診斷的假陽性的數(shù)目。在另一實施方案中,將胎兒核酸百分比并入數(shù)字PCR方法中以確定胎兒是否已遺傳了父母的基因突變(例如,導(dǎo)致囊性纖維化或β_地中海貧血癥或脊髓型肌萎縮的突變)或確定來自母體血漿核酸分析的多態(tài)性。
[0114]IV.并入毎孔的平詢濃度
[0115]以前的方法(例如,Zhou, W.et al.2002,見上文)的另一個劣勢是要求每孔的平均模板濃度(m)是每孔I個??紤]到難以獲得確切的濃度,這能夠?qū)е抡`差。而且,甚至對于每孔I個模板的確切濃度,以前的方法忽略了孔中的模板的統(tǒng)計學分布。在以前的方法,即,老的算法中,假定接受備選假設(shè)的匕的預(yù)期值是等位基因比率,因此,該匕的預(yù)期值與每孔中的模板DNA的平均濃度無關(guān)。
[0116]然而,由于稀釋樣品中模板的天然統(tǒng)計變異(statistical variation),將不會有確切的每孔I個模板。本發(fā)明的實施方案測量至少一種序列的平均濃度,然后將該平均濃度用于計算截止值,即預(yù)期的匕。在一方面,這種計算包括了統(tǒng)計學分布以確定含有不同核酸序列的孔的概率,然后將該概率用于確定預(yù)期的已。
[0117]在一實施方案中,獲取了一種參考核酸序列的平均濃度,其在一實例中是DNA樣品中較低濃度的核酸序列。在樣品不具有失衡的情況下,樣品中兩種序列的濃度將是相同的,并且任何一種都能夠被視為參考等位基因。在樣品具有,例如,LOH的情況下,在癌細胞中缺失的等位基因?qū)⒈灰暈閰⒖嫉任换?。將該參考等位基因的平均濃度表示為πν。在另一實施方案中,濃度較高的序列可以被視作參考序列。
[0118]Α.數(shù)字SNP:使用SPRT和數(shù)字PCR的實例
[0119]圖5顯示了按照本發(fā)明的實施方案,使用平均模板濃度來確定疾病狀態(tài)的方法500。在步驟510中,測量了不同序列的量。例如,可以通過計數(shù)如上文所解釋的數(shù)字PCR實驗中的標記物來進行這一步驟。然而,可以通過其它方法來進行這一步驟,該方法不包括擴增步驟或者不使用熒光標記物,但是能夠使用其它屬性,例如如同質(zhì)量的物理屬性、比旋光屬性或堿基配對屬性。
[0120]在步驟520中,測定了過度表現(xiàn)的序列的實際比例。如上文所述的,可以通過獲取只表現(xiàn)出過度表現(xiàn)的序列的孔的數(shù)目,然后將該數(shù)目除以信息孔的數(shù)目來完成這個步驟。在步驟530中,測量了至少一種序列(參考序列)的平均濃度。在一實施方案中,所述參考序列是過度表現(xiàn)的序列。在另一實施方案中,所述參考序列是過少表現(xiàn)(underrepresented)的序列。可以通過計數(shù)在數(shù)字PCR實驗中對參考序列是陰性的孔的數(shù)目來進行測量。如在下個分段中所述的,通過泊松分布(Poisson distribution)來描述陰性孔的比例與平均目標濃度之間的關(guān)系。
[0121]在步驟540中,例如,使用泊松分布來計算對不同的序列是陽性的孔的預(yù)期量。該預(yù)期量可以是每孔的序列的概率、每孔的平均序列、含有序列的孔的數(shù)目或其它合適的量。在步驟550中,從該預(yù)期的量計算預(yù)期的P,。在步驟560中,例如,通過使用SPRT,從預(yù)期的已計算截止值。在步驟570中,確定了核酸序列失衡的分類?,F(xiàn)在將描述方法500的具體方面。
[0122]1.確定序列的預(yù)期暈
[0123]一旦從步驟530知道了每孔的平均濃度(反應(yīng)或反應(yīng)混合物),就可以在步驟540中計算表現(xiàn)出該序列的孔的預(yù)期數(shù)目。這種量可以表示為%、分數(shù)值或整數(shù)值。利用具體的實例進行說明,假定每孔的參考模板的平均濃度OiO是每孔0.5個,并且21三體性胎兒在PLAC4SNP,rs8130833的基因型是AGG。因此,參考模板是A等位基因,并且過度表現(xiàn)的模板是G等位基因。
[0124]在一實施方案中,假定A等位基因在諸如數(shù)字PCR的測量方法的孔的反應(yīng)混合物中的分布是泊松分布。在其它實施方案中,使用了其它分布函數(shù),例如二項分布。
[0125]泊松方程式是:,其中,η=每孔的模板分子的數(shù)目;Ρ(η)=η個模板分子在
特定的孔中的概率;并且m=特定的數(shù)字PCR實驗中一個孔中的模板分子的平均數(shù)目。
[0126]因此,在0.5的平均A等位基因的濃度下,不含A等位基因的任何分子的任何孔的概率是:
【權(quán)利要求】
1.計算機程序產(chǎn)品,其包括被編碼的具有多個指令的計算機可讀取的介質(zhì),所述指令用于控制計算機系統(tǒng)以執(zhí)行確定生物樣品中是否存在核酸序列失衡的操作,所述指令包括: 接收來自多個反應(yīng)的數(shù)據(jù),其中所述數(shù)據(jù)包括: (1)表示臨床相關(guān)的核酸序列的第一量的第一組定量數(shù)據(jù);和 (2)表示不同于所述臨床相關(guān)的核酸序列的背景核酸序列的第二量的第二組定量數(shù)據(jù),其中所述臨床相關(guān)的核酸序列和所述背景核酸序列來自第一類型的細胞和來自一種或多種第二類型的細胞; 從所述兩個數(shù)據(jù)組確定參數(shù); 從由核酸序列的量的測量產(chǎn)生的第一百分比導(dǎo)出第一截止值,所述核酸序列來自所述生物樣品中的所述第一類型的細胞; 將所述參數(shù)與所述第一截止值比較;以及 基于所述比較,確定是否存在核酸序列失衡的分類。
2.如權(quán)利要求1所述的計算機程序產(chǎn)品,其中所述序列失衡與腫瘤中獲得或失去部分染色體有關(guān)。
3.如權(quán)利要求1所述的計算機程序產(chǎn)品,其中所述第一類型的細胞來自第一有機體,并且所述第二類型的細胞來自第二有機體。
4.如權(quán)利要求3所述的計算機程序產(chǎn)品,其中所述第一有機體是懷有胎兒的女性個體,所述胎兒是第二有機體,其中所述確定第一百分比包括定量所述女性個體與所述胎兒之間的多態(tài)性差異?!?br>
5.如權(quán)利要求3所述的計算機程序產(chǎn)品,其中所述第一有機體是懷有胎兒的女性個體,所述胎兒是第二有機體,其中所述胎兒是男性,并且其中所述確定生物樣品中胎兒DNA的部分濃度包括: 確定Y染色體DNA濃度。
6.如權(quán)利要求3所述的計算機程序產(chǎn)品,其中所述第一有機體是懷有胎兒的女性個體,所述胎兒是第二有機體,其中所述確定生物樣品中胎兒DNA的部分濃度包括: 將在第一基因座處表現(xiàn)出胎兒特異性甲基化方式的DNA分子的量與所述第一基因座處DNA分子的總量比較。
7.如權(quán)利要求6所述的計算機程序產(chǎn)品,其中所述源自胎兒的DNA分子是高度甲基化的,而源自母體的DNA分子是低甲基化的。
8.如權(quán)利要求1所述的計算機程序產(chǎn)品,其中所述導(dǎo)出第一截止值包括: 確定每個反應(yīng)的參考核酸序列的第一平均濃度,其中所述參考核酸序列是過少表現(xiàn)的所述臨床相關(guān)的核酸序列或所述背景核酸序列;以及 將所述第一平均濃度乘以從所述第一百分比導(dǎo)出的因子來獲得不是所述參考核酸序列的核酸序列的第二平均濃度。
9.如權(quán)利要求8所述的計算機程序產(chǎn)品,其還包括: 利用將從所述參考核酸序列的數(shù)據(jù)導(dǎo)出的值作為輸入的概率分布的逆函數(shù),來確定所述多個反應(yīng)的每一個中的所述參考核酸序列的平均濃度。
10.確定懷有胎兒的女性個體的生物樣品中胎兒DNA的部分濃度的方法,所述生物樣品包括來自所述女性個體和來自所述胎兒的核酸分子,并且其中所述女性個體在第一基因座處的第一等位基因是純合的,而所述胎兒在所述第一基因座處的第一等位基因和不同于所述第一等位基因座的第二等位基因是雜合的,所述方法包括: 接收來自第一多個反應(yīng)的第一數(shù)據(jù),所述反應(yīng)包括來自所述生物樣品的核酸分子,其中所述反應(yīng)指示存在或缺失感興趣的多個多核苷酸序列,其中所述第一數(shù)據(jù)包括: (1)表示對第一等位基因陽性的反應(yīng)的第一數(shù)目的第一組定量數(shù)據(jù);和 (2)表示對第二等位基因陽性的反應(yīng)的第二數(shù)目的第二組定量數(shù)據(jù);以及 比較第一數(shù)目與第二數(shù)目以確定胎兒DNA的部分濃度。
11.如權(quán)利要求10所述的方法,其中利用所述第一數(shù)目和所述第二數(shù)目以百分比來確定所述胎兒DNA的部分濃度。
12.如權(quán)利要求10所述的方法,其還包括: 接收來自第二多個反應(yīng)的第二數(shù)據(jù),所述反應(yīng)包括來自所述生物樣品的核酸分子,其中所述第二數(shù)據(jù)包括: (1)表示一個或多個臨床相關(guān)的核酸序列的第三量的第三組定量數(shù)據(jù),所述臨床相關(guān)的核酸序列不包括所述第一基因座;和 (2)表不不同于一個或多個臨床相關(guān)的核酸序列的一個或多個背景核酸序列的第四量的第四組定量數(shù)據(jù),其中所述臨床相關(guān)的核酸序列和所述背景核酸序列來自核酸分子,所述核酸分子來自所述女性個體和來自所述胎兒; 從所述第三和第四數(shù)據(jù)組 確定參數(shù),其中所述參數(shù)提供所述第三和第四量之間的相對量; 從胎兒DNA的部分濃度導(dǎo)出第一截止值; 將所述參數(shù)與所述第一截止值比較;以及 基于比較,確定是否存在核酸序列失衡的分類。
13.如權(quán)利要求12所述的方法,其中所述序列失衡是染色體非整倍性。
14.如權(quán)利要求12所述的方法,其中所述臨床相關(guān)的核酸序列中的一個是遺傳多態(tài)性的等位基因,并且所述背景核酸序列中的一個是所述遺傳多態(tài)性的另一等位基因。
15.如權(quán)利要求12所述的方法,其還包括: 在進行第二多個反應(yīng)之前,富集生物樣品中所述一個或多個臨床相關(guān)的核酸序列和所述一個或多個背景核酸序列。
16.如權(quán)利要求15所述的方法,其中所述富集生物樣品中所述一個或多個臨床相關(guān)的核酸序列和所述一個或多個背景核酸序列包括: 利用寡核苷酸陣列通過雜交來選擇所述一個或多個臨床相關(guān)的核酸序列和所述一個或多個背景核酸序列。
17.如權(quán)利要求15所述的方法,其中所述富集生物樣品包括: 擴增來自所述一個或多個臨床相關(guān)的核酸序列和所述一個或多個背景核酸序列的DNA。
18.如權(quán)利要求12所述的方法,其中在確定參數(shù)之后確定所述胎兒DNA的部分濃度。
19.如權(quán)利要求12所述的方法,其中所述第一多個反應(yīng)與所述第二多個反應(yīng)相同。
20.如權(quán)利要求10所述的方法,其中所述反應(yīng)是測序反應(yīng)或擴增反應(yīng)。
【文檔編號】G06F19/00GK103853916SQ201410051950
【公開日】2014年6月11日 申請日期:2008年7月23日 優(yōu)先權(quán)日:2007年7月23日
【發(fā)明者】盧煜明, 趙慧君, 陳君賜, 徐仲锳, 莊家俊 申請人:香港中文大學