A的讀 取、來自健康細胞的相對于CG展示隨機突變(例如由于由細胞分裂產(chǎn)生的突變)的讀取和 測序錯誤。各種參數(shù)可以用以確切控制哪些讀取包括于SG中。舉例來說,要求等位基因在 至少5個讀取從而減少測序錯誤在SG中出現(xiàn),以及減小源自于隨機突變的讀取。
[0096] 作為一個實例,假定受試者是健康的,即并不患有癌癥。出于說明的目的,來自 1000個細胞的DNA處于獲自此受試者的Iml血漿(即1000基因組當量的DNA)中。血漿 DNA典型地由約150bp的DNA片段組成。因為人類基因組是3X109bp,所以每單倍基因組將 存在約2 X IO7個DNA片段。因為人類基因組是二倍的,所以每ml血漿將存在約4 X 10 7個 DNA片段。
[0097] 因為每單位時間在血漿中數(shù)百萬到數(shù)十億細胞釋放其DNA并且來自這些細胞的 片段在循環(huán)期間將混合在一起,所以4X10 7個DNA片段可以來自4X107個不同細胞。如果 這些細胞彼此不帶有相近的(與相遠相對,例如原始受精卵)克隆關(guān)系(即其不共有最近 上代細胞),那么統(tǒng)計上可能的是在這些片段之中將可見突變不多于一次。
[0098] 另一個方面,如果在每ml 1000基因組當量的血漿DNA之中,存在一定百分比的細 胞共有相近的上代細胞(即其彼此共享相關(guān)的克隆關(guān)系),那么可以看到來自此克隆的突 變優(yōu)先呈現(xiàn)于血漿DNA中(例如在血漿中展現(xiàn)克隆突變分布)。所述克隆地相關(guān)的細胞可 以是癌細胞,或正要變?yōu)榘┌Y但尚未是癌癥的(即腫瘤前的)細胞。因此,要求突變出現(xiàn)多 于一次可以去除樣品中鑒別到"突變"中的此中自然的差異,其可以留下與癌細胞或腫瘤前 細胞相關(guān)的更多突變,由此允許對癌癥或癌前期病況進行檢測、尤其早期檢測。
[0099] 在一個近似情況中,已經(jīng)陳述,平均一個突變將在每次細胞分裂之后積聚于基因 組中。先前研究已經(jīng)顯示,大部分血漿DNA來自造血細胞(磊YY(Lui YY)等人臨床化 學(Clin Chem)2002:48:421-427)。據(jù)估計,造血干細胞每25-50周復(fù)制一次(卡特林 SN(Catlin SN)等人血液(Blood)2011 ;117:4460-4466)。因此,作為簡單化的近似情況,40 歲的健康受試者將每造血干細胞積聚大約40到80個突變。
[0100] 如果每ml此人的血漿中存在1000基因組當量,并且如果這些細胞中的每一者來 源于不同造血干細胞,那么在4X IOltl個DNA片段之中可以預(yù)期40, 000到80, 000個突變 (即每基因組的4X IO7個DNA片段和每ml血漿1000基因組當量)。然而,因為每種突變 將可見一次,所以每種突變?nèi)钥赡艿陀跈z測極限(例如在截止值N大于1時),并且因此這 些突變可以被過濾掉,由此使得分析可集中于更可能由癌性病況產(chǎn)生的突變。截止值可以 是大于一的任何值(整數(shù)或非整數(shù)),并且對于不同基因座和區(qū)域可以是動態(tài)的。腫瘤DNA 的測序深度和分數(shù)濃度還可以影響由癌細胞或腫瘤前細胞檢測突變(例如可檢測的突變 的百分比)的敏感性。
[0101] IV.將SG直接與CG比較
[0102] 一些實施方案可以鑒別CG是純合的核苷酸位置,但其中SG中的少數(shù)物質(zhì)(即腫 瘤DNA)是雜合的。當以高深度(例超過50倍覆蓋)對一個位置測序時,可以檢測在健康 與癌細胞的DNA混合物中在所述位置處是否存在一或兩種等位基因。當檢測到兩種等位基 因時,(I)CG是雜合的,或(2)CG是純合的但SG是雜合的。這兩種情形可以通過查看主要和 次要等位基因的相對計數(shù)來區(qū)分。在前一情形下,兩種等位基因?qū)⒕哂蓄愃朴嫈?shù)數(shù)目;但在 后一情形下,其計數(shù)數(shù)目將存在大差異。測試樣品的讀取在等位基因上此相對計數(shù)的比較 是將序列標簽與組成基因組比較的一個實施方案。方法100的第一基因座可以由其中等位 基因的數(shù)目低于上限閾值(對應(yīng)于CG中的多態(tài)性的閾值)并且高于下限閾值(對應(yīng)于與 癌性病況不相關(guān)的且以足夠低的比率出現(xiàn)的錯誤和體細胞突變的閾值)的基因座。因此, 可以同時測定組成基因組和第一基因座。
[0103] 在另一個實施方案中,鑒別突變的方法可以首先測定CG,并且然后測定相對于CG 具有足夠突變數(shù)目的基因座??梢杂刹煌跍y試樣品的組成型樣品測定CG。
[0104] 圖2展示了根據(jù)本發(fā)明的實施方案將樣品基因組(SG)直接與組成型基因組(CG) 比較的方法200的流程圖。在框210處,獲得受試者的組成型基因組??梢岳缬上惹斑m 時取得的樣品或臨在實施方法200之前獲得并且分析的組成型樣品獲得組成基因組。
[0105] 在框220處,對于受試者的生物樣品中的多個DNA片段中的每一者,獲得一個或多 個序列標簽。可以使用如本文中提及的各種技術(shù)執(zhí)行測序。序列標簽是對片段的序列內(nèi)容 為何物的測量。但序列標簽的一個或多個堿基可以是錯誤的。
[0106] 在框230處,將至少一部分序列標簽與組成基因組比對。比對可以涉及CG在許多 基因座處是雜合的。比對將不需要確切匹配以使得可以檢測變異體。
[0107] 在框240處,鑒別在基因座處相對于組成型基因組具有變異序列的序列標簽。有 可能的是序列標簽可以具有多于一個變異體??梢葬槍γ總€基因座和每種序列標簽追蹤變 異體。變異體可以是不在CG中的任何等位基因。舉例來說,CG相對于A/T而言是雜合性, 并且變異體可以是G或C。
[0108] 在框250處,對于具有變異體的每個基因座,計算機系統(tǒng)可以對與基因座比對并 且在基因座處具有變異序列的序列標簽各自對應(yīng)的第一數(shù)目計數(shù)。因此,每個基因座可以 具有相關(guān)計數(shù)的數(shù)目的變異體分布在其基因座處。典型地,與對應(yīng)于CG的序列標簽相比, 在基因座處將可見較少變異體,例如由于腫瘤DNA濃度小于50%。然而,一些樣品的腫瘤 DNA濃度可以大于50 %。
[0109] 在框260處,基于各自第一數(shù)目測定參數(shù)。在一個實施方案中,如果各自的數(shù)目大 于截止值(例如大于二),那么各自數(shù)目可以加到總和,其即是參數(shù)或用以測定參數(shù)。在另 一個實施方案中,各自數(shù)目大于截止值的基因座的數(shù)目用作參數(shù)。
[0110] 在框270處,將參數(shù)與閾值比較以對癌癥等級分類。如上文所述,可以通過分析來 自其它受試者的樣品測定閾值。取決于這些其它受試者的健康或癌癥狀態(tài),可以確定分類。 舉例來說,如果其它受試者患有4期癌癥,那么如果當前參數(shù)接近于(例如在特定范圍內(nèi)) 獲自其它受試者的參數(shù)的值,則當前受試者可以分類為患有4期癌癥。然而,如果參數(shù)超過 閾值(即大于或小于,取決于如何界定參數(shù)),那么分類可以鑒別為不到4期。當其它受試 者不患有癌癥時,可以進行類似分析。
[0111] 可以使用多個閾值來確定分類,其中由不同組受試者集合測定每個閾值。每個受 試者集合可以具有常見癌癥等級。因此,可以將當前參數(shù)與每組受試者集合的值比較,其可 以提供與所述集合中的一者的匹配或提供范圍。舉例來說,參數(shù)可以約等于關(guān)于是癌前期 的或在2期的受試者獲得的參數(shù)。作為另一個實例,當前參數(shù)可以處于可能與數(shù)種不同癌 癥等級匹配的范圍內(nèi)。因此,分類可以包括多于一種癌癥等級。
[0112] V.使用參考基因組
[0113] 可以將組成型DNA和來自生物樣品的DNA兩者的基因組序列與人類參考基因組比 較。當與參考基因組相比,如果血漿樣品中比組成型DNA存在更多變化時,則存在更高癌癥 概率。在一個實施方案中,研究參考基因組中的純合基因座。比較組成DNA和來自生物樣品 的DNA兩者中的雜合基因座的量。當由生物樣品的DNA檢測的雜合位點的量超過組成DNA 的雜合位點量時,存在更高癌癥概率。
[0114] 分析還可以限于CG中純合的基因座。對于雜合基因座同樣可以界定S匪,但這一 般來說將需要產(chǎn)生第三種變異體。換句話說,如果雜合基因座是A/T,那么新變異體將是C 或G。鑒別純合基因座的S匪一般來說更容易。
[0115] 當與健康受試者中可見的變化率相比時,生物樣品DNA中的雜合基因座的量相對 于組成型DNA的增加的程度可以暗示癌癥或癌變前狀態(tài)。舉例來說,如果所述位點的增加 程度超過與健康受試者中所觀察到的程度對應(yīng)的某一閾值,那么可以將所述數(shù)據(jù)視為暗示 癌癥或癌變前狀態(tài)。在一個實施方案中,確定不患有癌癥的受試者中的突變分布,并且可以 將閾值視為一定數(shù)目的標準偏差(例如2或3個標準偏差)。
[0116] 一個實施方案可以要求在基因座處有至少規(guī)定數(shù)目的變異體,隨后才對所述基因 座計數(shù)。另一個實施方案提供測試,甚至用于基于看到只有一次變化的數(shù)據(jù)。舉例來說,當 血漿中可見的變異的總數(shù)目(錯誤+真突變或多態(tài)性)統(tǒng)計上顯著高于組成型DNA中的總 數(shù)目時,則為存在癌癥的證據(jù)。
[0117] 圖3展示了根據(jù)本發(fā)明的實施方案使用參考基因組(RG)將樣品基因組(SG)與組 成型基因組(CG)比較的方法300的流程圖。方法300假定已經(jīng)獲得RG,并且已經(jīng)獲得生物 樣品的序列標簽。
[0118] 在框310處,將至少一部分序列標簽與參考基因組比對。比對可以允許錯配當變 異要被檢測。參考基因組可以來自與受試者類似的群體。比對的序列標簽有效地包含樣品 基因組(樣品基因組)。
[0119] 在框320處,鑒別第一數(shù)目(A)的潛在變異體,例如單核苷酸突變(SNM)。潛在S匪 是其中SG的序列標簽展示不同于RG的核苷酸的基因座??梢允褂闷渌鼫蕜t,例如展示變 異的序列標簽的數(shù)目必須大于截止值和基因座在RG中是否是純合的。當特定基因座被鑒 別并且通過將基因座存儲于存儲器中而追蹤時,潛在SNM集合可以集合A??梢詼y定特定基 因座或可以直接測定若干所述SNM。
[0120] 在框330處,通過將通過對來自組成型樣品的DNA片段測序而獲得的序列標簽與 參考基因組比對來測定組成基因組??梢栽谌魏蜗惹皶r間并且使用在任何先前時間獲得的 組成型樣品來執(zhí)行此步驟。CG可以簡單地由存儲器讀取,其中事先進行比對。在一個實施 方案中,組成型樣品可以是血細胞。
[0121] 在框340處,鑒別第二數(shù)目(B)的基因座,其中CG的比對的序列標簽在基因座處 相對于參考基因組具有變異體(例如SNM)。如果具體來說追蹤基因座集合,那么B可以代 表所述集,與僅一數(shù)目相對。
[0122] 在框350處,由集合A減去集合B以鑒別存在于樣品基因組中但不存在于CG中的 變異體(SNM)。在一個實施方案中,S匪集可以限于CG是純合的核苷酸位置。為實現(xiàn)此過 濾,可以在集C中鑒別其中CG是純合的特定基因座。在另一個實施方案中,如果在基因座 處CG不是純合的,那么該基因座不計數(shù)于第一數(shù)目A或第二數(shù)目B中。在另一個實施方案 中,可以將任何已知多態(tài)性(例如憑借其于SNP數(shù)據(jù)庫中的存在)過濾掉。
[0123] 在一個實施方案中,框350中的減法可以僅是數(shù)值的減法,并且因此不去除特定 潛在SNM,但僅減去值。在另一個實施方案中,減法取得集合A與集合B之間的差值(例如 在集B合是集合A的子集時)以鑒別不在集合B中的特定SNM。在邏輯值中,此可以表示為 [A AND NOT(B)]。所得鑒別的變異體集合可以標記為C。參數(shù)可以測定為數(shù)目C或由集合 C測定。
[0124] 在一些實施方案中,可以考慮突變的本質(zhì),并且不同權(quán)重對應(yīng)于不同突變類別。舉 例來說,通常與癌癥相關(guān)的突變可以賦予較高權(quán)重(當涉及基因座的相對權(quán)重時,也稱為 重要值)。所述突變可以見于腫瘤相關(guān)的突變的數(shù)據(jù)庫中,例如癌癥中的體細胞突變的目 錄(Catalogue of Somatic Mutations in Cancer,COSMIC)(www. sanger. ac. uk/genetics/ CGP/cosmic/)。作為另一個實例,與非同義變化相關(guān)的突變可以賦予較高權(quán)重。
[0125] 因此,第一數(shù)目A可以測定為加權(quán)和,其中在一個基因座處展示變異體的標簽的 計數(shù)可以具有與在另一個基因座處的標簽的計數(shù)不同的權(quán)重。第一數(shù)目A可以反映此加權(quán) 和。因此,可以對B和數(shù)目C執(zhí)行類似計算,并且參數(shù)可以反映此權(quán)重。在另一個實施方案 中,當測定特定基因座集C時,考慮整合此權(quán)重。舉例來說,可以針對集C的基