專利名稱:用于檢測dna甲基化模式的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于檢測與病癥的存在或發(fā)生病癥的素因相關(guān)的DNA甲基化標(biāo)簽 (signature )的方法,所述方法包括鑒定一個或多個在靶和參考樣品中展示出差異DNA甲基化的候選基因,以及分別測定在所述差異甲基化的候選基因中核酸位點(diǎn)和DNA結(jié)合因子的識別位點(diǎn),所述DNA結(jié)合因子各個識別這種差異甲基化的核酸位點(diǎn),其中得到的差異甲基化的核酸位點(diǎn)的模式和DNA結(jié)合因子識別位點(diǎn)的模式一起表示DNA甲基化標(biāo)簽,所述標(biāo)簽指示靶樣品中病癥的存在或發(fā)生病癥的素因。在具體應(yīng)用中,這些DNA甲基化標(biāo)簽允許對患者樣品分類,區(qū)分疾病亞型和/或疾病狀態(tài)以及監(jiān)測對治療的應(yīng)答性。
背景技術(shù):
DNA甲基化在多種生物(包括原核生物和真核生物)的基因組中被發(fā)現(xiàn)。在原核生物中,DNA甲基化發(fā)生在胞嘧啶和腺嘌呤堿基上并且包含部分宿主限制性系統(tǒng)。然而, 在多細(xì)胞真核生物中,甲基化似乎被限制在胞嘧啶堿基上并與被抑制的染色體狀態(tài)和基因表達(dá)抑制相關(guān)(例如在 Wilson, G.G.和 Murray, N. Ε. (1991) Annu. Rev. Genet. 25, 585 - 627所綜述的)。在哺乳動物細(xì)胞中,DNA甲基化主要發(fā)生在CpG 二核苷酸上,其不均衡分布并在基因組中被低估(underr印resented)。通常未甲基化的CpG簇(被稱為CpG島)在很多啟動子區(qū)域被發(fā)現(xiàn)(例如在Li,E. (2002) Nat. Rev. Genet. 3,662-673中所綜述的)。導(dǎo)致異常的基因沉默的DNA甲基化的變化已在幾種人類癌癥中被證明(例如在Robertson,K. D. 和Wolffe, A.P. (2000) Nat. Rev. Genet. 1,11-19中所綜述的)。啟動子的過度甲基化被證明是導(dǎo)致腫瘤抑制基因失活的常見機(jī)制(Bird,A. P. (2002) Genes Dev. 16,6_21)。DNA甲基化可通過兩種不同機(jī)制的方法導(dǎo)致基因沉默第一種,在CpG 二核苷酸位點(diǎn)的甲基化阻止轉(zhuǎn)錄因子與其相關(guān)(Cognate)DNA識別序列結(jié)合;第二種,通過甲基-CpG的結(jié)合蛋白(MBD)家族識別甲基-CpG 二核苷酸位點(diǎn),因此引起甲基化DNA的抑制潛能。存在多種方法用于實(shí)驗上確定單個基因的差異甲基化(例如在Rein,Τ.等人. (1998) Nucleic Acids Res. 26,2255-2264中所綜述的)。這些技術(shù)尤其包括亞硫酸氫鹽測序、甲基化特異性PCR (MSP)、Methylight和焦磷酸測序(pyro-sequencing)。亞硫酸氫鹽修飾將未甲基化的胞嘧啶殘基轉(zhuǎn)變?yōu)槟蜞奏さ谆陌奏埢3植皇苡绊?。亞硫酸氫鹽測序通常被認(rèn)為表示最合適的方法以便得到特定基因組序列的甲基化狀態(tài)的全貌(overview)。MSP是文獻(xiàn)中最普遍的方法,主要因為其能夠在非常有限的生物材料量中分析DNA甲基化狀態(tài)。Methylight和焦磷酸測序是基于定量PCR的方法。迄今幾種基因組范圍的方法學(xué)途徑也已被建立,包括限制性標(biāo)志性基因組掃描(RLGS)、甲基化間位點(diǎn)擴(kuò)增(AIMS)、差異甲基化雜交(DMH)和甲基化DNA免疫沉淀(甲基-DIP)。然而,所有這些方法結(jié)束在基因序列的具體位點(diǎn)甲基化狀態(tài)的物理分析上,但不提供此甲基化狀態(tài)對具體基因沉默的功能影響的進(jìn)一步信息。因此,對功能性地連接候選基因甲基化狀態(tài)和轉(zhuǎn)錄基因調(diào)節(jié)的方法仍有需求。
4
發(fā)明目的和概述
本發(fā)明的目的之一是提供新方法用于檢測一個或多個候選基因/基因座的DNA甲基化模式和用于功能性地將這些模式和所述候選基因的轉(zhuǎn)錄沉默相關(guān)聯(lián)。因此獲得的DNA甲基化標(biāo)簽可在篩查、診斷、預(yù)后和復(fù)發(fā)監(jiān)控的靶向診斷測試中被用作分子標(biāo)簽。具體地,本發(fā)明的目的之一是提供用于檢測與病癥的存在或發(fā)生病癥的素因相關(guān)的DNA甲基化標(biāo)簽的方法,所述方法基于鑒定一個或多個在靶和參考樣品中展示出差異 DNA甲基化的候選基因/基因座,以及鑒定在所述差異甲基化的候選基因/基因座中各自的核酸位點(diǎn)和DNA結(jié)合因子的識別位點(diǎn),所述DNA結(jié)合因子各個識別這種差異甲基化的核酸位點(diǎn),其中得到的差異甲基化的核酸位點(diǎn)的模式和DNA結(jié)合因子識別位點(diǎn)的模式一起表示 DNA甲基化標(biāo)簽,所述標(biāo)簽指示靶樣品中病癥的存在或發(fā)生病癥的素因。本發(fā)明的另一個具體目的是確定在特定的(生物學(xué)的)樣品中存在的過度甲基化并因此可參與腫瘤抑制基因沉默的候選基因/基因座的子集,和甲基化不足并因此可與癌基因激活相關(guān)的候選基因的子集,以及通過鑒定在差異甲基化位點(diǎn)識別候選基因/基因座轉(zhuǎn)的錄因子和/或甲基化蛋白結(jié)合蛋白來評估各自的候選基因/基因座對基因沉默的潛在影響。這些目的以及其它將從隨后的描述中變得明顯的目的通過獨(dú)立權(quán)利要求的主題來獲得。一些優(yōu)選的實(shí)施方案通過從屬權(quán)利要求的主題來詳細(xì)說明。在一個實(shí)施方案中,本發(fā)明涉及檢測與病癥的存在或發(fā)生病癥的素因相關(guān)的DNA 甲基化標(biāo)簽的方法,所述方法包括
(a)提供多個匹配樣品,所述多個包含至少一個靶樣品和至少一個參考樣品;
(b)在至少一個靶樣品中鑒定一個或多個相對于至少一個參考樣品展示出差異DNA甲基化的候選基因/基因座;
(c)確定包含在步驟(b)中獲得的一個或多個差異甲基化的候選基因/基因座中的核酸位點(diǎn);以及
(d)確定在步驟(b)中獲得的一個或多個候選基因/基因座中DNA結(jié)合因子識別位點(diǎn)的存在,其中所述DNA結(jié)合因子各個識別在步驟(c)中確定的核酸位點(diǎn);
其中在步驟(c)中獲得的差異甲基化的核酸位點(diǎn)的模式和在步驟(d)中獲得的DNA結(jié)合因子識別位點(diǎn)的模式一起表示DNA甲基化標(biāo)簽,所述標(biāo)簽指示在所述至少一個靶樣品中病癥的存在或發(fā)生病癥的素因。在所述方法優(yōu)選的實(shí)施方案中,包含在一個或多個差異甲基化的候選基因/基因座中的核酸位點(diǎn)是CpG 二核苷酸位點(diǎn)。差異DNA甲基化優(yōu)選地通過選自以下的一個或多個方法來確定亞硫酸氫鹽測序、焦磷酸測序、甲基化敏感的單鏈構(gòu)象分析(MS-SSCA)、高分辨熔解分析(HRM)、甲基化敏感的單核苷酸引物延伸(MS-SnuPE)、堿基特異性切割/ MALDI-T0F,甲基化特異性PCR (MSP)、基于微陣列的方法和ife/71切割。在優(yōu)選的實(shí)施方案中,所述方法的步驟(C)進(jìn)一步包括將一個或多個差異甲基化的候選基因/基因座分為
-第一子集“m”,其為一個或多個包含在至少一個參考樣品中甲基化和在至少一個靶樣品中非甲基化的核酸位點(diǎn)的候選基因/基因座;和
-第二子集“Π”,其為一個或多個包含在至少一個參考樣品中非甲基化和在至少一個靶樣品中甲基化的核酸位點(diǎn)的候選基因/基因座。在另一個優(yōu)選的實(shí)施方案中,所述方法的步驟(d)進(jìn)一步包括對于一個或多個 DNA結(jié)合因子的第一子集“M”確定和選擇識別位點(diǎn),其中DNA結(jié)合因子的子集“M”的每一個成員選擇性地識別子集“m”的一個或多個候選基因。在還另一個優(yōu)選的實(shí)施方案中,所述方法的步驟(d)進(jìn)一步包括對于一個或多個 DNA結(jié)合因子的第二子集“N”確定和選擇識別位點(diǎn),其中DNA結(jié)合因子的子集“N”的每一個成員選擇性地識別子集“η”的一個或多個候選基因。特別優(yōu)選地,DNA結(jié)合因子的子集“N”表示DNA甲基結(jié)合蛋白。在進(jìn)一步具體的實(shí)施方案中,DNA甲基結(jié)合蛋白選自MBDl、MBD2、MBD3、MBD4、MIZF、Kaiso和MeCP2。在另一個具體的實(shí)施方案中,本發(fā)明的方法進(jìn)一步包括對于選擇的DNA結(jié)合因子的子集“M”每一個成員確定被識別的包含在子集“m”中的候選基因,和/或?qū)τ谶x擇的DNA 結(jié)合因子的子集“N”每一個成員確定被識別的包含在子集“η”中的候選基因。在還另一個具體的實(shí)施方案中,本發(fā)明的方法進(jìn)一步包括步驟(d)的一個或多個重復(fù),其中每一個重復(fù)包括在一個或多個候選基因/基因座中確定一個或多個DNA結(jié)合因子的識別位點(diǎn)的存在,所述DNA結(jié)合因子尚未包括在之前重復(fù)的確定中。優(yōu)選地,鑒定的DNA甲基化標(biāo)簽包含至少10個候選基因。在另一個優(yōu)選的實(shí)施方案中,一個或多個鑒定的候選基因的DNA甲基化標(biāo)簽指示在至少一個靶樣品中癌癥的存在或發(fā)生癌癥的素因。特別優(yōu)選地,對于候選基因的子集“ m” 鑒定的DNA甲基化標(biāo)簽指示一個或多個癌基因的激活和/或?qū)τ诤蜻x基因的子集“η”鑒定的DNA甲基化標(biāo)簽指示一個或多個腫瘤抑制基因的失活。在進(jìn)一步具體的實(shí)施方案中,所述方法在計算機(jī)上模擬進(jìn)行(i/7 silica)。在進(jìn)一步具體的實(shí)施方案中,本發(fā)明的方法進(jìn)一步用于預(yù)測對在至少一個靶樣品中存在的病癥或傾向發(fā)生的病癥的處理的治療應(yīng)答。在另一個實(shí)施方案中,本發(fā)明涉及如本文中所定義的DNA甲基化標(biāo)簽作為用于病癥的篩查、診斷、治療計劃和/或復(fù)發(fā)監(jiān)控的患者樣品分類的生物標(biāo)記的用途。在還另一個實(shí)施方案中,本發(fā)明涉及所述方法與其它患者數(shù)據(jù)和臨床參數(shù)一起作為基于計算機(jī)的臨床決定系統(tǒng)的整體部分的用途。
圖1描述了用于確定包含在候選基因中的差異甲基化核酸位點(diǎn)的基于甲基化依賴的限制性分析的示例性方法的示意性說明。所述方法的原則在實(shí)驗部分更詳細(xì)地描述。圖2顯示了成簇的樣品(列)對甲基化基因座(行)的示例性分布。獲得的DNA甲基化模式允許區(qū)分腫瘤(頂部條的左邊部分)和正常組織(頂部條的右側(cè)部分)。圖3表示根據(jù)本發(fā)明的方法的通常原則的示意性說明。圖4 (A)顯示差異甲基化基因座的列表(使用ifepl切割和MOMA陣列鑒定),其被發(fā)現(xiàn)指示區(qū)別不同的乳腺癌的亞型,即luminal A型對kisal and Her2型。(B)描述了表格,其包括甲基結(jié)合蛋白(MBP)、JfepI片段(MSP)(其中MBP結(jié)合位點(diǎn)被鑒定),到最近的基因的距離和所述最近的基因的名稱。發(fā)明的具體描述
本發(fā)明基于確定DNA甲基化標(biāo)簽?zāi)軌蚩煽繖z測特定樣品中病癥的存在和發(fā)生病癥的素因的意外發(fā)現(xiàn),所述DNA甲基化標(biāo)簽基于包含在一個或多個差異甲基化的候選基因/基因座中的核酸位點(diǎn)的模式和識別所述差異甲基化的核酸位點(diǎn)的DNA結(jié)合因子識別位點(diǎn)的模式。在下文中說明性地描述的本發(fā)明可適當(dāng)?shù)卦谌魏我鼗蚨鄠€要素、限制或多個限制缺乏情況下實(shí)踐,其不是本文中特別公開的。本發(fā)明將關(guān)于具體實(shí)施方案和參考某些圖片進(jìn)行描述,但本發(fā)明不限于此而只由權(quán)利要求限制。描述的圖片只是示意性的并將認(rèn)為是非限制性的。在術(shù)語“包含”(comprising)被用于本描述和權(quán)利要求中的情況下,其不排除其它元素和步驟。為了本發(fā)明的目的,術(shù)語“由……組成”(consisting of)被認(rèn)為是術(shù)語“包含”(comprising of)的優(yōu)選實(shí)施方案。如果在下文中一組被定義為包含至少某個數(shù)量的實(shí)施方案,也可理解為公開了優(yōu)選只由這些實(shí)施方案組成的組。在使用不定冠詞和定冠詞的情況下,當(dāng)涉及單數(shù)名詞例如“一”和“其”(“a”或 “an”、“the”)時,這包括了該名詞的復(fù)數(shù),除非另外特別指出。另外,在說明書和權(quán)利要求中術(shù)語第一、第二、第三、(a)、(b)、(c)和類似術(shù)語用于區(qū)別相似的元素而對描述連續(xù)的或時間順序是非必要的。應(yīng)理解的是如此使用的術(shù)語在適當(dāng)?shù)沫h(huán)境中是可互換的,本文中所描述的本發(fā)明的實(shí)施方案能夠以其它而非本文中描述或舉例的順序進(jìn)行。術(shù)語的進(jìn)一步定義將在術(shù)語應(yīng)用的上下文中給出。以下術(shù)語或定義單獨(dú)提供以幫助理解本發(fā)明并不解釋為具有小于技術(shù)人員所理解的范圍。在第一方面,本發(fā)明涉及檢測與病癥的存在或發(fā)生病癥的素因相關(guān)的DNA甲基化標(biāo)簽的方法,所述方法包括
(a)提供多個匹配樣品,所述多個包含至少一個靶樣品和至少一個參考樣品;
(b)在至少一個靶樣品中鑒定一個或多個相對于至少一個參考樣品展示出差異DNA甲基化的候選基因/基因座;
(c)確定包含在步驟(b)中獲得的一個或多個差異甲基化的候選基因/基因座中的核酸位點(diǎn);以及
(d)確定在步驟(b)中獲得的一個或多個候選基因/基因座中DNA結(jié)合因子識別位點(diǎn)的存在,其中所述DNA結(jié)合因子各個識別在步驟(c)中確定的核酸位點(diǎn);
其中在步驟(c)中獲得的差異甲基化的核酸位點(diǎn)的模式和在步驟(d)中獲得的DNA結(jié)合因子識別位點(diǎn)的模式一起表示DNA甲基化標(biāo)簽,所述標(biāo)簽指示在所述至少一個靶樣品中病癥的存在或發(fā)生病癥的素因。本發(fā)明中所用的各自的靶樣品和參考樣品可以源自原核生物或真核生物來源。通常,所用的樣品是哺乳動物樣品,其可以是人類或非人類來源的,優(yōu)選人類樣品。本文中所用的術(shù)語“樣品”應(yīng)理解為不僅包括個體細(xì)胞還包括組織、器官和生物體。本文中所用的術(shù)語“靶樣品”是指至少假定展示或具有發(fā)生病癥的素因的樣品,而術(shù)語“參考樣品”(也稱為“對照樣品”)通常表示不具有這樣病癥的特征的野生型材料(例
7如健康細(xì)胞)。但是,在一些應(yīng)用中,本發(fā)明的方法可用于分析和比較幾種展示病癥特征的樣品(例如,疾病早期和疾病狀態(tài)),例如為了監(jiān)控疾病發(fā)展。在這樣的情況中,如果不包括野生型(健康)對照樣品,具有較輕疾病特征的樣品通常作為“參考樣品”。本文中所用的術(shù)語“匹配樣品”表示多個至少兩個彼此相關(guān)的樣品。例如,被分析的樣品對可包括一個源自患病(例如癌癥)患者的靶樣品和一個源自健康個體的參考樣品。 但是本發(fā)明的方法不限于分析樣品對。例如,也可能對比一個參考樣品分析4個不同的靶樣品,例如源自患相同疾病但受不同程度影響的患者的靶樣品(例如3個不同的癌癥前期狀態(tài)和一個癌癥樣品)。因此,本文中所用的術(shù)語“多個匹配樣品”表示任何偶數(shù)或奇數(shù)的彡2的樣品(例如2、3、4、5、6、7、8、9、10、11、12等等),只要多個樣品包含至少一個靶樣品和至少一個參考樣品。通常本發(fā)明中所用的靶樣品和參考樣品源自從被治療的個體收集來的生物材料。 另外,為了確保獲得的數(shù)據(jù),“對比樣品”也可從具有特定已知疾病狀態(tài)的個體處收集。生物樣品可包括身體組織(例如活檢或切除)和/或體液,如血液、痰和尿。另外,生物樣品可包含源自對象的細(xì)胞群的細(xì)胞抽提物或細(xì)胞群。任選地,細(xì)胞或細(xì)胞抽提物可從獲得的身體組織和液體中純化,如果必要然后用作生物樣品。本發(fā)明的方法中所用的樣品應(yīng)通常以臨床可接受的方式收集,優(yōu)選以核酸或蛋白質(zhì)被保存的方式。本文中所用的術(shù)語“病癥”可最廣義地理解。該術(shù)語表示(i)任何類型的醫(yī)學(xué)情況,即靶樣品(即細(xì)胞和/或組織)中相對于未受影響的(野生型)對照樣品展示功能紊亂和 /或異常細(xì)胞表型特征的任何形態(tài)學(xué)和/或生理學(xué)改變;和/或(ii)在各自的靶樣品和參考樣品之間任何形態(tài)學(xué)、生理學(xué)和/或藥理學(xué)差異。根據(jù)(i)的改變的實(shí)例可尤其涉及細(xì)胞大小和形狀(增大或縮小)、細(xì)胞增殖(細(xì)胞數(shù)量增長)、細(xì)胞分化(生理狀態(tài)改變)、凋亡(程序化細(xì)胞死亡)或細(xì)胞存活。根據(jù)(ii)的差異的實(shí)例包括尤其腫瘤樣品對比健康對照(為了診斷或復(fù)發(fā)監(jiān)控的目的)、浸潤性對比非浸潤性腫瘤樣品(即不同腫瘤階段和/或腫瘤亞型;為了預(yù)后分析的目的)、相關(guān)于治療方案的情況如對特定病癥/醫(yī)學(xué)情況特殊治療的應(yīng)答性對比非應(yīng)答性。因此術(shù)語病癥可解釋為兩個或多個樣品之間的基于所述樣品可被區(qū)分和/或分類的任何種類差異。在優(yōu)選的實(shí)施方案中,病癥是癌癥,即一類惡性瘤(也稱為癌)包括尤其是結(jié)腸癌、 肺癌、肝癌、乳腺癌、卵巢癌和胰腺癌、黑色素瘤、神經(jīng)細(xì)胞瘤(例如成膠質(zhì)細(xì)胞瘤、星形細(xì)胞瘤、髓母細(xì)胞瘤)及其它。如本文中所用的術(shù)語“具有發(fā)生病癥的素因”表示任何指示病癥前期狀態(tài)的細(xì)胞表型,即正常轉(zhuǎn)化到異常表型的中間狀態(tài)。換言之,該術(shù)語表示發(fā)生病癥的危險狀態(tài)。本文中所用的術(shù)語“鑒定一個或多個候選基因/基因座”應(yīng)以從存在于特定樣品中的經(jīng)歷差異甲基化的基因的組中“選擇”至少一個候選基因的意義解釋。如本文中所用的術(shù)語“候選基因”(本文也稱為“候選基因座”)涉及在其核酸序列中包含一個或多個可以甲基化狀態(tài)和非甲基化狀態(tài)存在的核酸位點(diǎn)的任何基因座。在本發(fā)明的上下文中,術(shù)語基因不必要限制為編碼蛋白的序列(開放讀碼框)也包括基因間的區(qū)域。選擇(即選擇的候選基因/基因座的數(shù)量和/或種類)可以改變,例如依賴于待分析的疾病或病癥的治療形式,包括對分析的樣品取自的治療個體的疾病的治療干預(yù)、診斷標(biāo)準(zhǔn)如疾病階段和疾病監(jiān)控和監(jiān)督。另外術(shù)語“鑒定”包含了確定在至少一個靶樣品和至少一個參考樣品中差異DNA甲基化的程度和比較獲得的結(jié)果。鑒定的一個或多個候選基因/基因座可單獨(dú)地進(jìn)行進(jìn)一步分析或其可被聚類到一個或多個候選基因/基因座標(biāo)簽,其中每個標(biāo)簽的實(shí)體被整體分析(即一起)。如本文中所用的術(shù)語“候選基因/基因座標(biāo)簽”表示至少兩個彼此相關(guān)的候選基因/基因座的子集, 例如,編碼功能相等的蛋白或參與相同的信號通路的蛋白或類似情況。本文中所用的術(shù)語“DNA甲基化”表示DNA的化學(xué)修飾類型,其包括添加甲基基團(tuán)到DNA上,例如添加到胞嘧啶的嘧啶環(huán)的C5碳原子或添加到腺嘌呤的嘌呤環(huán)的N6氮原子, 其是本文中特別優(yōu)選的第一選擇。此修飾可遺傳并隨后不改變原始DNA序列地被移除。如此,其為表觀遺傳學(xué)編碼的部分及最佳表征的表觀遺傳學(xué)機(jī)制。在胞嘧啶C5處的DNA甲基化已在每種檢查的脊椎動物中被發(fā)現(xiàn)。在成年的體組織(somatic tissues)中,DNA甲基化通常發(fā)生在CpG 二核苷酸的情況中(參看下文)。非 CpG甲基化是普遍的,例如在胚胎干細(xì)胞中。DNA甲基化是可逆的DNA甲基轉(zhuǎn)移酶催化甲基基團(tuán)從S-腺苷-L-甲硫氨酸轉(zhuǎn)移到胞嘧啶或腺嘌呤殘基。在復(fù)制中DNA聚合酶不復(fù)制甲基化狀態(tài)(例如在 Robertson, K. D.和 Wolffe, A. P. (2000),如上;Li, Ε. (2002),如上;Bird, A. P. (2002),如上綜述的)。如本文中所用的術(shù)語“差異DNA甲基化”表示具體候選基因(包含在其序列中的一個或多個核酸位點(diǎn)上)在至少一個靶樣品中甲基化但在至少參考樣品中非甲基化的情況, 或者反之亦然,具體候選基因(包含在其序列中的一個或多個核酸位點(diǎn)上)在至少一個參考樣品中非甲基化但在至少靶樣品中甲基化的情況。通常地,一個或多個候選基因/基因座的差異DNA甲基化模式的確定可通過本領(lǐng)域已知的任何方法完成。在優(yōu)選的實(shí)施方案中,差異DNA甲基化通過一個或多個選自以下的方法確定亞硫酸氫鹽測序、焦磷酸測序、甲基化敏感的單鏈構(gòu)象分析(MS-SSCA)、 高分辨熔解分析(HRM)、甲基化敏感的單核苷酸引物延伸(MS-SnuPE)、堿基特異性切割/ MALDI-TOF,甲基化特異性PCR (MSP)、基于微陣列的方法和i&pl切割構(gòu)成(例如在Rein, Τ.等人.(1998),如上中綜述的)。進(jìn)一步適合的方法例如在美國專利申請2006/(^92564 Al中被公開。一個或多個候選基因/基因座的差異DNA甲基化模式的確定已包括鑒定如根據(jù)本發(fā)明的方法的步驟(c)中定義的包含在一個或多個的候選基因中的準(zhǔn)確的核酸位點(diǎn)(即序列原件,遺傳位點(diǎn))。在本方法優(yōu)選的實(shí)施方案中,包含在一個或多個差異甲基化的候選基因/基因座中的核酸位點(diǎn)是CpG 二核苷酸位點(diǎn)。如本文中所使用的術(shù)語“CpG 二核苷酸位點(diǎn)”(或者“CpG位點(diǎn)”)是指DNA區(qū)域,其中胞嘧啶核苷酸在線性序列上定位直接與鳥嘌呤核苷酸相鄰。“CpG”表示通過磷酸分隔的胞嘧啶和鳥嘌呤(即-C-磷酸-G-)?!癈pG”符號用于區(qū)分胞嘧啶接著鳥嘌呤和胞嘧啶堿基配對到鳥嘌呤。存在具有較高濃度的CpG位點(diǎn)的DNA區(qū)域,被稱為CpG島。哺乳動物基因組中很多基因具有與基因轉(zhuǎn)錄起始位點(diǎn)(包括啟動子)相關(guān)的CpG島?;騿幼又械腃pG位點(diǎn)過度甲基化(即升高的甲基化水平)可引起基因的沉默,其為例如在多種人類癌癥中發(fā)現(xiàn)的特征(例如癌癥抑制基因的沉默)。相反,CpG位點(diǎn)的甲基化不足(即降低的甲基化水平)已與癌癥細(xì)胞中的癌基因過表達(dá)相關(guān)(例如在Robertson, K. D.和 Wolffe, A. P. (2000),如上;Li, Ε. (2002),如上;Bird, Α. P. (2002),如上,· Klose, R.J.和 Bird, A. P. (2006) Trends Biochem. Sci. 31,89-97 中綜述的)。在優(yōu)選的實(shí)施方案中,所述方法的步驟(C)進(jìn)一步包括將一個或多個差異甲基化的候選基因/基因座分為
-第一子集“m”,其為一個或多個包含在至少一個參考樣品中甲基化和在至少一個靶樣品中非甲基化的核酸位點(diǎn)的候選基因/基因座;和
-第二子集“n”,其為一個或多個包含在至少一個參考樣品中非甲基化和在至少一個靶樣品中甲基化的核酸位點(diǎn)的候選基因/基因座。在本發(fā)明的上下文中,候選基因/基因座可包含僅單個在至少一個靶樣品和至少一個參考樣品之間差異甲基化的核酸位點(diǎn)。但是,也可能的是具有多于一個這樣的核酸位點(diǎn)的特定的候選基因/基因座,所述核酸位點(diǎn)可以是相同類型(即其全部屬于如上定義的子集“m”或其全部屬于如上定義的子集“η”)或不同類型(即至少其中一個屬于如上定義的子集“m”并且至少一個其它的屬于如上定義的子集“η”)。在多于一個包含在特定的候選基因/基因座中的差異甲基化核酸位點(diǎn)的情況中,隨后的DNA結(jié)合因子識別位點(diǎn)分析,如根據(jù)本發(fā)明的方法的步驟(d)定義的,可對每一個單獨(dú)的核酸位點(diǎn)分別進(jìn)行或?qū)蜻x基因以其整體進(jìn)行。因此,術(shù)語“候選基因/基因座”和“核酸”可在本文中交替使用,依賴進(jìn)行分析的的類型。因此,本發(fā)明的方法可包括選擇和分析一個或多個候選基因、一個或多個核酸位點(diǎn)或者其組合。類似地,DNA甲基化狀態(tài)(或水平)可涉及單獨(dú)的核酸位點(diǎn)或包含多于一個核酸位點(diǎn)的候選基因/基因座的整個甲基化水平。如果多個核酸位點(diǎn)是相同類型的(參見上文), 后一種情況表現(xiàn)出不加鑒別的(uncritical)。但是,在多個核酸位點(diǎn)包含不同類型的實(shí)體的情況下,如果在至少一個靶樣品中相對于至少一個參考樣品比反之具有更高數(shù)量的非甲基化核酸位點(diǎn)變?yōu)榧谆瑒t候選基因/基因座被認(rèn)為是處于“甲基化”狀態(tài)。另一方面, 如果在至少一個靶樣品中相對于至少一個參考樣品比反之具有更高數(shù)量的甲基化核酸位點(diǎn)變?yōu)榉羌谆?,則候選基因/基因座被認(rèn)為是處于“非甲基化”狀態(tài)。如本發(fā)明的方法的步驟(d)中定義的,確定在一個或多個候選基因/基因座中DNA 結(jié)合因子的識別位點(diǎn)的存在也可通過本領(lǐng)域已知的任何方法來完成。通常,此目標(biāo)通過將一個或多個DNA結(jié)合因子的各自DNA識別(即結(jié)合)位點(diǎn)的一致序列(從文獻(xiàn)或從數(shù)據(jù)庫如 TRANSFAC 中獲得;Wingender, E.等.Nucleic Acids Res. 24,21-25)與一個或多個待分析的候選基因的核酸序列比對來完成。在本發(fā)明中,僅考慮那些與差異甲基化位點(diǎn)相同或重疊的識別位點(diǎn),以這樣的方式,如本文中定義的DNA結(jié)合因子對識別位點(diǎn)的識別/結(jié)合阻止此位點(diǎn)的甲基化,或反之亦然,位點(diǎn)的甲基化阻止DNA結(jié)合因子識別/結(jié)合位點(diǎn)。換言之,在包含在候選基因中的特定的核酸位點(diǎn)上存在DNA甲基化和DNA結(jié)合因子識別的相互排斥性。如本文中所用的術(shù)語“DNA結(jié)合因子”表示結(jié)合靶DNA分子中特定序列元件的任何蛋白質(zhì),因此發(fā)揮關(guān)于所述DNA分子表達(dá)的任何作用,優(yōu)選在轉(zhuǎn)錄水平上,即,激活(或增強(qiáng)) 或者抑制(或沉默)基因表達(dá)。因此,DNA結(jié)合因子通常也稱為“轉(zhuǎn)錄因子”。這樣的DNA結(jié)合因子的實(shí)例包括尤其是真核生物通常的參與轉(zhuǎn)錄預(yù)起始復(fù)合物組裝的轉(zhuǎn)錄因子(TFIIA、 TFIIB、TFIID、TFIIE、TFIIF和TFIIH)、上游轉(zhuǎn)錄因子(結(jié)合起始位點(diǎn)上游某處以刺激或抑制轉(zhuǎn)錄)和可誘導(dǎo)的轉(zhuǎn)錄因子(類似于上游轉(zhuǎn)錄因子但需要激活或抑制)。后兩類的具體實(shí)例包括例如螺旋-環(huán)-螺旋/亮氨酸拉鏈因子、鋅指因子、螺旋-轉(zhuǎn)角-螺旋因子(例如 homeo結(jié)構(gòu)域因子、叉型頭/翼螺旋因子、熱休克因子)、β _支架因子(例如STAT因子,TATA 結(jié)合因子)及甲基化DNA結(jié)合蛋白,后者特別優(yōu)選(參見下文)。如上文概述的,DNA甲基化可通過兩種不同機(jī)制導(dǎo)致基因沉默第一,CpG 二核苷酸位點(diǎn)的甲基化阻止具有其同類DNA識別序列的轉(zhuǎn)錄因子結(jié)合到這樣的位點(diǎn);以及第二, 甲基-CpG結(jié)合蛋白(MBD)家族識別甲基-CpG 二核苷酸位點(diǎn),因此引起甲基化的DNA的抑制潛能。在第一個提到的情況中,識別序列類似候選基因/差異甲基化核酸位點(diǎn)的第一子集“m”,其在至少一個參考樣品中甲基化并在至少一個靶樣品中非甲基化。在第二個情況中,識別序列類似候選基因/差異甲基化核酸位點(diǎn)的第二子集“n”,其在至少一個參考樣品中非甲基化并在至少一個靶樣品中甲基化。因此,DNA結(jié)合因子和DNA結(jié)合因子的識別位點(diǎn)的不同子集可以分別被定義。在優(yōu)選的實(shí)施方案中,所述方法的步驟(d)進(jìn)一步包括為一個或多個DNA結(jié)合因子的第一子集“M”確定和選擇識別位點(diǎn),其中DNA結(jié)合因子的子集“M”的每一個成員選擇性地識別子集“m”的一個或多個候選基因。在另一個優(yōu)選的實(shí)施方案中,所述方法的步驟(d)進(jìn)一步包括為一個或多個DNA 結(jié)合因子的第二子集“N”確定和選擇識別位點(diǎn),其中DNA結(jié)合因子的子集“N”的每一個成員選擇性地識別子集“η”的一個或多個候選基因。在本發(fā)明特別優(yōu)選的實(shí)施方案中,DNA結(jié)合因子的子集“N”表示DNA甲基結(jié)合蛋白。最優(yōu)選的,DNA甲基結(jié)合蛋白選自MBDl、MBD2、MBD3、MBD4、MIZF、Kaiso和MeCP22。如本文中所用的術(shù)語“DNA甲基結(jié)合蛋白”表示DNA結(jié)合因子的特定家族,其特異性識別甲基化的DNA序列,特別是甲基化的CpG 二核苷酸(mCpG)。DNA甲基結(jié)合蛋白在十幾年前被鑒定(例如在 Bird, Α. P.和 Wolffe,Α. P. (1999) Cell 99,451-454; Wade, P. A. (2001) BioEssaysl ,, 1131-1137 ;Hendrich, B.禾口 Tweedie, S. (2003) Trends Genet. 19,269-277中綜述的)。甲基-CpG-結(jié)合結(jié)構(gòu)域(MBD)——負(fù)責(zé)結(jié)合甲基化的CpG 二核苷酸的蛋白基序——的特征促進(jìn)共享此結(jié)構(gòu)域的蛋白家族的生物信息鑒定。除了 MBD3(包含阻止結(jié)合到甲基-CpG上的氨基酸取代),哺乳動物的MBD蛋白(命名為MBD1-MBD4)和正在建立的(founding)成員MeCP2均特異性識別甲基_CpG。MIZF表示MBD2相互作用的鋅指,其組成MeCPl組蛋白脫乙酰酶(HDAC)復(fù)合物的組分。名為Kaiso的新MBP缺乏MBD, 但通過鋅指結(jié)構(gòu)域識別甲基化的DNA。所有MBP可介導(dǎo)基因表達(dá)沉默。這通過將染色質(zhì)重塑輔阻遏物復(fù)合物靶向到包含DNA甲基化的區(qū)域來完成。本文中特別提及的所有6個甲基 DNA結(jié)合蛋白是本領(lǐng)域眾所周知的。它們的核酸序列及其DNA識別保守基序可從數(shù)據(jù)庫如 GeneBank中得到。相應(yīng)的6個人類基因的核苷酸序列保存在GenBank中,其具有以下登記號 MBD1 ΝΜ_015846 (異構(gòu)體1 ;總共4個異構(gòu)體)
MBD2: NM_003927 (異構(gòu)體1 ;總共2個異構(gòu)體) MBD3: NM 003926MBD4: NM_003925 MIZF NM_015517
MeCP2:NM_004992 (異構(gòu)體1 ;總共2個異構(gòu)體) Kaiso: NM_006777o根據(jù)本發(fā)明,對于確定DNA結(jié)合因子的識別位點(diǎn)的存在的以上分析可對包含在差異甲基化的候選基因/基因座中的單獨(dú)的核酸位點(diǎn)、對包含在單獨(dú)的候選基因/基因座中的2個或更多這樣的位點(diǎn)和對2個或更多候選基因/基因座(每一個基因包含一個或多個差異甲基化位點(diǎn))分別地進(jìn)行,其中2個或多個位點(diǎn)可伴隨地或順序地分析。另外,任何這些分析可對于一個或多個DNA結(jié)合因子的識別位點(diǎn)進(jìn)行,其中保守結(jié)合序列存在的評估可伴隨地或者順序地進(jìn)行。在一些實(shí)施方案中,本發(fā)明的方法進(jìn)一步在步驟(d)中包含一個或多個分析循環(huán), 每一個循環(huán)包含在一個或多個鑒定的候選基因中確定DNA結(jié)合因子識別位點(diǎn)和隨后選擇 DNA結(jié)合因子識別位點(diǎn)的一個或多個子群,其存在于一個或多個候選基因/基因座中,或反之亦然,其在一個或多個候選基因/基因座中缺乏。隨后僅選擇的一個或多個子群(和因此僅包含各自結(jié)合位點(diǎn)的候選基因/基因座)進(jìn)行另一輪分析。因此,本發(fā)明的方法可包括步驟(d)的一個或多個重復(fù),其中每一個重復(fù)包括在一個或多個候選基因/基因座中確定一個或多個DNA結(jié)合因子的識別位點(diǎn)的存在,其尚未包括在之前重復(fù)的確定中。例如,在分析的第一輪中,如上文定義的DNA結(jié)合因子的子集N被選擇。因此,只有那些包含對于DNA結(jié)合因子該子集N的結(jié)合位點(diǎn)的候選基因(即子集“η”的候選基因)將被進(jìn)一步考慮。隨后假定的是DNA結(jié)合因子的子集N包含轉(zhuǎn)錄因子的一個或多個(結(jié)構(gòu)上和/或功能上相關(guān)的)家族,命名為子群Ni、Ν2、Ν3、Ν4、Ν5、Ν6等等。在第二輪,只有子群 Nl (例如甲基DNA結(jié)合蛋白)會被分析。因此,僅包含對于m識別位點(diǎn)的候選基因的相應(yīng)子群“nl”將被選擇并進(jìn)行第三輪分析。現(xiàn)在,假定子群m包含多個單獨(dú)的DNA結(jié)合因子, 命名為Ni” Nl2, Nl3、Nl4, Nl5, Nl6等等。在第三輪,只有Nl1和Nl2 (例如MBDl和MBD2)會被分析。因此,在三個選擇循環(huán)后,只有那些表達(dá)受W1和附2的結(jié)合影響的候選基因保留。也可能的是組合分析陽性(存在特異性識別位點(diǎn))和陰性特征(缺失另一個特異性識別位點(diǎn))。因此,通過使用這種方法,遺傳網(wǎng)絡(luò)可被闡明,例如甲基化依賴表達(dá)的候選基因通過單個轉(zhuǎn)錄因子調(diào)節(jié)。因此,在具體實(shí)施方案中,本發(fā)明的方法進(jìn)一步包括對于選擇的DNA結(jié)合因子的子集“M”每一個成員確定被識別的包含在子集“m”中的候選基因,和/或?qū)τ谶x擇的DNA 結(jié)合因子的子集“N”每一個成員確定被識別的包含在子集“η”中的候選基因。因此,本發(fā)明的方法導(dǎo)致確定包含在一個或多個候選基因/基因座中的差異甲基化核酸位點(diǎn)的模式和對于特異性結(jié)合差異甲基化核酸位點(diǎn)的DNA結(jié)合因子確定識別位點(diǎn)的模式。相關(guān)的這些模式加起來成為獨(dú)特的DNA甲基化標(biāo)簽,其指示在至少一個靶樣品中病癥的存在或發(fā)生病癥的素因。如本文中所用的術(shù)語“DNA甲基化標(biāo)簽”(也稱為“生物標(biāo)簽”)表示一組一個或多個候選基因/基因座,其具有特定DNA甲基化相應(yīng)的模式,以及存在于其核酸序列中的DNA 結(jié)合因子識別位點(diǎn)的相應(yīng)特定模式。此獨(dú)特的組合允許鑒定靶樣品中能夠?qū)袠悠窂膮⒖紭悠分袇^(qū)分出的表型狀態(tài)(例如病癥)。
換言之,根據(jù)本發(fā)明,DNA甲基化標(biāo)簽以其總體(即一個或多個差異甲基化候選基因一起)指示病癥的存在而不是僅僅任何像這樣的單獨(dú)的候選基因/基因座的差異甲基化可指示的。在本發(fā)明的上下文中,確定DNA結(jié)合因子的識別位點(diǎn)的模式也可被認(rèn)為是“過濾系統(tǒng)”,用于增加DNA甲基化標(biāo)簽/生物標(biāo)簽用于具體應(yīng)用(例如用于診斷特定的腫瘤亞型和將所述亞型從其他可能接近的相關(guān)亞型中區(qū)分出來)的意義。因此,這樣的過濾器可被用于基于其調(diào)節(jié)潛力(即基于序列的保守值和其中調(diào)節(jié)元件的存在)區(qū)分包含在這樣的生物標(biāo)簽中的候選基因/基因座的優(yōu)先次序。在具體的實(shí)施方案中,DNA甲基化標(biāo)簽包含至少3個或至少5個候選基因。優(yōu)選地,DNA甲基化標(biāo)簽包含至少10個候選基因(例如12、15、20、50、100、200、1000或更多個)。在進(jìn)一步具體的實(shí)施方案中,所述方法在計算機(jī)中模擬進(jìn)行。如本文中所用的術(shù)語“在計算機(jī)中模擬”、“inO可理解為“在計算機(jī)上或通過計算機(jī)模擬進(jìn)行”。本發(fā)明的方法可通過計算機(jī)模擬完整地進(jìn)行或至少部分地,即通過組合實(shí)驗方法和計算機(jī)模擬進(jìn)行。這可依賴于具體應(yīng)用、待分析的樣品的類型、待檢查或診斷的情況等。用于進(jìn)行這樣的計算機(jī)模擬的方法和軟件是商業(yè)上可獲得的并且是本領(lǐng)域眾所周知的。在另一個優(yōu)選的實(shí)施方案中,一個或多個鑒定的候選基因/基因座的DNA甲基化標(biāo)簽指示在至少一個靶樣品中癌癥的存在或發(fā)生癌癥的素因(也參見上文討論的)。特別優(yōu)選地,對于候選基因/基因座的子集“III”鑒定的DNA甲基化標(biāo)簽指示一個或多個癌基因的激活和/或?qū)τ诤蜻x基因/基因座的子集“η”鑒定的DNA甲基化標(biāo)簽指示一個或多個腫瘤抑制基因的失活。在進(jìn)一步具體的實(shí)施方案中,本發(fā)明的方法進(jìn)一步用于預(yù)測對在至少一個靶樣品中存在的病癥或傾向發(fā)生的病癥的處理的治療應(yīng)答。在另一方面,本發(fā)明涉及如本文定義的DNA甲基化標(biāo)簽作為用于病癥的篩查、診斷、治療計劃和/或復(fù)發(fā)監(jiān)控的患者樣品分類的生物標(biāo)記的用途。在還另一個方面,本發(fā)明涉及所述方法與其它患者數(shù)據(jù)和臨床參數(shù)一起用作基于計算機(jī)的臨床決定系統(tǒng)的整體部分的用途。本發(fā)明進(jìn)一步通過附圖和以下實(shí)施例描述,其僅用于闡明本發(fā)明的具體實(shí)施方案的目的,并不解釋為以任何方式限制本發(fā)明的范圍。
實(shí)施例1.樣品
患者樣品從挪威奧斯陸挪威Radium醫(yī)院獲得?;颊咄飧鶕?jù)法律規(guī)定獲得。2. CpG 島
注釋的CpG島從UCSC基因組瀏覽器中獲得。這些島用Gardiner-Garden定義預(yù)測 (Gardiner-Garden, Μ·和Frommer, Μ. (1987) J. Mol. Biol. 196,洸1_82),其包括以下標(biāo)準(zhǔn)長度彡200 bp ;% GC彡50% ;觀測的/預(yù)期的CpG彡0.6。在基因組中有在200bp 到2000bp的大小范圍內(nèi)的約沈219個CpG島。這些島用i&pl限制性片段化良好地覆蓋。陣列由 Roche NimbleGen he. (Madison, WI, USA)生產(chǎn),對下列說明使用 390K 格式。來自人類基因組構(gòu)造33(hgl7)的CpG島注釋用于設(shè)計50mer的疊瓦式陣列(tiling array)。
13
50mer被轉(zhuǎn)移到島序列坐標(biāo)的任意一側(cè)以平均分配在島上。390K格式具有367658 個可利用的特征,其不適合所有帶有50mer瓦的島。因此基于大小表示的島的截止值僅用被測定的具有200bp到2000bp大小的CpG島確定。設(shè)計對照探針以表示背景信號。樣品制備基本上如之前描述的進(jìn)行 (Lucito,R.等人Q003) Genome Res. 13,2291-2305), 除了以下修正(i)使用的主要限制性核酸內(nèi)切酶是i&pl。(ii)在消化后,接頭
和ASPIianer被連接。1 ^iier是非磷酸化的并且不會被連接。(iii)在連接后,材料通過酚 /氯仿抽提純化、沉淀、離心和重懸。然后材料被分成兩等份,一半用限制性核酸內(nèi)切酶JfcrBC消化,另一半被模擬消化。4個250 μ 1管被用于每一個樣品對的代表的PCR擴(kuò)增,每一個具有100 μ 體積反應(yīng)。 循環(huán)條件是95°C 1分鐘,72°C 3分鐘,15個循環(huán),隨后72°C延伸10分鐘。然后每一對管中的內(nèi)容物被集中起來。樣品通過酚/氯仿抽提清潔、沉淀、重懸,DNA濃度被確定。DNA如描述的被標(biāo)記(Lucito,R.等人O003),之前)除了小量改變。簡要地, 2 μg DNA模板(溶解在TE緩沖液中,pH8.0)置于0.2 ml PCR管。5 μ 1隨機(jī)九聚物 (Sigma-Aldrich Co. , St. Louis, MI, USA)被加入,用 dH20調(diào)節(jié)終體積至 25 μ ,樣品被混勻。管在100°C孵育5分鐘,然后在冰上5分鐘。向每一個樣品中加入5 μ 1 NEB Buffer 2 (New England Biolabs, Ipswich, MA, USA),5 μ 1 dNTPsCO. 6 nM dCTPU. 2 nM dATP、 dTTP、dGTP 的每一種)、5 μ 1 標(biāo)記物(Cy3_dCTP 或 Cy5_dCTP ;GE Healthcare Bio-Sciences Corp.,Piscataway,NJ,USA)、2 μ 1 NEB Klenow 片段和 2 μ 1 dH20。雜交和洗滌的程序基本上如描述的(Lucito,R.等人0003),之前),除了雜交的烘烤溫度上升至50°C。陣列用 GenePix 4000B 微陣列掃描儀(Molecular Devices, Inc.,Sunnyvale, CA, USA)以 5μπι 的像素大小掃描。GenePix Pro 4. 0軟件用于定量陣列的強(qiáng)度。陣列數(shù)據(jù)被輸入到S-PLUS統(tǒng)計軟件用于進(jìn)一步分析。3.數(shù)據(jù)分析
微陣列圖片在GenePix 4000B微陣列掃描儀上掃描,數(shù)據(jù)用Nimblescan軟件(Roche NimbleGen Inc.,Madison,WI,USA)提取。對每一個探針,對于每一個實(shí)驗和其相關(guān)的染料互換(dye swap)計算McrBc和對照處理樣品的比值的幾何平均值(即GeoMeanRatio)。隨后將數(shù)據(jù)集中所有樣品的各自的幾何平均值用分位數(shù)歸一化方法歸一化 (Bolstad, B. M.等.Q003) Bioinformatics 19,185-193)。每一個實(shí)驗的歸一化的比值隨后組合以用中位數(shù)平滑模型(median polish model)對于在每一個i&pl片段的所有探針得到一個值。因此獲得的數(shù)據(jù)隨后用于進(jìn)一步分析。變異分析用于鑒定最顯著的島。為了確定腫瘤和正常樣品間甲基化最一致發(fā)生的變化,我們使用t檢驗方法。在對多重檢測校正后使用0.001的P值截止(錯誤發(fā)現(xiàn)率; Benjamini, Y.禾口 Hochberg, Y. (1995) J. Roy. Stat. Soc.,Ser. B 57,289—300), 獲得916個差異甲基化的片段的列表。監(jiān)督式學(xué)習(xí)監(jiān)督式機(jī)器學(xué)習(xí)分類器用于鑒定區(qū)別腫瘤樣品和正常所需特征的數(shù)量。公眾可獲得的支持向量機(jī)(SVM)庫(LibSVM Ver 2. 8)用于使用留一法(leave one out method) (Lin, C.J. (2001) Neural Computation 13,307-317)獲得分類精確性。用于分類的甲基化特征首先在單獨(dú)的訓(xùn)練數(shù)據(jù)中使用t檢驗選擇。SVM然后在前10、50、100個特征中使用徑向基函數(shù)(RBF)內(nèi)核訓(xùn)練。
對于N個樣品,t檢驗對(N-I)個樣品進(jìn)行以鑒定帶有甲基化比值顯著差異的片段。對于N個樣品,此分析進(jìn)行N次,在t檢驗計算中每次省略一個樣品。來自(N-I)個樣品的前10個片段特征的甲基化比值隨后用于訓(xùn)練SVM。一個未訓(xùn)練的樣品的比值用作對照?;谥辽?0個特征,完成94%的分類精確性。有趣地,兩個在此分析中被歸類為正常的來自腫瘤樣組織的樣品也是分別在基因表達(dá)和ROMA分析中最接近正常的。4.甲基化位點(diǎn)的檢測
在一個實(shí)施方案中,所述方法包括從樣品(如細(xì)胞系、組織或血液樣品)中分離基因組 DNA。DNA提取可通過本領(lǐng)域普通技術(shù)人員標(biāo)準(zhǔn)方法來完成,包括使用去垢劑裂解、超聲和玻璃珠渦旋。一旦核酸被提取,基因組雙鏈DNA可用于分析。任選地,DNA可在進(jìn)一步分析前切開。然后,處理基因組DNA樣品以使5’位置未甲基化的胞嘧啶堿基被轉(zhuǎn)換為尿嘧啶、胸腺嘧啶或另一個在雜交行為方面不像胞嘧啶的堿基。這在下文中將理解為‘預(yù)處理,。基因組DNA的處理優(yōu)選用亞硫酸氫鹽(bisulfite)(亞硫酸鹽(sulfite)、酸式硫酸鹽 (disulfite))和隨后的堿性水解進(jìn)行,導(dǎo)致未甲基化的胞嘧啶堿基轉(zhuǎn)換為尿嘧啶。如果亞硫酸氫鹽溶液用于反應(yīng),那么親核加成在未甲基化的胞嘧啶上發(fā)生。另外變性試劑或溶劑及基團(tuán)攔截器(radical interc印tor)必須存在。轉(zhuǎn)變的DNA隨后用于檢測甲基化胞嘧啶殘基(參見圖1)。待分析的各自的DNA片段被擴(kuò)增。因為統(tǒng)計學(xué)和實(shí)踐的考慮,優(yōu)選多于10個具有 100bp-2000bp長度的不同的片段被擴(kuò)增。幾個DNA片段的擴(kuò)增可以同時在一個和相同的反應(yīng)容器中進(jìn)行。通常,擴(kuò)增通過聚合酶鏈?zhǔn)椒磻?yīng)(PCR)的方法進(jìn)行。PCR中所用的寡核苷酸引物的設(shè)計對本領(lǐng)域普通技術(shù)人員是顯而易見的。優(yōu)選地, 引物不包含任何CpG 二核苷酸。設(shè)計所述引物寡核苷酸序列以選擇性地退火到并擴(kuò)增僅特異性的感興趣的DNA片段,因此最小化背景或非相關(guān)DNA的擴(kuò)增。在具體的實(shí)施方案中,在擴(kuò)增中至少一個引物寡核苷酸結(jié)合到固相上。不同的寡核苷酸序列可以矩形或六邊形格子的形式排列在平面的固相上,固相表面尤其由硅、玻璃、 聚苯乙烯、鋁、鋼、鐵、銅、鎳、銀、或金、硝酸纖維素或塑料組成。獲得的片段可攜帶可直接或間接檢測的標(biāo)記物。優(yōu)選地,所用標(biāo)記物是熒光標(biāo)記物、放射性標(biāo)記物或具有可被質(zhì)譜儀檢測的典型質(zhì)量的可分開的分子片段。隨后,分析核酸擴(kuò)增子以確定處理前的基因組DNA的甲基化狀態(tài)。幾種處理過的核酸的甲基化狀態(tài)特異性分析的方法是已知的,其它可選方法對本領(lǐng)域普通技術(shù)人員將是顯而易見的。例如,分析可在擴(kuò)增步驟中進(jìn)行。在這樣的情況中,在核酸中預(yù)先選擇的CpG位置的甲基化狀態(tài)可使用甲基化特異性引物寡核苷酸來檢測(參見例如美國專利 6,265, 171)。圖2顯示成簇的樣品(列)對于甲基化基因座(行)的示例性分布。獲得的DNA甲基化模式允許區(qū)別腫瘤(頂部的條的左邊部分)和正常組織(頂部的條的右邊部分)。5. DNA甲基化模式的預(yù)測
首先,差異甲基化基因(或其他基因座)的數(shù)據(jù)集必須用低通量測定(如甲基化特異性 PCR(MSP))或高通量測定(例如MOMA、HELP測定、甲基DIP或Illumina’ s甲基化珠陣列技術(shù))產(chǎn)生。在根據(jù)本發(fā)明的方法下的原理的示意性表示在圖3中描述。用于區(qū)分乳腺癌的不同亞型的示例性DNA甲基化標(biāo)簽/生物標(biāo)簽在圖4中顯示。如果低通量測定如甲基化特異性PCR被使用,需要關(guān)于靶序列的進(jìn)一步信息。通常,當(dāng)用BLST基因組數(shù)據(jù)庫(UCSC基因組生物信息組,SantaCruz, CA, USA)將測定中所用的相對應(yīng)引物的DNA片段與人類基因組序列比對時,沒有直接擊中(direct hits)。因此, 引物序列需要和從人類基因組中獲得的相應(yīng)基因的基因組序列相比對。隨意地,代替“濕生物學(xué)實(shí)驗”計算機(jī)模擬PCR可在比對MSP引物和人類基因組之后用獲得的引物進(jìn)行。高通量方法如產(chǎn)生原始數(shù)據(jù)用于差異DNA甲基化分析。在一些具體的實(shí)施方案中,兩個或多個雜交匹配的樣品可以是浸潤性相對于非浸潤性癌癥,或?qū)χ委煈?yīng)答的患者相對于對治療不應(yīng)答的患者(如化療、免疫治療或組合治療)。差異甲基化基因標(biāo)簽的自動選擇此目標(biāo)可通過使用傳統(tǒng)統(tǒng)計學(xué)(例如斯氏t檢驗)或機(jī)器學(xué)習(xí)方法(例如SVM)完成。此步驟產(chǎn)生一個或多個候選基因(或一個或多個候選標(biāo)簽,每一個由一組基因組成)。進(jìn)一步方法步驟目的在于提供方法用于整合關(guān)于通過甲基結(jié)合蛋白(和/或通過其它DNA結(jié)合因子如轉(zhuǎn)錄因子)的基因沉默的表觀遺傳學(xué)機(jī)制的生物學(xué)知識。一個或多個候選基因(在每一個標(biāo)簽中任選地)分成兩組
(a)包含從非甲基化到甲基化狀態(tài)改變的那些;在診斷/監(jiān)控癌癥狀態(tài)的情況下,這樣的“過度甲基化”指示腫瘤抑制基因失活(下文中,這些基因因此稱為“T組”);及
(b)包含從甲基化到非甲基化狀態(tài)改變的那些;在診斷/監(jiān)控癌癥狀態(tài)的情況下,這樣的“甲基化不足”指示癌基因激活(下文中,這些基因因此稱為“0組”)。對于甲基化水平和DNA結(jié)合因子識別位點(diǎn)(轉(zhuǎn)錄因子結(jié)合位點(diǎn))的存在的后續(xù)相關(guān)性,以下步驟是需要的
(1)為尋找轉(zhuǎn)錄因子結(jié)合位點(diǎn)(TFBk),T組中差異甲基化候選基因序列用作前景組及0組的那些作為背景組。如果候選位置具有(即差異甲基化位點(diǎn))TFBS,那么其被包含在分析的下一個階段中。如果基因座將發(fā)揮涉及腫瘤抑制基因的表觀遺傳學(xué)作用,那么轉(zhuǎn)錄因子(TF)因為甲基化不能結(jié)合這個基因座,所以部分信號網(wǎng)絡(luò)被破壞。(2)為尋找TFBS,0組中差異甲基化候選基因序列用作前景組及T組的那些作為背景組。如果候選基因座具有TFBS,那么其被包含在分析的下一個階段中。還必須證實(shí)的是各自的TF也未甲基化以便基因座是功能上重要的有更高的機(jī)會。在這樣的情況下,未甲基化的基因座和未甲基化的TF被包含在最后的標(biāo)簽中。(3)對于T組中的每一個基因/基因座,進(jìn)一步確定的是DNA甲基結(jié)合蛋白(如 MBD1、MBD2、MBD3和MBD4、Kaiso和MeCP2,即一類特定類型的TF)的保守結(jié)合序列是否存在。然后由單甲基結(jié)合蛋白調(diào)控的基因網(wǎng)絡(luò)被得到。具有甲基蛋白結(jié)合位點(diǎn)的候選基因座包含在分析的下一個階段中。下一步,基于以上提到的三個步驟,差異甲基化候選基因被評估成為甲基化標(biāo)簽的部分。基因/基因座需要參與至少一個分別的網(wǎng)絡(luò)/子集。通路信息從通路數(shù)據(jù)庫中的一個被包含(例如KEGG通路數(shù)據(jù)庫)。剩余的基因座被放棄。如果如M得分(M_kore )公式中表示的,差異甲基化(M水平(M_Leve 1))、甲基結(jié)合蛋白位點(diǎn)(No_MBS)的存在和轉(zhuǎn)錄因子結(jié)合位點(diǎn)(No_TFBS)的存在的組合值高于某閾值, 候選基因在最后的組中M_Score = wl* M_Level + w2* No_MBS + w3*No_TFBS
此評估可確認(rèn)在基因網(wǎng)絡(luò)中現(xiàn)有的和新的從屬(cbpendenc i es )和基因級聯(lián)(gene cascades).這也將進(jìn)一步闡明級聯(lián)下的生物標(biāo)記,其可用作DNA甲基化評估替代。對于所有這些基因/基因座,特異性基因座將在最終組里的更高置信度是需要的。以這種方式,具有更高潛能起表觀遺傳學(xué)作用的基因座被包括。當(dāng)然為證實(shí)甲基化位點(diǎn)的功能性作用,應(yīng)該進(jìn)行功能性測定例如,細(xì)胞可用去甲基化試劑如5-氮雜胞苷處理, 然后通過基因表達(dá)方法測定以證實(shí)基因座的去甲基化與各自基因的調(diào)節(jié)相關(guān)。本發(fā)明可用于候選生物標(biāo)記/生物標(biāo)簽的評估和選擇。從此方法中獲得的適當(dāng)?shù)纳飿?biāo)簽可用于患者分類、篩查、診斷、預(yù)后、治療計劃和評估疾病(例如癌癥)的復(fù)發(fā)。另外,此方法可用作計算機(jī)模擬分析途徑的部分以在任何生物體中進(jìn)行假設(shè)用于表觀遺傳學(xué)研究。除了此方法用于研究目的的用途,本發(fā)明的方法也可與其它患者數(shù)據(jù)和臨床參數(shù)一起用在基于計算機(jī)的臨床決定系統(tǒng)中。本文中示意性描述的本發(fā)明可適當(dāng)?shù)卦谌魏我鼗蚨鄠€要素、限制或多個限制缺乏情況下實(shí)踐,其不是本文中特別公開的。因此,例如術(shù)語“包含”、“包括”、“含有”等將被擴(kuò)展地理解并且是非限制性的。另外,本文中所用的術(shù)語和表達(dá)已用作描述的術(shù)語并且是非限制性的,沒有意圖使用這樣的術(shù)語和表達(dá)排除任何顯示和描述的特征的等同物或其部分,但是公認(rèn)的是在本發(fā)明權(quán)利要求的范圍內(nèi)各種修改是可能的。因此,應(yīng)理解的是盡管本發(fā)明已通過實(shí)施方案和任選的特征具體公過,但是在其中體現(xiàn)的本發(fā)明的修改和變化可被本領(lǐng)域技術(shù)人員采用,并且這樣的修改和變化被認(rèn)為在本發(fā)明的范圍中。本發(fā)明已在本文中被廣泛地和一般地描述。每一個落入一般性公開中的更窄的種類和亞類分組也形成本發(fā)明的部分。這包括本發(fā)明的一般性描述,帶有限制性或否定的限制以從該種類中排除任何主題,與排除的材料在本文中是否明確引用無關(guān)。其它實(shí)施方案在以下的權(quán)利要求中。另外,在本發(fā)明的特征或方面按照馬庫什組被描述的情況下,本領(lǐng)域的普通技術(shù)人員將認(rèn)為本發(fā)明也因此以馬庫什組的任何單獨(dú)成員或成員的子群被描述。
權(quán)利要求
1.用于檢測與病癥的存在或發(fā)生病癥的素因相關(guān)的DNA甲基化標(biāo)簽的方法,所述方法包括(a)提供多個匹配樣品,所述多個包含至少一個靶樣品和至少一個參考樣品;(b)在所述至少一個靶樣品中鑒定一個或多個相對于所述至少一個參考樣品展示出差異DNA甲基化的候選基因/基因座;(c)確定包含在步驟(b)中獲得的所述一個或多個差異甲基化的候選基因/基因座中的核酸位點(diǎn);以及(d)確定在步驟(b)中獲得的所述一個或多個候選基因/基因座中DNA結(jié)合因子識別位點(diǎn)的存在,其中所述DNA結(jié)合因子各個識別在步驟(c)中確定的核酸位點(diǎn);其中在步驟(c)中獲得的差異甲基化的核酸位點(diǎn)的模式和在步驟(d)中獲得的DNA結(jié)合因子識別位點(diǎn)的模式一起表示DNA甲基化標(biāo)簽,所述標(biāo)簽指示在所述至少一個靶樣品中病癥的存在或發(fā)生病癥的素因。
2.權(quán)利要求1的方法,其中包含在一個或多個的差異甲基化的候選基因/基因座中核酸位點(diǎn)是CpG 二核苷酸位點(diǎn)。
3.權(quán)利要求1或2的方法,其中差異DNA甲基化通過選自以下的一個或多個方法來確定亞硫酸氫鹽測序、焦磷酸測序、甲基化敏感的單鏈構(gòu)象分析(MS-SSCA)、高分辨熔解分析(HRM)、甲基化敏感的單核苷酸引物延伸(MS-SnuPE)、堿基特異性切割/ MALDI-TOF,甲基化特異性PCR (#5P)、基于微陣列的方法和ife/71切割。
4.權(quán)利要求1到3中任意一項的方法,其中步驟(c)進(jìn)一步包括將一個或多個差異甲基化的候選基因/基因座分為-第一子集“m”,其為一個或多個包含在至少一個參考樣品中甲基化和在至少一個靶樣品中非甲基化的核酸位點(diǎn)的候選基因/基因座;和-第二子集“n”,其為一個或多個包含在至少一個參考樣品中非甲基化和在至少一個靶樣品中甲基化的核酸位點(diǎn)的候選基因/基因座。
5.權(quán)利要求4的方法,其中步驟(d)進(jìn)一步包括對于一個或多個DNA結(jié)合因子的第一子集“M”確定和選擇識別位點(diǎn),其中DNA結(jié)合因子的子集“M”的每一個成員選擇性地識別子集“m”的一個或多個候選基因。
6.權(quán)利要求4或5的方法,其中步驟(d)進(jìn)一步包括對于一個或多個DNA結(jié)合因子的第二子集“N”確定和選擇識別位點(diǎn),其中DNA結(jié)合因子的子集“N”的每一個成員選擇性地識別子集“η”的一個或多個候選基因。
7.權(quán)利要求6的方法,其中所述DNA結(jié)合因子的子集“N”表示DNA甲基結(jié)合蛋白。
8.權(quán)利要求7的方法,其中所述DNA甲基結(jié)合蛋白選自MBD1、MBD2、MBD3、MBD4、MIZF、 Kaiso 和 MeCP2。
9.權(quán)利要求5到8中任意一項的方法,其進(jìn)一步包括對于選擇的DNA結(jié)合因子的子集 “M”每一個成員確定被識別的包含在子集“m”中的候選基因,和/或?qū)τ谶x擇的DNA結(jié)合因子的子集“N”每一個成員確定被識別的包含在子集“η”中的候選基因。
10.權(quán)利要求1到9中任意一項的方法,其進(jìn)一步包括步驟(d)的一個或多個重復(fù),其中每一個重復(fù)包括在一個或多個候選基因/基因座中確定一個或多個DNA結(jié)合因子的識別位點(diǎn)的存在,所述DNA結(jié)合因子尚未包括在之前重復(fù)的確定中。
11.權(quán)利要求1到10中任意一項的方法,其中鑒定的DNA甲基化標(biāo)簽包含至少10個候選基因/基因座。
12.權(quán)利要求4到11中任意一項的方法,其中一個或多個鑒定的候選基因/基因座的 DNA甲基化標(biāo)簽指示在至少一個靶樣品中癌癥的存在或發(fā)生癌癥的素因。
13.權(quán)利要求12的方法,其中對于候選基因/基因座的子集“m”鑒定的DNA甲基化標(biāo)簽指示一個或多個癌基因的激活。
14.權(quán)利要求12或13的方法,其中對于候選基因/基因座的子集“η”鑒定的DNA甲基化標(biāo)簽指示一個或多個腫瘤抑制基因的失活。
15.權(quán)利要求1到14中任意一項的方法,其進(jìn)一步用于預(yù)測對在至少一個靶樣品中存在的病癥或傾向發(fā)生的病癥的處理的治療應(yīng)答。
16.權(quán)利要求1到15中任意一項的方法,其中所述方法在計算機(jī)中模擬進(jìn)行。
17.權(quán)利要求1到16中任意一項中定義的DNA甲基化標(biāo)簽作為用于病癥的篩查、診斷、 治療計劃和/或復(fù)發(fā)監(jiān)控的患者樣品分類的生物標(biāo)記的用途。
18.權(quán)利要求1到16中任意一項的方法與其它患者數(shù)據(jù)和臨床參數(shù)一起作為基于計算機(jī)的臨床決定系統(tǒng)的整體部分的用途。
全文摘要
本發(fā)明涉及用于檢測與病癥的存在或發(fā)生病癥的素因相關(guān)的DNA甲基化標(biāo)簽的方法,所述方法包括鑒定一個或多個在靶和參考樣品中展示出差異DNA甲基化的候選基因,以及分別測定在所述差異甲基化的候選基因中的核酸位點(diǎn)和DNA結(jié)合因子的識別位點(diǎn),所述DNA結(jié)合因子各個識別這種差異甲基化的核酸位點(diǎn),其中得到的差異甲基化的核酸位點(diǎn)的模式和DNA結(jié)合因子識別位點(diǎn)的模式一起表示DNA甲基化標(biāo)簽,所述標(biāo)簽指示靶樣品中病癥的存在或發(fā)生病癥的素因。
文檔編號C12Q1/68GK102257161SQ200980151020
公開日2011年11月23日 申請日期2009年12月14日 優(yōu)先權(quán)日2008年12月18日
發(fā)明者C.米塔爾, N.迪米特羅瓦, S.卡馬拉卡蘭 申請人:皇家飛利浦電子股份有限公司