鑒定宿主基因組中hbv基因整合位點和重復(fù)靶基因的制作方法
【專利摘要】本發(fā)明公開了一種新穎的大規(guī)模錨定并行測序技術(shù),其可用于分離和測序整合序列、從而鑒定宿主基因組中HBV基因整合的重復(fù)靶基因;本發(fā)明還公開了用于實施該技術(shù)的試劑盒;本發(fā)明還公開了6個新的被HBV重復(fù)整合的基因、以及相關(guān)的試劑盒。
【專利說明】鑒定宿主基因組中HBV基因整合位點和重復(fù)靶基因
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種新穎的大規(guī)模錨定并行測序技術(shù)(massive anchored parallelsequencing,MAPS),其可用于分離和測定HBV基因整合序列(即,整合子,integrant)、從而鑒定宿主基因組中HBV的基因整合位點和整合靶基因(targeted genes);本發(fā)明還涉及用于實施該技術(shù)的試劑盒;本發(fā)明還涉及利用該技術(shù)確定的被HBV重復(fù)整合的(recurrentlyintegrated)基因、以及這些基因的用途。
【背景技術(shù)】
[0002]乙肝病毒(hepatitis B virus, HBV)的長期感染可以引起一系列肝臟疾病,包括慢性肝炎、肝硬化以及肝細(xì)胞癌(hepatocellular carcinoma, HCC)。全世界大約有20億人受到HBV感染,其中3.5億為慢性感染。HBV感染每年造成50萬-120萬人死亡,其中32萬由HCC引起(Parkin2006)。很多流行病學(xué)研究發(fā)現(xiàn),HBV慢性感染與HCC的發(fā)生發(fā)展存在因果關(guān)系(Szmunessl978)。由HBV引起的HCC中,約85-90%發(fā)現(xiàn)了 HBV整合片段和游離的 HBV 基因組(Murakami, Saigo et al.2005)。
[0003]大部分HBV相關(guān)的HCC中都發(fā)現(xiàn)了乙肝病毒DNA整合到宿主細(xì)胞的染色體上。在HCC的發(fā)生發(fā)展中,HBV基因整合的 作用復(fù)雜,機理尚未完全明晰。HBV整合發(fā)現(xiàn)于宿主基因組的各個染色體上(Tokino and Matsubaral991)。這些整合可能導(dǎo)致染色體的改變、基因組的不穩(wěn)定,或者改變?nèi)祟惢虻谋磉_水平。HBV整合被認(rèn)為與染色體脆弱位點或者重復(fù)序列相關(guān),并在整合后導(dǎo)致局部的重組,因而使基因組變得更加不穩(wěn)定(Feitelson andLee2007)。
[0004]病毒基因整合入宿主細(xì)胞基因組中引起整合靶基因形成誘發(fā)癌化的功能,是病毒感染引發(fā)癌癥的經(jīng)典機制。HBV插入的目標(biāo)基因包括RARB (Garcia,de The et al.1993)和CCNA2 (Wang,Zindy et al.1992),整合后產(chǎn)生融合的原癌蛋白引起癌發(fā)生。類似的HBV整合激活祀基因癌化功能形成的報道還包括甲輕戍酸激酶(MK) (Graef,Caselmann etal.1994 ;Graef, Caselmann et al.1995),羧妝酶N(CPN2) (Pineau,Marchio et al.1996),肌質(zhì)網(wǎng)/內(nèi)質(zhì)網(wǎng)鈣蛋白(SERCA) (Chami,Gozuacik et al.2000)和端粒酶逆轉(zhuǎn)錄酶(TERT)(Horikawa and Barrett2001)。然而,上述基因中除了 TERT外,其余靶基因整合還沒有被發(fā)現(xiàn)在其它HCC患者中重現(xiàn)。
[0005]隨著新一代測序技術(shù)的發(fā)展,全基因組測序已被用來研究全基因組范圍內(nèi)的HBV整合事件。Sung等人利用Illumina PE測序?qū)?1個HBV陽性的HCC樣本進行超過30倍覆蓋率的全基因組測序,根據(jù)2對測序結(jié)果同時比對上hgl9和HBV的臨近序列為整合位點認(rèn)定標(biāo)準(zhǔn),他們發(fā)現(xiàn)了 399個HBV整合事件,平均每個病人4.9個整合,其中重復(fù)整合的靶基因有TERT (整合次數(shù)η = 18,即發(fā)現(xiàn)該基因在所有樣本中被HBV整合18例)、MLL4 (η = 9)、FNl(η = 5)、CCNEl(η = 4)、SENP5(n = 3)和 ROCKl(η = 2)(Sung,Zheng et al.2012)。在另一篇最近的報道中,Jiang等人利用Complete Genomics測序技術(shù)以超過80倍的測序覆蓋分析了 3位HBV-HCC病人的基因組,鑒定到255個HBV整合位點,平均每個病人為64個整合事件,但沒有發(fā)現(xiàn)重復(fù)整合IE基因(Jiang, Jhunjhunwala et al.2012)。Fujimoto等利用IlluminaPE測序在11例HBV相關(guān)的HCC樣本中進行40倍覆蓋率的全基因組測序,發(fā)現(xiàn)23個整合位點,其中一個重復(fù)整合靶基因TERT (n = 4) (Fujimoto, Totoki et al.2012)。
[0006]但是,全基因組測序耗費較為高昂,多樣本測序則更甚。大部分整合位點的分析工作主要通過特異地富集整合序列后再測序,即先使用PCR擴增整合相關(guān)序列。許多PCR方法包括 Alu-PCR(Minami,Poussin et al.1995)、LM-PCR(Tamori,Yamanishi et al.2005)和RS-PCR(Ferber,Montoya et al.2003)都曾用于HBV整合子的分離,分離后再用Sanger法測序。但是,這些方法都有技術(shù)性缺陷(即,只能分離局限于基因組某些部位的整合位點),并受限于有限的測序通量無法識別更多的整合位點。因此HBV病毒的整合分析需要一種全新設(shè)計的擴增、測序方案,要求其不僅可快速地、全面(在全基因組水平)和特異性地鑒定HBV病毒的整合,同時更具經(jīng)濟性,以便用于常規(guī)的肝癌臨床檢測。
[0007]耶¥中包含多種蛋白,比如耶1、耶8、耶6、耶(3等。其中,HBx是HBV中的X蛋白,由HBV ORF中最小的X基因(即HBX基因)編碼,包含154個氨基酸,分子量為16.5kDa,是個多功能調(diào)控蛋白,具有細(xì)胞和病毒調(diào)控作用,在HBV的復(fù)制和轉(zhuǎn)錄中發(fā)揮重要作用。HBx是整合并保留在宿主基因組中最常見的病毒基因(Unsal H,Yakicier C,Marcais C,KewM, Volkmann M, Zentgraf H et al.(1994).Genetic heterogeneity of hepatocellularcarcinoma.Proc Natl Acad Sci USA 91:822-826.)。因此 HBx 蛋白及其編碼基因一HBX基因的檢測對于肝癌的預(yù)測、診斷、治療而言意義重大。
【發(fā)明內(nèi)容】
[0008]為了進一步改進新一代測序技術(shù),提高測序通量,并提高HBV基因整合分析的全面性、準(zhǔn)確性和分析效率,本發(fā)明人將連接介導(dǎo)的PCR技術(shù)(ligation-mediated PCR,LM-PCR)中使用的接頭(adapter)和Illumina的雙末端(paired-end,簡稱PE)測序中使用的接頭進行組合,結(jié)合基因組步移(genome walking)技術(shù),并結(jié)合DNA條形碼(DNAbarcode)的應(yīng)用,開發(fā)出一 種大規(guī)模錨定并行測序技術(shù)(massive anchored parallelsequencing, MAPS)來分離和測序整合序列,并針對HBV與人類基因組的整合特點來設(shè)計MAPS所需的特定巢式引物,實現(xiàn)HBV整合序列擴增和高通量測序。與之相適應(yīng)地,開發(fā)出一套數(shù)據(jù)分析流程,借此從測序數(shù)據(jù)中發(fā)現(xiàn)可信的、確定的HBV整合位點。通過該技術(shù),本發(fā)明人還開發(fā)了用于分離和鑒定肝臟組織(癌,癌旁或正常組織)或血液(游離細(xì)胞或DNA)中HBV整合位點的試劑盒。通過MAPS,本發(fā)明人發(fā)現(xiàn)了 286個HBV整合位點,8個HBV重復(fù)整合靶基因。其中,6個基因為新的重復(fù)靶基因。毫無疑問,這些新發(fā)現(xiàn)的重復(fù)靶整合基因或基因位點可用于開發(fā)肝癌病人的分子分型試劑盒和肝癌治療藥物的開發(fā)。
[0009]因此,本發(fā)明的第一個目的在于提供一種用于分離和鑒定宿主基因組中HBV基因整合位點的大規(guī)模錨定并行測序技術(shù)(MAPS),其包含如下步驟:
[0010]I)從樣品中提取基因組DNA ;
[0011]2)將步驟I)所得基因組DNA隨機片段化;
[0012]3)使步驟2)所得DNA片段兩端與步移接頭相連接,構(gòu)建基因組步移文庫;
[0013]4)以步驟3)制備的基因組步移文庫為模板,利用步移接頭特異引物和HBV特異引物進行PCR擴增,得到整合子序列;[0014]5)以步驟4)所得整合子序列為模板,通過PCR反應(yīng)引入與高通量測序平臺兼容的接頭序列,制備高通量測序文庫;
[0015]6)對步驟5)所得測序文庫進行高通量多元測序分析;
[0016]7)進行生物信息學(xué)分析,發(fā)現(xiàn)HBV整合位點。
[0017]為實施這些步驟,本發(fā)明的第二個目的在于提供一種用于MAPS的引物一PE2步移接頭(PE2Walking Adapter),其包含:
[0018]序列為
[0019]5,-CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCTNNNNNN*T**-3,(SEQ ID N0.1)的 PE2 接頭(PE2Adapter),和
[0020]序列為5,-#P04-NNNNNNAGATCGGAAGAGCGAGCACATCCCTTTCTCACA-3,(SEQ ID N0.2)的步移接頭2,
[0021 ] 其中,SEQ IDN0.1中的NNNNNN和SEQ IDN0.2中的NNNNNN都是6個核苷酸堿基(6nt)的、并且相互互補的DNA條形碼;
[0022]*是指3’端最末兩個喊基之間用硫代憐酸酷鍵修飾;
[0023]**此處T是外伸或稱懸垂(overhang),與基因組DNA片段修復(fù)后的A外伸互補;
[0024]#P04-是指5’端磷酸化修飾;
[0025]SEQ ID N0.1 中包含序列為 5’_CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT-3’ (SEQ ID N0.3)的雙末端引物之一 PE2,而該PE2中包含前后相鄰的序列為 5’ -CAAGCAGAAGAC-3’ (SEQ ID N0.4)的 PE2.1 和序列為 5’ -GGCATACGAGATCGGTCTCGGCATTCCTGCTGAACC-3’ (SEQ ID N0.5)的 PE2.2 ;
[0026]由于SEQ ID N0.1 中在靠近 3’端的部分序列 5’-GCTCTTCCGATCTNNNNNN-3’與 SEQID N0.2中在靠近5’端的部分序列5’ -NNNNNNAGATCGGAAGAGCG-3’互補配對,使得由長鏈SEQ ID N0.1與短鏈SEQ ID N0.2組成的PE2步移接頭呈“Y”形。
[0027]優(yōu)選地,SEQID N0.1 中的 DNA 條形碼 5’ -NNNNNN-3’ 選自下組:ACATCG、GCCTAA、TGGTCA、CACTGT、ATTGGC、GATCTG、TCAAGT、CTGATC、AAGCTA、GTAGCC、TACAAG、CGTGAT、AGAAGC、GTTCCG ;與上述條形碼標(biāo)簽——對應(yīng)地,SEQ ID N0.2中的DNA條形碼5,-NNNNNN-3,分別選自下組:CGATGT、TAGGC、TGACCA、ACAGTG、GCCAAT、CAGATC、ACTTGA、GATCAG、TAGCTT、GGCI AC、CTTGIA、ATCACG,GCTTCT,CGGAACo
[0028]另一種用于大規(guī)模錨定并行測序技術(shù)的引物一PE1,其序列為:5’ -AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’ (SEQ ID N0.6)。
[0029]另一種用于大規(guī)模錨定并行測序技術(shù)的引物一PEl-Barcode-HBX2,其序列為:5’ -CACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNACTTCGCTTCACCTCTGCACGT-3’ (SEQ IDN0.7)。
[0030]該序列SEQ ID N0.7中包含具有5個核苷酸堿基(5nt)的DNA條形碼NNNNN、和序列為 5’ -ACTTCGCTTCACCTCTGCACGT-3’ (SEQ ID N0.8)的 HBX 二次 PCR 引物 IIBX2。
[0031]優(yōu)選地,SEQID N0.7 中的 DNA 條形碼 5’ -NNNNN-3’ 選自下組:AACCG、AACGA,AACTC、AAGCT、CCAAT、CTCTG、CTGGA、CTTCG、GCGTA、GGACT、GGTAA、TCGTC、TCTGC、TGAGC。
[0032]另一種用于大規(guī)模錨定并行測序技術(shù)的引物一HBX1,其序列為:5’ -TCTCATCTGCCGGACCGTGT-3’ (SEQ ID N0.9)。[0033]當(dāng)上述這些引物用于本發(fā)明的大規(guī)模錨定并行測序技術(shù)時,上述步驟2)至7)具體包括:
[0034]2)將DNA片段化,比如進行超聲片段化,優(yōu)選經(jīng)超聲破碎而得到大致在IOObp到1000bp之間的DNA片段;
[0035]3)構(gòu)建基因組步移文庫,包括修復(fù)DNA片段末端、DNA平末端加單核苷A外伸或稱懸垂(overhang)、與PE2步移接頭相連接、純化DNA ;
[0036]4)擴增整合子序列,包括:以步驟3)制備的基因組步移文庫為模板,以PE2.1為一端引物、HBXl為另一端引物,進行第一輪HBX基因側(cè)翼擴增;以第一輪HBX基因側(cè)翼擴增得到的文庫為模板,以PE2.2為一端引物、以PEl-Barcode-HBX2為另一端引物,進行第二輪HBX基因側(cè)翼擴增,得到整合子序列;
[0037]5)制備雙端測序文庫,包括:以第二輪巢式PCR擴增得到的整合子序列為模板,以PE2為一端引物、以PEI為另一端引物,通過PCR進行富增,借此導(dǎo)入11 lumina PE測序的全長接頭序列,得到雙端測序文庫;
[0038]6)制備陰性對照的文庫,以便更好地評估MAPS方法,包括制備如下兩種陰性對照:一個是來自于HBV陰性個體的基因組DNA (即沒有HBV的DNA);另一個是純化的HBV基因組DNA與人類基因組DNA的簡單混合物(沒有與之整合),優(yōu)選該混合物中HBV DNA和人類DNA可通過現(xiàn)有技術(shù)的常 規(guī)的DNA檢測手段進行定性和/或定量;
[0039]7) Illumina雙端多元測序分析;
[0040]8)生物信息學(xué)分析,包括:序列去多元化;通過兩個方向的讀序Readl (讀序I)和Read2 (讀序2)進行序列比對,識別整合位點;篩選鑒定出包含由2對以上雙端序列支持的HBV基因整合位點,作為可信的(即確定的)HBV基因整合位點;
[0041]9) PCR驗證和Sanger測序驗證,包括:通過巢式PCR、電泳鑒定和Sanger法測序,確定宿主基因組DNA與HBV基因的整合。
[0042]優(yōu)選地,所述宿主是人。
[0043]優(yōu)選地,分離HBV整合序列的引物位于HBX基因上。
[0044]為了實施本發(fā)明的大規(guī)模錨定并行測序技術(shù),本發(fā)明的第三個目的在于提供一種用于檢測HBV DNA整合入宿主基因組DNA、尤其是包含HBV中HBX基因的整合位點的試劑盒,其包括選自下組的PCR引物:PE2步移接頭、PE2(SEQ ID N0.3)、PE2.1 (SEQ ID N0.4),PE2.2(SEQ ID N0.5),PEI (SEQ ID N0.6)、PEl-Barcode_HBX2(SEQ ID N0.7)、HBX2(SEQ IDN0.8)、HBXl (SEQ ID N0.9)。
[0045]HBV整合于人類基因組的位置是隨機的。大部分整合事件與肝癌的發(fā)生、發(fā)展并無聯(lián)系;但是有一部分整合事件在不同的肝癌患者中具有重現(xiàn)性(重復(fù)靶基因)。因此,檢測這些重復(fù)靶基因可以用于肝癌的診斷和分子分型,或開發(fā)靶向療法。Sung等發(fā)現(xiàn)肝癌組織中HBV整合位點的數(shù)量與肝癌患者的生存期有關(guān),整合位點數(shù)量多的病人生存期較短(Sung, Zheng et al.2012)。因此,HBV整合位點的檢測可以用于評估肝癌的預(yù)后。
[0046]換句話說,除了用于科學(xué)研究比如整合位點、(重復(fù))靶基因篩查之外,本發(fā)明的MAPS還具有用于肝癌診斷和預(yù)后的潛在用途。
[0047]因此,本發(fā)明的第四個目的在于提供用于肝癌檢測和評估的試劑盒,其包括選自下組的 PCR 引物:PE2 步移接頭、PE2 (SEQ ID N0.3)、PE2.1 (SEQ ID N0.4), PE2.2 (SEQID N0.5)、PEl (SEQ ID N0.6)、PEl-Barcode-HBX2 (SEQ ID N0.7)、HBX2 (SEQ ID N0.8)、HBXl (SEQ IDN0.9)。
[0048]優(yōu)選地,所述宿主基因選自下組:TERT、FN1、ARHGEF12、CYP2C8、PHACTR4、PLXNA4、RBFOXl、SMAD5、MLL4、CCNEl、SENP5 和 ROCKl。
[0049]類似地,本發(fā)明的還提供了另一種試劑盒,其可以用于肝癌治療藥物的開發(fā)和制備、肝癌檢測試劑的開發(fā)和制備、肝癌檢測試劑盒的開發(fā)和制備。其包括至少一種選自下組的 DNA 片段:SEQ ID N0.10、SEQ ID N0.11、SEQ ID N0.12、SEQ ID N0.13、SEQ ID N0.14、SEQ ID N0.15,SEQ ID N0.16,SEQ ID N0.17,SEQ ID N0.18,SEQ ID N0.19,SEQ ID N0.20、和 SEQ ID N0.21 ;以及選自下組的 PCR 引物:PE2 步移接頭、PE2 (SEQ ID N0.3)、PE2.1 (SEQID N0.4)、PE2.2 (SEQ ID N0.5)、PEl (SEQ ID N0.6)、PEl-Barcode-HBX2 (SEQ ID N0.7)、HBX2(SEQ ID N0.8)、HBXl (SEQ ID N0.9)。 [0050]本發(fā)明的大規(guī)模錨定并行測序法是對新一代高通量測序技術(shù)的進一步改進,可以高效地、經(jīng)濟地篩選人類基因組中乙肝病毒的基因整合位點。比如,通過對40對乙肝病毒相關(guān)的肝癌組織(癌組織和癌旁組織)進行MAPS分析,發(fā)現(xiàn)了 286個確定的HBV和人類DNA整合序列信息的整合位點。本發(fā)明人還發(fā)現(xiàn)了 6個新的乙肝病毒重復(fù)整合靶基因,極大地拓展了目前已知重復(fù)靶基因的列表,大大增加了已知HBV重復(fù)靶基因的數(shù)量。
[0051]本發(fā)明的MAPS對于HBV病毒整合分析的特異性高,并可抑制不含整合位點的基因組片段的擴增,規(guī)避了一些其他方法包括限制性內(nèi)切酶方法對整合位點序列擴增的偏好性,減少了假陽性,從而提高了 HBV病毒整合檢測的準(zhǔn)確性。相對通過全基因組測序來分析HBV整合位點,同樣的測序通量MAPS可以分析更多的樣本(200-300倍),因而更快速、更經(jīng)濟,可用于常規(guī)的臨床檢測。
【專利附圖】
【附圖說明】
[0052]圖1是大規(guī)模錨定并行測序技術(shù)的流程示意圖。圖1A是兩個帶有DNA條形碼標(biāo)簽的引物一PE2步移接頭和PEl-Barcode (條形碼)-HBX2的結(jié)構(gòu)圖,PE2步移接頭中由于長鏈的PE2接頭在6nt的條形碼一端與短鏈的步移接頭2靠近6nt的條形碼一端存在部分序列互補配對而呈“Y”形。圖1B是利用MAPS對HBV的基因整合位點進行分離和鑒定的流程圖,其中擴增的序列(文庫)中淺色部分代表DNA條形碼標(biāo)簽(barcode)。圖1B的右下側(cè)代表引物之間相互配對導(dǎo)致不含整合位點的基因組片段受到抑制而不被擴增。
[0053]圖2是通過MAPS得到的整合結(jié)果。圖2A是在整合位點處來自MAPS的成對讀序的基因比對圖(mapping),第I端序列即讀序I (Readl)被錨定,因為它們是從固定的HBX巢式引物延伸的;第2端序列即讀序2 (Read2)的位置由于隨機的DNA片段化而有所不同。圖2B是在UCSC基因組瀏覽器中顯示的插入位點,其中chr是染色體(chromosome)的縮寫,(i)插入ERBB4,(ii)插入GRMB。圖2C是ERBB4和GRMB的整合子序列,斷裂點(breakpoint)用箭頭顯示,數(shù)字是基于GQ205441參照的HBV基因組坐標(biāo),人類基因組序列用下劃線表示,淺色的堿基“GC”表示在連接處HBV基因組和人類基因組之間的共有堿基。圖2D是ERBB4和GRMB整合的文庫序列中的整合長度分布圖。
【具體實施方式】[0054]以下結(jié)合實施例,對本發(fā)明的技術(shù)方案做詳細(xì)描述。
[0055]定義
[0056]術(shù)語“整合”、“插入”,或稱“基因整合”(integration,或insertion)是指外來的DNA分子插入到宿主基因組DNA (genomic DNA)中的過程,主要包括轉(zhuǎn)座子(transposon)、逆轉(zhuǎn)錄病毒(retrovirus)、逆轉(zhuǎn)錄基因治療載體(retrovirus therapeutic vector)等在自然或人工過程中的整合行為。HBV在感染過程中能夠自發(fā)的整合到人類肝細(xì)胞的基因組中。
[0057]術(shù)語“整合位點”,或稱“插入位點”是指乙肝病毒HBV的DNA與人類基因組DNA序列的整合之處,數(shù)字化地表示為基因組對應(yīng)染色體上的坐標(biāo)值。
[0058]術(shù)語“巢式(nest) ”,或稱“巢式PCR”是指一種變異的聚合酶鏈反應(yīng)(PCR),使用兩對(而非一對)PCR引物擴增完整的片段。第一對PCR引物擴增片段和普通PCR相似。第二對引物稱為巢式引物(因為它們在第一次PCR擴增片段的內(nèi)部)結(jié)合在第一次PCR產(chǎn)物內(nèi)部,使得第二次PCR擴增片段短于第一次擴增。巢式PCR的好處在于,如果第一次擴增產(chǎn)生了錯誤片斷,則第二次能在錯誤片段上進行引物配對并擴增的概率極低。因此,巢式PCR的擴增非常特異。
[0059]在Illumina公司平臺的第二代高通量測序中,也應(yīng)用類似巢式PCR的原理,進行目的片段的擴增。首先在目的片段通過TA末端連接,引入一個片段,然后在特定的一個FlowCell固定大量的特異 探針,通過PCR反應(yīng)的特異性,擴增目的片段,然后繼續(xù)應(yīng)用于下一步測序。巢式PCR可以在10的六次方基因組背景下檢測到一個拷貝的病毒基因。
[0060]術(shù)語“連接介導(dǎo)的PCR 技術(shù)(ligation-mediated PCR, LM-PCR) ” 是指 DNA 連接酶的接頭(adapter)序列和目的基因內(nèi)部的已知序列介導(dǎo)的PCR,可以擴增已知序列上游的未知序列。其方法就是先用DNA內(nèi)切酶消化基因組DNA,但目的基因內(nèi)部不含有所用內(nèi)切酶的酶切位點,然后通過DNA連接酶將DNA接頭與切割過的DNA5’磷酸化末端非特異性連接,以目的基因的特異序列為引物1,以接頭序列為引物2進行PCR擴增。該方法可用于基因組足跡分析和測序。
[0061]術(shù)語“雙末端(paired-end,簡稱PE) ”是指Illumina測序中使用的技術(shù),雙末端(PE)測序就是大片段末端測序,將基因組隨機打斷成固定范圍大小(如5kb、10kb)的片段建成文庫,對文庫片段的兩端進行測序。PE測序有利于拼接,大基因組、轉(zhuǎn)錄組的de novo和re-sequencing都要用到。
[0062]術(shù)語“基因組步移(genome walking) ”是一種重要的分子生物學(xué)研究技術(shù),使用這種技術(shù)可以有效獲取與已知序列相鄰的未知序列。其原理是:從第一個重組克隆插入片段的一端分離出一個片段作為探針從文庫中篩選第二個重組克隆,該克隆插入片段含有與探針重疊順序和染色體的其他順序。從第二個重組克隆的插入片段再分離出末端小片段篩選第三個重組克隆,如此重復(fù),得到一個相鄰的片段,等于在染色體上移了一步,故稱之為基因組步移。
[0063]術(shù)語“接頭(adapter)”是指一段已知序列的短DNA鏈,其連接于待擴增序列的兩端,用于對特異性片段進行預(yù)擴增和選擇性擴增。由于PCR對引物的5’端(在一定長度的完全配對的引物順序后)的順序有很大的容忍性,因此可以在PCR引物的5’端引入“接頭”序列,以便對生成的PCR產(chǎn)物進行特定的修飾。比如,進行PCR時,引物設(shè)計5’端引入酶切位點“接頭”序列,這樣PCR擴增出來的產(chǎn)物就在兩端含有酶切位點,可以進行酶切,以方便后續(xù)處理如克隆等。在某些PCR比如反向PCR、RT-PCR、連接接頭法、LM-PCR、巢式PCR等對于接頭序列有特定的設(shè)計。好的“接頭”序列的設(shè)計是一些特定PCR方法和DNA樣品處理試劑盒(如二代測序樣品制備試劑盒)的關(guān)鍵。Illumina和Life Technologies公司都有有專利保護的“接頭”序列設(shè)計。有時,為簡要目的,本申請中“接頭”、“引物”、“接頭引物”可以彼此混用。
[0064]為直觀和簡要起見,本申請中,將Illumina測序中使用的一對雙末端接頭引物之一稱為PE1,另一個稱為PE2。
[0065]其中,PE2可被分解為前后相鄰的PE2.1和PE2.2,它們先后在不同的PCR中作為引物。
[0066]類似地,在擴增含有、或懷疑含有HBV基因的序列時,使用的一端引物中用于第一輪的引物被稱為HBXI,用于第二輪的引物被稱為HBX2。
[0067]術(shù)語“DNA條形碼標(biāo)簽”、“DNA條形碼”、“條形碼”、“條形碼標(biāo)簽”、“barcode ”、“Barcode”的意義相同,比如是指PE2接頭(SEQ ID N0.1)中的6nt條形碼、步移接頭2 (SEQID N0.2)中的6nt 條形碼、或者PEl-Barcode-HBX2(SEQ ID N0.7)中的 5nt 條形碼Barcode。在本發(fā)明的MAPS中,條形碼被整合在擴增的序列文庫中作為可被識別的標(biāo)簽或標(biāo)記(標(biāo)志)。
[0068]術(shù)語“第二代測序技術(shù)”又稱為“下一代測序技術(shù)”(Next-generationsequencing, NGS),是一種高通量測序技術(shù)(High-throughput sequencing),能一次并行對幾十萬到幾百萬條DNA分子進行序列測定,一般讀長較短。根據(jù)發(fā)展歷史、影響力、測序原理和技術(shù)不同等,主要有以下幾種:大規(guī)模平行簽名測序(MassivelyParallel Signature Sequencing, MPSS)、聚合酶克隆(Polony Sequencing)、4δ4 焦憐酸測序(454pyrosequencing)、Illumina (Solexa) sequencing、離子半導(dǎo)體測序(1nsemiconductor sequencing)、DNA 納米球測序(DNA nanoball sequencing)、CompleteGenomics的DNA納米陣列與組合探針錨定連接測序法等。該測序技術(shù)使得對一個物種的轉(zhuǎn)錄組和基因組進行細(xì)致全貌的分析成為可能,所以又被稱為深度測序(de印sequencing)。
[0069]術(shù)語“去多元化”是指利用測序結(jié)果中的Barcode (條形碼)來區(qū)別物理上混合在一起的不同組織的DNA讀序,最終區(qū)分HBV整合位點所屬的組織。
[0070]術(shù)語“靶基因”是指在HBV整合位點固定范圍內(nèi)(如上下游IOkb)存在注釋(annotation)的人類基因。
[0071]術(shù)語“重復(fù)整合靶基因”或“重復(fù)靶基因”是指在一次或多次的分析研究中,在樣本群的不同病人中發(fā)現(xiàn)的相同的靶基因。換言之,是具有重現(xiàn)性的靶基因。不同病人中出現(xiàn)相同的靶基因被HBV整合,其對應(yīng)的整合位點可以是不同的,即整合發(fā)生在相同靶基因的不同位置。
[0072]本發(fā)明的組成 成分
[0073]本發(fā)明將連接介導(dǎo)的PCR技術(shù)和Illumina的雙末端測序的接頭進行整合,汲取成熟的基因組步移研究中關(guān)于接頭序列設(shè)計的精華(Jeung,Cho et al.2005),引入了引物條形碼設(shè)計,以Illumina PE接頭為藍本設(shè)計了符合大規(guī)模、高效率的測序要求的接頭序列。新設(shè)計的Y形PE2步移接頭兩個單鏈SEQ ID N0.1和SEQ ID N0.2部分互補,并在平末端具有一個T外伸(overhang,或稱懸垂)(圖1A)。
[0074]其中,在引物設(shè)計中引入DNA條形碼是為了使MAPS分析效率更高,用于多樣本分析。具體來說,長為6個核苷酸的條形碼(附帶有T外伸)通過PE2步移接頭被導(dǎo)入。雙端測序第I端序列(Readl)上的長為5個核苷酸的條形碼經(jīng)第二輪PCR由攜帶此條形碼的引物而被引入受測序列。
[0075]本發(fā)明中所用的引物見表1。
[0076]表1.HBV整合位點MAPS實驗引物
[0077]
【權(quán)利要求】
1.一種用于分析HBV整合位點的大規(guī)模錨定并行測序技術(shù),其包含如下步驟: 1)從樣品中提取基因組DNA; 2)將步驟I)所得基因組DNA隨機片段化; 3)使步驟2)所得DNA片段兩端與步移接頭相連接,構(gòu)建基因組步移文庫; 4)以步驟3)制備的基因組步移文庫為模板,利用步移接頭特異引物和HBV特異引物進行PCR擴增,得到整合子序列; 5)以步驟4)所得整合子序列為模板,通過PCR反應(yīng)引入與高通量測序平臺兼容的接頭序列,制備高通量測序文庫; 6)對步驟5)所得測序文庫進行高通量多元測序分析; 7)進行生物信息學(xué)分析,發(fā)現(xiàn)HBV整合位點。
2.如權(quán)利要求1所述的大規(guī)模錨定并行測序技術(shù),其特征在于,所述基因組是人的基因組。
3.如權(quán)利要求1所述的大規(guī)模錨定并行測序技術(shù),其特征在于,所述基因組DNA選自下組:TERT、FN1、ARHGEF12、CYP2C8、PHACTR4、PLXNA4、RBFOXl、SMAD5,所述基因與 HBV 發(fā)生整合的區(qū)域選自:外顯子、內(nèi)含子、或啟動子中IOkb以內(nèi)的序列,和基因3’端IOkb以內(nèi)的序列,并且這些基因編號是GenBank中的Refseq編號。
4.如權(quán)利要求1所述的大規(guī)模錨定并行測序技術(shù),其特征在于,所述樣品選自下組:肝臟組織、肝臟周圍組織、全血、血漿、血清、尿液、精液、腦脊液、唾液、或眼淚。
5.一種用于實施如權(quán)利要求1至4中任一項所述的大規(guī)模錨定并行測序技術(shù)的試劑盒,其包括選自下組的PCR引物:PE2步移接頭(SEQ ID N0.1和SEQ ID N0.2)、PE2 (SEQ ID N0.3)、PE2.1 (SEQ ID N0.4)、PE2.2 (SEQ ID N0.5), PEl (SEQ ID N0.6)、PEl-Barcode-HBX2(SEQ ID N0.7)、HBX2 (SEQ IDN0.8)、HBXl(SEQ ID N0.9)。
6.如權(quán)利要求5所述的試劑盒,其特征在于,進一步包含選自下組的陰性對照:來自于HBV陰性個體的基因組DNA,其不含HBV DNA ;純化的HBV DNA與人類基因組DNA的簡單混合物,其中HBV DNA沒有與人類基因組DNA整合。
7.如權(quán)利要求5所述的試劑盒,其特征在于,進一步包含選自下組的PCR引物:來自HBV 基因組的引物一;來自 TERT、FN1、ARHGEF12、CYP2C8、PHACTR4、PLXNA4、RBFOXU SMAD5基因序列的引物二,該引物二包括選自所述基因序列中的下述區(qū)域:外顯子、內(nèi)含子或啟動子中IOkb以內(nèi)的序列,和基因3’端IOkb以內(nèi)的序列。
8.如權(quán)利要求5至7中任一項所述的試劑盒,其特征在于,用于肝癌的診斷、預(yù)后、分子分型、治療方案遴選。
9.如權(quán)利要求5至7中任一項所述的試劑盒用于開發(fā)肝癌治療藥物的用途,用于檢測宿主基因組與HBV基因的整合,所述宿主基因包括TERT、FN1、ARHGEF12、CYP2C8、PHACTR4、PLXNA4、RBFOXl、SMAD5 基因。
10.一種試劑盒,其包括至少一種選自下組的DNA片段:SEQ ID N0.10,SEQ ID N0.11、SEQ ID N0.12,SEQ ID N0.13,SEQ ID N0.14,SEQ ID N0.15,SEQ ID N0.16,SEQ ID N0.17、SEQ ID N0.18,SEQ ID N0.19,SEQ ID N0.20、和 SEQ ID N0.21 ;以及選自下組的 PCR 引物:PE 2 步移接頭、PE 2 (SEQ ID N0.3) ,PE 2.1 (SEQ ID N0.4) ,PE 2.2 (SEQ ID N0.5) ,PEl (SEQID N0.6)、PEl-Barcode-HBX2(SEQ ID N0.7)、HBX2(SEO ID N0.8)、HBXl(SEO ID N0.9)。
【文檔編號】C12Q1/68GK103725773SQ201310430532
【公開日】2014年4月16日 申請日期:2013年9月18日 優(yōu)先權(quán)日:2012年10月10日
【發(fā)明者】林標(biāo)揚, 丁東 申請人:杭州普望生物技術(shù)有限公司