本發(fā)明涉及分子生物學(xué)及臨床診斷領(lǐng)域,尤其涉及利用結(jié)構(gòu)性引物從碎片DNA樣本中捕獲目標(biāo)DNA、重復(fù)復(fù)制、擴(kuò)增后直接用于二代高通量平行測(cè)序儀測(cè)定,以鑒定DNA片段中超低頻率變異的堿基替換、缺失、插入或混合型突變組合等DNA序列突變的方法及其應(yīng)用。
背景技術(shù):
腫瘤組織的癌基因變異是驅(qū)動(dòng)腫瘤細(xì)胞惡性增生的主要因素。大多數(shù)腫瘤的癌基因除了存在一個(gè)主要的驅(qū)動(dòng)變異以外,還存在多種較低頻率的其它驅(qū)動(dòng)變異,而這些較低頻率的其它驅(qū)動(dòng)變異對(duì)腫瘤的治療效果有很大的影響,這些變異是腫瘤分子病理檢測(cè)的主要對(duì)象,是腫瘤靶向治療的基礎(chǔ)。
正常人外周血血液中存在微量的游離DNA片段(cell-free DNA,簡(jiǎn)稱cfDNA)。在生理或病理變化時(shí),通過血漿樣本可以測(cè)定出相關(guān)病理或生理組織細(xì)胞特異的cfDNA,因此,cfDNA可以作為病理生理改變時(shí)的“液態(tài)活檢”檢測(cè)對(duì)象。液態(tài)活檢以血液中的游離DNA為檢測(cè)對(duì)象,具有非介入性、可重復(fù)取樣、接受度高等特點(diǎn),已經(jīng)成為無創(chuàng)產(chǎn)前遺傳診斷、腫瘤診斷、腫瘤預(yù)后等研究領(lǐng)域的熱點(diǎn),并開始進(jìn)入臨床應(yīng)用。cfDNA的鑒定在腫瘤的早期診斷、藥效評(píng)估、靶向治療及預(yù)后評(píng)估等領(lǐng)域也有著廣闊的應(yīng)用前景。
新鮮組織、冰凍組織、石蠟包埋組織、胸水、血漿、腫瘤脫落細(xì)胞中肺癌相關(guān)的基因突變檢測(cè)已經(jīng)應(yīng)用于指導(dǎo)個(gè)性化靶向用藥,并得到如cFDA、FDA及歐盟藥監(jiān)機(jī)構(gòu)的認(rèn)可。截止2016年4月,F(xiàn)DA等管理機(jī)構(gòu)認(rèn)定的肺癌靶向用藥的伴隨診斷基因已有:EGFR、Kras、Braf、Nras基因的突變熱點(diǎn)、PIK3CA基因、EML4-ALK融合基因、ROS1、ALK/ROS1、BCR-ABL融合基因,PDGFRA、JAK2、C-KIT突變基因等。腫瘤學(xué)領(lǐng)域,對(duì)這些基因突變熱點(diǎn)的液態(tài)活檢可能用于監(jiān)測(cè)血液中的腫瘤載荷,如對(duì)缺少組織活檢診斷的肺癌患者血液樣本中表皮生長(zhǎng)因子受體(EGFR)驅(qū)動(dòng)突變的檢測(cè)已被藥監(jiān)機(jī)構(gòu)批準(zhǔn)用于EGFR-酪蛋白激酶抑制劑類藥物的伴隨診斷方法。然而,基于血液中DNA分析的液態(tài)活檢方法作為常規(guī)癌癥診斷應(yīng)用之前,還必須解決其有效性、操作性和可靠性的問題,但液態(tài)活檢在腫瘤的早期診斷、藥效評(píng)估及預(yù)后評(píng)估等領(lǐng)域已經(jīng)凸顯出特殊的應(yīng)用前景【Diehl F,Schmidt K,Choti MA,et al.Circμlating mutant DNA to assess tumor dynamics.Nat Med 2008;14(9):985-90】。
技術(shù)上,由于血液中游離核酸含量低,而且游離核酸易受野生型核酸的稀釋干擾,并受到傳統(tǒng)檢測(cè)技術(shù)靈敏度的限制,液態(tài)活檢在臨床應(yīng)用中受到了一定的限制。就突變點(diǎn)頻率測(cè)定的靈敏度而言,qPCR技術(shù)可以達(dá)到0.1%、數(shù)字式PCR為0.01%、二代高通量平行測(cè)序(簡(jiǎn)稱,二代測(cè)序)可達(dá)到0.001%的水平。如果以血漿中cfDNA為檢測(cè)樣本,對(duì)突變檢出技術(shù)的靈敏度要求非常高,要求達(dá)到0.01%,按照這種要求,目前只有二代測(cè)序技術(shù)勉強(qiáng)可以用于cfDNA的高通量測(cè)定。而由于測(cè)序深度和文庫(kù)背景信號(hào)的障礙,基于二代測(cè)序技術(shù)的液態(tài)活檢方法目前還只適用于科研,距臨床診斷應(yīng)用還有一段距離。
除了在腫瘤診斷的臨床應(yīng)用,低頻率變異體的檢測(cè)在生物學(xué)的其他方面也有巨大的應(yīng)用,如體細(xì)胞突變、樣本污染的檢出等。二代測(cè)序技術(shù)對(duì)混合樣本中低頻率變異的檢測(cè)具有巨大的應(yīng)用前景。但該方法的局限在于方法本身的誤差率高,達(dá)0.1–1%,而樣本中低頻率變異可能低至0.01%。低頻率變異體的檢測(cè)對(duì)上樣量也有很高要求,通常的文庫(kù)構(gòu)建需要至少50ng的DNA樣本。但是,DNA樣本量少、變異頻率低、DNA碎片化是臨床樣本的共同特性,使得目前的二代測(cè)序技術(shù)用于低頻率變異體的檢測(cè)時(shí),會(huì)產(chǎn)生無法接受的假陽(yáng)性率。
以Illumina的二代測(cè)序平臺(tái)為例,MiSeq測(cè)序平臺(tái)的堿基替代錯(cuò)誤率達(dá)0.1%以上【Performance comparison of NGS platforms miSeq Ion Torrent-NBT 2012Loman】。其產(chǎn)生原因有:1.DNA序列合成讀數(shù)時(shí)產(chǎn)生的堿基閱讀錯(cuò)誤;2.DNA鏈成簇?cái)U(kuò)增時(shí),聚合酶導(dǎo)致的合成錯(cuò)誤;3.文庫(kù)制備過程中PCR擴(kuò)增引入的堿基配對(duì)錯(cuò)誤;4.文庫(kù)測(cè)序時(shí)樣本之間的污染。前兩個(gè)原因造成的堿基閱讀誤差與機(jī)器系統(tǒng)有關(guān),主要是早期實(shí)驗(yàn)使用的聚合酶本身的錯(cuò)誤率產(chǎn)生的,隨著高保真合成酶,如HiFi KAPA聚合酶的應(yīng)用和測(cè)序技術(shù)平臺(tái)的優(yōu)化,這方面的誤差已經(jīng)大為降低。二代測(cè)序文庫(kù)構(gòu)建需要用PCR鏈反應(yīng)對(duì)DNA片段加尾和擴(kuò)增,PCR鏈反應(yīng)中,前一個(gè)循環(huán)產(chǎn)生的DNA片段會(huì)被用于后一個(gè)反應(yīng)循環(huán)的DNA模板,因此PCR產(chǎn)物隨著PCR循環(huán)數(shù)以指數(shù)級(jí)別增加。用于DNA加尾和擴(kuò)增的DNA聚合酶會(huì)產(chǎn)生一定的合成錯(cuò)誤,如常用的Taq DNA聚合酶錯(cuò)誤率為2.84x10-4,在不優(yōu)化的條件下,合成9000個(gè)堿基時(shí)就有一個(gè)錯(cuò)誤發(fā)生【Tindall KR,Kunkel TA.Tindall KR,Kunkel TA.Fidelity of DNA synthesis by the Thermus aquaticus DNA polymerase.Biochemistry.1988 9;27(16):6008-13.】,平均合成約100個(gè)90堿基的片段中有一段出現(xiàn)錯(cuò)誤替代合成。核糖核酸由四種堿基構(gòu)成,發(fā)生在一個(gè)特定位置的特定堿基突變幾率為2,7000分之一。而高保真的KAPA HiFi聚合酶的合成誤差率比Taq DNA聚合酶低100倍。另一方面,PCR鏈?zhǔn)椒磻?yīng)中,前一個(gè)循環(huán)產(chǎn)生的DNA片段會(huì)被用于后一個(gè)反應(yīng)循環(huán)的DNA模板,因此一個(gè)循環(huán)中產(chǎn)生的DNA合成錯(cuò)誤,會(huì)被隨后的循環(huán)繼承,以指數(shù)數(shù)級(jí)的方式擴(kuò)增放大。PCR循環(huán)中錯(cuò)誤產(chǎn)生以及產(chǎn)生的時(shí)間,具有隨機(jī)性,對(duì)NGS測(cè)序文庫(kù)的背景噪音有極大的影響,是高通量測(cè)序產(chǎn)生背景噪聲的主要原因。除了使用高保真DNA聚合酶,有兩個(gè)策略可以降低文庫(kù)制備過程中堿基變異率,一是降低PCR擴(kuò)增的總循環(huán)數(shù),一是提高樣本中低頻變異體的總量。二者必須同時(shí)兼顧才能降低方法本底的噪音。但臨床樣本的稀缺和微量的血漿cfDNA,注定了不能無限地增加樣本量,測(cè)序前的擴(kuò)增步驟必不可少。目前對(duì)測(cè)序文庫(kù)的擴(kuò)增方法很多,但均在擴(kuò)增過程中增加了變異頻率,引起更高的假陽(yáng)性率。安可濟(jì)(AccuraGen)的螢火蟲技術(shù),利用滾環(huán)擴(kuò)增的方式可以以引入較低變異的代價(jià)選擇性地?cái)U(kuò)增目標(biāo)片段,但后續(xù)仍需要完成常規(guī)的文庫(kù)構(gòu)建和擴(kuò)增步驟,該技術(shù)也只能把對(duì)變異的診斷靈敏度提高到0.02%【Lin,2015】。
另一個(gè)影響到NGS測(cè)定靈敏度的因素是對(duì)所測(cè)目標(biāo)片段的覆蓋率,即測(cè)序深度。測(cè)序深度直接決定了測(cè)序的靈敏度,100x的測(cè)序深度最大只能提供1%的測(cè)定靈敏度。理論上,二代測(cè)序的測(cè)序深度不受限制,可以輕易的超過10,000x,如我們利用OmegaPlex對(duì)單一位點(diǎn)的測(cè)序深度可以超過90萬,甚至更高,見本發(fā)明的實(shí)施例4。由于基因組太大,約32億,受測(cè)序通量、測(cè)定價(jià)格和數(shù)據(jù)處理能力的限制,上述方法實(shí)際上是不可行的,實(shí)踐中必須對(duì)文庫(kù)進(jìn)行選擇性的富集?,F(xiàn)有的富集方法可以鎖定目標(biāo)片段,但不能降低文庫(kù)噪音信號(hào),相反,還有可能額外增加本底,造成測(cè)序結(jié)果出現(xiàn)假陽(yáng)性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的之一,就在于提供一種重復(fù)復(fù)制并特異捕獲低頻率DNA堿基變異的方法,以解決上述問題。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是這樣的:一種重復(fù)復(fù)制并特異捕獲低頻率DNA堿基變異的方法,包括以下步驟:
(1)對(duì)DNA進(jìn)行熱變性,然后用具有熱力學(xué)動(dòng)態(tài)結(jié)構(gòu)的引物混合物對(duì)目標(biāo)DNA進(jìn)行雜交,用DNA聚合酶以目標(biāo)DNA為模板進(jìn)行延伸復(fù)制,重復(fù)上述過程,完成對(duì)模板的重復(fù)復(fù)制;對(duì)DNA進(jìn)行變性時(shí)優(yōu)選采用熱循環(huán)儀;
(2)利用與測(cè)定目標(biāo)3′端匹配的寡聚核苷酸對(duì)重復(fù)復(fù)制出的次生DNA片段進(jìn)行特異性延伸、加尾,并在其次生產(chǎn)物的3′端引入一段共同序列;
(3)用含有測(cè)序條碼序列的引物進(jìn)行PCR擴(kuò)增,完成測(cè)序文庫(kù)的構(gòu)建;
(4)對(duì)測(cè)序文庫(kù)進(jìn)行高通量平行測(cè)序以生成多個(gè)測(cè)序讀值;
(5)鑒定測(cè)序讀值與參考序列之間的序列差異;
(6)將從所述的核酸樣品獲得的多個(gè)讀值中以0.01%或更高的頻率發(fā)生的序列差異判定為序列變體。
作為優(yōu)選的技術(shù)方案:步驟(1)中所述的具有熱力學(xué)動(dòng)態(tài)結(jié)構(gòu)的引物是探針長(zhǎng)度為12nt-16nt歐米伽引物,或者是探針長(zhǎng)度為12nt-16nt的莖環(huán)引物,或者是探針長(zhǎng)度為12nt-16nt的歐米伽引物與探針長(zhǎng)度為12nt-16nt的莖環(huán)引物的組合。
作為優(yōu)選的技術(shù)方案:步驟(1)中所述的具有熱力學(xué)動(dòng)態(tài)結(jié)構(gòu)的引物5′端含有特定的序列組合,為高通量平行測(cè)序所需錨定序列、樣本條碼序列或測(cè)序引物靶點(diǎn)序列中的至少一種。
作為優(yōu)選的技術(shù)方案:步驟(1)所述DNA聚合酶為高保真DNA聚合酶,或高保真DNA聚合酶與高效率聚合酶的組合。
作為優(yōu)選的技術(shù)方案:步驟(1)所述雜交溫度為4℃到35℃的范圍,并與50℃以上的溫度交替進(jìn)行。
作為優(yōu)選的技術(shù)方案:步驟(1)所述重復(fù)復(fù)制是在低溫下完成引物與DNA的雜交和延伸,然后在高溫進(jìn)行熱變性的過程;或在兩個(gè)或兩個(gè)以上低溫度進(jìn)行多次循環(huán)后進(jìn)行高溫?zé)嶙冃?,所述重?fù)復(fù)制是一次或一次以上的重復(fù)。
作為優(yōu)選的技術(shù)方案:步驟(1)中所述的具有熱力學(xué)動(dòng)態(tài)結(jié)構(gòu)的引物對(duì)特定目標(biāo)片段的覆蓋是兩個(gè)或兩個(gè)以上,以串聯(lián)的方式完成。
作為優(yōu)選的技術(shù)方案:步驟(1)中所述的具有熱力學(xué)動(dòng)態(tài)結(jié)構(gòu)的引物對(duì)特定雙鏈目標(biāo)片段的覆蓋是針對(duì)其中一條鏈,或者是針對(duì)其互補(bǔ)鏈,又或者是同時(shí)針對(duì)二者。
二代測(cè)序文庫(kù)的構(gòu)建是在待測(cè)DNA片段的兩端裝配特殊的錨定序列、樣本條碼序列和測(cè)序引物位點(diǎn)序列。錨定序列與Illumina二代測(cè)序儀中固定在基質(zhì)表面的引物序列雜交而將待測(cè)DNA片段錨定,通過橋式PCR擴(kuò)增,形成待測(cè)DNA片段簇,通過DNA聚合酶合成讀出每個(gè)位置的堿基成份,記錄各個(gè)片段的序列。不同的二代測(cè)序儀或測(cè)定平臺(tái)對(duì)片段兩端的錨定序列要求不一樣,但對(duì)如何獲得滿足其測(cè)序要求序列靶點(diǎn)的文庫(kù)構(gòu)建方法則沒有限制,本發(fā)明利用具有熱力學(xué)動(dòng)態(tài)結(jié)構(gòu)的引物(又稱為“結(jié)構(gòu)性的引物”),如歐米伽引物(專利申請(qǐng)?zhí)枺篜CT/CN2013/070525)、莖環(huán)引物(Applied Biosystems,Inc,PCT/CN2013/070525)等,引入錨定序列和測(cè)序引物靶點(diǎn)序列,構(gòu)建測(cè)序文庫(kù)的原理和方法,適用于各種二代測(cè)序平臺(tái)文庫(kù)的構(gòu)建。該方法,也稱為:OmegaPlex重復(fù)復(fù)制檢測(cè)法,為提高檢出靈敏度、富集特定目標(biāo)、增加測(cè)序深度提供了多重便利,見圖1。多重PCR特異目標(biāo)富集法常用來對(duì)特異目標(biāo)片段的特異擴(kuò)增,集中分析感興趣的片段集,可以得到極高的測(cè)序深度,但無法改變本底噪音的頻率,因此對(duì)低頻率的變異體無能為力。本發(fā)明采用結(jié)構(gòu)性的歐米伽或莖環(huán)引物進(jìn)行目標(biāo)碎片DNA的雜交捕獲和復(fù)制,可以利用同一片段進(jìn)行多達(dá)200次的重復(fù)復(fù)制,等同于上百倍地增加了DNA上樣量,見圖2。由于這種復(fù)制以同一DNA片段反復(fù)為模板,線性擴(kuò)增,DNA聚合酶產(chǎn)生的合成錯(cuò)誤受到抑制,不會(huì)產(chǎn)生錯(cuò)誤的放大。Taq DNA聚合酶合成中,任何一個(gè)位點(diǎn)出現(xiàn)堿基替代錯(cuò)誤率為1/9000,即平均每次新合成的DNA序列出現(xiàn)特定變異的出錯(cuò)率為0.0037%=1/(9000x 3)。本發(fā)明的重復(fù)復(fù)制方法中,每一次的復(fù)制均針對(duì)同一模板,因此每次復(fù)制的出錯(cuò)率維持恒定,沒有累積。
表1:重復(fù)復(fù)制線性擴(kuò)增中DNA聚合酶堿基替代錯(cuò)誤產(chǎn)生的背景突變(單位:萬分之一)。
表1中以10,000個(gè)分子模板含有一個(gè)突變體的低頻率變異樣本為例,以數(shù)學(xué)計(jì)算推導(dǎo)不同聚合酶產(chǎn)生的背景信號(hào)與聚合酶本身合成錯(cuò)誤率之間的關(guān)系。可以看出,聚合酶在一特定位點(diǎn)的隨機(jī)替代率與被復(fù)制的DNA片段長(zhǎng)度無關(guān),只與酶本身的合成錯(cuò)誤率有關(guān)。以Taq聚合酶為例,產(chǎn)生一條有隨機(jī)突變的DNA片段,突變發(fā)生在特定位點(diǎn)的幾率是恒定的0.0037%。對(duì)1萬條DNA目標(biāo)重復(fù)復(fù)制100次,產(chǎn)生37條與目標(biāo)變異體相同的次生片段,但總體分子數(shù)已經(jīng)擴(kuò)增到100萬條,新生變異體的出錯(cuò)率仍然是0.0037%。因此如果以重復(fù)復(fù)制的方式擴(kuò)增,新增加的特異變異體的頻率是恒定的,只與聚合酶的出錯(cuò)率有關(guān)。因此,使用保真性的KAPA HiFi或?qū)⒉煌木酆厦附M合使用,優(yōu)化酶反應(yīng)條件等手段降低聚合酶的出錯(cuò)率,可以以極低的背景噪聲代價(jià)獲得樣本量的大量擴(kuò)增。從而降低隨后文庫(kù)擴(kuò)增所需的PCR循環(huán)數(shù),整體上起到降低背景噪音的效果,并提高檢出靈敏度。相反,Taq DNA聚合酶經(jīng)PCR循環(huán)以指數(shù)方式擴(kuò)增1萬條DNA片段100倍時(shí),需要6-7個(gè)循環(huán),新生片段突變的幾率從0.0037%到0.50%不等,與變異發(fā)生時(shí)所處的PCR循環(huán)數(shù)相關(guān),因?yàn)镻CR反應(yīng)的模板是前一個(gè)循環(huán)的產(chǎn)物,早期發(fā)生的突變會(huì)被隨后的循環(huán)復(fù)制而繼承,突變發(fā)生越早,終產(chǎn)物中突變的百分比越高,見圖2。PCR反應(yīng)引入的突變是造成二代測(cè)序假陽(yáng)性率高的主要原因。而以同一目標(biāo)進(jìn)行重復(fù)復(fù)制的方式可以在產(chǎn)生較少突變的情況下,使模板數(shù)目得到擴(kuò)增,提高信號(hào)強(qiáng)度,同時(shí)減少文庫(kù)制備所需的PCR擴(kuò)增循環(huán)數(shù),減少背景信號(hào),從而使檢測(cè)靈敏度得以提高,見圖2。
多重PCR特異目標(biāo)富集法用線性引物對(duì)特定的目標(biāo)進(jìn)行捕獲擴(kuò)增,難以避免引物間二聚體的形成,因此不適用于重復(fù)復(fù)制的線性擴(kuò)增方式。歐米伽引物是一種結(jié)構(gòu)性的寡核苷酸引物,含有可形成長(zhǎng)度為4-12對(duì)堿基的莖環(huán)的堿基互補(bǔ)序列,以及3′端12個(gè)堿基的探針及探針間隔區(qū)。歐米伽引物可以避免對(duì)模板DNA鏈內(nèi)靶點(diǎn)的啟動(dòng)和引物之間的二聚體化,可以用少量的引物取得較高的引物擴(kuò)增效率和較好的特異性,并可以在較低的溫度下進(jìn)行雜交和延伸,提高合成特異性和靈敏度。將歐米伽探針的序列長(zhǎng)度延伸到12nt–16nt時(shí),歐米伽引物探針可以與短片段DNA的鏈內(nèi)互補(bǔ)位點(diǎn)雜交,啟動(dòng)引物的合成延伸,因此可以用來對(duì)片段DNA進(jìn)行捕獲復(fù)制。歐米伽引物具有熱力學(xué)動(dòng)態(tài)結(jié)構(gòu),在較低溫度下形成莖環(huán),使探針區(qū)與5′端的序列獨(dú)立開來,因而只要不破壞莖環(huán)結(jié)構(gòu),可以隨意調(diào)節(jié)5′端序列而不影響探針的引物效能。
本發(fā)明的一個(gè)具體實(shí)例中,我們?cè)?′端的引入了二代測(cè)序的P5錨定序列和Read1測(cè)序引物結(jié)合靶點(diǎn)序列,提高對(duì)目標(biāo)片段的建庫(kù)效率,見圖1。同樣的,低溫下形成的莖環(huán)結(jié)構(gòu),阻止引物之間形成二聚體,可以用來對(duì)模板進(jìn)行重復(fù)復(fù)制,低溫還有助于提高雜交的靈敏度和不同目標(biāo)間測(cè)序深度的平衡性。
本發(fā)明其中一種實(shí)現(xiàn)方式以歐米伽引物為例來說明。文庫(kù)建立的第一步是將歐米伽引物、待測(cè)樣本DNA(碎片)、Taq DNA聚合酶及合成所需的成份一起混合,95℃下變性成單鏈。然后溫度降至60℃時(shí),引物莖環(huán)結(jié)構(gòu)形成,阻止引物間的雜交延伸反應(yīng)。繼續(xù)降低至雜交所需的溫度,使探針與目標(biāo)DNA進(jìn)行雜交,再升高溫度以激活聚合酶活性,完成DNA鏈的合成延伸。重復(fù)上述95℃變性和4℃的雜交合成,完成對(duì)目標(biāo)DNA的線性擴(kuò)增。第二步是特異目標(biāo)DNA的合成,反應(yīng)利用含有與目標(biāo)DNA下游互補(bǔ)序列及測(cè)序引物序列的DNA引物進(jìn)行雜交和延伸,制造出可以用NGS錨定引物進(jìn)行擴(kuò)增的模板。最后是用帶有樣本條碼的PCR引物進(jìn)行擴(kuò)增,并摻入樣本條碼和錨定序列,至此完成對(duì)測(cè)序文庫(kù)的構(gòu)建。本發(fā)明采取了對(duì)樣本的線性重復(fù)復(fù)制,大大減少后續(xù)對(duì)文庫(kù)擴(kuò)增所需的PCR循環(huán)數(shù),完成從1個(gè)基因組(約5pg)的建庫(kù)工作,只需12個(gè)PCR循環(huán)。利用低溫重復(fù)合成,背景信號(hào)降到十萬分之二,文庫(kù)的靈敏度可達(dá)0.01%。優(yōu)選采用高保真聚合酶,如KAPA HiFi聚合酶,可以進(jìn)一步減低背景信號(hào),見表1。相比目前商品化的建庫(kù)試劑盒或技術(shù),本發(fā)明可以用最少的PCR循環(huán)達(dá)到二代測(cè)序的文庫(kù)數(shù)量和最佳的靈敏度,這對(duì)在正常序列背景中可能含有少量變異序列的樣品中的低頻率核酸變異的鑒定和闡明,以及對(duì)在測(cè)序錯(cuò)誤背景下的低頻變異的鑒定有極大的幫助。
結(jié)構(gòu)型的莖環(huán)引物的探針長(zhǎng)度為5nt-8nt時(shí),低溫下具有避免引物二聚體生成、捕獲短DNA3′末端的特性。本發(fā)明中發(fā)現(xiàn),莖環(huán)引物探針長(zhǎng)度加長(zhǎng)為16nt后,可以與短片段DNA鏈內(nèi)互補(bǔ)位點(diǎn)雜交,啟動(dòng)DNA的合成。經(jīng)過探針優(yōu)化的莖環(huán)引物具有避免引物二聚體生成、捕獲碎片DNA的特性,可以用于多重PCR的重復(fù)復(fù)制。線性引物則不具備這種特性,因此不能用于多重PCR的重復(fù)復(fù)制。本發(fā)明比較了單一探針歐米伽引物、莖環(huán)引物和線性引物對(duì)碎片DNA的捕獲靈敏度,證明16nt的探針序列可以達(dá)到分析樣本中1.6拷貝數(shù)的靈敏度。進(jìn)一步對(duì)不同探針長(zhǎng)度的歐米伽引物進(jìn)行測(cè)試,發(fā)現(xiàn)14–16nt探針的捕獲靈敏度達(dá)到1.6拷貝數(shù),12nt的探針靈敏度為33拷貝數(shù),10nt的探針靈敏度降為3300拷貝數(shù)。對(duì)經(jīng)歐米伽引物或莖環(huán)引物制備的文庫(kù)經(jīng)HiSeq及MiSeq測(cè)序,證明其可行性,見實(shí)施例3。
從二代測(cè)序獲得測(cè)序讀值后,必須對(duì)測(cè)序數(shù)據(jù)進(jìn)行生物信息學(xué)分析,從海量的數(shù)據(jù)中找出有用的信息。本發(fā)明應(yīng)用中,首先從MiSeq或HiSeq測(cè)序結(jié)果中獲得FASTQ文件,然后用質(zhì)量檢測(cè)的軟件,如FastQC、Trimmomatic等,對(duì)測(cè)序結(jié)果的進(jìn)行質(zhì)量評(píng)估,以及剔除質(zhì)量低于QV30的測(cè)序讀值;使用BWA、bowtie或R軟件程序?qū)ASTQ文件中的序列與靶向參考序列(如Kras、Braf和EGFR)進(jìn)行比對(duì),使用比對(duì)結(jié)果找到每個(gè)序列的重復(fù)區(qū)域或變異及其參考位置。將找到與特定目標(biāo)片段所有序列讀數(shù)中相同變異數(shù)目進(jìn)行合并,計(jì)算變異頻率和噪音頻率,通過對(duì)變異頻率和噪音頻率的QV30分析和差異分析,以確認(rèn)判斷變異為陽(yáng)性突變或陰性突變的可能性。
鑒定序列變體的過程包括將一個(gè)或多個(gè)測(cè)序讀值與參考序列進(jìn)行比對(duì),以鑒定這兩者之間的差異,以及鑒定接點(diǎn)。通常,比對(duì)是將一個(gè)測(cè)序讀值序列沿參考序列放置,順序地沿每一個(gè)序列對(duì)兩個(gè)序列匹配與否進(jìn)行打分,并且優(yōu)選地沿著參考序列對(duì)各個(gè)位置進(jìn)行重復(fù)比對(duì)。具有最佳得分的匹配被視為配對(duì)成功,并且代表了關(guān)于測(cè)序讀值序列與參考序列間的關(guān)系程度的推斷。與測(cè)序讀值進(jìn)行比較的參考序列是目標(biāo)參考基因組,參考基因組可以是完整的或不完整的。在一些實(shí)施方案中,參考基因組僅由包含目標(biāo)多核苷酸的區(qū)域組成,例如源自參考基因組或源自所分析的測(cè)序讀值生成的共有序列。在一些實(shí)施方案中,參考序列僅由參考基因組的一部分,或與一個(gè)或多個(gè)所分析的靶序列相對(duì)應(yīng)的區(qū)域組成。
在典型的比對(duì)中,測(cè)序讀值中的堿基旁邊有參考序列中的不匹配堿基顯示在該點(diǎn)發(fā)生了置換突變。類似地,當(dāng)一個(gè)序列在其參考序列中相對(duì)應(yīng)的堿基旁邊出現(xiàn)缺口時(shí),推斷發(fā)生了缺失突變。當(dāng)一個(gè)序列在其參考序列中相對(duì)應(yīng)的堿基旁邊出現(xiàn)額外的堿基時(shí),推斷發(fā)生了插入突變。在一些實(shí)施方案中,給比對(duì)打分涉及為置換和插入/缺失的概然性設(shè)定數(shù)值。當(dāng)單獨(dú)的堿基進(jìn)行比對(duì)時(shí),匹配或不匹配導(dǎo)致根據(jù)置換概然性的比對(duì)得分,其可以是,例如,1為匹配而0為不匹配。空位罰分和置換概然性可以基于經(jīng)驗(yàn)知識(shí)或基于關(guān)于序列如何突變的先驗(yàn)假設(shè)。它們的值影響產(chǎn)生的比對(duì)。用于進(jìn)行比對(duì)的算法的實(shí)例包括但不限于Bowtie算法、Smith-Waterman算法、Needleman-Wunsch算法、基于Burrows-Wheeler轉(zhuǎn)換的算法以及散列函數(shù)比對(duì)器如Novoalign、ELAND、SOAP等。
一方面,本發(fā)明提供了一種鑒定低頻率變異序列的方法,鑒于以上所述,DNA目標(biāo)片段可以是單鏈脫氧核苷酸,也可是雙鏈脫氧核苷酸。目標(biāo)片段也可以是RNA目標(biāo)片段,為單鏈核苷酸,也可是雙鏈核苷酸。目標(biāo)片段是RNA時(shí),DNA互補(bǔ)鏈的合成由逆轉(zhuǎn)錄合成系統(tǒng)中逆轉(zhuǎn)錄DNA聚合酶完成。而余下的步驟均遵循本發(fā)明的所述的標(biāo)準(zhǔn)方法。
另一方面,對(duì)同一DNA目標(biāo)片段的引物可以用多個(gè)串聯(lián)的歐米伽引物同時(shí)進(jìn)行,當(dāng)與具有鏈取代活性(strain displacement)的DNA聚合酶(如:Vent(-exo))配對(duì)使用,增加對(duì)模板的利用率,進(jìn)一步提高檢測(cè)的靈敏度。
另一方面,以DNA目標(biāo)片段的互補(bǔ)鏈為目標(biāo)設(shè)計(jì)引物可以用多個(gè)歐米伽引物對(duì)同一目標(biāo)進(jìn)行同時(shí)擴(kuò)增,增加對(duì)模板的利用率,進(jìn)一步提高檢測(cè)的靈敏度,并可用于進(jìn)一步驗(yàn)證突變的的真實(shí)性,增加低頻率變異測(cè)定的可信度。
另一方面,以DNA目標(biāo)片段為目標(biāo)設(shè)計(jì)的引物可以對(duì)樣本中存在的目標(biāo)進(jìn)行擴(kuò)增,而在目標(biāo)模板缺失的情形下,則不會(huì)產(chǎn)生非特異的擴(kuò)增,如融合基因片段存在時(shí),可以被擴(kuò)增,占用一定的測(cè)序深度,而當(dāng)樣本中沒有該融合基因片段時(shí),則不會(huì)產(chǎn)生任何非特異的片段,OmegaPlex測(cè)序法的這個(gè)特性可以節(jié)省測(cè)序深度。用雜交富集的方法則不可避免地會(huì)帶來同源序列的非特異雜交和擴(kuò)增,浪費(fèi)測(cè)序深度。
莖環(huán)結(jié)構(gòu)的引物探針可以屏蔽PCR引物位點(diǎn),對(duì)DNA短片段的引發(fā)。在本發(fā)明的一個(gè)具體實(shí)施方式是利用莖環(huán)結(jié)構(gòu)的引物探針,替代歐米伽引物完成對(duì)錨定序列和測(cè)序引物位點(diǎn)序列的引入。本發(fā)明的實(shí)驗(yàn)結(jié)果證實(shí),經(jīng)過適當(dāng)修飾設(shè)計(jì)的莖環(huán)引物可以用于低溫下對(duì)目標(biāo)片段的重復(fù)復(fù)制。莖環(huán)引物也可用于本發(fā)明的設(shè)計(jì)規(guī)劃的實(shí)施,可以與歐米伽引物組合或互換使用。莖環(huán)引物的設(shè)計(jì)中需要在5′端增加額外的14-18nt堿基,形成含有足夠的熱力學(xué)穩(wěn)定的配對(duì)序列,在相同的引物設(shè)計(jì)中,莖環(huán)引物通常會(huì)比歐米伽引物長(zhǎng)14-20nt。
本發(fā)明的熱力學(xué)動(dòng)態(tài)結(jié)構(gòu)引物可以但不限于歐米伽引物、莖環(huán)引物;核苷酸樣本可以是單鏈的或雙鏈的;引物的設(shè)置可以是多串聯(lián)的,如圖3,也可以是針對(duì)雙鏈中的任何一條單鏈,如圖4。在具體的實(shí)施中,參考序列是已知的參考序列,通過將測(cè)序讀值與之進(jìn)行比對(duì)而形成的共有序列
本發(fā)明的具體應(yīng)用之一是可用于對(duì)血液ctDNA中癌變熱點(diǎn)的診斷。本發(fā)明的實(shí)施,通過對(duì)血漿中DNA片段的捕獲和擴(kuò)增,以簡(jiǎn)化的流程,利用一個(gè)或幾個(gè)反應(yīng),方便、快速、靈敏和準(zhǔn)確地鑒定肺癌癌變基因的動(dòng)態(tài)改變過程,幫助臨床醫(yī)生發(fā)現(xiàn)極低濃度和極低突變豐度的致癌變異或耐藥變異,指導(dǎo)在腫瘤臨床治療中進(jìn)行精準(zhǔn)用藥,見圖5。
本發(fā)明目的之二,在于提供一種上述方法的應(yīng)用,其技術(shù)方案為:制備任何用于檢測(cè)低頻率核酸變異的測(cè)定試劑或試劑盒套裝。本發(fā)明可以單獨(dú)進(jìn)行商業(yè)化利用,也可以作為特定應(yīng)用試劑盒的組成部分。此外應(yīng)理解,在閱讀了本發(fā)明的上述實(shí)施例的講授內(nèi)容之后,本領(lǐng)域技術(shù)人員可以對(duì)本發(fā)明作各種改動(dòng)或修改,這些等價(jià)形式同樣落于本申請(qǐng)所附權(quán)利要求書所限定的范圍。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:本發(fā)明可以用最少的PCR循環(huán)達(dá)到二代測(cè)序的文庫(kù)數(shù)量和最佳的靈敏度,對(duì)于低頻率DNA堿基變異的檢測(cè)靈敏度可以達(dá)到0.01%,并且對(duì)于樣本量的需求較小,可以檢出pg級(jí)別的樣本中相應(yīng)的目標(biāo)片段,這對(duì)在正常序列背景中可能含有少量變異序列的樣品中的低頻率核酸變異的鑒定和闡明,以及對(duì)在測(cè)序錯(cuò)誤背景下的低頻變異的鑒定有極大的幫助。
附圖說明
圖1:OmegaPlex NGS文庫(kù)構(gòu)建流程圖;
圖2:OmegaPlex重復(fù)復(fù)制降低文庫(kù)背景信號(hào)的原理圖;
圖3:多個(gè)串聯(lián)歐米伽引物對(duì)同一目標(biāo)片段的多次復(fù)制示意圖;
圖4:歐米伽引物對(duì)分別以DNA的兩條互補(bǔ)鏈為目標(biāo)的復(fù)制示意圖;
圖5:OmegaPlex低頻變異體檢測(cè)流程圖;
圖6:超聲破碎的H1299細(xì)胞、H549細(xì)胞DNA與Fragmentase破碎的IMR-90細(xì)胞DNA
電泳結(jié)果圖;
圖7:不同探針長(zhǎng)度的歐米伽引物、莖環(huán)引物和線性引物的引發(fā)效率對(duì)比圖;
圖8:常規(guī)BioAnalyzer 2100芯片測(cè)定方法對(duì)OmegaPlex文庫(kù)的長(zhǎng)度分布分析圖;
圖9:熒光毛細(xì)管電泳對(duì)文庫(kù)質(zhì)量的評(píng)估圖;
圖10:重復(fù)復(fù)制對(duì)方法靈敏度和產(chǎn)率的提升結(jié)果圖;
圖11:擴(kuò)增循環(huán)數(shù)對(duì)文庫(kù)產(chǎn)量的影響結(jié)果圖;
圖12:擴(kuò)增循環(huán)數(shù)對(duì)文庫(kù)產(chǎn)量的影響結(jié)果圖;
圖13:加入內(nèi)循環(huán)提高測(cè)序深度和靈敏度度測(cè)試結(jié)果圖;
圖14:Her2_V777區(qū)域T2663低頻率摻入SNP的檢出結(jié)果圖。
具體實(shí)施方式
下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明。
實(shí)施例1:OmegaPlex低頻率變異測(cè)定的測(cè)定分析流程
對(duì)碎片DNA捕獲,向2μl純化的DNA樣本(DNA樣本量范圍:5pg-100ng)加入3.5μl含有歐米伽引物的重復(fù)復(fù)制反應(yīng)液,離心,放置于PCR儀,運(yùn)行以下PCR程序:95℃1分鐘,5個(gè)循環(huán)的捕獲延伸(8℃3分鐘、55℃15秒),95℃變性15秒,重復(fù)捕獲延伸及變性循環(huán)40–100次,進(jìn)入72℃10分鐘的最終延伸。加入40μl目標(biāo)匹配PCR反應(yīng)液,混合均勻,在PCR熱循環(huán)儀運(yùn)行以下程序:95℃2分鐘,5個(gè)循環(huán)的轉(zhuǎn)化延伸(65℃3分鐘、72℃1分鐘、95℃15秒),最終在72℃延伸10分鐘。用鏈霉素偶聯(lián)的磁珠(Life Technologies,DynaBeads T1/C1)純化PCR樣本,經(jīng)2次洗滌后,加入20μl樣本條碼擴(kuò)增PCR反應(yīng)液。混合均勻,在PCR熱循環(huán)儀運(yùn)行以下程序:95℃2分鐘,8-12個(gè)擴(kuò)增循環(huán)(65℃15秒、72℃15秒、95℃15秒),最終在72℃延伸10分鐘。取10μl PCR產(chǎn)物,加入2μl USB exoSap-IT,混勻,遵循制造商的說明進(jìn)行反應(yīng)。用Qubit 2.0DNA Quantification Assay(Life Technologies)對(duì)純化的產(chǎn)物進(jìn)行定量,并輔以DNA瓊脂糖凝膠電泳分析、Agilent BioAnalyzer 2100芯片分析、ABI 3730等熒光毛細(xì)管電泳方法對(duì)DNA產(chǎn)物的片段大小、分布進(jìn)行質(zhì)控分析。至此,完成二代測(cè)序樣本的DNA測(cè)序模板構(gòu)建,通過質(zhì)控的DNA產(chǎn)物可以直接用于相應(yīng)二代測(cè)序儀的測(cè)序分析。OmegaPlex測(cè)序文庫(kù)構(gòu)建原理解析見圖1,流程解析見圖5。
二代測(cè)序完成測(cè)序讀數(shù)后,從MiSeq或HiSeq測(cè)序結(jié)果中獲得FASTQ文件,然后用質(zhì)量檢測(cè)的軟件,如FastQC、Trimmomatic等,對(duì)測(cè)序結(jié)果的進(jìn)行質(zhì)量評(píng)估,剔除質(zhì)量低于QV30的讀數(shù)結(jié)果。使用BWA、bowtie或R軟件程序?qū)⑽募械男蛄信c靶向參考序列組合(如Kras、Braf和EGFR)進(jìn)行比對(duì),找到每個(gè)序列的重復(fù)區(qū)域或變異及其參考位置。將找到與特定目標(biāo)片段所有序列讀數(shù)中相同變異數(shù)目進(jìn)行合并,計(jì)算變異頻率和噪音頻率,通過對(duì)變異頻率和噪音頻率的QV30分析和差異分析,以確認(rèn)變異為陽(yáng)性突變或陰性突變的可能性。該過程可以由計(jì)算機(jī)語(yǔ)言進(jìn)行自動(dòng)化操作。
所述的反應(yīng)液和DNA聚合酶在不同的實(shí)驗(yàn)中因?qū)嶒?yàn)?zāi)康亩?,在本?shí)施例中,代表性的溶液成份為:
含有歐米伽引物的重復(fù)復(fù)制反應(yīng)液:10μl 2x JumpStart PCR緩沖液、2μl of 100nM歐米伽引物或混合引物,1μl JumpStart Taq,1μl RNase A(0.05ug)、2μl H20;其中,歐米伽引物是指專利申請(qǐng)?zhí)枺篜CT/CN2013/070525所公開的引物;
目標(biāo)匹配PCR反應(yīng)液:15μl 2xPCR buffer,0.2μl LS1980,0.2μl LS1976,0.6μl JumpStart Taq,15μl H2O,含有特定目標(biāo)匹配的引物組;
樣本條碼擴(kuò)增PCR反應(yīng)液:15μl 2xPCR buffer,0.3μl LS1985,0.3μl LS1959,0.6μl JumpStart Taq,15μl H2O。
實(shí)施例2:DNA制備、超聲破碎及酶碎片化處理
本發(fā)明實(shí)施例中所用血漿、組織或培養(yǎng)細(xì)胞DNA的提取均用DNeasy Blood Tissue Kit(Qiagen)處理得到。血漿DNA的提取嚴(yán)格按照手冊(cè)推薦的方法執(zhí)行。培養(yǎng)細(xì)胞DNA提取的流程在供應(yīng)商手冊(cè)的基礎(chǔ)上略作改動(dòng)。
具體如下:1、將100mm平皿中培養(yǎng)的細(xì)胞重懸于200μl的PBS,加入到2ml的tube管,分別標(biāo)記,每管加入20μl PK;2、加入200μl緩沖液AL,用力上下震蕩15秒,將溶液離心下來,56℃孵化10min,期間每3min震蕩離心一次;3、用超聲破碎儀破碎,破碎條件為強(qiáng)度40,開15秒/停45秒,總共2分鐘;4、每管加入200μl乙醇(96%-100%),上下震蕩15秒,離心;5、將混液轉(zhuǎn)移至帶有過濾柱的2ml收集管內(nèi),6000g離心1分鐘;6、將過濾柱放于一個(gè)新的2ml收集管內(nèi),加入500μl緩沖液AW1,6000g離心1min,丟掉廢液和收集管;7、將過濾柱放于一個(gè)新的2ml收集管內(nèi),加入500μl緩沖液AW2,14000rpm離心3min,丟掉廢液和收集管;8、將過濾柱放于一個(gè)DNA低吸附的離心管內(nèi),加入50μl H2O,室溫孵化1min,6000g離心1min;9、取出2μl用qubit測(cè)定濃度;10、用2%的瓊脂糖凝膠電泳,運(yùn)行100V 40分鐘,上樣量1-2μl;
然后取5μg用Fragmentase內(nèi)切酶處理,處理體系為:1μl內(nèi)切酶緩沖液,1μlFragmentase,8μl DNA樣本,37℃下保溫30分鐘。用EDTA(10μl體系加入2.5μl 0.5M EDTA)終止反應(yīng)。將酶切處理后的樣本用PBS配成200μl,加入20μl蛋白酶K,混勻,離心。經(jīng)DNeasy Blood Tissue Kit再次純化,所得的DNA片段平均大小為700-1000bp,見圖6。圖6中,1:2ng H1299細(xì)胞DNA碎片;2:2ng A549細(xì)胞DNA碎片;3:2ng IMR-90細(xì)胞DNA碎片,片段長(zhǎng)度范圍:500–1,000bp。
實(shí)施例3:不同探針長(zhǎng)度的歐米伽引物、莖環(huán)引物和線性引物的引發(fā)效率對(duì)比
為測(cè)定不同引物,以及不同探針長(zhǎng)度的歐米伽引物引發(fā)靈敏度和引發(fā)效率。我們利用拷貝數(shù)為1)3,300;2)330;3)33;4)6.6;5)1.6的H1299細(xì)胞碎片DNA作模板,用不同引物,以及不同探針長(zhǎng)度的歐米伽引物,進(jìn)行EGFR G719N位點(diǎn)的臨近序列進(jìn)行擴(kuò)增建庫(kù)。所用的引物序列見表5。
表5:實(shí)施例3所用的引物序列
歐米伽引物序列中,AATGATACGGCGACCACCGAGATCT為Illumina二代測(cè)序平臺(tái)P5錨定序列;ACACTCTTTCCCTACA CGACGCTC TTCCGATCT為Read1測(cè)序引物位點(diǎn);CAAGCAGAAGACGGCATACGAGAT為P7錨定序列;GTGACTGGAGTTCAGACGTGTGCTCT為Read2測(cè)序引物位點(diǎn)。
在本實(shí)施例中,重復(fù)復(fù)制反應(yīng)液:10μl 2x JumpStart PCR緩沖液、2μl of 100nM不同長(zhǎng)度探針的歐米伽引物或莖環(huán)引物或線性引物的單一體,1μl JumpStart Taq,1μl RNase A(0.05ug)、2μl H20;
目標(biāo)匹配PCR反應(yīng)液:15μl 2xPCR buffer,0.2μl LS1984,0.2μl LS2060,0.6μl JumpStart Taq,15μl H2O,含有特定目標(biāo)匹配的引物組。
向2μl含不同拷貝數(shù)DNA樣本加入3.5μl含有各種引物的重復(fù)復(fù)制反應(yīng)液,離心,放置于PCR儀,運(yùn)行以下PCR程序:95℃1分鐘,40個(gè)循環(huán)的捕獲延伸(8℃3分鐘、55℃15秒),72℃延伸10分鐘。加入40μl目標(biāo)匹配PCR反應(yīng)液,在PCR熱循環(huán)儀運(yùn)行以下程序:95℃2分鐘,40個(gè)擴(kuò)增循環(huán)(65℃3分鐘,72℃1分鐘、95℃15秒),最終在72℃延伸10分鐘。用2%的瓊脂糖凝膠電泳分析,電泳條件:100v 30分鐘,結(jié)果見圖7。圖7中,樣本為不同拷貝數(shù)的H1299細(xì)胞的碎片DNA,上樣量分別為:1)3,300拷貝;2)330拷貝;3)33拷貝;4)6.6拷貝;5)1.6拷貝。
為了客觀地比較各種引物的靈敏度,本實(shí)施例沒有采用重復(fù)復(fù)制的方式,而是采用40個(gè)低溫下的循環(huán)測(cè)定引物的靈敏度。從圖7的結(jié)果可以看出,歐米伽引物的探針長(zhǎng)度對(duì)目標(biāo)DNA的捕獲有很大的影響。14-16nt的探針的歐米伽引物可以達(dá)到單數(shù)目拷貝的靈敏度。12nt的探針的歐米伽引物已經(jīng)有明顯的降低。而10nt的探針的靈敏度為330拷貝數(shù),不具有使用價(jià)值。擁有16nt探針的莖環(huán)引物和線性引物均能達(dá)到單拷貝數(shù)的靈敏度。因此在精心設(shè)計(jì)的單個(gè)或少量目標(biāo)的多重PCR反應(yīng)中,二者均可以與歐米伽引物交替使用。但隨著目標(biāo)數(shù)增加,設(shè)計(jì)的難度會(huì)呈對(duì)數(shù)級(jí)數(shù)的增加,使線性引物不再具有實(shí)際實(shí)驗(yàn)意義,尤其是無法在低溫下用于對(duì)模板的重復(fù)復(fù)制。在本發(fā)明中,莖環(huán)引物與歐米伽引物可以進(jìn)行互換,或混合使用,對(duì)莖環(huán)引物應(yīng)用不利的因素之一是,莖環(huán)引物的5′端需要與3′端探針前的序列互補(bǔ)配對(duì),因此需要額外數(shù)目的堿基形成雙鏈莖結(jié)構(gòu),同樣的設(shè)計(jì),需要比歐米伽引物多出10-20個(gè)堿基。這對(duì)多重目標(biāo)的檢測(cè)時(shí)會(huì)增加成本,并對(duì)引物的總體質(zhì)量有影響。因?yàn)橐锖铣墒菑?fù)雜的化學(xué)聚合的過程,引物越長(zhǎng),引入的錯(cuò)誤越多。
實(shí)施例4:莖環(huán)引物用于Kras G12N片段的二代測(cè)序文庫(kù)構(gòu)建和測(cè)序分析
本發(fā)明中,作為對(duì)OmegaPlex方法原理的測(cè)試嘗試,我們利用莖環(huán)引物對(duì)H1299細(xì)胞及A549細(xì)胞DNA的單目標(biāo)基因(Kras G12NG13N)位點(diǎn)進(jìn)行測(cè)序文庫(kù)式的裝配合成。所用的引物序列見表6。引物L(fēng)S1953是按莖環(huán)引物的原理設(shè)計(jì)的(Applied Biosystems,Inc,PCT/CN2013/070525),下劃線的序列在低溫下可以互相配對(duì),形成穩(wěn)定地雙鏈折疊,從而使整個(gè)引物擁有莖、環(huán)和探針的結(jié)構(gòu)。
表6:實(shí)施例4所用的引物序列
在本實(shí)施例中,重復(fù)復(fù)制反應(yīng)液:10μl 2x JumpStart PCR緩沖液、2μl of 100nM LS1953莖環(huán)引物,1μl JumpStart Taq,1μl RNase A(0.05ug)、2μl H20;
目標(biāo)匹配PCR反應(yīng)液:15μl 2xPCR buffer,0.2μl LS1980,0.2μl LS1976,0.6μl JumpStart Taq,15μl H2O;
樣本條碼擴(kuò)增PCR反應(yīng)液:15μl 2xPCR buffer,0.3μl LS1985,0.3μl樣本條碼引物L(fēng)S1959-LS1963,0.6μl JumpStart Taq,15μl H2O;
樣本1:50ng H1299細(xì)胞碎片DNA;
樣本2:50ng A549細(xì)胞碎片DNA;
樣本3:100ng H1299細(xì)胞碎片DNA+1ng A549細(xì)胞碎片DNA;
樣本4:100ng H1299細(xì)胞碎片DNA+0.1ng A549細(xì)胞碎片DNA;
樣本5:100ng H1299細(xì)胞碎片DNA+0.01ng A549細(xì)胞碎片DNA;
向2μl純化的DNA樣本/樣本混合物中加入3.5μl含有莖環(huán)引物的重復(fù)復(fù)制反應(yīng)液,離心,放置與PCR儀,運(yùn)行以下PCR程序:95℃1分鐘,40個(gè)循環(huán)的捕獲延伸(8℃3分鐘、55℃15秒),95℃變性15秒,進(jìn)入72℃10分鐘的最終延伸。加入40μl目標(biāo)匹配PCR反應(yīng)液,混合均勻,在PCR熱循環(huán)儀運(yùn)行以下程序:95℃2分鐘,5個(gè)循環(huán)的轉(zhuǎn)化延伸(65℃3分鐘、72℃1分鐘、95℃15秒),最終在72℃延伸10分鐘。用鏈霉素偶聯(lián)的磁珠(Life Technologies,DynaBeads T1/C1)純化PCR樣本,經(jīng)2次洗滌后,加入20μl樣本條碼擴(kuò)增PCR反應(yīng)液?;旌暇鶆颍赑CR熱循環(huán)儀運(yùn)行以下程序:95℃2分鐘,15個(gè)擴(kuò)增循環(huán)(65℃15秒、72℃15秒、95℃15秒),最終在72℃延伸10分鐘。取10μl PCR產(chǎn)物,加入2μl USB exoSap-IT,混勻,遵循制造商的說明進(jìn)行反應(yīng)。用Qubit 2.0DNA Quantification Assay(Life Technologies)對(duì)純化的產(chǎn)物進(jìn)行定量。
用BioAnalyzer 2100DNA片段測(cè)定芯片對(duì)H1299Kras G12N文庫(kù)片段進(jìn)行長(zhǎng)度分布分析,結(jié)果顯示出非常好的專一性。用常規(guī)連接方法建成的文庫(kù),一般都含有少量的單鏈引物和大分子雜帶,見圖8中的B;而OmegaPlex方法建成的文庫(kù)背景信號(hào)較低,見圖8中的A。
經(jīng)HiSeq快速芯片分析,分別獲得120–140萬的測(cè)序讀值,與參考序列配對(duì)率均在83%以上,測(cè)序深度為90萬以上,其結(jié)果見表2。表3列出了對(duì)A549細(xì)胞和H1299細(xì)胞DNA中Kras G12N測(cè)出的頻率。H1299細(xì)胞DNA的G12位點(diǎn)以GGT為主,但也有低頻率的CGT、TGT和AGT。A549細(xì)胞DNA的G12位點(diǎn)也以GGT為主,但有4.75%的CGT,4.62%的TGT和38.08%的AGT。當(dāng)H1299細(xì)胞DNA混入1%的A549細(xì)胞DNA時(shí),混合物中CGT的測(cè)定頻率為0.36%,比用純H1299DNA時(shí)多出0.05%,而這部分正好符合1%的A549細(xì)胞DNA所貢獻(xiàn)的0.0475%。混合物中TCGT的測(cè)定頻率為1.95%,比用純H1299細(xì)胞DNA時(shí)多出0.08%,而這部分正好符合1%的A549細(xì)胞DNA所貢獻(xiàn)的0.0462%?;旌衔顰GT的測(cè)定頻率為3.86%,比用純H1299細(xì)胞DNA時(shí)多出0.53%,而這部分符合1%的A549細(xì)胞DNA所貢獻(xiàn)的0.38%。從而證明OmegaPlex測(cè)序方法可以測(cè)出0.05%的分辨率。本實(shí)施例中,采用的是Taq DNA聚合酶,具有較高的合成錯(cuò)誤率,當(dāng)替換為高保真聚合酶,如KAPA HiFi,可以進(jìn)一步地降低背景信號(hào)。
表3:Kras G12N片段的OmegaPlex測(cè)序分析
實(shí)施例5:瓊脂糖凝膠電泳、Bioanalyzer 2100、熒光毛細(xì)管電泳法對(duì)OmegaPlex文庫(kù)DNA質(zhì)量的分析比較
瓊脂糖凝膠電泳、Bioanalyzer 2100通常用于二代測(cè)序文庫(kù)的質(zhì)控,但操作費(fèi)事費(fèi)時(shí),通量低。本發(fā)明對(duì)PCR引物進(jìn)行了熒光標(biāo)記,利用熒光毛細(xì)管電泳法對(duì)OmegaPlex產(chǎn)物進(jìn)行更精細(xì)的評(píng)估。與前二者相比,不僅提供更高的分析精度,而且具有操作自動(dòng)化,價(jià)格便宜,通量高,測(cè)定速度快的優(yōu)點(diǎn)。圖9為OmegaPlex的分析結(jié)果,可以顯示不同條帶的定量和分布。
實(shí)施例6:重復(fù)復(fù)制提高文庫(kù)產(chǎn)量
利用拷貝數(shù)為1)330;2)33;3)6.6;4)3.3的H1299細(xì)胞碎片DNA作模板,用16nt探針的歐米伽引物,對(duì)EGFR G719N位點(diǎn)的臨近序列進(jìn)行擴(kuò)增建庫(kù)。所用的引物序列見表7。在本測(cè)試中,比較重復(fù)復(fù)制和常規(guī)的一次復(fù)制方式對(duì)文庫(kù)產(chǎn)率的影響。除了下面所述的條件,具體的操作與測(cè)試實(shí)驗(yàn)1所述相同。
表7:實(shí)施例6所用的引物序列
常規(guī)復(fù)制的捕獲延伸條件為:95℃1分鐘,40個(gè)循環(huán)的捕獲延伸(8℃3分鐘、55℃30秒),72℃延伸10分鐘;
重復(fù)復(fù)制的捕獲延伸條件為:95℃1分鐘,20個(gè)循環(huán)的捕獲延伸(8℃3分鐘、55℃30秒、95℃15秒),72℃延伸10分鐘。
結(jié)果顯示,常規(guī)復(fù)制的方式可以測(cè)定到33個(gè)拷貝的樣本,而重復(fù)復(fù)制的方式可以達(dá)到3.3個(gè)拷貝的靈敏度。兩種方式均顯示了文庫(kù)產(chǎn)量與模板數(shù)目的正相關(guān)關(guān)系。20次的重復(fù)復(fù)制可以提升產(chǎn)率近10倍,見圖10。
實(shí)施例7:內(nèi)循環(huán)增加文庫(kù)的擴(kuò)增一致性
本實(shí)施例驗(yàn)證目標(biāo)匹配PCR循環(huán)數(shù),以及樣本條碼擴(kuò)增PCR反應(yīng)循環(huán)數(shù)對(duì)文庫(kù)產(chǎn)率和質(zhì)量的關(guān)系,以及重復(fù)復(fù)制溫度與產(chǎn)率之間的關(guān)系,以優(yōu)化出最佳比例。所用的引物序列見表8a,8b。
表8a:OmegaPlex-1引物組
表8b:LPM-314引物組
步驟為:對(duì)碎片DNA捕獲,向2μl(5ng)IMR-90細(xì)胞碎片DNA樣本中加入3.5μl含有歐米伽引物的重復(fù)復(fù)制反應(yīng)液,離心,放置與PCR儀,運(yùn)行以下PCR程序:95℃1分鐘,5個(gè)循環(huán)的捕獲延伸(35℃3分鐘、55℃15秒),95C變性15秒,重復(fù)捕獲延伸及變性循環(huán)100次,進(jìn)入72℃10分鐘的最終延伸。加入40μl目標(biāo)匹配PCR反應(yīng)液,混合均勻,在PCR熱循環(huán)儀運(yùn)行以下程序:95℃2分鐘,n次循環(huán)的轉(zhuǎn)化延伸(65℃3分鐘、72℃1分鐘、95℃15秒),最終在72℃延伸10分鐘。用鏈霉素偶聯(lián)的磁珠(DynaBeads T1/C1,Life Technologies)純化PCR樣本,經(jīng)2次洗滌后,加入20μl樣本條碼擴(kuò)增PCR反應(yīng)液?;旌暇鶆颍赑CR熱循環(huán)儀運(yùn)行以下程序:95℃2分鐘,m次擴(kuò)增循環(huán)(65℃15秒、72℃15秒、95℃15秒),最終在72℃延伸10分鐘。取10μl PCR產(chǎn)物,加入2μl USB exoSap-IT,混勻,遵循制造商的說明進(jìn)行反應(yīng)。用Qubit 2.0DNA Quantification Assay(Life Technologies)對(duì)純化的產(chǎn)物進(jìn)行定量,并輔以DNA瓊脂糖凝膠電泳分析、ABI 3730等熒光毛細(xì)管電泳方法對(duì)DNA產(chǎn)物的片段大小、分布進(jìn)行質(zhì)控分析。n為循環(huán)數(shù),等于:5,10,或15,m為循環(huán)數(shù),等于5,10,或15。
在本實(shí)施例中,重復(fù)復(fù)制反應(yīng)液:10μl 2x JumpStart PCR緩沖液、2μl of 100nM OmegaPlex-1,1μl JumpStart Taq,1μl RNase A(0.05ug)、2μl H20;
目標(biāo)匹配PCR反應(yīng)液:6μl 5xHiFi buffer,0.3μl LS1980[biotin],0.3uM LPM-314,0.6μl KAPA HiFi,1μl dNTP(10mM),24μl H2O。含有特定目標(biāo)匹配的引物組;
樣本條碼擴(kuò)增PCR反應(yīng)液:6μl 5xHiFi buffer,0.3μl LS1985,0.3μl樣本條碼引物,0.6μl KAPA HiFi,1μl dNTP(10mM),24μl H2O;
以Illumina平臺(tái)為例,所需樣本為2ng/μl。實(shí)驗(yàn)結(jié)果顯示,經(jīng)最低10個(gè)循環(huán)(5個(gè)匹配循環(huán)+5個(gè)擴(kuò)增循環(huán))的OmegaPlex產(chǎn)量為1.75ng/μl,總體積20μl,已可滿足上樣的要求。增加PCR循環(huán)總數(shù),文庫(kù)的產(chǎn)量也隨之增加,見圖11。同時(shí)用熒光毛細(xì)管電泳對(duì)樣本進(jìn)行分析,在所測(cè)試的范圍內(nèi),循環(huán)數(shù)對(duì)各個(gè)片段產(chǎn)量的影響很小,差異可以忽略,結(jié)果見圖12。每個(gè)PCR循環(huán)的增加,總會(huì)導(dǎo)致背景水平的上升,因此控制PCR循環(huán)總數(shù)是降低背景水平的有效方式之一。本測(cè)試中,DNA樣本量為5ng,經(jīng)過10–15個(gè)循環(huán)的擴(kuò)增所獲得的DNA片段,產(chǎn)量在1.75ng/μl–8.11ng/μl之間,完全滿足后續(xù)的質(zhì)控、測(cè)序需求。
另外,重復(fù)復(fù)制時(shí),加入低溫的內(nèi)循環(huán),也對(duì)文庫(kù)的測(cè)序深度和靈敏度有有益的影響,見圖13。樣本1和樣本13為同一樣本,5ng H1299細(xì)胞碎片DNA,樣本1經(jīng)過100次重復(fù)復(fù)制循環(huán)(16℃x 1秒–55℃10秒–95℃15秒),而樣本13經(jīng)100次重復(fù)復(fù)制循環(huán),每個(gè)循環(huán)內(nèi)加入了5次16℃到55℃的內(nèi)循環(huán)[(16℃x 1秒–55℃10秒)x 5次循環(huán)–95℃15秒]。樣本的熒光毛細(xì)管電泳分析結(jié)果顯示,加入內(nèi)循環(huán)的樣本13的均一性超過沒有內(nèi)循環(huán)的樣本1。
實(shí)施例8:OmegaPlex的測(cè)序精度及測(cè)序深度
利用與實(shí)施例7中相同的反應(yīng)條件,同樣的引物混合物(引物序列列于表8a和表8b),經(jīng)5次配對(duì)循環(huán)和15次條碼擴(kuò)增循環(huán),我們制備了IMR-90細(xì)胞、以及IMR-90細(xì)胞與A549細(xì)胞的DNA混合樣本以及血漿DNA樣本的文庫(kù)。并對(duì)制備的文庫(kù)用MiSeq進(jìn)行了分析,結(jié)果列于表4。
從MiSeq獲取FASTQ文件,經(jīng)fastQC質(zhì)量分析,QV30>85%。4個(gè)文庫(kù)分別獲得50–230萬的有效測(cè)序讀值,除了血漿DNA樣本外,與參考序列配對(duì)率均在31%以上,平均測(cè)序深度大于1萬,見表4。Her2_V777L片段的測(cè)序深度達(dá)到8萬以上,4個(gè)樣本噪音頻率統(tǒng)計(jì)結(jié)果分別為:N>G轉(zhuǎn)換的背景頻率平均值為0.0050%(0.0045%,0.0066%,0.0040%,0.0048%);N>C轉(zhuǎn)換的背景頻率平均值:0.0050%(0.0041%,0.0072%,0.0045%,0.0044%)。N>T轉(zhuǎn)換的背景頻率平均值:0.0064%(0.0047%,0.0116%,0.0047%,0.0048%),N>A轉(zhuǎn)換的背景頻率平均值:0.0054%(0.0039%,0.0100%,0.0040%,0.0038%)。緊鄰歐米伽探針的第一個(gè)堿基的突變頻率比較異常,明顯高于平均值,統(tǒng)計(jì)中排除了這個(gè)位點(diǎn)的頻率對(duì)總體背景的影響。對(duì)照分析IMR-90樣本,可以測(cè)出低頻摻入的A549的基因SNP T2663。SNP T2663檢出的頻率為0.032%和0.03%,見圖14。盡管實(shí)驗(yàn)中加入了9對(duì)EML4-ALK的融合基因片段的歐米伽引物,但在所有樣本中,均未發(fā)現(xiàn)有任何與之相配的片段。
表4:細(xì)胞及血漿DNA的OmegaPlex測(cè)序結(jié)果
應(yīng)當(dāng)理解,在閱讀了本發(fā)明的上述實(shí)施例的講授內(nèi)容之后,本領(lǐng)域技術(shù)人員可以對(duì)本發(fā)明作各種改動(dòng)或修改,這些等價(jià)形式同樣落于本申請(qǐng)所附權(quán)利要求書所限定的范圍。