本發(fā)明涉及基因融合檢測領(lǐng)域,尤其涉及一種用于檢測循環(huán)腫瘤DNA樣本基因融合的裝置及方法。
背景技術(shù):
腫瘤細(xì)胞會向血液中釋放基因組DNA,這些變異DNA也隨之釋放到外周血中,被稱為循環(huán)腫瘤DNA(circulating tumor DNA,ctDNA)。有文獻(xiàn)報道稱,癌變?nèi)巳貉獫{中游離100~400bp大小的DNA片段濃度明顯高于正常人,可以作為篩查的標(biāo)志物。又有研究發(fā)現(xiàn),循環(huán)腫瘤DNA在早期原位癌(primary cancer)患者血液中就已經(jīng)開始出現(xiàn)。由于外周血循環(huán)DNA半衰期短,因此循環(huán)腫瘤DNA能夠真實反映患者病變組織基因突變的真實情況。循環(huán)腫瘤DNA在惡性腫瘤診療中的應(yīng)用越來越受到關(guān)注和重視,作為研究的熱點和突破口將有可能為臨床腫瘤的早期診斷、預(yù)后判定及療效監(jiān)測等提供一系列方便、快捷、特異、無創(chuàng)的分子生物學(xué)檢測手段。
融合基因(Fusion gene)是指兩個基因的全部或一部分序列相互融合為一個新的基因的過程,通常具有致癌性,在各種不同的腫瘤中普遍存在。1973年,芝加哥大學(xué)的Jane Rowley在血液病中發(fā)現(xiàn)了第一個融合基因。隨后,在諸多實體瘤如肺癌、乳腺癌、前列腺癌、卵巢癌等中相繼發(fā)現(xiàn)了融合基因的存在。目前越來越多的融合基因在不同腫瘤中被報道?;蛉诤鲜且活愒谂R床上非常重要的染色體結(jié)構(gòu)變異,在癌癥發(fā)生發(fā)展過程中起著關(guān)鍵的作用。精準(zhǔn)的融合基因檢測結(jié)果可以為臨床抗癌靶點用藥治療和預(yù)后評估提供參考依據(jù)。
傳統(tǒng)上用于檢測融合基因的檢測技術(shù)主要基于遺傳學(xué)方法,如FISH。然而,相對較低的分辨率和通量限制了該種方法在復(fù)雜的上皮組織癌的檢測中的應(yīng)用。
隨著二代測序技術(shù)的發(fā)展,涌現(xiàn)了大量用于檢測融合基因的檢測方法?;蛉诤蠙z測方法中,斷點的確認(rèn)直接影響到檢測結(jié)果的判定。CREST是當(dāng)前檢測Fusion gene的主流算法之一,該算法利用組裝算法實現(xiàn)兩次組裝,從而排除假陽性,因此其主要優(yōu)點是假陽性低,但同時由于需要進(jìn)行兩次組裝,導(dǎo)致存在檢測速度慢、資源要求高、需要進(jìn)行組裝等缺點;同時,組裝效果還會受到覆蓋度、插入片段長度的影響。血漿中游離DNA含量極微,片段化嚴(yán)重,且循環(huán)腫瘤DNA僅占血漿游離DNA總量的0.02%-50%,加之ctDNA的釋放量會受到患者病情,癌種,分期,用藥情況等各類綜合因素的影響,使得ctDNA樣本的覆蓋度降低,導(dǎo)致這一問題在腫瘤循環(huán)DNA樣本中表現(xiàn)尤為明顯,從而影響融合檢測結(jié)果。因此,如何應(yīng)對融合基因檢測過程中檢測速度慢、系統(tǒng)資源要求高、需要進(jìn)行組裝的問題,特別是低覆蓋度樣本的檢測成為本領(lǐng)域面臨的一大難題。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題
現(xiàn)有技術(shù)算法由于需要進(jìn)行兩次組裝和三次比對,導(dǎo)致存在檢測速度慢、資源要求高等不足之處,同時由于循環(huán)腫瘤DNA樣本的組裝序列均較短且覆蓋度較低,對于重復(fù)序列的組裝存在一定的不確定性,可能會導(dǎo)致檢測結(jié)果錯誤。
鑒于上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種用于檢測基因融合的裝置及方法,其具有檢測速度快、資源要求低、穩(wěn)定性高的優(yōu)點。
與現(xiàn)有技術(shù)算法相比,本發(fā)明的檢測裝置充分利用了PE測序下機(jī)測序片段(reads)的信息,減少了比對次數(shù),只需要兩次比對,而且不需要組裝,提高了檢測的穩(wěn)定性。
即,本發(fā)明包括:
一種用于檢測循環(huán)腫瘤DNA樣本基因融合的裝置,其包括以下模塊:
測序數(shù)據(jù)獲取模塊,用于獲取循環(huán)腫瘤DNA樣本的測序數(shù)據(jù);優(yōu)選地,所述測序數(shù)據(jù)是采用雙端測序(Paired-end Sequencing,PE測序)方法獲得的測序數(shù)據(jù);
比對模塊:其與所述測序數(shù)據(jù)獲取模塊相連接,用于將獲取的測序數(shù)據(jù)與參考序列進(jìn)行比對,獲取比對結(jié)果。所述比對結(jié)果包括測序片段在基因中對應(yīng)的位置信息。所述位置信息包括軟剪切信息和成功比對信息。所述測序片段中帶有軟剪切信息的部分為所述測序片段的軟剪切部,所述測序片段中帶有成功比對信息的部分為所述測序片段的成功比對部。優(yōu)選地,該模塊可以利用bwa軟件,查找測序片段在基因中對應(yīng)的位置,并形成bam格式文件;優(yōu)選地,該bam文件中,包括每條測序片段的描述信息(qname),序列信息(seq),比對位置(POS),位標(biāo)識(flag),比對質(zhì)量值(MAPQ),簡要比對表達(dá)信息(Cigar),模板長度(Tlen);
再比對模塊:其與所述比對模塊相連接,用于將帶有軟剪切信息的測序片段與參考基因組再次比對,獲取再比對結(jié)果;
真實融合斷點判斷模塊:其與所述再比對模塊相連接,用于判斷所述測序片段的融合斷點;以及
輸出模塊:其與所述真實融合斷點判斷模塊相連接,用于輸出基因融合檢測結(jié)果,例如,基因融合斷點位置(如left_pos,right_pos),染色體編號(如left_chr,right_chr),支持度(如sup)等。
優(yōu)選地,所述再比對模塊例如可以包括以下子模塊:
長度過濾子模塊:其與所述比對模塊相連接,用于過濾去除含有軟剪切(soft-clipping)信息的測序片段中長度小于一定值的測序片段;優(yōu)選地,所述一定值可以是例如15~30bp,優(yōu)選20~25bp。
斷點判斷子模塊:其與所述長度過濾子模塊相連接,用于根據(jù)所述長度過濾子模塊的結(jié)果數(shù)據(jù),將測序片段中帶有軟剪切信息的部分與帶有正常比對信息的部分的結(jié)合處作為斷點;
區(qū)分子模塊:其與所述斷點判斷子模塊相連接,用于將所述帶有軟剪切信息的部分和所述帶有正常比對信息的部分在斷點處分開,并將這兩部分的序列信息分別保存至兩個文件(例如fastq文件)中;
再比對子模塊:其與所述區(qū)分子模塊相連接,用于對所述分別保存了序列信息的兩個文件與參考序列再次進(jìn)行比對,獲取再比對結(jié)果;優(yōu)選地,所述再比對結(jié)果包括下述信息:每條測序片段的描述信息(qname)、序列信息(seq)、比對位置(POS)、位標(biāo)識(flag),比對質(zhì)量值(MAPQ),簡要比對表達(dá)信息(Cigar),模板長度(Tlen)。優(yōu)選地,例如可以利用bwa軟件對上述兩個fastq文件,再次進(jìn)行比對,形成bam格式文件。所述bam格式文件包含每條測序片段的描述信息(qname),序列信息(seq)、位標(biāo)識(flag),比對位置(POS),比對質(zhì)量值(MAPQ),簡要比對表達(dá)信息(Cigar),模板長度(Tlen)。
優(yōu)選地,所述真實融合斷點判斷模塊可以包括下述子模塊:過濾子模塊:其與所述再比對子模塊相連接,用于根據(jù)位標(biāo)識(flag)值過濾去除未成功比對(unmapped)的測序片段以及低比對質(zhì)量值(MAPQ)的測序片段;
斷點信息獲取子模塊:其與所述過濾子模塊相連接,用于查找具有相同片段描述信息(qname)的測序片段,并獲取斷點信息;優(yōu)選地,斷點信息包括:(1)Left/right_chr,斷點左/右側(cè)序列的染色體編號;(2)left/right_pos,斷點左/右側(cè)首個堿基的比對位置;(3)left/right_seq,斷點左/右側(cè)堿基的序列;(4)sup,斷點支持度,支持該斷點的測序片段個數(shù)。
融合斷點篩選子模塊:其與所述斷點信息獲取子模塊相連接,用于在斷點信息中篩選融合斷點;
融合斷點初次合并子模塊:其與所述融合斷點篩選子模塊相連接,用于將具有相同的斷點信息的融合斷點合并為一個真實融合斷點,并將具有相同斷點信息的融合斷點個數(shù)作為真實融合斷點的支持度。其中,相同的斷點信息是指left_chr、left_pos、right_chr和right_pos均相同。
融合斷點再次合并子模塊:其與所述斷點初次合并子模塊相連接,用于將left_chr和right_chr相同,right_pos或left_pos相差一定值(例如3bp)以內(nèi)的融合斷點合并為一個真實融合斷點。
優(yōu)選地,所述斷點信息包括:
left_chr:斷點左側(cè)序列的染色體編號,read1對應(yīng)的參考序列編號。
left_pos:斷點左側(cè)首個堿基的比對位置,read1對應(yīng)的比對位置加上read1的序列長度。
left_seq:斷點左側(cè)堿基的序列。
right_chr:斷點右側(cè)序列的染色體編號,read2對應(yīng)的參考序列編號。
right_pos:斷點右側(cè)首個堿基的比對位置,read2對應(yīng)的比對位置加上read2的序列長度。
right_seq:斷點右側(cè)堿基的序列。
sup:斷點支持度,支持該斷點的測序片段的個數(shù),默認(rèn)為1。
此外,斷點信息還可以包括,ort:根據(jù)測序片段中片段描述信息中的比對結(jié)果模式判斷所得,“+”表示clean測序片段中斷點右側(cè)發(fā)生軟剪切,“-”表示clean測序片段中斷點左側(cè)發(fā)生軟剪切。
優(yōu)選地,所述融合斷點篩選子模塊包括如下元件:
斷點質(zhì)量過濾元件:用于過濾低質(zhì)量斷點,若存在斷點A,A中sup個數(shù)大于一定值(例如5),且left_seq和right_seq中比對質(zhì)量值均大于一定值(例如30),且錯配率均小于一定值(例如0.05)或/和斷點支持度/斷點右側(cè)或左側(cè)位置深度大于一定值(例如0.1),則該斷點A為融合斷點。
相同斷點合并元件:用于合并相同斷點,若存在斷點A和B,A中l(wèi)eft_chr等于B中right_chr,A中right_chr等于B中l(wèi)eft_chr,A中l(wèi)eft_pos等于B中right_pos,A中right_pos等于B中l(wèi)eft_pos,則將斷點A和B合并為一個融合斷點;
優(yōu)選地,所述融合斷點再次合并子模塊根據(jù)上述融合斷點信息,若存在融合斷點A中right_pos與融合斷點B中right_pos小于一定值(例如5),且融合斷點A中l(wèi)eft_pos與融合斷點B中l(wèi)eft_pos小于一定值(例如5),則將此融合斷點A和融合斷點B合并為一個真實融合斷點。從而最終得到基因融合(gene fusion)檢測結(jié)果。
此外,本發(fā)明還包括:
一種用于檢測循環(huán)腫瘤DNA樣本基因融合的方法,其包括以下步驟:
測序數(shù)據(jù)獲取步驟,獲取FFPE樣本的測序數(shù)據(jù);優(yōu)選地,所述測序數(shù)據(jù)是采用雙端測序(Paired-end Sequencing,PE測序)方法獲得的測序數(shù)據(jù);
比對步驟:將獲取的測序數(shù)據(jù)與參考序列進(jìn)行比對,獲取比對結(jié)果。所述比對結(jié)果包括測序片段在基因中對應(yīng)的位置信息。所述位置信息包括軟剪切信息和成功比對信息。所述測序片段中帶有軟剪切信息的部分為所述測序片段的軟剪切部,所述測序片段中帶有成功比對信息的部分為所述測序片段的成功比對部。優(yōu)選地,該模塊可以利用bwa軟件,查找測序片段在基因中對應(yīng)的位置,并形成bam格式文件;優(yōu)選地,該bam文件中,包括每條測序片段的描述信息(qname),序列信息(seq),比對位置(POS),位標(biāo)識(flag),比對質(zhì)量值(MAPQ),簡要比對表達(dá)信息(Cigar),模板長度(Tlen);
再比對步驟:將帶有軟剪切信息的測序片段與參考基因組再次比對,獲取再比對結(jié)果;
真實融合斷點判斷步驟:判斷所述測序片段的融合斷點;以及
輸出步驟:輸出基因融合檢測結(jié)果,例如,斷點位置(如left_pos,right_pos),染色體編號(如left_chr,right_chr),支持度(如sup)等。
優(yōu)選地,所述再比對步驟例如可以包括以下子步驟:
長度過濾子步驟:過濾去除含有軟剪切(soft-clipping)信息的測序片段中長度小于一定值的測序片段;優(yōu)選地,所述一定值可以是例如15~30bp,優(yōu)選20~25bp。
斷點判斷子步驟:根據(jù)所述長度過濾子模塊的結(jié)果數(shù)據(jù),將測序片段中帶有軟剪切信息的部分與帶有正常比對信息的部分的結(jié)合處作為斷點;
區(qū)分子步驟:將所述帶有軟剪切信息的部分和所述帶有正常比對信息的部分在斷點處分開,并將這兩部分的序列信息分別保存至兩個文件(例如fastq文件)中;
再比對子步驟:對所述分別保存了序列信息的兩個文件與參考序列再次進(jìn)行比對,獲取再比對結(jié)果;優(yōu)選地,所述再比對結(jié)果包括下述信息:每條測序片段的描述信息(qname)、序列信息(seq)、比對位置(POS)、位標(biāo)識(flag),比對質(zhì)量值(MAPQ),簡要比對表達(dá)信息(Cigar),模板長度(Tlen)。優(yōu)選地,例如可以利用bwa軟件對上述兩個fastq文件,再次進(jìn)行比對,形成bam格式文件。所述bam格式文件包含每條測序片段的描述信息(qname),序列信息(seq)、位標(biāo)識(flag),比對位置(POS),比對質(zhì)量值(MAPQ),簡要比對表達(dá)信息(Cigar),模板長度(Tlen)。
優(yōu)選地,所述真實融合斷點判斷步驟可以包括下述子步驟:過濾子步驟:根據(jù)位標(biāo)識(flag)值過濾去除未成功比對(unmapped)的測序片段以及低比對質(zhì)量值(MAPQ)的測序片段;
斷點信息獲取子步驟:查找具有相同片段描述信息(qname)的測序片段,并獲取斷點信息;優(yōu)選地,斷點信息包括:(1)Left/right_chr,斷點左/右側(cè)序列的染色體編號;(2)left/right_pos,斷點左/右側(cè)首個堿基的比對位置;(3)left/right_seq,斷點左/右側(cè)堿基的序列;(4)sup,斷點支持度,支持該斷點的測序片段個數(shù)。
融合斷點篩選子步驟:在斷點信息中篩選融合斷點;
融合斷點初次合并子步驟:將具有相同的斷點信息的融合斷點合并為一個真實融合斷點,并將具有相同斷點信息的融合斷點個數(shù)作為真實融合斷點的支持度。其中,相同的斷點信息是指left_chr、left_pos、right_chr和right_pos均相同。
融合斷點再次合并子步驟:將left_chr和right_chr相同,right_pos或left_pos相差一定值(例如3bp)以內(nèi)的融合斷點合并為一個真實融合斷點。
優(yōu)選地,所述斷點信息包括:
left_chr:斷點左側(cè)序列的染色體編號,read1對應(yīng)的參考序列編號。
left_pos:斷點左側(cè)首個堿基的比對位置,read1對應(yīng)的比對位置加上read1的序列長度。
left_seq:斷點左側(cè)堿基的序列。
right_chr:斷點右側(cè)序列的染色體編號,read2對應(yīng)的參考序列編號。
right_pos:斷點右側(cè)首個堿基的比對位置,read2對應(yīng)的比對位置加上read2的序列長度。
right_seq:斷點右側(cè)堿基的序列。
sup:斷點支持度,支持該斷點的測序片段的個數(shù),默認(rèn)為1。
優(yōu)選地,所述斷點篩選子模塊包括如下步驟:
若存在斷點A,A中sup個數(shù)大于一定值(例如5),且left_seq和right_seq中比對質(zhì)量值均大于一定值(例如30),且錯配率均小于一定值(例如0.05)或/和斷點支持度/斷點右側(cè)或左側(cè)位置深度大于一定值(例如0.1),則判斷該斷點A為融合斷點。
若存在斷點A和B,A中l(wèi)eft_chr等于B中right_chr,A中right_chr等于B中l(wèi)eft_chr,A中l(wèi)eft_pos等于B中right_pos,A中right_pos等于B中l(wèi)eft_pos,則將斷點A和B合并為一個融合斷點。
優(yōu)選地,所述融合斷點再次合并子步驟根據(jù)上述融合斷點信息,若存在融合斷點A中right_pos與融合斷點B中right_pos小于一定值(例如5),且融合斷點A中l(wèi)eft_pos與融合斷點B中l(wèi)eft_pos小于一定值(例如5),則將此融合斷點A和融合斷點B合并為一個真實融合斷點,從而最終得到基因融合(gene fusion)檢測結(jié)果。
根據(jù)本發(fā)明,能夠提供一種檢測速度快、資源要求低、穩(wěn)定性高的用于循環(huán)腫瘤DNA樣本檢測基因融合的裝置及方法?,F(xiàn)有算法的第二次和第三次比對過程中,每次只比對一條序列,長時間占用系統(tǒng)資源。與現(xiàn)有算法相比,本發(fā)明發(fā)生算法充分利用了PE測序的優(yōu)勢,減少比對次數(shù)僅采用兩次比對。第一次比對時即過濾得到所有可能發(fā)生融合的片段(含有軟剪切信息的測序片段);第二次比對是同時對所有序列進(jìn)行比對,提高了系統(tǒng)資源的利用率。此外,本發(fā)明算法不需要對序列進(jìn)行組裝,沒有組裝導(dǎo)致的不穩(wěn)定性,從而實現(xiàn)了對循環(huán)腫瘤DNA樣本的基因融合檢測。
附圖說明
圖1是實施例1的用于檢測循環(huán)腫瘤DNA樣本基因融合的的示意圖。
圖2現(xiàn)有技術(shù)的用于檢測基因融合的裝置的一例的示意圖。
發(fā)明的具體實施方式
本說明書中提及的科技術(shù)語具有與本領(lǐng)域技術(shù)人員通常理解的含義相同的含義,如有沖突以本說明書中的定義為準(zhǔn)。
一般而言,本說明書中采用的術(shù)語具有如下含義。
參考序列(Refseq):物種參考標(biāo)準(zhǔn)基因組序列。
融合基因(Fusion gene):是指兩個基因的全部或一部分的序列相互融合為一個新的基因的過程。其有可能是染色體易位、中間缺失或染色體導(dǎo)致所致的結(jié)果。
Reads:基因組或轉(zhuǎn)錄組序列片段。
PE測序:雙端測序,一種測序方法。
read1/2:PE測序下機(jī)數(shù)據(jù)中,read1是第一輪測試得到的堿基序列,read2是第二輪測試得到的堿基序列。
bwa:一種比對方法軟件,用于查找reads所在Refseq中的位置,最終可得到bam格式文件。
adapter序列:測序中DNA片段兩側(cè)的接頭序列。
斷點(breakpoint):融合基因中兩個基因序列相互連接的點。
soft-clipping reads:軟剪切序列片段,在reads進(jìn)行比對后,若存在部分序列比對到Refseq某位置,另一部分比對到Refseq另一位置或不能比對到Refseq,則該reads被稱為soft-clipping reads。
flag:bam格式文件中,用于描述序列比對模式、方向等信息的一個值
cigar:簡要比對信息表達(dá)式,其以參考序列為基礎(chǔ),使用數(shù)據(jù)加字母表示比對結(jié)果。
unmapped reads:指reads未比對到Refseq中某一位置。
duplication:重復(fù)序列,指由PCR擴(kuò)增的序列。
片段描述信息:Qname,比對片段(template)的描述信息。
錯配率:在比對過程中,可以容許reads與Refseq存在一定的差異,差異值與reads長度之比對錯配率。
比對質(zhì)量值:表示比對到錯誤位置的可能性,值越高表示可能性越低。
實施例
以下給出實施例,對本發(fā)明進(jìn)行更具體的說明,但本發(fā)明不限于這些實施例。
實施例1本發(fā)明的用于檢測循環(huán)腫瘤DNA基因融合的裝置
采用本發(fā)明的檢測循環(huán)腫瘤DNA樣本基因融合的裝置對一例肺癌患者的外周血樣本的基因融合情況進(jìn)行檢測。
1.1提取外周血樣本的cfDNA
采用MagMAX Cell-Free DNA Isolation Kit試劑盒(Life公司)提取血液cfDNA,得到提取的cfDNA,提取方法參照使用手冊。
1.2末端修復(fù)(End Repair)
(1)預(yù)先從-20℃保存的試劑盒中取出所需試劑,單個樣本配制量參見表1。
表1
(2)末端修復(fù)反應(yīng):加入DNA樣本后將1.5mL離心管置于Thermomixer中20℃溫浴30分鐘。反應(yīng)結(jié)束后使用1.8×核酸純化磁珠回收純化反應(yīng)體系中的DNA,溶于32μLEB。
1.3末端加“A”(A-Tailing)
(1)預(yù)先從-20℃保存的試劑盒中取出所需試劑,單個樣本配制量參見表2:
表2
(2)末端加“A”反應(yīng):加入32μL上一步純化回收的DNA后將1.5mL離心管置于Thermomixer中37℃溫浴30分鐘。使用1.8×核酸純化磁珠回收純化反應(yīng)體系中的DNA,溶于18μL EB中。
1.4接頭的連接(Adapter Ligation)
(1)預(yù)先從-20℃保存的試劑盒中取出所需試劑,單個樣本配制量參見表3:
表3
(2)接頭的連接反應(yīng):加入18μL上一步純化回收的DNA后將樣本管置于Thermomixer中20℃溫浴15分鐘。使用1.8×核酸純化磁珠回收純化反應(yīng)體系中的DNA,溶于30μL的EB中。
1.5 PCR反應(yīng)
(1)從-20℃保存的試劑盒中取出所需試劑,2mL的PCR管中配制PCR反應(yīng)體系:
表4
(2)設(shè)定PCR程序,PCR反應(yīng)的程序設(shè)定如下:
反應(yīng)結(jié)束及時將樣品取出放入4℃冰箱保存并按要求退出或關(guān)閉儀器。
(3)用0.9×核酸純化磁珠回收純化反應(yīng)體系中的DNA,純化后的文庫溶于20μL的ddH2O中。對文庫進(jìn)行Qubit檢測,將文庫送檢安捷倫2100。
1.6肺癌目標(biāo)區(qū)域捕獲芯片文庫雜交
(1)本實驗中,用于提供雜交捕獲反應(yīng)的離子環(huán)境的緩沖液、以及用于洗脫物理吸附或非特異性雜交的清洗液、漂洗液均可從商業(yè)途徑獲得。
(2)準(zhǔn)備雜交文庫:將待雜交的DNA文庫在冰上融化,取總質(zhì)量1μg(在后續(xù)操作步驟中將此DNA文庫稱為樣本文庫)。
(3)制備Ann引物Pool:將樣本文庫Index對應(yīng)的標(biāo)簽引物In1(100μM)及公共引物(1000μM)各取1000pmol混合,(在后續(xù)操作步驟中將此混合物稱為Ann引物pool)。
(4)雜交樣本的制備:向1.5mL EP管中加入5μL COT DNA(Human Cot-1DNA,Life technologies,1mg/mL)、1μg樣本文庫、Ann引物pool。用封口膜密封制備好的雜交樣本EP管,將盛有樣本文庫pool/COT DNA/Ann引物pool的EP管置于真空裝置中直到完全干燥。
(5)雜交樣本的溶液:向樣本文庫pool/COT DNA/Ann引物pool的干粉中加入:
7.5μL 2×雜交緩沖液
3μL 雜交組分A
(6)充分混勻后將上述混合物置于預(yù)先準(zhǔn)備好的95℃加熱模塊上變性10分鐘。
(7)將上述混合物轉(zhuǎn)移至含有4.5μL捕獲芯片的0.2mL平蓋PCR管中。充分渦旋震蕩3秒,將雜交樣品混合物置于47℃加熱模塊上16小時。加熱模塊的熱蓋溫度需設(shè)定為57℃,雜交后產(chǎn)物需進(jìn)行后續(xù)洗脫回收操作。
(8)將10×清洗液(Ⅰ,Ⅱ與Ⅲ)、10×漂洗液和2.5×磁珠清洗液配置成1×工作液。
表5
(9)將下列試劑在47℃加熱模塊中預(yù)熱:
400μL 1×漂洗液
100μL 1×清洗液I
1.7制備親和吸附磁珠
(1)將鏈霉親和素磁珠(Dynabeads M-280Streptavidin,以下簡稱磁珠)在室溫下平衡30分鐘后,將磁珠充分渦旋混勻15秒。
(2)向1.5mL離心管中分裝100μL磁珠,將盛有100μL磁珠的離心管置于磁力架上,約5分鐘后小心吸棄上清,加兩倍于磁珠初始體積的1×磁珠清洗液,渦旋混勻10秒。將盛有磁珠的離心管放回磁力架,吸附磁珠。待溶液澄清,吸棄上清。重復(fù)次步驟,共洗滌兩次。
(3)洗滌完畢后吸棄磁珠清洗液,用磁珠初始體積的1×磁珠清洗液渦旋重懸磁珠轉(zhuǎn)入0.2mL的PCR管中。將PCR管置于磁力架上吸附磁珠澄清后吸棄上清。
1.8 DNA與親和吸附磁珠的結(jié)合及漂洗
(1)將雜交的樣本文庫轉(zhuǎn)入盛有親和吸附磁珠的0.2mL PCR管中,渦旋振蕩混勻。
(2)將0.2mL PCR管置于47℃加熱模塊45分鐘,每隔15分鐘渦旋混勻一次,使DNA與磁珠結(jié)合。
(3)45分鐘孵育后,向15μL捕獲的DNA樣本中加入47℃預(yù)熱的1×清洗液I 100μL。渦旋混勻10秒。將0.2mL PCR管中的全部組分轉(zhuǎn)入1.5mL離心管中。將1.5mL離心管置于磁力架上吸附磁珠,棄上清。
(4)將1.5mL離心管從磁力架上取下,加入200μL預(yù)熱47℃的1×漂洗液。吸打混勻10次(需迅速操作,防止試劑、樣品溫度低于47℃)?;靹蚝髽颖局糜?7℃加熱模塊上5分鐘。重復(fù)此步驟,用47℃的1×漂洗液共洗滌兩次。將1.5mL的離心管置于磁力架上,吸附磁珠,棄上清。
(5)向上述1.5mL離心管中加入200μL室溫的1×清洗液I,渦旋混勻2分鐘。將離心管置于磁力架上,吸附磁珠,棄上清。向上述1.5mL離心管中加入200μL室溫的1×清洗液Ⅱ,渦旋混勻1分鐘。將離心管置于磁力架上,吸附磁珠,棄上清。向上述1.5mL離心管中加入200μL室溫的1×清洗液Ⅲ,渦旋混勻30秒。將離心管置于磁力架上,吸附磁珠,棄上清。
(6)1.5mL離心管從磁力架上取下,加入45μL PCR水,溶解洗脫磁珠捕獲樣本。
1.9捕獲DNA的PCR擴(kuò)增
(1)按下表制備捕獲后PCR mix,制備好后渦旋震蕩混勻。富集引物F和富集引物R均購自英濰捷基公司。
(2)磁珠吸附DNA PCR的擴(kuò)增程序設(shè)定如下:
(3)雜交捕獲DNA PCR產(chǎn)物的回收純化:用核酸純化磁珠回收純化反應(yīng)體系中的DNA,磁珠使用量為0.9×,純化后的文庫溶于30μL的ddH2O中。
1.10文庫定量
對文庫進(jìn)行2100Bio Analyzer(Agilent)/LabChip GX(Caliper)及QPCR檢測,記錄文庫濃度。
1.11文庫上機(jī)測序
構(gòu)建好的文庫用NextSeq 550AR(PE100)進(jìn)行測序。
1.12數(shù)據(jù)處理及分析
采用本發(fā)明的檢測循環(huán)腫瘤DNA樣本基因融合的裝置對1.12文庫上機(jī)測序的結(jié)果進(jìn)行處理分析。
本發(fā)明的用于檢測基因融合的裝置具備:
測序數(shù)據(jù)獲取模塊,用于獲取使用肺癌目標(biāo)區(qū)域捕獲芯片對待檢測的肺癌外周血樣本進(jìn)行捕獲測序而獲得測序數(shù)據(jù)。
比對模塊:其與所述測序數(shù)據(jù)獲取模塊相連接,用于將獲取的測序數(shù)據(jù)與參考序列進(jìn)行比對,獲取比對結(jié)果。所述比對結(jié)果包括測序片段在參考序列中對應(yīng)的位置。所述位置信息包括軟剪切信息和成功比對信息。所述測序片段中帶有軟剪切信息的部分為所述測序片段的軟剪切部,所述測序片段中帶有成功比對信息的部分為所述測序片段的成功比對部。該模塊利用bwa軟件,查找測序片段在基因中對應(yīng)的位置,并形成bam格式文件;該bam文件中包括每條測序片段的描述信息(qname),序列信息(seq),比對位置(POS),位標(biāo)識(flag),比對質(zhì)量值(MAPQ),簡要比對表達(dá)信息(Cigar)、模板長度(Tlen)。
再比對模塊:其與所述比對模塊相連接,用于將帶有軟剪切信息的測序片段與參考基因組再次比對,獲取再比對結(jié)果。
所述再比對模塊包括以下子模塊:
長度過濾子模塊:其與所述比對模塊相連接,用于過濾去除含有軟剪切(soft-clipping)信息的測序片段中長度小于20bp的測序片段。
斷點判斷子模塊:其與所述長度過濾子模塊相連接,用于根據(jù)所述長度過濾子模塊的結(jié)果數(shù)據(jù),將測序片段中帶有軟剪切信息的部分與帶有正常比對信息的部分的結(jié)合處作為斷點。
區(qū)分子模塊:其與所述斷點判斷子模塊相連接,用于將所述帶有軟剪切信息的部分和所述帶有正常比對信息的部分在斷點處分開,并將這兩部分的序列信息分別保存至兩個fastq文件中。
再比對子模塊:其與所述區(qū)分子模塊相連接,用于對所述分別保存了序列信息的兩個文件與參考序列再次進(jìn)行比對,獲取再比對結(jié)果;再比對結(jié)果包括:每條測序片段的描述信息(qname)、序列信息(seq)、比對位置(POS)、位標(biāo)識(flag),比對質(zhì)量值(MAPQ),簡要比對表達(dá)信息(Cigar),模板長度(Tlen)。利用bwa軟件對上述兩個fastq文件,再次進(jìn)行比對,形成bam格式文件。所述bam格式文件包含每條測序片段的描述信息(qname),序列信息(seq)、位標(biāo)識(flag),比對位置(POS),比對質(zhì)量值(MAPQ),簡要比對表達(dá)信息(Cigar),模板長度(Tlen)。
真實融合斷點判斷模塊:其與所述再比對模塊相連接,用于判斷所述測序片段的融合斷點。
所述真實融合斷點判斷模塊包括下述子模塊:
過濾子模塊:其與所述再比對子模塊相連接,用于根據(jù)位標(biāo)識(flag)值過濾去除未成功比對(unmapped)的測序片段以及低比對質(zhì)量值(MAPQ)的測序片段;
斷點信息獲取子模塊:其與所述過濾子模塊相連接,用于查找具有相同片段描述信息的測序片段,并獲取斷點信息。斷點信息包括:(1)left_chr:斷點左側(cè)序列的染色體編號,read1對應(yīng)的參考序列編號。(2)left_pos:斷點左側(cè)首個堿基的比對位置,read1對應(yīng)的比對位置加上read1的序列長度。(3)left_seq:斷點左側(cè)堿基的序列。(4)right_chr:斷點右側(cè)序列的染色體編號,read2對應(yīng)的參考序列編號。(5)right_pos:斷點右側(cè)首個堿基的比對位置,read2對應(yīng)的比對位置加上read2的序列長度。(6)right_seq:斷點右側(cè)堿基的序列。(7)sup:斷點支持度,支持該斷點的測序片段個數(shù),默認(rèn)為1。
融合斷點篩選子模塊:其與所述斷點信息獲取子模塊相連接,用于在斷點信息中篩選融合斷點。
融合斷點篩選子模塊包括如下元件:
斷點質(zhì)量過濾元件:用于過濾去掉低質(zhì)量斷點。若存在斷點A,A中sup個數(shù)大于5,且left_seq和right_seq中比對質(zhì)量值均大于30,且錯配率均小于0.05,則該斷點A判斷為融合斷點。
相同斷點合并元件:用于合并相同斷點。若存在斷點A和B,A中l(wèi)eft_chr等于B中right_chr,A中right_chr等于B中l(wèi)eft_chr,A中l(wèi)eft_pos等于B中right_pos,A中right_pos等于B中l(wèi)eft_pos。A和B為同一個斷點的兩種形式,則該斷點A和斷點B合并為一個融合斷點。
融合斷點初次合并子模塊:其與所述融合斷點篩選子模塊相連接,用于將具有相同的斷點信息(left_chr、left_pos、right_chr和right_pos均相同)的斷點合并為一個真實融合斷點,并將具有相同斷點信息的斷點個數(shù)作為真實融合斷點的支持度。
融合斷點再次合并子模塊:其與所述斷點初次合并子模塊相連接,將left_chr和right_chr相同,但right_pos或left_pos相差5bp以內(nèi)的融合斷點合并為一個真實融合斷點。所述融合斷點再次合并模塊根據(jù)上述融合斷點信息,若存在融合斷點A中right_pos與融合斷點B中right_pos小于5,且融合斷點A中l(wèi)eft_pos與融合斷點B中l(wèi)eft_pos小于5,則將此融合斷點A和融合斷點B合并為一個基因融合斷點(gene fusion)。從而最終得到基因融合檢測結(jié)果。以及
輸出模塊:其與所述真實融合斷點判斷模塊相連接,用于輸出基因融合檢測結(jié)果。
檢測結(jié)果如下表所示。
1.13結(jié)果驗證
采用QPCR方法對同一患者的組織FFPE樣本進(jìn)行驗證,檢測其是否發(fā)生EML4-ALK的融合。檢測結(jié)果表明EML4與ALK發(fā)生融合,驗證結(jié)果與1.12檢測結(jié)果一致。本發(fā)明的檢測裝置能夠成功檢出腫瘤循環(huán)DNA樣本的基因融合。
工業(yè)實用性
根據(jù)本發(fā)明,提供了一種檢測速度快、資源要求低、穩(wěn)定性高的用于檢測循環(huán)腫瘤DNA樣本基因融合的裝置及方法。