本發(fā)明涉及基因檢測(cè),具體涉及一種基于dna-based測(cè)序數(shù)據(jù)檢測(cè)融合基因的方法。
背景技術(shù):
1、融合基因是指由于某種機(jī)制(如基因組變異)造成兩個(gè)或多個(gè)不同基因的編碼區(qū)或非編碼區(qū)的全部或部分序列融合在一起,形成一個(gè)新的基因,是由染色體結(jié)構(gòu)重排引起的。融合基因與腫瘤的發(fā)生和發(fā)展密切相關(guān),通過鑒定相關(guān)融合基因可以診斷生物標(biāo)志物、發(fā)現(xiàn)新的治療靶標(biāo)以及了解腫瘤發(fā)生的分子基礎(chǔ)。
2、目前,臨床常用融合基因的檢測(cè)方法有免疫組織化學(xué)、fish、pcr和二代測(cè)序,二代測(cè)序技術(shù)檢測(cè)范圍廣,檢測(cè)速度快,能在基因?qū)用婧娃D(zhuǎn)錄組層面同時(shí)驗(yàn)證基因是否融合以及準(zhǔn)確檢測(cè)出融合基因的斷點(diǎn),彌補(bǔ)常規(guī)檢測(cè)方法存在的漏檢和不能明確融合伴侶基因等問題。其中,使用二代測(cè)序檢測(cè)融合基因的方法包括基于dna-based的二代測(cè)序方法和基于rna-based的二代測(cè)序方法。
3、基于dna-based檢測(cè)檢測(cè)融合基因的方法主要通過將雙端測(cè)序序列與基因組進(jìn)行比對(duì),評(píng)估雙端測(cè)序序列的距離與方向是否與建庫(kù)信息一致進(jìn)而判斷是否為融合基因,常用的軟件有g(shù)enefuse和factera等;基于rna-based檢測(cè)融合基因的方法包括基于序列比對(duì)方法和基于拼接比對(duì)的方法,前者通過尋找不一致序列和覆蓋斷裂點(diǎn)的序列識(shí)別融合事件,后者則是通過組裝轉(zhuǎn)錄本進(jìn)而比對(duì)到參考基因組以鑒定出與染色體重排一致的融合轉(zhuǎn)錄本,常用的軟件有arriba等。
4、其中,genefuse是一種能夠直接從fastq文件中檢測(cè)到融合基因的基于dna-based測(cè)序的工具,通過尋找到能夠很好映射到兩個(gè)不同基因的左右部分,但不能完全映射到整個(gè)參考基因組的reads進(jìn)行支持讀碼,并通過對(duì)每個(gè)支持讀碼進(jìn)行分析判斷是否為融合基因。但是該軟件只能聚焦在具有臨床意義的基因進(jìn)行研究,對(duì)于未知的融合基因的檢測(cè)能力較弱。factera是一種用于從dna測(cè)序中發(fā)現(xiàn)融合基因的軟件工具,主要用于檢測(cè)易位、倒位和缺失的融合基因類型,該軟件首先需要對(duì)原始fastq文件進(jìn)行比對(duì)和處理得到bam文件,其次使用bam文件作為軟件的輸入文件,通過尋找不正確配對(duì)的讀對(duì)于相近外顯子進(jìn)行聚類到不同的基因組中,找到斷點(diǎn)并定位融合基因。但該軟件依賴于bam文件,對(duì)檢測(cè)結(jié)果不夠敏感,并且缺乏可視化檢測(cè)融合的功能。arriba是一個(gè)使用rna-based測(cè)序數(shù)據(jù)的融合基因檢測(cè)工具,它可以檢測(cè)到倒位和重復(fù)的融合基因類型,并且快速且靈敏,但是對(duì)于缺失的融合基因難以檢測(cè)。由此可見,每個(gè)軟件在檢測(cè)融合基因中均存在弊端,使用單一軟件檢測(cè)融合基因可能會(huì)存在假陽性或假陰性的情況。
技術(shù)實(shí)現(xiàn)思路
1、基于以上問題,本發(fā)明提出了一種基于dna-based測(cè)序數(shù)據(jù)檢測(cè)融合基因的方法,該方法構(gòu)建一個(gè)基于多軟件的篩選標(biāo)準(zhǔn),并使用目前的融合基因主流的檢測(cè)軟件進(jìn)行過濾篩選,有效避免單個(gè)軟件檢測(cè)結(jié)果的假陽性或假陰性。
2、一種基于dna-based測(cè)序數(shù)據(jù)檢測(cè)融合基因的方法,其步驟在于:
3、步驟s1:獲取dna測(cè)序數(shù)據(jù),使用軟件fastp進(jìn)行數(shù)據(jù)過濾,獲取過濾后的測(cè)序數(shù)據(jù);
4、步驟s2:使用軟件genefuse對(duì)過濾后的測(cè)序數(shù)據(jù)進(jìn)行融合基因檢測(cè),獲得第一融合基因結(jié)果和第一相關(guān)參數(shù)信息;
5、步驟s3:使用軟件factera對(duì)過濾后的測(cè)序數(shù)據(jù)進(jìn)行融合基因檢測(cè),獲得第二融合基因結(jié)果和第二相關(guān)參數(shù)信息;
6、步驟s4:使用軟件arriba對(duì)過濾后的測(cè)序數(shù)據(jù)進(jìn)行融合基因檢測(cè),獲得第三融合基因結(jié)果和第三相關(guān)參數(shù)信息;
7、步驟s5:獲取融合基因過濾模型,并將第一融合基因結(jié)果和第一相關(guān)參數(shù),第二融合基因結(jié)果和第二相關(guān)參數(shù),第三融合基因結(jié)果和第三相關(guān)參數(shù)作為輸入數(shù)據(jù),通過融合基因過濾模型計(jì)算真陽性的融合基因,輸出融合基因結(jié)果。
8、作為優(yōu)選,步驟s2中所述的第一相關(guān)參數(shù)信息包括斷點(diǎn)數(shù)量和斷點(diǎn)序列的堿基質(zhì)量,其中斷點(diǎn)數(shù)量分為total數(shù)和unique數(shù),堿基質(zhì)量分別為高質(zhì)量、中質(zhì)量、低質(zhì)量和極低質(zhì)量。
9、作為優(yōu)選,步驟s3中所述的第二相關(guān)參數(shù)信息包括break_support、break_depth、proper_pair_support和total_depth,其中break_support分為break_support1和break_support2。
10、作為優(yōu)選,步驟s4中所述的第三相關(guān)參數(shù)信息包括split_read、coverage和confidence,其中split_read分為split_read1和split_read2,coverage分為coverage1和coverage2,confidence分為low、medium和high。
11、作為優(yōu)選,步驟s5所述的融合基因過濾模型步驟為:
12、步驟s51:分別獲取第一融合基因結(jié)果及第一相關(guān)參數(shù)信息、第二融合基因結(jié)果及第二相關(guān)參數(shù)信息和第三融合基因結(jié)果及第三相關(guān)參數(shù)信息,并根據(jù)上述融合基因結(jié)果及相關(guān)參數(shù)信息獲得潛在融合基因表,潛在融合基因表包括:融合基因?qū)?,融合基?,融合基因2,檢出軟件,序列信息和相關(guān)參數(shù);
13、步驟s52:若融合基因?qū)υ趦蓚€(gè)及兩個(gè)以上的融合基因檢出軟件中檢出,則將該融合基因?qū)υO(shè)置為融合基因列表,并獲取相關(guān)參數(shù)信息;
14、步驟s53:若融合基因?qū)H在一個(gè)融合基因檢出軟件中檢出,而其對(duì)應(yīng)的融合基因1或融合基因2在多個(gè)融合基因檢出軟件中檢出,則提取多軟件中對(duì)應(yīng)的融合基因?qū)π蛄行畔?,根?jù)dna測(cè)序數(shù)據(jù)獲取異常比對(duì)序列,使用軟件bwa將異常比對(duì)序列與參考基因組進(jìn)行比對(duì),根據(jù)比對(duì)質(zhì)量獲得融合基因的結(jié)果;若多個(gè)異常比對(duì)序列的比對(duì)結(jié)果一致,則根據(jù)比對(duì)結(jié)果獲取融合基因?qū)Γ瑢⒃撊诤匣驅(qū)υO(shè)置為融合基因列表,并獲取相關(guān)參數(shù)信息;若多個(gè)異常比對(duì)序列的比對(duì)結(jié)果不一致,則根據(jù)比對(duì)質(zhì)量選擇質(zhì)量較高的比對(duì)結(jié)果獲取融合基因?qū)Γ瑢⒃撊诤匣驅(qū)υO(shè)置為融合基因列表并獲取相關(guān)參數(shù)信息;若多個(gè)異常比對(duì)序列的比對(duì)結(jié)果不一致且比對(duì)質(zhì)量一致,則根據(jù)堿基質(zhì)量選擇質(zhì)量較高的結(jié)果獲取融合基因?qū)?,則將該融合基因?qū)υO(shè)置為融合基因列表并獲取相關(guān)參數(shù)信息;
15、步驟s54:若融合基因?qū)H在第一融合基因結(jié)果中檢出,且融合基因1和融合基因2在其他融合基因?qū)χ芯礄z出,則獲取第一融合基因結(jié)果和相關(guān)參數(shù)進(jìn)行判斷:若斷點(diǎn)數(shù)量中的total數(shù)≥20,則認(rèn)為該融合基因?qū)檎骊栃裕O(shè)置為融合基因列表,并獲取相關(guān)參數(shù)信息;若10≤斷點(diǎn)數(shù)量的total數(shù)<20且堿基質(zhì)量中低質(zhì)量和極低質(zhì)量的數(shù)量小于整個(gè)融合基因?qū)﹂L(zhǎng)度的15%時(shí),則根據(jù)融合基因?qū)π蛄袕膁na測(cè)序數(shù)據(jù)中提取異常比對(duì)序列.fastq文件,使用samtools軟件和picard軟件對(duì)異常比對(duì)序列.fastq文件進(jìn)行比對(duì)和去重,獲取異常比對(duì)序列.bam文件,分別使用factera軟件和arriba軟件從異常比對(duì)序列.bam文件和異常比對(duì).fastq文件中檢測(cè)融合基因,若其中一個(gè)軟件中檢出相同的融合基因?qū)?,則認(rèn)為該融合基因?qū)檎骊栃?,設(shè)置為融合基因列表,并獲取相關(guān)參數(shù)信息;
16、步驟s55:若融合基因?qū)H在第二融合基因結(jié)果中檢出,且融合基因1和融合基因2在其他融合基因?qū)χ芯礄z出,則獲取第二融合基因結(jié)果的相關(guān)參數(shù)進(jìn)行判斷:若break_support≥20且break_depth和proper_pair_support均大于100時(shí),則認(rèn)為該融合基因?qū)檎骊栃?,設(shè)置為融合基因列表,并獲取相關(guān)參數(shù)信息;若10≤break_support<20,且break_depth、proper_pair_support和total_depth均大于100時(shí),則提取該融合基因?qū)Φ男蛄行畔ⅲ膁na測(cè)序數(shù)據(jù)中提取異常比對(duì)序列.fastq文件,使用genefuse軟件和arriba軟件從異常比對(duì)序列.fastq文件中檢測(cè)融合基因,若其中一個(gè)軟件中檢測(cè)出相同的融合基因?qū)Γ瑒t認(rèn)為該融合基因?qū)檎骊栃?,并獲取相關(guān)參數(shù)信息;
17、步驟s56:若融合基因?qū)H在第三融合基因結(jié)果中檢出,且融合基因1和融合基因2在其他融合基因結(jié)果中均未檢出,則獲取第三融合基因結(jié)果的相關(guān)參數(shù)進(jìn)行判斷:若confidence為high,且split_read≥20和coverage≥200時(shí),則認(rèn)為該融合基因?qū)檎骊栃裕O(shè)置為融合基因列表,并獲取參數(shù)信息;若confidence為medium或者low,10≤split_read<20,coverage≥200時(shí),提取該融合基因?qū)Φ男蛄行畔?,并根?jù)該信息從dna測(cè)序數(shù)據(jù)中提取異常比對(duì)序列.fastq文件,使用軟件bwa和軟件picard對(duì)異常比對(duì)序列.fastq文件進(jìn)行分析,獲得異常比對(duì)序列.bam文件,分別使用軟件genefuse和軟件factera對(duì)異常比對(duì)序列.fastq文件和異常比對(duì)序列.bam文件進(jìn)行融合基因檢測(cè),若任一軟件檢出相同的融合基因?qū)?,則認(rèn)為該融合基因?qū)檎骊栃?,設(shè)置為融合基因列表,并獲取相關(guān)參數(shù)信息;
18、步驟s57:獲取融合基因列表,輸出結(jié)果。
19、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
20、(1)本發(fā)明使用三種基于不同檢測(cè)算法和不同檢測(cè)數(shù)據(jù)的軟件(genefuse、factera和arriba)檢測(cè)融合基因,可以彌補(bǔ)單一軟件檢測(cè)不同融合基因類型的檢測(cè)差異,并且納入一個(gè)基于rna-based的軟件從dna-based測(cè)序數(shù)據(jù)中檢測(cè)融合基因,可以有效增加不同算法中檢測(cè)融合基因的檢出率;
21、(2)本發(fā)明通過每個(gè)軟件的有效參數(shù)設(shè)置了融合基因的過濾閾值并構(gòu)建了融合基因過濾模型,提高了每個(gè)軟件檢出的融合基因的準(zhǔn)確性,能夠更有效的為指導(dǎo)臨床診斷及用藥提供數(shù)據(jù)支持。