一種基于DNA-based測(cè)序數(shù)據(jù)檢測(cè)融合基因的方法與流程

文檔序號(hào)：40280977發(fā)布日期：2024-12-11 13:20閱讀：18來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

一種基于DNA-based測(cè)序數(shù)據(jù)檢測(cè)融合基因的方法與流程

本發(fā)明涉及基因檢測(cè)，具體涉及一種基于dna-based測(cè)序數(shù)據(jù)檢測(cè)融合基因的方法。

背景技術(shù)：

1、融合基因是指由于某種機(jī)制(如基因組變異)造成兩個(gè)或多個(gè)不同基因的編碼區(qū)或非編碼區(qū)的全部或部分序列融合在一起，形成一個(gè)新的基因，是由染色體結(jié)構(gòu)重排引起的。融合基因與腫瘤的發(fā)生和發(fā)展密切相關(guān)，通過鑒定相關(guān)融合基因可以診斷生物標(biāo)志物、發(fā)現(xiàn)新的治療靶標(biāo)以及了解腫瘤發(fā)生的分子基礎(chǔ)。

2、目前，臨床常用融合基因的檢測(cè)方法有免疫組織化學(xué)、fish、pcr和二代測(cè)序，二代測(cè)序技術(shù)檢測(cè)范圍廣，檢測(cè)速度快，能在基因?qū)用婧娃D(zhuǎn)錄組層面同時(shí)驗(yàn)證基因是否融合以及準(zhǔn)確檢測(cè)出融合基因的斷點(diǎn)，彌補(bǔ)常規(guī)檢測(cè)方法存在的漏檢和不能明確融合伴侶基因等問題。其中，使用二代測(cè)序檢測(cè)融合基因的方法包括基于dna-based的二代測(cè)序方法和基于rna-based的二代測(cè)序方法。

3、基于dna-based檢測(cè)檢測(cè)融合基因的方法主要通過將雙端測(cè)序序列與基因組進(jìn)行比對(duì)，評(píng)估雙端測(cè)序序列的距離與方向是否與建庫(kù)信息一致進(jìn)而判斷是否為融合基因，常用的軟件有g(shù)enefuse和factera等；基于rna-based檢測(cè)融合基因的方法包括基于序列比對(duì)方法和基于拼接比對(duì)的方法，前者通過尋找不一致序列和覆蓋斷裂點(diǎn)的序列識(shí)別融合事件，后者則是通過組裝轉(zhuǎn)錄本進(jìn)而比對(duì)到參考基因組以鑒定出與染色體重排一致的融合轉(zhuǎn)錄本，常用的軟件有arriba等。

4、其中，genefuse是一種能夠直接從fastq文件中檢測(cè)到融合基因的基于dna-based測(cè)序的工具，通過尋找到能夠很好映射到兩個(gè)不同基因的左右部分，但不能完全映射到整個(gè)參考基因組的reads進(jìn)行支持讀碼，并通過對(duì)每個(gè)支持讀碼進(jìn)行分析判斷是否為融合基因。但是該軟件只能聚焦在具有臨床意義的基因進(jìn)行研究，對(duì)于未知的融合基因的檢測(cè)能力較弱。factera是一種用于從dna測(cè)序中發(fā)現(xiàn)融合基因的軟件工具，主要用于檢測(cè)易位、倒位和缺失的融合基因類型，該軟件首先需要對(duì)原始fastq文件進(jìn)行比對(duì)和處理得到bam文件，其次使用bam文件作為軟件的輸入文件，通過尋找不正確配對(duì)的讀對(duì)于相近外顯子進(jìn)行聚類到不同的基因組中，找到斷點(diǎn)并定位融合基因。但該軟件依賴于bam文件，對(duì)檢測(cè)結(jié)果不夠敏感，并且缺乏可視化檢測(cè)融合的功能。arriba是一個(gè)使用rna-based測(cè)序數(shù)據(jù)的融合基因檢測(cè)工具，它可以檢測(cè)到倒位和重復(fù)的融合基因類型，并且快速且靈敏，但是對(duì)于缺失的融合基因難以檢測(cè)。由此可見，每個(gè)軟件在檢測(cè)融合基因中均存在弊端，使用單一軟件檢測(cè)融合基因可能會(huì)存在假陽性或假陰性的情況。

技術(shù)實(shí)現(xiàn)思路

1、基于以上問題，本發(fā)明提出了一種基于dna-based測(cè)序數(shù)據(jù)檢測(cè)融合基因的方法，該方法構(gòu)建一個(gè)基于多軟件的篩選標(biāo)準(zhǔn)，并使用目前的融合基因主流的檢測(cè)軟件進(jìn)行過濾篩選，有效避免單個(gè)軟件檢測(cè)結(jié)果的假陽性或假陰性。

2、一種基于dna-based測(cè)序數(shù)據(jù)檢測(cè)融合基因的方法，其步驟在于：

3、步驟s1：獲取dna測(cè)序數(shù)據(jù)，使用軟件fastp進(jìn)行數(shù)據(jù)過濾，獲取過濾后的測(cè)序數(shù)據(jù)；

4、步驟s2：使用軟件genefuse對(duì)過濾后的測(cè)序數(shù)據(jù)進(jìn)行融合基因檢測(cè)，獲得第一融合基因結(jié)果和第一相關(guān)參數(shù)信息；

5、步驟s3：使用軟件factera對(duì)過濾后的測(cè)序數(shù)據(jù)進(jìn)行融合基因檢測(cè)，獲得第二融合基因結(jié)果和第二相關(guān)參數(shù)信息；

6、步驟s4：使用軟件arriba對(duì)過濾后的測(cè)序數(shù)據(jù)進(jìn)行融合基因檢測(cè)，獲得第三融合基因結(jié)果和第三相關(guān)參數(shù)信息；

7、步驟s5：獲取融合基因過濾模型，并將第一融合基因結(jié)果和第一相關(guān)參數(shù)，第二融合基因結(jié)果和第二相關(guān)參數(shù)，第三融合基因結(jié)果和第三相關(guān)參數(shù)作為輸入數(shù)據(jù)，通過融合基因過濾模型計(jì)算真陽性的融合基因，輸出融合基因結(jié)果。

8、作為優(yōu)選，步驟s2中所述的第一相關(guān)參數(shù)信息包括斷點(diǎn)數(shù)量和斷點(diǎn)序列的堿基質(zhì)量，其中斷點(diǎn)數(shù)量分為total數(shù)和unique數(shù)，堿基質(zhì)量分別為高質(zhì)量、中質(zhì)量、低質(zhì)量和極低質(zhì)量。

9、作為優(yōu)選，步驟s3中所述的第二相關(guān)參數(shù)信息包括break_support、break_depth、proper_pair_support和total_depth，其中break_support分為break_support1和break_support2。

10、作為優(yōu)選，步驟s4中所述的第三相關(guān)參數(shù)信息包括split_read、coverage和confidence，其中split_read分為split_read1和split_read2，coverage分為coverage1和coverage2，confidence分為low、medium和high。

11、作為優(yōu)選，步驟s5所述的融合基因過濾模型步驟為：

12、步驟s51：分別獲取第一融合基因結(jié)果及第一相關(guān)參數(shù)信息、第二融合基因結(jié)果及第二相關(guān)參數(shù)信息和第三融合基因結(jié)果及第三相關(guān)參數(shù)信息，并根據(jù)上述融合基因結(jié)果及相關(guān)參數(shù)信息獲得潛在融合基因表，潛在融合基因表包括：融合基因?qū)?，融合基?，融合基因2，檢出軟件，序列信息和相關(guān)參數(shù)；

13、步驟s52：若融合基因?qū)υ趦蓚€(gè)及兩個(gè)以上的融合基因檢出軟件中檢出，則將該融合基因?qū)υO(shè)置為融合基因列表，并獲取相關(guān)參數(shù)信息；

14、步驟s53：若融合基因?qū)H在一個(gè)融合基因檢出軟件中檢出，而其對(duì)應(yīng)的融合基因1或融合基因2在多個(gè)融合基因檢出軟件中檢出，則提取多軟件中對(duì)應(yīng)的融合基因?qū)π蛄行畔?，根?jù)dna測(cè)序數(shù)據(jù)獲取異常比對(duì)序列，使用軟件bwa將異常比對(duì)序列與參考基因組進(jìn)行比對(duì)，根據(jù)比對(duì)質(zhì)量獲得融合基因的結(jié)果；若多個(gè)異常比對(duì)序列的比對(duì)結(jié)果一致，則根據(jù)比對(duì)結(jié)果獲取融合基因?qū)Γ瑢⒃撊诤匣驅(qū)υO(shè)置為融合基因列表，并獲取相關(guān)參數(shù)信息；若多個(gè)異常比對(duì)序列的比對(duì)結(jié)果不一致，則根據(jù)比對(duì)質(zhì)量選擇質(zhì)量較高的比對(duì)結(jié)果獲取融合基因?qū)Γ瑢⒃撊诤匣驅(qū)υO(shè)置為融合基因列表并獲取相關(guān)參數(shù)信息；若多個(gè)異常比對(duì)序列的比對(duì)結(jié)果不一致且比對(duì)質(zhì)量一致，則根據(jù)堿基質(zhì)量選擇質(zhì)量較高的結(jié)果獲取融合基因?qū)?，則將該融合基因?qū)υO(shè)置為融合基因列表并獲取相關(guān)參數(shù)信息；

15、步驟s54：若融合基因?qū)H在第一融合基因結(jié)果中檢出，且融合基因1和融合基因2在其他融合基因?qū)χ芯礄z出，則獲取第一融合基因結(jié)果和相關(guān)參數(shù)進(jìn)行判斷：若斷點(diǎn)數(shù)量中的total數(shù)≥20，則認(rèn)為該融合基因?qū)檎骊栃裕O(shè)置為融合基因列表，并獲取相關(guān)參數(shù)信息；若10≤斷點(diǎn)數(shù)量的total數(shù)<20且堿基質(zhì)量中低質(zhì)量和極低質(zhì)量的數(shù)量小于整個(gè)融合基因?qū)﹂L(zhǎng)度的15％時(shí)，則根據(jù)融合基因?qū)π蛄袕膁na測(cè)序數(shù)據(jù)中提取異常比對(duì)序列.fastq文件，使用samtools軟件和picard軟件對(duì)異常比對(duì)序列.fastq文件進(jìn)行比對(duì)和去重，獲取異常比對(duì)序列.bam文件，分別使用factera軟件和arriba軟件從異常比對(duì)序列.bam文件和異常比對(duì).fastq文件中檢測(cè)融合基因，若其中一個(gè)軟件中檢出相同的融合基因?qū)?，則認(rèn)為該融合基因?qū)檎骊栃?，設(shè)置為融合基因列表，并獲取相關(guān)參數(shù)信息；

16、步驟s55：若融合基因?qū)H在第二融合基因結(jié)果中檢出，且融合基因1和融合基因2在其他融合基因?qū)χ芯礄z出，則獲取第二融合基因結(jié)果的相關(guān)參數(shù)進(jìn)行判斷：若break_support≥20且break_depth和proper_pair_support均大于100時(shí)，則認(rèn)為該融合基因?qū)檎骊栃?，設(shè)置為融合基因列表，并獲取相關(guān)參數(shù)信息；若10≤break_support<20，且break_depth、proper_pair_support和total_depth均大于100時(shí)，則提取該融合基因?qū)Φ男蛄行畔ⅲ膁na測(cè)序數(shù)據(jù)中提取異常比對(duì)序列.fastq文件，使用genefuse軟件和arriba軟件從異常比對(duì)序列.fastq文件中檢測(cè)融合基因，若其中一個(gè)軟件中檢測(cè)出相同的融合基因?qū)Γ瑒t認(rèn)為該融合基因?qū)檎骊栃?，并獲取相關(guān)參數(shù)信息；

17、步驟s56：若融合基因?qū)H在第三融合基因結(jié)果中檢出，且融合基因1和融合基因2在其他融合基因結(jié)果中均未檢出，則獲取第三融合基因結(jié)果的相關(guān)參數(shù)進(jìn)行判斷：若confidence為high，且split_read≥20和coverage≥200時(shí)，則認(rèn)為該融合基因?qū)檎骊栃裕O(shè)置為融合基因列表，并獲取參數(shù)信息；若confidence為medium或者low，10≤split_read<20，coverage≥200時(shí)，提取該融合基因?qū)Φ男蛄行畔?，并根?jù)該信息從dna測(cè)序數(shù)據(jù)中提取異常比對(duì)序列.fastq文件，使用軟件bwa和軟件picard對(duì)異常比對(duì)序列.fastq文件進(jìn)行分析，獲得異常比對(duì)序列.bam文件，分別使用軟件genefuse和軟件factera對(duì)異常比對(duì)序列.fastq文件和異常比對(duì)序列.bam文件進(jìn)行融合基因檢測(cè)，若任一軟件檢出相同的融合基因?qū)?，則認(rèn)為該融合基因?qū)檎骊栃?，設(shè)置為融合基因列表，并獲取相關(guān)參數(shù)信息；

18、步驟s57：獲取融合基因列表，輸出結(jié)果。

19、與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：

20、(1)本發(fā)明使用三種基于不同檢測(cè)算法和不同檢測(cè)數(shù)據(jù)的軟件(genefuse、factera和arriba)檢測(cè)融合基因，可以彌補(bǔ)單一軟件檢測(cè)不同融合基因類型的檢測(cè)差異，并且納入一個(gè)基于rna-based的軟件從dna-based測(cè)序數(shù)據(jù)中檢測(cè)融合基因，可以有效增加不同算法中檢測(cè)融合基因的檢出率；

21、(2)本發(fā)明通過每個(gè)軟件的有效參數(shù)設(shè)置了融合基因的過濾閾值并構(gòu)建了融合基因過濾模型，提高了每個(gè)軟件檢出的融合基因的準(zhǔn)確性，能夠更有效的為指導(dǎo)臨床診斷及用藥提供數(shù)據(jù)支持。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鮑乾,李?yuàn)櫳?汪文鈴
技術(shù)所有人：杭州洛兮醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評(píng)價(jià)及糖類疫苗的研制 2.功能糖類的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評(píng)價(jià) 3.中藥組方配伍機(jī)制研究
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

融合基因檢測(cè)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于DNA-based測(cè)序數(shù)據(jù)檢測(cè)融合基因的方法與流程