一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法與流程

文檔序號：40281022發(fā)布日期：2024-12-11 13:20閱讀：11來源：國知局

本發(fā)明涉及生物檢測，尤其涉及一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法。

背景技術：

1、融合基因是指2個或多個不相關的基因發(fā)生重排，使得這些基因在同一套調(diào)控原件的控制下，形成新的基因產(chǎn)物嵌合基因，并獲得新的特征和功能。融合基因在癌癥的發(fā)生和發(fā)展中起著重要的作用，可以導致抑癌基因失活或原癌基因激活，促進癌細胞的生長和轉(zhuǎn)移。

2、傳統(tǒng)的融合基因鑒定方法包括免疫組學化學、熒光原位雜交和pcr技術。隨著測序技術的發(fā)展，通過使用高通量測序技術對基因組區(qū)域進行測序，并利用生物信息學的方法可以有效對融合基因進行分析，可以一次同時檢測多個存在的融合基因。

3、目前，常用的檢測融合基因的軟件包括factera、delly和genefuse等，但是由于融合檢測算法的不同，可能會出現(xiàn)以下問題：(1)不同算法對不同類型的潛在融合事件過度檢測，導致假陽性融合基因的檢出；(2)某些融合事件發(fā)生頻率較低，可能會被其他高頻事件覆蓋或忽略，導致低頻率融合基因難以檢出。

技術實現(xiàn)思路

1、基于以上問題，本發(fā)明提出一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法，該發(fā)明根據(jù)比對的參數(shù)信息篩選異常比對序列并進行過濾，并通過計算融合置信度以獲取置信度較高的融合基因?qū)?，可以有效提高融合基因的檢出率和正確性。

2、一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法，具體步驟如下：

3、步驟s1：獲取高通量測序數(shù)據(jù)，對測序數(shù)據(jù)進行質(zhì)控過濾，獲取過濾后的測序數(shù)據(jù)；

4、步驟s2：將過濾后的測序數(shù)據(jù)與參考基因組進行比對，獲取比對文件；

5、步驟s3：根據(jù)比對文件篩選異常比對序列，并對異常比對序列進行匹配，得到候選融合序列片段及候選融合基因；

6、步驟s4：根據(jù)每個候選融合基因統(tǒng)計融合信息；

7、步驟s5：根據(jù)融合信息進行融合事件篩選，得到潛在融合基因?qū)Γ?/p>

8、步驟s6：計算融合基因?qū)Φ娜诤现眯哦龋?/p>

9、步驟s7：根據(jù)融合置信度判斷是否為真陽性融合基因，并輸出結(jié)果。

10、作為優(yōu)選，步驟s1所述的質(zhì)控過濾包括：過濾低質(zhì)量的測序數(shù)據(jù)和接頭序列信息。

11、作為優(yōu)選，步驟s3所述異常比對序列的情況包括：情況1：雙端測序中讀長的其中一部分比對到參考基因組的位置1上，另一部分比對到參考基因組的位置2上；情況2：雙端測序中讀長1比對到參考基因組上，讀長2比對到其他參考基因組上；情況3：雙端測序中，讀長1和讀長2分別比對到相同的參考基因組上，但讀長對的比對方向相同。

12、作為優(yōu)選，步驟s3所述的篩選原則包括：(1)若雙端測序中的讀長對質(zhì)量不符合質(zhì)控要求，則刪除該異常比對序列信息；(2)若雙端測序中讀長對中至少有一條屬于duplicates，則刪除該異常比對序列信息；(3)若雙端測序中讀長對屬于異常比對序列的情況1，則刪除比對部分較短的異常比對序列信息；(4)若雙端測序中的讀長對分別比對到參考基因的不同位置上，若位置距離小于過濾閾值1，則刪除該異常比對序列信息。

13、作為優(yōu)選，步驟s4所述的候選融合基因統(tǒng)計步驟為：根據(jù)候選融合基因從比對文件選擇出所有比對到該基因上的測序數(shù)據(jù)，并根據(jù)該候選基因上的測序數(shù)據(jù)進行統(tǒng)計，統(tǒng)計信息包括：候選基因的平均測序深度、基因覆蓋度、融合斷點數(shù)、對應融合斷點的測序深度、完全匹配數(shù)和異常比對數(shù)。

14、其中，融合斷點數(shù)指該基因檢測到的異常比對序列中包含斷點信息的數(shù)量，該信息包括對應基因及其斷點數(shù)量，用數(shù)組表示：<對應基因，斷點數(shù)量>；完全匹配數(shù)是指不屬于異常比對序列且比對到該基因的數(shù)量；異常比對數(shù)為比對到該基因的異常比對序列數(shù)量。

15、作為優(yōu)選，步驟s5中當候選基因的基因覆蓋度或者平均測序深度低于基因覆蓋度閾值1和平均測序深度閾值1，則認為該候選基因測序存在假陽性的情況，移除該候選融合基因；當候選基因的基因覆蓋度和平均測序深度均高于基因覆蓋度閾值1和平均測序深度閾值1，則認為該候選融合候選基因可以進入候選基因?qū)Φ暮Y選步驟。

16、作為優(yōu)選，所述基因覆蓋度閾值1為所有基因的覆蓋度平均值，平均測序深度閾值1為所有基因的測序深度的平均值。

17、其中，候選基因?qū)Φ暮Y選步驟包括：

18、(1)獲取融合候選基因a的平均測序深度、基因覆蓋度、融合斷點數(shù)、對應融合斷點的測序深度、完全匹配數(shù)和異常比對數(shù)；

19、(2)根據(jù)融合候選基因a的斷點數(shù)進行t檢驗，判斷是否存在顯著差異，若存在顯著差異，則根據(jù)斷點數(shù)量選擇排名第一的基因作為疑似的候選基因b，若不存在顯著差異，則將排名前3的基因座位為疑似候選基因b；

20、(3)獲取候選基因b的融合斷點數(shù)參數(shù)信息并進行排序，若候選基因b中與融合候選基因a的融合斷點數(shù)高于斷點閾值，則選擇候選基因a與候選基因b為候選基因?qū)Γ?/p>

21、(4)若候選基因b中與融合候選基因a的融合斷點數(shù)排名低于斷點閾值，且候選基因b中的斷點數(shù)經(jīng)過t檢驗后存在顯著差異，則過濾該候選基因a和候選基因b為融合基因?qū)Γ?/p>

22、(5)若候選基因b中與融合候選基因a的融合斷點數(shù)排名低于斷點閾值，且候選基因b中的斷點數(shù)經(jīng)過t檢驗后不存在顯著差異，則選擇該候選基因a和候選基因b為融合基因?qū)Γ?/p>

23、(6)若候選基因b中不存在融合斷點數(shù)量，則判斷該基因的測序深度和基因覆蓋度，若測序深度和基因覆蓋度達到可報出標準，則認為候選基因a與候選基因b不是融合基因?qū)Γ?/p>

24、(7)若候選基因b中不存在融合斷點數(shù)量，則判斷該基因的測序深度和基因覆蓋度，若測序深度和基因覆蓋度未達到可報出標準，則認為可能是由于測序不全導致的融合斷點未檢出，認為候選基因a與候選基因b是融合基因?qū)Α?/p>

25、作為優(yōu)選，步驟s6中融合置信度計算公式為：

26、

27、作為優(yōu)選，步驟s7中的判斷規(guī)則為：若融合置信度≥置信度閾值1，則認為該融合基因?qū)檎鎸嵉娜诤蠑帱c；若置信度閾值1<融合置信度≤置信度閾值2，認為該融合基因為潛在的融合斷點；若置信度<置信度閾值3，則認為該融合基因為假的融合斷點。

28、作為優(yōu)選，步驟s7中的輸出結(jié)果包括：融合基因名稱、斷點位置、融合深度、融合類型、融合置信度。

29、與現(xiàn)有技術相比，本發(fā)明的有益效果為：

30、(1)本發(fā)明通過將測序數(shù)據(jù)與參考基因組進行比對篩選，不依靠已知的融合基因信息，可以有效獲取未知的融合基因；

31、(2)本發(fā)明利用測序深度和基因覆蓋度雙重特征檢驗該基因的檢測可信度，可以有效過濾因低質(zhì)量測序結(jié)果導致的融合基因檢出假陽性；

32、(3)本發(fā)明對兩個融合基因的比對信息進行雙重檢驗，增加檢出融合基因?qū)Φ目尚哦群蜏蚀_率。

技術特征：

1.一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法，其特征在于，步驟包括：

2.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法，其特征在于，步驟s3所述的異常比對序列的情況包括：情況1：雙端測序中讀長的一部分比對到參考基因組的位置1上，另一部分比對到參考基因組的位置2上；情況2：端測序中讀長1比對到參考基因組上，讀長2比對到其他參考基因組上；情況3：雙端測序中，讀長1和讀長2分別比對到相同的參考基因組上，但讀長對的比對方向相同。

3.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法，其特征在于，步驟s3所述的篩選原則為：(1)若雙端測序中的讀長對質(zhì)量不符合質(zhì)控要求，則刪除該異常比對序列；(2)若雙端測序中讀長對中至少有一條屬于duplicates，則刪除該異常比對序列；(3)若雙端測序中讀長對屬于異常比對序列的情況1，則刪除比對部分較短的異常比對序列信息；(4)若雙端測序的讀長對分別比對到參考基因的不同位置上，若位置距離小于過濾閾值1，則刪除該異常比對序列信息。

4.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法，其特征在于，步驟s4所述的候選融合基因統(tǒng)計步驟為：根據(jù)比對文件選擇所有比對到該候選融合基因的測序數(shù)據(jù)，并根據(jù)候選融合基因上的測序數(shù)據(jù)進行統(tǒng)計；

5.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法，其特征在于，步驟s5中當候選基因的基因覆蓋度或者平均測序深度低于基因覆蓋度閾值1和平均測序深度閾值1，則認為該候選基因測序存在假陽性的情況，移除該候選融合基因；當候選基因的基因覆蓋度和平均測序深度均高于基因覆蓋度閾值1和平均測序深度閾值1，則認為該候選融合候選基因達到可報出標準，可以進入候選基因?qū)Φ暮Y選步驟；其中，基因覆蓋度閾值1為所有基因的覆蓋度平均值，平均測序深度閾值1為所有基因的測序深度的平均值。

6.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法，其特征在于，步驟s5所述的融合事件篩選規(guī)則為：

7.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法，其特征在于，步驟s6所述的融合置信度根據(jù)融合置信度計算公式進行計算，計算公式為：

8.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法，其特征在于，步驟s7所述的判斷融合置信度判斷規(guī)則為：若融合置信度≥置信度閾值1，則認為該融合基因?qū)檎鎸嵉娜诤蠑帱c；若置信度閾值1<融合置信度≤置信度閾值2，認為該融合基因為潛在的融合斷點；若置信度<置信度閾值3，則認為該融合基因為假的融合斷點。

技術總結(jié)
本發(fā)明涉及生物檢測技術領域，公開了一種用于檢測高通量測序中融合基因的方法，步驟包括：步驟S1：獲取測序數(shù)據(jù)并進行質(zhì)控，獲取過濾后測序數(shù)據(jù)；步驟S2：將高質(zhì)量測序數(shù)據(jù)與參考基因組進行比對，獲取比對文件；步驟S3：根據(jù)比對文件篩選異常比對序列，并獲取融合斷點序列片段和候選融合基因；步驟S4：根據(jù)候選融合基因統(tǒng)計融合信息；步驟S5：篩選融合事件，得到潛在融合基因?qū)Γ徊襟ES6：計算融合基因?qū)Φ娜诤现眯哦?；步驟S7：根據(jù)融合置信度判斷是否為真陽性融合基因，輸出結(jié)果；本發(fā)明根據(jù)比對的參數(shù)信息篩選異常比對序列并進行過濾，并通過計算融合置信度以獲取置信度較高的融合基因?qū)Γ梢杂行岣呷诤匣虻臋z出率和正確性。

技術研發(fā)人員：周淑芳,謝展,李姍珊
受保護的技術使用者：浙江洛兮醫(yī)學檢驗實驗室有限公司
技術研發(fā)日：
技術公布日：2024/12/10

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：周淑芳,謝展,李姍珊
技術所有人：浙江洛兮醫(yī)學檢驗實驗室有限公司
我是此專利的發(fā)明人

上一篇：一種工廠碳排放監(jiān)測設備的制作方法
上一篇：一種汽車緊固螺栓全自動生產(chǎn)設備的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細化工與化學 3.生物質(zhì)精煉 4.天然產(chǎn)物化學
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復 4.天然產(chǎn)物合成 5.單分子技術開發(fā)與應用
3、戴老師：1.天然藥物（中藥）合成生物學研究 2.酵母生物學與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學酶法合成及構效關系研究 3.多糖及仿生材料功能的開發(fā)及應用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評價 3.中藥組方配伍機制研究
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法與流程