本發(fā)明涉及生物檢測,尤其涉及一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法。
背景技術:
1、融合基因是指2個或多個不相關的基因發(fā)生重排,使得這些基因在同一套調(diào)控原件的控制下,形成新的基因產(chǎn)物嵌合基因,并獲得新的特征和功能。融合基因在癌癥的發(fā)生和發(fā)展中起著重要的作用,可以導致抑癌基因失活或原癌基因激活,促進癌細胞的生長和轉(zhuǎn)移。
2、傳統(tǒng)的融合基因鑒定方法包括免疫組學化學、熒光原位雜交和pcr技術。隨著測序技術的發(fā)展,通過使用高通量測序技術對基因組區(qū)域進行測序,并利用生物信息學的方法可以有效對融合基因進行分析,可以一次同時檢測多個存在的融合基因。
3、目前,常用的檢測融合基因的軟件包括factera、delly和genefuse等,但是由于融合檢測算法的不同,可能會出現(xiàn)以下問題:(1)不同算法對不同類型的潛在融合事件過度檢測,導致假陽性融合基因的檢出;(2)某些融合事件發(fā)生頻率較低,可能會被其他高頻事件覆蓋或忽略,導致低頻率融合基因難以檢出。
技術實現(xiàn)思路
1、基于以上問題,本發(fā)明提出一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法,該發(fā)明根據(jù)比對的參數(shù)信息篩選異常比對序列并進行過濾,并通過計算融合置信度以獲取置信度較高的融合基因?qū)?,可以有效提高融合基因的檢出率和正確性。
2、一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法,具體步驟如下:
3、步驟s1:獲取高通量測序數(shù)據(jù),對測序數(shù)據(jù)進行質(zhì)控過濾,獲取過濾后的測序數(shù)據(jù);
4、步驟s2:將過濾后的測序數(shù)據(jù)與參考基因組進行比對,獲取比對文件;
5、步驟s3:根據(jù)比對文件篩選異常比對序列,并對異常比對序列進行匹配,得到候選融合序列片段及候選融合基因;
6、步驟s4:根據(jù)每個候選融合基因統(tǒng)計融合信息;
7、步驟s5:根據(jù)融合信息進行融合事件篩選,得到潛在融合基因?qū)Γ?/p>
8、步驟s6:計算融合基因?qū)Φ娜诤现眯哦龋?/p>
9、步驟s7:根據(jù)融合置信度判斷是否為真陽性融合基因,并輸出結(jié)果。
10、作為優(yōu)選,步驟s1所述的質(zhì)控過濾包括:過濾低質(zhì)量的測序數(shù)據(jù)和接頭序列信息。
11、作為優(yōu)選,步驟s3所述異常比對序列的情況包括:情況1:雙端測序中讀長的其中一部分比對到參考基因組的位置1上,另一部分比對到參考基因組的位置2上;情況2:雙端測序中讀長1比對到參考基因組上,讀長2比對到其他參考基因組上;情況3:雙端測序中,讀長1和讀長2分別比對到相同的參考基因組上,但讀長對的比對方向相同。
12、作為優(yōu)選,步驟s3所述的篩選原則包括:(1)若雙端測序中的讀長對質(zhì)量不符合質(zhì)控要求,則刪除該異常比對序列信息;(2)若雙端測序中讀長對中至少有一條屬于duplicates,則刪除該異常比對序列信息;(3)若雙端測序中讀長對屬于異常比對序列的情況1,則刪除比對部分較短的異常比對序列信息;(4)若雙端測序中的讀長對分別比對到參考基因的不同位置上,若位置距離小于過濾閾值1,則刪除該異常比對序列信息。
13、作為優(yōu)選,步驟s4所述的候選融合基因統(tǒng)計步驟為:根據(jù)候選融合基因從比對文件選擇出所有比對到該基因上的測序數(shù)據(jù),并根據(jù)該候選基因上的測序數(shù)據(jù)進行統(tǒng)計,統(tǒng)計信息包括:候選基因的平均測序深度、基因覆蓋度、融合斷點數(shù)、對應融合斷點的測序深度、完全匹配數(shù)和異常比對數(shù)。
14、其中,融合斷點數(shù)指該基因檢測到的異常比對序列中包含斷點信息的數(shù)量,該信息包括對應基因及其斷點數(shù)量,用數(shù)組表示:<對應基因,斷點數(shù)量>;完全匹配數(shù)是指不屬于異常比對序列且比對到該基因的數(shù)量;異常比對數(shù)為比對到該基因的異常比對序列數(shù)量。
15、作為優(yōu)選,步驟s5中當候選基因的基因覆蓋度或者平均測序深度低于基因覆蓋度閾值1和平均測序深度閾值1,則認為該候選基因測序存在假陽性的情況,移除該候選融合基因;當候選基因的基因覆蓋度和平均測序深度均高于基因覆蓋度閾值1和平均測序深度閾值1,則認為該候選融合候選基因可以進入候選基因?qū)Φ暮Y選步驟。
16、作為優(yōu)選,所述基因覆蓋度閾值1為所有基因的覆蓋度平均值,平均測序深度閾值1為所有基因的測序深度的平均值。
17、其中,候選基因?qū)Φ暮Y選步驟包括:
18、(1)獲取融合候選基因a的平均測序深度、基因覆蓋度、融合斷點數(shù)、對應融合斷點的測序深度、完全匹配數(shù)和異常比對數(shù);
19、(2)根據(jù)融合候選基因a的斷點數(shù)進行t檢驗,判斷是否存在顯著差異,若存在顯著差異,則根據(jù)斷點數(shù)量選擇排名第一的基因作為疑似的候選基因b,若不存在顯著差異,則將排名前3的基因座位為疑似候選基因b;
20、(3)獲取候選基因b的融合斷點數(shù)參數(shù)信息并進行排序,若候選基因b中與融合候選基因a的融合斷點數(shù)高于斷點閾值,則選擇候選基因a與候選基因b為候選基因?qū)Γ?/p>
21、(4)若候選基因b中與融合候選基因a的融合斷點數(shù)排名低于斷點閾值,且候選基因b中的斷點數(shù)經(jīng)過t檢驗后存在顯著差異,則過濾該候選基因a和候選基因b為融合基因?qū)Γ?/p>
22、(5)若候選基因b中與融合候選基因a的融合斷點數(shù)排名低于斷點閾值,且候選基因b中的斷點數(shù)經(jīng)過t檢驗后不存在顯著差異,則選擇該候選基因a和候選基因b為融合基因?qū)Γ?/p>
23、(6)若候選基因b中不存在融合斷點數(shù)量,則判斷該基因的測序深度和基因覆蓋度,若測序深度和基因覆蓋度達到可報出標準,則認為候選基因a與候選基因b不是融合基因?qū)Γ?/p>
24、(7)若候選基因b中不存在融合斷點數(shù)量,則判斷該基因的測序深度和基因覆蓋度,若測序深度和基因覆蓋度未達到可報出標準,則認為可能是由于測序不全導致的融合斷點未檢出,認為候選基因a與候選基因b是融合基因?qū)Α?/p>
25、作為優(yōu)選,步驟s6中融合置信度計算公式為:
26、
27、作為優(yōu)選,步驟s7中的判斷規(guī)則為:若融合置信度≥置信度閾值1,則認為該融合基因?qū)檎鎸嵉娜诤蠑帱c;若置信度閾值1<融合置信度≤置信度閾值2,認為該融合基因為潛在的融合斷點;若置信度<置信度閾值3,則認為該融合基因為假的融合斷點。
28、作為優(yōu)選,步驟s7中的輸出結(jié)果包括:融合基因名稱、斷點位置、融合深度、融合類型、融合置信度。
29、與現(xiàn)有技術相比,本發(fā)明的有益效果為:
30、(1)本發(fā)明通過將測序數(shù)據(jù)與參考基因組進行比對篩選,不依靠已知的融合基因信息,可以有效獲取未知的融合基因;
31、(2)本發(fā)明利用測序深度和基因覆蓋度雙重特征檢驗該基因的檢測可信度,可以有效過濾因低質(zhì)量測序結(jié)果導致的融合基因檢出假陽性;
32、(3)本發(fā)明對兩個融合基因的比對信息進行雙重檢驗,增加檢出融合基因?qū)Φ目尚哦群蜏蚀_率。
1.一種用于檢測高通量測序數(shù)據(jù)中融合基因的方法,其特征在于,步驟包括:
2.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法,其特征在于,步驟s3所述的異常比對序列的情況包括:情況1:雙端測序中讀長的一部分比對到參考基因組的位置1上,另一部分比對到參考基因組的位置2上;情況2:端測序中讀長1比對到參考基因組上,讀長2比對到其他參考基因組上;情況3:雙端測序中,讀長1和讀長2分別比對到相同的參考基因組上,但讀長對的比對方向相同。
3.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法,其特征在于,步驟s3所述的篩選原則為:(1)若雙端測序中的讀長對質(zhì)量不符合質(zhì)控要求,則刪除該異常比對序列;(2)若雙端測序中讀長對中至少有一條屬于duplicates,則刪除該異常比對序列;(3)若雙端測序中讀長對屬于異常比對序列的情況1,則刪除比對部分較短的異常比對序列信息;(4)若雙端測序的讀長對分別比對到參考基因的不同位置上,若位置距離小于過濾閾值1,則刪除該異常比對序列信息。
4.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法,其特征在于,步驟s4所述的候選融合基因統(tǒng)計步驟為:根據(jù)比對文件選擇所有比對到該候選融合基因的測序數(shù)據(jù),并根據(jù)候選融合基因上的測序數(shù)據(jù)進行統(tǒng)計;
5.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法,其特征在于,步驟s5中當候選基因的基因覆蓋度或者平均測序深度低于基因覆蓋度閾值1和平均測序深度閾值1,則認為該候選基因測序存在假陽性的情況,移除該候選融合基因;當候選基因的基因覆蓋度和平均測序深度均高于基因覆蓋度閾值1和平均測序深度閾值1,則認為該候選融合候選基因達到可報出標準,可以進入候選基因?qū)Φ暮Y選步驟;其中,基因覆蓋度閾值1為所有基因的覆蓋度平均值,平均測序深度閾值1為所有基因的測序深度的平均值。
6.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法,其特征在于,步驟s5所述的融合事件篩選規(guī)則為:
7.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法,其特征在于,步驟s6所述的融合置信度根據(jù)融合置信度計算公式進行計算,計算公式為:
8.根據(jù)權利要求1的檢測高通量測序數(shù)據(jù)中融合基因的方法,其特征在于,步驟s7所述的判斷融合置信度判斷規(guī)則為:若融合置信度≥置信度閾值1,則認為該融合基因?qū)檎鎸嵉娜诤蠑帱c;若置信度閾值1<融合置信度≤置信度閾值2,認為該融合基因為潛在的融合斷點;若置信度<置信度閾值3,則認為該融合基因為假的融合斷點。