癌癥體細(xì)胞突變基因測序數(shù)據(jù)分析工作流整合算法
【專利摘要】本發(fā)明涉及一種,癌癥體細(xì)胞突變基因測序數(shù)據(jù)分析工作流整合算法,包括如下步驟:(1)測序數(shù)據(jù)比對使用cushaw算法;(2)SNP鑒定使用samtools算法;(3)癌癥體細(xì)胞突變鑒定使用VarScan算法。
【專利說明】癌癥體細(xì)胞突變基因測序數(shù)據(jù)分析工作流整合算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及生物醫(yī)學(xué)數(shù)據(jù)分析領(lǐng)域,具體而言,涉及一種癌癥體細(xì)胞突變基因測序數(shù)據(jù)分析工作流整合算法。
【背景技術(shù)】
[0002]基因是遺傳的物質(zhì)基礎(chǔ)。生物體的生老病死等一切生命現(xiàn)象都與基因有關(guān)?;驕y序是解讀生命的一種途徑,隨著第二代及第三代高通量測序技術(shù)的發(fā)展,測序結(jié)果往往是丁8級別甚至更大的的序列數(shù)據(jù)。合理分析解讀這些大規(guī)模及高維度的數(shù)據(jù)成為獲取數(shù)據(jù)后一個(gè)更大的難點(diǎn),是當(dāng)前生物研究的關(guān)鍵步驟,具有巨大的現(xiàn)實(shí)意義。
[0003]海量高通量測序數(shù)據(jù)的存儲(chǔ)、處理和分析都極大地挑戰(zhàn)著當(dāng)前的計(jì)算機(jī)系統(tǒng)和計(jì)算模式?,F(xiàn)有的系統(tǒng)面臨運(yùn)算量不夠,人工干預(yù)可靠度較低,云架構(gòu)對底層硬件控制力較低及用戶隱私擔(dān)憂等問題。
[0004]現(xiàn)有的大數(shù)據(jù)測序信息對數(shù)據(jù)分析工具的挑戰(zhàn)需要存儲(chǔ)、管理、傳輸、調(diào)度和計(jì)算分析優(yōu)化的全面協(xié)調(diào),需要生物領(lǐng)域、計(jì)算機(jī)領(lǐng)域、數(shù)據(jù)統(tǒng)計(jì)分析等多方密切配合,尤其在分析工具的整合方面,現(xiàn)有的數(shù)據(jù)分析軟件存在整合度低,對不同來源的數(shù)據(jù)匹配較差,準(zhǔn)確度和重復(fù)性不高,效率低下等多種問題。
[0005]在腫瘤檢測和早期診斷中,癌癥體細(xì)胞突變是測序檢測所重點(diǎn)關(guān)注的問題,這要求能夠盡量高效而準(zhǔn)確的分析測序原始數(shù)據(jù),但是現(xiàn)有的算法往往只關(guān)注與測序數(shù)據(jù)分析的單一的環(huán)節(jié),而每個(gè)步驟中過于繁雜的分析軟件的選擇范圍,也給由測序原始數(shù)據(jù)得出診斷結(jié)果增加了障礙,
[0006]例如,在測序數(shù)據(jù)比對環(huán)節(jié),常用的算法包括13冊,130被16,0118118^, 13211*1^(311(121,運(yùn)算速度不同,適配的基礎(chǔ)硬件也不同,其中01181121?為高性能運(yùn)算卡專門設(shè)計(jì),可以達(dá)到并行計(jì)算進(jìn)行加速的目的,而冊,130^16,雖然不具備并行計(jì)算功能,但能夠適配的底層數(shù)據(jù)和計(jì)算硬件則相對較為寬泛。
[0007]而在在3冊鑒定(主要實(shí)現(xiàn)將測序結(jié)果比對到基因組上并鑒定出相關(guān)突變的功能)環(huán)節(jié),常用軟件主要包括如£111等,這些軟件有的偏重準(zhǔn)確性,有的偏重效率。
[0008]在癌癥體細(xì)胞突變(主要通過比較同一病人正常和癌癥組織,并由此鑒定出癌癥中發(fā)生的體細(xì)胞突變)鑒定過程中,主要軟件包括:
V犯'31等算法,有的偏重于檢測準(zhǔn)確度高,有的普適性數(shù)據(jù)兼容性,有的輸入輸出標(biāo)準(zhǔn)相對簡單。
[0009]因此,需要一種癌癥體細(xì)胞突變基因測序數(shù)據(jù)分析工作流整合算法,在一定程度上將上述算法優(yōu)化整合,以達(dá)到準(zhǔn)確而高效的檢測癌癥體細(xì)胞突變基因的目的。
【發(fā)明內(nèi)容】
[0010]本發(fā)明的目的是提供一種癌癥體細(xì)胞突變基因測序數(shù)據(jù)分析工作流整合算法。
[0011]所述的癌癥體細(xì)胞突變基因測序數(shù)據(jù)來源于1111111111121公司的11186(1系列的測序儀,或是公司的及系列測序儀,測序數(shù)據(jù)級別為碰3?(?大小,基礎(chǔ)長度10?1000如,數(shù)據(jù)格式為飩或3??格式。
[0012]所述的癌癥體細(xì)胞突變基因測序分析數(shù)據(jù)工作流示意流程如附圖1,
[0013]所述的癌癥體細(xì)胞突變基因測序分析數(shù)據(jù)工作流整合算法包括如下步驟:
[0014](1)將測序數(shù)據(jù)比對到參考基因組序列,使用⑶也冊算法,使用科學(xué)運(yùn)算流處理器加速后,數(shù)據(jù)比對速度提高至其他軟件的10-100倍;
[0015](2)?^鑒定,使用8211111:0018算法,兼容多種數(shù)據(jù)格式,準(zhǔn)確度高,定位快速;
[0016](3)癌癥體細(xì)胞突變鑒定,使用算法,兼容數(shù)據(jù)種類多,準(zhǔn)確度高,輸入輸出符合公開標(biāo)準(zhǔn);
[0017]經(jīng)過上述工作流整合方法,能夠快速的通過比較同一病人正常和癌癥組織測序結(jié)果,從而鑒定出癌癥中發(fā)生的體細(xì)胞突變。
[0018]所述的工作流整合算法為算法,利用的高速浮點(diǎn)計(jì)算和并行特性,可以大幅提高算法的運(yùn)算速度,達(dá)到硬件加速的效果。
[0019]所述的工作流整合算法中,進(jìn)一步設(shè)計(jì)匹配了使用加速的軟件,通過硬件加速提高了工作流效率。
[0020]本發(fā)明的優(yōu)點(diǎn)在于:該算法整合了測序數(shù)據(jù)分析的完整工作流,能夠免去數(shù)據(jù)分析使用者自行篩選并優(yōu)化特定程序/程序集的步驟,同時(shí)優(yōu)化整合后的算法在運(yùn)算效率上大為提高,能夠更為迅速的反饋測序數(shù)據(jù)分析結(jié)果。
【專利附圖】
【附圖說明】
[0021]圖1.癌癥體細(xì)胞突變基因測序分析數(shù)據(jù)工作流示意流程圖。
【具體實(shí)施方式】
[0022]下面結(jié)合具體實(shí)施例對本發(fā)明作進(jìn)一步說明,但不應(yīng)以此限制本發(fā)明的保護(hù)范圍。
[0023]原始數(shù)據(jù)來源于111111111的11186^ 2000,數(shù)據(jù)格式為1^181:0,讀長為100如。
[0024]通過工作流分析,
[0025](1)測序比對結(jié)果輸出:其中正常組織數(shù)據(jù)總數(shù)為233988條記錄,222290條(95.3% )比對到基因組中,癌癥組織數(shù)據(jù)總數(shù)為200549條,188516條(94% )比對到基因組上,
[0026](2)使用 8肅1:0018 鑒定 ;
[0027](3)通過比較正常組合和腫瘤組織的差異位點(diǎn),鑒定為腫瘤組織特有的位點(diǎn)12個(gè)。
[0028]該工作流整體運(yùn)算時(shí)間為958。
【權(quán)利要求】
1.癌癥體細(xì)胞突變基因測序分析數(shù)據(jù)工作流整合算法,其特征在于,包括如下步驟: (1)將測序數(shù)據(jù)比對到參考基因組序列,使用bwa算法,使用科學(xué)運(yùn)算流處理器加速后,數(shù)據(jù)比對速度提高至其他軟件的10-100倍; (2)SNP鑒定,使用samtools算法,兼容多種數(shù)據(jù)格式,準(zhǔn)確度高,定位快速; (3)癌癥體細(xì)胞突變鑒定,使用VarScan算法,兼容數(shù)據(jù)種類多,準(zhǔn)確度高,輸入輸出符合公開標(biāo)準(zhǔn)。
2.根據(jù)權(quán)利要求1所述癌癥體細(xì)胞突變基因測序分析數(shù)據(jù)工作流整合算法,其特征在于,所述的工作流整合算法為GPU算法,利用GPU的高速浮點(diǎn)計(jì)算和并行特性達(dá)到硬件加速的效果。
3.根據(jù)權(quán)利要求1所述癌癥體細(xì)胞突變基因測序分析數(shù)據(jù)工作流整合算法,其特征在于,所述的工作流整合算法中,進(jìn)一步包含使用GPU加速的軟件。
【文檔編號】G06F19/00GK104408284SQ201410571652
【公開日】2015年3月11日 申請日期:2014年10月24日 優(yōu)先權(quán)日:2014年10月24日
【發(fā)明者】吳翀, 王瑜, 閆威 申請人:北京微旋基因技術(shù)有限公司