一種基因組酶切圖譜拼接方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明設及分子生物學領域的基因組序列拼接領域,尤其設及一種基因組酶切圖 譜拼接方法及系統(tǒng)。
【背景技術】
[0002] 基因組包含生物體最基本的遺傳信息,該些信息決定物種生物學特征、指導生命 機能運作W及發(fā)育過程;并指導細胞內的重要化合物的合成(如蛋白質、RNA等)。
[0003] 基因組序列是由脫氧核糖核巧酸(腺嚷嶺A、鳥嚷嶺G、胸腺喀晚T、胞喀晚C)按一 定順序彼此用3' -5' -磯酸二醋鍵相連而成的雙螺旋結構。所謂基因組測序,即是指獲得 基因組的脫氧核糖核巧酸的序列信息。隨著基因組測序技術的發(fā)展,越來越多物種的基因 組已經完成測定。
[0004] 基因組測序技術的發(fā)展經歷了 Sanger測序、第二代測序技術和第S代測序技 術。第二代測序技術W其高通量、低成本的特點,逐漸成為主流的測序技術,然而,無論是 Sanger測序,還是第二代測序技術,其測序長度均比較有限,難W跨過基因組中存在的一些 較長的repeat (重復序列),此處的"repeat"指的是在基因組上出現次數大于一次的序列, repeat的存在導致通過二代測序數據拼接很難直接恢復出完整的基因組,然而諸如結構體 變異檢測等方面的研究,依賴于基因組的完整序列信息,因此對測序技術提出了更高的要 求。
[0005] 基因組酶切圖譜技術能夠獲得很好的彌補二代測序數據較短的問題,酶切圖譜技 術得到序列中的酶切位點之間的距離信息,其測序序列大跨度的特點有助于解決二代測序 數據中長repeat的影響。
[0006] 基因組酶切圖譜技術能夠反映基因組上較大范圍內的酶切位點位置信息,W基因 組圖譜為指導,不僅可W提高二代拼接結果的連續(xù)性和準確度,同時對后續(xù)研究提供更加 準確的序列結構信息。
[0007] 迄今為止,已經發(fā)展了多種酶切圖譜測序技術,比如基于光學映像(optical map) 的圖譜技術,該技術的主要步驟是將大量DM片段拉伸并固定在玻璃板上,然后利用限制 性內切酶進行原位酶切,從而得到酶切位點信息;基于微流體溶液的酶切圖譜技術,該技術 的主要步驟是將帶巧光標記的分子短暫地通過一個微米隧道并利用傳感器檢測巧光團,從 而得到酶切位點的位置。由于測序通量較低或者測序過程中的成像分辨率較低,上述兩種 技術并沒有得到廣泛的應用,目前,納米單分子測序是一種高通量、高準確度的基因組圖譜 技術(圖1為BioNano公司開發(fā)的Irys測序平臺),相較于前兩種圖譜技術,納米單分子測 序的準確度W及成像分辨率均有所提高,其測序的基本過程為;首先將DNA分子解螺旋形 成單鏈,切斷為單鏈DNA片段,片段的長度范圍高達幾百肺P,接著使單鏈分子線性地通過 納米孔道,與帶巧光標記的探針雜交(探針被設計成只與酶切位點做特異性雜交);最后根 據巧光成像即可識別出酶切位點,從而得到分子的酶切位點的位置信息。
[000引 目前針對酶切圖譜技術的應用主要體現在兩個方面;(1)直接利用酶切圖譜 分子指導二代數據的拼接?;痝arajan,N., T. D. Read, and M.化p, Scaffolding and validation of bacterial genome assemblies using optical restriction maps. Bi oin化rmatics, 2008. 24(10) :p. 1229-35. -文利用酶切圖譜分子指導二代測序數據拼接 中的 scaffolding 步驟;(2)酶切圖譜分子的拼接。Anantharaman, T. S. ,B. Mis虹a, and D.C.Schwartz, Genomics via optical mapping. 11:Ordered restriction maps. J Comput Biol, 1997. 4(2) :p. 91-118. -文中采用貝葉斯方法預測位點出現的概率模型,進 行圖譜分子的拼接,該方法存在的不足主要包括如何設置Bayes模型的先驗和計算復雜 度高。Anantharaman, T. , B. Mishra, and D. Schwartz, Genomics via optical mapping. Ill :Contiging genomic DM. Proc Int Conf Intell Syst Mol Biol, 1999:p. 18-27.義用 序列聯(lián)配的思想構建酶切位點圖譜,該算法存在的不足;(1)尋找最優(yōu)的序列聯(lián)配非常耗 時,似通過引入了一些啟發(fā)式的策略W降低時間復雜度,但損失了精度。
【發(fā)明內容】
[0009] 針對現有技術的不足,本發(fā)明提出一種基因組酶切圖譜拼接方法及系統(tǒng)。
[0010] 本發(fā)明提出一種基因組酶切圖譜拼接方法,包括:
[0011] 步驟1,對所述基因組酶切圖譜中基因序列分子進行預處理操作,獲取新基因序列 分子,將所述新基因序列分子切成FLES片段,其中所述FLES片段為片段總長固定且無需具 有相同酶切位點數目的基因片段;
[0012] 步驟2,對所述FLES片段進行聚類,生成代表FLES集合,根據所述代表FLES集合 對所述基因序列分子進行糾錯;
[0013] 步驟3,根據所述代表FLES集合與糾錯后的所述基因序列分子,構建FLES圖,對所 述FLES圖進行路徑捜索,獲取所述FLES圖的漢密爾頓路徑為所述基因組的酶切位點序列, W完成基因組酶切圖譜拼接。
[0014] 所述的基因組酶切圖譜拼接方法,所述步驟1中所述預處理操作包括:刪除所述 基因序列分子兩端的酶切位點;
[0015] 近似處理酶切位點位置,其中將所述基因序列分子的酶切位點位置W化bp為單 位近似處理;
[0016] 標記所述基因序列分子相鄰酶切位點的間距,獲得酶切位點模式;
[0017] 對所述基因序列分子進行逆置操作。
[001引所述的基因組酶切圖譜拼接方法,所述步驟2還包括FLES片段的聯(lián)配規(guī)則:
[0019] 獲取測序深度Depth,其中根據所述酶切位點的基因序列分子的數目進行估計:
[0020]
[002U 其中,L為相鄰酶切位點的平均距離;
[0022] 獲取遺失率Miss Rate ;
[0023] 獲取編輯距離值istance),公式為:
[0024] Match =0,Insertion = -1,Deletion = -1. Mismatch = +
[0025] 其中Match表示位點的距離不超過化bp,否則視為Mismatch,編輯距離Distance 的闊值為:T二f#site * 0.1日1;
[0026] 聚類的標準為:
[0027]
[002引其中,Ti與T 2為兩個FLES片段長度比值的闊值,當兩個FLES片段長度比值介于 T1和T2之間,其相似度distance小于預設參數T時,S(FLESi,FLES2)取值為1。
[0029] 所述的基因組酶切圖譜拼接方法,所述步驟2中聚類的步驟包括:
[0030] 將所有所述FLES片段按照所述聯(lián)配規(guī)則進行聯(lián)配;
[0031] 根據BIC準則選擇每一類的最優(yōu)聚類方式,根據所述Depth值確定類別數;
[0032] 生成所有類的代表FLES集合;
[0033] 根據所述代表FLES的集合,對基因序列分子進行糾錯。
[0034] 所述的基因組酶切圖譜拼接方法,生成所述代表FLES集合的方法包括:選擇類中 連接數最多的點作為所述代表FLES集合;根據類中的所述FLES片段相互校正來恢復遺失 酶切位點,得到未遺失酶切位點的所述FLES片段作為所述代表FELS集合。
[0035] 所述的基因組酶切圖譜拼接方法,所述步驟3中構建FLES圖包括:所述FLES圖 中,每個節(jié)點代表一個FLES片段,每一條邊表示兩個FLES片段中其中一個的前綴與另一個 后綴具有相同的位點模式或兩FLES片段位于同一基因序列分子上。
[0036] 所述的基因組酶切圖譜拼接方法,所述步驟3中通過公式對所述FLES圖進行路徑 捜索:
[0037]
[003引 S. t. Xi_x廣e U;
[0039] Xi-yk-d 化《丫山
[0040] 其中,E表示FLES圖的邊的集合,M為基因序列分子集合,x,y分別表示FLES片段 與基因序列分子在基因組上的真實位置,其中FLESi片段,FLES j.片段之間的距離為dy,dik 表示FLESi片段在基因序列分子m k上的偏移距離;丫 ik表示第i個FLES片段與第k個基因 序列分子之間真實距離與估計值之間的誤差;e U表示第i個FLES片段與第j個FLES片 段之間真實距離與估計值之間的誤差;
[0041] 本發(fā)明還提出一種基因組酶切圖譜拼接系統(tǒng),包括:
[0042] 預處理模塊,用于對所述基因組酶切圖譜中基因序列分子進行預處理操作,獲取 新基因序列分子,將所述新基因序列分子切成FLES片段,其中所述FLES片段為片段總長固 定且無需具有相同酶切位點數目的基因片段;
[0043] 聚類模塊,用于對所述FLES片段進行聚類,生成代表FLES集合,根據所述代表 FLES集合對所述基因序列分子進行糾錯;
[0044] 拼接模塊,用于根據所述代表FLES集合與糾錯后的所述基因序列分子,構建FLES 圖,對所述FLES圖進行路徑捜索,獲取所述FLES圖的漢密爾頓路徑為所述基因組的酶切位 點序列,W完成基因組酶切圖譜拼接。
[0045] 所述的基因組酶切圖譜拼接系統(tǒng),所述預處理模塊還包括;刪除所述基因序列分 子兩端的酶切位點;
[0046] 近似處理酶切位點位置,其中將所述基因序列分子的酶切位點位置W化bp為單 位近似處理;