h = 0, Insertion = -1,Deletion = -1. Mismatch = +
[012U 其中Match表示位點(diǎn)的距離不超過(guò)化bp,否則視為Mismatch,編輯距離Distance 的闊值為:T= [#sil:e*0.1 呂1;
[012引聚類的標(biāo)準(zhǔn)為:
[0123]
[0124] 其中,Ti與T2為兩個(gè)FLES片段長(zhǎng)度比值的闊值,當(dāng)兩個(gè)FLES片段長(zhǎng)度比值介于 T1和T2之間,其相似度distance小于預(yù)設(shè)參數(shù)T時(shí),S(FLESi,FLES2)取值為1。
[01巧]W下為本發(fā)明的一實(shí)施例,如下所示:
[01%] 實(shí)驗(yàn)數(shù)據(jù)集是Irys酶切圖譜測(cè)序系統(tǒng)下的大腸桿菌K12菌株Escherichia coli str. K-12 substr. MG1655的酶切圖譜數(shù)據(jù),共有7322條分子,其采用的酶切位點(diǎn)序列為 "GCTCTTC",其長(zhǎng)度分布如圖9。
[0127] 實(shí)驗(yàn)結(jié)果;
[0128] 通過(guò)對(duì)上述E. coli使用本發(fā)明中的方法進(jìn)行拼接,得到了酶切位點(diǎn)結(jié)果序列。如 表1所不。
[0129] 通常情況下,酶切圖譜拼接的結(jié)果主要是從聚類的準(zhǔn)確度和拼接結(jié)果的長(zhǎng)度兩個(gè) 方面來(lái)衡量。在本發(fā)明中,聚類的準(zhǔn)確度主要是由聚類之后的代表FLES覆蓋整個(gè)基因組的 位點(diǎn)序列的百分比來(lái)表征;拼接結(jié)果的長(zhǎng)度由得到的酶切位點(diǎn)序列的N50來(lái)表征。
[0130] 如表1所示,本發(fā)明在聚類之后的代表FLES僅僅遺漏了基因組上的大約10個(gè)位 點(diǎn),F(xiàn)LES的計(jì)算規(guī)??s小了近10倍,使用多線程并行計(jì)算平臺(tái)(24個(gè)線程)計(jì)算時(shí)間約為 1000s。另一方面,得到的酶切位點(diǎn)序列的N50為592肺P。
[0131] 表 1
[0132]
[0133] 注;表中的be化re, after分別表示聚類前后的FLES集合。
[0134] 真實(shí)的E. coli基因組序列共有683個(gè)酶切位點(diǎn)。
[01巧]#moleule輸入分子的數(shù)目
[0136] N50表示長(zhǎng)度大于N50的所有分子的和至少占整個(gè)基因組的50%。
[0137] W下為結(jié)果分析,如下所示:
[0138] 本發(fā)明提出的新型數(shù)據(jù)結(jié)構(gòu)FLES圖適用于酶切圖譜數(shù)據(jù),采用的全局優(yōu)化策略 可W對(duì)酶切圖譜數(shù)據(jù)進(jìn)行有效的拼接。
[0139] 通過(guò)上述表格中的FLES聚類前后的遺失位點(diǎn)數(shù)目可知,本發(fā)明在不損失準(zhǔn)確度 的前提下大大降低了計(jì)算時(shí)間。
[0140] 表2示出了目前的幾種常見(jiàn)的二代測(cè)序數(shù)據(jù)的拼接軟件對(duì)E. coli的拼接結(jié)果。由 表可知,僅利用二代數(shù)據(jù)的拼接結(jié)果最長(zhǎng)為313肺P。表1中的nanoARCS的拼接長(zhǎng)度確實(shí) 遠(yuǎn)遠(yuǎn)大于二代數(shù)據(jù)的拼接結(jié)果,因此酶切位點(diǎn)圖譜的拼接可W用于延伸二代數(shù)據(jù)的拼接結(jié) 果,從而提高序列的連續(xù)性。
[0141] 表 2
[0142]
[0143] 注;表中contig表示連續(xù)堿基序列。
[0144] ScafTold表示中間存在缺失序列的連續(xù)堿基序列。
[0145] N50表示長(zhǎng)度大于N50的所有分子的和至少占整個(gè)基因組的50%。N90類似。
【主權(quán)項(xiàng)】
1. 一種基因組酶切圖譜拼接方法,其特征在于,包括: 步驟1,對(duì)所述基因組酶切圖譜中基因序列分子進(jìn)行預(yù)處理操作,獲取新基因序列分 子,將所述新基因序列分子切成FLES片段,其中所述FLES片段為片段總長(zhǎng)固定且無(wú)需具有 相同酶切位點(diǎn)數(shù)目的基因片段; 步驟2,對(duì)所述FLES片段進(jìn)行聚類,生成代表FLES集合,根據(jù)所述代表FLES集合對(duì)所 述基因序列分子進(jìn)行糾錯(cuò); 步驟3,根據(jù)所述代表FLES集合與糾錯(cuò)后的所述基因序列分子,構(gòu)建FLES圖,對(duì)所述FLES圖進(jìn)行路徑搜索,獲取所述FLES圖的漢密爾頓路徑為所述基因組的酶切位點(diǎn)序列,以 完成基因組酶切圖譜拼接。2. 如權(quán)利要求1所述的基因組酶切圖譜拼接方法,其特征在于,所述步驟1中所述預(yù)處 理操作包括:刪除所述基因序列分子兩端的酶切位點(diǎn); 近似處理酶切位點(diǎn)位置,其中將所述基因序列分子的酶切位點(diǎn)位置以lKbp為單位近 似處理; 標(biāo)記所述基因序列分子相鄰酶切位點(diǎn)的間距,獲得酶切位點(diǎn)模式; 對(duì)所述基因序列分子進(jìn)行逆置操作。3. 如權(quán)利要求1所述的基因組酶切圖譜拼接方法,其特征在于,所述步驟2還包括 FLES片段的聯(lián)配規(guī)則: 獲取測(cè)序深度D印th,其中根據(jù)所述酶切位點(diǎn)的基因序列分子的數(shù)目進(jìn)行估計(jì):其中,L為相鄰酶切位點(diǎn)的平均距離; 獲取遺失率MissRate; 獲取編輯距離(Distance),公式為: Match= 0,Insertion= -1,Deletion= -1.Mismatch= + 〇〇 其中Match表示位點(diǎn)的距離不超過(guò)lKbp,否則視為Mismatch,編輯距離Distance的閾 值為:T= [#site*0. 15]; 聚類的標(biāo)準(zhǔn)為:其中,1\與T2為兩個(gè)FLES片段長(zhǎng)度比值的閾值,當(dāng)兩個(gè)FLES片段長(zhǎng)度比值介于T1和T2之間,其相似度distance小于預(yù)設(shè)參數(shù)T時(shí),S(FLESi,F(xiàn)LES2)取值為1。4. 如權(quán)利要求3所述的基因組酶切圖譜拼接方法,其特征在于,所述步驟2中聚類的步 驟包括: 將所有所述FLES片段按照所述聯(lián)配規(guī)則進(jìn)行聯(lián)配; 根據(jù)BIC準(zhǔn)則選擇每一類的最優(yōu)聚類方式,根據(jù)所述D印th值確定類別數(shù); 生成所有類的代表FLES集合; 根據(jù)所述代表FLES的集合,對(duì)基因序列分子進(jìn)行糾錯(cuò)。5. 如權(quán)利要求4所述的基因組酶切圖譜拼接方法,其特征在于,生成所述代表FLES集 合的方法包括:選擇類中連接數(shù)最多的點(diǎn)作為所述代表FLES集合;根據(jù)類中的所述FLES 片段相互校正來(lái)恢復(fù)遺失酶切位點(diǎn),得到未遺失酶切位點(diǎn)的所述FLES片段作為所述代表 FELS集合。6. 如權(quán)利要求1所述的基因組酶切圖譜拼接方法,其特征在于,所述步驟3中構(gòu)建 FLES圖包括:所述FLES圖中,每個(gè)節(jié)點(diǎn)代表一個(gè)FLES片段,每一條邊表示兩個(gè)FLES片段 中其中一個(gè)的前綴與另一個(gè)后綴具有相同的位點(diǎn)模式或兩FLES片段位于同一基因序列分 子上。7. 如權(quán)利要求1所述的基因組酶切圖譜拼接方法,其特征在于,所述步驟3中通過(guò)公式 對(duì)所述FLES圖進(jìn)行路徑搜索:S.t.X廠eij; xi_yk_dik^yik; 其中,E表示FLES圖的邊的集合,M為基因序列分子集合,x,y分別表示FLES片段與基 因序列分子在基因組上的真實(shí)位置,其中FLESi片段,F(xiàn)LES』片段之間的距離為dmdik表示 FLESi片段在基因序列分子mk上的偏移距離;yik表示第i個(gè)FLES片段與第k個(gè)基因序列 分子之間真實(shí)距離與估計(jì)值之間的誤差;eu表示第i個(gè)FLES片段與第j個(gè)FLES片段之 間真實(shí)距離與估計(jì)值之間的誤差。8. -種基因組酶切圖譜拼接系統(tǒng),其特征在于,包括: 預(yù)處理模塊,用于對(duì)所述基因組酶切圖譜中基因序列分子進(jìn)行預(yù)處理操作,獲取新基 因序列分子,將所述新基因序列分子切成FLES片段,其中所述FLES片段為片段總長(zhǎng)固定且 無(wú)需具有相同酶切位點(diǎn)數(shù)目的基因片段; 聚類模塊,用于對(duì)所述FLES片段進(jìn)行聚類,生成代表FLES集合,根據(jù)所述代表FLES集 合對(duì)所述基因序列分子進(jìn)行糾錯(cuò); 拼接模塊,用于根據(jù)所述代表FLES集合與糾錯(cuò)后的所述基因序列分子,構(gòu)建FLES圖, 對(duì)所述FLES圖進(jìn)行路徑搜索,獲取所述FLES圖的漢密爾頓路徑為所述基因組的酶切位點(diǎn) 序列,以完成基因組酶切圖譜拼接。9. 如權(quán)利要求8所述的基因組酶切圖譜拼接系統(tǒng),其特征在于,所述預(yù)處理模塊還包 括:刪除所述基因序列分子兩端的酶切位點(diǎn); 近似處理酶切位點(diǎn)位置,其中將所述基因序列分子的酶切位點(diǎn)位置以lKbp為單位近 似處理; 標(biāo)記所述基因序列分子相鄰酶切位點(diǎn)的間距,獲得酶切位點(diǎn)模式; 對(duì)所述基因序列分子進(jìn)行逆置操作。10. 如權(quán)利要求8所述的基因組酶切圖譜拼接系統(tǒng),其特征在于,所述聚類模塊還包括 通過(guò)聯(lián)配規(guī)則對(duì)所述FLES片段進(jìn)行聯(lián)配:獲取測(cè)序深度D印th,其中根據(jù)所述酶切位點(diǎn)的 基因序列分子的數(shù)目進(jìn)行估計(jì): CN104951673A _權(quán)利要求書(shū)_ _3/3頁(yè)其中,L為相鄰酶切位點(diǎn)的平均距離;獲取遺失率MissRate; 獲取編輯距離(Distance),公式為: Match= 0,Insertion= -1,Deletion= -1.Mismatch= + 〇〇 其中Match表示位點(diǎn)的距離不超過(guò)lKbp,否則視為Mismatch,編輯距離Distance的閾 值為:T= [#site*0. 15]; 聚類的標(biāo)準(zhǔn)為:其中,1\與T2為兩個(gè)FLES片段長(zhǎng)度比值的閾值,當(dāng)兩個(gè)FLES片段長(zhǎng)度比值介于T1和T2之間,其相似度distance小于預(yù)設(shè)參數(shù)T時(shí),S(FLESi,F(xiàn)LES2)取值為1。
【專利摘要】本發(fā)明涉及分子生物學(xué)領(lǐng)域的基因組序列拼接領(lǐng)域,本發(fā)明提出一種基因組酶切圖譜拼接方法及系統(tǒng),該方法包括對(duì)所述基因組酶切圖譜中基因序列分子進(jìn)行預(yù)處理操作,獲取新基因序列分子,將所述新基因序列分子切成FLES片段,其中所述FLES片段為片段總長(zhǎng)固定且無(wú)需具有相同酶切位點(diǎn)數(shù)目的基因片段;對(duì)所述FLES片段進(jìn)行聚類,生成代表FLES集合,根據(jù)所述代表FLES集合對(duì)所述基因序列分子進(jìn)行糾錯(cuò);根據(jù)所述代表FLES集合與糾錯(cuò)后的所述基因序列分子,構(gòu)建FLES圖,對(duì)所述FLES圖進(jìn)行路徑搜索,獲取所述FLES圖的漢密爾頓路徑為所述基因組的酶切位點(diǎn)序列,以完成基因組酶切圖譜拼接。本發(fā)明能夠快速、準(zhǔn)確地構(gòu)建基因組的酶切位點(diǎn)圖譜。
【IPC分類】G06F19/22, G06F19/24
【公開(kāi)號(hào)】CN104951673
【申請(qǐng)?zhí)枴緾N201510346396
【發(fā)明人】卜東波, 許情, 陳挺, 孫世偉, 李帥成, 劉興武, 張仁玉, 王超
【申請(qǐng)人】中國(guó)科學(xué)院計(jì)算技術(shù)研究所
【公開(kāi)日】2015年9月30日
【申請(qǐng)日】2015年6月19日