一種基因組酶切圖譜拼接方法及系統(tǒng)的制作方法_3

文檔序號(hào)：9235647閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基因組酶切圖譜拼接方法及系統(tǒng)的制作方法

h = 0, Insertion = -1，Deletion = -1. Mismatch = +
[012U 其中Match表示位點(diǎn)的距離不超過(guò)化bp，否則視為Mismatch,編輯距離Distance 的闊值為：T= [#sil:e*0.1 呂1;
[012引聚類的標(biāo)準(zhǔn)為：
[0123]
[0124] 其中，Ti與T2為兩個(gè)FLES片段長(zhǎng)度比值的闊值，當(dāng)兩個(gè)FLES片段長(zhǎng)度比值介于 T1和T2之間，其相似度distance小于預(yù)設(shè)參數(shù)T時(shí)，S(FLESi,FLES2)取值為1。
[01巧]W下為本發(fā)明的一實(shí)施例，如下所示：
[01%] 實(shí)驗(yàn)數(shù)據(jù)集是Irys酶切圖譜測(cè)序系統(tǒng)下的大腸桿菌K12菌株Escherichia coli str. K-12 substr. MG1655的酶切圖譜數(shù)據(jù)，共有7322條分子，其采用的酶切位點(diǎn)序列為 "GCTCTTC"，其長(zhǎng)度分布如圖9。
[0127] 實(shí)驗(yàn)結(jié)果；
[0128] 通過(guò)對(duì)上述E. coli使用本發(fā)明中的方法進(jìn)行拼接，得到了酶切位點(diǎn)結(jié)果序列。如表1所不。
[0129] 通常情況下，酶切圖譜拼接的結(jié)果主要是從聚類的準(zhǔn)確度和拼接結(jié)果的長(zhǎng)度兩個(gè) 方面來(lái)衡量。在本發(fā)明中，聚類的準(zhǔn)確度主要是由聚類之后的代表FLES覆蓋整個(gè)基因組的位點(diǎn)序列的百分比來(lái)表征；拼接結(jié)果的長(zhǎng)度由得到的酶切位點(diǎn)序列的N50來(lái)表征。
[0130] 如表1所示，本發(fā)明在聚類之后的代表FLES僅僅遺漏了基因組上的大約10個(gè)位點(diǎn)，F(xiàn)LES的計(jì)算規(guī)?？s小了近10倍，使用多線程并行計(jì)算平臺(tái)（24個(gè)線程）計(jì)算時(shí)間約為 1000s。另一方面，得到的酶切位點(diǎn)序列的N50為592肺P。
[0131] 表 1
[0132]
[0133] 注；表中的be化re, after分別表示聚類前后的FLES集合。
[0134] 真實(shí)的E. coli基因組序列共有683個(gè)酶切位點(diǎn)。
[01巧]#moleule輸入分子的數(shù)目
[0136] N50表示長(zhǎng)度大于N50的所有分子的和至少占整個(gè)基因組的50%。
[0137] W下為結(jié)果分析，如下所示：
[0138] 本發(fā)明提出的新型數(shù)據(jù)結(jié)構(gòu)FLES圖適用于酶切圖譜數(shù)據(jù)，采用的全局優(yōu)化策略可W對(duì)酶切圖譜數(shù)據(jù)進(jìn)行有效的拼接。
[0139] 通過(guò)上述表格中的FLES聚類前后的遺失位點(diǎn)數(shù)目可知，本發(fā)明在不損失準(zhǔn)確度的前提下大大降低了計(jì)算時(shí)間。
[0140] 表2示出了目前的幾種常見(jiàn)的二代測(cè)序數(shù)據(jù)的拼接軟件對(duì)E. coli的拼接結(jié)果。由表可知，僅利用二代數(shù)據(jù)的拼接結(jié)果最長(zhǎng)為313肺P。表1中的nanoARCS的拼接長(zhǎng)度確實(shí) 遠(yuǎn)遠(yuǎn)大于二代數(shù)據(jù)的拼接結(jié)果，因此酶切位點(diǎn)圖譜的拼接可W用于延伸二代數(shù)據(jù)的拼接結(jié) 果，從而提高序列的連續(xù)性。
[0141] 表 2
[0142]
[0143] 注；表中contig表示連續(xù)堿基序列。
[0144] ScafTold表示中間存在缺失序列的連續(xù)堿基序列。
[0145] N50表示長(zhǎng)度大于N50的所有分子的和至少占整個(gè)基因組的50%。N90類似。
【主權(quán)項(xiàng)】
1. 一種基因組酶切圖譜拼接方法，其特征在于，包括：步驟1，對(duì)所述基因組酶切圖譜中基因序列分子進(jìn)行預(yù)處理操作，獲取新基因序列分子，將所述新基因序列分子切成FLES片段，其中所述FLES片段為片段總長(zhǎng)固定且無(wú)需具有相同酶切位點(diǎn)數(shù)目的基因片段；步驟2,對(duì)所述FLES片段進(jìn)行聚類，生成代表FLES集合，根據(jù)所述代表FLES集合對(duì)所述基因序列分子進(jìn)行糾錯(cuò)；步驟3,根據(jù)所述代表FLES集合與糾錯(cuò)后的所述基因序列分子，構(gòu)建FLES圖，對(duì)所述FLES圖進(jìn)行路徑搜索，獲取所述FLES圖的漢密爾頓路徑為所述基因組的酶切位點(diǎn)序列，以完成基因組酶切圖譜拼接。2. 如權(quán)利要求1所述的基因組酶切圖譜拼接方法，其特征在于，所述步驟1中所述預(yù)處理操作包括：刪除所述基因序列分子兩端的酶切位點(diǎn)；近似處理酶切位點(diǎn)位置，其中將所述基因序列分子的酶切位點(diǎn)位置以lKbp為單位近似處理；標(biāo)記所述基因序列分子相鄰酶切位點(diǎn)的間距，獲得酶切位點(diǎn)模式；對(duì)所述基因序列分子進(jìn)行逆置操作。3. 如權(quán)利要求1所述的基因組酶切圖譜拼接方法，其特征在于，所述步驟2還包括 FLES片段的聯(lián)配規(guī)則：獲取測(cè)序深度D印th，其中根據(jù)所述酶切位點(diǎn)的基因序列分子的數(shù)目進(jìn)行估計(jì)：其中，L為相鄰酶切位點(diǎn)的平均距離；獲取遺失率MissRate; 獲取編輯距離（Distance)，公式為： Match= 0,Insertion= -1,Deletion= -1.Mismatch= + 〇〇其中Match表示位點(diǎn)的距離不超過(guò)lKbp，否則視為Mismatch，編輯距離Distance的閾值為：T= [#site*0. 15]; 聚類的標(biāo)準(zhǔn)為：其中，1\與T2為兩個(gè)FLES片段長(zhǎng)度比值的閾值，當(dāng)兩個(gè)FLES片段長(zhǎng)度比值介于T1和T2之間，其相似度distance小于預(yù)設(shè)參數(shù)T時(shí)，S(FLESi，F(xiàn)LES2)取值為1。4. 如權(quán)利要求3所述的基因組酶切圖譜拼接方法，其特征在于，所述步驟2中聚類的步驟包括：將所有所述FLES片段按照所述聯(lián)配規(guī)則進(jìn)行聯(lián)配；根據(jù)BIC準(zhǔn)則選擇每一類的最優(yōu)聚類方式，根據(jù)所述D印th值確定類別數(shù)；生成所有類的代表FLES集合；根據(jù)所述代表FLES的集合，對(duì)基因序列分子進(jìn)行糾錯(cuò)。5. 如權(quán)利要求4所述的基因組酶切圖譜拼接方法，其特征在于，生成所述代表FLES集合的方法包括：選擇類中連接數(shù)最多的點(diǎn)作為所述代表FLES集合；根據(jù)類中的所述FLES 片段相互校正來(lái)恢復(fù)遺失酶切位點(diǎn)，得到未遺失酶切位點(diǎn)的所述FLES片段作為所述代表 FELS集合。6. 如權(quán)利要求1所述的基因組酶切圖譜拼接方法，其特征在于，所述步驟3中構(gòu)建 FLES圖包括：所述FLES圖中，每個(gè)節(jié)點(diǎn)代表一個(gè)FLES片段，每一條邊表示兩個(gè)FLES片段中其中一個(gè)的前綴與另一個(gè)后綴具有相同的位點(diǎn)模式或兩FLES片段位于同一基因序列分子上。7. 如權(quán)利要求1所述的基因組酶切圖譜拼接方法，其特征在于，所述步驟3中通過(guò)公式對(duì)所述FLES圖進(jìn)行路徑搜索：S.t.X廠eij; xi_yk_dik^yik；其中，E表示FLES圖的邊的集合，M為基因序列分子集合，x，y分別表示FLES片段與基因序列分子在基因組上的真實(shí)位置，其中FLESi片段，F(xiàn)LES』片段之間的距離為dmdik表示 FLESi片段在基因序列分子mk上的偏移距離；yik表示第i個(gè)FLES片段與第k個(gè)基因序列分子之間真實(shí)距離與估計(jì)值之間的誤差；eu表示第i個(gè)FLES片段與第j個(gè)FLES片段之間真實(shí)距離與估計(jì)值之間的誤差。8. -種基因組酶切圖譜拼接系統(tǒng)，其特征在于，包括：預(yù)處理模塊，用于對(duì)所述基因組酶切圖譜中基因序列分子進(jìn)行預(yù)處理操作，獲取新基因序列分子，將所述新基因序列分子切成FLES片段，其中所述FLES片段為片段總長(zhǎng)固定且無(wú)需具有相同酶切位點(diǎn)數(shù)目的基因片段；聚類模塊，用于對(duì)所述FLES片段進(jìn)行聚類，生成代表FLES集合，根據(jù)所述代表FLES集合對(duì)所述基因序列分子進(jìn)行糾錯(cuò)；拼接模塊，用于根據(jù)所述代表FLES集合與糾錯(cuò)后的所述基因序列分子，構(gòu)建FLES圖，對(duì)所述FLES圖進(jìn)行路徑搜索，獲取所述FLES圖的漢密爾頓路徑為所述基因組的酶切位點(diǎn) 序列，以完成基因組酶切圖譜拼接。9. 如權(quán)利要求8所述的基因組酶切圖譜拼接系統(tǒng)，其特征在于，所述預(yù)處理模塊還包括：刪除所述基因序列分子兩端的酶切位點(diǎn)；近似處理酶切位點(diǎn)位置，其中將所述基因序列分子的酶切位點(diǎn)位置以lKbp為單位近似處理；標(biāo)記所述基因序列分子相鄰酶切位點(diǎn)的間距，獲得酶切位點(diǎn)模式；對(duì)所述基因序列分子進(jìn)行逆置操作。10. 如權(quán)利要求8所述的基因組酶切圖譜拼接系統(tǒng)，其特征在于，所述聚類模塊還包括通過(guò)聯(lián)配規(guī)則對(duì)所述FLES片段進(jìn)行聯(lián)配：獲取測(cè)序深度D印th，其中根據(jù)所述酶切位點(diǎn)的基因序列分子的數(shù)目進(jìn)行估計(jì)： CN104951673A _權(quán)利要求書(shū)_ _3/3頁(yè)其中，L為相鄰酶切位點(diǎn)的平均距離；獲取遺失率MissRate; 獲取編輯距離（Distance)，公式為： Match= 0,Insertion= -1,Deletion= -1.Mismatch= + 〇〇其中Match表示位點(diǎn)的距離不超過(guò)lKbp，否則視為Mismatch，編輯距離Distance的閾值為：T= [#site*0. 15]; 聚類的標(biāo)準(zhǔn)為：其中，1\與T2為兩個(gè)FLES片段長(zhǎng)度比值的閾值，當(dāng)兩個(gè)FLES片段長(zhǎng)度比值介于T1和T2之間，其相似度distance小于預(yù)設(shè)參數(shù)T時(shí)，S(FLESi，F(xiàn)LES2)取值為1。
【專利摘要】本發(fā)明涉及分子生物學(xué)領(lǐng)域的基因組序列拼接領(lǐng)域，本發(fā)明提出一種基因組酶切圖譜拼接方法及系統(tǒng)，該方法包括對(duì)所述基因組酶切圖譜中基因序列分子進(jìn)行預(yù)處理操作，獲取新基因序列分子，將所述新基因序列分子切成FLES片段，其中所述FLES片段為片段總長(zhǎng)固定且無(wú)需具有相同酶切位點(diǎn)數(shù)目的基因片段；對(duì)所述FLES片段進(jìn)行聚類，生成代表FLES集合，根據(jù)所述代表FLES集合對(duì)所述基因序列分子進(jìn)行糾錯(cuò)；根據(jù)所述代表FLES集合與糾錯(cuò)后的所述基因序列分子，構(gòu)建FLES圖，對(duì)所述FLES圖進(jìn)行路徑搜索，獲取所述FLES圖的漢密爾頓路徑為所述基因組的酶切位點(diǎn)序列，以完成基因組酶切圖譜拼接。本發(fā)明能夠快速、準(zhǔn)確地構(gòu)建基因組的酶切位點(diǎn)圖譜。
【IPC分類】G06F19/22, G06F19/24
【公開(kāi)號(hào)】CN104951673
【申請(qǐng)?zhí)枴緾N201510346396
【發(fā)明人】卜東波, 許情, 陳挺, 孫世偉, 李帥成, 劉興武, 張仁玉, 王超
【申請(qǐng)人】中國(guó)科學(xué)院計(jì)算技術(shù)研究所
【公開(kāi)日】2015年9月30日
【申請(qǐng)日】2015年6月19日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

基因組酶切相關(guān)技術(shù)

酶切圖譜相關(guān)技術(shù)

限制性酶切圖譜相關(guān)技術(shù)

人類基因組圖譜相關(guān)技術(shù)

基因組圖譜相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基因組酶切圖譜拼接方法及系統(tǒng)的制作方法_3