国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種可得到完全解的生物序列局部比對(duì)方法

      文檔序號(hào):6370615閱讀:481來源:國(guó)知局
      專利名稱:一種可得到完全解的生物序列局部比對(duì)方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于數(shù)據(jù)庫和生物信息學(xué)領(lǐng)域,具體涉及一種可得到完全解的生物序列局部比對(duì)方法。
      背景技術(shù)
      在生物信息學(xué)研究中,經(jīng)常需要將獲得的基因或蛋白質(zhì)序列(設(shè)為P)與已知的生物序列(設(shè)為T)進(jìn)行比對(duì)。在很多時(shí)候,T和P從整體來看也許并不相似,然而二者卻可能包含非常相似的子序列。局部比對(duì)的目的就是要找出這類具有高度相似性的子序列。局部比對(duì)技術(shù)在生物信息學(xué)研究中有重要的應(yīng)用,例如可用于基因和蛋白功能研究、物種同源性研究等。將兩條不同的基因序列進(jìn)行局部比對(duì),通過分析二者相似的子序列,從而找出兩條基因序列中具有相似功能的基因片段。通過把新發(fā)現(xiàn)的蛋白序列同功能已知的蛋白序列作比對(duì),則可以推測(cè)新蛋白的功能,指導(dǎo)新藥的開發(fā)。在不同的物種中,特定基因的序列變異可用于研究物種之間的同源性。將兩個(gè)物種的基因進(jìn)行局部比對(duì)時(shí),錯(cuò)配與突變相應(yīng),空位與插入或缺失對(duì)應(yīng),比對(duì)的結(jié)果可用于判斷基因的相似度,此外也可以在基因組層面比較序列的相同與差異之處,將結(jié)果用于構(gòu)建進(jìn)化樹。因此,探索生物序列的局部相似性具有非常重要的意義。如何能夠準(zhǔn)確快速的進(jìn)行局部比對(duì)人們提出了挑戰(zhàn)。目前已有的較為經(jīng)典的算法包括 Smith-Waterman、FASTA、BLAST 等。Smith-Waterman基于動(dòng)態(tài)規(guī)劃的思想,算法考慮兩個(gè)序列中任意長(zhǎng)度的子串,在計(jì)算得分的過程中允許匹配、不匹配和插入空格的操作。用這種方法得到的比對(duì)也是局部比對(duì)中得分最高者。該方法的時(shí)間和空間復(fù)雜度都是0 (mn),其中m和n分別是P和T的長(zhǎng)度。盡管該方法能夠找到所有符合條件的結(jié)果,但是時(shí)間和空間上消耗都太大,以至于很少在實(shí)際中應(yīng)用。FASTA是一種經(jīng)典的、基于啟發(fā)式算法的生物序列局部比對(duì)工具,其基本思路是首先在T中精確匹配很短的序列片段K-tuple,之后米用啟發(fā)式算法將構(gòu)成的動(dòng)態(tài)規(guī)劃矩陣中同一或相鄰對(duì)角線中位置相近的片段連接起來,構(gòu)成局部比對(duì)結(jié)果。該方法雖有較高的效率,但并不能保證得到所有符合條件的結(jié)果。BLAST是一種經(jīng)典且非常流行的生物序列局部比對(duì)工具。與FASTA相似,BLAST也是基于啟發(fā)式算法。首先在T和P中定位匹配程度超過一定閾值的短片段對(duì)segment pair,然后從這些位置開始向左右擴(kuò)展得到滿足給定閾值的局部比對(duì)結(jié)果。該方法雖然具有很高的效率,但同樣不能保證找到所有符合條件的結(jié)果。

      發(fā)明內(nèi)容
      針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明提供一種可得到完全解的生物序列局部比對(duì)方法,利用BWT索引,結(jié)合過濾和重用技術(shù),得到生物序列局部比對(duì)的完全解。本發(fā)明采用一組廣泛應(yīng)用的得分模式,在這組得分模式中,匹配得分是指若兩個(gè)對(duì)應(yīng)字符相同則為一個(gè)匹配(match),每一個(gè)匹配(match)得Sa分,不匹配得分是指若兩個(gè)對(duì)應(yīng)字符不相同,即需進(jìn)行替換操作,則為一個(gè)不匹配(mismatch),不匹配得Sb分,若需進(jìn)行插入或刪除操作,則插入一個(gè)gap (連續(xù)插入r個(gè)空格)得分為Sg+rXSs,其中Sg是gap起始罰分(gap opening penalty),即每插入一個(gè)gap需罰相應(yīng)的分?jǐn)?shù),Ss是gap擴(kuò)展罰分(gap extension penalty),也就是每插入一個(gè)空格罰Ss分。Sa為正分,Sb, Sg和Ss均為負(fù)分。本發(fā)明方法包含以下步驟步驟I :采用一種生物序列作為基準(zhǔn)序列T,另一種生物序列作查詢序列P ;步驟2 :進(jìn)行基準(zhǔn)序列的后綴樹分支與查詢序列的比對(duì),步驟如下步驟2. I :設(shè)定匹配得分Sa,不匹配得分Sb,起始罰分Sg,擴(kuò)展罰分Ss,分?jǐn)?shù)閾值 H;步驟2. 2 :對(duì)基準(zhǔn)序列T的逆序列T4構(gòu)建BWT索引;BffT最早應(yīng)用在數(shù)據(jù)壓縮方面,對(duì)一個(gè)字符串進(jìn)行BWT變換后并不改變字符串中字符的值,只是將它們的位置進(jìn)行了改變。本方法通過BWT索引模擬后綴樹遍歷,構(gòu)建BWT索引,步驟如下步驟2. 2. I :在T—1的末尾增加一特殊字符$,使該字符小于T—1序列中所有字符;步驟2. 2. 2 :對(duì)T1的后綴數(shù)組按字典序進(jìn)行排序;步驟2. 2. 3 :建立數(shù)組SA,使其代表排序后的后綴數(shù)組中第i個(gè)位置的子序列在T1中出現(xiàn)的開頭位置;步驟2. 2. 4 :經(jīng)過上述8胃1'變換后得到的序列的第1個(gè)字符8^[1]=1'_1[5么[1]-1],若 SA[i]-l=0,則 BWT[i]=$ ;步驟2. 3 :按基準(zhǔn)序列的后綴樹分支進(jìn)行局部比對(duì),計(jì)算各分支比對(duì)得分結(jié)果;設(shè)X代表T的后綴樹中從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的任意一支的字符串,后綴樹分支可以定義成后綴樹中從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的一條路徑;計(jì)算所有滿足如下條件的比對(duì)sim(X[I, i], P[y, j]) ^ H(1 ^ i ^ X|) (I ^ y ^ j ^ |P|)其中sim(X[l,i],P[y,j])代表X[l,i]與P[y,j]比對(duì)的分?jǐn)?shù),H代表給定的分?jǐn)?shù)閾值。P[y,j]代表P中從y到j(luò)位置的子串;按基準(zhǔn)序列的后綴樹分支進(jìn)行局部比對(duì),計(jì)算各分支比對(duì)得分結(jié)果,具體按如下步驟進(jìn)行步驟2. 3. I :過濾,包括長(zhǎng)度過濾、分?jǐn)?shù)過濾、區(qū)域過濾、前綴過濾;具體如下;I)長(zhǎng)度過濾比對(duì)過程中,計(jì)算基準(zhǔn)序列的子序列與查詢序列構(gòu)成的矩陣時(shí),限定在一定長(zhǎng)度范圍內(nèi),過濾掉不必要的計(jì)算;當(dāng)計(jì)算矩陣Mx時(shí),只有當(dāng)i滿足如下條件時(shí)才需要計(jì)算Mx (i,j)和其后續(xù)值
      權(quán)利要求
      1.一種可得到完全解的生物序列局部比對(duì)方法,其特征在于包含以下步驟 步驟I:采用一種生物序列作為基準(zhǔn)序列,另一種生物序列作查詢序列; 步驟2 :進(jìn)行基準(zhǔn)序列的后綴樹分支與查詢序列的比對(duì),步驟如下 步驟2. I :設(shè)定匹配得分Sa,不匹配得分Sb,起始罰分Sg,擴(kuò)展罰分Ss,分?jǐn)?shù)閾值H ; 步驟2. 2 :對(duì)基準(zhǔn)序列的逆序列T—1構(gòu)建BWT索引; 步驟2. 3 :按基準(zhǔn)序列的后綴樹分支進(jìn)行局部比對(duì),計(jì)算各分支比對(duì)得分結(jié)果; 步驟3 :整合各分支比對(duì)得分結(jié)果,取最大值作為兩個(gè)生物序列的最終比對(duì)得分結(jié)果;步驟4 :根據(jù)最終比對(duì)得分結(jié)果,尋找查詢序列和基準(zhǔn)序列中具有相似功能的片段或判斷查詢序列和基準(zhǔn)序列之間的同源性關(guān)系。
      2.根據(jù)權(quán)利要求I所述的可得到完全解的生物序列局部比對(duì)方法,其特征在于步驟2. 2對(duì)基準(zhǔn)序列的逆序列T—1構(gòu)建BWT索引,包括如下步驟 步驟2. 2. I :在基準(zhǔn)序列的逆序列的末尾增加一字符,使該字符小于基準(zhǔn)序列的逆序列中所有字符; 步驟2. 2. 2 :對(duì)基準(zhǔn)序列的逆序列的后綴樹分支按字典序進(jìn)行排序; 步驟2. 2. 3 :建立數(shù)組SA,使其代表排序后的后綴數(shù)組中第i個(gè)位置的子序列在T—1中出現(xiàn)的開頭位直; 步驟2. 2. 4 :經(jīng)過BWT變換后得到的序列的第i個(gè)字符為T1中第SA[i]-l個(gè)字符。
      3.根據(jù)權(quán)利要求I所述的可得到完全解的生物序列局部比對(duì)方法,其特征在于所述步驟2. 3按基準(zhǔn)序列的后綴樹分支進(jìn)行局部比對(duì),計(jì)算各分支比對(duì)得分結(jié)果,按如下步驟進(jìn)行 步驟2. 3. I :過濾; 過濾包括長(zhǎng)度過濾、分?jǐn)?shù)過濾、區(qū)域過濾、前綴過濾,具體如下 1)長(zhǎng)度過濾比對(duì)過程中,只有當(dāng)i滿足如下條件時(shí)才需要計(jì)算基準(zhǔn)序列子序列X與查詢序列P的比對(duì)得分構(gòu)成的矩陣仏(1,」)和仏(1,j)后續(xù)值
      全文摘要
      一種可得到完全解的生物序列局部比對(duì)方法,包含以下步驟步驟1采用一種生物序列作為基準(zhǔn)序列,另一種生物序列作查詢序列,設(shè)定匹配得分Sa,不匹配得分Sb,起始罰分Sg,擴(kuò)展罰分Ss,分?jǐn)?shù)閾值H;步驟2進(jìn)行基準(zhǔn)序列的后綴樹分支與查詢序列的比對(duì),步驟如下步驟3整合各分支比對(duì)得分結(jié)果,取最大值作為兩個(gè)生物序列的最終比對(duì)得分結(jié)果。步驟4根據(jù)最終比對(duì)得分結(jié)果,尋找查詢序列和基準(zhǔn)序列中具有相似功能的片段或判斷查詢序列和基準(zhǔn)序列之間的同源性關(guān)系。本發(fā)明采用BWT索引,結(jié)合過濾和重用技術(shù),進(jìn)行基準(zhǔn)序列的后綴樹分支與查詢序列的比對(duì),得出生物序列比對(duì)的完全解,彌補(bǔ)現(xiàn)有方法準(zhǔn)確度不夠或效率低下的問題。
      文檔編號(hào)G06F19/22GK102750461SQ201210196668
      公開日2012年10月24日 申請(qǐng)日期2012年6月14日 優(yōu)先權(quán)日2012年6月14日
      發(fā)明者劉洪磊, 楊曉春, 王佳英, 王斌 申請(qǐng)人:東北大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1