国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于比對(duì)序列的方法和系統(tǒng)的制作方法

      文檔序號(hào):9871396閱讀:655來源:國知局
      用于比對(duì)序列的方法和系統(tǒng)的制作方法
      【專利說明】
      [0001 ] 相關(guān)申請(qǐng)案
      [0002] 本申請(qǐng)案主張2013年9月3日提交的第14/016,833號(hào)和2013年8月21日提交的第 61/868,249號(hào)美國專利申請(qǐng)案的優(yōu)先權(quán),所述兩個(gè)申請(qǐng)案的全部內(nèi)容以引用的方式并入本 文中。
      技術(shù)領(lǐng)域
      [0003] 本發(fā)明涉及用于對(duì)序列(例如,核酸序列、氨基酸序列)彼此比對(duì)以產(chǎn)生對(duì)應(yīng)于樣 本(例如,遺傳樣本、蛋白質(zhì)樣本)的連續(xù)序列讀數(shù)的方法和系統(tǒng)。本發(fā)明另外涉及用于識(shí)別 樣本中的變異的方法。
      【背景技術(shù)】
      [0004] 遺傳學(xué)已經(jīng)從分析科學(xué)演變?yōu)樾畔⒖茖W(xué)。然而,科學(xué)家此前一直努力研究如何提 取和識(shí)別核酸,此類技術(shù)現(xiàn)在看來并非那么重要。下一代測(cè)序(例如,全轉(zhuǎn)錄組鳥槍測(cè)序、焦 磷酸測(cè)序、離子半導(dǎo)體測(cè)序、使用合成法測(cè)序)可以在僅幾天內(nèi)產(chǎn)生覆蓋全基因組的數(shù)百萬 讀數(shù)。為了實(shí)現(xiàn)此產(chǎn)出量,NGS測(cè)序在較小核酸序列上使用大規(guī)模并行計(jì)算,其一起組成大 量遺傳信息,例如,染色體或基因組。從遺傳樣本開始,核酸(例如,DNA)被分裂、擴(kuò)增、并以 極快速度讀取??紤]到這些能力,科學(xué)家現(xiàn)在努力研究如何(以低成本)比對(duì)讀數(shù)以識(shí)別序 列中指示疾病或疾病風(fēng)險(xiǎn)的基因座。
      [0005] 當(dāng)前技術(shù)發(fā)展水平的比對(duì)方法使用大量計(jì)算能力來比對(duì)重疊讀數(shù)與參考以產(chǎn)生 可探測(cè)用于重要遺傳信息或結(jié)構(gòu)信息(例如,用于疾病的生物標(biāo)志物)的序列。最終,序列比 對(duì)的目標(biāo)是組合由定序器產(chǎn)生的核酸讀數(shù)集以實(shí)現(xiàn)較長讀數(shù)(即,重疊群)或甚至基于來自 受試者的遺傳樣本的該受試者的全基因組。因?yàn)閬碜韵乱淮ㄐ蚱鞯男蛄袛?shù)據(jù)通常包括一 起表示目標(biāo)序列的總數(shù)的數(shù)百萬短序列,所以比對(duì)讀數(shù)復(fù)雜且在計(jì)算上昂貴。另外,為了使 由隨機(jī)測(cè)序誤差(即,不正確的測(cè)序儀輸出)引起的序列失真減到最少,對(duì)探測(cè)的序列的每 個(gè)部分多次(例如,2次到100次或更多)測(cè)序,以使任何隨機(jī)測(cè)序誤差對(duì)所產(chǎn)生的最終比對(duì) 和輸出序列的影響減到最少。最后,一旦收集了對(duì)應(yīng)于所有核酸讀數(shù)的所有數(shù)據(jù),就比對(duì)該 讀數(shù)與單個(gè)參考序列(例如,GRCh37),以便確定所有(或一部分)受試者序列。在許多情況 下,實(shí)際上不顯示個(gè)別讀數(shù),而是將比對(duì)序列組裝為一個(gè)序列,并作為數(shù)據(jù)文件提供該序 列。
      [0006] 通常,通過聚集序列信息的兩個(gè)線性字符串之間的成對(duì)比對(duì)來構(gòu)建序列比對(duì)。作 為比對(duì)的實(shí)例,可以將兩個(gè)字符串S1 (序列編號(hào)12:AGCTACGTACACTACC)和S2(序列編號(hào)13: AGCTATCGTACTAGC)與彼此進(jìn)行比對(duì)。S1通常對(duì)應(yīng)于讀數(shù),而S2對(duì)應(yīng)于參考序列的一部分。S1 和S2可關(guān)于彼此通過替代、刪除和插入構(gòu)成。通常,相對(duì)于將字符串S1轉(zhuǎn)換為字符串S2來定 義這些術(shù)語:當(dāng)用S1中相同長度的不同字母或序列替代S2中的字母或序列時(shí)發(fā)生替代,當(dāng) 在S1的對(duì)應(yīng)區(qū)段中"跳過"S2中的字母或序列時(shí)發(fā)生刪除,并且當(dāng)在S1中的兩個(gè)位置(這兩 個(gè)位置在S2中為相鄰位置)之間出現(xiàn)字母或序列時(shí)發(fā)生插入。例如,可以對(duì)兩個(gè)序列S1和S2 比對(duì)如下。以下比對(duì)指出有十三處匹配,一處刪除長度一,一處插入長度二以及一處替代:
      [0007] (S1) AGCTA-CGTACACTACC (序列編號(hào) 12)
      [0008] (S2) AGCTATCGTAC-TAGC (序列編號(hào) 13)
      [0009] 本領(lǐng)域的技術(shù)人員將了解,存在序列比對(duì)的精確算法和近似算法。精確算法將找 出最高得分的比對(duì),但是在計(jì)算上會(huì)昂貴。兩個(gè)最著名的精確算法是尼德曼-翁施 (Needleman-Wunsch)算法(分子生物學(xué)雜志(J Mol Biol)48(3) :443_453,1970)和史密斯-沃特曼(Smith-Waterman)算法(分子生物學(xué)雜志(J Mol Biol)147(l): 195-197,1981;數(shù)學(xué) 進(jìn)展(Adv. in Math. )20(3),367-387,1976)。后藤(Gotoh)對(duì)史密斯-沃特曼算法的進(jìn)一步 改進(jìn)(分子生物學(xué)雜志(JMol 8丨〇1)162(3),705-708,1982)減少了從0(111211)到0(11111)的計(jì)算 時(shí)間,其中m和η比較的序列大小,該改進(jìn)更能改善并行處理。在生物信息學(xué)領(lǐng)域,正是后藤 的改良算法通常被稱為史密斯-沃特曼算法。史密斯-沃特曼方法用于比對(duì)較大序列集與較 大參考序列,因?yàn)榭筛毡榍腋阋说孬@得并行計(jì)算資源。參考例如,在http:// aws · amazon · com可獲得的Amazon · com的云計(jì)算資源。所有上述期刊論文的全部內(nèi)容以引入 的方式并入本文中。
      [0010] 史密斯-沃特曼(SW)算法通過獎(jiǎng)勵(lì)序列中的堿基之間的重疊并處罰序列之間的空 位來比對(duì)線性序列。史密斯-沃特曼算法還與尼德曼-翁施算法不同,不同之處在于SW不要 求短序列跨越描述長序列的字母組成的字符串。也就是說,SW不假定一個(gè)序列是另一個(gè)序 列的全部內(nèi)容的讀數(shù)。此外,因?yàn)镾W并不一定找出橫跨字符串的全長的比對(duì),所以局部比對(duì) 可以在兩個(gè)序列內(nèi)的任何地方開始和結(jié)束。
      [0011] 根據(jù)以下方程式(1),對(duì)于表示長度η和m的兩個(gè)字符串的n Xm矩陣H,易于表示SW 算法:
      [0012] Hk〇 = H〇i = 0(X^0 < k < n^.0 < 1 < m) (1)
      [0013] Hij=max{Hi-1, j-i+s(ai,bj),Hi-1, j-Win,Hi, j-i_Wdei,0}
      [0014] (對(duì)于1 < i 且1 < j <m)
      [0015] 在以上方程式中,表示匹配獎(jiǎng)勵(lì)值(當(dāng)ai = h時(shí))或不匹配罰分(當(dāng)&1矣匕 時(shí)),并且對(duì)插入和刪除分別給出罰分WidPWdd。在大多數(shù)例子中,所得矩陣具有許多為零的 單元。這種表示使得更容易在矩陣中從高到低、從右到左回溯,因此識(shí)別比對(duì)。
      [0016] 一旦已經(jīng)用得分完全填充矩陣,SW算法就執(zhí)行回溯以確定比對(duì)。開始于矩陣中的 最大值,算法將基于三個(gè)值中的哪個(gè)(Hi-mdi-u或Hi,H)曾用來計(jì)算每個(gè)細(xì)胞的最終最 大值來進(jìn)行回溯。當(dāng)達(dá)到零時(shí)回溯停止。見例如圖3(B),其不表示現(xiàn)有技術(shù),而是示出回溯 的概念以及在讀取回溯時(shí)的對(duì)應(yīng)局部比對(duì)。因此,如通過算法確定的"最佳比對(duì)"可以含有 超過最小可能數(shù)目的插入和刪除,但是將含有遠(yuǎn)少于最大可能數(shù)目的替代。
      [0017] 當(dāng)作為SW或SW-后藤應(yīng)用時(shí),該技術(shù)使用動(dòng)態(tài)規(guī)劃算法來執(zhí)行分別具有大小m和η 的兩個(gè)字符串S和Α的局部序列比對(duì)。此動(dòng)態(tài)規(guī)劃技術(shù)采用表或矩陣來保存匹配得分并避免 對(duì)于連續(xù)細(xì)胞的重新計(jì)算。可以相對(duì)于序列的字母為字符串的每個(gè)單元編索引,也就是說, 如果S是字符串ATCGAA,那么5[1]=六、5[4]=6等。替代將最優(yōu)比對(duì)表示為出,」(上文),可以 將最優(yōu)比對(duì)表示為以下方程式(2)中的B[j,k] :
      [0018] B[ j,k]=max(p[ j,k],i[ j,k],d[ j,k],0)(對(duì)于0〈j <m、0〈k<n) (2)
      [0019] 在以下方程式(3)到(5)中概述最大值函數(shù)B[ j,k]的變量參數(shù),其中MISMATCH_ PENALTY、MATCH_BONUS、INSERTION_PENALTY、DELETION_PENALTY 和 OPENING_PENALTY 都是常 數(shù),并且除MATCH_BONUS以外均為負(fù)數(shù)。匹配變量參數(shù)p[j,k]由以下方程式(3)得出:
      [0020] 若S[ j ]關(guān)A[k],則p[ j,k] = max(p[ j-1,k-l ],i [ j-1,k-l ],d[ j-1,k-l ]) + MISMATCH_PENALTY
      [0021] 若S[ j]=A[k],貝ljp[ j,k] = =max(p[ j-l,k-l],i[ j-l,k-l],d[j-l,k-l])+MATCH_ BONUS (3)
      [0022] 插入變量參數(shù)i[j,k]由以下方程式(4)得出:
      [0023] i[j,k]=max(p[j-1,k]+OPENING_PENALTY,i[j-1,k],d[j-1,k]+0PENING_ PENALTY)+INSERTI0N_PENALTY (4)
      [0024] 且刪除變量參數(shù)d[j,k]由以下方程式(5)得出:
      [0025] d[j,k]= max(p[j,k-1]+0ΡΕΝΙNG_PENALTY,i[j,k-1]+0ΡΕΝΙNG_PENALTY,d[j,k-1])+DELETI0N_PENALTY (5)
      [0026] 對(duì)于所有三個(gè)變量參數(shù),將[0,0]單元設(shè)置為零以確保回溯完成,即,p[0,0] = i
      [0,0] =d[0,0] =0〇
      [0027] 得分參數(shù)在一定程度上是任意的,并可經(jīng)調(diào)整以實(shí)現(xiàn)計(jì)算的性能。對(duì)于DNA的得分 參數(shù)設(shè)置的一個(gè)實(shí)例(Huang,第3章:生物序列比較和比對(duì)(Bio-Sequence Comparison and Alignment),Curr Top Comp Mol Biol.叢書,馬薩諸塞州劍橋市:麻省理工學(xué)院出版社 (The MIT Press),2002年)將為:
      [0028] MATCH_B〇NUS:10
      [0029] MISMATCH_PENALTY:-20
      [0030] INSERTI0N_PENALTY:-40
      [0031] PENING_PENALTY:-10
      [0032] DELETI0N_PENALTY:-5
      [0033] 以上空位罰分(INSERTI0N_PENALTY、0PENING_PENALTY)之間的關(guān)系有助于限制空 位開放的數(shù)目,即,支持通過設(shè)置高于空位開放成本的空位插入罰分來歸并空位。當(dāng)然, MISMATCH_PENALTY、MATCH_BONUS、INSERTI0N_PENALTY、0PENING_PENALTY和DELETI0N_ PENALTY之間可能存在替代關(guān)系。
      [0034] 一旦完成比對(duì),可以組裝比對(duì)后的序列以產(chǎn)生可與參考(即,遺傳標(biāo)準(zhǔn))相比以識(shí) 別變異的序列。變異可以提供關(guān)于疾病、疾病期、復(fù)發(fā)等的洞察。在氨基酸比對(duì)的情況下,可 以比較組裝后的氨基酸序列與標(biāo)準(zhǔn)以確定關(guān)于蛋白質(zhì)的進(jìn)化信息或關(guān)于蛋白質(zhì)的功能信 息。然而,疾病比較的此標(biāo)準(zhǔn)方法是費(fèi)時(shí)的,因?yàn)樵S多變異不一定與疾病相關(guān)。例如,當(dāng)遺傳 標(biāo)準(zhǔn)來自具有與樣本不同的血統(tǒng)的人群時(shí),許多所謂的變異是歸因于像毛色、膚色等的事 物的差別。

      【發(fā)明內(nèi)容】

      [0035] 本發(fā)明提供算法和方法,該算法和方法的實(shí)施將線性的局部序列比對(duì)方法(例如, 史密斯-沃特曼-后藤方法)轉(zhuǎn)換成多維比對(duì)算法,該算法和方法提高并行計(jì)算、提高速度、 提高精確度并且能夠貫穿全基因組比對(duì)讀數(shù)。本發(fā)明的算法提供(如史密斯-沃特曼算法中 的)序列信息的"回顧"類型分析,然而,與已知線性方法對(duì)比,本發(fā)明的回顧貫穿包含多個(gè) 通路和多個(gè)節(jié)點(diǎn)的多維空間而進(jìn)行,以便提供對(duì)復(fù)雜和冗長序列讀數(shù)的更精確比對(duì),同時(shí) 實(shí)現(xiàn)更低的總錯(cuò)配率、刪除率和插入率。
      [0036]在實(shí)踐中,通過比對(duì)序列讀數(shù)與跨越分歧點(diǎn)的一系列有向非循環(huán)序列來實(shí)施本發(fā) 明,其考慮比對(duì)中的所有或幾乎所有可能的序列變異,包括插入、刪除和替代。通常表示為 有向非循環(huán)圖(DAG)的此類構(gòu)建物可易于從可用的序列數(shù)據(jù)庫來組裝,可用的序列數(shù)據(jù)庫 包含"接受"參考序列和變異識(shí)別格式(VCF)條目。當(dāng)結(jié)合DAG或其它有向構(gòu)建物時(shí),所公開 的算法因此提供針對(duì)序列比對(duì)的多維方法,其大大改進(jìn)比對(duì)精確度并提供通過傳統(tǒng)算法不 可能實(shí)現(xiàn)的序列分辨率。該技術(shù)可以與任何序列信息一起使用,然而實(shí)際上,如本文中所論 述,該技術(shù)最適用于比對(duì)核酸序列和氨基酸序列。
      [0037]本發(fā)明另外提供使用參考序列構(gòu)建物(例如,表不基因組的每個(gè)基因座處的已知 變異的DAG)在特定基因座處進(jìn)行特定堿基響應(yīng)的方法。因?yàn)樵诒葘?duì)期間對(duì)序列讀數(shù)與DAG 進(jìn)行比對(duì),所以可以排除比較關(guān)于參考基因組的突變與已知突變的表的后續(xù)步驟。使用所 公開的方法,需要做的僅僅是識(shí)別如位于DAG上表示的已知突變處的核酸讀數(shù)并且響應(yīng)該 突變。替代地,當(dāng)突變并非已知(即,未在參考序列構(gòu)建物中表示)時(shí),將找出比對(duì)并且將變 異識(shí)別為新突變。該方法還使得有可能將例如特定疾病風(fēng)險(xiǎn)或疾病進(jìn)展的另外的信息與并 入到參考序列構(gòu)建物中的已知突變相關(guān)聯(lián)。此外,除了能夠在比對(duì)期間找出所有基因相關(guān) 的結(jié)果之外,所公開的方法還減少進(jìn)行比對(duì)所需的計(jì)算資源,同時(shí)允許與多個(gè)參考序列的 同步比較。
      [0038] 本發(fā)明另外包含用于構(gòu)建表示生物體的序列內(nèi)的位置處的已知變異的有向非循 環(huán)圖數(shù)據(jù)結(jié)構(gòu)(DAG)的方法。DAG可以包含數(shù)千個(gè)位置處的多個(gè)序列,并且可以包含每個(gè)位 置處的多個(gè)變異,包含刪除、插入、平移、倒置和單核苷酸多態(tài)性(SNP)。還可能給DAG中的每 個(gè)變異標(biāo)記相關(guān)診斷信息,例如"乳腺癌",由此減少識(shí)別針對(duì)提供樣本的患者的風(fēng)險(xiǎn)所需 的步驟。在一些實(shí)施例中,將對(duì)變異評(píng)分、加權(quán)或使其與其它變異相關(guān)以反映該變異作為疾 病標(biāo)志的發(fā)生率。
      [0039] 本發(fā)明另外包含用于執(zhí)行本發(fā)明的方法的系統(tǒng)。在一個(gè)實(shí)施例中,系統(tǒng)包括處理 器和存儲(chǔ)裝置的分布式網(wǎng)絡(luò),能夠比較多個(gè)序列(即,核酸序列、氨基酸序列)與表示基因組 或基因組區(qū)中觀察到的變異的參考序列構(gòu)建物(例如,DAG)。該系統(tǒng)另外能夠使用高效比對(duì) 算法來比對(duì)核酸讀數(shù)以產(chǎn)生連續(xù)序列。因?yàn)閰⒖夹蛄袠?gòu)建物壓縮大量冗余信息,并且因?yàn)?比對(duì)算法如此高效,所以可以使用市售資源在全基因組上標(biāo)記和組裝該讀數(shù)。該系統(tǒng)包括 多個(gè)處理器,多個(gè)處理器同時(shí)執(zhí)行多個(gè)讀數(shù)與參考序列構(gòu)建物之間的多個(gè)比較??梢岳塾?jì) 比較數(shù)據(jù)并提供給醫(yī)療服務(wù)人員。因?yàn)樵摫容^在計(jì)算上易處理,所以分析序列讀數(shù)將不再 表示在NGS測(cè)序與患者遺傳風(fēng)險(xiǎn)的有意義的探討之間形成瓶頸。
      【附圖說明】
      [0040] 圖1描繪表示參考序列中的遺傳變異的有向非循環(huán)圖(DAG)的構(gòu)建物。圖1(A)示出 開始參考序列和刪除的添加。圖1(B)示出插入和SNP的添加,因此得出用于比對(duì)的最終DAG;
      [0041] 圖2描繪表示為有向非循環(huán)圖的三個(gè)變異識(shí)別格式(VCF)條目;
      [0042] 圖3(A)示出將核酸序列讀數(shù)與解釋插入情況的構(gòu)建物以及參考序列進(jìn)行比對(duì)的 圖形表示;
      [0043] 圖3(B)示出用以識(shí)別核酸序列讀數(shù)"ATCGAA"的適當(dāng)位置的矩陣和回溯;
      [0044] 圖4描繪用于并行處理的關(guān)聯(lián)計(jì)算模型;
      [0045]圖5描繪用于并行計(jì)算的體系構(gòu)建物。
      【具體實(shí)施方式】
      [0046]本發(fā)明包含用于
      當(dāng)前第1頁1 2 3 4 5 6 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1