用于錯誤校正的序列讀數(shù)迭代聚類的制作方法

文檔序號：10494247閱讀：335來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>測量裝置的制造及其應(yīng)用技術(shù)

用于錯誤校正的序列讀數(shù)迭代聚類的制作方法
【專利摘要】示例性實(shí)施方式提供了用于錯誤校正的序列讀數(shù)的迭代聚類的方法和系統(tǒng)。示例性實(shí)施方式的方面包括接收序列讀數(shù)的集和相關(guān)的質(zhì)量值；將序列讀數(shù)基于序列相似性分組為初始簇的集；生成各初始簇的簇共有區(qū)；基于與序列讀數(shù)相關(guān)的質(zhì)量值和簇共有區(qū)迭代改進(jìn)聚類；并且生成并輸出各簇的最終簇共有區(qū)。
【專利說明】用于錯誤校正的序列讀數(shù)迭代聚類
[0001] 相關(guān)申請的交叉引用
[0002] 本申請要求2013年12月18日提交的題為"用于從混合群體中生成共有序列的方法"的美國臨時專利申請系列號61/917,777,和2014年7月24日提交的題為"用于錯誤校正的序列讀數(shù)迭代聚類"的美國臨時專利申請系列號62/028,741的權(quán)益，兩者轉(zhuǎn)讓給本申請的受讓人，并且通過引用納入本文。
[0003] 發(fā)明背景
[0004] 生物分子序列確定的進(jìn)步，尤其是針對核酸和蛋白質(zhì)樣品，已經(jīng)徹底改變了細(xì)胞和分子生物學(xué)領(lǐng)域。由自動化測序系統(tǒng)發(fā)展促進(jìn)，現(xiàn)在能夠?qū)悠泛怂岬幕旌先哼M(jìn)行測序。然而，序列信息的質(zhì)量必須得到仔細(xì)監(jiān)控，并且可被與生物分子本身或使用的測序系統(tǒng)相關(guān)的許多因素削弱，包括生物分子的組成(例如，核酸分子的堿基組成）、實(shí)驗(yàn)和系統(tǒng)雜音、觀察的信號強(qiáng)度的變化、和反應(yīng)效率的差異。如此，必須采用方法以分析和改善來自這類測序技術(shù)的數(shù)據(jù)的質(zhì)量。
[0005] 除了影響生成的序列讀數(shù)的總體準(zhǔn)確性以外，這些因素可能使堿基判定為真變異或者錯判(例如，序列讀數(shù)中的插入、刪除或錯配錯誤）的設(shè)計(jì)復(fù)雜化。例如，當(dāng)序列讀數(shù)具有在同源染色體之間不同的堿基判定時，能夠確定不同的堿基判定是同源物之間的真變異或者僅僅是測序錯誤是重要的。另外，個體中的病毒群體可能在群體中的個體病毒基因組之間存在許多變異，尤其是可高度突變的病毒，如HIV。能夠鑒定具有不同來源(例如，不同染色體或基因組來源）的測序讀數(shù)是能夠精確表征核酸混合群體的關(guān)鍵。對于生成100%精確的讀數(shù)的理論測序平臺而言，讀數(shù)可簡單地用簡單字符串比對算法與另一讀數(shù)比較。讀數(shù)之間的任何差異表明真變異，因此表明不同來源。然而，任何現(xiàn)實(shí)原始測序數(shù)據(jù)可能含有錯誤，因此簡單字符串匹配算法方法是不足的。當(dāng)對轉(zhuǎn)錄組進(jìn)行測序時尤為如此。
[0006] 轉(zhuǎn)錄組是所有RNA分子的集合，包括一種細(xì)胞或細(xì)胞群體生成的mRNA、rRNA、tRNA 和其他非編碼RNA。因?yàn)樵摂?shù)據(jù)包括細(xì)胞中的所有mRNA轉(zhuǎn)錄本，轉(zhuǎn)錄組反映了在任何給定時間上正處于主動表達(dá)的基因。目前，有兩種推導(dǎo)轉(zhuǎn)錄組的一般方法。一種方法將序列讀數(shù)映射到轉(zhuǎn)錄組正受到研究的生物體或緊密相關(guān)的物種參照基因組上。另一種方法是轉(zhuǎn)錄組從頭組裝，其使用軟件來從短序列讀數(shù)直接推導(dǎo)出轉(zhuǎn)錄本。
[0007] 然而，市售的基因組比對器不能對轉(zhuǎn)錄組測序中的全長度長序列讀數(shù)進(jìn)行錯誤校正。例如，在PacBio⑧RS II設(shè)備上產(chǎn)生的讀數(shù)平均為5-6kb，并且常規(guī)生成長達(dá)20kb的讀數(shù)。對于這種長讀數(shù)能力，可對全長mRNA轉(zhuǎn)錄本進(jìn)行測序，例如，在轉(zhuǎn)化為cDNA之后。這可有助于研究人員鑒定難以使用短讀數(shù)測序技術(shù)重構(gòu)的剪接模式。然而，公共可得的序列比對器，例如GMAP，和功能性注釋工具幾乎都需要具有接近100%準(zhǔn)確性的讀數(shù)。PacBio設(shè)備從具有使其難以直接應(yīng)用這些序列比對工具的錯誤特征的單一模板分子生成讀數(shù)。然而，在測序插入(轉(zhuǎn)錄本)遠(yuǎn)短于聚合酶閱讀長度的情況中，可生成高度準(zhǔn)確的共有序列：通過對單一分子的冗余測序，cDNA模板的長的長度與系統(tǒng)中聚合酶測序引擎的處理能力的組合可產(chǎn)生充足的冗余以實(shí)現(xiàn)這些分析工具所需的準(zhǔn)確性。然而，這僅可應(yīng)用于較短的轉(zhuǎn)錄本，而較長的轉(zhuǎn)錄本仍然在它們實(shí)現(xiàn)適合生物分析的準(zhǔn)確性水平之前需要額外處理。
[0008] 目前，存在用于在轉(zhuǎn)錄組測序中對長讀數(shù)(例如，PaeBio? cDNA長讀數(shù))進(jìn)行錯誤校正公開的2種工具，PacBioToCA和LSC。兩種工具都使用短讀數(shù)(例如，Illumina·短讀數(shù)），并且按照以下一般方案:對于各長讀數(shù)，將短讀數(shù)與長讀數(shù)比對仿佛其是基因組"支架"，并且基于短讀數(shù)比對生成最佳共有區(qū)。這種一般方案有幾個缺陷：（1)由于短讀數(shù)僅為50-l〇bp，它們可能非特異性映射并且引入更多的錯誤；（2)所有現(xiàn)有的短讀數(shù)技術(shù)攜帶它們自身的系統(tǒng)錯誤，其可能使校正產(chǎn)生偏差；（3)沒有利用相同的轉(zhuǎn)錄本通常由多個長讀數(shù)表示的事實(shí)，其在來自太平洋生物科學(xué)公司(Pacific Biosciences)的長讀數(shù)的情況沒有系統(tǒng) 系統(tǒng)偏差；（4)沒有使用來自長讀數(shù)的質(zhì)量值(QV);和(5)該方案需要2種不同的測序系統(tǒng)。
[0009] 需要一種解決轉(zhuǎn)錄組測序中錯誤的問題的算法，并且優(yōu)選設(shè)計(jì)為處理從頭合成轉(zhuǎn) 錄組，即沒有參照基因組的算法。

【發(fā)明內(nèi)容】

[0010] 示例性的實(shí)施方式一般涉及用于分析來自核酸的混合群體的序列數(shù)據(jù)、用于將各序列讀數(shù)分配到特定來源、和用于最終鑒定來自序列信息的一個或多個生物分子目標(biāo)序列的一個或多個共有序列的方法。本文提供的方法不僅可應(yīng)用于幾乎沒有錯誤的序列數(shù)據(jù)，也可應(yīng)用于具有較高頻率的插入、刪除和/或錯配錯誤的序列數(shù)據(jù)。因此，本發(fā)明還涉及進(jìn) 行這些方法的系統(tǒng)。
[0011]參照以下詳細(xì)說明和附圖將更好地理解本發(fā)明和各種具體方法及實(shí)施方式，其中，在各種具體方面和實(shí)施方式中描述了本發(fā)明。提供這些是為清楚起見，并且不用被認(rèn)為限制本發(fā)明。本發(fā)明及其方面可應(yīng)用于多種類型的本文未具體公開的方法、裝置和系統(tǒng)。在某些方面中，示例性實(shí)施方式提供了用于錯誤校正的序列讀數(shù)的迭代聚類的方法和系統(tǒng)，其通過在至少一個處理器上進(jìn)行的至少一個軟件組件來進(jìn)行。在某些實(shí)施方式中，這類方法包括接收序列讀數(shù)的集和相關(guān)的質(zhì)量值;將序列讀數(shù)基于序列相似性分組為初始簇的集;生成各初始簇的簇共有區(qū)；基于與序列讀數(shù)相關(guān)的質(zhì)量值和簇共有區(qū)迭代改進(jìn)聚類；和，生成并輸出各簇的最終簇共有區(qū)。
[0012] 在另一個方面中，迭代改進(jìn)聚類還包括:使用質(zhì)量值計(jì)算屬于各簇的各序列讀數(shù) 的概率;將個體序列讀數(shù)從一個簇重分配至具有最高計(jì)算概率的另一個簇;和，合并高度相似的簇。
[0013] 在一個實(shí)施方式中，輸入序列讀數(shù)包括長度至少0.5kb至長度1、2、3、4、5、7或IOkb 的全長的長讀數(shù)，并且使用簇共有區(qū)和非全長讀數(shù)來生成最終簇共有區(qū)，其可用于提供序列數(shù)據(jù)的全覆蓋率以提供更高水平的共有區(qū)。
[0014] 附圖的一些方面的簡要說明
[0015] 圖1是顯示用于實(shí)施使用用于轉(zhuǎn)錄組測序數(shù)據(jù)的錯誤校正的測序讀數(shù)的迭代聚類的進(jìn)程的計(jì)算機(jī)系統(tǒng)的一個實(shí)施方式的圖。
[0016] 圖2是顯示按照示例性實(shí)施方式用于錯誤校正的序列讀數(shù)的迭代聚類的方法的某些方面的流程圖。
[0017] 圖3是顯示來自已經(jīng)比對以產(chǎn)生成對比對的相同同種型的2個讀數(shù)的示例性部分的圖。
[0018]圖4是顯示示例性相似性圖像的圖。
[0019]圖5是顯示一個用于區(qū)分比對的讀數(shù)之間的真同種型差異與序列錯誤的實(shí)施方式的圖。
[0020]圖6是顯示初始分配至錯誤簇的序列讀數(shù)的示例的圖，其中相同填充模式的序列讀數(shù)來自相同同種型。
[0021]圖7是顯示分別針對各簇生成的示例性簇共有區(qū)C1、C2、C3和C4的圖。
[0022]圖8是顯示將序列讀數(shù)從一個簇重分配至具有最高的成員計(jì)算概率的簇的圖。 [0023]圖9是顯示從孤兒產(chǎn)生新簇的示例的圖。
[0024]圖10是顯示2個簇合并的圖。
[0025]發(fā)明詳述
[0026]本發(fā)明的多個實(shí)施方式和組分采用在多個技術(shù)領(lǐng)域熟悉的信號和數(shù)據(jù)分析技術(shù)。為了清楚地說明，本文不提供已知分析技術(shù)的詳細(xì)內(nèi)容。這些技術(shù)描述于多個可及的參考文獻(xiàn)中，如:R.B.Ash，《真實(shí)分析和概率》(Real Analysis and Probability)，學(xué)術(shù)出版社 (Academic Press)，紐約，1972;D.T.Bertsekas和 J.N.Tsitsiklis，《概率介紹》 (Introduct ion to Probabi I i ty)，2002 ; K . L. Chung，《固定轉(zhuǎn)移概率的馬爾科夫鏈》 (Markov Chains with Stationary Transition Probabilities)，1967;W.B.Davenport和 W.L Root，《隨機(jī)信號和噪音理論介紹》（An Introduction to the Theory of Random Signals and Noise)，麥格勞-希爾公司（McGraw-Hill)，紐約，1958; S·Μ·Kay，《統(tǒng)計(jì)學(xué)處理基礎(chǔ)》（Fundamentals of Statistical Processing)，第1-2卷，（精裝-1998) ;Monsoon H.Hayes，《統(tǒng)計(jì)學(xué)數(shù)據(jù)信號處理和建?！罚⊿tatistical Digital Signal Processing and Modeling)，1996 ;R.M.Gray 和L .D .Dav is son 的《統(tǒng)計(jì)學(xué)信號處理介紹》（Introduction to Statistical Signal Processing) ;Steven M.Kay的《現(xiàn)代光譜估計(jì)：理論及應(yīng)用》(Modern Spectral Estimation:Theory and Application)/書和光盤（Prentice-Hall信號處理叢書）（精裝-1988年1月）；Steven M.Kay的《現(xiàn)代光譜估計(jì)：理論及應(yīng)用》(Modern Spectral Estimation:Theory and Application)(平裝-1999年3月）；Burkhard Buttkus的《應(yīng)用地球物理中的光譜分析和過濾理論》（Spectral Analysis and Filter Theory in Applied Geophysics)(精裝-2000年5月 11 日）；Donald B.Percival和Andrew T.Walden的《物理應(yīng)用的光譜分析》（平裝-1993年6月25日）；J.L.Starck和F.Murtagh的《天文圖像和數(shù)據(jù)分析》 (Astronomical Image and Data Analysis)(天文學(xué)和天體物理學(xué)圖書館）（精裝-2006年9 月25日）；Daniel S · Sem的《蛋白質(zhì)組學(xué)中的光譜技術(shù)》（Spectral Techniques In Proteomics)(精裝-2007年3月30 日）；Dhammika Amaratunga和Javier Cabrera的《DNA微陣列和蛋白質(zhì)陣列數(shù)據(jù)的探索和分析》(Exploration and Analysis of DNA Microarray and Protein Array Data)(概率和統(tǒng)計(jì)學(xué)Wiley叢書）（精裝-2003年10月21日）。
[0027]轉(zhuǎn)錄組分析的長讀數(shù)錯誤校正與基因組組裝的錯誤校正不同。兩者都可歸結(jié)為聚類問題。在基因組組裝中，僅存在與染色體一樣多的"簇％各染色體彼此非常不同。與整個染色體尺寸比較，共享的重復(fù)區(qū)域非常小，并且只要存在跨重復(fù)的連續(xù)長讀數(shù)，相對容易決定其起點(diǎn)。
[0028]相反，對于轉(zhuǎn)錄組分析，存在與轉(zhuǎn)錄本一樣多的簇。在真核生物中，基因可具有許多不同的剪接形式。在一個極端示例中，轉(zhuǎn)錄本的一個同種型有額外的20bp外顯子，而其他同種型則沒有。對于許多生物學(xué)問題而言，能夠?qū)?種同種型區(qū)分開是重要的。這種詳細(xì)差異的水平很少在基因組規(guī)模上發(fā)現(xiàn)，因此，現(xiàn)有的方法，例如生成高質(zhì)量（>99.999%準(zhǔn)確）從頭組裝的分級基因組組裝過程(HGAP)不能直接應(yīng)用于轉(zhuǎn)錄組問題(HGAP描述于2013年7 月12日提交的美國專利申請13/941,442)。
[0029] "準(zhǔn)種問題"是一般轉(zhuǎn)錄組聚類問題的具體應(yīng)用。像轉(zhuǎn)錄組測序那樣，簇的總量是未知的并且必須迭代地"猜測"簇和簇共有區(qū)。對于HIV基因組而言，該問題更簡單，因?yàn)镠IV 基因組是已知的并且目前可著眼于預(yù)期的突變數(shù)量。Zogardi等，（2010) "HIV準(zhǔn)物種的可靠估計(jì)和下一代測序數(shù)據(jù)的錯誤校正（Error correction of next-generation sequencing data and reliable estimation of HIV quasispecies)''Nucl.Acids.Res·doi:10·1093/ nar/gkq655中提供了準(zhǔn)物種問題的其他信息，其通過引用全文納入本文用于所有目的。
[0030] 按照示例性實(shí)施方式，提供了解決轉(zhuǎn)錄組測序中的錯誤的問題的算法。然而，與使用"種子讀數(shù)（seed read)"來比對較短讀數(shù)以生成高度精確的預(yù)組裝讀數(shù)的HGAP概念不同，示例性實(shí)施方式的算法采用簇共有區(qū)。
[0031] 示例性實(shí)施方式一般涉及從混合群體中生成共有序列。更具體地，示例性實(shí)施方式提供了基于主要使用長讀數(shù)數(shù)據(jù)的同種型迭代聚類對讀數(shù)進(jìn)行錯誤校正的方法和系統(tǒng)。迭代計(jì)算各輸入序列讀數(shù)屬于各簇的概率，然后將序列重分配至具有更高成員概率的簇。另外，該進(jìn)程合并高度相似的簇。按照示例性實(shí)施方式，迭代同種型水平聚類去除了轉(zhuǎn)錄本冗余并且改進(jìn)了轉(zhuǎn)錄組共有區(qū)準(zhǔn)確性，全部都不需要參照基因組。
[0032]計(jì)算機(jī)實(shí)施
[0033]圖1是顯示用于實(shí)施用于錯誤校正的序列數(shù)據(jù)迭代聚類的進(jìn)程的計(jì)算機(jī)系統(tǒng)的一個實(shí)施方式的圖。在【具體實(shí)施方式】中，本發(fā)明可整體或部分體現(xiàn)在固定介質(zhì)上記錄的軟件。計(jì)算機(jī)100可以是具有至少一個處理器1〇2(例如，CHJ等）、存儲器103、輸入/輸出（1/0) 104,、和數(shù)據(jù)儲存庫106的任意電子裝置。CPU102、存儲器103、1/0 104以及數(shù)據(jù)存儲庫106 可通過系統(tǒng)總線，或者使用任意類型的通信連接來連接。雖然未顯示，計(jì)算機(jī)100也可包括用于有線和/或無線通信的網(wǎng)絡(luò)接口。在一個實(shí)施方式中，計(jì)算機(jī)100可包括個人計(jì)算機(jī)(例如，臺式機(jī)、筆記本、平板等）、服務(wù)器、客戶端計(jì)算機(jī)，或可穿戴裝置。在另一個實(shí)施方式中，計(jì)算機(jī)100可包括任意類型的用于與遠(yuǎn)程數(shù)據(jù)應(yīng)用相互作用的信息電器，并且能夠包括這類裝置如互聯(lián)網(wǎng)功能電視、手機(jī)等。
[0034]處理器控制計(jì)算機(jī)100的運(yùn)行并且可從存儲器103和/或數(shù)據(jù)存儲庫106讀取信息 (例如，指令和/或數(shù)據(jù))并且相應(yīng)執(zhí)行指令以執(zhí)行示例性實(shí)施方式。術(shù)語"處理器102"往往包括一個處理器、多個處理器，或者一個或多個多核處理器。
[0035] 1/0 104可包括任意類型的輸入裝置，如鍵盤、鼠標(biāo)、麥克風(fēng)等，以及任意類型的輸出裝置，例如，監(jiān)視器和打印機(jī)。在計(jì)算機(jī)100包括服務(wù)器的一個實(shí)施方式中，輸出裝置可耦合至本地客戶端計(jì)算機(jī)。
[0036] 存儲器103可包括任意類型的靜態(tài)或動態(tài)存儲器，包括閃存、DRAM、SRAM等。存儲器 103可存儲程序和數(shù)據(jù)，包括序列比對器/重疊器110、簇共有區(qū)算法111、迭代簇錯誤校正 (ICE)組件112,和平滑組件114(例如，Quiver)。這些組件/算法可用于本文所述的轉(zhuǎn)錄組序列組裝進(jìn)程。
[0037] 數(shù)據(jù)存儲庫106可存儲幾個數(shù)據(jù)庫，包括其存儲序列讀數(shù)116、讀數(shù)質(zhì)量值(下文中 QV)118、最大團(tuán)120、簇122、簇共有區(qū)124、概率126,和最終共有序列128的一個或多個數(shù)據(jù) 庫。造轉(zhuǎn)錄組測序?qū)嵤┓绞街校蛄凶x數(shù)116包括同種型序列讀數(shù)，其可包括全長序列讀數(shù) (下文"全長讀數(shù)"）116-1和非全長序列讀數(shù)(下文"非全長讀數(shù)"）116-2。同樣，在該實(shí)施方式中，簇122可包括同種型水平簇。
[0038]在一個實(shí)施方式中，數(shù)據(jù)存儲器106可位于計(jì)算機(jī)100內(nèi)。在另一個實(shí)施方式中，數(shù) 據(jù)存儲器106可通過網(wǎng)絡(luò)端口或外部裝置連接至計(jì)算機(jī)100。數(shù)據(jù)存儲庫106可包括分離的服務(wù)器或任意類型的存儲裝置(例如，盤型光學(xué)或磁性介質(zhì)、固態(tài)動態(tài)或靜態(tài)存儲器等）。數(shù) 據(jù)儲存庫106可任選地包括多個輔助存儲裝置，例如，用于分開存儲輸入序列(例如，序列讀數(shù)）、序列信息、計(jì)算結(jié)果和/或其他信息。計(jì)算機(jī)100可在此后使用該信息來指導(dǎo)服務(wù)器或客戶端邏輯，如本領(lǐng)域所理解的那樣，以體現(xiàn)本發(fā)明的方面。
[0039]操作中，操作者可通過顯示屏（未顯示）上呈現(xiàn)的用戶界面與計(jì)算機(jī)100相互作用以指定讀數(shù)116和各種軟件程序所需的其他參數(shù)。一旦援用，包括序列比對器/重疊器110、簇共有區(qū)算法111、I CE組件112和平滑組件114的存儲器103中的程序由處理器102執(zhí)行以實(shí) 施本發(fā)明的方法。
[0040] 序列比對器/重疊器110從數(shù)據(jù)存儲庫106中讀取選擇的序列讀數(shù)116并且在序列讀數(shù)116上進(jìn)行序列比對以鑒定相似的區(qū)域，其可以是結(jié)構(gòu)或功能或其他序列讀數(shù)116之間的關(guān)系的結(jié)果。在一個實(shí)施方式中，全長讀數(shù)116-1-般是高準(zhǔn)確性讀數(shù)，例如，至少約98% 或99%準(zhǔn)確，并且可以是來自提供這種高質(zhì)量讀數(shù)的測序技術(shù)的原始讀數(shù)，或者可以是構(gòu) 建自較低質(zhì)量的測序讀數(shù)數(shù)據(jù)的預(yù)組裝的高質(zhì)量讀數(shù)，如本文他處所述。比對的序列117在序列比對期間由序列比對器/重疊器110生成。在某些實(shí)施方式中，序列比對器/重疊器110 以C、C++、Java、C#、F#、Python、Peri、Haskell、3〇&1&、1^8卩、？丫1:11〇11/〇混合式和本領(lǐng)域已知的其他語言執(zhí)行。
[0041] ICE組件112通過基于相似性和最大團(tuán)120將序列讀數(shù)116分成初始簇的集來生成類似序列讀數(shù)的簇122。簇共有區(qū)算法111生成各簇的簇共有區(qū)12LICE組件112然后通過基于簇共有區(qū)124和與序列讀數(shù)相關(guān)的質(zhì)量值的迭代來迭代改進(jìn)聚類，其包括將基于計(jì)算機(jī) 概率126序列讀數(shù)116從一個簇重分配至另一個簇，并且合并基本相似的簇。然后，平滑組件 114可按照示例性實(shí)施方式生成各簇122的最終簇共有區(qū)128,如下文進(jìn)一步所述。
[0042]該處理的輸出可包括最終共有序列128的列表，其各自代表簇的"共有區(qū)"。在一個實(shí)施方式中，各簇122可代表單一、獨(dú)特的轉(zhuǎn)錄本。因此，在一個實(shí)施方式中，本發(fā)明可提供使用全長讀數(shù)116-1從混合群體中鑒定獨(dú)特的全長轉(zhuǎn)錄本的集的方法和系統(tǒng)。
[0043]在一個實(shí)施方式中，處理的結(jié)果還可任選地包括質(zhì)量信息、技術(shù)信息（例如，峰特征、預(yù)期的錯誤率）、替代(例如，第二或第三好)共有區(qū)確定、置信標(biāo)準(zhǔn)等。在產(chǎn)生初始簇、生成簇共有區(qū)、迭代聚類和生成最終簇共有區(qū)的進(jìn)程期間和之后，這一處理的過程和/或結(jié)果可保存到存儲器103和數(shù)據(jù)存儲庫106和/或通過I/O 104輸出用于在顯示裝置上顯示和/或保存到其他存儲裝置(例如，CD、DVD、藍(lán)光、閃存卡等），或打印。
[0044]圖2是顯示按照示例性實(shí)施方式用于錯誤校正的序列讀數(shù)的迭代聚類的進(jìn)程的某些方面的流程圖。在一個實(shí)施方式中，可使用該進(jìn)程來校正轉(zhuǎn)錄組測序期間長讀數(shù)中的錯誤。該進(jìn)程可通過序列比對器/重疊器110、簇共有區(qū)算法111、ICE組件112、和平滑組件114 的組合來進(jìn)行（圖1 )，其雖然顯示為分開的組件，各自的功能可合并成較少或較大數(shù)量的軟件算法/組件。
[0045]可通過接收一組序列讀數(shù)116和相關(guān)的質(zhì)量值118(塊200)來開始該進(jìn)程。序列讀數(shù)116優(yōu)選包括但不限于一組全長的長讀數(shù)116-1。質(zhì)量值(QV)IlS是由測序機(jī)器生成的對每個位置堿基判定準(zhǔn)確性的估計(jì)。
[0046]迭代聚類錯誤校正（ICE)組件112基于序列相似性(塊202)將序列讀數(shù)分成初始簇的集。簇共有區(qū)算法111生成各初始簇的簇共有區(qū)124(塊204) <JCE組件112基于與序列讀數(shù) 相關(guān)的質(zhì)量值118和簇共有區(qū)迭代改進(jìn)聚類(塊206)，如下文進(jìn)一步詳述。
[0047]在其他實(shí)施方式中，該進(jìn)程還包括生成并輸出各簇的最終簇共有區(qū)128(塊208)。在一個實(shí)施方式中，最終簇共有區(qū)128可包括最終簇共有序列的列表，其各自代表簇的共有序列（并且因此在一個實(shí)施方式中代表轉(zhuǎn)錄本）。在一個實(shí)施方式中，一旦完成了迭代聚類進(jìn)程，即可生成最終簇共有區(qū)128。在輸入包括全長讀數(shù)116-1的另一個實(shí)施方式中，可通過將非全長讀數(shù)116-2輸入最終平滑進(jìn)程，其隨后生成最終簇共有區(qū)128來生成最終簇共有區(qū)。如本領(lǐng)域所熟知，最終簇共有區(qū)128可保存到，例如，存儲器103和/或數(shù)據(jù)存儲庫106，或送至I/O 104用于在監(jiān)視器上顯示和/或由打印機(jī)打印。
[0048]上述步驟的進(jìn)一步詳細(xì)描述見下。
[0049] 序列讀數(shù)
[0050] 轉(zhuǎn)錄本同種型測序的一個目的是使用準(zhǔn)確、未組裝的、全長的長讀數(shù)理解轉(zhuǎn)錄組復(fù)雜性。通過測序機(jī)器自動捕獲并鑒定全長讀數(shù)116-1，但是示例性實(shí)施方式通過迭代聚類提尚準(zhǔn)確性。
[0051 ]在示例性實(shí)施方式中，輸入序列讀數(shù)116包括例如轉(zhuǎn)錄本的全長的長讀數(shù)116-1。然而，在另一個實(shí)施方式中，輸入序列讀數(shù)116可包括非全長讀數(shù)116-2。序列讀數(shù)116可任選地包括冗余序列信息，例如，其中相同的轉(zhuǎn)錄本經(jīng)重復(fù)測序以生成包括轉(zhuǎn)錄本的多個拷貝的長序列讀數(shù)。此外，與序列讀數(shù)116相關(guān)的其他信息可包括相關(guān)的測序技術(shù)輸出的特征 (例如，蹤跡特征（積分的每峰計(jì)數(shù)、峰的形狀/高度/寬度、與相鄰峰的距離、相鄰峰的特征）、信噪比、功率噪音比、背景標(biāo)準(zhǔn)、信號強(qiáng)度、反應(yīng)動力學(xué)等)等。
[0052]初始聚類
[0053]迭代聚類進(jìn)程包括2個階段。第一階段包括基于序列相似性將序列讀數(shù)116分成初始簇的集(塊202)。在一個實(shí)施方式中，例如，使用初始聚類有助于確定那些序列讀數(shù)116來自相同的轉(zhuǎn)錄本同種型。聚類的背景想法是對源自相同同種型的多個拷貝的多個序列讀數(shù) 的觀察。例如，以下顯示了源自相同同種型的轉(zhuǎn)錄本讀數(shù)的3個拷貝：
[0054] TGGGAGCCTATGCGACAATGAAACCTG..·
[0055] TGGAGCAATATGCGAACAATAAAACCTC..·
[0056] TGGAGCATATGCGAACAATAAAACGGG..·
[0057]其中，加粗的堿基表示主要是插入缺失標(biāo)記(插入或缺失）的隨機(jī)分布錯誤。對這類源自相同同種型的讀數(shù)的聚類可能產(chǎn)生更高準(zhǔn)確性的共有序列。
[0058] 比對
[0059]圖2顯示了初始聚類進(jìn)程的進(jìn)一步詳細(xì)說明（塊202)。在一個實(shí)施方式中，初始聚類進(jìn)程可通過由序列比對器/重疊器110比對序列讀數(shù)116開始產(chǎn)生比對的讀數(shù)?？墒褂迷S 多已知的序列比對進(jìn)程，例如，使用基本局部比對與連續(xù)細(xì)化(Basic LocaI Al ignment with Successive Refinement) (BLASR)算法映射單一分子測序讀數(shù)116,進(jìn)一步描述于美國專利公開號20120330566,其通過引用全文納入本文用于所有目的。
[0060] 圖3是顯示來自已經(jīng)使用序列比對器/重疊器110比對以產(chǎn)生比對的讀數(shù)300的相同同種型的2個讀數(shù)的示例性部分的圖。在該實(shí)施例中，顯示為"查詢"的第一比對的讀數(shù)的長度是l，675bp，并且顯示為"目標(biāo)"的第二比對的讀數(shù)的長度是l，680bp。比對的讀數(shù)300之間的比對（"nMatch"）是1.6kbp并且相似性百分比（"％ sim"）是99.1677，其包括2個插入和 11個缺失的插入缺失標(biāo)記(表不為"*"）。
[0061] 比對之后，下一個步驟是形成同種型簇?？墒褂脜⒄栈蚪M并且將讀數(shù)與參照基因組比對并且確定位于特定基因座的讀數(shù)代表同種型。然而，每個基因座存在許多尚未確定的替代性同種型。另外，該方法依賴于比對器并且需要以好的參照基因座開始，這限制了該方法應(yīng)用于具有已存在的參照基因組的那些應(yīng)用。
[0062] 按照一個示例性實(shí)施方式，提供了不使用參照基因組鑒定同種型簇，并因此適用于不存在參照基因組的應(yīng)用的方法和系統(tǒng)。
[0063]相似性圖像
[0064]再次參考圖2,在比對之后，使用比對的讀數(shù)300來構(gòu)建相似性圖像(塊202-2)。構(gòu) 建相似性圖像，使得各序列讀數(shù)116表示為圖像中的節(jié)點(diǎn)，并且序列讀數(shù)116之間的比對表示為節(jié)點(diǎn)之間的連接邊緣，以顯示2個序列讀數(shù)具有比對命中（即，足夠高的相似性百分比）。
[0065]圖4是顯示示例性相似性圖像400的圖。用于發(fā)現(xiàn)同種型聚類的算法采用成對比對，其中相似性圖像400中的各節(jié)點(diǎn)402表示讀數(shù)，并且連接節(jié)點(diǎn)對的邊緣404表示存在成對比對，如圖3所示，其中查詢和目標(biāo)讀數(shù)由于其高的相似性百分比將在圖像中表示為節(jié)點(diǎn) 402的對并且通過邊緣404連接。
[0066] 最大團(tuán)
[0067] 一般而言，類似性圖像進(jìn)程導(dǎo)致形成多個相似性圖像400。再次參考圖2,之后在相似性圖像中發(fā)現(xiàn)所有最大團(tuán)(塊202-3)。團(tuán)（chique)是指包括節(jié)點(diǎn)的集的圖像，其中對于每 2個節(jié)點(diǎn)402存在連接兩者的邊緣。最大團(tuán)是不含與其他團(tuán)重疊的節(jié)點(diǎn)402的最大可能尺寸的團(tuán)。最大團(tuán)發(fā)現(xiàn)算法非確定性地將相似性圖像400劃分成不重疊的最大團(tuán)。存在許多發(fā)現(xiàn) 所有最大團(tuán)的方法。在一個實(shí)施方式中，可運(yùn)行最大團(tuán)發(fā)現(xiàn)算法，如貪婪隨機(jī)自適應(yīng)檢索法，其迭代構(gòu)建隨機(jī)化的、貪婪偏差的解決方案，其然后擴(kuò)大到局部最優(yōu)解決方案。參見例如，Abello等，On maximum clique problems in very large graphs(非常大圖像中最大團(tuán)問題的研究），AT&T實(shí)驗(yàn)室研究技術(shù)報(bào)告(AT&T labs Research Technical Report)， 1998，其通過引用全文納入本文用于所有目的。
[0068]將相似性圖像400劃分成非重疊最大團(tuán)需要比較序列讀數(shù)116以檢測同種型比對差異以確定序列讀數(shù)116是否屬于相同的團(tuán)。一種檢測同種型比對差異的方法是檢測2個比對的讀數(shù)之間的比對中的大間隙。例如，如果考慮2個比對的讀數(shù)，其中一個相對另一個有大插入，則非常可能插入是額外的外顯子，并且因此，可檢測到同種型差異。然而，檢測同種型比對差異隨著比對中的間隙變得越來越小而變得越來越有問題。例如，2個比對的讀數(shù)之間僅7個堿基的插入差異可能表示聚合物延伸。需要確定的是，這是真同種型差異還是序列錯誤。
[0069]按照示例性實(shí)施方式的一個方面，可通過促使來自包括插入的原始讀數(shù)序列116 的各堿基與估計(jì)每個位置的準(zhǔn)確性并且顯示各堿基是取代錯誤、插入錯誤或缺失錯誤的概率的質(zhì)量值(QV)相關(guān)的事實(shí)改變來從序列錯誤中確定同種型差異。
[0070] 圖5是顯示一個用于區(qū)分比對的讀數(shù)300之間的同種型差異與序列錯誤的實(shí)施方式的圖。在一個實(shí)施方式中，可使用差異陣列500來保持2個比對的讀數(shù)300之間的位置差異的蹤跡。在各堿基位置處有"+"的2個比對的讀數(shù)300之上和之下的取代(S)、插入(I)和缺失 (D)的行顯示相關(guān)的QV 118表示足夠可能出現(xiàn)錯誤的位置。差異陣列500中的各位置可包括值，例如，0或1，其中0值表示2個比對的讀數(shù)300之間的差異是由于測序錯誤造成的（而不是真同種型差異），并且1值表示2個比對的讀數(shù)300之間的差異不能由測序錯誤解釋。
[0071] 然后確定在差異陣列中是否存在任何足夠大的1值的區(qū)域，即從[I，J]中尋找大于或等于閾值長度T的范圍，并且1值的區(qū)域的總和大于閾值百分比C的差異陣列中的區(qū)域：
[0072]
[0073]例如，估計(jì)閾值長度T設(shè)為10個堿基，并且閾值百分比C設(shè)為50%。將檢索差異陣列 500中長于10個堿基的其中超過50%的堿基具有1值的區(qū)域。如果無法發(fā)現(xiàn)這種區(qū)域，則2個比對的讀數(shù)300可被認(rèn)為來自相同同種型。在圖5所示的示例中，差異陣列500中不存在這種區(qū)域，使得2個比對的讀數(shù)300被確定為來自相同同種型并且因此置于同一團(tuán)中。如果，另一方面，發(fā)現(xiàn)這種區(qū)域，則將確定2個比對的讀數(shù)300來自不同的同種型并且因此不會放在同一團(tuán)中。對于其他信息，參見Tseng和Tompa，用于在多個序列比對中定位極端保守的元件的算法（Algorithms for Locating Extremely Conserved Elements in Multiple Sequence Alignments)，BMC Bioinformatics(2009)，其通過引用全文納入本文用于所有目的。
[0074]注意根據(jù)定義，團(tuán)需要各節(jié)點(diǎn)402互相連接。按照示例性實(shí)施方式，在最大團(tuán)發(fā)現(xiàn) 進(jìn)程之后，術(shù)語"團(tuán)"將置于更寬的術(shù)語"簇"之下，因?yàn)樵谧畲髨F(tuán)發(fā)現(xiàn)進(jìn)程之后不需要或使用節(jié)點(diǎn)之間的邊緣404。
[0075]在比對之后，構(gòu)建相似性圖像和最大團(tuán)發(fā)現(xiàn)進(jìn)程(塊202-1到202-3)，如何分組序列讀數(shù)116的問題一般可能仍然存在。即，在形成的第一組簇中可能存在模糊性。例如，在圖 4中，對于節(jié)點(diǎn)/讀數(shù)402的對，可發(fā)現(xiàn)最大團(tuán)發(fā)現(xiàn)進(jìn)程對節(jié)點(diǎn)/讀數(shù)402屬于哪個團(tuán)是模糊的。最大團(tuán)發(fā)現(xiàn)僅僅是對各團(tuán)成員的初始估計(jì)。因此，在該進(jìn)程的階段1結(jié)束時，一些序列讀數(shù)116可能被分配至不正確的簇，并且一些應(yīng)該在一起的序列讀數(shù)116可能被分配至分開的簇。
[0076] 圖6是顯示初始分配至錯誤簇112的序列讀數(shù)的示例的圖，其中相同填充特征的序列讀數(shù)/節(jié)點(diǎn)來自相同同種型。如圖所示，標(biāo)記1-3的序列讀數(shù)已被不正確地放在與序列讀數(shù)4-5不同的簇中，其全部來自相同同種型。另外，序列讀數(shù)11和12被不正確地與讀數(shù)12分為一組，并且讀數(shù)6已被不正確地與讀數(shù)7-9的組分開。
[0077] 再次參考圖2,按照示例性實(shí)施方式，在初始聚類202之后進(jìn)行的進(jìn)程設(shè)計(jì)為解決初始簇122的模糊性。
[0078]簇共有區(qū)
[0079]在形成初始簇122之后，簇共有區(qū)算法111生成各初始簇的簇共有區(qū)124(塊204)，其中各簇共有區(qū)124用于表示簇的所有成員的序列。簇共有區(qū)生成是本領(lǐng)域熟知的。例如，簇共有區(qū)算法111可基于使用有向非循環(huán)圖來編碼多個序列比對，例如，DAGCon(有向非循環(huán)圖共有區(qū)）算法?？紤]比對的讀數(shù)300的集合，DAGCon取了一組成對的比對，其針對其他讀數(shù)所比對的參照或主干/種子進(jìn)行比對(基因組從頭組裝，最長的序列讀數(shù)用作主干/種子）以生成有向非循環(huán)圖，其中各條通過圖的路徑表示比對之一。該圖然后簡化并且確定最可能的通過圖的路徑，其為共有區(qū)。參見Chin等，來自長讀數(shù)SMRT測序數(shù)據(jù)的非混合、精煉微生物基因組組裝（Nonhybrid，finished microbial genome assemblies from long-read SMRT sequencing data) ,Nature Methods(2013)，其通過引用納入本文。
[0080] 圖7是顯示分別針對各簇122生成的示例性簇共有區(qū)C1、C2、C3和C4,其中各輸入讀數(shù)序列116精確地屬于一個簇122。
[0081] 再次參考圖2,在簇共有區(qū)生成(塊204)之后，援用錯誤校正（ICE)進(jìn)程的迭代聚類的第二階段。ICE的第二階段由基于簇共有區(qū)124和質(zhì)量值118迭代改進(jìn)聚類開始(塊206)。在該進(jìn)程中，讀數(shù)序列116從一個簇自動"再分配"到另一個簇，或者命名為"?瓜兒"并且用于生成新簇，如果序列讀數(shù)被確定為不屬于任意已有簇，并且合并高度相似的簇，如下所述。 [0082]圖2顯示了用于迭代改進(jìn)聚類的進(jìn)程(塊206)的進(jìn)一步詳細(xì)說明。ICE組件112可通過使用質(zhì)量值(QV)計(jì)算屬于各簇(C)的各序列讀數(shù)(S)的概率來開始迭代進(jìn)程(塊206-1)。這可通過將各簇122中的各序列讀數(shù)116與各簇共有區(qū)C比對來完成。更具體地，各讀數(shù)Si與各簇共有區(qū)Cu比對，其中"i" = l至序列讀數(shù)的總數(shù)，并且"u"=l至簇共有區(qū)的總數(shù)(在圖7 所示的實(shí)施例中，i = 12并且u = 4)。
[0083] 如果使用上述的檢測同種型比對差異的進(jìn)程，現(xiàn)有的序列讀數(shù)(S)沒有以足夠高的相似性百分比與任意簇共有區(qū)(C)比對上（即，沒有同種型命中），則由于該序列具有差的概率而忽略該序列讀數(shù)。在一個實(shí)施方式中，可使用線性時間算法來濾去具有較大插入缺失標(biāo)記的比對。（參見，例如，用于在多重序列比對中定位極端保守的元件的算法 (Algorithms tor locating extremely conserved elements in multiple sequence alignments),Tseng和Tompa，BMC Bioinformatics，2009)〇
[0084] 如果現(xiàn)有的序列讀數(shù)不與簇共有區(qū)中的一個或多個比對，則ICE組件112考慮現(xiàn)有讀數(shù)的QV和簇共有區(qū)計(jì)算現(xiàn)有讀數(shù)屬于各簇的概率：
[0085] Pr(Si|Cu,QVs(Si))
[0086] 如果QV不可得，則：
[0087] ?1"(3;[|(]11(^8(3;〇) = (9匹配）計(jì)數(shù)（匹配）（1/3981113)計(jì)數(shù)（81113)(1/30;[118)計(jì)數(shù) (;[118)(1/30(161)計(jì)數(shù)((161)，
[0088] 其中Θ分別是取代(sub)、插入(ins)和缺失(de 1)的匹配概率。
[0089] 參考圖7作為示例，當(dāng)計(jì)算讀數(shù)6的概率時，ICE組件112確定讀數(shù)6屬于簇共有區(qū)C3 的概率大于讀數(shù)6(S6)屬于簇共有區(qū)C4的概率：
[0090] Pr(S6|C3)>Pr(S6|C4)
[0091] 這可能是由于簇C3含有來自與S6同組的同種型。
[0092] 概率計(jì)算的輸出是對各讀數(shù)序列屬于各簇122計(jì)算的概率的列表。在一個實(shí)施方式中，計(jì)算的概率的數(shù)量是節(jié)點(diǎn)/序列讀數(shù)的總數(shù)乘以簇的總數(shù)，一些概率具有"未知"的值。
[0093] 再次參考圖2,在計(jì)算概率之后，ICE組件112將來個體序列讀數(shù)從一個簇重分配至具有最高計(jì)算概率的另一個簇(塊206-2)。
[0094]圖8是顯示將序列讀數(shù)從一個簇重分配至具有最高的計(jì)算成員概率的簇的圖。該實(shí)施例顯示將讀數(shù)6從簇C4重分配至C3。
[0095]應(yīng)理解如果確定對現(xiàn)有序列讀數(shù)有最高計(jì)算概率的簇就是該序列讀數(shù)已經(jīng)是成員的簇，則沒有重分配。
[0096] 再次參考圖2,按照示例性實(shí)施方式的另一個方面，如果不存在比對（即任意序列讀數(shù)與簇之間的概率未知)或如果線性時間算法排除了任意序列讀數(shù)的所有比對，則序列讀數(shù)可被視為孤兒，然后可從孤兒形成新簇(塊206-3)。新簇可使用與上述初始階段相同的過程從孤兒形成。
[0097] 圖9是顯示從孤兒序列產(chǎn)生新簇的示例的圖。在該實(shí)施例中，確定讀數(shù)S12沒有同種型命中。讀數(shù)S12被稱作孤兒并且產(chǎn)生含讀數(shù)S12的新簇C6。
[0098] 上述方法存在一個小問題，即當(dāng)孤兒被分配至新簇，例如C6時，其僅有一個序列讀數(shù)，該讀數(shù)是其本身的代表。因此，具有一個序列讀數(shù)的簇的計(jì)算概率將始終是1，這表示沒有其他的簇會對該讀數(shù)有更高的計(jì)算概率并且該讀數(shù)不會重分配至另一個簇。僅具有一個序列讀數(shù)的簇可被稱為單現(xiàn)突變(singleton)并且沒有成員以產(chǎn)生多樣性，導(dǎo)致單現(xiàn)突變從來沒有節(jié)點(diǎn)可重分配至的更好的簇，即便這樣的一個簇可能存在。
[0099] 按照一個實(shí)施方式，該問題可通過隨機(jī)生成各孤兒節(jié)點(diǎn)的概率來解決。即，隨機(jī)數(shù) 生成器可用于生成預(yù)定范圍，例如0-1的值(可能是其他范圍）。如果隨機(jī)概率小于預(yù)定閾值概率，例如，〇. 30，則孤兒被重分配至對孤兒的成員具有非零計(jì)算概率的簇之一。
[0100] 再次參考圖2，簇經(jīng)處理以確定是否存在基本相同的簇，并且如果存在，將簇合并成新簇(塊206-4)。基本相同的簇可在處理期間發(fā)生，由于大致最大團(tuán)發(fā)現(xiàn)和迭代共有區(qū)判定進(jìn)程。在一個實(shí)施方式中，基于它們的簇共有序列的相似性確定2個簇是否基本相同可能通過用戶限定的參數(shù)，例如相似性百分比= >95%來控制。
[0101] 圖10是顯示2個簇合并的圖。在該實(shí)施例中，來自圖9的之前的簇Cl至C4被確定為同種型命中并且具有大于99.5%的閾值相似性百分比。因此，在圖10中，簇Cl至C4已經(jīng)合并成新簇和相應(yīng)的簇共有區(qū)C7。
[0102 ]再次參考圖2，每次簇的數(shù)量變化時，相應(yīng)的簇共有區(qū)也可能變化。因此，I CE組件 112更新各變化的簇的簇共有區(qū)并且更新所有序列讀數(shù)的概率Pr(Si|Cu，QVS(Si))(塊206-5)。這通過經(jīng)線206-6判定簇共有區(qū)算法lll(塊204)來完成，并且因此產(chǎn)生錯誤校正進(jìn)程的迭代聚類的第二階段的"迭代環(huán)"，其第一步驟是重計(jì)算各序列讀數(shù)的概率(塊206-1)。
[0103] 在一個實(shí)施方式中，簇共有區(qū)算法111可在每次發(fā)生變化時產(chǎn)生簇的簇共有區(qū) 124。然而，在一個實(shí)施方式中，當(dāng)基于簇大小判定簇共有區(qū)算法111即如果簇大小較大時，可任選地使用預(yù)定閾值來限制，如果特定簇中節(jié)點(diǎn)的數(shù)量大于預(yù)定閾值，判定簇共有區(qū)算法111可跳過塊206-5。在某些實(shí)施方式中，簇共有區(qū)算法步驟是可并行的。
[0104] 在一個實(shí)施方式中，新的額外序列讀數(shù)可在第二階段期間的任何時候通過將額外序列讀數(shù)針對所有已有共有序列比對來增加至已有的簇組。如果已有簇C具有最高的在后概率并且比對不被拒絕，則新的序列分配至簇C。否則，該序列讀數(shù)可如上述初始階段那樣被認(rèn)為孤兒并且形成新簇。
[0105] 一旦通過重分配序列讀數(shù)和/或合并簇?zé)o法進(jìn)一步改進(jìn)簇，則用于錯誤校正進(jìn)程的迭代聚類(塊206)完成。
[0106] 一旦用于錯誤校正進(jìn)程的迭代聚類完成，則判定平滑組件114使共有區(qū)結(jié)果平滑 (塊208)。在一個實(shí)施方式中，平滑組件114可基于Quiver算法，如2013年7月12日提交的 U.S. 13/941,442中所述，其通過引用納入本文。如上所述，ICE組件112判定簇共有區(qū)算法 111生成各簇的簇共有區(qū)。在一個實(shí)施方式中，這些簇共有區(qū)用作全長讀數(shù)116-1在迭代聚類進(jìn)程期間所比對的"參照"。
[0107]按照示例性實(shí)施方式的一個方面，平滑(polishing)步驟的輸入可包括簇共有區(qū) 和非全長讀數(shù)116-2,其然后比對至各簇共有區(qū)用作參照。在平滑期間，非全長讀數(shù)116-2用于向序列讀數(shù)施加全覆蓋率以使用上述相同的"同種型命中"標(biāo)準(zhǔn)提供更高水平的共有區(qū)。在一個實(shí)施方式中，與全長輸入序列不同，非全長讀數(shù)116-2不必排他性地比對并且可屬于多個簇。同樣，使用線性時間算法來拒絕不利的比對。一旦非全長讀數(shù)116-2與簇共有區(qū)比對，則平滑組件114生成各簇的最終共有序列128(圖1)。該進(jìn)程的輸出可包括最終共有區(qū) 128的列表，其各自代表簇的"共有"序列。在一個實(shí)施方式中，各簇可用于表示單一、獨(dú)特的轉(zhuǎn)錄本。
[0108]在另一個實(shí)施方式中，最終簇共有區(qū)128可映射至基因組，其中去除冗余并且同種型塌縮，從而生成高質(zhì)量全長同種型。
[0109]按照示例性實(shí)施方式，用于錯誤校正進(jìn)程的序列讀數(shù)的迭代聚類可具有許多應(yīng) 用。例如，ICE可用于全長cDNA測序、生物信息學(xué)分析和生物學(xué)應(yīng)用。
[0110]全長cDNA測序的示例可包括，但不限于，構(gòu)建全長轉(zhuǎn)錄本富集的cDNA文庫;使用瓊脂糖凝膠或BluePippin?系統(tǒng)進(jìn)行尺寸選擇;對全長達(dá)到IOkb的轉(zhuǎn)錄本進(jìn)行測序;和對各轉(zhuǎn) 錄本進(jìn)行單分子觀察。
[0111] 除了同種型水平聚類以生成高質(zhì)量轉(zhuǎn)錄本共有序列，生物信息學(xué)分析的示例可包括，但不限于，鑒定推定的全長轉(zhuǎn)錄本;和檢測人工嵌合體。
[0112] 最后，生物學(xué)應(yīng)用的示例可包括，但不限于，新轉(zhuǎn)錄本;替代性剪接;替代性聚腺苷酸化;保留的內(nèi)含子;融合基因；和反義轉(zhuǎn)錄。
[0113] 在一些實(shí)施方式中，該系統(tǒng)包括可操作地耦合至處理器的計(jì)算機(jī)可讀介質(zhì)，其儲存由處理器執(zhí)行的指令。指令可包括下述的一種或多種:接收序列讀數(shù)的輸入的指令(和，任選的，參照序列信息）、構(gòu)建預(yù)組裝的讀數(shù)的指令、比對序列讀數(shù)的指令、生成字符串圖像的指令、生成圖像的指令、鑒定字符串束的指令、確定主要重疊群的指令、確定相關(guān)重疊群的指令、校正讀數(shù)的指令、生成共有序列的指令、生成單倍型序列的指令、計(jì)算/儲存與方法的各步驟相關(guān)的信息的指令(例如，字符串圖像中的邊緣和節(jié)點(diǎn)，字符串圖像中的重疊和分支點(diǎn)、主要和相關(guān)重疊群）、和記錄該方法結(jié)果的指令。
[0114] 在某些方面中，該方法是計(jì)算機(jī)實(shí)施的方法。在某些方面中，算法和/或結(jié)果（例如，生成的共有序列)在計(jì)算機(jī)可讀介質(zhì)上儲存，和/或在屏幕或打印紙張上顯示。在某些方面中，結(jié)果經(jīng)進(jìn)一步分析，例如，以鑒定遺傳變異，以鑒定序列信息的一個或多個來源，以鑒定個體或物種之間保守的基因組區(qū)域，以確定2個個體之間的相關(guān)性，以提供個體診斷或預(yù) 后，或以提供健康護(hù)理專業(yè)人員可用于確定患者的合適治療策略的信息。
[0115] 此外，本發(fā)明的功能性方面在計(jì)算機(jī)或其他邏輯處理系統(tǒng)或電路上實(shí)施，如本領(lǐng) 域普通技術(shù)人員所理解，可使用任意合適的實(shí)施環(huán)境或編程語言如C、C++、C 〇bol、PaScal、如￥3、拓￥3-8(^1?丨、肌]^、1]^、(1肌]^、匯編或機(jī)器代碼編程、1?11等來實(shí)施或完成。
[0116] 在某些實(shí)施方式中，計(jì)算機(jī)可讀介質(zhì)可包括硬盤驅(qū)動、輔助存儲器、外部存儲器、服務(wù)器、數(shù)據(jù)庫、便攜式存儲裝置(⑶-R、DVD、ZIP盤、閃存卡等)等的任意組合。
[0117] 在一些方面中，本發(fā)明包括用于多倍體基因組字符串圖像匯編的制品，其包括含有一個或多個程序的機(jī)器可讀介質(zhì)，該程序在執(zhí)行時實(shí)施本文所述的本發(fā)明的步驟。
[0118] 應(yīng)理解上述說明是示例性的而非限制性的。對本領(lǐng)域的普通技術(shù)人員而言，顯而易見的是，可以對本發(fā)明進(jìn)行各種修改而不會偏離本發(fā)明的范圍和精神。因此，本發(fā)明的范圍不應(yīng)參照以上的說明決定，而應(yīng)參照所附權(quán)利要求及其等同方案的全部范圍決定。在本發(fā)明中，引用多個參考文獻(xiàn)、專利、專利申請和公開。除非另外說明，各自出于所有目的通過引用納入。出于說明和公開可與本發(fā)明關(guān)聯(lián)使用的試劑、方法和概念的目的引用本文所有的出版物。本文并不旨在理解為承認(rèn)這些參考文獻(xiàn)相對于本文所述的發(fā)明是現(xiàn)有技術(shù)。
【主權(quán)項(xiàng)】
1. 一種用于錯誤校正的序列讀數(shù)迭代聚類的方法，所述方法在至少一個處理器上執(zhí)行的至少一個軟件組件上進(jìn)行，包括：接收序列讀數(shù)的集和相關(guān)的質(zhì)量值；將所述序列讀數(shù)基于序列相似性分成初始簇的集；生成各所述初始簇的簇共有區(qū)；基于與所述序列讀數(shù)相關(guān)的質(zhì)量值和所述簇共有區(qū)迭代改進(jìn)所述聚類;并且生成并輸出各所述簇的最終簇共有區(qū)。2. 如權(quán)利要求1所述的方法，其中迭代改進(jìn)所述聚類還包括：使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率；將個體序列讀數(shù)從一個簇重分配至具有最高計(jì)算概率的另一個簇;并且合并高度相似的簇。3. 如權(quán)利要求2所述的方法，其中使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率還包括：將各所述簇中的各序列讀數(shù)與各所述簇共有區(qū)比對；對于沒有以足夠高的相似性百分比與任意簇共有區(qū)比對上的現(xiàn)有序列讀數(shù)，由于具有差的概率而忽略所述序列讀數(shù)；對于與簇共有區(qū)（C)中的一個或多個比對的現(xiàn)有序列讀數(shù)(S)，考慮所述現(xiàn)有讀數(shù)的質(zhì) 量值(QV)和簇共有區(qū)來計(jì)算所述現(xiàn)有序列讀數(shù)屬于各所述簇的概率： Pr(Si|Cu，QVs(Si))。4. 如權(quán)利要求3所述的方法，其中對于QV不可得，則計(jì)算： Pr(Si|Cu QVs(Si)) = (9匹配）計(jì)數(shù)（匹配）（1/3 0sub)計(jì)數(shù)（sub)(l/3 0ins)計(jì)數(shù) (ins)(l/3 0del)計(jì)數(shù)(del)，其中Θ分別是取代(sub)、插入(ins)和缺失(del)的匹配概率。5. 如權(quán)利要求2所述的方法，還包括：對于任意所述序列讀數(shù)和任意所述簇之間沒有比對，認(rèn)為所述序列讀數(shù)是孤兒，并且從所述孤兒形成新簇。6. 如權(quán)利要求5所述的方法，還包括：對于僅具有一個序列讀數(shù)的新簇，對于各孤兒節(jié)點(diǎn)隨機(jī)生成隨機(jī)概率;并且對于隨機(jī)概率小于預(yù)定閾值概率，則將所述孤兒重分配至對所述孤兒的成員具有非零計(jì)算概率的簇之一。7. 如權(quán)利要求1所述的方法，其中接收的序列讀數(shù)包括全長的長讀數(shù)，并且其中所述生成和輸出最終簇共有區(qū)還包括：將非全長讀數(shù)輸入最終平滑進(jìn)程，其生成最終簇共有區(qū)。8. 如權(quán)利要求5所述的方法，其中所述讀數(shù)包括長度范圍為0.5kb至1、2、3、5、10、15、 20kb的全長的長讀數(shù)。9. 如權(quán)利要求1所述的方法，其中基于序列相似性將所述序列讀數(shù)分成初始簇的集還包括：比對所述序列讀數(shù)以產(chǎn)生比對的讀數(shù)；使用所述比對的讀數(shù)構(gòu)建相似性圖像;并且使用所述相似性圖像發(fā)現(xiàn)最大團(tuán)。10. 如權(quán)利要求9所述的方法，其中發(fā)現(xiàn)最大團(tuán)包括:非確定性地將所述相似性圖像劃分成非重疊最大團(tuán)。11. 一種在計(jì)算機(jī)可讀介質(zhì)上存儲的可執(zhí)行軟件產(chǎn)品，所述產(chǎn)品含有用于錯誤校正的序列讀數(shù)迭代聚類的程序指令，所述程序指令在至少一個處理器上執(zhí)行，包括：接收序列讀數(shù)的集和相關(guān)的質(zhì)量值；將所述序列讀數(shù)基于序列相似性分成初始簇的集；生成各所述初始簇的簇共有區(qū)；基于與所述序列讀數(shù)相關(guān)的質(zhì)量值和所述簇共有區(qū)迭代改進(jìn)所述聚類;并且生成并輸出各所述簇的最終簇共有區(qū)。12. 如權(quán)利要求11所述的可執(zhí)行軟件產(chǎn)品，其中迭代改進(jìn)所述聚類還包括：使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率；將個體序列讀數(shù)從一個簇重分配至具有最高計(jì)算概率的另一個簇;并且合并高度相似的簇。13. 如權(quán)利要求12所述的可執(zhí)行軟件產(chǎn)品，其中使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率還包括：將各所述簇中的各序列讀數(shù)與各所述簇共有區(qū)比對；對于沒有以足夠高的相似性百分比與任意簇共有區(qū)比對上的現(xiàn)有序列讀數(shù)，因具有差的概率而忽略所述序列讀數(shù)；對于與簇共有區(qū)（C)中的一個或多個比對的現(xiàn)有序列讀數(shù)(S)，考慮所述現(xiàn)有讀數(shù)的質(zhì) 量值(QV)和簇共有區(qū)來計(jì)算所述現(xiàn)有序列讀數(shù)屬于各所述簇的概率： Pr(Si|Cu，QVs(Si))。14. 如權(quán)利要求13所述的可執(zhí)行軟件產(chǎn)品，其中對于QV不可得，則計(jì)算： Pr(Si|Cu QVs(Si)) = (9匹配）計(jì)數(shù)（匹配）（1/3 0sub)計(jì)數(shù)（sub)(l/39 ins)計(jì)數(shù) (ins)(l/3 0del)計(jì)數(shù)(del)，其中Θ分別是取代(sub)、插入(ins)和缺失(del)的匹配概率。15. 如權(quán)利要求12所述的可執(zhí)行軟件產(chǎn)品，還包括：對于任意所述序列讀數(shù)和任意所述簇之間沒有比對，認(rèn)為所述序列讀數(shù)是孤兒，并且從所述孤兒形成新簇。16. 如權(quán)利要求15所述的可執(zhí)行軟件產(chǎn)品，還包括：對于僅具有一個序列讀數(shù)的新簇，對于各孤兒節(jié)點(diǎn)隨機(jī)生成隨機(jī)概率;并且對于隨機(jī)概率小于預(yù)定閾值概率，則將所述孤兒重分配至對所述孤兒的成員具有非零計(jì)算概率的簇之一。17. 如權(quán)利要求11所述的可執(zhí)行軟件產(chǎn)品，其中接收的序列讀數(shù)包括全長的長讀數(shù)，并且其中所述生成和輸出最終簇共有區(qū)還包括：將非全長讀數(shù)輸入最終平滑進(jìn)程，其生成最終簇共有區(qū)。18. 如權(quán)利要求15所述的可執(zhí)行軟件產(chǎn)品，其中所述讀數(shù)包括長度范圍為0.5kb至1、2、 3、5、10、15、20kb的全長的長讀數(shù)。19. 如權(quán)利要求11所述的可執(zhí)行軟件產(chǎn)品，其中基于序列相似性將所述序列讀數(shù)分成初始簇的集還包括：比對所述序列讀數(shù)以產(chǎn)生比對的讀數(shù)；使用所述比對的讀數(shù)構(gòu)建相似性圖像;并且使用所述相似性圖像發(fā)現(xiàn)最大團(tuán)。20. 如權(quán)利要求19所述的可執(zhí)行軟件產(chǎn)品，其中發(fā)現(xiàn)最大團(tuán)包括:非確定性地將所述相似性圖像劃分成非重疊最大團(tuán)。21. -種用于錯誤校正的序列讀數(shù)迭代聚類的系統(tǒng)，包含：存儲器;和與所述存儲器耦合的處理器，其設(shè)置成：接收序列讀數(shù)的集和相關(guān)的質(zhì)量值；將所述序列讀數(shù)基于序列相似性分成初始簇的集；生成各所述初始簇的簇共有區(qū)；基于與所述序列讀數(shù)相關(guān)的質(zhì)量值和所述簇共有區(qū)迭代改進(jìn)所述聚類;并且生成并輸出各所述簇的最終簇共有區(qū)。22. 如權(quán)利要求21所述的系統(tǒng)，其中迭代改進(jìn)所述聚類還包括：使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率；將個體序列讀數(shù)從一個簇重分配至具有最高計(jì)算概率的另一個簇;并且合并高度相似的簇。23. 如權(quán)利要求22所述的系統(tǒng)，其中使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率還包括：將各所述簇中的各序列讀數(shù)與各所述簇共有區(qū)比對；對于沒有以足夠高的相似性百分比與任意簇共有區(qū)比對上的現(xiàn)有序列讀數(shù)，因具有差的概率而忽略所述序列讀數(shù)；對于與簇共有區(qū)（C)中的一個或多個比對的現(xiàn)有序列讀數(shù)(S)，考慮所述現(xiàn)有讀數(shù)的質(zhì) 量值(QV)和簇共有區(qū)來計(jì)算所述現(xiàn)有序列讀數(shù)屬于各所述簇的概率： Pr(Si|Cu，QVs(Si))。24. 如權(quán)利要求23所述的系統(tǒng)，其中對于QV不可得，則計(jì)算： Pr(Si|Cu QVs(Si)) = (9匹配）計(jì)數(shù)（匹配）（1/3 0sub)計(jì)數(shù)（sub)(l/3 0ins)計(jì)數(shù) (ins)(l/3 0del)計(jì)數(shù)(del)，其中Θ分別是取代(sub)、插入(ins)和缺失(del)的匹配概率。25. 如權(quán)利要求22所述的系統(tǒng)，還包括：對于任意所述序列讀數(shù)和任意所述簇之間沒有比對，認(rèn)為所述序列讀數(shù)是孤兒，并且從所述孤兒形成新簇。26. 如權(quán)利要求25所述的系統(tǒng)，還包括：對于僅具有一個序列讀數(shù)的新簇，對于各孤兒節(jié)點(diǎn)隨機(jī)生成隨機(jī)概率;并且對于隨機(jī)概率小于預(yù)定閾值概率，則將所述孤兒重分配至對所述孤兒的成員具有非零計(jì)算概率的簇之一。27. 如權(quán)利要求21所述的系統(tǒng)，其中所述接收的序列讀數(shù)包括全長的長讀數(shù)，并且其中所述生成和輸出最終簇共有區(qū)還包括：將非全長讀數(shù)輸入最終平滑進(jìn)程，其生成最終簇共有區(qū)。28. 如權(quán)利要求25所述的系統(tǒng)，其中所述讀數(shù)包括長度范圍為0.5kb至1、2、3、5、10、15、 20kb的全長的長讀數(shù)。29. 如權(quán)利要求21所述的系統(tǒng)，其中基于序列相似性將所述序列讀數(shù)分成初始簇的集還包括：比對所述序列讀數(shù)以產(chǎn)生比對的讀數(shù)；使用所述比對的讀數(shù)構(gòu)建相似性圖像;并且使用所述相似性圖像發(fā)現(xiàn)最大團(tuán)。30. 如權(quán)利要求29所述的系統(tǒng)，其中發(fā)現(xiàn)最大團(tuán)包括:非確定性地將所述相似性圖像劃分成非重疊最大團(tuán)。
【文檔編號】G01N33/48GK105849555SQ201480069926
【公開日】2016年8月10日
【申請日】2014年12月10日
【發(fā)明人】H-H·曾
【申請人】加利福尼亞太平洋生物科學(xué)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：H-H·曾;
技術(shù)所有人：加利福尼亞太平洋生物科學(xué)股份有限公司;
我是此專利的發(fā)明人

上一篇：分析物測試儀測試條檢測的制作方法
上一篇：利用低分子量有機(jī)兩性離子的外泌體回收方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、邢老師：1.機(jī)械設(shè)計(jì)及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

迭代聚類相關(guān)技術(shù)

時間序列聚類相關(guān)技術(shù)

時間序列聚類分析相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于錯誤校正的序列讀數(shù)迭代聚類的制作方法