用于錯誤校正的序列讀數(shù)迭代聚類的制作方法
【專利摘要】示例性實(shí)施方式提供了用于錯誤校正的序列讀數(shù)的迭代聚類的方法和系統(tǒng)。示例性實(shí)施方式的方面包括接收序列讀數(shù)的集和相關(guān)的質(zhì)量值;將序列讀數(shù)基于序列相似性分組為初始簇的集;生成各初始簇的簇共有區(qū);基于與序列讀數(shù)相關(guān)的質(zhì)量值和簇共有區(qū)迭代改進(jìn)聚類;并且生成并輸出各簇的最終簇共有區(qū)。
【專利說明】用于錯誤校正的序列讀數(shù)迭代聚類
[0001] 相關(guān)申請的交叉引用
[0002] 本申請要求2013年12月18日提交的題為"用于從混合群體中生成共有序列的方 法"的美國臨時專利申請系列號61/917,777,和2014年7月24日提交的題為"用于錯誤校正 的序列讀數(shù)迭代聚類"的美國臨時專利申請系列號62/028,741的權(quán)益,兩者轉(zhuǎn)讓給本申請 的受讓人,并且通過引用納入本文。
[0003] 發(fā)明背景
[0004] 生物分子序列確定的進(jìn)步,尤其是針對核酸和蛋白質(zhì)樣品,已經(jīng)徹底改變了細(xì)胞 和分子生物學(xué)領(lǐng)域。由自動化測序系統(tǒng)發(fā)展促進(jìn),現(xiàn)在能夠?qū)悠泛怂岬幕旌先哼M(jìn)行測序。 然而,序列信息的質(zhì)量必須得到仔細(xì)監(jiān)控,并且可被與生物分子本身或使用的測序系統(tǒng)相 關(guān)的許多因素削弱,包括生物分子的組成(例如,核酸分子的堿基組成)、實(shí)驗(yàn)和系統(tǒng)雜音、 觀察的信號強(qiáng)度的變化、和反應(yīng)效率的差異。如此,必須采用方法以分析和改善來自這類測 序技術(shù)的數(shù)據(jù)的質(zhì)量。
[0005] 除了影響生成的序列讀數(shù)的總體準(zhǔn)確性以外,這些因素可能使堿基判定為真變異 或者錯判(例如,序列讀數(shù)中的插入、刪除或錯配錯誤)的設(shè)計(jì)復(fù)雜化。例如,當(dāng)序列讀數(shù)具 有在同源染色體之間不同的堿基判定時,能夠確定不同的堿基判定是同源物之間的真變異 或者僅僅是測序錯誤是重要的。另外,個體中的病毒群體可能在群體中的個體病毒基因組 之間存在許多變異,尤其是可高度突變的病毒,如HIV。能夠鑒定具有不同來源(例如,不同 染色體或基因組來源)的測序讀數(shù)是能夠精確表征核酸混合群體的關(guān)鍵。對于生成100%精 確的讀數(shù)的理論測序平臺而言,讀數(shù)可簡單地用簡單字符串比對算法與另一讀數(shù)比較。讀 數(shù)之間的任何差異表明真變異,因此表明不同來源。然而,任何現(xiàn)實(shí)原始測序數(shù)據(jù)可能含有 錯誤,因此簡單字符串匹配算法方法是不足的。當(dāng)對轉(zhuǎn)錄組進(jìn)行測序時尤為如此。
[0006] 轉(zhuǎn)錄組是所有RNA分子的集合,包括一種細(xì)胞或細(xì)胞群體生成的mRNA、rRNA、tRNA 和其他非編碼RNA。因?yàn)樵摂?shù)據(jù)包括細(xì)胞中的所有mRNA轉(zhuǎn)錄本,轉(zhuǎn)錄組反映了在任何給定時 間上正處于主動表達(dá)的基因。目前,有兩種推導(dǎo)轉(zhuǎn)錄組的一般方法。一種方法將序列讀數(shù)映 射到轉(zhuǎn)錄組正受到研究的生物體或緊密相關(guān)的物種參照基因組上。另一種方法是轉(zhuǎn)錄組從 頭組裝,其使用軟件來從短序列讀數(shù)直接推導(dǎo)出轉(zhuǎn)錄本。
[0007] 然而,市售的基因組比對器不能對轉(zhuǎn)錄組測序中的全長度長序列讀數(shù)進(jìn)行錯誤校 正。例如,在PacBio⑧RS II設(shè)備上產(chǎn)生的讀數(shù)平均為5-6kb,并且常規(guī)生成長達(dá)20kb的讀 數(shù)。對于這種長讀數(shù)能力,可對全長mRNA轉(zhuǎn)錄本進(jìn)行測序,例如,在轉(zhuǎn)化為cDNA之后。這可有 助于研究人員鑒定難以使用短讀數(shù)測序技術(shù)重構(gòu)的剪接模式。然而,公共可得的序列比對 器,例如GMAP,和功能性注釋工具幾乎都需要具有接近100%準(zhǔn)確性的讀數(shù)。PacBio設(shè)備從 具有使其難以直接應(yīng)用這些序列比對工具的錯誤特征的單一模板分子生成讀數(shù)。然而,在 測序插入(轉(zhuǎn)錄本)遠(yuǎn)短于聚合酶閱讀長度的情況中,可生成高度準(zhǔn)確的共有序列:通過對 單一分子的冗余測序,cDNA模板的長的長度與系統(tǒng)中聚合酶測序引擎的處理能力的組合可 產(chǎn)生充足的冗余以實(shí)現(xiàn)這些分析工具所需的準(zhǔn)確性。然而,這僅可應(yīng)用于較短的轉(zhuǎn)錄本,而 較長的轉(zhuǎn)錄本仍然在它們實(shí)現(xiàn)適合生物分析的準(zhǔn)確性水平之前需要額外處理。
[0008] 目前,存在用于在轉(zhuǎn)錄組測序中對長讀數(shù)(例如,PaeBio? cDNA長讀數(shù))進(jìn)行錯誤 校正公開的2種工具,PacBioToCA和LSC。兩種工具都使用短讀數(shù)(例如,Illumina·短讀數(shù)), 并且按照以下一般方案:對于各長讀數(shù),將短讀數(shù)與長讀數(shù)比對仿佛其是基因組"支架",并 且基于短讀數(shù)比對生成最佳共有區(qū)。這種一般方案有幾個缺陷:(1)由于短讀數(shù)僅為50-l〇bp,它們可能非特異性映射并且引入更多的錯誤;(2)所有現(xiàn)有的短讀數(shù)技術(shù)攜帶它們自 身的系統(tǒng)錯誤,其可能使校正產(chǎn)生偏差;(3)沒有利用相同的轉(zhuǎn)錄本通常由多個長讀數(shù)表示 的事實(shí),其在來自太平洋生物科學(xué)公司(Pacific Biosciences)的長讀數(shù)的情況沒有系統(tǒng) 系統(tǒng)偏差;(4)沒有使用來自長讀數(shù)的質(zhì)量值(QV);和(5)該方案需要2種不同的測序系統(tǒng)。
[0009] 需要一種解決轉(zhuǎn)錄組測序中錯誤的問題的算法,并且優(yōu)選設(shè)計(jì)為處理從頭合成轉(zhuǎn) 錄組,即沒有參照基因組的算法。
【發(fā)明內(nèi)容】
[0010] 示例性的實(shí)施方式一般涉及用于分析來自核酸的混合群體的序列數(shù)據(jù)、用于將各 序列讀數(shù)分配到特定來源、和用于最終鑒定來自序列信息的一個或多個生物分子目標(biāo)序列 的一個或多個共有序列的方法。本文提供的方法不僅可應(yīng)用于幾乎沒有錯誤的序列數(shù)據(jù), 也可應(yīng)用于具有較高頻率的插入、刪除和/或錯配錯誤的序列數(shù)據(jù)。因此,本發(fā)明還涉及進(jìn) 行這些方法的系統(tǒng)。
[0011]參照以下詳細(xì)說明和附圖將更好地理解本發(fā)明和各種具體方法及實(shí)施方式,其 中,在各種具體方面和實(shí)施方式中描述了本發(fā)明。提供這些是為清楚起見,并且不用被認(rèn)為 限制本發(fā)明。本發(fā)明及其方面可應(yīng)用于多種類型的本文未具體公開的方法、裝置和系統(tǒng)。在 某些方面中,示例性實(shí)施方式提供了用于錯誤校正的序列讀數(shù)的迭代聚類的方法和系統(tǒng), 其通過在至少一個處理器上進(jìn)行的至少一個軟件組件來進(jìn)行。在某些實(shí)施方式中,這類方 法包括接收序列讀數(shù)的集和相關(guān)的質(zhì)量值;將序列讀數(shù)基于序列相似性分組為初始簇的 集;生成各初始簇的簇共有區(qū);基于與序列讀數(shù)相關(guān)的質(zhì)量值和簇共有區(qū)迭代改進(jìn)聚類; 和,生成并輸出各簇的最終簇共有區(qū)。
[0012] 在另一個方面中,迭代改進(jìn)聚類還包括:使用質(zhì)量值計(jì)算屬于各簇的各序列讀數(shù) 的概率;將個體序列讀數(shù)從一個簇重分配至具有最高計(jì)算概率的另一個簇;和,合并高度相 似的簇。
[0013] 在一個實(shí)施方式中,輸入序列讀數(shù)包括長度至少0.5kb至長度1、2、3、4、5、7或IOkb 的全長的長讀數(shù),并且使用簇共有區(qū)和非全長讀數(shù)來生成最終簇共有區(qū),其可用于提供序 列數(shù)據(jù)的全覆蓋率以提供更高水平的共有區(qū)。
[0014] 附圖的一些方面的簡要說明
[0015] 圖1是顯示用于實(shí)施使用用于轉(zhuǎn)錄組測序數(shù)據(jù)的錯誤校正的測序讀數(shù)的迭代聚類 的進(jìn)程的計(jì)算機(jī)系統(tǒng)的一個實(shí)施方式的圖。
[0016] 圖2是顯示按照示例性實(shí)施方式用于錯誤校正的序列讀數(shù)的迭代聚類的方法的某 些方面的流程圖。
[0017] 圖3是顯示來自已經(jīng)比對以產(chǎn)生成對比對的相同同種型的2個讀數(shù)的示例性部分 的圖。
[0018]圖4是顯示示例性相似性圖像的圖。
[0019]圖5是顯示一個用于區(qū)分比對的讀數(shù)之間的真同種型差異與序列錯誤的實(shí)施方式 的圖。
[0020]圖6是顯示初始分配至錯誤簇的序列讀數(shù)的示例的圖,其中相同填充模式的序列 讀數(shù)來自相同同種型。
[0021]圖7是顯示分別針對各簇生成的示例性簇共有區(qū)C1、C2、C3和C4的圖。
[0022]圖8是顯示將序列讀數(shù)從一個簇重分配至具有最高的成員計(jì)算概率的簇的圖。 [0023]圖9是顯示從孤兒產(chǎn)生新簇的示例的圖。
[0024]圖10是顯示2個簇合并的圖。
[0025]發(fā)明詳述
[0026]本發(fā)明的多個實(shí)施方式和組分采用在多個技術(shù)領(lǐng)域熟悉的信號和數(shù)據(jù)分析技術(shù)。 為了清楚地說明,本文不提供已知分析技術(shù)的詳細(xì)內(nèi)容。這些技術(shù)描述于多個可及的參考 文獻(xiàn)中,如:R.B.Ash,《真實(shí)分析和概率》(Real Analysis and Probability),學(xué)術(shù)出版社 (Academic Press),紐約,1972;D.T.Bertsekas和 J.N.Tsitsiklis,《概率介紹》 (Introduct ion to Probabi I i ty),2002 ; K . L. Chung,《固定轉(zhuǎn)移概率的馬爾科夫鏈》 (Markov Chains with Stationary Transition Probabilities),1967;W.B.Davenport和 W.L Root,《隨機(jī)信號和噪音理論介紹》(An Introduction to the Theory of Random Signals and Noise),麥格勞-希爾公司(McGraw-Hill),紐約,1958; S·Μ·Kay,《統(tǒng)計(jì)學(xué)處理 基礎(chǔ)》(Fundamentals of Statistical Processing),第1-2卷,(精裝-1998) ;Monsoon H.Hayes,《統(tǒng)計(jì)學(xué)數(shù)據(jù)信號處理和建?!罚⊿tatistical Digital Signal Processing and Modeling),1996 ;R.M.Gray 和L .D .Dav is son 的《統(tǒng)計(jì)學(xué)信號處理介紹》(Introduction to Statistical Signal Processing) ;Steven M.Kay的《現(xiàn)代光譜估計(jì):理論及應(yīng)用》(Modern Spectral Estimation:Theory and Application)/書和光盤(Prentice-Hall信號處理叢 書)(精裝-1988年1月);Steven M.Kay的《現(xiàn)代光譜估計(jì):理論及應(yīng)用》(Modern Spectral Estimation:Theory and Application)(平裝-1999年3月);Burkhard Buttkus的《應(yīng)用地 球物理中的光譜分析和過濾理論》(Spectral Analysis and Filter Theory in Applied Geophysics)(精裝-2000年5月 11 日);Donald B.Percival和Andrew T.Walden的《物理應(yīng)用 的光譜分析》(平裝-1993年6月25日);J.L.Starck和F.Murtagh的《天文圖像和數(shù)據(jù)分析》 (Astronomical Image and Data Analysis)(天文學(xué)和天體物理學(xué)圖書館)(精裝-2006年9 月25日);Daniel S · Sem的《蛋白質(zhì)組學(xué)中的光譜技術(shù)》(Spectral Techniques In Proteomics)(精裝-2007年3月30 日);Dhammika Amaratunga和Javier Cabrera的《DNA微陣 列和蛋白質(zhì)陣列數(shù)據(jù)的探索和分析》(Exploration and Analysis of DNA Microarray and Protein Array Data)(概率和統(tǒng)計(jì)學(xué)Wiley叢書)(精裝-2003年10月21日)。
[0027]轉(zhuǎn)錄組分析的長讀數(shù)錯誤校正與基因組組裝的錯誤校正不同。兩者都可歸結(jié)為聚 類問題。在基因組組裝中,僅存在與染色體一樣多的"簇%各染色體彼此非常不同。與整個 染色體尺寸比較,共享的重復(fù)區(qū)域非常小,并且只要存在跨重復(fù)的連續(xù)長讀數(shù),相對容易決 定其起點(diǎn)。
[0028]相反,對于轉(zhuǎn)錄組分析,存在與轉(zhuǎn)錄本一樣多的簇。在真核生物中,基因可具有許 多不同的剪接形式。在一個極端示例中,轉(zhuǎn)錄本的一個同種型有額外的20bp外顯子,而其他 同種型則沒有。對于許多生物學(xué)問題而言,能夠?qū)?種同種型區(qū)分開是重要的。這種詳細(xì)差 異的水平很少在基因組規(guī)模上發(fā)現(xiàn),因此,現(xiàn)有的方法,例如生成高質(zhì)量(>99.999%準(zhǔn)確) 從頭組裝的分級基因組組裝過程(HGAP)不能直接應(yīng)用于轉(zhuǎn)錄組問題(HGAP描述于2013年7 月12日提交的美國專利申請13/941,442)。
[0029] "準(zhǔn)種問題"是一般轉(zhuǎn)錄組聚類問題的具體應(yīng)用。像轉(zhuǎn)錄組測序那樣,簇的總量是 未知的并且必須迭代地"猜測"簇和簇共有區(qū)。對于HIV基因組而言,該問題更簡單,因?yàn)镠IV 基因組是已知的并且目前可著眼于預(yù)期的突變數(shù)量。Zogardi等,(2010) "HIV準(zhǔn)物種的可靠 估計(jì)和下一代測序數(shù)據(jù)的錯誤校正(Error correction of next-generation sequencing data and reliable estimation of HIV quasispecies)''Nucl.Acids.Res·doi:10·1093/ nar/gkq655中提供了準(zhǔn)物種問題的其他信息,其通過引用全文納入本文用于所有目的。
[0030] 按照示例性實(shí)施方式,提供了解決轉(zhuǎn)錄組測序中的錯誤的問題的算法。然而,與使 用"種子讀數(shù)(seed read)"來比對較短讀數(shù)以生成高度精確的預(yù)組裝讀數(shù)的HGAP概念不 同,示例性實(shí)施方式的算法采用簇共有區(qū)。
[0031] 示例性實(shí)施方式一般涉及從混合群體中生成共有序列。更具體地,示例性實(shí)施方 式提供了基于主要使用長讀數(shù)數(shù)據(jù)的同種型迭代聚類對讀數(shù)進(jìn)行錯誤校正的方法和系統(tǒng)。 迭代計(jì)算各輸入序列讀數(shù)屬于各簇的概率,然后將序列重分配至具有更高成員概率的簇。 另外,該進(jìn)程合并高度相似的簇。按照示例性實(shí)施方式,迭代同種型水平聚類去除了轉(zhuǎn)錄本 冗余并且改進(jìn)了轉(zhuǎn)錄組共有區(qū)準(zhǔn)確性,全部都不需要參照基因組。
[0032]計(jì)算機(jī)實(shí)施
[0033]圖1是顯示用于實(shí)施用于錯誤校正的序列數(shù)據(jù)迭代聚類的進(jìn)程的計(jì)算機(jī)系統(tǒng)的一 個實(shí)施方式的圖。在【具體實(shí)施方式】中,本發(fā)明可整體或部分體現(xiàn)在固定介質(zhì)上記錄的軟件。 計(jì)算機(jī)100可以是具有至少一個處理器1〇2(例如,CHJ等)、存儲器103、輸入/輸出(1/0) 104,、和數(shù)據(jù)儲存庫106的任意電子裝置。CPU102、存儲器103、1/0 104以及數(shù)據(jù)存儲庫106 可通過系統(tǒng)總線,或者使用任意類型的通信連接來連接。雖然未顯示,計(jì)算機(jī)100也可包括 用于有線和/或無線通信的網(wǎng)絡(luò)接口。在一個實(shí)施方式中,計(jì)算機(jī)100可包括個人計(jì)算機(jī)(例 如,臺式機(jī)、筆記本、平板等)、服務(wù)器、客戶端計(jì)算機(jī),或可穿戴裝置。在另一個實(shí)施方式中, 計(jì)算機(jī)100可包括任意類型的用于與遠(yuǎn)程數(shù)據(jù)應(yīng)用相互作用的信息電器,并且能夠包括這 類裝置如互聯(lián)網(wǎng)功能電視、手機(jī)等。
[0034]處理器控制計(jì)算機(jī)100的運(yùn)行并且可從存儲器103和/或數(shù)據(jù)存儲庫106讀取信息 (例如,指令和/或數(shù)據(jù))并且相應(yīng)執(zhí)行指令以執(zhí)行示例性實(shí)施方式。術(shù)語"處理器102"往往 包括一個處理器、多個處理器,或者一個或多個多核處理器。
[0035] 1/0 104可包括任意類型的輸入裝置,如鍵盤、鼠標(biāo)、麥克風(fēng)等,以及任意類型的輸 出裝置,例如,監(jiān)視器和打印機(jī)。在計(jì)算機(jī)100包括服務(wù)器的一個實(shí)施方式中,輸出裝置可耦 合至本地客戶端計(jì)算機(jī)。
[0036] 存儲器103可包括任意類型的靜態(tài)或動態(tài)存儲器,包括閃存、DRAM、SRAM等。存儲器 103可存儲程序和數(shù)據(jù),包括序列比對器/重疊器110、簇共有區(qū)算法111、迭代簇錯誤校正 (ICE)組件112,和平滑組件114(例如,Quiver)。這些組件/算法可用于本文所述的轉(zhuǎn)錄組序 列組裝進(jìn)程。
[0037] 數(shù)據(jù)存儲庫106可存儲幾個數(shù)據(jù)庫,包括其存儲序列讀數(shù)116、讀數(shù)質(zhì)量值(下文中 QV)118、最大團(tuán)120、簇122、簇共有區(qū)124、概率126,和最終共有序列128的一個或多個數(shù)據(jù) 庫。造轉(zhuǎn)錄組測序?qū)嵤┓绞街校蛄凶x數(shù)116包括同種型序列讀數(shù),其可包括全長序列讀數(shù) (下文"全長讀數(shù)")116-1和非全長序列讀數(shù)(下文"非全長讀數(shù)")116-2。同樣,在該實(shí)施方 式中,簇122可包括同種型水平簇。
[0038]在一個實(shí)施方式中,數(shù)據(jù)存儲器106可位于計(jì)算機(jī)100內(nèi)。在另一個實(shí)施方式中,數(shù) 據(jù)存儲器106可通過網(wǎng)絡(luò)端口或外部裝置連接至計(jì)算機(jī)100。數(shù)據(jù)存儲庫106可包括分離的 服務(wù)器或任意類型的存儲裝置(例如,盤型光學(xué)或磁性介質(zhì)、固態(tài)動態(tài)或靜態(tài)存儲器等)。數(shù) 據(jù)儲存庫106可任選地包括多個輔助存儲裝置,例如,用于分開存儲輸入序列(例如,序列讀 數(shù))、序列信息、計(jì)算結(jié)果和/或其他信息。計(jì)算機(jī)100可在此后使用該信息來指導(dǎo)服務(wù)器或 客戶端邏輯,如本領(lǐng)域所理解的那樣,以體現(xiàn)本發(fā)明的方面。
[0039]操作中,操作者可通過顯示屏(未顯示)上呈現(xiàn)的用戶界面與計(jì)算機(jī)100相互作用 以指定讀數(shù)116和各種軟件程序所需的其他參數(shù)。一旦援用,包括序列比對器/重疊器110、 簇共有區(qū)算法111、I CE組件112和平滑組件114的存儲器103中的程序由處理器102執(zhí)行以實(shí) 施本發(fā)明的方法。
[0040] 序列比對器/重疊器110從數(shù)據(jù)存儲庫106中讀取選擇的序列讀數(shù)116并且在序列 讀數(shù)116上進(jìn)行序列比對以鑒定相似的區(qū)域,其可以是結(jié)構(gòu)或功能或其他序列讀數(shù)116之間 的關(guān)系的結(jié)果。在一個實(shí)施方式中,全長讀數(shù)116-1-般是高準(zhǔn)確性讀數(shù),例如,至少約98% 或99%準(zhǔn)確,并且可以是來自提供這種高質(zhì)量讀數(shù)的測序技術(shù)的原始讀數(shù),或者可以是構(gòu) 建自較低質(zhì)量的測序讀數(shù)數(shù)據(jù)的預(yù)組裝的高質(zhì)量讀數(shù),如本文他處所述。比對的序列117在 序列比對期間由序列比對器/重疊器110生成。在某些實(shí)施方式中,序列比對器/重疊器110 以C、C++、Java、C#、F#、Python、Peri、Haskell、3〇&1&、1^8卩、?丫1:11〇11/〇混合式和本領(lǐng)域已知 的其他語言執(zhí)行。
[0041] ICE組件112通過基于相似性和最大團(tuán)120將序列讀數(shù)116分成初始簇的集來生成 類似序列讀數(shù)的簇122。簇共有區(qū)算法111生成各簇的簇共有區(qū)12LICE組件112然后通過基 于簇共有區(qū)124和與序列讀數(shù)相關(guān)的質(zhì)量值的迭代來迭代改進(jìn)聚類,其包括將基于計(jì)算機(jī) 概率126序列讀數(shù)116從一個簇重分配至另一個簇,并且合并基本相似的簇。然后,平滑組件 114可按照示例性實(shí)施方式生成各簇122的最終簇共有區(qū)128,如下文進(jìn)一步所述。
[0042]該處理的輸出可包括最終共有序列128的列表,其各自代表簇的"共有區(qū)"。在一個 實(shí)施方式中,各簇122可代表單一、獨(dú)特的轉(zhuǎn)錄本。因此,在一個實(shí)施方式中,本發(fā)明可提供 使用全長讀數(shù)116-1從混合群體中鑒定獨(dú)特的全長轉(zhuǎn)錄本的集的方法和系統(tǒng)。
[0043]在一個實(shí)施方式中,處理的結(jié)果還可任選地包括質(zhì)量信息、技術(shù)信息(例如,峰特 征、預(yù)期的錯誤率)、替代(例如,第二或第三好)共有區(qū)確定、置信標(biāo)準(zhǔn)等。在產(chǎn)生初始簇、生 成簇共有區(qū)、迭代聚類和生成最終簇共有區(qū)的進(jìn)程期間和之后,這一處理的過程和/或結(jié)果 可保存到存儲器103和數(shù)據(jù)存儲庫106和/或通過I/O 104輸出用于在顯示裝置上顯示和/或 保存到其他存儲裝置(例如,CD、DVD、藍(lán)光、閃存卡等),或打印。
[0044]圖2是顯示按照示例性實(shí)施方式用于錯誤校正的序列讀數(shù)的迭代聚類的進(jìn)程的某 些方面的流程圖。在一個實(shí)施方式中,可使用該進(jìn)程來校正轉(zhuǎn)錄組測序期間長讀數(shù)中的錯 誤。該進(jìn)程可通過序列比對器/重疊器110、簇共有區(qū)算法111、ICE組件112、和平滑組件114 的組合來進(jìn)行(圖1 ),其雖然顯示為分開的組件,各自的功能可合并成較少或較大數(shù)量的軟 件算法/組件。
[0045]可通過接收一組序列讀數(shù)116和相關(guān)的質(zhì)量值118(塊200)來開始該進(jìn)程。序列讀 數(shù)116優(yōu)選包括但不限于一組全長的長讀數(shù)116-1。質(zhì)量值(QV)IlS是由測序機(jī)器生成的對 每個位置堿基判定準(zhǔn)確性的估計(jì)。
[0046]迭代聚類錯誤校正(ICE)組件112基于序列相似性(塊202)將序列讀數(shù)分成初始簇 的集。簇共有區(qū)算法111生成各初始簇的簇共有區(qū)124(塊204) <JCE組件112基于與序列讀數(shù) 相關(guān)的質(zhì)量值118和簇共有區(qū)迭代改進(jìn)聚類(塊206),如下文進(jìn)一步詳述。
[0047]在其他實(shí)施方式中,該進(jìn)程還包括生成并輸出各簇的最終簇共有區(qū)128(塊208)。 在一個實(shí)施方式中,最終簇共有區(qū)128可包括最終簇共有序列的列表,其各自代表簇的共有 序列(并且因此在一個實(shí)施方式中代表轉(zhuǎn)錄本)。在一個實(shí)施方式中,一旦完成了迭代聚類 進(jìn)程,即可生成最終簇共有區(qū)128。在輸入包括全長讀數(shù)116-1的另一個實(shí)施方式中,可通過 將非全長讀數(shù)116-2輸入最終平滑進(jìn)程,其隨后生成最終簇共有區(qū)128來生成最終簇共有 區(qū)。如本領(lǐng)域所熟知,最終簇共有區(qū)128可保存到,例如,存儲器103和/或數(shù)據(jù)存儲庫106,或 送至I/O 104用于在監(jiān)視器上顯示和/或由打印機(jī)打印。
[0048]上述步驟的進(jìn)一步詳細(xì)描述見下。
[0049] 序列讀數(shù)
[0050] 轉(zhuǎn)錄本同種型測序的一個目的是使用準(zhǔn)確、未組裝的、全長的長讀數(shù)理解轉(zhuǎn)錄組 復(fù)雜性。通過測序機(jī)器自動捕獲并鑒定全長讀數(shù)116-1,但是示例性實(shí)施方式通過迭代聚類 提尚準(zhǔn)確性。
[0051 ]在示例性實(shí)施方式中,輸入序列讀數(shù)116包括例如轉(zhuǎn)錄本的全長的長讀數(shù)116-1。 然而,在另一個實(shí)施方式中,輸入序列讀數(shù)116可包括非全長讀數(shù)116-2。序列讀數(shù)116可任 選地包括冗余序列信息,例如,其中相同的轉(zhuǎn)錄本經(jīng)重復(fù)測序以生成包括轉(zhuǎn)錄本的多個拷 貝的長序列讀數(shù)。此外,與序列讀數(shù)116相關(guān)的其他信息可包括相關(guān)的測序技術(shù)輸出的特征 (例如,蹤跡特征(積分的每峰計(jì)數(shù)、峰的形狀/高度/寬度、與相鄰峰的距離、相鄰峰的特 征)、信噪比、功率噪音比、背景標(biāo)準(zhǔn)、信號強(qiáng)度、反應(yīng)動力學(xué)等)等。
[0052]初始聚類
[0053]迭代聚類進(jìn)程包括2個階段。第一階段包括基于序列相似性將序列讀數(shù)116分成初 始簇的集(塊202)。在一個實(shí)施方式中,例如,使用初始聚類有助于確定那些序列讀數(shù)116來 自相同的轉(zhuǎn)錄本同種型。聚類的背景想法是對源自相同同種型的多個拷貝的多個序列讀數(shù) 的觀察。例如,以下顯示了源自相同同種型的轉(zhuǎn)錄本讀數(shù)的3個拷貝:
[0054] TGGGAGCCTATGCGACAATGAAACCTG..·
[0055] TGGAGCAATATGCGAACAATAAAACCTC..·
[0056] TGGAGCATATGCGAACAATAAAACGGG..·
[0057]其中,加粗的堿基表示主要是插入缺失標(biāo)記(插入或缺失)的隨機(jī)分布錯誤。對這 類源自相同同種型的讀數(shù)的聚類可能產(chǎn)生更高準(zhǔn)確性的共有序列。
[0058] 比對
[0059]圖2顯示了初始聚類進(jìn)程的進(jìn)一步詳細(xì)說明(塊202)。在一個實(shí)施方式中,初始聚 類進(jìn)程可通過由序列比對器/重疊器110比對序列讀數(shù)116開始產(chǎn)生比對的讀數(shù)??墒褂迷S 多已知的序列比對進(jìn)程,例如,使用基本局部比對與連續(xù)細(xì)化(Basic LocaI Al ignment with Successive Refinement) (BLASR)算法映射單一分子測序讀數(shù)116,進(jìn)一步描述于美 國專利公開號20120330566,其通過引用全文納入本文用于所有目的。
[0060] 圖3是顯示來自已經(jīng)使用序列比對器/重疊器110比對以產(chǎn)生比對的讀數(shù)300的相 同同種型的2個讀數(shù)的示例性部分的圖。在該實(shí)施例中,顯示為"查詢"的第一比對的讀數(shù)的 長度是l,675bp,并且顯示為"目標(biāo)"的第二比對的讀數(shù)的長度是l,680bp。比對的讀數(shù)300之 間的比對("nMatch")是1.6kbp并且相似性百分比("% sim")是99.1677,其包括2個插入和 11個缺失的插入缺失標(biāo)記(表不為"*")。
[0061] 比對之后,下一個步驟是形成同種型簇??墒褂脜⒄栈蚪M并且將讀數(shù)與參照基 因組比對并且確定位于特定基因座的讀數(shù)代表同種型。然而,每個基因座存在許多尚未確 定的替代性同種型。另外,該方法依賴于比對器并且需要以好的參照基因座開始,這限制了 該方法應(yīng)用于具有已存在的參照基因組的那些應(yīng)用。
[0062] 按照一個示例性實(shí)施方式,提供了不使用參照基因組鑒定同種型簇,并因此適用 于不存在參照基因組的應(yīng)用的方法和系統(tǒng)。
[0063]相似性圖像
[0064]再次參考圖2,在比對之后,使用比對的讀數(shù)300來構(gòu)建相似性圖像(塊202-2)。構(gòu) 建相似性圖像,使得各序列讀數(shù)116表示為圖像中的節(jié)點(diǎn),并且序列讀數(shù)116之間的比對表 示為節(jié)點(diǎn)之間的連接邊緣,以顯示2個序列讀數(shù)具有比對命中(即,足夠高的相似性百分 比)。
[0065]圖4是顯示示例性相似性圖像400的圖。用于發(fā)現(xiàn)同種型聚類的算法采用成對比 對,其中相似性圖像400中的各節(jié)點(diǎn)402表示讀數(shù),并且連接節(jié)點(diǎn)對的邊緣404表示存在成對 比對,如圖3所示,其中查詢和目標(biāo)讀數(shù)由于其高的相似性百分比將在圖像中表示為節(jié)點(diǎn) 402的對并且通過邊緣404連接。
[0066] 最大團(tuán)
[0067] 一般而言,類似性圖像進(jìn)程導(dǎo)致形成多個相似性圖像400。再次參考圖2,之后在相 似性圖像中發(fā)現(xiàn)所有最大團(tuán)(塊202-3)。團(tuán)(chique)是指包括節(jié)點(diǎn)的集的圖像,其中對于每 2個節(jié)點(diǎn)402存在連接兩者的邊緣。最大團(tuán)是不含與其他團(tuán)重疊的節(jié)點(diǎn)402的最大可能尺寸 的團(tuán)。最大團(tuán)發(fā)現(xiàn)算法非確定性地將相似性圖像400劃分成不重疊的最大團(tuán)。存在許多發(fā)現(xiàn) 所有最大團(tuán)的方法。在一個實(shí)施方式中,可運(yùn)行最大團(tuán)發(fā)現(xiàn)算法,如貪婪隨機(jī)自適應(yīng)檢索 法,其迭代構(gòu)建隨機(jī)化的、貪婪偏差的解決方案,其然后擴(kuò)大到局部最優(yōu)解決方案。參見例 如,Abello等,On maximum clique problems in very large graphs(非常大圖像中最大 團(tuán)問題的研究),AT&T實(shí)驗(yàn)室研究技術(shù)報(bào)告(AT&T labs Research Technical Report), 1998,其通過引用全文納入本文用于所有目的。
[0068]將相似性圖像400劃分成非重疊最大團(tuán)需要比較序列讀數(shù)116以檢測同種型比對 差異以確定序列讀數(shù)116是否屬于相同的團(tuán)。一種檢測同種型比對差異的方法是檢測2個比 對的讀數(shù)之間的比對中的大間隙。例如,如果考慮2個比對的讀數(shù),其中一個相對另一個有 大插入,則非常可能插入是額外的外顯子,并且因此,可檢測到同種型差異。然而,檢測同種 型比對差異隨著比對中的間隙變得越來越小而變得越來越有問題。例如,2個比對的讀數(shù)之 間僅7個堿基的插入差異可能表示聚合物延伸。需要確定的是,這是真同種型差異還是序列 錯誤。
[0069]按照示例性實(shí)施方式的一個方面,可通過促使來自包括插入的原始讀數(shù)序列116 的各堿基與估計(jì)每個位置的準(zhǔn)確性并且顯示各堿基是取代錯誤、插入錯誤或缺失錯誤的概 率的質(zhì)量值(QV)相關(guān)的事實(shí)改變來從序列錯誤中確定同種型差異。
[0070] 圖5是顯示一個用于區(qū)分比對的讀數(shù)300之間的同種型差異與序列錯誤的實(shí)施方 式的圖。在一個實(shí)施方式中,可使用差異陣列500來保持2個比對的讀數(shù)300之間的位置差異 的蹤跡。在各堿基位置處有"+"的2個比對的讀數(shù)300之上和之下的取代(S)、插入(I)和缺失 (D)的行顯示相關(guān)的QV 118表示足夠可能出現(xiàn)錯誤的位置。差異陣列500中的各位置可包括 值,例如,0或1,其中0值表示2個比對的讀數(shù)300之間的差異是由于測序錯誤造成的(而不是 真同種型差異),并且1值表示2個比對的讀數(shù)300之間的差異不能由測序錯誤解釋。
[0071] 然后確定在差異陣列中是否存在任何足夠大的1值的區(qū)域,即從[I,J]中尋找大于 或等于閾值長度T的范圍,并且1值的區(qū)域的總和大于閾值百分比C的差異陣列中的區(qū)域:
[0072]
[0073]例如,估計(jì)閾值長度T設(shè)為10個堿基,并且閾值百分比C設(shè)為50%。將檢索差異陣列 500中長于10個堿基的其中超過50%的堿基具有1值的區(qū)域。如果無法發(fā)現(xiàn)這種區(qū)域,則2個 比對的讀數(shù)300可被認(rèn)為來自相同同種型。在圖5所示的示例中,差異陣列500中不存在這種 區(qū)域,使得2個比對的讀數(shù)300被確定為來自相同同種型并且因此置于同一團(tuán)中。如果,另一 方面,發(fā)現(xiàn)這種區(qū)域,則將確定2個比對的讀數(shù)300來自不同的同種型并且因此不會放在同 一團(tuán)中。對于其他信息,參見Tseng和Tompa,用于在多個序列比對中定位極端保守的元件的 算法(Algorithms for Locating Extremely Conserved Elements in Multiple Sequence Alignments),BMC Bioinformatics(2009),其通過引用全文納入本文用于所有 目的。
[0074]注意根據(jù)定義,團(tuán)需要各節(jié)點(diǎn)402互相連接。按照示例性實(shí)施方式,在最大團(tuán)發(fā)現(xiàn) 進(jìn)程之后,術(shù)語"團(tuán)"將置于更寬的術(shù)語"簇"之下,因?yàn)樵谧畲髨F(tuán)發(fā)現(xiàn)進(jìn)程之后不需要或使 用節(jié)點(diǎn)之間的邊緣404。
[0075]在比對之后,構(gòu)建相似性圖像和最大團(tuán)發(fā)現(xiàn)進(jìn)程(塊202-1到202-3),如何分組序 列讀數(shù)116的問題一般可能仍然存在。即,在形成的第一組簇中可能存在模糊性。例如,在圖 4中,對于節(jié)點(diǎn)/讀數(shù)402的對,可發(fā)現(xiàn)最大團(tuán)發(fā)現(xiàn)進(jìn)程對節(jié)點(diǎn)/讀數(shù)402屬于哪個團(tuán)是模糊 的。最大團(tuán)發(fā)現(xiàn)僅僅是對各團(tuán)成員的初始估計(jì)。因此,在該進(jìn)程的階段1結(jié)束時,一些序列讀 數(shù)116可能被分配至不正確的簇,并且一些應(yīng)該在一起的序列讀數(shù)116可能被分配至分開的 簇。
[0076] 圖6是顯示初始分配至錯誤簇112的序列讀數(shù)的示例的圖,其中相同填充特征的序 列讀數(shù)/節(jié)點(diǎn)來自相同同種型。如圖所示,標(biāo)記1-3的序列讀數(shù)已被不正確地放在與序列讀 數(shù)4-5不同的簇中,其全部來自相同同種型。另外,序列讀數(shù)11和12被不正確地與讀數(shù)12分 為一組,并且讀數(shù)6已被不正確地與讀數(shù)7-9的組分開。
[0077] 再次參考圖2,按照示例性實(shí)施方式,在初始聚類202之后進(jìn)行的進(jìn)程設(shè)計(jì)為解決 初始簇122的模糊性。
[0078]簇共有區(qū)
[0079]在形成初始簇122之后,簇共有區(qū)算法111生成各初始簇的簇共有區(qū)124(塊204), 其中各簇共有區(qū)124用于表示簇的所有成員的序列。簇共有區(qū)生成是本領(lǐng)域熟知的。例如, 簇共有區(qū)算法111可基于使用有向非循環(huán)圖來編碼多個序列比對,例如,DAGCon(有向非循 環(huán)圖共有區(qū))算法??紤]比對的讀數(shù)300的集合,DAGCon取了一組成對的比對,其針對其他讀 數(shù)所比對的參照或主干/種子進(jìn)行比對(基因組從頭組裝,最長的序列讀數(shù)用作主干/種子) 以生成有向非循環(huán)圖,其中各條通過圖的路徑表示比對之一。該圖然后簡化并且確定最可 能的通過圖的路徑,其為共有區(qū)。參見Chin等,來自長讀數(shù)SMRT測序數(shù)據(jù)的非混合、精煉微 生物基因組組裝(Nonhybrid,finished microbial genome assemblies from long-read SMRT sequencing data) ,Nature Methods(2013),其通過引用納入本文。
[0080] 圖7是顯示分別針對各簇122生成的示例性簇共有區(qū)C1、C2、C3和C4,其中各輸入讀 數(shù)序列116精確地屬于一個簇122。
[0081] 再次參考圖2,在簇共有區(qū)生成(塊204)之后,援用錯誤校正(ICE)進(jìn)程的迭代聚類 的第二階段。ICE的第二階段由基于簇共有區(qū)124和質(zhì)量值118迭代改進(jìn)聚類開始(塊206)。 在該進(jìn)程中,讀數(shù)序列116從一個簇自動"再分配"到另一個簇,或者命名為"?瓜兒"并且用于 生成新簇,如果序列讀數(shù)被確定為不屬于任意已有簇,并且合并高度相似的簇,如下所述。 [0082]圖2顯示了用于迭代改進(jìn)聚類的進(jìn)程(塊206)的進(jìn)一步詳細(xì)說明。ICE組件112可通 過使用質(zhì)量值(QV)計(jì)算屬于各簇(C)的各序列讀數(shù)(S)的概率來開始迭代進(jìn)程(塊206-1)。 這可通過將各簇122中的各序列讀數(shù)116與各簇共有區(qū)C比對來完成。更具體地,各讀數(shù)Si與 各簇共有區(qū)Cu比對,其中"i" = l至序列讀數(shù)的總數(shù),并且"u"=l至簇共有區(qū)的總數(shù)(在圖7 所示的實(shí)施例中,i = 12并且u = 4)。
[0083] 如果使用上述的檢測同種型比對差異的進(jìn)程,現(xiàn)有的序列讀數(shù)(S)沒有以足夠高 的相似性百分比與任意簇共有區(qū)(C)比對上(即,沒有同種型命中),則由于該序列具有差的 概率而忽略該序列讀數(shù)。在一個實(shí)施方式中,可使用線性時間算法來濾去具有較大插入缺 失標(biāo)記的比對。(參見,例如,用于在多重序列比對中定位極端保守的元件的算法 (Algorithms tor locating extremely conserved elements in multiple sequence alignments),Tseng和Tompa,BMC Bioinformatics,2009)〇
[0084] 如果現(xiàn)有的序列讀數(shù)不與簇共有區(qū)中的一個或多個比對,則ICE組件112考慮現(xiàn)有 讀數(shù)的QV和簇共有區(qū)計(jì)算現(xiàn)有讀數(shù)屬于各簇的概率:
[0085] Pr(Si|Cu,QVs(Si))
[0086] 如果QV不可得,則:
[0087] ?1"(3;[|(]11(^8(3;〇) = (9匹配)計(jì)數(shù)(匹配)(1/3981113)計(jì)數(shù)(81113)(1/30;[118)計(jì)數(shù) (;[118)(1/30(161)計(jì)數(shù)((161),
[0088] 其中Θ分別是取代(sub)、插入(ins)和缺失(de 1)的匹配概率。
[0089] 參考圖7作為示例,當(dāng)計(jì)算讀數(shù)6的概率時,ICE組件112確定讀數(shù)6屬于簇共有區(qū)C3 的概率大于讀數(shù)6(S6)屬于簇共有區(qū)C4的概率:
[0090] Pr(S6|C3)>Pr(S6|C4)
[0091] 這可能是由于簇C3含有來自與S6同組的同種型。
[0092] 概率計(jì)算的輸出是對各讀數(shù)序列屬于各簇122計(jì)算的概率的列表。在一個實(shí)施方 式中,計(jì)算的概率的數(shù)量是節(jié)點(diǎn)/序列讀數(shù)的總數(shù)乘以簇的總數(shù),一些概率具有"未知"的 值。
[0093] 再次參考圖2,在計(jì)算概率之后,ICE組件112將來個體序列讀數(shù)從一個簇重分配至 具有最高計(jì)算概率的另一個簇(塊206-2)。
[0094]圖8是顯示將序列讀數(shù)從一個簇重分配至具有最高的計(jì)算成員概率的簇的圖。該 實(shí)施例顯示將讀數(shù)6從簇C4重分配至C3。
[0095]應(yīng)理解如果確定對現(xiàn)有序列讀數(shù)有最高計(jì)算概率的簇就是該序列讀數(shù)已經(jīng)是成 員的簇,則沒有重分配。
[0096] 再次參考圖2,按照示例性實(shí)施方式的另一個方面,如果不存在比對(即任意序列 讀數(shù)與簇之間的概率未知)或如果線性時間算法排除了任意序列讀數(shù)的所有比對,則序列 讀數(shù)可被視為孤兒,然后可從孤兒形成新簇(塊206-3)。新簇可使用與上述初始階段相同的 過程從孤兒形成。
[0097] 圖9是顯示從孤兒序列產(chǎn)生新簇的示例的圖。在該實(shí)施例中,確定讀數(shù)S12沒有同 種型命中。讀數(shù)S12被稱作孤兒并且產(chǎn)生含讀數(shù)S12的新簇C6。
[0098] 上述方法存在一個小問題,即當(dāng)孤兒被分配至新簇,例如C6時,其僅有一個序列讀 數(shù),該讀數(shù)是其本身的代表。因此,具有一個序列讀數(shù)的簇的計(jì)算概率將始終是1,這表示沒 有其他的簇會對該讀數(shù)有更高的計(jì)算概率并且該讀數(shù)不會重分配至另一個簇。僅具有一個 序列讀數(shù)的簇可被稱為單現(xiàn)突變(singleton)并且沒有成員以產(chǎn)生多樣性,導(dǎo)致單現(xiàn)突變 從來沒有節(jié)點(diǎn)可重分配至的更好的簇,即便這樣的一個簇可能存在。
[0099] 按照一個實(shí)施方式,該問題可通過隨機(jī)生成各孤兒節(jié)點(diǎn)的概率來解決。即,隨機(jī)數(shù) 生成器可用于生成預(yù)定范圍,例如0-1的值(可能是其他范圍)。如果隨機(jī)概率小于預(yù)定閾值 概率,例如,〇. 30,則孤兒被重分配至對孤兒的成員具有非零計(jì)算概率的簇之一。
[0100] 再次參考圖2,簇經(jīng)處理以確定是否存在基本相同的簇,并且如果存在,將簇合并 成新簇(塊206-4)。基本相同的簇可在處理期間發(fā)生,由于大致最大團(tuán)發(fā)現(xiàn)和迭代共有區(qū)判 定進(jìn)程。在一個實(shí)施方式中,基于它們的簇共有序列的相似性確定2個簇是否基本相同可能 通過用戶限定的參數(shù),例如相似性百分比= >95%來控制。
[0101] 圖10是顯示2個簇合并的圖。在該實(shí)施例中,來自圖9的之前的簇Cl至C4被確定為 同種型命中并且具有大于99.5%的閾值相似性百分比。因此,在圖10中,簇Cl至C4已經(jīng)合并 成新簇和相應(yīng)的簇共有區(qū)C7。
[0102 ]再次參考圖2,每次簇的數(shù)量變化時,相應(yīng)的簇共有區(qū)也可能變化。因此,I CE組件 112更新各變化的簇的簇共有區(qū)并且更新所有序列讀數(shù)的概率Pr(Si|Cu,QVS(Si))(塊206-5)。這通過經(jīng)線206-6判定簇共有區(qū)算法lll(塊204)來完成,并且因此產(chǎn)生錯誤校正進(jìn)程的 迭代聚類的第二階段的"迭代環(huán)",其第一步驟是重計(jì)算各序列讀數(shù)的概率(塊206-1)。
[0103] 在一個實(shí)施方式中,簇共有區(qū)算法111可在每次發(fā)生變化時產(chǎn)生簇的簇共有區(qū) 124。然而,在一個實(shí)施方式中,當(dāng)基于簇大小判定簇共有區(qū)算法111即如果簇大小較大時, 可任選地使用預(yù)定閾值來限制,如果特定簇中節(jié)點(diǎn)的數(shù)量大于預(yù)定閾值,判定簇共有區(qū)算 法111可跳過塊206-5。在某些實(shí)施方式中,簇共有區(qū)算法步驟是可并行的。
[0104] 在一個實(shí)施方式中,新的額外序列讀數(shù)可在第二階段期間的任何時候通過將額外 序列讀數(shù)針對所有已有共有序列比對來增加至已有的簇組。如果已有簇C具有最高的在后 概率并且比對不被拒絕,則新的序列分配至簇C。否則,該序列讀數(shù)可如上述初始階段那樣 被認(rèn)為孤兒并且形成新簇。
[0105] 一旦通過重分配序列讀數(shù)和/或合并簇?zé)o法進(jìn)一步改進(jìn)簇,則用于錯誤校正進(jìn)程 的迭代聚類(塊206)完成。
[0106] 一旦用于錯誤校正進(jìn)程的迭代聚類完成,則判定平滑組件114使共有區(qū)結(jié)果平滑 (塊208)。在一個實(shí)施方式中,平滑組件114可基于Quiver算法,如2013年7月12日提交的 U.S. 13/941,442中所述,其通過引用納入本文。如上所述,ICE組件112判定簇共有區(qū)算法 111生成各簇的簇共有區(qū)。在一個實(shí)施方式中,這些簇共有區(qū)用作全長讀數(shù)116-1在迭代聚 類進(jìn)程期間所比對的"參照"。
[0107]按照示例性實(shí)施方式的一個方面,平滑(polishing)步驟的輸入可包括簇共有區(qū) 和非全長讀數(shù)116-2,其然后比對至各簇共有區(qū)用作參照。在平滑期間,非全長讀數(shù)116-2用 于向序列讀數(shù)施加全覆蓋率以使用上述相同的"同種型命中"標(biāo)準(zhǔn)提供更高水平的共有區(qū)。 在一個實(shí)施方式中,與全長輸入序列不同,非全長讀數(shù)116-2不必排他性地比對并且可屬于 多個簇。同樣,使用線性時間算法來拒絕不利的比對。一旦非全長讀數(shù)116-2與簇共有區(qū)比 對,則平滑組件114生成各簇的最終共有序列128(圖1)。該進(jìn)程的輸出可包括最終共有區(qū) 128的列表,其各自代表簇的"共有"序列。在一個實(shí)施方式中,各簇可用于表示單一、獨(dú)特的 轉(zhuǎn)錄本。
[0108]在另一個實(shí)施方式中,最終簇共有區(qū)128可映射至基因組,其中去除冗余并且同種 型塌縮,從而生成高質(zhì)量全長同種型。
[0109]按照示例性實(shí)施方式,用于錯誤校正進(jìn)程的序列讀數(shù)的迭代聚類可具有許多應(yīng) 用。例如,ICE可用于全長cDNA測序、生物信息學(xué)分析和生物學(xué)應(yīng)用。
[0110]全長cDNA測序的示例可包括,但不限于,構(gòu)建全長轉(zhuǎn)錄本富集的cDNA文庫;使用瓊 脂糖凝膠或BluePippin?系統(tǒng)進(jìn)行尺寸選擇;對全長達(dá)到IOkb的轉(zhuǎn)錄本進(jìn)行測序;和對各轉(zhuǎn) 錄本進(jìn)行單分子觀察。
[0111] 除了同種型水平聚類以生成高質(zhì)量轉(zhuǎn)錄本共有序列,生物信息學(xué)分析的示例可包 括,但不限于,鑒定推定的全長轉(zhuǎn)錄本;和檢測人工嵌合體。
[0112] 最后,生物學(xué)應(yīng)用的示例可包括,但不限于,新轉(zhuǎn)錄本;替代性剪接;替代性聚腺苷 酸化;保留的內(nèi)含子;融合基因;和反義轉(zhuǎn)錄。
[0113] 在一些實(shí)施方式中,該系統(tǒng)包括可操作地耦合至處理器的計(jì)算機(jī)可讀介質(zhì),其儲 存由處理器執(zhí)行的指令。指令可包括下述的一種或多種:接收序列讀數(shù)的輸入的指令(和, 任選的,參照序列信息)、構(gòu)建預(yù)組裝的讀數(shù)的指令、比對序列讀數(shù)的指令、生成字符串圖像 的指令、生成圖像的指令、鑒定字符串束的指令、確定主要重疊群的指令、確定相關(guān)重疊群 的指令、校正讀數(shù)的指令、生成共有序列的指令、生成單倍型序列的指令、計(jì)算/儲存與方法 的各步驟相關(guān)的信息的指令(例如,字符串圖像中的邊緣和節(jié)點(diǎn),字符串圖像中的重疊和分 支點(diǎn)、主要和相關(guān)重疊群)、和記錄該方法結(jié)果的指令。
[0114] 在某些方面中,該方法是計(jì)算機(jī)實(shí)施的方法。在某些方面中,算法和/或結(jié)果(例 如,生成的共有序列)在計(jì)算機(jī)可讀介質(zhì)上儲存,和/或在屏幕或打印紙張上顯示。在某些方 面中,結(jié)果經(jīng)進(jìn)一步分析,例如,以鑒定遺傳變異,以鑒定序列信息的一個或多個來源,以鑒 定個體或物種之間保守的基因組區(qū)域,以確定2個個體之間的相關(guān)性,以提供個體診斷或預(yù) 后,或以提供健康護(hù)理專業(yè)人員可用于確定患者的合適治療策略的信息。
[0115] 此外,本發(fā)明的功能性方面在計(jì)算機(jī)或其他邏輯處理系統(tǒng)或電路上實(shí)施,如本領(lǐng) 域普通技術(shù)人員所理解,可使用任意合適的實(shí)施環(huán)境或編程語言如C、C++、C 〇bol、PaScal、 如¥3、拓¥3-8(^1?丨、肌]^、1]^、(1肌]^、匯編或機(jī)器代碼編程、1?11等來實(shí)施或完成。
[0116] 在某些實(shí)施方式中,計(jì)算機(jī)可讀介質(zhì)可包括硬盤驅(qū)動、輔助存儲器、外部存儲器、 服務(wù)器、數(shù)據(jù)庫、便攜式存儲裝置(⑶-R、DVD、ZIP盤、閃存卡等)等的任意組合。
[0117] 在一些方面中,本發(fā)明包括用于多倍體基因組字符串圖像匯編的制品,其包括含 有一個或多個程序的機(jī)器可讀介質(zhì),該程序在執(zhí)行時實(shí)施本文所述的本發(fā)明的步驟。
[0118] 應(yīng)理解上述說明是示例性的而非限制性的。對本領(lǐng)域的普通技術(shù)人員而言,顯而 易見的是,可以對本發(fā)明進(jìn)行各種修改而不會偏離本發(fā)明的范圍和精神。因此,本發(fā)明的范 圍不應(yīng)參照以上的說明決定,而應(yīng)參照所附權(quán)利要求及其等同方案的全部范圍決定。在本 發(fā)明中,引用多個參考文獻(xiàn)、專利、專利申請和公開。除非另外說明,各自出于所有目的通過 引用納入。出于說明和公開可與本發(fā)明關(guān)聯(lián)使用的試劑、方法和概念的目的引用本文所有 的出版物。本文并不旨在理解為承認(rèn)這些參考文獻(xiàn)相對于本文所述的發(fā)明是現(xiàn)有技術(shù)。
【主權(quán)項(xiàng)】
1. 一種用于錯誤校正的序列讀數(shù)迭代聚類的方法,所述方法在至少一個處理器上執(zhí)行 的至少一個軟件組件上進(jìn)行,包括: 接收序列讀數(shù)的集和相關(guān)的質(zhì)量值; 將所述序列讀數(shù)基于序列相似性分成初始簇的集; 生成各所述初始簇的簇共有區(qū); 基于與所述序列讀數(shù)相關(guān)的質(zhì)量值和所述簇共有區(qū)迭代改進(jìn)所述聚類;并且 生成并輸出各所述簇的最終簇共有區(qū)。2. 如權(quán)利要求1所述的方法,其中迭代改進(jìn)所述聚類還包括: 使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率; 將個體序列讀數(shù)從一個簇重分配至具有最高計(jì)算概率的另一個簇;并且 合并高度相似的簇。3. 如權(quán)利要求2所述的方法,其中使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率還 包括: 將各所述簇中的各序列讀數(shù)與各所述簇共有區(qū)比對; 對于沒有以足夠高的相似性百分比與任意簇共有區(qū)比對上的現(xiàn)有序列讀數(shù),由于具有 差的概率而忽略所述序列讀數(shù); 對于與簇共有區(qū)(C)中的一個或多個比對的現(xiàn)有序列讀數(shù)(S),考慮所述現(xiàn)有讀數(shù)的質(zhì) 量值(QV)和簇共有區(qū)來計(jì)算所述現(xiàn)有序列讀數(shù)屬于各所述簇的概率: Pr(Si|Cu,QVs(Si))。4. 如權(quán)利要求3所述的方法,其中對于QV不可得,則計(jì)算: Pr(Si|Cu QVs(Si)) = (9匹配)計(jì)數(shù)(匹配)(1/3 0sub)計(jì)數(shù)(sub)(l/3 0ins)計(jì)數(shù) (ins)(l/3 0del)計(jì)數(shù)(del), 其中Θ分別是取代(sub)、插入(ins)和缺失(del)的匹配概率。5. 如權(quán)利要求2所述的方法,還包括: 對于任意所述序列讀數(shù)和任意所述簇之間沒有比對,認(rèn)為所述序列讀數(shù)是孤兒,并且 從所述孤兒形成新簇。6. 如權(quán)利要求5所述的方法,還包括: 對于僅具有一個序列讀數(shù)的新簇,對于各孤兒節(jié)點(diǎn)隨機(jī)生成隨機(jī)概率;并且 對于隨機(jī)概率小于預(yù)定閾值概率,則將所述孤兒重分配至對所述孤兒的成員具有非零 計(jì)算概率的簇之一。7. 如權(quán)利要求1所述的方法,其中接收的序列讀數(shù)包括全長的長讀數(shù),并且其中所述生 成和輸出最終簇共有區(qū)還包括: 將非全長讀數(shù)輸入最終平滑進(jìn)程,其生成最終簇共有區(qū)。8. 如權(quán)利要求5所述的方法,其中所述讀數(shù)包括長度范圍為0.5kb至1、2、3、5、10、15、 20kb的全長的長讀數(shù)。9. 如權(quán)利要求1所述的方法,其中基于序列相似性將所述序列讀數(shù)分成初始簇的集還 包括: 比對所述序列讀數(shù)以產(chǎn)生比對的讀數(shù); 使用所述比對的讀數(shù)構(gòu)建相似性圖像;并且 使用所述相似性圖像發(fā)現(xiàn)最大團(tuán)。10. 如權(quán)利要求9所述的方法,其中發(fā)現(xiàn)最大團(tuán)包括:非確定性地將所述相似性圖像劃 分成非重疊最大團(tuán)。11. 一種在計(jì)算機(jī)可讀介質(zhì)上存儲的可執(zhí)行軟件產(chǎn)品,所述產(chǎn)品含有用于錯誤校正的 序列讀數(shù)迭代聚類的程序指令,所述程序指令在至少一個處理器上執(zhí)行,包括: 接收序列讀數(shù)的集和相關(guān)的質(zhì)量值; 將所述序列讀數(shù)基于序列相似性分成初始簇的集; 生成各所述初始簇的簇共有區(qū); 基于與所述序列讀數(shù)相關(guān)的質(zhì)量值和所述簇共有區(qū)迭代改進(jìn)所述聚類;并且 生成并輸出各所述簇的最終簇共有區(qū)。12. 如權(quán)利要求11所述的可執(zhí)行軟件產(chǎn)品,其中迭代改進(jìn)所述聚類還包括: 使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率; 將個體序列讀數(shù)從一個簇重分配至具有最高計(jì)算概率的另一個簇;并且 合并高度相似的簇。13. 如權(quán)利要求12所述的可執(zhí)行軟件產(chǎn)品,其中使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于 各簇的概率還包括: 將各所述簇中的各序列讀數(shù)與各所述簇共有區(qū)比對; 對于沒有以足夠高的相似性百分比與任意簇共有區(qū)比對上的現(xiàn)有序列讀數(shù),因具有差 的概率而忽略所述序列讀數(shù); 對于與簇共有區(qū)(C)中的一個或多個比對的現(xiàn)有序列讀數(shù)(S),考慮所述現(xiàn)有讀數(shù)的質(zhì) 量值(QV)和簇共有區(qū)來計(jì)算所述現(xiàn)有序列讀數(shù)屬于各所述簇的概率: Pr(Si|Cu,QVs(Si))。14. 如權(quán)利要求13所述的可執(zhí)行軟件產(chǎn)品,其中對于QV不可得,則計(jì)算: Pr(Si|Cu QVs(Si)) = (9匹配)計(jì)數(shù)(匹配)(1/3 0sub)計(jì)數(shù)(sub)(l/39 ins)計(jì)數(shù) (ins)(l/3 0del)計(jì)數(shù)(del), 其中Θ分別是取代(sub)、插入(ins)和缺失(del)的匹配概率。15. 如權(quán)利要求12所述的可執(zhí)行軟件產(chǎn)品,還包括: 對于任意所述序列讀數(shù)和任意所述簇之間沒有比對,認(rèn)為所述序列讀數(shù)是孤兒,并且 從所述孤兒形成新簇。16. 如權(quán)利要求15所述的可執(zhí)行軟件產(chǎn)品,還包括: 對于僅具有一個序列讀數(shù)的新簇,對于各孤兒節(jié)點(diǎn)隨機(jī)生成隨機(jī)概率;并且 對于隨機(jī)概率小于預(yù)定閾值概率,則將所述孤兒重分配至對所述孤兒的成員具有非零 計(jì)算概率的簇之一。17. 如權(quán)利要求11所述的可執(zhí)行軟件產(chǎn)品,其中接收的序列讀數(shù)包括全長的長讀數(shù),并 且其中所述生成和輸出最終簇共有區(qū)還包括: 將非全長讀數(shù)輸入最終平滑進(jìn)程,其生成最終簇共有區(qū)。18. 如權(quán)利要求15所述的可執(zhí)行軟件產(chǎn)品,其中所述讀數(shù)包括長度范圍為0.5kb至1、2、 3、5、10、15、20kb的全長的長讀數(shù)。19. 如權(quán)利要求11所述的可執(zhí)行軟件產(chǎn)品,其中基于序列相似性將所述序列讀數(shù)分成 初始簇的集還包括: 比對所述序列讀數(shù)以產(chǎn)生比對的讀數(shù); 使用所述比對的讀數(shù)構(gòu)建相似性圖像;并且 使用所述相似性圖像發(fā)現(xiàn)最大團(tuán)。20. 如權(quán)利要求19所述的可執(zhí)行軟件產(chǎn)品,其中發(fā)現(xiàn)最大團(tuán)包括:非確定性地將所述相 似性圖像劃分成非重疊最大團(tuán)。21. -種用于錯誤校正的序列讀數(shù)迭代聚類的系統(tǒng),包含: 存儲器;和 與所述存儲器耦合的處理器,其設(shè)置成: 接收序列讀數(shù)的集和相關(guān)的質(zhì)量值; 將所述序列讀數(shù)基于序列相似性分成初始簇的集; 生成各所述初始簇的簇共有區(qū); 基于與所述序列讀數(shù)相關(guān)的質(zhì)量值和所述簇共有區(qū)迭代改進(jìn)所述聚類;并且 生成并輸出各所述簇的最終簇共有區(qū)。22. 如權(quán)利要求21所述的系統(tǒng),其中迭代改進(jìn)所述聚類還包括: 使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率; 將個體序列讀數(shù)從一個簇重分配至具有最高計(jì)算概率的另一個簇;并且 合并高度相似的簇。23. 如權(quán)利要求22所述的系統(tǒng),其中使用所述質(zhì)量值計(jì)算各序列讀數(shù)屬于各簇的概率 還包括: 將各所述簇中的各序列讀數(shù)與各所述簇共有區(qū)比對; 對于沒有以足夠高的相似性百分比與任意簇共有區(qū)比對上的現(xiàn)有序列讀數(shù),因具有差 的概率而忽略所述序列讀數(shù); 對于與簇共有區(qū)(C)中的一個或多個比對的現(xiàn)有序列讀數(shù)(S),考慮所述現(xiàn)有讀數(shù)的質(zhì) 量值(QV)和簇共有區(qū)來計(jì)算所述現(xiàn)有序列讀數(shù)屬于各所述簇的概率: Pr(Si|Cu,QVs(Si))。24. 如權(quán)利要求23所述的系統(tǒng),其中對于QV不可得,則計(jì)算: Pr(Si|Cu QVs(Si)) = (9匹配)計(jì)數(shù)(匹配)(1/3 0sub)計(jì)數(shù)(sub)(l/3 0ins)計(jì)數(shù) (ins)(l/3 0del)計(jì)數(shù)(del), 其中Θ分別是取代(sub)、插入(ins)和缺失(del)的匹配概率。25. 如權(quán)利要求22所述的系統(tǒng),還包括: 對于任意所述序列讀數(shù)和任意所述簇之間沒有比對,認(rèn)為所述序列讀數(shù)是孤兒,并且 從所述孤兒形成新簇。26. 如權(quán)利要求25所述的系統(tǒng),還包括: 對于僅具有一個序列讀數(shù)的新簇,對于各孤兒節(jié)點(diǎn)隨機(jī)生成隨機(jī)概率;并且 對于隨機(jī)概率小于預(yù)定閾值概率,則將所述孤兒重分配至對所述孤兒的成員具有非零 計(jì)算概率的簇之一。27. 如權(quán)利要求21所述的系統(tǒng),其中所述接收的序列讀數(shù)包括全長的長讀數(shù),并且其中 所述生成和輸出最終簇共有區(qū)還包括: 將非全長讀數(shù)輸入最終平滑進(jìn)程,其生成最終簇共有區(qū)。28. 如權(quán)利要求25所述的系統(tǒng),其中所述讀數(shù)包括長度范圍為0.5kb至1、2、3、5、10、15、 20kb的全長的長讀數(shù)。29. 如權(quán)利要求21所述的系統(tǒng),其中基于序列相似性將所述序列讀數(shù)分成初始簇的集 還包括: 比對所述序列讀數(shù)以產(chǎn)生比對的讀數(shù); 使用所述比對的讀數(shù)構(gòu)建相似性圖像;并且 使用所述相似性圖像發(fā)現(xiàn)最大團(tuán)。30. 如權(quán)利要求29所述的系統(tǒng),其中發(fā)現(xiàn)最大團(tuán)包括:非確定性地將所述相似性圖像劃 分成非重疊最大團(tuán)。
【文檔編號】G01N33/48GK105849555SQ201480069926
【公開日】2016年8月10日
【申請日】2014年12月10日
【發(fā)明人】H-H·曾
【申請人】加利福尼亞太平洋生物科學(xué)股份有限公司