用于識(shí)別單核苷酸變異及其它變異的方法和設(shè)備的制造方法
【專利摘要】可以相對(duì)于參考序列通過使用測(cè)序段在滿足高置信度條件的位置的值來識(shí)別靶序列的堿基,以識(shí)別不滿足所述高置信度條件的給定位置的堿基。所述高置信度條件可以涉及參考序列某位置上測(cè)序讀段的覆蓋水平。所述測(cè)序讀段的測(cè)量質(zhì)量可以結(jié)合為堿基過程的一部分。
【專利說明】
用于識(shí)別單核苷酸變異及其它變異的方法和設(shè)備
[0001] 相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)要求2013年11月1日提交的美國(guó)臨時(shí)申請(qǐng)No. 61 /898,680的權(quán)益,該申請(qǐng)的 全部?jī)?nèi)容通過引用并入本文。
技術(shù)領(lǐng)域
[0003] 本公開內(nèi)容總的來說涉及核苷酸數(shù)據(jù),更具體地涉及核苷酸數(shù)據(jù)的數(shù)據(jù)處理。
【背景技術(shù)】
[0004] 有關(guān)核苷酸數(shù)據(jù)的靶序列與核苷酸數(shù)據(jù)的參考序列對(duì)比的應(yīng)用通常在解釋數(shù)據(jù) 范圍及數(shù)據(jù)質(zhì)量的影響方面具有有限的能力。因此,需要對(duì)靶序列與參考序列進(jìn)行對(duì)比的 改良方法及相關(guān)系統(tǒng)。
【附圖說明】
[0005] -些實(shí)施方式被以實(shí)例的方式說明,但是其不限于附圖中的圖。
[0006] 圖1是示出了根據(jù)一個(gè)示例性實(shí)施方式識(shí)別靶序列的至少一個(gè)堿基的方法的流程 圖。
[0007]圖2是不出了與圖1實(shí)施方式有關(guān)的序列兀素的圖。
[0008] 圖3A、3B及3C是示出了與圖1實(shí)施方式有關(guān)的表格的圖。
[0009] 圖4是示出了與圖1實(shí)施方式有關(guān)的抽樣方法的流程圖。
[0010]圖5是示出了與圖1實(shí)施方式有關(guān)的另一種抽樣方法的流程圖。
[0011] 圖6是示出了用于一個(gè)示例性實(shí)施方式的設(shè)備的示意圖的框圖。
[0012] 圖7是示出了計(jì)算機(jī)處理系統(tǒng)的框圖,所述系統(tǒng)內(nèi)部可以執(zhí)行一組指令,這些指令 可以使計(jì)算機(jī)執(zhí)行此處所述的任何一種方法。
[0013] 詳細(xì)描述 [0014] 1、背景
[0015]隨著下一代測(cè)序技術(shù)的實(shí)質(zhì)性進(jìn)步,研究者們已經(jīng)發(fā)現(xiàn)了多種利用這些技術(shù)的方 法,并開發(fā)了多種應(yīng)用。下一代測(cè)序技術(shù)/數(shù)據(jù)的一種重要用途或應(yīng)用就是所謂的重測(cè)序應(yīng) 用,也就是說,進(jìn)行所述測(cè)序?qū)嶒?yàn)旨在生成可以被映射到參考序列上的數(shù)據(jù),進(jìn)行所述實(shí)驗(yàn) 旨在發(fā)現(xiàn)新生成的序列(如某人自己的基因組序列)與所述參考序列(如大約十年前完成的 人類基因組計(jì)劃中得到的人類參考基因組)之間的區(qū)別??梢詫⒅販y(cè)序應(yīng)用進(jìn)一步分為全 基因組測(cè)序和有針對(duì)性重測(cè)序,將后者進(jìn)一步分為外顯子組測(cè)序(也就是說,個(gè)體總共 20000個(gè)蛋白編碼基因的測(cè)序)及其它更專業(yè)的有針對(duì)性測(cè)序(如蛋白編碼基因的選定子集 或"面板"測(cè)序,所述基因呈現(xiàn)出例如前列腺癌的風(fēng)險(xiǎn))。
[0016]典型的重測(cè)序應(yīng)用分析流程中,單核苷酸變異(SNV)識(shí)別是一個(gè)關(guān)鍵步驟。它指新 生成的序列與參考序列之間的單堿基差異識(shí)別(或確定)。除SNVs之外,個(gè)體樣本序列與參 考序列之間還有兩種其它常見的變異類型:(1)插入缺失(如插入或刪除,可能包括長(zhǎng)達(dá)50 個(gè)核苷酸的一段變化)及(2)結(jié)構(gòu)變異(SVs)或拷貝數(shù)變異(CNVs),可能包括非常長(zhǎng)片段的 變化-數(shù)千甚至數(shù)百萬個(gè)核苷酸。通常將插入缺失(或插入刪除)理解為在給定位置通過多 個(gè)插入缺失(或插入刪除)執(zhí)行的插入或刪除。盡管后兩種變異類型通常較SNVs更難識(shí)別, 但是可以將本申請(qǐng)內(nèi)容用于這些變異,這對(duì)于相關(guān)領(lǐng)域的技術(shù)人員也將是顯而易見的。
[0017] 變體識(shí)別包括SNV識(shí)別、插入缺失識(shí)別及SV或CNV識(shí)別,在分析流程中位于映射或 比對(duì)步驟的后面。映射或比對(duì)是指將原始測(cè)序讀段映射到參考序列上的操作。因?yàn)闇y(cè)序讀 段較短,且在很長(zhǎng)的參考序列上有許多重復(fù)區(qū)(如人類參考基因組為30-40億個(gè)核苷酸長(zhǎng)), 所以在讀段映射到的參考序列上找到精確的位置也是具有挑戰(zhàn)性的。本領(lǐng)域的技術(shù)人員都 熟知映射方法,所以就不在這里進(jìn)行討論了。
[0018] 對(duì)于下一代測(cè)序(NGS)而言,較難進(jìn)行SNV識(shí)別的一個(gè)原因是通常認(rèn)為常規(guī)NGS技 術(shù)(如ILLUMINA公司技術(shù))造成的錯(cuò)誤率在1%的水平,這比SNV率高出一個(gè)數(shù)量級(jí)(也就是 說,任何兩個(gè)體之間,或某個(gè)體的基因組與參考基因組之間的核苷酸比例是不同的hSNVs 及測(cè)序錯(cuò)誤都表現(xiàn)為測(cè)序數(shù)據(jù)與參考序列之間的差異。換句話說,"噪聲"(如測(cè)序錯(cuò)誤)比 "信號(hào)"(如真實(shí)SNVs)高一個(gè)數(shù)量級(jí)。
[0019] 在某種程度上,可以通過深度測(cè)序方法解決這種困難,通過該方法,各區(qū)或各位置 都被許多讀段覆蓋,所以可以應(yīng)用某些統(tǒng)計(jì)方法(如貝葉斯建模)來更可靠地確定個(gè)體序列 與參考序列之間的差異是不是由測(cè)序錯(cuò)誤造成的,這些錯(cuò)誤是系統(tǒng)性錯(cuò)誤,可以通過求平 均值或利用真實(shí)SNVs來解決。然而,包括貝葉斯建模等傳統(tǒng)統(tǒng)計(jì)方法將個(gè)體序列數(shù)據(jù)合并 到相關(guān)統(tǒng)計(jì)特征中的能力有限(如先驗(yàn)和條件概率)。相反,這些統(tǒng)計(jì)特征通常是基于一些 假定的SNVs個(gè)體序列數(shù)據(jù)的"一般行為"。
[0020] 2、方法實(shí)施方式
[0021] 示例的方法和系統(tǒng)涉及核苷酸數(shù)據(jù)的數(shù)據(jù)處理。披露的例子僅僅代表可能的變 異。除非另有明確說明,組件和功能是可選的,并可以組合或再分,而操作可以有不同的順 序或可以組合或再分。以下描述中,為了說明,給出了許多具體細(xì)節(jié)以提供對(duì)解示例實(shí)施例 的全面理解。然而,即使沒有這些具體細(xì)節(jié)也可以實(shí)施本主題,這對(duì)于本領(lǐng)域的技術(shù)人員而 目將是顯而易見的。
[0022]為了討論SNV識(shí)別的目的,我們使用兩個(gè)可以互換的術(shù)語"SNV識(shí)別"與"基因分 型"。我們還假定被采樣的個(gè)體是二倍體(也就是說,具有映射到參考序列的每個(gè)區(qū)域的兩 個(gè)稍微不同的DNA拷貝,一個(gè)是從個(gè)體的父親繼承來的,而另一個(gè)是從他/她的母新繼承來 的),但是本文所述的方法也同樣適用于不同倍性的樣本。我們要識(shí)別參考序列中各個(gè)位置 的二倍體基因型,所述基因型由新生成的測(cè)序數(shù)據(jù)所覆蓋。因?yàn)閮蓚€(gè)DNA拷貝中的每個(gè)的各 個(gè)位置都有四種可能的核苷酸,所以總共有10種可能的二倍體基因型:AA、CC、GG、TT--這 4種被稱為純合子基因型,而六(:^6^1'、06、(:1'、61'-這6種被稱為雜合體基因型-這些都是不 言而喻的。
[0023]因?yàn)楸怀闃觽€(gè)體與參考序列是相同的物種,因此它們非常相似。事實(shí)上,對(duì)于人類 種族,各個(gè)位置上平均只有0.1%的不同。(因此,如上所述,這種差異率較測(cè)序錯(cuò)誤率低一 個(gè)數(shù)量級(jí)(-1%)。)考慮到參考序列的尺寸較大(數(shù)十億個(gè)堿基),我們?cè)诳紤]全基因組重測(cè) 序時(shí)新序列和參考序列之間有幾百萬個(gè)位置有差異。還應(yīng)注意的是,由于參考序列是單倍 體(即每個(gè)位置一個(gè)拷貝),故需要確定二倍體個(gè)體序列和單倍體參考序列之間的差異。因 此,可以將已確定的差異進(jìn)一步分類為純合子SNVs(如參考是A,個(gè)體基因型是CC)及雜合子 SNVs(如參考是A,個(gè)體基因型是AC)。極少在一個(gè)位置出現(xiàn)3個(gè)堿基的情況(如參考是A,而個(gè) 體基因型是CG)。然而,一般不考慮這些罕見的情況。對(duì)于非人類物種(如豬),其個(gè)體變異水 平可能更高或其參考基因組可能有質(zhì)量問題,這種情況(如某位置為雜合型,但兩個(gè)核苷酸 都與參考?jí)A基不同)可能更頻繁地出現(xiàn)。本申請(qǐng)內(nèi)容中所述的實(shí)施方式同樣適用于這些情 況。
[0024] 如下所述,SNV識(shí)別過程的統(tǒng)計(jì)特性受到測(cè)定質(zhì)量和范圍二者的影響。
[0025] 由下一代測(cè)序設(shè)備生成的測(cè)序讀段數(shù)據(jù)包括由4字字母表{A、C、G、T}中的字母組 成的η個(gè)堿基的字符串(η是讀取長(zhǎng)度,通常為50到150之間的一個(gè)整數(shù))。此字符串中的各個(gè) 字符被稱為"堿基",等同于讀段中的一個(gè)位置。此外,各個(gè)讀段中的各個(gè)堿基(或位置)與被 稱為Phred分?jǐn)?shù)的質(zhì)量分?jǐn)?shù)有關(guān),所述Phred分?jǐn)?shù)由測(cè)序儀產(chǎn)生,代表關(guān)于"堿基識(shí)別"準(zhǔn)確 性的置信度。Phred分?jǐn)?shù)計(jì)算方法為-10 · log1Q(錯(cuò)誤率)。因此,Phred分?jǐn)?shù)為20表示估計(jì)錯(cuò) 誤率為〇. 01,而Phred分?jǐn)?shù)為30表示估計(jì)錯(cuò)誤率為0.001。
[0026] 如上所述,下一代測(cè)序通常產(chǎn)生較短讀段,但是卻有非常高的通量,所以應(yīng)用"深 度測(cè)序"方式。也就是說,各區(qū)被重復(fù)多次測(cè)序,因此各個(gè)位置都被多個(gè)讀段覆蓋。我們用L 表示關(guān)注位置的"深度范圍"。我們的做法是,我們將嘗試識(shí)別具有深度L的各個(gè)位置的SNV (或基因分型),在該深度處,至少1個(gè)L讀段表現(xiàn)出與參考序列的堿基不同的堿基。我們的討 論中,這些被稱為"可疑位置"。因?yàn)槲覀儾豢紤]位置涉及3個(gè)堿基的情況(如上所述),假定 我們辨認(rèn)出參考序列中特定"可疑位置"的核苷酸身份一一我們將參考序列中的這個(gè)核苷 酸稱為R,則這個(gè)位置的測(cè)序數(shù)據(jù)中最多有一個(gè)其它核苷酸一一我們稱之為N。雖然理論上 各個(gè)位置有10種可能的二倍體基因型,一旦確定了 R和N,則只可能有3個(gè)二倍體基因型:RR、 NN(這兩個(gè)為純合子基因型)、RN(這個(gè)為雜合子基因型)。
[0027] 某些實(shí)施方式結(jié)合基于質(zhì)量分?jǐn)?shù)的統(tǒng)計(jì)特征,而質(zhì)量分?jǐn)?shù)與測(cè)序機(jī)和測(cè)序方式的 深度水平有關(guān)。通過結(jié)合這些統(tǒng)計(jì)效應(yīng),這些實(shí)施方式使得能夠表征測(cè)序讀段中的高置信 度位置,這些測(cè)序讀段中的堿基值可用于識(shí)別其它位置的堿基。
[0028]圖1示出用于實(shí)施例的用于識(shí)別如圖2所示的靶序列208的至少一個(gè)堿基的方法 100。第一操作102包括獲取參考序列202,所述參考序列202包括限定所述參考序列的多個(gè) 堿基值。例如,參考可以是表征為堿基值序列的已知基因組的一部分(如"ACACTG···"),其長(zhǎng) 度可以為任意長(zhǎng)(如人類基因組的30-40億個(gè)堿基值)。圖2中,參考序列202的第一元素204 包括如方塊206所示的堿基值A(chǔ),靶序列208的第一元素210包括二倍體中如方塊212所示的 喊基值A(chǔ)A。
[0029]第二操作104包括獲取多個(gè)測(cè)序讀段214,各測(cè)序讀段214包括靶序列208相應(yīng)部分 的多個(gè)堿基值。測(cè)序讀段214可表征為一系列堿基值(如"ACACTG…"),其長(zhǎng)度可以為50-150 個(gè)堿基值或任意范圍。這些序列讀段214可以與基因組測(cè)試系統(tǒng)產(chǎn)生的基因組數(shù)據(jù)相一致。 圖2中,測(cè)序讀段214之一的第一元素216包括如方塊218所示的堿基值。本領(lǐng)域的技術(shù)人員 易于理解,祀序列208與測(cè)序讀段214的相對(duì)比對(duì)如圖2中的水平軸所示,所以靶序列208的 各個(gè)進(jìn)入位點(diǎn)或一個(gè)測(cè)序讀段214對(duì)應(yīng)參考序列202的一個(gè)位置。
[0030]第三操作106包括確定測(cè)序讀段中的多個(gè)高置信度位置,確定與參考序列中的相 應(yīng)位置的高置信度位置,滿足適用所述高置信度位置測(cè)序讀段堿基值的高置信度條件,從 而識(shí)別靶序列在高置信度位置的一個(gè)或多個(gè)堿基。例如,如果至少閾值數(shù)目的測(cè)序讀段包 含所述高置信度位置,且所述高置信度位置的測(cè)序讀段堿基值分布滿足統(tǒng)計(jì)置信標(biāo)準(zhǔn),則 所述高置信度位置可以滿足所述高置信度條件。
[0031] 高置信度條件可能與參考序列某位置的測(cè)序讀段覆蓋的深度水平有關(guān)。例如,測(cè) 序讀段中的各堿基值可能與參考序列中的相應(yīng)位置有關(guān)(通過映射)??梢詫⑺鱿鄳?yīng)位置 的總范圍描述為所述位置的深度水平,所述位置的深度水平可以在一個(gè)相對(duì)較低的深度水 平L(如L < 50)到一個(gè)相對(duì)較高的深度水平Η(如H>50)之間變化。
[0032] 根據(jù)如下所述的某些實(shí)施方式(如圖3A-3C),可以從測(cè)序讀段值中位于較高的深 度水平Η位置提取出位于較低深度水平L位置的測(cè)序讀段值。眾所周知,測(cè)序數(shù)據(jù)集的深度 范圍因區(qū)域而異。對(duì)于較高深度區(qū)域(如Η>50),不管采用什么SNV識(shí)別方法,都可以實(shí)現(xiàn)高 置信度SNV識(shí)別。面臨的挑戰(zhàn)是在較低深度區(qū)域。對(duì)于較高深度水平(如Η>50),用一組過濾 器保留以最高置信度確定的基因型所在的位置(例如,如果不到5%的Η讀段支持Ν,則確定 基因型為RR;如果高于95%的Η讀段支持Ν,則確定基因型為ΝΝ,如果45-55%的Η讀段支持Ν, 則確定基因型為RN)。
[0033] 然后對(duì)于較低深度水平L位置,可以從較高深度Η的若干數(shù)值中采樣。總的來說,抽 樣順序Μ不需要與深度水平L相一致,但是深度水平可以用作抽樣順序Μ,這樣M=L個(gè)數(shù)值被 抽作樣本。為了獲取與測(cè)試系統(tǒng)相關(guān)的測(cè)定質(zhì)量的影響,可以基于質(zhì)量分?jǐn)?shù)將數(shù)值進(jìn)一步 區(qū)分。
[0034]圖3A-3C為實(shí)施例表格,表明利用深度水平和質(zhì)量分?jǐn)?shù)可表征測(cè)序讀段中的數(shù)據(jù), 并將數(shù)據(jù)從測(cè)序讀段中提取出來。圖3Α中,SNV表302中包括行指標(biāo)304與列指標(biāo)306,所述行 指標(biāo)對(duì)應(yīng)四個(gè)個(gè)體堿基值(A、C、G、T),這些個(gè)體堿基值可能出現(xiàn)在參考序列中的某位置,而 所述列指標(biāo)對(duì)應(yīng)十個(gè)二倍體組合以4、〇:、66、1'1^(^6^1'、06、(:1'、61'),這些二倍體組合可 能出現(xiàn)在一個(gè)測(cè)序讀段中的所述位置。SNV表302的各個(gè)單元307使得與行指標(biāo)304對(duì)應(yīng)的特 定參考序列堿基值有可能導(dǎo)致與行指標(biāo)304對(duì)應(yīng)的二倍體組合,所述行指標(biāo)304位于測(cè)序讀 段214對(duì)應(yīng)的靶序列208中。也就是說,源自測(cè)序讀段值與參考序列值的SNV表302可用于根 據(jù)某位置的參考序列值預(yù)測(cè)相應(yīng)位置的靶序列二倍體值。因此,可以將SNV表302描述為一 個(gè)靶序列預(yù)測(cè)表。
[0035]最初,可以根據(jù)參考序列中的高置信度位置構(gòu)建SNV表302,這些位置具有足夠高 的深度水平(如H>50),并被測(cè)序讀段覆蓋。然后,為了解釋參考序列中某位置較低深度水平 L的有限數(shù)據(jù)(如被測(cè)序讀段數(shù)值覆蓋的數(shù)據(jù)),可以通過從較高深度水平(如H>50)對(duì)應(yīng)的 高置信度數(shù)值中采樣構(gòu)建以深度水平L索引的對(duì)應(yīng)SNV表302。圖4展示了相關(guān)抽樣方法400。 第一操作402包括,從測(cè)序讀段采樣Μ個(gè)高置信度的堿基值(M為正整數(shù)),其中,Μ個(gè)高置信度 的堿基值對(duì)應(yīng)至少一個(gè)高置信度位置,在所述高置信度位置,參考序列的堿基值等同于參 考序列在給定位置的堿基值。例如,在對(duì)深度水平L采樣時(shí),可以取M = L。第二操作402包括 利用Μ個(gè)高置信度堿基值估計(jì)在靶序列的給定位置存在一個(gè)或多個(gè)堿基值的可能性。
[0036]圖3B-3C為相關(guān)錯(cuò)誤表308、310,其中表征了測(cè)試預(yù)測(cè)及相關(guān)錯(cuò)誤,其中第一錯(cuò)誤 表308對(duì)應(yīng)測(cè)試系統(tǒng)中的高質(zhì)量讀段(如基于Phred分?jǐn)?shù)閾值),而第二錯(cuò)誤表310對(duì)應(yīng)低質(zhì) 量讀段。也就是說,如果數(shù)據(jù)由傳統(tǒng)平臺(tái)(如1LLUM1NA平臺(tái))生成,為了評(píng)估高置信度條件, 測(cè)序讀段可以將測(cè)序數(shù)據(jù)分為兩個(gè)子群一一第一表308中的高質(zhì)量讀段及第二表310中的 低質(zhì)量讀段。應(yīng)注意的是,本發(fā)明披露的實(shí)施方式也適用于其它平臺(tái)(如ION TORRENT)產(chǎn)生 的下一代測(cè)序數(shù)據(jù),這些平臺(tái)沒有明顯的子群質(zhì)量劃分,在此情況下,可以省略這一步。如 果某讀段中各個(gè)位置的Phred分?jǐn)?shù)都高于一定水平(默認(rèn)是15級(jí),但也可以采用其它值,比 如20、25等),則可以將該讀段劃分為高質(zhì)量讀段。將所有其它讀段劃分為低質(zhì)量讀段。應(yīng)注 意的是,雖然本實(shí)施方式采用Phred分?jǐn)?shù),但也可以基于操作設(shè)置采用其它質(zhì)量特征。
[0037]第一錯(cuò)誤表308具有列指標(biāo)312與行指標(biāo)314,所述列指標(biāo)對(duì)應(yīng)十個(gè)二倍體組合 (AA、CC、GG、TT、AC、AG、AT、CG、CT、GT),這些組合可能出現(xiàn)在靶序列的位置,而所述行指標(biāo)對(duì) 應(yīng)四個(gè)個(gè)體堿基值(A、C、G、T),可以由所述位置的測(cè)試系統(tǒng)識(shí)別這些堿基值。同理,第二錯(cuò) 誤表310具有列指標(biāo)316與列指標(biāo)318,所述列指標(biāo)對(duì)應(yīng)十個(gè)二倍體組合(AA、CC、GG、TT、AC、 AG、AT、CG、CT、GT),這些組合可能出現(xiàn)在靶序列的位置,而所述列指標(biāo)對(duì)應(yīng)四個(gè)個(gè)體堿基值 (八、(:、6、1'),可以由所述位置的測(cè)試系統(tǒng)識(shí)別這些堿基值。錯(cuò)誤表308、310的每個(gè)單元格 315、319使得與列指標(biāo)312、316對(duì)應(yīng)的特定二倍體組合有可能導(dǎo)致與行指標(biāo)314、318相對(duì)應(yīng) 的測(cè)定。
[0038] 就SNV表302而言,首先可以在高深度水平(如H>50)表征錯(cuò)誤表308、310,然后在較 低深度水平采樣。也就是說,基于最高置信度確定的基因型所在的位置類似地計(jì)算各水平L 的錯(cuò)誤率一一然后在Η讀段之外的L隨機(jī)抽樣。假定任何與基因型一致的堿基都正確(例如, 如果確定Α位置的基因型為ΑΑ或AC或AG或ΑΤ,則認(rèn)為堿基Α正確),任何與基因型不一致的堿 基都指示測(cè)序錯(cuò)誤。對(duì)于多質(zhì)量水平的測(cè)序數(shù)據(jù)(如ILLUMINA公司數(shù)據(jù)),分別計(jì)算高、低質(zhì) 量讀段的錯(cuò)誤率,并生成兩個(gè)錯(cuò)誤表。對(duì)于其它測(cè)序平臺(tái),只形成一個(gè)錯(cuò)誤表。
[0039] 也就是說,為了解釋參考序列中某位置的較低深度水平L的有限數(shù)據(jù)(如測(cè)序讀段 數(shù)值所覆蓋的數(shù)據(jù)),可以通過從較高深度水平(如H>50)對(duì)應(yīng)的高置信度數(shù)值采樣構(gòu)建以 深度水平L索引的相應(yīng)SNV表302。圖5展示了相關(guān)抽樣方法500。第一操作502包括對(duì)靶序列 在給定位置的一個(gè)或多個(gè)堿基值進(jìn)行Μ次(M為正整數(shù))高置信度測(cè)試結(jié)果的采樣,Μ次高置 信度測(cè)試結(jié)果包括至少一個(gè)高置信度位置的堿基值,在所述高置信度位置,相應(yīng)的測(cè)序讀 段識(shí)別堿基值組合,而所述堿基值組合等同于靶序列在給定位置的一個(gè)或多個(gè)堿基值。例 如,在對(duì)深度水平L采樣時(shí),可以取M = L。第二操作502包括利用對(duì)靶序列在給定位置的一個(gè) 或多個(gè)堿基值進(jìn)行Μ次高置信度測(cè)定來估計(jì)測(cè)序讀段在給定位置存在前述堿基值的可能 性。
[0040] 應(yīng)強(qiáng)調(diào)的是,在專注描述的實(shí)施方式中,我們假定是二倍體樣品,但是這個(gè)步驟可 以輕而易舉地?cái)U(kuò)展到其它倍性情況(單倍體、四倍體)。對(duì)于給定深度水平L,圖3A-3C中的各 個(gè)表302、308、310包含從測(cè)序數(shù)據(jù)的較高深度區(qū)域(Η)提取的40個(gè)參數(shù),該較高深度區(qū)域 (Η)用于計(jì)算較低深度(L)區(qū)域。堿基SNV表展示SNVs的發(fā)生率一一也就是說,個(gè)體基因型和 參考序列的真實(shí)差異。SNV表302中的數(shù)值(或參數(shù))將用于計(jì)算如下所述二倍體基因型的先 驗(yàn)概率。錯(cuò)誤表308、310是由測(cè)序機(jī)造成的測(cè)序錯(cuò)誤的發(fā)生率。兩個(gè)錯(cuò)誤表(一個(gè)用于高質(zhì) 量讀段,另一個(gè)用于低質(zhì)量讀段)中的數(shù)值或參數(shù)。應(yīng)注意的是,對(duì)于不生成兩個(gè)質(zhì)量水平 讀段的平臺(tái)(如非ILLUMINA平臺(tái)),將只有一個(gè)錯(cuò)誤表308用于如下所述的后續(xù)計(jì)算。
[0041 ] 簡(jiǎn)言之,為各L水平定義圖3A-3C的各個(gè)表302、308、310。5附表302中的每一列304 都表示參考序列202中的四個(gè)堿基之一,而每一行306都表示測(cè)序個(gè)體的靶序列208中十個(gè) 可能的真實(shí)二倍體基因型之一。SNV表302中的每個(gè)單元格都代表相應(yīng)的二倍體基因型出現(xiàn) 在指定的參考?jí)A基的某位置的可能性。錯(cuò)誤表308中的每列312表示十個(gè)二倍體基因型之 一,而每行表示測(cè)序機(jī)生成的堿基。傳統(tǒng)的具有兩個(gè)質(zhì)量水平的儀器(如ILLUMINA公司儀 器)有兩個(gè)錯(cuò)誤表308、310-一一個(gè)用于高質(zhì)量讀段,而另一個(gè)用于低質(zhì)量讀段。對(duì)于其他 測(cè)序平臺(tái),只有一個(gè)如上所述的錯(cuò)誤表308。
[0042] 圖1中的第四操作108包括識(shí)別靶序列在給定位置的一個(gè)或多個(gè)堿基,根據(jù)高置信 度位置測(cè)序讀段的堿基值、測(cè)序讀段給定位置的堿基值及所述參考序列給定位置的堿基值 來識(shí)別所述靶序列在給定位置的一個(gè)或多個(gè)堿基,所述靶序列在給定位置的一個(gè)或多個(gè)堿 基不滿足高置信度條件,從而識(shí)別所述給定位置的靶序列的一個(gè)或多個(gè)堿基。例如,靶序列 可以與N倍體基因型對(duì)應(yīng),可以在所述給定位置識(shí)別N個(gè)堿基(N為正整數(shù))。
[0043] 可以通過確定至少一個(gè)包括測(cè)序讀段的給定位置來選擇給定位置,該給定位置表 示相對(duì)于參考序列的SNV(如一個(gè)相對(duì)于參考序列的可疑位置)。此外或可替換地,可以通過 識(shí)別給定位置的插入或刪除、給定位置的拷貝數(shù)變異或給定位置的結(jié)構(gòu)變異來選擇給定位 置。
[0044] 可以利用貝葉斯預(yù)測(cè)模型來識(shí)別靶序列在給定位置的一個(gè)或多個(gè)堿基。所述貝葉 斯預(yù)測(cè)模型提供測(cè)序讀段在高置信度位置的堿基值和參考序列在多個(gè)位置的堿基值與靶 序列在所述給定位置的一個(gè)或多個(gè)堿基有關(guān)的概率值。例如,識(shí)別靶序列在所述給定位置 的一個(gè)或多個(gè)堿基可能包括利用測(cè)序讀段在高置信度位置的堿基值來評(píng)估參考序列在所 述給定位置的堿基值與靶序列在所述給定位置的一個(gè)或多個(gè)堿基值組合的可能性。而且, 識(shí)別靶序列在所述給定位置的一個(gè)或多個(gè)堿基可包括利用測(cè)序讀段高置信度位置的堿基 值來評(píng)估所述給定位置的靶序列的一個(gè)或多個(gè)堿基值與所述給定位置的一個(gè)靶序列堿基 組合的概率。
[0045] 如果我們忽略出現(xiàn)雜合子基因型,且兩個(gè)堿基都與參考?jí)A基不同的罕見情況(如 參考?jí)A基是'A',但基因型是"GC"),那么我們可以基于R:N組合將每個(gè)L水平的所有位置分 割成12個(gè)分區(qū),然后基于有關(guān)SNV表302將先驗(yàn)概率分配給各個(gè)二倍體基因型。更一般情況 下,我們考慮各個(gè)位置的10個(gè)二倍體基因型時(shí),可以基于參考?jí)A基將各個(gè)位置分成四類,然 后將先驗(yàn)概率分配給這四類中各類的10個(gè)二倍體基因型中的每一個(gè)。
[0046]因此,可以用SNV表302(或其它表格)來表征對(duì)于給定參考?jí)A基值R(如行指標(biāo) 304),任何基因型GT(如列指標(biāo)306)的先驗(yàn)概率P(R|GT)或可能性。然后,可以通過多項(xiàng)分布 使用錯(cuò)誤表308、310來表征對(duì)于給定基因型GT(如列指標(biāo)312、316),實(shí)測(cè)測(cè)序數(shù)據(jù)0(如行指 標(biāo)308、310)的條件概率P(D | GT)或可能性。
[0047]
[0048]上述公式1中,GT是特定的二倍體基因型,D是測(cè)序數(shù)據(jù),L是特定位置的測(cè)序深度 或覆蓋此位置的讀段總數(shù)(包括高、低質(zhì)量讀段是覆蓋此位置的低質(zhì)量讀段數(shù),所述讀 段支持參考核苷酸t(yī)lN是覆蓋此位置的低質(zhì)量讀段數(shù),所述讀段支持非參考?jí)A基1m是支 持參考?jí)A基R的讀段總數(shù)。表示基因型GT低質(zhì)量讀段數(shù)的錯(cuò)誤率,此基因型GT用于生 成參考?jí)A基R,所述錯(cuò)誤率通過查詢錯(cuò)誤表310獲取。假定只有二倍體基因型GT中的兩個(gè)核 苷酸都不是R時(shí),才會(huì)出現(xiàn)錯(cuò)誤。例如,如果GT是"AC",則當(dāng)R是"A"或"C"時(shí),假定不會(huì)出現(xiàn)錯(cuò) 誤。只有當(dāng)R是"G"或"T"時(shí),假定會(huì)出現(xiàn)錯(cuò)誤。類似地,p 1、->N、phlghGT->^phlgV> N分別表示 用于生成N的基因型GT的低質(zhì)量讀段的錯(cuò)誤率、用于生成R的基因型GT的高質(zhì)量讀段的錯(cuò)誤 率、用于生成N的基因型GT的高質(zhì)量讀段的錯(cuò)誤率,這些值分別從相應(yīng)的堿基錯(cuò)誤表308、 310中查出。
[0049] 在參考序列202的給定位置,借助于堿基值R和測(cè)序數(shù)據(jù)D,可以通過最大化(例如 在某近似意義上)似然函數(shù)L(R,D|GT)將似然函數(shù)以1?,0|61')=?(1?|61')仲(0|61')用于識(shí)別 基因型GT。這樣識(shí)別基因型GT可以提供所期望的堿基。
[0050] 根據(jù)操作設(shè)置的細(xì)節(jié),根據(jù)圖1的方法100的實(shí)施方式可以實(shí)現(xiàn)某些獨(dú)有特征。首 先,對(duì)于多個(gè)質(zhì)量水平的數(shù)據(jù)(例如ILLUMINA公司數(shù)據(jù)),方法100可以利用與劃分高、低質(zhì) 量讀段有關(guān)的可用知識(shí),分別處理它們。應(yīng)注意的是,按照慣例,人們并不理解現(xiàn)有序列數(shù) 據(jù)中存在多個(gè)質(zhì)量水平??梢曰谌缦聝蓚€(gè)申請(qǐng)中所述的質(zhì)量水平利用相關(guān)實(shí)施方式來劃 分序列數(shù)據(jù):相關(guān)美國(guó)臨時(shí)專利申請(qǐng)?zhí)?61/898,650,名稱:"劃分序列數(shù)據(jù)的質(zhì)量水平和測(cè) 序較長(zhǎng)讀段的方法及設(shè)備",申請(qǐng)日:2013年11月1日,在此以引用的方式整體并入本文中; 相關(guān)PCT申請(qǐng)名稱:"劃分序列數(shù)據(jù)的質(zhì)量水平和測(cè)序較長(zhǎng)讀段的方法及設(shè)備",申請(qǐng)日與本 申請(qǐng)日相同,通過交叉發(fā)明實(shí)體的方式提出申請(qǐng),在此以引用的方式整體并入本文中。
[0051] 其次,在常規(guī)方法中,分配先驗(yàn)概率時(shí),不考慮新生成的測(cè)序數(shù)據(jù)(如根據(jù)關(guān)于特 定類型SNVs出現(xiàn)頻率的常識(shí))。相比常規(guī)方法,方法100可以使用從較高深度區(qū)域估計(jì)的SNV 率和錯(cuò)誤率,采用改進(jìn)的概率計(jì)算方法(例如先驗(yàn)概率和條件概率)。相比之下,方法100可 以將相同測(cè)序數(shù)據(jù)集的較高深度區(qū)域用作先驗(yàn)知識(shí)的一部分,并產(chǎn)生更精確的SNV率參數(shù), 而該SNV率參數(shù)可以用于更精確的先驗(yàn)概率計(jì)算。同樣,方法100可以利用相同數(shù)據(jù)集的較 高深度范圍區(qū)域提取堿基出錯(cuò)率參數(shù),從而得到更精確的似然函數(shù)。
[0052]再次,方法100可以更準(zhǔn)確地計(jì)算二倍體基因型的概率,從而導(dǎo)致SNV識(shí)別性能的 改進(jìn)。在使用多個(gè)數(shù)據(jù)集(如全基因組測(cè)序數(shù)據(jù)集和外顯子組數(shù)據(jù)集)進(jìn)行測(cè)試的某些實(shí)施 方式中,當(dāng)測(cè)序深度(L)在10-25之間時(shí),與圖1的方法100相關(guān)的實(shí)施方式產(chǎn)生的錯(cuò)誤較其 它方法少30-100倍,這是典型的常見重測(cè)序研究。
[0053] 3、其它實(shí)施方式
[0054]其它實(shí)施方式與執(zhí)行上述方法的系統(tǒng)及相關(guān)計(jì)算機(jī)程序相應(yīng)。
[0055]圖6為一個(gè)實(shí)施例中的用于識(shí)別靶序列208的至少一個(gè)堿基的設(shè)備600的示意圖。 這種情況下,設(shè)備600包括至少一個(gè)用于執(zhí)行軟件和硬件模塊操作的計(jì)算機(jī)系統(tǒng)(如圖中RR 所示),所述模塊執(zhí)行圖1中方法1 〇〇的各個(gè)方面。
[0056]根據(jù)示例性實(shí)施方式,設(shè)備600包括第一存取模塊602、第二存取模塊604、第一識(shí) 別模塊606及第二識(shí)別模塊608。第一存取模塊602運(yùn)行以獲取參考序列,所述參考序列包括 限定所述參考序列的多個(gè)堿基值。第二存取模塊604運(yùn)行以獲取多個(gè)測(cè)序讀段,各測(cè)序讀段 包括靶序列相應(yīng)部分的多個(gè)堿基值。
[0057]第一識(shí)別模塊606運(yùn)行以識(shí)別測(cè)序讀段中的多個(gè)高置信度位置,高置信度位置通 過參考序列中的相應(yīng)位置被識(shí)別并滿足高置信度條件,從而利用測(cè)序讀段該高置信度位置 的堿基值來識(shí)別靶序列在該高置信度位置的一個(gè)或多個(gè)堿基。第二識(shí)別模塊608運(yùn)行,識(shí)別 所述靶序列在不滿足所述高置信度條件的給定位置的一個(gè)或更多個(gè)堿基,以識(shí)別所述靶序 列在所述給定位置的一個(gè)或更多個(gè)堿基,其中,使用所述測(cè)序讀段在所述高置信度位置的 堿基值以及所述測(cè)序讀段在給定位置的堿基值和所述參考序列在給定位置的堿基值來識(shí) 別所述靶序列所述給定位置的一個(gè)或更多個(gè)堿基。
[0058]可以通過其它相應(yīng)模塊或通過修改上述模塊執(zhí)行與方法100有關(guān)的其它操作。
[0059] 圖7示出以計(jì)算機(jī)系統(tǒng)700為實(shí)例形式的機(jī)器的示例,所述系統(tǒng)內(nèi)部可以執(zhí)行指 令,這些指令可以使機(jī)器執(zhí)行此處所述的任何一種或多種方法。在可選實(shí)施方式中,該機(jī)器 作為獨(dú)立設(shè)備運(yùn)行,或者也可與其它機(jī)器相連接(如聯(lián)網(wǎng))。在聯(lián)網(wǎng)部署中,該機(jī)器可以在服 務(wù)器-客戶端網(wǎng)絡(luò)環(huán)境中以服務(wù)器或客戶機(jī)的容量運(yùn)行,或在對(duì)等(或分布式)網(wǎng)絡(luò)環(huán)境中 以對(duì)等機(jī)運(yùn)行。該機(jī)器可以是個(gè)人電腦(PC)、平板電腦、機(jī)頂盒(STB)、個(gè)人數(shù)字助理(PDA)、 移動(dòng)電話、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)路由器、交換機(jī)或橋接器或任何能執(zhí)行指令(連續(xù)或其它)的機(jī) 器,所述指令指定該機(jī)器需要采取的動(dòng)作。此外,雖然只詳述了單機(jī),但是采用的術(shù)語"機(jī) 器"一詞還應(yīng)包括任何機(jī)器集合,所述集合單獨(dú)或共同執(zhí)行一組(或多組)指令,以執(zhí)行此處 提到的任何一種或多種方法。
[0060] 所述示例計(jì)算機(jī)系統(tǒng)700包括處理器702(如中央處理單元(CHJ)、圖形處理單元 (GPU)或兩者)、主存儲(chǔ)器704及靜態(tài)存儲(chǔ)器706,這些組成部分通過總線708相互通信。所述 計(jì)算機(jī)系統(tǒng)700還可以包括視頻顯示器710(如液晶顯示器(IXD)或陰極射線管(CRT))。計(jì)算 機(jī)系統(tǒng)700還包括字母數(shù)字輸入設(shè)備712(如鍵盤)、用戶界面(UI)光標(biāo)控制器714(如鼠標(biāo))、 磁盤驅(qū)動(dòng)單元716、信號(hào)生成設(shè)備718(如揚(yáng)聲器)及網(wǎng)絡(luò)接口設(shè)備720。
[0061] 某些情況下,可以將計(jì)算機(jī)可讀介質(zhì)描述為機(jī)器可讀介質(zhì)。磁盤驅(qū)動(dòng)器716包括機(jī) 器可讀介質(zhì)722,其上存儲(chǔ)一組或多組數(shù)據(jù)結(jié)構(gòu)及指令724(如軟件),所述結(jié)構(gòu)及指令可以 實(shí)施或利用此處所述的任何一種或多種方法或功能。所述計(jì)算機(jī)系統(tǒng)700執(zhí)行指令期間,所 述指令724也可以完全或至少部分存儲(chǔ)在靜態(tài)存儲(chǔ)器706、主存儲(chǔ)器704或者處理器702中。 靜態(tài)存儲(chǔ)器706、主存儲(chǔ)器704及處理器704也構(gòu)成機(jī)器可讀介質(zhì)。
[0062] 雖然實(shí)施例中所示的機(jī)器可讀介質(zhì)722為單一介質(zhì),但是術(shù)語"機(jī)器可讀介質(zhì)"和 "計(jì)算機(jī)可讀介質(zhì)"都可以指單一介質(zhì)或多重介質(zhì)(如集中式或分布式數(shù)據(jù)庫和/或相關(guān)的 緩存及服務(wù)器),所述介質(zhì)存儲(chǔ)一組或多組數(shù)據(jù)結(jié)構(gòu)及指令724。采用的這些術(shù)語還應(yīng)包括 任何有形或非臨時(shí)性介質(zhì),所述介質(zhì)能夠存儲(chǔ)、編碼或攜帶由機(jī)器執(zhí)行的指令,使機(jī)器執(zhí)行 此處披露的任何一種或多種方法,或能夠存儲(chǔ)、編碼或攜帶這些指令采用的或與這些指令 相關(guān)的數(shù)據(jù)結(jié)構(gòu)。因此,采用的這些術(shù)語應(yīng)包括但不限于固態(tài)存儲(chǔ)器、光學(xué)介質(zhì)及磁性介 質(zhì)。機(jī)器可讀或計(jì)算機(jī)可讀介質(zhì)的具體實(shí)例包括非易失性存儲(chǔ)器,例如包括半導(dǎo)體存儲(chǔ)器 設(shè)備,例如可刪除可編程只讀存儲(chǔ)器(EPROM)、電子可刪除可編程只讀存儲(chǔ)器(EEPR0M)及閃 存設(shè)備;內(nèi)置硬盤及可移動(dòng)磁盤等磁盤;磁光盤;只讀光盤存儲(chǔ)器(CD-ROM)及數(shù)字多功能光 盤只讀存儲(chǔ)器(DVD-ROM)。
[0063] 還可以利用傳輸介質(zhì)在通信網(wǎng)絡(luò)726上傳輸或接收指令724??梢岳镁W(wǎng)絡(luò)接口設(shè) 備720及許多眾所周知的傳輸協(xié)議中的任何一種(如超文本傳輸協(xié)議(HTTP))傳輸指令724。 通信網(wǎng)絡(luò)的實(shí)例包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、互聯(lián)網(wǎng)、移動(dòng)電話網(wǎng)絡(luò)、簡(jiǎn)易老式電話 (POTS)網(wǎng)絡(luò)及無線數(shù)據(jù)網(wǎng)絡(luò)(如WiFi和WiMax網(wǎng)絡(luò))。采用的術(shù)語"傳輸介質(zhì)"應(yīng)包括任何無 形介質(zhì),所述無形介質(zhì)能夠存儲(chǔ)、編碼或攜帶由機(jī)器執(zhí)行的指令,并包含數(shù)字或模擬通信信 號(hào)或其它無形介質(zhì),以方便此類軟件通信。
[0064] 此處所述的某些實(shí)施方式包括邏輯或許多部件、模塊或機(jī)制。模塊可以構(gòu)成軟件 模塊或硬件模塊。硬件模塊是能夠執(zhí)行某些操作的實(shí)體設(shè)備,可以配置或設(shè)置成一定形式。 實(shí)施例中,可以由軟件(如應(yīng)用程序或應(yīng)用程序部分)配置一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)(如單機(jī)、 客戶端或服務(wù)器計(jì)算機(jī)系統(tǒng))或一個(gè)或多個(gè)處理器作為硬件模塊,所述硬件模塊運(yùn)行時(shí)可 以執(zhí)行此處所述的某些操作。
[0065] 不同實(shí)施方式中,可以以機(jī)械方式或電子方式執(zhí)行硬件模塊(如電腦模塊)。例如, 硬件模塊可以包括永久配置的專用電路或邏輯(如用作專用處理器,如現(xiàn)場(chǎng)可編程門陣列 (FPGA)或特定用途集成電路(ASIC)),以執(zhí)行某些操作。硬件模塊也可以包括可編程邏輯或 電路(如包含在通用處理器或其它可編程處理器中),所述邏輯或電路由軟件臨時(shí)性配置以 執(zhí)行某些操作。為了節(jié)約成本和時(shí)間,可以決定以機(jī)械方式通過永久配置專用電路或臨時(shí) 性配置電路(如由軟件配置)執(zhí)行硬件模塊。
[0066] 因此,應(yīng)將術(shù)語"硬件模塊"(如"電腦模塊")理解為包括有形的實(shí)體,所述模塊應(yīng) 為一種具有物理構(gòu)造、永久配置(如硬連接)或臨時(shí)性配置(如程序化)的實(shí)體,旨在以特定 方式運(yùn)行和/或執(zhí)行此處所述的某些操作。考慮到臨時(shí)性配置(如程序化)的硬件模塊的實(shí) 施方式,任何一種情況下都無需及時(shí)配置或者實(shí)例化每個(gè)硬件模塊。例如,如果硬件模塊包 含利用軟件配置的通用處理器,則可以在不同的時(shí)間將通用處理器分別配置為不同的硬件 模塊。因此,軟件可以配置處理器等,以在一種情況下構(gòu)成一種特定的硬件模塊,而在另一 種情況下構(gòu)成另一種硬件模塊。
[0067] 硬件模塊可以向其它硬件模塊提供信息并接收其它硬件模塊的信息。因此,可以 將所述硬件模塊看作通信耦合模塊。同時(shí)存在多個(gè)這樣的硬件模塊時(shí),可以通過信號(hào)傳輸 (如通過適當(dāng)?shù)碾娐芳翱偩€)實(shí)現(xiàn)通信,所述電路及總線連接硬件模塊。在不同的時(shí)間配置 或?qū)嵗鄠€(gè)硬件模塊的實(shí)施方式中,可以通過存儲(chǔ)并檢索存儲(chǔ)器結(jié)構(gòu)中的信息等方式實(shí) 現(xiàn)這些硬件模塊之間的通信,多個(gè)硬件模塊可以存取這些信息。例如,一個(gè)硬件模塊可以執(zhí) 行一個(gè)操作,并在通信耦合存儲(chǔ)器設(shè)備中存儲(chǔ)該操作的輸出。然后,在稍后的時(shí)間,其它硬 件模塊可以訪問該存儲(chǔ)器設(shè)備,以檢索并處理存儲(chǔ)的輸出。硬件模塊也可以發(fā)起與輸入或 輸出設(shè)備的通信,并可以在資源(如許多信息)上運(yùn)行。
[0068] 至少部分通過一個(gè)或多個(gè)處理器可以執(zhí)行此處所述示例方法的各種操作,所述處 理器為臨時(shí)性配置(如通過軟件)或永久配置,以執(zhí)行相關(guān)操作。無論臨時(shí)性或永久配置,所 述處理器都可以構(gòu)成處理器模塊,所述模塊運(yùn)行時(shí)可以執(zhí)行一個(gè)或多個(gè)操作或功能。一些 實(shí)施例中,此處所提到的模塊可以包括處理器模塊。
[0069]同理,此處所述的方法可能至少部分由處理器執(zhí)行。例如,可以由一個(gè)或多個(gè)處理 器或處理器模塊執(zhí)行某方法的至少部分操作。可以將一定操作性能分配給一個(gè)或多個(gè)處理 器,不只是分配給單機(jī),而是要分配給多個(gè)機(jī)器。一些實(shí)施例中,所述一個(gè)處理器或多個(gè)處 理器可以位于一個(gè)位置(如家庭環(huán)境、辦公環(huán)境或服務(wù)器場(chǎng)),但是其它實(shí)施方式中,所述多 個(gè)處理器可以分布在多個(gè)位置。
[0070]所述一個(gè)或多個(gè)處理器運(yùn)行時(shí),也可以支持"云計(jì)算"環(huán)境中的相關(guān)操作性能或作 為一個(gè)"軟件即服務(wù)"(SaaS)。例如,可以由一組電腦(例如包括處理器的機(jī)器)執(zhí)行至少部 分操作,可以通過網(wǎng)絡(luò)(如互聯(lián)網(wǎng))或通過一個(gè)或多個(gè)適當(dāng)?shù)慕涌冢ㄈ鐟?yīng)用程序接口(APIs)) 獲取這些操作。
[0071] 4、結(jié)論
[0072]盡管上文已經(jīng)詳細(xì)描述了某些實(shí)施方式,然而本領(lǐng)域的技術(shù)人員很容易理解,在 沒有實(shí)質(zhì)性偏離本發(fā)明披露的新啟示的情況下,可以做出多種修改。例如,可以將以上披露 的實(shí)施方式的各方面與其它實(shí)施方式組合以形成更多的實(shí)施方式。因此,所有這些修改都 意圖落入本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種識(shí)別靶序列的至少一個(gè)堿基的方法,所述方法包括: 獲取參考序列,所述參考序列包括限定所述參考序列的多個(gè)堿基值; 獲取多個(gè)測(cè)序讀段,每個(gè)測(cè)序讀段包括靶序列相應(yīng)部分的多個(gè)堿基值; 識(shí)別所述測(cè)序讀段中的多個(gè)高置信度位置,所述高置信度位置通過參考序列中的相應(yīng) 位置被識(shí)別并且滿足高置信度條件,所述高置信度條件用于使用所述測(cè)序讀段在所述高置 信度位置的堿基值來鑒定所述靶序列在所述高置信度位置的一個(gè)或更多個(gè)堿基;以及 識(shí)別所述靶序列在不滿足所述高置信度條件的給定位置的一個(gè)或更多個(gè)堿基,以識(shí)別 所述靶序列在所述給定位置的一個(gè)或更多個(gè)堿基,其中,使用所述測(cè)序讀段在所述高置信 度位置的堿基值以及所述測(cè)序讀段在給定位置的堿基值和所述參考序列在給定位置的堿 基值來識(shí)別所述靶序列所述給定位置的一個(gè)或更多個(gè)堿基。2. 根據(jù)權(quán)利要求1所述的方法,其中,在以下情況下所述高置信度位置滿足所述高置信 度條件: 如果至少閾值數(shù)目的測(cè)序讀段包括所述高置信度位置,以及 如果所述高置信度位置的測(cè)序讀段堿基值分布滿足統(tǒng)計(jì)置信標(biāo)準(zhǔn)。3. 根據(jù)權(quán)利要求1所述的方法,其中,所述識(shí)別靶序列在給定位置的一個(gè)或多個(gè)堿基包 括: 利用測(cè)序讀段在高置信度位置的堿基值評(píng)估參考序列在所述給定位置的堿基值與靶 序列在所述給定位置的一個(gè)或多個(gè)堿基值組合的可能性。4. 根據(jù)權(quán)利要求1所述的方法,其中,所述識(shí)別靶序列在所述給定位置的一個(gè)或多個(gè)堿 基包括: 利用測(cè)序讀段在高置信度位置的堿基值評(píng)估所述靶序列在所述給定位置的一個(gè)或多 個(gè)堿基值與所述靶序列在所述給定位置的一個(gè)堿基組合的可能性。5. 根據(jù)權(quán)利要求1所述的方法,其中,所述靶序列對(duì)應(yīng)N倍體基因型,并且在所述給定位 置的N個(gè)堿基被識(shí)別,N為正整數(shù)。6. 根據(jù)權(quán)利要求1所述的方法,其中,所述測(cè)序讀段對(duì)應(yīng)基因組數(shù)據(jù)。7. 根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括: 通過確定至少一個(gè)包括所述給定位置的測(cè)序讀段來選擇所述給定位置,所述給定位置 表示相對(duì)于參考序列的單核苷酸變異(SNV)。8. 根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括: 通過識(shí)別在給定位置的插入或刪除、給定位置的拷貝數(shù)變異或給定位置的結(jié)構(gòu)變異選 擇所述給定位置。9. 根據(jù)權(quán)利要求1所述的方法,其中,利用貝葉斯預(yù)測(cè)模型來識(shí)別靶序列在所述給定位 置的一個(gè)或多個(gè)堿基,所述貝葉斯預(yù)測(cè)模型提供所述測(cè)序讀段在高置信度位置的堿基值和 參考序列在多個(gè)位置的堿基值與靶序列在給定位置的一個(gè)或多個(gè)堿基有關(guān)的概率值。10. 根據(jù)權(quán)利要求1所述的方法,其中,所述識(shí)別靶序列在給定位置的一個(gè)或多個(gè)堿基 包括: 從測(cè)序讀段采樣Μ個(gè)高置信度的堿基值,Μ個(gè)高置信度的堿基值對(duì)應(yīng)至少一個(gè)高置信度 位置,在所述高置信度位置,參考序列的堿基值等同于所述參考序列在所述給定位置的堿 基值,Μ為正整數(shù)Μ;及 利用Μ個(gè)高置信度堿基值估計(jì)靶序列在給定位置存在一個(gè)或多個(gè)堿基值的可能性。11. 根據(jù)權(quán)利要求1所述的方法,其中,所述識(shí)別靶序列在給定位置的一個(gè)或多個(gè)堿基 包括: 對(duì)于某正整數(shù)Μ,對(duì)所述靶序列在所述給定位置的所述一個(gè)或多個(gè)堿基值進(jìn)行Μ次高置 信度測(cè)試結(jié)果的采樣,的所述Μ次高置信度測(cè)試結(jié)果包括至少一個(gè)高置信度位置的堿基值, 在所述高置信度位置,相應(yīng)的測(cè)序讀段識(shí)別堿基值組合,而所述堿基值等同于所述靶序列 在所述給定位置的的一個(gè)或多個(gè)堿基值;及 利用對(duì)靶序列在給定位置的一個(gè)或多個(gè)堿基值進(jìn)行Μ次高置信度測(cè)定結(jié)果來估計(jì)測(cè)序 讀段在所述給定位置存在所述堿基值的可能性。12. -種非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),該介質(zhì)存儲(chǔ)有用于識(shí)別靶序列的至少一個(gè)堿基的 計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括指令,當(dāng)至少一臺(tái)計(jì)算機(jī)執(zhí)行所述指令時(shí),使所述至少一 臺(tái)計(jì)算機(jī)執(zhí)行以下操作: 獲取參考序列,所述參考序列包括限定所述參考序列的多個(gè)堿基; 獲取多個(gè)測(cè)序讀段,各測(cè)序讀段包括靶序列相應(yīng)部分的多個(gè)堿基值; 識(shí)別所述測(cè)序讀段中的多個(gè)高置信度位置,所述高置信度位置通過參考序列中的相應(yīng) 位置被識(shí)別,并且滿足高置信度條件,所述高置信度條件用于使用所述測(cè)序讀段在所述高 置信度位置的堿基值來鑒定所述靶序列在所述高置信度位置的一個(gè)或更多個(gè)堿基;以及 識(shí)別所述靶序列在不滿足所述高置信度條件的給定位置的一個(gè)或更多個(gè)堿基,以識(shí)別 所述靶序列在所述給定位置的一個(gè)或更多個(gè)堿基,其中,使用所述測(cè)序讀段在所述高置信 度位置的堿基值以及所述測(cè)序讀段在給定位置的堿基值和所述參考序列在給定位置的堿 基值來識(shí)別所述靶序列所述給定位置的一個(gè)或更多個(gè)堿基。13. 根據(jù)權(quán)利要求12所述的非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),其中,在以下情況下所述高置信 度位置滿足所述高置信度條件: 如果至少閾值數(shù)目的測(cè)序讀段包括所述高置信度位置,以及 如果所述高置信度位置的測(cè)序讀段堿基值分布滿足統(tǒng)計(jì)置信標(biāo)準(zhǔn)。14. 根據(jù)權(quán)利要求12所述的非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),其中,所述識(shí)別靶序列在給定位 置的一個(gè)或多個(gè)堿基包括: 利用所述測(cè)序讀段在所述高置信度位置的堿基值評(píng)估參考序列在所述給定位置的堿 基值與所述靶序列在所述給定位置的一個(gè)或多個(gè)堿基值組合的可能性。15. 根據(jù)權(quán)利要求12所述的非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),其中,所述識(shí)別靶序列在給定位 置的一個(gè)或多個(gè)堿基包括: 利用所述測(cè)序讀段在所述高置信度位置的堿基值評(píng)估所述靶序列在所述給定位置的 一個(gè)或多個(gè)堿基值與靶序列在給定位置的堿基組合的可能性。16. 根據(jù)權(quán)利要求12所述的非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),其中,所述靶序列對(duì)應(yīng)Ν倍體基 因型,并且在所述給定位置的Ν個(gè)堿基被識(shí)別,Ν為正整數(shù)。17. 根據(jù)權(quán)利要求12所述的非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),其中,所述計(jì)算機(jī)程序還包括指 令,當(dāng)至少一臺(tái)計(jì)算機(jī)執(zhí)行所述指令時(shí),使所述至少一臺(tái)計(jì)算機(jī)執(zhí)行以下操作: 通過確定至少一個(gè)包括所述給定位置的測(cè)序讀段來選擇所述給定位置所述給定位置 表示相對(duì)于參考序列的單核苷酸變異(SNV)。18. 根據(jù)權(quán)利要求12所述的非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),其中,所述計(jì)算機(jī)程序還包括指 令,當(dāng)至少一臺(tái)計(jì)算機(jī)執(zhí)行所述指令時(shí),使所述至少一臺(tái)計(jì)算機(jī)執(zhí)行以下操作: 通過識(shí)別在所述給定位置的插入或刪除、給定位置的拷貝數(shù)變異或給定位置的結(jié)構(gòu)變 異選擇所述給定位置。19. 根據(jù)權(quán)利要求12所述的非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),其中,利用貝葉斯預(yù)測(cè)模型來識(shí) 別靶序列在所述給定位置的一個(gè)或多個(gè)堿基,所述貝葉斯預(yù)測(cè)模型提供所述測(cè)序讀段在所 述高置信度位置的堿基值和參考序列在多個(gè)位置的堿基值與靶序列在給定位置的一個(gè)或 多個(gè)堿基有關(guān)的概率值。20. -種用于識(shí)別靶序列的至少一個(gè)堿基的設(shè)備,所述設(shè)備包括至少一個(gè)計(jì)算機(jī),所述 計(jì)算機(jī)被配置為執(zhí)行計(jì)算機(jī)實(shí)現(xiàn)的模塊操作,所述計(jì)算機(jī)實(shí)現(xiàn)的模塊包括: 第一存取模塊,用于獲取參考序列,所述參考序列包括限定所述參考序列的多個(gè)堿基 值; 第二存取模塊,用于獲取多個(gè)測(cè)序讀段,每個(gè)測(cè)序讀段包括靶序列相應(yīng)部分的多個(gè)堿 基值; 第一識(shí)別模塊,用于識(shí)別所述測(cè)序讀段中的多個(gè)高置信度位置,所述高置信度位置通 過參考序列中的相應(yīng)位置被識(shí)別并且滿足高置信度條件,所述高置信度條件用于使用所述 測(cè)序讀段在所述高置信度位置的堿基值來鑒定所述靶序列在所述高置信度位置的一個(gè)或 更多個(gè)堿基;以及 第二識(shí)別模塊,用于識(shí)別所述靶序列在不滿足所述高置信度條件的給定位置的一個(gè)或 更多個(gè)堿基,以識(shí)別所述靶序列在所述給定位置的一個(gè)或更多個(gè)堿基,其中,使用所述測(cè)序 讀段在所述高置信度位置的堿基值以及所述測(cè)序讀段在給定位置的堿基值和所述參考序 列給定位置的堿基值來識(shí)別所述靶序列所述給定位置的一個(gè)或更多個(gè)堿基。
【文檔編號(hào)】G06F19/22GK105874460SQ201480072012
【公開日】2016年8月17日
【申請(qǐng)日】2014年2月13日
【發(fā)明人】龔午鳴, 饒江, 李彤彬
【申請(qǐng)人】精賽恩公司