專利名稱:拼接錯誤檢測方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及脫氧核糖核酸(DNA)中的拼接錯誤檢測,和核糖核酸(RNA)中的過度表達和表達不足檢測。
背景技術(shù):
利用把脫氧核糖核酸(DNA)分成具有呈序列的多個堿基的多個片段或多個段的方法,可以確定DNA基因組序列。每個片段中的堿基序列的確定與片段的順序的確定相結(jié)合,可以用于確定DNA的整個序列。片段順序的確定可以利用生物信息學拼接方法,借助計算機模擬(in-silico)實現(xiàn)。
發(fā)明內(nèi)容
在本發(fā)明的ー個方面,檢測基因序列拼接中的錯誤的方法包括定義一系列基因 數(shù)據(jù)的拼接(A),把讀取段(read)數(shù)據(jù)收集到讀取段庫(L)中,繪制讀取段大小與每個大小的讀取段的數(shù)目的直方圖,利用覆蓋度C使分布(D)標準化,從而獲得具有平均值(μ)和標準偏差(σ)的D',并保留未用于獲得D'的位置(i),利用A和D'收集讀取段的子集
利用Si計算平均值(Ui)和標準偏差(▲ A),在顯示器上把結(jié)果輸出給用戶。在本發(fā)明的另ー個方面,檢測基因序列中的錯誤的系統(tǒng)包括存儲器、顯示器和處理器,所述處理器操作以定義一系列基因數(shù)據(jù)的拼接(A),把讀取段數(shù)據(jù)收集到讀取段庫(L)中,繪制讀取段大小與每個大小的讀取段的數(shù)目的直方圖,利用覆蓋度C使分布(D)標準化,從而獲得具有平均值(μ)和標準偏差(σ)的D',并保留未用于獲得D'的位置(i),利用A和D'收集讀取段的子集ム),利用Si計算平均值(Ui)和標準偏差(· a ),在顯示器上把結(jié)果輸出給用戶。通過本發(fā)明的技術(shù),可實現(xiàn)另外的特征和優(yōu)點。這里詳細說明本發(fā)明的其它實施例和方面,所述其它實施例和方面被視為要求保護的發(fā)明的一部分。為了更好地理解本發(fā)明的優(yōu)點和特征,應(yīng)參考下面的說明和附圖。
當說明書完結(jié)時,在權(quán)利要求書中特別指出和明確要求保護被視為本發(fā)明的主題。根據(jù)結(jié)合附圖的下述詳細說明,本發(fā)明的上述及其它特征和優(yōu)點是顯而易見的,附圖中圖I圖解說明多個DNA序列、和把所述序列分成多個片段的劃分。圖2圖解說明用于確定序列中的錯誤的系統(tǒng)200的例證實施例。圖3A和3B圖解說明可用圖2的系統(tǒng)執(zhí)行的例證處理方法的方框圖。圖4圖解說明讀取段的頻次(frequency)的直方圖。
具體實施方式
通過利用例如壓縮空氣設(shè)備(霧化器)或者限制性內(nèi)切酶,把脫氧核糖核酸(DNA)分成具有呈序列的多個堿基的多個片段或多個段,可以確定DNA基因組序列。圖I圖解說明多個類似的DNA序列、和把所述序列分成多個片段的劃分。在這方面,多個相似的DNA鏈102 (例如,50或更多個的DNA鏈)可被分離成或切割成具有多個堿基106 (例如50 500個堿基)的多個片段104。片段104不必被切割成相同的長度。一旦切割好片段104,就讀取段104,以識別堿基106并確定所識別的堿基106在每個片段中的位置;從而產(chǎn)生每個片段104的讀取段數(shù)據(jù);可替換地,可以讀取段的端部(例如,從每一端起的100個堿基),以識別堿基??衫美绨ê塑账岬臒晒鈽擞浐透叻直媛始す獬上竦倪吅铣蛇厹y序處理,來進行片段的讀取。所得到的數(shù)據(jù)包括多個讀取段,其中,每個讀取段識別堿基106、和堿基106在每個片段104中的位置。讀取段數(shù)據(jù)被分組成包括特定長度的讀取段的頻次(即,具有特定長度的堿基的讀取段的數(shù)目)的讀取段庫(L)。覆蓋度(C)是與被測序的DNA中的某個位置重疊的片段104的副本的平均數(shù)。除了被測序的片段104的長度之外,當DNA序列的長度已知時,可知覆蓋度C。當DNA基因組序列的長度未知時,用戶可提供估計的長度。讀取段數(shù)據(jù)可被“重新拼接”,從而產(chǎn)生表示一部分或者整個DNA基因組序列的拼接(A)數(shù)據(jù)。例如,可通過考慮到讀取段中的堿基之間的重疊,在可能的地方連接重疊的讀取段,并利用拼接器(計算機模擬的生物信息學工具)進行所述拼接。拼接數(shù)據(jù)包括向 量V = <1, Ci, li, I2,,該向量包括在給定位置i的讀取段計數(shù)Ci和讀取段長度I。向量的一個例子包括V =〈34,3,10,12,102〉,指示位置34分別與長度為10、12、102的3個讀取段重疊。讀取段數(shù)據(jù)的重新拼接可能包括拼接中的順序錯誤,因為恢復(fù)片段的準確原始順序可能較困難。下面說明的例證方法和系統(tǒng)改進了拼接中的錯誤的檢測。在這方面,圖2圖解說明用于確定序列中的錯誤的系統(tǒng)200的例證實施例。圖解說明的實施例包括與顯示設(shè)備204、輸入設(shè)備206和存儲器208通信連接的處理器202,并且存儲器208保存讀取段數(shù)據(jù)201和拼接203。圖3A和3B圖解說明可由系統(tǒng)200執(zhí)行的例證處理方法的方框圖。參見圖3A,在方框302,定義包括讀取段數(shù)據(jù)的拼接(A)。在方框304,把讀取段數(shù)據(jù)收集到讀取段庫(L)中。在方框306,繪制出自L的讀取段大小與每個大小的讀取段的數(shù)目的直方圖。圖4中圖解說明了直方圖的ー個例子。在方框308,利用覆蓋度C使分布D標準化,以獲得(D'),其中,D'是L的預(yù)期標準分布,并且具有平均值μ和標準偏差σ。所述標準化是通過濾出不可能表示覆蓋度C的向量V (利用用戶給出的上下限),利用關(guān)于A的覆蓋度C進行的。利用最后步驟的輸出,重新計算讀取段庫。保留未用于獲得D'的位置(i)。在方框310,對于拼接A中的每個位置(i),把與位置i重疊的讀取段的子集X c I收集到向量Vi中。在方框312中,根據(jù)Si計算平均值(Ui)和標準偏差在方框314(圖3B),計算Ui相對于讀取段庫的μ的偏差。在方框316,確定相對于讀取段庫的σ的偏差。在
方框318,利用閾值確定μ i和(Af j的例外偏差(即,在閾值之外的偏差)。在方框320,可把結(jié)果輸出給顯示設(shè)備,以供用戶分析。對于拼接中的每個位置i,當平均值(Ui)偏離預(yù)期值超過給定閾值,或者標準偏差大于給定閾值時,位置i被標記為可能被誤拼接。用戶隨后可通過用另ー種方法重新拼接數(shù)據(jù),生成另外的讀取段并重新拼接,或者通過利用序列信息的備選來源,來專注于校正這些標記區(qū)域中的可能的拼接錯誤。類似的處理可用于RNA數(shù)據(jù),不過標記的位置與過表達(overexpression)或表達不足 Uinder expressionノ 相關(guān)。這里使用的術(shù)語只是用于說明具體的實施例,并不意圖限制本發(fā)明。這里使用的単數(shù)形式意圖還包括復(fù)數(shù)形式,除非上下文明確地另有所示。另外要明白當用在本說明書中吋,術(shù)語“包含”指定所陳述的特征、整數(shù)、步驟、操作、部件和/或組件的存在,不過并不排除ー個或多個其它特征、整數(shù)、步驟、操作、部件、組件和/或它們的組合的存在或増加。下面的權(quán)利要求中的所有裝置或步驟加功能部件的對應(yīng)結(jié)構(gòu)、材料、動作和等同物意圖包括與明確要求保護的其它部件結(jié)合地實現(xiàn)功能的任意結(jié)構(gòu)、材料或動作。提供本發(fā)明的說明是出于舉例說明的目的,而不是窮舉的,或者意圖把本發(fā)明局限于所公開的形式。對本領(lǐng)域的普通技術(shù)人員來說,多個修改和變化是顯而易見的,而不脫離本發(fā)明的精神和范圍。選擇并說明實施例是為了更好地解釋本發(fā)明的原理和實際應(yīng)用,以及使本領(lǐng)域的其他普通技術(shù)人員能夠關(guān)于具有適合于預(yù)期特定應(yīng)用的各種修改的各個實施例,理解本發(fā)明。 這里說明的附圖只是ー個例子。存在相對于所述附圖或者其中說明的步驟(或操作)多個變化,而不脫離本發(fā)明的精神。例如,可按照不同的順序執(zhí)行各個步驟,或者可以増加、刪除或修改各個步驟。所有這些變換被視為要求保護的發(fā)明的一部分。雖然說明了本發(fā)明的優(yōu)選實施例,不過顯然本領(lǐng)域的技術(shù)人員現(xiàn)在和未來可以做出在下面的權(quán)利要求的范圍內(nèi)的各種改進和提高。這些權(quán)利要求應(yīng)被解釋,以維護對首先說明的發(fā)明的恰當保護。
權(quán)利要求
1.ー種用于檢測基因序列拼接中的錯誤的方法,所述方法包括 定義一系列基因數(shù)據(jù)的拼接A ; 把讀取段數(shù)據(jù)收集到讀取段庫L中; 繪制讀取段大小與每個大小的讀取段的數(shù)目的關(guān)系的直方圖; 利用覆蓋度C使分布D標準化,從而獲得具有平均值μ和標準偏差σ的D',并保留未用于獲得D'的位置i; 利用A和D'收集讀取段的子集&匸L ; 利用Si計算平均值μ i和標準偏差·^"·Cri; 在顯示器上把結(jié)果輸出給用戶。
2.按照權(quán)利要求I所述的方法,其中,所述方法還包括關(guān)于讀取段庫中的每個位置i,計算Ui相對于μ的偏差。
3.按照權(quán)利要求I所述的方法,其中,所述方法還包括關(guān)于讀取段庫中的每個位置i,確定だ·OV相對于σ的偏差。
4.按照權(quán)利要求2所述的方法,其中,所述方法還包括比較所述偏差與閾值,以識別大于或小于閾值的偏差。
5.按照權(quán)利要求3所述的方法,其中,所述方法還包括比較所述偏差與閾值,以識別大于或小于閾值的偏差。
6.按照權(quán)利要求4所述的方法,其中,所述方法包括在顯示器上,把識別的偏差的位置i輸出給用戶。
7.按照權(quán)利要求5所述的方法,其中,所述方法包括在顯示器上,把識別的偏差的位置i輸出給用戶。
8.按照權(quán)利要求I所述的方法,其中,所述拼接是通過用于序列拼接的計算機模擬生物信息學方法定義的。
9.按照權(quán)利要求I所述的方法,其中,讀取段數(shù)據(jù)包括脫氧核糖核酸(DNA)片段中的多個堿基的位置和標識符。
10.按照權(quán)利要求I所述的方法,其中,讀取段庫包括多個讀取段數(shù)據(jù)。
11.ー種用于檢測基因序列中的錯誤的系統(tǒng),該系統(tǒng)包括 存儲器; 顯不器;和 處理器,操作以定義一系列基因數(shù)據(jù)的拼接A,把讀取段數(shù)據(jù)收集到讀取段庫L中,繪制讀取段大小與每個大小的讀取段的數(shù)目的關(guān)系的直方圖,利用覆蓋度C使分布D標準化,從而獲得具有平均值μ和標準偏差σ的D',并保留未用于獲得D'的位置i,利用A和D'收集讀取段的子集& d ,利用Si計算平均值μ i和標準偏差·^·q ,在顯示器上把結(jié)果輸出給用戶。
12.按照權(quán)利要求11所述的系統(tǒng),其中,所述處理器還操作以關(guān)于讀取段庫中的每個位置i,計算μ i相對于μ的偏差。
13.按照權(quán)利要求11所述的系統(tǒng),其中,所述處理器還操作以關(guān)于讀取段庫中的每個位置i,確定A·σν相對于σ的偏差。
14.按照權(quán)利要求12所述的系統(tǒng),其中,所述處理器還操作以比較所述偏差與閾值,以識別大于或小于閾值的偏差。
15.按照權(quán)利要求13所述的系統(tǒng),其中,所述處理器還操作以比較所述偏差與閾值,以識別大于或小于閾值的偏差。
16.按照權(quán)利要求14所述的系統(tǒng),其中,所述處理器還操作以在顯示器上,把識別的偏差的位置i輸出給用戶。
17.按照權(quán)利要求15所述的系統(tǒng),其中,所述處理器還操作以在顯示器上,把識別的偏差的位置i輸出給用戶。
18.按照權(quán)利要求11所述的系統(tǒng),其中,所述拼接是通過用于序列拼接的計算機模擬生物信息學方法定義的。
19.按照權(quán)利要求11所述的系統(tǒng),其中,讀取段數(shù)據(jù)包括脫氧核糖核酸(DNA)片段中的多個堿基的位置和標識符。
20.按照權(quán)利要求11所述的系統(tǒng),其中,讀取段庫包括多個讀取段數(shù)據(jù)。
全文摘要
本公開涉及拼接錯誤檢測方法和系統(tǒng)。一種檢測基因序列拼接中的錯誤的方法,該方法包括定義一系列基因數(shù)據(jù)的拼接(A),把讀取段數(shù)據(jù)收集到讀取段庫(L)中,繪制讀取段大小與每個大小的讀取段的數(shù)目的直方圖,利用覆蓋度C使分布(D)標準化,從而獲得具有平均值(μ)和標準偏差(σ)的D′,并保留未用于獲得D′的位置(i),利用A和D′收集讀取段的子集利用Si計算平均值(μi)和標準偏差并且在顯示器上把結(jié)果輸出給用戶。
文檔編號G06F19/22GK102682225SQ20121002010
公開日2012年9月19日 申請日期2012年1月21日 優(yōu)先權(quán)日2011年1月21日
發(fā)明者L·P·帕里達, N·海米內(nèi) 申請人:國際商業(yè)機器公司