拼接錯誤檢測方法和系統(tǒng)的制作方法

文檔序號：6363753閱讀：243來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：拼接錯誤檢測方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及脫氧核糖核酸(DNA)中的拼接錯誤檢測，和核糖核酸(RNA)中的過度表達和表達不足檢測。
背景技術(shù)：
利用把脫氧核糖核酸(DNA)分成具有呈序列的多個堿基的多個片段或多個段的方法，可以確定DNA基因組序列。每個片段中的堿基序列的確定與片段的順序的確定相結(jié)合，可以用于確定DNA的整個序列。片段順序的確定可以利用生物信息學拼接方法，借助計算機模擬(in-silico)實現(xiàn)。

發(fā)明內(nèi)容
在本發(fā)明的ー個方面，檢測基因序列拼接中的錯誤的方法包括定義一系列基因數(shù)據(jù)的拼接(A)，把讀取段(read)數(shù)據(jù)收集到讀取段庫(L)中，繪制讀取段大小與每個大小的讀取段的數(shù)目的直方圖，利用覆蓋度C使分布(D)標準化，從而獲得具有平均值(μ)和標準偏差(σ)的D'，并保留未用于獲得D'的位置(i)，利用A和D'收集讀取段的子集
利用Si計算平均值(Ui)和標準偏差(▲ A)，在顯示器上把結(jié)果輸出給用戶。在本發(fā)明的另ー個方面，檢測基因序列中的錯誤的系統(tǒng)包括存儲器、顯示器和處理器，所述處理器操作以定義一系列基因數(shù)據(jù)的拼接(A)，把讀取段數(shù)據(jù)收集到讀取段庫(L)中，繪制讀取段大小與每個大小的讀取段的數(shù)目的直方圖，利用覆蓋度C使分布(D)標準化，從而獲得具有平均值(μ)和標準偏差(σ)的D'，并保留未用于獲得D'的位置(i)，利用A和D'收集讀取段的子集ム)，利用Si計算平均值(Ui)和標準偏差(· a ),在顯示器上把結(jié)果輸出給用戶。通過本發(fā)明的技術(shù)，可實現(xiàn)另外的特征和優(yōu)點。這里詳細說明本發(fā)明的其它實施例和方面，所述其它實施例和方面被視為要求保護的發(fā)明的一部分。為了更好地理解本發(fā)明的優(yōu)點和特征，應(yīng)參考下面的說明和附圖。

當說明書完結(jié)時，在權(quán)利要求書中特別指出和明確要求保護被視為本發(fā)明的主題。根據(jù)結(jié)合附圖的下述詳細說明，本發(fā)明的上述及其它特征和優(yōu)點是顯而易見的，附圖中圖I圖解說明多個DNA序列、和把所述序列分成多個片段的劃分。圖2圖解說明用于確定序列中的錯誤的系統(tǒng)200的例證實施例。圖3A和3B圖解說明可用圖2的系統(tǒng)執(zhí)行的例證處理方法的方框圖。圖4圖解說明讀取段的頻次(frequency)的直方圖。
具體實施方式
通過利用例如壓縮空氣設(shè)備(霧化器)或者限制性內(nèi)切酶，把脫氧核糖核酸(DNA)分成具有呈序列的多個堿基的多個片段或多個段，可以確定DNA基因組序列。圖I圖解說明多個類似的DNA序列、和把所述序列分成多個片段的劃分。在這方面，多個相似的DNA鏈102 (例如，50或更多個的DNA鏈)可被分離成或切割成具有多個堿基106 (例如50 500個堿基)的多個片段104。片段104不必被切割成相同的長度。一旦切割好片段104，就讀取段104，以識別堿基106并確定所識別的堿基106在每個片段中的位置；從而產(chǎn)生每個片段104的讀取段數(shù)據(jù)；可替換地，可以讀取段的端部(例如，從每一端起的100個堿基)，以識別堿基?？衫美绨ê塑账岬臒晒鈽擞浐透叻直媛始す獬上竦倪吅铣蛇厹y序處理，來進行片段的讀取。所得到的數(shù)據(jù)包括多個讀取段，其中，每個讀取段識別堿基106、和堿基106在每個片段104中的位置。讀取段數(shù)據(jù)被分組成包括特定長度的讀取段的頻次(即，具有特定長度的堿基的讀取段的數(shù)目)的讀取段庫(L)。覆蓋度(C)是與被測序的DNA中的某個位置重疊的片段104的副本的平均數(shù)。除了被測序的片段104的長度之外，當DNA序列的長度已知時，可知覆蓋度C。當DNA基因組序列的長度未知時，用戶可提供估計的長度。讀取段數(shù)據(jù)可被“重新拼接”，從而產(chǎn)生表示一部分或者整個DNA基因組序列的拼接(A)數(shù)據(jù)。例如，可通過考慮到讀取段中的堿基之間的重疊，在可能的地方連接重疊的讀取段，并利用拼接器(計算機模擬的生物信息學工具)進行所述拼接。拼接數(shù)據(jù)包括向量V = <1, Ci, li, I2,，該向量包括在給定位置i的讀取段計數(shù)Ci和讀取段長度I。向量的一個例子包括V =〈34，3，10，12，102〉，指示位置34分別與長度為10、12、102的3個讀取段重疊。讀取段數(shù)據(jù)的重新拼接可能包括拼接中的順序錯誤，因為恢復(fù)片段的準確原始順序可能較困難。下面說明的例證方法和系統(tǒng)改進了拼接中的錯誤的檢測。在這方面，圖2圖解說明用于確定序列中的錯誤的系統(tǒng)200的例證實施例。圖解說明的實施例包括與顯示設(shè)備204、輸入設(shè)備206和存儲器208通信連接的處理器202，并且存儲器208保存讀取段數(shù)據(jù)201和拼接203。圖3A和3B圖解說明可由系統(tǒng)200執(zhí)行的例證處理方法的方框圖。參見圖3A，在方框302，定義包括讀取段數(shù)據(jù)的拼接(A)。在方框304，把讀取段數(shù)據(jù)收集到讀取段庫(L)中。在方框306，繪制出自L的讀取段大小與每個大小的讀取段的數(shù)目的直方圖。圖4中圖解說明了直方圖的ー個例子。在方框308，利用覆蓋度C使分布D標準化，以獲得(D')，其中，D'是L的預(yù)期標準分布，并且具有平均值μ和標準偏差σ。所述標準化是通過濾出不可能表示覆蓋度C的向量V (利用用戶給出的上下限)，利用關(guān)于A的覆蓋度C進行的。利用最后步驟的輸出，重新計算讀取段庫。保留未用于獲得D'的位置(i)。在方框310，對于拼接A中的每個位置(i)，把與位置i重疊的讀取段的子集X c I收集到向量Vi中。在方框312中，根據(jù)Si計算平均值(Ui)和標準偏差在方框314(圖3B)，計算Ui相對于讀取段庫的μ的偏差。在方框316，確定相對于讀取段庫的σ的偏差。在
方框318，利用閾值確定μ i和(Af j的例外偏差(即,在閾值之外的偏差)。在方框320，可把結(jié)果輸出給顯示設(shè)備，以供用戶分析。對于拼接中的每個位置i，當平均值(Ui)偏離預(yù)期值超過給定閾值，或者標準偏差大于給定閾值時，位置i被標記為可能被誤拼接。用戶隨后可通過用另ー種方法重新拼接數(shù)據(jù)，生成另外的讀取段并重新拼接，或者通過利用序列信息的備選來源，來專注于校正這些標記區(qū)域中的可能的拼接錯誤。類似的處理可用于RNA數(shù)據(jù),不過標記的位置與過表達(overexpression)或表達不足 Uinder expressionノ相關(guān)。這里使用的術(shù)語只是用于說明具體的實施例，并不意圖限制本發(fā)明。這里使用的単數(shù)形式意圖還包括復(fù)數(shù)形式，除非上下文明確地另有所示。另外要明白當用在本說明書中吋，術(shù)語“包含”指定所陳述的特征、整數(shù)、步驟、操作、部件和/或組件的存在，不過并不排除ー個或多個其它特征、整數(shù)、步驟、操作、部件、組件和/或它們的組合的存在或増加。下面的權(quán)利要求中的所有裝置或步驟加功能部件的對應(yīng)結(jié)構(gòu)、材料、動作和等同物意圖包括與明確要求保護的其它部件結(jié)合地實現(xiàn)功能的任意結(jié)構(gòu)、材料或動作。提供本發(fā)明的說明是出于舉例說明的目的，而不是窮舉的，或者意圖把本發(fā)明局限于所公開的形式。對本領(lǐng)域的普通技術(shù)人員來說，多個修改和變化是顯而易見的，而不脫離本發(fā)明的精神和范圍。選擇并說明實施例是為了更好地解釋本發(fā)明的原理和實際應(yīng)用，以及使本領(lǐng)域的其他普通技術(shù)人員能夠關(guān)于具有適合于預(yù)期特定應(yīng)用的各種修改的各個實施例，理解本發(fā)明。這里說明的附圖只是ー個例子。存在相對于所述附圖或者其中說明的步驟(或操作)多個變化，而不脫離本發(fā)明的精神。例如，可按照不同的順序執(zhí)行各個步驟，或者可以増加、刪除或修改各個步驟。所有這些變換被視為要求保護的發(fā)明的一部分。雖然說明了本發(fā)明的優(yōu)選實施例，不過顯然本領(lǐng)域的技術(shù)人員現(xiàn)在和未來可以做出在下面的權(quán)利要求的范圍內(nèi)的各種改進和提高。這些權(quán)利要求應(yīng)被解釋，以維護對首先說明的發(fā)明的恰當保護。
權(quán)利要求
1.ー種用于檢測基因序列拼接中的錯誤的方法，所述方法包括定義一系列基因數(shù)據(jù)的拼接A ; 把讀取段數(shù)據(jù)收集到讀取段庫L中；繪制讀取段大小與每個大小的讀取段的數(shù)目的關(guān)系的直方圖；利用覆蓋度C使分布D標準化，從而獲得具有平均值μ和標準偏差σ的D'，并保留未用于獲得D'的位置i; 利用A和D'收集讀取段的子集&匸L ；利用Si計算平均值μ i和標準偏差·^"·Cri; 在顯示器上把結(jié)果輸出給用戶。
2.按照權(quán)利要求I所述的方法，其中，所述方法還包括關(guān)于讀取段庫中的每個位置i，計算Ui相對于μ的偏差。
3.按照權(quán)利要求I所述的方法，其中，所述方法還包括關(guān)于讀取段庫中的每個位置i，確定だ·OV相對于σ的偏差。
4.按照權(quán)利要求2所述的方法，其中，所述方法還包括比較所述偏差與閾值，以識別大于或小于閾值的偏差。
5.按照權(quán)利要求3所述的方法，其中，所述方法還包括比較所述偏差與閾值，以識別大于或小于閾值的偏差。
6.按照權(quán)利要求4所述的方法，其中，所述方法包括在顯示器上，把識別的偏差的位置i輸出給用戶。
7.按照權(quán)利要求5所述的方法，其中，所述方法包括在顯示器上，把識別的偏差的位置i輸出給用戶。
8.按照權(quán)利要求I所述的方法，其中，所述拼接是通過用于序列拼接的計算機模擬生物信息學方法定義的。
9.按照權(quán)利要求I所述的方法，其中，讀取段數(shù)據(jù)包括脫氧核糖核酸(DNA)片段中的多個堿基的位置和標識符。
10.按照權(quán)利要求I所述的方法，其中，讀取段庫包括多個讀取段數(shù)據(jù)。
11.ー種用于檢測基因序列中的錯誤的系統(tǒng)，該系統(tǒng)包括存儲器；顯不器；和處理器，操作以定義一系列基因數(shù)據(jù)的拼接A，把讀取段數(shù)據(jù)收集到讀取段庫L中，繪制讀取段大小與每個大小的讀取段的數(shù)目的關(guān)系的直方圖，利用覆蓋度C使分布D標準化，從而獲得具有平均值μ和標準偏差σ的D'，并保留未用于獲得D'的位置i，利用A和D'收集讀取段的子集& d ,利用Si計算平均值μ i和標準偏差·^·q ,在顯示器上把結(jié)果輸出給用戶。
12.按照權(quán)利要求11所述的系統(tǒng)，其中，所述處理器還操作以關(guān)于讀取段庫中的每個位置i,計算μ i相對于μ的偏差。
13.按照權(quán)利要求11所述的系統(tǒng)，其中，所述處理器還操作以關(guān)于讀取段庫中的每個位置i，確定A·σν相對于σ的偏差。
14.按照權(quán)利要求12所述的系統(tǒng)，其中，所述處理器還操作以比較所述偏差與閾值，以識別大于或小于閾值的偏差。
15.按照權(quán)利要求13所述的系統(tǒng)，其中，所述處理器還操作以比較所述偏差與閾值，以識別大于或小于閾值的偏差。
16.按照權(quán)利要求14所述的系統(tǒng)，其中，所述處理器還操作以在顯示器上，把識別的偏差的位置i輸出給用戶。
17.按照權(quán)利要求15所述的系統(tǒng)，其中，所述處理器還操作以在顯示器上，把識別的偏差的位置i輸出給用戶。
18.按照權(quán)利要求11所述的系統(tǒng)，其中，所述拼接是通過用于序列拼接的計算機模擬生物信息學方法定義的。
19.按照權(quán)利要求11所述的系統(tǒng)，其中，讀取段數(shù)據(jù)包括脫氧核糖核酸(DNA)片段中的多個堿基的位置和標識符。
20.按照權(quán)利要求11所述的系統(tǒng)，其中，讀取段庫包括多個讀取段數(shù)據(jù)。
全文摘要
本公開涉及拼接錯誤檢測方法和系統(tǒng)。一種檢測基因序列拼接中的錯誤的方法，該方法包括定義一系列基因數(shù)據(jù)的拼接(A)，把讀取段數(shù)據(jù)收集到讀取段庫(L)中，繪制讀取段大小與每個大小的讀取段的數(shù)目的直方圖，利用覆蓋度C使分布(D)標準化，從而獲得具有平均值(μ)和標準偏差(σ)的D′，并保留未用于獲得D′的位置(i)，利用A和D′收集讀取段的子集利用Si計算平均值(μi)和標準偏差并且在顯示器上把結(jié)果輸出給用戶。
文檔編號G06F19/22GK102682225SQ20121002010
公開日2012年9月19日申請日期2012年1月21日優(yōu)先權(quán)日2011年1月21日
發(fā)明者L·P·帕里達, N·海米內(nèi) 申請人:國際商業(yè)機器公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：L·P·帕里達;N·海米內(nèi)
技術(shù)所有人：國際商業(yè)機器公司
我是此專利的發(fā)明人

上一篇：用于可擴展應(yīng)用服務(wù)的裝置和方法
上一篇：信息處理設(shè)備、程序執(zhí)行方法和計算機程序的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

點火系統(tǒng)故障檢測方法相關(guān)技術(shù)

大屏拼接顯示系統(tǒng)相關(guān)技術(shù)

拼接屏控制系統(tǒng)軟件相關(guān)技術(shù)

拼接屏系統(tǒng)拓撲圖相關(guān)技術(shù)

魚眼圖像全景拼接系統(tǒng)相關(guān)技術(shù)

拼接屏系統(tǒng)相關(guān)技術(shù)

多屏拼接系統(tǒng)軟件下載相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

拼接錯誤檢測方法和系統(tǒng)的制作方法