專(zhuān)利名稱(chēng):用于處理核酸色譜的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明領(lǐng)域涉及用于自動(dòng)處理核酸色譜的計(jì)算機(jī)系統(tǒng)和方法。使用該方法可容易地在雜合核酸序列示蹤過(guò)程中進(jìn)行多態(tài)性檢測(cè)和表征。
計(jì)算機(jī)程序列表附件包括計(jì)算機(jī)程序列表附件的一個(gè)光盤(pán)已在本發(fā)明的副本中提交。在下表1中可看到計(jì)算機(jī)程序列表附件所含文件的大小、生成日期、生成時(shí)間及文件名稱(chēng)。在表1中欄一以字節(jié)提供了文件大小。欄二和欄三分別表示文件產(chǎn)生日期和時(shí)間,而第四欄表示文件名稱(chēng)。
表1.計(jì)算機(jī)程序列表附件內(nèi)容
表1所披露的計(jì)算機(jī)程序列表附件及其所包含的文件名目錄作為整體在此作為參考引用。
背景技術(shù):
大量DNA序列信息的可用性已開(kāi)始影響生物學(xué)實(shí)踐。作為當(dāng)今大規(guī)模序列輸出量的結(jié)果,分析方法已不適于與急速增長(zhǎng)的數(shù)據(jù)并駕齊驅(qū)。為跟上這種增長(zhǎng)要求,需要改進(jìn)的自動(dòng)化控制,并且在序列數(shù)據(jù)處理中較大地減少或消除人為涉及因素也特別重要。在這方面的進(jìn)展不僅需要改進(jìn)數(shù)據(jù)處理軟件的準(zhǔn)確性而且需要可靠的準(zhǔn)確方式來(lái)減少在錯(cuò)誤勘正中對(duì)人為涉及因素的需要并使人工復(fù)查更加有效率。
現(xiàn)在,通常用Sanger的酶雙脫氧鏈終止法(Sanger等1977,Proc.Natl.Acad.Sci.745463-5467)在自動(dòng)測(cè)序儀中進(jìn)行DNA測(cè)序,這樣的自動(dòng)測(cè)序儀如AppliedBiosystems公司(ABI,Norwalk,Connecticut)3730×1DNA分析儀、3730DNA分析儀、ABI PRISM3100基因分析儀、3100-Avant毛細(xì)管DNA測(cè)序儀/基因分型儀或310毛細(xì)管DNA測(cè)序儀/基因分型儀。這樣的測(cè)序儀可產(chǎn)生列出多于一千個(gè)堿基的序列數(shù)據(jù)。這樣的測(cè)序開(kāi)始于目標(biāo)DNA模板及與模板鏈上特定位點(diǎn)互補(bǔ)的寡核苷酸引物。對(duì)四個(gè)堿基(A、G、C、T)中的每一個(gè),進(jìn)行反應(yīng),其中DNA聚合酶合成一定數(shù)量不同長(zhǎng)度的標(biāo)記單鏈片段,每一個(gè)片段與模板鏈的片段互補(bǔ)并從引物延伸直到出現(xiàn)那個(gè)堿基。然后根據(jù)長(zhǎng)度用凝膠電泳分離這些片段,在電泳上它們的相對(duì)大小與對(duì)每一片段最后堿基的識(shí)別使得推斷出該模板的堿基序列。
在自動(dòng)測(cè)序過(guò)程中(Smith等1986,Nature321674-679),用與引物(染料引物化學(xué))或與雙脫氧鏈終止核酸(染料終止基因化學(xué))相連的熒光染料標(biāo)記片段(Prober等1987,Science238336-341)。通常,這四個(gè)反應(yīng)中的每一個(gè)使用不同的染料,以使得它們聯(lián)合起來(lái)并在一個(gè)凝膠電泳道中跑膠(在染料終止基因化學(xué)中,全部四個(gè)反應(yīng)也允許在一個(gè)試管中進(jìn)行)。例如,一種這樣的應(yīng)用使用了激光激發(fā)和冷卻CCD(電荷偶合裝置)檢測(cè)器(Kostichka和Smith,美國(guó)專(zhuān)利5,162,654)在超薄(50-100微米)變性聚丙烯酰胺凝膠中的電泳分離過(guò)程中(Kostichka等,Bio/Technologyl078-81(1992))進(jìn)行四個(gè)熒光標(biāo)記DNA測(cè)序反應(yīng)的平行檢測(cè)。Weiss等(美國(guó)專(zhuān)利5,470,710)描述了另一種基于熒光的測(cè)序應(yīng)用,其使用酶聯(lián)熒光方法來(lái)檢測(cè)核酸分子。也參見(jiàn)美國(guó)專(zhuān)利6,596,140,其指出一種多通道毛細(xì)管電泳裝置和方法。
通常,在同一凝膠上的分離電泳道中分析多個(gè)模板(例如同時(shí)36個(gè)或更多)。在凝膠底部,激光器在片段通過(guò)時(shí)激發(fā)這些片段中的熒光染料,并且檢測(cè)器在四個(gè)不同波長(zhǎng)收集發(fā)射強(qiáng)度。在電泳過(guò)程中激光器和掃描器不斷掃描凝膠底部以便于建立凝膠圖像,其中每一電泳道具有四種不同顏色條帶的梯形模式,每一條帶對(duì)應(yīng)特定長(zhǎng)度的片段。
然后用計(jì)算機(jī)分析將凝膠圖像轉(zhuǎn)化為針對(duì)每一模板的推斷(或讀出)堿基序列。通常,該分析由四個(gè)不同的步驟組成電泳道循跡,其中識(shí)別凝膠電泳道邊界;電泳道描繪,其中在跑膠過(guò)程中的幾千個(gè)均勻間隔的時(shí)間點(diǎn)上,四個(gè)陣列組顯示信號(hào)強(qiáng)度,那么將通過(guò)電泳道的四個(gè)信號(hào)中的每一種相加產(chǎn)生一種圖形或一組“跡線(xiàn)”;跡線(xiàn)處理,其中用信號(hào)處理方法使信號(hào)估計(jì)值去卷積并使之平滑,減小噪音,并校正染料對(duì)片段遷移率的影響及遠(yuǎn)程電泳趨勢(shì);以及堿基命名,其中將經(jīng)處理的跡線(xiàn)翻譯為堿基序列。
此處所使用的術(shù)語(yǔ)“跡線(xiàn)”指通過(guò)對(duì)于特定化合物,如核酸的色譜獲得的時(shí)間分辨的分離模型。該分離模型用多個(gè)數(shù)據(jù)點(diǎn)來(lái)表征,其中在多個(gè)數(shù)據(jù)點(diǎn)中的每一個(gè)各自的數(shù)據(jù)點(diǎn)表示在該分離模式中對(duì)應(yīng)于該各自數(shù)據(jù)點(diǎn)的位置的信號(hào)幅度。通過(guò)對(duì)應(yīng)于跡線(xiàn)的化合物數(shù)量的函數(shù)確定給定數(shù)據(jù)點(diǎn)的值,該跡線(xiàn)由檢測(cè)器在該點(diǎn)處以由數(shù)據(jù)點(diǎn)表示的時(shí)間方式檢測(cè)到。在典型的核酸測(cè)序中,例如,在每一數(shù)據(jù)點(diǎn)由跡線(xiàn)表示的堿基的豐度會(huì)變化。由跡線(xiàn)表示的化合物不存在的數(shù)據(jù)點(diǎn)通常被分配了相對(duì)小的信號(hào)幅度。相反,由跡線(xiàn)表示的化合物存在的數(shù)據(jù)點(diǎn)通常被分配了相對(duì)大的信號(hào)幅度。這樣,具有相對(duì)小幅度的數(shù)據(jù)點(diǎn)和具有相對(duì)大幅度的數(shù)據(jù)點(diǎn)模式在跡線(xiàn)中給出了上升直至“峰值”。在一些實(shí)施方案中,跡線(xiàn)具有大于5個(gè)數(shù)據(jù)點(diǎn)、大于100個(gè)數(shù)據(jù)點(diǎn)、或大于1000個(gè)數(shù)據(jù)點(diǎn)。在一些實(shí)施方案中,跡線(xiàn)具有2-100,000個(gè)數(shù)據(jù)點(diǎn)或更多個(gè)數(shù)據(jù)點(diǎn)。
通常經(jīng)處理的核酸序列跡線(xiàn)以含有四種不同顏色曲線(xiàn)的色譜形式表示,每一條曲線(xiàn)代表相對(duì)于四個(gè)堿基中一個(gè)的信號(hào)并沿檢測(cè)時(shí)間增加的方向從左到右描繪(增加片段大小)。一條理想化跡線(xiàn)包括相等間隔不重疊的峰,每個(gè)峰對(duì)應(yīng)于在待測(cè)序列鏈中終止于特定堿基的標(biāo)記片段。這樣,對(duì)核酸將有四條跡線(xiàn),每條跡線(xiàn)表示特定的核苷酸。由于各種原因,實(shí)際跡線(xiàn)偏離該理想跡線(xiàn),這些原因包括在測(cè)序反應(yīng)、凝膠電泳和跡線(xiàn)處理過(guò)程中可能發(fā)生的缺陷。由于非常短的片段(由染料和特定堿基對(duì)遷移率造成的相對(duì)大的影響引起)及未反應(yīng)的染料-引物或染料-終止基因分子的不規(guī)則遷移,跡線(xiàn)的第一個(gè)五十(first fifty)或峰值常常有噪音并不等間隔。由于不很精確的跡線(xiàn)處理,該峰向跡線(xiàn)末端逐漸變得不太相等間隔,由于擴(kuò)散效應(yīng)增加在連續(xù)片段之間相對(duì)質(zhì)量差異減小使得分辨率降低,并且由于給定大小的標(biāo)記片段分子數(shù)量減小更難于區(qū)分噪音。特別是,對(duì)同一堿基分辨率很低的峰會(huì)產(chǎn)生一條寬的、常常呈波浪起伏的峰。
在跡線(xiàn)的較好分辨率區(qū)域中,最常見(jiàn)到的電泳異常是密集(Sanger和Coulsonl975,J.Mol.Biol.94441-448;Sanger等,1977,Proc.Natl.Acad.Sci.745463-5467),當(dāng)靠近單鏈片段末端的堿基與互補(bǔ)的上游區(qū)域連接時(shí),發(fā)生這種現(xiàn)象,從其長(zhǎng)度產(chǎn)生了一種通過(guò)凝膠的遷移速度快于期望速度的發(fā)夾式結(jié)構(gòu),因而引起了峰從其期望位置漂移。這導(dǎo)致一個(gè)峰在另一個(gè)下面,或者導(dǎo)致同樣堿基的兩個(gè)連續(xù)的峰合并成一個(gè)。染料-終止基因的化學(xué)性質(zhì)表現(xiàn)出可解決大部分密集的問(wèn)題(Lee等1992,Nucleic Acids Res.202471-2483),但這種化學(xué)性質(zhì)由于對(duì)染料標(biāo)記終端核苷酸的還原聚合物酶的親和性的減少引起其自身數(shù)據(jù)質(zhì)量問(wèn)題。
堿基命名軟件的作用是在面臨上述數(shù)據(jù)問(wèn)題時(shí)盡可能精確地產(chǎn)生序列。作為此處所使用的術(shù)語(yǔ)“堿基命名”指確定識(shí)別核酸序列中核苷酸堿基的過(guò)程。
一些最早的堿基命名軟件是安裝在最初的ABI測(cè)序機(jī)器上的處理軟件的一部分(Connell等,1987,Bio Techniques5342-348)。ABI軟件常作為用來(lái)判斷其他方法的基準(zhǔn)。雖然全部算法細(xì)則還未公開(kāi),根據(jù)其堿基命名軟件的ABI說(shuō)明(ABI 1996),該程序利用遷移曲線(xiàn)來(lái)預(yù)測(cè)峰空間,并在公稱(chēng)峰空間的區(qū)間中識(shí)別最可能的峰,在缺少最佳選擇時(shí)指定一個(gè)N值。然后,ABI軟件用包含峰空間平均值的標(biāo)準(zhǔn)加上或減去堿基。
高通量測(cè)序的出現(xiàn)促進(jìn)了其他堿基命名軟件程序的發(fā)展(Giddings等,1993,Nucleic Acids Res214530-4540;Golden等,1993,第一屆分子生物學(xué)智能系統(tǒng)國(guó)際會(huì)議的會(huì)議論文集,Hunder等編輯,第136-144頁(yè),AAAI出版社,Menlo Park,California;Golden等,1995第四屆年度尋優(yōu)編程會(huì)議的尋優(yōu)編程IV.會(huì)議論文集,579-601;Berno,1996,Genome Research680-91)。這些程序都進(jìn)行了包括堿基命名的多個(gè)凝膠成像處理步驟,并具有不依賴(lài)于測(cè)序機(jī)器在計(jì)算機(jī)上進(jìn)行數(shù)據(jù)有效集中處理的優(yōu)點(diǎn)。然而,這些軟件程序沒(méi)有一個(gè)可以通過(guò)滿(mǎn)意的方式識(shí)別跡線(xiàn)中的雜合峰。
適用于ABI測(cè)序儀的ABI堿基命名軟件能夠可靠地識(shí)別將近一半的可獲得堿基。剩下的一半通常包含大量的錯(cuò)誤,這些錯(cuò)誤應(yīng)刪除或必須由操作人員進(jìn)行人工校正。以進(jìn)行了工作試圖提高ABI堿基命名軟件的精確性。例如,Ewing等,1998,Genome Res.8175-185,描述了稱(chēng)為phred的堿基命名程序用于自動(dòng)測(cè)序儀的跡線(xiàn),該程序比ABI軟件的錯(cuò)誤率低。Phred不依賴(lài)于讀數(shù)中的位置、機(jī)器運(yùn)行條件或測(cè)序的化學(xué)性質(zhì)在所檢測(cè)的試驗(yàn)數(shù)據(jù)組中獲得比ABI軟件錯(cuò)誤低40-50%的平均值。
雖然上述確認(rèn)的軟件程序以其自身權(quán)利表示了重要的成就,它們?nèi)圆荒芰钊藵M(mǎn)意地進(jìn)行雜交核酸樣品的堿基命名。每一條來(lái)自雜合DNA樣品(例如人DNA樣品)的測(cè)序跡線(xiàn)是兩條自然染色體,來(lái)自母親的染色體和相應(yīng)的來(lái)自父親的染色體,測(cè)序反應(yīng)的產(chǎn)物。例如,考慮對(duì)人染色體IV進(jìn)行測(cè)序的情況。針對(duì)該測(cè)序反應(yīng)而制備的引物與來(lái)源于母親的染色體IV即來(lái)源于父親的染色體IV都相連。這樣,對(duì)來(lái)自母方和父方染色體IV的核酸序列混合物進(jìn)行測(cè)序。不同于進(jìn)行控制的鼠雜交的DNA樣品情況(由于親代是近親交配,兩條染色體是相同的),來(lái)源于母親的人染色體IV和來(lái)源于父親的人染色體具有不同的點(diǎn)。也就是說(shuō),在染色體中有許多雜合點(diǎn)(堿基位置),其中在來(lái)源于母親和來(lái)源于父親的染色體的相應(yīng)位置有不同的等位基因。在來(lái)源于母親和來(lái)源于父親的染色體相應(yīng)堿基位置之間存在雜合性的每一點(diǎn)上,在跡線(xiàn)中將出現(xiàn)兩個(gè)峰,每一個(gè)表示一個(gè)核苷酸。在人體中,每500-1000個(gè)堿基中將近似有一個(gè)具有這種雜合性。常規(guī)的堿基命名軟件不能滿(mǎn)意地識(shí)別這樣的雙峰。相反的,這樣的峰通常稱(chēng)作“不可讀”。
堿基命名程序Trace Tuner(Paracel,Pasadena,California)能夠檢測(cè)及識(shí)別雜合堿基。然而,Trace Tuner雜合堿基識(shí)別算法卻不能令人滿(mǎn)意,因?yàn)樗鼈冃枰斯じ缮?。因此,本領(lǐng)域技術(shù)仍需要改進(jìn)的系統(tǒng)和方法來(lái)自動(dòng)識(shí)別雜交核酸樣品中的雜合堿基對(duì)。
發(fā)明概述本發(fā)明致力于克服已有技術(shù)的缺陷。披露了新的系統(tǒng)和方法用于檢測(cè)由雜合樣品所收集的跡線(xiàn)序列數(shù)據(jù)中的多態(tài)性。使用基于規(guī)則的系統(tǒng),檢測(cè)跡線(xiàn)序列數(shù)據(jù)中的雙峰,對(duì)在這樣的雙峰中的每一個(gè)峰進(jìn)行表征。用關(guān)于所表征的雙峰的信息從雜合跡線(xiàn)序列數(shù)據(jù)來(lái)產(chǎn)生成對(duì)的雜合跡線(xiàn)序列。然后使用常規(guī)堿基命名軟件,如ABI測(cè)序軟件、Phred或Trace-Tuner對(duì)該成對(duì)雜合跡線(xiàn)序列進(jìn)行堿基命名。
由于本發(fā)明方法和系統(tǒng)允許進(jìn)行雜合DNA的自動(dòng)測(cè)序,因此它們有很多優(yōu)點(diǎn)。關(guān)于此點(diǎn),本發(fā)明不需要人為解釋跡線(xiàn)中的雙峰。由于其固有的主觀特性這種人為的解釋易于產(chǎn)生錯(cuò)誤。使用本發(fā)明技術(shù),用基于規(guī)則的系統(tǒng)將雜合跡線(xiàn)自動(dòng)轉(zhuǎn)換為一對(duì)雜合堿基跡線(xiàn)。
本發(fā)明技術(shù)對(duì)雜合核酸樣品的基因分型具有廣泛的適用性。例如,一種已知的用于確定染色體組DNA與特定疾病特征之間的聯(lián)系的技術(shù)將測(cè)定取自選作研究該疾病特征的一群人中的每一成員DNA樣品的特定區(qū)域的序列。然后試驗(yàn)(單獨(dú)地或以單體型)在該群體中所發(fā)現(xiàn)的多態(tài)性來(lái)觀察它們是否與疾病相關(guān)。這種關(guān)聯(lián)性檢測(cè)證實(shí)了在基因組DNA目標(biāo)區(qū)域中的基因座與該疾病相關(guān)聯(lián)。已有技術(shù)的問(wèn)題是常規(guī)用于識(shí)別多態(tài)性的技術(shù)需要進(jìn)行必要的關(guān)聯(lián)性研究,需要使用大量勞力并且昂貴。這樣的多態(tài)性通常作為序列及線(xiàn)中的雙峰披露,常規(guī)的堿基命名軟件沒(méi)有自動(dòng)的方式可靠地對(duì)這樣的雙峰進(jìn)行測(cè)序。因此,需要主觀人為介入來(lái)表征這樣的峰并從而識(shí)別多態(tài)性。
本發(fā)明去掉了識(shí)別多態(tài)性的主觀、需要耗費(fèi)勞力的步驟。使用本發(fā)明的系統(tǒng)和分方法,可對(duì)來(lái)自群體的雜合核酸樣品進(jìn)行自動(dòng)測(cè)序,以便于識(shí)別單核苷酸多態(tài)性(SNP)或其他形式的多態(tài)性(標(biāo)記物)。然后,在關(guān)聯(lián)分析中可試驗(yàn)每一個(gè)這樣的SNP(或其他形式的標(biāo)記物)來(lái)確定該SNA(或其他形式的標(biāo)記物)是否與所研究的疾病相關(guān)。除了顯著地減少了關(guān)聯(lián)研究的成本,本發(fā)明的系統(tǒng)和方法通??捎糜谄渌I(lǐng)域,如普通的SNP探索學(xué),診斷學(xué)和法醫(yī)學(xué)。
在說(shuō)明書(shū)和權(quán)利要求中,對(duì)色譜所作的坐標(biāo)(例如如圖4和5中所述的)具有多條跡線(xiàn),并具有沿色譜長(zhǎng)的線(xiàn)性軸分布的數(shù)據(jù)點(diǎn)。應(yīng)理解在該形式下不需要提供或表示色譜,也不需要在整體上包括四條連接并校準(zhǔn)的跡線(xiàn)。這樣,在本發(fā)明最寬范圍中的“色譜”包括,例如表示與位置顯示(也就是“數(shù)據(jù)點(diǎn)”相關(guān)的(或能夠相關(guān)的)核酸測(cè)定的單一幅度的數(shù)據(jù)文件。色譜可包括多個(gè)分離的文件,每一個(gè)表示一個(gè)或多核苷酸信號(hào)幅度,可連接并標(biāo)準(zhǔn)化這些幅度從而提供一個(gè)完全的組。優(yōu)選的該信號(hào)幅度與所測(cè)核苷的濃度成比例,但不需要嚴(yán)格成比例。
本發(fā)明的一個(gè)實(shí)施方案提供了一種處理具有多個(gè)基本同時(shí)發(fā)生的跡線(xiàn)的輸入核酸色譜的處理方法。在該方法中,對(duì)于多條跡線(xiàn)中的第一跡線(xiàn)的一個(gè)或多個(gè)分別的峰值中的每一個(gè),標(biāo)記在各自峰值中具有最大值的數(shù)據(jù)點(diǎn)。并且,對(duì)于多條跡線(xiàn)中的第二極限的一個(gè)或多個(gè)分別的峰值中的每一個(gè),標(biāo)記在各自峰值中具有最大值的數(shù)據(jù)點(diǎn)。在輸入核算色譜中識(shí)別坐標(biāo),該坐標(biāo)在以下數(shù)據(jù)點(diǎn)的重疊閾值數(shù)量的數(shù)據(jù)點(diǎn)內(nèi)i)在第一跡線(xiàn)的一個(gè)或多個(gè)峰中的第一峰值中具有最大值的第一數(shù)據(jù)點(diǎn)及ii)在第二跡線(xiàn)的一個(gè)或多個(gè)峰中的第二峰值中具有最大值的第二數(shù)據(jù)點(diǎn)。最終,將第一峰輸出給第一輸出純系表示,將第二峰輸出給第二輸出純系表示。在一些實(shí)施方案中,重疊域數(shù)量在兩個(gè)數(shù)據(jù)點(diǎn)到七個(gè)數(shù)據(jù)點(diǎn)之間,在一些實(shí)施方案中重疊域數(shù)量為三個(gè)數(shù)據(jù)點(diǎn)。
在一些實(shí)施方案中,輸入色譜為ABI跡線(xiàn)文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。在一些實(shí)施方案中,第一輸出純系表示和第二輸出純系表示每一個(gè)都以ABI跡線(xiàn)文件格式、SCF文件格式、ZTR文件格式或ALF文件格式書(shū)寫(xiě)。在一些情況,當(dāng)關(guān)于坐標(biāo)的預(yù)定區(qū)域的輸入色譜中大于閾值的峰存在時(shí),該坐標(biāo)就不會(huì)分成分離的色譜,第一峰和第二峰每一個(gè)都寫(xiě)成第一輸出純系表示和第二輸出純系表示。在一些實(shí)施方案中,峰值的閾值數(shù)量在兩個(gè)峰值和五個(gè)峰值之間。在一些實(shí)施方案中關(guān)于坐標(biāo)的預(yù)定區(qū)域在2個(gè)數(shù)據(jù)點(diǎn)和20個(gè)數(shù)據(jù)點(diǎn)之間。
在一些實(shí)施方案中,當(dāng)?shù)谝环宓牡谝粩?shù)據(jù)點(diǎn)與第二峰的第二數(shù)據(jù)點(diǎn)之間的比例大于閾值比例值時(shí),將第一峰和第二峰每一個(gè)都寫(xiě)成第一輸出純系表示和第二輸出純系表示。在某些情況下,閾值比例值至少為02或至少為0.4。在一些實(shí)施方案中,當(dāng)?shù)谝环宓牡谝粩?shù)據(jù)點(diǎn)與第二峰的第二數(shù)據(jù)點(diǎn)之間的比例大于閾值比例值時(shí),將第一峰值和第二峰值各自寫(xiě)為第一輸出純系表示和第二輸出純系表示。
在一些實(shí)施方案中,輸入核酸色譜表示來(lái)自雜合核酸樣品的核酸序列,該方法進(jìn)一步包括對(duì)該雜合核酸樣品中插入或刪除的點(diǎn)掃描輸入核色譜。當(dāng)發(fā)現(xiàn)插入或刪除點(diǎn)時(shí),將插入或刪除后的所有區(qū)域都寫(xiě)為第一輸出純系表示和第二輸出純系表示。在一些情況下,對(duì)插入或刪除的掃描包括計(jì)算在給定坐標(biāo)后在多條跡線(xiàn)中所發(fā)生的峰的數(shù)量。當(dāng)峰數(shù)量超過(guò)插入/刪除閾值數(shù)量時(shí),該坐標(biāo)確定為在雜合核酸樣品中插入或刪除的點(diǎn)。在一些實(shí)施方案中,插入/刪除閾值數(shù)量在25-75之間。在另一些實(shí)施方案中,插入/刪除閾值數(shù)量在75-200之間。
在一些實(shí)施方案中,該方法進(jìn)一步包括在輸入核酸色譜中為多個(gè)峰產(chǎn)生通用峰方案,并在輸出給輸出純系表示前,針對(duì)該通用峰方案和查該第一峰或該第二峰。在一些實(shí)施方案中,通用峰方案通過(guò)下述方式產(chǎn)生(i)確定輸入核酸色譜中峰值中數(shù)據(jù)點(diǎn)的平均數(shù)量;及(ii)平均所有或一部分在輸入核算色譜中具有平均數(shù)量數(shù)據(jù)點(diǎn)的峰的輪廓,從而形成通用峰輪廓。在一些實(shí)施方案中,核查包括通過(guò)誤差百分比確定第一峰或第二峰中的實(shí)驗(yàn)數(shù)據(jù)點(diǎn)值是否超過(guò)了在通用峰輪廓中與實(shí)驗(yàn)數(shù)據(jù)點(diǎn)相對(duì)應(yīng)的數(shù)據(jù)點(diǎn)的值。在一些情況下,誤差百分比在大約0.01-0.4之間。在一些實(shí)施方案中,誤差百分比為大約0.1。
本發(fā)明另一方面提供了用于與計(jì)算機(jī)系統(tǒng)相連接的計(jì)算機(jī)程序產(chǎn)品。該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算即可讀存儲(chǔ)介質(zhì)及嵌入其中的計(jì)算機(jī)程序機(jī)制。該計(jì)算機(jī)程序機(jī)制能處理具有多個(gè)基本同時(shí)發(fā)生的跡線(xiàn)的輸入核酸色譜。該計(jì)算機(jī)程序機(jī)制包括,對(duì)于在多條跡線(xiàn)中的第一跡線(xiàn)的一個(gè)或多個(gè)峰中的每一個(gè),用于標(biāo)記在該峰中具有最大值的數(shù)據(jù)點(diǎn)的指令(A)。該計(jì)算機(jī)程序機(jī)制進(jìn)一步包括,對(duì)于在多條跡線(xiàn)中的第二跡線(xiàn)的一個(gè)或多個(gè)峰中的每一個(gè),用于標(biāo)記具有該峰中的最大值的數(shù)據(jù)點(diǎn)的指令(B)。該計(jì)算機(jī)程序機(jī)制進(jìn)一步包括用于識(shí)別輸入核酸色譜中坐標(biāo)的指令,該坐標(biāo)在下述數(shù)據(jù)點(diǎn)的重疊閾值數(shù)量的數(shù)據(jù)點(diǎn)內(nèi)(i)具有在第一跡線(xiàn)的一個(gè)或多個(gè)峰中的第一峰中的最大值的第一數(shù)據(jù)點(diǎn)和(ii)具有在第二跡線(xiàn)的一個(gè)或多個(gè)峰中的第二峰中的最大值的第二數(shù)據(jù)點(diǎn)。該計(jì)算機(jī)程序機(jī)制進(jìn)一步包括用于將第一峰的表示輸出給第一輸出源和將第二峰的表示輸出給第二輸出源的指令。
本發(fā)明的另一方面提供了一種計(jì)算機(jī)系統(tǒng)用于處理具有多條基本同時(shí)發(fā)生的跡線(xiàn)的輸入核酸色譜,該計(jì)算機(jī)系統(tǒng)包括中央處理系統(tǒng)及與中央處理系統(tǒng)連接的存儲(chǔ)器。該存儲(chǔ)器存儲(chǔ)輸入核酸色譜和程序模塊。程序模塊包括,對(duì)于所述多條跡線(xiàn)中第一條跡線(xiàn)的一個(gè)或多個(gè)峰中的每一個(gè),用于標(biāo)記具有在所述峰中的最大值的數(shù)據(jù)點(diǎn)的指令(A)。該程序模塊進(jìn)一步包括,對(duì)于多條跡線(xiàn)中的第二跡線(xiàn)的一個(gè)或多個(gè)峰中的每一個(gè),用于標(biāo)記具有該峰中的最大值的數(shù)據(jù)點(diǎn)的指令(B)。該程序模塊進(jìn)一步包括用于識(shí)別輸入核酸色譜中坐標(biāo)的指令,該坐標(biāo)在下述數(shù)據(jù)點(diǎn)的重疊閾值數(shù)量的數(shù)據(jù)點(diǎn)內(nèi)(i)具有第一跡線(xiàn)的一個(gè)或多個(gè)峰中第一峰中的最大值的第一數(shù)據(jù)點(diǎn)和(ii)具有第二跡線(xiàn)中一個(gè)或多個(gè)峰中第二峰中的最大值的第二數(shù)據(jù)點(diǎn)。該程序模塊進(jìn)一步包括用于將第一峰表示輸出給第一輸出源及將第二峰的表示輸出給第二輸出源的指令。
本發(fā)明的另一方面提供了一種在與計(jì)算機(jī)系統(tǒng)連接中使用的計(jì)算機(jī)程序產(chǎn)品。該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和嵌入其中的計(jì)算機(jī)程序機(jī)制。該計(jì)算機(jī)程序機(jī)制處理具有多條跡線(xiàn)的輸入核酸色譜。該計(jì)算機(jī)程序裝置包括跡線(xiàn)拆分程序。跡線(xiàn)拆分程序包括將在輸入核酸色譜中來(lái)自第一跡線(xiàn)的第一峰輸出給第一輸出純系表示的指令和將發(fā)生在輸入色譜第二跡線(xiàn)中與第一峰相對(duì)應(yīng)的數(shù)據(jù)點(diǎn)處的第二峰輸出給第二輸出純系表示的指令。在一些實(shí)施方案中,當(dāng)輸入核酸色譜中的坐標(biāo)在(i)具有第一峰中最大值的第一數(shù)據(jù)點(diǎn)和(ii)具有第二峰中最大值的第二數(shù)據(jù)點(diǎn)的重疊閾值數(shù)量的數(shù)據(jù)點(diǎn)內(nèi)時(shí),第二峰對(duì)應(yīng)于第一峰。在一些實(shí)施方案中,重疊閾值數(shù)量在2個(gè)數(shù)據(jù)點(diǎn)和7個(gè)數(shù)據(jù)點(diǎn)之間。
附圖簡(jiǎn)述
圖1描述了根據(jù)本發(fā)明一個(gè)實(shí)施方案的用于檢測(cè)并表征核酸序列描繪中的雜合性的計(jì)算機(jī)系統(tǒng)。
圖2A-2D描述了根據(jù)本發(fā)明一個(gè)實(shí)施方案的用于檢測(cè)并表征核酸序列描繪中的雜合性的處理步驟。
圖3描述了根據(jù)本發(fā)明一個(gè)實(shí)施方案所產(chǎn)生的跡線(xiàn)序列數(shù)據(jù)結(jié)構(gòu)。
圖4描述了用本發(fā)明方法基于輸入色譜產(chǎn)生的輸入色譜和典型的純系表示。
圖5描述了用本發(fā)明方法基于輸入色譜產(chǎn)生的輸入色譜和兩個(gè)典型的純系表示。
圖6描述了用圖2的處理步驟證實(shí)基因座與所研究的疾病之間的聯(lián)系的一種應(yīng)用。
圖7描述了人基因HRMT1L3的外顯子結(jié)構(gòu)。每一個(gè)垂直條表示一種外顯子,在底部的短水平線(xiàn)表示由PCR擴(kuò)增所處理的基因組區(qū)域。
同樣的附圖標(biāo)記指全部幾個(gè)附圖中所對(duì)應(yīng)的部分。
發(fā)明詳述本發(fā)明關(guān)注于用于測(cè)定雜合核酸序列色譜的自動(dòng)化過(guò)程。用基于規(guī)則的系統(tǒng)解釋這樣的色譜。每輸入一個(gè)雜合色譜,產(chǎn)生兩個(gè)輸出純系表示。在輸入色譜中發(fā)現(xiàn)雙峰的情況下,本發(fā)明的系統(tǒng)和方法將一個(gè)峰置于第一純系表示中將第二峰置于第二純系表示中。以這種方式,不需要人為主觀解釋對(duì)每一輸入純合色譜自動(dòng)產(chǎn)生純系表示(例如,兩個(gè)純合色譜或兩個(gè)純系序列)。這樣,本發(fā)明方法顯著增加了效率,通過(guò)該方法可在雜合核酸描繪中檢測(cè)多態(tài)性。如所指的,本發(fā)明方法在幾個(gè)領(lǐng)域具有廣泛的適用性,例如,多態(tài)性發(fā)現(xiàn)學(xué)(例如,單核苷多態(tài)性發(fā)現(xiàn)學(xué))、關(guān)聯(lián)分析學(xué)、診斷學(xué)及法醫(yī)學(xué)。
圖1顯示了系統(tǒng)10,用于檢測(cè)并表之雜合核酸序列色譜中的多態(tài)性。系統(tǒng)10優(yōu)選包括●中央處理單元22●主非易失存儲(chǔ)單元30,例如硬盤(pán)驅(qū)動(dòng)器,用于存儲(chǔ)軟件和數(shù)據(jù),存儲(chǔ)單元30任意由存儲(chǔ)控制器28控制;●系統(tǒng)存儲(chǔ)器24,優(yōu)選為高速隨機(jī)存取存儲(chǔ)器(RAM),用于存儲(chǔ)系統(tǒng)控制程序、數(shù)據(jù)及應(yīng)用程序,包括從非易失存儲(chǔ)單元28寫(xiě)入的程序和數(shù)據(jù);系統(tǒng)存儲(chǔ)器24也可包括只讀存儲(chǔ)器(ROM);●用戶(hù)接口26,包括一個(gè)或多個(gè)輸入裝置(例如,鍵盤(pán)8、鼠標(biāo)36)及顯示器38或其他輸出裝置;●任選的,網(wǎng)絡(luò)接口卡39用于連接到任何有線(xiàn)或無(wú)線(xiàn)互聯(lián)網(wǎng)上和/或連接到測(cè)序儀(未示出)上;及●內(nèi)部總線(xiàn)34用于內(nèi)部連接系統(tǒng)的前述部件;系統(tǒng)10的操作主要由操作系統(tǒng)40控制,其通過(guò)中央處理單元22執(zhí)行。操作系統(tǒng)40可存儲(chǔ)于系統(tǒng)存儲(chǔ)器24中。在通常的執(zhí)行過(guò)程中,系統(tǒng)存儲(chǔ)器24包括●操作系統(tǒng)40;●文檔系統(tǒng)42用于控制對(duì)本發(fā)明所使用的各種文件和數(shù)據(jù)結(jié)構(gòu)的訪(fǎng)問(wèn);及●分離跡線(xiàn)主模塊44,用于將雜合輸入色譜46分離為兩個(gè)雜合輸出表示(例如,分別為色譜52A和52B)。
分離跡線(xiàn)主模塊44利用本發(fā)明的新方法讀入輸入色譜46并將它分為輸出純系表示(例如,色譜52A和52B)。通常,用熒光染料對(duì)DNA片段進(jìn)行標(biāo)記,用四種不同染料對(duì)四種不同的核苷進(jìn)行標(biāo)記。這些標(biāo)記DNA片段通過(guò)毛細(xì)管,同時(shí)熒光檢測(cè)器沿毛細(xì)管讀取每一熒光染料的熒光信號(hào)在每條沿毛細(xì)管的時(shí)間坐標(biāo)上,存在四個(gè)不同的熒光信號(hào)讀數(shù),每一讀數(shù)相應(yīng)于四個(gè)可能核苷的一個(gè)。這樣,輸入色譜46包括熒光信號(hào)讀數(shù)(跡線(xiàn))的四個(gè)陣列,稱(chēng)為跡線(xiàn)1(48-1)、跡線(xiàn)2(48-2)、跡線(xiàn)3(48-3)、跡線(xiàn)4(48-4),其中每條跡線(xiàn)唯一地表示四個(gè)可能核苷酸(腺嘌呤、胸腺嘧啶、胞嘧啶、鳥(niǎo)嘌呤)中的一個(gè)。
在圖1所述的實(shí)施方案中,分離跡線(xiàn)主模塊44包括多個(gè)子程序(子模塊)。這些子模塊包括掃描跡線(xiàn)模塊56,該模塊對(duì)跡線(xiàn)48-1、48-2、48-3和48-4都進(jìn)行掃描并確定每一跡線(xiàn)中的峰位置和峰間距。跡線(xiàn)48包括多個(gè)數(shù)據(jù)點(diǎn)及相對(duì)于每一這樣的數(shù)據(jù)點(diǎn)的強(qiáng)度值。每一跡線(xiàn)通常由幾千個(gè)數(shù)據(jù)點(diǎn)組成。對(duì)每一跡線(xiàn)48,存在相應(yīng)的跡線(xiàn)狀態(tài)數(shù)據(jù)結(jié)構(gòu)50,該結(jié)構(gòu)對(duì)基線(xiàn)中的每一數(shù)據(jù)點(diǎn)存儲(chǔ)用數(shù)據(jù)結(jié)構(gòu)標(biāo)示的狀態(tài)值。分離跡線(xiàn)主模塊44進(jìn)一步包括標(biāo)記有效峰范圍程序62用于(i)評(píng)價(jià)輸入色譜46中四條跡線(xiàn)的質(zhì)量,(ii)標(biāo)記這些跡線(xiàn)中的起始數(shù)據(jù)點(diǎn)指示可接收數(shù)據(jù)的開(kāi)始,及(iii)標(biāo)記這些跡線(xiàn)中的最終數(shù)據(jù)點(diǎn)指示可接收數(shù)據(jù)的結(jié)束。分離跡線(xiàn)主模塊44進(jìn)一步包括輪廓程序模塊64用于在每次掃描中為峰構(gòu)建通用峰輪廓。這樣的輪廓用于,例如,重構(gòu)由于相鄰峰重疊造成丟失的重疊雙峰部分。分離跡線(xiàn)主模塊44進(jìn)一步包括用于計(jì)算輸入跡線(xiàn)48的平均背景的計(jì)算平均背景峰程序66,以及用于寫(xiě)出雜合輸出純系表示(例如,色譜52A和52B)的跡線(xiàn)分離程序68。
根據(jù)本發(fā)明的一個(gè)示范性實(shí)施方案,圖2描述了一種方法用于將雜合輸入色譜46分離為兩個(gè)輸出純合表示(例如,色譜52A和52B)。在本發(fā)明的一個(gè)實(shí)施方案中,圖2所描述的步驟由被模塊44調(diào)用的各種程序相連的分離跡線(xiàn)主模塊44實(shí)施。
步驟202.在步驟202中,讀取輸入色譜46。輸入色譜46可從任何測(cè)序儀中讀出,該測(cè)序儀用四種不同顏色的染料或熒光標(biāo)記來(lái)識(shí)別四種可能的堿基。示范性測(cè)序儀包括但不僅限于下表2所列出的測(cè)序儀。
表2.示范性DNA測(cè)序儀
輸入色譜46是任一種提供色譜跡線(xiàn)幅度的數(shù)據(jù)格式。通常,輸入色譜46包括跡線(xiàn)幅度、跡線(xiàn)調(diào)用、它們的置信度值及關(guān)于特定測(cè)序?qū)嶒?yàn)的任選的文本數(shù)據(jù),例如它們的化學(xué)性質(zhì)、測(cè)序機(jī)器類(lèi)型和操作條件。在用于生物信息跡線(xiàn)資料庫(kù)的國(guó)際中心(http//www.ncbi.nlm.nih.gov/Traces)提供有與個(gè)體跡線(xiàn)文件相關(guān)的通用文本數(shù)據(jù)列表。
在一個(gè)實(shí)施方案中,輸入色譜是ABI跡線(xiàn)文件,如以ABI377文件格式的跡線(xiàn)文件。用于解釋ABI377文件格式,參見(jiàn)“Raw Data File Formats,and theDigital and Analog Raw Data Streams of the ABI PRISM 377 DNA Sequencer”,ClarkTibbetts,www-2.c2.cmu.edu/afs/cs/profect/www/Papers,clark.html。在一些實(shí)施方案中,輸入色譜46是SCF格式。SCF格式文件含有用于單次讀取的數(shù)據(jù)并包括其跡線(xiàn)樣品點(diǎn)、它的調(diào)用序列、與跡線(xiàn)樣品點(diǎn)相關(guān)的堿基位置及每一堿基精確性數(shù)值估計(jì)。SCF文件格式不依賴(lài)于機(jī)器,Dear和Staden在1992,DNASequence 3107-110中描述了這種文件格式的版本。
在一些實(shí)施方案中,輸入色譜46是ZTR壓縮文件格式。為進(jìn)一步了解關(guān)于ZTR文件格式的更多信息,參見(jiàn)Bonfield等,1995,Nucleic Acids Res.234992-99。在一些實(shí)施方案中,輸入色譜46為ALF格式文件。ALF是由AmershamPharmacia Biotech公司(瑞典烏普薩拉)研制的文件格式用于存儲(chǔ)來(lái)自測(cè)序儀的序列信息。
不論輸入色譜46的特定文件格式,色譜內(nèi)四條跡線(xiàn)各自分別分成數(shù)據(jù)結(jié)構(gòu)48-1、48-2、48-3和48-4(圖1)。在最小值處,跡線(xiàn)48包括一系列數(shù)據(jù)點(diǎn)和每一數(shù)據(jù)點(diǎn)的幅度。在四條跡線(xiàn)的每一條中理想地用單個(gè)點(diǎn)表示對(duì)象核酸(正在測(cè)序的的核酸)中的每一堿基。假設(shè)跡線(xiàn)48-1、48-2、48-3和48-4中每一條的數(shù)據(jù)點(diǎn)是對(duì)應(yīng)的,如果它們表示對(duì)象核酸序列中同一堿基位置。對(duì)給定跡線(xiàn)48中每一數(shù)據(jù)點(diǎn),存在一種染料強(qiáng)度顯示,該顯示對(duì)應(yīng)于在該位置由數(shù)據(jù)點(diǎn)表示的給定跡線(xiàn)48。在圖3的上部畫(huà)面,對(duì)于跡線(xiàn)48-1和48-2典型的數(shù)據(jù)包括10個(gè)相應(yīng)的數(shù)據(jù)點(diǎn)和它們各自的強(qiáng)度值。可將圖3A上部畫(huà)面每一行理解為輸入色譜46的數(shù)據(jù)點(diǎn)或坐標(biāo)。
通常,當(dāng)待測(cè)序核酸為以下情況(i)不是雜合的或者(ii)是雜合的但卻是從相應(yīng)母方和父方染色體是相同的組織中獲得的,跡線(xiàn)中四個(gè)相應(yīng)的數(shù)據(jù)點(diǎn)只有一個(gè)記錄為“峰”。然而,如圖3上部畫(huà)面的數(shù)據(jù)點(diǎn)數(shù)字6所描述的,在已對(duì)雜合DNA進(jìn)行測(cè)序的情況下,將存在來(lái)源于母親和來(lái)源于父親的染色體不具有同一堿基對(duì)的數(shù)據(jù)點(diǎn),這樣四條跡線(xiàn)中的兩條將在表示該錯(cuò)配堿基對(duì)的數(shù)據(jù)點(diǎn)處記錄為“峰”。例如,考慮正在對(duì)人染色體3上的區(qū)域進(jìn)行測(cè)序的情況。在雜合DNA樣品的情況下,來(lái)源于母親染色體3上任意堿基位置229可能具有堿基“G”,而在來(lái)源于父親的染色體3上相應(yīng)的堿基位置具有堿基“C”。當(dāng)測(cè)定堿基位置時(shí),跡線(xiàn)中表示堿基“G”的染料的數(shù)據(jù)點(diǎn)和跡線(xiàn)中表示堿基“C”染料的數(shù)據(jù)點(diǎn)記錄為峰。這種狀況在圖4中描述。在圖4的色譜402中,位置229(框408)包括雙峰。這樣,當(dāng)讀取色譜402時(shí),兩個(gè)不同的跡線(xiàn)48的數(shù)據(jù)點(diǎn)229將包括峰。圖2的其余步驟顯示如何分辨這樣的雙峰,并如何將其分離為雜合“子代”色譜52,然后對(duì)該色譜基于自動(dòng)基礎(chǔ)測(cè)序而不需要主觀人為解釋。
步驟204.在步驟204中,用掃描跡線(xiàn)模塊56對(duì)四條跡線(xiàn)48的每一條進(jìn)行掃描。掃描跡線(xiàn)模塊56包括兩個(gè)程序,峰大小程序58和“成為峰(is-peak)”程序60。峰大小程序58幫助確定定位在每條跡線(xiàn)48中的最通用峰。程序58通過(guò)評(píng)估跡線(xiàn)48中的每一數(shù)據(jù)點(diǎn)看是否其是峰的起點(diǎn)完成該任務(wù)。如果峰大小程序58確定跡線(xiàn)48中給定數(shù)據(jù)點(diǎn)是峰的開(kāi)始,那么該程序確定有多少數(shù)據(jù)點(diǎn)在該峰中并將該數(shù)據(jù)點(diǎn)數(shù)量記錄在表示跡線(xiàn)48的相應(yīng)的跡線(xiàn)狀態(tài)數(shù)據(jù)結(jié)構(gòu)50中。圖3的上部畫(huà)面描述了。在兩條跡線(xiàn)48-1和48-2中,峰生成的六個(gè)數(shù)據(jù)點(diǎn)開(kāi)始于數(shù)據(jù)點(diǎn)數(shù)字4。峰大小程序58測(cè)定該峰,計(jì)算該峰中數(shù)據(jù)點(diǎn)的數(shù)量,并將該數(shù)據(jù)點(diǎn)峰計(jì)數(shù)存儲(chǔ)在唯一地對(duì)應(yīng)于表示數(shù)據(jù)點(diǎn)4(該峰的起點(diǎn))的數(shù)據(jù)元素處的各自跡線(xiàn)(分別為跡線(xiàn)狀態(tài)陣列50-1和50-2)的跡線(xiàn)狀態(tài)陣列50。然后通過(guò)分離跡線(xiàn)主模塊44用關(guān)于定位與每一跡線(xiàn)48中的最通用峰的信息適當(dāng)?shù)乇碚髹E線(xiàn)48并搜索這樣跡線(xiàn)中的雙峰。
當(dāng)峰大小程序58只想確定峰間距時(shí),“成為峰”程序60指向準(zhǔn)確地識(shí)別每一峰的最大值,也就是峰位置或幅度?!俺蔀榉濉背绦?0對(duì)四條跡線(xiàn)48中的每一條中的每一數(shù)據(jù)點(diǎn)進(jìn)行評(píng)估。對(duì)于每一這樣的數(shù)據(jù)點(diǎn),“成為峰”程序60確定是否該數(shù)據(jù)點(diǎn)是峰的最大值。如果是,“成為峰”程序60將該數(shù)據(jù)點(diǎn)指定為狀態(tài)“跡線(xiàn)狀態(tài)-峰”。否則,“成為峰”程序60將該數(shù)據(jù)點(diǎn)指定為狀態(tài)“跡線(xiàn)狀態(tài)-無(wú)”。圖3上部的畫(huà)面再次進(jìn)行了描述。在圖3中,“成為峰”程序60已將掃描48-1和48-2中的每一數(shù)據(jù)點(diǎn)都進(jìn)行了分配,如果該數(shù)據(jù)點(diǎn)不是峰,分配峰值為“NP”,其相當(dāng)于“跡線(xiàn)狀態(tài)-無(wú)”。而且,“成為峰”程序60已將發(fā)生在跡線(xiàn)48-1和48-2中的數(shù)據(jù)點(diǎn)6指定為值“PE”,其等同于“跡線(xiàn)狀態(tài)-峰”。在接下來(lái)的處理步驟通過(guò)分離跡線(xiàn)主模塊44使用這些指定。
步驟206.在通過(guò)通用測(cè)序儀所產(chǎn)生的跡線(xiàn)48中,通常跡線(xiàn)開(kāi)始和結(jié)束處的數(shù)據(jù)點(diǎn)質(zhì)量都是不可靠的。這樣,在步驟206,標(biāo)記有效峰范圍程序62在給定跡線(xiàn)48中標(biāo)記可靠數(shù)據(jù)開(kāi)始的起始點(diǎn)及在給定跡線(xiàn)48中標(biāo)記可靠數(shù)據(jù)結(jié)束的結(jié)束點(diǎn)。在一些實(shí)施方案中,通過(guò)自動(dòng)忽略跡線(xiàn)中起始預(yù)定數(shù)量的數(shù)據(jù)點(diǎn)(忽略數(shù)據(jù)指數(shù)IGNORE_DATA_INDEX)標(biāo)記有效峰范圍程序62找到給定跡線(xiàn)有效峰范圍的開(kāi)始。然后,在已刪除了起始預(yù)定數(shù)量的數(shù)據(jù)點(diǎn)后,程序62尋找將發(fā)生的忽略開(kāi)始峰編號(hào)(IGNORE_START_PEAK_NUM)峰。例如,弱過(guò)忽略數(shù)據(jù)指數(shù)為50并且忽略開(kāi)始峰編號(hào)為10,標(biāo)記有效峰范圍程序62刪除開(kāi)始的50個(gè)數(shù)據(jù)點(diǎn),然后在刪除了開(kāi)始的50個(gè)數(shù)據(jù)點(diǎn)后尋找將發(fā)生的第10個(gè)峰。程序62通過(guò)在適當(dāng)?shù)嫩E線(xiàn)狀態(tài)數(shù)據(jù)結(jié)構(gòu)50中尋找“跡線(xiàn)狀態(tài)-峰(TRACE_STATUS_PEAK)”指定識(shí)別峰。在上述處理步驟204中通過(guò)“成為峰”程序60重新調(diào)用已進(jìn)行的這樣的峰指定。刪除的起始數(shù)量的數(shù)據(jù)點(diǎn)(忽略數(shù)據(jù)指數(shù))和峰(忽略開(kāi)始峰編號(hào))可由使用者定義。在一個(gè)示例中,刪除0-300個(gè)起始數(shù)據(jù)點(diǎn),刪除0-25個(gè)起始峰,以便于標(biāo)記有效峰開(kāi)始。
用于在有效峰范圍內(nèi)識(shí)別最后峰的方法與用于識(shí)別起始有效峰的過(guò)程相同。忽略了每一掃描中預(yù)定數(shù)量的終端數(shù)據(jù)點(diǎn)。然后,程序62從每一掃描的終端開(kāi)始(排除了終端已忽略的峰)計(jì)算直到已刪除預(yù)定數(shù)量的峰(忽略結(jié)束峰編號(hào)IGNOR_EN_PEA_NUM)。例如,在忽略數(shù)據(jù)指數(shù)為50并且忽略結(jié)束峰編號(hào)為10的情況下,,忽略了最后50個(gè)數(shù)據(jù)點(diǎn),然后排除最后50個(gè)數(shù)據(jù)點(diǎn),從掃描末端指定第10個(gè)峰作為有效數(shù)據(jù)范圍的終端。可由使用者定義用于發(fā)現(xiàn)給定跡線(xiàn)58有效范圍的終點(diǎn)而要被刪除的數(shù)據(jù)點(diǎn)的最終數(shù)量(忽略數(shù)據(jù)指數(shù))和峰(忽略終端峰標(biāo)號(hào))。在一個(gè)示例中,刪除了0-300個(gè)最終的數(shù)據(jù)點(diǎn),刪除了0-25個(gè)最終的峰以便于標(biāo)記有效峰數(shù)據(jù)終點(diǎn)。
步驟208.在步驟208中輪廓程序64首先為四條跡線(xiàn)48中發(fā)現(xiàn)的峰確定最通用的峰空間。此處,術(shù)語(yǔ)“峰空間”表示在峰中的數(shù)據(jù)點(diǎn)數(shù)量。這樣,步驟208的第一個(gè)目的是為跡線(xiàn)48的峰識(shí)別最通用峰空間。用狀態(tài)數(shù)據(jù)結(jié)構(gòu)50中的信息實(shí)現(xiàn)該目的。重新調(diào)用步驟204,峰大小程序58為跡線(xiàn)48中的每一峰識(shí)別峰空間并將每一這樣峰的開(kāi)始處的該信息放在對(duì)應(yīng)的狀態(tài)數(shù)據(jù)結(jié)構(gòu)50中。在步驟208,回顧該峰空間信息來(lái)識(shí)別最通用峰空間。在一些實(shí)施方案中,當(dāng)確定最通用峰空間時(shí),忽略小于最小峰空間(例如10個(gè)數(shù)據(jù)點(diǎn))的峰及大于最大峰空間(例如,50個(gè)數(shù)據(jù)點(diǎn))的峰。
找出最通用峰間隔的目的是便于產(chǎn)生具有該最通用峰間隔的輪廓。在接下來(lái)的處理步驟中使用該輪廓確保從雙峰重新構(gòu)成的單峰不會(huì)偏離模型輪廓太遠(yuǎn)。本領(lǐng)域技術(shù)人員理解有許多不同方法來(lái)研究模型峰輪廓,所有這樣的方法都在本發(fā)明范圍內(nèi)。在一個(gè)實(shí)施方案中,將四條跡線(xiàn)58中每一條具有最通用峰空間的峰在一起進(jìn)行平均從而形成模型峰輪廓。換句話(huà)說(shuō),該輪廓表示在四條跡線(xiàn)48中每一條中具有最通用峰間隔的每個(gè)峰的組成。在一些實(shí)施方案中,通過(guò)用最大值劃分組成中的每個(gè)數(shù)據(jù)點(diǎn)使該組成標(biāo)準(zhǔn)化,其中最大值是在該復(fù)合峰中具有最大值的數(shù)據(jù)點(diǎn)的強(qiáng)度值。有大量的另一些這樣的標(biāo)準(zhǔn)化過(guò)程。例如,在一些實(shí)施方案中,獨(dú)立的確定每條跡線(xiàn)48的最通用峰間隔,獨(dú)立研究四條跡線(xiàn)48中每一條的輪廓。在一些實(shí)施方案中,不僅為最通用峰間隔研究輪廓,而且為稍小于或稍大于最通用峰間隔的峰間隔研究輪廓。在一些實(shí)施方案中,進(jìn)行核查以確保為描繪輪廓所選擇的峰不會(huì)與其他峰重疊并且在其用于描繪峰輪廓前該峰不是雙峰。也就是說(shuō),在下述情況選擇用作描繪輪廓的峰在其他跡線(xiàn)48中的每一條的相應(yīng)的數(shù)據(jù)點(diǎn)不是該峰本身。
步驟210.在步驟210中,確定輸入色譜46中峰的平均背景。用下面算法進(jìn)行該步驟100對(duì)在數(shù)據(jù)點(diǎn)有效范圍內(nèi)的每一數(shù)據(jù)點(diǎn)i{102對(duì)每一跡線(xiàn)48{104如果數(shù)據(jù)點(diǎn)i是峰,那么{106將其與每一條其他跡線(xiàn)48對(duì)應(yīng)的最大峰值比較,如果其他跡線(xiàn)對(duì)應(yīng)的峰較大,將峰i加到平均背景計(jì)數(shù)并用1增加計(jì)數(shù)中的數(shù)量峰}}}108通過(guò)貢獻(xiàn)于背景計(jì)數(shù)的峰數(shù)量計(jì)算平均背景該算法基本上通過(guò)識(shí)別在上述步驟204所標(biāo)記了跡線(xiàn)狀態(tài)-峰(PE)的數(shù)據(jù)點(diǎn)來(lái)工作(行100和102)。當(dāng)在一條跡線(xiàn)48中發(fā)現(xiàn)這樣的數(shù)據(jù)點(diǎn)(實(shí)驗(yàn)數(shù)據(jù)點(diǎn))(行104)時(shí),將其與每一條其余跡線(xiàn)中相應(yīng)的峰進(jìn)行比較。如果實(shí)驗(yàn)數(shù)據(jù)點(diǎn)具有小于一個(gè)相應(yīng)峰的值,假設(shè)該峰是背景將它的值加到平均背景計(jì)數(shù)(行106)。在一些實(shí)施方案中,實(shí)驗(yàn)數(shù)據(jù)點(diǎn)必須具有小于乘以最小重疊峰比率(MIN_OVELAP_PEAK_RATIO)的相應(yīng)峰值的值,換句話(huà)說(shuō)實(shí)驗(yàn)數(shù)據(jù)點(diǎn)<(其他跡線(xiàn)中的相應(yīng)峰*最小重疊比率)其中最小重疊比率是兩個(gè)中疊峰最大值之間的比率,需要該比率來(lái)考慮這兩個(gè)進(jìn)行重疊的峰相對(duì)于只有一個(gè)峰是背景而另一個(gè)峰是基座信號(hào)的情況。在一些實(shí)施方案中,最小重疊峰比率為0.6。這意味著如果在輸入色譜46中存在重疊峰,如果較小的峰具有較大峰最大值的至少60%的最大值,那么作為重疊處理這些峰。否則,如果該條件不符合,根據(jù)上述行102到行108所設(shè)定的算法作為背景計(jì)算該較小的峰。
對(duì)數(shù)據(jù)點(diǎn)允許范圍內(nèi)的每一數(shù)據(jù)點(diǎn)重復(fù)該算法。然后,用對(duì)平均背景計(jì)數(shù)做出貢獻(xiàn)的背景峰數(shù)量除平均背景計(jì)數(shù)產(chǎn)生平均背景計(jì)數(shù)值。在一些實(shí)施方案中,步驟210由計(jì)數(shù)平均背景峰程序66執(zhí)行。
步驟212.在步驟212,掃描跡線(xiàn)數(shù)據(jù)機(jī)構(gòu)50以便于識(shí)別坐標(biāo)(數(shù)據(jù)點(diǎn)),在該坐標(biāo)處四個(gè)結(jié)構(gòu)中至少有兩個(gè)記錄為該坐標(biāo)圖譜重疊峰間隙(MAP_OVERLAP_PEAK_GAP)內(nèi)的峰。換句話(huà)說(shuō),當(dāng)沿測(cè)序儀的毛細(xì)管(在那些使用毛細(xì)管的測(cè)序儀中)大致同一坐標(biāo)位置處四個(gè)熒光信號(hào)掃描中至少兩個(gè)上檢測(cè)到峰時(shí),出現(xiàn)重疊峰。這樣的坐標(biāo)是重疊峰坐標(biāo)。
在一些實(shí)施方案中,當(dāng)?shù)谝环逯芯哂凶畲笾档臄?shù)據(jù)點(diǎn)在第二峰中具有最大值的數(shù)據(jù)點(diǎn)的閾值數(shù)量的數(shù)據(jù)點(diǎn)范圍內(nèi)時(shí),認(rèn)為輸入色譜46中第一掃描的第一峰與第二掃描的第二峰重疊。換句話(huà)說(shuō),步驟212試圖識(shí)別輸入色譜46中重疊閾值數(shù)量的下述數(shù)據(jù)點(diǎn)范圍內(nèi)的坐標(biāo)(i)色譜46中第一跡線(xiàn)48的第一峰中具有最大值的數(shù)據(jù)點(diǎn)和(ii)色譜46中第二跡線(xiàn)48的第二峰中具有最大值的數(shù)據(jù)點(diǎn)。在優(yōu)選實(shí)施方案中,該重疊閾值數(shù)量為3個(gè)數(shù)據(jù)點(diǎn)。也就是說(shuō),在第一和第二峰中具有最大值的數(shù)據(jù)點(diǎn)必須在沿測(cè)序儀的毛細(xì)管(在那些使用毛細(xì)管的測(cè)序儀中)的坐標(biāo)中彼此的3個(gè)數(shù)據(jù)點(diǎn)范圍內(nèi)。在其他實(shí)施方案中,重疊閾值數(shù)量為1個(gè)數(shù)據(jù)點(diǎn)、2個(gè)數(shù)據(jù)點(diǎn)、4個(gè)數(shù)據(jù)點(diǎn)、2-7個(gè)數(shù)據(jù)點(diǎn)、8或更多數(shù)據(jù)點(diǎn)、或少于25個(gè)數(shù)據(jù)點(diǎn)。
接下來(lái)的處理步驟檢測(cè)在該處理步驟中識(shí)別的坐標(biāo)看是否符合許多規(guī)則。如果該坐標(biāo)的確符合這樣的規(guī)則,那么將具有兩個(gè)重疊峰中每一個(gè)的最大值的數(shù)據(jù)點(diǎn)標(biāo)記為跡線(xiàn)狀態(tài)-重疊峰(TRACE_STATUS_OVERLAP_PEAK),將這兩個(gè)峰最終分離為分開(kāi)的輸出色譜文件52或者對(duì)這些峰進(jìn)行堿基命名,并將該峰的核苷酸表示寫(xiě)成分離的純系序列。在通常的實(shí)施方案中,用步驟212的逐次狀況以線(xiàn)性方式核查輸入色譜46中的坐標(biāo),開(kāi)始于該色譜允許數(shù)據(jù)點(diǎn)的一個(gè)端,以便于看是否它們含有重疊峰。當(dāng)在坐標(biāo)中發(fā)現(xiàn)重疊峰時(shí),過(guò)程控制轉(zhuǎn)到步驟216。
步驟216.在某些情況下,當(dāng)輸入色譜46中的峰太擁擠時(shí),人為引起了重疊峰。這樣,在本發(fā)明的一些實(shí)施方案中,核查已識(shí)別的一對(duì)重疊峰周?chē)膮^(qū)域以便確定是否在該區(qū)域有太多的峰。換句話(huà)說(shuō),確定是否在輸入色譜46的預(yù)定區(qū)域關(guān)于在步驟212的最后情況中所識(shí)別的坐標(biāo)存在多于閾值數(shù)量的峰。當(dāng)存在多于閾值數(shù)量的這樣的峰時(shí),就不能分離步驟212最后情況中所識(shí)別的重疊峰,它們最終都寫(xiě)成輸出純系表示。
在處理步驟216中通常使用兩個(gè)參數(shù)(i)窗口尺寸和(ii)在窗口尺寸中所允許的峰的最大數(shù)量。例如考慮以下情況,其中窗口尺寸為7,在該窗口中允許的最大數(shù)量峰為3。在步驟216,在所有四個(gè)跡線(xiàn)48中核查步驟212最后狀況中所選的坐標(biāo)及在該坐標(biāo)之前的3個(gè)數(shù)據(jù)點(diǎn)及之后的3個(gè)數(shù)據(jù)點(diǎn)(對(duì)于7×4的總數(shù)=28個(gè)數(shù)據(jù)點(diǎn)),將這些區(qū)域中峰的數(shù)量相加。如果峰的數(shù)量超過(guò)3(216-Yes),那么程序控制轉(zhuǎn)到步驟218,在該步驟所檢測(cè)區(qū)域中每一個(gè)峰作為擁擠標(biāo)記,不將該區(qū)域中的峰分成不同的輸出純系表示。如果該區(qū)域中峰的數(shù)量為3或更小(216-No),那么該峰不作為擁擠標(biāo)記。
應(yīng)理解可使用不同的窗口尺寸和在該窗口尺寸中最大允許峰閾值。在一些實(shí)施方案中,在步驟216所檢測(cè)的窗口尺寸為4-8個(gè)數(shù)據(jù)點(diǎn)、5-10個(gè)數(shù)據(jù)點(diǎn)、2-20個(gè)數(shù)據(jù)點(diǎn)、大于20個(gè)數(shù)據(jù)點(diǎn)或小于50個(gè)數(shù)據(jù)點(diǎn)。在一些實(shí)施方案中,應(yīng)用于步驟216的窗口中最大允許數(shù)量峰為2個(gè)峰、3個(gè)峰、4個(gè)峰、5個(gè)峰、2-5個(gè)峰、5-10個(gè)峰、大于10個(gè)峰、或小于50個(gè)峰。
步驟218.當(dāng)確定步驟212最后狀況中所識(shí)別的重疊峰位于色譜46中峰擁擠在一起的區(qū)域時(shí),過(guò)程控制轉(zhuǎn)到步驟218。這樣,為避免假陽(yáng)性測(cè)定,將這樣的峰標(biāo)記為擁擠并不在認(rèn)為是峰。將這樣的擁擠區(qū)域中的強(qiáng)度都寫(xiě)為輸出純系表示(例如,色譜52A和52B)。一旦擁擠的峰標(biāo)記為擁擠,過(guò)程控制轉(zhuǎn)到下面的步驟234。
步驟220-224.雖然來(lái)自雜合DNA樣品中兩個(gè)染色體中的每一個(gè)的DNA應(yīng)是相等的,重疊峰的最大值卻不常常相同。許多因素影響最大峰值,如染料數(shù)量、相鄰干擾等。因而,對(duì)于重疊峰允許具有不同的幅度。在一些實(shí)施方案中,允許的兩依賴(lài)于兩個(gè)重疊峰中較小的是否規(guī)則及完全。如果較小的峰是規(guī)則完全的(220-Yes),那么在本發(fā)明的一個(gè)實(shí)施方案中,第一(較小的)峰與第二(較大的)峰之間的比率可以小至0.2(步驟222)。在一些實(shí)施方案中,當(dāng)較小峰規(guī)則并完全時(shí),最小允許比率為0.1-0.95。在更優(yōu)選的實(shí)施方案中,最小允許比率至少為0.2或至少為0.4。
在本發(fā)明的一個(gè)實(shí)施方案中,如果兩個(gè)重疊峰中較小的是不規(guī)則不完全的(220-No),那么第一和第二峰之間的比率僅可小至0.6(步驟224)。在一些實(shí)施方案中,當(dāng)較小峰不規(guī)則不完全時(shí),最小允許比率為0.1-0.95。在更優(yōu)選的實(shí)施方案中,最小允許比率為至少0.2。在更較優(yōu)選的實(shí)施方案中,最小允許比率為大約0.2-0.6。
步驟228.如果重疊峰不能滿(mǎn)足220-224的條件(222-No或224-No),那么過(guò)程控制轉(zhuǎn)到步驟228,在該步驟將峰標(biāo)記為假重疊峰。在接下來(lái)的處理步驟,將假重疊峰都寫(xiě)作純系表示(例如,輸出色譜52)而不是分成兩個(gè)分離的色譜。一旦該峰已標(biāo)記為假重疊峰,過(guò)程控制轉(zhuǎn)到下面的步驟234。
步驟232.如果重疊峰滿(mǎn)足220-224的條件(222-Yes或224-Yes),那么過(guò)程控制轉(zhuǎn)到步驟232,在該步驟中將峰標(biāo)記為重疊峰(跡線(xiàn)狀態(tài)-重疊分離TRACE_STATUS_OVERLAP_SPLITTED)。在接下來(lái)的處理步驟將重疊峰寫(xiě)層分離的色譜52。在一些實(shí)施方案中,重疊峰必須滿(mǎn)足附加規(guī)則以便于指定為重疊峰。例如,在一些實(shí)施方案,兩個(gè)峰中較小的必須大于某個(gè)閾值背景水平以便于使重疊峰指定為重疊。如果兩個(gè)峰中較小的不滿(mǎn)足該要求,這將給峰標(biāo)記為假重疊峰并且不將它們分離為分開(kāi)的輸出純系表示(例如,色譜文件52)。
步驟234.在步驟234中,確定對(duì)于重疊峰是否已核查輸入色譜46的完全有效區(qū)域。如果沒(méi)有(234-No),過(guò)程控制轉(zhuǎn)到步驟212以便于找出存在待選重疊峰的另一坐標(biāo)。然后,對(duì)新的待選疊峰重復(fù)步驟216-234以便于確定是否將待選重疊峰作為擁擠峰標(biāo)記(峰太擁擠)、假重疊(峰不滿(mǎn)足比率或背景需要)或重疊峰。通常,步驟212的連續(xù)狀況以線(xiàn)性次序從輸入色譜46恢復(fù)重疊峰的坐標(biāo),從色譜的一端向另一端進(jìn)行,直到對(duì)所有有效數(shù)據(jù)點(diǎn)進(jìn)行了檢測(cè)。然而,本發(fā)明不限于這樣的方法,實(shí)際上任一在步驟212的連續(xù)狀況中或的重疊數(shù)據(jù)點(diǎn)的方法都可進(jìn)行,只要用步驟216-234對(duì)全部或部分重疊峰進(jìn)行測(cè)試。
步驟236.一旦所有的待選重疊峰都標(biāo)記為假重疊、擁擠、或重疊(234-Yes),通過(guò)輸入色譜46進(jìn)行新的回路,以便于確定是否存在插入或刪除。跡線(xiàn)48將具有大量標(biāo)記為假重疊或重疊的峰,這些峰開(kāi)始于兩個(gè)染色體中的一個(gè)刪除或插入開(kāi)始的坐標(biāo)。并且,由于染色體不再排列于插入或刪除點(diǎn)之后,將在跡線(xiàn)48中存在更多的峰,那么通常會(huì)發(fā)現(xiàn)是否將對(duì)應(yīng)染色體適當(dāng)排列。該狀況描述于圖5。在圖5中,插入出現(xiàn)在所測(cè)序列的雜合核酸的坐標(biāo)166處。這樣,從坐標(biāo)166向前,在輸入色譜中存在大量峰(框508)。
在步驟236,選擇色譜46中的數(shù)據(jù)點(diǎn)i并接下來(lái)在處理步驟238中進(jìn)行檢測(cè)。
步驟238.步驟238核查確定步驟236最后狀況中所識(shí)別的坐標(biāo)實(shí)際上不是雜合核酸樣品中兩個(gè)相應(yīng)染色體中的一個(gè)染色體上的插入或刪除的開(kāi)始。在本發(fā)明的一個(gè)實(shí)施方案中,用兩種不同的試驗(yàn)完成該插入/刪除的核查。在第一種試驗(yàn)中,確定是否開(kāi)始于步驟236的最后狀況中所選的坐標(biāo)(數(shù)據(jù)點(diǎn))i處保留在輸入色譜46(或在輸入色譜46中某個(gè)區(qū)域)中的峰的數(shù)量超過(guò)了閾值數(shù)量峰。如果是這樣(238-Yes),過(guò)程控制轉(zhuǎn)到步驟240,在該步驟每一個(gè)在數(shù)據(jù)點(diǎn)i之后的峰標(biāo)記為未重疊峰。在一些實(shí)施方案中,可能在輸入色譜46剩余中的閾值數(shù)量峰為25-75、50-100、75-200、150-400或大于500。
第二個(gè)用于檢測(cè)雜合核酸樣品中插入或刪除的試驗(yàn)考慮在輸入色譜46(或步驟236的最后狀況中所識(shí)別的數(shù)據(jù)點(diǎn)i之后的輸入色譜的某個(gè)窗口)的剩余中所發(fā)現(xiàn)的峰的類(lèi)型。如果輸入色譜46剩余中重疊峰(或假重疊峰)的全部數(shù)量超過(guò)了閾值百分比(238-Yes),那么過(guò)程控制轉(zhuǎn)到步驟240。在一些實(shí)施方案中,閾值百分比為2-90%。在更優(yōu)選的實(shí)施方案中,該閾值百分比為10-50%。在其他實(shí)施方案中,閾值百分比為20-40%。在一個(gè)優(yōu)選實(shí)施方案中,閾值百分比為25%。
步驟240.當(dāng)在輸入色譜46中坐標(biāo)(數(shù)據(jù)點(diǎn))i處檢測(cè)到染色體插入或刪除時(shí),過(guò)程控制轉(zhuǎn)到步驟240。在這種情況下,將每一組前面已識(shí)別為重疊的重疊峰在步驟240標(biāo)記為未重疊峰。進(jìn)行該步驟以使得將輸入色譜中所有的數(shù)據(jù)(從該點(diǎn)刪除或插入首次檢測(cè))都寫(xiě)為色譜文件52A和52B。在本發(fā)明的一些實(shí)施方案中,識(shí)別并標(biāo)記刪除或插入。然后,在解決該插入和/或刪除后,努力再次重排該染色體,并用圖2所指出的技術(shù)標(biāo)記重排序列中的重疊峰。
步驟242.如果在數(shù)據(jù)點(diǎn)i為檢測(cè)到染色體插入或刪除(238-No),確定是否對(duì)輸入色譜46中所有的數(shù)據(jù)點(diǎn)i都進(jìn)行了評(píng)價(jià)(步驟242)。如果是這樣(242-Yes),過(guò)程控制轉(zhuǎn)到步驟244。如果不是(242-No),過(guò)程控制返回到步驟236,通常在該步驟中,選擇輸入色譜46中下一個(gè)接下來(lái)的數(shù)據(jù)點(diǎn)i。
步驟244.在雜合核酸樣品的情況下,通過(guò)來(lái)自?xún)蓷l染色體的DNA貢獻(xiàn)于所檢測(cè)的信號(hào),這樣的純系(重疊)峰通常具有比雜合峰更大的值。通過(guò)用常數(shù)乘以每一個(gè)雜合峰(每一個(gè)標(biāo)記為重疊的峰),步驟244校正了這種現(xiàn)象。通常該常數(shù)為因子2。在一些實(shí)施方案中,該常數(shù)在大約1.1-3.2范圍內(nèi)。
步驟246.在步驟246中說(shuō)明相鄰峰對(duì)重疊的不完全峰的影響。對(duì)超過(guò)通用峰輪廓的的重疊峰中的每一數(shù)據(jù)點(diǎn),其中在步驟208(圖2A)中通過(guò)大于最大峰誤差(MAX_PEAK_ERROR)模仿該輪廓,減去該數(shù)據(jù)點(diǎn)的值獲得用通用峰輪廓規(guī)定的的值。在優(yōu)選實(shí)施方案中,最大峰誤差為0.1。在一些實(shí)施方案中,最大峰誤差范圍為0.01-0.4。這樣,通過(guò)確保它們的輪廓不偏離步驟208所研究的通用峰輪廓太遠(yuǎn),步驟246已具有校正跡線(xiàn)48中重疊峰的效果。
步驟248.在步驟248,產(chǎn)生色譜52A和52B。對(duì)每一個(gè)標(biāo)記為跡線(xiàn)狀態(tài)-重疊峰分離TRACE_STATUS_OVERLAP_PEAK_SPLITTED(也就是每一個(gè)連續(xù)保持標(biāo)記為重疊的峰),通過(guò)跡線(xiàn)分離程序68,將每一個(gè)重疊峰寫(xiě)為一個(gè)色譜52A和52B,另一個(gè)重疊峰寫(xiě)成另一個(gè)色譜52A和52B。在一些實(shí)施方案中,色譜52A和52B生成為ABI文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。
圖3描述了步驟248。在圖3上部,顯然在跡線(xiàn)48-1和48-2中存在重疊峰聚集在坐標(biāo)6。假設(shè)這些峰滿(mǎn)足前面圖2所設(shè)定的試驗(yàn)并且標(biāo)記為重疊,將它們分成兩個(gè)不同的純系表示(例如,色譜54)。圖3下部描述了示例性輸出純系表示—輸出色譜52。在下部,輸出色譜52A接收來(lái)自跡線(xiàn)48-1的峰但不接收來(lái)自跡線(xiàn)48-2的峰。相應(yīng)的,輸出色譜52B接收來(lái)自跡線(xiàn)48-2的峰而不接收來(lái)自跡線(xiàn)48-1的峰。
實(shí)施例1.現(xiàn)披露根據(jù)本發(fā)明一個(gè)實(shí)施方案的處理技術(shù)。參見(jiàn)圖4,提供了本發(fā)明技術(shù)的圖示說(shuō)明。在圖4中,存在在位置229(框408)處包含雙峰的輸入色譜402。常規(guī)堿基命名軟件以將該雙峰識(shí)別為胞嘧啶(C)。然而,應(yīng)用本發(fā)明方法輸入色譜402產(chǎn)生輸出色譜404和406,其中在位置229處的雙峰已分離為兩個(gè)雜合峰各自對(duì)應(yīng)于輸出色譜404和406。當(dāng)讀取輸出色譜404和406時(shí),常規(guī)堿基命名軟件正確地識(shí)別坐標(biāo)229包含鳥(niǎo)嘌呤(色譜404;G)和胞嘧啶(色譜406;C)。
通常,輸入色譜402包含大于1個(gè)雙峰。例如,考慮以下情況輸入色譜基于雜合核酸樣品,該樣品包含以下序列ACGTTTC和ACCTTAC用符號(hào)AC(G/C)TF(T/A)C一起表示這些序列,其中在對(duì)應(yīng)與輸入序列的色譜402中(G/C)表示第一個(gè)雙峰,(T/A)表示第二個(gè)雙峰。在這樣的情況下,本發(fā)明方法輸出兩個(gè)雜合輸入的可能雜合表示中的一個(gè)(I)ACGTTTC和ACCTTAC或(II)ACCTTTC和ACGTTAC。
換句話(huà)說(shuō),本發(fā)明的系統(tǒng)和方法為設(shè)計(jì)為確定雜和樣品的“真實(shí)”序列,該序列在上述所給的示例中為序列對(duì)(I)。相反的,本發(fā)明的系統(tǒng)和方法目的是產(chǎn)生雜合輸入數(shù)據(jù)的純合表示,以使得以自動(dòng)方式披露雜合數(shù)據(jù)中的多態(tài)性。純合表示的形式為,例如,純合序列或純合色譜。在優(yōu)選的實(shí)施方案中,純合表示的形式為純合色譜,以使得可將完善的堿基命名技術(shù)應(yīng)用于表示。
實(shí)施例2.對(duì)復(fù)雜的人類(lèi)疾病識(shí)別基因敏感度因子可產(chǎn)生對(duì)它們的致病機(jī)理的了解并產(chǎn)生新的策略來(lái)治療并預(yù)防疾病。盡管投入了相當(dāng)多的努力,仍不得不識(shí)別解釋對(duì)大部分公眾常見(jiàn)疾病的敏感度的基因性變型。對(duì)于信息缺乏的一個(gè)原因是在證實(shí)基因座與疾病之間的關(guān)聯(lián)性中所涉及的大量時(shí)間和勞力。在這樣的證實(shí)策略中一個(gè)速率限定任務(wù)是識(shí)別懷疑基因座中的標(biāo)記物。參照?qǐng)D6,本發(fā)明使用自動(dòng)方法將純合輸入色譜46分成純合輸出色譜(例如圖2所述的方法)從而較大的較低識(shí)別標(biāo)記物的時(shí)間和耗費(fèi)。在圖6所述的應(yīng)用中,分析染色體區(qū)域(基因座)確定基因座是否與目標(biāo)疾病或性狀相聯(lián)。
步驟602.在步驟602中,用標(biāo)準(zhǔn)基因分析識(shí)別能與目標(biāo)性狀相連的染色體區(qū)域(基因座)。在下面標(biāo)題為“示例性性狀”的部分描述了目標(biāo)示例性性狀。在一種方法中,用典型的孟德?tīng)柗治鲎R(shí)別與目標(biāo)性狀相連的特定基因。在孟得爾方法中,用具有高信息量的潛在基因分型的個(gè)體表型表征基因。在表型(所研究的性狀)提供非常少的關(guān)于潛在基因分型的信息的情況下,用定量遺傳學(xué)發(fā)現(xiàn)基因座(稱(chēng)為定量性狀基因座)于所研究性狀之間的關(guān)聯(lián)。定量基因?qū)W方法需要所研究種的基因圖譜結(jié)構(gòu)。基因圖譜顯示沿染色體上的基因座排序及這些基因座之間的相對(duì)距離。用回歸分析(Soller等,1976,Theor.Appl.Genet.47.35-39)或時(shí)間間隔法(Lander和Botstein,1989,Genetics 121185-199)可構(gòu)建這樣的圖譜。可用于這樣的圖譜的標(biāo)記物包括,但不限于,單核苷酸多態(tài)性、限制片段長(zhǎng)度多態(tài)性、微衛(wèi)星標(biāo)記物、短銜接重復(fù)、序列長(zhǎng)度多態(tài)性和DNA甲基化。一旦構(gòu)建了基因圖譜,用下述方式可發(fā)現(xiàn)與目標(biāo)性狀相連的基因座(i)線(xiàn)性模型,如t-檢驗(yàn)(例如,Sokal和Rohlf,1995,Biometry第二版,W.H.Freeman and Co.,NY)、ANOVA或回歸,或(ii)或最大概似法(例如,Genetics and Analysis of Quantitative Traits,Lynch和Walsh,1998,SinauerAssociates公司,Sunderland,Massachusetts,附錄4)。
家族研究已清楚地顯示對(duì)于許多常見(jiàn)的人類(lèi)疾病的遺傳傾向,這些疾病如哮喘、孤獨(dú)癖、精神分裂癥、多發(fā)性硬化、系統(tǒng)性紅斑狼瘡及I型和II型糖尿病。為便于回顧,參見(jiàn)Risch(2000)Nature405847-56。在過(guò)去的20年,通過(guò)在人群中進(jìn)行關(guān)聯(lián)性分析和位置克隆已識(shí)別了對(duì)于多種高滲透性、單基因(孟得爾)紊亂的成因基因變異,這些紊亂如囊性纖維化、亨廷頓氏舞蹈病及杜興(Duchene)肌營(yíng)養(yǎng)不良癥。這樣的成功已發(fā)生在相對(duì)稀少的紊亂中,在這樣的紊亂中種的基因組的基因組成(基因型)和一個(gè)或多個(gè)由該種表現(xiàn)出來(lái)的物理特征(表型)之間存在強(qiáng)烈的關(guān)聯(lián)。在某種程度上,已用同樣的方法識(shí)別與普通人群中常見(jiàn)疾病感染性關(guān)聯(lián)的遺傳性變型。為便于回顧,參見(jiàn)Lander等(1994)Science265203748。通過(guò)這些方法,已識(shí)別一些常見(jiàn)疾病亞組感染性相關(guān)的遺傳性變型,這些疾病如乳腺癌(BRCA-1和-2)、結(jié)腸癌(FAP和HNPCC)、早老性癡呆(APP)和II型糖尿病(MODY-1、-2、-3)。在一些情況下,在步驟602識(shí)別多個(gè)可與所研究性狀相連的染色體區(qū)域,用圖6所述的接下來(lái)的處理步驟同時(shí)或單獨(dú)分析每一個(gè)這樣的區(qū)域。
對(duì)于關(guān)于識(shí)別與目標(biāo)性狀相連的基因座方法,參見(jiàn)Risch(2000)Nature405847-56;Lander等(1994)Science2652037-48;Nadeau和Frankel,2000,Nature、Genetics25381-84;Fisch等,1996,Genetics143571-77,Luo等1992,Heredity69236-242,Jiang等,1997,Genetics10147-58,Olson等,1999,Statist.Med.182961-81,Schork等,1998,及TIG14266-72,Haines和Pereicak-Vance,Approaches to Gene Mapping in Complex HumanDiseases,Wiley-Liss公司。
步驟604.一旦已識(shí)別與所研究性狀相連的基因座,集中群體。理想的,群體包括差異顯示所研究性狀的成員。例如,如果所研究的性狀為乳腺癌,典型的群體包括患乳腺癌的女性和沒(méi)有患乳腺癌的女性。在Cheng等,1999,Genome Res9936-949,使用142為沒(méi)有關(guān)系的高加索人組成的群體,以將這些人的血管造影術(shù)定量并用Gensini法計(jì)算(Gensini,1975,Coronary arteriography,F(xiàn)utura出版公司,紐約,NY)。用這些計(jì)算將該群體再細(xì)分為表示不同嚴(yán)重程度的管狀動(dòng)脈閉塞的五份(quintiles)。
步驟606.在步驟606對(duì)該群體進(jìn)行基因分型。通常,這涉及對(duì)步驟602中所識(shí)別的每一群體成員的區(qū)域或染色體DNA區(qū)域進(jìn)行測(cè)序以便于產(chǎn)生多個(gè)DNA序列。在一些情況下,用標(biāo)準(zhǔn)技術(shù),如Bell等人的方法,1981,Proc.Natl.Acad.Sci.785759-63,或使用DNA分離試劑盒(例如Puregene DNA分離試劑盒,Gentra Systems公司,Minneapolis,MN)從血液中獲得來(lái)自群體成員的DNA。用特定于步驟602所識(shí)別的區(qū)域或一些區(qū)域的引物擴(kuò)增純化DNA,用測(cè)序儀對(duì)擴(kuò)增區(qū)域進(jìn)行測(cè)序,測(cè)序儀如任一種上述表2中所披露的測(cè)序儀。步驟606的結(jié)果產(chǎn)生了許多DNA序列,每一DNA序列表示在步驟602中所識(shí)別的來(lái)自群體的不同成員的染色體DNA的區(qū)域。在識(shí)別了染色體DNA多個(gè)區(qū)域的情況下,步驟606的結(jié)果是對(duì)群體的每一成員產(chǎn)生了多個(gè)序列,一個(gè)序列相對(duì)于步驟602中所識(shí)別的每一區(qū)域。用通過(guò)該序列所產(chǎn)生的核酸色譜46表示每一個(gè)這樣的序列。
步驟608.當(dāng)使用常規(guī)堿基命名軟件來(lái)測(cè)定這樣的序列時(shí),特別是在核酸來(lái)源是雜合的情況下,由步驟608中的測(cè)序儀所產(chǎn)生的多個(gè)色譜的測(cè)序代表圖6所述的方法最耗費(fèi)時(shí)間的一個(gè)步驟。用常規(guī)堿基命名軟件,必須在視覺(jué)上檢查色譜46中雜合性的每一點(diǎn)從而觀察存在哪兩個(gè)堿基。這不僅耗費(fèi)了時(shí)間,而且受到主觀人為解釋。通過(guò)用圖2中所述的技術(shù)自動(dòng)將雜合色譜46分成純合色譜52,本發(fā)明有利地巧妙避開(kāi)了這種主觀耗時(shí)的步驟。然后用常規(guī)堿基命名軟件可對(duì)純合色譜52進(jìn)行測(cè)序使得測(cè)定步驟606中擴(kuò)增和/或測(cè)序的核酸序列。
步驟610.在步驟610的一個(gè)實(shí)施方案中,分析輸出色譜54中所有或一部分的數(shù)據(jù)點(diǎn)的單核苷酸多態(tài)性(SNP)。當(dāng)在給定數(shù)據(jù)點(diǎn)處存在不同等位基因時(shí),出現(xiàn)單核苷酸多態(tài)性(SNP)。例如,考慮以下情況測(cè)定群體的十個(gè)成員中的給定的基因座??紤]基因座包括數(shù)據(jù)點(diǎn)90,相應(yīng)于群體中的給定的堿基。如果在相應(yīng)于群體10個(gè)成員的10個(gè)序列中位置90的堿基發(fā)生變化,將位置90定義為SNP。例如,如果考略雜合核酸,對(duì)全部20個(gè)序列,10個(gè)群體成員將產(chǎn)生一個(gè)基于母方的序列和一個(gè)基于父方的序列。如果在20個(gè)序列中位置90中表示多于一個(gè)核酸,考慮該位置為SNP。在一些實(shí)施方案中,使用更嚴(yán)格的標(biāo)準(zhǔn)次要的等位基因必須存在于多于一個(gè)序列中。這樣,在這種更嚴(yán)格的標(biāo)準(zhǔn)下,20個(gè)序列中的19個(gè)編碼為鳥(niǎo)嘌呤,1個(gè)編碼為腺嘌呤,這樣的結(jié)果不考慮為SNP。然而,20個(gè)序列中18個(gè)編碼為鳥(niǎo)嘌呤,2個(gè)編碼為腺嘌呤,該結(jié)果考慮為SNP。此處,鳥(niǎo)嘌呤是主要的等位基因而腺嘌呤為次要的等位基因。在其他實(shí)施方案中,次要等位基因必須占已測(cè)序DNA樣品中的至少大約5%、占已測(cè)序DNA樣品中的至少大約10%、占已測(cè)序DNA樣品中的至少大約15%,或占已測(cè)序DNA樣品中的大約大于20%。
步驟612.如果該基因座內(nèi)的標(biāo)記或單倍體與該性狀相關(guān),認(rèn)為染色體DNA區(qū)域(基因座)與所研究的性狀之間的關(guān)聯(lián)已證實(shí)。在步驟612中,用關(guān)聯(lián)分析,對(duì)步驟610中所發(fā)現(xiàn)的每個(gè)標(biāo)志(例如,SNP)或源于這樣的標(biāo)志的單倍體進(jìn)行與所研究的性狀關(guān)聯(lián)性的試驗(yàn)。該目的是識(shí)別群體部分中過(guò)多表示的標(biāo)記物或單倍體,該群體部分表示所研究的性狀的一種表型。例如,在Campbell等,1999,Mol.Psychiatry468-70中,對(duì)170位女性高加索患有神經(jīng)性厭食癥的群體和150位正常女性對(duì)照進(jìn)行了基因分型。在該群體中標(biāo)記物的關(guān)聯(lián)分析顯示了標(biāo)記物的特定等位基因D11S911顯著過(guò)量地在神經(jīng)性厭食癥群體中表顯。如卡方檢驗(yàn)(chi-square test)或漁夫兩尾(Fisher’s two-tailed)精確檢驗(yàn)(Sokal和Rohlf,1995,Biometry,第三版,F(xiàn)reeman,San Francisco,California)這樣的統(tǒng)計(jì)試驗(yàn)用于確定在基因座或基因座中的單倍體的標(biāo)記物的等位基因是否與所研究的性狀的特定表型相關(guān)。
利用常規(guī)技術(shù),用步驟610中所識(shí)別的標(biāo)記物信息可構(gòu)建單倍體。這樣的技術(shù)包括但不限于下面的文獻(xiàn)中所披露的Stephens等2001,Am.J.Hum.Genet.68978-89,Liu等,2001,Genome Res.111716-1724,Abescasis等2002,Nature Genet.3097-101。而且,利用期望最大值或貝葉斯統(tǒng)計(jì)算法(Zhang等,2002,Nucleic Acids Res.305213-21),軟件分析包Hapscope支持計(jì)算單倍體的構(gòu)建。
示例性性狀。如上文所述,圖6中所述的本發(fā)明的實(shí)施方案提供了方法將基因座與在種(例如,單個(gè)種)的多個(gè)有機(jī)體中的一個(gè)或多個(gè)組織所表現(xiàn)的性狀相關(guān)聯(lián)。在一些情況下,該基因座為基因,通過(guò)識(shí)別該與群體部分所表現(xiàn)的特定表型相關(guān)聯(lián)的基因內(nèi)的標(biāo)記物使其與性狀相關(guān)。在本發(fā)明的一些實(shí)施方案中,目標(biāo)性狀為復(fù)雜的性狀,如疾病,例如人類(lèi)疾病。示例性疾病包括但不限于變態(tài)反應(yīng)、哮喘和強(qiáng)迫性精神異常,如心理失衡、恐怖癥、外傷后緊張病癥。
示例性疾病進(jìn)一步包括自免疫失調(diào),如艾迪生氏(Addison’s)病、斑禿、關(guān)節(jié)強(qiáng)硬性脊椎柱炎、抗磷脂綜合癥、貝堤特氏(Behcet’s)病、慢性疲勞綜合癥、克羅恩氏病及潰瘍性結(jié)腸炎、糖尿病、纖維肌痛、Goodpasture綜合癥、移植物抗宿主反應(yīng)、狼瘡、梅尼爾病、多發(fā)性硬化、重癥肌無(wú)力、肌炎、慢性天皰瘡、夏科氏肝硬變、牛皮癬、風(fēng)濕熱、結(jié)節(jié)病、硬皮病、脈管炎、白癜風(fēng)、韋格內(nèi)氏肉芽腫癥。
示例性疾病進(jìn)一步包括骨病,如軟骨發(fā)育不全癥、骨癌、進(jìn)行性骨化性纖維發(fā)育不良、纖維性結(jié)構(gòu)不良、腿卡佩二氏病、骨髓瘤、骨發(fā)生不全、骨髓炎、骨質(zhì)疏松、佩吉特式病及脊柱側(cè)凸。示例性疾病包括癌癥,如膀胱癌、骨癌、腦癌、乳腺癌、子宮頸癌、結(jié)腸癌、婦科癌癥、霍奇金氏病、腎癌、喉癌、白血病、肝癌、肺癌、淋巴瘤、口腔癌、卵巢癌、胰腺癌、前列腺癌、皮膚癌、睪丸癌等。
示例性疾病基因還包括遺傳病癥,如軟骨發(fā)育不全癥、色盲、酸性麥芽糖酶缺乏癥、腦白質(zhì)腎上腺萎縮癥、Aicardi綜合癥、α-1抗胰蛋白酶缺乏癥、雄激素不敏感綜合癥、Apert綜合癥、發(fā)育不良、共濟(jì)失調(diào)毛細(xì)血管擴(kuò)張、藍(lán)橡膠皰疹痣綜合癥、卡納范病、貓叫綜合癥、囊性纖維變性、Dercum氏病、夫克氏貧血、進(jìn)行性骨化性纖維發(fā)育不良、脆性x綜合癥、半乳糖血癥、Gauche病、血色素沉著癥、血友病、杭廷頓氏舞蹈病、Hurler綜合癥、低磷酸酯酶癥、klinefelter綜合癥、半乳糖腦苷脂積累癥、Langer-Giedion綜合癥、腦白質(zhì)病變、長(zhǎng)QT綜合癥、馬方氏綜合癥、莫比亞斯綜合癥、粘多糖病(mps)、指甲膝蓋綜合癥、腎原性尿崩癥、多發(fā)性神經(jīng)纖維瘤、尼曼匹克病、骨發(fā)育不全、卟啉癥、Prader-Willi綜合癥、兒童早衰癥、變形桿菌綜合癥、成視網(wǎng)膜細(xì)胞瘤、解救綜合癥、rubinstein-taybi綜合癥、山菲立普綜合病、Shwachman綜合癥、鐮狀細(xì)胞貧血病、Smith-Magenis綜合癥、Stickler綜合癥、家族黑蒙性白癡、血小板缺乏橈骨(tar)綜合癥、Treacher柯林斯綜合癥、三體性、結(jié)節(jié)性腦硬化、特納綜合癥、尿素循環(huán)異常、希一林二氏病、Waardenburg綜合癥、威廉斯綜合癥、威爾遜氏病。
示例性疾病進(jìn)一步包括心絞痛、發(fā)育不良、動(dòng)脈粥樣硬化/動(dòng)脈硬化、先天性心臟病、心內(nèi)膜炎、高膽固醇、高血壓、長(zhǎng)QT綜合癥、二尖瓣脫垂、身體直立心動(dòng)過(guò)速綜合癥及血栓。
實(shí)施例3.用來(lái)自32個(gè)歐洲人的基因組DNA樣品,通過(guò)使用計(jì)算機(jī)程序列表附件中的軟件程序來(lái)試驗(yàn)本發(fā)明方法從而進(jìn)行SNP發(fā)現(xiàn)及人基因HRMT1L3基因分型(NCBI登記號(hào)為NM-019854;Strausberg等,2002,Proc.Natl.Acad.Sci.U.S.A 9916899-903)。HRMT1L3是蛋白質(zhì)精氨酸N-轉(zhuǎn)甲基酶,位于人染體12上,大約為3.5Mb。它具有10個(gè)外顯子,覆蓋了102.38Kb基因組區(qū)域。由于大部分由HRMT1L3覆蓋的基因組區(qū)域是內(nèi)含子區(qū)域,確定只對(duì)其外顯子和常規(guī)區(qū)域進(jìn)行基因分型。設(shè)計(jì)了總共48對(duì)PCR引物。這些引物一起覆蓋了圖7所述的總共大約30Kb的基因組區(qū)域。
對(duì)32個(gè)歐洲人基因組DNA樣品中的每一個(gè)進(jìn)行總共為48個(gè)PCR反應(yīng),對(duì)結(jié)果擴(kuò)增的PCR產(chǎn)物的雙鏈進(jìn)行測(cè)序。對(duì)總共48×32×2=3072擴(kuò)增子(amplicon)進(jìn)行測(cè)序。每一擴(kuò)增子的長(zhǎng)度為大約650bp。因而大約48×32×2×650=1996.8Kb進(jìn)行測(cè)序。如果在常規(guī)計(jì)算機(jī)軟件的幫助下由人分析這樣的序列,這些軟件如Sequencher(Gene Codes公司,Ann Arbor,Michigan)或TraceTuner(Paraeel,Pasadena,California),它們能分析序列質(zhì)量、排列來(lái)自同一基因組區(qū)域的擴(kuò)增子并用圖表表示潛在的多態(tài)性,這樣仍需要有經(jīng)驗(yàn)的技術(shù)人員花費(fèi)大約0.5-1小時(shí)來(lái)檢測(cè)來(lái)自一個(gè)引物對(duì)的64個(gè)雜合波形,識(shí)別SNP并收集等位基因信息。因此,一個(gè)有經(jīng)驗(yàn)的技術(shù)人員將花費(fèi)至少16小時(shí)來(lái)檢測(cè)所有這些3072個(gè)序列或1996.8Kb的序列。使用本發(fā)明的系統(tǒng)和方法,如包括在表1詳述的計(jì)算機(jī)程序列表附件中所披露的計(jì)算機(jī)程序,將花費(fèi)少于5分鐘來(lái)完成所有3072個(gè)雜合波形或1996.8Kb的序列的分析,包括質(zhì)量核查、將雜合波形分離為純合波形、進(jìn)行SNP發(fā)現(xiàn)并收集等位基因信息。在已分析的核酸序列中發(fā)現(xiàn)了總共44個(gè)SNP。
其它實(shí)施方案為解釋和說(shuō)明目的提供了前述的本發(fā)明的特定實(shí)施方案說(shuō)明,但前述說(shuō)明并不是窮舉或?qū)l(fā)明限定在所披露的明確形式。鑒于上述教導(dǎo)可進(jìn)行許多修飾和改變。例如,為輸入色譜46制定基準(zhǔn),該色譜對(duì)四個(gè)可能的堿基的每一個(gè)包括跡線(xiàn)腺嘌呤、鳥(niǎo)嘌嶺、胞嘧啶、胸腺嘧啶。然而,本發(fā)明不限于具有這樣堿基的核酸序列。實(shí)際上任一堿基,包括但不限于任一嘌呤或嘧啶衍生物,可用于本發(fā)明,只要它們用特定的熒光團(tuán)或其他標(biāo)記試劑進(jìn)行了差異標(biāo)記。例如,這樣的堿基包括但不限于下屬文獻(xiàn)所披露的那些WO98/16539(NovoNordisk A/S),WO98/04126(Rhone-Poulenc Rorer Pharmaceuticals公司),WO98/01459(Novo Nordisk A/S),授予Bays等的美國(guó)專(zhuān)利6,492,348,授予Matteucci等的美國(guó)專(zhuān)利6,005,096,Inoue等,1987,Jan Kokai JP 62059293,Prober等,1987,Science238336-41,Sung,1981,Nucl.Acids Res.9(22)6139-51,Sung,1982,J.Org.Chem.473623-28,Draper,1984,Nucleic Acids Res.12(2)989-1002,Draper 1986,Anal.Biochem.157(2)199,歐洲專(zhuān)利申請(qǐng)063879,和PCT申請(qǐng)PCT/US84/00279。
引用的參考文獻(xiàn)及結(jié)論所有在此引用的參考作為一個(gè)整體參考引用,并且其全部目的與各自單獨(dú)特定顯示的出版物或?qū)@驅(qū)@暾?qǐng)相同,其全部目的都是作為整體參考引用。
選擇并描述了實(shí)施方案以使得最佳解釋本發(fā)明原理和實(shí)踐應(yīng)用,從而因此能夠使本領(lǐng)域其他技術(shù)人員最佳地使用本發(fā)明和具有各種變化的變化實(shí)施方案,這些變化實(shí)施方案適于特定考慮的使用。意圖是本發(fā)明范圍由接下來(lái)的權(quán)利要求及其等價(jià)物限定。
權(quán)利要求
1.一種處理具有多個(gè)基本同時(shí)發(fā)生的跡線(xiàn)的輸入核酸色譜的方法,在所述多個(gè)跡線(xiàn)中的每條跡線(xiàn)具有多個(gè)數(shù)據(jù)點(diǎn),每一多個(gè)所述數(shù)據(jù)點(diǎn)中的每一個(gè)分別的數(shù)據(jù)點(diǎn)表示在跡線(xiàn)中相應(yīng)于各自數(shù)據(jù)點(diǎn)的位置處的信號(hào)幅度,該方法包括識(shí)別所述多條跡線(xiàn)中第一跡線(xiàn)的第一峰,該峰基本與所述多條跡線(xiàn)中第二跡線(xiàn)的第二峰重疊;及輸出所述第一峰為第一輸出純合表示,第二峰為第二輸出純合表示。
2.如權(quán)利要求1的方法,其中所述第一輸出純合表示是所述輸入核酸色譜的第一純合序列表示;及所述第二輸出純合表示是所述輸入核酸色譜的第二純合序列表示。
3.如權(quán)利要求1的方法,其中所述第一輸出純合表示是第一純合核酸色譜;及所述第二輸出純合表示是第二純合核酸色譜。
4.如權(quán)利要求1的方法,其中所述識(shí)別包括(A)對(duì)于在所述的第一跡線(xiàn)中一個(gè)或多個(gè)峰中的每一個(gè)分別的峰,標(biāo)記具有所述分別峰中的最大值的數(shù)據(jù)點(diǎn),第一跡線(xiàn)中所述的一個(gè)或多個(gè)峰包括所述第一峰;(B)對(duì)于在所述的第二跡線(xiàn)中一個(gè)或多個(gè)峰中的每一個(gè)分別的峰,標(biāo)記具有所述分別峰中的最大值的數(shù)據(jù)點(diǎn),第二跡線(xiàn)中所述的一個(gè)或多個(gè)峰包括所述第二峰;(C)識(shí)別所述輸入核酸色譜中的坐標(biāo),該坐標(biāo)在下述數(shù)據(jù)點(diǎn)的重疊閾值數(shù)量的數(shù)據(jù)點(diǎn)內(nèi)(i)具有所述第一峰中的最大值的第一數(shù)據(jù)點(diǎn)和(ii)具有所述第二峰中的最大值的第二數(shù)據(jù)點(diǎn)。
5.如權(quán)利要求4的方法,其中當(dāng)所述第一數(shù)據(jù)點(diǎn)與第二數(shù)據(jù)點(diǎn)間隔2個(gè)數(shù)據(jù)點(diǎn)至7個(gè)數(shù)據(jù)點(diǎn)時(shí),所述第一峰基本與所述第二峰重疊。
6.如權(quán)利要求4的方法,其中當(dāng)所述第一數(shù)據(jù)點(diǎn)與第二數(shù)據(jù)點(diǎn)間隔小于3個(gè)數(shù)據(jù)點(diǎn)時(shí),所述第一峰基本與所述第二峰重疊。
7.如權(quán)利要求1的方法,其中所述第一峰和第二峰各自獨(dú)立地包括5-40個(gè)數(shù)據(jù)點(diǎn)。
8.如權(quán)利要求1的方法,其中所述輸入色譜為ABI跡線(xiàn)文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。
9.如權(quán)利要求1的方法,其中將所述第一輸出核酸色譜和第二輸出核酸色譜各自寫(xiě)成ABI跡線(xiàn)文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。
10.如權(quán)利要求4的方法,其中當(dāng)在所述輸入色譜中關(guān)于所述坐標(biāo)的預(yù)定區(qū)域中存在大于閾值數(shù)量的峰時(shí),將所述第一峰和第二峰各自都寫(xiě)成第一輸出純合表示和第二輸出純合表示。
11.如權(quán)利要求10的方法,其中所述閾值數(shù)量峰為2-5個(gè)峰。
12.如權(quán)利要求10的方法,其中所述預(yù)定區(qū)域?yàn)殛P(guān)于所述坐標(biāo)的2個(gè)數(shù)據(jù)點(diǎn)-20個(gè)數(shù)據(jù)點(diǎn)。
13.如權(quán)利要求4的方法,其中當(dāng)?shù)谝环宓牡谝粩?shù)據(jù)點(diǎn)與第二峰的第二數(shù)據(jù)點(diǎn)之間的比率大于閾值比率值時(shí),將所述第一峰和所述第二峰各自寫(xiě)成第一輸出純合表示和第二輸出純合表示。
14.如權(quán)利要求13的方法,其中所述的閾值比率值為至少0.20。
15.如權(quán)利要求13的方法,其中所述的閾值比率值為至少0.40。
16.如權(quán)利要求4的方法,其中當(dāng)?shù)谝环宓牡谝粩?shù)據(jù)點(diǎn)與第二峰的第二數(shù)據(jù)點(diǎn)之間的比率小于閾值比率值時(shí),將所述第一峰和所述第二峰各自寫(xiě)成第一輸出純合表示和第二輸出純合表示。
17.如權(quán)利要求4的方法,該方法進(jìn)一步包括為所述輸入核酸色譜確定平均峰背景值,及當(dāng)所述第一峰的第一數(shù)據(jù)點(diǎn)或第二峰的第二數(shù)據(jù)點(diǎn)小于所述平均峰背景值時(shí),將所述第一峰和所述第二峰寫(xiě)成所述第一輸出純合表示和第二輸出純合表示。
18.如權(quán)利要求17的方法,其中通過(guò)下述方法計(jì)算平均峰背景值(i)比較(a)多條跡線(xiàn)的試驗(yàn)跡線(xiàn)中的數(shù)據(jù)點(diǎn),該數(shù)據(jù)點(diǎn)具有所述試驗(yàn)跡線(xiàn)中峰的最大值,與(b)在多條跡線(xiàn)中另一條跡線(xiàn)的相應(yīng)區(qū)域中具有最大值的相應(yīng)數(shù)據(jù)點(diǎn);(ii)重復(fù)將試驗(yàn)跡線(xiàn)的所述數(shù)據(jù)點(diǎn)與多條跡線(xiàn)中另一條的相應(yīng)區(qū)域中具有最大值的相應(yīng)數(shù)據(jù)點(diǎn)進(jìn)行比較,直到多條跡線(xiàn)中每一條都已進(jìn)行了所述比較(i)中的比較,其中當(dāng)試驗(yàn)跡線(xiàn)中的數(shù)據(jù)點(diǎn)具有大于多條跡線(xiàn)中的每一條其它跡線(xiàn)的相應(yīng)數(shù)據(jù)點(diǎn)所具有的值時(shí),將該數(shù)據(jù)點(diǎn)的值加到計(jì)數(shù)器中;(iii)用具有在試驗(yàn)跡線(xiàn)中的不同峰的最大值的不同數(shù)據(jù)點(diǎn)重復(fù)比較步驟(i)和重復(fù)步驟(ii),直到通過(guò)所述比較步驟(i)對(duì)試驗(yàn)跡線(xiàn)中所有或部分峰都進(jìn)行了比較;(iv)用多條跡線(xiàn)中的不同試驗(yàn)跡線(xiàn)重復(fù)所述比較步驟(i)、重復(fù)步驟(ii)和重復(fù)步驟(iii),直到多條跡線(xiàn)中每一條都作為在所述比較步驟(i)中的試驗(yàn)跡線(xiàn)被考慮過(guò);及(v)通過(guò)加到計(jì)數(shù)器上的多個(gè)峰平均所述的計(jì)數(shù)器,從而獲得所述平均峰背景值。
19.如權(quán)利要求4的方法,其中所述的輸入核酸色譜表示來(lái)自雜合核酸樣品的核酸序列,該方法進(jìn)一步包括對(duì)所述雜合核酸樣品中的插入或刪除點(diǎn)掃描所述輸入核酸色譜;其中當(dāng)發(fā)現(xiàn)所述插入或刪除點(diǎn)并且所述坐標(biāo)在該點(diǎn)之后時(shí),將第一峰和第二峰各自寫(xiě)成所述的第一輸出純合表示和第二輸出純合表示。
20.如權(quán)利要求19的方法,其中所述掃描包括計(jì)數(shù)發(fā)生在所述坐標(biāo)之后的多個(gè)跡線(xiàn)中的峰的數(shù)量,其中當(dāng)峰的數(shù)量超過(guò)插入/刪除閾值數(shù)量時(shí),確定所述坐標(biāo)為所述雜合核酸樣品中的插入或刪除點(diǎn)。
21.如權(quán)利要求20的方法,其中所述的插入/刪除閾值數(shù)量為25-75。
22.如權(quán)利要求20的方法,其中所述插入/刪除閾值數(shù)量為75-200。
23.如權(quán)利要求19的方法,其中所述掃描包括確定在所述坐標(biāo)后多個(gè)跡線(xiàn)中重疊峰的百分比,其中,當(dāng)重疊峰的百分比超過(guò)插入/刪除閾值百分比時(shí),確定所述坐標(biāo)為雜合核酸樣品中所述的插入或刪除點(diǎn)。
24.如權(quán)利要求23的方法,其中所述插入/刪除閾值百分比為2-90%。
25.如權(quán)利要求23的方法,其中所述插入/刪除閾值百分比為10-50%。
26.如權(quán)利要求1的方法,其中所述輸入核酸色譜表示來(lái)自雜合核酸樣品的核酸序列,其中在所述輸出之前,所述方法包括用縮放比例常數(shù)乘以所述第一峰和第二峰。
27.如權(quán)利要求26的方法,其中所述縮放比例常數(shù)為1.1-3.2。
28.如權(quán)利要求26的方法,其中所述縮放比例常數(shù)為2.0。
29.如權(quán)利要求1的方法,該方法進(jìn)一步包括為所述輸入核酸色譜中的多個(gè)峰生成通用峰輪廓,并且在所述輸出前,對(duì)照所述通用峰輪廓核查所述第一峰或所述第二峰。
30.如權(quán)利要求29的方法,其中所述生成包括確定在所述輸入核酸色譜中峰中數(shù)據(jù)點(diǎn)的平均數(shù)量;及將在所述核酸色譜中具有所述平均數(shù)量數(shù)據(jù)點(diǎn)的全部或部分峰的輪廓平均,從而形成所述通用峰輪廓。
31.如權(quán)利要求29的方法,其中所述核查包括通過(guò)誤差百分比確定在所述第一峰或第二峰中的試驗(yàn)數(shù)據(jù)點(diǎn)的值是否超過(guò)了所述通用峰輪廓中相應(yīng)于所述試驗(yàn)數(shù)據(jù)點(diǎn)的數(shù)據(jù)點(diǎn)的值。
32.如權(quán)利要求31的方法,其中所述誤差百分比為0.01-0.4。
33.如權(quán)利要求31的方法,其中所述誤差百分比為0.1。
34.如權(quán)利要求1的方法,其中所述在所述輸入色譜核酸中多條跡線(xiàn)包括相應(yīng)于鳥(niǎo)嘌呤的第一跡線(xiàn)、相應(yīng)于胞嘧啶的第二跡線(xiàn)、相應(yīng)于腺嘌呤的第三跡線(xiàn)及相應(yīng)于胸腺嘧啶的第四跡線(xiàn)。
35.一種用于執(zhí)行權(quán)利要求1的方法的步驟的具有計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)。
36.一種用于與計(jì)算機(jī)系統(tǒng)相連的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和嵌入其中的計(jì)算機(jī)程序機(jī)制,該計(jì)算機(jī)程序機(jī)制用于處理具有多個(gè)基本同時(shí)發(fā)生的跡線(xiàn)的輸入核酸色譜,該計(jì)算機(jī)程序機(jī)制包括用于識(shí)別在所述多條跡線(xiàn)的第一條跡線(xiàn)中的第一峰的指令,該峰基本與所述多條跡線(xiàn)的第二跡線(xiàn)中的第二峰重疊;和用于將所述第一峰輸出給第一輸出純合表示和將第二峰輸出給第二輸出純合表示的指令。
37.如權(quán)利要求36的計(jì)算機(jī)程序產(chǎn)品,其中所述第一輸出純合表示是所述輸入核酸色譜的第一純合序列表示;及所述第二輸出純合表示是所述輸入核酸色譜的第二純合序列表示。
38.如權(quán)利要求36的計(jì)算機(jī)程序產(chǎn)品,其中所述第一輸出純合表示是第一純合核酸色譜;及所述第二輸出純合表示是第二純合核酸色譜。
39.如權(quán)利要求36的計(jì)算機(jī)程序產(chǎn)品,其中所述用于識(shí)別的指令包括(A)對(duì)于在所述第一跡線(xiàn)的一個(gè)或多個(gè)峰中的每一個(gè)分別的峰,標(biāo)記在所述分別的峰中具有最大值的數(shù)據(jù)點(diǎn)的指令,所述第一跡線(xiàn)中一個(gè)或多個(gè)峰包括所述第一峰;(B)對(duì)于在所述第二跡線(xiàn)的一個(gè)或多個(gè)峰中的每一個(gè)分別的峰,標(biāo)記在所述分別的峰中具有最大值的數(shù)據(jù)點(diǎn)的指令,所述第二跡線(xiàn)中一個(gè)或多個(gè)峰包括所述第二峰;(C)用于識(shí)別所述輸入核酸色譜中坐標(biāo)的指令,該坐標(biāo)在下述數(shù)據(jù)點(diǎn)的重疊閾值數(shù)量的數(shù)據(jù)點(diǎn)內(nèi)(i)具有所述第一峰中的最大值的第一數(shù)據(jù)點(diǎn)和(ii)具有所述第二峰中的最大值的第二數(shù)據(jù)點(diǎn)。
40.一種用于處理具有多條基本同時(shí)發(fā)生跡線(xiàn)的輸入核酸色譜的計(jì)算機(jī)系統(tǒng),該計(jì)算機(jī)系統(tǒng)包括中央處理單元;存儲(chǔ)器,與該中央處理單元相連,該存儲(chǔ)器存儲(chǔ)所述的輸入核酸色譜;和程序模塊,所述程序模塊包括用于識(shí)別多條跡線(xiàn)中第一條跡線(xiàn)的第一峰的指令,該峰基本與所述多條跡線(xiàn)中第二條跡線(xiàn)的第二峰重疊;及用于將所述第一峰輸出給第一輸出純合表示和將第二峰輸出給第二輸出純合表示的指令。
41.如權(quán)利要求40的計(jì)算機(jī)系統(tǒng),其中所述第一輸出純合表示是所述輸入核酸色譜的第一純合序列表示;及所述第二輸出純合表示是所述輸入核酸色譜的第二純合序列表示。
42.如權(quán)利要求40的計(jì)算機(jī)系統(tǒng),其中所述第一輸出純合表示是第一純合核酸色譜;和所述第二輸出純合表示是第二純合核酸色譜。
43.如權(quán)利要求40的計(jì)算機(jī)系統(tǒng),其中所述用于識(shí)別的指令包括(A)對(duì)于在所述第一跡線(xiàn)的一個(gè)或多個(gè)峰中的每一個(gè)分別的峰,標(biāo)記在所述分別的峰中具有最大值的數(shù)據(jù)點(diǎn)的指令,所述第一跡線(xiàn)中一個(gè)或多個(gè)峰包括所述第一峰;(B)對(duì)于在所述第二跡線(xiàn)的一個(gè)或多個(gè)峰中的每一個(gè)分別的峰,標(biāo)記在所述分別的峰中具有最大值的數(shù)據(jù)點(diǎn)的指令,所述第二跡線(xiàn)中一個(gè)或多個(gè)峰包括所述第二峰;(C)用于識(shí)別所述輸入核酸色譜中坐標(biāo)的指令,該坐標(biāo)在下述數(shù)據(jù)點(diǎn)的重疊閾值數(shù)量的數(shù)據(jù)點(diǎn)內(nèi)(i)具有所述第一峰中的最大值的第一數(shù)據(jù)點(diǎn)和(ii)具有所述第二峰中的最大值的第二數(shù)據(jù)點(diǎn)。
44.一種用于與計(jì)算機(jī)系統(tǒng)相連的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和嵌入其中的計(jì)算機(jī)程序機(jī)制,該計(jì)算機(jī)程序機(jī)制用于處理具有多個(gè)基本同時(shí)發(fā)生的跡線(xiàn)的輸入核酸色譜,該計(jì)算機(jī)程序機(jī)制包括跡線(xiàn)分離程序,該跡線(xiàn)分離程序包括用于將來(lái)自所述輸入核酸色譜第一跡線(xiàn)的第一峰的表示輸出給第一輸出純合表示的指令;和用于將第二峰表示輸出給第二輸出純合表示的指令,該第二峰發(fā)生在輸入色譜第二跡線(xiàn)中基本與所述第一峰重疊的點(diǎn)處。
45.如權(quán)利要求44的計(jì)算機(jī)程序,其中當(dāng)所述輸入核酸色譜中的坐標(biāo)在下述數(shù)據(jù)的重疊閾值數(shù)量的數(shù)據(jù)點(diǎn)內(nèi)時(shí),所述第二峰基本與所述第一峰重疊,所述數(shù)據(jù)點(diǎn)是(i)具有所述第一峰中的最大值的第一數(shù)據(jù)點(diǎn)及(ii)具有所述第二峰中的最大值的第二數(shù)據(jù)點(diǎn)。
46.如權(quán)利要求45的計(jì)算機(jī)程序,其中所述的重疊閾值數(shù)量為2-7個(gè)數(shù)據(jù)點(diǎn)。
47.一種處理具有多個(gè)基本同時(shí)發(fā)生的跡線(xiàn)的輸入核酸色譜的方法,在所述多個(gè)跡線(xiàn)中的每條跡線(xiàn)具有多個(gè)數(shù)據(jù)點(diǎn),每一多個(gè)所述數(shù)據(jù)點(diǎn)中的每一個(gè)分別的數(shù)據(jù)點(diǎn)表示在跡線(xiàn)中相應(yīng)于各自數(shù)據(jù)點(diǎn)的位置處的信號(hào)幅度,該方法包括識(shí)別所述多條跡線(xiàn)中第一跡線(xiàn)的第一峰,該峰基本與所述多條跡線(xiàn)中第二跡線(xiàn)的第二峰重疊;對(duì)所述第一峰進(jìn)行堿基命名從而形成所述第一峰的堿基表示;對(duì)所述第二峰進(jìn)行堿基命名從而形成所述第二峰的堿基表示;輸出所述第一峰的堿基表示為第一輸出純合序列;和輸出所述第二峰的堿基表示為第二輸出純合序列。
全文摘要
用于處理具有多條基本同時(shí)發(fā)生的跡線(xiàn)的輸入核酸色譜的計(jì)算機(jī)系統(tǒng)、計(jì)算機(jī)程序產(chǎn)品和方法。多條跡線(xiàn)中的每一條跡線(xiàn)具有多個(gè)數(shù)據(jù)點(diǎn)。每一多個(gè)數(shù)據(jù)點(diǎn)中各個(gè)分別的數(shù)據(jù)點(diǎn)表示在跡線(xiàn)中相應(yīng)于各自數(shù)據(jù)點(diǎn)的的位置處信號(hào)幅度。識(shí)別第一跡線(xiàn)中的第一峰,該峰基本與多條跡線(xiàn)中第二跡線(xiàn)的第二峰重疊。將該第一峰輸出為第一輸出純合表示,將第二峰輸出為第二輸出純合表示。第一輸出純合表示是第一純合序列表示或相應(yīng)于該輸入核酸色譜的第一純合核酸色譜。第二輸出純合表示是第二純合序列表示或輸入核酸色譜的第二純合核酸色譜。
文檔編號(hào)C12Q1/68GK1825326SQ20051002302
公開(kāi)日2006年8月30日 申請(qǐng)日期2005年9月15日 優(yōu)先權(quán)日2004年9月15日
發(fā)明者G·廖, J·A·烏蘇卡, G·A·佩爾茨 申請(qǐng)人:霍夫曼-拉羅奇有限公司