專利名稱:用于分析測序數(shù)據(jù)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本技術(shù)涉及分子科學(xué),例如遺傳學(xué)。更具體而言,本技術(shù)涉及用于分析測序數(shù)據(jù)的方法和系統(tǒng)。
背景技術(shù):
生物樣品中存在的特異核苷酸序列的檢測可用作微生物鑒定和分類、傳染病診斷、遺傳缺陷檢測和表征、腫瘤相關(guān)遺傳變異鑒定、研究疾病的遺傳易感性和測量對多種類型治療的反應(yīng)的方法。生物樣品中特定核酸序列檢測常規(guī)技術(shù)是核酸測序。核酸測序方法主要來源于由Maxam和Gilbert所使用的化學(xué)降解法和Sanger所使用的鏈延伸法?,F(xiàn)今有幾種測序方法可以允許在單個(gè)測序運(yùn)行中同時(shí)處理數(shù)以千計(jì)的核酸。由此可見,單個(gè)測序運(yùn)行所獲得的信息無疑是龐大的。
發(fā)明內(nèi)容
本技術(shù)涉及對即時(shí)生成的測序數(shù)據(jù)的分析。在本發(fā)明某些實(shí)施方式中,此分析允許在獲得靶核酸完整序列之前或結(jié)束測序運(yùn)行之前鑒定靶核酸的來源。在某些實(shí)施方式中,測序運(yùn)行可以在反應(yīng)完成之前終止。在這些及其它一些實(shí)施方式中,終止測序反應(yīng)是基于數(shù)據(jù)分析(例如,數(shù)據(jù)數(shù)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)提供的信息一比如數(shù)據(jù)中所包含的信息回答提出的問題的能力,等等)。在某些實(shí)施方式中,終止測序反應(yīng)是基于數(shù)據(jù)分析,而該數(shù)據(jù)分析確定已經(jīng)獲得了充足的數(shù)據(jù)(例如足以鑒定物種的數(shù)據(jù)、足以完成測序的數(shù)據(jù)、足以鑒定所有目標(biāo)標(biāo)記的數(shù)據(jù),等等)。充足的數(shù)據(jù)可以包括完成特定分析(例如物種鑒定、診斷、 獲得全序列,等等)所需的最小數(shù)據(jù)量,或者可以包括獲得具有充足的冗余度的數(shù)據(jù),來提高在完成該分析時(shí)所期望的可靠度。終止測序反應(yīng)可以包括立即終止測序反應(yīng),運(yùn)行特定 (固定的或者可變的)量的進(jìn)一步的測序反應(yīng),和/或啟動(dòng)終止程序(例如沖洗試劑、發(fā)送通知,等等)。除了在達(dá)到特定標(biāo)準(zhǔn)時(shí)終止測序反應(yīng)以外,或者作為其替代方案,也可以采取其它操作。當(dāng)獲得指定的數(shù)據(jù)(例如,數(shù)據(jù)量足夠作物種鑒定、診斷等等)時(shí),通知可以發(fā)送給用戶(例如,可以發(fā)送電子信息、指示器可以點(diǎn)亮或振動(dòng),等等),可以激活不同的系統(tǒng) (例如運(yùn)行另一個(gè)檢驗(yàn)、基于診斷或鑒定的物種采取修正動(dòng)作,等等),和/或可以響應(yīng)于已確定獲得充足的和/或指定的數(shù)據(jù)而采取某些其它的動(dòng)作。本發(fā)明的某些實(shí)施方式中,描述了用于表征靶核酸,同時(shí)測定靶核酸的核苷酸序列的一部分的方法和系統(tǒng)。特定的實(shí)施方式包括用于鑒定靶核酸來源的方法和系統(tǒng),該鑒定是通過將靶核酸的一部分的積累核苷酸序列或者多個(gè)靶核酸的部分的積累序列與參照核酸序列群進(jìn)行比較。
這里所描述的某些實(shí)施方式包括鑒定靶核酸來源的方法。這些方法可包括步驟 (a)啟動(dòng)測序過程,以確定靶核酸或其片段的核苷酸序列,由此生成靶核酸至少一部分的核苷酸序列;(b)在終止測序過程之前,比較所述靶核酸至少一部分的核苷酸序列和來自指定生物的參照核苷酸序列群,以使用指定的閾值鑒定與所述靶核酸至少一部分的核苷酸序列相匹配的參照核苷酸序列亞群;和(c)確定該參照核苷酸序列的亞群是否允許充分鑒定靶核酸的來源,其中若參照核苷酸序列的亞群不允許充分鑒定靶核酸的來源,則繼續(xù)進(jìn)行該測序過程并重復(fù)步驟(b)和(c),其中若參照核苷酸序列的亞群允許充分鑒定靶核酸的來源,則終止測序過程。在某些實(shí)施方式中,在充分鑒定靶核酸的來源之后,但是在完成靶核酸測序之前或測序運(yùn)行結(jié)束前,終止測序過程。在另一實(shí)施方式中,可以在充分鑒定靶核酸的來源的同時(shí)終止測序過程。在某些實(shí)施方式中,可以采集測序數(shù)據(jù)以執(zhí)行特定的檢驗(yàn)(例如,在個(gè)體中鑒定遺傳疾病和/或者遺傳標(biāo)記)。當(dāng)能從數(shù)據(jù)中獲得足夠的信息用于完成分析時(shí),可以終止進(jìn)一步的測序反應(yīng)。在這里描述的方法的某些實(shí)施方式中,測序過程是自動(dòng)化的過程。在這里描述的方法的某些實(shí)施方式中,測序過程可以對單個(gè)靶核酸進(jìn)行。在另外的實(shí)施方式中,測序過程可以同時(shí)對多個(gè)靶核酸進(jìn)行。在這樣的實(shí)施方式中,多個(gè)靶核酸可以包含具有不同核苷酸序列的靶核酸。這里所描述的方法也可以涉及在陣列表面上對多個(gè)靶核酸平行地進(jìn)行測序過程。 在某些此類實(shí)施方式中,所述多個(gè)靶核酸可以包括具有不同核苷酸序列的靶核酸。在特定實(shí)施方式中,進(jìn)行測序的靶核酸的一部分包括生物基因組區(qū)域的隨機(jī)采樣。因此,該方法尤其適用于一般用于全基因組測序的方法,具有在僅對全基因組的片段進(jìn)行測序后即可鑒定該基因組的來源生物的優(yōu)點(diǎn)。當(dāng)前所描述的方法的特點(diǎn),尤其與從宏基因組樣品獲得的靶核酸的鑒定有關(guān)。如此,在優(yōu)選的實(shí)施方式中,這里所描述的方法涉及鑒定從一個(gè)或更多個(gè)宏基因組樣品獲得的靶核酸的來源。在特定的實(shí)施方式中,此方法可用于鑒定足以從其它候選物種中區(qū)分和/ 或鑒定出(例如特異地鑒定物種、特異地鑒定亞種、鑒定一組種和/或亞種,等等)該生物物種的來源。在某些實(shí)施方式中,一組物種的鑒定足以(例如,如果該組中的每個(gè)物種和/ 或亞種應(yīng)用常規(guī)方法修正或注釋一一例如用同一藥物治療、用同一技術(shù)根除,等等)進(jìn)行 “物種鑒定”。在另外的實(shí)施方式中,物種鑒定涉及物種的特異鑒定。在這里所描述的方法的某些實(shí)施方式中,參照核苷酸序列群中的參照核苷酸序列與指定生物的特定種相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引(index)。在另外的實(shí)施方式中,參照核苷酸序列與指定生物的特定亞種相關(guān)聯(lián)在數(shù)據(jù)庫中進(jìn)一步創(chuàng)建索引。在其它的鑒定靶核酸來源的方法中,參照核苷酸序列群中的參照核苷酸序列與一組或多組生物相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引。在某些實(shí)施方式中,參照核苷酸序列群中的參照核苷酸序列可以根據(jù)與多組生物的分級(jí)相關(guān)性(hierarchical association)在數(shù)據(jù)庫中創(chuàng)建索引。再另外一種實(shí)施方式中,多組生物可能是系統(tǒng)發(fā)生相關(guān)的。在這里所描述的方法的某些實(shí)施方式中,靶核酸至少包括一種核酸的一部分,該核酸編碼一種或多種已知系統(tǒng)發(fā)生關(guān)系的基因。這樣的基因可以用來鑒定目標(biāo)生物或者生物之間的關(guān)系。已經(jīng)明確了系統(tǒng)發(fā)生關(guān)系的基因的例子包括但不限于RuBisCo、NifH、亞硫酸還原酶、線粒體核酸或者16SrRNA。在某些實(shí)施方式中,線粒體核酸包括細(xì)胞色素c氧化酶亞基I。在當(dāng)前所描述的方法的某些實(shí)施方式中,測序過程包括基于陣列的測序。在這個(gè)和其它的實(shí)施方式中,測序過程可以包括選自雜交測序、合成測序和連接測序的過程。在另外的實(shí)施方式中,其他的測序方法可以用于這里所描述的方法。這里描述的某些方法也包括使用啟發(fā)式算法將靶核酸至少一部分的核苷酸序列與參照核苷酸序列群作比較。在此類實(shí)施方式中,該算法可以包括,例如,BLAST算法或 FASTA算法。在這里描述的某些方法中,用于確定參照核苷酸序列的亞群是否和靶核酸至少一部分的核苷酸序列相匹配的閾值,包括用戶指定的閾值。在某些實(shí)施方式中,一個(gè)或多個(gè)參數(shù)可以包括核苷酸同一性百分比。在某些鑒定靶核酸來源的實(shí)施方式中,如果亞群內(nèi)至少指定的百分比的參照核苷酸序列是來源于同一屬的生物,則參照核苷酸序列的該亞群可以允許充分鑒定靶核酸的來源。在另外的實(shí)施方式中,如果亞群內(nèi)至少指定的百分比的參照核苷酸序列是來源于同一種的生物,則參照核苷酸序列的該亞群可以允許充分鑒定靶核酸的來源。再其它的實(shí)施方式中,如果亞群內(nèi)至少指定的百分比的參照核苷酸序列是來源于同一亞種的生物,則參照核苷酸序列的該亞群可以允許充分鑒定靶核酸的來源。除這里所描述的方法之外,也描述了用于鑒定靶核酸來源的系統(tǒng)。此系統(tǒng)可能包括帶有存儲(chǔ)器的計(jì)算機(jī),該計(jì)算機(jī)與含有來自指定生物的參照核苷酸序列群的數(shù)據(jù)庫對接;核酸測序儀,它配置為執(zhí)行測序過程,以確定靶核酸或其片段的核苷酸序列,從而在所述存儲(chǔ)器中生成靶核酸至少一部分的核苷酸序列;與所述計(jì)算機(jī)對接的第一程序模塊,其中該第一程序模塊配置為將靶核酸至少一部分的核苷酸序列與參照核苷酸序列群相比較, 以在終止所述測序過程前使用指定的閾值鑒定與所述靶核酸至少一部分的核苷酸序列匹配的參照核苷酸序列亞群;以及與所述計(jì)算機(jī)對接的第二程序模塊,其中該第二程序模塊配置為確定參照核苷酸序列的亞群是否允許充分鑒定靶核酸的來源(例如,種、亞種、一組種或亞種,等等)。在這里所描述的系統(tǒng)的某些實(shí)施方式中,第二程序模塊可以進(jìn)一步配置為如果參照核苷酸序列亞群不允許充分鑒定靶核酸的來源,則發(fā)出繼續(xù)進(jìn)行測序過程的指令。在另外的實(shí)施方式中,第二程序模塊可以進(jìn)一步配置為如果參照核苷酸序列亞群允許充分鑒定靶核酸的來源,則發(fā)出終止測序過程的指令。在這些實(shí)施方式中,可以在充分鑒定靶核酸的來源后,但是在靶核酸完全測序之前或者完成測序運(yùn)行之前,發(fā)出終止測序過程的指令。在另外的實(shí)施方式中,可以在充分鑒定靶核酸來源的同時(shí),發(fā)出終止測序過程的指令。在這里所描述系統(tǒng)的某些實(shí)施方式中,第一和第二程序模塊可以是同一模塊。在某些實(shí)施方式中,可由計(jì)算機(jī)處理第一程序模塊。在另外的實(shí)施方式中,第一和第二程序模塊可以都由計(jì)算機(jī)處理。在另外別的實(shí)施方式中,數(shù)據(jù)庫可以是遠(yuǎn)程數(shù)據(jù)庫。在再另外的實(shí)施方式中,數(shù)據(jù)庫可以是本地?cái)?shù)據(jù)庫。在這里所描述系統(tǒng)的某些實(shí)施方式涉及由計(jì)算機(jī)控制的核酸測序儀。在其它的實(shí)施方式中,核酸測序儀可以處于獨(dú)立控制下。在某些實(shí)施方式中,核酸測序儀可以和計(jì)算機(jī)位于同一地點(diǎn),也可以位于遠(yuǎn)離計(jì)算機(jī)的地方。在某些實(shí)施方式中,測序過程可以是自動(dòng)化的測序過程。在某些實(shí)施方式中,如對于上述方法所述,測序過程可以對單一靶核酸進(jìn)行。在另外的實(shí)施方式中,測序過程可以同時(shí)對多個(gè)靶核酸進(jìn)行。在這些實(shí)施方式中,多個(gè)靶核酸可以包括具有不同的核苷酸序列的靶核酸。這里所描述的系統(tǒng)也可以涉及在陣列表面上平行地對多個(gè)靶核酸進(jìn)行測序過程的核酸測序儀。在某些這樣的實(shí)施方式中,多個(gè)靶核酸可以包括具有不同的核苷酸序列的靶核酸。這里所描述的某些系統(tǒng)尤其適用于鑒定從宏基因組樣品獲得的靶核酸。如此,在優(yōu)選的實(shí)施方式中,這里所描述的系統(tǒng)涉及鑒定從一個(gè)或多個(gè)宏基因組樣品獲得的靶核酸的來源。在這里所描述的系統(tǒng)的某些實(shí)施方式中,參照核苷酸序列群中的參照核苷酸序列與指定生物的特定種相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引。在另外的實(shí)施方式中,參照核苷酸序列與指定生物的特定亞種相關(guān)聯(lián)在數(shù)據(jù)庫中進(jìn)一步創(chuàng)建索引。在其它的用于鑒定靶核酸來源的系統(tǒng)中,參照核苷酸序列群中的參照核苷酸序列與一組或多組生物相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引。在某些實(shí)施方式中,參照核苷酸序列群中的參照核苷酸序列可以根據(jù)與多組生物的分級(jí)相關(guān)性在數(shù)據(jù)庫中創(chuàng)建索引。再另外一些實(shí)施方式中,多組生物可能是系統(tǒng)發(fā)生相關(guān)的。在這里所描述的方法的某些實(shí)施方式中,靶核酸至少包括編碼RuBisCo、NifH、亞硫酸還原酶、線粒體核酸或者16S rRNA的核酸的一部分。在某些實(shí)施方式中,線粒體核酸包括細(xì)胞色素c氧化酶亞基I。在當(dāng)前所描述的系統(tǒng)的某些實(shí)施方式中,測序過程包括基于陣列的測序。在這個(gè)和其它的實(shí)施方式中,測序過程可以包括選自雜交測序、合成測序和連接測序的過程。在另外的實(shí)施方式中,其他的測序方法可以用于這里所描述的系統(tǒng)。這里描述的某些系統(tǒng)利用一種或者多種啟發(fā)式算法來比較靶核酸至少一部分的核苷酸序列與參照核苷酸序列群。在此類實(shí)施方式中,算法可以包括,例如,BLAST算法或 FASTA算法。在這里描述的某些系統(tǒng)中,用于確定參照核苷酸序列的亞群是否和靶核酸至少一部分的核苷酸序列相匹配的閾值,可以包括用戶指定的閾值。在某些實(shí)施方式中,一個(gè)或多個(gè)參數(shù)可以包括核苷酸同一性百分比。在某些用于鑒定靶核酸來源的系統(tǒng)的實(shí)施方式中,如果亞群內(nèi)至少指定的百分比的參照核苷酸序列是來源于同一屬的生物,則參照核苷酸序列的該亞群可以允許充分鑒定靶核酸的來源。在另外的實(shí)施方式中,如果亞群內(nèi)至少指定的百分比的參照核苷酸序列是來源于同一種的生物,則參照核苷酸序列的該亞群可以允許充分鑒定靶核酸的來源。再其它的實(shí)施方式中,如果亞群內(nèi)至少指定的百分比的參照核苷酸序列是來源于同一亞種的生物,則參照核苷酸序列的該亞群可以允許充分鑒定靶核酸的來源。
圖1是用于鑒定靶核酸來源的系統(tǒng)的示意圖。詳細(xì)描述至少從部分意義上來講,本發(fā)明起因于認(rèn)識(shí)到盡管單個(gè)測序運(yùn)行就可以快速生成大量測序數(shù)據(jù),但是有些目標(biāo)只能通過使用生成的測序數(shù)據(jù)的一部分才能實(shí)現(xiàn)。例如,方法和系統(tǒng)可用于僅僅使用從部分測序運(yùn)行獲得的部分?jǐn)?shù)據(jù)鑒定靶核酸的來源。至少從部分意義上來講,本發(fā)明起因于認(rèn)識(shí)到若方法和/或系統(tǒng)能夠發(fā)展為以有利的方式利用部分測序數(shù)據(jù),例如在完成靶核酸測序之前或者在完成整個(gè)測序運(yùn)行之前鑒定靶核酸的來源,則此方法和/或系統(tǒng)就可以節(jié)約測序試劑,節(jié)約時(shí)間和/或減少測序成本。另外,至少從部分意義上講,本發(fā)明起因于認(rèn)識(shí)到此方法和系統(tǒng)可以提供一種機(jī)制,利用該機(jī)制可以快速地鑒定靶核酸的來源,從而用于時(shí)效性極為重要的場合。這里所描述的方法和系統(tǒng)的具體應(yīng)用包括快速分析序列數(shù)據(jù),包括但不限于一個(gè)或多個(gè)靶核酸的來源的鑒定。這些應(yīng)用可以用于在患者醫(yī)護(hù)點(diǎn)(point of patient care) 鑒定病原體,例如,用于緊急診斷性檢測。這樣的病原體鑒定可以指導(dǎo)使用有效藥物治療鑒定的病原體。另外的應(yīng)用還包括評估對于將要終止的測序運(yùn)行,何時(shí)能夠獲得充足的數(shù)據(jù), 從而節(jié)約試劑,節(jié)省時(shí)間和/或節(jié)省成本。這里所描述的方法和系統(tǒng)的各方面涉及到在完成靶核酸測序之前或者在完成測序運(yùn)行之前,利用部分測序數(shù)據(jù)鑒定靶核酸的來源。這里所使用的“測序運(yùn)行(sequencing run),,或者它的語法變體均指物理或化學(xué)步驟的一個(gè)重復(fù)過程,它在靶核酸上啟動(dòng)并進(jìn)行, 以獲得指示靶核酸中的堿基順序的信號(hào)。這個(gè)過程可以進(jìn)行到其典型完成,此完成通常定義為來自該過程的信號(hào)不再能夠以合理的確定性水平區(qū)分靶核酸的堿基時(shí)的點(diǎn)。測序運(yùn)行可以對單個(gè)靶核酸分子進(jìn)行,或同時(shí)對具有相同序列的靶核酸分子群進(jìn)行,或同時(shí)對具有不同序列的靶核酸群進(jìn)行。在某些實(shí)時(shí)方式中,當(dāng)不再能從已經(jīng)啟動(dòng)信號(hào)采集的一個(gè)或多個(gè)靶核酸分子獲得信號(hào)時(shí),則終止該測序運(yùn)行。例如,可以對一個(gè)或多個(gè)存在于固相基底上的靶核酸分子啟動(dòng)測序運(yùn)行,而且在基底上移去一個(gè)或多個(gè)靶核酸分子時(shí)終止,或者以其它方式停止檢測在啟動(dòng)測序運(yùn)行時(shí)存在于基底上的靶核酸來終止。這里所使用的“序列判定(sequence calling) ”、“堿基判定(base calling)”和它們的語法同義詞涉及基于測序運(yùn)行所獲得的數(shù)據(jù)確定核酸中堿基的順序。序列判定的過程可以先于獲得數(shù)據(jù)的測序運(yùn)行結(jié)束前啟動(dòng)。這里所使用的“測序過程”及其語法同義詞是指進(jìn)行測序運(yùn)行和序列判定的組合動(dòng)作。在某些實(shí)時(shí)方式中,所描述的方法和系統(tǒng)用于在進(jìn)行測序運(yùn)行或檢測靶核酸或其片段的一部分的核苷酸序列的同時(shí)鑒定靶核酸的來源或者以其它方式表征靶核酸。某些實(shí)施方式包括通過靶核酸或其片段的一部分的積累核苷酸序列與參照核苷酸序列群的比較鑒定靶核酸來源的方法和系統(tǒng)。這里所使用的“積累核苷酸序列(accumulating nucleotide sequence) ”及其語法同義詞是指在測序運(yùn)行完成前由測序運(yùn)行所生成的核苷酸序列。在某些實(shí)施方式中,在先前積累的序列被分析的同時(shí)測序運(yùn)行可以繼續(xù)積累信號(hào)。 在上面所提到的每個(gè)實(shí)施方式中,靶核酸來源的鑒定可以先于靶核酸完全測序或測序運(yùn)行完成之前進(jìn)行。這里描述了鑒定靶核酸來源的方法。此方法可以包括步驟(a)啟動(dòng)測序過程,以確定靶核酸或其片段的核苷酸序列,從而生成所述靶核酸至少一部分的核苷酸序列;(b) 在終止測序過程之前,比較所述靶核酸至少一部分的核苷酸序列和指定生物的參照核苷酸序列群,以使用指定的閾值鑒定與所述靶核酸至少一部分的核苷酸序列相匹配的參照核苷酸序列亞群;和(c)確定參照核苷酸序列的亞群是否允許充分鑒定靶核酸的來源,其中若參照核苷酸序列的亞群不允許充分鑒定靶核酸的來源,則繼續(xù)進(jìn)行該測序過程并重復(fù)步驟(b)和(C),其中若參照核苷酸序列的亞群允許充分鑒定靶核酸的來源,則終止測序過程。應(yīng)當(dāng)理解,終止測序過程可以在充分鑒定靶核酸來源后,但在靶核酸完全測序之前或者在測序運(yùn)行完成之前發(fā)生?;蛘撸趦?yōu)選的方法中,測序過程可以在充分鑒定靶核酸來源的同時(shí)終止。除了此處所述的方法以外,還提供了鑒定靶核酸來源的系統(tǒng)。這些系統(tǒng)可以包括 含有存儲(chǔ)器的計(jì)算機(jī);與含有來自指定生物的參照核苷酸序列群的數(shù)據(jù)庫對接的計(jì)算機(jī); 核酸測序儀,其配置為進(jìn)行測序過程以確定靶核酸或其片段的核苷酸序列,由此在所述存儲(chǔ)器中產(chǎn)生所述靶核酸至少一部分的核苷酸序列;與所述計(jì)算機(jī)對接的第一程序模塊,其中所述第一程序模塊配置為比較所述靶核酸至少一部分的核苷酸序列與參照核苷酸序列群,從而在終止所述測序過程之前使用指定的閾值鑒定與所述靶核酸至少一部分的核苷酸序列相匹配的參照核苷酸序列亞群;和與所述計(jì)算機(jī)對接的第二程序模塊,其中第二程序模塊配置為確定該參照核苷酸序列亞群是否允許充分鑒定靶核酸的來源。此處所述的系統(tǒng)中的一個(gè)或兩個(gè)程序模塊可以進(jìn)一步配置為如果參照核苷酸序列亞群不允許充分鑒定靶核酸的來源,則提供繼續(xù)測序過程的指令。此外,這些模塊中的一個(gè)或兩個(gè)可以進(jìn)一步配置為如果參照核苷酸序列亞群允許充分鑒定靶核酸的來源,則提供終止測序過程的指令。終止測序過程的指令可以在充分鑒定靶核酸的來源之后,但是在靶核酸完全測序之前,或完成測序運(yùn)行之前提供。或者,終止測序過程的指令可以在進(jìn)行靶核酸來源的充分鑒定的同時(shí)提供。應(yīng)當(dāng)理解,第一和第二程序模塊提供的功能可以以多種方式分開或組合,只要模塊的功能性得到保留。例如,第一和第二程序模塊的所有功能可以在一個(gè)程序模塊中實(shí)現(xiàn)。 或者,這些模塊的功能可以分配到三個(gè)或更多的程序模塊中。靶核酸 在此處所述的方法和系統(tǒng)中,靶核酸可以包括任何感興趣的核酸。靶核酸可以包括DNA、RNA、肽核酸、嗎啉代核酸、鎖定核酸、乙二醇核酸、蘇糖核酸、它們的混合物,和它們的雜合體。在優(yōu)選的實(shí)施方式中,靶核酸從一個(gè)或多個(gè)來源生物獲得。本文使用的術(shù)語“生物”是指現(xiàn)在存在或以前存在的任何活的或自主復(fù)制的顆粒。本文使用的術(shù)語“生物”不一定限于生物的特定種,而是可以用來指在任何分類水平上的活的或自主復(fù)制的顆粒。例如, 術(shù)語“生物”可以用來概括地指沙門氏菌屬內(nèi)的所有種或真細(xì)菌界內(nèi)的所有細(xì)菌。靶核酸可以包含任何核苷酸序列。在一些實(shí)施方式中,核苷酸序列包含一種或多種蛋白質(zhì)的全長編碼序列。在其它實(shí)施方式中,核苷酸序列包含一種或多種蛋白質(zhì)的編碼序列的至少一部分。在再其它的實(shí)施方式中,核苷酸序列包含非編碼序列的至少一部分。用于核酸時(shí),“至少一部分”的意思是至少5個(gè)核苷酸、至少10個(gè)核苷酸、至少15 個(gè)核苷酸、至少20個(gè)核苷酸、至少25個(gè)核苷酸、至少30個(gè)核苷酸、至少35個(gè)核苷酸、至少 40個(gè)核苷酸、至少45個(gè)核苷酸、至少50個(gè)核苷酸、至少60個(gè)核苷酸、至少70個(gè)核苷酸、至少80個(gè)核苷酸、至少90個(gè)核苷酸、至少100個(gè)核苷酸、至少125個(gè)核苷酸、至少150個(gè)核苷酸、至少175個(gè)核苷酸、至少200個(gè)核苷酸、至少250個(gè)核苷酸、至少300個(gè)核苷酸、至少350 個(gè)核苷酸、至少400個(gè)核苷酸、至少450個(gè)核苷酸、至少500個(gè)核苷酸或多于500個(gè)核苷酸的連續(xù)序列。在優(yōu)選的實(shí)施方式中,至少一部分的意思是介于至少大約20個(gè)核苷酸與至少大約250個(gè)核苷酸之間的連續(xù)序列。
示例性的靶核酸可以包括包含一個(gè)或多個(gè)核苷酸序列的核酸,該核苷酸序列包括線粒體或葉綠體DNA中存在的核苷酸序列的至少一部分。在某些實(shí)施方式中,線粒體或葉綠體DNA中存在的核苷酸序列的至少一部分是線粒體或葉綠體DNA特有的。其它靶核酸可以包括rRNA序列的至少一部分。再其它的靶核酸可以包括病毒或其它含核酸顆?;虺煞种写嬖诘暮塑账嵝蛄械闹辽僖徊糠?。在一些實(shí)施方式中,靶核酸可以包含選擇的序列。例如,這些序列可以包括編碼 RuBisCo、NifH、亞硫酸還原酶、線粒體核酸或16S rRNA的至少一部分的序列。在一些實(shí)施方式中,線粒體核酸包含細(xì)胞色素c氧化酶亞基I。在一些實(shí)施方式中,可以利用對靶核酸或其片段的一部分的測序鑒定靶核酸的來源。在其它實(shí)施方式中,基因組的特定基因或區(qū)域不需要測序,包括,例如,編碼RuBisC0、NifH、亞硫酸還原酶、線粒體核酸如細(xì)胞色素c氧化酶亞基I或16SrRNA的至少一部分的序列。一些實(shí)施方式可以使用單靶核酸。其它實(shí)施方式可以使用多個(gè)靶核酸。在這樣的實(shí)施方式中,多個(gè)靶核酸可以包括多個(gè)相同的靶核酸、其中部分靶核酸相同的多個(gè)不同的靶核酸、或其中所有靶核酸都不同的多個(gè)靶核酸。在一些實(shí)施方式中,所述多個(gè)靶核酸可以包括特定生物的基因組的基本上全部。所述多個(gè)靶核酸可以包括特定生物的基因組的至少一部分,包括,例如,基因組 的至少大約10%、15%、20%、25%、30%、35%、40%、45%、 50%、55%、60%、65%、70%、75%、80%、85%、90%、95% 或 99%。靶核酸可以從任何來源獲得。例如,靶核酸可以由從一種生物獲得的核酸分子制備,或者由從包括一種或多種生物的天然來源獲得的核酸分子群制備。核酸分子的來源包括但不限于細(xì)胞器、細(xì)胞、組織、器官或生物體??梢杂米靼泻怂岱肿觼碓吹募?xì)胞可以是原核的(細(xì)菌細(xì)胞,例如埃希氏菌屬(Escherichia)、芽孢桿菌屬(Bacillus)、 沙雷氏菌屬(Serratia)、沙門氏菌屬(Salmonella)、葡萄球菌屬(Staphylococcus)、 鏈球菌屬(Streptococcus)、梭菌屬(Clostridium)、衣原體屬(Chlamydia)、奈瑟氏菌屬(Neisseria)、密螺旋體屬(Ti^ponema)、支原體屬(Mycoplasma)、包柔氏螺旋體屬(Borrelia)、軍團(tuán)菌屬(Legionella)、假單胞菌屬(Pseudomonas)、分支桿菌屬(Mycobacterium)、 ff 胃 M (Helicobacter)、!t ft 胃 M (Erwinia)、 ± ■ ff 胃屬(Agrobacterium)、根瘤菌屬(Rhizobium)禾口、鏈霉菌屬(Streptomyces));太古菌(archeaon),如泉古菌門(crenarchaeota)、納古菌門(nanoarchaeota)或廣古菌門(euryarchaeotia);或真核的,如真菌(例如酵母)、植物、原生動(dòng)物和其它寄生蟲,和動(dòng)物(包括昆蟲(例如果蠅屬(Drosophila)的種)、線蟲(例如秀麗隱桿線蟲 (Caenorhabditiselegans)),和哺乳動(dòng)物(例如,大鼠、小鼠、猴、非人類靈長類動(dòng)物和人類))。在一些實(shí)施方式中,靶核酸可以從特定生物來源獲得。在一個(gè)優(yōu)選的實(shí)施方式中, 靶核酸是從人獲得的人核酸,例如,人組織的樣品。在特別優(yōu)選的實(shí)施方式中,靶核酸是人線粒體核酸。在另一個(gè)優(yōu)選的實(shí)施方式中,核酸可以從宏基因組樣品獲得。在其它實(shí)施方式中,靶核酸可以從不再包含活生物的環(huán)境來源獲得。序歹Iji普(sequence profile)此處所述的方法和系統(tǒng)的某些實(shí)施方式具有特別的價(jià)值,甚至在多個(gè)靶核酸從包含多種生物的樣品中獲得的情況下。在一些實(shí)施方式中,這樣的樣品是宏基因組樣品或未培養(yǎng)的樣品。宏基因組樣品可以從環(huán)境中的幾乎任何區(qū)域獲得。例如,宏基因組樣品可以從海洋、垃圾堆、食品、動(dòng)物如人的皮膚或腸、或醫(yī)院中的表面等多種多樣的地方獲得。因?yàn)楹昊蚪M樣品中的靶核酸可以被測序或部分測序,可以建立樣品的序列譜。任何特定宏基因組樣品的序列譜可以與從同樣的或類似的環(huán)境獲得的一種或多種樣品的序列譜比較,或者可以比較在不同時(shí)間點(diǎn)從相同環(huán)境或地點(diǎn)采集的樣品的序列譜。在比較從不同環(huán)境獲得的序列譜的情況中,序列譜的差異可能與在不同環(huán)境發(fā)生的某些事件或狀況相關(guān)。例如,發(fā)展中國家的兒童常常處于較差的衛(wèi)生條件,導(dǎo)致病毒和細(xì)菌傳播,引起嚴(yán)重的腹瀉。從兒童腸中獲得的樣品中存在的菌群一般可能含有不同的微生物組成。嚴(yán)重腹瀉與腸菌群失衡有關(guān)。如果腸微生物的序列譜從健康兒童人群中的兒童獲得,則這些譜將具有一定水平的相似性。如果腸微生物的序列譜從患有腹瀉的人群中的兒童獲得,則序列譜通常不同于從健康兒童獲得的序列譜。此外,從患有腹瀉的兒童人群可以獲得幾種不同的譜。例如,可以從患有腹瀉的人群獲得多個(gè)不同的序列譜,其中一些彼此相似,但是都不與從健康兒童獲得的序列譜相似。而且,具有不同譜的兒童可能對不同的治療方案有反應(yīng)。例如,具有A型譜的兒童可能對方案A有反應(yīng),具有B型譜的兒童可能對方案 B有反應(yīng),等等。這樣,病癥和對該病癥的治療都可能與特定序列譜相關(guān)。如通過上述實(shí)例證明的,此處所述的方法可用于診斷多種病癥或疾病中的任一種,無論是基于遺傳學(xué)還是基于特定病原體的存在,還是基于這兩者。在比較隨時(shí)間變化從相同環(huán)境或位置獲得的序列譜的情況下,序列譜的差異可用于檢測在該環(huán)境或位置發(fā)生的事件。例如,樣品可以在不同時(shí)間點(diǎn)從醫(yī)院表面獲得,以確定是否發(fā)生菌群組成的改變。如果發(fā)生改變,該位置可被鑒定為具有一種或多種病原性生物的潛在接觸點(diǎn)。在此處所述的方法和系統(tǒng)的某些實(shí)施方式中,可以在宏基因組樣品中的靶核酸完全測序之前,或在完成測序運(yùn)行之前,鑒定序列譜。這允許為了診斷目的快速鑒定序列譜, 這特別可用于時(shí)間要求嚴(yán)格的應(yīng)用。序列確定在此處所述的一些方法和系統(tǒng)中,靶核酸或其片段的一部分的核苷酸序列可以利用多種方法和裝置確定。測序方法的實(shí)例包括電泳、合成測序、連接測序、雜交測序、單分子測序和實(shí)時(shí)測序方法。在一些實(shí)施方式中,確定靶核酸的核苷酸序列的過程可以是自動(dòng)化過程。電泳測序方法包括Sanger測序方案和常規(guī)電泳技術(shù)(Sanger, F.,Nicklen, S. and Coulson, A. R. (1977)DNA sequencing with chain-terminating inhibitors. Proc. Natl. Acad. Sci. USA. 74(12),5463-7 ;Swerdlow, H.,Wu, S. L.,Harke, H. & Dovichi, N. J. Capillary gel electrophoresis for DNA sequencing. Laser-induced fluorescence detection with the sheath flow cuvette. J. Chromatogr. 516, 61-67 (1990) ;Hunkapiller, Τ. , Kaiser, R. J. , Koop, B. F. & Hood, L. Large-scale and automated DNA sequence determination. Science 254,59-67(1991))。 在這 樣的實(shí)施方式中,可以在微制造的裝置上進(jìn)行電泳(Paegel,B. Μ.,Blazej, R. G. & Mathies, R. A. Microfluidic devices for DNA sequencing :Sample preparation and electrophoretic analysis. Curr. Opin. Biotechnol. 14,42-50 (2003) ;Hong, J. W. &Quake, S. R. Integrated nanoliter systems. Nat. Biotechnol. 21,1179-1183 (2003),其公開內(nèi)容在此全部引入作為參考)。優(yōu)選的實(shí)施方式包括合成測序(SBQ技術(shù)。SBS技術(shù)通常包括通過基于模板鏈重復(fù)添加核苷酸,新生核酸鏈的酶促延伸。每次核苷酸添加詢問模板鏈的一個(gè)或幾個(gè)堿基。在 SBS的一個(gè)示例類型中,循環(huán)測序通過逐步添加可逆的終止核苷酸來完成,該終止核苷酸含有,例如,可切割的或光可漂白的染料標(biāo)記。該方法被Solexa (現(xiàn)為11 lumina)商業(yè)化,也在 WO 91/06678中記載,該文獻(xiàn)在此全部引入作為參考。其中終止可以被逆轉(zhuǎn)和熒光標(biāo)記物可被切割的熒光標(biāo)記的終止劑的可獲得性對于促進(jìn)有效的循環(huán)可逆終止(CRT)測序是重要的。聚合酶也可以共同構(gòu)建以有效摻入修飾的核苷酸,并從這些修飾的核苷酸延伸。在特定實(shí)施方式中,可逆終止劑/可切割的熒光劑(fluors)可以包括通過3'酯鍵連接到核糖部分上的熒光劑(Metzker,Genome Res. 15 :1767-1776 Q005),其公開內(nèi)容在此全部引入作為參考)。其它方法已經(jīng)將終止劑化學(xué)與熒光標(biāo)記的切割分開(Ruparel等人,Natl Acad Sci USA 102 :5932-7 (2005),其公開內(nèi)容在此全部引入作為參考)。Ruparel等人記載了可逆終止劑的開發(fā),該可逆終止劑使用小3'烯丙基阻止延伸,但是通過用鈀催化劑短期處理能夠容易地解鎖。熒光團(tuán)通過光可切割的連接體連接到堿基上,通過暴露于長波長 UV線30秒可以容易地切割該連接體。因此,二硫化物還原或光切割可以用作可切割的連接體??赡娼K止的另外一種方法是使用天然終止,它在大染料放置在dNTP上之后發(fā)生。dNTP 上帶電荷的大染料的存在可以通過立體和/或靜電阻礙作為有效的終止劑。一個(gè)摻入事件的存在阻止了進(jìn)一步的摻入,除非該染料被去除。染料的切割除去熒光劑并有效地逆轉(zhuǎn)了終止。修飾的核苷酸的實(shí)例也記載在美國專利No. 7,427,673和美國專利No. 7,057,0 中, 其公開內(nèi)容在此全部引入作為參考。其它檢測核苷酸加入新生鏈的SBS技術(shù)包括焦磷酸測序技術(shù)。焦磷酸測序檢測當(dāng)特定核苷酸摻入新生鏈時(shí),無機(jī)焦磷酸(PPi)的釋放(Ronaghi,Μ.,Karamohamed, S. , Pettersson, B. , Uhlen, Μ. and Nyren, P. (1996)Real-time DNA sequencing using detection of pyrophosphate release. Analytical Biochemistry 242(1),84-9 ; Ronaghi, M. (2001)Pyrosequencing sheds light on DNA sequencing. Genome Res 11(1),3-11 ;Ronaghi, Μ. , Uhlen, M. and Nyren, P. (1998)A sequencing method based on real-time pyrophosphate. Science 281 (5375),363),其公開內(nèi)容在此全部引入作為參考)。在焦磷酸測序中,釋放的PPi可以通過被ATP硫酸化酶直接轉(zhuǎn)化為腺苷三磷酸(ATP) 而被檢測到,通過螢光素酶產(chǎn)生的光子檢測產(chǎn)生的ATP的水平??梢杂糜诖颂幩龅姆椒ê拖到y(tǒng)的其它示例性的SBS系統(tǒng)和方法記載在美國專利申請公開No. 2007/0166705、美國專利申請公開No. 2006/0188901、美國專利 No. 7057026、美國專利申請公開No. 2006/(^40439、美國專利申請公開No. 2006/0281109、 PCT 公布 WO 05/065814,美國專利申請公開 No. 2005/0100900、PCT 公布 WO 06/064199 和 PCT公布WO 07/010251中,其公開內(nèi)容在此全部引入作為參考。一些實(shí)施方式可以使用連接測序技術(shù)。這些技術(shù)利用DNA連接酶摻入核苷酸,并且鑒定這些核苷酸的摻入??梢杂糜诖颂幩龅姆椒ê拖到y(tǒng)的示例性的系統(tǒng)和方法記載在美國專利No 6969488、美國專利No. 6172218和美國專利No. 6306597中,其公開內(nèi)容在此全部引入作為參考。連接測序可以包括單獨(dú)的幾組連接,其中每組使用從用于其它組的一個(gè)或多個(gè)引物偏移的引物啟動(dòng),可以包括使用探針,其中標(biāo)記代表從其它組的堿基偏移的堿基的身份,可以包括切割探針的大部分或一部分,可以使用外切核酸酶,和/或可以使用某些其它技術(shù)(包括這些技術(shù)的組合)。某些實(shí)施方式包括利用雜交技術(shù)測序的方法。在這樣的實(shí)施方式中,寡核苷酸探針的差異雜交可以用來解譯靴DNA序列(Bains,W. and Smith, G. C. A novel method for nucleic acid sequence determination. Journal of Theoretical Biology 135(3), 303-7 (1988) ;Drmanac, S.等人’ Accurate sequencing by hybridization for DNA diagnostics and individual genomics. Nature Biotechnology 16,54-58(1998) ;Fodor, S. P. A. , Read, J. L. , Pirrung, M. C, Stryer, L. , Lu, A. T. and Solas, D. Light-directed, spatialIy addressable parallel chemical synthesis. Science 251 (4995), 767-773 (1995) ;Southern, Ε. M. (1989)Analyzing polynucleotide sequences. WO 1989/10977),其公開內(nèi)容在此全部引入作為參考)。靶DNA可以固定在固體支持體上,并且可以使用短探針寡核苷酸,例如,長度為5-8個(gè)核苷酸的寡核苷酸,進(jìn)行系列雜交。特異性探針結(jié)合靶DNA的程度可以用來推斷未知的序列。靶DNA也可以與高密度寡核苷酸陣列雜交(Lipshutz,R.J.等人,(1995)Using oligonucleotide probe arrays to access genetic diversity. Biotechniques 19,442-447,其公幵內(nèi)容在此全部引入作為參考)。某些實(shí)施方式可以利用納米孔測序(DeameriD. W. & Akeson, M. “ Nanopores and nucleic acids :prospects for ultrarapid sequencing. “ Trends Biotechnol. 18, 147-151 (2000) ;Deamer and Branton,2002〃 Characterization of nucleic acids by nanopore analysis." Acc Chem Res. 2002 35 :817-25 ;禾口 Li 等人,“DNA molecules and configurations in a solid-state nanopore microscope. “ Nat Mater. 2 (9) 611-5(2003),其公開內(nèi)容在此全部引入作為參考)。納米孔測序是一種快速確定核酸分子的序列的方法。納米孔測序基于在其穿過納米孔的小孔(aperture)時(shí),物理感測個(gè)體多核苷酸內(nèi)的個(gè)體核苷酸(或核苷酸的環(huán)境如電流的物理變化)的性質(zhì)。原則上,多核苷酸的序列可以從單分子確定。然而,多核苷酸序列從數(shù)據(jù)的統(tǒng)計(jì)學(xué)平均值確定,該數(shù)據(jù)獲自相同分子的多代或具有相同的多核苷酸序列的多個(gè)分子的代。Kasianowicz等人(Proc. Natl. Acad. Sci. USA. 93 :13770 3,1996,在此全文引入作為參考)研究了膜通道在當(dāng)分子通過小離子通道時(shí)表征多核苷酸的應(yīng)用,其中是通過使用電場迫使單鏈RNA和DNA分子通過脂雙層膜中的2. 6nm直徑的納米孔小孔,S卩,離子通道。因此,在某些這樣的實(shí)施方式中,靶核酸通過納米孔。納米孔可以是合成孔或生物膜蛋白,如α-溶血素、短桿菌肽A、麥芽糖孔蛋白、OmpF、OmpC, PhoE, Tsx, F-菌毛、線粒體孔蛋白(VDAC)(美國專利No. 6,015,714,在此全文引入作為參考)。在一些實(shí)施方式中,隨著靶核酸通過納米孔,可以通過測量該孔的電導(dǎo)率的波動(dòng)鑒定每個(gè)堿基對(美國專利 No. 7,001,792 ;美國專利 No. 6,267, 872 ;Soni, G. V. & Meller, A. Progress toward ultrafast DNA sequencing using solid-state nanopores. Clin.Chem. 53,1996-2001 (2007) ;Healy, K.Nanopore-based single-molecule DNA analysis. Nanome d. 2,459—481 (2007);禾口 Cockroft,S. L. ,Chu, J. ,Amor in, M. & Ghadiri, Μ. R. A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution. J. Am. Chem. Soc. 130,818-820 (2008),其公開內(nèi)容在此全部引入作為參考)??梢杂糜诰酆衔?包括核酸)的納米孔測序的裝置的實(shí)例在美國專利 No. 7,238,485和7,189,503中記載,這些專利在此全文引入作為參考。在一些這樣的實(shí)施方式中,用于納米孔測序的裝置和/或方法可以包括一個(gè)或多個(gè)下列部件納米孔小孔、 鄰近小孔設(shè)置的分子馬達(dá),其中該分子馬達(dá)能夠相對于小孔移動(dòng)聚合物。在一些實(shí)施方式中,利用方法控制聚合物的移動(dòng)速率。通過在聚合物移動(dòng)時(shí)進(jìn)行測量,可以表征聚合物。可以使用任何能夠移動(dòng)目標(biāo)多核苷酸的分子馬達(dá)。分子馬達(dá)可以但不是必須包括一個(gè)或多個(gè)如下的理想的性質(zhì)(1)連續(xù)動(dòng)作,例如每次添加或去除一個(gè)核苷酸;(2)沒有沿目標(biāo)多核苷酸的回溯(backtracking) ; (3)沒有由用來驅(qū)動(dòng)多核苷酸至馬達(dá)的力如電場引起的馬達(dá)在靶多核苷酸上的滑動(dòng);(4)當(dāng)鄰近納米孔設(shè)置時(shí)保留催化功能;和( 高持續(xù)能力 (processivity),如保持與靶多核苷酸結(jié)合并在解離前進(jìn)行至少1,000輪催化的能力。有用的分子馬達(dá)的實(shí)例包括聚合酶如DNA聚合酶和RNA聚合酶、解旋酶、核糖體和外切核酸酶。在一些實(shí)施方式中,一個(gè)或多個(gè)分子馬達(dá)可以位于孔之前、孔之后以及在孔中的一個(gè)或多個(gè)。在一個(gè)實(shí)施方式中,外切核酸酶與α-溶血素(或其它有機(jī)或固態(tài))孔融合,使得該外切核酸酶逐個(gè)堿基地切割核酸,使得解離的堿基通過孔移動(dòng),并以等于外切核酸酶持續(xù)能力的速率引入。在其它實(shí)施方式中,聚合物完整地,而不是以解離堿基的形式通過孔(例如在孔的背面使用外切核酸酶,通過使用聚合酶,等等)。一些實(shí)施方式可以利用包括實(shí)時(shí)監(jiān)測DNA聚合酶活性的方法。在一些實(shí)施方式中,核苷酸摻入可以通過帶有熒光團(tuán)的聚合酶與Y-磷酸標(biāo)記的核苷酸或零模式波導(dǎo)之間的熒光共振通量轉(zhuǎn)移(FRET)相互作用檢測。照明可以限制于表面束縛的聚合酶周圍的仄升規(guī)模的體積,使得可以在低背景下觀察到熒光標(biāo)記的核苷酸的摻入(Levene,M.J.等人 Zero-mode waveguides for single-molecule analysis at high concentrations. Science 299,682-686(2003) ;Lundquist, P.M.等人.Parallel confocal detection of single molecules in real time. Opt. Lett. 33,1026-1028(2008) ;Korlach,J.等 A . Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures. Proc. Natl. Acad. Sci. USA 105,1176-1181 (2008);禾口 Foquet,M.等人,“Improved fabrication of zero-mode waveguides for single-molecule detection, J. Appl.Phys. 103,03401 (2008),其公幵內(nèi)容在此全部引入作為參考)。在利用實(shí)時(shí)監(jiān)測DNA聚合酶活性的更多實(shí)施方式中,可以使用零模式波導(dǎo)(ZMW) 的陣列進(jìn)行DNA測序。ZMW的一個(gè)例子包括基底上的室、洞、孔、凹陷,具有例如低于大約 20仄升(10_21升)的容積?;卓梢园鄠€(gè)ZMW?;椎囊粋€(gè)實(shí)例包括沉積在二氧化硅基底上的IOOnm金屬膜。在這種實(shí)例中,每個(gè)ZMW可以提供納米光子(nanophotonic) 可視化室,提供檢測體積,使得可以檢測到單分子的活性。由于ZMW的大小較小,核苷酸去往和離開ZMW的擴(kuò)散快速,因此可以達(dá)到低背景水平。當(dāng)DNA聚合酶摻入互補(bǔ)核苷酸時(shí), 每個(gè)堿基可以在檢測體積內(nèi)保持?jǐn)?shù)十毫秒,這個(gè)數(shù)量級(jí)長于核苷酸擴(kuò)散到檢測體積內(nèi)和檢測體積外花費(fèi)的時(shí)間。在這個(gè)時(shí)間中,熒光團(tuán)標(biāo)記的核苷酸發(fā)出熒光,該熒光可對應(yīng)于特定堿基,如“A”、“C”、“T”或“G”。聚合酶然后可以切割固定熒光團(tuán)的鍵,并且染料擴(kuò)散到檢測體積之外。在摻入后,信號(hào)立即返回基線,并且重復(fù)該過程。DNA聚合酶可以繼續(xù)摻入堿基。可以使用的聚合酶的實(shí)例包括Φ^ ΝΑ聚合酶。在一些實(shí)例中,可以使用熒光標(biāo)記的脫氧核糖核苷三磷酸(Eid等人,“Real-Time DNA sequencing from Single Polymerase Molecules" Science 323 :133-138 Q009),其公開內(nèi)容在此全部引入作為參考)。在另一個(gè)實(shí)例中,標(biāo)記的核苷酸包括脫氧核糖核苷酸五磷酸,如Korlach,J.等人,"Long,processive enzymatic DNA synthesis using 100% dye-labeled terminal phosphate-linked nucleotides. “ Nucleosides,Nucleotides and Nucleic Acids,27: 1072-1083(2008)中所述的,該文獻(xiàn)在此全文引入作為參考。此處提供的方法可以使用的 ZMW、方法和核苷酸的更多實(shí)例可見于美國專利No. 7,563,574,美國專利No. 7,485,424,美國專利7,292, 742,美國專利7,056,676,其公開內(nèi)容在此全部引入作為參考。此處所述的一些實(shí)施方式涉及使用ZMW實(shí)時(shí)監(jiān)測DNA聚合酶活性,該ZMW包括基底層、置于基底層上的覆層,和包括設(shè)置穿過覆層的孔的核心,其中所述孔設(shè)置為基本上阻止頻率低于截止頻率的電磁能進(jìn)入核心,縱向地通過所述零模式波導(dǎo)傳播??梢岳肈NA 聚合酶活性的實(shí)時(shí)監(jiān)測的更多實(shí)施方式可以包括靶核酸分子的測序方法,該方法可以包括一個(gè)或多個(gè)以下的步驟(a)在多種類型的核苷酸或核苷酸類似物的存在下,使靶核酸分子進(jìn)行聚合反應(yīng),以產(chǎn)生正在延長的互補(bǔ)于靶核酸分子的核酸鏈,其中該靶核酸分子和/ 或核酸聚合酶附著到支持物上;和(b)確定在一定條件下,在互補(bǔ)于靶核酸的活性位點(diǎn),向正在延長的核苷酸鏈內(nèi)引入多種類型的核苷酸或核苷酸類似物的時(shí)間順序,該條件允許確定所述聚合反應(yīng)過程中每秒摻入的多個(gè)核苷酸或核苷酸類似物。在一些實(shí)施方式中,確定多種類型的核苷酸或核苷酸類似物的摻入的時(shí)間順序包括光學(xué)確定。在一些實(shí)施方式中,被監(jiān)測和/或測序的核酸可以是單分子的形式(可以是天然分子、修飾分子如標(biāo)記的分子,或包括核苷酸類似物的核酸)、序列的多聯(lián)體 (concatamer),等等),可以擴(kuò)增(例如擴(kuò)增為多聯(lián)體、擴(kuò)增為多個(gè)具有相同或相似序列的個(gè)體分子,等等),和/或可以為任何其它形式。應(yīng)當(dāng)理解,上述任何測序過程都可以結(jié)合到此處所述的方法和/或系統(tǒng)中。此外, 應(yīng)當(dāng)理解,可以容易地實(shí)施其它已知的測序過程,用于此處所述的方法和/或系統(tǒng)。靶核酸的來源的鑒定在此處所述的一些方法和系統(tǒng)中,在確定序列時(shí)可以分析靶核酸或其片段的積累的核苷酸序列數(shù)據(jù)。在優(yōu)選的實(shí)施方式中,可以通過分析靶核酸的積累的核苷酸序列數(shù)據(jù)鑒定靶核酸的來源。在這樣的實(shí)施方式中,分析可以包括比較靶核酸一部分的積累的核苷酸序列數(shù)據(jù)與參照核苷酸序列群,鑒定(或以其它方式產(chǎn)生或建立)參照核苷酸序列的亞群,以及確定該亞群是否允許充分鑒定靶核酸的來源。應(yīng)當(dāng)理解,在只選擇靶核酸的片段進(jìn)行分析的情況下,靶核酸的一部分也包括靶核酸片段的一部分。積累的核苷酸序列數(shù)據(jù)可以對應(yīng)于靶核酸的核苷酸序列的至少一部分。在一些實(shí)施方式中,核苷酸序列的至少一部分可以具有至少5個(gè)核苷酸、至少10個(gè)核苷酸、至少20 個(gè)核苷酸、至少30個(gè)核苷酸、至少40個(gè)核苷酸、至少50個(gè)核苷酸、至少60個(gè)核苷酸、至少 70個(gè)核苷酸、至少80個(gè)核苷酸、至少90個(gè)核苷酸、至少100個(gè)核苷酸、至少110個(gè)核苷酸、 至少120個(gè)核苷酸、至少130個(gè)核苷酸、至少140個(gè)核苷酸、至少150個(gè)核苷酸、至少200個(gè)核苷酸和至少500個(gè)核苷酸的長度?;蛘?,在一些實(shí)施方式中,核苷酸序列的至少一部分可以具有至少5個(gè)核苷酸至大約200個(gè)核苷酸、至少10個(gè)核苷酸至大約150個(gè)核苷酸、至少 20個(gè)核苷酸至大約150個(gè)、至少20個(gè)核苷酸至大約100個(gè)核苷酸、至少20個(gè)核苷酸至大約 50個(gè)核苷酸、至少30個(gè)核苷酸至大約100個(gè)核苷酸或至少30個(gè)核苷酸至大約50個(gè)核苷酸的長度。在一些實(shí)施方式中,當(dāng)確定序列時(shí),積累的核苷酸序列數(shù)據(jù)可以含有或者可以不含不清楚的核苷酸判定。在一些實(shí)施方式中,可以分析積累的序列數(shù)據(jù)的至少一部分。在一些實(shí)施方式中,可以分析積累的序列數(shù)據(jù)的至少大約10^^15^^20^^25^^30^^35%. 40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95% 或 99%。在一些實(shí)施方式中,核苷酸序列的至少一部分可以包括生物基因組的至少大約 10% ,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%, 85 %、90 %、95 %或99 %。該部分可以構(gòu)成生物基因組的預(yù)先定義的區(qū)域或部分,無論是連續(xù)的還是非連續(xù)的,例如,從靶向測序技術(shù)獲得的??商娲鼗蛘吡硗猓摬糠挚梢詷?gòu)成生物基因組的一個(gè)或多個(gè)隨機(jī)區(qū)域或部分,例如,從全基因組測序技術(shù)獲得的。應(yīng)當(dāng)理解,上述范圍和最小核苷酸長度包括并入該范圍內(nèi)的所有整數(shù)或高于指定的最小長度的所有整數(shù)。在優(yōu)選的實(shí)施方式中,通過比較積累的核苷酸序列數(shù)據(jù)與參照核苷酸序列分析數(shù)據(jù)。可以利用多種方法比較序列。方法實(shí)例包括使用啟發(fā)式算法,如基本局部序列比對搜索工具(Basic Local Alignment Search Tool ,BLAST)算法、BLAST-樣比對工具(BLAT)算法或FASTA算法??梢杂糜诖颂幩龅哪承┓椒ê拖到y(tǒng)的序列分析軟件的實(shí)例包括GCG程序套裝(Wisconsin Package Version 9. 0,Genetics Computer Group(GCG) ,Madison,Wis.) > LASTP、BLASTN 和 BLASTX (Altschul 等人,J. Mol. Biol. 215 :403-410(1990) ;BLAT (Kent, W James(2002). “ BLAT-the BLAST-Iike alignment tool. “ Genome research 12(4) 656-64) ;DNASTAR(DNASTAR, Inc. 1228 S. Park St. Madison ;Wis. 53715USA);和結(jié)合了 Smith-Waterman 算法的 FASTA 程序(W. R. Pearson, Comput. Methods Genome Res.,[Proc. Int.Symp. ](1994), Meeting Date 1992,111-20. Editor(s) =Suhai, Sandor. Publisher Plenum, New York, N. Y.)。此處所述的一些方法和系統(tǒng)包括數(shù)據(jù)庫。數(shù)據(jù)庫可以用于比較靶核酸的積累核苷酸序列數(shù)據(jù)與數(shù)據(jù)庫序列群。數(shù)據(jù)庫可以含有參照序列群。該群可以包括多種類型的參照序列,例如,核苷酸序列、多肽序列或其混合物。盡管相對于數(shù)據(jù)庫序列描述了靶核酸的積累核苷酸序列數(shù)據(jù)的許多分析,但是應(yīng)當(dāng)理解,不一定要比較積累的核苷酸序列數(shù)據(jù)與數(shù)據(jù)庫中的序列群。在一些實(shí)施方式中,積累的核苷酸序列可以與一個(gè)或多個(gè)從任何來源獲得的參照序列比較。例如,可以在產(chǎn)生積累核苷酸序列數(shù)據(jù)之前或與之平行地,將積累核苷酸序列與一個(gè)或多個(gè)通過對來自參照生物的核酸測序產(chǎn)生的序列進(jìn)行比較。在一些實(shí)施方式中,參照序列群可以創(chuàng)建索引。在優(yōu)選的實(shí)施方式中,數(shù)據(jù)庫可以預(yù)先創(chuàng)建索引以供此處所述的方法和系統(tǒng)使用。創(chuàng)建索引可以提高獲得數(shù)據(jù)庫中與這些序列相關(guān)的序列和/或?qū)傩缘男???梢岳妹總€(gè)序列的一個(gè)或多個(gè)特征從數(shù)據(jù)庫序列群產(chǎn)生索引。這些特征可以是數(shù)據(jù)庫序列固有的或非固有的。固有的特征可以包括序列的一級(jí)結(jié)構(gòu)和序列的二級(jí)結(jié)構(gòu)。多肽序列或核酸序列的二級(jí)結(jié)構(gòu)可以通過本領(lǐng)域公知的方法確定,如通過使用預(yù)測性算法的方法確定。非固有的特征可以包括多種性狀,例如,序列的來源和序列的功能。在一個(gè)實(shí)施方式中,參照序列可以利用與其它參照序列的分級(jí)相關(guān)性根據(jù)特定特征創(chuàng)建索引??梢詫⒄招蛄械娜魏翁卣鳟a(chǎn)生參照序列之間的分級(jí)相關(guān)性。例如,可以使用參照序列的一級(jí)結(jié)構(gòu),根據(jù)與其它參照序列的序列同一性將參照序列分組為至少亞組、 組和超級(jí)組。在一個(gè)優(yōu)選的實(shí)施方式中,數(shù)據(jù)庫序列群可以利用其它參照序列之間的分級(jí)相關(guān)性,根據(jù)參照序列的來源創(chuàng)建索引。在一個(gè)實(shí)施方式中,序列的來源可以使用系統(tǒng)發(fā)生性狀表征,該性狀包括其中可以發(fā)現(xiàn)該序列的生物的界、門、綱、目、科、屬、種、亞種和株。靶核酸來源的身份可以鑒定或者另外用一個(gè)或多個(gè)性狀來表征,這些性狀將隨著此處所述的方法和系統(tǒng)的應(yīng)用而不同。在一個(gè)實(shí)施方式中,序列的來源可以通過比較積累核苷酸測序數(shù)據(jù)與通過分級(jí)相關(guān)性分組的參照序列來鑒定。示例性的分級(jí)分組可以使用系統(tǒng)發(fā)生性狀進(jìn)行,該性狀包括但不限于生物的界、門、綱、目、科、屬、種、亞種和/或株。在這樣的實(shí)施方式中,靶核酸來源的身份可以通過與任何水平的分級(jí)相關(guān)的相關(guān)性來鑒定。在其它實(shí)施方式中,不需要使用分級(jí)相關(guān)。在這樣的實(shí)施方式中,靶核酸的鑒定可以通過比較該序列與一個(gè)或多個(gè)未分組或置于非分級(jí)組中的參照序列來進(jìn)行。在此處所述的一些實(shí)施方式中,使用特定基因作為靶核酸對靶核酸的積累測序數(shù)據(jù)進(jìn)行特定系統(tǒng)發(fā)生內(nèi)的特定分類。在從宏基因組樣品獲得靶核酸的實(shí)施方式中,來自靶核酸的積累的序列數(shù)據(jù)可以分析并用來構(gòu)建加權(quán)系統(tǒng)樹。在更多的實(shí)施方式中,來自靶核酸的積累序列數(shù)據(jù)可以用來確定積累序列數(shù)據(jù)在包括所有可能的生物的系統(tǒng)發(fā)生內(nèi)的特定位置,一個(gè)例子參見Sundquist等人,BMC. Microbiol. (2007)7 108所述的將序列置于系統(tǒng)發(fā)生內(nèi)的方法,方法學(xué)章節(jié)引入作為參考。在一些實(shí)施方式中,靶核酸可以在生物組之間高度保守,但是仍然保留某些變異區(qū)。特定基因內(nèi)的可變區(qū)可能比不同生物組之間相似的區(qū)域?yàn)榇_定靶核酸來源提供更多的信息。在優(yōu)選的實(shí)施方式中,可變區(qū)可以用來區(qū)別不同生物之間,例如,門、綱、目、科、屬或種之間的靶核酸的積累的測序數(shù)據(jù)。在一個(gè)示例性的實(shí)施方式中,細(xì)菌16S rDNA可以用作靶核酸。這種具體序列特別可用于分析宏基因組樣品(Sundquist等人,Bacterial flora-typing with targeted, chip-based pyrosequencing, BMC. Microbiol. (2007)7 108,在此全文引入作為參考)。在一些實(shí)施方式中,靶核酸的積累的核苷酸序列數(shù)據(jù)可以與參照核苷酸序列群比較,以鑒定參照核苷酸序列亞群。這種亞群可以在指定的閾值將特定參數(shù)與靶核酸的積累的核苷酸序列相匹配。一個(gè)或多個(gè)參數(shù)可以用來產(chǎn)生參照序列核苷酸的亞群。在一些實(shí)施方式中,指定的閾值和參數(shù)可以是用戶定義的。參數(shù)可以包括參照核苷酸序列的任何固有的或非固有的特征,或靶核酸的積累的核苷酸序列數(shù)據(jù)。參數(shù)可以是包含性的和排他性的。在一個(gè)優(yōu)選的實(shí)施方式中,用來確定參照核苷酸序列群的亞群的參數(shù)可以是核苷酸序列同一性。在這樣的實(shí)施方式中,核苷酸序列的亞群可以與靶核酸的積累核苷酸序列數(shù)據(jù)具有特定閾值以上的序列同一性百分比。序列同一性百分比可以是兩個(gè)或多個(gè)核苷酸序列之間的關(guān)系,例如通過比較序列確定的。在一些實(shí)施方式中,序列的同一性可以是序列相關(guān)性的程度,例如通過這些序列串之間的匹配確定的。序列同一性可以通過已知的方法容易地計(jì)算,包括但不限于本文以及以下文獻(xiàn)中所述的方法!Computational Molecular Biology (Lesk,A.M.,ed.) Oxford University Press,New York(1988) ;Biocomputing !Informatics and Genome Projects(Smith, D. W.,ed.) Academic Press,New York(1993) ;Computer Analysis of Sequence Data, Part I (Griffin,A. M.,and Griffin,H. G.,eds.) Humana Press,New Jersey (1994); Sequence Analysis in Molecular Biology(von Heinje,G. ,ed.) Academic Press (1987); 禾口 Sequence Analysis Primer(Gribskov, M. and Devereux, J.,eds.) Stockton Press, NY(1991),它們的公開內(nèi)容在此全文引入作為參考)。在一些實(shí)施方式中,可以檢查參照核苷酸序列亞群以確定該亞群是否可以允許充分鑒定靶核酸的來源。在一個(gè)示例性實(shí)施方式中,可以通過檢查參照核苷酸序列亞群的特定百分比是否具有至少一個(gè)特定的共同相關(guān)性來進(jìn)行確定。例如,亞群可以允許充分鑒定靶核酸的來源,其中超過特定百分比的參照核苷酸序列亞群為相同的屬、種或亞種。這些實(shí)施方式中使用的特定百分比可以由用戶選擇,并且可能隨此處所述的方法和系統(tǒng)的應(yīng)用而不同。在一些實(shí)施方式中,具有至少一種共同相關(guān)性從而允許充分鑒定靶核酸來源的亞群的特定百分比可以是至少50%、至少60%、至少70%、至少80%、至少 90 %、至少95 %、至少97 %和至少99 %。在優(yōu)選的實(shí)施方式中,100 %的參照核苷酸序列亞群的成員可以具有共同相關(guān)性,以允許充分鑒定靶核酸的來源。參照核苷酸序列亞群之間的共同相關(guān)性可以是用來創(chuàng)建索引參照核苷酸序列的特定特征。例如,共同相關(guān)性可以是生物的界、門、綱、目、科、屬、種、亞種或株,其中可以發(fā)現(xiàn)該數(shù)據(jù)庫核苷酸序列亞群的特定序列。在優(yōu)選的實(shí)施方式中,用來確定亞群是否允許充分鑒定靶核酸來源的共同相關(guān)性可以由用戶選擇。在一個(gè)示例性的實(shí)施方式中,參照核苷酸序列亞群可以允許鑒定靶核酸來源,其中亞群的特定百分比具有生物的綱的共同相關(guān)性。在另一個(gè)示例性的實(shí)施方式中,參照核苷酸序列亞群可以允許鑒定靶核酸來源,其中亞群的特定百分比具有生物的科的共同相關(guān)性。在另一個(gè)示例性的實(shí)施方式中,參照核苷酸序列亞群可以允許鑒定靶核酸來源,其中亞群的特定百分比具有生物的屬的共同相關(guān)性。在另一個(gè)示例性的實(shí)施方式中,參照核苷酸序列亞群可以允許鑒定靶核酸來源,其中亞群的特定百分比具有生物的種的共同相關(guān)性。 在另一個(gè)示例性的實(shí)施方式中,參照核苷酸序列亞群可以允許鑒定靶核酸來源,其中亞群的特定百分比具有生物的株的共同相關(guān)性。在亞群不允許鑒定靶核酸來源的優(yōu)選的實(shí)施方式中,靶核酸的測序可以繼續(xù)。在這樣的實(shí)施方式中,積累的測序數(shù)據(jù)的分析也可以繼續(xù)。在其中亞群允許鑒定靶核酸來源的更優(yōu)選的實(shí)施方式中,靶核酸的測序可以終止。在這樣的實(shí)施方式中,測序的終止可以在靶核酸完全測序之前或完成測序運(yùn)行之前。在進(jìn)一步的實(shí)施方式中,測序的終止可以在積累測序數(shù)據(jù)變得對于分析來說太不清楚之前。積累的測序數(shù)據(jù)的系統(tǒng)分析此處所述的某些實(shí)施方式包括用于分析積累的核苷酸測序數(shù)據(jù)的系統(tǒng)。在優(yōu)選實(shí)施方式中,系統(tǒng)包括用于鑒定靶核酸來源的序列數(shù)據(jù)的分析。這些系統(tǒng)可以包括計(jì)算機(jī)、核酸測序儀、第一程序模塊和第二程序模塊。也應(yīng)當(dāng)理解,此處所述的系統(tǒng)可以應(yīng)用于更多聚合物序列,如多肽序列。多肽序列是眾所周知的,比較和分析多肽序列的方法也是眾所周知的。
參考圖1,某些用于鑒定靶核酸來源的系統(tǒng)(10)可以包括含有存儲(chǔ)器(30)和處理器(40)的計(jì)算機(jī)(20)。計(jì)算機(jī)00)可以與含有來自指定生物的參照核苷酸序列群的數(shù)據(jù)庫(50)對接。 相對于計(jì)算機(jī)(20),數(shù)據(jù)庫(50)可以是遠(yuǎn)程的,或者可以是本地的。在一些實(shí)施方式中,參照核苷酸序列群內(nèi)的參照核苷酸序列可以被創(chuàng)建索引。參照核苷酸序列可以根據(jù)參照核苷酸序列的任何固有的和非固有的性狀在數(shù)據(jù)庫中創(chuàng)建索引。例如,參照核苷酸序列可以與指定生物的特定種或特定亞種相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引。在更典型的實(shí)施方式中,參照核苷酸序列可以與一組或多組生物相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引。在進(jìn)一步的典型實(shí)施方式中,參照核苷酸序列群內(nèi)的參照核苷酸序列可以根據(jù)與多組生物的分級(jí)相關(guān)性在數(shù)據(jù)庫中創(chuàng)建索引。在一些這樣的實(shí)施方式,多組生物可以是系統(tǒng)發(fā)生相關(guān)的。計(jì)算機(jī)00)可以與核酸測序儀(60)對接。應(yīng)當(dāng)理解,在某些系統(tǒng)中,核酸測序儀可以被替換為和/或包括其它類型的測序儀,如多肽測序儀、蛋白質(zhì)測序儀等。核酸測序儀 (60)可以配置為執(zhí)行測序過程,以確定靶核酸或其片段的核苷酸序列。測序過程可以在存儲(chǔ)器(30)中產(chǎn)生靶核酸至少一部分的核苷酸序列。在一些實(shí)施方式中,測序儀(60)可以在計(jì)算機(jī)00)的控制下。在其它實(shí)施方式中,測序儀(60)可以被獨(dú)立地控制。在更多的實(shí)施方式中,測序過程可以是自動(dòng)化測序過程。測序過程可以包括多個(gè)處理,例如,基于陣列的測序、雜交測序、合成測序、連接測序、所述各種蛋白質(zhì)測序技術(shù)的任一種,等等。在一些實(shí)施方式中,靶核酸可以含有編碼RuBisCo、NifH、亞硫酸還原酶、線粒體核酸或16S rRNA的核酸的至少一部分。在一些實(shí)施方式中,線粒體核酸包含細(xì)胞色素c氧化酶亞基I。在一些實(shí)施方式中,靶核酸可以從宏基因組樣品獲得。計(jì)算機(jī)00)可以與第一程序模塊(70)對接。在一些實(shí)施方式中,第一程序模塊 (70)可以由計(jì)算機(jī)(20)處理或者在希望時(shí)可以在其它地方處理。在一些實(shí)施方式中,數(shù)據(jù)庫可以被替換為第二核酸測序儀,該測序儀從含有來自一個(gè)或多個(gè)參照生物的核酸的參照樣品產(chǎn)生數(shù)據(jù)。在一些實(shí)施方式中,核酸測序儀可以是核酸測序儀(60),其中產(chǎn)生的序列信息的第一部分是從參照樣品獲得的,并且產(chǎn)生的序列信息的第二部分是從含有靶核酸的樣品獲得的。第一程序模塊(70)可以配置為比較靶核酸至少一部分的核苷酸序列與參照核苷酸序列群。這種比較可以在終止所述測序過程之前使用指定的閾值鑒定與所述靶核酸至少一部分的核苷酸序列匹配的參照核苷酸序列亞群。在一些實(shí)施方式中,指定的閾值可以是用戶指定的閾值。在更多的實(shí)施方式中,指定的閾值可以是基于一個(gè)或多個(gè)參數(shù)計(jì)算的。在一些實(shí)施方式中,第一程序模塊(70)可以配置為使用啟發(fā)式算法,例如,BLAST 算法或FASTA算法,比較靶核酸或其片段的至少一部分的核苷酸序列與參照核苷酸序列群。計(jì)算機(jī)00)可以與第二程序模塊(80)對接。第二程序模塊(80)可以配置為確定參照核苷酸序列亞群是否允許充分鑒定靶核酸的來源。第二程序模塊(80)可以進(jìn)一步配置為,如果參照核苷酸序列亞群不允許充分鑒定靶核酸的來源,則提供繼續(xù)測序過程的指令。在甚至更多的實(shí)施方式中,第二程序模塊(80)可以進(jìn)一步配置為如果參照核苷酸序列亞群允許充分鑒定靶核酸的來源,則提供終止測序過程的指令。在一些這樣的實(shí)施方式中,在充分鑒定靶核酸的來源之后,但是在靶核酸完全測序或完成測序運(yùn)行之前,提供終止測序過程的指令。如上所述,應(yīng)當(dāng)理解,第一和第二程序模塊可以是同一程序模塊,或者第一和第二程序模塊的功能可以分配在三個(gè)或更多個(gè)程序模塊中。另外,應(yīng)當(dāng)理解,任何或全部程序模塊的程序可以由計(jì)算機(jī)00)處理或者如果希望可以在其它地方處理。盡管提到的是計(jì)算機(jī)(20),但是這些公開內(nèi)容可以同等地適用于任何處理回路 (無論是整體式的、由多個(gè)部件構(gòu)成的、和/或分布在諸如內(nèi)聯(lián)網(wǎng)或互聯(lián)網(wǎng)等網(wǎng)絡(luò)之間的), 它們配置(例如通過編程指令和/或?qū)S糜布呐挪?為行使上述計(jì)算機(jī)(20)、程序模塊 (70)、程序模塊(80)和/或數(shù)據(jù)庫(50)的一個(gè)或多個(gè)功能。處理回路可以包括微處理器、圖像處理回路、顯示器驅(qū)動(dòng)器、NVM控制器、聲卡驅(qū)動(dòng)器(例如D/A轉(zhuǎn)換器、A/D轉(zhuǎn)換器、聲頻編碼器和/或解碼器(codec)、放大器等)和其它處理回路中的一個(gè)或多個(gè)。處理回路可以包括多種類型的、數(shù)字和/或模擬的處理電路,并且可以包括微處理器、微控制器、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其它配置為行使各種輸入/輸出、控制、分析和其它功能的電路中的一個(gè)或多個(gè)。在各種實(shí)施方式中,處理回路可以包括使用任何合適的處理器或邏輯裝置的中央處理器(CPU),如通用處理器。處理回路可以包括,或者實(shí)施為,芯片多處理器(CMP)、專用處理器、嵌入式處理器、媒體處理器、輸入/輸出(I/O)處理器、協(xié)處理器、微處理器如復(fù)雜指令集計(jì)算機(jī)(CISC)微處理器、精簡指令集計(jì)算(RISC)微處理器、和/或超長指令字(VLIW)微處理器、實(shí)現(xiàn)組合指令集的處理器、控制器、微控制器、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、可編程邏輯器件(PLD)或根據(jù)所述實(shí)施方式的其它處理裝置。處理回路可以配置為將數(shù)據(jù)數(shù)字化、過濾數(shù)據(jù)、分析數(shù)據(jù)、組合數(shù)據(jù)、輸出指令信號(hào)、和/或以某些其它方式處理數(shù)據(jù)。處理回路可以配置為進(jìn)行數(shù)字-模擬轉(zhuǎn)換(DAC)、模擬-數(shù)字轉(zhuǎn)換(ADC)、調(diào)制、解調(diào)、編碼、解碼、加密、解密等。處理回路(例如微處理器)可以配置為執(zhí)行多種軟件程序,如應(yīng)用程序和系統(tǒng)程序,以提供計(jì)算和處理操作。處理回路也可以包括存儲(chǔ)數(shù)據(jù)的存儲(chǔ)器。處理回路可以只包括一種類型的一個(gè)部件(例如一個(gè)微處理器),或者可以含有多個(gè)該類型的部件(例如多個(gè)微處理器)。該處理回路可以包括多個(gè)單獨(dú)的回路和分立回路元件。在一些實(shí)施方式中,處理回路可以基本上包括固態(tài)電子元件如微處理器(例如微控制器)。處理回路可以安裝在一個(gè)位置的一個(gè)面板上,或者可以分散在多個(gè)位置,這些位置協(xié)同作為處理回路。處理回路的部件可以位于一個(gè)外殼內(nèi),或者可以設(shè)置在多個(gè)外殼內(nèi),這些外殼以一種方式組合,該方式允許行使處理回路的請求保護(hù)的功能。在一些實(shí)施方式中,處理回路可以位于一個(gè)位置,和/或請求保護(hù)的處理回路的所有部件都緊密連接。在圖中顯示為單處理回路的部分的部件可以是權(quán)利要求涵蓋的各種實(shí)施方式中的單獨(dú)處理回路的部分,除非被權(quán)利要求限制為單處理回路。在一些實(shí)施方式中,處理回路的至少一部分(例如全部或一些)可以是生物材料分析裝置(例如測序儀60)的部分(例如與該裝置在共同的外殼中,和/或提供該裝置的一些或全部控制和/或操作)。此處所述的系統(tǒng)的一些實(shí)施方式也包括一個(gè)或多個(gè)額外的分析原始測序信號(hào)數(shù)據(jù)(例如,熒光信號(hào)強(qiáng)度)的程序模塊。這些模塊允許在測序數(shù)據(jù)積累的同時(shí)鑒定每輪測序產(chǎn)生的核苷酸堿基。這種程序模塊可以包括一個(gè)或多個(gè)堿基判定程序和一個(gè)或多個(gè)錯(cuò)誤校驗(yàn)或驗(yàn)證程序。在一些實(shí)施方式中,一個(gè)或多個(gè)堿基判定程序利用正在產(chǎn)生的測序信號(hào)數(shù)據(jù),以鑒定在積累核苷酸序列的一個(gè)或多個(gè)序列位置處存在的核苷酸。在其它實(shí)施方式中,測序信號(hào)數(shù)據(jù)在分析之前被預(yù)處理或者轉(zhuǎn)化。在這樣的實(shí)施方式中,在靶核酸完全測序之前或完成測序運(yùn)行之前分析測序信號(hào)數(shù)據(jù)。在一些實(shí)施方式中,此處所述的系統(tǒng)可以是供患者醫(yī)護(hù)點(diǎn)使用的手持式裝置。多肽測序應(yīng)當(dāng)理解,盡管以上討論包括核苷酸序列的應(yīng)用,特定的實(shí)施方式也可以應(yīng)用于多肽序列。例如,某些實(shí)施方式可以包括對多肽進(jìn)行測序。一些實(shí)施方式可以進(jìn)一步包括比較積累的序列數(shù)據(jù)與預(yù)先創(chuàng)建索引的多肽序列數(shù)據(jù)庫。可以繼續(xù)測序直到確定了該多肽的特定特征。多肽序列的特定特征的實(shí)例可以包括多肽的來源,例如,生物和/或病毒,可能與多肽相關(guān)的蛋白質(zhì)的家族,可能與多肽相關(guān)的生物化學(xué)途徑,可能將多肽與其它多肽序列相關(guān)的一級(jí)、二級(jí)和/或三級(jí)結(jié)構(gòu)基序。多肽的測序方法是眾所周知的,包括質(zhì)譜法和Edman降解。在使用質(zhì)譜法進(jìn)行多肽測序的方法的一個(gè)實(shí)例中,蛋白質(zhì)被內(nèi)切蛋白酶消化,得到的溶液通過高壓液相色譜柱。 在該柱的末端,溶液被從充有高正電勢的狹窄的噴嘴噴出,進(jìn)入質(zhì)譜儀。小滴上的電荷使得它們片段化,直到只保留單離子。肽然后片段化,并測量這些片段的質(zhì)荷比。分析這些片段的質(zhì)譜圖,并與以前測序的蛋白質(zhì)的數(shù)據(jù)庫進(jìn)行比較,以確定這些片段的序列。
實(shí)施例實(shí)施例1-在醫(yī)護(hù)點(diǎn)細(xì)菌病原體的鑒定從患者獲得上皮樣品,對該樣品進(jìn)行DNA提取。使用針對16SrDNA的通用引物對提取的DNA進(jìn)行目標(biāo)特異性PCR。啟動(dòng)對擴(kuò)增的DNA的DNA測序。隨著DNA測序數(shù)據(jù)的積累,通過使用BLAST算法比較積累的序列與預(yù)先創(chuàng)建索引的細(xì)菌16S rRNA序列的數(shù)據(jù)庫, 分析每個(gè)積累的核苷酸序列。該數(shù)據(jù)庫按照細(xì)菌的系統(tǒng)發(fā)生預(yù)先創(chuàng)建索引。進(jìn)一步分析每個(gè)積累的序列,至數(shù)據(jù)庫序列的細(xì)菌系統(tǒng)發(fā)生內(nèi)的希望的分類水平。繼續(xù)進(jìn)行DNA測序和對積累序列數(shù)據(jù)的分析,直到確定樣品中存在的一種或多種細(xì)菌的屬?;蛘撸梢岳^續(xù)測序,直到確定樣品中存在的一種或多種細(xì)菌的種。作為另外一個(gè)替代方案,一旦確定了致病菌或可疑致病菌,可以繼續(xù)測序至任何希望的鑒定水平。實(shí)施例2-排放污水中病毒病原體的鑒定獲得排放污水的樣品,并對該樣品進(jìn)行DNA提取。啟動(dòng)提取的DNA的基于陣列的 DNA測序。隨著DNA測序數(shù)據(jù)的積累,通過使用FASTA算法比較每個(gè)積累的序列與預(yù)先創(chuàng)建索引的含有細(xì)菌和病毒序列的數(shù)據(jù)庫,分析每個(gè)積累的核苷酸序列。該數(shù)據(jù)庫按照細(xì)菌和病毒系統(tǒng)發(fā)生預(yù)先創(chuàng)建索引。進(jìn)一步分析每個(gè)積累的序列,至數(shù)據(jù)庫序列的細(xì)菌和病毒系統(tǒng)發(fā)生內(nèi)的希望的分類水平。對特定積累核苷酸序列繼續(xù)DNA測序和積累序列數(shù)據(jù)的分析過程,直到對積累的序列確定了一組病原性病毒,直到對積累的序列確定了病原性病毒的亞組,或者直到對積累的序列確定了特定的病原性病毒。或者,在對積累的序列只確定了非病毒細(xì)菌序列時(shí),對積累的序列只確定了非病毒埃希氏菌序列時(shí),或者對積累的序列只確定了非病毒大腸桿菌序列時(shí),終止DNA測序和分析過程。實(shí)施例3-人組織樣品中多態(tài)性標(biāo)記的鑒定例如從血液或口腔拭子獲得人組織樣品,從該樣品中提取DNA。在流動(dòng)池表面擴(kuò)增基因組,并例如如Bentley等人,Nature 456 =53-59(2008)所述,對提取的DNA啟動(dòng)基于陣列的測序。隨著DNA測序數(shù)據(jù)的積累,通過比較每個(gè)積累的序列與參照核苷酸序列群,分析每個(gè)積累的核苷酸序列。參照序列群包含多態(tài)性標(biāo)記,包括疾病等位基因和等同的非疾病等位基因。對特定多態(tài)性標(biāo)記繼續(xù)進(jìn)行DNA測序和積累的序列數(shù)據(jù)的分析,直到確定了至少一個(gè)疾病等位基因或等同的非疾病等位基因的存在。實(shí)施例4-食物來源和病原體的鑒定獲得食品的樣品。對該食品樣品啟動(dòng)DNA測序。隨著測序數(shù)據(jù)積累,將數(shù)據(jù)與預(yù)先創(chuàng)建索引的核酸序列數(shù)據(jù)庫進(jìn)行比較。根據(jù)序列的來源,根據(jù)任何一個(gè)或多個(gè)以下參數(shù)的特征可以確定界、門、綱、目、科、屬、種。測序數(shù)據(jù)可以積累,直到獲得特定特征,例如(對于食物材料的來源特征性的序列來源)生物的屬。該生物可以是食物材料的成分和/或食物材料上或食物材料中存在的病原性生物。實(shí)施例5-空氣供給中病原體的鑒定獲得空氣樣品。濃縮空氣中的有機(jī)材料,并從該有機(jī)材料獲得序列信息。隨著序列信息的積累,將序列數(shù)據(jù)與預(yù)先創(chuàng)建索引的含有病原性生物序列的序列數(shù)據(jù)庫進(jìn)行比較。 序列信息可以積累,直到確定了序列的特征,如與序列來源相關(guān)的特定的門、綱、目、科、屬、 種。例如,序列信息可以積累,直到確定了特定病原性生物的屬。以上的說明書中公開了本發(fā)明的幾種方法和系統(tǒng)。本發(fā)明可以方法和材料的改變,以及制造方法和裝置的改變??紤]本申請的公開內(nèi)容或此處公開的本發(fā)明的實(shí)踐,本領(lǐng)域技術(shù)人員將會(huì)明白這些改變。因此,本發(fā)明并非意圖限于此處公開的特定實(shí)施方式,它涵蓋了在本發(fā)明的真正范圍和精神內(nèi)的所有改變和備選方案。此處引用的所有參考文獻(xiàn),包括但不限于發(fā)表的和未發(fā)表的申請、專利和文獻(xiàn),都在此全文引入作為參考,并且構(gòu)成本說明書的一部分。如果通過參考引入的出版物和專利或?qū)@暾埮c本說明書中包含的公開內(nèi)容相矛盾,本說明書將代替和/或優(yōu)先于任何這樣的矛盾材料。此處使用的術(shù)語“包含”與“包括”、“含有”或“特征在于”同義,是包含式的或開放式的,并且不排除額外的、未引用的要素或方法步驟。
權(quán)利要求
1.一種鑒定靶核酸的來源的方法,所述方法包括以下步驟(a)啟動(dòng)測序過程以確定靶核酸或其片段的核苷酸序列,由此產(chǎn)生靶核酸至少一部分的核苷酸序列;(b)在終止測序過程前,比較所述靶核酸至少一部分的核苷酸序列與來自指定生物的參照核苷酸序列群,從而使用指定的閾值鑒定與所述靶核酸至少一部分的核苷酸序列相匹配的參照核苷酸序列的亞群;和(c)確定所述參照核苷酸序列亞群是否允許充分鑒定靶核酸的來源,其中如果參照核苷酸序列亞群不允許充分鑒定靶核酸的來源,則繼續(xù)測序過程并重復(fù)步驟(b)和(c),并且如果參照核苷酸序列亞群允許充分鑒定靶核酸的來源,則終止測序過程。
2.權(quán)利要求1的方法,其中在充分鑒定靶核酸的來源之后,但是在靶核酸完全測序之前,終止所述測序過程。
3.權(quán)利要求1的方法,其中所述測序過程是自動(dòng)化過程。
4.權(quán)利要求1的方法,其中所述測序過程對一個(gè)靶核酸進(jìn)行。
5.權(quán)利要求1的方法,其中所述測序過程對多個(gè)靶核酸同時(shí)進(jìn)行。
6.權(quán)利要求5的方法,其中所述多個(gè)靶核酸包含具有不同核苷酸序列的靶核酸。
7.權(quán)利要求1的方法,其中所述測序過程在陣列表面上對多個(gè)靶核酸平行地進(jìn)行。
8.權(quán)利要求7的方法,其中所述多個(gè)靶核酸包含具有不同核苷酸序列的靶核酸。
9.權(quán)利要求1的方法,其中所述靶核酸從宏基因組樣品獲得。
10.權(quán)利要求1的方法,其中參照核苷酸序列群內(nèi)的參照核苷酸序列與所述指定生物的特定種相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引。
11.權(quán)利要求10的方法,其中參照核苷酸序列群內(nèi)的參照核苷酸序列與所述指定生物的特定亞種相關(guān)聯(lián)在數(shù)據(jù)庫中進(jìn)一步創(chuàng)建索引。
12.權(quán)利要求1的方法,其中所述參照核苷酸序列群內(nèi)的參照核苷酸序列與一組或多組生物相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引。
13.權(quán)利要求1的方法,其中所述參照核苷酸序列群內(nèi)的參照核苷酸序列根據(jù)與多組生物的分級(jí)相關(guān)性在數(shù)據(jù)庫中創(chuàng)建索引。
14.權(quán)利要求13的方法,其中所述多組生物是系統(tǒng)發(fā)生相關(guān)的。
15.權(quán)利要求1的方法,其中所述靶核酸包含編碼RuBisCo、NifH、亞硫酸還原酶、線粒體核酸或16S rRNA的核酸的至少一部分。
16.權(quán)利要求1的方法,其中所述測序過程包括基于陣列的測序。
17.權(quán)利要求1的方法,其中所述測序過程包括選自雜交測序、合成測序和連接測序的過程。
18.權(quán)利要求1的方法,其中所述靶核酸至少一部分的核苷酸序列與參照核苷酸序列群的比較使用啟發(fā)式算法進(jìn)行。
19.權(quán)利要求18的方法,其中所述算法包括BLAST算法或FASTA算法。
20.權(quán)利要求1的方法,其中所述指定的閾值是用戶指定的閾值。
21.權(quán)利要求1的方法,其中所述閾值使用一個(gè)或多個(gè)參數(shù)確定。
22.權(quán)利要求21的方法,其中所述一個(gè)或多個(gè)參數(shù)包括核苷酸序列同一性百分比。
23.權(quán)利要求1的方法,其中如果所述參照核苷酸序列亞群內(nèi)的至少指定百分比的參照核苷酸序列來自相同屬的生物,則該亞群允許充分鑒定靶核酸的來源。
24.權(quán)利要求1的方法,其中如果所述參照核苷酸序列亞群內(nèi)的至少指定百分比的參照核苷酸序列來自相同種的生物,則該亞群允許充分鑒定靶核酸的來源。
25.權(quán)利要求1的方法,其中如果所述參照核苷酸序列亞群內(nèi)的至少指定百分比的參照核苷酸序列來自相同亞種的生物,則該亞群允許充分鑒定靶核酸的來源。
26.一種用于鑒定靶核酸的來源的系統(tǒng),所述系統(tǒng)包括包含存儲(chǔ)器的計(jì)算機(jī),所述計(jì)算機(jī)與包含來自指定生物的參照核苷酸序列群的數(shù)據(jù)庫對接;核酸測序儀,其配置為進(jìn)行測序過程以確定靶核酸或其片段的核苷酸序列,由此在所述存儲(chǔ)器中產(chǎn)生靶核酸至少一部分的核苷酸序列;與所述計(jì)算機(jī)對接的第一程序模塊,其中所述第一程序模塊配置為比較所述靶核酸至少一部分的核苷酸序列與參照核苷酸序列群,以在終止所述測序過程之前,使用指定的閾值鑒定與所述靶核酸至少一部分的核苷酸序列匹配的參照核苷酸序列亞群;和與所述計(jì)算機(jī)對接的第二程序模塊,其中所述第二程序模塊配置為確定所述參照核苷酸序列亞群是否允許充分鑒定靶核酸的來源。
27.權(quán)利要求26的系統(tǒng),其中所述第二程序模塊進(jìn)一步配置為如果參照核苷酸序列亞群不允許充分鑒定靶核酸的來源,則提供繼續(xù)測序過程的指令。
28.權(quán)利要求26的系統(tǒng),其中所述第二程序模塊進(jìn)一步配置為如果參照核苷酸序列亞群允許充分鑒定靶核酸的來源,則提供終止測序過程的指令。
29.權(quán)利要求28的系統(tǒng),其中所述終止測序過程的指令在充分鑒定靶核酸來源之后, 但是在靶核酸完全測序之前提供。
30.權(quán)利要求26的系統(tǒng),其中所述第一和第二程序模塊是同一程序模塊。
31.權(quán)利要求26的系統(tǒng),其中所述第一程序模塊由所述計(jì)算機(jī)處理。
32.權(quán)利要求26的系統(tǒng),其中所述第一和第二程序模塊均由所述計(jì)算機(jī)處理。
33.權(quán)利要求26的系統(tǒng),其中所述數(shù)據(jù)庫是遠(yuǎn)程數(shù)據(jù)庫。
34.權(quán)利要求26的系統(tǒng),其中所述數(shù)據(jù)庫是本地?cái)?shù)據(jù)庫。
35.權(quán)利要求26的系統(tǒng),其中所述核酸測序儀在所述計(jì)算機(jī)的控制下。
36.權(quán)利要求26的系統(tǒng),其中所述測序過程是自動(dòng)化測序過程。
37.權(quán)利要求26的系統(tǒng),其中所述靶核酸從宏基因組樣品獲得。
38.權(quán)利要求26的系統(tǒng),其中所述參照核苷酸序列群內(nèi)的參照核苷酸序列與所述指定生物的特定種相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引。
39.權(quán)利要求38的系統(tǒng),其中所述參照核苷酸序列群內(nèi)的參照核苷酸序列與所述指定生物的特定亞種相關(guān)聯(lián)在數(shù)據(jù)庫中進(jìn)一步創(chuàng)建索引。
40.權(quán)利要求26的系統(tǒng),其中所述參照核苷酸序列群內(nèi)的參照核苷酸序列與一組或多組生物相關(guān)聯(lián)在數(shù)據(jù)庫中創(chuàng)建索引。
41.權(quán)利要求26的系統(tǒng),其中所述參照核苷酸序列群內(nèi)的參照核苷酸序列根據(jù)與多組生物的分級(jí)相關(guān)性在數(shù)據(jù)庫中創(chuàng)建索引。
42.權(quán)利要求41的系統(tǒng),其中所述多組生物是系統(tǒng)發(fā)生相關(guān)的。
43.權(quán)利要求26的系統(tǒng),其中所述靶核酸包含編碼RuBisCo、NifH、亞硫酸還原酶、線粒體核酸或16S rRNA的核酸的至少一部分。
44.權(quán)利要求26的系統(tǒng),其中所述測序過程包括基于陣列的測序。
45.權(quán)利要求26的系統(tǒng),其中所述測序過程包括選自雜交測序、合成測序和連接測序的過程。
46.權(quán)利要求26的系統(tǒng),其中所述第一程序模塊配置為使用啟發(fā)式算法比較所述靶核酸或其片段至少一部分的核苷酸序列與參照核苷酸序列群。
47.權(quán)利要求46的系統(tǒng),其中所述算法包括BLAST算法或FASTA算法。
48.權(quán)利要求26的系統(tǒng),其中所述指定的閾值是用戶指定的閾值。
49.權(quán)利要求26的系統(tǒng),其中所述指定的閾值是基于一個(gè)或多個(gè)參數(shù)計(jì)算的。
全文摘要
本技術(shù)涉及用于分析測序數(shù)據(jù)的方法和系統(tǒng)。特別是,描述了用于表征靶核酸同時(shí)確定靶核酸的核苷酸序列的方法和系統(tǒng)。某些實(shí)施方式包括通過比較靶核酸的積累核苷酸序列與參照核苷酸序列群鑒定靶核酸來源的方法和系統(tǒng)。
文檔編號(hào)G06F19/22GK102272763SQ200980154364
公開日2011年12月7日 申請日期2009年11月24日 優(yōu)先權(quán)日2008年11月26日
發(fā)明者H·A·埃爾陶基, M·羅納格希 申請人:伊魯米納公司