緊湊的下一代測序數(shù)據(jù)集及使用其的高效測序處理的制作方法
【專利摘要】在包括通過處理組織樣本采集的堿基序列的基因測序讀數(shù)上操作的方法中,生成基因測序讀數(shù)的緊湊文本表示。所述緊湊文本表示包括:(1)文本串,其表示堿基序列,以及(2)堿基質(zhì)量文本域,其識別堿基序列的最長子序列,針對所述最長子序列,子序列的堿基的堿基質(zhì)量分?jǐn)?shù)滿足堿基質(zhì)量分?jǐn)?shù)閾值;以及將基因測序讀數(shù)的緊湊文本表示存儲在原始讀數(shù)存儲器中。為了提供靈活性,所述堿基質(zhì)量文本域可以識別針對兩個或更多不同堿基質(zhì)量分?jǐn)?shù)閾值的每個的最長子序列。在讀數(shù)比對期間,針對基因測序讀數(shù)的偏移邊界能夠使用堿基質(zhì)量文本域的內(nèi)容高效地進(jìn)行選擇。
【專利說明】緊湊的下一代測序數(shù)據(jù)集及使用其的高效測序處理
【技術(shù)領(lǐng)域】
[0001]下文涉及基因分析領(lǐng)域,并涉及諸如包括腫瘤學(xué)領(lǐng)域、獸醫(yī)學(xué)領(lǐng)域等醫(yī)學(xué)領(lǐng)域的相同的應(yīng)用。
【背景技術(shù)】
[0002]高效的基因測序系統(tǒng),有時被稱為“下一代測序”(NGS)系統(tǒng),能夠迅速且實(shí)質(zhì)上自動地對整個基因組進(jìn)行測序。盡管NGS精確度已經(jīng)足夠用于臨床應(yīng)用,并且預(yù)期隨著技術(shù)成熟而得到改善,但是與諸如桑格(Sanger)測序的較慢的常規(guī)技術(shù)相比,現(xiàn)有的NGS系統(tǒng)有時表現(xiàn)出較低的讀數(shù)精確度。
[0003]為了評估讀數(shù)精確度(或可靠性),通常針對讀數(shù)的每個堿基計(jì)算堿基質(zhì)量分?jǐn)?shù)。在Sanger測序的情況下,通過計(jì)算用于所測序的堿基的參數(shù)(諸如峰形和分辨率),并將這些值與憑借經(jīng)驗(yàn)建立的查找表進(jìn)行比較,根據(jù)譜圖數(shù)據(jù)計(jì)算Phred質(zhì)量分?jǐn)?shù)。Phred分?jǐn)?shù)通常被認(rèn)為與錯誤地響應(yīng)堿基的概率對數(shù)相關(guān)。例如,Q = 20的phred分?jǐn)?shù)(Q)對應(yīng)于99%的堿基響應(yīng)(basecall)精確度,而Q = 30對應(yīng)于99.9%的精確度,Q = 40對應(yīng)于99.99%的精確度,等等。NGS方法采用并行處理技術(shù),其通過數(shù)量級增強(qiáng)生產(chǎn)量。
[0004]常規(guī)phred分?jǐn)?shù)計(jì)算不嚴(yán)格適用于NGS技術(shù),但大多數(shù)NGS平臺生成“像phred —樣的”堿基質(zhì)量分?jǐn)?shù),其相當(dāng)于或按比例縮放到根據(jù)譜圖數(shù)據(jù)計(jì)算的常規(guī)Phred分?jǐn)?shù)。本領(lǐng)域中,這些“像phred —樣的”堿基質(zhì)量分?jǐn)?shù)有時被稱為phred分?jǐn)?shù)。
[0005]用于讀數(shù)的公用存儲器格式為FASTA格式,其中,堿基腺嘌呤(A)、胞嘧啶(C)、鳥嘌呤(G)和胸腺嘧啶⑴的存在分別由美國信息交換標(biāo)準(zhǔn)碼(ASCII)字母“A”、“C”、“G”和“T”表示。對于RNA,堿基胸腺嘧啶(T)替換為堿基尿嘧啶(U)。FASTA不存儲質(zhì)量分?jǐn)?shù)信肩、O
[0006]另一方面,F(xiàn)ASTQ格式合并質(zhì)量分?jǐn)?shù)。讀數(shù)的FASTQ表示通常以ASCII格式,并且包括四行:標(biāo)題行,其作為序列標(biāo)識符;序列行,其列出由適當(dāng)?shù)腁SCII字母“A”、“C”、“G”和“T”(用于DNA)或“U”(用于RNA)表示的有序的堿基序列;分隔符行,其通常僅由加號(“ + ”)標(biāo)記構(gòu)成(在某些FASTQ格式中,該行還可以包括諸如序列標(biāo)識符的其他信息,例如對標(biāo)題的鏡像);以及堿基質(zhì)量分?jǐn)?shù)行,其列出使用合適的編碼的堿基質(zhì)量分?jǐn)?shù)(例如,將phred分?jǐn)?shù)0-93映射至ASCII代碼33-126,以避免在0_32范圍內(nèi)眾多的“不可打印”的ASCII 字符)。
[0007]因此,用于FASTQ讀取條目的總存儲器為2Ι^@ + [Η]+Κ,其中Ljw為讀數(shù)長度(即,構(gòu)成讀數(shù)的堿基的數(shù)目),并且[H]為標(biāo)題中的字符的數(shù)目?!?Κ”為常數(shù)偏移,其解釋了“ + ”分隔符和分隔四行的任何定界字符(例如,回車或回車/換行),而乘數(shù)因子2解釋了每個堿基由堿基字符(“A”、“C”、“G”、“T”或“U”)和堿基質(zhì)量分?jǐn)?shù)二者表示的事實(shí)。對于合理長度的讀數(shù)(例如,多于幾個堿基),大多數(shù)條目存儲器由序列組成,總存儲量為大約
序列。
[0008]原始讀數(shù)文件的大小在NGS中能夠是大的。對于全基因組數(shù)據(jù)集,最小的大小由基因組中的堿基數(shù)目施加,例如,在完整的單倍體人類基因組中的30億個堿基對(bps)的數(shù)量級。在實(shí)踐中,由于讀數(shù)之間的重疊和復(fù)制,以及堿基質(zhì)量值的存儲,原始讀數(shù)文件實(shí)質(zhì)上大于此。因此,用于人類對象的全基因組數(shù)據(jù)集能夠是幾千兆字節(jié)的數(shù)量級。作為示意性范例,利用10bp讀數(shù)和30倍覆蓋范圍測序的每個基因組可以由分割為多個文件的共計(jì)?150GB的數(shù)據(jù)組成。典型的FASTQ文件大小為?6.9GB,大約20個這樣的文件可以足夠存儲整個人類基因組。大小為?6.9GB的單個文件能夠通過存儲在壓縮gzip格式中被減少到大約2.3GB。
[0009]大的基因組數(shù)據(jù)集的大小和迅速減少的執(zhí)行NGS成本的結(jié)合意味著基因數(shù)據(jù)存儲器是測序應(yīng)用總成本的主要部分,并且隨著測序成本更加低廉并且產(chǎn)生更大的數(shù)據(jù)集,該部分成本預(yù)計(jì)將繼續(xù)增加。此外,大的原始讀數(shù)數(shù)據(jù)集轉(zhuǎn)化為更高的計(jì)算成本用于下游處理(諸如比對)。
[0010]下文預(yù)期克服上述局限性及其他局限性的改進(jìn)的設(shè)備和方法。
【發(fā)明內(nèi)容】
[0011]根據(jù)一個方面,一種電子數(shù)據(jù)處理設(shè)備被配置為生成基因測序讀數(shù)的緊湊文本表示,其包括具有堿基質(zhì)量分?jǐn)?shù)的對應(yīng)有序序列的核苷酸堿基的有序序列。緊湊文本表示包括(I)文本串,其表不核昔酸喊基的有序序列,以及(2)喊基質(zhì)量文本域,其識別核昔酸喊基的有序序列中的最長子序列,針對所述最長子序列,對應(yīng)的堿基質(zhì)量分?jǐn)?shù)滿足堿基質(zhì)量分?jǐn)?shù)閾值。原始讀數(shù)存儲器被配置為存儲緊湊文本表示。
[0012]根據(jù)另一方面,公開了一種在包括通過處理組織樣本采集的堿基序列的基因測序讀數(shù)上操作的方法。所述方法包括:生成基因測序讀數(shù)的緊湊文本表示,所述緊湊文本表示包括:(I)文本串,其表不喊基序列,以及(2)喊基質(zhì)量文本域,其識別喊基序列中的最長子序列,針對所述最長子序列,子序列的堿基的堿基質(zhì)量分?jǐn)?shù)滿足堿基質(zhì)量分?jǐn)?shù)閾值;以及,將基因測序讀數(shù)的緊湊文本表示存儲在原始讀數(shù)存儲器中。所述生成由電子數(shù)據(jù)處理設(shè)備適當(dāng)?shù)貓?zhí)行。
[0013]根據(jù)另一個方面,非暫態(tài)存儲介質(zhì)存儲由電子數(shù)據(jù)處理設(shè)備可執(zhí)行的指令,以處理包括核苷酸堿基的有序序列的基因測序讀數(shù),以生成基因測序讀數(shù)的緊湊文本表示,所述緊湊文本表不包括:(I)文本串,其表不核昔酸喊基的有序序列,以及(2)喊基質(zhì)量文本域,其識別核苷酸堿基的有序序列中的最長子序列,針對所述最長子序列,堿基質(zhì)量分?jǐn)?shù)滿足堿基質(zhì)量分?jǐn)?shù)閾值。
[0014]一個優(yōu)點(diǎn)在于在沒有對應(yīng)的重要信息內(nèi)容的損失的情況下減少了用于讀數(shù)的存儲器。
[0015]另一優(yōu)點(diǎn)在于更快且更有效的比對。
[0016]另一優(yōu)點(diǎn)在于便于整體讀數(shù)質(zhì)量的有效統(tǒng)計(jì)特征。
[0017]另一優(yōu)點(diǎn)在于提供上述優(yōu)點(diǎn)的同時保留了用于讀數(shù)存儲器的文本格式并且同時保留了與現(xiàn)有下游處理部件(諸如比對器)的兼容性。
[0018]對于本領(lǐng)域普通技術(shù)人員,在閱讀下面的詳細(xì)說明后,許多附加的優(yōu)點(diǎn)和益處將變得顯而易見。
【專利附圖】
【附圖說明】
[0019]本發(fā)明可以采取各種形式的部件和部件的布置,以及各種處理操作和處理操作的布置。附圖僅用于圖示優(yōu)選實(shí)施例的目的,不應(yīng)當(dāng)被解釋為限制本發(fā)明。
[0020]圖1示意性地示出了在本文中描述的包括緊湊的讀數(shù)存儲器的基因分析系統(tǒng)。
[0021]圖2示出了以常規(guī)FASTQ格式的原始讀數(shù)文件的一部分。
[0022]圖3示意性地示出了圖1的系統(tǒng)的讀數(shù)格式化模塊的操作。
[0023]圖4示出了由圖1和圖3的系統(tǒng)的讀數(shù)格式化模塊處理后的圖2的原始讀數(shù)文件部分。
[0024]圖5示出了由圖1的系統(tǒng)的任選的讀數(shù)重格式化模塊處理后的圖4的原始讀數(shù)文件的部分。
【具體實(shí)施方式】
[0025]在本文中公開的是以保留大部分有用信息的同時允許文件大小實(shí)質(zhì)上減少的方式用于使包括堿基質(zhì)量分?jǐn)?shù)的原始讀數(shù)數(shù)據(jù)格式化的方法。如前面所討論的,在常規(guī)FASTQ格式中,讀數(shù)占用比稍大于21^% (ASCII)字符,其中是堿基的數(shù)目。存儲堿基序列和對應(yīng)的堿基質(zhì)量分?jǐn)?shù)的其他現(xiàn)有的基于文本的存儲格式占用相當(dāng)大的存儲量。例如,在Qseq格式中,堿基序列和質(zhì)量分?jǐn)?shù)被存儲,但被布置在單行文本中。FASTA格式能夠?qū)⑦@種存儲大致減少一半——但它通過失去所有堿基質(zhì)量分?jǐn)?shù)信息達(dá)到這樣的。備選地,任何人能夠?qū)⑽谋靖袷交淖x數(shù)條目轉(zhuǎn)換為非文本格式(例如,二進(jìn)制格式,其中,兩個比特編碼堿基,并且phred分?jǐn)?shù)由二進(jìn)制整數(shù)值表示)。然而,最下游的處理部件(例如,比對器、變異體注解器等)被設(shè)計(jì)為處理文本格式的讀數(shù)。所公開的方法保留了文本格式的所有的堿基序列信息并保留實(shí)質(zhì)上有用的堿基質(zhì)量信息,同時仍允許實(shí)質(zhì)上減少讀數(shù)存儲大小。
[0026]參考圖1,描述了圖示的臨床或診斷應(yīng)用?;颊?在樣本提取實(shí)驗(yàn)室6中進(jìn)行組織樣本提取,以生成組織樣本,所述組織樣本由基因組學(xué)實(shí)驗(yàn)室8處理,以測序和分析樣本的DNA和/或RNA。例如,采樣實(shí)驗(yàn)室6可以從對象4提取來自惡性病變的組織樣本,任選地,連同從患者4的其他部位提取的正常組織樣本。作為某些其他圖示范例,樣本提取可以包括采用活檢針或其他介入儀器、為了獲得含有DNA的卵泡拔取頭發(fā)樣本、使用皮下注射針頭抽取血液等活檢過程。圖1示出了圖示的所提取的組織樣本10。應(yīng)當(dāng)指出,盡管圖示實(shí)施例是對臨床應(yīng)用中的患者4操作的,但在其他應(yīng)用中,組織樣本可以從非人類的對象提取,諸如獸醫(yī)學(xué)對象、生物學(xué)研究對象等?;蚍治龅膽?yīng)用能夠是變化的,諸如:醫(yī)學(xué)或獸醫(yī)學(xué)診斷、監(jiān)測等;生成用于人類學(xué)研究的基因數(shù)據(jù)庫(例如,人口遷移研究等);在臨床或臨床前研究中的對象評估等。還應(yīng)當(dāng)注意,在圖示的圖1中,樣本10由圖示小瓶表示;然而,應(yīng)當(dāng)理解,樣本10通??梢圆扇∵m合于已被采樣的組織類型的任何形式,并且可以由用于該類型組織的任何適合的容器或支承物來容納或支承。例如,樣本10可以是流體樣本、表面樣本(例如,通過口腔棉簽獲得的并被放置在無菌載玻片或其他適合的表面上)等。
[0027]在基因組學(xué)實(shí)驗(yàn)室8,組織樣本10由測序儀裝置14處理,以生成測序讀數(shù)。測序儀裝置14可以是下一代測序(NGS)裝置或諸如Sanger測序設(shè)施的較常規(guī)的測序裝置。測序儀裝置14在某些實(shí)施例中可以是商業(yè)測序裝置,諸如從美國加州圣地亞哥市的Illumina公司、美國馬薩諸塞州劍橋市的Knome公司、美國康奈狄克斯州吉爾福德市的1n Torrent公司或其他NGS系統(tǒng)供應(yīng)商可獲得的;然而,也預(yù)期非商業(yè)的或定制的測序儀。測序儀裝置的一部分功能也可以手動執(zhí)行。所生成的測序讀數(shù)被任選過濾,以去除復(fù)制的讀數(shù)和/或丟棄具有堿基質(zhì)量(例如phred)分?jǐn)?shù)低于20 (或低于另一選定的堿基質(zhì)量分?jǐn)?shù)閾值)的讀數(shù)。保留的測序讀數(shù)16以FASTQ格式(如圖所示)適當(dāng)?shù)嘏渲疲蛞园ㄓ糜谧x數(shù)(例如,Qseq)的每個堿基的堿基質(zhì)量值的另一種格式配制。在實(shí)施例中,其中測序儀裝置14是自動化的商業(yè)產(chǎn)品,測序儀裝置14以其通常的和普通的方式被適當(dāng)?shù)夭僮?,并輸出在測序儀裝置14的標(biāo)準(zhǔn)輸出中被格式化的測序讀數(shù)16。
[0028]繼續(xù)參考圖1,并進(jìn)一步參考圖2,在圖示的范例中,測序讀數(shù)16被假定為是FASTQ格式的。圖2示出兩個讀數(shù)16ex。第一測序讀數(shù)包括標(biāo)題H1、用于第一讀數(shù)的堿基序列B1、只包含加號標(biāo)記(+)的分隔符行和具有堿基質(zhì)量分?jǐn)?shù)的堿基質(zhì)量分?jǐn)?shù)序列Ql,所述堿基質(zhì)量分?jǐn)?shù)由對應(yīng)于第一讀數(shù)序列BI的堿基的字母表示。第二測序讀數(shù)包括標(biāo)題H2、用于第二讀數(shù)的堿基序列B2、只包含加號標(biāo)記(+)的分隔符行和具有堿基質(zhì)量分?jǐn)?shù)的堿基質(zhì)量分?jǐn)?shù)序列Q2,所述堿基質(zhì)量分?jǐn)?shù)由對應(yīng)于第二讀數(shù)序列B2的堿基的字母表示。更普遍地,每個測序讀數(shù)作為文本以FASTQ格式表示,并且包括:(I)限定讀數(shù)的堿基序列(例如,用于第一讀數(shù)的堿基序列BI和用于第二讀數(shù)的堿基序列B2)和(2)具有針對堿基序列的每個堿基的堿基質(zhì)量分?jǐn)?shù)的堿基質(zhì)量分?jǐn)?shù)序列(例如,分別用于第一測序讀數(shù)和第二測序讀數(shù)的堿基質(zhì)量分?jǐn)?shù)Q1、Q2)。在其他文本格式中,這些部件(1,2)可以以不同形式進(jìn)行組織——例如,在Qseq中,堿基序列(I)和對應(yīng)的堿基質(zhì)量分?jǐn)?shù)(2)形成單行文本,而不是如在FASTQ格式中的兩個獨(dú)立的行。此外,測序讀數(shù)表示的輔助元素(諸如在圖2的范例中的標(biāo)題H1、H2和分隔符加號標(biāo)記)能夠具有各種格式,可以完全省略,或者備選地不同于圖2中所示的輔助元素可以被包括在讀數(shù)表示中。更進(jìn)一步地,盡管圖示文本讀數(shù)表示為ASCII文本,但也預(yù)期其他文本編碼,諸如“擴(kuò)展的”ASCII編碼(其中,在十進(jìn)制[128-256]范圍內(nèi)的值用于編碼“特殊”字符)。
[0029]如從一些胸腺嘧啶⑴堿基的內(nèi)含物可識別的,圖2的圖示性讀數(shù)16ex是DNA讀數(shù)。備選地,讀數(shù)可以是RNA讀數(shù)。RNA不包括胸腺嘧啶堿基,而可以包括尿嘧啶(U)堿基。堿基質(zhì)量分?jǐn)?shù)Q1、Q2采用常規(guī)phred質(zhì)量分?jǐn)?shù)格式,其中,質(zhì)量分?jǐn)?shù)位于包含的區(qū)間[0,93]內(nèi),并通過增加33個偏移量被編碼為ASCII,使得用于行Ql、Q2的字符的ASCII代碼位于包含的范圍[33,126]內(nèi)。該偏移量確保大多數(shù)或全部字符是可打印的字符。(然而,一些顯示設(shè)備和/或打印機(jī)可能無法打印某些代碼,諸如通常對應(yīng)于十進(jìn)制ASCII代碼96的重音符符號)。這些僅是圖示性范例,并且能夠使用其他堿基質(zhì)量分?jǐn)?shù)量表和/或文本編碼方案。
[0030]繼續(xù)參考圖1,讀數(shù)格式化模塊20接收以FASTQ格式的讀數(shù)16(或更普遍地,接收包括至少堿基序列和對應(yīng)的堿基質(zhì)量分?jǐn)?shù)組的測序讀數(shù))。讀數(shù)格式化模塊20執(zhí)行讀數(shù)的格式化,其至少包括由指示堿基子序列的文本替代堿基質(zhì)量分?jǐn)?shù)Ql、Q2的序列,所述堿基子序列的堿基質(zhì)量分?jǐn)?shù)滿足特定的閾值。這樣做的效果是顯著減少文本讀數(shù)表示的大小,同時保留了由堿基質(zhì)量分?jǐn)?shù)提供的最相關(guān)的信息。
[0031]所公開的讀數(shù)格式化模塊20的操作是基于在此所做出的以下觀察。對于許多應(yīng)用,諸如決定在比對中使用的偏移,重要的是限定“優(yōu)良”堿基(即質(zhì)量分?jǐn)?shù)超過某一堿基質(zhì)量分?jǐn)?shù)閾值的堿基)的子序列。通常沒有做的是嘗試挖掘散布在高密度的周圍的“不良”堿基之中的一個或少數(shù)幾個“優(yōu)良”堿基。這種“堿基挖掘”方法會減慢處理速度;此外,所挖掘的被“不良”鄰近的堿基包圍的“良好”堿基盡管其高的堿基質(zhì)量分?jǐn)?shù),但會受到懷疑,因?yàn)樵搮^(qū)域作為整體存在質(zhì)量問題。
[0032]因此,由堿基質(zhì)量分?jǐn)?shù)文本Ql提供的相關(guān)信息通常不是對于每個個體堿基的精確的質(zhì)量分?jǐn)?shù)。相反,有關(guān)信息是對讀數(shù)中的“良好”堿基的主要的連續(xù)子序列的識別?!傲己谩眽A基適當(dāng)?shù)乇涣炕癁橘|(zhì)量分?jǐn)?shù)滿足特定堿基質(zhì)量分?jǐn)?shù)閾值的堿基。通過“滿足”閾值,其意味著質(zhì)量分?jǐn)?shù)等于或超過閾值,例如質(zhì)量分?jǐn)?shù)40及更高滿足閾值40 ;或者,在采用嚴(yán)格不等式的等效替代公式中,閾值能夠被設(shè)定為39,并且閾值被嚴(yán)格超過該閾值的質(zhì)量分?jǐn)?shù)“滿足”(同樣,這些是質(zhì)量分?jǐn)?shù)40和更高的用于質(zhì)量分?jǐn)?shù)的假定整數(shù)值)。如在此所使用的,短語“滿足閾值”和類似用語涵蓋采用與“等于或大于”不等式結(jié)合操作的閾值的實(shí)施例,也涵蓋采用與嚴(yán)格“大于”不等式結(jié)合操作的閾值的實(shí)施例。鑒于此,讀數(shù)格式化模塊20識別所有的喊基具有聞于喊基質(zhì)量閾值的喊基質(zhì)量分?jǐn)?shù)的喊基的最長子序列。針對喊基的精確堿基質(zhì)量分?jǐn)?shù)丟失了,但確保下游儀器或過程,在所識別的最長子序列中的所有堿基具有大于該閾值的質(zhì)量分?jǐn)?shù)。這可選地是對于單一閾值、或兩個、三個或更多不同的閾值完成。多個閾值的任選使用使得能夠決定堿基應(yīng)當(dāng)是如何“良好”的靈活性——即,下游儀器或處理能夠在較高的所確保的堿基質(zhì)量的較短的序列(通過選擇由最高閾值限定的子序列)或較低的所確保的堿基質(zhì)量的較長的序列(通過選擇由最低閾值限定的子序列)之間選擇。對于基于散列的比對算法,這是非常有用的,因?yàn)檫B續(xù)的質(zhì)量堿基能夠用作用于將讀數(shù)與參考進(jìn)行比對的關(guān)鍵。
[0033]繼續(xù)參考圖1,由讀數(shù)格式化模塊20輸出的更緊湊格式的讀數(shù)被存儲在原始讀數(shù)存儲器22中。所存儲的測序讀數(shù)隨后由一個或多個下游儀器或過程進(jìn)行處理。例如,在圖示性的圖1中,原始讀數(shù)由序列組裝模塊24組裝,以生成針對組織樣本的基因序列。由組裝模塊24執(zhí)行的組裝能夠是重疊部分測序讀數(shù)的重新比對,或者能夠是測序讀數(shù)至參考序列的映射,同時允許某小部分(例如,5-10%)的堿基錯誤匹配。在后者的情況下,例如,參考序列能夠是人類患者4的圖示性情況中的人類基因組的標(biāo)準(zhǔn)參考序列。比對處理包括限定針對讀數(shù)的偏移,以考慮非固有的效果(例如,污染物、測序化學(xué)的類型等趨向于使讀數(shù)的端部惡化的效果)。堿基質(zhì)量分?jǐn)?shù)通常在確定這些偏移中被查閱。組裝模塊24適當(dāng)?shù)乇恍薷?,以使用由讀數(shù)格式化模塊20輸出的經(jīng)修改的堿基質(zhì)量信息。與其他序列相比較,得到的比對的序列數(shù)據(jù)集能夠以不同方式被存儲、分析,以檢測檢驗(yàn)的變異體等。在圖示性范例中,分析、注釋和報(bào)告模塊28將經(jīng)比對的序列與經(jīng)注釋的參考序列進(jìn)行比較,以便識別與疾病(例如,癌癥類型)或其他信息相關(guān)聯(lián)的變異體。
[0034]在備選實(shí)施例中,組裝模塊24 (或其他下游儀器或過程)是設(shè)計(jì)用于接收以FASTQ格式的原始讀數(shù)的類型的常規(guī)組件。在該備選實(shí)施例中,沒有對組裝模塊24做出變型。相反,提供前端組件26,其將被存儲在存儲器22中的緊湊讀數(shù)格式化為與FASTQ —致的格式。這需要標(biāo)記帶有“良好”堿基質(zhì)量分?jǐn)?shù)(即,具有高于堿基質(zhì)量分?jǐn)?shù)閾值的堿基質(zhì)量分?jǐn)?shù))的“良好”堿基的所識別的子序列中的所有堿基,并使用常規(guī)FASTQ格式將這些標(biāo)簽格式化。膨脹不完全復(fù)制初始(例如,F(xiàn)ASTQ)堿基質(zhì)量分?jǐn)?shù)序列,但提供以FASTQ格式表示的實(shí)質(zhì)上相等的堿基質(zhì)量信息。
[0035]在圖1的方法中,測序裝置14輸出以常規(guī)FASTQ格式的測序讀數(shù)16,然后在讀數(shù)存儲之前由讀數(shù)格式化模塊20將其轉(zhuǎn)化為在此所公開的更緊湊格式。這對于改裝現(xiàn)有測序儀裝置14以采用所公開的更緊湊格式是有利的。然而,也可以預(yù)期將測序儀裝置14和讀數(shù)格式化模塊20集成為執(zhí)行測序并輸出以所公開的更緊湊格式的讀數(shù)的單個單元。在這樣的實(shí)施例中,不生成介于中間的FASTQ格式化數(shù)據(jù)16。
[0036]各種處理部件20、24、26、28適當(dāng)?shù)赜蓤D示性計(jì)算機(jī)或其他電子數(shù)據(jù)處理設(shè)備30體現(xiàn)。通過舉例說明的方式,電子數(shù)據(jù)處理設(shè)備30可以包括:筆記本計(jì)算機(jī);臺式計(jì)算機(jī);移動設(shè)備,諸如智能電話、平板電腦、個人數(shù)據(jù)助理(PDA)等;經(jīng)由互聯(lián)網(wǎng)和/或局域有線/無線數(shù)據(jù)網(wǎng)絡(luò)可訪問的網(wǎng)絡(luò)服務(wù)器計(jì)算機(jī);其各種組合;等等。原始讀數(shù)存儲器22適當(dāng)?shù)伢w現(xiàn)為隨機(jī)存取存儲器(RAM)、快閃存儲器、或其他類型的電子存儲器、或體現(xiàn)為硬盤或其他類型的磁性存儲器,等等,其中,電子、磁性或其他類型的存儲器被配置為存儲由讀數(shù)格式化模塊20輸出的以緊湊文本格式的原始讀數(shù),以便后續(xù)由電子數(shù)據(jù)處理設(shè)備檢索。
[0037]所公開的用于以高效存儲和高效計(jì)算的方式處理原始讀數(shù)的技術(shù)也適當(dāng)?shù)伢w現(xiàn)為非暫態(tài)存儲介質(zhì),其存儲由圖示性的計(jì)算機(jī)或其他電子數(shù)據(jù)處理設(shè)備30可執(zhí)行以執(zhí)行所公開的讀數(shù)處理的指令。例如,存儲可執(zhí)行指令的非暫態(tài)存儲介質(zhì)可以包括:硬盤驅(qū)動或其他磁性存儲介質(zhì);光盤或其他光學(xué)存儲介質(zhì);閃速存儲器、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、或其他電子存儲介質(zhì);等等。
[0038]繼續(xù)參考圖1,并進(jìn)一步參考圖3,讀數(shù)格式化模塊20的圖示性操作被描述為用于以FASTQ格式的基因測序讀數(shù)30。更普遍地,至讀數(shù)格式化模塊20的輸入是包括具有對應(yīng)的堿基質(zhì)量分?jǐn)?shù)有序序列的核苷酸堿基的有序序列(在此也稱為堿基序列)基因測序讀數(shù)30。在操作32中,使用一個或多個堿基質(zhì)量分?jǐn)?shù)閾值對堿基質(zhì)量分?jǐn)?shù)進(jìn)行閾值化。在圖示性范例中,堿基質(zhì)量分?jǐn)?shù)由符號Q表示,并位于所使用的三個堿基質(zhì)量分?jǐn)?shù)閾值的范圍內(nèi),即,圖示性范例中的閾值40、50和60。更普遍地,閾值能夠是與這些不同的水平,并且閾值的總數(shù)目能夠是一個、兩個、三個(如范例中)、四個或更多。閾值是任選的用戶限定的閾值,然而也可以預(yù)期硬編碼和/或自動生成的閾值。一個或多個閾值優(yōu)選為研究團(tuán)體或集團(tuán)普遍接受的,如低的、中間的和高質(zhì)量的限定堿基,(或青銅、銀、金,鉬或其他普遍接受的質(zhì)量量表)??傮w上,一個或多個閾值能夠基于個體研究者的偏好來選擇,或者可以是對原始讀數(shù)的預(yù)處理步驟的輸出,其基于原始讀數(shù)的特征限定這些閾值。閾值也可以是針對具體測序儀器固定的和預(yù)先決定的。因此,閾值化操作32的輸出是具有Q > 40的堿基組34、具有Q > 50的堿基組36以及具有Q > 60的堿基組38。(采用嚴(yán)格不等式的可選的等值是采用由具有Q>39、Q>49和Q>59的堿基分別滿足的閾值39、49和59)。使用信息34,具有Q > 40的堿基的最長連續(xù)子序列在操作44中被識別。使用信息36,具有Q ^ 50的堿基的最長連續(xù)子序列在操作46中被識別。使用信息38,具有Q > 60的堿基的最長連續(xù)子序列在操作48中被識別。具有Q > 40的堿基的最長連續(xù)子序列由文本串“40:<start>-〈end>”54(在此也被稱為堿基質(zhì)量文本域)適當(dāng)?shù)乇硎?其中,〈start〉指代在核苷酸堿基的有序序列中具有Q > 40的最長子序列的第一核苷酸堿基的位置的文本表示,并且〈end〉指代在核昔酸喊基的有序序列中具有Q > 40的最長子序列的最后一個核昔酸喊基的位置的文本表示。類似地,具有Q > 50的堿基的最長連續(xù)子序列由堿基質(zhì)量文本域“50:〈start>-〈end>”56適當(dāng)?shù)乇硎?,并且具有Q > 60的堿基的最長連續(xù)子序列由堿基質(zhì)量文本域“60:〈start>-〈end>”58適當(dāng)?shù)乇硎尽T诓僮?0中,F(xiàn)ASTQ堿基質(zhì)量分?jǐn)?shù)序列由堿基質(zhì)量文本域54、56、58的串接替代,即,F(xiàn)ASTQ堿基質(zhì)量分?jǐn)?shù)序列由文本字符串:“40:<start>-<end>, 50:<start>-<end>, 60:〈start>-〈end>” 替代。最終輸出是基因測序讀數(shù)的緊湊文本表示62,其包括:(I)表示核苷酸堿基的有序序列的文本串(盡管任選地預(yù)期一些格式化,適當(dāng)?shù)匚唇?jīng)修改地從FASTQ格式轉(zhuǎn)入),以及(2) —個或多個堿基質(zhì)量文本域,其中,每個堿基質(zhì)量文本域識別對應(yīng)的堿基質(zhì)量分?jǐn)?shù)超過堿基質(zhì)量分?jǐn)?shù)閾值的核苷酸堿基的有序序列的最長子序列。
[0039]返回參考圖2并進(jìn)一步參考圖4,在圖2中所示的以FASTQ格式的讀數(shù)16ex在圖4中被示出為緊湊文本表示62ex。標(biāo)題H1、H2和堿基序列B1、B2未經(jīng)修改地從FASTQ表示轉(zhuǎn)入。然而,堿基質(zhì)量分?jǐn)?shù)Q1、Q2的對應(yīng)序列由具有由串接操作60輸出的格式的堿基質(zhì)量文本域QFl、QF2替代(參見圖3)。
[0040]關(guān)于在此所公開的堿基質(zhì)量文本域,可以做出某些觀察結(jié)果。首先,具有超過給定的堿基質(zhì)量分?jǐn)?shù)閾值的堿基質(zhì)量分?jǐn)?shù)的堿基的最長子序列被識別——相應(yīng)地,每個堿基質(zhì)量分?jǐn)?shù)閾值只有一個子序列。第二,針對任何較低的堿基質(zhì)量分?jǐn)?shù)閾值的子序列的長度將長于或等于針對任何較高的堿基質(zhì)量分?jǐn)?shù)閾值的子序列的長度。
[0041]參考圖5,使用圖4的范例作為測序讀數(shù)的輸入緊湊文本表示,對圖1中所示的任選的讀數(shù)重格式化模塊26的操作進(jìn)行了描述。如果下游儀器或處理需要諸如FASTQ格式化讀數(shù)的常規(guī)測序讀數(shù)格式,適當(dāng)?shù)夭捎米x數(shù)重格式化模塊26。圖5的范例是圖4中的緊湊文本表示62?的格式化版本。標(biāo)題Hl、H2和堿基序列B1、B2不受格式化的影響。然而,堿基質(zhì)量文本域QF1、QF2每個被轉(zhuǎn)換為對應(yīng)于核苷酸堿基B1、B2的有序序列的經(jīng)重構(gòu)的堿基質(zhì)量分?jǐn)?shù)Q1R、Q2R的有序序列。針對由質(zhì)量文本域識別的最長子序列的堿基的經(jīng)重構(gòu)的堿基質(zhì)量分?jǐn)?shù)被設(shè)置為大于或等于堿基質(zhì)量閾值。在圖示性范例中,針對具有Q > 60的最長子序列中的堿基的經(jīng)重構(gòu)的堿基質(zhì)量分?jǐn)?shù)(即針對第一讀數(shù)的子序列[1,33]和針對第二讀數(shù)的子序列[1,8])被設(shè)置為值65(對應(yīng)于ASCII代碼98,S卩小寫字母“b”,使用如圖2的FASTQ數(shù)據(jù)中的偏移+33,其中phred分?jǐn)?shù)0_93被映射為ASCII代碼33-126)。針對具有Q > 50的最長子序列中的堿基的經(jīng)重構(gòu)的堿基質(zhì)量分?jǐn)?shù)被設(shè)置為值55 (對應(yīng)于ASCII碼88,S卩,大寫字母“X”)。對于第一測序讀數(shù),被設(shè)置為“X”的子序列為[34,93]。(請注意,具有Q > 50的最長子序列和具有Q > 60的最長子序列_■者的部分的重置子序列[I,33]被設(shè)置為較高的重構(gòu)值,即Q = 65,其大于閾值50和60。)對于第二讀數(shù),子序列[75,96]被設(shè)置為“X”。針對具有Q > 40的最長子序列的堿基的經(jīng)重構(gòu)的堿基質(zhì)量分?jǐn)?shù)被設(shè)置為值45 (對應(yīng)于ASCII代碼78,S卩,大寫字母“N”)。對于第一測序讀數(shù),該子序列與針對Q彡50的子序列共同延伸,并且因此沒有堿基分配為經(jīng)重構(gòu)的質(zhì)量分?jǐn)?shù)=45 (ASCII “N”)。對于第二讀數(shù),子序列[38,74]和[97,102]被設(shè)置為“N”;此外,重疊的子序列[75,96]被分配為經(jīng)重構(gòu)的質(zhì)量分?jǐn)?shù)=55 (ASCII “X”)。最后,不是具有大于給定堿基質(zhì)量分?jǐn)?shù)閾值的堿基質(zhì)量分?jǐn)?shù)的任何最長子序列的部分的任何堿基被分配低的質(zhì)量分?jǐn)?shù),即,Q = O (ASCII代碼33對應(yīng)于字符“ ! ”)。
[0042]比較圖2和圖5,得到的經(jīng)重構(gòu)的堿基質(zhì)量分?jǐn)?shù)序列Q1R、Q2R被認(rèn)為不同于通過測序所生成的原始堿基質(zhì)量分?jǐn)?shù)序列Ql、Q2。然而,經(jīng)重構(gòu)的堿基質(zhì)量分?jǐn)?shù)序列Q1R、Q2R保留了重要?目息,即,具有Q > 40、Q > 50和Q > 60的最長子序列被保留。因此,諸如圖不的測序組件24(參見圖1)的應(yīng)用將正確地識別“良好”堿基的最長子序列,如由所選擇的堿基質(zhì)量分?jǐn)?shù)閾值所限定的。
[0043]另一方面,如果測序組件24被修改為使用圖4的堿基質(zhì)量文本域QFl、QF2,則比對處理可以被簡化。例如,在比對程序中,使用巴羅斯-車輪比對器(BWA),分配在每個讀數(shù)的開始和結(jié)束處的幾個堿基的偏移。通常,采用被限定為讀數(shù)長度的10% -15%的BWA偏移來抵消外來影響(例如,測序化學(xué)的類型、污染等),但這僅僅是粗略的估計(jì),并且不能準(zhǔn)確地反映讀數(shù)的實(shí)際的外來結(jié)束。當(dāng)使用在此所公開的堿基質(zhì)量文本域時,比對處理能夠基于堿基質(zhì)量文本域的內(nèi)容適當(dāng)?shù)叵薅ㄡ槍驕y序讀數(shù)的偏移邊界。例如,偏移邊界能夠被限定為針對所選擇的堿基質(zhì)量分?jǐn)?shù)閾值識別的最長子序列的邊界。更普遍地,目前已使用的利用堿基質(zhì)量分?jǐn)?shù)的任何下游儀器或處理通常需要執(zhí)行復(fù)雜的處理來分析FASTQ堿基質(zhì)量分?jǐn)?shù)序列,以便識別“良好”堿基的連續(xù)區(qū)域。在此,這種處理被先驗(yàn)地執(zhí)行并存儲為原始讀數(shù)的緊湊文本表示的一部分,因此能夠使下游處理更有效。
[0044]在圖示性范例中,堿基質(zhì)量分?jǐn)?shù)閾值被存儲為堿基質(zhì)量文本域的一部分。然而,如果閾值是固定值(例如,如果總是使用圖示的三個閾值40、50、60),則堿基質(zhì)量文本域任選地省略存儲堿基質(zhì)量分?jǐn)?shù)閾值,而是僅存儲對應(yīng)的堿基質(zhì)量分?jǐn)?shù)超過堿基質(zhì)量分?jǐn)?shù)閾值的核苷酸堿基的有序序列的最長子序列的識別。
[0045]在圖示性范例中,堿基質(zhì)量文本域通過存儲核苷酸堿基的有序序列中的子序列的第一個和最后一個核苷酸堿基的位置,存儲堿基質(zhì)量分?jǐn)?shù)超過閾值的最長子序列的識別。然而,也能夠使用其他格式。例如,能夠存儲核苷酸堿基的有序序列中的子序列的中的第一個核苷酸堿基的位置和子序列中的核苷酸堿基的數(shù)目,從而提供等價(jià)信息。
[0046]已經(jīng)參考優(yōu)選實(shí)施例描述了本發(fā)明。顯然,在閱讀和理解以上【具體實(shí)施方式】的情況下對于其他人會想到修改或替代變型。本文意圖將本發(fā)明解釋為包括所有這種修改和替代變型,只要它們落入所附權(quán)利要求及其等價(jià)方案的范圍之內(nèi)。
【權(quán)利要求】
1.一種裝置,包括: 電子數(shù)據(jù)處理設(shè)備(30),其被配置為生成基因測序讀數(shù)的緊湊文本表示,其包括具有喊基質(zhì)量分?jǐn)?shù)的對應(yīng)有序序列的核昔酸喊基的有序序列,所述緊湊文本表不包括:(I)文本串,其表不核昔酸喊基的所述有序序列,以及(2)喊基質(zhì)量文本域,其識別核昔酸喊基的所述有序序列中的最長子序列,針對所述最長子序列,對應(yīng)的堿基質(zhì)量分?jǐn)?shù)滿足堿基質(zhì)量分?jǐn)?shù)閾值;以及 原始讀數(shù)存儲器(22),其被配置為存儲所述緊湊文本表示。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述基因測序讀數(shù)的所述緊湊文本表示包括: (2.1)第一堿基質(zhì)量文本域,其識別核苷酸堿基的所述有序序列中的所述最長子序列,針對所述最長子序列,對應(yīng)的堿基質(zhì)量分?jǐn)?shù)滿足第一堿基質(zhì)量分?jǐn)?shù)閾值,以及 (2.2)第二堿基質(zhì)量文本域,其識別核苷酸堿基的所述有序序列中的所述最長子序列,針對所述最長子序列,對應(yīng)的堿基質(zhì)量分?jǐn)?shù)滿足第二堿基質(zhì)量分?jǐn)?shù)閾值,所述第二堿基質(zhì)量分?jǐn)?shù)閾值大于所述第一堿基質(zhì)量分?jǐn)?shù)閾值。
3.根據(jù)權(quán)利要求1-2中任一項(xiàng)所述的裝置,其中,所述基因測序讀數(shù)的所述緊湊文本表示不包括表示堿基質(zhì)量分?jǐn)?shù)的所述有序序列的文本串。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的裝置,其中,所述堿基質(zhì)量文本域通過指定下述之一來識別所述最長子序列: 核苷酸堿基的所述有序序列中的所述子序列的第一個核苷酸堿基的位置和核苷酸堿基的所述有序序列中的所述子序列的最后一個核苷酸堿基的位置;以及 核苷酸堿基的所述有序序列中的所述子序列的所述第一個核苷酸堿基的所述位置和所述子序列中的核苷酸堿基的數(shù)目。
5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的裝置,其中,所述堿基質(zhì)量文本域進(jìn)一步識別所述堿基質(zhì)量分?jǐn)?shù)閾值。
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的裝置,其中,所述電子數(shù)據(jù)處理設(shè)備(30)還被配置為比對包括所述基因測序讀數(shù)的基因測序讀數(shù),以重建基因序列,其中,所述的比對處理包括:基于所述堿基質(zhì)量文本域的內(nèi)容來限定針對所述基因測序讀數(shù)的偏移邊界。
7.根據(jù)權(quán)利要求6所述的裝置,其中,所述偏移邊界被限定為在所述堿基質(zhì)量文本域中識別的所述最長子序列的邊界。
8.根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的裝置,其中,所述電子數(shù)據(jù)處理設(shè)備(30)還被配置為擴(kuò)展所述基因測序讀數(shù)的所述緊湊文本表示,以生成所述基因測序讀數(shù)的擴(kuò)展文本表示,所述擴(kuò)大文本表示包括:(1’)文本串,其表示核苷酸堿基的所述有序序列,以及(2’)經(jīng)重構(gòu)的堿基質(zhì)量分?jǐn)?shù)的有序序列,其對應(yīng)于核苷酸堿基的所述有序序列; 其中,所述經(jīng)重構(gòu)的堿基質(zhì)量分?jǐn)?shù)大于針對由所述堿基質(zhì)量文本域識別的所述最長子序列的喊基的所述喊基質(zhì)量閾值。
9.一種在包括通過處理組織樣本(10)采集的堿基序列的基因測序讀數(shù)上操作的方法,所述方法包括: 生成所述基因測序讀數(shù)的緊湊文本表示,包括:(I)文本串,其表示所述堿基序列,以及(2)堿基質(zhì)量文本域,其識別所述堿基序列的最長子序列,針對所述最長子序列,所述子序列的堿基的堿基質(zhì)量分?jǐn)?shù)滿足堿基質(zhì)量分?jǐn)?shù)閾值;并且 將所述基因測序讀數(shù)的所述緊湊文本表示存儲在原始讀數(shù)存儲器(22)中; 其中,所述生成是由電子數(shù)據(jù)處理設(shè)備(30)執(zhí)行的。
10.根據(jù)權(quán)利要求9所述的方法,其中: 所述基因測序讀數(shù)的所述緊湊文本表示不包括表示對應(yīng)于所述堿基序列的堿基質(zhì)量分?jǐn)?shù)的序列的文本串;以及 表示所述堿基序列的所述文本串包括與堿基表示代碼一致的字母的序列,其中,字母“A”或“a”表示腺嘌呤堿基,字母“C”或“c”表示胞嘧啶堿基,字母“G”或“g”表示鳥嘌呤堿基,字母“T”或“t”表示胸腺嘧啶堿基,并且字母“U”或“u”表示尿嘧啶堿基。
11.根據(jù)權(quán)利要求9-10中任一項(xiàng)所述的方法,其中: 所述堿基質(zhì)量文本域通過指定下述之一來識別所述最長子序列:(i)所述子序列的第一個堿基位置和最后一個堿基位置,以及(ii)所述子序列中的所述第一個堿基位置和堿基的數(shù)目;以及 所述堿基質(zhì)量文本域進(jìn)一步識別所述堿基質(zhì)量分?jǐn)?shù)閾值。
12.根據(jù)權(quán)利要求9-11中任一項(xiàng)所述的方法,還包括: 比對包括所述基因測序讀數(shù)的基因測序讀數(shù)以重建基因序列,其中,所述比對包括將針對所述基因測序讀數(shù)的偏移邊界限定為在所述堿基質(zhì)量文本域中識別的所述最長子序列的邊界; 其中,所述比對是由電子數(shù)據(jù)處理設(shè)備(30)執(zhí)行的。
13.一種非暫態(tài)存儲介質(zhì),其存儲能由電子數(shù)據(jù)處理設(shè)備(30)執(zhí)行的指令,以處理包括核苷酸堿基的有序序列的基因測序讀數(shù),以生成所述基因測序讀數(shù)的緊湊文本表示,其包括:(I)文本串,其表不核昔酸喊基的所述有序序列,以及(2)喊基質(zhì)量文本域,其識別核苷酸堿基的所述有序序列中的最長子序列,針對所述最長子序列,堿基質(zhì)量分?jǐn)?shù)滿足堿基質(zhì)量分?jǐn)?shù)閾值。
14.根據(jù)權(quán)利要求13所述的非暫態(tài)存儲介質(zhì),其中: 表示核苷酸堿基的所述有序序列的所述文本串包括與核苷酸堿基表示代碼一致的字母的序列,其中: 字母“A”或“a”表示腺嘌呤核苷酸堿基, 字母“C”或“c”表示胞嘧啶核苷酸堿基, 字母“G”或“g”表示鳥嘌呤核苷酸堿基, 字母“T”或“t”表示胸腺嘧啶核苷酸堿基,以及 字母“U”或“u”表示尿嘧啶核苷酸堿基;并且 所述基因測序讀數(shù)的所述緊湊文本表示不包括表示堿基質(zhì)量分?jǐn)?shù)的有序序列的文本串O
15.根據(jù)權(quán)利要求13-14中任一項(xiàng)所述的非暫態(tài)存儲介質(zhì),其中,所存儲的指令進(jìn)一步地能由電子數(shù)據(jù)處理設(shè)備(30)執(zhí)行,以通過比對包括所述基因測序的基因測序讀數(shù)來重建基因序列,其中,所述比對包括基于所述堿基質(zhì)量文本域的內(nèi)容來限定針對所述基因測序讀數(shù)的偏移邊界。
【文檔編號】G06F19/22GK104169927SQ201380011406
【公開日】2014年11月26日 申請日期:2013年2月26日 優(yōu)先權(quán)日:2012年2月28日
【發(fā)明者】S·庫馬爾, R·辛格, B·查克拉巴蒂 申請人:皇家飛利浦有限公司