考慮失配的堿基序列對準系統(tǒng)及方法
【專利摘要】本發(fā)明公開一種考慮失配的堿基序列對準系統(tǒng)及方法。根據(jù)本發(fā)明的一個實施例的一種堿基序列對準系統(tǒng),包括:誤差允許值計算單元,根據(jù)所接收的短片段的長度而計算所述短片段的誤差允許值;比較單元,計算所述短片段的誤差個數(shù)估計值,并將計算出的所述誤差個數(shù)估計值與所述誤差允許值進行比較;對準單元,當所述比較的結(jié)果為計算出的所述誤差個數(shù)估計值在所述誤差允許值以下時,執(zhí)行所接收的所述短片段的針對所述參考序列的全局對準(global alignment)。
【專利說明】考慮失配的堿基序列對準系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實施例涉及一種利用于遺傳信息解讀作業(yè)的堿基序列對準(alignment)技術(shù)。
【背景技術(shù)】
[0002]堿基序列對準算法是指將由用于生產(chǎn)堿基序列的測序機(或測序儀)產(chǎn)生的短片段(read)映射(mapping)于已知的參考序列(Reference Sequence)的算法。
[0003]參考序列與短片段序列之間的堿基序列對準基本上基于利用堿基序列的同源性(homology)的精確匹配(exact matching)。然而由于測序過程中的誤差以及生命體的遺傳信息上的變異(polymorphism)等,允許一定程度的誤差(失配:mismatch)的對準方法在堿基序列對準算法中實為必要,據(jù)此現(xiàn)有的堿基序列對準算法被構(gòu)成為在分別規(guī)定的范圍內(nèi)允許誤差。
[0004]另外,近來隨著下一代測序技術(shù)的發(fā)展,制造出短片段的成本減為之前的一半以下,據(jù)此可供使用的數(shù)據(jù)的量增加的同時生產(chǎn)出的短片段的長度也趨于多樣化。即,不僅每一個測序儀所生產(chǎn)出的短片段的長度不同,而且在一個測序儀中也在生成出不同長度的短片段(短片段序列)。并且由于測序儀的發(fā)達而使測序儀中生產(chǎn)出的短片段的長度亦逐漸增加,而對于以后要開發(fā)出的第三代測序儀來說,短片段的長度預(yù)計將會增加到5000bp。然而對于現(xiàn)有技術(shù)中的堿基序列對準算法而言,僅僅是根據(jù)測序儀制造商或者用戶設(shè)定的值(固定值)而機械地應(yīng)用誤差允許值,卻未能考慮產(chǎn)生的短片段的特性而可變地采用誤差允許值,于是存在不能反映輸出的短片段的長度趨于多樣化且其長度也在增加的狀況的問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的實施例的目的在于根據(jù)從測序儀接收的短片段的特性而按短片段分別計算最優(yōu)的誤差允許值以提高堿基序列分析的準確度。
[0006]根據(jù)本發(fā)明的一個實施例的一種堿基序列對準系統(tǒng),包括:誤差允許值計算單元,根據(jù)接收的短片段的長度而計算所述短片段的誤差允許值;比較單元,計算所述短片段的誤差個數(shù)估計值,并將計算出的所述誤差個數(shù)估計值與所述誤差允許值進行比較;對準單元,當所述比較的結(jié)果為計算出的所述誤差個數(shù)估計值為所述誤差允許值以下時,執(zhí)行所接收的所述短片段的針對所述參考序列的全局對準(global alignment)。
[0007]可將所述誤差允許值設(shè)定為與所述短片段的長度成比例。
[0008]所述誤差允許值可通過如下的數(shù)學(xué)式進行計算:
[0009]0〈誤差允許值彡 ceil (AXRlength+B)+K
[0010]其中,Rlength為短片段的長度,A為0.02與0.05之間的實數(shù),B為2.2以上且2.6以下的實數(shù),K為O以上且2以下的實數(shù),ceil⑴為大于或等于X的整數(shù)中最小的整數(shù)。
[0011]所述比較單元可從所述短片段的第一個堿基開始每次移動至少一個堿基而將所述短片段精確匹配于所述參考序列,且如果在所述短片段的特定位置上無法實現(xiàn)精確匹配,則從相關(guān)位置的下一個堿基開始每次移動至少一個堿基而重新執(zhí)行精確匹配,當?shù)竭_所述短片段的最后一個堿基時,所述比較單元可將被判斷為無法精確匹配的位置的個數(shù)設(shè)定為所述短片段的誤差個數(shù)估計值。
[0012]所述比較單元在所述比較的結(jié)果為計算出的所述誤差個數(shù)估計值超過所述誤差允許值的情況下,可廢棄所述短片段。
[0013]另一方面,根據(jù)本發(fā)明的一個實施例的一種堿基序列對準方法,包括如下步驟:在誤差允許值計算單元中,根據(jù)接收的短片段的長度而計算所述短片段的誤差允許值;在比較單元中,計算所述短片段的誤差個數(shù)估計值;在所述比較單元中,將計算出的所述誤差個數(shù)估計值與所述誤差允許值進行比較;在對準單元中,當所述比較的結(jié)果為計算出的所述誤差個數(shù)估計值為所述誤差允許值以下時,執(zhí)行所接收的所述短片段的針對所述參考序列的全局對準(global alignment)。
[0014]可將所述誤差允許值設(shè)定為與所述短片段的長度成比例。
[0015]所述誤差允許值可通過如下的數(shù)學(xué)式進行計算:
[0016]0< 誤差允許值彡 ceil (AXRlength+B)+K
[0017]其中,Rlength為短片段的長度,A為0.02與0.05之間的實數(shù),B為2.2以上且2.6以下的實數(shù),K為O以上且2以下的實數(shù),ceil⑴為大于或等于X的整數(shù)中最小的整數(shù)。
[0018]在計算所述誤差個數(shù)估計值的步驟中,可從所述短片段的第一個堿基開始每次移動至少一個堿基而將所述短片段精確匹配于所述參考序列,且如果在所述短片段的特定位置上無法實現(xiàn)精確匹配,則從相關(guān)位置的下一個堿基開始每次移動至少一個堿基而重新執(zhí)行精確匹配,當?shù)竭_所述短片段的最后一個堿基時,可將被判斷為無法精確匹配的位置的個數(shù)設(shè)定為所述短片段的誤差個數(shù)估計值。
[0019]進行所述比較的步驟還可以包括如下步驟:當所述比較的結(jié)果為計算出的所述誤差個數(shù)估計值超過所述誤差允許值時,廢棄所述短片段。
[0020]根據(jù)本發(fā)明的實施例,根據(jù)從測序儀接收的短片段的特性而按短片段分別采用最優(yōu)的誤差允許值,從而具有不論由測序儀生產(chǎn)出的短片段的特性如何均可維持堿基序列分析的準確率的優(yōu)點。據(jù)此,根據(jù)本發(fā)明的實施例,與測序儀的種類無關(guān)而能夠分析由多種測序儀生產(chǎn)出的所有種類的短片段。
【專利附圖】
【附圖說明】
[0021]圖1為用于說明根據(jù)本發(fā)明的一個實施例的堿基序列對準系統(tǒng)100的模塊圖。
[0022]圖2為用于舉例表示在根據(jù)本發(fā)明的一個實施例的堿基序列對準系統(tǒng)100的比較單元104中的mEB計算過程的圖。
[0023]圖3為用于說明根據(jù)本發(fā)明的一個實施例的堿基序列對準方法300的順序圖。
[0024]符號說明:
[0025]100:堿基序列對準系統(tǒng)102:誤差允許值計算單元
[0026]104:比較單元106:對準單元
【具體實施方式】
[0027]以下,參照附圖而對本發(fā)明的【具體實施方式】進行說明。然而這僅僅是示例,本發(fā)明并不局限于此。
[0028]在對本發(fā)明進行說明時,如果認為對有關(guān)本發(fā)明的公知技術(shù)的具體說明有可能對本發(fā)明的主旨造成不必要的混亂,則省略其詳細說明。另外,后述的術(shù)語為考慮到在本發(fā)明中的功能而定義的術(shù)語,其可能因使用者、運用者的意圖或慣例等而不同。因此,要以整個說明書的內(nèi)容為基礎(chǔ)而對其進行定義。
[0029]本發(fā)明的技術(shù)思想由權(quán)利要求書確定,以下的實施例只是用于將本發(fā)明的技術(shù)思想有效地說明給本發(fā)明所屬【技術(shù)領(lǐng)域】中具有普通知識的人員的一種手段。
[0030]在對本發(fā)明的實施例進行詳細說明之前,先對本發(fā)明中使用的術(shù)語進行如下說明。首先,“短片段(read) ”是指由基因組測序儀(genome sequencer)輸出的短小長度的堿基序列數(shù)據(jù)。短片段的長度通常為根據(jù)測序儀的類型而多樣地構(gòu)成為35?500bp(basepair,堿基對)左右,通常對于DNA堿基而言是用字母A、C、G、T來表示。
[0031]“參考序列(reference sequence) ”是指從所述短片段生成整個堿基序列時作為參照的堿基序列。在堿基序列分析中,是通過參照參考序列而將基因組測序儀中輸出的大量短片段進行映射以完成整個堿基序列。在本發(fā)明中,所述參考序列既可以是在堿基序列分析時預(yù)先設(shè)定的序列(例如,人類的整個堿基序列等),也可以將在基因組測序儀中制作出的堿基序列使用為參考序列。
[0032]“堿基(base) ”為構(gòu)成參考序列和短片段的最小單位。如前所述,對于DNA堿基而言可以由A、C、G、T這四種字母構(gòu)成,將這些分別稱為堿基。即,對于DNA堿基而言,通過四個堿基來表達,這對于短片段也一樣。只是對于參考序列而言,由于多種多樣的原因(測序錯誤、樣本錯誤等),可能會出現(xiàn)特定位置的堿基不知該用A、C、G或T中的哪種堿基去表示的情形,對于這種不明確的堿基通常是用N等專門的文字進行標記。
[0033]“種子(seed) ”是指為了短片段的映射而將短片段與參考序列進行比較時成為單位的序列。理論上,為了將短片段映射于參考序列,需要將整個短片段從參考序列的起始部分開始依次比較下去并計算短片段的映射位置。然而對于這種方法而言,映射一個短片段需要太長的時間和超強的計算能力,因此實際上是首先將作為由短片段的一部分構(gòu)成的片段的種子映射于參考序列而尋找出整個短片段的映射候選位置,并將整個短片段映射于對應(yīng)的候選位置(Global Alignment,全局對準)。
[0034]圖1為用于說明根據(jù)本發(fā)明的一個實施例的堿基序列對準系統(tǒng)100的模塊圖。如圖所示,根據(jù)本發(fā)明的一個實施例的堿基序列對準系統(tǒng)100包括:誤差允許值計算單元102、比較單元104、以及對準單元106。
[0035]誤差允許值計算單元102從測序儀等接收短片段,并根據(jù)所接收的短片段的長度而計算所述短片段的誤差允許值。
[0036]比較單元104計算所接收的所述短片段的誤差個數(shù)估計值,并將計算出的所述誤差個數(shù)允許值與由誤差允許值計算單元102計算出的誤差允許值進行比較。
[0037]對準單元106針對在比較單元104中進行比較的結(jié)果為誤差個數(shù)估計值在所述誤差允許值以下的短片段,執(zhí)行針對所述參考序列的全局對準(global alignment)。
[0038]以下對如上所述構(gòu)成的根據(jù)本發(fā)明的一個實施例的堿基序列對準系統(tǒng)100的構(gòu)成進行詳細說明。
[0039]計算誤差允許值
[0040]如前所述,誤差允許值計算單元102根據(jù)從測序儀等接收的短片段的長度而計算所述短片段的誤差允許值(MaxError)。此時,所述誤差允許值是指相關(guān)短片段內(nèi)可存在的誤差的最大值。在本發(fā)明的實施例中,可將所述誤差允許值設(shè)定為與輸入的短片段的長度成比例。即,隨著短片段的長度增加,由于測序錯誤、遺傳信息上的變異(polymorphism)等而使短片段中包含誤差的可能性增加。因此,如果不論短片段的長度如何而采用統(tǒng)一的誤差允許值,則可能出現(xiàn)特別是長度較長的短片段在堿基序列分析中被過多地排除的問題。因此,本發(fā)明的實施例構(gòu)成為,根據(jù)輸入的短片段的長度而可變地采用誤差允許值,從而能夠在短片段中應(yīng)用最優(yōu)的誤差允許值。
[0041]在一個實施例中,所述誤差允許值可通過如下的數(shù)學(xué)式I而進行計算。
[0042][數(shù)學(xué)式]
[0043]0〈誤差允許值彡 ceil (AXRlength+B)+K
[0044]在此,Rlength表示短片段的長度,A表示0.02與0.05之間的實數(shù),B表示2.2以上且2.6以下的實數(shù),K表示O以上且2以下的實數(shù),ceil⑴表示大于或等于X的整數(shù)中最小的整數(shù)。
[0045]例如在設(shè)定成A = 0.037、B = 2.399, K = 2的情況下,長度為10bp的短片段的誤差允許值為 ceil (0.037X100+2.399)+2 = 9。
[0046]計算誤差個數(shù)估計倌.
[0047]然后對比較單元104中的誤差個數(shù)估計值計算過程進行說明。在本發(fā)明的實施例中,誤差個數(shù)的估計可通過計算將所述短片段對準于所述參考序列時可能出現(xiàn)的誤差的最小值(mEB:minimum Error Bound)而實現(xiàn)。具體而言,可將比較單元104構(gòu)成為從短片段的第一個堿基開始每次移動一個堿基而將所述短片段精確匹配于參考序列,且如果在所述短片段的特定位置上無法實現(xiàn)精確匹配,則從相關(guān)位置的下一個堿基開始每次移動一個堿基而重新執(zhí)行精確匹配。當經(jīng)過這樣的過程而到達所述短片段的最后一個堿基時,比較單元104可將移動過程中被判斷為無法精確匹配的位置的個數(shù)設(shè)定為所述短片段的誤差個數(shù)估計值。
[0048]圖2為用于舉例表示比較單元104中的mEB計算過程的圖。首先,如圖2的(a)所示,起初將mEB設(shè)定為0,并從短片段的第一個堿基開始朝短片段的末尾方向每次至少移動一個堿基(在本實施例中為每次移動一個堿基)而嘗試精確匹配。此時,如圖2的(b)所示,假設(shè)從短片段的特定堿基(在圖中以箭頭表示的部分)開始無法再進行精確匹配。這一情況表示從短片段的匹配起始位置到當前位置之間的區(qū)間某處出現(xiàn)了誤差。因此在這一情況下便將mEB增加1,并在下一個位置上重新開始精確匹配(圖中以(c)表示)。此后如果在特定位置上再次判斷為無法精確匹配,則說明從重新開始精確匹配的位置到當前位置之間的區(qū)間某處又出現(xiàn)了誤差,因此再將mEB增加1,并在下一個位置重新開始精確匹配(圖中以(d)表示)。經(jīng)過這樣的過程而到達短片段的末尾時的mEB成為相關(guān)短片段中可能存在的誤差個數(shù)的最小值。
[0049]比較誤差允許值(MaxError)與誤差個數(shù)估計值(mEB)
[0050]如果經(jīng)過如上所述的過程而計算出誤差允許值(MaxEiror)和誤差個數(shù)估計值(mEB),比較單元104接著就會比較計算出的所述誤差個數(shù)估計值與誤差允許值。如果所述比較的結(jié)果為誤差個數(shù)估計值超過誤差允許值(mEB>MaxError),則比較單元104判斷相關(guān)短片段不再是對準的考慮對象,從而廢棄相關(guān)短片段。
[0051]但如果所述比較結(jié)果為誤差個數(shù)估計值在誤差允許值以下(mEB ( MaxError),則比較單元104向?qū)蕟卧?06請求相關(guān)短片段的對準,而對準單元106執(zhí)行相關(guān)短片段的針對所述參考序列的全局對準(global alignment)。
[0052]在本發(fā)明的實施例中,對準單元106中的短片段對準方法并不特別受限,本發(fā)明所屬【技術(shù)領(lǐng)域】中公知的方法均可不加限制地使用。在一個實施例中,對準單元106可以由短片段生成一個以上的種子,并將生成的種子映射于參考序列,然后在種子的映射位置上執(zhí)行短片段的其余堿基的全局對準,從而將短片段對準于參考序列。此外,對準單元106還可以考慮短片段的特性等而根據(jù)多種多樣的算法將短片段對準于參考序列。
[0053]圖3為用于說明根據(jù)本發(fā)明的一個實施例的堿基序列對準方法300的順序圖。
[0054]當有短片段從測序儀輸入時(302),首先由誤差允許值計算單元102根據(jù)所輸入的短片段的長度而計算所述短片段的誤差允許值(MaxEiror) (304)。如前所述,可將所述誤差允許值設(shè)定為與所述短片段的長度成比例,例如可以像前述的數(shù)學(xué)式I 一樣計算誤差允許值。
[0055]另外,雖然沒有圖示,然而在執(zhí)行所述誤差允許值計算步驟(步驟304)之前,還可以包括嘗試相關(guān)短片段對參考序列的精確匹配(exact matching)的步驟。在此情況下,如果所述短片段精確匹配于參考序列,則可以不用經(jīng)過以下的步驟而直接判斷為相關(guān)短片段對準成功。
[0056]如果計算出誤差允許值,比較單元104接著就會計算所述短片段的誤差個數(shù)估計值(mEB) (306)。關(guān)于所述誤差個數(shù)估計值的具體計算過程已在前面闡述。
[0057]然后,比較單元104將計算出的所述誤差個數(shù)估計值(mEB)與所述誤差允許值(MaxError)進行比較(308)。如果所述步驟308的比較結(jié)果為誤差個數(shù)估計值超過誤差允許值(mEB>MaxError),則比較單元104判斷相關(guān)短片段不再是對準的考慮對象,從而廢棄相關(guān)短片段(310)。然而,與此不同地,如果所述比較結(jié)果為誤差個數(shù)估計值在誤差允許值以下(mEB ( MaxError),則對準單元106執(zhí)行相關(guān)短片段的針對所述參考序列的全局對準(global alignment)(312)。
[0058]另外,本發(fā)明的實施例可以包括記錄有用于在計算機上執(zhí)行本說明書中記載的方法的程序的計算機可讀記錄介質(zhì)。所述計算機可讀記錄介質(zhì)可將程序命令、本地數(shù)據(jù)文件、本地數(shù)據(jù)結(jié)構(gòu)等單獨或組合而包含在內(nèi)。所述介質(zhì)可以是為了本發(fā)明而特別設(shè)計并構(gòu)成的,也可以是被計算機軟件領(lǐng)域中具有普通知識的人員所公知而可以使用的。計算機可讀記錄介質(zhì)的例中有硬盤、軟盤、磁帶之類的磁介質(zhì);CD-R0M、DVD之類的光記錄介質(zhì);軟盤之類的磁光介質(zhì)以及ROM、RAM、閃存等為了存儲并執(zhí)行程序命令而特別構(gòu)成的硬件裝置。程序命令的例中不僅包括通過編譯器制作的機器語言代碼,而且還可以包括利用解釋器并通過計算機而得以執(zhí)行的高級語言代碼。
[0059]以上已通過代表性實施例而對本發(fā)明進行了詳細說明,然而本發(fā)明所屬【技術(shù)領(lǐng)域】中具有普通知識的人員應(yīng)該會理解可以在不脫離本發(fā)明范圍的限度內(nèi)對所述的實施例進行多種多樣的變形。
[0060]因此,本發(fā)明的權(quán)利范圍不應(yīng)局限于所述的實施例而確定,而是要根據(jù)權(quán)利要求書及其等價內(nèi)容來確定。
【權(quán)利要求】
1.一種堿基序列對準系統(tǒng),包括: 誤差允許值計算單元,根據(jù)所接收的短片段的長度而計算所述短片段的誤差允許值; 比較單元,計算所述短片段的誤差個數(shù)估計值,并將計算出的所述誤差個數(shù)估計值與所述誤差允許值進行比較; 對準單元,當所述比較的結(jié)果為計算出的所述誤差個數(shù)估計值在所述誤差允許值以下時,執(zhí)行所接收的所述短片段的針對所述參考序列的全局對準。
2.如權(quán)利要求1所述的堿基序列對準系統(tǒng),其中,所述誤差允許值被設(shè)定為與所述短片段的長度成比例。
3.如權(quán)利要求2所述的堿基序列對準系統(tǒng),其中,所述誤差允許值通過如下的數(shù)學(xué)式進行計算: 0〈誤差允許值彡 ceil (AXRlength+B)+K, 其中,Rlmgth為短片段的長度,A為0.02與0.05之間的實數(shù),B為2.2以上且2.6以下的實數(shù),K為O以上且2以下的實數(shù),ceil⑴為大于或等于X的整數(shù)中最小的整數(shù)。
4.如權(quán)利要求1所述的堿基序列對準系統(tǒng),其中,所述比較單元從所述短片段的第一個堿基開始每次移動至少一個堿基而將所述短片段精確匹配于所述參考序列,且如果在所述短片段的特定位置上無法實現(xiàn)精確匹配,則從相關(guān)位置的下一個堿基開始每次移動至少一個堿基而重新執(zhí)行精確匹配,當?shù)竭_所述短片段的最后一個堿基時,所述比較單元將被判斷為無法精確匹配的位置的個數(shù)設(shè)定為所述短片段的誤差個數(shù)估計值。
5.如權(quán)利要求1所述的堿基序列對準系統(tǒng),其中,所述比較單元在所述比較的結(jié)果為計算出的所述誤差個數(shù)估計值超過所述誤差允許值的情況下,廢棄所述短片段。
6.一種堿基序列對準方法,包括如下步驟: 在誤差允許值計算單元中,根據(jù)所接收的短片段的長度而計算所述短片段的誤差允許值; 在比較單元中,計算所述短片段的誤差個數(shù)估計值; 在所述比較單元中,將計算出的所述誤差個數(shù)估計值與所述誤差允許值進行比較; 在對準單元中,當所述比較的結(jié)果為計算出的所述誤差個數(shù)估計值為所述誤差允許值以下時,執(zhí)行所輸入的所述短片段的針對所述參考序列的全局對準。
7.如權(quán)利要求6所述的堿基序列對準方法,其中,所述誤差允許值被設(shè)定為與所述短片段的長度成比例。
8.如權(quán)利要求7所述的堿基序列對準方法,其中,所述誤差允許值為通過如下的數(shù)學(xué)式進行計算: 0〈誤差允許值彡 ceil (AXRlength+B)+K, 其中,Rlmgth為短片段的長度,A為0.02與0.05之間的實數(shù),B為2.2以上且2.6以下的實數(shù),K為O以上且2以下的實數(shù),ceil⑴為大于或等于X的整數(shù)中最小的整數(shù)。
9.如權(quán)利要求6所述的堿基序列對準方法,其中,在計算所述誤差個數(shù)估計值的步驟中,從所述短片段的第一個堿基開始每次移動至少一個堿基而將所述短片段精確匹配于所述參考序列,且如果在所述短片段的特定位置上無法實現(xiàn)精確匹配,則從相關(guān)位置的下一個堿基開始每次移動至少一個堿基而重新執(zhí)行精確匹配,當?shù)竭_所述短片段的最后一個堿基時,將被判斷為無法精確匹配的位置的個數(shù)設(shè)定為所述短片段的誤差個數(shù)估計值。
10.如權(quán)利要求6所述的堿基序列對準方法,其中,進行所述比較的步驟還包括如下步驟: 當所述比較的結(jié)果為計算出的所述誤差個數(shù)估計值超過所述誤差允許值時,廢棄所述短片段。
【文檔編號】G06F19/18GK104239748SQ201410275667
【公開日】2014年12月24日 申請日期:2014年6月19日 優(yōu)先權(quán)日:2013年6月19日
【發(fā)明者】樸旻壻 申請人:三星Sds株式會社