專利名稱:編碼脫氧核糖核酸序列的方法和裝置及計算機可讀介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種編碼DNA序列的方法和裝置。尤其是,本發(fā)明涉及一種能通過更有效的壓縮,實現(xiàn)降低儲存空間和傳輸量,同時在儲存和傳輸DNA序列時提供安全性的編碼DNA序列的方法和裝置。
背景技術(shù):
隨著生物技術(shù)的發(fā)展,含有物種特定遺傳信息的DNA序列被加以分析和揭示。這種DNA序列分析能被用于各種目的,例如尋找導(dǎo)致表型變異和物種疾病的遺傳因子,該分析在借助于計算機的幫助下有效的進行。在這點上,必須將DNA序列轉(zhuǎn)換成計算機可讀形式。然而,由于DNA序列包含大量的遺傳信息以及DNA序列存儲量的需要增加,需要花費大量的財力來存儲和傳輸DNA序列。因此,為了保證DNA序列的存儲、傳輸和搜索,需要對DNA序列進行壓縮。
一種DNA序列的壓縮方法大體分為基于詞典的和非基于詞典基礎(chǔ)的?;谠~典的壓縮方法可以獲得較高的壓縮率。根據(jù)這種壓縮方法,壓縮率一般為70%至80%。然而,這種壓縮方法不適于對整個基因組DNA序列的壓縮。
目前最有效DNA序列壓縮方法能實現(xiàn)對整個基因組的壓縮。根據(jù)這種策略,據(jù)報道壓縮率一般為70%至80%,而對于E.coli基因組的壓縮率達(dá)到96.6%。然而,這些壓縮率僅為簡單的推測值,沒有關(guān)于獲得這些壓縮率的具體方法的報道。
發(fā)明內(nèi)容
本發(fā)明提供了一種能通過更有效的壓縮,實現(xiàn)降低儲存空間和傳輸?shù)膫鬏斄浚瑫r在存儲和傳輸DNA序列時提供安全的編碼DNA序列的方法和裝置。
本發(fā)明還提供了一種具體化的計算機可讀介質(zhì),在該介質(zhì)之上存在一種能實現(xiàn)通過更有效的壓縮降低儲存空間和轉(zhuǎn)移傳輸量,同時在存儲和傳輸DNA序列時提供安全的編碼DNA序列的方法的計算機程序。
根據(jù)本發(fā)明的一方面,提供了一種編碼DNA序列的裝置,包括一比較單元,用于將要編碼的對象序列與已知DNA信息的參考序列對齊,提取對象序列和參考序列的差異;一轉(zhuǎn)換單元,用于將對象序列與參考序列的差異的信息轉(zhuǎn)換為預(yù)定的字符串;一編碼存儲單元,用于存儲相應(yīng)于單個字符的預(yù)定的轉(zhuǎn)換編碼;和一編碼單元,用于編碼采用轉(zhuǎn)換編碼來編碼組成字符串的單個字符。
根據(jù)本發(fā)明的另一方面,提供一種編碼DNA序列的方法,包括將要編碼的對象DNA序列與已知DNA信息的參考DNA序列對齊;提取參考序列與對象序列的差異;將對象序列與參考序列的差異轉(zhuǎn)換為預(yù)定的字符串;采用相應(yīng)于單個字符的預(yù)先設(shè)定的轉(zhuǎn)換編碼來編碼組成字符串的單個字符。
因此,一DNA序列能以90%或以上的壓縮率進行存儲而不丟失遺傳信息,從而能獲得高的安全性。此外,這種高的壓縮率能有效的存儲基因組序列或基因組特定部分的多種DNA序列。
參考如下附圖并結(jié)合具體實施例的詳述,本發(fā)明的上述和其他方面的特性將更明確圖1顯示了根據(jù)本發(fā)明實施例的編碼DNA序列的裝置結(jié)構(gòu)框圖;圖2顯示了采用NCBI blast工具比較對象DNA和參考DNA序列所獲的比較結(jié)果;圖3是說明將通過在比較單元中比較所獲得的參考DNA序列與對象DNA序列的差異信息轉(zhuǎn)換為字符串的原理圖;圖4顯示了編碼字符串的4比特編碼;圖5顯示了將mody3基因外顯子轉(zhuǎn)換為字符串和字符串的4比特編碼;圖6顯示了根據(jù)本發(fā)明的實施例編碼DNA序列的過程的流程圖;圖7顯示了根據(jù)本發(fā)明另一實施例的編碼DNA序列的裝置結(jié)構(gòu)的框圖;圖8顯示了根據(jù)表2中的變異序列誘導(dǎo)因子修改的參考序列的過程;
圖9顯示了根據(jù)本發(fā)明另一實施例的編碼DNA序列過程的流程圖。
具體實施例方式
在下文中,將參考附圖進一步描述根據(jù)本發(fā)明的一種編碼DNA的裝置和方法。
圖1顯示了根據(jù)本發(fā)明實施例的編碼DNA序列的裝置結(jié)構(gòu)框圖。
參考圖1,編碼DNA序列的裝置100包括一比較單元110、分割單元120、轉(zhuǎn)換單元130、編碼單元140、壓縮單元150、編碼存儲單元160和序列存儲單元170。
比較單元110用于將待編碼的對象序列與已知DNA信息的參考序列相對準(zhǔn),以提取二序列間的差異。此時,參考序列與對象序列對齊從而使一致的堿基優(yōu)最優(yōu)化地相配。分割單元120用于將提取得到的對象序列和參考序列間的差異信息分割成預(yù)定大小的片段。優(yōu)選的,這樣的分割使每一片段的大小等于序列存儲單元170整個容量的15%。圖2顯示了采用NCBI blast工具比較對象DNA序列和參考DNA序列的比較結(jié)果。該比較結(jié)果能以text、html、或xml文檔格式輸出。一已知的分析方法能從比較結(jié)果中提取參考序列和對象序列的差異信息。
轉(zhuǎn)換單元130將提取的對象序列與參考序列間的差異信息轉(zhuǎn)換為16字符的字符串。參考序列與對象序列的差異將分為6種類型。在轉(zhuǎn)換單元130中,該6種不同類型將表達(dá)為16字符的字符串。這些16個字符包括從0到9的10個數(shù)字字符,4個DNA符號A,T,G,C,和用于識別信息的兩個標(biāo)識符。表1顯示了表達(dá)參考序列和對象序列差異信息的16個字符,及其對應(yīng)的說明。
表1
現(xiàn)在參考圖3,將描述將參考序列和對象序列的差異轉(zhuǎn)換為字符串的原理。不過,圖3的原理僅用于說明,本發(fā)明并不限于此或并不受它們限制。
首先,將分析參考序列和對象序列的差異類型。
A.開始區(qū)不匹配對象序列的開始區(qū)的X-3至X-1位都未在參考序列中出現(xiàn),相應(yīng)的為gac序列。
B.空白參考序列的X6到X7位的區(qū)域都未在對象序列中出現(xiàn),相應(yīng)的為ta序列。
C.單個堿基對不匹配在X11位,參考序列和對象序列的DNA堿基不一致。
D.插入未在參考序列中出現(xiàn)的atgcat序列出現(xiàn)在對象序列X13和X14間。
E.多處堿基對不匹配在X16至X18區(qū)域間,參考序列的DNA堿基不同于對象序列的DNA堿基。
F.終止區(qū)域不匹配對象序列的X22至X23終止序列未在參考序列中出現(xiàn),相應(yīng)的為ag序列。
下面,上述不同差異類型將被循序的轉(zhuǎn)換為字符。
A型轉(zhuǎn)換為“/-3~3gac/3”字符。在這里,第一個“/”表示A型開始。“-3”表示A型的起始位點,也就是,從起始點X0處上游的第3號位?!啊北硎続型的持續(xù)。第一個“3”表示A型持續(xù)的長度?!癵ac”表示對象序列不同于參考序列的開始DNA堿基對。第二個“/”表示A型結(jié)束。第二個“3”表示A型起始位點與終止位點之間的距離。
B型轉(zhuǎn)換為“/6/2”字符。在這里,“/6”表示B型的開始點位于X0下游的6個堿基處的X6的位置,是由表示A型的開始位點和終止位點間距離的“3”所決定的位置。“2”表示B型起始位點與終止位點之間的距離。
C型轉(zhuǎn)換為“/3~1c/1”字符。在這里,“/3”表示C型的開始點位于X11,也就是X8下游的3個堿基處的位置,X8是表示B型的開始位點和終止位點間距離的“2”所決定的位置?!啊?”表示C型持續(xù)的堿基數(shù)目為一?!癱”表示了對象序列不同于參考序列的DNA堿基?!?”表示C型起始位點與終止位點之間的距離。
D型轉(zhuǎn)換為“/1~6atgcat/1”字符。在這里,“/1”表示D型的開始點位于X13,也就是X12下游的1個堿基處的位置,X12是由表示C型的開始位點和終止位點間距離的“1”所決定的位置。“~6”表示D型持續(xù)的堿基數(shù)目為六。“atgcat”表示了對象序列不同于參考序列的DNA堿基。最后的“1”表示D型起始位點(X13)與終止位點之間的距離。距離“1”表示DNA序列的插入。
E型轉(zhuǎn)換為“/2~3tcc/3”字符。在這里,“/2”表示E型的開始點位于X16,也就是X14下游的2個堿基處的位置,X14是由表示D型的開始位點和終止位點間距離的“1”所決定的位置?!啊?”表示E型持續(xù)的堿基數(shù)目為三?!皌cc”表示了對象序列不同于參考序列的DNA堿基。最后的“3”表示E型起始位點(X16)與終止位點之間的距離。
F型轉(zhuǎn)換為“/3~2ag/2”字符。在這里,“/3”表示F型的開始點位于X22,也就是X19下游的3個堿基處的位置,X19是由表示E型的開始位點和終止位點間距離的“3”所決定的位置?!啊?”表示F型持續(xù)的堿基數(shù)目為二。“ag”表示了對象序列不同于參考序列的DNA堿基。最后的“2”表示F型起始位點(X22)與終止位點之間的距離。
根據(jù)上述描述,對象序列將由如下字符串表示。由于1個字節(jié)等于1個字符,總字符串的大小為50字節(jié)。
“/-3~3gac/3/6/2/3~1c/1/1~6atgcat/1/2~3tcc/3/3~2ag/2”編碼單元140采用存儲于編碼存儲單位160中的4比特編碼來編碼組成字符串的單個字符。圖4為一存儲于編碼存儲單元160中的例子。圖3中各類型的單個字符串的4比特編碼結(jié)果如下/-3~3gac/311100000000000111111001111001010110111100011/6/21110011011100010/3~1c/11110001111110001110111100001/1~6atgcat/111100110111110101011110011011010110111100001/2~3tcc/3111000101111001110111101110111100011/3~2ag/211100011111100101010110011100010因此,從編碼單元140中輸出的最終編碼結(jié)果如下??偞笮?5字節(jié)。
11100000000000111111001111001010110111100011111001101110001011100011111100011101111000011110011011111010101111001101101011011110000111100010111100111011110111011110001111100011111100101010110011100010
壓縮單元150采用常用的壓縮方法對編碼結(jié)果進行壓縮。壓縮結(jié)果存儲于序列存儲單元170。
當(dāng)將對象序列與參考序列的差異信息轉(zhuǎn)換為字符串并將該字符串的4比特編碼應(yīng)用于mody3基因外顯子時,可獲得98.9%或更多的壓縮率。此外,當(dāng)已編碼的mody3基因的外顯子被壓縮時,可以獲得更高的壓縮率。圖5顯示了mody3基因的外顯子轉(zhuǎn)換為字符串和該字符串的4比特編碼的結(jié)果。參考圖5,大小為5552字節(jié)的mody3基因的外顯子轉(zhuǎn)換為122字節(jié)的字符串,同時進一步編碼成為61字節(jié)的字符串。壓縮率等于98.9%。
同時,根據(jù)本發(fā)明的DNA序列編碼裝置還可包括一預(yù)處理單元用于支持對相同DNA序列的各種編碼格式。預(yù)處理單元用作對DNA序列加密的部件。一般的,在編碼的DNA序列存儲在存儲部件前,將對編碼的DNA序列進行預(yù)先設(shè)定的安全和加密設(shè)置。然而,根據(jù)本發(fā)明的DNA序列編碼裝置用于對DNA序列采用特定的安全和加密措施。帶有預(yù)處理單元的DNA序列編碼裝置創(chuàng)建模板DNA序列,從創(chuàng)建的模板DNA序列中選出可用做加密密鑰的DNA序列,然后編碼對象DNA序列。對采用上述方法編碼的DNA序列進行解碼,需要有于帶有預(yù)處理單元的DNA編碼裝置相對應(yīng)的解碼裝置。因此,一旦出現(xiàn)惡意分配或截取密鑰的情況,根據(jù)本發(fā)明的方法編碼的DNA序列將比采用標(biāo)準(zhǔn)加密算法的傳統(tǒng)加密方法有更高的安全性。
根據(jù)本發(fā)明的對DNA序列進行編碼的方法可以在用于生物信息學(xué)的普通計算機系統(tǒng)上實現(xiàn),例如個人計算機(PC),工作站,和超級計算機。對一物種的已知基因組DNA序列進行編碼和壓縮的方法可被分為6個步驟。
圖6顯示了根據(jù)本發(fā)明一實施例的DNA序列的編碼方法的流程圖。
參考圖6,將一物種的已知參考序列和需要存儲的對象序列的差異信息提取出來(步驟S600)。步驟S600中的序列比較可以通過生物信息學(xué)中已知的傳統(tǒng)同源序列檢索系統(tǒng)來實現(xiàn)。可采用的同源序列檢索系統(tǒng)的例子包括Blast,Blat,F(xiàn)asta和Smith-Waterman算法。根據(jù)任一系統(tǒng),參考序列和對象序列將對齊和比較。輸出的文檔通過已知的分析技術(shù)進行分析從而獲得差異信息。由于,本發(fā)明的目的在于僅僅編碼兩個DNA序列的差異信息,因此對齊兩個DNA序列很重要,從而使兩DNA序列的一致的堿基序列被最優(yōu)地匹配。
下一步,步驟S600的輸出文檔將被分割成適合存儲器處理的片段大小(步驟S610)。由于整個基因組序列大小為幾百兆字節(jié),不適于一次編碼整個輸出文檔?;诖?,對齊和序列比較的結(jié)果被分成許多片段,片段大小相應(yīng)于根據(jù)本發(fā)明的序列編碼裝置的整個存儲器的15%。
下一步,參考序列和對象序列的差異信息被轉(zhuǎn)換為字符串(步驟S620)。參考序列和對象序列的差異可以被分為6種類型。在步驟S620中,這6種類型轉(zhuǎn)換為16個字符的字符串。這16個字符包括0到9這10個數(shù)字字符,A,T,G,C4個DNA符號,和用于識別信息的2個標(biāo)識符。
所述的6種類型包括起始區(qū)不匹配、空白、單個堿基對不匹配、插入、和終止區(qū)域不配對,這些都是本領(lǐng)域普通技術(shù)人員很容易理解的術(shù)語。
這16個字符的組合可以將差異信息表達(dá)為字符串的形式,例如6種類型的位置、DNA序列、和長度等。通過與參考信息相比較,這些字符串可以恢復(fù)為原始對象序列的形式而且不會丟失序列信息。這種恢復(fù)通過反向進行對象DNA序列至字符串的轉(zhuǎn)換實現(xiàn)。
下一步,以字符串形式表達(dá)的DNA序列通過以4比特編碼的形式被編碼(步驟S630)。組成字符串的單個字符可表達(dá)為4比特編碼。
下一步,4比特的編碼結(jié)果采用傳統(tǒng)的壓縮算法進行壓縮(步驟S640)。因此,這里用的壓縮算法可以是數(shù)據(jù)壓縮領(lǐng)域眾所周知的工具,例如LZ78,Hoffman編碼,和計算編碼。此外,與遺傳信息壓縮相關(guān)的各種已知的壓縮技術(shù)都可以采用。壓縮后的DNA序列可在各種存儲裝置例如硬盤和CD中進行存儲(步驟S650)。
圖7為一方框圖,顯示了根據(jù)本發(fā)明另一實施例的編碼DNA序列的裝置的結(jié)構(gòu)。除了預(yù)處理單元180、加密單元185、和變異序列存儲單元190外,圖7中顯示的DNA序列編碼裝置剩下的組成元件與參考圖1實施例描述的結(jié)構(gòu)一樣,因此,相應(yīng)的詳細(xì)描述予以省略。
參考圖7,預(yù)處理單元180對待編碼的DNA序列的參考序列進行預(yù)處理,在預(yù)處理單元180中進行的預(yù)處理過程是一種對DNA信息加密的過程。當(dāng)進一步采用加密單元185時,編碼的DNA序列信息可被雙重加密。在這種情況下,加密單元185采用一種本發(fā)明申請目前已公知的加密算法對本發(fā)明中的DNA序列編碼裝置編碼的DNA序列信息進行加密。
預(yù)處理單元180對參考序列的預(yù)處理過程如下。第一步,對參考序列創(chuàng)建變異序列生成函數(shù)。變異序列生成函數(shù)為一函數(shù),其使用可以通過計算科學(xué)中例如隨機數(shù)生成算法的技術(shù)具體方法獲得的隨機變量作為輸入。變異序列生成函數(shù)的輸出(在下文中,稱為“變異序列誘導(dǎo)系數(shù)”)包括變異的全部總量(TotalNv)、變異間的距離(Nd)、變異的長度(Lv)、變異的類型(插入/取代)、和變異的序列(A,T,G,C,N空的)。當(dāng)變異總數(shù)為4,如下表2中展示了每一變異的變異序列生成因子的實例。在此,“空的”不能與另一變異序列一起出現(xiàn)。當(dāng)“空的”與另一變異序列一起出現(xiàn)時,它表現(xiàn)位數(shù)目與變異序列的長度相對應(yīng)。
表2
圖8顯示了根據(jù)列于表2中的變異序列生成因子對參考序列修改的過程。參考圖8,參考序列的長度為1000bp。變異1產(chǎn)生于參考序列起始位點的第1035比特下游的第一個變異。變異1的長度為1,變異1的類型為取代,變異1的序列為T。預(yù)處理單元180通過變異序列生成函數(shù)輸出的變異序列生成因子對參考序列進行修改。也就是,考慮到單個變異元素(變異1,變異2,變異3,變異4),直到變異元素隊列為空時,在相應(yīng)于變異元素間的距離進行距離移動后,預(yù)定長度的預(yù)設(shè)變異序列在參考序列中進行取代或插入。變異序列存儲于變異序列存儲單元190,然后與對象序列一起輸入到比較單元110。在這種情況下,參考序列和選擇的變異序列誘導(dǎo)因子分別的作為密鑰保存。
圖7中的安全性的DNA序列編碼裝置與圖1中的裝置的不同點在于選擇參考序列的替代元素存在或缺少。在存在已知物種的一參考序列,和基于該參考序列編碼DNA序列的情況下,當(dāng)在缺乏參考序列信息的情況下對編碼序列進行解碼時,給出了相應(yīng)于編碼DNA序列長度的可能情況的數(shù)量。例如,當(dāng)一長度為100000bp長DNA序列采用根據(jù)本發(fā)明的DNA編碼裝置編碼進行編碼壓縮后,當(dāng)在缺乏參考序列信息情況下對編碼DNA序列進行解碼時,可能的情況下的數(shù)量等于選擇與已知基因組序列編碼長度中一樣的參考序列的可能情況的數(shù)量。因此,當(dāng)100000bp的人類DNA序列被編碼和壓縮時,在缺乏參考序列信息的情況下對編碼的人類DNA序列進行解碼可能出現(xiàn)的情況數(shù)量等于(人類DNA序列全部長度-編碼的人類DNA序列長度),也就是,(3.06×109-100000)?;诖耍话愕?,當(dāng)一長度為n的DNA序列進行編碼時,在缺乏參考序列信息的情況下對編碼的DNA序列進行解碼后,存在所有可能出現(xiàn)的組合,可能出現(xiàn)情況的總數(shù)為(3.06×109-n),可能出現(xiàn)的概率為1/(3.06×109-n)。因此,編碼一很長的DNA序列例如整個基因組序列將降低其安全因素。
然而,如上文所述,當(dāng)對在預(yù)處理單元中修改過的參考序列進行編碼時,DNA序列的安全性增強。預(yù)處理單元通過密鑰而作為一種加密裝置。在這里,密鑰為修改過的參考序列,加密文件為DNA序列。根據(jù)本發(fā)明,使用者可以根據(jù)安全性的等級來決定對參考序列的修改程度。這就意味著使用者可以控制要創(chuàng)建的密鑰數(shù)量。也就是,使用者可以使用比在加密算法,如通常采用的triple-DES中更少或更多的密鑰對DNA序列加密。在triple-DES算法中采用的密鑰數(shù)目為21682.56×1050。同時,根據(jù)圖7所示的DNA序列編碼裝置中產(chǎn)生的密鑰數(shù)目(Nkey)在如下等式1中所示。
等式1Nkey=LCTotalNv×2×(4×Lv+1)根據(jù)等式1,當(dāng)參考序列的長度為10000bp,總變異數(shù)目為16時,密鑰為大約4.72×1050,其數(shù)目大于triple-DES算法中產(chǎn)生的密鑰數(shù)目。
圖9顯示了采用圖7所示的DNA序列編碼裝置進行的DNA序列編碼過程的流程圖。
參考圖9,預(yù)處理單元180從用于產(chǎn)生隨機變量輸入的變異序列生成函數(shù)中獲得變異序列生成因子(步驟S900)。同樣,預(yù)處理單元180采用一些產(chǎn)生的變異序列生成因子修改參考序列,然后將修改了的參考序列存儲于變異序列存儲單元190中(步驟S910)。比較單元110提取修改的參考序列與待存儲的物種DNA序列,即對象序列的差異信息(步驟S920)。分割單元120將提取的差異信息分成適合于存儲器處理大小的片斷(步驟S930)。轉(zhuǎn)換單元130將參考序列和對象序列的差異信息轉(zhuǎn)換為字符串形式(步驟S940)。編碼單元140采用4比特編碼形式對組成字符串的單個字符進行編碼(步驟S950)。加密單元185采用通常的加密算法對編碼的DNA序列進行加密(步驟S960)。加密單元的加密處理是可選擇的。壓縮單元150采用通常的壓縮算法對加密后的結(jié)果進行壓縮(步驟S970)。壓縮后的DNA序列存儲于序列存儲單元170中或通過通訊網(wǎng)絡(luò)進行傳輸(步驟S980)。
根據(jù)本發(fā)明,只有已知參考序列與對象序列的差異信息才進行編碼和壓縮。因此,參考序列和對象序列間的同源性決定了壓縮的效率。根據(jù)一般生物學(xué)知識,相同物種的序列同源性達(dá)99%或以上?;诖?,可以說只有1%或更少的差異性被記載了。因此,當(dāng)本發(fā)明用于存儲和壓縮人類基因組序列時,可以預(yù)計獲得98.65%或以上的壓縮率。
這種人類基因組序列的理論壓縮率可以通過如下推測來解釋。本領(lǐng)域的普通技術(shù)人員能很合理的接受這些推測。一般的,在人類基因組中,由空白或插入引起的差異很少出現(xiàn),幾乎所有的變異都是由單個堿基對不匹配引起的。根據(jù)普通遺傳學(xué)可知,當(dāng)每100bp中出現(xiàn)1個差異時,待記載的信息總量等于原始信息總量的1%。因此,整個人類基因組的1%的信息將被編碼。一旦轉(zhuǎn)換為字符串形式,則將以每100bp8字符(/100~1/1)被進一步記載,因此使待記載的信息總量增加了8%。相應(yīng)的,待記載的信息總量等于原始信息量的9%。然而,當(dāng)字符串以4比特形式表示時,待記載的信息量將減少一半。最終,當(dāng)編碼的信息量通過壓縮率為70%的壓縮算法進行壓縮時,待記載的信息量等于原始信息量的1.35%。因此,當(dāng)整個人類基因組被壓縮時,理論上可達(dá)的最小壓縮率為98.65%。
本發(fā)明可以在一計算機可讀介質(zhì)上具體化為一種計算機可讀的編碼形式。計算機可讀介質(zhì)包括能被計算機系統(tǒng)識別的所有的存儲數(shù)據(jù)的記載介質(zhì)形式。比如,計算機可讀介質(zhì)包括ROM,RAM,CD-ROM,磁帶,軟盤,光數(shù)據(jù)存儲介質(zhì),載波(例如,通過因特網(wǎng)傳播)。同樣的,計算機可讀介質(zhì)可以存儲通過網(wǎng)絡(luò)連接在計算機系統(tǒng)上分布的計算機可讀的編碼,從而使計算機能通過一種分布的方式閱讀和執(zhí)行編碼。
從上述描述中明顯看出,根據(jù)本發(fā)明的編碼DNA序列的裝置和方法,DNA序列能被以90%或以上的壓縮率壓縮,而且不會丟失任何遺傳信息,然后被存儲。因此,基因組序列或基因組特定區(qū)段的多種DNA序列可以被保存。根據(jù)實施例,當(dāng)從數(shù)萬攜帶個別特定疾病基因的病人體內(nèi)分離出的該基因被測序和存儲時,壓縮存儲可以降低存儲空間。此外,能有效增加序列數(shù)據(jù)的傳輸速度和檢索效率。更進一步,由于僅有DNA之間的差異信息被記載,不同的DNA序列可以被有效的比較和檢索。比如,當(dāng)存在數(shù)萬的攜帶特定疾病基因的病人和正常人群的DNA序列時,病人與正常人群的序列差異性或健康人間的序列差異性可以被有效的檢索出來。同時,由于DNA序列在參考序列被修改后編碼,因此,在DNA序列信息存儲和傳輸時安全性提高。同樣的,由于1個或更多的大多數(shù)參考序列被不同的修改作為密鑰,可以保證獲得更高的安全性。
當(dāng)本發(fā)明的內(nèi)容通過具體實施例描述時,本領(lǐng)域的技術(shù)人員應(yīng)該明確在不超過權(quán)利要求要求保護的范圍的前提下從中可產(chǎn)生各種形式和細(xì)節(jié)上的改變。
權(quán)利要求
1.一種編碼DNA序列的裝置,包括一比較單元,用于將已知DNA信息的參考序列與待編碼的對象序列對齊,同時提取出參考序列和目的序的差異信息;一轉(zhuǎn)換單元,用于將提取的參考序列和對象序列的差異信息轉(zhuǎn)換為預(yù)定的字符串形式;一編碼存儲單元,用于存儲相應(yīng)于單個字符的預(yù)定的轉(zhuǎn)換編碼;和一編碼單元,用于通過使用轉(zhuǎn)換編碼來編碼組成字符串的單個字符。
2.權(quán)利要求1的裝置,其中所述的字符包括第一種字符代表DNA堿基的符號,第二種字符代表差異的數(shù)目,第三種字符代表差異開始和終止,第四種字符代表差異的持續(xù)。
3.權(quán)利要求2的裝置,其中所述的轉(zhuǎn)換單元分別將開始信息、起始位點、持續(xù)、持續(xù)的堿基數(shù)目、堿基、終止位點、差異起始位點和終止位點的距離分別轉(zhuǎn)換為第三種字符、第二種字符、第四種字符、第二種字符、第一種字符、第三種字符、和第二種字符,并將其輸出為字符串形式。
4.權(quán)利要求1的裝置,其中所述的差異包括參考序列與對象序列起始區(qū)域不匹配,對象序列相應(yīng)于參考序列堿基缺失產(chǎn)生的空白,參考序列和對象序列的單個堿基對不匹配,在對象序列中的堿基插入,參考序列和對象序列的多個堿基對不匹配,以及參考序列和對象序列的終止區(qū)域不匹配。
5.權(quán)利要求1的裝置,其中所述的轉(zhuǎn)換編碼為4比特編碼,其中每一個對應(yīng)一個字符。
6.權(quán)利要求1的裝置,進一步還包括一分割單元將提取的差異信息分成預(yù)設(shè)大小的片段,以及其中根據(jù)片段,所述轉(zhuǎn)換單元將提取的差異信息轉(zhuǎn)換為字符串。
7.權(quán)利要求1的裝置,還進一步包括一對編碼的對象序列進行壓縮的壓縮單元;和一存儲壓縮的對象序列的序列存儲單元。
8.權(quán)利要求1的裝置,還進一步包括一預(yù)處理單元,通過隨機變量輸入從變異序列生成函數(shù)中產(chǎn)生變異序列生成因子,和通過所產(chǎn)生的變異序列生成因子對參考序列進行修改。
9.權(quán)利要求8的裝置,所述的變異序列誘導(dǎo)因子包括變異總數(shù)、變異間的距離、變異的長度、變異的類型和變異的序列。
10.一種編碼DNA的方法,包括將已知DNA信息的參考序列與待編碼的對象序列對齊;提取參考序列和對象序列的差異;將提取的參考序列和對象序列的差異信息轉(zhuǎn)換為預(yù)定的字符串;和通過相應(yīng)于單個字符的預(yù)設(shè)轉(zhuǎn)換編碼來編碼組成預(yù)設(shè)字符串的單個字符。
11.權(quán)利要求10要求保護的方法,其中所述的字符包括第一種字符代表DNA堿基的符號,第二種字符代表差異的數(shù)目,第三種字符代表差異開始和終止的位置,第四種字符代表差異的持續(xù)。
12.權(quán)利要求11要求保護的方法,其中所述的轉(zhuǎn)換包括指定第三種字符為差異的開始;指定第二種字符為差異的起始位點;指定第四種字符為差異的持續(xù);指定第二種字符為差異持續(xù)堿基的數(shù)目;指定第一種字符為差異的堿基;指定第三種字符為差異的終止;指定第二種字符為差異開始的位點與差異終止的位點間的距離;輸出指定的字符串。
13.權(quán)利要求10的方法,其中所述的差異包括參考序列與對象序列起始位點不匹配、對象序列相應(yīng)于參考序列堿基缺失產(chǎn)生的空白、參考序列和對象序列的單個堿基對不匹配、在對象序列中的堿基插入、參考序列和對象序列的多個堿基對不匹配、以及參考序列和對象序列的終止區(qū)域不匹配。
14.權(quán)利要求10的方法,所述的轉(zhuǎn)換編碼為4比特編碼,其中每一個對應(yīng)一個字符。
15.權(quán)利要求10的方法,還進一步包括將提取的差異信息分為預(yù)設(shè)大小的片段,和其中在轉(zhuǎn)換步驟中,根據(jù)片段將提取的差異信息轉(zhuǎn)換為字符串形式。
16.權(quán)利要求10的方法,還進一步包括壓縮編碼的對象序列;和存儲壓縮的對象序列。
17.權(quán)利要求10的方法,還進一步包括,在序列對齊前,通過隨機變量輸入從變異序列誘導(dǎo)函數(shù)中產(chǎn)生變異序列誘導(dǎo)因子,和通過產(chǎn)生的變異序列誘導(dǎo)因子修改參考序列。
18.權(quán)利要求17的方法,所述的變異序列誘導(dǎo)因子包括變異總數(shù)、變異的距離、變異的長度、變異的類型和變異的序列。
19.一在其上具體加載有一種編碼DNA序列的方法的計算機程序的計算機可讀介質(zhì),所述方法包括將已知DNA序列的參考序列與待編碼的對象序列對齊;提取參考序列和對象序列的差異;將提取的參考序列和對象序列的差異信息轉(zhuǎn)換為預(yù)定的字符串;和通過相應(yīng)于單個字符的預(yù)設(shè)轉(zhuǎn)換編碼來編碼組成預(yù)設(shè)字符串的單個字符。
全文摘要
本發(fā)明提供了一種編碼DNA序列的裝置和方法。一比較單元用于將已知DNA信息的參考序列和待編碼的對象序列對齊,從而使兩序列的一致堿基可以最優(yōu)匹配,同時提取兩序列間的差異信息。一轉(zhuǎn)換單元用于將提取的參考序列和對象序列的差異信息轉(zhuǎn)換為預(yù)定的字符串。一編碼單元通過與存儲于編碼存儲單元的單個字符相對應(yīng)的預(yù)定轉(zhuǎn)換編碼來編碼組成字符串的單個字符。一壓縮單元通過常用的壓縮方法壓縮編碼的結(jié)果。壓縮結(jié)果存儲于序列存儲單元。
文檔編號G06F19/22GK1536068SQ200410028328
公開日2004年10月13日 申請日期2004年2月3日 優(yōu)先權(quán)日2003年2月3日
發(fā)明者安兌臻 申請人:三星電子株式會社