国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種全基因組dna序列拼接測(cè)序方法

      文檔序號(hào):395196閱讀:762來(lái)源:國(guó)知局
      專利名稱:一種全基因組dna序列拼接測(cè)序方法
      技術(shù)領(lǐng)域
      分子生物學(xué)技術(shù)
      背景技術(shù)
      高通量全基因組DNA測(cè)序在生物技術(shù)相關(guān)領(lǐng)域中具有非常重要的應(yīng)用。這類技術(shù)主要目的是在有限的時(shí)間內(nèi),完成一個(gè)物種的所有基因組DNA序列的測(cè)序工作。這類技術(shù)具有快速和高靈敏度的特點(diǎn),并且可以得到豐富的物種基因組序列信息;因此,在醫(yī)學(xué)相關(guān)檢測(cè),農(nóng)業(yè)病蟲(chóng)害快速鑒定,刑偵法醫(yī)鑒定等很多領(lǐng)域中,此類技術(shù)都有很大的商業(yè)應(yīng)用前景。在實(shí)際應(yīng)用中,現(xiàn)有的全基因組高通量測(cè)序技術(shù)可稱為“第二代全基因組測(cè)序技術(shù)”,這類技術(shù)并不是直接測(cè)定出某個(gè)物種的整體DNA 序列,而是通過(guò)一個(gè)“高通量化”的實(shí)驗(yàn)過(guò)程,在有限的時(shí)間(數(shù)周)內(nèi),測(cè)定出此物種基因組DNA的很多小片段序列(30個(gè)到100個(gè)堿基的長(zhǎng)度)。因此,現(xiàn)在的全基因高通量測(cè)序還被稱為“全基因組重測(cè)序”。全基因DNA測(cè)序的“高通量化”過(guò)程,涉及若干不同的具體操作和反應(yīng)。目前,三家公司的具體技術(shù)在這個(gè)測(cè)序領(lǐng)域中進(jìn)行著角逐,分別是ABI (Applied biosystem),羅氏(Roche)和Illumina,并有相關(guān)的儀器出售。這三家公司實(shí)現(xiàn)“高通量化”的技術(shù)特征可以描述為(i)所有的測(cè)序片段及其測(cè)序反應(yīng)都“展示”在一個(gè)平面支持物(我們?cè)谶@里可稱為測(cè)序板,對(duì)應(yīng)三家公司的不同稱呼)上。(ii)通過(guò)靈敏的圖像采集技術(shù),可以同一時(shí)間得到數(shù)百萬(wàn)甚至更多的反應(yīng)信息(熒光類別和強(qiáng)度)。(iii)將這些反應(yīng)信息進(jìn)行計(jì)算機(jī)整合,即可得到“展示”在測(cè)序板上的DNA片段的序列信息。然而,這種高通量測(cè)序方法并不能“真正”測(cè)得某物種全基因序列,僅能得到全基因組序列之中隨機(jī)選擇的短片段DNA的序列信息。組合這些短片段DNA序列,很難得到一個(gè)完整的基因組DNA序列,因此更不能有效檢測(cè)此基因組的各種變異,包括單核苷酸多態(tài)性和長(zhǎng)片段的結(jié)構(gòu)性變異。要注意的是,這些基因組變異才是我們實(shí)際應(yīng)用中最關(guān)心的內(nèi)容。由短片段DNA序列拼接出完整的基因組DNA序列,需要跨越一個(gè)幾乎不可解決的數(shù)學(xué)難題。我們以人類的基因組為例,其由約32億個(gè)堿基組成,分為23(24)條染色體(線性DNA序列)。如果我們所測(cè)得短片段均是70個(gè)堿基長(zhǎng)度的序列,由這樣的序列作為起點(diǎn)而嘗試去拼接人類基因組DNA的全序列。完成拼接的第一個(gè)先決條件是,不同位置的實(shí)際序列,在70個(gè)堿基范圍內(nèi)不能發(fā)生重復(fù)或者類似(具有一個(gè)堿基差別的類似,這考慮了測(cè)序過(guò)程中可能產(chǎn)生約I %的錯(cuò)誤)。這個(gè)條件在很多的染色體序列中是不能滿足的。即便假設(shè)在70個(gè)堿基范圍內(nèi)不發(fā)生重復(fù)或類似,想得到完整的人類基因組序列,我們需要(3200000000/70) X k個(gè)位置隨機(jī)選擇的片段。這個(gè)系數(shù)k得上百甚至更多,以保證我們每段拼接都有足夠好的重疊,進(jìn)而保證每段拼接都有足夠的可信性。為了“真正”拼接測(cè)序某一物種的全基因DNA序列,特別是未知生物的全基因序列信息,我們發(fā)展了一種全基因組DNA序列拼接測(cè)序方法。該方法的優(yōu)點(diǎn)在于,通過(guò)特殊的測(cè)序底物制備策略,為測(cè)序的短片段保留了基因組位置信息,使得每一個(gè)短片段不再是孤立的,而是基因組DNA片段(100k甚至更長(zhǎng))的一員。在這種情況下,在70個(gè)堿基范圍內(nèi)發(fā)生序列重復(fù)或相似的片段也可以精確拼接到全基因組序列中。對(duì)于可能發(fā)生的各種基因組變異,特別是長(zhǎng)片段結(jié)構(gòu)性變異,可以通過(guò)基因組位置信息進(jìn)行精確測(cè)量和拼接??偟目磥?lái),我們發(fā)明的拼接測(cè)序方法不再局限于“全基因組重測(cè)序”,可以對(duì)任何的未知物種的基因組,通過(guò)類似“編藤條”的方式拼接出全部DNA序列。

      發(fā)明內(nèi)容
      發(fā)明目的是在制備測(cè)序底物的同時(shí)保留測(cè)序片段的位置信息,使得可以拼接出物種的全基因組DNA序列。所采用的方案如下I、針對(duì)100到500kb的基因組DNA片段,在其兩端添加5’磷酸化和非磷酸化兩種不同接頭(這些接頭是特制的DNA雙鏈,其模式見(jiàn)圖I中Adapter A和Adapter A ’),或者在操作過(guò)程中逐個(gè)添加5’磷酸化和非磷酸化接頭的方法,使得整個(gè)DNA片段的一端以穩(wěn)定的磷酸二脂鍵錨定到測(cè)序板上,而另一端僅通過(guò)堿基配對(duì)的方式(以5’非磷酸化接頭的粘末端)與測(cè)序板上的擴(kuò)增引物相互作用。在這里,測(cè)序板是指布滿單鏈DNA擴(kuò)增引物的平面支持物。T4DNA連接酶能夠連接接頭和測(cè)序板上單鏈DNA擴(kuò)增引物的3’端的原因在于,接頭的粘末端和引物可以很好的配對(duì)(圖I中Adapter A和Adapter A’的粘末端)。然后加入T4 Polynucleotide Kinase,將5,非磷酸化的接頭磷酸化(圖3中的d, e, f)。2、在流動(dòng)槽中添加電泳緩沖液,并在兩端施加O. I 5V/cm的電場(chǎng),時(shí)間在10分鐘到12小時(shí),并采用45到15度逐步降溫的方式,使得基因組DNA片段的一端(對(duì)應(yīng)于最初5’非磷酸化接頭一端)指向正極方向。這時(shí),此端仍以堿基配對(duì)的方式與測(cè)序板上的擴(kuò)增引物相連,在較低的溫度下保持DNA的線性走向。終止電泳并保持液流流動(dòng),添加T4DNA連接酶將此端連以磷酸二脂鍵的方式與測(cè)序板上的擴(kuò)增引物穩(wěn)定相連(圖3中的g和圖4中的h)。3、添加雙鏈DNA特異的缺刻內(nèi)切酶(以Nt. CviPII缺刻內(nèi)切酶為最常用),以10到50kb的密度在雙端已錨定的基因組DNA片段上隨機(jī)產(chǎn)生缺刻,然后加入T7外切核酸酶從缺刻5’磷酸位置除去50到100個(gè)核苷酸(圖4中的i)。4、將3’末端含有8bp隨機(jī)序列的DNA引物(圖I中Prober A)通過(guò)T4DNA連接酶連接到缺刻的5’端,然后利用單鏈DNA特異的連接酶(此種酶的經(jīng)典類型即T4RNA連接酶,另有更高效的商用單鏈DNA連接酶)將引物5’末端與測(cè)序板上的擴(kuò)增引物3’端共價(jià)結(jié)合(圖4中的j,k)。5、采用步驟3中的方法,以500到1000個(gè)核苷酸的密度隨機(jī)產(chǎn)生缺刻,然后將5’末端含有8bp隨機(jī)序列和測(cè)序測(cè)序相關(guān)序列的DNA片段(圖I中Prober B)連接到缺刻的3 ’端(圖5中的I, m)。6、加入O. 126%的NaOH溶液,使得整個(gè)基因組DNA片段解體(由于大量缺刻的存在,整個(gè)基因組DNA片段會(huì)很快變性解體),并進(jìn)行NaOH溶液清洗以除去沒(méi)有共價(jià)結(jié)合的DNA片段(來(lái)自基因組DNA片段的碎片)。在測(cè)序板上,按照步驟3中的缺刻位置會(huì)分布有一連串的長(zhǎng)度在500 IOOObp左右的DNA單鏈片段。以測(cè)序板上的序列為擴(kuò)增引物,進(jìn)行10輪以上的聚合酶鏈?zhǔn)椒磻?yīng)(Polymerase chain reaction, PCR),使得每個(gè)捕捉片段都在測(cè)序板上形成具有相同序列的克隆簇(圖5中的n,o)。后續(xù)的操作可以采用已成熟的“邊合成邊測(cè)序”方法(Illumina),或者“連接測(cè)序”的方案(Applied biosystem)對(duì)這些克隆簇DNA的兩端序列進(jìn)行測(cè)序。
      7、由短片段拼接整個(gè)基因組DNA序列的策略(i)將每個(gè)克隆簇DNA的兩端序列分別定義為兩個(gè)read ;采用優(yōu)化的算法將所有的read序列進(jìn)行匹配比較,保留具有重疊性質(zhì)的匹配以組成總的“匹配庫(kù)”。在這里優(yōu)化的匹配算法是指提取每個(gè)read的部分序列(每個(gè)read產(chǎn)生多個(gè)序列,既能保證匹配靈敏度,也能“容忍”單個(gè)堿基突變的測(cè)序偏差和單核苷酸多態(tài)性),以這些部分序列做出5bp序列類型的“指紋數(shù)據(jù)”。通過(guò)指紋數(shù)據(jù)排序比較,可以快速搜索出具有真實(shí)匹配的read。(ii)從“匹配庫(kù)”中任取一個(gè)匹配,按照重疊匹配關(guān)系延伸下去,可以構(gòu)建一個(gè)由read重疊起來(lái)的“可能的”大序列。(iii)如果這個(gè)大序列在2000bp的范圍遇到了屬于同一克隆簇的另一個(gè)序列,那么這個(gè)大序列下屬匹配的打分值增加I ;如果這個(gè)大序列在50kb范圍遇到了屬于同一基因組DNA片段的read,那么這個(gè)大序列的下屬匹配的打分值增加I。(iv)串聯(lián)起打分值最高的“可能的”大序列,即為整個(gè)基因組(染色體)的測(cè)序序列。如果出現(xiàn)“二分”性質(zhì)的打分值的分支,那么這個(gè)分支就是來(lái)源于基因組變異的多態(tài)性序列。以往的測(cè)序方法中,由于各種限制并不能完成對(duì)所有基因組的從頭測(cè)序(denovo sequence),只能根據(jù)現(xiàn)有的參考序列對(duì)測(cè)得的短序列進(jìn)行mapping。即便結(jié)合傳統(tǒng)方法進(jìn)行測(cè)序、然后進(jìn)行拼接;所得到的序列,由于只依賴于序列拼接的相似性等有限信息,所得序列的正確性,對(duì)序列變異的檢測(cè)結(jié)果都很有大的疑問(wèn)。我們的方法,可以通過(guò)所得序列克隆簇的距離,及本克隆簇內(nèi)兩個(gè)測(cè)序序列的可能距離,對(duì)所拼接的“可能序列”進(jìn)行系統(tǒng)評(píng)價(jià)。這樣就使得傳統(tǒng)方法不能測(cè)得的復(fù)雜序列得到有效測(cè)序和拼接??偟恼f(shuō)來(lái),我們采用了更穩(wěn)定可靠的拼接方案,可以實(shí)現(xiàn)整個(gè)未知基因組序列的順利拼接。


      圖I、發(fā)明方案中所用Adapter和引物序列的模式圖。在Adapter A和A’中,紅色是與平面支持物上擴(kuò)增引物相配對(duì)的序列,而黑色部分表示測(cè)序所用的引物序列,而藍(lán)色是標(biāo)識(shí)基因組DNA片段起始位置的序列。在ProberA中,橙色表示的是八個(gè)隨機(jī)核苷酸組成的序列,而黑色部分表示測(cè)序所用的序列。在Prober B中,橙色表示的是八個(gè)隨機(jī)核苷酸組成的序列,紅色表示與擴(kuò)增引物匹配的序列,并有部分配對(duì)鏈組成雙鏈,以排除測(cè)序板上擴(kuò)增引物的干擾,而黑色部分表示測(cè)序所用的序列。在Adapter A、Adpater A’、ProberA和Prober B中,可根據(jù)實(shí)際要求,在擴(kuò)增序列和測(cè)序序列之間加入若干核苷酸的間隔序列。圖2、一種使基因組DNA片段形成非對(duì)稱接頭的方法。其中a是基因組DNA片段,b是經(jīng)修復(fù)和末端加A (腺嘌呤脫氧核苷酸)的DNA片段,而c是利用AdapterA和A’比例為I : 3時(shí)進(jìn)行連接的結(jié)果。具體見(jiàn)實(shí)施例2步驟I。圖3、基因組DNA片段錨定在測(cè)序版上的一種定向化方案。其中d是布滿單鏈DNA擴(kuò)增引物的平面支持物,e兩端連有不同Adater的基因組DNA片段,f是已經(jīng)錨定一端的DNA片段,而g是通過(guò)電泳的方法使DNA指向正極方向。具體見(jiàn)實(shí)施例I步驟5、6、7、8。圖4、定向錨定的DNA片段上形成缺刻的方法。其中h是兩端已經(jīng)定向錨定的DNA片段,i是含有缺刻的DNA片段,j中黑色表示缺刻5’端連接有含有測(cè)序相關(guān)序列的單鏈DNA片段(Prober A),而k中缺刻處的單鏈DNA的5’端與平面支持物上的擴(kuò)增引物的3’端具有連接。具體見(jiàn)實(shí)施例I步驟9、10、11。
      圖5、通過(guò)缺刻捕捉實(shí)現(xiàn)DNA子序列按位置固定在測(cè)序板上。其中I中的黑色部分是新產(chǎn)生的缺刻,m中的新缺刻3’端與ProberB的5’端相連接,η表示變性后的缺刻捕捉位置所留下的500 IOOObp的單鏈DNA,ο是這些單鏈DNA形成局部克隆簇后的示意圖。這里要注意的是在ο中,沿著最初錨定的基因組DNA片段位置,會(huì)產(chǎn)生一些列按照“線性”序列排列的克隆簇。克隆簇的距離和缺刻間DNA的長(zhǎng)度有密切對(duì)應(yīng)關(guān)系。具體見(jiàn)實(shí)施例I步驟 12、13、14、15、16。圖6、基因組DNA片段定向錨定在測(cè)序板上的一種備選方法。這里要注意的是,b中Adapter A是連接到平面支持物上的,而e中直到基因組DNA片段一端錨定后,才在另一端添加AdapterA’。具體見(jiàn)實(shí)施例I步驟2、3、4。
      具體實(shí)施例方式實(shí)施例I :I、蛋白酶k/苯酚法抽提血液樣本的基因組DNA。為保證DNA的完整性(150kb以上),在苯酚進(jìn)行抽提后,將水相DNA轉(zhuǎn)移到透析袋(透析截留分子量IOOOkDa)中,并在4 攝氏度透析3小時(shí)。后續(xù)的操作中將直接在透析袋內(nèi)進(jìn)行,直至DNA片段連接到測(cè)序板上。在每步酶反應(yīng)進(jìn)行之前,將透析袋在10倍量以上的緩沖液(與反應(yīng)體系相同的緩沖液)透析30分鐘,4攝氏度。在進(jìn)行酶反應(yīng)時(shí),將透析袋放入含有少量緩沖液的50ml管中進(jìn)行。酶反應(yīng)之后,將透析袋放入10倍量以上的緩沖液(匹配下次反應(yīng)),進(jìn)行兩次透析,以除去上次反應(yīng)殘留的酶和緩沖液。對(duì)少量DNA樣品,可考慮用Millipore IOOkDa的超濾管,透析時(shí)間延長(zhǎng)I倍。2、用 T4DNA Polymerase 對(duì) DNA 進(jìn)行末端平滑化。透析除去 T4DNA Polymerase,然后加入BcaBestDNA Polymerase在DNA的兩端3’位置加核苷酸A (腺嘌呤脫氧核苷酸)。3、利用T4DNA Iigase可以使Adapter A連接到測(cè)序板上,15攝氏度,6小時(shí)以上。此時(shí),AdapterA需保持較低的用量,以使連接后的AdapterA具有較大的間隔,具體投放量可以按照如下計(jì)算(測(cè)序板面積(Um2)/1600Um)/80%。此后的酶反應(yīng)過(guò)程都是在流動(dòng)槽-測(cè)序板系統(tǒng)中進(jìn)行的。每一步反應(yīng)后的酶、緩沖液及可能多余DNA殘留,都可以很容易通過(guò)供液-排液系統(tǒng)清除掉,下面每一步不再詳述。4、利用T4DNA Iigase將步驟2中制備的DNA片段連接到測(cè)序板上。由于AdapterA的突出核苷酸T和DNA片段的A互補(bǔ)(圖I),并且投入的DNA片段量大于Adapter的量至少5倍,因此,可以以很高效率的連接到測(cè)序板上(圖6)。5、加入過(guò)量的Adapter A’,由于其具有突出T末端,可通過(guò)T4DNA Iigase連接到DNA片段的另一端。由于Adapter A’的粘末端對(duì)應(yīng)的5’位置沒(méi)有磷酸基團(tuán),所以DNA片段的另一端仍可以自由移動(dòng)。6、加入T4 Polynucleotide Kinase,將Adapter A’的粘末端 5’位置進(jìn)行磷酸化。7、更換電泳緩沖液,在流動(dòng)槽中進(jìn)行電泳,使得DNA片段指向一個(gè)方向。電泳最初電壓可控制在0. 5V/cm,并適當(dāng)提示整個(gè)體系的溫度在45度左右,使得DNA片段粘性末端具有較大的自由活動(dòng)傾向。15分鐘后,逐步降低整個(gè)體系的溫度,最終控制在15度。電泳緩沖液可以采用30mM Tris-HCl,pH 8.0。對(duì)于常用的流動(dòng)槽,可以考慮在進(jìn)液管和出液管處加入電極,并在電極處保留較多的緩沖液,使得電泳過(guò)程中產(chǎn)生的氣體及時(shí)排除。
      8、緩慢加入濃縮 IM MgCl2UM DTT、50mM ATP,時(shí)最終濃度為 IOmM MgCl2UOmMDTTUmM ATP。加入T4DNA連接酶,使最終濃度為O. 5個(gè)單位。一種備選方案是,可在控制電壓O. lV/cm的同時(shí),考慮分三批加入至最終濃度O. 6個(gè)單位的連接酶。反應(yīng)時(shí)間為3小時(shí)。9、加入微量的Nt. CviPII缺刻內(nèi)切酶,在雙鏈DNA上形成缺刻。此時(shí)需要控制加入酶的量和反應(yīng)時(shí)間,使得約20kb—個(gè)缺刻。利用T7 Exonuclease擴(kuò)大缺刻,對(duì)于平均每個(gè)缺刻位置,沿著5’端切去50 100個(gè)核苷酸。10、加入過(guò)量3’末端帶有8個(gè)隨機(jī)核苷酸的測(cè)序引物混合物(Prober A),并加入T4DNA連接酶。在此反應(yīng)條件下,測(cè)序引物的3’端會(huì)根據(jù)8個(gè)隨機(jī)核苷酸的配對(duì)情況,按照序列特異性連接到缺刻處的5’磷酸位置。11、加入CircLigase ssDNA Ligase,此時(shí)對(duì)于每個(gè)缺刻處已經(jīng)連接上的測(cè)序引物的5’端,周?chē)谐汕先f(wàn)個(gè)擴(kuò)增引物的3’端可供連接。酶反應(yīng)條件為15度3小時(shí)。
      12、再次加入Nt. CviPII缺刻內(nèi)切酶,在雙鏈DNA上形成缺亥lj,并用T7Exonuclease擴(kuò)大缺刻50 100個(gè)核苷酸。此時(shí)控制缺刻內(nèi)切酶的用量和反應(yīng)時(shí)間,使得約500bp —個(gè)缺刻。13、加入過(guò)量5’末端帶有8個(gè)隨機(jī)核苷酸的測(cè)序引物(含擴(kuò)增序列)混合物(Prober B),并加入T4DNA連接酶,使得切刻處的3’羥基和Prober B共價(jià)結(jié)合。14、加入O. 126%的NaOH溶液,使基因組DNA解體;并利用液流進(jìn)行清洗,除去體系中沒(méi)有與平面支持物共價(jià)結(jié)合的DNA。此時(shí),根據(jù)步驟9中缺刻形成位置,錨定有一些列的單鏈DNA片段。15、利用測(cè)序板上的引物作為擴(kuò)增引物,進(jìn)行10輪以上的PCR反應(yīng),可以在局部形成由相同DNA片段組成的克隆簇(示意圖可見(jiàn)圖5中的ο)。16、利用“邊合成邊測(cè)序”的方法(Illumina)進(jìn)行測(cè)序。17、我們附圖中提供的Adapter和引物序列為模式序列,只要能保證適合作為擴(kuò)增引物和測(cè)序引物即可。但是,此時(shí)引物設(shè)計(jì)應(yīng)注意,序列中不能含有GC和CG序列,因?yàn)槿笨虄?nèi)切酶Nt. CviPII作用于這樣的序列,會(huì)使部分已錨定的基因組片段去“錨定”。另外,GC的序列的具有高密度分布的特征,同時(shí),我們采用T7 Exonuclease在DNA片段5’端隨機(jī)切去50bp IOObp的核苷酸,這兩者共同保證了我們的缺刻捕捉位置是完全隨機(jī)分布的。18、在最初設(shè)計(jì)時(shí),Adapter A和A’在測(cè)序序列后分別加入了 AGT和TAC的特征序列,這有利于在最終結(jié)果中,判斷基因組DNA片段的頭和尾巴。對(duì)于測(cè)序板上,沿可能的捕捉的缺刻位置分布的DNA片段,我們采用橫坐標(biāo)和縱坐標(biāo)的相關(guān)系數(shù)(co-relation) >
      O.85作為判斷標(biāo)準(zhǔn),除去了一些不可信的捕捉序列組。最終我們得到了約5億個(gè)數(shù)據(jù)組,68億個(gè)reads。19、我們編寫(xiě)了專門(mén)的序列拼接工具bSeqAssemblyer。按照前述的由短片段拼接整個(gè)基因組序列的策略,我們可以拼接出總長(zhǎng)度約31億的DNA序列,約占參考人類基因組序列的96. 5% ο要注意的是,在實(shí)驗(yàn)步驟1、2、3、4中的DNA片段較大,要盡量減少操作過(guò)程中剪切力對(duì)DNA的影響。由于Nt. CviPII缺刻內(nèi)切酶的切割位點(diǎn)是GC序列特異的,所以在AdapterA> Adapter A’,Prober A、Prober B和擴(kuò)增引物設(shè)計(jì)中要避免正向和反向GC序列的出現(xiàn),以防止不必要的誤切而導(dǎo)致有效片段克隆簇的減少。實(shí)施例2 在前述操作中,實(shí)際DNA片段的使用量較大,并且前期操作過(guò)程較繁瑣,因此,我們嘗試采用改進(jìn)的策略,在試驗(yàn)最初,即在基因組DNA片段的兩側(cè)加入不對(duì)稱的Adapter。具體步驟如下I、承接實(shí)施例I中步驟2之后,我們按照I : 3的比例加入Adapter A和A’,然后加入T4DNA連接酶,15攝氏度反應(yīng)時(shí)間3小時(shí)。此時(shí),兩端含有Adapter A、兩端分別含有Adapter A和A’,兩端含有Adapter A’的DNA片段的比例為I : 6 : 9 (圖2)。2、將基因組DNA片段導(dǎo)入測(cè)序板中,加入T4DNA連接酶,15攝氏度反應(yīng)3小時(shí)。此時(shí),只有至少一端含有Adapter A的DNA片段被錨定,其余DNA片段仍處于游離狀態(tài)。液流清洗后,只有共價(jià)錨定的DNA片段保留在測(cè)序板上。 3、加入 T4Polynucleotide Kinase,將 Adapter A’ 的粘末端 5’ 位置進(jìn)行磷酸化。后續(xù)步驟采用和實(shí)施例I中相同的操作。4、對(duì)于測(cè)序板上,沿可能缺刻位置分布的DNA片段,我們采用橫坐標(biāo)和縱坐標(biāo)的相關(guān)系數(shù)(co-relation) > O. 79作為判斷標(biāo)準(zhǔn),除去了一些不可信的捕捉序列組。最終我們得到了約5億個(gè)數(shù)據(jù)組,65億個(gè)reads。利用拼接工具bSeqAssemblyer,我們可以拼接出總長(zhǎng)度約31億的DNA序列,約占參考人類基因組序列的96. 2%。
      權(quán)利要求
      1.一種全基因組DNA序列拼接測(cè)序方法,其特征在于基因組DNA片段在平面支持物上的定向錨定,錨定片段在隨機(jī)位置產(chǎn)生和擴(kuò)大缺刻,缺刻位置5’磷酸基團(tuán)的捕捉及測(cè)序-擴(kuò)增序列的連接,缺刻捕捉位置DNA的碎裂及測(cè)序-擴(kuò)增序列的連接,捕捉位置的局部DNA片段擴(kuò)增和測(cè)序,局部測(cè)序片段拼接完整基因組序列。
      2.如權(quán)利要求I所述基因組DNA片段在平面支持物上的定向錨定,錨定片段在隨機(jī)位置產(chǎn)生和擴(kuò)大缺刻,缺刻位置5’磷酸基團(tuán)的捕捉及測(cè)序-擴(kuò)增序列的連接,缺刻捕捉位置DNA的碎裂及測(cè)序-擴(kuò)增序列的連接,捕捉位置的局部DNA片段擴(kuò)增和測(cè)序,其特征是在布滿單鏈DNA擴(kuò)增引物的平面支持物上進(jìn)行的一系列酶-DNA生物化學(xué)反應(yīng)。
      3.如權(quán)利要求I所述基因組DNA片段在平面支持物上的定向錨定,其特征是IOOkb到.500kb的DNA片段兩端添加5’磷酸化和非磷酸化兩種不同接頭,并通過(guò)5’磷酸化的接頭與平面支持物上的單鏈DNA擴(kuò)增引物進(jìn)行DNA連接酶所催化的連接。
      4.如權(quán)利要求I所述基因組DNA片段在平面支持物上的定向錨定,其特征是使用O.I到5V每厘米的電場(chǎng)強(qiáng)度、10分鐘到12小時(shí)的電泳。
      5.如權(quán)利要求I所述基因組DNA片段在平面支持物上的定向錨定,其特征是將單側(cè)5’非磷酸化接頭在電泳前用激酶磷酸化,在電泳后將此接頭與平面支持物上的單鏈DNA擴(kuò)增引物進(jìn)行DNA連接酶所催化的連接。
      6.如權(quán)利要求I所述錨定片段在隨機(jī)位置產(chǎn)生和擴(kuò)大缺刻,其特征是以10到50kb的密度,用雙鏈DNA特異的缺刻酶隨機(jī)產(chǎn)生缺刻,并用T7核酸外切酶從缺刻處5’磷酸位置除去50到100個(gè)核苷酸。
      7.如權(quán)利要求I所述缺刻位置5’磷酸基團(tuán)的捕捉及測(cè)序-擴(kuò)增序列的連接,其特征是加入3’端含有8bp隨機(jī)序列并含有測(cè)序引物相關(guān)序列的單鏈DNA片段,并用DNA連接酶將此DNA片段連接到缺刻處5’磷酸位置。
      8.如權(quán)利要求7所述缺刻位置5’磷酸基團(tuán)的捕捉及測(cè)序-擴(kuò)增序列的連接,其特征是將缺刻位置已連接單鏈DNA片段5’端與平面支持物上的單鏈DNA擴(kuò)增引物的3’端,通過(guò)單鏈DNA連接酶進(jìn)行催化連接。
      9.如權(quán)利要求I所述缺刻捕捉位置DNA的碎裂及測(cè)序-擴(kuò)增序列的連接,其特征是以.500到IOOObp的密度,用雙鏈DNA特異的缺刻酶隨機(jī)產(chǎn)生缺刻,并用T7核酸外切酶從缺刻處5’磷酸位置除去50到100個(gè)核苷酸。
      10.如權(quán)利要求9所述缺刻捕捉位置DNA的碎裂及測(cè)序-擴(kuò)增序列的連接,其特征是加入5’端含有8bp隨機(jī)序列并含有測(cè)序引物相關(guān)序列的單鏈DNA片段,并用DNA連接酶將此DNA片段連接到缺刻處3’羥基位置。
      11.如權(quán)利要求I所述捕捉位置的局部DNA片段擴(kuò)增和測(cè)序,其特征是對(duì)捕捉的DNA片段進(jìn)行原位擴(kuò)增,并采用現(xiàn)有的“邊合成邊測(cè)序”或者“連接測(cè)序”的方法測(cè)序。
      12.如權(quán)利要求I所述局部測(cè)序片段拼接完整基因組序列,其特征是測(cè)量捕捉的局部DNA片段在平面支持物上的距離,以此距離作為權(quán)值對(duì)局部DNA片段拼接結(jié)果進(jìn)行打分。
      全文摘要
      一種全基因組DNA序列拼接測(cè)序方法,屬于生物技術(shù)領(lǐng)域,改進(jìn)了目前DNA測(cè)序的底物制備并提出新的序列拼接方法,應(yīng)用于生物、醫(yī)學(xué)、農(nóng)林牧副業(yè)相關(guān)DNA檢測(cè)。本專利涉及一系列DNA相關(guān)操作,包括基因組DNA兩端添加不對(duì)稱接頭,單端錨定到布滿擴(kuò)增引物的平面支持物上,通過(guò)電泳等方法使DNA片段定向化后錨定另一端,在DNA雙鏈上制造并擴(kuò)大缺刻,用含有隨機(jī)末端的測(cè)序引物連接到缺刻5’端,用單鏈DNA連接酶使擴(kuò)增引物與測(cè)序引物連接,增加缺刻數(shù)目等產(chǎn)生可測(cè)序的局部DNA片段。與現(xiàn)有測(cè)序技術(shù)相比,每個(gè)局部DNA片段都保留了距離信息,以距離作權(quán)值對(duì)局部序列的拼接結(jié)果進(jìn)行打分,可得到完整的基因組序列。我們的方法在拼接未知生物基因組和檢測(cè)基因組變異上具有突出的優(yōu)勢(shì)。
      文檔編號(hào)C12Q1/68GK102732598SQ20111008924
      公開(kāi)日2012年10月17日 申請(qǐng)日期2011年4月11日 優(yōu)先權(quán)日2011年4月11日
      發(fā)明者陳先鋒 申請(qǐng)人:陳先鋒
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1