利用密碼子隨機化和誘變來合成基因文庫的方法
【技術(shù)領(lǐng)域】
[0001] 本公開涉及一種容易地合成并分析具有蛋白遺傳突變的基因文庫和序列文庫的 方法。
【背景技術(shù)】
[0002] 通常,基因合成是指合成長核酸片段的技術(shù),其長度為200堿基對(bp)以上,包含 來自作為短核酸片段的寡核苷酸的遺傳信息。為此,用于基因合成、寡核苷酸合成和使用寡 核苷酸的基因組裝技術(shù)中的寡核苷酸的設(shè)計軟件是必要的。作為常見的寡核苷酸合成方 法,有固相寡核苷酸合成法和使用DNA微陣列的寡核苷酸合成法。組裝寡核苷酸的方法可 以大體分為三類方法,即,組裝PCR,融合PCR,和連接酶鏈?zhǔn)椒磻?yīng)(LCR)及隨后的融合PCR。 合成的基因必須經(jīng)過序列驗證,以發(fā)現(xiàn)由寡核苷酸的合成和組裝引起的錯誤,從而僅選擇 出具有正確遺傳信息的核酸片段。
[0003] 常規(guī)的基因合成一直是通過以下方式進行:將基因的正確核酸堿基序列分割 為多個短寡核苷酸以合成該基因,在將分割的寡核苷酸組裝后,通過Sanger測序進行 評估,從而選擇性地獲取具有正確的核酸堿基序列的基因 (Mol Biosyst. 2009年7月; 5(7):714-22.doi:10.1039/b822268c.Epub 2009 年4月 6 日)。然而,盡管開發(fā)了多種組 裝技術(shù),這種方法因缺乏適當(dāng)?shù)臏y序技術(shù)而具有局限性。近來,由于開發(fā)出了多種下一代測 序技術(shù)(例如,諸如Illumina技術(shù)或Ion Torrent技術(shù)以及454技術(shù)等多種技術(shù)),所處 理的序列信息量呈指數(shù)增長,而分析成本也在逐漸降低(Carr, P. A.和Church, G. M. (2009) Genome engineering. Nat. Biotechnol.,27, 1151-1162)。雖然短寡核苷酸的高通量驗證因 下一代測序(NGS)方法的開發(fā)而變得可能,但是在合成完成后的最終評估步驟中的有效應(yīng) 用卻不可能,這是因為下一代測序所固有的閱讀長度短的局限性。由于下一代測序具有單 批次中能夠分析的核酸堿基序列的閱讀長度短的缺點,所以合成的基因要經(jīng)歷隨機片段化 或隨機剪切過程,在該過程中,合成的基因再次被分割為短片段,并使用下一代測序儀來啟 動對所得基因的分析。隨后,分析來自下一代測序儀的序列,而后通過計算機軟件利用該分 析結(jié)果將DNA片段組裝成整個基因序列。這種過程的局限性在于,難以判斷在基因合成和 核酸測序過程中出現(xiàn)的錯誤來自那些片段。此外,當(dāng)所合成的基因的長度并不長且所分析 的基因文庫種類較小時,使用下一代測序來分析所合成的基因的方法并不是經(jīng)濟的方法。 因此,下一代測序在基因合成中的應(yīng)用極其有限。
[0004] 在蛋白工程或生物合成途徑工程中,大致理解蛋白的表型與基因型之間的關(guān)聯(lián)是 非常重要的研宄課題。實際上,在構(gòu)建了啟動子(Patwardhan RP, Lee C, Litvin 0, Young DL,Pe,er D,Shendure J.Nature Biotechnology, 27, 1173-1175(2009))、短肽(Whitehead TA, Chevalier A, Song Y, Dreyfus C, Fleishman SJ, De Mattos C, Myers CA, Kamisetty H,Blair P,Wilson IA,Baker D. Nature Biotechnology, 30, 543-548 (2012))、單鏈抗體 的互補決定區(qū)(DeKosky BJ,Ippolito GC,Deschner RP,Lavinder JJ,Wine Y, Rawlings BM,Varadarajan N,Giesecke C,Dorner T,Andrews SF,Wilson PC,Hunicke-Smith SP, Willson CG1Ellington AD1Georgiou G. Nature Biotechnology, 31, 166-169(2013), L arman HB,Xu GJ,Pavlova NN,Elledge SJ.PNAS, 109, 18523-18528(2012))之后,一直在持 續(xù)進行研宄以確定這些構(gòu)建的序列中表型與基因型之間的關(guān)聯(lián)。然而,由于下一代測序中 的閱讀長度短,這些研宄通常并不以蛋白的完整區(qū)域為目標(biāo),而是會構(gòu)建比閱讀長度短的 結(jié)構(gòu)域區(qū)域。為了構(gòu)建蛋白的完整區(qū)域,必須通過Sanger測序來對文庫進行測序,或者必 須重新組裝下一代測序信息(短的讀出序列)。前一種情況效率很低,因為其耗時且費力, 還需要較高的成本。后一種情況受到目前已知的方法的阻礙。
【發(fā)明內(nèi)容】
[0005] [技術(shù)問題]
[0006] 因此,本公開針對上述問題而完成,本公開的目的是提供一種通過解決下一代測 序的局限性而合成基因并構(gòu)建蛋白的完整區(qū)域的方法。
[0007] [技術(shù)方案]
[0008] 根據(jù)本公開的第一方面,上述目的和其他目的可以通過提供一種合成第二基因文 庫的方法來實現(xiàn),所述方法包括:(a)提供包含隨機化的密碼子的第一基因文庫,其編碼特 定蛋白序列但具有不同的核酸堿基序列;(b)將第一基因文庫片段化為核酸片段;(C)確認(rèn) 所述核酸片段的堿基序列;和(d)使用密碼子隨機化的堿基序列,將堿基序列經(jīng)確認(rèn)的核 酸片段重新組裝成片段化前的基因序列。
[0009] 根據(jù)本公開的另一方面,提供了一種用上述方法制造的無錯的基因文庫,其包含 編碼相同蛋白但具有不同喊基序列的基因。
[0010] 根據(jù)本公開的另一方面,提供了一種合成突變基因的文庫的方法,所述方法包括: (a)提供包含隨機化的密碼子的基因文庫,其編碼特定蛋白序列但具有不同的核酸堿基序 列;(b)誘導(dǎo)所述基因文庫發(fā)生突變;(c)將突變基因的文庫片段化為核酸片段;(d)確認(rèn) 所述核酸片段的堿基序列;和(e)使用密碼子隨機化的堿基序列,將堿基序列經(jīng)確認(rèn)的核 酸片段重新組裝成片段化前的基因序列。
[0011] 根據(jù)本公開的另一方面,提供了一種用上述合成突變基因文庫的方法制造的突變 基因文庫。
[0012] 根據(jù)本公開的另一方面,提供了一種從上述突變基因文庫中選擇性地擴增所需的 基因序列的方法。
[0013] [有益效果]
[0014] 根據(jù)本公開內(nèi)容,當(dāng)通過基因片段化來進行下一代測序時,原始基因序列可以通 過用重疊共有序列法組裝NGS讀出序列而得到正確復(fù)原。由此,下一代測序在應(yīng)用于基因 合成時的局限性(閱讀長度短)可以得到解決。此外,可以在單批中制造包含相同蛋白信 息和不同DNA序列的數(shù)百至數(shù)千種不同的基因文庫(同義基因文庫),且所有的基因序列都 可以通過一次測序來得到確認(rèn)。當(dāng)將這種基因文庫合成和分析方法與蛋白工程法組合時, 構(gòu)建蛋白的完整區(qū)域(這在常規(guī)方法中是不可能的)變得可能。
【附圖說明】
[0015] 通過下文結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述的和其他的目標(biāo)、特征和優(yōu)點將得 到更加清楚的理解,在附圖中:
[0016] 圖1是說明本公開的一個實施方式的合成基因文庫的方法的流程圖;
[0017] 圖2是說明本公開的一個實施方式的利用目標(biāo)基因的蛋白序列推導(dǎo)出具有隨機 化密碼子的DNA序列的過程的圖;
[0018] 圖3是說明本公開的一個實施方式的用來合成基因文庫的寡核苷酸設(shè)計的圖;
[0019] 圖4是說明按照本公開的一個實施方式用限制性酶除去質(zhì)粒主干并進行下一代 測序的不意圖;
[0020] 圖5是說明本公開的一個實施方式的重新組裝通過下一代測序測得的核酸片段 的方法的示意圖;
[0021] 圖6是說明本公開的一個實施方式的kanR基因文庫的合成結(jié)果的圖;
[0022] 圖7是說明本公開的一個實施方式的在使用大腸桿菌進行轉(zhuǎn)化時控制基因文庫 大小的示意圖;
[0023] 圖8是說明本公開的一個實施方式的使用超聲發(fā)生器進行隨機片段化的條件和 結(jié)果的圖;
[0024] 圖9是說明本公開的一個實施方式的在片段化后為下一代測序做準(zhǔn)備的過程的 圖;
[0025] 圖10是說明本公開的一個實施方式的kanR基因文庫的分析結(jié)果的圖;
[0026] 圖11是說明本公開的一個實施方式的針對kanR基因文庫的選擇性復(fù)原實驗的結(jié) 果的圖;
[0027] 圖12是說明按照本公開的一個實施方式使用pUC19質(zhì)粒制備pUCN質(zhì)粒的圖;
[0028] 圖13是說明本公開的一個實施方式的tolC基因文庫的合成結(jié)果的圖;
[0029] 圖14是說明本公開的一個實施方式的使用Npu內(nèi)含肽的初步實驗過程的圖;
[0030] 圖15是說明本公開的一個實施方式的對使用Npu內(nèi)含肽的實驗的分析結(jié)果的 圖;
[0031] 圖16是說明本公開的一個實施方式的對使用Npu內(nèi)含肽的實驗數(shù)據(jù)的模擬結(jié)果 的圖;
[0032] 圖17是說明本公開的一個實施方式的用于分析突變Npu內(nèi)含肽文庫的信息匯總 的圖;
[0033] 圖18是說明本公開的一個實施方式的Npu內(nèi)含肽的高度保守的位置的示意圖;
[0034] 圖19是呈現(xiàn)了本公開的一個實施方式的通過趨勢檢驗而計算出的優(yōu)選突變的 圖;
[0035] 圖20是說明本公開的一個實施方式的CysErrlOOO庫的基因型的圖;
[0036] 圖21是說明本公開的一個實施方式的內(nèi)含肽突變序列根據(jù)外顯肽的類型對卡那 霉素的耐受程度的圖;
[0037] 圖22是說明本公開的一個實施方式的在CysErr庫和SerErr庫中外顯肽殘基趨 勢的圖;和
[0038] 圖23是說明本公開的一個實施方式的Npu內(nèi)含肽的選擇性復(fù)原實驗的結(jié)果的圖。
【具體實施方式】
[0039] 本說明書中使用的術(shù)語"核苷酸"是指單鏈或雙鏈的脫氧核糖核酸(DNA)或核糖 核酸(RNA),除非另有定義,該術(shù)語可以包括核苷酸的類似物。
[0040] 本公開中所用的術(shù)語"擴增"是指擴增目標(biāo)核酸堿基序列的反應(yīng),可以使用聚合酶 鏈?zhǔn)椒磻?yīng)(PCR)來進行。PCR包括但不限于逆轉(zhuǎn)錄聚合酶鏈?zhǔn)椒磻?yīng)(RT-PCR)、多重PCR、實 時PCR、組裝PCR、融合PCR和連接酶鏈?zhǔn)椒磻?yīng)(LCR)。
[0041] 本說明書中使用的術(shù)語"引物"是指寡核苷酸。引物是單鏈的,可以包括核糖核酸, 優(yōu)選是脫氧核糖核酸。引物與模板的一條鏈雜交或退火,由此形成雙鏈結(jié)構(gòu)。引物可以與 本公開的側(cè)翼序列雜交或退火。術(shù)語"退火(annealing)"是指寡核苷酸或核酸與模板核酸 匹配結(jié)合(juxtapose),通過該匹配結(jié)合,核苷酸通過聚合酶而聚合,因此,形成了與模板核 酸或其一部分互補的核酸分子。術(shù)語"雜交"是指兩條單鏈核酸通過互補序列的配對而形 成雙鏈結(jié)構(gòu)。在誘導(dǎo)合成與模板互補的引物的延伸產(chǎn)物時,引物可以起到合成引發(fā)劑的作 用。
[0042] 在本公開中,存在于寡核苷酸末端的5'末端側(cè)翼序列和3'末端側(cè)翼序列是增加 寡核苷酸的量的引發(fā)位置,可以用作引物組的退火位點來產(chǎn)生足量的寡核苷酸,兩端的側(cè) 翼序列均可以存在于限制性酶的識別序列末端,或可以包含限制性酶的識別序列。在本公 開的一個實施方式中,本公開的側(cè)翼序列可用于擴增反應(yīng)中。
[0043] 本公開所用的術(shù)語"互補"是指具有在特定的雜交或退火條件下可以與上述核苷 酸序列選擇性地雜交的互補性。
[0044] 本公開中所用的術(shù)語"組裝"是指利用互補序列將核酸片段對齊并合并,從而連接 成更長的核酸片段。
[0045] 本公開中所用的術(shù)語"蛋白工程"是指:在合成具有所需的與野生型蛋白不同的氨 基酸序列的新蛋白后,通過翻譯出各蛋白來研宄各蛋白的多種性質(zhì),例如結(jié)構(gòu)、功能、互補 性或穩(wěn)定性。蛋白工程是通過人工控制蛋白的結(jié)構(gòu)來制備有用的新蛋白,且包括設(shè)計蛋白。
[0046] 本公開中所用的術(shù)語"克隆"是指:通過基因操縱技術(shù)將特定基因連接至載體,從 而將該特定基因?qū)胨拗骷?xì)胞,并利用細(xì)胞的復(fù)制機制進行大量增殖。作為增殖方法,可以 用使用源自多種質(zhì)?;蚴删w的載體DNA的方法。
[0047] 本公開中所用的術(shù)語"質(zhì)粒"是指與細(xì)菌的細(xì)胞內(nèi)染色體分離的DNA,質(zhì)??梢宰?發(fā)地進行增殖。質(zhì)粒運輸被克隆的基因。<