專利名稱:合成核酸分子及制備方法
背景轉(zhuǎn)錄,從DNA序列合成RNA分子,是基因表達(dá)的第一步。調(diào)節(jié)DNA轉(zhuǎn)錄的序列包括啟動子序列、聚腺苷酸化信號、轉(zhuǎn)錄因子結(jié)合位點(diǎn)和增強(qiáng)子元件。啟動子是能夠特異性啟動轉(zhuǎn)錄的DNA序列,由3個通用區(qū)組成。核心啟動子是RNA聚合酶及其輔因子與DNA結(jié)合的序列。緊接著核心啟動子的上游是含有若干轉(zhuǎn)錄因子結(jié)合位點(diǎn)的近側(cè)啟動子,它負(fù)責(zé)活化復(fù)合物的裝配,繼而又募集聚合酶復(fù)合物。遠(yuǎn)側(cè)啟動子位于近側(cè)啟動子的更上游,也含有轉(zhuǎn)錄因子結(jié)合位點(diǎn)。同轉(zhuǎn)錄起始一樣,轉(zhuǎn)錄終止和聚腺苷酸化都是位點(diǎn)特異性的,并由特定序列編碼。增強(qiáng)子是含有多個轉(zhuǎn)錄因子結(jié)合位點(diǎn)的調(diào)節(jié)區(qū),可從響應(yīng)的啟動子明顯提高轉(zhuǎn)錄水平,而與增強(qiáng)子的方向以及與啟動子的距離無關(guān),只要增強(qiáng)子和啟動子都位于同一DNA分子內(nèi)?;虍a(chǎn)生的轉(zhuǎn)錄物數(shù)量也由轉(zhuǎn)錄后機(jī)制進(jìn)行調(diào)節(jié),最重要的轉(zhuǎn)錄后機(jī)制就是RNA剪接,它從初級轉(zhuǎn)錄物上,除去剪接供體和剪接受體序列之間的間插序列(內(nèi)含子)。
自然選擇是這樣一種假說基因型與環(huán)境的相互作用發(fā)生在表型水平上,導(dǎo)致個體的差別繁殖成效,因此導(dǎo)致群體基因庫的修飾。按照自然選擇,核酸分子的一些特性包括密碼子使用頻率、RNA二級結(jié)構(gòu)、內(nèi)含子剪接效率和與轉(zhuǎn)錄因子或其它核酸結(jié)合蛋白的相互作用。由于遺傳密碼的簡并性,這些特性可因自然選擇而優(yōu)化,同時并不改變相應(yīng)的氨基酸序列。
在某些條件下,這可用于經(jīng)過合成而改變編碼多肽的天然核苷酸序列,以便更好地適應(yīng)交替應(yīng)用的多肽。一個普通的實(shí)例是當(dāng)基因在外源宿主細(xì)胞中表達(dá)時,就會改變基因的密碼子使用頻率。盡管遺傳密碼的冗余性允許氨基酸由多個密碼子編碼,但是不同生物體比起其它的來說更偏愛某些密碼子。已經(jīng)發(fā)現(xiàn),在非天然宿主細(xì)胞中,通過調(diào)節(jié)密碼子使用頻率、但保持相同的基因產(chǎn)物,可以大大地提高蛋白質(zhì)的翻譯效率(美國專利5,096,825、5,670,356和5,874,304)。
然而,改變密碼子使用,反過來又將不適當(dāng)?shù)霓D(zhuǎn)錄調(diào)節(jié)序列無意地引入合成核酸分子中。這對轉(zhuǎn)錄會有不利影響,導(dǎo)致合成DNA的異常表達(dá)。異常表達(dá)定義為偏離正常或預(yù)期的表達(dá)水平。例如,已經(jīng)知道,位于啟動子下游的轉(zhuǎn)錄因子結(jié)合位點(diǎn)影響啟動子活性(Michael等,1990;Lamb等,1998;Johnson等,1998;Jones等,1997)。另外,在啟動子序列不存在或在轉(zhuǎn)錄調(diào)節(jié)序列存在的情況下,經(jīng)??梢娫鰪?qiáng)子元件影響DNA轉(zhuǎn)錄活性并導(dǎo)致DNA轉(zhuǎn)錄水平升高,以在啟動子序列不存在的情況下提高基因表達(dá)的基礎(chǔ)水平。
因此,我們所需要的是,在特定宿主細(xì)胞中表達(dá)時具有改變的密碼子使用而沒有引入不適當(dāng)或不需要的轉(zhuǎn)錄調(diào)節(jié)序列的合成核酸分子的制備方法。
發(fā)明概述本發(fā)明提供包含合成核苷酸序列的分離的核酸分子(多核苷酸),所述合成核苷酸序列相對于親代核酸序列(例如野生型核酸序列)來說具有減少的核酸序列同一性,例如90%以下、例如80%、78%、75%或70%以下的核酸序列同一性,并且具有更少的調(diào)節(jié)序列,例如轉(zhuǎn)錄調(diào)節(jié)序列。在一個實(shí)施方案中,合成核苷酸序列具有更少的調(diào)節(jié)序列,這是由合成核苷酸序列和親代核酸序列間的序列差異(例如任選不同密碼子)的隨機(jī)選擇的結(jié)果。在一個實(shí)施方案中,合成核苷酸序列編碼多肽,所述多肽的氨基酸序列與天然存在(天然或野生型)的相應(yīng)多肽(蛋白質(zhì))的氨基酸序列具有至少85%、90%、95%或99%或100%同一性。因此,已經(jīng)知道,也可需要某些特定的氨基酸變化,以改變合成核苷酸序列所編碼多肽的某一具體表型特征。優(yōu)選氨基酸序列同一性超過至少100個毗連氨基酸殘基。在本發(fā)明的一個實(shí)施方案中,在合成核苷酸序列中不同的密碼子優(yōu)選編碼與親代核酸序列中相應(yīng)密碼子所編碼的相同的氨基酸。
因此,在一個實(shí)施方案中,本發(fā)明提供分離的核酸分子,其包含具有可選擇或可篩選多肽編碼區(qū)的合成核苷酸序列,其中所述合成核苷酸序列與編碼相應(yīng)可選擇或可篩選多肽的親代核酸序列具有90%、例如80%以下的核酸序列同一性,其中所述合成核苷酸序列編碼可選擇或可篩選多肽,它與親代核酸序列所編碼的相應(yīng)可選擇或可篩選多肽具有至少85%氨基酸序列同一性。降低的核苷酸序列同一性,是合成核苷酸序列密碼子與親代核酸序列密碼子不同的結(jié)果。相對于親代核酸序列來說,例如相對于調(diào)節(jié)序列的平均數(shù),本發(fā)明的合成核苷酸序列的調(diào)節(jié)序列數(shù)目減少,這是合成核苷酸序列和親代核酸序列之間序列上不同的密碼子或核苷酸隨機(jī)選擇的結(jié)果。在一個實(shí)施方案中,核酸分子可以包含合成核苷酸序列,它與其它序列一起編碼可選擇或可篩選多肽。例如,構(gòu)成可選擇或可篩選多肽可讀框部分的合成核苷酸序列可以包含可讀框的至少100、150、200、250、300或更多個核苷酸,所述核苷酸相對于親代核酸序列的相應(yīng)序列來說核酸序列同一性降低。在一個實(shí)施方案中,親代核酸序列是SEQ ID NO1、SEQ IDNO6、SEQ ID NO15或SEQ ID NO41、它們的互補(bǔ)序列,或者與其具有90%、95%或99%核酸序列同一性的序列。
在一個實(shí)施方案中,本發(fā)明的核酸分子包含已經(jīng)為在哺乳動物細(xì)胞、更優(yōu)選在人體細(xì)胞中表達(dá)而優(yōu)化的序列(參見例如WO 02/16944,其中公開了為在目標(biāo)細(xì)胞中表達(dá)而優(yōu)化序列的方法)。例如,核酸分子可通過以下方法為在真核細(xì)胞中表達(dá)而優(yōu)化引入Kozak序列和/或一個或多個內(nèi)含子或者減少其它調(diào)節(jié)序列的數(shù)目,和/或?qū)⒚艽a子使用變成在一種或多種真核生物中更頻繁使用的密碼子,例如在有待用所述核酸分子轉(zhuǎn)化的真核宿主細(xì)胞中更頻繁使用的密碼子。
在一個實(shí)施方案中,合成核苷酸序列存在于載體例如質(zhì)粒中,這種載體還可包括其它優(yōu)化序列。在一個實(shí)施方案中,合成核苷酸序列編碼包含選擇性多肽的多肽,所述合成核苷酸序列與包含例如以下序列的可讀框具有至少90%以上的核酸序列同一性SEQ ID NO5、SEQID NO9、SEQ ID NO10、SEQ ID NO11、SEQ ID NO30、SEQ IDNO38、SEQ ID NO39、SEQ ID NO42、SEQ ID NO44、SEQ ID NO70、SEQ ID NO71、SEQ ID NO72、SEQ ID NO73、SEQ ID NO74、SEQID NO80、SEQ ID NO81、SEQ ID NO82、SEQ ID NO83、SEQ IDNO84、它們的互補(bǔ)序列或其片段,并且所述合成核苷酸序列所編碼的多肽與相應(yīng)全長和任選野生型(功能性)多肽具有基本相同的活性,例如由SEQ ID NO1、SEQ ID NO6、SEQ ID NO15或SEQ ID NO41或其部分所編碼的多肽,而且所述合成核苷酸序列與其它親代或野生型序列一起編碼與相應(yīng)全長和任選野生型多肽具有基本相同活性的多肽。本文所用的“基本相同(的)活性”是指具有相應(yīng)全長和任選野生型(功能性)多肽活性的至少約70%、例如80%、90%以上。在一個實(shí)施方案中,分離的核酸分子編碼包含選擇性多肽的融合多肽。
還提供分離的核酸分子,其包含具有螢火蟲螢光素酶編碼區(qū)的合成核苷酸序列,其中相對于編碼螢火蟲螢光素酶的親代核酸序列(例如具有SEQ ID NO14或SEQ ID NO43的親代核酸序列)來說,合成核酸分子的核酸序列同一性是90%以下、例如80%、78%、75%以下,所述合成核苷酸序列具有更少的調(diào)節(jié)序列(包括轉(zhuǎn)錄調(diào)節(jié)序列),這是由序列差異(例如不同密碼子)的隨機(jī)選擇的結(jié)果。優(yōu)選合成核苷酸序列編碼多肽,其氨基酸序列與天然存在的多肽或親代多肽的氨基酸序列具有至少85%、優(yōu)選90%、最優(yōu)選95%或99%同一性。因此,已經(jīng)知道,也可需要某些特定的氨基酸變化,以改變合成核苷酸序列所編碼的螢光素酶的某一具體表型特征。優(yōu)選氨基酸序列同一性超過至少100個毗連氨基酸殘基。在一個實(shí)施方案中,合成核苷酸序列編碼包含螢火蟲螢光素酶的多肽,所述合成核苷酸序列與例如包含以下序列的可讀框具有至少90%以上核酸序列同一性SEQ ID NO21、SEQ IDNO22、SEQ ID NO23、它們的互補(bǔ)序列或其片段,并且所述合成核苷酸序列所編碼的多肽與相應(yīng)全長和任選野生型(功能性)多肽具有基本相同的活性,例如由SEQ ID NO14或SEQ ID NO43或其部分所編碼的多肽,而且所述合成核苷酸序列與其它序列一起編碼螢火蟲螢光素酶。例如,構(gòu)成螢火蟲螢光素酶可讀框部分的合成核苷酸序列可以包含可讀框的至少100、150、200、250、300或更多個核苷酸,所述核苷酸與親代核酸序列中的相應(yīng)序列相比,核酸序列同一性降低。
在另一個實(shí)施方案中,本發(fā)明提供包含合成核苷酸序列的分離的核酸分子,所述合成核苷酸序列不包含編碼目標(biāo)肽或多肽的可讀框,例如所述合成核苷酸序列可具有可讀框,但不包含編碼功能性或所需要的肽或多肽的序列,但可包含一個或多個終止密碼子(在一個或多個讀框中)、一個或多個聚腺苷酸化位點(diǎn)和/或兩個或更多個限制性內(nèi)切核酸酶(限制酶)的毗鄰序列,即多克隆區(qū)(也稱為多克隆位點(diǎn),“MCS”),而且其長度通常為至少20、例如至少30個核苷酸、高達(dá)1000或更多個核苷酸、例如高達(dá)10,000個核苷酸,所述合成核苷酸序列與相應(yīng)親代核酸序列相比具有減少的調(diào)節(jié)序列(例如轉(zhuǎn)錄調(diào)節(jié)序列)。在一個實(shí)施方案中,不編碼肽或多肽的合成核苷酸序列與親代核酸序列具有90%以下、例如80%以下的核酸序列同一性,其中降低的序列同一性是相對于親代核酸序列來說合成核苷酸序列的調(diào)節(jié)序列數(shù)目減少的結(jié)果。
在合成核苷酸序列中減少的調(diào)節(jié)序列包括但不限于以下各調(diào)節(jié)序列的任何組合轉(zhuǎn)錄因子結(jié)合序列、內(nèi)含子剪接位點(diǎn)、聚腺苷酸化位點(diǎn)(下文中稱為poly(A)序列或poly(A)位點(diǎn))、增強(qiáng)子序列、啟動子組件和/或啟動子序列,例如原核啟動子序列。一般而言,合成核酸分子缺乏至少10%、20%、50%以上的調(diào)節(jié)序列,例如基本上缺乏相應(yīng)親代或野生型核苷酸序列中存在的所有調(diào)節(jié)序列,例如80%、90%以上、例如95%以上的調(diào)節(jié)序列。調(diào)節(jié)序列,例如轉(zhuǎn)錄調(diào)節(jié)序列,是本領(lǐng)域眾所周知的。合成核苷酸序列也可以具有數(shù)目減少的限制酶識別位點(diǎn),并且可以經(jīng)過修飾以包含選擇序列,例如位于合成核苷酸序列5′端和/或3′端或其附近的序列,例如Kozak序列和/或所需的限制酶識別位點(diǎn),例如用于將合成核苷酸序列引入特定位置的限制酶識別位點(diǎn),例如在目標(biāo)核酸序列5′和/或3′的多克隆區(qū)內(nèi)。
在一個實(shí)施方案中,本發(fā)明的合成核苷酸序列具有不同于親代核酸序列或野生型核酸序列的密碼子組成。本發(fā)明所用的優(yōu)選密碼子,是對于特定生物體的同一氨基酸來說,比至少一個其它密碼子更頻繁使用的密碼子,和/或在所述生物體中并不是低頻率使用的密碼子,和/或在用于克隆或篩選合成核苷酸序列表達(dá)的生物體(例如大腸桿菌(E.coli))中并不是低頻率使用的密碼子。此外,某些氨基酸的密碼子(即那些具有3種以上密碼子的氨基酸)可以包含兩個或更多個密碼子,它們比其它(非優(yōu)選)密碼子更頻繁使用。合成核苷酸序列中存在著這樣的密碼子它們在一種生物體中比在另一種生物體中更頻繁使用,這導(dǎo)致合成核苷酸序列當(dāng)導(dǎo)入更頻繁使用這些密碼子的生物體細(xì)胞中,其異常表達(dá)的危險性下降和/或在某些條件下,在這些細(xì)胞中的表達(dá)水平高于野生型(未修飾)核酸序列的表達(dá)水平。例如,在相同條件(例如細(xì)胞培養(yǎng)條件,載體骨架等)下,編碼可選擇或可篩選多肽的本發(fā)明合成核酸分子的表達(dá)水平在細(xì)胞或細(xì)胞提取物中要比親代或野生型(未修飾)核酸序列的高,例如高至少約2倍、3倍、4倍、5倍、10倍或更高倍數(shù)。在一個實(shí)施方案中,本發(fā)明合成核苷酸序列的密碼子組成上,有超過10%、20%以上、例如30%、35%、40%或大于45%、例如50%、55%、60%以上的密碼子不同于親代核酸序列或野生型核酸序列的密碼子。
在本發(fā)明的一個實(shí)施方案中,不同的密碼子是那些在哺乳動物中更頻繁使用的密碼子,而在另一實(shí)施方案中,不同的密碼子是那些在植物中更頻繁使用的密碼子。特定類型的哺乳動物例如人,可具有比另一類型哺乳動物更優(yōu)選的一組不同的密碼子。同樣,特定類型的植物也可具有比另一類型的植物更優(yōu)選的一組不同的密碼子。在本發(fā)明的一個實(shí)施方案中,大多數(shù)不同的密碼子是所需宿主細(xì)胞的優(yōu)選密碼子,和/或不是特定宿主細(xì)胞的低使用密碼子。優(yōu)選的哺乳動物(例如人類)密碼子和植物密碼子是本領(lǐng)域已知的(例如Wada等,1990)。例如,優(yōu)選的人類密碼子包括但不限于CGC(Arg)、CTG(Leu)、AGC(Ser)、ACC(Thr)、CCC(Pro)、GCC(Ala)、GGC(Gly)、GTG(Val)、ACT(Ile)、AAG(Lys)、AAC(Asn)、CAG(Gln)、CAC(His)、GAG(Glu)、GAC(Asp)、TAC(Tyr)、TGC(Cys)和TTC(Phe)(Wada等,1990)。因此,本發(fā)明合成核苷酸序列的密碼子組成與野生型核酸序列的不同之處在于具有數(shù)目增加的優(yōu)選人類密碼子,例如CGC、CTG、TCT、AGC、ACC、CCC、GCC、GGC、GTG、ACT、AAG、AAC、CAG、CAC、GAG、GAC、TAC、TGC、TTC或它們的任何組合。例如,相對于親代核酸序列或野生型核酸序列來說,本發(fā)明的合成核苷酸序列可具有數(shù)目增加的AGC絲氨酸編碼密碼子、CCC脯氨酸編碼密碼子和/或ACC蘇氨酸編碼密碼子或它們的組合。同樣,在植物中更頻繁使用并具有數(shù)目增加的密碼子的合成核苷酸序列,其密碼子組成與野生型核酸序列的不同之處在于具有數(shù)目增加的植物密碼子,包括但不限于CGC(Arg)、CTT(Leu)、TCT(Ser)、TCC(Ser)、ACC(Thr)、CCA(Pro)、CCT(Pro)、GCT(Ser)、GGA(Gly)、GTG(Val)、ATC(Ile)、ATT(Ile)、AAG(Lys)、AAC(Asn)、CAA(Gln)、CAC(His)、GAG(Glu)、GAC(Asp)、TAC(Tyr)、TGC(Cys)、TTC(Phe)或它們的組合(Murray等,1989)。優(yōu)選的密碼子可以因植物類型的不同而不同(Wada等,1990)。
合成核酸序列中的核苷酸取代會受到諸多因素的影響,例如,希望具有數(shù)目增加的核苷酸取代,例如導(dǎo)致沉默核苷酸取代的取代(編碼同一氨基酸)和/或數(shù)目減少的調(diào)節(jié)序列。在某些情況(例如允許除去轉(zhuǎn)錄因子結(jié)合位點(diǎn))下,最好用并非某一優(yōu)選密碼子的密碼子或并非優(yōu)選密碼子的密碼子來取代非優(yōu)選密碼子,以便減少調(diào)節(jié)序列的數(shù)目。
本發(fā)明也提供表達(dá)盒或載體。本發(fā)明的表達(dá)盒或載體分別包含本發(fā)明合成核苷酸序列及與本發(fā)明合成核苷酸序列操作性連接并且能在細(xì)胞中起作用的啟動子,或者包含合成核苷酸序列。優(yōu)選的啟動子是在哺乳動物細(xì)胞起作用的啟動子和在植物細(xì)胞中起作用的啟動子。任選表達(dá)盒可包括其它序列,例如一個或多個限制酶識別序列(位于選擇性多肽或螢光素酶可讀框5′端和/或3′端)和/或Kozak序列,并且可以是例如質(zhì)粒、粘粒、人工染色體或載體(例如病毒載體)等較大多核苷酸分子的組成部分,其中可以包含其它序列的多克隆區(qū),例如啟動子、增強(qiáng)子、其它可讀框和/或poly(A)位點(diǎn)。在一個實(shí)施方案中,本發(fā)明的載體包含SEQ ID NO88、SEQ ID NO89、SEQ ID NO90、它們的互補(bǔ)序列或與其具有至少80%核酸序列同一性并編碼可選擇和/或可篩選多肽的序列。
在一個實(shí)施方案中,將編碼可選擇或可篩選多肽的合成核苷酸序列引入載體骨架中,例如在合成核苷酸序列3′任選具有poly(A)位點(diǎn)的載體骨架,用于選擇轉(zhuǎn)化原核細(xì)胞的基因(任選是合成序列),用于選擇轉(zhuǎn)化真核細(xì)胞的基因(任選是合成序列),用于降低鄰接的所需可讀框的轉(zhuǎn)錄和/或翻譯的非編碼區(qū)和/或合成核苷酸序列5′和/或3′的多克隆區(qū),該合成核苷酸序列編碼可選擇或可篩選多肽,其中任選包括一個或多個蛋白質(zhì)不穩(wěn)定序列(參見美國申請順序號10/664,341,2003年9月16日申請,該文獻(xiàn)的公開內(nèi)容通過引用結(jié)合到本文中)。在一個實(shí)施方案中,具有編碼可選擇或可篩選多肽的合成核苷酸序列的載體,可缺乏與該合成序列操作性連接的啟動子和/或增強(qiáng)子。在另一個實(shí)施方案中,本發(fā)明提供載體,其包含啟動子(例如原核或真核啟動子)及與所述啟動子操作性連接并編碼可選擇或可篩選多肽的合成核苷酸序列。這樣的載體任選包括一個或多個多克隆區(qū),例如用于引入額外可讀框和/或可讀框表達(dá)用啟動子的多克隆區(qū),其中啟動子任選不同于可選擇或可篩選多肽的啟動子和/或原核復(fù)制起點(diǎn)。本文所用的“載體骨架”可以包含用于識別具有這樣序列的細(xì)胞(例如在原核細(xì)胞中)的序列(可讀框)、它們的啟動子、維持載體的復(fù)制起點(diǎn)(例如在原核細(xì)胞中)和包含多克隆區(qū)的任選的一個或多個其它序列(例如用于插入目標(biāo)啟動子和/或可讀框)和抑制轉(zhuǎn)錄和/或翻譯的序列。
還提供包含本發(fā)明合成核苷酸序列的宿主細(xì)胞,分離的多肽(例如本發(fā)明的合成核苷酸序列所編碼的融合多肽),以及包含本發(fā)明合成核苷酸序列、由本發(fā)明合成核苷酸序列編碼的多肽或包含合成核苷酸序列的表達(dá)盒或載體的組合物和試劑盒,它們放在合適容器裝置中并任選附有使用說明書。宿主細(xì)胞可以是真核細(xì)胞或原核細(xì)胞,所述真核細(xì)胞例如植物細(xì)胞或脊椎動物細(xì)胞,例如哺乳動物細(xì)胞,包括但不限于人、非人類靈長類、狗、貓、牛、馬、綿羊或嚙齒動物(例如兔、大鼠、雪貂、倉鼠或小鼠)的細(xì)胞。
本發(fā)明也提供本發(fā)明合成核苷酸序列的制備方法,即通過遺傳改變親代(例如野生型)或合成核酸序列。該方法包括改變(例如減少或消除)親代核酸序列(例如編碼可選擇或可篩選多肽的序列或不編碼肽或多肽的序列)中的多個調(diào)節(jié)序列,得到調(diào)節(jié)序列數(shù)目減少的合成核苷酸序列,并且如果合成核苷酸序列編碼多肽,則它優(yōu)選編碼與親代核酸分子相同的氨基酸??梢詼p少的轉(zhuǎn)錄調(diào)節(jié)序列包括但不限于以下序列中的任一個轉(zhuǎn)錄因子結(jié)合序列、內(nèi)含子剪接位點(diǎn)、ploy(A)位點(diǎn)、增強(qiáng)子序列、啟動子組件和/或啟動子序列。優(yōu)選合成核苷酸序列中的序列改變不會導(dǎo)致調(diào)節(jié)序列的增加。在一個實(shí)施方案中,合成核苷酸序列編碼多肽,它與由親代核酸序列編碼的多肽的氨基酸序列具有至少85%、90%、95%或99%或100%的毗連氨基酸序列同一性。
因此,在一個實(shí)施方案中,提供包含可讀框的合成核酸分子的制備方法。該方法包括改變親代核酸序列的密碼子和/或調(diào)節(jié)序列,所述親代核酸序列編碼報道蛋白(例如螢火蟲螢光素酶)或選擇性多肽(例如編碼氨芐青霉素、嘌呤霉素、潮霉素或新霉素抗性的多肽),得到編碼相應(yīng)報道多肽的合成核苷酸序列,并且相對于親代核酸序列來說,所述合成核苷酸序列具有例如減少至少10%以上、例如20%、30%、40%、50%以上的調(diào)節(jié)序列。合成核苷酸序列與親代核酸序列具有90%、例如85%、80%或78%以下的核酸序列同一性,并且所編碼的多肽與親代核酸序列所編碼的多肽具有至少85%氨基酸序列同一性。所改變的調(diào)節(jié)序列包括轉(zhuǎn)錄因子結(jié)合序列、內(nèi)含子剪接位點(diǎn)、ploy(A)位點(diǎn)、啟動子組件和/或啟動子序列。在一個實(shí)施方案中,合成核酸序列與親代核酸序列或其互補(bǔ)序列在中等嚴(yán)格性雜交條件下雜交,但在嚴(yán)格性雜交條件下不雜交。在一個實(shí)施方案中,不同的密碼子編碼與親代核酸序列相應(yīng)密碼子編碼相同的氨基酸。
還提供用本發(fā)明方法制備的合成(包括進(jìn)一步合成)核苷酸序列,例如進(jìn)一步合成核苷酸序列,其中所引入的調(diào)節(jié)序列或限制性內(nèi)切核酸酶識別序列任選被除去。因此,本發(fā)明的方法可用于改變密碼子使用頻率和/或減少任何可讀框中的調(diào)節(jié)序列的數(shù)目或減少任何核酸序列例如非編碼序列中的調(diào)節(jié)序列的數(shù)目。優(yōu)選改變編碼可選擇或可篩選多肽的合成核苷酸序列中的密碼子使用頻率,以影響想用于表達(dá)該核苷酸序列所需的宿主生物的密碼子使用頻率,同時相對于親代核酸分子來說也減少潛在調(diào)節(jié)序列的數(shù)目。
還提供不編碼肽或多肽的合成核苷酸序列的制備方法。該方法包括改變至少20個核苷酸的親代核酸序列中的核苷酸,該親代核酸序列任選不編碼功能性或所需要的肽或多肽,并且任選可以包含抑制轉(zhuǎn)錄和/或翻譯的序列,得到不包含編碼目標(biāo)肽或多肽的可讀框的合成核苷酸序列,例如所述合成核苷酸序列可具有可讀框,但不包含編碼功能性或所需要的肽或多肽的序列,但可包含一個或多個終止密碼子(在一個或多個讀框中)、一個或多個聚腺苷酸化位點(diǎn)和/或兩個或更多個限制性內(nèi)切核酸酶的毗鄰序列,即多克隆區(qū)。合成核苷酸序列的長度通常為至少20、例如至少30個核苷酸、高達(dá)1000或更多個核苷酸、例如高達(dá)10,000個核苷酸,并且與不編碼肽或多肽的相應(yīng)親代核酸序列相比具有更少的調(diào)節(jié)序列(例如轉(zhuǎn)錄調(diào)節(jié)序列),所述親代核酸序列例如任選包括抑制轉(zhuǎn)錄和/或翻譯的序列。改變核苷酸以減少親代核酸序列的一個或多個調(diào)節(jié)序列,例如轉(zhuǎn)錄因子結(jié)合序列、內(nèi)含子剪接位點(diǎn)、ploy(A)位點(diǎn)、增強(qiáng)子序列、啟動子組件和/或啟動子序列。
本發(fā)明也提供表達(dá)載體的制備方法。該方法包括提供線性化質(zhì)粒,其具有包含本發(fā)明合成核苷酸序列的核酸分子,其中本發(fā)明合成核苷酸序列編碼位于多克隆區(qū)5′端和/或3′端側(cè)翼的可選擇或可篩選多肽。讓質(zhì)粒與至少一種在多克隆區(qū)進(jìn)行切割的限制性內(nèi)切核酸酶接觸,使質(zhì)粒線性化。將線性化質(zhì)粒和與線性化質(zhì)粒末端具有末端相容性的表達(dá)盒一起退火,得到表達(dá)載體。在一個實(shí)施方案中,采用至少兩種限制性內(nèi)切核酸酶(其中只有一種在多克隆區(qū)進(jìn)行切割)進(jìn)行切割,使質(zhì)粒線性化。
還提供啟動子或可讀框的克隆方法。該方法包括提供具有多克隆區(qū)和本發(fā)明合成序列的線性化質(zhì)粒,其中本發(fā)明合成序列編碼本發(fā)明的可選擇或可篩選多肽和/或本發(fā)明合成序列不編碼肽或多肽,讓質(zhì)粒與至少兩種限制性內(nèi)切核酸酶(其中至少一種在多克隆區(qū)進(jìn)行切割)接觸,使質(zhì)粒線性化;使線性化質(zhì)粒與具有啟動子或可讀框的DNA一起退火,該DNA兩端與線性化質(zhì)粒的兩端相容。
下面描述了螢火蟲螢光素酶合成序列和大量選擇性多肽核酸序列、以及存在于載體骨架中的非編碼區(qū)的示例性制備方法。例如,這些方法可制備合成選擇性多肽核酸分子,該分子表現(xiàn)出類似的或明顯增高的哺乳動物表達(dá)水平,但卻沒有負(fù)面影響其它所需要的物理性質(zhì)或生化性質(zhì),并且也基本上不含調(diào)節(jié)元件。
顯然,本發(fā)明適用于多種基因,并跨越了許多科學(xué)領(lǐng)域,包括但不限于生命科學(xué)研究、農(nóng)業(yè)遺傳學(xué)(agrigenetics)、基因治療、發(fā)育科學(xué)和藥物開發(fā)。
附圖簡述
圖1密碼子及其相應(yīng)氨基酸。
圖2pGL4載體的設(shè)計方案。
發(fā)明詳述定義本文所用的術(shù)語“核酸分子”或“核酸序列”是指核酸DNA或RNA,包含非編碼或編碼序列。編碼序列對產(chǎn)生多肽或蛋白前體來說是必不可少的。多肽可由全長編碼序列或編碼序列的任何部分所編碼,只要能保留所需的蛋白質(zhì)活性。非編碼序列是指不編碼多肽或蛋白前體的核酸,并且可包括調(diào)節(jié)元件,例如轉(zhuǎn)錄因子結(jié)合位點(diǎn)、poly(A)位點(diǎn)、限制性內(nèi)切核酸酶位點(diǎn)、終止密碼子和/或啟動子序列。
“合成”核酸序列是自然界不存在的核酸序列,即采用分子生物學(xué)、化學(xué)和/或信息技術(shù)獲得的核酸序列。
本文所用的“核酸”是核苷酸以共價鍵結(jié)合起來的序列,其中一個核苷酸的戊糖的3′位通過磷酸二酯基團(tuán)連接下一個核苷酸的戊糖的5′位,其中核苷酸殘基(堿基)以特定序列(核苷酸線狀順序)連接。本文所用的“多核苷酸”是序列長度約為100個以上核苷酸的核酸。本文所用的“寡核苷酸”或“引物”是短多核苷酸或多核苷酸部分。寡核苷酸通常含有約2個至約100個堿基的序列。術(shù)語“寡聚體(oligo)”有時用于替代術(shù)語“寡核苷酸”。
核酸分子之所以具有“5′-端”(5′端)和“3′-端”(3′端),是因為核酸的磷酸二酯鍵發(fā)生在取代基單核苷酸戊糖環(huán)的5′碳和3′碳上。多核苷酸的一端(新的鍵將連接在其5′碳上)是其5′端核苷酸。多核苷酸的一端(新的鍵將連接在其3′碳上)是其3′端核苷酸。本文所用的末端核苷酸是位于3′-端或5′-端的核苷酸。
DNA分子之所以具有“5′端”和“3′端”,是因為單核苷酸反應(yīng)而生成寡核苷酸,其方式是一個單核苷酸戊糖環(huán)的5′磷酸以一個方向通過磷酸二酯鍵連接到其相鄰的3′氧上。因此,寡核苷酸的一端是“5′端”,如果其5′磷酸沒有連接到單核苷酸戊糖環(huán)的3′氧的話,而另一端是“3′端”,如果其3′氧沒有連接到下一個單核苷酸戊糖環(huán)的5′磷酸的話。
本文所用的核酸序列,即使是較大寡核苷酸或多核苷酸內(nèi)部,也可具有5′端和3′端。在線狀或環(huán)狀DNA分子中,分開的不連續(xù)元件稱為“上游”或5′元件,或者稱為“下游”或3′元件。該術(shù)語反映出這一事實(shí)轉(zhuǎn)錄是沿著DNA鏈以5′→3′的方式進(jìn)行的。通常,指導(dǎo)連鎖基因(例如可讀框或編碼區(qū))轉(zhuǎn)錄的啟動子和增強(qiáng)子元件一般位于編碼區(qū)的5′或上游。然而,增強(qiáng)子元件當(dāng)位于啟動子元件和編碼區(qū)3′時,也可發(fā)揮作用。轉(zhuǎn)錄終止信號和聚腺苷酸化信號位于編碼區(qū)的3′或下游。
本文所用的術(shù)語“密碼子”是由3個核苷酸的序列組成的基本遺傳編碼單位,它指導(dǎo)特定氨基酸摻入到多肽鏈上,或者是起始信號或終止信號。術(shù)語“編碼區(qū)”當(dāng)用于結(jié)構(gòu)基因時,是指核苷酸序列,編碼作為mRNA分子翻譯結(jié)果的新生多肽中存在的氨基酸。通常,編碼區(qū)結(jié)合在編碼起始甲硫氨酸核苷酸三聯(lián)體“ATG”的5′一側(cè),以及結(jié)合在終止密碼子(例如TAA、TAG、TGA)的3′一側(cè)。在某些情況下,也已經(jīng)知道編碼區(qū)由核苷酸三聯(lián)體“TTG”起始。
“蛋白質(zhì)”、“多肽”或“肽”是指任何氨基酸鏈,不管其長度或翻譯后修飾(例如糖基化或磷酸化)。本發(fā)明的核酸分子也可編碼天然存在的蛋白質(zhì)的變異體或其片段。優(yōu)選這樣變異蛋白的氨基酸序列與其所來源的天然存在的(天然或野生型)蛋白的氨基酸序列具有至少85%、優(yōu)選90%、最優(yōu)選95%或99%同一性。
多肽分子之所以具有“氨基端”(N-端)和“羧基端”(C-端),是因為肽鍵發(fā)生在第一氨基酸殘基的主鏈氨基和第二氨基酸殘基的主鏈羧基之間。術(shù)語“N-端”和“C-端”當(dāng)用于多肽序列時,是指分別包括多肽N端區(qū)和C-端區(qū)部分的多肽區(qū)。包括多肽N端區(qū)部分的序列包括主要來自多肽鏈N端部分的氨基酸,但不限于所述序列。例如,N-端序列可包括多肽序列的內(nèi)部部分,包括來自多肽的一半N-端和一半C-端部分的堿基。這同樣適用于C-端區(qū)。N-端區(qū)和C-端區(qū)可以包括(但并非必須包括)分別限定多肽最終N-端和C-端的氨基酸。
本文所用的術(shù)語“野生型”是指基因或基因產(chǎn)物,其特征在于該基因或基因產(chǎn)物是從天然來源分離的。野生型基因是群體中最常見的基因,因此人為地稱為基因的“野生型”形式。相比之下,術(shù)語“突變型”是指與野生型基因或基因產(chǎn)物相比,表現(xiàn)出序列和/或功能特性修飾(即特性發(fā)生改變)的基因或基因產(chǎn)物。值得注意的是,天然存在的突變體是可以被分離出來的;當(dāng)與野生型基因或基因產(chǎn)物相比,其特性發(fā)生改變,人們可以利用這一事實(shí)對其進(jìn)行鑒定。
本文所用的術(shù)語“重組蛋白”或“重組多肽”是指由重組DNA分子表達(dá)的蛋白質(zhì)分子。相比之下,本文所用的術(shù)語“天然蛋白”是指從天然(即非重組)來源分離的蛋白質(zhì)。可以用分子生物學(xué)技術(shù)來產(chǎn)生蛋白質(zhì)的重組形式,其特性與蛋白質(zhì)的天然形式相同。
術(shù)語“融合多肽”是指嵌合蛋白,它含有目標(biāo)蛋白(例如螢光素酶)及與目標(biāo)蛋白連接的異源序列(例如非螢光素酶氨基酸或蛋白質(zhì))。
本文所用的術(shù)語“細(xì)胞”、“細(xì)胞系”、“宿主細(xì)胞”可互換使用,所有這些術(shù)語都包括它們的后代或潛在后代?!稗D(zhuǎn)化細(xì)胞”是指已經(jīng)導(dǎo)入了本發(fā)明核酸分子的細(xì)胞(或其祖先),例如通過瞬時轉(zhuǎn)染。任選將本發(fā)明核酸分子的合成基因?qū)牒线m細(xì)胞系中,使其產(chǎn)生穩(wěn)定轉(zhuǎn)染的細(xì)胞系,能夠產(chǎn)生由合成基因編碼的蛋白質(zhì)或多肽。構(gòu)建這類細(xì)胞系的載體、細(xì)胞和方法是本領(lǐng)域眾所周知的。術(shù)語“轉(zhuǎn)化子”或“轉(zhuǎn)化細(xì)胞”包括來源于原始轉(zhuǎn)化細(xì)胞的原代轉(zhuǎn)化細(xì)胞,而不考慮傳代次數(shù)。所有后代不會具有完全相同的DNA含量,因為有意或無意的突變。然而,經(jīng)過篩選原始轉(zhuǎn)化細(xì)胞中具有相同功能性的突變后代,包括在轉(zhuǎn)化子的定義之中。
已知核酸含有不同類型的突變?!包c(diǎn)”突變是指野生型序列中核苷酸序列的一個堿基發(fā)生改變。突變也可以是插入或缺失一個或多個堿基,使得核酸序列不同于野生型序列。
術(shù)語“同源性”是指兩個或多個序列間的互補(bǔ)性程度。有部分同源性或完全同源性(即同一性)。同源性通常采用序列分析軟件(例如EMBOSS,歐洲分子生物學(xué)開放軟件套(例如EMBOSS,the EuropeanMolecular Biology Open Software Suite,可得自http//www.hgmp.mrc.ac.uk/Software/EMBOSS/overview/html)來測定。這樣的軟件通過評價不同取代、缺失、插入和其它修飾的同源性程度,來匹配相似序列。保守取代通常包含以下各組氨基酸內(nèi)的取代甘氨酸、丙氨酸;纈氨酸、異亮氨酸、亮氨酸;天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺;絲氨酸、蘇氨酸;賴氨酸、精氨酸;和苯丙氨酸、酪氨酸。
術(shù)語“分離的”當(dāng)用于“分離的寡核苷酸”或“分離的多核苷酸”等核酸時,是指與至少一種污染物(所述污染物通常在其來源中與其共存)分離開并鑒定的核酸序列。因此,分離的核酸是以不同于其天然狀態(tài)而存在。相比之下,未分離的核酸(例如DNA和RNA)是以它們在自然界存在的狀態(tài)而存在。例如,給定DNA序列(例如基因)存在于宿主細(xì)胞染色體上,靠近相鄰基因;RNA序列(例如編碼特定蛋白質(zhì)的特定mRNA序列)與編碼各種蛋白質(zhì)的許多其它mRNA混合存在于細(xì)胞中。然而,分離的核酸例如包括在通常表達(dá)該核酸的細(xì)胞中的核酸其中核酸存在于染色體的位置不同于它在天然細(xì)胞中存在的位置,或者鄰接在與其天然鄰接的核酸序列所不同的核酸序列。分離的核酸或寡核苷酸可以單鏈或雙鏈形式存在。當(dāng)分離的核酸或寡核苷酸用于表達(dá)蛋白質(zhì)時,寡核苷酸最少含有有義鏈或編碼鏈(即寡核苷酸可以是單鏈),但是也可同時含有有義鏈和反義鏈(即寡核苷酸可以是雙鏈)。
術(shù)語“分離的”當(dāng)用于“分離的蛋白質(zhì)”或“分離的多肽”等多肽時,是指與至少一種污染物(所述污染物通常在其來源中與其共存)分離開并鑒定的多肽。因此,分離的多肽是以不同于其天然狀態(tài)而存在。相比之下,未分離的多肽(例如蛋白質(zhì)和酶)是以它們在自然界存在的狀態(tài)而存在。
術(shù)語“純化的”或“純化”是指從目標(biāo)組分(例如蛋白質(zhì)或核酸)中除去某些污染物的任何方法的結(jié)果。因此,提高了樣品中純化組分的百分率。
本文所用的術(shù)語“操作性連接”是指核酸序列的連接方式,使得產(chǎn)生了能指導(dǎo)給定基因轉(zhuǎn)錄和/或所需蛋白質(zhì)分子合成的核酸分子。該術(shù)語也指氨基酸編碼序列的連接方式,使得產(chǎn)生了功能性(例如具有酶活性、能結(jié)合結(jié)合配偶體、能抑制等)的蛋白質(zhì)或多肽。
術(shù)語“重組DNA分子”是指雜合DNA序列,包含至少兩個在自然界通常并不結(jié)合在一起的核苷酸序列。
術(shù)語“載體”是指用于插入或克隆DNA片段、以及用于將DNA區(qū)段轉(zhuǎn)入細(xì)胞中并在細(xì)胞中復(fù)制的核酸分子。載體可衍生自質(zhì)粒、噬菌體、病毒、粘粒等。
本文所用的術(shù)語“重組載體”和“表達(dá)載體”是指DNA或RNA序列,含有所需編碼序列以及在特定宿主生物中表達(dá)操作性連接的編碼序列所必需的合適DNA或RNA序列。原核表達(dá)載體包含啟動子、核糖體結(jié)合位點(diǎn)、在宿主細(xì)胞中自主復(fù)制的復(fù)制起點(diǎn)和其它可能的序列,例如任選的操縱子序列、任選的限制酶位點(diǎn)。啟動子定義為指導(dǎo)RNA聚合酶與DNA結(jié)合并起始RNA合成的DNA序列。真核表達(dá)載體包含啟動子、任選的聚腺苷酸化信號和任選的增強(qiáng)子序列。
具有編碼蛋白質(zhì)或多肽的核苷酸序列的多核苷酸,是指包含基因編碼區(qū)的核酸序列,換句話說,核酸序列編碼基因產(chǎn)物。編碼區(qū)可以cDNA、基因組DNA或RNA形式存在。當(dāng)以DNA形式存在時,寡核苷酸可以是單鏈(即有義鏈)或雙鏈。合適的控制元件,例如增強(qiáng)子/啟動子、剪接點(diǎn)、聚腺苷酸化信號等,可位于基因編碼區(qū)附近,如果需要允許合適的轉(zhuǎn)錄起始和/或正確的初級RNA轉(zhuǎn)錄物的加工的話?;蛘?,本發(fā)明表達(dá)載體所用的編碼區(qū)可含有內(nèi)源增強(qiáng)子/啟動子、剪接點(diǎn)、間插序列、聚腺苷酸化信號等。在其它實(shí)施方案中,編碼區(qū)可含有內(nèi)源和外源控制元件的組合。
術(shù)語“調(diào)節(jié)元件”或“調(diào)節(jié)序列”是指控制核酸序列表達(dá)的某些方面的遺傳元件或序列。例如,啟動子是促進(jìn)操作性連接的編碼區(qū)轉(zhuǎn)錄起始的調(diào)節(jié)元件。其它調(diào)節(jié)元件包括但不限于轉(zhuǎn)錄因子結(jié)合位點(diǎn)、剪接信號、聚腺苷酸化信號、終止信號和增強(qiáng)子元件。
真核生物轉(zhuǎn)錄控制信號包含“啟動子”和“增強(qiáng)子”元件。啟動子和增強(qiáng)子由短DNA序列組成,它們特異性影響參與轉(zhuǎn)錄的細(xì)胞蛋白質(zhì)。已經(jīng)從酵母、昆蟲和哺乳動物細(xì)胞的基因等各種真核來源分離出啟動子和增強(qiáng)子元件。也已經(jīng)從病毒中分離出啟動子和增強(qiáng)子元件,而且也在原核生物中發(fā)現(xiàn)了類似的控制元件,例如啟動子。具體啟動子和增強(qiáng)子的選擇取決于用于表達(dá)目標(biāo)蛋白質(zhì)的細(xì)胞類型。某些真核啟動子和增強(qiáng)子具有廣泛的宿主范圍,而另一些則只在有限的細(xì)胞類型中才具有功能。例如,SV40早期基因增強(qiáng)子在許多哺乳動物的不同細(xì)胞類型中都具有很高活性,可廣泛用于在哺乳動物細(xì)胞中表達(dá)蛋白質(zhì)。在廣泛的哺乳動物細(xì)胞類型中具有活性的啟動子/增強(qiáng)子元件的另外兩個實(shí)例是來自以下的啟動子/增強(qiáng)子元件人延伸因子1基因(Uetsuki等,1989;Kim等,1990;Mizushima和Nagata,1990)和勞斯肉瘤病毒長末端重復(fù)序列(Gorman等,1982);人巨細(xì)胞病毒(Boshart等,1985)。
術(shù)語“啟動子/增強(qiáng)子”是指DNA區(qū)段,含有能同時提供啟動子和增強(qiáng)子功能(即如上所述的啟動子元件和增強(qiáng)子元件所提供的功能)的序列。例如,逆轉(zhuǎn)錄病毒長末端重復(fù)序列同時具有啟動子功能和增強(qiáng)子功能。增強(qiáng)子/啟動子可以是“內(nèi)源”或“外源”或“異源”的。“內(nèi)源”增強(qiáng)子/啟動子是在基因組中與給定基因天然連接的增強(qiáng)子/啟動子。“外源”或“異源”增強(qiáng)子/啟動子是通過遺傳操作方法(即分子生物學(xué)技術(shù))位于基因并列位置的增強(qiáng)子/啟動子,使得基因轉(zhuǎn)錄由所連接的增強(qiáng)子/啟動子來指導(dǎo)。
表達(dá)載體上“剪接信號”的存在,通常導(dǎo)致真核宿主細(xì)胞中重組轉(zhuǎn)錄物表達(dá)水平較高。剪接信號介導(dǎo)從初級RNA轉(zhuǎn)錄物上除去內(nèi)含子,剪接信號由剪接供體和受體位點(diǎn)組成(Sambrook等,1989)。常用的剪接供體和受體位點(diǎn)是來自SV40的16S RNA的剪接點(diǎn)。
真核細(xì)胞重組DNA序列的表達(dá)效率,需要指導(dǎo)所得轉(zhuǎn)錄物的有效終止和聚腺苷酸化的信號的表達(dá)。轉(zhuǎn)錄終止信號通常存在于聚腺苷酸化信號的下游,長度為幾百個核苷酸。本文所用的術(shù)語“聚腺苷酸化位點(diǎn)(poly(A)位點(diǎn))”或“聚腺苷酸化序列(poly(A)序列)”是指同時指導(dǎo)新生RNA轉(zhuǎn)錄物終止和聚腺苷酸化的DNA序列。需要對重組轉(zhuǎn)錄物進(jìn)行有效的聚腺苷酸化,因為缺乏poly(A)尾的轉(zhuǎn)錄物不穩(wěn)定,會快速降解掉。表達(dá)載體所用的poly(A)信號可以是“異源”或“內(nèi)源”的。內(nèi)源poly(A)信號是天然存在于基因組給定基因編碼區(qū)3′端的信號。異源poly(A)信號是從一個基因中分離并位于另一基因的3′的信號。常用的異源poly(A)信號是SV40poly(A)信號。237bp BamH I/BclI限制片段上含有SV40 poly(A)信號,SV40 poly(A)信號可指導(dǎo)終止和聚腺苷酸化(Sambrook等,1989)。
真核表達(dá)載體也可含有“病毒復(fù)制子”或“病毒復(fù)制起點(diǎn)”。病毒復(fù)制子是病毒DNA序列,它允許載體在表達(dá)合適復(fù)制因子的宿主細(xì)胞中進(jìn)行染色體外復(fù)制。含有SV40復(fù)制起點(diǎn)或多瘤病毒復(fù)制起點(diǎn)的載體在表達(dá)合適病毒T抗原的細(xì)胞中復(fù)制出高拷貝數(shù)(高達(dá)104拷貝/細(xì)胞)。相比之下,含有牛乳頭瘤病毒復(fù)制子或EB病毒(Epstein-Barrvirus)復(fù)制子的載體以低拷貝數(shù)(約100拷貝/細(xì)胞)進(jìn)行染色體外復(fù)制。
術(shù)語“體外(in vitro)”是指人工環(huán)境,也指發(fā)生在人工環(huán)境內(nèi)的加工或反應(yīng)。體外環(huán)境包括但不限于試管和細(xì)胞裂解物。術(shù)語“體內(nèi)(in vivo)”是指天然環(huán)境(例如動物或細(xì)胞),也指發(fā)生在天然環(huán)境內(nèi)的加工或反應(yīng)。
術(shù)語“表達(dá)系統(tǒng)”是指用于測定(例如檢測)目標(biāo)基因表達(dá)的任何測定或系統(tǒng)。分子生物學(xué)領(lǐng)域技術(shù)人員將會理解,可使用大量表達(dá)系統(tǒng)中的任何一種。各種合適的哺乳動物細(xì)胞可得自各種來源(例如美國典型培養(yǎng)物保藏中心(American Type Culture Collection),Rockland,MD)。轉(zhuǎn)化或轉(zhuǎn)染方法以及表達(dá)載體的選擇,將會取決于所選用的宿主系統(tǒng)。轉(zhuǎn)化和轉(zhuǎn)染方法參見例如Ausubel等,1992。表達(dá)系統(tǒng)包括體外基因表達(dá)測定,其中目標(biāo)基因(例如報道基因)與調(diào)節(jié)序列連接在一起,基因的表達(dá)通過用抑制或誘導(dǎo)基因表達(dá)的試劑處理后進(jìn)行監(jiān)控。基因表達(dá)可以通過合適方法進(jìn)行檢測,該方法包括但不限于檢測所表達(dá)的mRNA或蛋白質(zhì)(例如報道基因的可檢測產(chǎn)物)或通過表達(dá)目標(biāo)基因的細(xì)胞表型的可檢測變化。表達(dá)系統(tǒng)也可包括測定,其中檢測切割事件或其它核酸或細(xì)胞變化。
本文所述的所有氨基酸殘基都呈天然的L-構(gòu)型。為了遵循標(biāo)準(zhǔn)多肽命名法,氨基酸殘基的縮略語詳見下列對照表。
對照表單字母 三字母 氨基酸YTyrL-酪氨酸GGlyL-甘氨酸FPheL-苯丙氨酸MMetL-甲硫氨酸AAlaL-丙氨酸SSerL-絲氨酸IIleL-異亮氨酸LLeuL-亮氨酸TThrL-蘇氨酸VValL-纈氨酸PProL-脯氨酸KLysL-賴氨酸HHisL-組氨酸QGlnL-谷氨酰胺EGluL-谷氨酸WTrpL-色氨酸RArgL-精氨酸DAspL-天冬氨酸NAsnL-天冬酰胺CCysL-半胱氨酸術(shù)語“互補(bǔ)”或“互補(bǔ)性”用于通過堿基配對規(guī)則相關(guān)的核苷酸序列。例如,序列5′“A-G-T”3′與序列3′“T-C-A”5′互補(bǔ)?;パa(bǔ)性可以是“部分”互補(bǔ)的,其中僅有部分核酸的堿基按照堿基配對規(guī)則匹配。另外,核酸之間也有“完全”或“總體”互補(bǔ)性。核酸鏈之間的互補(bǔ)性程度明顯影響核酸鏈間雜交的效率和強(qiáng)度。這對擴(kuò)增反應(yīng)以及依賴于核酸雜交的檢測方法來說尤其重要。
當(dāng)用于雙鏈核酸序列例如cDNA或基因組克隆時,術(shù)語“基本同源”是指能在如本文所述的低嚴(yán)格性條件下與雙鏈核酸序列的一條或兩條鏈雜交的任何探針。
“探針”是指設(shè)計用于與一段有待探測的變性核酸序列(相對于其長度)有效互補(bǔ)并可在所選擇的嚴(yán)格性條件下結(jié)合的寡核苷酸。
“雜交”和“結(jié)合”在用于探針和變性核酸時可互換使用。與變性核酸雜交或結(jié)合的探針與多核苷酸互補(bǔ)序列的堿基配對。無論特定探針是否與多核苷酸的堿基配對,都取決于互補(bǔ)性程度、探針長度和結(jié)合條件的嚴(yán)格性。嚴(yán)格性越高,互補(bǔ)性程度越高和/或探針越長。
術(shù)語“雜交”用于指互補(bǔ)核酸鏈的配對。雜交和雜交強(qiáng)度(即核酸鏈之間締合強(qiáng)度)受到本領(lǐng)域眾所周知的諸多因素的影響,包括核酸間互補(bǔ)性程度、所涉及的條件的嚴(yán)格性(例如鹽濃度)、所形成雜合體的Tm(解鏈溫度)、其它組分的存在(例如聚乙二醇存在與否)、雜交鏈的摩爾濃度和核酸鏈的G:C含量。
術(shù)語“嚴(yán)格性”用于指進(jìn)行核酸雜交時的溫度、離子強(qiáng)度和其它化合物的存在等條件。對于“高嚴(yán)格性”條件,核酸堿基配對僅發(fā)生在具有高度互補(bǔ)堿基序列的核酸片段之間。因此,當(dāng)需要并不完全互補(bǔ)的核酸彼此雜交或退火在一起時,則常需要“中等”或“低”嚴(yán)格性條件。本領(lǐng)域已經(jīng)清楚地知道,可以采用大量同等條件,包括中等或低嚴(yán)格性條件。選擇雜交條件對本領(lǐng)域技術(shù)人員來說通常是顯而易見的,通常根據(jù)雜交目的、雜交類型(DNA-DNA或DNA-RNA)和序列間所需相關(guān)性水平而定(有關(guān)方法的總論參見例如Sambrook等,1989;Nucleic Acid Hybridization,A Practical Approach,IRL Press,Washington D.C.,1985)。
已知核酸雙鏈體的穩(wěn)定性隨錯配堿基數(shù)的增加而下降,而且根據(jù)雜合雙鏈體中錯配的相對位置而進(jìn)一步或多或少地下降。因此,雜交的嚴(yán)格性可用于使這樣的雙鏈體的穩(wěn)定性最大化或最小化??赏ㄟ^以下方法改變雜交嚴(yán)格性調(diào)節(jié)雜交溫度;調(diào)節(jié)雜交混合物中的螺旋去穩(wěn)定劑(例如甲酰胺)的百分比;調(diào)節(jié)洗滌液的溫度和/或鹽濃度。對于濾膜雜交,雜交的最終嚴(yán)格性通常由雜交后洗滌所用的鹽濃度和/或溫度來確定。
“高嚴(yán)格性條件”當(dāng)用于核酸雜交時,并且當(dāng)采用長度約為500個核苷酸的探針時,包括以下條件在5X SSPE(43.8g/L NaCl、6.9g/LNaH2PO4H2O和1.85g/L EDTA,用NaOH將pH調(diào)節(jié)至7.4)、0.5%SDS、5X Denhardt試劑和100μg/ml變性鮭精DNA的溶液中于42℃進(jìn)行結(jié)合或雜交,接著在含有0.1X SSPE、1.0%SDS溶液中于42℃進(jìn)行洗滌。
“中等嚴(yán)格性條件”當(dāng)用于核酸雜交時,并且當(dāng)采用長度約為500個核苷酸的探針時,包括以下條件在5X SSPE(43.8g/L NaCl、6.9g/LNaH2PO4H2O和1.85g/L EDTA,用NaOH將pH調(diào)節(jié)至7.4)、0.5%SDS、5X Denhardt試劑和100μg/ml變性鮭精DNA的溶液中于42℃進(jìn)行結(jié)合或雜交,接著在含有1.0X SSPE、1.0%SDS的溶液中于42℃進(jìn)行洗滌。
“低嚴(yán)格性條件”當(dāng)采用長度約為500個核苷酸的探針時,包括以下條件在5X SSPE(43.8g/L NaCl、6.9g/L NaH2PO4H2O和1.85g/LEDTA,用NaOH將pH調(diào)節(jié)至7.4)、0.1%SDS、5X Denhardt試劑[每500ml 50X Denhardt含有5g Ficoll(Type 400,Pharmacia)、5g BSA(Fraction V;Sigma)]和100g/ml變性鮭精DNA的溶液中于42℃進(jìn)行結(jié)合或雜交,接著在含有5X SSPE、0.1%SDS的溶液中于42℃進(jìn)行洗滌。
術(shù)語“Tm”用于指“解鏈溫度”。解鏈溫度是當(dāng)雙鏈核酸分子群體的50%解離變成單鏈時的溫度。計算核酸Tm的公式是本領(lǐng)域眾所周知的。雜交核酸的Tm通常采用在1M鹽中的雜交測定的公式來估計,常常用于計算PCR引物的Tm[(A+T)數(shù)×2℃+(G+C)數(shù)×4℃]。(C.R.Newton等,PCR,第2版,Springer-Verlag(New York,1997),第24頁)。發(fā)現(xiàn)該公式對于長度超過20個核苷酸的引物來說并不準(zhǔn)確(出處同上)。另一個對Tm值的簡單估計可通過以下公式求出Tm=81.5+0.41(%G+C),當(dāng)核酸在1M NaCl的水溶液中時。(例如Anderson和Young,Quantitative Filter Hybridization,Nucleic Acid Hybridization,1985)。本領(lǐng)域還有其它更多復(fù)雜計算方法,該方法將結(jié)構(gòu)以及序列特征都考慮到Tm的計算中。計算的Tm僅為估計值;最適溫度通常憑經(jīng)驗來確定。
術(shù)語“啟動子/增強(qiáng)子”是指含有能提供啟動子和增強(qiáng)子功能(即由如上所述的啟動子元件和增強(qiáng)子元件所提供的功能)的序列的DNA區(qū)段。例如,逆轉(zhuǎn)錄病毒長末端重復(fù)序列就同時含有啟動子功能和增強(qiáng)子功能。增強(qiáng)子/啟動子可以是“內(nèi)源”或“外源”或“異源”的?!皟?nèi)源”增強(qiáng)子/啟動子是在基因組中與給定基因天然連接的增強(qiáng)子/啟動子?!巴庠础被颉爱愒础痹鰪?qiáng)子/啟動子是通過遺傳操作方法(即分子生物學(xué)技術(shù))位于基因并列位置的增強(qiáng)子/啟動子,使得基因轉(zhuǎn)錄由所連接的增強(qiáng)子/啟動子來指導(dǎo)。
術(shù)語“序列同源性”是指兩個核酸序列間的堿基匹配比例或者兩個氨基酸序列間的氨基酸匹配比例。當(dāng)序列同源性以百分率表示例如50%時,該百分率是指一個序列與某些其它序列相比較時的序列長度匹配的比例。允許空位(在兩個序列任一個中)使匹配最大化;通常使用的空位長度為15個以下堿基,優(yōu)選6個以下堿基,最優(yōu)選2個以下堿基。當(dāng)采用寡核苷酸作為探針或處理時,靶核酸和靶寡核苷酸序列之間的序列同源性通常為20個可能寡核苷酸堿基對匹配中有不少于17個靶堿基匹配(85%);優(yōu)選在10個可能堿基對匹配中有不少于9個匹配(90%),更優(yōu)選20個可能堿基對匹配中有不少于19個匹配(95%)。
如果兩個氨基酸序列間有部分或完全同一性,則這兩個序列同源。例如,85%同源性是指當(dāng)兩個序列進(jìn)行最大匹配的比對時有85%氨基酸相同。允許空位(在進(jìn)行比對的兩個序列中任一個)使匹配最大化;優(yōu)選空位長度為5個以下,更優(yōu)選2個以下。另外,如果運(yùn)用程序ALIGN,突變數(shù)據(jù)矩陣和空位罰分≥6,其比對得分>5(以標(biāo)準(zhǔn)差單位計)時,優(yōu)選兩個蛋白質(zhì)序列(或來自它們的長度至少100個氨基酸的多肽序列)同源(根據(jù)該術(shù)語在本文中的用法)。參見Dayhoff,M.O.,Atlas of Protein Sequence and Structure,1972,第5卷,NationalBiomedical Research Foundation,第101-110頁及該卷的增刊2,第1-10頁。當(dāng)運(yùn)用ALIGN程序?qū)蓚€序列或其部分進(jìn)行優(yōu)化比對時,如果其氨基酸≥85%相同,則它們更優(yōu)選為同源序列。
下面的術(shù)語都用于描述兩個或更多個多核苷酸之間的序列關(guān)系“參考序列”、“比較窗口”、“序列同一性”、“%序列同一性”和“基本同一性”?!皡⒖夹蛄小笔怯米餍蛄斜容^基礎(chǔ)的指定序列;參考序列可以是一組較大的序列,例如序列表中給出的全長cDNA或基因序列區(qū)段,或者可以包含完整cDNA或基因序列。一般而言,參考序列長度至少為20個核苷酸,通常長度至少為25個核苷酸,更常見的長度至少為50或100個核苷酸。因為兩個多核苷酸可各自(1)包含兩個多核苷酸間相似的序列(即完整多核苷酸序列的一部分),和(2)還可以包含兩個多核苷酸間不同的序列,所以兩個(或更多個)多核苷酸間的序列比較通常通過比較“比較窗口”內(nèi)兩個多核苷酸序列來進(jìn)行,以鑒定和比較序列相似性的局部區(qū)。
本文所用的“比較窗口”是指至少20個毗連核苷酸的概念區(qū)段,其中比較窗口內(nèi)的多核苷酸序列部分可以包含20%以下的添加或缺失(即空位),當(dāng)與參考序列(它不含添加或缺失)進(jìn)行兩個序列最佳比對的比較時。
序列比對的比較方法是本領(lǐng)域眾所周知的。因此,可以使用數(shù)學(xué)算法來確定任兩個序列間的%同一性。這類數(shù)學(xué)算法的優(yōu)選非限制性實(shí)例是Myers和Miller算法(1988);Smith和Waterman的局部同源性算法(1981);Needleman和Wunsch的同源性比對算法(1970);Pearson和Lipman的檢索相似性方法(1988);Karlin和Altschul算法(1990),Karlin和Altschul的改進(jìn)算法(1993)。
用計算機(jī)來執(zhí)行這些數(shù)學(xué)算法,可用于序列比較,確定序列同一性。這樣的執(zhí)行包括但不限于ClustalW(可得自例如http//www.ebi.ac.uk/clustalw/);ALIGN程序(2.0版)和威斯康辛遺傳軟件包(Wisconsin Genetics Software Package,第8版)的GAP、BESTFIT、BLAST、FASTA和TFASTA。用這些程序進(jìn)行比對時可使用缺省參數(shù)。CLUSTAL程序可參見Higgins等(1988);Higgins等(1989);Corpet等(1988);Huang等(1992);Pearson等(1994)。ALIGN程序是根據(jù)Myers和Miller算法(出處同上)。Altschul等(1990)的BLAST程序是根據(jù)Karlin和Altschul算法(出處同上)。為得到帶空位的比對以進(jìn)行比較,可以采用Gapped BLAST(在BLAST 2.0中),參見Altschul等(1997)?;蛘?,可以采用PSI-BLAST(在BLAST 2.0中)進(jìn)行重復(fù)檢索,檢測分子間的距離關(guān)系。參見Altschul等(出處同上)。當(dāng)使用BLAST、GappedBLAST、PSI-BLAST時,可以使用各自程序(例如對于核苷酸序列為BLASTN,對于蛋白質(zhì)為BLASTX)的缺省參數(shù)。參見http//www.ncbi.nlm.nih.gov.。也可采用手工搜索進(jìn)行比對。
術(shù)語“序列同一性”是指比較窗口內(nèi)的兩個多核苷酸序列是相同的(即在核苷酸-核苷酸基礎(chǔ)上)。術(shù)語“%序列同一性”是指對于所述核苷酸比例而言比較窗口內(nèi)的兩個多核苷酸序列是相同的(即在核苷酸-核苷酸基礎(chǔ)上)。術(shù)語“%序列同一性”的計算如下對比較窗口內(nèi)的兩個優(yōu)化比對序列進(jìn)行比較,確定兩個序列中的相同核酸堿基(例如A、T、C、G、U或I)的位置數(shù),得出匹配位置數(shù),把匹配位置數(shù)除以比較窗口內(nèi)的總位置數(shù)(即窗口大小)再乘以100,得出%序列同一性。本文所用的術(shù)語“基本相同”是指多核苷酸序列的特征,其中在至少20個核苷酸位、通常超過至少20-25個核苷酸、優(yōu)選至少300個核苷酸的比較窗口內(nèi),多核苷酸所包含的序列與參考序列相比有至少60%、優(yōu)選至少65%、更優(yōu)選至少70%、至多約85%、甚至更優(yōu)選至少90-95%、更經(jīng)常為至少99%的序列同一性,其中%序列同一性的計算如下將參考序列與比較窗口內(nèi)的多核苷酸序列進(jìn)行比較,其中所述多核苷酸序列可以包含參考序列的總共20%以下的缺失或添加。參考序列可以是一組較大的序列。
當(dāng)用于多肽時,術(shù)語“基本相同”是指當(dāng)例如通過程序GAP或BESTFIT進(jìn)行優(yōu)化比對并使用缺省空位權(quán)重(gap weight)時,兩個肽序列共享至少約85%序列同一性、優(yōu)選至少約90%序列同一性、更優(yōu)選至少約95%序列同一性、最優(yōu)選至少約99%序列同一性。
本發(fā)明的合成核苷酸序列及方法本發(fā)明提供包含合成核苷酸序列的組合物,以及制備這些序列的方法,該方法可得到合成核苷酸序列,該合成核苷酸序列當(dāng)存在于特定細(xì)胞類型中時,能有效表達(dá)為多肽或蛋白質(zhì)并具有所需特征,包括不適當(dāng)或不需要的轉(zhuǎn)錄特征減少,或者不會產(chǎn)生不適當(dāng)或不需要的轉(zhuǎn)錄特征。
自然選擇是這樣一種假說基因型與環(huán)境的相互作用發(fā)生在表型水平上,導(dǎo)致個體的差別繁殖成效,因此導(dǎo)致群體基因庫的修飾。普遍認(rèn)為,自然界中存在的蛋白質(zhì)的氨基酸序列經(jīng)歷過自然選擇優(yōu)化。然而,氨基酸存在于蛋白質(zhì)序列內(nèi),并不會顯著影響蛋白質(zhì)活性,而且可以將這些氨基酸變成其它氨基酸,卻沒有或少有影響。此外,蛋白質(zhì)可用在其自然環(huán)境之外,或者可用于不同于其自然選擇條件的目的。在這些情況下,氨基酸序列可以經(jīng)過合成而改變,以使蛋白質(zhì)更好地適應(yīng)不同的用途。
同樣,編碼蛋白質(zhì)的核酸序列也通過自然選擇而優(yōu)化。編碼DNA及其轉(zhuǎn)錄RNA之間的關(guān)系是DNA上的任何變化都會影響所產(chǎn)生的RNA。因此,自然選擇同時作用于這兩種分子。然而,這種關(guān)系在核酸和蛋白質(zhì)之間并不存在。因為多個密碼子編碼同一氨基酸,許多不同核苷酸序列可編碼相同的蛋白質(zhì)。由500個氨基酸組成的某一特定蛋白質(zhì)理論上可由超過10150個不同核酸序列編碼。
自然選擇作用于核酸,達(dá)到對相應(yīng)蛋白質(zhì)的合適編碼。推測起來,核酸分子的其它特性也會受到自然選擇的影響。這些特性包括密碼子使用頻率、RNA二級結(jié)構(gòu)、內(nèi)含子剪接效率和與轉(zhuǎn)錄因子或其它核酸結(jié)合蛋白的相互作用。這些其它特性可改變蛋白質(zhì)翻譯效率和所得表型。因為遺傳密碼的冗余性,這些其它屬性可經(jīng)自然選擇而優(yōu)化,同時不會改變相應(yīng)的氨基酸序列。
在某些條件下,這可用于經(jīng)過合成而改變編碼蛋白質(zhì)的天然核苷酸序列,以便更好地適應(yīng)交替應(yīng)用的蛋白質(zhì)。一個普通的實(shí)例是當(dāng)基因在外源宿主細(xì)胞中表達(dá)時,改變基因的密碼子使用頻率。盡管遺傳密碼的冗余性允許氨基酸由多個密碼子編碼,但是不同生物體比起其它的來說更偏愛某些密碼子。對于具有十分不同的進(jìn)化史的生物體來說,密碼子使用頻率傾向于最大的不同。已經(jīng)發(fā)現(xiàn),當(dāng)在進(jìn)化上的遠(yuǎn)緣生物體之間進(jìn)行基因轉(zhuǎn)移時,通過調(diào)節(jié)密碼子使用頻率,可以大大地提高蛋白質(zhì)的翻譯效率(參見美國專利5,096,825、5,670,356和5,874,304)。
在一個實(shí)施方案中,對報道基因序列進(jìn)行修飾,當(dāng)報道基因的密碼子使用通常不對應(yīng)于實(shí)驗細(xì)胞的優(yōu)化密碼子使用時。在另一個實(shí)施方案中,對報道基因序列進(jìn)行修飾,以除去調(diào)節(jié)序列,例如那些可改變報道基因或連鎖基因表達(dá)的調(diào)節(jié)序列。實(shí)例包括β-半乳糖苷酶(β-gal)和氯霉素乙酰轉(zhuǎn)移酶(cat)報道基因,它們均來源于大腸桿菌(E.coli),常用于哺乳動物細(xì)胞;β-葡糖醛酸糖苷酶(gus)報道基因,它來源于大腸桿菌,常用于植物細(xì)胞;螢火蟲螢光素酶(luc)報道基因,它來源于昆蟲,常用于植物細(xì)胞和哺乳動物細(xì)胞;腎海鰓(Renilla)螢光素酶和綠色熒光蛋白(gfp)報道基因,它們均來源于腔腸動物,常用于植物細(xì)胞和哺乳動物細(xì)胞。為了得到報道基因表達(dá)的靈敏數(shù)量,基因產(chǎn)物活性必定不是實(shí)驗宿主細(xì)胞內(nèi)源的。因此,報道基因通常選自具有獨(dú)特的不同表型的生物體。因此,這些生物體通常與實(shí)驗宿主細(xì)胞具有十分不同的進(jìn)化史。
先前,為了產(chǎn)生具有更優(yōu)化密碼子使用頻率、但仍編碼同一基因產(chǎn)物的基因,制備了合成核酸序列,即通過用實(shí)驗宿主細(xì)胞更偏愛的密碼子取代現(xiàn)有密碼子(參見美國專利5,096,825、5,670,356和5,874,304)。結(jié)果完全改善了合成基因的密碼子使用頻率。然而,沒有考慮其它屬性的優(yōu)化,因此這些合成基因很可能沒有反映出經(jīng)自然選擇而優(yōu)化的基因。
具體地講,根據(jù)RNA在翻譯成蛋白質(zhì)中的作用,密碼子使用頻率的改進(jìn)僅用于RNA序列的優(yōu)化。因此,先前介紹的方法不能解釋合成基因序列如何影響DNA在轉(zhuǎn)錄成RNA中的作用。最值得注意的是,沒有考慮到轉(zhuǎn)錄因子怎樣影響合成DNA并繼而調(diào)節(jié)或影響基因轉(zhuǎn)錄。對于天然存在的基因,DNA可通過天然宿主細(xì)胞而被優(yōu)化轉(zhuǎn)錄,并將得到編碼適當(dāng)折疊基因產(chǎn)物的RNA。相比之下,合成基因先前沒有經(jīng)過用于轉(zhuǎn)錄特征而優(yōu)化。甚至該特征被忽視或擱置。
該問題對所有基因來說都很重要,但是對報道基因和基因的載體骨架序列來說尤為重要,報道基因最常用于定量測定實(shí)驗宿主細(xì)胞中的轉(zhuǎn)錄行為。在不同細(xì)胞類型中以及不同生理條件下,已經(jīng)鑒定出了數(shù)百個轉(zhuǎn)錄因子,但是很可能還有更多轉(zhuǎn)錄因子尚未鑒定。所有這些轉(zhuǎn)錄因子都可影響引入基因或與其相連序列的轉(zhuǎn)錄。本發(fā)明的一個有用的合成報道基因或載體骨架對影響或干擾宿主細(xì)胞內(nèi)在轉(zhuǎn)錄特征的危險性最小,因為該基因或載體骨架的結(jié)構(gòu)已經(jīng)改變。一個特別有用的合成報道基因或載體骨架在新的一組和/或不同試驗條件下將會具有所需要的特征。為了最好地獲得這些特征,合成基因或合成載體骨架的結(jié)構(gòu)在廣泛宿主細(xì)胞范圍內(nèi)和生理條件下應(yīng)該對干擾轉(zhuǎn)錄因子的潛力最小。使報道基因或載體骨架與宿主細(xì)胞的內(nèi)源轉(zhuǎn)錄因子之間的潛在相互作用最小化,能通過減少特定實(shí)驗中基因或載體骨架的不適當(dāng)轉(zhuǎn)錄特征的危險性,增加基因或載體骨架適用于不同的環(huán)境,增加所得實(shí)驗數(shù)據(jù)的可接受性,從而提升報道基因或載體骨架的價值。
相比之下,包含天然核苷酸序列的報道基因(根據(jù)來自原始宿主生物的基因組或cDNA克隆)或包含存在于一個或多個不同生物體中的天然序列的載體骨架,當(dāng)它們存在于外源宿主中時,可以影響轉(zhuǎn)錄因子。該危險來自兩種情況。首先,天然核苷酸序列含有經(jīng)自然選擇而優(yōu)化的序列,以影響天然宿主生物內(nèi)的基因轉(zhuǎn)錄。然而,當(dāng)這些序列存在于外源宿主(即在范圍之外)中時,所述序列也可影響轉(zhuǎn)錄,因此干擾其作為報道基因或載體骨架的表現(xiàn)。第二,核苷酸序列可無意中影響天然宿主生物體中不存在的轉(zhuǎn)錄因子,因此不參與其自然選擇。這樣的無意相互作用的可能性,隨實(shí)驗細(xì)胞與報道基因或載體骨架的天然生物體之間的進(jìn)化分離而增加。
當(dāng)使用密碼子使用頻率發(fā)生改變的合成報道基因時,這些與轉(zhuǎn)錄因子的潛在相互作用很可能被破壞。然而,僅根據(jù)密碼子使用頻率、或在載體骨架中隨機(jī)取代序列或隨機(jī)并列序列,通過選擇密碼子所設(shè)計的合成報道基因序列,可能含有其它不需要的轉(zhuǎn)錄因子結(jié)合位點(diǎn),因為所得序列沒有經(jīng)過自然選擇以糾正不適當(dāng)?shù)霓D(zhuǎn)錄活性。只要所編碼的氨基酸序列經(jīng)過人工改變,例如引入了氨基酸取代,也會發(fā)生與轉(zhuǎn)錄因子的無意相互作用。同樣,這些改變沒有經(jīng)過自然選擇,因此可表現(xiàn)出不需要的特性。
因此,本發(fā)明提供合成核苷酸序列的制備方法,當(dāng)合成核苷酸序列在特定宿主細(xì)胞中表達(dá)時,減少了核苷酸序列與轉(zhuǎn)錄因子和其它反式作用因子之間不需要的相互作用的危險,因此減少了不適當(dāng)或不需要的特性。優(yōu)選的方法得到含有用于特定宿主細(xì)胞的改進(jìn)的密碼子使用頻率的合成基因,并且調(diào)節(jié)序列例如轉(zhuǎn)錄因子結(jié)合位點(diǎn)發(fā)生率減少和/或調(diào)節(jié)序列發(fā)生率的載體骨架序列減少。本發(fā)明也提供合成基因的制備方法,所述合成基因含有改進(jìn)的密碼子使用頻率,具有減少的轉(zhuǎn)錄因子結(jié)合位點(diǎn)發(fā)生率和附加的有益結(jié)構(gòu)特征。所述附加特征包括不存在不適當(dāng)?shù)腞NA剪接點(diǎn)、poly(A)添加信號、不需要的限制酶識別位點(diǎn)、核糖體結(jié)合位點(diǎn)和/或二級結(jié)構(gòu)基序,例如發(fā)夾環(huán)。
在一個實(shí)施方案中,編碼多肽的親代核酸序列為在特定細(xì)胞中表達(dá)而優(yōu)化。例如,通過用在特定(所選擇的)細(xì)胞中優(yōu)先使用的密碼子取代野生型序列中的密碼子,使核酸序列優(yōu)化,這樣的密碼子取代也減少了調(diào)節(jié)序列的數(shù)目。優(yōu)選的密碼子在所選細(xì)胞中具有相對高的密碼子使用頻率,并且優(yōu)選它們的引入導(dǎo)致相對少的調(diào)節(jié)序列(例如轉(zhuǎn)錄因子結(jié)合位點(diǎn))的引入和相對少的其它不需要的結(jié)構(gòu)特性的引入。因此,優(yōu)化的核苷酸序列因改進(jìn)的密碼子使用頻率而具有改進(jìn)的表達(dá)水平,并且因減少了不需要的轉(zhuǎn)錄調(diào)節(jié)序列的數(shù)目而降低了不適當(dāng)轉(zhuǎn)錄行為的危險。在另一個實(shí)施方案中,親代載體骨架序列被改變,以除去調(diào)節(jié)序列和任選的限制性內(nèi)切核酸酶位點(diǎn),并且任選保留或添加其它所需要的特征,例如在一個或多個讀框中存在一個或多個終止密碼子、一個或多個poly(A)位點(diǎn)和/或限制性內(nèi)切核酸酶位點(diǎn)。
本發(fā)明可使用任何核酸序列,例如天然序列(例如cDNA)或經(jīng)過體外操作的序列。示例性的基因包括但不限于以下酶的編碼基因內(nèi)酰胺酶(β-gal)、新霉素抗性(Neo)、潮霉素抗性(Hyg)、嘌呤霉素抗性(Puro)、氨芐青霉素抗性(Amp)、CAT、GUS、吡喃半乳糖苷酶、GFP、木糖苷酶、胸苷激酶、阿拉伯糖苷酶、螢光素酶等。本文所用的“報道基因”是使表達(dá)該基因的細(xì)胞具有獨(dú)特表型,因而可使具有該基因的細(xì)胞與不含有該基因的細(xì)胞區(qū)分開來的基因。這樣的基因可編碼可選擇或可篩選多肽,這取決于該標(biāo)記是否具有通過化學(xué)方法(即通過使用選擇性試劑,例如除草劑、抗生素等)可“選擇”的性狀,或者是否可通過觀察或檢測(即通過“篩選”)而簡單地鑒別“報道基因”的性狀。該術(shù)語包括的可選擇或可篩選標(biāo)記基因也是編碼“可分泌標(biāo)記”的基因,可以用鑒定或選擇轉(zhuǎn)化細(xì)胞的方法來檢測其分泌。實(shí)例包括編碼可分泌抗原的標(biāo)記或編碼可分泌酶的標(biāo)記,該抗原可以通過與抗體的相互作用來鑒定,而該可分泌酶可通過它的催化活性來檢測。可分泌蛋白包括但不限于以下類型可通過例如ELISA而檢測的小的可擴(kuò)散蛋白,以及插入到或截留到細(xì)胞膜中的蛋白質(zhì)。
通過使用特定基因和載體骨架序列,詳細(xì)地舉例說明了本說明書的要素。當(dāng)然,許多合適基因和載體骨架的實(shí)例是本領(lǐng)域已知的,可用于本發(fā)明的實(shí)踐中。因此,可以理解,下面的討論是示例性的,而非窮盡的。按照本文所公開的技術(shù)和本領(lǐng)域已知的通用重組技術(shù),本發(fā)明提供任何基因或載體骨架序列的可能的改變。
示例性的基因包括但不限于neo基因、puro基因、amp基因、β-gal基因、gus基因、cat基因、gpt基因、hyg基因、hisD基因、ble基因、mprt基因、bar基因、腈水解酶基因、突變型乙酰乳酸合酶基因(ALS)或acetoacid合酶基因(AAS)、甲氨蝶呤抗性dhfr基因、茅草枯(dalapon)脫鹵素酶基因、突變型鄰氨基苯甲酸合酶基因(賦予5-甲基色氨酸抗性(WO 97/26366))、R-locus基因、β-內(nèi)酰胺酶基因、xylE基因、α-淀粉酶基因、酪氨酸酶基因、螢光素酶(luc)基因(例如腎海鰓(Renillareniformis)螢光素酶基因、螢火蟲螢光素酶基因或叩頭蟲(click beetle)螢光素酶(牙買加叩頭蟲(Pyrophorus plagiophthalamus)基因)、水母發(fā)光蛋白基因或熒光蛋白基因。
本發(fā)明的方法可以通過(盡管不限于)循環(huán)方法來進(jìn)行。該方法包括根據(jù)特定物種的密碼子使用,給靶分子例如天然核苷酸序列的每個氨基酸指定優(yōu)選密碼子,鑒定具有優(yōu)選密碼子的核酸序列中潛在的轉(zhuǎn)錄調(diào)節(jié)序列例如轉(zhuǎn)錄因子結(jié)合位,例如使用這樣的結(jié)合位點(diǎn)的數(shù)據(jù)庫,任選鑒定其它不需要的序列,然后在不需要的轉(zhuǎn)錄因子結(jié)合位點(diǎn)或其它序列的位置上取代可變密碼子(即編碼同一氨基酸)。對于密碼子的不同形式,可變的優(yōu)選密碼子以各自形式被取代。必要時,可以重復(fù)進(jìn)行潛在轉(zhuǎn)錄因子或其它不需要的序列的鑒定和消除,直到得到的核苷酸序列含有最大數(shù)量的優(yōu)選密碼子和最小數(shù)量的不需要的序列(包括轉(zhuǎn)錄調(diào)節(jié)序列或其它不需要的序列)。同樣,任選可引入需要的序列,例如限制酶識別位點(diǎn)。設(shè)計并構(gòu)建合成核苷酸序列之后,可以通過本領(lǐng)域眾所周知的方法,對其相對于親代核酸序列的特性進(jìn)行測定。例如,可以對一系列載體中的合成核酸和靶核酸在特定細(xì)胞中的表達(dá)進(jìn)行比較。
因此,本發(fā)明的方法通常包含鑒定靶核酸序列和目標(biāo)宿主細(xì)胞,例如植物(雙子葉植物或單子葉植物)、真菌、酵母或哺乳動物細(xì)胞。優(yōu)選宿主細(xì)胞是哺乳動物宿主細(xì)胞,例如CHO、COS、293、HeLa、CV-1和NIH3T3細(xì)胞。根據(jù)宿主細(xì)胞內(nèi)優(yōu)選的密碼子使用,以及任選在宿主細(xì)胞的低頻密碼子使用,例如高頻使用的哺乳動物密碼子和低使用的大腸桿菌和哺乳動物密碼子,可以確定有待取代的密碼子。在取代所選密碼子的同時、隨后或之前,鑒定靶序列中需要和不需要的序列,例如不需要的轉(zhuǎn)錄調(diào)節(jié)序列。這些序列,包括轉(zhuǎn)錄調(diào)節(jié)序列和限制性內(nèi)切核酸酶位點(diǎn)在內(nèi),可以用以下數(shù)據(jù)庫和軟件進(jìn)行鑒定,例如TRANSFAC_(轉(zhuǎn)錄因子數(shù)據(jù)庫,http//www.gene-regulation.com/),MatchTM(http//www.gene-regulation.com/),MatInspector(Genomatix,http//www.genomatix.de),EPD(真核啟動子數(shù)據(jù)庫,http//www.epd.isb-sib.ch/),REBASE_(限制酶數(shù)據(jù)庫,NEB,http//rebase.neb.com),TESS(轉(zhuǎn)錄元件檢索系統(tǒng),http//www.cbil.upenn.edu/tess/),MAR-Wiz(Futuresoft,http//www.futuresoft.org),Lasergene_(DNASTAR,http//www.dnastar.com),Vector NTITM(Invitrogen,http//www.invitrogen.com),Sequence Manipulation Suite(http//www.bioinformatics.org/SMS/index.html)。相關(guān)的其它數(shù)據(jù)庫和序列分析軟件參見http//www.expasy.org/alinks.html。在一個或多個序列被鑒定后,可以引入修飾。一旦得到所需合成核苷酸序列后,就可以通過本領(lǐng)域眾所周知的方法(例如用重疊引物進(jìn)行核酸擴(kuò)增反應(yīng))進(jìn)行制備,并將其包括但不限于以下的結(jié)構(gòu)及功能特征與靶核酸序列的進(jìn)行比較同源性百分率,某些序列(例如限制位點(diǎn))的存在與否、密碼子改變百分率(例如增加或減少某些密碼子的使用)和/或表達(dá)速率。
如下所述,用該方法產(chǎn)生編碼螢火蟲螢光素酶和選擇性多肽的合成報道基因以及載體骨架合成序列。合成序列可支持比蛋白質(zhì)的相應(yīng)天然序列或親代序列更高水平的表達(dá)和/或減少的異常表達(dá)。當(dāng)天然序列和親代序列在哺乳動物細(xì)胞中表達(dá)時,它可表現(xiàn)出異常的轉(zhuǎn)錄特征,而這在合成序列中是不明顯的。
合成核苷酸序列的示例性用途本發(fā)明的合成基因優(yōu)選編碼與其天然對應(yīng)物所編碼的相同(或相近)的蛋白質(zhì),但是具有改進(jìn)的密碼子使用,同時在編碼區(qū)(已經(jīng)知道,最好有少量氨基酸變化,以增強(qiáng)天然對應(yīng)物蛋白質(zhì)的特性,例如增強(qiáng)螢光素酶的熒光)和非編碼區(qū)基本缺乏調(diào)節(jié)元件。這提高了合成基因所編碼的蛋白質(zhì)的表達(dá)水平,并降低了蛋白質(zhì)異常表達(dá)的危險。例如,對基因調(diào)節(jié)的許多重要事件(它們可由弱啟動子介導(dǎo))的研究,受到報道蛋白不適當(dāng)表達(dá)所致的報道信號不足的限制。同樣,某些選擇性標(biāo)記的使用也受到其在外源細(xì)胞中表達(dá)的限制。因此,合成選擇性標(biāo)記基因(其在該細(xì)胞中具有改進(jìn)的密碼子使用,并減少了其它不需要的序列,例如轉(zhuǎn)錄因子結(jié)合位點(diǎn)),可允許在細(xì)胞中使用這些標(biāo)記,所述細(xì)胞對于這些標(biāo)記來說是不太理想的宿主。
當(dāng)用共報道基因使轉(zhuǎn)染效率標(biāo)準(zhǔn)化時,啟動子干擾(crosstalk)是另一個問題。隨著合成基因表達(dá)增加,可以減少含有強(qiáng)啟動子的DNA數(shù)量,或者可以使用含有弱啟動子的DNA,以驅(qū)動共報道基因的表達(dá)。另外,可以降低本發(fā)明合成報道基因的背景表達(dá)。這一特性使合成報道基因更需要,即通過減少基因的零星表達(dá)并減少其它調(diào)節(jié)途徑所致的干擾。
在體內(nèi)生物學(xué)研究或藥物篩選的成像系統(tǒng)中使用報道基因,這是本發(fā)明的合成基因的另一用途。因為合成基因所編碼的蛋白質(zhì)的表達(dá)水平提高,所以它們更容易通過成像系統(tǒng)來檢測。事實(shí)上,使用合成腎海鰓螢光素酶基因,可以用肉眼觀察轉(zhuǎn)染CHO細(xì)胞的熒光,而無需借助儀器來觀察。
另外,合成基因可用于表達(dá)融合蛋白(例如與分泌前導(dǎo)序列或細(xì)胞定位序列的融合物),以研究難以轉(zhuǎn)染細(xì)胞(例如原代細(xì)胞)的轉(zhuǎn)錄和/或改進(jìn)對調(diào)節(jié)途徑和遺傳元件的分析。其它用途包括但不限于需要極高靈敏度的稀有事件的檢測(例如研究RNA再編碼),使用IRES以改進(jìn)體外翻譯或體外轉(zhuǎn)錄-翻譯偶聯(lián)系統(tǒng)例如TnT(Promega Corp.,Madison,WI)的效率,研究對不同宿主生物體(例如植物、真菌等)報道基因的優(yōu)化,使用多個基因作為共報道基因以監(jiān)測藥物毒性,在多孔測定(multiwell assay)中作為報道分子,以及在藥物篩選中作為報道分子,其優(yōu)勢是將不同信號轉(zhuǎn)導(dǎo)途徑和其它調(diào)節(jié)機(jī)制對報道信號干擾的可能性降至最低。
另外,本發(fā)明的合成核苷酸序列的用途包括熒光激活細(xì)胞分選術(shù)(fluorescence activated cell sorting,F(xiàn)ACS)、熒光顯微鏡術(shù),用于檢測和/或測定體外和體內(nèi)的基因表達(dá)水平(例如測定啟動子強(qiáng)度)、亞細(xì)胞定位或打靶(融合蛋白),在標(biāo)定中、在試劑盒(例如用于雙重測定)中作為標(biāo)記用于體內(nèi)顯像,分析調(diào)節(jié)途徑和遺傳元件,并以多孔模式(multi-well format)。
此外,盡管報道基因廣泛用于測定轉(zhuǎn)錄事件,但是其用途受到報道基因表達(dá)的保真性和效率的限制。例如,在美國專利第5,670,356號中,螢火蟲螢光素酶基因(稱為luc+)經(jīng)過修飾以改進(jìn)螢光素酶表達(dá)水平。盡管觀察到較高水平的表達(dá),但是卻無法確定較高表達(dá)具有改進(jìn)的調(diào)節(jié)控制。
通過下面非限制性實(shí)施例進(jìn)一步描述本發(fā)明。具體地講,本發(fā)明的合成核酸分子可以用其他方法以及本文所述方法的修改方法獲得。
實(shí)施例1合成的叩頭蟲(Click Beetle)(RD和GR)螢光素酶核酸分子LucPplYG是野生型叩頭蟲螢光素酶,發(fā)出黃綠色熒光(Wood,1989)。設(shè)計出一種突變型LucPplYG,稱為YG#81-6G01。與野生型相比,YG#81-6G01缺乏過氧化物酶體靶向信號,對螢光素和ATP的KM較低,具有增加的信號穩(wěn)定性和增加的溫度穩(wěn)定性(PCT/WO9914336)。YG #81-6G01因224位的Ala變成Val而發(fā)生突變(A224V是綠移突變),發(fā)出綠色熒光;或者通過同時引入氨基酸取代A224H、S247H、N346I和H348Q(紅移突變組)而發(fā)生突變,發(fā)出紅色熒光(PCT/WO9518853)。
采用YG #81-6G01作為親代基因,設(shè)計出兩個合成基因序列。一個編碼發(fā)綠色熒光的螢光素酶(GR),而另一個編碼發(fā)紅色熒光的螢光素酶(RD)。這兩個基因都設(shè)計為1)具有在哺乳動物細(xì)胞中表達(dá)的優(yōu)化密碼子使用,2)具有數(shù)目減少的轉(zhuǎn)錄調(diào)節(jié)位點(diǎn),包括哺乳動物轉(zhuǎn)錄因子結(jié)合位點(diǎn)、剪接位點(diǎn)、poly(A)位點(diǎn)和啟動子、以及原核(大腸桿菌)調(diào)節(jié)位點(diǎn),3)沒有不需要的限制位點(diǎn),例如可能干擾標(biāo)準(zhǔn)克隆步驟的那些位點(diǎn),和4)彼此相比,具有低DNA序列同一性,以便當(dāng)都存在于同一細(xì)胞內(nèi)時,使遺傳重排最小化。此外,可以鑒定和引入需要的序列,例如Kozak序列或限制酶識別位點(diǎn)。
并非所有設(shè)計標(biāo)準(zhǔn)都能同時同等地滿足。建立了以下優(yōu)先權(quán),以減少轉(zhuǎn)錄調(diào)節(jié)位點(diǎn)轉(zhuǎn)錄因子(TF)結(jié)合位點(diǎn)的消除被認(rèn)為是最高優(yōu)先權(quán),繼而是剪接位點(diǎn)和poly(A)位點(diǎn)的消除,最后是原核調(diào)節(jié)位點(diǎn)的消除。當(dāng)除去調(diào)節(jié)位點(diǎn)時,該策略起作用,從不太重要變成最重要,以確保最重要的變化放在最后進(jìn)行。隨后,重新檢查序列的新的較低優(yōu)先權(quán)位點(diǎn)的表現(xiàn),如有必要,再進(jìn)行其它改變。因此,設(shè)計合成GR和RD基因序列的方法,采用本文所述的計算機(jī)程序,包括5個任選的重復(fù)步驟,詳見下文。
1.優(yōu)化密碼子使用并改變A224V,產(chǎn)生GRver1,分別改變A224H、S247H、H348Q和N346I,產(chǎn)生RDver1。這些具體的氨基酸改變在該序列的所有后續(xù)操作中都保持不變。
2.除去不需要的限制位點(diǎn)、原核調(diào)節(jié)位點(diǎn)、剪接位點(diǎn)、poly(A)位點(diǎn),由此產(chǎn)生GRver2和RDver2。
3.除去轉(zhuǎn)錄因子結(jié)合位點(diǎn)(第一遍)并按照上述步驟2除去任何新產(chǎn)生的不需要的位點(diǎn),由此產(chǎn)生GRver3和RDver3。
4.除去上述步驟3所產(chǎn)生的轉(zhuǎn)錄因子結(jié)合位點(diǎn)(第二遍)并按照上述步驟2除去任何新產(chǎn)生的不需要的位點(diǎn),由此產(chǎn)生GRver4和RDver4。
5.除去上述步驟4所產(chǎn)生的轉(zhuǎn)錄因子結(jié)合位點(diǎn)(第三遍)并按照上述步驟2證實(shí)位點(diǎn)不存在,由此產(chǎn)生GRver5和RDver5。
6.通過PCR,使用對應(yīng)于GRver5和RDver5指定序列片段的合成寡核苷酸,構(gòu)建實(shí)際的基因,由此產(chǎn)生GR6和RD7。對GR6進(jìn)行測序后發(fā)現(xiàn)它在第49位氨基酸具有的絲氨酸殘基突變成天冬酰胺,而第230位氨基酸具有的脯氨酸突變成絲氨酸(S49N、P230S)。對RD7進(jìn)行測序后發(fā)現(xiàn)它在第36位氨基酸具有的組氨酸突變成酪氨酸(H36Y)。這些變化都是在PCR過程中發(fā)生的。
4.上述步驟6所描述的突變(GR6的S49N、P230S,以及RD7的H36Y)被回復(fù),產(chǎn)生GRver5.1和RDver5.1。
5.通過將351位的精氨酸密碼子變成甘氨酸密碼子(R351G),RDver5.1被進(jìn)一步修飾,由此產(chǎn)生RDver5.2,與RDver5.1相比,其光譜特性有改進(jìn)。
6.進(jìn)一步使RDver5.2發(fā)生突變,以增加熒光強(qiáng)度,由此產(chǎn)生RD156-1H9,后者編碼4個另外的氨基酸變化(M2I、S349T、K488T、E538V)和3個沉默單個堿基變化(參見美國申請順序號09/645,706,2000年8月24日申請,所述文獻(xiàn)通過引用結(jié)合到本文中)。
1.優(yōu)化密碼子使用并引入決定熒光顏色的突變該設(shè)計步驟的起始基因序列為YG#81-6G01。
a)優(yōu)化密碼子使用該策略適用于在人體細(xì)胞中優(yōu)化表達(dá)的密碼子使用,同時又避免大腸桿菌低使用密碼子。根據(jù)這些要求,對于所有超過兩個密碼子的氨基酸來說,選擇用于人體細(xì)胞表達(dá)的最佳的兩個密碼子(參見Wada等,1990)。在具有6個密碼子的氨基酸的密碼子配對的選擇中,選擇偏重于這樣的配對所述配對具有最大數(shù)量的錯配堿基,以允許設(shè)計具有最小序列同一性的GR基因和RD基因(密碼子區(qū)別)ArgCGC/CGTLeuCTG/TTGSerTCT/AGCThrACC/ACTProCCA/CCTAlaGCC/GCTGlyGGC/GGTValGTC/GTGIleATC/ATT根據(jù)這樣的密碼子選擇,用計算機(jī)生成編碼YG#81-6G01螢光素酶蛋白質(zhì)序列的兩個基因序列。這兩個基因經(jīng)設(shè)計具有最小DNA序列同一性,同時又具有非常近似的密碼子使用。為了達(dá)到這一目的,兩個基因中的各密碼子被來自上述限制表的密碼子以擇一方式取代(例如Arg(n)在基因1中為CGC,而在基因2中為CGT,Arg(n+1)在基因1中為CGT,而在基因2中為CGC)。
對于設(shè)計過程中的后續(xù)步驟來說,預(yù)計對于該限制優(yōu)化密碼子選擇,可以產(chǎn)生變化,以便滿足其它設(shè)計標(biāo)準(zhǔn),然而,不使用哺乳動物細(xì)胞的以下低使用密碼子,除非需要滿足更高優(yōu)先權(quán)標(biāo)準(zhǔn)ArgCGALeuCTASerTCGProCCGValGTAIleATA同樣,如果可能的話,也要避免大腸桿菌的以下低使用密碼子(注意其中3個匹配哺乳動物細(xì)胞的低使用表)ArgCGA/CGG/AGA/AGGLeuCTAProCCCIleATAb)引入決定熒光顏色的突變?nèi)缟纤觯騼蓷l密碼子優(yōu)化基因序列中的一條中引入一個綠移突變,并向另一條中引入4個紅移突變。
來自該設(shè)計第一步驟的兩個輸出序列稱為GRver1(version 1 GR)和RDver1(version 1 RD)。它們的DNA序列具有63%同一性(594個錯配),同時它們所編碼的蛋白質(zhì)僅有4個氨基酸不同,這樣的差異確定了熒光顏色(參見圖2和圖3,DNA序列和蛋白序列比對)。
作為一個實(shí)例,表1和表2給出了人體基因、親代基因YG#81-6G01、密碼子優(yōu)化的合成基因GRver1和RDver1、以及完成5步設(shè)計過程后的合成基因的最終形式(GRver5和RDver5)中的纈氨酸和亮氨酸的密碼子使用。
表1纈氨酸
表2亮氨酸
2.除去不需要的限制位點(diǎn)、原核調(diào)節(jié)位點(diǎn)、剪接位點(diǎn)和poly(A)位點(diǎn)該設(shè)計步驟的起始基因序列為GRver1和RDver1。
a)除去不需要的限制位點(diǎn)為了檢查不需要的限制位點(diǎn)存在與否及位置,采用標(biāo)準(zhǔn)序列分析軟件(GenePro ver 6.10,Riverside Scientific Ent.),將兩個合成基因的序列與限制酶識別序列數(shù)據(jù)庫(REBASE ver.712,http//www.neb.com/rebase)進(jìn)行比較。
具體地講,下面的限制酶被歸類為不需要的-BamH I、Xho I、Sfi I、Kpn I、Sac I、Mlu I、Nhe I、Sma I、XhoI、Bgl II、Hind III、Nco I、Nar I、Xba I、Hpa I、Sal I,-其它克隆位點(diǎn),常用的是EcoR I、EcoR V、Cla I,-8-堿基的切割機(jī)(cutters)(常用于復(fù)雜構(gòu)建體),-BstE II(以允許N-端融合),-Xcm I(可產(chǎn)生A/T突出端,用于T-載體克隆)。
為了消除合成基因中存在的不需要的限制位點(diǎn),按照以上1a所述的密碼子優(yōu)化指南,改變了合成基因序列的一個或多個密碼子。
b)除去原核(大腸桿菌)調(diào)節(jié)序列為了檢查原核調(diào)節(jié)序列存在與否及位置,采用標(biāo)準(zhǔn)序列分析軟件(GenePro)檢索兩個合成基因的序列,看是否存在以下共有序列-TATAAT(-10 Pribnow啟動子盒)-AGGA或GGAG(核糖體結(jié)合位點(diǎn);僅考慮是否與甲硫氨酸密碼子12或少量下游堿基配對)。
為了消除合成基因中存在的這樣的調(diào)節(jié)序列,按照以上1a所述的密碼子優(yōu)化指南,改變了合成基因序列的一個或多個密碼子。
c)除去剪接位點(diǎn)為了檢查剪接位點(diǎn)存在與否及位置,采用標(biāo)準(zhǔn)序列分析軟件(GenePro)檢索各合成基因中對應(yīng)于初級RNA轉(zhuǎn)錄物的DNA鏈,看是否存在以下共有序列(參見Watson等,1983)-剪接供體位點(diǎn)AG|GTRAGT(外顯子|內(nèi)含子),對AGGTRAG和較低嚴(yán)格性GGTRAGT進(jìn)行檢索;-剪接受體位點(diǎn)(Y)nNCAG|G(內(nèi)含子|外顯子),用n=1進(jìn)行檢索。
為了消除合成基因中存在的剪接位點(diǎn),按照以上1a所述的密碼子優(yōu)化指南,改變了合成基因序列的一個或多個密碼子。如果不將剪接受體位點(diǎn)引入其它基因,則通常難以消除剪接受體位點(diǎn),因為它們傾向于含有僅兩個Gln密碼子(CAG)中的一個;可以通過在兩個基因中都放置Gln密碼子CAA,而除去剪接受體位點(diǎn),代價是略微增加了兩個基因間的序列同一性。
d)除去poly(A)位點(diǎn)為了檢查poly(A)位點(diǎn)的存在與否及位置,采用標(biāo)準(zhǔn)序列分析軟件(GenePro)檢索這兩個合成基因的序列,看是否存在以下共有序列-AATAAA。
為了消除合成基因中存在的各poly(A)添加位點(diǎn),按照以上1a所述的密碼子優(yōu)化指南,改變了合成基因序列的一個或多個密碼子。來自該第二設(shè)計步驟的兩個輸出序列稱為GRver2和RDver2。它們的DNA序列具有63%同一性(590個錯配)。
3.除去轉(zhuǎn)錄因子(TF)結(jié)合位點(diǎn),再重復(fù)步驟2a-d該設(shè)計步驟的起始基因序列為GRver2和RDver2。
為了檢查潛在TF結(jié)合位點(diǎn)的存在與否、位置及同一性,用這兩個合成基因序列作為查詢序列,以檢索轉(zhuǎn)錄因子結(jié)合位點(diǎn)數(shù)據(jù)庫(TRANSFAC v3.2)。該TRANSFAC數(shù)據(jù)庫(http//transfac.gbf.de/TRANSFAC/indexhtml)具有基因調(diào)節(jié)性DNA序列(TF結(jié)合位點(diǎn))以及與其結(jié)合并發(fā)揮作用的蛋白質(zhì)(TF)的信息。TRANSFAC(3.2版)的SITE表含有4,401項條目的個體(推定)TF結(jié)合位點(diǎn)(包括真核基因、來自誘變研究和基于隨機(jī)寡核苷酸混合物的體外選擇程序的人工序列、或者特定理論考慮及共有結(jié)合序列中的TF結(jié)合位點(diǎn)(來自Faisst和Meyer,1992))。
用于在合成基因序列中定位和展示這些TF結(jié)合位點(diǎn)的軟件工具是TESS(轉(zhuǎn)錄元件檢索軟件,http//agave.humgen.upenn.edu/tess/index.html)?;谶^濾字段(filteredstring)的檢索選項,采用了以下用戶定義的檢索參數(shù)
-因子選擇屬性生物體分類-檢索方式哺乳動物-最大允許錯配%0-最小元件長度5-最小對數(shù)似然10該參數(shù)選擇規(guī)定,檢索僅包括哺乳動物TF結(jié)合位點(diǎn)(數(shù)據(jù)庫的4,401條目中約有1,400條目),它們的長度為至少5個堿基。還規(guī)定,僅報告在查詢序列中具有完美匹配且最小對數(shù)似然(LLH)打分為10的TF結(jié)合位點(diǎn)。LLH打分方法規(guī)定,2是明確匹配,1是部分模糊匹配(例如A或T匹配W),而0匹配“N”。例如,用以上規(guī)定參數(shù)進(jìn)行檢索,將導(dǎo)致“命中”(陽性結(jié)果或匹配)TATAA(SEQ ID NO50)(LLH=10)、STRATG(SEQ ID NO51)(LLH=10)和MTTNCNNMA(SEQID NO52)(LLH=10),但不命中TRATG(SEQ ID NO53)(LLH=9),如果這4個TF結(jié)合位點(diǎn)存在于查詢序列中時。在設(shè)計程序結(jié)束時進(jìn)行較低嚴(yán)格性測試,以重新評價檢索參數(shù)。
當(dāng)用含有已知TF結(jié)合位點(diǎn)的模擬查詢序列進(jìn)行TESS測試時,發(fā)現(xiàn)程序無法報道為與查詢序列3′端結(jié)尾的位點(diǎn)相匹配。因此,將額外核苷酸添加到所有查詢序列的3′端,以解決該問題。
用如上所述的參數(shù),對TF結(jié)合位點(diǎn)進(jìn)行第一次檢索,發(fā)現(xiàn)兩個合成基因(GRver2和RDver2)的每個都有約100個轉(zhuǎn)錄因子結(jié)合位點(diǎn)(命中)。按照以上1a所述的密碼子優(yōu)化指南,通過改變合成基因序列的一個或多個密碼子,消除了所有位點(diǎn)。然而,預(yù)計某些這樣的改變會產(chǎn)生新的TF結(jié)合位點(diǎn)、其它調(diào)節(jié)位點(diǎn)和新的限制位點(diǎn)。因此,如上所述重復(fù)步驟2a-d,除去4個新限制位點(diǎn)和2個新剪接位點(diǎn)。來自該第三設(shè)計步驟的兩個輸出序列稱為GRver3和RDver3。它們的DNA序列具有66%同一性(541個錯配)。
4.除去新轉(zhuǎn)錄因子(TF)結(jié)合位點(diǎn),再重復(fù)步驟2a-d
該設(shè)計步驟的起始基因序列為GRver3和RDver3。
這第4步是第3步所述方法的重復(fù)。檢索新引入的TF結(jié)合位點(diǎn),對這兩個合成基因的每一個得到約50次命中。按照以上1a所述的密碼子優(yōu)化指南,通過改變合成基因序列的一個或多個密碼子,消除了所有位點(diǎn)。然而,使用更高至中等使用密碼子,以使所有TF結(jié)合位點(diǎn)都消除掉。最低優(yōu)先權(quán)放在維持GR基因和RD基因間的低序列同一性上。然后如上所述重復(fù)步驟2a-d。來自這第4設(shè)計步驟的兩個輸出序列稱為GRver4和RDver4。它們的DNA序列具有68%同一性(506個錯配)。
5.除去新轉(zhuǎn)錄因子(TF)結(jié)合位點(diǎn),再重復(fù)步驟2a-d該設(shè)計步驟的起始基因序列為GRver4和RDver4。
這第5步是第3步所述方法的另一次重復(fù)。檢索第4步新引入的TF結(jié)合位點(diǎn),對這兩個合成基因的每一個得到約20次命中。按照以上1a所述的密碼子優(yōu)化指南,通過改變合成基因序列的一個或多個密碼子,消除了所有位點(diǎn)。然而,使用更高至中等使用密碼子(這些都認(rèn)為是“優(yōu)選的”),以使所有TF結(jié)合位點(diǎn)都消除掉。最低優(yōu)先權(quán)放在維持GR和RD基因間的低序列同一性上。然后如上所述重復(fù)步驟2a-d。僅一個受體剪接位點(diǎn)可不被消除。最后一步,按照步驟3所述,證實(shí)這兩個基因中所有TF結(jié)合位點(diǎn)都不存在。來自這第5步和最后的設(shè)計步驟的兩個輸出序列稱為GRver5和RDver5。它們的DNA序列具有69%同一性(504個錯配)。
GRver5和RDver5的其他評價a)對于TESS,使用較低嚴(yán)格性參數(shù)按照上述步驟3所述,重復(fù)TF結(jié)合位點(diǎn)的檢索,但是采用更低嚴(yán)格性的用戶定義參數(shù)-將LLH設(shè)置為9、而不是10,不會導(dǎo)致新的命中;
-將LLH設(shè)置為0-8(包括0和8),導(dǎo)致命中兩個額外位點(diǎn)MAMAG(22次命中)和CTKTK(24次命中);-將LLH設(shè)置為8,最小元件長度為4,檢索得到(除了以上兩個位點(diǎn)之外)用于AP-1、NF-1和c-Myb的不同的4-堿基位點(diǎn),它們都是其各自較長共有位點(diǎn)的縮短形式,它們在上述步驟3-5中被消除。
嘗試完全消除這些位點(diǎn)而又不引入新位點(diǎn),這是不現(xiàn)實(shí)的,所以沒有進(jìn)一步改變。
b)檢索不同數(shù)據(jù)庫真核啟動子數(shù)據(jù)庫(45版)含有有關(guān)真核基因精確作圖的轉(zhuǎn)錄起始位點(diǎn)(1253序列)的信息。用BLASTN 1.4.11,用缺省參數(shù)(經(jīng)優(yōu)化以快速發(fā)現(xiàn)接近的相同序列;參見Altschul等,1990)在美國國家生物技術(shù)信息中心(the National Center for Biotechnology Information)站點(diǎn)(http//www.ncbi.nlm.nih.gov/cgi-bin/BLAST)上檢索該數(shù)據(jù)庫。為了檢驗該方法,含有SV40啟動子和增強(qiáng)子的pGL3-對照載體序列的一部分用作查詢序列,得到對SV40序列的預(yù)期命中。當(dāng)用這兩個合成基因作為查詢序列時,沒有命中。
GRver5和RDver5合成基因特性概述這兩個基因在這一階段仍僅為計算機(jī)上的“虛(virtual)”序列,它們具有的密碼子使用強(qiáng)烈偏好哺乳動物高使用密碼子并且將哺乳動物和大腸桿菌的低使用密碼子減到最低。
這兩個基因也完全缺乏真核TF結(jié)合位點(diǎn),所述位點(diǎn)由超過4個明確堿基、供體和受體剪接位點(diǎn)(一個例外GRver5含有一個剪接受體位點(diǎn))、poly(A)位點(diǎn)、特定原核(大腸桿菌)調(diào)節(jié)序列和不需要的限制位點(diǎn)組成。
GRver5和RDver5間的基因序列同一性僅為69%(504個堿基錯配),而它們所編碼的蛋白質(zhì)有99%同一性(4個氨基酸錯配)。它們與親代序列YG#81-6G1的同一性為74%(GRver5)和73%(RDver5)。它們的堿基組成為49.9%GC(GRver5)和49.5%GC(RDver5),相比之下,親代YG#81-6G01為40.2%GC。
合成基因的構(gòu)建通過在熱循環(huán)儀上由合成寡核苷酸進(jìn)行裝配,接著通過全長基因的PCR擴(kuò)增,構(gòu)建這兩個合成基因(類似于Stemmer等(1995)Gene.164,第49-53頁)。糾正干擾合成基因設(shè)計目的的無意突變。
a)合成寡核苷酸的設(shè)計合成寡核苷酸主要是40mer,它們共同編碼各設(shè)計基因(1,626bp)加上克隆必需的側(cè)翼區(qū)(各基因共1,950bp)的兩條完整鏈。相對于相反鏈的寡核苷酸的邊界來說,一條鏈上的所有寡核苷酸的5′和3′邊界通常以這樣的方式放置平均偏移/重疊20個堿基。
兩個基因的側(cè)翼區(qū)末端與擴(kuò)增引物末端匹配(pRAMtailup5′-gtactgagacgacgccagcccaagcttaggcctgagtgSEQ ID NO54;pRAMtaildn5′-ggcatgagcgtgaactgactgaactagcggccgccgagSEQ ID NO55),允許將基因克隆到我們的大腸桿菌表達(dá)載體pRAM中(WO99/14336)。
設(shè)計了共183個寡核苷酸15個寡核苷酸共同編碼側(cè)翼序列上游和下游,而168個寡核苷酸(4×42)編碼這兩個基因的兩條鏈。
所有183個寡核苷酸都通過OLIGO軟件(OLIGO 4.0 PrimerAnalysis Software_1989-1991,Wojciech Rychlik)進(jìn)行發(fā)夾分析,以鑒定潛在有害的分子內(nèi)成環(huán)。按照Sims博士(Sigma-Genosys CustomGene Synthesis Department)的推薦,確定用于評價分析結(jié)果的指導(dǎo)方針ΔG<-10的寡聚體形成發(fā)夾應(yīng)該避免,ΔG≤-7的形成發(fā)夾(包括寡核苷酸的3′端)也應(yīng)該避免,同時總ΔG≤-5的那些用于該用途應(yīng)該沒什么問題。分析鑒定的23個寡核苷酸能夠形成發(fā)夾,其ΔG介于-7.1和-4.9之間。其中的5個具有封閉或接近封閉的3′端(0-3游離堿基),通過除去其3′端的1-4個堿基并將其添加到相鄰寡核苷酸上,對其進(jìn)行重新設(shè)計。
涵蓋了與poly(A)尾互補(bǔ)的序列的40mer寡核苷酸,具有非常低復(fù)雜性的3′端(13個連續(xù)T堿基)。設(shè)計一個另外的40mer,它具有高復(fù)雜性的3′端,但因此在相反鏈上減少了與其互補(bǔ)寡核苷酸之一的重疊(11個堿基、而不是20個堿基)。
雖然設(shè)計了寡核苷酸,用于基于熱循環(huán)儀的裝配反應(yīng),但是它們也可用于基于連接的方案,用于基因構(gòu)建。在該方法中,將寡核苷酸以配對的方式退火,所得短的雙鏈片段用粘性突出端連接在一起。然而,這需要所有寡核苷酸均被磷酸化。
b)基因裝配和擴(kuò)增第1步,兩個合成基因各自在單獨(dú)反應(yīng)中由98個寡核苷酸裝配。各反應(yīng)的總體積為50μl0.5μM寡核苷酸(=每個寡聚體為0.25pmole)1.0U Taq DNA聚合酶0.02U Pfu DNA聚合酶2mM MgCl20.2mM dNTP(各)0.1%明膠循環(huán)條件(94℃30秒,52℃30秒,72℃30秒)×55次循環(huán)。
第2步,各裝配的合成基因在單獨(dú)的反應(yīng)中擴(kuò)增。各反應(yīng)的總體積為50μl2.5l裝配反應(yīng)物5.0U Taq DNA聚合酶0.1U Pfu DNA聚合酶1M各引物(pRAMtailup,pRAMtaildn)2mM MgCl2
0.2mM dNTP(各)循環(huán)條件(94℃20秒,65℃60秒,72℃3分鐘)×30次循環(huán)。
將裝配并擴(kuò)增的基因亞克隆到pRAM載體中,在大腸桿菌中表達(dá),得到1-2%發(fā)熒光的GR克隆或RD克隆。分離出5個GR和5個RD克隆,做進(jìn)一步分析。5個GR克隆中,有3個具有正確的插入大小,其中1個是弱發(fā)光,一個具有改變的限制圖譜。5個RD克隆中,有2個具有正確的插入大小并具有改變的限制圖譜,1個是弱發(fā)光。總之,分析表明,基因中存在大量突變,很可能是裝配及擴(kuò)增反應(yīng)中錯誤引入的結(jié)果。
c)正確裝配和擴(kuò)增為了除去全長合成基因中存在的大量突變,我們對各基因進(jìn)行了另外的裝配和擴(kuò)增反應(yīng),使用校正DNA聚合酶Tli。除了含有98個GR或RD寡核苷酸之外,裝配反應(yīng)物中還含有來自具有上述突變的相應(yīng)全長克隆的少量DNA。這允許寡聚體糾正模板中存在的突變。
對各合成基因,進(jìn)行以下裝配反應(yīng)。各反應(yīng)的總體積為50μl0.5μM寡核苷酸(=每個寡聚體為0.25pmole)0.016pmol質(zhì)粒(具有正確插入大小的克隆混合物)2.5U Tli DNA聚合酶2mM MgCl20.2mM dNTP(各)0.1%明膠循環(huán)條件94℃30秒;然后94℃30秒,52℃30秒,72℃30秒,共55次循環(huán);再在72℃5分鐘。
對各裝配反應(yīng),進(jìn)行以下擴(kuò)增反應(yīng)。各擴(kuò)增反應(yīng)的總體積為50μl1-5μl裝配反應(yīng)物40pmol各引物(pRAMtailup,pRAMtaildn)2.5U Tli DNA聚合酶
2mM MgCl20.2mM dNTP(各)循環(huán)條件94℃30秒;然后94℃20秒,65℃60秒,72℃3分鐘,共30次循環(huán);再在72℃5分鐘。
將得自校正裝配和擴(kuò)增步驟的基因亞克隆到pRAM載體中,在大腸桿菌中表達(dá),得到75%發(fā)熒光的GR或RD克隆。用WO99/14336所述的篩選機(jī)器人分析44個GR克隆和44個RD克隆。6個最佳GR克隆和RD克隆用手工分析,從中選出1個最佳GR和RD克隆(GR6和RD7)。對GR6進(jìn)行序列分析,揭示出編碼區(qū)具有2個點(diǎn)突變,都引起氨基酸取代(S49N和P230S)。對RD7進(jìn)行序列分析,揭示出編碼區(qū)具有3個點(diǎn)突變,其中1個引起氨基酸取代(H36Y)。經(jīng)證實(shí),沒有沉默點(diǎn)突變引入與合成基因的總體設(shè)計標(biāo)準(zhǔn)相抵觸的任何調(diào)節(jié)或限制位點(diǎn)。
d)回復(fù)(突變)不需要的氨基酸取代GR6和RD7合成基因中存在的不需要的氨基酸取代通過定點(diǎn)誘變而回復(fù),以匹配GRver5和RDver5設(shè)計序列,由此產(chǎn)生GRver5.1和RDver5.1。突變區(qū)的DNA序列經(jīng)序列分析得以證實(shí)。
e)改進(jìn)的光譜特性進(jìn)一步修飾了RDver5.1基因,以改進(jìn)其光譜特性,即通過引入氨基變化(R351G),由此產(chǎn)生RDver5.2。
具有RD基因和GR基因的DGL3載體將親代叩頭蟲螢光素酶YG-#81-6G1(“YG”)和合成叩頭蟲螢光素酶基因GRver5.1(“GR”)、RDver5.2(“RD”)和RD156-1H9克隆到4種pGL3報道載體(Promega公司)中-pGL3-基礎(chǔ)(pGL3-Basic)=無啟動子,無增強(qiáng)子-pGL3-對照=SV40啟動子,SV40增強(qiáng)子-pGL3-增強(qiáng)子=SV40增強(qiáng)子(螢光素酶編碼序列的3′)
-pGL3-啟動子=SV40啟動子。
用于裝配GR和RD合成基因的引物有助于將這些基因克隆到pRAM載體中。為了將基因引入pGL3載體(Promega Corp.,Madison,WI)中,用于在哺乳動物細(xì)胞中進(jìn)行分析,擴(kuò)增了pRAM載體(pRAMRDver5.1、pRAM GR.ver5.1和pRAM RD156-1H9)中的各基因,在基因的5′端引入Nco I位點(diǎn),在3′端引入Xba I位點(diǎn)。pRAM RDver5.1和pRAM GRver5.1的引物是GR→5′GGA TCC CAT GGT GAA GCG TGA GAA 3′(SEQ ID NO56),或RD→5′GGA TCC CAT GGT GAA ACG CGA 3′(SEQ ID NO57),和5′CTA GCT TTT TTT TCT AGA TAA TCA TGA AGA C 3’(SEQ ID NO58)。
pRAM RD156-1H9的引物是5′GCG TAG CCA TGG TAA AGC GTG AGA AAA ATG TC 3′(SEQ ID NO59),和5′CCG ACT CTA GAT TAC TAA CCG CCG GCC TTC ACC 3′(SEQ ID NO60)PCR包括100ng DNA質(zhì)粒1μM上游引物1μM下游引物0.2mM dNTP1X緩沖液(Promega公司)5單位Pfu DNA聚合酶(Promega公司)無菌nanopure H2O至50μl。
循環(huán)參數(shù)為94℃5分鐘;(94℃30秒;55℃1分鐘;72℃3分鐘)×15次循環(huán)。純化的PCR產(chǎn)物用Nco I和XbaI消化,與也用Nco I和XbaI消化的pGL3-對照連接,再將連接產(chǎn)物導(dǎo)入大腸桿菌中。為了將螢光素酶基因插入到其它pGL3報道載體(基礎(chǔ)、啟動子和增強(qiáng)子)中,將含有各螢光素酶基因的pGL3-對照載體用Nco I和Xba I消化,與也用Nco I和Xba I消化的其它pGL3載體連接,再將連接產(chǎn)物導(dǎo)入大腸桿菌中。注意由pGL3載體中的GRver5.1和RDver5.1(和RD156-1H9,參見下文)核酸序列所編碼的多肽在2位具有氨基酸取代,變成纈氨酸,這是Nco I位點(diǎn)位于寡核苷酸起始密碼子的結(jié)果。
因為內(nèi)部Nco I和Xba I位點(diǎn),所以YG #81-6G01的天然基因從編碼區(qū)上游的Hind III位點(diǎn)擴(kuò)增到下游的Hpa I位點(diǎn),并且其中包含GR和RD克隆中存在的側(cè)翼序列。將上游引物(5′-CAA AAA GCTTGG CAT TCC GGT ACT GTT GGT AAA GCC ACC ATG GTG AAGCGA GAG-3′;SEQ ID NO61)和下游引物(5′-CAA TTG TTG TTGTTA ACT TGT TTA TT-3′;SEQ ID NO62)與YG#81-6G01混合在一起,用以上PCR條件進(jìn)行擴(kuò)增。純化的PCR產(chǎn)物用Nco I和Xba I消化,與也用Hind III和Hpa I消化的pGL3-對照連接,再將連接產(chǎn)物導(dǎo)入大腸桿菌中。為了將YG#81-6G01插入到其它pGL3報道載體(基礎(chǔ)、啟動子和增強(qiáng)子)中,將含有YG#81-6G01的pGL3-對照載體用Nco I和Xba I消化,與也用Nco I和Xba I消化的其它pGL3載體連接,再將連接產(chǎn)物導(dǎo)入大腸桿菌中。注意pGL3載體中的YG#81-6G01克隆在堿基786具有C、而不是A,其中氨基酸序列在殘基262發(fā)生變化,從Phe變成Leu。為了確定在262位改變的氨基酸是否影響酶的生物化學(xué)特性,使YG#81-6G01克隆發(fā)生突變,從而類似于原始序列。然后測定這兩個克隆在大腸桿菌中的表達(dá)、物理穩(wěn)定性、底物結(jié)合和熒光輸出動力學(xué)。未見顯著性差異。
合成基因和親代基因所表達(dá)的并經(jīng)部分純化的酶,用于測定螢光素和ATP的Km(參見表3)。
表3
用Promega公司的TNT T7 Quick系統(tǒng),按照制造商的說明書,還進(jìn)行了體外真核轉(zhuǎn)錄/翻譯反應(yīng)。與親代基因相比,合成GR和RD基因的熒光水平分別高出1-37倍和1-77倍(取決于反應(yīng)時間)(校正發(fā)光計光譜敏感度)。
為了測定合成叩頭蟲螢光素酶基因和野生型叩頭蟲基因在哺乳動物細(xì)胞中是否具有改進(jìn)的表達(dá),將合成基因和親代基因分別克隆到一系列pGL3載體中并導(dǎo)入CHO細(xì)胞中(表8)。在所有情況下,合成的叩頭蟲基因的表達(dá)都比天然基因更高。具體地講,合成GR基因和RD基因的表達(dá)分別比親代高出1900倍和40倍(轉(zhuǎn)染效率經(jīng)與天然腎海鰓螢光素酶基因比較而標(biāo)準(zhǔn)化)。此外,數(shù)據(jù)(基礎(chǔ)/對照載體)表明,合成基因的基礎(chǔ)水平轉(zhuǎn)錄降低。
此外,在增強(qiáng)子載體實(shí)驗中,在天然基因和合成基因之間比較了相對于對照而言的%活性,數(shù)據(jù)顯示,合成基因具有減少的異常轉(zhuǎn)錄特征的危險。具體地講,親代基因看來含有由載體的增強(qiáng)子活化的一個或多個內(nèi)部轉(zhuǎn)錄調(diào)節(jié)序列,因此不適于作為報道基因,而合成GR和RD基因顯示出清楚的報道基因反應(yīng)(轉(zhuǎn)染效率經(jīng)與天然腎海鰓螢光素酶基因比較而標(biāo)準(zhǔn)化)。參見表8。
實(shí)施例2合成腎海鰓螢光素酶核酸分子制備的合成腎海鰓螢光素酶基因包括1)引入的Kozak序列,2)對哺乳動物(人)表達(dá)來說優(yōu)化的密碼子使用,3)減少或消除了不需要的限制位點(diǎn),4)除去原核調(diào)節(jié)位點(diǎn)(核糖體結(jié)合位點(diǎn)和TATA盒),5)除去剪接位點(diǎn)和poly(A)位點(diǎn),和6)減少或消除了哺乳動物轉(zhuǎn)錄因子結(jié)合序列。
下面的3個步驟描述了合成腎海鰓螢光素酶基因的計算機(jī)輔助設(shè)計方法,即通過反復(fù)多次的密碼子優(yōu)化并除去轉(zhuǎn)錄因子結(jié)合位點(diǎn)和其它調(diào)節(jié)位點(diǎn)、以及限制位點(diǎn)1.使用野生型腎海鰓螢光素酶基因作為親代基因,優(yōu)化密碼子使用,改變了一個氨基酸(T→A)以產(chǎn)生Kozak共有序列,消除不需要的限制位點(diǎn),由此產(chǎn)生合成基因Rlucver1。
2.除去原核調(diào)節(jié)位點(diǎn)、剪接位點(diǎn)、poly(A)位點(diǎn)和轉(zhuǎn)錄因子(TF)結(jié)合位點(diǎn)(第一遍)。再除去新產(chǎn)生的TF結(jié)合位點(diǎn)。再除去新產(chǎn)生的不需要的限制酶位點(diǎn)、原核調(diào)節(jié)位點(diǎn)、剪接位點(diǎn)和poly(A)位點(diǎn),但不引入新的TF結(jié)合位點(diǎn)。由此產(chǎn)生Rlucver2。
3.改變Rlucver2的3個堿基,由此產(chǎn)生Rluc-fimal。
4.然后再由對應(yīng)于Rluc-final設(shè)計序列的合成寡核苷酸來構(gòu)建實(shí)際基因。裝配或PCR過程所導(dǎo)致的所有突變都得以校正。該基因為Rluc-final。
密碼子選擇從Genbank的腎海鰓(Renilla reniformis)螢光素酶序列(檢索號M63501)開始,根據(jù)用于人體細(xì)胞優(yōu)化表達(dá)的密碼子使用并避免大腸桿菌低使用密碼子,來選擇密碼子。對于所有超過1個密碼子的氨基酸來說,選擇用于人體細(xì)胞表達(dá)的最佳密碼子(或者最佳的兩個密碼子,如果發(fā)現(xiàn)具有類似頻率的話),參見Wada等,1990ArgCGC LysAAGLeuCTG AsnAACSerTCT/AGC GlnCAGThrACC HisCACProCCA/CCT GluGAGAlaGCC AspGAC
GlyGGC TyrTACValGTG CysTGCIleATC/ATT PheTTC當(dāng)一個氨基酸選擇了兩個密碼子時,它們以擇一方式使用。為了滿足合成基因的其它標(biāo)準(zhǔn),隨后對起始最佳密碼子選擇進(jìn)行某種程度的修飾。例如,引入Kozak序列需要使用GCT,用于第2位氨基酸的Ala(參見下文)。
除非必要,否則不使用以下哺乳動物細(xì)胞低使用密碼子ArgCGA,CGU;LeuCTA,UUA;SerTCG;ProCCG;ValGTA;和IleATA。如果可能的話,以下大腸桿菌低使用密碼子也要避免(注意其中3個匹配哺乳動物細(xì)胞的低使用表)ArgCGA/CGG/AGA/AGG,LeuCTA;ProCCC;IleATA。
Kozak序列的引入Kozak序列5′aaccATGGCT 3′(SEQ ID NO63)(Nco I位點(diǎn)是下劃線部分,編碼區(qū)用大寫字母表示)引入到合成腎海鰓螢光素酶基因中。引入Kozak序列,將第二氨基酸從Thr變成Ala(GCT)。
除去不需要的限制位點(diǎn)按照實(shí)施例1所述,REBASE ver.808(1998年8月1日更新;限制酶數(shù)據(jù)庫;www.neb.com/rebase)用于鑒定不需要的限制位點(diǎn)。按照實(shí)施例1所述方案,除去以下不需要的限制位點(diǎn)(除了實(shí)施例1所述之外)EcoICR I、NdeI、NsiI、SphI、SpeI、XmaI、PstI。
摻入所有這些變化的腎海鰓螢光素酶(Rluc)的形式為Rlucver1。
除去原核(大腸桿菌)調(diào)節(jié)序列、剪接位點(diǎn)和poly(A)位點(diǎn)轉(zhuǎn)錄調(diào)節(jié)位點(diǎn)的優(yōu)先權(quán)和消除方法按照實(shí)施例1所述。
除去TF結(jié)合位點(diǎn)按照實(shí)施例1所述,使用同樣的方法、工具和標(biāo)準(zhǔn),但是采用更新的3.3版TRANSFAC數(shù)據(jù)庫。
從Rlucver1上除去原核調(diào)節(jié)序列、剪接位點(diǎn)和poly(A)位點(diǎn)之后,第一次檢索TF結(jié)合位點(diǎn),得到約60次命中。消除所有位點(diǎn),除了3個不能除去的位點(diǎn)之外,否則就會改變合成腎海鰓基因的氨基酸序列1.63位的位點(diǎn),由W(TGGTGG)和CAC-結(jié)合蛋白T00076兩個密碼子組成;2.522位的位點(diǎn),由KMV(AAN ATG GTN)、myc-DF1 T00517的密碼子組成;3.885位的位點(diǎn),由EMG(GAR ATG GGN)、myc-DF1 T00517的密碼子組成。
隨后第2次檢索(新引入的)TF結(jié)合位點(diǎn),得到約20次命中。消除所有新位點(diǎn),僅留下上述3個位點(diǎn)。最后,任何新引入的限制位點(diǎn)、原核調(diào)節(jié)序列、剪接位點(diǎn)和poly(A)位點(diǎn)都被除去,而不引入新TF結(jié)合位點(diǎn),如果可能的話。
得到Rlucver2。
按照實(shí)施例1,指定較低嚴(yán)格性檢索參數(shù),用于TESS過濾字段檢索(filtered string search),以進(jìn)一步評價合成腎海鰓基因。
隨著LLH從10下降到9,最小元件長度從5下降到4,TESS過濾字段檢索不顯示任何新的命中。除了以上列出的參數(shù)變化之外,當(dāng)生物體分類從“哺乳動物”擴(kuò)展到“脊索動物”時,檢索僅得到4個以上的TF結(jié)合位點(diǎn)。當(dāng)最小LLH進(jìn)一步下降到8-0之間時,檢索顯示所結(jié)合的兩個額外5-堿基位點(diǎn)(MAMAG和CTKTK)在Rlucver2中具有4個匹配,以及幾個4-堿基位點(diǎn)。正如實(shí)施例1所述,檢查Rlucver2,看是否命中EPD(真核啟動子數(shù)據(jù)庫(Eukaryotic PromoterDatabase,Release 45))中的條目。確定3次命中,一次是小家鼠(Musmusculus)啟動子H-2L^d(Cell,44,261(1986)),一次是單純皰疹病毒1型啟動子b′g′2.7kb,再一次是智人(Homo sapiens)DHFR啟動子(J.Mol.Biol.,176,169(1984))。然而,對Rlucver2沒有更多改變。
Rlucver2特性概述-消除了所有30個低使用密碼子。引入Kozak序列,將第二氨基酸從Thr變成Ala;-堿基組成55.7%GC(腎海鰓野生型親代基因36.5%);-一個不需要的限制位點(diǎn)可以不被消除488位的EcoR V;-合成基因沒有原核啟動子序列,但是在位置867-73(Met密碼子上游的約13個堿基上游)上具有一個潛在功能性核糖體結(jié)合位點(diǎn)(RBS)可以不被消除;-消除了所有poly(A)位點(diǎn);-剪接位點(diǎn)2個供體剪接位點(diǎn)可以不被消除(它們都共享氨基酸序列MGK);-TF位點(diǎn)消除了所有具有>4個明確堿基的共有序列的位點(diǎn)(約280個TF結(jié)合位點(diǎn)被除去),只有3個例外,因為優(yōu)先避免氨基酸序列的變化。
當(dāng)引入pGL3中時,Rluc-final具有Kozak序列(CACCATGGCT;SEQ ID NO65)。在基因裝配期間,相對于Rlucver2來說,引入Rluc-final的變化。一個變化在619位,C變成A,這消除了真核啟動子序列并減少了用于裝配基因的相應(yīng)寡核苷酸發(fā)夾結(jié)構(gòu)的穩(wěn)定性。其它變化包括在218-220位從CGC變成AGA(導(dǎo)致對PCR來說更好的寡核苷酸)。
基因裝配策略用于合成腎海鰓螢光素酶的基因裝配方案類似于實(shí)施例1所述。
有義鏈引物5′AACCATGGCTTCCAAGGTGTACGACCCCGAGCAACGCAAA 3′(SEQ ID NO66)
反義鏈引物5′GCTCTAGAATTACTGCTCGTTCTTCAGCACGCGCTCCACG 3′(SEQ ID NO67)用Nco I和Xba I,將所得合成基因片段克隆到pRAM載體中。對具有正確大小插入序列的兩個克隆進(jìn)行測序。每個克隆的合成基因中發(fā)現(xiàn)了4-6個突變。這些突變通過定向誘變(Gene Editor,來自Promega Corp.,Madison,WI)并在這兩個基因之間交換正確區(qū)域而固定。校正的基因經(jīng)測序而得以證實(shí)。
其它載體為了制備在pGL-3對照載體骨架中合成腎海鰓螢光素酶基因的表達(dá)載體,在含有各2μl酶和5μl 10X緩沖液B(用nanopure水將體積補(bǔ)足到50μl)的50μl終體積中,將5μg pGL3-對照用Nco I和Xba I消化。消化反應(yīng)在37℃保溫2小時,再將全部混合物在1%瓊脂糖凝膠上、在1XTAE中進(jìn)行電泳。用Qiagen的QIAquick凝膠提取試劑盒,純化所需載體骨架片段。
使用兩個寡核苷酸Nco I-RL-F和Xba L-RL-R,用pRL-CMV作為模板,通過PCR擴(kuò)增天然腎海鰓螢光素酶基因,將天然腎海鰓螢光素酶基因片段克隆到pGL3-對照載體中。Nco I-RL-F序列為5′-CGCTAGCCATGGCTTCGAAAGTTTATGATCC-3′(SEQ IDNO68);XbaI-RL-R序列為5′GGCCAGTAACTCTAGAATTATTGTT-3′(SEQ ID NO69)。
PCR反應(yīng)如下進(jìn)行反應(yīng)混合物(對于100μl)DNA模板(質(zhì)粒) 1.0μl(最終1.0ng/μl)10X反應(yīng)緩沖液 10.0μl(Stratagene公司)dNTP(各25mM) 1.0μl(最終250μM)引物1(10μM) 2.0μl(最終0.2μM)
引物2(10μM) 2.0μl(最終0.2μM)Pfu DNA聚合酶 2.0μl(2.5U/μl,Stratagene公司)82.0μl雙蒸水PCR反應(yīng)94℃加熱2分鐘;(94℃20秒;65℃1分鐘;72℃2分鐘;再在72℃5分鐘)×25次循環(huán),然后在冰上保溫。從凝膠上切下PCR擴(kuò)增片段,純化DNA并貯存于-20℃。
為了將天然腎海鰓螢光素酶基因片段引入pGL3-對照載體中,將5μg天然腎海鰓螢光素酶基因(RAM-RL-合成)的PCR產(chǎn)物用Nco I和Xba I消化。純化所需的腎海鰓螢光素酶基因片段并貯存于-20℃。
然后,將100ng插入片段和100ng pGL3-對照載體骨架用限制酶Nco I和Xba I消化,然后連接在一起。再將2μl連接混合物轉(zhuǎn)化到JM109感受態(tài)細(xì)胞中。挑取8個氨芐青霉素抗性克隆,分離出它們的DNA。純化來自pGL3-對照-天然和pGL3-對照-合成的各陽性克隆的DNA。載體中天然基因和合成基因的正確序列經(jīng)DNA測序而得以證實(shí)。
為了確定合成腎海鰓螢光素酶基因是否在哺乳動物細(xì)胞具有改進(jìn)的表達(dá),將基因克隆到哺乳動物表達(dá)載體pGL3-對照載體中并處于SV40啟動子和SV40早期增強(qiáng)子控制之下。將天然腎海鰓螢光素酶基因也克隆到pGL-3對照載體中,從而可以比較合成基因和天然基因的表達(dá)。再將表達(dá)載體轉(zhuǎn)染到4種常用的哺乳動物細(xì)胞系(CHO、NIH3T3、HeLa和CV-1;表9)中,再比較具有合成基因的載體以及具有天然基因的載體之間的表達(dá)水平。所用的DNA量處于兩個不同水平,以確定合成基因的表達(dá)在不同表達(dá)水平上持續(xù)升高。結(jié)果表明,在這些細(xì)胞中,合成腎海鰓螢光素酶基因的表達(dá)增加70-600倍(表4)。
表4
螢光素酶報道基因的一個重要優(yōu)勢就是其蛋白質(zhì)的短半壽期。增加的表達(dá)也可由延長的蛋白質(zhì)半壽期引起,如果這樣的話,這會產(chǎn)生新基因的不需要的缺點(diǎn)。通過放線菌酮跟蹤(“CHX Chase”)實(shí)驗,消除了這種可能性,這證明人源化腎海鰓螢光素酶基因不會引起蛋白質(zhì)半壽期的增加。
為了確保表達(dá)的增加并不限于一個表達(dá)載體骨架,是啟動子特異性和/或細(xì)胞特異性的,將合成腎海鰓基因(Rluc-final)以及天然腎海鰓基因克隆到不同載體骨架中并處于不同啟動子之下。與野生型對應(yīng)物相比,合成基因通常表現(xiàn)出表達(dá)增加(表5)。
表5
表6
隨著假表達(dá)減少,合成基因在無啟動子載體中應(yīng)表現(xiàn)出基礎(chǔ)水平轉(zhuǎn)錄較低。將合成和天然的腎海鰓螢光素酶基因克隆到pGL3-基礎(chǔ)載體中,以比較基礎(chǔ)轉(zhuǎn)錄水平。因為合成基因本身具有表達(dá)效率增加,可以直接比較無啟動子載體的活性,以判斷基礎(chǔ)轉(zhuǎn)錄的差異,而不是考慮到比較無啟動子載體相對于對照載體的活性百分率(基礎(chǔ)載體的表達(dá)除以同時具有啟動子和增強(qiáng)子元件的完整功能性表達(dá)載體的表達(dá))。數(shù)據(jù)表明,在哺乳動物細(xì)胞中,合成腎海鰓螢光素酶與天然基因相比,基礎(chǔ)轉(zhuǎn)錄水平較低(表6)。
本領(lǐng)域技術(shù)人員眾所周知,增強(qiáng)子可以充分刺激啟動子活性。為了測試合成基因是否具有減少的不適當(dāng)?shù)霓D(zhuǎn)錄特征的危險,將天然基因和合成基因引入到具有增強(qiáng)子元件的載體(pGL3-增強(qiáng)子載體)中。因為合成基因具有較高表達(dá)效率,所以兩者的活性不能直接進(jìn)行比較,以比較在增強(qiáng)子存在下的轉(zhuǎn)錄水平,然而,考慮到使用增強(qiáng)子載體相對于對照載體的活性百分率(增強(qiáng)子存在的表達(dá)除以同時具有啟動子和增強(qiáng)子元件的完整功能性表達(dá)載體的表達(dá))。結(jié)果表明,當(dāng)天然基因存在時,增強(qiáng)子本身就能刺激轉(zhuǎn)錄,高出對照的42-124%,然而,在相同的載體中,當(dāng)天然基因被合成基因取代時,活性僅為該數(shù)值的1-5%,當(dāng)使用同樣的增強(qiáng)子和強(qiáng)SV40啟動子時,這清楚表明,合成基因具有降低的假表達(dá)的危險(表6)。
合成腎海鰓基因(Rluc-final)用于體外系統(tǒng),以便與天然基因比較翻譯效率。在T7快速偶聯(lián)轉(zhuǎn)錄/翻譯系統(tǒng)(Promega Corp.,Madison,WT)中,將pRL-null天然質(zhì)粒(具有處于T7啟動子控制之下的天然腎海鰓螢光素酶基因)或相同數(shù)量的pRL-null-合成質(zhì)粒(具有處于T7啟動子控制之下的合成腎海鰓螢光素酶基因)加入到TNT反應(yīng)混合物中,在60分鐘內(nèi)每5分鐘測定一次螢光素酶活性。用雙重螢光素酶檢測試劑盒(Promega公司)測定腎海鰓螢光素酶活性。數(shù)據(jù)表明,從合成基因中得到改進(jìn)的表達(dá)。為了進(jìn)一步證明合成基因的翻譯效率增加,通過體外轉(zhuǎn)錄系統(tǒng)制備RNA,然后純化。用BamHI將pRL-null(天然或合成)載體線性化。經(jīng)過多次苯酚-氯仿抽提,再用乙醇沉淀,純化DNA。用體外T7轉(zhuǎn)錄系統(tǒng)制備RNA。通過使用無RNA酶的DNA酶除去DNA模板,通過苯酚-氯仿抽提,再多次用異丙醇沉淀,純化RNA。將相同數(shù)量的純化RNA(無論來自合成基因還是來自天然基因)加入到兔網(wǎng)織紅細(xì)胞裂解物或小麥胚芽裂解物中。此外,合成腎海鰓螢光素酶基因RNA比天然基因的RNA產(chǎn)生更多螢光素酶。這些數(shù)據(jù)表明,翻譯效率因合成序列而得以改進(jìn)。為了確定合成基因為什么在小麥胚芽中高度表達(dá),測定了植物密碼子的使用。高等植物中最低使用密碼子與哺乳動物中使用的一致。
報道基因測定廣泛用于研究轉(zhuǎn)錄調(diào)節(jié)事件。它通常在共轉(zhuǎn)染實(shí)驗中進(jìn)行,其中,與含有測試啟動子的第一報道構(gòu)建體一起,讓處于組成型啟動子之下的第二對照報道基因轉(zhuǎn)染細(xì)胞,作為內(nèi)部對照,以使實(shí)驗變異(包括樣品間轉(zhuǎn)染效率)標(biāo)準(zhǔn)化。對照報道基因信號、潛在啟動子與對照報道基因和第一報道基因之間的相互干擾,以及實(shí)驗條件對對照報道基因的潛在調(diào)節(jié),都是選擇可靠的共報道載體要考慮的重要方面。
如上所述,通過將合成腎海鰓螢光素酶基因克隆到不同載體骨架中并處于不同啟動子之下,制備載體構(gòu)建體。在3種所測哺乳動物細(xì)胞系中,所有構(gòu)建體都表現(xiàn)出表達(dá)較高(表5)。因此,當(dāng)合成腎海鰓螢光素酶轉(zhuǎn)染哺乳動物細(xì)胞時,表達(dá)效率更好,發(fā)出的信號更強(qiáng)。
因為得到較強(qiáng)信號,所以需要較低的啟動子活性就可得到同樣的報道基因信號,這就降低了啟動子干擾的危險。用50ng pGL3-對照(螢火蟲luc+)加上5種不同數(shù)量的天然pRL-TK質(zhì)粒(50ng、100ng、500ng、1000ng或2000ng)或合成pRL-TK(5ng、10ng、50ng、100ng或200ng)中的一種轉(zhuǎn)染CHO細(xì)胞。對于每次轉(zhuǎn)染,將pUC19載體DNA加入到共3μg的DNA中。減少10倍的pRL-TK DNA得到與天然基因類似或更強(qiáng)信號,同時具有減少的抑制最初報道pGL3-對照表達(dá)的危險。
實(shí)驗處理有時可激活基因內(nèi)的隱蔽位點(diǎn),導(dǎo)致共報道基因表達(dá)的誘導(dǎo)或抑制,這破壞了它作為共報道基因用于使轉(zhuǎn)染效率標(biāo)準(zhǔn)化的功能。一個實(shí)例是當(dāng)轉(zhuǎn)染MCF-7細(xì)胞時,TPA誘導(dǎo)攜帶野生型基因的共報道基因載體的表達(dá)。用500ng pRL-TK(天然)、5μg天然和合成pRG-B、2.5μg天然和合成pRG-TK轉(zhuǎn)染每孔的MCF-7細(xì)胞。用100ng/孔pGL3-對照(螢火蟲luc+)與所有RL質(zhì)粒一起共轉(zhuǎn)染。載體DNA即pUC19,用于攜帶轉(zhuǎn)染5.1μg/孔的總DNA。向各孔中加入15.3μlTransFast轉(zhuǎn)染試劑(Promega Corp.,Madison,WI)。16小時后,細(xì)胞用胰蛋白酶水解,合并并分開加到6孔碟的6個孔中,讓其貼壁8小時。然后,將3孔用0.2nM腫瘤啟動子TPA(佛波醇-12-豆蔻酸-13-乙酸,Calbiochem #524400-S)處理,而3孔用20μl DMSO模擬處理。加入TPA 24小時后,用0.4ml Passive Lysis緩沖液收獲細(xì)胞。結(jié)果顯示,通過使用合成基因,避免了經(jīng)實(shí)驗刺激的共報道基因表達(dá)的不需要的變化(表7)。這證明,使用合成基因可降低異常表達(dá)的危險。
表7
實(shí)施例3合成螢火蟲螢光素酶基因用兩種方法優(yōu)化luc+基因(美國專利第5,670,356號)。在第1種方法(策略A)中,優(yōu)化調(diào)節(jié)序列例如密碼子,并同時除去轉(zhuǎn)錄因子結(jié)合位點(diǎn)(TFBS)(參見實(shí)施例4,盡管采用不同版本的程序和數(shù)據(jù)庫)。第1種方法所得序列包括hluc+ver2AF1以及hluc+ver2AF8(名稱中“F”表示構(gòu)建體包含側(cè)翼序列)。hluc+ver2AF1是密碼子優(yōu)化的,hluc+ver2AF2是第1輪除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的序列,hluc+ver2AF3是第2輪除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的,hluc+ver2AF4是第3輪除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的,hluc+ver2AF5是第4輪除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的,hluc+ver2AF6是除去啟動子組件和RBS后得到的,hluc+ver2AF7是進(jìn)一步除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的,hluc+ver2AF8是修飾限制酶識別位點(diǎn)后得到的。
不同螢火蟲(P.pyralis)螢光素酶基因形式的配對DNA同一性表8
luc+具有下列序列atggaagacgccaaaaacataaagaaaggcccggcgccattctatccgctggaagatggaaccgctggagagcaactgcataaggctatgaagagatacgccctggttcctggaacaattgcttttttacagatgcacatatcgaggtggacatcacttacgctgagtacttcgaaatgtccgttcggttggcagaagctatgaaacgatatgggctgaatacaaatcacagaatcgtcgtatgcagtgaaaactctcttcaattctttatgccggtgttgggcgcgttatttatcggagttgcagttgcgcccgcgaacgacatttataatgaacgtgaattgctcaacagtatgggcatttcgcagcctaccgtggtgttcgtttccaaaaaggggttgcaaaaaattttgaacgtgcaaaaaaagctcccaatcatccaaaaaattattatcatggattctaaaacggattaccagggatttcagtcgatgtacacgttcgtcacatctcatctacctcccggttttaatgaatacgattttgtgccagagtccttcgatagggacaagacaattgcactgatcatgaactcctctggatctactggtctgcctaaaggtgtcgctctgcctcatagaactgcctgcgtgagattctcgcatgccagagatcctatttttggcaatcaaatcattccggatactgcgattttaagtgttgttccattccatcacggttttggaatgtttactacactcggatatttgatatgtggatttcgagtcgtcttaatgtatagatttgaagaagagctgtttctgaggagccttcaggattacaagattcaaagtgcgctgctggtgccaaccctattctccttcttcgccaaaagcactctgattgacaaatacgatttatctaatttacacgaaattgcttctggtggcgctcccctctctaaggaagtcggggaagcggttgccaagaggttccatctgccaggtatcaggcaaggatatgggctcactgagactacatcagctattctgattacacccgagggggatgataaaccgggcgcggtcggtaaagttgttccattttttgaagcgaaggttgtggatctggataccgggaaaacgctgggcgttaatcaaagaggcgaactgtgtgtgagaggtcctatgattatgtccggttatgtaaacaatccggaagcgaccaacgccttgattgacaaggatggatggctacattctggagacatagcttactgggacgaagacgaacacttcttcatcgttgaccgcctgaagtctctgattaagtacaaaggctatcaggtggctcccgctgaattggaatccatcttgctccaacaccccaacatcttcgacgcaggtgtcgcaggtcttcccgacgatgacgccggtgaacttcccgccgccgttgttgttttggagcacggaaagacgatgacggaaaaagagatcgtggattacgtcgccagtcaagtaacaaccgcgaaaaagttgcgcggaggagttgtgtttgtggacgaagtaccgaaaggtcttaccggaaaactcgacgcaagaaaaatcagagagatcctcataaaggccaagaagggcggaaagatcgccgtgtaa(SEQ ID NO43)hluc+具有下列序列atggccgatgctaagaacattaagaagggccctgctcccttctaccctctggaggatggcaccgctggcgagcagctgcacaaggccatgaagaggtatgccctggtgcctggcaccattgccttcaccgatgcccacattgaggtggacatcacctatgccgagtacttcgagatgtctgtgcgcctggccgaggccatgaagaggtacggcctgaacaccaaccaccgcatcgtggtgtgctctgagaactctctgcagttcttcatgccagtgctgggcgccctgttcatcggagtggccgtggcccctgctaacgacatttacaacgagcgcgagctgctgaacagcatgggcatttctcagcctaccgtggtgttcgtgtctaagaagggcctgcagaagatcctgaacgtgcagaagaagctgcctatcatccagaagatcatcatcatggactctaagaccgactaccagggcttccagagcatgtacacattcgtgacatctcatctgcctcctggcttcaacgagtacgac
ttcgtgccagagtctttcgacagggacaaaaccattgccctgatcatgaacagctctgggtctaccggcctgcctaagggcgtggccctgcctcatcgcaccgcctgtgtgcgcttctctcacgcccgcgaccctattttcggcaaccagatcatccccgacaaccgctattctgagcgtggtgccattccaccacggcttcggcatgttcaccaccctgggctacctgatttgcggctttcgggtggtgctgatgtaccgcttcgaggaggagctgttcctgcgcagcctgcaagactacaaaattcagtctgccctgctggtgccaaccctgttcagcttcttcgctaagagcaccctgatcgacaagtacgacctgtctaacctgcacgagattgcctctggcggcgccccactgtctaaggaggtgggcgaagccgtggccaagcgctttcatctgccaggcatccgccagggctacggcctgaccgagacaaccagcgccattctgattaccccagagggcgacgacaagcctggcgccgtgggcaaggtggtgccattcttcgaggccaaggtggtggacctggacaccggcaagaccctgggagtgaaccagcgcggcgagctgtgtgtgcgcggccctatgattatgtccggctacgtgaataaccctgaggccacaaacgccctgatcgacaaggacggctggctgcactctggcgacattgcctactgggacgaggacgagcacttcttcatcgtggaccgcctgaagtctctgatcaagtacaagggctaccaggtggccccagccgagctggagtctatcctgctgcagcaccctaacattttcgacgccggagtggccggcctgcccgacgacgatgccggcgagctgcctgccgccgtcgtcgtgctggaacacggcaagaccatgaccgagaaggagatcgtggactatgtggccagccaggtgacaaccgccaagaagctgcgcggcggagtggtgttcgtggacgaggtgcccaagggcctgaccggcaagctggacgcccgcaagatccgcgagatcctgatcaaggctaagaaaggcggcaagatcgccgtgtaa(SEQ ID NO14).
表9
表10不同螢火蟲(P.pyralis)螢光素酶基因形式的組成統(tǒng)計
hluc+ver2A1-hluc+ver2A5具有下列序列(SEQ ID NO16-20)
hluc+ver2A1AAAGCCACCATGGAGGACGCCAAGAACATCAAGAAGGGCCCCGCCCCCTTCTACCCCCTGGAGGACGGCACCGCCGGCGAGCAGCTGCACAAGGCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTCACCGACGCCCACATCGAGGTGGACATCACCTACGCCGAGTACTTCGAGATGAGCGTGCGCCTGGCCGAGGCCATGAAGCGCTACGGCCTGAACACCAACCACCGCATCGTGGTGTGCAGCGAGAACAGCCTGCAGTTCTTCATGCCCGTGCTGGGCGCCCTGTTCATCGGCGTGGCCGTGGCCCCCGCCAACGACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTGGTGTTCGTGAGCAAGAAGGGCCTGCAGAAGATCCTGAACGTGCAGAAGAAGCTGCCCATCATCCAGAAGATCATCATCATGGACAGCAAGACCGACTACCAGGGCTTCCAGAGCATGTACACCTTCGTGACCAGCCACCTGCCCCCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTTCGACCGCGACAAGACCATCGCCCTGATCATGAACAGCAGCGGCAGCACCGGCCTGCCCAAGGGCGTGGCCCTGCCCCACCGCACCGCCTGCGTGCGCTTCAGCCACGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCCGACACCGCCATCCTGAGCGTGGTGCCCTTCCACCACGGCTTCGGCATGTTCACCACCCTGGGCTACCTGATCTGCGGCTTCCGCGTGGTGCTGATGTACCGCTTCGAGGAGGAGCTGTTCCTGCGCAGCCTGCAGGACTACAAGATCCAGAGCGCCCTGCTGGTGCCCACCCTGTTCAGCTTCTTCGCCAAGAGCACCCTGATCGACAAGTACGACCTGAGCAACCTGCACGAGATCGCCAGCGGCGGCGCCCCCCTGAGCAAGGAGGTGGGCGAGGCCGTGGCCAAGCGCTTCCACCTGCCCGGCATCCGCCAGGGCTACGGCCTGACCGAGACCACCAGCGCCATCCTGATCACCCCCGAGGGCGACGACAAGCCCGGCGCCGTGGGCAAGGTGGTGCCCTTCTTCGAGGCCAAGGTGGTGGACCTGGACACCGGCAAGACCCTGGGCGTGAACCAGCGCGGCGAGCTGTGCGTGCGCGGCCCCATGATCATGAGCGGCTACGTGAACAACCCCGAGGCCACCAACGCCCTGATCGACAAGGACGGCTGGCTGCACAGCGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGCCTGAAGAGCCTGATCAAGTACAAGGGCTACCAGGTGGCCCCCGCCGAGCTGGAGAGCTCCTGCTGCAGCACCCCAACATCTTCGACGC
CGGCGTGGCCGGCCTGCCCGACGACGACGCCGGCGAGCTGCCCGCCGCCGTGGTGGTGCTGGAGCACGGCAAGACCATGACCGAGAAGGAGATCGTGGACTACGTGGCCAGCCAGGTGACCACCGCCAAGAAGCTGCGCGGCGGCGTGGTGTTCGTGCACGAGGTGCCCAAGGGCCTGACCGGCAAGCTGGACGCCCGCAAGATCCGCGAGATCCTGATCAAGGCCAAGAAGGGCGGCAAGATCGCCGTGTAATAATTCTAGAhluc+ver2A2AAAGCCACCATGGAGGACGCCAAGAACATCAAGAAGGGCCCAGCGCCATTCTACCCCCTGGAGGACGGCACCGCCGGCGAGCAGCTGCACAAGGCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTCACCGACGCACATATCGAGGTGGACATCACCTACGCCGAGTACTTCGAGATGAGCGTTCGGCTGGCAGAGGCTATGAAGCGCTATGGGCTGAACACCAACCATCGCATCGTGGTGTGCAGCGAGAACAGCTTGCAGTTCTTCATGCCCGTGTTGGGTGCCCTGTTCATCGGCGTGGCTGTGGCCCCAGCTAACGACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTCGTATTCGTGAGCAAGAAAGGGCTGCAAAAGATCCTGAACGTGCAAAAGAAGCTGCCCATCATCCAAAAGATCATCATCATGGACAGCAAGACCGACTACCAGGGCTTCCAAAGCATGTACACCTTCGTGACCAGCCATTTGCCGCCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTTCGACCGCGACAAGACCATCGCCCTGATCATGAACAGTAGTGGCAGTACCGGCTTACCTAAGGGCGTGGCCCTACCGCACCGCACCGCCTGTGTCCGATTCAGTCATGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCCGACACCGCTATCCTGAGCGTGGTGCCATTTCACCACGGCTTCGGCATGTTCACCACCCTGGGCTACTTGATCTGCGGCTTCCGGGTCGTGCTGATGTACCGCTTCGAGGAGGAGCTATTCTTGCGCAGCTTGCAAGACTACAAGATTCAAAGCGCCCTGCTGGTGCCCACCCTGTTCAGTTTCTTCGCCAAGAGCACCCTGATCGACAAGTACGACCTGAGCAACCTGCACGAGATCGCCAGCGGCGGCGCCCCGCTCAGCAAGGAGGTGGGCGAGGCCGTGGCCAAGCGCTTCCACCTGCCAGGCATCCGCCAGGGCTACGGCCTGACCGAGACAACCAGCGCCATTCTGATCACCCCCGAGGGGGACGACAAGCCTGGCGCAGTAGGCAAGGTGGTGCCCTTCTTCGAGGCTAAGGTGGTGGACCTGGACACCGGTAAAACCCTGGGTGTGAACCAGCGCGGCG
AGCTGTGCGTCCGTGGCCCCATGATCATGAGCGGCTACGTTAACAACCCCGAGGCTACAAACGCCCTGATCGACAAGGACGGCTGGCTGCACAGCGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGGCTGAAGAGCCTGATCAAATACAAGGGCTACCAGGTAGCCCCAGCCGAACTGGAGAGCATCCTGCTGCAGCACCCCAACATCTTCGACGCCGGGGTCGCCGGCCTGCCCGACGACGATGCCGGCGAGCTGCCCGCCGCAGTCGTGGTGCTGGAGCACGGTAAAACCATGACCGAGAAGGAGATCGTGGACTATGTGGCCAGCCAGGTTACAACCGCCAAGAAGCTGCGCGGCGGCGTGGTGTTCGTGGACGAGGTGCCTAAAGGCCTGACGGGCAAGTTGGACGCCCGCAAGATCCGCGAGATTCTGATCAAGGCCAAGAAGGGCGGCAAGATCGCCGTGTAATAATTCTAGAhluc+ver2A3AAAGCCACCATGGAAGATGCCAAAAACATTAAGAAGGGCCCAGCGCCATTCTACCCACTGGAGGACGGCACCGCCGGCGAGCAGCTGCACAAAGCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTTACCGACGCACATATCGAGGTGGACATCACCTACGCCGAGTACTTCGAGATGAGCGTTCGGCTGGCAGAGGCTATGAAGCGCTTGGGCTGAATACCAACCATCGCATCGTGGTGTGCAGCGAGAATAGCTGCAGTTCTTCATGCCCGTGTTGGGTGCCCTGTTCATCGGTGTGGCTGTGGCCCCAGCTAACGACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTCGTATTCGTGAGCAAGAAAGGGCTGCAAAAGATCCTCAACGTGCAAAAGAAGCTACCGATCATACAAAAGATCATCATCATGGATAGCAAGACCGACTACCAGGGCTTCCAAAGCATGTACACCTTCGTGACCAGCCATTTGCCACCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTTCGACCGGGACAAAACCATCGCCCTGATCATGAACAGTAGTGGCAGTACCGGATTGCCCAAGGGCGTAGCCCTACCGCACCGCACCGCCTGTGTCCGATTCAGTCATGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCCGACACCGCTATCCTCAGCGTGGTGCCATTTCACCACGGCTTCGGCATGTTCACCACGCTGGGCTACTTGATCTGCGGCTTTCGGGTCGTGCTCATGTACCGCTTCGAGGAGGAGCTATTCTTGCGCAGCTTGCAAGACTATAAGATTCAAAGCGCCCTGCTGGTGCCCACACTGTTCAGCTTCTTCGCCAAGAGCACTCTCATCGACAAGTACGACCTGAGCAACCTGCACGAGATCG
CCAGCGGCGGGGCGCCGCTCAGCAAGGAGGTGGGCGAGGCCGTGGCCAAGCGCTTCCACCTACCAGGCATCCGCCAGGGCTACGGCCTGACAGAAACAACCAGCGCCATTCTGATCACCCCCGAAGGGGACGACAAGCCTGGCGCAGTAGGCAAGGTGGTGCCCTTCTTCGAGGCTAAGGTGGTGGACTTGGACACCGGTAAGACCCTGGGTGTGAACCAGCGCGGCGAGCTGTGCGTCCGTGCCCCCATGATCATGAGCGGCTACGTTAACAACCCCGAGGCTACAAACGCTCTCATCGACAAGGACGGCTGGCTGCACAGCGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGGCTGAAGAGCCTGATCAAATACAAGGGCTACCAGGTAGCCCCAGCCGAACTGGAGAGCATCCTGCTGCAACACCCCAACATCTTCGACGCCGGGGTCGCCGGCCTGCCCGACGACGATGCCGGCGAGCTGCCCGCCGCAGTCGTCGTGCTGGAGCACGGTAAAACCATGACCGAGAAGGAGATCGTGGACTATGTGGCCAGCCAGGTTACAACCGCCAAGAAGCTGCGCGGTGGTGTTGTGTTCGTGGACGAGGTGCCTAAAGGCCTGACGGGCAAGTTGGACGCCCGCAAGATCCGCGAGATTCTCATTAAGGCCAAGAAGGGCGGCAAGATCGCCGTGTAATAATTCTAGAhluc+ver2A4AAAGCCACCATGGAAGATGCCAAAAACATTAAGAAGGGCCCAGCGCCATTCTACCCACTCGAAGACGGCACCGCCGGCGAGCAGCTGCACAAAGCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTTACCGACGCACATATCGAGGTGGACATTACCTACGCCGAGTACTTCGAGATGAGCGTTCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAACACCAACCATCGCATCGTGGTGTGCAGCGAGAATAGCTGCAGTTCTTCATGCCCGTGTTGGGTGCCCTGTTCATCGGTGTGGCTGTGGCCCCAGCTAACGACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTCGTATTCGTGAGCAAGAAAGGGCTGCAAAAGATCCTCAACGTGCAAAAGAAGCTACCGATCATACAAAAGATCATCATCATGGATAGCAAGACCGACTACCAGGGCTTCCAAAGCATGTACACCTTCGTGACTTCCCATTTGCCACCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTTCGACCGGGACAAAACCATCGCCCTGATCATGAACAGTAGTGGCAGTACCGGATTGCCCAAGGGCGTAGCCCTACCGCACCGCACCGCTTGTGTCCGATTCAGTCATGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCC
GACACCGCTATCCTCAGCGTGGTGCCATTTCACCACGGCTTCGGCATGTTCACCACGCTGGGCTACTTGATCTGCGGCTTTCGGGTCGTGCTCATGTACCGCTTCGAGGAGGAGCTATTCTTGCGCAGCTTGCAAGACTATAAGATTCAAAGCGCCCTGCTGGTGCCCACACTGTTCAGTTTCTTCGCCAAGAGCACTCTCATCGACAAGTACGACCTAAGCAACTTGCACGAGATCGCCAGCGGCGGGGCGCCGCTCAGCAAGGAGGTGGGCGAGGCCGTGGCCAAACGCTTCCACCTACCAGGCATCCGCCAGGGCTACGGCCTGACAGAAACAACCAGCGCCATTCTGATCACCCCCGAAGGGGACGACAAGCCTGGCGCAGTAGGCAAGGTGGTGCCCTTCTTCGAGGCTAAGGTGGTGGACTTGGACACCGGTAAGACACTGGGTGTGAACCAGCGCGGCGAGCTGTGCGTCCGTGGCCCCATGATCATGAGCGGCTACGTTAACAACCCCGAGGCTACAAACGCTCTCATCGACAAGGACGGCTGGCTGCACAGCGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGGCTGAAGAGCCTGATCAAATACAAGGGCTACCAGGTAGCCCCAGCCGAACTGGAGAGCATCCTGCTGCAACACCCCAACATCTTCGACGCCGGGGTCGCCGGCCTGCCCGACGACGATGCCGGCGAGCTGCCCGCCGCAGTCGTCGTGCTGGAACACGGTAAAACCATGACCGAGAAGGAGATCGTGGACTATGTGGCCAGCCAGGTTACAACCGCCAAGAAGCTGCGCGGTGGTGTTGTGTTCGTGGACGAGGTGCCTAAAGGCCTGACGGGCAAGTTGGACGCCCGCAAGATCCGCGAGATTCTCATTAAGGCCAAGAAGGGCGGCAAGATCGCCGTGTAATAATTCTAGAhluc+ver2A5AAAGCCACCATGGAAGATGCCAAAAACATTAAGAAGGGCCCAGCGCCATTCTACCCACTCGAAGACGGCACCGCCGGCGAGCAGCTGCACAAAGCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTTACCGACGCACATATCGAGGTGGACATTACCTACGCCGAGTACTTCGAGATGAGCGTTCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAACACCAACCATCGGATCGTGGTGTGCAGCGAGAATAGCTTGCAGTTCTTCATGCCCGTGTTGGGTGCCCTGTTCATCGGTGTGGCTGTGGCCCCAGCTAACGACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTCGTATTCGTGAGCAAGAAAGGGCTGCAAAAGATCCTCAACGTGCAAAAGAAGCTACCGATCATACAAAAGATCATCATCATGGATAG
CAAGACCGACTACCAGGGCTTCCAAAGCATGTACACCTTCGTGACTTCCCATTTGCCACCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTTCGACCGGGACAAAACCATCGCCCTGATCATGAACAGTAGTGGCAGTACCGGATTGCCCAAGGGCGTAGCCCTACCGCACCGCACCGCTTGTGTCCGATTCAGTCATGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCCGACACCGCTATCCTCAGCGTGGTGCCATTTCACCACGGCTTCGGCATGTTCACCACGCTGGGCTACTTGATCTGCGGCTTTCGGGTCGTGCTCATGTACCGCTTCGAGGAGGAGCTATTCTTGCGCAGCTTGCAAGACTATAAGATTCAAAGCGCCCTGCTGGTGCCCACACTGTTCAGTTTCTTCGCTAAGAGCACTCTCATCGACAAGTACGACCTAAGCAACTTGCACGAGATCGCCAGCGGCGGGGCGCCGCTCAGCAAGGAGGTGGGCGAGGCCGTGGCCAAACGCTTCCACCTACCAGGCATCCGCCAGGGCTACGGCCTGACAGAAACAACCAGCGCCATTCTGATCACCCCCGAAGGGGACGACAAGCCTGGCGCAGTAGGCAAGGTGGTGCCCTTCTTCGAGGCTAAGGTGGTGGACTTGGACACCGGTAAGACACTGGGTGTGAACCAGCGCGGCGAGCTGTGCGTCCGTGGCCCCATGATCATGAGCGGCTACGTTAACAACCCCGAGGCTACAAACGCTCTCATCGACAAGGACGGCTGGCTGCACAGCGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGGCTGAAGAGCCTGATCAATACAAGGGCTACCAGGTAGCCCCAGCCGAACTGGAGAGCATCCTGCTGCAACACCCCAACATCTTCGACGCCGGGGTCGCCGGCCTGCCCGACGACGATGCCGGCGAGCTGCCCGCCGCAGTCGTCGTGCTGGAACACGGTAAAACCATGACCGAGAAGGAGATCGTGGACTATGTGGCCAGCCAGGTTACAACCGCCAAGAAGCTGCGCGGTGGTGTTGTGTTCGTGGACGAGGTGCCTAAAGGCCTGACGGGCAAGTTGGACGCCCGCAAGATCCGCGAGATTCTCATTAAGGCCAAGAAGGGCGGCAAGATCGCCGTGTAATAATTCTAGAhluc+ver2A6具有下列序列AAAGCCACCATGGAaGAtGCCAAaAACATtAAGAAGGGCCCaGCgCCaTTCTACCCaCTcGAaGACGGCACCGCCGGCGAGCAGCTGCACAAaGCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTtACCGACGCaCAtATCGAGGTGGACATtACCTACGCCGAGTACTTCGAGATGAGCGTtCGgCTGGCaGAaGCtATGAAGCGCTAtGGgCTGAAtACaAACCAtCGgATCGT
GGTGTGCAGCGAGAAtAGCtTGCAGTTCTTCATGCCCGTGtTGGGtGCCCTGTTCATCGGtGTGGCtGTGGCCCCaGCtAACGACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTcGTaTTCGTGAGCAAGAAaGGgCTGCAaAAGATCCTcAACGTGCAaAAGAAGCTaCCgATCATaCAaAAGATCATCATCATGGAtAGCAAGACCGACTACCAGGGCTTCCAaAGCATGTACACCTTCGTGACttcCCAttTGCCaCCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTTCGACCGgGACAAaACCATCGCCCTGATCATGAACAGtAGtGGCAGtACCGGatTgCCcAAGGGCGTaGCCCTaCCgCACCGCACCGCtTGtGTcCGaTTCAGtCAtGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCCGACACCGCtATCCTcAGCGTGGTGCCaTTtCACCACGGCTTCGGCATGTTCACCACgCTGGGCTACtTGATCTGCGGCTTtCGgGTcGTGCTcATGTACCGCTTCGAGGAGGAGCTaTTCtTGCGCAGCtTGCAaGACTAtAAGATtCAaAGCGCCCTGCTGGTGCCCACaCTGTTCAGtTTCTTCGCtAAGAGCACtCTcATCGACAAGTACGACCTaAGCAACtTGCACGAGATCGCCAGCGGCGGgGCgCCgCTcAGCAAGGAGGTaGGtGAGGCCGTGGCCAAaCGCTCCACCTaCCaGGCATCCGCCAGGGCTACGGCCTGACaGAaACaACCAGCGCCATtCTGATCACCCCCGAaGGgGACGACAAGCCtGGCGCaGTaGGCAAGGTGGTGCCCTCTCGAGGCtAAGGTGGTGGACtTGGACACCGGtAAgACaCTGGGtGTGAACCAGCGCGGCGAGCTGTGCGTcCGtGGCCCCATGATCATGAGCGGCTACGTtAACAACCCCGAGGCtACaAACGCtCTcATCGACAAGGACGGCTGGCTGCACAGCGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGgCTGAAGAGCCTGATCAAaTACAAGGGCTACCAGGTaGCCCCaGCCGAaCTGGAGAGCATCCTGCTGCAaCACCCCAACATCTTCGACGCCGGgGTcGCCGGCCTGCCCGACGACGAtGCCGGCGAGCTGCCCGCCGCaGTcGTcGTGCTGGAaCACGGtAAaACCATGACCGAGAAGGAGATCGTGGACTAtGTGGCCAGCCAGGTtACaACCGCCAAGAAGCTGCGCGGtGGtGTtGTGTTCGTGGACGAGGTGCCtAAaGGCCTGACgGGCAAGtTGGACGCCCGCAAGATCCGCGAGATtCTcATtAAGGCCAAGAAGGGCGGCAAGATCGCCGTGTAATAATTCTAGA(SEQ ID NO21).
hluc+ver2A6序列經(jīng)過修飾得到hluc+ver2A7
AAAGCCACCATGGAaGAtGCCAAaAACATtAAGAAGGGCCCaGCgCCaTTCTACCCaCTcGAaGACGGgACCGCCGGCGAGCAGCTGCACAAaGCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTtACCGACGCaCAtATCGAGGTGGACATtACCTACGCCGAGTACTTCGAGATGAGCGTtCGgCTGGCaGAaGCtATGAAGCGCTAtGGgCTGAAtACaAACCAtCGgATCGTGGTGTGCAGCGAGAAtAGCtTGCAGTTCTTCATGCCCGTGtTGGGtGCCCTGTTCATCGGtGTGGCtGTGGCCCCaGCtAACGACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTcGTaTTCGTGAGCAAGAAaGGgCTGCAaAAGATCCTcAACGTGCAaAAGAAGCTaCCgATCATaCAaAAGATCATCATCATGGAtAGCAAGACCGACTACCAGGGCTTCCAaAGCATGTACACCTTCGTGACttcCCAttTGCCaCCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTTCGACCGgGACAAaACCATCGCCCTGATCATGAACAGtAGtGGCAGtACCGGatTgCCcAAGGGCGTaGCCCTaCCgCACCGCACCGCtTGtGTcCGaTTCAGtCAtGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCCGACACCGCtATCCTcAGCGTGGTGCCaTTtCACCACGGCTTCGGCATGTTCACCACgCTGGGCTACtTGATCTGCGGCTTtCGgGTcGTGCTcATGTACCGCTTCGAGGAGGAGCTaTTCtTGCGCAGCtTGCAaGACTAtAAGATtCAatctGCCCTGCTGGTGCCCACaCTaTTtAGcTTCTCGCtAAGAGCACtCTcATCGACAAGTACGACCTaAGCAACtTGCACGAGATCGCCAGCGGCGGgGCgCCgCTcAGCAAGGAGGTaGGtGAGGCCGTGGCCAAaCGCTTCCACCTaCCaGGCATCCGCCAGGGCTACGGCCTGACaGAaACaACCAGCGCCATtCTGATCACCCCCGAaGGgGACGACAAGCCtGGCGCaGTaGGCAAGGTGGTGCCCTTCTTCGAGGCtAAGGTGGTGGACtTGGACACCGGtAAgACaCTGGGtGTGAACCAGCGCGGCGAGCTGTGCGTcCGTGGCCCCATGATCATGAGCGGCTACGTtAACAACCCCGAGGCtACaAACGCtCTcATCGACAAGGACGGCTGGCTGCACAGCGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGgCTGAAGAGCCTGATCAAaTACAAGGGCTACCAGGTaGCCCCaGCCGAaCTGGAGAGCATCCTGCTGCAaCACCCCAACATCTTCGACGCCGGgGTcGCCGGCCTGCCCGACGACGAtGCCGGCGAGCTGCCCGCCGCaGTcGTcGTGCTGGAaCACGGtAAaACCATGACCGAGAAGGAGATCGTGGACTAtGTGGCCAGCCAGGTtACaACCGCCAAGAAGCTGCGCGGtGGtGTtGTGTTCGTGGACGAGGTGCCtAAaGGCCTGACgGGCAAGtTGGACGCCCGCAAGATCCGCGAGATtCTcATtAAGGCCAAGAAGGGCGGCAAGATCGCCGTGTAATAATTCTAGA(SEQ ID NO22).
對于在多克隆區(qū)具有BglI位點(diǎn)的載體來說,存在于螢火蟲序列中的BglI位點(diǎn)可以被除去。來自hluc+ver2AF8并缺乏BglI位點(diǎn)的螢光素酶基因,當(dāng)在4種哺乳動物細(xì)胞系(NIH3T3、CHO、HeLa和HEK293)中檢測時,表現(xiàn)出表達(dá)平均增加7.2倍。
hluc+ver2A8具有下列序列AAAGCCACCATGGAaGAtGCCAAaAACATtAAGAAGGGCCCaGCgCCaTTCTACCCaCTcGAaGACGGgACCGCCGGCGAGCAGCTGCACAAaGCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTtACCGACGCaCAtATCGAGGTGGACATtACCTACGCCGAGTACTTCGAGATGAGCGTtCGgCTGGCaGAaGCtATGAAGCGCTAtGGgCTGAAtACaAACCAtCGgATCGTGGTGTGCAGCGAGAAtAGCtTGCAGTTCTTCATGCCCGTGtTGGGtGCCCTGTTCATCGGtGTGGCtGTGGCCCCaGCtAACGACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTcGTaTTCGTGAGCAAGAAaGGgCTGCAaAAGATCCTcAACGTGCAaAAGAAGCTaCCgATCATaCAaAAGATCATCATCATGGAtAGCAAGACCGACTACCAGGGCTTCCAaAGCATGTACACCTTCGTGACttcCCAttTGCCaCCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTTCGACCGgGACAAaACCATCGCCCTGATCATGAACAGtAGtGGCAGtACCGGatTgCCcAAGGGCGTaGCCCTaCCgCACCGCACCGCtTGtGTcCGaTTCAGtCAtGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCCGACACCGCtATCCTcAGCGTGGTGCCaTTtCACCACGGCTTCGGCATGTTCACCACgCTGGGCTACtTGATCTGCGGCTTtCGgGTcGTGCTcATGTACCGCTTCGAGGAGGAGCTaTTCtTGCGCAGCtTGCAaGACTAtAAGATtCAatctGCCCTGCTGGTGCCCACaCTaTTtAGcTTCTTCGCtAAGAGCACtCTcATCGACAAGTACGACCTaAGCAACtTGCACGAGATCGCCAGCGGCGGgGCgCCgCTcAGCAAGGAGGTaGGtGAGGCCGTGGCCAAaCGCTTCCACCTaCCaGGCATCCGCCAGGGCTACGGCCTGACaGAaACaACCAGCGCCATtCTGATCACCCCCGAaGGgGACGACAAGCCtGGCGCaGTaGGCAAGGTGGTGCCCTTCTTCGAGGCtAAGGTGGTGGACtTGGACACCGGtAAgACaCTGGGtGTGAACCAGCGCGGCGAGCTGTGC
GTcCGtGGCCCCATGATCATGAGCGGCTACGTtAACAACCCCGAGGCtACaAACGCtCTcATCGACAAGGACGGGTGGCTGCACAGCGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGgCTGAAGAGCCTGATCAAaTACAAGGGCTACCAGGTaGCCCCaGCCGAaCTGGAGAGCATCCTGCTGCAaCACCCCAACATCTTCGACGCCGGgGTcGCCGGCCTGCCCGACGACGAtGCCGGCGAGCTGCCCGCCGCaGTcGTcGTGCTGGAaCACGGtAAaACCATGACCGAGAAGGAGATCGTGGACTAtGTGGCCAGCCAGGTtACaACCGCCAAGAAGCTGCGCGGtGGtGTtGTGTTCGTGGACGAGGTGCCtAAaGGaCTGACcGGCAAGtTGGACGCCCGCAAGATCCGCGAGATtCTcATtAAGGCCAAGAAGGGCGGCAAGATCGCCGTGTAATAATTCTAGA(SEQ ID NG23).
對于第2種方法,螢火蟲螢光素酶luc+密碼子經(jīng)優(yōu)化用于哺乳動物表達(dá),并且減少了共有序列轉(zhuǎn)錄因子結(jié)合位點(diǎn)和CG二核苷酸(CG島,潛在甲基化位點(diǎn))的數(shù)目。第2種方法得到hluc+ver2BF1到hluc+ver2BF5形式。hluc+ver2BF1是密碼子優(yōu)化的,hluc+ver2BF2是第1輪除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的序列,hluc+ver2BF3是第2輪除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的,hluc+ver2BF4是第3輪除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的,hluc+ver2BF5是第4輪除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的,hluc+ver2BF6是除去啟動子組件和RBS后得到的,hluc+ver2BF7是進(jìn)一步除去經(jīng)鑒定的包含轉(zhuǎn)錄因子結(jié)合位點(diǎn)的不需要的序列后得到的,hluc+ver2BF8是修飾限制酶識別位點(diǎn)后得到的。
hluc+ver2B1-B5具有下列序列(SEQ ID NO24-28)hluc+ver2B1
AAAGCCACCATGGAGGATGCTAAGAATATTAAGAAGGGGCCTGCTCCTTTTTATCCTCTGGAGGATGGGACAGCTGGGGAGCAGCTGCATAAGGCTATGAAGAGATATGCTCTGGTGCCTGGGACAATTGCTTTTACAGATGCTCATATTGAGGTGGATATTACATATGCTGAGTATTTTGAGATGTCTGTGAGACTGGCTGAGGCTATGAAGAGATATGGGCTGAATACAAATCATAGAATTGTGGTGTGTTCTGAGAATTCTCTGCAGTTTTTTATGCCTGTGCTGGGGGCTCTGTTTATTGGGGTGGCTGTGGCTCCTGCTAATGATATTTATAATGAGAGAGAGCTGCTGAATTCTATGGGGATTTCTCAGCCTACAGTGGTGTTTGTGTCTAAGAAGGGGCTGCAGAAGATTCTGAATGTGCAGAAGAAGCTGCCTATTATTCAGAAGATTATTATTATGGATTCTAAGACAGATTATCAGGGGTTTCAGTCTATGTATACATTTGTGACATCTCATCTGCCTCCTGGGTTTAATGAGTATGATTTTGTGCCTGAGTCTTTTGATAGAGATAAGACAATTGCTCTGATTATGAATTCTTCTGGGTCTACAGGGCTGCCTAAGGGGGTGGCTCTGCCTCATAGAACAGCTTGTGTGAGATTTTCTCATGCTAGAGATCCTATTTTTGGGAATCAGATTATTCCTGATACAGCTATTCTGTCTGTGGTGCCTTTTCATCATGGGTTTGGGATGTTTACAACACTGGGGTATCTGATTTGTGGGTTTAGAGTGGTGCTGATGTATAGATTTGAGGAGGAGCTGTTTCTGAGATCTCTGCAGGATTATAAGATTCAGTCTGCTCTGCTGGTGCCTACACTGTTTTCTTTTTTTGCTAAGTCTACACTGATTGATAAGTATGATCTGTCTAATCTGCATGAGATTGCTTCTGGGGGGGCTCCTCTGTCTAAGGAGGTGGGGGAGGCTGTGGCTAAGAGATTTCATCTGCCTGGGATTAGACAGGGGTATGGGCTGACAGAGACAACATCTGCTATTCTGATTACACCTGAGGGGGATGATAAGCCTGGGGCTGTGGGGAAGGTGGTGCCTTTTTTTGAGGCTAAGGTGGTGGATCTGGATACAGGGAAGACACTGGGGGTGAATCAGAGAGGGGAGCTGTGTGTGAGAGGGCCTATGATTATGTCTGGGTATGTGAATAATCCTGAGGCTACAAATGCTCTGATTGATAAGGATGGGTGGCTGCATTCTGGGGATATTGCTTATTGGGATGAGGATGAGCATTTTTTTATTGTGGATAGACTGAAGTCTCTGATTAAGTATAAGGGGTATCAGGTGGCTCCTGCTGAGCTGGAGTCTATTCTGCTGCAGCATCCTAATATTTTTGATGCTGGGGTGGCTGGGCTGCCTGATGATGATGCTGGGGAGCTGCCTGCTGCTGTGGTGGTGCTGGAGCATGGGAAGACAATGACAGAGAAGGAGATTGTGGATTATGTGGCTTCTCAGGTGACAACAGCTAAGAAGCTGAGAGGGGGGGTGGTGTTTGTGGATGAGGTGCCTAAGGGGCTGACAGGGAAGCTGGATGCTAGAAAGATTAGAGAGATTCTGATTAAGGCTAAGAAGGGGGGGAAGATTGCTGTGT
AATAATTCTAGAhluc+ver2B2AAAGCCACCATGGAAGATGCTAAAAACATTAAGAAGGGGCCTGCTCCTTTCTACCCTCTGGAGGATGGGACTGCCGGGGAGCAGCTGCATAAAGCTATGAAGCGGTATGCTCTGGTGCCAGGCACAATTGCGTTCACGGATGCTCACATTGAGGTGGACATTACATACGCTGAGTATTTTGAGATGTCGGTGCGGCTGGCTGAGGCTATGAAGCGATATGGGCTGAATACAAACCATAGAATTGTAGTGTGCTCTGAGAACTCGTTGCAGTTTTTTATGCCTGTGCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACATTTACAATGAGAGAGAGCTTTTGAACTCGATGGGGATTTCTCAGCCTACAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATTCTCAATGTGCAAAAGAAGCTGCCTATTATTCAAAAGATTATTATTATGGACTCTAAGACAGACTACCAGGGGTTTCAGTCTATGTATACATTTGTGACATCTCATCTGCCTCCTGGGTTCAACGAGTATGACTTTGTGCCCGAGTCTTTCGACAGAGATAAGACAATTGCTCTGATTATGAATTCATCTGGGTCTACCGGGCTGCCTAAGGGTGTAGCTCTGCCACATAGAACAGCTTGTGTGAGATTTTCTCATGCTAGGGACCCTATTTTTGGGAATCAGATTATTCCTGATACTGCTATTCTGTCGGTTGTGCCCTTTCATCATGGGTTTGGGATGTTTACAACACTGGGCTACCTGATATGTGGGTTTAGAGTGGTGCTCATGTATAGGTTTGAGGAGGAGCTTTTTTTTGCGCTCTCTGCAAGATTATAAGATTCAGTCTGCTCTGCTGGTGCCTACACTGTTTTCTTTTTTTGCTAAGTCTACCCTGATCGATAAGTATGATCTGTCCAACCTGCACGAGATTGCTTCTGGGGGGGCTCCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGCGCTTTCATCTGCCTGGAATCAGACAGGGGTATGGGCTAACAGAAACAACATCTGCTATTCTGATTACACCAGAGGGGGATGATAAGCCCGGGGCTGTAGGGAAAGTGGTGCCCTTTTTTGAAGCTAAAGTAGTTGATCTTGATACCGGTAAGACACTGGGGGTGAATCAGCGAGGGGAACTGTGTGTGAGAGGGCCTATGATTATGTCGGGGTATGTGAACAACCCTGAGGCTACAAATGCTCTGATTGATAAGGATGGGTGGCTGCATTCGGGCGATATTGCTTACTGGGATGAGGATGAGCATTTCTTCATCGTGGACAGACTGAAGTCGTTGATCAAATATAAGGGGTATCAAGTAGCTCCTGCTGAGCTGGAGTCCATTCTGCTTCAACATCCTAACATTTTCGATGCTGGGGTGGCTGGGCTG
CCTGATGATGATGCTGGGGAGCTGCCTGCTGCTGTAGTGGTGCTGGAGCACGGTAAGACAATGACAGAGAAGGAGATTGTGGATTATGTGGCTTCACAAGTGACAACAGCTAAGAAACTGAGAGGTGGCGTTGTGTTTGTGGATGAGGTGCCTAAAGGGCTGACAGGCAAGCTGGATGCTAGAAAAATTCGAGAGATTCTGATTAAGGCTAAGAAGGGTGGAAAGATTGCTGTGTAATAGTTCTAGAhluc+ver2B3AAAGCCACCATGGAAGATGCTAAAAACATTAAGAAGGGGCCTGCTCCTTTCTACCCTCTTGAAGATGGGACTGCTGGCGAGCAACTTCACAAAGCTATGAAGCGGTATGCTCTTGTGCCAGGCACAATTGCGTTCACGGATGCTCACATTGAGGTGGACATCACATACGCTGAGTATTTTGAGATGTCGGTGCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAATACAAACCATAGAATTGTAGTGTGCAGTGAGAACTCGTTGCAGTTCTTTATGCCCGTGCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACATCTACAACGAGCGAGAGCTGTTGAACTCGATGGGGATTTCTCAGCCTACAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATCTCAATGTGCAAAAGAAGCTGCCTATTATTCAAAAGATTATTATTATGGACTCTAAGACCGACTACCAGGGGTTTCAGTCTATGTATACATTTGTGACATCTCATCTGCCTCCTGGCTTCAACGAGTACGACTTCGTGCCCGAGTCTTTCGACAGAGATAAGACAATTGCTCTGATCATGAATTCATCCGGGTCTACCGGGCTGCCTAAGGGTGTAGCTCTGCCCCATAGAACAGCTTGTGTGAGATTTTCTCATGCTAGGGACCCTATTTTTGGGAATCAGATTATTCCTGACACTGCTATTCTGTCGGTGGTGCCCTTTCATCATGGGTTTGGGATGTTTACAACACTGGGCTACCTAATATGTGGGTTTTAGAGTGGTGCTCATGTATAGGTTTGAAGAAGAGCTGTTCTTACGCTCTTTGCAAGATTATAAGATTCAGTCTGCTCTGCTGGTGCCAACACTATTCTCTTTTTTTGCTAAGTCTACGCTCATAGACAAGTATGACTTGTCCAACTTGCACGAGATTGCTTCTGGCGGAGCACCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGCGCTTTCATCTGCCTGGTATCAGACAGGGGTATGGGCTAACAGAAACAACATCTGCTATTCTGATTACACCAGAGGGGGATGATAAGCCCGGGGCTGTAGGGAAAGTGGTGCCCTTTTTTGAAGCCAAAGTAGTTGATCTTGATACCGGTAAGACACTAGGGGTGAACCAGCGTGGTGAACTGTGTGTGAG
AGGGCCTATGATTATGTCGGGGTACGTTAACAACCCCGAAGCTACAAATGCTCTGATTGATAAGGATGGCTGGCTGCATTCGGGCGACATTGCTTACTGGGATGAGGATGAGCATTTCTTCATCGTGGACAGACTGAAGTCGTTGATCAAATACAAGGGGTATCAAGTAGCTCCTGCTGAGCTGGAATCCATTCTGCTCAACATCCCAACATTTTCGATGCTGGGGTGGCTGGGCTGCCTGATGATGATGCTGGGGAGTTGCCTGCTGCTGTAGTGGTGCTTGAGCACGGTAAGACAATGACAGAGAAGGAGATCGTGGATTATGTGGCTTCACAAGTGACAACAGCTAAGAAACTGAGAGGTGGCGTTGTGTTTGTGGATGAGGTGCCTAAAGGGCTCACTGGCAAGCTGGATGCTAGAAAAATTCGAGAGATTCTGATTAAGGCTAAGAAGGGTGGAAAGATTGCTGTGTAATAGTTCTAGAhluc+ver2B4AAAGCCACCATGGAAGATGCTAAAAACATTAAGAAGGGGCCTGCTCCCTTCTACCCTCTTGAAGATGGGACTGCTGGCGAGCAACTTCACAAAGCTATGAAGCGGTATGCTCTTGTGCCAGGCACAATTGCGTTCACGGATGCTCACATTGAGGTGGACATCACATACGCTGAGTATTTTGAGATGTCGGTGCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAATACAAACCATAGAATTGTAGTGTGCAGTGAGAACTCGTTGCAGTTCTTTATGCCCGTGCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACATCTACAACGAGCGAGAGCTGTTGAACTCGATGGGGATCTCTCAGCCTACAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATTCTCAATGTGCAAAAGAAGCTGCCTATTATTCAAAAGATTATTATTATGGACTCTAAGACAGACTACCAGGGGTTTCAGTCCATGTATACATTTGTGACATCTCATCTGCCTCCTGGCTTCAACGAGTACGACTTCGTGCCCGAGTCTTTCGACAGAGATAAGACAATTGCTCTGATCATGAATTCATCCGGGTCTACCGGGCTGCCTAAGGGTGTAGCTCTGCCCCATCGAACAGCTTGTGTGAGATTCTCTCATGCCAGGGACCCGATCTTTGGGAATCAGATTATTCCTGACACTGCTATTCTGTCGGTGGTGCCCTTTCATCATGGGTTTGGGATGTTTACAACACTGGGATACCTAATATGTGGGTTTAGAGTGGTGCTCATGTATAGGTTTGAAGAAGAACTGTTCTTACGCTCTTTGCAAGATTATAAGATTCAGTCTGCTCTGCTGGTGCCAACACTATTCTCTTTTTTTGCTAAGTCTACGCTCATAGACAAGTATGACTTGTCCAACTTGCACGAGATTGCTTC
TGGCGGAGCACCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGCGCTTTCATCTGCCTGGTATCAGACAGGGGTACGGGCTAACAGAAACAACTTCTGCTATTCTGATTACACCAGAGGGCGATGACAAGCCCGGGGCTGTAGGGAAAGTGGTGCCCTTTTTTGAAGCCAAAGTAGTTGATCTTGATACCGGTAAGACACTAGGGGTGAACCAGCGTGGTGAACTGTGTGTGCGGGGCCCTATGATTATGTCGGGGTACGTTAACAACCCCGAAGCTACAAATGCTCTTATTGATAAGGATGGCTGGTTGCATTCGGGCGACATTGCCTACTGGGATGAGGATGAGCATTTCTTCATC GTGGACAGACTGAAGTCGTTGATCAAATACAAGGGGTATCAAGTAGCTCCTGCTGAGCTGGAATCCATTCTGCTTCAACATCCAAACATTTTCGATGCTGGGGTGGCTGGGCTGCCTGATGATGATGCTGGAGAGTTGCCTGCTGCTGTAGTAGTGCTTGAGCACGGTAAGACAATGACAGAGAAGGAGATCGTGGATTATGTGGCTTCACAAGTGACAACAGCTAAGAAACTGAGAGGTGGCGTTGTGTTTGTGGATGAGGTGCCTAAAGGGCTCACTGGCAAGCTGGATGCCAGAAAAATTCGAGAGATTCTCATTAAGGCTAAGAAGGGTGGAAAGATTGCTGTGTAATAGTTCTAGAhluc+ver2B5AAAGCCACCATGGAAGATGCTAAAAACATTAAGAAGGGGCCTGCTCCCTTCTACCCTCTTGAAGATGGGACTGCTGGCGAGCAACTTCACAAAGCTATGAAGCGGTATGCTCTTGTGCCAGGCACAATTGCGTTCACGGATGCTCACATTGAGGTGGACATCACATACGCTGAGTATTTTGAGATGTCGGTGCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAATACAAACCATAGAATTGTAGTGTGCAGTGAGAACTCGTTGCAGTTCTTTATGCCCGTGCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACATCTACAACGAGCGAGAGCTGTTGAACTCGATGGGGATCTCTCAGCCTACAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATTCTCAATGTGCAAAAGAAGCTGCCTATTATACAAAAGATTATTATTATGGACTCTAAGACCGACTACCAGGGGTTTCAGTCCATGTACACATTTGTAACCTCTCATCTGCCTCCTGGCTTCAACGAGTACGACTTCGTGCCCGAGTCTTTCGACAGGGACAAAACGATTGCTCTGATCATGAACTCATCCGGGTCTACCGGGCTGCCTAAGGGTGTAGCTCTGCCCCATCGAACAGCTTGTGTGAGATTCTCTCATGCCAGGGACCCGATCTTTGGGAATCAGATTATTCCTGA
CACTGCTATTCTGTCGGTGGTGCCCTTTCATCATGGGTTTGGGATGTTCACAACACTGGGATACCTCATTTGCGGGTTTAGAGTGGTGCTCATGTATAGGTTTGAAGAAGAACTATTCCTACGCTCTTTGCAAGATTATAAGATTCAGTCTGCTCTGCTGGTGCCAACACTATTCTCTTTTTTTGCTAAGTCTACGCTCATAGACAAGTATGACTTGTCCAACTTGCACGAGATTGCTTCTGGCGGAGCACCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGCGCTTTCATCTGCCTGGTATCAGACAGGGGTACGGGCTAACAGAAACAACTTCTGCTATTCTGATTACACCAGAGGGCGATGACAAACCCGGGGCTGTAGGGAAAGTGGTGCCCTTTTTTGAAGCCAAAGTAGTTGATCTTGATACCGGTAAGACACTAGGGGTGAACCAGCGTGGTGAACTGTGTGTGCGGGGCCCTATGATTATGTCGGGGTACGTTAACAACCCCGAAGCTACAAATGCTCTTATTGATAAGGATGGCTGGTTGCATTCGGGCGACATTGCCTACTGGGATGAGGATGAGCATTTCTTCATCGTGGACAGACTGAAGTCGTTGATCAAATACAAGGGGTATCAAGTAGCTCCTGCTGAGCTGGAATCCATTCTGCTTCAACATCCTAACATTTTCGATGCTGGGGTGGCTGGGCTGCCTGATGATGATGCTGGAGAGTTGCCTGCTGCTGTAGTAGTGCTTGAGCACGGTAAGACAATGACAGAGAAGGAGATCGTGGATTATGTGGCTTCACAAGTGACAACAGCTAAGAAACTGAGAGGTGGCGTTGTGTTTGTGGATGAGGTGCCTAAAGGGCTCACTGGCAAGCTGGATGCCAGAAAAATTCGAGAGATTCTCATTAAGGCTAAGAAGGGTGGAAAGATTGCTGTGTAATAGTTCTAGAhluc+ver2B6具有下列序列AAAGCCACCATGGAaGATGCcAAaAAcATTAAGAAGGGGCCTGCTCCcTTcTAcCCTCTtGAaGATGGGACtGCtGGcGAGCAaCTtCAcAAaGCTATGAAGcGgTATGCTCTtGTGCCaGGcACAATTGCgTTcACgGATGCTCAcATTGAaGTaGAcATcACATAcGCTGAGTATTTTGAGATGTCgGTGcGgCTGGCaGAaGCTATGAAGcGcTATGGGCTGAATACAAAcCATAGAATTGTaGTGTGcagTGAGAAcTCgtTGCAGTTcTTTATGCCcGTGCTGGGGGCTCTcTTcATcGGGGTGGCTGTGGCTCCTGCTAAcGAcATcTAcAAcGAGcGAGAGCTgtTGAAcTCggATGGGGATcTCTCAGCCTACAGTGGTGTTTGTGagTAAGAAaGGGCTtCAaAAGATTCTcAATGTGCAaAAGAAGCTGCCTATTATaCAaAAGATTATTATTATGGAcTCtAAGACcGAcTAcCAGGGGTTTCAGTCcATG
TAcACATTTGTaACcTCTCATCTGCCTCCTGGcTTcAAcGAGTAcGAcTTcGTGCCcGAGTCTTTcGAcAGgGAcAAaACgATTGCTCTGATcATGAAcagcTCcGGGTCTACcGGGCTGCCTAAGGGtGTaGCTCTGCCcCATcGAACAGCTTGTGTGAGATTcTCTCATGCcAGgGAcCCgATcTTtGGaAAcCAGATcATcCCTGAcACtGCTATTCTGTCgGTgGTGCCcTTTCATCATGGGTTTGGGATGTTcACAACACTGGGaTAccTcATtTGcGGGTTTAGAGTGGTGCTcATGTATAGgTTTGAaGAaGAaCTaTTccTacGcTCTtTGCAaGATTATAAGATTCAGTCTGCTCTGCTGGTGCCaACACTaTTcTCTTTTTTTGCTAAGTCTACgCTcATaGAcAAGTATGActTGTCcAActTGCAcGAGATTGCTTCTGGcGGaGCaCCTCTGTCTAAGGAGGTaGGtGAGGCTGTGGCTAAGcGcTTTCATCTGCCTGGtATcAGACAGGGGTAcGGGCTaACAGAaACAACtTCTGCTATTCTGATTACACCaGAGGGcGATGAcAAaCCcGGGGCTGTaGGGAAaGTGGTGCCcTTTTTTGAaGCcAAaGTaGTtGATCTtGATACcGGtAAGACACTaGGGGTGAAcCAGcGtGGtGAaCTGTGTGTGcGgGGcCCTATGATTATGTCgGGGTAcGTtAAcAAcCCcGAaGCTACAAATGCTCTcATaGAcAAGGAcGGgTGGcTtCATagcGGcGAcATTGCcTAcTGGGAcGAGGATGAGCATTTcTTcATcGTGGAcAGACTGAAGTCgtTGATcAAAaTAcAAGGGGTATCAaGTaGCTCCTGCTGAGCTGGAaTCcATTCTGCTtCAaCAcCCcAAtATcTTcGATGCTGGGGTGGCTGGGCTGCCTGATGATGATGCTGGaGAGcTGCCTGCTGCTGTaGTaGTGCTtGAGCAcGGtAAGACAATGACAGAGAAGGAGATcGTGGATTATGTGGCTTCaCAaGTGACAACAGCTAAGAAaCTGAGAGGtGGcGTtGTGTTTGTGGATGAGGTGCCTAAaGGGCTcACtGGcAAGCTGGATGCcAGAAAaATTcGAGAGATTCTcATTAAGGCTAAGAAGGGtGGaAAGATTGCTGTGTAATAgTTCTAGA(SEQ ID NO29).
hluc+ver2BF8是通過從hluc+ver2BF7上除去Pts1共有序列轉(zhuǎn)錄因子結(jié)合位點(diǎn)而產(chǎn)生的。
hluc+ver2B7具有下列序列AAAGCCACCATGGAAGATGCCAAAAACATTAAGAAGGGGCCTGCTCCCTTCTACCCTCTTGAAGATGGGACTGCTGGCGAGCAACTTCACAAAGCTATGAAGCGGTATGCTCTTGTGCCAGGGACAATTGCGTTCACGGATGCTCACATTGAAGTAGACATCACATACGCTGAGTATTTTGAGATGTC
GGTGCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAATACAAACCATAGAATTGTAGTGTGCAGTGAGAACTCGTTGCAGTTCTTTATGCCCGTGCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACATCTACAACGAGCGAGAGCTGTTGAACTCGATGGGGATCTCTCAGCCTACAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATTCTCAATGTGCAAAAGAAGCTGCCTATTATACAAAAGATTATTATTATGGACTCTAAGACAGACTACCAGGGGTTTTCAGTCCATGTACACATTTGTAACCTCTCATCTGCCTCCTGGCTTCAACGAGTACGACTTCGTGCCCGAGTCTTTCGACAGGGACAAAACGATTGCTCTGATCATGAACAGCTCCGGGTCTACCGGGCTGCCTAAGGGTGTAGCTCTGCCCCATCGAACAGCTTGTGTGAGATTCTCTCATGCCAGGGACCCGATCTTTGGAAACCAGATCATCCCTGACACTGCTATTCTGTCGGTGGTGCCCTTTCATCATGGGTTTGGGATGTTCACAACACTGGGATACCTCATTTGCGGGTTTAGAGTGGTGCTCATGTATAGGTTTGAAGAAGAACTATTCCTACGCTCTTTGCAAGATTATAAGATTCAGTCTGCTCTGCTGGTGCCAACACTATTCTCTTTTTTTGCTAAGTCTACGCTCATAGACAAGTATGACTTGTCCAACTTGCACGAGATTGCTTCTGGCGGAGCACCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGCGCTTTCATCTGCCTGGTATCAGACAGGGGTACGGGCTAACAGAAACAACTTCTGCTATTCTGATTACACCAGAGGGCGATGACAAACCCGGGGCTGTAGGGAAAGTGGTGCCCTTTTTTGAAGCCAAAGTAGTTGATCTTGATACCGGTAAGACACTAGGGGTGAACCAGCGTGGTGAACTGTGTGTGCGGGGCCCTATGATTATGTCGGGGTACGTTAACAACCCCGAAGCTACAAATGCTCTCATAGACAAGGACGGGTGGCTTCATAGCGGCGACATTGCCTACTGGGACGAGGATGAGCATTTCTTCATCGTGGACAGACTGAAGTCGTTGATCAAATACAAGGGGTATCAAGTAGCTCCTGCCGAGCTTGAGTCCATTCTGCTTCAACACCCCAATATCTTCGATGCTGGGGTGGCTGGGCTGCCTGATGATGATGCTGGAGAGCTGCCTGCTGCTGTAGTAGTGCTTGAGCATGGTAAGACAATGACAGAGAAGGAGATCGTGGATTATGTGGCTTCACAAGTGACAACAGCTAAGAAACTCCGAGGTGGCGTTGTGTTTGTGGATGAGGTGCCTAAAGGGCTCACTGGCAAGCTGGATGCCAGAAAAATTCGAGAGATTCTCATTAAGGCTAAGAAGGGTGGAAAGATTGCTGTGTAATAGTTCTAGA(SEQ ID NO94)
hluc+ver2B8具有下列序列AAAGCCACCATGGAaGATGCcAAaAAcATTAAGAAGGGGCCTGCTCCcTTcTAcCCTCTtGAaGATGGGACtGCtGGcGAGCAaCTtCAcAAaGCTATGAAGcGgTATGCTCTtGTGCCaGGgACAATTGCgTTcACgGATGCTCAcATTGAaGTaGAcATcACATAcGCTGAGTATTTTGAGATGTCgGTGcGgCTGGCaGAaGCTATGAAGcGcTATGGGCTGAATACAAAcCATAGAATTGTaGTGTGcagTGAGAAcTCgtTGCAGTTcTTTATGCCcGTGCTGGGGGCTCTcTTcATcGGGGTGGCTGTGGCTCCTGCTAAcGAcATcTAcAAcGAGcGAGAGCTgtTGAAcTCgATGGGGATcTCTCAGCCTACAGTGGTGTTTGTGagTAAGAAaGGGCTtCAaAAGATTCTcAATGTGCAaAAGAAGCTaCCgATcATaCAaAAGATcATcATcATGGAtagcAAGACcGAcTAcCAGGGGTTTCAGTCcATGTAcACATTTGTaACcTCTCATCTGCCTCCTGGcTTcAAcGAGTAcGAcTTcGTGCCcGAGTCTTTcGAcAGgGAcAAaACgATTGCTCTGATcATGAAcagcTCcGGGTCTACcGGGCTGCCTAAGGGtGTaGCTCTGCCcCATcGAACAGCTTGTGTGAGATTcTCTCATGCcAGgGAcCCgATcTTtGGaAAcCAGATcATcCCTGAcACtGCTATTCTGTCgGTgGTGCCcTTTCATCATGGGTTTGGGATGTTcACAACACTGGGaTAccTcATtTGcGGGTTTAGAGTGGTGCTcATGTATAGgTTTGAaGAaGAaCTaTTccTacGcTCTtTGCAaGATTATAAGATTCAGTCTGCTCTGCTGGTGCCaACACTaTTcTCTTTTTTTGCTAAGTCTACgCTcATaGAcAAGTATGActTGTCcAActTGCAcGAGATTGCTTCTGGcGGaGCaCCTCTGTCTAAGGAGGTaGGtGAGGCTGTGGCTAAGcGcTTTCATCTGCCTGGtATcAGACAGGGGTAcGGGCTaACAGAaACAACtTCTGCTATTCTGATTACACCaGAGGGcGATGAcAAaCCtGGGGCTGTaGGGAAaGTGGTGCCcTTTTTTGAaGCcAAaGTaGTtGATCTtGATACcGGtAAGACACTaGGGGTGAAcCAGcGtGGtGAaCTGTGTGTGcGgGGcCCTATGATTATGTCgGGGTAcGTtAAcAAcCCcGAaGCTACAAATGCTCTcATaGAcAAGGAcGGgTGGcTtCATagcGGcGAcATTGCcTAcTGGGAcGAGGATGAGCATTTcTTcATcGTGGAcAGACTGAAGTCgtTGATcAAaTAcAAGGGGTATCAaGTaGCTCCTGCcGAGCTtGAgTCcATTCTGCTtCAaCAcCCcAAtATcTTcGATGCTGGGGTGGCTGGGCTGCCTGATGATGATGCTGGaGAGcTGCCTGCTGCTGTaGTaGTGCTtGAGCAtGGtAAGACAATGACAGAGAAGGAGATcGTGGATTATGTGGCTTCaCAaGTGACAACAGCTAAGAAaCTccGAGGtGGcGTtGTGTTTGTGGATGAGGTGCCTAAaGGGCTcACtGGcAAGCTGGATGCcAGAAAaAT
TcGAGAGATTCTcATTAAGGCTAAGAAGGGtGGaAAGATTGCTGTGTAATAgTTCTAGA(SEQ ID NO31).
hluc+ver2BF8經(jīng)過修飾得到hluc+ver2BF9。
hluc+ver2B9具有下列序列AAAGCCACCATGGAaGATGCcAAaAAcATTAAGAAGGGGCCTGCTCCcTTcTAcCCTCTtGAaGATGGGACtGCtGGcGAGCAaCTtCAcAAaGCTATGAAGcGgTATGCTCTtGTGCCaGGgACAATTGCgTTcACgGATGCTCAcATTGAaGTaGAcATcACATAcGCTGAGTATTTTGAGATGTCgGTGcGgCTGGCaGAaGCTATGAAGcGcTATGGGCTGAATACAAAcCATAGAATTGTaGTGTGcagTGAGAAcTCgtTGCAGTTcTTTATGCCcGTGCTGGGGGCTCTcTTcATtGGGGTGGCTGTGGCTCCTGCTAAtGAcATcTAcAAcGAGcGAGAGCTgtTGAAcagtATGGGGATcTCTCAGCCTACAGTGGTGTTTGTGagTAAGAAaGGGCTtCAaAAGATTCTcAATGTGCAaAAGAAGCTaCCgATcATaCAaAAGATcATcATcATGGAtagcAAGACcGAcTAcCAGGGGTTTCAGTCcATGTAcACATTTGTaACcTCTCATCTGCCTCCTGGcTTcAAtGAGTAtGAcTTcGTGCCcGAGTCTTTcGAcAGgGAcAAaACgATTGCTCTGATcATGAAcagcagtGGGTCTACcGGGCTGCCTAAGGGtGTaGCTCTGCCcCATcGAACAGCTTGTGTGAGATTcTCTCATGCcAGgGAcCCgATcTTtGGaAAcCAGATcATcCCTGAcACtGCTATTCTGTCgGTgGTGCCcTTTCATCATGGGTTTGGGATGTTcACAACACTGGGaTAccTcATtTGcGGGTTTAGAGTGGTGCTcATGTATAGgTTTGAaGAaGAaCTaTTccTacGcTCTtTGCAaGATTATAAGATTCAGTCTGCTCTGCTGGTGCCaACACTaTTcTCTTTTTTTGCTAAGTCTACgCTcATaGAcAAGTATGActTGTCcAActTGCAcGAGATTGCTTCTGGcGGaGCaCCTCTGTCTAAGGAGGTaGGtGAGGCTGTGGCTAAGcGcTTTCATCTGCCTGGtATcAGACAGGGGTAcGGGCTaACAGAaACAACtTCTGCTATTCTGATTACACCaGAGGGcGATGAcAAaCCtGGGGCTGTaGGGAAaGTGGTGCCcTTTTTTGAaGCcAAaGTaGTtGATCTtGATACcGGtAAGACACTaGGGGTGAAcCAGaGaGGtGAatTGTGTGTGaGgGGcCCTATGATTATGTCgGGGTAcGTtAAcAAcCCcGAaGCTACAAATGCTCTcATaGAcAAGGAcGGgTGGcTtCATagtGGaGAtATTGCcTAcTGGGAtGAaGATGAGCATTTcTTcATcGTGGAcAGACTGAAGTCgtTGATcAAaTAcAAGGGGTATCAaGTaGCTCCTGCcGAG
CTtGAgTCcATTCTGCTtCAaCAcCCcAAtATcTTcGATGCTGGGGTGGCTGGGCTGCCTGATGATGATGCTGGaGAGcTGCCTGCTGCTGTaGTaGTGCTtGAGCAtGGtAAGACAATGACAGAGAAGGAGATcGTGGATTATGTGGCTTCaCAaGTGACAACAGCTAAGAAaCTccGAGGtGGcGTtGTGTTTGTGGATGAGGTGCCTAAaGGGCTcACtGGcAAGCTGGATGCcAGAAAaATTcGAGAGATTCTcATTAAGGCTAAGAAGGGtGGaAAGATTGCTGTGTAATAgTTCTAGA(SEQ ID NO32).
hluc+ver2BF9中的BglI序列被除去,得到hluc+ver2BF10。hluc+ver2BF10表現(xiàn)出表達(dá)很差。
hluc+ver2B10具有下列序列AAAGCCACCATGGAaGATGCcAAaAAcATTAAGAAGGGGCCTGCTCCcTTcTAcCCTCTtGAaGATGGGACtGCtGGcGAGCAaCTtCAcAAaGCTATGAAGcGgTATGCTCTtGTGCCaGGgACAATTGCgTTcACgGATGCTCAcATTGAaGTaGAcATcACATAcGCTGAGTATTTTGAGATGTCgGTGcGgCTGGCaGAaGCTATGAAGcGcTATGGGCTGAATACAAAcCATAGAATTGTaGTGTGcagTGAGAAcTCgtTGCAGTTcTTTATGCCcGTGCTGGGGGCTCTcTTcATtGGGGTGGCTGTGGCTCCTGCTAAtGAcATcTAcAAcGAGcGAGAGCTgtTGAAcagtATGGGGATcTCTCAGCCTACAGTGGTGTTTGTGagTAAGAAaGGGCTtCAaAAGATTCTcAATGTGCAaAAGAAGCTaCCgATcATaCAaAAGATcATcATcATGGAtagcAAGACcGAcTAcCAGGGGTTTCAGTCcATGTAcACATTTGTaACcTCTCATCTGCCTCCTGGcTTcAAtGAGTAtGAcTTcGTGCCcGAGTCTTTcGAcAGgGAcAAaACgATTGCTCTGATcATGAAcagcagtGGGTCTACcGGGCTGCCTAAGGGtGTaGCTCTGCCcCATcGAACAGCTTGTGTGAGATTcTCTCATGCcAGgGAcCCgATcTTtGGaAAcCAGATcATcCCTGAcACtGCTATTCTGTCgGTgGTGCCcTTTCATCATGGGTTTGGGATGTTcACAACACTGGGaTAccTcATtTGcGGGTTTAGAGTGGTGCTcATGTATAGgTTTGAaGAaGAaCTaTTccTacGcTCTtTGCAaGATTATAAGATTCAGTCTGCTCTGCTGGTGCCaACACTaTTcTCTTTTTTTGCTAAGTCTACgCTcATaGAcAAGTATGActTGTCcAActTGCAcGAGATTGCTTCTGGcGGaGCaCCTCTGTCTAAGGAGGTaGGtGAGGCTGTGGCTAAGcGcTTTCATCTGCCTGGtATcAGACAGGGGTAcGGGCTaACAGAaACAACtTCTGCTATTCTGATT
ACACCaGAGGGcGATGAcAAaCCtGGGGCTGTaGGGAAaGTGGTGCCcTTTTTTGAaGCcAAaGTaGTtGATCTtGATACcGGtAAGACACTaGGGGTGAAcCAGaGaGGtGAatTGTGTGTGaGgGGcCCTATGATTATGTCgGGGTAcGTtAAcAAcCCcGAaGCTACAAATGCTCTcATaGAcAAGGAcGGgTGGcTtCATagtGGaGAtATTGCcTAcTGGGAtGAaGATGAGCATTTcTTcATcGTGGAcAGACTGAAGTCgtTGATcAAaTAcAAGGGGTATCAaGTaGCTCCTGCcGAGCTtGAgTCcATTCTGCTtCAaCAcCCcAAtATcTTcGATGCTGGGGTGGCTGGGCTGCCTGATGATGATGCTGGaGAGcTGCCTGCTGCTGTaGTaGTGCTtGAGCAtGGtAAGACAATGACAGAGAAGGAGATcGTGGATTATGTGGCTTCaCAaGTGACAACAGCTAAGAAaCTccGAGGtGGcGTtGTGTTTGTGGATGAGGTGCCTAAaGGaCTcACtGGcAAGCTGGATGCcAGAAAaATTcGAGAGATTCTcATTAAGGCTAAGAAGGGtGGaAAGATTGCTGTGTAATAgTTCTAGA(SEQ ID NO33).
表11螢火蟲螢光素酶構(gòu)建體概述
*啟動子組件定義為復(fù)合調(diào)節(jié)元件,具有被間隔區(qū)隔開的2個TFBS,已經(jīng)表現(xiàn)出有協(xié)同或拮抗功能。
實(shí)施例4合成選擇性多肽基因設(shè)計方法定義序列應(yīng)該保留的蛋白質(zhì)序列-Neo來自pCI-neo(Promega)(SEQ ID NO1)的neo基因-Hyg來自pcDNA3.1/Hygro(Invitrogen)(SEQ ID NO6)DNA起始序列的DNA側(cè)翼區(qū)
-5′端Kozak序列,來自pCI-neo((GCCACCATGA;SEQ IDNO34))的neo基因,PflMI位點(diǎn)(CCANNNNNTGG;SEQ ID NO35),在末端添加Ns(以避免檢索算法錯誤和保持ORF1)neo/hygNNNNNCCAnnnnnTGGCCACC-ATG-G(SEQ ID NO36)變化用SbfI取代PflMI(CCTGCAGG)-3′端兩個終止密碼子(至少一個TAA),PflMI位點(diǎn)(與5′端的不相容以允許直接克隆),在末端添加Ns(以避免檢索算法錯誤)neo/hygTAATAACCAnnnnnTGGNNN(SEQ ID NO37)變化用AflII取代PflMI(CTTAAG)定義密碼子使用密碼子使用得自密碼子使用數(shù)據(jù)庫(http//www.kazusa.or.jp/codon/)根據(jù)GenBank Release 131.0[2002年8月15日](Nakamura等,2000)。
下載密碼子使用表HS智人(Homo sapiens)[gbpri]50,031 CDS′s(21,930,294個密碼子)MM小家鼠(Mus musculus)[gbrod]23,113 CDS′s(10,345,401個密碼子)EC大腸桿菌(Escherichia coli[gbbct]11,985 CDS′s(3,688,954個密碼子)EC K12大腸桿菌K12[gbbct]4,291 CDS′s(1,363,716個密碼子)=>比較HS和MM,發(fā)現(xiàn)非常相似,使用HS表=>比較EC和EC K12,發(fā)現(xiàn)非常相似,使用EC K12表密碼子選擇策略總體策略是使密碼子使用適于在哺乳動物細(xì)胞中優(yōu)化表達(dá),同時又避免低使用大腸桿菌密碼子。對于每個氨基酸,選出一個“最佳”密碼子,用于在反向翻譯(back-translate)所需蛋白質(zhì)序列,得到起始基因序列。
選擇策略A用于設(shè)計neo和hyg基因(參見表12)。(策略A密碼子偏倚優(yōu)化重點(diǎn)是在HS中顯示最高使用頻率的密碼子。最佳密碼子是在HS中具有最大使用的密碼子,除非略低使用的密碼子在大腸桿菌中具有更高使用)。
表12
產(chǎn)生起始基因序列在載體NTI 8.0(Informax)中使用定制密碼子使用表(“策略A”)反向翻譯neo和hyg蛋白質(zhì)序列
Neo(根據(jù)來自Promega公司的pCI-neo中的新霉素基因)MIEQDGLHAGSPAAWVERLFGYDWAQQTIGCSDAAVFRLSAQGRPVLFVKTDLSGALNELQDEAARLSWLATTGVPCAAVLDVVTEAGRDWLLLGEVPGQDLLSSHLAPAEKVSIMADAMRRLHTLDPATCPFDHQAKHRIERARTRMEAGLVDQDDLDEEHQGLAPAELFARLKARMPDGEDLVVTHGDACLPNIMVENGRFSGFIDCGRLGVADRYQDIALATRDIAEELGGEWADRFLVLYGIAAPDSQRIAFYRLLDEFF(SEQ ID NO2)和由以下序列編碼Atgattgaacaagatggattgcacgcaggttctccggccgcttgggtggagaggctattcggctatgactgggcacaacagacaatcggctgctctgatgccgccgtgttccggctgtcagcgcaggggcgcccggttctttttgtcaagaccgacctgtccggtgccctgaatgaactgcaggacgaggcagcgcggctatcgtggctggccacgacgggcgttccttgcgcagctgtgctcgacgttgtcactgaagcgggaagggactggctgctattgggcgaagtgccggggcaggatctcctgtcatctcaccttgctcctgccgagaaagtatccatcatggctgatgcaatgcggcggctgcatacgcttgatccggctacctgcccattcgaccaccaagcgaaacatcgcatcgagcgagcacgtactcggatggaagccggtcttgtcgatcaggatgatctggacgaagagcatcaggggctcgcgccagccgaactgttcgccaggctcaaggcgcgcatgcccgacggcgaggatctcgtcgtgacccatggcgatgcctgcttgccgaatatcatggtggaaaatggccgcttttctggattcatcgactgtggccggctgggtgtggcggaccgctatcaggacatagcgttggctacccgtgatattgctgaagagcttggcggcgaatgggctgaccgcttcctcgtgctttacggtatcgccgctcccgattcgcagcgcatcgccttctatcgccttcttgacgagttcttctga(SEQ ID NO1)Hyg(根據(jù)來自Invitrogen的pcDNA3.1/Hygro的潮霉素基因)MKKPELTATSVEKFLIEKFDSVSDLMQLSEGEESRAFSFDVGGRGYVLRVNSCADGFYKDRYVYRHFASAALPIPEVLDIGEFSESLTYCISRRAQGVTLQDLPETELPAVLQPVAEAMDAIAAADLSQTSGFGPFGPQGIGQYTTWRDFICAIADPHVYHWQTVMDDTVSASVAQALDELMLWAEDCPEVRHLVHADFGSNNVLTDNGRITAVIDWSEAMFGDSQYEVANIFFWRPWLACMEQQTRYFERRHPELAGSPRLRAYMLRIGLDQLYQSLVDGNFDDAAWAQGRCDAIVRSGAGTVGRTQIARSAAVWTDGCVEVLADSGNRRPSTRPRAKE(SEQ ID NO7)由以下序列編碼
Atgaaaaagcctgaactcaccgcgacgtctgtcgagaagtttctgatcgaaaagttcgacagcgtctccgacctgatgcagctctcggagggcgaagaatctcgtgctttcagcttcgatgtaggagggcgtggatatgtcctgcgggtaaatagctgcgccgatggtttctacaaagatcgttatgtttatcggcactttgcatcggccgcgctcccgattccggaagtgcttgacattggggaattcagcgagagcctgacctattgcatctcccgccgtgcacagggtgtcacgttgcaagacctgcctgaaaccgaactgcccgctgttctgcagccggtcgcggaggccatggatgcgatcgctgcggccgatcttagccagacgagcgggttcggcccattcggaccgcaaggaatcggtcaatacactacatggcgtgatttcatatgcgcgattgctgatccccatgtgtatcactggcaaactgtgatggacgacaccgtcagtgcgtccgtcgcgcaggctctcgatgagctgatgctttgggccgaggactgccccgaagtccggcacctcgtgcacgcggatttcggctccaacaatgtcctgacggacaatggccgcataacagcggtcattgactggagcgaggcgatgttcggggattcccaatacgaggtcgccaacatcttcttctggaggccgtggttggcttgtatggagcagcagacgcgctacttcgagcggaggcatccggagcttgcaggatcgccgcggctccgggcgtatatgctccgcattggtcttgaccaactctatcagagcttggttgacggcaatttcgatgatgcagcttgggcgcagggtcgatgcgacgcaatcgtccgatccggagccgggactgtcgggcgtacacaaatcgcccgcagaagcgcggccgtctggaccgatggctgtgtagaagtactcgccgatagtggaaaccgacgccccagcactcgtccgagggcaaaggaat(SEQ ID NO6).
表13示例性的neo和hyg基因形式的命名
“h”表示人源化密碼子,“F”表示存在5′和3側(cè)翼序列。
產(chǎn)生起始(密碼子優(yōu)化的)基因序列hneo(在hneo-F中沒有側(cè)翼區(qū)的人源化起始基因序列)CCACTCAGTGGCCACCATGATCGAGCAGGACGGCCTGCACGCCGGCAGCCCCGCCGCCTGGGTGGAGCGCCTGTTCGGCTACGACTGGGCCCAGCAGACCATCGGCTGCAGCGACGCCGCCGTGTTCCGCCTGAGCGCCCAGGGCCGCCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTGCAGGACGAGGCCGCCCGCCTGAGCTGGCTGGCCACCACCGGCGTGCCCTGCGCCGCCGTGCTGGACGTGGTGACCGAGGCCGGCCGCGACTGGCTGCTGCTGGGCGAGGTGCCCGGCCAGGACCTGCTGAGCAGCCACCTGGCCCCCGCCGAGAAGGTGAGCATCATGGCCGACGCCATGCGCCGCCTGCACACCCTGGACCCCGCCACCTGCCCCTTCGACCACCAGGCCAAGCACCGCATCGAGCGCGCCCGCACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGACGAGGAGCACCAGGGCCTGGCCCCCGCCGAGCTGTTCGCCCGCCTGAAGGCCCGCATGCCCGACGGCGAGGACCTGGTGGTGACCCACGGCGACGCCTGCCTGCCCAACATCATGGTGGAGAACGGCCGCTTCAGCGGCTTCATCGACTGCGGCCGCCTGGGCGTGGCCGACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCCGAGGAGCTGGGCGGCGAGTGGGCCGACCGCTTCCTGGTGCTGTACGGCATCGCCGCCCCCGACAGCCAGCGCATCGCCTTCTACCGCCTGCTGGACGAGTTCTTCTAATAACCAGTCTCTGG(SEQ ID NO3).
hhyg(沒有側(cè)翼區(qū)的人源化起始基因序列)CCACTCAGTGGCCACCATGAAGAAGCCCGAGCTGACCGCCACCAGCGTGGAGAAGTTCCTGATCGAGAAGTTCGACAGCGTGAGCGACCTGATGCAGCTGAGCGAGGGCGAGGAGAGCCGCGCCTTCAGCTTCGACGTGGGCGGCCGCGGCTACGTGCTGCGGGTGAACAGCTGCGCCGACGGCTTCTACAAGGACCGCTACGTGTACCGCCACTTCGCCAGCGCCGCCCTGCCCATCCCCGAGGTGCTGGACATCGGCGAGTTCAGCGAGAGCCTGACCTACTGCATCAGCCGCCGCGCCCAGGGCGTGACCCTGCAGGACCTGCCCGAGACCGAGCTGCCCGCCGTGCTGCAGCCCGTGGCCGAGGCCATGGACGCCATCGCCGCCGCCGACCTGAGCCAGACCAGCGGCTTCGGCCCCTTCGGCCCCCAGGGCATCGGCCAGTACACCACCTGGCGCGACTTCATCTGCGCCATCGCCGACCCCCACGTGTACCACTGGCAGACCGTGATGGACGACACCGTGAGCGCCAGCGTGGCCCAGGCCCTGGACGAGCTGATGCTGTGGGCCGAGGACTGCCCCGAGGTGCGCCACCTGGTGCACGCCGACTTCGGCAGCAACAACGTGCTGACCGACACGGCCGCATCACCGCCGTGATCGACTGGAGCGAGGCCATGTTCGGCGACAGCCAGTACGAGGTGGCCAACATCTTCTTCTGGCGCCCCTGGCTGGCCTGCATGGAGCAGCAGACCCGCTACTTCGAGCGCCGCCACCCCGAGCTGGCCGGCAGCCCCCGCCTGCGCGCCTACATGCTGCGCATCGGCCTGGACCAGCTGTACCAGAGCCTGGTGGACGGCAACTTCGACGACGCCGCCTGGGCCCAGGGCCGCTGCGACGCCATCGTGCGCAGCGGCGCCGGCACCGTGGGCCGCACCCAGATCGCCCGCCGCAGCGCCGCCGTGTGGACCGACGGCTGCGTGGAGGTGCTGGCCGACAGCGGCAACCGCCGCCCCAGCACCCGCCCCCGCGCCAAGGAGTAATAACCAGCTCTTGG(SEQ ID NO8).
用于鑒定和除去序列基序的程序和數(shù)據(jù)庫全都來自Genomatix Software GmbH(德國,慕尼黑,http//www.genomatix.de)GEMS Launcher Release 3.5.2(2003年6月)MatInspector professional Release 6.2.1(2003年6月)矩陣家族文庫(Matrix Family Library,Ver 3.1.2(2003年6月))(包括128個家族的318個脊椎動物矩陣)ModelInspector professional Release 4.8(2002年10月)
Model Library Ver 3.1(2003年3月)(226個模塊)Sequencehaper tool用戶定義矩陣(User Defined Matriees)從起始基因序列中除去的序列基序(按照優(yōu)先權(quán)順序)限制酶識別序列參見用戶定義矩陣子集neo和hyg。與hluc+version 2.0的設(shè)計中所用的相同通常包括克隆(pGL4)所需的那些或通常用于克隆變化也是SbfI、AflI、AccIII轉(zhuǎn)錄因子結(jié)合序列具有缺省分值或更高的啟動子組件(2個帶有指定方向的TF結(jié)合位點(diǎn))至少分值=0.75的脊椎動物TF結(jié)合序列/矩陣=優(yōu)化真核轉(zhuǎn)錄調(diào)節(jié)位點(diǎn)Kozak序列剪接供體/受體序列,(+)鏈聚腺苷酸化添加序列,(+)鏈原核轉(zhuǎn)錄調(diào)節(jié)序列大腸桿菌啟動子大腸桿菌RBS(如果Met密碼子上游小于20bp)用戶定義的矩陣子集“neo+hyg”格式矩陣名稱(核心相似性閾值/矩陣相似性閾值)·U$AatII(0.75/1.00)·U$BamHI(0.75/1.00)
·U$BglI(0.75/1.00)·U$BglII(0.75/1.00)·U$BsaI(0.75/1.00)·U$BsmAI(0.75/1.00)·U$BsmBI(0.75/1.00)·U$BstEII(0.75/1.00)·U$BstXI(0.75/1.00)·U$Csp45I(0.75/1.00)·U$CspI(0.75/1.00)·U$EC-P-10(1.00/優(yōu)化)·U$EC-P-35(1.00/優(yōu)化)·U$EC-Prom(1.00/優(yōu)化)·U$EC-RBS(0.75/1.00)·U$EcoRI(0.75/1.00)·U$HindIII(0.75/1.00)·U$Kozak(0.75/優(yōu)化)·U$KpnI(0.75/1.00)·U$MluI(0.75/1.00)·U$NcoI(0.75/1.00)·U$NdeI(0.75/1.00)·U$NheI(0.75/1.00)·U$NotI(0.75/1.00)
·U$NsiI(0.75/1.00)·U$PflMI(0.75/1.00)·U$PmeI(0.75/1.00)·U$PolyAsig(0.75/1.00)·U$PstI(0.75/1.00)·U$SacI(0.75/1.00)·U$SacII(0.75/1.00)·U$SalI(0.75/1.00)·U$SfiI(0.75/1.00)·U$SgfI(0.75/1.00)·U$SmaI(0.75/1.00)·U$SnaBI(0.75/1.00)·U$SpeI(0.75/1.00)·U$Splice-A(0.75/優(yōu)化)·U$Splice-D(0.75/優(yōu)化)·U$XbaI(0.75/1.00)·U$XcmI(0.75/1.00)·U$XhoI(0.75/1.00)·所有脊椎動物文庫(0.75/優(yōu)化)用戶定義的矩陣子集“neo+hyg-EC”格式矩陣名稱(核心相似性閾值/矩陣相似性閾值)·U$AatII(0.75/1.00)
·U$BamHI(0.75/1.00)·U$BglI(0.75/1.00)·U$BgIII(0.75/1.00)·U$BsaI(0.75/1.00)·U$BsmAI(0.75/1.00)·U$BsmBI(0.75/1.00)·U$BstEII(0.75/1.00)·U$BstXI(0.75/1.00)·U$Csp45I(0.75/1.00)·U$CspI(0.75/100)·U$EcoRI(0.75/1.00)·U$HindIII(0.75/1.00)·U$Kozak(0.75/優(yōu)化)·U$KpnI(0.75/1.00)·U$MluI(0.75/1.00)·U$NcoI(0.75/1.00)·U$NdeI(0.75/1.00)·U$NheI(0.75/1.00)·U$NotI(0.75/1.00)·U$NsiI(0.75/1.00)·U$PflMI(0.75/1.00)·U$PmeI(0.75/1.00)
·U$PolyAsig(0.75/1.00)·U$PstI(0.75/1.00)·U$SacI(0.75/1.00)·U$SacII(0.75/1.00)·U$SalI(0.75/1.00)·U$SfiI(0.75/1.00)·U$SgfI(0.75/1.00)·U$SmaI(0.75/1.00)·U$SnabI(0.75/1.00)·U$SpeI(0.75/1.00)·U$Splice-A(0.75/優(yōu)化)·U$Splice-D(0.75/優(yōu)化)·U$XbaI(0.75/1.00)·U$XcmI(0.75/1.00)·U$XhoI(0.75/1.00)·所有脊椎動物文庫(0.75/優(yōu)化)用戶定義的矩陣子集“pGL4-072503”格式矩陣名稱(核心相似性閾值/矩陣相似性閾值)·U$AatII(0.75/1.00)·U$AccIII(0.75/1.00)·U$AflII(0.75/1.00)·U$BamHI(0.75/1.00)
·U$BglI(0.75/1.00)·U$BglII(0.75/1.00)·U$BsaI(0.75/1.00)·U$BsmAI(0.75/1.00)·U$BsmBI(0.75/1.00)·U$BstEII(0.75/1.00)·U$BstXI(0.75/1.00)·U$Csp45I(0.75/1.00)·U$CspI(0.75/1.00)·U$EC-P-10(1.00/優(yōu)化)·U$EC-P-35(1.00/優(yōu)化)·U$EC-Prom(1.00/優(yōu)化)·U$EC-RBS(0.75/1.00)·U$EcoRI(0.75/1.00)·U$HindIII(0.75/1.00)·U$Kozak(0.75/優(yōu)化)·U$KpnI(0.75/1.00)·U$MluI(0.75/1.00)·U$NcoI(0.75/1.00)·U$NdeI(0.75/1.00)·U$NheI(0.75/1.00)·U$NotI(0.75/1.00)
·U$NsiI(0.75/1.00)·U$PflMI(0.75/1.00)·U$PmeI(0.75/1.00)·U$PolyAsig(0.75/1.00)·U$PstI(0.75/1.00)·U$SacI(0.75/1.00)·U$SacII(0.75/1.00)·U$SalI(0.75/1.00)·U$SbfI(0.75/1.00)·U$SfiI(0.75/1.00)·U$SgfI(0.75/1.00)·U$SmaI(0.75/1.00)·U$SnaBI(0.75/1.00)·U$SpeI(0.75/1.00)·U$Splice-A(0.75/優(yōu)化)·U$Splice-D(0.75/優(yōu)化)·U$XbaI(0.75/1.00)·U$XcmI(0.75/1.00)·U$XhoI(0.75/1.00)·所有脊椎動物文庫(ALL vertebrates.lib)除去序列基序的策略通過選擇允許保留特定蛋白質(zhì)和側(cè)翼序列的可變密碼子,從起始基因序列中除去以上指定的不需要的序列基序。選擇可變密碼子的方式是盡可能地符合總體密碼子選擇策略。
通用步驟-采用MatInspector,矩陣家族子集“neo+hyg”或“neo+hyg-EC”以及ModelInspector,缺省設(shè)置,鑒定不需要的序列匹配。
-采用SequenceShaper(保持ORF)鑒定可能的取代密碼子,以除去不需要的序列匹配。
-將變化摻入到合成基因序列的新形式中,再用MatInspector和ModelInspector重新分析。
具體步驟-首先設(shè)法除去不需要的序列匹配,用子集“neo+hyg-EC”和SequenceShaper缺省保留閾值(0.70/Opt-0.20)。
-對于用該方法無法除去的序列匹配,使用較低SequenceShaper保留閾值(例如0.70/Opt-0.05)。
-對于仍無法除去的序列匹配,試用不同組合的手工選擇取代密碼子(尤其是當(dāng)需要超過3個堿基變化時)。如果這引入新序列匹配,用上述步驟設(shè)法將其除去(不同的起始序列有時允許不同的除去方法)。
-使用子集“neo+hyg”來檢查有疑問的大腸桿菌序列匹配是否引入,如果這樣的話,用上述用于非大腸桿菌序列的類似方法設(shè)法將其除去。
對于側(cè)翼(非ORF)序列使用類似策略。
在側(cè)翼克隆位點(diǎn)變化后,最終用子集“pGL4-072503”來檢查。
密碼子優(yōu)化neo和hyg后,得到hneo和hhyg。從hneo和hhyg中除去調(diào)節(jié)序列,得到hneo-1F和hhyg-1F(沒有側(cè)翼區(qū)的相應(yīng)序列分別是SEQ ID NO38和30)。從hueo-1F和hhyg-1F中除去調(diào)節(jié)序列,得到hneo-2F和hhyg-2F(沒有側(cè)翼區(qū)的相應(yīng)序列分別是SEQ IDNO39和42)。從hueo-2F和hhyg-2F中除去調(diào)節(jié)序列,得到hneo-3F和hhyg-3F。通過改變5′和3′克隆位點(diǎn),進(jìn)一步修飾hneo-3F和hhyg-3F,得到hneo-3FB和hhyg-3FBhneo-3(在第3輪除去序列后,子集neo+hyg)具有下列序列CCACTCcGTGGCCACCATGATCGAaCAaGACGGCCTcCAtGCtGGCAGtCCCGCaGCtTGGGTcGAaCGCtTGTTCGGgTACGACTGGGCCCAGCAGACCATCGGaTGtAGCGAtGCgGCCGTGTTCCGtCTaAGCGCtCAaGGCCGgCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTtCAaGACGAGGCtGCCCGCCTGAGCTGGCTGGCCACCACCGGtGTaCCCTGCGCCGCtGTGtTGGAtGTtGTGACCGAaGCCGGCCGgGACTGGCTGCTGCTGGGCGAGGTcCCtGGCCAGGAtCTGCTGAGCAGCCACCTtGCCCCCGCtGAGAAGGTttcCATCATGGCCGAtGCaATGCGgCGCCTGCACACCCTGGACCCCGCtACaTGCCCCTTCGACCACCAGGCtAAGCAtCGgATCGAGCGtGCtCGgACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGACGAGGAGCAtCAGGGCCTGGCCCCCGCtGAaCTGTTCGCCCGCCTGAAaGCCCGCATGCCgGACGGtGAGGACCTGGTtGTGACaCAtGGtGAtGCCTGCCTcCCtAACATCATGGTcGAGAAtGGcCGCTTCtcCGGCTTCATCGACTGCGGtCGCCTaGGaGTtGCCGACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCtGAGGAGCTtGGCGGCGAGTGGGCCGACCGCTTCtTaGTctTGTACGGCATCGCaGCtCCCGACAGCCAGCGCATCGCCTTCTACCGCCTGCTcGACGAGTTCTTtTAATGACCAGgCTCTGG(SEQ ID NO4)hneo-3FB(在5′端將PflMI位點(diǎn)變成SbfI,在3′端變成AflII)具有下列序列
cctgcaggCCACCATGATCGAACAAGACGGCCTCCATGCTGGCAGTCCCGCAGCTTGGGTCGAACGCTGTTCGGGTACGACTGGGCCCAGCAGACCATCGGATGTAGCGATGCGGCCGTGTCCGTCTAAGCGCTCAAGGCCGGCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTTCAAGACGAGGCTGCCCGCCTGAGCTGGCTGGCCACCACCGGTGTACCCTGCGCCGCTGTGTTGGATGTTGTGACCGAAGCCGGCCGGGACTGGCTGCTGCTGGGCGAGGTCCCTGGCCAGGATCTGCTGAGCAGCCACCTTGCCCCCGCTGAGAAGGTTTCCATCATGGCCGATGCAATGCGGCGCCTGCACACCCTGGACCCCGCTACATGCCCCTTCGACCACCAGGCTAAGCATCGGATCGAGCGTGCTCGGACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGACGAGGAGCATCAGGGCCTGGCCCCCGCTGAACTGTTCGCCCGCCTGAAAGCCCGCATGCCGGACGGTGAGGACCTGGTTGTGACACATGGTGATGCCTGCCTCCCTAACATCATGGTCGAGAATGGCCGCTTCTCCGGCTTCATCGACTGCGGTCGCCTAGGAGTTGCCGACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCTGAGGAGCTTGGCGGCGAGTGGGCCGACCGCTTCTTAGTCTTGTACGGCATCGCAGCTCCCGACAGCCAGCGCATCGCCTTCTACCGCCTGCTCGACGAGTTCTTTTAATGAgcttaag(SEQ ID NO5);hhyg-3(在第3輪除去序列后,子集neo+hyg)具有下列序列CCACTCcGTGGCCACCATGAAGAAGCCCGAGCTGACCGCtACCAGCGTtGAaAAaTTtCTcATCGAGAAGTTCGACAGtGTGAGCGACCTGATGCAGtTgtcgGAGGGCGAaGAgAGCCGaGCCTCAGCTTCGAtGTcGGCGGaCGCGGCTAtGTaCTGCGgGTGAAtAGCTGCGCtGAtGGCTTCTACAAaGACCGCTACGTGTACCGCCACTTCGCCAGCGCtGCaCTaCCCATCCCCGAaGTGtTGGACATCGGCGAGTTCAGCGAGAGCCTGACaTACTGCATCAGtaGaCG
CGCCCAaGGCGTtACtCTcCAaGACCTcCCCGAaACaGAGCTGCCtGCtGTGtTaCAGCCtGTcGCCGAaGCtATGGAtGCtATtGCCGCCGCCGACCTcAGtCAaACCAGCGGCTTCGGCCCaTTCGGgCCCCAaGGCATCGGCCAGTACACaACCTGGCGgGAtTTCATtTGCGCCATtGCtGAtCCCCAtGTcTACCACTGGCAGACCGTGATGGACGACACCGTGtcCGCCAGCGTaGCtCAaGCCCTGGACGAaCTGATGCTGTGGGCCGAaGACTGtCCCGAGGTGCGCCAcCTcGTcCAtGCCGACTTCGGCAGCAACAACGTcCTGACCGACAACGGCCGCATCACCGCCGTaATCGACTGGtcCGAaGCtATGTTCGGgGACAGtCAGTACGAGGTGGCCAACATCTTCTTCTGGCGgCCCTGGCTGGCtTGCATGGAGCAGCAGACtCGCTACTTCGAGCGCCGgCAtCCCGAGCTGGCCGGCAGCCCtCGtCTGCGaGCCTACATGCTGCGCATCGGCCTGGAtCAGCTcTACCAGAGCCTcGTGGACGGCAACTTCGACGAtGCtGCCTGGGCtCAaGGCCGCTGCGAtGCCATCGTcCGCAGCGGgGCCGGCACCGTcGGtCGCACaCAaATCGCtCGCCGgAGCGCCGCCGTaTGGACCGACGGCTGCGTcGAGGTGCTGGCCGACAGCGGCAACCGCGgCCCAGtACaCGaCCgCGCGCtAAGGAGTAgTAACCAGgctcTGG(SEQ ID NO9);hhyg-3FB(在5′端將PflMI位點(diǎn)變成SbfI,在3′端變成AflII)具有下列序列cctgcaggCCACCATGAAGAAGCCCGAGCTGACCGCTACCAGCGTTGAAAAATTTCTCATCGAGAAGTTCGACAGTGTGAGCGACCTGATGCAGTTGTCGGAGGGCGAAGAGAGCCGAGCCTTCAGCTTCGATGTCGGCGGACGCGGCTATGTACTGCGGGTGAATAGCTGCGCTGATGGCTTTCTACAAAGACCGCTACGTGTACCGCCACTTCGCCAGCGCTGCACTACCCATCCCCGAAGTGTTGGACATCGGCGAGTTCAGCGAGAGCCTGACATACTGCATCAGTAGACGCGCCCAAGGCGTTACTCTCCAAGACCTCCCCGAAACAGAGCTGCCTGCTGTGTTACAGCCTGTCGCCGAAGCTATGGATGCTATTGCCGCCGCCGACCTCAGTCAAACCAGCGGCTTCGGCCCATTCGGGCCCCAAGGCATCGGCCAGTACACAACCTGGCGGGATTTCATTTGCGCCATTGCTGATCCCCATGTCTACCACTGGCAGACCGTGATGGACGACACCGTGTCCGCCAGCGTAGCTCAAGCCCTGGACGAACTGATGCTGTGGGCCGAAGACTGTCCCGAGGTGCGCCACCTCGTCCATGCCGACTTCGGCAGCAACAACGTCCTGACCGACAACGGCCGCATCACCGCCGTAATCGACT
GGTCCGAAGCTATGTTCGGGGACAGTCAGTACGAGGTGGCCAACATCTTCTTCTGGCGGCCCTGGCTGGCTTGCATGGAGCAGCAGACTCGCTACTTCGAGCGCCGGCATCCCGAGCTGGCCGGCAGCCCTCGTCTGCGAGCCTACATGCTGCGCATCGGCCTGGATCAGCTCTACCAGAGCCTCGTGGACGGCAACTTCGACGATGCTGCCTGGGCTCAAGGCCGCTGCGATGCCATCGTCCGCAGCGGGGCCGGCACCGTCGGTCGCACACAAATCGCTCGCCGGAGCGCCGCCGTATGGACCGACGGCTGCGTCGAGGTGCTGGCCGACAGCGGGCAACCGCCGGCCCAGTACACGACCGCGCGCTAAGGAGTAGTAActtaag(SEQ ID NO10).
對hneo-3FB和hhyg-3FB的分析hneo-3FB沒有轉(zhuǎn)錄因子結(jié)合序列,包括啟動子組件,匹配(GEMSrelease 3.5.2(2003年6月);脊椎動物TF結(jié)合序列家族(核心相似性0.75/矩陣相似性opt);啟動子組件(缺省參數(shù)優(yōu)化閾值或80%最大分值)),同時hhyg-3FB具有4個轉(zhuǎn)錄因子結(jié)合序列匹配,但不保留啟動子組件(表10)。在hhyg-3FB中發(fā)現(xiàn)了以下轉(zhuǎn)錄因子結(jié)合序列1)V$MINI家族肌肉起始因子(Muscle Iuitiator)(2個成員)最佳匹配肌肉起始序列1(Muscle Initiator sequence 1)參考文獻(xiàn)Laura L.Lopez & James W.Fickett“Muscle-SpecificRegulation of TranscriptionA Catalog of Regulatory Elements”http//www.cbil.upenn.edu/MTIR/HomePage.html。
ORF中的位置-7至112)V$PAX5家族PAX-5/PAX-9B-細(xì)胞特異性激活蛋白(4個成員)最佳匹配B-細(xì)胞特異性激活蛋白參考文獻(xiàn)MEDLINE94010299ORF中的位置271至2993)V$AREB家族Atplal調(diào)節(jié)元件結(jié)合(4個成員)
最佳匹配AREB6參考文獻(xiàn)MEDLINE96061934ORF中的位置310至3224)V$VMYB家族AMV-病毒myb癌基因(2個成員)最佳匹配v-Myb參考文獻(xiàn)MEDLINE94147510ORF中的位置619至629hneo-3F中保留的其它序列包括一個Met上游的大腸桿菌RBS 8堿基(ORF位置334-337);hneo-3FB包括剪接受體位點(diǎn)(+)和PstI位點(diǎn)(對于SbfI,作為5′克隆位點(diǎn)部分)和一個Met上游的大腸桿菌RBS 8堿基(ORF位置334-337);hhyg-3F沒有其它序列匹配;hhyg-3FB包括剪接受體位點(diǎn)(+)和PstI位點(diǎn)(對于SbfI,作為5′克隆位點(diǎn)部分)。
然后,從hneo-3F和hhyg-3F中除去調(diào)節(jié)序列,得到hneo-4和hhyg-4。再從hneo-4中除去調(diào)節(jié)序列,得到hneo-5。
表14
*啟動子組件定義為復(fù)合調(diào)節(jié)元件,具有被間隔區(qū)隔開的2個轉(zhuǎn)錄因子結(jié)合位點(diǎn),已經(jīng)表現(xiàn)出有協(xié)同或拮抗功能。
表15概述了不同基因的同一性。
表15不同基因形式的配對同一性比較可讀框(ORF)
具有合成新霉素基因并鄰接SV40啟動子和合成聚腺苷酸化位點(diǎn)的表達(dá)盒(hNeo-盒)如下所示。
GGATCCGTTTGCGTATTGGGCGCTCTTCCGCTGATCTGCGCAGCACCATGGCCTGAAATAACCTCTGAAAGAGGAACTTGGTTAGCTACCTTCTGAGGCGGAAAGAACCAGCTGTGGAATGTGTGTCAGTTAGGGTGTGGAAAGTCCCCAGGCTCCCCAGCAGGCAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCAGGTGTGGAAAGTCCCCAGGCTCCCCAGCAGGCAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCATAGTCCCGCCCCTAACTCCGCCCATCCCGCCCCTAACTCCGCCCAGTTCCGCCCATTCTCCGCCCCATGGCTGACTAATTTTTTTTATTTATGCAGAGGCCGAGGCCGCCTCTGCCTCTGAGCTATTCCAGAAGTAGTGAGGAGGCTTTTTTGGAGGCCTAGGCTTTTGCAAAAAGCTCGATTCTTCTGACACTAGCGCCACCATGATCGAACAAGACGGCCTCCATGCTGGCAGTCCCGCAGCTTGGGTCGAACGCTTGTTCGGGTACGACTGGGCCCAGCAGACCATCGGATGTAGCGATGCGGCCGTGTTCCGTCTAAGCGCTCAAGGCCGGCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTTCAAGACGAGGCTGCCCGCCTGAGCTGGCTGGCCACCACCGGCGTACCCTGCGCCGCTGTGTTGGATGTTGTGACCGAAGCCGGCCGGGACTGGCTGCTGCTGGGCGAGGTCCCTGGCCAGGATCTGCTGAGCAGCCACCTTGCCCCCGCTGAGAAGGTTTCTATCATGGCCGATGCAATGCGGCGCCTGCACACCCTGGACCCCGCTACCTGCCCCTTCGACCACCAGGCTAAGCATCGGATCGAGCGTGCTCGGACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGACGAGGAGCATCAGGGCCTGGCCCCCGCTGAACTGTTCGCCCGACTGAAAGCCCGCATGCCGGACGGTGAGGACCTGGTTGTCACACACGGAGATGCCTGCCTCCCTAACATCATGGTCGAGAATGGCCGCTTCTCCGGCTTCATCCACTGCGGTCGCCTAGGAGTTGCCGACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCTGAGGAGCTTGGCGGCGAGTGGGCCGACCGCTTCTTAGTCTTGTACGGCATCGCAGCTCCCGACAGCCAGCGCATCGCCTTCTACCGCTTGCTCGACGAGTTCTTTTAATGATCTAGAACCGGTCATGGCCGCAATAAAATATCTTTATTTTCATTACATCTGTGTGTTGGTTTTTTGTGTGTTCGAACTAGATGCTGTCGAC(SEQ ID NO44).
具有合成嘌呤霉素基因并鄰接SV40啟動子和合成聚腺苷酸化位點(diǎn)的表達(dá)盒(hPuro-盒)如下所示。
GGATCCGTTTGCGTATTGGGCGCTCTTCCGCTGATCTGCGCAGCACCATGGCCTGAAATAACCTCTGAAAGAGGAACTTGGTTAGCTACCTTCTGAGGCGGAAAGAACCAGCTGTGGAATGTGTGTCAGTTAGGGTGTGGAAAGTCCCCAGGCTCCCCAGCAGGCAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCAGGTGTGGAAAGTCCCCAGGCTCCCCAGCAGGCAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCATAGTCCCGCCCCTAACTCCGCCCATCCCGCCCCTAACTCCGCCCAGTTCCGCCCATTCTCCGCCCCATGGCTGACTTAATTTTTTTTATTTATGCAGAGGCCGAGGCCGCCTCTGCCTCTGAGCTATTGCAGAAGTAGTGAGGAGGCTTTTTTGGAGGCCTAGGCTTTTGCAAAAAGCTCGATTCTTCTGACACTAGCGCCACCATGACCGAGTACAAGCCTACCGTGCGCCTGGCCACTCGCGATGATGTGCCCCGCGCCGTCCGCACTCTGGCCGCCGCTTTCGCCGACTACCCCGCTACCCGGCACACCGTGGACCCCGACCGGCACATCGAGCGTGTGACAGAGTTGCAGGAGCTGTTCCTGACCCGCGTCGGGCTGGACATCGGCAAGGTGTGGGTAGCCGACGACGGCGCGGCCGTGGCCGTGTGGACTACCCCCGAGAGCGTTGAGGCCGGCGCCGTGTTCGCCGAGATCGGCCCCCGAATGGCCGAGCTGAGCGGCAGCCGCCTGGCCGCCCAGCAGCAAATGGAGGGCCTGCTTGCCCCCCATCGTCCCAAGGAGCCTGCCTGGTTTCTGGCCACTGTAGGAGTGAGCCCCGACCACCAGGGCAAGGGCTTGGGCAGCGCCGTCGTGTTGCCCGGCGTAGAGGCCGCCGAACGCGCCGGTGTGCCCGCCTTTCTCGAAACAAGCGCACCAAGAAACCTTCCATTCTACGAGCGCCTGGGCTTCACCGTGACCGCCGATGTCGAGGTGCCCGAGGGACCTAGGACCTGGTGTATGACACGAAAACCTGGCGCCTAATGATCTAGAACCGGTCATGGCCGCAATAAAATATCTTTATTTTCATTACATCTGTGTGTTGGTTTTTTGTGTGTTCGAACTAGATGCTGTCGAC(SEQ IDNO11);hpuroGCTAGCGCCACCATGACCGAGTACAAGCCCACCGTGCGCCTGGCCACCCGCGACGACGTGCCCCGCGCCGTGCGCACCCTGGCCGCCGCCTTCGCCGACTACCCCGCCACCCGCCACACCGTGGACCCCGACCGCCACATCGAGCGCGTGACCGAGCTGCAGGAGCTGTTCCTGACCCGCGTGGGCCTGGACATCGGCAAGGTGTGGGTGGCCGACGACGGCGCCGCCGTGGCCGTGTGGACCACCCCCGAGAGCGTGGAGGCCGGCGCCGTGTTCGCCGAGATCGGCCCCCGCATGGCCGAGCTGAGCGGCAGCCGCCTGGCCGCCC
AGCAGCAGATGGAGGGCCTGCTGGCCCCCCACCGCCCCAAGGAGCCCGCCTGGTTCCTGGCCACCGTGGGCGTGAGCCCCGACCACCAGGGCAAGGGCCTGGGCAGCGCCGTGGTGCTGCCCGGCGTGGAGGCCGCCGAGCGCGCCGGCGTGCCCGCCTTCCTGGAGACCAGCGCCCCCCGCAACCTGCCCTTCTACGAGCGCCTGGGCTTCACCGTGACCGCCGACGTGGAGGTGCCCGAGGGCCCCCGCACCTGGTGCATGACCCGCAAGCCCGGCGCCTAATGATCTAGA(SEQ ID NO91);hpuro-1gctagcgccaccatgaccgagtacaagcctaccgtgcgcctggccactcgcgatgatgtgccccgcgccgtccgcactctggccgccgctttcgccgactaccccgctacccggcacaccgtggaccccgaccggcacatcgagcgtgtgacagagttgcaggagctgttcctgacccgcgtcgggctggacatcggcaaggtgtgggtagccgacgacggcgcggccgtggccgtgtggactacccccgagagcgttgaggccggcgccgtgttcgccgagatcggcccccgaatggccgagctgagcggcagccgcctggccgcccagcagcaaatggagggcctgcttgccccccatcgtcccaaggagcccgcctggtttctggccactgtaggagtgagccccgaccaccagggcaagggcttgggcagcgccgtcgtgttgcccggcgtagaggccgccgaacgcgccggtgtgcccgcctttctggagacaagcgctccgcgtaaccttccattctacgagcgcctgggcttcaccgtgaccgccgatgtcgaggtgcccgagggaccccggacctggtgcatgactcgcaagcctggcgcctaatgatctaga(SEQ ID NO92);和bpuro-2GCTAGCGCCACCATGACCGAGTACAAGCCTACCGTGCGCCTGGCCACTCGCGATGATGTGCCCCGCGCCGTCCGCACTCTGGCCGCCGCTTTCGCCGACTACCCCGCTACCCGGCACACCGTGGACCCCGACCGGCACATCGAGCGTGTGACAGAGTTGCAGGAGCTGTTCCTGACCCGCGTCGGGCTGGACATCGGCAAGGTGTGGGTAGCCGACGACGGCGCGGCCGTGGCCGTGTGGACTACCCCCGAGAGCGTTGAGGCCGGCGCCGTGTTCGCCGAGATCGGCCCCCGAATGGCCGAGCTGAGCGGCAGCCGCCTGGCCGCCCAGCAGCAAATGGAGGGCCTGCTTGCCCCCCATCGTCCCAAGGAGCCTGCCTGGTTTCTGGCCACTGTAGGAGTGAGCCCCGACCACCAGGGCAAGGGCTTGGGCAGCGCCGTCGTGTTGCCCGGCGTAGAGGCCGCCGAACGCGCCGGTGTGCCCGCCTTTCTCGAACAAGCGCACCAAGAAACCTTCCATTCTACGAGCGCCTGGGCTTCACCGTGACCGCCGATGTCGAGGTGCCCGAGGGACCTAGGACCTGGTGTATGACACGAAAACCTGGCGCCTAATGATCTAGA(SEQ ID NO93)
起始puro序列(來自psi STRIKE)具有SEQ ID NO15(atgaccgagt acaagcccac ggtgcgcctc gccacccgcg acgacgtccc ccgggccgtacgcaccctcg ccgccgcgtt cgccgactac cccgccacgc gccacaccgt cgacccggaccgccacatcg agcgggtcac cgagctgcaa gaactcttcc tcacgcgcgt cgggctcgacatcggcaagg tgtgggtcgc ggacgacggc gccgcggtgg cggtctggac cacgccggagagcgtcgaag cgggggcggt gttcgccgag atcggcccgc gcgtggccga gttgagcggttcccggctgg ccgcgcagca acagatggaa ggcctcctgg cgccgcaccg gcccaaggagcccgcgtggt tcctggccac cgtcggcgtg tcgcccgacc accagggcaa gggtctgggcagcgccgtcg tgctccccgg agtggaggcg gccgagcgcg ccggggtgcc cgccttcctggagacctccg cgccccgcaa cctccccttc tacgagcggc tcggcttcac cgtcaccgccgacgtcgagg tgcccgaagg accgcgcacc tggtgcatga cccgcaagcc cggtgcc).
其它合成hyg和neo基因包括hneo-1CCACTCAGTGGCCACCATGATCGAGCAGGACGGCCTcCAtGCtGGCAGtCCCGCaGCCTGGGTcGAGCGCtTGTTCGGgTACGACTGGGCCCAGCAGACCATCGGaTGtAGCGAtGCCGCaGTGTTCCGCCTGAGCGCtCAaGGCCGgCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGGCGCCCTGAACGAGCTtCAaGACGAGGCtGCCCGCCTGAGCTGGCTGGCCACCACCGGtGTaCCCTGCGCCGCtGTGtTGGAtGTtGTGACCGAaGCCGGCCGCGACTGGCTGCTGCTGGGCGAGGTGCCtGGCCAGGACCTGCTGAGCAGCCACCTGGCCCCCGCtGAGAAGGTGAGCATCATGGCCGACGCCATGCGgCGCCTGCACACCCTGGACCCCGCtACaTGCCCCTTCGACCACCAGGCtAAGCACCGCATCGAGCGgGCtCGgACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGACGAGGAGCACCAGGGCCTGGCCCCCGCtGAaCTGTTCGCCCGCCTGAAaGCCCGCATGCCgGACGGtGAGGACCTGGTtGTGACaCACGGCGACGCCTGCCTcCCtAACATCATGGTcGAGAACGGgCGCTTCtcCGGCTTCATCGACTGCGGCCGCCTGGGCGTtGCCGACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCCGAGGAGCTGGGCGGCGAGTGGGCCGACCGCTTCCTGGTctTGTACGGCATCGCaGCtCCCGACAGCCAGCGCATCGCCTTCTACCGCCTGCTGGACGAGTTCTTCTAgTAACCAGgCTCT
GG(SEQ ID NO38);hneo-2CCACTCcGTGGCCACCATGATCGAaCAaGACGGCCTcCAtGCtGGCAGtCCCGCaGCtTGGGTcGAaCGCtTGTTCGGgTACGACTGGGCCCAGCAGACCATCGGaTGtAGCGAtGCgGCCGTGTTCCGtCTaAGCGCtCAaGGCCGgCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTtCAaGACGAGGCtGCCCGCCTGAGCTGGCTGGCCACCACCGGtGTaCCCTGCGCCGCtGTGtTGGAtGTtGTGACCGAaGCCGGCCGgGACTGGCTGCTGCTGGGCGAGGTcCCtGGCCAGGAtCTGCTGAGCAGCCACCTtGCCCCCGCtGAGAAGGTttcCATCATGGCCGAtGCaATGCGgCGCCTGCACACCCTGGACCCCGCtACaTGCCCCTTCGACCACCAGGCtAAGCAtCGgATCGAGCGtGCtCGgACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGACGAGGAGCAtCAGGGCCTGGCCCCCGCtGAaCTGTTCGCCCGCCTGAAaGCCCGCATGCCgGACGGtGAGGACCTGGTtGTGACaCAtGGaGAtGCCTGCCTcCCtAACATCATGGTcGAGAAtGGcCGCTTCtcCGGCTTCATCGACTGCGGtCGCCTaGGaGTtGCCGACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCtGAGGAGCTtGGCGGCGAGTGGGCCGACCGCTTCtTaGTctTGTACGGCATCGCaGCtCCCGACAGCCAGCGCATCGCCTTCTACCGCCTGCTcGACGAGTTCTTtTAATGACCAGgCTCTGG(SEQ ID NO39);hhyg-1CCACTCAGTGGCCACCATGAAGAAGCCCGAGCTGACCGCTACCAGCGTTGAGAAGTTCCTGATCGAGAAGTTCGACAGCGTGAGCGACCTGATGCAGTTAAGCGAGGGCGAGGAAAGCCGCGCCTTCAGCTTCGATGTCGGCGGACGCGGCTATGTACTGCGGGTGAATAGCTGCGCTGATGGCTTCTACAAAGACCGCTACGTGTACCGCCACTTCGCCAGCGCTGCACTGCCCATCCCCGAGGTGCTGGACATCGGCGAGTTCAGCGAGAGCCTGACATACTGCATCAGCCGCCGCGCTCAAGGCGTGACTCTCCAAGACCTGCCCGAGACAGAGCTGCCCGCTGTGCTACAGCCTGTCGCCGAGGCTATGGACGCTATTGCCGCCGCCGACCTGAGCCAGACCAGCGGCTTCGGCCCATTCGGGCCCCAAGGCATCGGCCAGTACACCACCTGGCGCGACTTCATCTGCGCCATTGCTGATCCCCATGTCTACCACTGGCAGACCGTGATGGACGACACCGTGAGCGCCAGCGTAGCTCAAGCCCTGGACGAGCTGATGCT
GTGGGCCGAGGACTGCCCCGAGGTGCGCCATCTCGTCCATGCCGACTTCGGCAGCAACAACGTCCTGACCGACAACGGCCGCATCACCGCCGTAATCGACTGGAGCGAGGCCATGTTCGGGGACAGTCAGTACGAGGTGGCCAACATCTTCTTCTGGCGGCCCTGGCTGGCCTGCATGGAGCAGCAAACCCGCTACTTCGAGCGCCGCCATCCCGAGCTGGCCGGCAGCCCCCGTCTGCGAGCCTACATGCTGCGCATCGGCCTGGATCAGCTCTACCAGAGCCTCGTGGACGGCAACTTCGACGATGCTGCCTGGGCTCAAGGCCGCTGCGATGCCATCGTCCGCAGCGGGGCCGGCACCGTCGGTCGCACACAAATCGCTCGCCGGAGCGCCGCCGTATGGACCGACGGCTGCGTCGAGGTGCTGGCCGACAGCGGCAACCGCCGGCCCAGTACACGACCGCGCGCTAAGGAGTAGTAACCAGCTCTTGG(SEQ ID NO30);hhyg-2CCACTCCGTGGCCACCATGAAGAAGCCCGAGCTGACCGCTACCAGCGTTGAAAAATTTCTCATCGAGAAGTTCGACAGTGTGAGCGACCTGATGCAGTTGTCGGAGGGCGAAGAGAGCCGAGCCTTCAGCTTCGATGTCGGCGGACGCGGCTATGTACTGCGGGTGAATAGCTGCGCTGATGGCTTCTACAAAGACCGCTACGTGTACCGCCACTTCGCCAGCGCTGCACTACCCATCCCCGAAGTGTTGGACATCGGCGAGTTCAGCGAGAGCCTGACATACTGCATCAGTAGACGCGCCCAAGGCGTTACTCTCCAAGACCTCCCCGAAACAGAGCTGCCTGCTGTGTTACAGCCTGTCGCCGAAGCTATGGATGCTATTGCCGCCGCCGACCTCAGTCAAACCAGCGGCTTCGGCCCATTCGGGCCCCAAGGCATCGGCCAGTACACAACCTGGCGGGATTTCATTTGCGCCATTGCTGATCCCCATGTCTACCACTGGCAGACCGTGATGGACGACACCGTGTCCGCCAGCGTAGCTCAAGCCCTGGACGAACTGATGCTGTGGGCCGAAGACTGTCCCGAGGTGCGCCACCTCGTCCATGCCGACTTCGGCAGCAACAACGTCCTGACCGACAACGGCCGCATCACCGCCGTAATCGACTGGAGCGAGGCTATGTTCGGGGACAGTCAGTACGAGGTGGCCAACATCTTCTTCTGGCGGCCCTGGCTGGCTTGCATGGAGCAGCAGACTCGCTACTTCGAGCGCCGGCATCCCGAGCTGGCCGGCAGCCCTCGTCTGCGAGCCTACATGCTGCGCATCGGCCTGGATCAGCTCTACCAGAGCCTCGTGGACGGCAACTTCGACGATGCTGCCTGGGCTCAAGGCCGCTGCGATGCCATCGTCCGCAGCGGGGCCGGCACCGTCGGTCGCACACAA
ATCGCTCGCCGGAGCGCCGCCGTATGGACCGACGGCTGCGTCGAGGTGCTGGCCGACAGCGGCAACCGCCGGCCCAGTACACGACCGCGCGCTAAGGAGTAGTAACCAGCTCTTGG(SEQ ID NO42);hHygro(SacI位點(diǎn)在ORF中靠近5′端,在3′端符合讀框地插入的接頭編碼12個氨基酸,SnaBI位點(diǎn)添加到ORF的3′端)aagcttgctagcgccaccatgaagaagcccgagctcaccgctaccagcgttgaaaaatttctcatcgagaagttcgacagtgtgagcgacctgatgcagttgtcggagggcgaagagagccgagccttcagcttcgatgtcggcggacgcggctatgtactgcgggtgaatagctgcgctgatggcttctacaaagaccgctacgtgtaccgccacttcgccagcgctgcactacccatccccgaagtgttggacatcggcgagttcagcgagagcctgacatactgcatcagtagacgcgcccaaggcgttactctccaagacctccccgaaacagagctgcctgctgtgttacagcctgtcgccgaagctatggatgctattgccgccgccgacctcagtcaaaccagcggcttcggcccattcgggccccaaggcatcggccagtacacaacctggcgggatttcatttgcgccattgctgatccccatgtctaccactggcagaccgtgatggacgacaccgtgtccgccagcgtagctcaagccctggacgaactgatgctgtgggccgaagactgtcccgaggtgcgccacctcgtccatgccgacttcggcagcaacaacgtcctgaccgacaacggccgcatcaccgccgtaatcgactggtccgaagctatgttcggggacagtcagtacgaggtggccaacatcttcttctggcggccctggctggcttgcatggagcagcagactcgctacttcgagcgccggcatcccgagctggccggcagccctcgtctgcgagcctacatgctgcgcatcggcctggatcagctctaccagagcctcgtggacggcaacttcgacgatgctgcctgggctcaaggccgctgcgatgccatcgtccgcagcggggccggcaccgtctgtcgcacacaaatcgctcgccggagcgccgccgtatggaccgacggctgcgtcgaggtgctggccgacagcggcaaccgccggcccagtacacgaccgcgcgctaaggagggtggcggagggagcggtggcggaggttcctacgtatagtctagactcgag(SEQ ID NO70);hhyg-4atgaagaagcccgagctcaccgctaccagcgttgaaaaatttctcatcgagaagttcgacagtgtgagcgacctgatgcagttgtcggagggcgaagagagccgagccttcagcttcgatgtcggcggacgcggctatgtactgcgggtgaatagctgcgctgatggcttctacaaagaccgctacgtgtaccgccacttcgccagcgctgcactacccatccccgaagtgttggacatcggcgagttcagcgagagcctgacatactgcatcagtagacgcgcccaaggcgttactctccaagacctccccgaaacagagctgcctgctgtgttacagcctgtcgccgaagctatggatgctattgccgccgccgacctcagtcaaaccagcggcttcggcccattcgggccccaaggcatcggccagtacacaacctggcgggatttcatttgcgccattgctgatccccatgtctaccactggcagaccgtgatggacgacaccgtgtccgccagcgtagctcaagccctggacgaactgatgctgtgggccgaagactgtcccgaggtgcgccacctcgtccatgccgacttcggcagcaacaacgtcctgaccgacaacggccgcatcaccgccgtaatcgactggtccgaagctatgttcggggacagtcagtacgaggtggccaacatcttcttctggcggccctggctggcttgcatggagcagcagactcgctacttcgagcgccggcatcccga
gctggccggcagccctcgtctgcgagcctacatgctgcgcatcggcctggatcagctctaccagagcctcgtggacggcaacttcgacgatgctgcctgggctcaaggccgctgcgatgccatcgtccgcagcggggccggcaccgtcggtcgcacacaaatcgctcgccggagcgcagccgtatggaccgacggctgcgtcgaggtgctggccgacagcggcaaccgccggcccagtacacgaccgcgcgctaaggaaggcggtggaggtagtggtggcggaggtagctacgta(SEQ ID NO71);hneo-4GCTAGCGCCACCATGATCGAACAAGACGGCCTCCATGCTGGCAGTCCCGCAGCTTGGGTCGAACGCTTGTTCGGGTACGACTGGGCCCAGCAGACCATCGGATGTAGCGATGCGGCCGTGTTCCGTCTAAGCGCTCAAGGCCGGCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTTCAAGACGAGGCTGCCCGCCTGAGCTGGCTGGCCACCACCGGTGTACCCTGCGCCGCTGTGTTGGATGTTGTGACCGAAGCCGGCCGGGACTGGCTGCTGCTGGGCGAGGTCCCTGGCCAGGATCTGCTGAGCAGCCACCTTGCCCCCGCTGAGAAGGTTTCCATCATGGCCGATGCAATGCGGCGCCTGCACACCCTGGACCCCGCTACATGCCCCTTCGACCACCAGGCTAAGCATCGGATCGAGCGTGCTCGGACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGACGAGGAGCATCAGGGCCTGGCCCCCGCTGAACTGTTCGCCCGCCTGAAAGCCCGCATGCCGGACGGTGAGGACCTGGTTGTGACACATGGTGATGCCTGCCTCCCTAACATCATGGTCGAGAATGGCCGCTTCTCCGGCTTCATCGACTGCGGTCGCCTAGGAGTTGCCGACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCTGAGGAGCTTGGCGGCGAGTGGGCCGACCGCTTCTTAGTCTTGTACGGCATCGCAGCTCCCGACAGCCAGCGCATCGCCTTCTACCGCCTGCTCGACGAGTTCTTTTAATCTAGA(SEQ ID NO72);和hneo-5GCTAGCGCCACCATGATCGAACAAGACGGCCTCCATGCTGGCAGTCCCGCAGCTTGGGTCGAACGCTTGTTCGGGTACGACTGGGCCCAGCAGACCATCGGATGTAGCGATGCGGCCGTGTTCCGTCTAAGCGCTCAAGGCCGGCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTTCAAGACGAGGCTGCCCGCCTGAGCTGGCTGGCCACCACCGGCG
TACCCTGCGCCGCTGTGTTGGATGTTGTGACCGAAGCCGGCCGGGACTGGCTGCTGCTGGGCGAGGTCCCTGGCCAGGATCTGCTGAGCAGCCACCTTGCCCCCGCTGAGAAGGTTTCTATCATGGCCGATGCAATGCGGCGCCTGCACACCCTGGACCCCGCTACCTGCCCCTTCGACCACCAGGCTAAGCATCGGATCGAGCGTGCTCGGACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGACGAGGAGCATCAGGGCCTGGCCCCCGCTGAACTGTTCGCCCGACTGAAAGCCCGCATGCCGGACGGTGAGGACCTGGTTGTCACACACGGAGATGCCTGCCTCCCTAACATCATGGTCGAGAATGGCCGCTTCTCCGGCTTCATCGACTGCGGTCGCCTAGGAGTTGCCGACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCTGAGGAGCTTGGCGGCGAGTGGGCCGACCGCTTCTTAGTCTTGTACGGCATCGCAGCTCCCGACAGCCAGCGCATCGCCTTCTACCGCTTGCTCGACGAGTTCTTTTAATGATCTAGA(SEQ ID NO73).
本發(fā)明的合成核苷酸序列可用于融合構(gòu)建體。例如,選擇性多肽的合成序列可以與野生型序列或編碼不同多肽的其它合成序列融合。例如,在合成腎海鰓螢光素酶-neo序列的以下實(shí)例中的neo序列可以被本發(fā)明的合成neo序列取代atggcttccaaggtgtacgaccccgagcaacgcaaacgcatgatcactgggcctcagtggtgggctcgctgcaagcaaatgaacgtgctggactccttcatcaactactatgattccgagaagcacgccgagaacgccgtgatttttctgcatggtaacgctgcctccagctacctgtggaggcacgtcgtgcctcacatcgagcccgtggctagatgcatcatccctgatctgatcggaatgggtaagtccggcaagagcgggaatggctcatatcgcctcctggatcactacaagtacctcaccgcttggttcgagctgctgaaccttccaaagaaaatcatctttgtgggccacgactggggggcttgtctggcctttcactactcctacgagcaccaagacaagatcaaggccatcgtccatgctgagagtgtcgtggacgtgatcgagtcctgggacgagtggcctgacatcgaggaggatatcgccctgatcaagagcgaagagggcgagaaaatgtgcttgagaataacttcttcgtcgagaccatgctcccaagcaagatcatgcggaaactggagcctgaggagttcgctgcctacctggagccattcaaggagaagggcgaggttagacggcctaccctctcctggcctcgcgagatccctctcgttaagggaggcaagcccgacgtcgtccagattgtccgcaactacaacgcctaccttcgggccagcgacgatctgcctaagatgttcatcgagtccgaccctgggttcttttccaacgctattgtcgagggagctaagaagttccctaacaccgagttcgtgaaggtgaagggcctccacttcagccaggaggacgctccagatgaaatgggtaagtacatcaagagcttcgtggagcgcgtgctgaagaacgagcagaccggtggtgggagcggaggtggcggatcaggtggcggaggctccggagggattgaacaagatg
gattgcacgcaggttctccggccgcttgggtggagaggctattcggctatgactgggcacaacagacaatcggctgctctgatgccgccgtgttccggctgtcagcgcaggggcgcccggttctttttgtcaagaccgacctgtccggtgccctgaatgaactgcaggacgaggcagcgcggctatcgtggctggccacgacgggcgttccttgcgcagctgtgctcgacgttgtcactgaagcgggaagggactggctgctattgggcgaagtgccggggcaggatctcctgtcatctcaccttgctcctgccgagaaagtatccatcatggctgatgcaatgcggcggctgcatacgcttgatccggctacctgcccattcgaccaccaagcgaaacatcgcatcgagcgagcacgtactcggatggaagccggtcttgtcgatcaggatgatctggacgaagagcatcaggggctcgcgccagccgaactgttcgccaggctcaaggcgcgcatgcccgacggcgaggatctcgtcgtgacccatggcgatgcctgcttgccgaatatcatggtggaaaatggccgcttttctggattcatcgactgtggccggctgggtgtggcggaccgctatcaggacatagcgttggctacccgtgatattgctgaagagcttggcggcgaatgggctgaccgcttcctcgtgctttacggtatcgccgctcccgattcgcagcgcatcgccttctatcgccttcttgacgagttcttctaa(hrl-neo融合;SEQ ID NO12)和atgattgaacaagatggattgcacgcaggttctccggccgcttgggtggagaggctattcggctatgactgggcacaacagacaatcggctgctctgatgccgccgtgttccggctgtcagcgcaggggcgcccggttctttttgtcaagaccgacctgtccggtgccctgaatgaactgcaggacgaggcagcgcggctatcgtggctggccacgacgggcgttccttgcgcagctgtgctcgacgttgtcactgaagcgggaagggactggctgctattgggcgaagtgccggggcaggatctcctgtcatctcaccttgctcctgccgagaaagtatccatcatggctgatgcaatgcggcggctgcatacgcttgatccggctacctgcccattcgaccaccaagcgaaacatcgcatcgagcgagcacgtactcggatggaagccggtcttgtcgatcaggatgatctggacgaagagcatcaggggctcgcgccagccgaactgttcgccaggctcaaggcgcgcatgcccgacggcgaggatctcgtcgtgacccatggcgatgcctgcttgccgaatatcatggtggaaaatggccgcttttctggattcatcgactgtggccggctgggtgtggcggaccgctatcaggacatagcgttggctacccgtgatattgctgaagagcttggcggcgaatgggctgaccgcttcctcgtgctttacggtatcgccgctcccgattcgcagcgcatcgccttctatcgccttcttgacgagttcttcaccggtggtgggagcggaggtggcggatcaggtggcggaggctccggaggggcttccaaggtgtacgaccccgagcaacgcaaacgcatgatcactgggcctcagtggtgggctcgctgcaagcaaatgaacgtgctggactccttcatcaactactatgattccgagaagcacgccgagaacgccgtgatttttctgcatggtaacgctgcctccagctacctgtggaggcacgtcgtgcctcacatcgagcccgtggctagatgcatcatccctgatctgatcggaatgggtaagtccggcaagagcgggaatggctcatatcgcctcctggatcactacaagtacctcaccgcttggttcgagctgctgaaccttccaaagaaaatcatctttgtgggccacgactggggggcttgtctggcctttcactactcctacgagcaccaagacaagatcaaggccatcgtccatgctgagagtgtcgtggacgtgatcgagtcctgggacgagtggcctgacatcgaggaggatatcgccctgatcaagagcgaagagggcgagaaaatggtgcttgagaataacttcttcgtcgagaccatgctcccaagcaagatcatgcggaaactggagcctgaggagttcgctgcctacctggagccattcaaggagaagggcgaggttagacggcctaccctctcctggcctcgcgagatccctctcgttaagggaggcaagcccgacgtcgtccagattgtccgcaactacaacgcctaccttcgggccagcgacgatctgcctaagatgttcatcgagtc
cgaccctgggttcttttccaacgctattgtcgagggagctaagaagttccctaacaccgagttcgtgaaggtgaagggcctccacttcagccaggaggacgctccagatgaaatgggtaagtacatcaagagcttcgtggagcgcgtgctgaagaacgagcagtaa(neo-hrl·融合;SEQ ID NO13).
實(shí)施例5轉(zhuǎn)錄因子結(jié)合位點(diǎn)用于鑒定所選合成序列中的位點(diǎn)TF結(jié)合位點(diǎn)文庫TF結(jié)合位點(diǎn)文庫(“矩陣家族文庫(Matrix Family Library)”)是GEMS Launcher軟件包的組成部分。表16顯示用于設(shè)計特定序列的矩陣家族文庫的版本,表17顯示矩陣家族文庫24版中所有脊椎動物TF結(jié)合位點(diǎn)(“矩陣”)列表,以及在更新至4.1版中脊椎動物矩陣中的所有變化(“GENOMATIX MATRIX FAMILY LIBRARYINFORMATION 2.4版-4.1版”部分)。(Genomatix擁有對所有矩陣家族文庫信息的版權(quán))。
表16
*NotI-NcoI片段,在pGL4中,包括amp基因(pGL4B-NN3)**SpeI-NcoI-Ver2(取代pGL4B-NN3中的SpeI-NcoI片段)
表17GENOMATEX矩陣家族文庫信息2.4-4.1版A.矩陣家族文庫2.4版矩陣家族文庫2.4版(2002年5月)包括193個家族的412個權(quán)重矩陣(脊椎動物106個家族的275個矩陣)脊椎動物
B.家族文庫2.4版到3.0版的變化矩陣家族文庫3.0版(2002年11月)含有216個家族的452權(quán)重矩陣(脊椎動物128個家族的314矩陣)新權(quán)重矩陣—脊椎動物
權(quán)重矩陣重命名·V$MEIS1.01重命名為V$MEIS1_HOXA9.01權(quán)重矩陣移至其它家族·V$BEL1.01從V$AP1F移至V$BEL1·V$NF1.01從V$MYOF移至V$NF1·V$ER.01從V$RORA移至V$EREF·V$T3R.01從V$T3RH移至V$RORA·V$CLTR_CAAT.01從V$PCAT移至V$RCAT
·V$FAST1.01從V$SMAD移至V$FAST權(quán)重矩陣除去·V$MUSCLE_INI.03C.家族文庫3.0版到3.1版的變化矩陣家族文庫3.1版含有216個家族的456權(quán)重矩陣(脊椎動物128個家族的318矩陣)新權(quán)重矩陣—脊椎動物
權(quán)重矩陣修飾·V$AML1.01·V$AML3.01權(quán)重矩陣移至其它家族·V$ARNT.01從V$EBOX移至V$HIFF(ARNT是HIF1 B的同義詞)權(quán)重矩陣除去·V$SEF1.01·V$OCT1.033.1.1版(2003年4月)矩陣V$IRF3.01和V$IRF7.01經(jīng)校正。
3.1.2版(2003年6月)矩陣V$GfI1B.01經(jīng)校正。
D.家族文庫3.1版到3.3版的變化矩陣家族文庫3.3版(2003年8月)含有233個家族的485權(quán)重矩陣(脊椎動物130個家族的326矩陣)新權(quán)重矩陣—脊椎動物
權(quán)重矩陣修飾·V$GFI1.01E.家族文庫3.3版到4.0版的變化矩陣家族文庫4.0版(2003年11月)含有253個家族的535權(quán)重矩陣
(脊椎動物136個家族的339個矩陣)新權(quán)重矩陣—脊椎動物
權(quán)重矩陣修飾·V$GRE.01·V$NFY.03權(quán)重矩陣移至其它家族·V$BACH1.01從V$AP1F移至V$AP1R·V$NFE2.01從V$AP1F移至V$AP1R
·V$TCF11MAFG.01從V$AP1F移至V$AP1R·V$VMAF.01從V$AP1F移至V$AP1RE.家族文庫4.0版到4.1版的變化矩陣家族文庫4.1版(2004年2月)含有262個家族的564權(quán)重矩陣(脊椎動物138個家族的356個矩陣)新權(quán)重矩陣—脊椎動物
權(quán)重矩陣修飾·V$CMYB.01·V$PTX1.01版權(quán)_Genomatix Software GmbH 1998-2004-版權(quán)所有實(shí)施例6特定可選擇基因設(shè)計概述TF結(jié)合位點(diǎn)和檢索參數(shù)各TF結(jié)合位點(diǎn)(“矩陣”)屬于矩陣家族,其中功能相似的矩陣合在一起,用MatInspector professional(檢索程序)除去冗余匹配。檢索局限于脊椎動物TF結(jié)合位點(diǎn)。通過矩陣家族進(jìn)行檢索,即結(jié)果僅表明各位點(diǎn)的家族最佳匹配。MatInspector缺省參數(shù)用作核心和矩陣相似性取值(核心相似性=0.75,矩陣相似性=優(yōu)化)。
表18基因命名A.合成潮霉素基因
B.合成新霉素基因
C.合成嘌呤霉素基因
注意以上序列名稱僅指ORF(除了包含側(cè)翼序列的Hhygro之外)。序列名稱中加上“F”表示存在上游和下游側(cè)翼序列。外加的字母(例如“B”)表示僅對側(cè)翼區(qū)進(jìn)行改變。
表19合成潮霉素基因的序列hhyg中的TFBS從hhyg中除去TFBS之前(94匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hhyg3中的TFBS從hhyg2中除去TFBS之后(3匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hHygro中的TFBS從hHygro中除去TFBS之前(5匹配,不包括接頭)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hhyg4中的TFBS從hHygro中除去TFBS之后(4匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出表20合成新霉素基因的序列hneo中的TFBS從hneo中除去TFBS之前(69匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hneo3中的TFBS從hneo2中除去TFBS之后=從hneo3中除去TFBS之前(0匹配)hneo4中的TFBS從hneo3中除去TFBS之后=從hneo4中除去TFBS之前(7匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hneo5中的TFBS從hneo4中除去TFBS之后(0匹配)
表21合成嘌呤霉素基因的序列hpuro中的TFBS匹配從hpuro中除去TFBS之前(68匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hpuro1中的TFBS匹配從hpuro中除去TFBS之后=從hpuro1除去TFBS之前(4匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hpuro2中的TFBS匹配從hpuro1中除去TFBS之后(2匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出實(shí)施例7合成螢火蟲螢光素酶基因設(shè)計概述TF結(jié)合位點(diǎn)和檢索參數(shù)TF結(jié)合位點(diǎn)來自TF結(jié)合位點(diǎn)文庫(“矩陣家族文庫”),該文庫是GEMS Launcher軟件包的組成部分。各TF結(jié)合位點(diǎn)(“矩陣”)屬于矩陣家族,其中功能相似的矩陣合在一起,用MatInspectorprofessional(檢索程序)除去冗余匹配。檢索局限于脊椎動物TF結(jié)合位點(diǎn)。通過矩陣家族進(jìn)行檢索,即結(jié)果僅表明各位點(diǎn)的家族最佳匹配。MatInspector缺省參數(shù)用作核心和矩陣相似性取值(核心相似性=0.75,矩陣相似性=優(yōu)化)。
表22Luc基因命名合成luc基因(形式A和B)
*序列名稱是指可讀框,RE=限制酶識別序列。
表23合成Luc基因的序列(形式A)hluc+ver2A1中的TFBS從hluc+ver2A1中除去TFBS之前(110匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hluc+ver2A3中的TFBS從hluc+ver2A2中除去TFBS之后=從hluc+ver2A3中除去TFBS之前(8匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hluc+ver2A6中的TFBS從Hluc+ver2A5中除去TFBS之后(2匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hluc+ver2A6中的TFBS從hluc+ver2A6中除去TFBS之前(4匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hluc+ver2A7中的TFBS
從hluc+ver2A6中除去TFBS之后=從hluc+ver2A7中除去TFBS之前(1匹配)
hluc+ver2A8中的TFBS從hluc+ver2A7中除去TFBS之后(1匹配)
表24合成Luc基因的序列(形式B)hluc+ver2B1中的TFBS從hluc+ver2B1中除去TFBS之前(187匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hluc+ver2B3中的TFBS從hluc+ver2B2中除去TFBS之后=從hluc+ver2B3中除去TFBS之前(35匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hluc+ver2B6中的TFBS從hluc+ver2B5中除去TFBS之后(2匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hluc+ver2B6中的TFBS從hluc+ver2B6中除去TFBS之前(6匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hluc+ver2B7中的TFBS從hluc+ver2B6中除去TFBS之后=從hluc+ver2B7中除去TFBS之前(2匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出hluc+ver2B8中的TFBS從hluc+ver2B7中除去TFBS之后=從hluc+ver2B8中除去TFBS之前(1匹配)
hluc+ver2B9中的TFBS從hluc+ver2B8中除去TFBS之后=從hluc+ver2B9中除去TFBS之前(1匹配)
hluc+ver2B10中的TFBS從hluc+Ver2B9中除去TFBS之后(1匹配)
實(shí)施例8pGL4序列設(shè)計概述圖2表明pGLA載體的設(shè)計方案。pGL3的部分載體骨架包含bla基因和bla與多克隆區(qū)之間的序列,但是不含第二可讀框,對其進(jìn)行修飾,得到pGL4。pGL4包含位于NotI和SpeI位點(diǎn)之間的氨芐青霉素抗性基因(其序列經(jīng)過修飾除去調(diào)節(jié)序列,但是沒有為哺乳動物表達(dá)而優(yōu)化密碼子(bla-1-bla-5))和SpeI-NcoI片段(其包含多克隆區(qū)和翻譯陷阱(translation trap))。翻譯陷阱包含約60個核苷酸,在各讀框中具有至少兩個終止密碼子。來自親代載體pGL4-基礎(chǔ)-5F2G-2的SpeI-NcoI片段經(jīng)過修飾減少了不需要的調(diào)節(jié)序列(MCS-1至MCS-4;SEQ ID NO76-79)。所得序列之一即MCS-4與修飾的氨芐青霉素抗性基因bla-5(SEQ ID NO84)結(jié)合,產(chǎn)生pGL4B-4NN(SEQ ID NO95)。pGL4B-4NN被進(jìn)一步修飾(pGL4-NN1-3;SEQ ID NO96-98)。為了確定SpeI-NcoI片段中附加polyA序列是否會進(jìn)一步減少從載體骨架中進(jìn)行表達(dá),將不同polyA序列插入其中。例如,pGL4NN-Blue Heron包括在SpeI-NcoI片段中的c-mos polyA序列。然而,除去polyA序列中的調(diào)節(jié)序列可改變二級結(jié)構(gòu),因而改變這些序列的功能。
在一個載體中,修飾來自pGL3的SpeI-NcoI片段(SpeI-NcoI開始的ver 2;SEQ ID NO48),除去一個轉(zhuǎn)錄因子結(jié)合位點(diǎn)和一個限制酶識別位點(diǎn),并改變多克隆區(qū),得到SpeI-NcoI ver2(SEQ ID NO49)。
TF結(jié)合位點(diǎn)和檢索參數(shù)各TF結(jié)合位點(diǎn)(“矩陣”)屬于矩陣家族,其中功能相似的矩陣合在一起,用MatInspector professional(檢索程序)除去冗余匹配。檢索局限于脊椎動物TF結(jié)合位點(diǎn)。通過矩陣家族進(jìn)行檢索,即結(jié)果僅表明各位點(diǎn)的家族最佳匹配。MatInspector缺省參數(shù)用作核心和矩陣相似性取值(核心相似性=0.75,矩陣相似性=優(yōu)化),除了序列MCS-1(核心相似性=1.00,矩陣相似性=優(yōu)化)之外。
表25設(shè)計序列的描述pGL4序列
(*)Bla密碼子使用沒有為在哺乳動物細(xì)胞中表達(dá)而優(yōu)化。當(dāng)引入變化以除去不需要的序列元件時,避免低使用大腸桿菌密碼子。
表26pGL4中合成SeI-NcoI片段的序列MCS-1中的TFBS從MCS-1中除去TFBS之前(14匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出
MCS-2中的TFBS從MCS-1中除去TFBS之后=從MCS-2中除去TFBS之前(12匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出MCS-3中的TFBS從MCS-2中除去TFBS之后=從MCS-4中除去TFBS之前(0匹配)
MCS-4中的TFBS從MCS-3中除去TFBS之后(0匹配)表27pGL4中合成NotI-SpeI片段的序列bla-1中的TFBS從bla-1中除去TFBS之前(94匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出bla-2中的TFBS從bla-1中除去TFBS之后=從bla-2中除去TFBS之前(2匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出bla-3中的TFBS從bla-2中除去TFBS之后=從bla-3中除去TFBS之前(16匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出bla-4中的TFBS從bla-3中除去TFBS之后=從bla-4中除去TFBS之前(14匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出bla-5中的TFBS從bla-4中除去TFBS之后(5匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出表28pGL4中合成NotI-NcoI片段的序列pGL4B-4NN中的TFBS從pGL4B-4NN中除去TFBS之前=(11匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出pGL4B-4NN1中的TFBS從pGL4B-4NN中除去TFBS之后=從pGL4B-4NN1中除去TFBS之前(7匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出pGL4B-4NN2中的TFBS從pGL4B-4NN1中除去TFBS之后=從pGL4B-4NN2中除去TFBS之前(4匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出pGL4B-4NN3中的TFBS從pGL4B-4NN2中除去TFBS之后(3匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出表29pGL4中合成SpeI-NcoI部分的序列SpeI-NcoI-Ver2-start中的TFBS從SpeI-NcoI-Ver2-start中除去TFBS之前(34匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出SpeI-NcoI-Ver2中的TFBS從SpeI-NcoI-Ver2-start中除去TFBS之后(28匹配)
**匹配按照相應(yīng)序列出現(xiàn)的順序列出采用如上所述的數(shù)據(jù)庫、檢索程序等,將載體骨架(包括氨芐青霉素抗性基因)中存在的共有序列轉(zhuǎn)錄因子結(jié)合位點(diǎn)的數(shù)目從pGL3中的224個減少到pGL4中的40個,啟動子組件的數(shù)目從pGL3中的10個減少到pGL4中的4個。pGL4相對于pGL3中的其它修飾包括除去f1復(fù)制起點(diǎn)并重新設(shè)計多克隆區(qū)。
MCS-1至MCS-4具有下列序列(SEQ ID NO76-79)MCS-1ACTAGTCGTCTCTCTTGAGAGACCGCGATCGCCACCATGATAAGTAAGTAATATTAAATAAGTAAGGCCTGAGTGGCCCTCGAGCCAGCCTTGAGTTGGTTGAGTCCAAGTCACGTCTGGAGATCTGGTACCTACGCGTGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGATCTAAGTAAGCTTGGCATTCCGGTACTGTTGGTAAAGCCACCATGGMCS-2ACTAGTACGTCTCTCTTGAGAGACCGCGATCGCCACCATGATAAGTAAGTAATATTAAATAAGTAAGGCCTGAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGAGTCCAAGTCACGTCTGGAGATCTGGTACCTTACGCGTAGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGATCTAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGGMCS-3ACTAGTACGTCTCTCTTGAGAGACCGCGATCGCATGCCTAGGTAGGTAGTATTAGAGCATAGGTAGAGGCCTAAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGAGTCCAAGTCACGTCTGGAGATCTGGTACCTTACGCGTATGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGATCTAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGGMCS-4ACTAGTACGTCTCTCTTGAGAGACCGCGATCGCCACCATGTCTAGGTAGGTAGTAAACGAAAGGGCTTAAAGGCCTAAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGAGTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGATCTAAGCTTGGCAATATCCGGTACTGTTGGTAAAGCCACCATGGbla具有下列序列
ATGAGTATTCAACATTTCCGTGTCGCCCTTATTCCCTTTTTTGCGGCATTTTGCCTTCCTGTTTTTGCTCACCCAGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAGTTGGGTGCACGAGTGGGTTACATCGAACTGGATCTCAACAGCGGTAAGATCCTTGAGAGTTTTCGCCCCGAAGAACGTTTTCCAATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTATTATCCCGTATTGACGCCGGGCAAGAGCAACTCGGTCGCCGCATACACTATTCTCAGAATGACTTGGTTGAGTACTCACCAGTCACAGAAAAGCATCTTACGGATGGCATGACAGTAAGAGAATTATGCAGTGCTGCCATAACCATGAGTGATAACACTGCGGCCAACTTACTTCTGACAACGATCGGAGGACCGAAGGAGCTAACCGCTTTTTTGCACAACATGGGGGATCATGTAACTCGCCTTGATCGTTGGGAACCGGAGCTGAATGAAGCCATACCAAACGACGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGCAAACTATTAACTGGCGAACTACTTACTCTAGCTTCCCGGCAACAATTAATAGACTGGATGGAGGCGGATAAAGTTGCAGGACCACTTCTGCGCTCGGCCCTTCCGGCTGGCTGGTTTATGCTGATAAATCTGGAGCCGGTGAGCGTGGGTCTCGCGGTATCATTGCAGCACTGGGGCCAGATGGTAAGCCCTCCCGTATCGTAGTTATCTACACGACGGGGAGTCAGGCAACTATGGATGAACGAAATAGACAGATCGCTGAGATAGGTGCCTCACTGATAAGCATTGGTAA(SEQ ID NO41).
bla-1至bla-5具有下列序列(SEQ ID NO80-84)bla-1ACTAGTAACCCTGATAAATGCTTCAATAATATTGAAAAAGGAAGAGTATGAGTATTCAACATTTCCGTGTCGCCCTTATTCCCTTTTTTGCGGCATTTTGCCTTCCTGTTTTTGCTCACCCAGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAGTTGGGTGCACGAGTGGGTTACATCGAACTGGATCTCAACAGCGGTAAGATCCTTTGAGAGTTTTCGCCCCGAAGAACGTTTTCCAATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTATTATCCCGTATTGACGCCGGGCAAGAGCAACTCGGTCGCCGCATACACTATTCTCAGAATGACTTGGTTGAGTACTCACCAGTCACAGAAAAGCATCTTACGGATGGCATGACAGTAAGAGAATTATGCAGTGCTGCCATAACCATGAGTGATAACACCGCGGCCAACTTACTTCTGACAACGATCGGAGGACCGAAGGAGCTAACCGCTTTTTTGCACAACATGGGGGATCATGTAACTCGCCTTGATCGTTGGGAACCGGAGCTGAATGAAGCCATACCAAACGACGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGCA
AACTATTAACTGGCGAACTACTTACTCTAGCTTCCCGGCAACAATTAATAGACTGGATGGAGGCGGATAAAGTTGCAGGACCACTTCTGCGCTCGGCCCTTCCGGCTGGCTGGTTTATTGCTGATAAATCTGGAGCCGGTGAGCGTGGCTCTCGCGGTATCATTGCAGCACTGGGGCCAGATGGTAAGCCCTCCCGTATCGTAGTTATCTACACGACGGGGAGTCAGGCAACTATGGATGAACGAAATAGACAGATCGCTGAGATAGGTGCCTCACTGATTAAGCATTGGTAACCATGCAGTGGTTTTCCTTTTGCGGCCGCbla-2ACTAGTAACCCTGATAAATGCTGCAAACATATTGAAAAAGGAAGAGTATGAGTATTCAACATTTCCGTGTCGCACTCATTCCCTTCTTTGCGGCATTTTGCTTGCCTGTTTTTGCACACCCCGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAACTGGGTGCACGAGTGGGCTATATCGAACTGGATCTCAATAGCGGTAAGATCCTTGAGAGTTTTCGCCCCGAAGAACGTTTTCCAATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTATTATCCCGTATTGACGCCGGGCAAGAGCAGCTCGGTCGCCGCATACACTACTCACAGAACGACTTGGTTGAGTACTCGCCGGTCACGGAAAAGCATCTTACGGATGGCATGACAGTAAGAGAATTGTGTAGTGCTGCCATAACCATGAGTGATAACACCGCGGCCAACTTACTTCTGACAACGATCGGAGGCCCTAAGGAGCTGACCGCATTTTTGCACAACATGGGGGATCATGTAACCCGGCTTGATCGTTGGGAACCGGAGCTGAACGAAGCCATACCGAACGACGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGCAAACTACTCACTGGCGAACTTCTCACTCTAGCATCACGACAGCAACTCATAGACTGGATGGAGGCGGATAAAGTTGCAGGACCACTTCTGCGCTCGGCCCTTCCGGCTGGCTGGTTTATAGCTGATAAATCCGGTGCCGGTGAACGCGGCTCTCGCGGGATCATTGCTGCGCTGGGGCCAGATGGTAAGCCCTCACGAATCGTAGTTATCTACACGACGGGGAGTCAGGCAACTATGGATGAACGAAATAGACAGATCGCTGAGATAGGTGCCTCACTGATCAAGCACTGGTAGCCACTGCAGTGGTTTAGCTTTTGCGGCCGCbla-3ACTAGTAACCCTGACAAATGCTGCAAACATATTGAAAAAGGAAGAGTATGAGCATCCAACATTTTCGTGTCGCACTCATTCCCTTCTTTGCGGCATTTTGCTTGCCTGTTTTTGCACACCCCGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAACTGGGTGCAAGAGTGGGCTATATCGAACTGGATCTCAATAGCGGCAAGATCCTTGAGTCTTTTCGCCCCGAAGAACGTTTTCCGATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTGTTGTCCCGTATAGACGCCGGGCAAGAGCAGCTTGGTCGCCGTATACACTACTCACAAACGACTTGGTTGAGTACTCGCCGGTCACGGAAAAGCATCTTACGGATGGCATGACGGTAAGAGAATTGTGTAGTGCTGCCATTACCATGAGCGACAATACCGCGGCCAACTTACTTCTGACAACGATCGGAGGCCCTAAGGAGCTGACCGCATTTTTGCACAACATGGGGGATCATGTAACCCGGCTTGACCGCTGGGAACCGGAGCTGAACGAAGCCATACCGAACGACGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGGAAACTACTCACTGGCGAACTTCTCACTCTAGCATCACGACAGCAGCTCATAGACTGGATGGAGGCGGACAAAGTAGCAGGACCACTTCTTCGCTCGGCCCTCCCTGCTGGCTGGTTCATTGCTGATAAATCCGGTGCCGGTGAACGCGGCTCTCGCGGGATCATTGCTGCGCTGGGGCCTGATGGTAAGCCCTCACGAATCGTAGTAATCTACACGACGGGGAGTCAGGCCACTAT
GGACGAACGAAATAGACAGATCGCGAGATCGGTGCCTCACTGATCAAGCACTGGTAACCACTGCAGTGGTTTAGCATTTGCGGCCGCbla-4ACTAGTAACCCTGACAAATGCTGCAAACATATTGAAAAAGGAAGAGTATGAGCATCCAACATTTTCGTGTCGCACTCATTCCCTTTCTTTGCGGCATTTTGCTTTGCCTGTTTTTGCACACCCCGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAACTGGGTGCAAGAGTGGGCTATATCGAACTGGATCTCAATAGCGGCAAGATCCTTGAGTCTTTCCGCCCCGAAGAACGTTTTCCGATGATGAGCACTTTCAAAGTACTGCTATGTGGCGCGGTGTTGTCCCGTATAGACGCCGGGCAAGAGCAGCTTGGTCGCCGTATACACTACTCACAAAACGACTTGGTTGAGTACTCGCCGGTCACGGAAAAGCATCTTACGGATGGCATGACGGTAAGAGAATTGTGTAGTGCTGCCATTACCATGAGCGATAATACCGCGGCCAACTTACTTCTGACAACGATCGGAGGCCCTAAGGAGCTGACCGCATTTTTGCACAACATGGGTGATCATGTGACCCGGCTTGACCGCTGGGAACCGGAGCTGAACGAAGCCATACCGAACGACGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACTCTTCGGAAACTACTCACTGGCGAACTTCTCACTCTAGCATCACGACAGCAGCTCATAGACTGGATGGAGGCGGACAAAGTAGCAGGACCACTTCTTCGCTCGGCCCTCCCTGCTGGCTGGTTCATTGCTGATAAATCTGGAGCCGGTGAGCGTGGCTCTCGCGGTATCATTGCTGCGCTGGGGCCTGATGGTAAGCCCTCACGAATCGTAGTAATCTACACGACGGGGAGTCAGGCCACTATGGACGAACGAAATAGACAGATCGCTGAGATCGGTGCCTCACTGATCAAGCACTGGTAACCACTGCAGTGGTTTAGCATTTGCGGCCGCbla-5ACTAGTAACCCTGACAAATGCTGCAAACATATTGAAAAAGGAAGAGTATGAGCATCCAACATTTTCGTGTCGCACTCATTCCCTTCTTTGCGGCATTTTGCTTGCCTGTTTTTGCACACCCCGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAACTGGGTGCAAGAGTGGGCTATATCGAACTGGATCTCAATAGCGGCAAGATCCTTGAGTCTTTCCGCCCCGAAGAACGATTCCCGATGATGAGCACTTTCAAAGTACTGCTATGTGGCGCGGTGTTGTCCCGTATAGACGCCGGGCAAGAGCAGCTTGGTCGCCGTATACACTACTCACAAAACGACTTGGTTGAGTACTCGCCGGTCACGGAAAAGCATCTTACGGATGGCATGACGGTAAGAGAATTGTGTAGTGCTGCCATTACCATGAGCGATAATACCGCGGCCAACTTACTTCTGACAACGATCGGAGGCCCTAAGGAGCTGACCGCATTTTTGCACAACATGGGTGATCATGTGACCCGGCTTGACCGCTGGGAACCGGAGCTGAACGAAGCCATACCGAACGACGAGCGTGATACCACGATGCCAGTAGCAATGGCCACAACTCTTCGGAAACTACTCACTGGCGAACTTCTCACTCTAGCATCACGACAGCAGCTCATAGACTGGATGGAGGCGGACAAAGTAGCAGGACCACTTCTTCGCTCGGCCCTCCCTGCTGGCTGGTTCATTGCTGACAAATCCGGTGCCGGTGAACGCGGCTCTCGCGGCATCATTGCTGCGCTGGGGCCTGATGGTAAGCCCTCACGAATCGTAGTAATCTCACGACGGGGAGTCAGGCCACTATGGACGAACGAAATAGACAGATCGCTGAGATCGGTGCCTCACTGATCAAGCACTGGTAACCACTGCAGTGGTTTAGCATTTGCGGCCGCNNN.
表30不同bla基因形式的配對同一性
注意序列“bla”是來自pGL3-基礎(chǔ)的bla基因;ClustalW(Slow/Accurate,IUB);序列比較僅對ORF進(jìn)行。
SpeI-NcoI ver2 start具有下列序列ACTAGTACGTCTCTCAAGGATAAGTAAGTAATATTAAGGTACGGGAGGTACTTGGAGCGGCCGCAATAAAATATCTTTATTTTCATTACATCTGTGTGTTGGTTTTTTGTGTGAATCGATAGTACTAACATACGCTCTCCATCAAAACAAAACGAAACAAAACAAACTAGCAAAATAGGCTGTCCCCAGTGCAAGTGCAGGTGCCAGAACATTTCTCTGGCCTAAGTGGCCGGTACCGAGCTCGCTAGCCTCGAGGATATCAGATCTGGCCTCGGCGGCCAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG(SEQ ID NO48);SpeI-NcoI-Ver2具有下列序列ACTAGTACGTCTCTCAAGGATAAGTAAGTAATATTAAGGTACGGGAGGTATTGGACAGGCCGCAATAAAATATCTTTATTTTCATTACATCTGTGTGTTGGTTTTTTGTGTGAATCGATAGTACTAACATACGCTCTCCATCAAAACAAAACGAAACAAAACAAACTAGCAAAATAGGCTGTCCCCAGTGCAAGTGCAGGTGCCAGAACATTTCTCTGGCCTAACTGGCCGGTACCTGAGCTCGCTAGCCTCGAGGATATCAAGATCTGGCCTCGGCGGCCAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG(SEQ ID NO49)pGL4相關(guān)序列包括(SEQ ID NO95-97)pGL4B-4NNGCGGCCGCAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCAGTGAGGCACCGATCTCAGCGATCTGTCTATTTCGTTCGTCCATAGTGGCCTGACTCCCCGTCGTGTAGATTACTACGATTCGTGAGGGCTTACCATCAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCA
CCGGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAAGAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCTGTCGTGATGCTAGAGTGAGAAGTTCGCCAGTGAGTAGTTTCCGAAGAGTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGTATGGCTTCGTTCAGCTCCGGTTCCCACCGGTCAAGCCGGGTCACATGATCACCCATGTTGTGCAAAAATGCGGTCAGCTCCTTAGGGCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCGGTATTATCGCTCATGGTAATGGCAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTTCCGTGACCGGCGAGTACTCAACCAAGTCGTTTTGTGAGTAGTGTATACGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGCGCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTCGGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGATATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAGAAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCTTCCTTTTTCAATATGTTTGCAGCATTTGTCAGGGTTACTAGTACGTCTCTCTTGAGAGACCGCGATCGCCACCATGTCTAGGTAGGTAGTAAACGAAAGGGCTTAAAGGCCTAAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGAGTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGATCTAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGGpGL4B-4NN1gcggccgcaaatgctaaaccactgcagtggttaccagtgcttgatcagtgaggcaccgatctcagcgatctgtctatttcgttcgtccatagtggcctgactccccgtcgtgtagattactacgattcgtgagggcttaccatcagggccccagcgcagcaatgatgccgcgagagccgcgttcaccggcccccgatttgtcagcaatgaaccagccagcagggagggccgagcgaagaagtggtcctgctactttgtccgcctccatccagtctatgagctgctgtcgtgatgctagagtaagaagttcgccagtgagtagtttccgaagagttgtggccattgctactggcatcgtggtatcacgctcgtcgttcggtatggcttcgttcaactccggttcccagcggtcaagccgggtcacatgatcacccatgttgtgcaaaaatgcggtcagctccttagggcctccgatcgttgtcagaagtaagttggccgcggtgttgtcgctcatggtaatggcagcactacacaattctcttaccgtcatgccatccgtaagatgcttttccgtgaccggcgagtactcaaccaagtcgttttgtgagtagtgtatacggcgaccaagctgctcttgcccggcgtctatacgggacaacaccgcgccacatagcagtactttgaaagtgctcatcatcgggaatcgttcttcggggcggaaagactcaaggatcttgccgctattgagatccagttcgatatagcccactcttgcacccagttgatcttcagcatcttttactttcaccagcgtttcggggtgtgcaaaaacaggcaagcaaaatgccgcaaagaagggaatgagtgcgacacgaaaatgttggatgctcatactcttcctttttcaatatgtttgcagcatttgtcagggttactagtacgtctctcttgagagaccgcgatcgccaccatgtctaggtaggtagtaaacgaaagggcttaaaggcctaagtggccctcgagtccagccttgagttggttgagtccaagtcacgtttggagatctggtaccttacgcgtatgagctctacgtagctagcggcctcggcggccgaattcttgcgttcgaagcttggcaatccggtactgttggtaaagccaccatgg;andpGL4B-4NN2GCGGCCGCAAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCAGTGAGGCACCGATCTCAGCGATCTGCCTATTTCGTTCGTCCATAGTGGCCTGACTCCCCGTCGTGTAGATCACTACGATTCGTGAGGGCTTACCATCAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCCCCCGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAAGAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCTGTCGTGATGCTAGAGTAAGAAGTTCGCCAGTGAGTAGTTTCCGAAGAGTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGTATGGCTTCGTTCAACTCTGGTTCCCAGCGGTCAAGCCGGGTCACATG
ATCACCCATGTTGTGCAAAAATGCGGTCAGCTCCTTAGGGCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCGGTGTTGTCGCTCATGGTAATGGCAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTTCCGTGACCGGCGAGTACTCAACCAAGTCGTTTTGTGAGTAGTGTATACGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGCGCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTCGGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGATATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAGAAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCTTCCTTTTTCAATATGTTTGCAGCATTTGTCAGGGTTACTAGTACGTCTCTCTTGAGAGACCGCGATCGCCACCATGTCTAGGTAGGTAGTAAACGAAAGGGCTTAAAGGCCTAAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGAGTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGTTCGAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG,pGLAB-4NN3GCGGCCGCAAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCAGTGAGGCACCGATCTCAGCGATCTGCCTATTTCGTTCGTCCATAGTGGCCTGACTCCCCGTCGTGTAGATCACTACGATTCGTGAGGGCTTACCATCAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCCCCCGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAAGAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCTGTCGTGATGCTAGAGTAAGAAGTTCGCCAGTGAGTAGTTTCCGAAGAGTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGTATGGCTTCGTTCAACTCTGGTTCCCAGCGGTCAAGCCGGGTCACATGATCACCCATATTATGAAGAAATGCAGTCAGCTCCTTAGGGCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCGGTGTTGTCGCTCATGGTAATGGCAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTTCCGTGACCGGCGAGTACTCAACCAAGTCGTTTTTGTGAGTAGTGTATACGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGCGCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTCGGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGATATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAGAAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCTTCCTTTTTCAATATGTTTGCAGCATTTGTCAGGGTTACTAGTACGTCTCTCTTGAGAGACCGCGATCGCCACCATGTCTAGGTAGGTAGTAAACGAAAGGGCTTAAAGGCCTAAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGAGTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGGGTTGAGTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGTTCGAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG(SEQ ID NO45)來自Blue Heron的pGL4NN
GCGGCCGCAAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCAGTGAGGCACCGATCTCAGCGATTCTGCCTATTTCGTTCGTCCATAGTGGCCTGACTCCCCGTCGTGTAGATCACTACGATTCGTGAGGGCTTACCATCAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCCCCCGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAAGAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCTGTCGTGATGCTAGAGTAAGAAGTTCGCCAGTGAGTAGTTTCCGAAGAGTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGTATGGCTTCGTTCAACTCTGGTTCCCAGCGGTCAAGCCGGGTCACATGATCACCCATATTATGAAGAAATGCAGTCAGCTCCTTAGGGCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCGGTGTTGTCGCTCATGGTAATGGCAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTTCCGTGACCGGCGAGTACTCAACCAAGTCGTTTTGTGAGTAGTGTATACGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGCGCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTCGGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGATATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAGAAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCTTCCTTTTTCAATATGTTTGCAGCATTTGTCAGGGTTACTAGTACGTCTCTCAAGAGATTTGTGCATACACAGTGACTCATACTTTCACCAATACTTTGCATTTTGGATAAATACTAGACAACTTTAGAAGTGAATTATTTATGAGGTTGTCTTAAAATTAAAAATTACAAAGTAATAAATCACATTGTAATGTATTTTGTGTGATACCCAGAGGTTTAAGGCAACCTATTACTCTTATGCTCCTGAAGTCCACAATTCACAGTCCTGAACTATAATCTTATCTTTTGTGATTGCTGAGCAAATTTGCAGTATAATTTCAGTGCTTTTAAATTTTGTCCTGCTTACTATTTTCCTTTTTTATTTGGGTTTGATATGCGTGCACAGAATGGGGCTTCTATTAAAATATTCTTGAGAGACCGCGATCGCCACCATGTCTAGGTAGGTAGTAAACGAAAGGGCTTAAAGGCCTAAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGAGTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGTTCGAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG(SEQ ID NO46),具有啟動子改變的pGL4
GCGGCCGCAAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCAGTGAGGCACCGATCTCAGCGATCTGCCTATTTCGTTCGTCCATAGTGGCCTGACTCCCCGTCGTGTAGATCACTACGATTCGTGAGGGCTTACCATCAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCCCCCGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAAGAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCTGTCGTGATGCTAGAGTAAGAAGTTCGCCAGTGAGTAGTTTCCGAAGAGTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGTATGGCTTCGTTCAACTCTGGTTCCCAGCGGTCAAGCCGGGTCACATGATCACCCATATTATGAAGAAATGCAGTCAGCTCCTTAGGGCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCGGTGTTGTCGCTCATGGTAATGGCAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTTCCGTGACCGGCGAGTACTCAACCAAGTCGTTTTGTGAGTAGTGTATACGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGCGCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTCGGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGATATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTACTTTCACCAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAGAAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCGTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTACTAGTACGTCTCTCAAGAGATTTGTGCATACACAGTGACTCATACTTTCACCAATACTTTGCATTTTGGATAAATACTAGACAACTTTAGAAGTGAATTATTTATGAGGTTGTCTTAAAATTAAAAATTACAAAGTAATAAATCACATTGTAATGTATTTTGTGTGATACCCAGAGGTTTAAGGCAACCTATTACTCTTAT(SEQ IDNO47),pGL4載體中的潮霉素基因
Atgaagaagcccgaactcaccgctaccagcgttgaaaaatttctcatcgagaagttcgacagtgtgagcgacctgatgcagttgtcggagggcgaagagagccgagccttcagcttcgatgtcggcggacgcggctatgtactgcgggtgaatagctgcgctgatggcttctacaaagaccgctacgtgtaccgccacttcgccagcgctgcactacccatccccgaagtgttggacatcggcgagttcagcgagagcctgacatactgcatcagtagacgcgcccaaggcgttactctccaagacctccccgaaacagagctgcctgctgtgttacagcctgtcgccgaagctatggatgctattgccgccgccgacctcagtcaaaccagcggcttcggcccattcgggccccaaggcatcggccagtacacaacctggcgggatttcatttgcgccattgctgatccccatgtctaccactggcagaccgtgatggacgacaccgtgtccgccagcgtagctcaagccctggacgaactgatgctgtgggccgaagactgtcccgaggtgcgccacctcgtccatgccgacttcggcagcaacaacgtcctgaccgacaacggccgcatcaccgccgtaatcgactggtccgaagctatgttcggggacagtcagtacgaggtggccaacatcttcttctggcggccctggctggcttgcatggagcagcagactcgctacttcgagcgccggcatcccgagctggccggcagccctcgtctgcgagcctacatgctgcgcatcggcctggatcagctctaccagagcctcgtggacggcaacttcgacgatgctgcctgggctcaaggccgctgcgatgccatcgtccgcagcggggccggcaccgtcggtcgcacacaaatcgctcgccggagcgcagccgtatggaccgacggctgcgtcgaggtgctggccgacagcggcaaccgccggcccagtacacgaccgcgcgctaaggaggtaggtcgagtttaa(SEQ ID NO88),pGL4.10ggcctaactggccggtacctgagctcgctagcctcgaggatatcaagatctggcctcggcggccaagcttggcaatccggtactgttggtaaagccaccatggaagatgccaaaaacattaagaagggcccagcgccattctacccactcgaagacgggaccgccggcgagcagctgcacaaagccatgaagcgctacgccctggtgcccggcaccatcgcctttaccgacgcacatatcgaggtggacattacctacgccgagtacttcgagatgagcgttcggctggcagaagctatgaagcgctatgggctgaatacaaaccatcggatcgtggtgtgcagcgagaatagcttgcagttcttcatgcccgtgttgggtgccctgttcatcggtgtggctgtggccccagctaacgacatctacaacgagcgcgagctgctgaacagcatgggc
atcagccagcccaccgtcgtattcgtgagcaagaaagggctgcaaaagatcctcaacgtgcaaaagaagctaccgatcatacaaaagatcatcatcatggatagcaagaccgactaccagggcttccaaagcatgtacaccttcgtgacttcccatttgccacccggcttcaacgagtacgacttcgtgcccgagagcttcgaccgggacaaaaccatcgccctgatcatgaacagtagtggcagtaccggattgcccaagggcgtagccctaccgcaccgcaccgcttgtgtccgattcagtcatgcccgcgaccccatcttcggcaaccagatcatccccgacaccgctatcctcagcgtggtgccatttcaccacggcttcggcatgttcaccacgctgggctacttgatctgcggctttcgggtcgtgctcatgtaccgcttcgaggaggagctattcttgcgcagcttgcaagacgataagattcaatctgccctgctggtgcccacactatttagcttcttcgctaagagcactctcatcgacaagtacgacctaagcaacttgcacgagatcgccagcggcggggcgccgctcagcaaggaggtaggtgaggccgtggccaaacgcttccacctaccaggcatccgccagggctacggcctgacagaaacaaccagcgccattctgatcacccccgaaggggacgacaagcctggcgcagtaggcaaggtggtgcccttcttcgaggctaaggtggtggacttggacaccggtaagacactgggtgtgaaccagcgcggcgagctgtgcgtccgtggccccatgatcatgagcggctacgttaacaaccccgaggctacaaacgctctcatcgacaaggacggctggctgcacagcggcgacatcgcctactgggacgaggacgagcacttcttcatcgtggaccggctgaagagcctgatcaaatacaagggctaccaggtagccccagccgaactggagagcatcctgctgcaacaccccaacatcttcgacgccggggtcgccggcctgcccgacgacgatgccggcgagctgcccgccgcagtcgtcgtgctggaacacggtaaaaccatgaccgagaaggagatcgtggactatgtggccagccaggttacaaccgccaagaagctgcgcggtggtgttgtgttcgtggacgaggtgcctaaaggactgaccggcaagttggacgcccgcaagatccgcgagattctcattaaggccaagaagggcggcaagatcgccgtgtaataattctagagtcggggcggccggccgcttcgagcagacatgataagatacattgatgagtttggacaaaccacaactagaatgcagtgaaaaaaatgctttatttgtgaaatttgtgatgctattgctttatttgtaaccattataagctgcaataaacaagttaacaacaacaattgcattcattttatgtttcaggttcagggggaggtgtgggaggttttttaaagcaagtaaaacctctacaaatgtggtaaaatcgataaggatccgtcgaccgatgcccttgagagccttcaacccagtcagctccttccggtgggcgcggggcatgactatcgtcgccgcacttatgactgtcttctttatcatgcaactcgtaggacaggtgccggcagcgctcttccgcttcctcgctcactgactcgctgcgctcggtcgttcggctgcggcgagcggtatcagctcactcaaaggcggtaatacggttatccacagaatcaggggataacgcaggaaagaacatgtgagcaaaaggccagcaaaaggccaggaaccgtaaaaaggccgcgttgctggcgtttttccataggctccgcccccctgacgagcatcacaaaaatcgacgctcaagtcagaggtggcgaaacccgacaggactataaagataccaggcgtttccccctggaagctccctcgtgcgctctcctgttccgaccctgccgcttaccggatacctgtccgcctttctcccttcgggaagcgtggcgctttctcatagctcacgctgtaggtatctcagttcggtgtaggtcgttcgctccaagctgggctgtgtgcacgaaccccccgttcagcccgaccgctgcgccttatccggtaactatcgtcttgagtccaacccggtaagacacgacttatcgccactggcagcagccactggtaacaggattagcagagcgaggtatgtaggcggtgctacagagttcttgaagtggtggcctaactacggctacactagaagaacagtatttggtatctgcgctctgctgaagccagttaccttcggaaaaagagttggtagctcttgatccggcaaacaaaccaccgctggtagcggtggtttttttgtttgcaagcagcagattacgcgcagaaaaaaaggatctcaagaagatcctttgatcttttctacggggtctgacgctcagtggaacgaaaactcacgttaagggattttggtcatgagattatcaaaaaggatcttcacctagatccttttaaattaaaaatgaagttttaaataatctaaagtatatatgagtaaacttggtctgacagcggccgcaaatgctaaaccactgcagtggttaccagtgcttgatcagtgaggcaccgatctcagcgatctgcctatttcgttcgtccatagtggcctgactccccgtcgtgtagatcactacgattcgtgagggcttaccatcaggccccagcgcagcaatgatgccgcgagagccgcgttcaccggcccccgatttgtcagcaatgaaccagccagcagggagggccgagcgaagaagtggtcctgctactttgtccgcctccatccagtctatgagctgctgtcgtgatgctagagtaagaagttcgccagtgagtagtttccgaagagttgtggccattgctactggcatcgtggtatcacgctcgtcgttcggtatggcttcgttcaactctggttcccagcggtcaagccgggtcacatgatcacccatattatgaagaaatgcagtcagctccttagggcctccgatcgttgtcataagtaagttggccgcggtgttgtcgctcatggtaatggcagcactacacaattctcttaccgtcatgccatccgtaagatgcttttccgtgaccggcgagtactcaaccaagtcgttttgtgagtagtgtatacggcgaccaagctgctcttgcccggcgtctatacgggacaacaccgcgccacatagcagtactttgaaagtgctcatcatcgggaatcgttcttcggggcggaaagactcaaggatcttgccgctattgagatccagttcgatatagcccactcttgcacccagttgatcttcagcatcttttactttcaccagcgtttcggggtgtgcaaaaacaggcaagcaaaatgccgcaaagaagggaatgagtgcgacacgaaaatgttggatgctcatactcgtcctttttcaatattattgaagcatttatcagggttactagtacgtctctcaaggataagtaagtaatattaaggtacgggaggtattggacaggccgcaataaaatatctttattttcattacatctgtgtgttggttttttgtgtgaatcgatagtactaacatacgctctccatcaaaacaaaacgaaacaaaacaaactagcaaaataggctgtccccagtgcaagtgcaggtgccagaacatttctctaagtaatattaaggtac
gggaggtattggacaggccgcaataaaatatctttattttcattacatctgtgtgttggttttttgtgtgaatc(SEQ IDNO89),和pGL4.70ggcctaactggccggtacctgagctcgctagcctcgaggatatcaagatctggcctcggcggccaagcttggcaatccggtactgttggtaaagccaccatggcttccaaggtgtacgaccccgagcaacgcaaacgcatgatcactgggcctcagtggtgggctcgctgcaagcaaatgaacgtgctggactccttcatcaactactatgattccgagaagcacgccgagaacgccgtgatttttctgcatggtaacgctgcctccagctacctgtggaggcacgtcgtgcctcacatcgagcccgtggctagatgcatcatccctgatctgatcggaatgggtaagtccggcaagagcgggaatggctcatatcgcctcctggatcactacaagtacctcaccgcttggttcgagctgctgaaccttccaaagaaaatcatctttgtgggccacgactggggggcttgtctggcctttcactactcctacgagcaccaagacaagatcaaggccatcgtccatgctgagagtgtcgtggacgtgatcgagtcctgggacgagtggcctgacatcgaggaggatatcgccctgatcaagagcgaagagggcgagaaaatggtgcttgagaataacttcttcgtcgagaccatgctcccaagcaagatcatgcggaaactggagcctgaggagttcgctgcctacctggagccattcaaggagaagggcgaggttagacggcctaccctctcctggcctcgcgagatccctctcgttaagggaggcaagcccgacgtcgtccagattgtccgcaactacaacgcctaccttcgggccagcgacgatctgcctaagatgttcatcgagtccgaccctgggttcttttccaacgctattgtcgagggagctaagaagttccctaacaaccgagttcgtgaaggtgaagggcctccacttcagccaggaggacgctccagatgaaatgggtaagtacatcaagagcttcgtggagcgcgtgctgaagaacgagcagtaattctagagtcggggcggccggccgcttcgagcagacatgataagatacattgatgagtttggacaaaccacaactagaatgcagtgaaaaaaatgctttatttgtgaaatttgtgatgctattgctttatttgtaaccattataagctgcaataaacaagttaacaacaacaattgcattcattttatgtttcaggttcagggggaggtgtgggaggttttttaaagcaagtaaaacctctacaaatgtggtaaaatcgataaggatccgtcgaccgatgcccttgagagccttcaacccagtcagctccttccggtgggcgcggggcatgactatcgtcgccgcacttatgactgtcttctttatcatgcaactcgtaggacaggtgccggcagcgctcttccgcttcctcgctcactgactcgctgcgctcggtcgttcggctgcggcgagcggtatcagctcactcaaaggcggtaatacggttatccacagaatcaggggataacgcaggaaagaacatgtgagcaaaaggccagcaaaaggccaggaaccgtaaaaaggccgcgttgctggcgtttttccataggctccgcccccctgacgagcatcacaaaaatcgacgctcaagtcagaggtggcgaaacccgacaggactataaagataccaggcgtttccccctggaagctccctcgtgcgctctcctgttccgaccctgccgcttaccggatacctgtccgcctttctcccttcgggaagcgtggcgctttctcatagctcacgctgtaggtatctcagttcggtgtaggtcgttcgctccaagctgggctgtgtgcacgaaccccccgttcagcccgaccgctgcgccttatccggtaactatcgtcttgagtccaacccggtaagacacgacttatcgccactggcagcagccactggtaacaggattagcagagcgaggtatgtaggcggtgctacagagttcttgaagtggtggcctaactacggctacactagaagaacagtatttggtatctgcgctctgctgaagccagttaccttcggaaaaagagttggtagctcttgatccggcaaacaaaccaccgctggtagcggtggtttttttgtttgcaagcagcagattacgcgcagaaaaaaaggatctcaagaagatcctttgatcttttctacggggtctgacgctcagtggaacgaaaactcacgttaagggattttggtcatgagattatcaaaaaggatcttcacctagatccttttaaattaaaaatgaagttttaaatcaatctaaagtatatatgagtaaacttggtctgacagcggccgcaaatgctaaaccactgcagtggttaccagtgcttgatcagtgaggcaccgatctcagcgatctgcctatttcgttcgtccatagtggcctgactccccgtcgtgtagatcactacgattcgtgagggcttaccatcaggccccagcgcagcaatgatgccgcgagagccgcgttcaccggcccccgatttgtcagcaatgaaccagccagcagggagggccgagcgaagaagtggtcctgctactttgtccgcctccatccagtctatgagctgctgtcgtgatgctagagtaagaagttcgccagtgagtagtttccgaagagttgtggccattgctactggcatcgtggtatcacgctcgtcgttcggtatggcttcgttcaactctggttcccagcggtcaagccgggtcacatgatcacccatattatgaagaaatgcagtcagctccttagggcctccgatcgttgtcagaagtaagttggccgcggtgttgtcgctcatggtaatggcagcactacacaattctcttaccgtcatgccatccgtaagatgcttttccgtgaccggcgagtactcaaccaagtcgttttgtgagtagtgtatacggcgaccaagctgctcttgcccggcgtctatacgggacaacaccgcgccacatagcagtactttgaaagtgctcatcatcgggaatcgttcttcggggcggaaagactcaaggatcttgccgctattgagatccagttcgatatagcccactcttgcacccagttgatcttcagcatcttttactttcaccagcgtttcggggtgtgcaaaaacaggcaagcaaaatgccgcaaagaagggaatgagtgcgacacgaaaatgttggatgctcatactcgtcctttttcaatattattgaagcatttatcagggttactagtacgtctctcaaggataagtaagtaatattaaggtacgggaggtattggacaggccgcaataaaatatctttattttcattacatctgtgtgttggttttttgtgtgaatcgatagtactaa
catacgctctccatcaaaacaaaacgaaacaaaacaaactagcaaaataggctgtccccagtgcaagtgcaggtgccagaacatttctct(SEQ ID NO90).
pGL4骨架(NotI-NcoI)具有下列序列g(shù)cggccgcaaatgctaaaccactgcagtggttaccagtgcttgatcagtgaggcaccgatctcagcgatctgcctatttcgttcgtccatagtggcctgactccccgtcgtgtagatcactacgattcgtgagggcttaccatcaggccccagcgcagcaatgatgccgcgagagccgcgttcaccggcccccgatttgtcagcaatgaaccagccagcagggagggccgagcgaagaagtggtcctgctactttgtccgcctccatccagtctatgagctgctgtcgtgatgctagagtaagaagttcgccagtgagtagtttccgaagagttgtggccattgctactggcatcgtggtatcacgctcgtcgttcggtatggcttcgttcaactctggttcccagcggtcaagccgggtcacatgatcacccatattatgaagaaatgcagtcagctccttagggcctccgatcgttgtcagaagtaagttggccgcggtgttgtcgctcatggtaatggcagcactacacaattctcttaccgtcatgccatccgtaagatgcttttccgtgaccggcgagtactcaaccaagtcgttttgtgagtagtgtatacggcgaccaagctgctcttgcccggcgtctatacgggacaacaccgcgccacatagcagtactttgaaagtgctcatcatcgggaatcgttcttcggggcggaaagactcaaggatcttgccgctattgagatccagttcgatatagcccactcttgcacccagttgatcttcagcatcttttactttcaccagcgtttcggggtgtgcaaaaacaggcaagcaaaatgccgcaaagaagggaatgagtgcgacacgaaaatgttggatgctcatactcgtcctttttcaatattattgaagcatttatcagggttactagtacgtctctcaaggataagtaagtaatattaaggtacgggaggtattggacaggccgcaataaaatatctttattttcattacatctgtgtgttggttttttgtgtgaatcgatagtactaacatacgctctccatcaaaacaaaacgaaacaaaacaaactagcaaaataggctgtccccagtgcaagtgcaggtgccagaacatttctctggcctaactggccggtacctgagctcgctagcctcgaggatatcaagatctggcctcggcggccaagcttggcaatccggtactgttggtaaagccaccatgg(SEQ ID NO74).
實(shí)施例10除去合成基因中的序列概述檢索參數(shù)TFBS檢索局限于脊椎動物TF結(jié)合位點(diǎn)。通過矩陣家族進(jìn)行檢索,即結(jié)果僅表明各位點(diǎn)的家族最佳匹配。MatInspector缺省參數(shù)用作核心和矩陣相似性取值(核心相似性=0.75,矩陣相似性=優(yōu)化),除了序列MCS-1(核心相似性=1.00,矩陣相似性=優(yōu)化)之外。
啟動子組件檢索包括所有可能的啟動子組件(脊椎動物等),采用缺省參數(shù)來進(jìn)行檢索(優(yōu)化閾值或80%最大分值)。
剪接位點(diǎn)檢索針對剪接受體或供體共有序列來進(jìn)行。
表31
用5個序列即hluc+ver2A1、bla-1、hneo-1、hpuro-1、hhyg-1(人源化密碼子使用)進(jìn)行分析,在5個序列中有3個發(fā)現(xiàn)來自以下家族的TFBSV$AHRR(AHR-arnt異型二聚體和AHR-相關(guān)因子)V$ETSF(人和鼠ETS1因子)V&NFKB(核因子κB/c-rel)V$VMYB(AMV-病毒myb癌基因)V$CDEF(細(xì)胞周期調(diào)節(jié)物細(xì)胞周期依賴性元件)V$HAND(HAND2和E12的bHLH轉(zhuǎn)錄因子二聚體)V$NRSF(神經(jīng)元限制性沉默因子)V$WHZF(翼狀螺旋和ZF5結(jié)合位點(diǎn))V$CMYB(C-myb,細(xì)胞轉(zhuǎn)錄激活蛋白)V$MINI(肌肉起始序列)
V$P53F(p53腫瘤抑制基因-腫瘤抑制基因Rb的負(fù)調(diào)節(jié))V$ZF5F(ZF5POZ域鋅指)V$DEAF(來自黑腹果蠅(D.melanogaster)的畸形表皮自我調(diào)節(jié)因子-1的同源物)V$MYOD(成肌細(xì)胞決定因子)V$PAX5(PAX-5/PAX-9B-細(xì)胞特異性激活蛋白)V$EGRF(EGR/神經(jīng)生長因子誘導(dǎo)蛋白C & rel.fact.)V$NEUR(NeuroD,β2,HLH域)V$REBV(Epstein-Barr病毒轉(zhuǎn)錄因子R);在5個序列中有4個發(fā)現(xiàn)來自以下家族的TFBSV$ETSF(人和鼠ETS1因子)V$CDEF(細(xì)胞周期調(diào)節(jié)物細(xì)胞周期依賴性元件)V$HAND(HAND2和E12的bHLH轉(zhuǎn)錄因子二聚體)V$NRSF(神經(jīng)元限制性沉默因子)V$PAX5(PAX-5/PAX-9B-細(xì)胞特異性激活蛋白)V$NEUR(NeuroD,β2,HLH域);和在5個序列中有5個發(fā)現(xiàn)來自以下家族的TFBSV$PAX5(PAX-5/PAX-9B-細(xì)胞特異性激活蛋白)。
參考文獻(xiàn)Altschul等,Nucl.Acids Res.,25,3389(1997)。
Aota等,Nucl.Acids Res.,16,315(1988)。
Boshart等,Cell,41,521(1985)。
Bronstein等,Cal.Biochem.,219,169(1994)。
Corpet等,Nucl.Acids Res.,16,881(1988)。
deWet等,Mol.Cell.Biol.,7,725(1987)。
Dijkema等,EMBO J.,4,761(1985)。
Faist和Meyer,Nucl.Acids Res.,20,26(1992)。
Gorman等,Proc.Natl.Acad.Sci.USA,79,6777(1982)。
Higgins等,Gene,73,237(1985)。
Higgins等,CABIOS,5,151(1989)。
Huang等,CABIOS,8,155(1992)。
Itolcik等,PNAS,94,12410(1997)。
Johnson等,Mol.Reprod.Devel.,50,377(1998)。
Jones等,Mol.Cell.Biol.,17,6970(1997)。
Karlin和Altschul,Proc.Natl.Acad.Sci.USA,87,2264(1990)。
Karlin和Altschul,Proc.Natl.Acad.Sci.USA,90,5873(1993)。
Keller等,J.Cell Biol.,84,3264(1987)。
Kim等,Gene,91,217(1990)。
Lamb等,Mol.Reprod.Devel.,51,218(1998)。
Mariatis等,Science,236,1237(1987)。
Michael等,EMBO.J.,9,481(1990)。
Mizushima和Nagata,Nucl.Acids Res.,18,5322(1990)。
Murray等,Nucl.Acids Res.,17,477(1989)。
Myers和Miller,CABIOS,4,11(1988)。
Nakamura等,NAR,28292(2000)。
Needleman和Wunsen,J.Mol.Biol.,48,443(1970)。
Pearson和Lipman,Proc.Natl.Acad.Sci.USA,85,2444(1988)。
Pearson等,Meth.Mol.Biol.,24,307(1994)。
Sharp等,Nucl.Acids Res.,16,8207(1988)。
Sharp等,Nucl.Acids Res.,15,1281(1987)。
Smith和Waterman,Adv.Appl.Math.,2,482(1981)。
Stemmer等,Gene,164,49(1995)。
Uetsuki等,J.Biol.Chem.,264,5791(1989)。
Voss等,Trends Biochem.Sci.,11,287(1986)。
Wada等,Nucl.Acids Res.,18,2367(1990)。
Watson等(編著),Recombinant DNAA Short Course,ScientificAmerican Books,W.H.Freeman and Company,New York(1983)。
Wood,K.Photochemistry and Photobiology,62,662(1995)。
Wood,K.Science244,700(1989)。
所有出版物、專利和專利申請都通過引用結(jié)合到本文中。盡管在上述說明書中,已經(jīng)用某些優(yōu)選的實(shí)施方案描述了本發(fā)明,并且已提供許多細(xì)節(jié)用于說明的目的,但是,本領(lǐng)域技術(shù)人員顯而易見的是,在不偏離本發(fā)明基本原理的前提下,本發(fā)明還可具有另外的實(shí)施方案,并且也可以對本文的某些細(xì)節(jié)進(jìn)行改變。
序列表<110>Promega CorporationWood,KeithWood,MonikaAlmond,BrianPaguio,AileenFan,F(xiàn)rank<120>合成核酸分子及制備方法<130>341.034W01<160>97<170>FastSEQ for Windows Version 4.0<210>1<211>795<212>DNA<213>未知<220>
<223>Neo,來自Promega公司的pCI-neo中的新霉素基因。
<400>1atgattgaac aagatggatt gcacgcaggt tctccggccg cttgggtgga gaggctattc 60ggctatgact gggcacaaca gacaatcggc tgctctgatg ccgccgtgtt ccggctgtca 120gcgcaggggc gcccggttct ttttgtcaag accgacctgt ccggtgccct gaatgaactg 180caggacgagg cagcgcggct atcgtggctg gccacgacgg gcgttccttg cgcagctgtg 240ctcgacgttg tcactgaagc gggaagggac tggctgctat tgggcgaagt gccggggcag 300gatctcctgt catctcacct tgctcctgcc gagaaagtat ccatcatggc tgatgcaatg 360cggcggctgc atacgcttga tccggctacc tgcccattcg accaccaagc gaaacatcgc 420atcgagcgag cacgtactcg gatggaagcc ggtcttgtcg atcaggatga tctggacgaa 480gagcatcagg ggctcgcgcc agccgaactg ttcgccaggc tcaaggcgcg catgcccgac 540
ggcgaggatc tcgtcgtgac ccatggcgat gcctgcttgc cgaatatcat ggtggaaaat 600ggccgetttt ctggattcat cgactgtggc cggctgggtg tggcggaccg ctatcaggac 660atagcgttgg ctacccgtga tattgctgaa gagcttggcg gcgaatgggc tgaccgcttc 720ctcgtgcttt acggtatcgc cgctcccgat tcgcagcgca tcgccttcta tcgccttctt 780gacgagttct tctga 795<210>2<211>264<212>PRT<213>未知<220>
<223>Neo,來自Promega公司的pCI-neo中的新霉素基因。
<400>2Met Ile Glu Gln Asp Gly Leu His Ala Gly Ser Pro Ala Ala Trp Val1 5 10 15Glu Arg Leu Phe Gly Tyr Asp Trp Ala Gln Gln Thr Ile Gly Cys Ser20 25 30Asp Ala Ala Val Phe Arg Leu Ser Ala Gln Gly Arg Pro Val Leu Phe35 40 45Val Lys Thr Asp Leu Ser Gly Ala Leu Asn Glu Leu Gln Asp Glu Ala50 55 60Ala Arg Leu Ser Trp Leu Ala Thr Thr Gly Val Pro Cys Ala Ala Val65 70 75 80Leu Asp Val Val Thr Glu Ala Gly Arg Asp Trp Leu Leu Leu Gly Glu85 90 95Val Pro Gly Gln Asp Leu Leu Ser Ser His Leu Ala Pro Ala Glu Lys100 105 110Val Ser Ile Met Ala Asp Ala Met Arg Arg Leu His Thr Leu Asp Pro115 120 125Ala Thr Cys Pro Phe Asp His Gln Ala Lys His Arg Ile Glu Arg Ala130 135 140Arg Thr Arg Met Glu Ala Gly Leu Val Asp Gln Asp Asp Leu Asp Glu145 150 155 160Glu His Gln Gly Leu Ala Pro Ala Glu Leu Phe Ala Arg Leu Lys Ala
165 170 175Arg Met Pro Asp Gly Glu Asp Leu Val Val Thr His Gly Asp Ala Cys180 185 190Leu Pro Asn Ile Met Val Glu Asn Gly Arg Phe Ser Gly Phe Ile Asp195 200 205Cys Gly Arg Leu Gly Val Ala Asp Arg Tyr Gln Asp Ile Ala Leu Ala210 215 220Thr Arg Asp Ile Ala Glu Glu Leu Gly Gly Glu Trp Ala Asp Arg Phe225 230 235 240Leu Val Leu Tyr Gly Ile Ala Ala Pro Asp Ser Gln Arg Ile Ala Phe245 250 255Tyr Arg Leu Leu Asp Glu Phe Phe260<210>3<211>825<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>3ccactcagtg gccaccatga tcgagcagga cggcctgcac gccggcagcc ccgccgcctg 60ggtggagcgc ctgttcggct acgactgggc ccagcagacc atcggctgca gcgacgccgc 120cgtgttccgc ctgagcgccc agggccgccc cgtgctgttc gtgaagaccg acctgagcgg 180cgccctgaac gagctgcagg acgaggccgc ccgcctgagc tggctggcca ccaccggcgt 240gccctgcgcc gccgtgctgg acgtggtgac cgaggccggc cgcgactggc tgctgctggg 300cgaggtgccc ggccaggacc tgctgagcag ccacctggcc cccgccgaga aggtgagcat 360catggccgac gccatgcgcc gcctgcacac cctggacccc gccacctgcc ccttcgacca 420ccaggccaag caccgcatcg agcgcgcccg cacccgcatg gaggccggcc tggtggacca 480ggacgacctg gacgaggagc accagggcct ggcccccgcc gagctgttcg cccgcctgaa 540ggcccgcatg cccgacggcg aggacctggt ggtgacccac ggcgacgcct gcctgcccaa 600catcatggtg gagaacggcc gcttcagcgg cttcatcgac tgcggccgcc tgggcgtggc 660cgaccgctac caggacatcg ccctggccac ccgcgacatc gccgaggagc tgggcggcga 720gtgggccgac cgcttcctgg tgctgtacgg catcgccgcc cccgacagcc agcgcatcgc 780
cttctaccgc ctgctggacg agttcttcta ataaccagtc tctgg 825<210>4<211>825<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>4ccactcagtg gccaccatga tcgagcagga cggcctgcac gccggcagcc ccgccgcctg 60ggtggagcgc ctgttcggct acgactgggc ccagcagacc atcggctgca gcgacgccgc 120cgtgttccgc ctgagcgccc agggccgccc cgtgctgttc gtgaagaccg acctgagcgg 180cgccctgaac gagctgcagg acgaggccgc ccgcctgagc tggctggcca ccaccggcgt 240gccctgcgcc gccgtgctgg acgtggtgac cgaggccggc cgcgactggc tgctgctggg 300cgaggtgccc ggccaggacc tgctgagcag ccacctggcc cccgccgaga aggtgagcat 360catggccgac gccatgcgcc gcctgcacac cctggacccc gccacctgcc ccttcgacca 420ccaggccaag caccgcatcg agcgcgcccg cacccgcatg gaggccggcc tggtggacca 480ggacgacctg gacgaggagc accagggcct ggcccccgcc gagctgttcg cccgcctgaa 540ggcccgcatg cccgacggcg aggacctggt ggtgacccac ggcgacgcct gcctgcccaa 600catcatggtg gagaacggcc gcttcagcgg cttcatcgac tgcggccgcc tgggcgtggc 660cgaccgctac caggacatcg ccctggccac ccgcgacatc gccgaggagc tgggcggcga 720gtgggccgac cgcttcctgg tgctgtacgg catcgccgcc cccgacagcc agcgcatcgc 780cttctaccgc ctgctggacg agttcttcta ataaccagtc tctgg 825<210>5<211>818<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>5cctgcaggcc accatgatcg aacaagacgg cctccatgct ggcagtcccg cagcttgggt 60cgaacgcttg ttcgggtacg actgggccca gcagaccatc ggatgtagcg atgcggccgt 120
gttccgtcta agcgctcaag gccggcccgt gctgttcgtg aagaccgacc tgagcggcgc 180cctgaacgag cttcaagacg aggctgcccg cctgagctgg ctggccacca ccggtgtacc 240ctgcgccgct gtgttggatg ttgtgaccga agccggccgg gactggctgc tgctgggcga 300ggtccctggc caggatctgc tgagcagcca ccttgccccc gctgagaagg tttccatcat 360ggccgatgca atgcggcgcc tgcacaccct ggaccccgct acatgcccct tcgaccacca 420ggctaagcat cggatcgagc gtgctcggac ccgcatggag gccggcctgg tggaccagga 480cgacctggac gaggagcatc agggcctggc ccccgctgaa ctgttcgccc gcctgaaagc 540ccgcatgccg gacggtgagg acctggttgt gacacatggt gatgcctgcc tccctaacat 600catggtcgag aatggccgct tctccggctt catcgactgc ggtcgcctag gagttgccga 660ccgctaccag gacatcgccc tggccacccg cgacatcgct gaggagcttg gcggcgagtg 720ggccgaccgc ttcttagtct tgtacggcat cgcagctccc gacagccagc gcatcgcctt 780ctaccgcctg ctcgacgagt tcttttaatg agcttaag 818<210>6<211>1024<212>DNA<213>大腸桿菌(Escherichia coli)<400>6atgaaaaagc ctgaactcac cgcgacgtct gtcgagaagt ttctgatcga aaagttcgac 60agcgtctccg acctgatgca gctctcggag ggcgaagaat ctcgtgcttt cagcttcgat 120gtaggagggc gtggatatgt cctgcgggta aatagctgcg ccgatggttt ctacaaagat 180cgttatgttt atcggcactt tgcatcggcc gcgctcccga ttccggaagt gcttgacatt 240ggggaattca gcgagagcct gacctattgc atctcccgcc gtgcacaggg tgtcacgttg 300caagacctgc ctgaaaccga actgcccgct gttctgcagc cggtcgcgga ggccatggat 360gcgatcgctg cggccgatct tagccagacg agcgggttcg gcccattcgg accgcaagga 420atcggtcaat acactacatg gcgtgatttc atatgcgcga ttgctgatcc ccatgtgtat 480cactggcaaa ctgtgatgga cgacaccgtc agtgcgtccg tcgcgcaggc tctcgatgag 540ctgatgcttt gggccgagga ctgccccgaa gtccggcacc tcgtgcacgc ggatttcggc 600tccaacaatg tcctgacgga caatggccgc ataacagcgg tcattgactg gagcgaggcg 660atgttcgggg attcccaata cgaggtcgcc aacatcttct tctggaggcc gtggttggct 720tgtatggagc agcagacgcg ctacttcgag cggaggcatc cggagcttgc aggatcgccg 780cggctccggg cgtatatgct ccgcattggt cttgaccaac tctatcagag cttggttgac 840ggcaatttcg atgatgcagc ttgggcgcag ggtcgatgcg acgcaatcgt ccgatccgga 900gccgggactg tcgggcgtac acaaatcgcc cgcagaagcg cggccgtctg gaccgatggc 960tgtgtagaag tactcgccga tagtggaaac cgacgcccca gcactcgtcc gagggcaaag 1020gaat 1024
<210>7<211>341<212>PRT<213>大腸桿菌(Escherichia coli)<400>7Met Lys Lys Pro Glu Leu Thr Ala Thr Ser Val Glu Lys Phe Leu Ile1 5 10 15Glu Lys Phe Asp Ser Val Ser Asp Leu Met Gln Leu Ser Glu Gly Glu20 25 30Glu Ser Arg Ala Phe Ser Phe Asp Val Gly Gly Arg Gly Tyr Val Leu35 40 45Arg Val Asn Ser Cys Ala Asp Gly Phe Tyr Lys Asp Arg Tyr Val Tyr50 55 60Arg His Phe Ala Ser Ala Ala Leu Pro Ile Pro Glu Val Leu Asp Ile65 70 75 80Gly Glu Phe Ser Glu Ser Leu Thr Tyr Cys Ile Ser Arg Arg Ala Gln85 90 95Gly Val Thr Leu Gln Asp Leu Pro Glu Thr Glu Leu Pro Ala Val Leu100 105 110Gln Pro Val Ala Glu Ala Met Asp Ala Ile Ala Ala Ala Asp Leu Ser115 120 125Gln Thr Ser Gly Phe Gly Pro Phe Gly Pro Gln Gly Ile Gly Gln Tyr130 135 140Thr Thr Trp Arg Asp Phe Ile Cys Ala Ile Ala Asp Pro His Val Tyr145 150 155 160His Trp Gln Thr Val Met Asp Asp Thr Val Ser Ala Ser Val Ala Gln165 170 175Ala Leu Asp Glu Leu Met Leu Trp Ala Glu Asp Cys Pro Glu Val Arg180 185 190His Leu Val His Ala Asp Phe Gly Ser Asn Asn Val Leu Thr Asp Asn195 200 205Gly Arg Ile Thr Ala Val Ile Asp Trp Ser Glu Ala Met Phe Gly Asp210 215 220Ser Gln Tyr Glu Val Ala Asn Ile Phe Phe Trp Arg Pro Trp Leu Ala225 230 235 240
Cys Met Glu Gln Gln Thr Arg Tyr Phe Glu Arg Arg His Pro Glu Leu245 250 255Ala Gly Ser Pro Arg Leu Arg Ala Tyr Met Leu Arg Ile Gly Leu Asp260 265 270Gln Leu Tyr Gln Ser Leu Val Asp Gly Ash Phe Asp Asp Ala Ala Trp275 280 285Ala Gln Gly Arg Cys Asp Ala Ile Val Arg Ser Gly Ala Gly Thr Val290 295 300Gly Arg Thr Gln Ile Ala Arg Arg Ser Ala Ala Val Trp Thr Asp Gly305 310 315 320Cys Val Glu Val Leu Ala Asp Ser Gly Asn Arg Arg Pro Ser Thr Arg325 330 335Pro Arg Ala Lys Glu340<210>8<211>1056<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>8ccactcagtg gccaccatga agaagcccga gctgaccgcc accagcgtgg agaagttcct 60gatcgagaag ttcgacagcg tgagcgacct gatgcagctg agcgagggcg aggagagccg 120cgccttcagc ttcgacgtgg gcggccgcgg ctacgtgctg cgcgtgaaca gctgcgccga 180cggcttctac aaggaccgct acgtgtaccg ccacttcgcc agcgccgccc tgcccatccc 240cgaggtgctg gacatcggcg agttcagcga gagcctgacc tactgcatca gccgccgcgc 300ccagggcgtg accctgcagg acctgcccga gaccgagctg cccgccgtgc tgcagcccgt 360ggccgaggcc atggacgcca tcgccgccgc cgacctgagc cagaccagcg gcttcggccc 420cttcggcccc cagggcatcg gccagtacac cacctggcgc gacttcatct gcgccatcgc 480cgacccccac gtgtaccact ggcagaccgt gatggacgac accgtgagcg ccagcgtggc 540ccaggccctg gacgagctga tgctgtgggc cgaggactgc cccgaggtgc gccacctggt 600gcacgccgac ttcggcagca acaacgtgct gaccgacaac ggccgcatca ccgccgtgat 660cgactggagc gaggccatgt tcggcgacag ccagtacgag gtggccaaca tcttcttctg 720gcgcccctgg ctggcctgca tggagcagca gacccgctac ttcgagcgcc gccaccccga 780
gctggccggc agcccccgcc tgcgcgccta catgctgcgc atcggcctgg accagctgta 840ccagagcctg gtggacggca acttcgacga cgccgcctgg gcccagggcc gctgcgacgc 900catcgtgcgc agcggcgccg gcaccgtggg ccgcacccag atcgcccgcc gcagcgccgc 960cgtgtggacc gacggctgcg tggaggtgct ggccgacagc ggcaaccgcc gccccagcac 1020ccgcccccgc gccaaggagt aataaccagc tcttgg 1056<210>9<211>1056<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>9ccactccgtg gccaccatga agaagcccga gctgaccgct accagcgttg aaaaatttct 60catcgagaag ttcgacagtg tgagcgacct gatgcagttg tcggagggcg aagagagccg 120agccttcagc ttcgatgtcg gcggacgcgg ctatgtactg cgggtgaata gctgcgctga 180tggcttctac aaagaccgct acgtgtaccg ccacttcgcc agcgctgcac tacccatccc 240cgaagtgttg gacatcggcg agttcagcga gagcctgaca tactgcatca gtagacgcgc 300ccaaggcgtt actctccaag acctccccga aacagagctg cctgctgtgt tacagcctgt 360cgccgaagct atggatgcta ttgccgccgc cgacctcagt caaaccagcg gcttcggccc 420attcgggccc caaggcatcg gccagtacac aacctggcgg gatttcattt gcgccattgc 480tgatccccat gtctaccact ggcagaccgt gatggacgac accgtgtccg ccagcgtagc 540tcaagccctg gacgaactga tgctgtgggc cgaagactgt cccgaggtgc gccacctcgt 600ccatgccgac ttcggcagca acaacgtcct gaccgacaac ggccgcatca ccgccgtaat 660cgactggtcc gaagctatgt tcggggacag tcagtacgag gtggccaaca tcttcttctg 720gcggccctgg ctggcttgca tggagcagca gactcgctac ttcgagcgcc ggcatcccga 780gctggccggc agccctcgtc tgcgagccta catgctgcgc atcggcctgg atcagctcta 840ccagagcctc gtggacggca acttcgacga tgctgcctgg gctcaaggcc gctgcgatgc 900catcgtccgc agcggggccg gcaccgtcgg tcgcacacaa atcgctcgcc ggagcgccgc 960cgtatggacc gacggctgcg tcgaggtgct ggccgacagc ggcaaccgcc ggcccagtac 1020acgaccgcgc gctaaggagt agtaaccagg ctctgg 1056<210>10<211>1048<212>DNA
<213>人工序列<220>
<223>合成構(gòu)建體<400>10cctgcaggcc accatgaaga agcccgagct gaccgctacc agcgttgaaa aatttctcat 60cgagaagttc gacagtgtga gcgacctgat gcagttgtcg gagggcgaag agagccgagc 120cttcagcttc gatgtcggcg gacgcggcta tgtactgcgg gtgaatagct gcgctgatgg 180cttctacaaa gaccgctacg tgtaccgcca cttcgccagc gctgcactac ccatccccga 240agtgttggac atcggcgagt tcagcgagag cctgacatac tgcatcagta gacgcgccca 300aggcgttact ctccaagacc tccccgaaac agagctgcct gctgtgttac agcctgtcgc 360cgaagctatg gatgctattg ccgccgccga cctcagtcaa accagcggct tcggcccatt 420cgggccccaa ggcatcggcc agtacacaac ctggcgggat ttcatttgcg ccattgctga 480tccccatgtc taccactggc agaccgtgat ggacgacacc gtgtccgcca gcgtagctca 540agccctggac gaactgatgc tgtgggccga agactgtccc gaggtgcgcc acctcgtcca 600tgccgacttc ggcagcaaca acgtcctgac cgacaacggc cgcatcaccg ccgtaatcga 660ctggtccgaa gctatgttcg gggacagtca gtacgaggtg gccaacatct tcttctggcg 720gccctggctg gcttgcatgg agcagcagac tcgctacttc gagcgccggc atcccgagct 780ggccggcagc cctcgtctgc gagcctacat gctgcgcatc ggcctggatc agctctacca 840gagcctcgtg gacggcaact tcgacgatgc tgcctgggct caaggccgct gcgatgccat 900cgtccgcagc ggggccggca ccgtcggtcg cacacaaatc gctcgccgga gcgccgccgt 960atggaccgac ggctgcgtcg aggtgctggc cgacagcggc aaccgccggc ccagtacacg 1020accgcgcgct aaggagtagt aacttaag1048<210>11<211>1174<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>11ggatccgttt gcgtattggg cgctcttccg ctgatctgcg cagcaccatg gcctgaaata 60acctctgaaa gaggaacttg gttagctacc ttctgaggcg gaaagaacca gctgtggaat 120
gtgtgtcagt tagggtgtgg aaagtcccca ggctccccag caggcagaag tatgcaaagc 180atgcatctca attagtcagc aaccaggtgt ggaaagtccc caggctcccc agcaggcaga 240agtatgcaaa gcatgcatct caattagtca gcaaccatag tcccgcccct aactccgccc 300atcccgcccc taactccgcc cagttccgcc cattctccgc cccatggctg actaattttt 360tttatttatg cagaggccga ggccgcctct gcctctgagc tattccagaa gtagtgagga 420ggcttttttg gaggcctagg cttttgcaaa aagctcgatt cttctgacac tagcgccacc 480atgaccgagt acaagcctac cgtgcgcctg gccactcgcg atgatgtgcc ccgcgccgtc 540cgcactctgg ccgccgcttt cgccgactac cccgctaccc ggcacaccgt ggaccccgac 600cggcacatcg agcgtgtgac agagttgcag gagctgttcc tgacccgcgt cgggctggac 660atcggcaagg tgtgggtagc cgacgacggc gcggccgtgg ccgtgtggac tacccccgag 720agcgttgagg ccggcgccgt gttcgccgag atcggccccc gaatggccga gctgagcggc 780agccgcctgg ccgcccagca gcaaatggag ggcctgcttg ccccccatcg tcccaaggag 840cctgcctggt ttctggccac tgtaggagtg agccccgacc accagggcaa gggcttgggc 900agcgccgtcg tgttgcccgg cgtagaggcc gccgaacgcg ccggtgtgcc cgcctttctc 960gaaacaagcg caccaagaaa ccttccattc tacgagcgcc tgggcttcac cgtgaccgcc 1020gatgtcgagg tgcccgaggg acctaggacc tggtgtatga cacgaaaacc tggcgcctaa 1080tgatctagaa ccggtcatgg ccgcaataaa atatctttat tttcattaca tctgtgtgtt 1140ggttttttgt gtgttcgaac tagatgctgt cgac 1174<210>12<211>1776<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>12atggcttcca aggtgtacga ccccgagcaa cgcaaacgca tgatcactgg gcctcagtgg 60tgggctcgct gcaagcaaat gaacgtgctg gactccttca tcaactacta tgattccgag 120aagcacgccg agaacgccgt gatttttctg catggtaacg ctgcctccag ctacctgtgg 180aggcacgtcg tgcctcacat cgagcccgtg gctagatgca tcatccctga tctgatcgga 240atgggtaagt ccggcaagag cgggaatggc tcatatcgcc tcctggatca ctacaagtac 300ctcaccgctt ggttcgagct gctgaacctt ccaaagaaaa tcatctttgt gggccacgac 360tggggggctt gtctggcctt tcactactcc tacgagcacc aagacaagat caaggccatc 420gtccatgctg agagtgtcgt ggacgtgatc gagtcctggg acgagtggcc tgacatcgag 480gaggatatcg ccctgatcaa gagcgaagag ggcgagaaaa tggtgcttga gaataacttc 540
ttcgtcgaga ccatgctccc aagcaagatc atgcggaaac tggagcctga ggagttcgct 600gcctacctgg agccattcaa ggagaagggc gaggttagac ggcctaccct ctcctggcct 660cgcgagatcc ctctcgttaa gggaggcaag cccgacgtcg tccagattgt ccgcaactac 720aacgcctacc ttcgggccag cgacgatctg cctaagatgt tcatcgagtc cgaccctggg 780ttcttttcca acgctattgt cgagggagct aagaagttcc ctaacaccga gttcgtgaag 840gtgaagggcc tccacttcag ccaggaggac gctccagatg aaatgggtaa gtacatcaag 900agcttcgtgg agcgcgtgct gaagaacgag cagaccggtg gtgggagcgg aggtggcgga 960tcaggtggcg gaggctccgg agggattgaa caagatggat tgcacgcagg ttctccggcc 1020gcttgggtgg agaggctatt cggctatgac tgggcacaac agacaatcgg ctgctctgat 1080gccgccgtgt tccggctgtc agcgcagggg cgcccggttc tttttgtcaa gaccgacctg 1140tccggtgccc tgaatgaact gcaggacgag gcagcgcggc tatcgtggct ggccacgacg 1200ggcgttcctt gcgcagctgt gctcgacgtt gtcactgaag cgggaaggga ctggctgcta 1260ttgggcgaag tgccggggca ggatctcctg tcatctcacc ttgctcctgc cgagaaagta 1320tccatcatgg ctgatgcaat gcggcggctg catacgcttg atccggctac ctgcccattc 1380gaccaccaag cgaaacatcg catcgagcga gcacgtactc ggatggaagc cggtcttgtc 1440gatcaggatg atctggacga agagcatcag gggctcgcgc cagccgaact gttcgccagg 1500ctcaaggcgc gcatgcccga cggcgaggat ctcgtcgtga cccatggcga tgcctgcttg 1560ccgaatatca tggtggaaaa tggccgcttt tctggattca tcgactgtgg ccggctgggt 1620gtggcggacc gctatcagga catagcgttg gctacccgtg atattgctga agagcttggc 1680ggcgaatggg ctgaccgctt cctcgtgctt tacggtatcg ccgctcccga ttcgcagcgc 1740atcgccttct atcgccttct tgacgagttc ttctaa 1776<210>13<211>1776<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>13atgattgaac aagatggatt gcacgcaggt tctccggccg cttgggtgga gaggctattc 60ggctatgact gggcacaaca gacaatcggc tgctctgatg ccgccgtgtt ccggctgtca 120gcgcaggggc gcccggttct ttttgtcaag accgacctgt ccggtgccct gaatgaactg 180caggacgagg cagcgcggct atcgtggctg gccacgacgg gcgttccttg cgcagctgtg 240ctcgacgttg tcactgaagc gggaagggac tggctgctat tgggcgaagt gccggggcag 300gatctcctgt catctcacct tgctcctgcc gagaaagtat ccatcatggc tgatgcaatg 360
cggcggctgc atacgcttga tccggctacc tgcccattcg accaccaagc gaaacatcgc 420atcgagcgag cacgtactcg gatggaagcc ggtcttgtcg atcaggatga tctggacgaa 480gagcatcagg ggctcgcgcc agccgaactg ttcgccaggc tcaaggcgcg catgcccgac 540ggcgaggatc tcgtcgtgac ccatggcgat gcctgcttgc cgaatatcat ggtggaaaat 600ggccgctttt ctggattcat cgactgtggc cggctgggtg tggcggaccg ctatcaggac 660atagcgttgg ctacccgtga tattgctgaa gagcttggcg gcgaatgggc tgaccgcttc 720ctcgtgcttt acggtatcgc cgctcccgat tcgcagcgca tcgccttcta tcgccttctt 780gacgagttct tcaccggtgg tgggagcgga ggtggcggat caggtggcgg aggctccgga 840ggggcttcca aggtgtacga ccccgagcaa cgcaaacgca tgatcactgg gcctcagtgg 900tgggctcgct gcaagcaaat gaacgtgctg gactccttca tcaactacta tgattccgag 960aagcacgccg agaacgccgt gatttttctg catggtaacg ctgcctccag ctacctgtgg 1020aggcacgtcg tgcctcacat cgagcccgtg gctagatgca tcatccctga tctgatcgga 1080atgggtaagt ccggcaagag cgggaatggc tcatatcgcc tcctggatca ctacaagtac 1140ctcaccgctt ggttcgagct gctgaacctt ccaaagaaaa tcatctttgt gggccacgac 1200tggggggctt gtctggcctt tcactactcc tacgagcacc aagacaagat caaggccatc 1260gtccatgctg agagtgtcgt ggacgtgatc gagtcctggg acgagtggcc tgacatcgag 1320gaggatatcg ccctgatcaa gagcgaagag ggcgagaaaa tggtgcttga gaataacttc 1380ttcgtcgaga ccatgctccc aagcaagatc atgcggaaac tggagcctga ggagttcgct 1440gcctacctgg agccattcaa ggagaagggc gaggttagac ggcctaccct ctcctggcct 1500cgcgagatcc ctctcgttaa gggaggcaag cccgacgtcg tccagattgt ccgcaactac 1560aacgcctacc ttcgggccag cgacgatctg cctaagatgt tcatcgagtc cgaccctggg 1620ttcttttcca acgctattgt cgagggagct aagaagttcc ctaacaccga gttcgtgaag 1680gtgaagggcc tccacttcag ccaggaggac gctccagatg aaatgggtaa gtacatcaag 1740agcttcgtgg agcgcgtgct gaagaacgag cagtaa 1776<210>14<211>1653<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>14atggccgatg ctaagaacat taagaagggc cctgctccct tctaccctct ggaggatggc 60accgctggcg agcagctgca caaggccatg aagaggtatg ccctggtgcc tggcaccatt 120gccttcaccg atgcccacat tgaggtggac atcacctatg ccgagtactt cgagatgtct 180
gtgcgcctgg ccgaggccat gaagaggtac ggcctgaaca ccaaccaccg catcgtggtg 240tgctctgaga actctctgca gttcttcatg ccagtgctgg gcgccctgtt catcggagtg 300gccgtggccc ctgctaacga catttacaac gagcgcgagc tgctgaacag catgggcatt 360tctcagccta ccgtggtgtt cgtgtctaag aagggcctgc agaagatcct gaacgtgcag 420aagaagctgc ctatcatcca gaagatcatc atcatggact ctaagaccga ctaccagggc 480ttccagagca tgtacacatt cgtgacatct catctgcctc ctggcttcaa cgagtacgac 540ttcgtgccag agtctttcga cagggacaaa accattgccc tgatcatgaa cagctctggg 600tctaccggcc tgcctaaggg cgtggccctg cctcatcgca ccgcctgtgt gcgcttctct 660cacgcccgcg accctatttt cggcaaccag atcatccccg acaccgctat tctgagcgtg 720gtgccattcc accacggctt cggcatgttc accaccctgg gctacctgat ttgcggcttt 780cgggtggtgc tgatgtaccg cttcgaggag gagctgttcc tgcgcagcct gcaagactac 840aaaattcagt ctgccctgct ggtgccaacc ctgttcagct tcttcgctaa gagcaccctg 900atcgacaagt acgacctgtc taacctgcac gagattgcct ctggcggcgc cccactgtct 960aaggaggtgg gcgaagccgt ggccaagcgc tttcatctgc caggcatccg ccagggctac 1020ggcctgaccg agacaaccag cgccattctg attaccccag agggcgacga caagcctggc 1080gccgtgggca aggtggtgcc attcttcgag gccaaggtgg tggacctgga caccggcaag 1140accctgggag tgaaccagcg cggcgagctg tgtgtgcgcg gccctatgat tatgtccggc 1200tacgtgaata accctgaggc cacaaacgcc ctgatcgaca aggacggctg gctgcactct 1260ggcgacattg cctactggga cgaggacgag cacttcttca tcgtggaccg cctgaagtct 1320ctgatcaagt acaagggcta ccaggtggcc ccagccgagc tggagtctat cctgctgcag 1380caccctaaca ttttcgacgc cggagtggcc ggcctgcccg acgacgatgc cggcgagctg 1440cctgccgccg tcgtcgtgct ggaacacggc aagaccatga ccgagaagga gatcgtggac 1500tatgtggcca gccaggtgac aaccgccaag aagctgcgcg gcggagtggt gttcgtggac 1560gaggtgccca agggcctgac cggcaagctg gacgcccgca agatccgcga gatcctgatc 1620aaggctaaga aaggcggcaa gatcgccgtg taa 1653<210>15<211>597<212>DNA<213>鏈霉菌(Streptomyces sp.)<400>15atgaccgagt acaagcccac ggtgcgcctc gccacccgcg acgacgtccc ccgggccgta 60cgcaccctcg ccgccgcgtt cgccgactac cccgccacgc gccacaccgt cgacccggac 120cgccacatcg agcgggtcac cgagctgcaa gaactcttcc tcacgcgcgt cgggctcgac 180atcggcaagg tgtgggtcgc ggacgacggc gccgcggtgg cggtctggac cacgccggag 240agcgtcgaag cgggggcggt gttcgccgag atcggcccgc gcatggccga gttgagcggt 300
tcccggctgg ccgcgcagca acagatggaa ggcctcctgg cgccgcaccg gcccaaggag 360cccgcgtggt tcctggccac cgtcggcgtg tcgcccgacc accagggcaa gggtctgggc 420agcgccgtcg tgctccccgg agtggaggcg gccgagcgcg ccggggtgcc cgccttcctg 480gagacctccg cgccccgcaa cctccccttc tacgagcggc tcggcttcac cgtcaccgcc 540gacgtcgagg tgcccgaagg accgcgcacctggtgcatga cccgcaagcc cggtgcc 597<210>16<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>16aaagccacca tggaggacgc caagaacatc aagaagggcc ccgccccctt ctaccccctg 60gaggacggca ccgccggcga gcagctgcac aaggccatga agcgctacgc cctggtgccc 120ggcaccatcg ccttcaccga cgcccacatc gaggtggaca tcacctacgc cgagtacttc 180gagatgagcg tgcgcctggc cgaggccatg aagcgctacg gcctgaacac caaccaccgc 240atcgtggtgt gcagcgagaa cagcctgcag ttcttcatgc ccgtgctggg cgccctgttc 300atcggcgtgg ccgtggcccc cgccaacgac atctacaacg agcgcgagct gctgaacagc 360atgggcatca gccagcccac cgtggtgttc gtgagcaaga agggcctgca gaagatcctg 420aacgtgcaga agaagctgcc catcatccag aagatcatca tcatggacag caagaccgac 480taccagggct tccagagcat gtacaccttc gtgaccagcc acctgccccc cggcttcaac 540gagtacgact tcgtgcccga gagcttcgac cgcgacaaga ccatcgccct gatcatgaac 600agcagcggca gcaccggcct gcccaagggc gtggccctgc cccaccgcac cgcctgcgtg 660cgcttcagcc acgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgccatc 720ctgagcgtgg tgcccttcca ccacggcttc ggcatgttca ccaccctggg ctacctgatc 780tgcggcttcc gcgtggtgct gatgtaccgc ttcgaggagg agctgttcct gcgcagcctg 840caggactaca agatccagag cgccctgctg gtgcccaccc tgttcagctt cttcgccaag 900agcaccctga tcgacaagta cgacctgagc aacctgcacg agatcgccag cggcggcgcc 960cccctgagca aggaggtggg cgaggccgtg gccaagcgct tccacctgcc cggcatccgc 1020cagggctacg gcctgaccga gaccaccagc gccatcctga tcacccccga gggcgacgac 1080aagcccggcg ccgtgggcaa ggtggtgccc ttcttcgagg ccaaggtggt ggacctggac 1140accggcaaga ccctgggcgt gaaccagcgc ggcgagctgt gcgtgcgcgg ccccatgatc 1200atgagcggct acgtgaacaa ccccgaggcc accaacgccc tgatcgacaa ggacggctgg 1260ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgc 1320
ctgaagagcc tgatcaagta caagggctac caggtggccc ccgccgagct ggagagcatc 1380ctgctgcagc accccaacat cttcgacgcc ggcgtggccg gcctgcccga cgacgacgcc 1440ggcgagctgc ccgccgccgt ggtggtgctg gagcacggca agaccatgac cgagaaggag 1500atcgtggact acgtggccag ccaggtgacc accgccaaga agctgcgcgg cggcgtggtg 1560ttcgtggacg aggtgcccaa gggcctgacc ggcaagctgg acgcccgcaa gatccgcgag 1620atcctgatca aggccaagaa gggcggcaag atcgccgtgt aataattcta ga 1672<210>17<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>17aaagccacca tggaggacgc caagaacatc aagaagggcc cagcgccatt ctaccccctg 60gaggacggca ccgccggcga gcagctgcac aaggccatga agcgctacgc cctggtgccc 120ggcaccatcg ccttcaccga cgcacatatc gaggtggaca tcacctacgc cgagtacttc 180gagatgagcg ttcggctggc agaggctatg aagcgctatg ggctgaacac caaccatcgc 240atcgtggtgt gcagcgagaa cagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300atcggcgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctg 420aacgtgcaaa agaagctgcc catcatccaa aagatcatca tcatggacag caagaccgac 480taccagggct tccaaagcat gtacaccttc gtgaccagcc atttgccgcc cggcttcaac 540gagtacgact tcgtgcccga gagcttcgac cgcgacaaga ccatcgccct gatcatgaac 600agtagtggca gtaccggctt acctaagggc gtggccctac cgcaccgcac cgcctgtgtc 660cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720ctgagcgtgg tgccatttca ccacggcttc ggcatgttca ccaccctggg ctacttgatc 780tgcggcttcc gggtcgtgct gatgtaccgc ttcgaggagg agctattctt gcgcagcttg 840caagactaca agattcaaag cgccctgctg gtgcccaccc tgttcagttt cttcgccaag 900agcaccctga tcgacaagta cgacctgagc aacctgcacg agatcgccag cggcggcgcc 960ccgctcagca aggaggtggg cgaggccgtg gccaagcgct tccacctgcc aggcatccgc 1020cagggctacg gcctgaccga gacaaccagc gccattctga tcacccccga gggggacgac 1080aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacctggac 1140accggtaaaa ccctgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200atgagcggct acgttaacaa ccccgaggct acaaacgccc tgatcgacaa ggacggctgg 1260
ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380ctgctgcagc accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440ggcgagctgc ccgccgcagt cgtggtgctg gagcacggta aaaccatgac cgagaaggag 1500atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg cggcgtggtg 1560ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620attctgatca aggccaagaa gggcggcaag atcgccgtgt aataattcta ga 1672<210>18<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>18aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactg 60gaggacggca ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120ggcaccatcg cctttaccga cgcacatatc gaggtggaca tcacctacgc cgagtacttc 180gagatgagcg ttcggctggc agaggctatg aagcgctatg ggctgaatac caaccatcgc 240atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480taccagggct tccaaagcat gtacaccttc gtgaccagcc atttgccacc cggcttcaac 540gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcctgtgtc 660cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840caagactata agattcaaag cgccctgctg gtgcccacac tgttcagctt cttcgccaag 900agcactctca tcgacaagta cgacctgagc aacctgcacg agatcgccag cggcggggcg 960ccgctcagca aggaggtggg cgaggccgtg gccaagcgct tccacctacc aggcatccgc 1020cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140accggtaaga ccctgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200
atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440ggcgagctgc ccgccgcagt cgtcgtgctg gagcacggta aaaccatgac cgagaaggag 1500atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga 1672<210>19<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>19aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60gaagacggca ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaacac caaccatcgc 240atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840caagactata agattcaaag cgccctgctg gtgcccacac tgttcagttt cttcgccaag 900agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960ccgctcagca aggaggtggg cgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080
aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga 1672<210>20<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>20aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60gaagacggca ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaacac caaccatcgg 240atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840caagactata agattcaaag cgccctgctg gtgcccacac tgttcagttt cttcgctaag 900agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960ccgctcagca aggaggtggg cgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020
cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga 1672<210>21<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>21aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60gaagacggca ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaatac aaaccatcgg 240atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840caagactata agattcaaag cgccctgctg gtgcccacac tgttcagttt cttcgctaag 900agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960
ccgctcagca aggaggtagg tgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga 1672<210>22<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>22aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60gaagacggga ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaatac aaaccatcgg 240atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840caagactata agattcaatc tgccctgctg gtgcccacac tatttagctt cttcgctaag 900
agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960ccgctcagca aggaggtagg tgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga 1672<210>23<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>23aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60gaagacggga ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaatac aaaccatcgg 240atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840
caagactata agattcaatc tgccctgctg gtgcccacac tatttagctt cttcgctaag 900agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960ccgctcagca aggaggtagg tgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560ttcgtggacg aggtgcctaa aggactgacc ggcaagttgg acgcccgcaa gatccgcgag 1620attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga 1672<210>24<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>24aaagccacca tggaggatgc taagaatatt aagaaggggc ctgctccttt ttatcctctg 60gaggatggga cagctgggga gcagctgcat aaggctatga agagatatgc tctggtgcct 120gggacaattg cttttacaga tgctcatatt gaggtggata ttacatatgc tgagtatttt 180gagatgtctg tgagactggc tgaggctatg aagagatatg ggctgaatac aaatcataga 240attgtggtgt gttctgagaa ttctctgcag ttttttatgc ctgtgctggg ggctctgttt 300attggggtgg ctgtggctcc tgctaatgat atttataatg agagagagct gctgaattct 360atggggattt ctcagcctac agtggtgttt gtgtctaaga aggggctgca gaagattctg 420aatgtgcaga agaagctgcc tattattcag aagattatta ttatggattc taagacagat 480tatcaggggt ttcagtctat gtatacattt gtgacatctc atctgcctcc tgggtttaat 540gagtatgatt ttgtgcctga gtcttttgat agagataaga caattgctct gattatgaat 600tcttctgggt ctacagggct gcctaagggg gtggctctgc ctcatagaac agcttgtgtg 660agattttctc atgctagaga tcctattttt gggaatcaga ttattcctga tacagctatt 720ctgtctgtgg tgccttttca tcatgggttt gggatgttta caacactggg gtatctgatt 780
tgtgggttta gagtggtgct gatgtataga tttgaggagg agctgtttct gagatctctg 840caggattata agattcagtc tgctctgctg gtgcctacac tgttttcttt ttttgctaag 900tctacactga ttgataagta tgatctgtct aatctgcatg agattgcttc tgggggggct 960cctctgtcta aggaggtggg ggaggctgtg gctaagagat ttcatctgcc tgggattaga 1020caggggtatg ggctgacaga gacaacatct gctattctga ttacacctga gggggatgat 1080aagcctgggg ctgtggggaa ggtggtgcct ttttttgagg ctaaggtggt ggatctggat 1140acagggaaga cactgggggt gaatcagaga ggggagctgt gtgtgagagg gcctatgatt 1200atgtctgggt atgtgaataa tcctgaggct acaaatgctc tgattgataa ggatgggtgg 1260ctgcattctg gggatattgc ttattgggat gaggatgagc atttttttat tgtggataga 1320ctgaagtctc tgattaagta taaggggtat caggtggctc ctgctgagct ggagtctatt 1380ctgctgcagc atcctaatat ttttgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggggagctgc ctgctgctgt ggtggtgctg gagcatggga agacaatgac agagaaggag 1500attgtggatt atgtggcttc tcaggtgaca acagctaaga agctgagagg gggggtggtg 1560tttgtggatg aggtgcctaa ggggctgaca gggaagctgg atgctagaaa gattagagag 1620attctgatta aggctaagaa gggggggaag attgctgtgt aataattcta ga 1672<210>25<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>25aaagccacca tggaagatgc taaaaacatt aagaaggggc ctgctccttt ctaccctctg 60gaggatggga ctgccgggga gcagctgcat aaagctatga agcggtatgc tctggtgcca 120ggcacaattg cgttcacgga tgctcacatt gaggtggaca ttacatacgc tgagtatttt 180gagatgtcgg tgcggctggc tgaggctatg aagcgatatg ggctgaatac aaaccataga 240attgtagtgt gctctgagaa ctcgttgcag ttttttatgc ctgtgctggg ggctctcttc 300atcggggtgg ctgtggctcc tgctaacgac atttacaatg agagagagct tttgaactcg 360atggggattt ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420aatgtgcaaa agaagctgcc tattattcaa aagattatta ttatggactc taagacagac 480taccaggggt ttcagtctat gtatacattt gtgacatctc atctgcctcc tgggttcaac 540gagtatgact ttgtgcccga gtctttcgac agagataaga caattgctct gattatgaat 600tcatctgggt ctaccgggct gcctaagggt gtagctctgc cacatagaac agcttgtgtg 660agattttctc atgctaggga ccctattttt gggaatcaga ttattcctga tactgctatt 720
ctgtcggttg tgccctttca tcatgggttt gggatgttta caacactggg ctacctgata 780tgtgggttta gagtggtgct catgtatagg tttgaggagg agcttttttt gcgctctctg 840caagattata agattcagtc tgctctgctg gtgcctacac tgttttcttt ttttgctaag 900tctaccctga tcgataagta tgatctgtcc aacctgcacg agattgcttc tgggggggct 960cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggaatcaga 1020caggggtatg ggctaacaga aacaacatct gctattctga ttacaccaga gggggatgat 1080aagcccgggg ctgtagggaa agtggtgccc ttttttgaag ctaaagtagt tgatcttgat 1140accggtaaga cactgggggt gaatcagcga ggggaactgt gtgtgagagg gcctatgatt 1200atgtcggggt atgtgaacaa ccctgaggct acaaatgctc tgattgataa ggatgggtgg 1260ctgcattcgg gcgatattgc ttactgggat gaggatgagc atttcttcat cgtggacaga 1320ctgaagtcgt tgatcaaata taaggggtat caagtagctc ctgctgagct ggagtccatt 1380ctgcttcaac atcctaacat tttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggggagctgc ctgctgctgt agtggtgctg gagcacggta agacaatgac agagaaggag 1500attgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560tttgtggatg aggtgcctaa agggctgaca ggcaagctgg atgctagaaa aattcgagag 1620attctgatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga 1672<210>26<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>26aaagccacca tggaagatgc taaaaacatt aagaaggggc ctgctccttt ctaccctctt 60gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120ggcacaattg cgttcacgga tgctcacatt gaggtggaca tcacatacgc tgagtatttt 180gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360atggggattt ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420aatgtgcaaa agaagctgcc tattattcaa aagattatta ttatggactc taagaccgac 480taccaggggt ttcagtctat gtatacattt gtgacatctc atctgcctcc tggcttcaac 540gagtacgact tcgtgcccga gtctttcgac agagataaga caattgctct gatcatgaat 600tcatccgggt ctaccgggct gcctaagggt gtagctctgc cccatagaac agcttgtgtg 660
agattttctc atgctaggga ccctattttt gggaatcaga ttattcctga cactgctatt 720ctgtcggtgg tgccctttca tcatgggttt gggatgttta caacactggg ctacctaata 780tgtgggttta gagtggtgct catgtatagg tttgaagaag agctgttctt acgctctttg 840caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020caggggtatg ggctaacaga aacaacatct gctattctga ttacaccaga gggggatgat 1080aagcccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgagagg gcctatgatt 1200atgtcggggt acgttaacaa ccccgaagct acaaatgctc tgattgataa ggatggctgg 1260ctgcattcgg gcgacattgc ttactgggat gaggatgagc atttcttcat cgtggacaga 1320ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgctgagct ggaatccatt 1380ctgcttcaac atcccaacat tttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggggagttgc ctgctgctgt agtggtgctt gagcacggta agacaatgac agagaaggag 1500atcgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgctagaaa aattcgagag 1620attctgatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga 1672<210>27<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>27aaagccacca tggaagatgc taaaaacatt aagaaggggc ctgctccctt ctaccctctt 60gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120ggcacaattg cgttcacgga tgctcacatt gaggtggaca tcacatacgc tgagtatttt 180gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420aatgtgcaaa agaagctgcc tattattcaa aagattatta ttatggactc taagacagac 480taccaggggt ttcagtccat gtatacattt gtgacatctc atctgcctcc tggcttcaac 540gagtacgact tcgtgcccga gtctttcgac agagataaga caattgctct gatcatgaat 600
tcatccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660agattctctc atgccaggga cccgatcttt gggaatcaga ttattcctga cactgctatt 720ctgtcggtgg tgccctttca tcatgggttt gggatgttta caacactggg atacctaata 780tgtgggttta gagtggtgct catgtatagg tttgaagaag aactgttctt acgctctttg 840caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080aagcccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200atgtcggggt acgttaacaa ccccgaagct acaaatgctc ttattgataa ggatggctgg 1260ttgcattcgg gcgacattgc ctactgggat gaggatgagc atttcttcat cgtggacaga 1320ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgctgagct ggaatccatt 1380ctgcttcaac atccaaacat tttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggagagttgc ctgctgctgt agtagtgctt gagcacggta agacaatgac agagaaggag 1500atcgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga 1672<210>28<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>28aaagccacca tggaagatgc taaaaacatt aagaaggggc ctgctccctt ctaccctctt 60gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120ggcacaattg cgttcacgga tgctcacatt gaggtggaca tcacatacgc tgagtatttt 180gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctgcc tattatacaa aagattatta ttatggactc taagaccgac 480taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaac 540gagtacgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600tcatccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660agattctctc atgccaggga cccgatcttt gggaatcaga ttattcctga cactgctatt 720ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080aaacccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200atgtcggggt acgttaacaa ccccgaagct acaaatgctc ttattgataa ggatggctgg 1260ttgcattcgg gcgacattgc ctactgggat gaggatgagc atttcttcat cgtggacaga 1320ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgctgagct ggaatccatt 1380ctgcttcaac atcctaacat tttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggagagttgc ctgctgctgt agtagtgctt gagcacggta agacaatgac agagaaggag 1500atcgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga 1672<210>29<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>29aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120ggcacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360
atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420aatgtgcaaa agaagctgcc tattatacaa aagattatta ttatggactc taagaccgac 480taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaac 540gagtacgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600agctccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080aaacccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260cttcatagcg gcgacattgc ctactgggac gaggatgagc atttcttcat cgtggacaga 1320ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgctgagct ggaatccatt 1380ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggagagctgc ctgctgctgt agtagtgctt gagcacggta agacaatgac agagaaggag 1500atcgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga 1672<210>30<211>1056<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>30ccactcagtg gccaccatga agaagcccga gctgaccgct accagcgttg agaagttcct 60gatcgagaag ttcgacagcg tgagcgacct gatgcagtta agcgagggcg aggaaagccg 120cgccttcagc ttcgatgtcg gcggacgcgg ctatgtactg cgggtgaata gctgcgctga 180tggcttctac aaagaccgct acgtgtaccg ccacttcgcc agcgctgcac tgcccatccc 240cgaggtgctg gacatcggcg agttcagcga gagcctgaca tactgcatca gccgccgcgc 300
tcaaggcgtg actctccaag acctgcccga gacagagctg cccgctgtgc tacagcctgt 360cgccgaggct atggacgcta ttgccgccgc cgacctgagc cagaccagcg gcttcggccc 420attcgggccc caaggcatcg gccagtacac cacctggcgc gacttcatct gcgccattgc 480tgatccccat gtctaccact ggcagaccgt gatggacgac accgtgagcg ccagcgtagc 540tcaagccctg gacgagctga tgctgtgggc cgaggactgc cccgaggtgc gccatctcgt 600ccatgccgac ttcggcagca acaacgtcct gaccgacaac ggccgcatca ccgccgtaat 660cgactggagc gaggccatgt tcggggacag tcagtacgag gtggccaaca tcttcttctg 720gcggccctgg ctggcctgca tggagcagca aacccgctac ttcgagcgcc gccatcccga 780gctggccggc agcccccgtc tgcgagccta catgctgcgc atcggcctgg atcagctcta 840ccagagcctc gtggacggca acttcgacga tgctgcctgg gctcaaggcc gctgcgatgc 900catcgtccgc agcggggccg gcaccgtcgg tcgcacacaa atcgctcgcc ggagcgccgc 960cgtatggacc gacggctgcg tcgaggtgct ggccgacagc ggcaaccgcc ggcccagtac 1020acgaccgcgc gctaaggagt agtaaccagc tcttgg 1056<210>31<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>31aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120gggacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420aatgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaac 540gagtacgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600agctccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780
tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080aaacctgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260cttcatagcg gcgacattgc ctactgggac gaggatgagc atttcttcat cgtggacaga 1320ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgccgagct tgagtccatt 1380ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggagagctgc ctgctgctgt agtagtgctt gagcatggta agacaatgac agagaaggag 1500atcgtggatt atgtggcttc acaagtgaca acagctaaga aactccgagg tggcgttgtg 1560tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga 1672<210>32<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>32aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120gggacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300attggggtgg ctgtggctcc tgctaatgac atctacaacg agcgagagct gttgaacagt 360atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420aatgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaat 540gagtatgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600agcagtgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720
ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080aaacctgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140accggtaaga cactaggggt gaaccagaga ggtgaattgt gtgtgagggg ccctatgatt 1200atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260cttcatagtg gagatattgc ctactgggat gaagatgagc atttcttcat cgtggacaga 1320ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgccgagct tgagtccatt 1380ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggagagctgc ctgctgctgt agtagtgctt gagcatggta agacaatgac agagaaggag 1500atcgtggatt atgtggcttc acaagtgaca acagctaaga aactccgagg tggcgttgtg 1560tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga 1672<210>33<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>33aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120gggacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300attggggtgg ctgtggctcc tgctaatgac atctacaacg agcgagagct gttgaacagt 360atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420aatgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaat 540gagtatgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600agcagtgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660
agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080aaacctgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140accggtaaga cactaggggt gaaccagaga ggtgaattgt gtgtgagggg ccctatgatt 1200atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260cttcatagtg gagatattgc ctactgggat gaagatgagc atttcttcat cgtggacaga 1320ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgccgagct tgagtccatt 1380ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggagagctgc ctgctgctgt agtagtgctt gagcatggta agacaatgac agagaaggag 1500atcgtggatt atgtggcttc acaagtgaca acagctaaga aactccgagg tggcgttgtg 1560tttgtggatg aggtgcctaa aggactcact ggcaagctgg atgccagaaa aattcgagag 1620attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga 1672<210>34<211>10<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>34gccaccatga10<210>35<211>11<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體
<220>
<221>其他特征<222>4,5,6,7,8<223>n=A、T、C或G<400>35ccannnnntg g 11<210>36<211>25<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<220>
<221>其他特征<222>1,2,3,4,5,9,10,11,12,13<223>n=A、T、C或G<400>36nnnnnccann nnntggccac catgg25<210>37<211>20<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<220>
<221>其他特征<222>10,11,12,13,14,18,19,20<223>n=A、T、c或G
<400>37taataaccan nnnntggnnn 20<210>38<211>825<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>38ccactcagtg gccaccatga tcgagcagga cggcctccat gctggcagtc ccgcagcctg 60ggtcgagcgc ttgttcgggt acgactgggc ccagcagacc atcggatgta gcgatgccgc 120agtgttccgc ctgagcgctc aaggccggcc cgtgctgttc gtgaagaccg acctgagcgg 180cgccctgaac gagcttcaag acgaggctgc ccgcctgagc tggctggcca ccaccggtgt 240accctgcgcc gctgtgttgg atgttgtgac cgaagccggc cgcgactggc tgctgctggg 300cgaggtgcct ggccaggacc tgctgagcag ccacctggcc cccgctgaga aggtgagcat 360catggccgac gccatgcggc gcctgcacac cctggacccc gctacatgcc ccttcgacca 420ccaggctaag caccgcatcg agcgggctcg gacccgcatg gaggccggcc tggtggacca 480ggacgacctg gacgaggagc accagggcct ggcccccgct gaactgttcg cccgcctgaa 540agcccgcatg ccggacggtg aggacctggt tgtgacacac ggcgacgcct gcctccctaa 600catcatggtc gagaacgggc gcttctccgg cttcatcgac tgcggccgcc tgggcgttgc 660cgaccgctac caggacatcg ccctggccac ccgcgacatc gccgaggagc tgggcggcga 720gtgggccgac cgcttcctgg tcttgtacgg catcgcagct cccgacagcc agcgcatcgc 780cttctaccgc ctgctggacg agttcttcta gtaaccaggc tctgg 825<210>39<211>825<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>39ccactccgtg gccaccatga tcgaacaaga cggcctccat gctggcagtc ccgcagcttg 60
ggtcgaacgc ttgttcgggt acgactgggc ccagcagacc atcggatgta gcgatgcggc 120cgtgttccgt ctaagcgctc aaggccggcc cgtgctgttc gtgaagaccg acctgagcgg 180cgccctgaac gagcttcaag acgaggctgc ccgcctgagc tggctggcca ccaccggtgt 240accctgcgcc gctgtgttgg atgttgtgac cgaagccggc cgggactggc tgctgctggg 300cgaggtccct ggccaggatc tgctgagcag ccaccttgcc cccgctgaga aggtttccat 360catggccgat gcaatgcggc gcctgcacac cctggacccc gctacatgcc ccttcgacca 420ccaggctaag catcggatcg agcgtgctcg gacccgcatg gaggccggcc tggtggacca 480ggacgacctg gacgaggagc atcagggcct ggcccccgct gaactgttcg cccgcctgaa 540agcccgcatg ccggacggtg aggacctggt tgtgacacat ggagatgcct gcctccctaa 600catcatggtc gagaatggcc gcttctccgg cttcatcgac tgcggtcgcc taggagttgc 660cgaccgctac caggacatcg ccctggccac ccgcgacatc gctgaggagc ttggcggcga 720gtgggccgac cgcttcttag tcttgtacgg catcgcagct cccgacagcc agcgcatcgc 780cttctaccgc ctgctcgacg agttctttta atgaccaggc tctgg 825<210>40<400>40000<210>41<211>861<212>DNA<213>大腸桿菌(Escherichia coli)<400>41atgagtattc aacatttccg tgtcgccctt attccctttt ttgcggcatt ttgccttcct 60gtttttgctc acccagaaac gctggtgaaa gtaaaagatg ctgaagatca gttgggtgca 120cgagtgggtt acatcgaact ggatctcaac agcggtaaga tccttgagag ttttcgcccc 180gaagaacgtt ttccaatgat gagcactttt aaagttctgc tatgtggcgc ggtattatcc 240cgtattgacg ccgggcaaga gcaactcggt cgccgcatac actattctca gaatgacttg 300gttgagtact caccagtcac agaaaagcat cttacggatg gcatgacagt aagagaatta 360tgcagtgctg ccataaccat gagtgataac actgcggcca acttacttct gacaacgatc 420ggaggaccga aggagctaac cgcttttttg cacaacatgg gggatcatgt aactcgcctt 480gatcgttggg aaccggagct gaatgaagcc ataccaaacg acgagcgtga caccacgatg 540cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg gcgaactact tactctagct 600tcccggcaac aattaataga ctggatggag gcggataaag ttgcaggacc acttctgcgc 660tcggcccttc cggctggctg gtttattgct gataaatctg gagccggtga gcgtgggtct 720
cgcggtatca ttgcagcact ggggccagat ggtaagccct cccgtatcgt agttatctac 780acgacgggga gtcaggcaac tatggatgaa cgaaatagac agatcgctga gataggtgcc 840tcactgatta agcattggta a 861<210>42<211>1056<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>42ccactccgtg gccaccatga agaagcccga gctgaccgct accagcgttg aaaaatttct 60catcgagaag ttcgacagtg tgagcgacct gatgcagttg tcggagggcg aagagagccg 120agccttcagc ttcgatgtcg gcggacgcgg ctatgtactg cgggtgaata gctgcgctga 180tggcttctac aaagaccgct acgtgtaccg ccacttcgcc agcgctgcac tacccatccc 240cgaagtgttg gacatcggcg agttcagcga gagcctgaca tactgcatca gtagacgcgc 300ccaaggcgtt actctccaag acctccccga aacagagctg cctgctgtgt tacagcctgt 360cgccgaagct atggatgcta ttgccgccgc cgacctcagt caaaccagcg gcttcggccc 420attcgggccc caaggcatcg gccagtacac aacctggcgg gatttcattt gcgccattgc 480tgatccccat gtctaccact ggcagaccgt gatggacgac accgtgtccg ccagcgtagc 540tcaagccctg gacgaactga tgctgtgggc cgaagactgt cccgaggtgc gccacctcgt 600ccatgccgac ttcggcagca acaacgtcct gaccgacaac ggccgcatca ccgccgtaat 660cgactggagc gaggctatgt tcggggacag tcagtacgag gtggccaaca tcttcttctg 720gcggccctgg ctggcttgca tggagcagca gactcgctac ttcgagcgcc ggcatcccga 780gctggccggc agccctcgtc tgcgagccta catgctgcgc atcggcctgg atcagctcta 840ccagagcctc gtggacggca acttcgacga tgctgcctgg gctcaaggcc gctgcgatgc 900catcgtccgc agcggggccg gcaccgtcgg tcgcacacaa atcgctcgcc ggagcgccgc 960cgtatggacc gacggctgcg tcgaggtgct ggccgacagc ggcaaccgcc ggcccagtac 1020acgaccgcgc gctaaggagt agtaaccagc tcttgg 1056<210>43<211>1653<212>DNA<213>人工序列
<220>
<223>合成構(gòu)建體<400>43atggaagacg ccaaaaacat aaagaaaggc ccggcgccat tctatccgct ggaagatgga 60accgctggag agcaactgca taaggctatg aagagatacg ccctggttcc tggaacaatt 120gcttttacag atgcacatat cgaggtggac atcacttacg ctgagtactt cgaaatgtcc 180gttcggttgg cagaagctat gaaacgatat gggctgaata caaatcacag aatcgtcgta 240tgcagtgaaa actctcttca attctttatg ccggtgttgg gcgcgttatt tatcggagtt 300gcagttgcgc ccgcgaacga catttataat gaacgtgaat tgctcaacag tatgggcatt 360tcgcagccta ccgtggtgtt cgtttccaaa aaggggttgc aaaaaatttt gaacgtgcaa 420aaaaagctcc caatcatcca aaaaattatt atcatggatt ctaaaacgga ttaccaggga 480tttcagtcga tgtacacgtt cgtcacatct catctacctc ccggttttaa tgaatacgat 540tttgtgccag agtccttcga tagggacaag acaattgcac tgatcatgaa ctcctctgga 600tctactggtc tgcctaaagg tgtcgctctg cctcatagaa ctgcctgcgt gagattctcg 660catgccagag atcctatttt tggcaatcaa atcattccgg atactgcgat tttaagtgtt 720gttccattcc atcacggttt tggaatgttt actacactcg gatatttgat atgtggattt 780cgagtcgtct taatgtatag atttgaagaa gagctgtttc tgaggagcct tcaggattac 840aagattcaaa gtgcgctgct ggtgccaacc ctattctcct tcttcgccaa aagcactctg 900attgacaaat acgatttatc taatttacac gaaattgctt ctggtggcgc tcccctctct 960aaggaagtcg gggaagcggt tgccaagagg ttccatctgc caggtatcag gcaaggatat 1020gggctcactg agactacatc agctattctg attacacccg agggggatga taaaccgggc 1080gcggtcggta aagttgttcc attttttgaa gcgaaggttg tggatctgga taccgggaaa 1140acgctgggcg ttaatcaaag aggcgaactg tgtgtgagag gtcctatgat tatgtccggt 1200tatgtaaaca atccggaagc gaccaacgcc ttgattgaca aggatggatg gctacattct 1260ggagacatag cttactggga cgaagacgaa cacttcttca tcgttgaccg cctgaagtct 1320ctgattaagt acaaaggcta tcaggtggct cccgctgaat tggaatccat cttgctccaa 1380caccccaaca tcttcgacgc aggtgtcgca ggtcttcccg acgatgacgc cggtgaactt 1440cccgccgccg ttgttgtttt ggagcacgga aagacgatga cggaaaaaga gatcgtggat 1500tacgtcgcca gtcaagtaac aaccgcgaaa aagttgcgcg gaggagttgt gtttgtggac 1560gaagtaccga aaggtcttac cggaaaactc gacgcaagaa aaatcagaga gatcctcata 1620aaggccaaga agggcggaaa gatcgccgtg taa 1653<210>44<211>1369<212>DNA
<213>人工序列<220>
<223>合成構(gòu)建體<400>44ggatccgttt gcgtattggg cgctcttccg ctgatctgcg cagcaccatg gcctgaaata 60acctctgaaa gaggaacttg gttagctacc ttctgaggcg gaaagaacca gctgtggaat 120gtgtgtcagt tagggtgtgg aaagtcccca ggctccccag caggcagaag tatgcaaagc 180atgcatctca attagtcagc aaccaggtgt ggaaagtccc caggctcccc agcaggcaga 240agtatgcaaa gcatgcatct caattagtca gcaaccatag tcccgcccct aactccgccc 300atcccgcccc taactccgcc cagttccgcc cattctccgc cccatggctg actaattttt 360tttatttatg cagaggccga ggccgcctct gcctctgagc tattccagaa gtagtgagga 420ggcttttttg gaggcctagg cttttgcaaa aagctcgatt cttctgacac tagcgccacc 480atgatcgaac aagacggcct ccatgctggc agtcccgcag cttgggtcga acgcttgttc 540gggtacgact gggcccagca gaccatcgga tgtagcgatg cggccgtgtt ccgtctaagc 600gctcaaggcc ggcccgtgct gttcgtgaag accgacctga gcggcgccct gaacgagctt 660caagacgagg ctgcccgcct gagctggctg gccaccaccg gcgtaccctg cgccgctgtg 720ttggatgttg tgaccgaagc cggccgggac tggctgctgc tgggcgaggt ccctggccag 780gatctgctga gcagccacct tgcccccgct gagaaggttt ctatcatggc cgatgcaatg 840cggcgcctgc acaccctgga ccccgctacc tgccccttcg accaccaggc taagcatcgg 900atcgagcgtg ctcggacccg catggaggcc ggcctggtgg accaggacga cctggacgag 960gagcatcagg gcctggcccc cgctgaactg ttcgcccgac tgaaagcccg catgccggac 1020ggtgaggacc tggttgtcac acacggagat gcctgcctcc ctaacatcat ggtcgagaat 1080ggccgcttct ccggcttcat cgactgcggt cgcctaggag ttgccgaccg ctaccaggac 1140atcgccctgg ccacccgcga catcgctgag gagcttggcg gcgagtgggc cgaccgcttc 1200ttagtcttgt acggcatcgc agctcccgac agccagcgca tcgccttcta ccgcttgctc 1260gacgagttct tttaatgatc tagaaccggt catggccgca ataaaatatc tttattttca 1320ttacatctgt gtgttggttt tttgtgtgtt cgaactagat gctgtcgac 1369<210>45<211>1214<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體
<400>45gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420cacatgatca cccatattat gaagaaatgc agtcagctcc ttagggcctc cgatcgttgt 480cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcttg agagaccgcg 960atcgccacca tgtctaggta ggtagtaaac gaaagggctt aaaggcctaa gtggccctcg 1020agtccagcct tgagttggtt gagtccaagt cacgtttgga gatctggtac cttacgcgta 1080tgagggttga gtccaagtca cgtttggaga tctggtacct tacgcgtatg agctctacgt 1140agctagcggc ctcggcggcc gaattcttgc gttcgaagct tggcaatccg gtactgttgg 1200taaagccacc atgg 1214<210>46<211>1522<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>46gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240
tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420cacatgatca cccatattat gaagaaatgc agtcagctcc ttagggcctc cgatcgttgt 480cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcaag agatttgtgc 960atacacagtg actcatactt tcaccaatac tttgcatttt ggataaatac tagacaactt 1020tagaagtgaa ttatttatga ggttgtctta aaattaaaaa ttacaaagta ataaatcaca 1080ttgtaatgta ttttgtgtga tacccagagg tttaaggcaa cctattactc ttatgctcct 1140gaagtccaca attcacagtc ctgaactata atcttatctt tgtgattgct gagcaaattt 1200gcagtataat ttcagtgctt ttaaattttg tcctgcttac tattttcctt ttttatttgg 1260gtttgatatg cgtgcacaga atggggcttc tattaaaata ttcttgagag accgcgatcg 1320ccaccatgtc taggtaggta gtaaacgaaa gggcttaaag gcctaagtgg ccctcgagtc 1380cagccttgag ttggttgagt ccaagtcacg tttggagatc tggtacctta cgcgtatgag 1440ctctacgtag ctagcggcct cggcggccga attcttgcgt tcgaagcttg gcaatccggt 1500actgttggta aagccaccat gg 1522<210>47<211>1134<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>47gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300
aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420cacatgatca cccatattat gaagaaatgc agtcagctcc ttagggcctc cgatcgttgt 480cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcgtcct 900ttttcaatat tattgaagca tttatcaggg ttactagtac gtctctcaag agatttgtgc 960atacacagtg actcatactt tcaccaatac tttgcatttt ggataaatac tagacaactt 1020tagaagtgaa ttatttatga ggttgtctta aaattaaaaa ttacaaagta ataaatcaca 1080ttgtaatgta ttttgtgtga tacccagagg tttaaggcaa cctattactc ttat 1134<210>48<211>319<212>DNA<213>序列<220>
<223>合成構(gòu)建體<400>48actagtacgt ctctcaagga taagtaagta atattaaggt acgggaggta cttggagcgg 60ccgcaataaa atatctttat tttcattaca tctgtgtgtt ggttttttgt gtgaatcgat 120agtactaaca tacgctctcc atcaaaacaa aacgaaacaa aacaaactag caaaataggc 180tgtccccagt gcaagtgcag gtgccagaac atttctctgg cctaagtggc cggtaccgag 240ctcgctagcc tcgaggatat cagatctggc ctcggcggcc aagcttggca atccggtact 300gttggtaaag ccaccatgg 319<210>49<211>320<212>DNA<213>序列<220>
<223>合成構(gòu)建體<400>49actagtacgt ctctcaagga taagtaagta atattaaggt acgggaggta ttggacaggc 60cgcaataaaa tatctttatt ttcattacat ctgtgtgttg gttttttgtg tgaatcgata 120gtactaacat acgctctcca tcaaaacaaa acgaaacaaa acaaactagc aaaataggct 180gtccccagtg caagtgcagg tgccagaaca tttctctggc ctaactggcc ggtacctgag 240ctcgctagcc tcgaggatat caagatctgg cctcggcggc caagcttggc aatccggtac 300tgttggtaaa gccaccatgg 320<210>50<211>5<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>50tataa 5<210>51<211>6<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>51stratg6<210>52<211>9<212>DNA<213>人工序列
<220>
<223>合成構(gòu)建體<220>
<221>其他特征<222>4,6,7<223>n=A、T、C或G<400>52mttncnnma 9<210>53<211>5<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>53tratg 5<210>54<211>38<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>54gtactgagac gacgccagcc caagcttagg cctgagtg 38<210>55<211>38<212>DNA
<213>人工序列<220>
<223>合成構(gòu)建體<400>55ggcatgagcg tgaactgact gaactagcgg ccgccgag 38<210>56<211>24<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>56ggatcccatg gtgaagcgtg agaa 24<210>57<211>21<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>57ggatcccatg gtgaaacgcg a21<210>58<211>31<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體
<400>58ctagcttttt tttctagata atcatgaaga c31<210>59<211>32<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>59gcgtagccat ggtaaagcgt gagaaaaatg tc 32<210>60<211>33<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>60ccgactctag attactaacc gccggccttc acc 33<210>61<211>54<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>61caaaaagctt ggcattccgg tactgttggt aaagccacca tggtgaagcg agag 54
<210>62<211>26<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>62caattgttgt tgttaacttg tttatt 26<210>63<400>63000<210>64<400>64000<210>65<211>10<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>65caccatggct 10<210>66<211>40<212>DNA<213>人工序列
<220>
<223>合成構(gòu)建體<400>66aaccatggct tccaaggtgt acgaccccga gcaacgcaaa40<210>67<211>40<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>67gctctagaat tactgctcgt tcttcagcac gcgctccacg40<210>68<211>31<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>68cgctagccat ggcttcgaaa gtttatgatc c 31<210>69<211>25<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>69
ggccagtaac tctagaatta ttgtt 25<210>70<211>1092<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>70aagcttgcta gcgccaccat gaagaagccc gagctcaccg ctaccagcgt tgaaaaattt 60ctcatcgaga agttcgacag tgtgagcgac ctgatgcagt tgtcggaggg cgaagagagc 120cgagccttca gcttcgatgt cggcggacgc ggctatgtac tgcgggtgaa tagctgcgct 180gatggcttct acaaagaccg ctacgtgtac cgccacttcg ccagcgctgc actacccatc 240cccgaagtgt tggacatcgg cgagttcagc gagagcctga catactgcat cagtagacgc 300gcccaaggcg ttactctcca agacctcccc gaaacagagc tgcctgctgt gttacagcct 360gtcgccgaag ctatggatgc tattgccgcc gccgacctca gtcaaaccag cggcttcggc 420ccattcgggc cccaaggcat cggccagtac acaacctggc gggatttcat ttgcgccatt 480gctgatcccc atgtctacca ctggcagacc gtgatggacg acaccgtgtc cgccagcgta 540gctcaagccc tggacgaact gatgctgtgg gccgaagact gtcccgaggt gcgccacctc 600gtccatgccg acttcggcag caacaacgtc ctgaccgaca acggccgcat caccgccgta 660atcgactggt ccgaagctat gttcggggac agtcagtacg aggtggccaa catcttcttc 720tggcggccct ggctggcttg catggagcag cagactcgct acttcgagcg ccggcatccc 780gagctggccg gcagccctcg tctgcgagcc tacatgctgc gcatcggcct ggatcagctc 840taccagagcc tcgtggacgg caacttcgac gatgctgcct gggctcaagg ccgctgcgat 900gccatcgtcc gcagcggggc cggcaccgtc ggtcgcacac aaatcgctcg ccggagcgcc 960gccgtatgga ccgacggctg cgtcgaggtg ctggccgaca gcggcaaccg ccggcccagt 1020acacgaccgc gcgctaagga gggtggcgga gggagcggtg gcggaggttc ctacgtatag 1080tctagactcg ag 1092<210>71<211>1093<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>71aagcttgcta gcgccaccat gaagaagccc gagctcaccg ctaccagcgt tgaaaaattt 60ctcatcgaga agttcgacag tgtgagcgac ctgatgcagt tgtcggaggg cgaagagagc 120cgagccttca gcttcgatgt cggcggacgc ggctatgtac tgcgggtgaa tagctgcgct 180gatggcttct acaaagaccg ctacgtgtac cgccacttcg ccagcgctgc actacccatc 240cccgaagtgt tggacatcgg cgagttcagc gagagcctga catactgcat cagtagacgc 300gcccaaggcg ttactctcca agacctcccc gaaacagagc tgcctgctgt gttacagcct 360gtcgccgaag ctatggatgc tattgccgcc gccgacctca gtcaaaccag cggcttcggc 420ccattcgggc cccaaggcat cggccagtac acaacctggc gggatttcat ttgcgccatt 480gctgatcccc atgtctacca ctggcagacc gtgatggacg acaccgtgtc cgccagcgta 540gctcaagccc tggacgaact gatgctgtgg gccgaagact gtcccgaggt gcgccacctc 600gtccatgccg acttcggcag caacaacgtc ctgaccgaca acggccgcat caccgccgta 660atcgactggt ccgaagctat gttcggggac agtcagtacg aggtggccaa catcttcttc 720tggcggccct ggctggcttg catggagcag cagactcgct acttcgagcg ccggcatccc 780gagctggccg gcagccctcg tctgcgagcc tacatgctgc gcatcggcct ggatcagctc 840taccagagcc tcgtggacgg caacttcgac gatgctgcct gggctcaagg ccgctgcgat 900gccatcgtcc gcagcggggc cggcaccgtc ggtcgcacac aaatcgctcg ccggagcgca 960gccgtatgga ccgacggctg cgtcgaggtg ctggccgaca gcggcaaccg ccggcccagt 1020acacgaccgc gcgctaagga aggcggtgga ggtagtggtg gcggaggtag ctacgtataa 1080ctctagactc gag1093<210>72<211>813<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>72gctagcgcca ccatgatcga acaagacggc ctccatgctg gcagtcccgc agcttgggtc 60gaacgcttgt tcgggtacga ctgggcccag cagaccatcg gatgtagcga tgcggccgtg 120ttccgtctaa gcgctcaagg ccggcccgtg ctgttcgtga agaccgacct gagcggcgcc 180ctgaacgagc ttcaagacga ggctgcccgc ctgagctggc tggccaccac cggtgtaccc 240tgcgccgctg tgttggatgt tgtgaccgaa gccggccggg actggctgct gctgggcgag 300
gtccctggcc aggatctgct gagcagccac cttgcccccg ctgagaaggt ttccatcatg 360gccgatgcaa tgcggcgcct gcacaccctg gaccccgcta catgcccctt cgaccaccag 420gctaagcatc ggatcgagcg tgctcggacc cgcatggagg ccggcctggt ggaccaggac 480gacctggacg aggagcatca gggcctggcc cccgctgaac tgttcgcccg cctgaaagcc 540cgcatgccgg acggtgagga cctggttgtg acacatggtg atgcctgcct ccctaacatc 600atggtcgaga atggccgctt ctccggcttc atcgactgcg gtcgcctagg agttgccgac 660cgctaccagg acatcgccct ggccacccgc gacatcgctg aggagcttgg cggcgagtgg 720gccgaccgct tcttagtctt gtacggcatc gcagctcccg acagccagcg catcgccttc 780taccgcctgc tcgacgagtt cttttaatct aga 813<210>73<211>816<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>73gctagcgcca ccatgatcga acaagacggc ctccatgctg gcagtcccgc agcttgggtc 60gaacgcttgt tcgggtacga ctgggcccag cagaccatcg gatgtagcga tgcggccgtg 120ttccgtctaa gcgctcaagg ccggcccgtg ctgttcgtga agaccgacct gagcggcgcc 180ctgaacgagc ttcaagacga ggctgcccgc ctgagctggc tggccaccac cggcgtaccc 240tgcgccgctg tgttggatgt tgtgaccgaa gccggccggg actggctgct gctgggcgag 300gtccctggcc aggatctgct gagcagccac cttgcccccg ctgagaaggt ttctatcatg 360gccgatgcaa tgcggcgcct gcacaccctg gaccccgcta cctgcccctt cgaccaccag 420gctaagcatc ggatcgagcg tgctcggacc cgcatggagg ccggcctggt ggaccaggac 480gacctggacg aggagcatca gggcctggcc cccgctgaac tgttcgcccg actgaaagcc 540cgcatgccgg acggtgagga cctggttgtc acacacggag atgcctgcct ccctaacatc 600atggtcgaga atggccgctt ctccggcttc atcgactgcg gtcgcctagg agttgccgac 660cgctaccagg acatcgccct ggccacccgc gacatcgctg aggagcttgg cggcgagtgg 720gccgaccgct tcttagtctt gtacggcatc gcagctcccg acagccagcg catcgccttc 780taccgcttgc tcgacgagtt cttttaatga tctaga 816<210>74<211>1252<212>DNA
<213>人工序列<220>
<223>合成構(gòu)建體<400>74gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420cacatgatca cccatattat gaagaaatgc agtcagctcc ttagggcctc cgatcgttgt 480cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcgtcct 900ttttcaatat tattgaagca tttatcaggg ttactagtac gtctctcaag gataagtaag 960taatattaag gtacgggagg tattggacag gccgcaataa aatatcttta ttttcattac 1020atctgtgtgt tggttttttg tgtgaatcga tagtactaac atacgctctc catcaaaaca 1080aaacgaaaca aaacaaacta gcaaaatagg ctgtccccag tgcaagtgca ggtgccagaa 1140catttctctg gcctaactgg ccggtacctg agctcgctag cctcgaggat atcaagatct 1200ggcctcggcg gccaagcttg gcaatccggt actgttggta aagccaccat gg 1252<210>75<400>75000<210>76<211>228<212>DNA
<213>人工序列<220>
<223>合成構(gòu)建體<400>76actagtcgtc tctcttgaga gaccgcgatc gccaccatga taagtaagta atattaaata 60agtaaggcct gagtggccct cgagccagcc ttgagttggt tgagtccaag tcacgtctgg 120agatctggta cctacgcgtg agctctacgt agctagcggc ctcggcggcc gaattcttgc 180gatctaagta agcttggcat tccggtactg ttggtaaagc caccatgg 228<210>77<211>228<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>77actagtacgt ctctcttgag agaccgcgat cgccaccatg ataagtaagt aatattaaat 60aagtaaggcc tgagtggccc tcgagtccag ccttgagttg gttgagtcca agtcacgtct 120ggagatctgg taccttacgc gtagagctct acgtagctag cggcctcggc ggccgaattc 180ttgcgatcta agcttggcaa tccggtactg ttggtaaagc caccatgg 228<210>78<211>230<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>78actagtacgt ctctcttgag agaccgcgat cgcatgccta ggtaggtagt attagagcat 60aggtagaggc ctaagtggcc ctcgagtcca gccttgagtt ggttgagtcc aagtcacgtc 120tggagatctg gtaccttacg cgtatgagct ctacgtagct agcggcctcg gcggccgaat 180
tcttgcgatc taagcttggc aatccggtac tgttggtaaa gccaccatgg230<210>79<211>234<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>79actagtacgt ctctcttgag agaccgcgat cgccaccatg tctaggtagg tagtaaacga 60aagggcttaa aggcctaagt ggccctcgag tccagccttg agttggttga gtccaagtca 120cgtttggaga tctggtacct tacgcgtatg agctctacgt agctagcggc ctcggcggcc 180gaattcttgc gatctaagct tggcaatccg gtactgttgg taaagccacc atgg 234<210>80<211>938<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>80actagtaacc ctgataaatg cttcaataat attgaaaaag gaagagtatg agtattcaac 60atttccgtgt cgcccttatt cccttttttg cggcattttg ccttcctgtt tttgctcacc 120cagaaacgct ggtgaaagta aaagatgctg aagatcagtt gggtgcacga gtgggttaca 180tcgaactgga tctcaacagc ggtaagatcc ttgagagttt tcgccccgaa gaacgttttc 240caatgatgag cacttttaaa gttctgctat gtggcgcggt attatcccgt attgacgccg 300ggcaagagca actcggtcgc cgcatacact attctcagaa tgacttggtt gagtactcac 360cagtcacaga aaagcatctt acggatggca tgacagtaag agaattatgc agtgctgcca 420taaccatgag tgataacacc gcggccaact tacttctgac aacgatcgga ggaccgaagg 480agctaaccgc ttttttgcac aacatggggg atcatgtaac tcgccttgat cgttgggaac 540cggagctgaa tgaagccata ccaaacgacg agcgtgacac cacgatgcct gtagcaatgg 600caacaacgtt gcgcaaacta ttaactggcg aactacttac tctagcttcc cggcaacaat 660taatagactg gatggaggcg gataaagttg caggaccact tctgcgctcg gcccttccgg 720
ctggctggtt tattgctgat aaatctggag ccggtgagcg tggctctcgc ggtatcattg 780cagcactggg gccagatggt aagccctccc gtatcgtagt tatctacacg acggggagtc 840aggcaactat ggatgaacga aatagacaga tcgctgagat aggtgcctca ctgattaagc 900attggtaacc actgcagtgg ttttcctttt gcggccgc 938<210>81<211>938<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>81actagtaacc ctgataaatg ctgcaaacat attgaaaaag gaagagtatg agtattcaac 60atttccgtgt cgcactcatt cccttctttg cggcattttg cttgcctgtt tttgcacacc 120ccgaaacgct ggtgaaagta aaagatgctg aagatcaact gggtgcacga gtgggctata 180tcgaactgga tctcaatagc ggtaagatcc ttgagagttt tcgccccgaa gaacgttttc 240caatgatgag cacttttaaa gttctgctat gtggcgcggt attatcccgt attgacgccg 300ggcaagagca gctcggtcgc cgcatacact actcacagaa cgacttggtt gagtactcgc 360cggtcacgga aaagcatctt acggatggca tgacagtaag agaattgtgt agtgctgcca 420taaccatgag tgataacacc gcggccaact tacttctgac aacgatcgga ggccctaagg 480agctgaccgc atttttgcac aacatggggg atcatgtaac ccggcttgat cgttgggaac 540cggagctgaa cgaagccata ccgaacgacg agcgtgacac cacgatgcct gtagcaatgg 600caacaacgtt gcgcaaacta ctcactggcg aacttctcac tctagcatca cgacagcaac 660tcatagactg gatggaggcg gataaagttg caggaccact tctgcgctcg gcccttccgg 720ctggctggtt tatagctgat aaatccggtg ccggtgaacg cggctctcgc gggatcattg 780ctgcgctggg gccagatggt aagccctcac gaatcgtagt tatctacacg acggggagtc 840aggcaactat ggatgaacga aatagacaga tcgctgagat aggtgcctca ctgatcaagc 900actggtagcc actgcagtgg tttagctttt gcggccgc 938<210>82<211>938<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>82actagtaacc ctgacaaatg ctgcaaacat attgaaaaag gaagagtatg agcatccaac 60attttcgtgt cgcactcatt cccttctttg cggcattttg cttgcctgtt tttgcacacc 120ccgaaacgct ggtgaaagta aaagatgctg aagatcaact gggtgcaaga gtgggctata 180tcgaactgga tctcaatagc ggcaagatcc ttgagtcttt tcgccccgaa gaacgttttc 240cgatgatgag cacttttaaa gttctgctat gtggcgcggt gttgtcccgt atagacgccg 300ggcaagagca gcttggtcgc cgtatacact actcacaaaa cgacttggtt gagtactcgc 360cggtcacgga aaagcatctt acggatggca tgacggtaag agaattgtgt agtgctgcca 420ttaccatgag cgacaatacc gcggccaact tacttctgac aacgatcgga ggccctaagg 480agctgaccgc atttttgcac aacatggggg atcatgtaac ccggcttgac cgctgggaac 540cggagctgaa cgaagccata ccgaacgacg agcgtgacac cacgatgcct gtagcaatgg 600caacaacgtt gcggaaacta ctcactggcg aacttctcac tctagcatca cgacagcagc 660tcatagactg gatggaggcg gacaaagtag caggaccact tcttcgctcg gccctccctg 720ctggctggtt cattgctgat aaatccggtg ccggtgaacg cggctctcgc gggatcattg 780ctgcgctggg gcctgatggt aagccctcac gaatcgtagt aatctacacg acggggagtc 840aggccactat ggacgaacga aatagacaga tcgctgagat cggtgcctca ctgatcaagc 900actggtaacc actgcagtgg tttagcattt gcggccgc 938<210>83<211>938<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>83actagtaacc ctgacaaatg ctgcaaacat attgaaaaag gaagagtatg agcatccaac 60attttcgtgt cgcactcatt cccttctttg cggcattttg cttgcctgtt tttgcacacc 120ccgaaacgct ggtgaaagta aaagatgctg aagatcaact gggtgcaaga gtgggctata 180tcgaactgga tctcaatagc ggcaagatcc ttgagtcttt ccgccccgaa gaacgttttc 240cgatgatgag cactttcaaa gtactgctat gtggcgcggt gttgtcccgt atagacgccg 300ggcaagagca gcttggtcgc cgtatacact actcacaaaa cgacttggtt gagtactcgc 360cggtcacgga aaagcatctt acggatggca tgacggtaag agaattgtgt agtgctgcca 420ttaccatgag cgataatacc gcggccaact tacttctgac aacgatcgga ggccctaagg 480
agctgaccgc atttttgcac aacatgggtg atcatgtgac ccggcttgac cgctgggaac 540cggagctgaa cgaagccata ccgaacgacg agcgtgacac cacgatgcct gtagcaatgg 600caacaactct tcggaaacta ctcactggcg aacttctcac tctagcatca cgacagcagc 660tcatagactg gatggaggcg gacaaagtag caggaccact tcttcgctcg gccctccctg 720ctggctggtt cattgctgat aaatctggag ccggtgagcg tggctctcgc ggtatcattg 780ctgcgctggg gcctgatggt aagccctcac gaatcgtagt aatctacacg acggggagtc 840aggccactat ggacgaacga aatagacaga tcgctgagat cggtgcctca ctgatcaagc 900actggtaacc actgcagtgg tttagcattt gcggccgc 938<210>84<211>938<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>84actagtaacc ctgacaaatg ctgcaaacat attgaaaaag gaagagtatg agcatccaac 60attttcgtgt cgcactcatt cccttctttg cggcattttg cttgcctgtt tttgcacacc 120ccgaaacgct ggtgaaagta aaagatgctg aagatcaact gggtgcaaga gtgggctata 180tcgaactgga tctcaatagc ggcaagatcc ttgagtcttt ccgccccgaa gaacgattcc 240cgatgatgag cactttcaaa gtactgctat gtggcgcggt gttgtcccgt atagacgccg 300ggcaagagca gcttggtcgc cgtatacact actcacaaaa cgacttggtt gagtactcgc 360cggtcacgga aaagcatctt acggatggca tgacggtaag agaattgtgt agtgctgcca 420ttaccatgag cgataatacc gcggccaact tacttctgac aacgatcgga ggccctaagg 480agctgaccgc atttttgcac aacatgggtg atcatgtgac ccggcttgac cgctgggaac 540cggagctgaa cgaagccata ccgaacgacg agcgtgatac cacgatgcca gtagcaatgg 600ccacaactct tcggaaacta ctcactggcg aacttctcac tctagcatca cgacagcagc 660tcatagactg gatggaggcg gacaaagtag caggaccact tcttcgctcg gccctccctg 720ctggctggtt cattgctgac aaatccggtg ccggtgaacg cggctctcgc ggcatcattg 780ctgcgctggg gcctgatggt aagccctcac gaatcgtagt aatctacacg acggggagtc 840aggccactat ggacgaacga aatagacaga tcgctgagat cggtgcctca ctgatcaagc 900actggtaacc actgcagtgg tttagcattt gcggccgc 938<210>85
<400>85000<210>86<400>86000<210>87<400>87000<210>88<211>1038<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>88atgaagaagc ccgaactcac cgctaccagc gttgaaaaat ttctcatcga gaagttcgac 60agtgtgagcg acctgatgca gttgtcggag ggcgaagaga gccgagcctt cagcttcgat 120gtcggcggac gcggctatgt actgcgggtg aatagctgcg ctgatggctt ctacaaagac 180cgctacgtgt accgccactt cgccagcgct gcactaccca tccccgaagt gttggacatc 240ggcgagttca gcgagagcct gacatactgc atcagtagac gcgcccaagg cgttactctc 300caagacctcc ccgaaacaga gctgcctgct gtgttacagc ctgtcgccga agctatggat 360gctattgccg ccgccgacct cagtcaaacc agcggcttcg gcccattcgg gccccaaggc 420atcggccagt acacaacctg gcgggatttc atttgcgcca ttgctgatcc ccatgtctac 480cactggcaga ccgtgatgga cgacaccgtg tccgccagcg tagctcaagc cctggacgaa 540ctgatgctgt gggccgaaga ctgtcccgag gtgcgccacc tcgtccatgc cgacttcggc 600agcaacaacg tcctgaccga caacggccgc atcaccgccg taatcgactg gtccgaagct 660atgttcgggg acagtcagta cgaggtggcc aacatcttct tctggcggcc ctggctggct 720tgcatggagc agcagactcg ctacttcgag cgccggcatc ccgagctggc cggcagccct 780cgtctgcgag cctacatgct gcgcatcggc ctggatcagc tctaccagag cctcgtggac 840ggcaacttcg acgatgctgc ctgggctcaa ggccgctgcg atgccatcgt ccgcagcggg 900
gccggcaccg tcggtcgcac acaaatcgct cgccggagcg cagccgtatg gaccgacggc 960tgcgtcgagg tgctggccga cagcggcaac cgccggccca gtacacgacc gcgcgctaag 1020gaggtaggtc gagtttaa 1038<210>89<211>4333<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>89ggcctaactg gccggtacct gagctcgcta gcctcgagga tatcaagatc tggcctcggc 60ggccaagctt ggcaatccgg tactgttggt aaagccacca tggaagatgc caaaaacatt 120aagaagggcc cagcgccatt ctacccactc gaagacggga ccgccggcga gcagctgcac 180aaagccatga agcgctacgc cctggtgccc ggcaccatcg cctttaccga cgcacatatc 240gaggtggaca ttacctacgc cgagtacttc gagatgagcg ttcggctggc agaagctatg 300aagcgctatg ggctgaatac aaaccatcgg atcgtggtgt gcagcgagaa tagcttgcag 360ttcttcatgc ccgtgttggg tgccctgttc atcggtgtgg ctgtggcccc agctaacgac 420atctacaacg agcgcgagct gctgaacagc atgggcatca gccagcccac cgtcgtattc 480gtgagcaaga aagggctgca aaagatcctc aacgtgcaaa agaagctacc gatcatacaa 540aagatcatca tcatggatag caagaccgac taccagggct tccaaagcat gtacaccttc 600gtgacttccc atttgccacc cggcttcaac gagtacgact tcgtgcccga gagcttcgac 660cgggacaaaa ccatcgccct gatcatgaac agtagtggca gtaccggatt gcccaagggc 720gtagccctac cgcaccgcac cgcttgtgtc cgattcagtc atgcccgcga ccccatcttc 780ggcaaccaga tcatccccga caccgctatc ctcagcgtgg tgccatttca ccacggcttc 840ggcatgttca ccacgctggg ctacttgatc tgcggctttc gggtcgtgct catgtaccgc 900ttcgaggagg agctattctt gcgcagcttg caagactata agattcaatc tgccctgctg 960gtgcccacac tatttagctt cttcgctaag agcactctca tcgacaagta cgacctaagc 1020aacttgcacg agatcgccag cggcggggcg ccgctcagca aggaggtagg tgaggccgtg 1080gccaaacgct tccacctacc aggcatccgc cagggctacg gcctgacaga aacaaccagc 1140gccattctga tcacccccga aggggacgac aagcctggcg cagtaggcaa ggtggtgccc 1200ttcttcgagg ctaaggtggt ggacttggac accggtaaga cactgggtgt gaaccagcgc 1260ggcgagctgt gcgtccgtgg ccccatgatc atgagcggct acgttaacaa ccccgaggct 1320acaaacgctc tcatcgacaa ggacggctgg ctgcacagcg gcgacatcgc ctactgggac 1380gaggacgagc acttcttcat cgtggaccgg ctgaagagcc tgatcaaata caagggctac 1440
caggtagccc cagccgaact ggagagcatc ctgctgcaac accccaacat cttcgacgcc 1500ggggtcgccg gcctgcccga cgacgatgcc ggcgagctgc ccgccgcagt cgtcgtgctg 1560gaacacggta aaaccatgac cgagaaggag atcgtggact atgtggccag ccaggttaca 1620accgccaaga agctgcgcgg tggtgttgtg ttcgtggacg aggtgcctaa aggactgacc 1680ggcaagttgg acgcccgcaa gatccgcgag attctcatta aggccaagaa gggcggcaag 1740atcgccgtgt aataattcta gagtcggggc ggccggccgc ttcgagcaga catgataaga 1800tacattgatg agtttggaca aaccacaact agaatgcagt gaaaaaaatg ctttatttgt 1860gaaatttgtg atgctattgc tttatttgta accattataa gctgcaataa acaagttaac 1920aacaacaatt gcattcattt tatgtttcag gttcaggggg aggtgtggga ggttttttaa 1980agcaagtaaa acctctacaa atgtggtaaa atcgataagg atccgtcgac cgatgccctt 2040gagagccttc aacccagtca gctccttccg gtgggcgcgg ggcatgacta tcgtcgccgc 2100acttatgact gtcttcttta tcatgcaact cgtaggacag gtgccggcag cgctcttccg 2160cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 2220actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 2280gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 2340ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 2400acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 2460ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 2520cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 2580tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 2640gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 2700ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 2760acggctacac tagaagaaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 2820gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 2880ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 2940tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 3000gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 3060tctaaagtat atatgagtaa acttggtctg acagcggccg caaatgctaa accactgcag 3120tggttaccag tgcttgatca gtgaggcacc gatctcagcg atctgcctat ttcgttcgtc 3180catagtggcc tgactccccg tcgtgtagat cactacgatt cgtgagggct taccatcagg 3240ccccagcgca gcaatgatgc cgcgagagcc gcgttcaccg gcccccgatt tgtcagcaat 3300gaaccagcca gcagggaggg ccgagcgaag aagtggtcct gctactttgt ccgcctccat 3360ccagtctatg agctgctgtc gtgatgctag agtaagaagt tcgccagtga gtagtttccg 3420aagagttgtg gccattgcta ctggcatcgt ggtatcacgc tcgtcgttcg gtatggcttc 3480gttcaactct ggttcccagc ggtcaagccg ggtcacatga tcacccatat tatgaagaaa 3540tgcagtcagc tccttagggc ctccgatcgt tgtcagaagt aagttggccg cggtgttgtc 3600gctcatggta atggcagcac tacacaattc tcttaccgtc atgccatccg taagatgctt 3660
ttccgtgacc ggcgagtact caaccaagtc gttttgtgag tagtgtatac ggcgaccaag 3720ctgctcttgc ccggcgtcta tacgggacaa caccgcgcca catagcagta ctttgaaagt 3780gctcatcatc gggaatcgtt cttcggggcg gaaagactca aggatcttgc cgctattgag 3840atccagttcg atatagccca ctcttgcacc cagttgatct tcagcatctt ttactttcac 3900cagcgtttcg gggtgtgcaa aaacaggcaa gcaaaatgcc gcaaagaagg gaatgagtgc 3960gacacgaaaa tgttggatgc tcatactcgt cctttttcaa tattattgaa gcatttatca 4020gggttactag tacgtctctc aaggataagt aagtaatatt aaggtacggg aggtattgga 4080caggccgcaa taaaatatct ttattttcat tacatctgtg tgttggtttt ttgtgtgaat 4140cgatagtact aacatacgct ctccatcaaa acaaaacgaa acaaaacaaa ctagcaaaat 4200aggctgtccc cagtgcaagt gcaggtgcca gaacatttct ctaagtaata ttaaggtacg 4260ggaggtattg gacaggccgc aataaaatat ctttattttc attacatctg tgtgttggtt 4320ttttgtgtga atc4333<210>90<211>3522<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>90ggcctaactg gccggtacct gagctcgcta gcotcgagga tatcaagatc tggcctcggc 60ggccaagctt ggcaatccgg tactgttggt aaagccacca tggcttccaa ggtgtacgac 120cccgagcaac gcaaacgcat gatcactggg cctcagtggt gggctcgctg caagcaaatg 180aacgtgctgg actccttcat caactactat gattccgaga agcacgccga gaacgccgtg 240atttttctgc atggtaacgc tgcctccagc tacctgtgga ggcacgtcgt gcctcacatc 300gagcccgtgg ctagatgcat catccctgat ctgatcggaa tgggtaagtc cggcaagagc 360gggaatggct catatcgcct cctggatcac tacaagtacc tcaccgcttg gttcgagctg 420ctgaaccttc caaagaaaat catctttgtg ggccacgact ggggggcttg tctggccttt 480cactactcct acgagcacca agacaagatc aaggccatcg tccatgctga gagtgtcgtg 540gacgtgatcg agtcctggga cgagtggcct gacatcgagg aggatatcgc cctgatcaag 600agcgaagagg gcgagaaaat ggtgcttgag aataacttct tcgtcgagac catgctccca 660agcaagatca tgcggaaact ggagcctgag gagttcgctg cctacctgga gccattcaag 720gagaagggcg aggttagacg gcctaccctc tcctggcctc gcgagatccc tctcgttaag 780ggaggcaagc ccgacgtcgt ccagattgtc cgcaactaca acgcctacct tcgggccagc 840
gacgatctgc ctaagatgtt catcgagtcc gaccctgggt tcttttccaa cgctattgtc 900gagggagcta agaagttccc taacaccgag ttcgtgaagg tgaagggcct ccacttcagc 960caggaggacg ctccagatga aatgggtaag tacatcaaga gcttcgtgga gcgcgtgctg 1020aagaacgagc agtaattcta gagtcggggc ggccggccgc ttcgagcaga catgataaga 1080tacattgatg agtttggaca aaccacaact agaatgcagt gaaaaaaatg ctttatttgt 1140gaaatttgtg atgctattgc tttatttgta accattataa gctgcaataa acaagttaac 1200aacaacaatt gcattcattt tatgtttcag gttcaggggg aggtgtggga ggttttttaa 1260agcaagtaaa acctctacaa atgtggtaaa atcgataagg atccgtcgac cgatgccctt 1320gagagccttc aacccagtca gctccttccg gtgggcgcgg ggcatgacta tcgtcgccgc 1380acttatgact gtcttcttta tcatgcaact cgtaggacag gtgccggcag cgctcttccg 1440cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 1500actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 1560gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 1620ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 1680acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 1740ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 1800cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 1860tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 1920gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 1980ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 2040acggctacac tagaagaaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 2100gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 2160ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 2220tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 2280gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 2340tctaaagtat atatgagtaa acttggtctg acagcggccg caaatgctaa accactgcag 2400tggttaccag tgcttgatca gtgaggcacc gatctcagcg atctgcctat ttcgttcgtc 2460catagtggcc tgactccccg tcgtgtagat cactacgatt cgtgagggct taccatcagg 2520ccccagcgca gcaatgatgc cgcgagagcc gcgttcaccg gcccccgatt tgtcagcaat 2580gaaccagcca gcagggaggg ccgagcgaag aagtggtcct gctactttgt ccgcctccat 2640ccagtctatg agctgctgtc gtgatgctag agtaagaagt tcgccagtga gtagtttccg 2700aagagttgtg gccattgcta ctggcatcgt ggtatcacgc tcgtcgttcg gtatggcttc 2760gttcaactct ggttcccagc ggtcaagccg ggtcacatga tcacccatat tatgaagaaa 2820tgcagtcagc tccttagggc ctccgatcgt tgtcagaagt aagttggccg cggtgttgtc 2880gctcatggta atggcagcac tacacaattc tcttaccgtc atgccatccg taagatgctt 2940ttccgtgacc ggcgagtact caaccaagtc gttttgtgag tagtgtatac ggcgaccaag 3000ctgctcttgc ccggcgtcta tacgggacaa caccgcgcca catagcagta ctttgaaagt 3060
gctcatcatc gggaatcgtt cttcggggcg gaaagactca aggatcttgc cgctattgag 3120atccagttcg atatagccca ctcttgcacc cagttgatct tcagcatctt ttactttcac 3180cagcgtttcg gggtgtgcaa aaacaggcaa gcaaaatgcc gcaaagaagg gaatgagtgc 3240gacacgaaaa tgttggatgc tcatactcgt cctttttcaa tattattgaa gcatttatca 3300gggttactag tacgtctctc aaggataagt aagtaatatt aaggtacggg aggtattgga 3360caggccgcaa taaaatatct ttattttcat tacatctgtg tgttggtttt ttgtgtgaat 3420cgatagtact aacatacgct ctccatcaaa acaaaacgaa acaaaacaaa ctagcaaaat 3480aggctgtccc cagtgcaagt gcaggtgcca gaacatttct ct3522<210>91<211>621<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>91gctagcgcca ccatgaccga gtacaagccc accgtgcgcc tggccacccg cgacgacgtg 60ccccgcgccg tgcgcaccct ggccgccgcc ttcgccgact accccgccac ccgccacacc 120gtggaccccg accgccacat cgagcgcgtg accgagctgc aggagctgtt cctgacccgc 180gtgggcctgg acatcggcaa ggtgtgggtg gccgacgacg gcgccgccgt ggccgtgtgg 240accacccccg agagcgtgga ggccggcgcc gtgttcgccg agatcggccc ccgcatggcc 300gagctgagcg gcagccgcct ggccgcccag cagcagatgg agggcctgct ggccccccac 360cgccccaagg agcccgcctg gttcctggcc accgtgggcg tgagccccga ccaccagggc 420aagggcctgg gcagcgccgt ggtgctgccc ggcgtggagg ccgccgagcg cgccggcgtg 480cccgccttcc tggagaccag cgccccccgc aacctgccct tctacgagcg cctgggcttc 540accgtgaccg ccgacgtgga ggtgcccgag ggcccccgca cctggtgcat gacccgcaag 600cccggcgcct aatgatctag a 621<210>92<211>621<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>92gctagcgcca ccatgaccga gtacaagcct accgtgcgcc tggccactcg cgatgatgtg 60ccccgcgccg tccgcactct ggccgccgct ttcgccgact accccgctac ccggcacacc 120gtggaccccg accggcacat cgagcgtgtg acagagttgc aggagctgtt cctgacccgc 180gtcgggctgg acatcggcaa ggtgtgggta gccgacgacg gcgcggccgt ggccgtgtgg 240actacccccg agagcgttga ggccggcgcc gtgttcgccg agatcggccc ccgaatggcc 300gagctgagcg gcagccgcct ggccgcccag cagcaaatgg agggcctgct tgccccccat 360cgtcccaagg agcccgcctg gtttctggcc actgtaggag tgagccccga ccaccagggc 420aagggcttgg gcagcgccgt cgtgttgccc ggcgtagagg ccgccgaacg cgccggtgtg 480cccgcctttc tggagacaag cgctccgcgt aaccttccat tctacgagcg cctgggcttc 540accgtgaccg ccgatgtcga ggtgcccgag ggaccccgga cctggtgcat gactcgcaag 600cctggcgcct aatgatctag a 621<210>93<211>621<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>93gctagcgcca ccatgaccga gtacaagcct accgtgcgcc tggccactcg cgatgatgtg 60ccccgcgccg tccgcactct ggccgccgct ttcgccgact accccgctac ccggcacacc 120gtggaccccg accggcacat cgagcgtgtg acagagttgc aggagctgtt cctgacccgc 180gtcgggctgg acatcggcaa ggtgtgggta gccgacgacg gcgcggccgt ggccgtgtgg 240actacccccg agagcgttga ggccggcgcc gtgttcgccg agatcggccc ccgaatggcc 300gagctgagcg gcagccgcct ggccgcccag cagcaaatgg agggcctgct tgccccccat 360cgtcccaagg agcctgcctg gtttctggcc actgtaggag tgagccccga ccaccagggc 420aagggcttgg gcagcgccgt cgtgttgccc ggcgtagagg ccgccgaacg cgccggtgtg 480cccgcctttc tcgaaacaag cgcaccaaga aaccttccat tctacgagcg cctgggcttc 540accgtgaccg ccgatgtcga ggtgcccgag ggacctagga cctggtgtat gacacgaaaa 600cctggcgcct aatgatctag a 621<210>94
<211>1672<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>94aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120gggacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420aatgtgcaaa agaagctgcc tattatacaa aagattatta ttatggactc taagacagac 480taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaac 540gagtacgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600agctccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080aaacccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260cttcatagcg gcgacattgc ctactgggac gaggatgagc atttcttcat cgtggacaga 1320ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgccgagct tgagtccatt 1380ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440ggagagctgc ctgctgctgt agtagtgctt gagcatggta agacaatgac agagaaggag 1500atcgtggatt atgtggcttc acaagtgaca acagctaaga aactccgagg tggcgttgtg 1560tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga 1672
<210>95<211>1166<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>95gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60ctcagcgatc tgtctatttc gttcgtccat agtggcctga ctccccgtcg tgtagattac 120tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180ttcaccggca ccggatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300gagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360atcacgctcg tcgttcggta tggcttcgtt cagctccggt tcccagcggt caagccgggt 420cacatgatca cccatgttgt gcaaaaatgc ggtcagctcc ttagggcctc cgatcgttgt 480cagaagtaag ttggccgcgg tattatcgct catggtaatg gcagcactac acaattctct 540taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcttg agagaccgcg 960atcgccacca tgtctaggta ggtagtaaac gaaagggctt aaaggcctaa gtggccctcg 1020agtccagcct tgagttggtt gagtccaagt cacgtttgga gatctggtac cttacgcgta 1080tgagctctac gtagctagcg gcctcggcgg ccgaattctt gcgatctaag cttggcaatc 1140cggtactgtt ggtaaagcca ccatgg 1166<210>96<211>1166<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>96gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60ctcagcgatc tgtctatttc gttcgtccat agtggcctga ctccccgtcg tgtagattac 120tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360atcacgctcg tcgttcggta tggcttcgtt caactccggt tcccagcggt caagccgggt 420cacatgatca cccatgttgt gcaaaaatgc ggtcagctcc ttagggcctc cgatcgttgt 480cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcttg agagaccgcg 960atcgccacca tgtctaggta ggtagtaaac gaaagggctt aaaggcctaa gtggccctcg 1020agtccagcct tgagttggtt gagtccaagt cacgtttgga gatctggtac cttacgcgta 1080tgagctctac gtagctagcg gcctcggcgg ccgaattctt gcgttcgaag cttggcaatc 1140cggtactgtt ggtaaagcca ccatgg 1166<210>97<211>1166<212>DNA<213>人工序列<220>
<223>合成構(gòu)建體<400>97gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240
tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420cacatgatca cccatgttgt gcaaaaatgc ggtcagctcc ttagggcctc cgatcgttgt 480cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcttg agagaccgcg 960atcgccacca tgtctaggta ggtagtaaac gaaagggctt aaaggcctaa gtggccctcg 1020agtccagcct tgagttggtt gagtccaagt cacgtttgga gatctggtac cttacgcgta 1080tgagctctac gtagctagcg gcctcggcgg ccgaattctt gcgttcgaag cttggcaatc 1140cggtactgtt ggtaaagcca ccatgg 116權(quán)利要求
1.一種分離的核酸分子,其包含具有選擇性多肽編碼區(qū)的合成核苷酸序列,其中所述合成核苷酸序列與編碼相應(yīng)選擇性多肽的親代核酸序列具有90%以下的核酸序列同一性,其中所述降低的序列同一性是所述合成核苷酸序列密碼子與親代核酸序列密碼子不同的結(jié)果,其中所述核苷酸序列編碼選擇性多肽,所述多肽與親代核酸序列編碼的相應(yīng)選擇性多肽具有至少85%的氨基酸序列同一性,其中相對于調(diào)節(jié)序列的平均數(shù),所述合成核苷酸序列的調(diào)節(jié)序列數(shù)目減少,這是所述合成核苷酸序列和所述親代核酸序列之間序列上不同的密碼子隨機(jī)選擇的結(jié)果,其中所述合成核苷酸序列在細(xì)胞中表達(dá)時,賦予氨芐青霉素、嘌呤霉素、潮霉素或新霉素抗性。
2.權(quán)利要求1的分離的核酸分子,其中所述調(diào)節(jié)序列包括轉(zhuǎn)錄因子結(jié)合序列、內(nèi)含子剪接位點(diǎn)、聚腺苷酸化位點(diǎn)、啟動子組件和/或啟動子序列。
3.權(quán)利要求1的分離的核酸分子,其中大多數(shù)不同的密碼子是所需宿主細(xì)胞的優(yōu)選密碼子,和/或不是該宿主細(xì)胞的低使用密碼子。
4.權(quán)利要求3的分離的核酸分子,其中在所述合成核酸序列中大多數(shù)不同的密碼子是哺乳動物中更頻繁使用的密碼子。
5.權(quán)利要求3的分離的核酸分子,其中在所述合成核酸序列中大多數(shù)不同的密碼子是人體中的優(yōu)選密碼子。
6.權(quán)利要求3的分離的核酸分子,其中所述大多數(shù)不同的密碼子是密碼子CGC、CTG、AGC、ACC、CCC、GCC、GGC、GTG、ATC、AAG、AAC、CAG、CAC、GAG、GAC、TAC、TGC和TTC。
7.權(quán)利要求1的分離的核酸分子,其中所述核酸分子編碼所述選擇性多肽與螢光素酶的融合物。
8.權(quán)利要求7的分離的核酸分子,其中所述螢光素酶是腎海鰓螢光素酶、螢火蟲螢光素酶或叩頭蟲螢光素酶。
9.權(quán)利要求1的分離的核酸分子,其中所述親代核酸序列是野生型neo、hyg、bla或puro序列。
10.權(quán)利要求1的分離的核酸分子,其中所述親代核酸序列是SEQ ID NO1、SEQ ID NO6、SEQ ID NO15或SEQ ID NO41。
11.權(quán)利要求1的分離的核酸分子,其中所述合成核苷酸序列包含以下序列中的可讀框SEQ ID NO4、SEQ ID NO5、SEQ ID NO9、SEQ ID NO10、SEQ ID NO11、SEQ ID NO30、SEQ ID NO38、SEQID NO39、SEQ ID NO42、SEQ ID NO44;SEQ ID NO70、SEQ IDNO71、SEQ ID NO72、SEQ ID NO73、SEQ ID NO74、SEQ IDNO80、SEQ ID NO81、SEQ ID NO82、SEQ ID NO83或SEQ IDNO84。
12.權(quán)利要求1的分離的核酸分子,其中所述合成核苷酸序列減少了至少10%的調(diào)節(jié)序列。
13.權(quán)利要求1的分離的核酸分子,其中所述合成核苷酸序列具有數(shù)目增加的AGC絲氨酸編碼密碼子、數(shù)目增加的ATC異亮氨酸編碼密碼子、數(shù)目增加的CCC脯氨酸編碼密碼子和/或數(shù)目增加的ACC蘇氨酸編碼密碼子。
14.權(quán)利要求1的分離的核酸分子,其中在所述合成核苷酸序列中不同的密碼子與所述親代核酸序列相應(yīng)密碼子編碼相同的氨基酸。
15.權(quán)利要求1的分離的核酸分子,其與以下任一序列中的可讀框具有至少90%核苷酸序列同一性SEQ ID NO4、SEQ ID NO5、SEQ ID NO9、SEQ ID NO10、SEQ ID NO11、SEQ ID NO30、SEQID NO38、SEQ ID NO39、SEQ ID NO42、SEQ ID NO44、SEQ IDNO70、SEQ ID NO71、SEQ ID NO72、SEQ ID NO73、SEQ IDNO74、SEQ ID NO80、SEQ ID NO81、SEQ ID NO82、SEQ ID NO83或SEQ ID NO84或它們的互補(bǔ)序列。
16.權(quán)利要求1的分離的核酸分子,其中所述核酸分子編碼所述選擇性多肽與一種或多種其它肽或多肽的融合物,其中至少所述選擇性多肽由所述合成核酸序列編碼。
17.權(quán)利要求16的分離的核酸分子,其中一種或多種其它肽是具有蛋白質(zhì)不穩(wěn)定序列的肽。
18.包含權(quán)利要求1的核酸分子的質(zhì)粒。
19.權(quán)利要求18的質(zhì)粒,其還包含多克隆區(qū)。
20.權(quán)利要求18的質(zhì)粒,其還包含目標(biāo)可讀框。
21.權(quán)利要求18的質(zhì)粒,其還包含與所述合成核苷酸序列操作性連接的并且能在特定宿主細(xì)胞中起作用的啟動子。
22.權(quán)利要求21的質(zhì)粒,其中所述啟動子在原核細(xì)胞中起作用。
23.權(quán)利要求21的質(zhì)粒,其中所述啟動子在真核細(xì)胞中起作用。
24.權(quán)利要求20的質(zhì)粒,其還包含與目標(biāo)可讀框操作性連接的啟動子。
25.一種分離的核酸分子,其包含編碼螢火蟲螢光素酶的合成核苷酸序列,其中所述合成核苷酸序列與含有SEQ ID NO43的親代核酸序列具有80%以下的核酸序列同一性,或者與含有編碼螢火蟲螢光素酶的SEQ ID NO14的親代核酸序列具有85%以下的核酸序列同一性,其中所述降低的序列同一性是所述合成核苷酸序列密碼子與所述親代核酸序列密碼子不同的結(jié)果,其中所述合成核苷酸序列編碼螢火蟲螢光素酶,所述酶與所述親代核酸序列編碼的相應(yīng)螢光素酶具有至少85%氨基酸序列同一性,其中相對于調(diào)節(jié)序列的平均數(shù),所述合成核苷酸序列的調(diào)節(jié)序列數(shù)目減少,這是所述合成核苷酸序列和所述親代核酸序列之間序列上不同的密碼子隨機(jī)選擇的結(jié)果。
26.權(quán)利要求25的分離的核酸分子,其中所述調(diào)節(jié)序列包括轉(zhuǎn)錄因子結(jié)合序列、內(nèi)含子剪接位點(diǎn)、聚腺苷酸化位點(diǎn)、啟動子組件和/或啟動子序列。
27.權(quán)利要求25的分離的核酸分子,其中大多數(shù)不同的密碼子是所需宿主細(xì)胞的優(yōu)選密碼子,和/或不是該宿主細(xì)胞的低使用密碼子。
28.權(quán)利要求27的分離的核酸分子,其中在所述合成核酸分子中大多數(shù)不同的密碼子是哺乳動物中更頻繁使用的密碼子。
29.權(quán)利要求27的分離的核酸分子,其中在所述合成核酸分子中大多數(shù)不同的密碼子是人體中的優(yōu)選密碼子。
30.權(quán)利要求27的分離的核酸分子,其中所述大多數(shù)不同的密碼子是密碼子CGC、CTG、AGC、ACC、CCC、GCC、GGC、GTG、ATC、AAG、AAC、CAG、CAC、GAG、GAC、TAC、TGC和TTC。
31.權(quán)利要求25的分離的核酸分子,其中所述合成核苷酸序列包含SEQ ID NO21、SEQ ID NO22或SEQ ID NO23的可讀框序列或者與其具有至少90%核苷酸序列同一性。
32.權(quán)利要求25的分離的核酸分子,其中所述合成核酸分子在哺乳動物宿主細(xì)胞中表達(dá),其表達(dá)水平高于所述親代核酸序列的表達(dá)水平。
33.權(quán)利要求25的分離的核酸分子,其中所述合成核酸分子具有數(shù)目增加的AGC絲氨酸編碼密碼子、數(shù)目增加的CCC脯氨酸編碼密碼子、數(shù)目增加的ATC異亮氨酸編碼密碼子和/或數(shù)目增加的ACC蘇氨酸編碼密碼子。
34.權(quán)利要求25的分離的核酸分子,其中所述合成核苷酸序列減少了至少10%的轉(zhuǎn)錄調(diào)節(jié)序列。
35.權(quán)利要求25的分離的核酸分子,其中在所述合成核苷酸序列中不同的密碼子與所述親代核酸序列相應(yīng)密碼子編碼相同的氨基酸。
36.權(quán)利要求25的分離的核酸分子,其中所述核酸分子編碼螢光素酶與一種或多種其它肽或多肽的融合物,其中至少所述螢光素酶由所述合成核酸序列編碼。
37.權(quán)利要求36的分離的核酸分子,其中一種或多種其它肽是具有蛋白質(zhì)不穩(wěn)定序列的肽。
38.包含權(quán)利要求25的核酸分子的質(zhì)粒。
39.權(quán)利要求38的質(zhì)粒,其還包含多克隆區(qū)。
40.權(quán)利要求38的質(zhì)粒,其還包含與所述合成核苷酸序列操作性連接的啟動子。
41.權(quán)利要求38的質(zhì)粒,其還包含權(quán)利要求1的核酸分子的合成核苷酸序列。
42.一種表達(dá)載體,其包含權(quán)利要求25的核酸分子及與所述核酸分子連接并能在細(xì)胞中起作用的啟動子。
43.權(quán)利要求42的表達(dá)載體,其中所述啟動子在真核細(xì)胞中起作用。
44.權(quán)利要求42的表達(dá)載體,其中所述表達(dá)載體還包含多克隆位點(diǎn)。
45.權(quán)利要求42的表達(dá)載體,其中所述啟動子在哺乳動物細(xì)胞中起作用。
46.權(quán)利要求42的表達(dá)載體,其中所述合成核苷酸序列與Kozak共有序列操作性連接。
47.一種質(zhì)粒,其包含含有SEQ ID NO74的核苷酸序列或者與SEQ ID NO74具有至少80%核酸序列同一性的核苷酸序列,所述核苷酸序列包含與SEQ ID NO41具有90%以下核酸序列同一性的可讀框,所述可讀框在宿主細(xì)胞中的表達(dá)賦予氨芐青霉素抗性。
48.包含權(quán)利要求42的表達(dá)盒的宿主細(xì)胞。
49.包含權(quán)利要求17、38或47中任一項的質(zhì)粒的宿主細(xì)胞。
50.一種試劑盒,所述試劑盒包括合適容器中的權(quán)利要求17、38或47中任一項的質(zhì)粒。
51.一種多核苷酸,其在嚴(yán)格性雜交條件下能與以下序列雜交SEQ ID NO4、SEQ ID NO5、SEQ ID NO9、SEQ ID NO10、SEQ IDNO11、SEQ ID NO30、SEQ ID NO38、SEQ ID NO39、SEQ IDNO42、SEQ ID NO44、SEQ ID NO70、SEQ ID NO71、SEQ IDNO72、SEQ ID NO73、SEQ ID NO74、SEQ ID NO80、SEQ IDNO81、SEQ ID NO82、SEQ ID NO83、SEQ ID NO84、SEQ IDNO21、SEQ ID NO22、SEQ ID NO23或所述多核苷酸的互補(bǔ)序列,其中所述多核苷酸或其互補(bǔ)序列編碼選擇性多肽或螢火蟲螢光素酶。
52.權(quán)利要求51的多核苷酸,其不含有SEQ ID NO1、SEQ IDNO6、SEQ ID NO15、SEQ ID NO41、SEQ ID NO14或SEQ IDNO43。
53.一種分離的核酸分子,其包含不編碼所需要的肽或多肽但包含抑制轉(zhuǎn)錄和/或翻譯的序列的合成核苷酸序列,其中所述合成核苷酸序列與不編碼所需要的肽或多肽的相應(yīng)親代核酸序列相比具有不同序列的至少20個核苷酸,其中所述合成核苷酸序列與所述親代核酸序列具有90%以下的核酸序列同一性,其中所述序列差異是所述合成核苷酸序列與所述親代核酸序列相比具有數(shù)目減少的一個或多個調(diào)節(jié)序列的結(jié)果。
54.權(quán)利要求53的分離的核酸分子,其中所述合成核苷酸序列具有SEQ ID NO49。
55.權(quán)利要求53的分離的核酸分子,其還包含多克隆區(qū)和/或聚腺苷酸化位點(diǎn)。
56.權(quán)利要求53的分離的核酸分子,其中所述抑制轉(zhuǎn)錄的序列包含一個或多個聚腺苷酸化位點(diǎn)。
57.權(quán)利要求53的分離的核酸分子,其中所述抑制翻譯的序列包含一個或多個閱讀框中的一個或多個終止密碼子。
58.權(quán)利要求53的分離的核酸分子,其中所述親代核酸序列包含多克隆區(qū)。
59.權(quán)利要求53的分離的核酸分子,其中所述親代核酸序列包含抑制轉(zhuǎn)錄和/或翻譯的序列。
60.權(quán)利要求53的分離的核酸分子,其中所述親代核酸序列具有SEQ ID NO76。
61.權(quán)利要求53的分離的核酸分子,其中相對于所述親代核酸序列來說,所述合成核苷酸序列具有數(shù)目減少的一個或多個限制性內(nèi)切核酸酶識別位點(diǎn)。
62.包含權(quán)利要求53的核酸分子的質(zhì)粒。
63.一種質(zhì)粒,其包含具有SEQ ID NO89、SEQ ID NO90的序列,或者與其具有至少90%核酸序列同一性的序列,或者它們的互補(bǔ)序列,所述序列編碼至少一種可選擇和/或可篩選多肽。
64.權(quán)利要求63的質(zhì)粒,其還包含多克隆區(qū)。
65.權(quán)利要求63的質(zhì)粒,其還包含其它的可選擇或可篩選多肽。
66.權(quán)利要求63或65的質(zhì)粒,其中所述至少一種可選擇或可篩選多肽包含一個或多個蛋白質(zhì)不穩(wěn)定序列。
67.權(quán)利要求63的質(zhì)粒,其中所述至少一種可選擇和/或可篩選多肽的序列不是SEQ ID NO41。
68.一種至少100個核苷酸的合成核苷酸序列,其具有選擇性多肽的編碼區(qū)并賦予氨芐青霉素、嘌呤霉素、潮霉素或新霉素抗性,其中所述合成核苷酸序列與所述選擇性多肽的親代核酸序列相應(yīng)區(qū)具有90%以下的核酸序列同一性,其中所述降低的序列同一性是所述合成核苷酸序列的密碼子與親代核酸序列相應(yīng)區(qū)的密碼子不同的結(jié)果,其中相對于調(diào)節(jié)序列的平均數(shù),所述合成核苷酸序列的調(diào)節(jié)序列數(shù)目減少,這是所述合成核苷酸序列和所述親代核酸序列之間序列上不同的密碼子隨機(jī)選擇的結(jié)果。
69.一種分離的核酸分子,其編碼選擇性多肽并包含具有選擇性多肽編碼區(qū)的至少100個核苷酸的合成核苷酸序列,其中所述合成核苷酸序列與編碼選擇性多肽的親代核酸序列相應(yīng)區(qū)具有90%以下的核酸序列同一性,其中所述降低的序列同一性是所述合成核苷酸序列密碼子與親代核酸序列密碼子不同的結(jié)果,其中所述合成核苷酸序列編碼選擇性多肽區(qū),該選擇性多肽區(qū)與親代核酸序列所編碼的選擇性多肽的相應(yīng)區(qū)具有至少85%氨基酸序列同一性,其中相對于調(diào)節(jié)序列的平均數(shù),所述合成核苷酸序列的調(diào)節(jié)序列數(shù)目減少,這是所述合成核苷酸序列和所述親代核酸序列之間序列上不同的密碼子隨機(jī)選擇的結(jié)果,其中所述分離的核酸分子在細(xì)胞中表達(dá)時,賦予氨芐青霉素、嘌呤霉素、潮霉素或新霉素抗性。
全文摘要
在特定宿主細(xì)胞中表達(dá)時不適當(dāng)或不需要的轉(zhuǎn)錄特征減少的合成核酸分子的制備方法。
文檔編號C12N15/31GK101061221SQ200580039282
公開日2007年10月24日 申請日期2005年9月16日 優(yōu)先權(quán)日2004年9月17日
發(fā)明者K·V·伍德, M·G·伍德, B·阿爾蒙德, A·帕吉奧, F·范 申請人:普羅美加公司