專利名稱:改進(jìn)的類異戊二烯的生產(chǎn)的制作方法
本申請(qǐng)是中國(guó)發(fā)明申請(qǐng)(發(fā)明名稱改進(jìn)的類異戊二烯的生產(chǎn),申請(qǐng)日1999年5月6日;申請(qǐng)?zhí)?9106367.8)的分案申請(qǐng)。
本發(fā)明涉及制備類異戊二烯及其有用的生物材料的分子生物學(xué)。
已知變胞藻黃素分布于各種生物體,如動(dòng)物(如諸如紅鶴和猩紅鹮的鳥類,以及諸如虹鱒和鮭魚的魚類),藻類和微生物。也已認(rèn)識(shí)到變胞藻黃素具有抗氧自由基的強(qiáng)烈的抗氧化特性,應(yīng)該可應(yīng)用于藥物用途以防止活細(xì)胞的一些疾病如癌癥。此外,從工業(yè)應(yīng)用的觀點(diǎn)看,對(duì)用作著色劑的變胞藻黃素的需求尤其在養(yǎng)殖的魚(如鮭魚)的產(chǎn)業(yè)中正在驟增,這是因?yàn)樽儼妩S素賦于動(dòng)物有特色的橙紅色并在市場(chǎng)上使其對(duì)消費(fèi)者有吸引力。
已知Phaffia rhodozyma是胡蘿卜素產(chǎn)生酵母株,其特異性地產(chǎn)生變胞藻黃素。與其它Rhodotorula屬的胡蘿卜素產(chǎn)生酵母不同,Phaffiarhodozyma(P.rhodozyma)可發(fā)酵一些糖類如D-葡萄糖。從工業(yè)應(yīng)用的觀點(diǎn)看,這是一個(gè)重要的特征。在最近的分類學(xué)研究中,揭示了P.rhodozyma的性周期并命名其末路進(jìn)化態(tài)為Xanthophyllomyces dendrorhous(W.I.Golubev;酵母11,101-110,(1995)。已進(jìn)行一些株的改良研究以得到源自P.rhodozyma的變胞藻黃素的高生產(chǎn)者,但是,在近十年里,這些努力局限于使用常規(guī)的誘變和原生質(zhì)融合的方法。最近,Wery等用P.rhodozyma開發(fā)了一種宿主載體系統(tǒng),其中將非復(fù)制型質(zhì)粒在核糖體DNA的基因座以多拷貝整合到P.rhodozyma基因組(Wery等,基因,184,89-97,1997中。而Verdoes等報(bào)道了更加改進(jìn)的載體以得到P.rhodozyma的轉(zhuǎn)化體及其三個(gè)編碼催化香葉基香葉基焦磷酸生成β-胡蘿卜素的反應(yīng)的酶的胡蘿卜素生成基因的轉(zhuǎn)化體(國(guó)際專利WO 97/23633)。最近,基因工程方法在P.rhodozyma的品系改良研究中的重要性日益提高從而將突破通過(guò)常規(guī)方法獲得的生產(chǎn)能力。
據(jù)報(bào)道,自一般代謝物(乙酰CoA)的胡蘿卜素生成途徑在胡蘿卜素生成的真核生物中是由如
圖1所示的多酶步驟組成的。兩分子的乙酰CoA縮合生成乙酰乙酰CoA,再通過(guò)3-羥甲基-3-戊二酰CoA合成酶的作用生成3-羥-3-甲基戊二酰CoA(HMG-GoA)。接著,通過(guò)3-羥-3-甲基戊二酰CoA還原酶將HMG-CoA轉(zhuǎn)變成甲羥戊酸,然后通過(guò)兩種激酶(甲羥戊酸激酶和磷酸甲羥戊酸激酶)的作用加入二分子磷酸殘基。然后,甲羥戊酸焦磷酸再通過(guò)甲羥戊酸焦磷酸脫羧酶的作用脫羧形成異戊烯焦磷酸,其變成活生物體所需要的各種異戊二烯分子的構(gòu)建單元。此途徑被稱為源自其重要的中間體甲羥戊酸的甲羥戊酸途徑。IPP通過(guò)IPP異構(gòu)酶的作用異構(gòu)成二甲基芳基焦磷酸(DMAPP)。然后,IPP和DMAPP通過(guò)頭對(duì)尾的縮合生成C10單元,香葉基焦磷酸(GPP)。GPP在GPP和IPP之間的類似的縮合反應(yīng)中被轉(zhuǎn)變成C15單元,即法尼焦磷酸,其為動(dòng)物的膽固醇和酵母的麥角固醇以及諸如RAS蛋白調(diào)控蛋白的法尼基化的重要的底物。一般地,自IPP和DMAPP的GPP和FPP的生物合成是通過(guò)稱為FPP合酶的酶催化的(Laskovics等,生物化學(xué),20,1893-1901,1981)。另一方面,在諸如真細(xì)菌的原核生物中,異戊烯焦磷酸是通過(guò)來(lái)自酵母和動(dòng)物中沒(méi)有的丙酮酸的1-脫氧木酮糖-5-磷酸以不同途徑合成的(Rohmer等,生物化學(xué)雜志,295,517-524,1993)。在膽固醇生物合成的專門研究中,發(fā)現(xiàn)膽固醇代謝的限速步驟是該甲羥戊酸途徑的步驟,尤其是其由HMG-CoA合成酶和HMG-CoA還原酶催化的早期步驟。本發(fā)明人注意到這樣的事實(shí),即膽固醇和類胡蘿卜素的生物合成途徑共享其從乙酰CoA到FPP的中間體途徑,并且試圖改進(jìn)可能存在于甲羥戊酸途徑,尤其是諸如由HMG-CoA合酶和HMG-CoA還原酶催化的步驟的早期甲羥戊酸途徑中的胡蘿卜素生成途徑中的限速步驟從而改進(jìn)類胡蘿卜素,特別是變胞藻黃素的生產(chǎn)能力。
本發(fā)明涉及如下方面1.分離的DNA序列,其編碼與甲羥戊酸途徑或自異戊烯焦磷酸到法尼焦磷酸的途徑有關(guān)的酶。
2.項(xiàng)1的分離的DNA序列,其中所說(shuō)的酶具有選自如下的活性3-羥-3-甲基戊二酰-CoA合酶活性,3-羥-3-甲基戊二酰-CoA還原酶活性,甲羥戊酸激酶活性,甲羥戊酸焦磷酸脫羧酶活性和法尼焦磷酸合酶活性。
3.項(xiàng)1和2的分離的DNA序列,特征為(a)所說(shuō)DNA序列編碼的所有酶具有選自序列6,7,8,9和10的氨基酸序列,或者(b)所說(shuō)的DNA編碼所說(shuō)的酶的變體,選自(i)等位基因變體,和(ii)具有一個(gè)或多個(gè)氨基酸加入,插入,缺失和/或取代并具有所宣稱的酶活性的酶。
4.項(xiàng)1-3中任一項(xiàng)的分離的DNA序列,其可以是衍生于Phaffiarhodozyma基因的并選自(i)序列1,2,4或5所示的DNA序列;(ii)序列1,2,4或5所示的DNA的相等指導(dǎo)或等位基因變體;和(iii)帶有一個(gè)或多個(gè)核苷酸的加入,插入,缺失和/或取代的序列1,2,4或5所示的DNA序列的并編碼具有所說(shuō)的酶活性的多肽的衍生物。
5.分離的DNA序列,選自
(i)序列3代表的DNA序列;(ii)序列3所示DNA序列的相等指導(dǎo)或等位基因變體;以及(iii)編碼具有甲羥戊酸激酶活性的多肽的帶有一個(gè)或多個(gè)核苷酸加成,插入,缺失和/或取代的序列3所示的DNA序列的衍生物。
6.項(xiàng)1或2的分離的DNA序列,選自(i)在標(biāo)準(zhǔn)條件雜交于序列1-10所示的序列或其互補(bǔ)鏈或其片段的DNA序列,以及(ii)那些由于遺傳密碼子的簡(jiǎn)并性而不能如(i)所述進(jìn)行雜交但編碼具有完全同于序列1-10所示的氨基酸序列的或由(i)定義的DNA編碼的多肽的DNA序列。
7.載體或質(zhì)粒,含有項(xiàng)1-6中任一項(xiàng)的DNA序列的載體或質(zhì)粒。
8.被項(xiàng)1-6中任一項(xiàng)的DNA序列或項(xiàng)7的載體或質(zhì)粒轉(zhuǎn)化或轉(zhuǎn)染的宿主細(xì)胞。
9.生產(chǎn)與甲羥戊酸途徑或從異戊烯焦磷酸到法尼焦磷酸的途徑相關(guān)的酶的方法,包括在有利于生產(chǎn)所說(shuō)酶的條件下培養(yǎng)項(xiàng)8所述的宿主細(xì)胞。
10.生產(chǎn)類異戊二烯或類胡蘿卜素,優(yōu)選變胞藻黃素的方法,包括在合適的條件下培養(yǎng)項(xiàng)8的宿主細(xì)胞。
本發(fā)明基于本發(fā)明人的上述努力。按照本發(fā)明,提供了涉及從乙酰CoA到FPP的甲羥戊酸途徑的作為用于改進(jìn)變胞藻黃素生產(chǎn)過(guò)程的生物材料的基因和酶。本發(fā)明涉及編碼HMG-CoA合酶,HMG-CoA還原酶,甲羥戊酸激酶,甲羥戊酸焦磷酸脫羧酶和FPP合酶的基因的克隆和測(cè)定。本發(fā)明還涉及作為該基因在合適的宿主生物體(如E.Coli)中表達(dá)的結(jié)果的酶的表征。這些基因可在諸如P.rhodozyma的合適的宿主中增殖,而其對(duì)胡蘿卜生成作用的影響可通過(guò)在合適的培養(yǎng)基中于合適的培養(yǎng)條件下培養(yǎng)這種轉(zhuǎn)化體而得以證實(shí)。
按照本發(fā)明,提供了編碼涉及甲羥戊酸途徑或自異戊烯焦磷酸到法尼焦磷酸的反應(yīng)途徑的酶的分離的DNA序列。更具體地,該酶是那些具有選自如下的活性的酶,而這些活性選自3-羥-3-甲基戊二酰-CoA合酶活性,3-羥-3-甲基戊二酰CoA還原酶活性,甲羥戊酸激酶活性,甲羥戊酸焦磷酸脫羧酶活性以及法尼焦磷酸合酶。
所說(shuō)的分離的DNA序列的更具體的特征在于(a)其編碼具有選自序列6,7,8,9和10的氨基酸序列的所說(shuō)的酶,或者(b)其編碼所說(shuō)酶的變體,選自(i)等位基因變體,和(ii)具有一個(gè)或多個(gè)氨基酸加入,插入,缺失和/或取代并具有所宣稱的酶活性的酶。尤其具體的上述特定的分離的DNA序列可以是衍生于Phaffia rhodozyma基因的并選自(i)序列1,2,4或5所示的DNA序列;(ii)序列1,2,4或5所示的DNA的相等編碼的或等位基因變體;和(iii)帶有一個(gè)或多個(gè)核苷酸的加成,插入,缺失和/或取代的序列1,2,4或5所示的DNA序列并編碼具有所說(shuō)的酶活性的多肽的衍生物。這種衍生物過(guò)可通重組方法制備,它是基于本文公開的DNA序列通過(guò)本領(lǐng)域已知的和諸如Sambrook等(分子克隆,冷泉港實(shí)驗(yàn)室出版社,紐約,美國(guó),第二版,1989)公開的方法而實(shí)現(xiàn)的。一般不改變活性的蛋白和肽中的氨基酸的變換是本領(lǐng)域中周知的并如諸如H.Neurath和R.L.Hill在“蛋白質(zhì)”中所述(學(xué)術(shù)出版社,紐約,1979,具體見(jiàn)第14頁(yè),圖6)。最常發(fā)生的變換是Ala/Ser,Val/Ile,Asp/Glu,Thr/Ser,Ala/Gly,Ala/Thr,Ser/Asn,Ala/Val,Ser/Gly,Tyr/Phe,Ala/Pro,Lys/Arg,Asp/Asn,Leu/Ile,Leu/Val,Ala/Glu,Asp/Gly,以及相反的變化。
本發(fā)明還提供了分離的DNA序列,其選自(i)序列3代表的DNA序列;(ii)序列3所示DNA序列的相等指導(dǎo)的或等位基因變體;以及(iii)編碼具有甲羥戊酸激酶活性的多肽的帶有一個(gè)或多個(gè)核苷酸加成,插入,缺失和/或取代的序列3所示的DNA序列的衍生物。
此外,本發(fā)明目的在于上述的以及序列表中所示的以及其互補(bǔ)鏈的DNA序列,或在標(biāo)準(zhǔn)條件雜交于該序列或其片段的DNA序列以及那些由于遺傳密碼子的簡(jiǎn)并性而不能在標(biāo)準(zhǔn)的條件下雜交到該序列但編碼完相同的氨基酸序列的DNA序列。
雜交的“標(biāo)準(zhǔn)條件”在上下文中是指本領(lǐng)域技術(shù)人員常用于檢測(cè)特定的雜交信號(hào)的并如Sambrook等,“分子克隆”第二版,冷泉港實(shí)驗(yàn)室出版社,1989,紐約,所述的那些條件,或者優(yōu)選本領(lǐng)域技術(shù)人員熟悉的并如Sambrook等所述的稱為嚴(yán)緊雜交和非嚴(yán)緊洗滌條件或者更優(yōu)選本領(lǐng)域技術(shù)人員熟悉的并如Sambrook等所述的嚴(yán)格雜交條件和嚴(yán)緊洗滌條件。而且,本發(fā)明的目的還在于通過(guò)本領(lǐng)域周知的方法并用基于本文所公開的DNA序列設(shè)計(jì)的引物通過(guò)PCR制得的DNA序列。應(yīng)理解本發(fā)明的DNA序列還可按如EP 747483所述合成。
此外,本發(fā)明提供重組DNA,優(yōu)選載體和/或質(zhì)粒,其含有編碼在甲羥戊酸途徑或在從異戊烯焦磷酸到法尼焦磷酸反應(yīng)途徑中起作用的酶的序列。所說(shuō)的重組DNA載體和/或質(zhì)粒可包括調(diào)控區(qū)域如啟動(dòng)子和終止子以及上述各種DNA的開放閱讀框。
本發(fā)明還提供利用所述的重組DNA,載體或質(zhì)粒轉(zhuǎn)化宿主生物體的用途。利用該重組DNA所得的重組生物體能過(guò)量表達(dá)編碼涉及甲羥戊酸途徑或從異戊烯焦磷酸到法尼焦磷酸的反應(yīng)途徑的酶的DNA序列。用該重組DNA轉(zhuǎn)化的宿主生物體可用于改進(jìn)類異戊二烯和類胡蘿卜素,尤其是變胞藻黃素的生產(chǎn)方法。因此,本發(fā)明還提供了這類重組生物體/轉(zhuǎn)化的宿主。
本發(fā)明進(jìn)一步提供了生產(chǎn)類異戊二烯或類胡蘿卜素,優(yōu)選類胡蘿卜素的方法,包括培養(yǎng)如此獲得的重組生物體。
本發(fā)明也涉及生產(chǎn)參與甲羥戊酸途徑或從異戊烯焦磷酸到法尼焦磷酸的反應(yīng)途徑的酶的方法,包括在有利于該酶生產(chǎn)的條件下培養(yǎng)上述重組生物體,本發(fā)明還涉及該酶本身。
基于下列附圖和更詳細(xì)的解釋將會(huì)更容易地理解本發(fā)明。
圖1示P.rhodozyma中推定的從乙酰CoA到變胞藻黃素的生物合成途徑。
圖2示通過(guò)利用獲自在源自P.rhodozyma的假-mvk基因的氨基末端人工加入核苷酸的人工mvk基因的表達(dá)研究。將得自50μl肉湯的細(xì)胞進(jìn)行10%SDS-PAGE電泳。泳道1,E.coli(M15(pREP4)(pQE30),無(wú)IPTG);泳道2,E.coli(M15(pREP4)(pQE30),有1mM IPTG);泳道3,分子量標(biāo)記(105kDa,82.0kDa,49.0kDa,33.3kD和28.6kDa,從上到下,BIO-RAD);泳道4,E.coli(M15(pREP4)(pMK1209#3334)無(wú) IPTG);泳道5,E.coli(M15(pREP4)(pMK1209#3334)有1mMIPTG)。
本發(fā)明提供了一種分離的DNA序列,其編碼涉及包括甲羥戊酸途徑或自異戊烯焦磷酸到法尼焦磷酸的反應(yīng)途徑的生物途徑的酶。所述酶的實(shí)例為那些在Phaffia rhodozyma中涉及甲羥戊酸途徑或自異戊烯焦磷酸到法尼基焦磷酸反應(yīng)途徑的,如3-羥-3-甲基戊二酰-CoA合成酶,3-羥-3-甲基戊二酰-CoA還原酶,甲羥戊酸激酶,甲羥戊酸焦磷酸脫羧酶和法尼焦磷酸合酶。本發(fā)明用于生產(chǎn)涉及自甲羥戊酸途徑到胡蘿卜素生成途徑的化合物以及衍生于這類化合物的各種產(chǎn)物。涉及甲羥戊酸途徑的化合物是乙酰乙酰CoA,3-羥甲基-3-戊二酰-CoA,甲羥戊酸,甲羥戊酸-磷酸,甲羥戊酸-焦磷酸和異戊烯焦磷酸。隨后,異戊烯焦磷酸轉(zhuǎn)變成香葉基香葉基-焦磷酸,這是利用如圖1所示的“異戊烯生物合成”反應(yīng)通過(guò)香葉基-焦磷酸和法尼焦磷酸而進(jìn)行的。涉及胡蘿卜素生成途徑的化合物是香葉基香葉基-焦磷酸,八氫番茄紅素,番茄紅素,β-胡蘿卜素和變胞藻黃素。在這些涉及上述生物合成的化合物中,香葉基焦磷酸可用于生產(chǎn)泛醌。法尼-焦磷酸可用于生產(chǎn)甾醇,如膽固醇和麥角固醇。香葉基香葉基-焦磷酸用于生產(chǎn)維生素K,維生素E和葉綠素等。因此,若用于類異戊二烯的生物生產(chǎn),本發(fā)明尤其有用。類異戊二烯是一個(gè)統(tǒng)稱,其命名一系列具有異戊烯-焦磷酸作為骨架單元的化合物。類異戊二烯的進(jìn)一步的例子是維生素A和維生素D3。
本發(fā)明所說(shuō)的DNA可指僅包括在其5′-和3′-非翻譯區(qū)的短片段之間的側(cè)翼開放閱讀框的cDNA以及還含有目的基因的表達(dá)所需的諸如其啟動(dòng)子和終止子的調(diào)控序列的基因組DNA。
一般地,該基因由幾個(gè)功能彼此不同的部分組成。在真核生物中,編碼相應(yīng)的蛋白質(zhì)的基因轉(zhuǎn)錄成與核糖體RNA(rRNA),核小RNA(snRNA)和轉(zhuǎn)移RNA(tRNA)的基因不同的前mRNA(Pre-mRNA)。雖然在此轉(zhuǎn)錄事件中,RNA聚合酶II(Pol II)起中心作用,但Pol II在沒(méi)有包括含有啟動(dòng)子和上游激活序列(UAS)的上游區(qū)域的Cis元件以及反式蛋白因子的條件下不能單獨(dú)起始轉(zhuǎn)錄。首先,由幾個(gè)基本蛋白成分組成的轉(zhuǎn)錄起始復(fù)合物識(shí)別待表達(dá)的基因的5′-鄰近區(qū)域中的啟動(dòng)子序列。在該事件中,若基因是在一些特定調(diào)控如熱激反應(yīng),或營(yíng)養(yǎng)饑餓適應(yīng)等的情況下,則需要一些另外的參與者。在這種情況下,需要UAS存在于啟動(dòng)子序列及識(shí)別和結(jié)合該UAS一些陽(yáng)性或陰性調(diào)控蛋白周圍的5′-非翻譯的上游區(qū)域。轉(zhuǎn)錄起始復(fù)合物結(jié)合到啟動(dòng)子序列的強(qiáng)度受啟動(dòng)子周圍的反式因子的這種結(jié)合的影響,并且這能調(diào)節(jié)轉(zhuǎn)錄活性。
通過(guò)磷酸化激活轉(zhuǎn)錄起始復(fù)合物后,轉(zhuǎn)錄起始復(fù)合物啟動(dòng)自轉(zhuǎn)錄起始位點(diǎn)的轉(zhuǎn)錄。該轉(zhuǎn)錄起始復(fù)合物的一些部分作為延伸復(fù)合物而與從啟動(dòng)子區(qū)域到該基因的3′方向上脫離(此步稱為啟動(dòng)子切割事件),延伸復(fù)合物繼續(xù)轉(zhuǎn)錄直至其到達(dá)位于該基因3′-鄰近下游區(qū)域的終止序列。如此生成的Pre-mRNA在核中通過(guò)在帽位點(diǎn)(幾乎對(duì)應(yīng)于轉(zhuǎn)錄起始位點(diǎn))加入帽結(jié)構(gòu),以及通過(guò)在位于3′-鄰近下游區(qū)域的Poly A信號(hào)處加入PolyA序列而修飾。接著,從編碼區(qū)除去內(nèi)含子結(jié)構(gòu)并結(jié)合外顯子部分以得到其序列對(duì)應(yīng)于相應(yīng)的蛋白質(zhì)的一級(jí)氨基酸序列的開放閱讀框。這種產(chǎn)生成熟mRNA的修飾是穩(wěn)定的基因表達(dá)所需的。cDNA一般對(duì)應(yīng)于自該成熟的mRNA序列反轉(zhuǎn)錄的DNA序列。其可通過(guò)衍生于病毒的反轉(zhuǎn)錄酶并用成熟的mRNA作為模板以實(shí)驗(yàn)方法合成。
為了表達(dá)衍生于真核生物的基因,常常使用如本發(fā)明所示的將cDNA克隆到E.coli中的表達(dá)載體中的方法。這源于這樣的事實(shí),即內(nèi)含子結(jié)構(gòu)的特異性在各種生物體中是不同的并且其不能識(shí)別源自其它物種的內(nèi)含子序列。事實(shí)上,原核生物在其自身的遺傳背景中并沒(méi)有內(nèi)含子結(jié)構(gòu)。甚至在酵母中,遺傳背景在釀酒酵母所屬的子囊菌綱以及P.rhodozyma所屬的擔(dān)子菌綱之間也是不同的。Wery等表明P.rhodozyma的肌動(dòng)蛋白基因的內(nèi)含子結(jié)構(gòu)既不能被子囊菌綱酵母釀酒酵母(酵母,12,641-651,1996)識(shí)別也不能被其剪接。
一些其它的研究者報(bào)道有些基因的內(nèi)含子結(jié)構(gòu)涉及其基因表達(dá)的調(diào)控(Dabeva,M.D.等,美國(guó)國(guó)家科學(xué)院院刊,83,5834,1986)。在其內(nèi)含子結(jié)構(gòu)涉及其基因表達(dá)的調(diào)控的目的基因的自克隆中使用含其內(nèi)含子的基因組片段可能是重要的。
為了在菌株改良研究中應(yīng)用基因工程方法,需要在諸如轉(zhuǎn)錄和翻譯的事件中研究其遺傳機(jī)制。測(cè)定諸如其UAS,啟動(dòng)子,內(nèi)含子結(jié)構(gòu)以及終止子的遺傳序列對(duì)研究遺傳機(jī)制是重要的。
按照本發(fā)明,編碼涉及甲羥戊酸途徑的酶的基因克隆自P.rhodozyma的基因組DNA,測(cè)定其含有包括其5′-和3′-鄰近區(qū)域以及其內(nèi)含子結(jié)構(gòu)的HMG-CoA合酶(hmc)基因,HMG-CoA還原酶(hmg)基因,甲羥戊酸(mvk)基因,甲羥戊酸焦磷酸脫羧酶(mpd)基因和FPP合酶(fps)基因的基因組序列。
首先,我們用簡(jiǎn)并PCR法克隆了含有一部分hmc基因,hmg基因,mvk基因,mpd基因和fps基因的部分基因片段。所述的簡(jiǎn)并PCR是一種克隆與源自其它物種的并具有相同或相似的功能的已知酶有高度同源性的氨基酸序列的目的基因的方法。在簡(jiǎn)并PCR中引作引物的簡(jiǎn)并引物通過(guò)將氨基酸序列反譯成相應(yīng)的核苷酸(簡(jiǎn)并的)而設(shè)計(jì)。在這種簡(jiǎn)并引物中,通常使用由任何A,C,G或T組成的混合引物或者在多義密碼子處含有肌苷的引物。在本發(fā)明中,使用這種混合引物以克隆上述基因。使用的PCR條件根據(jù)引物和如下所述克隆的基因而變化。
用由上述的簡(jiǎn)并PCR所得的部分DNA片段在標(biāo)記后作為探針通過(guò)篩選合適的宿主中的菌體載體或質(zhì)粒載體中構(gòu)建的基因組文庫(kù)而可將含有帶有內(nèi)含子以及其調(diào)節(jié)區(qū)域如啟動(dòng)子或終止子的編碼區(qū)域的完整基因可從染色體上克隆下來(lái)。一般地,E.coli作為宿主菌株而E.coli載體,噬菌體載體如λ噬菌體載體,或諸如pUC(載體的質(zhì)粒載體通常用于構(gòu)建文庫(kù)以及下列遺傳操作中,如測(cè)序,限制酶消化,連接等。在本發(fā)明中,根據(jù)插入片段大小,將P.rhodozyma的EcoRI基因文庫(kù)構(gòu)建入λ載體,λZAPII和λDASHII的衍生物中。通過(guò)在構(gòu)建文庫(kù)前的Sonthem印跡雜交確定插入片段長(zhǎng)度必須被克隆的插入片段大小。在本發(fā)明中,用作探針的DNA按供應(yīng)商(Boehringer-Mannheim)的推薦方法用地高辛(DIG)標(biāo)記(一種取代常規(guī)的32P標(biāo)記的類固醇半抗原)。使用含有一部分目的基因作為探針的DIG-標(biāo)記的DNA片段篩選構(gòu)建于P.rhodozyma的染色體的基因文庫(kù)。挑出雜交的噬斑并用于進(jìn)一步研究。若用λDASHII(插入片段大小自9kb到23kb),所制備的λDNA用EcoRI消化,隨后將該EcoRI插入片段克隆到諸如pUC19或pBluescriptIISK+的質(zhì)粒載體中。當(dāng)用λZAPII的構(gòu)建基因文庫(kù),可方便地將體內(nèi)切除法用于通過(guò)使用單鏈M13噬菌體的衍生物,Ex輔助噬菌體(Stratagene)克隆入質(zhì)粒載體的隨后步驟中。將如此所得的質(zhì)粒DNA進(jìn)行測(cè)序。
在本發(fā)明中,我們使用了自動(dòng)熒光DNA測(cè)序儀,使用自循環(huán)測(cè)序方案的ALFred系統(tǒng),其中在測(cè)序的大多數(shù)情況下都使用Taq DNA聚合酶。
測(cè)定基因組序列后,用一個(gè)編碼區(qū)的序列來(lái)克隆相應(yīng)的基因的cDNA。還可使用PCR法克隆cDNA片段。合成了加入了合適的限制酶位點(diǎn)的其序列與開放閱讀框(ORF)的5′-和3′端的序列相同的PCR引物,并且使用這些PCR引物進(jìn)行PCR。在本發(fā)明中,cDNA庫(kù)用作此cDNA PCR克隆中的模板。所說(shuō)的cDNA庫(kù)由各種通過(guò)病毒反轉(zhuǎn)錄酶和Taq聚合酶(CapFinder試劑盒,由Clontech制備)并使用獲自P.rhodozyma的mRNA作為模板體外合成的cDNA組成。如此獲得的目的cDNA的序列已被證實(shí)。此外,如此獲得的cDNA用于在將該cDNA片段克隆到表達(dá)載體中后證實(shí)其酶活性,而該載體在E.coli中于諸如lac或T7表達(dá)系統(tǒng)的強(qiáng)啟動(dòng)子活性下起作用。
在證實(shí)該酶活性后,純化表達(dá)的蛋白質(zhì)并用于產(chǎn)生針對(duì)該純化酶的抗體。如此制備的抗體用于菌株改良研究中,培養(yǎng)條件最優(yōu)化研究中以及類似研究中的相應(yīng)的酶的表達(dá)的表征。
在確定了由多步驟酶促反應(yīng)組成的生物合成途徑中的限速步驟后,有三種通過(guò)使用其基因組序列提高限速反應(yīng)的酶活性的策略。
一個(gè)策略是用其天然形式的基因本身。最簡(jiǎn)便的方法是擴(kuò)增包括其諸如啟動(dòng)子和終止子的調(diào)控序列的基因組序列。這通過(guò)將編碼目的酶的基因組片段克隆入其上帶有在P.rhodozyma中起作用的可選擇標(biāo)記的合適載體中來(lái)實(shí)現(xiàn)。編碼使得宿主在有毒抗生素存在下存活的酶的耐藥基因通常用作可選擇標(biāo)記。pGB-Ph9(Wery等(Gene,184,89-97,1997))中所帶的G418抗性基因是耐藥基因的一個(gè)例子。營(yíng)養(yǎng)互補(bǔ)標(biāo)記也可用于具有合適的營(yíng)養(yǎng)缺陷型標(biāo)記的宿主中。其生長(zhǎng)需要胞苷的P.rhodozyma ATCC 24221株是營(yíng)養(yǎng)缺陷型的一個(gè)例子。通過(guò)使用CTP合酶作為ATCC24221的供體DNA,可建立使用營(yíng)養(yǎng)互補(bǔ)的宿主載體系統(tǒng)。作為載體,可使用兩種類型的載體。一種是不具有自主復(fù)制序列的整合的載體。上述的pGB-Ph9是此類載體的一個(gè)例子。由于這種載體沒(méi)有自主復(fù)制序列,上述載體不能自我復(fù)制而僅能以整合的形式存在于作為用載體和染色體間同源序列的單雜交重組的結(jié)果的宿主的染色體上。在染色體上整合基因增加劑量的情況下,通常使用通過(guò)這種耐藥標(biāo)記的基因的擴(kuò)增。隨著選擇性培養(yǎng)基中相應(yīng)的藥物濃度的升高,僅有那些其中在染色體上由于重組所致的整合基因被擴(kuò)增的菌株存活。通過(guò)使用這種選擇,可選擇出具有擴(kuò)增的基因的菌株。另一類型的載體是具有自主復(fù)制序列的可復(fù)制載體。這種載體以多拷貝狀態(tài)存在并且這使得所帶的基因的劑量也以多拷貝狀態(tài)存在。通過(guò)使用這種策略,擴(kuò)增的基因編碼的目的酶可望被超表達(dá)。
另一個(gè)超表達(dá)目的酶的策略是使目的基因置于強(qiáng)啟動(dòng)子的控制下。在此策略中,基因的拷貝數(shù)無(wú)需以多拷貝狀態(tài)存在。該策略還用于超表達(dá)在其活性在合適的生長(zhǎng)期和合適的培養(yǎng)時(shí)間調(diào)控下被誘導(dǎo)的合適的啟動(dòng)子控制下的目的基因。在諸如在次級(jí)代謝產(chǎn)生的生長(zhǎng)晚期,變胞藻黃素的生成加速。因此,胡蘿卜素生成基因的表達(dá)可在生長(zhǎng)晚期達(dá)到最大化。在該期間,大多數(shù)生物合成酶的基因表達(dá)降低。例如,將涉及變胞藻黃素前體的生物合成且其表達(dá)在營(yíng)養(yǎng)啟動(dòng)子控制下的基因(如編碼涉及甲羥戊酸途徑的酶的基因)置于胡蘿卜素生成基因的下游,那么所有的涉及變胞藻黃素生物合成的基因表達(dá)的間調(diào)控和生長(zhǎng)期都會(huì)是同步的。
還有一個(gè)超表達(dá)目的酶的策略是誘導(dǎo)其調(diào)控元件中的突變。為此目的,將諸如β-半乳糖苷酶基因,熒光素酶,編碼綠色熒光蛋白的基因等的一種報(bào)告基因插入該目的基因的啟動(dòng)子和終止子序列之間從而使得包括啟動(dòng)子,終止子和該報(bào)告基因的所有部分相互融合并相互作用。體內(nèi)誘變其中在染色體或載體上導(dǎo)入了所說(shuō)的報(bào)告基因的轉(zhuǎn)化的P.rhodozyma,以在該目的基因的啟動(dòng)子區(qū)域誘發(fā)突變??赏ㄟ^(guò)檢測(cè)該報(bào)告基因編碼的活性的變化來(lái)監(jiān)測(cè)突變。若突變發(fā)生在該基因的順式元件中,突變點(diǎn)可通過(guò)拯救突變的基因和測(cè)序而確定。通過(guò)天然啟動(dòng)子序列和突變的序列間的重組而將測(cè)定的突變導(dǎo)入染色體上的啟動(dòng)子區(qū)域。按相同的方法,還得到編碼反式作用因子的基因中發(fā)生的突變。其也影響目的基因的超表達(dá)。
還可以通過(guò)體外誘變啟動(dòng)子區(qū)域的順式元件而誘導(dǎo)突變。在此方法中,還可誘變含有融合到衍生于目的基因的5′端的啟動(dòng)子區(qū)域以及目的基因的3′端的終止子區(qū)域的報(bào)告基因的基因盒并接著將其導(dǎo)入P.rhodozyma中。通過(guò)檢測(cè)該報(bào)告基因的活性的差異,可篩選到有效的突變。該突變可通過(guò)相同于體內(nèi)突變的方法導(dǎo)入染色體上天然啟動(dòng)子區(qū)域的序列中。
作為供體DNA,可單獨(dú)導(dǎo)入或通過(guò)存在于質(zhì)粒載體而共導(dǎo)入編碼甲羥戊酸途徑的酶或FPP合酶的基因??墒褂孟嗤谄涮烊恍蛄械木幋a序列,以及其等位基因突變體,即只要其相應(yīng)的酶具有所述的酶活性的具有一個(gè)或多個(gè)氨基酸加入,缺失和/或取代的序列。并且這種載體可通過(guò)轉(zhuǎn)化而導(dǎo)入P.rhodozyma中,而轉(zhuǎn)化體可通過(guò)將所轉(zhuǎn)化的細(xì)胞涂布于合適的選擇培養(yǎng)基如含有遺傳霉素的YPD瓊脂培養(yǎng)基(pGB-Ph9作為載體)或沒(méi)有胞苷的基本瓊脂培養(yǎng)基上(用營(yíng)養(yǎng)缺陷型ATCC 24221作受體)。
這種基因工程P.rhodozyma培養(yǎng)于合適的培養(yǎng)基并評(píng)估其變胞藻黃素生產(chǎn)能力。如此選擇的變胞藻黃素的超級(jí)生產(chǎn)者可通過(guò)其生產(chǎn)能力和通過(guò)這種基因工程方法導(dǎo)入的基因或蛋白表達(dá)的水平間的關(guān)系而確認(rèn)。
實(shí)施例在下述實(shí)施例中使用下列方法和材料菌株P(guān).rhodozyma ATCC 96594(此菌株已在1998年4月8日按布達(dá)佩斯條約以入藏號(hào)74438被再保藏)。
E.coli DH5αF,φ80d,lacZΔM15,Δ(lacZYA-argF)U169,hsd(rK-, mK+),recA1,endA1,deoR,thi-1,supE44,gyrA96,relA1(Toyobo)E.coli XL1-Blue MRF’Δ(mcrA)183,Δ(mcrCB-hsdSMR-mrr)173,endA1,supE44,thi-1,recA1,gyrA96,relA1,lac[F’proAB,lacIqZΔM15,Tn10(tetr)](Stratagene)E.coli SOLRe14-(mcrA),Δ(mcrCB-hsdSMR-mrr)171,sbcC,recB,recJ,umuC::Tn5(kanr),uvrC,lac,gyrA96,relA1,thi-1,endA1,λR,[F’proAB,lacIqZΔM15]Su-(非抑制的)(Stratagene,CA,USA)E.coliXL1 MRA(P2)Δ(mcrA)183,Δ(mcrCB-hsdSMR-mrr)173,endA1,supE44,thi-1,gyrA96,relA1,lac(P2溶源體)(Stratagene)E.coli BL21(DE3)(pLysS)dcm-,ompTrB-mB-lon-λ(DE3),pLysS(Stratagene)E.coli M15(pREP4)(QIAGEN)(Zarnenhof P.J.et al.,J.Bacteriol.110,171-178,1972)E.coli KB822pcnB80,zad::Tn10,Δ(lacU169),hsdR17,endA1,thi-1,supE44E.coli TOP10F-,mcrA,Δ(mrr-hsdRMS-mcrBC),φ80,ΔlacZ M15,ΔlacX74,recA1,deoR,araD139,(ara-leu)7697,galU,galK,rpsL(StrT),endA1,nupG(Invitrogen)載體λZAPII(Stratagene)λDASHII(Stratagene)pBluescriptIISK+(Stratagene)pUC57(MBI Fermentas)pMOSBlue T-載體(Amersham)pET4c(Stratagene)pQE30(QIAGEN)pCR2.1TOPO(Invitrogen)
培養(yǎng)基將P.rhodozyma常規(guī)維持于YPD培養(yǎng)基(DIFCO)。E.coli株維持于LB培養(yǎng)基(每升10g Bacto-trypton,5g酵母提取物(DIFCO)和5g NaCl)。NZY培養(yǎng)基(每升5g NaCl,2g MgSO4-7H2O,5g酵母抽提物(DIFCO),10g NZ的A型胺(Sheffield))用于λ噬菌體在軟瓊脂(0.7%瓊脂(WAKO))中增殖。當(dāng)制備瓊脂培養(yǎng)基時(shí),補(bǔ)充1.5%瓊脂(WAKO)。
方法一般的分子遺傳方法參照分子克隆實(shí)驗(yàn)手冊(cè),第2版(冷泉港實(shí)驗(yàn)室出版社,1989)。限制性酶和T4 DNA連接酶購(gòu)自Takara Shuzo(日本)。
用QIAGEN基因組試劑盒(QIAGEN)按生產(chǎn)商提供的方案進(jìn)行源自P.rhodozyma的染色體DNA的分離。用自動(dòng)DNA分離系統(tǒng)(PI-50,Kurabo,Co.Ltd,Japan)進(jìn)行轉(zhuǎn)化的E.coli的質(zhì)粒DNA的小規(guī)模制備。用QIAGEN柱(QIAGEN)進(jìn)行E.coli轉(zhuǎn)化體的質(zhì)粒DNA的小規(guī)模制備。通過(guò)Wizardλ制備型DNA純化系統(tǒng)(Promega)按制造商的方案進(jìn)行λDNA的分離。分離DNA片段從瓊脂糖中的分離和純化通過(guò)QIAquick或QIAEXII(QIAGEN)進(jìn)行。按照制造商(Stratagene)的方法進(jìn)行λ噬菌體衍生物的操作。
通過(guò)苯酚法用Isogen(Nippon Gene,Japan)進(jìn)行P.rhodozyma的總RNA分離。用mRNA分離試劑盒(clontech)從如此獲得的總RNA中純化mRNA。用CapFinder cDNA構(gòu)建試劑盒(Clontech)合成cDNA。
用Gigapaek IIIgold包裝抽提物進(jìn)行體外包裝。
用Perkin Elmer 2400型熱循環(huán)儀進(jìn)行PCR。每個(gè)PCR條件如實(shí)施例中所述。PCR引物購(gòu)自廠商或用DNA合成儀(392型,Applied Biosystem)合成。DNA測(cè)序用的熒光DNA引物購(gòu)自Pharmacia。DNA測(cè)序用自動(dòng)熒光DNA測(cè)序儀(ALFred,Pharmacia)進(jìn)行。
DH5α的感受態(tài)細(xì)胞購(gòu)自Toyobo(Japan)。M15(pREP4)的感受態(tài)細(xì)胞通過(guò)如Sambrook等(分子克隆實(shí)驗(yàn)室手冊(cè),第2版,冷泉港實(shí)驗(yàn)室出版社,1989)用CaCl2法制備。
實(shí)施例1分離P.rhodozyma的mRNA并構(gòu)建cDNA文庫(kù)為構(gòu)建P.rhodozyma的cDNA文庫(kù),在細(xì)胞破裂后立即通過(guò)苯酚抽提法分離總RNA并用mRNA制備試劑盒(Clontech)純化P.rhodozyma ATCC96594的mRNA。
首先,離心(1500×g,10分鐘)收獲10ml YPD培養(yǎng)基中的二天培養(yǎng)物中的ATCC 96594菌株的細(xì)胞并用抽提緩沖液洗滌一次(10mM檸檬酸鈉/HCl(pH6.2),含0.7M HCl)。懸浮于2.5ml的抽提緩沖液中后,用弗氏壓碎勻漿器(Ohtake Works Corp.,Japan)以1500kgf/cm2破碎細(xì)胞并立即與兩倍體積的isogen(Nippon gene)按制造商的推薦方法混合。在此步驟中,回收了400μg總RNA。
然后,用mRNA分離試劑盒(Clontech)按制造商所述的方法純化總RNA。最后,獲得P.rhodozyma ATCC 96594株的16μgmRNA。
為構(gòu)建cDNA文庫(kù),按制造商所述的方法使用CapFinder PCR cDNA構(gòu)建試劑盒(Clontech)。1μg純化的mRNA用于第一鏈合成,接著進(jìn)行PCR擴(kuò)增。此PCR擴(kuò)增后,得到1mg cDNA庫(kù)。
實(shí)施例2克隆P.rhodozyma的部分hmc(3-羥-3-甲基戊二酰-CoA合酶)基因?yàn)榱丝寺.rhodozyma的部分hmc基因,使用簡(jiǎn)并的PCR法。根據(jù)來(lái)自與其它種的已知的HMG-CoA合酶基因的共有序列,如表1所示設(shè)計(jì)和合成了兩個(gè)混合引物的核苷酸序列。
表1用于克隆hmc基因的引物序列Hmgsl GGNAARTAYACNATHGGNNYTNGGNCA(有義引物)(SEQ IDNO11)Hmgs3 TANARNSNNSWNGTRTACATR TINCC(反義引物)(SEQ ID NO12)CN=A,C,G或T,R=A或G,Y=C或T,H=A,T或C,S=C或G,W=A或T)通過(guò)使用ExTaq(Takara Shuzo)作為DNA多聚酶和實(shí)施例1所得的cDNA庫(kù)作為模板的95℃下30秒,50℃下30秒和72℃下15秒的25個(gè)循環(huán)的PCR反應(yīng)后,將反應(yīng)混合物進(jìn)行瓊脂糖凝膠電泳?;厥站哂兴璧拈L(zhǎng)度的PCR帶并通過(guò)QIAquick(QIAGEN)按制造商的方法純化,接著連接到pMOSBlue-T-載體(Amersham)上。感受態(tài)E.coli DH5α轉(zhuǎn)化后,挑選出6個(gè)白色的菌落并用自動(dòng)DNA分離系統(tǒng)分離質(zhì)粒。測(cè)序后,發(fā)現(xiàn)有一個(gè)克隆的序列的推定氨基酸類似于已知的hmc基因。此分離的cDNA克隆稱為pHMC 211并用于進(jìn)一步研究。
實(shí)施例3 分離P.rhodozyma的基因組DNA為了分離P.rhodozyma的基因組DNA,按制造商的方法使用QIAGEN基因組試劑盒。
首先,離心(1500×g,10分鐘)收獲100ml YPD培養(yǎng)基過(guò)夜培養(yǎng)物中P.rhodozyma ATCC 96594菌株的細(xì)胞并用TE緩沖液(10mMTris/HCl(pH8.0),含1mM EDTA)洗滌一次。懸浮于QIAGEN基因組試劑盒的8ml Y1緩沖液后,以2mg/ml的濃度加入溶細(xì)胞酶以酶解破裂細(xì)胞并將反應(yīng)混合物在30℃下培育90分鐘,然后進(jìn)行下一步的抽提步驟。最后,得到20μg基因組DNA。
實(shí)施例4用pHMC 211作為探針的Southern印跡雜交進(jìn)行Sonthern印跡雜交以克隆含有P.rhodozyma的hmc基因的基因組片段。用EcoRI消化2μg基因組DNA并進(jìn)行瓊脂糖凝膠電泳,然后通過(guò)酸和堿處理。將變性的DNA通過(guò)電轉(zhuǎn)移一小時(shí)轉(zhuǎn)移到尼龍膜(Hybond N+,Amersham)。熱處理固定(80℃,90分鐘)轉(zhuǎn)移到尼龍膜上的DNA。通過(guò)用DIG多引發(fā)法(multipriming)(Boehringer Manheim)標(biāo)記模板DNA(EcoRI和SalI消化的pHMC 211)制備探針。用制造商的方法進(jìn)行雜交。結(jié)果,在3.5-4.0kb的范圍內(nèi)見(jiàn)到了雜交帶。
實(shí)施例5克隆含hmc基因的基因組片段用EcoRI消化4μg基因組DNA并進(jìn)行瓊脂糖凝膠電泳。然后,按制造商的方法通過(guò)QIAEX II凝膠抽提試劑盒(QIAGEN)回收長(zhǎng)度在3.0到5.0kb范圍的DNA。在16℃過(guò)夜的條件下將純化的DNA連接到1μg EcoRI消化的和CIAP(牛小腸堿性磷酸酶)處理的λZAPII(Stratagene),并通過(guò)Gigpack III gold包裝抽提物(Stratagene)包裝。將包裝的抽提物感染到E.coliXL1Blue MRF′菌株并用注入到LB瓊脂培養(yǎng)基上的NZY培養(yǎng)基覆蓋。用EcoRI-和SalI-消化的pHMC 211作為探針篩選大約6000個(gè)噬斑。兩個(gè)噬斑雜交到標(biāo)記的探針并按制造商(Stratagene)的方法進(jìn)行體內(nèi)切除方案。限制性酶切和測(cè)序發(fā)現(xiàn)分離的質(zhì)粒在相反方向上有彼此相同的片段。測(cè)序發(fā)現(xiàn)所得的EcoRI片段含有與pHMC 211克隆的相同的核苷酸序列。其中一個(gè)這樣的質(zhì)粒稱為pHMC 526并用于進(jìn)一步研究。測(cè)序pHMC 526的缺失衍生物以及用引物步移方案測(cè)序得到完整的核苷酸序列。pHMC 526的插入片段由3431個(gè)核苷酸組成,其含有10個(gè)完整和1個(gè)不完整的外顯子和帶有約1kb3′非翻譯區(qū)的10個(gè)內(nèi)含子。
實(shí)施例6克隆hmc基因的上游區(qū)域由于pHMC 526不含hmc基因的5′端,所以通過(guò)用Genome Walker試劑盒(Clontech)進(jìn)行hmc基因的5′附近區(qū)域的克隆。首先,合成序列如表2所示的PCR引物。
表2用于克隆hmc基因的5′附近區(qū)域的引物序列Hmc21;GAAGAACCCCATCAAAAGCCTCGA(一級(jí)引物)(SEQ ID NO13)Hmc22;AAAAGCCTCGAGATCCTTGTGAGCG(嵌套引物)(SEQ ID NO14)文庫(kù)構(gòu)建方法和PCR條件如制造商所述,用實(shí)施例3所得的基因組DNA作為PCR模板?;厥赵?′端(0.45kb)有EcoRV位點(diǎn),以及在5′端(2.7kb)有PvuII位點(diǎn)的PCR片段并用E.coli DH5α作為宿主菌株將其克隆到pMOSBlue T-載體。測(cè)序兩個(gè)構(gòu)建體的各5個(gè)獨(dú)立的克隆證實(shí)克隆了hmc基因的5′附近區(qū)域并發(fā)現(xiàn)了其3′端的EcoRI片段的小部分(0.1kb)。上述實(shí)驗(yàn)中通過(guò)PvuII構(gòu)建體所得的克隆稱為pHMCPv708并用于進(jìn)一步研究。
接著,按上文實(shí)施例4所述方法進(jìn)行Southem印跡分析,并測(cè)定了存在于3kb EcoRI片段中的hmc基因的5′附近區(qū)域。在λZAPII中構(gòu)建2.5-3.5kb EcokI文庫(kù)后,篩選600個(gè)噬斑并選出6個(gè)陽(yáng)性克隆。測(cè)序這6個(gè)克隆表明其中的4個(gè)克隆具有如pHMCPv708的同樣序列,而其中的一個(gè)稱為pHMC723并用于進(jìn)一步分析。
合成序列如表3所示的PCR引物以克隆位于P.rhodozyma染色體上的3.5kb和3.0kb EcoRI片段之間的小(0.1kb)EcoRI片段。
表3用于克隆hmc基因的小EcoRI部分的引物序列Hmc30;AGAAGCCAGAAGAGAAA(有義引物)(SEQ ID NO15)Hmc31;TCGTCGAGGAAAGTAGAT(反義引物)(SEQ ID NO16)PCR條件相同于實(shí)施例2所示。將擴(kuò)增的片段(長(zhǎng)度為0.1kb)克隆到pMOSBlue T-載體并轉(zhuǎn)化E.coli DH5α。從5個(gè)獨(dú)立的白色菌落制備質(zhì)粒并進(jìn)行測(cè)序。
從而,確定了該核苷酸序列(4.8kb)含有hmc基因(序列1)。編碼區(qū)在2432bp中,其由11個(gè)外顯子和10個(gè)內(nèi)含子組成。內(nèi)含子分散于全部編碼區(qū)而沒(méi)有5′或3′的傾向性。發(fā)現(xiàn)開放閱讀框由467個(gè)氨基酸(序列6)組成,其序列嚴(yán)格地類似于源自其它物種的HMG-CoA合酶的已知的氨基酸序列(與Schizosaccharomyces pombe的HMG-CoA合酶有49.6%的相同性)。
實(shí)施例7在E.coli中表達(dá)hmc基因以及證實(shí)其酶活性合成序列如表4所示的PCR引物以克隆hmc基因的cDNA片段。
表4用于克隆hmc基因的cDNA的引物序列Hmc25;GGTACCATATGTATCCTTCTACTACCGAAC(有義引物)(SEQ IDNO17)Hmc26;GCATGCGGATCCTCAAGCAGAAGGGACCTG(反義引物)(SEQ IDNO18)PCR條件如下95℃,30秒;55℃,30秒以及72℃,3分鐘;共25個(gè)循環(huán)。用0.1μg獲自實(shí)施例2的cDNA庫(kù)作模板,而Pfn聚合酶作為DNA聚合酶?;厥账鶖U(kuò)增的1.5kb片段并用完全平端化的克隆試劑盒(Novagen)按制造商的方法將其克隆到PT7Blue-3載體(Novagen)中。從E.coliDH5α轉(zhuǎn)化體的白色菌落中篩選出六個(gè)獨(dú)立克隆。限制性分析選出2個(gè)克隆用于進(jìn)一步的測(cè)序篩選。一個(gè)克隆在280位有氨基酸取代(從甘氨酸到丙氨酸),而另一個(gè)在53位有取代(從丙氨酸到蘇氨酸)。源自已知的hmc基因的氨基酸序列的排列表明在所有來(lái)自其它物種的序列中的280位的丙氨酸殘基和甘氨酸殘基依然存在,這個(gè)事實(shí)提示280位的氨基酸取代不影響其酶活性。選擇此克隆(280位突變)作為隨后表達(dá)實(shí)驗(yàn)的pHMC 731。
接著,將NdeI-和BamHI消化pHMC 731所得的1.5kb片段連接到用相同酶消化的pET 11c(Stratagene)并導(dǎo)入到E.coli DH5α中。限制性分析表明回收了具有正常結(jié)構(gòu)(pHMC818)的質(zhì)粒。然后,轉(zhuǎn)化感受態(tài)的E.coliBL21(DE3)(pLysS)細(xì)胞(Stratagene),并選出具有正常結(jié)構(gòu)的一個(gè)克隆用于進(jìn)一步研究。
為了表達(dá)研究,在100ml含100μg/ml青霉素的LB培養(yǎng)基中于37℃下培養(yǎng)菌株BL21(pLysS)(pHMC 818)和載體對(duì)照菌株BL21(DE3)(pLysS)(pET 11c)直到600nm的OD達(dá)到0.8(約3小時(shí))。然后,將該肉湯平均分成兩部分,然后向其中的一部分加入1mM異丙基β-硫代吡喃半乳糖苷(IPTG)。再在37℃下繼續(xù)培養(yǎng)4小時(shí)。從誘導(dǎo)的和非誘導(dǎo)的hmc克隆培養(yǎng)基以及載體對(duì)照培養(yǎng)基中取出25μl肉湯并進(jìn)行十二烷基磺酸鈉聚丙烯胺凝膠電泳(SDS-PAGE)分析。已表明大小類似于推定的核苷酸序列的分子量(50.8kDa)的蛋白質(zhì)僅在誘導(dǎo)的帶有pHMC 818的克隆中表達(dá)。離心(1500×g,10分鐘)收獲50ml肉湯中的細(xì)胞,洗滌一次,并懸浮于2ml hmc緩沖液(200m MTris-HCl(pH8.2))中。用弗氏壓碎勻漿儀(Ohtake Works)以1500kgf/cm2破碎細(xì)胞得到粗裂解液。離心該粗裂解液,回收上清液并用作酶分析的粗抽提物。僅在誘導(dǎo)的pHMC 818克隆的裂解液中,旋轉(zhuǎn)下得到白色顆粒并回收。按Stewart等(生物化學(xué)雜志,241(5),1212-1221,1996)的方法通過(guò)光度計(jì)檢測(cè)進(jìn)行3-羥-3-甲基戊二酰-CoA(HMG-CoA)合酶的酶分析。在全部粗提物中沒(méi)檢測(cè)到3-羥-3-甲基戊二酰-CoA合酶的活性。粗抽提物的SDS-PAGE分析表明在表達(dá)的肉湯中發(fā)現(xiàn)的表達(dá)蛋白帶消失了。隨后,將從誘導(dǎo)的pHMC 818克隆的粗裂解液中回收的白色顆粒用8M鹽酸胍增溶,然后進(jìn)行SDS-PAGE分析。在白色的顆粒中回收已表達(dá)的蛋白,并且提示表達(dá)的蛋白形成包涵體。
接著,進(jìn)行了在較溫和的條件的表達(dá)實(shí)驗(yàn)。細(xì)胞在28℃下在LB培養(yǎng)基中生長(zhǎng)并通過(guò)加入0.1mM IPTG進(jìn)行誘導(dǎo)。然后,在28℃再培養(yǎng)3.5小時(shí)并收獲細(xì)胞。按相同于前述的方案制備粗提物。結(jié)果總結(jié)于表5。表明僅在帶有hmc基因的重組菌株的誘導(dǎo)培養(yǎng)基中觀察到HMG-CoA合酶活性,這提示克隆的hmc基因編碼HMG-CoA合酶。
表5hmc cDNA克隆的酶特征
實(shí)施例8 克隆hmg(3-羥甲基-3-戊二酰-CoA還原酶)基因hmg基因的克隆方案幾乎相同于實(shí)施例2-7所示的hmc基因。首先,合成序列如表6所示的基于其它物種的HMG-CoA還原酶的共有序列的PCR引物。
表6用于克隆hmg基因的引物序列
Red1;GCNTGYTGYGARAAYGTNATHGGNTAYATGCC(有義引物)(SEQ IDNO19)Red2;ATCCARTTDATNGCNGCNGGYTTYTTRTCNGT(反義引物)(SEQ IDNO20)(N=A,C,G或T;R=A或G,Y=C或T, H=A,T或C,D=A,G或T)用ExTaq(Takara Shuzo)作為DNA聚合酶,95℃,30秒;54℃,30秒和72℃,30秒的25個(gè)循環(huán)后,瓊脂糖凝膠電泳反應(yīng)混合物?;厥站哂兴栝L(zhǎng)度的PCR帶并用按制造商的方法通過(guò)QIAquick(QIAGEN)純化并連接到pUC57載體(MBI Fermentas)上。轉(zhuǎn)化感受態(tài)的E.coli DH5α后,選出7個(gè)白色菌落并從那些轉(zhuǎn)化體中分離質(zhì)粒。測(cè)序發(fā)現(xiàn)所有的克隆均具有其推定的氨基酸序列類似于已知的HMG-CoA還原酶基因的序列。將其中的一個(gè)分離的cDNA克隆命名為pRED 1219并用于進(jìn)一步的研究。
接著,用Genome Walker試劑盒(Clontech)克隆含有hmg基因的5′和3′-鄰近區(qū)域的基因組片段??寺×薶rng基因的5′附近區(qū)域的2.5kb片段(pREDPVu 1226)和3’附近區(qū)域的4.0kb片段(pREDEVd 1226)。基于pREDPVu 1226插入片段的序列,合成了其序列如表7所示的PCR引物。
表7用于克隆hmg基因的cDNA的引物序列Red8;GGCCATTCCACACTTGATGCTCTGC(反義引物)(SEQ ID NO21)Red9;GGCCGATATCTTTATGGTCCT(有義引物)(SEQ ID NO22)然后,用Red 8和Red 9作為PCR引物以及實(shí)施例2制備的cDNA庫(kù)克隆含有hmg cDNA序列的長(zhǎng)部分的cDNA片段并將如此克隆的質(zhì)粒稱為pRED 107。PCR條件如下94℃,30秒,55℃,30秒和72℃,1分鐘;25個(gè)循環(huán)。
進(jìn)行Sonthem印跡雜交以克隆含有P.rhodozyma的完整hmg基因的基因組序列。用DIG多引發(fā)法標(biāo)記模板DNA,pRED 107制備探針。結(jié)果,標(biāo)記的探針雜交到長(zhǎng)度為12kb和4kb的兩條帶上。測(cè)序pREDPVu 1226發(fā)現(xiàn)在所克隆的hmg區(qū)域沒(méi)有EcoRI位點(diǎn)。這提示另一種hmg基因(具有4kb的雜交的EcoRI)片段存在于如在其它生物體中發(fā)現(xiàn)的P.rhodozyma的基因組上。
接著,構(gòu)建由λDASHII載體中的9-23kb的EcoRI片段組成的基因組文庫(kù)。將包裝的抽提物感染到E.coli XL1 Blue,MRA(P2)菌株(Stratagene)并用注入LB瓊脂培養(yǎng)基的NZY培養(yǎng)基覆蓋。用StuI-消化的pRED 107的0.6kb片段作為探針篩選5000個(gè)噬斑。4個(gè)噬斑與標(biāo)記的探針雜交。然后,制備噬菌體裂解液并按制造商(Promega)所述的方法用Wizardλ純化系統(tǒng)純化DNA并用EcoRI消化以分離10kb EcoRI片段并克隆到EcoRI-消化的和CIAP處理的pBluescriptII KS-(Stratagene)中。選出11個(gè)白色菌落并用Red 9和-40通用引物(Pharmacia)進(jìn)行菌落PCR。PCR反應(yīng)前通過(guò)加熱細(xì)胞懸浮液(其中挑出的菌落懸浮于10μl無(wú)菌水中,99℃,5分鐘)制備菌落PCR的模板DNA(PCR條件94℃,30秒;55℃,30秒;72℃,3分鐘;25個(gè)循環(huán))。一個(gè)菌落給出了4kb的陽(yáng)性PCR帶,這提示此克隆帶有含有hmg基因的完整區(qū)域。制備此陽(yáng)性克隆的質(zhì)粒并命名為pRED 611。隨后,測(cè)序pRED 611的缺失衍生物。通過(guò)結(jié)合獲自缺失突變體的序列以及來(lái)自引物步移方法的序列,測(cè)定了包括P.rhodozyma的hmg基因的7285bp的核苷酸序列(序列號(hào)2)。P.rhodozyma的hmg基因由10個(gè)外顯子和9個(gè)內(nèi)含子構(gòu)成。長(zhǎng)度為1092個(gè)氨基酸的推定的氨基酸序列(序列7)表明與已知的HMG-CoA還原酶的廣泛的同源性(與玉蜀黍黑粉菌的HMG-CoA還原酶有53.0%的相同性)。
實(shí)施9在E.coli中表達(dá)hmg基因的羧基末端區(qū)一些物種的原核生物具有可溶的HMG-CoA還原酶或相關(guān)的蛋白(Lam等,生物化學(xué)雜志,267,5829-5834,1992)。然而,HMG-CoA在真核生物中通過(guò)氨基-末端膜區(qū)域結(jié)合到內(nèi)質(zhì)網(wǎng)(Skalnik等,生物化學(xué)雜志,263,6836-6841,1988)。在真菌(如釀酒釀母和黑粉菌,玉蜀黍黑粉菌)和動(dòng)物中,該膜區(qū)域是大的和復(fù)雜的,包括七個(gè)或八個(gè)穿膜區(qū)段(Croxen等,微生物學(xué),140,2363-2370,1994)。相對(duì)照地,植物HMG-CoA還原酶的膜區(qū)域僅含一個(gè)或二個(gè)穿膜區(qū)段(Nelson等,植物分子生物學(xué),25,401-412,1994)。盡管穿膜區(qū)域的結(jié)構(gòu)和序列不同,該催化區(qū)域的氨基酸序列在真核生物,古細(xì)菌和真細(xì)菌中是保守的。
Croxen等指出衍生于玉米真菌病原體,玉蜀黍黑粉菌的HMG-CoA還原酶的C末端區(qū)以活性形式在E.coli中表達(dá)(微生物學(xué),140,2363-2370,(1994)。本發(fā)明人試圖在E.coli中表達(dá)P.rhodozyma的HMG-CoA還原酶的C-末端區(qū)域以證實(shí)其酶活性。
首先,合成其序列如表8所示的PCR引物以克隆hmg基因的部分cDNA片段。有義引物序列對(duì)應(yīng)于起始于第597個(gè)氨基酸(谷氨酸)殘基的序列,而期望獲得的蛋白質(zhì)和cDNA的長(zhǎng)度分別為496aa和1.5kb。
表8用于克隆hmg基因的部分cDNA的引物序列Red54;GGTACCGAAGAAATTATGAAGAGTGG(有義引物)(SEQ IN NO23)Red55;CTGCAGTCAGGCATCCACGTTCACAC(反義引物)(SEQ ID NO24)PCR條件如下95℃,30秒;55℃,30秒和72℃,3分鐘;25個(gè)循環(huán)。使用0.1μg實(shí)施例2所得的cDNA作為模板,ExTaq聚合酶作DNA聚合酶?;厥账鶖U(kuò)增的1.5kb片段并克隆到pMOSBlue T-載體(Novagen)中。從E.coli DHα5轉(zhuǎn)化體的白色菌落中選出12個(gè)獨(dú)立克隆并從中制備質(zhì)粒。限制性分析的結(jié)果是選擇了全部這些克隆用于進(jìn)一步測(cè)序篩選。在全部編碼序列中沒(méi)有氨基酸取代的一個(gè)克隆被命名為pRED 908。
接著,將KpnI-和PstI消化pRED 908所得的1.5kb片段連接到用相同酶消化的pQE30(QIAGEN)上并導(dǎo)入E.coli KB822中。限制性分析表明回收了具有正確結(jié)構(gòu)(pRED 1002)的質(zhì)粒。然后,轉(zhuǎn)化感受態(tài)的E.coli M15(pREP4)細(xì)胞(QIAGEN),并選出具有正確結(jié)構(gòu)的一個(gè)克隆用于進(jìn)一步研究。
為了表達(dá)研究,在100ml含25μg/ml卡那霉素和100μg/ml青霉素的LB培養(yǎng)基中于30℃下培養(yǎng)菌株M15(pREP4)(pRED 1002)和載體對(duì)照菌株M15(pREP4)(pQE 30)直到600nm的OD達(dá)到0.8(約5小時(shí))。然后,將該肉湯平均分成兩部分,然后向其中的一部分加入1mM異丙基β-硫代吡喃半乳糖苷(IPTG)。再在30℃下繼續(xù)培養(yǎng)3.5小時(shí)。從誘導(dǎo)的和非誘導(dǎo)的hmc克隆培養(yǎng)基以及載體對(duì)照培養(yǎng)基中取出25μl肉湯并進(jìn)行SDS-PAGE分析。已表明大小類似于推定的核苷酸序列的分子量(52.4Da)的蛋白質(zhì)僅在誘導(dǎo)的帶有pRED 1002的克隆中表達(dá)。離心(1500×g,10分鐘)收獲50ml肉湯中的細(xì)胞,洗滌一次,并懸浮于2ml hmc緩沖液(100mM磷酸鉀緩沖液(pH7.0),含1mM EDTA和10mM二硫代蘇糖醇)中。用弗氏壓碎勻漿儀(Ohtake Works)以1500kgf/cm2破碎細(xì)胞得到粗裂解液。離心該粗裂解液,回收上清液并用作酶分析的粗抽提物。僅在誘導(dǎo)的pRED 1002克隆的裂解液中,旋轉(zhuǎn)下得到白色顆粒并回收。按Servouse等(生物化學(xué)雜志,240,541-547,1986)的方法通過(guò)光度計(jì)檢測(cè)進(jìn)行3-羥-3-甲基戊二酰-CoA(HMG-CoA)合酶的酶分析。在全部粗提物中沒(méi)檢測(cè)到3-羥-3-甲基戊二酰-CoA合酶活性。粗抽提物的SDS-PAGE分析表明在表達(dá)的肉湯中發(fā)現(xiàn)的表達(dá)蛋白帶消失了。隨后,將從誘導(dǎo)的pRED 1002克隆的粗裂解液中回收的白色顆粒用等體積的20%SDS增溶,然后進(jìn)行SDS-PAGE分析。在白色的顆粒中回收已表達(dá)的蛋白,并且提示表達(dá)的蛋白形成包涵體。
接著,進(jìn)行了在較溫和的條件的表達(dá)實(shí)驗(yàn)。細(xì)胞在28℃下在LB培養(yǎng)基中生長(zhǎng)并通過(guò)加入0.1mM IPTG進(jìn)行誘導(dǎo)。然后,在28℃再培養(yǎng)3.5小時(shí)并收獲細(xì)胞。按相同于前述的方案制備粗提物。結(jié)果總結(jié)于表9。表明觀察到30倍高的誘導(dǎo),這提示克隆的hmc基因編碼HMG-CoA合酶。
表9hmg cDNA克隆的酶特征
實(shí)施例10克隆甲羥戊酸激酶(mvk)基因mvk基因的克隆方案幾乎相同于實(shí)施例2-7所示的hmc基因。首先,合成序列如表10所示的基于其它物種的甲羥戊酸激酶的共有序列的PCR引物。
表10用于克隆mvk基因的引物序列Mk1;GCNCCNGGNAARGTNATHYTNTTYGGNGA(有義引物)(SEQ IDNO25)Mk2;CCCCANGTNSWNACNGCRTTRTCNACNCC(反義引物)(SEQ IDNO26)(N=A,C,G或T;R=A或G,Y=C或T,H=A,T或C,S=C或G,W=A或T)用ExTaq作為DNA聚合酶,95℃,30秒;46℃,30秒和72℃,15秒的25個(gè)循環(huán)后,瓊脂糖凝膠電泳反應(yīng)混合物。回收其長(zhǎng)度預(yù)計(jì)含有部分mvk基因的0.6kb PCR帶并用按制造商的方法通過(guò)QIAquick(QIAGEN)純化并連接到pMOSBlue T-載體。轉(zhuǎn)化感受態(tài)的E.coli DH5α后,選出4個(gè)白色菌落并從那些轉(zhuǎn)化體中分離質(zhì)粒。測(cè)序發(fā)現(xiàn)其中的一個(gè)克隆具有其推定的氨基酸序列類似于已知的甲羥戊酸激酶基因的序列。將該cDNA克隆命名為pMKl28并用于進(jìn)一步的研究。
接著,PCR克隆包括mvk基因的部分基因組克隆。合成序列如表11所示的基于pMK128的內(nèi)部序列的PCR引物。
表11用于克隆含mvk基因的基因組DNA的引物序列Mk5;ACATGCTGTAGTCCATG`(有義引物)(SEQ ID NO27)Mk6;ACTCGGATTCCATGGA(反義引物)(SEQ ID NO28)PCR條件是94℃,30秒;55℃,30秒;72℃,1分鐘,25個(gè)循環(huán)。將所擴(kuò)增的1.4kb片段克隆到pMOSBlue T-載體中。測(cè)序證實(shí)可得到具有典型的內(nèi)含子結(jié)構(gòu)的含mvk基因的基因組片段并命名該基因組克隆為pMK224。
進(jìn)行Southem印跡雜交以克隆含有P.rhodozyma的完整mvk基因的基因組片段。通過(guò)用DIG多引發(fā)法標(biāo)記模板DNA,用NcoI消化PMK 224來(lái)制備探針。按制造商的方法進(jìn)行雜交。結(jié)果,標(biāo)記的探針雜交到長(zhǎng)度為6.5kb的帶上。接著,在λZAPII載體中構(gòu)建由5-7kb EcoRI片段構(gòu)成的基因組文庫(kù)。感染包裝的抽提物到E.coli XL1Blue,MRF′株(Stratagene)并用注入到LB瓊脂培養(yǎng)基上的NZY培養(yǎng)基覆蓋。用0.8kb的NcoI消化的pMK224片段作為探針篩選大約5000個(gè)噬斑。七個(gè)噬斑雜交到標(biāo)記的探針上。然后,按制造商(Stratagene)的方法制備噬菌體裂解液并用E coli XL1BlueMRF′和SOLR菌株進(jìn)行體內(nèi)切除。選出14個(gè)白色菌落并從中分離質(zhì)粒。然后,用NcoI消化分離的質(zhì)粒并用噬菌雜交的探針進(jìn)行Southern印跡雜交。全部質(zhì)粒的插入片段均雜交到探針,這提示可克隆含mvk基因的基因組片段。制備源自其中一個(gè)陽(yáng)性克隆的質(zhì)粒并命名為pMK701。用引物步移法測(cè)定了約3kb的序列并發(fā)現(xiàn)該mvk基因的5′端不包括在pMK701中。
接著合成具有序列TTGTTGTCGTAGCAGTGGGTGAGAG(序列29)的PCR引物以按制造商(Clontech)的方法用Genome Walker試劑盒克隆mvk基因的5′附近基因區(qū)域。擴(kuò)增特定的1.4kb的PCR帶并克隆λpMOSBlue T-載體。所選的全部DH5α轉(zhuǎn)化體均具有期望長(zhǎng)度的插入片段。隨后的測(cè)序表明可克隆mvk基因的5′-附近區(qū)域。命名其中的一個(gè)克隆為pMKEVR 715并用于進(jìn)一步研究。用實(shí)施例3制備的基因組DNA的Sonthem印跡雜交表明所標(biāo)記的pMKE VR 715雜交到2.7kb的EcoRI帶上。構(gòu)建其中的長(zhǎng)度從1.4到3.0kb的EcoRI片段被克隆入λZAPII的基因文庫(kù)并用1.0kb的pMKEVR 715的EcoRI片段篩選。從5000個(gè)噬斑中篩選出14個(gè)陽(yáng)性噬斑并用體內(nèi)切除法從其中制備質(zhì)粒。
合成源于pMKEVR 715的內(nèi)序列的如表12所示的PCR引物以用菌落PCR篩選陽(yáng)性克隆。
表12用于克隆mvk基因的5′附近區(qū)域的PCR引物Mk17;GGAAGAGGAAGAGAAAAG(有義引物)(SEQ ID NO30)Mk18;TTGCCGAACTCAATGTAG(反義引物)(SEQ ID NO31)PCR條件如下94℃,30秒;50℃,30秒和72℃,15秒,25個(gè)循環(huán)。從除了一個(gè)克隆外的全部候選克隆得到了陽(yáng)性的0.5kb。選擇其中的一個(gè)克隆并命名為pMK 723以測(cè)定mvk基因的上游區(qū)序列。測(cè)序pMK 723的3’區(qū)域并結(jié)合pMK 701序列,測(cè)序了含mvk基因的4.8kb片段的基因組序列。mvk基因由4個(gè)內(nèi)含子和5個(gè)外顯子(序列3)組成。除了氨基端的4個(gè)氨基酸外的推定氨基酸序列(序列8)表現(xiàn)出與已知的甲羥戊酸激酶的廣泛的同源性(與Rattus norvegicus的甲羥戊酸激酶有44.3%的相同性)。
實(shí)施例11 通過(guò)在氨基末端區(qū)域引入1個(gè)堿基表達(dá)mvk基因雖然該氨基酸序列表現(xiàn)出與已知的甲羥戊酚激酶的顯著的同源性,但沒(méi)發(fā)現(xiàn)mvk基因的合適起始密碼子。此結(jié)果提示該克隆的基因可能為甲羥戊酸激酶的假基因。為證實(shí)此推測(cè),合成了序列如表13所示的PCR引物以及引入人工核苷酸,其能導(dǎo)致在氨基端的合適起始密碼子的產(chǎn)生。
表13用于將核苷酸引入到mvk基因中的PCR引物Mk33;GGATCCATGAGAGCCCAAAAAGAAGA(有義引物)(SEQ IDNO32)Mk34;GTCGACTCAAGCAAAAGACCAACGAC(反義引物)(SEQ IDNO33)如此導(dǎo)入的人工氨基末端序列如下NH2-Met-Arg-Ala-Gln。通過(guò)用ExTaq聚合酶作為DNA聚合酶,95℃,30秒;55℃,30秒和72℃,30秒;25個(gè)循環(huán)的PCR反應(yīng)后,瓊脂糖電泳該反應(yīng)混合物。擴(kuò)增了期望的1.4kb PCR帶并克隆到pCR2.1 TOPO載體中。轉(zhuǎn)化感受態(tài)E.coli TOP10細(xì)胞后,選出6個(gè)白色菌落并分離質(zhì)粒。測(cè)序發(fā)現(xiàn)有一個(gè)克隆僅含一個(gè)氨基酸殘基的改變(序列8中81位氨基酸殘基處,Asp變成Gly)。命名此質(zhì)粒為pMK11130#3334并用于進(jìn)一步研究。然后,克隆pMK1130#3334的插入片段到pQE 30。命名此質(zhì)粒為pMK1209#3334。轉(zhuǎn)化表達(dá)的宿主M15(pREP4)后進(jìn)行表達(dá)研究。將M15(pREP4)(pMK1209#3334)菌株和載體對(duì)照菌體(M15(pREP4)(pQE30))接種到含有100μg/ml氨芐青霉素的3ml的LB培養(yǎng)基中。37℃下培養(yǎng)3.75小時(shí)后,將所培養(yǎng)的肉湯分成兩份。向一份中加入1mM IPTG并繼續(xù)培養(yǎng)3小時(shí)。從50μl肉湯中離心收獲細(xì)胞并進(jìn)行SDS-PAGE分析。將具有期望的48.5kDa的分子量的蛋白通過(guò)加入IPTG到M15(pREP4)(pMK1209#3334)的培養(yǎng)物中而誘導(dǎo),雖然在載體對(duì)照培養(yǎng)中沒(méi)觀察到誘導(dǎo)蛋白帶(圖2)。此結(jié)果提示甲羥戊酸激酶的活性形式可通過(guò)在氨基端人工加入一個(gè)核苷酸而被表達(dá)。
實(shí)施例12克隆甲羥戊酸磷酸脫羧酶(mpd)基因mpd基因的克隆方案幾乎相同于實(shí)施例2-7所示的hmc基因。首先,合成序列如表14所示的基于其它物種的HMG-CoA還原酶的共有序列的PCR引物。
表14用于克隆mpd基因的引物序列Mpd1;HTNAARTAYTTGGGNAARMGNGA(有義引物)(SEQ ID NO34)Mpd2;GCRTTNGGNCCNGCRTCRAANGTRTANGC(反義引物)(SEQ IDNO35)(N=A,C,G或T;R=A或G,Y=C或T,H=A,T或C,M=A或C)用ExTaq作為DNA聚合酶,95℃,30秒;50℃,30秒和72℃,15秒的25個(gè)循環(huán)后,瓊脂糖凝膠電泳反應(yīng)混合物。回收其長(zhǎng)度預(yù)計(jì)含有部分mpd基因的0.9kb PCR帶并用按制造商的方法通過(guò)QIAquick純化并連接到pMOSBlue T-載體上。轉(zhuǎn)化感受態(tài)的E.coli DH5α后,選出6個(gè)白色菌落并分離質(zhì)粒。6個(gè)克隆中的2個(gè)有期望長(zhǎng)度的插入片段。測(cè)序發(fā)現(xiàn)其中的一個(gè)克隆具有其推定的氨基酸序列類似于已知的甲羥戊酸焦磷酸脫羧酶基因的序列。該cDNA克隆命名為pMPD129并用于進(jìn)一步的研究。
接著,PCR克隆包括mpd基因的部分基因組。條件相同的部分cDNA片段的克隆的PCR表明得到了擴(kuò)增的1.05kb片段并克隆到pMOSBlue T-載體中。測(cè)序證實(shí)可得到具有典型的內(nèi)含子結(jié)構(gòu)的含mpd基因的基因組片段并命名該基因組克隆為pMPD 220。
進(jìn)行Southern印跡雜交以克隆含有P.rhodozyma的完整mpd基因的基因組片段。通過(guò)用DIG多引發(fā)法標(biāo)記模板DNA,用KpnI消化pMPD 220來(lái)制備探針。按制造商的方法進(jìn)行雜交。結(jié)果,標(biāo)記的探針雜交到長(zhǎng)度為7.5kb的帶上。接著,在λZAPII載體中構(gòu)建由6.5-9.0kb EcoRI片段構(gòu)成的基因文庫(kù)。感染包裝的抽提物到E.coli XL1Blue,MRF′株(Stratagene)并用注入到LB瓊脂培養(yǎng)基上的NZY培養(yǎng)基覆蓋。用0.6kb的KpnI消化的pMPD220片段作為探針篩選大約6000個(gè)噬斑。四個(gè)噬斑雜交到標(biāo)記的探針。然后,按制造商(Stratagene)的方法制備噬菌體裂解液并用E coli XL1Blue MRF′和SOLR菌株進(jìn)行體內(nèi)切除。各選出三個(gè)得自4個(gè)陽(yáng)性噬斑的白色菌落并從中分離質(zhì)粒。然后,對(duì)分離的質(zhì)粒進(jìn)行菌落PCR,方法如實(shí)施例8。合成基于pMPD129中發(fā)現(xiàn)的序列的如表14所示的PCR引物并用于菌落PCR。
表15用于克隆基因組mpd克隆的菌落PCR的引物序列Mpd7;CCGAACTCTCGCTCATCGCC(有義引物)(SEQ ID NO36)Mpd8;CAGATCAGCGCGTGGAGTGA(反義引物)(SEQ ID NO37)PCR條件幾乎相同于克隆mvk基因的94℃,30秒;50℃,30秒和72℃,10秒,25個(gè)循環(huán)。從除了一個(gè)克隆外的全部候選克隆得到了陽(yáng)性的0.2kb PCR帶。從其中一個(gè)陽(yáng)性克隆中制備質(zhì)粒并將其命名為pMPD701并且通過(guò)引物步移法測(cè)定了其大約3kb的序列(序列4)。存在由402aa(序列9)組成的ORF,其序列類似于已知的甲羥戊酸焦磷酸脫羧酶的序列(與粟酒裂殖糖酵母的甲羥戊酸焦磷酸脫羧酶有52.3%的相同性)。還測(cè)定了期望包括其啟動(dòng)子序列的0.4kb的5′附近區(qū)域。
實(shí)施例13法尼焦磷酸合酶(fps)基因fps基因的克隆方案幾乎相同于實(shí)施例2-7所示的hmc基因。首先,合成序列如表16所示的基于其它物種的fps基因的共有序列的PCR引物。
表16用于克隆fps基因的引物序列Fps1;CARGCNTAYTTYYTNGTNGCNGAYGA(有義引物)(SEQ ID NO38)Fps2;CAYTTRTTRTCYTGDATRTCNGTNCCDATYTT(反義引物)(SEQ IDNO39)(N=A,C,G或T;R=A或G,Y=C或T,D=A,G或T)用ExTaq作為DNA聚合酶,95℃,30秒;54℃,30秒和72℃,30秒的25個(gè)循環(huán)后,瓊脂糖凝膠電泳反應(yīng)混合物?;厥站哂兴栝L(zhǎng)度(0.5kb)的PCR帶并用按制造商的方法通過(guò)QIAquick(QIAGEN)純化并連接到pll(5)載體。轉(zhuǎn)化感受態(tài)的E.coli DH5α后,選出6個(gè)白色菌落分離質(zhì)粒。其中的一個(gè)具有所需長(zhǎng)度的插入片段的質(zhì)粒。結(jié)果發(fā)現(xiàn)此克隆具有其穩(wěn)定的氨基酸序列類似于已知的法尼焦磷酸含酶基因的序列。將其中的一個(gè)分離的cDNA克隆命名為pFPS 107并用于進(jìn)一步的研究。
接著,用相同于Fps1和Fps2的引物通過(guò)PCR克隆基因組片段。使用相同克隆部分cDNA的PCR條件??寺×怂玫?.0kb帶并測(cè)序。此克隆含有與pFPS 107相同的序列以及一些典型的內(nèi)含子片段。命名此質(zhì)粒為pFPS113并用于進(jìn)一步實(shí)驗(yàn)。
然后,用實(shí)施例8所述的方法克隆了含有fps基因的5′-和3′-附近區(qū)域。首先,合成了序列如表17所示的PCR引物。
表17用于克隆fps基因的附近區(qū)域的引物序列Fps7;ATCCTCATCCCGATGGGTGAATACT(有義于下游克隆)(SEQ IDNO40)Fps9;AGGAGCGGTCAACAGATCGATGAGC(反義于上游克隆)(SEQ IDNO41)分離所擴(kuò)增的PCR帶并克隆λpMOSBlue T-載體。測(cè)序發(fā)現(xiàn)克隆了長(zhǎng)度為2.5kb的5′-附近區(qū)域以及長(zhǎng)度為2.0kb的3′附近區(qū)域。分別命名這些質(zhì)粒為pFPSSTu 117和pFPSSTd 117。測(cè)序兩個(gè)質(zhì)粒發(fā)現(xiàn)由帶有8個(gè)內(nèi)含子的1068bp組成的ORF。推定的氨基酸序列顯示與源自其它物種的法尼焦磷酸合酶有廣泛的同源性。基于序列測(cè)定,合成了序列如表17所示的兩個(gè)PCR引物以克隆fps克隆和cDNA克隆以便在E.coli中的fps基因表達(dá)。
表18用于cDNA和基因組fps克隆的引物序列Fps27;GAATTCATATGTCCACTACGCCTGA(有義引物)(SEQ ID NO42)Fps28;GTCGACGGTACCTATCACTCCCGCC(反義引物)(SEQ ID NO43)PCR條件如下94℃,30秒;50℃,30秒;72℃,30秒,25個(gè)循環(huán)。測(cè)序PCR所得的克隆,選出具有正確的序列的一個(gè)cDNA克隆并命名為pFPS 113。接著,進(jìn)行Souther印跡雜交研究以克隆含有P.rhodozyma的完整的fps基因的基因組片段。用DIG多引發(fā)法標(biāo)記模板DNA,pPFS 113制備探針。結(jié)果,標(biāo)記的探針雜交到長(zhǎng)度約為10kb的帶上。
接著,在λDASHII載體中構(gòu)建由9-15kb的EcRI片段組成的基因文庫(kù),將包裝的抽提物感染到E.col XL1 Blue,MRA(P2)菌株(Stratagene)中并用注入LB瓊脂培養(yǎng)基的NZY培養(yǎng)基覆蓋。用SacI-消化的pFPS 113的0.6kb片段作為探針篩選10000個(gè)噬斑。8個(gè)噬斑與標(biāo)記的探針雜交。然后,制備噬菌體裂解液(按制造商(Promega)所述的方法)。全部噬斑用FPS 27和FPS28引物進(jìn)行噬斑PCR。PCR反應(yīng)前通過(guò)99℃加熱噬菌體顆粒5分鐘制備噬斑PCR的模板DNA。PCR條件相同于前述的pFP 113克隆。所有噬斑均給出了2kb的陽(yáng)性PCR帶,這提示這些克隆帶有含有fps基因的完整區(qū)域。用EcoRI消化帶有fps基因的一個(gè)λDNA以分離10kb EcoRI片段并克隆到EcoRI消化和CIAP處理的pBluescriptII KS-(Stratagene)中。選出所轉(zhuǎn)化的E.coli DH5α細(xì)胞的12個(gè)白色菌落并從中制備質(zhì)粒,用相同于Fps 27和Fps 28的引物對(duì)以及PCR條件進(jìn)行菌落PCR。從12個(gè)候選克隆的3個(gè)中得到了2kb的陽(yáng)性帶??寺∫粋€(gè)克隆并命名為pFPS 603。雖然有一些PCR錯(cuò)誤,但已證實(shí)上文中測(cè)定于pFPSSTu117和pFPSStd 117序列的fps基因的序列幾乎是正確的。最后,測(cè)定了含有P.rhodozyma(圖3)的fps基因的4092bp的核苷酸序列,并發(fā)現(xiàn)了由帶有8個(gè)內(nèi)含子的365個(gè)氨基酸組成的ORF(序列5)。推定的氨基酸序列(序列10)表現(xiàn)出與已知的FPP合酶的廣泛的同源性(與源自乳克魯維氏酵母的FPP合酶有65%的相同性)。
序列表(1)一般信息(i)申請(qǐng)人F.HOFFMANN-LAROCHE.AG(ii)發(fā)明名稱改進(jìn)的微生物學(xué)類胡蘿卜素生產(chǎn)及其生物材料(iii)序列數(shù)43(iv)通信地址(A)收件人(B)街道Grezacherstrasse 124(C)城市BASLE(E)國(guó)家SWITZERLAND(F)郵編CH-4002(v)計(jì)算機(jī)可讀形式(A)媒介類型軟盤(B)計(jì)算機(jī)IBM PC兼容(C)操作系統(tǒng)PC-DOS/MS-DOS(D)軟件PatentIn Release#1.0,Version#1.25(vi)當(dāng)前申請(qǐng)資料(A)申請(qǐng)?zhí)?B)申請(qǐng)日期(C)分類(ix)電訊信息(A)電話061-688 25 11(B)傳真061-688 13 95(C)電傳962292/965542 hlr c(2)序列1資料(i)序列特征(A)長(zhǎng)度6370bp(B)類型核苷酸(C)鏈型雙鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)
(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(vi)原始來(lái)源(A)生物體Phaffia rhodozyma(B)菌株ATCC96594(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1441..1466(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1467..1722(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1723..1813(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1814..1914(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1915..2535(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2536..2621(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2622..2867(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2868..2942(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2943..3897(A)名稱/關(guān)鍵詞內(nèi)含子
(B)位置3898..4030(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置4031..4516(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置4517..4616(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置4617..4909(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置4910..5007(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置5008..5081(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置5082..5195(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置5196..5446(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置5447..5523(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置5524..5756(ix)特征(A)名稱/關(guān)鍵詞poly A位點(diǎn)(B)位置6173(Xi)序列描述SEQ ID NO1
GGAAGACATG ATGGTGTGGG TGTGAGTATG AGCGTGAGCG TGGGTATGGG CCTGGGTGTG 60GGTATGAGCG GTGGTGGTGA TGGATGGATG GGTGGGTGGC GTGGAGGGGT CCGTGCGGCA 120AGATGTTTTC TCTGGGTAGG AGCGTTCTGC ATTGGGGCAG GAGAAAAAAT AGTGTGGTTA 180CGGGAGATCG TGGTTACATC AAGCCATCGT CACTGTAAGG CTCTGTAAGG CTCGGTTGTT 240AAGAAGGTAA CCAAGTGTAA TCACTTGGTT CGCGGGGTGA CACTTAGGCT CTGGCGATTA 300ATATATCTGA AGCAGACCAA ACTATTAACA ATATACTTTT GGATAAGAGG TTTCAACAAG 360AATCTCAGCT TGAGGAAAAC TCTTATCCAA GAAGGCGCGA GGGCGTCCCC GTTTTATATC 420AGGACCCCTC GCGCATTTGG TCTGCCACTA AAGATATACA TATGACGAGC CTAGAGAGGC 480TCGAGATCAC GAAAACTAAA AAGATGAAGC ATGAACCATG CAAACTAGAG CATGATGGAA 540AATGGGCGAA GAGGCATAAG GGATGGAGGG AACGAATAGC CTGTAGGGGT AACCCACGTA 600AGAGAACACG TGATACTTAA CCCGTATCCC TGACAGTCAC GGTGTTTCTT GAGAGTCAGT 660AATGTCCAGC TGTGACCTCA CGTGACTAAA CCCGACACGT GTGCTTCGAC CGAGGTGGGA 720CGATCTTTTT TTTGGGGGGA GAAACCGAGT GGGACGATAG AGAGGACTAC GGAGAACTGT 780AGTGAATTGT AGTGCGCTCA CTACGGAGAG TTCTAGTTGA GCAAGCGATG TGATTTTCAA 840TACAATCCCG GACTACAAGC TCTCTAATAG AGCTCTATAA TAGAAGGACA AAAGTCGTCC 900CACTCCTATC TCCCGCGCGT TTTAATAGAG ACCGATTGTT TTTTTCCCTA ATGTTTTATT 960TTCTTTCCCC GATCGGCTCA TTTTTCTTCT CTCCGCGTAT TCTTCACACA ACGCTCCCTC1020CGATCTTTTT TCTTCTTGTT CCTGTTCCTC TTCGTCTCCT TCCATTGTCT TCTTTCCTTC1080CTTCCTTCCT TCTTGCCTCT AGCCAGCTTC AACAGCGACG TCTCTCTCTC TCTGTGTGGT1140GATCTCCGAC TGTAGTGTCT CTCTCGGTCA CTTTCACGAA TCAACTTCGT TTCTTTTCTG1200ATCGATCGGT CGTCTTTCCC TCAATCCGTG CATACACTCA CACTTACACT CACACCCACA1260CACTCAAACA CGCTAAATAA TCAGATCCGT CTCCCCTTCT TGATCTCCTT CGGCTTAGGC1320AATGGCTTCC TTGTTCGGCC TCCGGCGGTC CTCAAACGAG CAGCCGCGCT CTCCTCTGCT1380CATCCAATCG AAGTCATCCT TTCTACCTTT GTCGTGGTCA CCTTGACGTA CTTTCAGTTG1440ATGTACACCA TCAAGCACAG TAATTTGTAC GTCCGATCAT CTATTTGTCG TGTTCTCCTT1500AGTCTCTTTC TCTTCCTCCT TTGTCTTTCG CGTCAGCGTG GCTGGATTTC CGTCTCCATG1560TCATTTCCCT TATTTCCTCT TCCTGTCATT TGTTCCTCTA CTTTTCTTTC TCTACCTCCT1620TTCCCTGTCG TTTGCTTTCC TTCGCCAGTT GACCACCGAT CCTCAGGATT CATGGCTAAC1680ATGCCCAACA CAAACTTGCA TATCATCTCT CTTCGTCCAC AGTCTTTCTC AGACGATTAG1740CACACAATCT ACCACCAGCT GGGTCGTCGA TGCGTTCTTC TCTTTGGGAT CCAGATACCT1800TGACCTCGCG AAGGTTAGTC AGTTGACCCT CTCATGCTTC TTTTCTCTCA GTCTTGTGTG1860
TGCGCATATA CCCACTCATA GACATCTTCG TACGCTGCAC TTTCCCTCCC TTAGCAAGCA1920GACTCGGCCG ATATCTTTAT GGTCCTCCTC GGTTACGTCC TTATGCACGG CACATTCGTC1980CGACTGTTCC TCAACTTTCG TCGGATGGGC GCAAACTTTT GGCTGCCAGG CATGGTTCTT2040GTCTCGTCCT CCTTTGCCTT CCTCACCGCC CTCCTCGCCG CCTCGATCCT CAACGTTCCG2100ATCGACCCGA TCTGTCTCTC GGAAGCACTT CCCTTCCTCG TGCTCACCGT CGGATTTGAC2160AAGGACTTTA CCCTCGCAAA ATCTGTGTTC AGCTCCCCAG AAATCGCACC CGTCATGCTT2220AGACGAAAGC CGGTGATCCA ACCAGGAGAT GACGACGATC TCGAACAGGA CGAGCACAGC2280AGAGTGGCCG CCAACAAGGT TGACATTCAG TGGGCCCCTC CGGTCGCCGC CTCCCGTATC2340GTCATTGGCT CGGTCGAGAA GATCGGGTCC TCGATCGTCA GAGACTTTGC CCTCGAGGTC2400GCCGTCCTCC TTCTCGGAGC CGCCAGCGGG CTCGGCGGAC TCAAGGAGTT TTGTAAGCTC2460GCCGCGTTAA TTTTGGTGGC CGACTGCTGC TTCACCTTTA CCTTCTATGT CGCCATCCTC2520ACCGTCATGG TCGAGGTAAG CCTTTTCTTC AAGTTTCTTG CTGTCATTTT CCTTTCGACA2580CGTATGCTCA TCTTTCGTTT CCGTCTCTCT CACCTTTCCA GGTTCACCGA ATCAAGATCA2640TCCGGGGCTT CCGACCGGCC CACAATAACC GAACACCGAA TACTGTGCCC TCTACCCCTA2700CTATCGACGG TCAATCTACC AACAGATCCG GCATCTCGTC AGGGCCTCCG GCCCGACCGA2760CCGTGCCCGT GTGGAAGAAA GTCTGGAGGA AGCTCATGGG CCCAGAGATC GATTGGGCGT2820CCGAAGCTGA GGCTCGAAAC CCGGTTCCAA AGTTGAAGTT GCTCTTAGTA AGTAAACTTC2880CTTTGTTCTT CTCATCATTC TTTATCTCCG AATCCTGACG TCGGACCCTT CTCGATTCAA2940AGATCTTGGC CTTTCTTATC CTTCATATCC TCAACCTTTG CACGCCTCTG ACCGAGACCA3000CAGCTATCAA GCGATCGTCT AGCATACACC AGCCCATTTA TGCCGACCCT GCTCATCCGA3060TCGCACAGAC AAACACGACG CTCCATCGGG CGCACAGCCT AGTCATCTTT GATCAGTTCC3120TTAGTGACTG GACGACCATC GTCGGAGATC CAATCATGAG CAAGTGGATC ATCATCACCC3180TGGGCGTGTC CATCCTGCTG AACGGGTTCC TCCTAAAAGG GATCGCTTCT GGCTCTGCTC3240TCGGACCCGG TCGTGCCGGA GGAGGAGGAG CTGCCGCCGC CGCCGCCGTC TTGCTCGGAG3300CGTGGGAAAT CGTCGATTGG AACAATGAGA CAGAGACCTC AACGAACACT CCGGCTGGTC3360CACCCGGCCA CAAGAACCAG AATGTCAACC TCCGACTCAG TCTCGAGCGG GATACTGGTC3420TCCTCCGTTA CCAGCGTGAG CAGGCCTACC AGGCCCAGTC TCAGATCCTC GCTCCTATTT3480CACCGGTCTC TGTCGCGCCC GTCGTCTCCA ACGGTAACGG TAACGCATCG AAATCGATTG3540AGAAACCAAT GCCTCGTTTG GTGGTCCCTA ACGGACCAAG ATCCTTGCCT GAATCACCAC3600CTTCGACGAC AGAATCAACC CCGGTCAACA AGGTTATCAT CGGTGGACCG TCCGACAGGC3660CTGCCCTAGA CGGACTCGCC AATGGAAACG GTGCCGTCCC CCTTGACAAA CAAACTGTGC3720TTGGCATGAG GTCGATCGAA GAATGCGAAG AAATTATGAA GAGTGGTCTC GGGCCTTACT3780CACTCAACGA CGAAGAATTG ATTTTGTTGA CTCAAAAGGG AAAGATTCCG CCGTACTCGC3840
TGGAAAAAGC ATTGCAGAAC TGTGAGCGGG CGGTCAAGAT TCGAAGGGCG GTTATCTGTA3900GGTCTTTTTC TCCTTTGAAT TTCAAGCCTT GGAGGAGAGG AAAGTGCTTC GGGGTACAAT3960ACAGGTTGTG CAAACAAACC AAGAGAAACT AAAGAAAACT TTCTTCTCCT CTCTCTCCCC4020TCGACGTCAG CCCGAGCATC CGTTACTAAG ACGCTGGAAA CCTCGGACTT GCCCATGAAG4080GATTACGACT ACTCGAAAGT GATGGGCGCA TGCTGTGAGA ACGTTGTCGG ATATATGCCT4140CTCCCTGTCG GAATCGCTGG TCCACTTAAC ATTGATGGCG AGGTCGTCCC CATCCCGATG4200GCCACCACCG AGGGAACTCT CGTGGCCTCG ACGTCGAGAG GTTGCAAAGC GCTCAACGCG4260GGTGGCGGAG TGACCACCGT CATCACCCAG GATGCGATGA CGAGAGGACC GGTGGTGGAT4320TTCCCTTCGG TCTCTCAGGC CGCACAGGCC AAACGATGGT TGGATTCGGT CGAAGGAATG4380GAGGTTATGG CCGCTTCGTT CAACTCGACT TCTAGATTCG CCAGGTTGCA GAGCATCAAG4440TGTGGAATGG CCGGCCGATC GCTATACATC CGTTTGGCGA CCAGTACCGG AGATGCGATG4500GGAATGAACA TGGCTGGTGA GTGCGACGAG TTTTCTTTGT TCTTCTTGTG CGGACCATGT4560TTTCTCATCC AGCCAATTCA TTCTTCATTC CTTCTCGGTG TTTGGCAACC TTTTAGGTAA4620AGGAACGGAG AAAGCTTTGG AAACCCTGTC CGAGTACTTC CCATCCATGC AGATCCTTGC4680TCTTTCTGGT AACTACTGTA TCGACAAGAA GCCTTCTGCC ATCAACTGGA TTGAGGGCCG4740TGGAAAGTCC GTGGTGGCCG AGTCGGTGAT CCCTGGAGCG ATCGTCAAGT CTGTCCTCAA4800GACAACGGTT GCGGATCTCG TCAACTTGAA CATTAAGAAA AACTTGATCG GAAGTGCCAT4860GGCAGGCAGC ATTGGAGGAT TCAACGCCCA CGCGTCGAAT ATTTTGACTG TGCGTACTTC4920TCTTTCCATA TTCGTCCTCG TTTAATTTCT TTTCTGTCCA GTCTTATGAC GTCTGATTGG4980TTCTTCTTTT CACCCACACA CATACAGTCA ATCTTCTTGG CTACAGGTCA GGATCCTGCA5040CAGAATGTGG AGTCCTCAAT GTGCATGACA TTGATGGAGG CGTACGTTTT TTGTTTTGTT5100TTCCTTCTTT TTCCATATGT TTCTACTTCT ACTTTCTTCC CGAGTCCGCC AAGCTGATAC5160CTTTATACGG TCCTTCTCTT TCTCATGACG AGTAGTGTGA ACGACGGAAA AGATCTACTC5220ATCACCTGCT CGATGCCGGC GATCGAGTGC GGAACGGTCG GTGGAGGAAC TTTCCTCCCT5280CCGCAAAACG CCTGTTTGCA GATGCTCGGT GTCGCAGGTG CCCATCCAGA TTCGCCCGGT5340CACAATGCTC GTCGACTAGC AAGAATCATC GCTGCCAGTG TGATGGCTGG AGAGTTGAGT5400TTGATGAGTG CTTTGGCCGC TGGTCATTTA ATCAAGGCCC ACATGAGTAA GTCTGCCACC5460TTTTGATAAT CAAAAGGGTC GTGGTACTGG TGTCACTGAC TGGTGACTCT TCCTGTCATG5520CAGAGCACAA TCGATCGACA CCTTCGACTC CTCTACCGGT CTCACCGTTG GCGACCCGAC5580CGAACACGCC GTCCCACCGG TCGATTGGAT TGCTCACACC GATGACGTCT TCCGCATCGG5640TCGCCTCGAT GTTCTCTGGG TTCGGTAGTC CGTCGACGAG CTCGCTCAAG ACGGTAGGTA5700GCATGGCTTG CGTCAGGGAA CGAGGGGACG AGACGAGTGT GAACGTGGAT GCCTGAACTG5760GGGACTCCCT TTTCTTGGTA TCCCTTCCGT TTTTCTTTCG GCCTTTGAAT CCTGTATTCT5820
TGTCCGTTTT TTCATCTTCT CTTCCTGGTT CTCCTTCTCT CGTTCATCTG CAAAAACAAA5880ATTCAATCGC ATCGGTCTCT GGCATTCCAT TTGGGTTTCA AAATCAAATC AATCTCTATC5940TACTATCTCA AATATCTTTT TTTCATCTTT TGATTCATTT CTGTTGAAAA CTGTCTTGCC6000CTTCTCCTAC TTCTTATCTC TGCCTTCTTG CCAAAGTTCA ATTCGTTGTC CATCTGTGCA6060CTCTGATCTA TCAGTCTGTA TCAAGTACGC TCTTAAATCT GTAATTGGCT CTCGGAGGTG6120TCTCGTCATC TCACATATGG CTGGCGATAT GATGTGTCGG TTTCTTCCCC TCCAACAAAG6180GCGACGTGGC TCCTTCATCA ATCTTTGGCG CAAGCTCTCA AAATTCTCCA AAACGGCTGA6240CTAAGCAAGG TTTCCAAGTA CTCTCAAACC GAGCAAGGCC ATCCATCCTC AAATCAACTT6300GTGAAACCCT TTGTGGATAG ACCGTCCAAA CCGAGCTCTT CCCAATCTTC GCCTCCCCTT6360CTTCCTGCAG 6370(2)序列2資料(i)序列特征(A)長(zhǎng)度4775bp(B)類型核酸(C)鏈型雙鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(vi)原始來(lái)源(A)生物體Phaffia rhodozyma(B)菌株ATCC96594(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1305..1361(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1362..1504(ix)特征
(A)名稱/關(guān)鍵詞外顯子(B)位置1505..1522(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1523..1699(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1700..1826(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1827..1920(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1921..2277(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2278..2351(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2352..2409(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2410..2497(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2498..2504(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2505..2586(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2587..2768(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2769..2851(ix)特征
(A)名稱/關(guān)鍵詞外顯子(B)位置2852..2891(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2892..2985(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2986..3240(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置3241..3325(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置3326..3493(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置3494.3601(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置3602..3768(ix)特征(A)名稱/關(guān)鍵polyA位點(diǎn)(B)位置4043(xi)序列描述SEQ ID NO2CATCGAAGAG AGCGAAGTGA TTAGGGAAGC CGAAGAGGCA CTAACAACGT GGTTGTATAT 60GTGTGTTTAT GAGTGTTATA TCGTCAAGAA CGAAGTCCAT TCATTTAGCT AGACAGGGAG 120AGAGGGAGAA ACGTACGGGT TTACCCTATT GGACCAGTCT AAAGAGAGAA CGAGAGTTTT 180TGGGTCGGTC ACCTGAAGAG TTTGAACCTC CACAAGTTTA TTCTAGATTA TTTCCGGGGG 240TATGTGAAGG ATAATGTCAA ACTTTGTCCA GATTGAAGAA GGCAAGAAAG GAAAGGGGCG 300AACGAGAGTA TCGTCCCATC TATGGGTGAC CAGTCGACCT TCTGCATCGG CGATCCCGAG 360AATGGAAGGT TCCGATGGAT CAGAAGTAGG TTTCCTAAGC TCAAACATAG GTCATTGCGA 420GTGAGATACA TATGCAGACT GATATGCTAG TCAAACCGAA CGAGATTTCT CTGTTTGCTT 480TCAAAAAGAC GAACCAACCA TTTCATGTCC AAGATGGCAG GTCCTTCGAT TCTTTGAAGC 540
TCCTCCCTGA TGCGGACAGA AAAGAATAAA AAGTAGACAG ACTGTCAAGT CGACAGCGCA 600AGTTTATCAA GCTGAGCGAG AAAACTCGAA CTTACATACC TTGGCCGTCA GTTCTGTAGA 660CCAAGCATCG GCCTTTCCTC TTTGCGGCAG GTGTACGCGT TGGCTCACCA TCGTCACTCT 720CGTCTCCTGA CCCGTTGCTT TCCTTGACAG CAGTCTGTTC CACAGGTTTC TCTAACTGAT 780AGGTCCCAAC AGCAAAGATA TCTGGATGTC TATGTGAGAA CTCTACTGAG TCGGCAGAGT 840ACACCGTATC GATATAGGCG AGTGAGGAAG CTTTGAAAGG TGAAGAAGTA GCGAAAGATC 900ATCAGCGAAT GAGGACTATG ACAAAAAAGA AATTTTCGTA TAATCCACTG GACAAATCAC 960CTTCCATCGT GTCCTCCAAG AGGGTTTCGT CTGAAACGTA AGGACGAGGT ATTGATAGAT1020GATTGACCTT GAGTACGCGG ATGGACAAGG AACGAGCCCA CTCCCAGGGC TATGTAACAC1080CACACGTGAC TCCACTTGAA TTGCGGCAGA TAAACGAAGT CTTACGATCG GACGACTTTG1140TAACCATTTA GTTATTTACC CGTCTTGTTT TCTTACTTTG ATCGTCCCAT TTTAGACACA1200AAAAAAGAAG CCAGAAGAGA AAAGAATAAA ACGTCTACCG TGTTCTCTCC GAATTCTTAC1260CACACCCACA AAACCATACA CAATCTCAAT CTAGATATCC AGTTATGTAC ACTTCTACTA1320CCGAACAGCG ACCCAAAGAT GTTGGAATTC TCGGTATGGA GGTATGTTGT TCAATTCTGT1380TTGTGTTCAA TCTTTAATCA TCTTTAGTCG ACTGACCGGT TCTTCCTTTT TTTTTCTTCA1440TCAAACAAAA CAACCCTTCT CGATTCATGT CATCTTTCTT TCCAATGCGC TACTCCTTCT1500GTAGATCTAC TTTCCTCGAC GAGTGCGTAA CTATTCTCTC TTCTGCATTC TCTCTCTATT1560CCCATGTTCG ATCCCTCGCC CTCATATGGG CGACTGTTTC ATCTCTTTTG CTTCCGTCCA1620TTCTTCTTTG ATCTTGTTCA TTTTCTACTA ATATCTCCCG ACGCGAAATA CAACACTGAC1680CGCGATTTCT CTCGATCAGG CCATCGCTCA CAAGGATCTC GAGGCTTTTG ATGGGGTTCC1740TTCCGGAAAG TACACCATCG GTCTCGGCAA CAACTTCATG GCCTTCACCG ACGACACTGA1800GGACATCAAC TCGTTCGCCT TGAACGGTCA GTCTCTTCCG TTTCAGCAAT CGACAGGAAA1860AAGGCCCAAG CGCATCTCAC TGACACCTTT CTCCGTTTTG CAATTCCATT TGATTGTTAG1920CTGTTTCCGG TCTTCTATCA AAGTACAACG TTGATCCCAA GTCAATCGGT CGAATTGATG1980TCGGAACTGA GTCCATCATT GACAAGTCCA AATCTGTCAA GACAGTCCTT ATGGACTTGT2040TCGAGTCCCA CGGCAACACA GATATTGAGG GTATCGACTC CAAGAATGCC TGCTACGGTT2100CTACCGCGGC CCTGTTCAAT GCCGTCAACT GGATCGAGTC ATCCTCTTGG GACGGAAGAA2160ATGCCATTGT CTTCTGCGGA GACATTGCCA TCTACGCCGA GGGTGCTGCC CGACCTGCCG2220GAGGTGCTGG TGCTTGCGCC ATCCTCATCG GACCCGACGC TCCCGTCGTC TTCGAGCGTG2280AGTTCCAATC CGTCATTTTC TTCCACGGCA GCGGCTGAAA CAACCCTTAT CCGTCATTCT2340CATCAATCTA GCCGTCCACG GAAACTTCAT GACCAACGCT TGGGACTTCT ACAAGCCTAA2400TCTTTCTTCG TATGTTCAAA TTTTGAAGTT TGCGCTTGGG AGAGTCTTAC ACTAATTCGG2460GGTGCTCGTA TCCTTCGAAT CGTTTGTTGC TTTATAGTGA ATACGTTCGT CTGCGCACCT2520CCTATATTTA GTTTTTGATC AAATATTGTC CATTGAATTA ACTCTGAAAC CTTCTCCTCC2580
AAATAGCCCA TTGTCGATGG ACCTCTCTCC GTCACTTCCT ACGTCAACGC CATTGACAAG2640GCCTATGAAG CTTACCGAAC AAAGTATGCC AAGCGATTTG GAGGACCCAA GACTAACGGT2700GTCACCAACG GACACACCGA GGTTGCCGGT GTCAGTGCTG CGTCGTTCGA TTACCTTTTG2760TTCCACAGGT AAGCGTCATC TTCTGTATTC TCCTTAAATT CAACCGATCA ACGGAGTTAA2820TTCGTGTCAT CATATTATCT TGTTGGAACA GTCCTTACGG AAAGCAGGTT GTCAAAGGCC2880ACGGCCGACT TGTAAGCAGT CTTTTTGTAA CTCTTAGCTT GCAGATAAAA ACTTTTAGGT2940TTCTGGTACT CATTATTTAT GCATCTCTTG AATCACCTTA TCTAGTTGTA CAATGACTTC3000CGAAACAACC CCAACGACCC GGTTTTTGCT GAGGTGCCAG CCGAGCTTGC TACTTTGGAC3060ATGAAGAAAA GTCTTTCAGA CAAGAATGTC GAGAAATCTC TGATTGCTGC CTCCAAGTCT3120TCTTTCAACA AGCAGGTTGA GCCTGGAATG ACCACCGTCC GACAGCTCGG AAACTTGTAC3180ACCGCCTCTC TCTTCGGTGC TCTCGCAAGT TTGTTCTCTA ATGTTCCTGG TGACGAGCTC3240GTAAGTCTTG ATCTCTATCC CAATCATCTC TTCCTTATCA ATTGAACTGA ACTCTTTTCT3300TTAATGCTGG CTTTCTCTTG AACAGGTCGG CAAGCGCATT GCTCTCTACG CCTACGGATC3360TGGAGCTGCT GCTTCTTTCT ATGCTCTTAA GGTCAAGAGC TCAACCGCTT TCATCTCTGA3420GAAGCTTGAT CTCAACAACC GATTGAGCAA CATGAAGATT GTCCCCTGTG ATGACTTTGT3480CAAAGCTCTG AAGGTACGTT GGATAATGAC TTTTTTTGTG GACCGTGGTC TTTGTCAACC3540GCTAACAACC TTCTTGAATC GGTCTCTTTT GGTTTGAAAT TCGCTCGGCG CTTCGACACA3600GGTCCGAGAA GAGACTCACA ACGCCGTGTC ATATTCGCCC ATCGGTTCGC TTGACGATCT3660CTGGCCTGGA TCGTACTACT TGGGAGAGAT TGACAGCATG TGGCGTCGAC AGTACAAGCA3720GGTCCCTTCT GCTTGAACGG GATATTAAAA GTTTCAAAAG TTATGAAAGA GGTCGGCGAA3780GATTCAAAAT AAATAAATAT AACACCTTGC TTTTTGGCTT GTTTTCCTTC TTCACTCTCG3840TTTCCGATGT GTTTCCTCCG TTTCTTCCCT CTTTTGTTCC TTTTTCCTCC CTCTTTTGGT3900TACAATCTCT TTGGGTTTTA CAGGCTGGCA ATCTCTGTAC AATCTTCGTT CGCGTGATCC3960GACATAGATA CCGTTGTGGC ATACACCTTG CGTCTTACAT CTTTTGAGAG CTTCGGAGGT4020GATCTTGATG AAGAAAATTC ACCATTGACT CCCATCTCTT GAATGTCCTG ACTAAATTGA4080ATTGGAAGCA ACTTATATGA AGAGCAAATT GATGGATCCA GAAAGGAACA AGTCTAGAAA4140TCAGTGATTT GTGCGAAAAA TCAGCAAATG CCGCGCTGAG CCGCTCGCTG GGGAGTAGAC4200ATTGCCCATG CGCGTGATGT TGTCTGACCG TTCTCCTCCA TTCCCCCACT CTCAACCTTC4260CTCTCTTTGA GAATCGAAGA AGAAGGCGAA GAAAACCTGA CTTGATCCTT TACAGGGTGT4320TTCTTTTGTT CGTATCTGAG TTACTTTTCC TCCTTTCCTT CCTGCTTGAG TGAATGACTG4380ATCTGACTCC TCCGCCTACC TCGGCGACTG GGCTATATCT TGAGGATAGA ATATCCCCCT4440GACAATCCCA TTTCTCAAGA TTCTTTCAAA CAAGAAAACT AGTTCCAATC AATAGATCAT4500CTGATCAACC TTGTGTGAAC ATAATCATCT GCAGAAGCAC TGAACTGAGA AAGTCTTCCT4560CAGAGGAAAG AGAATACTAG ATAAGATCAT TCGGTTGGGA AGGTAAAGGA ATGAAGTCTG4620GTTCTGGGTT TAGCTCTGGT TCCGTAGGGG GTTCGACTAT AGTTTCTTCT GTTCGACTAG4680
AAACAGGAGA AACCGTACAT GTAAATGGTA TGATATTCTT GTCTCTGTAT CATGTCCCGC4740TCATCTCTTT GTTTGCAAGT CACTCTGGAG AATTC 4775(2)序列3資料(i)序列特征(A)長(zhǎng)度4135bp(B)類型核酸(C)鏈型雙鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(vi)原始來(lái)源(A)生物體Phaffia rhodozyma(B)菌株ATCC96594(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1021..1124(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1125..1630(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1631..1956(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1957..2051(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2052..2366(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2367..2446
(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2447..2651(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2652..2732(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2733..3188(ix)特征(A)名稱/關(guān)鍵詞polyA位點(diǎn)(B)位置3284(xi)序列描述SEQ ID NO3ACTGACTCGG CTACCGGAAA ATATCTTTTC AGGACGCCTT GATCGTTTTG GACAACACCA 60TGATGTCACC ATATCTTCAG CGGCCGTTGG AGCTAGGAGT AGACATTGTA TACGACTCTG 120GAACAAAGTA TTTGAGTGGA CACCACGATC TCATGGCTGG TGTGATTACT ACTCGTACTG 180AGGAGATTGG GAAGGTTCGT GCTTGCTTGC TTTGAATGTC GTGCCTAAAG CCATTGCCAT 240AAGACAGAGT CTGATCTATG TCGTTTGCCT ACAACAGAGA ATGGCCTGGT TCCCAAATGC 300TATGGGAAAT GCATTGTCTC CGTTCGACTC GTTCCTTCTT CTCCGAGGAC TCAAAACACT 360TCCTCTCCGA CTGGACAAGC AGCAGGCCTC ATCTCACCTG ATCGCCTCGT ACTTACACAC 420CCTCGGCTTT CTTGTTCACT ACCCCGGTCT GCCTTCTGAC CCTGGGTACG AACTTCATAA 480CTCTCAGGCG AGTGGTGCAG GTGCCGTCAT GAGCTTTGAG ACCGGAGATA TCGCGTTGAG 540TGAGGCCATC GTGGGCGGAA CCCGAGTTTG GGGAATCAGT GTCAGTTTCG GAGCCGTGAA 600CAGTTTGATC AGCATGCCTT GTCTAATGAG GTTAGTTCTT ATGCCTTCTT TTCGCGCCTT 660CTAAAATTTC TGGCTGACTA ATTGGGTCGG TCTTTCCGTT CTTGCATTTC AGTCACGCAT 720CTATTCCTGC TCACCTTCGA GCCGAGCGAG GTCTCCCCGA ACATCTGATT CGACTGTGTG 780TCGGTATTGA GGACCCTCAC GATTTGCTTG ATGATTTGGA GGCCTCTCTT GTGAACGCTG 840GCGCAATCCG ATCAGTCTCT ACCTCAGATT CATCCCGACC GCTCACTCCT CCTGCCTCTG 900ATTCTGCCTC GGACATTCAC TCCAACTGGG CCGTCGACCG AGCCAGACAG TTCGAGCGTG 960TTAGGCCTTC TAACTCGACA GCCGGCGTCG AAGGACAGCT TGCCGAACTC AATGTAGACG1020ATGCAGCCAG ACTTGCGGGC GATGAGAGCC AAAAAGAAGA AATTCTTGTC AGTGCACCGG1080
GAAAGGTCAT TCTGTTCGGC GAACATGCTG TAGGCCATGG TGTTGTGAGT GAGAAATGAA1140AGCTTTATGC TCTCATTGCA TCTTAACTTT TCCTCGCCTT TTTTGTTCTC TTCATCCCGT1200CTTGATTGTA GGGATGCCCC CCTTTGCCCC TTTCCCCTTC TTGCATCTGT CTATATTTCC1260TTATACATTT CGCTCTTAAG AGCGTCTAGT TGTACCTTAT AACAACCTTT GGTTTTAGCA1320TCCTTTGATT ATTCATTTCT CTCATCCTTC GGTCAGAGGC TTTCGGCCAT CTTTACGTCT1380GATTAGATTG TAATAGCAAG AACTATCTTG CTAAGCCTTT TCTCTTCCTC TTCCTCCTAT1440ATAAATCGAA TTCACTTTCG GACATGTTTA TTTTGGGGAA ATCATCAAGG GGTGGGGGGC1500CAATCCCGAC ACTAATTTTC TGCTCACGTC AAAACTCAGC GTTCAGAATC AGTCACTGAC1560CCTGATACGT GTCTCTATGT GTGTGGGTGT ACGTGCGAAT TGTGACTCGA CGTTCTACGC1620TTAAAAACAG ACCGGGATCG CTGCTTCCGT TGATCTTCGA TGCTACGCTC TTCTCTCACC1680CACTGCTACG ACAACAACAT CATCGTCGTT ATCGTCTACA AACATTACCA TCTCCCTAAC1740GGACCTGAAC TTTACGCAGT CTTGGCCTGT TGATTCTCTT CCTTGGTCAC TTGCGCCTGA1800CTGGACTGAG GCGTCTATTC CAGAATCTCT CTGCCCGACA TTGCTCGCCG AAATCGAAAG1860GATCGCTGGT CAAGGTGGAA ACGGAGGAGA AAGGGAGAAG GTGGCAACCA TGGCATTCTT1920GTATTTGTTG GTGCTATTGA GCAAAGGGAA GCCAAGGTAG GTTTTTTCTG TCTCTTCTTT1980TTGCCTATAA AGACTCTTAA CTGACGGAGA AAGTGTTGGG TTTCTTCCTT CGGGGGTTCA2040ATCAATTAAA GTGAGCCGTT CGAGTTGACG GCTCGATCTG CGCTTCCGAT GGGAGCTGGT2100CTGGGTTCAT CCGCCGCTCT ATCGACCTCT CTTGCCCTAG TCTTTCTTCT CCACTTTTCT2160CACCTCAGTC CAACGACGAC TGGCAGAGAA TCAACAATCC CGACGGCCGA CACAGAAGTA2220ATTGACAAAT GGGCGTTCTT AGCTGAAAAA GTCATCCATG GAAATCCGAG TGGGATTGAT2280AACGCGGTCA GTACGAGAGG AGGCGCTGTT GCTTTCAAAA GAAAGATTGA GGGAAAACAG2340GAAGGTGGAA TGGAAGCGAT CAAGAGGTAC GCAGACACGG TGCTTCATAT GCCATACTCC2400AGTCTGATTG ACCCATGATG AACGTCTTTC TACATTTCGA ATATAGCTTC ACATCCATTC2460GATTCCTCAT CACAGATTCT CGTATCGGAA GGGATACAAG ATCTCTCGTT GCAGGAGTGA2520ATGCTCGACT GATTCAGGAG CCAGAGGTGA TCGTCCCTTT GTTGGAAGCG ATTCAGCAGA2580TTGCCGATGA GGCTATTCGA TGCTTGAAAG ATTCAGAGAT GGAACGTGCT GTCATGATCG2640ATCGACTTCA AGTTAGTTCT TGTTCCTTTC AAGACTCTTT GTGACATTGT GTCTTATCCA2700TTTCATCTTC TTTTTTCTTC CTTCTTCTGC AGAACTTGGT CTCCGAGAAC CACGCACACC2760TAGCAGCACT TGGCGTGTCC CACCCATCCC TCGAAGAGAT TATCCGGATC GGTGCTGATA2820AGCCTTTCGA GCTTCGAACA AAGTTGACAG GCGCCGGTGG AGGTGGTTGC GCTGTAACCC2880TGGTGCCCGA TGGTAAAGTC TCTCCTTTTC TCTTCCGTCC AAGCGACACA TCTGACCGAT2940GCGCATCCTG TACTTTTGGT CAACCAGACT TCTCGACTGA AACCCTTCAA GCTCTTATGG3000AGACGCTCGT TCAATCATCG TTCGCCCCTT ATATTGCCCG AGTGGGTGGT TCAGGCGTCG3060
GATTCCTTTC ATCAACTAAG GCCGATCCGG AAGATGGGGA GAACAGACTT AAAGATGGGC3120TGGTGGGAAC GGAGATTGAT GAGCTAGACA GATGGGCTTT GAAAACGGGT CGTTGGTCTT3180TTGCTTGAAC GAAAGATAGG AAACGGTGAT TAGGGTACAG ATCCTTTGCT GTCATTTTTA3240CAAACACTT TCTTATGTCT TCATGACTCA ACGTATGCCC TCATCTCTAT CCATAGACAG3300CACGGTACCT CTCAGGTTTC AATACGTAAG CGTTCATCGA CAAAACATGC GGCACACGAA3360AACGAGTGGA TATAAGGGAG AAGAGAGATA TTAGAGCGAA AAAGAGAAGA GTGAGAGAGG3420AAAAAAATAA CCGAGAACAA CTTATTCCGG TTTGTTAGAA TCGAAGATCG AGAAATATGA3480AGTACATAGT ATAAAGTAAA GAAGAGAGGT TTACCTCAGA GGTGTGTACG AAGGTGAGGA3540CAGGTAAGAG GAATAATTGA CTATCGAAAA AAGAGAACTC AACAGAAGCA CTGGGATAAA3600GCCTAGAATG TAAGTCTCAT CGGTCCGCGA TGAAAGAGAA ATTGAAGGAA GAAAAAGCCC3660CCAGTAAACA ATCCAACCAA CCTCTTGGAC GATTGCGAAA CACACACACG CACGCGGACA3720TATTTCGTAC ACAAGGACGG GACATTCTTT TTTTATATCC GGGTGGGGAG AGAGAGGGTT3780ATAGAGGATG AATAGCAAGG TTGATGTTTT GTAAAAGGTT GCAGAAAAAG GAAAGTGAGA3840GTAGGAACAT GCATTAAAAA CCTGCCCAAA GCGATTTATA TCGTTCTTCT GTTTTCACTT3900CTTTCCGGGC GCTTTCTTAG ACCGCGGTGG TGAAGGGTTA CTCCTGCCAA CTAGAAGAAG3960CAACATGAGT CAAGGATTAG ATCATCACGT GTCTCATTTG ACGGGTTGAA AGATATATTT4020AGATACTAAC TGCTTCCCAC GCCGACTGAA AAGATGAATT GAATCATGTC GAGTGGCAAC4080GAACGAAAGA ACAAATAGTA AGAATGAATT ACTAGAAAAG ACAGAATGAC TAGAA 4135(2)序列4資料(i)序列特征(A)長(zhǎng)度2767bp(B)類型核酸(C)鏈型雙鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(vi)原始來(lái)源(A)生物體Phaffia rhodozyma
(B)菌株ATCC96594(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置401..451(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置452..633(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置634..876(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置877..1004(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1005..1916(ix)特征(A)名稱/關(guān)鍵詞polyA位點(diǎn)(B)位置2217(xi)序列描述SEQ ID NO4GAATTCTTCC CGACTGGGCT GATCGACTTG ACTGGAAGAT CTAAGGCGGA GGGATGAAGG 60AAGTAATTGG AGGGAATGAG GAAAAAAAAA GGCGAGGGAA CGCGGTCTTC TTTCCTGGCA120AGGCAATGTC GTGTATCTCT CTTGATTCTT TCGTTGTATC GACGGACCAC ACTCTTTTCG180AATGAATATC ACTATCGCAT CCAATGATCG CTATACATGG CATTTACATA TGCCAGACAT240CGCTGAGAAA GAGAGAACAT TCCTTTGGAA AAAGCCTACT GTGCCTGAAG TCAGGCTGAT300GTTGATTAAA CGTCTTTCCC CATCCTAAGC AGACAAACAA CTTCTTTTCG TTCAACACAC360CACCTCTCTC CGAAAAAGCT CTTCAATCCA GTCCATTAAG ATGGTTCATA TCGCTACTGC420CTCGGCTCCC GTTAACATTG CGTGTATCAA GGTCCGTCTG CATTGTGAAT GCTGCTCGTT480TGCCTTGTGT GCGTTTGGTG GATCTGAAAG AACCCTTGCT TGAACCATTC CATCTCTGCT540CTTTTTCTTC CTGTCCTTTC CTTTTTCTCA CGACAAAAAA ACCACCTGGA CCCTTTGTGT600TCCTTTCCAT TGGTGTTCAT ACACCTAACA CAGTACTGGG GTAAACGGGA TACCAAGTTG660ATTCTCCCTA CAAACTCCTC CTTGTCTGTC ACTCTCGACC AGGATCACCT CCGATCGACG720
ACGTCTTCTG CTTGTGACGC CTCGTTCGAG AAGGATCGAC TTTGGCTTAA CGGGATCGAG780GAGGAGGTCA AGGCTGGTGG TCGGTTGGAT GTCTGCATCA AGGAGATGAA GAAGCTTCGA840GCGCAAGAGG AAGAGAAGGA TGCCGGTCTG GAGAAAGTGA GTTTTTCTCC TGTGTGCGTG900TGTACTCTGT ATAGGTACCG TTGACAGGAC AGTCTTTCTG AAGAGTTTGG ATCTTACTCT960TTTTTGGGGG GGTGGTGGTG TTTGAAATAA TGACCAAAAT AAAGCTCTCA TCTTTCAACG 1020TGCACCTTGC GTCTTACAAC AACTTCCCGA CTGCCGCTGG ACTTGCTTCC TCCGCTTCCG 1080GTCTAGCTGC GTTGGTCGCC TCGCTCGCCT CGCTCTACAA CCTCCCAACG AACGCATCCG 1140AACTCTCGCT CATCGCCCGA CAAGGTTCTG GTTCTGCCTG CCGATCGCTC TTCGGCGGGT 1200TCGTTGCTTG GGAACAGGGC AAGCTTTCCT CTGGAACCGA CTCGTTCGCT GTTCAGGTCG 1260AGCCCAGGGA ACACTGGCCC TCACTCCACG CGCTGATCTG TGTAGTTTCC GACGAGAAAA 1320AGACGACGGC CTCGACGGCA GGCATGCAAA CCACGGTGAA CACCTCGCCT TTGCTCCAAC 1380ACCGAATCGA ACACGTCGTT CCAGCCCGGA TGGAGGCCAT CACCCAGGCG ATCCGGGCCA 1440AGGATTTCGA CTCGTTCGCA AAGATCACCA TGAAGGACTC CAACCAGTTC CACGCCGTCT 1500GCCTCGATTC GGAACCCCCG ATCTTTTACT TGAACGATGT CTCCCGATCG ATCATCCATC 1560TCGTCACCGA GCTCAACAGA GTGTCCGTCC AGGCCGGCGG TCCCGTCCTT GCCGCCTACA 1620CGTTCGACGC CGGGCCGAAC GCGGTGATCT ACGCCGAGGA ATCGTCCATG CCGGAGATCA 1680TCAGGTTAAT CGAGCGGTAC TTCCCGTTGG GAACGGCTTT CGAGAACCCG TTCGGGGTTA 1740ACACCGAAGG CGGTGATGCC CTGAGGGAAG GCTTTAACCA GAACGTCGCC CCGGTGTTCA 1800GGAAGGGAAG CGTCGCCCGG TTGATTCACA CCCGGATCGG TGATGGACCC AGGACGTATG 1860GCGAGGAGGA GAGCCTGATC GGCGAAGACG GTCTGCCAAA GGTCGTCAAG GCTTAGACTA 1920TAGGTTGTTT CTTCTAAATT TGAGCCTTCC TCCCGCCTCC CTTCCACAAG CATAAAACAA 1980AGGATAAACA AATGAATTAT CAAAATAACT ATAGGTTGTT TCTTCTAAAT TTGAGCCTTC 2040CTCCCGCCTC CCTTCCACAA GCATAAAACA AAGGATAAAC AAATGAATTA TCAAAATAAA 2100ATAAAAAGTC TGCCTTCTTT GTTTTGGAAT ACATCTTCTT TGGGACATGA CCCTTCTCCT 2160TCTTTTCCGT ATACATCTTT TTGGGTATTT CATGGTGATC AAACAACATT GTGATCGAAA 2220GCAGAGACGG CCATGGTGCT GGCTTTGAGC GTCTGGCGTT TTGTGTGTCC TGCACTTGAG 2280CAACCCCAAG CTGACCGCTA GGAAAACTCA TTGATGTGAT TTATATCGTA CGATGAAAGA 2340GAATAAAATG ATAGAAGAAC AAAGAAGAAC AAAGTAGAAG AACGTCTGAG AAGAAAGACA 2400GGAAAATGAC ACGTACATAG TGTTCGATGA TGAATGATAT AATATTAAAT ATAAAATGAG 2460GTAAACGTAT AGCATCACGG GATGAACGGA TGAACATGTA GTGGACAAGG TTGGGAAATA 2520GGAATGTAGA ATCCAAGAAT CGTTGACTGA TGGACGGACG TATGTAAACA GGTACACCCC 2580
AAAGAAAAGA AAGAAAGAAA GAAAGAAAAC ACAAAGCCAA GGAAGTAAAG CAGATGGTCT 2640TCTAAGAATA CGGCTTCAAA AAGACAGTGA ACACTCGTCG TCGAGGAATG ACAAGAAAAG 2700TGAGAGACTA CGAAAGGAAG AAACCAAGAC GAAAAGAAGA ACGGAGATCG AACGGACAGA 2760AATAAAG 2767(2)序列5資料(i)序列特征(A)長(zhǎng)度4092bp(B)類型核酸(C)鏈型雙鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(vi)原始來(lái)源(A)生物體Phaffia rhodozyma(B)菌株ATCC96594(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置852..986(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置987..1173(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1174..1317(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1318..1468(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1469..1549
(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1550..1671(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1672..1794(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1795..1890(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置1891..1979(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置1980..2092(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2093..2165(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2166..2250(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2251..2391(ix)特征(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2392..2488(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2489..2652(ix)特征
(A)名稱/關(guān)鍵詞內(nèi)含子(B)位置2653..2784(ix)特征(A)名稱/關(guān)鍵詞外顯子(B)位置2785..2902(ix)特征(A)名稱/關(guān)鍵詞polyA位點(diǎn)(B)位置3024(xi)序列描述SEQ ID NO5CGCCCGGTAT CTTGCCACAG ATGCCGCCGG AGTGTCTGGC GGAGTGCTAG GAACAACGTC 60ATCTCCATCT GACGAGCAAG CGTACCACAA GCTAGCTCTT CGTCTGTCAG AAGGACATCC 120ACGCACCTTC CTGGCCTTCG GGGATGGCAC CTTCTCGTCG ACTTCCCATG GCCGTGCCCC 180TGGCCTTGTG AAGATACTGT TTGCCAAGCT GAGCGCCTCC CCGCTGCTCC AGGTCCGCAA 240GGTCCGAGAG TATTGGACGT CGAAGATATG TTCAAAGTGT CAGGCGAGTT CTCGGGAGAA 300AAAAAAAGCG TGGGCTCTGA AACAGTGTGG AAATGTCTAC AAAGTGAGCT GGATTTATTG 360TGTGTGTATG TGTGTGTGTG TGTATGTTCT GTGTTGGTTG CTCACTGTAC TCTATGCTCT 420CTCTTAGATT TGGGGAACAG TGCTGTGAAC GCGTCGCGAA ACATGCTGCA CCTAGCCCTT 480CACCAGAAGG AGAACCAGAG GGCGGGAATG CTGGTGTCTG ACGCTGCTAC TGCTGCTACG 540CTAGCCGCTG AGGCTGAGGC TGGCAGAAAC TAAATCCATG ACCCATCAGA TCTTGGTGAT 600TCGTGGTCTG AGGACACCCA AGTCCAAAAG GGCTATATAT CGACCATCAT CCGTTGCGGT 660CACTCAGTAG TAACTAAAGC TATACATAGG AATGTTCTGA ACTTGATAAC CCTAACACTA 720CGAAAATATC TCGGAAAATA GATTAATTTC CTTCTCATCT CAAACAAAAG ACACAACACC 780ATCAATCACG CTCCTTTCAC ACACTCTCCT TTTTGCTCTC TCGTTCGACA GAAAATAACA 840TCAATAGCCA AATGTCCACT ACGCCTGAAG AGAAGAAAGC AGCTCGAGCA AAGTTCGAGG 900CTGTCTTCCC GGTCATTGCC GATGAGATTC TCGATTATAT GAAGGGTGAA GGCATGCCTG 960CCGAGGCTTT GGAATGGATG AACAAGGTTC GTCAAGGGTT TCTTCTTTAT TCTTCTGGTC1020TTTGTTTCGG TCGAACTGGC TTTCGAACTT GGCCTTGACC GGTTGGATCT CGGTTGTTGC1080GCCAAAACGA TGTCGAAGCA AAACTTACTC TTACCTGTTC GGTTTCCTTC CTTCCGACCT1140TCTCTCTACC CTTGCCTCCG ATCGGTCTTA TAGAACTTGT ACTACAACAC TCCCGGAGGA1200AAACTCAACC GAGGACTTTC CGTGGTGGAT ACTTATATCC TTCTCTCGCC TTCTGGAAAA1260GACATCTCGG AAGAAGAGTA CTTGAAGGCC GCTATCCTCG GTTGGTGTAT CGAGCTTGTA1320CGCGTTTTCT TCATTCACCT TTCTTTCTCG TCTTCTACTC TCTTCTCTCG AACTATCTTC1380CCTGCGTGTC ATCCTACACG AATCTTTATA CTTACATGTT GGAACATATG CCCTGTTCTT1440
AATTCACCTC TTTTGTCTCG GATGGTAGCT CCAAGCTTAC TTCTTGGTGG CTGATGATAT1500GATGGACGCC TCAATCACCC GACGAGGCCA ACCCTGTTGG TACAAAGTTG TTAGTCCCTT1560CTTCTCTTTC TGTCCTCTTT CTTCTGAGCT ATGCCAATTC TTGATTGAAA TCGGTGGTGC1620CGTCCGGACT AATCCGTTTG TCGTTTTTAT CATATCTTCT TGCACAAACA GGAGGGAGTG1680TCTAACATTG CCATCAACGA CGCGTTCATG CTCGAGGGAG CTATCTACTT TTTGCTCAAG1740AAGCACTTCC GAAAGCAGAG CTACTATGTC GATCTGCTAG AGCTCTTCCA CGATGTTTGT1800CTCTATTTCT TTTCTTCCTC CCCTCAATAA ACTGTATTTG TGACCATTCT GGATCCTTTC1860CTGACGATGA ATCATTCTTC GGATGAGTAG GTTACTTTCC AAACCGAGTT GGGACAGCTC1920ATCGATCTGT TGACCGCTCC TGAGGATCAC GTCGATCTCG ACAAGTTCTC CCTTAACAAG1980TATGCCCGTC ATATATTCGT TTTGTTGCAT TCACGTCTGA TTGTCAGCTC CGATTATTGA2040CTCTGATGGT GATGGTATTG ACCACATCAT GCGATGTTTG ACTTTCTCGT AGGCACCACC2100TCATCGTTGT TTACAAGACC GCTTTCTATT CATTCTACCT TCCTGTCGCA CTCGCTATGC2160GAATGGTGGG TCTCTCTCTT CAACTGTTCT TCCTGATTTT CTTGACCATC TGTAACATAA2220ATCCTTGGAA TTTTGAACTC TATGTCATAG GTCGGCGTGA CAGATGAGGA GGCGTACAAG2280CTTGCGCTCT CGATCCTCAT CCCGATGGGT GAATACTTTC AAGTTCAGGA TGATGTGCTC2340GACGCGTTCG CTCCTCCGGA GATCCTTGGA AAGATCGGAA CCGACATCTT GGTGCGTTTT2400CGTTCCTTCC TTCTACGTTC TGTTTTCTAT CTTCTGACTC CCCGTCCATC ATTTATGCTT2460CTGTTAAAAC GTATTGAAAC ATCAAAAGGA CAACAAATGT TCATGGCCTA TCAACCTTGC2520ACTCTCTCTC GCCTCGCCCG CTCAGCGAGA GATTCTCGAT ACTTCGTACG GTCAGAAGAA2580CTCGGAGGCA GAGGCCAGAG TCAAGGCTCT GTACGCTGAG CTTGATATCC AGGGAAAGTT2640CAACGCTTAT GAGTATGTCA TCTTTTTTAA ATTTTCTAAT TTTCTTTTCA TCTCTTGTTC2700CCAAGAATTA TTTTGTGAAA GTTCTGGGAC TGAACATGGT GCATCCCTTT GGGTTCACTC2760CGCATATGTC TCCCGTTTGA ATAGGCAACA GAGTTACGAG TCGCTGAACA AGTTGATTGA2820CAGTATTGAC GAAGAGAAGA GTGGACTCAA GAAAGAAGTC TTCCACAGCT TCCTGGGTAA2880GGTCTATAAG CGAAGCAAGT AATTCTCCTC TTTATATGCA AAGGGAAGAT TTTGGCGGGA2940GTGATAGGTA GGAAGAGAAG GGAGGGTCAT ATTCATTAGG CATTTCTCTT GCAGATATAG3000ATGATCAAAA AGGGATATCG GTCCTCTTCT TTGTTCCGAA TACATAATAA GTCATACGAA3060GCCGAACATG ACAAAAGTGG TTCATGAGAT CAAACTTTTT GCATGATCTT CTGCGATTTT3120GTACAATTCT CTCGCATCCT ATTAGGATCG AACCAGGAGA AGATGAGAGA AGGAAACCCT3180CACCCCGTCA GATAACAAAC GAGAAGTCTC ATCACACACA CACACAGATG AAAGAGAAAA3240ATAAACTGAC GAGGATAACT TCCAATCCGA TTTTTCCAGC CCACGAACCT TCCTTGGTCC3300CCGCTCCGGT GCCTTCGAGT CCGATCAATG GGGCCCAAAC GCCTGAAGAT CCAAAGAACC3360
CTTGTTGAGG TGTATTTCTC GTCTGAGCAA TCTTAGATCC TTCAATTTGC AGTCGCGCAT3420ATATACCATC AACATCATCG TCATCACCAT CATTGTCGTC CACAACAGCA CCGCAACGCC3480GTTAATGGCA GGGCTTGGAC AACTTGAGGC GGTTTCTAGC AGGTCGGACC GATTGGAGCT3540CGACCCAGGG TGCACATCAC CAAGACACAT TCTCCTTCAA ATGAGCGAAC AAGACATAAT3600GAGGGAAGTA GTACGCTATC GAACGTCTTC TCACATCCCG GGTTCTTGGC GTATCTTTTG3660GCGATTCTTT TTGTTGAAAT AGAAAATTGA AGAGAAAAAA AGAGATCCAC ATGATGAAGA3720ACGGCTCTGT AGATTCATGC TCGAAAGAAA GAAAGAAAGA AAAAGAGGGG AACGAACGGA3780TCTGAATCTG TGGCCAACCA AAAAGTAGGC ACAAAGATGA CAACAGCGCC CTCTTCGACA3840AGTCTTTGAA CTGCTTGTGG ATGAGACAAG TCCCAGCAGA TCAACATTCC TGCTTTACCC3900CATGGAGTAT CAAACACCTG AGAATAGGTC TTGCCCGGCT GTAGATAATC TCTGGACCGT3960CATATGCGCG AAACGATCAG TACGACCGAC TCTACTCGAA GTCGTCAAGA GCACGGACGA4020GAACGAAAAG AGGACAAACC GCTCTGGATG CCATAAATTT CTCTTCTCAT ACCTCTCCCA4080CCCACCCTCA GG4092(2) 序列6資料(i)序列特征A)長(zhǎng)度1091aa(B)類型氨基酸(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型蛋白質(zhì)(iii)假擬結(jié)構(gòu)無(wú)(vi)原始來(lái)源(A)生物體Phaffia rhodozyma(B)菌株ATCC96594(xi)序列描述SEQ ID NO6Met Tyr Thr Ile Lys His Ser Asn Phe Leu Ser Gln Thr Ile Ser Thr1 5 10 15Gln Ser Thr Thr Ser Trp Val Val Asp Ala Phe Phe Ser Leu Gly Ser20 25 30Arg Tyr Leu Asp Leu Ala Lys Gln Ala Asp Ser Ala Asp Ile Phe Met35 40 45Val Leu Leu Gly Tyr Val Leu Met His Gly Thr Phe Val Arg Leu Phe50 55 60Leu Asn Phe Arg Arg Met Gly Ala Asn Phe Trp Leu Pro Gly Met Val65 70 75 80Leu Val Ser Ser Ser Phe Ala Phe Leu Thr Ala Leu Leu Ala Ala Ser85 90 95
Ile Leu Asn Val Pro Ile Asp Pro Ile Cys Leu Ser Glu Ala Leu Pro100 105 110Phe Leu Val Leu Thr Val Gly Phe Asp Lys Asp Phe Thr Leu Ala Lys115 120 125Ser Val Phe Ser Ser Pro Glu Ile Ala Pro Val Met Leu Arg Arg Lys130 135 140Pro Val Ile Gln Pro Gly Asp Asp Asp Asp Leu Glu Gln Asp Glu His145 150 155 160Ser Arg Val Ala Ala Asn Lys Val Asp Ile Gln Trp Ala Pro Pro Val165 170 175Ala Ala Ser Arg Ile Val Ile Gly Ser Val Glu Lys Ile Gly Ser Ser180 185 190Ile Val Arg Asp Phe Ala Leu Glu Val Ala Val Leu Leu Leu Gly Ala195 200 205Ala Ser Gly Leu Gly Gly Leu Lys Glu Phe Cys Lys Leu Ala Ala Leu210 215 220Ile Leu Val Ala Asp Cys Cys Phe Thr Phe Thr Phe Tyr Val Ala Ile225 230 235 240Leu Thr Val Met Val Glu Val His Arg Ile Lys Ile Ile Arg Gly Phe245 250 255Arg Pro Ala His Asn Asn Arg Thr Pro Asn Thr Val Pro Ser Thr Pro260 265 270Thr Ile Asp Gly Gln Ser Thr Asn Arg Ser Gly Ile Ser Ser Gly Pro275 280 285Pro Ala Arg Pro Thr Val Pro Val Trp Lys Lys Val Trp Arg Lys Leu290 295 300Met Gly Pro Glu Ile Asp Trp Ala Ser Glu Ala Glu Ala Arg Asn Pro305 310 315 320Val Pro Lys Leu Lys Leu Leu Leu Ile Leu Ala Phe Leu Ile Leu His325 330 335Ile Leu Asn Leu Cys Thr Pro Leu Thr Glu Thr Thr Ala Ile Lys Arg340 345 350Ser Ser Ser Ile His Gln Pro Ile Tyr Ala Asp Pro Ala His Pro Ile355 360 365Ala Gln Thr Asn Thr Thr Leu His Arg Ala His Ser Leu Val Ile Phe370 375 380Asp Gln Phe Leu Ser Asp Trp Thr Thr Ile Val Gly Asp Pro Ile Met385 390 395 400Ser Lys Trp Ile Ile Ile Thr Leu Gly Val Ser Ile Leu Leu Asn Gly405 410 415Phe Leu Leu Lys Gly Ile Ala Ser Gly Ser Ala Leu Gly Pro Gly Arg420 425 430Ala Gly Gly Gly Gly Ala Ala Ala Ala Ala Ala Val Leu Leu Gly Ala435 440 445Trp Glu Ile Val Asp Trp Asn Asn Glu Thr Glu Thr Ser Thr Asn Thr450 455 460
Pro Ala Gly Pro Pro Gly His Lys Asn Gln Asn Val Asn Leu Arg Leu465 470 475 480Ser Leu Glu Arg Asp Thr Gly Leu Leu Arg Tyr Gln Arg Glu Gln Ala485 490 495Tyr Gln Ala Gln Ser Gln Ile Leu Ala Pro Ile Ser Pro Val Ser Val500 505 510Ala Pro Val Val Ser Asn Gly Asn Gly Asn Ala Ser Lys Ser Ile Glu515 520 525Lys Pro Met Pro Arg Leu Val Val Pro Asn Gly Pro Arg Ser Leu Pro530 535 540Glu Ser Pro Pro Ser Thr Thr Glu Ser Thr Pro Val Asn Lys Val Ile545 550 555 560Ile Gly Gly Pro Ser Asp Arg Pro Ala Leu Asp Gly Leu Ala Asn Gly565 570 575Asn Gly Ala Val Pro Leu Asp Lys Gln Thr Val Leu Gly Met Arg Ser580 585 590Ile Glu Glu Cys Glu Glu Ile Met Lys Ser Gly Leu Gly Pro Tyr Ser595 600 605Leu Asn Asp Glu Glu Leu Ile Leu Leu Thr Gln Lys Gly Lys Ile Pro610 615 620Pro Tyr Ser Leu Glu Lys Ala Leu Gln Asn Cys Glu Arg Ala Val Lys625 630 635 640Ile Arg Arg Ala Val Ile Ser Arg Ala Ser Val Thr Lys Thr Leu Glu645 650 655Thr Ser Asp Leu Pro Met Lys Asp Tyr Asp Tyr Ser Lys Val Met Gly660 665 670Ala Cys Cys Glu Asn Val Val Gly Tyr Met Pro Leu Pro Val Gly Ile675 680 685Ala Gly Pro Leu Asn Ile Asp Gly Glu Val Val Pro Ile Pro Met Ala690 695 700Thr Thr Glu Gly Thr Leu Val Ala Ser Thr Ser Arg Gly Cys Lys Ala705 710 715 720Leu Asn Ala Gly Gly Gly Val Thr Thr Val Ile Thr Gln Asp Ala Met725 730 735Thr Arg Gly Pro Val Val Asp Phe Pro Ser Val Ser Gln Ala Ala Gln740 745 750Ala Lys Arg Trp Leu Asp Ser Val Glu Gly Met Glu Val Met Ala Ala755 760 765Ser Phe Asn Ser Thr Ser Arg Phe Ala Arg Leu Gln Ser Ile Lys Cys770 775 780Gly Met Ala Gly Arg Ser Leu Tyr Ile Arg Leu Ala Thr Ser Thr Gly785 790 795 800Asp Ala Met Gly Met Asn Met Ala Gly Lys Gly Thr Glu Lys Ala Leu805 810 815Glu Thr Leu Ser Glu Tyr Phe Pro Ser Met Gln Ile Leu Ala Leu Ser820 825 830
Gly Asn Tyr Cys Ile Asp Lys Lys Pro Ser Ala Ile Asn Trp Ile Glu835 840 845Gly Arg Gly Lys Ser Val Val Ala Glu Ser Val Ile Pro Gly Ala Ile850 855 860Val Lys Ser Val Leu Lys Thr Thr Val Ala Asp Leu Val Asn Leu Asn865 870 875 880Ile Lys Lys Asn Leu Ile Gly Ser Ala Met Ala Gly Ser Ile Gly Gly885 890 895Phe Asn Ala His Ala Ser Asp Ile Leu Thr Ser Ile Phe Leu Ala Thr900 905 910Gly Gln Asp Pro Ala Gln Asn Val Glu Ser Ser Met Cys Met Thr Leu915 920 925Met Glu Ala Val Asn Asp Gly Lys Asp Leu Leu Ile Thr Cys Ser Met930 935 940Pro Ala Ile Glu Cys Gly Thr Val Gly Gly Gly Thr Phe Leu Pro Pro945 950 955 960Gln Asn Ala Cys Leu Gln Met Leu Gly Val Ala Gly Ala His Pro Asp965 970 975Ser Pro Gly His Asn Ala Arg Arg Leu Ala Arg Ile Ile Ala Ala Ser980 985 990Val Met Ala Gly Glu Leu Ser Leu Met Ser Ala Leu Ala Ala Gly His995 10001005Leu Ile Lys Ala His Met Lys His Asn Arg Ser Thr Pro Ser Thr Pro101010151020Leu Pro Val Ser Pro Leu Ala Thr Arg Pro Asn Thr Pro Ser His Arg1025103010351040Ser Ile Gly Leu Leu Thr Pro Met Thr Ser Ser Ala Ser Val Ala Ser104510501055Met Phe Ser Gly Phe Gly Ser Pro Ser Thr Ser Ser Leu Lys Thr Val106010651070Gly Ser Met Ala Cys Val Arg Glu Arg Gly Asp Glu Thr Ser Val Asn107510801085Val Asp Ala1090(2)序列7資料
(i)序列特征(A)長(zhǎng)度467aa(B)類型氨基酸(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型蛋白質(zhì)(iii)假擬結(jié)構(gòu)無(wú)(vi)原始來(lái)源(A)生物體Phaffia rhodozyma(B)菌株ATCC96594(xi)序列描述SEQ ID NO7Met Tyr Thr Ser Thr Thr Glu Gln Arg Pro Lys Asp Val Gly Ile Leu1 5 10 15Gly Met Glu Ile Tyr Phe Pro Arg Arg Ala Ile Ala His Lys Asp Leu20 25 30Glu Ala Phe Asp Gly Val Pro Ser Gly Lys Tyr Thr Ile Gly Leu Gly35 40 45Asn Asn Phe Met Ala Phe Thr Asp Asp Thr Glu Asp Ile Asn Ser Phe50 55 60Ala Leu Asn Ala Val Ser Gly Leu Leu Ser Lys Tyr Asn Val Asp Pro65 70 75 80Lys Ser Ile Gly Arg Ile Asp Val Gly Thr Glu Ser Ile Ile Asp Lys85 90 95Ser Lys Ser Val Lys Thr Val Leu Met Asp Leu Phe Glu Ser His Gly100 105 110Asn Thr Asp Ile Glu Gly Ile Asp Ser Lys Asn Ala Cys Tyr Gly Ser115 120 125Thr Ala Ala Leu Phe Asn Ala Val Asn Trp Ile Glu Ser Ser Ser Trp130 135 140Asp Gly Arg Asn Ala Ile Val Phe Cys Gly Asp Ile Ala Ile Tyr Ala145 150 155 160Glu Gly Ala Ala Arg Pro Ala Gly Gly Ala Gly Ala Cys Ala Ile Leu165 170 175Ile Gly Pro Asp Ala Pro Val Val Phe Glu Pro Val His Gly Asn Phe180 185 190Met Thr Asn Ala Trp Asp Phe Tyr Lys Pro Asn Leu Ser Ser Glu Tyr195 200 205Pro Ile Val Asp Gly Pro Leu Ser Val Thr Ser Tyr Val Asn Ala Ile210 215 220Asp Lys Ala Tyr Glu Ala Tyr Arg Thr Lys Tyr Ala Lys Arg Phe Gly225 230 235 240
Gly Pro Lys Thr Asn Gly Val Thr Asn Gly His Thr Glu Val Ala Gly245 250 255Val Ser Ala Ala Ser Phe Asp Tyr Leu Leu Phe His Ser Pro Tyr Gly260 265 270Lys Gln Val Val Lys Gly His Gly Arg Leu Leu Tyr Asn Asp Phe Arg275 280 285Asn Asn Pro Asn Asp Pro Val Phe Ala Glu Val Pro Ala Glu Leu Ala290 295 300Thr Leu Asp Met Lys Lys Ser Leu Ser Asp Lys Asn Val Glu Lys Ser305 310 315 320Leu Ile Ala Ala Ser Lys Ser Ser Phe Asn Lys Gln Val Glu Pro Gly325 330 335Met Thr Thr Val Arg Gln Leu Gly Asn Leu Tyr Thr Ala Ser Leu Phe340 345 350Gly Ala Leu Ala Ser Leu Phe Ser Asn Val Pro Gly Asp Glu Leu Val355 360 365Gly Lys Arg Ile Ala Leu Tyr Ala Tyr Gly Ser Gly Ala Ala Ala Ser370 375 380Phe Tyr Ala Leu Lys Val Lys Ser Ser Thr Ala Phe Ile Ser Glu Lys385 390 395 400Leu Asp Leu Asn Asn Arg Leu Ser Asn Met Lys Ile Val Pro Cys Asp405 410 415Asp Phe Val Lys Ala Leu Lys Val Arg Glu Glu Thr His Asn Ala Val420 425 430Ser Tyr Ser Pro Ile Gly Ser Leu Asp Asp Leu Trp Pro Gly Ser Tyr435 440 445Tyr Leu Gly Glu Ile Asp Ser Met Trp Arg Arg Gln Tyr Lys Gln Val450 455 460Pro Ser Ala465(2)序列8資料(i)序列特征(A)長(zhǎng)度432aa(B)類型氨基酸(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型蛋白質(zhì)(iii)假擬結(jié)構(gòu)無(wú)(vi)原始來(lái)源
(A)生物體Phaffia rhodozyma(B)菌株ATCC96594(xi)序列描述SEQ ID NO8Lys Glu Glu Ile Leu Val Ser Ala Pro Gly Lys Val Ile Leu Phe Gly1 5 10 15Glu His Ala Val Gly His Gly Val Thr Gly Ile Ala Ala Ser Val Asp20 25 30Leu Arg Cys Tyr Ala Leu Leu Ser Pro Thr Ala Thr Thr Thr Thr Ser35 40 45Ser Ser Leu Ser Ser Thr Asn Ile Thr Ile Ser Leu Thr Asp Leu Asn50 55 60Phe Thr Gln Ser Trp Pro Val Asp Ser Leu Pro Trp Ser Leu Ala Pro65 70 75 80Asp Trp Thr Glu Ala Ser Ile Pro Glu Ser Leu Cys Pro Thr Leu Leu85 90 95Ala Glu Ile Glu Arg Ile Ala Gly Gln Gly Gly Asn Gly Gly Glu Arg100 105 110Glu Lys Val Ala Thr Met Ala Phe Leu Tyr Leu Leu Val Leu Leu Ser115 120 125Lys Gly Lys Pro Ser Glu Pro Phe Glu Leu Thr Ala Arg Ser Ala Leu130 135 140Pro Met Gly Ala Gly Leu Gly Ser Ser Ala Ala Leu Ser Thr Ser Leu145 150 155 160Ala Leu Val Phe Leu Leu His Phe Ser His Leu Ser Pro Thr Thr Thr165 170 175Gly Arg Glu Ser Thr Ile Pro Thr Ala Asp Thr Glu Val Ile Asp Lys180 185 190Trp Ala Phe Leu Ala Glu Lys Val Ile His Gly Asn Pro Ser Gly Ile195 200 205Asp Asn Ala Val Ser Thr Arg Gly Gly Ala Val Ala Phe Lys Arg Lys210 215 220Ile Glu Gly Lys Gln Glu Gly Gly Met Glu Ala Ile Lys Ser Phe Thr225 230 235 240Ser Ile Arg Phe Leu Ile Thr Asp Ser Arg Ile Gly Arg Asp Thr Arg245 250 255Ser Leu Val Ala Gly Val Asn Ala Arg Leu Ile Gln Glu Pro Glu Val260 265 270Ile Val Pro Leu Leu Glu Ala Ile Gln Gln Ile Ala Asp Glu Ala Ile275 280 285Arg Cys Leu Lys Asp Ser Glu Met Glu Arg Ala Val Met Ile Asp Arg290 295 300Leu Gln Asn Leu Val Ser Glu Asn His Ala His Leu Ala Ala Leu Gly305 310 315 320
Val Ser His Pro Ser Leu Glu Glu Ile Ile Arg Ile Gly Ala Asp Lys325 330 335Pro Phe Glu Leu Arg Thr Lys Leu Thr Gly Ala Gly Gly Gly Gly Cys340 345 350Ala Val Thr Leu Val Pro Asp Asp Phe Ser Thr Glu Thr Leu Gln Ala355 360 365Leu Met Glu Thr Leu Val Gln Ser Ser Phe Ala Pro Tyr Ile Ala Arg370 375 380Val Gly Gly Ser Gly Val Gly Phe Leu Ser Ser Thr Lys Ala Asp Pro385 390 395 400Glu Asp Gly Glu Asn Arg Leu Lys Asp Gly Leu Val Gly Thr Glu Ile405 410 415Asp Glu Leu Asp Arg Trp Ala Leu Lys Thr Gly Arg Trp Ser Phe Ala420 425 430(2)序列9資料(i)序列特征(A)長(zhǎng)度401aa(B)類型氨基酸(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型蛋白質(zhì)(iii)假擬結(jié)構(gòu)無(wú)(vi)原始來(lái)源(A)生物體Phaffia rhodozyma(B)菌株ATCC96594(xi)序列描述SEQ ID NO9Met Val His Ile Ala Thr Ala Ser Ala Pro Val Asn Ile Ala Cys Ile1 5 10 15Lys Tyr Trp Gly Lys Arg Asp Thr Lys Leu Ile Leu Pro Thr Asn Ser20 25 30Ser Leu Ser Val Thr Leu Asp Gln Asp His Leu Arg Ser Thr Thr Ser35 40 45Ser Ala Cys Asp Ala Ser Phe Glu Lys Asp Arg Leu Trp Leu Asn Gly50 55 60
Ile Glu Glu Glu Val Lys Ala Gly Gly Arg Leu Asp Val Cys Ile Lys65 70 75 80Glu Met Lys Lys Leu Arg Ala Gln Glu Glu Glu Lys Asp Ala Gly Leu85 90 95Glu Lys Leu Ser Ser Phe Asn Val His Leu Ala Ser Tyr Asn Asn Phe100 105 110Pro Thr Ala Ala Gly Leu Ala Ser Ser Ala Ser Gly Leu Ala Ala Leu115 120 125Val Ala Ser Leu Ala Ser Leu Tyr Asn Leu Pro Thr Asn Ala Ser Glu130 135 140Leu Ser Leu Ile Ala Arg Gln Gly Ser Gly Ser Ala Cys Arg Ser Leu145 150 155 160Phe Gly Gly Phe Val Ala Trp Glu Gln Gly Lys Leu Ser Ser Gly Thr165 170 175Asp Ser Phe Ala Val Gln Val Glu Pro Arg Glu His Trp Pro Ser Leu180 185 190His Ala Leu Ile Cys Val Val Ser Asp Glu Lys Lys Thr Thr Ala Ser195 200 205Thr Ala Gly Met Gln Thr Thr Val Asn Thr Ser Pro Leu Leu Gln His210 215 220Arg Ile Glu His Val Val Pro Ala Arg Met Glu Ala Ile Thr Gln Ala225 230 235 240Ile Arg Ala Lys Asp Phe Asp Ser Phe Ala Lys Ile Thr Met Lys Asp245 250 255Ser Asn Gln Phe His Ala Val Cys Leu Asp Ser Glu Pro Pro Ile Phe260 265 270Tyr Leu Asn Asp Val Ser Arg Ser Ile Ile His Leu Val Thr Glu Leu275 280 285Asn Arg Val Ser Val Gln Ala Gly Gly Pro Val Leu Ala Ala Tyr Thr290 295 300Phe Asp Ala Gly Pro Asn Ala Val Ile Tyr Ala Glu Glu Ser Ser Met305 310 315 320Pro Glu Ile Ile Arg Leu Ile Glu Arg Tyr Phe Pro Leu Gly Thr Ala325 330 335Phe Glu Asn Pro Phe Gly Val Asn Thr Glu Gly Gly Asp Ala Leu Arg340 345 350Glu Gly Phe Asn Gln Asn Val Ala Pro Val Phe Arg Lys Gly Ser Val355 360 365Ala Arg Leu Ile His Thr Arg Ile Gly Asp Gly Pro Arg Thr Tyr Gly370 375 380Glu Glu Glu Ser Leu Ile Gly Glu Asp Gly Leu Pro Lys Val Val Lys385 390 395 400Ala(2)序列10資料
(i)序列特征(A)長(zhǎng)度355aa(B)類型氨基酸(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型蛋白質(zhì)(iii)假擬結(jié)構(gòu)無(wú)(vi)原始來(lái)源(A)生物體Phaffia rhodozyma(B)菌株ATCC96594(xi)序列描述SEQ ID NO10Met Ser Thr Thr Pro Glu Glu Lys Lys Ala Ala Arg Ala Lys Phe Glu1 5 10 15Ala Val Phe Pro Val Ile Ala Asp Glu Ile Leu Asp Tyr Met Lys Gly20 25 30Glu Gly Met Pro Ala Glu Ala Leu Glu Trp Met Asn Lys Asn Leu Tyr35 40 45Tyr Asn Thr Pro Gly Gly Lys Leu Asn Arg Gly Leu Ser Val Val Asp50 55 60Thr Tyr Ile Leu Leu Ser Pro Ser Gly Lys Asp Ile Ser Glu Glu Glu65 70 75 80Tyr Leu Lys Ala Ala Ile Leu Gly Trp Cys Ile Glu Leu Leu Gln Ala85 90 95Tyr Phe Leu Val Ala Asp Asp Met Met Asp Ala Ser Ile Thr Arg Arg100 105 110Gly Gln Pro Cys Trp Tyr Lys Val Glu Gly Val Ser Asn Ile Ala Ile115 120 125Asn Asn Ala Phe Met Leu Glu Gly Ala Ile Tyr Phe Leu Leu Lys Lys130 135 140His Phe Arg Lys Gln Ser Tyr Tyr Val Asp Leu Leu Glu Leu Phe His145 150 155 160Asp Val Thr Phe Gln Thr Glu Leu Gly Gln Leu Ile Asp Leu Leu Thr165 170 175Ala Pro Glu Asp His Val Asp Leu Asp Lys Phe Ser Leu Asn Lys His180 185 190His Leu Ile Val Val Tyr Lys Thr Ala Phe Tyr Ser Phe Tyr Leu Pro195 200 205Val Ala Leu Ala Met Arg Met Val Gly Val Thr Asp Glu Glu Ala Tyr210 215 220Lys Leu Ala Leu Ser Ile Leu Ile Pro Met Gly Glu Tyr Phe Gln Val225 230 235 240
Gln Asp Asp Val Leu Asp Ala Phe Arg Pro Pro Glu Ile Leu Gly Lys245 250 255Ile Gly Thr Asp Ile Leu Asp Asn Lys Cys Ser Trp Pro Ile Asn Leu260 265 270Ala Leu Ser Pro Ala Ser Pro Ala Gln Arg Glu Ile Leu Asp Thr Ser275 280 285Tyr Gly Gln Lys Asn Ser Glu Ala Glu Ala Arg Val Lys Ala Leu Tyr290 295 300Ala Glu Leu Asp Ile Gln Gly Lys Phe Asn Ala Tyr Glu Gln Gln Ser305 310 315 320Tyr Glu Ser Leu Asn Lys Leu Ile Asp Ser Ile Asp Glu Glu Lys Ser325 330 335Gly Leu Lys Lys Glu Val Phe His Ser Phe Leu Gly Lys Val Tyr Lys340 345 350Arg Ser Lys355(2)序列11資料(i)序列特征(A)長(zhǎng)度26bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO11GGNAARTAYA CNATHGGNYT NGGNCA(2)序列12資料(i)序列特征(A)長(zhǎng)度26bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)
(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO12TANARNSWNS WNGTRTACAT RTTNCC(2)序列13資料(i)序列特征(A)長(zhǎng)度24bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO13GAAGAACCCC ATCAAAAGCC TCGA(2)序列14資料(i)序列特征(A)長(zhǎng)度25bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO14AAAAGCCTCG AGATCCTTGT GAGCG(2)序列15資料(i)序列特征(A)長(zhǎng)度18bp(B)類型核酸(C)鏈型單鏈
(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO15AGAAGCCAGA AGAGAAAA(2)序列16資料(i)序列特征(A)長(zhǎng)度18bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO16TCGTCGAGGA AAGTAGAT(2)序列17資料(i)序列特征(A)長(zhǎng)度30bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO17GGTACCATAT GTATCCTTCT ACTACCGAAC(2)序列18資料(i)序列特征(A)長(zhǎng)度30bp
(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO18GCATGCGGAT CCTCAAGCAG AAGGGACCTG(2)序列19資料(i)序列特征(A)長(zhǎng)度32bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO19GCNTGYTGYG ARAAYGTNAT HGGNTAYATG CC(2)序列20資料(i)序列特征(A)長(zhǎng)度32bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO20ATCCARTTDA TNGCNGCNGG YTTYTTRTCN GT(2)序列21資料
(i)序列特征(A)長(zhǎng)度25bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO21GGCCATTCCA CACTTGATGC TCTGC(2)序列22資料(i)序列特征(A)長(zhǎng)度21bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO22GGCCGATATC TTTATGGTCC T(2)序列23資料(i)序列特征(A)長(zhǎng)度26bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO23
GGTACCGAAG AAATTATGAA GAGTGG(2)序列24資料(i)序列特征(A)長(zhǎng)度26bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO24CTGCAGTCAG GCATCCACGT TCACAC(2)序列25資料(i)序列特征(A)長(zhǎng)度29bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO25GCNCCNGGNA ARGTNATHYT NTTYGGNGA(2)序列26資料(i)序列特征(A)長(zhǎng)度29bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)
(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO26CCCCANGTNS WNACNGCRTT RTC NACNCC(2)序列27資料(i)序列特征(A)長(zhǎng)度17bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO27ACATGCTGTA GTCCATG(2)序列28資料(i)序列特征(A)長(zhǎng)度16bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO28ACTCGGATTC CATGGA(2)序列29資料(i)序列特征(A)長(zhǎng)度25bp(B)類型核酸
(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO29TTGTTGTCGT AGCAGTGGGT GAGAG(2)序列30資料(i)序列特征(A)長(zhǎng)度18bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO30GGAAGAGGAA GAGAAAAG(2)序列31資料(i)序列特征(A)長(zhǎng)度18bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO31TTGCCGAACT CAATGTAG(2)序列32資料
(i)序列特征(A)長(zhǎng)度26bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO32GGATCCATGA GAGCCCAAAA AGAAGA(2)序列33資料(i)序列特征(A)長(zhǎng)度26bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO33GTCGACTCAA GCAAAAGACC AACGAC(2)序列34資料(i)序列特征(A)長(zhǎng)度23bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)
(xi)序列描述SEQ ID NO34HTNAARTAYT TGGGNAARMG NGA(2)序列35資料(i)序列特征(A)長(zhǎng)度29bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO35GCRTTNGGNC CNGCRTCRAA NGTRTANGC(2)序列36資料(i)序列特征(A)長(zhǎng)度20bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO36CCGAACTCTC GCTCATCGCC(2)序列37資料(i)序列特征(A)長(zhǎng)度20bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)
(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO37CAGATCAGCG CGTGGAGTGA(2)序列38資料(i)序列特征(A)長(zhǎng)度26bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO38CARGCNTAYT TYYTNGTNGC NGAYGA(2)序列39資料(i)序列特征(A)長(zhǎng)度32bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO39CAYTTRTTRT CYTGDATRTC NGTNCCDATY TT(2)序列40資料(i)序列特征
(A)長(zhǎng)度25bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO40ATCCTCATCC CGATGGGTGA ATACT(2)序列41資料(i)序列特征(A)長(zhǎng)度25bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO41AGGAGCGGTC AACAGATCGA TGAGC(2)序列42資料(i)序列特征(A)長(zhǎng)度25bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO42GAATTCATAT GTCCACTACG CCTGA
(2)序列43資料(i)序列特征(A)長(zhǎng)度25bp(B)類型核酸(C)鏈型單鏈(D)拓?fù)浣Y(jié)構(gòu)線性(ii)分子類型DNA(基因組)(iii)假擬結(jié)構(gòu)無(wú)(iv)反義無(wú)(xi)序列描述SEQ ID NO43GTCGACGGTA CCTATCACTC CCGCC
權(quán)利要求
1.分離的DNA序列,其編碼與甲羥戊酸途徑或自異戊烯焦磷酸到法尼焦磷酸的途徑有關(guān)的酶,其中優(yōu)選所說(shuō)的酶具有選自如下的活性3-羥-3-甲基戊二酰-CoA合酶活性,3-羥-3-甲基戊二酰-CoA還原酶活性,甲羥戊酸激酶活性,甲羥戊酸焦磷酸脫羧酶活性和法尼焦磷酸合酶活性。
2.權(quán)利要求1的分離的DNA序列,特征為(a)所說(shuō)DNA序列編碼的所有酶具有選自序列6,7,8,9和10的氨基酸序列,或者(b)所說(shuō)的DNA編碼所說(shuō)的酶的變體,選自(i)等位基因變體,和(ii)具有一個(gè)或多個(gè)氨基酸加入,插入,缺失和/或取代并具有所宣稱的酶活性的酶。
3.權(quán)利要求1-2中任一項(xiàng)的分離的DNA序列,其可以是衍生于Phaffiarhodozyma基因的并選自(i)序列1,2,4或5所示的DNA序列;(ii)序列1,2,4或5所示的DNA的相等指導(dǎo)或等位基因變體;和(iii)帶有一個(gè)或多個(gè)核苷酸的加入,插入,缺失和/或取代的序列1,2,4或5所示的DNA序列的并編碼具有所說(shuō)的酶活性的多肽的衍生物。
4.分離的DNA序列,選自(i)序列3代表的DNA序列;(ii)序列3所示DNA序列的相等指導(dǎo)或等位基因變體;以及(iii)編碼具有甲羥戊酸激酶活性的多肽的帶有一個(gè)或多個(gè)核苷酸加成,插入,缺失和/或取代的序列3所示的DNA序列的衍生物。
5.權(quán)利要求1的分離的DNA序列,選自(i)在標(biāo)準(zhǔn)條件雜交于序列1-10所示的序列或其互補(bǔ)鏈或其片段的DNA序列,以及(ii)那些由于遺傳密碼子的簡(jiǎn)并性而不能如(i)所述進(jìn)行雜交但編碼具有完全同于序列1-10所示的氨基酸序列的或由(i)定義的DNA編碼的多肽的DNA序列。
6.載體或質(zhì)粒,含有權(quán)利要求1-5中任一項(xiàng)的DNA序列的載體或質(zhì)粒。
7.被權(quán)利要求1-5中任一項(xiàng)的DNA序列或權(quán)利要求6的載體或質(zhì)粒轉(zhuǎn)化或轉(zhuǎn)染的宿主細(xì)胞。
8.生產(chǎn)與甲羥戊酸途徑或從異戊烯焦磷酸到法尼焦磷酸的途徑相關(guān)的酶的方法,包括在有利于生產(chǎn)所說(shuō)酶的條件下培養(yǎng)權(quán)利要求7所述的宿主細(xì)胞。
9.生產(chǎn)類異戊二烯或類胡蘿卜素,優(yōu)選變胞藻黃素的方法,包括在合適的條件下培養(yǎng)權(quán)利要求7的宿主細(xì)胞。
全文摘要
本發(fā)明目的在于編碼涉及甲羥戊酸途徑或從異戊烯焦磷酸到法尼焦磷酸的途徑的酶的分離的DNA序列,含有該DNA的載體和質(zhì)粒,由該DNA或載體或質(zhì)粒轉(zhuǎn)化的宿主以及通過(guò)用該轉(zhuǎn)化的宿主細(xì)胞生產(chǎn)類異戊二烯和類胡蘿卜素的方法。
文檔編號(hào)C07H21/04GK1970770SQ20061008483
公開日2007年5月30日 申請(qǐng)日期1999年5月6日 優(yōu)先權(quán)日1998年5月6日
發(fā)明者星野立夫, 小島一行, 世戶口豐 申請(qǐng)人:Dsm Ip資產(chǎn)公司