在植物中生產(chǎn)胰島素的方法

文檔序號：184515閱讀：3029來源：國知局

專利名稱：在植物中生產(chǎn)胰島素的方法
技術領域：
本發(fā)明涉及植物基因工程方法及胰島素的生產(chǎn)。更具體地，本發(fā)明涉及在植物種子內(nèi)生產(chǎn)胰島素的方法。
背景技術：
胰島素是維持哺乳動物，包含人類，和其它脊椎動物體內(nèi)血液葡萄糖體內(nèi)穩(wěn)態(tài)所需的重要肽激素。在健康的個體中，血液葡萄糖水準上升會刺激胰臟的β細胞分泌胰島素。然后胰島素多肽結合肌肉、肝臟、脂肪組織內(nèi)的特異受體，導致這些靶組織的葡萄糖攝取量增加，新陳代謝提高，肝葡萄糖生產(chǎn)降低。這些反應的累積效果保持血液葡萄糖濃度在一恒定水平。
在患糖尿病的個體中，胰島素濃度異常低，本身呈現(xiàn)慢性高血糖。慢性高血糖的臨床表現(xiàn)多樣，包含目盲、腎衰竭，如不治療，最終導致死亡。估計在工業(yè)化國家，糖尿病在第三大死亡原因，在心血管疾病和癌癥之后(Barfoed H.C.，1987，Chem.Eng.Prog.8349-54)。為使血液葡萄糖被細胞有效攝取和新陳代謝，糖尿病患者可以通過例行施用胰島素來治療。世界人口大約0.7％患有胰島素依賴性糖尿病(I型糖尿病)(Winter J.等人，2000，J.of Biotechnol.84175-185)。此外，估計未來25年中診斷出糖尿病的患者數(shù)將倍增至約3億(Kjeldsen T.等人，2001，Biotechnol.Gen.Eng.Rev.1889-121)。因此，亟需有能力以成本有效性方式大量制造人胰島素，以滿足預見成長中的全球胰島素需要。
體內(nèi)人胰島素多肽是利用胰β-細胞生產(chǎn)，形成單一110個氨基酸的多肽鏈前體，即前胰島素原，其在N-末端位置包括24個氨基酸的前序列，在鏈生物合成完成時被立刻切除(Steiner，D.F.2000，J.Ped.Endocrinol.Metab，13229-239)。胰島素原是由B鏈和A鏈組成，其由連接肽(C-肽)連接。激素包裝分泌過程中，C-肽被激素原轉(zhuǎn)化酶PC2和PC1/PC3裂解去除(Steiner，D.F.2000，J.Ped.Endocrinol.Metab.13229-239)。遺留的是成熟的人胰島素，51個氨基酸的蛋白質(zhì)，其由二種多肽鏈組成，A(長度為21個氨基酸)和B(長度為30個氨基酸)，通過二個鏈間二硫鍵連接。此外，A鏈包括一個鏈內(nèi)二硫鍵。
人胰島素可使用多種不同的方法制備。通常使用微生物，如大腸桿菌(Escherichia coli)(Frank等人，1981，PeptidesProceedings of7th American Peptide Chemistry Symposium(Rich &Gross，eds)，PierceChemical Co.，Rockford，Ill.729-739頁；Chan等人，1981，Proc.Natl.Acad.Sci.USA 785401-5404)、釀酒母菌(Saccharomyces cerevisiae)(Thim等人，1986，Proc.Natl.Acad.Sci.USA 836766-6770)重組生產(chǎn)胰島素。Wang等人(Biotechnol.Bioeng.，2001，7374-79)已示出真菌，如巴斯德畢赤酵母(Pichia pastoris)，亦可適用于胰島素生產(chǎn)。其它制法選項包擴在非人類哺乳動物細胞系內(nèi)生產(chǎn)(Yanagita，M等人，1992，F(xiàn)EBS lett 31155-59)，從人體胰臟分離、肽合成，或由豬和牛胰島素半合成轉(zhuǎn)化成人胰島素。然而，所有這些方法均比希望的產(chǎn)率要低且成本高。
使用植物作為生物反應器大量生產(chǎn)重組蛋白質(zhì)是公知的，并已生產(chǎn)過多種蛋白質(zhì)，包擴人體治療用蛋白質(zhì)。例如，美國專利4,956,282，5,550,038和5,629,175揭示在植物內(nèi)生產(chǎn)γ-干擾素；美國專利5,650,307，5,716,802和5,763,748揭示在植物內(nèi)生產(chǎn)人血清白蛋白；而美國專利5,202,422，5,639,947和5,959,177涉及在植物內(nèi)生產(chǎn)抗體?；谥参锏闹亟M蛋白質(zhì)生產(chǎn)系統(tǒng)提供的一個顯著優(yōu)點是通過提高植物生長的土地面積，蛋白質(zhì)生產(chǎn)可廉價地擴大規(guī)模到提供大量蛋白質(zhì)。反之，發(fā)酵和細胞培養(yǎng)系統(tǒng)需要大的空間、設備和能量需求，使大規(guī)模生產(chǎn)的成本高。然而，盡管事實上使用植物為生物反應器被大量報道，且盡管上述預期的巨大增加的大量胰島素需求，現(xiàn)有技術只提供了有限數(shù)目的方法證明在植物內(nèi)生產(chǎn)胰島素(參見Arakawa等人，Nature Biotech，1998，16934-938；PCT 01/72959)。
Arakawa等人揭示融合蛋白質(zhì)的生產(chǎn)，包括在轉(zhuǎn)基因馬鈴薯植物的塊莖內(nèi)生產(chǎn)胰島素。然而，胰島素僅代表轉(zhuǎn)基因塊莖內(nèi)存在的總可溶性蛋白質(zhì)含量的直至0.05％而已。在總可溶性蛋白質(zhì)的0.05％水平，大量的生物量必須進行蛋白質(zhì)提取，致使與使用馬鈴薯塊莖相關的生產(chǎn)從經(jīng)濟上不利。此外，Arakawa等人不涉及從馬鈴薯塊莖組織中分離胰島素，但提議了通過誘導免疫耐受防止I型糖尿病發(fā)作的方法，其包括通過喂轉(zhuǎn)基因馬鈴薯塊莖以口服胰島素。
PCT專利申請WO01/72959揭示了融合蛋白質(zhì)的生產(chǎn)，包括在轉(zhuǎn)基因煙草的葉綠體中生產(chǎn)胰島素。然而，雖然存在有關人蛋白質(zhì)在植物組織內(nèi)累積水平的缺點，但WO01/72959的發(fā)明僅限于在葉綠體內(nèi)生產(chǎn)而造成在綠色組織，主要是煙葉中累積胰島素。由于綠色組織相對高的含水量，因此必須處理大量的生物量。此外，生產(chǎn)胰島素需在收獲時立即從生物量提取，因為葉物質(zhì)在儲存時很快變質(zhì)。
因此，鑒于現(xiàn)有技術所提供的與在植物內(nèi)重組生產(chǎn)胰島素的方法相關的缺點，目前尚未明了是否可以及如何利用植物的合成能力實現(xiàn)在植物內(nèi)商業(yè)化生產(chǎn)胰島素。本領域亟需改進在植物內(nèi)商業(yè)化生產(chǎn)胰島素的方法。
發(fā)明簡述本發(fā)明涉及在植物內(nèi)生產(chǎn)胰島素的改良方法。具體地，本發(fā)明涉及在種子內(nèi)生產(chǎn)胰島素的方法。
因此，本發(fā)明提供了在植物內(nèi)表達胰島素的方法，包括(a)提供嵌合核酸構建體，在5’至3’轉(zhuǎn)錄方向包括可操縱連接的如下組分(i)在植物種子細胞內(nèi)可控制表達的核酸序列；及(ii)編碼胰島素多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞內(nèi)以及(c)令植物細胞成長為成熟植物，其可結種子，其中種子表達胰島素。
在本發(fā)明的一個優(yōu)選實施方案中，可在植物種子細胞內(nèi)控制表達的核酸序列是種子偏好啟動子，如菜豆蛋白啟動子。
在本發(fā)明的一個優(yōu)選實施方案中，胰島素以可以在種子細胞內(nèi)膜包圍的細胞內(nèi)區(qū)室(membrane enclosed intracellular compartment)內(nèi)累積胰島素多肽的方式表達。因此，本發(fā)明提供了在植物內(nèi)表達胰島素的方法，所述方法包括(a)提供嵌合核酸構建體，在5’至3’轉(zhuǎn)錄方向包括下列可操縱連接的組分(i)可在植物種子細胞內(nèi)控制表達的核酸序列；和(ii)編碼胰島素多肽的核酸序列和(iii)編碼可將胰島素多肽保持在膜包圍的細胞內(nèi)區(qū)室的多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞內(nèi)；以及(c)令植物細胞成長為成熟植物，其可結種子，其中種子表達胰島素。
在本發(fā)明又一優(yōu)選的實施方案中，膜包圍的細胞內(nèi)區(qū)室是內(nèi)質(zhì)網(wǎng)(ER)或ER衍生的儲存小泡。因此，本發(fā)明提供了在植物內(nèi)表達胰島素的方法，所述方法包括(a)提供嵌合核酸構建體，在5’至3’轉(zhuǎn)錄方向包括下列可操縱連接的組分(i)可在植物種子細胞內(nèi)控制表達的核酸序列；及
(ii)編碼胰島素多肽的核酸序列；(iii)編碼可將胰島素多肽保持在ER或ER衍生的儲存小泡內(nèi)的多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞內(nèi)；以及(c)令植物細胞成長為成熟植物，其可結種子，其中種子表達胰島素。
在又一優(yōu)選的實施方案中，在核基因組整合條件下，把嵌合核酸構建體導入植物細胞內(nèi)。在如此條件下，嵌合核酸序列穩(wěn)定地整合進植物基因組內(nèi)。
在另一優(yōu)選的實施方案中，編碼胰島素的核酸序列根據(jù)植物密碼子使用表對進行優(yōu)化并將編碼連接肽(C-肽)的核酸序列縮短。本發(fā)明所用優(yōu)選的核酸序列編碼人、?；蜇i胰島素。按照本發(fā)明，使用編碼胰島素原序列的核酸序列，其中胰島素原經(jīng)修飾，把C-肽長度縮短。
在另一方面，本發(fā)明提供了包括胰島素的植物種子的回收方法。因此，本發(fā)明提供了一種獲得包括胰島素的植物種子的方法，包括(a)提供嵌合核酸構建體，在5’至3’轉(zhuǎn)錄方向包括下列可操縱連接的組分(i)可在植物種子細胞內(nèi)控制表達的核酸序列；和(ii)編碼胰島素多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞內(nèi)；(c)令植物細胞成長為成熟植物，其可結種子；以及(d)從所述植物獲得種子，其中種子包括胰島素。
優(yōu)選種子內(nèi)存在的全部種子蛋白質(zhì)的至少0.1％為胰島素。
種子可用來獲得子代植物群，其中每個都包括表達胰島素的多個種子。
本發(fā)明還提供了可結表達胰島素的種子的植物。在本發(fā)明一個優(yōu)選實施方案中，可結種子的植物包括嵌合核酸序列，其在5’至3’轉(zhuǎn)錄方向包括(a)可在植物種子細胞內(nèi)控制表達的第一核酸序列，其可操縱的連接于；(b)編碼胰島素多肽的第二核酸序列，其中種子含有胰島素。
優(yōu)選地，種子內(nèi)存在的全部種子蛋白質(zhì)的至少0.1％是胰島素。
在一個優(yōu)選的實施方案中，嵌合核酸序列整合于植物核基因組內(nèi)。
在本發(fā)明另一優(yōu)選實施方案中，使用植物為紅花，亞麻植物或芥屬(Arabidopsis)植物。
在另一方面，本發(fā)明提供了表達胰島素的植物種子。在本發(fā)明一個優(yōu)選的實施方案中，植物種子包括嵌合核酸序列，在5’至3’轉(zhuǎn)錄方向包括(a)可在植物種子細胞內(nèi)控制表達的第一核酸序列，其可操縱的連接于；(b)編碼胰島素多肽的第二核酸序列。
優(yōu)選地，種子內(nèi)存在的全部種子蛋白質(zhì)的至少0.1％是胰島素。種子是利用種子細胞合成所需胰島素多肽的來源，其可經(jīng)提取，而且胰島素可用來治療糖尿病患者。
本發(fā)明的其它特征和優(yōu)點通過下列詳述可容易明白。然而，應理解表示本發(fā)明優(yōu)選實施方案的詳細說明和特定實施例僅是為了闡明本發(fā)明，因此通過改詳細說明，本領域技術人員可以容易地知道在本發(fā)明精神和范圍內(nèi)的多種變化和修飾。

本發(fā)明通過附圖描述，其中圖1表示pSBS4404的胰島素融合蛋白(PRS-D9scFv-Klip27-MI-KDEL)的核苷酸序列(SEQ ID NO1)和推定的氨基酸序列(SEQ ID NO2)。預期的氨基酸序列用單字母符號表示。PRS信號肽的推定氨基酸序列用斜體字，而D9scFv的推定氨基酸序列用黑體字，KLIP27序列的推定氨基酸序列下劃線，微型胰島素(mini-insulin)序列的推定氨基酸序列用斜黑體字，最后KDEL序列用黑體下劃線。
圖2表示pSBS4405胰島素融合蛋白質(zhì)(OLEO-KLIP8-KLIP27-MI)的核苷酸序列(SEQ ID NO3)和推定的氨基酸序列(SEQ ID NO4)。預期的氨基酸序列用單字母符號表示。擬南芥(Arabidopsis thaliana)18kDa油質(zhì)蛋白的推定氨基酸是斜體字，KLIP8序列的推定氨基酸序列用黑體，KLIP27序列的推定氨基酸序列下劃線，而微型胰島素的推定氨基酸序列用斜黑體。
圖3表示4414胰島素融合蛋白(PRS-MI-四元(tetrabasic)接頭-D9Scfv-KDEL)的完整核酸序列(SEQ ID NO5)和氨基酸序列(SEQID NO6)。預期氨基酸序列以單字母符號表示。PRS信號肽的推定氨基酸序列用斜體，微型胰島素(B30四元)的推定氨基酸序列用黑體，四元接頭序列的推定氨基酸序列下劃線，D9scFv的推定氨基酸序列用斜黑體，最后KDEL序列用黑體下劃線。
圖4(A-D)表示根據(jù)考馬斯染色SDS-PAGE和蛋白質(zhì)印跡分析胰島素融合蛋白在轉(zhuǎn)化的擬南芥(4404-2、-17、-20和4405-4)品系中的重組表達。箭頭分別指在還原條件下，38.5kDa和34.2kDa融合多肽、PRS-D9(scfv)-KLIP27-MIw/KDEL和OLEO-KLIP8-KLIP27-MI的遷移位置。圖4A(考馬斯染色凝膠)和4B(相當于以抗胰島素E2E3探測的蛋白質(zhì)印跡)表示來自野生型(wt)的總種子蛋白質(zhì)以及表達4404和4405構建體的轉(zhuǎn)基因種子品系。圖4B(考馬斯染色凝膠)和4D(相當于以抗胰島素E2E3探測的蛋白質(zhì)印跡)表示由野生型制備的油體蛋白質(zhì)以及表達同樣4404和4405構建體的轉(zhuǎn)基因種子。圖4(E-F)表示根據(jù)考馬斯染色SDS-PAGE和蛋白質(zhì)印跡分析，胰島素融合蛋白在轉(zhuǎn)化的擬南芥品系(4419-9和4414-20)中的重組表達。分子量標記(M)為10，15，25，37，50，75，100，150kDa。對照包擴hIN(重組人胰島素標準)和hProIN(重組人胰島素原標準)，在非還原條件下分離。
圖5表示在可得到的T3種子品系(4404-2、-17、-20，4405-4、-13、-19)和T2種子品系(4414-9和-20)中測定的表達水平。轉(zhuǎn)基因水平和％摩爾MI表達根據(jù)光密度測定法測定。
圖6表示考馬斯染色SDS-PAGE(15％)分析洗脫前的油體制備物(-OB)、用甲酸洗脫后的OB制備物(-OB’)，以及濃縮的洗脫物質(zhì)(-E)。箭頭指融合多肽的遷移位置。野生型對照基本上在洗脫后不含任何主要蛋白質(zhì)，而濃縮的4404物質(zhì)含有融合蛋白，某些截短產(chǎn)物(可能是水解的融合蛋白)以及可能有共同洗脫的一些白蛋白。
圖7表示層析譜，顯示與在C18柱上胰蛋白酶裂解的洗脫4404融合蛋白相比，人胰島素標準的特征性住留時間。hIN標準是重組人胰島素標準(0.5μg)。
圖8表示人胰島素標準(A)的質(zhì)譜分析，與從17.0-17.5分鐘所集的胰蛋白酶裂解和HPLC純化的4404(B)級分比較。
圖9表示總可提取種子蛋白質(zhì)和表達4405的品系的油體(OB)制備蛋白質(zhì)的考馬斯染色SDS-PAGE(15％)分析，與野生型(非重組)種子比較。箭頭指示融合多肽的遷移位置。
圖10表示層析譜，顯示人胰島素標準的特征性住留時間，與胰蛋白酶裂解的、在C18柱上通過RP-HPLC制備的4405OB制備物比較。hIN標準是重組人胰島素標準(0.5μg)。
圖11表示人胰島素標準(A)的質(zhì)譜分析，與從17.0-17.5分鐘收集的胰蛋白酶裂解和HPLC純化的4405(B)級分比較。
圖12表示胰蛋白酶裂解的4405油體制備物(虛線)的層析譜，與人胰島素標準(實線)比較。在7-35mS/cm間收集洗脫的裂解的胰島素級分并利通過冷凍干燥濃縮以供胰島素生物分析。
圖13表示B6雄鼠在注射負對照(空白圓形＝生理鹽水安慰劑，實心圓形＝胰蛋白酶裂解的野生型油體)，正對照(空白方形＝Humulin R，空白三角形＝Roche hIN)后的血清葡萄糖水平變化，與從4405油體(實心菱形＝SBS hIN DesB30)制備的植物衍生胰島素比較。
圖14表示二種代表性品系(4409-6和4409-8)的油體蛋白質(zhì)的考馬斯染色凝膠，比較油質(zhì)蛋白-hPIN融合蛋白(黑色箭頭所示)與非轉(zhuǎn)化(wt)芥的遷移。表達水平通過光密度測定法測量，測得平均為總種子蛋白質(zhì)的約0.10％。此水平計算如上，并超出非轉(zhuǎn)化種子(wt)內(nèi)、構成總種子蛋白約0.04％的同樣分子量的內(nèi)源蛋白質(zhì)的共同遷移。
發(fā)明詳述如上所述，本發(fā)明涉及在轉(zhuǎn)基因植物中生產(chǎn)胰島素的改良方法。本發(fā)明人等意外發(fā)現(xiàn)通過在植物種子內(nèi)以重組方式生產(chǎn)胰島素可在植物內(nèi)使胰島素累積水平超過全部細胞蛋白質(zhì)的0.1％。此等表達水平比以前所達到的高至少10倍，使胰島素在植物內(nèi)的商業(yè)化生產(chǎn)成為可行。在種子內(nèi)生產(chǎn)提供了把胰島素做為原始物質(zhì)儲藏和運輸?shù)目尚行?，因為胰島素保有從儲藏種子提取時的活性。此外，需經(jīng)提取的生物量數(shù)量有限，因植物種子內(nèi)存在的水含量相對低。
因此，本發(fā)明提供了在種子內(nèi)表達胰島素的方法，所述方法包括(a)提供嵌合核酸構建體，在5’至3’轉(zhuǎn)錄方向包括下列可操縱連接的組分(i)可在植物種子細胞內(nèi)控制表達的核酸序列；和(ii)編碼胰島素多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞內(nèi)；以及(c)令植物細胞成長為成熟植物，其可結種子，其中種子表達胰島素。
按照本發(fā)明，意外發(fā)現(xiàn)如果以在允許胰島素多肽在種子細胞內(nèi)被隔離(sequestration)在膜包圍的細胞內(nèi)區(qū)室中的方式在種子內(nèi)表達胰島素，則胰島素在植物種子內(nèi)累積的水平可以達到以前未達到的水平。因此，本發(fā)明提供了在植物內(nèi)表達胰島素的優(yōu)選方法，所述方法包括(a)提供嵌合核酸構建體，在5’至3’轉(zhuǎn)錄方向包括下列可操縱連接的組分(i)可在植物種子細胞內(nèi)控制表達的啟動子；及(ii)編碼胰島素多肽的核酸序列(iii)編碼可將胰島素多肽保持在膜包圍的細胞內(nèi)區(qū)室里的多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞內(nèi)；以及(c)令植物細胞成長為成熟植物，其可結種子，其中種子表達胰島素。
術語和定義除非另有定義，本文所用全部技術和科學術語應具有本發(fā)明所屬技術領域的技術人員通常所知的同樣意義。如果容許，凡專利、專利申請案、專利公告，及其他出版物，含有來自GenBank、SwissPro及本申請參考的數(shù)據(jù)庫的核酸和多肽序列，均全部在此并入?yún)⒖肌?br> 本文所用“核酸序列”指核苷或核苷酸單體的序列，這些核苷或核苷酸單體由天然存在的堿基、糖或糖間(intersugar)(骨架)鍵組成。此術語亦包含修飾或被取代的序列，其包括非天然存在的單體或其部分。本發(fā)明核酸序列可為脫氧核糖核酸序列(DNA)或核糖核酸(RNA)，并可包括天然存在的堿基，包括腺嘌呤、鳥嘌呤、胞嘧啶、胸腺嘧啶和尿嘧啶。所述序列亦可含有修飾的堿基。該修飾堿基的例子包括氮雜(aza)和脫氮(deaza)腺嘌呤、鳥嘌呤、胞嘧啶、胸腺嘧啶和尿嘧啶，以及黃嘌呤和次黃嘌呤。
術語“編碼胰島素的核酸序列”和“編碼胰島素多肽的核酸序列”在此可以互換使用，是指編碼胰島素多肽的任何和全部核酸序列和編碼胰島素原和前胰島素原的任何核酸序列，所述胰島素多肽包括表1內(nèi)所列胰島素多肽(SEQ ID No7-145)以及任何哺乳動物胰島素多肽。本文所用“胰島素原”指包括連接肽或“C-肽”連接B和A胰島素多肽鏈的胰島素多肽。在天然人胰島素中，C-肽是31個氨基酸殘基的多肽鏈，殘基B30連接到殘基A1。術語“前胰島素原”指胰島素原分子，其另外包括N-末端信號序列，其指導在ER核糖體發(fā)生的翻譯。編碼胰島素多肽的核酸序列又包括任何和全部下列核酸序列(i)編碼與上述胰島素多肽序列基本上一致的多肽的序列；或(ii)在至少中度嚴格雜交條件下與上述任何核酸序列雜交、或在至少中度嚴格條件下與其雜交但使用同義密碼子的序列。
術語“基本上一致”指兩個多肽序列優(yōu)選至少75％一致，更優(yōu)選至少85％一致，及最優(yōu)選至少95％一致，例如96％、97％、98％或99％一致。為確定兩個多肽序列間一致性百分比，將這兩個序列的氨基酸序列排列對比，優(yōu)選使用Clustal W算法(Thompson，J.D.，Higgins DG，Gibson TJ，1994，Nucleic Acids Res.22(22)4673-4680)，以及BLOSUM 62評分矩陣(Henikoff S.和Henikoff J.G，1992，Proc.Natl.Acad.Sci.USA 8910915-10919)，以及缺口罰值10和缺口延伸罰值0.1，以便在兩個序列間得到最高階匹配，其中序列之一的總長的至少50％參與對比。可用來序列對比的其它方法是Needleman和Wunsch對比法(J.Mol.Biol.，1970，48443)，由Smith和Waterman加以修正(Adv.Appl.Math.，1981，2482)，故在二序列間可得最高階匹配，而且確定了兩個序列間一致的氨基酸數(shù)。計算兩個氨基酸序列間百分比一致性的其它算法是一般技術所知，包括例如Carillo和Lipton所述(SIAM J.Applied Math.，1988，481073)以及在Computational Molecular Biology，lesk，e.d.Oxford University Press，New Nork，1988，BiocomputingInformations and Genomics Projects。一般而言，此等計算采用計算機程序。在此方面可用的計算機程序包括但不限于GCG(Devereux等人，Nucleic Acids Res.，1984，12387)BLASTP、BLASTN和FASTA(Altschul等人，J.Molec.Biol.，1990，215403)。
“至少中度嚴格雜交條件”指選擇的條件促進兩個互補核酸序列在溶液中選擇性雜交。雜交可發(fā)生于核酸序列分子全部或部分。雜交部分典型上長度至少為15(例如20、25、30、40或50)個核苷酸。本領域技術人員均知核酸雙鏈體或雜種的穩(wěn)定性通過Tm確定，在含鈉緩沖液內(nèi)是鈉離子濃度和溫度的函數(shù)(Tm＝81.5℃-16.6(log10[Na+]+0.41(％(G+C)-600/1)，或類似方程式)。因此，在洗滌條件下決定雜種穩(wěn)定性的參數(shù)是鈉離子濃度和溫度。為鑒定與已知核酸分子類似但不一致的分子，可假設1％誤配導致Tm會降約1℃，例如如果找尋的核酸分子有＞95％一致性，最后洗滌溫度會降約5℃?；谌绱丝剂?，本領域技術人員能夠輕易選擇適當?shù)碾s交條件。在優(yōu)選實施方案中，選用嚴格雜交條件。舉例而言，可采用下列條件達成嚴格雜交根據(jù)上述方程式，在Tm-5℃，于5×氯化鈉/檸檬酸鈉(SSC)/5×Denhardt’s溶液/1.0％SDS雜交，接著在60℃，利用0.2×SSC/0.1％SDS中洗。中度嚴格雜交條件包括在42℃的3×SSC中的洗滌步驟。然而，須知使用其它緩沖液、鹽和溫度，可實現(xiàn)同等的嚴格性。有關雜交條件的其它指導可參見Current Protocols in Molecular Biology，JohnWiley & Sons，N.Y.，1989，6.3.1-6.3.6以及Sambrook等人，MolecularCloning，a Laboratory Manual，Cold Spring Harbor Laboratory Press，1989，第3卷。
本文所用術語“胰島素”和“胰島素多肽”可互換使用，指包括表1內(nèi)所列胰島素多肽(SEQ ID NO7-145)在內(nèi)的任何和全部胰島素多肽，也指的是包括如下所述的氨基酸殘基序列的多肽分子，所述氨基酸殘基序列(i)與構成上述任何胰島素多肽的氨基酸序列基本上一致，或(ii)由一種核酸序列編碼，該核酸序列在至少中度嚴格條件下能夠與編碼在此所述的胰島素的任何核酸序列雜交，或在至少中度嚴格條件下能夠與編碼在此所述的胰島素、但使用了同義密碼子的核酸序列雜交。術語胰島素和胰島素多肽包括胰島素原多肽和微型胰島素多肽。胰島素多肽優(yōu)選是人、豬或牛來源。
術語“可保持胰島素多肽于膜包圍的細胞內(nèi)區(qū)室中的多肽”用來指當與胰島素多肽連接時，可將胰島素多肽隔離在膜包圍的并且位于植物細胞的細胞內(nèi)空間、由植物細胞質(zhì)膜所界定的亞細胞結構中的任何多肽。
術語“可保持胰島素多肽于ER或ER衍生儲存小泡內(nèi)的多肽”，用來指當與胰島素多肽連接時，可將胰島素多肽隔離于內(nèi)質(zhì)網(wǎng)或在內(nèi)質(zhì)網(wǎng)所衍生的儲存區(qū)室如植物細胞內(nèi)的油體中的任何多肽。
本文所用術語“油體”指植物種子細胞中的任何油或脂肪儲存細胞器(例如Huang(1992)Ann.Rev.Plant Mol.Biol.43177-200所述)。
在核酸序列中所用術語“嵌合”指非天然連接的至少兩個連接的核酸序列。嵌合核酸序列包含不同天然來源的連接的核酸序列。例如，構成連接于編碼人胰島素的核酸序列的植物啟動子的核酸序列可視為嵌合的。嵌合核酸序列亦可包括同樣天然來源的核酸序列，條件是它們天然不連接。例如，構成由特殊細胞類型所得啟動子的核酸序列可與編碼從同樣細胞類型所得多肽的核酸序列連接，但通常其不與構成該啟動子的核酸序列連接。嵌合核酸序列亦包括這樣的核酸序列，其包括與任何非天然存在的核酸序列連接的天然存在的核酸序列。制備包含編碼胰島素的嵌合核酸序列和能夠在植物種子細胞中控制表達的啟動子的重組表達載體本發(fā)明方法和組成物可用的編碼胰島素的核酸序列可為編碼胰島素多肽的任何核酸序列，所述胰島素多肽包括任何胰島素原和前胰島素原。
本領域熟知編碼胰島素的核酸序列的例子，一般從多種哺乳動物來源中可輕易取得，包括人(Bell，G.I.等人，1980，Nature 28426-32)、豬(Chance，R.E.等人，1968，Science 161165-167)、牛(D’Agostino，J.等人，1987，Mol.Endocrinol，1327-331)、羊(Peterson，J.D.等人，1972，Biol.Chem.2474866-4871)等，以及從植物來源獲得(Oliveira，A.E.A.等人，1999，Protein Pept.Lett.615-21)。可用的胰島素編碼序列包括編碼SEQ ID NO7至SEQ ID NO145所示多肽鏈的序列。編碼胰島素多肽鏈的各相對應核酸序列可經(jīng)由表1所提供SwissProtein識別號碼輕易識別。使用這些核酸序列，使用本領域技術人員已知的技術可以鑒別其它的新胰島素編碼核酸序列。例如文庫，像表達文庫、cDNA和基因組文庫，均可篩選，而且在含有來自測序計劃的序列信息的數(shù)據(jù)庫中可以查尋類似序列?？墒褂冒丫幋a胰島素多肽的另外核酸序列分離的其它方法，并按照本發(fā)明發(fā)現(xiàn)和使用新序列。在優(yōu)選實施方案中，核酸序列編碼的胰島素是人、豬、牛胰島素。
現(xiàn)有技術已知許多胰島素類似物(例如參見美國專利5,461,031；5,474,978；5,164,366和5,008,241)，可用于本發(fā)明。本文可使用的類似物包括人胰島素分子，其中B-鏈的氨基酸殘基28(B28)從其天然的脯氨酸殘基改變成天冬氨酸、賴氨酸或異亮氨酸。另一實施方案中，在B29的賴氨酸殘基經(jīng)修飾成脯氨酸。此外，A21的天冬酰胺可改變?yōu)楸彼帷⒐劝滨０?、谷氨酸、甘氨酸、組氨酸、異亮氨酸、亮氨酸、甲硫氨酸、絲氨酸、蘇氨酸、色氨酸、酪氨酸或纈氨酸。而且，在B3的天冬酰胺亦可修飾為賴氨酸。本文可用的胰島素類物其它例子包括缺少B30殘基的人胰島素，通常亦稱為“desB30”或”B(1-29)”缺少最后3個氨基酸殘基的胰島素”B(1-27)”；在B1缺少苯丙氨酸殘基的胰島素分子以及其中A鏈或B鏈具有N-末端或C-末端延伸的類似物，例如B鏈可通過添加兩個精氨酸殘基而延長N-末端。
在優(yōu)選實施方案中，所用核酸序列編碼胰島素是胰島素原。在又一優(yōu)選實施方案中，使用編碼胰島素的核酸序列分子，其中C-肽已相對于其天然形式被修飾過。C-肽內(nèi)的氨基酸殘基可被取代，而C-肽可加長或縮短。因此，本文所用術語“微型胰島素(mini-insulin)”指經(jīng)修飾的胰島素多肽，C-肽長度相比于其天然形式被縮短。優(yōu)選實施方案中，使用微型胰島素。微型胰島素分子的C-肽優(yōu)選短于20個氨基酸殘基，更優(yōu)選短于15個氨基酸殘基，最優(yōu)選短于9個氨基酸殘基，例如7、5或3個殘基。如天然胰島素分子情形，微型胰島素C-肽優(yōu)選在其C-和N-末端包括裂解位點。此種裂解位點可為本領域已知的任何常規(guī)位點，例如可被溴化氰裂解的甲硫氨酸，可被胰蛋白酶等類似的蛋白酶或羧肽酶裂解的單一堿基殘基或一對堿基殘基。例如，C-肽可包括C-末端賴氨酸，例如Ala-Ala-Lys(SEQ ID NO146)，或緊接Gly A1殘基前的二元加工位點，例如Asn-Lys-Arg(SEQ IDNO147)或Arg-Arg-Lys-Gln-Lys-Arg(SEQ ID NO148)或緊接GlyA1殘基前的四元加工位點，例如Arg-Arg-Lys-Arg(SEQ ID NO149)。因此，本發(fā)明可用的微型胰島素分子包括B(1-29/30)-X1-X2-X3-Y1-A(1-21)其中，X1為任何氨基酸；X2為任何氨基酸；X3為Lys或ArgY1為肽鍵或1-17個氨基酸殘基；B(1-29/30)為含有氨基酸殘基1-29或1-30的人胰島素B鏈的B鏈；A(1-21)為含氨基酸殘基1-21的人胰島素A鏈的A鏈。
在優(yōu)選實施方案中，X1為堿性氨基酸殘基(Lys或Arg)，Y1為肽鍵或1-17個氨基酸殘基，其中C-末端殘基為堿性氨基酸殘基(Lys或Arg)。
此外，本文可用的微型胰島素分子包括下式代表的那些B(1-27)-X2-X3-X1-Y-A(1-21)其中X1為1-18個氨基酸殘基的肽，包括至少一個芳族氨基酸殘基；X2為在B鏈28位的Pro、Asp、Lys或Ile之一；X3為在B鏈29位的Pro、Lys、Ala、Arg或Pro-Thr之一；Y為Lys或Arg；B(1-27)為含氨基酸殘基1-27的人胰島素B鏈的B鏈；及A(1-21)為含氨基酸殘基1-21的人胰島素A鏈的A鏈。
本發(fā)明所用編碼微型胰島素多肽的核酸分子的另外例子包括如下所述的那些Markussen等人，Walter de Gruyter & CO.1987，Peptides189-194頁；Thim等人，1989，Genetics and molecular biology ofindustrial microorganisms，American Society for Microbiology，322-328頁；以及美國專利4,916,212；5,324,641及6,521,738。制造胰島素類似物的、編碼胰島素的核酸序列的變化形式可用本領域技術人員所知多種核酸修飾技術制得，包括例如定點誘變、定向突變、隨機突變、添加有機溶劑、基因改組或其組合，以及本領域技術人員所知的其它技術(Shraishi等人，1988，Arch.Biochem.Biophys，358104-115；Galkin等人，1997，Protein Eng.10687-690Carugo等人，1997，Proteins 2810-28；Hurley等人，1996，Biochem，355670-5678Holmberg等人，1999，Protein Eng.12851-856)。
按照本發(fā)明，意外發(fā)現(xiàn)若在種子內(nèi)表達胰島素，優(yōu)選以在種子細胞內(nèi)的胰島素多肽被隔離在膜包圍的細胞內(nèi)區(qū)室中的方式表達，則胰島素在植物種子中可累積到前所未有的水平。在本發(fā)明優(yōu)選的實施方案中，胰島素多肽被隔離在ER或ER衍生的儲存小泡內(nèi)。為實現(xiàn)胰島素在ER或ER衍生的儲存小泡內(nèi)的這種累積，按照本發(fā)明，將編碼胰島素的多肽連結至造成胰島素多肽被保持在ER或ER衍生的儲存小泡內(nèi)的多肽，而非從ER轉(zhuǎn)運出，例如轉(zhuǎn)運到質(zhì)外體?？梢杂糜诒景l(fā)明的、保持胰島素多肽在ER中的多肽包括能夠?qū)⒁葝u素隔離在ER中的任何多肽。這種多肽可以合成或得自任何生物來源。在本發(fā)明的優(yōu)選實施方案中，能夠保持胰島素的多肽是包含C-末端ER保留基序的多肽。這種C-末端ER保留基序例子包括KDEL、HDEL、DDEL、ADEL和SDEL序列(分別為SEQ ID NO150-154)。其它例子包括HDEF(SEQ ID NO155)(Lehmann等人，2001，Plant Physiol127(2)436-49)，或靠近位于2和3、3和4或4和5位置的兩個精氨酸殘基(Abstract from Plant Biology 2001 Program，ASPB，2001年7月，Providence，Rhode Island，USA)。編碼C-末端ER保留基序的核酸序列優(yōu)選連接到編碼胰島素多肽的核酸序列，其方式為把能夠?qū)⒁葝u素保持于ER內(nèi)的多肽連接到胰島素多肽的C-末端。
為了在ER衍生的儲存小泡內(nèi)隔離胰島素多肽，將胰島素多肽連接到能夠?qū)⒁葝u素多肽保持在ER衍生的儲存小泡內(nèi)的多肽。本發(fā)明中可以使用的能夠?qū)⒁葝u素多肽保持在ER衍生的儲存小泡內(nèi)的多肽可以是能夠?qū)⒁葝u素多肽隔離在ER衍生的儲存小泡內(nèi)的任何多肽。能夠?qū)⒁葝u素保持在ER衍生的儲存小泡內(nèi)的多肽可以合成或得自任何生物來源。在優(yōu)選的實施方案中，ER衍生的儲存小泡是油體，而胰島素多肽連接到油體蛋白質(zhì)或其能夠?qū)⒁葝u素多肽保持在ER衍生的儲存小泡內(nèi)的足夠部分。在此方面可用的油體蛋白質(zhì)包括天然與油體結合的任何蛋白質(zhì)。特別優(yōu)選的油體蛋白質(zhì)為油質(zhì)蛋白。例如芥油質(zhì)蛋白(van Rooiien et al.(1991)Plant Mol Biol.181177-1179)玉米油質(zhì)蛋白(Bowman-Vance等人，1987，J.Biol.Chem.26211275-11279；Qu等人，1990，J.Biol.Chem.2652238-2243)胡蘿卜油質(zhì)蛋白(Hatzopoulos et al.(1990)Plant Cell 2457-457)或蕓苔(Brassica)油質(zhì)蛋白(lee等人，1991，Plant Physiol.961395-1397)，油體鈣蛋白(caleosin)，見例如Genbank登記號AF067857)以及油體固醇蛋白(steroleosin)(Lin等人，2002，Plant Physiol.128(4)1200-11)。在又一優(yōu)選的實施方案中，油體蛋白質(zhì)是植物油質(zhì)蛋白，且與其它植物油質(zhì)蛋白，如從擬南芥(SEQ ID NO156)或油菜(Brassica napus)(SEQ ID NO157)分離的油質(zhì)蛋白，具有序列相似性。在另一實施方案中，油體蛋白質(zhì)是得自植物、真菌或其它來源的油體鈣蛋白或鈣結合蛋白，并與油體蛋白質(zhì)如分離自擬南芥的油質(zhì)蛋白(SEQ ID NO158和SEQ ID NO159)具有序列同源性。在另一實施方案中，油體蛋白質(zhì)為油體固醇蛋白(SEQ ID NO160)，是一種固醇結合脫氫酶(Lin L-J等人，(2002)，Plant Physiol 1281200-1211)。編碼胰島素的多肽可以連接于油體蛋白質(zhì)的N-末端以及C-末端及油體蛋白質(zhì)的片段，如例如油質(zhì)蛋白的中心結構域。例如通過制備油體(制備油體的方法學見例如美國專利6,650,554)及鑒定油體制備物中的蛋白質(zhì)通過例如SDS凝膠電泳可以發(fā)現(xiàn)新的油體蛋白質(zhì)?？梢援a(chǎn)生針對這些蛋白質(zhì)的多克隆抗體并用于篩選cDNA文庫以鑒別編碼油體蛋白質(zhì)的核酸序列。新的油體蛋白質(zhì)可以進一步使用已知的編碼油體蛋白質(zhì)的核酸序列發(fā)現(xiàn)，使用例如本文提及的編碼油體蛋白質(zhì)的油體蛋白質(zhì)序列，探查例如cDNA或基因組文庫確定油體蛋白質(zhì)的存在。
能夠把胰島素保持在ER或ER衍生的儲存細胞器內(nèi)的多肽典型地是不會被裂解的，而且胰島素可以融合蛋白質(zhì)的形式累積，其是例如在典型地使用KDEL保留信號來保持多肽于ER內(nèi)時或使用油體蛋白質(zhì)來保持多肽于ER衍生的儲存細胞器內(nèi)時的情況。
嵌合核酸序列可另含有把核酸序列靶向內(nèi)膜系統(tǒng)的核酸序列(“信號肽”)。在本發(fā)明使用能夠把多肽保持于ER內(nèi)的序列，如KDEL、HDEL或SDEL多肽把胰島素多肽保持在ER內(nèi)的實施方案中，特別希望包括編碼信號肽的核酸序列。此處可用的信號肽例子包含煙草發(fā)病相關蛋白(tobacco pathogenesis related protein)(PR-S)信號序列(SEQ ID NO161)(Siimons等人，1990，Bio/technology，8217-221)、凝集素信號序列(Boehn等人，2000，Transgenic Res.9(6)477-86)，來自菜豆(Phaseolus vulgaris)富羥脯氨酸的糖蛋白的信號序列(Yan等人，1997，Plant Phyiol，115(3)915-24和Corbin等人，1987，Mol Cell Biol 7(12)4337-44)、馬鈴薯patatin信號序列(Iturriaga，G等人，1989，Plant Cell 1381-390和Bevan等人，1986，Nuc.AcidsRes.414625-4638)以及大麥α-淀粉酶信號序列(Rasmussen和Johansson，1992，Plant Mol.Biol.18(2)423-7)。此種靶向信號可在體內(nèi)從胰島素序列中裂解，典型地例如使用質(zhì)外體靶向信號，如煙草發(fā)病相關蛋白-S(PR-S)信號序列(Sijmons等人，1990，Bio/technology，8217-221)的情況。其它信號肽可以使用SignalP萬維網(wǎng)服務器預計(http//www.cbs.dtu.dk/services/SignalP)，其預計不同生物體的氨基酸序列中信號肽裂解位點的存在和位置。一般而言，一級氨基酸序列極少有保守，不過，一般生理化學性質(zhì)保守到某些程度。信號肽的概括結構有3區(qū)，短氨基末端“n區(qū)”，含帶正電荷殘基，中央疏水性“h區(qū)”大小范圍在7至15個氨基酸，和羧基末端“C區(qū)”，含極性氨基酸，以及由膜結合信號肽酶可識別的裂解位點(Nakai K.，2000，Advances in Protein Chem 54277-344)?？梢杂糜诒景l(fā)明的靶向信號包括天然胰島素信號序列(以人序列而言，長度為24個氨基酸)。在優(yōu)選實施方案中，位于N末端的質(zhì)外體靶向序列，如上述煙草PR-S序列，與位于C末端的ER保留序列，如KDEL序列組合使用。
在另一優(yōu)選實施方案中，編碼酵母α-因子前導序列的核酸序列與編碼胰島素的核酸序列的N末端連接?？梢杂糜诒景l(fā)明的酵母前導序列或從酵母前導序列衍生的序列包括SEQ ID NO162至SEQ IDNO171所列序列(Kjeldsen等人，2001，Biotechnology and GeneticEngineering Reviews 1889-121)。這種前導序列可以還包括位于編碼前導序列的核酸C末端和編碼胰島素的序列N-末端的間隔肽(spacerpeptide)。按照本文，所述間隔序列典型長度在2和20個氨基酸之間。因此，例如可使用間隔序列的SEQ ID NO172和SEQ ID NO173(Kjeldsen等人，2001，Biotechnology and Genetic EngineeringReviews 1889-121)。在本發(fā)明使用酵母前導序列的實施方案中，核酸序列編碼的胰島素多肽優(yōu)選是微型胰島素多肽。按照本文，在特別優(yōu)選的實施方案中，使用與編碼酵母分泌前導肽的核酸序列連接的、編碼單鏈抗體的核酸序列，詳述于實施例1。
嵌合核酸序列亦可包括造成N-和/或C-末端穩(wěn)定蛋白質(zhì)伸展的多肽。此種伸展可用來穩(wěn)定和/或有助于胰島素多肽鏈的折疊并另外可用于幫助純化胰島素。在這方面可用的多肽伸展包括例如編碼單鏈抗體的核酸序列、編碼Affibody分子(Affibody AB)的核酸、編碼霍亂毒素的無毒性B亞基(CTB)的核酸序列(Arakawa，T.等人，1998，Nat.Biotechnol，16938)或這些多肽的組合。在特別優(yōu)選的實施方案中，通過使用例如上述KDEL序列，結合使用與允許胰島素多肽與油體結合的穩(wěn)定多肽，當發(fā)生植物細胞的完整性斷裂時，例如當從植物細胞回收胰島素多肽時，胰島素多肽可被保持于膜包圍的區(qū)室內(nèi)，如ER內(nèi)。此種穩(wěn)定多肽的例子為單鏈抗體，其具有油體特異性。編碼具有油體特異性的單鏈抗體的核酸序列可以從表達針對油體蛋白質(zhì)的單克隆抗體的雜交瘤細胞系制備。在一個實施方案中，單鏈抗體特異性結合油質(zhì)蛋白，如Alting-Mees等，(2000)IBC’s InternationalConference on Antibody Engineering，Poster#1。本發(fā)明的這個實施方案詳見實施例1所述。
在又一實施方案中，裂解位點可位于胰島素的N末端上游和C末端下游，使胰島素多肽可從融合配偶體(partner)中裂解，而得分離的胰島素。如此裂解位點的例子可見于WO98/49326(Method for thecleavage of fusion proteins)和相關申請以及l(fā)avallie等人(1994)Enzymatic and chemical cleavage of fusion proteins In Current Protocolsin Molecular Biology，16.4.5-16.4.17頁，John Wiley & Sons，Inc.，NewYork NY。在優(yōu)選的實施方案中，裂解位點是四元接頭(例如Arg-Arg-Lys-Arg-SEQ ID NO149)，其被胰蛋白酶裂解。在另一優(yōu)選實施方案中，裂解位點為KLIP 8(SEQ ID NO174)，其被包括凝乳酶的天冬氨酸蛋白酶裂解。
本發(fā)明又提供了從宿主細胞組分中分離異源蛋白質(zhì)的方法，通過將油體級分分配，隨后經(jīng)由異源蛋白質(zhì)-油體蛋白質(zhì)融合體的特異性裂解，釋放出異源蛋白質(zhì)。任選裂解位點可位于異源多肽的N末瑞上游和C末端下游，使融合多肽裂解，并可利用相分離分離為其組分肽。
通過優(yōu)化核酸序列使其使用選擇用來表達胰島素多肽的特定植物細胞類型的優(yōu)選密碼子使用，或通過改變已知的去穩(wěn)定mRNA的基序可以改變編碼胰島素的核酸序列，以進一步改良表達水平(例如參見PCT專利申請97/02352)。把編碼胰島素多肽的核酸序列的密碼子使用與植物細胞類型的密碼子使用加以比較，得以識別可以被改變的密碼子。通過改變密碼子使用以構建合成基因見例如PCT專利申請93/07278所述。
在優(yōu)選實施方案中，使用的編碼胰島素的核酸序列如SEQ IDNO1、SEQ ID NO3、SEQ ID NO5或SEQ ID NO195號所示。
按照本文，編碼胰島素的核酸序列連接于能夠在植物種子細胞內(nèi)控制胰島素多肽表達的啟動子。因此，本發(fā)明亦提供了連接于能夠在植物種子細胞內(nèi)控制表達的啟動子的、編碼胰島素的核酸序列。在此可用的啟動子為本領域已知，包括能夠控制多肽在植物內(nèi)表達的、任何植物衍生的啟動子。一般而言，按照本文選用雙子葉植物時，可用從雙子葉植物物種所得的啟動子，而選用單子葉植物物種時，可用單子葉植物啟動子?？捎玫慕M成型啟動子包括例如35S花椰菜花葉病毒(CaMV)啟動子(Rothstein等人，1987，Gene 53153-161)、稻肌動蛋白啟動子(McElroy等人，1990，Plant Cell 2163-171；美國專利6,429,357)、遍在蛋白啟動子，如玉米遍在蛋白啟動子(美國專利5,879,903；5,273,894號)，以及香芹遍在蛋白啟動子(Kawalleck，P.等人，1993，Plant Mol.Biol.21673-684)。
在優(yōu)選的實施方案中，所用啟動于是導致胰島素多肽在種子組織中優(yōu)先表達的啟動子。在此方面“種子偏好啟動子”是控制重組蛋白質(zhì)(即胰島素)表達的啟動子，故優(yōu)選成熟植物內(nèi)存在的重組蛋白質(zhì)總量的至少80％存在于種子內(nèi)。更優(yōu)選成熟植物內(nèi)存在的重組蛋白質(zhì)總量的至少90％存在于種子內(nèi)。最優(yōu)選成熟植物內(nèi)存在的重組蛋白質(zhì)總量的至少95％存在于種子內(nèi)。在此方面可用的種子偏好啟動子包括例如菜豆蛋白啟動子(Sengupta-Gopalan等人，1985，Proc.Natl.Acad.Sci.USA 823320-3324)芥18kDa油質(zhì)蛋白啟動子(美國專利5,792,922)或亞麻油質(zhì)蛋白啟動子(WO 01/16340)；亞麻豆球蛋白樣種子貯存蛋白(linin)啟動子(WO 01/16340)；亞麻2S貯存蛋白啟動子(WO 01/16340)；胚乳偏好啟動子，如Amy32b啟動子(Rogers &Milliman，J.Biol.Chem.，1984，25912234-12240)、Amy6-4啟動子(Kursheed & Rogers，J.Biol.Chem.，1988，26318953-18960)或Aleurain啟動子(Whittier等人，1987，Nucleic Acids Res.，152515-2535)或豆arcelin啟動子(Jaeger GD等人，2002，Nat.Biotechnol.Dec；201265-8)。多種植物中可用的新啟動子持續(xù)被發(fā)現(xiàn)。許多植物啟動子的例子可見于Ohamuro等人(Biochem.of Plnts.，1989，151-82)。
在此可用某些能夠增強胰島素多肽表達的遺傳元件。這些元件包括來自某些病毒的非翻譯前導序列，如AMV前導序列(Jobling andGehrke，1987，Nature，325622-625)以及與玉米遍在蛋白啟動子相關的內(nèi)含子(美國專利5,504,200)。一般而言，可制備嵌合核酸序列，以便能夠增強表達的遺傳元件可位于編碼胰島素多肽的核酸序列的5’處。
按照本發(fā)明，包括能夠在植物種子內(nèi)控制表達的啟動子的核酸序列連接于編碼胰島素多肽的核酸序列，其可整合于重組表達載體內(nèi)，確保在種子細胞內(nèi)的良好表達。因此，本發(fā)明包含重組表達載體，其在轉(zhuǎn)錄的5’至3’方向包括下列可操縱連接的組分(i)能夠在植物種子細胞內(nèi)控制表達的核酸序列；和(ii)編碼胰島素多肽的核酸序列；其中表達載體適于在種子細胞內(nèi)表達。術語“適于在種子細胞內(nèi)表達”指重組表達載體包括本發(fā)明的嵌合核酸序列，其連接到實現(xiàn)在種子細胞內(nèi)表達所需的遺傳元件。在此方面，表達載體內(nèi)可包含的遺傳元件包括轉(zhuǎn)錄終止區(qū)、一或多個編碼標志基因的核酸序列、一或多個復制起點等。在優(yōu)選實施方案中，表達載體又包括把載體或其一部分整合入植物細胞核基因組內(nèi)所需的遺傳元件，例如T-DNA左和右邊界序列，其在本發(fā)明的使用土壤桿菌(Agrobacterium)轉(zhuǎn)化植物細胞的實施方案中，促進整合進植物核基因組內(nèi)。
如前述，重組表達載體一般包括轉(zhuǎn)錄終止子，其除了用做轉(zhuǎn)錄終止信號外，又可做為能夠延長mRNA半衰期的保護元件(Guarneros等人，1982，Proc.Natl.Acad.Sci.USA，79238-242)。轉(zhuǎn)錄終止子一般從約200個核苷酸到約1000個核苷酸，并制備表達載體，以便轉(zhuǎn)錄終止子位于編碼胰島素的核酸序列的3’處。于此可用的終止序列包括例如胭脂氨酸終止區(qū)(Bevan等人，1983，Nucl.Acids.Res.11369-385)、菜豆蛋白終止子(van der Geest等人，1994，Plant J.6413-423)、arcelin終止子(Jaeger GD等人，2002，Nat.Biotechnol.Dec；201265-8)、根癌農(nóng)桿菌(Agrobacterium tumefaciens)的章魚堿合酶基因的終止子或其它類似的功能元件。轉(zhuǎn)錄終止子可按An所述獲得(An，1987，Methods in Enzym.153292)。
按照本發(fā)明，表達載體還可含有標記基因。本發(fā)明可用的標記基因包括可分辨轉(zhuǎn)化細胞與非轉(zhuǎn)化細胞的所有基因，包括所有可選擇和可篩選標記基因。標記基因可為抗性標記，如抗生素抗性標記，例如抗卡那霉素(美國專利6,174,724)、氨芐青霉素、G418、博來霉素、潮霉素，其使得可以利用化學手段或針對化學劑，如通常植物毒性甘露糖的耐受性標記(Negrotto等人，2000，Plant cell Rep.19798-803)選擇特性。于此可用的其它方便標記包括能夠輸送抗除草劑如草甘膦(glyphosate)(美國專利4,940,935；5,188,642)、草銨膦(phosphinothricin)(美國專利5,879,903)或磺?；?美國專利5,633,437)的抗性的標記?？剐詷擞洰斶B接于編碼胰島素多肽的核酸序列附近時，可用來維持對尚未失去編碼胰島素多肽的核酸序列的植物細胞或植物群的選擇壓力?？捎脕硗ㄟ^目測檢查鑒定轉(zhuǎn)化體的可篩選標記包括β-葡糖醛酸酶(GUS)(美國專利5,268,463和5,599,670)以及綠色螢光蛋白(GFP)(Niedz等人，1995，Plant Cell Rep.，14403)。
適合把核酸序列導入植物內(nèi)的重組載體包括基于土壤桿菌屬和根瘤菌屬(Rhizobium)的載體，如Ti和Ri質(zhì)粒，包括例如pBIN19(Bevan，Nucl.Acid.Res.，1984，228711-8721)、pGKB5(Bouchez等人，1993，C R Acad.Sci.Paris，Life Sciences，3161188-1193)、pCGN系列雙元載體(McBride和Summerfelt，1990，PlantMol.Biol.14269-276)以及其它雙元載體(例如美國專利4,940,838)。
本發(fā)明的重組表達載體、核酸序列和嵌合核酸序列可按照分子生物學領域技術人員熟知的方法學制備。這些制法典型地涉及大腸桿菌(Escherichia coli)菌種以及中間克隆宿主。大腸桿菌載體和植物轉(zhuǎn)化載體的制備可用通常已知技術完成，如限制消化、連接、凝膠電泳、DNA測序、聚合酶鏈反應(PCR)及其它方法學。這些方法學允許連接本發(fā)明涉及的核酸序列和多肽。有多種克隆載體可進行制備重組表達載體所需的必要步驟。在大腸棹菌內(nèi)具有復制系統(tǒng)功能的載體當中，有如pBR322載體、pUC系列載體、M13mp系列載體、pBluescript等。典型地，這些克隆載體含有標記，以便選擇轉(zhuǎn)化細胞。核酸序列可導入這些載體內(nèi)，而載體可導入在適當培養(yǎng)基內(nèi)生長的大腸桿菌內(nèi)。重組表達載體在收獲和裂解細胞時，可容易地從細胞回收。再者，關于重組載體制備的一般指導可例如參見Sambrook等人，MolecularCloning，a Laboratory Manual，Cold Spring Harbor Press，1989，第3卷。
制備包括能夠表達胰島素的種子的植物按照本發(fā)明，嵌合核酸序列被導入植物細胞內(nèi)，而細胞成長為可結種子的成熟植物，其中種子表達胰島素多肽。
依此，可選擇任何植物物種或植物細胞。于此使用的特殊細胞包括從擬南芥、巴西堅果(Betholettia excelsa)、蓖麻子(Riccinuscommunis)、椰子(Cocus nucifera)、胡荽(Coriandrum sativum)、棉花(Gossypium spp.)、落花生(Arachis Hypogaea)、加州希蒙得木(Simmondsia chinensis)、亞麻子/亞麻(Linum usitatissimum)、玉米(Zeamays)、芥菜(Brassica spp.和Sinapis alba)、油椰子(Elaeis guineeis)、橄欖(olea eurpaea)、油菜籽(Brassica spp.)、稻(Oryza sativa)、紅花(Carthamus tinctorius)、大豆(Glycine max)、南瓜(Cucurbita maxima)、大麥(Hordeum vulgare)、小麥(Traeticum aestivum)和向日葵(Helianthusannuus)獲得的細胞。
根據(jù)本文優(yōu)選的實施方案，使用得自含油種子植物的植物物種或植物細胞。此處可用的含油種子植物包括花生(Arachis hypogaea)、芥菜(Brassica spp.和Sinapis alba)、油菜籽(Brassica spp.)、鷹嘴豆(Cicerarietinum)、大豆(Glycine max)、棉花(Gossypium hirsutum)、向日葵(Helianthus annuus)、(Lentil Lens culinaris)、亞麻子/亞麻(Linumusitatissimum)、白三葉草(Trifolium repens)、橄欖(olea eurpaea)、油椰子(Elaeis guineeis)、紅花(Carthamus tinctorius)和narbon豆(narbonbean)(Vicia narbonensis)。
根據(jù)本文一個特別優(yōu)選的實施方案，使用紅花、擬南芥或亞麻。
把植物重組表達載體導入植物細胞內(nèi)的方法學，在此也稱為“轉(zhuǎn)化”，為本領域熟知，典型地根據(jù)選擇的植物細胞而變化。把重組表達載體導入細胞內(nèi)的一般技術包括電穿孔、化學介導的技術，例如CaCl2介導的核酸攝取顆粒撞擊(biolistics)；使用天然感染核酸序列，例如病毒衍生的核酸序列，或土壤桿菌屬或根瘤菌屬衍生序列、聚乙二醇(PEG)介導的核酸攝取，微注射以及使用碳化硅晶須。
在優(yōu)選實施方案中，選用轉(zhuǎn)化方法，其使嵌合核酸序列整合入植物細胞基因組內(nèi)，且優(yōu)選植物細胞核基因組。依此，這視為特別希望的，因為使用此方法將在有性生殖時得以把嵌合核酸序列轉(zhuǎn)移給子代植物。在此方面可用的轉(zhuǎn)化方法包括顆粒撞擊和土壤桿菌介導的方法。
雙子葉植物物種的轉(zhuǎn)化方法是熟知的。一般而言，使用土壤桿菌介導的轉(zhuǎn)化，因其效率高而且即使不是全部，也是許多雙子葉植物物種通常有易感性。土壤桿菌轉(zhuǎn)化一般涉及轉(zhuǎn)移雙元載體，如上述雙元載體之一，其包括將本發(fā)明的嵌合核酸序列從大腸桿菌轉(zhuǎn)移到適當?shù)耐寥罈U菌菌株(例如EHA101和LBA4404)，通過例如利用攜帶重組雙元載體的大腸桿菌菌株以及攜帶能夠動用雙元載體至靶土壤桿菌菌株的輔助質(zhì)粒的大腸桿菌菌株的三親交配，或通過土壤桿菌菌株的DNA轉(zhuǎn)化(Hofgen等人，Nucl.Acids Res.，1988，169877)進行。可用來轉(zhuǎn)化雙子葉植物細胞的其它技術包括顆粒撞擊(Sanford，1988，Trends in Biotechn.，6299-302)；電穿孔(Fromm等人，1985，Proc.Natl.Acad.Sci.USA.，825824-5828)；PEG介導的DNA攝取(Potrykus等人，1985，Mol.Gen.Genetics，199169-177)；微注射(Reich等人，Bio/Techn.，1986，41001-1004)；以及碳化硅晶須(Kaeppler等人，1990，Plant Cell Rep.，9415-418)或使用例如浸汲法(flower dippingmethodology)的植物體內(nèi)(in planta)轉(zhuǎn)化(Clough和Bent，1998，Plant J.，16735-743)。
單子葉植物物種可用多種方法轉(zhuǎn)化，包括顆粒撞擊(Christou等人，1991，Biotechn.9957-962Weeks等人，Plant Physiol.，1993，1021077-1084；Gordon-Kamm等人，Plant Cell，1990，25603-618)PEG介導的DNA攝取(歐洲專利0292435和0392225)或土壤桿菌介導的轉(zhuǎn)化(Goto-Fumiyuki等人，1999，Nature-Biotech，17282-286)。
根據(jù)選作轉(zhuǎn)化細胞靶的植物物種和植物細胞類型(例如幼苗衍生細胞類型，如下胚軸和子葉或胚組織)，可以稍微變化確切的植物轉(zhuǎn)化方法。上述特別優(yōu)選的實施方案中，使用紅花、擬南芥或亞麻。獲得紅花轉(zhuǎn)化體的方法可見Baker和Dyer(Plant Cell Rep.，1996，16106-110)。其它植物物種特異轉(zhuǎn)化方案可見于Biotechnology inAgriculture and Forestry 46Transgenic Crops I(Y.P.S.Bajaj編)，Springer-Verlag，New York(1999)，Biotechnology in Agriculture andForestry 47Transgenic Crops II(Y.P.S.Bajaj編)，Springer-Verlag，NewYork(2001)。
轉(zhuǎn)化后，植物細胞成長，出現(xiàn)分化組織，如芽和根，再生成熟植物。典型地再生多個植物。植物再生方法一般是植物物種和細胞類型依賴性的，本領域技術人員已知。有關植物組織培養(yǎng)的進一步指導可參見例如Plant Cell and Tissue Culture，1994，Vasil和Thorpe編，Kluwer Academic Publishers；以及Plant Cell Culture Protocols(Methodsin Molecular Biology 111)，1999，Hall編，Humana Press。
一方面，本發(fā)明提供了包括胰島素的植物種子的回收方法。因此，本發(fā)明提供了包括胰島素的植物種子的獲得方法，包括(a)提供嵌合核酸構建體，在轉(zhuǎn)錄的5’至3’方向包括下列可操縱連接的組分(i)能夠在植物種子細胞內(nèi)控制表達的核酸序列；和(ii)編碼胰島素多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞內(nèi)；(c)令植物細胞成長為能夠結種子的成熟植物；和
(d)從該植物取得種子，其中種子包括胰島素。
在優(yōu)選的實施方案中，多個轉(zhuǎn)化植物被獲得、生長、篩選所需嵌合核酸序列存在，可利用例如在使用除草劑抗性標記的選擇性培養(yǎng)基上生長，通過將除草劑直接施于植物，或利用Southern印跡測試推定的轉(zhuǎn)化體的存在。如果檢測到嵌合核酸序列的存在，可選擇轉(zhuǎn)化植物以產(chǎn)生子代和最終的成熟植物，其包括多個種子，種子包含所需的嵌合核酸序列。這些種子可用來分離胰島素，或經(jīng)種植以產(chǎn)生二代或更多后代。一般需將多個轉(zhuǎn)基因種子種植以獲得轉(zhuǎn)基因植物群，每個均包括含有編碼胰島素的嵌合核酸序列的種子。此外，一般需確保植物的純合性，以確保重組多肽的連續(xù)遺傳。純合植物的選擇方法為本領域技術人員所熟知?？捎玫募兒现参铽@得方法包括制備和轉(zhuǎn)化單倍體細胞或組織，接著再生單倍體幼苗，隨后例如以秋水仙堿(colchine)或其它微管破壞劑處理，轉(zhuǎn)變成二倍體植物。植物可依其它常規(guī)農(nóng)業(yè)慣例成長。
另一方面，本發(fā)明亦提供了能夠結表達胰島素的種子的植物。在本發(fā)明優(yōu)選的實施方案中，能夠結種子的植物包括嵌合核酸序列，其在5’至3’轉(zhuǎn)錄方向包括(a)能夠在植物種子細胞內(nèi)控制表達的第一核酸序列，其可操縱地連接于；(b)編碼胰島素多肽的第二核酸序列，其中種子含有胰島素。
在優(yōu)選的實施方案中，嵌合核酸序列穩(wěn)定整合于植物核基因組。
又一方面，本發(fā)明提供了表達胰島素的植物種子。在本發(fā)明優(yōu)選的實施方案中，植物種子包括嵌合核酸序列，其在5’至3’轉(zhuǎn)錄方向包括(a)能夠在植物種子細胞內(nèi)控制表達的第一核酸序列，其可操縱地連接于；(b)編碼胰島素多肽的第二核酸序列。
按照本發(fā)明，所得種子內(nèi)優(yōu)選存在的總可溶性蛋白質(zhì)的至少0.1％為胰島素。在本發(fā)明又一優(yōu)選實施方案中，所得種子內(nèi)存在的總可溶性蛋白質(zhì)的至少0.2％、0.3％、0.5％或1.0％為胰島素。胰島素多肽可以存在于多種不同形式的種子細胞中，例如下胚軸和胚軸，包括在胚根和胚葉中，若為單子葉植物物種，包括谷類和玉米，用于胚乳組織內(nèi)。
從植物種子制備胰島素一旦已獲得植物種子，即可使用本領域已知的任何蛋白質(zhì)純化方法從種子中純化胰島素蛋白質(zhì)。因此，本發(fā)明提供了從植物種子純化胰島素的方法，其中所述方法包括(a)提供嵌合核酸構建體，其在5’至3’轉(zhuǎn)錄方向包括下列可操縱連接的組分(i)能夠在植物種子細胞內(nèi)控制表達的核酸序列；和(ii)編碼胰島素多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞內(nèi)；(c)令植物細胞成長為可結種子的成熟植物，其中種子表達胰島素；(d)獲得表達胰島素的種子；以及(e)從種子中純化所述胰島素。
植物種子可用任何粉碎方法研磨，將種子細胞膜和細胞壁實質(zhì)破壞。干法和濕法研磨條件均可用(美國專利3,971,856；Lawhon等人，1977，J.Am.oil Chem.Soc.，63533-534)。在此方面，適當?shù)难心ピO備包括膠體磨碎機、圓盤式磨碎機、IKA磨碎機、工業(yè)級勻漿器等。選用研磨設備依賴于種子類型和產(chǎn)量要求。固體種子污染物，如種子殼、纖維物質(zhì)、不溶性碳水化合物、蛋白質(zhì)及其它水不溶性污染物，可用例如基于大小排阻的方法，如過濾或基于重力的方法，如離心，從種子級分中除去。在優(yōu)選的實施方案中，避免使用油提取中常用的有機溶劑，如己烷，因為此類溶劑有損胰島素多肽。從種子可回收基本上純的胰島素，可用多種附加純化方法，如基于離心的技術；基于大小排阻的方法，包括例如膜超濾和交叉流動超濾(crossflowultrafiltration)；以及層析技術，包括例如離子交換層析、大小排阻層析、親和層析、高效液相層析(HPLC)、快速蛋白質(zhì)液相層析(FPLC)、疏水性相互作用層析等。一般而言，可用這些技術的組合獲得基本上純的胰島素。
在本發(fā)明特別優(yōu)選的實施方案中，通過將胰島素多肽和油體接觸而從種子污染物中分離胰島素多肽。這個方法被認為是特別有利的，因為其允許以特別有效和便宜的方式除去種子污染物，包括種子蛋白質(zhì)。如前所述，胰島素多肽和油體的接觸可以通過將胰島素多肽連接于油體蛋白質(zhì)或通過將胰島素多肽連接于對油體具有親和性的多肽如對油體具有親和性的單鏈抗體來實現(xiàn)。在前一個實施方案中，胰島素多肽被隔離在油體上的細胞內(nèi)，因此可以和油體共同純化。在后一個實施方案中，胰島素多肽在膜包圍的細胞內(nèi)區(qū)室中表達時，在粉碎過程中種子細胞破碎時其將和油體結合。分離油體的方法如美國專利5,650,554所述。
藥學胰島素制劑可由純化的胰島素制備，這種制劑可用來治療糖尿病。一般而言，純化的胰島素可與藥學可接受的載體或稀釋劑混合，其量足以對治療患者實施治療上有用的效果，而無不良副作用。為配制胰島素組合物，將胰島素重量級分以有效濃度溶解、懸浮、分散或其它方式混合于選用的載體或稀釋劑內(nèi)，以使治療狀況獲得改善。藥學胰島素制劑優(yōu)選配制為單次劑量施用。人胰島素用于腸胃外輸送的治療有效量是本領域熟知的。使用胰島素類似物或使用其它輸送模式時，其治療有效劑量可以備本領域技術人員使用已知測試方案或利用體內(nèi)或體外測試數(shù)據(jù)推斷，可容易地靠經(jīng)驗確定。然而，應理解濃度和劑量可按照減輕的病癥的嚴重性而變化。又應理解針對任何特定對象，特異的劑量方案可根據(jù)施用或監(jiān)督施用所述制劑的人員的個人判斷隨時間調(diào)整。
藥學溶液或懸浮液可包括例如無菌稀釋劑，例如水、乳糖、蔗糖、磷酸二鈣或羧甲基纖維素?？捎幂d體包括水、鹽水溶液、葡萄糖水溶液、甘油、乙二醇、乙醇等，由此形成溶液或懸浮液。如有需要，藥物組合物亦可含有無毒性輔助物質(zhì)，如潤濕劑；乳化劑；穩(wěn)定劑；抗微生物劑，如芐醇和甲基安息香酸酚酯(methyl parabens)；抗氧化劑，如抗壞血酸和亞硫酸氫鈉；螯合劑，如乙二胺四乙酸(EDTA)；pH緩沖劑，如乙酸鹽、檸檬酸鹽或磷酸鹽緩沖液；及其組合。
胰島素制品的最后制劑一般依賴于胰島素輸送模式而定。按照本發(fā)明制成的胰島素可以任何所需方式輸送；然而，胃腸外、口服、肺、口腔、鼻的輸送形式視為最可能使用的輸送模式。胃腸外制品可裝在安瓿(ampoule)、用完即棄的注射器、玻璃、塑料或其它適當材料制成的單劑量或多劑量的小瓶內(nèi)。
實施例提供下列實施例以供說明，而非限制。
實施例1制備表達為具有胰蛋白酶可裂解的前肽的微型胰島素(MI)融合蛋白的胰島素蛋白構建pSBS4404PRS-D9scFv-Klip27-MI-KDEL融合蛋白所研究的融合蛋白之一以煙草病原相關序列(PRS)開始(Sijmons等人，1990，Bio/technology，8217-221)開始，其作為信號肽以共翻譯方式將表達靶定于ER。緊接下游為編碼對擬南芥的18kDa油質(zhì)蛋白具有特異性親和性的單鏈Fv抗體(scFv)的序列，所述單鏈Fv抗體命名為D9scFv，接著是衍自酵母的TA57前肽的胰蛋白酶可裂解前肽(KLIP27)(Kjeldsen等人，2001，Biotechnology and GeneticEngineering Reviews 1889-121)。這隨后是微型胰島素(MI)，如Kjeldsen等人(2001)所述，在所述多肽的C末端添加了KDEL ER保留信號。
此質(zhì)粒的主鏈pSBS4055是基于植物雙元載體pPZP200，如Hajdukiewicz等人所述(Plant Molecular Biology，1994，25989-994)。代替所述多克隆位點，以香芹(Petroselinum crispum)的遍在蛋白啟動子/終止子驅(qū)動(Kawalleck等人，1993，Plant.Mol.Bio.，21673-684)、賦予宿主植物草銨膦抗性的pat基因(Wohlleben等人，1988，Gene 7025-37)插于左和右邊界序列之間。除此盒外，亞克隆了驅(qū)動PRS的菜豆(phaseolus vulgaris)的β-菜豆蛋白啟動子/終止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 801897-1901)。使用標準PCR(Horton等人，1989，Gene 7761-68)把具有所附SphI/HindIII限制內(nèi)切核酸酶位點的合成PRS-編碼序列融合于菜豆蛋白啟動子的3’端以產(chǎn)生pSBS4011。利用D9scFv cDNA克隆的PCR擴增產(chǎn)生SphI-D9scFv-XhoI，SwaI，HindIII插入序列(Sean Hemmingsen lab，未出版)，其具有引物1325(GCATGCTGACATTGTGATGACACAGTC)-SEQ ID NO175和引物1326(AAGCTTGCATTTAAATACTCGAGACTGTGAGAGTGGTGCCTTG)-SEQ ID NO176。此片段隨后在pSBS4011的SphI/HindIII位點的連接產(chǎn)生質(zhì)粒pSBS4055。
Klip27-MI序列是由四種部分重疊的寡核苷酸合成，其摻入了擬南芥密碼子使用，以提高在基于植物的表達系統(tǒng)中的有效翻譯的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)-SEQ ID NO177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)-SEQ ID NO178，在其互補20個核苷酸重疊處退火，延伸形成Klip27-MI融合物的5’端，同時對寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)-SEQ ID NO179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)-SEQ ID NO180進行相同處理形成3’端。在用Bsu36I限制消化后，將二半部分連接，產(chǎn)生完整的Klip27-MI編碼序列。此基因融合物的PCR使用引物1364(CTCGAGTCAACCAATTGATGACACTGAATC)-SEQ ID NO181和1334(AAGCTTCAAAGTTCATCCTTGTTGCAATAGTTCTCCAATTG)-SEQ ID NO182附著了5’XhoI限制內(nèi)切核酸酶裂解位點和3’KDEL DNA序列加上HindIII裂解位點，供隨后連接入XhoI/HindIII切口pSBS4055。結果是質(zhì)粒pSBS4404編碼PRS-D9scFv-Klip27-MI-KDEL融合蛋白的DNA序列置于是在菜豆蛋白啟動子/終止子的表達控制下雙元載體內(nèi)。菜豆蛋白啟動子在種子發(fā)育期間控制轉(zhuǎn)基因的時間特異性和組織特異性表達。4404胰島素融合蛋白(PRS-D9scFv-Klip27-MI-KDEL)的完整核酸序列(SEQ IDNO1)和氨基酸序列(SEQ ID NO2)示于圖1。
構建pSBS4405OLEO-Klip8-Klip27-MI融合蛋白所研究的第二融合蛋白以擬南芥的18kDa油質(zhì)蛋白開始，在框內(nèi)隨后是凝乳酶可裂解前肽(Klip8)-SEQ ID NO175。緊接下游是衍自酵母的TA57前肽的編碼胰蛋白酶可裂解前肽(Klip27)的序列，如上述(Kjeldsen等人，2001，Biotechnology and Genetic EngineeringReviews 1889-121)。此融合于上述微型胰島素(MI)(Kjeldsen等人，2001)。此融合蛋白的表達靶定在胚發(fā)育當中形成的初生(nascent)油體。
此質(zhì)粒的主鏈pSBS4055是基于植物雙元載體pPZP200，如Hajdukiewicz等人所述(Plant Molecular Biology，1994，25989-994)。代替所述多克隆位點，由香芹的遍在蛋白啟動子/終止子驅(qū)動(Kawalleck等人，1993，Plant.Mol.Bio.，21673-684)、賦予宿主植物草銨膦抗性的pat基因(Wohlleben等人，1988，Gene 7025-37)插入于左和右邊界序列之間。除此盒外，亞克隆了驅(qū)動芥18kDa油質(zhì)蛋白基因組序列Klip8融合的、菜豆β-菜豆蛋白啟動子/終止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 801897-1901)。使用標準PCR(Horton等人，1989，Gene 7761-68)把具有所附XhoI/HindIII限制內(nèi)切核酸酶位點的油質(zhì)蛋白基因Klip8序列融合于菜豆蛋白啟動子的3’端，生成pSBS4010。
Klip27-MI序列由四種部分重疊的寡核苷酸合成，其摻入了擬南芥密碼子使用，以提高基于植物的表達系統(tǒng)的有效翻譯的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)-SEQ ID NO177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)-SEQ ID NO178在其互補的20個核苷酸重疊處退火，并延伸形成Klip27-MI融合的5’端，對寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)-SEQ ID NO179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)-SEQID NO180進行相同處理形成3’端。用Bsu36I限制消化之后，將二半部分連接，形成全Klip27-MI編碼序列。此基因融合的PCR使用引物1364(CTCGAGTCAACCAATTGATGACACTGAATC)-SEQ IDNO181和1329(AAGCTTCAGTTGCAATAGTTC)-SEQ ID NO183分別附著了5’XhoI限制內(nèi)切核酸酶裂解位點和3’HindIII裂解位點，供隨后連接于XhoI/HindIII切口pSBS4010。結果為質(zhì)粒pSBS4405編碼油質(zhì)蛋白Klip8-Klip27-MI融合蛋白的DNA序列置于在菜豆蛋白啟動子/終止子的表達控制下的雙元載體內(nèi)。菜豆蛋白啟動子在種子發(fā)育期間控制轉(zhuǎn)基因的時間特異性和組織特異性表達。4405胰島素融合蛋白(OLEO-Klip8-Klip27-MI)的完整核酸序列SEQ ID NO3和氨基酸序列SEQ ID NO4如圖2所示。
構建pSBS4414PRS-MI-四元接頭-D9scfv-KDEL融合蛋白所研究另一融合蛋白以煙草病原相關序列(PRS)開始(Sijmons等人，1990，Bio/technology，8217-221)，其用做以共翻譯方式將表達靶定于ER的信號肽。緊接下游是編碼微型胰島素(MI)的序列，如Kjeldsen等人(2001)所述，除了微型C前肽區(qū)(AAK-SEQ ID NO146)用人胰島素的B(1-29)和A(1-21)鏈之間的間插B30蘇氨酸四元位點(B30T-RRKR)序列(SEQ ID NO149)序列取代。緊接著編碼第二個四元接頭的序列，接著是對擬南芥的18kDa油質(zhì)蛋白具有物種特異性親和性的單鏈Fv抗體(scFv)，稱為D9scFv。在多肽的C末端，添加了KDEL ER保留信號。
此質(zhì)粒主鏈pSBS4055是基于植物雙元載體pPZP200，如Hajdukiewicz等人所述(Plant Molecular Biology，1994，25989-994)。代替上述多克隆位點，由香芹的遍在蛋白啟動子/終止子驅(qū)動(Kawalleck等人，1993，Plant.Mol.Bio.，21673-684)、賦予宿主植物草銨膦抗性的pat基因(Wohlleben等人，1988，Gene 7025-37)插入于左和右邊界序列之間。除此盒外，亞克隆了驅(qū)動PRS、來自菜豆的β-菜豆蛋白啟動子/終止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 801897-1901)。使用標準PCR(Horton等人，1989，Gene 7761-68)把具有所附SphI/HindIII限制內(nèi)切核酸酶位點的合成PRS編碼序列融合于菜豆蛋白啟動子的3’端，產(chǎn)生pSBS4011。
Klip27-MI序列由四種部分重疊的寡核苷酸合成，其摻入了擬南芥密碼子使用，以提高基于植物的表達系統(tǒng)的有效翻譯的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)SEQ ID NO177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)SEQ ID NO178在其互補的20個核苷酸重疊處退火，并延伸形成Klip27-MI融合的5’端，對寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)SEQ ID NO179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)SEQID NO180進行相同處理，形成3’端。用Bsu36I限制消化后，將二半部分連接，生成全Klip27-MI編碼序列。此基因融合的PCR使用引物1363(GCATGCCCAACCAATTGATGACACTG)SEQ ID NO84和1334(AAGCTTCAAAGTTCATCCTTGTTGCAATAGTTCTCCAATTG)SEQ ID NO182附著5’SphI限制內(nèi)切核酸酶裂解位點和3’KDELDNA序列加上HindIII裂解位點，供隨后連接于SphI/HindIII切口pSBS4011。結果為質(zhì)粒pSBS4402編碼PRS-Klip27-MI-KDEL融合蛋白的DNA序列置于在菜豆蛋白啟動子/終止子表達控制下的雙元載體內(nèi)。菜豆蛋白啟動子在種子發(fā)育期間控制轉(zhuǎn)基因的時間特異性和組織特殊性表達。植物表達載體pSBS4402用做模板，在胰島素的B和A鏈間以及MI和D9 scfv間導入四元位點。
使用引物1515(GCATGCATGCCTTTGTTAATCAACATCTTTGTGG)SEQ ID NO185和1518(ACATTGTTCAACAATTCCTCTCTTTCTTCTAGTCTTAGGAGTGTAGAAAAATCC)SEQ ID NO186，使用pSBS4402為模板利用PCR將間插四元(B30T-RRKR)位點置于人胰島素的可信B(1-29)-和A(1-21)-鏈之間。所得124bp片段與引物1517(GCATAAGCTTCAAAGCTCATCCTTTGAGC)SEQ ID NO187組合使用，使用pSBS3400為模板。注意pSBS3400是含有具有HindIII限制位點的D9scFv-KDEL片段的質(zhì)粒。此PCR反應生成955bp產(chǎn)物，其把四元(RRKR)-D9Scfv-KDEL-HindIII導入到124bp SphI-MI片段。再將955bp片段連接和亞克隆于pGEM-T(Promega)，得pSBS3403。全部SphI-MI(具有B30T-RRKR修飾的C前肽)-RRKR-D9Scfv-KDEL-HindIII片段插入預切口(SphI/HindIII)pSBS4402內(nèi)，產(chǎn)生pSBS4414。4414胰島素融合蛋白(PRS-MI-四元接頭-D9Scfv-KDEL)的完整核酸序列SEQ ID NO5和氨基酸序列SEQ ID NO6如圖3所示。
具有pSBS4404、pSBS4405或pSBS4414的重組大腸桿菌和土壤桿菌屬的轉(zhuǎn)化和生長利用序列分析確認編碼融合蛋白的cDNA的完整性后，把質(zhì)粒pSBS4404、pSBS4405和pSBS4414轉(zhuǎn)化大腸桿菌菌株DH5α，得以高水平表達。分離的質(zhì)粒DNA(100ng)在冰上與100μl的DH5α感受態(tài)細胞混合20分鐘。細胞再于42℃熱擊45秒，回到冰上2分鐘。然后加1毫升SOC培養(yǎng)基，細胞在LB壯觀霉素(10g/L胰胨、5g/L酵母提取物、5g/L NaCl、15g/L瓊脂)平板上將轉(zhuǎn)化細胞鋪板前將細胞在37℃于225rpm的enviro搖床上溫育1小時，并在37℃溫育過夜。使用單一菌落接種5毫升LB-壯觀霉素液體培養(yǎng)基。這些培養(yǎng)物在37℃成長過夜。按照QIAprepSpin Miniprep Kit(Qiagen)從1毫升過夜培養(yǎng)物中分離重組質(zhì)粒。再用分離的質(zhì)粒通過電穿孔(25μF，2.5kV，200Ω)轉(zhuǎn)化感受態(tài)土壤桿菌菌株EH101(Hood等人，1986；J.Bacteriol.144732-743)。重組土壤桿菌屬鋪板在AB壯觀霉素/卡那霉素(20x AB鹽，2M葡萄糖，0.25mg/ml FeSO4·7H2O，1M MgSO4，1M CaCl2)上，使用單一菌落接種5毫升AB壯觀霉素/卡那霉素液體培養(yǎng)基。這些培養(yǎng)物在28℃生長過夜。再使用重組土壤桿菌屬通過浸汲法(Clough等人，1998，Plant J.，16735-743)轉(zhuǎn)化擬南芥。擬南芥栽培品種(C24)用于全部實驗。把種子種植在4英寸花瓶內(nèi)土壤混合物(三分之二Redi土、三分之一真珠巖，pH＝6.7)或由Lehle Seeds供應的擬南芥土壤混合物(真珠巖、蛭石、泥煤、綠土(terra-green)，pH＝5.5)的表面。容許幼苗成長至6-8葉的叢生(rosette)階段，直徑大約2.5cm?；ㄆ吭?℃的拱頂下放置4天冷處理，隨即移至24℃生長室，約150μE持續(xù)光照和相對濕度60-70％。植物每隔2-3天澆水，每星期以1％Peters 20-19-18施肥。各花瓶含5-6株植物。植物達到約2cm時，把第一次結實(bolt)剪斷，促使第二、第三結實的成長。剪斷第一次結實后4-5天，植物準備用土壤桿菌感染。把具有擬南芥植株的花瓶倒置以讓擬南芥植株被含有感興趣的植物轉(zhuǎn)化載體的過夜土壤桿菌培養(yǎng)物的重懸液500毫升感染20秒。重要的是土壤桿菌培養(yǎng)物含5％蔗糖和0.05％表面活性劑Silwet L-77(Lehle Seeds)?；ㄆ侩S后覆蓋透明塑料拱頂24小時以維持較高濕度。讓植物成長至成熟，收獲未轉(zhuǎn)化和已轉(zhuǎn)化的種子的混合物。為選擇轉(zhuǎn)基因品系，推定已轉(zhuǎn)化的種子以70％乙醇快洗滅菌，再用20％商用漂白劑洗15分鐘，然后以ddH2O洗至少4次。約1000粒滅菌種子與0.6％熔化的頂層瓊脂混合，均勻分布于含有0.3％蔗糖和80μM除草劑phosphionthricin(PPT)DL的半強度MS平板上(Murashige and Skoog，1962，Physiologia Plantarum 15473-497)。平板再置于24℃生長室內(nèi)，照明計劃為8小時暗、16小時亮。7-10天后，推定轉(zhuǎn)基因幼苗已成綠色并生長，而未轉(zhuǎn)化幼苗蒼白。生根后，推定轉(zhuǎn)基因幼苗分別轉(zhuǎn)移到花瓶(各個植物每隔三天澆水，每隔七天以1％Peter 20-19-18施肥)，讓其成長成熟?；ㄆ扛采w透明塑料拱頂三天，以保護敏感性幼苗。七天后，幼苗用Lehle Seeds的種子收集器系統(tǒng)覆蓋，以防止種子因散布而損失。個別收獲這些轉(zhuǎn)基因植物的種子，預備分析之用。
實施例2
胰島素在擬南芥內(nèi)的表達水平在第二實施例中，在轉(zhuǎn)基因擬南芥成熟種子中確定融合蛋白D9scfv-KLIP27-MI-KDEL(4404)、OLEO-KLIP8-KLIP27-MI(4405)和PRS-MI-RRKR-D9Scfv-KDEL(4414)的表達水平。轉(zhuǎn)基因產(chǎn)物示出存在于成熟種子的細胞提取物內(nèi)。大約40顆轉(zhuǎn)基因擬南芥種子以研缽和研杵在50μl的50mM Tris-HCl pH8.0中加以研磨。于漿液中加還原SDS-PAGE樣品緩沖液(6×SDS樣品緩沖液，0.35M Tris-HClpH6.8，30％甘油，10％SDS，0.012％溴酚藍，5％β-硫基乙醇)，短暫渦旋混合。再將樣品短暫離心，在99℃放置10分鐘。在冰上冷卻2分鐘后，把樣品短暫離心。在還原條件下加樣(10μl，相當于大約七顆種子)。
對于制備油體樣品，取轉(zhuǎn)基因和野生型種子(20mg)在250μl油體提取緩沖液(0.4M蔗糖，0.5M NaCl，50mM Tris-HCl pH8.0)內(nèi)研磨。樣品在10000g微離心10分鐘。用26G 5/8的1毫升注射器除去水溶性級分，脂肪墊(fat pad)重懸于補充鹽(20mM Na2HP4，pH8.0，0.5MNaCl)的100μl的磷酸鹽緩沖液內(nèi)。重懸的脂肪墊移至清潔離心管，再于10000g離心10分鐘。再重復此程序三次，脂肪墊的最后重懸于100μl無鹽的磷酸鹽緩沖液(20mM Na2HPO4pH8.0)。在無鹽磷酸鹽緩沖液進行另二次洗滌，中間離心步驟按上述。最后的脂肪沉淀重懸于10μl的磷酸鹽緩沖液(20mM Na2HPO4pH8.0)內(nèi)。取出5μl份量，在1/10(v/v)50mM Tris-HCl pH8.0加2％SDS內(nèi)煮沸，將油體蛋白溶解。樣品在冰上冷卻2分鐘，在10000g離心5分鐘。底層的蛋白質(zhì)含量以BCA蛋白質(zhì)分析測定(Pierce，Rockford，IL)。對于考馬斯染色凝膠和蛋白質(zhì)印跡分析，使用SDS-PAGE樣品緩沖液，在還原條件下于15％SDS-PAGE凝膠上分離20μg總蛋白。
樣品加樣于不連續(xù)的15％SDS-PAGE凝膠，在150伏特分離約1.5小時。凝膠再經(jīng)考馬斯染色或印跡到PVDF膜(Immobilon-P，Millipore公司，Bedford，MA)以供蛋白質(zhì)印跡分析。印跡樣品用購自Abcam(Cambridge，UK)的針對胰島素的單克隆抗體探查(CloneE2-E3Roth等人，1992)。胰島素帶使用二級山羊X鼠IgG F(ab’)2AP綴合物檢測(Chemicon International，Temecula，CA)并使用NBT-BCIP在GARAP緩沖液(Tris-HCl pH9.5，100mM NaCl，5mM MgCl2)內(nèi)顯色。免疫反應性帶相應于多肽帶，以融合蛋白的預計分子量遷移，如圖4A-4F所示。圖4(A-F)示出胰島素融合蛋白在轉(zhuǎn)化的擬南芥系(4404-2、-17、-20，4405-4，4414-19和4414-20)內(nèi)的重組表達，根據(jù)考馬斯染色SDS-PAGE和蛋白質(zhì)印跡分析。箭頭分別指在還原條件下遷移的38.5kDa、34.2kDa和34.2kDa融合多肽、PRS-D9(scfv)-KLIP27-MIw/KDEL(4404)、OLEO-KLIP8-KLIP27-MI(4405)和PRS-MI-RRKR-D9Scfv-KDEL(4414)的位置。注意4414融合蛋白有預期的分子量34.2kDa，但在SDS-PAGE凝膠上具有較高的表觀分子量。圖4A(考馬斯染色凝膠)和4B(相應于抗胰島素E2E3探查的蛋白質(zhì)印跡)示出野生型(wt)的總種子蛋白以及表達4404和4405構建體的轉(zhuǎn)基因種子系。圖4C(考馬斯染色凝膠)和4D(相應于抗胰島素E2E3探查的蛋白質(zhì)印跡)示出由野生型制備的油體蛋白以及表達同樣4404和4405構建體的轉(zhuǎn)基因種子。圖4D(考馬斯染色凝膠)和4E(相應于抗胰島素E2E3探查的蛋白質(zhì)印跡)示出由野生型制備的油體蛋白以及表達同樣4414構建體的轉(zhuǎn)基因種子。分子量標記(M)為10、15、20、25、37、50、75、100、150、250kDa。對照包括hIN(重組人胰島素標準)和hProIN(重組人胰島素原標準)，在非還原條件下分離。表達水平的不同是轉(zhuǎn)化體當中克隆變異的結果。轉(zhuǎn)基因和MI表達的大約蛋白水平示于圖5。表達水平使用18kDa油質(zhì)蛋白帶做為內(nèi)標準(相當于1.5％總種子蛋白)利用轉(zhuǎn)基因帶的光密度測定法測定。PRS-D9(scfv)-KLIP27-MIw/KDEL(4404)、OLEO-KLIP8-KLIP27-MI(4405)和PRS-MI-RRKR-D9Scfv-KDEL(4414)構建體的平均表達水平分別為0.21％總種子蛋白、0.12％總種子蛋白和0.79％總種子蛋白。
實施倒3pSBS4404的裂解和HPLC純化從油體洗脫在第3實施例中，取1克轉(zhuǎn)基因種子在12毫升提取緩沖液(0.4M蔗糖，0.5M NaCl，50mM Tris-HCl pH8.0)內(nèi)勻漿，并以10000g離心10分鐘，除去脂肪墊，置于1毫升20mM Na2HPO4、0.5M NaCl內(nèi)，按上述再離心。重復二次，然后洗滌，把脂肪墊在750μl 20mMNa2HPO4內(nèi)離心二次。通過在750μl 20mM甲酸pH4.1內(nèi)洗滌最后的脂肪墊5次，每次洗滌之間在10000g離心，從油體洗脫4404融合蛋白進入下層液內(nèi)。收集的洗脫級分(下層液)合并(pooled)，并以2NNaOH中和至pH8.0。全部溶液然后置放在-80℃冷凍，冷凍干燥過夜以濃縮融合蛋白。冷凍干燥樣品重懸于500μl的50mM Tris-HClpH8.0。然后將重懸的4404融合蛋白在NAP-5柱(AmershamPharmacia Biotech Ab，Uppsala，Sweden)上脫鹽，再以緩沖液(50mM Tris-HCl pH8.0)再交換。脫鹽級分再度冷凍，冷凍干燥過夜加以濃縮。最后濃縮的樣品重懸于終體積105μl雙蒸餾H2O中。洗脫結果如圖6所示。圖6是考馬斯染色SDS-PAGE(15％)分析洗脫前的油體制備物(-OB)，用甲酸洗脫后的油體制備物(-OB’)以及濃縮的洗脫物質(zhì)(-E)。箭頭指示遷移的融合多肽的位置。野生型對照基本上在洗脫后無任何主要蛋白質(zhì)，而濃縮的4404物質(zhì)含有融合蛋白，若干截短產(chǎn)物(可能是水解的融合蛋白)以及可能有共同洗脫的若干白蛋白。
表達4404的芥種子的裂解和HPLC分析濃縮的樣品重懸于105μl的雙重蒸餾水內(nèi)，蛋白質(zhì)含量利用BCA蛋白質(zhì)分析按照廠商(Pierce，Rockford，IL，USA)測定。樣品再用胰蛋白酶裂解(胰蛋白酶∶總蛋白比1∶300，在50mM Tris-HClpH8.0內(nèi)，于冰上90分鐘)。以10倍摩爾過量的TLCK(N-對-甲苯磺酰基-L-賴氨酸氯甲基酮)終止反應。然后經(jīng)0.2μm濾器(Aerodisc13mm注射濾器，有0.2μm Supof膜，Pall公司，Ann Arbor，MI，USA)過濾全部反應物并使用C18柱(Zorbax 300SB-C18，AgilentTechnologies，Waldbronn，德國)以反相(RP)-HPLC分析。樣品加載于柱并使用在0.1％(v/v)TFA內(nèi)的5-50％(v/v)乙腈的19分鐘線性梯度以1.0ml/min洗脫。此分析所得的層析如圖7所示。曲線揭示了4404融合蛋白被胰蛋白酶裂解的產(chǎn)物，其在柱上與人胰島素標準具有幾乎相同的性質(zhì)(保留時間分別17.011分鐘和17.179分鐘)。從17.0-17.5分鐘收集HPLC級分并利用PSD MALDI/TOF質(zhì)譜分析法使用Voyager-DE STR質(zhì)譜儀(Applied Biosystems)分析。MS分析是利用NRC-Plant Biotechnology Institute，Saskatoon，Saskatchewan，Canada提供的BioAnalytical Spectroscopy services進行的。上述利用HPLC純化的裂解的4404產(chǎn)物的解析見圖8B，與圖8A所示人胰島素標準比較。用胰蛋白酶裂解的4404融合蛋白的觀察質(zhì)量為6191.51Da。人胰島素標準(圖8A)與裂解的4404產(chǎn)物(圖8B)間的差異相應于具有保留再裂解的產(chǎn)物A鏈上的KDEL信號的Des-B30胰島素(Des-B30胰島素-KDEL)。
實施例4pSBS4405的裂解和HPLC純化油體制備融合蛋白(OLEO-KLIP8-KLIP27-MI)可通過進行下述油體制備而被部分純化。大約取1克轉(zhuǎn)基因種子在12毫升提取緩沖液(0.4M蔗糖，0.5M NaCl，50mM Tris-HCl pH8.0)內(nèi)勻漿并以10000g離心10分鐘，除去脂肪墊，并置于1毫升的50mM Tris-HCl pH8.0，0.5M NaCl中，并按上述再離心。此重復二次，洗滌后，脂肪墊在750μl的50mMTris-HCl pH8.0內(nèi)離心兩次。油體制備除去大部分的背景蛋白質(zhì)。從表達4405構建體的轉(zhuǎn)基因芥種子所得油體制備的典型蛋白質(zhì)圖譜如圖9所示。
表達4405的芥種子的裂解和HPLC分析重懸油體的總蛋白含量是利用將一級分制備物(5μl)在2％SDS，50mM Tris-HCl pH8.0內(nèi)稀釋10倍，煮沸5分鐘，在10000g離心3分鐘加以溶解而評估。然后，蛋白含量是利用BCA蛋白質(zhì)分析按照廠商(Pierce，Rockford，IL，USA)測定。然后，樣品用胰蛋白酶(胰蛋白酶∶總蛋白質(zhì)比1∶300，在50mM Tris-HCl pH8.0，于冰上90分鐘)裂解，從融合蛋白釋出Klip27-MI片段。以10倍摩爾過量的TLCK(N-對-甲苯磺?；?L-賴氨酸氯甲基酮)終止反應。樣品以10000g離心10分鐘，全部反應的下層液經(jīng)0.2μm濾器(Aerodisc13mm注射濾器，有0.2μm Supof膜，Pall公司，Ann Arbor，MI，USA)過濾。圖9表示全部可提取種子蛋白和從表達4405的系制備的油體(OB)蛋白的考馬斯染色SDS-PAGE(15％)分析，與野生型(非重組)種子比較。箭頭指示遷移融合多肽的位置。下層液使用C18柱(Zorbax300SB-C18，Agilent Technologies，Waldbronn，德國)以反相(RP)-HPLC進一步分析。樣品加載于柱上，使用在0.1％(v/v)TFA內(nèi)的5-50％(v/v)乙腈的19-分鐘線性梯度以1.0ml/min洗脫。此分析所得層析見圖10。曲線揭示了4405融合蛋白的胰蛋白酶裂解的產(chǎn)物，其在柱上具有與人胰島素標準幾乎相同的性質(zhì)(保留時間分別為17.220分鐘和17.179分鐘)。從17.0-17.5分鐘收集HPLC級分，使用Voyager-DE STR質(zhì)譜儀(Applied Biosystems)利用PSD MALDI/TOF質(zhì)譜分析法分析。利用NRC-Plant Biotechnology Institute，Saskatoon，Saskatchewan，Canada提供的BioAnalytical Spectroscopy services進行MS分析。如圖11所示，用胰蛋白酶裂解的4405融合蛋白的觀察質(zhì)量為5706.30Da。人胰島素標準(圖8A)與裂解的4405產(chǎn)物(圖11)間的差異相應于Des-B30胰島素產(chǎn)物(Des-B30胰島素)。Des-B30胰島素為4405融合的正確胰蛋白酶成熟所預期的產(chǎn)物。
實施例5使用AKTA探查器(FPLC)純化胰蛋白酶裂解的MI從4405裂解MI的純化也是在AKTA探查器(explorer)(Amersham Pharmacia)上利用陰離子交換(Mono Q FF 1mL，AmershamPharmacia)通過加大規(guī)模的裂解反應部分純化。裂解反應是在4405油體上進行，如上述，其由達30克的轉(zhuǎn)基因種子制備。裂解反應的下層液經(jīng)0.2μm濾器過濾或利用冷凍干燥在Savant Speed Vac上濃縮。過濾的樣品反應可直接應用于柱，但濃縮樣品需除去鹽，才能有效結合柱。濃縮樣品可通過令裂解的物質(zhì)通過PD-10柱(AmershamPharmacia)、通過透析或稀釋到鹽濃度等于或低于5mS/cm而脫鹽。脫鹽樣品用20mM Tris-HCl pH6.5平衡。樣品可用0-40％NaCl，以1ml/min流速使用階梯梯度分離。檢測在214nm進行(在280nm檢測較差，因為胰島素內(nèi)芳香族氨基酸含量低)。A溶劑是20mM Tris-HClpH6.5，而B溶劑是20mM Tris-HCl pH6.5，1.0M NaCl。收集與Roche胰島素標準相同的導電性，再7-35mS/cm之間的洗脫級分(1ml)(參見圖12)。圖12表示胰蛋白酶裂解的4405油體制備物(虛線)與人胰島素標準(實線)相比較的層析圖譜。收集的級分利用HPLC、ELISA或蛋白質(zhì)印跡(數(shù)據(jù)未示出)證明胰島素的存在。所收集的樣品再利用冷凍干燥濃縮，用于實施例6所述的胰島素生物分析。
實施例6胰島素耐受試驗C57BI/6(B6)雄鼠中的生物分析進行生物分析，以確定來自胰蛋白酶裂解的4405的重組植物衍生物(Des-B30IN)的體內(nèi)作用，與人胰島素比較。B6小鼠體內(nèi)的葡萄糖血漿水平在胰島素標準、負對照和SBS胰島素腹膜內(nèi)注射之前和之后測定。從Jackson Laboratories(Bar Harbor，ME)購買約2月大的15只C57BI/6(B6)雄鼠。以自動血糖儀(glucometer)(One TouchUltra，Lifescan，Johnson & Johnson)測量血漿葡萄糖水平。正對照包括HumulinR(Eli Lilly)和酵母重組人胰島素標準，得自Roche。生理鹽水溶液用做安慰劑。包括的負對照代表從通過與重組4405胰蛋白酶裂解的油體制備物同樣處理的野生型(非組合)芥種子純化的胰蛋白酶裂解的油體。
B6鼠關在籠內(nèi)并隨意進食，12小時暗-光循環(huán)。對于胰島素耐受試驗，對鼠腹膜內(nèi)(IP)注射胰島素(1U/kg體重)，使用自動血糖計在0、15、30和60分鐘測量葡萄糖水平。所有胰島素耐受試驗均在每天的同樣時間(上午9:00)進行。進行胰島素耐受試驗時，在進行下一試驗之間間隔至少二天。胰島素耐受試驗結果示于圖13。從4405種子衍生的SBS DesB30胰島素(實體菱形)與Humulin R(空白方形)和Roche胰島素(空白三角形)標準在注射后的研究過程中行為幾乎相同(統(tǒng)計學上并無差異，p＜0.05)。所測試的全部胰島素與生理鹽水安慰劑(空白圓形)和胰蛋白酶裂解的野生型芥油體(實體圓形)(負對照)比較，顯著降低血漿葡萄糖水平(p＜0.05)。
實施例7pSBS4401PRS-Klip27-MI-融合蛋白的構建所研究的融合蛋白之一以煙草病原相關序列(PRS)開始(Sijmons等人，1990，Bio/technology，8217-221)，其以共翻譯方式用于將表達靶向ER的信號肽。緊接下游是衍生自酵母TA57前肽的胰蛋白酶可裂解的前肽(KLIP27)(Kjeldsen等人，2001，Biotechnology andGenetic Engineering Reviews 1889-121)。接著是Kjeldsen等人(2001)所述的微型胰島素(MI)。
此質(zhì)粒的主鏈pSBS4055基于Hajdukiewicz等人所述的植物雙元載體pPZP200(Plant Molecular Biology，1994，25989-994)。代替所述多克隆位點，以香芹的遍在蛋白啟動子/終止子驅(qū)動(Kawalleck等人，1993，Plant.Mol.Bio.，21673-684)、賦予宿主植物草銨膦抗性的pat基因(Wohlleben等人，1988，Gene 7025-37)插于左和右邊界序列之間。除此盒外，亞克隆了驅(qū)動PRS的菜豆的β-菜豆蛋白啟動子/終止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 801897-1901)。使用標準PCR(Horton等人，1989，Gene 7761-68)把具有所附SphI/HindIII限制內(nèi)切核酸酶位點的合成PRS-編碼序列融合于菜豆蛋白啟動子的3’端以產(chǎn)生pSBS4011。
Klip27-MI序列是由四種部分重疊的寡核苷酸合成，其摻入了擬南芥密碼子使用，以提高基于植物的表達系統(tǒng)的有效翻譯的成功。寡核苷酸1324(GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG)-SEQ ID NO177和1323(CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACA)-SEQ ID NO178，在其互補的20個核苷酸重疊處退火，并延伸形成Klip27-MI融合的5’端，對寡核苷酸1322(CTAAGGCTGCTAAGGGAATTG)-SEQ ID NO179和1321(AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTT)-SEQID NO180進行相同的處理以形成3’端。在用Bsu36I限制消化后，將二半部分連接，生成全Klip27-MI編碼序列。此基因融合的PCR使用引物1363(GCATGCCCAACCAATTGATGACACTG)-SEQ IDNO184和引物1329(AAGCTTCAGTTGCAATAGTTC)-SEQ ID NO183附著了5’SphI和3’HindIII限制內(nèi)切核酸酶裂解位點用于隨后連接至SphI/HindIII切口的pSBS4011(如上述)。結果為質(zhì)粒pSBS4401編碼PRS-Klip27-MI融合蛋白(SEQ ID NO189)的DNA序列(SEQ ID NO188)置于在萊豆蛋白啟動子/終止子的表達控制下的雙元載體內(nèi)。菜豆蛋白啟動子在種子發(fā)育期間控制轉(zhuǎn)基因的時間特異性和組織特殊性表達。
具有pSBS4401的重組大腸桿菌和土壤桿菌的轉(zhuǎn)化和生長利用序列分析確認編碼融合蛋白的cDNA完整性后，質(zhì)粒pSBS4401轉(zhuǎn)化大腸桿菌菌株DH5α，得以高水平表達。分離的質(zhì)粒DNA(100ng)在冰上與100μl的DH5α感受態(tài)細胞混合20分鐘。再將細胞于42℃熱擊45秒，回到冰上2分鐘。然后，添加1ml的SOC培養(yǎng)基，令細胞在225rpm的enviro搖床上于37℃溫育1小時，再將轉(zhuǎn)化細胞鋪板于LB壯觀霉素平板(10g/L胰胨、5g/L酵母提取物、5g/LNaCl、15g/L瓊脂)，并在37℃溫育過夜。使用單一菌落接種5毫升LB壯觀霉素液體培養(yǎng)基。這些培養(yǎng)物在37℃生長過夜。按照Qiagenmini prep從1毫升過夜培養(yǎng)物分離重組質(zhì)粒。分離的質(zhì)粒再用來通過電穿孔(25μF，2.5kV，200Ω)轉(zhuǎn)化感受態(tài)土壤桿菌菌株EH101(Hood等人，1986；J.Bacteriol.，144732-743)。重組土壤桿菌鋪板于AB壯觀霉素/卡那霉素(20x AB鹽，2M葡萄糖，0.25mg/ml FeSO4·7H2O，1M MgSO4，1M CaCl2)，使用單一菌落接種5毫升AB壯觀霉素/卡那霉素液體培養(yǎng)基。這些培養(yǎng)物在28℃生長過夜。再使用重組土壤桿菌通過如實施例1所述浸汲法(Clough等人，1998，Plant J.，16735-743)轉(zhuǎn)化擬南芥植物。
胰島素在擬南芥中的表達水平使用上述實施例2概括的方法，在轉(zhuǎn)基因擬南芥成熟種子內(nèi)測定融合蛋白KLIP27-MI(4401)的表達水平。在成熟種子的細胞提取物內(nèi)未見有轉(zhuǎn)基因產(chǎn)物存在。
實施例8構建pSBS4409OLEO-人胰島素原(OLEO-hPIN)融合蛋白此融合蛋白以擬南芥的18kDa油質(zhì)蛋白開始，在框內(nèi)隨后是編碼人胰島素原(hPIN)的基因。此融合蛋白的表達靶向在胚發(fā)育期間形成的初生油體。
此質(zhì)粒主鏈pSBS4008基于Hajdukiewicz等人所述植物雙元載體pPZP200(Plant Molecular Biology，1994，25989-994)。代替上述多克隆位點，以香芹的遍在蛋白啟動子/終止子驅(qū)動(Kawalleck等人，1993，Plant.Mol.Bio.，21673-684)、賦予宿主植物草銨膦抗性的pat基因(Wohlleben等人，1988，Gene 7025-37)插于左和右邊界序列之間。除此盒外，亞克隆了驅(qū)動芥18kDa油質(zhì)蛋白基因組序列的菜豆的β-菜豆蛋白啟動子/終止子(Slightom等人，1983，Proc.Natl.Acad.Sc.USA 801897-1901)。使用標準PCR(Horton等人，1989，Gene 7761-68)把具有附帶NcoI/HindIII限制內(nèi)切核酸酶位點的油質(zhì)蛋白基因序列(減去終止密碼子)融合于菜豆蛋白啟動子的3’端，生成pSBS4008。
NcoI-人前胰島素原基因-HindIII使用偏愛的植物密碼子使用通過Aptagen合成為單335bp。隨即連接于NcoI/HindIII切口pSBS4008，產(chǎn)生質(zhì)粒pSBS4400編碼油質(zhì)蛋白-人前胰島素原融合蛋白的DNA序列置于在菜豆蛋白啟動子/終止子表達控制下的雙元載體內(nèi)。pSBS4400質(zhì)粒用做模板，利用標準PCR產(chǎn)生人胰島素原(hPIN)，使用pfu DNA聚合酶，以及針對5’端(1457 oligoTTCGTGAACCAACACTTG-SEQ ID NO190)和包括載體現(xiàn)有胰島素原區(qū)域的HindIII位點的3’端(1458 oligoAAGCTTTCAGTTACAGTAGT-SEQ ID NO191)的引物。第二片段使用pfu DNA聚合酶擴增，使用針對可獲得的位于pSBS4400載體內(nèi)的芥油質(zhì)蛋白基因(oligo 1456 GGTAGTGTGCTGGCCA-SEQ ID NO193)的3’端的SphI位點(oligo 1455 GCATGC ATGTGTTGAGC-SEQID NO192)的引物。PCR之后，產(chǎn)物在瓊脂糖凝膠上分離，相當于267bp(hPIN-HindIII)和360bp(SphI-OLEO(3’端))片段的帶使用凝膠提取試劑盒(Qiagen)進行凝膠純化。利用第二回PCR擴增使用Taq DNA聚合酶和引物1455(SEQ ID NO192)和1458(SEQ ID NO193)組合0.001μM的重疊橋連PCR引物(oligo 1459GGTGGCCAGCACACTACCTTCGTGAACCAACACTTGTG-SEQ IDNO194)以58℃退火溫度進行二次循環(huán)，接著在52℃31次循環(huán)以擴增627bp SphI-OLEO(3’端)-hPIN-HindIII片段而融合上述兩個片段。再將627bp SphI-OLEO(3’端)-hPIN-HindIII片段連接到pGEMTEasy Vector SystemTM(Promega)的T/A突出端，并用來轉(zhuǎn)化DH5α細菌，得pSBS3409(pGEMT-SphI-OLEO(3’端)-hPIN-HindIII)。
pSBS3409的SphI/HindIII片段與pSBS4400的SphI/HindIII片段交換。對pSBS3409和pSBS4404的標準限制消化使用SphI/HindIII(New England Biolabs)進行。片段在1.5％瓊脂糖凝膠上分離并使用凝膠提取試劑盒(Qiagen)純化。從pSBS3409釋出的617bpSphI/HindIII片段再使用T4 DNA連接酶連接到預切口的pSBS4400(除去內(nèi)部SphI/HindIII片段)載體主鏈內(nèi)的SphI/HindIII接受位點，在15℃過夜。
結果是質(zhì)粒pSBS4409編碼油質(zhì)蛋白-hPIN融合蛋白(SEQ IDNO196)的DNA序列(SEQ ID NO195)置于在菜豆蛋白啟動子/終止子的表達控制下的雙元載體內(nèi)。菜豆蛋白啟動子在種子發(fā)育期間控制轉(zhuǎn)基因的時間特異性和組織特殊性表達。
具有pSBS4409的重組大腸桿菌和土壤桿菌的轉(zhuǎn)化和成長利用序列分析確認編碼融合蛋白的cDNA的完整性后，質(zhì)粒pSBS4409轉(zhuǎn)化大腸桿菌菌株DH5α，得以高水平表達。分離的質(zhì)粒DNA(100ng)在冰上與100μl的DH5α感受態(tài)細胞混合20分鐘。再將細胞于42℃熱擊45秒，回到冰上2分鐘。然后，添加1ml的SOC培養(yǎng)基，令細胞在225rpm的enviro搖床上于37℃溫育1小時，再將轉(zhuǎn)化細胞鋪板于LB壯觀霉素平板(10g/L胰胨、5g/L酵母提取物、5g/LNaCl、15g/L瓊脂)，并在37℃溫育過夜。使用單一菌落接種5毫升1B壯觀霉素液體培養(yǎng)基。這些培養(yǎng)物在37℃生長過夜。按照Qiagenmini prep從1毫升過夜培養(yǎng)物分離重組質(zhì)粒。分離質(zhì)粒再用來通過電穿孔(25μF，2.5kV，200Ω)轉(zhuǎn)化感受態(tài)土壤桿菌菌株EH101(Hood等人，1986J.Bacteriol.，144732-743)。重組土壤桿菌鋪板于AB壯觀霉素/卡那霉素(20x AB鹽，2M葡萄糖，0.25mg/ml FeSO4·7H2O，1M MgSO4，1M CaCl2)，使用單一菌落接種5毫升AB壯觀霉素/卡那霉素液體培養(yǎng)基。這些培養(yǎng)物在28℃生長過夜。再使用重組土壤桿菌通過如實施例1所述的浸汲法(Clough等人，1998，Plant J.，16735-743)轉(zhuǎn)化擬南芥植物。
胰島素在擬南芥中的表達水平使用上述實施例2概括的方法在轉(zhuǎn)基因擬南芥成熟種子內(nèi)測定融合蛋白OLEO-hPIN(4409)的表達水平。取自二個代表系(4409-6和4409-8)的油體蛋白質(zhì)的考馬斯染色凝膠比較了油質(zhì)蛋白-hPIN融合蛋白(如黑箭頭所示)與非轉(zhuǎn)化(wt)芥的遷移(圖14)。表達水平通過對平均大約0.10％總種子蛋白的測量的光密度測定法確定。這個水平如上計算并超過了同樣分子量的內(nèi)源蛋白在構成約0.04％總種子蛋白的非轉(zhuǎn)化種子(wt)中的共同遷移。
實施倒9轉(zhuǎn)化紅花此轉(zhuǎn)化方案類似Orlilcowska T.K.等人的綱要((1995)Plant Cell，Tissue and Organ Culture 4085-91)，但對轉(zhuǎn)化S-317和使用草銨膦做為可選擇標記有所修飾和改進。將取自S-317加州變種紅花的、無損、無破、無病害的種子去污染物，在0.1％ HCl2內(nèi)12分鐘，再用無菌蒸餾水洗4-5次。在具有1％蔗糖和0.25％ Gelrite的MS培養(yǎng)基(Murashige T.和skoog F(1962)Phsiol.Plant.15473-497)中在黑暗中使無菌種子發(fā)芽。先是把取自冷凍的甘油原液的土壤桿菌培養(yǎng)物放在具有抗生素選擇的5毫升AB最少液體培養(yǎng)基里，并在28℃生長48小時。將此培養(yǎng)物等份在5毫升具有轉(zhuǎn)化選擇的Luria液體培養(yǎng)基內(nèi)生長過夜。6-8毫升細菌細胞以AB培養(yǎng)基洗二次，并制成最終細胞密度為0.4-0.5(OD600)。
從發(fā)芽幼苗摘除長了兩天的子葉，浸于制備的土壤桿菌細胞中，并鋪板于具有3％蔗糖、4μM N-6芐基腺嘌嶺(BA)和0.8μM萘乙酸(NAA)的MS培養(yǎng)基。把平板黑暗中于21℃溫育。三天后，移到具有300mg/L timentin的同樣培養(yǎng)基。再四天后，全部培養(yǎng)物移到見光。三天后，把外植體放在加有0.5mg/L草銨膦的選擇培養(yǎng)基上。為使芽繼續(xù)伸長，每周把外植體移到無植物激素但有兩倍基礎量的KNO3的MS培養(yǎng)基上。從初始外植體剪掉伸長到10mm以上的芽，分別在選擇培養(yǎng)基上生長。為使生根，把代表推定轉(zhuǎn)基因組織的綠葉放到有2％蔗糖、10μM吲哚丁酸和0.5μM NAA的MS培養(yǎng)基上。把生根的芽移到排水良好的較少土壤混合物中，在高濕度和12小時光照下生長。
實施例10亞麻轉(zhuǎn)化方案此轉(zhuǎn)化方法類似Dong J.和McHughen A.(Plant Cell Reports(1991)10555-560)，Dong J.和McHughen A.(Plant Sciences(1993)8861-71)以及Mlynarova等人(Plant Cell Reports(1994)13282-285)所概括的。將無損、無破或無病害的亞麻種子去污染物，于70％乙醇溶液內(nèi)5-7分鐘，接著在具有Tween 20(每100毫升3-4滴)的50％漂白液內(nèi)連續(xù)攪動25分鐘。種子用無菌蒸餾水洗5-7次。將去污染物的種子放在Magenta罐內(nèi)在具有2％蔗糖和0.3％ Gelrite的MS培養(yǎng)基上(Murashige T.和Skoog F(1962)Physiol.Plant.15473-497)于光中發(fā)芽。為了轉(zhuǎn)化，土壤桿菌培養(yǎng)物在加了適當抗生素用于選擇的AB液體培養(yǎng)基內(nèi)生長過夜。將6-8毫升過夜細胞洗兩次，重懸于5毫升AB液體培養(yǎng)基內(nèi)；取此原液2毫升，加于98毫升的誘導培養(yǎng)基(具有3％蔗糖、5μM 6-芐基氨基嘌呤(BA)和0.25μM α-萘乙酸(NAA)的MS基礎培養(yǎng)基)，調(diào)節(jié)最終OD600為1.0。
切割下胚軸外植體，在制備的土壤桿菌細胞溶液內(nèi)溫育約4小時(在此期間，徐徐攪動平板1-2次)。感染期后，從液體接種培養(yǎng)基除去外植體，在無菌濾紙上印跡。在組織培養(yǎng)物平板上，將15-20個外植體鋪板于0.7％瓊脂固化的誘導培養(yǎng)基上。用塑料把平板密封，在光照(23-24℃)條件下共同栽培外植物48小時。兩天后，把綠色分生組織外植體移到含300mg/L Timentin(預選培養(yǎng)基)的同樣培養(yǎng)基內(nèi)，并用塑膠料包裹。三天后，把培養(yǎng)物移到含10mg/L DL PPT的上述培養(yǎng)基(選擇I)。用Parafilm包裹平板，在24℃光照條件下溫育。每兩星期轉(zhuǎn)移培養(yǎng)物并保持于此培養(yǎng)基一個月。為使芽伸長，每二星期把培養(yǎng)物移到Magenta罐內(nèi)的選擇培養(yǎng)基II(MS基礎培養(yǎng)基，含2％蔗糖、500mg/L MES緩沖液、300mg/L Timentin和10mg/L DL PPT)。選擇后存活的推定轉(zhuǎn)化芽呈深綠色，個別植于選擇II培養(yǎng)基上時，7-10天內(nèi)形成茂盛的根。把生根的芽移到小花瓶內(nèi)的滅菌溫室土壤混合物，幼苗用清潔塑料杯覆蓋以適應環(huán)境。為使成熟，把活躍生長的植物移到有排水良好的土壤混合物的1加侖花瓶內(nèi)，并在溫室條件下生長。
雖然本發(fā)明根據(jù)現(xiàn)視為優(yōu)選的實施例加以描述，須知本發(fā)明不限于所揭示的實施例。反之，本發(fā)明旨在涵蓋包括在所附權利要求書的精神和范圍內(nèi)的不同修飾以及等效改動。
全部出版物、專利和專利申請在此全文并入?yún)⒖?，其程度視同各個出版物、專利和專利申請?zhí)貏e和個別指明其全文并入?yún)⒖肌?br> 表1 已知胰島素序列的例子

序列綜述SEQ ID NO1和2分別顯示了質(zhì)粒pSBS4404中的PRS-D9scFv-KLIP27-MI-KDEL融合蛋白的核苷酸序列和推定的氨基酸序列。
SEQ ID NO3和4分別顯示了質(zhì)粒pSBS4405中的Oleo-KLIP8-KLIP27-MI融合蛋白的核苷酸序列和推定的氨基酸序列。
SEQ ID NO5和6分別顯示了質(zhì)粒pSBS4414中的PRS-MI-四元接頭-D9Scfv-KDEL融合蛋白的核苷酸序列和推定的氨基酸序列。
SEQ ID NO7-145顯示了表1內(nèi)所述已知胰島素序列。
SEQ ID NO146-148顯示了胰島素C肽片段的氨基酸序列。
SEQ ID NO149顯示了四元處理肽的氨基酸序列。
SEQ ID NO150-155顯示了能夠?qū)⒁葝u素多肽保持于ER的多肽的氨基酸序列。
SEQ ID NO156-160顯示了能夠?qū)⒁葝u素多肽保持于ER衍生的儲存細胞器的多肽的氨基酸序列。
SEQ ID NO161顯示了PRS信號序列的氨基酸序列。
SEQ ID NO162-171顯示了酵母前導序列的氨基酸序列及由此衍生的序列。
SEQ ID NO172-173顯示了間隔肽的氨基酸序列。
SEQ ID NO174顯示了KLIP8序列的氨基酸序列。
SEQ ID NO175顯示了正向引物1325的核苷酸序列，其與D9ScFv cDNA克隆的5’區(qū)互補，設計為用于在5’區(qū)加入SphI位點以方便隨后的連接。
SEQ ID NO176顯示了反向引物1326的核苷酸序列，其與D9ScFv cDNA克隆的3’區(qū)互補，設計為用于在3’區(qū)加入XhoI位點以方便隨后的連接。
SEQ ID NO177顯示了正向引物1324的核苷酸序列，其與反向引物1323的20核苷酸區(qū)互補，設計來形成Klip27-MI融合的5’端。
SEQ ID NO178顯示了反向引物1323的核苷酸序列，其與正向引物1324的20核苷酸區(qū)互補，設計來形成Klip27-MI融合的5’端。
SEQ ID NO179顯示了正向引物1322的核苷酸序列，其與反向引物1321的19核苷酸區(qū)互補，設計來形成Klip27-MI融合的3’端。
SEQ ID NO180顯示了反向引物1321的核苷酸序列，其與正向引物1322的19核苷酸區(qū)互補，設計來形成Klip27-MI融合的3’端。
SEQ ID NO181顯示了正向引物1364的核苷酸序列，其與Klip27-MI序列的5’區(qū)互補，設計為用于在5’區(qū)加入XhoI位點以方便隨后的連接。
SEQ ID NO182顯示了反向引物1334的核苷酸序列，其與Klip27-MI序列的3’區(qū)互補，設計為用于在3’區(qū)加入HindIII位點以方便隨后的連接和加入3’KDEL序列。
SEQ ID NO183顯示了反向引物1329的核苷酸序列，其與Klip27-MI序列的3’區(qū)互補，設計為用于在3’區(qū)加入HindIII位點以方便隨后的連接。
SEQ ID NO184顯示了正向引物1363的核苷酸序列，其與Klip27-MI序列的5’區(qū)互補，設計為用于在5’區(qū)加入SphI位點以方便隨后的連接。
SEQ ID NO185顯示了正向引物1515的核苷酸序列，其與胰島素B鏈序列的5’區(qū)互補，設計為用于與反向引物1518一起在人胰島素的可信A和B鏈之間插入了間插四元位點。
SEQ ID NO186顯示了反向引物1518的核苷酸序列，其與胰島素B鏈序列的3’區(qū)以及胰島素A鏈的5’區(qū)互補，具有間插四元微型C肽序列，設計為用于在人胰島素的可信A和B鏈之間插入了間插四元位點。
SEQ ID NO187顯示了反向引物1517的核苷酸序列，其與D9scFv/KDEL序列的3’區(qū)互補，設計來擴增整個MI-四元接頭-D9Scfv-KDEL以產(chǎn)生pSBS4414插入片段。
SEQ ID NO188和189分別顯示了質(zhì)粒pSBS4401內(nèi)PRS-Klip27-MI融合蛋白的核苷酸序列及推出的氨基酸序列。
SEQ ID NO190顯示了正向引物1457的核苷酸序列，其與胰島素B鏈序列的5’區(qū)互補，設計來與反向引物1591一起產(chǎn)生人胰島素原(hRIN)片段。
SEQ ID NO191顯示了反向引物1458的核苷酸序列，其與人胰島素原(hPIN)的3’區(qū)互補，設計來產(chǎn)生人胰島素原(hPIN)，并添加3’HindIII克隆位點。
SEQ ID NO192顯示了正向引物1455的核苷酸序列，其與pSBS4404的SphI位點的5’區(qū)互補，設計來與反向引物1456一起擴增芥油質(zhì)蛋白基因。
SEQ ID NO193顯示了反向引物1456的核苷酸序列，其與芥油質(zhì)蛋白基因的3’區(qū)互補，設計來與正向引物1455一起擴增芥油質(zhì)蛋白基因。
SEQ ID NO194顯示了重疊橋連PCR引物的核苷酸序列，其與芥油質(zhì)蛋白基因的3’區(qū)以及人胰島素原基因的5’端互補，設計來與正向引物1455及反向引物1456一起產(chǎn)生pSBS4409插入片段。
SEQ ID NO195和196分別顯示了質(zhì)粒pSBS4409內(nèi)OLEO-hPIN融合蛋白的核苷酸序列和推出的氨基酸序列。
SEQ ID NO1atgaacttccttaagtctttccctttctacgctttcctttgtttcgqtcaatacttcgttgctgttacgcatgctgacattgtgatgacacagtctccatcctccctggctatgtcagtgggacagcgggtcactatgcgctgcaagtccagtcagagccttttaaaaagtaccaatcaaaagaactatttggcctggtaccagcagaaaccaggacagtctcctaaacttctggtatactttgcatccactagggaatctggggtccctgatcgcttcataggcagtggatctgggacagatttcactcttaccatcagcagtgtgcaggctgaagacctggcagattacttctgtcagcaacattataacactcctcccacgttcggtgctgggaccaagctggagcttaagcggtctccgaacggtgcttctcatagcggttctgcaccaggcactagctctgcatctggatctcaggtgcacctgcagcagtctggagctgagctgatgaagcctggggcctcaatgaagatatcctgcaaggctactggctacacattcagtagctactggatagagtgggtaaagcagaggcctggacatggccttgagtggattggagagattttacctggcagtggtagtactacctacaatgagaagttcaagggcaaggccacattcactgcagatacatcctccaacacagcctacatgcaactcagcagcctgacatctgaggactctgccgtctattactgtgcaagattggatgttgactcctggggccaaggcaccactctcacagtctcgagtcaaccaattgatgacactgaatcccagaccacgtcagtgaacctcatggccgatgatactgagagcgcgtttgctacacaaacaaattcgggaggtcttgacgttgtcggattgatctccatggctaagagagaagaaggagagcctaagtttgttaatcaacatctttgtggatctcatcttgttgaggctctctaccttgtgtgtggagaaagaggatttttctacactcctaaggctgctaagggaattgttgaacaatgttgcacttctatttgctcactttaccaattggagaactattgcaacaaggatgaactttgaSEQ ID NO2MNFLKSFPFYAFLCFGQYFVAVTHADIVMTQSPSSLAMSVGQRVTMRCKSSQSLLKSTNQKNYLAWYQQKPGQSPKLLVYFASTRESGVPDRFIGSGSGTDFTLTISSVQAEDLADYFCQQHYNTPPTFGAGTKLELKRSPNGASHSGSAPGTSSASGSQVHLQQSGAELMKPGASMKISCKATGYTFSSYWIEWVKQRPGHGLEWIGEILPGSGSTTYNEKFKGKATFTADTSSNTAYMQLSSLTSEDSAVYYCARLDVDSWGQGTTLTVSSQPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCNKDELSEQ ID NO3atggcggatacagctagaggaacccatcacgatatcatcggcagagaccagtacccgatgatgggccgagaccgagaccagtaccagatgtccggacgaggatctgactactccaagtctaggcagattgctaaagctgcaactgctgtcacagctggtggttccctccttgttctctccagccttacccttgttggaactgtcatagctttgactgttgcaacacctctgctcgttatcttcagcccaatccttgtcccggctctcatcacagttgcactcctcatcaccggttttctttcctctggagggtttggcattgccgctataaccgttttctcttggatttacgcaacgggagagcacccacagggatcagacaagttggacagtgcaaggatgaagttgggaagcaaagctcaggatctgaaagacagagctcagtactacggacagcaacatactggtggggaacatgaccgtgaccgtactcgtggtggccagcacactaccatggctgagatcacccgcattcctctctacaaaggtaagtctctccgtaaggcgctgaaggaacatggacttctagaagacttcttgcagaaacaacagtatggcatctcgagcaagttccaaccaattgatgacactgaatcccagaccacgtcagtgaacctcatggccgatgatactgagagcgcgtttgctacacaaacaaattcgggaggtcttgacgttgtcggattgatctccatggctaagagagaagaaggagagcctaagtttgttaatcaacatctttgtggatctcatcttgttgaggctctctaccttgtgtgtggagaaagaggatttttctacactcctaaggctgctaagggaattgttgaacaatgttgcacttctatttgctcactttaccaattggagaactattgcaactga
SEQ ID NO4MADTARGTHHDIIGRDQYPMMGRDRDQYQMSGRGSDYSKSRQIAKAATAVTAGGSLLVLSSLTLVGTVIALTVATPLLVIFSPILVPALITVALLITGFLSSGGFGIAAITVFSWIYATGEHPQGSDKLDSARMKLGSKAQDLKDRAQYYGQQHTGGEHDRDRTRGGQHTTMAEITRIPLYKGKSLRKALKEHGLLEDFLQKQQYGISSKFQPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCNSEQ ID NO5atgaacttccttaagtctttccctttctacgctttcctttgtttcggtcaatacttcgttgctgttacgcatgcctttgttaatcaacatctttgtggatctcatcttgttgaggctctctaccttgtgtgtggagaaagaggatttttctacactcctaagactagaagaaagagaggaattgttgaacaatgttgcacttctatttgctcactttaccaattggagaactattgcaacagaagaaagagagacattgtgatgacacagtctccatcctccctggctatgtcagtgggacagcgggtcactatgcgctgcaagtccagtcagagccttttaaaaagtaccaatcaaaagaactatttggcctggtaccagcagaaaccaggacagtctcctaaacttctggtatactttgcatccactagggaatctggggtccctgatcgcttcataggcagtggatctgggacagatttcactcttaccatcagcagtgtgcaggctgaagacctggcagattacttctgtcagcaacattataacactcctcccacgttcggtgctgggaccaagttggagcttaagcggtctccgaacggtgcttctcatagcggttctgcaccaggcactagctctgcatctggatctcaggtgcacctgcagcagtctggagctgagctgatgaagcctggggcctcaatgaagatatcctgcaaggctactggctacacattcagtagctactggatagagtgggtaaagcagaggcctggacatggccttgagtggattggagagattttacctggcagtggtagtactacctacaatgagaagttcaagggcaaggccacattcactgcagatacatcctccaacacagcctacatgcaactcagcagcctgacatctgaggactctgccgtctattactgtgcaagattggatgttgactcctggggccaaggcaccactctcacagtgagctcaaaggatgagctttgaSEQ ID NO6MNFLKSFPFYAFLCFGQYFVAVTHAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRRKRGIVEQCCTSICSLYQLENYCNRRKRDIVMTQSPSSLAMSVGQRVTMRCKSSQSLLKSTNQKNYLAWYQQKPGQSPKLLVYFASTRESGVPDRFIGSGSGTDFTLTISSVQAEDLADYFCQQHYNTPPTFGAGTKLELKRSPNGASHSGSAPGTSSASGSQVHLQQSGAELMKPGASMKISCKATGYTFSSYWIEWVKQRPGHGLEWIGEILPGSGSTTYNEKFKGKATFTADTSSNTAYMQLSSLTSEDSAVYYCARLDVDSWGQGTTLTVSSKDELSEQ ID NO7MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO8EAEDPQVGEVELGGGPGLGGLQPLALAGPQQSEQ ID NO9FVNQHLCGSHLVEALYLVCGERGFFYTPKAXXEAEDPQVGEVELGGGPGLGGLQPLALAGPQQXXGIVEQCCTGICSLYQLENYCNSEQ ID NO10MASLAALLPLLALLVLCRLDPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKSRREVEELQVGQAELGGGPGAGGLQPSALELALQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO11GIVEQCCTSICSLYQLENYCNSEQ ID NO12GIVEQCCASTCSLYQLENYCN
SEQ ID NO13MALWTRLLPLLALLALWAPAPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKARREAENPQAGAVELGGGLGGLQALALEGPPQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO14GIVEQCCTGVCSLYQLENYCNSEQ ID NO15MALWTRLRPLLALLALWPPPPARAFVNQHLCGSHLVEALYLVCGERGFFYTPKARREVEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCNSEQ ID NO16MALWTRLVPLLALLALWAPAPAHAFVNQHLCGSHLVEALYLVCGERGFFYTPKARREVEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCAGVCSLYQLENYCNSEQ ID NO17GIVEQCCASVCSLYQLENYCNSEQ ID NO18MALWMRLLPLLALLALWAPAPTRAFVNQHLCGSHLVEALYLVCGERGFFYTPKARREVEDLQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO19GIVDQCCTGVCSLYQLQNYCNSEQ ID NO20MALWMHLLPLLALLALWGPEPAPAFVNQHLCGPHLVEALYLVCGERGFFYAPKTRREAEDLQVGQVELGGGSITGSLPPLEGPMQKRGVVDQCCTSICSLYQLQNYCNSEQ ID NO21MALWMRLLPLLALLALWGPDPAPAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO22MALWMRLLPLLALLALWGPDPVPAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO23MALWMRLLPLLVLLALWGPDPASAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO24GIVEECCKGVCSMYQLENYCNSEQ ID NO25
CGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCSEQ ID NO26MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO27FVNQHLCGPHLVEALYLVCGERGFFYAPKTGVVDQCCTSICSLYQLQNYCNSEQ ID NO28MTLWMRLLPLLTLLVLWEPNPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKSRRGVEDPQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCNSEQ ID NO29MALWMRFLPLLALLVLWEPKPAQAFVKQHLCGPHLVEALYLVCGERGFFYTPKSRREVEDPQVPQLELGGGPEAGDLQTLALEVARQKRGIVDQCCTSICSLYQLENYCNSEQ ID NO30MALWIRFLPLLALLILWEPRPAQAFVKQHLCGSHLVEALYLVCGERGFFYTPMSRREVEDPQVAQLELGGGPGAGDLQTLALEVARQKRGIVDQCCTSICSLYQLENYCNSEQ ID NO31GIVDQCCTSICSLYQLENYCNSEQ ID NO32MALLVHFLPLLALLALWEPKPTQAFVKQHLCGPHLVEALYLVCGERGFFYTPKSRREVEDPQVEQLELGGSPGDLQTLALEVARQKRGIVDQCCTSICSLYQLENYCNSEQ ID NO33MALWMRFLPLLALLFLWESHPTQAFVKQHLCGSHLVEALYLVCGERGFFYTPMSRREVEDPQVAQLELGGGPGAGDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCNSEQ ID NO34GIVDQCCTSICTLYQLENYCNSEQ ID NO35MALWMHLLTVLALLALWGPNTGQAFVSRHLCGSNLVETLYSVCQDDGFFYIPKDRRELEDPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCNSEQ ID NO36MAPWMHLLTVLALLALWGPNSVQAYSSQHLCGSNLVEALYMTCGRSGFYRPHDRRELEDLQVEQAELGLEAGGLQPSALEMILQKRGIVDQCCNNICTFNQLQNYCNVPSEQ ID NO37GIVEQCCNSICSLYQLETYCN
SEQ ID NO38MALWILLPLLALLILWGPDPAQAFVNQHLCGSHLVEALYILVCGERGFFYTPMSRREVEDPQVGQVELGAGPGAGSEQTLALEVARQARIVQQCTSGICSLYQENYCNSEQ ID NO39MALWMRLLPLLAFLILWEPSPAHAFVNQHLCGSHLVEALYLVCGERGFFYTPKFRRGVDDPQMPQLELGGSPGAGDLRALALEVARQKRGIVEQCCTGICSLYQLENYCNSEQ ID NO40MALWTRLLPLLALLALLGPDPAQAFVNQHLCGSHLVEALYLVCGERGFFYTPKSRREVEEQQGGQVELGGGPGAGLPQPLALEMALQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO41ELEDPQVEQTELGMGLGAGGLQPLQGALQSEQ ID NO42MALWIRSLPLLALLVFSGPGTSYAAANQHLCGSHLVEALYLVCGERGFFYSPKARRDVEQPLVSSPLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCNSEQ ID NO43AANQHLCGSHLVEALYLVCGERGFFYSPKTXXDVEQPLVNGPLHGEVGELPFQHEEYQXXGIVEQCCENPCSLYQLENYCNSEQID NO44GIVEQCCENPCSLYQLENYCNSEQID NO45IQSLPLLALLALSGPGTSHAAVNQHLCGSHLVEALYLVCGERGFFYSPKARRDAEHPLVNGPLHGEVGDLPFQQEEFEKVKRGIVEQCCHNTCSLYQLENYCNSEQ ID NO46MAVWLQAGALLVLLVVSSVSTNPGTPQHLCGSHLVDALYLVCGPTGFFYNPKRDVEPLLGFLPPKSAQETEVADFAFKDHAELIRKRGIVEQCCHKPCSIFELQNYCNSEQ ID NO47MAVWIQAGALLFLLAVSSVNANAGAPQHLCGSHLVDALYLVCGPTGFFYNPKRDVDPPLGFLPPKSAQETEVADFAFKDHAEVIRKRGIVEQCCHKPCSIFELQNYCNSEQ ID NO48GIVEQCCHRPCDIFDLQSYCNSEQ ID NO49GIVEQCCHKPCNIFDLQNYCNSEQ ID NO50GIHZZCCHKPCBIFZLZBYCN
SEQ ID NO51MAALWLQSFSLLVLLVVSWPGSQAVAPAQHLCGSHLVDALYLVCGDRGFFYNPKRDVDQLLGFLPPKSGGAAAAGADNEVAEFAFKDQMEMMVKRGIVEQCCHRPCNIFDLQNYCNSEQ ID NO52MALSPFLAAVIPLVLLLSRAPPSADTRTTGHLCGKDLVNALYIACGVRGFFYDPTKMKRDTGALAAFLPLAYAEDNESQDDESIGINEVLKSKRGIVEQCCHKRCSIYDLENYCNSEQ ID NO53MAFWLQAASLLVLLALSPGVDAAAAQHLCGSHLVDALYLVCGEKGFFYTPKRDVDPLIGFLSPKSAKENEEYPFKDQTEMMVKRGIVEQCCHKPCNIFDLQNYCNSEQ ID NO54GIVEQCCHRPCNIRVLENYCNSEQ ID NO55GIVEQCCHKPCTIYELENYCNSEQ ID NO56GIVEQCCHKPCNIFDLQNYCNSEQ ID NO57GIVEQCCHNTCSLANLEGYCNSEQ ID NO58GIVEHCCHNTCSLYDLEGYCNQSEQ ID NO59GIVEHCCHNTCSLFDLEGYCNSEQ ID NO60VPTQRLCGSHLVDALYFVCGERGFFYSPKQIRDVGPLSAFRDLEPPLDTEMEDRFPYRQQLAGSKMKRGIVEQCCHNTCSLVNLEGYCNSEQ ID NO61GIVEQCCHRKCSIYDMENYCNSEQ ID NO62GIVEQCCHKPCNIFDLQNYCNSEQ ID NO63GIVEQCCLKPCTIYEMEKYCN
SEQ ID NO64GIVEQCCHKPCSIFDLQNYCNSEQ ID NO65MAALWLQAFSLLVLMMVSWPGSQAVGGPQHLCGSHLVDALYLVCGDRGFFYNPRRDVDPLLGFLPPKAGGAVVQGGENEVTFKDQMEMMVKRGIVEECCHKPCTIFDLQNYCNSEQ ID NO66GIVEQCCHSPCSLYDLENYCNSEQ ID NO67GIVEQCCHKPCSIFDLQNYCNSEQ ID NO68MAALWLQSVSLLVLMLVSWSGSQAVLPPQHLCGAHLVDALYLVCGERGFFYTPKRDVDPLLGFLPAKSGGAAAGGENEVAEFAFKDQMEMMVKRGIVEQCCHKPCNIFDLQNYCNSEQ ID NO69DVEPLLGFLSPKSGQENEVDDFPYKGQGELSEQ ID NO70MALWMQCLPLVLVLFFSTPNTEALVNQHLCGSHLVEALYLVCGDRGFFYYPKVKRDMEQALVSGPQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCNSEQ ID NO71MALWMQCLPLVLVLLFSTPNTEALANQHLCGSHLVEALYLVCGDRGFFYYPKIKRDIEQAQVNGPQDNELDGMQFQPQEYQKMKRGIVEQCCHSTCSLFQLENYCNSEQ ID NO72GIVEQCCHNTCSLYQLENYCNSEQ ID NO73GIVEQCCHNTCSLYQLENYCNSEQ ID NO74GIVEQCCENTCSLYELENYCNSEQ ID NO75GIVEQCCENTCSLYQLENYCNSEQ ID NO76MGLWIRLLPLIALLILWGPDPAAAEFRMFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO77GIVEQCCTSICSLYQLENYCN
SEQ ID NO78FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO79FVDQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYELEDYCNSEQ ID NO80FVEQHLCGSDLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLEEYCNSEQ ID NO81FVQQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCGSEQ ID NO82FVTQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLEHYCSSEQ ID NO83NSNGKFVNQHLCGSHLVEALYLVCGERGFFYTPKTKGIVEQCCTSICSLYQLENYCNSEQ ID NO84NSNGKFVNQHLCGSHLVEALYLVCGERGFFYTPKTKRGIVEQCCTSICSLYQLENYCNSEQ ID NO85FVNQHLCGSHLVEALYLVCGERGFFYTPKGIVEQCCTSICSLYQLENYCNSEQ ID NO86RFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCNSEQ ID NO87KETLTITCAVPTWLKLWTWFAVKEVSSTNLRLLRVLSNNAVPPSAPCTNWKTTATRRSPQASEQ ID NO88KDSLTNTCAVSTWLKLCTWFAVKEVSSTLLRLLRVLSNNAVPPSANYTNWKTTATRRSPQASEQ ID NO89MFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNSEQ ID NO90RREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRSEQ ID NO91GPETLCGAELVDALQFVCGDRGF
SEQ ID NO92MKLKTVRSAVLSSLFASQVLGQPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCNSEQ ID NO93tttgtcaatcagcacctttgtggttctcacctggtggaggctctgtacctggtgtgtggggaacgtggtttcttctacacacccaagacccgtcgtaagcttaagcgtggcattgtggagcagtgctgcaccagcatctgctccctctaccaactggagaactactgcaacSEQ ID NO94GIVEQCCTSICSLYQLENYCNSEQ ID NO95FVNQHLCGSHLVEALYLVCGERGFFXSEQ ID NO96GIVEQCCTSICSLYQLENYCNSEQ ID NO97EVNQHLCGSELVEALELVCGERGFFYEPKSEQ ID NO98GIVEQCCTSICSLYQLENYCNSEQ ID NO99FVNQHLCGSHLVEALHLVCGERGFFYTPKTSEQ ID NO100GIVEQCCKSICSLYQLENYCNSEQ ID NO101FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO102GIVEQCCKSICSLYQLENYCNSEQ ID NO103FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO104GIVEQCCXSICSLYQLENYCNSEQ ID NO105FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO106
GIVEQCCXSICSLYQLENYCNSEQ ID NO107FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO108GXVEQCCTSICSLYQLENYCNSEQ ID NO109FVNQHLCGSDLVEALYLVCGERGFFYTKPTSEQ ID NO110GAVEQCCTSICSLYQLENYCNSEQ ID NO111FVNQHLCGSDLVEALYLVCGERGFFYTKPTSEQ ID NO112GXVEQCCTSICSLYQLENYCNSEQ ID NO113FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO114GXVEQCCTSICSLYQLENYCNSEQ ID NO115FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO116GGGEQCCTSICSLYQLENYCNSEQ ID NO117FVNQHLCGSDLVEALYLVCGERGFFYTKPTSEQ ID NO118XIVEQCCTSICSLYQLENYCNSEQ ID NO119XVNQHLCGDHLVEALYLVCGERGFFYTPKTSEQ ID NO120GIVEQCCTSICSLYQLENYCNSEQ ID NO121FVNQHLCGSHLVEALYLVCGERGFYTPKT
SEQ ID NO122GIVEQSCTSISSLYQLENYCNSEQ ID NO123FVNQHLCGSDLVEALYLVCGERGFFYTKPTSEQ ID NO124MDPGDPECLEQLLRRLGGSVEVEVTGGTVHVEVSPEDPGDPECLEQLLRRLGGSVEVEVTGGTVHVEVSPGERGFFYCNSEQ ID NO125MLKEKKYSPDPGDPECLEQLLRRLGGSVEVEVTGGTVHVEVSPEDPGDPECLEQLLRRLGGSVEVEVTGGTVHVEVSPGERGFFYCNSEQ ID NO126MATSXSTKKTQLQLEHLXLDLQMSEQ ID NO127TMITDSLAVVLQRXDWXPGVTQLSEQ ID NO128NSVLASALALTVAPMAFANSDSESPLSHDGYSLHDGVSMYIEALDKFVNQHLCGSHLVEALYLVCGERGFFYTPKGIVEQCCTSICSLYQLENYCNSEQ ID NO129DTTMPAGGGGGGQHLCGPHLVEALYSEQ ID NO130LENYCNSEQ ID NO131MTMITDSLEFQAWGGGGGWMRFSEQ ID NO132MVLRFLPLLALLVLWEPKPAQASEQ ID NO133FVNQHLCGSHLVEALYLVCGERGFFYTPKTRRYPGDVKRGIVEQCCTSICSLYQLENYCNSEQ ID NO134GIVEQCCKSICSLYQLENYCNSEQ ID NO135FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO136
GIVEQCCKSICSLYQLENYCNSEQ ID NO137FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO138LVEALYLVCGERGGSEQ ID NO139GIVEQCCXSICSLYQLENYCNSEQ ID NO140FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO141GIVEQCCXSICSLYQLENYCNSEQ ID NO142FVNQHLCGSHLVEALYLVCGERGFFYTPKTSEQ ID NO143GIVEQCCTSICSLYQLENYCNSEQ ID NO144FVNQHLCGSDLVEALYLVCGERGFFYTDKSEQ ID NO145FVNQHLCGSDLVEALYLVCGERGFFYTDKGIVEQCCTSICSLYQLENYCNSEQ ID NO146AAKSEQ ID NO147NKRSEQ ID NO148RRKQKRSEQ ID NO149RRKRSEQ ID NO150KDELSEQ ID NO151HDELSEQ ID NO152
DDELSEQ ID NO153ADELSEQ ID NO154SDELSEQ ID NO155HDEFSEQ ID NO156Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp1 5 10 15Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly20 25 30Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr35 40 45Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu50 55 60Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile65 70 75 80Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile85 90 95Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val100 105 110Phe Ser Trp Ile Tyr Lys115SEQ ID NO157Met Ala Asp Thr Ala Arg Thr His His Asp Val Thr Ser Arg Asp Gln1 5 10 15Tyr Pro Arg Asp Arg Asp Gln Tyr Ser Met Ile Gly Arg Asp Arg Asp20 25 30Gln Tyr Ser Met Met Gly Arg Asp Arg Asp Gln Tyr Asn Met Tyr Gly35 40 45Arg Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Val Thr Ala Val50 55 60
Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu Val Gly65 70 75 80Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile Phe Ser85 90 95Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile Thr Gly100 105 110Phe Leu Ser Ser Gly Gly Phe Ala Ile Ala Ala Ile Thr Val Phe Ser115 120 125Trp Ile Tyr Lys Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys130 135 140Leu Asp Ser Ala Arg Met Lys Leu Gly Thr Lys Ala Gln Asp Ile Lys145 150 155 160Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp165 170 175Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr180 185SEQ ID NO158taccatgggg tcaaagacgg agatgatgga gagagacgca atggctacgg tggctcccta 60tgcgccggtc acttaccatc gccgtgctcg tgttgacttg gatgatagac ttcctaaacc120ttatatgcca agagcattgc aagcaccaga cagagaacac ccgtacggaa ctccaggcca180taagaattac ggacttagtg ttcttcaaca gcatgtctcc ttcttcgata tcgatgataa240tggcatcatt tacccttggg agacctactc tggactgcga atgcttggtt tcaatatcat300tgggtcgctt ataatagccg ctgttatcaa cctgaccctt agctatgcca ctcttccggg360gtggttacct tcacctttct tccctatata catacacaac atacacaagt caaagcatgg420aagtgattca aaaacatatg acaatgaagg aaggtttatg ccggtgaatc ttgagttgat480atttagcaaa tatgcgaaaa ccttgccaga caagttgagt cttggagaac tatgggagat540gacagaagga aaccgtgacg cttgggacat ttttggatgg atcgcaggca aaatagagtg600gggactgttg tacttgctag caagggatga agaagggttt ttgtcaaaag aagctattag660gcggtgtttc gatggaagct tgttcgagta ctgtgccaaa atctacgctg gtatcagtga720agacaagaca gcatactacg ccatggat 748SEQ ID NO159
atggggtcaa agacggagat gatggagaga gacgcaatgg ctacggtggc tccctatgcg 60ccggtcactt accaccgccg tgctcgtgtt gacttggatg atagacttcc taaaccttat120atgccaagag cattgcaagc accagacaga gaacacccgt acggaactcc aggccataag180aattacggac ttagtgttct tcaacagcat gtctccttct tcgatatcga tgataatggc240atcatttacc cttgggagac ctactctgga ctgcgaatgc ttggtttcaa tatcattggg300tcgcttataa tagccgctgt tatcaacctg acccttagct atgccactct tccggggtgg360ttaccttcac ctttcttccc tatatacata cacaacatac acaagtcaaa gcatggaagt420gattcaaaaa catatgacaa tgaaggaagg tttatgccgg tgaatcttga gttgatattt480agcaaatatg cgaaaacctt gccagacaag ttgagtcttg gagaactatg ggagatgaca540gaaggaaacc gtgacgcttg ggacattttt ggatggatcg caggcaaaat agagtgggga600ctgttgtact tgctagcaag ggatgaagaa gggtttttgt caaaagaagc tattaggcgg660tgtttcgatg gaagcttgtt cgagtactgt gccaaaatct acgctggtat cagtgaagac720aagacagcat actactaa 738SEQ ID NO160ATGGATCTAATCCACACTTTCCTCAACTTAATAGCTCCCCCTTTCACCTTCTTCTTCCTTCTCTTTTTCTTGCCACCCTTCCAGATTTTCAAGTTCTTCCTTTCAATCTTGGGCACCCTTTTCAGCGAGGATGTCGCTGGAAAAGTCGTCGTCATCACCGGCGCCTCCTCCGGCATCGGCGAAAGTCTTGCTTACGAGTATGCTAAGAGAGGGGCGTGCTTGGTGCTTGCTGCAAGAAGGGAAAGGAGTCTTCAAGAAGTGGCCGAAAGGGCGCGCGATTTGGGGTCGCCGGACGTCGTGGTGGTCCGGGCCGATGTTTCGAAGGCGGAGGACTGCAGGAAGGTTGTTGATCAGACTATGAATCGCTTTGGAAGATTGGATCACCTGGTCAATAACGCTGGAATTATGTCAGTTTCAATGCTGGAAGAAGTTGAAGATATTACTGGTTACAGAGAAACTATGGATATCAACTTCTGGGGCTATGTGTATATGACCCGATTTGCCGCCCCATACCTTAGGAATAGCAGAGGCCGAATTGTTGTACTTTCTTCATCCAGTTCTTGGATGCCTACTCCGAGGATGAGTTTTTACAATGCAAGCAAAGCGGCGATTTCACAATTTTTTGAGACACTGCGGGTGGAATTCGGCCCCGATATAGGCATAACCCTTGTGACTCCAGGATTCATAGAATCTGAACTTACCCAAGGCAAATTCTACAATGCTGGCGAACGTGTAATTGATCAGGACATGAGAGATGTACAAGTGAGCACGACTCCAATCCTGAGGGTGGAAAGTGCGGCAAGGTCAATCGTGAGGAGCGCGATCCGTGGAGAAAGATACGTGACAGAGCCGGCCTGGTTTAGGGTTACTTATTGGTGGAAGCTATTCTGCCCTGAGGTGATGGAGTGGGTATTTAGACTGATGTACTTGGCCAGCCCGGGTGAGCCGGAGAAGGAAACGTTTGGCAAGAAGGTTTTGGATTACACAGGAGTGAAGTCCTTGCTTTACCCGGAAACCGTGCAAGTTCCGGAGCCCAAGAATGATTAASEQ ID NO161MNFLKSFPFYAFLCFGQYFVAVTHASEQ ID NO162APVNTTEDETAQAEAVIGYSDLEGDFDVAVLPFSNSTNNGLLFIBTTIASIAAKEEGVSLMAKR
SEQ ID NO163APVNTTEDETAQAEAVIGYSDLEGDFDVAVLPFSNSTNNGLLFIBTTIASIAAKEEGVSMAKRSEQ ID NO164QPIDEDNDTSSMAKRSEQ ID NO165QPIDDTESNTTSVNLMADDTEDRFATNTTLALDVVNLISMAKRSEQ ID NO166QPIDDTESQTTSVNLMADDTEDRFATQTTLALDVVNLISMAKRSEQ ID NO167QPIDDTESQTTSVNLMADDTEDRFATQTTLALDVVNLISMAAASEQ ID NO168QPIDDTESNTTSVNLMADDTEDRFATNTTIALDVVNLISMAAASEQ ID NO169QPIDDTESNTTSVNLMADDTEDRFATNTTLAGGLDVVNLISMAKRSEQ ID NO170QPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAKRSEQ ID NO171QPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAAASEQ ID NO172EEAEAEAEPKSEQ ID NO173EEGEPKSEQ ID NO174MAEITRIPLYKGKSLRKALKEHGLLEDFLQKQQYGISSKFSEQ ID NO175GCATGCTGACATTGTGATGACACAGTCSEQ ID NO176AAGCTTGCATTTAAATACTCGAGACTGTGAGAGTGGTGCCTTGSEQ ID NO177GAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTG
SEQ ID NO178CCTTAGGAGTGTAGAAAAATCCTCTTTCTCCACACACAAGGTAGAGAGCCTCAACASEQ ID NO179CTAAGGCTGCTAAGGGAATTGSEQ ID NO180AAGCTTCAGTTGCAATAGTTCTCCAATTGGTAAAGTGAGCAAATAGAAGTGCAACATTGTTCAACAATTCCCTTAGCAGCCTTSEQ ID NO181CTCGAGTCAACCAATTGATGACACTGAATCSEQ ID NO182AAGCTTCAAAGTTCATCCTTGTTGCAATAGTTCTCCAATTGSEQ ID NO183AAGCTTCAGTTGCAATAGTTCSEQ ID NO184GCATGCCCAACCAATTGATGACACTGSEQ ID NO185GCATGCATGCCTTTGTTAATCAACATCTTTGTGGSEQ ID NO186ACATTGTTCAACAATTCCTCTCTTTCTTCTAGTCTTAGGAGTGTAGAAAAATCCSEQ ID NO187GCATAAGCTTCAAAGCTCATCCTTTGAGCSEQ ID NO188ATGAACTTCCTTAAGTCTTTCCCTTTCTACGCTTTCCTTTGTTTCGGTCAATACTTCGTTGCTGTTACGCATGCCCAACCAATTGATGACACTGAATCCCAGACCACGTCAGTGAACCTCATGGCCGATGATACTGAGAGCGCGTTTGCTACACAAACAAATTCGGGAGGTCTTGACGTTGTCGGATTGATCTCCATGGCTAAGAGAGAAGAAGGAGAGCCTAAGTTTGTTAATCAACATCTTTGTGGATCTCATCTTGTTGAGGCTCTCTACCTTGTGTGTGGAGAAAGAGGATTTTTCTACACTCCTAAGGCTGCTAAGGGAATTGTTGAACAATGTTGCACTTCTATTTGCTCACTTTACCAATTGGAGAACTATTGCAACTGASEQ ID NO189MNFLKSFPFYAFLCFGQYFVAVTHAQPIDDTESQTTSVNLMADDTESAFATQTNSGGLDVVGLISMAKREEGEPKFVNQHLCGSHLVEALYLVCGERGFFYTPKAAKGIVEQCCTSICSLYQLENYCNSEQ ID NO190TTCGTGAACCAACACTTG
SEQ ID NO191AAGCTTTCAGTTACAGTAGTSEQ ID NO192GCATGCATGTGTTGAGCSEQ ID NO193GGTAGTGTGCTGGCCASEQ ID NO194GGTGGCCAGCACACTACCTTCGTGAACCAACACTTGTGSEQ ID NO195ATGGCGGATACAGCTAGAGGAACCCATCACGATATCATCGGCAGAGACCAGTACCCGATGATGGGCCGAGACCGAGACCAGTACCAGATGTCCGGACGAGGATCTGACTACTCCAAGTCTAGGCAGATTGCTAAAGCTGCAACTGCTGTCACAGCTGGTGGTTCCCTCCTTGTTCTCTCCAGCCTTACCCTTGTTGGAACTGTCATAGCTTTGACTGTTGCAACACCTCTGCTCGTTATCTTCAGCCCAATCCTTGTCCCGGCTCTCATCACAGTTGCACTCCTCATCACCGGTTTTCTTTCCTCTGGAGGGTTTGGCATTGCCGCTATAACCGTTTTCTCTTGGATTTACAAGTAAGCACACATTTATCATCTTACTTCATAATTTTGTGCAATATGTGCATGCATGTGTTGAGCCAGTAGCTTTGGATCAATTTTTTTGGTAGAATAACAAATGTAACAATAAGAAATTGCAAATTCTAGGGAACATTTGGTTAACTAAATACGAAATTTGACCTAGCTAGCTTGAATGTGTCTGTGTATATCATCTATATAGGTAAAATGCTTGGTATGATACCTATTGATTGTGAATAGGTACGCAACGGGAGAGCACCCACAGGGATCAGACAAGTTGGACAGTGCAAGGATGAAGTTGGGAAGCAAAGCTCAGGATCTGAAAGACAGAGCTCAGTACTACGGACAGCAACATACTGGTGGGGAACATGACCGTGACCGTACTCGTGGTGGCCAGCACACTACCTTCGTGAACCAACACTTGTGTGGATCTCATCTCGTTGAAGCTCTCTACTTGGTTTGTGGTGAGAGAGGATTCTTCTACACTCCTAAGACCAGAAGGGAAGCTGAGGACTTGCAGGTGGGACAAGTTGAGTTGGGTGGAGGTCCTGGAGCAGGATCTTTGCAACCTCTCGCTTTGGAAGGTTCTTTGCAGAAGAGAGGAATCGTTGAACAATGTTGCACTTCAATCTGTTCTTTGTATCAGTTGGAGAACTACTGTAACTGASEQ ID NO196MADTARGTHHDIIGRDQYPMMGRDRDQYQMSGRGSDYSKSRQIAKAATAVTAGGSLLVLSSLTLVGTVIALTVATPLLVIFSPILVPALITVALLITGFLSSGGFGIAAITVFSWIYATGEHPQGSDKLDSARMKLGSKAQDLKDRAQYYGQQHTGGEHDRDRTRGGQHTTFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
序列表<110>賽姆生物系統(tǒng)遺傳公司<120>在植物中生產(chǎn)胰島素的方法<130>9369-296<150>60/478,818<151>2003-06-17<150>60/549,539<151>2004-03-04<160>196<170>PatentIn version 3.1<210>1<211>1143<212>DNA<213>Artificial Sequence<220>
<223>Insulin fusion protein nucleic acid sequence<400>1atgaacttcc ttaagtcttt ccctttctac gctttccttt gtttcggtca atacttcgtt 60gctgttacgc atgctgacat tgtgatgaca cagtctccat cctccctggc tatgtcagtg120ggacagcggg tcactatgcg ctgcaagtcc agtcagagcc ttttaaaaag taccaatcaa180aagaactatt tggcctggta ccagcagaaa ccaggacagt ctcctaaact tctggtatac240tttgcatcca ctagggaatc tggggtccct gatcgcttca taggcagtgg atctgggaca300gatttcactc ttaccatcag cagtgtgcag gctgaagacc tggcagatta cttctgtcag360caacattata acactcctcc cacgttcggt gctgggacca agctggagct taagcggtct420ccgaacggtg cttctcatag cggttctgca ccaggcacta gctctgcatc tggatctcag480gtgcacctgc agcagtctgg agctgagctg atgaagcctg gggcctcaat gaagatatcc540tgcaaggcta ctggctacac attcagtagc tactggatag agtgggtaaa gcagaggcct600ggacatggcc ttgagtggat tggagagatt ttacctggca gtggtagtac tacctacaat660gagaagttca agggcaaggc cacattcact gcagatacat cctccaacac agcctacatg720caactcagca gcctgacatc tgaggactct gccgtctatt actgtgcaag attggatgtt780
gactcctggg gccaaggcac cactctcaca gtctcgagtc aaccaattga tgacactgaa 840tcccagacca cgtcagtgaa cctcatggcc gatgatactg agagcgcgtt tgctacacaa 900acaaattcgg gaggtcttga cgttgtcgga ttgatctcca tggctaagag agaagaagga 960gagcctaagt ttgttaatca acatctttgt ggatctcatc ttgttgaggc tctctacctt1020gtgtgtggag aaagaggatt tttctacact cctaaggctg ctaagggaat tgttgaacaa1080tgttgcactt ctatttgctc actttaccaa ttggagaact attgcaacaa ggatgaactt1140tga 1143<210>2<211>380<212>PRT<213>Artificial Sequence<220>
<223>Insulin fusion protein<400>2Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly1 5 10 15Gln Tyr Phe Val Ala Val Thr His Ala Asp Ile Val Met Thr Gln Ser20 25 30Pro Ser Ser Leu Ala Met Ser Val Gly Gln Arg Val Thr Met Arg Cys35 40 45Lys Ser Ser Gln Ser Leu Leu Lys Ser Thr Asn Gln Lys Asn Tyr Leu50 55 60Ala Trp Tyr Gln Gln Lys Pro Gly Gln Ser Pro Lys Leu Leu Val Tyr65 70 75 80Phe Ala Ser Thr Arg Glu Ser Gly Val Pro Asp Arg Phe Ile Gly Ser85 90 95Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Val Gln Ala Glu100 105 110
Asp Leu Ala Asp Tyr Phe Cys Gln Gln His Tyr Asn Thr Pro Pro Thr115 120 125Phe Gly Ala Gly Thr Lys Leu Glu Leu Lys Arg Ser Pro Asn Gly Ala130 135 140Ser His Ser Gly Ser Ala Pro Gly Thr Ser Ser Ala Ser Gly Ser Gln145 150 155 160Val His Leu Gln Gln Ser Gly Ala Glu Leu Met Lys Pro Gly Ala Ser165 170 175Met Lys Ile Ser Cys Lys Ala Thr Gly Tyr Thr Phe Ser Ser Tyr Trp180 185 190Ile Glu Trp Val Lys Gln Arg Pro Gly His Gly Leu Glu Trp Ile Gly195 200 205Glu Ile Leu Pro Gly Ser Gly Ser Thr Thr Tyr Asn Glu Lys Phe Lys210 215 220Gly Lys Ala Thr Phe Thr Ala Asp Thr Ser Ser Asn Thr Ala Tyr Met225 230 235 240Gln Leu Ser Ser Leu Thr Ser Glu Asp Ser Ala Val Tyr Tyr Cys Ala245 250 255Arg Leu Asp Val Asp Ser Trp Gly Gln Gly Thr Thr Leu Thr Val Ser260 265 270Ser Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu275 280 285Met Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn Ser Gly290 295 300Gly Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys Arg Glu Glu Gly305 310 315 320Glu Pro Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu325 330 335Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys340 345 350
Ala Ala Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu355 360 365Tyr Gln Leu Glu Asn Tyr Cys Asn Lys Asp Glu Leu370 375 380<210>3<211>945<212>DNA<213>Artificial Sequence<220>
<223>Insulin fusion protein nucleic acid sequence<400>3atggcggata cagctagagg aacccatcac gatatcatcg gcagagacca gtacccgatg 60atgggccgag accgagacca gtaccagatg tccggacgag gatctgacta ctccaagtct120aggcagattg ctaaagctgc aactgctgtc acagctggtg gttccctcct tgttctctcc180agccttaccc ttgttggaac tgtcatagct ttgactgttg caacacctct gctcgttatc240ttcagcccaa tccttgtccc ggctctcatc acagttgcac tcctcatcac cggttttctt300tcctctggag ggtttggcat tgccgctata accgttttct cttggattta cgcaacggga360gagcacccac agggatcaga caagttggac agtgcaagga tgaagttggg aagcaaagct420caggatctga aagacagagc tcagtactac ggacagcaac atactggtgg ggaacatgac480cgtgaccgta ctcgtggtgg ccagcacact accatggctg agatcacccg cattcctctc540tacaaaggta agtctctccg taaggcgctg aaggaacatg gacttctaga agacttcttg600cagaaacaac agtatggcat ctcgagcaag ttccaaccaa ttgatgacac tgaatcccag660accacgtcag tgaacctcat ggccgatgat actgagagcg cgtttgctac acaaacaaat720tcgggaggtc ttgacgttgt cggattgatc tccatggcta agagagaaga aggagagcct780aagtttgtta atcaacatct ttgtggatct catcttgttg aggctctcta ccttgtgtgt840ggagaaagag gatttttcta cactcctaag gctgctaagg gaattgttga acaatgttgc900acttctattt gctcacttta ccaattggag aactattgca actga945<210>4<211>314
<212>PRT<213>Artificial Sequence<220>
<223>Insulin fusion protein<400>4Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp1 5 10 15Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly20 25 30Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr35 40 45Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu50 55 60Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile65 70 75 80Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile85 90 95Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val100 105 110Phe Ser Trp Ile Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys115 120 125Leu Asp Ser Ala Arg Met Lys Leu Gly Ser Lys Ala Gln Asp Leu Lys130 135 140Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp145 150 155 160Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr Met Ala Glu Ile Thr165 170 175Arg Ile Pro Leu Tyr Lys Gly Lys Ser Leu Arg Lys Ala Leu Lys Glu180 185 190
His Gly Leu Leu Glu Asp Phe Leu Gln Lys Gln Gln Tyr Gly Ile Ser195 200 205Ser Lys Phe Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val210 215 220Asn Leu Met Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn225 230 235 240Ser Gly Gly Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys Arg Glu245 250 255Glu Gly Glu Pro Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu260 265 270Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr275 280 285Pro Lys Ala Ala Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys290 295 300Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn305 310<210>5<211>1011<212>DNA<213>Artificial Sequence<220>
<223>Insulin fusion protein nucleic acid sequence<400>5atgaacttcc ttaagtcttt ccctttctac gctttccttt gtttcggtca atacttcgtt 60gctgttacgc atgcctttgt taatcaacat ctttgtggat ctcatcttgt tgaggctctc120taccttgtgt gtggagaaag aggatttttc tacactccta agactagaag aaagagagga180attgttgaac aatgttgcac ttctatttgc tcactttacc aattggagaa ctattgcaac240agaagaaaga gagacattgt gatgacacag tctccatcct ccctggctat gtcagtggga300cagcgggtca ctatgcgctg caagtccagt cagagccttt taaaaagtac caatcaaaag360aactatttgg cctggtacca gcagaaacca ggacagtctc ctaaacttct ggtatacttt420
gcatccacta gggaatctgg ggtccctgat cgcttcatag gcagtggatc tgggacagat480ttcactctta ccatcagcag tgtgcaggct gaagacctgg cagattactt ctgtcagcaa540cattataaca ctcctcccac gttcggtgct gggaccaagt tggagcttaa gcggtctccg600aacggtgctt ctcatagcgg ttctgcacca ggcactagct ctgcatctgg atctcaggtg660cacctgcagc agtctggagc tgagctgatg aagcctgggg cctcaatgaa gatatcctgc720aaggctactg gctacacatt cagtagctac tggatagagt gggtaaagca gaggcctgga780catggccttg agtggattgg agagatttta cctggcagtg gtagtactac ctacaatgag840aagttcaagg gcaaggccac attcactgca gatacatcct ccaacacagc ctacatgcaa900ctcagcagcc tgacatctga ggactctgcc gtctattact gtgcaagatt ggatgttgac960tcctggggcc aaggcaccac tctcacagtg agctcaaagg atgagctttg a1011<210>6<211>336<212>PRT<213>Artificial Sequence<220>
<223>Insulin fusion protein<400>6Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly1 5 10 15Gln Tyr Phe Val Ala Val Thr His Ala Phe Val Asn Gln His Leu Cys20 25 30Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly35 40 45Phe Phe Tyr Thr Pro Lys Thr Arg Arg Lys Arg Gly Ile Val Glu Gln50 55 60Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn65 70 75 80Arg Arg Lys Arg Asp Ile Val Met Thr Gln Ser Pro Ser Ser Leu Ala85 90 95
Met Ser Val Gly Gln Arg Val Thr Met Arg Cys Lys Ser Ser Gln Ser100 105 110Leu Leu Lys Ser Thr Asn Gln Lys Asn Tyr Leu Ala Trp Tyr Gln Gln115 120 125Lys Pro Gly Gln Ser Pro Lys Leu Leu Val Tyr Phe Ala Ser Thr Arg130 135 140Glu Ser Gly Val Pro Asp Arg Phe Ile Gly Ser Gly Ser Gly Thr Asp145 150 155 160Phe Thr Leu Thr Ile Ser Ser Val Gln Ala Glu Asp Leu Ala Asp Tyr165 170 175Phe Cys Gln Gln His Tyr Asn Thr Pro Pro Thr Phe Gly Ala Gly Thr180 185 190Lys Leu Glu Leu Lys Arg Ser Pro Asn Gly Ala Ser His Ser Gly Ser195 200 205Ala Pro Gly Thr Ser Ser Ala Ser Gly Ser Gln Val His Leu Gln Gln210 215 220Ser Gly Ala Glu Leu Met Lys Pro Gly Ala Ser Met Lys Ile Ser Cys225 230 235 240Lys Ala Thr Gly Tyr Thr Phe Ser Ser Tyr Trp Ile Glu Trp Val Lys245 250 255Gln Arg Pro Gly His Gly Leu Glu Trp Ile Gly Glu Ile Leu Pro Gly260 265 270Ser Gly Ser Thr Thr Tyr Asn Glu Lys Phe Lys Gly Lys Ala Thr Phe275 280 285Thr Ala Asp Thr Ser Ser Asn Thr Ala Tyr Met Gln Leu Ser Ser Leu290 295 300Thr Ser Glu Asp Ser Ala Val Tyr Tyr Cys Ala Arg Leu Asp Val Asp305 310 315 320Ser Trp Gly Gln Gly Thr Thr Leu Thr Val Ser Ser Lys Asp Glu Leu325 330 335
<210>7<211>110<212>PRT<213>Homo sapiens<400>7Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Trp Gly Pro Asp Pro Ala Ala Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly50 55 60Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu65 70 75 80Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>8<211>31<212>PRT<213>Equus przewalskii<400>8Glu Ala Glu Asp Pro Gln Val Gly Glu Val Glu Leu Gly Gly Gly Pro1 5 10 15Gly Leu Gly Gly Leu Gln Pro Leu Ala Leu Ala Gly Pro Gln Gln20 25 30
<210>9<211>86<212>PRT<213>Equus caballus<220>
<221>MISC_FEATURE<222>(31)..(32)<223>X＝any amino acid<220>
<221>MISC_FEATURE<222>(64)..(65)<223>X＝any amino acid<400>9Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Xaa Xaa20 25 30Glu Ala Glu Asp Pro Gln Val Gly Glu Val Glu Leu Gly Gly Gly Pro35 40 45Gly Leu Gly Gly Leu Gln Pro Leu Ala Leu Ala Gly Pro Gln Gln Xaa50 55 60Xaa Gly Ile Val Glu Gln Cys Cys Thr Gly Ile Cys Ser Leu Tyr Gln65 70 75 80Leu Glu Asn Tyr Cys Asn85<210>10
<211>110<212>PRT<213>Oryctolagus cuniculus<400>10Met Ala Ser Leu Ala Ala Leu Leu Pro Leu Leu Ala Leu Leu Val Leu1 5 10 15Cys Arg Leu Asp Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Glu Leu Gln Val Gly50 55 60Gln Ala Glu Leu Gly Gly Gly Pro Gly Ala Gly Gly Leu Gln Pro Ser65 70 75 80Ala Leu Glu Leu Ala Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>11<211>21<212>PRT<213>Balaenoptera physalus<400>11Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>12
<211>21<212>PRT<213>Balaenoptera borealis<400>12Gly Ile Val Glu Gln Cys Cys Ala Ser Thr Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>13<211>108<212>PRT<213>Sus scrofa<400>13Met Ala Leu Trp Thr Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Trp Ala Pro Ala Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Ala Arg Arg Glu Ala Glu Asn Pro Gln Ala Gly50 55 60Ala Val Glu Leu Gly Gly Gly Leu Gly Gly Leu Gln Ala Leu Ala Leu65 70 75 80Glu Gly Pro Pro Gln Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser85 90 95Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105<210>14
<211>21<212>PRT<213>Elephas maximus<400>14Gly Ile Val Glu Gln Cys Cys Thr Gly Val Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>15<211>105<212>PRT<213>Bos taurus<400>15Met Ala Leu Trp Thr Arg Leu Arg Pro Leu Leu Ala Leu Leu Ala Leu15 10 15Trp Pro Pro Pro Pro Ala Arg Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Ala Arg Arg Glu Val Glu Gly Pro Gln Val Gly50 55 60Ala Leu Glu Leu Ala Gly Gly Pro Gly Ala Gly Gly Leu Glu Gly Pro65 70 75 80Pro Gln Lys Arg Gly Ile Val Glu Gln Cys Cys Ala Ser Val Cys Ser85 90 95Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105<210>16
<211>105<212>PRT<213>Ovis aries<400>16Met Ala Leu Trp Thr Arg Leu Val Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Trp Ala Pro Ala Pro Ala His Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Ala Arg Arg Glu Val Glu Gly Pro Gln Val Gly50 55 60Ala Leu Glu Leu Ala Gly Gly Pro Gly Ala Gly Gly Leu Glu Gly Pro65 70 75 80Pro Gln Lys Arg Gly Ile Val Glu Gln Cys Cys Ala Gly Val Cys Ser85 90 95Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105<210>17<211>21<212>PRT<213>Camelus dromedaries<400>17Gly Ile Val Glu Gln Cys Cys Ala Ser Val Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>18
<211>110<212>PRT<213>Canis sp.
<400>18Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Trp Ala Pro Ala Pro Thr Arg Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Ala Arg Arg Glu Val Glu Asp Leu Gln Val Arg50 55 60Asp Val Glu Leu Ala Gly Ala Pro Gly Glu Gly Gly Leu Gln Pro Leu65 70 75 80Ala Leu Glu Gly Ala Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>19<211>21<212>PRT<213>Hystrix cristata<400>19Gly Ile Val Asp Gln Cys Cys Thr Gly Val Cys Ser Leu Tyr Gln Leu1 5 10 15Gln Asn Tyr Cys Asn20<210>20
<211>108<212>PRT<213>Aotus trivirgatus<400>20Met Ala Leu Trp Met His Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Trp Gly Pro Glu Pro Ala Pro Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Pro His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Ala Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly50 55 60Gln Val Glu Leu Gly Gly Gly Ser Ile Thr Gly Ser Leu Pro Pro Leu65 70 75 80Glu Gly Pro Met Gln Lys Arg Gly Val Val Asp Gln Cys Cys Thr Ser85 90 95Ile Cys Ser Leu Tyr Gln Leu Gln Asn Tyr Cys Asn100 105<210>21<211>110<212>PRT<213>Macaca fasicularis<400>21Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Trp Gly Pro Asp Pro Ala Pro Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45
Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Pro Gln Val Gly50 55 60Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu65 70 75 80Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>22<211>110<212>PRT<213>Cercopithecus aethiops<400>22Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Trp Gly Pro Asp Pro Val Pro Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Pro Gln Val Gly50 55 60Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu65 70 75 80Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>23
<211>110<212>PRT<213>Pan troglodytes<400>23Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Val Leu Leu Ala Leu1 5 10 15Trp Gly Pro Asp Pro Ala Ser Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly50 55 60Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu65 70 75 80Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>24<211>21<212>PRT<213>Ornithorhynchus anatinus<400>24Gly Ile Val Glu Glu Cys Cys Lys Gly Val Cys Ser Met Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>25
<211>65<212>PRT<213>Pongo pygmaeus<400>25Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg1 5 10 15Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln20 25 30Val Gly Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln35 40 45Pro Leu Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln50 55 60Cys65<210>26<211>110<212>PRT<213>Gorilla gorilla<400>26Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Trp Gly Pro Asp Pro Ala Ala Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu Gln Val Gly50 55 60Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu65 70 75 80
Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>27<211>51<212>PRT<213>Saimiri sciureus<400>27Phe Val Asn Gln His Leu Cys Gly Pro His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Ala Pro Lys Thr Gly Val20 25 30Val Asp Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Gln Asn35 40 45Tyr Cys Asn50<210>28<211>110<212>PRT<213>Cricetulus longicaudatus<400>28Met Thr Leu Trp Met Arg Leu Leu Pro Leu Leu Thr Leu Leu Val Leu1 5 10 15Trp Glu Pro Asn Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45
Phe Tyr Thr Pro Lys Ser Arg Arg Gly Val Glu Asp Pro Gln Val Ala50 55 60Gln Leu Glu Leu Gly Gly Gly Pro Gly Ala Asp Asp Leu Gln Thr Leu65 70 75 80Ala Leu Glu Val Ala Gln Gln Lys Arg Gly Ile Val Asp Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>29<211>110<212>PRT<213>Rattus norvegicus<400>29Met Ala Leu Trp Met Arg Phe Leu Pro Leu Leu Ala Leu Leu Val Leu1 5 10 15Trp Glu Pro Lys Pro Ala Gln Ala Phe Val Lys Gln His Leu Cys Gly20 25 30Pro His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Asp Pro Gln Val Pro50 55 60Gln Leu Glu Leu Gly Gly Gly Pro Glu Ala Gly Asp Leu Gln Thr Leu65 70 75 80Ala Leu Glu Val Ala Arg Gln Lys Arg Gly Ile Val Asp Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>30
<211>110<212>PRT<213>Rattus norvegicus<400>30Met Ala Leu Trp Ile Arg Phe Leu Pro Leu Leu Ala Leu Leu Ile Leu1 5 10 15Trp Glu Pro Arg Pro Ala Gln Ala Phe Val Lys Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Met Ser Arg Arg Glu Val Glu Asp Pro Gln Val Ala50 55 60Gln Leu Glu Leu Gly Gly Gly Pro Gly Ala Gly Asp Leu Gln Thr Leu65 70 75 80Ala Leu Glu Val Ala Arg Gln Lys Arg Gly Ile Val Asp Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>31<211>21<212>PRT<213>Acomys cahirinus<400>31Gly Ile Val Asp Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>32
<211>108<212>PRT<213>Mus musculus<400>32Met Ala Leu Leu Val His Phe Leu Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Trp Glu Pro Lys Pro Thr Gln Ala Phe Val Lys Gln His Leu Cys Gly20 25 30Pro His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Asp Pro Gln Val Glu50 55 60Gln Leu Glu Leu Gly Gly Ser Pro Gly Asp Leu Gln Thr Leu Ala Leu65 70 75 80Glu Val Ala Arg Gln Lys Arg Gly Ile Val Asp Gln Cys Cys Thr Ser85 90 95Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105<210>33<211>110<212>PRT<213>Mus musculus<400>33Met Ala Leu Trp Met Arg Phe Leu Pro Leu Leu Ala Leu Leu Phe Leu1 5 10 15Trp Glu Ser His Pro Thr Gln Ala Phe Val Lys Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45
Phe Tyr Thr Pro Met Ser Arg Arg Glu Val Glu Asp Pro Gln Val Ala50 55 60Gln Leu Glu Leu Gly Gly Gly Pro Gly Ala Gly Asp Leu Gln Thr Leu65 70 75 80Ala Leu Glu Val Ala Gln Gln Lys Arg Gly Ile Val Asp Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>34<211>21<212>PRT<213>Chinchilla brevicaudata<400>34Gly Ile Val Asp Gln Cys Cys Thr Ser Ile Cys Thr Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>35<211>110<212>PRT<213>Cavia porcellus<400>35Met Ala Leu Trp Met His Leu Leu Thr Val Leu Ala Leu Leu Ala Leu1 5 10 15Trp Gly Pro Asn Thr Gly Gln Ala Phe Val Ser Arg His Leu Cys Gly20 25 30Ser Asn Leu Val Glu Thr Leu Tyr Ser Val Cys Gln Asp Asp Gly Phe35 40 45
Phe Tyr Ile Pro Lys Asp Arg Arg Glu Leu Glu Asp Pro Gln Val Glu50 55 60Gln Thr Glu Leu Gly Met Gly Leu Gly Ala Gly Gly Leu Gln Pro Leu65 70 75 80Ala Leu Glu Met Ala Leu Gln Lys Arg Gly Ile Val Asp Gln Cys Cys85 90 95Thr Gly Thr Cys Thr Arg His Gln Leu Gln Ser Tyr Cys Asn100 105 110<210>36<211>109<212>PRT<213>Octodon degus<400>36Met Ala Pro Trp Met His Leu Leu Thr Val Leu Ala Leu Leu Ala Leu1 5 10 15Trp Gly Pro Asn Ser Val Gln Ala Tyr Ser Ser Gln His Leu Cys Gly20 25 30Ser Asn Leu Val Glu Ala Leu Tyr Met Thr Cys Gly Arg Ser Gly Phe35 40 45Tyr Arg Pro His Asp Arg Arg Glu Leu Glu Asp Leu Gln Val Glu Gln50 55 60Ala Glu Leu Gly Leu Glu Ala Gly Gly Leu Gln Pro Ser Ala Leu Glu65 70 75 80Met Ile Leu Gln Lys Arg Gly Ile Val Asp Gln Cys Cys Asn Asn Ile85 90 95Cys Thr Phe Asn Gln Leu Gln Asn Tyr Cys Asn Val Pro100 105<210>37
<211>21<212>PRT<213>Didelphis virginiana<400>37Gly Ile Val Glu Gln Cys Cys Asn Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Thr Tyr Cys Asn20<210>38<211>108<212>PRT<213>Rodentia sp.
<400>38Met Ala Leu Trp Ile Leu Leu Pro Leu Leu Ala Leu Leu Ile Leu Trp1 5 10 15Gly Pro Asp Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly Ser20 25 30His Leu Val Glu Ala Leu Tyr Ile Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Met Ser Arg Arg Glu Val Glu Asp Pro Gln Val Gly50 55 60Gln Val Glu Leu Gly Ala Gly Pro Gly Ala Gly Ser Glu Gln Thr Leu65 70 75 80Ala Leu Glu Val Ala Arg Gln Ala Arg Ile Val Gln Gln Cys Thr Ser85 90 95Gly Ile Cys Ser Leu Tyr Gln Glu Asn Tyr Cys Asn100 105<210>39
<211>110<212>PRT<213>Psammomys obesus<400>39Met Ala Leu Trp Met Arg Leu Leu Pro Leu Leu Ala Phe Leu Ile Leu1 5 10 15Trp Glu Pro Ser Pro Ala His Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45Phe Tyr Thr Pro Lys Phe Arg Arg Gly Val Asp Asp Pro Gln Met Pro50 55 60Gln Leu Glu Leu Gly Gly Ser Pro Gly Ala Gly Asp Leu Arg Ala Leu65 70 75 80Ala Leu Glu Val Ala Arg Gln Lys Arg Gly Ile Val Glu Gln Cys Cys85 90 95Thr Gly Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>40<211>110<212>PRT<213>Spermophilus tridecemlineatus<400>40Met Ala Leu Trp Thr Arg Leu Leu Pro Leu Leu Ala Leu Leu Ala Leu1 5 10 15Leu Gly Pro Asp Pro Ala Gln Ala Phe Val Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45
Phe Tyr Thr Pro Lys Ser Arg Arg Glu Val Glu Glu Gln Gln Gly Gly50 55 60Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Leu Pro Gln Pro Leu65 70 75 80Ala Leu Glu Met Ala Leu Gln Lys Arg Gly Ile Val Glu Gln Cys Cys85 90 95Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105 110<210>41<211>29<212>PRT<213>Cavia porcellus<400>41Glu Leu Glu Asp Pro Gln Val Glu Gln Thr Glu Leu Gly Met Gly Leu1 5 10 15Gly Ala Gly Gly Leu Gln Pro Leu Gln Gly Ala Leu Gln20 25<210>42<211>107<212>PRT<213>Ballus gallus<400>42Met Ala Leu Trp Ile Arg Ser Leu Pro Leu Leu Ala Leu Leu Val Phe1 5 10 15Ser Gly Pro Gly Thr Ser Tyr Ala Ala Ala Asn Gln His Leu Cys Gly20 25 30Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe35 40 45
Phe Tyr Ser Pro Lys Ala Arg Arg Asp Val Glu Gln Pro Leu Val Ser50 55 60Ser Pro Leu Arg Gly Glu Ala Gly Val Leu Pro Phe Gln Gln Glu Glu65 70 75 80Tyr Glu Lys Val Lys Arg Gly Ile Val Glu Gln Cys Cys His Asn Thr85 90 95Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn100 105<210>43<211>81<212>PRT<213>Anas platyrhynchos<220>
<221>MISC_FEATURE<222>(31)..(32)<223>X＝any amino acid<220>
<221>MISC_FEATURE<222>(59)..(60)<223>X＝any amino acid<400>43Ala Ala Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Ser Pro Lys Thr Xaa Xaa20 25 30Asp Val Glu Gln Pro Leu Val Asn Gly Pro Leu His Gly Glu Val Gly35 40 45
Glu Leu Pro Phe Gln His Glu Glu Tyr Gln Xaa Xaa Gly Ile Val Glu50 55 60Gln Cys Cys Glu Asn Pro Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys65 70 75 80Asn<210>44<211>21<212>PRT<213>Anser anser<400>44Gly Ile Val Glu Gln Cys Cys Glu Asn Pro Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>45<211>103<212>PRT<213>Selasphorus rufus<400>45Ile Gln Ser Leu Pro Leu Leu Ala Leu Leu Ala Leu Ser Gly Pro Gly1 5 10 15Thr Ser His Ala Ala Val Asn Gln His Leu Cys Gly Ser His Leu Val20 25 30Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Ser Pro35 40 45Lys Ala Arg Arg Asp Ala Glu His Pro Leu Val Asn Gly Pro Leu His50 55 60
Gly Glu Val Gly Asp Leu Pro Phe Gln Gln Glu Glu Phe Glu Lys Val65 70 75 80Lys Arg Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Tyr85 90 95Gln Leu Glu Asn Tyr Cys Asn100<210>46<211>108<212>PRT<213>Danio rerio<400>46Met Ala Val Trp Leu Gln Ala Gly Ala Leu Leu Val Leu Leu Val Val1 5 10 15Ser Ser Val Ser Thr Asn Pro Gly Thr Pro Gln His Leu Cys Gly Ser20 25 30His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Pro Thr Gly Phe Phe35 40 45Tyr Asn Pro Lys Arg Asp Val Glu Pro Leu Leu Gly Phe Leu Pro Pro50 55 60Lys Ser Ala Gln Glu Thr Glu Val Ala Asp Phe Ala Phe Lys Asp His65 70 75 80Ala Glu Leu Ile Arg Lys Arg Gly Ile Val Glu Gln Cys Cys His Lys85 90 95Pro Cys Ser Ile Phe Glu Leu Gln Asn Tyr Cys Asn100 105<210>47<211>108<212>PRT
<213>Cyprinus carpio<400>47Met Ala Val Trp Ile Gln Ala Gly Ala Leu Leu Phe Leu Leu Ala Val1 5 10 15Ser Ser Val Asn Ala Asn Ala Gly Ala Pro Gln His Leu Cys Gly Ser20 25 30His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Pro Thr Gly Phe Phe35 40 45Tyr Asn Pro Lys Arg Asp Val Asp Pro Pro Leu Gly Phe Leu Pro Pro50 55 60Lys Ser Ala Gln Glu Thr Glu Val Ala Asp Phe Ala Phe Lys Asp His65 70 75 80Ala Glu Val Ile Arg Lys Arg Gly Ile Val Glu Gln Cys Cys His Lys85 90 95Pro Cys Ser Ile Phe Glu Leu Gln Asn Tyr Cys Asn100 105<210>48<211>21<212>PRT<213>Batrachoididae gen.sp.
<400>48Gly Ile Val Glu Gln Cys Cys His Arg Pro Cys Asp Ile Phe Asp Leu1 5 10 15Gln Ser Tyr Cys Asn20<210>49<211>21<212>PRT
<213>Thunnus thynnus<400>49Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu1 5 10 15Gln Asn Tyr Cys Asn20<210>50<211>21<212>PRT<213>Katsuwonus pelamis<400>50Gly Ile His Glx Glx Cys Cys His Lys Pro Cys Asx Ile Phe Glx Leu1 5 10 15Glx Asx Tyr Cys Asn20<210>51<211>116<212>PRT<213>Lophius piscatorius<400>51Met Ala Ala Leu Trp Leu Gln Ser Phe Ser Leu Leu Val Leu Leu Val1 5 10 15Val Ser Trp Pro Gly Ser Gln Ala Val Ala Pro Ala Gln His Leu Cys20 25 30Gly Ser His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly35 40 45Phe Phe Tyr Asn Pro Lys Arg Asp Val Asp Gln Leu Leu Gly Phe Leu50 55 60
Pro Pro Lys Ser Gly Gly Ala Ala Ala Ala Gly Ala Asp Asn Glu Val65 70 75 80Ala Glu Phe Ala Phe Lys Asp Gln Met Glu Met Met Val Lys Arg Gly85 90 95Ile Val Glu Gln Cys Cys His Arg Pro Cys Asn Ile Phe Asp Leu Gln100 105 110Asn Tyr Cys Asn115<210>52<211>115<212>PRT<213>Myxine glutinosa<400>52Met Ala Leu Ser Pro Phe Leu Ala Ala Val Ile Pro Leu Val Leu Leu1 5 10 15Leu Ser Arg Ala Pro Pro Ser Ala Asp Thr Arg Thr Thr Gly His Leu20 25 30Cys Gly Lys Asp Leu Val Asn Ala Leu Tyr Ile Ala Cys Gly Val Arg35 40 45Gly Phe Phe Tyr Asp Pro Thr Lys Met Lys Arg Asp Thr Gly Ala Leu50 55 60Ala Ala Phe Leu Pro Leu Ala Tyr Ala Glu Asp Asn Glu Ser Gln Asp65 70 75 80Asp Glu Ser Ile Gly Ile Asn Glu Val Leu Lys Ser Lys Arg Gly Ile85 90 95Val Glu Gln Cys Cys His Lys Arg Cys Ser Ile Tyr Asp Leu Glu Asn100 105 110Tyr Cys Asn115
<210>53<211>105<212>PRT<213>Oncorhynchus keta<400>53Met Ala Phe Trp Leu Gln Ala Ala Ser Leu Leu Val Leu Leu Ala Leu1 5 10 15Ser Pro Gly Val Asp Ala Ala Ala Ala Gln His Leu Cys Gly Ser His20 25 30Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Glu Lys Gly Phe Phe Tyr35 40 45Thr Pro Lys Arg Asp Val Asp Pro Leu Ile Gly Phe Leu Ser Pro Lys50 55 60Ser Ala Lys Glu Asn Glu Glu Tyr Pro Phe Lys Asp Gln Thr Glu Met65 70 75 80Met Val Lys Arg Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn85 90 95Ile Phe Asp Leu Gln Asn Tyr Cys Asn100 105<210>54<211>21<212>PRT<213>Myoxocephalus scorpius<400>54Gly Ile Val Glu Gln Cys Cys His Arg Pro Cys Asn Ile Arg Val Leu1 5 10 15Glu Asn Tyr Cys Asn20
<210>55<211>21<212>PRT<213>Lepisosteus spatula<400>55Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Thr Ile Tyr Glu Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>56<211>21<212>PRT<213>Platichthys flesus<400>56Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu1 5 10 15Gln Asn Tyr Cys Asn20<210>57<211>21<212>PRT<213>Hydrolagus colliei<400>57Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Ala Asn Leu1 5 10 15Glu Gly Tyr Cys Asn20
<210>58<211>22<212>PRT<213>Squalus acanthias<400>58Gly Ile Val Glu His Cys Cys His Asn Thr Cys Ser Leu Tyr Asp Leu1 5 10 15Glu Gly Tyr Cys Asn Gln20<210>59<211>21<212>PRT<213>Torpedo marmorata<400>59Gly Ile Val Glu His Cys Cys His Asn Thr Cys Ser Leu Phe Asp Leu1 5 10 15Glu Gly Tyr Cys Asn20<210>60<211>89<212>PRT<213>Callorhinchus milii<400>60Val Pro Thr Gln Arg Leu Cys Gly Ser His Leu Val Asp Ala Leu Tyr1 5 10 15Phe Val Cys Gly Glu Arg Gly Phe Phe Tyr Ser Pro Lys Gln Ile Arg20 25 30
Asp Val Gly Pro Leu Ser Ala Phe Arg Asp Leu Glu Pro Pro Leu Asp35 40 45Thr Glu Met Glu Asp Arg Phe Pro Tyr Arg Gln Gln Leu Ala Gly Ser50 55 60Lys Met Lys Arg Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser65 70 75 80Leu Val Asn Leu Glu Gly Tyr Cys Asn85<210>6l<211>21<212>PRT<213>Petromyzon marinus<400>61Gly Ile Val Glu Gln Cys Cys His Arg Lys Cys Ser Ile Tyr Asp Met1 5 10 15Glu Asn Tyr Cys Asn20<210>62<211>21<212>PRT<213>Oncorhynchus gorbuscha<400>62Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu1 5 10 15Gln Asn Tyr Cys Asn20<210>63
<211>21<212>PRT<213>Amia calva<400>63Gly Ile Val Glu Gln Cys Cys Leu Lys Pro Cys Thr Ile Tyr Glu Met1 5 10 15Glu Lys Tyr Cys Asn20<210>64<211>21<212>PRT<213>Anguilla rostrata<400>64Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Ser Ile Phe Asp Leu1 5 10 15Gln Asn Tyr Cys Asn20<210>65<211>113<212>PRT<213>Oreochromis niloticus<400>65Met Ala Ala Leu Trp Leu Gln Ala Phe Ser Leu Leu Val Leu Met Met1 5 10 15Val Ser Trp Pro Gly Ser Gln Ala Val Gly Gly Pro Gln His Leu Cys20 25 30Gly Ser His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly35 40 45
Phe Phe Tyr Asn Pro Arg Arg Asp Val Asp Pro Leu Leu Gly Phe Leu50 55 60Pro Pro Lys Ala Gly Gly Ala Val Val Gln Gly Gly Glu Asn Glu Val65 70 75 80Thr Phe Lys Asp Gln Met Glu Met Met Val Lys Arg Gly Ile Val Glu85 90 95Glu Cys Cys His Lys Pro Cys Thr Ile Phe Asp Leu Gln Asn Tyr Cys100 105 110Asn<210>66<211>21<212>PRT<213>Acipenser gueldenstaedti<400>66Gly Ile Val Glu Gln Cys Cys His Ser Pro Cys Ser Leu Tyr Asp Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>67<211>21<212>PRT<213>Piaractus mesopotamicus<400>67Gly Ile Val Glu Gln Cys Cys His Lys Pro Cys Ser Ile Phe Asp Leu1 5 10 15Gln Asn Tyr Cys Asn20
<210>68<211>115<212>PRT<213>Verasper moseri<400>68Met Ala Ala Leu Trp Leu Gln Ser Val Ser Leu Leu Val Leu Met Leu1 5 10 15Val Ser Trp Ser Gly Ser Gln Ala Val Leu Pro Pro Gln His Leu Cys20 25 30Gly Ala His Leu Val Asp Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly35 40 45Phe Phe Tyr Thr Pro Lys Arg Asp Val Asp Pro Leu Leu Gly Phe Leu50 55 60Pro Ala Lys Ser Gly Gly Ala Ala Ala Gly Gly Glu Asn Glu Val Ala65 70 75 80Glu Phe Ala Phe Lys Asp Gln Met Glu Met Met Val Lys Arg Gly Ile85 90 95Val Glu Gln Cys Cys His Lys Pro Cys Asn Ile Phe Asp Leu Gln Asn100 105 110Tyr Cys Asn115<210>69<211>30<212>PRT<213>Anquilla anguilla<400>69Asp Val Glu Pro Leu Leu Gly Phe Leu Ser Pro Lys Ser Gly Gln Glu1 5 10 15
Asn Glu Val Asp Asp Phe Pro Tyr Lys Gly Gln Gly Glu Leu20 25 30<210>70<211>106<212>PRT<213>Xenopus laevis<400>70Met Ala Leu Trp Met Gln Cys Leu Pro Leu Val Leu Val Leu Phe Phe1 5 10 15Ser Thr Pro Asn Thr Glu Ala Leu Val Asn Gln His Leu Cys Gly Ser20 25 30His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly Phe Phe35 40 45Tyr Tyr Pro Lys Val Lys Arg Asp Met Glu Gln Ala Leu Val Ser Gly50 55 60Pro Gln Asp Asn Glu Leu Asp Gly Met Gln Leu Gln Pro Gln Glu Tyr65 70 75 80Gln Lys Met Lys Arg Gly Ile Val Glu Gln Cys Cys His Ser Thr Cys85 90 95Ser Leu Phe Gln Leu Glu Ser Tyr Cys Asn100 105<210>71<211>106<212>PRT<213>Xenopus laevis<400>71Met Ala Leu Trp Met Gln Cys Leu Pro Leu Val Leu Val Leu Leu Phe1 5 10 15
Ser Thr Pro Asn Thr Glu Ala Leu Ala Asn Gln His Leu Cys Gly Ser20 25 30His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Asp Arg Gly Phe Phe35 40 45Tyr Tyr Pro Lys Ile Lys Arg Asp Ile Glu Gln Ala Gln Val Asn Gly50 55 60Pro Gln Asp Asn Glu Leu Asp Gly Met Gln Phe Gln Pro Gln Glu Tyr65 70 75 80Gln Lys Met Lys Arg Gly Ile Val Glu Gln Cys Cys His Ser Thr Cys85 90 95Ser Leu Phe Gln Leu Glu Asn Tyr Cys Asn100 105<210>72<211>21<212>PRT<213>Trachemys scripta<400>72Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>73<211>21<212>PRT<213>Alligator mississippiensis<400>73Gly Ile Val Glu Gln Cys Cys His Asn Thr Cys Ser Leu Tyr Gln Leu1 5 10 15
Glu Asn Tyr Cys Asn20<210>74<211>21<212>PRT<213>Zaocys dhumnades<400>74Gly Ile Val Glu Gln Cys Cys Glu Asn Thr Cys Ser Leu Tyr Glu Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>75<211>21<212>PRT<213>Crotalus atrox<400>75Gly Ile Val Glu Gln Cys Cys Glu Asn Thr Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>76<211>114<212>PRT<213>Artificial Sequence<220>
<223>Preproinsulin
<400>76Met Gly Leu Trp Ile Arg Leu Leu Pro Leu Ile Ala Leu Leu Ile Leu1 5 10 15Trp Gly Pro Asp Pro Ala Ala Ala Glu Phe Arg Met Phe Val Asn Gln20 25 30His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly35 40 45Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp50 55 60Leu Gln Val Gly Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser65 70 75 80Leu Gln Pro Leu Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val85 90 95Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr100 105 110Cys Asn<210>77<211>21<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>77Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>78
<211>30<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>78Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>79<211>53<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>79Phe Val Asp Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys20 25 30Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Glu Leu35 40 45Glu Asp Tyr Cys Asn50<210>80<211>53<212>PRT
<213>Artificial Sequence<220>
<223>Insulin<400>80Phe Val Glu Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys20 25 30Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu35 40 45Glu Glu Tyr Cys Asn50<210>81<211>53<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>81Phe Val Gln Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys20 25 30Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu35 40 45Glu Asn Tyr Cys Gly50<210>82
<211>53<212>PRT<213>Artificial Sequence<220>
<223>Unnamed protein product with insulin homology<400>82Phe Val Thr Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys20 25 30Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu35 40 45Glu His Tyr Cys Ser50<210>83<211>57<212>PRT<213>Artificial Sequence<220>
<223>Proinsulin<400>83Asn Ser Asn Gly Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu1 5 10 15Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr20 25 30Pro Lys Thr Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser35 40 45Leu Tyr Gln Leu Glu Asn Tyr Cys Asn50 55
<210>84<211>58<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>84Asn Ser Asn Gly Lys Phe Val Asn Gln His Leu Cys Gly Ser His Leu1 5 10 15Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr20 25 30Pro Lys Thr Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys35 40 45Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn50 55<210>85<211>50<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>85Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Gly Ile Val20 25 30Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr35 40 45
Cys Asn50<210>86<211>54<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>86Arg Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu1 5 10 15Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala20 25 30Lys Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln35 40 45Leu Glu Asn Tyr Cys Asn50<210>87<211>61<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>87Lys Glu Thr Leu Thr Ile Thr Cys Ala Val Pro Thr Trp Leu Lys Leu1 5 10 15Trp Thr Trp Phe Ala Val Lys Glu Val Ser Ser Thr Asn Leu Arg Leu20 25 30
Leu Arg Val Leu Ser Asn Asn Ala Val Pro Pro Ser Ala Pro Cys Thr35 40 45Asn Trp Lys Thr Thr Ala Thr Arg Arg Ser Pro Gln Ala50 55 60<210>88<211>61<212>PRT<213>Artificial Sequence<220>
<223>Preproinsulin<400>88Lys Asp Ser Leu Thr Asn Thr Cys Ala Val Ser Thr Trp Leu Lys Leu1 5 10 15Cys Thr Trp Phe Ala Val Lys Glu Val Ser Ser Thr Leu Leu Arg Leu20 25 30Leu Arg Val Leu Ser Asn Asn Ala Val Pro Pro Ser Ala Asn Tyr Thr35 40 45Asn Trp Lys Thr Thr Ala Thr Arg Arg Ser Pro Gln Ala50 55 60<210>89<211>87<212>PRT<213>Artificial Sequence<220>
<223>Proinsulin<400>89Met Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu1 5 10 15
Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg20 25 30Arg Glu Ala Glu Asp Leu Gln Val Gly Gln Val Glu Leu Gly Gly Gly35 40 45Pro Gly Ala Gly Ser Leu Gln Pro Leu Ala Leu Glu Gly Ser Leu Gln50 55 60Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr65 70 75 80Gln Leu Glu Asn Tyr Cys Asn85<210>90<211>35<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>90Arg Arg Glu Ala Glu Asp Leu Gln Val Gly Gln Val Glu Leu Gly Gly1 5 10 15Gly Pro Gly Ala Gly Ser Leu Gln Pro Leu Ala Leu Glu Gly Ser Leu20 25 30Gln Lys Arg35<210>91<211>23<212>PRT<213>Artificial Sequence
<220>
<223>Insulin<400>91Gly Pro Glu Thr Leu Cys Gly Ala Glu Leu Val Asp Ala Leu Gln Phe1 5 10 15Val Cys Gly Asp Arg Gly Phe20<210>92<211>124<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>92Met Lys Leu Lys Thr Val Arg Ser Ala Val Leu Ser Ser Leu Phe Ala1 5 10 15Ser Gln Val Leu Gly Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr20 25 30Ser Val Asn Leu Met Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln35 40 45Thr Asn Ser Gly Gly Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys50 55 60Arg Glu Glu Gly Glu Pro Lys Phe Val Asn Gln His Leu Cys Gly Ser65 70 75 80His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Phe Phe85 90 95Tyr Thr Pro Lys Ala Ala Lys Gly Ile Val Glu Gln Cys Cys Thr Ser100 105 110Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn115 120
<210>93<211>171<212>DNA<213>Artificial Sequence<220>
<223>Insulin<400>93tttgtcaatc agcacctttg tggttctcac ctggtggagg ctctgtacct ggtgtgtggg 60gaacgtggtt tcttctacac acccaagacc cgtcgtaagc ttaagcgtgg cattgtggag120cagtgctgca ccagcatctg ctccctctac caactggaga actactgcaa c 171<210>94<211>21<212>PRT<213>Artificial Sequence<220>
<223>Insulin analogue<400>94Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>95<211>26<212>PRT<213>Artificial Sequence<220>
<223>Insulin analogue<220>
<221>MISC_FEATURE<222>(26)..(26)<223>X＝any amino acid<400>95Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Xaa20 25<210>96<211>21<212>PRT<213>Homo sapiens<400>96Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>97<211>29<212>PRT<213>Homo sapiens<400>97Glu Val Asn Gln His Leu Cys Gly Ser Glu Leu Val Glu Ala Leu Glu1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Glu Pro Lys20 25
<210>98<211>21<212>PRT<213>Homo sapiens<400>98Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>99<211>30<212>PRT<213>Homo sapiens<400>99Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu His1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>100<211>21<212>PRT<213>Homo sapiens<400>100Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20
<210>101<211>30<212>PRT<213>Homo sapiens<400>101Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>102<211>21<212>PRT<213>Homo sapiens<400>102Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>103<211>30<212>PRT<213>Homo sapiens<400>103Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30
<210>104<211>21<212>PRT<213>Homo sapiens<220>
<221>MISC_FEATURE<222>(8)..(8)<223>X＝any amino acid<400>104Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>105<211>30<212>PRT<213>Homo sapiens<400>105Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>106<211>21<212>PRT<213>Homo sapiens
<220>
<221>MISC_FEATURE<222>(8)..(8)<223>X＝any amino acid<400>106Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>107<211>30<212>PRT<213>Homo sapiens<400>107Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>108<211>21<212>PRT<213>Homo sapiens<220>
<221>MISC_FEATURE<222>(2)..(2)<223>X＝any amino acids
<400>108Gly Xaa Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>109<211>30<212>PRT<213>Homo sapiens<400>109Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr20 25 30<210>110<211>21<212>PRT<213>Homo sapiens<400>110Gly Ala Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>111<211>30<212>PRT<213>Homo sapiens
<400>111Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr20 25 30<210>112<211>21<212>PRT<213>Artificial Sequence<220>
<223>Insulin analogue<220>
<221>MISC_FEATURE<222>(2)..(2)<223>X＝any amino acid<400>112Gly Xaa Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>113<211>30<212>PRT<213>Artificial Sequence<220>
<223>Insulin analogue
<400>113Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>114<211>21<212>PRT<213>Artificial Sequence<220>
<223>Insulin analogue<220>
<221>MISC_FEATURE<222>(2)..(2)<223>X＝any amino acid<400>114Gly Xaa Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>115<211>30<212>PRT<213>Artificial Sequence<220>
<223>Insulin analogue<400>115
Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>116<211>21<212>PRT<213>Homo sapiens<400>116Gly Gly Gly Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>117<211>30<212>PRT<213>Homo sapiens<400>117Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr20 25 30<210>118<211>21<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin mutant<220>
<221>MISC_FEATURE<222>(1)..(1)<223>X＝any amino acid<400>118Xaa Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>119<211>30<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin mutant<220>
<221>MISC_FEATURE<222>(1)..(1)<223>X＝any amino acid<400>119Xaa Val Asn Gln His Leu Cys Gly Asp His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>120<211>21
<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin mutant<400>120Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>121<211>29<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin mutant<400>121Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Tyr Thr Pro Lys Thr20 25<210>122<211>21<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin<400>122
Gly Ile Val Glu Gln Ser Cys Thr Ser Ile Ser Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>123<211>30<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin<400>123Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Lys Pro Thr20 25 30<210>124<211>79<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>124Met Asp Pro Gly Asp Pro Glu Cys Leu Glu Gln Leu Leu Arg Arg Leu1 5 10 15Gly Gly Ser Val Glu Val Glu Val Thr Gly Gly Thr Val His Val Glu20 25 30Val Ser Pro Glu Asp Pro Gly Asp Pro Glu Cys Leu Glu Gln Leu Leu35 40 45
Arg Arg Leu Gly Gly Ser Val Glu Val Glu Val Thr Gly Gly Thr Val50 55 60His Val Glu Val Ser Pro Gly Glu Arg Gly Phe Phe Tyr Cys Asn65 70 75<210>125<211>87<212>PRT<213>Artificial Sequence<220>
<223>Insulin<400>125Met Leu Lys Glu Lys Lys Tyr Ser Pro Asp Pro Gly Asp Pro Glu Cys1 5 10 15Leu Glu Gln Leu Leu Arg Arg Leu Gly Gly Ser Val Glu Val Glu Val20 25 30Thr Gly Gly Thr Val His Val Glu Val Ser Pro Glu Asp Pro Gly Asp35 40 45Pro Glu Cys Leu Glu Gln Leu Leu Arg Arg Leu Gly Gly Ser Val Glu50 55 60Val Glu Val Thr Gly Gly Thr Val His Val Glu Val Ser Pro Gly Glu65 70 75 80Arg Gly Phe Phe Tyr Cys Asn85<210>126<211>23<212>PRT<213>Artificial Sequence<220>
<223>Insulin fusion protein<220>
<221>MISC_FEATURE<222>(5)..(5)<223>X＝any amino acid<220>
<221>MISC_FEATURE<222>(18)..(18)<223>X＝any amino acid<400>126Met Ala Thr Ser Xaa Ser Thr Lys Lys Thr Gln Leu Gln Leu Glu His1 5 10 15Leu Xaa Leu Asp Leu Gln Met20<210>127<211>23<212>PRT<213>Escherichia coli<220>
<221>MISC_FEATURE<222>(14)..(14)<223>X＝any amino acid<220>
<221>MISC_FEATURE<222>(17)..(17)<223>X＝any amino acid
<400>127Thr Met Ile Thr Asp Ser Leu Ala Val Val Leu Gln Arg Xaa Asp Trp1 5 10 15Xaa Pro Gly Val Thr Gln Leu20<210>128<211>96<212>PRT<213>Brevibacillus brevis<400>128Asn Ser Val Leu Ala Ser Ala Leu Ala Leu Thr Val Ala Pro Met Ala1 5 10 15Phe Ala Asn Ser Asp Ser Glu Ser Pro Leu Ser His Asp Gly Tyr Ser20 25 30Leu His Asp Gly Val Ser Met Tyr Ile Glu Ala Leu Asp Lys Phe Val35 40 45Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val50 55 60Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Gly Ile Val Glu Gln65 70 75 80Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn85 90 95<210>129<211>25<212>PRT<213>Artificial Sequence<220>
<223>Insulin fusion protein<400>129Asp Thr Thr Met Pro Ala Gly Gly Gly Gly Gly Gly Gln His Leu Cys1 5 10 15Gly Pro His Leu Val Glu Ala Leu Tyr20 25<210>130<211>6<212>PRT<213>Artificial Sequence<220>
<223>Insulin fusion protein<400>130Leu Glu Asn Tyr Cys Asn1 5<210>131<211>22<212>PRT<213>Artificial Sequence<220>
<223>Insulin fusion protein<400>131Met Thr Met Ile Thr Asp Ser Leu Glu Phe Gln Ala Trp Gly Gly Gly1 5 10 15Gly Gly Trp Met Arg Phe20<210>132<211>22
<212>PRT<213>Artificial Sequence<220>
<223>Insulin fusion protein<400>132Met Val Leu Arg Phe Leu Pro Leu Leu Ala Leu Leu Val Leu Trp Glu1 5 10 15Pro Lys Pro Ala Gln Ala20<210>133<211>60<212>PRT<213>Artificial Sequence<220>
<223>Mini-proinsulin<400>133Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg20 25 30Tyr Pro Gly Asp Val Lys Arg Gly Ile Val Glu Gln Cys Cys Thr Ser35 40 45Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn50 55 60<210>134<211>21<212>PRT<213>Homo sapiens
<400>134Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>135<211>30<212>PRT<213>Homo sapiens<400>135Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>136<211>21<212>PRT<213>Homo sapiens<400>136Gly Ile Val Glu Gln Cys Cys Lys Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>137<211>30<212>PRT<213>Homo sapiens
<400>137Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>138<211>14<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin<400>138Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu Arg Gly Gly1 5 10<210>139<211>21<212>PRT<213>Homo sapiens<220>
<221>MISC_FEATURE<222>(8)..(8)<223>X＝any amino acid<400>139Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20
<210>140<211>30<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin<400>140Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>141<211>21<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin<220>
<221>MISC_FEATURE<222>(8)..(8)<223>X＝any amino acid<400>141Gly Ile Val Glu Gln Cys Cys Xaa Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20
<210>142<211>30<212>PRT<213>Artificial Sequence<220>
<223>Homo sapiens insulin<400>142Phe Val Asn Gln His Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Pro Lys Thr20 25 30<210>143<211>21<212>PRT<213>Artificial Sequence<220>
<223>Mini-proinsulin mutant<400>143Gly Ile Val Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu1 5 10 15Glu Asn Tyr Cys Asn20<210>144<211>29<212>PRT<213>Artificial Sequence<220>
<223>Mini-proinsulin mutant<400>144Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Asp Lys20 25<210>145<211>50<212>PRT<213>Artificial Sequence<220>
<223>Mini-proinsulin mutant<400>145Phe Val Asn Gln His Leu Cys Gly Ser Asp Leu Val Glu Ala Leu Tyr1 5 10 15Leu Val Cys Gly Glu Arg Gly Phe Phe Tyr Thr Asp Lys Gly Ile Val20 25 30Glu Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr35 40 45Cys Asn50<210>146<211>3<212>PRT<213>Artificial Sequence<220>
<223>Insulin C-peptide<400>146
Ala Ala Lys1<210>147<211>3<212>PRT<213>Artificial Sequence<220>
<223>Insulin C-peptide<400>147Asn Lys Arg1<210>148<211>6<212>PRT<213>Artificial Sequence<220>
<223>Insulin C-peptide<400>148Arg Arg Lys Gln Lys Arg1 5<210>149<211>4<212>PRT<213>Artificial Sequence<220>
<223>Cleavage site<400>149
Arg Arg Lys Arg1<210>150<211>4<212>PRT<213>Artificial Sequence<220>
<223>ER retention sequence<400>150Lys Asp Glu Leu1<210>151<211>4<212>PRT<213>Artificial Sequence<220>
<223>ER retention sequence<400>151His Asp Glu Leu1<210>152<211>4<212>PRT<213>Artificial Sequence<220>
<223>ER retention sequence<400>152
Asp Asp Glu Leu1<210>153<211>4<212>PRT<213>Artificial Sequence<220>
<223>ER retention sequence<400>153Ala Asp Glu Leu1<210>154<211>4<212>PRT<213>Artificial Sequence<220>
<223>ER retention sequence<400>154Ser Asp Glu Leu1<210>155<211>4<212>PRT<213>Lycopersicon esculentum Mill<400>155His Asp Glu Phe1
<210>156<211>118<212>PRT<213>Arabidopsis thaliana<400>156Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp1 5 10 15Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly20 25 30Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr35 40 45Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu50 55 60Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile65 70 75 80Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile85 90 95Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val100 105 110Phe Ser Trp Ile Tyr Lys115<210>157<211>187<212>PRT<213>Brassica napus<400>157Met Ala Asp Thr Ala Arg Thr His His Asp Val Thr Ser Arg Asp Gln1 5 10 15
Tyr Pro Arg Asp Arg Asp Gln Tyr Ser Met Ile Gly Arg Asp Arg Asp20 25 30Gln Tyr Ser Met Met Gly Arg Asp Arg Asp Gln Tyr Asn Met Tyr Gly35 40 45Arg Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Val Thr Ala Val50 55 60Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu Val Gly65 70 75 80Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile Phe Ser85 90 95Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile Thr Gly100 105 110Phe Leu Ser Ser Gly Gly Phe Ala Ile Ala Ala Ile Thr Val Phe Ser115 120 125Trp Ile Tyr Lys Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys130 135 140Leu Asp Ser Ala Arg Met Lys Leu Gly Thr Lys Ala Gln Asp Ile Lys145 150 155 160Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp165 170 175Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr180 185<210>158<211>748<212>DNA<213>Arabidopsis thaliana<400>158taccatgggg tcaaagacgg agatgatgga gagagacgca atggctacgg tggctcccta 60tgcgccggtc acttaccatc gccgtgctcg tgttgacttg gatgatagac ttcctaaacc120ttatatgcca agagcattgc aagcaccaga cagagaacac ccgtacggaa ctccaggcca180
taagaattac ggacttagtg ttcttcaaca gcatgtctcc ttcttcgata tcgatgataa240tggcatcatt tacccttggg agacctactc tggactgcga atgcttggtt tcaatatcat300tgggtcgctt ataatagccg ctgttatcaa cctgaccctt agctatgcca ctcttccggg360gtggttacct tcacctttct tccctatata catacacaac atacacaagt caaagcatgg420aagtgattca aaaacatatg acaatgaagg aaggtttatg ccggtgaatc ttgagttgat480atttagcaaa tatgcgaaaa ccttgccaga caagttgagt cttggagaac tatgggagat540gacagaagga aaccgtgacg cttgggacat ttttggatgg atcgcaggca aaatagagtg600gggactgttg tacttgctag caagggatga agaagggttt ttgtcaaaag aagctattag660gcggtgtttc gatggaagct tgttcgagta ctgtgccaaa atctacgctg gtatcagtga720agacaagaca gcatactacg ccatggat 748<210>159<211>738<212>DNA<213>Arabidopsis thaliana<400>159atggggtcaa agacggagat gatggagaga gacgcaatgg ctacggtggc tccctatgcg60ccggtcactt accaccgccg tgctcgtgtt gacttggatg atagacttcc taaaccttat120atgccaagag cattgcaagc accagacaga gaacacccgt acggaactcc aggccataag180aattacggac ttagtgttct tcaacagcat gtctccttct tcgatatcga tgataatggc240atcatttacc cttgggagac ctactctgga ctgcgaatgc ttggtttcaa tatcattggg300tcgcttataa tagccgctgt tatcaacctg acccttagct atgccactct tccggggtgg360ttaccttcac ctttcttccc tatatacata cacaacatac acaagtcaaa gcatggaagt420gattcaaaaa catatgacaa tgaaggaagg tttatgccgg tgaatcttga gttgatattt480agcaaatatg cgaaaacctt gccagacaag ttgagtcttg gagaactatg ggagatgaca540gaaggaaacc gtgacgcttg ggacattttt ggatggatcg caggcaaaat agagtgggga600ctgttgtact tgctagcaag ggatgaagaa gggtttttgt caaaagaagc tattaggcgg660tgtttcgatg gaagcttgtt cgagtactgt gccaaaatct acgctggtat cagtgaagac720aaqacaqcat actactaa 738
<210>160<211>1047<212>DNA<213>Sesamum indicum<400>160atggatctaa tccacacttt cctcaactta atagctcccc ctttcacctt cttcttcctt 60ctctttttct tgccaccctt ccagattttc aagttcttcc tttcaatctt gggcaccctt 120ttcagcgagg atgtcgctgg aaaagtcgtc gtcatcaccg gcgcctcctc cggcatcggc 180gaaagtcttg cttacgagta tgctaagaga ggggcgtgct tggtgcttgc tgcaagaagg 240gaaaggagtc ttcaagaagt ggccgaaagg gcgcgcgatt tggggtcgcc ggacgtcgtg 300gtggtccggg ccgatgtttc gaaggcggag gactgcagga aggttgttga tcagactatg 360aatcgctttg gaagattgga tcacctggtc aataacgctg gaattatgtc agtttcaatg 420ctggaagaag ttgaagatat tactggttac agagaaacta tggatatcaa cttctggggc 480tatgtgtata tgacccgatt tgccgcccca taccttagga atagcagagg ccgaattgtt 540gtactttctt catccagttc ttggatgcct actccgagga tgagttttta caatgcaagc 600aaagcggcga tttcacaatt ttttgagaca ctgcgggtgg aattcggccc cgatataggc 660ataacccttg tgactccagg attcatagaa tctgaactta cccaaggcaa attctacaat 720gctggcgaac gtgtaattga tcaggacatg agagatgtac aagtgagcac gactccaatc 780ctgagggtgg aaagtgcggc aaggtcaatc gtgaggagcg cgatccgtgg agaaagatac 840gtgacagagc cggcctggtt tagggttact tattggtgga agctattctg ccctgaggtg 900atggagtggg tatttagact gatgtacttg gccagcccgg gtgagccgga gaaggaaacg 960tttggcaaga aggttttgga ttacacagga gtgaagtcct tgctttaccc ggaaaccgtg1020caagttccgg agcccaagaa tgattaa1047<210>161<211>25<212>PRT<213>Tobacco，pathogensis related protein(PR-S)signal sequence<400>161
Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly1 5 10 15Gln Tyr Phe Val Ala Val Thr His Ala20 25<210>162<211>64<212>PRT<213>Artificial Sequence<220>
<223>Alpha factor leader seqence<400>162Ala Pro Val Asn Thr Thr Glu Asp Glu Thr Ala Gln Ala Glu Ala Val1 5 10 15Ile Gly Tyr Ser Asp Leu Glu Gly Asp Phe Asp Val Ala Val Leu Pro20 25 30Phe Ser Asn Ser Thr Asn Asn Gly Leu Leu Phe Ile Asx Thr Thr Ile35 40 45Ala Ser Ile Ala Ala Lys Glu Glu Gly Val Ser Leu Met Ala Lys Arg50 55 60<210>163<211>63<212>PRT<213>Artificial Sequence<220>
<223>Alpha factor leader sequence<400>163Ala Pro Val Asn Thr Thr Glu Asp Glu Thr Ala Gln Ala Glu Ala Val1 5 10 15
Ile Gly Tyr Ser Asp Leu Glu Gly Asp Phe Asp Val Ala Val Leu Pro20 25 30Phe Ser Asn Ser Thr Asn Asn Gly Leu Leu Phe Ile Asx Thr Thr Ile35 40 45Ala Ser Ile Ala Ala Lys Glu Glu Gly Val Ser Met Ala Lys Arg50 55 60<210>164<211>15<212>PRT<213>Artificial Sequence<220>
<223>Alpha factor leader sequence<400>164Gln Pro Ile Asp Glu Asp Asn Asp Thr Ser Ser Met Ala Lys Arg1 5 10 15<210>165<211>43<212>PRT<213>Artificial Sequence<220>
<223>Alpha factor leader sequence<400>165Gln Pro Ile Asp Asp Thr Glu Ser Asn Thr Thr Ser Val Asn Leu Met1 5 10 15Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Asn Thr Thr Leu Ala Leu20 25 30Asp Val Val Asn Leu Ile Ser Met Ala Lys Arg35 40
<210>166<211>43<212>PRT<213>Artificial Sequence<220>
<223>Alpha factor leader sequence<400>166Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met1 5 10 15Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Gln Thr Thr Leu Ala Leu20 25 30Asp Val Val Asn Leu Ile Ser Met Ala Lys Arg35 40<210>167<211>43<212>PRT<213>Artificial Sequence<220>
<223>Alpha factor leader sequence<400>167Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met1 5 10 15Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Gln Thr Thr Leu Ala Leu20 25 30Asp Val Val Asn Leu Ile Ser Met Ala Ala Ala35 40<210>168<211>43
<212>PRT<213>Artificial Sequence<220>
<223>Alpha factor leader sequence<400>168Gln Pro Ile Asp Asp Thr Glu Ser Asn Thr Thr Ser Val Asn Leu Met1 5 10 15Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Asn Thr Thr Leu Ala Leu20 25 30Asp Val Val Asn Leu Ile Ser Met Ala Ala Ala35 40<210>169<211>45<212>PRT<213>Artificial Sequence<220>
<223>Alpha factor leader sequence<400>169Gln Pro Ile Asp Asp Thr Glu Ser Asn Thr Thr Ser Val Asn Leu Met1 5 10 15Ala Asp Asp Thr Glu Asp Arg Phe Ala Thr Asn Thr Thr Leu Ala Gly20 25 30Gly Leu Asp Val Val Asn Leu Ile Ser Met Ala Lys Arg35 40 45<210>170<211>44<212>PRT<213>Artificial Sequence
<220>
<223>Alpha factor leader sequence<400>170Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met1 5 10 15Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn Ser Gly Gly20 25 30Leu Asp Val Val Gly Leu Ile Ser Met Ala Lys Arg35 40<210>171<211>44<212>PRT<213>Artificial Sequence<220>
<223>Alpha factor leader sequence<400>171Gln Pro Ile Asp Asp Thr Glu Ser Gln Thr Thr Ser Val Asn Leu Met1 5 10 15Ala Asp Asp Thr Glu Ser Ala Phe Ala Thr Gln Thr Asn Ser Gly Gly20 25 30Leu Asp Val Val Gly Leu Ile Ser Met Ala Ala Ala35 40<210>172<211>10<212>PRT<213>Spacer peptide<400>172
Glu Glu Ala Glu Ala Glu Ala Glu Pro Lys1 5 10<210>173<211>6<212>PRT<213>Artificial Sequence<220>
<223>Spacer peptide<400>173Glu Glu Gly Glu Pro Lys1 5<210>174<211>40<212>PRT<213>Artificial Sequence<220>
<223>Cleavage site<400>174Met Ala Glu Ile Thr Arg Ile Pro Leu Tyr Lys Gly Lys Ser Leu Arg1 5 10 15Lys Ala Leu Lys Glu His Gly Leu Leu Glu Asp Phe Leu Gln Lys Gln20 25 30Gln Tyr Gly Ile Ser Ser Lys Phe35 40<210>175<211>27<212>DNA<213>Artificial Sequence
<220>
<223>Primer<400>175gcatgctgac attgtgatga cacagtc 27<210>176<211>43<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>176aagcttgcat ttaaatactc gagactgtga gagtggtgcc ttg43<210>177<211>70<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>177gaagaaggag agcctaagtt tgttaatcaa catctttgtg gatctcatct tgttgaggct 60ctctaccttg70<210>178<211>56<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>178ccttaggagt gtagaaaaat cctctttctc cacacacaag gtagagagcc tcaaca 56<210>179<211>21<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>179ctaaggctgc taagggaatt g 21<210>180<211>83<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>180aagcttcagt tgcaatagtt ctccaattgg taaagtgagc aaatagaagt gcaacattgt60tcaacaattc ccttagcagc ctt83<210>181<211>30<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>181ctcgagtcaa ccaattgatg acactgaatc 30
<210>182<211>41<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>182aagcttcaaa gttcatcctt gttgcaatag ttctccaatt g 41<210>183<211>21<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>183aagcttcagt tgcaatagtt c 21<210>184<211>26<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>184gcatgcccaa ccaattgatg acactg 26<210>185<211>34
<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>185gcatgcatgc ctttgttaat caacatcttt gtgg 34<210>186<211>54<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>186acattgttca acaattcctc tctttcttct agtcttagga gtgtagaaaa atcc 54<210>187<211>29<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>187gcataagctt caaagctcat cctttgagc 29<210>188<211>387<212>DNA<213>Artificial Sequence
<220>
<223>Insulin fusion protein nucleic acid sequence<400>188atgaacttcc ttaagtcttt ccctttctac gctttccttt gtttcggtca atacttcgtt 60gctgttacgc atgcccaacc aattgatgac actgaatccc agaccacgtc agtgaacctc120atggccgatg atactgagag cgcgtttgct acacaaacaa attcgggagg tcttgacgtt180gtcggattga tctccatggc taagagagaa gaaggagagc ctaagtttgt taatcaacat240ctttgtggat ctcatcttgt tgaggctctc taccttgtgt gtggagaaag aggatttttc300tacactccta aggctgctaa gggaattgtt gaacaatgtt gcacttctat ttgctcactt360taccaattgg agaactattg caactga387<210>189<211>128<212>PRT<213>Artificial Sequence<220>
<223>Insulin factor protein<400>189Met Asn Phe Leu Lys Ser Phe Pro Phe Tyr Ala Phe Leu Cys Phe Gly1 5 10 15Gln Tyr Phe Val Ala Val Thr His Ala Gln Pro Ile Asp Asp Thr Glu20 25 30Ser Gln Thr Thr Ser Val Asn Leu Met Ala Asp Asp Thr Glu Ser Ala35 40 45Phe Ala Thr Gln Thr Asn Ser Gly Gly Leu Asp Val Val Gly Leu Ile50 55 60Ser Met Ala Lys Arg Glu Glu Gly Glu Pro Lys Phe Val Asn Gln His65 70 75 80Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu85 90 95
Arg Gly Phe Phe Tyr Thr Pro Lys Ala Ala Lys Gly Ile Val Glu Gln100 105 110Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys Asn115 120 125<210>190<211>18<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>190ttcgtgaacc aacacttg18<210>191<211>20<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>191aagctttcag ttacagtagt 20<210>192<211>17<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>192gcatgcatgt gttgagc 17
<210>193<211>16<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>193ggtagtgtgc tggcca 16<210>194<211>38<212>DNA<213>Artificial Sequence<220>
<223>Primer<400>194ggtggccagc acactacctt cgtgaaccaa cacttgtg 38<210>195<211>1020<212>DNA<213>Artificial Sequence<220>
<223>Insulin fusion protein nucleic acid sequence<400>195atggcggata cagctagagg aacccatcac gatatcatcg gcagagacca gtacccgatg 60atgggccgag accgagacca gtaccagatg tccggacgag gatctgacta ctccaagtct120aggcagattg ctaaagctgc aactgctgtc acagctggtg gttccctcct tgttctctcc180agccttaccc ttgttggaac tgtcatagct ttgactgttg caacacctct gctcgttatc240
ttcagcccaa tccttgtccc ggctctcatc acagttgcac tcctcatcac cggttttctt 300tcctctggag ggtttggcat tgccgctata accgttttct cttggattta caagtaagca 360cacatttatc atcttacttc ataattttgt gcaatatgtg catgcatgtg ttgagccagt 420agctttggat caattttttt ggtagaataa caaatgtaac aataagaaat tgcaaattct 480agggaacatt tggttaacta aatacgaaat ttgacctagc tagcttgaat gtgtctgtgt 540atatcatcta tataggtaaa atgcttggta tgatacctat tgattgtgaa taggtacgca 600acgggagagc acccacaggg atcagacaag ttggacagtg caaggatgaa gttgggaagc 660aaagctcagg atctgaaaga cagagctcag tactacggac agcaacatac tggtggggaa 720catgaccgtg accgtactcg tggtggccag cacactacct tcgtgaacca acacttgtgt 780ggatctcatc tcgttgaagc tctctacttg gtttgtggtg agagaggatt cttctacact 840cctaagacca gaagggaagc tgaggacttg caggtgggac aagttgagtt gggtggaggt 900cctggagcag gatctttgca acctctcgct ttggaaggtt ctttgcagaa gagaggaatc 960gttgaacaat gttgcacttc aatctgttct ttgtatcagt tggagaacta ctgtaactga1020<210>196<211>257<212>PRT<213>Artificial Sequence<220>
<223>Insulin fusion protein<400>196Met Ala Asp Thr Ala Arg Gly Thr His His Asp Ile Ile Gly Arg Asp1 5 10 15Gln Tyr Pro Met Met Gly Arg Asp Arg Asp Gln Tyr Gln Met Ser Gly20 25 30Arg Gly Ser Asp Tyr Ser Lys Ser Arg Gln Ile Ala Lys Ala Ala Thr35 40 45Ala Val Thr Ala Gly Gly Ser Leu Leu Val Leu Ser Ser Leu Thr Leu50 55 60
Val Gly Thr Val Ile Ala Leu Thr Val Ala Thr Pro Leu Leu Val Ile65 70 75 80Phe Ser Pro Ile Leu Val Pro Ala Leu Ile Thr Val Ala Leu Leu Ile85 90 95Thr Gly Phe Leu Ser Ser Gly Gly Phe Gly Ile Ala Ala Ile Thr Val100 105 110Phe Ser Trp Ile Tyr Ala Thr Gly Glu His Pro Gln Gly Ser Asp Lys115 120 125Leu Asp Ser Ala Arg Met Lys Leu Gly Ser Lys Ala Gln Asp Leu Lys130 135 140Asp Arg Ala Gln Tyr Tyr Gly Gln Gln His Thr Gly Gly Glu His Asp145 150 155 160Arg Asp Arg Thr Arg Gly Gly Gln His Thr Thr Phe Val Asn Gln His165 170 175Leu Cys Gly Ser His Leu Val Glu Ala Leu Tyr Leu Val Cys Gly Glu180 185 190Arg Gly Phe Phe Tyr Thr Pro Lys Thr Arg Arg Glu Ala Glu Asp Leu195 200 205Gln Val Gly Gln Val Glu Leu Gly Gly Gly Pro Gly Ala Gly Ser Leu210 215 220Gln Pro Leu Ala Leu Glu Gly Ser Leu Gln Lys Arg Gly Ile Val Glu225 230 235 240Gln Cys Cys Thr Ser Ile Cys Ser Leu Tyr Gln Leu Glu Asn Tyr Cys245 250 255Asn
權利要求
1.一種在植物種子內(nèi)表達胰島素的方法，包括(a)提供嵌合核酸構建體，其包括在轉(zhuǎn)錄的5’至3’方向可操縱連接的下列組分(i)能夠在植物種子細胞中控制表達的核酸序列；和(ii)編碼胰島素多肽的核酸序列；(b)把嵌合核酸構建體導入種子細胞內(nèi)；以及(c)令植物細胞成長為成熟植物，所述植物能夠結種子，其中種子表達胰島素。
2.如權利要求1的方法，其中胰島素多肽在植物細胞中膜包圍的細胞內(nèi)區(qū)室內(nèi)累積。
3.如權利要求2的方法，其中所述膜包圍的細胞內(nèi)區(qū)室是內(nèi)質(zhì)網(wǎng)(ER)或ER衍生的儲存小泡。
4.如權利要求1的方法，其中所述嵌合核酸序列另包括編碼一種多肽的核酸序列，該多肽能夠把胰島素多肽保持在膜包圍的細胞內(nèi)區(qū)室中。
5.如權利要求4的方法，其中所述膜包圍的細胞內(nèi)區(qū)室是內(nèi)質(zhì)網(wǎng)(ER)或ER衍生的儲存細胞器。
6.如權利要求5的方法，其中所述把胰島素多肽保持在ER內(nèi)的多肽選自KDEL、HDEL、DDEL、ADEL和SDEL。
7.如權利要求5的方法，其中所述把胰島素多肽保持在ER內(nèi)的多肽選自SEQ ID NO150、SEQ ID NO151、SEQ ID NO152、SEQ ID NO153和SEQ ID NO154。
8.如權利要求6或7的方法，其中所述胰島素多肽另包括編碼信號肽的核酸序列。
9.如權利要求8的方法，其中所述信號肽是煙草發(fā)病相關蛋白(PR-S)信號序列。
10.如權利要求8的方法，其中所述信號序列是SEQ ID NO161。
11.如權利要求5的方法，其中所述ER衍生儲存細胞器是油體。
12.如權利要求5的方法，其中所述把胰島素多肽保持于ER衍生儲存細胞器內(nèi)的多肽是油體蛋白質(zhì)。
13.如權利要求12的方法，其中所述油體蛋白質(zhì)選自油質(zhì)蛋白、油體鈣蛋白和油體固醇蛋白。
14.如權利要求12的方法，其中該油體蛋白質(zhì)選自SEQ ID NO156、SEQ ID NO157、SEQ ID NO158、SEQ ID NO159和SEQID NO160。
15.如權利要求4的方法，其中所述嵌合核酸另包含編碼穩(wěn)定蛋白的核酸序列，其與編碼胰島素的核酸序列在讀框內(nèi)融合。
16.如權利要求15的方法，其中所述嵌合核酸另含有編碼信號肽序列的核酸序列，其與編碼胰島素的核酸序列在讀框內(nèi)融合。
17.如權利要求15的方法，其中所述信號肽是煙草發(fā)病相關蛋白(PR-5)信號序列。
18.如權利要求17的方法，其中所述信號肽是SEQ ID NO161。
19.如權利要求15的方法，其中在種子收獲和研磨時，所述編碼所述穩(wěn)定蛋白的核酸可使胰島素多肽與油體相結合。
20.如權利要求19的方法，其中所述穩(wěn)定蛋白編碼對油體具有特異性的單鏈抗體。
21.如權利要求15的方法，其中與編碼胰島素的核酸序列在讀框內(nèi)融合的、編碼穩(wěn)定蛋白的核酸序列選自由單鏈抗體和霍亂毒素B亞基組成的多肽組中。
22.如權利要求3的方法，其中在核基因組整合條件下將所述嵌合核酸序列導入植物細胞內(nèi)。
23.如權利要求1-22任一項的方法，其中所述能夠在植物種子內(nèi)控制表達的核酸序列是種子偏好啟動子。
24.如權利要求23的方法，其中種子偏好啟動子是菜豆蛋白啟動子。
25.如權利要求1-24任一項的方法，其中編碼胰島素的核酸序列選自由人胰島素、豬胰島素和牛胰島素組成的核酸序列組中。
26.如權利要求1-25任一項的方法，其中編碼胰島素的核酸是微型胰島素。
27.如權利要求1-26任一項的方法，其中編碼胰島素的核酸序列根據(jù)植物密碼子使用表進行優(yōu)化。
28.一種獲得包含胰島素的植物種子的方法，包括(a)提供嵌合核酸構建體，其包括在轉(zhuǎn)錄的5’至3’方向可操縱連接的下列組分(i)能夠在植物種子細胞內(nèi)控制表達的核酸序列；和(ii)編碼胰島素多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞；(c)令植物細胞成長為能夠結種子的成熟植物；以及(d)從該植物獲得種子，其中種子包含胰島素。
29.如權利要求28的方法，其中種子內(nèi)存在的總可溶性蛋白質(zhì)的至少0.1％是胰島素。
30.一種能夠結種子的植物，所述種子包括嵌合核酸序列，所述嵌合核酸序列在轉(zhuǎn)錄的5’至3’方向包括(a)第一種核酸序列，其能夠在植物種子細胞內(nèi)控制表達，其可操縱地連接于；(b)第二種核酸序列，其編碼胰島素多肽，其中種子含有胰島素。
31.如權利要求28的植物，其中嵌合核酸序列整合于植物核基因組內(nèi)。
32.如權利要求30或31的植物，其中植物是芥屬、亞麻或紅花植物。
33.一種植物種子，其包括嵌合核酸序列，該序列在轉(zhuǎn)錄的5’至3’方向包括(a)第一種核酸序列，其能夠在植物種子細胞內(nèi)控制表達，其可操縱地連接于；(b)第二種核酸序列，其編碼胰島素多肽。
34.如權利要求33的植物種子，其中種子內(nèi)存在的總可溶性蛋白質(zhì)的至少0.1％是胰島素。
35.一種編碼胰島素的核酸序列，其連接于一種包括能夠在植物種子細胞內(nèi)控制表達的啟動子的核酸序列。
36.如權利要求35的核酸序列，其中所述啟動子是種子偏好啟動子。
37.如權利要求36的核酸序列，其中所述種子偏好啟動子是菜豆蛋白啟動子。
38.如權利要求35的核酸序列，其中所述核酸序列另含有能將胰島素多肽保持于膜包圍的細胞內(nèi)區(qū)室內(nèi)的序列。
39.如權利要求35的核酸序列，其中所述核酸序列另含有能將胰島素多肽保持于ER或ER衍生儲存細胞器內(nèi)的序列。
40.根據(jù)權利要求1-29任一項制備的植物種子在獲得基本上純的胰島素中的應用。
全文摘要
本發(fā)明描述了在植物內(nèi)生產(chǎn)胰島素的方法。在一個實施方案中，本發(fā)明提供了在植物內(nèi)表達胰島素的方法，包括(a)提供嵌合核酸構建體，其在5’至3’的轉(zhuǎn)錄方向包括可操縱連接的下列組分(i)可在植細胞內(nèi)控制表達的核酸序列；和(ii)編碼胰島素多肽的核酸序列；(b)把嵌合核酸構建體導入植物細胞內(nèi)；以及(c)令植物細胞成長為成熟植物，可結種子，其中種子表達胰島素。
文檔編號A01H1/00GK1836047SQ200480023602
公開日2006年9月20日申請日期2004年6月17日優(yōu)先權日2003年6月17日
發(fā)明者莫里斯·M.·莫洛尼, 約瑟夫·布斯, 理查德·基翁, 科里·尼斯弗魯克, 吉杰斯·范魯伊杰恩申請人:賽姆生物系統(tǒng)遺傳公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：莫里斯.Ｍ．.莫洛尼;約瑟夫.布斯;理查德.基翁;科里.尼斯弗魯克;吉杰斯.范魯伊杰恩
技術所有人：賽姆生物系統(tǒng)遺傳公司
我是此專利的發(fā)明人

上一篇：抗病毒組合物及其使用方法
上一篇：用于制備遺傳可轉(zhuǎn)化的植物組織的方法和裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1. 木質(zhì)生物質(zhì)轉(zhuǎn)化利用 2. 綠色包裝材料
2、劉老師：1. 木質(zhì)生物質(zhì)化學及材料 2. 紙基功能材料
3、溫老師：1. 纖維素納米纖維材料的制備、改性及應用 2. 造紙法再造煙葉、新型煙草開發(fā) 3.生物質(zhì)資源基油田助劑（封堵、驅(qū)油和鉆井） 4. 改性植物纖維開發(fā)
4、張老師：1.合成生物學 2. 微生物代謝工程
5、李老師：1.水平基因轉(zhuǎn)移的分子機制及應用研究 2.植物細胞工廠構建
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

植物胰島素相關技術

口服植物胰島素相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

在植物中生產(chǎn)胰島素的方法