国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      具有脫鹵素酶活性的酶及其使用方法

      文檔序號(hào):4821957閱讀:1354來源:國(guó)知局
      專利名稱:具有脫鹵素酶活性的酶及其使用方法
      技術(shù)領(lǐng)域
      本發(fā)明總的來說涉及酶、編碼這些酶的多核苷酸、這種多核苷酸和多肽的應(yīng)用,更特別地涉及具有鹵烷脫鹵素酶活性的酶。
      背景技術(shù)
      環(huán)境污染物由大量和多樣的化學(xué)物質(zhì)組成,這些物質(zhì)中的許多是有毒的、危害環(huán)境的,在1979年被美國(guó)環(huán)保機(jī)構(gòu)指定為重點(diǎn)的污染物。微生物和酶的生物降解作用是清除這些污染物的ー種方法。因此,已經(jīng)計(jì)劃通過微生物和相關(guān)的酶方法來處理商業(yè)廢物以及生物補(bǔ)救被污染的環(huán)境。不幸地,許多化學(xué)污染物抵抗微生物降解,或者當(dāng)以高濃度和某種組合存在時(shí)對(duì)潛在的微生物降解劑具有毒性。鹵烷脫鹵素酶屬于α/β水解酶折疊家族,其中所有的酶具有相似的拓?fù)浣Y(jié)構(gòu)、反應(yīng)機(jī)制和催化三聯(lián)體組殘基(Krooshof等人,Biochemistry36 (31) :9571-9580, I997)。酶通過水解作用裂解鹵烷和鹵羧酸中的碳ー鹵素鍵,從而將它們轉(zhuǎn)化為其相應(yīng)的醇類。此反應(yīng)對(duì)于涉及鹵烷的解毒作用是重要的,如氯こ烷、氯甲烷和1,2_ ニ氯こ烷,環(huán)保機(jī)構(gòu)認(rèn)為它們是重點(diǎn)污染物(Rozeboom, H.,Kingma, J.,Janssen, D.,Di jkstra, B.しrystallization of Haloalkane Denalogenase from Xanthooacter autotrophicus (自養(yǎng)黃色桿菌GJlO中鹵烷脫鹵素酶的結(jié)晶化).J Mol Biol200 (3), 611-612(1988) 0鹵烷脫鹵素酶是由能夠完全地在氯化脂肪族化合物上生長(zhǎng)的微生物產(chǎn)生的?;钚圆恍枰饘倩蜓跛俏ㄒ坏牡孜?。自養(yǎng)黃色桿菌(Xanthobacterautotrophicus) GJlO 是利用 1,2_ ニ 氯こ烷和少數(shù)其它鹵烷和鹵羧酸生長(zhǎng)的固氮細(xì)菌(Rozeboom等人,J Mol Biol 2003:611-612, 1988; Keuning 等人,J Bacteriol 163(2) :635-639. 1985)。它是研究得最好的脫鹵素酶,這是因?yàn)樗拇呋磻?yīng)機(jī)制、活性機(jī)制和晶體結(jié)構(gòu)是已知的(Schanstra等人,JBiol Chem271(25):14747-14753, 1996)。生物體產(chǎn)生兩種不同的脫鹵素酶。ー個(gè)脫鹵素酶用于鹵化烷類,另ー個(gè)用于鹵化羧酸類。大多數(shù)有害鹵化化合物是エ業(yè)產(chǎn)生的,用作清潔劑、殺蟲劑和溶剤。自養(yǎng)黃色桿菌的天然底物是1,2- ニ氯こ烷。此鹵烷經(jīng)常被用在こ烯生產(chǎn)中。酶是高度選擇性的催化劑。它們的特點(diǎn)是能夠以傳統(tǒng)合成化學(xué)中空前靈敏的立體、區(qū)域和化學(xué)選擇性催化反應(yīng)。而且,酶有非常多方面的能力。它們可以被修改以在有機(jī)溶劑中起作用,在極端pH和溫度下工作,以及催化結(jié)構(gòu)上與其天然的生理學(xué)底物無關(guān)的化合物的反應(yīng)。酶對(duì)大范圍的天然和非天然底物起作用,因此實(shí)際上使任何有機(jī)的前導(dǎo)化合物能夠被修飾。而且,與傳統(tǒng)的化學(xué)催化劑不同,酶是高度對(duì)映選擇和區(qū)域選擇的。酶所具有的高度功能基團(tuán)特異性使人們能夠明了產(chǎn)生新活性化合物的合成序列中的每ー個(gè)反應(yīng)。酶還能夠催化許多與其天然生理學(xué)功能無關(guān)的不同反應(yīng)。例如,過氧化物酶催化過氧化氫對(duì)苯酚的氧化作用。過氧化物酶也可以催化與其天然酶功能無關(guān)的羥基化反應(yīng)。其它的例子是催化多肽分解的蛋白酶類。在有機(jī)溶液中,ー些蛋白酶類也可以?;穷?,此作用與這些酶的天然功能無關(guān)。本發(fā)明開發(fā)了酶的獨(dú)特催化特性。盡管在化學(xué)轉(zhuǎn)化作用中使用生物催化劑(即純化酶或粗酶,非活細(xì)胞或活細(xì)胞)通常需要確定與特定的起始化合物相互作用的特定生物催化劑,但本發(fā)明使用了對(duì)許多起始化合物中存在的功能基團(tuán)特異的選擇的生物催化劑和反應(yīng)條件。
      每個(gè)生物催化劑對(duì)ー個(gè)或數(shù)個(gè)相關(guān)的功能基團(tuán)特異,井能夠與許多含此功能基團(tuán)的起始化合物相互作用。生物催化反應(yīng)從單一的起始化合物產(chǎn)生一群衍生物。這些衍生物可以接受另ー輪生物催化反應(yīng)以產(chǎn)生第二群衍生物化合物。生物催化的衍生作用的每一次重復(fù)可以產(chǎn)生原始化合物的數(shù)千變異體。酶在起始化合物的特異位置起作用而不影響分子的其余部分,這ー過程采用傳統(tǒng)的化學(xué)方法是很難達(dá)到的。這種高度的生物催化特異性提供了在文庫中鑒定單ー活性化合物的方法。文庫的特征在于用來產(chǎn)生它的生物催化反應(yīng)系列,即所謂的“生物合成歷史記錄”。篩選文庫的生物學(xué)活性和追蹤生物合成歷史確定了產(chǎn)生活性化合物的特異性反應(yīng)序列。反應(yīng)序列是重復(fù)的,并確定了合成的化合物的結(jié)構(gòu)。這個(gè)鑒定模式與其它合成和篩選方法不同,不需要固定化技術(shù),化合物可以游離在溶液中采用實(shí)際上任何類型的篩選試驗(yàn)而被合成和檢測(cè)。重要的是要注意,酶對(duì)功能基團(tuán)反應(yīng)的高度特異性可以“追蹤”特異性酶反應(yīng),特異性酶反應(yīng)形成生物催化產(chǎn)生的文庫。采用機(jī)械自動(dòng)操作進(jìn)行許多程序性步驟,該自動(dòng)操作能夠每天完成數(shù)千的生物催化反應(yīng)和篩選試驗(yàn),并保證高水平的精確性和再現(xiàn)性。其結(jié)果是,衍生化合物文庫可以在大約數(shù)周內(nèi)產(chǎn)生,而采用當(dāng)前的化學(xué)方法會(huì)需要數(shù)年。(對(duì)分子修飾的進(jìn)ー步教導(dǎo),包括小分子,見PCT/US94/09174,在此整體加入作為參考文獻(xiàn))。這里討論的公開文獻(xiàn)僅為本申請(qǐng)歸檔日期前的公布。在此絕不解釋為這些公布承認(rèn)本發(fā)明相對(duì)于現(xiàn)有發(fā)明沒有資格居于這些公布之前。發(fā)明概述本發(fā)明提供了ー種具有ー個(gè)如SEQ ID NO. :3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45,47中所闡述序列的分離核酸,及其變異體,所述變異體與SEQID NO. :3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45 或 47 具有至少
      50%序列同一性并編碼具有脫鹵素酶活性的多肽。本發(fā)明的ー個(gè)方面是ー種分離核酸,其具有如SEQ ID NO:3, 5, 7,9, 11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45,47 (此后被稱作“A組核酸序列”)中所闡述的序列,基本上與它們一致的序列和與它們互補(bǔ)的序列。本發(fā)明的另ー個(gè)方面是ー種分離核酸,其包括A組核酸序列,基本上與它們一致的序列和與它們互補(bǔ)的序列中所列序列的至少10個(gè)連續(xù)堿基。也在另ー個(gè)方面,本發(fā)明提供了編碼多肽的分離核酸及其變異體,其中多肽具有SEQ ID NO. :4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,44,46,48 中列出
      的序列及其變異體,其中變異體編碼具有脫鹵素酶活性的多肽并與上述序列具有至少50%的序列同一'注。本發(fā)明的另ー個(gè)方面是編碼多肽或其功能片段的分離核酸,其中多肽或其功能片段具有 SEQ ID NO:4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,44,46,48 中所列的序列(此后被稱作“B組氨基酸序列”),以及基本上與它們一致的序列。 本發(fā)明的另ー個(gè)方面是編碼多肽的分離核酸,其中多肽具有B組氨基酸序列中所列序列以及基本上與它們一致的序列的至少10個(gè)連續(xù)氨基酸。又在另ー個(gè)方面,本發(fā)明提供了純化的多肽,它具有B組氨基酸序列中所列的序列,以及基本上與它們一致的序列。本發(fā)明的另ー個(gè)方面是與多肽特異性結(jié)合的分離或純化的抗體,其中多肽具有B組氨基酸序列中所列的序列,以及基本上與它們一致的序列。本發(fā)明的另ー個(gè)方面是與多肽特異性結(jié)合的分離或純化抗體或其結(jié)合片段,其中多肽具有B組氨基酸序列多肽中之一個(gè)多肽的至少10個(gè)連續(xù)氨基酸,以及基本上與它們ー致的序列。本發(fā)明的另ー個(gè)方面是制備多肽的方法,其中多肽具有B組氨基酸序列中所列的序列,以及基本上與它們一致的序列。該方法包括引導(dǎo)編碼多肽的核酸進(jìn)入宿主細(xì)胞,其中的核酸可操作地連接到啟動(dòng)子上,并在允許核酸表達(dá)的條件下培養(yǎng)宿主細(xì)胞。本發(fā)明的另ー個(gè)方面是制備多肽的方法,其中多肽具有B組氨基酸序列中所列序列,以及基本上與它們一致的序列的至少10個(gè)連續(xù)的氨基酸。該方法包括引導(dǎo)編碼多肽的核酸進(jìn)入宿主細(xì)胞,其中核酸可操作地連接到啟動(dòng)子上,并在允許核酸表達(dá)的條件下培養(yǎng)宿主細(xì)胞,從而產(chǎn)生多肽。本發(fā)明的另ー個(gè)方面是產(chǎn)生變異體的方法,所述方法包括獲取具有如下序列的核酸A組核酸序列中所列的序列,基本上與它們一致的序列,與A組核酸序列互補(bǔ)的序列,由上述序列的至少30個(gè)連續(xù)核苷酸組成的片段;并將序列中的ー個(gè)或多個(gè)核苷酸改變?yōu)榱硪粋€(gè)核苷酸;刪除序列中的一個(gè)或多個(gè)核苷酸;或添加一個(gè)或多個(gè)核苷酸到序列中。本發(fā)明的另ー個(gè)方面是其上已經(jīng)存儲(chǔ)了以下序列的計(jì)算機(jī)可讀介質(zhì)A組核酸序列中列出的序列和基本上與它們一致的序列,或B組氨基酸序列中列出的序列和基本上與它們一致的序列。本發(fā)明的另ー個(gè)方面是包括處理器和數(shù)據(jù)存儲(chǔ)裝置的計(jì)算機(jī)系統(tǒng),其中所述的數(shù)據(jù)存儲(chǔ)裝置上儲(chǔ)存了以下序列A組核酸序列中列出的序列和基本上與它們一致的序列,或具有B組氨基酸序列中列出序列和基本上與它們一致序列的多肽。本發(fā)明的另ー個(gè)方面是比較第一條序列和參考序列的方法,其中所述的第一條序列是核酸,其具有A組核酸序列中列出序列和基本上與它們一致的序列的,或B組氨基酸序列中列出的多肽密碼和基本上與它們一致序列的序列。該方法包括通過使用比較序列的計(jì)算機(jī)程序讀取第一條序列和參考序列;并用計(jì)算機(jī)程序確定第一條序列和參考序列間的差
      巳升。本發(fā)明的另ー個(gè)方面是識(shí)別以下序列特征的方法:A組核酸序列中列出的序列和基本上與它們一致的序列,或具有B組氨基酸序列中列出序列和基本上與它們一致序列的多肽,包括通過使用識(shí)別序列特征的計(jì)算機(jī)程序讀取序列;并用計(jì)算機(jī)程序鑒定序列特征。本發(fā)明的另ー個(gè)方面是識(shí)別B組氨基酸序列和基本上與其一致序列的片段或變異體的試驗(yàn),它們保留了 B組氨基酸序列和基本上與其一致序列的多肽的酶功能。該試驗(yàn)包括將B組氨基酸序列和基本上與其一致序列的多肽、或多肽片段或變異體在允許多肽片段或變異體起作用的條件下與底物分子接觸,并檢測(cè)底物水平的下降或多肽和底物間反應(yīng) 的特異性反應(yīng)產(chǎn)物的水平増加,從而鑒定這種序列的片段或變異體。又在另ー個(gè)方面,本發(fā)明提供了合成甘油的方法。該方法包括,將三氯丙烷或ニ氯丙醇與多肽在合成甘油的條件下接觸,其中多肽與選自B組氨基酸序列和基本上與其一致序列的序列具有至少70%的同源性,并具有脫鹵素酶活性。又在另ー個(gè)方面,本發(fā)明提供了產(chǎn)生旋光鹵代乳酸的方法。該方法包括將ニ鹵代丙酸與多肽在產(chǎn)生旋光鹵代乳酸的條件下接觸,其中多肽與選自B組氨基酸序列和基本上與其一致序列的序列具有至少70%的同源性,并具有脫鹵素酶活性。又在另ー個(gè)方面,本發(fā)明提供了通過接觸環(huán)境樣本與多肽的生物補(bǔ)救方法,其中多肽與選自B組氨基酸序列和基本上與其一致序列的序列具有至少70%的同源性,并具有脫鹵素酶活性。在另ー個(gè)方面,本發(fā)明提供了消除鹵化污染物或樣本中鹵化雜質(zhì)的方法。該方法包括將樣本與多肽接觸,其中多肽與選自B組氨基酸序列和基本上與其一致序列的序列具有至少70%的同源性,并具有脫鹵素酶活性。又在另ー個(gè)方面,本發(fā)明提供了通過將ニ鹵代丙烷或單鹵代丙醇在ニ醇合成的條件下與多肽接觸合成ニ醇的方法,其中多肽與選自B組氨基酸序列和基本上與其一致的序列的序列具有至少70%的同源性,并具有脫鹵素酶活性。又在另ー個(gè)方面,本發(fā)明提供了鹵素取代的環(huán)烴基的脫鹵素方法。該方法包括將鹵素取代的環(huán)烴基在鹵素取代的環(huán)烴基脫鹵素的條件下與多肽接觸,其中多肽與選自B組氨基酸序列和基本上與其一致序列的序列具有至少70%的同源性,并具有脫鹵素酶活性。附圖
      簡(jiǎn)述下面的附圖舉例說明本發(fā)明的實(shí)施例,并不意味著限制本發(fā)明的范圍,本發(fā)明的范圍是如權(quán)利要求所包括的范圍。圖I是計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)圖。圖2是流程圖,舉例說明方法的一個(gè)實(shí)施方案,將新的核苷酸或蛋白序列與數(shù)據(jù)庫序列比較以確定新序列與數(shù)據(jù)庫序列之間的同源性水平。圖3是舉例說明計(jì)算機(jī)中方法的一個(gè)實(shí)施方案的流程圖,以鑒定兩個(gè)序列是否是同源的。圖4是舉例說明識(shí)別器程序300的一個(gè)實(shí)施方案的流程圖,以檢測(cè)序列中存在的特征。圖5顯示本發(fā)明多肽序列的排列。A=SEQ ID NO:4;B=SEQ ID NO:2;C=SEQ IDN0:6;rhod2=SEQ ID N0:40;myco4=SEQ ID NO:42。圖6顯示本發(fā)明序列(SEQ ID No: 9_38和43-48)。圖7顯示用本發(fā)明的脫鹵素酶形成甘油的實(shí)例,以及用本發(fā)明的脫鹵素酶形成
      I,2-丙ニ醇或1,3-丙ニ醇的實(shí)例。圖8顯示用本發(fā)明的脫鹵素酶對(duì)鹵素取代的環(huán)烴基的脫鹵素作用的實(shí)例。發(fā)明詳沭本發(fā)明涉及鹵烷脫鹵素酶多肽和編碼它們的多核苷酸,以及應(yīng)用這些多核苷酸和多肽的方法。如這里所使用的,術(shù)語“鹵烷脫鹵素酶”包括具有水解酶活性的酶,例如能夠經(jīng)烷基酶中間體催化齒烷水解的酶。 本發(fā)明的多核苷酸已被確定編碼具有脫鹵素酶活性的多肽,在特定的實(shí)施例中編碼具有鹵烷脫鹵素酶活性的多肽。本發(fā)明的脫鹵素酶和編碼脫鹵素酶的多核苷酸被用于許多エ藝、方法和組合物中。例如,如上所討論的,脫鹵素酶可以被用來補(bǔ)救脂族有機(jī)氯污染的環(huán)境,降解除草劑茅草枯,降解鹵化有機(jī)酸以及土壌和水的補(bǔ)救,并通過降解作用處理土壌和水中的有機(jī)酸。而且,本發(fā)明的脫鹵素酶可以被用來在エ業(yè)加工、環(huán)境和藥物中去除雜質(zhì)。例如,脫鹵素酶可以被用來分解各種樣本中的鹵代鏈烷酸雜質(zhì),包括例如表面活性剤、羧甲基纖維素或巰基こ酸鹽。又在另ー個(gè)方面,本發(fā)明的脫鹵素酶可通過特異的1,2-ニ醇或外消旋鹵醇的氧化脫鹵素作用被用于制造藥物、農(nóng)用化學(xué)品和鐵電液體。例如,通過用脫鹵素酶處理α, ニ鹵丙酸(如ニ氯丙酸),脫鹵素酶可被用于合成旋光縮水甘油酸和乳酸(如β鹵代乳酸)。本發(fā)明的脫鹵素酶也可被用于從1,3-ニ鹵代-2-丙醇中產(chǎn)生活性(S)-(+)_3-鹵代-1,2-丙ニ醇或(R)-(-)-3鹵代_1,2丙ニ醇。(S)-(+)-3-鹵代-1,2-丙ニ醇被用作生理和醫(yī)學(xué)治療和藥物的原料。例如,本發(fā)明的脫鹵素酶可以與三氯丙ニ醇(TCP)或ニ氯丙ニ醇(DCP)在足以進(jìn)行氧化脫鹵素作用的條件和時(shí)間下接觸,以形成例如甘油(如DCP或TCP到甘油)(例如參見圖7)。用本發(fā)明的方法和酶可以產(chǎn)生各種ニ醇。此外,本發(fā)明的方法和合成物可被用于鹵化的芳香化合物。例如,本發(fā)明的組合物可被用來對(duì)鹵素取代的環(huán)烴基脫鹵素,如圖8所描繪的。環(huán)烴基化合物的實(shí)例包括環(huán)烷基,環(huán)烯基,環(huán)ニ烯烴基,環(huán)三烯烴基,環(huán)炔基,環(huán)鏈ニ炔,芳香化合物類,螺環(huán)烴,其中螺環(huán)烴中的兩個(gè)環(huán)由一個(gè)兩環(huán)唯一的共同原子連接(如螺[3,4]辛烷基等),雙環(huán)烴,其中兩個(gè)環(huán)連接著并至少有兩個(gè)共同的原子(如雙環(huán)[3. 2. I]辛烷、雙環(huán)[2. 2. I]七-2-烯等),環(huán)的集合,其中兩個(gè)或多個(gè)環(huán)系統(tǒng)(SP單環(huán)或融合的系統(tǒng))直接通過ー個(gè)或兩個(gè)鍵相互連接且這種環(huán)連接的數(shù)量少于涉及的環(huán)系統(tǒng)的數(shù)量(如聯(lián)苯基、聯(lián)苯烯、游離基或P-三聯(lián)苯、環(huán)己芐基,等),多環(huán)類,或類似物。
      鹵烷脫鹵素酶整體結(jié)構(gòu)來自自養(yǎng)黃色桿菌的鹵烷脫鹵素酶由310個(gè)氨基酸組成,并包括分子量36,000的単一多肽鏈。単體的酶是球形的并由兩個(gè)部分組成。主結(jié)構(gòu)域是具有8股順序12435678的混合β層的α/β水解酶折疊結(jié)構(gòu);第2股與其它部分是反平行的。第二個(gè)結(jié)構(gòu)域是位于主結(jié)構(gòu)域頂端的et-螺旋帽(Keuning等人,J Bacteriol 163 (2) :635-639, 1985)。如這里進(jìn)ー步詳細(xì)描述的,進(jìn)行了誘變以修飾酶的活性,例如,通過帽狀部分特定殘基的突變(Krooshof 等人,Biochemistry 36(31):9571-9580, 1997)。
      自養(yǎng)黃色桿菌中酶的活性部位包括3個(gè)催化殘基(Asp 124, His 289和Asp 260),介于內(nèi)部疏水空穴中的兩個(gè)結(jié)構(gòu)域之間。分別位于第5和第8β股后的親核Asp 124和普通堿性His 289在α/β水解酶家族中是完全保守的,而Asp 260則不是?;钚圆课皇蔷€狀的并具有10個(gè)疏水殘基4個(gè)苯基丙氨酸,2個(gè)色氨酸,2個(gè)亮氨酸,I個(gè)纈氨酸和I個(gè)脯氨酸。(Schanstra 等人,J Biol Chem 271(25) : 14747-14753,1996)。在底物的酶水解過程中,鹵烷脫鹵素酶形成了共價(jià)中間體,是通過Aspl24的親核取代形成的,它通過水分子水解,通過His289活化。(Verschueren等人,Nature363(6431) :693-698, 1993)。作為脫鹵素酶類常見的催化三聯(lián)體的第三個(gè)成員,Asp260的作用通過定點(diǎn)誘變得以研究。Asp260突變?yōu)樘於彼岬玫綗o催化活性的D260N突變體,這表明在野生型酶中三聯(lián)體酸Asp260對(duì)于脫鹵素酶活性是必需的。此外,Asp260具有重要的結(jié)構(gòu)作用,這是因?yàn)镈260N酶主要在表達(dá)過程中的內(nèi)含體中聚積,底物或產(chǎn)物均不能結(jié)合進(jìn)活性部位的空穴中。通過用天冬氨酸或谷氨酸置換Asnl48,D260N對(duì)溴化底物的活性恢復(fù)。與野生型酶相比,雙重突變體D260N+N148D和D260N+N148E對(duì)于1,2-ニ溴こ烷均減少10倍kcat和增高40倍Km值。D260N+N148E雙重突變體的前穩(wěn)態(tài)動(dòng)力學(xué)分析顯示,kcat的下降主要是由于碳-溴鍵裂解的速度減少220倍,且烴基酶中間體的水解速度下降10倍。另ー方面,同野生型酶相比,溴釋放加快12倍并經(jīng)過不同的途徑。突變體的分子建模顯示,Glul48確實(shí)能夠承擔(dān)與His289的相互作用,并在連接活性部位和溶劑的通道區(qū)域有電荷分布的改變(Krooshof 等人,Biochemistry並(31) :9571-9580, 1997)。降解有害鹵化化合物的第一步應(yīng)用了鹵烷脫鹵素酶。脫鹵素酶的催化作用作為涉及酯中間體的第二步機(jī)制發(fā)生。水解性脫鹵素酶不需要能量;因此,因丟失產(chǎn)生毒性的鹵素而解毒有機(jī)物質(zhì)是簡(jiǎn)單的方式。催化三聯(lián)體(Asp-His-Asp)以及天冬氨酸羧酸酯(Asp124)是反應(yīng)的焦點(diǎn)。底物結(jié)合到活性部位空穴中,且Cl-α復(fù)合體與Trp 172和Trp 175的側(cè)鏈NH基團(tuán)反應(yīng)。作為第一步驟,來自底物的鹵素被親核天冬氨酸代替,得到中間體共價(jià)酷。然后His 289激活水解酯的水分子。其結(jié)果是醇和鹵化物被從活性部位代替。涉及親核Asp 124和酯中間體水解的兩步機(jī)制與其它α/β水解折疊酶是一致的。鹵烷脫鹵素酶斷裂脂肪族化合物的碳-鹵素鍵。結(jié)果顯示,對(duì)C-Cl鍵的酶反應(yīng)慢于對(duì)其它C-鹵化物鍵,如C-Br鍵。離去基團(tuán)的能力是其差異的解釋。1,2-ニ氯こ烷和1,2- ニ溴こ烷的限速步驟不是碳-鹵素鍵的裂解,而是離子從活性部位的釋放。生物補(bǔ)救本發(fā)明提供了許多用于生物補(bǔ)救的具有改善的酶特性的脫鹵素酶。本發(fā)明的多核苷酸和多核苷酸產(chǎn)物被用于例如,涉及含本發(fā)明多核苷酸或多肽的轉(zhuǎn)化宿主細(xì)胞(如細(xì)菌自養(yǎng)黃色桿菌)和鹵烷1,2- ニ氯こ烷的地下水處理,以及從土壤沉淀物中去除多氯化聯(lián)苯(PCB)。本發(fā)明的鹵烷脫鹵素酶被用于減少碳-鹵化物的努力中。本發(fā)明的酶啟動(dòng)鹵烷的降解。可選擇地,含本發(fā)明脫鹵素酶多核苷酸或多肽的宿主細(xì)胞可以在鹵烷上培養(yǎng),并產(chǎn)生解毒酶。定義如這里所用的,短語“核酸”或“核酸序列”指寡核苷酸、核苷酸、多核苷酸,或指它們中任ー的片段,指基因組或合成來源的DNA或RNA,它們可以是單鏈的或雙鏈的,可以表現(xiàn)為有義或反義鏈,指肽核酸(PNA)或指任何天然或合成來源的DNA樣或RNA樣物質(zhì)。在一個(gè)實(shí)施例中,本發(fā)明的“核酸序列”包括,例如,編碼B組氨基酸序列中所列多肽及其變異體的序列。在另ー個(gè)實(shí)施例中,本發(fā)明的“核酸序列”包括,例如,A組核酸序列中所列的序列,與其互補(bǔ)的序列,上述序列的片段及其變異體。特定多肽或蛋白的“編碼序列”或“編碼特定多肽或蛋白的核苷酸序列”是當(dāng)置于適當(dāng)調(diào)節(jié)序列控制下時(shí)被轉(zhuǎn)錄和翻譯成多肽或蛋白的核酸序列。術(shù)語“基因”是指涉及產(chǎn)生多肽鏈的DNA片段;它包括密碼區(qū)之前和之后的區(qū)域(前導(dǎo)區(qū)和非轉(zhuǎn)錄尾區(qū)),以及在可適用時(shí),包括單個(gè)編碼片段(外顯子)之間的間插序列(內(nèi)含子)。 如這里所用,“氨基酸”或“氨基酸序列”指寡肽、肽、多肽或蛋白序列,或指它們中任ー的片段、部分或亞單位,井指天然存在或合成的分子。在一個(gè)實(shí)施例中,本發(fā)明的“氨基酸序列”或“多肽序列”包括例如,B組氨基酸序列中所列的序列,上述序列的片段及其變異體。在另ー個(gè)實(shí)施例中,本發(fā)明的“氨基酸序列”包括例如,由具有B組核酸序列中所列序 列的多核苷酸編碼的序列,與它們互補(bǔ)的序列,前述序列的片段及其變異體。如這里所用的,術(shù)語“多肽”指相互被肽鍵或修飾的肽鍵連接起來的氨基酸,即肽等排體,可含有除20個(gè)基因編碼的氨基酸以外的修飾的氨基酸。這些多肽可以被任意一種自然過程修飾,如翻譯后處理,或通過本領(lǐng)域熟知的化學(xué)修飾技木。修飾可以發(fā)生在多肽的任何地方,包括肽骨架、氨基酸側(cè)鏈和氨基或羧基末端。應(yīng)當(dāng)理解到,同一類型的修飾可以在給定多肽的數(shù)個(gè)部位表現(xiàn)為相同或不同的程度。而且給定的多肽可有許多類型的修飾。修飾包括こ酰化作用,酰化作用,ADP-核糖基化作用,酰胺化作用,核黃素共價(jià)附著,血紅素部分共價(jià)附著,核苷酸或核苷酸衍生物共價(jià)附著,脂質(zhì)或脂質(zhì)衍生物共價(jià)附著,磷脂酰肌醇(phosphytidylinositol)共價(jià)附著,交聯(lián)環(huán)化作用,ニ硫鍵形成,脫甲基作用,形成共價(jià)交聯(lián),形成半胱氨酸、形成焦谷氨酸酷,甲?;饔?,Y-羧化作用,糖基化作用,糖基磷脂酰肌醇(GPI)固著物形成,羥基化作用,碘化作用,甲基化作用,肉豆蘧化作用,氧化作用,pergylation,蛋白水解過程,磷酸化作用,異戍ニ烯化作用,外消旋作用,硒化作用,硫酸化作用,和轉(zhuǎn)運(yùn)-RNA介導(dǎo)的氨基酸加入蛋白如精氨?;饔?。(見Creighton, Τ. E.,蛋白-結(jié)構(gòu)和分子特性(Proteins-Structure and Molecular Properties)第二版,W. H. Freemanand Company, New York(1993);蛋白的翻譯后共價(jià)修飾(Posttranslational CovalentModification of Proteins), B. C. Jonnson 編著,Academic Press, New York, 1-12 頁(1983))。如這里所用的,術(shù)語“分離的”是指物質(zhì)從其來源環(huán)境(如,假如是天然存在的,則是自然環(huán)境)中被移除。例如,在活體動(dòng)物中天然存在的多核苷酸或多肽不是分離的,但從天然系統(tǒng)的某些或全部共存物質(zhì)中分離的同樣的多核苷酸或多肽則是分離的。這樣的多核苷酸可以是載體的一部分和/或這樣的多核苷酸或多肽可以是組合物的一部分,它仍然是分離的,這是因?yàn)檫@樣的載體或組合物不是自然環(huán)境的一部分。如這里所用的,術(shù)語“純化的”不需要絕對(duì)的純度;而是要作為相對(duì)的定義。從文庫中獲得的單個(gè)核酸已經(jīng)被常規(guī)地純化為電泳均一性。從這些克隆中獲得的序列不能直接從文庫或總?cè)薉NA中獲得。本發(fā)明的純化核酸已經(jīng)從生物體基因組DNA的剩余物中純化至少104-106倍。但是,術(shù)語“純化的”還包括已經(jīng)從基因組DNA的剰余物中,或從文庫的其它序列或其它環(huán)境中,以至少ー個(gè)數(shù)量級(jí)的大小,典型地ニ或三個(gè)數(shù)量級(jí),更典型地四或五個(gè)數(shù)量級(jí)大小,純化的核酸。如這里所用的,術(shù)語“重組”是指鄰近“骨架”核酸的核酸,在天然環(huán)境下,它不與其相鄰。此外,將被“富集”的核酸會(huì)表現(xiàn)為在核酸骨架分子群中插入5%或以上數(shù)目的核酸。按照本發(fā)明的骨架分子包括,如表達(dá)載體、自我復(fù)制核酸、病毒、整合型核酸,和其它載體或用于保持或操作目的核酸插入物的核酸。典型地,被富集的核酸表現(xiàn)為在重組骨架分子群中插入15%或以上數(shù)目的核酸。更典型地,被富集的核酸表現(xiàn)為在重組骨架分子群中插入50%或以上數(shù)目的核酸。在一個(gè)實(shí)施例中,被富集的核酸表現(xiàn)為在重組骨架分子群中插入90%或以上數(shù)目的核酸?!爸亟M”多肽或蛋白指通過重組DNA技術(shù)產(chǎn)生的多肽或蛋白;即由編碼所需多肽或蛋白的外源DNA構(gòu)建物轉(zhuǎn)化的細(xì)胞產(chǎn)生。“合成的”多肽或蛋白是通過化學(xué)合成制備的。固相化學(xué)肽合成法也可以用來合成本發(fā)明的多肽或片段。這種方法自從20世紀(jì)60年代 早期就已經(jīng)為本領(lǐng)域所知(Merrifield, R. B.,J. Am. Chem. Soc.,85:2149-2154,1963)(又JAL Stewart, J. Μ.和 Young, J. D.,固相妝合成(Solid Phase Peptide Synthesis),第二版,Pierce Chemical Co. , Rockford, 111. , 11-12頁)),且最近已被用于市售實(shí)驗(yàn)室肽設(shè)計(jì)和合成試劑盒中(Cambridge Research Biochemicals)。這種市售實(shí)驗(yàn)室試劑盒已一般地采用 H. M. Geysen 等人,Proc. Natl. Acad. Sci.,USA, 81:3998 (1984)的教導(dǎo),供在多個(gè)“桿”或“插腳”的尖端上合成肽,所有“桿”或“插腳”與ー個(gè)平板相連。當(dāng)使用這種系統(tǒng)時(shí),倒轉(zhuǎn)一盤桿或插腳并將其插入到第二個(gè)盤相應(yīng)孔或池中,后者含有溶液以便將適合的氨基酸到桿或插腳附著或錨著到桿或插腳的尖端上。通過重復(fù)這種エ序,即將桿或插腳的尖端倒轉(zhuǎn)和插入到適合的溶液中,氨基酸被構(gòu)建成所需的肽。此外,可以得到數(shù)種可用的FMOC肽合成系統(tǒng)。例如,用Applied Biosystems, Inc. 431A型自動(dòng)肽合成儀可以在固體支持物上進(jìn)行多肽或片段的裝配。這種設(shè)備通過直接合成或通過合成一系列可用其它已知技術(shù)連接的片段,提供了獲得本發(fā)明肽的現(xiàn)成通路。當(dāng)在啟動(dòng)子上啟動(dòng)轉(zhuǎn)錄的RNA聚合酶將編碼序列轉(zhuǎn)錄成mRNA時(shí),啟動(dòng)子序列被“可操作地連接到”編碼序列上?!百|(zhì)粒”以ー個(gè)小寫字母“p”在前和/或后接大寫字母和/或數(shù)字方式命名。這里的起始質(zhì)粒可以從商業(yè)渠道購買,在非受限基礎(chǔ)上公開獲取,或可以按照公開的方法從可利用的質(zhì)粒中構(gòu)建。此外,與這里所述相當(dāng)?shù)哪切┵|(zhì)粒為本領(lǐng)域已知,對(duì)普通專業(yè)技術(shù)人員是很顯然的。DNA的“消化”指用僅在DNA中某些序列上起作用的限制性酶催化裂解DNA。這里所用的各種限制性酶是從商業(yè)渠道獲得的,其反應(yīng)條件、輔因子和其它要求通常會(huì)為普通專業(yè)技術(shù)人員所知。為了分析目的,典型地I μ g質(zhì)粒或DNA片段與大約2個(gè)單位的酶在大約20 μ I緩沖溶液中一起使用。為分離DNA片段以構(gòu)建質(zhì)粒,典型地5至50 μ gDNA用20至250単位的酶在較大容積內(nèi)消化。對(duì)特定限制性酶合適的緩沖液和底物的量由制造商詳細(xì)說明。通常使用37°C大約I小時(shí)的孵育時(shí)間,但可以按照供應(yīng)商說明書而變化。消化后,可以進(jìn)行凝膠電泳來分離所需的片段?!肮押塑账帷敝竼捂溇勖撗鹾塑账峄騼蓚€(gè)互補(bǔ)的聚脫氧核苷酸鏈,它們可以是化學(xué)合成的。這樣合成的寡核苷酸沒有5’磷酸鹽,因此在有激酶存在的情況下,不添加帶ATP的磷酸鹽,不會(huì)與另ー個(gè)寡核苷酸連接。合成的寡核苷酸將與沒有脫磷酸化的片段連接。在提到兩個(gè)核酸或多肽時(shí),短語“基本上相同的”指當(dāng)比較和排列最大對(duì)應(yīng)時(shí),兩個(gè)或多個(gè)序列具有至少50%、55%、60%、65%、70%、75%、80%、85%和在某些方面90-95%的核苷酸或氨基酸殘基同一性,正如用已知的序列比較算法之一或通過目測(cè)而確定的。典型地,基本上同一性存在于至少大約100個(gè)殘基區(qū)域內(nèi),最常見地,序列在至少大約150-200個(gè)殘基區(qū)域內(nèi)基本上相同。在某些實(shí)施例中,序列在編碼區(qū)的全長(zhǎng)區(qū)域內(nèi)基本上相同。另外,“基本上相同”的氨基酸序列是通過ー個(gè)或多個(gè)保守的或非保守的氨基酸取代、刪除或插入而不同于參考序列的序列,特別是當(dāng)這種取代發(fā)生在不是分子活性部位的部位,并假設(shè)多肽基本上保留其功能特性吋。保守的氨基酸取代,例如,用一個(gè)氨基酸取代另ー個(gè)同類的氨基酸(如,用ー個(gè)疏水的氨基酸如異亮氨酸、纈氨酸、亮氨酸或甲硫氨酸取代另ー個(gè),或用一個(gè)極性氨基酸來取代另ー個(gè),如用精氨酸取代賴氨酸,用谷氨酸取代天冬氨酸或谷氨酰胺取代天冬酰胺)。一個(gè)或多個(gè)氨基酸可以被刪除,例如從脫鹵素酶多肽中刪除,引起多肽結(jié)構(gòu)的修飾而不顯著改變其生物學(xué)活性。例如,可以去除對(duì)脫鹵素酶生物 活性不需要的氨基或羧基末端氨基酸??梢杂迷S多方法檢測(cè)本發(fā)明的修飾的多肽序列的脫鹵素酶生物活性,包括將修飾的多肽序列與脫鹵素酶底物接觸,并測(cè)定修飾的多肽是否降低試驗(yàn)中特異底物的量,或増加功能性脫鹵素酶多肽與底物進(jìn)行酶反應(yīng)的生物產(chǎn)物。這里所用的“片段”是天然存在蛋白的一部分,它可以以至少兩種不同的構(gòu)象存在。這些片段可以與天然存在的蛋白具有相同或基本上相同的氨基酸序列?!盎旧舷嗤笔侵赴被嵝蛄泻艽蟪潭壬希皇峭耆叵嗤?,但保留了它所涉及的序列的至少ー個(gè)功能活性。一般而言,如果兩個(gè)氨基酸序列至少大約85%相同,則它們是“基本上相同”或“基本上同源”的。與天然存在的蛋白具有不同三維結(jié)構(gòu)的片段也包括在內(nèi)。對(duì)此的一個(gè)例子是“原-形”分子,如低活性的原蛋白,它可以通過裂解被修飾,以產(chǎn)生具有顯著高活性的成熟酶?!半s交”指核酸鏈與互補(bǔ)鏈通過堿基對(duì)結(jié)合的過程。雜交反應(yīng)可以是敏感的和選擇性的,這樣即使在以低濃度存在的樣本中,特定的目的序列也可以被識(shí)別。適合的嚴(yán)格條件可以通過以下因素確定,例如,在預(yù)雜交和雜交溶液中鹽或甲酰胺的濃度,或雜交溫度,這些是本領(lǐng)域熟知的。特別是,通過降低鹽濃度、増加甲酰胺濃度、或升高雜交溫度可以提高嚴(yán)格性。例如,在大約50%甲酰胺中,大約37° C至42° C可以發(fā)生高度嚴(yán)格條件下的雜交。在大約35%至25%的甲酰胺中,大約30° C至35° C可以發(fā)生降低嚴(yán)格條件下的雜交。特別地,在42° C 50%甲酰胺、5X SSPE、0. 3%SDS和200n/ml剪切和變性的鮭精DNA中,雜交可能在高度嚴(yán)格條件下發(fā)生。如上所述,雜交可能在降低的嚴(yán)格條件下發(fā)生,但是在35%甲酰胺,降低的35° C溫度下。對(duì)應(yīng)于特定嚴(yán)格水平的溫度范圍可以通過計(jì)算目的核酸的嘌呤對(duì)嘧啶的比率而進(jìn)ー步縮小,并依此調(diào)節(jié)溫度。上述范圍和條件的變化是本領(lǐng)域熟知的。術(shù)語“變異體”指在ー個(gè)或多個(gè)堿基對(duì)、密碼子、內(nèi)含子、外顯子或氨基酸殘基上(分別地)被修飾但仍保留本發(fā)明脫鹵素酶生物活性的本發(fā)明的多核苷酸或多肽。本發(fā)明的多核苷酸或多肽也可以通過導(dǎo)入修飾的堿基如次黃嘌呤核苷而被修飾。另外,這些修飾可以任選地被重復(fù)ー或多次。這些變異體可以通過許多方法產(chǎn)生,例如,包括易錯(cuò)聚合酶鏈?zhǔn)椒磻?yīng)(易錯(cuò)PCR)、改組(Shuffling)、寡核苷酸定位誘變(oligonucleotide-directedmutagenesis)、裝配PCR、有性PCR誘變、體內(nèi)誘變、盒式誘變、循環(huán)系綜誘變、指數(shù)系綜誘變、位點(diǎn)特異性誘變、基因再裝配、基因位點(diǎn)飽和誘變(GSSM)或它們的任何組合、排列或反復(fù)步驟。酶是高度選擇性的催化劑。它們的特點(diǎn)是能夠以傳統(tǒng)合成化學(xué)無法比擬的空前靈敏的立體、區(qū)域和化學(xué)選擇性催化反應(yīng)。而且,酶有非常多方面的能力。它們可以被修改以在有機(jī)溶劑中起作用,在極端pH(例如,高pH和低pH)、極端溫度(例如,高溫度和低溫度)和極端鹽水平(例如,高鹽度和低鹽度)下工作,并催化結(jié)構(gòu)上與其天然的生理學(xué)底物無關(guān)的化合物的反應(yīng)。酶對(duì)大范圍的天然和非天然底物起作用,因此實(shí)際上使任何有機(jī)的前導(dǎo)化合物能夠被修飾。而且,與傳統(tǒng)的化學(xué)催化劑不同,酶是高度對(duì)抗選擇和區(qū)域選擇的。酶所具有的高度功能基團(tuán)特異性使人們能夠明了產(chǎn)生新活性化合物的合成序列中的每ー個(gè)反應(yīng)。酶還能夠催化許多與其天然生理學(xué)功能無關(guān)的不同反應(yīng)。例如,過氧化物酶催化過氧化氫對(duì) 苯酚的氧化作用。過氧化物酶也可以催化與其天然酶功能無關(guān)的羥基化反應(yīng)。其它的例子是催化多肽分解的蛋白酶類。在有機(jī)溶液中,ー些蛋白酶類還可以酰化糖類,此作用與這些酶的天然功能無關(guān)。本發(fā)明開發(fā)了酶的獨(dú)特催化特性。盡管在化學(xué)轉(zhuǎn)化作用中使用生物催化劑(即純化酶或粗制酶,非活細(xì)胞或活細(xì)胞)通常需要確定與特定的起始化合物相互作用的特定生物催化劑,但本發(fā)明使用了對(duì)許多起始化合物中存在的功能基團(tuán)特異的選擇的生物催化劑和反應(yīng)條件。每個(gè)生物催化劑對(duì)ー個(gè)或數(shù)個(gè)相關(guān)的功能基團(tuán)特異,井能夠與許多含此功能基團(tuán)的起始化合物相互作用。生物催化反應(yīng)從單一的起始化合物產(chǎn)生一群衍生物。這些衍生物可以接受另ー輪生物催化反應(yīng)以產(chǎn)生第二群衍生物化合物。生物催化的衍生作用的每一次重復(fù)可以產(chǎn)生起始化合物的數(shù)千個(gè)變異體。酶在起始化合物的特異位置起作用而不影響其余的分子,這ー過程采用傳統(tǒng)的化學(xué)方法是很難達(dá)到的。這種高度的生物催化特異性提供了在文庫中鑒定單ー活性化合物的方法。該文庫的特征是用來產(chǎn)生它的生物催化反應(yīng)系列,即所謂的“生物合成歷史記錄”。篩選文庫的生物活性和追蹤生物合成歷史確定了產(chǎn)生活性化合物的特異性反應(yīng)序列。重復(fù)反應(yīng)序列,并確定合成的化合物的結(jié)構(gòu)。這個(gè)鑒定模式與其它合成和篩選方法不同,不需要固定技術(shù),而且化合物可以游離在溶液中采用實(shí)際上任何類型的篩選試驗(yàn)而被合成和檢測(cè)。重要的是要注意,酶對(duì)功能基團(tuán)反應(yīng)的高度特異性可以“追蹤”特異性酶反應(yīng),它可制備生物催化產(chǎn)生的文庫。采用機(jī)械自動(dòng)操作進(jìn)行許多程序性步驟,該自動(dòng)操作能夠每天完成數(shù)千的生物催化反應(yīng)和篩選試驗(yàn),并保證高水平的精確性和再現(xiàn)性。其結(jié)果是,衍生化合物文庫可以在大約數(shù)周內(nèi)產(chǎn)生,而采用通用的化學(xué)方法會(huì)需要數(shù)年。(對(duì)進(jìn)一歩分子的修飾,包括小分子的教導(dǎo),見PCT/US94/09174,在此整體加入作為參考)。在ー個(gè)方面,本發(fā)明提供了稱為合成基因再裝配的非隨機(jī)方法,它與隨機(jī)的改組有些相關(guān),只是核酸構(gòu)建模塊不隨機(jī)地改組或鏈接或嵌合,而是非隨機(jī)地裝配。
      合成基因再裝配法不依賴于要改組的多核苷酸間存在高水平的同源性。本發(fā)明可被用于非隨機(jī)地產(chǎn)生包括超過101°°的不同嵌合體的后代分子文庫(或集合)。可以想到的,合成基因再裝配甚至可以被用于產(chǎn)生包括超過101°°°的不同后代嵌合體的文庫。因此,在ー個(gè)方面,本發(fā)明提供了產(chǎn)生ー批終定核酸分子的非隨機(jī)方法,這些分子具有由設(shè)計(jì)選定的整體裝配順序,該方法包括以下步驟通過設(shè)計(jì)產(chǎn)生眾多具有有用的相互兼容可連接末端的特異核酸構(gòu)建模塊,并裝配這些核酸構(gòu)建模塊,這樣獲得了設(shè)計(jì)的整體裝配順序。如果能夠使構(gòu)建模塊以預(yù)定的順序連接,要裝配的核酸構(gòu)建模塊的相互兼容可連接末端被認(rèn)為對(duì)于此型有序裝配是“有用的”。因此,在ー個(gè)方面,通過設(shè)計(jì)可連接末端,可以連接核酸構(gòu)建模塊的整體裝配順序是特異的,如果需要使用超過ー個(gè)的裝配步驟,那么通過裝配步驟的連續(xù)順序,可以連接構(gòu)建模塊的整體裝配順序也是特異的。在本發(fā)明的一個(gè)實(shí)施方案中,用酶如連接酶(如T4 DNA連接酶)處理退火的構(gòu)件以獲得構(gòu)件的共價(jià)結(jié)合。在另ー個(gè)實(shí)施方案中,根據(jù)ー批原始核酸模板的序列分析獲得了核酸構(gòu)建模塊的 設(shè)計(jì),該模板作為產(chǎn)生終定嵌合核酸分子的子集的分子基礎(chǔ)。因而,這些原始核酸模板作為序列信息的來源,幫助設(shè)計(jì)要誘變的,即嵌合的或滑動(dòng)的核酸構(gòu)建模塊。在一個(gè)范例中,本發(fā)明提供相關(guān)基因家族及其相關(guān)產(chǎn)物編碼家族的嵌合作用。在特別范例中,編碼的產(chǎn)物是酶。本發(fā)明的脫鹵素酶可以按照這里描述的方法誘變。因此,按照本發(fā)明的ー個(gè)方面,眾多原始核酸模板(如A組核酸序列的多核苷酸)被排列以選擇ー個(gè)或多個(gè)分界點(diǎn),該分界點(diǎn)可以位于同源區(qū)域。分界點(diǎn)可被用于描繪要產(chǎn)生的核酸構(gòu)建模塊的邊界。這樣,在原始分子中識(shí)別和選擇的分界點(diǎn)作為后代分子裝配中潛在的嵌合作用點(diǎn)。典型地,有用的分界點(diǎn)是由至少兩個(gè)原始模板共享的同源區(qū)域(包括至少ー個(gè)同源的核苷酸堿基),但分界點(diǎn)可以是由原始模板的至少一半、原始模板的至少三分之ニ、原始模板的至少四分之三共享的同源區(qū),優(yōu)選地幾乎所有原始模板共享。還更優(yōu)選地,有用分界點(diǎn)是由所有原始模板共享的同源區(qū)。在一個(gè)實(shí)施方案中,為產(chǎn)生詳盡的文庫,徹底地進(jìn)行了基因再裝配過程。換言之,所有可能排列的核酸構(gòu)建模塊組合都描繪在終定嵌合核酸分子的集合中。同吋,每個(gè)組合的裝配順序(即,以每個(gè)終定嵌合核酸的5’至3’序列上的每ー構(gòu)建模塊的裝配順序)是有意設(shè)計(jì)的(或非隨機(jī)的)。由于本方法的非隨機(jī)性質(zhì),不需要的副產(chǎn)物的可能性大大減低。在另ー個(gè)實(shí)施方案中,本方法提供了系統(tǒng)地進(jìn)行的基因裝配步驟,例如,以系統(tǒng)地產(chǎn)生區(qū)室化文庫,具有能夠被系統(tǒng)地如一個(gè)接ー個(gè)地篩選的區(qū)室。換言之,本發(fā)明提供了以下的方法,即經(jīng)過選擇性和明智的使用特異的核酸構(gòu)建模塊,加上選擇性和明智的使用順序步驟的裝配反應(yīng),可以獲得在每個(gè)單獨(dú)的反應(yīng)容器中制造特異的子產(chǎn)物集合的實(shí)驗(yàn)設(shè)計(jì)。這使得系統(tǒng)性檢測(cè)和篩選過程得以進(jìn)行。因此,它使?jié)撛诘姆浅4罅康暮蟠肿幽軌蛞暂^小的批組被系統(tǒng)地檢測(cè)。因其以高度靈活但徹底而且系統(tǒng)的方式運(yùn)行,特別是當(dāng)原始分子間同源性水平低時(shí),本發(fā)明提供了用于產(chǎn)生由大量后代分子組成的文庫(或集合)。由于本基因再裝配發(fā)明的非隨機(jī)性質(zhì),產(chǎn)生的后代分子優(yōu)選地包括終定嵌合核酸分子文庫,后者具有由設(shè)計(jì)選定的整體裝配順序。在特殊實(shí)施例中,這種產(chǎn)生的文庫包括超過IO3至超過101°°°的不同后代分子種類。在ー個(gè)方面,如所述產(chǎn)生的終定嵌合核酸分子集合包括編碼多肽的多核苷酸。根據(jù)ー個(gè)實(shí)施方案,此多核苷酸可能是ー個(gè)人造的基因。根據(jù)另ー個(gè)實(shí)施方案,此多核苷酸可能是人造的基因通路。本發(fā)明提供了以下的方法,即由本發(fā)明產(chǎn)生的ー個(gè)或多個(gè)人造基因可能并入人造基因通路中,如可在真核生物(包括植物)中操作的通路。在另ー個(gè)范例中,產(chǎn)生構(gòu)建模塊的步驟的合成性質(zhì)可以設(shè)計(jì)和導(dǎo)入核苷酸(如可能是例如密碼子或內(nèi)含子或調(diào)節(jié)序列的一個(gè)或多個(gè)核苷酸),它們可以隨后被任選地移到體外過程(如通過誘變)或體內(nèi)過程(如通過應(yīng)用宿主生物體的基因剪接能力)中。應(yīng)當(dāng)理解,在許多情況下,除產(chǎn)生有用分界點(diǎn)的潛在益處外,導(dǎo)入這些核苷酸也可是由于許多其它的原因所需要的。
      因此,根據(jù)另ー個(gè)實(shí)施方案,本發(fā)明提供了以下方法,即核酸構(gòu)建模塊可被用于引入外顯子。這樣,本發(fā)明提供了以下方法,即功能性內(nèi)含子可被導(dǎo)入本發(fā)明的人造基因中。本發(fā)明還提供了以下方法,即功能性內(nèi)含子可以被導(dǎo)入本發(fā)明的人造基因通路中。因此,本發(fā)明供產(chǎn)生嵌合多核苷酸使用,即含ー個(gè)(或多個(gè))人工導(dǎo)入的內(nèi)含子的人造基因。因此,本發(fā)明還供產(chǎn)生嵌合多核苷酸使用,即含ー個(gè)(或多個(gè))人工導(dǎo)入的內(nèi)含子的人造基因通路。優(yōu)選地,人工導(dǎo)入的內(nèi)含子在ー個(gè)或多個(gè)宿主細(xì)胞中,以天然存在的內(nèi)含子在基因剪接中起作用的方式對(duì)基因剪接起更大的作用。本發(fā)明提供了產(chǎn)生人造的含內(nèi)含子的多核苷酸的方法,該多核苷酸將被導(dǎo)入宿主生物體以重組和/或剪接。用本發(fā)明產(chǎn)生的人造基因還可以作為與另ー個(gè)核酸重組的底物。同樣地,用本發(fā)明產(chǎn)生的人造基因通路也可以作為與另ー個(gè)核酸重組的底物。在優(yōu)選的實(shí)例中,重組是由人造的含內(nèi)含子的基因與作為重組伙伴的核酸之間的同源區(qū)所促進(jìn),或發(fā)生在該區(qū)域上。在ー個(gè)特別優(yōu)選的實(shí)例中,重組伙伴也可以是本發(fā)明產(chǎn)生的核酸,包括人造基因或人造基因通路。重組可以由存在于人造基因中的ー個(gè)(或多個(gè))人工導(dǎo)入的內(nèi)含子上的同源區(qū)所促進(jìn),或可發(fā)生在該區(qū)上。本發(fā)明的合成基因裝配方法應(yīng)用眾多核酸構(gòu)建模塊,每ー個(gè)優(yōu)選地具有兩個(gè)可連接的末端。每個(gè)核酸構(gòu)建模塊上的兩個(gè)可連接末端可能是兩個(gè)鈍末端(即每個(gè)末端上沒有突出的核苷酸),或優(yōu)選地ー個(gè)鈍末端和ー個(gè)突出端,或更優(yōu)選地仍是兩個(gè)突出端。為此目的有用的突出端可以是3’突出或5’突出。因此,核酸構(gòu)建模塊可具有一個(gè)3’突出端或可選擇地ー個(gè)5’突出端,或可選擇地兩個(gè)3’突出端或可選擇地兩個(gè)5’突出端。裝配核酸構(gòu)建模塊以形成終定嵌合核酸分子的整體順序,是通過有目的的實(shí)驗(yàn)設(shè)計(jì)而確定的,不是隨機(jī)的。根據(jù)ー個(gè)優(yōu)選的實(shí)施方案,核酸構(gòu)建模塊是如下產(chǎn)生的化學(xué)合成兩個(gè)單鏈核酸(也稱作單鏈寡聚體),并將它們接觸使其退火以形成雙鏈的核酸構(gòu)建模塊。雙鏈核酸構(gòu)建模塊可以是不固定大小的。這些構(gòu)建模塊的尺寸可以是小的或大的。優(yōu)選的構(gòu)建模塊大小范圍從I個(gè)堿基對(duì)(不包括任何突出端)至100,000個(gè)堿基對(duì)(不包括任何突出端)。也提供了其它優(yōu)選的大小范圍,它具有從Ibp至10,OOObp的下限(包括其間的每ー個(gè)整數(shù)值),和從2bp至100,OOObp的上限(包括其間的每ー個(gè)整數(shù)值)。存在許多對(duì)本發(fā)明有用的、可以產(chǎn)生雙鏈核酸構(gòu)建模塊的方法;這些方法為本領(lǐng)域已知并可以由熟練的專業(yè)技術(shù)人員容易地進(jìn)行。
      根據(jù)ー個(gè)實(shí)施方案,雙鏈核酸構(gòu)建模塊是通過首先產(chǎn)生兩個(gè)單鏈核酸,并令其退火以形成雙鏈核酸構(gòu)建模塊而產(chǎn)生的。除任何形成突出端者以外,雙鏈核酸構(gòu)建模塊的兩條鏈可以在每個(gè)核苷酸上互補(bǔ),因此除任何突出端以外不含錯(cuò)配。根據(jù)另ー個(gè)實(shí)施方案,除任何形成突出端者以外,雙鏈核酸構(gòu)建模塊兩條鏈不足以在每一個(gè)核苷酸上互補(bǔ)。因此,根據(jù)此實(shí)施方案,雙鏈核酸構(gòu)建模塊可被用于引導(dǎo)密碼子簡(jiǎn)并。優(yōu)選地,密碼子簡(jiǎn)并用這里描述的位點(diǎn)飽和誘變引導(dǎo),采用ー個(gè)或多個(gè)N,N, G/T盒或可選擇地采用ー個(gè)或多個(gè)N,N, N盒。本發(fā)明的體內(nèi)重組方法可以在特定多核苷酸或序列的未知雜交物或等位基因池上盲目地進(jìn)行。但不必知道特定多核苷酸的實(shí)際DNA或RNA序列。在混合的基因群內(nèi)應(yīng)用重組的方法可用于產(chǎn)生任何有用的蛋白,例如,白介素I、抗體、tPA和生長(zhǎng)激素。此方法可用于產(chǎn)生特異性或活性改變的蛋白。該方法也可用于產(chǎn)生雜交核酸序列,例如,啟動(dòng)子區(qū)、內(nèi)含子、外顯子、增強(qiáng)子序列、基因的3’非翻譯區(qū)或5’非翻譯區(qū)。因此,此方法可用于產(chǎn)生表達(dá)率升高的基因。此方法還可用于重復(fù)性DNA序列研究。最后,此方法可用于突變核糖酶或相似法則。 在ー個(gè)方面,這里描述的發(fā)明專注于使用簡(jiǎn)化重排、重組和選擇的重復(fù)循環(huán),它可使高度復(fù)雜的線性序列定向地分子進(jìn)化,如DNA、RNA或蛋白徹底重組。分子的體內(nèi)滑動(dòng)用于提供變異體,并可以應(yīng)用細(xì)胞的天然特性進(jìn)行以重組多聚體。雖然體內(nèi)重組提供了分子多祥性的主要天然途徑,基因重組依然是相對(duì)復(fù)雜的過程,涉及I)識(shí)別同源性;2)鏈裂解,鏈侵入和導(dǎo)致產(chǎn)生重組交叉的代謝步驟;和最后3)將交叉轉(zhuǎn)變成分離的重組分子。交叉的形成需要識(shí)別同源序列。在另ー個(gè)實(shí)施方案中,本發(fā)明包括從至少第一個(gè)多核苷酸和第二個(gè)多核苷酸產(chǎn)生雜交多核苷酸的方法。本發(fā)明可被用于通過引導(dǎo)至少第一個(gè)多核苷酸和第二個(gè)多核苷酸進(jìn)入適合的宿主細(xì)胞產(chǎn)生雜交多核苷酸,兩個(gè)多核苷酸共享部分序列的至少ー個(gè)區(qū)域同源(如 3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45,47,及其組合)。部分序列的區(qū)域同源可促進(jìn)這個(gè)過程,即導(dǎo)致產(chǎn)生雜交的多核苷酸的序列重組。如這里所用,術(shù)語“雜交的多核苷酸”是從本發(fā)明方法得到的任何核苷酸序列,包含來自至少兩個(gè)原始多核苷酸序列的序列。這樣的雜交的多核苷酸可以來自于分子之間的重組事件,它促進(jìn)DNA分子間的序列整合。此外,這樣的雜交的多核苷酸可以來自于分子內(nèi)簡(jiǎn)化重配(reductivereassortment)過程,它應(yīng)用重復(fù)的序列來改變DNA分子內(nèi)的核苷酸序列。本發(fā)明提供了產(chǎn)生雜交多核苷酸的方法,該雜交多核苷酸可編碼生物學(xué)活性的雜交多肽(如雜交的鹵烷脫鹵素酶)。在ー個(gè)方面,原始的多核苷酸編碼生物學(xué)活性的多肽。本發(fā)明的方法通過應(yīng)用細(xì)胞方法產(chǎn)生新的雜交多肽,該細(xì)胞方法整合了原始多核苷酸的序列,以便所得到的雜交多核苷酸編碼多肽,其中多肽顯示來自于原始生物學(xué)活性多肽的活性。例如,原始的多核苷酸可從不同的微生物編碼特定的酶。由來自ー個(gè)生物體的第一個(gè)多核苷酸或變異體編碼的酶,例如,可在特定的環(huán)境條件,如高鹽度下有效地起作用。由來自不同生物體的第二個(gè)多核苷酸或變異體編碼的酶,可在不同的環(huán)境條件,如超高溫下有效地起作用。雜交的多核苷酸含有來自第一和第二個(gè)原始多核苷酸的序列,可編碼具有兩個(gè)酶特性的酶,這兩個(gè)酶是由原始多核苷酸編碼的。因此,由雜交多核苷酸編碼的酶可在第一和第二個(gè)多核苷酸編碼的每個(gè)酶所具有的環(huán)境條件下,如高鹽度和超高溫下,有效地起作用。由本發(fā)明多核苷酸編碼的酶包括但不限于水解酶,脫鹵素酶和鹵烷脫鹵素酶。來自于本發(fā)明方法的雜交多肽可具有原始酶不顯示的特殊酶活性。例如,在編碼水解酶活性的多核苷酸重組和/或簡(jiǎn)化重配后,所得到的由雜交多核苷酸編碼的雜交多肽被篩選來自每ー個(gè)原始酶的特殊水解酶活性,即水解酶作用的鍵的類型和水解酶起作用的溫度。因此,例如,可篩選水解酶以確定區(qū)別雜交水解酶與原始水解酶的化學(xué)功能性,如(a)氨基化合物(肽鍵),即蛋白酶;(b)酯鍵,即酯酶和脂肪酶;(c)こ縮醛即糖苷酶,和例如雜交多肽發(fā)揮作用的溫度、PH或鹽濃度。原始多核苷酸的來源可以分離自單個(gè)的生物體(“分離”)、在限定的培養(yǎng)基中生長(zhǎng)的生物體集合(“富集培養(yǎng)”)、或未培養(yǎng)的生物體(“環(huán)境樣本”)。使用不依賴培養(yǎng)的方法從環(huán)境樣本中得到編碼新生物活性的多核苷酸是最優(yōu)選的,這是因?yàn)樗谷藗兛梢缘玫轿词褂玫纳锒嘞樾詠碓础?
      “環(huán)境文庫”是從環(huán)境樣本中產(chǎn)生的,井代表在克隆載體中獲得的天然存在生物體的基因組集合,克隆載體可以在適合的原核宿主中繁殖的。由于克隆的DNA最初是直接從環(huán)境樣本中提取的,所以文庫并不限于可以在純系培養(yǎng)中生長(zhǎng)的小部分原核細(xì)胞。此外,這些樣本中存在的環(huán)境DNA的標(biāo)準(zhǔn)化,能使原始樣本中存在的所有種屬的DNA更平等地表示。這可以顯著地提高從樣本的較小組分中發(fā)現(xiàn)目的基因的效率,同優(yōu)勢(shì)種屬相比,這些較小組分的表現(xiàn)幅度可以低數(shù)個(gè)量級(jí)。例如,篩選從ー個(gè)或多個(gè)未培養(yǎng)的微生物中產(chǎn)生的基因文庫的目的活性。編碼目的生物活性分子的潛在通路首先在原核細(xì)胞中以基因表達(dá)文庫的形式被捕獲。編碼目的活性的多核苷酸從這種文庫中分離并導(dǎo)入宿主細(xì)胞中。宿主細(xì)胞在促進(jìn)重組和/或潛在地產(chǎn)生活性生物分子的簡(jiǎn)化重配條件下生長(zhǎng),該生物分子具有新的或增高的活性??梢詮闹兄苽涠嗪塑账岬奈⑸锇?,原核微生物如真細(xì)菌和古細(xì)菌,低等真核微生物如霉菌,某些藻類和原生動(dòng)物。多核苷酸可以從環(huán)境樣本中分離,在此情況下,核酸可以不培養(yǎng)生物體而回收,或從ー個(gè)或多個(gè)培養(yǎng)的生物體中分離。在ー個(gè)方面,這種微生物可以是嗜極端環(huán)境的微生物(extremophiles)如嗜超高溫生物、嗜寒生物、嗜冷生物、嗜鹽生物、嗜壓微生物和嗜酸生物。從嗜極性微生物中分離的編碼酶的多核苷酸是特別優(yōu)選的。這種酶可在以下條件下工作超過100° C溫度的陸地溫泉和深海熱火山口中,低于0° C溫度的北極水中,在死海的飽和鹽環(huán)境中,pH值為O左右的煤沉積層和地?zé)岣涣蚧侨?,或PH值超過11的污水淤泥中。例如,從嗜極性微生物中克隆和表達(dá)的幾種酯酶和脂肪酶在寬范圍溫度和PH中顯示了高活性。如以上所描述選擇和分離的多核苷酸被導(dǎo)入適合的宿主細(xì)胞中。適合的宿主細(xì)胞是能夠促進(jìn)重組和/或簡(jiǎn)化重配的任何細(xì)胞。所選擇的多核苷酸優(yōu)選已經(jīng)存在于包含適當(dāng)控制序列的載體中。宿主細(xì)胞可以是高等真核細(xì)胞如哺乳動(dòng)物細(xì)胞,或低等真核細(xì)胞如酵母細(xì)胞,或優(yōu)選地,宿主細(xì)胞可以是原核細(xì)胞如細(xì)菌細(xì)胞。將構(gòu)建物導(dǎo)入宿主細(xì)胞可以通過磷酸鈣轉(zhuǎn)染、DEAE-葡聚糖介導(dǎo)的轉(zhuǎn)染、或電穿孔法實(shí)現(xiàn)(Davis等人,1986)。作為合適宿主的代表性實(shí)例,可能提及細(xì)菌細(xì)胞如大腸桿菌、鏈霉菌、鼠傷寒沙門氏菌;真菌細(xì)胞如酵母;昆蟲細(xì)胞如果蠅S2和草地夜蛾Sf9 ;動(dòng)物細(xì)胞如中國(guó)倉鼠卵巢細(xì)胞(CHO)、被含有缺陷性病毒復(fù)制起點(diǎn)的猴腎病毒SV40 DNA所轉(zhuǎn)化的猴細(xì)胞(COS)或Bowes惡性黑素瘤;腺病毒類;和植物細(xì)胞。從這里的教導(dǎo),相信合適宿主的選擇在本領(lǐng)域?qū)I(yè)技術(shù)人員的知識(shí)范圍內(nèi)。特別是根據(jù)能夠用于表達(dá)重組蛋白的各種哺乳動(dòng)物細(xì)胞培養(yǎng)系統(tǒng),哺乳動(dòng)物表達(dá)系統(tǒng)的實(shí)例包括,猴腎成纖維細(xì)胞的C0S-7系,描述于“SV40-轉(zhuǎn)化的猿細(xì)胞支持早期SV40突變體的復(fù)制”(Gluzman,1981);和能夠表達(dá)兼容載體的細(xì)胞系,例如C127、3T3、CHO、HeLa和敘利亞幼年倉鼠腎細(xì)胞系( BHK細(xì)胞系)。哺乳動(dòng)物表達(dá)載體包括復(fù)制起點(diǎn)、適合的啟動(dòng)子和增強(qiáng)子,還包括任何必要的核糖體結(jié)合位點(diǎn)、聚腺苷酸化位點(diǎn)、剪接供體和受體位點(diǎn)、轉(zhuǎn)錄終止序列、和5’側(cè)翼非轉(zhuǎn)錄序列。來自SV40剪接的DNA序列和聚腺苷酸化位點(diǎn)可用于提供所需的非轉(zhuǎn)錄基因元件。含目的多核苷酸的宿主細(xì)胞可以在為適于激活啟動(dòng)子、選擇轉(zhuǎn)化體或擴(kuò)增基因被修飾的傳統(tǒng)營(yíng)養(yǎng)培養(yǎng)基中培養(yǎng)。培養(yǎng)條件,如溫度、PH等,是以前選做表達(dá)的宿主細(xì)胞所用的條件,并對(duì)普通專業(yè)技術(shù)人員是顯而易見的。然后,可以對(duì)被確定具有特異酶活性的克隆測(cè)序,以確定編碼活性增強(qiáng)的酶的多核苷酸序列。在另ー個(gè)方面,可以預(yù)想到本發(fā)明的方法可被用干,從ー個(gè)或多個(gè)操縱子或基因簇或其部分產(chǎn)生新的編碼生物化學(xué)通路的多核苷酸。例如,細(xì)菌和許多真核細(xì)胞對(duì)于調(diào)節(jié)基因具有同等的機(jī)制,基因產(chǎn)物涉及相關(guān)的過程?;蚴浅纱氐模诮Y(jié)構(gòu)上稱作一個(gè)單ー染色體上的“基因簇”,并在ー個(gè)單ー調(diào)節(jié)序列的控制下一起轉(zhuǎn)錄,調(diào)節(jié)序列包括啟動(dòng)整個(gè)基因簇轉(zhuǎn)錄的單個(gè)啟動(dòng)子。因此,基因簇是ー組相鄰的基因,其功能通常是相同或相關(guān)的。由基因簇編碼的生物化學(xué)通路的實(shí)例是聚酮化合物。聚酮化合物是極富生物活性來源的分子,包括抗生素類(如四環(huán)素和紅霉素)、抗癌劑(道諾霉素)、免疫抑制劑(FK506和雷帕霉素),和獸醫(yī)產(chǎn)品(莫能菌素)。許多聚酮化合物(由聚酮合成酶產(chǎn)生)是有價(jià)值的治療藥物。聚酮合成酶是多功能的酶,催化大量的長(zhǎng)度、功能型和環(huán)化作用不同的多種碳鏈的生物合成。聚酮合成酶基因?qū)儆诨虼?,且至少ー個(gè)聚酮合成酶的類型(命名為I型)具有大尺寸的基因和酶,使這些基因/蛋白的基因操控和體外研究變得復(fù)雜化?;虼谼NA可以從不同的生物體分離并被連接進(jìn)載體,特別是含表達(dá)調(diào)節(jié)序列的載體,表達(dá)調(diào)節(jié)序列可以控制和調(diào)節(jié)可檢測(cè)蛋白的產(chǎn)生或來自連接的基因簇的蛋白相關(guān)排列活性。可進(jìn)行外源DNA引導(dǎo)的能力異常大的載體特別適合于這種基因簇,并在這里通過實(shí)例的方式進(jìn)行描述,包括大腸桿菌的f_因子(或致育因子)。此大腸桿菌的f_因子是質(zhì)粒,它在結(jié)合過程中影響其自身的高頻轉(zhuǎn)運(yùn),對(duì)于完成和穩(wěn)定地繁殖大的DNA片段,如來自混合微生物樣本的基因簇,是理想的。特別優(yōu)選的實(shí)施方案使用克隆載體,稱作含F(xiàn)因子嗜菌粒(“fosmids”)或細(xì)菌人工染色體(BAC)載體。衍生自大腸桿菌的f_因子的載體能夠穩(wěn)定地整合基因組DNA的大片段。當(dāng)與來自混合的未培養(yǎng)環(huán)境樣本的DNA整合時(shí),可能以穩(wěn)定的“環(huán)境DNA文庫,,的形式獲得大基因組片段。另ー類型用于本發(fā)明的載體是粘粒載體。粘粒載體最初是設(shè)計(jì)來克隆和繁殖基因組DNA的大片段。克隆進(jìn)粘粒載體詳細(xì)描述于Sambrook等人,分子克隆實(shí)驗(yàn)室指南,第二版,Cold Spring Harbor LaboratoryPress (1989)。一旦連接進(jìn)合適的載體,兩個(gè)或多個(gè)含不同聚酮合成酶基因簇的載體可以被導(dǎo)入適合的宿主細(xì)胞?;虼毓灿械牟糠中蛄型磪^(qū)域會(huì)促進(jìn)引起序列重組的過程,導(dǎo)致產(chǎn)生雜交基因簇。然后,新的雜交基因簇被篩選在原始基因群中沒有發(fā)現(xiàn)的增強(qiáng)活性。因此,在一個(gè)實(shí)施方案中,本發(fā)明涉及ー種方法,用于產(chǎn)生ー種生物學(xué)活性的雜交多肽,并通過以下步驟篩選具有增強(qiáng)活性的這種多肽I)將在可操作連接中的至少第一個(gè)多核苷酸和可操作連接中的第二個(gè)多核苷酸引入至合適的宿主細(xì)胞中,所述的至少第一個(gè)多核苷酸和第二個(gè)多核苷酸共享至少ー個(gè)部分序列同源性的區(qū)域。2)在促進(jìn)序列重組的條件下培養(yǎng)宿主細(xì)胞,產(chǎn)生可操作連接中的雜交多核苷酸;3)表達(dá)由雜交的多核苷酸編碼的雜交多肽;4)在促進(jìn)鑒定增強(qiáng)的生物學(xué)活性的條件下篩選雜交多肽;和5)分尚編碼雜交多肽的多核苷酸。篩選各種酶活性的方法為本領(lǐng)域的專業(yè)技術(shù)人員已知,并通過本說明書進(jìn)行討 論。當(dāng)分離本發(fā)明的多肽和多核苷酸時(shí),可應(yīng)用這些方法。作為可使用的表達(dá)載體的代表性實(shí)例,可能提到病毒顆粒,桿狀病毒,噬菌體,質(zhì)粒,噬菌粒,粘粒,含F(xiàn)因子嗜菌粒(fosmids ),細(xì)菌人工染色體,病毒DNA (如牛痘,腺病毒,禽痘病毒,假狂犬病和SV40的衍生體),Pl-為基礎(chǔ)的人工染色體,酵母質(zhì)粒,酵母人工染色體,和對(duì)特殊目標(biāo)宿主特異的任何其他載體(如桿菌,曲霉菌和酵母)。因此,例如,DNA可包含在表達(dá)多肽的各種表達(dá)載體中的任何ー種中。這樣的載體包括染色體的,非染色體的和合成的DNA序列。大量的合適載體是本領(lǐng)域?qū)I(yè)技術(shù)人員已知的,并可從商業(yè)渠道獲得。下面提供了載體的實(shí)例;細(xì)菌的pQE載體(Qiagen), pBluescript質(zhì)粒,pNH載體,(λ-ZAP 載體(Stratagene);ptrc99a, pKK223-3, pDR540, pRIT2T (Pharmacia);真核的pXTl,pSG5 (Stratagene),pSVK3, pBPV,pMSG,pSVLSV40 (Pharmacia)。但是,可以使用任何其他的質(zhì)?;蚱渌妮d體,只要它們?cè)谒拗髦惺强蓮?fù)制的和有活力的。低拷貝數(shù)或高拷貝數(shù)的載體可在本發(fā)明中應(yīng)用。表達(dá)載體中的DNA序列可操作地與合適的表達(dá)控制序列(啟動(dòng)子)連接以引導(dǎo)RNA合成。特殊命名的細(xì)菌啟動(dòng)子包括IacI,IacZ, T3, T7, gpt,真核細(xì)胞啟動(dòng)子包括CMV立即早期,HSV胸苷激酶,早期和晚期SV40,來自逆轉(zhuǎn)錄酶病毒的LTRsJP小鼠金屬硫蛋白-1。合適載體和啟動(dòng)子的選擇很容易地包含在本領(lǐng)域普通專業(yè)技術(shù)人員水平之內(nèi)。表達(dá)載體也含有一個(gè)翻譯起始的核糖體結(jié)合位點(diǎn)和ー個(gè)轉(zhuǎn)錄終止子。載體也可包含擴(kuò)增表達(dá)的合適序列。啟動(dòng)子區(qū)可采用氯霉素轉(zhuǎn)移酶(CAT)載體或其他含有選擇性標(biāo)記物的載體從任何所需的基因中選擇出來。另外,表達(dá)載體優(yōu)選含有一個(gè)或多個(gè)選擇性標(biāo)記物基因以便為選擇轉(zhuǎn)化宿主細(xì)胞提供顯型特征,如為真核細(xì)胞培養(yǎng)使用的ニ氫葉酸還原酶或新霉素抗性,或如在大腸桿菌中使用的四環(huán)素或氨芐青霉素抗性。體內(nèi)重配集中在總稱為“重組”的“分子間”過程,在細(xì)菌中一般被認(rèn)為是“RecA依賴”的現(xiàn)象。本發(fā)明可以依靠宿主細(xì)胞的重組過程來重組和重配序列,或是依靠細(xì)胞介導(dǎo)簡(jiǎn)化過程的能力來通過刪除作用減少細(xì)胞中類似重復(fù)序列的復(fù)雜性?!昂?jiǎn)化重配”過程可通過“分子內(nèi)的”RecA不依賴過程而發(fā)生。因此,在本發(fā)明的另ー個(gè)方面,通過簡(jiǎn)化重配的過程可以產(chǎn)生新的多核苷酸。該法涉及產(chǎn)生含有連續(xù)序列(原始編碼序列)的構(gòu)建物,將它們插入至ー個(gè)合適的載體中,隨后引導(dǎo)它們進(jìn)入ー個(gè)合適的宿主細(xì)胞中。單個(gè)分子同一性的重配通過具有同源區(qū)的構(gòu)建物中的連續(xù)序列之間,或類似重復(fù)單位之間的組合過程而發(fā)生。重配過程重組和/或減少了重復(fù)序列的復(fù)雜性和程度,導(dǎo)致產(chǎn)生新的分子種類??刹捎酶鞣N處理方法來增強(qiáng)重配的速度。這些方法可包括用紫外光,或破壞DNA的化學(xué)物質(zhì)處理,和/或使用顯示“基因不穩(wěn)定性”水平增強(qiáng)的宿主細(xì)胞系。因此重配過程可涉及同源性重組或類似重復(fù)序列的天然特性以控制其自身的進(jìn)化。重復(fù)的或“準(zhǔn)重復(fù)的”序列在基因不穩(wěn)定性中具有作用。在本發(fā)明中,“準(zhǔn)重復(fù)”是不限于其原始單位結(jié)構(gòu)的重復(fù)。準(zhǔn)重復(fù)單位可以表現(xiàn)為構(gòu)建物中的序列陣列;相似序列的連續(xù)單位。一旦交連后,連續(xù)序列之間的連接基本上消失了,得到的構(gòu)建物的類似重復(fù)特性在分子水平上現(xiàn)在是連續(xù)的。細(xì)胞為減少所得構(gòu)建物的復(fù)雜性而進(jìn)行的刪除過程在準(zhǔn)重復(fù)序列之間進(jìn)行。準(zhǔn)重復(fù)單位提供了實(shí)際上無限的模板集合,在其上可發(fā)生滑動(dòng)現(xiàn)象。含有準(zhǔn)重復(fù)區(qū)的構(gòu)建物因此可有效地提供足夠的分子靈活性,使刪除作用(和潛在的插入作用)可實(shí)際上地發(fā)生在準(zhǔn)重復(fù)單位內(nèi)的任何地方。當(dāng)準(zhǔn)重復(fù)序列都以同一方向交連時(shí),例如從頭至尾,或反之,細(xì)胞不能區(qū)分單個(gè)的単位。因此,簡(jiǎn)化過程可發(fā)生在序列全程中。相反,例如當(dāng)単位以頭至頭而不是頭至尾的形式出現(xiàn)時(shí),倒位可描繪出鄰近単位的終點(diǎn),使得缺失的形成將傾向于丟失不連續(xù)単位。因此,本方法優(yōu)選序列處于同一方向。準(zhǔn)重復(fù)序列的隨機(jī)方向?qū)?dǎo)致喪失重排效率,而序列方 向一致將提供最高的效率。但是,當(dāng)在同一方向中含有較少的鄰近序列而降低效率時(shí),對(duì)新分子的有效回收仍可提供足夠的靈活性??稍谕环较蛏嫌脺?zhǔn)重復(fù)序列制備構(gòu)建物以獲得更高的效率。序列可以頭至尾的方向采用任何方法來進(jìn)行裝配,包括下列方法a)當(dāng)制備的單鏈可提供方向時(shí),可使用包括聚腺苷酸頭部和聚胸腺嘧啶核苷酸尾部的引物。這是通過具有從RNA制備的引物的前幾個(gè)堿基而實(shí)現(xiàn),因此可很容易的去除RNAseH0b)可使用含有獨(dú)特限制性切割位點(diǎn)的引物。將需要多個(gè)位點(diǎn),ー組獨(dú)特序列,和重復(fù)的合成和連接步驟。c)引物的內(nèi)部幾個(gè)堿基可以是硫醇鹽的和用來產(chǎn)生正確帶尾分子的核酸外切酶。重配序列的回收依賴于用簡(jiǎn)化重復(fù)指數(shù)(RI)鑒定克隆載體。然后重排編碼序列可通過擴(kuò)增來回收。產(chǎn)物被再克隆和表達(dá)。用簡(jiǎn)化RI回收克隆載體可受以下因素影響I)僅在構(gòu)建物復(fù)雜性降低時(shí)可穩(wěn)定地維持載體的使用。2)通過物理步驟物理性回收縮短的載體。在此情況下,采用標(biāo)準(zhǔn)的質(zhì)粒分離步驟,和在瓊脂糖凝膠或采用標(biāo)準(zhǔn)步驟切去低分子量的柱上進(jìn)行大小分餾,將會(huì)回收克隆載體。3)含有中斷基因的載體的回收,其中的基因在插入大小減少時(shí)被選擇。4)采用使用表達(dá)載體以及適當(dāng)?shù)倪x擇的直接選擇技術(shù)。來自相關(guān)生物體的編碼序列(例如,基因)可顯示高度的同源性,并編碼十分不同的蛋白產(chǎn)物。這些類型的序列在本發(fā)明中特別地用作準(zhǔn)重復(fù)序列。但是,當(dāng)下面所描述的實(shí)例證實(shí)幾乎相同的原始編碼序列(準(zhǔn)重復(fù))的重配吋,這個(gè)過程并不限于這樣的幾乎相同的重復(fù)序列。下面的實(shí)例說明了本發(fā)明的ー種方法。描述了來自三個(gè)獨(dú)特種屬的編碼核酸序列(準(zhǔn)重復(fù)序列)。每個(gè)序列編碼ー個(gè)具有不同特性組的蛋白。每個(gè)序列在序列的獨(dú)特位點(diǎn)上有單個(gè)或幾個(gè)堿基對(duì)不同。準(zhǔn)重復(fù)序列被単獨(dú)或共同擴(kuò)增,并連接進(jìn)任意的裝配物中,這樣 在連接的分子群中具有所有可能的排列組合。準(zhǔn)重復(fù)序列的數(shù)目可通過裝配的條件控制。在ー個(gè)構(gòu)建物中準(zhǔn)重復(fù)單位的平均數(shù)目被定義為重復(fù)指數(shù)(RI)。一旦形成,構(gòu)建物可以在瓊脂糖凝膠上根據(jù)公開的協(xié)議進(jìn)行或不進(jìn)行大小分餾,插入進(jìn)ー個(gè)克隆載體,并轉(zhuǎn)染進(jìn)ー個(gè)合適的宿主細(xì)胞中。然后細(xì)胞被繁殖,“簡(jiǎn)化重配”起作用了。如果需要,簡(jiǎn)化重配過程的速度可通過引入DNA損害來加速。RI的減少是通過在重復(fù)序列之間的缺失形成以“分子內(nèi)”機(jī)制介導(dǎo)的,還是以“分子間”機(jī)制通過重組樣事件來介導(dǎo)的并不重要。最終的結(jié)果是分子的重配進(jìn)入所有可能的組合中。任選地,這種方法包括篩選改組池的文庫成員的其他步驟以便鑒定單個(gè)的改組文庫成員,該成員具有與預(yù)先確定的大分子結(jié)合或相反與之相互作用,或催化與其的特殊反應(yīng)(例如,如酶的催化結(jié)構(gòu)域)的能力,所述的大分子例如蛋白質(zhì)受體,寡糖,病毒顆粒(viron),或其他預(yù)先確定的化合物或結(jié)構(gòu)。從這種文庫中鑒定的多肽可用于治療,診斷,研究和相關(guān)的目的(如催化劑,増加 ー種水溶液摩爾滲透壓濃度的溶質(zhì),和類似物),和/或可以進(jìn)行一個(gè)或多個(gè)循環(huán)的改組和/或選擇。在另ー個(gè)方面,可以想象到,重組或重配之前或期間,由本發(fā)明方法產(chǎn)生的多核苷酸可接觸促進(jìn)突變體導(dǎo)入原始多核苷酸中的試劑或過程。這種突變體的導(dǎo)入將増加所產(chǎn)生的雜交多核苷酸和編碼它的多肽的多祥性。促進(jìn)誘變的試劑或過程包括但不限于(+)-CC-1065,或ー個(gè)合成類似物如(+)-CC-1065-(N3-腺嘌呤(見 Sun 和 Hurley,(1992);能夠抑制DNA合成的N-こ酰化或去こ?;?’ -氟-4-氨基聯(lián)苯加合物(例如參見van dePoll等人(1992));或能夠抑制DNA合成的N-こ?;蛉イ初;?-氨基聯(lián)苯加合物(也見,van de Poll等人(1992),751-758頁);三價(jià)鉻,三價(jià)鉻鹽,能夠抑制DNA復(fù)制的多環(huán)芳香烴(PAH)DNA加合物,如7-溴甲基-苯[a]蒽(“BMA”),三(2,3-ニ溴丙基)磷酸鹽(“Tris-BP”),l,2-ニ溴-3-氯丙烷(“DBCP”),2-溴丙稀醛(2BA),苯[a]芘-7,8-ニ氫ニ酚-9-10-環(huán)氧化物(“BPDE”),鉬(II)鹵素鹽,N-羥基-2-氨基-3-甲基咪唑[4,5-f]-喹啉(“N-羥基-IQ”),和N-羥基-2-氨基-I-甲基-6-苯基咪唑[4,5-f]-吡啶(“N-羥基-PhIP”)。延緩或中止PCR擴(kuò)增的特別優(yōu)選的手段包括紫外光⑴-CC-1065和(+)-CC-1065-(N3-腺嘌呤)。特殊包含的手段是DNA加合物或含有來自多核苷酸或多核苷酸池中的DNA加合物的多核苷酸,它們可通過包括在進(jìn)ー步處理前加熱含有多核苷酸的溶液的過程而被釋放或去除。在另ー個(gè)方面,本發(fā)明涉及ー種方法,用于在根據(jù)本發(fā)明為產(chǎn)生雜交或重配多核苷酸所提供的條件下,通過處理ー個(gè)含有編碼野生型蛋白的雙鏈模板多核苷酸而產(chǎn)生具有生物活性的重組蛋白。本發(fā)明也提供了使用專利密碼子引物(含有一個(gè)簡(jiǎn)并的N,N,N序列)在多核苷酸中導(dǎo)入點(diǎn)突變,以便產(chǎn)生ー組后代多肽,其中在每個(gè)氨基酸位點(diǎn)上都表現(xiàn)有全范圍的單氨基酸替代(基因位點(diǎn)飽和誘變(GSSM))。所使用的寡鏈包含有連續(xù)的首個(gè)同源序列,ー個(gè)簡(jiǎn)并的N,N,N序列和優(yōu)選但不是必須的第二條同源序列。使用這樣的寡鏈得到的下游后代翻譯產(chǎn)物包括所有可能的沿多肽的每個(gè)氨基酸位點(diǎn)上的氨基酸改變,這是因?yàn)镹,N,N序列的簡(jiǎn)并性包括所有20個(gè)氨基酸的密碼子。在ー個(gè)方面,ー個(gè)這樣的簡(jiǎn)并寡鏈(包括一個(gè)簡(jiǎn)并的N,N,N盒)用來將每個(gè)親代多核苷酸模板中的初始密碼子進(jìn)行全長(zhǎng)的密碼子替代。在另ー個(gè)方面,使用至少兩個(gè)簡(jiǎn)并的N,N,N盒-在同一個(gè)寡鏈中,或不再同一個(gè)寡鏈中,將親代多核苷酸模板中的至少兩個(gè)初始密碼子進(jìn)行全長(zhǎng)的密碼子替代。因此,ー個(gè)以上的N,N, N序列可包含在一個(gè)寡鏈中以便在ー個(gè)以上的位點(diǎn)上引入氨基酸突變。這種多個(gè)N,N,N序列可以是直接連續(xù)的,或通過ー個(gè)或多個(gè)其他的核苷酸序列分離的。在另ー個(gè)方面,適用于引入加入和刪除的寡鏈可單獨(dú)使用或與含有N,N,N序列的密碼子聯(lián)合使用,以便引入任何排列或組合的氨基酸加入,刪除和/或替代。在ー個(gè)特殊的范例中,可能同時(shí)采用一個(gè)寡鏈來誘變兩個(gè)或更多的鄰近的氨基酸位點(diǎn),該寡鏈含有相連的N,N, N三聯(lián)體,即簡(jiǎn)并的(N,N, N)η序列。在另ー個(gè)方面,本發(fā)明提供了使用具有比N,N,N序列的簡(jiǎn)并性更小的簡(jiǎn)并盒。例如,需要在一些情況下使用(如在一個(gè)寡鏈中)ー個(gè)僅含有ー個(gè)N的簡(jiǎn)并三聯(lián)體序列,其中所述的N可位于三聯(lián)體的第一個(gè),第二個(gè)或第三個(gè)位點(diǎn)上。任何其他包含任何排列組合的堿基可用在三聯(lián)體的剰余兩個(gè)位點(diǎn)上??梢赃x擇的是,在有些情況下可使用(如在ー個(gè)寡鏈中)一個(gè)簡(jiǎn)并的N,N, N三聯(lián)體序列,N, N, G/T,或ー個(gè)N,N, G/C三聯(lián)體序列。 但可以理解的是,在本發(fā)明中公開的簡(jiǎn)并三聯(lián)體(如N,N, G/T或N,N, G/C三聯(lián)體序列)的使用由于數(shù)個(gè)原因是有益的。在ー個(gè)方面,本發(fā)明提供了ー種手段來系統(tǒng)地和相當(dāng)容易地在一個(gè)多肽中的每個(gè)和任意一個(gè)氨基酸位點(diǎn)中產(chǎn)生可能的氨基酸的全長(zhǎng)替代(總共為20個(gè)氨基酸)。因此,對(duì)于100個(gè)氨基酸的多肽,本發(fā)明提供了ー種方法,可系統(tǒng)地和相當(dāng)容易地產(chǎn)生2000個(gè)不同的種類(即,每個(gè)位點(diǎn)20個(gè)可能的氨基酸乘100個(gè)氨基酸位點(diǎn))。可以理解的是通過使用含有簡(jiǎn)并N,N, G/T或N,N, G/C三聯(lián)體序列的寡鏈,提供了 32個(gè)單獨(dú)的序列,可編碼20個(gè)可能的氨基酸。因此,在一個(gè)反應(yīng)容器內(nèi),其中親代多核苷酸序列采用ー個(gè)這樣的寡鏈進(jìn)行飽和誘變,產(chǎn)生了 32個(gè)不同的編碼20個(gè)不同多肽的后代多核苷酸。相比,在定點(diǎn)誘變中使用非簡(jiǎn)并寡鏈僅可導(dǎo)致在每個(gè)反應(yīng)容器中產(chǎn)生ー個(gè)后代多肽產(chǎn)物。本發(fā)明也提供了非簡(jiǎn)并寡鏈的使用,可以任選地與公開的簡(jiǎn)并引物聯(lián)合使用??梢岳斫獾氖窃讴`些情況下,使用非簡(jiǎn)并寡鏈來在ー個(gè)工作多核苷酸中產(chǎn)生特異的點(diǎn)突變是有益的。這提供了ー種方法,來產(chǎn)生特異的沉默點(diǎn)突變,可引起相應(yīng)氨基酸改變的點(diǎn)突變,和引起產(chǎn)生終止密碼子和相應(yīng)多肽片段表達(dá)的點(diǎn)突變。因此,在本發(fā)明的一個(gè)優(yōu)選實(shí)施方案中,每個(gè)飽和誘變反應(yīng)容器中含有編碼至少20個(gè)后代多肽分子的多核苷酸,因此所有20個(gè)氨基酸都可表現(xiàn)在與親代多核苷酸中誘變的密碼子位置對(duì)應(yīng)的一個(gè)特異氨基酸位點(diǎn)上。從每個(gè)飽和誘變反應(yīng)容器中產(chǎn)生的32倍簡(jiǎn)并后代多肽可進(jìn)行克隆擴(kuò)增(如采用ー個(gè)表達(dá)載體克隆進(jìn)ー個(gè)合適的大腸桿菌宿主中),并進(jìn)行表達(dá)篩選。當(dāng)一個(gè)單獨(dú)的后代多肽通過篩選被鑒定,顯示在屬性上發(fā)生有益的改變時(shí)(當(dāng)與親代多肽比較吋),它可被測(cè)序以鑒定包含在其中的相應(yīng)有益的氨基酸替代??梢岳斫獾氖窃谡T變過程中,如在此所公開的,在親代多肽中采用飽和誘變的每一個(gè)和任一個(gè)氨基酸位點(diǎn),有益的氨基酸改變均可在ー個(gè)以上的氨基酸位點(diǎn)上被鑒定??僧a(chǎn)生ー個(gè)或更多的新的后代分子,含有所有或部分這些有益的氨基酸替代的組合。例如,如果2個(gè)特殊的有益的氨基酸改變?cè)谝粋€(gè)多肽中的3個(gè)氨基酸位點(diǎn)的每ー個(gè)中都被鑒定出來,則在每個(gè)位點(diǎn)(與原始的氨基酸無變化,兩種有益的改變各ー個(gè))和3個(gè)位點(diǎn)上的排列包括3種可能性。因此,有3X3X3或總共27種可能性,包括7種以前檢測(cè)過的_6個(gè)單ー的點(diǎn)突變(即,在3個(gè)位點(diǎn)的每ー個(gè)上有兩個(gè))和在任何位點(diǎn)上沒有改變。仍然在另ー個(gè)方面,位點(diǎn)飽和誘變可與改組,嵌合,重組和其他誘變過程連同篩選一起應(yīng)用。本發(fā)明提供了以重復(fù)的方式應(yīng)用任何誘變過程,包括飽和誘變。在一個(gè)范例中,任何誘變過程可與篩選一起組合來反復(fù)應(yīng)用。因此,在一個(gè)非限制性的范例中,本發(fā)明提供了與其他誘變過程組合的飽和誘變的應(yīng)用,如這樣的過程,即其中兩個(gè)或多個(gè)相關(guān)的多核苷酸被導(dǎo)入進(jìn)一個(gè)合適的宿主中,以便可通過重組和簡(jiǎn)化重配產(chǎn)生雜交多核苷酸。為了沿整個(gè)基因序列進(jìn)行誘變,本發(fā)明提供了誘變可用來替代多核苷酸序列中的許多堿基中每ー個(gè)堿基,其中要誘變的堿基數(shù)目?jī)?yōu)選是從15至100,000的每ー個(gè)個(gè)整數(shù)。因此可對(duì)每ー個(gè)或不同數(shù)目的堿基(優(yōu)選亞群總數(shù)從15至100,000)進(jìn)行誘變,而不是沿著ー個(gè)分子誘變每ー個(gè)位點(diǎn)。優(yōu)選地,一個(gè)單獨(dú)的核苷酸用來誘變每個(gè)位點(diǎn)或沿多核苷酸 序列的每組位點(diǎn)誘變。要誘變的ー組3個(gè)位點(diǎn)可以是ー個(gè)密碼子。突變可優(yōu)選采用誘變引物來引入,含有ー個(gè)異源性盒,也被稱為是ー個(gè)誘變盒。優(yōu)選的盒具有I至500個(gè)堿基。在這樣的異源性盒中每個(gè)核苷酸位點(diǎn)可以是N,A, C,G,T, A/C, A/G,A/T,C/G,C/T, G/T, C/G/T, A/G/T, A/C/T, A/C/G,或E,其中E是任何堿基,不是A,C,G或T (E可被作為ー個(gè)設(shè)計(jì)寡鏈)。通常來說,飽和誘變包括在要被突變的特定多核苷酸序列中(其中要被突變的序列優(yōu)選長(zhǎng)度為大約15至100,000個(gè)堿基)誘變一整組誘變盒(其中每個(gè)盒優(yōu)選大約1-500堿基長(zhǎng)度)。因此,一組突變(范圍是從I至100個(gè)突變)可被引入至要被突變的盒中。在應(yīng)用ー輪飽和誘變的過程中,要被引入至一個(gè)盒中的一組突變可以是與要被引入至第二個(gè)盒中的第二組突變不同或相同的。這種定組的實(shí)例是刪除,加入,特殊密碼子的定組,和特殊核苷酸盒的定組。要突變的特定序列包括一整條基因,通路,cDNA,一整個(gè)開放可讀框(ORF),和整個(gè)啟動(dòng)子,增強(qiáng)子,阻遏物/超激活物,復(fù)制起點(diǎn),內(nèi)含子,操縱子,或任何多核苷酸功能基團(tuán)。通常,為此目的而“確定的序列”可以是任何多核苷酸,它是ー個(gè)15個(gè)堿基的多核苷酸序列,和長(zhǎng)度為15個(gè)堿基和15,000個(gè)堿基之間的多核苷酸序列(本發(fā)明特別地命名兩者之間的每ー個(gè)整數(shù))。選擇密碼子分組時(shí)的考慮包括由簡(jiǎn)并誘變盒編碼的氨基酸類型。在ー個(gè)特別優(yōu)選的范例中,可被引入至一個(gè)誘變盒中的一組突變中,本發(fā)明特別提供了編碼每個(gè)位點(diǎn)上 2,3,4, 5,6, 7,8,9, 10,11,12,13,14,15,16,17,18,19,和 20 個(gè)氨基酸的簡(jiǎn)并密碼子替代(采用簡(jiǎn)并寡鏈),和一個(gè)被它們編碼的多肽文庫。本發(fā)明的ー個(gè)方面是ー個(gè)分離的核酸,它包含了 A組核酸序列和基本上與它們ー致的序列中的ー個(gè)序列,與其互補(bǔ)的序列,或含有A組核酸序列(或其互補(bǔ)序列)其中之一的至少 10,15,20,25,30,35,40,50,75,100,150,200,300,400,或 500 個(gè)連續(xù)堿基的片段。分離的核酸可包含DNA,包括cDNA,基因組DNA,和合成DNA。DNA可以是雙鏈或單鏈,如果是單鏈,可以是編碼鏈或非編碼(反義)鏈??蛇x擇地,分離的核酸可包含RNA。如在下面更詳細(xì)討論的,A組核酸序列之一的分離核酸,和基本上與它們一致的序列,可被用來制備B組氨基酸序列和基本上與它們一致的序列的多肽的其中之一,或含有B組氨基酸序列的其中一個(gè)多肽的至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段,和基本上與它們一致的序列。因此,本發(fā)明的另ー個(gè)方面是ー個(gè)分離的核酸,它編碼B組氨基酸序列和基本上與它們一致的序列的其中一個(gè)多肽,或含有B組氨基酸序列的其中一個(gè)多肽的至少5,10, I5,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段。作為基因編碼冗余或簡(jiǎn)并的結(jié)果,這些核酸的編碼序列與A組核酸序列的其中ー個(gè)核酸的編碼序列之一,或其片段相同,或可能是不同的編碼序列,它們編碼B組氨基酸序列和基本上與它們一致的序列的其中一個(gè)多肽,和含有B組氨基酸序列的其中一個(gè)多肽的至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段?;虻木幋a可被本領(lǐng)域的專業(yè)技術(shù)人員所熟知,并獲得,例如在B. Lewin. Genes VI Il 214頁,牛津大學(xué)出版社,1997,其公開的內(nèi)容在此加入作為參考。編碼B組氨基酸序列的其中一個(gè)多肽,和基本上與它們一致的序列的分離核酸,可包括但不限于僅A組核酸序列之一的編碼序列,和基本上與它們一致的序列,和其他的編碼序列,如前導(dǎo)序列或蛋白原序列,和非編碼序列如內(nèi)含子或編碼序列的5’和/或3’端非編碼序列。因此,如在此所使用的,術(shù)語“編碼多肽的多核苷酸”包括僅含有多肽編碼序列的多核苷酸,以及包含其他編碼和/或非編碼序列的多核苷酸。可選擇地,A組核酸序列的核酸序列,和基本上與它們一致的序列,可采用常規(guī)的 技術(shù)進(jìn)行誘變,如定點(diǎn)誘變,或其他對(duì)本領(lǐng)域?qū)I(yè)技術(shù)人員所熟悉的技木,將沉默性變化引入至A組核酸序列和基本上與它們一致的序列中的多核苷酸中。如在此所使用的,“沉默性變化”包括,例如,不改變由多核苷酸編碼的氨基酸序列的變化。需要這樣的變化以便通過引入在宿主生物體內(nèi)經(jīng)常發(fā)生的密碼子或密碼子對(duì),來増加宿主細(xì)胞產(chǎn)生的多肽水平,該宿主細(xì)胞中含有編碼多肽的載體。本發(fā)明也涉及了含有核苷酸變化的多核苷酸,這種變化在B組氨基酸序列和基本上與它們一致的序列的多肽中產(chǎn)生了氨基酸替代,刪除,融合和截?cái)?。這樣的核苷酸變化可采用常規(guī)的技術(shù)來引入,如定點(diǎn)誘變,隨機(jī)化學(xué)誘變,核酸外切酶III刪除,和其他重組DNA技木??蛇x擇地,這樣的核苷酸變化可以是天然存在的等位基因變異,可在此所提供的高度、中度和低度嚴(yán)格性下,通過鑒別與探針特異性雜交的核酸而分離出來,該探針含有A組核酸序列的其中ー個(gè)序列的至少 10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500個(gè)連續(xù)堿基,和基本上與它們一致的序列(或其互補(bǔ)序列)。A組核酸序列的分離核酸,和基本上與它們一致的序列,其互補(bǔ)序列,或含有A組核酸序列的其中ー個(gè)序列的至少 10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500個(gè)連續(xù)堿基的片段,和基本上與它們一致的序列,或其互補(bǔ)序列也可用作探針來確定ー個(gè)生物樣品,如一個(gè)土樣,是否含有具有本發(fā)明的核酸序列的生物體,或獲取核酸的生物體。在這樣的方法中,獲取可能潛藏了生物體的生物樣品,從該生物體中可分離核酸,并從樣品中獲得核酸。核酸可在允許探針與存在其中的任何互補(bǔ)序列特異性雜交的條件下與探針接觸。當(dāng)需要時(shí),允許探針與互補(bǔ)序列特異性雜交的條件,可通過將探針與從已知含有互補(bǔ)序列的樣品中的互補(bǔ)序列,以及不含有互補(bǔ)序列的對(duì)照序列接觸而確定。雜交條件,如雜交緩沖液的鹽濃度,雜交緩沖液的甲酰胺濃度,可進(jìn)行變化以確定允許探針與互補(bǔ)核酸特異性雜交的條件。如果樣品含有可分離出核酸的生物體,就接著檢測(cè)探針的特異雜交。通過使用可檢測(cè)的試劑如放射性同位素,熒光染料或能夠催化形成可檢測(cè)產(chǎn)物的酶標(biāo)記探針,可對(duì)雜交作用進(jìn)行檢測(cè)。采用標(biāo)記的探針檢測(cè)樣品中互補(bǔ)核酸存在的許多方法是本領(lǐng)域?qū)I(yè)技術(shù)人員所熟悉的。這些方法包括Southern印跡,Northern印跡,菌落雜交法,和點(diǎn)印跡。姆ー種這些方法的步驟在Ausubel等人,分子牛.物學(xué)現(xiàn)代方法,Tohn Wiley 503 Sons公司(1997)和Sambrook等人,分子克降實(shí)驗(yàn)室手冊(cè),第二版,Cold Spring Harbor LaboratoryPress (1989)中被提供,這些文獻(xiàn)的整個(gè)公開內(nèi)容在此引用作為參考??蛇x擇地,ー個(gè)以上的探針(其中至少ー個(gè)能夠特異地與存在于核酸樣品中的任何互補(bǔ)序列雜交),可在擴(kuò)增反應(yīng)中使用,以確定樣品中是否含有生物體,該生物體含有本發(fā)明的核酸序列(如,可分離出核酸的生物體)。典型地,探針含有寡核苷酸。在一個(gè)實(shí)施方案中,擴(kuò)增反應(yīng)包含PCR反應(yīng)。PCR法描述在前面Ausubel和Sambrook的文獻(xiàn)中??蛇x擇地,擴(kuò)增可包含連接酶鏈?zhǔn)椒磻?yīng),3SR,或鏈置換反應(yīng)。(見Barany,F(xiàn).,“PCR世界中的連接酶鏈?zhǔn)椒磻?yīng)”,PCR Methods and Applications!5-16, 1991 ;Ε· Fahy 等人,“自身不變的序列復(fù)制(3SR):可替代PCR的等溫轉(zhuǎn)錄為基礎(chǔ)的擴(kuò)增”,PCR Methods and Applications I 25-33,1991 ;和Walker G. T.等人,“鏈置換擴(kuò)増-一種等溫的體外DNA擴(kuò)增技術(shù)”,Nucleic Acid Research 20:1691-1696, 1992,其中公開的內(nèi)容在此全部引用作為參考)。在這些方法中,樣品中的核酸與探針接觸,進(jìn)行擴(kuò)增反應(yīng),并檢測(cè)任何得到的擴(kuò)增產(chǎn)物。擴(kuò)增產(chǎn)物的檢測(cè)可通過在反應(yīng)產(chǎn)物上進(jìn)行凝膠電泳,并用interculator如嗅こ卩非唳對(duì)凝膠染色。可選擇地,一個(gè)或多個(gè)探針可用放射線同位素標(biāo)記,放射性擴(kuò)增產(chǎn)物的存在可通過凝膠電泳后的放射自顯影檢測(cè)到。來自A組核酸序列末端附近的序列和基本上與它們一致的序列的探針也可用在染色體步移法中,以鑒定含有基因組序列的克隆,該序列的位置鄰近A組核酸序列和基本上與它們一致的序列附近。這種方法可分離編碼來自宿主機(jī)體的其他蛋白質(zhì)的基因。A組核酸序列的分離核酸,和基本上與它們一致的序列,其互補(bǔ)序列,或含有A組核酸序列的其中ー個(gè)序列的至少 10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500個(gè)連續(xù)堿基的片段,和基本上與它們一致的序列,或其互補(bǔ)序列可用作探針來鑒定和分離相關(guān)的核酸。在一些實(shí)施方案中,相關(guān)的核酸可以是來自生物體的cDNA或基因組DNA而不是來自分離出核酸的生物體。例如,其他的生物體可以是相關(guān)的生物體。在這些方法中,核酸樣品與探針在可允許探針與相關(guān)序列特異雜交的條件下接觸。然后采用上述的任何ー種方法來檢測(cè)探針與來自相關(guān)生物體的核酸的雜交。在核酸雜交反應(yīng)中,根據(jù)被雜交的核酸的特性,用來達(dá)到特殊嚴(yán)格性水平的條件可發(fā)生變化。例如,可在選擇雜交條件時(shí)考慮核酸雜交區(qū)的長(zhǎng)度,互補(bǔ)程度,核酸序列成分(如GC相對(duì)AT的含量),和核酸的類型(如RNA對(duì)DNA)。其他的考慮是ー種核酸是否被固定,例如,固定在濾膜上。雜交可在低度嚴(yán)格性,中度嚴(yán)格性或高度嚴(yán)格性下進(jìn)行。如核酸雜交的ー個(gè)實(shí)例,含有固定變性核酸的聚合膜首先在含有O. 9M NaCl, 50mM NaH2PO4, pH 7. O, 5. OmMNa2EDTA, O. 5% SDS, IOX Denhardt’ s,和0. 5mg/ml聚核糖腺苷酸的溶液中在45。C下預(yù)雜交30分鐘。然后向該溶液中加入大約2 X IO7Cpm (比活性為4-9 X IO8Cpm/μ g)的32P末端標(biāo)記的寡核苷酸探針。孵育12-16小時(shí)后,膜在室溫下在含有0. 5%SDS的IX SET(150mMNaCl, 20mM Tris氫氯化物,pH 7. 8,ImM Na2EDTA)中沖洗30分鐘,然后在新鮮的IX SET中*Tm-10° C下沖洗30分鐘去掉寡核苷酸探針。然后將膜暴露在放射自顯影膠片上檢測(cè)雜交信號(hào)。通過改變用來鑒定與可檢測(cè)的探針雜交的核酸如cDNA或基因組DNA的雜交條件的嚴(yán)格性,可以鑒定并分離與探針具有不同水平同源性的核酸。通過在探針解鏈溫度以下的溫度變化進(jìn)行雜交可改變嚴(yán)格性。解鏈溫度,Tm是50%靶序列完全與互補(bǔ)的探針雜交時(shí)的溫度(在已確定的離子強(qiáng)度和PH下)。對(duì)于特殊的探針可選擇與Tm相同或比Tm低大約5° C的非常嚴(yán)格條件。探針的解鏈溫度可采用下列的公式計(jì)算對(duì)于長(zhǎng)度在14到70個(gè)核苷酸的探針,解鏈溫度(Tm)可采用下列的公式計(jì)算Tm=81. 5+16. 6 (log[Na+] )+0. 41 (G 部分 +C) - (600/N),其中 N 是探針的長(zhǎng)度。如果雜交是在含有甲酰胺的溶液中進(jìn)行的,解鏈溫度可采用如下方程來計(jì)算Tm=81. 5+16. 6 (log[Na+])+0. 41(G 部分 +C)-(O. 63% 甲酰胺)_(600/N),其中 N 是探針的長(zhǎng)
      度。 預(yù)雜交可在6X SSC, 5K Denhardt’s試劑,O. 5%SDS, 100 μ g變性的片段鮭精DNA或6X SSC, 5X Denhardt’s試劑,O. 5%SDS, 100 μ g變性的片段鮭精DNA, 50%甲酰胺中進(jìn)行。SSC和Denhardt’ s溶液的公式列在前面Sambrook等人的文獻(xiàn)中。通過向上面所列的預(yù)雜交溶液中加入可檢測(cè)的探針進(jìn)行雜交。當(dāng)探針含有雙鏈DNA吋,它在加入至雜交溶液前被變性。濾膜與雜交溶液接觸足夠的時(shí)間以便讓探針與含有與其互補(bǔ)的或同源的序列的cDNA或基因組DNA雜交。對(duì)于長(zhǎng)度在200個(gè)以上核苷酸的探針,雜交在、下15-25° C進(jìn)行。對(duì)于更短的探針,如寡核苷酸探針,雜交可在、下5-10° C進(jìn)行。典型地,為了在6X SS中雜交,雜交作用在大約68° C下進(jìn)行。通常,為在含有50%甲酰胺的溶液中進(jìn)行雜交,雜交作用在大約42° C進(jìn)行。所有前面的雜交作用將可考慮在高度嚴(yán)格性的條件下。在雜交后,沖洗濾膜取出任何非特異性結(jié)合的可檢測(cè)探針。用來沖洗濾膜的嚴(yán)格性也可根據(jù)被雜交的核酸特性,雜交核酸的長(zhǎng)度,互補(bǔ)的程度,核酸序列的成分(如,GC相對(duì)AT的含量),和核酸類型(如RNA對(duì)DNA)來變化。逐漸增高的更高嚴(yán)格性沖洗條件的實(shí)例如下2X SSC, O. 1%SDS室溫下15分鐘(低度嚴(yán)格性);0. IX SSC, O. 5%SDS室溫下30分鐘至I小時(shí)(中度嚴(yán)格性);0. IX SSC, O. 5%SDS在雜交溫度和68。C之間15至30分鐘(高度嚴(yán)格性);和O. 15M NaCl在72° C下15分鐘(非常高的嚴(yán)格性)。最終的低度嚴(yán)格性沖洗可在O. IX SSC中在室溫下進(jìn)行。上述的實(shí)例僅是對(duì)ー組用來沖洗濾膜的條件進(jìn)行的例證性描述。本領(lǐng)域的專業(yè)技術(shù)人員可了解,對(duì)于不同嚴(yán)格性的沖洗有大量的方案。一些其他的實(shí)例如下。與探針已經(jīng)雜交的核酸通過放射自顯影或其他常規(guī)的技術(shù)進(jìn)行鑒定。上述方法可被修飾以鑒定與探針序列的同源性水平降低的核酸。例如,為獲得與可檢測(cè)的探針同源性降低的核酸,可使用嚴(yán)格性較低的條件。例如,雜交溫度可在含有大約為IM Na+濃度的雜交緩沖液中從68° C至42° C以5° C的増量被降低。在雜交后,濾膜在雜交溫度下用2X SSC, O. 5% SDS沖洗。這些條件可被認(rèn)為50° C以上為“中度”條件,50° C以下為“低度”條件?!爸卸取彪s交條件的特殊實(shí)例是當(dāng)上述的雜交在55° C進(jìn)行吋?!暗投葒?yán)格性”雜交條件的特殊實(shí)例是當(dāng)上述雜交在45° C進(jìn)行吋??蛇x擇地,雜交在緩沖液中,如6X SSC,含有甲酰胺,在42° C進(jìn)行。在這種情況下,在雜交緩沖液中的甲酰胺濃度可從50%至0%以5%的増量被減少,以鑒定含有與探針同源性水平降低的克隆。在雜交后,濾膜用6X SSC, O. 5% SDS在50° C下沖洗。這些條件被認(rèn)為是25%甲酰胺以上為“中度”條件,25%甲酰胺以下為“低度”條件?!爸卸取彪s交條件的特殊實(shí)例是當(dāng)上述雜交在30%甲酰胺中進(jìn)行吋?!暗投葒?yán)格性的”雜交條件的ー個(gè)特殊實(shí)例是上述雜交在10%甲酰胺中進(jìn)行吋。例如,前面的方法用來分離含有與選自下列組別的核酸序列具有至少大約97%,至少95%,至少90%,至少85%,至少80%,至少75%,至少70%,至少65%,至少60%,至少55%或至少50%同源性的序列的核酸,上述的組別包括A組核酸序列和基本上與它們一致的序列的其中ー個(gè)序列,或含有其至少大約 10,15,20,25,30,35,40,50,75,100,150,200,300,400,
      或500個(gè)連續(xù)堿基的片段,和與其互補(bǔ)的序列。同源性可采用對(duì)準(zhǔn)算法來測(cè)定。例如,同源的多核苷酸含有一個(gè)編碼序列,它是在此所述的編碼序列之一的天然存在的等位基因變異體。當(dāng)與A組核酸序列的核酸或與其互補(bǔ)的序列比較時(shí),這種等位基因變異體具有ー個(gè)或 多個(gè)核苷酸的替代,刪除或添加??蛇x擇地,上述方法可用來分離編碼多肽的核酸,該多肽經(jīng)序列對(duì)比算法(如FASTA 3. 0t78版算法采用缺省參數(shù))確定含有與一種多肽具有至少大約99%,95%,至少90%,至少85%,至少80%,至少75%,至少70%,至少65%,至少60%,至少55%或至少50%的同源性,后者多肽含有B組氨基酸序列和基本上與它們一致的序列其中之一的序列,或包含其至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段。本發(fā)明的另ー個(gè)方面是ー個(gè)分離的或純化的多肽,其含有A組核酸序列和基本上與它們一致的序列的其中ー個(gè)序列,或含有其中至少大約5,10, 20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段。如上所述,這種多肽可通過將編碼多肽的核酸插入到ー個(gè)載體中而獲得,因此編碼序列可操作性地與能驅(qū)動(dòng)編碼多肽在ー個(gè)合適的宿主細(xì)胞中表達(dá)的序列連接。例如,表達(dá)載體可包含一個(gè)啟動(dòng)子,一個(gè)翻譯起始的核糖體結(jié)合位點(diǎn),和一個(gè)轉(zhuǎn)錄終止子。載體也可包括擴(kuò)增表達(dá)的合適序列。適合在細(xì)菌中表達(dá)多肽或其片段的啟動(dòng)子包括大腸桿菌Iac或trp啟動(dòng)子,IacI啟動(dòng)子,IacZ啟動(dòng)子,T3啟動(dòng)子,T7啟動(dòng)子,gpt啟動(dòng)子,λ Pk啟動(dòng)子,λ Pし啟動(dòng)子,來自編碼糖酵解酶如3-磷酸甘油酸激酶(PGK)的操縱子的啟動(dòng)子,和酸性磷酸酶啟動(dòng)子。真菌啟動(dòng)子包括V因子啟動(dòng)子。真核啟動(dòng)子包括CMV立即早期啟動(dòng)子,HSV胸苷激酶啟動(dòng)子,熱休克啟動(dòng)子,早期和晩期SV40啟動(dòng)子,來自逆轉(zhuǎn)錄病毒的LTRs和小鼠金屬硫蛋白-1啟動(dòng)子。也可使用其他已知可在原核或真核細(xì)胞中控制基因表達(dá)的啟動(dòng)子或其病毒。哺乳動(dòng)物表達(dá)載體也包含復(fù)制起點(diǎn),任何需要的核糖體結(jié)合位點(diǎn),聚腺苷酸化位點(diǎn),剪接的供體和受體位點(diǎn),轉(zhuǎn)錄終止序列,和5’側(cè)翼非轉(zhuǎn)錄序列。在一些實(shí)施方案中,來自SV40剪接和聚腺苷酸化位點(diǎn)的DNA序列可用來提供所需的非轉(zhuǎn)錄基因元件。在真核細(xì)胞中表達(dá)多肽或其片段的載體也含有増加表達(dá)水平的增強(qiáng)子。增強(qiáng)子是DNA的順式作用元件,一般長(zhǎng)度為大約10至大約300bp,可作用于啟動(dòng)子以增強(qiáng)其轉(zhuǎn)錄。實(shí)例包括在復(fù)制起點(diǎn)后側(cè)100至270bp的SV40增強(qiáng)子,巨細(xì)胞病毒早期啟動(dòng)子增強(qiáng)子,在復(fù)制起點(diǎn)后側(cè)上的多形瘤增強(qiáng)子,以及腺病毒增強(qiáng)子。另外,表達(dá)載體一般含有一個(gè)或多個(gè)選擇性標(biāo)記物基因以便可以篩選含有載體的宿主細(xì)胞。這樣的選擇性標(biāo)記物包括編碼ニ氫葉酸還原酶的基因或被在真核細(xì)胞培養(yǎng)中賦予了新霉素抗性的基因,在大腸肝菌中賦予了四環(huán)素或氨芐青霉素抗性的基因,和釀酒酵母TRPl基因。表達(dá)文庫已經(jīng)產(chǎn)生后,可以在通過細(xì)胞分選之前包括另ー個(gè)“生物淘選”的步驟?!吧锾赃x”步驟是指一個(gè)通過在克隆的文庫中篩選序列同源性來鑒定含有特定生物學(xué)活性的克隆的過程,該克隆文庫是如下制備的(i)選擇性從來自至少ー個(gè)微生物體的DNA中通過使用至少ー個(gè)探針DNA分離靶DNA,該探針DNA含有編碼ー個(gè)具有特定生物活性的生物學(xué)蛋白的DNA序列的至少一部分;和(ii)任選地使用 已分離的靶DNA轉(zhuǎn)化宿主產(chǎn)生用來篩選特定生物活性的克隆文庫。用來選擇性的從來自至少ー個(gè)微生物的DNA中分離目標(biāo)靶DNA的探針可以是ー個(gè)已知活性酶DNA的全長(zhǎng)編碼區(qū)序列或部分編碼區(qū)序列。原始的DNA文庫可優(yōu)選使用探針混合物來探測(cè),該混合物中含有至少一部分編碼具有特定酶活性的酶的DNA序列。這些探針或探針文庫優(yōu)選是單鏈,且被探測(cè)的微生物DNA優(yōu)選地已經(jīng)被轉(zhuǎn)換成為單鏈形式。特別合適的探針來自編碼具有與被篩選的特定酶活性相似或相同活性的酶的DNA。探針DNA應(yīng)該是至少大約10個(gè)堿基,并優(yōu)選至少15個(gè)堿基。在一個(gè)實(shí)施方案中,全部編碼區(qū)可用作探針。雜交條件可設(shè)計(jì)為可提供至少大約50%序列同一性的雜交嚴(yán)格性,更特別地是為至少大約70%序列同一性提供嚴(yán)格性,在該條件中,靶DNA選擇性的通過使用至少ー個(gè)DNA探針來分離。 在核酸雜交反應(yīng)中,用來達(dá)到特殊嚴(yán)格性水平的條件將依靠被雜交的核酸特性而變化。例如,核酸雜交區(qū)的長(zhǎng)度,互補(bǔ)程度,核酸序列成分(如,GC相對(duì)AT的含量),核酸類型(如RNA對(duì)DNA)可在選擇雜交條件時(shí)被考慮。其他的考慮是,例如其中ー個(gè)核酸是否被固定在濾膜上。逐漸增加的更高的嚴(yán)格條件的實(shí)例如下在大約室溫下2xSSC/0. 1% SDS (雜交條件);在大約室溫下O. 2x SSC/0. 1% SDS (低度嚴(yán)格條件);在大約42。。下O. 2x SSC/0. 1%SDS(中度嚴(yán)格條件);和在大約68°C下O. Ix SSC(高度嚴(yán)格條件)。僅采用這些條件中的ー種進(jìn)行沖洗,如高度嚴(yán)格條件,或可采用每ー種條件,如以上述所列的順序每一個(gè)進(jìn)行10-15分鐘,重復(fù)任ー個(gè)或所有的所列步驟。但是,如上所述,最佳的條件將根據(jù)涉及的特定雜交反應(yīng)而變化,并可通過經(jīng)驗(yàn)來確定。探測(cè)微生物DNA文庫以分離潛在的目的靶DNA的雜交技術(shù)在本領(lǐng)域中是為人熟知的,在文獻(xiàn)中所描述的任何一個(gè)均適合在此使用,特別是那些采用固相結(jié)合的,直接或間接結(jié)合的,便于從微生物DNA剩余物中分離的探針DNA。優(yōu)選地探針DNA用特異結(jié)合對(duì)(即配體)的一個(gè)伴侶“標(biāo)記”,結(jié)合對(duì)的另ー個(gè)伴侶則結(jié)合在固體基質(zhì)上以便從其來源中很方便的分離靶標(biāo)。配體和特異的結(jié)合伴侶可以任何ー個(gè)方面,選自以下(I)抗原或半抗原和與其結(jié)合的抗體或特異結(jié)合片段,(2)生物素或亞氨生物素和親和素或抗生蛋白鏈菌素;(3)糖和其特異的凝集素;(4)酶和其抑制劑;
      (5)脫輔基酶和輔因子,(6)互補(bǔ)的同聚寡核苷酸;和(7)激素和其受體。固相優(yōu)選地選自
      (I)玻璃或聚合物表面;(2)聚合珠的包裹柱;和(3)磁性和順磁顆粒。此外,任選地但期望的是,對(duì)已經(jīng)分離的靶DNA進(jìn)行擴(kuò)增。在本實(shí)施方案中靶DNA是在分離后從探針DNA中分離的。然后在被用來轉(zhuǎn)化宿主前被擴(kuò)增。選擇包含有預(yù)先確定的DNA序列至少一部分的雙鏈DNA可被變?yōu)閱捂?,進(jìn)行擴(kuò)增,并重新退火以提供已擴(kuò)增數(shù)目的選擇雙鏈DNA。大量的擴(kuò)增方法學(xué)在本領(lǐng)域中現(xiàn)在是為人熟知的。選擇的DNA然后通過轉(zhuǎn)化合適的生物體來制備篩選的文庫。宿主,特別是那些在此特別地被鑒定的宿主是優(yōu)選的,在益于進(jìn)行這種轉(zhuǎn)化的條件下通過接種人為地引入含有靶DNA的載體而被轉(zhuǎn)化。得到的轉(zhuǎn)化克隆的文庫然后被篩選以尋找顯示有目的酶活性的克隆。已經(jīng)制備了選擇性地從ー個(gè)生物體中分離的DNA中的多種克隆,這些克隆被篩選特異的酶活性,并鑒定具有特異酶特性的克隆。酶活性的篩選可作用在單個(gè)表達(dá)克隆上,或最初作用在表達(dá)克隆的混合物上以確定混合物是否具有ー個(gè)或多種特異的酶活性。如果混合物具有特異的酶活性,則單個(gè)克隆被使用FACS儀器再次篩選這種酶活性或更多的特異活性??蛇x擇地,包裹技術(shù)如凝膠微滴,可用來將多個(gè)克隆定位在ー個(gè)位置上,以便在FACS儀器上在一組克隆中被篩選陽性表達(dá)克隆,該組克隆可被分為單個(gè)克隆以便再次在FACS儀器上被篩選以鑒定陽性的單個(gè)克 隆。因此,例如如果克隆混合物具有水解酶活性,則單個(gè)克隆被回收,并采用FACS儀器篩選來確定那一個(gè)克隆具有水解酶活性。如在此所使用的,“小插入文庫”的含義是ー個(gè)包含具有高達(dá)大約5000個(gè)堿基對(duì)的隨機(jī)小尺寸核酸插入物的克隆的基因文庫。如在此所使用的,“大插入文庫”是指包含具有大約5000至幾十萬個(gè)堿基對(duì)或更多堿基對(duì)的隨機(jī)大尺寸核酸插入物的克隆的基因文庫。就上述方面之一所描述的,本發(fā)明提供了酶活性篩選含有已選擇的微生物DNA的克隆的過程,該過程包括篩選文庫中特異的酶活性,所述的文庫包括大多數(shù)克隆,所述的克隆通過從所選擇DNA的微生物的基因組DNA中回收而制備,其中DNA通過與至少ー個(gè)DNA序列雜交而被選擇,該DNA序列是編碼特異活性酶的DNA序列的所有或一部分;和用所選擇的DNA轉(zhuǎn)化宿主以產(chǎn)生被篩選特異酶活性的克隆。在一個(gè)實(shí)施方案中,來自微生物的DNA文庫進(jìn)行選擇步驟以從中選擇與一個(gè)或多個(gè)探針DNA序列雜交的DNA,該探針DNA序列是編碼特異活性酶的DNA序列的所有或一部分,通過(a)使雙鏈基因組DNA群體變成單鏈DNA群體;(b)將(a)的單鏈DNA群體與結(jié)合于一個(gè)配體的DNA探針在允許雜交的條件下接觸,以便產(chǎn)生探針和與其雜交的基因組DNA群體成員的雙鏈復(fù)合體;(C)將(b)的雙鏈復(fù)合體與一個(gè)所述配體的固相特異結(jié)合伴侶接觸以便產(chǎn)生ー個(gè)固相復(fù)合體;(d)將固相復(fù)合體從(b)的單鏈DNA群體中分離出來;(e)從探針中釋放與固相結(jié)合探針結(jié)合的基因組群體的成員;(f)從(e)的基因組群體的成員中形成雙鏈DNA ;(g)將(f)的雙鏈DNA引入至合適的宿主中以形成包括大多數(shù)克隆的文庫,該克隆含有所選擇的DNA ;和(h)在文庫中篩選特異的酶活性。在另ー個(gè)方面,該過程包括預(yù)先選擇以回收含有信號(hào)或分泌序列的DNA。以這種方式,可能如上述從基因組DNA群體中通過雜交僅選擇出含有信號(hào)或分泌序列的DNA。下面段落描述了本發(fā)明的這個(gè)實(shí)施例的步驟,一般分泌信號(hào)序列的特性和功能,和將這種序列應(yīng)用于ー個(gè)測(cè)定實(shí)驗(yàn)或選擇過程中的特殊實(shí)例。這個(gè)方面的特殊實(shí)施方案進(jìn)ー步在上述的(a)之后但在(b)之前包括如下步驟(ai)將(a)的單鏈DNA群體與一個(gè)配體結(jié)合的寡核苷酸探針在允許雜交形成雙鏈復(fù)合體的條件下接觸,該探針與指定類型蛋白質(zhì)的分泌信號(hào)序列互補(bǔ);(ail)將(ai)中的雙鏈復(fù)合體與一個(gè)所述配體的固相特異結(jié)合伴侶接觸以便產(chǎn)生固相復(fù)合體;(aiii)將固相復(fù)合體從(a)的單鏈DNA群體中分離出來;(aiv)將已經(jīng)與所述的固相結(jié)合探針的基因組群體的成員釋放出來;和
      (av)將已經(jīng)與基因組群體成員結(jié)合的固相結(jié)合探針分離出來。然后將已經(jīng)被選擇和分離含有信號(hào)序列的DNA進(jìn)行上述的選擇步驟以選擇和分離其中的DNA,該DNA與來自編碼特異酶活性的酶的DNA的一個(gè)或多個(gè)探針DNA序列結(jié)合。該步驟被描述并例證在于1996年8月2日提出申請(qǐng)的美國(guó)序列號(hào)08/692,002中,,在此引用作為參考。體內(nèi)的生物淘選可應(yīng)用FACS為基礎(chǔ)的儀器執(zhí)行。復(fù)合體基因文庫用含有可穩(wěn)定所轉(zhuǎn)錄RNA的元件的載體構(gòu)建。例如,包含可形成ニ級(jí)結(jié)構(gòu)如發(fā)夾結(jié)構(gòu)的序列可有助于增強(qiáng)其穩(wěn)定性,該ニ級(jí)結(jié)構(gòu)可設(shè)計(jì)為側(cè)向RNA的被轉(zhuǎn)錄區(qū),因此增加了其在細(xì)胞中的半衰期。用于生物淘選過程的探針分子包括用報(bào)道分子標(biāo)記的寡核苷酸,該報(bào)道分子僅在探針與靶分子結(jié)合中發(fā)出熒光。這些探針從文庫中采用幾種轉(zhuǎn)化方法的一種被引入至重組細(xì)胞中。探針分子與所轉(zhuǎn)錄的可產(chǎn)生DNA/RNA異源雙鏈分子的靶mRNA結(jié)合。探針與靶標(biāo)的結(jié)合將產(chǎn)生熒光信號(hào),可被FACS儀器在淘選的過程中檢測(cè)和分選到。在一些實(shí)施方案中,編碼B組氨基酸序列和基本上與它們一致的序列的多肽之ー的核酸,或含有其至少大約5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段以合適的狀態(tài)與ー個(gè)能夠引導(dǎo)所翻譯的多肽或其片段分泌的前導(dǎo)序列組合在一起??扇芜x地,核酸可編碼ー個(gè)融合多肽,其中B組氨基酸序列和基本上與它們一致的序列的多肽之一,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段與異源的肽或多肽融合,其中這些肽如N-末端識(shí)別肽類,它們可獲得所需的特性,如増加的穩(wěn)定性或簡(jiǎn)化的純化過程。合適的DNA序列可通過許多步驟被插入至載體中。通常,DNA序列在用合適的限制性內(nèi)切酶消化插入物和載體后,被連接到載體中的所需位置??蛇x擇地,在插入物和載體的鈍端可被連接。許多克隆技術(shù)公開在Ausubel等人,分子生物學(xué)現(xiàn)代方法,John Wiley503Sons, Inc. 1997 和 Sambrook 等人,分子克隆實(shí)驗(yàn)室手冊(cè)第二版,Cold Spring HarborLaboratory Press (1989),在此將其公開內(nèi)容完整引用于此作為參考。這些或其他步驟被認(rèn)為包括在本領(lǐng)域?qū)I(yè)技術(shù)人員的范圍之內(nèi)。載體可以是例如,質(zhì)粒,病毒顆?;蚴删w的形式。其他載體包括染色體,非染色體和合成DNA序列,SV40的衍生體;細(xì)菌質(zhì)粒,噬菌體DNA,桿狀病毒,酵母質(zhì)粒,來自質(zhì)粒和曬菌體DNA組合的載體,病毒DNA如疫苗,腺病毒,禽痘病毒,和假狂犬病。用于原核和真核宿主的多種克隆和表達(dá)載體的描述見Sambrook等人,分子克隆實(shí)驗(yàn)室手冊(cè)第二版,ColdSpring Harbor, N. Y. , (1989),將其公開內(nèi)容引用在此作為參考??墒褂玫奶厥饧?xì)菌載體包括商業(yè)渠道可獲得的質(zhì)粒,包括熟知的克隆載體pBR322(ATCC 37017),pKK223_3(Pharmacia Fine Chemicals, Uppsala, Sweden), GEMl(Promega Biotec,Madison, WI, USA)pQE70, pQE60, pQE_9(Qiagen), pDIO, psiX174 pBluescript11 KS, pNH8A, pNH16a, pNH18A, pNH46A(Stratagene),ptrc99a, pKK223_3, pKK233_3, pDR540,pRIT5 (Pharmacia),pKK232_8and pCM7 的基因元件。特殊的真核載體包括 pSV2CAT, pOG44,pXTl, pSG(Stratagene)pSVK3, pBPV,pMSG,和 pSVL(Pharmacia)。但是,任何其他的載體只要在宿主細(xì)胞中是可復(fù)制的和有活力的就可使用。宿主細(xì)胞可以是為本領(lǐng)域?qū)I(yè)技術(shù)人員所熟悉的任何宿主細(xì)胞,包括原核細(xì)胞,真核細(xì)胞,哺乳動(dòng)物細(xì)胞,昆蟲細(xì)胞或植物細(xì)胞。作為合適宿主的代表性實(shí)例,可以提到細(xì)菌細(xì)胞,如大腸桿菌,鏈霉菌,枯草芽孢桿菌,鼠傷寒桿菌和在假單胞菌屬中的許多種屬,鏈霉菌屬,和葡萄球菌屬,真菌細(xì)胞如酵母,昆蟲細(xì)胞如果蠅屬S2和草地夜蛾Sf9,動(dòng)物細(xì)胞如CHO,COS或Bowes黑色素瘤,和腺病毒。合適宿主的選擇包括在本領(lǐng)域?qū)I(yè)技術(shù)人員的能力范圍內(nèi)。
      載體可使用多種技術(shù)被導(dǎo)如到宿主細(xì)胞中,包括轉(zhuǎn)化,轉(zhuǎn)染,轉(zhuǎn)導(dǎo),病毒感染,基因槍,或Ti介導(dǎo)的基因轉(zhuǎn)移。特殊的方法包括磷酸鈣轉(zhuǎn)染,DEAE-葡聚糖介導(dǎo)的轉(zhuǎn)染,脂質(zhì)轉(zhuǎn)染,或電穿孔(Davis, L.,Dibner, M.,Battey, I,分子生物學(xué)基本方法,(1986))。當(dāng)合適時(shí),基因工程改造的宿主細(xì)胞可在常規(guī)的限制營(yíng)養(yǎng)培養(yǎng)基中培養(yǎng),該培養(yǎng)基可適合激活啟動(dòng)子,選擇轉(zhuǎn)化體或擴(kuò)增本發(fā)明的基因。在將合適的宿主株轉(zhuǎn)化和宿主株生長(zhǎng)至合適的細(xì)胞密度后,所選擇的啟動(dòng)子可通過合適的方法誘導(dǎo)(如,溫度轉(zhuǎn)變或化學(xué)誘導(dǎo)),且細(xì)胞另外培養(yǎng)一段時(shí)間以使其產(chǎn)生所需的多肽或其片段。細(xì)胞典型地用離心來收獲,用物理或化學(xué)的方法來破碎,得到的粗提取物被保留以進(jìn)行進(jìn)ー步純化。用于蛋白表達(dá)的微生物細(xì)胞可用常規(guī)的方法破碎,包括冷凍-融化循環(huán),超聲,機(jī)械破壞,或使用細(xì)胞溶解劑。這些方法對(duì)于本領(lǐng)域?qū)I(yè)技術(shù)人員是熟知的。表達(dá)的多肽或其片段可從重組細(xì)胞培養(yǎng)物中回收或純化,其方法包括硫酸銨或こ醇沉淀,酸提取,陰離子或陽離子交換色譜,磷酸纖維素色譜,疏水作用色譜,親合色譜,羥磷灰石色譜和凝集素色譜。如果需要可使用蛋白質(zhì)重構(gòu)步驟用于完成多肽的構(gòu)型。如果需要,可在最后的純化步驟中使用高效液相色譜(HPLC)。也可采用多種哺乳動(dòng)物細(xì)胞培養(yǎng)系統(tǒng)來表達(dá)重組蛋白。哺乳動(dòng)物表達(dá)系統(tǒng)的實(shí)例包括猴腎成纖維細(xì)胞的C0S-7系(描述在Gluzman,Cell, 23:175, 1981),和其他能夠從相容的載體中表達(dá)蛋白的細(xì)胞系,如C127,3T3, CHO, HeLa和BHK細(xì)胞系。在宿主細(xì)胞中的構(gòu)建物可以常規(guī)的方式用來產(chǎn)生由重組序列編碼的基因產(chǎn)物。依靠在重組生產(chǎn)步驟中使用的宿主,含有載體的宿主細(xì)胞產(chǎn)生的多肽可以是糖基化的,或非糖基化的。本發(fā)明的多肽也可或不包括起始的甲硫氨酸氨基酸殘基??蛇x擇地,B組氨基酸序列,和基本上與它們一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段可通過常規(guī)的肽合成儀來合成。在另ー個(gè)實(shí)施方案中,可使用多肽的片段或部分以通過肽合成產(chǎn)生相應(yīng)的全長(zhǎng)多肽;因此,可使用這些片段作為中間體產(chǎn)生全長(zhǎng)的多肽。無細(xì)胞翻譯系統(tǒng)也可用于產(chǎn)生B組氨基酸序列,和基本上與它們一致的序列的多月太,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段,采用從含有與編碼多肽或其片段的核酸可操作連接的啟動(dòng)子的DNA構(gòu)建物轉(zhuǎn)錄的mRNA。在ー些實(shí)施方案中,DNA構(gòu)建物可在進(jìn)行體外轉(zhuǎn)錄反應(yīng)前被線性化,轉(zhuǎn)錄的mRNA然后與合適的無細(xì)胞翻譯提取物如兔網(wǎng)織紅細(xì)胞提取物孵育,產(chǎn)生所需的多肽或其片段。本發(fā)明也涉及B組氨基酸序列,和基本上與它們一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段的變異體。術(shù)語“變異體”包括這些多肽的衍生體或類似物。特別的是,通過替代,添加,刪除,融合和截?cái)嘀械末`個(gè)或多個(gè),也可以是它們的組合,這些變異體在氨基酸序列上可與B組氨基酸序列,和基本上與它們一致的序列的多肽有所差別。變異體可以是天然產(chǎn)生的或在體外建立的。特別的是,這些變異體可采用基因エ程技術(shù)如定點(diǎn)誘變,隨機(jī)化學(xué)誘變,核酸外切酶III刪除法,和標(biāo)準(zhǔn)的克隆技術(shù)來建立??蛇x擇的是,這些變異體,片段,類似物,或衍生體可采用化學(xué)合成或修飾的方法來建立。制備變異體的其他方法對(duì)本領(lǐng)域的專業(yè)技術(shù)人員也是熟悉的。這些方法包括被修飾以產(chǎn)生編碼多肽的核酸的方法,其中多肽具有在エ業(yè)或?qū)嶒?yàn)室應(yīng)用中可增加其價(jià)值的特性,核酸序列從天然的分離物中獲得。在這些方法中,就從天然分離物中獲取的序列而言,可產(chǎn)生并表征大量具有一個(gè)或多個(gè)核苷酸差異的變異體序列。典型地,就來自天然分離物 的核酸編碼的多肽而言,這些核苷酸差異可導(dǎo)致氨基酸變化。例如,可采用易錯(cuò)PCR (error prone PCR)建立變異體。在易錯(cuò)PCR中,執(zhí)行PCR的條件中,DNA聚合酶的拷貝精度很低,這樣在沿PCR產(chǎn)物的全長(zhǎng)中可獲得很高的點(diǎn)突變率。易錯(cuò) PCR 的描述見 Leung, D. W.等人,Technique, 1:11-15,1989)和 Caldwell, R. C. &Joyce G. F. , PCR Methods Applic. , 2:28-33, 1992,其公開內(nèi)容在此整體引用作為參考。簡(jiǎn)言之,在這些方法中,要誘變的核酸與PCR引物,反應(yīng)緩沖液,MgCl2, MnCl2, Taq聚合酶和合適濃度的dNTP混合以便產(chǎn)生沿PCR產(chǎn)物全長(zhǎng)的高點(diǎn)突變率。例如,反應(yīng)可采用20fmole要誘變的核酸,30pmole 每種PCR引物,含有 50mM KCl, IOmM Tris HCI (pH 8. 3)和 O. 01% 明膠,7mM MgCI2, O. 5mM MnCl2, 5 單位 Taq 聚合酶,O. 2mMdGTP,0. 2mM dATP, ImM dCTP 和 ImM dTTP的反應(yīng)緩沖液進(jìn)行。PCR的執(zhí)行可在94° C I分鐘,45° C I分鐘和72° C I分鐘進(jìn)行30個(gè)循環(huán)。但是可以理解的是,這些參數(shù)可適當(dāng)變化。誘變的核酸可被克隆僅合適的載體中,并評(píng)價(jià)由誘變的核酸編碼的多肽的活性。變異體也可米用寡核苷酸定向誘變(oligonucleotide directed mutagenesis)來建立以在任何已克隆的目的DNA中產(chǎn)生位點(diǎn)特異性突變。寡核苷酸誘變的描述見Reidhaar-Olson, J. F. & Sauer, R. T.等人,Science, 241:53-57, 1988,其公開內(nèi)容在此整體引用作為參考。簡(jiǎn)言之,在這種方法中,合成了大量要被導(dǎo)入至已克隆DNA中的含有ー個(gè)或多個(gè)突變的雙鏈寡核苷酸,并將其插入至要被誘變的已克隆DNA中。含有誘變DNA的克隆被回收,并評(píng)價(jià)它們所編碼的多肽的活性。產(chǎn)生變異體的另ー種方法是裝配PCR (assembly PCR)。裝配PCR涉及裝配來自小DNA片段混合物中的PCR產(chǎn)物。大多數(shù)不同的PCR反應(yīng)在同一個(gè)瓶中并行發(fā)生,ー個(gè)反應(yīng)的產(chǎn)物觸發(fā)另ー個(gè)反應(yīng)的產(chǎn)物。裝配PCR的描述見于1996年7月9日提出申請(qǐng)的美國(guó)專利5,965,408,題為“通過中斷合成進(jìn)行的DNA再組裝法”,其公開內(nèi)容在此整體引用作為參考。產(chǎn)生變異體的還有另一個(gè)方法是有性PCR誘變(sexual PCR mutagenesis)。在有性PCR誘變中,在體外不同但高度相關(guān)的DNA序列的DNA分子之間發(fā)生強(qiáng)制的同源重組,它是根據(jù)序列同源性的DNA分子隨機(jī)斷裂的結(jié)果,然后通過在PCR反應(yīng)中的引物延伸固定交換體。有性 PCR 誘變的描述見 Stemmer, W. P. , PNAS, USA, 91:10747-10751, 1994,其公開內(nèi)容在此引用作為參考。簡(jiǎn)言之,在這種方法中,大多數(shù)要被重組的核酸被DNAse消化產(chǎn)生含有平均大小為50-200個(gè)核苷酸的片段。所需平均大小的片段被純化,并在PCR混合物中再懸浮。在可促進(jìn)核酸片段之間重組的條件下進(jìn)行PCR。例如,可通過在10-30ng/:l的濃度下在含有 O. 2mM 每種 dNTP, 2. 2mM MgCl2, 50mM KCL, IOmMTris HCl, pH 9. O,和 O. l%TritonX-IOO的溶液中再懸浮純化片段來進(jìn)行PCR。每100:1的反應(yīng)混合物中加入2. 5單位Taq聚合酶,并按照如下的方案進(jìn)行PCR -MV 60秒,94° C 30秒,50-550C 30秒,72°C 30秒(30-45次)和72°C 5分鐘。但可以理解的是,這些參數(shù)可適當(dāng)變化。在一些實(shí)施方案中,寡核苷酸可包含在PCR反應(yīng)中。在另ー些實(shí)施方案中,可在第一組PCR反應(yīng)中使用DNA聚合酶I的Klenow片段,在隨后的ー組PCR反應(yīng)中可使用Taq聚合酶。分離重組的序列,并評(píng)價(jià)它們編碼的多肽的活性。也可通過體內(nèi)誘變來產(chǎn)生變異體。在一些實(shí)施方案中,在目的序列上的隨機(jī)突變的產(chǎn)生可通過將目的序列傳遞至細(xì)菌菌株,如大腸桿菌菌株中,后者在ー個(gè)或多個(gè)DNA修復(fù)通路中攜帯突變。這些“突變基因”較野生型的親代有更高的隨機(jī)突變率。在這些菌株 之一中傳遞DNA最終將在DNA中產(chǎn)生隨機(jī)的突變。適合用于體內(nèi)誘變的突變基因菌株的描述見PCT出版物WO 91/16427,1991年10月31日出版,題為“從多個(gè)基因群中建立顯型的方法”,其公開內(nèi)容在此整體引用作為參考。也可采用盒式誘變(cassette mutagenesis)產(chǎn)生變異體。在盒誘變中,雙鏈DNA分子的ー個(gè)小區(qū)域被合成的不同于天然序列的寡核苷酸“盒”替代。寡核苷酸通常含有全部和/或部分隨機(jī)化的天然序列。也可使用循環(huán)系綜誘變(recursive ensemble mutagenesis)來產(chǎn)生變異體。循環(huán)系綜誘變是蛋白質(zhì)工程(蛋白質(zhì)誘變)的ー種算法,開發(fā)用來產(chǎn)生基因型相關(guān)的在氨基酸序列上有差異的突變體的多種群體。這種方法采用反饋機(jī)制來控制組合的盒式誘變的連續(xù)次數(shù)。循環(huán)系綜誘變的描述見 Arkin, A. P.和 Youvan, D. C.,PNAS, USA, 89:781 ト7815,1992,其公開內(nèi)容在此整體引用作為參考。在一些實(shí)施方案中,可采用指數(shù)系綜誘變(exponential ensemble mutagenesis)來建立變異體。指數(shù)系綜誘變是ー個(gè)產(chǎn)生具有高比例獨(dú)特和功能性突變體的組合文庫的方法,其中殘基的小基團(tuán)被平行隨機(jī)化以在每個(gè)改變的位置上鑒定可產(chǎn)生功能性蛋白的氨基酸。指數(shù)系綜誘變的描述見Delegrave, S.和Youvan, D. C. , BiotechnologyResearch, 11:1548-1552, 1993,其公開的內(nèi)容在此整體引用作為參考文獻(xiàn)。隨機(jī)和定點(diǎn)誘變的描述見 Arnold, F. H.,Current Opinion in Biotechnology, 4:450-455, 1993,其公開內(nèi)容在此整體引用作為參考文獻(xiàn)。在一些實(shí)施方案中,采用改組(shaffling)的方法來建立變異體,其中大多數(shù)編碼不同多肽的核酸的一部分被融合在一起以建立編碼嵌合多肽的嵌合核酸序列,其描述見于1996年7月9日提出申請(qǐng)的美國(guó)專利5,965,408,,題為“通過中斷合成進(jìn)行的DNA再組裝法”,和于1996年5月22日提出申請(qǐng)的美國(guó)專利第5,939,250,題為“通過誘變產(chǎn)生具有所需活性的酶”,兩者均在此引用作為參考。B組氨基酸序列的多肽變異體是可以一些變異體,其中B組氨基酸序列多肽的ー個(gè)或多個(gè)氨基酸殘基被替代為保守的或非保守的氨基酸殘基(優(yōu)選保守的氨基酸殘基),這種被替代的氨基酸殘基是或不是由遺傳密碼編碼的。保守的替代作用是在ー個(gè)多肽內(nèi)ー個(gè)特定的氨基酸被另一個(gè)類似特性的氨基酸替代。典型可見到的保守替代作用是下列的取代用另ー個(gè)脂肪族氨基酸取代脂肪族氨基酸如丙氨酸,纈氨酸,亮氨酸和異亮氨酸;用蘇氨酸取代絲氨酸或反之;用另ー個(gè)酸性殘基取代酸性殘基如天冬氨酸和谷氨酸;用另ー個(gè)含有酰胺基團(tuán)的殘基取代含有酰胺基團(tuán)的殘基,如天冬酰胺和谷氨酰胺;用另ー個(gè)堿性殘基交換一個(gè)堿性殘基如賴氨酸和精氨酸;用另ー個(gè)芳香族殘基取代芳香族殘基如苯丙氨酸,酪氨酸。其他的變異體是其中B組氨基酸序列的多肽的ー個(gè)或多個(gè)氨基酸殘基中含有取代基團(tuán)的變異體。還有其他的變異體是其中多肽與另ー個(gè)化合物,如増加多肽半衰期的化合物(例如,聚こニ醇)結(jié)合的變異體。 其他的變異體是,其中其他的氨基酸與多肽融合,如前導(dǎo)序列,分泌序列,蛋白原序列或可促進(jìn)多肽的純化,富集或穩(wěn)定的序列。在一些實(shí)施方案中,片段,衍生物和類似物保留了與B組氨基酸序列和基本上與它們一致的序列的多肽相同的生物學(xué)功能或活性。在其他的實(shí)施方案中,片段,衍生體或類似物包括原蛋白,這樣片段,衍生物或類似物可通過切斷原蛋白部分而被激活,產(chǎn)生ー個(gè)活性多肽。本發(fā)明的另ー個(gè)方面是ー些多肽或其片段,它們與B組氨基酸序列和基本上與它們一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段具有至少大約50%,至少大約55%,至少大約60%,至少大約65%,至少大約70%,至少大約75%,至少大約80%,至少大約85%,至少大約90%,至少大約95%,或超過大約95%的同源性??刹捎蒙鲜龅娜魏惟`種程序確定同源性,該程序可排列要比較的多肽或片段,并確定在它們之間的氨基酸同一性或相似性的程度??梢岳斫獾氖前被帷巴葱浴卑ㄟB續(xù)的氨基酸替代作用如上述的那些替代。與B組氨基酸序列和基本上與它們一致的序列的多肽之一,或含有其至少大約5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段有同源性的多肽或片段可通過采用上述的技術(shù)分離編碼它們的核酸而獲得??蛇x擇地,同源的多肽或片段可通過生物化學(xué)富集或純化步驟來獲得。潛在同源的多肽或片段的序列可通過蛋白水解消化,凝膠電泳和/或微序列測(cè)定而確定。預(yù)期同源的多肽或片段的序列可采用上述的任何一個(gè)程序與B組氨基酸序列和基本上與它們一致的序列的多肽,或含有其至少大約5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段進(jìn)行比較。本發(fā)明的另ー個(gè)方面是鑒定B組氨基酸序列和基本上與它們一致的序列的片段或變異體的測(cè)定法,該片段或變異體保留了 B組氨基酸序列和基本上與它們一致的序列的酶功能。例如,所述多肽的片段或變異體可被用來催化生化反應(yīng),這表明該片段或變異體保留了 B組氨基酸序列中多肽的酶活性。
      確定變異體的片段是否保留B組氨基酸序列和基本上與它們一致的序列的多肽的酶活性的測(cè)定實(shí)驗(yàn)包括以下步驟將多肽片段或變異體與一個(gè)底物分子在允許多肽片段或變異體發(fā)揮作用的條件下進(jìn)行接觸,并檢測(cè)底物水平是否降低或在多肽和底物之間反應(yīng)的特異反應(yīng)產(chǎn)物水平是否增加。B組氨基酸序列和基本上與它們一致的序列的多肽或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段可用在多種應(yīng)用中。例如,其多肽或片段可用于催化生化反應(yīng)。根據(jù)本發(fā)明的ー個(gè)方面,提供了利用B組氨基酸序列和基本上與它們一致的序列或編碼這些多肽的多核苷酸進(jìn)行水解糖苷鍵的方法。在這種方法中,含有糖苷鍵的物質(zhì)(如淀粉)與B組氨基酸序列,或基本上與它們一致的序列的其中一個(gè)多肽在可促進(jìn)糖苷鍵水解的條件下接觸。B組氨基酸序列和基本上與它們一致的序列的多肽或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸序列的片段,也可用于產(chǎn)生與多肽或片段特異結(jié)合的抗體。得到的抗體可用于免疫親合色譜法以分離或純化多肽或確定多肽是否存在于生物樣品中。在這樣的方法中,蛋白質(zhì)制劑如提取物,或生物樣品與能特異結(jié)合B組氨基酸序列和基本上與它們一致的序列的其中一個(gè)多肽,或含有其至少5,10,15,20,25,30,35,40 ,50,75,100,或150個(gè)連續(xù)氨基酸的片段的抗體接觸。在免疫親合法中,抗體吸附在ー個(gè)固體支持物上,如珠子或其他的柱基質(zhì)。蛋白制劑被置入,在抗體可特異結(jié)合B組氨基酸序列和基本上與它們一致的序列的其中ー個(gè)多肽,或其片段的條件下與抗體接觸。沖洗去除非特異結(jié)合蛋白后,洗脫特異結(jié)合的多肽。生物樣品中蛋白質(zhì)結(jié)合抗體的能力可采用本領(lǐng)域?qū)I(yè)技術(shù)人員所熟悉的多種方法的任何ー種來測(cè)定。例如,可通過用可檢測(cè)到的標(biāo)記物如熒光劑,酶標(biāo)記,或放射線同位素來標(biāo)記抗體以測(cè)定結(jié)合??蛇x擇地,抗體與樣品的結(jié)合可采用具有這些可檢測(cè)標(biāo)記物的ニ級(jí)抗體來檢測(cè)。特殊的測(cè)定包括ELISA測(cè)定,夾心測(cè)定,放射免疫測(cè)定和Western印跡。產(chǎn)生的針對(duì)B組氨基酸序列和基本上與它們一致的序列或含有其至少5,10,15,2O, 25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段的多克隆抗體可通過將多肽直接注射到動(dòng)物體內(nèi)或?qū)⒍嚯慕o予動(dòng)物,如非人的動(dòng)物而獲得。這樣獲得的抗體然后與多肽本身結(jié)合。以這種方式,即使僅編碼多肽的ー個(gè)片段的序列也可用于產(chǎn)生可與整個(gè)天然多肽結(jié)合的抗體。然后這樣的抗體可用于從表達(dá)這種多肽的細(xì)胞中分離多肽。為了制備單克隆抗體,可以使用任何可提供抗體的技術(shù),所述抗體由連續(xù)細(xì)胞系培養(yǎng)產(chǎn)生。實(shí)例包括雜交瘤技術(shù)(Kohler和Milstein, Nature, 256:495-497,1975,其公開內(nèi)容在此引用作為參考),三系雜交瘤(trioma)技術(shù),人B-細(xì)胞雜交瘤技術(shù)(Kozbor等人,Immunology Today4:72, 1983,其公開內(nèi)容在此引用作為參考),和EBV-雜交瘤技術(shù)(Cole等人,1985,單克隆抗體和癌癥治療,Alan R. Liss, Inc.,77-96頁,其公開內(nèi)容在此引用作為參考)。描述用來產(chǎn)生單鏈抗體(美國(guó)專利第4,946,778,其公開內(nèi)容在此引用作為參考)的技術(shù)適合產(chǎn)生B組氨基酸序列,和基本上與它們一致的序列的多肽,或含有其至少5,10,15,20, 25,30, 35,40, 50, 75,100,或150個(gè)連續(xù)氨基酸的片段的單鏈抗體??蛇x擇地,轉(zhuǎn)基因鼠可用來表達(dá)這些多肽或其片段的人源化抗體。針對(duì)B組氨基酸序列和基本上與它們一致的序列的多肽,或含有其至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的片段產(chǎn)生的抗體可用于篩選其他生物體和樣品中的相似多肽。在這些技術(shù)中,生物體的多肽與抗體接觸,與抗體特異結(jié)合的多肽被檢測(cè)。上述的任何ー種方法可用來檢測(cè)抗體結(jié)合。一種這樣的篩選實(shí)驗(yàn)描述在“測(cè)定纖維素酶活性的方法”中,Methods in Enzymology, 160卷,87-116頁,在此整體引用作為參考。如在此所使用的,術(shù)語“在SEQ ID NO: 3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45和47中列出的核酸序列”包括A組核酸序列,和基本上與它們一致的序列的核苷酸序列,以及與A組核酸序列和其片段同源的序列和所有前述序列的互補(bǔ)序列。片段包括 SEQ ID N0:3, 5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45和47的部分,含有A組核酸序列和基本上與它們一致的序列中至少10,15,20,25,30,35,40,50,75,100,150,200,300,400,或500個(gè)連續(xù)核苷酸。同源序列和A組核酸序列和基本上與它們一致的序列的片段,是指具有與這些序列有至少99%,98%, 97%, 96%, 95%, 90%, 85%, 80%, 75%, 70%, 65%, 60%, 55%或50%同源性的序列。同源性可采用任何一種計(jì)算機(jī)程序和在此所描述的參數(shù)來測(cè)定,包括以缺省參數(shù)的FASTA 3. 0t78版。同源序列也包括RNA序 列,其中在A組核酸序列中列出的核酸序列中尿嘧啶代替了胸腺嘧啶。同源序列可采用任何一個(gè)在此描述的方法獲得或通過矯正測(cè)序錯(cuò)誤而得到。將可以理解的是如在A組核酸序列和基本上與它們一致的序列中所列出的核酸序列可以以傳統(tǒng)的單字符格式來代表(見Stryer, Lubert.生物化學(xué),第三版,W. H Freeman & Co. , New York.的內(nèi)部背面)或以任何其他可記錄核苷酸在序列中同一性的格式。如在此所使用的術(shù)語“在SEQ ID NO: 4, 6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,44,46和48中列出的多肽序列”包括B組氨基酸序列和基本上與它們一致的序列的多肽序列,其中它們由 SEQ ID NO:3, 5, 7,9, 11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45和47中列出的序列,與B組氨基酸序列和基本上與它們一致的序列同源的多肽序列,或任何前述序列的片段編碼。同源多肽序列是指具有與B組氨基酸序列的其中一個(gè)多肽序列至少有 99%, 98%, 97%, 96%, 95%, 90%, 85%, 80%, 75%, 70%, 65%, 60%, 55% 或 50%同源性的多肽序列。同源性可采用在此描述的任何一個(gè)計(jì)算機(jī)程序和參數(shù),包括缺省參數(shù)或任何修改的參數(shù)的FASTA 3.0t78版來測(cè)定。同源序列可采用在此所描述的任何ー種方法獲得或通過矯正測(cè)序錯(cuò)誤而得到。含有B組氨基酸序列和基本上與它們一致的序列的多肽中至少5,10,15,20,25,30,35,40,50,75,100,或150個(gè)連續(xù)氨基酸的多肽片段可用傳統(tǒng)的單字符格式或三字母格式來表示(見Stryer, Lubert.生物化學(xué),第三版,W. H Freeman& Co. , New York.的內(nèi)部背面)或以任何其他涉及序列中多肽同一性的格式。本領(lǐng)域?qū)I(yè)技術(shù)人員可以理解的是在SEQ ID NO:3, 5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35,37,43,45 和 47 中列出的核酸序列,和在 SEQ ID NO:4, 6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,44,46 和 48 中列出的多肽序列可被儲(chǔ)存,記錄,在任何可被計(jì)算機(jī)讀取和存取的介質(zhì)中處理。如在此所使用的,詞語“記錄”和“儲(chǔ)存”是指在計(jì)算機(jī)介質(zhì)中儲(chǔ)存信息的過程。專業(yè)技術(shù)人員可很容易的采用任何ー種現(xiàn)在已知的方法,在計(jì)算機(jī)可讀介質(zhì)上記錄信息以產(chǎn)生ー些制品,它們含有A組核酸序列和基本上與它們一致的序列中列出的ー個(gè)或多個(gè)核酸序列,B組氨基酸序列和基本上與它們一致的序列中列出的一個(gè)或多個(gè)多肽序列。本發(fā)明的另ー個(gè)方面是已經(jīng)記錄了A組核酸序列和基本上與它們一致的序列中列出的至少2,5,10, 15,或20個(gè)核酸序列的一個(gè)計(jì)算機(jī)可讀介質(zhì)。本發(fā)明的另ー個(gè)方面是已經(jīng)記錄了 A組核酸序列和基本上與它們一致的序列中的ー個(gè)或多個(gè)核酸序列的一個(gè)計(jì)算機(jī)可讀介質(zhì)。本發(fā)明的另ー個(gè)方面是已經(jīng)記錄了 B組氨基酸序列和基本上與它們一致的序列中的一個(gè)或多個(gè)多肽序列的一個(gè)計(jì)算機(jī)可讀介質(zhì)。本發(fā)明的另ー個(gè)方面是已經(jīng)記錄了上述列出的序列中至少2,5,10,15或20個(gè)序列的ー個(gè)計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)包括磁性可讀介質(zhì),光學(xué)可讀介質(zhì),電子可讀介質(zhì)和磁性/光學(xué)介質(zhì)。例如,計(jì)算機(jī)可讀介質(zhì)可以是硬盤,軟盤,磁帶,CD-ROM,數(shù)據(jù)通用磁盤(DVD),隨機(jī)存取存儲(chǔ)器(RAM),或只讀存儲(chǔ)器(ROM)以及其他本領(lǐng)域?qū)I(yè)技術(shù)人員了解的其他類型的其他介質(zhì)。本發(fā)明的實(shí)施方案包括系統(tǒng)(如基于因特網(wǎng)的系統(tǒng)),特殊的是可儲(chǔ)存和處理在此所描述的序列信息的計(jì)算機(jī)系統(tǒng)。在圖I中以結(jié)構(gòu)圖的形式說明了計(jì)算機(jī)系統(tǒng)100的一個(gè)實(shí)例。如在此所使用的,“計(jì)算機(jī)系統(tǒng)”是指硬件部分,軟件部分,和用來分析A組核酸序列和基本上與它們一致的序列中列出的核酸序列的核苷酸序列,或B組氨基酸序列中列出的多肽序列的數(shù)據(jù)儲(chǔ)存部件。計(jì)算機(jī)系統(tǒng)100典型地包括加工,存取和處理序列數(shù)據(jù)的處 理器。處理器105可以是熟知的任何類型的中央處理器,如英特爾公司的奔騰III,或太陽,摩托羅拉,康柏,AMD或國(guó)際商業(yè)機(jī)器公司的相似處理器。典型地計(jì)算機(jī)系統(tǒng)100是ー個(gè)普通用途的系統(tǒng),包括處理器105和用來儲(chǔ)存數(shù)據(jù)的ー個(gè)或多個(gè)內(nèi)部數(shù)據(jù)儲(chǔ)存部件110,和用來獲取儲(chǔ)存在數(shù)據(jù)儲(chǔ)存部件中的數(shù)據(jù)的ー個(gè)或多個(gè)數(shù)據(jù)獲取裝置。專業(yè)技術(shù)人員可很容易的理解,任何ー個(gè)目前可獲得的計(jì)算機(jī)系統(tǒng)均是合適的。在ー個(gè)特殊的實(shí)施例中,計(jì)算機(jī)系統(tǒng)100包括與總線連接的處理器105,其中總線是與主存儲(chǔ)器115 (優(yōu)選以RAM實(shí)現(xiàn))相連的,和ー個(gè)或多個(gè)內(nèi)部數(shù)據(jù)儲(chǔ)存裝置110,如硬磁盤機(jī)和/或其他已經(jīng)記錄數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)。在一些實(shí)施方案中,計(jì)算機(jī)系統(tǒng)100進(jìn)一歩包括ー個(gè)或多個(gè)從內(nèi)部數(shù)據(jù)儲(chǔ)存裝置110上讀取數(shù)據(jù)的數(shù)據(jù)獲取裝置。數(shù)據(jù)獲取裝置118可代表,例如軟盤驅(qū)動(dòng)器,光盤驅(qū)動(dòng)器,磁帶驅(qū)動(dòng)器,或能夠連接遠(yuǎn)程數(shù)據(jù)儲(chǔ)存系統(tǒng)(如,經(jīng)互聯(lián)網(wǎng))的調(diào)制解調(diào)器等。在一些實(shí)施方案中,內(nèi)部數(shù)據(jù)儲(chǔ)存裝置110是ー個(gè)可移動(dòng)的計(jì)算機(jī)可讀介質(zhì),如軟盤,光盤,磁帶等,含有控制邏輯和/或記錄在上面的數(shù)據(jù)。一旦插入至數(shù)據(jù)獲取裝置中,計(jì)算機(jī)系統(tǒng)100可方便地包括或通過合適的軟件編程以讀取控制邏輯和/或從數(shù)據(jù)儲(chǔ)存部件中讀取數(shù)據(jù)。計(jì)算機(jī)系統(tǒng)100包括顯示器120,后者可用來對(duì)計(jì)算機(jī)用戶進(jìn)行顯示輸出。也應(yīng)該注意的是計(jì)算機(jī)系統(tǒng)100可與網(wǎng)絡(luò)或廣域網(wǎng)中的其他計(jì)算機(jī)系統(tǒng)125a-c相連接,以便提供對(duì)計(jì)算機(jī)系統(tǒng)100的集中存取。存取和處理A組核酸序列和基本上與它們一致的序列中列出的核酸序列的核苷酸序列,或B組氨基酸序列和基本上與它們一致的序列的多肽序列的軟件(如搜索工具,比較工具,和構(gòu)型工具等)可在執(zhí)行過程中駐留在主存儲(chǔ)器115中。在一些實(shí)施方案中,計(jì)算機(jī)系統(tǒng)100可進(jìn)ー步包括序列比較算法,用于對(duì)儲(chǔ)存在計(jì)算機(jī)可讀介質(zhì)上的A組核酸序列和基本上與它們一致的序列中列出的核酸序列,或B組氨基酸序列和基本上與它們一致的序列中列出的多肽序列與儲(chǔ)存在計(jì)算機(jī)可讀介質(zhì)上的參考核苷酸或多肽序列進(jìn)行比較?!靶蛄斜容^算法”是指ー個(gè)或多個(gè)可在計(jì)算機(jī)系統(tǒng)100中執(zhí)行(本地或遠(yuǎn)程)以對(duì)儲(chǔ)存在ー個(gè)數(shù)據(jù)儲(chǔ)存裝置中的核苷酸序列和其他核苷酸序列和/或化合物進(jìn)行比較。例如,序列比較算法可對(duì)儲(chǔ)存在一個(gè)計(jì)算機(jī)可讀介質(zhì)上的A組核酸序列和基本上與它們一致的序列中列出的核酸序列的核苷酸序列,或B組氨基酸序列和基本上與它們一致的序列中列出的多肽序列,與儲(chǔ)存在一個(gè)計(jì)算機(jī)可讀介質(zhì)上的參考序列進(jìn)行比較,以鑒定同源性或結(jié)構(gòu)基序。在此專利說明書中在其他地方鑒定的多種序列比較程序可特殊地被考慮用于本發(fā)明的這個(gè)方面。蛋白質(zhì)和/或核酸序列同源性可采用本領(lǐng)域已知的任何ー種序列比較算法和程序來評(píng)價(jià)。這種算法和程序包括但不限干,TBLASTN, BLASTP, FASTA, TFASTA,和 CLUSTALW(Pearson Lipman, Proc. Natl. Acad. Sci. USA85(8) :2444-2448, 1988; Altschul 等人,J. Mol. Biol. 215(3) :403-410, 1990; Thompson 等人,Nucleic Acids Res. 22 (2) : 4673-4680,1994; Higgins 等人,Methods EnzymoI. 266:383-402,1996; Altschul 等人,J. MoL Biol. 215 (3) : 403-410,1990; Altschul 等人,NatureGenetics 3:266-272, 1993)。同源性或同一'丨生經(jīng)常采用序列分析軟件來進(jìn)行測(cè)定(如,Genetics ComputerGroup的序列分析軟件包,威斯康星大學(xué)生物技術(shù)中心,1710University Avenue,Madison,W153705)。該軟件可通過指定同源性的程度來對(duì)多個(gè)刪除,替代和其他修飾來匹配相似序列。術(shù)語“同源性”和“同一性”在兩個(gè)或多個(gè)核酸或多肽序列的情況下,是指當(dāng)在對(duì)比窗 或指定區(qū)域被比較和排列時(shí),兩個(gè)或多個(gè)相同的或特定比例氨基酸殘基或核苷酸是相同的序列或子序列,其測(cè)定可采用任何數(shù)量的序列比較算法或通過人工排列和目測(cè)。為了序列比較,典型地ー個(gè)序列可作為參考序列,檢測(cè)序列可與之比較。當(dāng)使用序列比較算法吋,檢測(cè)和參考序列輸入至計(jì)算機(jī)中,順序坐標(biāo)被指定,如果需要,序列算法程序參數(shù)可被指定??墒褂萌笔〉某绦騾?shù),或可指定可選擇的參數(shù)。然后序列比較算法基于程序參數(shù),計(jì)算檢測(cè)序列相對(duì)參考序列的序列同一性百分比。如在此所使用的,“比較窗”,包括任何數(shù)目連續(xù)位點(diǎn)片段的坐標(biāo),該位點(diǎn)包括從20至600,通常大約50至大約200,更普遍的大約100至大約150,其中序列可在兩個(gè)序列最佳對(duì)準(zhǔn)后,與相同數(shù)目連續(xù)位點(diǎn)的參考序列相比較。為比較進(jìn)行序列對(duì)準(zhǔn)的方法在本領(lǐng)域中是為人熟知的??赏ㄟ^如下算法進(jìn)行為比較進(jìn)行的最佳序列對(duì)準(zhǔn),例如 Smith & Waterman 的局部同源性算法,Adv. Appl. Math. 2:482,1981, Needleman &Wunsch的同源性對(duì)準(zhǔn)算法,J. Mol. Biol 48:443, 1970, person & Lipman的相似性檢索法,Proc. Nat’ I. Acad. Sci. USA 85:2444,1988,這些算法的計(jì)算機(jī)化工具(WisconsinGenetics Software Package 中的 GAP, BESTFIT, FASTA,和 TFASTA, Genetics ComputerGroup, 575 ScienceDr. , Madison, WI),或人工排列和目測(cè)。其他確定同源性或同一性的算法,包括,例如,除BLAST程序外(國(guó)家生物學(xué)信息中心的堿基局部對(duì)準(zhǔn)搜索工具),ALIGN, AMAS(多重對(duì)準(zhǔn)序列分析),AMPS(蛋白質(zhì)多重序列對(duì)準(zhǔn)),ASSET(對(duì)準(zhǔn)片段統(tǒng)計(jì)評(píng)價(jià)工具),BANDS, BESTSC0R, BIOSCAN (生物學(xué)序列比較分析節(jié)點(diǎn)),BLIMPS (BLocksIMProved Searcher), FASTA, Intervals & Points, BMB, CLUSTAL V, CLUSTAL ff, CONSENSUS, LC0NSENSUS, WCONSENSUS, Smith-ffaterman 算法,DARWIN, Las Vegas 算法,F(xiàn)NAT (強(qiáng)制核苷酸對(duì)準(zhǔn)工具),F(xiàn)ramealign, Framesearch, DYNAMIC, FILTER, FSAP (Fristensky 序列分析包),GAP (通用對(duì)準(zhǔn)程序),GENAL, GIBBS, GenQuest, ISSC (敏感性序列比較),LALIGN(局部序列對(duì)準(zhǔn)),LCP(局部容量程序),MACAW(多重對(duì)準(zhǔn)構(gòu)建和分析工作臺(tái)),MAP(多重對(duì)準(zhǔn)程序),MBLKP,MBLKN, PIMA(模式感應(yīng)的多重序列對(duì)準(zhǔn)),SAGA(遺傳算法的序列對(duì)準(zhǔn))和WHAT-IF。這樣的對(duì)準(zhǔn)程序也用于篩選基因組數(shù)據(jù)庫以鑒定含有基本上相同序列的多核苷酸。許多基因組數(shù)據(jù)庫是可以獲得的,例如,人類基因組的重要部分可作為人類基因組測(cè)序項(xiàng)目的一部分而獲得(J. Roach, http://weber. u. Washington, edu/ roach/human_genome_progress 2. html) (Gibbs, 1995)。至少21個(gè)其他的基因組已經(jīng)被測(cè)序,例如包括,生埴器支原體(M. genitalium) (Fraser等人,1995),甲燒球菌(M. jannaschii)(Bult 等人,1996),流行性感冒嗜血桿菌(H. influenzae) (Fleischmann 等人,1995),大腸桿菌(Blattner等人,1997),和酵母(釀酒酵母)(Mewes等人,1997),和果蜆(D. melanogaster) (Adams等人,2000)。在生物體模型基因組的測(cè)序上已經(jīng)獲得了顯著的進(jìn)展,如小鼠,線蟲(C. elegans),和擬南芥(Arabadopsis sp)。含有基因組信息和一些功能性信息的幾個(gè)數(shù)據(jù)庫可通過不同的組織獲得,可經(jīng)互聯(lián)網(wǎng)獲得,例如http://WWWtigr.org/tab;http://www. genetics, wise, eau;http://genome-www. Stanford, edu/ ball;http://hiv_web. lanl. gov ;http://www. ncbi. nlm. nih. gov;http://www. ebi. ac. uk; http://Pasteur, fr/other/biology ;和 http://www. genome, wi. mit. edu。 有用的算法的實(shí)例是BLAST和BLAST 2. O算法,它們的描述分別分別見Altschul 等人,Nuc. Acids Res. 25:3389-3402,1977,和 Altschul 等人,J. Mol.Biol. 215:403-410, 1990。執(zhí)行BLAST分析的軟件可通過國(guó)家生物學(xué)信息中心(http://WWW. ncbi. nlm. Nih. gov/)公開獲得。這種算法涉及首先通過在查詢序列中鑒定長(zhǎng)度為W的短字節(jié)而鑒定高積分片段配對(duì)(HSPs),當(dāng)與數(shù)據(jù)庫序列中相同長(zhǎng)度的字節(jié)對(duì)準(zhǔn)時(shí),可匹配或滿足ー些陽性意義的臨界值分值T。T是指鄰近的字節(jié)分?jǐn)?shù)臨界值(Altschul等人,見上文)。這些初始的鄰近字節(jié)采樣可作為啟動(dòng)尋找含有它們的更長(zhǎng)HSPs的搜索的種子。字節(jié)采樣沿著每個(gè)序列的兩個(gè)方向延伸直至累計(jì)的對(duì)準(zhǔn)分值增加。核苷酸序列累計(jì)的分值采用參數(shù)M(對(duì)ー對(duì)匹配殘基的回饋分值;一般>0)來計(jì)算。對(duì)于氨基酸序列,評(píng)分矩陣用來計(jì)算累計(jì)分值。在每個(gè)方向字節(jié)采樣的延伸當(dāng)以下情況時(shí)中止累計(jì)對(duì)準(zhǔn)分值從最大值降低數(shù)量X ;由于積累了ー個(gè)或多個(gè)陰性分值的殘基對(duì)準(zhǔn),累計(jì)分值到達(dá)O或以下;或到達(dá)每條序列的終點(diǎn)。BLAST算法參數(shù)W,T和X確定了對(duì)準(zhǔn)的敏感性和速度。BLASTN程序(對(duì)于核苷酸序列)使用的缺省字節(jié)長(zhǎng)度(W)為11,期望值(E)為10,M=5,N=-4,井比較兩條鏈。對(duì)于氨基酸,BLASTP程序使用的缺省字節(jié)長(zhǎng)度為3,和期望值(E)為10,BL0SUM62評(píng)分矩陣(見 Henikoff & Henikoff,Proc. Natl. Acad. Sci. USA 89:10915,1989)對(duì)準(zhǔn)(B)為 50,期望值(E)為10, M=5, N=-4,并比較兩條鏈。BLAST算法也在兩個(gè)序列之間進(jìn)行相似性的統(tǒng)計(jì)學(xué)分析(見,如Kar I in &Altschul, Proc. Natl. Acad. Sci. USA 90:5873,1993)。BLAST 算法提供的相似性測(cè)定是最小的總和概率(P(N)),它提供了兩個(gè)核酸或氨基酸序列間的匹配偶然發(fā)生的可能性的指征。例如,如果在檢測(cè)核酸與參考核酸比較的最小總和概率小于大約O. 2,更優(yōu)選的小于大約O. 01,和最優(yōu)選的小于大約O. 001,核酸被認(rèn)為與參考序列相似。在一個(gè)實(shí)施方案中,蛋白和核酸序列同源性可采用堿基局部對(duì)準(zhǔn)搜索工具(“BLAST”)來評(píng)價(jià)。特別的是,5個(gè)特殊的BLAST程序可用來進(jìn)行下面的工作(I)BLASTP和BLASTP3比較ー個(gè)氨基酸查詢序列和蛋白質(zhì)序列數(shù)據(jù)庫;⑵BLASTN比較ー個(gè)核苷酸查詢序列和一個(gè)核苷酸序列數(shù)據(jù)庫;
      (3)BLASTX比較查詢核苷酸序列(兩股)的6框概念翻譯產(chǎn)物和蛋白質(zhì)序列數(shù)據(jù)庫;(4) TBLASTN比較ー個(gè)查詢蛋白質(zhì)序列和ー個(gè)在所有6種可讀框架內(nèi)(兩股)翻譯的核苷酸序列數(shù)據(jù)庫;和
      (5) TBLASTX比較ー個(gè)核苷酸查詢序列的6框翻譯和一個(gè)核苷酸序列數(shù)據(jù)庫的6框翻譯。BLAST程序可通過鑒別相似的片段而鑒定同源性序列,相似片段在此是指在查詢氨基酸或核酸序列和優(yōu)選從蛋白質(zhì)或核酸序列數(shù)據(jù)庫中獲得的檢測(cè)序列之間的“高積分片段配対”。高積分片段配對(duì)優(yōu)選通過評(píng)分矩陣的方法來鑒定(即對(duì)準(zhǔn)),其中許多方法在本領(lǐng)域中是已知的。優(yōu)選地,可使用的評(píng)分矩陣是BL0SUM62矩陣(Gonnet等人,Science256:1443-1445. 1992: Henikoff 和 Henikoff, Proteins 遼:49-61,1993)。不太優(yōu)選地,也可使用PAM或PAM250矩陣(見,如,Schwartz和Dayhoff主編,1978,檢測(cè)距離關(guān)系的矩陣蛋白質(zhì)序列和結(jié)構(gòu)圖集,華盛頓國(guó)家生物醫(yī)學(xué)研究基金會(huì))。BLAST程序可通過美國(guó)國(guó)家醫(yī)學(xué)圖書館獲得,如在www. ncbi. nlm. nih. gov。用在上述算法中的參數(shù)可根據(jù)要研究的序列長(zhǎng)度和同源性的程度而改變。在ー些實(shí)施方案中,在缺少用戶的說明時(shí)可使用算法的缺省參數(shù)。圖2是描述為確定新序列和數(shù)據(jù)庫中的序列之間的同源性,將新核苷酸或蛋白質(zhì)序列與序列數(shù)據(jù)庫比較的程序200的一個(gè)實(shí)施方案的流程圖。序列的數(shù)據(jù)庫可是在計(jì)算機(jī)系統(tǒng)100中儲(chǔ)存的ー個(gè)私人數(shù)據(jù)庫,或是公共數(shù)據(jù)庫如通過互聯(lián)網(wǎng)可獲得的GENBANK。程序200在起始狀態(tài)201開始,然后進(jìn)展至狀態(tài)202,其中要被比較的新序列被儲(chǔ)存在計(jì)算機(jī)系統(tǒng)100中的存儲(chǔ)器中。如上所述,存儲(chǔ)器可以是任何類型的存儲(chǔ)器,包括RAM或內(nèi)部存儲(chǔ)裝置。程序200然后進(jìn)展至狀態(tài)204,其中序列的數(shù)據(jù)庫為分析和比較而開放。程序200然后進(jìn)展至狀態(tài)206,其中在數(shù)據(jù)庫中儲(chǔ)存的第一條序列被讀入計(jì)算機(jī)的存儲(chǔ)器中。然后在狀態(tài)210進(jìn)行比較以確定第一條序列是否與第二條序列相同。重要的是要注意這個(gè)步驟不限于在新序列和數(shù)據(jù)庫中的第一條序列進(jìn)行精確的比較。比較兩個(gè)核苷酸或蛋白質(zhì)序列的方法是本領(lǐng)域?qū)I(yè)技術(shù)人員熟知的,即使它們不完全相同。例如,空位可被引入到ー個(gè)序列中以便提高兩個(gè)檢測(cè)序列之間的同源性水平。控制是否在比較的過程中向ー個(gè)序列中引入空位或其他特征的參數(shù)一般可由計(jì)算機(jī)系統(tǒng)的用戶輸入。一旦兩個(gè)序列的比較在狀態(tài)210已經(jīng)被執(zhí)行,則在判定狀態(tài)210獲得判定值,兩個(gè)序列是否是相同的。當(dāng)然,術(shù)語“相同”并不限于序列完全相同。在由用戶輸入的同源性參數(shù)內(nèi)的序列將在程序200中被標(biāo)記為“相同的”。如果獲得了兩個(gè)序列是相同的判定值,程序200則進(jìn)展至狀態(tài)214,其中來自數(shù)據(jù)庫的序列名稱顯示給用戶。該狀態(tài)通知用戶顯示名稱的序列滿足所輸入的同源性限制。一旦儲(chǔ)存的序列名稱顯示給用戶,程序200進(jìn)展至判定狀態(tài)218,其中可獲得判定值,是否更多的序列存在于數(shù)據(jù)庫中。如果在數(shù)據(jù)庫中不存在更多的序列,程序200則在終止?fàn)顟B(tài)220中止。但如果有更多的序列存在于數(shù)據(jù)庫中,程序200則進(jìn)展至狀態(tài)224,其中指示器移動(dòng)至數(shù)據(jù)庫中的下ー個(gè)序列,以便與新的序列比較。以這種方式,新的序列被與數(shù)據(jù)庫中的每ー個(gè)序列進(jìn)行對(duì)準(zhǔn)和比較。
      應(yīng)該注意的是如果在判定狀態(tài)212已經(jīng)獲得序列不同源的判定值,,程序200則將立即進(jìn)展至判定狀態(tài)218以確定數(shù)據(jù)庫中是否有任何其他的序列要比較。因此,本發(fā)明的ー個(gè)方面是ー個(gè)計(jì)算機(jī)系統(tǒng),該系統(tǒng)包括一個(gè)處理器;一個(gè)數(shù)據(jù)存儲(chǔ)裝置,其上已經(jīng)儲(chǔ)存了 A組核酸序列和基本上與它們一致的序列中列出的核酸序列,或在B組氨基酸序列和基本上與它們一致的序列中列出的多肽序列;ー個(gè)數(shù)據(jù)存儲(chǔ)裝置,其上已經(jīng)儲(chǔ)存了可獲取的要與A組核酸序列和基本上與它們一致的序列中列出的核酸序列,或B組氨基酸序列和基本上與它們一致的序列中列出的多肽序列進(jìn)行比較的參考核苷酸序列或多肽序列;和ー個(gè)進(jìn)行比較的序列比較儀。序列比較儀可指示比較的序列之間的同源性水平,或者在上述A組核酸序列和基本上與它們一致的序列的核酸密碼或B組氨基酸序列和基本上與它們一致的序列中列出的多肽序列中鑒定結(jié)構(gòu)基序,或者可在與這些核酸密碼和多肽密碼比較的序列中鑒定結(jié)構(gòu)基序。在一些實(shí)施方案中,數(shù)據(jù)儲(chǔ)存裝置可在其中儲(chǔ)存A組核酸序列和基本上與它們一致的序列中列出的核酸序列中,或B組氨基酸序列和基本上與它們一致的序列中列出的多肽序列中的至少2,5,10,15,20,25,30,或40個(gè)序列。
      本發(fā)明的另ー個(gè)方面是在A組核酸序列和基本上與它們一致的序列中列出的核酸序列或在B組氨基酸序列和基本上與它們一致的序列中列出的多肽序列,和參考核苷酸序列之間確定同源性水平的ー種方法。該方法包括通過使用可確定同源性水平的計(jì)算機(jī)程序讀取核酸密碼或多肽密碼和參考核苷酸或多肽序列,并在核酸密碼或多肽密碼和參考核苷酸或多肽序列之間用計(jì)算機(jī)程序來確定同源性。計(jì)算機(jī)程序可以是任何ー個(gè)可確定同源性水平的計(jì)算機(jī)程序,包括那些在此特別列舉的程序(如,BLAST2N,使用缺省參數(shù)或使用任何修改的參數(shù))。該方法可采用上述的計(jì)算機(jī)系統(tǒng)來實(shí)現(xiàn)。該方法也可如下進(jìn)行,即通過使用計(jì)算機(jī)程序讀取A組核酸序列中列出的上述核酸序列中,或B組氨基酸序列中列出的多肽序列中的至少2,5,10,15,20,25,30,或40或更多的序列,并在核酸密碼或多肽密碼和參考核苷酸序列或多肽序列之間確定同源性。圖3是描述在一個(gè)計(jì)算機(jī)中為確定兩條序列是否同源的程序250的一個(gè)實(shí)施方案的流程圖。程序250從起始狀態(tài)252開始,然后進(jìn)展至狀態(tài)254,其中第一條要比較的序列存儲(chǔ)在存儲(chǔ)器中。要比較的第二條序列然后在狀態(tài)256時(shí)被儲(chǔ)存在存儲(chǔ)器中。然后程序250進(jìn)展至狀態(tài)260,其中在第一條序列中的第一個(gè)字符被讀取,然后進(jìn)展至狀態(tài)262,其中第二條序列的第一個(gè)字符被讀取。應(yīng)該理解的是,如果序列是核苷酸序列,正常情況下參數(shù)將是A,T,C,G或U中的ー個(gè)。如果序列是蛋白質(zhì)序列,則優(yōu)選単一字母的氨基酸編碼,以便第一條和第二條序列可被很容易的比較。然后在判定狀態(tài)264判定兩個(gè)字符是否相同。如果它們是相同的,程序250則進(jìn)展至狀態(tài)268,其中第一條和第二條序列中的下ー個(gè)字符被讀取。然后判定下ー個(gè)字符是否相同。如果相同,程序250則繼續(xù)此循環(huán)直至兩個(gè)字符不相同為止。如果判定下兩個(gè)字符不相同,程序250則進(jìn)展至判定狀態(tài)274以確定每條序列的其他任何字符是否要讀取。如果沒有其他任何字符要讀取,程序250則進(jìn)展至狀態(tài)276,其中第一條和第二條序列間同源性的水平顯示給用戶。通過計(jì)算相同序列間的字符與第一條序列中序列總數(shù)的比例可確定同源性水平。因此,如果第一條100個(gè)核苷酸序列的每個(gè)字符與第二條序列中的每ー個(gè)字符對(duì)準(zhǔn)吋,同源性水平將為100%。
      可選擇的是,計(jì)算機(jī)程序可以是這樣ー個(gè)計(jì)算機(jī)程序,即將在本發(fā)明中產(chǎn)生的核酸序列的核苷酸序列與一條或多條參考核苷酸序列比較,以便確定A組核酸序列和基本上與它們一致的序列的核酸編碼是否與在ー個(gè)或多個(gè)位置上不同于參考核酸序列。可任選的,這樣ー個(gè)程序可記錄關(guān)于在A組核酸序列中列出的參考多核苷酸或核酸序列,及基本上與它們一致的序列的插入,刪除或替代核苷酸。在一個(gè)實(shí)施方案中,計(jì)算機(jī)程序可以是這樣ー個(gè)計(jì)算機(jī)程序,即可確定在A組核酸序列中列出的核酸序列和基本上與它們一致的序列是否含有關(guān)于參考核苷酸序列的單核苷酸多態(tài)性(SNP)。因此,本發(fā)明的另ー個(gè)方面是ー種方法,用于確定在A組核酸序列中列出的核酸序列,和基本上與它們一致的序列在一個(gè)多個(gè)核苷酸上是否與參考核苷酸序列不同,所述方法的步驟包括使用可鑒別核酸序列間差異的計(jì)算機(jī)程序來讀取核酸編碼和參考核苷酸序列,并采用計(jì)算機(jī)程序鑒別核酸編碼和參考核苷酸序列之間的差異。在一些實(shí)施方案中,計(jì)算機(jī)程序是ー個(gè)可鑒別單核苷酸多態(tài)性的程序。該方法可通過上述的計(jì)算機(jī)程序來實(shí)現(xiàn),該法在圖3中圖解說明。該方法的執(zhí)行也可通過使用計(jì)算機(jī)程序在A組核酸序列中列出的核酸序列和基本上與它們一致的序列,以及參考核苷酸序列中讀取至少2,5,10,15,20,25,30或40或更多的序列,并采用計(jì)算機(jī)程序鑒別核酸編碼和參考核苷酸序列之間的 差異。在其他的實(shí)施方案中,計(jì)算機(jī)化的系統(tǒng)可進(jìn)ー步包括在A組核酸序列中列出的核酸序列或在B組氨基酸序列中列出的多肽序列,及基本上與它們一致的序列中鑒別特征的標(biāo)識(shí)符。“標(biāo)識(shí)符”是指一個(gè)或多個(gè)可在A組核酸序列中列出的核酸序列和基本上與它們ー致的序列,或在B組氨基酸序列中列出的多肽序列,和基本上與它們一致的序列中鑒別某種特征的程序。在一個(gè)實(shí)施方案中,標(biāo)識(shí)符可包含一個(gè)可在A組核酸序列中列出的核酸序列,和基本上與它們一致的序列中鑒別ー個(gè)開放閱讀框的程序。圖5是一個(gè)描述在一個(gè)序列中檢測(cè)一種特征存在的標(biāo)識(shí)符程序300的一個(gè)實(shí)施例的流程圖。程序300在起始狀態(tài)302開始,然后進(jìn)展至狀態(tài)304,其中要被檢查特征的第一條序列被儲(chǔ)存在計(jì)算機(jī)系統(tǒng)100中的存儲(chǔ)器115中。程序300然后進(jìn)展至狀態(tài)306,其中序列特征數(shù)據(jù)庫是開放的。這樣ー個(gè)數(shù)據(jù)庫將包括ー個(gè)與特征名稱并列的每個(gè)特征屬性的列表。例如,一個(gè)特征名稱可能是“初始密碼子”,屬性將是“ATG”。另ー個(gè)實(shí)例是特征名稱為“TAATAA盒”,特征屬性為“TAATAA”。這樣ー個(gè)數(shù)據(jù)庫的實(shí)例是由Wisconsin GeneticsComputer Group (www. gcg. com)大學(xué)所開發(fā)的??蛇x擇地,特征可以是結(jié)構(gòu)性多肽基序如α螺旋,β片層或功能性的多肽基序如酶活性位點(diǎn),螺旋-轉(zhuǎn)角-螺旋基序或其他本領(lǐng)域?qū)I(yè)技術(shù)人員已知的基序。一旦特征數(shù)據(jù)庫在狀態(tài)306開放,程序300則進(jìn)展至狀態(tài)308,其中第一個(gè)特征從數(shù)據(jù)庫中讀取。然后在狀態(tài)310進(jìn)行第一個(gè)特征屬性與第一個(gè)序列的比較。在判定狀態(tài)316獲得判定結(jié)果是否在第一條序列中能發(fā)現(xiàn)特征的屬性。如果發(fā)現(xiàn)了屬性,程序300則轉(zhuǎn)移至狀態(tài)318,其中所發(fā)現(xiàn)特征的名稱顯示給用戶。程序300然后進(jìn)展至判定狀態(tài)320,其中得出結(jié)果是否更多的特征仍然存在于數(shù)據(jù)庫中。如果不存在更多的特征,程序300將在終止?fàn)顟B(tài)324處結(jié)束。但是,如果更多的特征存在于數(shù)據(jù)庫中,程序300將在狀態(tài)326讀取下ー個(gè)序列特征,并循環(huán)回到狀態(tài)310,其中下一個(gè)特征的屬性與第一條序列相比較。應(yīng)該注意的是,如果特征屬性在判定狀態(tài)316處的第一條序列中沒有被發(fā)現(xiàn),程序300會(huì)直接進(jìn)展到判定狀態(tài)320以便確定是否有更多的特征存在于數(shù)據(jù)庫中。相應(yīng)地,本發(fā)明的另一方面是ー種方法,用于在如在A組核酸序列中列出的核酸序列,和基本上與它們一致的序列內(nèi),或如在B組氨基酸序列內(nèi)列出的多肽序列和基本上與它們一致的序列內(nèi)鑒別ー種特征,所述方法包括通過使用一種計(jì)算機(jī)程序讀取核酸編碼或多肽編碼,并采用計(jì)算機(jī)程序在核酸編碼中鑒別這些特征,其中所述的計(jì)算機(jī)程序可在其中鑒別特征。在一個(gè)實(shí)施方案中,計(jì)算機(jī)程序包含鑒別開放閱讀框的計(jì)算機(jī)程序。該方法的執(zhí)行是通過使用計(jì)算機(jī)程序讀取ー個(gè)單ー序列或如在A組核酸序列中列出的核酸序列,和基本上與它們一致的序列,或如在B組氨基酸序列中列出的多肽序列和基本上與它們ー致的序列內(nèi)至少2,5,10,15,20,25,30,或40個(gè)序列,并用計(jì)算機(jī)程序鑒定核酸編碼或多肽編碼中的特征。
      如在A組核酸序列中列出的核酸序列和基本上與它們一致的序列或如在B組氨基酸序列中列出的多肽序列,和基本上與它們一致的序列可被儲(chǔ)存,并以多種格式在多個(gè)數(shù)據(jù)處理器程序中進(jìn)行處理。例如,如在A組核酸序列中列出的核酸序列,和基本上與它們ー致的核酸序列,或如在B組氨基酸序列中列出的多肽序列,和基本上與它們一致的序列,可作為文本在ー個(gè)文字處理文件,如微軟的WORD或WORDPERFECT中被儲(chǔ)存起來,或以本領(lǐng)域?qū)I(yè)技術(shù)人員所熟悉的多種數(shù)據(jù)庫程序如DB2,SYBASE,或ORACLE中的ASCII文件被儲(chǔ)存。另外,可使用許多計(jì)算機(jī)程序和數(shù)據(jù)庫作為序列比較算法,標(biāo)識(shí)符或與如在A組核酸序列中列出的核酸序列,和基本上與它們一致的序列,或如在B組氨基酸序列中列出的多肽序列,和基本上與它們一致的序列進(jìn)行比較的參考核酸序列或多肽序列的來源。下面的列表并不打算限制本發(fā)明,而是提供程序和數(shù)據(jù)庫的指南,它們可用于如在A組核酸序列中列出的核酸序列,和基本上與它們一致的序列,或如在B組氨基酸序列中列出的多肽序列,和基本上與它們一致的序列??墒褂玫某绦蚝蛿?shù)據(jù)庫包括但不限于MacPat tern (EMBL),DiscoveryBase(Molecular Applications Group;,GeneMine(MolecularApplications Group),Look(Molecular Applications Groupノ,MacLook(MolecularApplications Group), BLAST 和 BLAST2(NCBI),BLASTN 和 BLASTX(Altschul 等人,J. Mol. Biol. 215 : 403, 1990), FASTA (Pearson 和 Lipman, Proc. Natl. Acad. Sci. USA85:2444,1988),F(xiàn)ASTDB (Brutlag 等人,Comp. App. Biosci. 6:237-245,1990),Catalyst(Molecular Simulations Inc.),Catalyst/SHAPE(Molecular Simulations Inc.),Cerius'DBAccess (Molecular Simulation Inc. ), HypoGen(Molecular SimulationsInc. ), Insight II, (Molecular Simulations Inc.), Discover(Molecular Simulationslnc.),CHARMm(Molecular Simulations Inc.),F(xiàn)elix(Molecular SimulationsInc.),DelPhi, (Molecular Simulations Inc.), QuanteMM, (Molecular Simulations, Inc.),Homology(Molecular Simulations, Inc. ), Modeler(Molecular Simulations, Inc. ), ISIS(Molecular Simulations, Inc.), Quanta/Protein Design(Molecular Simulations,Inc. ), WebLab(Molecular Simulations Inc. ), WebLab Diversity Explorer(MolecularSimulations Inc. ), Gene Explorer(Molecular Simulations, Inc. ), SeqFold(MolecularSimulations, Inc. ),MDL 通用化學(xué)藥品目錄數(shù)據(jù)庫(MDL Available Chemicals Directorydatabase), MDL藥物數(shù)據(jù)報(bào)告數(shù)據(jù)庫(MDL Drug Data Report data base),綜合醫(yī)學(xué)化學(xué)數(shù)據(jù)庫(Compreshensive Medicinal Chemistry database), Derwent’ s 世界藥物索引數(shù)據(jù)庫(Derwent,s World Drug Index database), BioByteMasterFile 數(shù)據(jù)庫,Genbank 數(shù)據(jù)庫,和Genseqn數(shù)據(jù)庫。許多其他的程序和數(shù)據(jù)庫對(duì)在本公開書中特定領(lǐng)域中的專業(yè)技術(shù)人員是很明顯的。采用上述程序可檢測(cè)的基序包括編碼亮氨酸拉鏈,螺旋-轉(zhuǎn)角-螺旋基序,糖基化位點(diǎn),泛素化位點(diǎn),α-螺旋,β_片層的序列,編碼可引導(dǎo)編碼蛋白分泌的信號(hào)肽的信號(hào)序列,涉及轉(zhuǎn)錄調(diào)節(jié)中的序列如同源框,酸性分支,酶活性位點(diǎn),底物結(jié)合位點(diǎn)和酶切割位點(diǎn)。本發(fā)明開發(fā)了酶的獨(dú)特催化特性。鑒于在化學(xué)轉(zhuǎn)化反應(yīng)中使用生物催化劑(即,純化或天然酶,非活或活細(xì)胞)一般需要鑒別與特殊起始化合物反應(yīng)的特殊生物催化劑,本發(fā)明采用了選擇性的生物催化劑和在許多起始化合物,如小分子中存在的功能基團(tuán)特異的反應(yīng)條件。每個(gè)生物催化劑對(duì)ー個(gè)功能基團(tuán)或幾個(gè)相關(guān)的功能基團(tuán)是特異的,可與含有 這種功能基團(tuán)的許多起始化合物反應(yīng)。生物催化反應(yīng)可從一個(gè)單ー的起始化合物產(chǎn)生ー組衍生物。這些衍生物可進(jìn)行另ー輪生物催化反應(yīng),產(chǎn)生第二組衍生化合物。原始小分子或化合物的上千種變異可在生物催化衍生作用的每次重復(fù)中產(chǎn)生。酶在起始化合物的特異位點(diǎn)上反應(yīng),而不影響其他分子,該過程采用傳統(tǒng)的化學(xué)方法很難達(dá)到。這種高度的生物催化的特異性提供了在文庫內(nèi)鑒別ー個(gè)単一的活性化合物的手段。該文庫的特征在于用來產(chǎn)生其的系列生物催化反應(yīng),稱為“生物合成過程”。為生物學(xué)活性篩選文庫并追蹤生物合成過程可鑒別產(chǎn)生活性化合物的特異反應(yīng)序列。重復(fù)反應(yīng)序列,確定合成化合物的結(jié)構(gòu)。這種鑒定模式,不象其他的合成和篩選方式,并不需要固定技術(shù),可采用實(shí)際上任何類型的篩選實(shí)驗(yàn)來合成和檢測(cè)游離在溶液中的化合物。重要的是要注意在功能基團(tuán)上的酶反應(yīng)的高度特異性可允許追蹤特異酶反應(yīng),該反應(yīng)可制造生物催化產(chǎn)生的文庫。許多程序化的步驟可采用機(jī)械自動(dòng)化來進(jìn)行,每天可執(zhí)行上千種催化反應(yīng)和篩選實(shí)驗(yàn),并確保高水平的準(zhǔn)確度和可重復(fù)性。結(jié)果,衍生化合物的文庫可在大概幾周內(nèi)產(chǎn)生,采用常規(guī)的化學(xué)方法則需要幾年的時(shí)間來產(chǎn)生。在ー個(gè)特殊的實(shí)施方案中,本發(fā)明提供了一種修飾小分子的方法,所述方法包括將由在此描述的多核苷酸編碼或其酶學(xué)活性片斷與小分子接觸,產(chǎn)生ー個(gè)修飾的小分子。修飾小分子的文庫可被檢測(cè)以確定修飾的小分子是否存在于顯示有所需活性的文庫中??僧a(chǎn)生具有所需活性的修飾小分子的特異生物催化反應(yīng)的鑒別可通過系統(tǒng)性的去除每ー個(gè)用來產(chǎn)生部分文庫的生物催化反應(yīng),然后檢測(cè)在部分文庫中產(chǎn)生的小分子中是否存在具有所需活性的修飾小分子??僧a(chǎn)生具有所需活性的修飾小分子的特異生物催化反應(yīng)可隨意地被重復(fù)。生物催化反應(yīng)可采用一組可與在小分子結(jié)構(gòu)中發(fā)現(xiàn)的不同結(jié)構(gòu)部分反應(yīng)的生物催化劑來進(jìn)行,每種生物催化劑對(duì)ー個(gè)結(jié)構(gòu)部分或一組相關(guān)的結(jié)構(gòu)部分是特異的;每種生物催化劑可與含有不同結(jié)構(gòu)部分的許多不同的小分子反應(yīng)。本發(fā)明將參考以下的實(shí)例進(jìn)一歩描述;但是,可以理解的是本發(fā)明并不限于這些實(shí)例。實(shí)施例實(shí)例I位點(diǎn)-飽和誘變?yōu)榱诉_(dá)到位點(diǎn)飽和誘變,由SEQ ID NO: I編碼的脫鹵素酶(SEQ ID NO: 2)的每ー個(gè)殘基(317)均通過定點(diǎn)誘變采用32倍變性的寡核苷酸引物轉(zhuǎn)變成所有20個(gè)氨基酸,如下脫鹵素酶表達(dá)構(gòu)建物的培養(yǎng)物進(jìn)行培養(yǎng)生長(zhǎng),并制備質(zhì)粒制劑。制備引物以隨機(jī)化每個(gè)密碼子-它們具有普遍的結(jié)構(gòu)X2tlNN(G/T)X2tl,其中X2tl代表要改變的密碼子側(cè)向的SEQ ID NO: I核酸序列的20個(gè)核苷酸。 制備含有飛Ong質(zhì)粒模板,125ng每種引物,IX原始Pfu緩沖液,200 μ M每種dNTP和2. 5U原始Pfu DNA多聚酶的25 μ I反應(yīng)混合物。如下在Robo96梯度循環(huán)儀中循環(huán)進(jìn)行反應(yīng)在95° C初始變性I分鐘;95° C 45 秒,53° C I 分鐘,72° C 11 分鐘進(jìn)行 20 循環(huán),72° C 10分鐘進(jìn)行最后的延伸步驟。反應(yīng)混合物用IOU DpnI在37° C消化I小時(shí)以消化甲基化的模板DNA。2 μ I反應(yīng)混合物用來轉(zhuǎn)化50 μ I XLl-藍(lán)MRF’細(xì)胞,將全部轉(zhuǎn)化的混合物接種在可產(chǎn)生200-1000個(gè)集落的大LB-Amp-Met培養(yǎng)板上。單個(gè)集落被挑入含有LB-Amp-IPTG的384孔微量滴定板中生長(zhǎng)過夜。第二天測(cè)定這些培養(yǎng)板中的克隆。實(shí)施例2脫鹵素酶熱穩(wěn)定性本發(fā)明提供的是,通過定向進(jìn)化而產(chǎn)生的所需特性可以有限的方式進(jìn)行例證,SP在接受改變的環(huán)境后分子殘余活性(如酶活性,免疫反應(yīng)性,抗生素活性等)的改良,包括可考慮在苛刻的環(huán)境中存在特定時(shí)間的活性。這樣ー種苛刻的環(huán)境可包括下列情況的任何組合(重復(fù)或不重復(fù),以任何順序或排列)升高的溫度(包括可導(dǎo)致工作酶變性的溫度),降低的溫度,升高的鹽度,降低的鹽度,升高的ΡΗ,降低的pH,升高的壓力,降低的壓力,暴露在放射源(包括紫外放射線,可見光,以及整個(gè)電磁光譜)的改變。下面的實(shí)例顯示了應(yīng)用定向進(jìn)化使在暴露于升高的溫度中,酶的能力進(jìn)化重新獲得或保留活性。如上所述,脫鹵素酶的每個(gè)殘基(317)通過定點(diǎn)誘變采用32倍變性的寡核苷酸引物轉(zhuǎn)變?yōu)樗?0個(gè)氨基酸。篩選的步驟如下384孔培養(yǎng)板中的過夜培養(yǎng)物離心,去除培養(yǎng)基。每個(gè)孔加入O. 06mL ImM Tris/SO42W. 8。自動(dòng)機(jī)械手可從每個(gè)含有O.02mL細(xì)胞懸液的親代生長(zhǎng)培養(yǎng)板中制備2個(gè)測(cè)定板。一個(gè)測(cè)定板放置于室溫下,其他則在升高的溫度中(初始的篩網(wǎng)采用55° C) —段時(shí)間(最初30分鐘)。經(jīng)過指定的時(shí)間后,向每孔中加入O. 08mL室溫底物(TCP飽和的ImM Tris/S042_pH7. 8和I. 5mM NaN3和O. ImM溴麝香草酚藍(lán))。TCP=三氯丙烷。在不同時(shí)間點(diǎn)獲得在620nm的測(cè)定值以產(chǎn)生每孔的進(jìn)程曲線。分析數(shù)據(jù),比較加熱細(xì)胞和未加熱細(xì)胞的動(dòng)力學(xué)。每個(gè)板中含有1-2排(24孔)的未突變的20F12對(duì)照。顯示具有改良的穩(wěn)定性的孔被重新培養(yǎng),在同樣的條件下檢測(cè)。根據(jù)這種步驟,在酶上被賦予熱穩(wěn)定性増加的突變克隆被測(cè)序以確定在每個(gè)位置上的準(zhǔn)確氨基酸改變,這些位置對(duì)這些改良是特異的。分別鑒定具有在SED ID N0:5和7中列出的核酸序列和在SEQ ID N0:6和8中列出的多肽序列的突變體。在G182V(SEQ IDNO:6)位置上的熱突變也可是ー個(gè)谷氨酸鹽(Q),具有相似的増加的熱穩(wěn)定性。同樣地,P302A突變可改變?yōu)榱涟彼?L),絲氨酸(S),賴氨酸(K)或精氨酸(R)。這些變異體(以及下面的那些)包括在本發(fā)明中。 根據(jù)這些步驟,出現(xiàn)了 9個(gè)單一位點(diǎn)突變,被賦予了増加的熱穩(wěn)定性。序列分析顯示下列的變化是有益的D89G;F91S;T159L;G182Q, G I 8 2 V ; I220L;N238T;W251Y ;P302A, P302L, P302S, P302K;P302R/S306Ro 僅有兩個(gè)位點(diǎn)(182 和 302)超過ー個(gè)替代。在列表中前5個(gè)合并(采用G182Q)成ー個(gè)單一基因。通過將酶在升高的溫度下(55° C和80° C)孵育一段時(shí)間,測(cè)定熱穩(wěn)定性,并在30° C進(jìn)行活性測(cè)定。在更高的溫度下對(duì)初始率與時(shí)間進(jìn)行作圖。在50mM Tris/S04 pH7. 8中的酶進(jìn)行孵育并測(cè)定。通過標(biāo)準(zhǔn)的方法采用Fe (NO3)3和HgSCN對(duì)產(chǎn)物(Cじ)進(jìn)行檢測(cè)。SEQ ID N0:2的脫鹵素酶被用作為實(shí)際的野生型。通過將數(shù)據(jù)擬合為指數(shù)衰減函數(shù)來計(jì)算表觀半衰期(T1/2)。盡管本發(fā)明已經(jīng)關(guān)于某些優(yōu)選的實(shí)施方案進(jìn)行了詳細(xì)的描述,但應(yīng)該理解的是任何修飾和變化都是在所描述的和要求的精神和范圍內(nèi)的。
      權(quán)利要求
      1.具有脫鹵素酶活性的分離的、合成的或重組的多肽,其包括Ca)與 SEQ ID NO:10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、44、46 或 48 具有至少50%序列同一性的氨基酸序列;或 (b)編碼具有脫鹵素酶活性的多肽的(a)的片段。
      2.分離的、合成的或重組的核酸,其包括(a)與SEQ ID ΝΟ:9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、43、45 或 47 具有至少50%序列同一性的核酸序列,其中所述核酸編碼至少ー個(gè)具有脫鹵素酶活性的多肽;或 (b)Ca)的互補(bǔ)序列;或 (c)編碼權(quán)利要求I所述的多肽的核酸。
      3.權(quán)利要求I所述的多肽,其中所述多肽包括與SEQID N0:10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、44、46或48具有至少50%同一性的氨基酸序列。
      4.權(quán)利要求I所述的多肽,其中所述多肽包括與SEQID N0:10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、44、46或48具有至少50%同一性的氨基酸序列。
      5.具有脫鹵素酶活性的多肽,其包括Ca)在 SEQ ID NO:10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、44、46 或 48 中闡述的氨基酸序列;或(b)由 SEQ ID ΝΟ:9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、43、45或47 的核酸序列編碼的氨基酸序列。
      6.包含權(quán)利要求2所述核酸的載體、克隆載體或宿主細(xì)胞。
      7.權(quán)利要求I所述的多肽,其包括選自下述的至少ー個(gè)氨基酸修飾D89G、F91S、T159L、G182Q、G182V、I220L、N238T、W251Y、P302A、P302L、P302K、P302R/S306R,和其任何組ムロ ο
      8.產(chǎn)生(R)-(±)_3-鹵代-1,2-丙ニ醇的方法,其包括將1,3-ニ鹵代-2-丙醇與權(quán)利要求I所述的多肽或由權(quán)利要求2所述的核酸編碼的多肽在產(chǎn)生(R)-(±)_3-鹵代-1,2-丙ニ醇的條件下接觸。
      9.合成甘油的方法,其包括將三氯丙烷或ニ氯丙醇與權(quán)利要求I所述的多肽或權(quán)利要求2所述核酸編碼的多肽在合成甘油的條件下接觸。
      10.產(chǎn)生旋光鹵代乳酸的方法,包括將ニ鹵代丙酸與權(quán)利要求I所述的多肽或權(quán)利要求2所述的核酸編碼的多肽在產(chǎn)生旋光鹵代乳酸的條件下接觸。
      11.生物補(bǔ)救的方法,包括將環(huán)境樣本與權(quán)利要求I所述的多肽或權(quán)利要求2所述的核酸所編碼的多肽接觸。
      12.消除樣本中鹵化污染物或鹵化雜質(zhì)的方法,所述方法包括將樣本與權(quán)利要求I所述的多肽或權(quán)利要求2所述的核酸所編碼的多肽接觸。
      13.合成ニ醇的方法,所述方法包括將ニ鹵代丙烷或單鹵代丙醇與權(quán)利要求I所述的多肽或權(quán)利要求2所述的核酸所編碼的多肽在合成ニ醇的條件下接觸。
      14.鹵素取代的環(huán)烴基的脫鹵素方法,所述方法包括將鹵素取代的環(huán)烴基與權(quán)利要求I所述的多肽或權(quán)利要求2所述的核酸所編碼的多肽在鹵素取代的環(huán)烴基脫鹵素的條件下接觸。
      15.產(chǎn)生脫鹵素酶的方法,所述方法包括Ca)提供權(quán)利要求2所述的核酸;和(b)表達(dá)所述核酸以產(chǎn)生脫鹵素酶,其中任選地所述核酸在宿主細(xì)胞中表達(dá)。
      全文摘要
      本發(fā)明涉及鹵烷脫鹵素酶和編碼鹵烷脫鹵素酶的多核苷酸。此外還提供了設(shè)計(jì)新脫鹵素酶的方法及其使用方法。脫鹵素酶在pH和溫度升高的情況下活性和穩(wěn)定性增加。
      文檔編號(hào)C02F1/00GK102690799SQ20121015364
      公開日2012年9月26日 申請(qǐng)日期2001年11月30日 優(yōu)先權(quán)日2000年12月1日
      發(fā)明者D·羅伯遜, J·M·肖特, K·格雷, T·理查森 申請(qǐng)人:維萊尼姆公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1