背景技術(shù):
1、蛋白質(zhì)工程是生物技術(shù)和生物醫(yī)學(xué)領(lǐng)域的變革性方法,旨在賦予現(xiàn)有蛋白質(zhì)新的功能,或使蛋白質(zhì)在非原生環(huán)境中更持久。影響兩種工程方式的設(shè)計(jì)考慮因素是蛋白質(zhì)的整體穩(wěn)定性。在前一種情況下,引入功能獲得突變,通過合理的設(shè)計(jì)或定向進(jìn)化擴(kuò)展蛋白質(zhì)的作用,通常有熱力學(xué)代價(jià)。由于大多數(shù)天然蛋白質(zhì)只是略微穩(wěn)定,可能會(huì)錯(cuò)過使蛋白質(zhì)不穩(wěn)定以達(dá)到去折疊點(diǎn)的功能性突變,而在選擇前增加穩(wěn)定性被證明可以提升蛋白質(zhì)的可進(jìn)化性。
2、將有用的天然存在的生物催化劑轉(zhuǎn)化為工業(yè)用途的一個(gè)重要障礙是蛋白質(zhì)對(duì)完全不同的環(huán)境條件、溫度和溶劑的適應(yīng)。增加蛋白質(zhì)的穩(wěn)定性可以減輕許多這類壓力,從而允許以更高的產(chǎn)量和更低的成本進(jìn)行大量表達(dá)。因此,穩(wěn)定性對(duì)許多蛋白質(zhì)工程上的付出得以成功至關(guān)重要。
3、存在大量設(shè)計(jì)蛋白質(zhì)的方法,并且所有方法通常都代表了在如何快速準(zhǔn)確地測(cè)量蛋白質(zhì)變體和如何有效地對(duì)蛋白質(zhì)變體全景進(jìn)行取樣之間的折衷。誘變的聚合酶鏈?zhǔn)椒磻?yīng)(pcr)等技術(shù)需要最少的對(duì)序列和功能之間關(guān)系的知識(shí),但依賴高通量篩選或選擇來分離蛋白質(zhì)變體的大型文庫。結(jié)構(gòu)數(shù)據(jù)和計(jì)算方法可用于縮小搜索空間,同時(shí)減少下游表征的量。這些工具對(duì)于難以(尤其是大規(guī)模)測(cè)量所需特性的蛋白質(zhì)來說變得越來越重要。然而,由于我們對(duì)蛋白質(zhì)序列/結(jié)構(gòu)/功能關(guān)系不完全了解,蛋白質(zhì)工程的不同計(jì)算工具通常會(huì)提供完全不同甚至相互沖突的解決方案。對(duì)于穩(wěn)定性和折疊等通常是分布在整個(gè)蛋白質(zhì)序列中的許多小相互作用的結(jié)果的特性尤其如此。
4、通常,計(jì)算機(jī)的方法將通過執(zhí)行計(jì)算密集型折疊模擬來識(shí)別使蛋白質(zhì)不穩(wěn)定的殘基。這些模擬所涉及的詳細(xì)程度各不相同——有些甚至援引量子力學(xué)(moe)來解釋分子間的相互作用,而另一些則使用更粗粒度的方法(rosetta)。第一種近似方法是,粗粒度的方法通過查找蛋白質(zhì)結(jié)構(gòu)中的缺口(rosettavip)、進(jìn)行快速局部自由能計(jì)算(foldx)或查找進(jìn)化異常(pros)的殘基來識(shí)別有問題的殘基。然后,通過疏水堆積或回復(fù)到進(jìn)化共識(shí),建議使用更合適的殘基。然后,通過對(duì)突變體的能量模擬,估計(jì)這些取代對(duì)蛋白質(zhì)穩(wěn)定性的影響??偟膩碚f,這一過程(殘基識(shí)別、取代建議、復(fù)性和自由能計(jì)算)可能需要幾個(gè)小時(shí)到幾天的時(shí)間。
5、機(jī)器學(xué)習(xí)是一個(gè)有吸引力的選擇,因?yàn)樗恍枰A(yù)先了解特定的蛋白質(zhì)特征或耗時(shí)的手動(dòng)檢查和分配單個(gè)結(jié)構(gòu)特征。最近,torng和altman(torng?et?al.,“3d?deepconvolutional?neural?networks?for?amino?acid?environment?similarityanalysis,”bmc?bioinformatics,18:302,2017,通過引用并入本文)描述了一種通用框架,其在提供有關(guān)周圍蛋白質(zhì)微環(huán)境的信息的情況下通過預(yù)測(cè)氨基酸的特性將3d卷積神經(jīng)網(wǎng)絡(luò)(3dcnn)應(yīng)用于蛋白質(zhì)結(jié)構(gòu)分析。該神經(jīng)網(wǎng)絡(luò)在相對(duì)于野生型序列分配氨基酸方面達(dá)到42%的預(yù)測(cè)準(zhǔn)確率,并且優(yōu)于其他依賴于識(shí)別預(yù)先分配的基于結(jié)構(gòu)的特征的計(jì)算機(jī)方法。此外,給定模型蛋白t4溶菌酶的結(jié)構(gòu)數(shù)據(jù),3d?cnn通常在已知突變不穩(wěn)定的位置預(yù)測(cè)野生型殘基,并且在給出這些已知不穩(wěn)定突變體的結(jié)構(gòu)時(shí),顯示出對(duì)野生型殘基的強(qiáng)烈偏好。
技術(shù)實(shí)現(xiàn)思路
1、鑒于蛋白質(zhì)組必須同時(shí)表現(xiàn)出幾種不相關(guān)甚至相互沖突的表型,如折疊幾何結(jié)構(gòu)、穩(wěn)定性、催化作用和結(jié)合特異性,作為遠(yuǎn)離活性位點(diǎn)的位置處的結(jié)構(gòu)離群的氨基酸可能會(huì)影響折疊和穩(wěn)定性,但不會(huì)影響功能似乎是合理的。因此,本領(lǐng)域需要改進(jìn)的蛋白質(zhì)工程技術(shù),利用人工智能來學(xué)習(xí)不同氨基酸的共有微環(huán)境,并掃描整個(gè)結(jié)構(gòu)以識(shí)別偏離結(jié)構(gòu)共有性(structural?consensus)的殘基。這些殘基被認(rèn)為具有低野生型概率且被認(rèn)為是不穩(wěn)定位點(diǎn),因此是誘變和穩(wěn)定性工程的良好候選者。本文討論的系統(tǒng)和方法的實(shí)施提供了這種改進(jìn)的蛋白質(zhì)工程技術(shù)。
2、一方面,訓(xùn)練神經(jīng)網(wǎng)絡(luò)以改良蛋白質(zhì)特性的計(jì)算機(jī)實(shí)施方法包括從數(shù)據(jù)庫收集一組氨基酸序列,為該組氨基酸編譯一套具有化學(xué)環(huán)境的三維晶體結(jié)構(gòu),將化學(xué)環(huán)境轉(zhuǎn)化為體素化矩陣,用體素化矩陣的子集訓(xùn)練神經(jīng)網(wǎng)絡(luò),用神經(jīng)網(wǎng)絡(luò)識(shí)別目標(biāo)蛋白質(zhì)中的待突變候選殘基,并用神經(jīng)網(wǎng)絡(luò)識(shí)別要取代候選殘基的預(yù)測(cè)氨基酸殘基,以產(chǎn)生突變蛋白質(zhì),其中所述突變蛋白質(zhì)在特性上表現(xiàn)出優(yōu)于所述目標(biāo)蛋白質(zhì)的改良。在一個(gè)實(shí)施例中,該方法還包括以下步驟:將選自氫位置、部分電荷、β因子、二級(jí)結(jié)構(gòu)、芳香性、電子密度、極性及其組合的特征的空間排列添加到至少一個(gè)三維晶體結(jié)構(gòu)中。
3、在一個(gè)實(shí)施例中,該方法還包括調(diào)整該組氨基酸序列以反映其自然頻率。在一個(gè)實(shí)施例中,該方法還包括從序列中的隨機(jī)位置對(duì)該組氨基酸序列中至少50%的氨基酸進(jìn)行取樣。在一個(gè)實(shí)施例中,該方法還包括使用三維晶體結(jié)構(gòu)或體素化矩陣的第二子集訓(xùn)練第二獨(dú)立神經(jīng)網(wǎng)絡(luò),以及基于兩個(gè)神經(jīng)網(wǎng)絡(luò)的結(jié)果識(shí)別候選和預(yù)測(cè)殘基。在一個(gè)實(shí)施例中,特征是穩(wěn)定性、成熟度、折疊或其組合。
4、另一方面,用于改良蛋白質(zhì)特性的系統(tǒng)包括處理器和具有存儲(chǔ)在其上的指令的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),當(dāng)由處理器執(zhí)行時(shí)執(zhí)行以下步驟,包括提供包含殘基序列的目標(biāo)蛋白質(zhì),提供一組圍繞氨基酸的三維模型并為每個(gè)三維模型提供一組蛋白質(zhì)特征值,估計(jì)每個(gè)三維模型中各個(gè)點(diǎn)的一組參數(shù),用三維模型、參數(shù)和蛋白質(zhì)特征值訓(xùn)練神經(jīng)網(wǎng)絡(luò),用神經(jīng)網(wǎng)絡(luò)識(shí)別目標(biāo)蛋白質(zhì)中的待突變候選殘基,并用神經(jīng)網(wǎng)絡(luò)識(shí)別替代候選殘基的預(yù)測(cè)氨基酸殘基,產(chǎn)生突變蛋白質(zhì),其中突變蛋白質(zhì)在特性上表現(xiàn)出優(yōu)于目標(biāo)蛋白質(zhì)的改良。
5、在一個(gè)實(shí)施例中,蛋白質(zhì)特征是穩(wěn)定性。在一個(gè)實(shí)施例中,所述步驟包括重新編譯折疊氨基酸序列的至少一個(gè)氨基酸序列以產(chǎn)生更新的三維模型。在一個(gè)實(shí)施例中,所述步驟包括在重新編譯之前向折疊氨基酸序列的至少一個(gè)氨基酸序列添加特征的空間排列。
6、在另一方面,本發(fā)明涉及包含secbfp2變體的蛋白質(zhì),該變體相對(duì)于全長(zhǎng)野生型secbfp2在選自t18、s28、y96、s114、v124、t127、d151、n173和r198的一個(gè)或多個(gè)殘基處具有一個(gè)或多個(gè)突變。在一個(gè)實(shí)施例中,該蛋白質(zhì)包含secbfp2變體,該變體包含seq?id?no:2至seq?id?no:28中的一個(gè)的氨基酸序列。在一個(gè)實(shí)施例中,secbfp2變體包含seq?id?no:2至seq?id?no:28中的一個(gè)的氨基酸序列的變體。在一個(gè)實(shí)施例中,secbfp2變體包含融合蛋白,該融合蛋白包含seq?id?no:2至seq?id?no:28中的一個(gè)的氨基酸序列。在一個(gè)實(shí)施例中,bfp包含seq?id?no:2至seq?id?no:28中的一個(gè)的氨基酸序列的片段。
7、在另一方面,本發(fā)明涉及包含核苷酸序列的核酸分子,該核苷酸序列編碼包含secbfp2變體的蛋白質(zhì)。在一個(gè)實(shí)施例中,核苷酸序列編碼如seq?id?no:2至seq?id?no:28中所述的氨基酸序列、其變體、其融合蛋白或其片段。在一個(gè)實(shí)施例中,該分子為質(zhì)粒。在一個(gè)實(shí)施例中,該分子是表達(dá)載體。在一個(gè)實(shí)施例中,核酸分子還包含用于插入異源蛋白質(zhì)編碼序列的多克隆位點(diǎn)。在另一方面,本發(fā)明包括:包含上述蛋白質(zhì)的組合物、包含上述核酸分子的組合物、包含上述蛋白質(zhì)或上述核酸分子的試劑盒。