一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法

文檔序號：6432385閱讀：654來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種計算生物學(xué)計算領(lǐng)域，具體地說是一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法。
背景技術(shù)：
在后基因組時代，生物大分子之間的相互作用受到越來越多的關(guān)注，理解不同生物分子單體是如何共同作用的需要用到復(fù)合物的結(jié)構(gòu)知識。然而，生物分子復(fù)合物預(yù)計的數(shù)量將比蛋白質(zhì)組中蛋白分子數(shù)量至少高一個數(shù)量級，而他們中難以用經(jīng)典方法，比如核磁共振和X射線晶體衍射等進(jìn)行研究。因而在需要做基于結(jié)構(gòu)的復(fù)合物三維結(jié)構(gòu)預(yù)測時，對接這樣的計算方法就顯得非常重要。分子對接(molecular docking)是分子模擬的重要方法之一，其本質(zhì)是兩個或多個分子之間的識別過程，其過程涉及分子之間的空間匹配和能量匹配。分子對接的程序會產(chǎn)生大量的對接復(fù)合物構(gòu)象，如何從這些構(gòu)象中挑選出接近天然構(gòu)象(真實構(gòu)象，native structure)的復(fù)合物是分子對接中的難點(diǎn)，挑選天然構(gòu)象這一過程通過打分函數(shù)來實現(xiàn)，所以，在分子對接中如何構(gòu)造打分函數(shù)來有效地區(qū)分正確與錯誤結(jié)合模式一直是人們研究的難點(diǎn)。目前大部分蛋白質(zhì)-蛋白質(zhì)對接算法使用的打分函數(shù)或是基于幾何互補(bǔ)性，或是基于簡單的分子勢能函數(shù)。然而在很多情況下，簡單的幾何互補(bǔ)或是分子勢能函數(shù)都不能對近天然和錯誤結(jié)合模式做出很好的區(qū)分。針對以上的情況，我們將現(xiàn)有的對接程序進(jìn)行組合，首先應(yīng)用多種打分函數(shù)進(jìn)行初步篩選，篩選到一定數(shù)量的復(fù)合物我們再次進(jìn)行分子對接，得到的候選復(fù)合物群進(jìn)行基于兩兩蛋白之間的結(jié)構(gòu)相似性進(jìn)行聚類分析，聚類后的蛋白群，選擇一定數(shù)量的復(fù)合物再次進(jìn)行打分函數(shù)篩選，我們將打分函數(shù)進(jìn)行優(yōu)化，我們結(jié)合ENDES的篩選方法，再結(jié)合DDFIRE進(jìn)行格點(diǎn)搜索(grid search)，通過搜索我們選定了合適的參數(shù)，從而確定了新的打分函數(shù)，我們命名為Sped，該打分函數(shù)能夠很好的區(qū)分蛋白質(zhì)復(fù)合物的近天然和錯誤結(jié)合模式，大大提高了篩選的效率。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法。本發(fā)明的目的是按以下方式實現(xiàn)的，使用大分子對接的軟件3DD0CK，ZDOCK ，R0SETTA進(jìn)行全局采樣；對采樣得到的蛋白質(zhì)復(fù)合物群使用DOPE，RAPDF, DDFIRE打分函數(shù)進(jìn)行篩選，過濾掉大部分蛋白復(fù)合物；對篩選得到的復(fù)合物進(jìn)行第二次分子對接，既第二次采樣；采樣得到的蛋白質(zhì)復(fù)合物進(jìn)行聚類分析，聚類后使用我們設(shè)計的打分函數(shù)Sped進(jìn)行第二輪的篩選；通過組合不同的對接軟件以及多輪對接和多種打分的方法，篩選出較多的目標(biāo)復(fù)合物；
3具體步驟如下
1)從蛋白質(zhì)-蛋白質(zhì)對接的數(shù)據(jù)庫下載benchmark數(shù)據(jù)庫
http://zlab.bu. edu/benchmark/，下載得到的每一對蛋白質(zhì)包含一個分子量較大的受體分子和一個分子量較小配體分子，以及通過實驗方式獲得的相對應(yīng)的蛋白質(zhì)復(fù)合物 (我們將實驗獲得蛋白質(zhì)復(fù)合結(jié)構(gòu)物稱為native structure).2)全局采樣
使用分子對接軟件3DD0CK，ZDOCK, R0SETTA三種大分子對接的軟件進(jìn)行全局采樣。針對每一對蛋白質(zhì)分子，我們將其中的配體分子使用3DD0CK中的randomposin程序產(chǎn)生三種隨機(jī)的構(gòu)象，每一對蛋白分子通過對接程序再產(chǎn)生3000種構(gòu)象，所以每一對蛋白質(zhì)共有 9000個構(gòu)象。3)初次打分篩選
對通過全局采樣得到的9000個蛋白質(zhì)復(fù)合物利用已經(jīng)報道的三種打分函數(shù) (DOPE, RAPDF, DDFIRE)進(jìn)行篩選，利用得分值的高低將一部分蛋白質(zhì)復(fù)合物過濾掉。選擇部分構(gòu)象進(jìn)行下一步運(yùn)算。4) 二次對接
將第三步篩選產(chǎn)生的復(fù)合物再次利用上述的三種對接方法進(jìn)行全局采樣，得到候選分子群。5) 二次對接復(fù)合物的聚類分析(clustering)
將第四步得到的復(fù)合物進(jìn)行聚類分析。此處的聚類分析是蛋白質(zhì)復(fù)合物結(jié)構(gòu)相似性的兩兩比較，兩個蛋白復(fù)合物之間結(jié)構(gòu)相似度較高的歸為一類。通過聚類分析每一對蛋白質(zhì)對接產(chǎn)生的所有構(gòu)象被分為不同的類，每一類我們稱為一簇，每一簇中包含著數(shù)目不等的結(jié)構(gòu)類似的構(gòu)象。第一簇包含的構(gòu)象數(shù)目是最多的。6) 二次打分篩選
將第五步聚類分析得到的前幾簇的構(gòu)象群作為篩選目標(biāo)，利用我們設(shè)計的打分函數(shù) Sped進(jìn)行篩選。本發(fā)明的方法和現(xiàn)有技術(shù)相比，不同之處在于它組合了多種不同的對接方法；同時利用多種方法方法進(jìn)行篩選，包含打分函數(shù)和聚類分析的方法；最為突出的一點(diǎn)是設(shè)計了一種新的打分函數(shù)，能夠較高效率地區(qū)分接近天然結(jié)合模式的復(fù)合物和錯誤結(jié)合模式的復(fù)合物，能夠從候選分子群中挑選得到更多的接近天然結(jié)合模式的復(fù)合物目標(biāo)分子復(fù)合物。該方法設(shè)計組合了不同的對接方法，幾乎能夠滿足不同類型蛋白質(zhì)復(fù)合物的需求；另外幾種打分函數(shù)的組合也能揚(yáng)長避短，發(fā)揮各自優(yōu)勢，提高篩選效率。

圖1:本發(fā)明的實施步驟圖
圖2 三種打分函數(shù)比較圖(DOPE，DDFIRE，RAPDF)，橫坐標(biāo)是候選分子與天然構(gòu)象結(jié)構(gòu)比較所得L-RMSD (ligad-RMSD)，縱坐標(biāo)是打分函數(shù)所得的能量值；
圖3 使用DDFIRE和Sped打分前200的候選群中，能量值和RMSD的比較結(jié)果圖；圖4為表1 采用本發(fā)明對benchmark數(shù)據(jù)庫中，幾種蛋白使用Sped打分，ddfire打分，分值前200中hits數(shù)的統(tǒng)計。
具體實施例方式參照說明書附圖對本發(fā)明的方法作以下詳細(xì)地說明。一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法，本發(fā)明的構(gòu)思時這樣的我們組合幾種不同的分子對接方法，經(jīng)過不同打分函數(shù)的篩選，選擇一定數(shù)目的蛋白質(zhì)復(fù)合物，再進(jìn)行新一輪的分子對接，對接得到的復(fù)合物再進(jìn)行基于結(jié)構(gòu)相似性聚類分析。聚類分析可以將結(jié)構(gòu)相近的復(fù)合物歸為一類，我們選擇同一類復(fù)合物群中構(gòu)象最多的幾組使用我們設(shè)計的打分函數(shù)進(jìn)行篩選。該打分函數(shù)組合了 ENDES打分函數(shù)和DDFIRE的打分函數(shù)。ENDES的打分函數(shù)考慮了蛋白質(zhì)結(jié)構(gòu)傾向性和蛋白質(zhì)進(jìn)化信息，DDFIRE是一種基于統(tǒng)計能量的打分，我們組合ENDES中的兩項和DDFIRE的總打分值，共三項得分進(jìn)行格點(diǎn)搜索(grid search), 搜索在哪一種參數(shù)組合下能夠從蛋白質(zhì)復(fù)合物群中挑選出最多的近天然構(gòu)象。本發(fā)明的優(yōu)點(diǎn)在于我們組合了多種剛性對接的方法，不同對接方法使用的算法不同，針對不同類型的蛋白質(zhì)，這些方法之間可以互相補(bǔ)充，發(fā)揮各自優(yōu)勢，從而避免了使用一種對接方法的局限性。此外，在打分函數(shù)的選擇方面我們綜合考慮，選擇基于知識的打分和基于統(tǒng)計的打分函數(shù)進(jìn)行復(fù)合物候選分子的挑選；此外，我們還利用現(xiàn)有的打分函數(shù)，使用格點(diǎn)搜索的方法設(shè)計出了新的打分函數(shù)，該打分函數(shù)能夠從候選分子群中獲得較多的接近天然構(gòu)象的復(fù)合物，有較好的效果。這一套蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法是之前未使用過的，較之前的方法相比，也有較好的篩選效率。方法步驟如下
1)從蛋白質(zhì)-蛋白質(zhì)對接的benchmark數(shù)據(jù)庫下載蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)，得到的部分蛋白質(zhì)結(jié)構(gòu)不是完整結(jié)構(gòu)，缺少部分殘基，通過同源模建方法構(gòu)建完整結(jié)構(gòu)。2)全局采樣
每對蛋白質(zhì)包含受體分子(分子量較大)和配體分子(分子量較小)，使用3DD0CK程序中的randomposin模塊，針對每個配體分子，隨機(jī)產(chǎn)生三個任意構(gòu)象 2. 1) 3DD0CK
使用process-pdb. perl程序?qū)κ荏w和配體分子進(jìn)行處理，去除氫原子和0ΧΤ。然后使用FTDOCK程序，采用幾何互補(bǔ)和靜電勢互補(bǔ)的方法，進(jìn)行全局掃描，格點(diǎn)單元設(shè)定為0. 7A，表面厚度1.3 A，旋轉(zhuǎn)角度9°。一般將分子量較大的分子稱為受體，受體(酶或者抗原)，設(shè)定為靜態(tài)分子，分子量較小的定為配體(底物或抗體)，設(shè)定為動態(tài)分子。隨后使用rpscore 進(jìn)行打分，rpscore利用的是殘基對勢能打分函數(shù)。使用3D-D0CK的build程序，每一輪產(chǎn)生1000個復(fù)合物分子，由于選擇了三種起始構(gòu)象，共有3000的分子。2. 2) ZDOCK
使用ZD0CK3. 0. 1程序，旋轉(zhuǎn)采樣參數(shù)設(shè)為6°，每一初始構(gòu)象產(chǎn)生1000個候選分子，共 3000 個。2. 3) R0SETTA
Rosetta-dock是Rosetta軟件中的一個程序，使用蒙特卡羅算法進(jìn)行全局采樣，打分函數(shù)考慮L-J勢能函數(shù)，溶劑化能等，每一初始構(gòu)象產(chǎn)生1000個候選分子，共3000個。經(jīng)過3D-D0CK, ZD0CK, R0SETTA-D0CK后每一組蛋白共產(chǎn)生9000個候選復(fù)合物，對接復(fù)合物的質(zhì)量通過計算這些復(fù)合物與天然復(fù)合物的配體-均方根偏差(L-RMSD, ligand-rmsd, root mean square deviation) iitfi^i古。l^felStiMS ^·，以天然復(fù)合物的受體部分的坐標(biāo)為基準(zhǔn)校正(alignment)候選復(fù)合物分子的受體坐標(biāo)，然后計算配體分子Ca原子的RMSD，L-RMSD<10A的稱為目標(biāo)分子(hit)。3)第一輪打分函數(shù)篩選
針對全局采樣后產(chǎn)生的數(shù)百萬的對接構(gòu)象，在用精細(xì)的能量函數(shù)打分之前，如何對這些結(jié)構(gòu)進(jìn)行初步篩選以得到盡可能多的近天然構(gòu)象是目前方法研究中極具挑戰(zhàn)性的問題。在實驗中我們使用幾種不同的打分函數(shù)進(jìn)行篩選。得到的9000個復(fù)合物分子我們使用基于知識的打分函數(shù)或者稱為統(tǒng)計能量打分進(jìn)行篩選，統(tǒng)計能量打分由于簡單性，準(zhǔn)確性，計算的高效性被廣泛應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)對接中。選擇三種不同的打分函數(shù)進(jìn)行篩選，這三種打分函數(shù)分別是 DOPE (Discrete Optimized Protein Energy), RAPDF, DDFIRE0我們發(fā)現(xiàn)不同對接軟件得到的復(fù)合物候選群使用同一打分函數(shù)時得分值差別比較大，所以我們將不同對接軟件得到的候選群分別進(jìn)行打分。通過比較這幾種打分函數(shù)，我們發(fā)現(xiàn)使用DDFIRE的打分，能夠篩選出較多的接近native的結(jié)構(gòu)，見圖2 (我們調(diào)研了多個蛋白質(zhì)復(fù)合物群，綜合比較，DDFIRE有較高的篩選效率，其他蛋白質(zhì)打分函數(shù)-RMSD數(shù)據(jù)未列出)。由于DDFIRE打分函數(shù)的效果優(yōu)于RAPDF和DOPE，所以，我們選出同一款軟件DDFIRE 得分前3的構(gòu)象，共計9個初始構(gòu)象進(jìn)行下一輪的研究。4) 二次篩選
使用上一步篩選得到的9個復(fù)合物再次利用上述的三種對接方法進(jìn)行全局采樣，每個軟件每個復(fù)合物生成1000個對接復(fù)合物，三種軟件，每對復(fù)合物9個初始構(gòu)象，所以每對復(fù)合物共計27000個構(gòu)象。5)聚類分析(clustering)
上一步得到的27000個復(fù)合物進(jìn)行clustering的分析，clustering是通過計算兩個蛋白之間RMSD來比較結(jié)構(gòu)的差異，通過兩兩比較將結(jié)構(gòu)較為相近的歸為一類，稱為一簇，在一簇內(nèi)的一個蛋白與其他蛋白相比較結(jié)構(gòu)差異都較小的稱為這一簇的中心分子，即 clustering center.聚類分析會將27000個構(gòu)象分成不同的簇，經(jīng)過多次的實驗發(fā)現(xiàn)，一般前幾簇構(gòu)象數(shù)目是最多的，同時也能夠包含較多的接近native的構(gòu)象，所以，我們選擇 clustering中前幾簇進(jìn)行下一步的分析。6)打分函數(shù)設(shè)計
我們使用DDFIRE和Siou Yao Qi工作組最近開發(fā)的ENDES的打分方法中的兩項，進(jìn)行格點(diǎn)搜索(grid search). ENDES的兩項分別是蛋白趨向性打分(propensity)和保守性打分。在進(jìn)行g(shù)rid search的時候使用三項進(jìn)行，DDFIRE的總能量固定系數(shù)為1，其他的兩項ENDES中的蛋白趨向性打分(propensity)和保守性打分(conserved)設(shè)定為0. 05，從0 遞增到100。經(jīng)過grid search后，發(fā)現(xiàn)系數(shù)為20時候有較好的效果，我們將優(yōu)化后的打分函數(shù)定義為Sped，優(yōu)化后的方法較之前單獨(dú)使用DDFIRE結(jié)果好，結(jié)果如圖3、表1所示。圖3列出的是使用ddfire和使用優(yōu)化后的打分函數(shù)，打分值前200和相應(yīng)的RMSD的散點(diǎn)圖，可以很明顯的看出使用優(yōu)化后的打分函數(shù)在能量值較低時相應(yīng)的RMSD也是較低的。表 1，幾種蛋白使用Sped打分，ddfire打分，分值前200中hits數(shù)的統(tǒng)計，從統(tǒng)計結(jié)果來看，使用Sped打分能夠篩選出較多的hits (接近native的結(jié)構(gòu))。a是ENDES打分函數(shù)中蛋白質(zhì)結(jié)構(gòu)趨向性系數(shù)，b為ENDES中蛋白質(zhì)保守性系數(shù)，DDFIRE的系數(shù)固定為1，grid search的目的是找出a，b兩個系數(shù)的最佳值，在最佳值下，相應(yīng)的打分函數(shù)能夠使得我們從候選分子群中挑選出最多的接近天然結(jié)構(gòu)的構(gòu)象，從而確定打分函數(shù)。除說明書所述的技術(shù)特征外，均為本專業(yè)技術(shù)人員的已知技術(shù)。
權(quán)利要求
1. 一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法，其特征在于使用大分子對接的軟件3DD0CK，ZDOCK，R0SETTA進(jìn)行全局采樣；對采樣得到的蛋白質(zhì)復(fù)合物群使用 DOPE, RAPDF, DDFIRE打分函數(shù)進(jìn)行篩選，過濾掉大部分蛋白復(fù)合物；對篩選得到的復(fù)合物進(jìn)行第二次分子對接，既第二次采樣；采樣得到的蛋白質(zhì)復(fù)合物進(jìn)行聚類分析，聚類后使用我們設(shè)計的打分函數(shù)Sped進(jìn)行第二輪的篩選；通過組合不同的對接軟件以及多輪對接和多種打分的方法，篩選出較多的目標(biāo)復(fù)合物；具體步驟如下1)從蛋白質(zhì)-蛋白質(zhì)對接的數(shù)據(jù)庫下載benchmark數(shù)據(jù)庫http //zlab. bu. edu/benchmark/，下載得到的每一對蛋白質(zhì)包含一個分子量較大的受體分子和一個分子量較小配體分子，以及通過實驗方式獲得的相對應(yīng)的蛋白質(zhì)復(fù)合物 (我們將實驗獲得蛋白質(zhì)復(fù)合結(jié)構(gòu)物稱為native structure ；2)全局采樣使用分子對接軟件3DD0CK，ZDOCK, R0SETTA三種大分子對接的軟件進(jìn)行全局采樣；針對每一對蛋白質(zhì)分子，我們將其中的配體分子使用3DD0CK中的randomposin程序產(chǎn)生三種隨機(jī)的構(gòu)象，每一對蛋白分子通過對接程序再產(chǎn)生3000種構(gòu)象，所以每一對蛋白質(zhì)共有 9000個構(gòu)象；3)初次打分篩選對通過全局采樣得到的9000個蛋白質(zhì)復(fù)合物利用已經(jīng)報道的三種打分函數(shù) DOPE, RAPDF, DDFIRE進(jìn)行篩選，利用得分值的高低將一部分蛋白質(zhì)復(fù)合物過濾掉；選擇部分構(gòu)象進(jìn)行下一步運(yùn)算；4)二次對接將第三步篩選產(chǎn)生的復(fù)合物再次利用上述的三種對接方法進(jìn)行全局采樣，得到候選分子群；5)二次對接復(fù)合物的聚類分析clustering ；將第四步得到的復(fù)合物進(jìn)行聚類分析，此處的聚類分析是蛋白質(zhì)復(fù)合物結(jié)構(gòu)相似性的兩兩比較，兩個蛋白復(fù)合物之間結(jié)構(gòu)相似度較高的歸為一類，通過聚類分析每一對蛋白質(zhì)對接產(chǎn)生的所有構(gòu)象被分為不同的類，每一類我們稱為一簇，每一簇中包含著數(shù)目不等的結(jié)構(gòu)類似的構(gòu)象，第一簇包含的構(gòu)象數(shù)目是最多的；6)二次打分篩選將第五步聚類分析得到的前幾簇的構(gòu)象群作為篩選目標(biāo)，再利用設(shè)計的打分函數(shù)Sped 進(jìn)行篩選。
全文摘要
一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法，主要包括如下流程下載蛋白質(zhì)對接benchmark數(shù)據(jù)庫；使用大分子對接的軟件3DDOCK,ZDOCK,ROSETTA進(jìn)行全局采樣；對采樣得到的蛋白質(zhì)復(fù)合物群使用DOPE,RAPDF,DDFIRE打分函數(shù)進(jìn)行篩選，過濾掉大部分蛋白復(fù)合物；對篩選得到的復(fù)合物進(jìn)行第二次分子對接，既第二次采樣；采樣得到的蛋白質(zhì)復(fù)合物進(jìn)行聚類分析，聚類后使用我們設(shè)計的打分函數(shù)Spcd進(jìn)行第二輪的篩選；通過組合不同的對接軟件以及多輪對接和多種打分的方法，篩選出較多的目標(biāo)復(fù)合物。我們設(shè)計的打分函數(shù)Spcd能夠較高效率地區(qū)分接近天然結(jié)合模式的復(fù)合物和錯誤結(jié)合模式的復(fù)合物，能夠得到更多的目標(biāo)分子復(fù)合物，這是本發(fā)明最為突出的一點(diǎn)。
文檔編號G06F19/10GK102314560SQ201110259800
公開日2012年1月11日申請日期2011年9月5日優(yōu)先權(quán)日2011年9月5日
發(fā)明者金蓮申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金蓮
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司
我是此專利的發(fā)明人

上一篇：投影系統(tǒng)及其更新方法
上一篇：Numa體系結(jié)構(gòu)下面向容錯的操作系統(tǒng)內(nèi)存管理方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

蛋白質(zhì)分子量計算相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法