專利名稱:一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計算生物學(xué)計算領(lǐng)域,具體地說是一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法。
背景技術(shù):
在后基因組時代,生物大分子之間的相互作用受到越來越多的關(guān)注,理解不同生物分子單體是如何共同作用的需要用到復(fù)合物的結(jié)構(gòu)知識。然而,生物分子復(fù)合物預(yù)計的數(shù)量將比蛋白質(zhì)組中蛋白分子數(shù)量至少高一個數(shù)量級,而他們中難以用經(jīng)典方法,比如核磁共振和X射線晶體衍射等進(jìn)行研究。因而在需要做基于結(jié)構(gòu)的復(fù)合物三維結(jié)構(gòu)預(yù)測時, 對接這樣的計算方法就顯得非常重要。分子對接(molecular docking)是分子模擬的重要方法之一,其本質(zhì)是兩個或多個分子之間的識別過程,其過程涉及分子之間的空間匹配和能量匹配。分子對接的程序會產(chǎn)生大量的對接復(fù)合物構(gòu)象,如何從這些構(gòu)象中挑選出接近天然構(gòu)象(真實構(gòu)象,native structure)的復(fù)合物是分子對接中的難點(diǎn),挑選天然構(gòu)象這一過程通過打分函數(shù)來實現(xiàn), 所以,在分子對接中如何構(gòu)造打分函數(shù)來有效地區(qū)分正確與錯誤結(jié)合模式一直是人們研究的難點(diǎn)。目前大部分蛋白質(zhì)-蛋白質(zhì)對接算法使用的打分函數(shù)或是基于幾何互補(bǔ)性,或是基于簡單的分子勢能函數(shù)。然而在很多情況下,簡單的幾何互補(bǔ)或是分子勢能函數(shù)都不能對近天然和錯誤結(jié)合模式做出很好的區(qū)分。針對以上的情況,我們將現(xiàn)有的對接程序進(jìn)行組合,首先應(yīng)用多種打分函數(shù)進(jìn)行初步篩選,篩選到一定數(shù)量的復(fù)合物我們再次進(jìn)行分子對接,得到的候選復(fù)合物群進(jìn)行基于兩兩蛋白之間的結(jié)構(gòu)相似性進(jìn)行聚類分析,聚類后的蛋白群,選擇一定數(shù)量的復(fù)合物再次進(jìn)行打分函數(shù)篩選,我們將打分函數(shù)進(jìn)行優(yōu)化,我們結(jié)合ENDES的篩選方法,再結(jié)合DDFIRE進(jìn)行格點(diǎn)搜索(grid search),通過搜索我們選定了合適的參數(shù),從而確定了新的打分函數(shù),我們命名為Sped,該打分函數(shù)能夠很好的區(qū)分蛋白質(zhì)復(fù)合物的近天然和錯誤結(jié)合模式,大大提高了篩選的效率。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法。本發(fā)明的目的是按以下方式實現(xiàn)的,使用大分子對接的軟件3DD0CK,ZDOCK ,R0SETTA進(jìn)行全局采樣;對采樣得到的蛋白質(zhì)復(fù)合物群使用DOPE,RAPDF, DDFIRE打分函數(shù)進(jìn)行篩選,過濾掉大部分蛋白復(fù)合物;對篩選得到的復(fù)合物進(jìn)行第二次分子對接,既第二次采樣;采樣得到的蛋白質(zhì)復(fù)合物進(jìn)行聚類分析,聚類后使用我們設(shè)計的打分函數(shù)Sped進(jìn)行第二輪的篩選;通過組合不同的對接軟件以及多輪對接和多種打分的方法,篩選出較多的目標(biāo)復(fù)合物;
3具體步驟如下
1)從蛋白質(zhì)-蛋白質(zhì)對接的數(shù)據(jù)庫下載benchmark數(shù)據(jù)庫
http://zlab.bu. edu/benchmark/,下載得到的每一對蛋白質(zhì)包含一個分子量較大的受體分子和一個分子量較小配體分子,以及通過實驗方式獲得的相對應(yīng)的蛋白質(zhì)復(fù)合物 (我們將實驗獲得蛋白質(zhì)復(fù)合結(jié)構(gòu)物稱為native structure).2)全局采樣
使用分子對接軟件3DD0CK,ZDOCK, R0SETTA三種大分子對接的軟件進(jìn)行全局采樣。針對每一對蛋白質(zhì)分子,我們將其中的配體分子使用3DD0CK中的randomposin程序產(chǎn)生三種隨機(jī)的構(gòu)象,每一對蛋白分子通過對接程序再產(chǎn)生3000種構(gòu)象,所以每一對蛋白質(zhì)共有 9000個構(gòu)象。3)初次打分篩選
對通過全局采樣得到的9000個蛋白質(zhì)復(fù)合物利用已經(jīng)報道的三種打分函數(shù) (DOPE, RAPDF, DDFIRE)進(jìn)行篩選,利用得分值的高低將一部分蛋白質(zhì)復(fù)合物過濾掉。選擇部分構(gòu)象進(jìn)行下一步運(yùn)算。4) 二次對接
將第三步篩選產(chǎn)生的復(fù)合物再次利用上述的三種對接方法進(jìn)行全局采樣,得到候選分子群。5) 二次對接復(fù)合物的聚類分析(clustering)
將第四步得到的復(fù)合物進(jìn)行聚類分析。此處的聚類分析是蛋白質(zhì)復(fù)合物結(jié)構(gòu)相似性的兩兩比較,兩個蛋白復(fù)合物之間結(jié)構(gòu)相似度較高的歸為一類。通過聚類分析每一對蛋白質(zhì)對接產(chǎn)生的所有構(gòu)象被分為不同的類,每一類我們稱為一簇,每一簇中包含著數(shù)目不等的結(jié)構(gòu)類似的構(gòu)象。第一簇包含的構(gòu)象數(shù)目是最多的。6) 二次打分篩選
將第五步聚類分析得到的前幾簇的構(gòu)象群作為篩選目標(biāo),利用我們設(shè)計的打分函數(shù) Sped進(jìn)行篩選。本發(fā)明的方法和現(xiàn)有技術(shù)相比,不同之處在于它組合了多種不同的對接方法;同時利用多種方法方法進(jìn)行篩選,包含打分函數(shù)和聚類分析的方法;最為突出的一點(diǎn)是設(shè)計了一種新的打分函數(shù),能夠較高效率地區(qū)分接近天然結(jié)合模式的復(fù)合物和錯誤結(jié)合模式的復(fù)合物,能夠從候選分子群中挑選得到更多的接近天然結(jié)合模式的復(fù)合物目標(biāo)分子復(fù)合物。該方法設(shè)計組合了不同的對接方法,幾乎能夠滿足不同類型蛋白質(zhì)復(fù)合物的需求;另外幾種打分函數(shù)的組合也能揚(yáng)長避短,發(fā)揮各自優(yōu)勢,提高篩選效率。
圖1:本發(fā)明的實施步驟圖
圖2 三種打分函數(shù)比較圖(DOPE,DDFIRE,RAPDF),橫坐標(biāo)是候選分子與天然構(gòu)象結(jié)構(gòu)比較所得L-RMSD (ligad-RMSD),縱坐標(biāo)是打分函數(shù)所得的能量值;
圖3 使用DDFIRE和Sped打分前200的候選群中,能量值和RMSD的比較結(jié)果圖; 圖4為表1 采用本發(fā)明對benchmark數(shù)據(jù)庫中,幾種蛋白使用Sped打分,ddfire打分,分值前200中hits數(shù)的統(tǒng)計。
具體實施例方式參照說明書附圖對本發(fā)明的方法作以下詳細(xì)地說明。一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法,本發(fā)明的構(gòu)思時這樣的我們組合幾種不同的分子對接方法,經(jīng)過不同打分函數(shù)的篩選,選擇一定數(shù)目的蛋白質(zhì)復(fù)合物,再進(jìn)行新一輪的分子對接,對接得到的復(fù)合物再進(jìn)行基于結(jié)構(gòu)相似性聚類分析。聚類分析可以將結(jié)構(gòu)相近的復(fù)合物歸為一類,我們選擇同一類復(fù)合物群中構(gòu)象最多的幾組使用我們設(shè)計的打分函數(shù)進(jìn)行篩選。該打分函數(shù)組合了 ENDES打分函數(shù)和DDFIRE的打分函數(shù)。ENDES的打分函數(shù)考慮了蛋白質(zhì)結(jié)構(gòu)傾向性和蛋白質(zhì)進(jìn)化信息,DDFIRE是一種基于統(tǒng)計能量的打分, 我們組合ENDES中的兩項和DDFIRE的總打分值,共三項得分進(jìn)行格點(diǎn)搜索(grid search), 搜索在哪一種參數(shù)組合下能夠從蛋白質(zhì)復(fù)合物群中挑選出最多的近天然構(gòu)象。本發(fā)明的優(yōu)點(diǎn)在于我們組合了多種剛性對接的方法,不同對接方法使用的算法不同,針對不同類型的蛋白質(zhì),這些方法之間可以互相補(bǔ)充,發(fā)揮各自優(yōu)勢,從而避免了使用一種對接方法的局限性。此外,在打分函數(shù)的選擇方面我們綜合考慮,選擇基于知識的打分和基于統(tǒng)計的打分函數(shù)進(jìn)行復(fù)合物候選分子的挑選;此外,我們還利用現(xiàn)有的打分函數(shù), 使用格點(diǎn)搜索的方法設(shè)計出了新的打分函數(shù),該打分函數(shù)能夠從候選分子群中獲得較多的接近天然構(gòu)象的復(fù)合物,有較好的效果。這一套蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法是之前未使用過的,較之前的方法相比,也有較好的篩選效率。方法步驟如下
1)從蛋白質(zhì)-蛋白質(zhì)對接的benchmark數(shù)據(jù)庫下載蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù),得到的部分蛋白質(zhì)結(jié)構(gòu)不是完整結(jié)構(gòu),缺少部分殘基,通過同源模建方法構(gòu)建完整結(jié)構(gòu)。2)全局采樣
每對蛋白質(zhì)包含受體分子(分子量較大)和配體分子(分子量較小),使用3DD0CK程序中的randomposin模塊,針對每個配體分子,隨機(jī)產(chǎn)生三個任意構(gòu)象 2. 1) 3DD0CK
使用process-pdb. perl程序?qū)κ荏w和配體分子進(jìn)行處理,去除氫原子和0ΧΤ。然后使用FTDOCK程序,采用幾何互補(bǔ)和靜電勢互補(bǔ)的方法,進(jìn)行全局掃描,格點(diǎn)單元設(shè)定為0. 7A, 表面厚度1.3 A,旋轉(zhuǎn)角度9°。一般將分子量較大的分子稱為受體,受體(酶或者抗原),設(shè)定為靜態(tài)分子,分子量較小的定為配體(底物或抗體),設(shè)定為動態(tài)分子。隨后使用rpscore 進(jìn)行打分,rpscore利用的是殘基對勢能打分函數(shù)。使用3D-D0CK的build程序,每一輪產(chǎn)生1000個復(fù)合物分子,由于選擇了三種起始構(gòu)象,共有3000的分子。2. 2) ZDOCK
使用ZD0CK3. 0. 1程序,旋轉(zhuǎn)采樣參數(shù)設(shè)為6°,每一初始構(gòu)象產(chǎn)生1000個候選分子,共 3000 個。2. 3) R0SETTA
Rosetta-dock是Rosetta軟件中的一個程序,使用蒙特卡羅算法進(jìn)行全局采樣,打分函數(shù)考慮L-J勢能函數(shù),溶劑化能等,每一初始構(gòu)象產(chǎn)生1000個候選分子,共3000個。經(jīng)過3D-D0CK, ZD0CK, R0SETTA-D0CK后每一組蛋白共產(chǎn)生9000個候選復(fù)合物,對接復(fù)合物的質(zhì)量通過計算這些復(fù)合物與天然復(fù)合物的配體-均方根偏差(L-RMSD, ligand-rmsd, root mean square deviation) iitfi^i古。l^felStiMS ^·, 以天然復(fù)合物的受體部分的坐標(biāo)為基準(zhǔn)校正(alignment)候選復(fù)合物分子的受體坐標(biāo),然后計算配體分子Ca原子的RMSD,L-RMSD<10A的稱為目標(biāo)分子(hit)。3)第一輪打分函數(shù)篩選
針對全局采樣后產(chǎn)生的數(shù)百萬的對接構(gòu)象,在用精細(xì)的能量函數(shù)打分之前,如何對這些結(jié)構(gòu)進(jìn)行初步篩選以得到盡可能多的近天然構(gòu)象是目前方法研究中極具挑戰(zhàn)性的問題。 在實驗中我們使用幾種不同的打分函數(shù)進(jìn)行篩選。得到的9000個復(fù)合物分子我們使用基于知識的打分函數(shù)或者稱為統(tǒng)計能量打分進(jìn)行篩選,統(tǒng)計能量打分由于簡單性,準(zhǔn)確性, 計算的高效性被廣泛應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測和蛋白質(zhì)對接中。選擇三種不同的打分函數(shù)進(jìn)行篩選,這三種打分函數(shù)分別是 DOPE (Discrete Optimized Protein Energy), RAPDF, DDFIRE0我們發(fā)現(xiàn)不同對接軟件得到的復(fù)合物候選群使用同一打分函數(shù)時得分值差別比較大,所以我們將不同對接軟件得到的候選群分別進(jìn)行打分。通過比較這幾種打分函數(shù),我們發(fā)現(xiàn)使用DDFIRE的打分,能夠篩選出較多的接近native的結(jié)構(gòu),見圖2 (我們調(diào)研了多個蛋白質(zhì)復(fù)合物群,綜合比較,DDFIRE有較高的篩選效率,其他蛋白質(zhì)打分函數(shù)-RMSD數(shù)據(jù)未列出)。由于DDFIRE打分函數(shù)的效果優(yōu)于RAPDF和DOPE,所以,我們選出同一款軟件DDFIRE 得分前3的構(gòu)象,共計9個初始構(gòu)象進(jìn)行下一輪的研究。4) 二次篩選
使用上一步篩選得到的9個復(fù)合物再次利用上述的三種對接方法進(jìn)行全局采樣,每個軟件每個復(fù)合物生成1000個對接復(fù)合物,三種軟件,每對復(fù)合物9個初始構(gòu)象,所以每對復(fù)合物共計27000個構(gòu)象。5)聚類分析(clustering)
上一步得到的27000個復(fù)合物進(jìn)行clustering的分析,clustering是通過計算兩個蛋白之間RMSD來比較結(jié)構(gòu)的差異,通過兩兩比較將結(jié)構(gòu)較為相近的歸為一類,稱為一簇,在一簇內(nèi)的一個蛋白與其他蛋白相比較結(jié)構(gòu)差異都較小的稱為這一簇的中心分子,即 clustering center.聚類分析會將27000個構(gòu)象分成不同的簇,經(jīng)過多次的實驗發(fā)現(xiàn),一般前幾簇構(gòu)象數(shù)目是最多的,同時也能夠包含較多的接近native的構(gòu)象,所以,我們選擇 clustering中前幾簇進(jìn)行下一步的分析。6)打分函數(shù)設(shè)計
我們使用DDFIRE和Siou Yao Qi工作組最近開發(fā)的ENDES的打分方法中的兩項,進(jìn)行格點(diǎn)搜索(grid search). ENDES的兩項分別是蛋白趨向性打分(propensity)和保守性打分。在進(jìn)行g(shù)rid search的時候使用三項進(jìn)行,DDFIRE的總能量固定系數(shù)為1,其他的兩項ENDES中的蛋白趨向性打分(propensity)和保守性打分(conserved)設(shè)定為0. 05,從0 遞增到100。經(jīng)過grid search后,發(fā)現(xiàn)系數(shù)為20時候有較好的效果,我們將優(yōu)化后的打分函數(shù)定義為Sped,優(yōu)化后的方法較之前單獨(dú)使用DDFIRE結(jié)果好,結(jié)果如圖3、表1所示。 圖3列出的是使用ddfire和使用優(yōu)化后的打分函數(shù),打分值前200和相應(yīng)的RMSD的散點(diǎn)圖,可以很明顯的看出使用優(yōu)化后的打分函數(shù)在能量值較低時相應(yīng)的RMSD也是較低的。表 1,幾種蛋白使用Sped打分,ddfire打分,分值前200中hits數(shù)的統(tǒng)計,從統(tǒng)計結(jié)果來看, 使用Sped打分能夠篩選出較多的hits (接近native的結(jié)構(gòu))。a是ENDES打分函數(shù)中蛋白質(zhì)結(jié)構(gòu)趨向性系數(shù),b為ENDES中蛋白質(zhì)保守性系數(shù),DDFIRE的系數(shù)固定為1,grid search的目的是找出a,b兩個系數(shù)的最佳值,在最佳值下, 相應(yīng)的打分函數(shù)能夠使得我們從候選分子群中挑選出最多的接近天然結(jié)構(gòu)的構(gòu)象,從而確定打分函數(shù)。 除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
權(quán)利要求
1. 一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法,其特征在于使用大分子對接的軟件3DD0CK,ZDOCK,R0SETTA進(jìn)行全局采樣;對采樣得到的蛋白質(zhì)復(fù)合物群使用 DOPE, RAPDF, DDFIRE打分函數(shù)進(jìn)行篩選,過濾掉大部分蛋白復(fù)合物;對篩選得到的復(fù)合物進(jìn)行第二次分子對接,既第二次采樣;采樣得到的蛋白質(zhì)復(fù)合物進(jìn)行聚類分析,聚類后使用我們設(shè)計的打分函數(shù)Sped進(jìn)行第二輪的篩選;通過組合不同的對接軟件以及多輪對接和多種打分的方法,篩選出較多的目標(biāo)復(fù)合物;具體步驟如下1)從蛋白質(zhì)-蛋白質(zhì)對接的數(shù)據(jù)庫下載benchmark數(shù)據(jù)庫http //zlab. bu. edu/benchmark/,下載得到的每一對蛋白質(zhì)包含一個分子量較大的受體分子和一個分子量較小配體分子,以及通過實驗方式獲得的相對應(yīng)的蛋白質(zhì)復(fù)合物 (我們將實驗獲得蛋白質(zhì)復(fù)合結(jié)構(gòu)物稱為native structure ;2)全局采樣使用分子對接軟件3DD0CK,ZDOCK, R0SETTA三種大分子對接的軟件進(jìn)行全局采樣;針對每一對蛋白質(zhì)分子,我們將其中的配體分子使用3DD0CK中的randomposin程序產(chǎn)生三種隨機(jī)的構(gòu)象,每一對蛋白分子通過對接程序再產(chǎn)生3000種構(gòu)象,所以每一對蛋白質(zhì)共有 9000個構(gòu)象;3)初次打分篩選對通過全局采樣得到的9000個蛋白質(zhì)復(fù)合物利用已經(jīng)報道的三種打分函數(shù) DOPE, RAPDF, DDFIRE進(jìn)行篩選,利用得分值的高低將一部分蛋白質(zhì)復(fù)合物過濾掉;選擇部分構(gòu)象進(jìn)行下一步運(yùn)算;4)二次對接將第三步篩選產(chǎn)生的復(fù)合物再次利用上述的三種對接方法進(jìn)行全局采樣,得到候選分子群;5)二次對接復(fù)合物的聚類分析clustering ;將第四步得到的復(fù)合物進(jìn)行聚類分析,此處的聚類分析是蛋白質(zhì)復(fù)合物結(jié)構(gòu)相似性的兩兩比較,兩個蛋白復(fù)合物之間結(jié)構(gòu)相似度較高的歸為一類,通過聚類分析每一對蛋白質(zhì)對接產(chǎn)生的所有構(gòu)象被分為不同的類,每一類我們稱為一簇,每一簇中包含著數(shù)目不等的結(jié)構(gòu)類似的構(gòu)象,第一簇包含的構(gòu)象數(shù)目是最多的;6)二次打分篩選將第五步聚類分析得到的前幾簇的構(gòu)象群作為篩選目標(biāo),再利用設(shè)計的打分函數(shù)Sped 進(jìn)行篩選。
全文摘要
一種蛋白質(zhì)-蛋白質(zhì)對接的計算模擬方法,主要包括如下流程下載蛋白質(zhì)對接benchmark數(shù)據(jù)庫;使用大分子對接的軟件3DDOCK,ZDOCK,ROSETTA進(jìn)行全局采樣;對采樣得到的蛋白質(zhì)復(fù)合物群使用DOPE,RAPDF,DDFIRE打分函數(shù)進(jìn)行篩選,過濾掉大部分蛋白復(fù)合物;對篩選得到的復(fù)合物進(jìn)行第二次分子對接,既第二次采樣;采樣得到的蛋白質(zhì)復(fù)合物進(jìn)行聚類分析,聚類后使用我們設(shè)計的打分函數(shù)Spcd進(jìn)行第二輪的篩選;通過組合不同的對接軟件以及多輪對接和多種打分的方法,篩選出較多的目標(biāo)復(fù)合物。我們設(shè)計的打分函數(shù)Spcd能夠較高效率地區(qū)分接近天然結(jié)合模式的復(fù)合物和錯誤結(jié)合模式的復(fù)合物,能夠得到更多的目標(biāo)分子復(fù)合物,這是本發(fā)明最為突出的一點(diǎn)。
文檔編號G06F19/10GK102314560SQ201110259800
公開日2012年1月11日 申請日期2011年9月5日 優(yōu)先權(quán)日2011年9月5日
發(fā)明者金蓮 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司