服了傳統(tǒng)方法的缺點(diǎn),而且具有快速和高效等特點(diǎn),在蛋白組學(xué)研究中具有重 要的實(shí)際應(yīng)用意義。
[0048] 本發(fā)明的蛋白質(zhì)功能識(shí)別方法中,構(gòu)建了節(jié)點(diǎn)和邊加權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò), 通過(guò)引入節(jié)點(diǎn)權(quán)重和邊權(quán)重,解決克服了現(xiàn)有方法通常只把蛋白質(zhì)考慮為一個(gè)單純的數(shù)學(xué) 上的節(jié)點(diǎn),忽視了蛋白質(zhì)的物理化學(xué)等性質(zhì),并且沒(méi)有考慮來(lái)自于實(shí)驗(yàn)的蛋白質(zhì)相互作用 數(shù)據(jù)的假陽(yáng)性問(wèn)題。
[0049] 同時(shí),本發(fā)明從蛋白質(zhì)相互作用網(wǎng)絡(luò)方面提出了新的具有全局和局部拓?fù)浣Y(jié)構(gòu)信 息的蛋白質(zhì)表征方法,本發(fā)明的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征相對(duì)于傳統(tǒng)的功能域組成和本體論組成 等蛋白質(zhì)表征方法,具有顯著的預(yù)測(cè)優(yōu)勢(shì),對(duì)序列相似性和采樣具有魯棒性。
[0050] 本發(fā)明的蛋白質(zhì)功能識(shí)別方法簡(jiǎn)單、快速和準(zhǔn)確,有望用于蛋白組學(xué)等研究領(lǐng)域。
【附圖說(shuō)明】
[0051] 圖1為本發(fā)明流程示意圖。
[0052] 圖2為10折交叉驗(yàn)證的受試者操作特征曲線和精度-召回曲線。
[0053] 圖3為10折交叉驗(yàn)證的統(tǒng)計(jì)平均結(jié)果。
[0054] 圖4為各種方法的10折交叉驗(yàn)證結(jié)果。
【具體實(shí)施方式】
[0055] 以下結(jié)合說(shuō)明書(shū)附圖和具體實(shí)施例來(lái)進(jìn)一步說(shuō)明本發(fā)明,但實(shí)施例并不對(duì)本發(fā)明 做任何形式的限定。在不背離本發(fā)明精神和實(shí)質(zhì)的情況下,對(duì)本發(fā)明方法、步驟或條件所作 的簡(jiǎn)單修改或替換,均屬于本發(fā)明的范圍。
[0056] 除非特別說(shuō)明,本發(fā)明采用的試劑、方法和設(shè)備為本技術(shù)領(lǐng)域常規(guī)試劑、方法和設(shè) 備。除非特別說(shuō)明,以下實(shí)施例所用試劑和材料均為市購(gòu)。
[0057] 實(shí)施例1
[0058] 1、收集數(shù)據(jù)集,構(gòu)建節(jié)點(diǎn)和邊加權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò)
[0059] 從HIPPIE數(shù)據(jù)庫(kù)收集人類蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù),去除自相互作用、 重復(fù)相互作用以及相互作用得分為〇的相互作用。根據(jù)蛋白質(zhì)獲得號(hào),從UniprotKB/ Swiss-Prot數(shù)據(jù)庫(kù)獲取蛋白質(zhì)一級(jí)結(jié)構(gòu)數(shù)據(jù),計(jì)算氨基酸組成、二肽組成、自相關(guān)描述符和 組成、轉(zhuǎn)變和分布等蛋白質(zhì)一級(jí)結(jié)構(gòu)描述符。構(gòu)建節(jié)點(diǎn)和邊加權(quán)的蛋白質(zhì)-蛋白質(zhì)相互作 用網(wǎng)絡(luò),節(jié)點(diǎn)表示蛋白質(zhì),邊表示相互作用,節(jié)點(diǎn)權(quán)重是蛋白質(zhì)一級(jí)結(jié)構(gòu)特征,邊權(quán)重是相 互作用信任得分。
[0060] 2、收集蛋白質(zhì)功能注釋數(shù)據(jù),構(gòu)建數(shù)據(jù)集
[0061] 從UniProtKB/Swiss-Prot數(shù)據(jù)庫(kù)收集基于基因本體論有分子功能和生物過(guò)程注 釋信息的蛋白質(zhì),刪除具有理論推測(cè)信息注釋的蛋白質(zhì)。從NoGO數(shù)據(jù)庫(kù)收集沒(méi)有某一特定 功能注釋的蛋白質(zhì)。根據(jù)收集的具有某一特定功能的蛋白質(zhì)和沒(méi)有這一特定功能的蛋白質(zhì) 構(gòu)建數(shù)據(jù)集。
[0062] 3、基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征表征蛋白質(zhì)
[0063] 對(duì)于一個(gè)給定的蛋白質(zhì)i,采用廣度優(yōu)先搜索算法和路徑長(zhǎng)度參數(shù)L搜索蛋白質(zhì) 相互作用網(wǎng)絡(luò),根據(jù)獲得的結(jié)果計(jì)算8類具有全局和局部信息的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征:
[0064]
[0065] 式中,vJP V iW是給定節(jié)點(diǎn)i和i (L)的權(quán)重;<i):上角標(biāo)"F"表示蛋白質(zhì)via)具 有某一功能;\和V ια)頂點(diǎn)之間的路徑距離等于L,并且頂點(diǎn)i,i (1),…,i (L-I),i (L)均包 含在這條路徑上;NP是距離等于L的路徑數(shù)目;
[0066]
[0067] 其中,θ?ι1⑴是兩個(gè)頂點(diǎn)i和i(l)之間的邊權(quán)重,<^w<£,中上角標(biāo)"F"表示i(l) 具有某一功能;
[0068]
[0069] 式中,礦和InfI分別表示具有某一功能的蛋白質(zhì)集合,以及集合中元素的數(shù)目; UiN 丄 丄 0(5(5?? J ^ υ/O X
[0070]
[0071] 其中,表示在兩個(gè)具有某一功能的蛋白質(zhì)之間的邊的數(shù)目,并且這些蛋白質(zhì) 和蛋白質(zhì)i之間的距離等于L ;Ν表示蛋白質(zhì)集合,并且集合中元素和蛋白質(zhì)V1之間的距離 也等于L,但是這些蛋白質(zhì)沒(méi)有某一特定的功能;因此,Nf是集合N的子集;
[0072]
[0073] 其中,具有某一特定功能的蛋白質(zhì)i (L)的度值,即鄰居蛋白質(zhì)的數(shù)目;
[0075] 式中,InfI表示集合中元素的數(shù)目;
[0076]
[0077] 式中,#和Nf表示蛋白質(zhì)集合,其中蛋白質(zhì)與蛋白質(zhì)i和具有某一特定功能的蛋 白質(zhì)之間的距離為l;n if和集合N1和#的交集,InifI表示交集中元素的數(shù)目;
[0078]
[0079] 其中,NP/是長(zhǎng)度為L(zhǎng)的路徑數(shù)目,在這些路徑中頂點(diǎn)和終點(diǎn)蛋白質(zhì)均具有某一特 定的功能,并且中間節(jié)點(diǎn)包含蛋白質(zhì)i ;NPF也是長(zhǎng)度為L(zhǎng)的路徑數(shù)目,在這些路徑中頂點(diǎn)和 終點(diǎn)蛋白質(zhì)均具有某一特定的功能,但是中間節(jié)點(diǎn)不包含蛋白質(zhì)i。
[0080] 連接8種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征為一個(gè)17670維的特征向量表征蛋白質(zhì)。
[0081] 4、構(gòu)建模型識(shí)別蛋白質(zhì)功能
[0082] 基于17670維的特征向量,采用最小冗余最大相關(guān)方法優(yōu)化最優(yōu)特征子集。采用 格點(diǎn)搜索方法優(yōu)化支持向量機(jī)參數(shù),構(gòu)建模型。利用預(yù)測(cè)準(zhǔn)確度、敏感性、特異性、精確度、 馬氏相關(guān)系數(shù)、受試者操作特征曲線和精度-召回曲線評(píng)估模型預(yù)測(cè)性能。
[0083] 5、結(jié)果
[0084] (1)使用最小冗余最大相關(guān)算法分別從17670維的特征向量中構(gòu)建了包含 5, 10, 15,……,1000個(gè)特征的200個(gè)數(shù)據(jù)集。支持向量機(jī)核函數(shù)為徑向基核函數(shù),采用格 點(diǎn)搜索方法對(duì)懲罰參數(shù)C以22為步長(zhǎng)從2 5到215、核參數(shù)γ以2 2為步長(zhǎng)從2 3到2 15進(jìn)行 組合優(yōu)化?;谧顑?yōu)特征子集和最優(yōu)支持向量機(jī)參數(shù)的10-折交叉驗(yàn)證結(jié)果表1和圖2所 不。
[0085] 表1.基于最優(yōu)特征子集和支持向量機(jī)的10-折交叉驗(yàn)證結(jié)果
[0086]
[0087] 對(duì)于基因本體論條目0044281,模型獲得了 74. 58%的準(zhǔn)確度,75. 10%的敏感性, 74. 05%的特異性,74. 32%的精確度和0. 4915的馬氏相關(guān)系數(shù)。
[0088] 對(duì)于基因本體論條目0007596,獲得了最高95. 71%的準(zhǔn)確度,97. 38%的敏感性, 94. 05%的特異性,94. 24%的精確度和0. 9148的馬氏相關(guān)系數(shù)。
[0089] 對(duì)于其他基因本體論條目,模型獲得的準(zhǔn)確度、敏感性、特異性、精確度和馬氏 相關(guān)系數(shù)分別位于[82. 91,92. 03],[80. 07, 92. 26],[84. 78, 91. 84],[84. 19, 91. 84]和 [0.6586,0.8407]區(qū)間范圍內(nèi)。受試者操作特征曲線和精度-召回曲線下面積分別位于 [0. 8101,0. 9785]和[0. 8094, 0. 9664]區(qū)間范圍內(nèi)。
[0090] 這些結(jié)果表明本發(fā)明的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征是有效的,并且構(gòu)建的模型能夠識(shí)別蛋 白質(zhì)功能。
[0091] (2)在數(shù)據(jù)集的構(gòu)建中,重復(fù)隨機(jī)選擇與正樣本相互數(shù)目的負(fù)樣本,構(gòu)建10個(gè)基 準(zhǔn)數(shù)據(jù)集?;谧顑?yōu)特征子集和支持向量機(jī)參數(shù)的10折交叉驗(yàn)證結(jié)果如圖3所示。
[0092] 對(duì)于基因本體論條目:0044281,準(zhǔn)確度、敏感性、特異性、精確度和馬氏相關(guān)系數(shù) 的平均值分別是74. 62%,74. 52%,74. 72%,74. 68 %和0. 4924,分別接近表1中結(jié)果。對(duì) 應(yīng)的標(biāo)準(zhǔn)偏差僅是1. 13%,L 38%,L 58%,L 29%和0· 0225。
[0093] 對(duì)于基因本體論條目:0007596,準(zhǔn)確度、敏感性、特異性、精確度和馬氏相關(guān)系數(shù) 的平均值分別是95. 81 %,97. 61 %,94. 01 %,94. 23%和0. 9170,與表1中結(jié)果的差值非常 小。對(duì)應(yīng)標(biāo)準(zhǔn)偏差僅是〇· 58%,(λ 99%,L 12%,(λ 97%和(λ 0114。
[0094] 對(duì)于其他基因本體論條目,準(zhǔn)確度、敏感性、特異性和精確度值與表1中結(jié)果的差 值都在[-3.27%,3.23% ]范圍之內(nèi),馬氏相關(guān)系數(shù)差值都在[-0.0346,0.0125]范圍之 內(nèi)。
[0095] 這些結(jié)果表明,本發(fā)明方法對(duì)負(fù)樣本的選擇具有魯棒性,負(fù)樣本僅選擇1次是合 理的。
[0096] (3)采用CD-HIT軟件對(duì)數(shù)據(jù)集中的蛋白質(zhì)進(jìn)行序列比對(duì),刪除序列相似性大于 40%的蛋白質(zhì),構(gòu)建非冗余蛋白質(zhì)功能數(shù)據(jù)集?;谧顑?yōu)特征子集和支持向量機(jī)模型的 10-折交叉驗(yàn)證如表1所示。
[0097] 對(duì)于基因本體論條目:0044281,雖然獲得了最低的準(zhǔn)確度、敏感性、特異性、精 確度和馬氏相關(guān)系數(shù),但是僅比基準(zhǔn)數(shù)據(jù)集結(jié)果低了 2. 03 %,3. 77 %,0. 29 %,1. 21 %和 0.0404。
[0098] 對(duì)于基因本體論條目:0044822,0007165,0010467, 0045087 和 0044267,非冗余數(shù) 據(jù)集和基準(zhǔn)數(shù)據(jù)集準(zhǔn)確度的最大差值為3. 25%,最小僅為0. 84%。
[0099] 對(duì)于基因本體論條目:0007596,