蛋白質(zhì)復(fù)合物的識別方法
【專利摘要】本發(fā)明公開一種蛋白質(zhì)復(fù)合物的識別方法,包括如下步驟:構(gòu)建帶權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),其中權(quán)值表示編碼發(fā)生相互作用的蛋白質(zhì)對應(yīng)基因的表達(dá)模式之間的相似度;基于上述帶權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),識別蛋白質(zhì)復(fù)合物的核;基于核內(nèi)蛋白質(zhì)與非核蛋白質(zhì)發(fā)生相互作用的數(shù)量多少和權(quán)重大小來為蛋白質(zhì)復(fù)合物的核識別附屬蛋白質(zhì);以及將識別出的核與識別出的附屬蛋白質(zhì)進行組合,識別為蛋白質(zhì)復(fù)合物。本方法不僅考慮了蛋白質(zhì)復(fù)合物的內(nèi)部結(jié)構(gòu),還要利用了編碼相互作用蛋白質(zhì)基因共表達(dá)程度高的特性。因此,該方法不僅可以識別具有重疊結(jié)構(gòu)的蛋白質(zhì)復(fù)合物,而且所識別的蛋白質(zhì)復(fù)合物反映了蛋白質(zhì)復(fù)合物的真實內(nèi)部結(jié)構(gòu)。
【專利說明】
蛋白質(zhì)復(fù)合物的識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及蛋白質(zhì)網(wǎng)絡(luò),更具體設(shè)及一種蛋白質(zhì)復(fù)合物的識別方法。
【背景技術(shù)】
[0002] 大規(guī)模蛋白質(zhì)網(wǎng)絡(luò)是一種特殊的復(fù)雜網(wǎng)絡(luò),具有明顯的模塊化組織結(jié)構(gòu),運些模 塊結(jié)構(gòu)往往對應(yīng)著蛋白質(zhì)復(fù)合物或功能模塊。從蛋白質(zhì)網(wǎng)絡(luò)中挖掘蛋白質(zhì)復(fù)合物,對研究 蛋白質(zhì)功能,解釋特定生物過程有重要的幫助。在蛋白質(zhì)網(wǎng)絡(luò)中挖掘蛋白質(zhì)復(fù)合物是一項 有挑戰(zhàn)的課題,直到目前還沒有明確的、公認(rèn)的蛋白質(zhì)復(fù)合物的定義。研究發(fā)現(xiàn),蛋白質(zhì)復(fù) 合物通常在網(wǎng)絡(luò)中表現(xiàn)為一些稠密的子圖。因此,多數(shù)研究者將蛋白質(zhì)復(fù)合物的挖掘轉(zhuǎn)化 為在蛋白質(zhì)網(wǎng)絡(luò)中識別稠密子圖的問題,并產(chǎn)生了一大批基于蛋白質(zhì)網(wǎng)絡(luò)的蛋白質(zhì)復(fù)合物 挖掘算法。盡管運些已有的算法被證明能夠比較有效地挖掘蛋白質(zhì)復(fù)合物,但是由于蛋白 質(zhì)網(wǎng)絡(luò)的復(fù)雜性,蛋白質(zhì)相互作用數(shù)據(jù)的不可靠性,蛋白質(zhì)功能的多樣性等也給蛋白質(zhì)復(fù) 合物的識別帶來了不少困難。隨著對蛋白質(zhì)復(fù)合物的研究不斷深入,研究者發(fā)現(xiàn)很多蛋白 質(zhì)復(fù)合物并非稠密子圖,蛋白質(zhì)復(fù)合物包含有非常重要的外圍蛋白質(zhì)。目前,多數(shù)算法在識 別稀疏蛋白質(zhì)復(fù)合物及重疊的蛋白質(zhì)復(fù)合物方面仍面臨著挑戰(zhàn)。
[0003] 2006年,Gavin等人對酵母蛋白質(zhì)復(fù)合物進行了深入的研究,發(fā)現(xiàn)蛋白質(zhì)復(fù)合物內(nèi) 部結(jié)構(gòu)由唯一的核(Core)和一些附屬物(Attachment)組成。組成核的蛋白質(zhì)高度共表達(dá), 且核內(nèi)蛋白質(zhì)具有很高的功能相似性,附屬蛋白質(zhì)則協(xié)助核蛋白質(zhì)執(zhí)行特定功能?;诤? 附屬物結(jié)構(gòu)和基因表達(dá)數(shù)據(jù),最近很多新的蛋白質(zhì)復(fù)合物挖掘算法被設(shè)計出來。雖然運些 方法對提高蛋白質(zhì)復(fù)合物挖掘算法準(zhǔn)確度有一定貢獻,但運些方法要么用基因表達(dá)數(shù)據(jù)對 蛋白質(zhì)相互作用數(shù)據(jù)進行簡單去噪處理,要么對蛋白質(zhì)相互作用進行加權(quán)構(gòu)建帶權(quán)網(wǎng)絡(luò), 并沒有將蛋白質(zhì)復(fù)合物的核-附屬物結(jié)構(gòu)和基因表達(dá)數(shù)據(jù)有效結(jié)合,尤其沒有將基因共表 達(dá)數(shù)據(jù)有效用到蛋白質(zhì)復(fù)合物的挖掘中來。
[0004] 因此,需要從蛋白質(zhì)復(fù)合物的核-附屬物內(nèi)部結(jié)構(gòu)出發(fā),結(jié)合基因表達(dá)數(shù)據(jù),提出 基因共表達(dá)數(shù)據(jù)的蛋白質(zhì)復(fù)合物挖掘方法。
【發(fā)明內(nèi)容】
[0005] 鑒于W上的問題,本發(fā)明的目的在于,從蛋白質(zhì)復(fù)合物的核-附屬物內(nèi)部結(jié)構(gòu)出 發(fā),結(jié)合基因表達(dá)數(shù)據(jù),提出基因共表達(dá)數(shù)據(jù)的蛋白質(zhì)復(fù)合物挖掘算法。
[0006] 簡單地說,方法首先利用基因表達(dá)數(shù)據(jù)構(gòu)建了帶權(quán)的蛋白質(zhì)網(wǎng)絡(luò);然后根據(jù)組成 核的蛋白質(zhì)高度共表達(dá)且具有很高的功能相似性運種特征,從邊(即蛋白質(zhì)對)的角度識別 出蛋白質(zhì)復(fù)合物的核;最后再為每個核識別其附屬蛋白質(zhì),最終核蛋白質(zhì)和附屬蛋白質(zhì)一 起形成要識別蛋白質(zhì)復(fù)合物。
[0007] 具體地說,根據(jù)本發(fā)明,提供了一種蛋白質(zhì)復(fù)合物的識別方法,包括如下步驟:構(gòu) 建帶權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),其中權(quán)值表示編碼發(fā)生相互作用的蛋白質(zhì)對應(yīng)基因的表達(dá) 模式之間的相似度;基于上述帶權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),識別蛋白質(zhì)復(fù)合物的核;基于核 內(nèi)蛋白質(zhì)與非核蛋白質(zhì)發(fā)生相互作用的數(shù)量多少和權(quán)重大小來為蛋白質(zhì)復(fù)合物的核識別 附屬蛋白質(zhì);W及將識別出的核與識別出的附屬蛋白質(zhì)進行組合,識別為蛋白質(zhì)復(fù)合物。
[0008] 優(yōu)選地,所述權(quán)值基于皮爾森相關(guān)系數(shù)而計算得到。
[0009] 優(yōu)選地,所述的識別蛋白質(zhì)復(fù)合物的核的步驟進一步包括:
[0010] 1)計算蛋白質(zhì)相互作用網(wǎng)絡(luò)的平均權(quán)重;
[0011] 2)選擇權(quán)值大于所述平均權(quán)重的蛋白質(zhì)對作為種子對;
[0012] 3似種子對的共同鄰居蛋白質(zhì)作為初始候選核;
[0013] 4)計算初始候選核的帶權(quán)子網(wǎng)密度;
[0014] 5)如果初始候選核的帶權(quán)子網(wǎng)密度小于密度闊值,從初始候選核中刪除權(quán)值最小 的蛋白質(zhì)對,從而生成新的初始候選核,返回步驟4);
[0015] 6)如果初始候選核的帶權(quán)子網(wǎng)密度不小于密度闊值,將初始候選核確定為候選 核;
[0016] 7)將候選核識別為蛋白質(zhì)復(fù)合物的核。
[0017] 優(yōu)選地,所述的將候選核識別為蛋白質(zhì)復(fù)合物的核的步驟進一步包括:
[0018] 1)計算新產(chǎn)生的候選核與之前已經(jīng)確定的候選核之間的親和度;
[0019] 2)如果親和度小于親和度闊值,則新產(chǎn)生的候選核被識別作為確定的候選核;
[0020] 3)如果親和度不小于親和度闊值,則分別計算新產(chǎn)生的候選核的帶權(quán)子網(wǎng)密度與 之前已經(jīng)確定的候選核的帶權(quán)子網(wǎng)密度,其中:
[0021] 31)如果新產(chǎn)生的候選核的帶權(quán)子網(wǎng)密度大于之前已經(jīng)確定的候選核的帶權(quán)子網(wǎng) 密度,則刪除之前已經(jīng)確定的候選核,而將新產(chǎn)生的候選核識別作為確定的候選核;
[0022] 32)如果新產(chǎn)生的候選核的帶權(quán)子網(wǎng)密度不大于之前已經(jīng)確定的候選核的帶權(quán)子 網(wǎng)密度,則丟棄新產(chǎn)生的候選核;
[0023] 4)如果不再有新產(chǎn)生的候選核,將已經(jīng)確定的候選核確定為蛋白質(zhì)復(fù)合物的核。
[0024] 優(yōu)選地,所述的為蛋白質(zhì)復(fù)合物的核識別附屬蛋白質(zhì)的步驟進一步包括:
[0025] 對于與核內(nèi)蛋白質(zhì)直接相鄰的每個核外蛋白質(zhì),進行如下的判斷:
[0026] 1)與該核外蛋白質(zhì)發(fā)生相互作用的核內(nèi)蛋白質(zhì)數(shù)量是否超過核內(nèi)蛋白質(zhì)數(shù)量的 一半;
[0027] 2)核內(nèi)蛋白質(zhì)和與其發(fā)生相互作用的該核外蛋白質(zhì)之間的權(quán)重總和是否超過與 該核外蛋白質(zhì)發(fā)生相互作用的核內(nèi)蛋白質(zhì)數(shù)量的一半,
[0028] 將W上判斷中至少一個回答為是的核外蛋白質(zhì)識別為附屬蛋白質(zhì)。
[0029] 根據(jù)本發(fā)明的蛋白質(zhì)復(fù)合物的識別方法不僅考慮了蛋白質(zhì)復(fù)合物的內(nèi)部結(jié)構(gòu),還 要利用了編碼相互作用蛋白質(zhì)基因共表達(dá)程度高的特性。因此,該方法不僅可W識別具有 重疊結(jié)構(gòu)的蛋白質(zhì)復(fù)合物,而且所識別的蛋白質(zhì)復(fù)合物反映了蛋白質(zhì)復(fù)合物的真實內(nèi)部結(jié) 構(gòu)。
【附圖說明】
[0030] 下面參考附圖結(jié)合實施例說明本發(fā)明。在附圖中:
[0031] 圖1是圖示說明DNA修復(fù)功能蛋白質(zhì)復(fù)合物的示意圖。
[0032] 圖2是根據(jù)本發(fā)明的蛋白質(zhì)復(fù)合物的識別方法的流程圖。
[0033] 圖3是圖示說明蛋白質(zhì)復(fù)合物的核的相互關(guān)系的示意圖。
[0034] 圖4是根據(jù)本發(fā)明的優(yōu)選實施例的識別蛋白質(zhì)復(fù)合物的核的方法的流程圖。
[0035] 圖5是根據(jù)本發(fā)明的優(yōu)選實施例的在識別蛋白質(zhì)復(fù)合物的核的過程中刪除冗余的 蛋白質(zhì)復(fù)合物的核的方法的流程圖。
[0036] 圖6是根據(jù)本發(fā)明的優(yōu)選實施例的為蛋白質(zhì)復(fù)合物的核識別附屬蛋白質(zhì)的方法的 流程圖。
【具體實施方式】
[0037] 下面將結(jié)合具體應(yīng)用來描述本發(fā)明的實施例。
[00;3引遮述
[0039] 本文結(jié)合基因表達(dá)數(shù)據(jù)和蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù),提出了基于基因共表達(dá)的蛋 白質(zhì)復(fù)合物挖掘算法,該方法利用Gavin等人的研究成果:蛋白質(zhì)復(fù)合物存在核-附件結(jié)構(gòu), 由核蛋白質(zhì)和附屬蛋白質(zhì)共同組成。不同蛋白質(zhì)復(fù)合物具有唯一的核,組成核的蛋白質(zhì)之 間聯(lián)系緊密、局部密度大在蛋白質(zhì)復(fù)合物中起著核屯、作用,且核內(nèi)蛋白質(zhì)功能相似度和基 因表達(dá)模式相似度高?;诘鞍踪|(zhì)復(fù)合物的運種內(nèi)部結(jié)構(gòu)及復(fù)合物內(nèi)蛋白質(zhì)之間的共表達(dá) 特性,本文從邊(即蛋白質(zhì)對)的角度提出了一種新的算法,從蛋白質(zhì)相互作用網(wǎng)絡(luò)中挖掘 蛋白質(zhì)復(fù)合物。算法主要包括=個部分:第一部分是構(gòu)建帶權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),權(quán)重 基于基因表達(dá)數(shù)據(jù),通過皮爾森(Pearson)相關(guān)系數(shù)公式,計算編碼發(fā)生相互作用的蛋白質(zhì) 對應(yīng)基因的表達(dá)模式之間的相似度,從而評估發(fā)生相互作用的蛋白質(zhì)對之間關(guān)系的緊密程 度;第二部分是識別蛋白質(zhì)復(fù)合物的核,算法首先選擇蛋白質(zhì)相互作用網(wǎng)絡(luò)中基因共表達(dá) 程度高的蛋白質(zhì)對作為種子邊,然后W被選擇邊對應(yīng)的兩個蛋白質(zhì)節(jié)點為中屯、,將兩節(jié)點 共同的鄰居節(jié)點組成的網(wǎng)絡(luò)子圖作為候選的蛋白質(zhì)復(fù)合物的核,得到的蛋白質(zhì)復(fù)合物候選 核,再通過過濾步驟將一些重復(fù)的、比較相似的候選核過濾掉,并最終得到確定的蛋白質(zhì)復(fù) 合物的核;第=部分是為蛋白質(zhì)復(fù)合物的核識別附屬蛋白質(zhì),附屬蛋白質(zhì)可W隸屬于多個 蛋白質(zhì)復(fù)合物。本算法通過非核蛋白質(zhì)與核內(nèi)蛋白質(zhì)發(fā)生相互作用的數(shù)量多少和權(quán)重的大 小確定非核蛋白質(zhì)是否隸屬于某個核。經(jīng)過第二步和第=步分別識別了核蛋白質(zhì)和附屬蛋 白質(zhì),核蛋白質(zhì)和附屬蛋白質(zhì)一起共同組成了蛋白質(zhì)復(fù)合物。
[0040] 理論基礎(chǔ)與術(shù)語說明
[0041 ]"基因表達(dá)"(gene express ion)是指細(xì)胞在生命過程中,儲存在DNA順序中遺傳信 息經(jīng)過轉(zhuǎn)錄和翻譯,合成蛋白質(zhì)分子的過程?;虮磉_(dá)過程主要包括轉(zhuǎn)錄和翻譯:轉(zhuǎn)錄階 段,在RNA聚合酶的催化下,W特定的DNA片斷作為模板,將DNA含有的遺傳信息先通過堿基 互補配對規(guī)則轉(zhuǎn)錄到mRNA上;翻譯階段,WmRNA為模板,tRNA為運載工具,在有關(guān)酶、輔助因 子和能量的作用下將活化的氨基酸在核糖體上合成蛋白質(zhì)?;虮磉_(dá)具有時間和空間特異 性,根據(jù)功能需要基因按照一定的時間順序進行表達(dá),生物個體在某一特定生長發(fā)育階段, 或同一基因在不同的組織器官表達(dá)也會不同。在基因表達(dá)過程中,mRNA起著信息傳遞的作 用,間接地體現(xiàn)了細(xì)胞中各個基因在不同生理環(huán)境下的活躍程度?;虮磉_(dá)水平就是指基 因表達(dá)過程中mRNA的轉(zhuǎn)錄水平,即基因轉(zhuǎn)錄的產(chǎn)物mRNA在細(xì)胞中的豐度。
[0042]為了測定基因的表達(dá)水平,生物學(xué)專家采用一定的物理化學(xué)手段對基因的表達(dá)過 程進行的定量表示,從而獲得基因表達(dá)調(diào)控信息相關(guān)的數(shù)據(jù),即"基因表達(dá)數(shù)據(jù)",反映基因 轉(zhuǎn)錄的產(chǎn)物mRNA豐度值?;虮磉_(dá)數(shù)據(jù)中蘊含著豐富的基因活動信息,如細(xì)胞的生理狀態(tài)、 基因表達(dá)調(diào)控信息W及基因功能信息等。目前,研究人員主要通過DNA微陣列技術(shù)來檢測轉(zhuǎn) 錄產(chǎn)物mRNA的豐度,根據(jù)轉(zhuǎn)錄產(chǎn)物mRNA的單鏈結(jié)構(gòu),通過堿基配對規(guī)則與其互補鏈進行雜 交運一特性,DNA微陣列技術(shù)可W同時測量不同樣本中成千上萬個基因在不同狀態(tài)下的表 達(dá)水平。目前,用于基因組mRNA豐度的檢測方法主要包括CDNA微陣列和寡核巧酸忍片。
[0043] 運里WcDNA微陣列為例簡單介紹DNA微陣列技術(shù)的原理。1995年,斯坦福大學(xué)研制 了 CDNA微陣列技術(shù),并成功應(yīng)用于轉(zhuǎn)錄產(chǎn)物mRNA豐度的測定,CDNA微陣列技術(shù)主要包括 CDNA微陣列的制作和應(yīng)用兩個階段。在制作階段,將細(xì)胞內(nèi)的mRNA逆轉(zhuǎn)錄為cDNA,經(jīng)分離后 所得到的CDNA作為探針W陣列的形式固定于玻璃片上制成CDNA微陣列。一般地,玻璃片上 每個探針含有一種CDNA分子,且運些探針的來源已知,或者其序列可W被測定。在應(yīng)用階 段,首先提取組織或細(xì)胞中待測試的mRNA樣本,逆轉(zhuǎn)錄成CDNA并用巧光素進行標(biāo)識;然后把 被標(biāo)識的CDNA與CDNA微陣列上的探針雜交,充分雜交后,清洗并用激光掃描CDNA微陣列,獲 取巧光圖像。通過對圖像分析處理,進而可得CDNA微陣列上每一個點的巧光強度值。巧光強 度值反映了樣本中與探針互補的mRNA豐度值,即待測基因的表達(dá)水平。
[0044] 由于生物體中細(xì)胞的種類繁多,且基因表達(dá)具有時空特異性。因此,基因表達(dá)數(shù)據(jù) 與其它生物數(shù)據(jù)相比數(shù)據(jù)量更大,復(fù)雜性更強。通過DNA微陣列技術(shù)獲得的基因表達(dá)數(shù)據(jù)具 有W下特點:(1)數(shù)據(jù)量大。DNA微陣列技術(shù)可W同時獲取成數(shù)W萬計基因的表達(dá)數(shù)據(jù),加上 各種基因表達(dá)數(shù)據(jù)增加迅速,使得基因表達(dá)數(shù)據(jù)量非常龐大。(2)高維性。組成生物體的全 基因組的基因數(shù)量很大,加上研究者通常會在多種環(huán)境下反復(fù)對基因表達(dá)水平進行測試, 因此最終得到的基因表達(dá)數(shù)據(jù)的維度很高,所W在應(yīng)用基因表達(dá)數(shù)據(jù)時需要進行降維處 理,否則可能會引起"維數(shù)災(zāi)難"。(3)高噪聲。在使用DNA微陣列技術(shù)獲取基因表達(dá)數(shù)據(jù)的實 驗過程中,由于受樣本自身、實驗環(huán)境、實驗設(shè)備及實驗人員等因素的影響,使得獲取的基 因表達(dá)數(shù)據(jù)中存在一定程度的噪聲和缺失數(shù)據(jù)。(4)高冗余。基因表達(dá)數(shù)據(jù)庫中很多數(shù)據(jù)屬 于同一基因家族,或是不同生物體的同源基因。由于功能相似或相關(guān)的基因其表達(dá)相近,不 同的研究機構(gòu)可能向數(shù)據(jù)庫提交了相同的序列數(shù)據(jù),導(dǎo)致數(shù)據(jù)庫中部分基因表達(dá)數(shù)據(jù)的冗 余度很高。
[0045] 微陣列技術(shù)是研究基因表達(dá)的有效工具,一次微陣列實驗可W獲得細(xì)胞在某一特 定條件下的部分或全基因組的表達(dá)數(shù)據(jù),包含數(shù)成千上萬個基因在細(xì)胞中的相對或絕對 mRNA豐度,通過多次實驗可W獲取在不同實驗條件下(如:時間、溫度、氨基酸狀態(tài)、細(xì)胞環(huán) 境、不同的組織、化學(xué)試劑的增減等變化)的基因表達(dá)數(shù)據(jù)。在對基因表達(dá)數(shù)據(jù)進行分析時, 研究者通常將基因表達(dá)數(shù)據(jù)用矩陣的形式表示。一般情況下,用行表示測定基因的數(shù)量,用 列表示不同實驗條件的樣本數(shù)量。假如某次實驗待測定基因數(shù)量為N,那么一次微陣列實驗 就可得到一個N維的向量,M次不同樣本下實驗將得到M個運樣的向量,最終基因表達(dá)數(shù)據(jù)可 W表示為NXM的矩陣W,Wij表示第i個基因在第j個實驗條件下的表達(dá)水平值。
[0046] 所謂"基因共表達(dá)"(Gene Co-expressed),是指在微陣列實驗中兩個基因在不同 實驗條件下表達(dá)模式或表達(dá)量的相似性?;蚬脖磉_(dá)廣泛用于基因和蛋白質(zhì)的研究,有研 究證明,具有共表達(dá)關(guān)系的基因也具有功能上的聯(lián)系,由共表達(dá)基因編碼的蛋白質(zhì)通過相 互作用共同執(zhí)行某個特定功能。為測定兩個不同基因表達(dá)模式的相似性(共表達(dá)程度),研 究者將多種相似性度量測定方法應(yīng)用于基因表達(dá)數(shù)據(jù)分析。目前,常用的相似性測定方法 有:歐氏距離、余弦相似性和皮爾森(Pearson)相關(guān)系數(shù)等。給定基因 X和基因 Y的表達(dá)模式n 維向量為X=(xi,X2,…,Xn)和Y=(yi,y2,…,yn),其相似性度量可W用如下幾種方法描述。 [0047] 1.歐氏距離
[004引
[0049] 歐氏距離相似性度量方法用矢量來表示數(shù)據(jù)對象,把每個樣本看作高維空間中的 一個點,進而使用兩點間的絕對距離來表示樣本之間的相似性。
[0050] 2.余弦相似度
[0化1 ]
[0052] 余弦相似度通過計算兩個向量內(nèi)積空間的夾角的余弦值來衡量兩個樣本間相似 性,余弦值越大表示兩個向量的夾角越小,兩個基因表達(dá)模式越相似,當(dāng)兩個向量的方向重 合時余弦相似度取最大值1,表示兩個基因表達(dá)模式完全一致。
[0053] 3.皮爾森相關(guān)系數(shù)
[0化4]
[005日]皮爾森相關(guān)系數(shù)(Pearson correlation coefficient)是一種線性相關(guān)系數(shù),其 取值范圍是[-1,1],公式中I和否分別表示向量X和Y的標(biāo)準(zhǔn)差。皮爾森相關(guān)系數(shù)是在計算基 因表達(dá)相似性使用最多的方法,相關(guān)系數(shù)越接近1表示兩個基因正相關(guān)性越強,接近-1則表 示基因表達(dá)負(fù)相關(guān),越接近0表示兩個基因表達(dá)相關(guān)性越小。
[0056] 生物體基因組中的基因和蛋白質(zhì)組中的蛋白質(zhì)之間存在遺傳和翻譯上的對應(yīng)關(guān) 系,可W將基因表達(dá)數(shù)據(jù)與蛋白質(zhì)相互作用數(shù)據(jù)進行結(jié)合用于基因和蛋白質(zhì)方面的研究。 有研究表明,生物體基因 mRNA轉(zhuǎn)錄水平上的共表達(dá)體現(xiàn)在其編碼的蛋白質(zhì)之間的相互作 用,同時運兩類數(shù)據(jù)在整體上也具有相關(guān)性。Lemos等人發(fā)現(xiàn)在酵母和果蛹物種中,存在相 互作用的兩個蛋白質(zhì)對應(yīng)的基因在表達(dá)水平上相關(guān)程度均高于隨機期望,同時在酵母中相 互作用的蛋白質(zhì)其基因表達(dá)多態(tài)性上也比隨機期望更相似。Fraser等人發(fā)現(xiàn)在不同物種中 存在相互作用的兩個蛋白質(zhì)對應(yīng)的基因表達(dá)水平也表現(xiàn)出了顯著的協(xié)同變化。Grigoriev 等人對抗菌素 T7(Bacteriophage T7)和出芽酵母(Saccharomyces cerevisiae)的大規(guī)模 基因表達(dá)數(shù)據(jù)和蛋白質(zhì)相互作用數(shù)據(jù)進行統(tǒng)計分析,結(jié)果表明具有相同或相似表達(dá)模式的 基因所編碼蛋白質(zhì)之間相互作用的可能性比隨機挑選的可能性更大。N.化ardwaj和H丄U對 果蛹、酵母、小鼠和人類四種物種的基因表達(dá)數(shù)據(jù)和蛋白質(zhì)相互作用數(shù)據(jù)進行了研究,不但 分析了同一物種內(nèi)存在相互作用的蛋白質(zhì)對應(yīng)的基因的表達(dá)相似性,同時還分析了果蛹、 酵母、小鼠和人類四個物種的同源蛋白質(zhì)對應(yīng)基因的表達(dá)相似性。分析結(jié)果表明,具有相互 作用關(guān)系的兩個蛋白質(zhì)比隨機抽取的兩個蛋白質(zhì)具有更相似的mRNA的表達(dá)模式。
[0057] 2006年,Gavin等對酵母蛋白質(zhì)復(fù)合物進行了深入研究,發(fā)現(xiàn)了蛋白質(zhì)復(fù)合物的 核-附屬物結(jié)構(gòu)。復(fù)合物的核(core)由一組功能上極為相似蛋白質(zhì)構(gòu)成,反映在蛋白質(zhì)網(wǎng)絡(luò) 中就是連接緊密、局部密度比較大,并且不同蛋白質(zhì)復(fù)合物的核蛋白質(zhì)一般不會重疊。附屬 蛋白質(zhì)(attachment protein)作為核蛋白的附件輔助核蛋白質(zhì)完成相關(guān)生物功能,附屬蛋 白質(zhì)可W出現(xiàn)在一個或者多個不同的蛋白質(zhì)復(fù)合物中。
[0058] 圖1是圖示說明DNA修復(fù)功能蛋白質(zhì)復(fù)合物的示意圖。如圖1所示,DNA修復(fù)功能蛋 白質(zhì)復(fù)合物共由9個蛋白質(zhì)組成,其中¥43007(:,¥01?097(:,¥11^032(:,¥11?002(:組成蛋白質(zhì)復(fù)合 物的核,它們連接緊密,蛋白質(zhì)YBRl 14W,YER095W,YJLl 73C,YNL312W,Y0L090W為附屬蛋白 質(zhì),它們輔助核共同完成DNA修復(fù)功能。Gavin等除了證實了酵母蛋白質(zhì)復(fù)合物的核-附屬物 結(jié)構(gòu),還發(fā)現(xiàn)核蛋白質(zhì)在拓?fù)浣Y(jié)構(gòu)上緊密相連,功能相似度高。Dezso等人在Gavin的研究基 礎(chǔ)上也得出了核內(nèi)蛋白質(zhì)高度共表達(dá)且功能相似的研究結(jié)論。Jansen等人對蛋白質(zhì)復(fù)合物 中的表達(dá)活動進行統(tǒng)計分析,發(fā)現(xiàn)不管是在絕對的mRNA表達(dá)水平值,還是表達(dá)模式的相似 性上,蛋白質(zhì)復(fù)合物中相互作用的一對蛋白質(zhì)通常都具有顯著的基因共表達(dá)性。
[0059] 實施例
[0060] 圖2是根據(jù)本發(fā)明的蛋白質(zhì)復(fù)合物的識別方法的流程圖。
[0061] 圖2的方法200開始于步驟S201,在此步驟,構(gòu)建帶權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),其中 權(quán)值表示編碼發(fā)生相互作用的蛋白質(zhì)對應(yīng)基因的表達(dá)模式之間的相似度。
[00創(chuàng) 1.帶權(quán)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建
[0063] 蛋白質(zhì)網(wǎng)絡(luò)是一種重要的生物網(wǎng)絡(luò),也是一種特殊的復(fù)雜網(wǎng)絡(luò),具備復(fù)雜網(wǎng)絡(luò)的 屬性。研究者通常把蛋白質(zhì)網(wǎng)絡(luò)抽象成圖,用圖論的方法對蛋白質(zhì)網(wǎng)絡(luò)展開研究。由蛋白質(zhì) 網(wǎng)絡(luò)的生物學(xué)意義可知蛋白質(zhì)之間的作用是相互的,因此蛋白質(zhì)網(wǎng)絡(luò)多抽象為無向圖。根 據(jù)研究需要,本文把蛋白質(zhì)網(wǎng)絡(luò)抽象為帶權(quán)的無向圖,可用=元組表示為G=(V,E,W)。
[0064] 本文構(gòu)建的帶權(quán)無向圖包括W下幾個部分:
[0065] 1、頂點(Vertex)
[0066] 頂點是圖中的基本元素,它代表圖中相互關(guān)聯(lián)的對象,圖中頂點的集合V-般表示 為V=(V1,V2,…,Vn),用I Vl表示頂點集合V中頂點的數(shù)量,V為非空的集合,本文中我們用頂 點代表蛋白質(zhì)相互作用網(wǎng)絡(luò)中的蛋白質(zhì)。
[0067] 2、邊化 dge)
[0068] 邊是圖中兩個相互關(guān)聯(lián)頂點之間的連線,如果頂點i和j之間存在相互關(guān)聯(lián)關(guān)系, 頂點1和^'之間的邊可表示6^={>:1,¥山圖中邊的集合£表示為£=(61,62,。',6。),用|6|表 示邊集合E中邊的數(shù)量,本文中我們用邊代表蛋白質(zhì)相互作用網(wǎng)絡(luò)中蛋白質(zhì)之間的相互作 用。
[0069] 3、權(quán)重(Weight)
[0070] 權(quán)重是指分配給兩個頂點間邊的一個權(quán)值,表示運兩個頂點之間的關(guān)系疏密程 度,如W=Iwij表示頂點i和j之間的權(quán)重,其中W為圖的權(quán)值矩陣。本文使用的權(quán)重來源于編 碼發(fā)生相互作用的兩個蛋白質(zhì)對應(yīng)基因的表達(dá)模式的相似性。
[0071] 為了便于計算,我們用鄰接矩陣Anxn存儲蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù),N代表網(wǎng)絡(luò)中 蛋白質(zhì)的總數(shù),矩陣的行或列分別代表網(wǎng)絡(luò)中蛋白質(zhì)對應(yīng)的編號,矩陣的元素 WU表示蛋白 質(zhì)i和蛋白質(zhì)j之間的權(quán)重,如果Wij = O說明蛋白質(zhì)i和j之間不存在相互作用。
[0072] 下面首先給出算法中用到的一些定義:
[0073] 定義1:網(wǎng)絡(luò)總權(quán)重:給定一個帶權(quán)無向圖G= (V,E,W),包含頂點數(shù)量為I Vl =N,其 網(wǎng)絡(luò)的權(quán)重之和定義如下:
[00741
(公乂 I)
[0075] 定義2:網(wǎng)絡(luò)平均權(quán)重(Aveweight):給定一個帶權(quán)無向圖G=(V,E,W),包含頂點數(shù) 量為IVI =N,邊的數(shù)量為IE I,根據(jù)定義1可將網(wǎng)絡(luò)的平均權(quán)重定義如下:
[0076]
(公式2)
[0077] 定義3:帶權(quán)子網(wǎng)密度:給定一個帶權(quán)無向圖G= (V,E,W),由定義1可知I Wl為網(wǎng)絡(luò) 總權(quán)重,其網(wǎng)絡(luò)帶權(quán)子網(wǎng)密度定義如下:
[007引
(公式3)
[0079]定義4:圖親和度:給定兩個圖A=(Va,Ea)和B=(Vb,Eb),我們定義圖親和度NA(A, B)評估圖A、B之間的相似性,其定義如下:
[00?m (公式4)
[0081 ]其中IVaI、I Vb I分別表示圖A和圖B的節(jié)點數(shù)目,VaH Vb表示圖A和圖B共同的節(jié)點。
[0082] 本發(fā)明結(jié)合蛋白質(zhì)互作用數(shù)據(jù)和基因表達(dá)數(shù)據(jù)構(gòu)建了帶權(quán)的蛋白質(zhì)網(wǎng)絡(luò)G= (V, E,W),其中權(quán)值表示編碼發(fā)生蛋白質(zhì)相互作用蛋白質(zhì)對應(yīng)基因的表達(dá)模式的相似性(共表 達(dá)),根據(jù)皮爾森(Pearson)相關(guān)系數(shù)可得表達(dá)模式的共表達(dá)程度,體現(xiàn)了蛋白質(zhì)相互作用 的深層次聯(lián)系。網(wǎng)絡(luò)平均權(quán)重(aveweight)反映了編碼網(wǎng)絡(luò)中蛋白質(zhì)對應(yīng)基因的整體共表 達(dá)程度,為選擇種子邊(即蛋白質(zhì)對)提供了依據(jù)。帶權(quán)子網(wǎng)密度(wei曲ted density)刻畫 了 W邊為種子形成的子網(wǎng)中節(jié)點彼此之間的聯(lián)系緊密程度,體現(xiàn)了互相作用的蛋白質(zhì)節(jié)點 聚集成簇的整體趨勢。
[0083] 還是參看圖2,在步驟S203,基于上述帶權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),識別蛋白質(zhì)復(fù) 合物的核。
[0084] Gavin等人認(rèn)為蛋白質(zhì)復(fù)合物的核應(yīng)該具備如下屬性:蛋白質(zhì)復(fù)合物中核蛋白質(zhì) 之間比非核蛋白質(zhì)之間擁有更密集相互作用關(guān)系;每個蛋白質(zhì)復(fù)合物包含一個唯一的核; 附屬蛋白質(zhì)作為復(fù)合物核的附件與核蛋白質(zhì)一起實現(xiàn)蛋白質(zhì)復(fù)合物的生物功能。為了設(shè)計 有效的基于核-附件的蛋白質(zhì)復(fù)合物挖掘算法,應(yīng)該首先為蛋白質(zhì)復(fù)合物的核給出定義。
[0085] 為了設(shè)計更為有效的蛋白質(zhì)復(fù)合物挖掘算法,本發(fā)明在蛋白質(zhì)復(fù)合物核的挖掘 中,不但考慮核內(nèi)蛋白質(zhì)之間連接的緊密程度,還要考慮發(fā)生相互作用的蛋白質(zhì)之間存在 的生物意義。基于此,將本方法中蛋白質(zhì)復(fù)合物核的屬性定義如下:
[0086] (1)核內(nèi)蛋白質(zhì)功能相似,且編碼發(fā)生相互作用蛋白質(zhì)的基因共表達(dá)程度高
[0087] (2)蛋白質(zhì)復(fù)合物的核具有唯一性,不同蛋白質(zhì)復(fù)合物的核包含蛋白質(zhì)不存在重 疊現(xiàn)象
[008引(3)核內(nèi)蛋白質(zhì)之間比非核蛋白質(zhì)之間存在相對較多的蛋白質(zhì)相互作用
[0089] (4)由蛋白質(zhì)復(fù)合物的核組成的子網(wǎng)帶權(quán)密度較大
[0090] 根據(jù)蛋白質(zhì)復(fù)合物核的定義,我們從邊的角度設(shè)計算法,先挖掘出每個蛋白質(zhì)復(fù) 合物的核,進而為每個核識別附屬蛋白質(zhì),從而得到要挖掘的蛋白質(zhì)復(fù)合物。
[0091] 2.種子邊的選擇
[0092] 根據(jù)本發(fā)明提出的算法模型可知,在識別蛋白質(zhì)復(fù)合物核的階段,主要基于在帶 權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò)中W種子邊為中屯、進行擴展的方式挖掘蛋白質(zhì)復(fù)合物的核。因此, 如何選擇種子邊成了有效挖掘蛋白質(zhì)復(fù)合物的關(guān)鍵。利用皮爾森相關(guān)系數(shù)公式,可計算得 到的蛋白質(zhì)相互作用關(guān)系的緊密程度,其范圍是[-1,1],本發(fā)明提出的算法中編碼發(fā)生相 互作用的蛋白質(zhì)之間應(yīng)該存在正相關(guān)關(guān)系,所W取值范圍應(yīng)該為[0,1]。根據(jù)蛋白質(zhì)復(fù)合物 核的定義可知編碼發(fā)生相互作用蛋白質(zhì)的基因共表達(dá)程度高,也就是權(quán)重值高的邊對應(yīng)的 蛋白質(zhì)對更可能為核蛋白質(zhì)。為了使算法更多地識別出真實的蛋白質(zhì)復(fù)合物,我們利用公 式2計算蛋白質(zhì)網(wǎng)絡(luò)的平均權(quán)重Avewei曲t,同時選擇權(quán)值大于平均權(quán)重的邊作為種子產(chǎn)生 蛋白質(zhì)復(fù)合物的候選核。
[009引 3.候選核的產(chǎn)生
[0094] 本文W選定的種子邊為中屯、通過擴展的方式產(chǎn)生候選核,即W種子邊對應(yīng)蛋白質(zhì) 節(jié)點的共同鄰居節(jié)點作為候選核。圖3是圖示說明蛋白質(zhì)復(fù)合物的核的相互關(guān)系的示意圖。 如圖3所示,設(shè)選擇的種子邊為Eab,對應(yīng)節(jié)點A的鄰居節(jié)點集為N(A),節(jié)點B的鄰居節(jié)點集為N (B),則初始的候選核包含的節(jié)點集為:S = N(A) HN(B),邊集由節(jié)點集中存在的相互作用的 邊組成。使用公式3計算初始候選核的帶權(quán)子網(wǎng)密度,如果產(chǎn)生的初始候選核的帶權(quán)子網(wǎng)密 度滿足算法設(shè)定的密度條件,直接把初始候選核作為候選核;如果不滿足密度條件,帶權(quán)子 網(wǎng)密度小于設(shè)定的密度,運時需要對初始候選核進行處理。處理方法是依次選擇權(quán)重最小 的邊進行刪除,同時刪除相關(guān)的非種子邊對應(yīng)節(jié)點,直到帶權(quán)子網(wǎng)密度滿足算法設(shè)定的密 度條件,即不小于設(shè)定的密度。
[0095] 按照上面的流程,可將其總結(jié)為圖4的流程圖。圖4是根據(jù)本發(fā)明的優(yōu)選實施例的 識別蛋白質(zhì)復(fù)合物的核的方法的流程圖。
[0096] 圖4的方法400開始于步驟S401,在此步驟,計算蛋白質(zhì)相互作用網(wǎng)絡(luò)的平均權(quán)重。 在步驟S403,選擇權(quán)值大于所述平均權(quán)重的蛋白質(zhì)對作為種子對。在步驟S405, W種子對的 共同鄰居蛋白質(zhì)作為初始候選核。在步驟S407,計算初始候選核的帶權(quán)子網(wǎng)密度。在步驟 S409,對于初始候選核的帶權(quán)子網(wǎng)密度是否小于密度闊值進行判斷。如果判斷結(jié)果是初始 候選核的帶權(quán)子網(wǎng)密度小于密度闊值,即步驟S409判定結(jié)果為是,則在步驟S411,從初始候 選核中刪除權(quán)值最小的蛋白質(zhì)對,從而生成新的初始候選核。然后方法400返回步驟S407, 重復(fù)步驟S407和S409,一直到步驟S409的判斷結(jié)果為否。另一方面,如果判斷結(jié)果是初始候 選核的帶權(quán)子網(wǎng)密度不小于密度闊值,即步驟S409判定結(jié)果為否,方法400前進到步驟 S413,將初始候選核確定為候選核。最后,在步驟S415,將候選核識別為蛋白質(zhì)復(fù)合物的核。 由此,方法400可W結(jié)束。
[0097] 4.候選核的過濾
[0098] 由于蛋白質(zhì)復(fù)合物核內(nèi)蛋白質(zhì)連接比較密集,由不同邊進行擴展后產(chǎn)生的初始候 選核存在很多冗余的候選核,如圖3所示,假如邊46、4(:、40、8(:、60八0都符合種子邊的條件, 根據(jù)我們候選核產(chǎn)生的方法,不管選擇哪條邊,產(chǎn)生的候選核都是Gabcd,如果不進行候選核 的過濾處理,必然會產(chǎn)生大量冗余核,導(dǎo)致算法的執(zhí)行效率的降低。冗余候選核過濾的步驟 是:首先利用公式4計算新產(chǎn)生的候選核與已經(jīng)確定的候選核之間的親和度,如果親和度小 于設(shè)定闊值,即新產(chǎn)生的候選核不是冗余核,那么將新產(chǎn)生的作為確定的候選核處理;否 貝1J,如果親和度大于設(shè)定闊值,也就是說新產(chǎn)生的候選核可能產(chǎn)生冗余,那么就要進行冗余 處理。處理方法是計算新產(chǎn)生的候選核和已經(jīng)確定的候選核的帶權(quán)子網(wǎng)密度,如果新產(chǎn)生 的候選核的帶權(quán)子網(wǎng)密度大于已經(jīng)確定的候選核的帶權(quán)子網(wǎng)密度,則刪除已確定的候選 核,保留新產(chǎn)生的候選核;否則,刪除新產(chǎn)生的候選核,保留已確定的候選核。我們認(rèn)為經(jīng)過 種子邊的選擇、初始候選核的產(chǎn)生及候選核的過濾等步驟產(chǎn)生的候選核最終被確認(rèn)為是獨 一無二的,分別對應(yīng)不同蛋白質(zhì)復(fù)合物。
[0099] 圖5是根據(jù)本發(fā)明的優(yōu)選實施例的在識別蛋白質(zhì)復(fù)合物的核的過程中刪除冗余的 蛋白質(zhì)復(fù)合物的核的方法的流程圖。
[0100] 圖5的方法500開始于步驟S501,在此步驟,計算通過圖4的步驟S413新產(chǎn)生的候選 核與之前已經(jīng)確定的候選核之間的親和度。在步驟S503判斷親和度是否小于親和度闊值。 如果親和度小于闊值,即步驟S503的判斷結(jié)果為是,則在步驟S507,新產(chǎn)生的候選核被識別 作為確定的候選核。否則,如果親和度不小于親和度闊值,即步驟S503的判斷結(jié)果為否,貝U 在步驟S505,分別計算新產(chǎn)生的候選核的帶權(quán)子網(wǎng)密度與之前已經(jīng)確定的候選核的帶權(quán)子 網(wǎng)密度。然后,在步驟S509,對帶權(quán)子網(wǎng)密度進行比較,即新產(chǎn)生的候選核的帶權(quán)子網(wǎng)密度 是否大于之前已經(jīng)確定的候選核的帶權(quán)子網(wǎng)密度。如果新產(chǎn)生的候選核的帶權(quán)子網(wǎng)密度大 于之前已經(jīng)確定的候選核的帶權(quán)子網(wǎng)密度,即步驟S509的判斷結(jié)果為是,則在步驟S511,刪 除之前已經(jīng)確定的候選核,而將新產(chǎn)生的候選核識別作為確定的候選核。否則,如果新產(chǎn)生 的候選核的帶權(quán)子網(wǎng)密度不大于之前已經(jīng)確定的候選核的帶權(quán)子網(wǎng)密度,即步驟S509的判 斷結(jié)果為否,則在步驟S513,丟棄新產(chǎn)生的候選核。在步驟S507、S511、S513之后,分別在步 驟S515判斷是否還有新產(chǎn)生的候選核。如果還有新產(chǎn)生的候選核,即步驟S515的判斷結(jié)果 為是,則方法500返回到步驟S501,重復(fù)W上的步驟。如果不再有新產(chǎn)生的候選核,即步驟 S515的判斷結(jié)果為否,則在步驟S517,將已經(jīng)確定的候選核確定為蛋白質(zhì)復(fù)合物的核。
[0101] 5.為核識別附屬蛋白質(zhì)
[0102] 返回圖2,在步驟S205,基于核內(nèi)蛋白質(zhì)與非核蛋白質(zhì)發(fā)生相互作用的數(shù)量多少和 權(quán)重大小來為蛋白質(zhì)復(fù)合物的核識別附屬蛋白質(zhì)。
[0103] 附屬蛋白質(zhì)是指協(xié)助核蛋白質(zhì)共同完成蛋白質(zhì)復(fù)合物生物功能的蛋白質(zhì),盡管附 屬蛋白質(zhì)地位不像核蛋白質(zhì)那樣重要,但有些細(xì)胞功能的執(zhí)行必需在附屬蛋白質(zhì)的協(xié)助下 才能實現(xiàn)。Gavin等人的研究發(fā)現(xiàn),附屬蛋白質(zhì)與核蛋白質(zhì)緊密相連,并且不像核蛋白質(zhì)只 能屬于某一個蛋白質(zhì)復(fù)合物的核附屬蛋白質(zhì)可W同時隸屬于多個蛋白質(zhì)復(fù)合物。目前有觀 點認(rèn)為附屬蛋白質(zhì)應(yīng)該與復(fù)合物核內(nèi)一半W上的蛋白質(zhì)發(fā)生相互作用,另外有觀點則認(rèn)為 附屬蛋白質(zhì)與復(fù)合物核內(nèi)發(fā)生相互作用的數(shù)量應(yīng)該大于與非核蛋白質(zhì)(核外蛋白質(zhì))發(fā)生 相互作用的數(shù)量。運兩種方法都有不足之處,第一種觀點采用的方法有可能將本該屬于某 個核的蛋白質(zhì)過濾掉,如果采用運種方法圖1中蛋白質(zhì)YBR114W將不會被識別出來。采用第 二種觀點中附屬蛋白質(zhì)的定義,識別出來的附屬蛋白質(zhì)只能屬于某一個核,實際上多數(shù)附 屬蛋白質(zhì)隸屬于多個蛋白質(zhì)復(fù)合物。
[0104] 本文將附屬蛋白質(zhì)定義如下:
[0105] (1)附屬蛋白質(zhì)被綁定于核蛋白質(zhì),協(xié)助核蛋白質(zhì)共同完成細(xì)胞的生物功能
[0106] (2)附屬蛋白質(zhì)與核蛋白質(zhì)之間比與非核蛋白質(zhì)之間存在較多的相互作用,而且 附屬蛋白質(zhì)與核內(nèi)蛋白質(zhì)之間的共表達(dá)程度高于附屬物之間的共表達(dá)程度
[0107] (3)附屬蛋白質(zhì)至少和一個核蛋白質(zhì)存在相互作用關(guān)系
[0108] (4)附屬蛋白質(zhì)可W隸屬于多個蛋白質(zhì)復(fù)合物
[0109] 本發(fā)明提出的方法中,仍然從邊的角度識別附屬蛋白質(zhì)。根據(jù)本文中對附屬物的 定義,我們識別附屬蛋白質(zhì)的標(biāo)準(zhǔn)不但要考慮蛋白質(zhì)相互作用網(wǎng)絡(luò)的拓?fù)鋵傩?,同時還要 考慮附屬蛋白質(zhì)與核蛋白質(zhì)之間的生物屬性。給定蛋白質(zhì)相互作用網(wǎng)絡(luò)G(V,E,W)和某個蛋 白質(zhì)復(fù)合物的核CG= (Vcg,Ecg),核CG的直接鄰居集合定義為:M(Tj)=柳",如。'味,,,"嘶。 由此我們可W定義closeness衡量核CG的直接鄰居V和核CG之間的聯(lián)系緊密程度,從而作為 V是否附屬于核CG的標(biāo)準(zhǔn)。
[0110]
(公式5)
[OW]公式5中,Nv代表蛋白質(zhì)V的直接鄰居集合,I Vccl代表蛋白質(zhì)復(fù)合物核CG中蛋白質(zhì) 的數(shù)量,I Nv HVcgI代表蛋白質(zhì)V與核CG中發(fā)生相互作用的蛋白質(zhì)的數(shù)量。文中我們將 closeness闊值設(shè)置為0.5,即要求蛋白質(zhì)V與核CG的超過半數(shù)的蛋白質(zhì)發(fā)生相互作用。 [0112]使用closeness標(biāo)準(zhǔn)可W將那些與核中多數(shù)蛋白質(zhì)發(fā)生相互作用的附屬蛋白質(zhì)識 別出來,然而存在很多運樣的附屬蛋白質(zhì),它們不符合closeness標(biāo)準(zhǔn)但是它們與某些核蛋 白質(zhì)高度共表達(dá)并且與核蛋白質(zhì)具有相同或相似的功能。為了將運部分附屬蛋白質(zhì)識別出 來,我們定義了平均權(quán)重AW衡量附屬蛋白質(zhì)和核之間的關(guān)系,并作為評判附屬蛋白質(zhì)的條 件之一。
[01"1 (公義6)
[0114] 公式6中,I Wvl代表蛋白質(zhì)V和核CG中發(fā)生相互作用關(guān)系的蛋白質(zhì)之間權(quán)重的總 和,INvfI VcgI和公式closeness中的意義相同。
[0115] 圖6是根據(jù)本發(fā)明的優(yōu)選實施例的為蛋白質(zhì)復(fù)合物的核識別附屬蛋白質(zhì)的方法的 流程圖。
[0116] 圖6的方法600開始于步驟S601,在此步驟,對于與核內(nèi)蛋白質(zhì)直接相鄰的每個核 外蛋白質(zhì),進行如下判斷:與該核外蛋白質(zhì)發(fā)生相互作用的核內(nèi)蛋白質(zhì)數(shù)量是否超過核內(nèi) 蛋白質(zhì)數(shù)量的一半。如果與之發(fā)生相互作用的核內(nèi)蛋白質(zhì)數(shù)量超過核內(nèi)蛋白質(zhì)數(shù)量的一 半,即步驟S601的判斷結(jié)果為是,則在步驟S607,將該核外蛋白質(zhì)識別為附屬蛋白質(zhì)。另一 方面,如果與之發(fā)生相互作用的核內(nèi)蛋白質(zhì)數(shù)量沒有超過核內(nèi)蛋白質(zhì)數(shù)量的一半,即步驟 S601的判斷結(jié)果為否,則在步驟S603繼續(xù)進行判斷:核內(nèi)蛋白質(zhì)和與其發(fā)生相互作用的該 核外蛋白質(zhì)之間的權(quán)重總和是否超過與該核外蛋白質(zhì)發(fā)生相互作用的核內(nèi)蛋白質(zhì)數(shù)量的 一半。如果核內(nèi)外蛋白質(zhì)權(quán)重總和超過與該核外蛋白質(zhì)發(fā)生相互作用的核內(nèi)蛋白質(zhì)數(shù)量的 一半,即步驟S603的判斷結(jié)果為是,則在步驟S607,將該核外蛋白質(zhì)識別為附屬蛋白質(zhì)。另 一方面,如果核內(nèi)外蛋白質(zhì)權(quán)重總和沒有超過與該核外蛋白質(zhì)發(fā)生相互作用的核內(nèi)蛋白質(zhì) 數(shù)量的一半,即步驟S603的判斷結(jié)果也為否,則在步驟S605,將該核外蛋白質(zhì)不作為附屬蛋 白質(zhì)處理。盡管在圖6中,步驟S601和S603存在如圖所示的順序,但理論上,二者沒有先后順 序之分,即,可W先進行任何一個判斷。換句話說,將W上兩個判斷中至少一個回答為是的 核外蛋白質(zhì)識別為附屬蛋白質(zhì)。在判斷核外蛋白質(zhì)是否為附屬蛋白質(zhì)之后,方法600結(jié)束。 [0"7] 6.蛋白質(zhì)復(fù)合物的生成
[0118] 最后,返回圖2,在步驟S207將識別出的核與識別出的附屬蛋白質(zhì)進行組合,識別 為蛋白質(zhì)復(fù)合物。之后,方法200結(jié)束。
[0119] 本發(fā)明提出的蛋白質(zhì)復(fù)合物的識別方法,從Gavin等人在蛋白質(zhì)復(fù)合物的研究成 果出發(fā),不但考慮了蛋白質(zhì)復(fù)合物的核-附件的內(nèi)部結(jié)構(gòu),同時考慮了蛋白質(zhì)復(fù)合物內(nèi)部蛋 白質(zhì)連接密度高的網(wǎng)絡(luò)拓?fù)鋵傩院偷鞍踪|(zhì)復(fù)合物內(nèi)部共表達(dá)特性。該方法對蛋白質(zhì)復(fù)合物 的形狀沒有嚴(yán)格的要求,稠密的、稀疏的蛋白質(zhì)復(fù)合物都能識別,同時該方法還可W識別存 在重疊蛋白質(zhì)的蛋白質(zhì)復(fù)合物。
[0120] 發(fā)明人采用準(zhǔn)確率(Precision)、召回率(Recall)及其幾何平均值F度量(F- measure),覆蓋率(Coverage Rate),功能富集(P-value)等指標(biāo)對本發(fā)明的方法進行了評 價,與冊NTER,CORE和COACH等方法比較結(jié)果顯示,本文提出的蛋白質(zhì)復(fù)合物挖掘方法獲得 了最高的F-measure值,根據(jù)P-化Iue值可知本方法的多數(shù)產(chǎn)生的蛋白質(zhì)復(fù)合物具有一定的 生物學(xué)意義,P-化Iue小于0.01的占90% W上。因此,本發(fā)明提出的蛋白質(zhì)復(fù)合物挖掘方法 是有效的,該方法不但考慮了蛋白質(zhì)復(fù)合物的內(nèi)部結(jié)構(gòu),還考慮了蛋白質(zhì)相互作用的生物 意義。
[0121] 上面已經(jīng)描述了本發(fā)明的實施方式及其具體應(yīng)用和優(yōu)選實施例。但是本發(fā)明的精 神和范圍不限于運里所公開的具體內(nèi)容。本領(lǐng)域技術(shù)人員將能夠根據(jù)本發(fā)明的教導(dǎo)而做出 更多的實施方式和應(yīng)用,運些實施方式和應(yīng)用都在本發(fā)明的精神和范圍內(nèi)。本發(fā)明的精神 和范圍不由具體實施例來限定,而由權(quán)利要求來限定。
【主權(quán)項】
1. 一種蛋白質(zhì)復(fù)合物的識別方法,包括如下步驟: 構(gòu)建帶權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),其中權(quán)值表示編碼發(fā)生相互作用的蛋白質(zhì)對應(yīng)基因 的表達(dá)模式之間的相似度; 基于上述帶權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),識別蛋白質(zhì)復(fù)合物的核; 基于核內(nèi)蛋白質(zhì)與非核蛋白質(zhì)發(fā)生相互作用的數(shù)量多少和權(quán)重大小來為蛋白質(zhì)復(fù)合 物的核識別附屬蛋白質(zhì);以及 將識別出的核與識別出的附屬蛋白質(zhì)進行組合,識別為蛋白質(zhì)復(fù)合物。2. 根據(jù)權(quán)利要求1所述的蛋白質(zhì)復(fù)合物的識別方法,其中,所述權(quán)值基于皮爾森相關(guān)系 數(shù)而計算得到。3. 根據(jù)權(quán)利要求1所述的蛋白質(zhì)復(fù)合物的識別方法,其中,所述的識別蛋白質(zhì)復(fù)合物的 核的步驟進一步包括: 3-1)計算蛋白質(zhì)相互作用網(wǎng)絡(luò)的平均權(quán)重; 3-2)選擇權(quán)值大于所述平均權(quán)重的蛋白質(zhì)對作為種子對; 3-3)以種子對的共同鄰居蛋白質(zhì)作為初始候選核; 3-4)計算初始候選核的帶權(quán)子網(wǎng)密度; 3-5)如果初始候選核的帶權(quán)子網(wǎng)密度小于密度閾值,從初始候選核中刪除權(quán)值最小的 蛋白質(zhì)對,從而生成新的初始候選核,返回步驟3-4); 3-6)如果初始候選核的帶權(quán)子網(wǎng)密度不小于密度閾值,將初始候選核確定為候選核; 3- 7)將候選核識別為蛋白質(zhì)復(fù)合物的核。4. 根據(jù)權(quán)利要求3所述的蛋白質(zhì)復(fù)合物的識別方法,其中,所述的將候選核識別為蛋白 質(zhì)復(fù)合物的核的步驟進一步包括: 4_ 1)計算通過步驟3-6)新產(chǎn)生的候選核與之前已經(jīng)確定的候選核之間的親和度; 4- 2)如果親和度小于親和度閾值,則新產(chǎn)生的候選核被識別作為確定的候選核; 4-3)如果親和度不小于親和度閾值,則分別計算新產(chǎn)生的候選核的帶權(quán)子網(wǎng)密度與之 前已經(jīng)確定的候選核的帶權(quán)子網(wǎng)密度,其中: 4-31)如果新產(chǎn)生的候選核的帶權(quán)子網(wǎng)密度大于之前已經(jīng)確定的候選核的帶權(quán)子網(wǎng)密 度,則刪除之前已經(jīng)確定的候選核,而將新產(chǎn)生的候選核識別作為確定的候選核; 4-32)如果新產(chǎn)生的候選核的帶權(quán)子網(wǎng)密度不大于之前已經(jīng)確定的候選核的帶權(quán)子網(wǎng) 密度,則丟棄新產(chǎn)生的候選核; 4- 4)如果不再有新產(chǎn)生的候選核,將已經(jīng)確定的候選核確定為蛋白質(zhì)復(fù)合物的核。5. 根據(jù)權(quán)利要求1所述的蛋白質(zhì)復(fù)合物的識別方法,其中,所述的為蛋白質(zhì)復(fù)合物的核 識別附屬蛋白質(zhì)的步驟進一步包括: 對于與核內(nèi)蛋白質(zhì)直接相鄰的每個核外蛋白質(zhì),進行如下的判斷: 5- 1)與該核外蛋白質(zhì)發(fā)生相互作用的核內(nèi)蛋白質(zhì)數(shù)量是否超過核內(nèi)蛋白質(zhì)數(shù)量的一 半; 5-2)核內(nèi)蛋白質(zhì)和與其發(fā)生相互作用的該核外蛋白質(zhì)之間的權(quán)重總和是否超過與該 核外蛋白質(zhì)發(fā)生相互作用的核內(nèi)蛋白質(zhì)數(shù)量的一半, 將以上判斷中至少一個回答為是的核外蛋白質(zhì)識別為附屬蛋白質(zhì)。
【文檔編號】G06F19/18GK106021988SQ201610356036
【公開日】2016年10月12日
【申請日】2016年5月26日
【發(fā)明人】趙軍民, 魏新紅, 張凱, 張芳芳, 楊斌, 婁鑫坡, 孔玉靜
【申請人】河南城建學(xué)院