一種全局比對的蛋白互作網(wǎng)絡(luò)融合方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物信息學技術(shù)領(lǐng)域,涉及一種全局比對的蛋白互作網(wǎng)絡(luò)融合方法。
【背景技術(shù)】
[0002] 蛋白質(zhì)是生命的物質(zhì)承擔者,在形成幾乎所有生命系統(tǒng)、調(diào)控各種生理/病理進程 中發(fā)揮重要的作用。但是生命體性狀的改變不能僅僅歸結(jié)為單獨幾個蛋白質(zhì)的作用,而是 許多蛋白之間的相互作用。因此,蛋白質(zhì)互作網(wǎng)絡(luò)的研究已經(jīng)成為蛋白質(zhì)研究的熱點。蛋白 相互作用網(wǎng)絡(luò)可以通過一些高通量的實驗方法得到,如酵母雙雜交[1]、免疫沉淀串聯(lián)質(zhì)譜 分析[2]等。然而實驗方法的復(fù)雜性使得并不是所有物種都已經(jīng)具有通過實驗得到的蛋白 互作數(shù)據(jù),當不具備實驗數(shù)據(jù)的條件下,基于整合各種數(shù)據(jù)庫數(shù)據(jù)的計算機構(gòu)建方法也在 興起,如通過融合酵母、果蠅、線蟲和人的同源蛋白而構(gòu)建的擬南芥蛋白互作網(wǎng)絡(luò)[3]。這種 構(gòu)建方法在構(gòu)建質(zhì)量和全面性上尚不完善,這一問題直接影響了對凡納濱對蝦免疫機理的 研究和分析,而本專利中提出的全局比對的蛋白互作網(wǎng)絡(luò)算法通過同源序列比對,最大程 度融合不同的蛋白互作網(wǎng)絡(luò)信息,在構(gòu)建質(zhì)量和數(shù)據(jù)全面性上都得到了提高。
[0003] 具備兩個不同的蛋白互作網(wǎng)絡(luò)及每個節(jié)點的序列數(shù)據(jù),blast軟件,以及perl軟 件。
[0004] 該方法將兩個不同物種的蛋白互作網(wǎng)絡(luò)進行融合,以此構(gòu)建新的蛋白互作網(wǎng)絡(luò)。
【發(fā)明內(nèi)容】
[0005] -種全局比對的蛋白互作網(wǎng)絡(luò)融合方法,其特征在于它分為序列比對,節(jié)點提取 和網(wǎng)絡(luò)融合三個步驟; 將需要融合的兩個網(wǎng)絡(luò)中,其中一個作為目標網(wǎng)絡(luò),另一個作為質(zhì)詢網(wǎng)絡(luò)。網(wǎng)絡(luò)融合時 先建立兩網(wǎng)絡(luò)中節(jié)點的關(guān)系,即兩個網(wǎng)絡(luò)中的序列同源關(guān)系。然后以一對相互作用關(guān)系為 單位,從目標網(wǎng)絡(luò)中提取出重合的互作關(guān)系或者添加目標網(wǎng)絡(luò)中不存在的互作關(guān)系,最后 形成融合的蛋白互作網(wǎng)絡(luò)。網(wǎng)絡(luò)融合的過程如圖1所示。網(wǎng)絡(luò)融合的步驟為: (1)序列比對:比對目標網(wǎng)絡(luò)和質(zhì)詢網(wǎng)絡(luò)中的節(jié)點序列,以目標網(wǎng)絡(luò)中的序列數(shù)據(jù)作為 數(shù)據(jù)庫,比對時期望值(E值)為1 e-005。
[0006] (2)節(jié)點提取:分析比對結(jié)果,認為質(zhì)詢網(wǎng)絡(luò)中的序列與目標網(wǎng)絡(luò)中滿足E值為le-005的條件,且第一個匹配的序列(即相似度最高的序列)是同源的,提取目標網(wǎng)絡(luò)和質(zhì)詢網(wǎng) 絡(luò)中所有具有同源關(guān)系的序列及其在目標網(wǎng)絡(luò)和質(zhì)詢網(wǎng)絡(luò)中的互作關(guān)系。
[0007] (3)網(wǎng)絡(luò)融合:將質(zhì)詢網(wǎng)絡(luò)中的互作數(shù)據(jù)和目標網(wǎng)絡(luò)的互作數(shù)據(jù)進行融合。以一個 相互作用關(guān)系為單位進行比對,融合過程分為以下三種情況: (a) -個相互作用的兩個節(jié)點序列都被認定為同源關(guān)系時,直接提取目標網(wǎng)絡(luò)互作數(shù) 據(jù),融合網(wǎng)絡(luò)中對應(yīng)節(jié)點的序列名稱采用目標網(wǎng)絡(luò)中的序列名稱,如圖1中的C-D; (b) 只有一個節(jié)點序列被認定為同源關(guān)系時,融合網(wǎng)絡(luò)中對應(yīng)節(jié)點的序列名稱采用目 標網(wǎng)絡(luò)中的序列名稱,并同時添加與之相互作用的目標網(wǎng)絡(luò)和質(zhì)詢網(wǎng)絡(luò)中的序列,如圖1中 的D-E和D-f; (c)若兩個節(jié)點沒有被認定為同源關(guān)系時,則在融合網(wǎng)絡(luò)中添加質(zhì)詢網(wǎng)絡(luò)中的序列及 其相互作用,如圖1中的f-g。
[0008] 本發(fā)明公開的全局比對的蛋白互作網(wǎng)絡(luò)融合方法的有益效果在于: 該方法應(yīng)用在構(gòu)建凡納濱對蝦全局蛋白網(wǎng)絡(luò)中。實驗采用凡納濱對蝦血淋巴組織樣 品,測序后獲得凡納濱對蝦轉(zhuǎn)錄組數(shù)據(jù)共有52073條unigene。所選擇的模式生物為果蠅、線 蟲、人、褐鼠、家鼠和酵母,首先將模式生物蛋白序列分別與凡納濱對蝦血淋巴組織unigene 序列進行比對,得到了六個基于上述六種模式生物的蛋白互作子網(wǎng)絡(luò),之后將這六個子網(wǎng) 絡(luò)按照與凡納濱對蝦親緣關(guān)系由近及遠的順序依次進行網(wǎng)絡(luò)融合,融合順序為果蠅、線蟲、 人、褐鼠、家鼠、酵母,經(jīng)過五次融合,最終得到凡納濱對蝦的蛋白互作網(wǎng)絡(luò)。
[0009] 網(wǎng)絡(luò)融合過程采用本專利所述方法。按照本專利所述方法,以果蠅蛋白互作網(wǎng)絡(luò) 和線蟲蛋白互作網(wǎng)絡(luò)的融合為例,網(wǎng)絡(luò)融合過程及結(jié)果如下: (1)果蠅蛋白網(wǎng)絡(luò)作為目標網(wǎng)絡(luò),線蟲蛋白互作網(wǎng)絡(luò)作為質(zhì)詢網(wǎng)絡(luò)。將果蠅蛋白序列與 線蟲蛋白序列進行比對,比對方法采用blastp,認為第一個匹配的序列為同源序列。
[0010] (2)提取果蠅蛋白互做網(wǎng)絡(luò)和線蟲蛋白互作網(wǎng)絡(luò)中所有具有同源關(guān)系的序列及其 互作關(guān)系。
[0011] (3)以一個相互作用關(guān)系為單位進行比對,將果蠅蛋白互作網(wǎng)絡(luò)與線蟲蛋白互作 網(wǎng)絡(luò)進行融合。其中,若一個相互作用的兩個節(jié)點序列都被認定為同源關(guān)系時,直接提取果 蠅的網(wǎng)絡(luò)互作數(shù)據(jù),融合網(wǎng)絡(luò)中對應(yīng)節(jié)點的序列名稱采用果蠅網(wǎng)絡(luò)中的序列名稱;若只有 一個節(jié)點序列被認定為同源關(guān)系時,融合網(wǎng)絡(luò)中對應(yīng)節(jié)點的序列名稱采用果蠅互做網(wǎng)絡(luò)中 的序列名稱,并同時添加與之相互作用的果蠅或者線蟲互作蛋白網(wǎng)絡(luò)中的序列;若兩個節(jié) 點沒有被認定為同源關(guān)系時,則在融合網(wǎng)絡(luò)中添加線蟲網(wǎng)絡(luò)中的序列及其相互作用。
[0012] 五次融合分別得到的融合網(wǎng)絡(luò)規(guī)模如表一所示,五次融合后,形成的凡納濱對蝦 蛋白互作網(wǎng)絡(luò)中包含蛋白3866個,蛋白相互作用關(guān)系46475條。
[0013] 表一凡納濱對蝦蛋白互作網(wǎng)絡(luò)融合結(jié)果
本發(fā)明重點解決了缺乏蛋白互作網(wǎng)絡(luò)實驗數(shù)據(jù)時,蛋白互作網(wǎng)絡(luò)的計算機構(gòu)建問題, 同時在構(gòu)建過程中對于數(shù)據(jù)的完整性和高質(zhì)量都具有嚴格的要求,為進一步研究非模式生 物的生物過程奠定了基礎(chǔ)。
【附圖說明】
[0014]圖1為蛋白互作網(wǎng)絡(luò)融合不意圖; 圖2全局比對的蛋白互作網(wǎng)絡(luò)融合方法流程示意圖。
【具體實施方式】
[0015]下面通過具體的實施方案敘述本發(fā)明。除非特別說明,本發(fā)明中所用的技術(shù)手段 均為本領(lǐng)域技術(shù)人員所公知的方法。另外,實施方案應(yīng)理解為說明性的,而非限制本發(fā)明的 范圍,本發(fā)明的實質(zhì)和范圍僅由權(quán)利要求書所限定。對于本領(lǐng)域技術(shù)人員而言,在不背離本 發(fā)明實質(zhì)和范圍的前提下,對這些實施方案中的物料成分和用量進行的各種改變或改動也 屬于本發(fā)明的保護范圍。
[0016] 實施例1 該方法應(yīng)用在構(gòu)建凡納濱對蝦全局蛋白網(wǎng)絡(luò)中。實驗采用凡納濱對蝦血淋巴組織樣 品,測序后獲得凡納濱對蝦轉(zhuǎn)錄組數(shù)據(jù)共有52073條unigene。所選擇的模式生物為果蠅、線 蟲、人、褐鼠、家鼠和酵母,首先將模式生物蛋白序列分別與凡納濱對蝦血淋巴組織unigene 序列進行比對,得到了六個基于上述六種模式生物的蛋白互作子網(wǎng)絡(luò),之后將這六個子網(wǎng) 絡(luò)按照與凡納濱對蝦親緣關(guān)系由近及遠的順序依次進行網(wǎng)絡(luò)融合,融合順序為果蠅、線蟲、 人、褐鼠、家鼠、酵母,經(jīng)過五次融合,最終得到凡納濱對蝦的蛋白互作網(wǎng)絡(luò)。
[0017] 網(wǎng)絡(luò)融合過程采用本專利所述方法。按照本專利所述方法,以果蠅蛋白互作網(wǎng)絡(luò) 和線蟲蛋白互作網(wǎng)絡(luò)的融合為例,網(wǎng)絡(luò)融合過程及結(jié)果如下: (1)果蠅蛋白網(wǎng)絡(luò)作為目標網(wǎng)絡(luò),線蟲蛋白互作網(wǎng)絡(luò)作為質(zhì)詢網(wǎng)絡(luò)。將果蠅蛋白序列與 線蟲蛋白序列進行比對,比對方法采用blastp,認為第一個匹配的序列為同源序列。
[0018] (2)提取果蠅蛋白互做網(wǎng)絡(luò)和線蟲蛋白互作網(wǎng)絡(luò)中所有具有同源關(guān)系的序列及其 互作關(guān)系。
[0019] (3)以一個相互作用關(guān)系為單位進行比對,將果蠅蛋白互作網(wǎng)絡(luò)與線蟲蛋白互作 網(wǎng)絡(luò)進行融合。其中,若一個相互作用的兩個節(jié)點序列都被認定為同源關(guān)系時,直接提取果 蠅的網(wǎng)絡(luò)互作數(shù)據(jù),融合網(wǎng)絡(luò)中對應(yīng)節(jié)點的序列名稱采用果蠅網(wǎng)絡(luò)中的序列名稱;若只有 一個節(jié)點序列被認定為同源關(guān)系時,融合網(wǎng)絡(luò)中對應(yīng)節(jié)點的序列名稱采用果蠅互做網(wǎng)絡(luò)中 的序列名稱,并同時添加與之相互作用的果蠅或者線蟲互作蛋白網(wǎng)絡(luò)中的序列;若兩個節(jié) 點沒有被認定為同源關(guān)系時,則在融合網(wǎng)絡(luò)中添加線蟲網(wǎng)絡(luò)中的序列及其相互作用。
[0020] 五次融合分別得到的融合網(wǎng)絡(luò)規(guī)模如表一所示,五次融合后,形成的凡納濱對蝦 蛋白互作網(wǎng)絡(luò)中包含蛋白3866個,蛋白相互作用關(guān)系46475條。
[0021] 表一凡納濱對蝦蛋白互作網(wǎng)絡(luò)融合結(jié)果
本發(fā)明重點解決了缺乏蛋白互作網(wǎng)絡(luò)實驗數(shù)據(jù)時,蛋白互作網(wǎng)絡(luò)的計算機構(gòu)建問題, 同時在構(gòu)建過程中對于數(shù)據(jù)的完整性和高質(zhì)量都具有嚴格的要求,為進一步研究非模式生 物的生物過程奠定了基礎(chǔ)。
[0022] 參考文獻:
[1] Ho, Y., A. Gruhler, A. Heilbut, et al., Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry. Nature, 2002. 415(6868): p. 180-3.
[2] Giot, L., J.S. Bader, C. Brouwer, et al., A protein interaction map of Drosophila melanogaster. Science, 2003. 302(5651): p. 1727-36.
[3] Geisler_Lee, J., N. O'Toole, R. Ammar, et al., A predicted interactome
【主權(quán)項】
1. 一種全局比對的蛋白互作網(wǎng)絡(luò)融合方法,其特征在于它分為序列比對,節(jié)點提取和 網(wǎng)絡(luò)融合三個步驟;其中將需要融合的兩個網(wǎng)絡(luò)中,一個作為目標網(wǎng)絡(luò),另一個作為質(zhì)詢網(wǎng) 絡(luò),網(wǎng)絡(luò)融合時先建立兩網(wǎng)絡(luò)中節(jié)點的關(guān)系,即兩個網(wǎng)絡(luò)中的序列同源關(guān)系,然后以一對相 互作用關(guān)系為單位,從目標網(wǎng)絡(luò)中提取出重合的互作關(guān)系或者添加目標網(wǎng)絡(luò)中不存在的互 作關(guān)系,最后形成融合的蛋白互作網(wǎng)絡(luò),網(wǎng)絡(luò)融合的步驟為: (1) 序列比對:比對目標網(wǎng)絡(luò)和質(zhì)詢網(wǎng)絡(luò)中的節(jié)點序列,以目標網(wǎng)絡(luò)中的序列數(shù)據(jù)作為 數(shù)據(jù)庫,比對時期望值(E值)為1 e-005; (2) 節(jié)點提取:分析比對結(jié)果,認為質(zhì)詢網(wǎng)絡(luò)中的序列與目標網(wǎng)絡(luò)中滿足E值為le-005 的條件,且第一個匹配的序列,即相似度最高的序列是同源的,提取目標網(wǎng)絡(luò)和質(zhì)詢網(wǎng)絡(luò)中 所有具有同源關(guān)系的序列及其在目標網(wǎng)絡(luò)和質(zhì)詢網(wǎng)絡(luò)中的互作關(guān)系; (3) 網(wǎng)絡(luò)融合:將質(zhì)詢網(wǎng)絡(luò)中的互作數(shù)據(jù)和目標網(wǎng)絡(luò)的互作數(shù)據(jù)進行融合,以一個相互 作用關(guān)系為單位進行比對,融合過程分為以下三種情況: (a) -個相互作用的兩個節(jié)點序列都被認定為同源關(guān)系時,直接提取目標網(wǎng)絡(luò)互作數(shù) 據(jù),融合網(wǎng)絡(luò)中對應(yīng)節(jié)點的序列名稱采用目標網(wǎng)絡(luò)中的序列名稱,其中C-D; (b) 只有一個節(jié)點序列被認定為同源關(guān)系時,融合網(wǎng)絡(luò)中對應(yīng)節(jié)點的序列名稱采用目 標網(wǎng)絡(luò)中的序列名稱,并同時添加與之相互作用的目標網(wǎng)絡(luò)和質(zhì)詢網(wǎng)絡(luò)中的序列的D-E和 D-f; (c) 若兩個節(jié)點沒有被認定為同源關(guān)系時,則在融合網(wǎng)絡(luò)中添加質(zhì)詢網(wǎng)絡(luò)中的序列及 其相互作用。2. 權(quán)利要求1所述全局比對的蛋白互作網(wǎng)絡(luò)融合方法在構(gòu)建新的凡納濱對蝦蛋白互作 網(wǎng)絡(luò)方面的應(yīng)用。
【專利摘要】本發(fā)明公開了一種全局比對的蛋白互作網(wǎng)絡(luò)融合方法,其特征在于它分為序列比對,節(jié)點提取和網(wǎng)絡(luò)融合三個步驟;其中將需要融合的兩個網(wǎng)絡(luò)中,一個作為目標網(wǎng)絡(luò),另一個作為質(zhì)詢網(wǎng)絡(luò),網(wǎng)絡(luò)融合時先建立兩網(wǎng)絡(luò)中節(jié)點的關(guān)系,即兩個網(wǎng)絡(luò)中的序列同源關(guān)系,然后以一對相互作用關(guān)系為單位,從目標網(wǎng)絡(luò)中提取出重合的互作關(guān)系或者添加目標網(wǎng)絡(luò)中不存在的互作關(guān)系,最后形成融合的蛋白互作網(wǎng)絡(luò),本發(fā)明進一步公開了公開的全局比對的蛋白互作網(wǎng)絡(luò)融合方法在構(gòu)建新的凡納濱對蝦蛋白互作網(wǎng)絡(luò)方面的應(yīng)用。
【IPC分類】G06F19/18
【公開號】CN105678108
【申請?zhí)枴緾N201610012802
【發(fā)明人】郝彤, 彭瑋, 孫金生
【申請人】天津師范大學
【公開日】2016年6月15日
【申請日】2016年1月11日