專利名稱:基于候選肽段區(qū)分度標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法
技術(shù)領(lǐng)域:
本發(fā)明涉及蛋白質(zhì)二級質(zhì)譜鑒定領(lǐng)域,特別涉及一種基于候選肽段區(qū)分度標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法。
背景技術(shù):
生物質(zhì)譜目前已成蛋白質(zhì)組研究的支撐技術(shù)之一,該技術(shù)主要利用串聯(lián)質(zhì)譜(LC-MS/MS)來分析蛋白質(zhì)樣品。在蛋白質(zhì)組的生物信息學研究中,二級質(zhì)譜數(shù)據(jù)處理是十分重要的研究內(nèi)容,其任務是從帶有噪聲或者部分信息缺失的數(shù)據(jù)中推斷樣品的蛋白質(zhì)組成。數(shù)據(jù)庫搜索是質(zhì)譜數(shù)據(jù)處理的主要方法,其基本過程如
圖1所示:將實驗圖譜和數(shù)據(jù)庫中的理論酶切圖譜進行比對、打分,選擇分值最高的匹配作為搜索結(jié)果的候選肽段。蛋白質(zhì)二級質(zhì)譜鑒定涉及到諸多方面的內(nèi)容,其主要涉及到母離子價態(tài)的確定、有效質(zhì)譜峰的選取和匹配打分模型。目前針對鑒定結(jié)果整體質(zhì)量控制的方法主要是應用隨機數(shù)據(jù)庫方法對整體鑒定結(jié)果進行陽性率控制,其基本思想是:先針對真實蛋白質(zhì)數(shù)據(jù)庫和實驗數(shù)據(jù)集構(gòu)建一個隨機數(shù)據(jù)庫,然后同時或者分別搜索真實蛋白質(zhì)數(shù)據(jù)庫和新構(gòu)建的隨機數(shù)據(jù)庫,通過隨機數(shù)據(jù)庫肽段匹配來模擬正常數(shù)據(jù)庫中的隨機匹配,從而估計正常數(shù)據(jù)庫中隨機匹配的特征分布,確定不同過濾標準,Kair s (Kail, L.; Storey, J.D.;MacCoss,M.J.;Noble, ff.S.Assigning significance to peptides identified bytandem mass spectrometry using decoy databases.J.Proteome Res.2008, 7(I), 29 -34.)于2008年在Proteome上公開了一種方法,具體是采用如下公式來得到整體數(shù)據(jù)集的假陽性率(False PositiveRate, FPR)
MFPR ^
Nn目前蛋白質(zhì)二級質(zhì)譜鑒定算法根據(jù)匹配打分模型大致可以分為兩類:解釋型模型和概率統(tǒng)計模型。其中著名的商業(yè)軟件SEQUEST的算法是解釋型模型,而另一個商業(yè)軟件Mascot的算法是概率統(tǒng)計模型。另外還有一些免費的鑒定算法,例如比較有影響力的基于統(tǒng)計模型的算法有X! Tandem和0MSSA。其中X! Tandem用的是超幾何模型,OMSSA用的是泊松分布模型。這些基于統(tǒng)計模型的算法中主要考慮的是實驗質(zhì)譜峰匹配與不匹配,很少考慮峰的連續(xù)匹配或是考慮的不夠全面。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于候選肽段標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法。本方法在原有二維圖譜的信息基礎上增加了一維質(zhì)譜峰的區(qū)分能力的信息,此思想之前算法沒有涉及到,其鑒定結(jié)果包括有效圖譜量、肽段可靠性及肽段數(shù)量均高于之前算法。本發(fā)明的目的通過下述技術(shù)方案實現(xiàn):一種基于候選肽段標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法,包括如下步驟:
( I)虛擬酶解蛋白質(zhì)數(shù)據(jù)庫序列,并根據(jù)肽段的質(zhì)量數(shù)對酶解后的肽段建立肽段數(shù)據(jù)庫和肽段數(shù)據(jù)庫索引。(2)根據(jù)待分析實驗圖譜中母離子的質(zhì)荷比(m/z)在步驟(I)所述的肽段數(shù)據(jù)庫中找出符合要求的候選肽段,并對找到的所有候選肽段產(chǎn)生的理論圖譜。(3)對待分析實驗圖譜進行去同位素峰和選取有效峰。(4)產(chǎn)生基于候選肽區(qū)分度的實驗標記圖譜。(5)統(tǒng)計分析不同區(qū)間峰強度區(qū)分度,不同區(qū)間理論碎片離子和實驗圖譜質(zhì)量誤差區(qū)分度,統(tǒng)計完成后,各區(qū)間的值為常量,并計算實驗圖譜峰與理論圖譜匹配峰的碎片離子區(qū)分度。(6)對每個候選肽段基于實驗標記圖譜匹配離子的區(qū)分度進行打分,選擇最高得分的肽段作為此實驗圖譜鑒定結(jié)果,對鑒定結(jié)果進行質(zhì)量控制;所述的打分包括匹配離子區(qū)分度的打分、連續(xù)匹配離子區(qū)分度的打分、b,y匹配離子的區(qū)分度打分及基于區(qū)分度的總打分。步驟(I)、步驟(2)和步驟(3)中的去同位素峰的具體步驟同申請?zhí)枮?01110358552.6、發(fā)明名稱為一種基于概率統(tǒng)計模型的蛋白質(zhì)二級質(zhì)譜鑒定方法的中國專利申請(CN1024 95127A)中所述。步驟(3)中所述的選取有效峰的方法包括如下步驟:I)尋找待分析實驗圖譜m/z的最大值和最小值分別為maxm/z和minm/z ;2)把m/z坐標從minm/z到maxm/z之間的長度等分成10等份;3)按上面的規(guī)則等分后每一等份選取20個最高峰(m/z值最大的峰)即為有效質(zhì)譜峰;4)對每一等份中選取的20個峰進行歸一化,即用每個峰除的該圖譜的最的最高峰,從而得到每個峰的強度區(qū)間值。步驟(4)中所述的產(chǎn)生基于區(qū)分度的實驗標記圖譜包括如下步驟:I)計算每一實驗質(zhì)譜峰匹配候選肽段的數(shù)量,用Mi (i=l, 2,…,η)表示,在實驗圖譜上標記每個峰上能夠匹配上肽段的個數(shù); 2)求取肽段匹配個數(shù)的平均值
權(quán)利要求
1.一種基于候選肽段標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于包括如下步驟: (1)虛擬酶解蛋白質(zhì)數(shù)據(jù)庫序列,并根據(jù)肽段的質(zhì)量數(shù)對酶解后的肽段建立肽段數(shù)據(jù)庫和肽段數(shù)據(jù)庫索引; (2)根據(jù)待分析實驗圖譜中母離子的質(zhì)荷比在步驟(I)所述的肽段數(shù)據(jù)庫中找出符合要求的候選肽段,并對找到的所有候選肽段產(chǎn)生符合要求的理論圖譜; (3)對待分析實驗圖譜進行去同位素峰和選取有效峰; (4)產(chǎn)生基于候選肽區(qū)分度的實驗標記圖譜; (5)統(tǒng)計分析不同區(qū)間峰強度區(qū)分度,不同區(qū)間理論碎片離子和實驗圖譜質(zhì)量誤差區(qū)分度,統(tǒng)計完成后,各區(qū)間的值為常量,并計算實驗圖譜峰與理論圖譜匹配峰的碎片離子區(qū)分度; (6)對每個候選肽段基于實驗標記圖譜匹配離子的區(qū)分度進行打分,選擇最高得分的肽段作為此實驗圖譜鑒定結(jié)果,對鑒定結(jié)果進行質(zhì)量控制; 所述的打分包括匹配離子區(qū)分度的打分、連續(xù)匹配離子區(qū)分度的打分、b,y匹配離子的打分及基于區(qū)分度的總打分。
2.根據(jù)權(quán)利要求1所述的基于候選肽段標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于: 步驟(3)中所述的選取有效峰的方法包括如下步驟: O尋找待分析實驗圖譜m/z的最大值和最小值分別為maxm/z和minm/z ; 2)把m/z坐標從minm/z到maxm/z之間的長度等分成10等份; 3)按上面的規(guī)則等分后每一等份選取20個最高峰即為有效質(zhì)譜峰; 4)對每一等份中選取的20個峰進行歸一化,即用每個峰除以這一等份的20個峰中的最聞峰。
3.根據(jù)權(quán)利要求1所述的基于候選肽段標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于: 步驟(4)中所述的產(chǎn)生基于區(qū)分度的實驗標記圖譜包括如下步驟: 1)統(tǒng)計每一實驗質(zhì)譜峰匹配候選肽段的數(shù)量,用Mi(i=l, 2,…,η)表示,在實驗圖譜上標記每個峰上匹配上肽能夠匹配上肽段的個數(shù); 2)求取肽段匹配個數(shù)的平均值:
4.根據(jù)權(quán)利要求1所述的基于候選肽段標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于: 步驟(5)中所述的不同區(qū)間峰強度區(qū)分度的計算方法如下: 用N(rp和用N(ep分別表示離子在第j (j=l,2,…,11)個區(qū)間上正確匹配和錯誤匹配的個數(shù),則離子在第j個區(qū)間的強度區(qū)分度為
5.根據(jù)權(quán)利要求1所述的基于候選肽段標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于: 步驟(6)中所述的匹配離子區(qū)分度的打分函數(shù)為
6.根據(jù)權(quán)利要求1所述的基于候選肽段標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于:步驟(6)中所述的質(zhì)量控制采用FDR〈〈0.01進行。
全文摘要
本發(fā)明公開了一種基于候選肽段區(qū)分度標記圖譜的蛋白質(zhì)二級質(zhì)譜鑒定方法,涉及蛋白質(zhì)二級質(zhì)譜鑒定領(lǐng)域。本方法包括如下步驟建立肽段數(shù)據(jù)庫和肽段數(shù)據(jù)庫索引;根據(jù)待分析實驗圖譜中母離子從肽段數(shù)據(jù)庫中找出候選肽段,并產(chǎn)生理論圖譜;對待分析實驗圖譜進行去同位素峰和選取有效峰;產(chǎn)生基于候選肽區(qū)分度的實驗標記圖譜;統(tǒng)計不同區(qū)間峰強度區(qū)分度、理論碎片離子和實驗圖譜質(zhì)量誤差區(qū)分度以及實驗圖譜峰與理論圖譜匹配峰的碎片離子區(qū)分度;對每個候選肽段基于實驗標記圖譜匹配離子的區(qū)分度進行打分,選擇最高得分的肽段作為此實驗圖譜鑒定結(jié)果。本方法鑒定有效質(zhì)譜的數(shù)量和蛋白質(zhì)肽段數(shù)量均高于現(xiàn)有算法,鑒定效率也大大提高了。
文檔編號G01N27/62GK103245714SQ201310097479
公開日2013年8月14日 申請日期2013年3月25日 優(yōu)先權(quán)日2013年3月25日
發(fā)明者肖傳樂, 杜陽利, 陳曉舟, 何慶瑜 申請人:暨南大學