一種交聯(lián)二肽快速鑒定方法
【專利摘要】本發(fā)明提供一種交聯(lián)二肽快速鑒定方法,包括:1)提取待鑒定串聯(lián)譜圖中的有效譜峰,根據(jù)各個有效譜峰對應(yīng)的質(zhì)量,查找碎片索引得到相應(yīng)的肽段序列作為候選α肽序列,其中所述碎片索引記錄了各個碎片質(zhì)量及其對應(yīng)的肽段序列;2)對于每個候選α肽序列,根據(jù)所述待鑒定串聯(lián)譜圖的母離子質(zhì)量計算相應(yīng)的β肽質(zhì)量,進(jìn)而得到相應(yīng)的候選β肽序列,將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽;3)將步驟2)所得的候選交聯(lián)二肽與串聯(lián)譜圖進(jìn)行精細(xì)匹配,得出鑒定結(jié)果。本發(fā)明不需使用特殊交聯(lián)劑;搜索速度快,鑒定效率高;搜索靈敏度高。
【專利說明】
一種交聯(lián)二肽快速鑒定方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及生物信息學(xué)技術(shù)領(lǐng)域,具體地說,本發(fā)明涉及一種交聯(lián)二肽快速鑒定方法。
【背景技術(shù)】
[0002]化學(xué)交聯(lián)結(jié)合質(zhì)譜技術(shù)(簡稱交聯(lián)質(zhì)譜技術(shù))是規(guī)?;芯康鞍踪|(zhì)間相互作用與蛋白質(zhì)折疊的有效方法,其核心研究和鑒定的對象是交聯(lián)二肽,這源于交聯(lián)二肽的交聯(lián)位點(diǎn)提供了序列相距遠(yuǎn)而空間相距近的信息。交聯(lián)質(zhì)譜技術(shù)中,鑒定交聯(lián)二肽主要通過串聯(lián)譜圖的數(shù)據(jù)庫搜索技術(shù)實現(xiàn)。然而不同于傳統(tǒng)單肽序列搜索,交聯(lián)二肽的數(shù)據(jù)庫搜索的候選空間增長到了原單肽序列數(shù)量的平方級的規(guī)模,這給大規(guī)模數(shù)據(jù)庫搜索帶來了挑戰(zhàn)?,F(xiàn)有的解決方案分三種技術(shù)路線,分別是以xQuest為代表的同位素標(biāo)記方法,以PIR技術(shù)(Protein Interact1n Reporter)為代表的三級譜鑒定方法和以pLink為代表的開放式搜索方法,這三種路線從不同的角度降低了搜索難度。接下來分別介紹這三種技術(shù)。
[0003]xQuest的同位素標(biāo)記方法利用輕重相差12道爾頓的交聯(lián)劑在一級譜上形成的固定質(zhì)量差能夠找到輕重對的交聯(lián)串聯(lián)譜圖。進(jìn)一步,通過比對兩張串聯(lián)譜圖,區(qū)分出普通離子和交聯(lián)離子。先利用普通離子查詢離子標(biāo)簽做一次匹配篩選,再結(jié)合交聯(lián)離子做進(jìn)一步的篩選,取前5000名。最后對5000名候選肽兩兩組合,以母離子質(zhì)量作為限制篩選出誤差范圍內(nèi)的候選肽段對,進(jìn)行細(xì)打分。xQuest方案利用同位素標(biāo)記交聯(lián)劑和離子標(biāo)簽粗步篩選,可以將每張譜圖的單肽候選縮減在5,000名以內(nèi),有助于提高交聯(lián)二肽的鑒定速度。然而,xQuest方案需要使用相差12道爾頓的輕重標(biāo)記的交聯(lián)劑,這限制了該方法應(yīng)用到更廣泛的交聯(lián)鑒定中,例如xQuest方案無法用于二硫鍵鑒定。
[0004]PIR技術(shù)使用了一種能夠在質(zhì)譜儀中低能量碎裂的交聯(lián)劑,并且該交聯(lián)劑釋放的特征離子能夠被檢測出,以此判斷出交聯(lián)信號的存在。進(jìn)一步,對剩下的兩條完整的子序列掃描三級譜圖,用單肽搜索的方法鑒定。由于PIR技術(shù)通過設(shè)計能夠在質(zhì)譜儀中低能量被碎裂和被檢測的交聯(lián)劑來將問題轉(zhuǎn)化為常規(guī)肽段的鑒定問題,因此能夠有效降低候選規(guī)模。然而,PIR技術(shù)不僅對交聯(lián)劑有要求,對質(zhì)譜儀也有要求,并且需要集成特殊的信號離子檢測軟件。此外,這種PIR技術(shù)所需的交聯(lián)劑容易設(shè)計得過長、水溶性差。這些都導(dǎo)致PIR技術(shù)的適用范圍較窄。
[0005]pLink的開放式搜索方法將兩條交聯(lián)肽段當(dāng)作彼此的修飾,將修飾質(zhì)量加在每條候選單肽上,先和譜圖進(jìn)行粗打分,分別篩選出打分最高的前500名的α肽段(質(zhì)量大于等于譜圖母離子質(zhì)量一半的肽段)和500名的β肽(質(zhì)量小于譜圖母離子質(zhì)量一半的肽段),而后兩兩組合兩個列表中的肽段序列,進(jìn)行細(xì)打分。PLink開放式的方法相比前兩種方法的優(yōu)勢在于不需使用特殊的交聯(lián)劑,容易推廣到內(nèi)源交聯(lián)的形式上,實驗成本低、應(yīng)用面廣。然而,這種方法中序列庫中接近一半的肽段都要與每張譜圖進(jìn)行粗打分,存在計算量大的問題,進(jìn)而造成鑒定效率低。
【發(fā)明內(nèi)容】
[0006]因此,本發(fā)明的任務(wù)是提供一種不需使用特殊交聯(lián)劑的鑒定效率高的交聯(lián)二肽快速鑒定解決方案。
[0007]根據(jù)本發(fā)明的一個方面,提供了一種交聯(lián)二肽快速鑒定方法,包括下列步驟:
[0008]I)提取待鑒定串聯(lián)譜圖中的有效譜峰,根據(jù)各個有效譜峰對應(yīng)的質(zhì)量,查找碎片索引得到相應(yīng)的肽段序列作為候選α肽序列,所述碎片索引記錄了各個碎片質(zhì)量及其對應(yīng)的肽段序列;
[0009]2)對于每個候選α肽序列,根據(jù)所述待鑒定串聯(lián)譜圖的母離子質(zhì)量計算相應(yīng)的β肽質(zhì)量,進(jìn)而得到相應(yīng)的候選β肽序列,將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽;
[0010]3)將步驟2)所得的候選交聯(lián)二肽與串聯(lián)譜圖進(jìn)行精細(xì)匹配,得出鑒定結(jié)果。
[0011]其中,所述步驟I)中,所述碎片索引根據(jù)酶切序列列表建立,酶切序列列表是計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后,得到的肽段序列列表。
[0012]其中,所述步驟I)中,所述碎片索引包括與前綴碎片對應(yīng)的b離子索引和與后綴碎片對應(yīng)的I離子索引,所述碎片索引的建立方法如下:
[0013]Ia)對肽段序列列表的每條肽段序列,分析該條序列碎裂時所有可能產(chǎn)生的前綴碎片,得出對應(yīng)的前綴碎片質(zhì)量和肽段序列,進(jìn)而獲得b離子索引;
[0014]Ib)對肽段序列列表的每條肽段序列,分析該條序列碎裂時所有可能產(chǎn)生的后綴碎片,得出對應(yīng)的后綴碎片質(zhì)量和肽段序列,進(jìn)而獲得y離子索引。
[0015]其中,所述步驟I)包括下列子步驟:
[0016]11)提取待鑒定串聯(lián)譜圖中的有效譜峰;
[0017]12)對于每個有效譜峰,計算其所對應(yīng)的碎片質(zhì)量,然后根據(jù)b離子索引和y離子索引,得到該有效譜峰所對應(yīng)的可能的肽段序列作為候選α肽序列;
[0018]13)從待鑒定串聯(lián)譜圖的各個有效譜峰的候選α肽序列中,選出該待鑒定串聯(lián)譜圖的候選α肽序列。
[0019]其中,所述步驟12)還包括:根據(jù)有效譜峰的特征,判斷該有效譜峰是普通b離子,交聯(lián)b離子,普通y離子,還是交聯(lián)I離子所形成的譜峰,然后再選擇對應(yīng)的b離子索引或者y離子索引進(jìn)行查找,得到該有效譜峰所對應(yīng)的可能的肽段序列作為候選α肽序列。
[0020]其中,所述步驟11)中,通過濾除待鑒定串聯(lián)譜圖中的噪音峰、母離子峰、失水峰、失氨峰和同位素峰得到所述有效譜峰。
[0021]其中,所述步驟13)還包括:在待鑒定串聯(lián)譜圖的各個有效譜峰的候選α肽序列中,選擇在碎片索引查找中匹配次數(shù)最多的那些候選α肽序列作為該待鑒定串聯(lián)譜圖的候選α肽序列。
[0022]其中,所述步驟13)還包括:對各個有效譜峰的候選α肽段與待鑒定串聯(lián)譜圖中的匹配程度進(jìn)行粗打分,根據(jù)粗打分結(jié)果選出待鑒定串聯(lián)譜圖的候選α肽序列。
[0023]其中,所述步驟2)包括下列子步驟:
[0024]21)對于每個候選α肽序列,用所述待鑒定串聯(lián)譜圖的母離子質(zhì)量減去該候選α肽序列的質(zhì)量,得出相應(yīng)的β肽質(zhì)量;
[0025]22)基于步驟21)所得出的β肽質(zhì)量查找肽段索引,得出相應(yīng)的候選β肽序列,進(jìn)而將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽。
[0026]其中,所述步驟21)中,根據(jù)所述待鑒定串聯(lián)譜圖的一級譜圖得到其母離子質(zhì)量。
[0027]與現(xiàn)有技術(shù)相比,本發(fā)明具有下列技術(shù)效果:
[0028]1、本發(fā)明不需使用特殊交聯(lián)劑。
[0029]2、本發(fā)明的搜索速度快,鑒定效率高。
[0030]3、本發(fā)明的搜索靈敏度高。
[0031]4、本發(fā)明在維持高靈敏度的情況下,相比傳統(tǒng)的pLink開放式搜索至少加速10倍。
【附圖說明】
[0032]以下,結(jié)合附圖來詳細(xì)說明本發(fā)明的實施例,其中:
[0033]圖1示出了本發(fā)明一個實施例中碎片索引的創(chuàng)建的流程示意圖;
[0034]圖2示出了本發(fā)明一個實施例中肽段索引的創(chuàng)建的流程示意圖;
[0035]圖3示出了本發(fā)明一個實施例中基于碎片索引和肽段索引的交聯(lián)二肽快速鑒定的流程示意圖。
【具體實施方式】
[0036]為幫助讀者更好地理解本發(fā)明,首先給出本發(fā)明所涉及的一些專業(yè)詞匯的解釋。
[0037]肽段:由氨基酸排列成的字符串,長度范圍通常在4到100個氨基酸之間。肽段的質(zhì)量是指將構(gòu)成肽段的氨基酸的質(zhì)量求和后的質(zhì)量。肽段一般由蛋白質(zhì)水解得到,蛋白質(zhì)可以理解為很長的肽段。在本領(lǐng)域中,肽段常常也被稱為肽段序列。
[0038]氨基酸:常見的有二十種,一般用二十個大寫英文字母表示,通常每個氨基酸有唯一的質(zhì)量,但也有兩個氨基酸質(zhì)量相同。
[0039]交聯(lián)二肽:兩條肽段通過交聯(lián)劑鏈接在一起的肽段對。
[0040]α肽:本發(fā)明中將一條交聯(lián)二肽中匹配相對好的那條肽段稱為α肽。
[0041]β肽:本發(fā)明中將一條交聯(lián)二肽中匹配相對差的那條肽段稱為β肽。
[0042]以上匹配相對好或者匹配相對差指的是同一條交聯(lián)二肽中的α肽和β肽的相對好或者差。每條交聯(lián)二肽中必然有一條α肽和一條β肽。
[0043]碎片:肽段的一部分片段。
[0044]前綴碎片:肽段中間斷裂后,所形成的左側(cè)(指分子式結(jié)構(gòu)的左側(cè))的碎片。
[0045]后綴碎片:肽段中間斷裂后,所形成的后側(cè)(指分子式結(jié)構(gòu)的右側(cè))的碎片。
[0046]譜圖:通過質(zhì)譜儀測量的帶電離子信號構(gòu)成的圖,一般有兩個維度,質(zhì)荷比(質(zhì)量除以電荷)和強(qiáng)度,通常質(zhì)荷比是測量的關(guān)鍵。通過質(zhì)荷比和電荷可以計算質(zhì)量。
[0047]帶電離子:非中性的攜帶有電荷的離子,一般是正電荷??梢允侨我獾膸щ娢镔|(zhì),比如氨基酸、肽段或者肽段的片段。在串聯(lián)質(zhì)譜技術(shù)中,所檢測的肽段或交聯(lián)二肽或碎片均攜帶有電荷。
[0048]—級譜圖:檢測的帶電離子為肽段或交聯(lián)二肽的譜圖。
[0049]二級譜圖:檢測的帶電離子為肽段或交聯(lián)二肽碎裂后所產(chǎn)生的碎片的譜圖,其中所檢測的碎片既有前綴碎片,也有后綴碎片。在本領(lǐng)域中,二級譜圖有時也被稱為串聯(lián)譜圖。
[0050]b離子:被質(zhì)譜儀檢測到的前綴碎片。
[0051]y離子:被質(zhì)譜儀檢測到的后綴碎片。
[0052]由于可被質(zhì)譜儀檢測的碎片均攜帶有電荷,所以本文中也將肽段或交聯(lián)二肽碎裂后產(chǎn)生的可被質(zhì)譜儀檢測的碎片稱為碎片離子。
[0053]如前文所述,開放式搜索更具普適性、推廣能力強(qiáng),但現(xiàn)有的開放式搜索方案計算量大,鑒定效率低。發(fā)明人在進(jìn)行交聯(lián)鑒定的加速研究時,發(fā)現(xiàn)開放式搜索的技術(shù)瓶頸在于粗打分次數(shù)過多,如果建立碎片索引,就能夠快速篩選掉大量無效候選肽段,從而大規(guī)模降低打分次數(shù),顯著提升搜索速度。進(jìn)一步地,發(fā)明人還發(fā)現(xiàn)基于碎片離子索引的技術(shù)被引入后,碎片匹配需要面對較大的候選空間,為應(yīng)對這一情況,發(fā)明人進(jìn)一步提出了經(jīng)驗譜峰提取算法(即提取有效譜峰并對有效譜峰進(jìn)行初步分類)來保證搜索的靈敏度。
[0054]下面結(jié)合附圖和實施例對本發(fā)明做進(jìn)一步地描述。
[0055]根據(jù)本發(fā)明的一個實施例提供了一種交聯(lián)二肽快速鑒定方法,該方法包括:建立碎片索引,建立肽段索引,以及基于碎片索引和肽段索引的交聯(lián)二肽快速鑒定三個部分,下面分別介紹。
[0056]—、碎片索引及其建立方法
[0057]碎片索引是發(fā)明人為實現(xiàn)基于開放式搜索的交聯(lián)二肽快速鑒定而提出的新概念。碎片索引的每個索引項包括:碎片質(zhì)量(指碎片中性質(zhì)量,即不帶電荷時的質(zhì)量)和與之對應(yīng)的肽段序列。其中,每個索引項的碎片質(zhì)量代表一個很小的質(zhì)量區(qū)間,該碎片質(zhì)量所對應(yīng)的肽段序列來自于已知的酶切序列列表(酶切序列列表是計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后,得到的肽段序列列表),一個碎片質(zhì)量可以對應(yīng)于多個肽段序列。在碎片索引中,碎片質(zhì)量可以看做key,即用于檢索的關(guān)鍵詞,與之對應(yīng)的肽段序列則可以看做value,即索引值。
[0058]圖1示出了本發(fā)明一個實施例中碎片索引的創(chuàng)建的流程示意圖,參考圖1,計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后,得到酶切序列列表。再基于酶切肽段列表,對每一條肽段用計算機(jī)模擬碎裂,得到碎片列表,最后根據(jù)碎片的質(zhì)量和存儲位置得到碎片索引。其中存儲位置實際上就代表了碎片的序列,只要找到存儲位置,即可找到相應(yīng)的碎裂的氨基酸序列
[0059]在一個實施例中,建立碎片索引的方法包括下列步驟:
[0060]步驟101:對于給定的酶切序列列表中的每條序列(即肽段),分析該條序列碎裂時所有可能產(chǎn)生的前綴碎片(下文中有多處將其簡稱為前綴),計算所有可能的前綴的質(zhì)量作為b離子索引的關(guān)鍵詞。
[0061]步驟102:根據(jù)預(yù)先給定的質(zhì)譜儀中碎片離子的長度(指碎片離子包括的氨基酸個數(shù))范圍和質(zhì)量范圍,從步驟101所得的所有前綴中濾除在所給定范圍之外的前綴。
[0062]步驟103:根據(jù)給定的固定修飾,計算保留下來前綴加固定修飾后的質(zhì)量。固定修飾是:實驗中引入的一些以很大概率發(fā)生的修飾,搜索時認(rèn)為是必然發(fā)生的修飾。
[0063]步驟104:根據(jù)給定的可變修飾,生成保留下來前綴所有可能的加可變修飾的形式,同時計算質(zhì)量??勺冃揎検?鑒定中認(rèn)為可能發(fā)生也可能不發(fā)生的修飾。
[0064]步驟105,將步驟104處理后的碎片離子的質(zhì)量(單位為道爾頓)整數(shù)化,即乘以1000后取整,然后以碎片離子的質(zhì)量作為數(shù)組下標(biāo),統(tǒng)計所有保留的前綴質(zhì)量出現(xiàn)的碎片個數(shù)。
[0065]步驟106,從小質(zhì)量到大質(zhì)量,計算每個前綴質(zhì)量累積出現(xiàn)的碎片個數(shù)。
[0066]步驟107,第二遍掃描酶切序列,把每個碎片質(zhì)量的累積碎片個數(shù)作為新的倒排表數(shù)組的下標(biāo),而把數(shù)組中存儲碎片來源的酶切序列在蛋白質(zhì)庫中的起始位置和長度作為倒排項。
[0067]步驟108,每記錄一個倒排項,對應(yīng)質(zhì)量的累積碎片個數(shù)減一。掃描完所有的序列后b離子的索引表就完成了。
[0068]步驟109,重復(fù)101到108步驟,將其中的前綴質(zhì)量換成后綴質(zhì)量,建立y離子索引表。
[0069]二、肽段索引及其建立方法
[0070]肽段索引也是發(fā)明人為實現(xiàn)基于開放式搜索的交聯(lián)二肽快速鑒定而提出的新概念。肽段索引的每個索引項包括:肽段質(zhì)量(指中性質(zhì)量)和與之對應(yīng)的肽段序列。肽段質(zhì)量可以看做key,即用于檢索的關(guān)鍵詞,與之對應(yīng)的肽段序列則可以看做value,即索引值。
[0071]圖2示出了本發(fā)明一個實施例中肽段索引的創(chuàng)建的流程示意圖,參考圖2,計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后,得到酶切序列列表。再基于酶切肽段列表,根據(jù)每條肽段的質(zhì)量和序列構(gòu)成得到肽段索引。
[0072]在一個優(yōu)選實施例中,建立肽段索引的方法包括下列子步驟:
[0073]步驟201,對于給定的酶切序列列表中的每條肽段序列,加入給定固定修飾,生成修飾肽段。
[0074]步驟202,對于步驟201中的肽段序列,生成所有指定可變修飾形式,得到修飾肽段。
[0075]步驟203,將步驟202得到的修飾肽段質(zhì)量整數(shù)化,即乘以1000后取整,然后以肽段質(zhì)量作為數(shù)組下標(biāo),統(tǒng)計所有修飾肽段質(zhì)量出現(xiàn)的次數(shù)。
[0076]步驟204,從小質(zhì)量到大質(zhì)量,計算每個質(zhì)量累積出現(xiàn)的次數(shù)。
[0077]步驟205,第二遍掃描酶切序列,把每個修飾肽段質(zhì)量的累積次數(shù)作為新的倒排表數(shù)組的下標(biāo),而把數(shù)組中帶修飾的肽段序列作為倒排項。
[0078]步驟206,每記錄一個倒排項,對應(yīng)質(zhì)量的累積次數(shù)減一。掃描完所有的序列后肽段索引表就完成了。
[0079]三、基于碎片索引和肽段索引的交聯(lián)二肽快速鑒定方法
[0080]步驟1:接收待鑒定的串聯(lián)譜圖,提取該串聯(lián)譜圖的所有有效譜峰,根據(jù)譜峰計算所檢測到的碎片質(zhì)量。將碎片質(zhì)量作為碎片查詢關(guān)鍵詞。
[0081]步驟2:根據(jù)碎片質(zhì)量查詢碎片索引,得到候選肽段(相應(yīng)的索引值就是候選肽段)。每張串聯(lián)譜圖可能存在多個有效譜峰,本步驟中的候選肽段包含了待鑒定串聯(lián)譜圖所有譜峰在碎片索引中所對應(yīng)的肽段,對于每張串聯(lián)譜圖,它的所有候選肽段構(gòu)成了該串聯(lián)譜圖的候選肽段集合。
[0082]步驟3:通過粗打分對候選肽段集合進(jìn)行過濾,篩除匹配度較差的候選肽段。本步驟中,對候選肽段進(jìn)行粗打分(pre-scoring,具體方法可參考文獻(xiàn)Yang, B.,etal.,Identificat1n of cross-1 inked peptides from complex samples.NatureMethods, 2012.9(9):p.904-+),每張譜保留前若干名(例如前十名)組成過濾后的候選肽段集合。由于本發(fā)明所鑒定的是交聯(lián)二肽,而在串聯(lián)質(zhì)譜檢測中,通常會有一條肽段匹配相對好于另一條肽段,因此本步驟中通過粗打分所保留的備選肽段應(yīng)為α肽。后續(xù)步驟中還需要再鑒定出可能的β肽。
[0083]步驟4:根據(jù)串聯(lián)譜圖所對應(yīng)的一級譜圖,計算母離子的質(zhì)量,母離子即一級譜所鑒定的碎裂前的交聯(lián)二肽離子。根據(jù)母離子和α肽質(zhì)量(例如直接用母離子質(zhì)量減去α肽質(zhì)量),即可得到譜圖信息所反映的β肽的質(zhì)量。這個β肽質(zhì)量可以作為肽段索引檢索的關(guān)鍵詞。
[0084]本步驟中,遍歷所有備選α肽,對于任一條備選α肽,根據(jù)母離子和α肽質(zhì)量得到與之對應(yīng)的β肽的質(zhì)量。
[0085]步驟5:根據(jù)步驟4所得的β肽質(zhì)量檢索肽段索引,得到相應(yīng)的β肽結(jié)構(gòu),這樣就得到了 α肽和β肽組合,可稱為候選交聯(lián)二肽。步驟5完畢后再回到步驟4,直至所有的備選α肽均已遍歷完畢,得到所有的候選交聯(lián)二肽。
[0086]步驟6:對所有候選交聯(lián)二肽進(jìn)行細(xì)打分并記錄,根據(jù)所有備選交聯(lián)二肽的細(xì)打分得出鑒定結(jié)果。細(xì)打分即:refined score,具體方法可參考文獻(xiàn)Yang, B.,etal., Identificat1n of cross-1 inked peptides from complex samples.NatureMethods, 2012.9(9):p.904-+。
[0087]進(jìn)一步地,分析交聯(lián)二肽的質(zhì)譜實驗,母離子在主干上一次碎裂通常形成b離子與y離子。由于交聯(lián)劑通常不斷裂,所以會形成一些帶有一條完整肽段的碎裂離子,即交聯(lián)b離子或者交聯(lián)y離子。與之對應(yīng)不帶有交聯(lián)劑部分的離子稱為普通b離子和普通y離子。在提取譜峰時,譜峰的離子身份未知,為降低錯誤轉(zhuǎn)換的概率,可以通過統(tǒng)計標(biāo)注數(shù)據(jù)中各種類型離子出現(xiàn)的經(jīng)驗頻率,以及不同離子的質(zhì)量分布來降低錯誤轉(zhuǎn)換的概率,同時縮小離子索引搜索的空間。因此,在一個優(yōu)選實施例中,對于每張串聯(lián)譜圖(即二級譜圖),首先對譜峰進(jìn)行過濾和分類,以盡可能在保證準(zhǔn)確率的前提下減少搜索空間。根據(jù)本發(fā)明的一個優(yōu)選實施例,步驟I包括下列子步驟:
[0088]步驟11,對于每張譜圖,依次標(biāo)記噪音峰、母離子峰、失水峰、失氨峰、同位素峰、普通譜峰,標(biāo)記中間四種類型譜峰的同時確定譜峰的電荷狀態(tài)。
[0089]步驟12,只保留普通譜峰,去除其余五種類型的譜峰,并對剩余譜峰按照強(qiáng)度由高到底排序。
[0090]步驟13,在步驟12保留的譜峰中,從高強(qiáng)度至低強(qiáng)度依次提取質(zhì)量范圍在2000道爾頓以下的98根峰作為普通I離子。
[0091]步驟14,在步驟12保留的譜峰中,從高強(qiáng)度至低強(qiáng)度依次提取質(zhì)量范圍在900道爾頓以上的34根譜峰作為交聯(lián)I離子。
[0092]步驟15,在步驟12保留的譜峰中,從高強(qiáng)度至低強(qiáng)度依次提取質(zhì)量范圍在1500道爾頓以下的38根譜峰作為普通b離子。
[0093]步驟16,在步驟12保留的譜峰中,從高強(qiáng)度至低強(qiáng)度依次提取質(zhì)量范圍在900道爾頓以上的30根譜峰作為交聯(lián)b離子。
[0094]上述步驟13至16實際上是通過譜峰的特征(包括強(qiáng)度和質(zhì)量)對碎片離子進(jìn)行提取和分類,得到各個有效譜峰(指步驟12之后保留下的譜峰)對應(yīng)的碎片離子類型,這個分類過程也可以省略,在省略時,每個有效譜峰都可能存在四種可能,即它可能是普通b離子,交聯(lián)I離子,交聯(lián)b離子,或者普通y離子。
[0095]在一個優(yōu)選實施例中,所述步驟2包括下列子步驟:
[0096]步驟21,假設(shè)交聯(lián)二肽碎裂后,形成一普通b離子和一交聯(lián)y離子,用普通b離子的中性質(zhì)量查詢b離子索引得到潛在候選序列的b離子匹配計數(shù)。其中,交聯(lián)y離子是指攜帶了一條β肽的y離子,普通b離子是指未攜帶β肽的b離子。普通b離子的中性質(zhì)量可以根據(jù)步驟I中所得的譜峰及其對應(yīng)的碎片離子類型得到。例如,如果一個有效譜峰質(zhì)量為1400道爾頓,在步驟13至16中判斷該譜峰為普通b離子,則可能直接通過該譜峰獲得相應(yīng)普通b離子的中性質(zhì)量。如果一個有效譜峰質(zhì)量為1100,并在步驟13至16中判斷該譜峰為交聯(lián)y離子,則可以通過對應(yīng)一級譜圖獲得其母離子質(zhì)量,然后減去根據(jù)該譜峰所得的交聯(lián)y離子質(zhì)量,進(jìn)而再考慮電荷的影響,即可獲得碎片離子中普通b離子的中性質(zhì)量。
[0097]步驟22,假設(shè)交聯(lián)二肽碎裂后,形成一普通y離子和一交聯(lián)b離子,用普通y離子的中性質(zhì)量查詢I離子索引得到潛在候選序列的I離子匹配計數(shù)。其中,交聯(lián)b離子是指攜帶了一條β肽的b離子,普通y離子是指未攜帶β肽的y離子。普通y離子的中性質(zhì)量的獲取方法可以根據(jù)步驟I中所得的譜峰及其對應(yīng)的碎片離子類型得到。此處不再贅述。
[0098]需要說明的是,如果省略上述步驟13至16,即不對有效譜峰的碎片類型進(jìn)行劃分,則每個有效譜峰均有四種可能,為保證準(zhǔn)確度,需要分別假設(shè)每個有效譜峰為某種特定類型的碎片離子,然后再計算相應(yīng)的普通b或者y離子的中性質(zhì)量,最后基于相應(yīng)的離子索引(b離子索引或者I離子索引)進(jìn)行檢索。
[0099]步驟23,計算每條候選序列的離子匹配數(shù),即b離子匹配計數(shù)與y離子匹配計數(shù)的總和。
[0100]步驟24,保留碎片離子匹配數(shù)大于等于2的肽段序列。碎片離子匹配數(shù)小于2的肽段絕大多數(shù)是隨機(jī)匹配,并且規(guī)模巨大,因此本步驟中提前排除這些序列可以提高鑒定效率。
[0101]在一個優(yōu)選實施例中,所述步驟3包括下列子步驟:
[0102]步驟31,對步驟24中選出的每條肽段序列,加入固定修飾。
[0103]步驟32,對步驟31加修飾后的肽段序列,生成所有的可變修飾形式。
[0104]步驟33,對于每條肽段生成的各種修飾形式,保留具有交聯(lián)特性并且質(zhì)量小于等于母離子質(zhì)量的序列,對這些序列生成理論譜依次與實際的串聯(lián)譜圖(二級譜圖)進(jìn)行粗打分,選擇打分最高的一名。其中,母離子質(zhì)量根據(jù)實際串聯(lián)質(zhì)譜對應(yīng)的一級譜圖得出。
[0105]步驟34,對于每張譜圖,用最小優(yōu)先隊列根據(jù)粗打分保留前十名的肽段序列作為候選α肽段。
[0106]在一個優(yōu)選實施例中,所述步驟4包括下列子步驟:
[0107]步驟41,對于每張二級譜圖,計算該二級譜圖母離子質(zhì)量與步驟24中保留的前十名的肽段(即候選的α肽段)的質(zhì)量差作為β肽的質(zhì)量查詢關(guān)鍵詞。
[0108]步驟42,記錄每條β肽對應(yīng)α肽的存儲位置。
[0109]在一個優(yōu)選實施例中,所述步驟5包括下列子步驟:
[0110]步驟51,利用步驟41中獲得的β肽的質(zhì)量查詢肽段索引獲取β肽候選。
[0111]步驟52,組合α肽與β肽,檢查交聯(lián)位點(diǎn)的合法性,保留合法的候選交聯(lián)二肽。
[0112]在一個優(yōu)選實施例中,所述步驟6包括下列子步驟:
[0113]步驟61,對步驟52檢驗合法的組合肽段對(即候選交聯(lián)二肽)進(jìn)行細(xì)打分。
[0114]步驟62,對于每張譜圖,用最小優(yōu)先隊列根據(jù)細(xì)打分保留前三名的肽段對序列作為輸出。
[0115]與現(xiàn)有技術(shù)相比,本發(fā)明不需使用特殊交聯(lián)劑;搜索速度快,鑒定效率高;搜索靈敏度高。在維持高靈敏度的情況下,本發(fā)明相比傳統(tǒng)的PLink開放式搜索至少加速10倍。
[0116]最后應(yīng)說明的是,以上實施例僅用以描述本發(fā)明的技術(shù)方案而不是對本技術(shù)方法進(jìn)行限制,本發(fā)明在應(yīng)用上可以延伸為其它的修改、變化、應(yīng)用和實施例,并且因此認(rèn)為所有這樣的修改、變化、應(yīng)用、實施例都在本發(fā)明的精神和教導(dǎo)范圍內(nèi)。
【主權(quán)項】
1.一種交聯(lián)二肽快速鑒定方法,其特征在于,包括下列步驟: 1)提取待鑒定串聯(lián)譜圖中的有效譜峰,根據(jù)各個有效譜峰對應(yīng)的質(zhì)量,查找碎片索引得到相應(yīng)的肽段序列作為候選α肽序列,其中所述碎片索引記錄了各個碎片質(zhì)量及其對應(yīng)的肽段序列; 2)對于每個候選α肽序列,根據(jù)所述待鑒定串聯(lián)譜圖的母離子質(zhì)量計算相應(yīng)的β肽質(zhì)量,進(jìn)而得到相應(yīng)的候選β肽序列,將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽; 3)將步驟2)所得的候選交聯(lián)二肽與串聯(lián)譜圖進(jìn)行精細(xì)匹配,得出鑒定結(jié)果。2.根據(jù)權(quán)利要求1所述的交聯(lián)二肽快速鑒定方法,其特征在于,所述步驟I)中,所述碎片索引根據(jù)酶切序列列表建立,酶切序列列表是計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后,得到的肽段序列列表。3.根據(jù)權(quán)利要求2所述的交聯(lián)二肽快速鑒定方法,其特征在于,所述步驟I)中,所述碎片索引包括與前綴碎片對應(yīng)的b離子索引和與后綴碎片對應(yīng)的y離子索引,所述碎片索引的建立方法如下: Ia)對肽段序列列表的每條肽段序列,分析該條序列碎裂時所有可能產(chǎn)生的前綴碎片,得出對應(yīng)的前綴碎片質(zhì)量和肽段序列,進(jìn)而獲得b離子索引; Ib)對肽段序列列表的每條肽段序列,分析該條序列碎裂時所有可能產(chǎn)生的后綴碎片,得出對應(yīng)的后綴碎片質(zhì)量和肽段序列,進(jìn)而獲得y離子索引。4.根據(jù)權(quán)利要求3所述的交聯(lián)二肽快速鑒定方法,其特征在于,所述步驟I)包括下列子步驟: 11)提取待鑒定串聯(lián)譜圖中的有效譜峰; 12)對于每個有效譜峰,計算其所對應(yīng)的碎片質(zhì)量,然后根據(jù)b離子索引和y離子索引,得到該有效譜峰所對應(yīng)的可能的肽段序列作為候選α肽序列; 13)從待鑒定串聯(lián)譜圖的各個有效譜峰的候選α肽序列中,選出該待鑒定串聯(lián)譜圖的候選α肽序列。5.根據(jù)權(quán)利要求4所述的交聯(lián)二肽快速鑒定方法,其特征在于,所述步驟12)還包括:根據(jù)有效譜峰的特征,判斷該有效譜峰是普通b離子,交聯(lián)b離子,普通y離子,還是交聯(lián)y離子所形成的譜峰,然后再選擇對應(yīng)的b離子索引或者I離子索引進(jìn)行查找,得到該有效譜峰所對應(yīng)的可能的肽段序列作為候選α肽序列。6.根據(jù)權(quán)利要求4所述的交聯(lián)二肽快速鑒定方法,其特征在于,所述步驟11)中,通過濾除待鑒定串聯(lián)譜圖中的噪音峰、母離子峰、失水峰、失氨峰和同位素峰得到所述有效譜峰。7.根據(jù)權(quán)利要求4所述的交聯(lián)二肽快速鑒定方法,其特征在于,所述步驟13)還包括:在待鑒定串聯(lián)譜圖的各個有效譜峰的候選α肽序列中,選擇在碎片索引查找中匹配次數(shù)最多的那些候選α肽序列作為該待鑒定串聯(lián)譜圖的候選α肽序列。8.根據(jù)權(quán)利要求7所述的交聯(lián)二肽快速鑒定方法,其特征在于,所述步驟13)還包括:對各個有效譜峰的候選α肽段與待鑒定串聯(lián)譜圖中的匹配程度進(jìn)行粗打分,根據(jù)粗打分結(jié)果選出待鑒定串聯(lián)譜圖的候選α肽序列。9.根據(jù)權(quán)利要求1所述的交聯(lián)二肽快速鑒定方法,其特征在于,所述步驟2)包括下列子步驟: 21)對于每個候選α肽序列,用所述待鑒定串聯(lián)譜圖的母離子質(zhì)量減去該候選α肽序列的質(zhì)量,得出相應(yīng)的β肽質(zhì)量; 22)基于步驟21)所得出的β肽質(zhì)量查找肽段索引,得出相應(yīng)的候選β肽序列,進(jìn)而將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽;其中所述肽段索引記錄了各個肽段質(zhì)量及其對應(yīng)的肽段序列。10.根據(jù)權(quán)利要求9所述的交聯(lián)二肽快速鑒定方法,其特征在于,所述步驟21)中,根據(jù)所述待鑒定串聯(lián)譜圖的一級譜圖得到其母離子質(zhì)量。
【文檔編號】G06F19/18GK106033501SQ201510112890
【公開日】2016年10月19日
【申請日】2015年3月16日
【發(fā)明人】孟佳明, 樊盛博, 遲浩, 盧珊, 孫瑞祥, 董夢秋, 賀思敏
【申請人】中國科學(xué)院計算技術(shù)研究所