一種交聯(lián)二肽快速鑒定方法

文檔序號：10665833閱讀：530來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種交聯(lián)二肽快速鑒定方法
【專利摘要】本發(fā)明提供一種交聯(lián)二肽快速鑒定方法，包括：1)提取待鑒定串聯(lián)譜圖中的有效譜峰，根據(jù)各個有效譜峰對應(yīng)的質(zhì)量，查找碎片索引得到相應(yīng)的肽段序列作為候選α肽序列，其中所述碎片索引記錄了各個碎片質(zhì)量及其對應(yīng)的肽段序列；2)對于每個候選α肽序列，根據(jù)所述待鑒定串聯(lián)譜圖的母離子質(zhì)量計算相應(yīng)的β肽質(zhì)量，進(jìn)而得到相應(yīng)的候選β肽序列，將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽；3)將步驟2)所得的候選交聯(lián)二肽與串聯(lián)譜圖進(jìn)行精細(xì)匹配，得出鑒定結(jié)果。本發(fā)明不需使用特殊交聯(lián)劑；搜索速度快，鑒定效率高；搜索靈敏度高。
【專利說明】
一種交聯(lián)二肽快速鑒定方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及生物信息學(xué)技術(shù)領(lǐng)域，具體地說，本發(fā)明涉及一種交聯(lián)二肽快速鑒定方法。
【背景技術(shù)】
[0002]化學(xué)交聯(lián)結(jié)合質(zhì)譜技術(shù)(簡稱交聯(lián)質(zhì)譜技術(shù))是規(guī)?；芯康鞍踪|(zhì)間相互作用與蛋白質(zhì)折疊的有效方法，其核心研究和鑒定的對象是交聯(lián)二肽，這源于交聯(lián)二肽的交聯(lián)位點(diǎn)提供了序列相距遠(yuǎn)而空間相距近的信息。交聯(lián)質(zhì)譜技術(shù)中，鑒定交聯(lián)二肽主要通過串聯(lián)譜圖的數(shù)據(jù)庫搜索技術(shù)實現(xiàn)。然而不同于傳統(tǒng)單肽序列搜索，交聯(lián)二肽的數(shù)據(jù)庫搜索的候選空間增長到了原單肽序列數(shù)量的平方級的規(guī)模，這給大規(guī)模數(shù)據(jù)庫搜索帶來了挑戰(zhàn)?，F(xiàn)有的解決方案分三種技術(shù)路線，分別是以xQuest為代表的同位素標(biāo)記方法，以PIR技術(shù)(Protein Interact1n Reporter)為代表的三級譜鑒定方法和以pLink為代表的開放式搜索方法，這三種路線從不同的角度降低了搜索難度。接下來分別介紹這三種技術(shù)。
[0003]xQuest的同位素標(biāo)記方法利用輕重相差12道爾頓的交聯(lián)劑在一級譜上形成的固定質(zhì)量差能夠找到輕重對的交聯(lián)串聯(lián)譜圖。進(jìn)一步，通過比對兩張串聯(lián)譜圖，區(qū)分出普通離子和交聯(lián)離子。先利用普通離子查詢離子標(biāo)簽做一次匹配篩選，再結(jié)合交聯(lián)離子做進(jìn)一步的篩選，取前5000名。最后對5000名候選肽兩兩組合，以母離子質(zhì)量作為限制篩選出誤差范圍內(nèi)的候選肽段對，進(jìn)行細(xì)打分。xQuest方案利用同位素標(biāo)記交聯(lián)劑和離子標(biāo)簽粗步篩選，可以將每張譜圖的單肽候選縮減在5，000名以內(nèi)，有助于提高交聯(lián)二肽的鑒定速度。然而，xQuest方案需要使用相差12道爾頓的輕重標(biāo)記的交聯(lián)劑，這限制了該方法應(yīng)用到更廣泛的交聯(lián)鑒定中，例如xQuest方案無法用于二硫鍵鑒定。
[0004]PIR技術(shù)使用了一種能夠在質(zhì)譜儀中低能量碎裂的交聯(lián)劑，并且該交聯(lián)劑釋放的特征離子能夠被檢測出，以此判斷出交聯(lián)信號的存在。進(jìn)一步，對剩下的兩條完整的子序列掃描三級譜圖，用單肽搜索的方法鑒定。由于PIR技術(shù)通過設(shè)計能夠在質(zhì)譜儀中低能量被碎裂和被檢測的交聯(lián)劑來將問題轉(zhuǎn)化為常規(guī)肽段的鑒定問題，因此能夠有效降低候選規(guī)模。然而，PIR技術(shù)不僅對交聯(lián)劑有要求，對質(zhì)譜儀也有要求，并且需要集成特殊的信號離子檢測軟件。此外，這種PIR技術(shù)所需的交聯(lián)劑容易設(shè)計得過長、水溶性差。這些都導(dǎo)致PIR技術(shù)的適用范圍較窄。
[0005]pLink的開放式搜索方法將兩條交聯(lián)肽段當(dāng)作彼此的修飾，將修飾質(zhì)量加在每條候選單肽上，先和譜圖進(jìn)行粗打分，分別篩選出打分最高的前500名的α肽段(質(zhì)量大于等于譜圖母離子質(zhì)量一半的肽段)和500名的β肽(質(zhì)量小于譜圖母離子質(zhì)量一半的肽段)，而后兩兩組合兩個列表中的肽段序列，進(jìn)行細(xì)打分。PLink開放式的方法相比前兩種方法的優(yōu)勢在于不需使用特殊的交聯(lián)劑，容易推廣到內(nèi)源交聯(lián)的形式上，實驗成本低、應(yīng)用面廣。然而，這種方法中序列庫中接近一半的肽段都要與每張譜圖進(jìn)行粗打分，存在計算量大的問題，進(jìn)而造成鑒定效率低。

【發(fā)明內(nèi)容】

[0006]因此，本發(fā)明的任務(wù)是提供一種不需使用特殊交聯(lián)劑的鑒定效率高的交聯(lián)二肽快速鑒定解決方案。
[0007]根據(jù)本發(fā)明的一個方面，提供了一種交聯(lián)二肽快速鑒定方法，包括下列步驟:
[0008]I)提取待鑒定串聯(lián)譜圖中的有效譜峰，根據(jù)各個有效譜峰對應(yīng)的質(zhì)量，查找碎片索引得到相應(yīng)的肽段序列作為候選α肽序列，所述碎片索引記錄了各個碎片質(zhì)量及其對應(yīng)的肽段序列；
[0009]2)對于每個候選α肽序列，根據(jù)所述待鑒定串聯(lián)譜圖的母離子質(zhì)量計算相應(yīng)的β肽質(zhì)量，進(jìn)而得到相應(yīng)的候選β肽序列，將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽；
[0010]3)將步驟2)所得的候選交聯(lián)二肽與串聯(lián)譜圖進(jìn)行精細(xì)匹配，得出鑒定結(jié)果。
[0011]其中，所述步驟I)中，所述碎片索引根據(jù)酶切序列列表建立，酶切序列列表是計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后，得到的肽段序列列表。
[0012]其中，所述步驟I)中，所述碎片索引包括與前綴碎片對應(yīng)的b離子索引和與后綴碎片對應(yīng)的I離子索引，所述碎片索引的建立方法如下:
[0013]Ia)對肽段序列列表的每條肽段序列，分析該條序列碎裂時所有可能產(chǎn)生的前綴碎片，得出對應(yīng)的前綴碎片質(zhì)量和肽段序列，進(jìn)而獲得b離子索引；
[0014]Ib)對肽段序列列表的每條肽段序列，分析該條序列碎裂時所有可能產(chǎn)生的后綴碎片，得出對應(yīng)的后綴碎片質(zhì)量和肽段序列，進(jìn)而獲得y離子索引。
[0015]其中，所述步驟I)包括下列子步驟:
[0016]11)提取待鑒定串聯(lián)譜圖中的有效譜峰；
[0017]12)對于每個有效譜峰，計算其所對應(yīng)的碎片質(zhì)量，然后根據(jù)b離子索引和y離子索引，得到該有效譜峰所對應(yīng)的可能的肽段序列作為候選α肽序列；
[0018]13)從待鑒定串聯(lián)譜圖的各個有效譜峰的候選α肽序列中，選出該待鑒定串聯(lián)譜圖的候選α肽序列。
[0019]其中，所述步驟12)還包括:根據(jù)有效譜峰的特征，判斷該有效譜峰是普通b離子，交聯(lián)b離子，普通y離子，還是交聯(lián)I離子所形成的譜峰，然后再選擇對應(yīng)的b離子索引或者y離子索引進(jìn)行查找，得到該有效譜峰所對應(yīng)的可能的肽段序列作為候選α肽序列。
[0020]其中，所述步驟11)中，通過濾除待鑒定串聯(lián)譜圖中的噪音峰、母離子峰、失水峰、失氨峰和同位素峰得到所述有效譜峰。
[0021]其中，所述步驟13)還包括:在待鑒定串聯(lián)譜圖的各個有效譜峰的候選α肽序列中，選擇在碎片索引查找中匹配次數(shù)最多的那些候選α肽序列作為該待鑒定串聯(lián)譜圖的候選α肽序列。
[0022]其中，所述步驟13)還包括:對各個有效譜峰的候選α肽段與待鑒定串聯(lián)譜圖中的匹配程度進(jìn)行粗打分，根據(jù)粗打分結(jié)果選出待鑒定串聯(lián)譜圖的候選α肽序列。
[0023]其中，所述步驟2)包括下列子步驟:
[0024]21)對于每個候選α肽序列，用所述待鑒定串聯(lián)譜圖的母離子質(zhì)量減去該候選α肽序列的質(zhì)量，得出相應(yīng)的β肽質(zhì)量；
[0025]22)基于步驟21)所得出的β肽質(zhì)量查找肽段索引，得出相應(yīng)的候選β肽序列，進(jìn)而將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽。
[0026]其中，所述步驟21)中，根據(jù)所述待鑒定串聯(lián)譜圖的一級譜圖得到其母離子質(zhì)量。
[0027]與現(xiàn)有技術(shù)相比，本發(fā)明具有下列技術(shù)效果:
[0028]1、本發(fā)明不需使用特殊交聯(lián)劑。
[0029]2、本發(fā)明的搜索速度快，鑒定效率高。
[0030]3、本發(fā)明的搜索靈敏度高。
[0031]4、本發(fā)明在維持高靈敏度的情況下，相比傳統(tǒng)的pLink開放式搜索至少加速10倍。
【附圖說明】
[0032]以下，結(jié)合附圖來詳細(xì)說明本發(fā)明的實施例，其中:
[0033]圖1示出了本發(fā)明一個實施例中碎片索引的創(chuàng)建的流程示意圖；
[0034]圖2示出了本發(fā)明一個實施例中肽段索引的創(chuàng)建的流程示意圖；
[0035]圖3示出了本發(fā)明一個實施例中基于碎片索引和肽段索引的交聯(lián)二肽快速鑒定的流程示意圖。
【具體實施方式】
[0036]為幫助讀者更好地理解本發(fā)明，首先給出本發(fā)明所涉及的一些專業(yè)詞匯的解釋。
[0037]肽段:由氨基酸排列成的字符串，長度范圍通常在4到100個氨基酸之間。肽段的質(zhì)量是指將構(gòu)成肽段的氨基酸的質(zhì)量求和后的質(zhì)量。肽段一般由蛋白質(zhì)水解得到，蛋白質(zhì)可以理解為很長的肽段。在本領(lǐng)域中，肽段常常也被稱為肽段序列。
[0038]氨基酸:常見的有二十種，一般用二十個大寫英文字母表示，通常每個氨基酸有唯一的質(zhì)量，但也有兩個氨基酸質(zhì)量相同。
[0039]交聯(lián)二肽:兩條肽段通過交聯(lián)劑鏈接在一起的肽段對。
[0040]α肽:本發(fā)明中將一條交聯(lián)二肽中匹配相對好的那條肽段稱為α肽。
[0041]β肽:本發(fā)明中將一條交聯(lián)二肽中匹配相對差的那條肽段稱為β肽。
[0042]以上匹配相對好或者匹配相對差指的是同一條交聯(lián)二肽中的α肽和β肽的相對好或者差。每條交聯(lián)二肽中必然有一條α肽和一條β肽。
[0043]碎片:肽段的一部分片段。
[0044]前綴碎片:肽段中間斷裂后，所形成的左側(cè)(指分子式結(jié)構(gòu)的左側(cè))的碎片。
[0045]后綴碎片:肽段中間斷裂后，所形成的后側(cè)(指分子式結(jié)構(gòu)的右側(cè))的碎片。
[0046]譜圖:通過質(zhì)譜儀測量的帶電離子信號構(gòu)成的圖，一般有兩個維度，質(zhì)荷比(質(zhì)量除以電荷)和強(qiáng)度，通常質(zhì)荷比是測量的關(guān)鍵。通過質(zhì)荷比和電荷可以計算質(zhì)量。
[0047]帶電離子:非中性的攜帶有電荷的離子，一般是正電荷?？梢允侨我獾膸щ娢镔|(zhì)，比如氨基酸、肽段或者肽段的片段。在串聯(lián)質(zhì)譜技術(shù)中，所檢測的肽段或交聯(lián)二肽或碎片均攜帶有電荷。
[0048]—級譜圖:檢測的帶電離子為肽段或交聯(lián)二肽的譜圖。
[0049]二級譜圖:檢測的帶電離子為肽段或交聯(lián)二肽碎裂后所產(chǎn)生的碎片的譜圖，其中所檢測的碎片既有前綴碎片，也有后綴碎片。在本領(lǐng)域中，二級譜圖有時也被稱為串聯(lián)譜圖。
[0050]b離子:被質(zhì)譜儀檢測到的前綴碎片。
[0051]y離子:被質(zhì)譜儀檢測到的后綴碎片。
[0052]由于可被質(zhì)譜儀檢測的碎片均攜帶有電荷，所以本文中也將肽段或交聯(lián)二肽碎裂后產(chǎn)生的可被質(zhì)譜儀檢測的碎片稱為碎片離子。
[0053]如前文所述，開放式搜索更具普適性、推廣能力強(qiáng)，但現(xiàn)有的開放式搜索方案計算量大，鑒定效率低。發(fā)明人在進(jìn)行交聯(lián)鑒定的加速研究時，發(fā)現(xiàn)開放式搜索的技術(shù)瓶頸在于粗打分次數(shù)過多，如果建立碎片索引，就能夠快速篩選掉大量無效候選肽段，從而大規(guī)模降低打分次數(shù)，顯著提升搜索速度。進(jìn)一步地，發(fā)明人還發(fā)現(xiàn)基于碎片離子索引的技術(shù)被引入后，碎片匹配需要面對較大的候選空間，為應(yīng)對這一情況，發(fā)明人進(jìn)一步提出了經(jīng)驗譜峰提取算法(即提取有效譜峰并對有效譜峰進(jìn)行初步分類)來保證搜索的靈敏度。
[0054]下面結(jié)合附圖和實施例對本發(fā)明做進(jìn)一步地描述。
[0055]根據(jù)本發(fā)明的一個實施例提供了一種交聯(lián)二肽快速鑒定方法，該方法包括:建立碎片索引，建立肽段索引，以及基于碎片索引和肽段索引的交聯(lián)二肽快速鑒定三個部分，下面分別介紹。
[0056]—、碎片索引及其建立方法
[0057]碎片索引是發(fā)明人為實現(xiàn)基于開放式搜索的交聯(lián)二肽快速鑒定而提出的新概念。碎片索引的每個索引項包括:碎片質(zhì)量(指碎片中性質(zhì)量，即不帶電荷時的質(zhì)量)和與之對應(yīng)的肽段序列。其中，每個索引項的碎片質(zhì)量代表一個很小的質(zhì)量區(qū)間，該碎片質(zhì)量所對應(yīng)的肽段序列來自于已知的酶切序列列表(酶切序列列表是計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后，得到的肽段序列列表)，一個碎片質(zhì)量可以對應(yīng)于多個肽段序列。在碎片索引中，碎片質(zhì)量可以看做key，即用于檢索的關(guān)鍵詞，與之對應(yīng)的肽段序列則可以看做value，即索引值。
[0058]圖1示出了本發(fā)明一個實施例中碎片索引的創(chuàng)建的流程示意圖，參考圖1，計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后，得到酶切序列列表。再基于酶切肽段列表，對每一條肽段用計算機(jī)模擬碎裂，得到碎片列表，最后根據(jù)碎片的質(zhì)量和存儲位置得到碎片索引。其中存儲位置實際上就代表了碎片的序列，只要找到存儲位置，即可找到相應(yīng)的碎裂的氨基酸序列
[0059]在一個實施例中，建立碎片索引的方法包括下列步驟:
[0060]步驟101:對于給定的酶切序列列表中的每條序列(即肽段)，分析該條序列碎裂時所有可能產(chǎn)生的前綴碎片(下文中有多處將其簡稱為前綴)，計算所有可能的前綴的質(zhì)量作為b離子索引的關(guān)鍵詞。
[0061]步驟102:根據(jù)預(yù)先給定的質(zhì)譜儀中碎片離子的長度(指碎片離子包括的氨基酸個數(shù))范圍和質(zhì)量范圍，從步驟101所得的所有前綴中濾除在所給定范圍之外的前綴。
[0062]步驟103:根據(jù)給定的固定修飾，計算保留下來前綴加固定修飾后的質(zhì)量。固定修飾是:實驗中引入的一些以很大概率發(fā)生的修飾，搜索時認(rèn)為是必然發(fā)生的修飾。
[0063]步驟104:根據(jù)給定的可變修飾，生成保留下來前綴所有可能的加可變修飾的形式，同時計算質(zhì)量?？勺冃揎検?鑒定中認(rèn)為可能發(fā)生也可能不發(fā)生的修飾。
[0064]步驟105，將步驟104處理后的碎片離子的質(zhì)量(單位為道爾頓)整數(shù)化，即乘以1000后取整，然后以碎片離子的質(zhì)量作為數(shù)組下標(biāo)，統(tǒng)計所有保留的前綴質(zhì)量出現(xiàn)的碎片個數(shù)。
[0065]步驟106，從小質(zhì)量到大質(zhì)量，計算每個前綴質(zhì)量累積出現(xiàn)的碎片個數(shù)。
[0066]步驟107，第二遍掃描酶切序列，把每個碎片質(zhì)量的累積碎片個數(shù)作為新的倒排表數(shù)組的下標(biāo)，而把數(shù)組中存儲碎片來源的酶切序列在蛋白質(zhì)庫中的起始位置和長度作為倒排項。
[0067]步驟108，每記錄一個倒排項，對應(yīng)質(zhì)量的累積碎片個數(shù)減一。掃描完所有的序列后b離子的索引表就完成了。
[0068]步驟109，重復(fù)101到108步驟，將其中的前綴質(zhì)量換成后綴質(zhì)量，建立y離子索引表。
[0069]二、肽段索引及其建立方法
[0070]肽段索引也是發(fā)明人為實現(xiàn)基于開放式搜索的交聯(lián)二肽快速鑒定而提出的新概念。肽段索引的每個索引項包括:肽段質(zhì)量(指中性質(zhì)量)和與之對應(yīng)的肽段序列。肽段質(zhì)量可以看做key，即用于檢索的關(guān)鍵詞，與之對應(yīng)的肽段序列則可以看做value，即索引值。
[0071]圖2示出了本發(fā)明一個實施例中肽段索引的創(chuàng)建的流程示意圖，參考圖2，計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后，得到酶切序列列表。再基于酶切肽段列表，根據(jù)每條肽段的質(zhì)量和序列構(gòu)成得到肽段索引。
[0072]在一個優(yōu)選實施例中，建立肽段索引的方法包括下列子步驟:
[0073]步驟201，對于給定的酶切序列列表中的每條肽段序列，加入給定固定修飾，生成修飾肽段。
[0074]步驟202，對于步驟201中的肽段序列，生成所有指定可變修飾形式，得到修飾肽段。
[0075]步驟203，將步驟202得到的修飾肽段質(zhì)量整數(shù)化，即乘以1000后取整，然后以肽段質(zhì)量作為數(shù)組下標(biāo)，統(tǒng)計所有修飾肽段質(zhì)量出現(xiàn)的次數(shù)。
[0076]步驟204，從小質(zhì)量到大質(zhì)量，計算每個質(zhì)量累積出現(xiàn)的次數(shù)。
[0077]步驟205，第二遍掃描酶切序列，把每個修飾肽段質(zhì)量的累積次數(shù)作為新的倒排表數(shù)組的下標(biāo)，而把數(shù)組中帶修飾的肽段序列作為倒排項。
[0078]步驟206，每記錄一個倒排項，對應(yīng)質(zhì)量的累積次數(shù)減一。掃描完所有的序列后肽段索引表就完成了。
[0079]三、基于碎片索引和肽段索引的交聯(lián)二肽快速鑒定方法
[0080]步驟1:接收待鑒定的串聯(lián)譜圖，提取該串聯(lián)譜圖的所有有效譜峰，根據(jù)譜峰計算所檢測到的碎片質(zhì)量。將碎片質(zhì)量作為碎片查詢關(guān)鍵詞。
[0081]步驟2:根據(jù)碎片質(zhì)量查詢碎片索引，得到候選肽段(相應(yīng)的索引值就是候選肽段)。每張串聯(lián)譜圖可能存在多個有效譜峰，本步驟中的候選肽段包含了待鑒定串聯(lián)譜圖所有譜峰在碎片索引中所對應(yīng)的肽段，對于每張串聯(lián)譜圖，它的所有候選肽段構(gòu)成了該串聯(lián)譜圖的候選肽段集合。
[0082]步驟3:通過粗打分對候選肽段集合進(jìn)行過濾，篩除匹配度較差的候選肽段。本步驟中，對候選肽段進(jìn)行粗打分(pre-scoring，具體方法可參考文獻(xiàn)Yang, B.，etal.，Identificat1n of cross-1 inked peptides from complex samples.NatureMethods, 2012.9(9):p.904-+)，每張譜保留前若干名(例如前十名)組成過濾后的候選肽段集合。由于本發(fā)明所鑒定的是交聯(lián)二肽，而在串聯(lián)質(zhì)譜檢測中，通常會有一條肽段匹配相對好于另一條肽段，因此本步驟中通過粗打分所保留的備選肽段應(yīng)為α肽。后續(xù)步驟中還需要再鑒定出可能的β肽。
[0083]步驟4:根據(jù)串聯(lián)譜圖所對應(yīng)的一級譜圖，計算母離子的質(zhì)量，母離子即一級譜所鑒定的碎裂前的交聯(lián)二肽離子。根據(jù)母離子和α肽質(zhì)量(例如直接用母離子質(zhì)量減去α肽質(zhì)量)，即可得到譜圖信息所反映的β肽的質(zhì)量。這個β肽質(zhì)量可以作為肽段索引檢索的關(guān)鍵詞。
[0084]本步驟中，遍歷所有備選α肽，對于任一條備選α肽，根據(jù)母離子和α肽質(zhì)量得到與之對應(yīng)的β肽的質(zhì)量。
[0085]步驟5:根據(jù)步驟4所得的β肽質(zhì)量檢索肽段索引，得到相應(yīng)的β肽結(jié)構(gòu)，這樣就得到了 α肽和β肽組合，可稱為候選交聯(lián)二肽。步驟5完畢后再回到步驟4，直至所有的備選α肽均已遍歷完畢，得到所有的候選交聯(lián)二肽。
[0086]步驟6:對所有候選交聯(lián)二肽進(jìn)行細(xì)打分并記錄，根據(jù)所有備選交聯(lián)二肽的細(xì)打分得出鑒定結(jié)果。細(xì)打分即:refined score，具體方法可參考文獻(xiàn)Yang, B.，etal., Identificat1n of cross-1 inked peptides from complex samples.NatureMethods, 2012.9(9):p.904-+。
[0087]進(jìn)一步地，分析交聯(lián)二肽的質(zhì)譜實驗，母離子在主干上一次碎裂通常形成b離子與y離子。由于交聯(lián)劑通常不斷裂，所以會形成一些帶有一條完整肽段的碎裂離子，即交聯(lián)b離子或者交聯(lián)y離子。與之對應(yīng)不帶有交聯(lián)劑部分的離子稱為普通b離子和普通y離子。在提取譜峰時，譜峰的離子身份未知，為降低錯誤轉(zhuǎn)換的概率，可以通過統(tǒng)計標(biāo)注數(shù)據(jù)中各種類型離子出現(xiàn)的經(jīng)驗頻率，以及不同離子的質(zhì)量分布來降低錯誤轉(zhuǎn)換的概率，同時縮小離子索引搜索的空間。因此，在一個優(yōu)選實施例中，對于每張串聯(lián)譜圖(即二級譜圖)，首先對譜峰進(jìn)行過濾和分類，以盡可能在保證準(zhǔn)確率的前提下減少搜索空間。根據(jù)本發(fā)明的一個優(yōu)選實施例，步驟I包括下列子步驟:
[0088]步驟11，對于每張譜圖，依次標(biāo)記噪音峰、母離子峰、失水峰、失氨峰、同位素峰、普通譜峰，標(biāo)記中間四種類型譜峰的同時確定譜峰的電荷狀態(tài)。
[0089]步驟12，只保留普通譜峰，去除其余五種類型的譜峰，并對剩余譜峰按照強(qiáng)度由高到底排序。
[0090]步驟13，在步驟12保留的譜峰中，從高強(qiáng)度至低強(qiáng)度依次提取質(zhì)量范圍在2000道爾頓以下的98根峰作為普通I離子。
[0091]步驟14，在步驟12保留的譜峰中，從高強(qiáng)度至低強(qiáng)度依次提取質(zhì)量范圍在900道爾頓以上的34根譜峰作為交聯(lián)I離子。
[0092]步驟15，在步驟12保留的譜峰中，從高強(qiáng)度至低強(qiáng)度依次提取質(zhì)量范圍在1500道爾頓以下的38根譜峰作為普通b離子。
[0093]步驟16，在步驟12保留的譜峰中，從高強(qiáng)度至低強(qiáng)度依次提取質(zhì)量范圍在900道爾頓以上的30根譜峰作為交聯(lián)b離子。
[0094]上述步驟13至16實際上是通過譜峰的特征(包括強(qiáng)度和質(zhì)量)對碎片離子進(jìn)行提取和分類，得到各個有效譜峰(指步驟12之后保留下的譜峰)對應(yīng)的碎片離子類型，這個分類過程也可以省略，在省略時，每個有效譜峰都可能存在四種可能，即它可能是普通b離子，交聯(lián)I離子，交聯(lián)b離子，或者普通y離子。
[0095]在一個優(yōu)選實施例中，所述步驟2包括下列子步驟:
[0096]步驟21，假設(shè)交聯(lián)二肽碎裂后，形成一普通b離子和一交聯(lián)y離子，用普通b離子的中性質(zhì)量查詢b離子索引得到潛在候選序列的b離子匹配計數(shù)。其中，交聯(lián)y離子是指攜帶了一條β肽的y離子，普通b離子是指未攜帶β肽的b離子。普通b離子的中性質(zhì)量可以根據(jù)步驟I中所得的譜峰及其對應(yīng)的碎片離子類型得到。例如，如果一個有效譜峰質(zhì)量為1400道爾頓，在步驟13至16中判斷該譜峰為普通b離子，則可能直接通過該譜峰獲得相應(yīng)普通b離子的中性質(zhì)量。如果一個有效譜峰質(zhì)量為1100，并在步驟13至16中判斷該譜峰為交聯(lián)y離子，則可以通過對應(yīng)一級譜圖獲得其母離子質(zhì)量，然后減去根據(jù)該譜峰所得的交聯(lián)y離子質(zhì)量，進(jìn)而再考慮電荷的影響，即可獲得碎片離子中普通b離子的中性質(zhì)量。
[0097]步驟22，假設(shè)交聯(lián)二肽碎裂后，形成一普通y離子和一交聯(lián)b離子，用普通y離子的中性質(zhì)量查詢I離子索引得到潛在候選序列的I離子匹配計數(shù)。其中，交聯(lián)b離子是指攜帶了一條β肽的b離子，普通y離子是指未攜帶β肽的y離子。普通y離子的中性質(zhì)量的獲取方法可以根據(jù)步驟I中所得的譜峰及其對應(yīng)的碎片離子類型得到。此處不再贅述。
[0098]需要說明的是，如果省略上述步驟13至16，即不對有效譜峰的碎片類型進(jìn)行劃分，則每個有效譜峰均有四種可能，為保證準(zhǔn)確度，需要分別假設(shè)每個有效譜峰為某種特定類型的碎片離子，然后再計算相應(yīng)的普通b或者y離子的中性質(zhì)量，最后基于相應(yīng)的離子索引(b離子索引或者I離子索引)進(jìn)行檢索。
[0099]步驟23，計算每條候選序列的離子匹配數(shù)，即b離子匹配計數(shù)與y離子匹配計數(shù)的總和。
[0100]步驟24，保留碎片離子匹配數(shù)大于等于2的肽段序列。碎片離子匹配數(shù)小于2的肽段絕大多數(shù)是隨機(jī)匹配，并且規(guī)模巨大，因此本步驟中提前排除這些序列可以提高鑒定效率。
[0101]在一個優(yōu)選實施例中，所述步驟3包括下列子步驟:
[0102]步驟31，對步驟24中選出的每條肽段序列，加入固定修飾。
[0103]步驟32，對步驟31加修飾后的肽段序列，生成所有的可變修飾形式。
[0104]步驟33，對于每條肽段生成的各種修飾形式，保留具有交聯(lián)特性并且質(zhì)量小于等于母離子質(zhì)量的序列，對這些序列生成理論譜依次與實際的串聯(lián)譜圖(二級譜圖)進(jìn)行粗打分，選擇打分最高的一名。其中，母離子質(zhì)量根據(jù)實際串聯(lián)質(zhì)譜對應(yīng)的一級譜圖得出。
[0105]步驟34，對于每張譜圖，用最小優(yōu)先隊列根據(jù)粗打分保留前十名的肽段序列作為候選α肽段。
[0106]在一個優(yōu)選實施例中，所述步驟4包括下列子步驟:
[0107]步驟41，對于每張二級譜圖，計算該二級譜圖母離子質(zhì)量與步驟24中保留的前十名的肽段(即候選的α肽段)的質(zhì)量差作為β肽的質(zhì)量查詢關(guān)鍵詞。
[0108]步驟42，記錄每條β肽對應(yīng)α肽的存儲位置。
[0109]在一個優(yōu)選實施例中，所述步驟5包括下列子步驟:
[0110]步驟51，利用步驟41中獲得的β肽的質(zhì)量查詢肽段索引獲取β肽候選。
[0111]步驟52，組合α肽與β肽，檢查交聯(lián)位點(diǎn)的合法性，保留合法的候選交聯(lián)二肽。
[0112]在一個優(yōu)選實施例中，所述步驟6包括下列子步驟:
[0113]步驟61，對步驟52檢驗合法的組合肽段對(即候選交聯(lián)二肽)進(jìn)行細(xì)打分。
[0114]步驟62，對于每張譜圖，用最小優(yōu)先隊列根據(jù)細(xì)打分保留前三名的肽段對序列作為輸出。
[0115]與現(xiàn)有技術(shù)相比，本發(fā)明不需使用特殊交聯(lián)劑；搜索速度快，鑒定效率高；搜索靈敏度高。在維持高靈敏度的情況下，本發(fā)明相比傳統(tǒng)的PLink開放式搜索至少加速10倍。
[0116]最后應(yīng)說明的是，以上實施例僅用以描述本發(fā)明的技術(shù)方案而不是對本技術(shù)方法進(jìn)行限制，本發(fā)明在應(yīng)用上可以延伸為其它的修改、變化、應(yīng)用和實施例，并且因此認(rèn)為所有這樣的修改、變化、應(yīng)用、實施例都在本發(fā)明的精神和教導(dǎo)范圍內(nèi)。
【主權(quán)項】
1.一種交聯(lián)二肽快速鑒定方法，其特征在于，包括下列步驟: 1)提取待鑒定串聯(lián)譜圖中的有效譜峰，根據(jù)各個有效譜峰對應(yīng)的質(zhì)量，查找碎片索引得到相應(yīng)的肽段序列作為候選α肽序列，其中所述碎片索引記錄了各個碎片質(zhì)量及其對應(yīng)的肽段序列； 2)對于每個候選α肽序列，根據(jù)所述待鑒定串聯(lián)譜圖的母離子質(zhì)量計算相應(yīng)的β肽質(zhì)量，進(jìn)而得到相應(yīng)的候選β肽序列，將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽； 3)將步驟2)所得的候選交聯(lián)二肽與串聯(lián)譜圖進(jìn)行精細(xì)匹配，得出鑒定結(jié)果。2.根據(jù)權(quán)利要求1所述的交聯(lián)二肽快速鑒定方法，其特征在于，所述步驟I)中，所述碎片索引根據(jù)酶切序列列表建立，酶切序列列表是計算機(jī)模擬酶切蛋白質(zhì)序列庫中的蛋白質(zhì)序列后，得到的肽段序列列表。3.根據(jù)權(quán)利要求2所述的交聯(lián)二肽快速鑒定方法，其特征在于，所述步驟I)中，所述碎片索引包括與前綴碎片對應(yīng)的b離子索引和與后綴碎片對應(yīng)的y離子索引，所述碎片索引的建立方法如下: Ia)對肽段序列列表的每條肽段序列，分析該條序列碎裂時所有可能產(chǎn)生的前綴碎片，得出對應(yīng)的前綴碎片質(zhì)量和肽段序列，進(jìn)而獲得b離子索引； Ib)對肽段序列列表的每條肽段序列，分析該條序列碎裂時所有可能產(chǎn)生的后綴碎片，得出對應(yīng)的后綴碎片質(zhì)量和肽段序列，進(jìn)而獲得y離子索引。4.根據(jù)權(quán)利要求3所述的交聯(lián)二肽快速鑒定方法，其特征在于，所述步驟I)包括下列子步驟: 11)提取待鑒定串聯(lián)譜圖中的有效譜峰； 12)對于每個有效譜峰，計算其所對應(yīng)的碎片質(zhì)量，然后根據(jù)b離子索引和y離子索引，得到該有效譜峰所對應(yīng)的可能的肽段序列作為候選α肽序列； 13)從待鑒定串聯(lián)譜圖的各個有效譜峰的候選α肽序列中，選出該待鑒定串聯(lián)譜圖的候選α肽序列。5.根據(jù)權(quán)利要求4所述的交聯(lián)二肽快速鑒定方法，其特征在于，所述步驟12)還包括:根據(jù)有效譜峰的特征，判斷該有效譜峰是普通b離子，交聯(lián)b離子，普通y離子，還是交聯(lián)y離子所形成的譜峰，然后再選擇對應(yīng)的b離子索引或者I離子索引進(jìn)行查找，得到該有效譜峰所對應(yīng)的可能的肽段序列作為候選α肽序列。6.根據(jù)權(quán)利要求4所述的交聯(lián)二肽快速鑒定方法，其特征在于，所述步驟11)中，通過濾除待鑒定串聯(lián)譜圖中的噪音峰、母離子峰、失水峰、失氨峰和同位素峰得到所述有效譜峰。7.根據(jù)權(quán)利要求4所述的交聯(lián)二肽快速鑒定方法，其特征在于，所述步驟13)還包括:在待鑒定串聯(lián)譜圖的各個有效譜峰的候選α肽序列中，選擇在碎片索引查找中匹配次數(shù)最多的那些候選α肽序列作為該待鑒定串聯(lián)譜圖的候選α肽序列。8.根據(jù)權(quán)利要求7所述的交聯(lián)二肽快速鑒定方法，其特征在于，所述步驟13)還包括:對各個有效譜峰的候選α肽段與待鑒定串聯(lián)譜圖中的匹配程度進(jìn)行粗打分，根據(jù)粗打分結(jié)果選出待鑒定串聯(lián)譜圖的候選α肽序列。9.根據(jù)權(quán)利要求1所述的交聯(lián)二肽快速鑒定方法，其特征在于，所述步驟2)包括下列子步驟: 21)對于每個候選α肽序列，用所述待鑒定串聯(lián)譜圖的母離子質(zhì)量減去該候選α肽序列的質(zhì)量，得出相應(yīng)的β肽質(zhì)量； 22)基于步驟21)所得出的β肽質(zhì)量查找肽段索引，得出相應(yīng)的候選β肽序列，進(jìn)而將候選α肽序列和相應(yīng)的候選β肽序列組合得到候選交聯(lián)二肽；其中所述肽段索引記錄了各個肽段質(zhì)量及其對應(yīng)的肽段序列。10.根據(jù)權(quán)利要求9所述的交聯(lián)二肽快速鑒定方法，其特征在于，所述步驟21)中，根據(jù)所述待鑒定串聯(lián)譜圖的一級譜圖得到其母離子質(zhì)量。
【文檔編號】G06F19/18GK106033501SQ201510112890
【公開日】2016年10月19日
【申請日】2015年3月16日
【發(fā)明人】孟佳明, 樊盛博, 遲浩, 盧珊, 孫瑞祥, 董夢秋, 賀思敏
【申請人】中國科學(xué)院計算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孟佳明;樊盛博;遲浩;盧珊;孫瑞祥;董夢秋;賀思敏;
技術(shù)所有人：中國科學(xué)院計算技術(shù)研究所;
我是此專利的發(fā)明人

上一篇：鑒定病毒的方法和裝置的制造方法
上一篇：一種幼兒健康管理系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

交聯(lián)度測試方法相關(guān)技術(shù)

eva交聯(lián)度測試方法相關(guān)技術(shù)

交聯(lián)密度測試方法相關(guān)技術(shù)

羧甲基殼聚糖交聯(lián)方法相關(guān)技術(shù)

交聯(lián)方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種交聯(lián)二肽快速鑒定方法