一種多肽譜匹配數(shù)據(jù)的在線魯棒PU學習方法

文檔序號：39616098發(fā)布日期：2024-10-11 13:27閱讀：15來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>醫(yī)藥醫(yī)療技術(shù)的改進;醫(yī)療器械制造及應(yīng)用技術(shù)

本發(fā)明涉及一種數(shù)據(jù)分析方法，尤其涉及一種多肽譜匹配數(shù)據(jù)的在線魯棒pu學習方法。

背景技術(shù)：

1、生物質(zhì)譜技術(shù)作為生物信息學的強大工具，是蛋白質(zhì)鑒定的核心技術(shù)之一。結(jié)合數(shù)據(jù)庫搜索策略的鳥槍法是大規(guī)模蛋白質(zhì)組鑒定的主流方法。該方法的主要步驟包括：(1)酶切：將含有復(fù)雜蛋白質(zhì)混合物的生物標本加入胰蛋白酶等酶將蛋白質(zhì)酶解為肽段；(2)肽段分離：將酶解后的肽段混合物通過液相色譜(lc)或毛細管電泳(ce)等技術(shù)進行有效分離；(3)生成質(zhì)譜圖：分離后的肽段被引入質(zhì)譜儀進行質(zhì)譜分析，生成質(zhì)譜圖；(4)數(shù)據(jù)庫匹配：通過數(shù)據(jù)庫搜索引擎將實驗質(zhì)譜與數(shù)據(jù)庫中的理論質(zhì)譜進行匹配，確定最優(yōu)的多肽譜匹配(psm)，進而確定多肽的氨基酸序列；(5)蛋白質(zhì)序列推導(dǎo)：依據(jù)鑒定出的多肽的氨基酸序列分析并推導(dǎo)出樣品中蛋白質(zhì)的氨基酸序列。

2、由于生物樣品和實驗的復(fù)雜性，肽段的質(zhì)譜圖中常常存在大量噪聲。這導(dǎo)致數(shù)據(jù)庫搜索引擎在多肽譜匹配結(jié)果中存在大量錯誤，正確匹配的比例通常不到50％。psm匹配數(shù)據(jù)存在一些已知的誘騙psm以及未知的psm。目前，主流的peptideprophet和percolator方法未能有效解決這一挑戰(zhàn)。相比之下，pu學習方法具備處理不平衡標注數(shù)據(jù)的能力，適用于psm鑒定問題。本發(fā)明在pu學習方法框架下給出多肽譜匹配鑒定的解決方案。

3、針對pu學習方法，2019年j.bekker等人在文章《beyond?the?selectedcompletely?at?random?assumption?for?learning?from?positive?and?unlabeleddata》中提出了一種基于經(jīng)驗風險的sarpu方法，用于處理pu數(shù)據(jù)學習過程中的標記機制影響，以解決選擇偏差問題。2020年，c.zhang等人在他們的文章《online?positive?andunlabeled?learning》中，提出了一種基于梯度的在線學習方法，pu學習引入了在線訓(xùn)練模式。其中特別介紹了一種名為opudh的方法，該方法使用了凸的雙鉸鏈損失函數(shù)。2021年c.gong等人文章《instance-dependent?positive?and?unlabeled?learning?withlabeling?bias?estimation》中提出了lbelf方法，通過建立圖模型并應(yīng)用em和adam優(yōu)化技術(shù)，解決了正例標記概率不均勻的問題。而本發(fā)明方法的獨特之處在于，它基于在線pu學習框架，針對不滿足scar假定的數(shù)據(jù)集，通過采用適合的非凸損失函數(shù)，能夠快速穩(wěn)定地生成高質(zhì)量的鑒定結(jié)果。且在多肽數(shù)據(jù)集上對比上述三種方法，本方法能夠鑒定出更多的正確多肽譜匹配。

技術(shù)實現(xiàn)思路

1、本發(fā)明解決了在多肽譜匹配鑒定中常見的標記成本高和數(shù)據(jù)不滿足scar假定的問題，提升了識別出正確多肽譜匹配的能力。其所采用的技術(shù)方案是：使用在線魯棒pu學習的方法，通過梯度下降法求解優(yōu)化算法，得到分類器預(yù)測最終的樣本標簽，識別正確的多肽譜匹配，該方法的步驟流程圖可參閱附圖1。

2、所公開的方法主要包括以下步驟：

3、s1、數(shù)據(jù)預(yù)處理，將數(shù)據(jù)的每個特征轉(zhuǎn)換為數(shù)值型數(shù)據(jù)，去除冗余特征，將數(shù)據(jù)做歸一化處理，轉(zhuǎn)換標簽取值。

4、s2、設(shè)預(yù)處理后的訓(xùn)練樣本為其中，t為訓(xùn)練樣本的總個數(shù),xt∈rd為數(shù)據(jù)庫搜索引擎輸出的d維多肽譜匹配,yt∈{-1,+1}，是多肽譜xt對應(yīng)的標簽，取yt＝1表示正類樣本(誘騙psm)，yt＝-1表示其余樣本(目標psm)。多肽鑒定問題實質(zhì)上是從標簽不可靠的目標psm樣本中鑒別正確匹配的樣本。

5、記p＝{xt|yt＝1,t＝1,...,tp},u＝{xt|yt＝0,t＝1,...,tu}，p和u分別是正類和無標記類樣本的集合。則第t時刻的在線瞬時損失如下，對其進行最小化求解：

6、

7、其中，訓(xùn)練樣本為t為訓(xùn)練樣本的總個數(shù),xt∈rd為數(shù)據(jù)庫搜索引擎輸出的d維多肽譜匹配,yt∈{-1,+1}，是多肽譜xt對應(yīng)的標簽，取yt＝1表示正類樣本(誘騙psm)，yt＝-1表示其余樣本(目標psm)，w是rd維的參數(shù)矩陣，p＝{xt|yt＝1,t＝1,...,tp},u＝{xt|yt＝0,t＝1,...,tu}，p和u分別是正類和無標記類樣本的集合，其包含的樣本個數(shù)分別為tp和tu(tp+tu＝t)，為示性函數(shù)當xt屬于p時取1，xt不屬于p時取0，也是示性函數(shù)，xt屬于u時取1，xt屬于u時取0，l(·)為符合偽凸性質(zhì)的損失函數(shù)，f(xt)＝w,xt是線性分類器，是類先驗率，表示t時刻觀察到的正類樣本占總樣本的比例，pt為t時刻時，前t個樣本中屬于集合p的樣本個數(shù)；

8、s3、采用傳統(tǒng)的梯度下降算法求解使得在線瞬時損失最小的權(quán)重參數(shù)其中是在t時刻，當w＝wt時損失l(w)所取的梯度值。

9、s4、依據(jù)參數(shù)w訓(xùn)練得出分類器用于鑒定正確的多肽譜匹配。

10、各步驟的詳細說明：

11、s1、數(shù)據(jù)歸一化：對樣本的各個特征進行處理，通過平移和放縮的方式，使得特征的數(shù)值分布具有零均值和單位方差的統(tǒng)計特征，以避免有些特征對模型訓(xùn)練過程產(chǎn)生過大影響，提高模型的泛化能力。

12、s2、選取合適的損失函數(shù)l(z)是本發(fā)明的關(guān)鍵技術(shù)。由于非凸損失函數(shù)具有更加復(fù)雜的形狀，能夠更好地適應(yīng)現(xiàn)實世界中的復(fù)雜數(shù)據(jù)分布和模式。且一些非凸損失函數(shù)對于異常值和噪聲具有一定的魯棒性，能夠更好地處理數(shù)據(jù)中的異常情況，提高模型的泛化能力。本發(fā)明考慮一類具有下列性質(zhì)的損失函數(shù)l(z)組成的損失函數(shù)族：

13、(a)l(z)+l(-z)＝1；

14、(b)l:r→[0,1],且嚴格遞減；

15、(c)l在r上滿足李普希茲連續(xù)條件，李普希茲常數(shù)為l.

16、l(z1)-l(z2)≤lz1-z2

17、可以驗證sigmoid函數(shù)即滿足上述三條性質(zhì)。附圖2展示了sigmoid函數(shù)及其導(dǎo)函數(shù)的圖像。

18、若一個函數(shù)g:rd→r,對任意w1,w2∈rd,若滿足存在函數(shù)值g(w2)≥g(w1)，則稱函數(shù)g是偽凸的。

19、那么對于一個連續(xù)可微的損失函數(shù)，當它滿足假設(shè)(b)和(c)，且對任意的t，存在κ≥0，使模長xt≤κ，那么可以證明模型(1)中的損失函數(shù)是偽凸的。

20、本發(fā)明中設(shè)模型的參數(shù)序列{wt}由算法1生成。假設(shè)當{wt}和{xt}是有界的，即存在c,h1,h2>0,使得||wt||≤c,0<h1≤||xt||≤h2，t＝1,…,t。當損失函數(shù)滿足偽凸假定，取學習率：并且在條件滿足的情況下，其中是在前t時刻使得模型(1)求和取到最小值時的最優(yōu)解，那么計算可得衡量優(yōu)化算法性能的遺憾界這是一個次線性的遺憾界，說明本發(fā)明提出的方法在隨t趨于無窮時，算法分類性能將近于最優(yōu)的線性分類器的性能。

21、s3、本發(fā)明的在線算法針對瞬時風險進行梯度下降來更新參數(shù)，參數(shù)向量的更新規(guī)則為：

22、

23、其中η＞0為學習率。關(guān)于w在t時刻的在線瞬時損失計算公式為：

24、

25、l′(·)是損失函數(shù)l(·)的導(dǎo)函數(shù)。

26、算法1.魯棒的在線pu分類算法

27、輸入：w1∈rd，數(shù)據(jù)流：(x1,y1),,(xt,yt)，設(shè)定學習率η和類先驗率π

28、輸出：ft(·)＝wt,·

29、步1、初始化參數(shù)w1＝0；

30、步2、在線迭代

31、

32、步3、返回ft(·)＝wt,·

33、s4、依據(jù)訓(xùn)練得出的分類器鑒定可信的多肽譜匹配。

34、記wt是算法1輸出的權(quán)重參數(shù)，相應(yīng)的分類器其中x∈rd為多肽譜匹配樣本各個特征構(gòu)成的向量。

35、對于多肽譜匹配樣本(xt,yt)，通過設(shè)定閾值θ，將預(yù)測得分低于閾值θ的樣本鑒定為正確的多肽譜匹配。

36、按如下公式計算其標簽：

37、

38、其中閾值θ可默認為0，或由fdr方法計算得出。

39、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

40、1、本發(fā)明采用了滿足s2中三條性質(zhì)的非凸損失函數(shù)，代替了傳統(tǒng)pu學習方法中常用的凸函數(shù)?；谶@一技術(shù)構(gòu)建的在線學習算法在處理不符合scar假設(shè)的數(shù)據(jù)集時表現(xiàn)更加魯棒，顯著提高了分類準確率和鑒定正確多肽譜匹配的數(shù)量，確保了結(jié)果的穩(wěn)定性和準確性。

41、2、目前已有的在線pu學習算法的理論性質(zhì)本質(zhì)上依賴于損失函數(shù)的凸性。本發(fā)明提出的在線pu算法在樣本有界等合理的條件下，可證明具有次線性的非平穩(wěn)遺憾界。這一特性使得提出的方法在隨t趨于無窮，算法分類性能將接近于潛在最優(yōu)的線性分類器的性能。

42、3、本發(fā)明所提出的技術(shù)方案所需存儲資源較少。與公告號為cn108388774a的發(fā)明相比，本發(fā)明只需存儲每步迭代的參數(shù)向量wt，而無需存儲迭代至當前步的所有樣本數(shù)據(jù)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁錫軍,詹亞南,朱凱俐,肖安,漸令,宋允全
技術(shù)所有人：中國石油大學（華東）
我是此專利的發(fā)明人

上一篇：一種用于污水消毒的臭氧裝置的制作方法
上一篇：一種粉末攪拌混勻輸送設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細化工與化學 3.生物質(zhì)精煉 4.天然產(chǎn)物化學
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學研究 2.酵母生物學與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評價 3.中藥組方配伍機制研究
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種多肽譜匹配數(shù)據(jù)的在線魯棒PU學習方法