本發(fā)明涉及一種數(shù)據(jù)分析方法,尤其涉及一種多肽譜匹配數(shù)據(jù)的在線魯棒pu學習方法。
背景技術(shù):
1、生物質(zhì)譜技術(shù)作為生物信息學的強大工具,是蛋白質(zhì)鑒定的核心技術(shù)之一。結(jié)合數(shù)據(jù)庫搜索策略的鳥槍法是大規(guī)模蛋白質(zhì)組鑒定的主流方法。該方法的主要步驟包括:(1)酶切:將含有復(fù)雜蛋白質(zhì)混合物的生物標本加入胰蛋白酶等酶將蛋白質(zhì)酶解為肽段;(2)肽段分離:將酶解后的肽段混合物通過液相色譜(lc)或毛細管電泳(ce)等技術(shù)進行有效分離;(3)生成質(zhì)譜圖:分離后的肽段被引入質(zhì)譜儀進行質(zhì)譜分析,生成質(zhì)譜圖;(4)數(shù)據(jù)庫匹配:通過數(shù)據(jù)庫搜索引擎將實驗質(zhì)譜與數(shù)據(jù)庫中的理論質(zhì)譜進行匹配,確定最優(yōu)的多肽譜匹配(psm),進而確定多肽的氨基酸序列;(5)蛋白質(zhì)序列推導(dǎo):依據(jù)鑒定出的多肽的氨基酸序列分析并推導(dǎo)出樣品中蛋白質(zhì)的氨基酸序列。
2、由于生物樣品和實驗的復(fù)雜性,肽段的質(zhì)譜圖中常常存在大量噪聲。這導(dǎo)致數(shù)據(jù)庫搜索引擎在多肽譜匹配結(jié)果中存在大量錯誤,正確匹配的比例通常不到50%。psm匹配數(shù)據(jù)存在一些已知的誘騙psm以及未知的psm。目前,主流的peptideprophet和percolator方法未能有效解決這一挑戰(zhàn)。相比之下,pu學習方法具備處理不平衡標注數(shù)據(jù)的能力,適用于psm鑒定問題。本發(fā)明在pu學習方法框架下給出多肽譜匹配鑒定的解決方案。
3、針對pu學習方法,2019年j.bekker等人在文章《beyond?the?selectedcompletely?at?random?assumption?for?learning?from?positive?and?unlabeleddata》中提出了一種基于經(jīng)驗風險的sarpu方法,用于處理pu數(shù)據(jù)學習過程中的標記機制影響,以解決選擇偏差問題。2020年,c.zhang等人在他們的文章《online?positive?andunlabeled?learning》中,提出了一種基于梯度的在線學習方法,pu學習引入了在線訓(xùn)練模式。其中特別介紹了一種名為opudh的方法,該方法使用了凸的雙鉸鏈損失函數(shù)。2021年c.gong等人文章《instance-dependent?positive?and?unlabeled?learning?withlabeling?bias?estimation》中提出了lbelf方法,通過建立圖模型并應(yīng)用em和adam優(yōu)化技術(shù),解決了正例標記概率不均勻的問題。而本發(fā)明方法的獨特之處在于,它基于在線pu學習框架,針對不滿足scar假定的數(shù)據(jù)集,通過采用適合的非凸損失函數(shù),能夠快速穩(wěn)定地生成高質(zhì)量的鑒定結(jié)果。且在多肽數(shù)據(jù)集上對比上述三種方法,本方法能夠鑒定出更多的正確多肽譜匹配。
技術(shù)實現(xiàn)思路
1、本發(fā)明解決了在多肽譜匹配鑒定中常見的標記成本高和數(shù)據(jù)不滿足scar假定的問題,提升了識別出正確多肽譜匹配的能力。其所采用的技術(shù)方案是:使用在線魯棒pu學習的方法,通過梯度下降法求解優(yōu)化算法,得到分類器預(yù)測最終的樣本標簽,識別正確的多肽譜匹配,該方法的步驟流程圖可參閱附圖1。
2、所公開的方法主要包括以下步驟:
3、s1、數(shù)據(jù)預(yù)處理,將數(shù)據(jù)的每個特征轉(zhuǎn)換為數(shù)值型數(shù)據(jù),去除冗余特征,將數(shù)據(jù)做歸一化處理,轉(zhuǎn)換標簽取值。
4、s2、設(shè)預(yù)處理后的訓(xùn)練樣本為其中,t為訓(xùn)練樣本的總個數(shù),xt∈rd為數(shù)據(jù)庫搜索引擎輸出的d維多肽譜匹配,yt∈{-1,+1},是多肽譜xt對應(yīng)的標簽,取yt=1表示正類樣本(誘騙psm),yt=-1表示其余樣本(目標psm)。多肽鑒定問題實質(zhì)上是從標簽不可靠的目標psm樣本中鑒別正確匹配的樣本。
5、記p={xt|yt=1,t=1,...,tp},u={xt|yt=0,t=1,...,tu},p和u分別是正類和無標記類樣本的集合。則第t時刻的在線瞬時損失如下,對其進行最小化求解:
6、
7、其中,訓(xùn)練樣本為t為訓(xùn)練樣本的總個數(shù),xt∈rd為數(shù)據(jù)庫搜索引擎輸出的d維多肽譜匹配,yt∈{-1,+1},是多肽譜xt對應(yīng)的標簽,取yt=1表示正類樣本(誘騙psm),yt=-1表示其余樣本(目標psm),w是rd維的參數(shù)矩陣,p={xt|yt=1,t=1,...,tp},u={xt|yt=0,t=1,...,tu},p和u分別是正類和無標記類樣本的集合,其包含的樣本個數(shù)分別為tp和tu(tp+tu=t),為示性函數(shù)當xt屬于p時取1,xt不屬于p時取0,也是示性函數(shù),xt屬于u時取1,xt屬于u時取0,l(·)為符合偽凸性質(zhì)的損失函數(shù),f(xt)=w,xt是線性分類器,是類先驗率,表示t時刻觀察到的正類樣本占總樣本的比例,pt為t時刻時,前t個樣本中屬于集合p的樣本個數(shù);
8、s3、采用傳統(tǒng)的梯度下降算法求解使得在線瞬時損失最小的權(quán)重參數(shù)其中是在t時刻,當w=wt時損失l(w)所取的梯度值。
9、s4、依據(jù)參數(shù)w訓(xùn)練得出分類器用于鑒定正確的多肽譜匹配。
10、各步驟的詳細說明:
11、s1、數(shù)據(jù)歸一化:對樣本的各個特征進行處理,通過平移和放縮的方式,使得特征的數(shù)值分布具有零均值和單位方差的統(tǒng)計特征,以避免有些特征對模型訓(xùn)練過程產(chǎn)生過大影響,提高模型的泛化能力。
12、s2、選取合適的損失函數(shù)l(z)是本發(fā)明的關(guān)鍵技術(shù)。由于非凸損失函數(shù)具有更加復(fù)雜的形狀,能夠更好地適應(yīng)現(xiàn)實世界中的復(fù)雜數(shù)據(jù)分布和模式。且一些非凸損失函數(shù)對于異常值和噪聲具有一定的魯棒性,能夠更好地處理數(shù)據(jù)中的異常情況,提高模型的泛化能力。本發(fā)明考慮一類具有下列性質(zhì)的損失函數(shù)l(z)組成的損失函數(shù)族:
13、(a)l(z)+l(-z)=1;
14、(b)l:r→[0,1],且嚴格遞減;
15、(c)l在r上滿足李普希茲連續(xù)條件,李普希茲常數(shù)為l.
16、l(z1)-l(z2)≤lz1-z2
17、可以驗證sigmoid函數(shù)即滿足上述三條性質(zhì)。附圖2展示了sigmoid函數(shù)及其導(dǎo)函數(shù)的圖像。
18、若一個函數(shù)g:rd→r,對任意w1,w2∈rd,若滿足存在函數(shù)值g(w2)≥g(w1),則稱函數(shù)g是偽凸的。
19、那么對于一個連續(xù)可微的損失函數(shù),當它滿足假設(shè)(b)和(c),且對任意的t,存在κ≥0,使模長xt≤κ,那么可以證明模型(1)中的損失函數(shù)是偽凸的。
20、本發(fā)明中設(shè)模型的參數(shù)序列{wt}由算法1生成。假設(shè)當{wt}和{xt}是有界的,即存在c,h1,h2>0,使得||wt||≤c,0<h1≤||xt||≤h2,t=1,…,t。當損失函數(shù)滿足偽凸假定,取學習率:并且在條件滿足的情況下,其中是在前t時刻使得模型(1)求和取到最小值時的最優(yōu)解,那么計算可得衡量優(yōu)化算法性能的遺憾界這是一個次線性的遺憾界,說明本發(fā)明提出的方法在隨t趨于無窮時,算法分類性能將近于最優(yōu)的線性分類器的性能。
21、s3、本發(fā)明的在線算法針對瞬時風險進行梯度下降來更新參數(shù),參數(shù)向量的更新規(guī)則為:
22、
23、其中η>0為學習率。關(guān)于w在t時刻的在線瞬時損失計算公式為:
24、
25、l′(·)是損失函數(shù)l(·)的導(dǎo)函數(shù)。
26、算法1.魯棒的在線pu分類算法
27、輸入:w1∈rd,數(shù)據(jù)流:(x1,y1),,(xt,yt),設(shè)定學習率η和類先驗率π
28、輸出:ft(·)=wt,·
29、步1、初始化參數(shù)w1=0;
30、步2、在線迭代
31、
32、步3、返回ft(·)=wt,·
33、s4、依據(jù)訓(xùn)練得出的分類器鑒定可信的多肽譜匹配。
34、記wt是算法1輸出的權(quán)重參數(shù),相應(yīng)的分類器其中x∈rd為多肽譜匹配樣本各個特征構(gòu)成的向量。
35、對于多肽譜匹配樣本(xt,yt),通過設(shè)定閾值θ,將預(yù)測得分低于閾值θ的樣本鑒定為正確的多肽譜匹配。
36、按如下公式計算其標簽:
37、
38、其中閾值θ可默認為0,或由fdr方法計算得出。
39、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
40、1、本發(fā)明采用了滿足s2中三條性質(zhì)的非凸損失函數(shù),代替了傳統(tǒng)pu學習方法中常用的凸函數(shù)?;谶@一技術(shù)構(gòu)建的在線學習算法在處理不符合scar假設(shè)的數(shù)據(jù)集時表現(xiàn)更加魯棒,顯著提高了分類準確率和鑒定正確多肽譜匹配的數(shù)量,確保了結(jié)果的穩(wěn)定性和準確性。
41、2、目前已有的在線pu學習算法的理論性質(zhì)本質(zhì)上依賴于損失函數(shù)的凸性。本發(fā)明提出的在線pu算法在樣本有界等合理的條件下,可證明具有次線性的非平穩(wěn)遺憾界。這一特性使得提出的方法在隨t趨于無窮,算法分類性能將接近于潛在最優(yōu)的線性分類器的性能。
42、3、本發(fā)明所提出的技術(shù)方案所需存儲資源較少。與公告號為cn108388774a的發(fā)明相比,本發(fā)明只需存儲每步迭代的參數(shù)向量wt,而無需存儲迭代至當前步的所有樣本數(shù)據(jù)。