本發(fā)明涉及生物活性肽功能預(yù)測(cè),具體涉及一種基于多視圖多模態(tài)表征學(xué)習(xí)的生物活性肽功能預(yù)測(cè)方法。
背景技術(shù):
1、生物活性肽在醫(yī)學(xué)領(lǐng)域的重要性日益凸顯,其多樣性和特定生物功能使之成為多種生理過程的調(diào)節(jié)因子,例如免疫調(diào)節(jié)、促進(jìn)傷口愈合、抗炎、血壓調(diào)節(jié),以及作為抗癌、抗糖尿病和抗微生物的潛在治療方案。這些由短鏈氨基酸組成的小分子肽通常具有較高的選擇性和較低的副作用,被視為開發(fā)新型治療藥物的有力候選者。在抗生素耐藥性日益嚴(yán)重的今天,具有顯著治療潛力的生物活性肽如amps能有效對(duì)抗包括細(xì)菌、真菌、病毒在內(nèi)的多種微生物,作為新型抗感染藥物的開發(fā)潛力尤為重要。acp通過靶向癌細(xì)胞并減少副作用和耐藥性,成為癌癥治療的重要研究方向。aip通過調(diào)節(jié)免疫反應(yīng)和減輕炎癥介質(zhì)產(chǎn)生,展現(xiàn)出其治療潛力。adp則通過多種機(jī)制調(diào)節(jié)血糖,被視為糖尿病治療和健康食品開發(fā)的有希望的候選物。最后,ahp作為能通過食物蛋白質(zhì)分解或生物技術(shù)獲得的肽,通過其降低血壓的效能,被認(rèn)為是抗高血壓藥物和功能性食品的理想選擇。隨著對(duì)生物活性肽研究的深入,預(yù)期未來它們將在治療多種疾病中展現(xiàn)更廣泛的應(yīng)用潛力,特別是在傳統(tǒng)藥物效果不佳或伴有顯著副作用的情況下。
2、隨著人工智能技術(shù)的迅猛發(fā)展,基于深度學(xué)習(xí)的方法已開始取代傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù),特別是在生物活性肽的預(yù)測(cè)領(lǐng)域。然而,大多數(shù)現(xiàn)有模型主要利用多肽氨基酸序列信息,而忽略了多肽分子的結(jié)構(gòu)和功能信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于:針對(duì)目前存在的上述問題,提供了一種基于多視圖多模態(tài)表征學(xué)習(xí)的生物活性肽功能預(yù)測(cè)方法,通過可視化聚類效果展示了蛋白質(zhì)大語言模型在多肽預(yù)測(cè)任務(wù)中的有效性,并通過可視化決策樹模型的決策過程有效解釋了模型如何通過捕捉到生物活性肽的復(fù)雜特征來預(yù)測(cè)其功能。
2、本發(fā)明的技術(shù)方案如下:
3、一種基于多視圖多模態(tài)表征學(xué)習(xí)的生物活性肽功能預(yù)測(cè)方法,構(gòu)建mvmr-bpf模型,模型特征提取包括以下步驟:
4、構(gòu)建多肽分子的圖結(jié)構(gòu);
5、多肽氨基酸序列特征提?。豪枚喑叨扰蛎浘矸ecnn和雙向lstm提取多肽氨基酸序列信息;
6、多肽分子圖特征提?。翰捎脠D卷積神經(jīng)網(wǎng)絡(luò)和卷積cnn方法分別從節(jié)點(diǎn)特征和拓?fù)湫畔⒉煌暯翘幚矸肿訄D信息;
7、殘基特征提?。菏褂胑sm-2模型從序列中提取殘基特征;
8、分子指紋特征提取:采用cnn配合tlu和fru層抓取局部特征,并通過mamba模型捕獲長(zhǎng)距離依賴性,產(chǎn)生特征向量;
9、融合預(yù)測(cè):結(jié)合多肽氨基酸序列、分子指紋信息、多肽分子圖信息,利用多視圖提取不同模態(tài)特征,融合信息完成多功能肽預(yù)測(cè)。
10、進(jìn)一步地,所述多肽氨基酸序列特征提取具體包括以下步驟:
11、將經(jīng)過整數(shù)編碼后表示的多肽氨基酸序列向量,送入序列特征提取模塊;
12、通過嵌入層將整數(shù)特征向量轉(zhuǎn)換為維度為100的稠密連續(xù)特征向量x,特征向量x經(jīng)過并行的膨脹卷積層;對(duì)于每個(gè)膨脹卷積層l,x(l)為第l層多肽氨基酸序列特征向量,經(jīng)過膨脹卷積學(xué)習(xí)提取:
13、
14、其中,是第l層的卷積核權(quán)重,b(l)是偏置項(xiàng),rl是該層的膨脹率,k是卷積核的大小,max(0,z)表示relu激活函數(shù),對(duì)于每層l,膨脹率rl分別為2,4,8;
15、對(duì)每個(gè)膨脹卷積層輸出x(l),應(yīng)用最大池化操作減少序列維度,保留特征:
16、
17、其中,p(l)[i]是池化操作后的結(jié)果,m是池化窗口的大小,s是步長(zhǎng);
18、在每個(gè)卷積層l后,使用l2正則化來減少過擬合,表示為:
19、ltotal=l+λ∑l∥w(l)∥2,
20、其中,∥w(l)∥2是第l層卷積核權(quán)重的平方和,λ是正則化系數(shù),控制正則化的強(qiáng)度;
21、經(jīng)過特征融合后的向量為f,在應(yīng)用dropout層之后得到特征向量結(jié)果為f′:
22、f′=f⊙d,
23、其中,⊙表示元素乘法,d是一個(gè)隨機(jī)向量,其元素獨(dú)立且服從概率p為1表示保留,概率1-p為0表示丟棄;
24、經(jīng)過膨脹卷積層和dropout處理的特征f′輸入到雙向lstm層,雙向lstm可以捕獲序列的前向和后向上下文依賴:
25、h=bilstm(f′),
26、其中,h是雙向lstm層的輸出,結(jié)合序列的前后信息;
27、通過展平操作將h轉(zhuǎn)換為一維向量hflat,并通過全連接層壓縮為128維的特征向量x1:
28、x1=relu(wfchflat+bfc),
29、其中,wfc是全連接層的權(quán)重,bfc是偏置項(xiàng),同時(shí)應(yīng)用l2正則化,relu函數(shù)用于引入非線性。
30、進(jìn)一步地,所述殘基特征提取具體包括以下步驟:
31、對(duì)于輸入的多肽氨基酸序列x=(x1,x2,…,xn),其中xi表示序列中的第i個(gè)氨基酸,自注意力層的計(jì)算過程如下:
32、qi=wqxi,ki=wkxi,vi=wvxi,
33、
34、其中,wq,wk,wv是權(quán)重矩陣,dk是鍵向量的維度,用于縮放點(diǎn)積結(jié)果以避免過大的值;
35、在大規(guī)模蛋白質(zhì)序列數(shù)據(jù)上訓(xùn)練esm-2模型;
36、通過對(duì)esm-2模型特定層輸出的特征進(jìn)行平均池化處理,獲得維度為1280的整體特征向量y,y作為每個(gè)多肽分子氨基酸序列的高維特征表示,包含了多肽分子的結(jié)構(gòu)和功能信息;
37、在mvmr-bpf模型中通過兩層全連接層進(jìn)行進(jìn)一步的特征提取和降維處理,同時(shí)使用dropout層以增強(qiáng)模型的泛化能力,最終得到包含64維的壓縮特征向量y1;進(jìn)一步學(xué)習(xí)到多肽氨基酸序列的結(jié)構(gòu)和功能特征。
38、進(jìn)一步地,所述分子指紋特征提取具體包括以下步驟:
39、利用rdkit庫從氨基酸序列中同時(shí)生成多種分子指紋;
40、通過逐點(diǎn)加和的方法將兩種不同的特征指紋f1和f2結(jié)合成一個(gè)綜合特征向量f:
41、f=f1+f2,
42、融合分子指紋特征向量f經(jīng)過深度卷積網(wǎng)絡(luò)中進(jìn)行進(jìn)一步的特征提取,其中每一個(gè)卷積層l后面配置有frn層和tlu激活層;frn層在卷積層l的輸出f(l)上進(jìn)行操作:
43、
44、其中,μ和σ2分別是f(l)的平均值和方差,∈是一個(gè)很小的常數(shù)以避免除以零,而τ是一個(gè)可學(xué)習(xí)的參數(shù);
45、在frn層之后,tlu激活層增強(qiáng)y(l)向量的非線性特征的表示得到向量z(l):
46、z(l)=max(y(l),α),
47、其中,α是激活閾值,是一個(gè)可學(xué)習(xí)的參數(shù),用于控制激活層的非線性閾值;
48、提取的特征z(l)進(jìn)入mamba模型進(jìn)行深入處理;mamba模型包括多個(gè)定制的mambablock,每個(gè)mambablock內(nèi)部核心運(yùn)算可通過以下連續(xù)系統(tǒng)的離散化版本來描述:
49、h′(t)=a·h(t)+b·x(t),y(t)=c·h(t),
50、其中,a,b和c分別是通過離散化調(diào)整后的狀態(tài)轉(zhuǎn)移矩陣、輸入矩陣和輸出矩陣,具體離散化步驟為:
51、a=exp(δa),b=(δa)-1(exp(δa)-i)·δb,
52、其中,δ為時(shí)間尺度參數(shù);mambablock通過該方法,捕捉氨基酸序列中的長(zhǎng)距離依賴關(guān)系;
53、最終,通過特征提取和上下文分析層,提取到64維的特征向量m1。
54、進(jìn)一步地,所述多肽分子圖特征提取中分子圖拓?fù)湫畔⑻幚戆ㄒ韵虏襟E:
55、使用rdkit庫將多肽氨基酸序列構(gòu)建為分子圖;通過分子圖計(jì)算網(wǎng)絡(luò)拓?fù)浣y(tǒng)計(jì)指標(biāo);
56、網(wǎng)絡(luò)指標(biāo)組織成100×7的特征矩陣,其中每行代表一個(gè)氨基酸的網(wǎng)絡(luò)拓?fù)涮匦裕玫酵負(fù)涮卣飨蛄縩;
57、設(shè)置包含三層二維卷積神經(jīng)網(wǎng)絡(luò)的模型,從拓?fù)涮卣飨蛄縩中提取和利用網(wǎng)絡(luò)拓?fù)湫畔ⅲ?/p>
58、模型中對(duì)第l卷積層的拓?fù)涮卣飨蛄縩(l),進(jìn)行卷積操作得到y(tǒng)(l):
59、y(l)=relu(w(l)*n(l)+b(l)),
60、其中,w(l)和b(l)分別是第l層的卷積核和偏置項(xiàng),*表示卷積操作,relu是激活函數(shù);
61、得到第l卷積層返回的y(l)向量,再經(jīng)過批量歸一化層得到z(l),
62、
63、其中,和是批量數(shù)據(jù)的均值和方差,y(l)和β(l)是可學(xué)習(xí)的縮放和偏移參數(shù),∈是一個(gè)小常數(shù)以防除零;
64、在批量歸一化后,使用全局平均池化來降低特征維度,得到p(l)向量:
65、
66、其中,nh和nw分別是特征圖的高度和寬度;并且為了防止學(xué)習(xí)到的p(l)向量過擬合,模塊中加入dropout層,丟棄率設(shè)置為0.3:
67、n1(l)=p(l)⊙d(l),
68、d(l)是一個(gè)隨機(jī)二值向量,⊙表示元素乘法;
69、最終從分子圖拓?fù)湫畔⒅袑W(xué)習(xí)提取網(wǎng)絡(luò)拓?fù)湫畔⑻卣鱪1,并將其用于多肽分子性質(zhì)的進(jìn)一步預(yù)測(cè)。
70、進(jìn)一步地,所述多肽分子圖特征提取中分子圖節(jié)點(diǎn)特征處理包括以下步驟:
71、將分子圖以圖形式表示的,標(biāo)記為g(v,e),其中,v是節(jié)點(diǎn)的集合,代表氨基酸序列中的原子,而e是邊的集合,表示原子之間的化學(xué)鍵,每個(gè)節(jié)點(diǎn)都包含了綜合反映原子性質(zhì)的多維特征向量;設(shè)置節(jié)點(diǎn)數(shù)量上限為100;每個(gè)節(jié)點(diǎn)都由一個(gè)包含不同化學(xué)性質(zhì)編碼的特征向量描述,最終得到關(guān)于分子圖的節(jié)點(diǎn)特征矩陣h和鄰接矩陣a;
72、使用圖卷積神經(jīng)網(wǎng)絡(luò)提取分子圖節(jié)點(diǎn)特征,設(shè)置包含兩層圖卷積的網(wǎng)絡(luò)架構(gòu),對(duì)節(jié)點(diǎn)特征矩陣進(jìn)行圖卷積操作:
73、
74、其中,h(l)是第l層的節(jié)點(diǎn)特征矩陣,是添加自環(huán)的鄰接矩陣a和單位矩陣i,是的度矩陣,其元素w(l)是第l層的可學(xué)習(xí)權(quán)重矩陣;為了防止過擬合,在每層圖卷積后應(yīng)用dropout:
75、h(l+1)=dropout(h(l+1),0.5),
76、緊接著通過全局平均池化層將圖卷積網(wǎng)絡(luò)輸出的特征向量h(l)從最后一層l降維,得到全局特征表示:
77、
78、其中,n是圖中節(jié)點(diǎn)的總數(shù),h’i(l)是節(jié)點(diǎn)i在最后一層的特征向量,g1表示氨基酸序列的結(jié)構(gòu)和功能特性,適用于多肽分子性質(zhì)的進(jìn)一步預(yù)測(cè)。
79、進(jìn)一步地,所述融合預(yù)測(cè)具體包括以下步驟:
80、在各個(gè)視圖提取到對(duì)應(yīng)特征表示后,使用concatenate層在特征維度上合并五種不同的輸入特征,包括分子序列特征x1,分子指紋特征m1、網(wǎng)絡(luò)拓?fù)湫畔1、圖表征特征g1和來自esm-2提取的分子結(jié)構(gòu)和功能特征y1,得到特征融合向量c;
81、引入dropout層,設(shè)置0.3的丟棄率;采用激活函數(shù)為sigmoid的dense層來預(yù)測(cè)目標(biāo)生物活性,同時(shí)加入l2正則化。
82、進(jìn)一步地,所述mvmr-bpf模型使用adam優(yōu)化器進(jìn)行訓(xùn)練,其中學(xué)習(xí)率通過lr參數(shù)控制,模型的訓(xùn)練過程采用二元交叉熵作為損失函數(shù),并通過準(zhǔn)確率指標(biāo)來監(jiān)控訓(xùn)練進(jìn)度:
83、
84、進(jìn)一步地,所述網(wǎng)絡(luò)拓?fù)浣y(tǒng)計(jì)指標(biāo)包括節(jié)點(diǎn)的平均鄰居度、偏心率、聚類系數(shù)、節(jié)點(diǎn)度數(shù)、度中心性、介數(shù)中心性以及接近中心性。
85、進(jìn)一步地,所述化學(xué)性質(zhì)編碼的特征向量描述包括原子類型、連接度、隱式價(jià)、以及是否為芳香性屬性。
86、與現(xiàn)有的技術(shù)相比本發(fā)明的有益效果是:
87、1、一種基于多視圖多模態(tài)表征學(xué)習(xí)的生物活性肽功能預(yù)測(cè)方法,提出的方法為生物活性多肽的高效識(shí)別和功能預(yù)測(cè)提供了新的視角和可解釋性模型;在生物活性多肽識(shí)別任務(wù)上表現(xiàn)出了全方面顯著的性能提升,尤其在覆蓋率和精度方面;
88、2、一種基于多視圖多模態(tài)表征學(xué)習(xí)的生物活性肽功能預(yù)測(cè)方法,針對(duì)多肽分子的節(jié)點(diǎn)特征進(jìn)行深入挖掘,構(gòu)建了相應(yīng)的分子圖,充分考慮了多肽分子的拓?fù)浣Y(jié)構(gòu)和原子特性等關(guān)鍵信息;通過從兩個(gè)獨(dú)特視角綜合提取多肽分子的分子圖特征表示,能夠更全面地反映多肽分子的物理結(jié)構(gòu)特征及其原子節(jié)點(diǎn)的物化特征;使用圖卷積神經(jīng)網(wǎng)絡(luò)有效提取了分子圖中的節(jié)點(diǎn)信息,增強(qiáng)了對(duì)分子結(jié)構(gòu)復(fù)雜性的理解和表征能力;
89、3、一種基于多視圖多模態(tài)表征學(xué)習(xí)的生物活性肽功能預(yù)測(cè)方法,利用esm-2蛋白質(zhì)語言模型,對(duì)多肽序列進(jìn)行了深入的結(jié)構(gòu)與功能分析;不僅提升了序列分析的準(zhǔn)確性,還能揭示蛋白質(zhì)大語言模型在生物系統(tǒng)分析中的潛在作用,超越了傳統(tǒng)蛋白質(zhì)深度學(xué)習(xí)結(jié)構(gòu)預(yù)測(cè)的局限性;
90、4、一種基于多視圖多模態(tài)表征學(xué)習(xí)的生物活性肽功能預(yù)測(cè)方法,設(shè)計(jì)了多視圖多模態(tài)多肽表征學(xué)習(xí)架構(gòu),針對(duì)化學(xué)屬性、物理屬性及生物活性等多種模態(tài)特性,設(shè)計(jì)不同視圖模型從多個(gè)維度提取多肽分子的不同特征。在分子指紋特征提取視圖中,采用cnn和tlu、fru層提取局部特征,并通過mamba模塊捕捉長(zhǎng)距離依賴性,最終產(chǎn)生特征向量;通過異構(gòu)特征的融合技術(shù),綜合分析各類特征的交互作用,顯著提高了對(duì)多肽分子行為的預(yù)測(cè)精度。