一種多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法
【專利摘要】本發(fā)明屬于生物信息學(xué)領(lǐng)域,涉及一種多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法。其步驟如下:基于抗微生物肽的氨基酸序列信息,采用偽氨基酸組成向量化方法,抽取抗微生物肽的多種不同維度的偽氨基酸組成特征向量;應(yīng)用多標(biāo)記分類算法在生成的所有不同維度的偽氨基酸組成特征向量上,訓(xùn)練出多個(gè)不同的多標(biāo)記分類器;從所得的多標(biāo)記分類器中,分別為抗微生物肽的每種功能類型篩選出最優(yōu)多標(biāo)記分類器子集;把待預(yù)測肽序列輸入分類器子集中,執(zhí)行加權(quán)多數(shù)投票融合策略,獲得該肽序列的N種功能類型的歸屬。本發(fā)明不需要事先確定最優(yōu)的特征參數(shù)組合,避免建模時(shí)通過大量遍歷實(shí)驗(yàn)選取最優(yōu)特征參數(shù)組合,既增加預(yù)測方法的實(shí)用性,又提高建模的效率。
【專利說明】
-種多功能抗微生物化的最優(yōu)多標(biāo)巧集成預(yù)測方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于生物信息學(xué)領(lǐng)域,設(shè)及抗微生物膚功能預(yù)測領(lǐng)域,尤其設(shè)及一種多功 能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法。
【背景技術(shù)】
[0002] 抗微生物膚,也叫做宿主防御膚,是生物體先天免疫系統(tǒng)的一類重要生物大分子。 它們存在于幾乎所有生物體中,保護(hù)生物體自身免受致病菌的感染??刮⑸锬w具有天然 免疫特性,是傳統(tǒng)抗生素藥物的絕佳替代品,可W解決抗生素的耐藥性問題。
[0003] 隨著后基因組時(shí)代大量蛋白質(zhì)序列的產(chǎn)生,已知是抗微生物膚的序列和未知的蛋 白質(zhì)序列之間的差距越來越大。實(shí)驗(yàn)確認(rèn)哪些蛋白質(zhì)序列是抗微生物膚W及搞清楚它們的 功能類型變得越來越不可行,迫切的需要開發(fā)基于序列的計(jì)算預(yù)測工具W便快速而準(zhǔn)確地 識別抗微生物膚和它們的功能類型。目前為止,已經(jīng)有一些計(jì)算預(yù)測工具出現(xiàn)。該領(lǐng)域的第 一個(gè)工作出現(xiàn)在2007年,通過利用隱馬爾科夫模型化歷S) ,Fjell等人(Fjell,C.D., Hancock,R.E.,Cherkasov,A.AMPer:a database and an automated discovery tool for antimicrobial P邱tides. Bioinformatics, 2007,23:1148-1155)開發(fā)了AMPer方法識別抗 微生物膚。同年,Lata等人開發(fā)了一個(gè)AntiBP預(yù)測器化ata,S. ,Sha;rma,B.K. ,Raghava, G.Analysis and prediction of antibacterial peptides.BMC Bioinformatics,2007, 8:263),僅用于識別抗菌膚。該方法主要分析了抗菌膚和非抗菌膚的氨基酸組成,并且利用 N端,C端和全長序列的氨基酸組成作為輸入特征,取得了很好的性能。他們于2010年又改進(jìn) 了AntiBP預(yù)測器,開發(fā)了更新版本的AntiBP2預(yù)測器化ata , S . ,Mishra ,N. ,Raghava, G.AntiBP2:improved version of antibacterial peptide prediction . BMC Bioinformatics,2010,11 :S19),該預(yù)測器還增加了對抗菌膚種屬類別的預(yù)測。Wang等人 (Wang,P.,Hu,L.,Liu,G.,et al.Prediction of antimicrobial peptides based on sequence alignment and feature selection methods,PLoS 0NE,2011,6:el8476)通過 結(jié)合序列比對和特征選擇方法,開發(fā)了一個(gè)新的抗微生物膚預(yù)測方法。趾osravian等人 (Khosravian,!.,Faramarzi,F.K.,Beigi,M.M.,et al.Predicting antibacterial peptides by the concept of Chou's pseudo-amino acid composition and machine learning methods.Protein and Peptide Letters,2013,20(2) :180-186)提出使用偽氨 基酸組成和機(jī)器學(xué)習(xí)方法預(yù)測抗微生物膚的方法,也取得了令人滿意的性能。除了開發(fā)計(jì) 算預(yù)測工具之外,研究人員也提出了一些抗微生物膚數(shù)據(jù)庫。Wang等人于2004年構(gòu)建了一 個(gè)抗微生物膚數(shù)據(jù)庫APD(Wang,Z.,Wang,G.APD:the antimicrobial peptide database .Nucleic Acids Research,2004,32:D590-D592),并于2009年發(fā)布該數(shù)據(jù)庫的第 二片反APD2(Wang,G.,Li,X.,Wang,Z.APD2:the updated antimicrobial peptide database and its application in peptide design.Nucleic Acids Research,2009,37:D933- D937),并且提供抗微生物膚的預(yù)測接口。Thomas等人(Thomas,S.,Karnik,S. ,Barai,R.S., et al.CAMP:a useful resource for research on antimicrobial peptides,Nucleic Acids Research,2010,38:0774-80)也建立了一個(gè)有用的數(shù)據(jù)庫資源CAMP(Collection of Anti-Microbial Peptides)幫助研究人員更好的研究分析抗微生物膚?;贑AMP中的實(shí)驗(yàn) 驗(yàn)證的膚數(shù)據(jù),他們也利用=種機(jī)器學(xué)習(xí)算法(支持向量機(jī),判別分析和隨機(jī)森林)開發(fā)了 計(jì)算預(yù)測工具。
[0004] 上面提到的運(yùn)些預(yù)測工具和數(shù)據(jù)庫推動了該領(lǐng)域的快速發(fā)展。但是,它們都只關(guān) 注于預(yù)測一個(gè)氨基酸序列是否是抗微生物膚。隨著研究的逐步深入,需要往更加深入的層 次探索抗微生物膚。不僅要能夠識別抗微生物膚,而且還要能夠識別出它們的功能類型。實(shí) 際上,許多抗微生物膚不止有一個(gè)功能,而是執(zhí)行多種生物功能(Lai,Y. ,Gallo,R丄.AMPed up immunity:how antimicrobial peptides have multiple roles in immune defense . Trends in Immunology ,2009,30(3):131-141)。例如,大樸鈴贍(Bombina maxima)的算瓜巧毒蛋白(maximins)具有抗細(xì)菌,抗真菌和抗HIV病毒的功能(Thomas,S., Karnik,S. ,Barai,R.S. ,et al. CAMP:a useful resource for research on antimicrobial peptides,Nucleic Acids Research,2010,38:0774-80)。然而,上面所述 的預(yù)測方法都無法同時(shí)預(yù)測出抗微生物膚的多種功能。特別地,深入分析運(yùn)些多功能抗微 生物膚對抗生素替代藥物的研制具有極其重要的意義。到目前為止,僅有一個(gè)預(yù)測器可W 同時(shí)識別抗微生物膚的多種功能。該預(yù)測器iAMP-2L(Xiao,X.,Wang,P.,Lin,W.Z.,et al.iAMP-2L:A two-level multi-label classifier for identifying antimicrobial peptides and their functional types.Analytical Biochemistry,2013,436:168-177) 是由Xiao等人最近開發(fā),采用偽氨基酸組成方法抽取特征向量,然后利用一個(gè)多標(biāo)記最近 鄰算法來預(yù)測抗微生物膚的多種功能。然而,該預(yù)測器在進(jìn)行預(yù)測建模時(shí),僅采用了單個(gè)多 標(biāo)記預(yù)測算法,致使預(yù)測性能較差,并且通過枚舉遍歷方法確定抽取特征時(shí)的最佳參數(shù),導(dǎo) 致建模效率低下。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供一種多功能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法,旨在 解決現(xiàn)有預(yù)測方法對多功能類型的抗微生物膚預(yù)測效果不佳,W及建模效率低下的問題。
[0006] 為實(shí)現(xiàn)上述目的,本發(fā)明采用W下技術(shù)方案:
[0007] -種多功能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法,其步驟如下:
[0008] (1)基于抗微生物膚的氨基酸序列信息,采用偽氨基酸組成向量化方法,依據(jù)不同 的參數(shù)組合,抽取出抗微生物膚的多種不同維度的偽氨基酸組成特征向量;
[0009] (2)應(yīng)用多標(biāo)記分類算法在步驟(1)生成的所有不同維度的偽氨基酸組成特征向 量上,訓(xùn)練出多個(gè)不同的多標(biāo)記分類器;
[0010] (3)從步驟(2)中所得的所有多標(biāo)記分類器中,利用遺傳算法,分別為抗微生物膚 的每種功能類型篩選出N組最優(yōu)多標(biāo)記分類器子集;
[0011] (4)把待預(yù)測膚序列輸入到步驟(3)篩選出的N組最優(yōu)多標(biāo)記分類器子集中,分別 執(zhí)行加權(quán)多數(shù)投票融合策略,獲得該膚序列的N種功能類型的歸屬。
[0012] 所述步驟(1)中,偽氨基酸組成向量化方法如下:
[0013] 生物膚的序列是由20種基礎(chǔ)氨基酸隨機(jī)排列組合組成,運(yùn)20種基礎(chǔ)氨基酸分別由 英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和 Y表示;
[0014]偽氨基酸組成法是一種有效地向量化抗微生物膚序列的方法,其公式如下:
[001 引 P = [Pl , P2 , ? ? ? , P20 , P20+1, ? ? ? , 920+? ? A]T
[0016] 其中,P表示抗微生物膚序列,前20維Pi,P2,…,P20表示20種基礎(chǔ)氨基酸在膚序列 中的比例,后C ? A維表示膚序列中氨基酸之間的順序信息;
[0017] Pi(i = l,2,…,20+C ? A)的計(jì)算公式如下:
[001 引
[0019] 其中,fi(i = l,…,20)分另懐示這20種基礎(chǔ)氨基酸在膚序列中的比例,W表示膚序 列中氨基酸之間的順序信息的權(quán)重,? A)表示膚序列的順序相關(guān)因子,膚序列 中氨基酸之間的順序信息近似地通過一系列序列順序相關(guān)因子來表示,屯? A)的 計(jì)算公式如下:
[0020]
[0021]其中C為選用的氨基酸屬性的數(shù)量,A為膚序列中的最大相關(guān)層數(shù),L為膚序列的長 度,也就是組成膚序列的氨基酸數(shù)量,R康示膚序列中的第i個(gè)氨基酸,= …,O為基 于第j個(gè)氨基酸屬性的相關(guān)性函數(shù),相關(guān)性函數(shù)為膚序列中兩個(gè)氨基酸的屬性值的乘積。
[0022] 所述步驟(I)中,采用偽氨基酸組成向量化方法,依據(jù)不同的參數(shù)組合,抽取抗微 生物膚的多種不同維度的偽氨基酸組成特征向量的方法如下:限定從W下6種氨基酸屬性 中選取,分別為① hy化ophobicity、②hy化ophilicity、③mass、④pK(alpha-COOH)、⑤地 (NH3)和⑥pl(at 25°C),然后設(shè)定A的最大取值為4,由此可W得到,參數(shù)巧化的所有可能組 合的個(gè)數(shù)為
\;依據(jù)252種不同的參數(shù)組合,為抗微生 物膚抽取252種不同的偽氨基酸組成特征向量。
[0023] 所述步驟(2)中,多標(biāo)記分類算法采用多標(biāo)記最近鄰算法MLK順。
[0024] 所述步驟(2)中,使用多標(biāo)記最近鄰算法MLK順對252種特征向量集進(jìn)行訓(xùn)練,訓(xùn)練 出252個(gè)不同的多標(biāo)記MLKr^N分類器,其中,每一個(gè)MLKr^N分類器對應(yīng)一種偽氨基酸參數(shù)組合 抽取的特征向量集,公式如下:
[0025] {M化順(1),M化順(2),…,M化順(252)}。
[0026] 所述步驟(3)中,使用遺傳算法分別為抗微生物膚的每種功能類型篩選最優(yōu)的多 標(biāo)記分類器子集,其中,遺傳算法需要確定個(gè)體的表示形式和適應(yīng)度函數(shù):
[0027] a.種群中的個(gè)體采用n維布爾向量的形式表示,n = 252XN,該n維布爾向量被分成 N組,每組對應(yīng)一種功能類型,每組由252維組成,每維對應(yīng)1個(gè)多標(biāo)記分類器,對于給定的個(gè) 體11,11^)(1《^《11)為1表示選擇第^個(gè)多標(biāo)記分類器,反之,11^)(1《^《11)為0表示去除第 X個(gè)多標(biāo)記分類器;
[0028] b.給定個(gè)體h,適應(yīng)度函數(shù)的適應(yīng)度采用如下方式進(jìn)行計(jì)算:首先,基于個(gè)體h提供 的多標(biāo)記分類器指示信息,挑選出與每種功能類型相關(guān)的多標(biāo)記分類器,然后,使用10倍交 叉驗(yàn)證法確定個(gè)體的適應(yīng)度值,適應(yīng)度采用多標(biāo)記絕對精度來衡量,返回適應(yīng)度值最大的 個(gè)體對應(yīng)的腺且分類器子集;
[0029] C.通過遺傳算法進(jìn)行多標(biāo)記分類器選擇后,獲得N組最優(yōu)分類器子集,每組對應(yīng)一 種功能類型:
[0030]
[0031] 其中,Qi是第1種功能類型的最優(yōu)分類器子集,包含Mi個(gè)多標(biāo)記分類器,Q 2是第2 種功能類型的最優(yōu)分類器子集,包含M2個(gè)多標(biāo)記分類器,W此類推。
[0032] 所述步驟(4)中,把待預(yù)測膚序列輸入到步驟(3)篩選出的N組最優(yōu)分類器子集中, 分別執(zhí)行加權(quán)多數(shù)投票融合策略,獲得該膚序列的N種功能類型的歸屬,操作方法如下:基 于步驟(3)選取的最優(yōu)分類器子集所對應(yīng)的偽氨基酸參數(shù)組合,抽取待預(yù)測膚序列的特征 向量,把待預(yù)測膚序列的特征向量分別輸入到對應(yīng)地MLKrw分類器中,獲得相應(yīng)的預(yù)測結(jié) 果,對每組最優(yōu)分類器子集在每種功能類型上的預(yù)測結(jié)果,進(jìn)行加權(quán)多數(shù)投票融合,預(yù)測出 該膚序列所屬的功能類型。
[0033] 本發(fā)明的有益效果在于:
[0034] (1)提出多標(biāo)記最優(yōu)集成算法,分別為每個(gè)功能類型篩選最優(yōu)多標(biāo)記分類器子集, 通過該算法構(gòu)建的預(yù)測器預(yù)測性能比現(xiàn)有采用單一多標(biāo)記分類器的方法提高7% W上,具 有較強(qiáng)的推廣和應(yīng)用價(jià)值;
[0035] (2)本發(fā)明方法不需要事先確定最優(yōu)的特征參數(shù)組合,避免建模時(shí)通過大量遍歷 實(shí)驗(yàn)選取最優(yōu)特征參數(shù)組合,既增加預(yù)測方法的實(shí)用性,又提高建模的效率。
【附圖說明】:
[0036] 圖1是本發(fā)明多功能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法的步驟流程圖。
【具體實(shí)施方式】
[0037] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,W下結(jié)合附圖及實(shí)施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用W解釋本發(fā)明,并 不用于限定本發(fā)明。
[0038] -種多功能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法,如圖1所示,包括W下步驟:
[0039] 步驟SOI、基于抗微生物膚的氨基酸序列信息,采用偽氨基酸組成(PseAAC)向量化 方法,依據(jù)不同的參數(shù)組合,抽取出抗微生物膚的多種不同維度的偽氨基酸組成(PseAAC) 特征向量;
[0040] 步驟S02、應(yīng)用多標(biāo)記分類算法在步驟(1)生成的所有不同維度的偽氨基酸組成 (PseAAC)特征向量上,構(gòu)建出多個(gè)不同的多標(biāo)記分類器;
[0041] 步驟S03、利用遺傳算法分別為抗微生物膚的每種功能類型,從步驟(2)中所得的 所有多標(biāo)記分類器中篩選出最優(yōu)的多標(biāo)記分類器子集,通過遺傳算法進(jìn)行多標(biāo)記分類器選 擇后,將得到N組最優(yōu)多標(biāo)記分類器子集,每組對應(yīng)一個(gè)功能類型;
[0042] 步驟S04、把待預(yù)測膚序列輸入到步驟(3)篩選出的N組最優(yōu)分類器子集中,分別執(zhí) 行加權(quán)多數(shù)投票融合策略,即可獲得該膚序列所屬的功能類型。
[0043] 在本發(fā)明實(shí)施例中,在步驟SOl中,偽氨基酸組成(PseAAC)向量化方法如下:
[0044] 抗微生物膚的序列是由20種基礎(chǔ)氨基酸隨機(jī)排列組合組成,運(yùn)20種基礎(chǔ)氨基酸分 別由英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和 Y表示。
[0045] 偽氨基酸組成(PseAAC)法是一種有效地向量化抗微生物膚序列的方法,其公式如 下:
[0046] P = [Pl , P2 , ? ? , P20 , P20+1, ? ? , P20+^ ? A(1)
[0047] 其中,P表示抗微生物膚序列,前20維Pi,p2,…,P20表示20種基礎(chǔ)氨基酸在膚序列 中的比例,后C ? A維表示膚序列中氨基酸之間的順序信息,因?yàn)榍?0維特征將膚序列的順 序關(guān)系全部丟失,所W采用后C -A維描述序列中氨基酸的前后順序關(guān)系。Pia = I,2,…,20 +C-A)的計(jì)算公式如下:
[004引
(2)
[0049]其中,fia = l,…,20)分別表示運(yùn)20種基礎(chǔ)氨基酸在膚序列中的比例,W表示膚序 列中氨基酸之間的順序信息的權(quán)重,? A)表示膚序列的順序相關(guān)因子,膚序列 中氨基酸之間的順序信息近似地通過一系列序列順序相關(guān)因子來表示,屯? A)的 計(jì)算公式如下:
[(K)加 ]
(:3)
[0051] 其中C為選用的氨基酸屬性的數(shù)量,A為膚序列中的最大相關(guān)層數(shù),L為膚序列的長 度,也就是組成膚序列的氨基酸數(shù)量,R康示膚序列中的第i個(gè)氨基酸,= …,O為基 于第j個(gè)氨基酸屬性的相關(guān)性函數(shù),運(yùn)里的相關(guān)性函數(shù)為膚序列中兩個(gè)氨基酸的屬性值的 乘積。
[0052] 在本發(fā)明實(shí)施例中,在步驟SOl中,采用偽氨基酸組成(PseAAC)向量化方法,依據(jù) 不同的參數(shù)組合,抽取抗微生物膚的多種不同維度的偽氨基酸組成特征向量,具體方法如 下:
[005引首先限定從W下6種氨基酸屬性中選取,分別為① hydrophobicity,② hyhwhilicity,③mass,④地(alpha-COOH),⑤地(NH3),⑥pi (at 25°C ),然后設(shè)定A的最 大取值為4,因?yàn)樗糜?xùn)練集中最短膚序列長度為5,由此可W得到,參數(shù)C和A的所有可能組 合的個(gè)數(shù)為
K依據(jù)運(yùn)252種不同的參數(shù)組合,為抗微 生物膚抽取252種不同的偽氨基酸組成特征向量。
[0化4] 在本發(fā)明實(shí)施例中,在步驟S02中,多標(biāo)記分類算法優(yōu)選多標(biāo)記最近鄰算法MLK順。 [0化5] 在本發(fā)明實(shí)施例中,在步驟S02中,使用多標(biāo)記最近鄰算法MLK順對252種特征向量 集進(jìn)行訓(xùn)練,訓(xùn)練出252個(gè)不同的多標(biāo)記MLK順分類器,其中,每一個(gè)MLK順分類器對應(yīng)一種 偽氨基酸組成參數(shù)組合抽取的特征向量集,如下所示:
[0056] {]?化順(1),]\1化順(2),...,]\1化順(252)} (4)
[0057] -種簡單的構(gòu)造多標(biāo)記集成分類器的方法是把它們的結(jié)果按照加權(quán)多數(shù)投票的 方式融合起來,可W得到W下的多標(biāo)記集成分類器:
[0化引
(5)
[0059] 其中,貨表示集成符號,(C。"表示由M化順(1 ),M化順(2 ),…,M化順(252)通過加權(quán) 多數(shù)投票構(gòu)成的多標(biāo)記集成分類器。
[0060] 給定待預(yù)測膚序列P,通過多標(biāo)記集成分類器預(yù)測其所屬的功能類型集合的方法 有別于傳統(tǒng)的多類集成分類器,需要針對每種功能類型分別進(jìn)行加權(quán)多數(shù)投票融合。假設(shè) yp是待預(yù)測膚序列P的功能類型向量,當(dāng)預(yù)測得到y(tǒng)p(t) = l時(shí)表明該膚序列P屬于功能類型 t,否則該膚序列P不屬于功能類型t。設(shè)多標(biāo)記集成分類器(CaB中各個(gè)體分類器對功能類型t 的預(yù)測結(jié)果分別為卑為,…,瑪。*即:
[006。
(6)
[00創(chuàng)其中,譚=1隸示個(gè)體分類器M化順(i)預(yù)測該膚序列P屬于功能類型t,巧=0表示 個(gè)體分類器MLkNN(i)預(yù)測該膚序列P不屬于功能類型U該膚序列P屬于功能類型t的得分 為:
[0063]
口')
[0064] 其中,wei曲ti為權(quán)重系數(shù),為簡單起見,運(yùn)里設(shè)所有權(quán)重都為1/252,即集成中的 所有個(gè)體分類器同等重要,簡化為多數(shù)投票法。在該實(shí)施例中,抗微生物膚共有5種可能的 功能類型。基于式(7),得分(Score)大于0.5的功能類型即為該膚序列P的功能類型。
[0065] 然而,針對每個(gè)功能類型分別進(jìn)行加權(quán)多數(shù)投票融合時(shí),所需要的最優(yōu)分類器組 合是不同的,而像上面那樣,對每個(gè)功能類型不加選擇的使用所有分類器進(jìn)行融合,勢必會 損害預(yù)測準(zhǔn)確度。
[0066] 故而,在本發(fā)明實(shí)施例中,在步驟S03中,使用遺傳算法分別為抗微生物膚的每種 功能類型篩選最優(yōu)的多標(biāo)記分類器子集,其中,遺傳算法需要確定個(gè)體的表示形式和適應(yīng) 度函數(shù):
[0067] 種群中的個(gè)體采用n維布爾向量的形式表示,n = 252X5。具體來說,該n維布爾向 量被分成5組,每組對應(yīng)一種功能類型,每組由252維組成,每維對應(yīng)1個(gè)多標(biāo)記分類器,對于 給定的個(gè)體11,11^)(1《^《11)為1表示選擇第^個(gè)多標(biāo)記分類器,反之,11^)(1《^《11)為0表 示去除第X個(gè)多標(biāo)記分類器。
[0068] 適應(yīng)度函數(shù)(fitness化nction),給定個(gè)體h,其適應(yīng)度采用如下方式進(jìn)行計(jì)算。 首先,基于個(gè)體h提供的分類器指示信息,挑選出與每種功能類型相關(guān)的分類器,然后,使用 10倍交叉驗(yàn)證法確定個(gè)體的適應(yīng)度值,適應(yīng)度采用多標(biāo)記絕對精度來衡量,返回適應(yīng)度值 最大的個(gè)體對應(yīng)的5組分類器子集。
[0069] 通過遺傳算法進(jìn)行分類器選擇后,獲得5組最優(yōu)分類器子集,每組對應(yīng)一種功能類 型,即
[0070] (8)
[0071] 其中,Q I是第I種功能類型的最優(yōu)分類器子集,包含Ml個(gè)分類器,Q 2是第巧巾功能 類型的最優(yōu)分類器子集,包含M2個(gè)分類器,W此類推。
[0072] 在本發(fā)明實(shí)施例中,在步驟S04中,把待預(yù)測膚序列輸入到步驟S03篩選出的N組最 優(yōu)分類器子集中,分別執(zhí)行加權(quán)多數(shù)投票融合策略,即可獲得該膚序列的功能類型,具體如 下:
[0073] 首先,基于步驟S03選取的最優(yōu)分類器子集所對應(yīng)的偽氨基酸參數(shù)組合,抽取待預(yù) 測膚序列的特征向量,把待預(yù)測膚序列的特征向量分別輸入到對應(yīng)地MLKNN分類器中,獲得 相應(yīng)的預(yù)測結(jié)果,然后,分別對每種功能類型,即對每組最優(yōu)分類器子集在該種功能類型上 的預(yù)測結(jié)果,進(jìn)行加權(quán)多數(shù)投票融合,即可預(yù)測出該膚序列所屬的功能類型。
[0074] 實(shí)驗(yàn)結(jié)果和分析
[00巧]在本發(fā)明實(shí)施例中,采用文獻(xiàn)(Xiao,X.,Wang,P.,Lin,W.Z.,et al.iAMP-化:A two-level multi-label classifier for identifying antimicrobial peptides and their 化nctional types.Analytical Biochemistir,2013,436:168-177)所構(gòu)建的數(shù)據(jù) 集,該數(shù)據(jù)集中包含了抗微生物膚和非抗微生物膚,由于本發(fā)明只關(guān)注識別抗微生物膚的 多功能類型,因而本發(fā)明只使用抗微生物膚數(shù)據(jù)子集,符號表示為S_AMP,S_AMP共包含878 個(gè)抗微生物膚,其中,454個(gè)屬于1個(gè)功能類型,296個(gè)屬于2個(gè)功能類型,85個(gè)屬于3個(gè)功能類 型,30個(gè)屬于4個(gè)功能類型,13個(gè)屬于5個(gè)功能類型。對于每個(gè)功能類型擁有的膚數(shù)量,如下 表1所示:
[0076] 表1數(shù)據(jù)集S_AMP的統(tǒng)計(jì)信息
[0077]
[007引 表2列出了本發(fā)明方法與iAMP-化方法(Xiao,X.,Wang,P.,Lin,W.Z.,et al.iAMP- 2L:A two-level multi-label classifier for identifying antimicrobial peptides and their functional types .Analytical Biochemistry,2013,436:168-177)在上述數(shù) 據(jù)集上的抗微生物膚的多功能類型預(yù)測性能的比較。評價(jià)指標(biāo)采用多標(biāo)記預(yù)測領(lǐng)域常用的 1111八0:、1111口1?6、11111?6(:、111巧1和40:。從表2可^看出,本發(fā)明方法在所有多標(biāo)記性能評價(jià)指標(biāo) 上都超過了目前最好方法iAMP-2L,尤其是,本發(fā)明方法的絕對精度ACC達(dá)到了50% W上,超 過了iAMP-化方法7%左右。由于絕對精度ACC要求非常嚴(yán)格,必須完全正確地預(yù)測出測試膚 序列的所有功能類型才算是預(yù)測正確,任何過預(yù)測或欠預(yù)測都被認(rèn)為預(yù)測錯(cuò)誤,因而可見, 本發(fā)明方法能極大地改進(jìn)多功能抗微生物膚的識別率,而且成功地避免了繁瑣的氨基酸組 成的參數(shù)尋優(yōu)過程。
[0079] 表2本發(fā)明方法和i AMP-化的性能比較
[0080]
[0081] W上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用W限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法,其特征在于:其步驟如下: (1) 基于抗微生物肽的氨基酸序列信息,采用偽氨基酸組成向量化方法,依據(jù)不同的參 數(shù)組合,抽取出抗微生物肽的多種不同維度的偽氨基酸組成特征向量; (2) 應(yīng)用多標(biāo)記分類算法在步驟(1)生成的所有不同維度的偽氨基酸組成特征向量上, 訓(xùn)練出多個(gè)不同的多標(biāo)記分類器; (3) 從步驟(2)中所得的所有多標(biāo)記分類器中,利用遺傳算法,分別為抗微生物肽的每 種功能類型篩選出N組最優(yōu)多標(biāo)記分類器子集; (4) 把待預(yù)測肽序列輸入到步驟(3)篩選出的N組最優(yōu)多標(biāo)記分類器子集中,分別執(zhí)行 加權(quán)多數(shù)投票融合策略,獲得該肽序列的N種功能類型的歸屬。2. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法,其特征在于:所 述步驟(1)中,偽氨基酸組成向量化方法如下: 生物肽的序列是由20種基礎(chǔ)氨基酸隨機(jī)排列組合組成,這20種基礎(chǔ)氨基酸分別由英文 字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和 Y表示; 偽氨基酸組成法是一種有效地向量化抗微生物肽序列的方法,其公式如下: P = [pi,P2, ·' ,P20,P20+1, ··· ,Ρ20+ξ·λ]Τ 其中,P表示抗微生物肽序列,前20維P1,ρ2,…,p2Q表示20種基礎(chǔ)氨基酸在肽序列中的比 例,后ξ · λ維表示肽序列中氨基酸之間的順序信息; Pi(i = l,2,…,20+ξ · λ)的計(jì)算公式如下:其中,AG = I,…,20)分別表示這20種基礎(chǔ)氨基酸在肽序列中的比例,w表示肽序列中 氨基酸之間的順序信息的權(quán)重,· λ)表示肽序列的順序相關(guān)因子,肽序列中氨 基酸之間的順序信息近似地通過一系列序列順序相關(guān)因子來表示,· λ)的計(jì)算 公式如下:其中ξ為選用的氨基酸屬性的數(shù)量,λ為肽序列中的最大相關(guān)層數(shù),L為肽序列的長度, 也就是組成肽序列的氨基酸數(shù)量,R1表示肽序列中的第i個(gè)氨基酸,Ψ』?_ = 1,···,ξ)為基于 第j個(gè)氨基酸屬性的相關(guān)性函數(shù),相關(guān)性函數(shù)為肽序列中兩個(gè)氨基酸的屬性值的乘積。3. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法,其特征在于:所 述步驟(1)中,采用偽氨基酸組成向量化方法,依據(jù)不同的參數(shù)組合,抽取抗微生物肽的多 種不同維度的偽氨基酸組成特征向量的方法如下:限定從以下6種氨基酸屬性中選取,分別 為① hydrophobicity、②hydrophilicity、③mass、④pK(alpha-COOH)、⑤pK(NH3)和⑥pi (at 25°C),然后設(shè)定λ的最大取值為4,由此可以得到,參數(shù)ξ和λ的所有可能組合的個(gè)數(shù)為 (戌+ g + C + 0 0 + C66) X 4 = 2:52個(gè);依據(jù)252種不同的參數(shù)組合,為抗微生物肽抽取252 種不同的偽氨基酸組成特征向量。4. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法,其特征在于:所 述步驟(2)中,多標(biāo)記分類算法采用多標(biāo)記最近鄰算法MLKNN。5. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法,其特征在于:所 述步驟(2)中,使用多標(biāo)記最近鄰算法MLKNN對252種特征向量集進(jìn)行訓(xùn)練,訓(xùn)練出252個(gè)不 同的多標(biāo)記MLKNN分類器,其中,每一個(gè)MLKNN分類器對應(yīng)一種偽氨基酸參數(shù)組合抽取的特 征向量集,公式如下: {MLkNN(I),MLkNN(2),…,MLkNN(2 5 2)}。6. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法,其特征在于:所 述步驟(3)中,使用遺傳算法分別為抗微生物肽的每種功能類型篩選最優(yōu)的多標(biāo)記分類器 子集,其中,遺傳算法需要確定個(gè)體的表示形式和適應(yīng)度函數(shù): a. 種群中的個(gè)體采用η維布爾向量的形式表示,n = 252 X N,該η維布爾向量被分成N組, 每組對應(yīng)一種功能類型,每組由252維組成,每維對應(yīng)1個(gè)多標(biāo)記分類器,對于給定的個(gè)體h, h(x) (KxSn)為1表示選擇第X個(gè)多標(biāo)記分類器,反之,h(X) (KxSn)為O表示去除第X個(gè) 多標(biāo)記分類器; b. 給定個(gè)體h,適應(yīng)度函數(shù)的適應(yīng)度采用如下方式進(jìn)行計(jì)算:首先,基于個(gè)體h提供的多 標(biāo)記分類器指示信息,挑選出與每種功能類型相關(guān)的多標(biāo)記分類器,然后,使用10倍交叉驗(yàn) 證法確定個(gè)體的適應(yīng)度值,適應(yīng)度采用多標(biāo)記絕對精度來衡量,返回適應(yīng)度值最大的個(gè)體 對應(yīng)的N組分類器子集; c. 通過遺傳算法進(jìn)行多標(biāo)記分類器選擇后,獲得N組最優(yōu)分類器子集,每組對應(yīng)一種功 能類型:其中,Ω :是第1種功能類型的最優(yōu)分類器子集,包含M1個(gè)多標(biāo)記分類器,Ω 2是第2種功 能類型的最優(yōu)分類器子集,包含此個(gè)多標(biāo)記分類器,以此類推。7. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法,其特征在于:所 述步驟(4)中,把待預(yù)測肽序列輸入到步驟(3)篩選出的N組最優(yōu)分類器子集中,分別執(zhí)行加 權(quán)多數(shù)投票融合策略,獲得該肽序列的N種功能類型的歸屬,操作方法如下:基于步驟(3)選 取的最優(yōu)分類器子集所對應(yīng)的偽氨基酸參數(shù)組合,抽取待預(yù)測肽序列的特征向量,把待預(yù) 測肽序列的特征向量分別輸入到對應(yīng)地MLKNN分類器中,獲得相應(yīng)的預(yù)測結(jié)果,對每組最優(yōu) 分類器子集在每種功能類型上的預(yù)測結(jié)果,進(jìn)行加權(quán)多數(shù)投票融合,預(yù)測出該肽序列所屬 的功能類型。
【文檔編號】G06F19/24GK106021999SQ201610327347
【公開日】2016年10月12日
【申請日】2016年5月17日
【發(fā)明人】王曉, 劉嘉, 張秋聞, 王榕, 郭瑞
【申請人】鄭州輕工業(yè)學(xué)院