一種多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法

文檔序號：10655808閱讀：476來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法
【專利摘要】本發(fā)明屬于生物信息學(xué)領(lǐng)域，涉及一種多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法。其步驟如下：基于抗微生物肽的氨基酸序列信息，采用偽氨基酸組成向量化方法，抽取抗微生物肽的多種不同維度的偽氨基酸組成特征向量；應(yīng)用多標(biāo)記分類算法在生成的所有不同維度的偽氨基酸組成特征向量上，訓(xùn)練出多個(gè)不同的多標(biāo)記分類器；從所得的多標(biāo)記分類器中，分別為抗微生物肽的每種功能類型篩選出最優(yōu)多標(biāo)記分類器子集；把待預(yù)測肽序列輸入分類器子集中，執(zhí)行加權(quán)多數(shù)投票融合策略，獲得該肽序列的N種功能類型的歸屬。本發(fā)明不需要事先確定最優(yōu)的特征參數(shù)組合，避免建模時(shí)通過大量遍歷實(shí)驗(yàn)選取最優(yōu)特征參數(shù)組合，既增加預(yù)測方法的實(shí)用性，又提高建模的效率。
【專利說明】
-種多功能抗微生物化的最優(yōu)多標(biāo)巧集成預(yù)測方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于生物信息學(xué)領(lǐng)域，設(shè)及抗微生物膚功能預(yù)測領(lǐng)域，尤其設(shè)及一種多功能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法。
【背景技術(shù)】
[0002] 抗微生物膚，也叫做宿主防御膚，是生物體先天免疫系統(tǒng)的一類重要生物大分子。它們存在于幾乎所有生物體中，保護(hù)生物體自身免受致病菌的感染?？刮⑸锬w具有天然免疫特性，是傳統(tǒng)抗生素藥物的絕佳替代品，可W解決抗生素的耐藥性問題。
[0003] 隨著后基因組時(shí)代大量蛋白質(zhì)序列的產(chǎn)生，已知是抗微生物膚的序列和未知的蛋白質(zhì)序列之間的差距越來越大。實(shí)驗(yàn)確認(rèn)哪些蛋白質(zhì)序列是抗微生物膚W及搞清楚它們的功能類型變得越來越不可行，迫切的需要開發(fā)基于序列的計(jì)算預(yù)測工具W便快速而準(zhǔn)確地識別抗微生物膚和它們的功能類型。目前為止，已經(jīng)有一些計(jì)算預(yù)測工具出現(xiàn)。該領(lǐng)域的第一個(gè)工作出現(xiàn)在2007年，通過利用隱馬爾科夫模型化歷S) ,Fjell等人（Fjell，C.D.， Hancock,R.E.,Cherkasov,A.AMPer:a database and an automated discovery tool for antimicrobial P邱tides. Bioinformatics, 2007,23:1148-1155)開發(fā)了AMPer方法識別抗微生物膚。同年，Lata等人開發(fā)了一個(gè)AntiBP預(yù)測器化ata,S. ,Sha;rma,B.K. ,Raghava， G.Analysis and prediction of antibacterial peptides.BMC Bioinformatics,2007, 8:263)，僅用于識別抗菌膚。該方法主要分析了抗菌膚和非抗菌膚的氨基酸組成，并且利用 N端，C端和全長序列的氨基酸組成作為輸入特征，取得了很好的性能。他們于2010年又改進(jìn) 了AntiBP預(yù)測器，開發(fā)了更新版本的AntiBP2預(yù)測器化ata , S . ,Mishra ,N. ,Raghava， G.AntiBP2:improved version of antibacterial peptide prediction . BMC Bioinformatics,2010,11 :S19)，該預(yù)測器還增加了對抗菌膚種屬類別的預(yù)測。Wang等人 (Wang,P.,Hu,L.,Liu,G.,et al.Prediction of antimicrobial peptides based on sequence alignment and feature selection methods,PLoS 0NE,2011,6:el8476)通過結(jié)合序列比對和特征選擇方法，開發(fā)了一個(gè)新的抗微生物膚預(yù)測方法。趾osravian等人 (Khosravian,!.,Faramarzi,F.K.,Beigi,M.M.,et al.Predicting antibacterial peptides by the concept of Chou's pseudo-amino acid composition and machine learning methods.Protein and Peptide Letters,2013,20(2) :180-186)提出使用偽氨基酸組成和機(jī)器學(xué)習(xí)方法預(yù)測抗微生物膚的方法，也取得了令人滿意的性能。除了開發(fā)計(jì) 算預(yù)測工具之外，研究人員也提出了一些抗微生物膚數(shù)據(jù)庫。Wang等人于2004年構(gòu)建了一個(gè)抗微生物膚數(shù)據(jù)庫APD(Wang,Z.,Wang,G.APD:the antimicrobial peptide database .Nucleic Acids Research，2004，32:D590-D592)，并于2009年發(fā)布該數(shù)據(jù)庫的第二片反APD2(Wang,G.,Li,X.,Wang,Z.APD2:the updated antimicrobial peptide database and its application in peptide design.Nucleic Acids Research,2009,37:D933- D937)，并且提供抗微生物膚的預(yù)測接口。Thomas等人(Thomas,S.，Karnik，S. ,Barai，R.S.， et al.CAMP:a useful resource for research on antimicrobial peptides,Nucleic Acids Research,2010,38:0774-80)也建立了一個(gè)有用的數(shù)據(jù)庫資源CAMP(Collection of Anti-Microbial Peptides)幫助研究人員更好的研究分析抗微生物膚?；贑AMP中的實(shí)驗(yàn) 驗(yàn)證的膚數(shù)據(jù)，他們也利用=種機(jī)器學(xué)習(xí)算法(支持向量機(jī)，判別分析和隨機(jī)森林)開發(fā)了計(jì)算預(yù)測工具。
[0004] 上面提到的運(yùn)些預(yù)測工具和數(shù)據(jù)庫推動了該領(lǐng)域的快速發(fā)展。但是，它們都只關(guān) 注于預(yù)測一個(gè)氨基酸序列是否是抗微生物膚。隨著研究的逐步深入，需要往更加深入的層次探索抗微生物膚。不僅要能夠識別抗微生物膚，而且還要能夠識別出它們的功能類型。實(shí) 際上，許多抗微生物膚不止有一個(gè)功能，而是執(zhí)行多種生物功能(Lai,Y. ,Gallo,R丄.AMPed up immunity:how antimicrobial peptides have multiple roles in immune defense . Trends in Immunology ,2009,30(3):131-141)。例如，大樸鈴贍（Bombina maxima)的算瓜巧毒蛋白（maximins)具有抗細(xì)菌，抗真菌和抗HIV病毒的功能（Thomas，S.， Karnik,S. ,Barai,R.S. ,et al. CAMP:a useful resource for research on antimicrobial peptides,Nucleic Acids Research,2010,38:0774-80)。然而，上面所述的預(yù)測方法都無法同時(shí)預(yù)測出抗微生物膚的多種功能。特別地，深入分析運(yùn)些多功能抗微生物膚對抗生素替代藥物的研制具有極其重要的意義。到目前為止，僅有一個(gè)預(yù)測器可W 同時(shí)識別抗微生物膚的多種功能。該預(yù)測器iAMP-2L(Xiao，X.，Wang，P.，Lin，W.Z.，et al.iAMP-2L:A two-level multi-label classifier for identifying antimicrobial peptides and their functional types.Analytical Biochemistry,2013,436:168-177) 是由Xiao等人最近開發(fā)，采用偽氨基酸組成方法抽取特征向量，然后利用一個(gè)多標(biāo)記最近鄰算法來預(yù)測抗微生物膚的多種功能。然而，該預(yù)測器在進(jìn)行預(yù)測建模時(shí)，僅采用了單個(gè)多標(biāo)記預(yù)測算法，致使預(yù)測性能較差，并且通過枚舉遍歷方法確定抽取特征時(shí)的最佳參數(shù)，導(dǎo) 致建模效率低下。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于提供一種多功能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法，旨在解決現(xiàn)有預(yù)測方法對多功能類型的抗微生物膚預(yù)測效果不佳，W及建模效率低下的問題。
[0006] 為實(shí)現(xiàn)上述目的，本發(fā)明采用W下技術(shù)方案：
[0007] -種多功能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法，其步驟如下：
[0008] (1)基于抗微生物膚的氨基酸序列信息，采用偽氨基酸組成向量化方法，依據(jù)不同的參數(shù)組合，抽取出抗微生物膚的多種不同維度的偽氨基酸組成特征向量；
[0009] (2)應(yīng)用多標(biāo)記分類算法在步驟（1)生成的所有不同維度的偽氨基酸組成特征向量上，訓(xùn)練出多個(gè)不同的多標(biāo)記分類器；
[0010] (3)從步驟(2)中所得的所有多標(biāo)記分類器中，利用遺傳算法，分別為抗微生物膚的每種功能類型篩選出N組最優(yōu)多標(biāo)記分類器子集；
[0011] (4)把待預(yù)測膚序列輸入到步驟(3)篩選出的N組最優(yōu)多標(biāo)記分類器子集中，分別執(zhí)行加權(quán)多數(shù)投票融合策略，獲得該膚序列的N種功能類型的歸屬。
[0012] 所述步驟(1)中，偽氨基酸組成向量化方法如下：
[0013] 生物膚的序列是由20種基礎(chǔ)氨基酸隨機(jī)排列組合組成，運(yùn)20種基礎(chǔ)氨基酸分別由英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和 Y表示；
[0014]偽氨基酸組成法是一種有效地向量化抗微生物膚序列的方法，其公式如下：
[001 引 P = [Pl , P2 , ? ? ? , P20 , P20+1, ? ? ? , 920+? ? A]T
[0016] 其中，P表示抗微生物膚序列，前20維Pi，P2,…，P20表示20種基礎(chǔ)氨基酸在膚序列中的比例，后C ? A維表示膚序列中氨基酸之間的順序信息；
[0017] Pi(i = l，2,…，20+C ? A)的計(jì)算公式如下：
[001 引
[0019] 其中，fi(i = l，…，20)分另懐示這20種基礎(chǔ)氨基酸在膚序列中的比例，W表示膚序列中氨基酸之間的順序信息的權(quán)重，? A)表示膚序列的順序相關(guān)因子，膚序列中氨基酸之間的順序信息近似地通過一系列序列順序相關(guān)因子來表示，屯? A)的計(jì)算公式如下：
[0020]
[0021]其中C為選用的氨基酸屬性的數(shù)量，A為膚序列中的最大相關(guān)層數(shù)，L為膚序列的長度，也就是組成膚序列的氨基酸數(shù)量，R康示膚序列中的第i個(gè)氨基酸，= …，O為基于第j個(gè)氨基酸屬性的相關(guān)性函數(shù)，相關(guān)性函數(shù)為膚序列中兩個(gè)氨基酸的屬性值的乘積。
[0022] 所述步驟（I)中，采用偽氨基酸組成向量化方法，依據(jù)不同的參數(shù)組合，抽取抗微生物膚的多種不同維度的偽氨基酸組成特征向量的方法如下：限定從W下6種氨基酸屬性中選取，分別為① hy化ophobicity、②hy化ophilicity、③mass、④pK(alpha-COOH)、⑤地 (NH3)和⑥pl(at 25°C)，然后設(shè)定A的最大取值為4,由此可W得到，參數(shù)巧化的所有可能組合的個(gè)數(shù)為
\;依據(jù)252種不同的參數(shù)組合，為抗微生物膚抽取252種不同的偽氨基酸組成特征向量。
[0023] 所述步驟(2)中，多標(biāo)記分類算法采用多標(biāo)記最近鄰算法MLK順。
[0024] 所述步驟(2)中，使用多標(biāo)記最近鄰算法MLK順對252種特征向量集進(jìn)行訓(xùn)練，訓(xùn)練出252個(gè)不同的多標(biāo)記MLKr^N分類器，其中，每一個(gè)MLKr^N分類器對應(yīng)一種偽氨基酸參數(shù)組合抽取的特征向量集，公式如下：
[0025] {M化順（1)，M化順（2)，…，M化順（252)}。
[0026] 所述步驟(3)中，使用遺傳算法分別為抗微生物膚的每種功能類型篩選最優(yōu)的多標(biāo)記分類器子集，其中，遺傳算法需要確定個(gè)體的表示形式和適應(yīng)度函數(shù)：
[0027] a.種群中的個(gè)體采用n維布爾向量的形式表示，n = 252XN，該n維布爾向量被分成 N組，每組對應(yīng)一種功能類型，每組由252維組成，每維對應(yīng)1個(gè)多標(biāo)記分類器，對于給定的個(gè) 體11，11^)(1《^《11)為1表示選擇第^個(gè)多標(biāo)記分類器，反之，11^)(1《^《11)為0表示去除第 X個(gè)多標(biāo)記分類器；
[0028] b.給定個(gè)體h，適應(yīng)度函數(shù)的適應(yīng)度采用如下方式進(jìn)行計(jì)算:首先，基于個(gè)體h提供的多標(biāo)記分類器指示信息，挑選出與每種功能類型相關(guān)的多標(biāo)記分類器，然后，使用10倍交叉驗(yàn)證法確定個(gè)體的適應(yīng)度值，適應(yīng)度采用多標(biāo)記絕對精度來衡量，返回適應(yīng)度值最大的個(gè)體對應(yīng)的腺且分類器子集；
[0029] C.通過遺傳算法進(jìn)行多標(biāo)記分類器選擇后，獲得N組最優(yōu)分類器子集，每組對應(yīng)一種功能類型：
[0030]
[0031] 其中，Qi是第1種功能類型的最優(yōu)分類器子集，包含Mi個(gè)多標(biāo)記分類器，Q 2是第2 種功能類型的最優(yōu)分類器子集，包含M2個(gè)多標(biāo)記分類器，W此類推。
[0032] 所述步驟(4)中，把待預(yù)測膚序列輸入到步驟(3)篩選出的N組最優(yōu)分類器子集中，分別執(zhí)行加權(quán)多數(shù)投票融合策略，獲得該膚序列的N種功能類型的歸屬，操作方法如下:基于步驟(3)選取的最優(yōu)分類器子集所對應(yīng)的偽氨基酸參數(shù)組合，抽取待預(yù)測膚序列的特征向量，把待預(yù)測膚序列的特征向量分別輸入到對應(yīng)地MLKrw分類器中，獲得相應(yīng)的預(yù)測結(jié) 果，對每組最優(yōu)分類器子集在每種功能類型上的預(yù)測結(jié)果，進(jìn)行加權(quán)多數(shù)投票融合，預(yù)測出該膚序列所屬的功能類型。
[0033] 本發(fā)明的有益效果在于：
[0034] (1)提出多標(biāo)記最優(yōu)集成算法，分別為每個(gè)功能類型篩選最優(yōu)多標(biāo)記分類器子集，通過該算法構(gòu)建的預(yù)測器預(yù)測性能比現(xiàn)有采用單一多標(biāo)記分類器的方法提高7% W上，具有較強(qiáng)的推廣和應(yīng)用價(jià)值；
[0035] (2)本發(fā)明方法不需要事先確定最優(yōu)的特征參數(shù)組合，避免建模時(shí)通過大量遍歷實(shí)驗(yàn)選取最優(yōu)特征參數(shù)組合，既增加預(yù)測方法的實(shí)用性，又提高建模的效率。
【附圖說明】：
[0036] 圖1是本發(fā)明多功能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法的步驟流程圖。
【具體實(shí)施方式】
[0037] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，W下結(jié)合附圖及實(shí)施例，對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用W解釋本發(fā)明，并不用于限定本發(fā)明。
[0038] -種多功能抗微生物膚的最優(yōu)多標(biāo)記集成預(yù)測方法，如圖1所示，包括W下步驟：
[0039] 步驟SOI、基于抗微生物膚的氨基酸序列信息，采用偽氨基酸組成(PseAAC)向量化方法，依據(jù)不同的參數(shù)組合，抽取出抗微生物膚的多種不同維度的偽氨基酸組成(PseAAC) 特征向量；
[0040] 步驟S02、應(yīng)用多標(biāo)記分類算法在步驟（1)生成的所有不同維度的偽氨基酸組成 (PseAAC)特征向量上，構(gòu)建出多個(gè)不同的多標(biāo)記分類器；
[0041] 步驟S03、利用遺傳算法分別為抗微生物膚的每種功能類型，從步驟(2)中所得的所有多標(biāo)記分類器中篩選出最優(yōu)的多標(biāo)記分類器子集，通過遺傳算法進(jìn)行多標(biāo)記分類器選擇后，將得到N組最優(yōu)多標(biāo)記分類器子集，每組對應(yīng)一個(gè)功能類型；
[0042] 步驟S04、把待預(yù)測膚序列輸入到步驟(3)篩選出的N組最優(yōu)分類器子集中，分別執(zhí) 行加權(quán)多數(shù)投票融合策略，即可獲得該膚序列所屬的功能類型。
[0043] 在本發(fā)明實(shí)施例中，在步驟SOl中，偽氨基酸組成(PseAAC)向量化方法如下：
[0044] 抗微生物膚的序列是由20種基礎(chǔ)氨基酸隨機(jī)排列組合組成，運(yùn)20種基礎(chǔ)氨基酸分別由英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和 Y表示。
[0045] 偽氨基酸組成(PseAAC)法是一種有效地向量化抗微生物膚序列的方法，其公式如下：
[0046] P = [Pl , P2 , ? ? , P20 , P20+1, ? ? , P20+^ ? A(1)
[0047] 其中，P表示抗微生物膚序列，前20維Pi，p2,…，P20表示20種基礎(chǔ)氨基酸在膚序列中的比例，后C ? A維表示膚序列中氨基酸之間的順序信息，因?yàn)榍?0維特征將膚序列的順序關(guān)系全部丟失，所W采用后C -A維描述序列中氨基酸的前后順序關(guān)系。Pia = I,2,…，20 +C-A)的計(jì)算公式如下：
[004引
（2)
[0049]其中，fia = l，…，20)分別表示運(yùn)20種基礎(chǔ)氨基酸在膚序列中的比例，W表示膚序列中氨基酸之間的順序信息的權(quán)重，? A)表示膚序列的順序相關(guān)因子，膚序列中氨基酸之間的順序信息近似地通過一系列序列順序相關(guān)因子來表示，屯? A)的計(jì)算公式如下：
[(K)加 ]
(:3)
[0051] 其中C為選用的氨基酸屬性的數(shù)量，A為膚序列中的最大相關(guān)層數(shù)，L為膚序列的長度，也就是組成膚序列的氨基酸數(shù)量，R康示膚序列中的第i個(gè)氨基酸，= …，O為基于第j個(gè)氨基酸屬性的相關(guān)性函數(shù)，運(yùn)里的相關(guān)性函數(shù)為膚序列中兩個(gè)氨基酸的屬性值的乘積。
[0052] 在本發(fā)明實(shí)施例中，在步驟SOl中，采用偽氨基酸組成(PseAAC)向量化方法，依據(jù) 不同的參數(shù)組合，抽取抗微生物膚的多種不同維度的偽氨基酸組成特征向量，具體方法如下：
[005引首先限定從W下6種氨基酸屬性中選取，分別為① hydrophobicity，② hyhwhilicity，③mass，④地(alpha-COOH)，⑤地(NH3)，⑥pi (at 25°C )，然后設(shè)定A的最大取值為4,因?yàn)樗糜?xùn)練集中最短膚序列長度為5,由此可W得到，參數(shù)C和A的所有可能組合的個(gè)數(shù)為
K依據(jù)運(yùn)252種不同的參數(shù)組合，為抗微生物膚抽取252種不同的偽氨基酸組成特征向量。
[0化4] 在本發(fā)明實(shí)施例中，在步驟S02中，多標(biāo)記分類算法優(yōu)選多標(biāo)記最近鄰算法MLK順。 [0化5] 在本發(fā)明實(shí)施例中，在步驟S02中，使用多標(biāo)記最近鄰算法MLK順對252種特征向量集進(jìn)行訓(xùn)練，訓(xùn)練出252個(gè)不同的多標(biāo)記MLK順分類器，其中，每一個(gè)MLK順分類器對應(yīng)一種偽氨基酸組成參數(shù)組合抽取的特征向量集，如下所示：
[0056] {]?化順（1)，]\1化順（2)，...，]\1化順（252)} (4)
[0057] -種簡單的構(gòu)造多標(biāo)記集成分類器的方法是把它們的結(jié)果按照加權(quán)多數(shù)投票的方式融合起來，可W得到W下的多標(biāo)記集成分類器：
[0化引
（5)
[0059] 其中，貨表示集成符號，(C。"表示由M化順（1 )，M化順(2 )，…，M化順(252)通過加權(quán) 多數(shù)投票構(gòu)成的多標(biāo)記集成分類器。
[0060] 給定待預(yù)測膚序列P，通過多標(biāo)記集成分類器預(yù)測其所屬的功能類型集合的方法有別于傳統(tǒng)的多類集成分類器，需要針對每種功能類型分別進(jìn)行加權(quán)多數(shù)投票融合。假設(shè) yp是待預(yù)測膚序列P的功能類型向量，當(dāng)預(yù)測得到y(tǒng)p(t) = l時(shí)表明該膚序列P屬于功能類型 t，否則該膚序列P不屬于功能類型t。設(shè)多標(biāo)記集成分類器(CaB中各個(gè)體分類器對功能類型t 的預(yù)測結(jié)果分別為卑為，…，瑪。*即：
[006。
(6)
[00創(chuàng)其中，譚=1隸示個(gè)體分類器M化順(i)預(yù)測該膚序列P屬于功能類型t，巧=0表示個(gè)體分類器MLkNN(i)預(yù)測該膚序列P不屬于功能類型U該膚序列P屬于功能類型t的得分為：
[0063]
口')
[0064] 其中，wei曲ti為權(quán)重系數(shù)，為簡單起見，運(yùn)里設(shè)所有權(quán)重都為1/252,即集成中的所有個(gè)體分類器同等重要，簡化為多數(shù)投票法。在該實(shí)施例中，抗微生物膚共有5種可能的功能類型。基于式(7)，得分(Score)大于0.5的功能類型即為該膚序列P的功能類型。
[0065] 然而，針對每個(gè)功能類型分別進(jìn)行加權(quán)多數(shù)投票融合時(shí)，所需要的最優(yōu)分類器組合是不同的，而像上面那樣，對每個(gè)功能類型不加選擇的使用所有分類器進(jìn)行融合，勢必會損害預(yù)測準(zhǔn)確度。
[0066] 故而，在本發(fā)明實(shí)施例中，在步驟S03中，使用遺傳算法分別為抗微生物膚的每種功能類型篩選最優(yōu)的多標(biāo)記分類器子集，其中，遺傳算法需要確定個(gè)體的表示形式和適應(yīng) 度函數(shù)：
[0067] 種群中的個(gè)體采用n維布爾向量的形式表示，n = 252X5。具體來說，該n維布爾向量被分成5組，每組對應(yīng)一種功能類型，每組由252維組成，每維對應(yīng)1個(gè)多標(biāo)記分類器，對于給定的個(gè)體11，11^)(1《^《11)為1表示選擇第^個(gè)多標(biāo)記分類器，反之，11^)(1《^《11)為0表示去除第X個(gè)多標(biāo)記分類器。
[0068] 適應(yīng)度函數(shù)(fitness化nction)，給定個(gè)體h，其適應(yīng)度采用如下方式進(jìn)行計(jì)算。首先，基于個(gè)體h提供的分類器指示信息，挑選出與每種功能類型相關(guān)的分類器，然后，使用 10倍交叉驗(yàn)證法確定個(gè)體的適應(yīng)度值，適應(yīng)度采用多標(biāo)記絕對精度來衡量，返回適應(yīng)度值最大的個(gè)體對應(yīng)的5組分類器子集。
[0069] 通過遺傳算法進(jìn)行分類器選擇后，獲得5組最優(yōu)分類器子集，每組對應(yīng)一種功能類型，即
[0070] (8)
[0071] 其中，Q I是第I種功能類型的最優(yōu)分類器子集，包含Ml個(gè)分類器，Q 2是第巧巾功能類型的最優(yōu)分類器子集，包含M2個(gè)分類器，W此類推。
[0072] 在本發(fā)明實(shí)施例中，在步驟S04中，把待預(yù)測膚序列輸入到步驟S03篩選出的N組最優(yōu)分類器子集中，分別執(zhí)行加權(quán)多數(shù)投票融合策略，即可獲得該膚序列的功能類型，具體如下：
[0073] 首先，基于步驟S03選取的最優(yōu)分類器子集所對應(yīng)的偽氨基酸參數(shù)組合，抽取待預(yù) 測膚序列的特征向量，把待預(yù)測膚序列的特征向量分別輸入到對應(yīng)地MLKNN分類器中，獲得相應(yīng)的預(yù)測結(jié)果，然后，分別對每種功能類型，即對每組最優(yōu)分類器子集在該種功能類型上的預(yù)測結(jié)果，進(jìn)行加權(quán)多數(shù)投票融合，即可預(yù)測出該膚序列所屬的功能類型。
[0074] 實(shí)驗(yàn)結(jié)果和分析
[00巧]在本發(fā)明實(shí)施例中，采用文獻(xiàn)(Xiao，X.，Wang，P.，Lin，W.Z.，et al.iAMP-化:A two-level multi-label classifier for identifying antimicrobial peptides and their 化nctional types.Analytical Biochemistir,2013,436:168-177)所構(gòu)建的數(shù)據(jù) 集，該數(shù)據(jù)集中包含了抗微生物膚和非抗微生物膚，由于本發(fā)明只關(guān)注識別抗微生物膚的多功能類型，因而本發(fā)明只使用抗微生物膚數(shù)據(jù)子集，符號表示為S_AMP，S_AMP共包含878 個(gè)抗微生物膚，其中，454個(gè)屬于1個(gè)功能類型，296個(gè)屬于2個(gè)功能類型，85個(gè)屬于3個(gè)功能類型，30個(gè)屬于4個(gè)功能類型，13個(gè)屬于5個(gè)功能類型。對于每個(gè)功能類型擁有的膚數(shù)量，如下表1所示：
[0076] 表1數(shù)據(jù)集S_AMP的統(tǒng)計(jì)信息
[0077]
[007引表2列出了本發(fā)明方法與iAMP-化方法(Xiao，X.，Wang，P.，Lin，W.Z.，et al.iAMP- 2L:A two-level multi-label classifier for identifying antimicrobial peptides and their functional types .Analytical Biochemistry,2013,436:168-177)在上述數(shù) 據(jù)集上的抗微生物膚的多功能類型預(yù)測性能的比較。評價(jià)指標(biāo)采用多標(biāo)記預(yù)測領(lǐng)域常用的 1111八0：、1111口1?6、11111?6(：、111巧1和40：。從表2可^看出，本發(fā)明方法在所有多標(biāo)記性能評價(jià)指標(biāo) 上都超過了目前最好方法iAMP-2L，尤其是，本發(fā)明方法的絕對精度ACC達(dá)到了50% W上，超過了iAMP-化方法7%左右。由于絕對精度ACC要求非常嚴(yán)格，必須完全正確地預(yù)測出測試膚序列的所有功能類型才算是預(yù)測正確，任何過預(yù)測或欠預(yù)測都被認(rèn)為預(yù)測錯(cuò)誤，因而可見，本發(fā)明方法能極大地改進(jìn)多功能抗微生物膚的識別率，而且成功地避免了繁瑣的氨基酸組成的參數(shù)尋優(yōu)過程。
[0079] 表2本發(fā)明方法和i AMP-化的性能比較
[0080]
[0081] W上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用W限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法，其特征在于:其步驟如下： (1) 基于抗微生物肽的氨基酸序列信息，采用偽氨基酸組成向量化方法，依據(jù)不同的參數(shù)組合，抽取出抗微生物肽的多種不同維度的偽氨基酸組成特征向量； (2) 應(yīng)用多標(biāo)記分類算法在步驟（1)生成的所有不同維度的偽氨基酸組成特征向量上，訓(xùn)練出多個(gè)不同的多標(biāo)記分類器； (3) 從步驟(2)中所得的所有多標(biāo)記分類器中，利用遺傳算法，分別為抗微生物肽的每種功能類型篩選出N組最優(yōu)多標(biāo)記分類器子集； (4) 把待預(yù)測肽序列輸入到步驟(3)篩選出的N組最優(yōu)多標(biāo)記分類器子集中，分別執(zhí)行加權(quán)多數(shù)投票融合策略，獲得該肽序列的N種功能類型的歸屬。2. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法，其特征在于:所述步驟(1)中，偽氨基酸組成向量化方法如下：生物肽的序列是由20種基礎(chǔ)氨基酸隨機(jī)排列組合組成，這20種基礎(chǔ)氨基酸分別由英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和 Y表示；偽氨基酸組成法是一種有效地向量化抗微生物肽序列的方法，其公式如下： P = [pi,P2, ·' ,P20,P20+1, ··· ,Ρ20+ξ·λ]Τ 其中，P表示抗微生物肽序列，前20維P1，ρ2，…，p2Q表示20種基礎(chǔ)氨基酸在肽序列中的比例，后ξ · λ維表示肽序列中氨基酸之間的順序信息； Pi(i = l，2,…，20+ξ · λ)的計(jì)算公式如下：其中，AG = I,…，20)分別表示這20種基礎(chǔ)氨基酸在肽序列中的比例，w表示肽序列中氨基酸之間的順序信息的權(quán)重，· λ)表示肽序列的順序相關(guān)因子，肽序列中氨基酸之間的順序信息近似地通過一系列序列順序相關(guān)因子來表示，· λ)的計(jì)算公式如下：其中ξ為選用的氨基酸屬性的數(shù)量，λ為肽序列中的最大相關(guān)層數(shù)，L為肽序列的長度，也就是組成肽序列的氨基酸數(shù)量，R1表示肽序列中的第i個(gè)氨基酸，Ψ』?_ = 1，···，ξ)為基于第j個(gè)氨基酸屬性的相關(guān)性函數(shù)，相關(guān)性函數(shù)為肽序列中兩個(gè)氨基酸的屬性值的乘積。3. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法，其特征在于:所述步驟（1)中，采用偽氨基酸組成向量化方法，依據(jù)不同的參數(shù)組合，抽取抗微生物肽的多種不同維度的偽氨基酸組成特征向量的方法如下:限定從以下6種氨基酸屬性中選取，分別為① hydrophobicity、②hydrophilicity、③mass、④pK(alpha-COOH)、⑤pK(NH3)和⑥pi (at 25°C)，然后設(shè)定λ的最大取值為4,由此可以得到，參數(shù)ξ和λ的所有可能組合的個(gè)數(shù)為 (戌+ g + C + 0 0 + C66) X 4 = 2:52個(gè);依據(jù)252種不同的參數(shù)組合，為抗微生物肽抽取252 種不同的偽氨基酸組成特征向量。4. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法，其特征在于:所述步驟(2)中，多標(biāo)記分類算法采用多標(biāo)記最近鄰算法MLKNN。5. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法，其特征在于:所述步驟(2)中，使用多標(biāo)記最近鄰算法MLKNN對252種特征向量集進(jìn)行訓(xùn)練，訓(xùn)練出252個(gè)不同的多標(biāo)記MLKNN分類器，其中，每一個(gè)MLKNN分類器對應(yīng)一種偽氨基酸參數(shù)組合抽取的特征向量集，公式如下： {MLkNN(I)，MLkNN(2)，…，MLkNN(2 5 2)}。6. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法，其特征在于:所述步驟(3)中，使用遺傳算法分別為抗微生物肽的每種功能類型篩選最優(yōu)的多標(biāo)記分類器子集，其中，遺傳算法需要確定個(gè)體的表示形式和適應(yīng)度函數(shù)： a. 種群中的個(gè)體采用η維布爾向量的形式表示，n = 252 X N，該η維布爾向量被分成N組，每組對應(yīng)一種功能類型，每組由252維組成，每維對應(yīng)1個(gè)多標(biāo)記分類器，對于給定的個(gè)體h， h(x) (KxSn)為1表示選擇第X個(gè)多標(biāo)記分類器，反之，h(X) (KxSn)為O表示去除第X個(gè) 多標(biāo)記分類器； b. 給定個(gè)體h，適應(yīng)度函數(shù)的適應(yīng)度采用如下方式進(jìn)行計(jì)算:首先，基于個(gè)體h提供的多標(biāo)記分類器指示信息，挑選出與每種功能類型相關(guān)的多標(biāo)記分類器，然后，使用10倍交叉驗(yàn) 證法確定個(gè)體的適應(yīng)度值，適應(yīng)度采用多標(biāo)記絕對精度來衡量，返回適應(yīng)度值最大的個(gè)體對應(yīng)的N組分類器子集； c. 通過遺傳算法進(jìn)行多標(biāo)記分類器選擇后，獲得N組最優(yōu)分類器子集，每組對應(yīng)一種功能類型：其中，Ω :是第1種功能類型的最優(yōu)分類器子集，包含M1個(gè)多標(biāo)記分類器，Ω 2是第2種功能類型的最優(yōu)分類器子集，包含此個(gè)多標(biāo)記分類器，以此類推。7. 如權(quán)利要求1所述的多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法，其特征在于:所述步驟(4)中，把待預(yù)測肽序列輸入到步驟(3)篩選出的N組最優(yōu)分類器子集中，分別執(zhí)行加權(quán)多數(shù)投票融合策略，獲得該肽序列的N種功能類型的歸屬，操作方法如下:基于步驟(3)選取的最優(yōu)分類器子集所對應(yīng)的偽氨基酸參數(shù)組合，抽取待預(yù)測肽序列的特征向量，把待預(yù) 測肽序列的特征向量分別輸入到對應(yīng)地MLKNN分類器中，獲得相應(yīng)的預(yù)測結(jié)果，對每組最優(yōu) 分類器子集在每種功能類型上的預(yù)測結(jié)果，進(jìn)行加權(quán)多數(shù)投票融合，預(yù)測出該肽序列所屬的功能類型。
【文檔編號】G06F19/24GK106021999SQ201610327347
【公開日】2016年10月12日
【申請日】2016年5月17日
【發(fā)明人】王曉, 劉嘉, 張秋聞, 王榕, 郭瑞
【申請人】鄭州輕工業(yè)學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王曉;劉嘉;張秋聞;王榕;郭瑞;
技術(shù)所有人：鄭州輕工業(yè)學(xué)院;
我是此專利的發(fā)明人

上一篇：一種基于壓縮和聚類的批量蛋白質(zhì)同源性搜索方法
上一篇：單通多變體識別計(jì)算流水線的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

帕累托最優(yōu)相關(guān)技術(shù)

最優(yōu)化方法相關(guān)技術(shù)

最優(yōu)化理論與算法相關(guān)技術(shù)

帕累托最優(yōu)選擇相關(guān)技術(shù)

最優(yōu)控制相關(guān)技術(shù)

最優(yōu)化相關(guān)技術(shù)

線性規(guī)劃最優(yōu)解相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種多功能抗微生物肽的最優(yōu)多標(biāo)記集成預(yù)測方法