專利名稱::一種高致病性禽流感病毒血凝素蛋白識別方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種流感病毒血凝素蛋白識別方法,特別是一種高致病性禽流感病毒血凝素蛋白識別方法。
背景技術(shù):
:流感屬于正粘病毒科,其可分為A、B及C三種。禽流感是由A型流感病毒引起的一種禽類疾病綜合癥。根據(jù)致病力不同,禽流感病毒(AIV)可分為非致病力、低致病力和高致病力毒株。非致病力和低致病力毒抹多呈隱性感染或癥狀較輕,不導(dǎo)致嚴(yán)重病變或死亡。高致病性禽流感病毒(HPAIV)傳播快,具有高度致死性,對禽類的致死率高易變異且可傳染人類。從2003年1月到2008年6月19日,世界衛(wèi)生組織所報(bào)道實(shí)驗(yàn)室確診的感染H5N1型禽流感的人類病例累計(jì)數(shù)為385人,死亡243人(http:〃www.who.int/en/)。血凝素蛋白是病毒表面的主要抗原,也是中和抗體的主要目標(biāo),其負(fù)責(zé)病毒親和到宿主受體,通過胞吞作用與以后的膜融合進(jìn)入宿主細(xì)胞,正因如此,血凝素蛋白是藥物與疫苗開發(fā)的一個(gè)重要靶點(diǎn)(Stevens,etal.,Science,2006,312:404)。禽流感病毒致病力的分子基礎(chǔ)尚不完全確定,科學(xué)家認(rèn)為是多基因作用的結(jié)果,但確有證據(jù)表明,血凝素蛋白的氨基酸序列構(gòu)成、位置及其物化性質(zhì)和空間結(jié)構(gòu)性質(zhì)對其毒性有顯著影響(Beigel,etal"N.Eng.J.Med"2005,353:1374;Garten,etal.,TrendsMicrobiol.,1999,7(3):99)。禽流感幾乎包含所有A型流感病毒的基因庫,其自然宿主的廣泛性及遺傳變異給禽流感的及時(shí)定性^貪斷和預(yù)防帶來;f艮大困難。其爆發(fā)突然,席巻種群,對它們產(chǎn)生極大破壞,一旦爆發(fā),其不能被停止,而是快速達(dá)到高峰,然后就如其爆發(fā)時(shí)那樣快速消退。因此,為控制高致病性禽流感病毒的大面積流行,減少或避免其對禽業(yè)、人身安全和世界經(jīng)濟(jì)的巨大破壞,這便要求采取快速檢測,并用先進(jìn)分子生物學(xué)技術(shù)進(jìn)行病毒鑒定、檢疫及免疫保護(hù)等措施?,F(xiàn)在人類對禽流感病毒感染的實(shí)驗(yàn)室鑒別是通過抗原檢測、細(xì)胞培養(yǎng)分離,或用逆轉(zhuǎn)錄酶-聚合酶鏈反應(yīng)(RT-PCR)進(jìn)行與流感相關(guān)的RNA檢測(WorldHealthOrganization.2005.(http:〃www.who.int/csr/disease/avian—influenza/guidelines/avianlabtestsl.pdf)。但上述實(shí)驗(yàn)方法檢測高致病性禽流感病毒是費(fèi)時(shí)、費(fèi)力且昂貴的。近年來,借助計(jì)算方法預(yù)測蛋白質(zhì)的結(jié)構(gòu)與功能已成為研究生物大分子結(jié)構(gòu)與功能關(guān)系的重要手段,自從Chou與Fasman(Biochemistiy,1974,13:222)及Lim等(J.Mol.Biol.,1974,88:857)開創(chuàng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測的先河,大量的方法用于蛋白質(zhì)的結(jié)構(gòu)預(yù)測。前人的相關(guān)研究為釆用計(jì)算方法識別高致病性禽流感病毒提供了機(jī)遇與挑戰(zhàn)。如何建立一種有效的高致病性禽流感病毒血凝素蛋白識別方法,對于理解高致病性禽流感病毒血凝素蛋白的結(jié)構(gòu)特征,以及間接地判別其所屬的禽流感病毒抹的致病性高低具有重要的意義。
發(fā)明內(nèi)容有鑒于此,為了解決上述問題,本發(fā)明提供了一種高致病性禽流感病毒血凝素蛋白識別方法,能夠用于高致病性禽流感病毒血凝素蛋白識別,可為理解高致病性禽流感病毒血凝素蛋白的結(jié)構(gòu)特征提供參考,通過對血凝素蛋白的識別,從而可以間接地判別其所屬的禽流感病毒抹的致病性高低。本發(fā)明的目的是這樣實(shí)現(xiàn)的一種高致病性禽流感病毒血凝素蛋白識別方法,包括如下步驟a)基于主成分方法,建立氨基酸全息拓樸結(jié)構(gòu)得分矢量;b)應(yīng)用氨基酸全息拓樸結(jié)構(gòu)得分矢量對流感病毒血凝素蛋白的結(jié)構(gòu)進(jìn)行表征;c)用自交叉協(xié)方差方法對每個(gè)流感病毒血凝素蛋白的表征變量做歸一化處理;d)用徑向基核支持向量機(jī)建立禽流感病毒血凝素蛋白識別模型;e)用徑向基核支持向量機(jī)建立高致病性禽流感病毒血凝素蛋白識別模型。進(jìn)一步,在于步驟a)具體包括如下步驟al)精選23種氨基酸的1262種性質(zhì)參數(shù);a2)對1262種性質(zhì)參數(shù)做主成分分析,得到22個(gè)主成分;a3)計(jì)算各主成分得分,將得分矢量定義為氨基酸全息拓樸結(jié)構(gòu)得分;進(jìn)一步,步驟b)具體包括用氨基酸全息拓樸結(jié)構(gòu)得分所涉及的22個(gè)主成分對流感病毒血凝素蛋白序列進(jìn)行表征,其中的每個(gè)氨基酸殘基用22個(gè)氨基酸全息拓樸結(jié)構(gòu)得分矢量表征;進(jìn)一步,步驟c)具體包括如下步驟用自交叉協(xié)方差處理得到的每個(gè)血凝素蛋白的表征變量,設(shè)置步長/為6,使每個(gè)血凝素蛋白的表征變量數(shù)目一致,并將經(jīng)自交叉協(xié)方差處理得到的變量作為高致病性禽流感病毒血凝素蛋白識別模型的自變量;進(jìn)一步,步驟d)具體包括如下步驟首先定義兩個(gè)指示變量,分別用'T,表示禽流感病毒血凝素蛋白樣本,用"-l"表示非禽流感病毒血凝素蛋白樣本,以此指示變量作為禽流感病毒血凝素蛋白識別模型的因變量,用徑向基核支持向量機(jī)建立禽流感病毒血凝素蛋白識別模型;進(jìn)一步,步驟e)具體包括如下步驟首先定義兩個(gè)指示變量,分別用"l"表示高致病性禽流感血凝素蛋白樣本,用"-l"表示低或非致病性禽流感血凝素蛋白樣本,以此指示變量作為高致病性禽流感病毒血凝素蛋白識別模型的因變量,用徑向基核支持向量機(jī)建立高致病性禽流感病毒血凝素蛋白識別模型。本發(fā)明的一種高致病性禽流感病毒血凝素蛋白識別方法,其中選取的氨基酸全息拓樸結(jié)構(gòu)得分矢量所含信息量大、表征能力強(qiáng)、使用操作方便、結(jié)果易解釋及拓展性能好;用自交叉協(xié)方差方法對每個(gè)血凝素蛋白序列的表征變量做歸一化處理,該歸一化方法能夠較大程度地減少原始變量信息的損失,同時(shí)可充分考慮相鄰氨基酸殘基之間的交互效應(yīng)及相互影響;而徑向基核支持向量機(jī)通過核函數(shù)技術(shù),可以很好地相關(guān)經(jīng)自交叉協(xié)方差轉(zhuǎn)換的血凝素蛋白序列表征變量及觀測分類值之間的關(guān)系,可以有效的防止模型的過擬合,同時(shí),所建模型具有良好的泛化性能。本發(fā)明的其他優(yōu)點(diǎn)、目標(biāo)和特征在某種程度上將在隨后的說明書中進(jìn)行闡述,并且在某種程度上,基于對下文的考察研究對本領(lǐng)域技術(shù)人員而言將是顯而易見的,或者可以從本發(fā)明的實(shí)踐中得到教導(dǎo)。本發(fā)明的目標(biāo)和其他優(yōu)點(diǎn)可以通過下面的說明書,權(quán)利要求書,以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)描述,其中圖1是本發(fā)明的高致病性禽流感病毒血凝素蛋白識別流程示意圖;圖2是本發(fā)明的支持向量初4莫型識別結(jié)果ROC分析示意圖。具體實(shí)施例方式以下將參照附圖,對采用本發(fā)明的方法用于高致病性禽流感病毒血凝素蛋白識別為例進(jìn)行詳細(xì)的描述,包括以下步驟a)基于主成分分析方法,建立氨基酸全息拓樸結(jié)構(gòu)得分矢量;收集20種天然氨基酸和3種非天然氨基酸的1262種性質(zhì)參數(shù),包括構(gòu)成描述子,官能團(tuán)數(shù)目、原子中心碎片和分子特性,分子電性作用矢量,分子電距矢量和全息分子電距矢量,拓樸,拓樸電荷指數(shù),運(yùn)轉(zhuǎn)和路徑數(shù)目,邊緣鄰接指數(shù),Burden特征值,自相關(guān),連接性指數(shù),信息指數(shù),特征值指數(shù),Randic分子剖面,幾何描述子,基于不同原子間距的徑向基函數(shù)描述子,基于電衍射法的分子結(jié)構(gòu)表征得到的描述子,加權(quán)整體不變分子的描述子及幾何、拓樸與原子重量的集合描述子等。采用主成分分析壓縮描述子數(shù)量,經(jīng)變換后,其前22個(gè)主成分得分矩陣(23x22)累計(jì)解釋了原始變量數(shù)據(jù)矩陣(23xl262)99.99。/o的方差,因此可用此22個(gè)主成分得分矩陣替代原始變量矩陣,參見表l,為方便,將22個(gè)得分矢量命名為氨基酸全息拓樸結(jié)構(gòu)得分,其綜合了1262個(gè)原始氨基酸性質(zhì)參數(shù)的大部分信息,可以嘗試將這22個(gè)主成分得分矢量用于蛋白的結(jié)構(gòu)表征。表123種氨基酸的1262種性質(zhì)參數(shù)的22個(gè)主成分得分<table>tableseeoriginaldocumentpage8</column></row><table>(%)累積方差48.8961.0767.5173.3977.7380.9684.l086.9489.il91.1292.7594.0695.1296.0996.8997.6298.2798.7699.2099.5499.8699.99(%)__________a20種天然氨基酸(A,E,L,S,R,Q,K,T,N,QM,W,D,H,F(xiàn),Y,C,I,P,V)用常規(guī)的單個(gè)英文字母表示。bAbu(a-氨基丁酸),Ava(2-氨基戊酸),Me(2-氨基己酸)為3種非天然氨基酸。b)應(yīng)用氨基酸全息拓樸結(jié)構(gòu)得分矢量對流感病毒血凝素蛋白的結(jié)構(gòu)進(jìn)行表征;用氨基酸全息拓樸結(jié)構(gòu)得分所涉及的22個(gè)主成分對流感病毒血凝素蛋白序列進(jìn)行表征,其中的每個(gè)氨基酸殘基用22個(gè)氨基酸全息拓樸結(jié)構(gòu)得分矢量表征。每個(gè)血凝素蛋白序列根據(jù)其含有的殘基數(shù)目(定義為"),以"x6個(gè)變量表征。c)用自交叉協(xié)方差方法對每個(gè)流感病毒血凝素蛋白的表征變量做歸一化處理;用自交叉協(xié)方差(ACC)處理得到的血凝素蛋白的表征變量,該法考慮了蛋白質(zhì)不同位點(diǎn)氨基酸參數(shù)之間所有交互效應(yīng),因此,在數(shù)據(jù)變換過程中可最大程度地降低信息損失。設(shè)所研究的樣本集中最短序列長度為/+1,對任意一個(gè)含有w個(gè)氨基酸殘基的序列,ACC處理如下"7x7'='"(/=1,2,3,...,0式中/為步長;i'和/+/為序列中氨基酸所處位置;a和6分別為第f和/+/個(gè)氨基酸相應(yīng)描述子分量號,對于氨基酸全息拓樸結(jié)構(gòu)得分矢量,其a,6=1,2,3,4,...,22??煽吹?,當(dāng)計(jì)算所有可能步長時(shí)(7=1,2,3,...,/」,樣本集中不同長度的序列經(jīng)自交叉協(xié)方差處理后其描述子數(shù)目最終都為222x/個(gè),此處選擇步長/為6,這樣每條序列可由22、6=2904個(gè)變量表征,將經(jīng)自交叉協(xié)方差處理得到的變量作為血凝素蛋白識別^f莫型的自變量。d)用徑向基核支持向量機(jī)建立禽流感病毒血凝素蛋白識別模型;高致病性禽流感病毒血凝素蛋白識別過程參見圖1。從GenBank數(shù)據(jù)庫(http:〃www.ncbi.nlm.nih.gov/)分別下載具有完整序列的899條禽流感病毒、18條B型流感病毒及78條C型流感病毒的血凝素蛋白共995條構(gòu)成訓(xùn)練集,213條禽流感病毒、4條B型流感病毒及16條C型流感病毒的血凝素蛋白共233條構(gòu)成測試集。經(jīng)過氨基酸全息拓樸結(jié)構(gòu)得分矢量表征,用自交叉協(xié)方差歸一化處理后,首先定義兩個(gè)指示變量,分別用"l"表示禽流感病毒血凝素蛋白樣本,用"-l"表示非禽流感病毒血凝素蛋白樣本,以此指示變量作為識別模型的因變量,用徑向基核支持向量機(jī)建立禽流感病毒血凝素蛋白識別模型。對于以徑向基核支持向量機(jī)分類3類血凝素蛋白問題,將其簡化為2類分類問題,采用"1對2,,策略,即將3類問題中的任意1類抽出作正樣本,而剩余各類作負(fù)樣本,然后進(jìn)行分類,如此重復(fù)3次直至每1類樣本都被作為正樣本抽出1次。用響應(yīng)面分析法,據(jù)留一法交互檢驗(yàn)對訓(xùn)練集預(yù)測所得結(jié)果評價(jià)優(yōu)化支持向量機(jī)參數(shù),若留一法交互檢驗(yàn)所得結(jié)果相等,再以外部驗(yàn)證的識別結(jié)果為依據(jù),最終,支持向量機(jī)回歸參數(shù)設(shè)置為C=100.0,K(j^i)-e;c/7(-0.125IIx-Xil(2)。若分別定:^4ec為計(jì)算預(yù)測正確的樣本數(shù)目所占總樣本數(shù)目百分比,Sp為預(yù)測正確的禽流感病毒血凝素蛋白樣本數(shù)目的百分比,&為預(yù)測正確的非禽流感病毒血凝素蛋白樣本數(shù)目的百分比,MCC為馬休斯相關(guān)系數(shù)等統(tǒng)計(jì)參數(shù),則所建支持向量分類機(jī)對3類血凝素蛋白自檢驗(yàn)識別,留一法及對測試集樣本預(yù)測的MCC都為1.000,識別結(jié)果表明,支持向量機(jī)能夠較好地識別3類流感病毒的血凝素蛋白。對于3類HA蛋白得到的支持向量分類機(jī)的每個(gè)支持向量的數(shù)目分別占總樣本數(shù)目的19.3%、19.4%及19.2%,亦即對3類血凝素蛋白,分別有80.7%、80.6%及80.8%的樣本可安全地刪除,而不影響其對新樣本的預(yù)測效果,進(jìn)一步表明三個(gè)支持向量分類機(jī)都具有優(yōu)良的泛化性能。進(jìn)一步以(l-Sp)為橫坐標(biāo),靈敏度(&)為縱坐標(biāo),繪制ROC(受試者操作特征)曲線做ROC分析。支持向量機(jī)對禽流感病毒血凝素蛋白、B型流感病毒血凝素蛋白及C型流感病毒血凝素蛋白總體分類的ROC分析結(jié)果表明,對訓(xùn)練集自檢驗(yàn)識別、LOO及外部驗(yàn)證的MCC都為1.000,因此,其ROC曲線下的面積都為1.000,這表明,支持向量機(jī)對于3類HA蛋白的識別結(jié)果都較優(yōu)。e)用徑向基核支持向量機(jī)建立高致病性禽流感病毒血凝素蛋白識別模型;對于訓(xùn)練集中的899條禽流感病毒血凝素蛋白,其中有180條可以從GenBank數(shù)據(jù)庫中獲致其相應(yīng)毒林所屬的致病性類別,此180條血凝素蛋白序列所在毒抹的致病性根據(jù)歐共體提出的通過人工靜脈接種無特定病原(SPF)雞,以靜脈內(nèi)接致病性指數(shù)(IVPI)評定若引起禽流感的A型病毒對6周齡雞的IVPI>1.2,則認(rèn)為是高致病性禽流感病毒,若IVPK1.2則認(rèn)為是低致病性禽流感病毒。對于其它932條血凝素蛋白的所屬類別,因?yàn)槲赐ㄟ^實(shí)驗(yàn)獲得其所在毒抹的IVPI,因此采取歐共體應(yīng)用的標(biāo)準(zhǔn)凡屬于H5或H7亞型,且其裂解位點(diǎn)具有4個(gè)以上的聚堿性氨基酸殘基,其則屬于高致病性禽流感病毒的血凝素蛋白,否則屬于低致病性禽流感病毒血凝素蛋白。以180條已知其所屬類別(高致病性或低致病性)禽流感病毒血凝素蛋白為訓(xùn)練集,基于徑向基核支持向量機(jī)建立其識別模型預(yù)測并評價(jià)932條血凝素蛋白的所屬類另ij(判斷其來源于高致病性禽流感病毒林還是低致病性禽流感病毒林),進(jìn)一步評價(jià)文中方法對之的預(yù)測結(jié)果與歐共體所用判定標(biāo)準(zhǔn)的接近程度。首先定義兩個(gè)指示變量,分別用"l"表示高致病性禽流感血凝素蛋白樣本,用"-l"表示低或非致病性禽流感血凝素蛋白樣本,以此指示變量作為識別模型的因變量。同樣以留一法及外部驗(yàn)證獲得的結(jié)果作為評價(jià)標(biāo)準(zhǔn),經(jīng)響應(yīng)面分析法優(yōu)化后,支持向量機(jī)回歸參數(shù)設(shè)置為C=200.0,核函數(shù)為/:(;^;)=狄;(-0.250IIHiII2),以支持向量機(jī)模型對兩類禽流感病毒的血凝素蛋白自檢驗(yàn)識別及留一法交互檢驗(yàn)所得MCC都為1.000,對測試集樣本預(yù)測的MX為0.998,結(jié)果表明,支持向量機(jī)能夠較好地識別兩類流感病毒的血凝素蛋白。所建支持向量分類機(jī)中支持向量的數(shù)目占總訓(xùn)練集樣本的數(shù)目比例為34.4%,表明有65.6°/。的樣本對分類不是必須的,再次表明了支持向量機(jī)可以有效地除去數(shù)據(jù)集中的不必要的信息,從而集中應(yīng)用其中的有益信息對樣本進(jìn)行分類。參見圖2,支持向量機(jī)對高致病性與低致病性禽流感病毒血凝素蛋白識別結(jié)果的ROC分析顯示,對訓(xùn)練集樣本的自檢驗(yàn)識別和留一法交互檢驗(yàn)所得ROC面積都為1.000,外部驗(yàn)證的ROC面積為0.999,這表明,所得模型可以很好的識別高致病性禽流感病毒血凝素蛋白。參見表2,列出用徑向基核支持向量機(jī)模型對932個(gè)測試集血凝素蛋白預(yù)測錯(cuò)誤的樣本,分析觀測結(jié)果與預(yù)測結(jié)果關(guān)系發(fā)現(xiàn),除了將屬于低致病性的A/chicken/Victoria/75(H7N7)樣本識別為高致病性樣本外,對屬于非H5與H7亞型的樣本識別全部正確。支持向量機(jī)方法對來源于高致病性與低致病性禽流感病毒血凝素蛋白分類結(jié)果表明,其與關(guān)于歐共體提出的若H5與H7亞型的HA蛋白裂解位點(diǎn)處具有4個(gè)以上堿性氨基酸則為高致病性禽流感病毒這一判別標(biāo)準(zhǔn)有密切關(guān)系。表2932個(gè)測試集血凝素蛋白中被預(yù)測錯(cuò)誤的樣本序號毒林GenBank登錄號觀測值預(yù)測值1A/gul隨nnesota/945/1980(Hl3N6)ABI84601-l-l2A/herringgull/Delaware/660/988(H13N6)ABI84452-l-l3A/herringgull/NJ/782/1986(H13N2)ABB87345-l-14A/chicken/Taiwan/020佛5(H6N1)ABD35556-l-15A/duck/Kingmen/E322/04(H6N2)ABD35554-l-l6A/chicken/Taiwan/chl006/04(H6N1)ABD35553-l-l7A/chicken/Taiwan/01德(H6NI)ABD35551-l-l8A/chicken/Taiwan/0706/03(H6Nl)ABD35548-l-l9A/chicken/Taiwan71205/01(H6N1)ABD35534-1:110A/chicken/Taiwan/ns2/99(H6N1)ABD35527-1-l11A/chicken/Taiwan/0824/97(H6N1)ABD35525-l-l12A/chicken/Victoria/75(H7N7)CAA87393-l113A/chicken/Hebei/326/2005(H5N1)ABC691481114A/chicken/TX/298313/04(H5N2)AAX472881115A/Denmark/17-2/03(H3N2)AAT12676-l-l16A/Denmark/15-2/03(H3N2)AAT12675-l-l17A/D函ark/18-2/03(H3N2)AAT12674-l-l18A/Denmark/37/03(H3N2)AAT12673-l-119A/Denmarky39/03(H3N2)AAT12672-l-120A/Denmark/92/03(H3N2)AAT12670-l-l21A/Denmark/14-2/03(H3N2)AAT12669-l-l22A/De歸ark/19-2/03(H3N2)AAT12668-1-l23A/Denmark/52/03(H3N2)AAT12667-l-124A/Denmark/70/03(H3N2)AAT12666-l-l25A/Denmark/16-2/03(H3N2)AAT12665-1-126A/Denmark/61/03(H3N2)AAT12664-1-l27A/D函ar固/03(H3N2)AAT12663-1-l28A/Denmark/20/03(H3N2)AAT12662-l-l29A/Denmark/63/03(H3N2)AAT12660-l-l<table>tableseeoriginaldocumentpage13</column></row><table>a未含有聚堿基氨基酸片斷的樣本數(shù)目未統(tǒng)計(jì)在內(nèi);b"l"為高致病性禽流感病毒的血凝素蛋白,"-l"為低致病性禽流感病毒的血凝素蛋白;c來自毒林A/Equine/London/1416/73(H7N7),其GenBank登錄號為AAA43174;d來自毒抹A/emu/Texas/39442/93(H5N2),其GenBank登錄號為AAB49655;e來自毒抹A/chicken/Pennsylvania/l/83(H5N2),其GenBank登錄號AAA43160。參見表3,分析訓(xùn)練集中的180條HA序列構(gòu)成發(fā)現(xiàn),對于呈高致病性的樣本其裂解位點(diǎn)處都具有4個(gè)以上的堿性氨基酸殘基,但注意到,其中有3個(gè)來源于H5或H7亞型的血凝素樣本(表3中的第20、21及22號),雖然它們在裂解位點(diǎn)處具有4個(gè)堿性氨基酸殘基,但是它們卻呈低致病性。表4932條血凝素蛋白中裂解位點(diǎn)處的,<table>tableseeoriginaldocumentpage14</column></row><table>未含有聚堿基氨基酸片斷的樣本數(shù)目未統(tǒng)計(jì)在內(nèi)。參見表4,對比測試集中的932條血凝素蛋白中裂解位點(diǎn)處具有聚堿性氨基酸的片斷發(fā)現(xiàn),其中有4個(gè)序列片斷KKRRKR-G(No.9),KKKKR-G(No.ll),RRKKKR'G(No.l2)及RRRRKR.G(No.l3)在180條序列中沒有出現(xiàn),但是模型將擁有此4個(gè)片斷的7個(gè)樣本都預(yù)測為來自高致病性禽流感病毒的血凝素蛋白,這說明模型可能能夠較好地識別這些多堿性氨基酸殘基片斷。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明,顯然,本領(lǐng)域這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。權(quán)利要求1.一種高致病性禽流感病毒血凝素蛋白識別方法,其特征在于包括如下步驟a)基于主成分分析方法,建立氨基酸全息拓?fù)浣Y(jié)構(gòu)得分矢量;b)應(yīng)用氨基酸全息拓?fù)浣Y(jié)構(gòu)得分矢量對流感病毒血凝素蛋白的結(jié)構(gòu)進(jìn)行表征;c)用自交叉協(xié)方差方法對每個(gè)流感病毒血凝素蛋白的表征變量做歸一化處理;d)用徑向基核支持向量機(jī)建立禽流感病毒血凝素蛋白識別模型;e)用徑向基核支持向量機(jī)建立高致病性禽流感病毒血凝素蛋白識別模型。2.根據(jù)權(quán)利要求1的一種高致病性禽流感病毒血凝素蛋白識別方法,其特征在于步驟a)具體包括如下步驟al)精選23種氨基酸的1262種性質(zhì)參數(shù);a2)對1262種性質(zhì)參數(shù)做主成分分析,得到22個(gè)主成分;a3)計(jì)算各主成分得分,將得分矢量定義為氨基酸全息拓樸結(jié)構(gòu)得分。3.根據(jù)權(quán)利要求2的一種高致病性禽流感病毒血凝素蛋白識別方法,其特征在于步驟b)具體包括用氨基酸全息拓樸結(jié)構(gòu)得分所涉及的22個(gè)主成分對流感病毒血凝素蛋白序列進(jìn)行表征,其中的每個(gè)氨基酸殘基用22個(gè)矢量表征。4.根據(jù)權(quán)利要求3的一種高致病性禽流感病毒血凝素蛋白識別方法,其特征在于步驟c)具體包括如下步驟用自交叉協(xié)方差處理得到的每個(gè)血凝素蛋白的表征變量,設(shè)置步長/為6,使每個(gè)血凝素蛋白的表征變量數(shù)目一致,并將經(jīng)自交叉協(xié)方差處理得到的變量作為高致病性禽流感病毒血凝素蛋白識別模型的自變量。5.根據(jù)權(quán)利要求4的一種高致病性禽流感病毒血凝素蛋白識別方法,其特征在于步驟d)具體包括如下步驟首先定義兩個(gè)指示變量,分別用"l"表示禽流感病毒血凝素蛋白樣本,用"-r表示非禽流感病毒血凝素蛋白樣本,以此指示變量作為禽流感病毒血凝素蛋白識別模型的因變量,用徑向基核支持向量機(jī)建立禽流感病毒血凝素蛋白識別模型。6.根據(jù)權(quán)利要求1至5中任一項(xiàng)的一種高致病性禽流感病毒血凝素蛋白識別方法,其特征在于步驟e)具體包括如下步驟首先定義兩個(gè)指示變量,分別用"r,表示高致病性禽流感病毒血凝素蛋白樣本,用"-r,表示低或非致病性禽流感病毒血凝素蛋白樣本,以此指示變量作為高致病性禽流感病毒血凝素蛋白識別模型的因變量,用徑向基核支持向量機(jī)建立高致病性禽流感病毒血凝素蛋白識別模型。全文摘要本發(fā)明公開了一種高致病性禽流感病毒血凝素蛋白識別方法,能夠用于高致病性禽流感病毒血凝素蛋白識別,可為理解高致病性禽流感病毒血凝素蛋白的結(jié)構(gòu)特征提供參考,通過對血凝素蛋白的識別,從而可以間接地判別其所屬的禽流感病毒株的致病性高低,包括如下步驟a)基于主成分分析方法,建立氨基酸全息拓?fù)浣Y(jié)構(gòu)得分矢量;b)應(yīng)用氨基酸全息拓?fù)浣Y(jié)構(gòu)得分矢量對流感病毒血凝素蛋白的結(jié)構(gòu)進(jìn)行表征;c)用自交叉協(xié)方差方法對每個(gè)流感病毒血凝素蛋白的表征變量做歸一化處理;d)用徑向基核支持向量機(jī)建立禽流感病毒血凝素蛋白識別模型;e)用徑向基核支持向量機(jī)建立高致病性禽流感病毒血凝素蛋白識別模型。文檔編號G06F19/00GK101308526SQ20081006993公開日2008年11月19日申請日期2008年7月7日優(yōu)先權(quán)日2008年7月7日發(fā)明者李志良,力楊,梁桂兆,虎梅申請人:重慶大學(xué)