專利名稱:交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域的方法,具體是一種病原微生物和人組織細(xì)胞交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法。
背景技術(shù):
免疫交叉反應(yīng)指的是由一種抗原誘導(dǎo)產(chǎn)生的抗體能和另一種不同抗原產(chǎn)生抗原抗體反應(yīng),這兩種抗原被稱為交叉反應(yīng)抗原。人體很多疾病都是由于病原微生物和人體特異組織細(xì)胞存在交叉反應(yīng)抗原所引起。例如,某些株的鏈球菌引起感染(風(fēng)濕熱)后,可出現(xiàn)針對(duì)心肌及心內(nèi)膜的抗體,從而造成心肌和心內(nèi)膜的損害。發(fā)現(xiàn)病原微生物存在的交叉反應(yīng)抗原對(duì)于闡明病原微生物的致病機(jī)理從而制定防治措施具有重要意義。另一方面,有些交叉免疫反應(yīng)還可以為人們所利用。例如,溶組織脲原體和人精子存在著交叉反應(yīng)抗原,這是導(dǎo)致不孕的重要原因,但這也為免疫避孕提供了可能的途徑,通過找到交叉反應(yīng)抗原,確定抗原反應(yīng)決定簇,然后設(shè)計(jì)疫苗用于免疫避孕。因此,能夠?qū)ふ业浇徊娣磻?yīng)抗原具有很高的應(yīng)用價(jià)值。但是,現(xiàn)今尋找交叉反應(yīng)抗原的方法大多通過免疫動(dòng)物、蛋白質(zhì)提純以及免疫親和層析等實(shí)驗(yàn)步驟,實(shí)驗(yàn)過程復(fù)雜無比,而且蛋白質(zhì)提純是一個(gè)技術(shù)難點(diǎn),有時(shí)候由于量少而無法提純,從而導(dǎo)致實(shí)驗(yàn)無法繼續(xù)而失敗。由于發(fā)生交叉反應(yīng)的分子基礎(chǔ)是交叉反應(yīng)抗原存在著相同或相似的B細(xì)胞表位,如今很多病原微生物的大部分蛋白質(zhì)已經(jīng)測序,這樣可以通過計(jì)算機(jī)對(duì)病原微生物和人特異性組織細(xì)胞的蛋白質(zhì)組進(jìn)行比對(duì),找到相似的子序列,然后對(duì)這些子序列進(jìn)行篩選,實(shí)驗(yàn)鑒定,從而確定交叉反應(yīng)抗原及其線性B細(xì)胞表位??傊?,計(jì)算機(jī)輔助交叉抗原的篩選是切實(shí)可行的。
經(jīng)文獻(xiàn)檢索未發(fā)現(xiàn)有計(jì)算機(jī)輔助交叉抗原篩選方面的文獻(xiàn)。在B細(xì)胞線性表位的預(yù)測方面有相關(guān)的文獻(xiàn),但預(yù)測方法大多基于單個(gè)氨基酸量表或者是幾個(gè)氨基酸量表的簡單結(jié)合,預(yù)測效率很低。Martin J.Blythe等人在《Protein Science》Vo1.14,2005,246-248(蛋白質(zhì)科學(xué),14卷,246-268頁,2005年)上,對(duì)AAindex484個(gè)量表以及其組合對(duì)現(xiàn)有的B細(xì)胞表位預(yù)測方法進(jìn)行評(píng)價(jià),結(jié)果發(fā)現(xiàn)這些方法比傳統(tǒng)方法并沒有明顯提高。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提供一種病原微生物和人組織細(xì)胞交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法。使其不僅是對(duì)免疫實(shí)驗(yàn)的重要補(bǔ)充,還能夠有效地篩選出候選交叉反應(yīng)抗原,大大減輕了免疫學(xué)實(shí)驗(yàn)的工作量。
本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的本發(fā)明建立病原微生物和人特異組織細(xì)胞的蛋白質(zhì)數(shù)據(jù)集,然后通過局部序列比對(duì)算法,得到給定長度的相似子序列對(duì);建立B細(xì)胞線性表位和非線性表位的數(shù)據(jù)集,特征提取,用于支持向量機(jī)(SVM)的學(xué)習(xí)訓(xùn)練,將訓(xùn)練好的SVM檢測相似子序列的B細(xì)胞線性表位的可能性,根據(jù)B細(xì)胞線性表位的可能性大小篩選出可能性較大的相似子序列。
本發(fā)明具體包括以下步驟(1)建立蛋白質(zhì)原始數(shù)據(jù)集。
設(shè)置搜索條件,在Swiss-Prot數(shù)據(jù)庫中篩選出病原微生物和人特異組織細(xì)胞的相應(yīng)蛋白質(zhì)。
(2)局部序列比對(duì)搜索相似子序列。
這里要求用戶給定子序列的長度,允許的錯(cuò)配數(shù),然后對(duì)病原微生物和人特異組織細(xì)胞蛋白質(zhì)序列進(jìn)行兩兩比對(duì),搜索出相似子序列對(duì),作為候選集。
(3)建立B細(xì)胞線性表位數(shù)據(jù)集。
正樣本數(shù)據(jù)可由Bcipep數(shù)據(jù)庫得到;通過Bcipep中表位數(shù)據(jù)的注釋,在Swiss-Prot中搜索相應(yīng)的抗原蛋白,然后隨機(jī)選取抗原蛋白上不是表位的子序列作為負(fù)樣本數(shù)據(jù)集。
(4)建立SVM分類學(xué)習(xí)器。
選擇AAIndex數(shù)據(jù)庫中和B細(xì)胞線性表位最為相關(guān)的14個(gè)氨基酸量表,對(duì)表位數(shù)據(jù)集中的序列計(jì)算相應(yīng)量表的平均值及其方差,這樣對(duì)于每個(gè)序列形成了一個(gè)28維的特征向量;將序列集按照交叉驗(yàn)證的方法隨機(jī)分成訓(xùn)練集和測試集,選取最優(yōu)化參數(shù)和核函數(shù)得到SVM分類器。
(5)用SVM分類器進(jìn)行排列,然后篩選。
用訓(xùn)練好的SVM分類器檢測相似子序列的B細(xì)胞為線性表位的可能性,然后按照可能性大小進(jìn)行排列,篩選可能性大的若干子序列作為結(jié)果。
本發(fā)明通過計(jì)算機(jī)分析病原微生物和人特異性組織細(xì)胞蛋白質(zhì)組,篩選可能存在的交叉反應(yīng)抗原,并提供給實(shí)驗(yàn)免疫學(xué)家從而進(jìn)一步用免疫學(xué)實(shí)驗(yàn)證實(shí)。這不僅是對(duì)免疫實(shí)驗(yàn)的重要補(bǔ)充,而且是在免疫學(xué)實(shí)驗(yàn)失敗的情況下的優(yōu)先選擇。實(shí)驗(yàn)證明,本方法能夠有效地篩選出候選交叉反應(yīng)抗原,大大減輕了免疫學(xué)實(shí)驗(yàn)的工作量。
圖1為本發(fā)明方法框圖具體實(shí)施方式
如圖1所示,由計(jì)算機(jī)輔助篩選病原微生物與人特異性組織細(xì)胞交叉反應(yīng)抗原,需要五個(gè)步驟1.建立病原微生物與人特異性組織細(xì)胞蛋白質(zhì)數(shù)據(jù)集Swiss-Prot蛋白質(zhì)數(shù)據(jù)庫可以從北京大學(xué)的服務(wù)器上下載,地址ftp//cn.expasy.org/。搜索某種病原微生物的所有蛋白質(zhì)的條件為OG=病原微生物英文名;搜索人特異性組織細(xì)胞所有蛋白質(zhì)為OG=homo sapiens;TissueSpecificity=組織細(xì)胞英文名。搜索后轉(zhuǎn)換為FASTA格式。以上都可以通過perl編程實(shí)現(xiàn)。對(duì)于人特異性組織細(xì)胞蛋白質(zhì),搜索后還需進(jìn)行人工篩選,確保數(shù)據(jù)集的正確;2.建立B細(xì)胞線性表位的數(shù)據(jù)集B細(xì)胞線性表位分為正負(fù)樣本數(shù)據(jù)集。正樣本可以由Bcipep數(shù)據(jù)庫得到,網(wǎng)址http//www.imtech.res.in/raghava/bcipep。得到正樣本后,通過查詢每個(gè)表位所在抗原蛋白的準(zhǔn)入號(hào)(AC),從Swiss-Prot數(shù)據(jù)庫中搜索到相應(yīng)蛋白質(zhì),轉(zhuǎn)換成FASTA格式,標(biāo)記其上的表位氨基酸序列,然后在蛋白質(zhì)的未標(biāo)記部分中選擇特定長度的氨基酸序列作為負(fù)樣本。為了避免正負(fù)樣本數(shù)據(jù)集由長度差異帶來的影響,所以正負(fù)樣本數(shù)據(jù)集序列的長度分布要一致;3.局部序列比對(duì)搜索相似子序列在搜索前,需要用戶給定兩個(gè)參數(shù)的值子序列的長度L和允許的錯(cuò)配數(shù)M。設(shè)病原微生物的蛋白質(zhì)集為P1,人特異性組織細(xì)胞的蛋白質(zhì)集為P2,病原微生物蛋白質(zhì)序列x1∈P1,人特異性組織細(xì)胞的蛋白質(zhì)序列x2∈P2。然后,將x1和x2的長度為L的子序列進(jìn)行兩兩比較。設(shè)子序列s1=a1a2...aLx1,s2=a′1a′2...a′Lx2。計(jì)算ai≠a′i(i=1..L)的錯(cuò)配數(shù)l,若l≤L,則將s1,s2及其所屬蛋白質(zhì)的AC記錄下,形成候選集合;4.用表位數(shù)據(jù)集訓(xùn)練SVM原始表位數(shù)據(jù)集的格式為氨基酸序列,為了進(jìn)行SVM的學(xué)習(xí)訓(xùn)練,需要轉(zhuǎn)化成一定長度的向量形式。這里選取AAIndex中和B細(xì)胞表位性質(zhì)最為相關(guān)的14個(gè)氨基酸量表,它們分別為A098,A335,C137,H215,H364,P063,P214,P219,P280,P353,Z019,Z021,Z022,Z031。AAIndex的地址為http//www.genome.jp/aaindex/。由于不同氨基酸量表取值范圍不同,首先要?dú)w一劃到[-1,1]。對(duì)于每個(gè)表位(或非表位),每個(gè)氨基酸量表計(jì)算兩個(gè)統(tǒng)計(jì)量平均值和方差。設(shè)表位為x=a1a2...al,氨基酸量表為S,則平均值為X‾=1lΣi=1lSai,]]>方差為σX2=1l-1Σi=1l(Sai-X‾)2.]]>這樣就形成了28維的向量集合用于SVM的訓(xùn)練。SVM學(xué)習(xí)訓(xùn)練可通過mySVM軟件實(shí)現(xiàn)。
mySVM的地址為http//www-ai.cs.uni-dortmund.de/SOFTWARE/MYSVM/。為了選取合適的SVM參數(shù),采用交叉驗(yàn)證的方法來進(jìn)行估計(jì),選取分類錯(cuò)誤最小的參數(shù),這里的參數(shù)主要是核函數(shù)的形式以及懲罰因子C。交叉驗(yàn)證采用五倍法,即將表位數(shù)據(jù)集隨機(jī)分成數(shù)量相等的五份,每一份作為測試集,其余作為訓(xùn)練集,進(jìn)行五次訓(xùn)練和測試,分類錯(cuò)誤率是五次測試錯(cuò)誤率的平均值。核函數(shù)的選擇為內(nèi)積核函數(shù),多項(xiàng)式核函數(shù)以及徑向核函數(shù)。C的選擇為0.01,0.1,1,10,100,1000;5.用SVM分類器進(jìn)行排列,然后篩選。訓(xùn)練好的SVM形成了判別函數(shù)f(x)=Σi=1nλiK(xi,x),]]>其中λi由上一步訓(xùn)練得到。將第三步形成的候選集中的每一個(gè)子序列,按照第四步的方法,轉(zhuǎn)換成向量形式,計(jì)算f(x)的大小。然后按照f(x)的大小對(duì)候選集中的表位由大到小進(jìn)行排列,f(x)越大,離分類邊界越遠(yuǎn),則成為表位的可能性越大。將排序好的候選集中位于前N位的子序列進(jìn)行免疫學(xué)實(shí)驗(yàn)分析,一旦經(jīng)實(shí)驗(yàn)證實(shí),則這個(gè)子序列就為產(chǎn)生交叉反應(yīng)的子序列,其所在的蛋白質(zhì)就為交叉反應(yīng)抗原。
權(quán)利要求
1.一種交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法,其特征在于,建立病原微生物和人特異組織細(xì)胞的蛋白質(zhì)數(shù)據(jù)集,然后通過局部序列比對(duì)算法,得到給定長度的相似子序列對(duì),建立B細(xì)胞線性表位和非線性表位的數(shù)據(jù)集,特征提取,用于支持向量機(jī)SVM的學(xué)習(xí)訓(xùn)練,將訓(xùn)練好的SVM檢測相似子序列的B細(xì)胞線性表位的可能性,根據(jù)B細(xì)胞線性表位的可能性大小篩選出可能性較大的相似子序列。
2.根據(jù)權(quán)利要求1所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法,其特征是,具體包括以下步驟(1)建立蛋白質(zhì)原始數(shù)據(jù)集;(2)局部序列比對(duì)搜索相似子序列;(3)建立B細(xì)胞線性表位數(shù)據(jù)集;(4)建立SVM分類學(xué)習(xí)器;(5)用SVM分類器進(jìn)行排列,然后篩選。
3.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法,其特征是,在步驟(1)中,設(shè)置搜索條件,在Swiss-Prot數(shù)據(jù)庫中篩選出病原微生物和人特異組織細(xì)胞的相應(yīng)蛋白質(zhì)。
4.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法,其特征是,在步驟(2)中,要求用戶給定子序列的長度,允許的錯(cuò)配數(shù),然后對(duì)病原微生物和人特異組織細(xì)胞蛋白質(zhì)序列進(jìn)行兩兩比對(duì),搜索出相似子序列對(duì),作為候選集。
5.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法,其特征是,在步驟(3)中,正樣本數(shù)據(jù)可由Bcipep數(shù)據(jù)庫得到;通過Bcipep中表位數(shù)據(jù)的注釋,在Swiss-Prot中搜索相應(yīng)的抗原蛋白,然后隨機(jī)選取抗原蛋白上不是表位的子序列作為負(fù)樣本數(shù)據(jù)集。
6.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法,其特征是,在步驟(4)中,選擇AAIndex數(shù)據(jù)庫中和B細(xì)胞線性表位最為相關(guān)的14個(gè)氨基酸量表,對(duì)表位數(shù)據(jù)集中的序列計(jì)算相應(yīng)量表的平均值及其方差,這樣對(duì)于每個(gè)序列形成了一個(gè)28維的特征向量;將序列集按照交叉驗(yàn)證的方法隨機(jī)分成訓(xùn)練集和測試集,選取最優(yōu)化參數(shù)和核函數(shù)得到SVM分類器。
7.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法,其特征是,在步驟(5)中,用訓(xùn)練好的SVM分類器檢測相似子序列的B細(xì)胞為線性表位的可能性,然后按照可能性大小進(jìn)行排列,篩選可能性大的若干子序列作為結(jié)果。
全文摘要
本發(fā)明涉及一種計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法。本發(fā)明建立病原微生物和人特異組織細(xì)胞的蛋白質(zhì)數(shù)據(jù)集,然后通過局部序列比對(duì)算法,得到給定長度的相似子序列對(duì);建立B細(xì)胞線性表位和非線性表位的數(shù)據(jù)集,特征提取,用于支持向量機(jī)(SVM)的學(xué)習(xí)訓(xùn)練,將訓(xùn)練好的SVM預(yù)測相似子序列的B細(xì)胞線性表位的可能性,根據(jù)B細(xì)胞線性表位的可能性大小篩選出可能性較大的相似子序列。本發(fā)明是傳統(tǒng)免疫學(xué)實(shí)驗(yàn)方法篩選交叉抗原的重要補(bǔ)充,通過向?qū)嶒?yàn)免疫學(xué)家提供候選交叉反應(yīng)抗原,大大減少了他們的實(shí)驗(yàn)工作量,為傳統(tǒng)免疫學(xué)實(shí)驗(yàn)方法失敗時(shí)提供了又一解決思路。
文檔編號(hào)G06F19/00GK1889086SQ20061002913
公開日2007年1月3日 申請日期2006年7月20日 優(yōu)先權(quán)日2006年7月20日
發(fā)明者陳軍, 楊杰, 劉蕙 申請人:上海交通大學(xué)