交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法

文檔序號(hào)：6555637閱讀：251來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域的方法，具體是一種病原微生物和人組織細(xì)胞交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法。
背景技術(shù)：
免疫交叉反應(yīng)指的是由一種抗原誘導(dǎo)產(chǎn)生的抗體能和另一種不同抗原產(chǎn)生抗原抗體反應(yīng)，這兩種抗原被稱為交叉反應(yīng)抗原。人體很多疾病都是由于病原微生物和人體特異組織細(xì)胞存在交叉反應(yīng)抗原所引起。例如，某些株的鏈球菌引起感染(風(fēng)濕熱)后，可出現(xiàn)針對(duì)心肌及心內(nèi)膜的抗體，從而造成心肌和心內(nèi)膜的損害。發(fā)現(xiàn)病原微生物存在的交叉反應(yīng)抗原對(duì)于闡明病原微生物的致病機(jī)理從而制定防治措施具有重要意義。另一方面，有些交叉免疫反應(yīng)還可以為人們所利用。例如，溶組織脲原體和人精子存在著交叉反應(yīng)抗原，這是導(dǎo)致不孕的重要原因，但這也為免疫避孕提供了可能的途徑，通過找到交叉反應(yīng)抗原，確定抗原反應(yīng)決定簇，然后設(shè)計(jì)疫苗用于免疫避孕。因此，能夠?qū)ふ业浇徊娣磻?yīng)抗原具有很高的應(yīng)用價(jià)值。但是，現(xiàn)今尋找交叉反應(yīng)抗原的方法大多通過免疫動(dòng)物、蛋白質(zhì)提純以及免疫親和層析等實(shí)驗(yàn)步驟，實(shí)驗(yàn)過程復(fù)雜無比，而且蛋白質(zhì)提純是一個(gè)技術(shù)難點(diǎn)，有時(shí)候由于量少而無法提純，從而導(dǎo)致實(shí)驗(yàn)無法繼續(xù)而失敗。由于發(fā)生交叉反應(yīng)的分子基礎(chǔ)是交叉反應(yīng)抗原存在著相同或相似的B細(xì)胞表位，如今很多病原微生物的大部分蛋白質(zhì)已經(jīng)測序，這樣可以通過計(jì)算機(jī)對(duì)病原微生物和人特異性組織細(xì)胞的蛋白質(zhì)組進(jìn)行比對(duì)，找到相似的子序列，然后對(duì)這些子序列進(jìn)行篩選，實(shí)驗(yàn)鑒定，從而確定交叉反應(yīng)抗原及其線性B細(xì)胞表位?？傊?，計(jì)算機(jī)輔助交叉抗原的篩選是切實(shí)可行的。
經(jīng)文獻(xiàn)檢索未發(fā)現(xiàn)有計(jì)算機(jī)輔助交叉抗原篩選方面的文獻(xiàn)。在B細(xì)胞線性表位的預(yù)測方面有相關(guān)的文獻(xiàn)，但預(yù)測方法大多基于單個(gè)氨基酸量表或者是幾個(gè)氨基酸量表的簡單結(jié)合，預(yù)測效率很低。Martin J.Blythe等人在《Protein Science》Vo1.14，2005，246-248(蛋白質(zhì)科學(xué)，14卷，246-268頁，2005年)上，對(duì)AAindex484個(gè)量表以及其組合對(duì)現(xiàn)有的B細(xì)胞表位預(yù)測方法進(jìn)行評(píng)價(jià)，結(jié)果發(fā)現(xiàn)這些方法比傳統(tǒng)方法并沒有明顯提高。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足，提供一種病原微生物和人組織細(xì)胞交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法。使其不僅是對(duì)免疫實(shí)驗(yàn)的重要補(bǔ)充，還能夠有效地篩選出候選交叉反應(yīng)抗原，大大減輕了免疫學(xué)實(shí)驗(yàn)的工作量。
本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的本發(fā)明建立病原微生物和人特異組織細(xì)胞的蛋白質(zhì)數(shù)據(jù)集，然后通過局部序列比對(duì)算法，得到給定長度的相似子序列對(duì)；建立B細(xì)胞線性表位和非線性表位的數(shù)據(jù)集，特征提取，用于支持向量機(jī)(SVM)的學(xué)習(xí)訓(xùn)練，將訓(xùn)練好的SVM檢測相似子序列的B細(xì)胞線性表位的可能性，根據(jù)B細(xì)胞線性表位的可能性大小篩選出可能性較大的相似子序列。
本發(fā)明具體包括以下步驟(1)建立蛋白質(zhì)原始數(shù)據(jù)集。
設(shè)置搜索條件，在Swiss-Prot數(shù)據(jù)庫中篩選出病原微生物和人特異組織細(xì)胞的相應(yīng)蛋白質(zhì)。
(2)局部序列比對(duì)搜索相似子序列。
這里要求用戶給定子序列的長度，允許的錯(cuò)配數(shù)，然后對(duì)病原微生物和人特異組織細(xì)胞蛋白質(zhì)序列進(jìn)行兩兩比對(duì)，搜索出相似子序列對(duì)，作為候選集。
(3)建立B細(xì)胞線性表位數(shù)據(jù)集。
正樣本數(shù)據(jù)可由Bcipep數(shù)據(jù)庫得到；通過Bcipep中表位數(shù)據(jù)的注釋，在Swiss-Prot中搜索相應(yīng)的抗原蛋白，然后隨機(jī)選取抗原蛋白上不是表位的子序列作為負(fù)樣本數(shù)據(jù)集。
(4)建立SVM分類學(xué)習(xí)器。
選擇AAIndex數(shù)據(jù)庫中和B細(xì)胞線性表位最為相關(guān)的14個(gè)氨基酸量表，對(duì)表位數(shù)據(jù)集中的序列計(jì)算相應(yīng)量表的平均值及其方差，這樣對(duì)于每個(gè)序列形成了一個(gè)28維的特征向量；將序列集按照交叉驗(yàn)證的方法隨機(jī)分成訓(xùn)練集和測試集，選取最優(yōu)化參數(shù)和核函數(shù)得到SVM分類器。
(5)用SVM分類器進(jìn)行排列，然后篩選。
用訓(xùn)練好的SVM分類器檢測相似子序列的B細(xì)胞為線性表位的可能性，然后按照可能性大小進(jìn)行排列，篩選可能性大的若干子序列作為結(jié)果。
本發(fā)明通過計(jì)算機(jī)分析病原微生物和人特異性組織細(xì)胞蛋白質(zhì)組，篩選可能存在的交叉反應(yīng)抗原，并提供給實(shí)驗(yàn)免疫學(xué)家從而進(jìn)一步用免疫學(xué)實(shí)驗(yàn)證實(shí)。這不僅是對(duì)免疫實(shí)驗(yàn)的重要補(bǔ)充，而且是在免疫學(xué)實(shí)驗(yàn)失敗的情況下的優(yōu)先選擇。實(shí)驗(yàn)證明，本方法能夠有效地篩選出候選交叉反應(yīng)抗原，大大減輕了免疫學(xué)實(shí)驗(yàn)的工作量。

圖1為本發(fā)明方法框圖具體實(shí)施方式
如圖1所示，由計(jì)算機(jī)輔助篩選病原微生物與人特異性組織細(xì)胞交叉反應(yīng)抗原，需要五個(gè)步驟1.建立病原微生物與人特異性組織細(xì)胞蛋白質(zhì)數(shù)據(jù)集Swiss-Prot蛋白質(zhì)數(shù)據(jù)庫可以從北京大學(xué)的服務(wù)器上下載，地址ftp//cn.expasy.org/。搜索某種病原微生物的所有蛋白質(zhì)的條件為OG＝病原微生物英文名；搜索人特異性組織細(xì)胞所有蛋白質(zhì)為OG＝homo sapiens；TissueSpecificity＝組織細(xì)胞英文名。搜索后轉(zhuǎn)換為FASTA格式。以上都可以通過perl編程實(shí)現(xiàn)。對(duì)于人特異性組織細(xì)胞蛋白質(zhì)，搜索后還需進(jìn)行人工篩選，確保數(shù)據(jù)集的正確；2.建立B細(xì)胞線性表位的數(shù)據(jù)集B細(xì)胞線性表位分為正負(fù)樣本數(shù)據(jù)集。正樣本可以由Bcipep數(shù)據(jù)庫得到，網(wǎng)址http//www.imtech.res.in/raghava/bcipep。得到正樣本后，通過查詢每個(gè)表位所在抗原蛋白的準(zhǔn)入號(hào)(AC)，從Swiss-Prot數(shù)據(jù)庫中搜索到相應(yīng)蛋白質(zhì)，轉(zhuǎn)換成FASTA格式，標(biāo)記其上的表位氨基酸序列，然后在蛋白質(zhì)的未標(biāo)記部分中選擇特定長度的氨基酸序列作為負(fù)樣本。為了避免正負(fù)樣本數(shù)據(jù)集由長度差異帶來的影響，所以正負(fù)樣本數(shù)據(jù)集序列的長度分布要一致；3.局部序列比對(duì)搜索相似子序列在搜索前，需要用戶給定兩個(gè)參數(shù)的值子序列的長度L和允許的錯(cuò)配數(shù)M。設(shè)病原微生物的蛋白質(zhì)集為P1，人特異性組織細(xì)胞的蛋白質(zhì)集為P2，病原微生物蛋白質(zhì)序列x1∈P1，人特異性組織細(xì)胞的蛋白質(zhì)序列x2∈P2。然后，將x1和x2的長度為L的子序列進(jìn)行兩兩比較。設(shè)子序列s1＝a1a2...aLx1，s2＝a′1a′2...a′Lx2。計(jì)算ai≠a′i(i＝1..L)的錯(cuò)配數(shù)l，若l≤L，則將s1，s2及其所屬蛋白質(zhì)的AC記錄下，形成候選集合；4.用表位數(shù)據(jù)集訓(xùn)練SVM原始表位數(shù)據(jù)集的格式為氨基酸序列，為了進(jìn)行SVM的學(xué)習(xí)訓(xùn)練，需要轉(zhuǎn)化成一定長度的向量形式。這里選取AAIndex中和B細(xì)胞表位性質(zhì)最為相關(guān)的14個(gè)氨基酸量表，它們分別為A098，A335，C137，H215，H364，P063，P214，P219，P280，P353，Z019，Z021，Z022，Z031。AAIndex的地址為http//www.genome.jp/aaindex/。由于不同氨基酸量表取值范圍不同，首先要?dú)w一劃到[-1，1]。對(duì)于每個(gè)表位(或非表位)，每個(gè)氨基酸量表計(jì)算兩個(gè)統(tǒng)計(jì)量平均值和方差。設(shè)表位為x＝a1a2...al，氨基酸量表為S，則平均值為X&OverBar;=1lΣi=1lSai,]]>方差為σX2=1l-1Σi=1l(Sai-X&OverBar;)2.]]>這樣就形成了28維的向量集合用于SVM的訓(xùn)練。SVM學(xué)習(xí)訓(xùn)練可通過mySVM軟件實(shí)現(xiàn)。
mySVM的地址為http//www-ai.cs.uni-dortmund.de/SOFTWARE/MYSVM/。為了選取合適的SVM參數(shù)，采用交叉驗(yàn)證的方法來進(jìn)行估計(jì)，選取分類錯(cuò)誤最小的參數(shù)，這里的參數(shù)主要是核函數(shù)的形式以及懲罰因子C。交叉驗(yàn)證采用五倍法，即將表位數(shù)據(jù)集隨機(jī)分成數(shù)量相等的五份，每一份作為測試集，其余作為訓(xùn)練集，進(jìn)行五次訓(xùn)練和測試，分類錯(cuò)誤率是五次測試錯(cuò)誤率的平均值。核函數(shù)的選擇為內(nèi)積核函數(shù)，多項(xiàng)式核函數(shù)以及徑向核函數(shù)。C的選擇為0.01，0.1，1，10，100，1000；5.用SVM分類器進(jìn)行排列，然后篩選。訓(xùn)練好的SVM形成了判別函數(shù)f(x)=Σi=1nλiK(xi,x),]]>其中λi由上一步訓(xùn)練得到。將第三步形成的候選集中的每一個(gè)子序列，按照第四步的方法，轉(zhuǎn)換成向量形式，計(jì)算f(x)的大小。然后按照f(x)的大小對(duì)候選集中的表位由大到小進(jìn)行排列，f(x)越大，離分類邊界越遠(yuǎn)，則成為表位的可能性越大。將排序好的候選集中位于前N位的子序列進(jìn)行免疫學(xué)實(shí)驗(yàn)分析，一旦經(jīng)實(shí)驗(yàn)證實(shí)，則這個(gè)子序列就為產(chǎn)生交叉反應(yīng)的子序列，其所在的蛋白質(zhì)就為交叉反應(yīng)抗原。
權(quán)利要求
1.一種交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法，其特征在于，建立病原微生物和人特異組織細(xì)胞的蛋白質(zhì)數(shù)據(jù)集，然后通過局部序列比對(duì)算法，得到給定長度的相似子序列對(duì)，建立B細(xì)胞線性表位和非線性表位的數(shù)據(jù)集，特征提取，用于支持向量機(jī)SVM的學(xué)習(xí)訓(xùn)練，將訓(xùn)練好的SVM檢測相似子序列的B細(xì)胞線性表位的可能性，根據(jù)B細(xì)胞線性表位的可能性大小篩選出可能性較大的相似子序列。
2.根據(jù)權(quán)利要求1所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法，其特征是，具體包括以下步驟(1)建立蛋白質(zhì)原始數(shù)據(jù)集；(2)局部序列比對(duì)搜索相似子序列；(3)建立B細(xì)胞線性表位數(shù)據(jù)集；(4)建立SVM分類學(xué)習(xí)器；(5)用SVM分類器進(jìn)行排列，然后篩選。
3.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法，其特征是，在步驟(1)中，設(shè)置搜索條件，在Swiss-Prot數(shù)據(jù)庫中篩選出病原微生物和人特異組織細(xì)胞的相應(yīng)蛋白質(zhì)。
4.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法，其特征是，在步驟(2)中，要求用戶給定子序列的長度，允許的錯(cuò)配數(shù)，然后對(duì)病原微生物和人特異組織細(xì)胞蛋白質(zhì)序列進(jìn)行兩兩比對(duì)，搜索出相似子序列對(duì)，作為候選集。
5.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法，其特征是，在步驟(3)中，正樣本數(shù)據(jù)可由Bcipep數(shù)據(jù)庫得到；通過Bcipep中表位數(shù)據(jù)的注釋，在Swiss-Prot中搜索相應(yīng)的抗原蛋白，然后隨機(jī)選取抗原蛋白上不是表位的子序列作為負(fù)樣本數(shù)據(jù)集。
6.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法，其特征是，在步驟(4)中，選擇AAIndex數(shù)據(jù)庫中和B細(xì)胞線性表位最為相關(guān)的14個(gè)氨基酸量表，對(duì)表位數(shù)據(jù)集中的序列計(jì)算相應(yīng)量表的平均值及其方差，這樣對(duì)于每個(gè)序列形成了一個(gè)28維的特征向量；將序列集按照交叉驗(yàn)證的方法隨機(jī)分成訓(xùn)練集和測試集，選取最優(yōu)化參數(shù)和核函數(shù)得到SVM分類器。
7.根據(jù)權(quán)利要求2所述的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法，其特征是，在步驟(5)中，用訓(xùn)練好的SVM分類器檢測相似子序列的B細(xì)胞為線性表位的可能性，然后按照可能性大小進(jìn)行排列，篩選可能性大的若干子序列作為結(jié)果。
全文摘要
本發(fā)明涉及一種計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域的交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法。本發(fā)明建立病原微生物和人特異組織細(xì)胞的蛋白質(zhì)數(shù)據(jù)集，然后通過局部序列比對(duì)算法，得到給定長度的相似子序列對(duì)；建立B細(xì)胞線性表位和非線性表位的數(shù)據(jù)集，特征提取，用于支持向量機(jī)(SVM)的學(xué)習(xí)訓(xùn)練，將訓(xùn)練好的SVM預(yù)測相似子序列的B細(xì)胞線性表位的可能性，根據(jù)B細(xì)胞線性表位的可能性大小篩選出可能性較大的相似子序列。本發(fā)明是傳統(tǒng)免疫學(xué)實(shí)驗(yàn)方法篩選交叉抗原的重要補(bǔ)充，通過向?qū)嶒?yàn)免疫學(xué)家提供候選交叉反應(yīng)抗原，大大減少了他們的實(shí)驗(yàn)工作量，為傳統(tǒng)免疫學(xué)實(shí)驗(yàn)方法失敗時(shí)提供了又一解決思路。
文檔編號(hào)G06F19/00GK1889086SQ20061002913
公開日2007年1月3日申請日期2006年7月20日優(yōu)先權(quán)日2006年7月20日
發(fā)明者陳軍, 楊杰, 劉蕙申請人:上海交通大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳軍;楊杰;劉蕙
技術(shù)所有人：上海交通大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

抗原交叉呈遞相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

交叉反應(yīng)抗原計(jì)算機(jī)輔助篩選的方法