本發(fā)明屬于生物醫(yī)學(xué),具體涉及一種neobert模型及其在鑒別腫瘤新抗原中的應(yīng)用。
背景技術(shù):
1、hla即人類白細(xì)胞抗原,是人類主要組織相容性復(fù)合體(majorhistocompatibility?complex,mhc)的表達(dá)產(chǎn)物,有超過200個編碼基因,均位于第6號染色體上。腫瘤特異性抗原(tsa),也稱為腫瘤新抗原,是由腫瘤細(xì)胞表面的主要組織相容性復(fù)合體展示的短肽抗原。這些獨(dú)特的tsa在正常組織中不存在,在異常組織中可與hla結(jié)合,從而變得可被t細(xì)胞識別為外來抗原,具有引發(fā)腫瘤特異性t細(xì)胞反應(yīng)的能力,使其成為癌癥疫苗有希望的候選者。目前識別這些經(jīng)典新抗原的傳統(tǒng)方法嚴(yán)重依賴于全基因組/全外顯子組測序的數(shù)據(jù),幾個廣泛研究的經(jīng)典新抗原數(shù)據(jù)庫,包括cedar、caped(https://caped.icp.ucl.ac.be)、tantigen、nepdb、dbpepneo、neodb和tsnadb,已被廣泛探索其在癌癥免疫治療中的實用性。
2、雖然基因組的編碼區(qū)域僅占整個基因組的40%,剩下的60%是非編碼區(qū)的,但越來越多的證據(jù)表明,非經(jīng)典機(jī)制,包括轉(zhuǎn)錄變異體(例如可變剪接、內(nèi)含子保留、隱形內(nèi)含子和轉(zhuǎn)座子衍生的嵌合轉(zhuǎn)錄本)和蛋白酶體隱秘肽(順式/反式蛋白酶體加工),有助于形成更大的非經(jīng)典新抗原庫。然而,非經(jīng)典新抗原數(shù)據(jù)的收集和管理仍然很有限。對于通過rna-seq鑒定的非編碼上游開放閱讀框(uorf)衍生的新抗原,目前只存在一個數(shù)據(jù)庫,即spencer,它包含了來自55項研究的2806個質(zhì)譜數(shù)據(jù)。然而,該數(shù)據(jù)集并非源自免疫蛋白質(zhì)組學(xué),它預(yù)測非編碼rna(ncrna)翻譯并使用滑動窗口算法將每個非編碼肽分割成8-14聚體片段。關(guān)于蛋白質(zhì)蛋白酶體加工新抗原,proteomedb數(shù)據(jù)庫包含此類實體。盡管如此,它需要體外合成80種肽,然后進(jìn)行蛋白酶體消化并使用各種質(zhì)譜方法檢測。肽段的檢測采用一種稱為invitrospi的開發(fā)方法進(jìn)行,因此這些新抗原并不存在于腫瘤樣本中。
3、通過液相色譜串聯(lián)質(zhì)譜法(lc-ms/ms)檢測和測序與hla結(jié)合的肽提供了一個獨(dú)特的優(yōu)勢,即可以直接學(xué)習(xí)到細(xì)胞內(nèi)源性加工和呈遞肽的信息。我們收集并整理了一個涵蓋非冗余的非經(jīng)典新抗原肽的大數(shù)據(jù)集,包含來自不同類型rna和基于蛋白的35574個配對的新抗原-hla,這些數(shù)據(jù)來源于14篇文獻(xiàn)。這種全面的編譯使我們能夠?qū)⑺鼈兊目乖匦耘c源自體細(xì)胞突變的肽(由cedar表示)、與腫瘤相關(guān)的肽(由hlathena表示)以及源自傳染性疾病的新抗原(由iedb表示)進(jìn)行比較,包括長度、基序、熵和疏水性等方面。
4、這些差異促使我們對肽-hla(phla)結(jié)合的預(yù)測方法進(jìn)行訓(xùn)練。目前,phla結(jié)合的預(yù)測方法大致分為四類:基于結(jié)構(gòu)的方法、基于評分函數(shù)的方法、基于機(jī)器學(xué)習(xí)的方法以及結(jié)合多種因素的綜合方法?;诮Y(jié)構(gòu)的方法剖析hla和肽的結(jié)合結(jié)構(gòu),而基于評分功能的技術(shù)則根據(jù)基于序列的屬性評估肽?;跈C(jī)器學(xué)習(xí)的方法從肽或hla中提取特征,并訓(xùn)練模型進(jìn)行結(jié)合預(yù)測。深度學(xué)習(xí)方法,包括cnns、rnns和注意力機(jī)制,由于其較好的準(zhǔn)確性和效率而具有良好的性能。最近,開發(fā)了一種基于轉(zhuǎn)換器的模型,模型可用于預(yù)測肽-hla?i類結(jié)合并用于疫苗設(shè)計的突變肽。然而,它只對經(jīng)典肽進(jìn)行訓(xùn)練,也不能完全解釋hla和肽序列之間復(fù)雜的相互作用。因此,我們整合了經(jīng)典和非經(jīng)典的新抗原數(shù)據(jù),訓(xùn)練并得到了本發(fā)明的neobert模型。
技術(shù)實現(xiàn)思路
1、本發(fā)明收集數(shù)據(jù)后,采用70%的數(shù)據(jù)對neobert模型進(jìn)行訓(xùn)練,剩余30%的數(shù)據(jù)用于neobert模型的驗證以及比較,模型通過判斷肽是否可以與hla結(jié)合從而判斷肽是否為腫瘤新抗原?;诖?,完成了本發(fā)明。
2、第一方面,本發(fā)明提供了一種neobert模型,所述模型由四個連續(xù)組件組成,包括:
3、序列輸入器:掩碼hla和肽序列被打包成一個句子(即<masked?hla,maskedpeptide>)用于輸入;
4、嵌入塊:將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入,以生成序列嵌入;
5、編碼器塊:包含12個bertlayers,每個bertlayers包含掩碼多頭自注意力機(jī)制和一個用于學(xué)習(xí)表示的特征優(yōu)化塊;
6、預(yù)測塊:使用聚合序列表示來預(yù)測結(jié)合概率,而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸。
7、進(jìn)一步,所述序列輸入器中,每一對hla和肽序列表示為一個句子,例如即x=([cls],hla?sequence,[sep],peptide?sequence)。
8、進(jìn)一步,所述序列輸入器中,第一個標(biāo)記([cls])的最終隱藏特征用作分類的序列表示,而([sep])標(biāo)記則區(qū)分這兩個序列,兩個序列的隨機(jī)掩碼氨基酸用于訓(xùn)練深度雙向表示。
9、進(jìn)一步,所述序列輸入器中,輸入的肽和hla序列被填充為128的長度以適應(yīng)可變的輸入長度。
10、進(jìn)一步,所述嵌入塊中,對于每個token,加入學(xué)習(xí)過的嵌入(ea?or?eb∈rh)來表示是屬于hla還是肽,從而便于對這兩個序列進(jìn)行分割,其中h是嵌入的維度,使用wordpiece嵌入來對氨基酸嵌入進(jìn)行編碼(eaior?ebj∈rh)。
11、進(jìn)一步,所述嵌入塊中,還通過加入位置嵌入(ei∈rh)來編碼句子中氨基酸的位置(x)。
12、進(jìn)一步,所述嵌入塊中,token中的輸入表示(或hla中的token)是通過將其token、段和位置嵌入相加來創(chuàng)建的,如下所示:
13、ei=ea+earn+ei
14、進(jìn)一步,所述編碼器塊中,利用多頭自注意技術(shù),通過串聯(lián)序列將兩個序列之間的雙向交叉注意結(jié)合起來。
15、進(jìn)一步,所述編碼器塊中,機(jī)制包括將查詢q映射到一組鍵值(k-v)對,并獲得輸出,其中k-v對將序列元素存儲在內(nèi)存中。
16、進(jìn)一步,所述編碼器塊中,注意力得分是基于q和k之間的相關(guān)性或相似性,表示信息的重要性,注意力得分越高(即v)表示對相應(yīng)信息的關(guān)注越強(qiáng)。
17、進(jìn)一步,所述編碼器塊中,特征優(yōu)化模塊結(jié)合了全連接層與layernorm和dropout,以學(xué)習(xí)增強(qiáng)的表示(hi)用于第i個標(biāo)記。
18、進(jìn)一步,所述編碼器塊中,對于長度小于128的hla和肽的連接序列,用0~128填充。
19、進(jìn)一步,所述預(yù)測塊中,采用了兩項任務(wù)來微調(diào)neobert模型:hla肽結(jié)合預(yù)測和掩蔽氨基酸預(yù)測。
20、再進(jìn)一步,所述hla肽結(jié)合預(yù)測是將每個hla-肽對的聚合序列表征輸入到s型層來預(yù)測標(biāo)簽:
21、y′=sigmoid(w(2)(tanh(w(1)h0+b(1))))
22、其中,w(1),w(2),和b(1)是可學(xué)習(xí)的參數(shù),h0表示特殊標(biāo)記[cls]的表示,相應(yīng)的損失函數(shù)概述如下:
23、
24、其中,n表示包含陽性結(jié)合數(shù)據(jù)和陰性數(shù)據(jù)的hla肽對集合,生成的數(shù)據(jù)與之前的研究類似[34]。
25、再進(jìn)一步,一個掩碼氨基酸模型根據(jù)其序列的表示來預(yù)測20種不同氨基酸在序列的位置概率:
26、pi=softmax(whi+b)
27、其中,w和b是可學(xué)習(xí)的參數(shù),hi表示token的表示。其損失函數(shù)總結(jié)如下:
28、
29、其中,mask表示所有被掩蔽氨基酸的位置集合,pos表示正結(jié)合對的集合,neobert模型的總損失函數(shù)總結(jié)如下:
30、
31、第二方面,本發(fā)明提供如第一方面所述的neobert模型在鑒別腫瘤新抗原中的應(yīng)用,所述模型通過判斷肽是否可以與hla結(jié)合從而判斷肽是否為腫瘤新抗原。
32、進(jìn)一步,若肽與hla結(jié)合,則預(yù)測該肽為腫瘤新抗原。
33、第三方面,一種用于鑒別腫瘤新抗原的方法,所述方法包括如下步驟:
34、1)在序列輸入器中輸入肽和hla序列,掩碼hla和肽序列被打包成一個句子(即<masked?hla,masked?peptide>)用于輸入;
35、2)嵌入塊將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入,以生成序列嵌入;
36、3)編碼器塊利用多頭自注意技術(shù),通過串聯(lián)序列將兩個序列之間的雙向交叉注意結(jié)合起來;
37、4)預(yù)測塊使用聚合序列表示來預(yù)測結(jié)合概率,而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸;
38、5)判斷肽是否可以與hla結(jié)合。
39、進(jìn)一步,所述序列輸入器中,每一對hla和肽序列表示為一個句子,例如即x=([cls],hla?sequence,[sep],peptide?sequence)。
40、進(jìn)一步,所述序列輸入器中,第一個標(biāo)記([cls])的最終隱藏特征用作分類的序列表示,而([sep])標(biāo)記則區(qū)分這兩個序列,兩個序列的隨機(jī)掩碼氨基酸用于訓(xùn)練深度雙向表示。
41、進(jìn)一步,所述序列輸入器中,輸入的肽和hla序列被填充為128的長度以適應(yīng)可變的輸入長度。
42、進(jìn)一步,所述嵌入塊中,對于每個token,加入學(xué)習(xí)過的嵌入(ea?or?eb∈rh)來表示是屬于hla還是肽,從而便于對這兩個序列進(jìn)行分割,其中h是嵌入的維度,使用wordpiece嵌入來對氨基酸嵌入進(jìn)行編碼(eai?or?ebj∈rh)。
43、進(jìn)一步,所述嵌入塊中,還通過加入位置嵌入(ei∈rh)來編碼句子中氨基酸的位置(x)。
44、進(jìn)一步,所述嵌入塊中,token中的輸入表示(或hla中的token)是通過將其token、段和位置嵌入相加來創(chuàng)建的,如下所示:
45、ei=ea+eam+ei
46、進(jìn)一步,所述編碼器塊中,利用多頭自注意技術(shù),通過串聯(lián)序列將兩個序列之間的雙向交叉注意結(jié)合起來。
47、進(jìn)一步,所述編碼器塊中,機(jī)制包括將查詢q映射到一組鍵值(k-v)對,并獲得輸出,其中k-v對將序列元素存儲在內(nèi)存中。
48、進(jìn)一步,所述編碼器塊中,注意力得分是基于q和k之間的相關(guān)性或相似性,表示信息的重要性,注意力得分越高(即v)表示對相應(yīng)信息的關(guān)注越強(qiáng)。
49、進(jìn)一步,所述編碼器塊中,特征優(yōu)化模塊結(jié)合了全連接層與layernorm和dropout,以學(xué)習(xí)增強(qiáng)的表示(hi)用于第i個標(biāo)記。
50、進(jìn)一步,所述編碼器塊中,對于長度小于128的hla和肽的連接序列,用0~128填充。
51、進(jìn)一步,所述預(yù)測塊中,采用了兩項任務(wù)來微調(diào)neobert模型:hla肽結(jié)合預(yù)測和掩蔽氨基酸預(yù)測。
52、再進(jìn)一步,所述hla肽結(jié)合預(yù)測是將每個hla-肽對的聚合序列表征輸入到s型層來預(yù)測標(biāo)簽:
53、y′=sigmoid(w(2)(tanh(w(1)h0+b(1))))
54、其中,w(1),w(2),和b(1)是可學(xué)習(xí)的參數(shù),h0表示特殊標(biāo)記[cls]的表示,相應(yīng)的損失函數(shù)概述如下:
55、
56、其中,n表示包含陽性結(jié)合數(shù)據(jù)和陰性數(shù)據(jù)的hla肽對集合,生成的數(shù)據(jù)與之前的研究類似[34]。
57、再進(jìn)一步,一個掩碼氨基酸模型根據(jù)其序列的表示來預(yù)測20種不同氨基酸在序列的位置概率:
58、pi=softmax(whi+b)
59、其中,w和b是可學(xué)習(xí)的參數(shù),hi表示token的表示。其損失函數(shù)總結(jié)如下:
60、
61、其中,mask表示所有被掩蔽氨基酸的位置集合,pos表示正結(jié)合對的集合,neobert模型的總損失函數(shù)總結(jié)如下:
62、
63、進(jìn)一步,若肽與hla結(jié)合,則預(yù)測該肽為腫瘤新抗原;若肽不與hla結(jié)合,則預(yù)測該肽不是腫瘤新抗原。
64、第四方面,本發(fā)明提供了一種用于鑒別腫瘤新抗原的系統(tǒng),所述系統(tǒng)包括:
65、序列輸入模塊,用于輸入肽和hla序列,掩碼hla和肽序列被打包成一個句子;
66、序列處理模塊,用于處理輸入的序列;
67、結(jié)合概率預(yù)測模塊,使用聚合序列表示來預(yù)測結(jié)合概率,而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸;
68、結(jié)果輸出模塊,通過判斷肽是否可以與hla結(jié)合從而判斷肽是否為腫瘤新抗原。
69、進(jìn)一步,所述序列處理模塊中,嵌入塊將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入,以生成序列嵌入,編碼器塊利用多頭自注意技術(shù),通過串聯(lián)序列有效地將兩個序列之間的雙向交叉注意結(jié)合起來。
70、進(jìn)一步,結(jié)合概率預(yù)測模塊中,線性二元分類器使用聚合序列表示來預(yù)測結(jié)合概率,而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸。
71、進(jìn)一步,若肽與hla結(jié)合,則預(yù)測該肽為腫瘤新抗原。
72、第五方面,本發(fā)明提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)如第三方面所述方法的步驟。
73、有益效果
74、本發(fā)明訓(xùn)練的neobert模型在多肽-hla結(jié)合預(yù)測方面的準(zhǔn)確率為93%,明顯優(yōu)于netmhcpan,而netmhcpan的準(zhǔn)確率為75%,提供了一種新的腫瘤新抗原的預(yù)測模型。