一種NeoBert模型及其在鑒別腫瘤新抗原中的應(yīng)用

文檔序號：40395576發(fā)布日期：2024-12-20 12:18閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

本發(fā)明屬于生物醫(yī)學(xué)，具體涉及一種neobert模型及其在鑒別腫瘤新抗原中的應(yīng)用。

背景技術(shù)：

1、hla即人類白細(xì)胞抗原，是人類主要組織相容性復(fù)合體(majorhistocompatibility?complex，mhc)的表達(dá)產(chǎn)物，有超過200個編碼基因，均位于第6號染色體上。腫瘤特異性抗原(tsa)，也稱為腫瘤新抗原，是由腫瘤細(xì)胞表面的主要組織相容性復(fù)合體展示的短肽抗原。這些獨(dú)特的tsa在正常組織中不存在，在異常組織中可與hla結(jié)合，從而變得可被t細(xì)胞識別為外來抗原，具有引發(fā)腫瘤特異性t細(xì)胞反應(yīng)的能力，使其成為癌癥疫苗有希望的候選者。目前識別這些經(jīng)典新抗原的傳統(tǒng)方法嚴(yán)重依賴于全基因組/全外顯子組測序的數(shù)據(jù)，幾個廣泛研究的經(jīng)典新抗原數(shù)據(jù)庫，包括cedar、caped(https://caped.icp.ucl.ac.be)、tantigen、nepdb、dbpepneo、neodb和tsnadb，已被廣泛探索其在癌癥免疫治療中的實用性。

2、雖然基因組的編碼區(qū)域僅占整個基因組的40％，剩下的60％是非編碼區(qū)的，但越來越多的證據(jù)表明，非經(jīng)典機(jī)制，包括轉(zhuǎn)錄變異體(例如可變剪接、內(nèi)含子保留、隱形內(nèi)含子和轉(zhuǎn)座子衍生的嵌合轉(zhuǎn)錄本)和蛋白酶體隱秘肽(順式/反式蛋白酶體加工)，有助于形成更大的非經(jīng)典新抗原庫。然而，非經(jīng)典新抗原數(shù)據(jù)的收集和管理仍然很有限。對于通過rna-seq鑒定的非編碼上游開放閱讀框(uorf)衍生的新抗原，目前只存在一個數(shù)據(jù)庫，即spencer，它包含了來自55項研究的2806個質(zhì)譜數(shù)據(jù)。然而，該數(shù)據(jù)集并非源自免疫蛋白質(zhì)組學(xué)，它預(yù)測非編碼rna(ncrna)翻譯并使用滑動窗口算法將每個非編碼肽分割成8-14聚體片段。關(guān)于蛋白質(zhì)蛋白酶體加工新抗原，proteomedb數(shù)據(jù)庫包含此類實體。盡管如此，它需要體外合成80種肽，然后進(jìn)行蛋白酶體消化并使用各種質(zhì)譜方法檢測。肽段的檢測采用一種稱為invitrospi的開發(fā)方法進(jìn)行，因此這些新抗原并不存在于腫瘤樣本中。

3、通過液相色譜串聯(lián)質(zhì)譜法(lc-ms/ms)檢測和測序與hla結(jié)合的肽提供了一個獨(dú)特的優(yōu)勢，即可以直接學(xué)習(xí)到細(xì)胞內(nèi)源性加工和呈遞肽的信息。我們收集并整理了一個涵蓋非冗余的非經(jīng)典新抗原肽的大數(shù)據(jù)集，包含來自不同類型rna和基于蛋白的35574個配對的新抗原-hla，這些數(shù)據(jù)來源于14篇文獻(xiàn)。這種全面的編譯使我們能夠?qū)⑺鼈兊目乖匦耘c源自體細(xì)胞突變的肽(由cedar表示)、與腫瘤相關(guān)的肽(由hlathena表示)以及源自傳染性疾病的新抗原(由iedb表示)進(jìn)行比較，包括長度、基序、熵和疏水性等方面。

4、這些差異促使我們對肽-hla(phla)結(jié)合的預(yù)測方法進(jìn)行訓(xùn)練。目前，phla結(jié)合的預(yù)測方法大致分為四類：基于結(jié)構(gòu)的方法、基于評分函數(shù)的方法、基于機(jī)器學(xué)習(xí)的方法以及結(jié)合多種因素的綜合方法?；诮Y(jié)構(gòu)的方法剖析hla和肽的結(jié)合結(jié)構(gòu)，而基于評分功能的技術(shù)則根據(jù)基于序列的屬性評估肽?；跈C(jī)器學(xué)習(xí)的方法從肽或hla中提取特征，并訓(xùn)練模型進(jìn)行結(jié)合預(yù)測。深度學(xué)習(xí)方法，包括cnns、rnns和注意力機(jī)制，由于其較好的準(zhǔn)確性和效率而具有良好的性能。最近，開發(fā)了一種基于轉(zhuǎn)換器的模型，模型可用于預(yù)測肽-hla?i類結(jié)合并用于疫苗設(shè)計的突變肽。然而，它只對經(jīng)典肽進(jìn)行訓(xùn)練，也不能完全解釋hla和肽序列之間復(fù)雜的相互作用。因此，我們整合了經(jīng)典和非經(jīng)典的新抗原數(shù)據(jù)，訓(xùn)練并得到了本發(fā)明的neobert模型。

技術(shù)實現(xiàn)思路

1、本發(fā)明收集數(shù)據(jù)后，采用70％的數(shù)據(jù)對neobert模型進(jìn)行訓(xùn)練，剩余30％的數(shù)據(jù)用于neobert模型的驗證以及比較，模型通過判斷肽是否可以與hla結(jié)合從而判斷肽是否為腫瘤新抗原?；诖?，完成了本發(fā)明。

2、第一方面，本發(fā)明提供了一種neobert模型，所述模型由四個連續(xù)組件組成，包括：

3、序列輸入器：掩碼hla和肽序列被打包成一個句子(即<masked?hla,maskedpeptide>)用于輸入；

4、嵌入塊：將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入，以生成序列嵌入；

5、編碼器塊：包含12個bertlayers，每個bertlayers包含掩碼多頭自注意力機(jī)制和一個用于學(xué)習(xí)表示的特征優(yōu)化塊；

6、預(yù)測塊：使用聚合序列表示來預(yù)測結(jié)合概率，而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸。

7、進(jìn)一步，所述序列輸入器中，每一對hla和肽序列表示為一個句子，例如即x＝([cls]，hla?sequence，[sep]，peptide?sequence)。

8、進(jìn)一步，所述序列輸入器中，第一個標(biāo)記([cls])的最終隱藏特征用作分類的序列表示，而([sep])標(biāo)記則區(qū)分這兩個序列，兩個序列的隨機(jī)掩碼氨基酸用于訓(xùn)練深度雙向表示。

9、進(jìn)一步，所述序列輸入器中，輸入的肽和hla序列被填充為128的長度以適應(yīng)可變的輸入長度。

10、進(jìn)一步，所述嵌入塊中，對于每個token，加入學(xué)習(xí)過的嵌入(ea?or?eb∈rh)來表示是屬于hla還是肽，從而便于對這兩個序列進(jìn)行分割，其中h是嵌入的維度，使用wordpiece嵌入來對氨基酸嵌入進(jìn)行編碼(eaior?ebj∈rh)。

11、進(jìn)一步，所述嵌入塊中，還通過加入位置嵌入(ei∈rh)來編碼句子中氨基酸的位置(x)。

12、進(jìn)一步，所述嵌入塊中，token中的輸入表示(或hla中的token)是通過將其token、段和位置嵌入相加來創(chuàng)建的，如下所示：

13、ei＝ea+earn+ei

14、進(jìn)一步，所述編碼器塊中，利用多頭自注意技術(shù)，通過串聯(lián)序列將兩個序列之間的雙向交叉注意結(jié)合起來。

15、進(jìn)一步，所述編碼器塊中，機(jī)制包括將查詢q映射到一組鍵值(k-v)對，并獲得輸出，其中k-v對將序列元素存儲在內(nèi)存中。

16、進(jìn)一步，所述編碼器塊中，注意力得分是基于q和k之間的相關(guān)性或相似性，表示信息的重要性，注意力得分越高(即v)表示對相應(yīng)信息的關(guān)注越強(qiáng)。

17、進(jìn)一步，所述編碼器塊中，特征優(yōu)化模塊結(jié)合了全連接層與layernorm和dropout，以學(xué)習(xí)增強(qiáng)的表示(hi)用于第i個標(biāo)記。

18、進(jìn)一步，所述編碼器塊中，對于長度小于128的hla和肽的連接序列，用0～128填充。

19、進(jìn)一步，所述預(yù)測塊中，采用了兩項任務(wù)來微調(diào)neobert模型：hla肽結(jié)合預(yù)測和掩蔽氨基酸預(yù)測。

20、再進(jìn)一步，所述hla肽結(jié)合預(yù)測是將每個hla-肽對的聚合序列表征輸入到s型層來預(yù)測標(biāo)簽：

21、y′＝sigmoid(w(2)(tanh(w(1)h0+b(1))))

22、其中，w(1)，w(2)，和b(1)是可學(xué)習(xí)的參數(shù)，h0表示特殊標(biāo)記[cls]的表示，相應(yīng)的損失函數(shù)概述如下：

23、

24、其中，n表示包含陽性結(jié)合數(shù)據(jù)和陰性數(shù)據(jù)的hla肽對集合，生成的數(shù)據(jù)與之前的研究類似[34]。

25、再進(jìn)一步，一個掩碼氨基酸模型根據(jù)其序列的表示來預(yù)測20種不同氨基酸在序列的位置概率：

26、pi＝softmax(whi+b)

27、其中，w和b是可學(xué)習(xí)的參數(shù)，hi表示token的表示。其損失函數(shù)總結(jié)如下：

28、

29、其中，mask表示所有被掩蔽氨基酸的位置集合，pos表示正結(jié)合對的集合，neobert模型的總損失函數(shù)總結(jié)如下：

30、

31、第二方面，本發(fā)明提供如第一方面所述的neobert模型在鑒別腫瘤新抗原中的應(yīng)用，所述模型通過判斷肽是否可以與hla結(jié)合從而判斷肽是否為腫瘤新抗原。

32、進(jìn)一步，若肽與hla結(jié)合，則預(yù)測該肽為腫瘤新抗原。

33、第三方面，一種用于鑒別腫瘤新抗原的方法，所述方法包括如下步驟：

34、1)在序列輸入器中輸入肽和hla序列，掩碼hla和肽序列被打包成一個句子(即＜masked?hla，masked?peptide>)用于輸入；

35、2)嵌入塊將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入，以生成序列嵌入；

36、3)編碼器塊利用多頭自注意技術(shù)，通過串聯(lián)序列將兩個序列之間的雙向交叉注意結(jié)合起來；

37、4)預(yù)測塊使用聚合序列表示來預(yù)測結(jié)合概率，而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸；

38、5)判斷肽是否可以與hla結(jié)合。

39、進(jìn)一步，所述序列輸入器中，每一對hla和肽序列表示為一個句子，例如即x＝([cls]，hla?sequence，[sep]，peptide?sequence)。

40、進(jìn)一步，所述序列輸入器中，第一個標(biāo)記([cls])的最終隱藏特征用作分類的序列表示，而([sep])標(biāo)記則區(qū)分這兩個序列，兩個序列的隨機(jī)掩碼氨基酸用于訓(xùn)練深度雙向表示。

41、進(jìn)一步，所述序列輸入器中，輸入的肽和hla序列被填充為128的長度以適應(yīng)可變的輸入長度。

42、進(jìn)一步，所述嵌入塊中，對于每個token，加入學(xué)習(xí)過的嵌入(ea?or?eb∈rh)來表示是屬于hla還是肽，從而便于對這兩個序列進(jìn)行分割，其中h是嵌入的維度，使用wordpiece嵌入來對氨基酸嵌入進(jìn)行編碼(eai?or?ebj∈rh)。

43、進(jìn)一步，所述嵌入塊中，還通過加入位置嵌入(ei∈rh)來編碼句子中氨基酸的位置(x)。

44、進(jìn)一步，所述嵌入塊中，token中的輸入表示(或hla中的token)是通過將其token、段和位置嵌入相加來創(chuàng)建的，如下所示：

45、ei＝ea+eam+ei

46、進(jìn)一步，所述編碼器塊中，利用多頭自注意技術(shù)，通過串聯(lián)序列將兩個序列之間的雙向交叉注意結(jié)合起來。

47、進(jìn)一步，所述編碼器塊中，機(jī)制包括將查詢q映射到一組鍵值(k-v)對，并獲得輸出，其中k-v對將序列元素存儲在內(nèi)存中。

48、進(jìn)一步，所述編碼器塊中，注意力得分是基于q和k之間的相關(guān)性或相似性，表示信息的重要性，注意力得分越高(即v)表示對相應(yīng)信息的關(guān)注越強(qiáng)。

49、進(jìn)一步，所述編碼器塊中，特征優(yōu)化模塊結(jié)合了全連接層與layernorm和dropout，以學(xué)習(xí)增強(qiáng)的表示(hi)用于第i個標(biāo)記。

50、進(jìn)一步，所述編碼器塊中，對于長度小于128的hla和肽的連接序列，用0～128填充。

51、進(jìn)一步，所述預(yù)測塊中，采用了兩項任務(wù)來微調(diào)neobert模型：hla肽結(jié)合預(yù)測和掩蔽氨基酸預(yù)測。

52、再進(jìn)一步，所述hla肽結(jié)合預(yù)測是將每個hla-肽對的聚合序列表征輸入到s型層來預(yù)測標(biāo)簽：

53、y′＝sigmoid(w(2)(tanh(w(1)h0+b(1))))

54、其中，w(1)，w(2)，和b(1)是可學(xué)習(xí)的參數(shù)，h0表示特殊標(biāo)記[cls]的表示，相應(yīng)的損失函數(shù)概述如下：

55、

56、其中，n表示包含陽性結(jié)合數(shù)據(jù)和陰性數(shù)據(jù)的hla肽對集合，生成的數(shù)據(jù)與之前的研究類似[34]。

57、再進(jìn)一步，一個掩碼氨基酸模型根據(jù)其序列的表示來預(yù)測20種不同氨基酸在序列的位置概率：

58、pi＝softmax(whi+b)

59、其中，w和b是可學(xué)習(xí)的參數(shù)，hi表示token的表示。其損失函數(shù)總結(jié)如下：

60、

61、其中，mask表示所有被掩蔽氨基酸的位置集合，pos表示正結(jié)合對的集合，neobert模型的總損失函數(shù)總結(jié)如下：

62、

63、進(jìn)一步，若肽與hla結(jié)合，則預(yù)測該肽為腫瘤新抗原；若肽不與hla結(jié)合，則預(yù)測該肽不是腫瘤新抗原。

64、第四方面，本發(fā)明提供了一種用于鑒別腫瘤新抗原的系統(tǒng)，所述系統(tǒng)包括：

65、序列輸入模塊，用于輸入肽和hla序列，掩碼hla和肽序列被打包成一個句子；

66、序列處理模塊，用于處理輸入的序列；

67、結(jié)合概率預(yù)測模塊，使用聚合序列表示來預(yù)測結(jié)合概率，而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸；

68、結(jié)果輸出模塊，通過判斷肽是否可以與hla結(jié)合從而判斷肽是否為腫瘤新抗原。

69、進(jìn)一步，所述序列處理模塊中，嵌入塊將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入，以生成序列嵌入，編碼器塊利用多頭自注意技術(shù)，通過串聯(lián)序列有效地將兩個序列之間的雙向交叉注意結(jié)合起來。

70、進(jìn)一步，結(jié)合概率預(yù)測模塊中，線性二元分類器使用聚合序列表示來預(yù)測結(jié)合概率，而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸。

71、進(jìn)一步，若肽與hla結(jié)合，則預(yù)測該肽為腫瘤新抗原。

72、第五方面，本發(fā)明提供一種計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，該程序被處理器執(zhí)行時實現(xiàn)如第三方面所述方法的步驟。

73、有益效果

74、本發(fā)明訓(xùn)練的neobert模型在多肽-hla結(jié)合預(yù)測方面的準(zhǔn)確率為93％，明顯優(yōu)于netmhcpan，而netmhcpan的準(zhǔn)確率為75％，提供了一種新的腫瘤新抗原的預(yù)測模型。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李晶,鮑一明,左春滿,韓鳳仙,陳浩斌,趙薇,史美龍,龍朋偉,楊飛,徐凌云
技術(shù)所有人：中國人民解放軍海軍軍醫(yī)大學(xué)第一附屬醫(yī)院
我是此專利的發(fā)明人

上一篇：一種三維流體監(jiān)測顆粒計數(shù)器的制作方法
上一篇：一種太陽能發(fā)電板折疊結(jié)構(gòu)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評價 3.中藥組方配伍機(jī)制研究
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種NeoBert模型及其在鑒別腫瘤新抗原中的應(yīng)用