国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種NeoBert模型及其在鑒別腫瘤新抗原中的應(yīng)用

      文檔序號:40395576發(fā)布日期:2024-12-20 12:18閱讀:4來源:國知局
      一種NeoBert模型及其在鑒別腫瘤新抗原中的應(yīng)用

      本發(fā)明屬于生物醫(yī)學(xué),具體涉及一種neobert模型及其在鑒別腫瘤新抗原中的應(yīng)用。


      背景技術(shù):

      1、hla即人類白細(xì)胞抗原,是人類主要組織相容性復(fù)合體(majorhistocompatibility?complex,mhc)的表達(dá)產(chǎn)物,有超過200個編碼基因,均位于第6號染色體上。腫瘤特異性抗原(tsa),也稱為腫瘤新抗原,是由腫瘤細(xì)胞表面的主要組織相容性復(fù)合體展示的短肽抗原。這些獨(dú)特的tsa在正常組織中不存在,在異常組織中可與hla結(jié)合,從而變得可被t細(xì)胞識別為外來抗原,具有引發(fā)腫瘤特異性t細(xì)胞反應(yīng)的能力,使其成為癌癥疫苗有希望的候選者。目前識別這些經(jīng)典新抗原的傳統(tǒng)方法嚴(yán)重依賴于全基因組/全外顯子組測序的數(shù)據(jù),幾個廣泛研究的經(jīng)典新抗原數(shù)據(jù)庫,包括cedar、caped(https://caped.icp.ucl.ac.be)、tantigen、nepdb、dbpepneo、neodb和tsnadb,已被廣泛探索其在癌癥免疫治療中的實用性。

      2、雖然基因組的編碼區(qū)域僅占整個基因組的40%,剩下的60%是非編碼區(qū)的,但越來越多的證據(jù)表明,非經(jīng)典機(jī)制,包括轉(zhuǎn)錄變異體(例如可變剪接、內(nèi)含子保留、隱形內(nèi)含子和轉(zhuǎn)座子衍生的嵌合轉(zhuǎn)錄本)和蛋白酶體隱秘肽(順式/反式蛋白酶體加工),有助于形成更大的非經(jīng)典新抗原庫。然而,非經(jīng)典新抗原數(shù)據(jù)的收集和管理仍然很有限。對于通過rna-seq鑒定的非編碼上游開放閱讀框(uorf)衍生的新抗原,目前只存在一個數(shù)據(jù)庫,即spencer,它包含了來自55項研究的2806個質(zhì)譜數(shù)據(jù)。然而,該數(shù)據(jù)集并非源自免疫蛋白質(zhì)組學(xué),它預(yù)測非編碼rna(ncrna)翻譯并使用滑動窗口算法將每個非編碼肽分割成8-14聚體片段。關(guān)于蛋白質(zhì)蛋白酶體加工新抗原,proteomedb數(shù)據(jù)庫包含此類實體。盡管如此,它需要體外合成80種肽,然后進(jìn)行蛋白酶體消化并使用各種質(zhì)譜方法檢測。肽段的檢測采用一種稱為invitrospi的開發(fā)方法進(jìn)行,因此這些新抗原并不存在于腫瘤樣本中。

      3、通過液相色譜串聯(lián)質(zhì)譜法(lc-ms/ms)檢測和測序與hla結(jié)合的肽提供了一個獨(dú)特的優(yōu)勢,即可以直接學(xué)習(xí)到細(xì)胞內(nèi)源性加工和呈遞肽的信息。我們收集并整理了一個涵蓋非冗余的非經(jīng)典新抗原肽的大數(shù)據(jù)集,包含來自不同類型rna和基于蛋白的35574個配對的新抗原-hla,這些數(shù)據(jù)來源于14篇文獻(xiàn)。這種全面的編譯使我們能夠?qū)⑺鼈兊目乖匦耘c源自體細(xì)胞突變的肽(由cedar表示)、與腫瘤相關(guān)的肽(由hlathena表示)以及源自傳染性疾病的新抗原(由iedb表示)進(jìn)行比較,包括長度、基序、熵和疏水性等方面。

      4、這些差異促使我們對肽-hla(phla)結(jié)合的預(yù)測方法進(jìn)行訓(xùn)練。目前,phla結(jié)合的預(yù)測方法大致分為四類:基于結(jié)構(gòu)的方法、基于評分函數(shù)的方法、基于機(jī)器學(xué)習(xí)的方法以及結(jié)合多種因素的綜合方法?;诮Y(jié)構(gòu)的方法剖析hla和肽的結(jié)合結(jié)構(gòu),而基于評分功能的技術(shù)則根據(jù)基于序列的屬性評估肽?;跈C(jī)器學(xué)習(xí)的方法從肽或hla中提取特征,并訓(xùn)練模型進(jìn)行結(jié)合預(yù)測。深度學(xué)習(xí)方法,包括cnns、rnns和注意力機(jī)制,由于其較好的準(zhǔn)確性和效率而具有良好的性能。最近,開發(fā)了一種基于轉(zhuǎn)換器的模型,模型可用于預(yù)測肽-hla?i類結(jié)合并用于疫苗設(shè)計的突變肽。然而,它只對經(jīng)典肽進(jìn)行訓(xùn)練,也不能完全解釋hla和肽序列之間復(fù)雜的相互作用。因此,我們整合了經(jīng)典和非經(jīng)典的新抗原數(shù)據(jù),訓(xùn)練并得到了本發(fā)明的neobert模型。


      技術(shù)實現(xiàn)思路

      1、本發(fā)明收集數(shù)據(jù)后,采用70%的數(shù)據(jù)對neobert模型進(jìn)行訓(xùn)練,剩余30%的數(shù)據(jù)用于neobert模型的驗證以及比較,模型通過判斷肽是否可以與hla結(jié)合從而判斷肽是否為腫瘤新抗原?;诖?,完成了本發(fā)明。

      2、第一方面,本發(fā)明提供了一種neobert模型,所述模型由四個連續(xù)組件組成,包括:

      3、序列輸入器:掩碼hla和肽序列被打包成一個句子(即<masked?hla,maskedpeptide>)用于輸入;

      4、嵌入塊:將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入,以生成序列嵌入;

      5、編碼器塊:包含12個bertlayers,每個bertlayers包含掩碼多頭自注意力機(jī)制和一個用于學(xué)習(xí)表示的特征優(yōu)化塊;

      6、預(yù)測塊:使用聚合序列表示來預(yù)測結(jié)合概率,而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸。

      7、進(jìn)一步,所述序列輸入器中,每一對hla和肽序列表示為一個句子,例如即x=([cls],hla?sequence,[sep],peptide?sequence)。

      8、進(jìn)一步,所述序列輸入器中,第一個標(biāo)記([cls])的最終隱藏特征用作分類的序列表示,而([sep])標(biāo)記則區(qū)分這兩個序列,兩個序列的隨機(jī)掩碼氨基酸用于訓(xùn)練深度雙向表示。

      9、進(jìn)一步,所述序列輸入器中,輸入的肽和hla序列被填充為128的長度以適應(yīng)可變的輸入長度。

      10、進(jìn)一步,所述嵌入塊中,對于每個token,加入學(xué)習(xí)過的嵌入(ea?or?eb∈rh)來表示是屬于hla還是肽,從而便于對這兩個序列進(jìn)行分割,其中h是嵌入的維度,使用wordpiece嵌入來對氨基酸嵌入進(jìn)行編碼(eaior?ebj∈rh)。

      11、進(jìn)一步,所述嵌入塊中,還通過加入位置嵌入(ei∈rh)來編碼句子中氨基酸的位置(x)。

      12、進(jìn)一步,所述嵌入塊中,token中的輸入表示(或hla中的token)是通過將其token、段和位置嵌入相加來創(chuàng)建的,如下所示:

      13、ei=ea+earn+ei

      14、進(jìn)一步,所述編碼器塊中,利用多頭自注意技術(shù),通過串聯(lián)序列將兩個序列之間的雙向交叉注意結(jié)合起來。

      15、進(jìn)一步,所述編碼器塊中,機(jī)制包括將查詢q映射到一組鍵值(k-v)對,并獲得輸出,其中k-v對將序列元素存儲在內(nèi)存中。

      16、進(jìn)一步,所述編碼器塊中,注意力得分是基于q和k之間的相關(guān)性或相似性,表示信息的重要性,注意力得分越高(即v)表示對相應(yīng)信息的關(guān)注越強(qiáng)。

      17、進(jìn)一步,所述編碼器塊中,特征優(yōu)化模塊結(jié)合了全連接層與layernorm和dropout,以學(xué)習(xí)增強(qiáng)的表示(hi)用于第i個標(biāo)記。

      18、進(jìn)一步,所述編碼器塊中,對于長度小于128的hla和肽的連接序列,用0~128填充。

      19、進(jìn)一步,所述預(yù)測塊中,采用了兩項任務(wù)來微調(diào)neobert模型:hla肽結(jié)合預(yù)測和掩蔽氨基酸預(yù)測。

      20、再進(jìn)一步,所述hla肽結(jié)合預(yù)測是將每個hla-肽對的聚合序列表征輸入到s型層來預(yù)測標(biāo)簽:

      21、y′=sigmoid(w(2)(tanh(w(1)h0+b(1))))

      22、其中,w(1),w(2),和b(1)是可學(xué)習(xí)的參數(shù),h0表示特殊標(biāo)記[cls]的表示,相應(yīng)的損失函數(shù)概述如下:

      23、

      24、其中,n表示包含陽性結(jié)合數(shù)據(jù)和陰性數(shù)據(jù)的hla肽對集合,生成的數(shù)據(jù)與之前的研究類似[34]。

      25、再進(jìn)一步,一個掩碼氨基酸模型根據(jù)其序列的表示來預(yù)測20種不同氨基酸在序列的位置概率:

      26、pi=softmax(whi+b)

      27、其中,w和b是可學(xué)習(xí)的參數(shù),hi表示token的表示。其損失函數(shù)總結(jié)如下:

      28、

      29、其中,mask表示所有被掩蔽氨基酸的位置集合,pos表示正結(jié)合對的集合,neobert模型的總損失函數(shù)總結(jié)如下:

      30、

      31、第二方面,本發(fā)明提供如第一方面所述的neobert模型在鑒別腫瘤新抗原中的應(yīng)用,所述模型通過判斷肽是否可以與hla結(jié)合從而判斷肽是否為腫瘤新抗原。

      32、進(jìn)一步,若肽與hla結(jié)合,則預(yù)測該肽為腫瘤新抗原。

      33、第三方面,一種用于鑒別腫瘤新抗原的方法,所述方法包括如下步驟:

      34、1)在序列輸入器中輸入肽和hla序列,掩碼hla和肽序列被打包成一個句子(即<masked?hla,masked?peptide>)用于輸入;

      35、2)嵌入塊將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入,以生成序列嵌入;

      36、3)編碼器塊利用多頭自注意技術(shù),通過串聯(lián)序列將兩個序列之間的雙向交叉注意結(jié)合起來;

      37、4)預(yù)測塊使用聚合序列表示來預(yù)測結(jié)合概率,而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸;

      38、5)判斷肽是否可以與hla結(jié)合。

      39、進(jìn)一步,所述序列輸入器中,每一對hla和肽序列表示為一個句子,例如即x=([cls],hla?sequence,[sep],peptide?sequence)。

      40、進(jìn)一步,所述序列輸入器中,第一個標(biāo)記([cls])的最終隱藏特征用作分類的序列表示,而([sep])標(biāo)記則區(qū)分這兩個序列,兩個序列的隨機(jī)掩碼氨基酸用于訓(xùn)練深度雙向表示。

      41、進(jìn)一步,所述序列輸入器中,輸入的肽和hla序列被填充為128的長度以適應(yīng)可變的輸入長度。

      42、進(jìn)一步,所述嵌入塊中,對于每個token,加入學(xué)習(xí)過的嵌入(ea?or?eb∈rh)來表示是屬于hla還是肽,從而便于對這兩個序列進(jìn)行分割,其中h是嵌入的維度,使用wordpiece嵌入來對氨基酸嵌入進(jìn)行編碼(eai?or?ebj∈rh)。

      43、進(jìn)一步,所述嵌入塊中,還通過加入位置嵌入(ei∈rh)來編碼句子中氨基酸的位置(x)。

      44、進(jìn)一步,所述嵌入塊中,token中的輸入表示(或hla中的token)是通過將其token、段和位置嵌入相加來創(chuàng)建的,如下所示:

      45、ei=ea+eam+ei

      46、進(jìn)一步,所述編碼器塊中,利用多頭自注意技術(shù),通過串聯(lián)序列將兩個序列之間的雙向交叉注意結(jié)合起來。

      47、進(jìn)一步,所述編碼器塊中,機(jī)制包括將查詢q映射到一組鍵值(k-v)對,并獲得輸出,其中k-v對將序列元素存儲在內(nèi)存中。

      48、進(jìn)一步,所述編碼器塊中,注意力得分是基于q和k之間的相關(guān)性或相似性,表示信息的重要性,注意力得分越高(即v)表示對相應(yīng)信息的關(guān)注越強(qiáng)。

      49、進(jìn)一步,所述編碼器塊中,特征優(yōu)化模塊結(jié)合了全連接層與layernorm和dropout,以學(xué)習(xí)增強(qiáng)的表示(hi)用于第i個標(biāo)記。

      50、進(jìn)一步,所述編碼器塊中,對于長度小于128的hla和肽的連接序列,用0~128填充。

      51、進(jìn)一步,所述預(yù)測塊中,采用了兩項任務(wù)來微調(diào)neobert模型:hla肽結(jié)合預(yù)測和掩蔽氨基酸預(yù)測。

      52、再進(jìn)一步,所述hla肽結(jié)合預(yù)測是將每個hla-肽對的聚合序列表征輸入到s型層來預(yù)測標(biāo)簽:

      53、y′=sigmoid(w(2)(tanh(w(1)h0+b(1))))

      54、其中,w(1),w(2),和b(1)是可學(xué)習(xí)的參數(shù),h0表示特殊標(biāo)記[cls]的表示,相應(yīng)的損失函數(shù)概述如下:

      55、

      56、其中,n表示包含陽性結(jié)合數(shù)據(jù)和陰性數(shù)據(jù)的hla肽對集合,生成的數(shù)據(jù)與之前的研究類似[34]。

      57、再進(jìn)一步,一個掩碼氨基酸模型根據(jù)其序列的表示來預(yù)測20種不同氨基酸在序列的位置概率:

      58、pi=softmax(whi+b)

      59、其中,w和b是可學(xué)習(xí)的參數(shù),hi表示token的表示。其損失函數(shù)總結(jié)如下:

      60、

      61、其中,mask表示所有被掩蔽氨基酸的位置集合,pos表示正結(jié)合對的集合,neobert模型的總損失函數(shù)總結(jié)如下:

      62、

      63、進(jìn)一步,若肽與hla結(jié)合,則預(yù)測該肽為腫瘤新抗原;若肽不與hla結(jié)合,則預(yù)測該肽不是腫瘤新抗原。

      64、第四方面,本發(fā)明提供了一種用于鑒別腫瘤新抗原的系統(tǒng),所述系統(tǒng)包括:

      65、序列輸入模塊,用于輸入肽和hla序列,掩碼hla和肽序列被打包成一個句子;

      66、序列處理模塊,用于處理輸入的序列;

      67、結(jié)合概率預(yù)測模塊,使用聚合序列表示來預(yù)測結(jié)合概率,而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸;

      68、結(jié)果輸出模塊,通過判斷肽是否可以與hla結(jié)合從而判斷肽是否為腫瘤新抗原。

      69、進(jìn)一步,所述序列處理模塊中,嵌入塊將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入,以生成序列嵌入,編碼器塊利用多頭自注意技術(shù),通過串聯(lián)序列有效地將兩個序列之間的雙向交叉注意結(jié)合起來。

      70、進(jìn)一步,結(jié)合概率預(yù)測模塊中,線性二元分類器使用聚合序列表示來預(yù)測結(jié)合概率,而掩碼氨基酸模型根據(jù)每個對應(yīng)位置的表示來預(yù)測掩碼氨基酸。

      71、進(jìn)一步,若肽與hla結(jié)合,則預(yù)測該肽為腫瘤新抗原。

      72、第五方面,本發(fā)明提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)如第三方面所述方法的步驟。

      73、有益效果

      74、本發(fā)明訓(xùn)練的neobert模型在多肽-hla結(jié)合預(yù)測方面的準(zhǔn)確率為93%,明顯優(yōu)于netmhcpan,而netmhcpan的準(zhǔn)確率為75%,提供了一種新的腫瘤新抗原的預(yù)測模型。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1