国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于多頭注意力機制和圖同構神經網絡的病毒識別方法

      文檔序號:39125521發(fā)布日期:2024-08-21 11:54閱讀:17來源:國知局
      一種基于多頭注意力機制和圖同構神經網絡的病毒識別方法

      本技術屬于深度學習和生物測序,特別是涉及一種基于多頭注意力機制和圖同構神經網絡的病毒識別方法。


      背景技術:

      1、病毒是地球上最豐富的生物實體之一,廣泛存在于土壤、海洋、人體等多種環(huán)境中。它們通過控制宿主數(shù)量和充當基因轉移的媒介,在微生物環(huán)境中扮演重要的角色。相比于在實驗室培養(yǎng)的病毒發(fā)現(xiàn)方法,宏基因組學測序技術可以不用培養(yǎng),直接從大量樣本中提取所有的基因遺傳物質。該方法突破了傳統(tǒng)方法的限制,快速準確地確定基因的序列信息,極大促進了病毒發(fā)現(xiàn)的速度,成為基因測序的主要方法。

      2、但正是由于未進行培養(yǎng),宏基因組學技術提取出的大量序列缺乏分類、宿主等相關信息。在微生物群落研究中,無論是針對水平基因轉移探索而研究溫和病毒,還是針對噬菌體療法而研究毒性病毒,將病毒從宏基因組測序數(shù)據中準確快速地識別出來是首要前提。因此,病毒識別一直是微生物研究領域的熱點。

      3、由于毒性病毒和溫和病毒都可以將宿主的遺傳物質整合到自己的基因組中,導致病毒和宿主基因組之間存在局部序列相似性。這些共同區(qū)域給區(qū)分病毒和它們的宿主帶來了挑戰(zhàn)。

      4、現(xiàn)有的病毒識別策略包括:

      5、1.計算待檢測基因序列與現(xiàn)存病毒的相似度,根據相似度推斷出待檢測基因序列是否為病毒。該策略方法對現(xiàn)有的數(shù)據庫依賴很大,然而相較于病毒總數(shù),當前數(shù)據庫中已記載的病毒數(shù)量十分有限,無法識別新病毒。待檢測基因序列需與現(xiàn)存病毒數(shù)據庫序列依次比對,比對過程消耗時間巨大,耗時長是阻礙該方法應用的主要原因。微生物群落中存在大量未知病毒,其與當前數(shù)據庫中的已知病毒相似度較低,所以使用基于相似度的方法無法有效識別新病毒。

      6、2.根據病毒的特性,人工設計特征,并根據所設計的特征訓練機器學習模型進行病毒識別任務。該策略方法需要人工設計特征,任務量巨大,而且人工設計出特征的質量很大程度上影響病毒識別的準確度,進一步增加了病毒識別任務的難度。

      7、3.利用病毒與非病毒數(shù)據庫訓練cnn、lstm等深度學習模型,比如使用卷積神經網絡對密碼子編碼的one-hot編碼矩陣進行卷積操作或使用lstm捕捉密碼之間的依賴關系,根據所訓練的深度學習模型進行病毒識別任務。該策略方法往往僅使用一種模型,僅能捕捉單一維度的特征,無法有效捕捉特征。


      技術實現(xiàn)思路

      1、為了克服現(xiàn)有技術中的不足,本發(fā)明提供一種基于多頭注意力機制和圖同構神經網絡的病毒識別方法,針對宏基因組測序技術所產生的大量基因序列數(shù)據,使用多頭注意力機制和圖同構神經網絡訓練,使用多頭注意力機制和圖同構神經網絡模型識別病毒序列。

      2、為實現(xiàn)上述目的,本發(fā)明采用的技術方案如下:

      3、一種基于多頭注意力機制和圖同構神經網絡的病毒識別方法,所述方法包括以下步驟:

      4、步驟1:將refseq庫中的病毒與原核基因序列重疊群作預處理操作,用于步驟2模型的訓練;

      5、步驟2:構建多頭注意力機制和圖同構神經網絡模型;

      6、步驟3:使用k折交叉驗證獲取模型最優(yōu)參數(shù);

      7、步驟4:將待識別的宏基因組基因序列進行預處理;

      8、步驟5:將預處理后的宏基因組序列輸入至所述的病毒識別模型,得到病毒識別結果。

      9、進一步地,所述步驟1具體為:

      10、步驟1.1:將refseq庫中提取的用于訓練的病毒和原核基因序列,過濾出長度大于999bp的基因序列,無重疊地切割為長度為999bp基因序列片段,最后一段長度不滿足999bp序列片段舍棄;

      11、步驟1.2:將從病毒基因序列切割出的基因序列片段標記為正樣本,賦予標簽1,將從原核基因序列切割出的基因序列片段標記為負樣本,賦予標簽0;

      12、步驟1.3:將固定長度的基因序列片段,每三個堿基依次進行切割,并依照密碼子對應表轉化為長度為333的數(shù)字序列;

      13、步驟1.4:保證測試集中所有測試數(shù)據符合實際應用中病毒重疊群第一次被發(fā)現(xiàn)的特點,按照病毒重疊群發(fā)布日期,將病毒(噬菌體)樣本的全基因組劃分為訓練集和測試集;例如,將2020年之前發(fā)布的病毒樣本的全基因組劃分為訓練待訓練模型的訓練集,將2020年之后發(fā)布的病毒樣本的全基因組劃分為測試待訓練模型的測試集。

      14、步驟1.5:保證數(shù)據平衡(以數(shù)量少的病毒為基準,保持病毒和宿主(非病毒)為1:1),避免在由于數(shù)據不平衡,導致模型在訓練過程中偏向某一類樣本的情況;已轉換為數(shù)字的病毒基因序列片段的數(shù)量為基準,隨機抽取相同數(shù)量的原核基因序列片段,并調整在訓練集和訓練集中的分布,以使訓練數(shù)據與測試數(shù)據比例按4:1或9:1分布。

      15、進一步地,所述步驟2具體為:

      16、步驟2.1:模型主要包括嵌入層(embedding)、多頭注意力層(multi-headattention)、層歸一化層(layernorm)、圖同構卷積層(ginconv)、全局累加池化層(global?add?pooling)、批量歸一化層(batchnorm)、全連接層(fc)、隨機丟棄層(dropout)、連接層(concat)、激活層對輸入數(shù)據進行特征提取,多頭注意力層捕捉全局依賴關系,得到特征矩陣與權重矩陣,進一步轉化為邊的鄰接矩陣,批量歸一化層使神經網絡每層的輸入都調整為0,方差為1的標準正態(tài)分布,激活層使用relu和softmax函數(shù)防止模型訓練過程中神經元死亡和梯度消失問題的出現(xiàn),全局累加池化層用于提取多層次的特征,隨機丟棄層將訓練過程中的神經元按一定比例丟棄,防止過擬合;

      17、步驟2.2:使交叉熵損失函數(shù)計算預測標簽與真實標簽之間的損失值,并使用adam優(yōu)化器優(yōu)化模型中的參數(shù),使參數(shù)能夠對輸入的基因序列作非線性變換擬合輸出,使得損失函數(shù)最小化。

      18、進一步地,所述步驟3具體為:使用k折交叉驗證方法對基于深度學習算法的模型(包括卷積神經網絡、多頭注意力機制、圖同構神經網絡)進行評估,k折交叉驗證將數(shù)據集分成訓練集與測試集,在樣本數(shù)量不充足的情況下,為了充分利用數(shù)據集對算法效果的測試,將數(shù)據集隨機分為k份,每次將其中一份作為測試集,其余k-1份作為訓練集進行訓練。具體評估的過程為:首先,設置出不同超參數(shù)(人為設置調整的參數(shù),比如學習率、生成邊的閾值,等等)組合,參數(shù)設定可以人為設定10組或者5組,在每組參數(shù)上進行k折交叉驗證得出平均準確率,(k折交叉驗證得到的準確率不具有偶然性),然后將準確率最大的一組超參數(shù)作為最優(yōu)參數(shù)。

      19、進一步地,k折交叉驗證方法使用5折交叉驗證獲得模型的最終準確率。

      20、進一步地,所述步驟4具體為:

      21、步驟4.1:從宏基因組測序數(shù)據中過濾出長度大于999bp的基因序列,將每一個基因序列,隨機起點,固定長度999bp隨機切割10個序列片段,序列片段可以有重疊,比如長度為5000的序列,可能隨機到9這個位置,然后向后截取999bp的序列片段,可能下次隨機到111這個位置,這樣隨機截取10條;

      22、步驟4.2:將序列片段每三個堿基進行切割,并依照密碼子對應表轉化為長度為333的數(shù)字序列。

      23、進一步地,步驟5包括以下內容:

      24、步驟5.1:將每一個待測基因序列重疊群所切割經過預處理的10個序列片段輸入至所述優(yōu)化后的病毒識別模型,得到10個預測概率;

      25、步驟5.2:將每一個基因序列所得到的10個預測概率進行累加取平均操作,最終將概率最大位置的標簽作為預測結果,如果預測標簽為1,則該基因序列重疊群為病毒,如果預測標簽為0,則該基因序列重疊群為非病毒。

      26、本發(fā)明一種基于多頭注意力機制和圖同構神經網絡的病毒識別方法,利用多頭注意力機制捕捉基因序列中密碼子之間的全局依賴關系,得到密碼子的特征向量矩陣和關系權重矩陣,并根據設定的邊的閾值,在相關性大的密碼子之間構造得到邊的鄰接矩陣,將密碼子的特征矩陣和邊的鄰接矩陣輸入至圖同構網絡,利用圖同構網絡捕捉局部拓撲結構特征,將病毒識別問題轉化為圖分類任務。該模型使用復合模型捕捉多個維度的基因序列特征,基于病毒數(shù)據庫中已發(fā)現(xiàn)的病毒序列對模型進行訓練,最終模型可以根據從已知病毒中捕捉到特征,該特征也分布于未知病毒中,而且由于不存在序列比對的環(huán)節(jié),所以該模型不依賴于數(shù)據庫。因此模型具備識別未知病毒的能力,能夠快速準確有效地應對宏基因組測序產生的基因序列片段的病毒識別問題。

      當前第1頁1 2 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1