本發(fā)明屬于生物信息學領域,涉及一種基于圖注意力網絡的疾病相關pirna分類方法,其中包括機器學習、深度學習、圖神經網絡等技術。
背景技術:
1、pirna是一類與piwi蛋白家族成員相互作用的小rna分子,它們在基因沉默和轉座元件調控中扮演著關鍵角色。在人類癌癥中,特別是種系和體細胞組織中,piwi蛋白和與其相互作用的pirna的表達與較差的臨床預后相關,這表明它們在癌癥發(fā)展中可能發(fā)揮著重要作用。因此,精確且高通量的分類與疾病相關的pirna對于優(yōu)先選擇潛在的實驗篩選候選物至關重要。通過計算分類,可以減少實驗室工作量,節(jié)約成本和時間,快速識別潛在的藥物靶點相互作用,從而加速候選物質進入實驗驗證階段。利用機器學習方法分類與疾病相關的pirna,可以通過分析大量的分子結構和生物信息數據,加速藥物發(fā)現和設計過程。這些方法不僅可以縮短藥物研發(fā)周期,降低研發(fā)成本,還能促進新藥物的發(fā)現。
技術實現思路
1、本發(fā)明提出了一種基于圖注意力網絡的疾病相關pirna分類方法,該方法對原始數據進行預處理后直接輸入到深層架構,使用圖注意力網絡處理圖結構數據,并應用參數值為450的swish激活函數緩解梯度消失問題。
2、一種基于圖注意力網絡的疾病相關pirna分類方法,包括數據預處理、圖注意力網絡訓練、加載并分類數據三個步驟,具體步驟如下:
3、步驟1、使用數據加載函數,得到鄰接矩陣a、節(jié)點特征x;進行數據完整性檢查,確保所有必要的數據組件均已正確加載且未損壞;對鄰接矩陣添加自環(huán)處理,即在每個節(jié)點對應的對角線位置上加上1;直接將原始數據特征送入深層架構進行特征提取和分類。
4、步驟2、定義一個包含兩個圖注意力層的深層架構,第一個圖注意力層應用參數值為450的swish激活函數,第二個圖注意力層使用softmax?激活函數,對輸入值進行非線性映射和平滑梯度處理;在圖注意力層中對權重矩陣和注意力機制的權重應用l2正則化;在每個圖注意力層之后配置dropout層;利用預先訓練好的模型權重來初始化圖注意力層,然后進行訓練并保存訓練好的模型。
5、步驟3、通過步驟1定義的數據加載函數加載數據,并預處理;將預處理后的數據輸入步驟2中訓練好的模型,并將模型輸出的分類概率轉換為具體的類別標簽;最后,分析和解釋每個pirna分類結果。
6、一種基于圖注意力網絡的疾病相關pirna分類方法,步驟1的實現過程如下:
7、使用load_data函數加載圖數據集,返回鄰接矩陣a、節(jié)點特征x以及訓練、驗證和測試標簽y_train、y_val、y_test,以及對應的索引idx_train、idx_val、idx_test。鄰接矩陣a是一個形狀為?( n, n)?的方陣,其中 n是圖中節(jié)點的數量,矩陣中的每個元素a[ i][ j]表示節(jié)點 i和節(jié)點 j之間是否存在邊;對數據進行完整性檢查,確保所有必要的數據組件均已正確加載且未損壞;為了讓模型在處理每個節(jié)點時能夠考慮到節(jié)點自身的特征,對鄰接矩陣添加自環(huán)處理,即在每個節(jié)點對應的對角線位置上加上1,即a=a+;表示鄰接矩陣添加的自環(huán);分配訓練集、驗證集和測試集的標簽以及構建相應的索引;預處理后直接將原始數據特征送入深層架構進行特征提取和分類。
8、一種基于圖注意力網絡的疾病相關pirna分類方法,步驟2的實現過程如下:
9、定義一個包含兩個圖注意力層的深層架構,其中第一圖注意力層接收每個節(jié)點的特征向量,記為x_in;該層包含attn_heads個注意力頭,每個頭的輸出特征維度為8;并通過參數值為450的swish激活函數進行非線性變換,對輸入值進行非線性映射和平滑梯度處理,同時應用l2正則化進行權重衰減;第一個圖注意力層的輸出經過dropout處理后,送入第二個圖注意力層;第二個圖注意力層接收鄰接矩陣,通過注意力機制來加權鄰接節(jié)點的特征以捕捉節(jié)點間的復雜依賴關系。最后,采用softmax激活函數,輸出每個節(jié)點屬于兩個類別的概率分布;同樣使用l2正則化,防止模型過擬合;利用預先訓練好的模型權重來初始化圖注意力層,然后進行訓練并保存訓練好的模型,以便進行后續(xù)的分類任務。
10、一種基于圖注意力網絡的疾病相關pirna分類方法,步驟3的實現過程如下:
11、對新的pirna數據進行分類,首先通過步驟1中的load_data函數加載數據,這包括每個pirna的鄰接矩陣a、特征矩陣x。在數據預處理階段,對鄰接矩陣a添加自環(huán)以增強模型對節(jié)點自身特征的關注;加載步驟2中保存的模型;將預處理后的數據輸入模型,模型輸出每個pirna的分類概率,最終根據這些概率確定每個pirna的最終分類結果。
1.一種基于圖注意力網絡的疾病相關pirna分類方法,其特征在于,對原始數據進行預處理后直接輸入到深層架構,使用圖注意力網絡處理圖結構數據,并應用參數值為450的swish激活函數緩解梯度消失問題,包括數據預處理、圖注意力網絡訓練、加載并分類數據三個步驟,其具體步驟如下: