本發(fā)明涉及生物信息,尤其涉及一種基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法。
背景技術(shù):
1、玉米作為世界上最重要的糧食作物之一,其產(chǎn)量和品質(zhì)對(duì)于全球糧食安全具有重大意義。然而,玉米的遺傳機(jī)制復(fù)雜,許多與產(chǎn)量、品質(zhì)、抗逆性等關(guān)鍵性狀相關(guān)的基因調(diào)控機(jī)制尚未被完全揭示。染色質(zhì)開放區(qū)作為基因表達(dá)調(diào)控的重要部分,其準(zhǔn)確預(yù)測(cè)對(duì)于理解玉米的遺傳機(jī)制以及田間育種具有重要意義。染色質(zhì)開放區(qū)是指染色質(zhì)中相對(duì)松散、易于轉(zhuǎn)錄因子結(jié)合的區(qū)域,這些區(qū)域通常與基因的表達(dá)水平相關(guān)聯(lián)。準(zhǔn)確識(shí)別玉米染色質(zhì)開放區(qū)有助于理解基因表達(dá)調(diào)控的分子機(jī)制,進(jìn)而為解析玉米復(fù)雜性狀的遺傳基礎(chǔ)提供理論依據(jù)。
2、近年來,深度學(xué)習(xí)在生物信息學(xué)領(lǐng)域得到廣泛應(yīng)用,其強(qiáng)大的特征學(xué)習(xí)和表示能力為復(fù)雜生物數(shù)據(jù)的處理和分析提供了新的手段。深度學(xué)習(xí)模型能夠從大量數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,并通過多層次的非線性變換挖掘數(shù)據(jù)中的深層信息。因此,將深度學(xué)習(xí)應(yīng)用于玉米染色質(zhì)開放區(qū)的預(yù)測(cè),有望提高預(yù)測(cè)的準(zhǔn)確性和效率,進(jìn)而便于分析玉米不同組織和品種間的保守性和特異性。
3、然而,目前基于深度學(xué)習(xí)的玉米染色質(zhì)開放區(qū)預(yù)測(cè)方法仍處于起步階段,尚未形成完善的技術(shù)體系。現(xiàn)有的方法一方面基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,如支持向量機(jī)、隨機(jī)森林等,這些方法在特征提取和模型構(gòu)建上存在一定的局限性,導(dǎo)致序列信息挖掘不全面。另一方面,現(xiàn)有方法利用的深度學(xué)習(xí)算法較為簡(jiǎn)單,例如charplant,basset,smoc等,這些方法不能較好地綜合序列信息,進(jìn)而影響預(yù)測(cè)準(zhǔn)確性。因此,開發(fā)具有較高準(zhǔn)確率的玉米染色質(zhì)開放區(qū)預(yù)測(cè)方法具有重要的研究意義。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題在于針對(duì)現(xiàn)有技術(shù)中的缺陷,提供一種基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法。
2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
3、本發(fā)明提供一種基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法,通過該方法構(gòu)建deepocr模型,包括輸入層、多尺度卷積網(wǎng)絡(luò)層、gmlp層以及輸出層;該方法具體包括以下步驟:
4、步驟1,輸入層中,獲取玉米染色質(zhì)的atac-seq數(shù)據(jù),采用one-hot編碼方式對(duì)atac-seq數(shù)據(jù)進(jìn)行處理,得到矩陣后輸入多尺度卷積網(wǎng)絡(luò)層;
5、步驟2,利用多尺度卷積網(wǎng)絡(luò)層中不同大小的卷積核關(guān)注并融合多尺度特征和捕獲不同長(zhǎng)度的重要基序,并利用softpool去除大量冗余信息的同時(shí)減少信息損失;將多尺度卷積網(wǎng)絡(luò)層的輸出作為gmlp層的輸入;
6、步驟3,gmlp層將多尺度卷積網(wǎng)絡(luò)層的輸出作為其輸入,用于捕獲跨token的復(fù)雜空間交互信息,從而得到序列中特征間的長(zhǎng)距離依賴關(guān)系;gmlp層包括層歸一化、三層gmlpblocks和類殘差結(jié)構(gòu);
7、步驟4,將gmlp層的輸出特征為輸出層的輸入,然后通過一次layernormalization和兩層全連接層可以學(xué)習(xí)到gmlp特征的復(fù)雜組合,增強(qiáng)模型的表達(dá)能力,實(shí)現(xiàn)對(duì)玉米染色質(zhì)開放區(qū)特征的分類;
8、步驟5,利用衡量目標(biāo)標(biāo)簽值和預(yù)測(cè)的概率值之間差異的二進(jìn)制交叉熵?fù)p失函數(shù)bceloss計(jì)算網(wǎng)絡(luò)損失,并利用優(yōu)化的梯度算法adamw更新參數(shù),其將權(quán)重衰減項(xiàng)直接添加到損失函數(shù)中,確保在自適應(yīng)學(xué)習(xí)率更新過程中更加準(zhǔn)確地調(diào)整參數(shù)。
9、進(jìn)一步地,本發(fā)明的所述步驟1中的方法包括:
10、將測(cè)序得到的玉米染色質(zhì)開放區(qū)域數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分等處理,并以1000bp的序列長(zhǎng)度作為模型的輸入;然后對(duì)序列進(jìn)行one-hot?encoding,將堿基a轉(zhuǎn)換為[1,0,0,0],將堿基t轉(zhuǎn)換為[0,1,0,0],將堿基c轉(zhuǎn)換為[0,0,1,0],將堿基g轉(zhuǎn)換為[0,0,0,1],進(jìn)而得到1000*4的one-hot?encoded矩陣,將該矩陣輸入到多尺度卷積層進(jìn)行下一步處理。
11、進(jìn)一步地,本發(fā)明的所述步驟2中的方法包括:
12、多尺度卷積網(wǎng)絡(luò)層包括:多個(gè)不同大小的卷積核、激活函數(shù)、softpool、batchnormalization和dropout;其中:各個(gè)不同大小的卷積核分別連接一個(gè)激活函數(shù)和一個(gè)softpool;然后多個(gè)softpool的輸出端相加融合后依次連接至batch?normalization和dropout;多尺度卷積網(wǎng)絡(luò)層中的卷積運(yùn)算通過卷積核提取關(guān)鍵數(shù)據(jù)特征,實(shí)現(xiàn)局部感知與降維功能。
13、進(jìn)一步地,本發(fā)明的所述步驟2中的方法包括:
14、卷積操作的具體實(shí)現(xiàn)如下所示:
15、conv(x)i,j=∑m∑nx(m*s,n*s)*wk(i-m,j-n)
16、其中,i,j是輸出位置索引,k是核索引,m和n是卷積核中的索引變量;卷積核以步長(zhǎng)s在特征圖上進(jìn)行滑動(dòng),在每個(gè)位置(i,j),通過對(duì)特征圖和卷積核逐元素相乘,然后對(duì)所有乘積求和,從而輸出特征圖中該位置上的值;為了能夠同時(shí)感知和提取不同尺度的特征,使用不同尺度的卷積核實(shí)現(xiàn)多尺度卷積;
17、激活函數(shù)relu用于學(xué)習(xí)特征之間的非線性關(guān)系,表達(dá)式如下所示:
18、relu(x)=max(0,x)
19、基于softmax函數(shù),softpool通過突出影響大的激活值而非直接選擇最大值或平均值,使輸出服從一定的概率分布;softpool的表達(dá)式如下所示:
20、
21、其中,i是原始特征圖位置索引,j是池化權(quán)值索引;輸入序列分別經(jīng)過不同尺度的卷積、relu和softpool操作之后,對(duì)其進(jìn)行相加以融合提取出的重要特征;
22、為了提高訓(xùn)練速度和模型的穩(wěn)定性,在多尺度卷積層中間加入批量歸一化操作batch?normalization,其表達(dá)式如下所示:
23、
24、其中,μ,σ2是全局均值和方差,γ和β是可學(xué)習(xí)的參數(shù),用于特征縮放和平移操作,ε是一個(gè)小常數(shù),用于穩(wěn)定數(shù)值,避免出現(xiàn)除以零的情況;
25、dropout操作以概率p將部分神經(jīng)網(wǎng)絡(luò)單元的激活值變?yōu)?,即不更新權(quán)重,以減少中間特征的數(shù)量,從而增加每層各個(gè)特征之間的正交性,防止過擬合。
26、進(jìn)一步地,本發(fā)明的所述步驟3中的gmlpblocks包含一個(gè)微型attention模塊,用于捕獲特征間長(zhǎng)距離依賴關(guān)系;將gmlpblocks的輸出與gmlp層的輸入合并,作為gmlp層的輸出,進(jìn)而實(shí)現(xiàn)了維持網(wǎng)絡(luò)性能的殘差結(jié)構(gòu)。
27、進(jìn)一步地,本發(fā)明的所述步驟3中的方法包括:
28、gmlp層包括若干個(gè)大小和結(jié)構(gòu)相同的blocks,基于帶門控的mlps;在空間而非通道維度上,gmlp層捕獲跨token的復(fù)雜空間交互信息;對(duì)模塊輸入x進(jìn)行patches?embedding操作,整個(gè)gmlp層的表達(dá)式如下所示:
29、y=norm(x)
30、y=gmlpblocks(y)
31、z=y(tǒng)+x
32、其中,norm指layer?normalization;
33、為了增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)效果,共使用3層gmlpblocks;blocks中具有一個(gè)微型attention模塊,用于捕獲特征間的長(zhǎng)距離依賴關(guān)系;attention機(jī)制的表達(dá)式如下所示:
34、
35、通過對(duì)輸入序列進(jìn)行線性變換得到查詢向量query,鍵向量key,值向量value;sij用于計(jì)算q,k間的相似度,進(jìn)而計(jì)算每個(gè)注意力權(quán)重,然后與v進(jìn)行加權(quán)求和;
36、與attention并行的部分,稱之為proj_in,由全連接層和激活函數(shù)gelu實(shí)現(xiàn),用于對(duì)輸入進(jìn)行通道投影映射操作;gelu在激活中引入了隨機(jī)正則,是一種對(duì)神經(jīng)元輸入的概率描述,認(rèn)為是dropout,zoneout和relu的綜合功能實(shí)現(xiàn);gelu表達(dá)式如下所示:
37、gelu(x)=xp(x<=x)=xφ(x)
38、其中,φ(x)是正態(tài)分布的概率函數(shù),采用標(biāo)準(zhǔn)正態(tài)分布n(0,1);
39、將結(jié)果輸入到gmlp層的核心spatial?gating?unit,spatial?gating?unit只在空間維度上進(jìn)行操作,而不進(jìn)行位置嵌入,從而捕獲空間維度特征的交互;其表達(dá)式如下所示:
40、o=x1⊙(w(x2+x3)+b)
41、其中,x1,x2是proj_in在通道維度上的分離結(jié)果,x3是attention模塊的結(jié)果,w為空間投影矩陣,b表示特定的token偏差,⊙表示element-wise?multiplication;最后對(duì)spatial?gating?unit的結(jié)果進(jìn)行一次通道維度的映射,得到gmlpblock的輸出;
42、最后,將gmlpblocks的輸出與gmlp的輸入合并,作為gmlp的輸出。
43、進(jìn)一步地,本發(fā)明的所述步驟4中的方法包括:
44、gmlp層的輸出特征z為輸出層的輸入,然后通過一次layer?normalization和兩層全連接層可以學(xué)習(xí)到gmlp特征的復(fù)雜組合,增強(qiáng)模型的表達(dá)能力,具體實(shí)現(xiàn)如下所示:
45、z′=norm(w1*reduce_dim(z)+b1)
46、output=sigmoid(relu(w2*z′+b2))
47、其中,全連接層中w1和w2為可訓(xùn)練的權(quán)重矩陣,b1和b2為可訓(xùn)練的偏置向量;
48、最后,使用激活函數(shù)sigmoid獲得染色質(zhì)開放區(qū)特征的概率,取值范圍位于0到1之間;具體實(shí)現(xiàn)下所示:
49、
50、進(jìn)一步地,本發(fā)明的所述步驟5中的方法包括:
51、在求網(wǎng)絡(luò)損失時(shí),使用衡量目標(biāo)標(biāo)簽值和預(yù)測(cè)的概率值之間差異的二進(jìn)制交叉熵?fù)p失函數(shù)bceloss,如下所示:
52、bceloss=-w*[p*log(q)+(1-p)*log(1-q)]
53、其中,p為理論標(biāo)簽,取0或1;q為模型輸出預(yù)測(cè)值,取值范圍為[0,1],w為權(quán)重;對(duì)于每個(gè)樣本,當(dāng)p為1時(shí),損失值僅為w*log(q),當(dāng)p為0時(shí),損失值為w*log(1-q);最終的損失值由上述兩種情況對(duì)應(yīng)的損失值求和取反得到;
54、利用優(yōu)化的梯度算法adamw更新參數(shù),其將權(quán)重衰減項(xiàng)直接添加到損失函數(shù)中,以確保在自適應(yīng)學(xué)習(xí)率更新過程中能更加準(zhǔn)確地調(diào)整參數(shù),具體表達(dá)式如下所示:
55、l2_regularization=weigt_decay*w
56、w=w-lr*(m/(sqrt(v)+eps)+l2_regularization)
57、其中,weight_decay是權(quán)重衰減系數(shù),lr是學(xué)習(xí)率,m是梯度的一階矩估計(jì),v是梯度的二階矩估計(jì);eps是一個(gè)小的常數(shù),用于增加數(shù)值穩(wěn)定性。
58、本發(fā)明提供一種基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的系統(tǒng),該系統(tǒng)中構(gòu)建了deepocr模型,包括數(shù)據(jù)輸入模塊、多尺度卷積網(wǎng)絡(luò)模塊、gmlp模塊以及數(shù)據(jù)輸出模塊;具體包括:
59、數(shù)據(jù)輸入模塊,用于獲取玉米染色質(zhì)的atac-seq數(shù)據(jù),采用one-hot編碼方式對(duì)atac-seq數(shù)據(jù)進(jìn)行處理,得到矩陣后輸入多尺度卷積網(wǎng)絡(luò)層;
60、多尺度卷積網(wǎng)絡(luò)模塊,用于利用多尺度卷積網(wǎng)絡(luò)層中不同大小的卷積核關(guān)注并融合多尺度特征和捕獲不同長(zhǎng)度的重要基序,并利用softpool去除大量冗余信息的同時(shí)減少信息損失;將多尺度卷積網(wǎng)絡(luò)層的輸出作為gmlp層的輸入;
61、gmlp模塊,用于將多尺度卷積網(wǎng)絡(luò)層的輸出作為其輸入,捕獲跨token的復(fù)雜空間交互信息,從而得到序列中特征間的長(zhǎng)距離依賴關(guān)系;gmlp模塊包括層歸一化、三層gmlpblocks和類殘差結(jié)構(gòu);
62、數(shù)據(jù)輸出模塊,用于將gmlp層輸出特征為數(shù)據(jù)輸出模塊的輸入,然后通過一次layer?normalization和兩層全連接層可以學(xué)習(xí)到gmlp特征的復(fù)雜組合,增強(qiáng)模型的表達(dá)能力,實(shí)現(xiàn)對(duì)玉米染色質(zhì)開放區(qū)特征的分類;
63、模型參數(shù)更新模塊,用于利用衡量目標(biāo)標(biāo)簽值和預(yù)測(cè)的概率值之間差異的二進(jìn)制交叉熵?fù)p失函數(shù)bceloss計(jì)算網(wǎng)絡(luò)損失,并利用優(yōu)化的梯度算法adamw更新參數(shù),其將權(quán)重衰減項(xiàng)直接添加到損失函數(shù)中,確保在自適應(yīng)學(xué)習(xí)率更新過程中更加準(zhǔn)確地調(diào)整參數(shù)。
64、進(jìn)一步地,本發(fā)明的所述多尺度卷積網(wǎng)絡(luò)模塊包括:多個(gè)不同大小的卷積核、激活函數(shù)、softpool、batch?normalization和dropout;其中:各個(gè)不同大小的卷積核分別連接一個(gè)激活函數(shù)和一個(gè)softpool;然后多個(gè)softpool的輸出端相加融合后依次連接至batchnormalization和dropout。
65、本發(fā)明產(chǎn)生的有益效果是:
66、本發(fā)明給出了一種融合多尺度卷積和gmlp的深度學(xué)習(xí)方法,用于學(xué)習(xí)玉米dna序列的特征以實(shí)現(xiàn)對(duì)玉米染色質(zhì)開放區(qū)的預(yù)測(cè)。本發(fā)明提供的技術(shù)方案如圖1所示。
67、本發(fā)明首先對(duì)處理后的atac-seq數(shù)據(jù)進(jìn)行one-hot編碼。然后使用多尺度卷積網(wǎng)絡(luò)通過不同大小的卷積核提取并融合序列的局部特征。其中,利用softpool減少特征圖中的信息損失,使用batch?normalization和dropout防止過擬合現(xiàn)象發(fā)生。同時(shí),長(zhǎng)度為8和13的卷積核能夠捕獲長(zhǎng)度不同的重要基序。然后使用基于空間投影實(shí)現(xiàn)門控機(jī)制的gmlp捕獲特征間的全局依賴關(guān)系,其中的attention機(jī)制有助于增強(qiáng)門控能力。最后利用全連接層和sigmoid函數(shù)實(shí)現(xiàn)對(duì)玉米染色質(zhì)開放區(qū)域的預(yù)測(cè)。
68、本發(fā)明提出了基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法deepocr。玉米b73品種共包含ear,leaf,flower,root,tassel五個(gè)組織。與現(xiàn)有模型相比,deepocr分別在五個(gè)組織以及整體上的av_auroc和av_aupr值表現(xiàn)最優(yōu)。同時(shí),deepocr的auroc的標(biāo)準(zhǔn)差最低,說明deepocr在玉米染色質(zhì)開放區(qū)預(yù)測(cè)方面具有更高的準(zhǔn)確性和更強(qiáng)的穩(wěn)定性。此外,利用每個(gè)組織訓(xùn)練好的模型預(yù)測(cè)其他四個(gè)組織對(duì)應(yīng)的開放區(qū),發(fā)現(xiàn)利用flower組織的模型預(yù)測(cè)其他四個(gè)組織開放區(qū)的準(zhǔn)確性最高,其中在tassel組織中表現(xiàn)最為顯著。對(duì)于ear組織,leaf和root對(duì)應(yīng)的模型預(yù)測(cè)結(jié)果較為相近。對(duì)于leaf組織,root和tassel對(duì)應(yīng)的模型預(yù)測(cè)結(jié)果相近。ear和leaf對(duì)應(yīng)的模型在其他三個(gè)組織中的表現(xiàn)都不如其他模型,這為玉米b73組織間的保守性和特異性提供了參考。進(jìn)一步地,利用deepocr探究了不同品種間的親緣性和遺傳多樣性,以及不同物種同一組織間的相似性和差異性。