一種基于多尺度卷積網(wǎng)絡(luò)和gMLP預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法

文檔序號(hào)：39620033發(fā)布日期：2024-10-11 13:37閱讀：19來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

本發(fā)明涉及生物信息，尤其涉及一種基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法。

背景技術(shù)：

1、玉米作為世界上最重要的糧食作物之一，其產(chǎn)量和品質(zhì)對(duì)于全球糧食安全具有重大意義。然而，玉米的遺傳機(jī)制復(fù)雜，許多與產(chǎn)量、品質(zhì)、抗逆性等關(guān)鍵性狀相關(guān)的基因調(diào)控機(jī)制尚未被完全揭示。染色質(zhì)開放區(qū)作為基因表達(dá)調(diào)控的重要部分，其準(zhǔn)確預(yù)測(cè)對(duì)于理解玉米的遺傳機(jī)制以及田間育種具有重要意義。染色質(zhì)開放區(qū)是指染色質(zhì)中相對(duì)松散、易于轉(zhuǎn)錄因子結(jié)合的區(qū)域，這些區(qū)域通常與基因的表達(dá)水平相關(guān)聯(lián)。準(zhǔn)確識(shí)別玉米染色質(zhì)開放區(qū)有助于理解基因表達(dá)調(diào)控的分子機(jī)制，進(jìn)而為解析玉米復(fù)雜性狀的遺傳基礎(chǔ)提供理論依據(jù)。

2、近年來，深度學(xué)習(xí)在生物信息學(xué)領(lǐng)域得到廣泛應(yīng)用，其強(qiáng)大的特征學(xué)習(xí)和表示能力為復(fù)雜生物數(shù)據(jù)的處理和分析提供了新的手段。深度學(xué)習(xí)模型能夠從大量數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征，并通過多層次的非線性變換挖掘數(shù)據(jù)中的深層信息。因此，將深度學(xué)習(xí)應(yīng)用于玉米染色質(zhì)開放區(qū)的預(yù)測(cè)，有望提高預(yù)測(cè)的準(zhǔn)確性和效率，進(jìn)而便于分析玉米不同組織和品種間的保守性和特異性。

3、然而，目前基于深度學(xué)習(xí)的玉米染色質(zhì)開放區(qū)預(yù)測(cè)方法仍處于起步階段，尚未形成完善的技術(shù)體系。現(xiàn)有的方法一方面基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法，如支持向量機(jī)、隨機(jī)森林等，這些方法在特征提取和模型構(gòu)建上存在一定的局限性，導(dǎo)致序列信息挖掘不全面。另一方面，現(xiàn)有方法利用的深度學(xué)習(xí)算法較為簡(jiǎn)單，例如charplant,basset,smoc等，這些方法不能較好地綜合序列信息，進(jìn)而影響預(yù)測(cè)準(zhǔn)確性。因此，開發(fā)具有較高準(zhǔn)確率的玉米染色質(zhì)開放區(qū)預(yù)測(cè)方法具有重要的研究意義。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要解決的技術(shù)問題在于針對(duì)現(xiàn)有技術(shù)中的缺陷，提供一種基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法。

2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是：

3、本發(fā)明提供一種基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法，通過該方法構(gòu)建deepocr模型，包括輸入層、多尺度卷積網(wǎng)絡(luò)層、gmlp層以及輸出層；該方法具體包括以下步驟：

4、步驟1，輸入層中，獲取玉米染色質(zhì)的atac-seq數(shù)據(jù)，采用one-hot編碼方式對(duì)atac-seq數(shù)據(jù)進(jìn)行處理，得到矩陣后輸入多尺度卷積網(wǎng)絡(luò)層；

5、步驟2，利用多尺度卷積網(wǎng)絡(luò)層中不同大小的卷積核關(guān)注并融合多尺度特征和捕獲不同長(zhǎng)度的重要基序，并利用softpool去除大量冗余信息的同時(shí)減少信息損失；將多尺度卷積網(wǎng)絡(luò)層的輸出作為gmlp層的輸入；

6、步驟3，gmlp層將多尺度卷積網(wǎng)絡(luò)層的輸出作為其輸入，用于捕獲跨token的復(fù)雜空間交互信息，從而得到序列中特征間的長(zhǎng)距離依賴關(guān)系；gmlp層包括層歸一化、三層gmlpblocks和類殘差結(jié)構(gòu)；

7、步驟4，將gmlp層的輸出特征為輸出層的輸入，然后通過一次layernormalization和兩層全連接層可以學(xué)習(xí)到gmlp特征的復(fù)雜組合，增強(qiáng)模型的表達(dá)能力，實(shí)現(xiàn)對(duì)玉米染色質(zhì)開放區(qū)特征的分類；

8、步驟5，利用衡量目標(biāo)標(biāo)簽值和預(yù)測(cè)的概率值之間差異的二進(jìn)制交叉熵?fù)p失函數(shù)bceloss計(jì)算網(wǎng)絡(luò)損失，并利用優(yōu)化的梯度算法adamw更新參數(shù)，其將權(quán)重衰減項(xiàng)直接添加到損失函數(shù)中，確保在自適應(yīng)學(xué)習(xí)率更新過程中更加準(zhǔn)確地調(diào)整參數(shù)。

9、進(jìn)一步地，本發(fā)明的所述步驟1中的方法包括：

10、將測(cè)序得到的玉米染色質(zhì)開放區(qū)域數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分等處理，并以1000bp的序列長(zhǎng)度作為模型的輸入；然后對(duì)序列進(jìn)行one-hot?encoding，將堿基a轉(zhuǎn)換為[1,0,0,0]，將堿基t轉(zhuǎn)換為[0,1,0,0]，將堿基c轉(zhuǎn)換為[0,0,1,0]，將堿基g轉(zhuǎn)換為[0,0,0,1]，進(jìn)而得到1000*4的one-hot?encoded矩陣，將該矩陣輸入到多尺度卷積層進(jìn)行下一步處理。

11、進(jìn)一步地，本發(fā)明的所述步驟2中的方法包括：

12、多尺度卷積網(wǎng)絡(luò)層包括：多個(gè)不同大小的卷積核、激活函數(shù)、softpool、batchnormalization和dropout；其中：各個(gè)不同大小的卷積核分別連接一個(gè)激活函數(shù)和一個(gè)softpool；然后多個(gè)softpool的輸出端相加融合后依次連接至batch?normalization和dropout；多尺度卷積網(wǎng)絡(luò)層中的卷積運(yùn)算通過卷積核提取關(guān)鍵數(shù)據(jù)特征，實(shí)現(xiàn)局部感知與降維功能。

13、進(jìn)一步地，本發(fā)明的所述步驟2中的方法包括：

14、卷積操作的具體實(shí)現(xiàn)如下所示：

15、conv(x)i，j＝∑m∑nx(m*s，n*s)*wk(i-m，j-n)

16、其中，i,j是輸出位置索引，k是核索引，m和n是卷積核中的索引變量；卷積核以步長(zhǎng)s在特征圖上進(jìn)行滑動(dòng)，在每個(gè)位置(i,j)，通過對(duì)特征圖和卷積核逐元素相乘，然后對(duì)所有乘積求和，從而輸出特征圖中該位置上的值；為了能夠同時(shí)感知和提取不同尺度的特征，使用不同尺度的卷積核實(shí)現(xiàn)多尺度卷積；

17、激活函數(shù)relu用于學(xué)習(xí)特征之間的非線性關(guān)系，表達(dá)式如下所示：

18、relu(x)＝max(0,x)

19、基于softmax函數(shù)，softpool通過突出影響大的激活值而非直接選擇最大值或平均值，使輸出服從一定的概率分布；softpool的表達(dá)式如下所示：

20、

21、其中，i是原始特征圖位置索引，j是池化權(quán)值索引；輸入序列分別經(jīng)過不同尺度的卷積、relu和softpool操作之后，對(duì)其進(jìn)行相加以融合提取出的重要特征；

22、為了提高訓(xùn)練速度和模型的穩(wěn)定性，在多尺度卷積層中間加入批量歸一化操作batch?normalization，其表達(dá)式如下所示：

23、

24、其中，μ,σ2是全局均值和方差，γ和β是可學(xué)習(xí)的參數(shù)，用于特征縮放和平移操作，ε是一個(gè)小常數(shù)，用于穩(wěn)定數(shù)值，避免出現(xiàn)除以零的情況；

25、dropout操作以概率p將部分神經(jīng)網(wǎng)絡(luò)單元的激活值變?yōu)?，即不更新權(quán)重，以減少中間特征的數(shù)量，從而增加每層各個(gè)特征之間的正交性，防止過擬合。

26、進(jìn)一步地，本發(fā)明的所述步驟3中的gmlpblocks包含一個(gè)微型attention模塊，用于捕獲特征間長(zhǎng)距離依賴關(guān)系；將gmlpblocks的輸出與gmlp層的輸入合并，作為gmlp層的輸出，進(jìn)而實(shí)現(xiàn)了維持網(wǎng)絡(luò)性能的殘差結(jié)構(gòu)。

27、進(jìn)一步地，本發(fā)明的所述步驟3中的方法包括：

28、gmlp層包括若干個(gè)大小和結(jié)構(gòu)相同的blocks，基于帶門控的mlps；在空間而非通道維度上，gmlp層捕獲跨token的復(fù)雜空間交互信息；對(duì)模塊輸入x進(jìn)行patches?embedding操作，整個(gè)gmlp層的表達(dá)式如下所示：

29、y＝norm(x)

30、y＝gmlpblocks(y)

31、z＝y(tǒng)+x

32、其中，norm指layer?normalization；

33、為了增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)效果，共使用3層gmlpblocks；blocks中具有一個(gè)微型attention模塊，用于捕獲特征間的長(zhǎng)距離依賴關(guān)系；attention機(jī)制的表達(dá)式如下所示：

34、

35、通過對(duì)輸入序列進(jìn)行線性變換得到查詢向量query，鍵向量key，值向量value；sij用于計(jì)算q,k間的相似度，進(jìn)而計(jì)算每個(gè)注意力權(quán)重，然后與v進(jìn)行加權(quán)求和；

36、與attention并行的部分，稱之為proj_in，由全連接層和激活函數(shù)gelu實(shí)現(xiàn)，用于對(duì)輸入進(jìn)行通道投影映射操作；gelu在激活中引入了隨機(jī)正則，是一種對(duì)神經(jīng)元輸入的概率描述，認(rèn)為是dropout,zoneout和relu的綜合功能實(shí)現(xiàn)；gelu表達(dá)式如下所示：

37、gelu(x)＝xp(x＜＝x)＝xφ(x)

38、其中，φ(x)是正態(tài)分布的概率函數(shù)，采用標(biāo)準(zhǔn)正態(tài)分布n(0,1)；

39、將結(jié)果輸入到gmlp層的核心spatial?gating?unit，spatial?gating?unit只在空間維度上進(jìn)行操作，而不進(jìn)行位置嵌入，從而捕獲空間維度特征的交互；其表達(dá)式如下所示：

40、o＝x1⊙(w(x2+x3)+b)

41、其中，x1,x2是proj_in在通道維度上的分離結(jié)果，x3是attention模塊的結(jié)果，w為空間投影矩陣，b表示特定的token偏差，⊙表示element-wise?multiplication；最后對(duì)spatial?gating?unit的結(jié)果進(jìn)行一次通道維度的映射，得到gmlpblock的輸出；

42、最后，將gmlpblocks的輸出與gmlp的輸入合并，作為gmlp的輸出。

43、進(jìn)一步地，本發(fā)明的所述步驟4中的方法包括：

44、gmlp層的輸出特征z為輸出層的輸入，然后通過一次layer?normalization和兩層全連接層可以學(xué)習(xí)到gmlp特征的復(fù)雜組合，增強(qiáng)模型的表達(dá)能力，具體實(shí)現(xiàn)如下所示：

45、z′＝norm(w1*reduce_dim(z)+b1)

46、output＝sigmoid(relu(w2*z′+b2))

47、其中，全連接層中w1和w2為可訓(xùn)練的權(quán)重矩陣，b1和b2為可訓(xùn)練的偏置向量；

48、最后，使用激活函數(shù)sigmoid獲得染色質(zhì)開放區(qū)特征的概率，取值范圍位于0到1之間；具體實(shí)現(xiàn)下所示：

49、

50、進(jìn)一步地，本發(fā)明的所述步驟5中的方法包括：

51、在求網(wǎng)絡(luò)損失時(shí)，使用衡量目標(biāo)標(biāo)簽值和預(yù)測(cè)的概率值之間差異的二進(jìn)制交叉熵?fù)p失函數(shù)bceloss，如下所示：

52、bceloss＝-w*[p*log(q)+(1-p)*log(1-q)]

53、其中，p為理論標(biāo)簽，取0或1；q為模型輸出預(yù)測(cè)值，取值范圍為[0,1]，w為權(quán)重；對(duì)于每個(gè)樣本，當(dāng)p為1時(shí)，損失值僅為w*log(q)，當(dāng)p為0時(shí)，損失值為w*log(1-q)；最終的損失值由上述兩種情況對(duì)應(yīng)的損失值求和取反得到；

54、利用優(yōu)化的梯度算法adamw更新參數(shù)，其將權(quán)重衰減項(xiàng)直接添加到損失函數(shù)中，以確保在自適應(yīng)學(xué)習(xí)率更新過程中能更加準(zhǔn)確地調(diào)整參數(shù)，具體表達(dá)式如下所示：

55、l2_regularization＝weigt_decay*w

56、w＝w-lr*(m/(sqrt(v)+eps)+l2_regularization)

57、其中，weight_decay是權(quán)重衰減系數(shù)，lr是學(xué)習(xí)率，m是梯度的一階矩估計(jì)，v是梯度的二階矩估計(jì)；eps是一個(gè)小的常數(shù)，用于增加數(shù)值穩(wěn)定性。

58、本發(fā)明提供一種基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的系統(tǒng)，該系統(tǒng)中構(gòu)建了deepocr模型，包括數(shù)據(jù)輸入模塊、多尺度卷積網(wǎng)絡(luò)模塊、gmlp模塊以及數(shù)據(jù)輸出模塊；具體包括：

59、數(shù)據(jù)輸入模塊，用于獲取玉米染色質(zhì)的atac-seq數(shù)據(jù)，采用one-hot編碼方式對(duì)atac-seq數(shù)據(jù)進(jìn)行處理，得到矩陣后輸入多尺度卷積網(wǎng)絡(luò)層；

60、多尺度卷積網(wǎng)絡(luò)模塊，用于利用多尺度卷積網(wǎng)絡(luò)層中不同大小的卷積核關(guān)注并融合多尺度特征和捕獲不同長(zhǎng)度的重要基序，并利用softpool去除大量冗余信息的同時(shí)減少信息損失；將多尺度卷積網(wǎng)絡(luò)層的輸出作為gmlp層的輸入；

61、gmlp模塊，用于將多尺度卷積網(wǎng)絡(luò)層的輸出作為其輸入，捕獲跨token的復(fù)雜空間交互信息，從而得到序列中特征間的長(zhǎng)距離依賴關(guān)系；gmlp模塊包括層歸一化、三層gmlpblocks和類殘差結(jié)構(gòu)；

62、數(shù)據(jù)輸出模塊，用于將gmlp層輸出特征為數(shù)據(jù)輸出模塊的輸入，然后通過一次layer?normalization和兩層全連接層可以學(xué)習(xí)到gmlp特征的復(fù)雜組合，增強(qiáng)模型的表達(dá)能力，實(shí)現(xiàn)對(duì)玉米染色質(zhì)開放區(qū)特征的分類；

63、模型參數(shù)更新模塊，用于利用衡量目標(biāo)標(biāo)簽值和預(yù)測(cè)的概率值之間差異的二進(jìn)制交叉熵?fù)p失函數(shù)bceloss計(jì)算網(wǎng)絡(luò)損失，并利用優(yōu)化的梯度算法adamw更新參數(shù)，其將權(quán)重衰減項(xiàng)直接添加到損失函數(shù)中，確保在自適應(yīng)學(xué)習(xí)率更新過程中更加準(zhǔn)確地調(diào)整參數(shù)。

64、進(jìn)一步地，本發(fā)明的所述多尺度卷積網(wǎng)絡(luò)模塊包括：多個(gè)不同大小的卷積核、激活函數(shù)、softpool、batch?normalization和dropout；其中：各個(gè)不同大小的卷積核分別連接一個(gè)激活函數(shù)和一個(gè)softpool；然后多個(gè)softpool的輸出端相加融合后依次連接至batchnormalization和dropout。

65、本發(fā)明產(chǎn)生的有益效果是：

66、本發(fā)明給出了一種融合多尺度卷積和gmlp的深度學(xué)習(xí)方法，用于學(xué)習(xí)玉米dna序列的特征以實(shí)現(xiàn)對(duì)玉米染色質(zhì)開放區(qū)的預(yù)測(cè)。本發(fā)明提供的技術(shù)方案如圖1所示。

67、本發(fā)明首先對(duì)處理后的atac-seq數(shù)據(jù)進(jìn)行one-hot編碼。然后使用多尺度卷積網(wǎng)絡(luò)通過不同大小的卷積核提取并融合序列的局部特征。其中，利用softpool減少特征圖中的信息損失，使用batch?normalization和dropout防止過擬合現(xiàn)象發(fā)生。同時(shí)，長(zhǎng)度為8和13的卷積核能夠捕獲長(zhǎng)度不同的重要基序。然后使用基于空間投影實(shí)現(xiàn)門控機(jī)制的gmlp捕獲特征間的全局依賴關(guān)系，其中的attention機(jī)制有助于增強(qiáng)門控能力。最后利用全連接層和sigmoid函數(shù)實(shí)現(xiàn)對(duì)玉米染色質(zhì)開放區(qū)域的預(yù)測(cè)。

68、本發(fā)明提出了基于多尺度卷積網(wǎng)絡(luò)和gmlp預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法deepocr。玉米b73品種共包含ear,leaf,flower,root,tassel五個(gè)組織。與現(xiàn)有模型相比，deepocr分別在五個(gè)組織以及整體上的av_auroc和av_aupr值表現(xiàn)最優(yōu)。同時(shí)，deepocr的auroc的標(biāo)準(zhǔn)差最低，說明deepocr在玉米染色質(zhì)開放區(qū)預(yù)測(cè)方面具有更高的準(zhǔn)確性和更強(qiáng)的穩(wěn)定性。此外，利用每個(gè)組織訓(xùn)練好的模型預(yù)測(cè)其他四個(gè)組織對(duì)應(yīng)的開放區(qū)，發(fā)現(xiàn)利用flower組織的模型預(yù)測(cè)其他四個(gè)組織開放區(qū)的準(zhǔn)確性最高，其中在tassel組織中表現(xiàn)最為顯著。對(duì)于ear組織，leaf和root對(duì)應(yīng)的模型預(yù)測(cè)結(jié)果較為相近。對(duì)于leaf組織，root和tassel對(duì)應(yīng)的模型預(yù)測(cè)結(jié)果相近。ear和leaf對(duì)應(yīng)的模型在其他三個(gè)組織中的表現(xiàn)都不如其他模型，這為玉米b73組織間的保守性和特異性提供了參考。進(jìn)一步地，利用deepocr探究了不同品種間的親緣性和遺傳多樣性，以及不同物種同一組織間的相似性和差異性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉建曉,姚州,張文婧,任禹齊,袁豪
技術(shù)所有人：華中農(nóng)業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評(píng)價(jià)及糖類疫苗的研制 2.功能糖類的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評(píng)價(jià) 3.中藥組方配伍機(jī)制研究
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于多尺度卷積網(wǎng)絡(luò)和gMLP預(yù)測(cè)玉米染色質(zhì)開放區(qū)的方法