本發(fā)明涉及rna亞細(xì)胞定位,尤其涉及一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法。
背景技術(shù):
1、rna分子的亞細(xì)胞定位是指rna分子在細(xì)胞內(nèi)的具體位置分布。rna分子作為基因表達(dá)的重要調(diào)控因子,在細(xì)胞內(nèi)的定位對(duì)于基因表達(dá)的調(diào)控和細(xì)胞的正常功能至關(guān)重要。rna根據(jù)其功能和結(jié)構(gòu)可分為不同種類的rna類型,其中mrna和lncrna是兩種重要的rna。mrna在細(xì)胞質(zhì)中的核糖體上被翻譯成蛋白質(zhì),這些蛋白質(zhì)是細(xì)胞結(jié)構(gòu)和功能的關(guān)鍵組成部分,參與細(xì)胞的幾乎所有生化過程。lncrna則在細(xì)胞核中聚集,與染色質(zhì)互動(dòng),調(diào)節(jié)基因表達(dá),參與細(xì)胞周期、分化、代謝和疾病發(fā)展。對(duì)mrna和lncrna等其他類型的rna亞細(xì)胞定位對(duì)細(xì)胞命運(yùn)和性質(zhì)具有決定性影響。目前,多種基于實(shí)驗(yàn)的定位方法已被應(yīng)用于研究rna的亞細(xì)胞定位,但是這些基于實(shí)驗(yàn)的方法通常耗時(shí)較久且受實(shí)驗(yàn)條件影響干擾較大,定位準(zhǔn)確性較差。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中所存在的不足,本發(fā)明提供了一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法,其解決了目前的基于實(shí)驗(yàn)的rna亞細(xì)胞定位方法通常耗時(shí)較久且受實(shí)驗(yàn)條件影響干擾較大,定位準(zhǔn)確性較差的問題。
2、本發(fā)明的上述技術(shù)目的是通過以下技術(shù)方案得以實(shí)現(xiàn)的:
3、一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法,包括以下部分:
4、建立lncrna和mrna數(shù)據(jù)集,對(duì)lncrna和mrna數(shù)據(jù)集進(jìn)行預(yù)處理,篩選并清洗數(shù)據(jù);
5、進(jìn)行特征提取,并分別輸入到神經(jīng)網(wǎng)絡(luò)的各個(gè)位置;特征包括one-hot編碼、eiip編碼、ncp編碼、位置編碼及rna-fm編碼,可綜合序列物理化學(xué)屬性和rna-fm模型通過自監(jiān)督學(xué)習(xí)得到深層次特征;
6、訓(xùn)練網(wǎng)絡(luò)框架,采用二路并行策略分別對(duì)rna-fm輸出的特征以及基礎(chǔ)序列特征進(jìn)行訓(xùn)練,依次經(jīng)過lightning?attention?transformer模塊、textcnn-senet模塊和mlp模塊輸出預(yù)測結(jié)果。
7、進(jìn)一步地,所述lncrna數(shù)據(jù)集包括lncatlas、cefra-seq和apex-seq,所述mrna數(shù)據(jù)集的數(shù)據(jù)源自cefra-seq和apex-seq;通過采取多種過濾策略,以從rna數(shù)據(jù)集中準(zhǔn)確篩選出定位于細(xì)胞核或細(xì)胞質(zhì)的rna。
8、進(jìn)一步地,對(duì)lncrna和mrna數(shù)據(jù)集進(jìn)行預(yù)處理時(shí),設(shè)定lncrna統(tǒng)一長度為3000個(gè)核苷酸,mrna統(tǒng)一長度為6000個(gè)核苷酸。
9、進(jìn)一步地,在特征提取階段,采用預(yù)訓(xùn)練模型rna-fm對(duì)rna序列進(jìn)行編碼,以提取豐富的隱含信息;基礎(chǔ)序列編碼模塊表示使用onehot、eiip和ncp三種編碼方式來對(duì)rna序列進(jìn)行編碼。
10、進(jìn)一步地,在textcnn-senet模塊中,在textcnn模塊的卷積層和最大池化層之間插入了senet模塊,以自適應(yīng)地調(diào)整特征通道的權(quán)重,從而進(jìn)一步捕捉重要的特征信息。
11、進(jìn)一步地,lightning?attention?transformer模塊采用lightning?attention-2來有效處理長序列數(shù)據(jù),此架構(gòu)針對(duì)于rna亞細(xì)胞定位的預(yù)測任務(wù),通過編碼器層的堆疊以捕捉序列的特性。
12、進(jìn)一步地,所述se-textcnn為在textcnn中集成senet以增強(qiáng)模型的特征提取和表示能力。
13、本發(fā)明具有以下有益效果:
14、本發(fā)明提供了一種基于改進(jìn)transformer架構(gòu)的深度學(xué)習(xí)模型——latnet,本發(fā)明的方法對(duì)lncrna和mrna數(shù)據(jù)集進(jìn)行預(yù)處理,運(yùn)用多種過濾策略篩選并清洗數(shù)據(jù),保證了輸入數(shù)據(jù)的質(zhì)量。并且采用了one-hot編碼、eiip編碼、ncp編碼、位置編碼及rna-fm五種編碼,可綜合序列物理化學(xué)屬性和rna-fm模型通過自監(jiān)督學(xué)習(xí)得到深層次特征。在訓(xùn)練網(wǎng)絡(luò)框架上,設(shè)計(jì)了一種雙路并行結(jié)構(gòu),一路采用基于rna-fm模型提取特征,另一路處理基礎(chǔ)序列特征;并通過改進(jìn)注意力機(jī)制的tramsformer和se-textcnn結(jié)構(gòu)相結(jié)合,有效增強(qiáng)了對(duì)長序列的處理能力和對(duì)關(guān)鍵特征的識(shí)別,有效提高了rna亞細(xì)胞定位的預(yù)測精度。latnet在lncrna和mrna數(shù)據(jù)集上的表現(xiàn)超越了多個(gè)現(xiàn)有的預(yù)測方法,特別是在accuracy、mcc和f1-score等評(píng)價(jià)指標(biāo)上取得了顯著提升。此外,模型在snorna、snrna、circrna和cirna等其他類型的rna數(shù)據(jù)集上也展現(xiàn)了魯棒的泛化性能。此外,本申請(qǐng)進(jìn)一步分析了latnet模型的關(guān)鍵特征,揭示了對(duì)rna亞細(xì)胞定位具有重要影響的核苷酸組合。這一發(fā)現(xiàn)不僅為理解rna的功能和調(diào)控機(jī)制提供了新的視角,也為未來的生物學(xué)研究和應(yīng)用提供了寶貴的信息。
1.一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法,其特征在于:包括以下部分:
2.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法,其特征在于:所述lncrna數(shù)據(jù)集包括lncatlas、cefra-seq和apex-seq,所述mrna數(shù)據(jù)集的數(shù)據(jù)源自cefra-seq和apex-seq;通過采取多種過濾策略,以從rna數(shù)據(jù)集中準(zhǔn)確篩選出定位于細(xì)胞核或細(xì)胞質(zhì)的rna。
3.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法,其特征在于:對(duì)lncrna和mrna數(shù)據(jù)集進(jìn)行預(yù)處理時(shí),設(shè)定lncrna統(tǒng)一長度為3000個(gè)核苷酸,mrna統(tǒng)一長度為6000個(gè)核苷酸。
4.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法,其特征在于:在特征提取階段,采用預(yù)訓(xùn)練模型rna-fm對(duì)rna序列進(jìn)行編碼,以提取豐富的隱含信息;基礎(chǔ)序列編碼模塊表示使用onehot、eiip和ncp三種編碼方式來對(duì)rna序列進(jìn)行編碼。
5.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法,其特征在于:在textcnn-senet模塊中,在textcnn模塊的卷積層和最大池化層之間插入了senet模塊,以自適應(yīng)地調(diào)整特征通道的權(quán)重,從而進(jìn)一步捕捉重要的特征信息。
6.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法,其特征在于:lightning?attention?transformer模塊采用lightning?attention-2來有效處理長序列數(shù)據(jù),此架構(gòu)針對(duì)于rna亞細(xì)胞定位的預(yù)測任務(wù),通過編碼器層的堆疊以捕捉序列的特性。
7.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)transformer和se-textcnn的rna亞細(xì)胞定位預(yù)測方法,其特征在于:所述se-textcnn為在textcnn中集成senet以增強(qiáng)模型的特征提取和表示能力。