本發(fā)明涉及生物信息學(xué)和機器學(xué)習(xí)領(lǐng)域,尤其涉及一種基于機器學(xué)習(xí)的水稻基因型與表型關(guān)聯(lián)預(yù)測的方法。
背景技術(shù):
1、在現(xiàn)代農(nóng)業(yè)科學(xué)中,水稻作為全球主要糧食作物之一,水稻的產(chǎn)量和品質(zhì)直接影響著人類的食品安全與營養(yǎng)供應(yīng)。傳統(tǒng)的育種方法依賴于表型觀察和經(jīng)驗積累,耗時且效率低下,而水稻的基因型與表型之間的關(guān)聯(lián)研究有助于揭示遺傳基礎(chǔ),從而為育種提供科學(xué)依據(jù)。隨著基因組學(xué)和生物信息學(xué)的發(fā)展,以及基因組測序技術(shù)的快速進(jìn)步,積累了大量的基因組數(shù)據(jù),結(jié)合機器學(xué)習(xí)的方法來探索基因型與表型之間的關(guān)聯(lián),不僅提高了研究的效率,還能夠為水稻的遺傳改良提供科學(xué)依據(jù),有助于科學(xué)家們在基因組選擇和育種過程中進(jìn)行精確的性狀預(yù)測與篩選,基因型與表型的關(guān)聯(lián)預(yù)測方法必將在水稻育種中發(fā)揮更加重要的作用。
2、綜上,現(xiàn)有的水稻基因型與表型關(guān)聯(lián)預(yù)測的方法存在如下技術(shù)問題:基因型數(shù)據(jù)由于不同基因位點的數(shù)據(jù)分布不均勻或周期性變化而難以準(zhǔn)確捕捉特征信息,尤其是在農(nóng)業(yè)基因型研究中,水稻的基因型數(shù)據(jù)表現(xiàn)出稀疏性,同時,不同基因位點與水稻生長的周期性變化密切相關(guān),且現(xiàn)有特征提取方法難以識別復(fù)雜特征;在農(nóng)業(yè)基因型與表型預(yù)測方面,尤其是水稻育種、抗病性增強和產(chǎn)量優(yōu)化領(lǐng)域,缺少專門針對生物信息學(xué)特征提取與關(guān)聯(lián)預(yù)測的有效方法,在捕捉基因型復(fù)雜模式和表型預(yù)測上存在局限,難以應(yīng)對水稻基因間的復(fù)雜交互特征;在處理特征冗余時表現(xiàn)不足,導(dǎo)致對某些不重要或冗余特征的過度依賴。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種基于機器學(xué)習(xí)的水稻基因型與表型關(guān)聯(lián)預(yù)測的方法,以解決基因型數(shù)據(jù)由于不同基因位點的數(shù)據(jù)分布不均勻或周期性變化而難以準(zhǔn)確捕捉特征信息,尤其是在農(nóng)業(yè)基因型研究中,水稻的基因型數(shù)據(jù)表現(xiàn)出稀疏性,同時,不同基因位點與水稻生長的周期性變化密切相關(guān),且現(xiàn)有特征提取方法難以識別復(fù)雜特征;在農(nóng)業(yè)基因型與表型預(yù)測方面,尤其是水稻育種、抗病性增強和產(chǎn)量優(yōu)化領(lǐng)域,缺少專門針對生物信息學(xué)特征提取與關(guān)聯(lián)預(yù)測的有效方法,在捕捉基因型復(fù)雜模式和表型預(yù)測上存在局限,難以應(yīng)對水稻基因間的復(fù)雜交互特征;在處理特征冗余時表現(xiàn)不足,導(dǎo)致對某些不重要或冗余特征過度依賴的技術(shù)問題。
2、一種基于機器學(xué)習(xí)的水稻基因型與表型關(guān)聯(lián)預(yù)測的方法,包括以下步驟:
3、s1:收集水稻樣本的基因型數(shù)據(jù)和表型數(shù)據(jù),采用動態(tài)特征提取算法生成基因型特征,從而得到基因型特征集合;
4、s2:構(gòu)建基因型與表型關(guān)聯(lián)預(yù)測模型,基于基因型特征集合來預(yù)測表型。
5、優(yōu)選的,所述s1,具體包括:
6、基因型特征的計算公式為:
7、
8、其中,表示第個水稻樣本在第個基因位點的基因型特征的值;表示第個基因位點的基因型特征的權(quán)重;表示第個水稻樣本在第個基因位點的基因型數(shù)據(jù);表示雙曲正切函數(shù);表示第個基因位點在所有水稻樣本中的均值;表示第個基因位點在所有樣本中的標(biāo)準(zhǔn)差;表示正弦函數(shù)。
9、優(yōu)選的,所述s2,具體包括:
10、基因型與表型關(guān)聯(lián)預(yù)測模型通過對基因型特征的學(xué)習(xí)和提取來預(yù)測表型;基因型與表型關(guān)聯(lián)預(yù)測模型包括輸入層、交互特征學(xué)習(xí)層、殘差連接層、動態(tài)特征選擇層和輸出層。
11、優(yōu)選的,所述s2,具體包括:
12、將基因型特征集合作為輸入特征輸入到輸入層;所述交互特征學(xué)習(xí)層引入生物信息學(xué)中的基因交互特征學(xué)習(xí)機制,通過元素級乘積操作,將基因型特征中的每個元素按位相乘,同時,通過外積操作生成一個矩陣,矩陣中每個元素都表示不同特征之間的非線性交互;通過引入交互特征學(xué)習(xí)層的權(quán)重矩陣,將元素級乘積與外積的結(jié)果轉(zhuǎn)換到輸出特征空間,并使用偏置向量調(diào)整輸出結(jié)果;通過非線性的激活函數(shù)學(xué)習(xí)非線性關(guān)系。
13、優(yōu)選的,所述s2,具體包括:
14、殘差連接層將交互特征學(xué)習(xí)層的輸出結(jié)果與基因型特征集合進(jìn)行組合,并引入門控機制,通過激活函數(shù)控制輸入特征的傳遞;并輸出經(jīng)過殘差連接層后水稻樣本的基因型特征集合。
15、優(yōu)選的,所述s2,具體包括:
16、動態(tài)特征選擇層根據(jù)經(jīng)過殘差連接層后水稻樣本的基因型特征對預(yù)測結(jié)果的貢獻(xiàn)動態(tài)調(diào)整基因型特征的權(quán)重,調(diào)整的依據(jù)有兩個方面:一是每個基因型特征在之前輪次中對損失函數(shù)的貢獻(xiàn)度;二是相似性懲罰機制;并輸出經(jīng)過動態(tài)特征選擇后的水稻樣本的基因型特征集合。
17、優(yōu)選的,所述s2,具體包括:
18、相似性懲罰機制是指在兩個基因型特征的表現(xiàn)非常相似的情況下,會減少其中一個基因型特征的權(quán)重,通過逐步篩選和加權(quán),將重要的特征進(jìn)行放大,最終使得基因型與表型關(guān)聯(lián)預(yù)測模型關(guān)注對預(yù)測結(jié)果最為關(guān)鍵的特征。
19、優(yōu)選的,所述s2,具體包括:
20、設(shè)計基于特征相似性和基因貢獻(xiàn)度的優(yōu)化損失函數(shù),判斷預(yù)測效果,并根據(jù)損失函數(shù)值通過反向傳播對各個基因型特征的權(quán)重進(jìn)行更新;基于特征相似性和基因貢獻(xiàn)度的優(yōu)化損失函數(shù)的計算公式為:
21、
22、其中,表示第輪迭代時損失函數(shù)值;表示損失函數(shù)中的平均因子;表示對個水稻樣本進(jìn)行求和;表示對個表型數(shù)據(jù)進(jìn)行求和;表示第個表型數(shù)據(jù)的重要性權(quán)重;表示第個水稻樣本的第個表型數(shù)據(jù);表示預(yù)測的第個水稻樣本的第個表型數(shù)據(jù);表示正則化項。
23、優(yōu)選的,所述s2,具體包括:
24、在經(jīng)過交互特征學(xué)習(xí)、殘差連接以及動態(tài)特征選擇處理后,輸出層對處理后的水稻樣本的基因型特征集合進(jìn)行線性變換,并通過激活函數(shù)對線性變換后的結(jié)果進(jìn)行映射;
25、表型數(shù)據(jù)集的預(yù)測公式為:
26、
27、其中,表示預(yù)測的第個水稻樣本的表型數(shù)據(jù)集;表示型激活函數(shù),用于將線性變換后的結(jié)果映射在之間;表示經(jīng)過動態(tài)特征選擇后的第個水稻樣本的基因型特征集合;表示輸出層的權(quán)重矩陣;表示輸出層的偏置向量。
28、本發(fā)明的技術(shù)方案的有益效果是:
29、1、通過基于生物信息學(xué)優(yōu)化的動態(tài)特征提取算法,有效捕捉了基因型數(shù)據(jù)中的稀疏性、周期性及復(fù)雜的非線性關(guān)系,具體地,采用了對基因型數(shù)據(jù)的標(biāo)準(zhǔn)化處理、對數(shù)變換、雙曲正切函數(shù)及正弦函數(shù)組合的方式,使得提取出的特征準(zhǔn)確且全面,增強了對水稻基因型數(shù)據(jù)中重要信息的捕捉能力,從而提高了預(yù)測水稻表型(如產(chǎn)量、抗病性等)準(zhǔn)確性,有助于加速農(nóng)業(yè)育種過程,提供了精確的水稻基因信息,從而有效提升了作物的產(chǎn)量及抗病性水平。
30、2、在交互特征學(xué)習(xí)層中,利用元素級乘積和外積操作,有效捕捉了基因型特征之間的線性和非線性交互信息,增強了基因型與表型關(guān)聯(lián)預(yù)測模型對基因間復(fù)雜關(guān)系的學(xué)習(xí)能力,從而為水稻的育種優(yōu)化提供了強大的技術(shù)支撐。
31、3、通過殘差連接層,克服了梯度消失或梯度爆炸問題,殘差結(jié)構(gòu)的引入保證了原始特征信息能夠在復(fù)雜學(xué)習(xí)過程中得以保留,即使特征經(jīng)過多層變換后仍然能夠保持原有信息,使得水稻基因型與表型關(guān)聯(lián)預(yù)測能夠在復(fù)雜數(shù)據(jù)條件下依然獲得準(zhǔn)確的結(jié)果。
32、4、在動態(tài)特征選擇層中,通過對不同特征的貢獻(xiàn)度和相似性懲罰機制進(jìn)行調(diào)整,逐步優(yōu)化特征權(quán)重,減少了冗余特征對預(yù)測結(jié)果的影響,有效防止了基因型與表型關(guān)聯(lián)預(yù)測模型過擬合,從而提高了基因型與表型關(guān)聯(lián)預(yù)測模型的泛化能力,能夠適應(yīng)不同水稻種植條件和環(huán)境下的表型預(yù)測需求,顯著增強了基因型與表型關(guān)聯(lián)預(yù)測模型的實用性和穩(wěn)定性,為農(nóng)業(yè)育種及作物改良提供了穩(wěn)健的決策支持。
33、5、基因型與表型關(guān)聯(lián)預(yù)測模型不僅能夠用于水稻的育種優(yōu)化、抗病性增強和產(chǎn)量預(yù)測,還可以擴展應(yīng)用于其他作物的基因型分析,通過機器學(xué)習(xí)方法挖掘基因型與表型之間的復(fù)雜關(guān)系,具有強大的可移植性,為其他農(nóng)業(yè)作物的基因分析和育種工作提供了技術(shù)支撐。
34、6、基于生物信息學(xué)優(yōu)化的動態(tài)特征提取算法與機器學(xué)習(xí)模型的結(jié)合,能夠有效提升水稻及其他作物基因型與表型的關(guān)聯(lián)預(yù)測能力,具有實用性、擴展性和穩(wěn)定性。