本發(fā)明提出了一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法及系統(tǒng),屬于生物。
背景技術(shù):
1、在復(fù)雜疾病的遺傳調(diào)控中,基因組非編碼區(qū)存在的大量調(diào)控元件發(fā)揮重要作用,它們的激活和抑制能夠影響疾病風(fēng)險。目前認(rèn)為這些調(diào)控元件主要通過調(diào)控附近和遠(yuǎn)端基因的表達(dá)來影響疾病的發(fā)生,但是這些調(diào)控元件受到何種遺傳因素影響,又是如何調(diào)控基因的表達(dá)情況,具體機制仍不清楚。目前已經(jīng)在數(shù)十種組織中鑒定了大量的表達(dá)數(shù)量性狀基因座(expression?quantitative?trait?loci,eqtl)位點,從而能夠解析單核苷酸多態(tài)性(single?nucleotide?polymorphism,snp)對基因表達(dá)的影響,但是eqtl仍然無法檢測具體的基因組元件如何調(diào)控靶基因。
2、要得到基因組調(diào)控元件如何調(diào)控基因表達(dá),最直接的方法是在人群樣本中同時進行轉(zhuǎn)錄組測序和染色質(zhì)可及性測序(assay?for?transposase-accessible?chromatinwith?high-throughput?sequencing,atac-seq)或多種組蛋白/轉(zhuǎn)錄因子的染色質(zhì)免疫共沉淀測序(chromatin?immunoprecipitation?sequencing,chip-seq),但是atac-seq或chip-seq的成本遠(yuǎn)高于轉(zhuǎn)錄組測序,在群體樣本中測序成本過高,難以在實際研究中應(yīng)用,這給研究突變位點、調(diào)控元件功能和基因表達(dá)之間的關(guān)系帶來阻礙。
技術(shù)實現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)存在的不足,本發(fā)明提供一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法及系統(tǒng)。利用該方法可系統(tǒng)性探究基因組調(diào)控元件功能及其影響的靶基因。
2、為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:
3、第一方面,本發(fā)明提供一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法,包括:
4、篩選基因組上的調(diào)控元件區(qū)域;利用訓(xùn)練的gapped-kmer?svm模型對所有調(diào)控元件區(qū)域內(nèi)的所有snp的兩種等位基因型上下游9bp序列預(yù)測活性得分;
5、對eqtl群體的每個個體,根據(jù)每個snp的基因型信息,根據(jù)每種等位基因型的活性得分對所有pre的活性進行計算;
6、對每個基因,用線性回歸模型計算基因與其啟動子上下游預(yù)設(shè)范圍內(nèi)所有pre活性的關(guān)聯(lián),計算線性回歸的效應(yīng)值β,進而得到顯著性p值;
7、根據(jù)顯著性p值的檢測總數(shù)進行多重檢驗校正,篩選出統(tǒng)計顯著的結(jié)果,作為最終的調(diào)控元件-靶基因調(diào)控結(jié)果。
8、作為本發(fā)明進一步改進,所述篩選基因組上的調(diào)控元件區(qū)域,包括:
9、將基因組上所有的atac-seq/chip-seq峰區(qū)域作為候選的調(diào)控元件區(qū)域,并過濾掉以下pre區(qū)域:
10、a)pre區(qū)域內(nèi)存在堿基插入和缺失突變;
11、b)pre內(nèi)區(qū)域內(nèi)的獨立snp數(shù)量少于2個,獨立性閾值為連鎖不平衡r2>0.3;
12、c)pre內(nèi)存在兩個snp之間距離<10bp。
13、作為本發(fā)明進一步改進,所述訓(xùn)練的gapped-kmer?svm模型的訓(xùn)練過程,包括:
14、取atac-seq/chip-seq的峰區(qū)域峰點上下游100bp范圍的序列作為陽性集,隨機取相同數(shù)量的atac-seq/chip-seq的非峰區(qū)域序列作為陰性集;
15、用陰性集和陽性集序列作為訓(xùn)練集,對gapped-kmer?svm模型用5折交叉方式進行訓(xùn)練,搜索最優(yōu)化的超參數(shù),取驗證集精準(zhǔn)率-召回率曲線下的面最高的模型作為訓(xùn)練的gapped-kmer?svm模型。
16、作為本發(fā)明進一步改進,所述非峰區(qū)域序列是呼叫峰p值>0.2區(qū)域,所述陰性集中隨機取得陰性集序列的長度、重復(fù)率、gc含量與陽性集分布相同。
17、作為本發(fā)明進一步改進,所述根據(jù)每種等位基因型的活性得分對所有pre的活性進行計算,計算方式為:
18、
19、其中cas為pre活性,n為該pre區(qū)域的snp數(shù)量,m為snp?i的等位基因數(shù)量,g為等位基因j的劑量效應(yīng),s為gapped-kmer?svm模型預(yù)測的等位基因j的得分。
20、作為本發(fā)明進一步改進,所述線性回歸模型為:
21、ex]pres810110×cas+covariates
22、其中,expression為該基因經(jīng)標(biāo)準(zhǔn)化之后的表達(dá)值,cas為該pre的活性,covariates為群體協(xié)變量,β為該pre對基因表達(dá)的效應(yīng)值。
23、第二方面,本發(fā)明提供一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定系統(tǒng),包括:
24、活性得分預(yù)測模塊,用于篩選基因組上的調(diào)控元件區(qū)域;利用訓(xùn)練的gapped-kmersvm模型對所有調(diào)控元件區(qū)域內(nèi)的所有snp的兩種等位基因型上下游9bp序列預(yù)測活性得分;
25、活性計算模塊,用于對eqtl群體的每個個體,根據(jù)每個snp的基因型信息,根據(jù)每種等位基因型的活性得分對所有pre的活性進行計算;
26、顯著性p值計算模塊,用于對每個基因,用線性回歸模型計算基因與其啟動子上下游預(yù)設(shè)范圍內(nèi)所有pre活性的關(guān)聯(lián),計算線性回歸的效應(yīng)值β,進而得到顯著性p值;
27、結(jié)果篩選模塊,用于根據(jù)顯著性p值的檢測總數(shù)進行多重檢驗校正,篩選出統(tǒng)計顯著的結(jié)果,作為最終的調(diào)控元件-靶基因調(diào)控結(jié)果。
28、第三方面,本發(fā)明提供一種電子設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法。
29、第四方面,本發(fā)明提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法。
30、第五方面,本發(fā)明提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機指令,其特征在于,所述計算機指令指示計算機執(zhí)行所述功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法。
31、本發(fā)明相對于現(xiàn)有技術(shù)具備的有益效果為:
32、本發(fā)明無需對大樣本群體的atac-seq或chip-seq進行高成本測序,只需要群體的基因型和單個樣本的atac-seq或chip-seq數(shù)據(jù),即可獲得群體中所有個體的調(diào)控元件活性。大大降低了傳統(tǒng)方案測序所需的成本。本發(fā)明可以充分利用目前已有的大量eqtl數(shù)據(jù)和公共數(shù)據(jù)庫中的atac-seq或chip-seq數(shù)據(jù),無需重新對這些樣本進行配套的測序,能夠直接對大量組織的調(diào)控元件活性及靶基因進行檢測,大大節(jié)約了樣本收集所需的時間和經(jīng)濟成本。本發(fā)明結(jié)合基因組調(diào)控元件及易感變異在多種疾病中的調(diào)控作用,可用該方法系統(tǒng)性鑒定人類復(fù)雜疾病基因組調(diào)控元件及易感變異的功能,廣泛應(yīng)用于基礎(chǔ)研究,對未來生物醫(yī)學(xué)領(lǐng)域中相關(guān)疾病的遺傳機制研究與藥物開發(fā)提供理論依據(jù)。
1.一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法,其特征在于,所述篩選基因組上的調(diào)控元件區(qū)域,包括:
3.根據(jù)權(quán)利要求1所述的一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法,其特征在于,所述訓(xùn)練的gapped-kmer?svm模型的訓(xùn)練過程,包括:
4.根據(jù)權(quán)利要求3所述的一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法,其特征在于,所述非峰區(qū)域序列是呼叫峰p值>0.2區(qū)域,所述陰性集中隨機取得陰性集序列的長度、重復(fù)率、gc含量與陽性集分布相同。
5.根據(jù)權(quán)利要求1所述的一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法,其特征在于,所述根據(jù)每種等位基因型的活性得分對所有pre的活性進行計算,計算方式為:
6.根據(jù)權(quán)利要求1所述的一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法,其特征在于,所述線性回歸模型為:
7.一種功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定系統(tǒng),其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1-6任一項所述功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法。
9.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-6任一項所述功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法。
10.一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機指令,其特征在于,所述計算機指令指示計算機執(zhí)行權(quán)利要求1-6任一項所述功能性染色質(zhì)調(diào)控區(qū)域及靶基因鑒定方法。