本發(fā)明屬于疾病基因數據處理,具體涉及一種致病基因數據庫的建立方法、數據庫及風險預測系統(tǒng),尤其是針對定居于廣州的亞健康中老年高收入人群的致病基因數據庫的建立方法、數據庫及風險預測系統(tǒng)。
背景技術:
1、人類健康受到遺傳和環(huán)境兩方面的共同影響。gwas(genome-wide?associationstudy,即全基因組關聯分析)研究通過大規(guī)模人群對比篩查研究,推斷出某一特定人群中遺傳突變和疾病之間的相關性。gwas的理論基礎是連鎖不平衡定律(linkagedisequilibrium,ld),既假設觀察到的snp(單核苷酸多態(tài)性)與真正的致病突變(causalvariant)之間存在很強的ld。通過基因突變檢測,我們可以了解自己是否容易患上某些常見疾病(易感風險),如心腦血管疾病、自身免疫性疾病或腫瘤等。從而盡量避免接觸與特定疾病相關的有害物質,并定期進行特定方向的診斷學監(jiān)測,以便在疾病初起時早診斷、早治療,最大程度的降低疾病造成的損害。
2、但gwas?catalog(https://www.ebi.ac.uk/gwas/)是由美國基因組研究中心(nhgri)和歐洲生物信息中心(embl-ebi)共同開發(fā)和制作的搜集所有已公布的gwas和相關結果的公開數據庫,該數據庫收集自2008年以來已發(fā)表的全基因組關聯研究的數據。截至2018年10月21日,在411種不同的期刊、3,153篇文章中共摘取61,613個獨特的snp位點與3,007種疾病的相關性條目90,428條。相關研究需符合一個嚴格的標準才能納入該數據庫。gwas?catalog數據庫為我們做基因突變檢測提供一個可靠的依據。
3、2019年3月21日,《細胞》雜志發(fā)表了一系列關于人類基因組測序研究的綜述和評論文章。文章一致認為目前全球人類生物樣本庫中基因組數據所包含的族群多樣性遠比人們所期望的要少得多,68%來自歐洲血統(tǒng)個體;而疾病易感位點,特別是多基因疾病易感位點,與地域等密切相關。在某個地區(qū)的高致病位點,在另一個地區(qū)可能就不是。為此,2020年,中國科學院上海營養(yǎng)與健康研究所發(fā)布了11萬個東北亞人群的所有snp位點突變頻率數據庫pgg.han:http://www.pgghan.org,此舉填補了東北亞人群在大規(guī)??捎脜⒖蓟蚪M數據集上的空白。基于此數據庫,可以篩選東北亞人群的疾病易感位點。
4、進一步地,考慮到不同的臨床表型人群會有不同的基因突變譜。上海交通大學醫(yī)學院附屬瑞金醫(yī)院發(fā)布了10588個東北亞人的各種代謝疾病人群的所有snp位點突變頻率數據庫chinamap:http://www.mbiobank.com/。基于此數據庫,可以篩選東北亞人的各種代謝疾病易感位點。
5、同樣的,生活在不同地域、不同的經濟階層以及長期的亞健康狀態(tài)也會影響基因突變譜,因此考察突變位點在特殊人群的突變情況,開發(fā)出針對不同人群的基因數據是非常必要的。
技術實現思路
1、基于此,本發(fā)明提供一種致病基因數據庫的建立方法,在考慮地域影響的同時,并評估不同經濟階層以及長期亞健康狀態(tài)對人群的影響,建立一套能夠準確可靠地評估特定人群的健康風險的風險預測系統(tǒng)。
2、本發(fā)明一方面提供一種致病基因數據庫的建立方法,包括如下步驟:
3、(1)獲取特定人群血液樣本,提取血液基因組dna,進行全基因組測序;
4、(2)檢測樣本的突變位點;
5、(3)以gwas?catalog數據庫為參考,依據步驟(2)得到檢測樣本的突變位點對gwascatalog數據庫進行過濾,得到所述的致病基因位點數據庫;所述過濾包括一次過濾和二次過濾,所述一次過濾是指篩選gwas?catalog數據庫中的突變位點在上述檢測樣本中的突變頻率,保留突變頻率<30%且>0的位點;所述二次過濾是指過濾掉if<3的期刊雜志上所發(fā)表的致病位點。
6、本發(fā)明通過收集特定人群的血液,提取dna,進行全基因組測序,考察gwascatalog數據庫收集的不同人群的突變位點在本研究要考察的特定人群的突變情況,進一步結合突變頻率和文獻數據進行位點過濾,其中,突變頻率<30%的位點才有可能是致病位點,高頻率位點往往意味著是公眾所能耐受的突變;另外,突變頻率=0的位點意味著是本研究人群罕見突變位點,對發(fā)病風險貢獻很小,同時增加背景噪聲。因此一次過濾保留突變頻率<30%且>0的位點;進而根據突變位點所發(fā)表論文的權威性,過濾掉if<3的期刊雜志進行二次篩選,從而開發(fā)出一套適用于特定人群的致病風險評估的致病基因位點數據庫,提高患病風險精準預測的能力。
7、在其中一個實施例中,所述特定人群是年齡為45-65歲,定居于廣州≥10年、月收入≥20000元、亞健康的人。
8、在其中一個實施例中,所述全基因組測序中,基因組dna制備成pe150?dna文庫進行測序,每個樣品準備超過1μg完整度良好的基因組dna,所述基因組完整度良好的判斷標準為:1%瓊脂糖凝膠電泳圖中dna主帶完整且>23kb。另外,也可以采用輕微降解的基因組dna也可進行風險建庫。
9、在其中一個實施例中,對于構建成功的dna文庫要求:pcr產物片段主帶在450bp±50bp,無dimer、無污染,消化并純化后的產物定量濃度大于0.78ng/μl。
10、在其中一個實施例中,所述全基因組測序的深度為10x-30x。
11、在其中一個實施例中,所述步驟(2)中依據dbsnp146數據庫檢測突變位點。
12、本發(fā)明的另一方面,還提供了上述的致病基因數據庫的建立方法得到的致病基因數據庫。
13、本發(fā)明的再一方面,還提供了一種風險預測系統(tǒng),包括:
14、數據獲取模塊,用于獲取待測樣本的基因檢測數據;
15、數據分析模塊,用于將上述的基因檢測數據經生物信息學分析后,代入上述的致病基因數據庫中進行比對分析得出風險值r;
16、判定輸出模塊,用于將位點突變信息按照風險等級進行輸出。
17、在其中一個實施例中,所述風險值r采用公式進行計算,其中,n為某人檢出某種疾病的位點數,n為該疾病的在建立的數據庫中的總位點數;or值,全稱是odds?ratio,又稱比值比、風險暴露比,可從gwas?catalog數據庫獲取。通過構建風險值矩陣,行為樣本數量,列為疾病種類,將每個樣本對應的疾病風險值進行排序,將風險值位于top?5%-1%之間定義為中風險;r位于top?1%以內的定義為高風險,其余為低風險。
18、以某疾病所有n個風險位點的or值連乘為底,對某人檢出該疾病的n個風險位點的or值連乘取對數。通過取對數可以對風險因子進行降維,避免單個風險因子因數值過大而主導風險評估。進一步地,以總風險因子為底的目的是進行標準化,使得不同個體不同疾病的風險值具有可比性。只計算已知風險位點的突變占比,據此評估疾病的風險等級。這樣不論單基因疾病還是多基因疾病均有較好的預測效果。因為疾病的致病基因本來就有多有少,有的是單基因疾病(例如,地中海貧血),有的是多基因疾病(例如,癌癥)。
19、與現有技術相比,本發(fā)明具有以下有益效果:
20、本發(fā)明的致病基因數據庫的建立方法,通過考察gwas?catalog數據庫收集的不同人群的突變位點在本研究的非gwas?catalog數據庫收集的特定人群的突變情況,進一步結合突變頻率和文獻數據進行位點過濾,及人群評估等,開發(fā)出一套適用于特定人群的致病風險評估的致病基因數據庫。
21、本發(fā)明的致病基因數據庫,收錄了大量特定人群的致病風險很高的位點記錄,通過對基因檢測位點與這些位點記錄進行匹配分析,可以快速定位高風險致病位點,減少遺漏的可能性,大大提高了臨床解讀工作的準確性和效率。
22、本發(fā)明的致病基因數據庫可用于風險預測系統(tǒng)中,通過對風險評估算法的優(yōu)化,可更好的適用于各種類型的疾病預測,無論是單基因還是多基因疾病,另外也大大減少了非風險疾病的預測,避免風險等級預測的偏差。