国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于基因芯片網絡分析的疾病風險基因識別方法

      文檔序號:6620757閱讀:413來源:國知局
      一種基于基因芯片網絡分析的疾病風險基因識別方法
      【專利摘要】本發(fā)明涉及一種生物【技術領域】,具體是一種基于基因芯片網絡分析的疾病風險基因識別方法,其特征在于,在計算機系統(tǒng)中結合遞歸決策森林技術,通過計算每一成對基因在遞歸決策森林中的出現(xiàn)頻率,定量分析每一對基因和疾病的相關程度,給出基因互作網絡的風險基因的分布圖譜。本發(fā)明結合遞歸決策樹數(shù)據(jù)挖掘技術,通過定量分析每一對基因在全部遞歸決策樹上的出現(xiàn)頻率,評定基因互作網絡中可能與疾病相關的風險基因,解決了基因芯片高通量數(shù)據(jù)所形成的疾病相關基因挖掘難,功能分析難的問題,達到分析與可視化生物分子網絡結構與功能的目的,從而提高生物分析網絡乃至疾病成因的理解。本發(fā)明簡單、方便、快捷,可以直觀展示基因芯片中基因和疾病的關聯(lián)程度,將對理解疾病發(fā)病原因與病理過程提供有效的信息,也將對研究不同疾病之間的關系具有重要理論意義和實用價值。
      【專利說明】-種基于基因芯片網絡分析的疾病風險基因識別方法

      【技術領域】
      [0001] 本發(fā)明涉及一種生物【技術領域】,更具體地,是一種基于基因芯片網絡分析的疾病 風險基因識別方法。

      【背景技術】
      [0002] 人類復雜疾病往往是多基因聯(lián)合作用的結果。隨著基因芯片技術的迅猛發(fā)展,并 行同時檢測成千上萬的基因表達水平成為可能?;蚧プ骶W絡作為生物醫(yī)學的重要結構描 述,基因互作網絡結構與功能的異常直接反映生物機體功能的異常。處于網絡中熱點區(qū)域 的基因可能與所研究疾病顯著相關。研究表明基因網絡上的擾動可直接反映于生物機體的 表型變化,網絡中某些基因的突變可在網絡上產生級聯(lián)放大效應,從而導致疾病的發(fā)生,包 括單基因致病的血友病、白化病和多基因致病的復雜疾病,如腫瘤、高血壓等。研究表明網 絡中基因與基因的相互作用關系發(fā)生改變亦可造成生物機體功能異常。近年來的很多分子 網絡的解析研究,以期望提供對疾病的更深入的理解,研究表明人類基因相互作用網絡的 動態(tài)拓撲變化可輔助解決腫瘤的預后問題,另有研究表明構建病原微生物感染網絡為了解 病原微生物的致病過程以及分辨不同病原微生物各自的感染模式提供了極其有用的信息, 同時網絡的動態(tài)結構信息也為聯(lián)合用藥和多靶藥物設計提供了理論基礎和極大幫助。
      [0003] 機體的功能是由完整的生物分子網絡驅動的,而疾病是不同病因引起的網絡異常 引起的。生物網絡具有很強的穩(wěn)健性和魯棒性,但是某些特定的網絡節(jié)點和網絡拓撲異常 變化將導致網絡較大變化,并可能反映于生物機體,即疾病發(fā)生。為此,本發(fā)明提出一種基 于基因芯片網絡分析的疾病風險基因識別方法。


      【發(fā)明內容】

      [0004] 本發(fā)明的目的旨在提供一種能簡單、方便、快捷地識別疾病驅動的基因互作網絡 中風險基因的識別方法,解決基因芯片高通量數(shù)據(jù)所形成的疾病相關基因挖掘難,功能分 析難的問題。
      [0005] 在一種基于基因芯片網絡分析的疾病風險基因識別方法中,輸入的每一成對基因 在決策樹森林中出現(xiàn)的頻率作為一種和疾病相關的定量度量。相關程度的計算需經過如下 步驟:決策樹的構建、構建訓練集和檢驗集、決策森林的構建、風險基因的識別。
      [0006] 為了達到上述目的,本發(fā)明通過以下技術方案實現(xiàn):
      [0007] -種基于基因芯片網絡分析的疾病風險基因識別方法,其特征在于,在計算機系 統(tǒng)中結合遞歸決策森林技術,通過計算每一成對基因在遞歸決策森林中的出現(xiàn)頻率,定量 分析每一對基因和疾病的相關程度,給出基因互作網絡的風險基因的分布圖譜。
      [0008] 本發(fā)明所述的遞歸決策森林技術包含兩部分:一是遞歸決策樹的構建;二是遞歸 決策樹分類效能的評價。
      [0009] 本發(fā)明所述的每一成對基因在遞歸決策森林中的出現(xiàn)頻率,包含任一兩個基因在 遞歸決策森林中出現(xiàn)的頻率,這些數(shù)據(jù)具有相似的類型。
      [0010] 本發(fā)明所述的定量分析每一對基因和疾病的相關程度,給出基因互作網絡的風險 基因的分布圖譜,它的計算包括下列步驟:接收來自基因芯片的表達譜數(shù)據(jù),對數(shù)據(jù)進行標 準化;從構建的決策樹中提取相應節(jié)點的特征基因子集,若干決策樹構成決策森林,對決策 所述的每一成對基因在遞歸決策森林中的出現(xiàn)頻率,包含任一兩個基因在遞歸決策森林中 出現(xiàn)的頻率,這樹分類效能進行評價;計算每一基因對在決策森林中的出現(xiàn)頻率;計算基 因間的這種相關關系與疾病的關聯(lián)函數(shù)。本發(fā)明通過可視化排列檢驗閾值以上的基因互作 關系對,得到基因網絡的風險基因分布圖譜。
      [0011] 本發(fā)明結合遞歸決策樹數(shù)據(jù)挖掘技術,通過定量分析每一對基因在全部遞歸決策 樹上的出現(xiàn)頻率,評定基因互作網絡中可能與疾病相關的風險基因,解決了基因芯片高通 量數(shù)據(jù)所形成的疾病相關基因挖掘難,功能分析難的問題,達到分析與可視化生物分子網 絡結構與功能的目的,從而提高生物分析網絡乃至疾病成因的理解。本發(fā)明簡單、方便、快 捷,可以直觀展示基因芯片中基因和疾病的關聯(lián)程度,將對理解疾病發(fā)病原因與病理過程 提供有效的信息,也將對研究不同疾病之間的關系具有重要理論意義和實用價值。

      【專利附圖】

      【附圖說明】
      [0012] 圖1為本發(fā)明的一種基于基因芯片網絡分析的疾病風險基因識別方法的總體框 圖。

      【具體實施方式】
      [0013] 一種基于基因芯片網絡分析的疾病風險基因識別方法,其特征在于,在計算機系 統(tǒng)中結合遞歸決策森林技術,通過計算每一成對基因在遞歸決策森林中的出現(xiàn)頻率,定量 分析每一對基因和疾病的相關程度,給出基因互作網絡的風險基因的分布圖譜。
      [0014] 具體步驟如圖1所示:檢查從計算機輸入的基因表達譜數(shù)據(jù)X的合法性,進行η 倍交叉驗證、ηΧη對訓練集和測試集,建立決策森林,通過遞歸決策樹的分類模型并進行評 價,建立候選基因集,計算每一對基因在遞歸決策森林上出現(xiàn)的頻率、計算基因與疾病的關 聯(lián)程度打分選擇最終基因,結束識別。
      [0015] 上述的遞歸決策森林技術包含兩部分:一是遞歸決策樹的構建;二是遞歸決策樹 分類效能的評價。
      [0016] 本發(fā)明在具體構建遞歸決策樹時,考慮到人類基因有多種命名方式,甚至會出現(xiàn) 不同命名方式之間不能嚴格的一一對應的現(xiàn)象,而且網絡有多種表示方式。因此,本發(fā)明在 構建遞歸決策樹(基因網絡)的過程中,要求輸入的網絡中基因以Entrez編碼命名,網絡 以鄰接矩陣的形式表示。
      [0017] 將一個基因網絡定義為:G = (V,E),其中V為網絡中基因集合,E為網絡中相互 作用邊的集合。首先將要計算兩個網絡G1= (V2,V2),合并成為一個網絡 G12 = (V12, E12),方法是將Gi中的每個節(jié)點分別與G2中的所有節(jié)點相連,如果有一個基因同 時出現(xiàn)在了 61和62中,將兩個基因合并成為G12中的一個基因,這樣V12 = Vi U V2, E12 = Ei U E2 U V\ X V2〇
      [0018] 在一種定量分析生物分子網絡結構與功能的方法中,構建決策樹時屬性和相應閾 值的識別準則是使得在一個節(jié)點的劃分最大程度地降低類別雜質度(尋找一種劃分最大 地減少在節(jié)點t的雜質度),采用Gini差異性指標(代價函數(shù))為節(jié)點t的雜質函數(shù):
      [0019]

      【權利要求】
      1. 一種基于基因芯片網絡分析的疾病風險基因識別方法,其特征在于:結合遞歸決策 森林技術,通過計算每一成對基因在遞歸決策森林中的出現(xiàn)頻率,定量分析每一對基因和 疾病的相關程度,給出基因互作網絡的風險基因的分布圖譜。
      2. 根據(jù)權利要求1所述的一種基于基因芯片網絡分析的疾病風險基因識別方法,其特 征是,所述的遞歸決策森林技術,包含兩部分:一是遞歸決策樹的構建;二是遞歸決策樹分 類效能的評價。
      3. 根據(jù)權利要求1或2所述的一種基于基因芯片網絡分析的疾病風險基因識別方法, 其特征是,所述的每一成對基因在遞歸決策森林中的出現(xiàn)頻率,包含任一兩個基因在遞歸 決策森林中出現(xiàn)的頻率,這些數(shù)據(jù)具有相似的類型。
      4. 根據(jù)權利要求1或2所述的一種基于基因芯片網絡分析的疾病風險基因識別方法, 其特征是,所述的基因和疾病的相關程度它的計算包括下列步驟:接收來自基因芯片的表 達譜數(shù)據(jù),對數(shù)據(jù)進行標準化;從構建的決策樹中提取相應節(jié)點的特征基因子集,若干決策 樹構成決策森林,對決策樹分類效能進行評價;計算每一基因對在決策森林中的出現(xiàn)頻率; 計算基因間的這種相關關系與疾病的關聯(lián)函數(shù)。
      5. 根據(jù)權利要求4所述的一種基于基因芯片網絡分析的疾病風險基因識別方法,其特 征是,所述的基因互作網絡的風險基因的分布圖譜,通過可視化排列檢驗閾值以上的基因 互作關系對,得到基因網絡的風險基因分布圖譜。
      【文檔編號】G06F17/50GK104156503SQ201410345984
      【公開日】2014年11月19日 申請日期:2014年7月21日 優(yōu)先權日:2014年7月21日
      【發(fā)明者】徐瑞龍, 伯曉晨, 楊寧敏 申請人:金華市中心醫(yī)院
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1