国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于模糊k-nn算法的腫瘤基因表達譜分類方法

      文檔序號:6606473閱讀:174來源:國知局
      專利名稱:基于模糊k-nn算法的腫瘤基因表達譜分類方法
      技術領域
      本發(fā)明涉及腫瘤基因表達譜分類技術領域,特別是一種基于模糊K-NN算法的腫 瘤基因表達譜分類方法。
      背景技術
      通過DNA微陣列芯片實驗人們可以得到基因表達譜數(shù)據(jù),通過對這些數(shù)據(jù)的分 析,人們可以挖掘出具有生物學意義的信息和知識。如何從基因表達譜數(shù)據(jù)中選取包含樣 本分類信息的特征基因,建立分類器,實現(xiàn)腫瘤的分型診斷是當前生物信息學研究的重要 領域。鑒于腫瘤亞型識別與分類特征基因選取的重要性,目前已經出現(xiàn)了針對該問題的大 量研究文獻。Golub等人以加權投票法為分類手段對白血病的兩種已知亞型AML與ALL的 分類問題進行了研究并采用留一法和獨立測試集進行分類有效性的評估。Brown等將幾種 常用分類方法應用到基于基因表達譜的腫瘤分類,并對分類效果進行了比較,發(fā)現(xiàn)采用支 持向量機(SVM)效果最好。當前,對基因表達數(shù)據(jù)進行分類分析的主要方法有人工神經網 絡、遺傳算法、支持向量機、貝葉斯和K-近鄰法等。

      發(fā)明內容
      本發(fā)明的目的在于提供一種基于模糊K-NN算法的腫瘤基因表達譜分類方法,該 方法有利于對腫瘤基因表達譜進行有效分類,從而準確判別腫瘤亞型。為實現(xiàn)上述目的,本發(fā)明的技術方案是一種基于模糊K-NN算法的腫瘤基因表達 譜分類方法,其特征在于該方法從生物學分析出發(fā),首先采用RFSC算法剔除無關基因,然 后采用模糊K-NN算法對已剔除無關基因的基因表達譜數(shù)據(jù)進行分析,以發(fā)現(xiàn)有差異的基 因表達。本發(fā)明的有益效果是利用腫瘤基因表達譜建立有效的“預測性”分類模型,對腫瘤 的不同亞型進行準確判別,對當前生物信息學研究具有重要意義。由于采用了模糊理論,不 是簡單地將未知樣本歸類定為“屬于”或者“不屬于”,因而本算法特別適合于學習樣本類別 分布不均勻的場合。


      圖1是本發(fā)明方法的實施流程圖。
      具體實施例方式本發(fā)明的基于模糊K-NN算法的腫瘤基因表達譜分類方法,該方法從生物學分析 出發(fā),首先采用RFSC算法剔除無關基因,然后采用模糊K-NN算法對已剔除無關基因的基因 表達譜數(shù)據(jù)進行分析,以發(fā)現(xiàn)有差異的基因表達。下面對本發(fā)明涉及的各種算法進一步加以說明。1、信息基因選擇與RFSC算法。
      腫瘤的亞型或類型識別是一個分類問題。但在數(shù)據(jù)收集階段,很難確定哪些基因 與樣本類別相關,哪些不相關。因此,所有基因的表達水平都被記錄到樣本里以免丟失對樣 本分類有用的信息。這導致了基因表達譜數(shù)據(jù)具有維數(shù)高、噪音大以及冗余信息的特點。所 以在分類前需要采用各種方法對基因表達譜數(shù)據(jù)進行降維、去噪和剔除冗余基因等處理, 以最大限度地提高腫瘤樣本的分類性能。為了改善分類器的性能,信息基因的選擇是非常 重要的一步。采用修訂的特征記分準則(Revised Feature Score Criterion, RFSC)算法對每 一個基因計算其分值,然后按分值降序排列基因,基因分值的計算,即RFSC算法的算式如 下。
      RFSC(g;)
      Μ ~ M2-
      + —In
      2
      +2 , - CTi + IJi
      Mi — Λ其中,/4表示基因g,的正類樣本的均值,M"表示基因&的負類樣本的均值,<
      表示基因gi的正類樣本的標準差,表示基因Si的負類樣本的標準差?;蚍种档拇笮”?br> 明該基因能夠區(qū)分正類樣本和負類樣本的分類能力大小。該算法考慮了由于均值、方差不 同所帶來的對樣本分類的貢獻,從而客觀地評價各基因含有的分類信息量,以剔除無關基 因。2、模糊 K-NN 算法。K-近鄰分類(K-nearest neighbor, K-NN)算法是一種建立在通過類比進行學習 的算法,它根據(jù)測試樣本在特征空間中k個最近鄰樣本中的多數(shù)樣本的類別來進行分類, 因此具有直觀、無需先驗統(tǒng)計知識等特點。然而,當學習樣本類別分布不均勻的時候,如果 僅考慮排序后的k個近鄰而忽視樣本間的不同距離,勢必會降低K-NN的分類精度。因此, 本發(fā)明采用了模糊K-近鄰算法(fuzzy K-NN)。模糊K-NN算法的詳細步驟如下。設已知腫瘤基因表達譜矩陣"由η個樣本X = ^X2,…,式)組成,并設每個樣本
      有c個基因,則所述模糊K-NN算法描述為 Step 1 確定未知樣本的最近鄰數(shù)k的值; Step 2 選擇歐式距離范數(shù)d作為距離測度; Step 3 對每個未知樣本Zi , ! = 1,2,···, 3。(1) 計算η-1個距離d=d(W、,XjX”并對其進行排序 d(Y)<d(2)<d(3)<-<d(k)<d(k + i)<-<dQi-i)
      其中,到是未知樣本石的k個最近鄰與不的距離。(2)在^中找出對應于!^個最近鄰距離的!^個列巧^ = ^,···^)。(3)由上面得到的k個列巧= …乂)計算
      為(4)=圭巧.·——l^7/Σ——l^i-
      diXi.Xj)^1 ^diX^X/)^1其中,m為模糊權重調節(jié)因子。(4)判決對于分=1,2,.、c,如果式⑴=,則工屬于第i類。以上是本發(fā)明的較佳實施例,凡依本發(fā)明技術方案所作的改變,所產生的功能作 用未超出本發(fā)明技術方案的范圍時,均屬于本發(fā)明的保護范圍。
      權利要求
      一種基于模糊K NN算法的腫瘤基因表達譜分類方法,其特征在于該方法從生物學分析出發(fā),首先采用RFSC算法剔除無關基因,然后采用模糊K NN算法對已剔除無關基因的基因表達譜數(shù)據(jù)進行分析,以發(fā)現(xiàn)有差異的基因表達。
      2.根據(jù)權利要求1所述的基于模糊K-NN算法的腫瘤基因表達譜分類方法,其特征在 于采用RFSC算法計算每一個基因的分值,基因分值的大小反映每一個基因能夠區(qū)分正類 樣本和負類樣本的分類能力,從而評價各基因含有的分類信息量,剔除無關基因,所述RFSC 算法的算式如下其中,/4表示基因&的正類樣本的均值,Ar表示基因Si的負類樣本的均值,< 表示基因仏的正類樣本的標準差,of表示基因A的負類樣本的標準差,基因分值的大小表明該基因能夠區(qū)分正類樣本和負類樣本的分類能力大小。
      3.根據(jù)權利要求1或2所述的基于模糊K-NN算法的腫瘤基因表達譜分類方法,其特征在于設已知腫瘤基因表達譜矩陣"由η個樣本I = Z2,…組成,并設每個樣本有c個基因,則所述模糊K-NN算法按如下步驟進行 Step 1 確定未知樣本的最近鄰數(shù)k的值; Step 2 選擇歐式距離范數(shù)d作為距離測度; Step 3 對每個未知樣本Zi ,2 = 1,2,-, (1)計算n-1個距離d =^XiJQ1XdXj,并對其進行排序 d(\) <d(2) < d(3) <■■■< d(k") <d(k+i) <■■· <d(n -1)其中,到雄)是未知樣本石的k個最近鄰與不的距離;(2)在I中找出對應于k個最近鄰距離的k個列巧(J= l,2,…,約;(3)由上面得到的k個列=計算題SC(gi) ( ) (Σ“Χ/嚴-1 J d(XiXjfri其中,m為模糊權重調節(jié)因子;(4)判決對于0=1義…,C ,如果為(x):)),則ζ屬于第i類。
      全文摘要
      本發(fā)明涉及腫瘤基因表達譜分類技術領域,特別是一種基于模糊K-NN算法的腫瘤基因表達譜分類方法,其特征在于該方法從生物學分析出發(fā),首先采用RFSC算法剔除無關基因,然后采用模糊K-NN算法對已剔除無關基因的基因表達譜數(shù)據(jù)進行分析,以發(fā)現(xiàn)有差異的基因表達。該方法有利于對腫瘤基因表達譜進行有效分類,從而準確判別腫瘤亞型。
      文檔編號G06F19/00GK101921847SQ20101023495
      公開日2010年12月22日 申請日期2010年7月23日 優(yōu)先權日2010年7月23日
      發(fā)明者孔祥增, 宋考, 陳麗萍, 陳智勤 申請人:福建師范大學
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1