国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于動態(tài)樣本選擇集成的生物信息識別方法

      文檔序號:6597255閱讀:207來源:國知局
      專利名稱:基于動態(tài)樣本選擇集成的生物信息識別方法
      技術領域
      本發(fā)明屬于信息處理技術領域,涉及生物信息識別,用于對生物信息學中的snoRNA識別、microRNA前體判別、SNP位點的真?zhèn)巫R別,也可用于網(wǎng)絡入侵、金融欺詐和反垃圾郵件的檢測。

      背景技術
      在生物信息學研究中,存在大量類別不平衡的分類問題。比如非編碼RNA基因挖掘,尤其是microRNA挖掘。此外,在SNP位點判別、snoRNA識別、microArray數(shù)據(jù)分析中也經(jīng)常遇到這類問題。由于大多數(shù)問題中的正例來自于實驗驗證,而反例通常不需要實驗驗證,因此獲取反例的成本低、正例的成本高,從而在訓練集中通常出現(xiàn)反例遠遠多于正例的情況,使得最終的分類器的性能下降,以至于會出現(xiàn)把整個樣本空間都劃為大類的情況。針對這種問題,急需要一種有效解決類別不平衡數(shù)據(jù)分類的方法。
      microRNA是生物體內一種重要的非編碼RNA分子,在各種生物基因組中尋找microRNA是詮釋基因組工作的一個重要的部分,然而目前確定的microRNA只有幾千個,在一個物種上的則更少,而類似于前體的發(fā)夾環(huán)則可以在基因組中找到很多,對于人的基因組至少可以找到上百萬條,因此這是一個明顯的類別不平衡的分類問題。SNP位點是重要分子標記手段,許多研究表明SNP同人群分類、遺傳疾病都有著緊密的聯(lián)系在EST序列中挖掘SNP位點,進而進行分子標記,是一項可以節(jié)省大量實驗成本卻又富有挑戰(zhàn)性的任務。核仁小分子RNA是另外一種重要的非編碼RNA分子。根據(jù)結構特點,核仁小分子RNA主要可以分為C/D box snoRNA和H/ACA box snoRNA兩大類。Jana等人的研究表明兩種不同的RNA在二級結構、自由能、GC含量和配對堿基個數(shù)等特征上相對于隨機的基因組序列均具有顯著性,因此可以用分類的方法從眾多的非編碼RNA中找出C/D box snoRNA和H/ACA box snoRNA。SNP位點挖掘和snoRNA識別都是典型的類別不平衡分類問題。
      迄今為止,模式識別中有了一些解決這種不平衡分類問題的策略,比如重采樣法、代價敏感學習、Network Boosting和動態(tài)樣本選擇等。其中 重采樣法,是通過增加稀有類訓練樣本數(shù)的上采樣和減少大類樣本數(shù)的下采樣使不平衡的樣本分布變得比較平衡,從而提高分類器對稀有類的識別率。研究表明上采樣的方法通常會帶來時間開銷大、過擬合等問題;下采樣方法只使用了大類的一個子集,并沒有充分利用已有的信息。
      代價敏感學習,賦予各個類別不同的錯分代價迫使最終分類器對正類樣本有更高的識別率以解決不平衡分類問題,但是該方法被證明等價于重采樣方法。
      Network Boosting方法,是一種網(wǎng)絡學習的方法,它在處理不平衡數(shù)據(jù)分類問題上,需要利用訓練集劃分的方法產(chǎn)生一系列平衡數(shù)據(jù)集來訓練。這種方法的缺點是不僅會隨著迭代次數(shù)的增加而加大時間開銷,而且只偏向于總的識別率的提高,對于小類樣本的識別率稍差。
      動態(tài)樣本選擇的方法,是一種利用訓練集正確率動態(tài)的選擇樣本來處理不平衡問題的方法。該方法具有使用訓練數(shù)據(jù)少,執(zhí)行速度快的優(yōu)點,但是它是從一組平衡數(shù)據(jù)集開始進行的,會受到初始平衡數(shù)據(jù)集選取的影響。
      總之,以往的各種方法都對小類樣本難以識別,而且也不能根據(jù)需要調節(jié)總的識別率和小類樣本識別率之間的大小關系。


      發(fā)明內容
      本發(fā)明的目的在于克服上述已有方法的缺點,提出了一種基于動態(tài)樣本選擇集成的生物信息識別方法,以減小時間開銷,避免受到初始數(shù)據(jù)集選取的影響,能夠有效調節(jié)總的識別率和小類樣本識別率之間的大小關系。
      為實現(xiàn)上述目的,本發(fā)明包括如下過程 (1)找出一些帶標記的生物信息數(shù)據(jù)作為訓練集X; (2)在找出的訓練集中分出大類樣本和小類樣本,并分別計算大類樣本和小類樣本的個數(shù)lb和ls; (3)采用訓練集劃分的方法取得K組平衡的數(shù)據(jù)集,每組平衡數(shù)據(jù)集包含ls*ρ個大類樣本和ls*ρ個小類樣本,其中K為要設定的基分類器的個數(shù),ρ為小類樣本的采樣率; (4)將得到的K組數(shù)據(jù)集隨機分到K個基分類器中,作為基分類器上的初始訓練集xtrn; (5)在總的訓練集中排除掉初始訓練集xtrn,得到各基分類器上的初始驗證集,記為xte; (6)基分類器選用KMP,用動態(tài)樣本選擇的方法進行循環(huán)訓練,將每次訓練得到的決策函數(shù)在測試集上進行測試 6a)對基分類器上的訓練集xtrn進行訓練,得到?jīng)Q策函數(shù)Ck,t,利用決策函數(shù)Ck,t對測試集測試,得到?jīng)Q策值 hk,t(x)∈{-1,+1},k=1,2,…,K 其中,k為基分類器的標記,代表了第k個基分類器,t為在該基分類器上的訓練輪數(shù),x為測試集中的一個數(shù)據(jù)點; 6b)利用決策函數(shù)Ck,t對訓練集測試,并計算當前輪決策函數(shù)的錯誤率ek,t ek,t=(kk*Nerr_s+Nerr_b)/(kk*ls+lb) 其中,kk為調節(jié)總正確率與小類樣本正確率之間大小關系的代價敏感因子,Nerr_b和Nerr_s分別為訓練集中大類樣本和小類樣本被分錯的個數(shù); 6c)根據(jù)當前輪決策函數(shù)的錯誤率ek,t’計算當前輪決策函數(shù)的權重αk,t
      6d)在驗證集xte上驗證Ck,t的效果,將驗證集中分錯的樣本點按被錯分的容易程度從大到小排序; 6e)如果錯分樣本個數(shù)大于設定的閾值q,則從排列好的錯分樣本中選擇前q個,將它們從驗證集xte中取出放入訓練集xtrn中;如果錯分樣本個數(shù)小于q,則將所有錯分樣本從xte取出放入xtrn中; 6f)當驗證集xte中的樣本全部分對或者驗證集xte為空時,循環(huán)停止,否則返回到步驟6a)中繼續(xù)執(zhí)行; (7)將各分類器上每輪的決策值hk,t(x)加權集成,得到最終的識別結果
      其中,hk,t(x)為第k個基分類器t輪情況下的決策值,αk,t是第k個基分類器t輪情況下決策函數(shù)的權重。
      本發(fā)明與現(xiàn)有的技術相比具有以下優(yōu)點 1.本發(fā)明采用訓練集劃分的方法,從不同的平衡數(shù)據(jù)集開始訓練,使測試結果能夠有效避免初始平衡數(shù)據(jù)集選取的影響; 2.本發(fā)明由于在訓練中根據(jù)驗證集的分類結果動態(tài)的選擇訓練樣本,組成訓練集xtrn,使得所用到的訓練樣本較少,因而減少了時間開銷; 3.本發(fā)明由于在計算決策函數(shù)錯誤率時引入了調節(jié)總正確率與小類樣本識別率之間關系的代價敏感因子kk,使得二者能夠根據(jù)需要得到調整; 4.本發(fā)明在集成學習的框架下,引入了動態(tài)樣本選擇的方法來選擇訓練樣本,使得本發(fā)明處理生物信息識別問題更加有效。



      圖1是本發(fā)明基于動態(tài)樣本選擇集成的生物信息識別方法流程圖; 圖2是本發(fā)明與動態(tài)樣本選擇、NB+DTS兩種算法對data3260數(shù)據(jù)測試得到的ROC曲線對比圖; 圖3是本發(fā)明與動態(tài)樣本選擇、NB+DTS兩種算法對data2483數(shù)據(jù)測試得到的ROC曲線對比圖; 圖4是本發(fā)明在data1030數(shù)據(jù)上測得的正確率與查全率隨kk而變化的影響圖; 圖5是本發(fā)明在data1030數(shù)據(jù)上測得的AUC值隨kk變化的影響圖。

      具體實施例方式 參照圖1,本發(fā)明的具體實施過程如下 步驟1.確定好要訓練和測試的生物信息數(shù)據(jù)。
      本方法是生物信息數(shù)據(jù)識別問題,因此首先具有一些訓練樣本,帶有標簽。在實驗中從有標簽的數(shù)據(jù)中隨機抽取40%作為訓練集X,另一部分作為測試集。
      步驟2.對確定好的訓練集數(shù)據(jù)進行歸一化。
      對確定好的訓練集數(shù)據(jù),通過如下公式進行歸一化處理,以去除數(shù)據(jù)間量級的影響,得到歸一化后訓練數(shù)據(jù)中的特征
      其中,v=(f1,,f2,…,fn)表示訓練數(shù)據(jù),min(v)表示(f1,,f2,…,fn)之中的最小值,max(v)表示(f1,,f2,…,fn)之中的最大值。這樣v′=(f′1,,f2′,…,fn′)就是歸一化后的訓練數(shù)據(jù)。
      步驟3.在歸一化后的訓練數(shù)據(jù)中找出大類樣本和小類樣本,并分別計算大類樣本和小類樣本的個數(shù)lb和ls。
      步驟4.對歸一化后的訓練數(shù)據(jù)采用訓練集劃分的方法,隨機分成K組平衡的數(shù)據(jù)集,在每組平衡數(shù)據(jù)集中設有2*ls*ρ個樣本,其中,大類樣本和小類樣本的個數(shù)都是ls*ρ,ρ為小類樣本的采樣率。
      步驟5.將上步得到的K組平衡的數(shù)據(jù)集分到K個基分類器中,作為基分類器上的初始訓練集xtrn,在總的訓練集X中排除掉初始訓練集xtrn,得到基分類器上的初始驗證集xte,即xte=X-xtrn。
      步驟6.在得到初始訓練集xtrn和驗證集xte后,每個基分類器上用動態(tài)樣本選擇的方法開始訓練。
      6a)基分類器使用核匹配追蹤分類器,對基分類器上的訓練集xtrn進行訓練,得到?jīng)Q策函數(shù)Ck,t 并利用決策函數(shù)Ck,t對測試集測試,得到?jīng)Q策值 hk,t(x)∈{-1,+1},k=1,2,…,K; 其中,k為基分類器的標記,代表第k個基分類器,t為在該基分類器上的訓練輪數(shù),x為測試集中的數(shù)據(jù)點; 6b)利用得到的決策函數(shù)Ck,t對總的訓練集X進行測試,并計算當前輪決策函數(shù)的錯誤率ek,t為 ek,t=(kk*Nerr_s+Nerr_ b)/(kk*ls+lb) 其中,kk是給定的調節(jié)總正確率與小類樣本識別率之間關系的代價敏感因子,要求kk必須大于零,Nerr_b和Nerr_s分別代表總訓練集X中大類樣本和小類樣本被錯分的個數(shù); 6c)根據(jù)當前輪決策函數(shù)的錯誤率ek,t,計算當前輪決策函數(shù)的權重αk,t
      6d)在驗證集xte上驗證得到的Ck,t的效果,將xte中被分錯的樣本點按被錯分的容易程度從大到小排序,被錯分的容易程度表示錯分樣本決策值求絕對值后的值,即|f(x)|,該決策值f(x)由如下公式得到 其中,gi(x)為KMP訓練得到的一組基函數(shù),βi為對應gi(x)的相關系數(shù); 6e)如果驗證集xte中錯分樣本個數(shù)大于設定的閾值q,則選擇前q個錯分樣本,將它們取出放入訓練集xtrn中;如果錯分樣本個數(shù)小于q,則將所有錯分的樣本取出并且放入訓練集xtrn中,這樣就產(chǎn)生了新的xtrn和xte; 6f)當驗證集xte中的樣本全部分對或者驗證集為空時,循環(huán)停止。否則返回到6a)中繼續(xù)執(zhí)行。
      步驟7.將基分類器上每輪的決策值hk,t(x)加權集成,得到最終的識別結果
      其中,hk,t(x)為第k個基分類器t輪情況下的決策值,αk,t是第k個基分類器t輪情況下決策函數(shù)的權重。
      本發(fā)明效果可以通過以下實驗進一步說明 1.實驗條件和內容 實驗仿真環(huán)境為MATLAB 7.0.4,Intel(R)Pentium(R)1 CPU 2.4GHz,WindowXP Professional。
      實驗內容包括分別應用本發(fā)明、動態(tài)樣本選擇和NB+DTS三種方法對表1中的數(shù)據(jù)進行分類識別。其中,NB+DTS方法為先通過訓練集劃分的方法得到K組平衡數(shù)據(jù)集,然后再利用Network Boosting方法集成訓練,所以稱為Network Boosting+Division of Training Set,簡稱NB+DTS。
      表1生物信息數(shù)據(jù)類型 本實驗中的data1030為microRNA識別數(shù)據(jù),其中microRNA為正樣本,它是生物體內一種重要的非編碼RNA分子,在調解遺傳基因表達、控制細胞生長等方面有著重要的作用。表1中的data2483和data5979是核仁小分子RNA識別數(shù)據(jù),data2483是從非編碼RNA中識別出C/D box snoRNA的數(shù)據(jù),正樣本是C/D box snoRNA,data5979是從非編碼RNA中找出H/ACA box snoRNA的數(shù)據(jù),正樣本是H/ACA boxsnoRNA,data3260為在EST序列中挖掘SNP位點的數(shù)據(jù),其中,SNP為正樣本,data8687也是microRNA識別數(shù)據(jù),其中,訓練集中有193個正例和8494個反例。這五種數(shù)據(jù)的類型如表1中所示。
      實驗參數(shù)設置為EAES和NB+DTS的基分類器的個數(shù)為10,NB+DTS方法所用的網(wǎng)絡結構為隨機網(wǎng)絡,網(wǎng)絡連接概率為0.2,訓練輪次為10輪。EAES和動態(tài)樣本選擇中采樣率取的都是1,分錯樣本的轉移最大數(shù)q為70?;诸惼髦泻撕瘮?shù)選用RBF,RBF核參數(shù)為2,最大基原子數(shù)為100,擬合間隔步數(shù)為4,停止誤差為0.001。EAES中的kk根據(jù)數(shù)據(jù)不平衡度的大小有所不同,在實驗中,對data1031、data5979和data8687進行分類時kk取的是15,對data2483和data3260進行分類時取的是10。下面實驗的結果都是50次實驗結果平均后的值。
      2.實驗結果 用本發(fā)明、動態(tài)樣本選擇和NB+DTS三種方法在data2483、data3260數(shù)據(jù)集上的ROC曲線對比結果分別如圖1和圖2所示。此對比圖的X軸表示查全率,Y軸表示查準率。ROC曲線越凸越靠近左上方,表示對應的分類器一般化能力越強。由于本發(fā)明在集成學習的框架下,引入了動態(tài)樣本選擇的方法來選擇訓練樣本,所以處理生物信息識別問題更加有效,一般化能力更強。從圖1和圖2中可以看出,本發(fā)明一般化能力最強。
      在下面對比結果中,從正確率、查全率、時間和AUC四方面對比本發(fā)明的優(yōu)劣。正確率代表總的識別正確率;查全率是信息檢索與數(shù)據(jù)挖掘中常用的評價指標,代表了小類樣本被識別出來的概率;時間是指從訓練到測試整個過程所需要的時間;AUC是指ROC曲線下面包括的面積,即ROC曲線的積分,AUC能以定量的方式表示該ROC曲線對應的分類器的一般化能力。
      1)將本發(fā)明的方法與動態(tài)樣本選擇的方法做比較,實驗對比結果如表2 表2EAES與動態(tài)樣本選擇實驗對比結果
      從表2中可以看出,雖然本發(fā)明的方法比動態(tài)樣本選擇所耗用的時間長,但是本發(fā)明的方法效果明顯要比動態(tài)樣本選擇要好,尤其是查全率和面積AUC,在每個數(shù)據(jù)上的效果都比動態(tài)樣本選擇要好。這是由于原來的方法只是以隨機的一個平衡子集開始動態(tài)選擇訓練的,而本發(fā)明從不同的平衡子集入手,提高了多樣性,最后通過集成的方法求得結果,使算法有了更高的泛化能力。
      2)將本發(fā)明的方法與NB+DTS方法做比較,實驗對比結果如表3 表3EAES與NB+DTS實驗對比結果
      從表3可以看到,本發(fā)明與NB+DTS方法相比較,不僅在正確率和AUC值上相對較高,而且所需要的時間也較少,這表明了本發(fā)明在處理生物信息識別問題上比NB+DTS方法更有優(yōu)勢。這是因為本發(fā)明在訓練集劃分的基礎上引入了動態(tài)樣本選擇的方法,最后通過加權集成得到測試結果,所以利用本發(fā)明不僅取得的結果比較好,而且所需要時間相對較低。
      本發(fā)明方法中代價敏感因子kk對data1031測試結果的影響如圖4和圖5所示,其中,圖4代表正確率和查全率隨kk變化的影響圖,圖5代表AUC值隨kk變化的影響圖。從圖4可以看出,隨著kk的增大,正確率隨之降低,而查全率隨之上升。這表明kk變化可以調節(jié)正確率和查全率之間的大小關系。從圖5可以看出,即使kk變化,AUC值仍然不會有大的變化,只在很短的區(qū)間內波動,這表明kk變化不會影響到分類器一般化能力的改變。
      以上實驗表明,本發(fā)明是處理生物信息識別問題非常有效的一種方法,與動態(tài)樣本選擇算法相比效果有明顯提高,與NB+DTS方法相比計算復雜度減小,加快了識別速度,提高了識別效果。
      權利要求
      1.一種基于動態(tài)樣本選擇集成的生物信息識別方法,包括如下過程
      (1)找出一些帶標記的生物信息數(shù)據(jù)作為訓練集X;
      (2)在找出的訓練集中分出大類樣本和小類樣本,并分別計算大類樣本和小類樣本的個數(shù)lb和ls;
      (3)采用訓練集劃分的方法取得K組平衡的數(shù)據(jù)集,每組平衡數(shù)據(jù)集包含ls*ρ個大類樣本和ls*ρ個小類樣本,其中K為要設定的基分類器的個數(shù),ρ為小類樣本的采樣率;
      (4)將得到的K組數(shù)據(jù)集隨機分到K個基分類器中,作為基分類器上的初始訓練集xtrn;
      (5)在總的訓練集中排除掉初始訓練集xtrn,得到各基分類器上的初始驗證集,記為xte;
      (6)基分類器選用KMP,用動態(tài)樣本選擇的方法進行循環(huán)訓練,將每次訓練得到的決策函數(shù)在測試集上進行測試
      6a)對基分類器上的訓練集xtrn進行訓練,得到?jīng)Q策函數(shù)Ck,t,利用決策函數(shù)Ck,t對測試集測試,得到?jīng)Q策值
      hk,t(x)∈{-1,+1},k=1,2,…,K
      其中,k為代表了第k個基分類器,t為在該基分類器上的訓練輪數(shù),x為測試集中的一個數(shù)據(jù)點;
      6b)利用決策函數(shù)Ck,t對訓練集X測試,并計算當前輪決策函數(shù)的錯誤率ek,t
      ek,t=(kk*Nerr_s+Nerr_b)/(kk*ls+lb)
      其中,kk為調節(jié)總正確率與小類樣本正確率之間大小關系的代價敏感因子,Nerr_b和Nerr_s分別為訓練集X中大類樣本和小類樣本被分錯的個數(shù);
      6c)根據(jù)當前輪決策函數(shù)的錯誤率ek,t,計算當前輪決策函數(shù)的權重αk,t
      6d)在驗證集xte上驗證Ck,t的效果,將驗證集中分錯的樣本點按被錯分的容易程度從大到小排序;
      6e)如果錯分樣本個數(shù)大于設定的閾值q,則從排列好的錯分樣本中選擇前q個,將它們從驗證集xte中取出放入訓練集xtrn中;如果錯分樣本個數(shù)小于q,則將所有錯分樣本從xte取出放入xtrn中;
      6f)當驗證集xte中的樣本全部分對或者驗證集xte為空時,循環(huán)停止,否則返回到步驟6a)中繼續(xù)執(zhí)行;
      (7)將各分類器上每輪的決策值hk,t(x)加權集成,得到最終的識別結果
      其中,hk,t(x)為第k個基分類器t輪情況下的決策值,αk,t是第k個基分類器t輪情況下決策函數(shù)的權重。
      2.根據(jù)權利要求書1所述的方法,其中步驟(3)所述的采用訓練集劃分的方法取得K組平衡的數(shù)據(jù)集,按如下步驟取得
      2a)從訓練集中隨機選取ls*ρ個大類樣本和ls*ρ個小類樣本,其中ρ為小類樣本的采樣率;
      2b)將選擇出來的大類樣本和小類樣本組成一組平衡數(shù)據(jù)集;
      2c)按步驟2a)和2b)取得其余的K-1組平衡數(shù)據(jù)集。
      3.根據(jù)權利要求書1所述的方法,其中步驟6d)所述的在驗證集xte上驗證Ck,t的效果,將分錯的樣本點按被錯分的容易程度從大到小排序,按如下公式排序
      3a)找出驗證集中被分錯的數(shù)據(jù)點x;
      3b)計算數(shù)據(jù)點x的決策值f(x)
      其中,gi(x)為KMP訓練得到的一組基函數(shù),βi為對應gi(x)的相關系數(shù);
      3c)根據(jù)數(shù)據(jù)點x的決策值絕對值|f(x)|的數(shù)值從大到小排序。
      全文摘要
      本發(fā)明公開了一種基于動態(tài)樣本選擇集成的生物信息識別方法,主要解決因數(shù)據(jù)不平衡帶來的對小類樣本正確識別率低的問題。處理此問題的實現(xiàn)過程是(1)利用訓練集劃分的方法將訓練集劃分為一系列的平衡子數(shù)據(jù)集;(2)將得到的平衡子數(shù)據(jù)集分到各自的基分類器中作為初始訓練集;(3)在各基分類器上利用動態(tài)樣本選擇的方法循環(huán)訓練;(4)用每次訓練得到的決策函數(shù)對測試集測試得到?jīng)Q策結果;(5)利用代價敏感思想對決策結果求權重;(6)對各次的決策結果加權集成得到最終的識別結果。本發(fā)明與現(xiàn)有的技術相比具有準確度高,計算復雜度低,可根據(jù)需要調節(jié)正確率與查全率之間大小關系的優(yōu)點,用于識別生物信息和網(wǎng)絡入侵、金融欺詐和反垃圾郵件的檢測。
      文檔編號G06F19/00GK101763466SQ20101001362
      公開日2010年6月30日 申請日期2010年1月20日 優(yōu)先權日2010年1月20日
      發(fā)明者緱水平, 焦李成, 楊輝, 朱虎明, 吳建設, 楊淑媛, 侯彪, 張佳 申請人:西安電子科技大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1