国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法

      文檔序號:6619404閱讀:818來源:國知局
      專利名稱:一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種蛋白質(zhì)遠程同源性檢測和折疊識別方法。
      背景技術(shù)
      目前,國內(nèi)外的蛋白質(zhì)遠程同源性檢測方法大致分為下面幾種類型動態(tài)規(guī)劃算 法、產(chǎn)生式模型、判別式模型。判別式模型是該領(lǐng)域中預(yù)測效果最優(yōu)的方法,其中基于支持 向量機(Support Vector Machine, SVM)的方法是目前最常用的方法。提高基于支持向量 機方法的預(yù)測效果最有效的途徑是尋找到一種恰當?shù)牡鞍踪|(zhì)表示形式,進而把蛋白質(zhì)序列 向量化。通過運行PSI-BLAST (位置特異性迭代BLAST)輸出的蛋白質(zhì)多序列比對結(jié)果中包 含大量進化信息。因為頻率譜比蛋白質(zhì)序列包含更多信息,因此采用頻率譜中包含的進化 信息來提高蛋白質(zhì)遠程同源性檢測和折疊識別的預(yù)測效果具有重要意義。之前有研究者提 出了一種基于二進制譜的特征向量,該方法通過頻率閾值把頻率譜轉(zhuǎn)化為二進制譜。頻率 大于閾值的氨基酸用1表示,頻率小于閾值的氨基酸用0表示。二進制譜是一種蛋白質(zhì)組 成成份,并被用于解決一些生物問題,例如蛋白質(zhì)結(jié)構(gòu)域邊界預(yù)測,均值力勢能設(shè)計和蛋白 質(zhì)相互作用位點預(yù)測。雖然基于二進制譜的方法取得了成功,但是二進制譜具有一些缺點。 首先,因為將頻率譜轉(zhuǎn)化為二進制譜的頻率閾值是通過經(jīng)驗選擇的,所以沒有系統(tǒng)的方法 可以優(yōu)化該閾值,因此沒有辦法保證會找到最優(yōu)的閾值;其次,二進制譜不能區(qū)分氨基酸出 現(xiàn)頻率的差別。頻率大于閾值的氨基酸都用1表示,這種表示方法忽略了這些氨基酸具有 不同的頻率并且在進化過程中具有不同的重要性。

      發(fā)明內(nèi)容
      本發(fā)明是為了解決現(xiàn)有的蛋白質(zhì)遠程同源性檢測和折疊識別方法中,二進制譜無 法找到最優(yōu)閾值,無法區(qū)分氨基酸出現(xiàn)頻率的差別的問題,提供一種一種基于Top-n-gram 的蛋白質(zhì)遠程同源性檢測和折疊識別方法。該方法的具體步驟為步驟一運行PSI-BLAST,輸入測試蛋白質(zhì)序列進行多序列比對,計算氨基酸i的 偽計數(shù)gi 20S1=Y4Ij^iqljI Pj)J=I其中。是氨基酸j的觀測頻率,Pj是氨基酸j的背景頻率,Qij是氨基酸i和氨基 酸j之間對應(yīng)的替換矩陣的分數(shù);步驟二 根據(jù)氨基酸i的偽計數(shù)生成頻率譜;步驟三將頻率譜轉(zhuǎn)化為Top-n-gram ;步驟四通過統(tǒng)計每種Top-n-gram出現(xiàn)的次數(shù),將測試蛋白質(zhì)序列轉(zhuǎn)化為固定長 度的向量,然后構(gòu)建詞-文檔矩陣W ;
      步驟五對生成的詞-文檔矩陣W進行奇異值分解,獲得測試蛋白質(zhì)序列對應(yīng)的潛 在語義表達向量;步驟六將測試蛋白質(zhì)序列對應(yīng)的潛在語義表達向量輸入SVM分類器進行分類, SVM分類器賦給測試蛋白質(zhì)序列一個分數(shù),分數(shù)值大于0的測試蛋白質(zhì)序列具有同源性或 折疊,從而得到預(yù)測結(jié)果。步驟二所述的步驟二所述的生成頻率譜的方法為計算測試蛋白質(zhì)序列中每個氨基酸位點上20種標準氨基酸的目標頻率& Q. = (α +βδ )/(α+β)其中β是自由參數(shù),為PSI-BLAST的默認值10,α是多序列比對中某一列中所有 出現(xiàn)的氨基酸種類減1 ;將頻率譜表示為矩陣Μ,其維數(shù)為LXN,其中L為蛋白質(zhì)序列的長度,N為常數(shù)20, 即標準氨基酸的數(shù)量,M中的元素為目標譜率仏。步驟三所述的將頻率譜轉(zhuǎn)化為Top-n-gram的方法為將頻率譜每一行中的20種標準氨基酸按照其目標頻率降序排列,然后把目標頻 率最大的前η個氨基酸按照其頻率組合為一個Top-n-gram,每一個Top-n-gram通過氨基酸 在Top-n-gram中的不同位置區(qū)別它們不同的頻率,共獲得L個Top-n-gram,其中η為大于 等于1且小于等于5的整數(shù)。步驟四所述的詞-文檔矩陣W中詞對應(yīng)Top-n-gram,文檔對應(yīng)測試蛋白質(zhì)序列。步驟五所述的對生成的詞-文檔矩陣W進行奇異值分解的方法為將詞-文檔矩 陣W分解為三個矩陣W = USVt其中矩陣U是維數(shù)為MXK的左奇異矩陣,S是維數(shù)為KXK的對角陣,其對角元素 是矩陣W的奇異值,并且滿足S1彡&彡...% > 0,V是維數(shù)為NXK的右奇異矩陣,通過保 留前R個奇異值從而達到降維去除噪音的目的,降維后的矩陣U、S和V的維數(shù)分別為MXR、 RXR 禾P NXR, R 的值為 300。步驟六所述的SVM分類器是通過下述訓(xùn)練方法獲得的所述訓(xùn)練方法中以多個訓(xùn)練蛋白質(zhì)序列作為訓(xùn)練樣本,分別對每個訓(xùn)練蛋白序列 進行下述訓(xùn)練,步驟A 運行PSI-BLAST,輸入訓(xùn)練蛋白質(zhì)序列進行多序列比對,計算氨基酸i的偽 計數(shù)gi 20
      權(quán)利要求
      1.一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法,其特征是,它的具 體步驟為步驟一運行PSI-BLAST,輸入測試蛋白質(zhì)序列進行多序列比對,計算氨基酸i的偽計 數(shù)gi
      2.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別 方法,其特征在于,步驟二所述的生成頻率譜的方法為計算測試蛋白質(zhì)序列中每個氨基酸位點上20種標準氨基酸的目標頻率Qi Qi =其中β是自由參數(shù),為PSI-BLAST的默認值10,α是多序列比對中某一列中所有出現(xiàn) 的氨基酸種類減1 ;將頻率譜表示為矩陣Μ,其維數(shù)為LXN,其中L為蛋白質(zhì)序列的長度,N為常數(shù)20,即標 準氨基酸的數(shù)量,M中的元素為目標譜率仏。
      3.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別 方法,其特征在于,步驟三所述的將頻率譜轉(zhuǎn)化為Top-n-gram的方法為將頻率譜每一行中的20種標準氨基酸按照其目標頻率降序排列,然后把目標頻率最 大的前η個氨基酸按照其頻率組合為一個Top-n-gram,每一個Top-n-gram通過氨基酸在 Top-n-gram中的不同位置區(qū)別它們不同的頻率,共獲得L個Top-n-gram,其中η為大于等 于1且小于等于5的整數(shù)。
      4.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別 方法,其特征在于,步驟四所述的詞-文檔矩陣W中詞對應(yīng)Top-n-gram,文檔對應(yīng)測試蛋白 質(zhì)序列。
      5.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識 別方法,其特征在于,步驟五所述的對生成的詞-文檔矩陣W進行奇異值分解的方法為將 詞-文檔矩陣W分解為三個矩陣W = USVt其中矩陣U是維數(shù)為MXK的左奇異矩陣,S是維數(shù)為KXK的對角陣,其對角元素是矩陣W的奇異值,并且滿足S1彡&彡...% > 0,V是維數(shù)為NXK的右奇異矩陣,通過保留前 R個奇異值從而達到降維去除噪音的目的,降維后的矩陣U、S和V的維數(shù)分別為MXR、RXR 禾口 NXR,R的值為300。
      6.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別 方法,其特征在于,步驟六所述的SVM分類器是通過下述訓(xùn)練方法獲得的所述訓(xùn)練方法中以多個訓(xùn)練蛋白質(zhì)序列作為訓(xùn)練樣本,分別對每個訓(xùn)練蛋白序列進行 下述訓(xùn)練,步驟A 運行PSI-BLAST,輸入訓(xùn)練蛋白質(zhì)序列進行多序列比對,計算氨基酸i的偽計數(shù)
      全文摘要
      一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法,涉及一種蛋白質(zhì)遠程同源性檢測和折疊識別方法。本發(fā)明為了解決現(xiàn)有的蛋白質(zhì)遠程同源性檢測和折疊識別方法中,二進制譜無法找到最優(yōu)閾值,無法區(qū)分氨基酸出現(xiàn)頻率的差別的問題。具體步驟一、運行PSI-BLAST,輸入測試蛋白質(zhì)序列進行多序列比對,計算氨基酸i的偽計數(shù);二、生成頻率譜;三、將頻率譜轉(zhuǎn)化為Top-n-gram;四、獲得測試蛋白質(zhì)序列對應(yīng)的潛在語義表達向量;五、將測試蛋白質(zhì)序列對應(yīng)的潛在語義表達向量輸入SVM分類器進行分類,得到預(yù)測結(jié)果。應(yīng)用于蛋白質(zhì)同源性檢測和折疊識別領(lǐng)域。
      文檔編號G06F19/18GK102043910SQ20101060032
      公開日2011年5月4日 申請日期2010年12月22日 優(yōu)先權(quán)日2010年12月22日
      發(fā)明者劉濱, 劉秉權(quán), 劉遠超, 孫承杰, 林磊, 王曉龍 申請人:哈爾濱工業(yè)大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1