一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法

文檔序號：6619404閱讀：818來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種蛋白質(zhì)遠程同源性檢測和折疊識別方法。
背景技術(shù)：
目前，國內(nèi)外的蛋白質(zhì)遠程同源性檢測方法大致分為下面幾種類型動態(tài)規(guī)劃算法、產(chǎn)生式模型、判別式模型。判別式模型是該領(lǐng)域中預(yù)測效果最優(yōu)的方法，其中基于支持向量機(Support Vector Machine, SVM)的方法是目前最常用的方法。提高基于支持向量機方法的預(yù)測效果最有效的途徑是尋找到一種恰當?shù)牡鞍踪|(zhì)表示形式，進而把蛋白質(zhì)序列向量化。通過運行PSI-BLAST (位置特異性迭代BLAST)輸出的蛋白質(zhì)多序列比對結(jié)果中包含大量進化信息。因為頻率譜比蛋白質(zhì)序列包含更多信息，因此采用頻率譜中包含的進化信息來提高蛋白質(zhì)遠程同源性檢測和折疊識別的預(yù)測效果具有重要意義。之前有研究者提出了一種基于二進制譜的特征向量，該方法通過頻率閾值把頻率譜轉(zhuǎn)化為二進制譜。頻率大于閾值的氨基酸用1表示，頻率小于閾值的氨基酸用0表示。二進制譜是一種蛋白質(zhì)組成成份，并被用于解決一些生物問題，例如蛋白質(zhì)結(jié)構(gòu)域邊界預(yù)測，均值力勢能設(shè)計和蛋白質(zhì)相互作用位點預(yù)測。雖然基于二進制譜的方法取得了成功，但是二進制譜具有一些缺點。首先，因為將頻率譜轉(zhuǎn)化為二進制譜的頻率閾值是通過經(jīng)驗選擇的，所以沒有系統(tǒng)的方法可以優(yōu)化該閾值，因此沒有辦法保證會找到最優(yōu)的閾值；其次，二進制譜不能區(qū)分氨基酸出現(xiàn)頻率的差別。頻率大于閾值的氨基酸都用1表示，這種表示方法忽略了這些氨基酸具有不同的頻率并且在進化過程中具有不同的重要性。

發(fā)明內(nèi)容
本發(fā)明是為了解決現(xiàn)有的蛋白質(zhì)遠程同源性檢測和折疊識別方法中，二進制譜無法找到最優(yōu)閾值，無法區(qū)分氨基酸出現(xiàn)頻率的差別的問題，提供一種一種基于Top-n-gram 的蛋白質(zhì)遠程同源性檢測和折疊識別方法。該方法的具體步驟為步驟一運行PSI-BLAST，輸入測試蛋白質(zhì)序列進行多序列比對，計算氨基酸i的偽計數(shù)gi 20S1=Y4Ij^iqljI Pj)J=I其中。是氨基酸j的觀測頻率，Pj是氨基酸j的背景頻率，Qij是氨基酸i和氨基酸j之間對應(yīng)的替換矩陣的分數(shù)；步驟二根據(jù)氨基酸i的偽計數(shù)生成頻率譜；步驟三將頻率譜轉(zhuǎn)化為Top-n-gram ；步驟四通過統(tǒng)計每種Top-n-gram出現(xiàn)的次數(shù)，將測試蛋白質(zhì)序列轉(zhuǎn)化為固定長度的向量，然后構(gòu)建詞-文檔矩陣W ；
步驟五對生成的詞-文檔矩陣W進行奇異值分解，獲得測試蛋白質(zhì)序列對應(yīng)的潛在語義表達向量；步驟六將測試蛋白質(zhì)序列對應(yīng)的潛在語義表達向量輸入SVM分類器進行分類， SVM分類器賦給測試蛋白質(zhì)序列一個分數(shù)，分數(shù)值大于0的測試蛋白質(zhì)序列具有同源性或折疊，從而得到預(yù)測結(jié)果。步驟二所述的步驟二所述的生成頻率譜的方法為計算測試蛋白質(zhì)序列中每個氨基酸位點上20種標準氨基酸的目標頻率& Q. = (α +βδ )/(α+β)其中β是自由參數(shù)，為PSI-BLAST的默認值10，α是多序列比對中某一列中所有出現(xiàn)的氨基酸種類減1 ；將頻率譜表示為矩陣Μ，其維數(shù)為LXN，其中L為蛋白質(zhì)序列的長度，N為常數(shù)20，即標準氨基酸的數(shù)量，M中的元素為目標譜率仏。步驟三所述的將頻率譜轉(zhuǎn)化為Top-n-gram的方法為將頻率譜每一行中的20種標準氨基酸按照其目標頻率降序排列，然后把目標頻率最大的前η個氨基酸按照其頻率組合為一個Top-n-gram，每一個Top-n-gram通過氨基酸在Top-n-gram中的不同位置區(qū)別它們不同的頻率，共獲得L個Top-n-gram，其中η為大于等于1且小于等于5的整數(shù)。步驟四所述的詞-文檔矩陣W中詞對應(yīng)Top-n-gram，文檔對應(yīng)測試蛋白質(zhì)序列。步驟五所述的對生成的詞-文檔矩陣W進行奇異值分解的方法為將詞-文檔矩陣W分解為三個矩陣W = USVt其中矩陣U是維數(shù)為MXK的左奇異矩陣，S是維數(shù)為KXK的對角陣，其對角元素是矩陣W的奇異值，并且滿足S1彡&彡...％ > 0，V是維數(shù)為NXK的右奇異矩陣，通過保留前R個奇異值從而達到降維去除噪音的目的，降維后的矩陣U、S和V的維數(shù)分別為MXR、 RXR 禾P NXR, R 的值為 300。步驟六所述的SVM分類器是通過下述訓(xùn)練方法獲得的所述訓(xùn)練方法中以多個訓(xùn)練蛋白質(zhì)序列作為訓(xùn)練樣本，分別對每個訓(xùn)練蛋白序列進行下述訓(xùn)練，步驟A 運行PSI-BLAST，輸入訓(xùn)練蛋白質(zhì)序列進行多序列比對，計算氨基酸i的偽計數(shù)gi 20
權(quán)利要求
1.一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法，其特征是，它的具體步驟為步驟一運行PSI-BLAST，輸入測試蛋白質(zhì)序列進行多序列比對，計算氨基酸i的偽計數(shù)gi
2.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法，其特征在于，步驟二所述的生成頻率譜的方法為計算測試蛋白質(zhì)序列中每個氨基酸位點上20種標準氨基酸的目標頻率Qi Qi =其中β是自由參數(shù)，為PSI-BLAST的默認值10，α是多序列比對中某一列中所有出現(xiàn) 的氨基酸種類減1 ；將頻率譜表示為矩陣Μ，其維數(shù)為LXN，其中L為蛋白質(zhì)序列的長度，N為常數(shù)20，即標準氨基酸的數(shù)量，M中的元素為目標譜率仏。
3.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法，其特征在于，步驟三所述的將頻率譜轉(zhuǎn)化為Top-n-gram的方法為將頻率譜每一行中的20種標準氨基酸按照其目標頻率降序排列，然后把目標頻率最大的前η個氨基酸按照其頻率組合為一個Top-n-gram，每一個Top-n-gram通過氨基酸在 Top-n-gram中的不同位置區(qū)別它們不同的頻率，共獲得L個Top-n-gram，其中η為大于等于1且小于等于5的整數(shù)。
4.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法，其特征在于，步驟四所述的詞-文檔矩陣W中詞對應(yīng)Top-n-gram，文檔對應(yīng)測試蛋白質(zhì)序列。
5.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法，其特征在于，步驟五所述的對生成的詞-文檔矩陣W進行奇異值分解的方法為將詞-文檔矩陣W分解為三個矩陣W = USVt其中矩陣U是維數(shù)為MXK的左奇異矩陣，S是維數(shù)為KXK的對角陣，其對角元素是矩陣W的奇異值，并且滿足S1彡&彡...％ > 0，V是維數(shù)為NXK的右奇異矩陣，通過保留前 R個奇異值從而達到降維去除噪音的目的，降維后的矩陣U、S和V的維數(shù)分別為MXR、RXR 禾口 NXR，R的值為300。
6.根據(jù)權(quán)利要求1所述的一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法，其特征在于，步驟六所述的SVM分類器是通過下述訓(xùn)練方法獲得的所述訓(xùn)練方法中以多個訓(xùn)練蛋白質(zhì)序列作為訓(xùn)練樣本，分別對每個訓(xùn)練蛋白序列進行下述訓(xùn)練，步驟A 運行PSI-BLAST，輸入訓(xùn)練蛋白質(zhì)序列進行多序列比對，計算氨基酸i的偽計數(shù)
全文摘要
一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法，涉及一種蛋白質(zhì)遠程同源性檢測和折疊識別方法。本發(fā)明為了解決現(xiàn)有的蛋白質(zhì)遠程同源性檢測和折疊識別方法中，二進制譜無法找到最優(yōu)閾值，無法區(qū)分氨基酸出現(xiàn)頻率的差別的問題。具體步驟一、運行PSI-BLAST，輸入測試蛋白質(zhì)序列進行多序列比對，計算氨基酸i的偽計數(shù)；二、生成頻率譜；三、將頻率譜轉(zhuǎn)化為Top-n-gram；四、獲得測試蛋白質(zhì)序列對應(yīng)的潛在語義表達向量；五、將測試蛋白質(zhì)序列對應(yīng)的潛在語義表達向量輸入SVM分類器進行分類，得到預(yù)測結(jié)果。應(yīng)用于蛋白質(zhì)同源性檢測和折疊識別領(lǐng)域。
文檔編號G06F19/18GK102043910SQ20101060032
公開日2011年5月4日申請日期2010年12月22日優(yōu)先權(quán)日2010年12月22日
發(fā)明者劉濱, 劉秉權(quán), 劉遠超, 孫承杰, 林磊, 王曉龍申請人:哈爾濱工業(yè)大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林磊;劉濱;孫承杰;王曉龍;劉秉權(quán);劉遠超
技術(shù)所有人：哈爾濱工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：計算機自動識別手機并安裝手機驅(qū)動程序的系統(tǒng)及方法
上一篇：交通參與者交通行為安全性測評方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于Top-n-gram的蛋白質(zhì)遠程同源性檢測和折疊識別方法