国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于多元熵距離法的微生物基因預(yù)測(cè)方法

      文檔序號(hào):421713閱讀:559來源:國(guó)知局
      專利名稱:基于多元熵距離法的微生物基因預(yù)測(cè)方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及生物信息技術(shù),尤其涉及微生物基因組序列分析、微生物基因識(shí)別、微生物物種識(shí)別等生物信息技術(shù)。
      背景技術(shù)
      二十一世紀(jì)是生命科學(xué)的時(shí)代,也是信息科學(xué)的時(shí)代。隨著人類基因組計(jì)劃(Human Genome Project)的各項(xiàng)任務(wù)接近完成,有關(guān)核酸、蛋白質(zhì)的序列和結(jié)構(gòu)數(shù)據(jù)呈指數(shù)增長(zhǎng)。面對(duì)巨大而復(fù)雜的數(shù)據(jù),運(yùn)用計(jì)算機(jī)管理數(shù)據(jù)、控制誤差、加速分析過程勢(shì)在必行,生物信息學(xué)因此成為當(dāng)今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,也是二十一世紀(jì)自然科學(xué)的核心領(lǐng)域之一。以生物信息學(xué)研究成果為推動(dòng)力的生物信息技術(shù)的重要性也越來越突出。近年來,計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展更是為生物信息的傳遞提供了硬件基礎(chǔ)和實(shí)現(xiàn)的條件,大大地推動(dòng)了生物信息技術(shù)的發(fā)展。美國(guó)能源部于2001年4月緊接著人類基因組計(jì)劃提出了旨在了解生命奧秘的新的“從基因組到生命(Genome ToLife)”的十年宏偉規(guī)劃,該計(jì)劃前言中鄭重指出“二十一世紀(jì)的生物學(xué)最重要的任務(wù)是在基因組水平上認(rèn)識(shí)生命的奧秘。毫無疑義,要達(dá)到這個(gè)目標(biāo)將依賴于建立在系統(tǒng)生物學(xué)和生物信息學(xué)相結(jié)合基礎(chǔ)之上的新一輪的生物信息技術(shù)革命?!币虼耍畔⒓夹g(shù)和生物技術(shù)于一身的生物信息技術(shù)已經(jīng)成為當(dāng)前技術(shù)革命的熱點(diǎn),它是今后進(jìn)行幾乎所有生物、醫(yī)藥研究開發(fā)所必需的舵手和動(dòng)力,也是未來經(jīng)濟(jì)發(fā)展的支柱。
      多年以來,實(shí)驗(yàn)方法是解決在基因組DNA序列中發(fā)現(xiàn)新基因的主要途徑。但是,隨著生物信息技術(shù)的蓬勃發(fā)展,根據(jù)理論方法、利用計(jì)算機(jī)技術(shù)即所謂的生物信息學(xué)方法進(jìn)行基因預(yù)測(cè)越來越成為解決這類問題的重要途徑。所謂基因預(yù)測(cè),就是利用計(jì)算機(jī)技術(shù)和理論方法對(duì)基因組DNA序列中的眾多基因及其調(diào)控區(qū)進(jìn)行定位。由于生物信息技術(shù)的特點(diǎn),只需花費(fèi)較低的成本和較快的時(shí)間,就能夠獲得可靠的基因位置、功能位點(diǎn)位置等重要信息?;蝾A(yù)測(cè)方法是對(duì)生物基因組信息進(jìn)行分析和開發(fā)的必不可少的工具,是今后發(fā)現(xiàn)新基因的重要手段,也是生物信息學(xué)研究的基礎(chǔ)問題之一。當(dāng)前生物基因組數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)的趨勢(shì),基因組信息的集成、DNA序列數(shù)據(jù)的管理、分析和應(yīng)用都變得更為復(fù)雜,因此,專業(yè)和信息技術(shù)的服務(wù)將會(huì)成為主導(dǎo),尤其是利用計(jì)算機(jī)技術(shù)、信息技術(shù)進(jìn)行基因預(yù)測(cè)的服務(wù),將成為后基因組時(shí)代的生物醫(yī)學(xué)技術(shù)、制藥技術(shù)領(lǐng)域發(fā)展的核心技術(shù)。
      微生物(包括細(xì)菌、放線菌、真菌、病毒、立克次氏體、枝原體、衣原體及一些單細(xì)胞低等動(dòng)植物)是進(jìn)行現(xiàn)代分子遺傳學(xué)研究的良好材料,是研究人類遺傳學(xué)必不可少的一條途徑;同時(shí),微生物作為微生物基因工程的反應(yīng)器,又能直接運(yùn)用于干擾素、人胰島素、生長(zhǎng)激素、乙型肝炎疫苗等現(xiàn)代基因工程產(chǎn)品的生產(chǎn),在農(nóng)業(yè)、工業(yè)和生物制藥工程上的應(yīng)用十分廣泛。因此,微生物基因組遺傳信息的研究對(duì)現(xiàn)代生命科學(xué)和基因工程領(lǐng)域的發(fā)展具有十分重要的意義,其經(jīng)濟(jì)利益不可估量。盡管目前人們對(duì)某些微生物(例如大腸桿菌)的遺傳學(xué)特性研究得較為透徹;但是,微生物物種數(shù)目據(jù)估計(jì)多達(dá)2~3百萬種,其中為科學(xué)家所識(shí)別的比例還不到全部的0.5%,到2003年初,對(duì)它們?nèi)蚪MDNA序列已經(jīng)完成測(cè)序并對(duì)基因進(jìn)行定位的則僅100余種,這些基因的定位大多數(shù)是通過國(guó)際上現(xiàn)有的微生物基因預(yù)測(cè)軟件系統(tǒng)的計(jì)算來實(shí)現(xiàn)的。隨著人們對(duì)現(xiàn)有微生物基因組水平上的生命奧秘的進(jìn)一步的研究,而且隨著對(duì)更多未知微生物物種的研究和生物工程運(yùn)用的推進(jìn),可以預(yù)見,基因預(yù)測(cè)軟件系統(tǒng)將越來越體現(xiàn)出其重要的技術(shù)作用和經(jīng)濟(jì)價(jià)值。
      當(dāng)前最著名的微生物基因預(yù)測(cè)軟件系統(tǒng)主要有美國(guó)佐治亞理工學(xué)院M.Borodovsky等發(fā)展的GeneMark軟件系統(tǒng)(包括最近推出的GeneMarkS)和美國(guó)約翰·霍普金斯大學(xué)S.L.Salzberg等推出的GLIMMER軟件系統(tǒng)。它們進(jìn)行基因預(yù)測(cè)的原理主要是提取DNA序列的某些局部特征的信息,例如啟動(dòng)子信號(hào)以及鄰近堿基的關(guān)聯(lián)結(jié)構(gòu),由此采用了高階馬爾科夫鏈或隱馬爾科夫模型。這兩個(gè)軟件系統(tǒng)是目前國(guó)際上精度最高的軟件系統(tǒng),可以通過互聯(lián)網(wǎng)訪問。GeneMark和GeneMarkS的網(wǎng)址為http//opal.biology.gatech.edu/GeneMark,用戶必須通過互聯(lián)網(wǎng)向程序所在的服務(wù)器提交需要進(jìn)行基因預(yù)測(cè)的未知DNA序列,經(jīng)過系統(tǒng)分析預(yù)測(cè)得到的基因信息包括每個(gè)基因的起始位點(diǎn)和終止位點(diǎn)的定位、基因的轉(zhuǎn)錄方向以及基因的長(zhǎng)度等,最后通過電子郵件的方式發(fā)送給用戶。GLIMMER的網(wǎng)址為http//www.tigr.org/software/glimmer或http//www.cs.jhu.edu/labs/compbio/glimmer.html,該系統(tǒng)包括兩個(gè)相關(guān)的可執(zhí)行程序,用戶可以在上述網(wǎng)站下載這兩個(gè)程序,在本地計(jì)算機(jī)上運(yùn)行。程序運(yùn)行結(jié)果給出未知DNA序列中的基因位置信息(包括每個(gè)基因的位置、長(zhǎng)度和轉(zhuǎn)錄方向),將這些信息存為一個(gè)文本文件。
      盡管自1998年以來GeneMarkS和GLIMMER已經(jīng)被國(guó)際上多家測(cè)序中心采用,單獨(dú)或與其他軟件配合對(duì)新測(cè)序列進(jìn)行基因識(shí)別,但是,有越來越多的證據(jù)表明,現(xiàn)有基因預(yù)測(cè)系統(tǒng)注釋的微生物基因信息存在的錯(cuò)誤要遠(yuǎn)遠(yuǎn)高于人們的想象,這些錯(cuò)誤主要是由于那些預(yù)測(cè)系統(tǒng)所采用的基因預(yù)測(cè)方法帶來的。因此,發(fā)展新的基因預(yù)測(cè)方法,設(shè)計(jì)更高效、更精確的微生物基因預(yù)測(cè)系統(tǒng),是生物信息技術(shù)發(fā)展的迫切需要。

      發(fā)明內(nèi)容
      本發(fā)明的目的是提供先進(jìn)的微生物基因預(yù)測(cè)方法,可以方便而準(zhǔn)確地測(cè)試微生物地基因組序列。
      為此,本發(fā)明采用如下方案一種基于多元熵距離法的微生物基因預(yù)測(cè)方法,其特征在于包括以下步驟a、設(shè)置已知編碼的ORF和非編碼的ORF,一一映射到EDP相空間,作為初始狀態(tài)的聚類中心點(diǎn);b、讀取待檢測(cè)的微生物DNA序列;c、從DNA序列中找出所有最長(zhǎng)的ORF,記錄它們?cè)诖诵蛄兄械奈恢?,每個(gè)ORF都映射成EDP相空間上的一點(diǎn),初始狀態(tài)都為未定ORF;d、利用系統(tǒng)初始狀態(tài)的聚類中心點(diǎn),根據(jù)EDP相空間上定義的歐氏距離,在EDP相空間對(duì)所有的未定ORF進(jìn)行分析判別,將其分為編碼ORF、非編碼ORF和未定ORF三類;e、將新判定為編碼和非編碼的ORF加入到聚類中心點(diǎn),重復(fù)步驟d,直到所有的未定ORF都?xì)w入到編碼ORF或者非編碼ORF;f、將判別為編碼類的ORF確定為編碼蛋白質(zhì)的基因。
      所述的步驟b中,該微生物DNA序列,既可以是全基因組序列,也可以是一段連續(xù)基因組序列。
      所述的步驟d中,采用如下方式Dc/Dnc<coef其中,Dc和Dnc是待測(cè)ORF距已知編碼ORF平均中心點(diǎn)和已知非編碼ORF平均中心點(diǎn)的距離,coef是可調(diào)系數(shù);當(dāng)該式成立時(shí),該DNA序列為編碼序列;當(dāng)該式不成立時(shí),該DNA序列為非編碼序列。
      所述的coef取值為1。
      所述的ORF是指出現(xiàn)在DNA序列中以翻譯起始密碼子ATG開始,沿著轉(zhuǎn)錄方向,以最近的翻譯終止密碼子TAA、TGA、TAG結(jié)束的一段連續(xù)的三聯(lián)碼核酸序列。
      所述的基于多元熵距離法的微生物基因預(yù)測(cè)方法,還包括將步驟f中,確定為編碼蛋白的基因的信息,形成文本文件并輸出的步驟。
      采用本發(fā)明的預(yù)測(cè)方法,可以方便準(zhǔn)確地預(yù)測(cè)出基因組序列中的編碼蛋白質(zhì)基因及其位置。預(yù)測(cè)精度與國(guó)際現(xiàn)有最好技術(shù)至少處于同一水平,并且預(yù)測(cè)速度明顯提高,使用方法簡(jiǎn)便易行。


      圖1是本發(fā)明的測(cè)試流程示意圖;圖2是本發(fā)明具體實(shí)施方式
      的測(cè)試界面示意圖;圖3是本發(fā)明具體實(shí)施方式
      的另一個(gè)測(cè)試界面示意圖。
      具體實(shí)施例方式
      下面結(jié)合說明書附圖來說明本發(fā)明的具體實(shí)施方式
      。
      經(jīng)過測(cè)序以及序列的拼接后,人們得到微生物的長(zhǎng)DNA序列,或者整個(gè)基因組的DNA序列。將這些序列中包含的未知的基因用生物信息學(xué)的方法找出來,這是生物信息技術(shù)最重要的課題之一,也就是微生物基因預(yù)測(cè)系統(tǒng)要實(shí)現(xiàn)的目標(biāo)。
      本發(fā)明從申請(qǐng)者原創(chuàng)提出的描述微生物基因組DNA序列的多元熵距離(Multivariate Entropy Distance,MED)思想出發(fā),并針對(duì)微生物基因組結(jié)構(gòu)特征設(shè)計(jì)了一套在DNA序列上實(shí)行系統(tǒng)檢索基因區(qū)域的新型方法——MED方法。申請(qǐng)人還根據(jù)MED方法自主開發(fā)了微生物基因預(yù)測(cè)的軟件系統(tǒng)MEDversion1.0,該系統(tǒng)使用方便,是一個(gè)不依賴學(xué)習(xí)集的自動(dòng)預(yù)測(cè)系統(tǒng),既可以對(duì)微生物的全基因組DNA序列,也可以對(duì)基因組序列中的某個(gè)連續(xù)長(zhǎng)片斷進(jìn)行序列分析,從而自動(dòng)預(yù)測(cè)出該DNA序列正負(fù)雙鏈上(即5’-3’方向以及3’-5’方向)所有完整的基因區(qū)域,最后在輸出的結(jié)果文件中標(biāo)出所有基因在序列中的位置(包括兩端的位置、基因的長(zhǎng)度)以及翻譯的方向。
      多元熵距法(Multivariate Entropy Distance,MED)對(duì)DNA序列采用統(tǒng)計(jì)語言學(xué)方法的刻畫。著名的信息論和通信理論開創(chuàng)者——香農(nóng)(C.E.Shannon)在討論人工語言時(shí)指出,對(duì)一段文字或語言最好的刻畫是從其基本詞匯的出現(xiàn)頻率出發(fā)。那么,如何選取基因組DNA序列這段遺傳語言的基本詞匯呢?根據(jù)分子遺傳學(xué)的中心法則,具有編碼功能的DNA序列按照通用遺傳密碼被翻譯成具有生物學(xué)意義的氨基酸序列,氨基酸序列通過特定的空間折疊得到具有生物活性的蛋白質(zhì)分子,在生命過程中發(fā)揮功能。因此,以20種氨基酸作為理解生物DNA序列的基本詞匯是一個(gè)很自然的選擇。按照通用遺傳密碼,將任意一段DNA序列“翻譯”成氨基酸序列,稱之為偽氨基酸序列。我們認(rèn)為,具有生物學(xué)意義、能編碼蛋白質(zhì)的DNA序列所對(duì)應(yīng)的氨基酸序列與非編碼的DNA序列所對(duì)應(yīng)的偽氨基酸序列有著一定的差別。為刻畫這種差別,我們首先引入了多變量的參數(shù)——熵密度分布(entropy density profile,EDP)。
      假定所給定DNA序列的氨基酸序列長(zhǎng)度為L(zhǎng)(以氨基酸為單位),第i種氨基酸(按照其字母簡(jiǎn)稱排序)的出現(xiàn)次數(shù)為L(zhǎng)i,則得到第i種氨基酸的使用頻率(或豐度)為pi=LiL.]]>根據(jù)Shannon熵的定義H=-&Sigma;i=120pilogpi]]>可以構(gòu)造該DNA序列的熵密度分布(EDP)Si=-1Hpilogpii=1,...,20]]>這樣,對(duì)于任意有限長(zhǎng)度的DNA序列,我們都可以構(gòu)造出它的多變量的參數(shù)EDP,即{Si}(i=1,...,20),使之對(duì)應(yīng)于20維的EDP相空間上的一點(diǎn)。
      然后,我們用EDP相空間中任意兩點(diǎn){Si}和{S′i}(分別對(duì)應(yīng)兩段DNA序列的EDP)的歐氏距離D來刻畫兩段DNA序列的差異D2=&Sigma;i=120(Si-Si&prime;)2.]]>通過計(jì)算一個(gè)未知序列的EDP與一系列已知EDP相點(diǎn)的距離,我們可以方便地將未知序列進(jìn)行歸類,這就是MED方法的主要思想。
      我們首先考察了12個(gè)細(xì)菌基因組,發(fā)現(xiàn)對(duì)于每一個(gè)基因組而言,它的編碼序列的總體平均EDP與非編碼區(qū)的相比,差異很大。在相空間里,這兩種序列的點(diǎn)圍繞各自的中心聚集成團(tuán)。也就是說,DNA序列的EDP在相空間中表現(xiàn)出很明顯的聚類性(clustering property),換句話說,具有完全不同的編碼性的DNA序列將在相空間中通過聚類來確定它們的“身份”。對(duì)每一條序列,可以計(jì)算它分別到編碼中心和非編碼中心的歐幾里得距離。這兩個(gè)距離的比較可以作為劃分編碼和非編碼序列的判據(jù)。據(jù)此我們可以設(shè)計(jì)出一種在微生物全基因組序列上基于開放閱讀框(open reading frame,簡(jiǎn)稱ORF)識(shí)別的基因預(yù)測(cè)算法,我們稱之為多元熵距離方法。(對(duì)于絕大多數(shù)微生物來說,ORF就是出現(xiàn)在DNA序列中以翻譯起始密碼子ATG開始,沿著轉(zhuǎn)錄方向,以最近的翻譯終止密碼子TAA、TGA、TAG結(jié)束的一段連續(xù)的三聯(lián)碼核酸序列)。進(jìn)一步發(fā)現(xiàn),只需對(duì)極少數(shù)量的樣本序列(例如,各自10~20條編碼、非編碼的序列)進(jìn)行統(tǒng)計(jì)平均,就可以得到總體平均EDP的良好近似。隨著樣本數(shù)的增加,樣本平均EDP迅速逼近總體平均EDP。漸進(jìn)平均EDP的這種快速收斂的性質(zhì)使得其應(yīng)用于全基因組的基因識(shí)別成為可能。
      在微生物基因組,特別是細(xì)菌基因組中,我們可以通過對(duì)ORF的檢驗(yàn)來尋找基因。但是,編碼蛋白質(zhì)的ORF序列混雜于大量非編碼的ORF序列之中,對(duì)于短的基因更是如此。所以,問題的核心就是一旦給定一條DNA序列(包括全基因組),如何把真正編碼的基因從強(qiáng)烈的噪聲背景中識(shí)別出來。我們運(yùn)用MED方法,只需極少的學(xué)習(xí)集來構(gòu)造編碼ORF和非編碼ORF的平均EDP,再比較待測(cè)序列距兩個(gè)中心的距離Dc和Dnc。引入系數(shù)coef,如果Dc/Dnc<coef,則判為編碼序列。該系數(shù)可為一經(jīng)驗(yàn)值,也可以通過理論推導(dǎo)得出,在大多數(shù)情況下,coef=1是我們使用的判據(jù)。
      我們對(duì)MED方法引入了所謂多層次多中心的思路在多中心的框架下,編碼序列和非編碼序列可以通過某種聚類方式分別分為若干子類。每一子類的中心用它所涵蓋的序列的EDP的平均來得到,因而在相空間中用唯一的一個(gè)點(diǎn)代表這一子類。單個(gè)序列的EDP是對(duì)序列的最基本層次上的描述;編碼序列或非編碼序列各自的總體平均EDP則是層次最高的描述。在任一層次上,屬于同一類的序列都具有一定的相似性,這種相似性由它們EDP的相對(duì)距離來刻畫。給定一條新的序列,在某一層次上它到離它最近的子類的距離可以唯一確定。確定序列歸屬的最簡(jiǎn)單的方法是將之歸并于離它EDP相點(diǎn)最近的子類中。在進(jìn)行基因識(shí)別時(shí),如果歸并到屬于編碼序列的類中,則判定該序列屬于編碼序列。實(shí)際上,由于新歸并的序列的影響,編碼與非編碼各子類邊界的拓?fù)浣Y(jié)構(gòu)將有所改變。特別地,當(dāng)最初序列數(shù)目較少的時(shí)候,使用迭代方法,可以使邊界趨于穩(wěn)定。
      根據(jù)上述原理,我們可以對(duì)任何待測(cè)的未知DNA序列都引入極少數(shù)的樣品點(diǎn),即若干已知的編碼的ORF和非編碼的ORF,以此作為序列分析的初始狀態(tài)的多中心。對(duì)于微生物基因組的連續(xù)DNA序列,尤其是全基因組序列,分析表明我們適當(dāng)選取的少數(shù)樣品點(diǎn)適用于不同的微生物物種,具有很好的普適性。MED方法根據(jù)這些普適的樣品點(diǎn)來分析待測(cè)基因組序列中的所有ORF,對(duì)它們進(jìn)行第一步判別分類;在第一步分類的基礎(chǔ)上自我學(xué)習(xí),將自學(xué)習(xí)得到的知識(shí)帶入第二步的判別分類,如此迭代進(jìn)行,直至分類達(dá)到穩(wěn)定的狀態(tài)(即對(duì)所有的未知ORF都完成編碼或者非編碼的判別)。這樣,我們?cè)O(shè)計(jì)的預(yù)測(cè)系統(tǒng)可以不需要依賴學(xué)習(xí)集而實(shí)現(xiàn)對(duì)未知基因組DNA序列的自動(dòng)基因預(yù)測(cè)。
      根據(jù)系統(tǒng)方案設(shè)計(jì)的軟件MED Version1.0可以在Windows 9x/ME/NT/2000/XP等操作系統(tǒng)環(huán)境下直接運(yùn)行,不需輸入任何可調(diào)參數(shù),適用于安裝上述操作系統(tǒng)的個(gè)人計(jì)算機(jī),對(duì)計(jì)算機(jī)的硬件沒有限制。
      如圖1所示,是本發(fā)明具體應(yīng)用的一個(gè)流程圖,從圖中可以看出,本發(fā)明包括以下步驟a、設(shè)置少量已知編碼的ORF和非編碼的ORF,一一映射到EDP相空間,作為初始狀態(tài)的聚類中心點(diǎn);b、序列數(shù)據(jù)的輸入;讀取提交的微生物DNA序列作為輸入數(shù)據(jù),這里該提交的微生物DNA序列,既可以是全基因組序列,也可以是一段連續(xù)DNA序列;c、從輸入的DNA序列中找出所有最長(zhǎng)的ORF,記錄它們?cè)诖诵蛄兄械奈恢?,每個(gè)ORF都映射成EDP相空間上的一點(diǎn),初始狀態(tài)都為未定ORF;該步驟與步驟a相對(duì)應(yīng)。
      d、利用系統(tǒng)初始狀態(tài)的聚類中心點(diǎn),根據(jù)EDP相空間上定義的歐氏距離,在EDP相空間對(duì)所有的未定ORF進(jìn)行分析判別,將其分為編碼ORF、非編碼ORF和未定ORF三類;Dc/Dnc<coef作為判斷依據(jù),其中,Dc和Dnc是待測(cè)序列距已知編碼的平均ORF和已知非編碼的平均ORF中心的距離,coef是可調(diào)系數(shù);在實(shí)踐中,經(jīng)常把coef取值為1;當(dāng)該式成立時(shí),該DNA序列為編碼序列;當(dāng)該式不成立時(shí),該DNA序列為非編碼序列。
      e、ORF判別及聚類中心點(diǎn)的迭代增加。將新判定為編碼和非編碼的ORF加入到聚類中心點(diǎn),重復(fù)步驟d,直到所有的未定ORF都?xì)w入到編碼ORF或者非編碼ORF;f、將判別為編碼類的ORF確定為編碼蛋白質(zhì)的基因。將它們的信息(包括基因長(zhǎng)度,基因的起止位點(diǎn)以及基因轉(zhuǎn)錄的方向)和系統(tǒng)運(yùn)行環(huán)境的信息記錄下來,并以文本格式輸出到結(jié)果文件中。
      如圖2及圖3所示,是依據(jù)本發(fā)明的技術(shù)方案而設(shè)計(jì)的一個(gè)MED version1.0系統(tǒng)運(yùn)行后的界面。其結(jié)果文件是以txt為后綴名的文本文件,如表1所示。
      表1 MED version1.0系統(tǒng)預(yù)測(cè)結(jié)果的輸出文件格式

      采用本發(fā)明的預(yù)測(cè)結(jié)果示例與比較衡量某一基因預(yù)測(cè)方法的標(biāo)準(zhǔn)通常有兩個(gè)參數(shù)敏感性(sensitivity)和特異性(specificity)。假設(shè)待測(cè)序列中有X條序列是基因,利用某一基因預(yù)測(cè)系統(tǒng)對(duì)該待測(cè)序列進(jìn)行預(yù)測(cè),共預(yù)測(cè)出Y條基因序列,而這Y條序列中有Y1條確實(shí)為基因,其余的Y2(Y2=Y(jié)-Y1)條不是基因。則敏感性定義為Y1/X,它表示系統(tǒng)預(yù)測(cè)的能力;特異性定義為Y1/Y,它表示為系統(tǒng)預(yù)測(cè)結(jié)果的可信度。敏感性和特異性往往是一對(duì)矛盾。
      首先以大腸桿菌(E.coli K12)全基因組為例,按照通用的衡量指標(biāo),將本發(fā)明的預(yù)測(cè)結(jié)果與國(guó)際上最好的微生物基因預(yù)測(cè)系統(tǒng)GeneMarkS和GLIMMER2.02的預(yù)測(cè)結(jié)果作比較,如表2所示。表中根據(jù)兩種情況來考察預(yù)測(cè)的精度第一種情況是按照GenBank(核酸序列數(shù)據(jù)庫,生物分子三大核心數(shù)據(jù)庫之一)所注釋的4289條基因來評(píng)價(jià)(即X=4289),其中很大一部分的基因注釋就是根據(jù)生物信息學(xué)的基因預(yù)測(cè)系統(tǒng)來預(yù)測(cè)的,尚未得到實(shí)驗(yàn)驗(yàn)證;第二種情況是按照目前已有實(shí)驗(yàn)驗(yàn)證、比較確認(rèn)的1851條基因來評(píng)價(jià)(即X=1851)。根據(jù)目前通用的標(biāo)準(zhǔn),預(yù)測(cè)完全準(zhǔn)確是指基因序列的轉(zhuǎn)錄起始和終止位置都預(yù)測(cè)準(zhǔn)確,而預(yù)測(cè)準(zhǔn)確是指基因序列的轉(zhuǎn)錄終止位置預(yù)測(cè)準(zhǔn)確。從比較結(jié)果可以看出,MED v1.0的敏感性要高于GeneMarkS,特異性要高于GLIMMER2.02,綜合考慮兩項(xiàng)指標(biāo),MED v1.0與GeneMarkS和GLIMMER2.02至少處于同一精度水平。
      表2與GeneMarkS、GLIMMER2.02預(yù)測(cè)水平的比較

      我們還應(yīng)用本發(fā)明的技術(shù)方案對(duì)GenBank中現(xiàn)有的87種細(xì)菌的全基因組序列全部進(jìn)行測(cè)試,以GenBank的基因注釋為標(biāo)準(zhǔn),測(cè)試結(jié)果如下表所示。
      表3對(duì)87種細(xì)菌全基因組DNA序列的預(yù)測(cè)水平




      由此可見,本發(fā)明的測(cè)試方法簡(jiǎn)單、實(shí)用,測(cè)試所得數(shù)據(jù)精度較高,所應(yīng)用系統(tǒng)平臺(tái)也非常普及,可以為使用者帶來極大的方便。
      以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
      ,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
      權(quán)利要求
      1.一種基于多元熵距離法的微生物基因預(yù)測(cè)方法,其特征在于包括以下步驟a、設(shè)置已知編碼的ORF和非編碼的ORF,一一映射到EDP相空間,作為初始狀態(tài)的聚類中心點(diǎn);b、讀取待檢測(cè)的微生物DNA序列;c、從DNA序列中找出所有最長(zhǎng)的ORF,記錄它們?cè)诖诵蛄兄械奈恢?,將每個(gè)ORF都映射成EDP相空間上的一點(diǎn),其初始狀態(tài)都為未定ORF;d、利用系統(tǒng)初始狀態(tài)的聚類中心點(diǎn),根據(jù)EDP相空間上定義的歐氏距離,在EDP相空間對(duì)所有的未定ORF進(jìn)行分析判別,將其分為編碼ORF、非編碼ORF和未定ORF三類;e、將新判定為編碼和非編碼的ORF加入到聚類中心點(diǎn),重復(fù)步驟d,直到所有的未定ORF都?xì)w入到編碼ORF或者非編碼ORF;f、將判別為編碼類的ORF確定為編碼蛋白質(zhì)的基因。
      2.如權(quán)利要求1所述的基于多元熵距離法的微生物基因預(yù)測(cè)方法,其特征在于所述的步驟b中,該微生物DNA序列,既可以是全基因組序列,也可以是一段連續(xù)基因組序列。
      3.如權(quán)利要求1所述的基于多元熵距離法的微生物基因預(yù)測(cè)方法,其特征在于所述的步驟a和c中,構(gòu)造20維的高維EDP相空間,并將任意一段有限長(zhǎng)度的DNA序列映射成EDP相空間上的一點(diǎn)。
      4.如權(quán)利要求1所述的基于多元熵距離法的微生物基因預(yù)測(cè)方法,其特征在于所述的步驟d中,采用如下方式Dc/Dnc<coef其中,Dc和Dnc是待測(cè)序列距已知編碼的平均ORF和已知非編碼的平均ORF中心的距離,coef是可調(diào)系數(shù);當(dāng)該式成立時(shí),該DNA序列為編碼序列;當(dāng)該式不成立時(shí),該DNA序列為非編碼序列。
      5.如權(quán)利要求3所述的基于多元熵距離法的微生物基因預(yù)測(cè)方法,其特征在于所述的coef取值為1。
      6.如權(quán)利要求1所述的基于多元熵距離法的微生物基因預(yù)測(cè)方法,其特征在于所述的ORF是指出現(xiàn)在DNA序列中以翻譯起始密碼子ATG開始,沿著轉(zhuǎn)錄方向,以最近的翻譯終止密碼子TAA、TGA、TAG結(jié)束的一段連續(xù)的三聯(lián)碼核酸序列。
      7.如權(quán)利要求1所述的基于多元熵距離法的微生物基因預(yù)測(cè)方法,其特征在于還包括將步驟f中,確定為編碼蛋白的基因的信息,形成文本文件并輸出的步驟。
      8.如權(quán)利要求6所述的基于多元熵距離法的微生物基因預(yù)測(cè)方法,其特征在于所述的文本文件內(nèi)容包括兩端的位置、基因的長(zhǎng)度。
      全文摘要
      本發(fā)明涉及微生物基因組序列分析、微生物基因識(shí)別、微生物物種識(shí)別等生物信息技術(shù),包括以下步驟a.設(shè)置部分已知編碼的ORF和非編碼的ORF,作為初始狀態(tài)的聚類中心點(diǎn);b.讀取微生物DNA序列;c.從上述序列中找出所有最長(zhǎng)的ORF,并記錄它們?cè)诖诵蛄兄械奈恢?;d.對(duì)該微生物DNA序列進(jìn)行分析判別,將其分為編碼序列、非編碼序列和未定編碼序列;e.將未定編碼序列加入聚類中心點(diǎn),重復(fù)步驟d,直到未定編碼序列都?xì)w入到編碼序列或者非編碼序列;f.將分為編碼序列的候選基因定為編碼蛋白的基因。采用本發(fā)明地測(cè)試方法,可以方便準(zhǔn)確地測(cè)試出基因組序列,與現(xiàn)有技術(shù)相比較,其測(cè)試精度明顯提高,其測(cè)試方法簡(jiǎn)便易行。
      文檔編號(hào)C12Q1/68GK1566365SQ0314776
      公開日2005年1月19日 申請(qǐng)日期2003年6月24日 優(yōu)先權(quán)日2003年6月24日
      發(fā)明者佘振蘇, 朱懷球, 歐陽正清, 姚新秋 申請(qǐng)人:北京大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1