国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基因探針信息注釋方法

      文檔序號:6555407閱讀:1297來源:國知局
      專利名稱:基因探針信息注釋方法
      技術領域
      本發(fā)明涉及一種基因芯片技術平臺的構建方法,尤其涉及一種基因芯片探針的信息注釋方法。
      背景技術
      基因芯片的出現(xiàn)是近年來高新技術領域中極具時代特征的重大進展,是物理學、微電子學與分子生物學綜合交叉形成的高新技術?;蛐酒夹g是一種高通量的技術,其基本原理是通過微加工工藝在厘米見方的芯片上集成有數(shù)以萬計的DNA探針,來實現(xiàn)對mRNA和DNA序列進行高效快捷的定量檢測,在基因功能的闡述、疾病原因及機理的探索、可能的診斷及治療靶點的發(fā)現(xiàn)等應用領域,基因芯片正發(fā)揮著越來越大的用途。
      由于基因芯片具有高通量和高信息量的特性,因此其探針注釋系統(tǒng)是構建基因芯片技術平臺的一個關鍵步驟。基因芯片注釋系統(tǒng)主要功能是注釋芯片上數(shù)以萬計的基因探針、整合關于基因的序列、功能以及代謝通路的最新相關信息,以滿足基因芯片檢測結果自動化分析和基因芯片探針設計的需要。當前世界上著名的基因芯片注釋系統(tǒng)有美國國立健康科學院Button等人發(fā)明的DAVID系統(tǒng)、美國約翰霍普金斯大學Wilkinson等人發(fā)明的DRAGON系統(tǒng)以及斯坦福大學發(fā)明Diehn等人發(fā)明的SOURCE系統(tǒng)。這些系統(tǒng)的基本原理都是利用數(shù)據(jù)倉庫技術,通過將各個公共源數(shù)據(jù)庫物理整合,建立基因芯片探針相關信息的“一站式”的記錄。
      然而,這種技術具有很大的局限性數(shù)據(jù)倉庫最大的限制在于該技術不能實時更新。同時,由于生命科學的發(fā)展日新月益,公共源數(shù)據(jù)庫每天都收錄和更新大量新的信息,每兩到三個月才更新一次的數(shù)據(jù)倉庫技術不能及時的收錄和整合基因探針的最新信息。以DAVID系統(tǒng)為例,其注釋結果里面就含有大量的無用的URL(Universal Resource Location),這些URL都不能提供給用戶正確的注釋結果。
      數(shù)據(jù)倉庫注釋方法的另外一個局限在于由于公共源數(shù)據(jù)庫數(shù)據(jù)格式的不統(tǒng)一,導致隨著包含源數(shù)據(jù)庫和數(shù)據(jù)類型的數(shù)目越多,數(shù)據(jù)倉庫管理會變得越來越困難,因此數(shù)據(jù)倉庫方法的注釋能力有限。以前述的另一種探針注釋系統(tǒng)DRAGON系統(tǒng)為例,由于DRAGON系統(tǒng)的注釋能力有限,致使其不能注釋最常用的數(shù)據(jù)庫GenBank和LocusLink的信息。
      由于基因探針信息注釋在基因芯片平臺建立及芯片檢測結果自動分析上的重要性,克服上述注釋系統(tǒng)的局限,建立更準確,更完善的注釋方法,是基因芯片技術領域急需解決的問題。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于解決上述問題,提供了一種基因探針信息注釋方法,它克服了傳統(tǒng)基因芯片探針注釋系統(tǒng)的局限性,克服了數(shù)據(jù)倉庫注釋技術存在的問題,整合關于芯片探針靶點基因的序列、功能以及代謝通路的最新信息,有利于基因芯片檢測結果的自動化分析和基因芯片的探針設計。
      本發(fā)明的技術方案為一種基因探針信息注釋方法,其中包括(1)制備基因芯片探針文庫的標識信息輸入到數(shù)據(jù)倉庫系統(tǒng);(2)提取所述基因探針標識信息與公共源數(shù)據(jù)庫標識信息的對應關系;(3)根據(jù)所述的對應關系建立與所述公共源數(shù)據(jù)庫相關的鏈接,并通過所述鏈接直接提取公共源數(shù)據(jù)庫中與所述基因芯片探針相關的具體信息;(4)解析所述具體信息并將其輸出。
      上述的基因探針信息注釋方法,其中,所述數(shù)據(jù)倉庫系統(tǒng)包括NCBI的Entrez、EBI的Ensembl和Uniport數(shù)據(jù)倉庫系統(tǒng)。
      上述的基因探針信息注釋方法,其中,步驟(2)中通過數(shù)據(jù)倉庫系統(tǒng)的接口程序來提取對應關系。
      上述的基因探針信息注釋方法,其中,所述接口包括Entrez的E-Utilities接口、Ensembl的ensmart接口、UniPort的SRS接口。
      上述的基因探針信息注釋方法,其中,所述具體信息包括探針對應的基因相關信息、探針對應的基因編碼蛋白相關信息、探針對應的文獻信息、有利于芯片結果自動化分析的數(shù)據(jù)。
      上述的基因探針信息注釋方法,其中,步驟(1)中制備基因芯片探針文庫的標識信息是登陸號碼、UniGene Cluster標識符或者LocusLink標識符。
      上述的基因探針信息注釋方法,其中,步驟(3)中,所述具體信息整理后以文本格式輸出至文件。
      上述的基因探針信息注釋方法,其中,步驟(3)中,所述鏈接為URL鏈接。
      本發(fā)明的基因探針信息注釋方法對比現(xiàn)有技術,有如下的有益效果。本發(fā)明利用在線數(shù)據(jù)倉庫系統(tǒng)中提取各種數(shù)據(jù)類型的對應關系,然后再利用鏈接整合(link integration)技術根據(jù)這些對應關系直接在公共源數(shù)據(jù)庫中去提取與基因芯片探針相關的具體信息,從而達到注釋和整合的功能。由于鏈接整合采用了實時獲取公共源數(shù)據(jù)庫的技術,因此能夠克服數(shù)據(jù)倉庫注釋技術存在的更新不及時的問題。但鏈接整合技術有一個主要缺陷在于難以處理數(shù)據(jù)結構之間的對應關系,而數(shù)據(jù)倉庫卻具有完善的數(shù)據(jù)類型對應關系。本發(fā)明將鏈接整合技術和數(shù)據(jù)倉庫技術結合起來,解決了傳統(tǒng)基因芯片探針注釋系統(tǒng)中存在的局限性,使得注釋系統(tǒng)所能包含的公共源數(shù)據(jù)庫的數(shù)目和數(shù)據(jù)更新時間顯著增加。


      圖1是本發(fā)明基因探針信息注釋方法的流程圖。
      圖2是本發(fā)明基因探針信息注釋方法的數(shù)據(jù)流圖。
      具體實施例方式
      下面結合附圖和實施例對本發(fā)明作進一步的描述。
      圖1示出了本發(fā)明基因探針信息注釋方法的流程,圖2示出了本發(fā)明基因探針信息注釋方法的數(shù)據(jù)流。請同時參見圖1和圖2,下面是對該方法步驟的詳細描述。
      步驟S11輸入制備基因芯片探針文庫的標識號(ID)?;蛐酒结樀男畔⑼ǔR云涞顷懱柎a(Accession Number)作為可識別的唯一ID,同時UniGeneCluster ID(以下簡稱UniGene ID)和LocusLink ID(即Entrez Gene數(shù)據(jù)庫的Gene ID)因為在芯片信息中的重要性而較多出現(xiàn),也可以作為初始唯一ID輸入?;蛐酒结業(yè)D輸入格式可規(guī)定為一行一個,為保證注釋結構的易讀性和正確,包含ID的文本文件中ID可以以一行一個的形式讀入。在這里,我們以P53基因(著名的抑癌基因)為例,輸入該探針的IDAF136271。
      步驟S12將該ID提交到數(shù)據(jù)倉庫系統(tǒng)中。這些數(shù)據(jù)倉庫系統(tǒng)包括NCBI的Entrez、EBI的Ensembl和Uniport數(shù)據(jù)倉庫系統(tǒng)。這些數(shù)據(jù)倉庫系統(tǒng)中又收集了大量的公共源數(shù)據(jù)庫的信息,例如,Entrez收集了MIM數(shù)據(jù)庫、GO數(shù)據(jù)庫和其他數(shù)據(jù)庫的信息,Ensembl收集了Promotor數(shù)據(jù)庫的信息,Uniport收集了Pfam數(shù)據(jù)庫、Prosite數(shù)據(jù)庫和其他數(shù)據(jù)庫的信息。
      步驟S13通過數(shù)據(jù)倉庫系統(tǒng)的接口依次提取出探針I(yè)D與其他公共源數(shù)據(jù)庫ID的對應關系。在上述的數(shù)據(jù)倉庫系統(tǒng)中,Entrez提供一個稱為E-Utilities的CGI接口,通過該接口可對Entrez查詢并下載數(shù)據(jù)。同樣Ensembl提供ensmart接口,Uniport提供SRS接口,提供給用戶進行個性化和大批量的查詢和獲取信息。可以利用這些接口提取各種ID之間的對應關系。
      仍以S11中所述的P53基因為例,該探針I(yè)D通過E-Utilities的CGI接口遞交到Entrez UniGene查詢,通過系統(tǒng)的編譯器來提取Unigene ID,得到P53 UnigeneID號Hs.408312。如果沒有相應的Unigene ID則返回為“數(shù)據(jù)未找到”字樣。
      Unigene ID排序后通過E-Utilities的CGI接口再遞到Entrez Gene查詢,獲得其他公共源數(shù)據(jù)庫的ID對應關系,這些ID包括MIM ID、GO ID、PMID、RefseqID和CDD ID等各種基因相關的公共源數(shù)據(jù)庫ID。
      然后以Unigene ID通過Ensembl的Ensmart CGI接口來提取其存儲的ID之間的對應關系,包括Uniport ID、Ensembl ID等。在這里,P53對應的Ensembl ID號為ENSG00000141510,對應的Uniport ID為Q761V2。
      接著再以Uniport ID通過Uniport數(shù)據(jù)倉庫的SRS CGI接口來提取Pfam ID、Prosite ID等各種蛋白相關的公共源數(shù)據(jù)庫的ID對應關系。
      步驟S14根據(jù)步驟S13中各ID的對應關系,編寫各個公共源數(shù)據(jù)庫規(guī)定的URL,利用在線數(shù)據(jù)庫,遠程直接提取相關信息。
      步驟S15解析并整理步驟S14中得到的信息。在提取各個公共源數(shù)據(jù)庫數(shù)據(jù)以后,利用文本解析器來提取芯片探針相關信息,將這些信息整理成(1)芯片探針對應的基因相關信息,其中包括序列的描述性和功能注釋,如基因名稱、代號、accession號、相關文獻、GO項、染色體位置、E.C.號以及許多該基因相關特征及編碼的產(chǎn)物;(2)探針對應的基因編碼蛋白的相關信息,包括蛋白的結構信息、功能信息、類別、domain、保守區(qū)域和序列模體(motif)信息;(3)探針對應的文獻信息,其中包括OMIM數(shù)據(jù)庫中關于單個基因相關疾病的文獻資料和引文信息、GeneRif關于Pubmed上發(fā)表文章的ID和最近文獻資料的精心匯編的綜述等;(4)其他有利于芯片結果自動化分析的重要數(shù)據(jù),包括Ensembl數(shù)據(jù)庫中可用來預測啟動子序列的基因批量的探針注釋以及用來分析涉及通路情況的KEGG ID和GO ID。
      步驟S16輸出步驟S15中的信息。對于小批量的探針,可以直接顯示出注釋結果;對于大批量的探針,可以將注釋結果保存在文件中。
      應理解,本發(fā)明的發(fā)明點在于結合鏈接整合和數(shù)據(jù)倉庫技術對基因芯片的探針進行注釋,上述實施例中提到的具體的數(shù)據(jù)倉庫、公共源數(shù)據(jù)庫以及具體的基因探針等信息均為了示例說明,而不用來限制本發(fā)明。
      上述實施例是提供給本領域普通技術人員來實現(xiàn)或使用本發(fā)明的,本領域普通技術人員可在不脫離本發(fā)明的發(fā)明思想的情況下,對上述實施例做出種種修改或變化,因而本發(fā)明的保護范圍并不被上述實施例所限,而應該是符合權利要求書提到的創(chuàng)新性特征的最大范圍。
      權利要求
      1 一種基因探針信息注釋方法,其特征在于,包括(1)將制備基因芯片探針文庫的標識信息輸入到數(shù)據(jù)倉庫系統(tǒng);(2)提取所述基因探針標識信息與公共源數(shù)據(jù)庫標識信息的對應關系;(3)根據(jù)所述的對應關系建立與所述公共源數(shù)據(jù)庫相關的鏈接,并通過所述鏈接直接提取公共源數(shù)據(jù)庫中與所述基因芯片探針相關的具體信息;(4)解析所述具體信息并將其輸出。
      2 根據(jù)權利要求1所述的基因探針信息注釋方法,其特征在于,所述數(shù)據(jù)倉庫系統(tǒng)包括NCBI的Entrez、EBI的Ensembl和Uniport數(shù)據(jù)倉庫系統(tǒng)。
      3 根據(jù)權利要求2所述的基因探針信息注釋方法,其特征在于,步驟(2)中,通過數(shù)據(jù)倉庫系統(tǒng)的接口程序來提取對應關系。
      4 根據(jù)權利要求3所述的基因探針信息注釋方法,其特征在于,所述接口包括Entrez的E-Utilities接口、Ensembl的ensmart接口、UniPort的SRS接口。
      5 根據(jù)權利要求1所述的基因探針信息注釋方法,其特征在于,所述具體信息包括探針對應的基因相關信息、探針對應的基因編碼蛋白相關信息、探針對應的文獻信息、有利于芯片結果自動化分析的數(shù)據(jù)。
      6 根據(jù)權利要求1所述的基因探針信息注釋方法,其特征在于,步驟(1)中制備基因芯片探針文庫的標識信息是登陸號碼、UniGene Cluster標識符或者LocusLink標識符。
      7 根據(jù)權利要求1所述的基因探針信息注釋方法,其特征在于,步驟(3)中,所述具體信息整理后以文本格式輸出至文件。
      8 根據(jù)權利要求1所述的基因探針信息注釋方法,其特征在于,步驟(3)中,所述鏈接為URL鏈接。
      全文摘要
      本發(fā)明公開了一種基因探針信息注釋方法,將鏈接整合技術和數(shù)據(jù)倉庫技術結合起來,解決了傳統(tǒng)基因芯片探針注釋系統(tǒng)中存在的局限性,使得注釋系統(tǒng)所能包含的公共源數(shù)據(jù)庫的數(shù)目和數(shù)據(jù)更新時間顯著增加。其技術方案為(1)將制備基因芯片探針文庫的標識信息輸入到數(shù)據(jù)倉庫系統(tǒng);(2)提取基因探針標識信息與公共源數(shù)據(jù)庫標識信息的對應關系;(3)根據(jù)對應關系建立與公共源數(shù)據(jù)庫相關的鏈接,并通過鏈接直接提取公共源數(shù)據(jù)庫中與基因芯片探針相關的具體信息;(4)解析具體信息并將其輸出。本發(fā)明應用于構建基因芯片技術平臺。
      文檔編號G06F19/00GK101063988SQ20061002597
      公開日2007年10月31日 申請日期2006年4月24日 優(yōu)先權日2006年4月24日
      發(fā)明者金剛, 謝松旻, 王超 申請人:中國科學院上海生命科學研究院
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1