專(zhuān)利名稱(chēng)::一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及應(yīng)用生物信息學(xué)領(lǐng)域,具體是涉及一種挖掘UniGene數(shù)據(jù)庫(kù)中特異表達(dá)基因的方法。
背景技術(shù):
:EST(表達(dá)序列標(biāo)簽)測(cè)序是高通量檢測(cè)基因表達(dá)信息的方法之一,近些年來(lái),由于EST序列長(zhǎng)度較長(zhǎng),特異性較好,比基因芯片的噪音低,使得EST測(cè)序得到了廣泛的應(yīng)用。但是,由于EST測(cè)序的成本較高,單個(gè)研究人員在建立EST序列信息時(shí),對(duì)EST序列的挖掘工作,主要集中在EST序列信息的發(fā)現(xiàn)方面,例如,EST序列的拼接,拼接結(jié)果的注釋以及SSR和SNP的發(fā)現(xiàn)等方面,往往EST測(cè)序的EST序列數(shù)目較少,即對(duì)EST序列的定量方面的研究較少,只能基于EST序列信息定性分析生物體的性狀,無(wú)法通過(guò)EST序列定量分析基因和性狀間的關(guān)系。但是,隨著大規(guī)模EST測(cè)序計(jì)劃的進(jìn)行,公共數(shù)據(jù)庫(kù)(EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù))中的EST序列積累越來(lái)越多,研究人員開(kāi)始利用EST序列來(lái)定量分析基因和性狀間的關(guān)系,例如,Aouacheria.A.等人在2006年第7期的BMCGenomics上,發(fā)表了名為"BioinformaticscreeningofhumanESTsfordifferentiallyexpressedgenesinnormalandtumortissues(利用人類(lèi)EST的生物信息學(xué)方法篩選正常組織和腫瘤組織中差異表達(dá)基因)"的文章,闡述了采用BLAST搜索的方法對(duì)EST表達(dá)量進(jìn)行計(jì)數(shù)統(tǒng)計(jì),定量分析了基因和癌癥的關(guān)系,挖掘出了人類(lèi)癌癥響應(yīng)基因。但是,由于旁系同源基因和一些高相似性的保守結(jié)構(gòu)域序列的干擾,使得該方法計(jì)數(shù)會(huì)出現(xiàn)假陽(yáng)性,導(dǎo)致EST表達(dá)量計(jì)數(shù)錯(cuò)誤,從而使得后續(xù)的統(tǒng)計(jì)分析產(chǎn)生較大的誤差,無(wú)法正確挖掘與性狀相關(guān)的誘導(dǎo)基因。
發(fā)明內(nèi)容為了克服現(xiàn)有的基因挖掘方法中EST表達(dá)量計(jì)數(shù)出現(xiàn)假陽(yáng)性進(jìn)而導(dǎo)致無(wú)法正確挖掘與性狀相關(guān)的誘導(dǎo)基因的問(wèn)題,本發(fā)明提供一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法
技術(shù)領(lǐng)域:
:本發(fā)明的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法的具體過(guò)程為步驟A:下載EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù),并對(duì)所述的UniGene數(shù)據(jù)庫(kù)中的EST序列信息按照物種類(lèi)型進(jìn)行分類(lèi),接下來(lái)執(zhí)行步驟B;步驟B:對(duì)所述的EST文庫(kù)注釋信息進(jìn)行信息檢索,進(jìn)而對(duì)EST文庫(kù)注釋信息進(jìn)行分類(lèi),接下來(lái)執(zhí)行步驟C;步驟C:根據(jù)EST文庫(kù)注釋信息的分類(lèi)信息計(jì)算表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量,接下來(lái)執(zhí)行步驟D;步驟D:對(duì)所獲得的表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量進(jìn)行超幾何分布檢驗(yàn),計(jì)算獲得表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue,接下來(lái)執(zhí)行步驟E;步驟E:采用FDR方法調(diào)整表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue,接下來(lái)執(zhí)行步驟F;步驟F:設(shè)置表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue閾值為O.01,篩選異常狀態(tài)響應(yīng)基因,接下來(lái)執(zhí)行步驟G;步驟G:利用RT-PCR技術(shù)驗(yàn)證所篩選出的異常狀態(tài)響應(yīng)基因?yàn)榕c性狀相關(guān)的誘導(dǎo)基因。本發(fā)明綜合EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的數(shù)據(jù),避免了拼接或是比對(duì)過(guò)程中人為引入的誤差;本發(fā)明還完成了對(duì)EST數(shù)據(jù)的定量分析,而不是簡(jiǎn)單的定性的分析,從表達(dá)量水平上揭示了異常狀態(tài)所響應(yīng)的基因本質(zhì);本發(fā)明還采用超幾何分布檢驗(yàn)方法計(jì)算差異表達(dá)的超幾何分布檢驗(yàn)值P-value,結(jié)合FDR方法調(diào)整所計(jì)算的超幾何分布檢驗(yàn)值P-value,避免了多次檢驗(yàn)引入的誤差,使得基因挖掘的結(jié)果更加精確。本發(fā)明可以應(yīng)用于人類(lèi)疾病發(fā)生、動(dòng)植物生長(zhǎng)發(fā)育調(diào)控、動(dòng)植物疾病調(diào)控過(guò)程以及動(dòng)植物逆境脅迫等性狀相關(guān)誘導(dǎo)基因的挖掘,本發(fā)明從公共數(shù)據(jù)庫(kù)(EST和UniGene)中挖掘得到了目的性狀的響應(yīng)基因,高效、準(zhǔn)確地解析了生物性狀,為生物重要過(guò)程的揭示奠定了重要的基礎(chǔ)。圖l是本發(fā)明的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法的工作流程圖,圖2是大豆逆境脅迫誘導(dǎo)基因的RT-PCR半定量分析結(jié)果示意圖。具體實(shí)施例方式具體實(shí)施方式一參見(jiàn)圖l,本具體實(shí)施方式所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法的具體過(guò)程為步驟A:下載EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù),并對(duì)所述的UniGene數(shù)據(jù)庫(kù)中的EST序列信息按照物種類(lèi)型進(jìn)行分類(lèi),接下來(lái)執(zhí)行步驟B;步驟B:對(duì)所述的EST文庫(kù)注釋信息進(jìn)行信息檢索,進(jìn)而對(duì)EST文庫(kù)注釋信息進(jìn)行分類(lèi),接下來(lái)執(zhí)行步驟C;步驟C:根據(jù)EST文庫(kù)注釋信息的分類(lèi)信息計(jì)算表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量,接下來(lái)執(zhí)行步驟D;10步驟D:對(duì)所獲得的表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量進(jìn)行超幾何分布檢驗(yàn),計(jì)算獲得表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue,接下來(lái)執(zhí)行步驟E;步驟E:采用FDR方法調(diào)整表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue,接下來(lái)執(zhí)行步驟F;步驟F:設(shè)置表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue閾值為O.01,篩選異常狀態(tài)響應(yīng)基因;步驟G:利用RT-PCR技術(shù)驗(yàn)證所篩選出的異常狀態(tài)響應(yīng)基因?yàn)榕c性狀相關(guān)的誘導(dǎo)基因。本具體實(shí)施方式中的EST數(shù)據(jù)庫(kù)含有EST序列,本具體實(shí)施方式中的UniGene數(shù)據(jù)庫(kù)是NCBI開(kāi)發(fā)的,是通過(guò)蛋白質(zhì)的相似性、基因表達(dá)信息、cDNA克隆和基因組位置等信息,將同一轉(zhuǎn)錄位點(diǎn)的一組轉(zhuǎn)錄序列拼接成的一致性序列。UniGene數(shù)據(jù)庫(kù)包含兩部分信息即EST序列信息及EST文庫(kù)注釋信息,所述信息具有較高可信度,是真實(shí)存在的轉(zhuǎn)錄本信息,適用于性狀相關(guān)誘導(dǎo)基因的挖掘。本具體實(shí)施方式中所述步驟B的具體過(guò)程為首先,收集生物體異常狀態(tài)的關(guān)鍵詞,將所收集的每一個(gè)生物體異常狀態(tài)的關(guān)鍵詞在所述的EST文庫(kù)注釋信息中進(jìn)行信息檢索,篩選異常狀態(tài)EST文庫(kù),并提取異常狀態(tài)EST文庫(kù)的ID,然后,收集生物體正常狀態(tài)的關(guān)鍵詞,將所收集的每一個(gè)生物體正常狀態(tài)的關(guān)鍵詞在所述的EST文庫(kù)注釋信息中進(jìn)行信息檢索,篩選正常狀態(tài)EST文庫(kù),并提取正常狀態(tài)EST文庫(kù)的ID,所述的在EST文庫(kù)注釋信息中進(jìn)行信息檢索的檢索項(xiàng)包括主題TITLE、發(fā)育狀態(tài)DEVELOPMENTAL—STAGE和組織VERBAT頂—TISSUE三項(xiàng)。本具體實(shí)施方式中所述步驟C的具體過(guò)程為在步驟C中,根據(jù)EST文庫(kù)注釋信息的分類(lèi)信息,從所述UniGene數(shù)據(jù)庫(kù)中的UniGene轉(zhuǎn)錄組文件中提取表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST序列信息的條數(shù)和異常狀態(tài)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),同時(shí)對(duì)UniGene轉(zhuǎn)錄組文件中所有的UniGene轉(zhuǎn)錄組的正常狀態(tài)EST序列信息的條數(shù)和UniGene轉(zhuǎn)錄組文件中所有的UniGene轉(zhuǎn)錄組的異常狀態(tài)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),將上述所獲得的EST序列信息的所有計(jì)數(shù)信息轉(zhuǎn)化為EST表達(dá)量;如果某生物體的UniGene數(shù)據(jù)庫(kù)中已經(jīng)對(duì)每個(gè)UniGene轉(zhuǎn)錄組按照EST文庫(kù)注釋信息建立完善的分類(lèi)信息,則直接提取EST序列信息的所有計(jì)數(shù)信息,將所述計(jì)數(shù)信息轉(zhuǎn)化為相應(yīng)的EST表達(dá)量。本具體實(shí)施方式中所述步驟D的具體過(guò)程為設(shè)表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量為a,表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量為b,且UniGene轉(zhuǎn)錄組文件中所有UniGene轉(zhuǎn)錄組的總的正常狀態(tài)EST表達(dá)量為c,所述UniGene轉(zhuǎn)錄組文件中所有UniGene轉(zhuǎn)錄組的總的異常狀態(tài)EST表達(dá)量為d,以a、b、c和d四個(gè)數(shù)構(gòu)建超幾何分布檢驗(yàn),利用免費(fèi)開(kāi)源軟件R平臺(tái)的phyper完成超幾何分布檢驗(yàn),公式一Y。"'daJ利用公式一計(jì)算獲得表達(dá)基因UniGene轉(zhuǎn)錄組的超幾何分布檢驗(yàn)值Pialue。本具體實(shí)施方式中步驟E的具體過(guò)程為將UniGene轉(zhuǎn)錄組文件中所有UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue按照從小到大的順序依次排列,將p(i)定義為排列后的第i個(gè)超幾何分布檢驗(yàn)值P-value,同時(shí)設(shè)所述UniGene轉(zhuǎn)錄組文件中所有UniGene轉(zhuǎn)錄組的總數(shù)為n,所述的i和n均為自然數(shù),且i《n,則調(diào)整后的第i個(gè)超幾何分布檢驗(yàn)值Pialue為P-Value=p(i)*n/i,此等式中所述的P-value和p(i)是重新賦值關(guān)系。本具體實(shí)施方式中步驟F的具體過(guò)程為將調(diào)整后的超幾何分布檢驗(yàn)值Pialue閾值以下的超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組作為異常狀態(tài)的響應(yīng)基因。在本具體實(shí)施方式中,以表達(dá)基因UniGene轉(zhuǎn)錄組的EST序列信息的條數(shù)作為表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量,依據(jù)表達(dá)基因UniGene轉(zhuǎn)錄組的EST文庫(kù)描述信息,對(duì)所述EST文庫(kù)進(jìn)行分類(lèi),通過(guò)對(duì)比正常狀態(tài)EST表達(dá)量和異常狀態(tài)EST表達(dá)量構(gòu)建超幾何分布檢驗(yàn),進(jìn)行統(tǒng)計(jì)分析,采用FDR方法進(jìn)行基因差異表達(dá)的誤差控制,篩選異常狀態(tài)的響應(yīng)基因。本具體實(shí)施方式適用于生物異常過(guò)程差異表達(dá)基因的挖掘,如人類(lèi)疾病發(fā)生、動(dòng)植物生長(zhǎng)發(fā)育調(diào)控、動(dòng)植物疾病調(diào)控過(guò)程以及動(dòng)植物逆境脅迫等過(guò)程。具體實(shí)施方式二本實(shí)施方式所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,與具體實(shí)施方式一的不同之處在于它是對(duì)人類(lèi)癌癥響應(yīng)基因的挖掘在步驟A中,下載人類(lèi)EST數(shù)據(jù)庫(kù)和人類(lèi)UniGene數(shù)據(jù)庫(kù);在步驟B中,直接提取人類(lèi)EST文庫(kù)注釋信息,首先,提取人類(lèi)異常狀態(tài)EST文庫(kù),并提取所述的人類(lèi)異常狀態(tài)EST文庫(kù)的ID,然后,提取人類(lèi)正常狀態(tài)EST文庫(kù),并提取所述的人類(lèi)正常狀態(tài)EST文庫(kù)的ID;在步驟C中,根據(jù)人類(lèi)EST文庫(kù)注釋信息的分類(lèi)信息,從所述人類(lèi)UniGene數(shù)據(jù)庫(kù)中的人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中提取人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的健康狀態(tài)HealthState下孚L房月中瘤breasttumor,白血病leukemia,卵巢月中瘤ovariantumor,中樞神經(jīng)系統(tǒng)CNS的原始神經(jīng)夕卜胚層月中瘤primitiveneuroectodermaltumor,前歹[J腺癌prostatecancer和正常狀態(tài)normal的人類(lèi)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),同時(shí)對(duì)人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有的UniGene轉(zhuǎn)錄組的正常狀態(tài)人類(lèi)EST序列信息的條數(shù)和人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有的UniGene轉(zhuǎn)錄組的異常狀態(tài)人類(lèi)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),將上述所獲得的人類(lèi)EST序列信息的所有計(jì)數(shù)信息轉(zhuǎn)化為人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量;在步驟D中,對(duì)所獲得的人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量進(jìn)行超幾何分布檢驗(yàn),其中,以人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中正常狀態(tài)normal下的數(shù)據(jù)作為人類(lèi)UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量,以人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中其它癌癥病變狀態(tài)作為異常狀態(tài),并將所述異常狀態(tài)下的數(shù)據(jù)作為人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量,利用所獲得的人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量、人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量、人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有UniGene轉(zhuǎn)錄組的總的正常狀態(tài)EST表達(dá)量和人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有UniGene轉(zhuǎn)錄組的總的異常狀態(tài)EST表達(dá)量構(gòu)建超幾何分布檢驗(yàn),利用免費(fèi)開(kāi)源軟件R平臺(tái)的phyper完成超幾何分布檢驗(yàn),計(jì)算獲得人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue;在步驟E中,采用FDR方法調(diào)整人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue,該調(diào)整過(guò)程為將人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue按照從小到大的順序依次排列,將p(i)定義為排列后的第i個(gè)超幾何分布檢驗(yàn)值Pialue,同時(shí)設(shè)人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有UniGene轉(zhuǎn)錄組的總數(shù)為n,所述的i和n均為自然數(shù),且i《n,則調(diào)整后的第i個(gè)超幾何分布檢驗(yàn)值P-value為P-value=p(i)*n/i,此等式中所述的P-value和p(i)是重新賦值關(guān)系;在步驟F中,設(shè)置人類(lèi)癌癥所響應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue閾值為O.Ol,篩選人類(lèi)癌癥響應(yīng)基因,在此篩選過(guò)程中,將調(diào)整后的超幾何分布檢驗(yàn)值Pialue閾值以下的超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組作為人類(lèi)癌癥的響應(yīng)基因;在步驟G中,利用RT-PCR技術(shù)驗(yàn)證所篩選出的人類(lèi)癌癥響應(yīng)基因?yàn)榕c人類(lèi)癌癥相關(guān)的誘導(dǎo)基因。本實(shí)施方式提供了一種對(duì)人類(lèi)癌癥響應(yīng)基因的挖掘方法,本實(shí)施方式中所述的人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles內(nèi)容為>2IHealthStateadrenaltumor□/12841breast(mammsrytumoi:cervicaltumor0/chondros&rc0/colorectaltumor□esophagealtumoi:□gei:mcelltumor0/glioma□/107493hesd&ndnecktuinor3458182865/114863/173552647250/13740Sinsulinoma□/30305kidneytumor□/69383leukeniis0/956271ivertumor1/96641lungtumor□/103480lymphoma0/72064norL-neoplasis□/97513noi:脆l(xiāng)16/3374366ovariantumoi:□/77210pancreaticcsncei:□/74633primitiveneuroectodermaltumoi:oftheCNS□prostatecancer0/103951retinolnlastoina0/46517skintumoi:□/124881sins11intestineadenocsrcinorna□/12684125405本實(shí)施方式中提取的Hs.profiles中健康狀態(tài)HealthState下乳房腫瘤breasttumor,白血病leukemia,卵巢腫瘤ovariantumor,中樞神經(jīng)系統(tǒng)CNS的原始神經(jīng)外胚層腫瘤primitiveneuroectodermaltumor,前列腺癌prostatecancer禾口正常狀態(tài)normal的EST序列信息的計(jì)數(shù)信息為Hs.2163374366Hs.46343374366Hs.ll113374366Hs.127337436601633743668337436603873374366Hs.6688337436612033743"18033743662Hs.1021593374366133374366Hs.109463374366Hs.Ill233374366Hs.120403374366Hs.129233743"□2053374366□94573□95627077210□126405□103951394573□077210□126405□103951□945731196627□772100126405010395194573196627□7721001264050103951094573095627094573249562701294573696627□945731956270194573209662729457349562743945733966270945730966271945733094573□96627094573□9662794573□0772100126405010395177210□126405□103951□77210491264051010395177210□126405□1039512772100126405010395177210131264051103951□772102126405010395127721001264050103951□772100126405o103951□772100126405o103951□772100126405110395177210□126405□1039511264057103951從人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中提取人類(lèi)EST序列信息計(jì)數(shù)信息的方法可采用下述程序?qū)崿F(xiàn)open(human—file,〃〈$ARGV〃);while(defined($in—liiie=〈humaii—file>))14chomp$in—line;if($in—line=/"〉/&&$in—line=/HealthState/)$ugid=(split(/\s+/,$in—line))[1];$ugid=(split(AI/,$ugid));$ugid="Hs.$ugid";if($in—line=/breast\(mammarygland\)tumor/)錢(qián)temp二split(/\s+/,$in—line);@br=@temp[$frtemp—2,$frtemp];if($in—line=廠(chǎng)leukemia/)錢(qián)temp二split(/\s+/,$in—line);@leu=@temp[$frtemp—2,$frtemp];if($in—line=廠(chǎng)normal/)錢(qián)temp二split(/\s+/,$in—line);@nm=@temp[$frtemp—2,$frtemp];if($in—line=/ovariantumor/)錢(qián)temp二split(/\s+/,$in—line);@ov=@temp[$frtemp—2,$frtemp];if($in—line=/primitiveneuroectodermaltumoroftheCNS/)錢(qián)temp二split(/\s+/,$in—line);@cns=@temp[$frtemp-2,$frtemp];if($in—line=/prostatecancer/)@temp=split(/\s+/,$in—line);@pr=@temp[$frtemp-2,$frtemp];if($in—line=/BodySites/)print〃$ugid\t$nm\t$nm[l]\t$br\t$br[1]\t$leu\t$leu[l]\tprint〃$ov\t$ov[1]\t$cns\t$cns[1]\t$pr\t$pr[1]\t〃;close(human—file);本實(shí)施方式中對(duì)人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的EST表達(dá)量進(jìn)行超幾何分布檢驗(yàn),計(jì)算獲得的人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組在各種癌癥狀態(tài)下與在正常狀態(tài)(normal)下差異表達(dá)的超幾何分布檢驗(yàn)值Pialue,所述超幾何分布檢驗(yàn)值Pialue具體為UGID朋LEovPR0s-2..11111Bs-41111Bs.111t13E—12111Bs-12111.1Bs-3611111Bs-4113_細(xì)—31111OL40594401OL9^304031p1i17E—120-74^512125Bs-6611110l9647277740lGOO4S31111Bs-960l65^43390-206558605Ol119573633u07.E—050.91*364717Bs_10^.pL3314743021p_"11333491Bs.10411OL04331600911Bs.I*OL727236779OL15571853711111111111Bs.12011110.7117GS821Bs.129111110l1331908276l35E~05Ol506409974&"E—05Ol44326299上述獲得超幾何分布檢驗(yàn)值Pialue可通過(guò)下述程序?qū)崿F(xiàn)data—all=read.table("human—est.txt〃,header=F,sep=〃\t〃)data=data—all[(data—all[,1]%in%microarray.pvalue[,l]),];16鼎鼎BR鼎鼎鼎鼎鼎est二cbind(data[,4]-1,data[,5],data[,3],data[,2]+data[,4]);row.names(est)=data[,1];pvalue二l:nrow(est);for(iin1:nrow(est))pvalue[i]二phyper(est[i,l],est[i,2],est[i,3],est[i,4],lower.tail二F);BR=pvalue;鼎鼎LE鼎鼎鼎鼎鼎est二cbind(data[,6]-1,data[,7],data[,3],data[,2]+data[,6]);row.names(est)=data[,1];pvalue二l:nrow(est);for(iin1:nrow(est))pvalue[i]二phyper(est[i,l],est[i,2],est[i,3],est[i,4],lower.tail二F);LE=pralue;鼎鼎OV鼎鼎鼎鼎鼎est二cbind(data[,8]-1,data[,9],data[,3],data[,2]+data[,8]);row.names(est)=data[,1];pvalue二l:nrow(est);for(iin1:nrow(est))pvalue[i]二phyper(est[i,l],est[i,2],est[i,3],est[i,4],lower.tail二F);0V=pralue;鼎鼎CNS鼎鼎鼎鼎鼎est二cbind(data[,IO]-I,data[,ll],data[,3],data[,2]+data[,10]);row.names(est)=data[,1];pvalue二l:nrow(est);for(iin1:nrow(est))pvalue[i]二phyper(est[i,l],est[i,2],est[i,3],est[i,4],lower.tail二F);CNS=pvalue;鼎鼎PR鼎鼎鼎鼎鼎est二cbind(data[,12]-1,data[,13],data[,3],data[,2]+data[,12]);row.names(est)=data[,1];pvalue二l:nrow(est);for(iin1:nrow(est))pvalue[i]二phyper(est[i,l],est[i,2],est[i,3],est[i,4],lower.tail二F);PR=pvalue;UGID=data[,1];est.pvalue=data.frame(UGID,BR,LE,0V,CNS,PR);write,table(est.pvalue,〃Hs—est—pvalue.txt〃,col.names=T,row.names=F,sep=〃\tquote二F);他.off=0.05;temp二sort(est.pvalue[,〃BR〃]);for(iin1:length(temp))if(temp[i]氺length(temp)/i〉=fdr.off){fdr.off二temp[i];break;};unigene.est二as.character(est.pvalue[est.pvalue[,〃BR〃]〈=fdr.off,1]);他.off=0.05;temp二sort(est.pvalue[,〃LE〃]);for(iin1:length(temp))if(temp[i]氺length(temp)/i〉=fdr.off){fdr.off二temp[i];break;};unigene.est二as.character(est.pvalue[est.pvalue[,〃LE〃]〈=fdr.off,1]);他.off=0.05;temp二sort(est.pvalue[,〃0V〃]);for(iin1:length(temp))if(temp[i]氺length(temp)/i〉=fdr.off){fdr.off二temp[i];break;};unigene.est二as.character(est.pvalue[est.pvalue[,〃0V〃]〈=fdr.off,1]);他.off=0.05;temp二sort(est.pvalue[,〃CNS〃]);for(iin1:length(temp))if(temp[i]氺length(temp)/i〉=fdr.off){fdr.off二temp[i];break;};unigene.est二as.character(est.pvalue[est.pvalue[,〃CNS〃]〈=fdr.off,1]);他.off=0.05;temp二sort(est.pvalue[,〃PR〃]);for(iin1:length(temp))if(temp[i]氺length(temp)/i〉=fdr.off){fdr.off二temp[i];break;};unigene.est二as.character(est.pvalue[est.pvalue[,〃PR〃]〈=fdr.off,1]);具體實(shí)施方式三本實(shí)施方式所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,與具體實(shí)施方式一的不同之處在于它是對(duì)大豆逆境脅迫響應(yīng)基因的挖掘在步驟A中,下載大豆EST數(shù)據(jù)庫(kù)和大豆UniGene數(shù)據(jù)庫(kù);在步驟B中,以"cold","salt"和"drought"作為與大豆逆境脅迫相關(guān)的異常狀態(tài)的關(guān)鍵詞,將所述關(guān)鍵詞在大豆EST文庫(kù)注釋信息文件Gma.lib.info中進(jìn)行信息檢索,篩選大豆異常狀態(tài)EST文庫(kù),并提取大豆異常狀態(tài)EST文庫(kù)的ID,然后,將大豆EST文庫(kù)中的其他EST文庫(kù)作為大豆正常狀態(tài)EST文庫(kù),并提取大豆正常狀態(tài)EST文庫(kù)的ID,所述的在大豆EST文庫(kù)注釋信息文件Gma.lib.info中進(jìn)行信息檢索的檢索項(xiàng)包括主題TITLE、發(fā)育狀態(tài)DEVELOPMENTAL—STAGE和組織VERBAT頂—TISSUE三項(xiàng);在步驟C中,根據(jù)大豆EST文庫(kù)注釋信息的分類(lèi)信息,從所述大豆UniGene數(shù)據(jù)庫(kù)中的大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中提取大豆表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST序列信息的條數(shù)和異常狀態(tài)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),同時(shí)對(duì)大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中所有的UniGene轉(zhuǎn)錄組的正常狀態(tài)大豆EST序列信息的條數(shù)和大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中所有的UniGene轉(zhuǎn)錄組的異常狀態(tài)大豆EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),將上述所獲得的大豆EST序列信息的所有計(jì)數(shù)信息轉(zhuǎn)化為大豆表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量;在步驟D中,對(duì)所獲得的大豆表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的EST表達(dá)量進(jìn)行超幾何分布檢驗(yàn),其中,以大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中正常狀態(tài)normal下的數(shù)據(jù)作為大豆表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量,以大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中異常狀態(tài)下的數(shù)據(jù)作為大豆表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量,利用所獲得的大豆表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量、大豆表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量、大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中所有UniGene轉(zhuǎn)錄20組的總的正常狀態(tài)EST表達(dá)量和大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—1id中所有UniGene轉(zhuǎn)錄組的總的異常狀態(tài)EST表達(dá)量構(gòu)建超幾何分布檢驗(yàn),利用免費(fèi)開(kāi)源軟件R平臺(tái)的phyper完成超幾何分布檢驗(yàn),計(jì)算獲得大豆表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值P-value;在步驟E中,采用FDR方法調(diào)整大豆表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue,該調(diào)整過(guò)程為將大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中所有UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue按照從小到大的順序依次排列,將p(i)定義為排列后的第i個(gè)超幾何分布檢驗(yàn)值Pialue,同時(shí)設(shè)大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中所有UniGene轉(zhuǎn)錄組的總數(shù)為n,所述的i和n均為自然數(shù),且i《n,則調(diào)整后的第i個(gè)超幾何分布檢驗(yàn)值P-value為P-value=p(i)*n/i,此等式中所述的P-value和p(i)是重新賦值關(guān)系;在步驟F中,設(shè)置大豆逆境脅迫所響應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組的超幾何分布檢驗(yàn)值Pialue閾值為O.Ol,篩選大豆逆境脅迫響應(yīng)基因,在此篩選過(guò)程中,將調(diào)整后的超幾何分布檢驗(yàn)值Pialue閾值以下的超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組作為大豆逆境脅迫的響應(yīng)基因。在步驟G中,利用RT-PCR技術(shù)驗(yàn)證所篩選出的大豆逆境脅迫響應(yīng)基因?yàn)榕c大豆逆境脅迫相關(guān)的誘導(dǎo)基因,具體驗(yàn)證過(guò)程為第一挑選步驟F中所述的大豆逆境脅迫響應(yīng)基因進(jìn)行RT-PCR驗(yàn)證具體挑選過(guò)程為將步驟F中篩選出的大豆逆境脅迫的響應(yīng)基因按照超幾何分布檢驗(yàn)值Pialue從小到大的順序排列,挑選出最小的8個(gè)超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的大豆逆境脅迫的響應(yīng)基因,所述8個(gè)超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的大豆逆境脅迫的響應(yīng)基因分別為Gma.2044、Gma.33428、Gma.32516、Gma.34982、Gma.8518、Gma.38、Gma.3774和Gma.22054;第二大豆總RNA提取以正常培養(yǎng)的大豆21日齡幼苗進(jìn)行4。C低溫cold、200mmolL—1NaCl鹽salt和lOOmmolL—工甘露醇干旱drought脅迫處理l小時(shí)后的大豆21日齡幼苗葉片為材料,采用TRIZOL試劑法提取大豆總RNA,所述采用TRIZOL試劑法提取總RNA的方法參照試劑盒說(shuō)明書(shū)進(jìn)行,具體為i.稱(chēng)取100mg所述幼苗葉片樣品放入高溫高壓消毒研缽,迅速在液氮中研磨成粉末,然后加入lmlTRIZOL研磨成勻漿組織;ii.將所述勻漿組織作為標(biāo)本轉(zhuǎn)移到1.5ml的離心管中,在153(TC環(huán)境下放置5min,21以徹底分離核蛋白復(fù)合體;iii.向所述離心管中加入0.2ml的氯仿,加蓋好后用手劇烈搖晃15s,在1530。C環(huán)境下放置23min,然后離心12000rmin—、15min,28。C,離心后離心管內(nèi)物質(zhì)分成三層,下層為紅色的酚,中間層為氯仿相,上層為無(wú)色的水相,RNA只存在于水相中,水相占總TRIZOL的60o/o;iv.將上層水相轉(zhuǎn)移到另一個(gè)干凈的離心管中,加入0.5ml異丙醇,在153(TC環(huán)境下靜置IOmin,然后離心12000rmin—、10min,28。C;v.去步驟iv中所述離心管中上清,加入lml75。/。乙醇洗滌RNA沉淀,采用振蕩器混勻,然后離心7500r.min—、5min,28°C;vi.繼續(xù)去步驟v中離心管中上清,并將去上清后的離心管置于真空或空氣中510min,干燥RNA沉淀,加DEPC處理的無(wú)菌水15yl,并將加入無(wú)菌水的離心管置于-2(TC環(huán)境下保存?zhèn)溆?,提取總RNA完成;第三cDNA的合成以所提取的總RNA為模板,在下游引物的引導(dǎo)下,合成cDNA第一鏈,反應(yīng)體系如下在O.2mlPCR管中依次加入總RNA2X)卩1下游引物0O卩mol/L)1.0卩1dNTPs(10mmol/L)2.0卩1Supe「HI(反婦酶)1.0卩1RNaseInhibito「〔RNA酶抑制劑)1.O卩l(xiāng)5xRTBuffe「(5xRT緩沖液)4.0卩1滅菌重蒸水_9.0MlTotalVolume〔總體枳)20.0pl所述反應(yīng)體系混合均勻后稍稍離心,將管壁上的液滴收集到管底,將所述反應(yīng)體系按如下程序運(yùn)行65°C,5min;4°C,lmin;55°C,60min;7CTC,15min;瞬時(shí)離心,放入PCR儀中進(jìn)行擴(kuò)增,進(jìn)行樣品cDNA的合成;第四RT-PCR半定量分析合成大豆逆境脅迫誘導(dǎo)基因Gma.2044、Gma.33428、Gma.32516、Gma.34982、Gma.8518、Gma.38、Gma.3774、Gma.22054和內(nèi)參基因Actin的引物,引物如表l:表l大豆逆境脅迫誘導(dǎo)基因RT-PCR引物<table>tableseeoriginaldocumentpage23</column></row><table>PCR反應(yīng)總體積為25yl,其中O.2ymolL—^勺前向引物和反向引物,800ymolL—MnTP,1.5mmolL—1MgCl2,1UrTaq聚合酶和2.5y1的10XPCRbuffer,其余體積的物質(zhì)用去離子水補(bǔ)齊,輕彈離心管底部使所加各試劑充分混勻,稍稍離心將管壁液滴收集到離心管底部,并將所述液滴放置于PCR自動(dòng)擴(kuò)增儀進(jìn)行擴(kuò)增;取8.0y1PC財(cái)廣增產(chǎn)物,用2.0%的瓊脂糖凝膠進(jìn)行電泳,在10Vcm—、恒壓條件下電泳30min后,在凝膠成像儀下觀(guān)察并照相,對(duì)基因表達(dá)進(jìn)行RT-PCR半定量分析,所述凝膠成像儀為紫外燈;從圖2中可以看出,內(nèi)參基因Actin在4種大豆材料中表達(dá)水平相同,說(shuō)明基因表達(dá)的內(nèi)參基因Actin(表達(dá)量參照基因)已經(jīng)調(diào)平,所述4種大豆材料分別為正常培養(yǎng)下大豆,低溫、鹽和干旱逆境脅迫下大豆,由于在低溫,鹽和干旱逆境脅迫下的基因表達(dá)量與正常培養(yǎng)下的基因表達(dá)量相比上升,故所挑選出的大豆逆境脅迫響應(yīng)基因?yàn)榕c大豆逆境脅迫相關(guān)的誘導(dǎo)基因。本實(shí)施方式提供了一種對(duì)大豆逆境脅迫響應(yīng)基因的挖掘方法,本實(shí)施方式中所述的R平臺(tái)來(lái)源于http:〃www.r-project.org/,本實(shí)施方式中所述的大豆轉(zhuǎn)錄組文件Gma.gb—cid—lid內(nèi)容為本實(shí)施方式中提取的大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—1id中大豆逆境脅迫狀態(tài)下和大豆正常狀態(tài)下EST序列信息的計(jì)數(shù)信息為.1000339753351551Qua.10001339753351552Qna.1000433397533515521&na.100060339753351554Qna.10010339753351554Qna.1001373397533515531Qua.1001533397533515512(^na.63397533515524Qna.10020339753351559Qua.100240339753351552從大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中提取大豆EST序列信息計(jì)數(shù)信息可利用下述程序?qū)崿F(xiàn)open(lib—file,〃〈$ARGV〃);while(defined($in—line=〈lib—file》)chomp$in—line;$library{$in—line}++;close(libfile);■08678墜^卿亟涵i17241,Z.〖涵JL涵雄^i涵,io5S2:2:2iCN-:2;2;oio:o:oio一o;o!o;o:OIojo;lili1:li1;1.i1:2i24open(cid—file,〃〈$ARGV[1]〃);while(defined($in—line=〈cid—file》)chomp$in—line;if($in—line!八-/)@data=split(/\s+/,line);$gb=$data;$ug="Gma.$data[l]";$library=$data[2];$all—contig{$ug}++;if(!exists($ist—contig{$ug})){$ist—contig{$ug}=0;};{$ist—contig{$ug}++;};close(cid—file);foreach(sort(keys%all—contig))$all—num+=$all—contig{$—};$ist—num+=$ist—contig{$—};foreach(sort(keys%all—contig))print"$—\t$ist—contig{$—}\t$all—num\t$ist—num\t$all—contig{$—}\n差異表達(dá)的EST表達(dá)量進(jìn)行超幾何分布檢驗(yàn)計(jì)算,獲得的大豆表達(dá)基因UniGene轉(zhuǎn)錄組在逆境脅迫狀態(tài)下與在正常狀態(tài)下差異表達(dá)的超幾何分布檢驗(yàn)值Pialue,所述超幾何分布檢驗(yàn)值Pialue具體為Gna.20441223515530459^1314.01E—110Gna.33428106351563045981207.19E~90Gna.3251659351563045961056.50E—32Gna.349622035156304596224.04E—20Gna.85182935155304596497.02E—18Gna.381935156304596232.56E—17Gna.37742435155304596383.2犯—1642351553045961312.81E—12Gna.175171435155304596214.90E—11pna一15941235155304596166.43E—11Gna.78SO2235155304596498.艦—11G^ia.508281351553045963801.15E—10Gna.195311035155304596139.29E—10Gna.215841135155304598161.83E~09G叫.268^71635155045984.03E""Q9Gna.142722435155304598674.88E""09Gna.3006120304^98506.81E~09Gna.166441335155304598241.15E""08Gna.220588351553Q4598101.Gna.3507173515530459881.31E""08上述數(shù)據(jù)的獲得方法可以采用實(shí)施方式二中的獲得人類(lèi)超幾何分布檢驗(yàn)值Pialue的方法。具體實(shí)施方式四本實(shí)施方式所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,與具體實(shí)施方式三的不同之處在于步驟G中所述內(nèi)參基因Actin的調(diào)平通過(guò)調(diào)節(jié)RT-PCR模板cDNA的上樣量完成,具體為如果PCR儀中擴(kuò)增產(chǎn)物條帶過(guò)亮,則按比例減少模板cDNA,如果PCR儀中擴(kuò)增產(chǎn)物條帶較暗,則增加模板cDNA,直到內(nèi)參基因Actin在4種大豆材料下的擴(kuò)增條帶亮度相同為止,此時(shí)內(nèi)參基因Actin已經(jīng)調(diào)平。權(quán)利要求1.一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于它的挖掘過(guò)程為步驟A下載EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù),并對(duì)所述的UniGene數(shù)據(jù)庫(kù)中的EST序列信息按照物種類(lèi)型進(jìn)行分類(lèi),接下來(lái)執(zhí)行步驟B;步驟B對(duì)所述的EST文庫(kù)注釋信息進(jìn)行信息檢索,進(jìn)而對(duì)EST文庫(kù)注釋信息進(jìn)行分類(lèi),接下來(lái)執(zhí)行步驟C;步驟C根據(jù)EST文庫(kù)注釋信息的分類(lèi)信息計(jì)算表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量,接下來(lái)執(zhí)行步驟D;步驟D對(duì)所獲得的表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量進(jìn)行超幾何分布檢驗(yàn),計(jì)算獲得表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值P-value,接下來(lái)執(zhí)行步驟E;步驟E采用FDR方法調(diào)整表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值P-value,接下來(lái)執(zhí)行步驟F;步驟F設(shè)置表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值P-value閾值為0.01,篩選異常狀態(tài)響應(yīng)基因,接下來(lái)執(zhí)行步驟G;步驟G利用RT-PCR技術(shù)驗(yàn)證所篩選出的異常狀態(tài)響應(yīng)基因?yàn)榕c性狀相關(guān)的誘導(dǎo)基因。2.根據(jù)權(quán)利要求l所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于所述步驟B的具體過(guò)程為首先,收集生物體異常狀態(tài)的關(guān)鍵詞,用所收集的每一個(gè)生物體異常狀態(tài)的關(guān)鍵詞在EST文庫(kù)注釋信息中進(jìn)行信息檢索,篩選異常狀態(tài)EST文庫(kù),并提取異常狀態(tài)EST文庫(kù)的ID,然后,收集生物體正常狀態(tài)的關(guān)鍵詞,用所收集的每一個(gè)生物體正常狀態(tài)的關(guān)鍵詞在所述的EST文庫(kù)注釋信息中進(jìn)行信息檢索,篩選正常狀態(tài)EST文庫(kù),并提取正常狀態(tài)EST文庫(kù)的ID,所述的在EST文庫(kù)注釋信息中進(jìn)行信息檢索的檢索項(xiàng)包括主題TITLE、發(fā)育狀態(tài)DEVELOPMENTAL—STAGE和組織VERBAT頂—TISSUE三項(xiàng)。3.根據(jù)權(quán)利要求l所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于所述步驟C的具體過(guò)程為根據(jù)EST文庫(kù)注釋信息的分類(lèi)信息,從所述UniGene數(shù)據(jù)庫(kù)中的UniGene轉(zhuǎn)錄組文件中提取表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST序列信息的條數(shù)和異常狀態(tài)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),同時(shí)對(duì)所述UniGene轉(zhuǎn)錄組文件中的所有的UniGene轉(zhuǎn)錄組的正常狀態(tài)EST序列信息的條數(shù)和所述UniGene轉(zhuǎn)錄組文件中的所有的UniGene轉(zhuǎn)錄組的異常狀態(tài)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),將上述所獲得的EST序列信息的所有計(jì)數(shù)信息轉(zhuǎn)化為EST表達(dá)量。4.根據(jù)權(quán)利要求l所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于所述步驟C的具體過(guò)程為根據(jù)UniGene數(shù)據(jù)庫(kù)中按照EST文庫(kù)注釋信息的分類(lèi)信息對(duì)UniGene轉(zhuǎn)錄組文件中所有的UniGene轉(zhuǎn)錄組所完善建立的EST序列信息,直接提取EST序列信息的所有計(jì)數(shù)信息,將所述計(jì)數(shù)信息轉(zhuǎn)化為相應(yīng)的EST表達(dá)量。5.根據(jù)權(quán)利要求l所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于所述步驟D的具體過(guò)程為設(shè)表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量為a,表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量為b,且UniGene轉(zhuǎn)錄組文件中所有UniGene轉(zhuǎn)錄組的總的正常狀態(tài)EST表達(dá)量為c,所述UniGene轉(zhuǎn)錄組文件中所有UniGene轉(zhuǎn)錄組的總的異常狀態(tài)EST表達(dá)量為d,以a、b、c和d四個(gè)數(shù)構(gòu)建超幾何分布檢驗(yàn),利用免費(fèi)開(kāi)源軟件R平臺(tái)的phyper完成超幾何分布檢驗(yàn),公式一<formula>formulaseeoriginaldocumentpage3</formula>利用公式一計(jì)算獲得表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue。6.根據(jù)權(quán)利要求l所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于所述步驟E的具體調(diào)整過(guò)程為將UniGene轉(zhuǎn)錄組文件中所有UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue按照從小到大的順序依次排列,將p(i)定義為排列后的第i個(gè)超幾何分布檢驗(yàn)值Pialue,同時(shí)設(shè)所述UniGene轉(zhuǎn)錄組文件中所有UniGene轉(zhuǎn)錄組的總數(shù)為n,所述的i和n均為自然數(shù),且i《n,則調(diào)整后的第i個(gè)超幾何分布檢驗(yàn)值P-value為P-value=p(i)*n/i,此等式中所述的P-value和p(i)是重新賦值關(guān)系。7.根據(jù)權(quán)利要求l所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于所述步驟F的具體篩選過(guò)程為將調(diào)整后的超幾何分布檢驗(yàn)值Pialue閾值以下的超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組作為異常狀態(tài)的響應(yīng)基因。8.根據(jù)權(quán)利要求l所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于所述挖掘方法是對(duì)人類(lèi)癌癥響應(yīng)基因的挖掘在步驟A中,下載人類(lèi)EST數(shù)據(jù)庫(kù)和人類(lèi)UniGene數(shù)據(jù)庫(kù);在步驟B中,直接提取人類(lèi)EST文庫(kù)注釋信息,首先,提取人類(lèi)異常狀態(tài)EST文庫(kù),并提取所述的人類(lèi)異常狀態(tài)EST文庫(kù)的ID,然后,提取人類(lèi)正常狀態(tài)EST文庫(kù),并提取所述的人類(lèi)正常狀態(tài)EST文庫(kù)的ID;在步驟C中,根據(jù)人類(lèi)EST文庫(kù)注釋信息的分類(lèi)信息,從所述人類(lèi)UniGene數(shù)據(jù)庫(kù)中的人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中提取人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的健康狀態(tài)HealthState下乳房月中瘤breasttumor,白血病leukemia,卵巢月中瘤ovariantumor,中樞神經(jīng)系統(tǒng)CNS的原始神經(jīng)夕卜胚層月中瘤primitiveneuroectodermaltumor,前歹[J腺癌prostatecancer和正常狀態(tài)normal的人類(lèi)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),同時(shí)對(duì)人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profi1es中所有的UniGene轉(zhuǎn)錄組的正常狀態(tài)人類(lèi)EST序列信息的條數(shù)和人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有的UniGene轉(zhuǎn)錄組的異常狀態(tài)人類(lèi)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),將上述所獲得的人類(lèi)EST序列信息的所有計(jì)數(shù)信息轉(zhuǎn)化為人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量;在步驟D中,對(duì)所獲得的人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量進(jìn)行超幾何分布檢驗(yàn),其中,以人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中正常狀態(tài)normal下的數(shù)據(jù)作為人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量,以人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中其它癌癥病變狀態(tài)作為異常狀態(tài),并將所述異常狀態(tài)下的數(shù)據(jù)作為人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量,利用所獲得的人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量、人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量、人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有UniGene轉(zhuǎn)錄組的總的正常狀態(tài)EST表達(dá)量和人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有UniGene轉(zhuǎn)錄組的總的異常狀態(tài)EST表達(dá)量構(gòu)建超幾何分布檢驗(yàn),利用免費(fèi)開(kāi)源軟件R平臺(tái)的phyper完成超幾何分布檢驗(yàn),計(jì)算獲得人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue;在步驟E中,采用FDR方法調(diào)整人類(lèi)表達(dá)基因UniGene轉(zhuǎn)錄組的超幾何分布檢驗(yàn)值Pialue,該具體調(diào)整過(guò)程為將人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue按照從小到大的順序依次排列,將p(i)定義為排列后的第i個(gè)超幾何分布檢驗(yàn)值Pialue,同時(shí)設(shè)人類(lèi)UniGene轉(zhuǎn)錄組文件Hs.profiles中所有UniGene轉(zhuǎn)錄組的總數(shù)為n,所述的i和n均為自然數(shù),且i《n,則調(diào)整后的第i個(gè)超幾何分布檢驗(yàn)值P-value為P-value=p(i)*n/i,此等式中所述的P-value和p(i)是重新賦值關(guān)系;在步驟F中,設(shè)置人類(lèi)癌癥所響應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue閾值為O.Ol,篩選人類(lèi)癌癥響應(yīng)基因,在此篩選過(guò)程中,將調(diào)整后的超幾何分布檢驗(yàn)值Pialue閾值以下的超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組作為人類(lèi)癌癥的響應(yīng)基因;在步驟G中,利用RT-PCR技術(shù)驗(yàn)證所篩選出的人類(lèi)癌癥響應(yīng)基因?yàn)榕c人類(lèi)癌癥相關(guān)的誘導(dǎo)基因。9.根據(jù)權(quán)利要求l所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于它是對(duì)大豆逆境脅迫響應(yīng)基因的挖掘在步驟A中,下載大豆EST數(shù)據(jù)庫(kù)和大豆UniGene數(shù)據(jù)庫(kù);在步驟B中,以"cold","salt"和"drought"作為與大豆逆境脅迫相關(guān)的異常狀態(tài)的關(guān)鍵詞,將所述關(guān)鍵詞在大豆EST文庫(kù)注釋信息文件Gma.lib.info中進(jìn)行信息檢索,篩選大豆異常狀態(tài)EST文庫(kù),并提取大豆異常狀態(tài)EST文庫(kù)的ID,然后,將大豆EST文庫(kù)中的其他EST文庫(kù)作為大豆正常狀態(tài)EST文庫(kù),并提取大豆正常狀態(tài)EST文庫(kù)的ID,所述的在大豆EST文庫(kù)注釋信息文件Gma.lib.info中進(jìn)行信息的檢索,檢索項(xiàng)包括所述EST文庫(kù)注釋信息文件Gma.lib.info中的主題TITLE、發(fā)育狀態(tài)DEVELOPMENTAL—STAGE和組織VERBAT頂—TISSUE三項(xiàng);在步驟C中,根據(jù)大豆EST文庫(kù)注釋信息的分類(lèi)信息,從所述大豆UniGene數(shù)據(jù)庫(kù)中的大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中提取大豆表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST序列信息的條數(shù)和異常狀態(tài)EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),同時(shí)對(duì)大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中所有的UniGene轉(zhuǎn)錄組的正常狀態(tài)大豆EST序列信息的條數(shù)和大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中所有的UniGene轉(zhuǎn)錄組的異常狀態(tài)大豆EST序列信息的條數(shù)進(jìn)行計(jì)數(shù),將上述所獲得的大豆EST序列信息的所有計(jì)數(shù)信息轉(zhuǎn)化為大豆表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量;在步驟D中,對(duì)所獲得的大豆表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量進(jìn)行超幾何分布檢驗(yàn),其中,以大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中正常狀態(tài)normal下的數(shù)據(jù)作為大豆表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量,以大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中異常狀態(tài)下的數(shù)據(jù)作為大豆表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量,利用所獲得的大豆表達(dá)基因UniGene轉(zhuǎn)錄組的正常狀態(tài)EST表達(dá)量、大豆表達(dá)基因UniGene轉(zhuǎn)錄組的異常狀態(tài)EST表達(dá)量、大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—1id中所有UniGene轉(zhuǎn)錄組的總的正常狀態(tài)EST表達(dá)量和大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中所有UniGene轉(zhuǎn)錄組的總的異常狀態(tài)EST表達(dá)量構(gòu)建超幾何分布檢驗(yàn),利用免費(fèi)開(kāi)源軟件R平臺(tái)的phyper完成超幾何分布檢驗(yàn),計(jì)算獲得大豆表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue;在步驟E中,采用FDR方法調(diào)整大豆表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue,該調(diào)整過(guò)程為將大豆UniGene轉(zhuǎn)錄組文件Gma.gb—cid—lid中所有UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue按照從小到大的順序依次排列,將p(i)定義為排列后的第i個(gè)超幾何分布檢驗(yàn)值Pialue,同時(shí)設(shè)大豆所有UniGene轉(zhuǎn)錄組的總數(shù)為n,所述的i和n均為自然數(shù),且i《n,則調(diào)整后的第i個(gè)超幾何分布檢驗(yàn)值Pialue為Pialue=p(i)*n/i,此等式中所述的Pialue和p(i)是重新賦值關(guān)系;在步驟F中,設(shè)置大豆逆境脅迫所響應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組差異表達(dá)的超幾何分布檢驗(yàn)值Pialue閾值為O.Ol,篩選大豆逆境脅迫響應(yīng)基因,在此篩選過(guò)程中,將調(diào)整后的超幾何分布檢驗(yàn)值Pialue閾值以下的超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的表達(dá)基因UniGene轉(zhuǎn)錄組作為大豆逆境脅迫的響應(yīng)基因;在步驟G中,利用RT-PCR技術(shù)驗(yàn)證所篩選出的大豆逆境脅迫響應(yīng)基因?yàn)榕c大豆逆境脅迫相關(guān)的誘導(dǎo)基因,具體驗(yàn)證過(guò)程為第一挑選步驟F中所述的大豆逆境脅迫響應(yīng)基因進(jìn)行RT-PCR驗(yàn)證具體挑選過(guò)程為將步驟F中篩選出的大豆逆境脅迫的響應(yīng)基因按照超幾何分布檢驗(yàn)值Pialue從小到大的順序排列,挑選出最小的8個(gè)超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的大豆逆境脅迫的響應(yīng)基因,所述8個(gè)超幾何分布檢驗(yàn)值Pialue所對(duì)應(yīng)的大豆逆境脅迫的響應(yīng)基因分別為Gma.2044、Gma.33428、Gma.32516、Gma.34982、Gma.8518、Gma.38、Gma.3774和Gma.22054;第二大豆總RNA提取以正常培養(yǎng)的大豆21日齡幼苗進(jìn)行4。C低溫cold、200mmolL-1NaCl鹽salt和100mmolL-l甘露醇干旱drought脅迫處理l小時(shí)后的大豆21日齡幼苗葉片為材料,采用TRIZOL試劑法提取大豆總RNA,所述采用TRIZOL試劑法提取總RNA的方法參照試劑盒說(shuō)明書(shū)進(jìn)行,具體為i.稱(chēng)取100mg所述幼苗葉片樣品放入高溫高壓消毒研缽,迅速在液氮中研磨成粉末,然后加入lmlTRIZOL研磨成勻漿組織;ii.將所述勻漿組織作為標(biāo)本轉(zhuǎn)移到1.5ml的離心管中,在153(TC環(huán)境下放置5min,以徹底分離核蛋白復(fù)合體;iii.向所述離心管中加入0.2ml的氯仿,加蓋好后用手劇烈搖晃15s,在1530。C環(huán)境下放置23min,然后離心12000rmin-1,15min,28。C,離心后離心管內(nèi)物質(zhì)分成三層,下層為紅色的酚,中間層為氯仿相,上層為無(wú)色的水相,RNA只存在于水相中,水相占總TRIZOL的60o/o;iv.將上層水相轉(zhuǎn)移到另一個(gè)干凈的離心管中,加入0.5ml異丙醇,在153(TC環(huán)境下靜置IOmin,然后離心12000rmin-1,10min,28。C;v.去步驟iv中所述離心管中上清,加入lml75。/。乙醇洗滌RNA沉淀,采用振蕩器混勻,然后離心7500r*min-1,5min,28°C;vi.繼續(xù)去步驟v中離心管中上清,并將去上清后的離心管置于真空或空氣中510min,干燥RNA沉淀,加DEPC處理的無(wú)菌水15y1,并將加入無(wú)菌水的離心管置于-2(TC環(huán)境下保存?zhèn)溆?,提取總RNA完成;第三cDNA的合成以所提取的總RNA為模板,在下游引物的引導(dǎo)下,合成cDNA第一鏈,反應(yīng)體系如下在O.2mlPCR管中依次加入總RNA2X)卩1下游引物0O卩mol/L)1.0卩1dNTPs(10mmol/L)2.0卩1Supe「HI(反婦酶)1.0卩1RNaseInhibito「〔RNA酶抑制劑)1.O卩l(xiāng)5xRTBuffe「(5xRT緩沖液)4.0卩1滅菌重蒸水_9.0MlTotalVolume〔總體枳)20.0pl所述反應(yīng)體系混合均勻后稍稍離心,將管壁上的液滴收集到管底,將所述反應(yīng)體系按如下程序運(yùn)行65°C,5min;4°C,lmin;55°C,60min;7CTC,15min;瞬時(shí)離心,放入PCR儀中進(jìn)行擴(kuò)增,進(jìn)行樣品cDNA的合成;第四RT-PCR半定量分析合成大豆逆境脅迫誘導(dǎo)基因Gma.2044、Gma.33428、Gma.32516、Gma.34982、Gma.8518、Gma.38、Gma.3774、Gma.22054和內(nèi)參基因Actin的引物,引物如表l:表lt豆.細(xì)辦迫i紹細(xì)RT-PCR引物_站E"I時(shí)向引物反向3f物Gma-2044MACTTTGACTGGCAAfiACCATTATCTGAACTCTO:ACCTCCAAGG恥GAAGTGAAC下CAGACMGACCCfflXAAGCTGAGAGAGGAAACcOTCTGcrGAAAGAGA肌虹ACCACTACCTTCACAACGma.33ACATGCCTTCTACAACACCOTCKTGC(TCAtCCCT(TATAnTG亂3774CTGGTTCTATGCCACCrTCTT匚TCTCCTCTGTATTTTCTCCTCGGTG亂22054ActknCKAGCACTG恥TCATCACAACTACTGCTKAGCAGTGKAAATGTPCR反應(yīng)總體積為25y1,其中0.2ymo1L-l的前向引物和反向引物,800ymolL-ldNTP,1.5mmolL-lMgC12,1UrTaq聚合酶和2.5y1的10XPCRbuffer,其余體積的物質(zhì)用去離子水補(bǔ)齊,輕彈離心管底部使所加各試劑充分混勻,稍稍離心將管壁液滴收集到離心管底部,并將所述液滴放置于PCR自動(dòng)擴(kuò)增儀進(jìn)行擴(kuò)增;取8.0y1PC財(cái)廣增產(chǎn)物,用2.0%的瓊脂糖凝膠進(jìn)行電泳,在10Vcm-l恒壓條件下電泳30min后,在凝膠成像儀下觀(guān)察并照相,對(duì)基因表達(dá)進(jìn)行RT-PCR半定量分析,所述凝膠成像儀為紫外燈;內(nèi)參基因Actin在4種大豆材料中表達(dá)水平相同,說(shuō)明基因表達(dá)的內(nèi)參基因Actin已經(jīng)調(diào)平,所述4種大豆材料分別為正常培養(yǎng)下大豆,低溫、鹽和干旱逆境脅迫下大豆,由于在低溫,鹽和干旱逆境脅迫下的基因表達(dá)量與正常培養(yǎng)下的基因表達(dá)量相比上升,故所挑選出的大豆逆境脅迫響應(yīng)基因?yàn)榕c大豆逆境脅迫相關(guān)的誘導(dǎo)基因。10根據(jù)權(quán)利要求9所述的一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,其特征在于步驟G中所述內(nèi)參基因Actin的調(diào)平通過(guò)調(diào)節(jié)RT-PCR模板cDNA的上樣量完成,具體為如果PCR儀中擴(kuò)增產(chǎn)物條帶過(guò)亮,則按比例減少模板cDNA,如果PCR儀中擴(kuò)增產(chǎn)物條帶較暗,則增加模板cDNA,直到內(nèi)參基因Actin在4種大豆材料下的擴(kuò)增條帶亮度相同為止,此時(shí)內(nèi)參基因Actin已經(jīng)調(diào)平。全文摘要一種基于EST數(shù)據(jù)庫(kù)和UniGene數(shù)據(jù)庫(kù)的基因挖掘方法,它涉及應(yīng)用生物信息學(xué)領(lǐng)域。它克服了現(xiàn)有的基因挖掘方法中無(wú)法正確挖掘與性狀相關(guān)的誘導(dǎo)基因的問(wèn)題。本發(fā)明的方法利用EST數(shù)據(jù)庫(kù)中的EST序列將UniGene數(shù)據(jù)庫(kù)中的表達(dá)基因UniGene轉(zhuǎn)錄組的EST表達(dá)量數(shù)字化,構(gòu)建超幾何分布檢驗(yàn),并結(jié)合FDR方法調(diào)整表達(dá)基因UniGene轉(zhuǎn)錄組的差異表達(dá)的超幾何分布檢驗(yàn)值P-value,篩選異常狀態(tài)響應(yīng)基因,最后利用RT-PCR技術(shù)驗(yàn)證所述響應(yīng)基因?yàn)榕c性狀相關(guān)的誘導(dǎo)基因。本方法可以用于人類(lèi)疾病發(fā)生、動(dòng)植物生長(zhǎng)發(fā)育調(diào)控、動(dòng)植物疾病調(diào)控過(guò)程以及動(dòng)植物逆境脅迫等性狀相關(guān)誘導(dǎo)基因的挖掘。文檔編號(hào)G06F19/00GK101661536SQ20091030848公開(kāi)日2010年3月3日申請(qǐng)日期2009年10月20日優(yōu)先權(quán)日2009年10月20日發(fā)明者季佐軍,華才,朱延明,勇李,束永俊,錫柏,巍紀(jì)申請(qǐng)人:東北農(nóng)業(yè)大學(xué)