專(zhuān)利名稱(chēng):一種尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算生物學(xué)領(lǐng)域,具體涉及一種尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法。
背景技術(shù):
尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子一直是功能基因組學(xué)關(guān)心的熱點(diǎn)問(wèn)題,目前由于缺乏簡(jiǎn)便、快速、有效的研究方法,該問(wèn)題也是研究轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)的難點(diǎn)。通過(guò)轉(zhuǎn)錄因子結(jié)合位點(diǎn)分析預(yù)測(cè)調(diào)控一組基因的轉(zhuǎn)錄因子是計(jì)算生物學(xué)的一個(gè)重要研究?jī)?nèi)容,如發(fā)表在《基因組生物學(xué)》的文獻(xiàn)1提供的方法。對(duì)于尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子,現(xiàn)有的計(jì)算生物學(xué)的解決方法是,提取這些基因的調(diào)控序列,利用轉(zhuǎn)錄因子的位點(diǎn)權(quán)重矩陣算法(文獻(xiàn)2)分析這組序列中可能出現(xiàn)的轉(zhuǎn)錄因子結(jié)合位點(diǎn),統(tǒng)計(jì)在這組序列中同時(shí)出現(xiàn)的結(jié)合位點(diǎn),這些位點(diǎn)上的轉(zhuǎn)錄因子可能就是調(diào)控這一組基因的轉(zhuǎn)錄因子,如在《基因組信息學(xué)》發(fā)表的文獻(xiàn)3的方法。該方法的主要缺點(diǎn)在于由于利用位點(diǎn)權(quán)重矩陣估計(jì)轉(zhuǎn)錄因子結(jié)合位點(diǎn)的假陽(yáng)性非常高,大量的假陽(yáng)性預(yù)測(cè)產(chǎn)生的共調(diào)控的轉(zhuǎn)錄因子中真實(shí)的調(diào)控因子個(gè)數(shù)太少。此外,該方法也沒(méi)有考慮相關(guān)基因中被特定轉(zhuǎn)錄因子調(diào)控的比例。由于在實(shí)際工作中,確定一組相關(guān)基因?qū)嶒?yàn)方法和分析方法都存在一定誤差,同時(shí)生物體中也只有一部分相關(guān)基因是共調(diào)控的,如文獻(xiàn)4(《生物信息學(xué)》)對(duì)基因表達(dá)的分析。因此,籠統(tǒng)地認(rèn)為相關(guān)基因就是共調(diào)控基因是有失偏頗的,這也使得現(xiàn)有的計(jì)算方法失去部分效用。相關(guān)文獻(xiàn)有1.Bulyk,M.L.2003.Computational prediction of transcription-factor binding sitelocations.Genome Biol.5201.
2.Quandt,K.,K.Frech,H.Karas,E.Wingender,and T.Werner.1995.MatInd andMatInspectornew fast and versatile tools for detection of consensus matchesin nucleotide sequence data.Nucleic Acids Res.234878-4884.
3.Kielbase,S.M.,N.Bluthgen,C.Sers,R.Schafer,and H.Herzel.2004.Predictionof cis-regulatory elements of coregulated genes.Genome Inform.Ser.WorkshopGenome Inform.15117-124.
4.Ihmels,J.,S.Bergmann,and N.Barkai.2004.Defining transcription modulesusing large-scale gene expression data.Bioinformatics.201993-2003.
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,該方法通過(guò)計(jì)算轉(zhuǎn)錄因子在一組相關(guān)基因中結(jié)合位點(diǎn)的實(shí)際個(gè)數(shù)與期望個(gè)數(shù)的比值,來(lái)判定轉(zhuǎn)錄因子與這組基因的關(guān)系。如果比值不低于預(yù)先計(jì)算的共調(diào)控顯著性閾值,則認(rèn)為轉(zhuǎn)錄因子與這組基因有關(guān)。其中,共調(diào)控顯著性閾值是由位點(diǎn)權(quán)重矩陣算法的特異性(以下簡(jiǎn)稱(chēng)算法的特異性)、這組相關(guān)基因的共調(diào)控比和轉(zhuǎn)錄因子的總體調(diào)控率確定的。
本發(fā)明通過(guò)以下步驟實(shí)現(xiàn)(1)確定一組相關(guān)基因,提取這組基因的調(diào)控序列,并利用位點(diǎn)權(quán)重矩陣算法計(jì)算這些序列上的轉(zhuǎn)錄因子結(jié)合位點(diǎn)。
確定一組相關(guān)基因的方法是根據(jù)基因的生物學(xué)特性,判斷一組基因是否具有相關(guān)性,如具有相同表達(dá)譜的基因、具有相同基因本體(GeneOntology)注釋的基因、處于同一生物通路中的基因或進(jìn)化上的同源基因,只要這些基因有共同的生物學(xué)特性,都可以認(rèn)為是相關(guān)基因。
調(diào)控序列的范圍可以涉及基因內(nèi)和基因間的各個(gè)部分,提取方法是在各種基因組序列的公共數(shù)據(jù)庫(kù)中查詢(xún)相關(guān)基因的目的序列。
位點(diǎn)權(quán)重矩陣算法可以參考文獻(xiàn)2(1995年《核酸研究》)提供的方法。
(2)算法的特異性。
對(duì)于特定轉(zhuǎn)錄因子,算法的特異性是真陽(yáng)性預(yù)測(cè)位點(diǎn)數(shù)占預(yù)測(cè)總位點(diǎn)數(shù)的百分比,主要由位點(diǎn)權(quán)重矩陣算法和相似性閾值決定,不同算法的特異性存在差異,對(duì)于同一算法,相似性閾值越高,特異性越強(qiáng),算法的特異性一般在15%到40%之間。計(jì)算方法是根據(jù)位點(diǎn)權(quán)重矩陣算法計(jì)算轉(zhuǎn)錄因子在已知靶序列上的結(jié)合位點(diǎn),已知調(diào)控位點(diǎn)數(shù)占預(yù)測(cè)的總位點(diǎn)數(shù)的百分比就是該轉(zhuǎn)錄因子位點(diǎn)權(quán)重矩陣算法的特異性。
由于算法的特異性主要決定于位點(diǎn)權(quán)重矩陣算法和相似性閾值,受轉(zhuǎn)錄因子的影響較小,可以預(yù)先計(jì)算不同算法在不同相似性閾值的特異性,做出不同算法的特異性對(duì)相似性閾值的變化曲線,在以后的分析中,只要根據(jù)相似性閾值,選擇合適的算法,可確定相應(yīng)的特異性,不必重復(fù)計(jì)算。
(3)在步驟(1)得到的在調(diào)控序列上存在結(jié)合位點(diǎn)的轉(zhuǎn)錄因子中,選擇一個(gè)待測(cè)轉(zhuǎn)錄因子。
(4)計(jì)算步驟(3)所選的待測(cè)轉(zhuǎn)錄因子的平均結(jié)合密度。轉(zhuǎn)錄因子的平均結(jié)合密度是指單位長(zhǎng)度的基因組序列上出現(xiàn)的該轉(zhuǎn)錄因子的結(jié)合位點(diǎn)個(gè)數(shù)。計(jì)算方法是提取基因組序列,利用位點(diǎn)權(quán)重矩陣算法計(jì)算轉(zhuǎn)錄因子在基因組序列上的結(jié)合位點(diǎn),用總的位點(diǎn)個(gè)數(shù)除以這些基因組序列的總長(zhǎng),得到該轉(zhuǎn)錄因子的平均結(jié)合密度。為了減少計(jì)算量、簡(jiǎn)化計(jì)算流程,可以預(yù)先計(jì)算已知轉(zhuǎn)錄因子在各種基因組中的平均結(jié)合密度,每次尋找調(diào)控相關(guān)基因的轉(zhuǎn)錄因子時(shí),只需查找相應(yīng)的記錄,不必重新計(jì)算。
(5)計(jì)算待測(cè)轉(zhuǎn)錄因子的期望位點(diǎn)的個(gè)數(shù)。計(jì)算方法是用這組相關(guān)基因的調(diào)控序列總長(zhǎng)乘以待測(cè)轉(zhuǎn)錄因子的平均結(jié)合密度。
(6)估計(jì)待測(cè)轉(zhuǎn)錄因子的總體調(diào)控率和共調(diào)控比。
總體調(diào)控率是在基因組的全部基因中,被特定轉(zhuǎn)錄因子調(diào)控的基因所占的比率,可以根據(jù)轉(zhuǎn)錄因子的表達(dá)特異性和功能來(lái)估計(jì)。一般地,廣泛表達(dá)的轉(zhuǎn)錄因子的總體調(diào)控率高于組織細(xì)胞特異性轉(zhuǎn)錄因子的總體調(diào)控率,參與多種細(xì)胞反應(yīng)的轉(zhuǎn)錄因子的總體調(diào)控率較高。一般轉(zhuǎn)錄因子的總體調(diào)控率在5-10%之間。
共調(diào)控比是在一組相關(guān)基因中被特定轉(zhuǎn)錄因子調(diào)控的基因所占的比例,與基因的相關(guān)性和該轉(zhuǎn)錄因子的總體調(diào)控率有關(guān)。基因間的相關(guān)性高,轉(zhuǎn)錄因子的總體調(diào)控率大,共調(diào)控比就大。一組相關(guān)基因的共調(diào)控比一般在0.2-0.5之間。
(7)計(jì)算共調(diào)控顯著性閾值 (8)判斷轉(zhuǎn)錄因子的預(yù)測(cè)位點(diǎn)數(shù)與期望位點(diǎn)數(shù)之比與共調(diào)控顯著性閾值的關(guān)系,如果預(yù)測(cè)位點(diǎn)數(shù)與期望位點(diǎn)數(shù)之比不小于共調(diào)控顯著性閾值,則待測(cè)轉(zhuǎn)錄因子與這組基因有調(diào)控關(guān)系,否則,沒(méi)有調(diào)控關(guān)系。
(9)判斷是否還有待測(cè)轉(zhuǎn)錄因子,如果還有轉(zhuǎn)錄因子沒(méi)有檢測(cè),返回步驟(3),選擇待測(cè)轉(zhuǎn)錄因子,重復(fù)步驟(4)-(8),判斷轉(zhuǎn)錄因子與這組相關(guān)基因的關(guān)系,直到檢測(cè)完步驟(1)得到的所有的轉(zhuǎn)錄因子。
(10)結(jié)束。
本發(fā)明方法的流程示意圖。
具體實(shí)施例方式
本發(fā)明是一種尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,該方法有下列步驟(1)確定一組相關(guān)基因,提取這組基因的調(diào)控序列,利用位點(diǎn)權(quán)重矩陣算法計(jì)算這些序列上的轉(zhuǎn)錄因子結(jié)合位點(diǎn)。
(2)做算法的特異性曲線。提取已知靶基因的調(diào)控序列,用位點(diǎn)權(quán)重矩陣算法計(jì)算調(diào)控序列上的結(jié)合位點(diǎn),用已知調(diào)控位點(diǎn)占預(yù)測(cè)的總位點(diǎn)的百分比作為算法的特異性,計(jì)算不同的相似性閾值下的特異性,做出算法的特異性對(duì)相似性閾值的變化曲線。
(3)在步驟(1)得到的在調(diào)控序列上存在結(jié)合位點(diǎn)的轉(zhuǎn)錄因子中,選擇一個(gè)待測(cè)的轉(zhuǎn)錄因子。
(4)計(jì)算步驟(3)所選的待測(cè)轉(zhuǎn)錄因子的平均結(jié)合密度。計(jì)算方法是提取基因組序列,利用位點(diǎn)權(quán)重矩陣算法計(jì)算轉(zhuǎn)錄因子在基因組序列上的結(jié)合位點(diǎn),用總的位點(diǎn)個(gè)數(shù)除以這些基因組序列的總長(zhǎng),得到該轉(zhuǎn)錄因子的平均結(jié)合密度。
(5)計(jì)算待測(cè)轉(zhuǎn)錄因子的期望位點(diǎn)的個(gè)數(shù)。計(jì)算方法是用這組相關(guān)基因的調(diào)控序列總長(zhǎng)乘以待測(cè)轉(zhuǎn)錄因子的平均結(jié)合密度。
(6)根據(jù)轉(zhuǎn)錄因子的表達(dá)特異性和功能估計(jì)待測(cè)轉(zhuǎn)錄因子的總體調(diào)控率和共調(diào)控比。一般轉(zhuǎn)錄因子的總體調(diào)控率在5-10%之間,共調(diào)控比一般在0.2-0.5之間。
(7)根據(jù)等式(I)計(jì)算共調(diào)控顯著性閾值。
(8)判斷轉(zhuǎn)錄因子的預(yù)測(cè)位點(diǎn)數(shù)與期望位點(diǎn)數(shù)之比與共調(diào)控顯著性閾值的關(guān)系,如果預(yù)測(cè)位點(diǎn)數(shù)與期望位點(diǎn)數(shù)之比不小于共調(diào)控顯著性閾值,則待測(cè)轉(zhuǎn)錄因子與這組基因有調(diào)控關(guān)系,否則,沒(méi)有調(diào)控關(guān)系。
(9)判斷是否還有待測(cè)轉(zhuǎn)錄因子,如果還有轉(zhuǎn)錄因子沒(méi)有檢測(cè),返回步驟(3),選擇待測(cè)轉(zhuǎn)錄因子,重復(fù)步驟(4)-(8),判斷轉(zhuǎn)錄因子與這組相關(guān)基因的關(guān)系,直到檢測(cè)完步驟(1)得到的所有的轉(zhuǎn)錄因子。
(10)結(jié)束。
下面結(jié)合一個(gè)已證實(shí)的實(shí)例具體說(shuō)明本發(fā)明的計(jì)算過(guò)程,測(cè)試方法的準(zhǔn)確性。
計(jì)算目的在人、大鼠、小鼠的39個(gè)肌肉組織特異性基因中尋找調(diào)控這些基因的轉(zhuǎn)錄因子。39個(gè)基因?yàn)镮TGA7,ACHE,CHRNA1,CHRNB1,CHRND,CHRNE,SLC25A4,ALDOA,ACTA1,ACTA2,NPR3,ITGB7,ACTB,CALD1,F(xiàn)OS,COX8A,CSF2,DES,DMD,ENO1,TNNT3,ACTG2,MB,VIM,IGFBP5,MEOX2,CKM,MYH5,MYH7,MYH3,MYH11,MYL1,MYL4,MYOG,MYF5,MYOD1,TNNC1,SLC2A4。
實(shí)施過(guò)程1.在本實(shí)例中,相關(guān)基因已確定,屬于具有相同組織特異性的基因。提取這39個(gè)基因轉(zhuǎn)錄起始位點(diǎn)上游1.1kb序列,利用位點(diǎn)權(quán)重矩陣算法計(jì)算這組序列上的轉(zhuǎn)錄因子結(jié)合位點(diǎn)。
2.算法的特異性。用位點(diǎn)權(quán)重矩陣算法計(jì)算調(diào)控序列上的結(jié)合位點(diǎn),用已知調(diào)控位點(diǎn)占預(yù)測(cè)的總位點(diǎn)的百分比作為算法的特異性,計(jì)算不同的相似性閾值下的特異性,做出算法的特異性對(duì)相似性閾值的變化曲線。這里特異性以15%計(jì)算。
3.在步驟1得到的在調(diào)控序列上存在結(jié)合位點(diǎn)的轉(zhuǎn)錄因子中,選擇一個(gè)待測(cè)轉(zhuǎn)錄因子。
4.計(jì)算待測(cè)轉(zhuǎn)錄因子的平均結(jié)合密度。提取人、大鼠、小鼠的基因組序列,利用位點(diǎn)權(quán)重矩陣算法計(jì)算轉(zhuǎn)錄因子結(jié)合位點(diǎn),用總的位點(diǎn)個(gè)數(shù)除以這些序列的總長(zhǎng),得到平均結(jié)合密度。建立已知轉(zhuǎn)錄因子在基因組中的平均結(jié)合密度表,在以后的步驟中只要查表即可。
5.計(jì)算待測(cè)轉(zhuǎn)錄因子的期望位點(diǎn)的個(gè)數(shù)。計(jì)算方法是用這組相關(guān)基因的調(diào)控序列總長(zhǎng)乘以待測(cè)轉(zhuǎn)錄因子的平均結(jié)合密度。
6.根據(jù)轉(zhuǎn)錄因子的表達(dá)特異性和功能估計(jì)待測(cè)轉(zhuǎn)錄因子的總體調(diào)控率和共調(diào)控比。本實(shí)例中,轉(zhuǎn)錄因子的總體調(diào)控率以5%計(jì)算,共調(diào)控比以0.9計(jì)算。
7.根據(jù)等式(I)計(jì)算共調(diào)控顯著性閾值。
共調(diào)控顯著性閾值=1-15%+15%×0.9/5%=3.558.計(jì)算待測(cè)轉(zhuǎn)錄因子的結(jié)合位點(diǎn)數(shù)與預(yù)期個(gè)數(shù)的比值,若這個(gè)比值不小于3.55,則這個(gè)轉(zhuǎn)錄因子與肌肉特異性基因的表達(dá)調(diào)控有關(guān),否則,沒(méi)有調(diào)控關(guān)系。
9.判斷是否還有待測(cè)轉(zhuǎn)錄因子,如果還有轉(zhuǎn)錄因子沒(méi)有檢測(cè),返回步驟3,選擇待測(cè)轉(zhuǎn)錄因子,重復(fù)步驟4-8,判斷轉(zhuǎn)錄因子與這組相關(guān)基因的關(guān)系,直到檢測(cè)完步驟1得到的所有的轉(zhuǎn)錄因子。
10.結(jié)束。
表1列出了轉(zhuǎn)錄因子的結(jié)合位點(diǎn)數(shù)與預(yù)期個(gè)數(shù)比大于3.55的轉(zhuǎn)錄因子、結(jié)合位點(diǎn)數(shù)、預(yù)期個(gè)數(shù)。
在表1列出的轉(zhuǎn)錄因子中,以*標(biāo)記已經(jīng)被實(shí)驗(yàn)證實(shí)的調(diào)控肌肉組織特異性基因的轉(zhuǎn)錄因子,包括SRF、MEF-2和Sp1。在11個(gè)轉(zhuǎn)錄因子中有7個(gè)屬于SRF、MEF-2和Sp1,預(yù)測(cè)的準(zhǔn)確性為63%。
表1.結(jié)合位點(diǎn)數(shù)與預(yù)期個(gè)數(shù)比大于共調(diào)控顯著性閾值的轉(zhuǎn)錄因子。
表2.按照原有方法得到的轉(zhuǎn)錄因子。
按照原有方法,得到表2列出的轉(zhuǎn)錄因子,但未發(fā)現(xiàn)這些轉(zhuǎn)錄因子與肌肉特異性基因有關(guān)。因?yàn)榘凑赵械挠?jì)算方法,必須在所有的基因上都找到轉(zhuǎn)錄因子的結(jié)合位點(diǎn),這個(gè)轉(zhuǎn)錄因子才調(diào)控這組基因,這樣既有可能漏掉只調(diào)控部分基因的轉(zhuǎn)錄因子,也可能由于位點(diǎn)權(quán)重矩陣算法過(guò)高的假陽(yáng)性出現(xiàn)許多無(wú)關(guān)的轉(zhuǎn)錄因子。
在這個(gè)實(shí)例中,應(yīng)用本發(fā)明方法計(jì)算調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的準(zhǔn)確性為63%,而按照原有的計(jì)算方法準(zhǔn)確性為0。結(jié)果證明本發(fā)明可以有效地發(fā)現(xiàn)調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子。
權(quán)利要求
1.一種尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是根據(jù)一組相關(guān)基因來(lái)確定與調(diào)控這組基因的轉(zhuǎn)錄因子。
2.按照權(quán)利要求1所述的尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是所述的一組相關(guān)基因是具有共同的生物學(xué)特征的一組基因。
3.按照權(quán)利要求1所述的尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是所述的調(diào)控這組基因的轉(zhuǎn)錄因子是能調(diào)控這組相關(guān)基因中一部分基因的轉(zhuǎn)錄因子。
4.按照權(quán)利要求1,2和3所述的尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是通過(guò)下述步驟進(jìn)行,(1)確定一組相關(guān)基因,提取這組基因的調(diào)控序列,利用位點(diǎn)權(quán)重矩陣算法計(jì)算這些序列上的轉(zhuǎn)錄因子結(jié)合位點(diǎn)。(2)算法的特異性。提取已知靶基因的調(diào)控序列,用位點(diǎn)權(quán)重矩陣算法計(jì)算調(diào)控序列上的結(jié)合位點(diǎn),用已知調(diào)控位點(diǎn)占預(yù)測(cè)的總位點(diǎn)的百分比作為算法的特異性。(3)在步驟(1)得到的在調(diào)控序列上存在結(jié)合位點(diǎn)的轉(zhuǎn)錄因子中,選擇一個(gè)待測(cè)的轉(zhuǎn)錄因子。(4)計(jì)算步驟(3)所選的待測(cè)轉(zhuǎn)錄因子的平均結(jié)合密度。計(jì)算方法是提取基因組序列,利用位點(diǎn)權(quán)重矩陣算法計(jì)算轉(zhuǎn)錄因子在基因組序列上的結(jié)合位點(diǎn),用總的位點(diǎn)個(gè)數(shù)除以這些基因組序列的總長(zhǎng),得到該轉(zhuǎn)錄因子的平均結(jié)合密度。(5)計(jì)算待測(cè)轉(zhuǎn)錄因子的期望位點(diǎn)的個(gè)數(shù)。計(jì)算方法是用這組相關(guān)基因的調(diào)控序列總長(zhǎng)乘以待測(cè)轉(zhuǎn)錄因子的平均結(jié)合密度。(6)根據(jù)轉(zhuǎn)錄因子的表達(dá)特異性和功能估計(jì)待測(cè)轉(zhuǎn)錄因子的總體調(diào)控率和共調(diào)控比。一般轉(zhuǎn)錄因子的總體調(diào)控率在5-10%之間,共調(diào)控比一般在0.2-0.5之間。(7)計(jì)算共調(diào)控顯著性閾值. (8)判斷轉(zhuǎn)錄因子的預(yù)測(cè)位點(diǎn)數(shù)與期望位點(diǎn)數(shù)之比與共調(diào)控顯著性閾值的關(guān)系,如果預(yù)測(cè)位點(diǎn)數(shù)與期望位點(diǎn)數(shù)之比不小于共調(diào)控顯著性閾值,則待測(cè)轉(zhuǎn)錄因子與這組基因有調(diào)控關(guān)系,否則,沒(méi)有調(diào)控關(guān)系。(9)判斷是否還有待測(cè)轉(zhuǎn)錄因子,如果還有轉(zhuǎn)錄因子沒(méi)有檢測(cè),返回步驟(3),選擇待測(cè)轉(zhuǎn)錄因子,重復(fù)步驟(4)-(8),判斷轉(zhuǎn)錄因子與這組相關(guān)基因的關(guān)系,直到檢測(cè)完步驟(1)得到的所有的轉(zhuǎn)錄因子。(10)結(jié)束。
5.按照權(quán)利要求4所述的尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是所述的轉(zhuǎn)錄因子的平均結(jié)合密度的計(jì)算方法是提取基因組序列,利用位點(diǎn)權(quán)重矩陣算法計(jì)算轉(zhuǎn)錄因子在基因組序列上的結(jié)合位點(diǎn),用總的位點(diǎn)個(gè)數(shù)除以這些基因組序列的總長(zhǎng),得到該轉(zhuǎn)錄因子的平均結(jié)合密度。
6.按照權(quán)利要求4所述的尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是所述的轉(zhuǎn)錄因子的總體調(diào)控率的估計(jì)方法是被轉(zhuǎn)錄因子調(diào)控的基因占基因組的全部基因的比率。
7.按照權(quán)利要求4所述的尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是所述的共調(diào)控比的計(jì)算方法是估計(jì)在這組相關(guān)基因中被轉(zhuǎn)錄因子調(diào)控的基因所占的比例。
8.按照權(quán)利要求4所述的尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是所述的共調(diào)控顯著性域值由位點(diǎn)權(quán)重矩陣算法的特異性、轉(zhuǎn)錄因子的總體調(diào)控率和這組相關(guān)基因的共調(diào)控比決定。計(jì)算方法是
9.按照權(quán)利要求4所述的尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是所述的期望位點(diǎn)個(gè)數(shù)的計(jì)算方法是用相關(guān)基因的調(diào)控序列總長(zhǎng)乘以轉(zhuǎn)錄因子的平均結(jié)合密度。
10.按照權(quán)利要求4所述的尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法,其特征是所述的篩選轉(zhuǎn)錄因子是指若轉(zhuǎn)錄因子的結(jié)合位點(diǎn)個(gè)數(shù)與預(yù)期個(gè)數(shù)的比值大于或等于共調(diào)控顯著性域值,則確定該轉(zhuǎn)錄因子調(diào)控這組相關(guān)基因,否則無(wú)調(diào)控關(guān)系。
全文摘要
本發(fā)明屬于計(jì)算生物學(xué)領(lǐng)域,具體涉及一種尋找調(diào)控一組相關(guān)基因的轉(zhuǎn)錄因子的計(jì)算方法。通過(guò)計(jì)算轉(zhuǎn)錄因子在一組相關(guān)基因中結(jié)合位點(diǎn)的實(shí)際個(gè)數(shù)與期望個(gè)數(shù)的比值,來(lái)判定轉(zhuǎn)錄因子與這組基因的關(guān)系。如果比值高于預(yù)先計(jì)算的共調(diào)控顯著性閾值,則認(rèn)為轉(zhuǎn)錄因子與這組基因有關(guān)。共調(diào)控顯著性閾值則是位點(diǎn)權(quán)重矩陣算法的特異性、共調(diào)控比和總體調(diào)控率確定的。該方法大大提高了預(yù)測(cè)調(diào)控相關(guān)基因的轉(zhuǎn)錄因子的準(zhǔn)確性,從生物學(xué)特征出發(fā)界定相關(guān)基因的關(guān)系和共調(diào)控的比例,涉及參數(shù)少且計(jì)算方法簡(jiǎn)單,便于生物學(xué)家應(yīng)用。
文檔編號(hào)G06F19/00GK1881225SQ20051007532
公開(kāi)日2006年12月20日 申請(qǐng)日期2005年6月16日 優(yōu)先權(quán)日2005年6月16日
發(fā)明者莊海濱, 張凌慧, 劉湘軍, 劉德培, 梁植權(quán) 申請(qǐng)人:清華大學(xué), 中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所