專利名稱:定量分析基因表達(dá)的方法、系統(tǒng)及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及適于藥物開發(fā)的生物信息學(xué)方法。更具體地說,本發(fā)明涉及定量分析、對(duì)比、存儲(chǔ)及顯示基因表達(dá)譜(profile)的方法、系統(tǒng)及設(shè)備。本發(fā)明進(jìn)一步還涉及用于從基因中選擇可用于表達(dá)分析的信息子集的定量方法、系統(tǒng)及設(shè)備。
背景技術(shù):
在傳統(tǒng)的藥物開發(fā)中,首先選擇一個(gè)特定的藥物目標(biāo),例如已知生化途徑中的一種酶。接著,必須進(jìn)行一種或多種特定于所選定目標(biāo)的體外或體內(nèi)分析。只有目標(biāo)選定并且特定試驗(yàn)進(jìn)行后,才可以對(duì)化學(xué)化合物進(jìn)行期望活性的篩選。一旦鑒定出化合物在特定分析中具有針對(duì)選定目標(biāo)的期望活性,那么就可以用這些起初的引導(dǎo)化合物作為結(jié)構(gòu)基準(zhǔn)來開發(fā)具有更好治療、藥動(dòng)及臨床性能的衍生物。通常,使用與鑒定前導(dǎo)化合物相同的特定試驗(yàn)來測定上述這些衍生物的生物活性。
上述的傳統(tǒng)藥物開發(fā)中的每一個(gè)步驟都可能導(dǎo)致下述缺陷臨床前試驗(yàn)中符合要求的藥物在臨床試驗(yàn)中卻令人失望。
首先,上述藥物目標(biāo)的選擇是以對(duì)與該藥物所針對(duì)的疾病或病理過程臨床上相關(guān)的生物學(xué)途徑的認(rèn)識(shí)為先決條件的。一旦臨床試驗(yàn)開始后,就有可能發(fā)現(xiàn)選定的目標(biāo)從生理學(xué)角度看是不合適的。例如,所述目標(biāo)可能參與大量相關(guān)或不相關(guān)的生物途徑。特定的體外試驗(yàn)無法鑒定出這些候選藥物在這些平行或交叉生物途徑上的作用。因此,體外能夠令人滿意地影響所述目標(biāo)活性的藥物當(dāng)體內(nèi)使用時(shí)可能會(huì)帶來無法接收的毒性或呈現(xiàn)意料之外的副作用。
其次,體外試驗(yàn)方法本身也可以證明不具有足夠的敏感度,或特異性不夠強(qiáng),或者二者兼而有之。使用同一種試驗(yàn)方法來開發(fā)前導(dǎo)化合物的衍生物會(huì)將這些弊端一并帶來。
因此,在制藥領(lǐng)域中需要改進(jìn)藥物開發(fā)的策略。具體地說就是,需要一種幾乎不依賴合適目標(biāo)初始選擇的藥物開發(fā)方案。另外,還需要這樣一種藥物開發(fā)策略,即在臨床前藥物開發(fā)過程中無需將選擇目標(biāo)從其所在的生物途徑中分離出來。進(jìn)一步還需要這樣一種能夠鑒定生物途徑以及與所感興趣的病理狀態(tài)、疾病或病癥有關(guān)的新目標(biāo)。
近來在測量基因表達(dá)方面的技術(shù)進(jìn)展使得能夠?qū)υ嘶蛘婧思?xì)胞中的多個(gè),如果不是全部,基因的表達(dá)進(jìn)行同時(shí)測量。這類基因表達(dá)譜的制備提供了原料,一種利用這些原料的新型藥物開發(fā)策略目前已成形。Ashby et al.,美國專利No.5,549,588。
迄今為止,大多數(shù)基因表達(dá)譜都是通過下述操作來制備從宿主細(xì)胞中分離核酸表達(dá)產(chǎn)物,標(biāo)記該產(chǎn)物(例如,使用熒光或放射性標(biāo)記物),讓所述的標(biāo)記后的核酸與包含表面固定有離散序列DNA的單元的空間可尋址基質(zhì)雜交。參見,例如,Lashkari et al.,美國國家科學(xué)院院報(bào),94,pp.13057-62(1997);DeRisi et al.,Science,278,pp.680-86(1997);Wodicka et al.,NatureBiotechnology,15,pp.1359-67(1997);以及Pietu et al.,Genome Research,6,pp 492-503(1996)。
選擇所述基質(zhì)中的單元來展現(xiàn)可被宿主表達(dá)的基因的全貌,上述的固定DNA基質(zhì)就是從該宿主中制備而來的。與基質(zhì)中各種DNA單元的特異性雜交通過,例如,掃描儀、掃描共焦熒光顯微鏡或磷光成像儀(phosphorimager)記錄下來,這些特異性雜交代表著各個(gè)基因的表達(dá)。各個(gè)基因的身份用基質(zhì)中單元的空間位置來編碼。獲取這些數(shù)據(jù)、將其數(shù)字化并電子化存儲(chǔ)。總之,這些數(shù)據(jù)代表了選定細(xì)胞培養(yǎng)物表達(dá)的基因的子集。
Ashby et al.,美國專利No.5,549,588(在此引入作為參考)中公開了一種制備基因表達(dá)譜的替代方法。Ashby公開了一種“基因組報(bào)道基質(zhì)”,其中所述的可空間尋址基質(zhì)的每個(gè)單元都由一個(gè)或多個(gè)同樣的細(xì)胞(或細(xì)胞克隆)組成,而并非特異性的核酸序列。每個(gè)基質(zhì)位置上的細(xì)胞都包含有一種重組構(gòu)建體,該構(gòu)建體能夠指導(dǎo)來自一獨(dú)特轉(zhuǎn)錄調(diào)控單元的共同報(bào)道基因的表達(dá)。這些轉(zhuǎn)錄調(diào)控單元可以出自任一數(shù)目的潛在的原核或真核有機(jī)體。將足夠數(shù)目的基質(zhì)單元,以及隨之而來的轉(zhuǎn)錄調(diào)控單元納入其中,為所選有機(jī)體的基因表達(dá)所有組成成分提供一具有代表意義的樣本。
為了測量基因表達(dá),Ashby et al通過用適于報(bào)道物或?yàn)閳?bào)道者專門設(shè)計(jì)的檢測儀器掃描來直接閱讀所述基質(zhì)。在一個(gè)實(shí)施方案中,所述報(bào)道物編碼一種能產(chǎn)生一種熒光信號(hào)的蛋白質(zhì),例如綠色熒光蛋白,因而可用一熒光探測器來掃描;另一個(gè)實(shí)施方案中,所述報(bào)道物編碼能產(chǎn)生光度學(xué)可檢測的信號(hào)的酶,因而可用光度計(jì)來掃描。掃描儀記錄的信號(hào)表明了被各個(gè)轉(zhuǎn)錄調(diào)控單元任意任意控制的表達(dá),這些單元的身份用基質(zhì)中單元的空間位置來編碼。
上述所有用于制備基因表達(dá)譜的技術(shù)平臺(tái),在本發(fā)明中一并稱為“表達(dá)基質(zhì)”,這些技術(shù)平臺(tái)能夠提供與特定條件下細(xì)胞中基因并行表達(dá)有關(guān)的大量信息。從其總體而言,這樣的基因表達(dá)譜能夠捕獲到在一套選定環(huán)境條件下細(xì)胞的全部基因表達(dá)狀態(tài)。
本領(lǐng)域已經(jīng)重視了這類基因表達(dá)譜的定性比較,例如鑒定出了在不同條件下表現(xiàn)出不同表達(dá)水平的基因子集。替代地,本領(lǐng)域也已重視了不能用于大型、多維數(shù)據(jù)集的定量比較的數(shù)據(jù)處理。參見,例如,Ashby et al.(見上述);Lashkari et al.(見上述);De-isi etal.(supr,a);~ine et al.,WO 98/06874;以及Seilhamer et al.,WO 95/20681(所有文獻(xiàn)在此引入作為參考)上述這些定性分析方法無一能實(shí)現(xiàn)完整基因表達(dá)譜相關(guān)程度的可重復(fù)計(jì)算。因此,制備可定量的基因表達(dá)譜對(duì)于不同環(huán)境條件下(例如,用不同的化合物處理)選定細(xì)胞中基因表達(dá)相關(guān)程度的定量比較具有重要的意義。
因此,需要一種能夠?qū)⒌谝缓偷诙虮磉_(dá)譜的相關(guān)程度定量的方法。進(jìn)一步還需要一種方法能夠?qū)⒍鄠€(gè)基因表達(dá)譜按照與單個(gè)預(yù)先選定的基因表達(dá)譜的相關(guān)程度排序。另外還需要能夠存儲(chǔ)數(shù)據(jù)集(即來自在先試驗(yàn)的基因表達(dá)譜數(shù)據(jù))的方法和設(shè)備,這些數(shù)據(jù)集用于新的相關(guān)程度比較中的查詢和分析。
盡管近來在測量基因表達(dá)方面的技術(shù)進(jìn)展使得能夠?qū)υ嘶蛘婧思?xì)胞中的多個(gè),如果不是全部,基因的表達(dá)進(jìn)行同時(shí)測量,但是技術(shù)方面的原因往往使得并非所有的可表達(dá)的基因都能被分析。例如,藥物候選物樣本供應(yīng)量受到限制,具體地說當(dāng)用合成化學(xué)方法小量制備時(shí);可能單單由于藥物量太少而無法測試其對(duì)給定類型細(xì)胞中所有可能基因的影響。還可能,或替代地,由于經(jīng)費(fèi)原因而無法對(duì)每個(gè)候選藥物對(duì)細(xì)胞中每個(gè)可表達(dá)基因進(jìn)行一一配對(duì)性的測試。
當(dāng)待測基因組復(fù)雜時(shí),這些問題就會(huì)一并出現(xiàn)。因此,為了測試一種藥物或其他環(huán)境因素對(duì)酵母細(xì)胞中,例如釀酒酵母(釀酒酵母),每個(gè)可表達(dá)基因的作用,將需要測量約6000個(gè)基因的表達(dá);為了對(duì)線蟲,例如C.elegans的基因表達(dá)進(jìn)行類似分析,則需要對(duì)近20,000個(gè)基因的表達(dá)進(jìn)行測量;為了測試一種藥物或其他環(huán)境因素對(duì)人細(xì)胞中每個(gè)可表達(dá)基因的作用,需要測量約100,000個(gè)基因的表達(dá)。
另外,并非所有基因都具有同等的信息意義。一些基因無論環(huán)境條件如何其表達(dá)的動(dòng)力學(xué)范圍都不足以提供重要的信息。其他基因可能在表達(dá)上協(xié)同變化,從而提供了冗余的信息。
一種從基因中選擇信息子集用于表達(dá)分析的方法是通過已知或假定的功能單個(gè)地選擇基因。因此,F(xiàn)arr等人的美國專利No.5811231和歐洲專利EP0680517B1中公開了,以及其他文獻(xiàn)中(inter alia),選擇“應(yīng)力基因(stress gene)”對(duì)對(duì)于細(xì)胞具有毒性作用的化合物進(jìn)行鑒定和定性。
但是,這樣的方法需要提前了解該基因的功能。而且,這種定向選擇帶來的誤差可能會(huì)減小鑒定預(yù)先未知相關(guān)程度的可能性;在用于鑒定這類未知相關(guān)程度的方法中,例如本發(fā)明提供的方法中,這種定向預(yù)選可能特別令人失望。
另一種方法是完全隨機(jī)地選擇子集,以期讓所選子集能夠代表整個(gè)基因組。顯然,隨之而來的弊端是所選子集可能實(shí)際上對(duì)于描述一種或多種環(huán)境條件下的細(xì)胞狀態(tài)毫無意義。
還有另一種方法是,選擇并非通過共有功能鑒定的基因,而是這些基因?qū)σ环N預(yù)選的環(huán)境條件具有同樣的反應(yīng)性。Whitney et al.,Nat.Biotechnol.,16:1329-33(1998)。如果在上述完全定向方法和完全隨機(jī)方法之間權(quán)衡的話,后一種方法一定程度上同時(shí)具有二者的弊端。
因此,本領(lǐng)域需要一種能夠選擇出可用于基因分析的信息子集的方法。
發(fā)明概述本發(fā)明克服了本領(lǐng)域現(xiàn)有的用于定量分析基因表達(dá)譜的方法、系統(tǒng)及設(shè)備中的上述這些以及其他弊端。本發(fā)明的實(shí)驗(yàn)實(shí)施例表明,這類分析可以對(duì)各種不同藥物治療的相關(guān)程度進(jìn)行定量和排序,從而鑒定出與參照藥物作用于同種分子目標(biāo)上的化學(xué)藥物;從而鑒定出作用于參照藥物所作用的同一生理途徑其他位置的化學(xué)藥物;從而闡明參照藥物的作用機(jī)制;以及闡明所述化學(xué)藥物與參照藥物相比的作用機(jī)制一所有這些都無需預(yù)先鑒定參照藥物的分子目標(biāo)或者設(shè)計(jì)專門的試驗(yàn)方法。所述的分析方法同樣地可用于比較其他的細(xì)胞表型,其中包括由其他環(huán)境條件以及由基因型微擾導(dǎo)致的細(xì)胞表型,包括突變。
第一個(gè)方面,本發(fā)明提供了一種對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的方法。所述的第一種方法包括下述步驟(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào);(b)為每對(duì)第一和第二基因表達(dá)譜用公式表示出一個(gè)相對(duì)的表達(dá)數(shù)值;以及然后(c)從這些對(duì)偶設(shè)立的相對(duì)表達(dá)數(shù)值中計(jì)算出一個(gè)復(fù)合分值(composite score),該復(fù)合分值可定量所述兩基因表達(dá)譜的相關(guān)程度。
另一方面,本發(fā)明提供了第二種定量第一和第二基因表達(dá)譜的方法。所述第二種方法特別適用于比較溫和條件下獲得的基因表達(dá)譜。所述的第二種方法包括下述步驟(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào);以及然后(b)對(duì)共有基因的對(duì)偶的第一和第二基因表達(dá)信號(hào)進(jìn)行線性分析;其中所述的這種回歸的相關(guān)系數(shù)可定量這兩基因表達(dá)譜的相關(guān)程度。
第三方面,本發(fā)明提供了一種對(duì)多個(gè)基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜相關(guān)程度進(jìn)行排序的方法,該方法包括下述步驟(a)對(duì)偶地定量上述多個(gè)基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及(b)對(duì)所述的對(duì)偶測量的定量數(shù)值進(jìn)行排序。本發(fā)明這一方面的一個(gè)實(shí)施方案中,對(duì)偶定量相關(guān)程度是按照本發(fā)明中新近描述的兩種方法來進(jìn)行的。
在上述方法的一系列實(shí)施方案中,本發(fā)明提供了一種定量施加在細(xì)胞上的第一和第二環(huán)境條件相關(guān)程度的方法,該方法包括下述步驟(a)在所述的每一種第一和第二環(huán)境條件下,從細(xì)胞或者從基因型相同的細(xì)胞中獲得一種基因表達(dá)譜;以及然后(b)對(duì)所述第一和第二基因表達(dá)譜進(jìn)行定量。在一個(gè)優(yōu)選的實(shí)施方案中,所述的第一和第二環(huán)境條件中的每一種都包括暴露于一化合物,例如藥用試劑。
本發(fā)明進(jìn)一步還提供了對(duì)作用于一細(xì)胞的多種環(huán)境條件與單個(gè)預(yù)選環(huán)境條件相關(guān)程度排序的方法,所述方法包括下述步驟(a)從該細(xì)胞或者從基因型相同的細(xì)胞中獲得針對(duì)于所述多種環(huán)境條件中每一種和預(yù)選環(huán)境條件的基因表達(dá)譜;(b)對(duì)偶地定量上述多個(gè)基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及然后(c)對(duì)所述的對(duì)偶測量的定量數(shù)值進(jìn)行排序。優(yōu)選實(shí)施方案中,所述環(huán)境條件包括暴露于一化合物。
在另一套實(shí)施方案中,本發(fā)明提供了對(duì)一預(yù)選環(huán)境條件與細(xì)胞的一種特定遺傳突變間相關(guān)程度定量的方法,該方法包括下述步驟(a)在預(yù)選的環(huán)境條件下,從具有所述特定突變的細(xì)胞中獲得第一基因表達(dá)譜以及從一野生型細(xì)胞中獲得第二基因表達(dá)譜;以及然后(b)對(duì)所述第一和第二基因表達(dá)譜的相關(guān)程度定量。
本發(fā)明進(jìn)一步還提供對(duì)多元化環(huán)境條件中每一種與細(xì)胞的某一特定遺傳突變間相關(guān)程度進(jìn)行排序的方法,該方法包括下述步驟(a)在上述的多每一種環(huán)境條件下從野生型細(xì)胞中獲得第一基因表達(dá)譜,以及從具有特定突變的細(xì)胞中獲得第二基因表達(dá)譜;(b)對(duì)偶地定量每個(gè)上述第一基因表達(dá)譜與所述第二基因表達(dá)譜間的相關(guān)程度;以及然后(c)將所述的對(duì)偶測量的定量數(shù)值進(jìn)行排序。優(yōu)選實(shí)施方案中,所述環(huán)境條件包括暴露于一化合物,以及所述的對(duì)偶定量是按照本發(fā)明中新近描述的兩種方法來進(jìn)行的。
在另外的一系列實(shí)施方案中,本發(fā)明提供了對(duì)一細(xì)胞的第一遺傳突變與一細(xì)胞的第二遺傳突變間相關(guān)程度進(jìn)行定量的方法,該方法包括下述步驟(a)從具有所述第一種遺傳突變的細(xì)胞中獲得第一基因表達(dá)譜,以及從具有所述第二種遺傳突變的細(xì)胞中獲得第二基因表達(dá)譜;以及(b)對(duì)所述第一和第二基因表達(dá)譜的相關(guān)程度定量。本發(fā)明進(jìn)一步還提供了對(duì)多種遺傳突變中每個(gè)與一細(xì)胞的預(yù)選遺傳突變間的相關(guān)程度進(jìn)行排序的方法(a)從具有所述多種遺傳突變其中之一的細(xì)胞中獲得一套第一基因表達(dá)譜,以及從具有所述第二種遺傳突變的細(xì)胞中獲得第二基因表達(dá)譜;以及(b)對(duì)所述每個(gè)第一基因表達(dá)譜與第二基因表達(dá)譜的相關(guān)程度進(jìn)行定量以及;(c)將所述的對(duì)偶測量的定量數(shù)值排序。優(yōu)選實(shí)施方案中,所述環(huán)境條件包括將細(xì)胞暴露于一化合物,所述細(xì)胞為酵母細(xì)胞,優(yōu)選為釀酒酵母,所述的基因表達(dá)譜取自基因組報(bào)道基質(zhì)。但是,上述可以擴(kuò)大范圍應(yīng)用到任一環(huán)境條件,原核及真核細(xì)胞,包括人細(xì)胞,以及應(yīng)用于從其他類型表達(dá)基質(zhì)中獲得的基因表達(dá)譜。
另一方面,本發(fā)明提供了用于實(shí)施上述定量方法的系統(tǒng),包括電腦系統(tǒng)。
因此,在這樣一個(gè)方面,本發(fā)明提供了一種對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的系統(tǒng),該系統(tǒng)包括(a)用來為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立第一和第二基因表達(dá)信號(hào)的儀器;(b)用來為每對(duì)第一和第二基因表達(dá)譜用公式表示出一個(gè)相對(duì)的表達(dá)數(shù)值所使用的儀器;以及(c)用來從對(duì)偶設(shè)立的相對(duì)表達(dá)數(shù)值中計(jì)算出一個(gè)復(fù)合分值所使用的儀器,該復(fù)合分值可定量所述兩基因表達(dá)譜的相關(guān)程度。
在一相關(guān)方面,本發(fā)明提供了一種用于定量第一和第二基因表達(dá)譜相關(guān)程度的系統(tǒng),其中包括(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào)所使用的儀器;(b)對(duì)共有基因的對(duì)偶的第一和第二基因表達(dá)信號(hào)進(jìn)行線性分析所使用的儀器;其中所述的這種回歸分析的相關(guān)系數(shù)可定量這兩基因表達(dá)譜的相關(guān)程度。
在另外的一相關(guān)方面,本發(fā)明提供了一種用來將多個(gè)基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜間的相關(guān)程度排序使用的系統(tǒng),其中包括(a)對(duì)上述多種基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度進(jìn)行對(duì)偶定量所使用的儀器;以及(b)將所述的對(duì)偶測量的定量數(shù)值排序所使用的儀器。
本發(fā)明還提供了用于定量第一和第二基因表達(dá)譜間相關(guān)程度的電腦系統(tǒng),其中包括一處理器,例如數(shù)字化微處理器,該處理器用來執(zhí)行下述程序(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分另建立一個(gè)第一和第二基因表達(dá)信號(hào);(b)為每對(duì)第一和第二基因表達(dá)譜用公式表示出一個(gè)相對(duì)的表達(dá)數(shù)值;以及然后(c)從這些對(duì)偶設(shè)立的相對(duì)表達(dá)數(shù)值中計(jì)算出一個(gè)復(fù)合分值(composite score),該復(fù)合分值可定量所述兩基因表達(dá)譜的相關(guān)程度。
類似地,本發(fā)明提供了用于定量第一和第二基因表達(dá)譜間相關(guān)程度的電腦系統(tǒng),其中包括一處理器,例如數(shù)字化微處理器,該處理器用來執(zhí)行下述程序(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào);以及然后(b)對(duì)共有基因的對(duì)偶的第一和第二基因表達(dá)信號(hào)進(jìn)行線性分析;其中所述回歸分析的相關(guān)系數(shù)可定量這兩基因表達(dá)譜的相關(guān)程度。
另外,本發(fā)明還提供了一種用于將對(duì)多個(gè)基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜間相關(guān)程度進(jìn)行排序的電腦系統(tǒng),其中包括一處理器,例如數(shù)字化微處理器,該處理器用來執(zhí)行下述程序(a)對(duì)偶地定量上述多個(gè)基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及(b)將所述對(duì)偶測量的定量數(shù)值排序。本發(fā)明還提供了其中包含一可程序化的數(shù)字化電腦的設(shè)備,帶有輸入及顯示儀器,能夠執(zhí)行上述的輸入表達(dá)數(shù)據(jù)然后在相連顯示儀器上報(bào)道定量化結(jié)果的電腦化方法。
在另外一個(gè)方面,本發(fā)明還提供了存儲(chǔ)有指令的電腦可讀介質(zhì),當(dāng)通過電腦執(zhí)行時(shí),該指令可以使得該電腦執(zhí)行本發(fā)明所述的每一種新方法,其中包括用于對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的方法,用于將多個(gè)基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜間的相關(guān)程度排序的方法。
在另外的一個(gè)方面,本發(fā)明提供了電腦可讀存儲(chǔ)介質(zhì),其中包含適合本發(fā)明所述方法使用的數(shù)據(jù)結(jié)構(gòu)(data structures)。在這樣的一個(gè)方面,本發(fā)明提供了一種電腦可讀存儲(chǔ)介質(zhì),其中包括能使將第一和第二基因表達(dá)譜定量聯(lián)系的存儲(chǔ)數(shù)據(jù)成形的數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包括一針對(duì)每一表達(dá)譜的標(biāo)識(shí)符(identifier)和一個(gè)標(biāo)量(scalar),該標(biāo)量可將第一和第二基因表達(dá)譜定量地聯(lián)系起來。本發(fā)明進(jìn)一步還提供了一種包括數(shù)據(jù)結(jié)構(gòu)的電腦可讀存儲(chǔ)介質(zhì),該數(shù)據(jù)結(jié)構(gòu)能使將多個(gè)基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜間相關(guān)程度排序的存儲(chǔ)數(shù)據(jù)成形,其中包括(a)順序排列的一系列標(biāo)量,每個(gè)標(biāo)量對(duì)偶地定量了上述多個(gè)基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及(b)將每個(gè)標(biāo)量與其各自所對(duì)應(yīng)的基因表達(dá)譜聯(lián)系起來的標(biāo)識(shí)符。
盡管近來在測量基因表達(dá)方面的技術(shù)進(jìn)展使得能夠?qū)υ嘶蛘婧思?xì)胞中的多個(gè),如果不是全部,基因的表達(dá)進(jìn)行同時(shí)測量,但是技術(shù)方面的原因往往使得并非所有的基因都能被分析。例如,藥物候選物樣本供應(yīng)量受到限制,具體地說當(dāng)用合成化學(xué)方法小量制備時(shí);可能單單由于藥物量太少而無法測試其對(duì)給定類型細(xì)胞中所有可能基因的影響。還可能,或替代地,由于經(jīng)費(fèi)原因而無法對(duì)每個(gè)候選藥物對(duì)細(xì)胞中每個(gè)可表達(dá)基因進(jìn)行一一配對(duì)性的測試。
因此,另一方面,本發(fā)明提供了選擇用于表達(dá)分析的基因信息子集的方法。本發(fā)明提供了細(xì)胞表型的方法,其中包括選擇僅僅20%的細(xì)胞可表達(dá)基因用于表達(dá)分析,其中所述基因的并行表達(dá)可以充分定義細(xì)胞表型,從而將該細(xì)胞表型與另一細(xì)胞的表型定量聯(lián)系起來,這些方法中,優(yōu)選地選擇僅僅約20%的細(xì)胞潛在可表達(dá)基因,更優(yōu)選僅僅約15%的細(xì)胞潛在可表達(dá)基因,甚至更優(yōu)選僅僅約10%的細(xì)胞潛在可表達(dá)基因,最佳為僅僅約5%的細(xì)胞潛在可表達(dá)基因,以及在最優(yōu)選實(shí)施方案中,約1%~5%,甚至1%~2%的細(xì)胞潛在可表達(dá)基因。本發(fā)明還提供了執(zhí)行這些選擇的算法,以及電腦、網(wǎng)絡(luò)和執(zhí)行所述方法的其他設(shè)備。
在一個(gè)實(shí)施方案中,本發(fā)明這一方面的方法包括從其表達(dá)相互關(guān)聯(lián)的每組基因中選擇出具有最大表達(dá)限度的基因。在優(yōu)選實(shí)施方案中,所述選擇是從多個(gè)基因表達(dá)譜中共有的成套基因中完成的,所述的每一限度以及每一相互關(guān)聯(lián)都是從多種基因表達(dá)譜中的表達(dá)數(shù)據(jù)計(jì)算而來的。
在相關(guān)的一個(gè)方面,本發(fā)明提供了用來選擇用于表達(dá)分析的基因信息子集的系統(tǒng),其中包括用于從表達(dá)相互關(guān)聯(lián)的每組基因中選擇出具有最大表達(dá)限度的基因的儀器。在優(yōu)選實(shí)施方案中,所述選擇是從多個(gè)基因表達(dá)譜中共有的成套基因中完成的,所述的每一限度以及每一相互關(guān)聯(lián)都是從多種基因表達(dá)譜中的表達(dá)數(shù)據(jù)計(jì)算而來的。
本發(fā)明還提供了用來選擇用于表達(dá)分析的基因子集的電腦系統(tǒng),其中包括一個(gè)處理器,例如數(shù)字化微處理器,該處理器用來執(zhí)行下述操作從表達(dá)相互關(guān)聯(lián)的每組基因中選擇出具有最大表達(dá)限度的基因;一個(gè)存儲(chǔ)有指令的電腦可讀存儲(chǔ)介質(zhì),當(dāng)通過電腦執(zhí)行時(shí),該指令可以使得該電腦執(zhí)行選擇用于表達(dá)分析的基因子集的方法,所述方法包括從表達(dá)相互關(guān)聯(lián)的每組基因中選擇出具有最大表達(dá)限度的基因;以及一種包含一數(shù)據(jù)結(jié)構(gòu)的電腦可讀存儲(chǔ)介質(zhì),該所述結(jié)構(gòu)能使代表用于表達(dá)分析的基因信息子集成形,所述數(shù)據(jù)結(jié)構(gòu)包括一套基因標(biāo)識(shí)符,任選地包括一種基因功能的描述。
附圖簡述結(jié)合附圖閱讀對(duì)本發(fā)明的詳細(xì)描述考慮時(shí),本發(fā)明的上述及其他目的和優(yōu)點(diǎn)將顯而易見。
圖1是一個(gè)描述過程的流程圖。其中,適于定量分析基因表達(dá)譜的基因表達(dá)信號(hào),來源于從基因表達(dá)體系獲得的初始信號(hào)。圖1A表示初始信號(hào)的加工,而圖1B則描述了按照與環(huán)境匹配的對(duì)照進(jìn)行任選的后續(xù)校正;圖2為按照?qǐng)D1處理后的基因表達(dá)信號(hào)的散點(diǎn),這些信號(hào)來源于用兩種已知在結(jié)構(gòu)和功能上密切相關(guān)的化療藥物其中之一單獨(dú)處理后的基因組報(bào)道介質(zhì)50μg/ml柔紅霉素和0.08μg/ml阿霉素(參見實(shí)施例2)圖3圖示出的是基因表達(dá)信號(hào),這些信號(hào)來源于用兩種具有全異結(jié)構(gòu)和全異功能藥物其中之一單獨(dú)處理后的基因組報(bào)道介質(zhì)50μg/ml阿霉素和0.08μg/ml雙氯苯咪唑;圖4圖示出的是基因表達(dá)信號(hào),這些信號(hào)來源于用兩種結(jié)構(gòu)全異但功能類似藥物其中之一單獨(dú)處理后的基因組報(bào)道介質(zhì)9μg/ml霉酚酸和50μg/ml柔紅霉素;圖5給出的流程圖描述了將用圖1概括的方法制備的單個(gè)基因表達(dá)信號(hào)集減小到可用來對(duì)基因表達(dá)譜定量排序的數(shù)目的第一過程。
圖6給出的流程圖描述了將用圖1概括的方法制備的單個(gè)基因表達(dá)信號(hào)集減小到可用來對(duì)基因表達(dá)譜定量排序的數(shù)目的第一過程。
圖7為按照?qǐng)D1處理后的基因表達(dá)信號(hào)的分散圖,這些信號(hào)來源于包含1532個(gè)獨(dú)立基因表達(dá)報(bào)道物的基因組報(bào)道介質(zhì),每一介質(zhì)單獨(dú)用兩種已知在結(jié)構(gòu)和功能上密切相關(guān)的化療藥物其中之一單獨(dú)處理10μg/ml洛伐他汀(X軸)和20μg/ml(Y軸);米法斯丁圖8繪出的是來自圖7中1532個(gè)基因表達(dá)信號(hào)的96基因子集的基因表達(dá)信號(hào)的分散圖,所述子集是根據(jù)圖9和10中圖示出的算法篩選而來的;圖9是概括算法兩主要步驟中第一步的流程圖,該算法可以用來篩選用于基因表達(dá)譜數(shù)據(jù)定量分析的基因信息子集;以及圖10概括的是算法的兩主要步驟中第二步的兩個(gè)完整重復(fù)過程,該算法可以用來篩選用于基因表達(dá)譜數(shù)據(jù)定量分析的信息子集。
發(fā)明詳述為了對(duì)本發(fā)明進(jìn)行全面地理解,下面提出一些詳細(xì)的說明,在說明中使用了如下的詞匯在此,“基因表達(dá)模型”一詞是指用來獲取一組復(fù)合基因共表達(dá)情況的數(shù)據(jù)的一個(gè)設(shè)計(jì)。正如Lashkari等(1997年)在《美國國家科學(xué)院院報(bào)》第94卷13057-13062頁;DeRisi等(1997)在《科學(xué)》第278卷680-686頁;Wodicka等(1997)在《自然生物工程》第15卷1359-1367頁;Pietu等在《基因組研究》第6卷492-503頁;Ashby等在美國專利號(hào)第5,549,588中的描述一樣。而“基因組報(bào)告體系”則特指Ashby等發(fā)明的基因表達(dá)體系。
“基因表達(dá)譜”一詞指一組數(shù)據(jù),不管該數(shù)據(jù)是如何得到的,也不論他們是以電子媒體或其他方式永久或臨時(shí)地存儲(chǔ),其每一個(gè)數(shù)據(jù)都代表細(xì)胞中一個(gè)清析和可識(shí)別的開放閱讀框共表達(dá)的測定結(jié)果,典型地是指那些從“基因表達(dá)譜”中獲得的數(shù)據(jù)。
第一方面,本發(fā)明提供了一種對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的方法,該方法包括下述步驟(a)為所述第一和第二基因表達(dá)譜中共有的每個(gè)基因建立一個(gè)第一和第二基因表達(dá)信號(hào);(b)為每對(duì)第一和第二基因表達(dá)譜用公式表示出一個(gè)相對(duì)的表達(dá)數(shù)值;以及(c)從所述對(duì)偶的相對(duì)表達(dá)數(shù)值中計(jì)算出一個(gè)復(fù)合分值,其中所述的復(fù)合分值可定量所述兩基因表達(dá)譜的相關(guān)程度。本發(fā)明還提供了一種對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的第二種方法,該方法包括下述步驟(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào);以及然后對(duì)共有基因的對(duì)偶的第一和第二基因表達(dá)信號(hào)進(jìn)行線性分析;其中所述的這種回歸的相關(guān)系數(shù)可定量這兩基因表達(dá)譜的相關(guān)程度。
本發(fā)明提供了一種對(duì)多個(gè)基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜相關(guān)程度進(jìn)行排序的方法,該方法包括下述步驟(a)對(duì)偶地定量上述多個(gè)基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及(b)對(duì)所述的對(duì)偶測量的定量數(shù)值進(jìn)行排序。本發(fā)明這一方面的一個(gè)優(yōu)選實(shí)施方案中,對(duì)偶定量相關(guān)程度是按照本發(fā)明中新近描述的兩種方法來進(jìn)行的。
每種方法可以通過參考圖表來更深入地理解,下面將做進(jìn)一步詳細(xì)的描述。
從初始表達(dá)數(shù)據(jù)獲得單個(gè)基因的表達(dá)信號(hào)圖1是一個(gè)描述過程的流程圖。其中,適于定量分析基因表達(dá)譜的基因表達(dá)信號(hào),來源于從基因表達(dá)體系獲得的初始信號(hào)。圖1A表示初始信號(hào)的加工,而圖1B則描述了按照與環(huán)境匹配的對(duì)照進(jìn)行任選的后續(xù)校正。
獲得初始數(shù)據(jù)的步驟,位于116框中,可以按圖中所示連續(xù)進(jìn)行,也可以同時(shí)進(jìn)行。數(shù)字化的101可以根據(jù)信號(hào)獲得的設(shè)備本身進(jìn)行,也可以用單獨(dú)的類似數(shù)字的轉(zhuǎn)換設(shè)備;或直接以數(shù)字形式獲得的表達(dá)數(shù)據(jù)而回避這一步。
以后的每一步數(shù)據(jù)操作(包括圖1A、1B、5和6)均可按程序數(shù)字計(jì)算機(jī)中眾所周知的計(jì)算機(jī)技術(shù)來完成,某些步驟可以按類似線路圖的另一種方式來進(jìn)行。這些步驟可以在單一或系列計(jì)算設(shè)備中完成,而且只要有臨時(shí)的步驟程序,就可以其平行地分發(fā)到多個(gè)計(jì)算設(shè)備中。如圖所示,該過程可以連續(xù)執(zhí)行,但也可以分別執(zhí)行,例如利用儲(chǔ)存于之后進(jìn)行處理的已知步驟中的各個(gè)中間值。關(guān)于數(shù)字計(jì)算機(jī)的程序,如圖1、5、6、9和10中所示,可以按照比較熟悉的計(jì)算機(jī)高級(jí)語言來編寫,包括FORTRAN、BASIC、Paseal、C、C+、C++、JavaTM、或類似的語言,而且不限于這些語言。圖中所示結(jié)果和在此列舉的例子來自以C語言編程的數(shù)字計(jì)算機(jī)。另一種方法是,圖1、5、6、9和10所示步驟可以用匯編語言直接編程。許多步驟也可以用子程序、宏或其他商業(yè)提供的統(tǒng)計(jì)分析程序完成,如JMP(SAS研究所)或UNISTAT統(tǒng)計(jì)包(Unistat有限公司),或用具有計(jì)算功能的程序如MahtematicaTM(Wolfram研究公司)。編程語言的選擇和編撰結(jié)果的好壞決定于技術(shù)人員的技能。
如圖1所示,100是以初始表達(dá)信號(hào)的一種形式和適于特殊基因表達(dá)體系的方式獲得的表達(dá)數(shù)據(jù),例如對(duì)于Ashby等的表達(dá)體系,可以用激光掃描來獲得熒光數(shù)據(jù)。對(duì)于每一個(gè)表達(dá)體系的物理位點(diǎn)或稱表達(dá)體系元件,可以分別獲得其表達(dá)初始信號(hào)。這些初始表達(dá)信號(hào),代表在某個(gè)確定的環(huán)境條件下,表達(dá)體系中分別被測試的各個(gè)基因的表達(dá)水平。
從一個(gè)或多個(gè)基因表達(dá)體系的對(duì)照位點(diǎn),可以獲得具有代表性的,而且常常是同時(shí)產(chǎn)生的初始背景信號(hào)。例如,那些測定熒光標(biāo)記或放射性標(biāo)記的核酸雜交體系,作為對(duì)照,可能包括某個(gè)體系中一個(gè)或多個(gè)位點(diǎn)的測定結(jié)果,而該結(jié)果或者來自毫無核酸體系;或者來自具有核酸但不與已知的開放閱讀框架(ORF)互補(bǔ)的體系;也或者是上述兩種情況都有。類似地,在轉(zhuǎn)化細(xì)胞中測定重組報(bào)告基因的表達(dá)體系(見前Ashby等的例子),作為對(duì)照,可能包括某個(gè)體系中一個(gè)或多個(gè)位點(diǎn)的測定結(jié)果,而該結(jié)果或者來自缺乏報(bào)告基因的細(xì)胞體系;或者來自具有重組構(gòu)建體但不能表達(dá)報(bào)告基因的細(xì)胞體系;或者來自具有報(bào)告基因構(gòu)建體,但缺乏必須底物的細(xì)胞體系;或者是類似的體系。
盡管在每個(gè)體系中可以測定具有代表性的背景對(duì)照元件,但是背景的測量可以用不同的物理體系完成,甚至可以參用已儲(chǔ)存的、來自相似體系的數(shù)值。對(duì)照的類型和數(shù)量的選擇質(zhì)量取決于熟練技工的能力。
然后將獲得的具有代表性的初始表達(dá)信號(hào)和初始背景信號(hào),如類似代表熒光強(qiáng)度的信號(hào),在101被數(shù)字化,并以電子方式分別作為初始信號(hào)值和初始背景值儲(chǔ)存。任何方便的表格、矩陣、電子制表軟件格式都可用于儲(chǔ)存這些數(shù)據(jù),而這些數(shù)據(jù)可以總稱為一個(gè)基因表達(dá)的輪廓。這些數(shù)據(jù)可以作為可變數(shù)據(jù),如以任意可以存取的數(shù)值來保存,另一種辦法就是將數(shù)據(jù)比較永久性的儲(chǔ)存于磁盤、光盤或磁光儲(chǔ)存媒體,或其它類似物。
要正確評(píng)價(jià)的是,表達(dá)體系中每個(gè)不同元件的初始信號(hào)值是單獨(dú)和用不同的方法來測定,不管測定方法是用對(duì)應(yīng)于多維數(shù)據(jù)系統(tǒng)中的位置、還是將標(biāo)題信息附加于數(shù)據(jù)本身的每個(gè)成分,或者是用技術(shù)人員所熟悉的其他可用之方法。如,多區(qū)域的單一記錄可代表一個(gè)單一物理體系元件的熒光強(qiáng)度。而一個(gè)或多個(gè)區(qū)域識(shí)別信號(hào)的物理起源、獲得數(shù)據(jù)的日期和時(shí)間、進(jìn)行實(shí)驗(yàn)的標(biāo)識(shí)符、和/或其他類似的東西。
還要正確評(píng)價(jià)的是,由表達(dá)體系的格式強(qiáng)加的物理界限來建立初始表達(dá)信號(hào)的動(dòng)態(tài)分布情況,特別是用表達(dá)報(bào)告基因的動(dòng)態(tài)分布和獲得數(shù)據(jù)的設(shè)備的敏感程度建立的初始表達(dá)信號(hào)動(dòng)態(tài)分布圖。值得了解的是類似信號(hào)可能會(huì)作為初始信號(hào)值以不同深度的數(shù)字化數(shù)據(jù)出現(xiàn),如8比特、16比特、32比特等等,數(shù)據(jù)的深度越大,可能編譯的強(qiáng)度差異越好,但是儲(chǔ)存數(shù)據(jù)的要求也越大,因此,數(shù)據(jù)深度的選擇應(yīng)基于熟練技工完全了解的經(jīng)驗(yàn)要求。值得了解的還有初始的數(shù)字化可以用一個(gè)數(shù)字深度完成,隨后并可用深度較小的數(shù)據(jù)進(jìn)行分析。在后一種情形中,可以用一個(gè)簡單的線性轉(zhuǎn)化方式降低數(shù)據(jù)的深度。
其中首選浮點(diǎn)計(jì)數(shù)法。
由于來自許多矩陣位點(diǎn)的初始表達(dá)信號(hào)可能低(如在于或低于背景的情況下)可選用118來校正背景,但不一定是必須的。進(jìn)行校正的幾個(gè)方法是成熟的技術(shù)。一種方法是不管輸入的原始值,把現(xiàn)測的(或以前測定的)背景值添加到每個(gè)初始信號(hào)值中。另一種方法是將測得的一半背景值加到每個(gè)輸入值中。
盡管這些已知的方法或其他適當(dāng)?shù)姆椒ǘ伎墒褂?,但首選的是下面的方法。將每個(gè)初始信號(hào)值與初始背景值在102進(jìn)行比較,假如信號(hào)值等于或超過背景值,就無須校正,可變信號(hào)就可分配到106的初始信號(hào)值中。此外,假如初始信號(hào)值小于背景值,就將信號(hào)分配到104背景值中。
對(duì)背景校正的該首選的方法要比前面的任一個(gè)方法更加保守。假如第一個(gè)信號(hào)值A(chǔ)是零,第二個(gè)信號(hào)值B等于背景值(BKG),那么在第一種方法中,可把BKG加到每個(gè)信號(hào)值中,A值就等于BKG,而B值成為兩倍的BKG,因而B人為地成為A值的兩倍。在第二種方法中,把一半BKG加入到每個(gè)信號(hào)值中,A變成BKG的一半,B成為BKG的1.5倍,因而B值人為地成為A值的3倍。在優(yōu)選的方法中,A單獨(dú)用BKG校正,B仍為BKG。這樣校正之后,B值就不會(huì)大于A值。
使用這一保守的途徑對(duì)背景進(jìn)行校正,促進(jìn)了本發(fā)明使用盡可能多獲得的基因表達(dá)信號(hào),來形成一個(gè)與定量一個(gè)或多個(gè)基因表達(dá)譜相關(guān)的綜合評(píng)價(jià)。
前述的方法已經(jīng)在一個(gè)基因?qū)虻幕A(chǔ)上,用報(bào)告基因表達(dá)水平的變化,來典型地估算細(xì)胞中基因表達(dá)的變化情況。甚至當(dāng)許多這樣的基因被同時(shí)測定時(shí),就可以作為多維數(shù)據(jù)報(bào)告這些變化。然而,在檢查任何一個(gè)基因的表達(dá)變化時(shí),或者甚至在檢查一組單個(gè)基因的表達(dá)變化時(shí),現(xiàn)用的測定錯(cuò)誤會(huì)妨礙使用信號(hào)變化較小的表達(dá)比較。
例如,那些在表達(dá)水平中的變化,并未超過選擇的多項(xiàng)錯(cuò)誤標(biāo)準(zhǔn),但卻常常被當(dāng)作典型而忽視了。再例如,對(duì)不到兩倍,五倍甚至十倍的單個(gè)基因表達(dá)變化的典型地忽視。
可是,本發(fā)明認(rèn)為許多這種被忽略的數(shù)據(jù)卻真正揭示了基因表達(dá)的變化,因而能夠?qū)虮磉_(dá)譜的比較提供有用的信息。例如圖2、3和4是散點(diǎn)圖,每個(gè)斑點(diǎn)報(bào)告了在兩個(gè)已知條件下某個(gè)特定基因的相對(duì)表達(dá)水平。下面對(duì)這些圖表作進(jìn)一步描述。為了臨時(shí)說明,應(yīng)當(dāng)注意標(biāo)在這些圖表橫軸和豎軸上的刻度是對(duì)數(shù),間隔為一個(gè)自然對(duì)數(shù)(e1、e2、e3等等)。如圖所示,大多數(shù)數(shù)據(jù)處于由兩個(gè)軸上每個(gè)方向的第一個(gè)刻度所限定的正方形之中。那就是說,所有在這一正方形中的數(shù)據(jù)將被刪去而不用于分析,原因是不到一個(gè)自然對(duì)數(shù)(近2.7倍)的變化,不能從標(biāo)準(zhǔn)測量錯(cuò)誤中鑒別而被忽略。而由于小于兩個(gè)自然對(duì)數(shù)的變化(e2,7.4倍)的忽略,所有在每個(gè)方向的第二個(gè)刻度限定的正方形中的數(shù)據(jù)被刪除,而無法用于分析。正如圖中所示的那樣,大多數(shù)有用的數(shù)據(jù)結(jié)果丟掉了。
本發(fā)明可以使這些數(shù)據(jù)使用起來。盡管任何基因在表達(dá)時(shí)的輕微變化的意義由于標(biāo)準(zhǔn)錯(cuò)誤的大小而無法檢測,但是變化的總體意義卻實(shí)際上常??梢詼y定。以前測定標(biāo)準(zhǔn)錯(cuò)誤的方法可作為一種有意義的測量方法,本發(fā)明代替了標(biāo)準(zhǔn)錯(cuò)誤的測定方法。一般地說,在兩個(gè)不同環(huán)境條件下,正如下面所做的進(jìn)一步說明,基因表達(dá)的總體變化是密切相關(guān)的。
那樣,通過背景校正步驟可以保持盡可能多的數(shù)據(jù),141,優(yōu)選地如上面提出的一樣對(duì)背景使用一種保守的校正。
每種模型元件的信號(hào),優(yōu)選地根據(jù)背景進(jìn)行調(diào)整,隨后標(biāo)準(zhǔn)化108來控制其它相同實(shí)驗(yàn)間的差異,也就是,單個(gè)表達(dá)模型獲得的數(shù)據(jù)之間或從復(fù)制模型獲得的數(shù)據(jù)之間。
在使用基因表達(dá)模型可能高度平行地測量基因表達(dá)的進(jìn)展之前,標(biāo)準(zhǔn)表達(dá)信號(hào)的作用在本領(lǐng)域中很好地認(rèn)識(shí)到。這樣,例如,單個(gè)基因表達(dá)測定,通過Northern雜交分析,通過比較表達(dá)那些組成型管家基因而不斷地標(biāo)準(zhǔn)化,例如肌動(dòng)蛋白,在相同的雜交要么并行地要么連續(xù)地探測。用這種方式,通過不等的凝膠載樣量引入了變異性,mRNA純化的差異及其它,能夠被控制。
以前方法的限制是選擇單個(gè)基因作為推薦標(biāo)準(zhǔn)可能自己在表達(dá)中變化的可能性。這個(gè)問題在本發(fā)明中通過要求測定細(xì)胞基因表達(dá)的完整性而完美解決,包括“看家基因”的表達(dá),和通過要求測定在藥物存在情況下基因表達(dá),它的作用是不能預(yù)計(jì)的priori。
許多方法來標(biāo)準(zhǔn)化信號(hào)以便控制實(shí)驗(yàn)中存在的差異性。一種方法假定全部基因交叉的中間信號(hào)是固定的,另一個(gè)標(biāo)準(zhǔn)化,信號(hào)的平均平方根和另一個(gè)信號(hào)值的平均對(duì)數(shù)。近來的方法,標(biāo)準(zhǔn)化平均對(duì)數(shù),有效地減弱異常值,它是那些信號(hào)更進(jìn)一步增大從平均信號(hào)值的大小。
這里優(yōu)選的方法是假設(shè)交叉的所有基因的平均值為恒定;標(biāo)準(zhǔn)化通過每個(gè)信號(hào)除以所有信號(hào)的總和而實(shí)現(xiàn),如108所示(圖1A)。
然而,當(dāng)細(xì)胞表達(dá)的基因只有一小部分被估定時(shí)的平均基因表達(dá)信號(hào)應(yīng)當(dāng)恒定的假設(shè)可能是不正確。這樣,當(dāng)選定一小部分的基因時(shí)--為了最初產(chǎn)生的基因表達(dá)譜,為了隨后的定量分析,或?yàn)榱俗畛醌@得和隨后的分析--可以有選擇地省略標(biāo)準(zhǔn)化步驟。
因此,標(biāo)準(zhǔn)化步驟108在實(shí)例5中報(bào)道的定量分析中可以從96個(gè)基因的子集的分析里省略;標(biāo)準(zhǔn)化步驟省略的原因是由于恒定平均表達(dá)的假設(shè)可能證明是不合理的。
至于最后的步驟110為定量基因表達(dá)譜分析而準(zhǔn)備單個(gè)信號(hào)值,取每個(gè)信號(hào)值的對(duì)數(shù),也就是,信號(hào)指定為信號(hào)值的對(duì)數(shù)。自然對(duì)數(shù)是優(yōu)選的,盡管log10也被使用。
使用信號(hào)值的對(duì)數(shù)進(jìn)行比較分析有3個(gè)優(yōu)點(diǎn)。第一,對(duì)數(shù)值的轉(zhuǎn)換允許表達(dá)水平相等倍數(shù)的改變得到公平地分析,無論這樣的改變?cè)诒磉_(dá)上是否升高或下降。
例如,從1這個(gè)起始值增長或下降十倍。下降十倍,即到0.1單位,是絕對(duì)值減少了0.9單位。增長10倍,即到10單位,是絕對(duì)值增長了9單位,顯得在基因表達(dá)上變化得比下降10倍減少0.9單位的變化大得多。相反,取它們的log10,分別得到-1,0,+1三個(gè)值,增加和減少顯示出相同的程度。
用對(duì)數(shù)值計(jì)算的另一個(gè)盡管是次要的優(yōu)點(diǎn)是表達(dá)數(shù)據(jù)可直接分析。所有基因的對(duì)數(shù)比率可以計(jì)算,當(dāng)兩個(gè)復(fù)制圖進(jìn)行比較時(shí),以正常分布為0進(jìn)行分布,可以避免隨機(jī)測定誤差。標(biāo)準(zhǔn)統(tǒng)計(jì)測定允許不同實(shí)驗(yàn)一定程度量的測定差異。
用對(duì)數(shù)值的第三個(gè)優(yōu)點(diǎn)是用對(duì)數(shù)值作圖在表現(xiàn)數(shù)據(jù)上有助于視覺上一目了然,如圖2-4(見下面)所示。
FIG.1A中的信號(hào)包括步驟110適合用于基因表達(dá)圖的定性分析,如FIGS.5和6進(jìn)一步說明。但是,其他一系列的步驟,如FIG.1B闡明,能更好地應(yīng)用。
藥物存在于包括有機(jī)溶劑在內(nèi)的各種溶劑中,而溶劑會(huì)不同程度地影響基因表達(dá)。因此,基因表達(dá)的變化是藥物引入細(xì)胞培養(yǎng)基的結(jié)果。變化包括(1)藥物引起的細(xì)微變化,和(2)溶劑引起的變化。培養(yǎng)基本身引起的變化如下面例4和表7所示。另外,菌株和細(xì)胞類型的差異象所分析的細(xì)胞間的差異一樣是存在的為了控制這些環(huán)境因素的影響,集中于供試藥物對(duì)基因表達(dá)的影響的圖形比較。來源于溶劑、培養(yǎng)基、菌株等相應(yīng)對(duì)照的信號(hào)要減去,詳細(xì)見FIG.1B首先,起始表達(dá)信號(hào)和背景信號(hào)來源于相應(yīng)的對(duì)照表達(dá)介質(zhì)是必要的。例如,作為放線菌素D溶液中甲醇對(duì)基因表達(dá)的影響的對(duì)照(見下面表1和2),相同的表達(dá)介質(zhì)(如基因組報(bào)告基因介質(zhì)),單獨(dú)用相同濃度的甲醇處理,起始表達(dá)信號(hào)和背景信號(hào)由此而得。
相應(yīng)的環(huán)境因素的對(duì)照的校正對(duì)于每一個(gè)基因如FIG.1B所闡明。
首先,基因信號(hào)來源于于實(shí)驗(yàn)介質(zhì)基因信號(hào)130減去相應(yīng)對(duì)照介質(zhì)(Signalmc132)134基因的信號(hào)。
其次,早期背景校正118人為界定,然后標(biāo)準(zhǔn)化,必須由決定查詢136和140說明。查詢以任意順序依次進(jìn)行,或較經(jīng)典的一起按單線規(guī)則進(jìn)行。
當(dāng)校正信號(hào)134小于0-即,當(dāng)Signalmc132超過實(shí)驗(yàn)信號(hào)130-就有一種可能Signalmc在背景矯正104時(shí)人為的升高了,然后標(biāo)準(zhǔn)化,實(shí)際上Signalmc的真實(shí)值小于或等于信號(hào)130。因此,初始決定查詢136詢問是否校正的信號(hào)134小于0并且是否Signalmc在步驟102時(shí)小于其背景。初始決定查詢136返回正值,校正信號(hào)設(shè)為0,即138。也就是說,因?yàn)椴豢赡艽_定校正信號(hào)是否為真,該值設(shè)為0,所以該信號(hào)值在隨后的分析中去掉。
同樣的,當(dāng)校正過的信號(hào)134大于0-即實(shí)驗(yàn)信號(hào)130超過相應(yīng)的對(duì)照Signalmc132--就有一種可能信號(hào)130在背景矯正104時(shí)人為的升高了,然后標(biāo)準(zhǔn)化,實(shí)際上信號(hào)130的真實(shí)值小于或等于Signalmc132。因此第二決定查詢140回返回正值,校正信號(hào)設(shè)為0142。
FIGS.2,3,和4表示的是按上述描述的基因表達(dá)數(shù)據(jù)的散點(diǎn)圖,包括在FIG.1A和FIG.1B所闡明的步驟。
FIG.2-4的數(shù)據(jù)來自基因組介質(zhì)所產(chǎn)生的起始表達(dá)信號(hào)(詳情見下面例子)。FIG.2圖形數(shù)據(jù)分別來自兩種化學(xué)治療藥品處理的介質(zhì),柔紅霉素和阿霉素這兩種藥品在結(jié)構(gòu)和功能上關(guān)系密切。FIG.3圖形數(shù)據(jù)分別來自兩種結(jié)構(gòu)和功能均不一樣化學(xué)治療藥品處理的介質(zhì)阿霉素,一種化學(xué)治療藥品和一種抗真菌藥。FIG.4圖形數(shù)據(jù)分別來自兩種結(jié)構(gòu)但功能相關(guān)的藥品處理的介質(zhì),霉酚酸和柔紅霉素均為阻斷DNA合成的藥品。
FIGS.2,3,和4圖上的每一點(diǎn)代表一個(gè)特定基因的表達(dá)X對(duì)應(yīng)的值是在一種藥物存在的情況下(FIG.2中的阿霉素,F(xiàn)IG.3中的柔紅霉素,F(xiàn)IG.4中的柔紅霉素)所得信號(hào)計(jì)算結(jié)果。Y對(duì)應(yīng)的值是在第二種藥物存在的情況下(FIG.2中的FIG.3中的硝酸咪康唑,F(xiàn)IG.4中的霉酚酸)所得信號(hào)計(jì)算結(jié)果。
FIGS.2,3,和4的視覺觀察表明表達(dá)圖譜分析的益處是有利于藥物的發(fā)現(xiàn),還表明這些圖中所呈現(xiàn)的有關(guān)(無關(guān))的極點(diǎn),甚至偶然性定性分析象上面提供的數(shù)據(jù)都證明是有用的。
例如,在FIGS.2中偶然性分析很明顯即兩種藥物影響大部分酵母基因的表達(dá)是相似的,如果不相同每個(gè)基因由柔紅霉素引起的表達(dá)增加量與由柔紅霉素引起的表達(dá)增加量相等。每個(gè)基因由柔紅霉素引起的表達(dá)下降量與由柔紅霉素引起的表達(dá)下降量相等。每個(gè)基因不受二者影響的程度也相似。大部分?jǐn)?shù)據(jù)點(diǎn)位于過原點(diǎn)的直線上。
相反,不相關(guān)的兩種藥品阿霉素和硝酸咪康唑所產(chǎn)生的基因表達(dá)的相似數(shù)據(jù)得到差別很大的圖形(FIG.3),如FIG.3所示,兩種藥品都能提高一些基因的表達(dá)(這些點(diǎn)位于右上象限),而對(duì)另一些基因的表達(dá)兩種藥品的作用是相反的(這些點(diǎn)位于左上和右下象限)。
FIG.4代表的是中間情況,藥物通過不同的機(jī)制影響DNA的合成。
因此,定性分析藥物的關(guān)系變得可能。藥物(或環(huán)境條件)產(chǎn)生的散點(diǎn)分布圖類似于FIG.2所示的藥物(或環(huán)境條件)在作用上密切相關(guān);產(chǎn)生分布圖類似于FIG.3所示的藥物(或環(huán)境條件)在作用上是不相關(guān)的;和那些有類似于圖4顯示的有些關(guān)聯(lián)但不同作用機(jī)制。
假定一種已知效能的重要化合物,以便可能篩選那些有相似活性的衍生物和類似物,而不依賴費(fèi)力的生物化學(xué)實(shí)驗(yàn)。實(shí)際上,甚至連重要化合物的作用機(jī)制也不必知道。然而,這樣分析的潛力是受識(shí)別這種相關(guān)方式的能力所限制的。圖2和圖3顯示的最小值,如圖4顯示的那樣,問題在中間事件中逐漸明顯。這個(gè)發(fā)明通過提供再生的、定量的評(píng)價(jià)基因表達(dá)譜的相關(guān)性;發(fā)明還允許分析多于兩種化合物,允許基因表達(dá)譜相關(guān)產(chǎn)生的列舉順序。
通過產(chǎn)生復(fù)合分?jǐn)?shù)來定量基因表達(dá)譜相關(guān)性的方法本發(fā)明提供了一種方法來定量第一和第二個(gè)基因表達(dá)譜的相關(guān)性,包括的步驟有(a)為每個(gè)基因共同地體現(xiàn)在第一和第二基因表達(dá)譜里的基因,產(chǎn)生第一和第二個(gè)基因表達(dá)的信號(hào);(b)形對(duì)偶應(yīng)上述的每對(duì)第一和第二個(gè)基因表達(dá)信號(hào)的相對(duì)表達(dá)分?jǐn)?shù);和隨后(c)從上述對(duì)偶的相對(duì)表達(dá)分?jǐn)?shù)來計(jì)算復(fù)合分?jǐn)?shù),其中復(fù)合分?jǐn)?shù)定量兩個(gè)基因表達(dá)譜的相關(guān)性。
這個(gè)方法的第一個(gè)步驟在前面已經(jīng)進(jìn)行了敘述,如相應(yīng)的圖S1A和1B。第二和第三步對(duì)應(yīng)圖5進(jìn)行了描述。
總體上,相對(duì)表達(dá)分?jǐn)?shù)524形成了在兩個(gè)基因表達(dá)譜中都表現(xiàn)的的各自的528。因此,復(fù)合分?jǐn)?shù)是從收集的所有這樣單個(gè)基因?qū)?yīng)表達(dá)分?jǐn)?shù)來計(jì)算的,復(fù)合分?jǐn)?shù)用于定量兩個(gè)基因表達(dá)譜的相關(guān)性。
圖5進(jìn)行了詳細(xì)介紹,在第一種情況下基因的信號(hào),信號(hào)1,500,被輸入。這個(gè)信號(hào)按照?qǐng)D1的程序進(jìn)行了處理;正如上面所提到的,信號(hào)優(yōu)選地但并不必須地按照?qǐng)D1B減去環(huán)境匹配的對(duì)照進(jìn)行矯正。同一個(gè)基因在第二種情況下的信號(hào),信號(hào)2,502,按照?qǐng)D1相似的程序進(jìn)行了處理,減去提供的相應(yīng)表達(dá)分?jǐn)?shù),504。既然輸入的信號(hào)值是對(duì)數(shù)值,110,差異代表了表達(dá)的比率。
然而,以前采用的背景矯正118的人工制品在這里應(yīng)當(dāng)說明,及在減去上述的對(duì)應(yīng)對(duì)照信號(hào)之后進(jìn)行標(biāo)準(zhǔn)化。
用兩種決策疑問506和510來進(jìn)行人工制品的矯正。疑問可以按任何順序逐個(gè)進(jìn)行,或可以更典型地按一個(gè)規(guī)定的流程來完成。
當(dāng)相應(yīng)表達(dá)分?jǐn)?shù),分?jǐn)?shù)504,不小于零-也就是說,當(dāng)信號(hào)2超過信號(hào)1-這里存在信號(hào)2在背景矯正中人為地提高104的可能性,通過隨后的標(biāo)準(zhǔn)化,和信號(hào)2的真正值小于或等于信號(hào)1。這樣,第一個(gè)決策疑問506如果相應(yīng)表達(dá)分?jǐn)?shù)504不少于零和如果信號(hào)2在步驟102小于它的背景。如果第一個(gè)決定疑問506變成真的,相應(yīng)的表達(dá)分?jǐn)?shù)設(shè)為零,508。即,因?yàn)椴豢赡軄泶_定響應(yīng)分?jǐn)?shù)是真的,值設(shè)為零以便分?jǐn)?shù)不歸因于復(fù)合分?jǐn)?shù)526。
相似地,如果相應(yīng)表達(dá)分?jǐn)?shù)504是大于零的-也就是說,當(dāng)信號(hào)1超過信號(hào)2-這里存在信號(hào)1在背景矯正過程中被人為地提高的可能性,通過隨后的標(biāo)準(zhǔn)化和信號(hào)1的真正值不小于后等于信號(hào)2。這樣,如果地二個(gè)決定疑問510成為正確的,相應(yīng)表達(dá)分?jǐn)?shù)也設(shè)為518以便這個(gè)相應(yīng)分?jǐn)?shù)不歸因于復(fù)合分?jǐn)?shù)。
接著,進(jìn)行了基因-對(duì)-基因的閾值的比較522。每個(gè)表達(dá)模型技術(shù)有其自己檢測閾值,低于它信號(hào)不能真實(shí)地檢測到。例如,L:ashkari等的寡核苷酸雜交平臺(tái),見上述,與Ashby等從細(xì)胞基因組報(bào)告模型檢測閾值,見上述,不同。
這種閾值是由經(jīng)驗(yàn)確定的。在一個(gè)簡單的方法里,要兩次重復(fù)同樣的實(shí)驗(yàn),不但獲得未處理的圖譜而且得到用同樣藥物同樣處理的細(xì)胞的圖譜。計(jì)算所有基因的對(duì)數(shù)比率,當(dāng)兩個(gè)重復(fù)圖譜進(jìn)行比較時(shí),顯示根據(jù)正態(tài)分布(假設(shè)這里有合理的信號(hào)-對(duì)-噪音比率-如果信號(hào)低,背景矯正會(huì)干擾分布)來在零的周圍進(jìn)行分布,由于隨機(jī)測量誤差。這種分布的標(biāo)準(zhǔn)偏差提供了設(shè)計(jì)一個(gè)恰當(dāng)閾值的指引。
這樣,如果相應(yīng)表達(dá)分?jǐn)?shù)的絕對(duì)值,矯正514對(duì)背景人為因素,是小于經(jīng)驗(yàn)設(shè)定的閾值,516,分?jǐn)?shù)指定值為零,518,和將不歸功于復(fù)合分?jǐn)?shù),526。目前,從Ashby等的基因組報(bào)道模型獲得數(shù)據(jù)的優(yōu)選的閾值是0.7。技術(shù)熟練的人員將能用上述的統(tǒng)計(jì)學(xué)方法建立這樣的經(jīng)驗(yàn)閾值。而且,當(dāng)方法改變和/或那些得到數(shù)據(jù)成為更熟練于已知的數(shù)據(jù)獲得技術(shù),這個(gè)經(jīng)驗(yàn)閾值將可能改變。在實(shí)驗(yàn)實(shí)例中1-4中,使用以前收集的數(shù)據(jù),使用的閾值為1.0。
也應(yīng)當(dāng)注意到,通過盒子522劃定界限的步驟522也從進(jìn)一步考慮基因表達(dá)在第一個(gè)和第二個(gè)基因表達(dá)譜之間變化的方向。這當(dāng)然必須為不超過使用者定義的閾值的分?jǐn)?shù)而設(shè)定為零518。至于剩余的分?jǐn)?shù),方向性通過任何非陰性分?jǐn)?shù)對(duì)分?jǐn)?shù)的絕對(duì)值的來分配。在測定兩種處理的相關(guān)性中,一個(gè)基因抑制的信息容量是與基因激活進(jìn)行相同的處理-僅使用相應(yīng)的變化強(qiáng)度。
這樣,可以看到在算法中有兩個(gè)步驟,其中相應(yīng)表達(dá)分?jǐn)?shù)設(shè)定為零和從歸功于復(fù)合表達(dá)圖譜分?jǐn)?shù)中排除的數(shù)據(jù)。在步驟506,508,510和512中,通過盒子514一起排除,由于背景校正和標(biāo)準(zhǔn)化,當(dāng)分?jǐn)?shù)不能準(zhǔn)確敘述時(shí)無論相關(guān)分?jǐn)?shù)的方向是否是真的,分?jǐn)?shù)設(shè)定為零。在步驟516,518和520,通過盒子522一起排除,盡管不是人為的,但當(dāng)分?jǐn)?shù)不能系統(tǒng)地與零區(qū)分時(shí),分?jǐn)?shù)設(shè)定為零。
在連續(xù)的基因-對(duì)-基因的基礎(chǔ)上,通過有機(jī)體的各種基因表現(xiàn)的基因表達(dá)的各種動(dòng)態(tài)范圍最后的操作524進(jìn)行校正。例如,某些基因可能只能在基因表達(dá)中變化兩倍,無論條件變化多么劇烈;其他的基因可能在基因表達(dá)中變化200倍。為了防止那些有較廣闊動(dòng)態(tài)范圍的基因的過度傾斜的比較分析,每種相關(guān)表達(dá)分?jǐn)?shù)通過所有以前實(shí)驗(yàn)中觀察到的歷史最高表達(dá)的平方根的對(duì)數(shù)值而分開。如524所顯示的,每種相關(guān)表達(dá)分?jǐn)?shù)通過步驟108歷史輸出的最大信號(hào)的平方根的對(duì)數(shù)值來分開;也就是,每種表達(dá)分?jǐn)?shù)同觀察哪個(gè)基因的最大的標(biāo)準(zhǔn)信號(hào)的平方根(一半對(duì)數(shù))的對(duì)數(shù)而分開。正如本領(lǐng)域那些技術(shù)熟練的人員所理解的,每個(gè)基因的值將依賴于表達(dá)模型技術(shù)(如陣列大小)和以前收集的數(shù)據(jù),偶然,將按進(jìn)一步的實(shí)驗(yàn)來改變。
選擇存在于步驟524的敘述中多種基因的各自動(dòng)態(tài)范圍。
在一種這樣的選擇中,每種相關(guān)表達(dá)分?jǐn)?shù)通過從步驟108輸出的最大信號(hào)的平方根的對(duì)數(shù)來分開-也就是,通過最大的標(biāo)準(zhǔn)化信號(hào)-與用來完成標(biāo)準(zhǔn)化的數(shù)值的第一個(gè)方法不同(步驟108中的∑信號(hào))。這種方法將在實(shí)例5中進(jìn)一步討論和舉例。
在仍另一個(gè)選擇中,每個(gè)相對(duì)表達(dá)分?jǐn)?shù)通過輸入到步驟108的最大信號(hào)的平方根的對(duì)數(shù)而分配;即,每個(gè)相對(duì)表達(dá)分?jǐn)?shù)通過基因歷史上觀察到的最大的非標(biāo)準(zhǔn)信號(hào)的平方根的對(duì)數(shù)而分配。這可能在環(huán)境中特別優(yōu)選,其中標(biāo)準(zhǔn)化證明是不適合的可選擇地,可以通過最大對(duì)數(shù)信號(hào)的大小分配-或者標(biāo)準(zhǔn)化或者不標(biāo)準(zhǔn)化-而不是通過它的平方根的對(duì)數(shù)來分配。本發(fā)明方法中選擇最大信號(hào)平方根的理論基礎(chǔ)是特定類型的誤差隨信號(hào)平方根而變化。已發(fā)現(xiàn)用平方根校正的對(duì)數(shù)可以實(shí)現(xiàn)更具信息意義的表達(dá)譜對(duì)比。
一種進(jìn)一步的替代方法是不用進(jìn)行任何校正,假定那些表達(dá)變化最大的基因是生物學(xué)上比較重要的基因,或至少在評(píng)價(jià)環(huán)境條件相關(guān)性上更具有意義。
而另一種替代方法則視基因不同而異,依賴于已經(jīng)進(jìn)行分析的實(shí)際重要性。例如,大部分基因可以按照上述的方法對(duì)待,對(duì)以前所有實(shí)驗(yàn)所觀察到的歷史最高表達(dá)值取對(duì)數(shù)。而事先測定的特定基因子集在這一步驟的處理不同,可以增加或減少它們?cè)陔S后分析中的意義。
上述的步驟,所共同代表的第一和第二基因表達(dá)譜共同遵循在框528中的全部界定。對(duì)于一些表達(dá)介質(zhì),如測定在原核或小的真核生物如酵母中的基因表達(dá)全部或基本上全部開放閱讀框架可以這樣進(jìn)行比較。對(duì)于其它使用哺乳動(dòng)物細(xì)胞的平臺(tái),要對(duì)大量的,可能全部數(shù)目的基因進(jìn)行評(píng)估。很明顯,只有那些在第一和第二環(huán)境條件下都測定的基因,才可用于產(chǎn)生相對(duì)的基因表達(dá)分值。
一最終、標(biāo)量的測定,也稱為復(fù)合分值,可通過步驟526的加和來計(jì)算,該分值以標(biāo)量值表示基因在兩種環(huán)境條件下的表達(dá)譜。得到的數(shù)值越低,表明基因表達(dá)在兩種比較環(huán)境下的表達(dá)譜越相關(guān),完全一致的表達(dá)給出的值為0。
盡管不需要進(jìn)一步的校正,可選擇的、并優(yōu)選將步驟526的加和校正為對(duì)此分值有貢獻(xiàn)的基因百分率。
對(duì)那些不可用的基因的百分率,也就是說,在框514中界定步驟要去除,使相對(duì)的分值為0,508和512對(duì)復(fù)合分值有影響。因此,對(duì)于步驟526不可用基因的選擇性校正中,可對(duì)相對(duì)表達(dá)分值的簡單加和進(jìn)一步用基因數(shù)同可用基因的比率相乘。
在下述實(shí)施例1-4中進(jìn)行的分析是根據(jù)從用步驟864報(bào)道物介質(zhì)獲得的表達(dá)譜來進(jìn)行。盡管在圖5沒有對(duì)此說明,從步驟526獲得的分值可選擇性的進(jìn)行標(biāo)準(zhǔn)化,用每千個(gè)基因中的相對(duì)表達(dá)分值表示,從而允許比較來自不同大小的介質(zhì)。為了完成這種標(biāo)準(zhǔn)化,步驟526中相對(duì)表達(dá)譜分值可進(jìn)一步用1000和所用介質(zhì)中基因的總數(shù)目的比率相乘。
上述的方法可以允許定量的排列兩種基因表達(dá)譜的相關(guān)性得到的復(fù)合分值越低,表達(dá)譜越接近;表達(dá)譜越接近,在獲得表達(dá)譜的兩種不同條件下,細(xì)胞的所有基因表達(dá)狀態(tài)越接近。
因此,可以根據(jù)一個(gè)細(xì)胞所有基因的表達(dá)譜來定量評(píng)估兩種環(huán)境條件的相關(guān)關(guān)系。環(huán)境條件,例如在不同培養(yǎng)基中培養(yǎng),在下述實(shí)施例4中有進(jìn)一步證明??蛇x擇的,兩種不同的環(huán)境條件包括用兩種不同的化學(xué)試劑處理,例如用藥物學(xué)上的候選藥物,基因表達(dá)譜的相關(guān)性表示為復(fù)合分值,表明藥物作用的相關(guān)性。本發(fā)明的這一方面在實(shí)施例1-3中有證明。
該方法也可用于定量一預(yù)先選定的環(huán)境同遺傳突變細(xì)胞的相關(guān)性,包括下述步驟(a)在預(yù)先選定的環(huán)境下,從產(chǎn)生突變的細(xì)胞獲得第一個(gè)基因表達(dá)譜,從野生型的細(xì)胞獲得第二個(gè)表達(dá)譜;然后(b)定量第一和第二基因表達(dá)譜的相關(guān)性。
在本發(fā)明這一方面的一優(yōu)選實(shí)施方案中,從野生型細(xì)胞獲得表達(dá)譜的環(huán)境條件包括暴露于一選定的化合物。首先用一確定的突變,該方法可以定量鑒定模仿遺傳突變效應(yīng)的候選藥物。相反的,首先用一重要的藥物制劑的表達(dá)譜,通過對(duì)藥物存在時(shí)基因表達(dá)譜的相關(guān)性的定量,可以鑒定模仿藥物效應(yīng)的突變。結(jié)果是,通過鑒定藥物的直接或間接影響的所有靶位,可以闡明藥物作用的機(jī)制。此外,通過測定在一種突變存在,而另一種突變不存在時(shí)獲得的兩種不同表達(dá)譜的相關(guān)性,可以測定兩種突變的相關(guān)性。
在本發(fā)明定量方法用于遺傳突變的應(yīng)用中,優(yōu)選酵母細(xì)胞,更優(yōu)選釀酒酵母。酵母是用于此種目的的特別優(yōu)選,以及用于評(píng)估遺傳突變的相關(guān)性,因?yàn)?1)已經(jīng)對(duì)釀酒酵母的整個(gè)基因組進(jìn)行了測序,(2)可通過同源重組很容易定向缺失和插入,以及(3)酵母和人的許多基本代謝途徑高度保守。參照例如,Lashkari等的討論。該方法可廣泛的用于其它原核或真核有機(jī)體的突變鑒定上。
盡管上述描述特定的指一種用于定量第一和第二種基因表達(dá)譜相關(guān)性的方法,本發(fā)明也提供了對(duì)多個(gè)基因表達(dá)譜的相關(guān)性排序的方法。
為了完成多個(gè)基因表達(dá)譜的排序,要獲得一系列的復(fù)合分值,測定每一個(gè)值同一共用指數(shù)或參考譜的相關(guān)性。隨后,對(duì)復(fù)合分值排序,低的分值表明同指數(shù)表達(dá)譜更大相關(guān)性。這樣的排序列于下述表中。
因此,本發(fā)明提供了各種對(duì)環(huán)境條件對(duì)同一細(xì)胞在事先選定環(huán)境條件相關(guān)性排序的方法,包括下述步驟(a)在每一多元化的環(huán)境條件和事先選定的環(huán)境條件下,獲得細(xì)胞或基因型一致細(xì)胞的表達(dá)譜;(b)配對(duì)定量每一多元化環(huán)境和事先選定環(huán)境下表達(dá)譜的相關(guān)性;并(c)對(duì)這些配對(duì)數(shù)量排序。在一優(yōu)選實(shí)施方案中,一個(gè)或多個(gè)環(huán)境條件包括細(xì)胞暴露于一化合物。
相似的,本發(fā)明也提供了對(duì)多種環(huán)境中的每一種和一限定細(xì)胞遺傳突變相關(guān)性排序,包括下述步驟(a)從每一環(huán)境下獲得野生型細(xì)胞的一系列基因表達(dá)譜,從含有該指定突變的細(xì)胞獲得第二基因表達(dá)譜;(b)對(duì)第一基因表達(dá)譜和第二表達(dá)譜進(jìn)行定量配對(duì);然后(c)對(duì)配對(duì)測定量排序。
用相同的方式,本發(fā)明也提供了一種對(duì)多種突變的每一個(gè)同事先選定突變細(xì)胞相關(guān)性的排序方法,包括下述步驟(a)從多個(gè)遺傳突變細(xì)胞中的每一個(gè)獲得一系列基因表達(dá)譜,從含有事先指定突變的細(xì)胞獲得第二基因表達(dá)譜;(b)對(duì)第一基因表達(dá)譜和第二表達(dá)譜進(jìn)行定量配對(duì);然后(c)對(duì)配對(duì)測定量排序。用線性回歸定量基因表達(dá)譜相關(guān)性的方法通過異常值,也就是根據(jù)兩種測定條件下基因表達(dá)的基本變化,可以基本加權(quán)復(fù)合分值,以及由此得到的圖5的程序提供的相關(guān)排序。其中用一需要數(shù)據(jù)inclusion的閾值來減輕在兩種測定條件下變化較小的基因的貢獻(xiàn),即使對(duì)步驟524各種基因,表達(dá)的動(dòng)力范圍,以及圖5中框522界定的從步驟516、518和520得到的結(jié)果進(jìn)行校正也是正確的。這種偏差的優(yōu)勢在于,它集中了對(duì)表型變化貢獻(xiàn)大的基因的排名。
圖6提供了定量相關(guān)基因表達(dá)譜的一種替代方法,相反的,使相關(guān)性排名更趨向于單一表達(dá)基因變化方向的共同方面,而不是這些變化的量。圖6的方法提供了同圖5方法相比的一些優(yōu)勢,尤其是精確的對(duì)從小濃度藥物制劑獲得的基因表達(dá)譜相關(guān)性測定的能力,現(xiàn)在優(yōu)選為對(duì)在溫和處理?xiàng)l件下表達(dá)譜相關(guān)性定量的方法,例如低濃度的藥物。但是,圖5的方法仍然優(yōu)選為在劇烈條件下測定表達(dá)譜相關(guān)性定量的方法,例如用高濃度藥物處理。在圖5和圖6兩種算法的選擇依賴于對(duì)結(jié)果比較后根據(jù)經(jīng)驗(yàn)進(jìn)行選擇;這樣的選擇在本領(lǐng)域技術(shù)范圍之內(nèi)。
在討論這一替代方法的細(xì)節(jié)之前,最好通過考慮圖2散布圖來觀察這兩種方法在概念上的差異。如上述所提到的,圖2作為一散布圖,代表了酵母細(xì)胞用相近的兩種抗腫瘤的化學(xué)治療劑分別處理細(xì)胞后獲得的相對(duì)基因表達(dá)。如上述所討論,這些處理被認(rèn)為密切相關(guān),每一種都等價(jià)的對(duì)單一基因表達(dá)的方向和量有影響作為結(jié)果,大部分的點(diǎn)都位于通過原點(diǎn)線的附近。需要明白,一致的條件、無背景、無噪音、和無其它變化可以在理論上產(chǎn)生一系列表達(dá)點(diǎn),都精確的位于穿過原點(diǎn)的線上。
在圖5步驟516、518和520(在框522中所界定)中應(yīng)用的閾值可理解為,在圖2中,有一致斜率的兩條平行線,同數(shù)據(jù)中的回歸線等距離,有些同置信區(qū)間相近。在步驟516中應(yīng)用的閾值越低,所觀察到的閾值線同數(shù)據(jù)回歸線越接近,則位于線外的點(diǎn)的數(shù)目越多;應(yīng)用的閾值越高,所觀察到的閾值線同數(shù)據(jù)回歸線越遠(yuǎn),則位于線外的點(diǎn)的數(shù)目越少。因?yàn)橹挥形挥陂撝稻€外的點(diǎn)對(duì)表達(dá)譜值有貢獻(xiàn)(比較步驟518和520),圖5的方法受這些點(diǎn)同回歸線距離的影響很大。
相反,圖6的方法,使數(shù)據(jù)點(diǎn)同理論回歸線集中的程度更好,回歸線代表了處理的一致性。那些點(diǎn)直接落在回歸線上對(duì)于分析并非只有很小的意義,而是對(duì)分值的貢獻(xiàn)很大。并非要求基因表達(dá)變化的大小,相反的,該方法集中在基因表達(dá)變化的方向上。該方法對(duì)各種藥物處理的濃度不敏感,如下述實(shí)施例3所示。
圖6為第二種方法對(duì)定量兩種基因表達(dá)譜的模式圖。
在第一(Signal1 600)和第二(Signal2 601)基因表達(dá)譜代表的每一基因表達(dá)信號(hào)根據(jù)圖1處理,進(jìn)行輸入。根據(jù)圖1B中的算法通過匹配的對(duì)照對(duì)信號(hào)進(jìn)行校正。
然后,步驟610和611操作--同圖5中前述算法步驟524中完成的相似--對(duì)不同有機(jī)體各種基因表達(dá)的不同動(dòng)力范圍進(jìn)行校正。
上述步驟524中提出的方法可作為校正動(dòng)力范圍的相同替代方法。因此,可以對(duì)從步驟108中輸出的歷史最大(標(biāo)準(zhǔn)化d)信號(hào)的平方根取對(duì)數(shù)值;可以對(duì)步驟108中輸入的歷史最大(標(biāo)準(zhǔn)化d)信號(hào)的平方根取對(duì)數(shù)值;可以對(duì)從步驟108中輸入的歷史最大(un標(biāo)準(zhǔn)化d)信號(hào)的平方根取對(duì)數(shù)值;可以對(duì)最大信號(hào)值取對(duì)數(shù)--標(biāo)準(zhǔn)化d或un標(biāo)準(zhǔn)化d--而不是平方根的對(duì)數(shù);可以不做任何改變,不校正動(dòng)力范圍;或用經(jīng)驗(yàn)選定的值單一調(diào)整。一種進(jìn)一步的替代,如下述實(shí)施例5中進(jìn)一步的討論,通過對(duì)最大標(biāo)準(zhǔn)化d值平方根取對(duì)數(shù),調(diào)整所有基因的動(dòng)力范圍,但用從更大群體基因選定的標(biāo)準(zhǔn)化值。
然后,第一(Signal1 600)和第二(Signal2 601)表達(dá)信號(hào)同步驟620提供的信號(hào)結(jié)合,對(duì)每一基因,進(jìn)行二維坐標(biāo)。在步驟625中配對(duì)數(shù)據(jù)的線性回歸--代表了所有基因在兩個(gè)基因表達(dá)譜中的表達(dá)--然后提供626的Score,后者提供了定量測定兩種基因表達(dá)譜的相關(guān)性,較高的數(shù)字表明更接近的相關(guān)性。相關(guān)系數(shù)可用做分?jǐn)?shù)值,也可由此進(jìn)行任何相乘。在下述實(shí)施例中提供的分值來自進(jìn)一步對(duì)相關(guān)系數(shù)乘以100。
因此,對(duì)每一基因第一和第二表達(dá)信號(hào)縱彎曲(collapses)的第一種算法(圖5)進(jìn)入到步驟504的單一標(biāo)量值(代表第一和第二表達(dá)的比率),然后對(duì)這些值加和,獲得復(fù)合分值,當(dāng)前的算法保留數(shù)值為分開的坐標(biāo)s,直至最后一步。
需要明白,可以應(yīng)用任何數(shù)據(jù)結(jié)構(gòu),只要該結(jié)構(gòu)允許每一普遍代表的基因能同線性回歸的目的相聯(lián)系,例如單一的二維介質(zhì),一系列載體,或相似物。要進(jìn)一步明白,根據(jù)本發(fā)明在步驟625和626對(duì)相關(guān)譜分值的計(jì)算,可以使用任何通過二維數(shù)據(jù)使數(shù)據(jù)同最適好的理論線相配關(guān)系密切的統(tǒng)計(jì)方法。本領(lǐng)域的技術(shù)人員可以鑒定這樣的數(shù)據(jù)結(jié)構(gòu)和統(tǒng)計(jì)方法,并將這種計(jì)算用數(shù)字計(jì)算機(jī)編碼;這種匹配的密切程度可以使此處新描述的基因表達(dá)譜的相關(guān)定量可靠、可重復(fù)并易于定量。
另一在圖6中沒有描述的步驟,可以選擇性的加入到本方法。
Signal1 600和Signal2 601可以接受同506和510步驟相同的詢問。也就是說,如果早期的背景校正和標(biāo)準(zhǔn)化潛在的阻止對(duì)兩種條件表達(dá)變化方向的明確測定,可以使用該問題。如果這樣,也就是說,如果506或510的詢問被提出,基因的Signal可能會(huì)選擇性的從線性回歸中被去除。
在圖6中描述的方法可以同圖5中提出的方法一樣,用于定量評(píng)估一細(xì)胞在兩種環(huán)境條件下全部基因表達(dá)的相關(guān)性;用于定量評(píng)估事先選定環(huán)境條件同一細(xì)胞確定遺傳突變的相關(guān)性;可以定量兩種不同突變的相關(guān)性。此外,在圖6中提出的方法和算法可以同圖5中提出的一樣,用于對(duì)多種基因表達(dá)譜相關(guān)性的排序,無論是從兩種不同的環(huán)境條件獲得,從產(chǎn)生各種突變的細(xì)胞獲得,還是從二者的組合獲得的表達(dá)譜。
如上述所提出的,無論是應(yīng)用圖5或圖6中給出的算法,在第一和第二基因表達(dá)譜中普遍代表的每一基因同基因表達(dá)譜中其它基因的處理方法一致。但是,對(duì)事先選定的一個(gè)或多個(gè)基因的表達(dá),可能--而且常推薦--要不同weigh其變化,來增加或降低它們?cè)诜治鲋械囊饬x。可以進(jìn)行這樣的加權(quán),例如通過調(diào)整步驟524或在步驟610、611的Signal。
數(shù)據(jù)存儲(chǔ)對(duì)于本發(fā)明的任一實(shí)施方案,無論是用圖5或圖6描述的方法,可以對(duì)圖1、5或6中描述的在任何或全部中間點(diǎn)的任何單一基因表達(dá)譜數(shù)據(jù)進(jìn)行存儲(chǔ)。從任何單一表達(dá)介質(zhì)獲得的數(shù)據(jù)都可存為如步驟101獲得的原始數(shù)字化數(shù)據(jù)、步驟108獲得的背景經(jīng)過調(diào)整并標(biāo)準(zhǔn)化d的信號(hào)、步驟110獲得的背景經(jīng)過調(diào)整并標(biāo)準(zhǔn)化d后取對(duì)數(shù)的信號(hào)、或步驟112獲得的同匹配對(duì)照經(jīng)過完全校正的信號(hào)。
需要明白,新的相關(guān)性比較--也就是說,根據(jù)圖5算法得到的復(fù)合值的新算法或根據(jù)圖6算法對(duì)相關(guān)譜的計(jì)算--可以用早期獲得和存貯的數(shù)據(jù)來進(jìn)行。因此,在運(yùn)行額外的實(shí)驗(yàn)以及從此處描述的各種介質(zhì)平臺(tái)獲得表達(dá)譜數(shù)據(jù),對(duì)從上述的分析中獲得更多的數(shù)據(jù)。特別的,在檢測多種藥物對(duì)全身基因表達(dá)的影響時(shí),從這種比較中可以建立一日益增加的全面數(shù)據(jù)庫。
每一基因表達(dá)譜的存儲(chǔ)代表了一種不同的細(xì)胞狀態(tài),可以對(duì)文獻(xiàn)同其進(jìn)行重復(fù)比較,類似于編纂無生命物質(zhì)不同狀態(tài)所鑒定出來的譜系--NMR譜、IR譜、質(zhì)譜以及類似的譜系--同標(biāo)準(zhǔn)的比較可鑒定出未知的化學(xué)結(jié)構(gòu)。對(duì)基因表達(dá)譜的比較可用相同的方式。不同的,對(duì)本方法提供的相關(guān)性定量評(píng)估以及此處描述的裝置,可以用于這些不同的譜系,其中的改動(dòng)對(duì)本領(lǐng)域技術(shù)人員所熟知。
藥物發(fā)現(xiàn)以及在基因表達(dá)譜定量分析中的其它應(yīng)用此處描述的定量方法、系統(tǒng)和裝置可用作新藥發(fā)現(xiàn)的方法。通過定量比較基因表達(dá)譜的相關(guān)性,可以檢測化合物同已知機(jī)制的藥物、已知功效藥物的相似性,或同特定突變、條件、疾病或疾病狀態(tài)的相似性。
對(duì)一靶細(xì)胞用藥物處理,無論該化學(xué)物質(zhì)怎樣干擾基本的生物過程,最后可以導(dǎo)致靶細(xì)胞基因表達(dá)譜的變化。作用相似的藥物可產(chǎn)生相似的變化譜。作用的相似性越大,基因表達(dá)譜變化的相似性也越大。結(jié)果,對(duì)基因表達(dá)譜相關(guān)性的定量可以鑒定出對(duì)細(xì)胞表達(dá)具有相似效應(yīng)的藥物;可推斷該藥物具有相似的作用機(jī)制。
當(dāng)已知第一種藥物的作用機(jī)制,在鑒定對(duì)靶細(xì)胞基因表達(dá)譜變化具有相似效應(yīng)化合物時(shí),可鑒定出其它具有相似生物學(xué)機(jī)制的化合物。當(dāng)不知第一種藥物的機(jī)制,但已知可對(duì)某一疾病有效時(shí),盡管不知藥物的作用機(jī)制,可鑒定出其它對(duì)靶細(xì)胞病理狀態(tài)具有相似療效的藥物。
因此,對(duì)基因表達(dá)譜相關(guān)性分析可以偏離鑒定單一靶向藥物的需要,從而建立一專門分析,然后在專門分析中根據(jù)活性來篩選化合物。
此外,對(duì)基因表達(dá)譜相關(guān)性分析可以加速藥物開發(fā)后期階段的收縮,集中在有前景侯選藥物的作用特異性上。例如,一鉛化合物的藥物上有效的衍生物可以基于上述同一侯選鉛的基因表達(dá)譜相關(guān)性分析,鑒定出一鉛化合物。
下面的實(shí)驗(yàn)實(shí)施例證明了本發(fā)明定量方法的這些應(yīng)用。
在實(shí)施例1,通過定量比較放線菌素D處理得到的基因表達(dá)譜同暴露于其它藥物制劑獲得的多種基因表達(dá)譜,可以分析藥物同放線菌素D的相關(guān)性。用上述的任何一種算法,可鑒定出不同濃度的柔紅霉素、5-FUDR、阿霉素、5-FU、羥基脲和霉酚酸可導(dǎo)致細(xì)胞,此處為釀酒酵母細(xì)胞,具有相似的表達(dá)效果。所有這些制劑同放線菌素D一樣,已知可影響核酸合成。
因此,如果單獨(dú)知道放線菌素D的作用機(jī)制,該數(shù)據(jù)可清晰把表明柔紅霉素、5-FUDR、阿霉素、5-FU、羥基脲和霉酚酸的作用機(jī)制同已知的放線菌素D的作用機(jī)制相似。因?yàn)橹婪啪€菌素D可以干擾核酸合成,該數(shù)據(jù)表明柔紅霉素、5-FUDR、阿霉素、5-FU、羥基脲和霉酚酸也影響核酸的合成,并因此可能用做治療癌的化學(xué)制劑,或用于打破病原的生活周期,尤其是病毒性病原。
相反的,如果知道這些制劑的作用機(jī)制,這些數(shù)據(jù)表明放線菌素D干擾核酸合成,從而提供研究其機(jī)制的有價(jià)值信息。
應(yīng)該注意這些信息并不需要一專門核酸合成抑制分析,也不需要事先鑒定藥物作用的分子靶位。因此,可鑒定出具有相似效果但具有不同分子靶位的藥物。
通過測定一多元化藥物同兩種濃度柔紅霉素對(duì)細(xì)胞全部基因表達(dá)的變化,實(shí)施例2和3評(píng)估了其相關(guān)性,進(jìn)一步證實(shí),不用預(yù)先知道參考藥物的結(jié)構(gòu)和機(jī)制,來測定作用的相關(guān)性。實(shí)施例4證明,此處提出的方法可更廣泛的用于定量細(xì)胞在不同環(huán)境條件下的相關(guān)性。篩選用于基因表達(dá)譜系化的基因信息子集的方法在實(shí)施例1-4中定量比較的基因表達(dá)譜均包含了同時(shí)期超過800個(gè)不同釀酒酵母基因的表達(dá)。這800個(gè)基因代表了有機(jī)體可表達(dá)基因的一子集,有機(jī)體可表達(dá)基因估計(jì)略高于6000。該百分率結(jié)果因此證明,此處所描述方法的成功應(yīng)用只需要檢測一部分基因的表達(dá)。盡管隨著評(píng)價(jià)基因的日益增多,定量分析日益可靠并具有信息意義,很明顯在該分析中可以使用少于全部基因表達(dá)。
在獲得基因表達(dá)數(shù)據(jù)時(shí),出于技術(shù)考慮,常常分析的基因少于所有可表達(dá)的基因。例如,提供的侯選藥物有限,尤其是通過組合化學(xué)少量生產(chǎn)的藥物;可能僅僅由于制劑太少而不能允許檢測其對(duì)一給定細(xì)胞類型所有可能基因的影響。另外可能因?yàn)樘嘿F而不能一一分析每一候選制劑對(duì)細(xì)胞的每一可表達(dá)基因的作用。
當(dāng)分析的基因組更復(fù)雜時(shí),這些問題就同時(shí)并存。因此,為了評(píng)估一藥物或其它環(huán)境制劑對(duì)線蟲如C.elegans,每一可表達(dá)基因的影響時(shí),需要測定大約20000個(gè)基因;為了評(píng)估一藥物或其它環(huán)境制劑對(duì)人每一可表達(dá)基因的影響時(shí),需要測定大約100000個(gè)基因。
此外,并不是所有的基因都提供一樣的信息。無論在任何環(huán)境條件下,一些基因在表達(dá)上具有不足的動(dòng)力范圍,因而不能提供有意義的信息。另一些基因可能在表達(dá)上協(xié)同變化,因此提供了多余信息。
篩選用于表達(dá)分析的基因信息子集的一個(gè)方法是通過已知的或假定的功能分別選擇基因。因此,F(xiàn)arr et al.,U.S.Patent No.5811231和歐洲專利No.EP 0680517 B1除了別的以外,還公開了篩選“應(yīng)激基因”,特定的用于鑒定對(duì)細(xì)胞毒性的化合物。
但是,該方法需要預(yù)先知道基因的功能。此外,這種定向篩選的偏差減少了鑒定出以前未知相關(guān)性的可能;在對(duì)鑒定未知關(guān)系有用的方法中,例如此處提出的方法,尤其不傾向這種定向預(yù)篩選。
另一篩選子集的方法是完全隨機(jī)的,希望這樣篩選到的子集可以代表整體。很明顯,問題是這樣篩選的子集在描述細(xì)胞在一或多種環(huán)境條件狀態(tài)時(shí)并不提供信息。
而另一篩選基因的方法并不靠共同功能來鑒定,而是通過對(duì)一預(yù)先選定的環(huán)境條件的同樣反應(yīng)性來進(jìn)行。Whitney et al.,自然生物工程,16:1329-33(1998)。介于純粹定向篩選和完全隨機(jī)篩選之間,后一種程序在某種程度上具備前兩者的缺點(diǎn)。
圖7和8定量證明了一新的替代方法,來篩選用于基因表達(dá)分析的基因信息子集的結(jié)果,更詳細(xì)描述如下。該新方法根據(jù)基因表達(dá)的多樣性來篩選用于表達(dá)分析的基因,而非表達(dá)的大小、方向或共同性。
圖7為根據(jù)圖1處理而來的基因表達(dá)信號(hào)的散布圖,來源于包含1532個(gè)獨(dú)立釀酒酵母基因表達(dá)報(bào)道物的基因組報(bào)道物介質(zhì),每一介質(zhì)用已知功能和結(jié)構(gòu)密切相關(guān)的兩種制劑中的一種分別處理10μg/ml洛伐他汀(X軸)和20μg/ml米法斯丁(Y軸)。如前面同圖2相關(guān)的討論,很明顯從圖中的看出,兩種制劑對(duì)酵母大部分基因表達(dá)的影響相似,如果不一致每一個(gè)因洛伐他汀而增加表達(dá)的基因?qū)γ追ㄋ苟∫驳韧黾?;每一個(gè)因洛伐他汀而減少表達(dá)的基因?qū)γ追ㄋ苟∫驳韧瑴p少;而每一個(gè)因洛伐他汀而表達(dá)不受影響的基因?qū)γ追ㄋ苟∫驳韧奈词苡绊?。結(jié)果是大部分?jǐn)?shù)據(jù)點(diǎn)位于通過原點(diǎn)的線上。
圖8繪出的是來自圖7中1532個(gè)基因表達(dá)信號(hào)的96基因子集的基因表達(dá)信號(hào)的分散圖。盡管只有圖7的1/16的基因在圖8中顯示,仍然可以看出兩種藥物處理的正相關(guān)。所篩選的96個(gè)基因子集列于表9,在下述實(shí)施例5中列出。盡管在篩選時(shí)不知功能,在子集中的基因被認(rèn)為具有不同的功能(列于表中的基因功能引自斯坦福大學(xué)酵母基因組數(shù)據(jù)庫http://genome-www.stanford.edu/酵母)。
圖8中所列基因子集從圖7中的篩選過程包含兩個(gè)基本算法步驟第一步,根據(jù)其表達(dá)的最大歷史動(dòng)力范圍對(duì)圖7所列基因進(jìn)行分類;第二步,在各分類中保留第一個(gè)各基因組中表達(dá)非常相關(guān)的基因而去除其它全部。結(jié)果是在原始子集中所看到的基因多樣性應(yīng)答在所選子集中保留,而每一組中相關(guān)的基因,在保留子集中被具有最大動(dòng)力應(yīng)答的基因來代表。
從以前獲得的表達(dá)數(shù)據(jù)的大量基因中篩選一子集的原理盡管在圖8進(jìn)行了實(shí)例說明,可以發(fā)現(xiàn)該方法在指導(dǎo)從基因表達(dá)模型中前瞻性獲得較小數(shù)量但提供信息的基因表達(dá)信號(hào)具有最大的用途。
實(shí)施例1-4表明對(duì)釀酒酵母潛在表達(dá)的6000個(gè)基因中864個(gè)基因的表達(dá)測量—也就是說,大約細(xì)胞潛在表達(dá)基因總數(shù)的14.4%--允許定量檢測細(xì)胞表型,并因此定量測定細(xì)胞狀態(tài)的相關(guān)性。實(shí)施例5表明甚至可篩選更加小子集的潛在表達(dá)基因--6000中的96個(gè),或1.6%細(xì)胞潛在表達(dá)的基因—在定量檢測細(xì)胞表型,并因此定量測定細(xì)胞狀態(tài)的相關(guān)性上已足夠提供信息。
因此,本發(fā)明的一個(gè)重要的方面是提供了細(xì)胞表型化的方法,包括篩選一個(gè)細(xì)胞僅僅20%可表達(dá)基因用于表達(dá)分析,所篩選基因的一致表達(dá)允許將細(xì)胞表型同另一細(xì)胞的表型定量相關(guān)。在這些方法中,優(yōu)選篩選不超過20%的細(xì)胞潛在表達(dá)基因,更優(yōu)選篩選不超過15%的細(xì)胞潛在表達(dá)基因,甚至更優(yōu)選篩選不超過10%的細(xì)胞潛在表達(dá)基因,在最優(yōu)選實(shí)施方案中,篩選大約1-5%,甚至1-2%的細(xì)胞潛在表達(dá)基因。使這些篩選起作用的算法、計(jì)算機(jī)、系統(tǒng)、網(wǎng)絡(luò),以及其它對(duì)篩選起作用的裝置也被提出。
通過參考圖9和10,可以更好的理解篩選用于表達(dá)分析提供信息子集可表達(dá)基因算法的兩個(gè)基本步驟。
算法中兩個(gè)主要步驟的第一個(gè)是根據(jù)基因表達(dá)的動(dòng)力范圍來排序基因。優(yōu)選的,使用歷史數(shù)據(jù)對(duì)每一基因,通過步驟900中合適的程序查詢(或系列查詢)來測定電子儲(chǔ)存基因表達(dá)譜庫中的最大和最小Signal 108值。
如上述所提到,在圖1、5、6中描述過程的任一或全部介質(zhì)點(diǎn)來存儲(chǔ)基因表達(dá)數(shù)據(jù)。對(duì)于圖9中提出的算法步驟的目的,應(yīng)用從步驟108中輸出的Signal。如果在數(shù)據(jù)庫中沒有從步驟108中輸出的Signal,在某些情況下該數(shù)值可以重建—例如,如果存儲(chǔ)了從步驟110中輸出的Signal,本應(yīng)該從步驟108輸出的Signal通過求冪返回到步驟110進(jìn)行計(jì)算。
步驟902計(jì)算的表達(dá)范圍表示為最大和最小信號(hào)的比率(使極限=Signalmax/Signalmin)。盡管可以使用其它測定動(dòng)力范圍的方法--例如Signalmax-Signalmi--當(dāng)前優(yōu)選使用比率。
然后,通過比較步驟902中獲得的極限值同已建立的經(jīng)驗(yàn)值,對(duì)步驟904應(yīng)用一閾值。如果極限超過閾值,基因保留到隨后的應(yīng)用;如果極限不超過閾值,不再保留基因做進(jìn)一步分析。如步驟906所示,通過將、極限設(shè)置為一無效值,可丟棄該數(shù)值。對(duì)于在圖8所示的篩選和實(shí)施例5中的實(shí)例,設(shè)置閾值為10。也就是說,在數(shù)據(jù)庫中存儲(chǔ)的歷史基因表達(dá)譜中,只有在基因表達(dá)變化水平至少有10倍變化的基因保留在選定的子集。
在算法中選擇閾值的這一步可以根據(jù)實(shí)際需要測定,在本領(lǐng)域技術(shù)范圍之內(nèi)。典型的,10倍的閾值將提供合適大小的提供信息子集。
但是,也可能設(shè)置閾值低至1;也就是說,整個(gè)消除截止(點(diǎn))。因?yàn)樗幸蛩乇3植蛔?,結(jié)果是篩選大量的子集基因。此外,要明白在此步驟設(shè)置的閾值并不限定為整數(shù)字。
因此,閾值可以設(shè)為低至1或,優(yōu)選大于1。通常閾值設(shè)為2或更大,更優(yōu)選3或更大,更優(yōu)選在4、5、6、7、8、9、或更大,按照此次序,最優(yōu)選到至少10。
閾值也可大于10,可以高至100,優(yōu)選不超過50,更優(yōu)選不超過25,最優(yōu)選10-20。
根據(jù)表達(dá)極限,對(duì)表達(dá)范圍超過實(shí)際閾值的基因分類。
圖10為算法第二基本步驟重復(fù)過程的模式圖。
從左到右,圖10概括了算法第二步驟的重復(fù)過程。在左邊顯示了從步驟908輸出的基因列表,按動(dòng)力范圍的從大到小排序。在步驟906因動(dòng)力范圍不足而丟棄的基因沒有顯示。
在該過程的第一重復(fù)中,列表中的第一個(gè)基因(“基因1”)作為標(biāo)準(zhǔn)或參照基因。逐個(gè)考慮保留在列表中每個(gè)基因,計(jì)算出基因表達(dá)與從所述的成套存儲(chǔ)基因表達(dá)譜中逐個(gè)確定的標(biāo)準(zhǔn)基因表達(dá)的相關(guān)程度。如果相關(guān)程度(r2)超過了一經(jīng)驗(yàn)設(shè)定數(shù)值,那么就將該基因從所述成套基因中去除。
這步驟的結(jié)果是除去了所有在表達(dá)上與標(biāo)準(zhǔn)基因″基因1″高度相關(guān)的基因;所述的高度相關(guān)是指這些去除基因提供的信息大量冗于標(biāo)準(zhǔn)基因表達(dá)數(shù)值中固有的信息。如圖10底部所示,所述的標(biāo)準(zhǔn)基因(“基因1”)保留在基因信息子集中;如圖10中部例示,與此高度相關(guān)的基因(“基因3”和“基因4”)被去除。由于列表是由最大到最小表達(dá)程度排序的,從相關(guān)組中保留的單個(gè)基因是具有最大動(dòng)態(tài)表達(dá)范圍的基因。
在該方法的第二次重復(fù)中,位于基因1之后的第一個(gè)基因(圖10中例示的“基因2”)變?yōu)闃?biāo)準(zhǔn)或參照基因。它也將保留,如該圖的底部所示。
接著,逐個(gè)考慮保留在列表中每個(gè)基因,計(jì)算出基因表達(dá)與從所述的成套存儲(chǔ)基因表達(dá)譜中逐個(gè)確定的標(biāo)準(zhǔn)基因(此時(shí)為“基因2”)表達(dá)的相關(guān)程度。如果相關(guān)程度超過了經(jīng)驗(yàn)設(shè)定值,那么從成套基因中去除該基因。然后,將下一個(gè)保留(不相關(guān))基因,本發(fā)明用“基因6”例示,作為下一次重復(fù)的標(biāo)準(zhǔn)基因。
重復(fù)該方法直至將該列表試盡。
在執(zhí)行上述去除表達(dá)上與標(biāo)準(zhǔn)基因相關(guān)的基因的重復(fù)步驟中,優(yōu)選地在如步驟140輸出結(jié)果(即,來自方框141的輸出結(jié)果)所示的基因表達(dá)信號(hào)上進(jìn)行相關(guān)分析。最終子集中保留的基因的數(shù)目用下列因素來確定為基因表達(dá)數(shù)據(jù)庫提供數(shù)據(jù)的基因的總數(shù)、步驟904中使用的極限閾值、以及圖10概括的重復(fù)程序中使用的相關(guān)閾值。可以根據(jù)經(jīng)驗(yàn)調(diào)整這兩個(gè)閾值從而制備出含有任一選定數(shù)目的信息子集。
因此,在下列實(shí)施例5給出的分析中,根據(jù)經(jīng)驗(yàn)調(diào)整極限閾值和相關(guān)閾值,制備出含有96個(gè)基因的信息子集-與標(biāo)準(zhǔn)微量滴定板的孔數(shù)目相等-極限閾值設(shè)定為10,相關(guān)閾值設(shè)定為0.675。
一旦根據(jù)圖9和圖10所示的算法鑒定到了預(yù)期大小的之后,那么就可以僅使用該基因子集,按照?qǐng)D5和6中給出的算法來進(jìn)行定量分析。也可以如實(shí)施例5所示,通過從更大范圍的基因表達(dá)譜中選擇來實(shí)施分析,或者更有用地,只使用報(bào)道基質(zhì)中鑒定出的基因子集,通過有目的地獲得基因表達(dá)譜來實(shí)施分析。
實(shí)施例5顯示的是從由我們的存儲(chǔ)基因表達(dá)譜數(shù)據(jù)庫中獲得的1532個(gè)基因中選擇出一96個(gè)基因的子集。對(duì)比表8和表10中的數(shù)據(jù)-表8對(duì)1532個(gè)基因的相關(guān)程度排序,表10僅對(duì)用上述方法選擇出的96個(gè)基因的同一表達(dá)譜進(jìn)行排序-表明所述的96基因子集充分保留了多樣性,從而確保可對(duì)基因表達(dá)譜的相關(guān)程度進(jìn)行定量性的排序兩表中的數(shù)據(jù)都鑒定出HMG-CoA還原酶抑制劑與洛伐他汀最相關(guān),效果上相關(guān)程度緊隨其后的是能夠影響固醇生物合成途徑其他步驟的藥物。
盡管實(shí)施例5是用圖6(即圖1A、1B和6)中的算法對(duì)所述96基因子集進(jìn)行定量分析,但是也可以使用圖5(即圖1A、1B和5)中給出的算法。另外,圖8-把96個(gè)基因的來自標(biāo)準(zhǔn)表達(dá)譜(顯示次序0)數(shù)據(jù)相對(duì)于來自顯示為次序2(20μg/ml米法斯丁溶于1%乙醇)的表達(dá)譜的數(shù)據(jù)繪制的曲線-表明這樣選定的子集也可以用于基因表達(dá)譜的定量分析。
提供下列實(shí)施例目的是為了說明而并非限制本發(fā)明實(shí)施例1藥物相對(duì)于80μg/ml放線菌素D的相關(guān)程度按照Ashby et al的方法制備復(fù)制基因組報(bào)道基質(zhì),該文獻(xiàn)在此引入作為參考。簡而言之,就每個(gè)這樣的基質(zhì)重組構(gòu)建體而言,將從獨(dú)一無二酵母啟動(dòng)子中驅(qū)動(dòng)熒光報(bào)道物的構(gòu)建體單獨(dú)轉(zhuǎn)化入具有同一菌株背景的酵母的離散培養(yǎng)物中。對(duì)轉(zhuǎn)化后的培養(yǎng)物進(jìn)行篩選以保持報(bào)道物以及防止遭受未轉(zhuǎn)化細(xì)胞的污染。將每一種所述轉(zhuǎn)化后酵母培養(yǎng)物分置,保留在彼此分隔且空間可尋址的基質(zhì)孔內(nèi)。
所用基質(zhì)中包含有864個(gè)分隔的構(gòu)建體,以確??蓪?duì)800多個(gè)基質(zhì)的表達(dá)水平進(jìn)行同時(shí)測量。向每一基質(zhì)上施加一特定的環(huán)境條件,具體參見表1和表2欄目中所示。如前文中提及的Ashby et al中所示,從每個(gè)這樣的基質(zhì)中獲得一基質(zhì)表達(dá)譜,數(shù)字化,并且電子化存儲(chǔ)。
此后,對(duì)每個(gè)基因表達(dá)譜與存在80μg/ml放線菌素D時(shí)產(chǎn)生的基因表達(dá)譜之間的相關(guān)程度進(jìn)行對(duì)偶定量,基本上按照?qǐng)D1A、1B和5(表1)或者圖1A、1B和6(表2)中所示的方法來進(jìn)行。然后對(duì)對(duì)偶相關(guān)對(duì)偶的測量結(jié)果排序,結(jié)果如下表1次序 處理- 復(fù)合分值(藥物濃度μg/ml)0 80線菌素D溶于1%甲醇 0(標(biāo)準(zhǔn)或者參照條件)次序 處理 復(fù)合分值(藥物濃度μg/ml) Score~.
1 60放線菌素D溶于1% 2.9甲醇2 40放線菌素D溶于1% 10.0甲醇350放線菌素D溶于1% 11.7甲醇4 25柔紅霉素 14.25 50柔紅霉素 15:66 40 5-FUDR 15.87 25阿霉素16.08 12.5阿霉素 16.09 25阿霉素17.710 30FUDR 18.011 12.5阿霉素 21.212 0.30 FUDR 21.913 5000羥基脲 22.314 20 5-FUDR 22.4
155-氟尿嘧啶22.51612.5柔紅霉素 22.9170.25 5-FU 23.0186.25阿霉素23.01930放線菌素D溶于1%23.5甲醇209霉酚酸溶于1.5% 25.1乙醇2140放線菌素D溶于1%26.8甲醇220.250 5 FU27.72315霉酚酸溶于1.5% 28.1乙醇242氟胞嘧啶(15 hr) 28.1250.15 5-FU 28.4265α因子 32.12710α因子 32.22850米法斯丁溶于2%DMSO 38.22975米法斯丁溶于2%DMSO 38.43020α因子 40.631無藥物溶于1%的甲醇 41.1320.04氯苯咪唑溶于1%DMSO 46.333100米法斯丁溶于2%DMSO55.534250灰黃霉素溶于1%56.5甲醇3515α因子 66.7364000戊脈安92.0373500戊脈安113.1384500戊脈安141.1390.08氯苯咪唑溶于1%DMSO 158.8400.156硫康唑溶于1%DMSO169.7
表2次序 處理相對(duì)譜分值(relativeprofile score)(藥物濃度μg/ml)080線菌素D溶于1% 100甲醇(索引,或參考文獻(xiàn),條件)160線菌素D溶于1% 86甲醇250防線菌素D溶于1% 74甲醇340防線菌素D溶于1% 72425阿霉素 68540 5-FUDR67625柔紅霉素 65712.5柔紅霉素 65850柔紅霉素 6590.3 5-FU 641030 5-FUDR63110.25 5-Fu(除去641) 62120.25 5-Fu(除去351) 62130.35 5-FU601425阿霉素 591550阿霉素 59160.2 5-FU 59176.25阿霉素 58180.1 5-FU 581912.5阿霉素 532012霉酚酸溶于1.5%53乙醇215000羥基脲 52
229霉酚酸溶于1.5% 51乙醇2312.5柔紅霉素 492410000羥基脲 492515霉酚酸溶于1.5%49乙醇262氟胞嘧啶48274氟胞嘧啶(除去167) 48284氟胞嘧啶(除去97)48295000羥基脲 46302氟胞嘧啶(15小時(shí))4531無藥物溶于10%甲醇 42327.5α因子363310α因子 36344500戊脈安 36353500戊脈安 353620α因子 35373000戊脈安 34384000戊脈安 33394α因子 31401259羥基脲 30415米法斯丁溶于1%DMSO 28422500戊脈安 28432霉酚酸溶于乙醇 28表1和表2表明本發(fā)明所述的每一種方法都可將基因表達(dá)譜的相關(guān)程度定量化,并由此而鑒定藥物處理的相關(guān)程度。
因此,如表1所示,圖1A、1B及5中的算法表明用60μg/ml放線菌素D處理與暴露于80μg/ml放線菌素D的參照或標(biāo)準(zhǔn)條件最相關(guān)。用40μg/ml放線菌素D和50μg/ml放線菌素D處理次之。
隨后使用不同濃度的柔紅霉素、5-F~DR、阿霉素、5-FU、羥基脲和霉酚酸。已知這些試劑與放線菌素D一樣都能影響核酸合成。用毫不相關(guān)活性試劑處理時(shí)相關(guān)程度則差得多次序?yàn)?6和27的用酵母α因子處理,隨后為米法斯丁,后者為HMG-COA還原酶的一種抑制劑。在次序?yàn)?1位上可以發(fā)現(xiàn)用根本不合藥物處理得到的基因譜,環(huán)境匹配的控制,隨后,用抗真菌劑雙氯苯咪唑和灰黃霉素處理,以及用鈣通道阻斷劑戊脈安處理。
因此,假如單單已知放線菌素D的作用機(jī)制,那么上列數(shù)據(jù)則清楚地顯示出柔紅霉素、阿霉素、核苷酸類似物5-FUDR和5-FU以及霉酚酸作為藥物時(shí)的作用機(jī)制與已知的放線菌素D的作用機(jī)制類似。如果已知放線菌素D能夠干擾核酸合成,那么這些數(shù)據(jù)表明柔紅霉素、阿霉素、核苷酸類似物5-FUDR和5-FU、以及霉酚酸也可影響核酸的合成,因而可以用作治療癌癥的化療藥物,或者可以用來破壞病原體的生命循環(huán),尤其是病毒病原體。
相反,假如除參照藥物外的其他所有這些藥物的機(jī)制都已知,那么這些數(shù)據(jù)表明放線菌素D可干擾核酸的合成,為其作用機(jī)制提供有價(jià)值的見解。
值得注意的是,這些見解不需要專門的核酸合成抑制試驗(yàn),也無需提前確定該藥物針對(duì)的分子目標(biāo)。因此,已經(jīng)鑒定出了具有類似普遍作用但具不同分子目標(biāo)的藥物。
表2給出的是用圖T1A、1B和6的方法和算法制備的基因表達(dá)譜的相關(guān)程度的具有定量意義的排序,當(dāng)將其應(yīng)用于同樣一套電子化存儲(chǔ)的基因表達(dá)譜數(shù)據(jù)。
可以看到,當(dāng)與用80μg/ml放線菌素D處理最密切相關(guān)時(shí),將能夠影響核酸合成的藥物再次排序。值得注意的是對(duì)遞減濃度放線菌素D排定的次序。
實(shí)施例2藥物與50μg/ml 柔紅霉素的相關(guān)程度按照實(shí)施例1和Ashby et al所列的方法獲得并存儲(chǔ)基因表達(dá)譜。
然后,對(duì)每個(gè)基因表達(dá)譜與存在50μg/ml放線菌素D時(shí)產(chǎn)生的基因表達(dá)譜之間的相關(guān)程度進(jìn)行對(duì)偶定量,基本上按照?qǐng)D1A、1B和5(表3)或者圖1A、1B和6(表4)中所示的方法來進(jìn)行。然后對(duì)對(duì)偶相關(guān)對(duì)偶的測量結(jié)果排序,結(jié)果如下
表3次序處理 復(fù)合分值(藥物濃度μg/ml)050柔紅霉素 0.0(標(biāo)準(zhǔn)或參照條件)125阿霉素(除去336) 2.3250阿霉素 9.7325柔紅霉素 12.4480線菌素D溶于1% 15.6甲醇512.5阿霉素(除去335)17.6660放線菌素D溶于1% 19.5甲醇70.2 5-FU 24.380.35 5-FU 24.3940 5-FUDR 25.710 6.25阿霉素 26.411 0.25 5-FU 26.412 12.5柔紅霉素 26.513 0.15 5-FU 26.614 40放線菌素D溶于1% 28.9甲醇(除去491)15 10α因子 30.816 5α因子30.817 5000羥基脲 32.618 40放線菌素D溶于1% 33.7甲醇(除去456)19 2氟胞嘧啶 35.920 20α因子 39.921 10000羥基脲40.722 無任何藥物 43.723 75米法斯丁溶于2%DMSO 43.9
(除去1202)24 1000戊脈安 44.025 20α因子44.126 50米法斯丁溶于1%DMSO 44.527 75米法斯丁溶于2%DMSO 47.6(除去1099)表4次序 處理 相對(duì)譜分值(relativeprofile score)(藥物濃度μg/ml)0 50柔紅霉素(標(biāo)準(zhǔn)或參照條件)1 25阿霉素(除去336)912 50阿霉素(除去337)903 25柔紅霉素 774 12.5阿霉素(除去335) 755 6.25阿霉素 626 0.35 5-FU597 0.2 5-FU 588 4500戊脈安 579 60放線菌素D溶于1% 57甲醇10 12.5柔紅霉素 5711 0.3 5-FU 5712 0.25 5-FU(除去351) 5613 0.25 5-FU(除去641) 5614 0.15 5-FU5515 50 5-FUDR5316 12霉酚酸溶于1.5%52乙醇17 10000羥基脲(除去205) 5118 4000戊脈安 50193500戊脈安 502010000羥基脲(231)492115霉酚酸溶于1.5% 49乙醇22無藥物溶于10%甲醇 4423150絲裂霉素C432430 5-FUDR 43257.5α因子 40263000戊脈安 40275α因子 342815α因子32292500羥基脲 30302000戊脈安 2431750灰黃霉素溶于7.5%15甲醇表3中所列數(shù)據(jù)是使用圖5所示方法得到的,這些數(shù)據(jù)表明下述藥物在作用方面與柔紅霉素密切相關(guān)阿霉素、放線菌素D、5-FU、和5-FUDR,這與這些藥物已知的活性一致。但是,使用圖6所示方法得到的表4所列數(shù)據(jù)很不明確,鈣通道阻斷劑戊脈安似乎是密切相關(guān)的。
因此,可以看出在較強(qiáng)烈的條件下,本發(fā)明中表現(xiàn)為較高濃度的藥物,圖5中給出的方法比圖6給出的方法更優(yōu)選。下列的實(shí)施例3,表明圖6給出的方法優(yōu)選使用在較低濃度的藥物下使用。
從該實(shí)施例的數(shù)據(jù)中還應(yīng)該注意到復(fù)制的基因表達(dá)譜,即在相同條件下彼此獨(dú)立的試驗(yàn)中所獲得的基因表達(dá)譜給出的數(shù)據(jù)彼此密切排序,表明該分析的可重復(fù)性。
實(shí)施例3藥物與12.5μg/ml柔紅霉素的相關(guān)程度按照實(shí)施例1和Ashby et al所列的方法獲得并存儲(chǔ)基因表達(dá)譜。
然后,對(duì)每個(gè)基因表達(dá)譜與存在12.5μg/ml放線菌素D時(shí)產(chǎn)生的基因表達(dá)譜之間的相關(guān)程度進(jìn)行對(duì)偶定量,基本上按照?qǐng)D1A、1B和5(表5)或者圖1A、1B和6(表6)中所示的方法來進(jìn)行。然后對(duì)對(duì)偶相關(guān)對(duì)偶的測量結(jié)果排序,結(jié)果如下表5次序 處理 復(fù)合分值(藥物濃度μg/ml)0 12.5柔紅霉素 0.0(標(biāo)準(zhǔn)或參照條件)15%鹽水 1.02 1000硫氮酮 1~33 0.25 5-FU 1.94 0~0.25-FU1.95 厭氧培養(yǎng) 1.96 1000戊脈安2.07 2霉酚酸溶于乙醇 2.08 1187.5 乙酰水楊酸溶于 2.11.25%乙醇9 1000酰水楊酸溶于 2.11.25%乙醇10 1250 乙酰水楊酸溶于 2.21.25%乙醇11 5米法斯丁溶于1%DMSO 2.512 10阿莫西林溶于2%乙醇 2.613 0.04衣霉素溶于0.1%DMSO 2.6Tris14 無任何藥物2.915 750酰水楊酸溶于3%3.0乙醇16 500硫氮酮 3.117 12.5阿霉素3.618 750灰黃霉素溶于7.5% 3.9
甲醇197.5α因子 4.1205α因子 4.22110α因子 4.42225阿霉素 13.72320α因子 13.82450柔紅霉素26.52550阿霉素 62.3表6次序 處理 相對(duì)譜分值(藥物濃度μg/ml)012.5柔紅霉素(標(biāo)準(zhǔn)或參照條件)125阿霉素(除去336) 6746.25阿霉素 63512.5阿霉素 58650柔紅霉素 57760放線菌素D溶于1% 52甲醇880放線菌素D溶于1% 49甲醇950放線菌素D溶于1% 48甲醇1040放線菌素D溶于1% 46甲醇1150阿霉素44129霉酚酸溶于1.5%43乙醇1330 5-FUDR 41145霉酚酸溶于0.9%36乙醇
151125乙酰水楊酸溶于 342%乙醇1630放線菌素D溶于1% 33甲醇17無任何藥物溶于的10%甲醇2718750乙酰水楊酸溶于3%25乙醇,表5和表6列出的結(jié)果表明了在低藥物濃度條件下用第二中方法來定量基因表達(dá)譜相關(guān)程度的基本優(yōu)勢。
如表5所示,圖5給出的第一種方法不能將基因表達(dá)譜與只存在12.5μg/ml柔紅霉素時(shí)制備的基因表達(dá)譜相關(guān)程度確切地定量,5%鹽水和1000μg/ml硫氮酮(一種鈣通道阻斷劑)位于5-FU之前,在排序上5-FU本身僅僅位于厭氧培養(yǎng)和戊脈安之前。
明顯相反,現(xiàn)在將用圖6(表6)所示方法分析的同一基因表達(dá)譜數(shù)據(jù)排序,結(jié)果發(fā)現(xiàn)與用12.5μg/ml柔紅霉素處理密切相關(guān)的是用各種不同濃度阿霉素處理,已知阿霉素在結(jié)構(gòu)和功能上與柔紅霉素密切相關(guān)。
實(shí)施例4普遍環(huán)境條件的相關(guān)程度按照實(shí)施例1和Ashby et al所列的方法制備復(fù)制的基因組報(bào)道物介質(zhì),使用864個(gè)獨(dú)一無二的單元來報(bào)道864個(gè)不同酵母開放閱讀框的同時(shí)表達(dá)。在下面給出的條件下,獲得每一介質(zhì)的基因表達(dá)譜數(shù)據(jù),將其數(shù)字化并存儲(chǔ)。然后,對(duì)每個(gè)基因表達(dá)譜與將細(xì)胞溫育于酵母極限培養(yǎng)基時(shí)制備的基因表達(dá)譜之間的相關(guān)程度進(jìn)行對(duì)偶定量,基本上按照?qǐng)D1A、1B和5所示的方法來進(jìn)行。然后對(duì)對(duì)偶相關(guān)對(duì)偶的測量結(jié)果排序,結(jié)果如下列于表7
表7處理復(fù)合分值無任何藥物,酵母極限培養(yǎng)基0.0(None/NM)無任何藥物,酵母極限培養(yǎng)基外加37.6酪蛋白氨基酸(None/NM+CAA)7.5酵母α因子、酵母 41.7極限培養(yǎng)基外加酪蛋白氨基酸(7.5α/NM+CAA)5酵母α因子,酵母極限 41.8培養(yǎng)基外加酪蛋白氨基酸(5α/NM+CAA)無任何藥物,酵母極限培養(yǎng)基外加45.2酪蛋白氨基酸(None/NM+CAA)無任何藥物,酵母極限培養(yǎng)基外加45.9酪蛋白氨基酸(None/NM+CAA)10酵母α因子,酵母極限46.4培養(yǎng)基外加酪蛋白氨基酸(10α/NM+CAA)12.5酵母α因子,酵母 59.4極限培養(yǎng)基外加~酪蛋白氨基酸(12.5α/NM+CAA)無任何藥物,酵母極限培養(yǎng)基外加63.5酪蛋白氨基酸、二倍體(a/a)菌株(None/NM+CAA/diploid)15酵母α因子,酵母極限71.1培養(yǎng)基外加酪蛋白氨基酸(15α/NM+CAA)無任何藥物,YPD培養(yǎng)基 81.6(None/YPD)
如表7所示,本發(fā)明提供的定量方法可以使得將普遍環(huán)境條件的相關(guān)程度排序,本發(fā)明表現(xiàn)為營養(yǎng)培養(yǎng)基的變化,正如可用單個(gè)藥物進(jìn)行離散處理。
此外,這些數(shù)據(jù)證實(shí)了培養(yǎng)基的變化基本上能影響普遍的基因表達(dá),這就證明了包括一個(gè)條件-匹配對(duì)照的校正的重要性,參見圖1B實(shí)施例5篩選用于定量分析基因表達(dá)譜的基因信息子集按照Ashby et al中的方法制備復(fù)制基因組報(bào)道基質(zhì),該文獻(xiàn)在此引入作為參考。本實(shí)施例給出的用于所述分析的基因基質(zhì)中包含有1532個(gè)分隔的構(gòu)建體,以確??蓪?duì)1500多個(gè)基質(zhì)的表達(dá)水平進(jìn)行同時(shí)測量,這些基因中約1/4可被釀酒酵母表達(dá)。向每一基質(zhì)上施加一特定的環(huán)境條件,具體參見表8和表10欄目中所示。如前文中提及的Ashby et al中所示,從每個(gè)這樣的基質(zhì)中獲得一基質(zhì)表達(dá)譜,數(shù)字化,并且電子化存儲(chǔ)。
然后,對(duì)每個(gè)基因表達(dá)譜與存在10μg/ml洛伐他汀時(shí)產(chǎn)生的基因表達(dá)譜之間的相關(guān)程度進(jìn)行對(duì)偶定量,基本上按照?qǐng)D1A、1B和6所示的方法來進(jìn)行,僅作如下兩個(gè)小小的變動(dòng)。
第一,從對(duì)96個(gè)基因子集的分析中省去標(biāo)準(zhǔn)化步驟108,因?yàn)閷⑵鋺?yīng)用于如此小百分比的細(xì)胞基因時(shí)無法證明恒定平均表達(dá)(constant mean expression)的假想是正確的。
第二,通過將每一基因除以最大標(biāo)準(zhǔn)化信號(hào)的對(duì)數(shù)平方根,在步驟610和611中完對(duì)偶報(bào)道物的全異動(dòng)態(tài)范圍的校正;但是,每種情況下用來影響標(biāo)準(zhǔn)化的數(shù)值是與所述1532基因子集近似的數(shù)值。
對(duì)對(duì)偶相關(guān)對(duì)偶的測量結(jié)果排序,結(jié)果如下表8次序 處理相對(duì)譜分值(藥物濃度μg/ml)0 10洛伐他汀溶于1%乙醇 100(標(biāo)準(zhǔn)或參照條件;實(shí)驗(yàn)1538)1 5洛伐他汀溶于1%乙醇 91
220米法斯丁溶于1%乙醇 8834氟伐地汀 84420洛伐他汀溶于1%乙醇 63510西伐他汀溶于1%乙醇 8062氟伐地汀 79715西伐他汀溶于1.5%乙醇 7985西伐他汀溶于1%乙醇 74910米法斯丁溶于1%乙醇 721020阿伐他汀溶于1%乙醇 71115米法斯丁溶于1%乙醇 66120.015氯苯甲氧咪唑或益康唑溶于 651%甲醇130.15氯三苯甲咪唑或克霉唑溶于1% 64甲醇140.02氯苯甲氧咪唑溶于1%甲醇 64151氟康唑溶于0.09 mg/ml NaCl62160.125氯三苯甲咪唑溶于1%甲醇 60170.1氯三苯甲咪唑溶于1%甲醇58182氟康唑溶于0.09 mg/ml NaCi52190.03氯苯甲氧咪唑溶于1%甲醇 512015阿伐他汀溶于1%乙醇 51213氟康唑溶于0.09 mg/ml NaCi502250硝苯地平或硝苯吡啶溶于1%DMSO 392350孕酮溶于1%DM50 362410孕酮溶于1%DMSO 362340硝苯地平溶于1%DMSO 33261.5衣霉素溶于1%DMSO 32表8表明-與上述實(shí)施例1-4給出的結(jié)果一致-將圖1A、1B和6中的算法應(yīng)用到含1532個(gè)獨(dú)一無二基因報(bào)道物的基因表達(dá)譜可以允許對(duì)藥物與10μg/ml HMG-CoA還原酶抑制劑洛伐他汀之間的相關(guān)程度進(jìn)行定量。
因此,同類的其他藥物-米法斯丁、氟伐他汀、西伐他汀和Atorvastatin-表現(xiàn)出與洛伐他汀很密切相關(guān)。接著在排定的序列中出現(xiàn)的是影響固醇生物合成途徑其他步驟的藥物,例如氯苯甲氧咪唑、氯三苯甲咪唑和氟康唑。隨后是結(jié)構(gòu)或作用模式基本上不同的藥物,例如孕酮、硝基地平及衣霉素。多種多樣的具有甚至更低相關(guān)譜范圍的其他藥物未顯示。
然后,查詢用于制備表8的基因表達(dá)譜數(shù)據(jù),并用圖9和10中概括出的公式進(jìn)行處理。設(shè)計(jì)該公式的目的是從基因表達(dá)內(nèi)1532個(gè)基因中鑒定出一個(gè)子集,無論其數(shù)目減少多少,只要其能夠充分代表基因表達(dá)的所有組成成分,從而實(shí)現(xiàn)對(duì)基因表達(dá)譜相關(guān)程度的定量。為了獲得一96個(gè)基因的子集-與標(biāo)準(zhǔn)微量滴定板孔數(shù)目相等-根據(jù)經(jīng)驗(yàn)將極限閾值設(shè)定為10,相關(guān)閾值設(shè)定為0.675。使用編碼于C中的算法步驟,在數(shù)字電腦上運(yùn)行該公式。
如此鑒定得到的基因子集列于下表9中。根據(jù)本發(fā)明,表中列出的基因功能是那些在斯坦福大學(xué)的酵母(酵母)基因組數(shù)據(jù)庫(http://genome-www.stanford.edu/酵母)中已經(jīng)報(bào)道的功能。
表9基因 功能PDR12 多藥物抗性的轉(zhuǎn)運(yùn)蛋白;類似于pdr5pSUC2 轉(zhuǎn)化酶ADH2 醇脫氫酶2Fμgi 蛋白二硫異構(gòu)同系物YJL105wAGA1 α-凝集素的錨定亞單位HXT11 葡萄糖通透酶;高親和力的己醣轉(zhuǎn)運(yùn)蛋白YEL0 65wERG10 乙酰輔酶A硫解酶RPL39 核糖體蛋白rp146(rat 139)YG?1 應(yīng)答營養(yǎng)低限合成的gp37糖蛋白NUT2 核酸內(nèi)切酶啟動(dòng)子ho中2個(gè)urs的負(fù)調(diào)控SNQ2 推定的ATP-依賴性通透酶ECM1 細(xì)胞外突變體YER166wMET163’磷酸腺苷硫酸還原酶(phosphoadenylylsulfate reductase)B103 7,8-二氨基-壬酸轉(zhuǎn)氨酶ZE01 抗zeocin的抗性TIF2 翻譯啟動(dòng)因子THI4 硫胺生物合成酶GLN1 谷氨酸鹽合成酶ECM2 細(xì)胞外突變體IDI1 異戊烯基二磷酸二甲基烯丙基二磷酸異構(gòu)酶(dimethylallyl diphosphate isomerase)PAI3 蛋白酶pep4p的胞質(zhì)抑制劑ACH1 乙?;o酶A水解酶YEL047cPDR5 多藥物抗性的轉(zhuǎn)運(yùn)蛋白MFalpha 交配因子1CHA1 分解代謝的絲氨酸(蘇氨酸)脫水酶CPA2 氨基甲酰磷酸鹽合成酶YERi 50wYJR070cHST3 sir2的同系物GZF3 與dal80同源的GATA鋅指蛋白3SpS100 孢子形成-特異性的壁成熟蛋白SW14 轉(zhuǎn)錄因子MFA2 交配的α信息素前體SAPiSS 155 Da sit4蛋白磷酸酶-相關(guān)蛋白TKL2 轉(zhuǎn)酮醇酶,與tkll同源YER07 3wTJL107cSEDi推定的細(xì)胞表面糖蛋白TKL071wYBR105eFAT2脂肪酸轉(zhuǎn)運(yùn)蛋白,非常類似于fat1HXT10 高親和力的己糖轉(zhuǎn)運(yùn)蛋白CCT7含有t-復(fù)合亞單位7的伴侶蛋白SVS1釩酸鹽抗性BUD7發(fā)芽位點(diǎn)選擇(bud site selection)YER064cPIG2與對(duì)應(yīng)于yer054蛋白質(zhì)具有30%的同一性;與gsy2p相互作用YJL181wBAR1在a因子上的a-細(xì)胞屏障活性MPT5COX6細(xì)胞色素C氧化酶的亞單位viFOX2過氧化物酶的多功能β-氧化蛋白甘氨酸脫羧酶復(fù)合物GCV2(P-亞單位),甘氨酸合成酶(P-亞單位),甘氨酸切割系統(tǒng)(P-亞單位)MIR1線粒體輸入蛋白受體(p32);還純化為線粒體磷酸鹽轉(zhuǎn)運(yùn)蛋白YBR147wPH03酸磷酸酶,結(jié)構(gòu)型的JL212cRPL12A 核糖體蛋白rp115(y115)(大腸桿菌111)(rat 1 12b)YJL017wSHA1Hsp90 (九十)關(guān)聯(lián) 共-伴侶NIF3YHR140wYJR1 05wYDR4 52wFET4 低親和力的鐵(ⅱ)轉(zhuǎn)運(yùn)蛋白;推定的轉(zhuǎn)膜低親和力鐵(ⅱ)轉(zhuǎn)運(yùn)蛋白HXT2 高親和力己糖轉(zhuǎn)運(yùn)蛋白-2PCL1 與pho85相連的G(sub)1細(xì)胞周期蛋白HOM3 天冬氨酸激酶TRP2 (鄰)氨基苯甲酸鹽合成酶組分ISKI3 含有8個(gè)拷貝的tpr結(jié)構(gòu)域;抗病毒蛋白PH084無機(jī)磷酸鹽轉(zhuǎn)運(yùn)蛋白,轉(zhuǎn)膜蛋白PPQ1 蛋白磷酸化酶q;可能在翻譯調(diào)節(jié)中起作用YER072wUTR2SBH1 同源于sbh2pYER096wILV3 二氫酸脫氫酶YKL078wSKT5 原生質(zhì)體再生及致死毒素抗性基因,可能是幾丁質(zhì)合成酶?;钚哉{(diào)控的翻譯后調(diào)控劑,與chs3p相互作用YKL187cTDH1 甘油醛-3-磷酸鹽脫氫酶1YJR096wHIS4 組氨酸生物合成-3酶alpha2 存在于單倍體細(xì)胞內(nèi),與mcml作用阻抑a-特異基因。二倍體細(xì)胞中與al作用阻抑單倍體特異性基因。SER1 磷酸絲氨酸轉(zhuǎn)氨酶SIR2 沉默交配座位的調(diào)節(jié)劑OYE3 Nad(p)h脫氫酶;old yellow enzymeFIG1膜內(nèi)在蛋白質(zhì)TRP1n-(5’-磷酸核糖)-(鄰)氨基苯甲酸鹽異構(gòu)酶CHS6參與幾丁質(zhì)生物合成以及/或者其調(diào)控CDC8胸苷酸激酶MRS6Rab香葉基轉(zhuǎn)移酶香葉基轉(zhuǎn)移酶可以看出,無論功能如何該子集包括了大量具有全異功能的基因。
對(duì)數(shù)據(jù)庫中每個(gè)基因表達(dá)譜與存在10μg/ml洛伐他汀時(shí)產(chǎn)生的基因表達(dá)譜之間的相關(guān)程度進(jìn)行對(duì)偶定量,基本上按照?qǐng)D1A、1B和6所示方法來進(jìn)行,只使用來自表9中列出的96個(gè)基因的表達(dá)數(shù)據(jù)。然后對(duì)對(duì)偶相關(guān)對(duì)偶的測量結(jié)果排序,結(jié)果如下表10次序 處理 相對(duì)譜分值(藥物濃度μg/ml)010洛伐他汀溶于1%乙醇100(標(biāo)準(zhǔn)或參照條件;實(shí)驗(yàn)1538)15洛伐他汀溶于1%乙醇 92220米法斯丁溶于1%乙醇92320洛伐他汀溶于1%乙醇89410西伐他汀溶于1%乙醇8454氟伐他汀8362氟伐他汀8075西伐他汀in 1%乙醇 79810米法斯丁溶于1%乙醇79915西伐他汀溶于1.5%乙醇 7910 5米法斯丁溶于1%乙醇 7911 20 Atorvastatin溶于1%乙醇 7612 15 Atorvastatin溶于1%乙醇 6313 0.015氯苯甲氧咪唑溶于1%甲醇 6214 0.15氯三苯甲咪唑溶于1%甲醇 61
150.125 Clotrimazole溶于1%甲醇591650硝苯地平溶于1%DMSO58170.02氯苯甲氧咪唑溶于1%甲醇 58180.03氯苯甲氧咪唑溶于1%甲醇 55191氟康唑溶于0.09 mg/ml NaCl 54200.1氯三苯甲咪唑溶于1%甲醇 512140硝苯地平溶于1%DMSO46221衣霉素溶于1%DMSO 44231.5衣霉素溶于1%DMSO 42242衣霉素溶于1%DMSO 4125100鹽酸溶于 401%DMSO262環(huán)己吡酮乙醇胺 40表10證實(shí)了可以選擇基因信息子集來實(shí)現(xiàn)對(duì)基因表達(dá)譜的定量分析。表8給出的分析中使用了來自1532個(gè)可獲得基因的數(shù)據(jù),表10中列出的分析只使用了表9中列出的96個(gè)基因,該分析鑒定出HMG-CoA還原酶藥物與洛伐他汀最相關(guān),相關(guān)程度次之的是作用在同一生物合成途徑其他部位的藥物,而在目標(biāo)和效果上毫不相關(guān)的藥物表現(xiàn)出幾乎不相關(guān)。
盡管這種說明是通過從上述1532個(gè)基因中選出的96個(gè)基因?qū)嵤┑?,這些基因的表達(dá)數(shù)據(jù)可從數(shù)據(jù)庫中獲得,但是該信息子集的鑒定可確保從只用于鑒定報(bào)道物的數(shù)據(jù)中實(shí)現(xiàn)信息基因表達(dá)數(shù)據(jù)的后續(xù)且預(yù)期的獲得,而且可以保證這樣獲得數(shù)據(jù)使得可以定量分析基因表達(dá)譜。
本發(fā)明提及的所有專利、專利公開文本以及其他公開的文獻(xiàn)在此引入僅作參考,如同每一文獻(xiàn)都是通過本發(fā)明引用而單獨(dú)并特別地引入。
盡管本發(fā)明對(duì)優(yōu)選的說明性實(shí)施方案進(jìn)行了描述,但是顯而易見的是本領(lǐng)域技術(shù)人員可以作出不脫離本發(fā)明范圍的各種變動(dòng)和改進(jìn),本發(fā)明所附權(quán)利要求的目的就是為了完全覆蓋所有這些落入本發(fā)明實(shí)質(zhì)和范圍之內(nèi)的變動(dòng)和改進(jìn)。
權(quán)利要求
1.一種對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的方法,該方法包括下述步驟(a)為所述第一和第二基因表達(dá)譜中共有的每個(gè)基因建立一個(gè)第一和第二基因表達(dá)信號(hào);(b)為每對(duì)第一和第二基因表達(dá)信號(hào)用公式表示出一個(gè)相對(duì)的表達(dá)數(shù)值;以及(c)從所述對(duì)偶的相對(duì)表達(dá)數(shù)值中計(jì)算出一個(gè)復(fù)合分值,其中所述的復(fù)合分值可定量所述兩基因表達(dá)譜的相關(guān)程度。
2.權(quán)利要求1中的方法,其中所述的基因表達(dá)信號(hào)建立步驟包括下述步驟(a1)將從每個(gè)所述基因獲得的初始表達(dá)信號(hào)的大小與從其各自基因表達(dá)譜獲得的初始背景信號(hào)的大小進(jìn)行比較;以及(a2)對(duì)每一所述小于各自對(duì)應(yīng)初始背景信號(hào)的初始表達(dá)信號(hào)的大小進(jìn)行調(diào)整。
3.權(quán)利要求2中的方法,其中所述的基因表達(dá)信號(hào)建立步驟進(jìn)一步還包括下述一后續(xù)步驟(a3)將所述的初始表達(dá)信號(hào)和所述調(diào)整后的初始表達(dá)信號(hào)的大小針對(duì)對(duì)應(yīng)各自基因表達(dá)譜的所有所述信號(hào)進(jìn)行標(biāo)準(zhǔn)化。
4.權(quán)利要求3中的方法,其中所述的基因表達(dá)信號(hào)建立步驟進(jìn)一步還包括下述一后續(xù)步驟(a4)將所述標(biāo)準(zhǔn)化后的信號(hào)的對(duì)數(shù)指定為每一所述基因表達(dá)信號(hào)的數(shù)值。
5.權(quán)利要求4中的方法,其中所述的基因表達(dá)信號(hào)建立步驟進(jìn)一步還包括下述一后續(xù)步驟(a5)對(duì)于每一所述標(biāo)準(zhǔn)化后的對(duì)數(shù)信號(hào)而言,從條件-匹配的對(duì)照中減去同樣處理后的基因表達(dá)信號(hào)作為每個(gè)基因獲得的信號(hào)。
6.權(quán)利要求1中的方法,其中所述的相對(duì)表達(dá)數(shù)值公式化步驟包括下述步驟(b1)計(jì)算出每對(duì)所述第一及第二基因表達(dá)信號(hào)之間的比值;(b2)從進(jìn)一步處理中消去每一所述計(jì)算得到的比值,為此所述較早的背景信號(hào)調(diào)整及標(biāo)準(zhǔn)化步驟可能會(huì)改變?cè)摫戎档姆较颉?br>
7.權(quán)利要求6中的方法,其中所述的相對(duì)表達(dá)數(shù)值公式化步驟進(jìn)一步還包括下述的后續(xù)步驟(b3)將所述計(jì)算得到的比值絕對(duì)數(shù)值大小與恒定閾值的大小進(jìn)行比較;以及(b4)從對(duì)每一所述計(jì)算得到的比值的進(jìn)一步處理中消去未超過所述恒定閾值的絕對(duì)數(shù)值。
8.權(quán)利要求7中的方法,其中所述的相對(duì)表達(dá)數(shù)值公式化步驟進(jìn)一步還包括下述的后續(xù)步驟(b5)將每一所述相對(duì)表達(dá)數(shù)值針對(duì)于該表達(dá)數(shù)值的基因觀察到的歷史最大表達(dá)信號(hào)單個(gè)地進(jìn)行標(biāo)準(zhǔn)化。
9.權(quán)利要求6中的方法,其中所述的相對(duì)表達(dá)數(shù)值公式化步驟進(jìn)一步還包括下述的后續(xù)步驟(b3)將每一所述相對(duì)表達(dá)數(shù)值針對(duì)于該表達(dá)數(shù)值的基因觀察到的歷史最大表達(dá)信號(hào)單個(gè)地進(jìn)行標(biāo)準(zhǔn)化。
10.權(quán)利要求1-9中任一項(xiàng)所述的方法,其中所述的復(fù)合分值計(jì)算步驟包括下述步驟(c1)將此前未消去的所有所述相對(duì)表達(dá)數(shù)值累積;以及(c2)調(diào)整預(yù)先消除的基因的百分比。
11.一種對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的方法,該方法包括下述步驟(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào);(b)對(duì)共有基因的對(duì)偶的第一和第二基因表達(dá)信號(hào)進(jìn)行線性回歸;其中所述的這種回歸的相關(guān)系數(shù)可定量這兩基因表達(dá)譜的相關(guān)程度。
12.權(quán)利要求11中的方法,其中所述的基因表達(dá)信號(hào)建立步驟包括下述步驟(a1)將從每個(gè)所述基因獲得的初始表達(dá)信號(hào)的大小與從其各自基因表達(dá)譜獲得的初始背景信號(hào)的大小進(jìn)行比較;以及(a2)對(duì)小于各有對(duì)應(yīng)初始背景信號(hào)的所述初始表達(dá)信號(hào)的大小進(jìn)行調(diào)整。
13.權(quán)利要求12中的方法,其中所述的基因表達(dá)信號(hào)建立步驟進(jìn)一步還包括下述一后續(xù)步驟(a3)將所述初始表達(dá)信號(hào)和所述調(diào)整后的初始表達(dá)信號(hào)的大小針對(duì)對(duì)應(yīng)各自基因表達(dá)譜的所有信號(hào)進(jìn)行標(biāo)準(zhǔn)化。
14.權(quán)利要求13中的方法,其中所述的基因表達(dá)信號(hào)建立步驟進(jìn)一步還包括下述一后續(xù)步驟(a4)將所述標(biāo)準(zhǔn)化后的信號(hào)的對(duì)數(shù)指定為每一所述基因表達(dá)信號(hào)的數(shù)值。
15.權(quán)利要求14中的方法,其中所述的基因表達(dá)信號(hào)建立步驟進(jìn)一步還包括下述一后續(xù)步驟(a5)對(duì)于每一所述標(biāo)準(zhǔn)化后的對(duì)數(shù)信號(hào)而言,從條件-匹配的對(duì)照中減去同樣處理后的基因表達(dá)信號(hào)作為每個(gè)基因獲得的信號(hào)。
16.權(quán)利要求11中的方法,其中所述的第一及第二基因表達(dá)信號(hào)包括大小小于2個(gè)自然對(duì)數(shù)的信號(hào)。
17.權(quán)利要求16中的方法,其中所述的第一及第二基因表達(dá)信號(hào)包括大小小于1個(gè)自然對(duì)數(shù)的信號(hào)。
18.一種對(duì)多個(gè)基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜相關(guān)程度進(jìn)行排序的方法,該方法包括下述步驟(a)對(duì)偶地定量上述多個(gè)基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及(b)對(duì)所述的對(duì)偶測量的定量數(shù)值進(jìn)行排序。
19.一種對(duì)施加在細(xì)胞上的第一和第二環(huán)境條件的相關(guān)程度進(jìn)行定量的方法,該方法包括下述步驟(a)在所述的每一種第一和第二環(huán)境條件下,從細(xì)胞或者從基因型相同的細(xì)胞中獲得一種基因表達(dá)譜;以及(b)對(duì)所述第一和第二基因表達(dá)譜的相關(guān)程度進(jìn)行定量。
20.權(quán)利要求19中的方法,其中所述對(duì)基因表達(dá)譜的相關(guān)程度進(jìn)行定量的步驟是按照權(quán)利要求1-9任一項(xiàng)中所述方法進(jìn)行的。
21.權(quán)利要求19中的方法,其中所述對(duì)基因表達(dá)譜的相關(guān)程度進(jìn)行定量的步驟是按照權(quán)利要求11-17任一項(xiàng)中所述方法進(jìn)行的。
22.權(quán)利要求19中的方法,其中所述的第一和第二環(huán)境條件包括將所述細(xì)胞暴露于第一和第二化合物。
23.一種對(duì)作用于一細(xì)胞的多種環(huán)境條件和單個(gè)預(yù)選環(huán)境條件的相關(guān)程度進(jìn)行排序的方法,所述方法包括下述步驟(a)從該細(xì)胞或者從基因型相同的細(xì)胞中獲得針對(duì)于所述多種環(huán)境條件中每一種和預(yù)選環(huán)境條件的基因表達(dá)譜;(b)對(duì)偶地定量上述多種基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及然后(c)對(duì)所述的對(duì)偶測量的定量數(shù)值進(jìn)行排序。
24.權(quán)利要求23中的方法,其中所述的定量基因表達(dá)譜相關(guān)程度的步驟是按照權(quán)利要求1中所述的方法進(jìn)行的。
25.權(quán)利要求23中的方法,其中所述的定量基因表達(dá)譜相關(guān)程度的步驟是按照權(quán)利要求11中所述的方法進(jìn)行的。
26.權(quán)利要求23中的方法,其中所述的環(huán)境條件包括將細(xì)胞暴露于一化合物。
27.一種對(duì)一預(yù)選環(huán)境條件與細(xì)胞的一種特定遺傳突變間相關(guān)程度定量的方法,該方法包括下述步驟(a)在預(yù)選的環(huán)境條件下,從具有所述特定突變的細(xì)胞中獲得第一基因表達(dá)譜以及從一野生型細(xì)胞中獲得第二基因表達(dá)譜;以及(b)對(duì)所述第一和第二基因表達(dá)譜的相關(guān)程度定量。
28.權(quán)利要求27中的方法,其中所述的定量基因表達(dá)譜相關(guān)程度的步驟是按照權(quán)利要求1中所述的方法進(jìn)行的。
29.權(quán)利要求27中的方法,其中所述的定量基因表達(dá)譜相關(guān)程度的步驟是按照權(quán)利要求11中所述的方法進(jìn)行的。
30.權(quán)利要求27中的方法,其中所述的環(huán)境條件包括將細(xì)胞暴露于一化合物。
31.一種將多種環(huán)境條件中每一種與細(xì)胞的某一特定遺傳突變間相關(guān)程度進(jìn)行排序的方法,該方法包括下述步驟(a)在上述的每一種環(huán)境條件下從野生型細(xì)胞中獲得第一基因表達(dá)譜,以及從具有特定突變的細(xì)胞中獲得第二基因表達(dá)譜;(b)對(duì)偶地定量每個(gè)上述第一基因表達(dá)譜與所述第二基因表達(dá)譜間的相關(guān)程度;以及然后(c)將所述的對(duì)偶測量的定量數(shù)值進(jìn)行排序。
32.權(quán)利要求31中的方法,其中所述的定量基因表達(dá)譜相關(guān)程度的步驟是按照權(quán)利要求1中所述的方法進(jìn)行的。
33.權(quán)利要求31中的方法,其中所述的定量基因表達(dá)譜相關(guān)程度的步驟是按照權(quán)利要求11中所述的方法進(jìn)行的。
34.權(quán)利要求31中的方法,其中所述的環(huán)境條件包括將細(xì)胞暴露于一化合物。
35.一種對(duì)一細(xì)胞的第一遺傳突變與一細(xì)胞的第二遺傳突變間相關(guān)程度進(jìn)行定量的方法,該方法包括下述步驟(a)從具有所述第一種遺傳突變的細(xì)胞中獲得第一基因表達(dá)譜,以及從具有所述第二種遺傳突變的細(xì)胞中獲得第二基因表達(dá)譜;以及(b)對(duì)所述第一和第二基因表達(dá)譜的相關(guān)程度定量。
36.權(quán)利要求35中的方法,其中所述的定量基因表達(dá)譜相關(guān)程度的步驟是按照權(quán)利要求1中所述的方法進(jìn)行的。
37.權(quán)利要求35中的方法,其中所述的定量基因表達(dá)譜相關(guān)程度的步驟是按照權(quán)利要求11中所述的方法進(jìn)行的。
38.一種對(duì)多種遺傳突變中每一個(gè)與一細(xì)胞的預(yù)選遺傳突變間的相關(guān)程度進(jìn)行排序的方法,該方法包括下述步驟(a)從具有所述多種遺傳突變其中之一的細(xì)胞中獲得一套第一基因表達(dá)譜,以及從具有所述第二種遺傳突變的細(xì)胞中獲得第二基因表達(dá)譜;(b)對(duì)所述每個(gè)第一基因表達(dá)譜與第二基因表達(dá)譜的相關(guān)程度進(jìn)行定量;以及(c)將所述的對(duì)偶測量的定量數(shù)值排序。
39.一種對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的系統(tǒng),該系統(tǒng)包括(a)用來為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立第一和第二基因表達(dá)信號(hào)的儀器;(b)用來為每對(duì)第一和第二基因表達(dá)譜用公式表示出一個(gè)相對(duì)的表達(dá)數(shù)值所使用的儀器;以及(c)用來從對(duì)偶設(shè)立的相對(duì)表達(dá)數(shù)值中計(jì)算出一個(gè)復(fù)合分值所使用的儀器,其中所述的復(fù)合分值可定量所述兩基因表達(dá)譜的相關(guān)程度。
40.一種用于定量第一和第二基因表達(dá)譜相關(guān)程度的系統(tǒng),其中色括(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào)所使用的儀器;(b)對(duì)共有基因的對(duì)偶的第一和第二基因表達(dá)信號(hào)進(jìn)行線性分析所使用的儀器;其中所述的這種回歸分析的相關(guān)系數(shù)可定量這兩基因表達(dá)譜的相關(guān)程度。
41.一種用來將多種基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜間的相關(guān)程度排序使用的系統(tǒng),其中包括(a)對(duì)上述多種基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度進(jìn)行對(duì)偶定量所使用的儀器;以及(b)將所述的對(duì)偶測量的定量數(shù)值排序所使用的儀器。
42.一種用于定量第一和第二基因表達(dá)譜間相關(guān)程度的電腦系統(tǒng),其中包括一處理器,所述處理器用來執(zhí)行下述程序(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào);(b)為每對(duì)第一和第二基因表達(dá)譜用公式表示出一個(gè)相對(duì)的表達(dá)數(shù)值;以及(c)從這些對(duì)偶設(shè)立的相對(duì)表達(dá)數(shù)值中計(jì)算出一個(gè)復(fù)合分值,其中所述的復(fù)合分值可定量所述兩基因表達(dá)譜的相關(guān)程度。
43.一種用于定量第一和第二基因表達(dá)譜間相關(guān)程度的電腦系統(tǒng),其中包括一處理器,該處理器用來執(zhí)行下述程序(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào);(b)對(duì)共有基因的對(duì)偶的第一和第二基因表達(dá)信號(hào)進(jìn)行線性回歸;其中所述回歸分析的相關(guān)系數(shù)可定量這兩基因表達(dá)譜的相關(guān)程度。
44.一種用于將對(duì)多種基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜間相關(guān)程度進(jìn)行排序的電腦系統(tǒng),其中包括一處理器,該處理器用來執(zhí)行下述程序(a)對(duì)偶地定量上述多個(gè)基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及(b)將所述對(duì)偶測量的定量數(shù)值排序。
45.一種存儲(chǔ)有指令的電腦可讀存儲(chǔ)介質(zhì),當(dāng)通過電腦執(zhí)行時(shí),可以使得該電腦執(zhí)行一種對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的方法,該方法包括下述步驟(a)為所述第一和第二基因表達(dá)譜中共有的每個(gè)基因建立一個(gè)第一和第二基因表達(dá)信號(hào);(b)為每對(duì)第一和第二基因表達(dá)譜用公式表示出一個(gè)相對(duì)的表達(dá)數(shù)值;以及(c)從所述對(duì)偶的相對(duì)表達(dá)數(shù)值中計(jì)算出一個(gè)復(fù)合分值,其中所述的復(fù)合分值可定量所述兩基因表達(dá)譜的相關(guān)程度。
46.一種存儲(chǔ)有指令的電腦可讀存儲(chǔ)介質(zhì),當(dāng)通過電腦執(zhí)行時(shí),可以使得該電腦執(zhí)行一種對(duì)第一和第二基因表達(dá)譜之間相關(guān)程度進(jìn)行定量的方法,該方法包括下述步驟(a)為第一和第二基因表達(dá)譜中共有的每個(gè)基因分別建立一個(gè)第一和第二基因表達(dá)信號(hào);(b)對(duì)共有基因的對(duì)偶的第一和第二基因表達(dá)信號(hào)進(jìn)行線性回歸;其中所述的這種回歸的相關(guān)系數(shù)可定量這兩基因表達(dá)譜的相關(guān)程度。
47.一種存儲(chǔ)有指令的電腦可讀存儲(chǔ)介質(zhì),當(dāng)通過電腦執(zhí)行時(shí),可以使得該電腦執(zhí)行一種將多個(gè)基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜相關(guān)程度進(jìn)行排序的方法,該方法包括下述步驟(a)對(duì)偶地定量上述多種基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及(b)對(duì)所述的對(duì)偶測量的定量數(shù)值進(jìn)行排序。
48.一種電腦可讀存儲(chǔ)介質(zhì),其中包括能使將第一和第二基因表達(dá)譜定量聯(lián)系的存儲(chǔ)數(shù)據(jù)成形的數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包括一針對(duì)每一表達(dá)譜的標(biāo)識(shí)符和一個(gè)標(biāo)量,該標(biāo)量可將第一和第二基因表達(dá)譜定量地聯(lián)系起來。
49.一種包括數(shù)據(jù)結(jié)構(gòu)的電腦可讀存儲(chǔ)介質(zhì),該數(shù)據(jù)結(jié)構(gòu)能使將多種基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜間相關(guān)程度排序的存儲(chǔ)數(shù)據(jù)成形,其中包括(a)順序排列的一系列標(biāo)量,每個(gè)標(biāo)量對(duì)偶地定量了上述多種基因表達(dá)譜中每一個(gè)與所述預(yù)選基因表達(dá)譜間的相關(guān)程度;以及(b)將每個(gè)標(biāo)量與其各自所對(duì)應(yīng)的基因表達(dá)譜聯(lián)系起來的標(biāo)識(shí)符。
50.一種篩選用于表達(dá)分析的基因信息子集的方法,該方法包括從表達(dá)相互關(guān)聯(lián)的每組基因中選擇出具有最大表達(dá)范圍的基因。
51.權(quán)利要求50中的方法,所述選擇是從多種基因表達(dá)譜中共有的成套基因中完成的。
52.權(quán)利要求50中的方法,所述的每一限度以及每一相互關(guān)聯(lián)都是從多種基因表達(dá)譜中的表達(dá)數(shù)據(jù)計(jì)算而來的。
53.權(quán)利要求52中的方法,其中所述的篩選步驟包括下述分步驟(a)將所述多種基因表達(dá)譜中共有的成套基因,按照表達(dá)程度由最大到最小排序;以及然后(b)從所述多種基因表達(dá)譜中表達(dá)上相互關(guān)聯(lián)的每組基因中選擇出具有最大表達(dá)限度的基因。
55.權(quán)利要求53中的方法,其中所述的選擇分步驟包括連續(xù)的重復(fù)(b1)為所述子集選擇第一基因,該基因保留在還未經(jīng)選擇的順序集中;(b2)從所述多種基因表達(dá)譜中,計(jì)算所述順序集中每一基因表達(dá)與所選基因表達(dá)的相關(guān)程度。(b3)從所述順序集中去除所有相關(guān)程度超過閾值的基因。
56.權(quán)利要求53中的方法,其中所述的排序步驟進(jìn)一步還包括下述前導(dǎo)步驟除去所有范圍小于閾值的基因。
57.一種篩選用于表達(dá)分析的基因信息子集的系統(tǒng),該系統(tǒng)包括從表達(dá)相關(guān)的每組基因中選擇出具有最大表達(dá)限度基因所使用的儀器。
58.一種篩選用于表達(dá)分析的基因信息子集的電腦系統(tǒng),該系統(tǒng)包括一用于執(zhí)行下述操作的處理器從表達(dá)相關(guān)的每組基因中選擇出具有最大表達(dá)限度的基因。
59.一種存儲(chǔ)有指令的電腦可讀存儲(chǔ)介質(zhì),當(dāng)通過電腦執(zhí)行時(shí),該指令可以使得該電腦執(zhí)行一種篩選用于表達(dá)分析的基因信息子集的方法,該方法包括從表達(dá)相關(guān)的每組基因中選擇出具有最大表達(dá)限度的基因。
60.一種包含數(shù)據(jù)結(jié)構(gòu)的電腦可讀存儲(chǔ)介質(zhì),該數(shù)據(jù)結(jié)構(gòu)能使代表用于表達(dá)分析的基因信息子集成形,所述數(shù)據(jù)結(jié)構(gòu)包括一套基因標(biāo)識(shí)符,任選地包括一種基因功能的描述。
61.一種細(xì)胞表型的方法,該方法包括選擇不超過20%的細(xì)胞可表達(dá)基因用于表達(dá)分析;其中所述基因的并行表達(dá)可以充分定義細(xì)胞表型,從而將該細(xì)胞表型與另一細(xì)胞的表型定量聯(lián)系起來。
62.權(quán)利要求61中的方法,其中選擇的所述細(xì)胞可表達(dá)基因不超過10%。
63.權(quán)利要求62中的方法,其中選擇的所述細(xì)胞可表達(dá)基因不超過5%。
64.權(quán)利要求63中的方法,其中選擇的所述細(xì)胞可表達(dá)基因不超過2%。
65.權(quán)利要求64中的方法,其中選擇的所述細(xì)胞可表達(dá)基因不超過1%。
全文摘要
本發(fā)明提供了用于定量第一和第二基因表達(dá)譜相關(guān)程度的方法,以及用于對(duì)多個(gè)基因表達(dá)譜與一單個(gè)預(yù)選基因表達(dá)譜相關(guān)程度進(jìn)行排序的方法。本發(fā)明表明這些方法可以用于定量施加于細(xì)胞上的環(huán)境條件的相關(guān)程度,例如施加給細(xì)胞的藥物效果的相關(guān)程度。這些方法還可用于定量一預(yù)選環(huán)境條件與細(xì)胞特定遺傳突變間的相關(guān)程度,以及用于定量多種遺傳突變間的相關(guān)程度。另外,本發(fā)明還提供了用于執(zhí)行上述方法的系統(tǒng)和設(shè)備。本發(fā)明進(jìn)一步還提供了篩選用于基因表達(dá)分析的基因信息子集的定量化的方法、系統(tǒng)及設(shè)備。
文檔編號(hào)C12N15/09GK1309722SQ9980855
公開日2001年8月22日 申請(qǐng)日期1999年5月11日 優(yōu)先權(quán)日1998年5月12日
發(fā)明者S·舍雷爾 申請(qǐng)人:羅斯塔英法美蒂克斯公司