專利名稱:RNAi潛能的預(yù)測方法
技術(shù)領(lǐng)域:
自從Elbashir等證明了合成的小干擾RNA(siRNA)通過RNA干擾(RNAi)機(jī)制介導(dǎo)哺乳動(dòng)物細(xì)胞中特異mRNA下調(diào)的能力[見例如Elbashir等,Nature,第411卷,第494-498頁(2001);和Caplen等,PNAS,第98卷,第17期,第9742-9747頁(2001)],該技術(shù)已經(jīng)日益用作一種研究工具以通過研究特定基因特異下調(diào)所誘導(dǎo)的表型來研究基因功能。具體而言,由于以siRNA或RNA干擾類型試劑的方式進(jìn)行的基因沉默實(shí)驗(yàn)僅僅需要知道靶基因的部分核苷酸序列,可以預(yù)計(jì)一旦已知特定生物的基因組就能夠設(shè)計(jì)針對(duì)每一基因的RNAi實(shí)驗(yàn)和篩選與例如治療靶點(diǎn)發(fā)現(xiàn)相關(guān)的表型。該基因組范圍的方法指定了用于RNAi試劑設(shè)計(jì)的規(guī)范。的確,避免非靶標(biāo)沉默的特異性參數(shù)變得特別重要。同樣,單個(gè)siRNA潛能的特征不再是可以預(yù)期的。因此,需要有效的預(yù)測算法以便應(yīng)用于RNA基因沉默實(shí)驗(yàn)以進(jìn)行基因組范圍的表型篩選。
已經(jīng)表明,與反義相似,靶標(biāo)的可接近性在siRNA潛能中起著重要作用。見Kretschmer-Kazemi等,Nucleic Acids Res.,第31卷,第15期,第4417-4424頁(2003)。最近,另一項(xiàng)研究[見Anastasia Khvorova,Cell,第115卷,第209-216頁(2003)]顯示,在激發(fā)siRNA和miRNA潛能中有一些序列需求,例如在反義鏈的5’以及在反義鏈區(qū)域9-14中dsRNA具有顯著低的內(nèi)部穩(wěn)定性。這些發(fā)現(xiàn)是通過對(duì)siRNA潛能和雙鏈體內(nèi)部熱動(dòng)力學(xué)穩(wěn)定性之間的相互關(guān)系進(jìn)行統(tǒng)計(jì)學(xué)分析得到的。該研究基于針對(duì)3個(gè)不同靶標(biāo)的375個(gè)隨機(jī)選擇siRNA的siRNA潛能。
考慮到RNAi機(jī)制沒有完全被表征以及許多額外參數(shù)會(huì)影響siRNA潛能的這種事實(shí),獲得更大的功能數(shù)據(jù)集以便更好地理解序列-活性相互關(guān)系是有益的。
發(fā)明概述在一個(gè)方面,本發(fā)明涉及產(chǎn)生用于預(yù)測RNAi試劑的RNAi潛能的算法的方法,其包括a)實(shí)驗(yàn)確定多個(gè)RNAi試劑下調(diào)報(bào)道基因蛋白質(zhì)讀數(shù)(readout)的潛能;和b)使用所述潛能數(shù)據(jù)集訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)。
在另一個(gè)方面,本發(fā)明涉及通過本發(fā)明的方法所得到的算法。
在另一個(gè)方面,本發(fā)明涉及用于預(yù)測RNAi試劑的RNAi潛能的方法,其包括a)提供多個(gè)包含與給定靶基因互補(bǔ)的區(qū)域的RNAi試劑序列;b)將根據(jù)本發(fā)明所訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于所述RNAi試劑序列;和c)選擇經(jīng)預(yù)測有效的RNAi試劑序列。
在另一方面,本發(fā)明涉及抑制給定靶基因表達(dá)的方法,其包括a)提供多個(gè)包含與給定靶基因互補(bǔ)的區(qū)域的RNAi試劑序列;b)將根據(jù)本發(fā)明所訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于所述RNAi試劑序列;c)選擇經(jīng)預(yù)測有效的RNAi試劑序列;d)合成在c)中所選擇的RNAi試劑;e)將表達(dá)靶基因的細(xì)胞暴露于d)的RNAi試劑;和f)測量RNAi試劑的活性或者測量通過下調(diào)靶基因所誘導(dǎo)的其它表型。
附圖簡述
圖1歸一化數(shù)據(jù)集實(shí)例。將靶向YFP mRNA 3’-UTR插入序列的79個(gè)siRNA與報(bào)道基因融合mRNA共轉(zhuǎn)染(H1299,50nM,在50小時(shí)讀數(shù))?;疑前邢?’-UTR的siRNA,黑色柱為陽性對(duì)照和陰性對(duì)照。將陰性對(duì)照任意設(shè)定成具有10%潛能并且將陽性對(duì)照設(shè)定成具有90%潛能。每個(gè)siRNA的潛能按照這些對(duì)照進(jìn)行歸一化。
圖2圖解說明篩選數(shù)據(jù)的過濾。
圖3訓(xùn)練集的預(yù)測值與篩選測量值之間的比較。
圖4檢驗(yàn)集的預(yù)測值與篩選測量值之間的比較。
圖5預(yù)測-測量相關(guān)性(關(guān)于檢驗(yàn)集)對(duì)訓(xùn)練集大小的依賴性。
發(fā)明詳述文中引用的全部專利申請(qǐng)、專利和參考文獻(xiàn)在此整體引用作為參考。
如文中所使用,術(shù)語“RNAi試劑”和“寡核糖核苷酸”可互換使用并且意思是指核糖核酸(RNA)或脫氧核糖核酸(DNA)或其模擬物的寡聚體或多聚體。RNAi試劑還可以包含修飾的核糖核苷酸殘基。適宜的修飾是本領(lǐng)域已知的。見例如Uhlmann,Current Opin.Drug Discovery Dev.,第3卷,第2期,第203-213頁(2000);以及Uhlmann和Peyman,Chem.Rev.,Washington,DC,第90卷,第4期,第543-584頁(1990)。術(shù)語RNAi試劑包括單鏈和雙鏈核酸分子。雙鏈核酸分子可以由兩條獨(dú)立鏈組成或者由這樣的一條鏈組成,其中所述的一條鏈包含能夠形成雙鏈結(jié)構(gòu)的兩個(gè)區(qū)域和形成發(fā)夾環(huán)的兩個(gè)區(qū)域間的間隔區(qū)。在RNAi情況下,RNAi試劑優(yōu)選為雙鏈結(jié)構(gòu)并包含與靶基因互補(bǔ)的序列,無論如何,本發(fā)明不限制于雙鏈結(jié)構(gòu)并且還包括能夠誘導(dǎo)RNAi的單鏈RNAi試劑。見Schwarz等,Mol.Cell,第10卷,第3期,第537-548頁(2002)。
在第一個(gè)方面,本發(fā)明提供產(chǎn)生用于預(yù)測RNAi試劑的RNAi潛能的算法的方法,其包括a)實(shí)驗(yàn)確定多個(gè)RNAi試劑下調(diào)報(bào)道基因蛋白質(zhì)讀數(shù)的潛能;和
b)使用所述潛能數(shù)據(jù)集訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)。
在一個(gè)實(shí)施方案中,產(chǎn)生用于預(yù)測RNAi試劑的RNAi潛能的算法的方法包括步驟a)實(shí)驗(yàn)確定包含與至少一個(gè)靶基因互補(bǔ)的序列的多個(gè)RNAi試劑的RNAi潛能;b)用a)中實(shí)驗(yàn)確定的RNAi潛能產(chǎn)生所述RNAi試劑潛能的數(shù)據(jù)集,其中盡管所述數(shù)據(jù)集是從不同靶標(biāo)(報(bào)道基因融合-mRNA)獲得的,但是它們具有能夠通過報(bào)道基因特異陽性對(duì)照和陰性對(duì)照進(jìn)行歸一化的標(biāo)準(zhǔn)蛋白質(zhì)讀數(shù);和c)使用所述讀數(shù)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)。
在本發(fā)明的上下文中,術(shù)語算法意思是指一組方程和一組規(guī)則,它們能夠自動(dòng)應(yīng)用于數(shù)據(jù)并且能夠作為計(jì)算機(jī)可執(zhí)行代碼實(shí)現(xiàn)。
“RNAi潛能”或“潛能”是本領(lǐng)域的術(shù)語并且意思是指特定siRNA一旦在細(xì)胞測定中轉(zhuǎn)染其可以下調(diào)特定蛋白質(zhì)或mRNA的相對(duì)能力。一般地,通過測量靶mRNA或蛋白質(zhì)表達(dá)水平確定siRNA的潛能并且通常表示為陰性對(duì)照的百分?jǐn)?shù)。因此,高潛能意思是指RNAi試劑能夠有效地抑制(即降低)靶基因的表達(dá),而低潛能意思是指靶基因的表達(dá)不被抑制或僅受到很小抑制。與陰性對(duì)照相比,有效RNAi試劑抑制靶基因的表達(dá)大于50%,優(yōu)選大于60%、大于70%、大于80%,最優(yōu)選大于90%。
本發(fā)明的RNAi試劑是適宜用于RNAi實(shí)驗(yàn)的RNAi試劑。適宜RNAi的各種類型RNAi試劑是本領(lǐng)域已知的。見Dykxhoorn等,Nature Rev.,第4卷,第457-467頁(2003)。此種RNAi試劑包含與靶基因互補(bǔ)的序列。在本發(fā)明上下文中,與靶基因互補(bǔ)意思是指序列與從靶基因DNA序列轉(zhuǎn)錄得到的RNA(包括前mRNA、mRNA、cDNA)互補(bǔ)。術(shù)語“靶基因”意思是包括被表達(dá)(即在細(xì)胞、組織或生物體中被轉(zhuǎn)錄成為RNA)的任何DNA序列。表達(dá)的序列不是必須要翻譯成蛋白質(zhì),并且其還包括例如前mRNA、調(diào)節(jié)RNA、rRNA等等。與靶基因互補(bǔ)的序列一般長度為大約19-23個(gè)核苷酸,但是還可以更長。優(yōu)選地,互補(bǔ)序列長度少于50個(gè)核苷酸,更加優(yōu)選為15-35個(gè)核苷酸或18-25個(gè)核苷酸?;パa(bǔ)序列優(yōu)選為與靶基因的相應(yīng)序列100%相同,即互補(bǔ)序列和靶基因的相應(yīng)序列之間沒有錯(cuò)配。在一些實(shí)施方案中,如果錯(cuò)配不削除RNAi試劑的RNAi活性的話,則互補(bǔ)序列可以包含1個(gè)、2個(gè)、3個(gè)、4個(gè)、5個(gè)或多個(gè)錯(cuò)配。用于RNAi的RNAi試劑優(yōu)選地為雙鏈并且可以由兩條獨(dú)立的鏈組成,但是還可以由形成發(fā)夾環(huán)的一條鏈組成。RNAi試劑的雙鏈RNA區(qū)域可以包含錯(cuò)配并且以miRNA樣機(jī)制起作用。介導(dǎo)RNAi的RNAi試劑類型實(shí)例為例如siRNA或miRNA(microRNA)或小發(fā)夾RNA(shRNA)。
在一個(gè)步驟中,按照本發(fā)明的方法實(shí)驗(yàn)確定多個(gè)RNAi試劑的RNA潛能。一般而言,提供大量RNAi試劑是有利的,因?yàn)樵谒峁┑腞NAi試劑數(shù)量與算法質(zhì)量之間存在正相關(guān)。然而,由于RNAi試劑合成和RNAi潛能的實(shí)驗(yàn)確定昂貴且費(fèi)時(shí)等實(shí)際原因,將用于RNA潛能實(shí)驗(yàn)確定的RNAi試劑的數(shù)量保持盡可能低是令人期望的。然而,RNAi試劑的數(shù)量將不能低于一個(gè)最小值,即低于該值算法為不可正確訓(xùn)練的。在優(yōu)選實(shí)施方案中,提供至少10個(gè)RNAi試劑、至少50個(gè)RNAi試劑或至少100個(gè)RNAi試劑,在更加優(yōu)選的實(shí)施方案中提供至少200個(gè)RNAi試劑、至少500個(gè)RNAi試劑、至少1000個(gè)RNAi試劑或至少2000個(gè)RNAi試劑。在另一個(gè)優(yōu)選實(shí)施方案中,提供少于10000個(gè)RNAi試劑,優(yōu)選少于5000個(gè)RNAi試劑或更加優(yōu)選少于3000個(gè)RNAi試劑。在另一個(gè)優(yōu)選實(shí)施方案中,RNAi試劑是隨機(jī)選擇的。RNAi試劑可以是重疊的或者不重疊的,在優(yōu)選實(shí)施方案中,RNAi試劑是不重疊的。RNAi試劑包含與靶基因互補(bǔ)的區(qū)域。幾個(gè)RNAi試劑可以包含與同一靶基因互補(bǔ)的區(qū)域,它們可以是重疊的或者不重疊的。在一個(gè)特定實(shí)施方案中,全部RNAi試劑包含與同一靶基因互補(bǔ)的區(qū)域,它們可以是重疊的或者不重疊的。在另一個(gè)實(shí)施方案中,RNAi試劑包含與一個(gè)以上靶基因、優(yōu)選至少2個(gè)靶基因、至少5個(gè)靶基因或至少10個(gè)靶基因互補(bǔ)的區(qū)域。
在本發(fā)明的另一個(gè)優(yōu)選實(shí)施方案中,步驟a)中提供的RNAi試劑序列用于初步篩選RNAi特異性?!癛NAi特異性”或“特異性”是本領(lǐng)域的術(shù)語并且在本發(fā)明的上下文中指RNAi試劑的選擇性,即指RNAi試劑選擇性抑制或降低特定靶基因表達(dá)而不抑制或降低細(xì)胞、組織或生物體中表達(dá)的其它基因表達(dá)的能力。理論上,特異性RNAi試劑僅抑制靶基因的表達(dá)并且不影響細(xì)胞、組織或生物體中表達(dá)的全部其它基因的表達(dá)。為此,特異性RNAi試劑有利地包含與靶基因完全互補(bǔ)的序列,即與靶序列沒有錯(cuò)配的互補(bǔ)序列,但是不包含與在細(xì)胞或生物體中表達(dá)的全部其它基因完全互補(bǔ)的序列,即所述互補(bǔ)序列與除靶基因之外的在細(xì)胞、組織或生物體中表達(dá)的全部序列具有至少1個(gè)錯(cuò)配,優(yōu)選至少2個(gè)錯(cuò)配,更加優(yōu)選至少3個(gè)錯(cuò)配。例如,使用用于序列比較的適當(dāng)軟件,通過將目的RNAi試劑序列與數(shù)據(jù)庫中可得到的特定細(xì)胞、組織或生物體的全部已知表達(dá)序列進(jìn)行計(jì)算機(jī)比較,能夠進(jìn)行RNAi試劑特異性的初步篩選。
適宜實(shí)驗(yàn)確定RNAi試劑的RNAi潛能的許多方法是本領(lǐng)域已知的。一般地,將包含給定靶基因互補(bǔ)區(qū)的雙鏈RNAi試劑轉(zhuǎn)染進(jìn)入表達(dá)靶基因的細(xì)胞。對(duì)于轉(zhuǎn)染,可以使用不同的方法,例如電穿孔、使用陽離子脂類或陽離子聚合物作為輔助物用于轉(zhuǎn)染。然后在允許靶基因表達(dá)的適宜條件下孵育細(xì)胞。隨后使用適當(dāng)技術(shù)測量靶基因的表達(dá),例如RT-PCR或測量報(bào)道基因蛋白質(zhì)的量。在優(yōu)選實(shí)施方案中,編碼報(bào)道基因的融合mRNA與siRNA共轉(zhuǎn)染。優(yōu)選地,靶核苷酸序列插入到報(bào)道基因編碼序列的3,-UTR中。照此,靶標(biāo)將不進(jìn)行翻譯并且其下調(diào)將不具有生物學(xué)影響。在優(yōu)選實(shí)施方案中,報(bào)道基因蛋白質(zhì)是黃色熒光蛋白質(zhì)(YFP)。在另一個(gè)實(shí)施方案中,使用了陰性對(duì)照和報(bào)道基因特異性對(duì)照,即靶向報(bào)道基因蛋白質(zhì)編碼區(qū)并且由此不依賴于3’-UTR插入序列而以相似潛能沉默報(bào)道基因蛋白質(zhì)的siRNA,并且允許將使用每個(gè)siRNA獲得的報(bào)道基因蛋白質(zhì)表達(dá)水平與陰性對(duì)照和報(bào)道基因特異陽性對(duì)照的表達(dá)水平進(jìn)行比較。照此,將對(duì)于全部siRNA所測量的表達(dá)水平進(jìn)行比較并集中為一個(gè)單一同質(zhì)數(shù)據(jù)集?;旧?,任何種類的細(xì)胞可以用于轉(zhuǎn)染,然而,在優(yōu)選的實(shí)施方案中,細(xì)胞是真核細(xì)胞,優(yōu)選動(dòng)物細(xì)胞,更加優(yōu)選哺乳動(dòng)物細(xì)胞且最優(yōu)選人類細(xì)胞。
一旦將對(duì)于每個(gè)siRNA所觀察到的抑制作用與陽性和陰性對(duì)照進(jìn)行比較(也稱為歸一化),對(duì)于每個(gè)RNAi試劑將產(chǎn)生與實(shí)驗(yàn)所確定RNAi潛能相關(guān)的實(shí)驗(yàn)潛能值,導(dǎo)致產(chǎn)生能夠匯編入實(shí)驗(yàn)數(shù)據(jù)集中的讀數(shù)。在優(yōu)選實(shí)施方案中,通過測量報(bào)道基因蛋白質(zhì)獲得實(shí)驗(yàn)值。優(yōu)選地,實(shí)驗(yàn)讀數(shù)的全部數(shù)據(jù)來自同質(zhì)條件下的單一類型實(shí)驗(yàn)環(huán)境。數(shù)據(jù)優(yōu)選地基于蛋白質(zhì)水平測量而不是mRNA水平的測量,即一旦暴露于RNAi試劑則測量靶基因所表達(dá)的蛋白質(zhì)的量而不是mRNA的量。在下文實(shí)施例中描述了用于按照本發(fā)明實(shí)驗(yàn)確定RNAi潛能的一般實(shí)驗(yàn)方案。
在本發(fā)明優(yōu)選的實(shí)施方案中,報(bào)道基因測定法用于RNAi活性的實(shí)驗(yàn)確定。按照本發(fā)明的報(bào)道基因測定法的使用允許篩選具有標(biāo)準(zhǔn)實(shí)驗(yàn)讀數(shù)的針對(duì)廣泛靶標(biāo)的大量siRNA。此種測定法描述于Hüsken等,Nucleic AcidsRes.,第31卷,第17期,第e102頁(2003)。簡而言之,提供了包含帶有插入到3’非翻譯區(qū)的目的靶區(qū)域的全長報(bào)道基因mRNA融合轉(zhuǎn)錄物構(gòu)建體。例如,在構(gòu)建體中使用熒光素酶和熒光報(bào)道基因。待進(jìn)行RNAi潛能測試的RNAi試劑包含與插入到3’非翻譯區(qū)的目的插入序列互補(bǔ)的序列。然后用適當(dāng)轉(zhuǎn)染方法將RNAi試劑轉(zhuǎn)染進(jìn)入瞬時(shí)或組成型表達(dá)報(bào)道基因構(gòu)建體的細(xì)胞中,并在允許報(bào)道基因表達(dá)的適宜條件下培養(yǎng)細(xì)胞。隨后測量報(bào)道基因所表達(dá)蛋白質(zhì)的水平。此種測定法允許在蛋白質(zhì)水平測量具有標(biāo)準(zhǔn)實(shí)驗(yàn)讀數(shù)的針對(duì)廣泛靶標(biāo)的大量siRNA試劑。照此,所產(chǎn)生的數(shù)據(jù)集是同質(zhì)的并且全部潛能數(shù)據(jù)彼此是可比的。
上述數(shù)據(jù)集用于訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)是本領(lǐng)域已知的,見例如Zell,Simulation neuronaler Netzwerke,Addison Wesley(1994);以及Rumelhart和McLelland,Parallel Distributed Processing,第1卷,MITPress,Cambridge,MA(1986),并且人工神經(jīng)網(wǎng)絡(luò)可以從例如http://www-ra.informatik.uni-tuebingen.de/SNNS上得到。統(tǒng)計(jì)學(xué)信息將通過人工神經(jīng)網(wǎng)絡(luò)從siRNA序列反義鏈提取并且與篩選測量相關(guān)。最終,所訓(xùn)練的網(wǎng)絡(luò)能夠應(yīng)用于任意輸入序列以給出對(duì)“將要”進(jìn)行篩選測量的評(píng)價(jià)。例如,為了舉例說明的目的,可以使用具有反傳訓(xùn)練7-8次的3層前饋網(wǎng)絡(luò)。輸入層由4道的有序節(jié)點(diǎn)組成,見圖1。每種核堿基類型具有一個(gè)道并且在提到的同一輸入序列位置常常存在不同堿基類型的4個(gè)節(jié)點(diǎn)。位置數(shù)目是輸入序列的長度。在訓(xùn)練和/或應(yīng)用期間,在任意給定時(shí)間點(diǎn)在任意給定位置上恰恰一個(gè)節(jié)點(diǎn)是活化的。然后沿著有序道的活性表現(xiàn)為輸入序列?;罨?jié)點(diǎn)的信號(hào)從輸入層傳播入第二層,也稱為隱單元層。在該傳播中,輸入層的信號(hào)(或者0或者1)進(jìn)行不同加權(quán),合計(jì)形成隱單元的信號(hào)。同樣地,隱單元的信號(hào)發(fā)展成第三層和最后一層的單一輸出節(jié)點(diǎn)。加權(quán)是代表統(tǒng)計(jì)學(xué)知識(shí)的存儲(chǔ)元件。起初,權(quán)值是隨機(jī)設(shè)定的,并導(dǎo)致產(chǎn)生偏離真實(shí)篩選信號(hào)的siRNA反義序列的輸出信號(hào)。當(dāng)前網(wǎng)絡(luò)輸出信號(hào)與實(shí)驗(yàn)結(jié)果之間的差異用于改變?nèi)繖?quán)值以降低差異。反向傳播通過網(wǎng)絡(luò)到達(dá)位置以便在第二層中具有隱單元的‘真實(shí)’靶信號(hào)。
本發(fā)明另一方面提供了包含計(jì)算機(jī)硬件和本發(fā)明算法的計(jì)算機(jī)系統(tǒng)。本發(fā)明的另一方面提供了包含本發(fā)明算法的計(jì)算機(jī)可讀介質(zhì)。
本發(fā)明另一方面提供了用于獲得具有增強(qiáng)的針對(duì)給定靶基因的RNAi潛能可能性(即增強(qiáng)的抑制預(yù)先選擇靶基因表達(dá)的可能性)的RNAi試劑的方法。因此,對(duì)于所指定的給定數(shù)量RNAi試劑,如果RNAi試劑是隨機(jī)設(shè)計(jì)的,則使用該方法設(shè)計(jì)的RNAi試劑的高百分比將是有效的。相反,不得不設(shè)計(jì)并篩選較少RNAi試劑以便找到給定數(shù)量高RNAi潛能的RNAi試劑用于特異性抑制靶基因的表達(dá)。在一個(gè)實(shí)施方案中,根據(jù)本發(fā)明的方法包括以下步驟a)提供多個(gè)包含與給定靶基因互補(bǔ)的區(qū)域的RNAi試劑序列;b)使用神經(jīng)網(wǎng)絡(luò)將根據(jù)本發(fā)明所訓(xùn)練的算法應(yīng)用于所述RNAi試劑序列;和c)選擇經(jīng)預(yù)測有效的RNAi試劑序列。
在第一步中,選擇了多個(gè)包含與靶向基因互補(bǔ)的序列的候選RNAi試劑序列,靶向基因即通過RNAi被抑制的基因??梢猿醪胶Y選RNAi試劑的特異性或者某些序列基序的存在或缺乏。它們可以是重疊的或非重疊的。在一個(gè)實(shí)施方案中,候選RNAi試劑是隨機(jī)選擇的。在第二步中,使用根據(jù)本發(fā)明算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)預(yù)測在第一步中所提供的RNAi試劑的潛能。在下一步中,選擇經(jīng)預(yù)測有效的RNAi試劑序列。例如,可以選擇3個(gè)或5個(gè)或10個(gè)最有效的RNAi試劑。備選地,選擇預(yù)測值大于某閾值的全部RNAi試劑序列。在優(yōu)選的實(shí)施方案中,閾值為至少0.7、至少0.75、至少0.8或至少0.85。目前能夠?qū)嶒?yàn)性測定所選擇RNAi試劑的RNAi潛能。因此,在下一步中,合成了適宜用于RNAi的RNAi試劑,其包含預(yù)測有活性的序列。在優(yōu)選實(shí)施方案中,RNAi試劑是化學(xué)合成的。本領(lǐng)域技術(shù)人員熟悉用于此類寡核苷酸合成的化學(xué)方法,例如通過眾所周知的固相合成技術(shù)。然而,RNAi試劑還可以使用生物化學(xué)方法合成,例如體外轉(zhuǎn)錄或基于載體的系統(tǒng)。現(xiàn)在,可以將表達(dá)靶基因的適宜細(xì)胞暴露于合成的RNAi試劑中(或者在基于載體的系統(tǒng)的情況下,將細(xì)胞暴露于包含目的序列的載體中),在適宜條件下孵育并且可以使用適當(dāng)方法測量靶基因的表達(dá)水平。作為對(duì)照,可以比較未暴露于目的序列的細(xì)胞中靶基因表達(dá)水平。
以下實(shí)施例用于說明本發(fā)明的優(yōu)選實(shí)施方案而不旨在限制本發(fā)明。
實(shí)施例在舉例說明本發(fā)明的方法中,已經(jīng)在細(xì)胞測定中篩選了靶向34個(gè)不同mRNA的3,000個(gè)以上siRNA的潛能。該研究的一個(gè)特點(diǎn)是已經(jīng)產(chǎn)生同質(zhì)數(shù)據(jù)集用于隨后的潛能-序列關(guān)系的分析。這已經(jīng)通過使用融合mRNA報(bào)道基因測定法而成為可能。見Hüsken等(2003),見上。在該測定法中,將編碼報(bào)道基因蛋白質(zhì)的報(bào)道基因融合mRNA(其中靶序列已經(jīng)插入到報(bào)道基因mRNA的3’-UTR中)的質(zhì)粒轉(zhuǎn)染,接著進(jìn)行RNAi試劑的轉(zhuǎn)染。照此a)靶序列下調(diào)的結(jié)果不具有生物學(xué)后果;b)在全部測定中,潛能讀數(shù)是蛋白質(zhì)水平的,并且由于同一報(bào)道基因蛋白質(zhì)用于全部研究,所以潛能數(shù)據(jù)不會(huì)因讀數(shù)不同而產(chǎn)生偏差;和c)在全部測定中使用共同的陽性對(duì)照和陰性對(duì)照允許對(duì)全部潛能數(shù)據(jù)進(jìn)行歸一化。
人工神經(jīng)網(wǎng)絡(luò)已經(jīng)用于研究該同質(zhì)潛能數(shù)據(jù)集的序列潛能關(guān)系。結(jié)果,所訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)能夠僅僅基于其核苷酸序列來預(yù)測任意siRNA的潛能。由于通過RNA干擾途徑起作用的基因沉默試劑的潛能存在序列需求,所以該方法將應(yīng)用于其它RNAi試劑如shRNA或miRNA。
RNAi試劑用于該研究的RNAi試劑是21-mer雙鏈RNAi試劑,其具有19個(gè)堿基配對(duì)的RNA區(qū)域并在每條鏈的3’端具有二脫氧核苷酸懸突。有義鏈的懸突全部為二胸腺嘧啶核苷,而反義鏈的懸突是被設(shè)計(jì)為與靶標(biāo)互補(bǔ)的二脫氧核苷酸。
篩選方法eYFP mRNA-融合報(bào)道基因測定法報(bào)道基因表達(dá)克隆的構(gòu)建構(gòu)建了基于增強(qiáng)藍(lán)綠色和黃色熒光蛋白質(zhì)(eCFP、eYFP)雙報(bào)道基因的載體pNAS-092(描述于Hüsken等(2003),見上),在eYFP的終止密碼子之后包含多克隆位點(diǎn)以便插入適當(dāng)目的cDNA或EST。eCFP報(bào)道基因用于延伸因子1α(EF-1α)啟動(dòng)子驅(qū)動(dòng)下的歸一化測量并且eYFP報(bào)道基因用于監(jiān)測CMV啟動(dòng)子驅(qū)動(dòng)下的siRNA活性。載體的來源是包含hCMV和EF-1α啟動(dòng)子的質(zhì)粒pBudCE4(Invitrogen)。通過插入來自peCFP-N1(Clontech)的eCFP基因并且通過將來自peFP-N1(Clontech)的eYFP基因與具有克隆位點(diǎn)(EcoRV、NotI、HindIII、KpnI、XbaI)的合成DNA片段一起轉(zhuǎn)移產(chǎn)生pNAS-092。通過測序證實(shí)在pNAS-092中所使用的合成DNA。對(duì)于備選的克隆策略,按照廠商的方法(Invitrogen)通過在eYFP終止密碼子之后插入attR1和attR2克隆位點(diǎn)將pNAS-092轉(zhuǎn)換成GatewayTM目標(biāo)載體pNAS-097。經(jīng)過連接(pNAS-092)或重組(pNAS-097)將c-DNA插入克隆位點(diǎn)構(gòu)建了用于最終報(bào)道基因測定法的全部質(zhì)粒。
細(xì)胞系和細(xì)胞培養(yǎng)人非小細(xì)胞肺癌細(xì)胞系H-1299(CRL-5803)購自ATCC(Rockville,MD)。H-1299細(xì)胞在37℃、5%濕度CO2空氣下維持于含有10%胎牛血清和1%L-谷氨酰胺的RPMI 1640培養(yǎng)基(Life Technologies)中。轉(zhuǎn)染前48小時(shí)將細(xì)胞分散至80%亞匯合狀態(tài)。轉(zhuǎn)染前一天,用胰酶消化細(xì)胞、洗滌并等量分散(50μL)于黑色96孔測定板(Costar,透明底)中。
使用攜帶參照基因(細(xì)胞內(nèi)歸一化)的雙報(bào)道基因構(gòu)建體測定熒光蛋白質(zhì)。
質(zhì)粒轉(zhuǎn)染將Lipofectamine-PLUS試劑與稀釋于OptiMEM-I的質(zhì)粒一起孵育(22ng/μL質(zhì)粒,4.4mL/mL Lipofectamine-PLUS),然后用OptiMEM-I將該混合物稀釋11倍。用HEPES(20mM,pH7.2)將Lipofectamine預(yù)先稀釋1.3倍并用OptiMEM-I進(jìn)一步稀釋28.6倍(26.6μL/mL Lipofectamine)并放置15分鐘。將兩種混合物1∶1混合并孵育15分鐘,進(jìn)一步用OptiMEM-I稀釋10倍。吸去培養(yǎng)基并將100μL加入細(xì)胞(0.2μL/mLLipofectamine-PLUS,13.3μL/mL Lipofectamine,1ng/μL質(zhì)粒)。2小時(shí)后,將50μL siRNA轉(zhuǎn)染混合物加入細(xì)胞,然后將其進(jìn)一步孵育2小時(shí)。
siRNA轉(zhuǎn)染將用OptiMEM-I稀釋的Oligofectamin(60μL/mL)混合并室溫孵育30分鐘。用雜交緩沖液(30mM HEPES,100mM醋酸鉀,2mM醋酸鎂室溫時(shí)pH7.63)將siRNA從雜交貯存液稀釋至600μM。90℃退火2分鐘,隨后37℃放置1小時(shí)。將稀釋的Oligofectamin和siRNA以2∶1的體積混合,并孵育15分鐘。siRNA-Oligofectamin混合物進(jìn)一步用OptiMEM-I以1∶1稀釋并轉(zhuǎn)移到細(xì)胞上(50μL)(終濃度0.7ng/μL質(zhì)粒,10μL/mLOligofectamin,50nM siRNA)。去除培養(yǎng)基并用100μL不含酚紅但含有10%胎牛血清和1%L-谷氨酰胺的標(biāo)準(zhǔn)RPMI培養(yǎng)基代替,并且在37℃培養(yǎng)3天。以24小時(shí)的間隔測量熒光。分別使用436/20nm的激發(fā)濾光片和480/30nm的發(fā)射濾光片以及500/25nm的激發(fā)濾光片和535/30nm的發(fā)射濾光片測量eCFP和eYFP的熒光。eYFP/eCFP熒光計(jì)數(shù)的商表示每個(gè)細(xì)胞數(shù)當(dāng)量的eYFP活性。對(duì)于使用eYFP報(bào)道基因測定法的該數(shù)據(jù)收集,將陽性標(biāo)準(zhǔn)(YFP-特異siRNA NAS-12842/58)和陰性標(biāo)準(zhǔn)(熒光素酶siRNA NAS-8548/9)的全部siRNA處理一式三份重復(fù)進(jìn)行。計(jì)算了標(biāo)準(zhǔn)siRNA NAS-12842/58處理平均值的標(biāo)準(zhǔn)差,發(fā)現(xiàn)其平均為9.1%。
靶標(biāo)選擇首先,選擇了具有34個(gè)不同插入序列的報(bào)道基因質(zhì)粒。插入序列的大小在344個(gè)核苷酸和3784個(gè)核苷酸之間。
siRNA序列設(shè)計(jì)每塊板有79個(gè)siRNA,總共有3160個(gè)。序列設(shè)計(jì)為在插入序列上隨機(jī)步移,允許不同大小的重疊(0-20個(gè)堿基)。插入序列大小為27kb時(shí),甚至3160個(gè)siRNA的規(guī)則選擇位置將導(dǎo)致在siRNA序列內(nèi)的明顯重疊(13個(gè)堿基)。不考慮具有長多核苷酸延伸(5個(gè)或更多連續(xù)核苷酸)的序列。在長插入序列情況下,設(shè)計(jì)兩套,每套79個(gè)siRNA。
檢測了全部集合中3160個(gè)siRNA序列的核苷酸。發(fā)現(xiàn)多至四核苷酸的全部可能的基序均存在于siRNA序列集合中。
篩選格式每個(gè)siRNA板包含79個(gè)siRNA、一個(gè)陰性對(duì)照(抗熒光素酶siRNANAS-8549)、2個(gè)報(bào)道基因特異siRNA(抗YFP siRNA NAS-12842和NAS-12847)。用移液管吸取單一批次的對(duì)照siRNA,并且一式三份。留下8個(gè)空孔將用于“僅有質(zhì)?!钡年幮詫?duì)照。
siRNA活性數(shù)據(jù)的過濾和歸一化(見圖2)每個(gè)板一式二份進(jìn)行測定,并且在2個(gè)時(shí)間點(diǎn)通過熒光比色法測量YFP水平。對(duì)于每個(gè)板,檢測了兩次重復(fù)之間的線性相關(guān)性,以及陽性和陰性對(duì)照的抑制作用水平。當(dāng)兩次重復(fù)之間的相關(guān)性超過0.7并且當(dāng)與陰性對(duì)照相比陽性對(duì)照下調(diào)YFP至至少60%時(shí)則接受數(shù)據(jù)(見圖3)。按照該過濾放棄了來自5次測定的數(shù)據(jù)集。剩余數(shù)據(jù)集(2717個(gè)序列)分為訓(xùn)練集和檢驗(yàn)集,通過個(gè)別地檢測每個(gè)siRNA以及排除在兩次重復(fù)中變異高于30%的siRNA而進(jìn)一步過濾。照此,進(jìn)一步去除了大約15%的數(shù)據(jù)。將剩余的兩次重復(fù)數(shù)據(jù)點(diǎn)進(jìn)行平均以產(chǎn)生噪聲特性降低的數(shù)據(jù)集。最終數(shù)據(jù)集包含訓(xùn)練集中的2109個(gè)序列和檢驗(yàn)集中的234個(gè)序列。通過仿射系統(tǒng)AT(i)=A(S(i))=(T_高-T_低)/(S_高-S_低)*(S(i)-S_低)+T_低將全部數(shù)據(jù)點(diǎn)S(i)(i指數(shù)據(jù)點(diǎn))歸一化,其中陰性對(duì)照的初始信號(hào)為S_低并且將進(jìn)行歸一化得到T_低(我們設(shè)定T_低=0.1=10%)。同樣定義陽性對(duì)照信號(hào)S_高并將其轉(zhuǎn)化成的T_高(設(shè)定為0.9=90%)。
人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練(見圖3)siRNA序列數(shù)據(jù)送入輸入層并且用篩選報(bào)道基因信號(hào)來調(diào)整網(wǎng)絡(luò)節(jié)點(diǎn)之間的權(quán)值。每個(gè)siRNA序列和其篩選測量總共送入10次。將全部數(shù)據(jù)點(diǎn)送入一次后,以0.1的學(xué)習(xí)率和0.1的動(dòng)量因子同步更新網(wǎng)絡(luò)的權(quán)值。見Zell,Simulation Neuronaler Netzwerke,Addison Wesley(1994)。基于5個(gè)不同的初始權(quán)值,所得到的5個(gè)經(jīng)訓(xùn)練的網(wǎng)絡(luò)權(quán)值不同但是全部5個(gè)網(wǎng)絡(luò)始終如一地顯示所預(yù)測輸出僅輕微變化。通過將全部5個(gè)網(wǎng)絡(luò)的各個(gè)輸出節(jié)點(diǎn)的信號(hào)平均得到了最后輸出結(jié)果。為了簡單起見,我們將平均輸出稱為該網(wǎng)絡(luò)的輸出以代替查看任何單個(gè)網(wǎng)絡(luò)特性。
預(yù)測器性能的評(píng)價(jià)(見圖4)用所訓(xùn)練的網(wǎng)絡(luò)對(duì)實(shí)驗(yàn)抑制活性進(jìn)行預(yù)測,當(dāng)應(yīng)用于檢驗(yàn)集時(shí)預(yù)測活性與實(shí)驗(yàn)抑制活性具有0.63的相關(guān)性,而當(dāng)應(yīng)用于訓(xùn)練集時(shí)則表現(xiàn)出適度更高的相關(guān)性0.665。圖3描繪兩者的一致性。除了預(yù)測值和實(shí)驗(yàn)值之間的相關(guān)性之外,通過設(shè)定實(shí)驗(yàn)活性siRNA和預(yù)測活性siRNA的閾值能夠評(píng)價(jià)算法的性能。實(shí)驗(yàn)活性siRNA的閾值設(shè)定為歸一化潛能的75%(0.75)。預(yù)測活性siRNA的閾值設(shè)定為大于0.8的值。這些閾值形成4個(gè)象限,包含真陰性(預(yù)測無活性且無活性)、假陰性(預(yù)測無活性但有活性)、假陽性(預(yù)測有活性但無活性)和真陽性(預(yù)測有活性且有活性)序列。通過其敏感性和選擇性可以確定預(yù)測器性能。
預(yù)測器敏感性=真陽性/(真陽性+假陰性)=0.26預(yù)測器選擇性=真陽性/(真陽性+假陽性)=0.71這些數(shù)值表明,所所預(yù)測序列為活性的概率是71%(如上所定義)。該數(shù)值可與在全部檢驗(yàn)集中所觀察到的命中率相比,而在全部檢驗(yàn)集中35%的序列是有活性的。同樣,預(yù)測器將鑒定出26%的活性序列。
訓(xùn)練集大小對(duì)預(yù)測器性能的影響(見圖5)
訓(xùn)練集數(shù)據(jù)不必要全部用于訓(xùn)練,這允許研究隨著集大小的減少BIOpred預(yù)測性能的降低。檢驗(yàn)集的大小是恒定的。見圖5,相關(guān)性隨著訓(xùn)練集的減少而持續(xù)緩慢降低。對(duì)于少至265個(gè)數(shù)據(jù)點(diǎn)的訓(xùn)練數(shù)據(jù)集,相關(guān)性仍然為大約0.53。
權(quán)利要求
1.一種產(chǎn)生用于預(yù)測RNAi試劑的RNAi潛能的算法的方法,其包括a)實(shí)驗(yàn)確定包含與至少一個(gè)靶基因互補(bǔ)的序列的多個(gè)RNAi試劑的RNAi潛能;和b)用所述數(shù)據(jù)集訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)。
2.根據(jù)權(quán)利要求1所述的方法,其中RNAi潛能通過測定靶基因所編碼蛋白質(zhì)的數(shù)量來確定。
3.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中RNAi潛能通過報(bào)道基因測定法確定。
4.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中RNAi試劑被靶向至編碼報(bào)道基因蛋白質(zhì)的融合mRNA的3’UTR。
5.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中將來自不同融合mRNA的數(shù)據(jù)進(jìn)行歸一化。
6.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中確定至少100個(gè)RNAi試劑、優(yōu)選至少1000個(gè)RNAi試劑的潛能。
7.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中所述RNAi試劑的序列是隨機(jī)選擇的。
8.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中所述RNAi試劑的序列具有與靶mRNA充分互補(bǔ)以致于結(jié)合靶mRNA的長度為15和30個(gè)核苷酸之間的區(qū)域。
9.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中RNAi試劑的互補(bǔ)區(qū)域與靶基因的相應(yīng)區(qū)域具有一個(gè)或幾個(gè)錯(cuò)配。
10.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中RNAi試劑為siRNA。
11.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中RNAi試劑為shRNA。
12.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法,其中RNAi試劑為miRNA。
13.根據(jù)前述權(quán)利中要求任意一項(xiàng)所述的方法所得到的算法。
14.一種計(jì)算機(jī)可讀儲(chǔ)存介質(zhì),其包含根據(jù)權(quán)利要求13所述的算法。
15.一種計(jì)算機(jī)系統(tǒng),其包含根據(jù)權(quán)利要求13所述的算法和計(jì)算機(jī)硬件。
16.一種預(yù)測RNAi試劑的RNAi潛能的方法,其包括a)提供包含與給定靶基因互補(bǔ)的區(qū)域的多個(gè)RNAi試劑;b)使用神經(jīng)網(wǎng)絡(luò)對(duì)所述RNAi試劑運(yùn)行根據(jù)權(quán)利要求13所述的經(jīng)訓(xùn)練的算法;和c)選擇經(jīng)預(yù)測有效的RNAi試劑序列。
17.一種抑制給定靶基因表達(dá)的方法,其包括a)提供包含與給定靶基因互補(bǔ)的區(qū)域的多個(gè)RNAi試劑;b)使用神經(jīng)網(wǎng)絡(luò)對(duì)所述RNAi試劑運(yùn)行根據(jù)權(quán)利要求13所述的經(jīng)訓(xùn)練的算法;c)選擇經(jīng)預(yù)測有效的RNAi試劑序列;d)合成在c)中所選擇的RNAi試劑;和e)將表達(dá)靶基因的細(xì)胞暴露于d)的RNAi試劑中。
18.根據(jù)權(quán)利要求16或17所述的方法,其中在c)中所選擇的RNAi試劑高于給定的閾值。
全文摘要
本發(fā)明提供產(chǎn)生用于預(yù)測RNAi試劑的RNAi潛能的算法的方法。本發(fā)明還提供使用此種算法預(yù)測RNAi試劑的RNAi潛能的方法和抑制給定靶基因表達(dá)的方法。
文檔編號(hào)G06F19/24GK1890370SQ200480036719
公開日2007年1月3日 申請(qǐng)日期2004年12月9日 優(yōu)先權(quán)日2003年12月10日
發(fā)明者J·哈爾, D·許斯肯, J·B·蘭格, F·J-C·納特, M·W·H·M·萊因哈德 申請(qǐng)人:諾瓦提斯公司