專利名稱:一種定量分析rna突變有害性的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)程序,更具體地,是一種定量分析RNA突變有害性的方法。
背景技術(shù):
作為一種承載重要功能的生物大分子,RNA的堿基突變冇可能導(dǎo)致病理性的表型變化。 研究表明一些RNA調(diào)節(jié)器中的突變與神經(jīng)精神障礙有關(guān);線粒體中tRNA的突變潛伏-一半以 上的已知線粒體的致病突變;近來(lái)的研究還表明miRNA基因以及它的側(cè)翼序列的突變可能 會(huì)導(dǎo)致癌癥。另一方面,RNA突變?cè)谀承┣闆r下可能是"冇益的"。研究發(fā)現(xiàn),重組的核糖 功能位點(diǎn)和抗生素活性位點(diǎn)的分布與已知細(xì)菌屮rRNA突變的位點(diǎn)有關(guān);Yassin等證明細(xì)菌 中rRNA的突變可以作為高效抗生素靶位點(diǎn)的標(biāo)志;另夕卜,Herlocher等在流感病毒的研究中 發(fā)現(xiàn),PB2基因中' -個(gè)導(dǎo)致RNA 二級(jí)結(jié)構(gòu)發(fā)生顯著變化的無(wú)義突變病毒株能夠作為減毒活疫田o從分子生物學(xué)的原理上講,當(dāng)一個(gè)突變使得與RNA催化、配體結(jié)合、或'v蛋i':l質(zhì)相刀:作 用的功能受到破壞的時(shí)候,那該突變就是有害的。既然RNA的功能依賴于特定的結(jié)構(gòu),那么 導(dǎo)致結(jié)構(gòu)較大改變的核苷酸變異就可能是有害的。由此,結(jié)構(gòu)分析應(yīng)該能夠幫助識(shí)別有害突 變。同時(shí),序列保守性為RNA突變有害性的預(yù)測(cè)提供了重要的信息。綜合考慮結(jié)構(gòu)差異和序 列保守性可以得到更加準(zhǔn)確的有害突變分析結(jié)果。為此,本發(fā)明提出了一種定量分析RNA突 變有害性的方法。發(fā)明內(nèi)容本發(fā)明旨在提供一種能簡(jiǎn)單、方便、快捷地分析RNA突變有害性的定量化方法,解決突 變有害性評(píng)估難、定量難、分析難的問(wèn)題,達(dá)到分析與預(yù)測(cè)RNA有害突變的目的,從此而提 高對(duì)RNA突變乃至RNA進(jìn)化的理解。為了達(dá)到上述目的,本發(fā)明在計(jì)算機(jī)系統(tǒng)中提供了-種定量分析RNA突變有害性的方法,該方法融合了 RNA突變的位點(diǎn)結(jié)構(gòu)有害性和位點(diǎn)序列 有害性的信息,定量分析RNA突變的有害性,給出RNA突變有害性的定量分析結(jié)果。在一種定量分析RNA突變有害性的方法中,輸入的RNA序列與其突變體序列之間的結(jié) 構(gòu)整體的距離作為RNA突變的位點(diǎn)結(jié)構(gòu)有害性的一種定量度量。位點(diǎn)結(jié)構(gòu)有害性的計(jì)算需經(jīng) 過(guò)如下步驟檢查從計(jì)算機(jī)終端輸入的RNA序列的合法性、產(chǎn)生突變體、RNA折疊、計(jì)算 輸入的RNA序列與其突變體之間的結(jié)構(gòu)整體的距離、計(jì)算位點(diǎn)結(jié)構(gòu)有害性。考慮到液相中的RNA分子并不僅僅呈現(xiàn)最穩(wěn)定的結(jié)構(gòu),而是在具有相似自由能的結(jié)構(gòu)之 間快速地改變著它們的構(gòu)象。因此,本發(fā)明在計(jì)算位點(diǎn)結(jié)構(gòu)有害性的過(guò)程中,考慮了輸入的 RNA序列及其突變體序列的結(jié)構(gòu)整體。對(duì)條RNA序列/,在熱力學(xué)平衡下,該序列的二級(jí)結(jié)構(gòu)的整體自由能定義為<formula>formula see original document page 4</formula> (1)其中2為序列/的配分函數(shù)。在序列/的結(jié)構(gòu)整體中, 一個(gè)給定結(jié)構(gòu)^出現(xiàn)的概率正比于s能因子exp(-F / M1),這個(gè)概率為<formula>formula see original document page 4</formula> (2) 山此,序列x與序列_y之間的結(jié)構(gòu)整體距離定義為<formula>formula see original document page 4</formula>其中,/"S)是序列x的二級(jí)結(jié)構(gòu)整體中結(jié)構(gòu)S的平衡概率,p/S')是序列j的二級(jí)結(jié)構(gòu)整體巾結(jié)構(gòu)s'的平衡概率,<50S,為結(jié)構(gòu)s和s'的距離。在-- 種定量分析RNA突變有害性的方法中,輸入的RNA序列及其同源序列之間的保守 性可以作為RNA突變的位點(diǎn)序列有害性的一種定量度量。位點(diǎn)序列有害性的計(jì)算需經(jīng)過(guò)如下 歩驟檢查從計(jì)算機(jī)終端輸入的RNA序列及其同源序列的合法性、多序列比對(duì)、計(jì)算位點(diǎn)序 列有害性。多序列比對(duì)是目前為止在生物信息學(xué)中最常用的方法。本發(fā)明在計(jì)算位點(diǎn)序列有害性的 過(guò)程中,采用標(biāo)準(zhǔn)的多序列比對(duì)程序CLUSTALW對(duì)輸入的RNA序列及其同源序列做多序列 比對(duì),得到輸入的RNA序列的分子特異性的評(píng)估,即在各個(gè)位點(diǎn)單體出現(xiàn)頻率對(duì)均勻分布的 偏離。對(duì)于特定位點(diǎn)/ ,實(shí)際觀察到的單體出現(xiàn)頻率與隨機(jī)狀況的偏離可以通過(guò)以下公式進(jìn)行 計(jì)算<formula>formula see original document page 4</formula> (4)集」={A,C,G,u}的字符個(gè)數(shù)。D(/)的單位通常用"每個(gè)單體多少比特" 來(lái)衡量,對(duì)于RNA序列比對(duì)而言,偏差最大可以達(dá)到log2 4 = 2比特。對(duì)于輸入的RNA序列的特定位點(diǎn)/,令/(A(/))為位點(diǎn)i上堿基re j的信息函數(shù),在位 點(diǎn)/由堿基r e 乂突變到/ e 乂的位點(diǎn)序列有害性定義為A,,o=/(p,(o)'(i-/o^m (5)要求/ ,(/y)滿足(i) ZUr,O是r的增函數(shù);(ii) /7,(r,,)足r'的減函數(shù);(iii) 若p, =1,則/V-0, //,(r,r') = l;(iv) 若^二0,則p,. =1, ao,/) = o; (X) / ,(r'r) = 0。在 一種定量分析rna突變有害性的方法中,對(duì)于式(5)中的位點(diǎn)信息函數(shù)/(a(z)),釆用了兩類函數(shù)線性函數(shù)和雙曲正切函數(shù)。/(a (0)可以定義為a (0的線性函數(shù),即/(/ ,.(,')) = a. W) + 6, " 0, r e 乂 (6)其中"和6為常數(shù)。/(p力))還可定義為在位點(diǎn)纟堿基,-e乂的信息量k^的雙曲m切函數(shù),艮[J/(W)) = l + ,g2pr(/)), (7)/(p力))的兩個(gè)定義式(6)和(7)顯然滿足位點(diǎn)序列有害性定義式(5)的條件 (v)。在定義 了位點(diǎn)結(jié)構(gòu)有害性(3)和位點(diǎn)序列有害性(5)后,對(duì)于特定位點(diǎn)/ ,由堿基r e ^突變 到r' e 乂的RNA突變有害性度量的一個(gè)合理評(píng)估可以定義為g,O r,r'e^4 (8)其中,化(r,r')表示位點(diǎn)序列有害性評(píng)估函數(shù),表示位點(diǎn)結(jié)構(gòu)有害性評(píng)估函數(shù)。
圖1為本發(fā)明的一種定量分析RNA突變有害性的總體框圖; 圖2為圖1中RNA突變的位點(diǎn)結(jié)構(gòu)有害性的計(jì)算流程圖; 圖3為圖1中RNA突變的位點(diǎn)序列有害性的計(jì)算流程圖; 圖4為一條tRNA序列的分子特異性的評(píng)估結(jié)果; 圖5大腸桿菌中一條16SrRNA的最小自由能結(jié)構(gòu);圖6基于線性位點(diǎn)信息函數(shù)定量分析大腸桿菌中16S rRNA序列的RNA突變有害性的結(jié) 果.(a)突變有害性譜.(b)突變有害性分布圖;圖7基于雙曲正切位點(diǎn)信息函數(shù)定量分析大腸桿菌中16SrRNA序列的RNA突變有害性 的結(jié)果.(a)突變有害性譜.(b)突變有害性分布圖。
具體實(shí)施方式
圖1為本發(fā)明的- 種定量分析RNA突變有害性的總體框圖。首先,在一種定量分析RNA突變有害性的方法中,計(jì)算RNA突變的位點(diǎn)結(jié)構(gòu)有HP性, 具體歩驟如下檢查從計(jì)算機(jī)終端輸入的RNA序列的合法性、對(duì)其進(jìn)行突變產(chǎn)生突變體、 RNA折疊、比較輸入的RNA序列與其突變體之間的結(jié)構(gòu)整體的距離、計(jì)算位點(diǎn)結(jié)構(gòu)有害性。 圖2為圖1中位點(diǎn)結(jié)構(gòu)有害性的計(jì)算流程圖。對(duì)從計(jì)算機(jī)終端輸入的RNA序列,根據(jù)RNA序列的定義,做合法性檢查。RNA序列是 取自字母表乂 = {A,C,G,U}的一個(gè)字符串i = 。,r2,...,。其中r e 乂 / = 1,2,…,"。對(duì)不符合該定義的輸入序列,則返回重新輸入。在對(duì)從計(jì)算機(jī)終端輸入的RNA序列檢查合法性之后,對(duì)其進(jìn)行突變,產(chǎn)生突變體。由于 每個(gè)位點(diǎn)共有四個(gè)堿基j = {A,C,G,U}可供選擇,去掉該位點(diǎn)本身的堿基,在每個(gè)位點(diǎn)的堿基可突變?yōu)槠渌齻€(gè)堿基,產(chǎn)生三個(gè)突變體。例如,對(duì)線蟲(chóng)中長(zhǎng)度為/ = 99的microRNA /e/-7 前體的序列它第一個(gè)位點(diǎn)的堿基U,可以突變?yōu)槠渌娜齻€(gè)堿基A、 C禾QU,這樣三個(gè)突變體序列為:位點(diǎn) 突變體序列利用標(biāo)準(zhǔn)的RNA 二級(jí)結(jié)構(gòu)折疊程序RNAfold,對(duì)輸入的RNA序列及其所有的突變體序 列(每個(gè)位點(diǎn)有三個(gè)突變體序列,共計(jì)3x/個(gè)突變休序列)做折疊,得到它們的結(jié)構(gòu)整體。 利用標(biāo)準(zhǔn)的RNA 二級(jí)結(jié)構(gòu)整體的距離度量程序RNApdist,計(jì)算輸入的RNA序列與其每個(gè)突變體序列之間的結(jié)構(gòu)整體距離《,將《作為RNA突變的位點(diǎn)結(jié)構(gòu)有害性的一種定量度量。其次,在一種定量分析RNA突變有害性的方法中,計(jì)算RNA突變的位點(diǎn)序列有害性, 具體歩驟如下檢查從訃算機(jī)終端輸入的RNA序列及其同源序列的合法性、多序列比對(duì)得到 RNA序列的分了特異性的評(píng)估、計(jì)算位點(diǎn)序列冇害性。圖3為閣1中RNA突變的位點(diǎn)序列 有害性的計(jì)-黨流程圖。對(duì)從計(jì)算機(jī)終端輸入的RNA序列及其I,,]源序列,根據(jù)上面的RNA序列的定義,做合法 性檢査。對(duì)不符合該定義的輸入序列,則返回重新輸入。在對(duì)從計(jì)算機(jī)終端輸入的RNA序列及其同源序列檢查合法性之后采用標(biāo)準(zhǔn)的多序列比對(duì) 程序CLUSTALW對(duì)輸入的RNA序列及其同源序列做多序列比對(duì),得到輸入的RNA序列的 分子特異性的評(píng)估,即在各個(gè)位點(diǎn)單體出現(xiàn)頻率對(duì)均勻分布的偏離。圖4是一條tRNA序列 的分子特異性的評(píng)估結(jié)果。采用本發(fā)明,分析的實(shí)例是大腸桿菌的條16SrRNA序列,圖5為其最小自由能結(jié)構(gòu)。 根據(jù)公式(6)和(7)所定義的兩個(gè)位點(diǎn)信息函數(shù),其中"=1,6 = 0,計(jì)算16S rRNA序列的位點(diǎn) 序列有害性。在得到16S rRNA序列的位點(diǎn)結(jié)構(gòu)有害性與位點(diǎn)序列有害性后,根據(jù)公式(8)所定義的RNA 突變有害性度量的一個(gè)合理評(píng)估,定量分析16S rRNA序列的RNA突變有害性。圖6是16S rRNA基于線性函數(shù)定量分析大腸桿菌中16S rRNA序列的RNA突變有害性 的結(jié)果,其中圖6(a)為其突變有害性譜,圖6(b)是相應(yīng)的突變有害性分布直方圖。圖7是16S rRNA基于雙曲正切函數(shù)定量分析大腸桿菌中16S rRNA序列的RNA突變有害性的結(jié)果,其 中圖7(a)為其突變有害性譜,圖7(b)是相應(yīng)的突變有害性分布直方圖。由圖6和圖7可知,絕大多數(shù)的突變對(duì)結(jié)構(gòu)的影響不大,可視為無(wú)害突變,而僅有少數(shù)的突變產(chǎn)生的結(jié)構(gòu)差異非 常大,這些可視為有害突變。本發(fā)明的一種定量分析RNA突變有害性的方法可以直接應(yīng)用于流感病毒減活疫苗設(shè)計(jì) 中,也將對(duì)RNA結(jié)構(gòu)穩(wěn)健性研究、RNA進(jìn)化研究具有重要理論意義和實(shí)用價(jià)值。
權(quán)利要求
1. 一種定量分析RNA突變有害性的方法,其特征在于所述的方法融合了RNA突變的位點(diǎn)結(jié)構(gòu)有害性和RNA突變的位點(diǎn)序列有害性的信息,定量分析RNA突變的有害性。
2. 根據(jù)權(quán)利要求1所述的一種定量分析RNA突變有害性的方法,其中所說(shuō)的RNA突 變的位點(diǎn)結(jié)構(gòu)有害性,其特征是,它的計(jì)算包括下列步驟1) 接收來(lái)自計(jì)算機(jī)終端輸入的RNA序列,判別該序列的合法性;2) 產(chǎn)生突變體;3) 通過(guò)RNA折疊算法,得到輸入序列及其突變體的結(jié)構(gòu)整體;4) 計(jì)算輸入的RNA序列與其突變體之間的結(jié)構(gòu)整體的距離;5) 根據(jù)位點(diǎn)結(jié)構(gòu)有害性評(píng)估函數(shù),計(jì)算位點(diǎn)結(jié)構(gòu)有害性。
3. 根據(jù)權(quán)利要求1所述的一種定量分析RNA突變有害性的方法,其中所說(shuō)的RNA突 變的位點(diǎn)序列有害性,其特征是,它的計(jì)算包括下列歩驟1) 接收來(lái)向計(jì)算機(jī)終端輸入的RNA序列及其同源序列,判別它們的合法性;2) 多序列比對(duì);3) 根據(jù)位點(diǎn)序列有害性評(píng)估函數(shù),計(jì)算位點(diǎn)序列有害性。
4. 根據(jù)權(quán)利要求2所述的位點(diǎn)結(jié)構(gòu)有害性評(píng)估函數(shù),其特征是,它將輸入的RNA序列 與其突變體序列之間的結(jié)構(gòu)整體的距離作為RNA突變位點(diǎn)結(jié)構(gòu)有害性的- 種定量 度量。
5. 根據(jù)權(quán)利要求3所述的位點(diǎn)序列有害性評(píng)估函數(shù)是位點(diǎn)信息函數(shù)的函數(shù),其特征是, 它滿足五個(gè)性質(zhì),其中的位點(diǎn)信息函數(shù)可以采用線性函數(shù)或雙曲正切函數(shù) 的形式。
6. 根據(jù)權(quán)利要求1所述的位點(diǎn)結(jié)構(gòu)有害性和位點(diǎn)序列有害性的信息融合,其特征是, 它是指位點(diǎn)結(jié)構(gòu)有害性評(píng)估函數(shù)乘以位點(diǎn)序列有害性評(píng)估函數(shù)。
全文摘要
本發(fā)明涉及一種計(jì)算機(jī)程序,更具體地,是一種定量分析RNA突變有害性的方法。本發(fā)明旨在提供一種能簡(jiǎn)單、方便、快捷地分析RNA突變有害性的定量化方法,解決突變有害性評(píng)估難、定量難、分析難的問(wèn)題,達(dá)到分析與預(yù)測(cè)RNA有害突變的目的,從此而提高對(duì)RNA突變乃至RNA進(jìn)化的理解。為了達(dá)到上述目的,本發(fā)明在計(jì)算機(jī)系統(tǒng)中提供了一種定量分析RNA突變有害性的方法,該方法融合了RNA突變的位點(diǎn)結(jié)構(gòu)有害性和位點(diǎn)序列有害性的信息,定量分析RNA突變的有害性,給出RNA突變有害性的定量分析結(jié)果。
文檔編號(hào)G06F19/14GK101281562SQ20081011151
公開(kāi)日2008年10月8日 申請(qǐng)日期2008年6月5日 優(yōu)先權(quán)日2008年6月5日
發(fā)明者伯曉晨, 王升啟, 舒文杰 申請(qǐng)人:中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院放射與輻射醫(yī)學(xué)研究所