国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種推斷l(xiāng)ncRNA和疾病聯(lián)系的方法

      文檔序號:10725447閱讀:499來源:國知局
      一種推斷l(xiāng)ncRNA和疾病聯(lián)系的方法
      【專利摘要】本發(fā)明公開了一種lncRNA和疾病聯(lián)系的方法,根據(jù)多種異構(gòu)數(shù)據(jù)(lncRNA?疾病關(guān)系數(shù)據(jù),蛋白質(zhì)相互作用數(shù)據(jù)、lncRNA?蛋白質(zhì)相互作用數(shù)據(jù)等)構(gòu)建一個全局異構(gòu)網(wǎng)絡(luò),然后通過網(wǎng)絡(luò)傳播算法來識別可能的lncRNA和疾病的聯(lián)系。本發(fā)明與現(xiàn)有的技術(shù)相比,除了考慮實驗證實的lncRNA和疾病的聯(lián)系外,還可以集成更多的生物數(shù)據(jù),比如集成lnRNA?蛋白質(zhì)、蛋白質(zhì)?蛋白質(zhì)相互作用和蛋白質(zhì)?疾病等之間聯(lián)系。本發(fā)明通過融合更多的生物數(shù)據(jù)可以比以前的技術(shù)更準(zhǔn)確的預(yù)測出lncRNA和疾病的聯(lián)系,并且可以大規(guī)模的一次預(yù)測出多對lncRNA?疾病之間的聯(lián)系,有效的解決了生物實驗方法的盲目性、成本高的問題。
      【專利說明】
      一種推斷I ncRNA和疾病聯(lián)系的方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明屬于生物信息學(xué)領(lǐng)域,特別涉及一種鑒別和疾病相關(guān)的IncRNA的方法。
      【背景技術(shù)】
      [0002] 以"人類基因組計劃"為代表的研究表明,在人類基因組中約有93%的序列可以被 轉(zhuǎn)錄出來,其中能編碼蛋白質(zhì)的序列不超過2%,而98%以上的是非編碼序列,這些不編碼 蛋白質(zhì)的轉(zhuǎn)錄物被稱為非編碼RNA(noncoding RNA,ncRNA)。在這些非編碼RNA中,其中一類 長度大于200nt的RNA分子稱為長鏈非編碼RNA( long non-coding RNA,IncRNA)。通常, IncRNA具有跨物種的低保守性,低的表達水平和組織特異性,因此,當(dāng)初發(fā)現(xiàn)時,IncRNA曾 被認為是轉(zhuǎn)錄噪聲。近年來的研究表明,IncRNA在劑量補償效應(yīng)、表觀遺傳調(diào)控、細胞周期 調(diào)控和細胞分化調(diào)控等眾多生命活動中發(fā)揮重要作用。
      [0003] 越來越多的生物實驗已經(jīng)證實長非編碼RNA與包括心血管疾病,神經(jīng)性疾病和各 種癌癥在內(nèi)的許多人類疾病關(guān)系密切。比如,IncRNA H19的表達水平顯著和肝癌、膀胱癌和 胰腺癌等有密切的關(guān)系;IncRNA HOTAIR在肝細胞的高表達是肝癌肝移植術(shù)后腫瘤復(fù)發(fā)的 獨立預(yù)測因素。研究證實在膀胱癌的診斷中UCA1在尿液沉渣中具有高特異性和敏感性,這 表明UCA1在膀胱癌臨床診斷中可作為潛在的腫瘤標(biāo)記物。但是,IncRNA和其他生物分子的 不同作用導(dǎo)致疾病的精確發(fā)病機理還不是很清楚。最近幾年,研究者已做出很大的努力來 鑒別IncRNA和疾病之間的聯(lián)系,這些研究不僅有助于我們理解疾病發(fā)生的分子機制,而且 也能促進人類疾病在IncRNA水平上的診斷、治療、防治等生物標(biāo)記物的識別。很多存儲與 IncRNA有關(guān)的生物數(shù)據(jù)(IncRNA序列,表達譜,生物標(biāo)注等)的數(shù)據(jù)庫也已經(jīng)被建立起來,但 是,僅僅一些IncRNA和疾病的聯(lián)系被實驗所證實,并且被公開報道,因此,基于這些可用的 生物數(shù)據(jù)發(fā)展有效的計算方法來預(yù)測潛在的IncRNA和疾病之間的聯(lián)系就顯得非常重要。

      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明提供一種推斷IncRNA和疾病聯(lián)系的方法,其能更準(zhǔn)確的預(yù)測出IncRNA和疾 病的聯(lián)系,并且可以大規(guī)模的一次預(yù)測出多對IncRNA-疾病之間的聯(lián)系。
      [0005] 本發(fā)明的技術(shù)方案如下:
      [0006] -種推斷IncRNA和疾病聯(lián)系的方法,包括如下步驟:1)根據(jù)疾病之間的相似性分 數(shù)和已知的IncRNA-疾病之間的聯(lián)系計算IncRNA之間的功能相似性分數(shù);2)根據(jù)疾病相似 性數(shù)據(jù)、蛋白質(zhì)相互作用數(shù)據(jù)、IncRNA功能相似性數(shù)據(jù)以及他們兩兩之間的聯(lián)系構(gòu)建全局 的異構(gòu)網(wǎng)絡(luò),并正規(guī)化每個網(wǎng)絡(luò)的邊;3)信息從查詢網(wǎng)絡(luò)(疾病網(wǎng)絡(luò))沿著到目的網(wǎng)絡(luò) (IncRNA網(wǎng)絡(luò))的路徑進行信息傳播(包括網(wǎng)內(nèi)信息傳播和網(wǎng)間信息傳播),直到信息傳播到 緊鄰目的網(wǎng)絡(luò)的網(wǎng)絡(luò)停止。重復(fù)此過程,直到所有從查詢網(wǎng)絡(luò)到目的網(wǎng)絡(luò)的路徑都被執(zhí)行 一次。4)信息在目標(biāo)網(wǎng)絡(luò)內(nèi)進行傳播,網(wǎng)絡(luò)穩(wěn)定后每個節(jié)點的值構(gòu)成一個向量,這個向量與 第3步獲得的向量計算皮爾遜相關(guān)系數(shù),然后按照這個相關(guān)系數(shù)進行降序排名,值越大,說 明此IncRNA與疾病的相關(guān)性越強。
      [0007] 有益效果:本發(fā)明提出了一種推斷IncRNA和疾病之間聯(lián)系的通用計算框架,在本 框架中,任意數(shù)量的異構(gòu)網(wǎng)絡(luò)都可以集成到此模型中。與現(xiàn)有的技術(shù)相比,現(xiàn)有的方法至多 考慮2種實體網(wǎng)絡(luò),而本發(fā)明可以集成多種生物實體數(shù)據(jù)到全局網(wǎng)絡(luò)中,所以本發(fā)明由于應(yīng) 用了較多的生物信息從而能有效提高預(yù)測的準(zhǔn)確性。同時,通過正規(guī)化網(wǎng)絡(luò)的鄰接矩陣來 降低網(wǎng)絡(luò)拓撲結(jié)構(gòu)的影響。由于集成了蛋白質(zhì)相互作用信息以及蛋白質(zhì)與IncRNA和疾病的 關(guān)系信息,本發(fā)明可以推斷出不能僅僅根據(jù)IncRNA-疾病之間關(guān)系得到的聯(lián)系。而且,本方 法不但能推斷出和疾病有關(guān)的IncRNA信息,也能推斷出和IncRNA有關(guān)的疾病信息。
      【附圖說明】
      [0008] 圖1為本發(fā)明實施例整個過程的流程示意圖。
      [0009] 圖2為留一驗證下本發(fā)明實施例與其他方法性能比較的R0C曲線。
      [001 0]圖3為5折驗證下本發(fā)明實施例與其他方法性能比較的R0C曲線。
      [0011] 圖4在不同數(shù)據(jù)預(yù)處理情況下本發(fā)明實施例與其他方法性能比較的折線圖。
      【具體實施方式】
      [0012] 下面將結(jié)合附圖和實施例對本發(fā)明做進一步詳細說明。
      [0013] 本發(fā)明的主要流程為:1)根據(jù)疾病之間的相似性分數(shù)和已知的IncRNA-疾病之間 的聯(lián)系計算IncRNA之間的功能相似性分數(shù);2)根據(jù)疾病相似性數(shù)據(jù)、蛋白質(zhì)相互作用數(shù)據(jù)、 IncRNA功能相似性數(shù)據(jù)以及他們兩兩之間的聯(lián)系構(gòu)建全局的異構(gòu)網(wǎng)絡(luò),并正規(guī)化每個網(wǎng)絡(luò) 的邊;3)信息從查詢網(wǎng)絡(luò)(疾病網(wǎng)絡(luò))沿著到目的網(wǎng)絡(luò)(IncRNA網(wǎng)絡(luò))的路徑進行信息傳播 (包括網(wǎng)內(nèi)信息傳播和網(wǎng)間信息傳播),直到信息傳播到緊鄰目的網(wǎng)絡(luò)的網(wǎng)絡(luò)停止。重復(fù)此 過程,直到所有從查詢網(wǎng)絡(luò)到目的網(wǎng)絡(luò)的路徑都被執(zhí)行一次。4)信息在目標(biāo)網(wǎng)絡(luò)內(nèi)進行傳 播,網(wǎng)絡(luò)穩(wěn)定后每個節(jié)點的值構(gòu)成一個向量,這個向量與第3步獲得的向量計算皮爾遜相關(guān) 系數(shù),然后按照這個相關(guān)系數(shù)進行降序排名,值越大,說明此IncRNA與疾病的相關(guān)性越強。
      [0014] 其原理是通過在IncRNA相似性網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)、疾病相似性網(wǎng)絡(luò),以及 這些實體網(wǎng)絡(luò)兩兩間的作用或者關(guān)系網(wǎng)絡(luò)中傳遞信息從而計算IncRNA和疾病之間的相關(guān) 性,最終對相關(guān)性進行優(yōu)先排序并預(yù)測IncRNA和疾病之間的聯(lián)系。本發(fā)明提供了一種預(yù)測 IncRNA-疾病之間聯(lián)系的框架,任何一個新的生物實體網(wǎng)絡(luò)都可以被集成到此全局網(wǎng)絡(luò)中, 只需這個實體網(wǎng)絡(luò)和全局網(wǎng)絡(luò)中的其它兩個網(wǎng)絡(luò)存在連接即可。本發(fā)明也無需借助已有的 IncRNA和疾病之間的聯(lián)系即可進行預(yù)測,有效解決了生物實驗的盲目性和成本高的問題。 [0015] 如圖1所示,本發(fā)明實施例從LncRNADisease數(shù)據(jù)庫中下載了 1102個實驗驗證的 IncRNA-疾病之間的聯(lián)系,剔除掉非人類的和重復(fù)數(shù)據(jù)后,最終得到包含178個IncRNA和169 個疾病構(gòu)成的392個不同聯(lián)系。Driel與他的合作者采用文本挖掘的方法獲得了5080個疾病 的相似性分數(shù),本方案從其網(wǎng)站上下載此疾病相似性數(shù)據(jù)并把IncRNA-疾病關(guān)系中的169個 疾病對應(yīng)到此5080個疾病上。從HPRD數(shù)據(jù)庫中下載了包含8919個蛋白質(zhì)的32331個蛋白質(zhì) 相互作用數(shù)據(jù);從NPInter網(wǎng)站上下載了 IncRNA-基因的相互作用數(shù)據(jù),并篩選出了和 IncRNA-疾病中178個IncRNA有關(guān)的1052個IncRNA-基因相互作用數(shù)據(jù)。
      [0016]根據(jù)上面的數(shù)據(jù),具體實施包括以下步驟:
      [0017]步驟1:構(gòu)建LncRNA功能相似性網(wǎng)絡(luò)。根據(jù)5080個疾病的相似性,通過和兩個 IncRNA有聯(lián)系的兩個疾病集合計算這兩個IncRNA之間的相似性,即通過下面的公式計算出 兩個IncRNA的相似性:
      [0018]
      [0019] 其中,lncRNAl和lncRNA2分別代表兩個lncRNA,Di和D 2分別表示和這兩個IncRNA有 關(guān)聯(lián)的集合,m和η分別表示DdPD2*疾病的個數(shù),Sim(d,D)表示疾病d和一組疾病D的相似性 分數(shù),即疾病d和一組疾病D中每個疾病相似性分數(shù)的最大值。
      [0020] 步驟2:根據(jù)IncRNA功能相似性矩陣,蛋白質(zhì)相互作用矩陣,疾病相似性矩陣,以及 它們之間的關(guān)系數(shù)據(jù)構(gòu)造全局異構(gòu)網(wǎng)絡(luò)。用W表示全局網(wǎng)絡(luò)中任一子網(wǎng)的鄰接矩陣,然后根 據(jù)下面的公式分別正規(guī)化子網(wǎng)(IncRNA功能相似性網(wǎng)絡(luò)、蛋白質(zhì)相互網(wǎng)絡(luò)、疾病相似性網(wǎng)絡(luò) 以及這些實體之間的關(guān)系網(wǎng)絡(luò))的權(quán)重:
      [0022]其中,W(i,j)表示W(wǎng)矩陣中第i行,第j列的元素;D(i,i)是W矩陣中第i行元素的和。 [0023]步驟3:5080個疾病構(gòu)成的相似性網(wǎng)絡(luò)作為查詢網(wǎng)絡(luò),依次對疾病集合中的每一個 疾病,把其值置為1,其余置為〇,然后交替進行網(wǎng)內(nèi)信息擴散和網(wǎng)間信息傳遞,網(wǎng)內(nèi)的信息 擴散公式如下:
      [0024] Fi = aff,F(xiàn)i_1+(l-a)Y
      [0025] 其中,Y是節(jié)點的先驗值,ae(〇,l)是權(quán)重系數(shù),代表先驗知識的重要性。網(wǎng)間信息 傳遞公式為:
      [0027] 其中,neigbor(n)是與下一個網(wǎng)絡(luò)中當(dāng)前節(jié)點η直接連接的節(jié)點,φ(Χ)和φ(?)分別 表示節(jié)點X和節(jié)點η的值。把LncRNA網(wǎng)絡(luò)作為目標(biāo)網(wǎng)絡(luò),則沿著一條路徑的信息傳遞過程直 到信息傳到緊鄰目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)時停止。
      [0028] 步驟4:在全局網(wǎng)絡(luò)中,假如從查詢網(wǎng)絡(luò)(疾病網(wǎng)絡(luò))到目標(biāo)網(wǎng)絡(luò)(IncRNA網(wǎng)絡(luò))共有 1條路徑(這里1 = 2),沿著每條路徑信息傳播完成后,則緊鄰目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)中每個節(jié)點都 被賦予一個值。這些節(jié)點的值以向量形式表示,并乘以此網(wǎng)絡(luò)到目標(biāo)網(wǎng)絡(luò)的正規(guī)化鄰接矩 陣,這樣,通過1條路徑的信息傳播,最終會得到1個向量,然后把這1個向量連接在一起,產(chǎn) 生一個向量,記為?,。在目標(biāo)網(wǎng)絡(luò)中的節(jié)點通過網(wǎng)內(nèi)信息擴散也將獲得一個值,并以向量t 表示,重復(fù)t向量1次,得到一個向量f .。.
      [0029] 步驟5:計算向量#和向量f的皮爾遜相關(guān)系數(shù):
      [0030] .s =corr{\\i ?
      [0031 ]把此相關(guān)系數(shù)向量按照降序排列,就得到跟此疾病相關(guān)IncRNA的重要性的排序。 [0032]本發(fā)明的有效性驗證:
      [0033] 通過實現(xiàn)留一驗證和5折驗證來對本發(fā)明進行性能評估。在留一驗證中,392個實 驗驗證的IncRNA-疾病之間的聯(lián)系,依次去掉其中一個并當(dāng)作測試樣例,剩余的作為訓(xùn)練 集。在5折驗證中,把所有IncRNA-疾病之間的聯(lián)系隨機分成5份,每次其中一份用作測試集, 剩余的4份用作訓(xùn)練集。首先用留一驗證評估了在不同數(shù)據(jù)預(yù)處理下的性能,如表1所示,其 中,LncRDNetFlow-3N代表全局網(wǎng)絡(luò)包括傳遞網(wǎng)絡(luò)即蛋白質(zhì)相互作用網(wǎng)絡(luò),LncRDNetFlow-2N代表全局網(wǎng)絡(luò)不包括蛋白質(zhì)相互作用網(wǎng)絡(luò),用ROC曲線下面的面積(AUC)定量評估這兩種 網(wǎng)絡(luò)環(huán)境下不同數(shù)據(jù)預(yù)處理時本發(fā)明的性能。從表1中可以看出,幾乎在每種數(shù)據(jù)預(yù)處理 下,LncRDNetFlow-3N都要好于LncRDNetFlow-2N,即蛋白質(zhì)相互作用網(wǎng)絡(luò)的添加能夠改善 本發(fā)明的性能,這說明通過集成更多其它種類的生物數(shù)據(jù)可以提高本發(fā)明的預(yù)測效果。 [0034]為了更進一步評估本發(fā)明的性能,本發(fā)明也與其它目前最先進的方法進行了比 較,如圖2、圖3和圖4所示。驗證結(jié)果表明,本發(fā)明LncRDNetFlow-3N的性能均優(yōu)于其它目前 最先進的方法。
      [0035] 表1.不同數(shù)據(jù)預(yù)處理下兩種網(wǎng)絡(luò)配置的AUC值
      【主權(quán)項】
      1. 一種推斷IncRNA和疾病聯(lián)系的方法,其特征在于,包括如下步驟: 步驟1、根據(jù)獲得的疾病之間的相似性分數(shù)和已知的IncRNA-疾病之間的聯(lián)系計算 IncRNA之間的功能相似性分數(shù); 步驟2、根據(jù)獲得的疾病相似性數(shù)據(jù)、蛋白質(zhì)相互作用數(shù)據(jù)、步驟1得到的IncRNA功能相 似性數(shù)據(jù)W及他們兩兩之間的聯(lián)系構(gòu)建全局的異構(gòu)網(wǎng)絡(luò),并正規(guī)化每個網(wǎng)絡(luò)的邊; 步驟3、信息從疾病網(wǎng)絡(luò)構(gòu)成的查詢網(wǎng)絡(luò)沿著到IncRNA網(wǎng)絡(luò)構(gòu)成的目的網(wǎng)絡(luò)的路徑進 行信息傳播,直到信息傳播到緊鄰目的網(wǎng)絡(luò)的網(wǎng)絡(luò)停止,重復(fù)此過程,直到所有從查詢網(wǎng)絡(luò) 到目的網(wǎng)絡(luò)的路徑都被執(zhí)行一次; 步驟4、信息在目標(biāo)網(wǎng)絡(luò)內(nèi)進行傳播,網(wǎng)絡(luò)穩(wěn)定后每個節(jié)點的值構(gòu)成一個向量,運個向 量與步驟3獲得的向量計算皮爾遜相關(guān)系數(shù),然后按照運個相關(guān)系數(shù)進行降序排名,值越 大,說明此IncRNA與疾病的相關(guān)性越強。2. 根據(jù)權(quán)利要求1所述的推斷IncRNA和疾病聯(lián)系的方法,其特征在于,步驟1具體為:根 據(jù)獲得的疾病之間的相似性,計算一種疾病和一組疾病中每個疾病相似性的最大值,即運 種疾病和運組疾病的相似性分數(shù),然后通過下面的公式計算出兩個IncRNA的相似性:(1) 其中,IncRNA巧日lncRNA2分別代表兩個IncRNA, Di和化分別表示和運兩個IncRNA有關(guān)聯(lián) 的集合,m和η分別表示化和化中疾病的個數(shù),Sim(d,D)表示疾病d和一組疾病D的相似性分 數(shù)。3. 根據(jù)權(quán)利要求2所述的推斷IncRNA和疾病聯(lián)系的方法,其特征在于,步驟2具體為:用 W表示全局網(wǎng)絡(luò)中任一子網(wǎng)的鄰接矩陣,然后根據(jù)下面的公式正規(guī)化此子網(wǎng)邊的權(quán)重:其中,W(i,j)表示W(wǎng)矩陣中第i行,第j列的元素;D(i,i)是W矩陣中第i行元素的和。4. 根據(jù)權(quán)利要求3所述的推斷IncRNA和疾病聯(lián)系的方法,其特征在于,步驟3具體為:疾 病網(wǎng)絡(luò)作為查詢網(wǎng)絡(luò),對于疾病集合中的任一個疾病,把其值置為1,其余置為0,然后交替 進行網(wǎng)內(nèi)信息擴散和網(wǎng)間信息傳遞,網(wǎng)內(nèi)的信息擴散公式如下: Fi = aW'Fi-i+(l-a)Y 其中,Y是節(jié)點的先驗值,ae(〇,l)是權(quán)重系數(shù),代表先驗知識的重要性,網(wǎng)間信息傳遞 公式為:其中,neigboHn)是與下一個網(wǎng)絡(luò)中當(dāng)前節(jié)點η直接連接的節(jié)點,φ:(Χ〇和拇《)分別表示 節(jié)點X和節(jié)點η的值,把LncRNA網(wǎng)絡(luò)作為目標(biāo)網(wǎng)絡(luò),則沿著一條路徑的信息傳遞過程直到信 息傳到緊鄰目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)時停止。5. 根據(jù)權(quán)利要求4所述的推斷IncRNA和疾病聯(lián)系的方法,其特征在于,步驟4具體為:在 全局網(wǎng)絡(luò)中,假如從查詢網(wǎng)絡(luò)到目標(biāo)網(wǎng)絡(luò)共有1條路徑,沿著每條路徑信息傳播完成后,貝U 緊鄰目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)中每個節(jié)點都被賦予一個值,運些節(jié)點的值W向量形式表示,并乘W 此網(wǎng)絡(luò)到目標(biāo)網(wǎng)絡(luò)的正規(guī)化鄰接矩陣,運樣,通過1條路徑的信息傳播,最終會得到1個向 量,然后把運1個向量連接在一起,產(chǎn)生一個向量,記為采;在目標(biāo)網(wǎng)絡(luò)中的節(jié)點通過網(wǎng)內(nèi)信 息擴散也將獲得一個值,并W向量t表示,重復(fù)t向量1次,得到一個向量?;計算向量I和向量 ?的皮爾遜相關(guān)系數(shù): 'V 二(YA'T( V、/ ) 把此相關(guān)系數(shù)向量按照降序排列,就可得到跟此疾病相關(guān)IncRNA的重要性的排序。
      【文檔編號】G06F19/18GK106096331SQ201610406670
      【公開日】2016年11月9日
      【申請日】2016年6月12日
      【發(fā)明人】鄧磊, 張敬普, 張祖平
      【申請人】中南大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1