與基于網(wǎng)絡(luò)的生物標(biāo)記簽名相關(guān)的系統(tǒng)和方法
【專利說明】與基于網(wǎng)絡(luò)的生物標(biāo)記簽名相關(guān)的系統(tǒng)和方法
[0001] 相關(guān)申請(qǐng)的引用
[0002] 本申請(qǐng)依據(jù)35U.S.C. § 119要求于2012年6月21日提交的標(biāo)題為"Systems andMethodsRelatingtoNetwork-BasedBiomarkerSignatures" 的美國臨時(shí)專利申請(qǐng) No. 61/662, 806 和于 2012 年 7 月 16 日提交的標(biāo)題為"SystemsandMethodsRelatingto Network-BasedBiomarkerSignatures"的美國臨時(shí)專利申請(qǐng)No. 61/671,954 的優(yōu)先權(quán),以 上每篇申請(qǐng)的全部內(nèi)容并入本文。
【背景技術(shù)】
[0003] 在過去的十年中,與傳統(tǒng)的劑量相關(guān)的療效和毒性測定相結(jié)合的對(duì)于核酸、蛋白 質(zhì)和代謝物水平的高吞吐量測量已經(jīng)作為用于闡明許多生物過程的作用機(jī)制的手段出現(xiàn)。 研宄者試圖將來自這些迥然不同的測量的信息與來自科學(xué)文獻(xiàn)的關(guān)于生物路徑的知識(shí)組 合以組裝有意義的生物模型。為此,研宄者已經(jīng)開始使用可以挖掘大量數(shù)據(jù)的數(shù)學(xué)和計(jì)算 技術(shù)(諸如聚類和統(tǒng)計(jì)方法)來識(shí)別可能的生物作用機(jī)制。
[0004] 由于典型的基因表達(dá)數(shù)據(jù)中的信噪比很高、個(gè)體之間的基因型可變性、以及通常 測量的基因的數(shù)量相對(duì)于患者的數(shù)量而言很多,找到對(duì)于診斷工具足夠可靠的基因簽名是 非常具有挑戰(zhàn)性的。以前的工作探討了以下步驟的重要性:揭示由對(duì)于生物過程的一個(gè)或 多個(gè)擾動(dòng)而造成的基因表達(dá)變化的特征簽名,隨后作為對(duì)該過程的特定活動(dòng)振幅的度量、 對(duì)該簽名在附加的數(shù)據(jù)集合中的存在進(jìn)行評(píng)分。關(guān)于這方面的大多數(shù)工作涉及識(shí)別與疾病 表型相關(guān)的簽名并且對(duì)這些簽名進(jìn)行評(píng)分。這些表型推導(dǎo)的簽名提供重要的分類能力,但 是缺乏單個(gè)特定擾動(dòng)與簽名之間的機(jī)械或因果關(guān)系。因此,這些簽名可以表示多個(gè)截然不 同的未知的擾動(dòng),這些未知的擾動(dòng)通過通常未知的機(jī)制(一種或多種)導(dǎo)致相同的疾病表 型或者由相同的疾病表型而造成。
[0005] 一個(gè)挑戰(zhàn)在于理解生物系統(tǒng)中的各種單個(gè)的生物實(shí)體的活動(dòng)如何使得能夠激活 或抑制不同的生物機(jī)制。因?yàn)閱蝹€(gè)的實(shí)體(諸如基因)可能涉及多個(gè)生物過程(例如,炎 癥和細(xì)胞增殖),所以對(duì)基因的活動(dòng)的測量不足以識(shí)別觸發(fā)該活動(dòng)的基礎(chǔ)生物過程。
[0006] 當(dāng)前技術(shù)均尚未應(yīng)用于在微觀尺度上識(shí)別負(fù)責(zé)生物實(shí)體的活動(dòng)的基礎(chǔ)機(jī)制,也尚 未提供對(duì)不同的生物機(jī)制的激活的定量評(píng)定,在所述不同的生物機(jī)制中,這些實(shí)體在對(duì)潛 在有害的動(dòng)因(agent)和實(shí)驗(yàn)條件作出響應(yīng)時(shí)起作用。因此,需要改進(jìn)的用于考慮到生物 機(jī)制來對(duì)全系統(tǒng)生物數(shù)據(jù)進(jìn)行分析并且當(dāng)系統(tǒng)對(duì)動(dòng)因或環(huán)境變化做出響應(yīng)時(shí)量化生物系 統(tǒng)中的變化的系統(tǒng)和方法。
【發(fā)明內(nèi)容】
[0007] 本文中描述了用于識(shí)別生物實(shí)體(例如,基因和蛋白質(zhì))以及它們的表示感興趣 表型的性質(zhì)的系統(tǒng)、計(jì)算機(jī)程序產(chǎn)品和方法。所述系統(tǒng)、計(jì)算機(jī)程序產(chǎn)品和方法是基于多個(gè) 生物實(shí)體的被測活動(dòng)和促成感興趣表型的生物系統(tǒng)的網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型描述該生物系 統(tǒng)中的各個(gè)生物實(shí)體之間的關(guān)系。這些基于網(wǎng)絡(luò)的方法利用因果生物網(wǎng)絡(luò)模型,除了其他 數(shù)據(jù)源之外,這些因果生物網(wǎng)絡(luò)模型表示研宄文獻(xiàn)和所發(fā)布的數(shù)據(jù)集合中所識(shí)別的"原因 與結(jié)果"機(jī)制的知識(shí)。例如,在一些因果生物網(wǎng)絡(luò)模型中,基因轉(zhuǎn)錄中的變化被建模為該模 型中所表示的其他生物過程的結(jié)果。在一些實(shí)現(xiàn)方式中,生物系統(tǒng)的網(wǎng)絡(luò)模型使用生物表 達(dá)語言("BEL")來進(jìn)行描述,BEL是由馬薩諸塞州的劍橋的Selventa開發(fā)的用于生物網(wǎng) 絡(luò)表示的開源框架。本文中所描述的基于網(wǎng)絡(luò)的方法使用高吞吐量數(shù)據(jù)集合和因果生物網(wǎng) 絡(luò)模型來定量地評(píng)估樣本(例如,患者)內(nèi)的生物網(wǎng)絡(luò)的擾動(dòng)。在一些實(shí)現(xiàn)方式中,該評(píng)估 包括將所述網(wǎng)絡(luò)內(nèi)的生物實(shí)體的被觀測的活動(dòng)度量(例如,基因的表達(dá)水平)轉(zhuǎn)換為關(guān)于 所述網(wǎng)絡(luò)內(nèi)的其他生物實(shí)體的推斷活動(dòng)值。所述網(wǎng)絡(luò)中的生物實(shí)體的所測量的和所推斷的 活動(dòng)然后可以用于表示生物事件或機(jī)制與在細(xì)胞、組織或器官水平上觀察到的表型的相關(guān) 性?;顒?dòng)和它們的附隨統(tǒng)計(jì)數(shù)據(jù)提供生物網(wǎng)絡(luò)的與感興趣表型相關(guān)的變化或擾動(dòng)程度的可 量化度量,并且指示所述網(wǎng)絡(luò)中的生物實(shí)體的性質(zhì)的變化如何傳播通過網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。后 者可以幫助構(gòu)建實(shí)現(xiàn)比已知的分類器更高精度的知識(shí)驅(qū)動(dòng)的分類器,從而提供對(duì)感興趣生 物現(xiàn)象的更好概括。如本文中所使用的,活動(dòng)值可以用于從生物實(shí)體列表識(shí)別可以用作生 物簽名的實(shí)體子集,該生物簽名在生物學(xué)上是有意義的而且是可解釋的,并且在其用作診 斷或預(yù)報(bào)工具時(shí)是魯棒的而且高效率的。
[0008]在一些方面,本文中提供了用于對(duì)處置數(shù)據(jù)進(jìn)行處理以識(shí)別表示感興趣表型的生 物實(shí)體的計(jì)算機(jī)化方法和系統(tǒng)。處理裝置提供表示促成表型的生物系統(tǒng)的計(jì)算因果網(wǎng)絡(luò)模 型。計(jì)算因果網(wǎng)絡(luò)模型包括表示生物系統(tǒng)中的生物實(shí)體的多個(gè)節(jié)點(diǎn)。例如,節(jié)點(diǎn)可以對(duì)應(yīng) 于化合物、DNA、RNA、蛋白質(zhì)、肽、抗體、細(xì)胞、組織或器官。網(wǎng)絡(luò)模型還包括多個(gè)邊,這些邊 連接所述多個(gè)節(jié)點(diǎn)之中的節(jié)點(diǎn)對(duì),并且表示這些節(jié)點(diǎn)所表示的生物實(shí)體之間的關(guān)系。例如, 邊可以表示"綁定到"關(guān)系、"用…表達(dá)"關(guān)系、"基于表達(dá)譜共同調(diào)控"關(guān)系、"禁止"關(guān)系、 "在手稿中共同出現(xiàn)"關(guān)系、或"共享結(jié)構(gòu)元素"關(guān)系。在計(jì)算因果網(wǎng)絡(luò)模型中,一個(gè)或多個(gè) 邊與方向值相關(guān)聯(lián),該方向值表示節(jié)點(diǎn)所表示的生物實(shí)體之間的因果激活關(guān)系或因果抑制 關(guān)系,并且每個(gè)節(jié)點(diǎn)通過邊連接到至少一個(gè)其他節(jié)點(diǎn)。
[0009]所述處理裝置接收(i)與第一生物實(shí)體子集的在第一組條件下獲得的活動(dòng)相應(yīng) 的第一數(shù)據(jù)集合、以及(ii)與第一生物實(shí)體子集的在不同于第一組條件的第二組條件下 獲得的活動(dòng)相應(yīng)的第二數(shù)據(jù)集合。例如,第一組和第二組條件可以分別對(duì)應(yīng)于處置和控制 數(shù)據(jù),并且活動(dòng)度量包括倍數(shù)變化,該倍數(shù)變化是描述節(jié)點(diǎn)測量在控制數(shù)據(jù)與處置數(shù)據(jù)之 間從初始值到最終值變化了多少的數(shù)量。第一組和第二組條件與表型相關(guān)。所述處理裝置 還計(jì)算對(duì)于與第一生物實(shí)體子集相應(yīng)的第一節(jié)點(diǎn)子集的活動(dòng)度量集合,所述活動(dòng)度量表示 第一數(shù)據(jù)集合與第二數(shù)據(jù)集合之間的差別?;顒?dòng)度量可以包括由節(jié)點(diǎn)所表示的生物實(shí)體的 處置和控制數(shù)據(jù)之間的差別的倍數(shù)變化或?qū)?shù)。
[0010] 所述處理裝置基于計(jì)算因果網(wǎng)絡(luò)模型和活動(dòng)度量集合來產(chǎn)生第二節(jié)點(diǎn)子集的活 動(dòng)值集合,第二節(jié)點(diǎn)子集表示促成表型的、但是其活動(dòng)未被測量的生物實(shí)體候選。第二節(jié)點(diǎn) 子集對(duì)應(yīng)于骨干實(shí)體,因?yàn)檫@些節(jié)點(diǎn)不被直接測量。相反,第二節(jié)點(diǎn)子集的活動(dòng)值是從第一 活動(dòng)值集合和計(jì)算網(wǎng)絡(luò)模型推斷的。所述處理裝置還使用機(jī)器學(xué)習(xí)技術(shù)來基于活動(dòng)值集 合、活動(dòng)度量集合或這兩者產(chǎn)生用于表型的分類器。
[0011] 在上述方法的某些實(shí)施例中,產(chǎn)生分類器的步驟包括:產(chǎn)生將關(guān)于第一生物實(shí)體 子集的活動(dòng)度量的信息轉(zhuǎn)換為關(guān)于第二節(jié)點(diǎn)子集的活動(dòng)值的信息的算子;使用該算子識(shí)別 第二節(jié)點(diǎn)子集的子集;并且將所識(shí)別的子集作為輸入提供給機(jī)器學(xué)習(xí)技術(shù)。所述算子對(duì)應(yīng) 于骨干算子,該骨干算子作用于支持節(jié)點(diǎn)集合(g卩,第一生物實(shí)體子集)的活動(dòng)度量的矢量 上,并且提供骨干節(jié)點(diǎn)集合(即,第二節(jié)點(diǎn)子集)的活動(dòng)值的矢量。此外,多個(gè)骨干算子可 以經(jīng)由加權(quán)平均值或非線性函數(shù)組合。例如,多個(gè)骨干算子可以經(jīng)由內(nèi)核對(duì)準(zhǔn)技術(shù)組合,并 且骨干算子可以使用一個(gè)或多個(gè)擾動(dòng)測試的顯著性值來聚集。
[0012] 在上述方法的某些實(shí)施例中,對(duì)于多個(gè)計(jì)算因果網(wǎng)絡(luò)模型執(zhí)行活動(dòng)度量集合的計(jì) 算步驟和活動(dòng)值集合的產(chǎn)生步驟。所得的與每個(gè)計(jì)算因果網(wǎng)絡(luò)模型相應(yīng)的多個(gè)活動(dòng)值集合 聚集成在產(chǎn)生分類器的步驟使用的活動(dòng)值集合。在上述方法的某些實(shí)施例中,對(duì)于多個(gè)計(jì) 算因果網(wǎng)絡(luò)模型執(zhí)行活動(dòng)度量集合的計(jì)算步驟、活動(dòng)值集合的產(chǎn)生步驟以及分類器的產(chǎn)生 步驟。所述方法還包括:對(duì)于每個(gè)分類器,識(shí)別第二生物實(shí)體集合的具有高于閾值的分類 性能統(tǒng)計(jì)數(shù)據(jù)的一個(gè)或多個(gè)生物實(shí)體;并且將所識(shí)別的所有生物實(shí)體聚集成高性能實(shí)體集 合。所述處理裝置使用機(jī)器學(xué)習(xí)技術(shù)、基于與高性能實(shí)體集合相關(guān)聯(lián)的活動(dòng)值來產(chǎn)生生物 狀況的新的分類器,并且輸出該新的分類器。高性能實(shí)體可以對(duì)應(yīng)于跨多個(gè)網(wǎng)絡(luò)模型的骨 干節(jié)點(diǎn)的聚集集合,該聚集集合中的每個(gè)骨干節(jié)點(diǎn)與高于閾值的值相關(guān)聯(lián)。
[0013] 在上述方法的某些實(shí)施例中,機(jī)器學(xué)習(xí)技術(shù)包括支持矢量機(jī)技術(shù)。在上述方法的 某些實(shí)施例中,活動(dòng)值集合的產(chǎn)生步驟包括對(duì)于第二節(jié)點(diǎn)子集中的每個(gè)特定節(jié)點(diǎn),識(shí)別使 差別聲明最小化的活動(dòng)值。差別聲明表示所述特定節(jié)點(diǎn)的活動(dòng)值與計(jì)算因果網(wǎng)絡(luò)模型內(nèi)的 所述特定節(jié)點(diǎn)通過邊連接的節(jié)點(diǎn)的活動(dòng)值或活動(dòng)度量之間的差別,并且差別聲明取決于第 二節(jié)點(diǎn)子集中的每個(gè)節(jié)點(diǎn)的活動(dòng)值。在上述方法的某些實(shí)施例中,差別聲明還取決于第二 節(jié)點(diǎn)子集中的每個(gè)節(jié)點(diǎn)的方向值。差別聲明可以對(duì)應(yīng)于表示特定生物實(shí)體的活動(dòng)度量或活 動(dòng)值與該特定生物實(shí)體連接的生物實(shí)體的活動(dòng)度量或活動(dòng)值之間的差別的表達(dá)或可執(zhí)行 聲明。具體地講,差別聲明表示網(wǎng)絡(luò)模型中的特定節(jié)點(diǎn)的活動(dòng)度量或值與該特定節(jié)點(diǎn)經(jīng)由 邊連接的節(jié)點(diǎn)的活動(dòng)度量或值之間的差別。
[0014] 在上述方法的某些實(shí)施例中,活動(dòng)值集合中的每個(gè)活動(dòng)值是活動(dòng)度量集合中的活 動(dòng)度量的線性組合。在上述方法的某些實(shí)施例中,所述線性組合取決于第一節(jié)點(diǎn)子集中的 節(jié)點(diǎn)與第二節(jié)點(diǎn)子集中的節(jié)點(diǎn)之間的邊,并且還取決于第二節(jié)點(diǎn)子集中的節(jié)點(diǎn)之間的邊。 在上述方法的某些實(shí)施例中,所述線性組合不取決于第一節(jié)點(diǎn)子集中的節(jié)點(diǎn)之間的邊。在 上述方法的某些實(shí)施例中,所述方法還包括通過形成對(duì)于活動(dòng)度量集合的每個(gè)活動(dòng)度量的 變化估計(jì)的線性組合來提供對(duì)于活動(dòng)值集合的每個(gè)活動(dòng)值的變化估計(jì)。在上述方法的某些 實(shí)施例中,計(jì)算步驟的活動(dòng)度量是倍數(shù)變化值,并且用于每個(gè)節(jié)點(diǎn)的倍數(shù)變化值表示用于 各個(gè)節(jié)點(diǎn)所表示的生物實(shí)體的相應(yīng)的處置數(shù)據(jù)集合之間的差別的對(duì)數(shù)。在上述方法的某些 實(shí)施例中,第一生物實(shí)體子集包括基因集合,第一數(shù)據(jù)集合包括該基因集合的表達(dá)水平。
[0015] 本文中所描述的計(jì)算程序產(chǎn)品和計(jì)算機(jī)化方法可以在具有一個(gè)或多個(gè)計(jì)算裝置 的計(jì)算機(jī)化系統(tǒng)中實(shí)現(xiàn),其中每個(gè)計(jì)算裝置包括一個(gè)或多個(gè)處理器??偟膩碚f,本文中所描 述的計(jì)算機(jī)化系統(tǒng)可以