国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于鑒定具有期望生物活性的劑的方法

      文檔序號:6533087閱讀:173來源:國知局
      用于鑒定具有期望生物活性的劑的方法
      【專利摘要】本發(fā)明提供了用于鑒定具有期望生物活性的劑的方法、系統(tǒng)和裝置。具體地,所述方法、系統(tǒng)和裝置鑒定多種劑之間和/或一種或多種劑與所關注狀況之間的功能關系。多個實驗批次的數(shù)據(jù)被歸一化,導致批次效應,并且所述經調節(jié)的數(shù)據(jù)用于創(chuàng)建投射矩陣或函數(shù)。所述投射矩陣用于將所述數(shù)據(jù)投射到投射空間中,其中可確定在查詢劑或查詢狀況和多種候選劑之間的距離。
      【專利說明】用于鑒定具有期望生物活性的劑的方法

      【背景技術】
      [0001] 連接映射是一種熟知的假說產生和測試工具,在運籌學、計算機聯(lián)網和電信領域 具有成功的應用。人類基因組計劃(Human Genome Project)的進展和完成與平行發(fā)展的 極高通量的高密度DNA微陣列技術導致多個基因數(shù)據(jù)庫的產生。同時,經由計算機方法如 分子建模和對接研究對于新藥物活性物質的探索刺激了潛在的小分子活性物質大文庫的 產生。關聯(lián)疾病與遺傳特征圖、遺傳特征圖與藥物、和疾病與藥物的信息量以指數(shù)增加,并 且應用連接映射作為假說測試工具在藥物科學中成熟了。
      [0002] 可精確地測定之前未表征的基因功能、和藥劑的潛在靶標可通過連接映射在藥物 處理細胞的基因表達譜數(shù)據(jù)庫中鑒定的一般觀念首先在2000年隨著T. R. Hughes等人的開 創(chuàng)性論文("Functional discovery via a compendium of expression profiles,'Cell 102,109-126(2000))的公布而被提出,隨后不久隨著Justin Lamb和MIT的研究者的 The Connectivity Map Project ( ^Connectivity Map:Gene Expression Signatures to Connect Small Molecules,Genes,and Disease,,'Science,Vol 313(2006)而被提出。在 2006年,Lamb的團隊開始公布"C-Map"構造的結構、用于創(chuàng)建第一代C-Map的基因表達譜 的參考集合的形成、和持續(xù)大規(guī)模C-Map項目的啟動的詳細摘要,其可用的支持材料超鏈 接為 http://www. sciencemag. org/content/313/5795/1929/suppl/DCl。
      [0003] 現(xiàn)代連接映射具有嚴密的數(shù)學支持并且受到現(xiàn)代計算機技術的輔助,已經產生了 得到證實的醫(yī)學成就,鑒定了用于治療多種疾?。òò┌Y)的新劑。盡管如此,某些限 制性的假設挑戰(zhàn)連接映射對于復合酶起源的疾病或特征在于各種不同的和常常明顯不相 關的細胞表型表現(xiàn)的綜合征狀況的應用。根據(jù)Lamb,構建可用的連接映射的挑戰(zhàn)在于輸 入參考數(shù)據(jù)的選擇,其允許在查詢時生成臨床顯著的并且可用的輸出。對于Lamb的藥物 相關的C-Map,強結合包括引用結合,并且強結合是鑒定為hits的期望輸出。盡管注意到 高通量、高密度表達譜平臺的有益效果,Lamb仍警告說:"[e]ven this much firepower is insufficient to enable the analysis of every one of the estimated 200 different cell types exposed to every known perturbagen at every possible concentration for every possible duration··· compromises are therefore required,'(第 54 頁,第 3行,最后一段)。從而,Lamb將他的C-Map限制為來自非常少數(shù)量的確定細胞系的數(shù)據(jù)。 Lamb也強調如果參考連接是極其敏感的并且同時難以檢測(弱),會遇到特別的困難,并且 Lamb對于最小化多個擴散的結合采取了妥協(xié)。
      [0004] 基于標記的C-Map查詢通過鑒定對應于響應例如所關注狀況的顯著上調或下調 的基因的探針組列表而進行。將探針組的這種列表稱為狀況標記。該標記對于C-Map數(shù)據(jù) 庫計分以鑒定最好地復制或逆反標記的劑?;跇擞浀牟樵兎椒ㄒ呀洷怀晒Φ赜糜阼b定許 多新技術。然而,所關注的狀況可能涉及復雜的過程,其涉及多種已知的和未知的外部和內 部因素,并且對此類因素的響應可能隨時間而變化。這與在藥物篩選方法中通常觀察到的 結果相反,其中研究特定的對象、基因、或機制。假定細胞的復雜性響應于刺激,產生生物狀 況的準確標記并且區(qū)分可歸于干擾原(perturbagen)或狀況的基因表達數(shù)據(jù)與背景基因 表達數(shù)據(jù)可能是挑戰(zhàn)性的。因此,對于基于標記的查詢,查詢標記應被仔細地溯源,因為預 測值可能取決于基因標記的質量。
      [0005] 能夠影響查詢標記的一個因素是標記中包括的基因數(shù)量。必須選擇足夠數(shù)量的基 因以反映與對干擾原或狀況的細胞響應相關聯(lián)的顯著和關鍵生物學。然而,基因組優(yōu)選地 不包括表現(xiàn)出統(tǒng)計意義上顯著的表達波動(由于隨機機率)的大量基因。對于一些數(shù)據(jù)架 構和連接映射,過少的基因(例如多于20, 000個測量探針組中的500個探針組)可能產生 對于最高計分實例不穩(wěn)定的標記;查詢標記小的改變可能導致最高計分實例中的顯著差異 (即,查詢標記中小的改變可能顯著改變查詢結果)。與基于標記的C-Map查詢的探針的子 集的選擇相關聯(lián)的挑戰(zhàn)限制了該技術在一些情況下的效果。


      【發(fā)明內容】

      [0006] 本發(fā)明提供用于鑒定具有期望生物活性和/或作用機制的劑的新型方法、設備、 和系統(tǒng)。具體地,本公開提供一種工具,用于測試和產生關于劑(即,"干擾原")和基于經 多個批次收集的基因表達數(shù)據(jù)的生物狀況的假說。本發(fā)明的方法、設備、和系統(tǒng)適于例如鑒 定在不同狀況的處理中有效的劑。
      [0007] 本【具體實施方式】描述了多個實施例,它們廣泛地包括用于確定多種干擾原之間的 關系的方法、設備、和系統(tǒng)。本【具體實施方式】也描述了多個實施例,它們廣泛地包括用于確 定所關注的生物狀況和一種或多種干擾原之間的關系的方法、設備、和系統(tǒng)。該方法可用于 鑒定干擾原,其影響在不詳細了解造成該狀況的生物過程情況下的生物狀況的表現(xiàn)、與該 狀況相關聯(lián)的全部基因、或與該狀況相關聯(lián)的細胞類型。
      [0008] 用于構建數(shù)據(jù)架構的計算機實現(xiàn)的方法保存在計算機可讀存儲介質中,其以通信 方式聯(lián)接至處理器。該方法包括從計算機可讀介質的第一數(shù)據(jù)庫中檢索多個實例。每個實 例對應于多個批次之一且包括多個探針中的每個的表達值。多個批次中每個產生多個對照 實例和多個測試實例,所述多個對照實例對應于與對照相關的基因表達譜(GEP),所述多個 測試實例對應于與干擾原相關的GEP。該方法也包括從多個探針中選擇探針的子集(其可 為全部探針)。該方法還包括利用處理器來確定每個批次的平均對照GEP。平均對照GEP 僅包括選擇的探針的子集,并且對于每個探針的子集通過計算探針經多個對照實例的平均 表達值來確定。另外,該方法包括利用處理器確定批次中每個測試實例經調節(jié)的GEP。每個 經調節(jié)的GEP對于每個探針的子集通過確定每批測試實例中的表達值和對照實例中探針 的平均表達值之間的差異來確定。另外,該方法包括在計算機可讀介質的第二數(shù)據(jù)庫中存 儲多個經調節(jié)的實例,每個經調節(jié)的實例對應于在全部多個批次中由全部測試實例確定的 經調節(jié)的GEP之一。
      [0009] 數(shù)據(jù)結構包括經調節(jié)的GEP矩陣。經調節(jié)的GEP從多個批次的測試實例中確定。 每個批次包括多個對照實例和多個測試實例。每個經調節(jié)的GEP對于多個探針中的每個在 特定批次探針經多個對照實例的平均表達值和在特定批次內的測試實例中的探針表達值 之間包括不同的值。
      [0010] 用于鑒定處理一種狀況的候選干擾原的方法包括訪問與多個批次的GEP實驗相 關的數(shù)據(jù)。每個批次與多個測試實例相關聯(lián),測試實例與干擾原和多個對照實例相關聯(lián)。每 個實例包括多個探針中的每個的表達值。該方法也包括確定每個批次的平均對照GEP。平 均對照GEP通過將全部對照實例中每個探針的子集的表達值平均化來確定。該方法還包括 確定一批中每個測試實例的經調節(jié)的測試GEP。每個經調節(jié)的GEP通過從對應批次的平均 對照GEP中的對應探針表達值中減去測試實例中每個探針的子集的表達值來確定。數(shù)據(jù)矩 陣通過組合來自全部多個批次中全部經調節(jié)的測試GEP產生。通過從數(shù)據(jù)矩陣中移除任何 干擾原經調節(jié)的測試GEP創(chuàng)建約簡數(shù)據(jù)矩陣,對于干擾原在數(shù)據(jù)矩陣中僅存在單個經調節(jié) 的測試GEP。該方法還包括對約簡數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計分析以創(chuàng)建限定投射空間的投 射矩陣或投射函數(shù),并且使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建經 投射的矩陣。另外,該方法還包括確定維度數(shù)量以保持經投射的矩陣(該數(shù)量可為全部維 度)。確定經調節(jié)的狀況GEP,并且利用突出矩陣或投射函數(shù)將經調節(jié)的狀況GEP投射到投 射空間上。經調節(jié)的狀況GEP在投射空間中的位置與經調節(jié)的測試GEP在投射空間中的位 置進行比較以鑒定一種或多種干擾原。
      [0011] 在用于鑒定具有類似生物活性的干擾原的方法中,該方法包括訪問多個批次與 GEP實驗相關的數(shù)據(jù)。每個批次與多個對照實例和多個測試實例相關聯(lián)。多個對照實例中 的每個對于對照細胞包括與GEP相關的信息,包括多個測試實例中的每個包括與暴露于對 應干擾原的細胞相關的信息。每個實例包括多個探針中的每個的表達值。該方法也包括確 定每個批次的平均對照GEP。批次的平均對照GEP通過將全部對照GEP中每個探針的子集 的表達值平均化來確定。該方法還包括確定一批中每個測試實例的經調節(jié)的測試GEP。每 個經調節(jié)的測試GEP通過從對應批次的平均對照GEP的表達值中減去測試實例中每個探針 的子集的表達值來確定。數(shù)據(jù)矩陣通過組合來自全部多個批次的全部經調節(jié)的測試GEP創(chuàng) 建,并且約簡數(shù)據(jù)矩陣通過從數(shù)據(jù)矩陣中移除任何干擾原經調節(jié)的測試GEP創(chuàng)建,對于干 擾原在數(shù)據(jù)矩陣中僅存在單個經調節(jié)的測試GEP。對約簡數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計分析以 創(chuàng)建限定投射空間的投射矩陣或投射函數(shù)。利用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投 射空間上以創(chuàng)建經投射的矩陣。另外,該方法包括確定維度數(shù)量以保持經投射的矩陣。比 較經調節(jié)的測試GEP在投射空間中的位置以鑒定具有相似生物活性的干擾原。
      [0012] 用于鑒定處理一種狀況的候選干擾原的系統(tǒng)包括存儲多個GEP記錄的第一數(shù)據(jù) 庫。每個GEP記錄對應于多個批次中的一個,并且對于批次中以實驗方法確定的多個GEP中 的每個包括多個探針中的每個的表達值。多個批次中的每個包括多個對照GEP和多個測試 GEP。每個測試GEP用于暴露于一種干擾原的細胞("干擾原GEP")或暴露于一種狀況的 細胞("狀況GEP")。該系統(tǒng)還包括以通信方式聯(lián)接至數(shù)據(jù)庫和存儲器設備的計算機處理 器。存儲器設備存儲可由處理器執(zhí)行的指令以從計算機可讀介質的第一數(shù)據(jù)庫中檢索多個 GEP記錄。指令還是可執(zhí)行的,用于確定每個批次的平均對照GEP。批次的平均對照GEP僅 包括選擇的探針的子集,并且對于每個探針的子集通過計算探針經多個對照GEP的平均表 達值來確定。指令還是可執(zhí)行的,用于確定批次中每個干擾原GEP的經調節(jié)的測試GEP。每 個經調節(jié)的GEP對于每個探針的子集通過確定干擾原GEP中的表達值和對應批次對照GEP 中探針的平均表達值之間的差異來確定。另外,指令是可執(zhí)行的以創(chuàng)建數(shù)據(jù)矩陣,該矩陣通 過組合來自全部多個批次的全部經調節(jié)的測試GEP創(chuàng)建,并且約簡數(shù)據(jù)矩陣通過從數(shù)據(jù)矩 陣中移除任何干擾原經調節(jié)的測試GEP創(chuàng)建,對于干擾原在數(shù)據(jù)矩陣中僅存在單個經調節(jié) 的測試GEP。指令是可執(zhí)行的以對約簡數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計分析以創(chuàng)建限定投射空間 的投射矩陣或投射函數(shù),并且使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng) 建經投射的矩陣。另外,指令是可執(zhí)行的,用于確定維度數(shù)量以保持經投射的矩陣、確定經 調節(jié)的狀況GEP載體、并且利用投射矩陣或投射函數(shù)將經調節(jié)的狀況GEP載體投射到投射 空間上。指令還是可執(zhí)行的以比較經調節(jié)的狀況GEP中投射空間中的位置與經調節(jié)的測試 GEP在投射空間中的位置,從而鑒定一種或多種干擾原。
      [0013] 系統(tǒng)包括存儲多個GEP記錄的第一數(shù)據(jù)庫。每個GEP記錄對應于多個批次中的 一個,并且對于批次中以實驗方法確定的多個GEP中的每個包括多個探針中的每個的表達 值。多個批次中的每個包括多個對照GEP和多個干擾原GEP。每個干擾原GEP用于暴露于 干擾原的細胞。該系統(tǒng)也包括以通信方式聯(lián)接至數(shù)據(jù)庫和通過處理器存儲可執(zhí)行指令的存 儲器設備的計算機處理器。指令是可執(zhí)行的以從計算機可讀介質的第一數(shù)據(jù)庫中檢索多個 GEP記錄。指令還是可執(zhí)行的,用于確定每個批次的平均對照GEP。批次的平均對照GEP僅 包括選擇的探針的子集,并且對于每個探針的子集通過計算探針經多個對照GEP的平均表 達值來確定。此外,指令是可執(zhí)行的以確定批次中每個干擾原GEP的經調節(jié)的測試GEP。每 個經調節(jié)的GEP對于每個探針的子集通過確定干擾原GEP中的表達值和對應批次對照GEP 中探針的平均表達值之間的差異來確定。另外,指令是可執(zhí)行的以創(chuàng)建數(shù)據(jù)矩陣,該矩陣通 過組合來自全部多個批次的全部經調節(jié)的測試GEP創(chuàng)建,并且約簡數(shù)據(jù)矩陣通過從數(shù)據(jù)矩 陣中移除任何干擾原經調節(jié)的測試GEP創(chuàng)建,對于干擾原在數(shù)據(jù)矩陣中僅存在單個經調節(jié) 的測試GEP。另外,指令是可執(zhí)行的以對約簡數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計分析以創(chuàng)建限定投射 空間的投射矩陣或投射函數(shù),并且使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上 以創(chuàng)建經投射的矩陣。指令還是可執(zhí)行的,用于確定維度數(shù)量以保持經投射的矩陣、接收對 應于查詢干擾原的經調節(jié)的測試GEP選擇;并且用于比較對應于查詢干擾原的經調節(jié)的測 試GEP在投射空間中的位置與每個經調節(jié)的測試GEP在投射空間中的位置。
      [0014] 計算機可讀存儲介質存儲一組指令,該組指令通過聯(lián)接到計算機可讀存儲介質的 處理器可執(zhí)行。計算機可讀存儲介質包括用于獲取多個批次的GEP實驗數(shù)據(jù)的指令。每個 批次產生包括與干擾原相關的信息的多個測試實例和多個對照實例。每個實例包括多個探 針中的每個的表達值。存儲介質也包括用于確定每個批次的平均對照GEP的指令。批次的 平均對照GEP通過將全部對照GEP中每個探針的子集的表達值平均化來確定。另外,存儲介 質包括用于確定批次中每個測試實例經調節(jié)的測試GEP的指令。每個經調節(jié)的測試GEP通 過從對應批次的平均對照GEP的表達值中減去測試實例中每個探針的子集的表達值來確 定。另外,存儲介質包括用于通過組合來自全部多個批次的全部經調節(jié)的測試GEP創(chuàng)建數(shù) 據(jù)矩陣的指令和用于通過從數(shù)據(jù)矩陣中移除任何干擾原經調節(jié)的測試GEP創(chuàng)建約簡數(shù)據(jù) 矩陣的指令,對于干擾原在數(shù)據(jù)矩陣中僅存在單個經調節(jié)的測試GEP。另外,存儲介質包括 對約簡數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計分析以創(chuàng)建限定投射空間的投射矩陣或投射函數(shù)的指令、 使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建經投射的矩陣的指令、和用 于確定維度數(shù)量以保持經投射的矩陣的指令。存儲介質還包括比較經調節(jié)的測試GEP在投 射空間中的位置以鑒定具有相似生物活性的干擾原的指令。
      [0015] 計算機可讀存儲介質存儲一組指令,該組指令通過聯(lián)接到計算機可讀存儲介質的 處理器可執(zhí)行。計算機可讀存儲介質包括用于獲取多個批次的GEP實驗數(shù)據(jù)的指令。每個 批次產生包括與干擾原相關的信息的多個測試實例和多個對照實例。每個實例包括多個探 針中的每個的表達值。存儲介質也包括用于確定每個批次的平均對照GEP的指令。批次的 平均對照GEP通過將全部對照實例中每個探針的子集的表達值平均化來確定。另外,存儲 介質包括用于確定批次中每個測試實例經調節(jié)的測試GEP的指令。每個經調節(jié)的測試GEP 通過從對應批次的平均對照GEP的表達值中減去測試實例中每個探針的子集的表達值來 確定。另外,存儲介質包括用于通過組合來自全部多個批次的全部經調節(jié)的測試GEP創(chuàng)建 數(shù)據(jù)矩陣的指令和用于通過從數(shù)據(jù)矩陣中移除任何干擾原經調節(jié)的測試GEP創(chuàng)建約簡數(shù) 據(jù)矩陣的指令,對于干擾原在數(shù)據(jù)矩陣中僅存在單個經調節(jié)的測試GEP。另外,存儲介質包 括對約簡數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計分析以創(chuàng)建限定投射空間的投射矩陣或投射函數(shù)的指 令、使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建經投射的矩陣的指令、 和用于確定維度數(shù)量以保持經投射的矩陣的指令。存儲介質還包括用于確定經調節(jié)的狀況 GEP的指令、利用投射矩陣將經調節(jié)的狀況GEP投射到投射空間上的指令、和用于比較經調 節(jié)的狀況GEP在投射空間中的位置與經調節(jié)的測試GEP在投射空間中的位置以鑒定一種或 多種干擾原的指令。
      [0016] 用于鑒定具有相反生物活性的干擾原的方法包括訪問多個批次與GEP實驗相關 的數(shù)據(jù)。每個批次與多個對照實例和多個測試實例相關聯(lián)。多個對照實例中的每個包括與 對照細胞的GEP相關的信息。多個測試實例中的每個包括與暴露于相應干擾原的細胞相關 的信息。每個實例包括多個探針中的每個的表達值。平均對照GEP針對每個批次進行確定。 批次的平均對照GEP通過將全部對照GEP中每個探針的子集的表達值平均化來確定。該方 法還包括確定一批中每個測試實例的經調節(jié)的測試GEP。每個經調節(jié)的測試GEP通過從對 應批次的平均對照GEP的表達值中減去測試實例中每個探針的子集的表達值來確定。數(shù)據(jù) 矩陣通過組合來自全部多個批次的全部經調節(jié)的測試GEP創(chuàng)建,并且約簡數(shù)據(jù)矩陣通過從 數(shù)據(jù)矩陣中移除任何干擾原經調節(jié)的測試GEP創(chuàng)建,對于干擾原在數(shù)據(jù)矩陣中僅存在單個 經調節(jié)的測試GEP。對約簡數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計分析以創(chuàng)建限定投射空間的投射矩陣 或投射函數(shù)。該方法還包括利用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建 經投射的矩陣、以及確定維度數(shù)量以保持經投射的矩陣。另外,該方法還包括比較經調節(jié)的 測試GEP在投射空間中的位置以鑒定具有相反生物活性的干擾原。
      [0017] 通過鑒定暴露于不同干擾原的細胞的基因表達譜之間的相似性來配制組合物的 方法包括訪問與多個批次的GEP實驗相關的數(shù)據(jù)。每個批次與多個對照實例和多個測試實 例相關聯(lián)。多個對照實例中的每個對于對照細胞包括與GEP相關的信息,包括多個測試實 例中的每個包括與暴露于對應干擾原的細胞相關的信息。每個實例包括多個探針中的每個 的表達值。該方法也包括確定每個批次的平均對照GEP。批次的平均對照GEP通過將全部 對照GEP中每個探針的子集的表達值平均化來確定。該方法還包括確定一批中每個測試實 例的經調節(jié)的測試GEP。每個經調節(jié)的測試GEP通過從對應批次的平均對照GEP的表達值 中減去測試實例中每個探針的子集的表達值來確定。數(shù)據(jù)矩陣通過組合來自全部多個批次 的全部經調節(jié)的測試GEP創(chuàng)建,并且約簡數(shù)據(jù)矩陣通過從數(shù)據(jù)矩陣中移除任何干擾原經調 節(jié)的測試GEP創(chuàng)建,對于干擾原在數(shù)據(jù)矩陣中僅存在單個經調節(jié)的測試GEP。對約簡數(shù)據(jù)矩 陣執(zhí)行多變量統(tǒng)計分析以創(chuàng)建限定投射空間的投射矩陣或投射函數(shù),并且使用投射矩陣或 投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建投射矩陣。該方法還包括確定維度數(shù)量以保 持經投射的矩陣、比較經調節(jié)的測試GEP在投射空間中的位置以鑒定具有相似生物活性的 干擾原、以及配制包含可接受載體和根據(jù)其與第二干擾原在投射空間中的接近程度選擇的 至少一種干擾原的組合物。
      [0018] 通過鑒別暴露于一種干擾原的細胞的基因表達譜和暴露于一種狀況的細胞的基 因表達譜之間的差異來配制組合物的方法包括訪問與多個批次的GEP實驗相關的數(shù)據(jù)。每 個批次與多個測試實例相關聯(lián),測試實例與干擾原和多個對照實例相關聯(lián)。每個實例包括 多個探針中的每個的表達值。該方法也包括確定每個批次的平均對照GEP。批次的平均對 照GEP通過將全部對照實例中每個探針的子集的表達值平均化來確定。該方法還包括確定 一批中每個測試實例的經調節(jié)的測試GEP。每個經調節(jié)的測試GEP通過從對應批次的平均 對照GEP中的對應探針表達值中減去測試實例中每個探針的子集的表達值來確定。數(shù)據(jù)矩 陣通過組合來自全部多個批次的全部經調節(jié)的測試GEP創(chuàng)建,并且約簡數(shù)據(jù)矩陣通過從數(shù) 據(jù)矩陣中移除任何干擾原經調節(jié)的測試GEP創(chuàng)建,對于干擾原在數(shù)據(jù)矩陣中僅存在單個經 調節(jié)的測試GEP。對約簡數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計分析以創(chuàng)建限定投射空間的投射矩陣或 投射函數(shù),并且使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建投射矩陣。 另外,該方法還包括確定維度數(shù)量以保持經投射的矩陣、確定經調節(jié)的狀況GEP、以及利用 投射矩陣將經調節(jié)的狀況GEP投射到投射空間上。另外,該方法還包括比較經調節(jié)的狀況 GEP在投射空間中的位置與經調節(jié)的測試GEP在投射空間中的位置以鑒定一種或多種干擾 原,以及配制包含可接受載體與根據(jù)位置比較選擇的至少一種干擾原的組合物。
      [0019] 這些以及本發(fā)明的附加對象、實施例和方面參見下面的【專利附圖】

      【附圖說明】和【具體實施方式】 將變得顯而易見。

      【專利附圖】
      附圖
      【附圖說明】
      [0020] 雖然本說明書通過特別指出并清楚地要求被視為本發(fā)明的主題作出結論,但據(jù)信 由下列說明和附圖可充分地理解本發(fā)明。為了更清楚地顯示其它元件,某些附圖可通過省 略所選擇的元件進行簡化。在任何示例性實施例中,在某些附圖中如此省略元件均不一定 指示存在或不存在特定元件,除非在相應的文字說明中清楚地描述確實如此。所有附圖均 未必按比例繪制。
      [0021] 圖1是適用于本發(fā)明的計算機系統(tǒng)的示意圖;
      [0022] 圖2是與圖1計算機系統(tǒng)的計算機可讀介質相關聯(lián)的實例的示意圖;
      [0023] 圖3是根據(jù)本【具體實施方式】適用的可編程計算機的示意圖;
      [0024] 圖4是用于產生實例的示例性系統(tǒng)的示意圖;
      [0025] 圖5示出根據(jù)本【具體實施方式】鑒定相似劑的方法;
      [0026] 圖6示出鑒定用于處理狀況的候選劑的方法;
      [0027] 圖7示出根據(jù)圖5和6的方法準備數(shù)據(jù)的方法;
      [0028] 圖8A示出根據(jù)圖5和6的方法執(zhí)行多變量統(tǒng)計分析的方法;
      [0029] 圖8B示出根據(jù)圖8A的方法在多變量統(tǒng)計分析中使用正則化Fisher判別分析確 定投射空間的方法;
      [0030] 圖9示出根據(jù)圖5的方法查詢化學相似性的方法;
      [0031] 圖10示出根據(jù)圖6的方法查詢期望機制的方法;
      [0032] 圖11示出根據(jù)圖7的方法選擇探針的方法;
      [0033] 圖12示出根據(jù)圖7的方法確定經調節(jié)的基因表達譜的方法;
      [0034] 圖13示出與本【具體實施方式】的各種實施例相關聯(lián)的示例性數(shù)據(jù)結構;
      [0035] 圖14示出查詢與查詢劑化學類似的劑的示例性結果;
      [0036] 圖15示出涉及查詢在第一細胞系中具有類似于查詢劑的生物活性的劑的示例性 結果;
      [0037] 圖16示出涉及查詢在第二細胞系中具有類似于相同查詢劑的生物活性的劑的示 例性結果;并且
      [0038] 圖17示出涉及查詢在細胞系中具有與查詢條件差異最大的基因表達譜的劑的示 例性結果。

      【具體實施方式】
      [0039] 現(xiàn)在將偶爾參照本發(fā)明的具體實施例來描述本發(fā)明。然而,這個發(fā)明可按不同的 形式來實施并且不應當被理解為只限于本文所示的實施例。相反,提供這些實施例使得本 公開成為徹底和完全的,因而向本領域的技術人員充分傳達本發(fā)明的范圍。
      [0040] 除非另外限定,本文所用的所有科技術語同本發(fā)明所屬領域的普通技術人員一般 理解的術語具有相同的含義。本發(fā)明說明書中所用的術語僅用于描述具體實施例并不旨在 限制本發(fā)明。如本發(fā)明的說明書和所附權利要求中所用,除非上下文另外清楚地指明,單數(shù) 形式"一個"、"一種"和"所述"旨在也包括復數(shù)形式。除非另外指明,所有數(shù)值將被理解為 在所有情況下由術語"約"來修飾。另外,公開的任何范圍將被理解為包括范圍本身和其中 包括的任何值、以及端值。所有數(shù)值范圍是包括端值在內的較窄的范圍;描述的范圍上限和 下限是可互換的,以創(chuàng)建沒有明確描述的范圍。
      [0041] 如本文所用,術語"基因表達譜"和"基因表達譜實驗"是指使用任何合適的表達 譜技術在生物樣本中測量多個基因的表達。示例性的基因表達生物分子代表(即,"生物 標記")包括蛋白、核酸(例如mRNA或cDNA)、蛋白片段或代謝物、和/或由基因轉錄物編 碼的蛋白編碼的酶活性產物,并且本文所述的任何生物標記的檢測和/或測量適用于本發(fā) 明的情況。在一個實施例中,該方法包括測量由一個或多個基因編碼的mRNA。如果需要, 該方法包括反轉錄由一個或多個基因編碼的mRNA并測量對應的cDNA??墒褂萌魏味亢?酸分析。例如,存在多種定量雜交、Northern印跡、和聚合酶鏈反應方法用于定量測量生物 樣本中 mRNA 轉錄物或 cDNA 的量。參見例如 Current Protocols in Molecular Biology, Ausubel等人編輯,John Wiley&Sons(2007),包括全部補充內容。任選地,mRNA或cDNA在 雜交前通過聚合酶鏈反應(PCR)進行擴增。mRNA或cDNA樣品隨后通過例如與由一個或多 個基因板編碼的mRNA或cDNA特異性的寡核苷酸雜交進行檢查,所述基因任選地固定在基 板(例如陣列或微陣列)上。mRNA或cDNA特異性的一個或多個合適探針的選擇、以及雜交 或PCR條件的選擇是從事核酸工作的科學家所掌握的。mRNA或cDNA與mRNA或cDNA特異 性的寡核苷酸探針的結合允許鑒定并量化基因表達。例如,幾千個基因的mRNA表達可使用 微陣列技術來測定。出現(xiàn)的其它可使用的技術包括RNA-Seq或利用NextGen測序技術的全 轉錄組測序。
      [0042] 如本文所用,術語"微陣列"廣義上是指核酸、寡核苷酸、蛋白、小分子、大分子、 和/或它們的組合在基板上任何有序的陣列,其能夠檢測和/或量化生物樣本中的基 因表達(即,基因表達譜)。微陣列的非限制性例子購自Affymetrix,Inc. ;Agilent Technologies, Inc. ;Ilumina,Inc. ;GE Healthcare, Inc. ;Applied Biosystems, Inc.;和 Beckman Coulter,Inc〇
      [0043] 如本文所用,術語"干擾原"是指在基因表達譜實驗用作挑戰(zhàn)以產生基因表達數(shù) 據(jù)的刺激物。示例性的干擾原包括但不限于天然產物如植物或哺乳動物提取物;合成化 學制品;小分子;肽;蛋白(如抗體或其片段);擬肽;多核苷酸(DNA或RNA);藥物(如 Sigma-Aldrich LOPAC (Library of Pharmacologically Active Compounds)集合);以及 它們的組合。干擾原的其它非限制性例子包括植物物質(其可來源于植物的根、樹皮、葉、 種子或果實中的一種或多種)。一些植物物質可使用一種或多種溶劑從植物生物質(例如 根、莖、樹皮、葉等)中提取。干擾原組合物(例如植物組合物)可包含化合物的復雜混合 物并且不含不同的活性成分。
      [0044] 以舉例的非限制性方式,干擾原在本發(fā)明的多個方面是由美國食品和藥物管理 局(Food and Drug Administration) -般認為是安全(Generally Recognized as Safe, GRAS)的物質、食品添加劑、或在包括非處方藥在內的消費品中使用的物質。適用作干擾原 的一些劑的例子可見于:PubChem database associated with the National Institutes of Health, USA(http://pubchem. ncbi. nlm. nih. gov) ;Ingredient Database of the Personal Care Products Council (http://online, personalcarecouncil. org/jsp/Home. jsp);和 2010International Cosmetic Ingredient Dictionary and Handbook,第 13 版, 公布自 Personal Care Products Council ;EU Cosmetic Ingredients and Substances list ;Japan Cosmetic Ingredients List ;Personal Care Products Council, SkinDeep database(URL:http://www. cosmeticsdatabase. com) ;FDA Approved Excipients List ; FDA OTC List ;Japan Quasi Drug List ;US FDA Everything Added to Food database ; EU Food Additive list ;Japan Existing Food Additives, Flavor GRAS list;US FDA Select Committee on GRAS Substances ;US Household Products Database ;Global New Products Database(GNPD)Personal Care, Health Care, Food/Drink/Pet and Household database (URL:http://www. gnpd. com);以及化妝品成分和植物物質的供應商。在各種實施 例中,干擾原是病原體(如微生物或病毒)、輻射、加熱、pH、滲透壓等等。
      [0045] 如本文所用,術語"實例"和"基因表達譜記錄"是指涉及基因表達譜實驗的數(shù)據(jù)。 例如,在一些實施例中,將干擾原施用于細胞,檢測和/或定量基因表達,并且將所得基因 表達數(shù)據(jù)存儲為數(shù)據(jù)架構中的實例。實例可為"測試實例,"其包括來自施用干擾原的細胞 的基因表達數(shù)據(jù);"狀況實例",其包括來自在檢查中具有特定表型或生物狀況的細胞的基 因表達數(shù)據(jù)(例如與失調相關聯(lián)的細胞,諸如癌癥細胞、人體中受鼻病毒感染影響的細胞、 或被病毒或細菌感染的細胞);或"對照實例",其包括來自未暴露于干擾原并且未表現(xiàn)出 所關注狀況的細胞的基因表達數(shù)據(jù)(即,來自對照細胞的數(shù)據(jù))。在一些實施例中,基因表 達數(shù)據(jù)包括代表作為基因表達譜實驗一部分的基因的標識符列表。標識符可包括基因名 稱、基因符號、微陣列探針I(yè)D、或任何其它標識符。在一些實施例中,基因表達數(shù)據(jù)包括測量 使用一個或多個探針(例如寡核苷酸探針)檢測的兩個或更多個基因的基因表達。在一些 實施例中,一個實例包括來自微陣列實驗的數(shù)據(jù)并且包括按探針靶基因相對于在對照條件 下基因表達的不同表達程度排序的微陣列探針I(yè)D列表。基因表達數(shù)據(jù)也可包括元數(shù)據(jù),包 括但不限于與一種或多種干擾原、基因表達譜測試條件、細胞、和微陣列有關的數(shù)據(jù)。
      [0046] 如本文所用,術語"計算機可讀介質"是指任何電子存儲介質并包括但不限于在任 何方法或技術中用于存儲信息(諸如計算機可讀的指令、數(shù)據(jù)和數(shù)據(jù)結構、數(shù)字文件、軟件 程序和應用程序、或其它數(shù)字信息)的任何易失性的、非易失性的、可移除的、和不可移除 的介質。計算機可讀介質包括但不限于專用集成電路(ASIC)、光盤(CD)、數(shù)字多功能光盤 (DVD)、隨機存取存儲器(RAM)、同步RAM (SRAM)、動態(tài)RAM (DRAM)、同步DRAM (SDRAM)、雙倍數(shù) 據(jù)速率SDRAM (DDR SDRAM)、直接RAM總線RAM (DRRAM)、只讀存儲器(ROM)、可編程只讀存儲 器(PROM)、電可擦可編程只讀存儲器(EEPR0M)、盤、載波、和記憶棒。易失性存儲器的例子 包括但不限于隨機存取存儲器(RAM)、同步RAM (SRAM)、動態(tài)RAM (DRAM)、同步DRAM (SDRAM)、 雙倍數(shù)據(jù)速率SDRAM (DDR SDRAM)、和直接RAM總線RAM (DRRAM)。非易失性存儲器的例 子包括但不限于只讀存儲器(ROM)、可編程只讀存儲器(PROM)、可擦可編程只讀存儲器 (EPROM)、和電可擦可編程只讀存儲器(EEPR0M)。存儲器能夠存儲過程和/或數(shù)據(jù)。其它 計算機可讀介質包括任何合適的盤介質,包括但不限于磁盤驅動器、軟盤驅動器、磁帶驅動 器、極碟驅動器、閃存存儲卡、記憶棒、光盤ROM (⑶-ROM)、⑶可記錄驅動器(⑶-R驅動器)、 CD可復寫驅動器(CD-RW驅動器)、和數(shù)字多功能ROM驅動器(DVD ROM)。如本文所用、術語 "計算機可讀存儲媒體"是指除載波和其它瞬態(tài)信號之外的任何計算機可讀存儲媒體。
      [0047] 如本文所用,術語"軟件"和"軟件應用程序"是指一個或多個計算機可讀和/或 可執(zhí)行指令,所述指令導致計算裝置或其它電子裝置執(zhí)行功能、動作、和/或以所需方式運 轉。指令可以一種或多種不同形式體現(xiàn),例如例程、算法、模塊、庫、方法、和/或程序。軟件 可以多種可執(zhí)行的和/或可裝載的形式實現(xiàn)并且可位于一個計算機組件中和/或分布在兩 個或更多個連通的、協(xié)作的、和/或并行處理的計算機組件之間,并且因此可以串行、并行、 和其它方式被載入和/或執(zhí)行??蓪④浖鎯υ谝粋€或多個計算機可讀介質上,并且可全 部或部分地實現(xiàn)本發(fā)明的方法和功能。
      [0048] 如本文所用,術語"數(shù)據(jù)架構" 一般是指一種或多種數(shù)字數(shù)據(jù)結構,其包括有組織 的數(shù)據(jù)集合。在一些實施例中,可將數(shù)字數(shù)據(jù)結構在計算機可讀介質上存儲為數(shù)字文件 (例如電子表格文件、文本文件、文字處理文件、數(shù)據(jù)庫文件等)。在一些實施例中,數(shù)據(jù)架 構以數(shù)據(jù)庫形式提供,其可通過數(shù)據(jù)庫管理系統(tǒng)(DBMS)進行管理,該系統(tǒng)用于訪問、組織、 和選擇存儲在數(shù)據(jù)庫中的數(shù)據(jù)(例如基因表達譜數(shù)據(jù))。在一些實施例中,可將數(shù)據(jù)庫存儲 在單獨的計算機可讀介質上,然而在其它實施例中,可將數(shù)據(jù)庫存儲在不止一個計算機可 讀介質上和/或跨它們存儲。
      [0049] I.系統(tǒng)和裝置
      [0050] 參見圖1、2、和4,現(xiàn)在將描述根據(jù)本發(fā)明用于識別干擾原、狀況、和基因之間的關 系的系統(tǒng)和裝置的一些例子。系統(tǒng)10包括計算裝置12、14、與計算裝置12相關聯(lián)的計算機 可讀介質16、和通信網絡18中的一個或多個。
      [0051] 可以硬盤驅動器形式提供的計算機可讀介質16包括諸如數(shù)據(jù)庫文件的數(shù)字文件 20,其包括多個實例22、24、和26,它們存儲在與數(shù)字文件20相關聯(lián)的數(shù)據(jù)結構中。多個實 例可存儲在關系表和索引或其它類型的計算機可讀介質中。實例22、24、和26也可跨多個 數(shù)字文件分布;單個數(shù)字文件20本文僅為簡單起見進行例示。
      [0052] 數(shù)字文件20可以廣泛多種格式提供,包括但不限于文字處理文件格式(例如 Microsoft Word)、電子表格文件格式(例如Microsoft Excel)、和數(shù)據(jù)庫文件格式(例 如GIF、PNG)。合適文件格式的一些常見例子包括但不限于與文件擴展名如*. xls、*. xld、 *· xlk、*· xll、*· xlt、*· xlxs、*· dif、*· db、*· dbf、*· accdb、*· mdb、*· mdf、*· cdb、*· fdb、 氺· csv、氺sql、氺· xml、氺· doc、氺· txt、氺· rtf、氺· log、氺· docx、氺· ans、氺· pages、矛口氺· wps 才西 的那些。
      [0053] 參見圖2,在一些實施例中實例22可包括微陣列探針I(yè)D的排序列表和相應的 表達值,其中N的值等于微陣列上探針的總數(shù)。通用微陣列包括Affymetrix基因芯片和 Illumina基因芯片,它們均包括探針組和定制探針組。合適的微陣列芯片包括但不限于設 計用于表征人類基因組的那些,諸如Affymetrix型號HG-U132和U133(例如Affymetrix HG-U133APlus2)。然而,本領域的技術人員應當理解任何微陣列,無論其特有來源如何,只 要根據(jù)本發(fā)明用于構建數(shù)據(jù)架構的探針組基本上類似,是合適的。
      [0054] 來源于微陣列分析的實例可包括基因探針I(yè)D (和對應的表達值)的排序列表,其 中列表包括例如22, 000個或更多的探針I(yè)D (也預期包括更少的探針I(yè)D)。排序列表可存儲 在數(shù)字文件20的數(shù)據(jù)結構中并且排列數(shù)據(jù)使得當數(shù)字文件由軟件應用程序28讀取時,復 制多個字符串,代表探針I(yè)D的排序列表。在各種實施例中,每個實例包括探針I(yè)D的完全列 表,但是預期一個或多個實例可包括少于全部的微陣列探針I(yè)D。也預期實例可包括除探針 ID的排序列表之外或取代它們的其它數(shù)據(jù)。例如,相同基因名稱和/或基因符號的排序列 表可被取代為探針I(yè)D的排序列表。附加的數(shù)據(jù)可用實例和/或數(shù)字文件20存儲。在一些 實施例中,附加的數(shù)據(jù)稱之為元數(shù)據(jù)并且可包括細胞系標識、批號、暴露時間、和其它經驗 數(shù)據(jù)、以及與實例ID相關聯(lián)的任何其它描述素材中的一個或多個。排序列表也可包括與每 個標識符相關聯(lián)的數(shù)值,其代表標識符在排序列表中的排序位置。
      [0055] 再次參見圖1、2、和3,計算機可讀介質16也可具有存儲在其上的第二數(shù)字文件 30。第二數(shù)字文件30包括與一個或多個狀況相關聯(lián)的微陣列探針I(yè)D的一個或多個序列32。 微陣列探針I(yè)D的列表32任選地包括比第一數(shù)字文件20的實例更小的探針I(yè)D列表。在一 些實施例中,列表包括2至1000個探針I(yè)D。在其它具體實施例中,列表包括50至400個探 針I(yè)D。然而,在一些實施例中,列表包括5, 000至10, 000個探針I(yè)D,5, 000至20, 000個探 針 ID,10, 000 至 20, 000 個探針 ID,10, 000 至 50, 000 個探針 ID,20, 000 至 50, 000 個探針 ID,或全部探針I(yè)D。第二數(shù)字文件30的探針I(yè)D的列表32包括探針I(yè)D列表和相應的表達 值,其代表選擇用于代表受關注狀況的上調和/或下調基因。在一些實施例中,第一列表可 代表上調基因并且第二列表可代表基因表達譜的下調基因。列表可存儲在數(shù)字文件30的 數(shù)據(jù)結構中并且排列數(shù)據(jù)使得當數(shù)字文件由軟件應用程序28讀取時,復制多個字符串,代 表探針I(yè)D的列表。與探針I(yè)D相反,相同的基因名稱和/或基因符號(或另一個命名)可 被取代為探針組ID的列表。附加的數(shù)據(jù)可用數(shù)字文件30存儲,并且這常稱為元數(shù)據(jù),其可 包括任何相關聯(lián)的信息,例如細胞系或樣本源、以及微陣列標識。在一些實施例中,可將一 個或多個基因表達譜存儲在多個數(shù)字文件中和/或存儲在多個計算機可讀介質上。在其它 實施例中,可將多個基因表達譜(例如32、34)存儲在相同數(shù)字文件(例如30)中或存儲在 包括實例22、24、和26的相同數(shù)字文件或數(shù)據(jù)庫中。
      [0056] 存儲在第一和第二數(shù)字文件中的數(shù)據(jù)可以廣泛多種數(shù)據(jù)結構和/或格式存儲,例 如本文所述的數(shù)據(jù)結構和/或格式。在一些實施例中,將數(shù)據(jù)存儲在一個或多個可搜索數(shù) 據(jù)庫中,例如免費數(shù)據(jù)庫、商業(yè)數(shù)據(jù)庫、或公司的內部專有數(shù)據(jù)庫??筛鶕?jù)任何模型提供或 結構化數(shù)據(jù)庫,例如并且非限制地包括平面模型、分層模型、網絡模型、關系模型、維度模 型、或面向對象的模型。在一些實施例中,至少一個可搜索數(shù)據(jù)庫是專有數(shù)據(jù)庫。系統(tǒng)10 的使用者可使用與數(shù)據(jù)庫管理系統(tǒng)相關聯(lián)的圖形用戶界面訪問以通信方式聯(lián)接至系統(tǒng)的 一個或多個數(shù)據(jù)庫或其它數(shù)據(jù)來源并從中檢索數(shù)據(jù)。在一些實施例中,以第一數(shù)據(jù)庫形式 提供第一數(shù)字文件20并且以第二數(shù)據(jù)庫形式提供第二數(shù)字文件30。在其它實施例中,可合 并第一和第二數(shù)字文件并以單個文件形式提供。
      [0057] 在一些實施例中,第一數(shù)字文件20可包括通過通信網絡18從存儲在計算機可讀 介質38上的數(shù)字文件36中傳輸?shù)臄?shù)據(jù)。在一個實施例中,第一數(shù)字文件20可包括獲取自 細胞系(例如鼻上皮細胞系、癌細胞系等等)的基因表達數(shù)據(jù)以及來自數(shù)字文件36的數(shù) 據(jù),諸如來自其它細胞系或細胞類型的基因表達數(shù)據(jù)、干擾原信息、臨床實驗數(shù)據(jù)、科學文 獻、化學數(shù)據(jù)庫、藥物數(shù)據(jù)庫、和其它數(shù)據(jù)與元數(shù)據(jù)。數(shù)字文件36可以數(shù)據(jù)庫形式提供,包 括但不限于Sigma-Aldrich L0PAC集合、Broad Institute CMAP集合、GE0集合、和Chemical Abstracts Service (CAS)數(shù)據(jù)庫。
      [0058] 計算機可讀介質16 (或另一種計算機可讀介質如16)也可具有存儲在其上的一個 或多個數(shù)字文件28,其包括計算機可讀的指令或軟件用于讀取、編寫、或換句話講管理和/ 或訪問數(shù)字文件20、30。計算機可讀介質16也可包括軟件或計算機可讀的和/或可執(zhí)行 的指令,其引起計算裝置12執(zhí)行本文所述的一種或多種方法,例如并且非限制地包括與比 較存儲在數(shù)字文件30中的基因表達譜數(shù)據(jù)與存儲在數(shù)字文件20中的實例22、24、和26相 關聯(lián)的方法(或部分方法)、用于比較與一種或多種干擾原相關聯(lián)的基因表達譜數(shù)據(jù)的方 法(或部分方法)、和/或用于比較(i)涉及一種狀況的基因表達譜數(shù)據(jù)與(ii)涉及一種 或多種治療劑基因表達譜數(shù)據(jù)的方法(或部分方法)。在一些實施例中,一個或多個數(shù)字文 件28形成部分數(shù)據(jù)庫管理系統(tǒng),用于管理數(shù)字文件20、28。數(shù)據(jù)庫管理系統(tǒng)的非限制性例 子在美國專利序列號4, 967, 341和5, 297, 279中有所描述。
      [0059] 計算機可讀介質16可形成部分或換句話講連接至計算裝置12。計算裝置12可以 廣泛多種形式提供,包括但不限于任何通用或專用計算機如服務器、臺式計算機、膝上型計 算機、塔式計算機、微型計算機、迷你計算機、平板電腦、智能電話、和大型計算機。雖然多種 計算裝置可適用于本發(fā)明,一種計算裝置12在圖3中示出。計算裝置12可包括一個或多 個組件,其選自處理器40、系統(tǒng)存儲器42、和系統(tǒng)總線44。系統(tǒng)總線44提供用于系統(tǒng)組件 的界面,系統(tǒng)組件包括但不限于系統(tǒng)存儲器42和處理器40。系統(tǒng)總線36可為幾種類型總 線結構中的任何一種,總線結構還可互連至存儲器總線(具有或不具有存儲器控制器)、外 圍總線、和使用多種可商購獲得的總線架構中的任何一種的局部總線。局部總線的例子包 括工業(yè)標準架構(ISA)總線、微通道結構(MCA)總線、擴展ISA (EISA)總線、外圍元件互連 (PCI)總線、通用串行(USB)總線、和小型計算機系統(tǒng)界面(SCSI)總線。處理器40可選自 任何合適的處理器,包括但不限于雙微處理器和其它多處理器架構。處理器執(zhí)行與一個或 多個應用程序或軟件相關聯(lián)的一組存儲的指令。
      [0060] 系統(tǒng)存儲器42可包括非易失性存儲器46 (例如只讀存儲器(ROM)、可擦可編程只 讀存儲器(EPROM)、電可擦可編程只讀存儲器(EEPR0M)等等)和/或易失性存儲器48 (例 如隨機存取存儲器(RAM))?;据斎?輸出系統(tǒng)(BIOS)可存儲在非易失性存儲器38中, 并且可包括基本例程,其有助于在計算裝置12內的元件之間傳遞信息。易失性存儲器48 也可包括高速RAM,如用于高速緩存數(shù)據(jù)的靜態(tài)RAM。
      [0061] 計算裝置12還可包括存儲器44,其可包括例如內部硬盤驅動器(HDD)(例如增強 型電子集成驅動器(EIDE)或串行高級技術附件(SATA))用于儲存。計算裝置12還可包括 一個光盤驅動器46 (例如用于讀?、?ROM或DVD-ROM 48)。驅動器和相關聯(lián)的計算機可讀 介質提供數(shù)據(jù)、本發(fā)明的數(shù)據(jù)結構和數(shù)據(jù)架構、計算機可執(zhí)行指令等等的非易失性存儲裝 置。對于計算裝置12,驅動器和介質適于儲存合適數(shù)字格式的任何數(shù)據(jù)。雖然上述計算機 可讀介質是指HDD和光學介質如CD-ROM或DVD-ROM,本領域的技術人員應當理解也可使用 計算機可讀的其它類型介質如極碟、磁帶盒、閃存存儲卡、存儲盒等等,并且此外任何此類 介質可含有用于執(zhí)行本發(fā)明方法的計算機可執(zhí)行指令。
      [0062] 多個軟件應用程序可存儲在驅動器44和易失性存儲器48上,包括操作系統(tǒng)和一 個或多個軟件應用程序,它們全部或部分地實現(xiàn)本文所述的功能和/或方法。應當理解實 施例可利用多個可商購獲得的操作系統(tǒng)或操作系統(tǒng)組合實現(xiàn)。中央處理單元40結合在易 失性存儲器48中的軟件應用程序可用作計算裝置12的控制系統(tǒng),其被構造用于或適用于 實現(xiàn)本文所述的功能。
      [0063] 使用者能夠通過一個或多個有線或無線輸入設備50輸入命令和信息到計算裝置 12中,例如鍵盤、指向設備如鼠標(未示出)、或觸摸屏。這些和其它輸入設備常常通過聯(lián) 接到系統(tǒng)總線44上的輸入裝置接口 52被連接到中央處理單元40上,但是也可通過其它接 口連接,例如平行端口、IEEE1394串行端口、游戲端口、通用串行總線(USB)端口、IR接口等 等。計算裝置12可驅動單獨的或集成的顯示裝置54,其也可經由接口如視頻端口 56連接 至系統(tǒng)總線44。
      [0064] 計算裝置12、14可在網絡18的網絡環(huán)境中利用有線和/或無線網絡通信接口 58 工作。網絡接口端口 58可有利于有線和/或無線通信。網絡接口端口可為網絡接口卡、網 絡接口控制器(NIC)、網絡適配器、或LAN適配器的一部分。通信網絡18可為廣域網(WAN) 如互聯(lián)網,或者可為局域網(LAN)。通信網絡18可包括光纖網絡、雙絞線網絡、基于T1/E1 線的網絡或T-載體/E載體協(xié)議的其它鏈路,或者無線局域網或廣域網(通過多個協(xié)議如 超移動寬帶(UMB)、長期演進(LTE)等等)。另外,通信網絡18可包括用于無線通信的基站, 其包括收發(fā)器、用于調制/解調的相關電子設備、和開關及用于連接回程通信(例如分組交 換通信的情況)主干網絡的端口。
      [0065] II.產牛多個實例的方法
      [0066] 在一些實施例中,本發(fā)明方法包括生成至少第一數(shù)字文件20與包括來源于多個 基因表達譜實驗的數(shù)據(jù)的多個實例(例如22, 24, 26),其中一個或多個實驗包括使細胞暴 露于至少一種干擾原。為便于討論,下文中所討論的基因表達譜將為在微陣列實驗的情況 下。
      [0067] 參見圖4,示出了本發(fā)明方法的一個實施例。方法58包括使細胞60和/或細胞62 暴露于干擾原64。在暴露后,從暴露于干擾原的細胞中提取mRNA。任選地,從未暴露于干 擾原的參考細胞66(如對照細胞)中提取mRNA用于比較??蓪RNA 68、70、72反轉錄成 cDNA 64、76、78,并且如果將執(zhí)行雙色微陣列分析,用不同的熒光染料(例如紅色和綠色) 進行標記。作為另外一種選擇,可制備樣品用于單色微陣列分析。如果需要,可進行多個平 行測定。cDNA樣品可共雜交到包括多個探針81的微陣列80上。微陣列可包括幾千個探針 81。在一些實施例中,在微陣列80上存在10, 000至50, 000個基因探針81。微陣列80用 掃描儀83進行掃描,該儀器激活染料并測量熒光量。使用計算裝置85分析原始圖以測定樣 品中的cDNA(或mRNA)量,其代表細胞60、62中的基因表達水平,它與參考細胞66中觀察 到的基因表達水平進行比較。掃描儀83可具有計算裝置85的功能。表達水平包括:i)上 調(例如與參考材料相比在測試材料中存在更多的mRNA或cDNA,導致與結合到探針上的參 考材料(例如CDNA78)量相比更多的測試材料(例如cDNA 74、76)與探針結合),或者ii) 下調(例如與結合到探針上的測試材料(例如cDNA 74、76)量相比更多的參考材料(例如 cDNA 78)與探針結合),iii)無差異的表達(例如相似量的參考材料(例如cDNA 78)和 測試材料(例如cDNA 7476)結合到探針上),和iv)無可檢出的信號或噪音。將上調或下 調的基因稱為"差異表達的。"
      [0068] 微陣列和微陣列分析技術是本領域熟知的,并且預期除本文例示的那些之外的微 陣列技術適用于本發(fā)明的方法、裝置和系統(tǒng)??墒褂萌魏芜m用的商業(yè)或非商業(yè)微陣列技術 及相關技術,例如Affymetrix GeneChip1'技術和Illumina BeadChip?技術。本領域的技 術人員將會知道本發(fā)明不限于例示實施例的方法和也預期在本發(fā)明的范圍之內的其它方 法和技術。
      [0069] 作為另外一種選擇,探針I(yè)D可在未整理列表中排序,或者可根據(jù)多個實例的平均 表達值排序。在一些實施例中,探針I(yè)D和表達值以標準順序列出,例如通過微陣列限定,并 且根據(jù)下述方法操縱。例如,可根據(jù)平均表達值,對于全部實例和/或多個計算和/或對受 關注的探針I(yè)D進行的分析選擇探針I(yè)D子集。這種實例數(shù)據(jù)也可進一步包括元數(shù)據(jù)如干擾 原標識、干擾原濃度、細胞系或樣品來源、和微陣列標識。在一些實施例中,數(shù)據(jù)庫包括至少 約 50、100、250、500、或 1000 個實例和/或少于約 50,000、20,000、15,000、10,000、7,500、 5, 000、或2, 500個實例。可創(chuàng)建實例的平行測定,并且可使用相同干擾原以從第一類細胞 中獲得第一實例,并且從第二類細胞中獲得第二實例,以及從第三類細胞中獲得第三實例。
      [0070] III.用于杳詢干擾原的無標記方法
      [0071] 在查詢中使用大探針組的巨大挑戰(zhàn)是在C-Map數(shù)據(jù)庫中存在批次效應。批次效應 是大規(guī)模數(shù)據(jù)收集中常見的問題,它可能使分析朝著標識基于批次的人工痕跡而非相關的 生物活性出現(xiàn)顯著偏差。具體地,干擾原處理細胞、對照細胞、或暴露于狀況的細胞的平行 測定樣品可在略微變化的條件下產生,導致在表達譜實驗期間進行的測量存在輕微差異。 已經觀察到在微陣列實驗中導致批次效應的一些因素包括使用的擴增試劑批次、進行分析 的天數(shù)、以及甚至大氣臭氧含量(Fare等人,2003)。因此,在不同批次中處理并運行的樣品 常常含有系統(tǒng)的非生物變化,其可能導致在相同實驗批中測試的不同干擾原或狀況看起來 比在不同實驗批中的相同干擾原或狀況在作用結構或機構中彼此更接近。相似地,批次效 應差異可能引導致類似的干擾原或狀況看起來明顯人為地不同。
      [0072] -般來講,通過本文所述的無標記查詢方法實現(xiàn)的技術方法分析數(shù)據(jù)如C-Map數(shù) 據(jù)庫存在的基因表達譜。如果未經歸一化,通過使用一般已知的多種歸一化技術之一將數(shù) 據(jù)歸一化。以舉例的方式并且非限制地,在一些實施例中,使用的歸一化技術是MAS5算法 或穩(wěn)健多陣列平均(RMA)算法。歸一化的輸出應包括在基因表達譜實驗中分析的每個探針 的表達值。從而,在一些實施例中,現(xiàn)有的C-Map數(shù)據(jù)庫將包括歸一化數(shù)據(jù)。在其它實施例 中,可執(zhí)行一個或多個基因表達譜實驗,并且將數(shù)據(jù)歸一化以產生多個實例(即,來自基因 表達譜實驗的數(shù)據(jù))。每個實例可包括在實驗中分析的全部探針的表達值數(shù)據(jù)。實例可包 括對照實例、測試實例、和/或狀況實例。
      [0073] 還可處理實例以確定分析中使用的探針的子集。對于每個探針,對全部干擾原和 對照實例平均化表達值,并且整理平均表達值。相應地選擇探針的子集。在一些實施例中, 探針的子集可包括具有最高平均表達值的5, 000-10, 000個探針。在其它實施例中,探針的 子集可包括更多或更少的探針,包括全部探針(即,子集可為整個組)。探針的子集,在一些 實施例中,可根據(jù)具有高于預定閾值的平均表達值的探針進行選擇。在一些實施例中,在任 何進一步處理發(fā)生前可將表達值進行對數(shù)轉化。在其它實施例中,對原始的歸一化表達值 執(zhí)行進一步處理。在任何情況下,對于在特定批次中的每個對照實例,計算每個探針的平均 表達值。對于批次中的每個測試實例,發(fā)現(xiàn)在探針的平均表達值和測試實例中探針的表達 值之間存在差異。來自全部批次的全部測試實例組合成單個數(shù)據(jù)矩陣。
      [0074] 使用多變量統(tǒng)計分析分析數(shù)據(jù)矩陣。雖然本文所述參照利用投射矩陣的內核版本 的正則化Fisher判別分析,本領域的普通技術人員將容易認識到,在其它實施例中也可使 用其它形式的多變量統(tǒng)計分析。以舉例的方式并且非限制地,可使用投射矩陣的非內核版 本、非正則化的Fisher判別分析、線性判別分析、或廣義線性判別分析。在任何情況下,通 過移除非平行測定的實例(例如用于僅有單獨一個基因表達譜的干擾原的實例)減小數(shù)據(jù) 矩陣。利用多變量統(tǒng)計分析了解投射矩陣(或函數(shù)),并且利用投射矩陣(或函數(shù))將整個 數(shù)據(jù)矩陣(即,未減小的矩陣)投射到投射空間上。(當利用Fisher判別分析的內核版本 時,結果是利用內核函數(shù)計算投射的投射函數(shù)。所得矩陣具有顯著減少的維度。類似于主 要的組件分析,可進一步將不重要的維度降維以改善所得矩陣的性能。正則化Fisher判別 分析的參數(shù)和用于保持最終經投射的矩陣的維度數(shù)通過交叉驗證來確定。
      [0075] 所得矩陣可用于測定干擾原之間的相似度或相異度。具體地,可選擇在新矩陣中 的干擾原,并且可使用余弦距離或歐幾里得距離計算所選干擾原和每種其它干擾原之間的 投射空間的距離。隨后可根據(jù)每種干擾原距所選干擾原的距離將其排序。也可使用所得矩 計算全部測試干擾原之中的相似度(距離)矩陣??衫枚喾N方法將類似化學物質分組或 將它們組織成樹樣結構。
      [0076] 作為另外一種選擇,可確定平均狀況譜并用作對干擾原數(shù)據(jù)的查詢??扇缟纤?相對于干擾原的基因表達譜歸一化狀況的基因表達譜。狀況的歸一化基因表達譜(例如存 儲為狀況實例)可進行平均化,以通過尋找用于研究投射矩陣的每個探針的子集的平均表 達值確定平均狀況譜。同樣地,對應對照實例的歸一化基因表達譜可以相同方式測定,并且 每個探針發(fā)現(xiàn)在對照實例中探針的平均表達值和狀況實例中探針的平均表達值之間存在 差異。所得載體(其可稱為平均狀況譜)可使用投射矩陣投射到投射空間上。在平均狀況 譜和每種干擾原之間的投射空間中的距離可使用余弦距離或歐幾里得距離來計算。隨后可 根據(jù)每種干擾原距平均狀況譜的距離來給它們排序。
      [0077] 現(xiàn)在參見圖5至13,描述了用于無標記鑒定生物劑的計算機實現(xiàn)的方法。本文所 述方法減輕批次效應,允許甚至當相應樣品被處理并在不同實驗批中運行時分析大量探針 組。所述方法或其部分可體現(xiàn)為存儲在一個或多個計算機可讀介質上的指令。
      [0078] 簡單地參見圖13、表160和162,它們可對應例如文件20的數(shù)據(jù)結構中的數(shù)據(jù),每 個示出與相應批次相關聯(lián)的多個實例164。表160、162每個分別包括Y和Z實例164,并且 每個實例164包括每個N探針I(yè)D 168的表達值166,其中值N在一些實施例中等于微陣列 上探針的總數(shù)。在一些實施例中,數(shù)據(jù)結構160、162可存儲為一組定界的值。例如,在數(shù)據(jù) 結構160U62中的第一值170是索引"0",并且之后的N值168分別識別與Y或Z實例164 的每個相應表達值166相關聯(lián)的N探針I(yè)D 168。在數(shù)據(jù)結構160、162中的每個實例164 包括每個N探針I(yè)D 168的表達值166。每個批次以及每個數(shù)據(jù)結構因此可含有對照實例 172(例如實例認、24、18、28)、狀況實例174(例如實例3八-1(^、實例38-1(?)、和測試實例 176(例如實例 11A-YA、11B-ZB)。
      [0079] 圖5示出用于鑒定類似于查詢劑的生物劑的方法100。在方法100中,如上所述進 行基因表達譜實驗(數(shù)據(jù)塊102)。在一些實施例中,基因表達譜實驗包括多個批次,并且 每個批次包括干擾原處理細胞和對照細胞。在其它實施例中,基因表達譜實驗包括多個批 次,并且每個批次包括干擾原處理細胞、對照細胞、和暴露于狀況的細胞(例如在對應于圖 13中的表160和162的批次中)。在其它實施例中,基因表達譜實驗包括一個或多個批次, 它們包括暴露于狀況的細胞,以及一個或多個批次,它們不包括暴露于狀況的細胞。在其它 實施例中,一個或多個批次可不包括任何干擾原處理的細胞。隨后如上文所簡述(數(shù)據(jù)塊 104)并如下文所詳述(參見圖7)準備從基因表達譜實驗中獲得的數(shù)據(jù)。該方法還包括執(zhí) 行多變量分析(數(shù)據(jù)塊106)(如下所述參見圖8A和8B)。在多變量分析后,提交其中一種 基因表達譜(查詢劑)對分析數(shù)據(jù)進行查詢以尋找類似于查詢劑(數(shù)據(jù)塊108)的劑,如下 所述參見圖9。
      [0080] 相似地,圖6示出用于鑒定生物劑的方法110,該生物劑是用于處理查詢狀況的候 選。在方法110中,如上所述執(zhí)行基因表達譜實驗(數(shù)據(jù)塊102)?;虮磉_譜實驗產生涉 及至少對照細胞、干擾原處理細胞、和暴露于查詢狀況的細胞的數(shù)據(jù)。在一些實施例中,基 因表達譜實驗包括多個批次,并且每個批次包括干擾原處理細胞和對照細胞。在其它實施 例中,基因表達譜實驗包括多個批次,并且每個批次包括干擾原處理細胞、對照細胞、和暴 露于狀況的細胞。在一些實施例中,基因表達譜實驗包括一個或多個批次,它們包括暴露于 狀況的細胞,以及一個或多個批次,它們不包括暴露于狀況的細胞。在一些實施例中,一個 或多個批次可不包括任何干擾原處理的細胞。隨后如上文所簡述(數(shù)據(jù)塊104)并如下文 所詳述(參見圖7)準備從基因表達譜實驗中獲得的數(shù)據(jù)。該方法還包括執(zhí)行多變量分析 (數(shù)據(jù)塊106)(如下所述參見圖8A和8B)。在多變量分析后,提交查詢狀況的平均基因表 達譜對分析干擾原數(shù)據(jù)進行查詢以尋找最可能逆反狀況的劑,例如,通過鑒定與查詢狀況 的基因表達譜(數(shù)據(jù)塊112)距離最遠(并且因此最相異)的基因表達譜相關聯(lián)的劑,如下 所述參見圖10。
      [0081] 現(xiàn)在轉向圖7,其示出了用于數(shù)據(jù)準備的方法120,對應于方法100和110中的數(shù) 據(jù)準備實施例(即,對應于數(shù)據(jù)塊104的實施例)。在方法120中,使用一般已知的表達歸 一化技術將每個基因表達譜歸一化(數(shù)據(jù)塊122)。在一些實施例中,使用的歸一化技術是 MAS5算法。在一些實施例中,使用的歸一化技術是RMA技術。在各種實施例中,歸一化包括 尋找基因表達譜中每個探針的探針表達值對數(shù)。
      [0082] 在一些實施例中,方法120繼續(xù)選擇探針進行進一步分析(數(shù)據(jù)塊124)。圖11示 出用于選擇探針的方法160,對應于數(shù)據(jù)準備方法120中的探針的選擇(數(shù)據(jù)塊124)。參 見圖11和13,對于用于生成基因表達譜的每個N探針(S卩,在實例164中),全部需分析的 實例164將表達值166平均化(數(shù)據(jù)塊162)。S卩,如果100個(例如Y+Z)實例164中的每 個包括1000個探針中的每個的表達值166,確定1000個探針中的每個的平均表達值。例 如,參見圖13,在一個實施例中,探針I(yè)D1的平均表達值可通過平均化在每個實例11Α-ΥΑ和 11Β-ΖΒ中的探針I(yè)D1的表達值166進行計算,探針I(yè)D2的平均表達值可通過平均化在每個 實例11Α-ΥΑ和11Β-ΖΒ中的探針I(yè)D2表達值166等等??烧砗?或排序平均表達值。探 針的子集可根據(jù)探針的平均最高表達(數(shù)據(jù)塊166)進行選擇。在一些實施例中,探針的子 集可為全部探針(例如探針I(yè)D ID1至IDX)。在一些實施例中,探針的子集可為5, 000至 10, 000個探針。在各種實施例中子集可包括:約5, 000個探針至約15, 000個探針;約5, 000 個探針至約25, 000個探針;約10, 000個探針至約20, 000個探針;約10, 000個探針至約 25, 000個探針;約25, 000個探針至約50, 000個探針;超過10, 000個探針;超過25, 000個 探針;超過50, 000個探針等等。在一些實施例中,探針的子集可根據(jù)具有高于預定閾值的 平均表達值的探針進行選擇。
      [0083] 再次參見圖7,在選擇探針后(數(shù)據(jù)塊124),確定每個實例經調節(jié)的基因表達譜 (數(shù)據(jù)塊126),其在圖12的方法170中更詳細地示出。分析中包括的每批均實施方法170。 選擇一個批次(例如具有在數(shù)據(jù)結構160中的數(shù)據(jù)的批次)(數(shù)據(jù)塊172),并且對全部選擇 批次中的對照實例(數(shù)據(jù)塊174)計算每個探針的平均表達值(或子集中的每個探針,在其 中選擇探針的子集的實施例中)。全部對照實例的探針的平均表達值一起構成平均對照基 因表達譜。例如,參照數(shù)據(jù)結構160中的數(shù)據(jù),可計算對照實例中每個X探針I(yè)D的平均表 達值(例如實例1A和1B)。數(shù)據(jù)結構160中示出的批次中探針I(yè)D1的平均表達值將為:
      [0084] (CNTl1A+CNTl2A)/2
      [0085] 其中:
      [0086] CNT11A是實例1A的表達值CNT1,并且
      [0087] CNT12A是實例2A的表達值CNT1 ;
      [0088] 對于探針I(yè)D2將為:
      [0089] (CNT21A+CNT22A) /2
      [0090] 其中:
      [0091] CNT21A是實例1A的表達值CNT2,并且
      [0092] CNT22A是實例2A的表達值CNT2 ;等。
      [0093] 接下來,通過測定每個探針的平均表達值(或子集中的每個探針)和干擾原實例 (例如實例11A-YAU1B-ZB)中相應探針的表達值166(數(shù)據(jù)塊176)之間的差異,對于批次 中的每個干擾原實例測定差異表達值(本文也稱為"經調節(jié)的測試基因表達譜"或"經調節(jié) 的基因表達譜")。繼續(xù)之前的例子,實例11A的探針I(yè)D1的差異表達值將為:
      [0094] CNT111A- [(CNT11a+CNT12A)/2];
      [0095] 實例11A的探針I(yè)D2的差異表達值將為:
      [0096] CNT211A - [ (CNT21A+CNT22A) /2];
      [0097] 實例12A的探針I(yè)D1的差異表達值將為:
      [0098] CNT112A_ [(CNTl1A+CNTl2A)/2];等。
      [0099] 如果存在一個附加批次(例如在數(shù)據(jù)結構162中示出的批次)(數(shù)據(jù)塊178),對照 再選擇下一批次(數(shù)據(jù)塊172)并且再實施方法170直至全部待分析批次實施了方法170。 經調節(jié)的基因表達譜對于每個實例包括全部差異表達值,它們組合成數(shù)據(jù)矩陣(數(shù)據(jù)塊 128,圖7)。這個數(shù)據(jù)矩陣下文將稱為數(shù)據(jù)矩陣或干擾原數(shù)據(jù)矩陣,雖然它將是清楚的:數(shù) 據(jù)矩陣可包括干擾原處理細胞、暴露于狀況的細胞等的實例數(shù)據(jù)。可將干擾原數(shù)據(jù)矩陣存 儲在例如計算機可讀介質16和/或計算機可讀介質38中。
      [0100] 在方法100和方法110中,執(zhí)行多變量分析(數(shù)據(jù)塊106)在一些實施例中涉及執(zhí) 行方法130,在圖8A中示出。為了研究投射矩陣,從干擾原數(shù)據(jù)矩陣中移除僅具有單個基 因表達譜的干擾原實例以創(chuàng)建減小的干擾原數(shù)據(jù)矩陣(數(shù)據(jù)塊132)(有時簡稱為"約簡數(shù) 據(jù)矩陣"),也可將其存儲在計算機可讀介質16、38中的一個或兩個上。根據(jù)多變量統(tǒng)計分 析,使用減小的干擾原數(shù)據(jù)矩陣研究投射矩陣,并且具體地,可利用正則化Fisher判別分 析進行研究(數(shù)據(jù)塊134)。在方法135中,如圖8B所示,例如使用正則化Fisher判別分析 (RFDA)確定投射空間(數(shù)據(jù)塊134)。計算內-和間-化學散射矩陣(數(shù)據(jù)塊137)。正則 化總散射矩陣并且產生廣義本征值問題(數(shù)據(jù)塊138)。解決廣義本征值問題以確定投射空 間(數(shù)據(jù)塊139)。在一些實施例中,投射矩陣可為RBF內核投射矩陣,描述于Z. Zhang等 人,"Regularized Discriminant Analysis, Ridge Regression and Beyond,';Journal of Machine Learning Research 11(2010) 2199-2228, 2010年8月)。隨后使用投射矩陣將整 個矩陣(即,在數(shù)據(jù)塊128中創(chuàng)建的干擾原數(shù)據(jù)矩陣)投射到投射空間上,創(chuàng)建具有顯著減 少維度的投射空間矩陣(數(shù)據(jù)塊136)。類似于本文所述的其它矩陣,可將投射空間矩陣存 儲在計算機可讀介質16、38中的一個或兩個上。
      [0101] 利用投射空間矩陣,測定投射空間中的基因表達譜之間的相似度(或差異)是可 能的。方法100和110,例如,通過查看在投射空間矩陣中示出的實例間的距離分別對相似 的生物活性(數(shù)據(jù)塊108)和生物相異度(S卩,最可能逆反臨床終點的劑)(數(shù)據(jù)塊112)進 行查詢。首先轉向方法100,圖9示出用于查詢在映射投射空間中兩個點的實例間的相似生 物活性的方法140 (例如查詢干擾原之間的相似活性)(數(shù)據(jù)塊108)。在一些實施例中,該 方法包括接受選擇的細胞系進行分析(數(shù)據(jù)塊142)。例如,使用者可選擇在其上已經測試 了多種干擾原的第一細胞系(例如TERT角質細胞),或者可選擇在其上已經測試了多種干 擾原的第二細胞系(例如BJ成纖維細胞)。相同或不同組的干擾原可能已經對第一和第二 細胞系中的每個進行了測試。另外,在一些實施例中,該方法可包括接受涉及處理平行測定 實例的選擇。即,每個化學實例(即,包括每個干擾原基因表達譜的每個平行測定)可在投 射空間中檢查,或者化學平行測定的實例可被平均化?;瘜W平行測定的平均化在不同實施 例中可發(fā)生在投射到投射空間矩陣中之前或之后。
      [0102] 隨后從投射空間矩陣內的干擾原中選擇查詢干擾原(也稱為查詢劑)(數(shù)據(jù)塊 144)。當然,雖然本文描述為查詢"干擾原,"查詢劑可為投射空間矩陣中的任何載體,包括 干擾原載體、假設的化學結構載體、對應于暴露于狀況的細胞的基因表達譜的載體等等。計 算投射空間矩陣(數(shù)據(jù)塊146)中每個實例(或選擇的實例子集)在投射空間中距查詢干 擾原的距離。在一些實施例中,將距離計算為余弦距離。在一些實施例中,將距離計算為歐 幾里得距離。在任何情況下,在投射空間矩陣中的各種干擾原(或其它數(shù)據(jù))根據(jù)它們每 個距查詢干擾原的距離進行排序(數(shù)據(jù)塊148)。最接近(即,具有最短距離)投射空間中 的查詢干擾原的干擾原產生最類似查詢干擾原的基因表達譜。除了排序之外,用于確定查 詢干擾原和投射空間中的其它實例之間的相對距離的方法可在一些實施例中使用。
      [0103] 圖14示出具有查詢干擾原182的示例性查詢的結果180??梢钥闯觯ú⑶铱梢灶A 知),查詢干擾原182具有距自身0.0的距離184。在示出的例子中,結果180也指示芯片 ID 186和相應的化學名188。示例性結果示出相同化學物質(鄰-菲咯啉)(例如化學物 質排序2和3)的平行測定具有距查詢干擾原的最小距離。結果180中的干擾原固定排序 4和5是2, 6-Di (2-吡啶基)吡啶。可以看出,鄰-菲咯啉的化學結構187類似于2, 6-二 (2-吡啶基)吡啶的化學結構189A。4, 4'-二甲基-2, 2'-二吡啶和3, 4, 7, 8-四甲基菲咯 啉的化學結構189B和189C分別略少地類似于鄰-菲咯啉的化學結構,并且根據(jù)距鄰-菲 咯啉的距離分別排序為6-7和8-9。
      [0104] 參見圖15和16,不同干擾原對不同細胞類型在轉錄水平上的效應是非常明顯的。 在圖15中,表200示出頂部的五種和底部的五種化學物質,它們在細胞系MCF7206中根據(jù) 距查詢干擾原204(雌二醇)的距離202進行排序。在頂部的五種化學物質中,最相似的化 學實例208是雌二醇平行測定。在相對端(最相異的)是抗雌激素劑氯米芬(Clomifene) 和氟維司群(Ful Vestrant)210。這種表現(xiàn)符合以下事實:MCF7細胞系表達雌激素受體和頂 部與底部列出的化學物質208、210,它們分別用作激動劑和拮抗劑。然而,如圖16所示,表 212示出頂部10種化學物質根據(jù)在不同細胞系PC3218中距相同查詢干擾原216 (雌二醇) 的距離214排序,顯示當查看在缺乏雌激素受體的PC3(前列腺癌癥)細胞中的雌二醇處理 時,發(fā)現(xiàn)氟維司群類似于雌二醇。雌二醇和氟維司群的結構220、222是類似的,并且所述劑 在缺乏雌激素受體的PC3細胞系中誘導類似的轉錄響應。這些結果驗證本文所述的方法、 系統(tǒng)、和裝置的能力,它們能夠從基因表達噪聲數(shù)據(jù)中提取有意義的信號,甚至在存在依賴 所考慮的細胞系作用機制的情況下依然如此。
      [0105] 接下來轉向方法110,圖10示出方法150,其用于查詢引起生物學應答的干擾原, 它與狀況引起的應答相異(例如可能逆反細胞中的特定狀況的化學物質)(數(shù)據(jù)塊112)。該 方法包括確定如上所述用作查詢的平均狀況譜(數(shù)據(jù)塊152)。具體地,平均狀況譜(也稱 為"經調節(jié)的狀況基因表達譜")可通過尋找用于研究表達矩陣的每個探針的子集的平均表 達值進行計算。即,如果全部探針I(yè)D1_IDN(參見圖13)用于研究表達矩陣,在實例3A-10A 和3B-10B中測試的狀況的平均表達譜將包括探針I(yè)D1的平均表達值:
      [0106] (CON13a+CON1...a+CON110a+CON13b+CON1... b+CON110b) /16 ;
      [0107] 探針I(yè)D2的平均表達值:
      [0108] (CON23A+CON2...A+CON210A+CON2 3B+CON2...B+CON210B) /16 ;
      [0109] 等。當然,這假定實例3A-10A和3B-10B中的每個用于表現(xiàn)相同狀況的細胞,其未 必如此。如上所述從平均狀況譜中減去所關注狀況的平均對照表達譜。
      [0110] 將平均狀況譜投射到投射空間上(數(shù)據(jù)塊154)。測定平均狀況譜距在投射空間矩 陣中每個干擾原的距離(數(shù)據(jù)塊156),并且至少在一些實施例中,干擾原根據(jù)每個在投射 空間中距平均狀況譜的距離進行排序(數(shù)據(jù)塊158)。在一些實施例中,將距離計算為余弦 距離。在一些實施例中,將距離計算為歐幾里得距離。用作查詢的在投射空間中距平均狀 況譜最遠(即,具有最大距離)的干擾原最可能逆反平均狀況譜的表達模式。
      [0111] 圖17是結果232的表230,其對應于逆反(或模擬)臨床結果的化學實例。查詢 狀況234 (例如頭皮屑)對應于狀況處理細胞的平均狀況譜。距離查詢狀況234較遠的干 擾原的排序,包括甘寶素和酮康唑,指示干擾原用于處理查詢狀況的潛在用途。具體地,甘 寶素和酮康唑是熟知的去頭皮屑劑。相似地,如果任何受關注狀況的基因表達數(shù)據(jù)(以及 相關聯(lián)的對照數(shù)據(jù))是可用的,可使用本文所述的方法、系統(tǒng)、和裝置分析數(shù)據(jù),從而進行 無標記查詢,鑒定最好地模擬或逆反與狀況相關聯(lián)的差異基因表達模式的處理。
      [0112] 雖然上述方法和系統(tǒng)相對于基因表達譜數(shù)據(jù)的分析進行描述,應當理解該方法能 夠容易地應用于除基因表達譜數(shù)據(jù)之外的數(shù)據(jù)組分析,以舉例的方式并且無限制地包括涉 及其它生物標記的數(shù)據(jù)組。
      [0113] 除非明確地排除或以其它方式限制,本文所引用的每個文獻均以引用方式全文并 入本文。對任何文獻的引用均不是承認其為本文公開的或受權利要求書保護的任何發(fā)明的 現(xiàn)有技術、或承認其獨立地或以與任何其它一個或多個參考文獻的任何組合的方式提出、 建議或公開任何此類發(fā)明。此外,當本文件中術語的任何含義或定義與以引用方式并入的 文件中相同術語的任何含義或定義矛盾時,應當服從在本發(fā)明中賦予該術語的含義或定 義。
      [0114] 本文所公開的值不應被理解為嚴格限于所引用的精確值。相反,除非另外指明,每 個這樣的值旨在表示所述值以及該值附近的函數(shù)等效范圍。
      [0115] 本發(fā)明不應認為受限于本文所述的特定例子,而是應理解為包括本發(fā)明的所有方 面。本發(fā)明可適用的各種修改形式、等同方法、以及多種結構和裝置對于本領域的技術人員 將是顯而易見的。本領域的技術人員將理解可在不脫離本發(fā)明范圍的情況下進行多個改 變,其不被認為是受限于本說明書的描述。
      【權利要求】
      1. 一種計算機實現(xiàn)的方法,所述計算機實現(xiàn)的方法用于構建存儲在計算機可讀存儲介 質中的數(shù)據(jù)架構,所述計算機可讀存儲介質以通信方式聯(lián)接至處理器,所述方法包括: 從所述計算機可讀介質的第一數(shù)據(jù)庫中檢索多個實例,每個實例對應于多個批次之一 且包括多個探針中的每個的表達值,所述多個批次中的每個產生對應于與對照相關的基因 表達譜(GEP)的多個對照實例和對應于與干擾原相關的GEP的多個測試實例; 從所述多個探針中選擇探針的子集; 使用所述處理器來確定每個批次的平均對照GEP,所述平均對照GEP僅包括所選擇的 探針的子集且通過針對所述探針的子集中的每個計算在所述多個對照實例中探針的平均 表達值來確定; 使用所述處理器來確定在某一批次中每個測試實例的經調節(jié)的GEP,每個經調節(jié)的 GEP通過針對所述探針的子集中的每個確定所述批次的所述測試實例中的探針的表達值與 所述對照實例中的探針的平均表達值之間的差異來確定;以及 在所述計算機可讀介質的第二數(shù)據(jù)庫中存儲多個經調節(jié)的實例,每個經調節(jié)的實例對 應于在全部所述多個批次中由全部所述測試實例確定的經調節(jié)的GEP之一。
      2. 根據(jù)權利要求1所述的方法,其中從所述多個探針中選擇探針的子集包括: 確定在所述多個實例中每個探針的平均表達值; 整理在所述多個實例中探針的平均表達值;以及 選擇一定數(shù)量的最高表達的探針,優(yōu)選地其中所述數(shù)量為2000至10, 000,包括端值在 內。
      3. 根據(jù)權利要求1所述的方法,其中從所述多個探針中選擇探針的子集包括根據(jù)所 述探針的相對表達值來選擇預定數(shù)量的探針,優(yōu)選地其中所述預定數(shù)量的探針為2000至 1000個探針,包括端值在內。
      4. 根據(jù)權利要求1所述的方法,其中從所述多個探針中選擇探針的子集包括選擇高于 預定閾值表達水平的探針的子集。
      5. 根據(jù)權利要求1所述的方法,還包括從用干擾原處理過的相應的多個細胞中提取多 個生物樣品并對所述生物樣品進行微陣列分析。
      6. -種數(shù)據(jù)結構,包括: 經調節(jié)的基因表達譜(GEP)的矩陣,所述經調節(jié)的GEP由多個批次的測試實例確定,每 個批次包括多個對照實例和多個測試實例,其中所述經調節(jié)的GEP中的每個針對多個探針 中的每個包括在特定批次的所述多個對照實例的探針的平均表達值與在所述特定批次內 的測試實例中探針的表達值之間的差值。
      7. -種鑒定用于處理狀況的候選干擾原的方法,所述方法包括: 訪問與多個批次的基因表達譜(GEP)實驗相關的數(shù)據(jù),每個批次與多個測試實例相關 的每個實例包括多個探針中的每個的表達值; 針對每個批次,確定所述批次的平均對照GEP,所述批次的平均對照GEP通過將全部所 述對照實例中探針的子集中的每個的表達值進行平均來確定; 確定在某一批次中每個測試實例的經調節(jié)的測試GEP,每個經調節(jié)的測試GEP通過從 所述對應批次的平均對照GEP中的對應探針的表達值中減去所述測試實例中探針的子集 中的每個的表達值來確定; 通過組合來自全部所述多個批次的全部所述經調節(jié)的測試GEP來創(chuàng)建數(shù)據(jù)矩陣; 通過從所述數(shù)據(jù)矩陣中移除任何干擾原的經調節(jié)的測試GEP來創(chuàng)建約簡數(shù)據(jù)矩陣,對 于干擾原在所述數(shù)據(jù)矩陣中僅存在單個經調節(jié)的測試GEP ; 對所述約簡數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計分析以創(chuàng)建限定投射空間的投射矩陣或投射函 數(shù); 使用所述投射矩陣或所述投射函數(shù)來將所述數(shù)據(jù)矩陣投射到所述投射空間上以創(chuàng)建 經投射的矩陣; 確定維度數(shù)量以保持所述經投射的矩陣; 確定經調節(jié)的狀況GEP ; 使用所述投射矩陣或所述投射函數(shù)來將所述經調節(jié)的狀況GEP投射到所述投射空間 上;以及 將所述經調節(jié)的狀況GEP在所述投射空間中的位置與所述經調節(jié)的測試GEP在所述投 射空間中的位置進行比較以鑒定一種或多種干擾原。
      8. 根據(jù)權利要求7所述的方法,其中確定經調節(jié)的狀況GEP包括: 確定第二批次的第二平均對照GEP,所述第二批次包括對照細胞的GEP和暴露于所述 狀況的細胞的GEP ; 確定所述第二批次的平均狀況GEP ;以及 確定所述經調節(jié)的狀況GEP,所述確定針對所述探針的子集中的每個通過確定在所述 第二平均對照GEP中的探針的表達值和在所述平均狀況GEP中的探針的表達值之間的差異 來進行,優(yōu)選地其中確定所述第二批次的平均狀況GEP包括針對所述探針的子集中的每個 確定在多個狀況GEP中的探針的平均表達值。
      9. 根據(jù)權利要求7所述的方法,其中將所述經調節(jié)的狀況GEP在所述投射空間中的位 置與所述經調節(jié)的測試GEP在所述投射空間中的位置進行比較以鑒定一種或多種干擾原 包括: 計算在所述投射空間中從所述平均狀況譜到所述數(shù)據(jù)矩陣中的所述經調節(jié)的測試GEP 中的每個的距離,優(yōu)選地其中計算所述投射空間中的距離包括計算歐幾里得距離或余弦距 離。
      10. 根據(jù)權利要求9所述的方法,其中將所述經調節(jié)的狀況GEP在所述投射空間中的位 置與所述經調節(jié)的測試GEP在所述投射空間中的位置進行比較以鑒定一種或多種干擾原 還包括: 根據(jù)在所述投射空間中從所述平均狀況譜到每種干擾原的經調節(jié)的測試GEP的距離 來將所述一種或多種干擾原排序。
      11. 根據(jù)權利要求7所述的方法,其中所選擇的探針的子集通過包括下列的方法來確 定: 確定在所述多個對照和測試實例中每個探針的平均表達值; 整理所述平均表達值;以及 選擇一定數(shù)量的最高表達的探針。
      12. 根據(jù)權利要求7所述的方法,其中所選擇的探針的子集通過包括下列的方法來確 定:根據(jù)所述探針的相對表達來選擇預定數(shù)量的探針。
      13. 根據(jù)權利要求7所述的方法,其中所選擇的探針的子集通過包括下列的方法來確 定:選擇高于預定閾值表達水平的探針的子集。
      14. 根據(jù)權利要求7所述的方法,其中執(zhí)行多變量統(tǒng)計分析包括執(zhí)行Fisher判別分析。
      15. 根據(jù)權利要求7所述的方法,還包括從用干擾原處理過的相應的多個細胞中提取 多個生物樣品并對所述生物樣品進行微陣列分析。
      【文檔編號】G06F19/24GK104115151SQ201380009808
      【公開日】2014年10月22日 申請日期:2013年2月22日 優(yōu)先權日:2012年2月22日
      【發(fā)明者】徐雋, R·M·凱恩卡彥 申請人:寶潔公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1