專利名稱:異常微陣列特征的識別的制作方法
異常微陣列特征的識別1U在陣列分析中,為了避免微陣列數(shù)據(jù)集合被不良品質(zhì)的數(shù)據(jù)污染,識別和標記異常特征(即展現(xiàn)與眾不同的統(tǒng)計學性質(zhì)或形態(tài)性質(zhì)的特征)是重要的。本公開涉及識別異常微陣列特征的方法。
發(fā)明內(nèi)容
本文描述了一種識別核酸陣列中的異常特征的方法。概括地,本發(fā)明包括a)提供log變換的歸一化值(log transformed normalized value),所述log變換的歸一化值表示測試樣品對核酸陣列中的第一特征的雜交量山)利用所述log變換的歸一化值和表示對照樣品對多個參比陣列中的同一特征的雜交量的參比log變換的歸一化值的分布來計算所述第一特征的z得分;以及c)如果存在高于或低于規(guī)定的閾值的z得分,那么識別所述測試特征是異常的。
圖I是表示本發(fā)明方法的一個實施方式的一些方面的流程圖。圖2是表示本發(fā)明方法的另一實施方式的一些方面的流程圖。圖3是高% CV載玻片(slide)上的八個陣列的z得分圖。圖4是載玻片252665211142的z得分圖。圖5是載玻片252665211142的二元標記圖。圖6表示在被標記為具有低z得分的各個陣列中各特征分數(shù)的柱圖。定義本文中使用的術(shù)語“樣品”是指,含有感興趣的一個或多個核酸(DNA或RNA)分析物的原料或原料混合物,其通常是液體形式,但并非必然是液體形式。本文中使用的術(shù)語“以生物學方式衍生的樣品”是指,由活細胞制成或衍生得到的核酸樣品。由生物體的組織(例如活體解剖等)或細胞系(包括其冷凍或貯藏形式)制成的樣品是以生物學方式衍生的樣品的實例。本文中使用的術(shù)語“以非生物學方式衍生的樣品”是指,由預定的合成方式制備的寡核苷酸組成的核酸樣品。美國專利申請公開號US20060121491中描述了以非生物學方式衍生的樣品的實例。本文中使用的術(shù)語“測試樣品”是指,研究中的樣品。本文中使用的術(shù)語“對照樣品”是指,可與測試樣品比較的樣品。正如以下更詳細描述地,相對于測試樣品,對照樣品可以是例如同一樣品的不同等分試樣;可以來自同一組織;或者來自同一細胞系。術(shù)語“核苷酸”意欲包括如下這些片段,這些片段不僅包含已知的嘌呤和嘧啶堿基,還包含已被修飾的其他雜環(huán)堿基的片段。所述修飾包括甲基化的嘌呤或嘧啶、?;泥堰驶蜞奏?、烷基化的核糖或其他雜環(huán)。另外,術(shù)語“核苷酸”還包括如下這些片段,這些片段包含半抗原或熒光標記,而且還可以包含常規(guī)核糖和脫氧核糖糖類,以及其他糖類。經(jīng)修飾的核苷酸或核苷酸還包括,在糖片段上的修飾,例如在羥基基團中的一個或多個被鹵原子或脂族基團替代時,被功能化成醚類、胺類等等。核苷酸可以包括,當被摻入核酸的伸展鏈中時能夠繼續(xù)伸展的那些(非鏈終止核苷酸)和抑制隨后伸展的那些(例如鏈終止劑)。術(shù)語“核酸”和“聚核苷酸”在本文可互換使用,用于描述由諸如脫氧核糖核苷酸或核糖核苷酸的核苷酸構(gòu)成的并且具有例如大于約2個堿基、大于約10個堿基、大于約100個堿基、大于約500個堿基、大于1000個堿基、直至約10000或更多個堿基的任意長度的聚合物,其可以通過酶促方式或合成方式(例如在美國專利號5,948,902以及其中引用的參考文獻中所描述的PNA)生產(chǎn),其可以序列特異性方式與天然核酸雜交(類似于兩種天然核酸那樣雜交),例如可以參與Watson-Crick堿基對相互作用。天然存在的核苷酸包括鳥嘌呤、胞核嘧啶、腺嘌呤、尿嘧啶和胸腺嘧啶(分別為G、C、A、U和T)。本文中使用的“寡核苷酸”表示,由約2至5000個核苷酸(例如2至200個核苷酸)構(gòu)成的核苷酸的單鏈多聚體。寡核苷酸可以是合成的,或者可以以酶促方式制成,在一些實施方式中,其具有小于10至50個核苷酸的長度。寡核苷酸可以包含核糖核苷酸單體 (即可以是寡核糖核苷酸)或脫氧核糖核苷酸單體。寡核苷酸可以具有例如10至20個、11至30個、31至40個、41至50個、51至60個、61至70個、71至80個、80至100個、100至150個、或150至200個、直至500個或更多個核苷酸長度。本文中使用的術(shù)語“探針”是指,與感興趣的核苷酸分析物互補的核酸。在某些情況中,目標分析物的探測需要探針對目標的雜交。在某些實施方式中,探針可以固定在底物的表面上,其中底物可以具有各種構(gòu)造,例如片材結(jié)構(gòu)、珠子結(jié)構(gòu)或其他結(jié)構(gòu)。在某些實施方式中,探針可以存在于平面底物的表面上,例如以陣列形式?!瓣嚵小卑稍O(shè)定地址的區(qū)域的任何ニ維或三維的排列,所述區(qū)域例如為帶有核苷酸、特別帶有寡核苷酸或其合成類似物等的可在空間上設(shè)定地址的區(qū)域或在可光學上設(shè)定地址的區(qū)域。在一些情況下,陣列的多個可設(shè)定地址的區(qū)域可以不是彼此物理相連的,例如多個彼此不同的珠子通過光學或其他裝置可以構(gòu)成陣列。在陣列是核酸陣列時,所述核酸可在沿著核酸鏈的任意一個或多個點上被吸附、被物理吸附、被化學吸附、或被共價連接到陣列上。陣列在原位制造的情況下可以利用液滴沉積由脈沖噴射前驅(qū)體單元(諸如核苷酸或氨基酸單體)制造,或者可以利用液滴沉積由脈沖噴射先前得到的核酸制造。例如在先前引用的參考文獻(包括Caren等人的美國專利申請公開號20040203138和專利號US6, 242, 266,US 6,232,072、US6, 180, 35UUS 6, 171, 797,US 6,323,043,以及其中引用的參考文獻)中詳細描述了上述方法。正如已經(jīng)提到過的,這些參考文獻通過引用插入本文。也可以使用其他液滴沉積方法來進行制造,如本文先前所述。而且,可以使用照相平板印刷陣列制造方法替代液滴沉積方法。特征間區(qū)域不必存在,特別在陣列由那些專利中描述的照相平板印刷方法制成的時候。陣列還可以通過使與珠子(也被稱為微球)連接的預先合成的核酸分布在固體支持物上來進行制造。在某些實施方式中,將獨ー無ニ的光學信號(例如熒光染料)結(jié)合到珠子上,它們能用于識別在任意特定珠子上的化學官能性。因此,首先采用光學信號對珠子進行編碼,所以陣列可以稍后進行解碼,這樣可以在陣列已經(jīng)制成之后使單個位點在陣列中的位置與在特定位點的探針有相關(guān)性。例如在美國專利號6,355,431,7, 033,754和7,060, 431中詳細描述了上述方法。陣列在具有多個不同片段(例如,不同的寡核苷酸序列)的區(qū)域時是“可設(shè)定地址的”,這樣使得在陣列的特定預定位置(即“地址”)上的特征(即陣列的“單元”或“點”)包含特定序列。陣列特征通常通過居間間隔進行隔離,但這不是必要的。陣列還在陣列的每個特征具有能夠識別存在于該特征上的片段的光學可探測信號的情況下是“可設(shè)定地址的”。陣列還在陣列的每個特征具有可通過非光學裝置探測并且能夠識別存在于該特征上的片段的信號的情況下是“可設(shè)定地址的”。本文中使用的術(shù)語“異常特征”是指,具有與眾不同的統(tǒng)計學性質(zhì)或形態(tài)性質(zhì)的特征。異常特征可能由例如在例如陣列合成(例如不完善的偶聯(lián)化學反應(yīng))、陣列儲存、陣列處理、雜交或掃描期間發(fā)生的問題引起的。 正如以下更詳細描述的,在某些案例中,不同陣列中的特征會被描述成彼此“相應(yīng)”。例如,數(shù)據(jù)可由一個陣列的第一特征得到,也可由其他陣列的相應(yīng)特征得到。在這些案例中,彼此相應(yīng)的特征具有同一探針序列。同樣地,如果一個陣列上的第一特征具有其他陣列上的相應(yīng)特征,那么所述第一特征和所述相應(yīng)特征具有同一探針。術(shù)語“確定”、“測量”、“評估”、“估計”、“分析”和“檢驗”在本文中可互換使用,它們是指任何形式的測量并且包括確定是否存在要素。這些術(shù)語包括定量的和/或定性的確定?!肮烙嫛笨梢允窍鄬Φ幕蚪^對的。“估計...的存在”包括確定存在某物的量以及確定其是否存在。術(shù)語“使用”具有其常規(guī)含義,其原意指,利用方法或組合物(例如使方法或組合物工作)以達到目標。例如,如果使用程序來創(chuàng)建文件,那么執(zhí)行程序來產(chǎn)生文件,該文件通常是該程序的輸出結(jié)果。在另一實施例中,如果使用計算機文件,那么該文件通常被訪問、被讀取且信息被存儲在所利用的文件中以達到目標。類似地,如果使用獨一無二的標識符(例如表形碼),那么通常讀取該獨一無二的標識符來識別例如與該獨一無二的標識符相關(guān)的對象或文件。本文中使用的術(shù)語“數(shù)據(jù)”是指,通常由在實驗室或計算機模擬(in silico)中的實驗結(jié)果衍生得到的有組織的信息的集合,或本領(lǐng)域技術(shù)人員可得到的其他數(shù)據(jù)。數(shù)據(jù)作為一組變量的測量結(jié)果或觀測結(jié)果可以是數(shù)字形式、文字形式、注解形式、或圖像形式。數(shù)據(jù)可以存儲在各種形式的電子介質(zhì)中以及可由輔助數(shù)據(jù)庫獲得。本文中使用的術(shù)語“獲得”當在獲得數(shù)據(jù)的上下文中使用時將進行廣義解釋,意指,用于取得數(shù)據(jù)的任何方式,包括訪問存儲數(shù)據(jù)的文件、接受數(shù)據(jù)和生成數(shù)據(jù)(例如進行實驗)。本文中使用的術(shù)語“多個”是指,至少2個,例如至少5個、至少10個、至少20個、至少50個、至少100個、至少500個、至少1000個、至少5000個、至少10000個或更多,直至50000個,或100000個或更多。正如以下更詳細描述的,特征在具有“高于或低于規(guī)定的閾值的z得分”時可被稱為異常。確定特征是否是異常的方法通常包括將該特征的z得分與另一數(shù)字(規(guī)定的閾值)相比較,從而確定所述z得分是否高于或低于規(guī)定的閾值。特征在如下情況下可以是異常的a)其具有低于規(guī)定的閾值的z得分(即,在規(guī)定的閾值是負數(shù)(例如-6)時,具有小于該負數(shù)的Z得分的特征是異常的);b)其具有高于規(guī)定的閾值的Z得分(例如,在規(guī)定的閾值是正數(shù)(例如6)時,具有大于該數(shù)字的z得分的特征是異常的)。確定Z得分是否“高于或低于規(guī)定的閾值”包括,確定z得分是否在規(guī)定的范圍內(nèi)或規(guī)定的范圍外,以及確定z得分是大于/小于規(guī)定的閾值還是等于規(guī)定的閾值。規(guī)定的閾值可以例如依經(jīng)驗、依照理論或者任意定義。
具體實施例方式在更詳細地描述本發(fā)明之前,要理解本發(fā)明并不局限于所描述的特定實施方式,這些實施方式當然可以進行變化。還要理解,本文中使用的術(shù)語僅用于描述特定實施方式,不應(yīng)構(gòu)成限制,因為本發(fā)明的范圍僅僅由所附權(quán)利要求限制。在提供數(shù)值范圍的情況下,要理解到,該范圍的上限和下限之間的每個中間數(shù)值(加減該下限的1/10単位,除非另有聲明)以及在所記載范圍內(nèi)的任意其他記載的數(shù)值或中間數(shù)值都包含在本發(fā)明之內(nèi)。
除非另有聲明,本文中使用的所有技術(shù)術(shù)語和科學術(shù)語都具有與本發(fā)明領(lǐng)域的普通技術(shù)人員通常理解的相同含義。盡管與本文所述那些類似或等同的任意方法和原料也可以用在本發(fā)明的實踐或測試中,但是現(xiàn)在描述優(yōu)選的方法和原料。本說明書中引用的所有出版物和專利通過引用插入本文,就像每篇出版物或?qū)@痪唧w或単獨指出通過引用插入一祥,本說明書中引用的所有出版物和專利通過引用插入本文以公開且描述與所引用的出版物相關(guān)的方法和/或原料。申請日前的任意出版物的引用是為了公開,不應(yīng)解釋為由于在先發(fā)明而承認本發(fā)明遲于這樣的出版物。此外,所提供的
公開日可以與實際
公開日不同,這可能需要単獨確認。必須注意,本文中以及所附權(quán)利要求中使用的単數(shù)形式“一”、“一個”、“該”包括復數(shù)形式,除非另有聲明。還應(yīng)注意,權(quán)利要求書可被起草成排除任何可選要素。同樣地,這個記載意欲作為使用與權(quán)利要求要素的記載相關(guān)的諸如“唯一地”、“僅僅”等排他術(shù)語或使用“否定”限制的引用基礎(chǔ)對閱讀了本公開的本領(lǐng)域技術(shù)人員來說,本文中描述和闡述的各個實施方式中的每ー個顯然具有分散的組件和特征,可以容易地將這些組件和特征與其他若干實施方式的任意一個中的特征分離或組合,而并未脫離本發(fā)明的范圍或精神。任意記載的方法可以以所記載的時間順序執(zhí)行或者可以以邏輯上合理的任意其他順序執(zhí)行。以下更詳細描述的方法通常用在陣列數(shù)據(jù)(例如基因表達或CGH數(shù)據(jù))的分析中,其中,對核酸樣品中的特定核酸分析物(RNA或DNA)的量進行檢驗。一般而言,這些檢驗利用如下步驟a)標記核酸樣品;b)使標記的樣品與用于該樣品的分析物的探針在足以使該探針和該分析物之間發(fā)生特異性結(jié)合的條件下進行接觸;以及c)識別所得分析物/探針復合物中的標記的量,從而確定樣品中的分析物的量。這樣的方法通常是已知的。具體地,將經(jīng)標記的樣品應(yīng)用到包含至少ー個探針的底物上,并且在適合于在探針和樣品中的經(jīng)標記分析物之間形成分析物/探針復合物(例如核酸雙螺旋,即RNA/RNA、DNA/RNA、或DNA/DNA雙螺旋)的條件(如果存在這樣的經(jīng)標記分析物)下進行培養(yǎng)。在某些實施方式中,包含探針的底物是探針的陣列,其中每個探針包含在該陣列的一個特征中,并且其中陣列包含至少約20個、至少約50個、至少約100個、至少約200個、至少約500個、至少約1000個、至少約2000個、至少約5000個、至少約10,000個、至少約20,000個、至少約50,000個、通常直至約100,000個或更多特征。培養(yǎng)之后,未與探針結(jié)合的經(jīng)標記樣品通常被從底物上洗掉,并且通過能夠定量測量結(jié)合標記的儀器(例如掃描熒光儀)掃描現(xiàn)在包含經(jīng)標記的分析物/探針雙螺旋的底物。然后,確定與陣列的特征(各特征包含例如目標分析物/探針復合物或者在不存在目標分析物的情況下包含探針)相關(guān)的各標記的數(shù)量。在一些實施方式中,以相應(yīng)于探針的區(qū)別特征的兩個通道對底物進行掃描,從而以與其他標記獨立地(即沒有干擾地)的方式確定與各個特征相關(guān)的兩個區(qū)別標記的量。在某些實施方式中,掃描得到兩個掃描結(jié)果(一個通道一個),其通常表示底物的像素化圖像,從而反映了與底物的特征相關(guān)的標記的量。例如,圖像的每一個像素被授予一個表示標記信號的亮度水平的信號水平。來自唯一一個通道的數(shù)據(jù)需要用在下面的方法中。如上所述,掃描方法是本領(lǐng)域已知的(例如DeRisi等人的 Science 278 :680-686,1997),若干適當?shù)膾呙鑳x可由 Perkin-Elmer> Agilent 或Axon Instruments 等等商購,并且在美國專利號 5,091,652 ;5,760,951 ;6,320,196 和6,355,934有所描述,上述專利的公開內(nèi)容通過引用插入本文。特征提取是這樣的方法,由該方法從陣列獲得數(shù)字數(shù)據(jù)。一般而言,特征提 取方法包括識別經(jīng)雜交陣列的掃描上的特征(通常相應(yīng)于探針),并且測量與該特征相關(guān)的標記(例如熒光)的量。在大多數(shù)實施方式中,特征提取方法提供用于陣列的各特征的數(shù)字圖(numerical figure)。若干商購程序進行微陣列的特征提取,所述程序諸如 BioDiscovery (Marina Del Rey, CA)的 IMAGINE ,Stanford University 的“ScanAlyze” 軟件包,Scanalytics (Fairfax, VA)的 Microarray Suite, “DeArray”(NIH);Research Genetics(Huntsville, Ala.)的 PATHWAYS ; Incyte Pharmaceuticals,Inc. , (Palo Alto, Calif.)的 GEM tools ; Imaging Research(Amersham PharmaciaBiotech, Inc. , Piscataway, N. J. ) ;Rosetta (Kirkland, WA)的 RESOLVER 系統(tǒng)和 AgilentTechnologies (Palo Alto, CA)的 Feature Extraction Software。使用上述特征提取軟件生成相應(yīng)于與陣列的各特征相關(guān)的標記量的數(shù)值。數(shù)值可以以信號的定量(即絕對)數(shù)值的形式或者以信號的定性(例如相對)數(shù)值的形式進行測量,正如本領(lǐng)域已知的。本發(fā)明利用三種統(tǒng)計學技術(shù)以如下方式對來自特定陣列上的特定特征的信號進行重新調(diào)節(jié),以這種方式,所有來自陣列組中的所有陣列的所有特征的信號以同一尺度進行測量。所述方法的可選第一步驟包括,識別“對照”陣列的子集。上述識別可以基于陣列數(shù)據(jù)品質(zhì)的一些客觀指標(例如%cv)或一些其他陣列性質(zhì)(例如陣列制造時間段)進行。這個第一步驟不是必要的,如果缺陷影響不同陣列的不同區(qū)域,那么給定特征的數(shù)據(jù)在大多數(shù)陣列上將是“正常的”。然而,識別并且使用“正?!标嚵械倪m當對照集合可以改善本發(fā)明的敏感性,特別用于具有一些異常特征的陣列。在本發(fā)明的第二步驟中,數(shù)值(即由特征獲得的信號量)被歸一化。信號歸一化的標準方法是將來自給定陣列上的給定顏色通道中的非對照探針的所有信號除以對于該陣列上的該顏色通道中的非對照探針的例如第75%區(qū)間信號(75th percentile signal),但也可以使用其他方法。這個變換消除了由不同樣品標記效率、不同雜交效率、微陣列掃描儀增益的差異等引起的陣列之間的成比例的信號差異。
例如,歸ー化可以包括將ー個數(shù)據(jù)組中的每個數(shù)值乘以ー個數(shù)值,以使得那些量與第二數(shù)據(jù)組中的量可以直接進行比較。業(yè)已描述了多種歸ー化策略(Quackenbush等人,Nat Genet. 32 Suppl :496-501,2002, Bilban 等人 Curr Issues Mol Biol. 4 57-64,2002,F(xiàn)inkelstein 等人,Plant Mol Biol. 48(1-2) :119_31,2002,和 Hegde 等人Biotechniques. 29 =548-554,2000)。適用于本發(fā)明方法的歸ー化的具體實例包括線性歸一化方法、非線性歸一化方法(例如利用針對成對數(shù)據(jù)的Lowess局部衰減作為信號強度的函數(shù))、信號依賴性非線性歸一化、qspline歸ー化和空間歸ー化,正如Workman等人所述(Genome Biol. 20023,1-16)。在第三步驟中,使歸ー化的數(shù)值進行l(wèi)og變換(例如利用log2,但也可以使用任意底數(shù)的log變換)。由重復的等同特征得到的數(shù)值通常不會產(chǎn)生正態(tài)(即高斯)分布的數(shù)值。然而,信號的對數(shù)幾乎呈正態(tài)分布。將信號變換成幾乎呈正態(tài)分布的形式使得在隨后的步驟中有效使用分布性質(zhì)的標準統(tǒng)計學量度,諸如平均值(均值)和標準偏差??晒┻x擇地或者除此以外,在隨后的步驟中可以使用并未假設(shè)正態(tài)分布的量度,諸如中值和四分 I'Bjfe Unter-quartile range) 在第四步驟中,計算對于對照陣列集合中的每個特征的歸一化log變換信號而言的均值和標準偏差。這個計算量化了由一群完全功能化的陣列的每個特征得到的log變換的歸一化信號的分布中心和寬度。請注意,如果log變換的歸ー化信號的分布是高斯分布,那么均值和標準偏差參數(shù)完全決定了該分布?;蛘?,可以計算穩(wěn)健評級次序(robustrank-order)統(tǒng)計學量度,諸如中值(替代均值)和四分間距IQR(替代標準偏差)。在這種情況下,IQR應(yīng)當成比例縮放,即應(yīng)當使用0. 74*IQR,這是因為對于高斯分布,標準偏差=0.74*IQR。在下ー步驟中,計算測試陣列的每個特征的z得分統(tǒng)計量。z得分是表示數(shù)量與該數(shù)量的均值(或中值)之間差異的統(tǒng)計學度量(statistical metric),以標準偏差(或IQR)的單位計
Sil 廠 AsZi i = ~i-'
リCfS其中,S是log變換的歸ー化信號,μ s是S的均值(或中值),O s是S的標準偏差(或0. 74*IQR),指數(shù)i和j分別指陣列數(shù)和特征數(shù)??梢杂嬎泐愃频梅钟糜诜植嫉钠渌攘?。一般而言,所有信號都被轉(zhuǎn)換成相同尺度,從而測量來自特定特征的信號的特定值位于由適當功能化陣列中的那些特征觀察到的信號的分布中的哪個位置。向z得分統(tǒng)計量的變換使得能夠通過可視或計算機輔助識別具有與眾不同的正的或負的z得分的特征從而清楚地識別異常特征或這種特征組。z得分是具有標準解釋的純無量綱數(shù)字其衡量偏離由分布的ー些成員所設(shè)置的該分布的均值的標準偏差的個數(shù)。因此,可以使用來自統(tǒng)計學過程控制理論的標準方法來設(shè)定用于識別應(yīng)當作為潛在缺陷被標記出的特征的閾值。最后,Z得分統(tǒng)計量可被用于改變沿著陣列表面的各特征圖的顔色,從而使得能夠快速可視識別異常特征組。對于將原始z得分變換成對展示異常信號的特征簇敏感的總度量,有利的是,首先以加重成簇的異常特征區(qū)域并且抑制孤立異常特征的方式對原始z得分圖像進行加工。一種特別簡單的用于實現(xiàn)這個的方法是,應(yīng)用如下形式的“投票法則如果特定特征j的最近鄰的特征中Z得分小于或等于某一閾值tz的分數(shù)(fraction)大于或等于某一閾值tf,那么將該特征標記為占據(jù)“低z”附近。如果該特征自己具有小于或等于閾值tz的z得分,那么額外地將該特征標記為“低z”特征。類似的法則可被寫成用于“高z”或“界外值z”( SP不尋常地高或低)。對于六角網(wǎng)格諸如用于一些微陣列的那些來說,簡單定義的內(nèi)部特征的“最近鄰”是包括討論中的特征以及由直接圍繞該特征的6個特征組成的六角形的集合(同樣的通用定義用于邊和角特征,不同之處在于缺少圍繞近鄰六角形的一些成員)。標記值還可用于產(chǎn)生對“黑袋”缺陷(下述)特別敏感的陣列可視化。一旦特征已被標記為“低z”或者位于“低z”附近,我們就可以基于該標記計算各種陣列寬的度量。特別有用的度量是陣列中被標記為展現(xiàn)低Z值或者被標記為位于低Z附近(或二者)的特征的百分比。這個量度與量度的“中值%CV”族非常相關(guān)。因此,提供了一種用于識別核酸陣列中的異常特征的方法。在這個實施方式中,所述方法包括a)提供log變換的歸一化值,所述log變換的歸一化值表示測試樣品對核酸陣列中的第一特征的雜交量山)利用i所述log變換的歸一化值和ii表示對照樣品對多 個參比陣列中的相應(yīng)特征的雜交量的參比log變換的歸一化值的分布來計算所述第一特征的z得分;以及c)如果存在高于或低于規(guī)定的閾值的z得分,那么識別所述測試特征是異常的。z得分可以以許多不同方式計算,例如利用a)分布的中值或均值,以及b)分布的標準偏差或四分間距。在特定實施方式中,z得分表示所述第一特征的log變換的歸一化值高于或低于參比log變換的歸一化值的均值多少個標準偏差。在這個實施方式中,可以利用如下公式計算z得分
X — μZ =-
π其中x是第一特征的所述log變換的歸一化值;μ是參比log變換的歸一化值的均值或中值;以及σ是參比log變換的歸一化值的標準偏差。在可供選擇的實施方式中,可以利用該分布的按比例縮放的四分間距計算z得分。在這些實施方式中,z得分表示所述第一特征的log變換的歸一化值高于或低于參比log變換的歸一化值的均值多少個按比例縮放的四分間距(0. 74*IQR)。取決于測試的嚴謹度(stringency),規(guī)定的閾值對于異常高的z得分可以在4. O至8. O的范圍內(nèi),例如為5. O至7. 0,或5. 5至6. 5,或者對于異常低的z得分可以在-4. O至-8. O的范圍內(nèi),例如為-5. O至-7. 0,或-5. 5至-6. 5。用于產(chǎn)生分布的對照樣品的個數(shù)可以變化。然而,在一些實施方式中,參比log變換的歸一化值通過如下獲得使至少6個(例如至少8個、至少10個、至少15個、至少25個、至少100個、直至100個或更多個)對照樣本與含有該特征的參比陣列雜交。對照樣品應(yīng)當來自與測試樣品類似的來源,即預期產(chǎn)生與測試樣品類似基因表達圖樣的來源。在一些實施方式中,對照和測試樣品得自相同組織(例如大腦、腎上腺、皮膚、肺臟、脾臟、腎臟、肝臟、脾臟、淋巴腺、骨髓、膀胱、胃、小腸、大腸或肌肉等),體液(包括血糖、血漿、唾液(saliva)、黏液、粘痰、腦脊髓液、胸膜液、淚液、Iactal管液、淋巴、唾液(sputum)、腦脊髓液、滑液、尿、羊水和精液等),或者得自不同個體的同類型癌的活體解剖。如果核酸樣品要由細胞系制成,那么可以利用含有相同細胞(例如肌肉細胞、肝臟細胞等)的細胞系。在特定情況下,可以將單一祥品分開并將它們用作對照樣品和測試樣本,同樣在某些情況下,對照樣品可以與測試樣品相同。可以選擇適當?shù)膶φ諗?shù)據(jù)集合滿足某些標準,例如一致的特征形態(tài),在適當范圍內(nèi)的信號(即過高的(飽和的)或過低的(不是統(tǒng)計學顯著的)信號),較少比例的界外值,以及由重復的相同特征的集合得到的信號的變化系數(shù)的平均百分比CV)低(參見例如van Hijum等人的BMC Genomics. 2005 6 :77,通過引用插入此處,等等)。在特定案例中,對照樣品和測試樣品都是以生物學方式衍生得到的樣品。然而,在其他實施方式中,對照樣品和測試樣品包括對特征雜交的合成寡核苷酸。在特定實施方式中,核酸陣列和參比陣列可以來自相同批次或不同批次。本文所述方法可以在陣列的多個特征上進行。在這些實施方式中,陣列可被看做表示Z-得分的數(shù)量級的顏色圖(即熱量圖)。在這個實施方式中,異常特征簇可以通過眼睛識別。在其他實施方式中,異常特征簇可以利用最近鄰分析識別,即通過確定是否異常特 征具有也是異常的鄰近特征來識別。在這些實施方式中,所述方法包括a)提供多個log變換的歸ー化值,所述log變換的歸ー化值表示測試樣品對核酸陣列中的多個特征的雜交量;b)利用i所述log變換的歸ー化值和ii表示對照樣品對多個參比陣列中的相應(yīng)特征的雜交量的參比log變換的歸一化值的分布來計算所述特征的z得分;以及c)如果存在高于或低于規(guī)定的閾值的z得分,那么識別所述多個特征中的任意ー個都是異常的。在一個實施方式中,對照和參比樣品包括對特征雜交的寡核苷酸的混合物(參見,例如在美國專利申請公開US2006012491中描述的寡核苷酸)。在某些實施方式中,使用下式計算z得分~=ぞ其中,S是log變換的歸ー化信號,μ s是S的均值或中值,σ s是S的標準偏差或0. 74*IQR,指數(shù)i和j分別指陣列數(shù)和特征數(shù)。正如以上所表明的,本方法還包括,提供所述陣列中的異常特征圖,結(jié)果可以通過眼睛識別包含異常特征簇的所述核酸陣列的所述區(qū)域。本方法可以進一歩包括,在多個特征上進行最近鄰分析,從而識別所述陣列中鄰近異常特征的簇。示意性地闡述本發(fā)明的一個實施方式的流程圖示于圖I和圖2中。該流程圖的各個步驟中使用的數(shù)據(jù)變換是不言而喻的。在一個實施方式中,本方法可以通過計算機(ー種包含用于進行以上所述方法的指令(即程序)的有形計算可讀介質(zhì))執(zhí)行。程序可以提供在物理存儲或傳送介質(zhì)中。接收該指令的計算機然后可以執(zhí)行運算法則并且/或者加工由本發(fā)明的方法得到的數(shù)據(jù)。計算機可讀存儲介質(zhì)的實例包括軟盤、磁帶、DVD、CD-ROM、硬盤驅(qū)動、ROM或集成電路、磁光盤或計算機可讀卡諸如PCMCIA卡等,不論上述設(shè)備對計算機來說是內(nèi)部的還是外部的。包含信息的文件可以“存儲”在計算機可讀介質(zhì)上,其中“存儲”意指記錄信息,從而日后該信息可通過局域或遠程網(wǎng)絡(luò)中的計算機訪問和獲取。在計算機執(zhí)行方法的上下文中,“獲得”可以是訪問存儲數(shù)據(jù)的文件。
實施例I識別“黑袋”(DarkPocket)“黑袋”是陣列中這樣的區(qū)域,其中制造問題可能損害了該區(qū)域中的特征的探針。這些缺陷可以以可視方式在具有窄信號動態(tài)范圍的陣列(例如CGH陣列)上識別,但是難以在具有較寬信號動態(tài)范圍的陣列(即多數(shù)其他陣列應(yīng)用類型)上識別。在如下實施例中,使用來自六個“8-組合” “常態(tài)”(低% CV)単色基因表達(GE)陣列和兩個異常(高% CV)陣列的數(shù)據(jù)。在陣列圖像本身中未能見到黑袋的證據(jù)。沒有黑袋可以通過對在常態(tài)(低% CV)載玻片之一上的8個陣列的Z得分可視化觀察到(數(shù)據(jù)未示出)。高% CV載玻片的圖示于圖3中。這些載玻片的可視解釋是相當明顯的常態(tài)載玻片表示非常少的高或低z得分,并且所觀察的幾個異常得分并非劇烈成組。完全相反,在高% CV載玻片上存在一些成簇 的異常低Z得分的區(qū)域。受影響特征的個數(shù)容易地通過如下評估計算具有小于某ー閾值(例如-6)的z得分的特征的個數(shù)。請注意這種分析容易識別“黑袋”問題,不論對不同的陣列應(yīng)用不同的樣品與否,也不論在掃描的陣列圖像中“黑袋”是否不可探測。這些結(jié)論表明,本方法是穩(wěn)健的、敏感的。實施例2z得分圖轉(zhuǎn)化成ニ元“標記圖”載玻片252665211142在對標記的部分簡并寡聚物(參見美國專利申請?zhí)朥S20060121491)的樣品雜交之后產(chǎn)生z得分圖(圖4)。這個圖以及如下標記圖的數(shù)據(jù)都通過計算機執(zhí)行方法產(chǎn)生。所有陣列分別被認為是單ー組;中值和O. 74*IQR被用作歸ー化的log信號分布中心和寬度的統(tǒng)計值。具有彡-5的z得分的特征被標記為低,具有> O. 3的低最近鄰特征分數(shù)的特征被標記為占據(jù)“低z區(qū)域”。用干“低z”和“第z區(qū)域”的所得ニ元標記值的圖示于圖5中。最后,表6表示,各個陣列中被標記為具有低Z-得分、被標記為占據(jù)低z附近或被標記為二者的特征的分數(shù)的柱狀圖,以及來自3個其他載玻片的數(shù)值。左圖中的兩個載玻片展現(xiàn)“黑袋”;右側(cè)的兩個沒有。實施例3Z得分度量和中值% CV之間的相關(guān)性各個陣列中被標記為具有低Z-得分、被標記為占據(jù)低z附近或被標記為二者(z得分度量)的特征的分數(shù)與緑色通道加工信號的中值% CV強相關(guān)(數(shù)據(jù)未示出)。這個數(shù)據(jù)通過如下獲得使同時制成的陣列對寡核苷酸樣品的混合物進行雜交,特征提取數(shù)據(jù)(這樣產(chǎn)生中值% CV度量的數(shù)值),然后對低z特征和區(qū)域進行分析。還證實了陣列中的一些通過可視檢查展現(xiàn)“黑袋”。本說明書中引用的所有出版物和專利通過引用插入本文,就像每篇出版物或?qū)@痪唧w或単獨指出通過引用插入一祥。申請日前的任意出版物的引用是為了公開,不應(yīng)解釋為由于在先發(fā)明而承認本發(fā)明遲于這樣的出版物。雖然為了清楚理解的目的,通過說明性實施例對本發(fā)明進行了相當詳細地描述,但對本領(lǐng)域技術(shù)人員來說明顯的是,不離開所附權(quán)利要求的精神和范圍的基礎(chǔ)上可以進行某些改變和修正。
權(quán)利要求
1.一種識別核酸陣列中的異常特征的方法,其包括 a)提供log變換的歸ー化值,所述log變換的歸ー化值表示測試樣品對核酸陣列中的第一特征的雜交量; b)利用i所述log變換的歸ー化值和ii表示對照樣品對多個參比陣列中的相應(yīng)特征的雜交量的參比log變換的歸ー化值的分布來計算所述第一特征的z得分;以及 c)如果所述測試特征具有高于或低于規(guī)定的閾值的z得分,那么識別所述測試特征是異常的。
2.權(quán)利要求I的方法,其中,所述z得分表示所述第一特征的所述log變換的歸ー化值高于或低于所述參比log變換的歸ー化值的均值或中值多少個標準偏差,其根據(jù)如下公式計算
3.權(quán)利要求I的方法,其中,所述z得分表示所述第一特征的所述log變換的歸ー化值高于或低于所述參比log變換的歸ー化值的均值或中值多少個按比例縮放的四分間距(O. 74*IQR)。
4.權(quán)利要求I的方法,其中,所述參比log變換的歸ー化值通過如下得到使至少六個對照樣品與包含所述特征的參比陣列雜交。
5.權(quán)利要求I的方法,其中,所述對照樣品與所述測試樣品相同。
6.權(quán)利要求I的方法,其中,所述對照樣品和所述測試樣品是以生物學方式衍生得到的樣品。
7.權(quán)利要求I的方法,其中,所述方法包括 a)提供多個log變換的歸ー化值,所述log變換的歸ー化值表示測試樣品對核酸陣列中的多個特征的雜交量; b)利用i所述log變換的歸ー化值和ii表示對照樣品對多個參比陣列中的相應(yīng)特征的雜交量的參比log變換的歸ー化值的分布來計算所述特征中每ー個的z得分;以及 c)如果所述多個測試特征中的任意測試特征具有高于或低于規(guī)定的閾值的z得分,那么識別它們是異常的。
8.權(quán)利要求7的方法,還包括提供所述陣列中的異常特征圖,結(jié)果可以通過眼睛識別所述核酸陣列中包含異常特征簇的所述區(qū)域。
9.權(quán)利要求7的方法,進ー步包括,在所述多個特征上進行最近鄰分析,從而識別所述陣列中鄰近異常特征的簇。
10.ー種有形計算機可讀介質(zhì),其包括用于執(zhí)行權(quán)利要求I的方法的程序。
全文摘要
本發(fā)明涉及異常微陣列特征的識別。概括地,本發(fā)明公開了一種在核酸陣列中識別異常特征的方法,該方法包括a)提供log變換的歸一化值,所述log變換的歸一化值表示測試樣品對核酸陣列中的第一特征的雜交量;b)利用所述log變換的歸一化值和表示對照樣品對多個參比陣列中的相應(yīng)特征的雜交量的參比log變換的歸一化值的分布來計算所述第一特征的z得分;以及c)如果所述測試特征具有高于或低于規(guī)定的閾值的z得分,那么識別所述測試特征是異常的。
文檔編號G06F19/20GK102841986SQ201210140069
公開日2012年12月26日 申請日期2012年5月3日 優(yōu)先權(quán)日2011年6月3日
發(fā)明者保羅·肯尼斯·沃伯, 羅伯特·佩吉 申請人:安捷倫科技有限公司