專利名稱:高通量生物芯片檢測(cè)結(jié)果的一種判讀工具的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到對(duì)高通量生物芯片的檢測(cè)結(jié)果進(jìn)行判讀的工具,該工具集成了以下三個(gè)部分的判讀方法:1、基于正常樣本進(jìn)行背景校正的方法;2、基于超幾何分布對(duì)組合探針進(jìn)行復(fù)合判讀的方法;3、基于已知數(shù)據(jù)庫的探針結(jié)合自由能譜的比對(duì)方法。
背景技術(shù):
生物芯片技術(shù)起源于核酸分子雜交。一般是指高密度固定在支持介質(zhì)上的生物信息分子(如基因片段、cDNA片段或多肽、蛋白質(zhì))的微陣列雜交型芯片(microarrays),陣列中每個(gè)分子的序列及位置都是已知的,并且是預(yù)先設(shè)定好的序列點(diǎn)陣。生物芯片可以實(shí)現(xiàn)對(duì)生命機(jī)體的生物組分進(jìn)行準(zhǔn)確、快速、大信息量的檢測(cè)。目前常見的生物芯片主要分為三類:基因芯片、蛋白質(zhì)芯片和芯片實(shí)驗(yàn)室。生物芯片的主要特點(diǎn)包括:1)通量高。一張芯片上的一個(gè)點(diǎn)陣可以對(duì)一份樣本同時(shí)分析成千上萬種的病原體,而一張芯片上有可以同時(shí)分析數(shù)十個(gè)臨床樣本;2)快速、準(zhǔn)確和靈敏。單次檢測(cè)I天即可完成,加之高通量特異性,檢測(cè)效力明顯優(yōu)于現(xiàn)有的其他方法;由于檢測(cè)過程中采用全封閉的熒光自動(dòng)化檢測(cè)系統(tǒng),集合特異性探針,檢測(cè)準(zhǔn)確度高、靈敏度好;3)可檢測(cè)未知病原體?,F(xiàn)有病原體檢測(cè)方法,只能對(duì)已知病原體進(jìn)行確認(rèn),對(duì)于未知病原體檢測(cè)則無能為力,例如熒光定量PCR方法,有很多技術(shù)優(yōu)勢(shì),但前提必須知道被檢病原體核酸序列,否則將無法檢測(cè)。而生物芯片檢測(cè)系統(tǒng),由于探針設(shè)計(jì)本身就具有兼容性,檢測(cè)序列發(fā)生突變將不會(huì)影響雜交檢測(cè)。大部分病原體新品種其實(shí)都是已知病原體在藥物和環(huán)境壓力下的突變體,序列具有很高同源性。經(jīng)過多年的發(fā)展,生物芯片技術(shù)在兼顧了傳統(tǒng)和現(xiàn)有傳染病檢測(cè)方法的局限性基礎(chǔ)之上,結(jié)合現(xiàn)代分子生物學(xué)高通量技術(shù)優(yōu)勢(shì),不僅在分子生物學(xué)、功能基因組學(xué)和系統(tǒng)生物學(xué)等基礎(chǔ)科學(xué)研究中成為了一種常規(guī)的實(shí)驗(yàn)手段,同時(shí)還在疾病的分子檢測(cè)、藥物研發(fā)、用藥指導(dǎo)、食品安全檢測(cè)等應(yīng)用領(lǐng)域得到了廣泛的應(yīng)用。BCC研究公司發(fā)表的生物芯片市場(chǎng)調(diào)查報(bào)告稱,微陣列(芯片)和Lab-on-a-Chip是生物芯片產(chǎn)品家族的主要成員,2007年,全球生物芯片市場(chǎng)大約為19.379億美元,2008年將達(dá)到21.156美元,2013年這一市場(chǎng)是38億美元,年增長(zhǎng)率高達(dá)12.7%。生物芯片有多種,包括DNA芯片(微陣列)、蛋白質(zhì)微陣列、新型微陣列產(chǎn)品和芯片化驗(yàn)室(Lab-on-a-Chip, LOACs)等。其中,DNA芯片占據(jù)的市場(chǎng)份額最大,2007年9.473億,2008將達(dá)9.99億,2013年升至16.44億,年增長(zhǎng)率10.8%。由于基因表達(dá)產(chǎn)品(也屬于DNA芯片)市場(chǎng)的不斷成熟,DNA芯片市場(chǎng)的增長(zhǎng)率正在放緩,但是,受到DNA芯片的應(yīng)用不斷有新的領(lǐng)域冒出,包括全微生物檢測(cè)芯片、SNP基因分型等,則對(duì)該市場(chǎng)產(chǎn)生了推動(dòng)作用。例如全微生物檢測(cè)芯片,是在考慮了傳統(tǒng)和現(xiàn)有微生物檢測(cè)方法的局限性基礎(chǔ)之上,結(jié)合現(xiàn)代分子生物學(xué)高通量技術(shù)優(yōu)勢(shì),而建立起來的傳染病病原體診斷和環(huán)境微生物檢測(cè)方法。由于這種技術(shù)本身的優(yōu)勢(shì)和臨床應(yīng)用的潛在價(jià)值,使得國(guó)內(nèi)外眾多科技專家專注于全微生物芯片檢測(cè)技術(shù)的研究。例如,美國(guó)加州大學(xué)舊金山分校DeRisi實(shí)驗(yàn)室研發(fā)的能檢測(cè)多種病毒的virochip芯片,美國(guó)哥倫比亞大學(xué)Lipkin實(shí)驗(yàn)室研發(fā)的能同時(shí)檢測(cè)多種病毒、細(xì)菌、真菌和寄生蟲的GreeneChip芯片等。LOACs是生物芯片市場(chǎng)第二大產(chǎn)品,2008年全球市場(chǎng)有望達(dá)6.913億美元,2013年升至12.454億美元,年增長(zhǎng)率12.5 %。今后5年里,DNA芯片和LOACs仍然是生物芯片市場(chǎng)的龍頭產(chǎn)品。隨著蛋白質(zhì)組學(xué)對(duì)基因功能的理解和疾病認(rèn)識(shí)上所具有的促進(jìn)性影響,蛋白質(zhì)芯片將成為生物芯片市場(chǎng)上的新生力量。組織芯片也是需要注意的一類新興產(chǎn)品。近些年來,隨著生物芯片技術(shù)的不斷發(fā)展,提高芯片的檢測(cè)通量成為了 一個(gè)重要的趨勢(shì),各家使用單位對(duì)單張芯片可檢測(cè)目標(biāo)物的數(shù)量需求也相應(yīng)地在快速增加。單張芯片中所固定的探針容量從幾百發(fā)展到幾千,現(xiàn)在已經(jīng)發(fā)展到可容納幾萬個(gè)探針。例如:Virochip芯片包含有三萬多條探針,可以對(duì)上千種病毒進(jìn)行檢測(cè);而GreeneChip芯片具有廣譜的病原體檢測(cè)特性,包括了 9,477條針對(duì)于病毒的檢測(cè)探針,11,479條針對(duì)于細(xì)菌的檢測(cè)探針,1,120條針對(duì)真菌的檢測(cè)探針以及848條針對(duì)寄生蟲的檢測(cè)探針。由此可見,在將生物芯片進(jìn)行應(yīng)用后,對(duì)于其檢測(cè)結(jié)果的判讀,已經(jīng)成為了生物芯片分析平臺(tái)的關(guān)鍵環(huán)節(jié)。目前,國(guó)外主要有兩種生物芯片判讀工具,分別是E-Predict和GreeneLAMP。然而這兩種方法都是針對(duì)于具體的芯片產(chǎn)品所設(shè)計(jì)的,不具備普適應(yīng),也沒有提供一個(gè)友好的用戶界面。對(duì)于那些沒有編程基礎(chǔ)的生物芯片產(chǎn)品使用者來說,對(duì)于以上的兩款工具,根本無從下手。另外,在算法方面,很多傳統(tǒng)探針設(shè)計(jì)算法的思路大多局限于針對(duì)某個(gè)目標(biāo)物種的序列組設(shè)計(jì)唯一的組特異性探針。在很多應(yīng)用場(chǎng)合,設(shè)計(jì)單個(gè)探針檢測(cè)組內(nèi)所有目標(biāo)序列的目標(biāo)是很難達(dá)到的,因此,設(shè)計(jì)多個(gè)探針通過組合方式進(jìn)行檢測(cè)是很有必要的。每個(gè)探針能特異性地檢測(cè)組內(nèi)一部分目標(biāo)序列,通過組合就能提高覆蓋率。然而對(duì)于組合探針的判別問題,現(xiàn)有的方法還顯得過于簡(jiǎn)單,包括直接計(jì)算陽性探針的數(shù)目,計(jì)算陽性探針占某物種全部檢測(cè)探針的比例等等。對(duì)于我們的芯片判讀工具,使用合理的統(tǒng)計(jì)學(xué)方法,并利用正常樣本進(jìn)行對(duì)照,以消除背景噪聲的影響,這些處理策略都會(huì)使得對(duì)探針結(jié)果的判讀更為準(zhǔn)確。
發(fā)明內(nèi)容
本發(fā)明的目的是對(duì)在使用高通量生物芯片對(duì)樣本進(jìn)行檢測(cè)后,對(duì)檢測(cè)結(jié)果進(jìn)行有效地判讀,明確表征出所測(cè)樣本屬于哪一類目標(biāo)物。由于很多傳統(tǒng)探針設(shè)計(jì)算法的思路大多局限于針對(duì)某個(gè)目標(biāo)物種的序列組設(shè)計(jì)唯一的組特異性探針。在很多應(yīng)用場(chǎng)合,設(shè)計(jì)單個(gè)探針檢測(cè)組內(nèi)所有目標(biāo)序列的目標(biāo)是很難達(dá)到的,因此,設(shè)計(jì)多個(gè)探針通過組合方式進(jìn)行檢測(cè)是很有必要的。每個(gè)探針能特異性地檢測(cè)組內(nèi)一部分目標(biāo)序列,通過組合就能提高覆蓋率。然而對(duì)于組合探針的判別問題,現(xiàn)有的方法還顯得過于簡(jiǎn)單。很多的實(shí)驗(yàn)結(jié)果表明,傳統(tǒng)的基于探針計(jì)數(shù)(probe count)和探針比率(probe ratio)等方法都會(huì)產(chǎn)生較多的錯(cuò)判結(jié)果。在這里,我們采用了基于統(tǒng)計(jì)學(xué)理論的復(fù)合判讀方法來評(píng)價(jià)某類病原體是否富集。同時(shí),我們還使用了其他的統(tǒng)計(jì)學(xué)方法,對(duì)待檢測(cè)物種內(nèi)分布的正常的微生物群落背景進(jìn)行了去除。具體的方法需要對(duì)兩類檢測(cè)信號(hào)強(qiáng)度進(jìn)行對(duì)比。一類是對(duì)待測(cè)樣本的檢測(cè)信號(hào)強(qiáng)度,另一類需要用制備的芯片去雜交分析多份正常的待檢測(cè)物種,一般是從人或者動(dòng)物中取得的樣本,得到每種微生物檢測(cè)探針在正常情況下的信號(hào)強(qiáng)度。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種對(duì)高通量生物芯片的檢測(cè)結(jié)果進(jìn)行判讀的工具,將以下的三類判讀方法進(jìn)行了整合,這些方法包括:方法I)、基于正常樣本進(jìn)行背景校正的方法。方法2)、基于超幾何分布對(duì)組合探針進(jìn)行復(fù)合判讀的方法。方法3)、基于已知數(shù)據(jù)庫的探針結(jié)合自由能譜的比對(duì)方法。本發(fā)明所涉及到三種方法有以下幾個(gè)方面的優(yōu)勢(shì):1、芯片判讀算法先進(jìn)。我們使用最新的微生物基因組數(shù)據(jù)庫資源去構(gòu)造理論能量矩陣,使得芯片判讀的種類覆蓋度更高。我們并不依賴單一的數(shù)學(xué)統(tǒng)計(jì)方法去預(yù)測(cè)微生物種類,而是利用構(gòu)造的理論能量矩陣再根據(jù)相似性比較的方法去預(yù)測(cè),將結(jié)果的誤差降到最低。2、具有針對(duì)性的參數(shù)選擇,使得判讀的準(zhǔn)確性和可靠性顯著提升。數(shù)據(jù)歸一化和相似性度量標(biāo)準(zhǔn)的選擇這一環(huán)節(jié),是具有針對(duì)性的參數(shù)選擇,這將使得探針判讀的流程更加合理,預(yù)測(cè)結(jié)果的準(zhǔn)確性和可靠性都能得到顯著提升。3、使用基于背景校正的探針強(qiáng)度值(Z-score)作為評(píng)價(jià)每個(gè)探針是否為陽性的標(biāo)準(zhǔn),也就是說我們不是直接比較探針的雜交信號(hào)強(qiáng)度,而是比較相對(duì)正常樣本的富集程度。4、由于每個(gè)待檢測(cè)的樣本都對(duì)應(yīng)于多個(gè)探針,我們采用基于超幾何分布的統(tǒng)計(jì)方法,并結(jié)合第一步得到的陽性探針數(shù)目來綜合評(píng)估該樣本是否為陽性結(jié)果。5、易用性界面。我們開發(fā)了一個(gè)網(wǎng)頁服務(wù)器,將以上的三種探針判讀方案整合到一起,供那些有需求的單位和個(gè)人進(jìn)行使用。同時(shí)為使用者提供了簡(jiǎn)潔的參數(shù)選擇界面,提高了整個(gè)判讀流程的效率。
圖1為使用生物芯片去對(duì)多份正常人或者動(dòng)物取得的樣本進(jìn)行雜交分析后,得到的Z-score分布圖。圖2為基于超幾何分布對(duì)組合探針進(jìn)行復(fù)合判讀的p-value計(jì)算界面。圖3為基于已知數(shù)據(jù)庫中的序列信息,對(duì)探針結(jié)合自由能譜進(jìn)行比對(duì)的界面。
具體實(shí)施例方式1、使用基于正常樣本進(jìn)行背景校正的方法,去除動(dòng)物體內(nèi)分布正常的微生物群落
進(jìn)旦冃月^首先需要用制備的芯片去雜交分析多份正常人或者動(dòng)物取得的樣本,得到每種微生物探針在正常情況下信號(hào)強(qiáng)度的均值Mnmi以及相應(yīng)的標(biāo)準(zhǔn)差SDnOTm。然后,使用芯片與待測(cè)樣本進(jìn)行雜交,得到每種探針的信號(hào)強(qiáng)度值t。全部的信號(hào)強(qiáng)度值都需要進(jìn)行對(duì)數(shù)變換,以減小噪音信號(hào)的影響。對(duì)于每一種微生物的每一個(gè)探針,我們都可以計(jì)算其在待測(cè)樣本
中的富集程度,使用z-score進(jìn)行度量:
權(quán)利要求
1.使用基于正常樣本進(jìn)行背景校正的方法,去除動(dòng)物體內(nèi)分布正常的微生物群落背景。
首先需要用制備的芯片去雜交分析多份正常人或者動(dòng)物取得的樣本,得到每種微生物探針在正常情況下信號(hào)強(qiáng)度的均值Mnmi以及相應(yīng)的標(biāo)準(zhǔn)差SDnOTm。然后,使用芯片與待測(cè)樣本進(jìn)行雜交,得到每種探針的信號(hào)強(qiáng)度值t。全部的信號(hào)強(qiáng)度值都需要進(jìn)行對(duì)數(shù)變換,以減小噪音信號(hào)的影響。對(duì)于每一種微生物的每一個(gè)探針,我們都可以計(jì)算其在待測(cè)樣本中的 富集程度,使用z-score進(jìn)行度量:
2.基于超幾何分布的多探針組的復(fù)合判讀方法采用了基于超幾何分布的復(fù)合判讀標(biāo)準(zhǔn)來評(píng)價(jià)某類目標(biāo)檢測(cè)物是否富集。具體的計(jì)算原理如公式所示:
3.基于已知數(shù)據(jù)庫的探針結(jié)合自由能譜的比對(duì)方法 1)、構(gòu)造理論探針結(jié)合自由能矩陣 從待識(shí)別物種的全基因組序列數(shù)據(jù)庫中下載芯片中相應(yīng)種類的微生物的全基因組序列信息。對(duì)于某一給定的基因組序列,與芯片上的探針進(jìn)行逐一比對(duì),利用BLAST算法和最近鄰方法(nearest neighbor method)計(jì)算出此物種的基因組與每個(gè)探針相對(duì)應(yīng)的理論結(jié)合自由能量值。將所有種類物種的全基因組序列信息進(jìn)行這種計(jì)算,從而得到芯片上所有物種的理論結(jié)合自由能矩陣。每一行代表一個(gè)物種,每一列代表一條探針信息。
2)、相似性比較 對(duì)于芯片的檢測(cè)數(shù)據(jù),首先轉(zhuǎn)換為相應(yīng)的強(qiáng)度值。然后對(duì)探針強(qiáng)度值和理論能量矩陣的數(shù)據(jù)進(jìn)行歸一化處理,再逐行比較兩者的相似性,利用多種可供選擇的相似性度量標(biāo)準(zhǔn)計(jì)算相應(yīng)的相似性得分,然后對(duì)得分大小進(jìn)行排序,排名靠前的即為我們預(yù)測(cè)的芯片檢測(cè)的待識(shí)別物種。
4.根據(jù)權(quán)利要求1、權(quán)利要求2和權(quán)利要求3所述方法所構(gòu)建的一個(gè)網(wǎng)頁服務(wù)器工具,用于對(duì)高通量生物芯片檢測(cè)結(jié)果進(jìn)行判讀。
全文摘要
本發(fā)明涉及到一個(gè)對(duì)生物芯片的檢測(cè)結(jié)果進(jìn)行判讀的工具,尤其是設(shè)計(jì)出用于對(duì)單張芯片容量在一千個(gè)探針以上的高通量生物芯片的檢測(cè)結(jié)果。該工具整合了以下三類有代表性的芯片判讀方法,包括1)基于正常樣本進(jìn)行背景校正的方法;2)基于超幾何分布對(duì)組合探針進(jìn)行復(fù)合判讀的方法;3)基于已知數(shù)據(jù)庫的探針結(jié)合自由能譜的比對(duì)方法。
文檔編號(hào)G06F19/24GK103093122SQ201110348738
公開日2013年5月8日 申請(qǐng)日期2011年11月8日 優(yōu)先權(quán)日2011年11月8日
發(fā)明者張?chǎng)卫? 蔣小云, 肖琛 申請(qǐng)人:北京健數(shù)通生物計(jì)算技術(shù)有限公司