国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      樣本數(shù)據(jù)的分類的制作方法

      文檔序號:6593390閱讀:855來源:國知局
      專利名稱:樣本數(shù)據(jù)的分類的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及分類,特別地涉及對包含噪聲測量數(shù)據(jù)的樣本進(jìn)行分類。更特別 地,本發(fā)明涉及對生物分子數(shù)據(jù)進(jìn)行分類。
      背景技術(shù)
      在分子診斷學(xué)領(lǐng)域中,微陣列數(shù)據(jù)和蛋白質(zhì)組學(xué)數(shù)據(jù)正日益用于發(fā)展對患者進(jìn) 行分類的新的測試。K.Y.Yeung 和 R.E.Bumgarner 在 Genome Biology,2004,4 R83 中 的"Multiclass classification of microarray data with repeated measurements application to cancer"中,描述了這種測試的一個實例。對微陣列數(shù)據(jù)和蛋白質(zhì)組學(xué)數(shù)據(jù)的分類可以涉及例如診斷和患者分層次。找到 正確的生物標(biāo)志物(例如基因或蛋白質(zhì)的正確集合)以將該分類用作基礎(chǔ),并且找到將這 些生物標(biāo)志物的測量轉(zhuǎn)化為分類的正確規(guī)則是最重要的,因為這可以對所述分類的精確 性產(chǎn)生巨大影響。給定所述生物標(biāo)志物和所述分類規(guī)則,新病例可以在臨床裝置中或在 普通的專業(yè)人員處被分類。微陣列通過促進(jìn)(facilitate)同時測量每個樣本的數(shù)千個基因表達(dá)水平的能力而向 生物學(xué)家提供了重要工具。對微陣列進(jìn)行分類的主要任務(wù)之一是將基因表達(dá)測量(所述 特征)的集合映射到給定的目標(biāo)標(biāo)記(即,患者的類別)。與測量人的體溫或人的身高相 比,測量基因表達(dá)水平是非常具有挑戰(zhàn)性的、昂貴的和耗時的。它是多步驟的過程,其 中必須執(zhí)行許多單獨的工序。這些步驟中的一些包含不可能完全受控并且可能導(dǎo)致所述 分類規(guī)則不可靠的情況。

      發(fā)明內(nèi)容
      取得對生物分子的改進(jìn)的分類將是有利的。為了更好地解決這個問題,在本發(fā) 明的第一方面,提出了一種分類系統(tǒng),包括輸入端,用于接收測量數(shù)據(jù),該測量數(shù)據(jù)包括對待分類的樣本的多個數(shù)值特征 和所述多個數(shù)值特征中各個數(shù)值特征的多個相應(yīng)的誤差估計的測量;統(tǒng)計模塊,用于將各個概率密度函數(shù)與所述多個數(shù)值特征中各個數(shù)值特征相關(guān) 聯(lián),其中所述各個概率密度函數(shù)依賴于對所述各個數(shù)值特征中的相應(yīng)的誤差估計;復(fù)制模塊,用于產(chǎn)生所述樣本的多個擾動的副本,所述擾動的副本包括擾動的 特征,其中所述多個數(shù)值特征中各個數(shù)值特征根據(jù)對應(yīng)的各個概率密度函數(shù)被隨機(jī)擾動 以獲得所述擾動的特征;分類器,用于基于擾動的特征并且通過應(yīng)用預(yù)定的分類標(biāo)準(zhǔn)對所述多個擾動的 副本中的各個副本進(jìn)行分類以獲得分類的副本,其中每個分類的副本具有與其相關(guān)聯(lián)的 類別;分析器,用于基于對所述分類的副本的統(tǒng)計分析對待分類的樣本進(jìn)行分類以獲 得樣本分類。
      因為所述副本的數(shù)值特征被擾動,所以所述分類一般地對應(yīng)所有副本而言將不 總是相同的。而且,由于所述副本的特征根據(jù)歸因于所測量的特征中存在的噪聲的概率 分布被擾動,所以被分類為屬于特定類別的副本的數(shù)量與待分類的樣本針對(in view of) 噪聲屬于該特定類別的概率或可能性有關(guān)。因此,所述分析器可以考慮該概率以提供改 進(jìn)的分類和/或提供更多的關(guān)于分類可靠性的見識。優(yōu)選地,所述統(tǒng)計模塊依賴于所述誤差估計改變方差,例如與誤差估計成比例 地變化。例如,所述分析器將具有最高概率或可能性的類別分配給所述樣本。這提高了 所述分類的精確性(例如特異性和/或敏感性)。優(yōu)選地,所述分析器被設(shè)置用于計算指示樣本屬于特定類別的可能性的值。這 向所述分類系統(tǒng)的用戶給出了他可以用來確定他是否能夠信任(rely on)所述分類的指 示。所述可能性可以例如借助統(tǒng)計假設(shè)測試的概率值或ρ-值指示。優(yōu)選地,計算多個可能性值,其中每個可能性值指示所述樣本屬于各個特定類 別的概率或可能性的值。這允許用戶獲得對所述樣本可能所屬的可能的類別的更好的理 解,這可以用于確定是否需要附加的診斷。為了獲得良好的分類器,可以使用包括每個樣本的多個擾動的副本的訓(xùn)練 (training)數(shù)據(jù)集來訓(xùn)練所述分類器。在獨立權(quán)利要求中定義了本發(fā)明的其他范圍。從屬權(quán)利要求定義了有利的實施 例。


      將參照附圖進(jìn)一步闡釋并描述本發(fā)明的這些和其他方面,在附圖中圖1是分類系統(tǒng)的框圖;圖2是示出分類系統(tǒng)的處理步驟的流程圖;圖3是示出訓(xùn)練分類器并利用訓(xùn)練過的分類器執(zhí)行分類的流程圖;圖4是示出選擇合適的特征子集的過程的流程圖;圖5是示出在特征選擇過程中在單獨的特征中使用測量噪聲的過程的流程圖;圖6是硬件架構(gòu)的框圖。
      具體實施例方式分子測量(比如微陣列數(shù)據(jù))的困難之一在于,它們帶有很大的噪聲。微陣列 數(shù)據(jù)中該噪聲的來源之一是通過雜交中的變異給出的。然而,微陣列測量不僅給出了基 因表達(dá)的指示,而且給出了對尤其是所述陣列上的雜交差異所引入的誤差的估計。該 誤差估計在某種程度上已經(jīng)在生物標(biāo)志物發(fā)現(xiàn)階段中被使用,例如L.J.van’ t Veer等人 在 Nature,415 530-536, 2002 中“Gene expression profiling predicts clinical outcome of breast cancer”,(在下文中Van,t Veer等人)中描述的預(yù)過濾步驟中被使用。如果所述誤差估計沒有用在最終的分類中,則新病例的分類僅僅基于基因表達(dá) 測量,而不考慮這些測量可能是非常不準(zhǔn)確的。在實施例中,基于實際測量,病例不僅僅被分類一次,而是多次,其中每次根據(jù)給定的誤差估計添加擾動噪聲。這可以更詳細(xì)地被執(zhí)行如下。通常,給出生物標(biāo)志物中使用的η個基因和針對基因的測量Xl(i = 1,…, η)。這些基因測量被用在分類器中,該分類器可被視為函數(shù)/(刃,并且在所述病例的數(shù)據(jù) 無=(、...,xj上被調(diào)用一次。如果每個測量X1的誤差估計由ei表示,則通過將擾動噪聲加入到來創(chuàng)建新例子 無。這種新例子或副本(replica)被創(chuàng)建多次(例如1000次)。如果例如所述誤差是正態(tài) 分布的(在微陣列數(shù)據(jù)中這是典型的情況),并且e,指示所述測量所估計的標(biāo)準(zhǔn)差,則新 例子通過下式生成X1i=Xi +N(0,et),其中N(0,ei)是均值為零且標(biāo)準(zhǔn)差為^的正態(tài)分布。于是,分析器f被應(yīng)用于 所述副本的每一個以獲得分類的副本。分類的副本的結(jié)果被結(jié)合成為一個輸出??梢赃m 用于后者的規(guī)則是,使用多數(shù)票決,其中利用特定類別分類的副本代表該類別的投票。 此外,可以顯示每票出現(xiàn)的頻率,以給出由測量誤差引入的不確定性的指示。于是,這 種信息可以用在臨床決策支持系統(tǒng)(CDSS)中以在最終建議中考慮。這些技術(shù)不僅可以在微陣列數(shù)據(jù)上使用,而且可以在其他數(shù)據(jù)上使用,只要估 計對所述測量噪聲是可用的。該噪聲可以歸因于微陣列試驗中的技術(shù)噪聲,而且可以歸 因于例如來自基于重復(fù)試驗的噪聲模型的噪聲。當(dāng)應(yīng)用上述技術(shù)時,所述測量誤差影響分類輸出,因為所述技術(shù)不僅使用實際 測量,而且使用誤差估計。而且,所述方法可能不僅僅給出一個分類輸出,而且給出不 同輸出的概率分布。圖1示出用于對生物分子數(shù)據(jù)進(jìn)行分類的分類系統(tǒng)100的實施例。該分類系統(tǒng) 100具有用于接收測量數(shù)據(jù)的輸入端。所述測量數(shù)據(jù)可以包括例如下列至少一個(a)基因表達(dá)數(shù)據(jù),(b) DNA轉(zhuǎn)錄本數(shù)據(jù)(不僅測量基因表達(dá),而且測量可以在細(xì)胞中表達(dá)的和可以 影響細(xì)胞功能的其他DNA片段),或(c)蛋白質(zhì)組學(xué)數(shù)據(jù)(例如,樣本中多個蛋白質(zhì)的濃度)。上述數(shù)據(jù)類型(a)和(b)可以典型地使用微陣列或化驗(assay)來測量。數(shù)據(jù)類 型(c)可以典型地使用質(zhì)譜儀來測量。然而,也可以使用其他類型的測量。分類系統(tǒng)100的輸入端被設(shè)置用于接收待分類樣本的多個特征102的測量。本 文中,所述特征包括例如上述(a)、(b)和(c)中概述的數(shù)據(jù)類型。例如,一個特征指示 樣本中特定物質(zhì)的濃度。一個特征可以表示特定基因或DNA轉(zhuǎn)錄本已經(jīng)表達(dá)所達(dá)到的程 度。分類系統(tǒng)100的輸入端還被設(shè)置用于接收所述多個特征中各個特征的多個對應(yīng)的誤 差估計104。這些誤差估計提供了特征的測量可以被信任的程度的指示。系統(tǒng)100包括統(tǒng)計模塊106,其用于將各個概率密度函數(shù)108與所述多個特征中 各個特征相關(guān)聯(lián)。概率密度函數(shù)108可以表示測量誤差的概率密度函數(shù),在該情況下所 述概率密度函數(shù)典型地具有均值零和依賴于誤差估計的方差。可替代地,概率密度函數(shù) 108可以表示特征本身的概率密度函數(shù),在該情況下這種概率密度函數(shù)的均值典型地對應(yīng) 于所述特征的測量且方差依賴于特征的誤差估計。基于概率密度函數(shù)108的通常類型的 概率分布對于所有特征而言可以是相同的。典型地,正態(tài)分布可以用于所述概率密度函數(shù),其中方差依賴于相應(yīng)的誤差估計104且均值為零(或?qū)?yīng)于所測量的特征)。然而, 可以使用其他概率密度函數(shù),特別是當(dāng)已知測量具有不是正態(tài)分布的誤差分布時。在分 類系統(tǒng)100的直接實現(xiàn)方式中,對于每個特征,假定獨立的概率分布,然而在更高級的 實現(xiàn)方式中,所述概率密度函數(shù)可以是多變量的并且依賴于若干個或所有測量的特征102 和/或誤差估計104。系統(tǒng)100包括復(fù)制模塊110,其用于產(chǎn)生所述樣本的多個擾動的副本112,即多 個特征102的擾動的副本(并且可能是多個誤差估計104的擾動的副本,其中所述誤差估 計可以或不可以被擾動)。為了產(chǎn)生擾動的副本,復(fù)制模塊110根據(jù)對應(yīng)的各個概率密度 函數(shù)隨機(jī)擾動特征102。這些對應(yīng)的概率密度函數(shù)基于誤差估計可以具有的不同的方差, 因為誤差估計通過統(tǒng)計模塊106與所述特征相關(guān)聯(lián)。如上所討論,在直接實現(xiàn)方式中, 所述概率密度函數(shù)都可以具有相同類型的分布(例如正態(tài)分布)。所述擾動的副本包括所 述擾動的特征。系統(tǒng)100包括分類器114,其用于基于所述擾動的特征對所述多個擾動的副本 中的各個副本進(jìn)行分類。該分類器通過應(yīng)用預(yù)定的分類標(biāo)準(zhǔn)評估擾動的副本的擾動的特 征,以獲得分類的副本116。在本領(lǐng)域,已知許多種類的分類器。適合的分類器可以是 例如最近均值分類器或支持向量機(jī)。系統(tǒng)100包括分析器118,其用于基于對分類的副本116的統(tǒng)計分析而對待分類 的樣本進(jìn)行分類,以獲得樣本類別120。由分析器118執(zhí)行的統(tǒng)計分析可以包括投票系統(tǒng) (例如,具有最多擾動副本的類別變成所述樣本的分類)。為了計算指示樣本屬于特定類別的可能性的值,可以計算所述副本在所述樣本 類別中的百分比。這給出了樣本分類的可靠性的指示,其可以被操作者用來確定附加的 測量或任何其他的診斷活動是否是必需的,以便獲得具有足夠確定性的診斷。所述可能 性可以是例如概率或ρ-值(score)(置信度量)。分析器118還可以被設(shè)置為計算多個可能性的值,其中每個(each respective)可
      能性值指示樣本屬于相應(yīng)的特定類別的概率、可能性或置信水平(confidence)。這可以用 于例如發(fā)現(xiàn)所述類別之一是否比任何其他類別的可能性大得多,或是否兩個或更多類別 的可能性近似相等。在后一種情況下,所述輸出可能不太可靠,并且這是易于知道的。 如果它具有非常低的可能性,則這也使得排除所述類別的一個或多個成為可能。在仍然提供良好結(jié)果的特別高效的實施例中,統(tǒng)計模塊106被設(shè)置用于將正態(tài) 分布與零均值和與誤差估計成比例的標(biāo)準(zhǔn)差相關(guān)聯(lián)。分類器114可以被設(shè)置用于基于所述各個特征的相應(yīng)的誤差估計將相應(yīng)的權(quán)重 應(yīng)用到單獨的副本的所述多個特征中各個特征。這樣,與具有較小誤差估計的特征的影 響相比,具有較大誤差估計的特征的影響被減少。這改進(jìn)了所述擾動的副本的單獨分類 并且可以用于減少具有非常大的誤差估計的特征的影響。例如,假設(shè)所述分類器使用最近質(zhì)心(nearest centroid)方法,其中對于每一個類
      別給定了平均剖面(質(zhì)心)??梢酝ㄟ^計算到不同質(zhì)心的距離并選擇最近的質(zhì)心來對樣本 (或更特別地,擾動的副本)進(jìn)行分類。隨后,如果待分類的患者的某個測量帶有很大 噪聲,則該測量對分類的影響可以通過改變所述距離的計算來減少(例如,所述特征可 以利用與所述特征測量的估計誤差成反比的權(quán)值來加權(quán))。如果使用k-最近鄰居規(guī)則,則也可以加權(quán)測量對所使用的距離度量的貢獻(xiàn)。這不僅可以基于待分類的患者的測量誤 差,而且基于“鄰居”測量的誤差。這可以用在微陣列數(shù)據(jù)上,而且可以用在其他數(shù)據(jù) 上,只要估計對所述測量噪聲而言是可用的。這不僅包括比如微陣列試驗中給出的技術(shù) 噪聲,而且它可以包括來自基于重復(fù)測量的噪聲模型的噪聲。分類系統(tǒng)100可以被建成為測量系統(tǒng),比如微陣列系統(tǒng)或化驗或質(zhì)譜儀。它也 可以被實現(xiàn)為將在任何合適的處理設(shè)備(比如工作站、個人計算機(jī)、PDA等)上執(zhí)行的 計算機(jī)程序產(chǎn)品。優(yōu)選地,所述處理設(shè)備經(jīng)由數(shù)據(jù)鏈路(諸如USB之類的直接鏈路,或 經(jīng)由比如以太網(wǎng)或無線LAN或因特網(wǎng)之類的網(wǎng)絡(luò))耦合到所述測量系統(tǒng)。所述分析器的 結(jié)果可以被顯示在處理設(shè)備的顯示器上或顯示在單獨的顯示器上,它可以被印刷或傳遞 到另一個軟件模塊或另一個設(shè)備以供進(jìn)一步處理。例如,所述分析器的輸出可以是臨床 決策支持系統(tǒng)的輸入。這種臨床決策支持系統(tǒng)可以基于分類系統(tǒng)100的輸出和可以用于 該臨床決策支持系統(tǒng)的任何其他數(shù)據(jù)而產(chǎn)生診斷。所述分析器的輸出也可以用在計算機(jī) 輔助檢測和/或計算機(jī)輔助診斷系統(tǒng)中。典型地,分類器114需要訓(xùn)練,以便給出可靠的分類結(jié)果。例如所述擾動的副 本的優(yōu)點也可以在訓(xùn)練過程中使用。為此,可以提供訓(xùn)練數(shù)據(jù)集發(fā)生器和訓(xùn)練模塊。這 些項目在附圖中沒有示出。為了訓(xùn)練分類器114,所述訓(xùn)練數(shù)據(jù)集發(fā)生器生成訓(xùn)練數(shù)據(jù) 集。優(yōu)選地,所述訓(xùn)練數(shù)據(jù)集發(fā)生器被設(shè)置用于將多個擾動的副本包括在該訓(xùn)練數(shù)據(jù)集 中。例如,它以包含多個樣本的測量的特征的訓(xùn)練數(shù)據(jù)集開始。這些測量的特征例如 是從微化驗中獲得的,并且優(yōu)選地伴隨有地面實況(groundtruth)分類。每個樣本的測量 的特征被多次復(fù)制以獲得每個樣本的多個擾動的副本。所述訓(xùn)練模塊用于使用由此生成 的訓(xùn)練數(shù)據(jù)集訓(xùn)練所述分類器。在訓(xùn)練之后,訓(xùn)練過的分類器可以用于對新樣本進(jìn)行分 類,優(yōu)選地結(jié)合該新樣本的擾動副本的組來進(jìn)行。圖2示出對生物分子數(shù)據(jù)進(jìn)行分類的方法的處理步驟。該方法在步驟200中例如 響應(yīng)于用戶輸入命令而開始。在步驟202中,接收測量數(shù)據(jù)。所述測量數(shù)據(jù)包括待分類 樣本的多個特征102的測量和所述多個特征中各個特征的多個相應(yīng)的誤差估計104。在步 驟204中,將各個概率密度函數(shù)108與所述多個特征中的各個特征相關(guān)聯(lián)。所述各個概 率密度函數(shù)的各自的方差依賴于各個特征的相應(yīng)誤差估計。在步驟206中,產(chǎn)生所述樣 本的多個擾動的副本112。所述擾動的副本包括擾動的特征。所述多個特征中的各個特 征根據(jù)對應(yīng)的概率密度函數(shù)被隨機(jī)擾動以獲得所述擾動特征。在步驟208中,基于所述 擾動特征并通過應(yīng)用預(yù)定的分類標(biāo)準(zhǔn)對所述多個擾動副本中的各個副本進(jìn)行分類。這產(chǎn) 生了分類的副本116。結(jié)果,每個分類的副本具有與其相關(guān)聯(lián)的類別。在步驟210中, 基于對分類的副本116的統(tǒng)計分析對所述樣本進(jìn)行分類以獲得樣本分類120。這種方法可以借助電子電路或優(yōu)選地借助包括可機(jī)讀指令的計算機(jī)程序產(chǎn)品來 實現(xiàn)。圖6示出適用于實現(xiàn)圖1的系統(tǒng)和/或圖2的方法以及本文描述的其他技術(shù)的硬 件架構(gòu)。所示出的硬件架構(gòu)僅僅是一個實例。該圖示出了處理器602和存儲器606。計 算機(jī)程序產(chǎn)品可以裝載到存儲器606 (例如ROM或RAM存儲器)中,并且處理器602被 設(shè)置為執(zhí)行借助可機(jī)讀指令定義的并且存儲在存儲器606中的步驟。所述計算機(jī)程序產(chǎn) 品包括應(yīng)用本文中所描述的一個或多個技術(shù)所需的可機(jī)讀指令。輸入端604可以用于觸發(fā)某些動作,比如數(shù)據(jù)輸入、數(shù)據(jù)處理、開始分類、控制顯像以及結(jié)果的其他輸出。例 如,顯示器612提供了顯示分類結(jié)果的方式。通信端口 608可以可能地經(jīng)由上述網(wǎng)絡(luò)連 接到例如微化驗。通信端口 608也可以連接到進(jìn)一步處理所述系統(tǒng)100或所述方法的輸 出的設(shè)備,例如以提供決策支持??商娲?,可以借助可移動媒體設(shè)備610(例如,DVD 讀取器或CD-ROM讀取器或閃存USB棒)提供所述數(shù)據(jù)。如果可移動媒體設(shè)備具有寫 入能力(例如,它是DVD+RW兼容的,或它是閃存USB棒),也可以將分類系統(tǒng)100的 最后結(jié)果和/或中間結(jié)果輸出到可移動媒體。微陣列是固有的噪聲技術(shù),該技術(shù)在其單獨的測量中具有變化的不確定程度。 微陣列測量中的不確定程度可以經(jīng)由噪聲模型而被量化,所述噪聲模型試圖量化干擾測 量過程的不同的源。所述噪聲模型例如以置信區(qū)間或P-值形式提供關(guān)于微陣列測量的變 化性的信息。該信息可以被傳播到差異表達(dá)或聚類任務(wù)的確定中。然而,所述變化性信 息也可以在分類問題中使用。這種特征噪聲對特征選擇和分類具有影響。微陣列可以經(jīng)由雜交的強(qiáng)度測量間接地測量基因表達(dá)。所述測量的雜交的強(qiáng)度 近似地與樣本中mRNA的量成比例。可能地,這些測量的最重要的用途在于,研究基因 表達(dá)在不同條件下的變化。在雙色陣列中,兩個mRNA源競爭性地被雜交到相同的陣 列。每探針(probe)獲得兩個強(qiáng)度度量I1G, j)和I2(i,j),其中i是微陣列的索引,而j 表示“基因”或目標(biāo)序列。通常,我們對所述強(qiáng)度測量的對數(shù)比感興趣,該對數(shù)比由下 式給出
      (J Q -S ^Xij = Iog10.
      yhihj))
      J (i ·χ比值^^被稱為倍數(shù)變化(fold-change)。注意到,當(dāng)兩個強(qiáng)度相等時,χ 為
      零。非零的對數(shù)比值反映測量的強(qiáng)度在所述單獨的強(qiáng)度之間的變化。例如,2的對數(shù)比 意味著(imply)強(qiáng)度I2是強(qiáng)度I1的IO2 = 100倍。對這些倍數(shù)變化取對數(shù)具有幾個優(yōu)點, 因為它易于使得另外更傾斜的強(qiáng)度分布對稱并且它相似地處理上下調(diào)整,例如
      Γ π 丨, .IOOOxl ,, . 10 ..I log10(—) I=I log10(—) ι。如前所述,單獨的微陣列強(qiáng)度測量帶有很大的噪聲。所謂的誤差模型向每個強(qiáng) 度測量提供關(guān)于其變化性的估計。結(jié)果,所述特征值X,也將是隨機(jī)的。在兩個前述研究中使用的數(shù)據(jù)集被用于評估本文所公開的技術(shù)的性能。這兩個 研究關(guān)于(deal with)都顯現(xiàn)(develop)乳腺癌的女性患者群。Van ‘t Veer等人的目的是 確定被假定存在于所切除的腫瘤組織中的基因表達(dá)標(biāo)記(signature),該基因表達(dá)標(biāo)記可 以用于預(yù)測患者在5年內(nèi)是否將會顯現(xiàn)遠(yuǎn)程轉(zhuǎn)移。這些患者是所謂的淋巴結(jié)陰性,即在 診斷時,它們的局部淋巴結(jié)中沒有腫瘤細(xì)胞。Van ‘t Veer等人的數(shù)據(jù)包括78個患者的訓(xùn)練集合和19個患者的有效集合。 Vande Vijver 等人在 New England Journal of Medicine,347(25) 1999-2009,Dec.2002, Evaluation Studies 的"A gene-expression signature as a predictor of survival in breast cancer”(下文Van de Vijver等人)中描述了其他數(shù)據(jù)集。Van de Vijver等人治療了 295
      個患者的群組,其用于進(jìn)一步驗證(validate)從如Van ‘t Veer等人處得到的標(biāo)記的預(yù)測
      9值。兩個研究使用相同的微陣列和協(xié)議,并且因此所述數(shù)據(jù)可以被共享(pool)。在本研 究中,兩個研究的數(shù)據(jù)被結(jié)合成78個患者的訓(xùn)練集合和106個患者的有效集合。值得注 意的是,Vande Vijver等人包括淋巴結(jié)陰性(151)和淋巴結(jié)陽性患者(144)。Van ‘tVeer 等人和Van de Vijver等人中患者群重疊,因為295個病例群組包含Van de Veer等人中也存 在的61個訓(xùn)練和3個有效的病例。為了獲得均質(zhì)的總體,僅僅考慮淋巴結(jié)陰性的病例。 19個病例的原始有效集擴(kuò)展有151-(61+3) = 87個病例。這提供了更大的有效集,其包 含在總共19+87 = 106個病例中。圖3示出訓(xùn)練分類器和利用訓(xùn)練過的分類器執(zhí)行分類的基本過程。在步驟300 中,所述過程開始。方框301 (其包含步驟302和304)指示訓(xùn)練分類器中所包含的步驟。 步驟306示出利用訓(xùn)練過的分類器執(zhí)行分類。在步驟302中,提供訓(xùn)練數(shù)據(jù)集如下,以 用于訓(xùn)練分類器。令I(lǐng)g表示屬于良好預(yù)后的類別的 個患者的集合,而Ip表示屬于不良 預(yù)后的np個患者的集合?;颊遡的類別標(biāo)簽用L1表示。在步驟304中,計算平均良好剖 面Xg和平均不良剖面xp。用X1表示包含患者i的表達(dá)水平的向量。平均良好剖面Xg和 平均不良剖面Xp被定義為
      權(quán)利要求
      1.一種用于對生物分子數(shù)據(jù)進(jìn)行分類的分類系統(tǒng)(100),包括輸入端,用于接收測量數(shù)據(jù),該測量數(shù)據(jù)包括對待分類的樣本的多個數(shù)值特征(102) 和所述多個數(shù)值特征中各個數(shù)值特征的多個相應(yīng)的誤差估計(104)的測量;統(tǒng)計模塊(106),用于將各個概率密度函數(shù)(108)與所述多個數(shù)值特征中各個數(shù)值特 征相關(guān)聯(lián),其中所述各個概率密度函數(shù)依賴于所述各個數(shù)值特征的相應(yīng)的誤差估計;復(fù)制模塊(110),用于產(chǎn)生所述樣本的多個擾動的副本(112),所述擾動的副本包括 擾動的特征,其中所述多個數(shù)值特征中各個數(shù)值特征根據(jù)對應(yīng)的各個概率密度函數(shù)被隨 機(jī)擾動以獲得所述擾動的特征;分類器(114),用于基于擾動的特征并且通過應(yīng)用預(yù)定的分類標(biāo)準(zhǔn)對所述多個擾動的 副本中的各個副本進(jìn)行分類以獲得分類的副本(116),其中每個分類的副本具有與其相關(guān) 聯(lián)的類別;分析器(118),用于基于對多個所述分類的副本(116)的統(tǒng)計分析對待分類的樣本進(jìn) 行分類以獲得樣本分類(120)。
      2.根據(jù)權(quán)利要求1的分類系統(tǒng),其中所述分析器被設(shè)置用于計算指示樣本屬于特定類 別的可能性的值。
      3.根據(jù)權(quán)利要求2的分類系統(tǒng),其中所述分析器被設(shè)置用于計算多個可能性值,其中 每個相應(yīng)的可能性值指示樣本屬于相應(yīng)的特定類別的可能性。
      4.根據(jù)權(quán)利要求1的分類系統(tǒng),其中所述分析器包括用于建立與最大數(shù)量的擾動的副 本相關(guān)聯(lián)的類別的裝置和用于根據(jù)具有最大數(shù)量的擾動副本的類別對樣本進(jìn)行分類的裝置。
      5.根據(jù)權(quán)利要求1的分類系統(tǒng),其中所述各個概率密度函數(shù)分別是具有基于所述誤差 估計的相應(yīng)的標(biāo)準(zhǔn)差的各個正態(tài)分布,并且其中所述復(fù)制模塊包括用于根據(jù)各個正態(tài)分 布之一產(chǎn)生值以獲得擾動特征的裝置。
      6.根據(jù)權(quán)利要求1的分類系統(tǒng),其中所述分類器包括最近均值分類器。
      7.根據(jù)權(quán)利要求1的分類系統(tǒng),其中所述分類器被設(shè)置用于基于所述各個數(shù)值特征的 相應(yīng)誤差估計將各個權(quán)重應(yīng)用到單獨的副本的所述多個數(shù)值特征中的各個數(shù)值特征,其 中與具有較小誤差估計的數(shù)值特征的影響相比,具有較大誤差估計的數(shù)值特征的影響被 減少。
      8.根據(jù)權(quán)利要求1的分類系統(tǒng),其中所述輸入端被設(shè)置用于接收包括以下至少一個的 測量數(shù)據(jù)基因表達(dá)數(shù)據(jù),DNA轉(zhuǎn)錄本數(shù)據(jù),和蛋白質(zhì)組學(xué)數(shù)據(jù)。
      9.根據(jù)權(quán)利要求1的分類系統(tǒng),進(jìn)一步包括用于向輸入端提供測量數(shù)據(jù)的化驗讀取 器。
      10.根據(jù)權(quán)利要求1的分類系統(tǒng),進(jìn)一步包括臨床決策支持系統(tǒng),其中該臨床決策支 持系統(tǒng)被設(shè)置用于接收所述樣本分類并基于該樣本分類提供診斷。
      11.根據(jù)權(quán)利要求1的分類系統(tǒng),進(jìn)一步包括訓(xùn)練數(shù)據(jù)集生成器,用于生成訓(xùn)練數(shù)據(jù)集,其中該訓(xùn)練數(shù)據(jù)集生成器被設(shè)置用于在該訓(xùn)練數(shù)據(jù)集中包括多個副本;以及訓(xùn)練模塊,用于基于所述訓(xùn)練數(shù)據(jù)集訓(xùn)練所述分類器以獲得適用于對新樣本和/或 新樣本的副本進(jìn)行分類的訓(xùn)練過的分類器。
      12.—種對生物分子數(shù)據(jù)進(jìn)行分類的方法,包括接收(202)測量數(shù)據(jù),該測量數(shù)據(jù)包括對待分類的樣本的多個數(shù)值特征(102)和所述 多個數(shù)值特征中各個數(shù)值特征的多個相應(yīng)的誤差估計(104)的測量;將各個概率密度函數(shù)(108)與所述多個數(shù)值特征中各個數(shù)值特征相關(guān)聯(lián)(204),其中 所述各個概率密度函數(shù)依賴于對所述各個數(shù)值特征的相應(yīng)的誤差估計;產(chǎn)生(206)所述樣本的多個擾動的副本(112),所述擾動的副本包括擾動的特征,其 中所述多個數(shù)值特征中各個數(shù)值特征根據(jù)對應(yīng)的各個概率密度函數(shù)被隨機(jī)擾動以獲得所 述擾動的特征;基于擾動的特征并且通過應(yīng)用預(yù)定的分類標(biāo)準(zhǔn)對所述多個擾動的副本中的各個副本 進(jìn)行分類(208)以獲得分類的副本(116),其中每個分類的副本具有與其相關(guān)聯(lián)的類別; 基于對所述分類的副本(116)的統(tǒng)計分析對待分類的樣本進(jìn)行分類(210)以獲得樣本 分類(120)。
      13.一種計算機(jī)程序產(chǎn)品,包括用于使得處理器執(zhí)行根據(jù)權(quán)利要求12的方法的可機(jī)讀 指令。
      全文摘要
      提供一種用于對生物分子數(shù)據(jù)進(jìn)行分類的分類系統(tǒng)(100)。該系統(tǒng)的輸入端接收待分類樣本的多個特征(102)和多個相應(yīng)的誤差估計(104)。統(tǒng)計模塊(106)將概率密度函數(shù)(108)與所述特征相關(guān)聯(lián),其中所述概率密度函數(shù)的方差(variance)依賴于所述誤差估計。復(fù)制模塊(110)產(chǎn)生所述樣本的多個擾動的(perturbed)副本(replicas)(112),其中所述特征根據(jù)對應(yīng)的各個概率密度函數(shù)被隨機(jī)擾動。分類器(114)基于所述擾動的特征對所述擾動的副本進(jìn)行分類。分析器(118)基于對所述分類的副本(116)的統(tǒng)計分析將待分類的樣本進(jìn)行分類以獲得樣本分類(120)。
      文檔編號G06F19/20GK102016881SQ200980114561
      公開日2011年4月13日 申請日期2009年4月21日 優(yōu)先權(quán)日2008年4月25日
      發(fā)明者H·M·J·桑特羅普, R·范登哈姆, W·F·J·弗黑格 申請人:皇家飛利浦電子股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1