一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及生物信息技術(shù)領(lǐng)域,尤其設(shè)及一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方 法。
【背景技術(shù)】
[0002] 隨著高通量技術(shù)的發(fā)展和應(yīng)用,積累了大量的高通量數(shù)據(jù)。整合分析該些大數(shù)據(jù) 有助于發(fā)現(xiàn)事物運行的普遍規(guī)律。高通量生物數(shù)據(jù)關(guān)聯(lián)分析是指從眾多的分子變量(例如 基因,突變,甲基化位點等)中鑒定出影響特定表型分子變異。例如,基因差異表達分析是 指根據(jù)一系列的基因表達數(shù)據(jù),從全基因組的數(shù)萬個基因中挑選出與對照樣本相比存在表 達差異的基因,是發(fā)現(xiàn)疾病等表型相關(guān)基因的重要手段?,F(xiàn)有的方法(傳統(tǒng)思路)主要是 逐個分析每個基因本身的表達量變化,表達量偏離假設(shè)分布的基因就被認為是差異表達基 因。但是在分析大規(guī)模的高度異質(zhì)樣本(比如腫瘤的全基因組表達譜樣本)時,該種方法 具有如下的缺點:
[0003] 首先,傳統(tǒng)思路需要通過均一化處理觀測值得到樣本間可比較的表示基因表達水 平的數(shù)值。由于大樣本內(nèi)部的數(shù)據(jù)變異情況非常復(fù)雜,準確地均一化處理大量高度異質(zhì)的 高維樣本是非常困難的,甚至是不可行的;很顯然,均一化處理帶來的偏差會影響差異表達 分析的結(jié)果。
[0004] 其次,傳統(tǒng)思路需要假設(shè)基因表達水平的數(shù)值分布,比如正態(tài)分布,S化dentt分 布,泊松分布,負二項分布等。很明顯,計算結(jié)果會受到所選分布的影響;由于大樣本數(shù)據(jù)的 高度異質(zhì)性,該些分布也難準確地描述基因表達水平;由于全基因組的基因數(shù)量巨大(2萬 左右)且基因表達的模式不同,能否應(yīng)用一種分布到所有基因也值得商権。
[0005] 最后,傳統(tǒng)思路在分析某個基因時并未考慮其它基因的表達情況,即缺失了基因 表達的背景信息。該不符合生物體內(nèi)的基因間存在普遍的相互影響或調(diào)控該一事實,也不 符合高通量技術(shù)同時測量數(shù)萬個基因表達情況的觀測特點。該可能也會影響關(guān)鍵的、重要 的差異表達基因的發(fā)現(xiàn)。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于解決上述現(xiàn)有技術(shù)存在的缺陷,提供一種能夠避免均一化算法 和假設(shè)分布可能帶來分析偏差的大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法。
[0007] -種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,包括:統(tǒng)計樣本內(nèi)部變量間比較結(jié)果 的頻數(shù)表、應(yīng)用對數(shù)線性模型計算似然值、排序似然值得到跟表型差異最相關(guān)的變量的步 驟。
[0008] 進一步地,如上所述的一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,所述統(tǒng)計樣本 內(nèi)變量間比較結(jié)果的頻數(shù)表的步驟包括;對于基因i,首先在每個樣本內(nèi)比較基因i和其它 基因的大小關(guān)系,然后根據(jù)R、C、S、G4個變量計算頻數(shù),得到包含四個變量的頻數(shù)表,其 中,R表示大小關(guān)系,C表示腫瘤類型,S表示正常還是腫瘤樣本,G表示同基因i比較的基 因。
[0009] 進一步地,如上所述的一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,所述應(yīng)用 對數(shù)線性模型計算似然值的步驟包括;應(yīng)用對數(shù)線性模型到基因i的頻數(shù)表計算模型 (S+R)*C*G的似然值。
[0010] 進一步地,如上所述的一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,所述根據(jù)排序 似然值得到跟表型差異最相關(guān)的變量的步驟包括;所有的基因重復(fù)前兩個步驟,降序排列 所有基因的似然值得分。
[0011] 本發(fā)明提供的一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,W大樣本轉(zhuǎn)錄組腫瘤數(shù) 據(jù)為具體應(yīng)用對象闡述該方法的計算過程及特點,本發(fā)明公開的算法首先比較單個樣本內(nèi) 基因間表達量,利用對數(shù)線性模型計算每個基因差異表達的顯著性得分和差異程度,顯著 性得分越高的基因差異表達越顯著。此計算方法不需要樣本間的均一化處理,不需要假設(shè) 基因表達的數(shù)值分布,因此很自然地避免了均一化算法和假設(shè)分布可能帶來的分析偏差。 而且,本算法通過樣本內(nèi)比較簡單巧妙地將其它基因的表達信息納入分析,但卻并未陷入 高維數(shù)據(jù)分析的"維度災(zāi)難"中。因為該算法僅僅建立在樣本內(nèi)變量間的比較上,如針對不 同的數(shù)據(jù)類型設(shè)計相應(yīng)的比較方式,本發(fā)明的計算框架也適用于除轉(zhuǎn)錄組外的其它大樣本 高通量生物數(shù)據(jù)。
【具體實施方式】
[0012] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面本發(fā)明中的技術(shù)方案進行清 楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā) 明保護的范圍。
[0013] 將本發(fā)明方法應(yīng)用于大樣本腫瘤基因表達譜分析時,假定待分析數(shù)據(jù)是來自多個 腫瘤類型的正常和腫瘤組織樣本,總樣本數(shù)量巨大,可W利用本算法發(fā)現(xiàn)在腫瘤樣本中的 表達不同于正常樣本的基因。假設(shè)基因數(shù)量為n,樣本數(shù)量為m,腫瘤類型數(shù)量為k。本算法 包括立個步驟:
[0014] 步驟一:比較
[0015] 對于基因i,首先在每個樣本內(nèi)比較基因i和其它基因的大小關(guān)系(大于、等于和 小于)。然后把所有的比較結(jié)果根據(jù)下面4個分類變量;R巧elationship,代表大小關(guān)系, 共有3個水平)、"Cohort,比較所在樣本的腫瘤類型,k個水平)、S(Sample_type,比較所 在樣本的正常還是腫瘤樣本,2個水平),G(Gene,同基因i比較的基因,n-1個水平),計算 頻數(shù),得到包含該四個變量的頻數(shù)表。
[0016] 步驟二:打分
[0017] 應(yīng)用對數(shù)線性模型到基因i的頻數(shù)表,計算模型;(S+R)*C*G的似然值 (Ukelihoodratiotest,LRT)。加號代表變量間的加和效應(yīng),分號代表變量間的交互效 應(yīng),而星號代表變量間的加和效應(yīng)和交互效應(yīng)。因此,(S+R) *C*G表示該4個變量間的所有 效應(yīng)減去一切包含S和R交互效應(yīng)的所有效應(yīng),也可W有如下表示:
[0018]S城地地-S:R:C:G-S:R:C-S:R:G-S:R
[0019] 利用此模型,就排除了許多其它效應(yīng),例如腫瘤類型對表達值的影響(C:R、C:R:S、 C:R:G和C:R:S;G)。
[0020] 根據(jù)對數(shù)線性模型理論和關(guān)于似然值的定義可計算得到該模型的似然值得分,我 們用此數(shù)值表示基因i在腫瘤和正常樣本間差異表達的顯著程度得分。另外,我們計算變 量S和R(去除等于水平)形成的二維頻數(shù)表的比值比的對數(shù)(Log20ddsRatio,L0R),用該 數(shù)值指示跨腫瘤類型的、總的基因表達差異程度。
[0021] 步驟排序
[0022] 所有的基因重復(fù)前兩個步驟,降序排列所有基因的LRT得分。排名靠前的基因就 是顯著差異表達的基因。
[002引具體實施例:
[0024] 模擬8個樣本中5個基因的表達情況見表1、表2 ;
[0025] 表1 8個樣本的模擬表
[0026]
[0027] 表2表1中5個基因的表達情況模擬表
[0028]
[0029] 步驟一:樣本內(nèi)比較并計算頻數(shù)表(W基因2為例)
[0030] 表3比較結(jié)果(基因2)
[0031]
[0032] 將比較結(jié)果W如下方式轉(zhuǎn)化為頻數(shù)表,例如在樣本1中基因2的表達大于基因1, 則頻數(shù)表的Coho;rtl-No;rmal-Greater-Genel行的頻數(shù)加 1.
[0033] 表4頻數(shù)表(基因2)
[0034]
[0036] 步驟2 ;計算的LRT值和LOR值,結(jié)果見表5。
[0037]表5
[0038]
[0039] 注;Inf表示無窮大,NA表示缺失值
[0040] 步驟3 ;LRT降序,結(jié)果見表6。
[0041]表 6
[0042]
[0043] 注;Inf表示無窮大,NA表示缺失值
[0044] 根據(jù)排序結(jié)果可W推知,變化最顯著的基因是基因5(LRT值最大),且在腫瘤中層 表達下調(diào)趨勢(L0R值小于零),緊接著的是在腫瘤中上調(diào)的基因2。
[0045] 最后應(yīng)說明的是;W上實施例僅用W說明本發(fā)明的技術(shù)方案,而非對其限制;盡 管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解;其依然 可W對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替 換;而該些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精 神和范圍。
【主權(quán)項】
1. 一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,其特征在于,包括:統(tǒng)計樣本內(nèi)部變量 間比較結(jié)果的頻數(shù)表、應(yīng)用對數(shù)線性模型計算似然值、排序似然值得到跟表型差異最相關(guān) 的變量的步驟。2. 根據(jù)權(quán)利要求1所述的一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,其特征在于,所 述統(tǒng)計樣本內(nèi)變量間比較結(jié)果的頻數(shù)表的步驟包括:對于基因i,首先在每個樣本內(nèi)比較 基因i和其它基因的大小關(guān)系,然后根據(jù)R、C、S、G 4個變量計算頻數(shù),得到包含四個變量 的頻數(shù)表,其中,R表示大小關(guān)系,C表示腫瘤類型,S表示正常還是腫瘤樣本,G表示同基因 i比較的基因。3. 根據(jù)權(quán)利要求1所述的一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,其特征在于,所 述應(yīng)用對數(shù)線性模型計算似然值的步驟包括:應(yīng)用對數(shù)線性模型到基因i的頻數(shù)表計算模 型(S+R)*C*G的似然值。4. 根據(jù)權(quán)利要求1所述的一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,其特征在于,所 述根據(jù)排序似然值得到跟表型差異最相關(guān)的變量的步驟包括:所有的基因重復(fù)前兩個步 驟,降序排列所有基因的似然值得分。
【專利摘要】本發(fā)明提供一種大樣本高通量生物數(shù)據(jù)關(guān)聯(lián)分析方法,包括:統(tǒng)計樣本內(nèi)部變量間比較結(jié)果的頻數(shù)表、應(yīng)用對數(shù)線性模型計算似然值、排序似然值得到跟表型差異最相關(guān)的變量的步驟。本發(fā)明公開的算法首先比較單個樣本內(nèi)基因間表達量,利用對數(shù)線性模型計算每個基因差異表達的顯著性得分和差異程度,顯著性得分越高的基因差異表達越顯著。此計算方法不需要樣本間的均一化處理,不需要假設(shè)基因表達的數(shù)值分布,因此很自然地避免了均一化算法和假設(shè)分布可能帶來的分析偏差。而且,本算法通過樣本內(nèi)比較簡單巧妙地將其它基因的表達信息納入分析,但卻并未陷入高維數(shù)據(jù)分析的“維度災(zāi)難”中。
【IPC分類】G06F19/10
【公開號】CN104978497
【申請?zhí)枴緾N201510353906
【發(fā)明人】李其剛, 孔慶鵬
【申請人】中國科學院昆明動物研究所
【公開日】2015年10月14日
【申請日】2015年6月24日