一種基因表達(dá)缺失數(shù)據(jù)的填補(bǔ)方法
【專利摘要】本發(fā)明公開了一種基因表達(dá)缺失數(shù)據(jù)的填補(bǔ)方法,包括如下步驟:首先對(duì)于給定的目標(biāo)基因,選取與目標(biāo)基因最相似的k個(gè)近鄰基因;其次利用選出的k個(gè)近鄰基因構(gòu)建相應(yīng)的目標(biāo)函數(shù),并采用最小二乘準(zhǔn)則和拉格朗日方法迭代地求解回歸系數(shù)矩陣和對(duì)角權(quán)重矩陣;再根據(jù)不同的回歸情況,分別采用不同的填補(bǔ)公式對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ);最后利用一個(gè)不確定性度量對(duì)本發(fā)明提出的方法進(jìn)行循環(huán)迭代,直到缺失值不再變化。本發(fā)明有效地解決了基因表達(dá)缺失數(shù)據(jù)的填補(bǔ)問題,使得對(duì)基因表達(dá)數(shù)據(jù)分析的結(jié)果更為可靠,為后續(xù)的基因表達(dá)數(shù)據(jù)分析提供更為有利的數(shù)據(jù)支持。
【專利說明】一種基因表達(dá)缺失數(shù)據(jù)的填補(bǔ)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物信息【技術(shù)領(lǐng)域】,尤指一種基因表達(dá)缺失數(shù)據(jù)的填補(bǔ)方法。
【背景技術(shù)】
[0002] 隨著生物技術(shù)的不斷發(fā)展,特別是DNA微陣列技術(shù)的開發(fā),已經(jīng)允許人們?cè)诨?水平上揭示有機(jī)體的奧秘。由DNA微陣列技術(shù)產(chǎn)生的數(shù)據(jù)亦稱為基因表達(dá)數(shù)據(jù),目前已廣 泛地應(yīng)用于致病基因的發(fā)現(xiàn),疾病的輔助診斷,藥物療效的判斷等領(lǐng)域。然而,由于各種各 樣的原因,基因表達(dá)數(shù)據(jù)存在大量的缺失值。根據(jù)調(diào)查,所有的基因表達(dá)數(shù)據(jù)都含有一定程 度的缺失現(xiàn)象,有時(shí)候超過90%的基因都會(huì)受到缺失數(shù)據(jù)的影響。而且現(xiàn)有的大多數(shù)數(shù)據(jù) 分析工具都是針對(duì)完整的數(shù)據(jù)設(shè)計(jì)的,無法直接應(yīng)用于含有缺失的基因表達(dá)數(shù)據(jù)。因此,準(zhǔn) 確的填補(bǔ)基因表達(dá)缺失數(shù)據(jù)將具有重要的理論意義和實(shí)用價(jià)值。
[0003] 解決數(shù)據(jù)缺失的最簡(jiǎn)單方法就是直接刪除或忽略缺失值。另外,還有一些比較簡(jiǎn) 單的缺失數(shù)據(jù)處理方法,如使用"0"填充,或者使用數(shù)據(jù)的行平均值代替,或者列平均值代 替。但由于這些方法沒有考慮到數(shù)據(jù)之間的關(guān)聯(lián),也沒考慮到基因表達(dá)數(shù)據(jù)本身具有的結(jié) 構(gòu),因此這樣填補(bǔ)的數(shù)據(jù)常常具有較差的性能和較高的估計(jì)誤差。近年來,隨著生物信息技 術(shù)的深入研究與發(fā)展,人們嘗試借鑒其他領(lǐng)域缺失數(shù)據(jù)填補(bǔ)的一些思想,提出了許多基因 表達(dá)缺失數(shù)據(jù)的填補(bǔ)方法。按照算法思想分類,可將常用的填補(bǔ)算法分為五類:基于k近鄰 的方法(KNN)、基于奇異值分解的方法(SVD)、基于貝葉斯主成分分析的方法(BPCA)、基于 最小二乘準(zhǔn)則的方法以及基于聚類的方法等。
[0004] 基于最小二乘準(zhǔn)則的方法,由于其思想簡(jiǎn)單,數(shù)學(xué)表達(dá)清楚,填補(bǔ)效果顯著等特點(diǎn) 而得到了廣泛的關(guān)注,并取得了大量的研究成果,如局部最小二乘方法(LLS),迭代的局部 最小二乘方法(ILLS)、序列局部最小二乘方法(SLLS)、權(quán)重局部最小二乘方法(WLLS)、迭 代的雙聚類局部最小二乘方法(BI-ILS)等。最小二乘準(zhǔn)則填補(bǔ)方法都采用兩步實(shí)現(xiàn):第一 步,針對(duì)需要填補(bǔ)的基因,預(yù)選出最相似的k個(gè)近鄰基因;第二步,運(yùn)用預(yù)選的基因采用最 小二乘準(zhǔn)則進(jìn)行缺失數(shù)據(jù)填補(bǔ)。多元回歸分析是所有最小二乘準(zhǔn)則填補(bǔ)方法的一個(gè)必須而 重要的步驟,多元回歸的結(jié)果進(jìn)一步用于基因表達(dá)缺失數(shù)據(jù)的填補(bǔ)。然而,現(xiàn)存的所有最小 二乘準(zhǔn)則方法中,多元回歸分析都沒有考慮到不同近鄰基因的不同重要性。為此,本發(fā)明考 慮了目標(biāo)基因的k個(gè)最近鄰基因的不同重要性,提出了一種自動(dòng)地加權(quán)不同近鄰基因的缺 失數(shù)據(jù)填補(bǔ)方法。
【發(fā)明內(nèi)容】
[0005]鑒于現(xiàn)有的基于最小二乘準(zhǔn)則填補(bǔ)方法存在的問題,本發(fā)明的目的是提供一種考 慮了不同近鄰基因的不同重要性的缺失數(shù)據(jù)填補(bǔ)方法一迭代的局部自加權(quán)最小二乘填 補(bǔ)方法(ILAW-LS)。
[0006]具體實(shí)施步驟如下所示:
[0007] -種基因表達(dá)缺失數(shù)據(jù)的填補(bǔ)方法,自動(dòng)加權(quán)不同近鄰基因并對(duì)基因表達(dá)缺失數(shù) 據(jù)進(jìn)行填補(bǔ),包括如下步驟:
[0008] 步驟1 :輸入具有缺失數(shù)據(jù)的基因表達(dá)矩陣<3 其中,m為基因的數(shù)量,n為 樣本的數(shù)量;
[0009] 步驟2 :選取目前尚未被填補(bǔ)的缺失數(shù)據(jù)行作為目標(biāo)基因,假設(shè)該目標(biāo)基因具有Ρ 個(gè)缺失樣本值;再選取與目標(biāo)基因最相似的k個(gè)近鄰基因,并構(gòu)建相應(yīng)的矩陣Α和Β,其中, 矩陣A由k個(gè)近鄰基因的p個(gè)缺失樣本所在的列構(gòu)成,矩陣B由k個(gè)近鄰基因的 q = n-p 個(gè)未缺失樣本所在的列構(gòu)成;
[0010] 步驟3 :采用最小二乘準(zhǔn)則和拉格朗日方法,迭代地求解回歸系數(shù)矩陣奢和對(duì)角權(quán) 重矩陣禽(幻_=;
[0011] 步驟3· 1 :隨機(jī)初始化對(duì)角權(quán)重矩陣w°(k),采用最小二乘方法計(jì)算回歸系數(shù)矩陣 Y°使得I |w°(k) (AY-B) I |F達(dá)到最小,并計(jì)算回歸殘差矩陣的F范數(shù)值ErrorF= I |AY°-B| |F ; 設(shè)置最小的殘差F范數(shù)值MinErrorF = ErrorF和相應(yīng)的回歸系數(shù)矩陣Ymin = γ°,并設(shè)定初 始的迭代次數(shù)t = 〇以及最大的迭代次數(shù)τ; mm
[0012] 步驟3·2 :令脅,采用最小二乘方法計(jì)算回歸系數(shù)矩陣使得 1輛1)(灰¥-:6)1達(dá)到最小,并計(jì)算回歸殘差矩陣的F范數(shù)值ErrorF = | |AYt+1-B| |F ;如果 ErrorF<MinErrorF,則修正最小的殘差F范數(shù)值MinErrorF = ErrorF和相應(yīng)的回歸系數(shù)矩 陣1 =浐+1;如果11以命(杜^1)-1>(命(幻,^11<6或者七達(dá)到最大的迭代次數(shù) 1',則跳轉(zhuǎn) 到步驟4;否則,跳轉(zhuǎn)到步驟3·3。其中,P(W(k),Y)為本發(fā)明的目標(biāo)函數(shù),ε為預(yù)先給定的 較小的常數(shù)值;
[0013] 步驟3_ 3 :令,采用拉格朗日方法計(jì)算權(quán)重矩陣Wt+1使得帶約束的目標(biāo)函數(shù) P(輝),V)達(dá)到最小;如果IIP(妒+1_:t)-PCT(歐__,則跳轉(zhuǎn)到步驟4 ;否則,重置迭代 次數(shù)t = t+Ι,并跳轉(zhuǎn)到步驟3. 2 ;
[0014]步驟4 :如果迭代次數(shù)t達(dá)到最大的迭代次數(shù)T,跳轉(zhuǎn)到步驟5 ;否則,采用表達(dá)式 uT = vTYt+1來填補(bǔ)相應(yīng)的缺失數(shù)據(jù),并且跳轉(zhuǎn)到步驟6 ;其中,UT為目標(biāo)基因的p個(gè)缺失樣本 列,ντ為目標(biāo)基因的q個(gè)未缺失樣本列;
[0015]步驟5 :如果|:|:P(vV⑷,γ?+1)-,則采用表達(dá)式UT = νΥ+1來填補(bǔ)缺失 數(shù)據(jù),并跳轉(zhuǎn)到步驟6 ;否則,采用表達(dá)式uT = VTYmin來填補(bǔ)缺失數(shù)據(jù),并跳轉(zhuǎn)到步驟6 ; [0016]步驟6 :如果所有的缺失數(shù)據(jù)都被填補(bǔ)完全,則以現(xiàn)有的填補(bǔ)值為基礎(chǔ),多次迭代 的填補(bǔ)缺失數(shù)據(jù)直到填補(bǔ)達(dá)到穩(wěn)定狀態(tài)或者達(dá)到最大迭代次數(shù)τ ;否則,跳轉(zhuǎn)到步驟2 ; [0017] 步驟7 :輸出填補(bǔ)完全的基因表達(dá)矩陣; '
[0018]采用這樣的處理,本發(fā)明方法能根據(jù)近鄰基因的不同重要性自動(dòng)地更新近鄰基因 的權(quán)重,從而自動(dòng)地強(qiáng)調(diào)重要的近鄰基因并淡化包含噪聲的近鄰基因。該方法在局部最小 二乘法(LLS)的基礎(chǔ)上,添加了一個(gè)新的步驟來計(jì)算近鄰基因的權(quán)重,并采用拉格朗日法 給出了相應(yīng)的最優(yōu)權(quán)重計(jì)算公式。為了提高該方法的收斂速度,本發(fā)明設(shè)計(jì)了一個(gè)加速策 略,該策略保證在最差的情況下也能具有局部最小二乘方法( LLS)的收斂速度。
[0019]此外,本發(fā)明還設(shè)計(jì)了一個(gè)迭代的填補(bǔ)框架來進(jìn)一步提高填補(bǔ)的準(zhǔn)確性。所述的 步驟6中多次迭代的迭代框架可以采用以下規(guī)則來實(shí)現(xiàn):對(duì)于某個(gè)給定的缺失樣本,只有 當(dāng)不確定性下降的時(shí)候,才以現(xiàn)有的迭代結(jié)果替換上一次的值。其中,不確定性度量Θ的 計(jì)算公式如下:
[0020]
【權(quán)利要求】
1. 一種基因表達(dá)缺失數(shù)據(jù)的填補(bǔ)方法,自動(dòng)加權(quán)不同近鄰基因并對(duì)基因表達(dá)缺失數(shù)據(jù) 進(jìn)行填補(bǔ),包括如下步驟: 步驟1 :輸入具有缺失數(shù)據(jù)的基因表達(dá)矩陣,其中,m為基因的數(shù)量,η為樣本 的數(shù)量; 步驟2 :選取目前尚未被填補(bǔ)的缺失數(shù)據(jù)行作為目標(biāo)基因,假設(shè)該目標(biāo)基因具有ρ個(gè)缺 失樣本值;再選取與目標(biāo)基因最相似的k個(gè)近鄰基因,并構(gòu)建相應(yīng)的矩陣Α和Β,其中,矩陣 A由k個(gè)近鄰基因的ρ個(gè)缺失樣本所在的列構(gòu)成,矩陣B由k個(gè)近鄰基因的q = n-p個(gè)未缺 失樣本所在的列構(gòu)成; 步驟3:采用最小二乘準(zhǔn)則和拉格朗日方法,迭代地求解回歸系數(shù)矩陣t和對(duì)角權(quán)重 矩陣Vv(/〇; 步驟3. 1 :隨機(jī)初始化對(duì)角權(quán)重矩陣W°(k),采用最小二乘方法計(jì)算回歸系數(shù)矩陣Y°使 得| |W°(k) (ΑΥΒ) | ^達(dá)到最小,并計(jì)算回歸殘差矩陣的F范數(shù)值Err〇rF= | |AY°-B| |F;設(shè)置 最小的殘差F范數(shù)值MinErrorF = ErrorF和相應(yīng)的回歸系數(shù)矩陣Ymin = Y°,并設(shè)定初始的 迭代次數(shù)t = 0以及最大的迭代次數(shù)Τ ; 步驟3. 2 :令
,采用最小二乘方法計(jì)算回歸系數(shù)矩陣Yt+1使得 ||古⑷仏丫-:8瓜達(dá)到最小,并計(jì)算回歸殘差矩陣的F范數(shù)值ErrorF = | |AYt+1-B| |F;如果 ErrorF〈MinErrorF,則修正最小的殘差F范數(shù)值MinErrorF = ErrorF和相應(yīng)的回歸系數(shù)矩 陣Ymin = Yt+1;如果II
<£或者t達(dá)到最大的迭代次數(shù)τ,則跳轉(zhuǎn) 到步驟4;否則,跳轉(zhuǎn)到步驟3.3。其中,P(W(k),Y)為本發(fā)明的目標(biāo)函數(shù),ε為預(yù)先給定的 較小的常數(shù)值; 步驟3. 3 :令?=Υ?,采用拉格朗日方法計(jì)算權(quán)重矩陣Wt+1使得帶約束的目標(biāo)函數(shù) ?(\¥認(rèn))方):達(dá)到最??;如果||?(\^+1(幻,豹-?(^¥從)力||<£:,則跳轉(zhuǎn)到步驟4 ;否則,重置迭代 次數(shù)七=1+1,并跳轉(zhuǎn)到步驟3.2; 步驟4 :如果迭代次數(shù)t達(dá)到最大的迭代次數(shù)T,跳轉(zhuǎn)到步驟5 ;否則,采用表達(dá)式uT = vTYt+1來填補(bǔ)相應(yīng)的缺失數(shù)據(jù),并且跳轉(zhuǎn)到步驟6 ;其中,uT為目標(biāo)基因的ρ個(gè)缺失樣本列, ντ為目標(biāo)基因的q個(gè)未缺失樣本列; 步驟5 :如果|| P(\V(々),Y_' ·1) - P(\V(/〇,Y") < ;,,則采用表達(dá)式uT = vTYt+1來填補(bǔ)缺失數(shù)據(jù), 并跳轉(zhuǎn)到步驟6 ;否則,采用表達(dá)式uT = vTYmin來填補(bǔ)缺失數(shù)據(jù),并跳轉(zhuǎn)到步驟6 ; 步驟6 :如果所有的缺失數(shù)據(jù)都被填補(bǔ)完全,則以現(xiàn)有的填補(bǔ)值為基礎(chǔ),多次迭代的填 補(bǔ)缺失數(shù)據(jù)直到填補(bǔ)達(dá)到穩(wěn)定狀態(tài)或者達(dá)到最大迭代次數(shù)T ;否則,跳轉(zhuǎn)到步驟2 ; 步驟7 :輸出填補(bǔ)完全的基因表達(dá)矩陣。
2. 根據(jù)權(quán)利要求1所述的一種基因表達(dá)缺失數(shù)據(jù)的填補(bǔ)方法,其特征在于:所述的步 驟6中多次迭代的迭代框架可以采用以下規(guī)則來實(shí)現(xiàn):對(duì)于某個(gè)給定的缺失樣本,只有當(dāng) 不確定性下降的時(shí)候,才以現(xiàn)有的迭代結(jié)果替換上一次的值。其中,不確定性度量Θ的計(jì) 算公式如下:
其中,ta/2;l"為置信水平為α自由度為u-r的t分布,u和r分別為矩陣A行和列的 數(shù)目,#為多元回歸方差的無偏估計(jì)值,其計(jì)算公式如下所示:
其中,是矩陣B的第j列,^是矩陣?的第j列。
【文檔編號(hào)】G06F19/20GK104298893SQ201410519632
【公開日】2015年1月21日 申請(qǐng)日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】李天瑞, 余增, 景運(yùn)革 申請(qǐng)人:西南交通大學(xué)