基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法

文檔序號(hào)：6637773閱讀：643來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法
【專利摘要】一種基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法，用蒙特卡洛方法從原樣本的基因表達(dá)數(shù)據(jù)中產(chǎn)生多個(gè)基因子集；每個(gè)子集通過非負(fù)矩陣因子分解方法分解為系數(shù)矩陣和基矩陣；每一個(gè)非負(fù)矩陣因子分解迭代中，若基矩陣中某樣本的稀疏性小于原樣本的最小稀疏性，該樣本中的元素從小到大逐步被零代替，至其稀疏性不再小于原樣本最小稀疏性；判斷收斂；迭代收斂后，基因得分用于判斷基因的重要性：按得分大小以降序排列基因，逐個(gè)選擇序列中的基因建立一系列模型，各模型通過十折交叉驗(yàn)證方法校正；準(zhǔn)確性最好的模型被用于預(yù)測(cè)。該方法能有效鑒別基因中的生物標(biāo)志物，且由鑒定出的生物標(biāo)志物建立的模型可用于有效地預(yù)測(cè)新的癌癥中的顯型。
【專利說明】基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于化學(xué)計(jì)量【技術(shù)領(lǐng)域】，涉及一種基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法。

【背景技術(shù)】
[0002] 癌癥分類是臨床研宄中鑒定生物標(biāo)志物和治愈惡性腫瘤方面的關(guān)鍵問題。通過微陣列基因芯片技術(shù)得到的基因表達(dá)譜已經(jīng)被成功地應(yīng)用于鑒定生物標(biāo)志物和分類癌癥樣本。
[0003] 基因表達(dá)譜通過大量的基因數(shù)據(jù)來反映生物信息?；虮磉_(dá)譜中的所有基因數(shù)據(jù) 都可看作是潛在的生物標(biāo)志物?；驍?shù)據(jù)中的一些重要的生物標(biāo)志物和基因數(shù)據(jù)的特征可以用來精確地預(yù)測(cè)新腫瘤的顯型。然而，如果使用所有的數(shù)據(jù)，分類將會(huì)遇到高維數(shù)據(jù)的問題。
[0004] 非負(fù)矩陣因子分解（nonnegative matrix factorization, NMF)能夠產(chǎn)生基因數(shù)據(jù)的非負(fù)和稀疏的基向量，它們能有效地表達(dá)基因數(shù)據(jù)并能用于精確地鑒定生物標(biāo) 志物。稀疏性是基向量的重要特征，通過稀疏的基向量可以發(fā)現(xiàn)重要的基因。因此，一些方法被發(fā)展起來用于控制基向量的稀疏性。基于投影梯度下降（projected gradient descent，SNMF/P⑶）的一個(gè)方法通過乘性更新原理更新基因數(shù)據(jù)陣的逆矩陣，從而獲得具有渴望稀疏度的基向量。通過使用兩個(gè)正則化參數(shù)，約束非負(fù)矩陣因子分解（constrained NMF，CNMF)方法被提出并用于產(chǎn)生稀疏的基向量。通過使用定義的稀疏非負(fù)矩陣因子分解 [sparse NMF/L (SNMF/L)和sparse NMF/R (SNMF/R)]方法，一個(gè)方法通過在基因數(shù)據(jù)陣的逆矩陣上強(qiáng)加稀疏性來獲得稀疏的基向量。然而，通過稀疏化后得到的基因數(shù)據(jù)陣的稀疏的基向量會(huì)丟失原基因數(shù)據(jù)的很多重要信息，且稀疏性越大，丟失的信息越多。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是提供一種基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法，能最大限度地保留原基因數(shù)據(jù)中的重要信息，建立的模型可以用于有效地預(yù)測(cè) 新的癌癥中的顯型。
[0006] 為實(shí)現(xiàn)上述目的，本發(fā)明所采用的技術(shù)方案是：一種基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法，其特征在于，該方法具體為：利用蒙特卡洛方法從原樣本的基因表達(dá)數(shù)據(jù)中產(chǎn)生^個(gè)基因子集；每個(gè)基因子集包含1/5的從基因表達(dá)數(shù)據(jù) 中通過隨機(jī)采樣得到的/7·^基因數(shù)據(jù)，當(dāng)直小于矩陣的秩if寸，直將設(shè)置為等于r; 然后，每個(gè)子集通過非負(fù)矩陣因子分解方法分解為一個(gè)系數(shù)矩陣s辦P-個(gè)基矩陣S//; 的初始元素是隨機(jī)數(shù)，^沖的初始元素是子集中的元素；在每一個(gè)非負(fù)矩陣因子分解迭代中，如果沖某樣本的稀疏性小于原樣本的最小稀疏性，該樣本中的元素將從小到大逐步被零代替，直至其稀疏性不再小于原樣本的最小稀疏性；為了判斷收斂，參數(shù)SC定義如下：

【權(quán)利要求】
1. 一種基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法，其特征在于，該方法具體為：利用蒙特卡洛方法從原樣本的基因表達(dá)數(shù)據(jù)中產(chǎn)生S個(gè)基因子集；每個(gè) 基因子集包含1/5的從基因表達(dá)數(shù)據(jù)中通過隨機(jī)采樣得到的/7^基因數(shù)據(jù)，當(dāng)/74直小于矩陣的秩if寸，直將設(shè)置為等于r;然后，每個(gè)子集通過非負(fù)矩陣因子分解方法分解為一個(gè)系數(shù)矩陣S辦P-個(gè)基矩陣S的初始元素是隨機(jī)數(shù)的初始元素是子集中的元素；在每一個(gè)非負(fù)矩陣因子分解迭代中，如果SZ中某樣本的稀疏性小于原樣本的最小稀疏性，該樣本中的元素將從小到大逐步被零代替，直至其稀疏性不再小于原樣本的最小稀疏性；為了判斷收斂，參數(shù)SC定義如下：
式中，?是第?個(gè)回歸的數(shù)字；當(dāng)SCf直接近零時(shí)，計(jì)算趨近收斂；一個(gè)閾值用來判斷收斂，即直小于該閾值時(shí)，認(rèn)為計(jì)算收斂；如果當(dāng)?值小于100時(shí)直小于閾值，則?值設(shè) 為 100 ; 迭代收斂后，如下基因得分用于判斷基因的重要性：
式中，萬是一個(gè)基因的信息熵；一個(gè)基因在^個(gè)子集中出現(xiàn)沒次，因此，其最終得分是其沒個(gè)得分的平均值；然后，所有基因按其得分的大小以降序排列，通過逐個(gè)選擇序列中的基因建立一系列模型，且每個(gè)模型通過基于PLS-LDA的十折交叉驗(yàn)證方法進(jìn)行校正；校正準(zhǔn)確性最好的模型被用于預(yù)測(cè)。
2. 根據(jù)權(quán)利要求1所述的基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法，其特征在于，當(dāng)直大于等于矩陣的秩K寸，直為隨機(jī)采樣的基因個(gè)數(shù)。
【文檔編號(hào)】G06F19/00GK104462817SQ201410745298
【公開日】2015年3月25日申請(qǐng)日期:2014年12月9日優(yōu)先權(quán)日:2014年12月9日
【發(fā)明者】陳晶, 張苗, 邵學(xué)廣申請(qǐng)人:西北師范大學(xué), 陳晶

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳晶;張苗;邵學(xué)廣;
技術(shù)所有人：西北師范大學(xué);陳晶;
我是此專利的發(fā)明人

上一篇：基于眾核協(xié)處理器的三級(jí)流水序列比對(duì)方法
上一篇：一種復(fù)位電路的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

癌癥基因檢測(cè)相關(guān)技術(shù)

癌癥基因相關(guān)技術(shù)

基因治療癌癥相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于蒙特卡洛和非負(fù)矩陣因子分解的基因選擇和癌癥分類方法