本發(fā)明涉及生物信息學(xué)和機器學(xué)習(xí),具體的說是一種基于多任務(wù)樣本選擇的癌癥標(biāo)記物篩選方法。
背景技術(shù):
1、近年來,隨著高通量測序技術(shù)的進步,rna癌癥基因表達譜成為了揭示疾病機制、篩選新型標(biāo)記物的重要資源。rna表達水平的變化不僅反映了基因活性的動態(tài)調(diào)節(jié),還與細胞生理狀態(tài)、疾病進程密切相關(guān)。通過分析基因和癌癥之間的密切聯(lián)系,探索從海量的rna表達數(shù)據(jù)中篩選出最具代表性和預(yù)測性的基因組合作為潛在的癌癥標(biāo)記物,以增強預(yù)測能力和臨床實用性,成為了當(dāng)前研究的熱點。
2、現(xiàn)有的使用特征選擇算法從rna癌癥基因表達譜中篩選潛在癌癥標(biāo)記物的方法存在明顯的不足。
3、1、當(dāng)前的篩選方法未對數(shù)據(jù)集的質(zhì)量進行考慮。測序儀器的技術(shù)限制和測序化學(xué)反應(yīng)的不完全等都會產(chǎn)生噪音和錯誤數(shù)據(jù),這些會影響癌癥標(biāo)記物的篩選效果。
4、2、每個樣本均含有數(shù)萬個基因數(shù)量,在數(shù)據(jù)集中存在大量的冗余樣本,在處理這些數(shù)據(jù)時會額外消耗大量的時間成本,影響癌癥標(biāo)記物的篩選效率。
技術(shù)實現(xiàn)思路
1、本發(fā)明是為了解決上述現(xiàn)有技術(shù)存在的不足之處,提出一種基于多任務(wù)樣本選擇的癌癥標(biāo)記物篩選方法,以期能首先縮減優(yōu)化樣本數(shù)據(jù)集,從而能提高癌癥標(biāo)記物篩選的效果和效率。
2、本發(fā)明為達到上述發(fā)明目的,采用如下技術(shù)方案:
3、本發(fā)明一種基于多任務(wù)樣本選擇的癌癥標(biāo)記物篩選方法的特點在于,包括以下步驟:
4、步驟1、獲取癌癥基因表達數(shù)據(jù)集{(xw,yw)|w=1,2,…,w},其中,(xw,yw)表示第w個癌癥基因表達樣本,xw為第w個樣本的屬性特征集合,且表示第w個樣本的第d個屬性特征,d∈[1,d],d為癌癥基因表達樣本的屬性特征總數(shù),yw表示第w個樣本的類別標(biāo)簽,yw∈[1,c],c表示類別的總數(shù);w∈[1,w],w為癌癥基因表達樣本的總數(shù);
5、步驟2、構(gòu)造輔助任務(wù)數(shù)據(jù)集;
6、步驟2.1、從{(xw,yw)|w=1,2,…,w}中獲取所有第c個類別的樣本,并計算所有第c個類別的樣本中的屬性特征的平均值,作為第c個類別的中心向量centerc;計算第w個癌癥基因表達樣本與centerc的歐式距離并歸一化后,得到第w個樣本的重要性impw,從而得到所有樣本的重要性imp={impw|w=1,2,…,w};
7、步驟2.2、定義輔助任務(wù)數(shù)據(jù)集代數(shù)為t,并初始化t=1;
8、定義第t代標(biāo)志向量其中,表示第t代標(biāo)志向量的第w個標(biāo)志;
9、構(gòu)建隨機概率向量pos={posw|w=1,2,…,w};其中,posw表示第w個隨機數(shù);
10、若posw<impw,則令表示保留第w個癌癥基因表達樣本(xw,yw),否則,令表示刪除第w個癌癥基因表達樣本(xw,yw),從而構(gòu)建第t代癌癥基因表達輔助數(shù)據(jù)集其中,表示第t代第u個癌癥基因表達輔助樣本;表示第t代第u個輔助樣本的屬性特征集合,表示第t代第u個輔助樣本的類別標(biāo)簽,ut為第t代癌癥基因表達輔助樣本的總數(shù);
11、步驟3、構(gòu)建主種群和輔助種群;
12、步驟3.1、定義當(dāng)前代數(shù)為g,并初始化g=1;定義最大代數(shù)為gmax;
13、步驟3.2、定義并隨機初始化第g代主種群為其中,表示pg中的第n個主個體,且表示中的第w個主染色體;若表示中不選擇第w個癌癥基因表達樣本(xw,yw),若表示中選擇第w個癌癥基因表達樣本(xw,yw);
14、步驟3.3、定義并隨機初始化第g代輔助種群為其中,表示qg中的第n個輔助個體,且表示中的第u個輔助染色體;若表示中不選擇第u個癌癥基因表達輔助樣本若表示中選擇第u個癌癥基因表達輔助樣本
15、步驟4、若g不為k和r的倍數(shù)時,執(zhí)行步驟4.1、步驟4.2和步驟4.3,計算第g代兩個種群個體的優(yōu)化目標(biāo)值,用于進化第g+1代兩個種群;否則,執(zhí)行步驟5;
16、步驟4.1、計算個體的優(yōu)化目標(biāo)值;
17、步驟4.1.1、將對應(yīng)的癌癥基因表達樣本集輸入svm分類器中進行訓(xùn)練,得到第g代第n個癌癥基因表達分類模型并計算在{(xw,yw)|w=1,2,…,w}上的分類精度和壓縮率從而得到的優(yōu)化目標(biāo)值
18、步驟4.1.2、將對應(yīng)的癌癥基因表達輔助樣本集輸入svm分類器中進行訓(xùn)練,得到第g代第n個癌癥基因表達輔助分類模型并計算在上的分類精度和壓縮率從而得到的優(yōu)化目標(biāo)值
19、步驟4.2、進化第g代主種群pg,得到第g+1代主種群pg+1,并記錄第g+1代前沿面主種群其中,表示第g+1代的第f個前沿面主個體,f表示前沿面主種群的規(guī)模;
20、步驟4.3、進化第g代輔助種群qg,得到第g+1代輔助種群qg+1,并記錄第g+1代前沿面輔助種群其中,表示第g+1代的第e個前沿面輔助個體,e表示前沿面輔助種群的規(guī)模;
21、步驟5、若g為k的倍數(shù)且g不為r的倍數(shù)時,執(zhí)行主種群pg和輔助種群qg之間的知識轉(zhuǎn)移,得到第g+1代主種群pg+1,并記錄第g+1代前沿面主種群
22、若g為r的倍數(shù)時,進化第g+1代主種群,得到第g+1代主種群pg+1,并記錄第g+1代前沿面主種群
23、步驟6、當(dāng)g>gmax時,獲取第gmax代主種群pgmax中優(yōu)化目標(biāo)值之和最大的個體作為第gmax代最佳主個體若中的第w個主染色體選擇第w個癌癥基因表達樣本(xw,yw),否則,不選擇第w個癌癥基因表達樣本(xw,yw),從而構(gòu)建最佳癌癥基因表達樣本子集;
24、步驟7、將最佳癌癥基因表達樣本子集輸入特征選擇算法中進行處理,篩選出最終的癌癥基因表達組合,即癌癥標(biāo)記物的篩選結(jié)果。
25、本發(fā)明所述的一種基于多任務(wù)樣本選擇的癌癥標(biāo)記物篩選方法的特點在于,所述步驟4.2包括以下步驟:
26、步驟4.2.1、當(dāng)g=1時,從pg中隨機選擇第a個主個體和第b個主個體且
27、構(gòu)建第g代交叉概率向量其中,表示第g代第w個交叉隨機數(shù);
28、定義交叉概率為pc,若randcwg<pc時,則將和交換;否則,不交換;
29、構(gòu)建第g代第a個變異概率向量其中,randm_awg表示第g代第a個主個體的第w個變異隨機數(shù);
30、定義變異概率為pm,若randm_awg<pm,則翻轉(zhuǎn)的第w個主染色體否則,不翻轉(zhuǎn);
31、構(gòu)建第g代第b個變異概率向量其中,randm_bwg表示第g代第b個主個體的第w個隨機數(shù);
32、若randm_bwg<pm,則翻轉(zhuǎn)的第w個主染色體否則,不翻轉(zhuǎn);
33、將加入第g代更新主種群p′g中;
34、步驟4.2.2、按照步驟4.2.1的過程執(zhí)行次,從而得到第g代更新主種群p′g,并與pg合并后,通過非支配排序和精英選擇策略,從合并種群中選出排名前n個個體并組成第g+1代主種群pg+1,并記錄第g+1代前沿面主種群其中,表示第g+1代的第f個前沿面主個體,f表示前沿面主種群的規(guī)模;
35、步驟4.2.3、當(dāng)g≠1時,從第g代前沿面主種群pfg中隨機選擇第f個前沿面主個體作為的引導(dǎo)個體;
36、構(gòu)建第g代的學(xué)習(xí)概率向量其中,randlwg表示第g代的第w個隨機數(shù);
37、定義學(xué)習(xí)概率為pl,若randlwg<pl時,則中第w個主染色體賦值給否則,不賦值;
38、將加入第g代更新主種群p′g中;
39、步驟4.2.4、將pg和p′g合并后,通過非支配排序和精英選擇策略,從合并種群中選出排名前n個主個體組成第g+1代主種群pg+1,并記錄第g+1代前沿面主種群
40、所述步驟4.3包括以下步驟:
41、步驟4.3.1、從qg中隨機選擇第a個輔助個體第b個輔助個體且
42、構(gòu)建第g代交叉概率向量其中,表示第g代第u個交叉隨機數(shù);
43、定義交叉概率pc′,若則將和交換;否則,不交換;
44、構(gòu)建第g代第a個變異概率向量其中,表示第g代第a個輔助個體第u個變異隨機數(shù);
45、定義變異概率為pm′,若則翻轉(zhuǎn)的第u個輔助染色體否則,不翻轉(zhuǎn);
46、構(gòu)建第g代第b個變異概率向量其中,表示第g代第b個輔助個體第u個變異隨機數(shù);
47、若則翻轉(zhuǎn)的第u個輔助染色體否則,不翻轉(zhuǎn);
48、將加入第g代更新輔助種群q′g中;
49、步驟4.3.2、按照步驟4.3.1的過程執(zhí)行次,從而得到第g代更新輔助種群q′g,并與qg合并后,通過非支配排序和精英選擇策略,從合并種群中選出排名前n個個體并組成第g+1代輔助種群qg+1,并記錄第g+1代前沿面輔助種群其中,表示第g+1代的第e個前沿面輔助個體,e表示前沿面輔助種群的規(guī)模。
50、所述步驟5中,若g為k的倍數(shù)且g不為r的倍數(shù)時,則執(zhí)行步驟5.1和步驟5.2;
51、若g為r的倍數(shù)時,則執(zhí)行步驟5.2和步驟5.3:
52、步驟5.1、計算主種群pg中每個主個體的優(yōu)化目標(biāo)值之和并將pg中優(yōu)化目標(biāo)值之和的最大值所對應(yīng)的主個體作為第g代最佳主個體
53、合并和qg后,通過非支配排序和精英選擇策略,從合并種群中選出排名前n個個體并組成第g+1代輔助種群qg+1,并記錄第g+1代前沿面輔助種群
54、根據(jù)和st更新第t+1代標(biāo)志向量其中,表示第t+1代標(biāo)志向量的第w個標(biāo)志;
55、若保留第w個癌癥基因表達樣本(xw,yw),否則,刪除第w個癌癥基因表達樣本(xw,yw),從而構(gòu)建第t+1代癌癥基因表達輔助數(shù)據(jù)集其中,表示第t+1代第u個癌癥基因表達輔助樣本;表示第t+1代第u個輔助樣本的屬性特征集合,表示第t+1代第u個輔助樣本的類別標(biāo)簽;ut+1為癌癥基因表達輔助樣本的總數(shù);
56、步驟5.2、合并qfg,pg,并通過非支配排序和精英選擇策略,從合并后的種群中選出排名前n個主個體組成第g+1代主種群pg+1,并記錄第g+1代前沿面主種群
57、步驟5.3、根據(jù)pfg和st更新第t+1代標(biāo)志向量
58、若保留第w個癌癥基因表達樣本(xw,yw),否則,刪除第w個癌癥基因表達樣本(xw,yw),從而構(gòu)建第t+1代癌癥基因表達輔助數(shù)據(jù)集
59、使用隨機構(gòu)建第g+1代輔助種群qg+1。
60、本發(fā)明一種電子設(shè)備,包括存儲器以及處理器的特點在于,所述存儲器用于存儲支持處理器執(zhí)行所述癌癥標(biāo)記物篩選方法的程序,所述處理器被配置為用于執(zhí)行所述存儲器中存儲的程序。
61、本發(fā)明一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)上存儲有計算機程序的特點在于,所述計算機程序被處理器運行時執(zhí)行所述癌癥標(biāo)記物篩選方法的步驟。
62、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
63、1、本發(fā)明提出的方法基于多目標(biāo)優(yōu)化,多目優(yōu)化算法可以明顯提高樣本選擇的效率。通過樣本子集的分類精度和樣本數(shù)據(jù)集的壓縮率構(gòu)建兩個目標(biāo)函數(shù),將問題轉(zhuǎn)換為直觀的數(shù)學(xué)模型,選擇出在兩目標(biāo)上均表現(xiàn)優(yōu)秀的樣本子集,用于癌癥標(biāo)記物的篩選。
64、2、本發(fā)明設(shè)計了一種基于多任務(wù)的樣本選擇方法,通過癌癥基因表達樣本數(shù)據(jù)的重要性構(gòu)造一個簡化的輔助任務(wù)數(shù)據(jù)集。構(gòu)造兩個任務(wù)種群獨立進化,并在固定代數(shù)進行任務(wù)種群間的知識轉(zhuǎn)移。主任務(wù)種群能夠在整個癌癥基因表達樣本數(shù)據(jù)集上進行精細的搜索,而輔助任務(wù)可以加快主任務(wù)種群搜索的效率和效果。以選擇出更能代表整個癌癥基因表達樣本數(shù)據(jù)集的樣本子集。
65、3、本發(fā)明提出了一種從提升樣本數(shù)據(jù)集質(zhì)量角度優(yōu)化癌癥標(biāo)記物篩選效果和效率的方法,不同于已有研究,該方法通過去除樣本數(shù)據(jù)集中的噪音和錯誤樣本,篩選刪除大量的冗余樣本,提高樣本數(shù)據(jù)集的質(zhì)量,在提升癌癥標(biāo)記物的篩選效果的同時,大大縮減了篩選消耗的時間。