組合降采樣極限學(xué)習(xí)機(jī)的制作方法

文檔序號(hào)：8259575閱讀：241來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

組合降采樣極限學(xué)習(xí)機(jī)的制作方法
【專(zhuān)利說(shuō)明】組合降采樣極限學(xué)習(xí)機(jī) 所屬技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及模式識(shí)別技術(shù)，具體涉及針對(duì)不平衡數(shù)據(jù)集的一種分類(lèi)器。
【背景技術(shù)】
[0002] 隨著信息智能技術(shù)的飛速發(fā)展，機(jī)器學(xué)習(xí)技術(shù)蓬勃發(fā)展，其應(yīng)用領(lǐng)域方向更加廣泛，技術(shù)發(fā)展更加深入，分類(lèi)是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中重要的知識(shí)獲取手段之一。目前已有許多分類(lèi)算法如支持向量機(jī)（SVM)和神經(jīng)網(wǎng)絡(luò)等在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。但現(xiàn)有的分類(lèi)算法通常假定用于訓(xùn)練的數(shù)據(jù)集是平衡的，即各類(lèi)所含的樣例數(shù)大致相等。而絕大多的實(shí)際情況并非如此，特別是在醫(yī)學(xué)領(lǐng)域，臨床病例中，正例（即患病例）遠(yuǎn)遠(yuǎn)少于負(fù)例（即正常例）。在以下的論述中，我們將默認(rèn)少數(shù)樣本為正樣本，多數(shù)樣本為負(fù)樣本。在數(shù)據(jù)不平衡時(shí)，分類(lèi)器會(huì)過(guò)多的關(guān)注多數(shù)類(lèi)，而對(duì)少數(shù)類(lèi)的分類(lèi)靈敏度下降，但少數(shù)類(lèi)的識(shí)別率往往是我們所主要關(guān)注的。
[0003] 針對(duì)數(shù)據(jù)不平衡這一實(shí)際問(wèn)題科研人員提出了多種解決方法，根據(jù)操作對(duì)象可分為兩大類(lèi)，即對(duì)樣本的重采樣法，和集成分類(lèi)器法。
[0004] (1)最常見(jiàn)的樣本重采樣方法是降采樣，通過(guò)對(duì)多數(shù)數(shù)據(jù)進(jìn)行降采樣，使正負(fù)例達(dá) 到平衡。專(zhuān)利"基于欠抽樣面向不平衡數(shù)據(jù)集的交通事件自動(dòng)檢測(cè)方法"（CN103927874A) 就在實(shí)際交通事件自動(dòng)檢測(cè)算法中使用了欠抽樣的方法，以得到新的相對(duì)平衡的訓(xùn)練集來(lái) 訓(xùn)練支持向量機(jī)。但該方法拋棄了一些負(fù)樣本，對(duì)樣本選擇的依賴(lài)性較強(qiáng)。
[0005] (2)另外一種樣本重采樣方法為過(guò)采樣法，即通過(guò)人工構(gòu)造少數(shù)類(lèi)樣本，是少數(shù)類(lèi)樣本與多數(shù)類(lèi)樣本數(shù)量達(dá)到平衡。專(zhuān)利"基于粒子群支持向量機(jī)的雷電近鄰預(yù)測(cè)方法"(CN103679263A)在使用支持向量機(jī)對(duì)雷電臨近預(yù)測(cè)時(shí)針對(duì)有雷電樣本與無(wú)雷電樣本的不平衡性，就通過(guò)對(duì)正樣本（雷電樣本）內(nèi)部隨機(jī)插值的過(guò)采樣方法，使SVM訓(xùn)練樣本中的正負(fù)樣本數(shù)量達(dá)到平衡。而文獻(xiàn)[1]也提出了一種樣本過(guò)采樣法，即SMOTE(Synthetic Minority Over-sampling Technique):對(duì)少數(shù)數(shù)據(jù)過(guò)采樣，然后使用支持向量機(jī)分類(lèi)方法分類(lèi)。通過(guò)過(guò)采樣方法得到的樣本是通過(guò)對(duì)已有的少數(shù)樣本按照一定規(guī)則進(jìn)行內(nèi)部差值得到的，可能與真實(shí)樣本的分布情況不符，且過(guò)采樣增加了處理數(shù)據(jù)量，學(xué)習(xí)難度增大，耗時(shí) 更長(zhǎng)。
[0006] (3)集成分類(lèi)器法是一種通過(guò)集成多個(gè)基分類(lèi)器共同決策的機(jī)器學(xué)習(xí)技術(shù)，文獻(xiàn) [2]提出了一種組合降采樣支持向量機(jī)EUS-SVM(Ensemble of Under-Sampled SVMs):將多數(shù)數(shù)據(jù)隨機(jī)分為N組，每組數(shù)據(jù)量與少數(shù)數(shù)據(jù)大致相同，每組均與少數(shù)數(shù)據(jù)組合并成一組訓(xùn)練樣本，分別送入N個(gè)支持向量機(jī)（SVM :Support Vector Machine)基分類(lèi)器中對(duì)分類(lèi)器進(jìn)行訓(xùn)練。完成訓(xùn)練后，對(duì)于每個(gè)輸入的測(cè)試樣本，每個(gè)分類(lèi)器都將得出一個(gè)分類(lèi)結(jié)果，隨后將這N個(gè)分類(lèi)結(jié)果組合，并根據(jù)一定的判別準(zhǔn)則判定樣本最終類(lèi)型。該方法在SVM學(xué)習(xí) 機(jī)的基礎(chǔ)上，采取了組合降采樣結(jié)構(gòu)，降低了單分類(lèi)器的錯(cuò)誤率，提高了分類(lèi)功能的穩(wěn)定性和對(duì)少數(shù)樣本的識(shí)別能力，但由于有多個(gè)SVM并聯(lián)，耗時(shí)量大大增加。
[0007] 從以上分析可以看出，樣本重采樣法較難還原樣本的真實(shí)分布，而集成分類(lèi)器法由于組合了多個(gè)分類(lèi)器，則需要分類(lèi)器的分類(lèi)效率較高，訓(xùn)練消耗較小。EUS-SVM雖然克服了單純降采樣的樣本選擇依賴(lài)性和不穩(wěn)定性，在不平衡樣本上能夠取得較好的少數(shù)樣本檢出率，但SVM作為基分類(lèi)器，其訓(xùn)練耗時(shí)較長(zhǎng)，參數(shù)設(shè)置較為復(fù)雜，當(dāng)訓(xùn)練數(shù)據(jù)量較大，或少數(shù)、多數(shù)樣本比例比較懸殊需要集合多個(gè)基分類(lèi)器時(shí)，EUS-SVM需要訓(xùn)練多個(gè)SVM分類(lèi)器，其分類(lèi)效率則較為堪憂(yōu)。
[0008] 通過(guò)上述總結(jié)我們可以看出，各種改進(jìn)算法在解決樣本不均衡問(wèn)題的同時(shí)還存在一些不足之處。
[0009] 參考文獻(xiàn)：
[0010] [l]Nitesh V. Chawla, Kevin ff. Bowyer, Lawrence 0. Hal 1, ff. Phi 1 ip Kegelmeyer,SMOTE:Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research 16(2002)321-357.
[0011] [2]Pilsung Kang, Sungzoon Cho,Ensemble of Under-Sampled SVMs for Data Imbalance Problems, International Conference on Neural Information Processing, 2006.

【發(fā)明內(nèi)容】

[0012] 本發(fā)明旨在克服現(xiàn)有技術(shù)的上述不足，提供一種針對(duì)不平衡類(lèi)數(shù)據(jù)集的組合學(xué)習(xí) 機(jī)，克服樣本重采樣的樣本依賴(lài)性，并具有較高的分類(lèi)效率和簡(jiǎn)便的參數(shù)調(diào)整方法。本發(fā)明的技術(shù)方案如下：
[0013] 一種組合降采樣極限學(xué)習(xí)機(jī)，包括下面的幾個(gè)方面：
[0014] (1)對(duì)于一個(gè)類(lèi)數(shù)據(jù)不平衡的訓(xùn)練樣本，首先對(duì)其中的多數(shù)樣本（FP data)進(jìn)行隨機(jī)降采樣，根據(jù)多數(shù)樣本和少數(shù)樣本的比值N，將其分割成N個(gè)多數(shù)類(lèi)子樣本FPi (i = 1，? ? ?，N);
[0015] (2)將N個(gè)多數(shù)類(lèi)子樣本分別與少數(shù)樣本組合成N個(gè)訓(xùn)練子集Trainji = 1，? ? ?，N);
[0016] (3)用⑵得到的N個(gè)訓(xùn)練子集訓(xùn)練N個(gè)極限學(xué)習(xí)機(jī)，得到N個(gè)分類(lèi)器；
[0017] (4)將測(cè)試樣本分別送入（3)得到的N個(gè)分類(lèi)器，每個(gè)分類(lèi)器得出一個(gè)分類(lèi)結(jié)果。
[0018] (5)每個(gè)分類(lèi)器的投票權(quán)重相同，設(shè)置一個(gè)決策閾值D，將分類(lèi)結(jié)果組合后與決策閾值D相比較，決定最終分類(lèi)結(jié)果；通過(guò)調(diào)節(jié)決策閾值D，調(diào)整分類(lèi)器對(duì)少數(shù)樣本的關(guān)注程度，D越小則對(duì)少數(shù)樣本的關(guān)注度越高。
[0019] 本發(fā)明結(jié)合了組合降采樣支持向量機(jī)（EUS-SVM)的組合結(jié)構(gòu)和ELM算法的優(yōu)點(diǎn)，保證所有樣本均為原始真實(shí)樣本，分類(lèi)器功能更加穩(wěn)定，降低了單個(gè)分類(lèi)器的分類(lèi)偏差，且可以通過(guò)對(duì)決策閾值D的調(diào)節(jié)來(lái)調(diào)整對(duì)正樣本的關(guān)注度。經(jīng)實(shí)驗(yàn)比較，本發(fā)明在保證高準(zhǔn) 確度的情況下?lián)碛泻臅r(shí)短，效率高的絕對(duì)優(yōu)勢(shì)。
【附圖說(shuō)明】
[0020] 圖1是EUS-SVM結(jié)構(gòu)圖。
[0021] 圖2是EUS-ELM結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0022] 本發(fā)明受EUS-SVM方法的啟發(fā)，繼承其組合降采樣結(jié)構(gòu)，使用極限學(xué)習(xí)機(jī) ELM (Extreme Learning Machine)替代組合結(jié)構(gòu)中的SVM作為基分類(lèi)器，提出了一種新的針對(duì)不平衡數(shù)據(jù)集的學(xué)習(xí)機(jī)（EUS-ELM)。
[0023] 極限學(xué)習(xí)機(jī)（ELM)是一種基于源于BP神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單學(xué)習(xí)算法，在訓(xùn)練前只需要設(shè)置網(wǎng)絡(luò)隱層節(jié)點(diǎn)個(gè)數(shù)，算法執(zhí)行過(guò)程中不需要調(diào)整網(wǎng)絡(luò)的輸入權(quán)值以及隱層單元的偏置，并且產(chǎn)生唯一的最優(yōu)解，參數(shù)選擇容易、學(xué)習(xí)速度快且泛化性能好。使用ELM作為組合分類(lèi)器中的基分類(lèi)器，可以大大提升分類(lèi)效率，而且參數(shù)選擇更加簡(jiǎn)便（可參見(jiàn)：M. Heath，K. Bowyer, D. Kopans, The Digital Database for Screening Mammography, in Proceedings of the Fifth International Workshop on Digital Mammography，212-218,Medical Physics Publishing, 2001)〇
[0024] 下面結(jié)合附圖和實(shí)施例對(duì)發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
[0025] (1)取得測(cè)試和訓(xùn)練數(shù)據(jù)：數(shù)字乳腺X線(xiàn)圖像（DDSM:Digital Database for Screening Mammography)[1]中取得的疑似腫瘤樣本。樣本數(shù)為1549,其中有401個(gè)經(jīng)醫(yī)師確診并標(biāo)記的腫瘤正樣本，正負(fù)樣本比例約為1 :4。對(duì)每個(gè)樣本提取尺寸，形狀和紋理信息等共34維特征。隨機(jī)選取1/4的正樣本和負(fù)樣本作為測(cè)試樣本，其余3/4作為訓(xùn)練樣本。
[0026] (2)對(duì)多數(shù)樣本，即負(fù)樣本（FP data)進(jìn)行隨機(jī)降采樣，將其分割成4個(gè)子樣本 FPi (i = 1，. . .，4)。并將這4個(gè)子樣本分別與少數(shù)樣本TP data組合成4個(gè)訓(xùn)練集Trair^ (i =1，…，4) 〇
[0027] (3)使用這4個(gè)訓(xùn)練樣本分別訓(xùn)練4個(gè)ELM學(xué)習(xí)機(jī)，其激勵(lì)函數(shù)選擇Sigmoidal函數(shù)，并在[10, 100]范圍內(nèi)以10為步進(jìn)采用10折交叉驗(yàn)證搜索最佳節(jié)點(diǎn)數(shù)。
[0028] (4)將4個(gè)學(xué)習(xí)機(jī)并聯(lián)，如圖2所示，并設(shè)定決策閾值D。這里我們認(rèn)為這四個(gè)分類(lèi)器重要性相同，投票的權(quán)重一致。因此，我們?cè)O(shè)計(jì)一種簡(jiǎn)單的決策閾值方法，設(shè)置一個(gè)決策值D，對(duì)于一個(gè)測(cè)試樣本，第i個(gè)學(xué)習(xí)機(jī)投出的結(jié)果為Sc 〇rei (為正樣時(shí)記為1，負(fù)樣時(shí)為〇)，當(dāng)2 D時(shí)，這個(gè)樣本被認(rèn)為是一個(gè)正樣本，否則為一個(gè)負(fù)樣本。通過(guò)調(diào)節(jié)決策 i=l 值D，可以調(diào)整分類(lèi)器對(duì)少數(shù)樣本（正樣）的關(guān)注程度，D越小則對(duì)正樣的關(guān)注度越高。這里，由于正負(fù)樣本的比例為1:4,并且有4個(gè)學(xué)習(xí)機(jī)，D e [1，2, 3, 4]。
[0029] (5)當(dāng)四個(gè)學(xué)習(xí)機(jī)完成訓(xùn)練后，將測(cè)試樣本分別送入得到的4個(gè)訓(xùn)練器，每個(gè)訓(xùn)練器都將得出一個(gè)分類(lèi)結(jié)果，根據(jù)（4)中的決策方法得出測(cè)試樣本的最終分類(lèi)結(jié)果。
[0030] 表1，表2和表3分別列出了直接在不平衡數(shù)據(jù)集上使用SVM分類(lèi)，隨機(jī)降采樣SVM 分類(lèi)，SM0TE-SVM分類(lèi)，EUS-SVM和EUS-ELM在決策值分別為1，2, 3, 4情況下分類(lèi)性能的對(duì) 比結(jié)果。我們采用以下幾個(gè)指標(biāo)來(lái)評(píng)判分類(lèi)效果及分類(lèi)效率。
【主權(quán)項(xiàng)】
1. 一種組合降采樣極限學(xué)習(xí)機(jī)，包括下面的幾個(gè)方面： (2) 對(duì)于一個(gè)類(lèi)數(shù)據(jù)不平衡的訓(xùn)練樣本，首先對(duì)其中的多數(shù)樣本（FP data)進(jìn)行隨機(jī)降采樣，根據(jù)多數(shù)樣本和少數(shù)樣本的比值N，將其分割成N個(gè)多數(shù)類(lèi)子樣本FPi(i = 1,...,腳； (3) 將N個(gè)多數(shù)類(lèi)子樣本分別與少數(shù)樣本組合成N個(gè)訓(xùn)練子集Train; (i = 1，...，腳； (4) 用（2)得到的N個(gè)訓(xùn)練子集訓(xùn)練N個(gè)極限學(xué)習(xí)機(jī)，得到N個(gè)分類(lèi)器； (5) 將測(cè)試樣本分別送入（3)得到的N個(gè)分類(lèi)器，每個(gè)分類(lèi)器得出一個(gè)分類(lèi)結(jié)果。 (6) 每個(gè)分類(lèi)器的投票權(quán)重相同，設(shè)置一個(gè)決策闊值D，將分類(lèi)結(jié)果組合后與決策闊值 D相比較，決定最終分類(lèi)結(jié)果；通過(guò)調(diào)節(jié)決策闊值D，調(diào)整分類(lèi)器對(duì)少數(shù)樣本的關(guān)注程度，D 越小則對(duì)少數(shù)樣本的關(guān)注度越高。
【專(zhuān)利摘要】本發(fā)明涉及一種組合降采樣極限學(xué)習(xí)機(jī)，包括：對(duì)于一個(gè)類(lèi)數(shù)據(jù)不平衡的訓(xùn)練樣本，首先對(duì)其中的多數(shù)樣本(FP？data)進(jìn)行隨機(jī)降采樣，根據(jù)多數(shù)樣本和少數(shù)樣本的比值N，將其分割成N個(gè)多數(shù)類(lèi)子樣本；將N個(gè)多數(shù)類(lèi)子樣本分別與少數(shù)樣本組合成N個(gè)訓(xùn)練子集；用得到的N個(gè)訓(xùn)練子集訓(xùn)練N個(gè)極限學(xué)習(xí)機(jī)，得到N個(gè)分類(lèi)器；將測(cè)試樣本分別N個(gè)分類(lèi)器，每個(gè)分類(lèi)器得出一個(gè)分類(lèi)結(jié)果；每個(gè)分類(lèi)器的投票權(quán)重相同，設(shè)置一個(gè)決策閾值D，將分類(lèi)結(jié)果組合后與決策閾值D相比較，決定最終分類(lèi)結(jié)果。本發(fā)明具有較高的分類(lèi)效率和簡(jiǎn)便的參數(shù)調(diào)整方法。
【IPC分類(lèi)】G06K9-62, G06K9-66
【公開(kāi)號(hào)】CN104573708
【申請(qǐng)?zhí)枴緾N201410802451
【發(fā)明人】閔行, 褚晶輝, 呂衛(wèi)
【申請(qǐng)人】天津大學(xué)
【公開(kāi)日】2015年4月29日
【申請(qǐng)日】2014年12月19日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：閔行;褚晶輝;呂衛(wèi);
技術(shù)所有人：天津大學(xué);
我是此專(zhuān)利的發(fā)明人

上一篇：基于設(shè)置總的錯(cuò)分率的可控置信機(jī)器算法
上一篇：一種基于多特征融合的車(chē)牌漢字識(shí)別方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

組合降采樣極限學(xué)習(xí)機(jī)的制作方法