国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      組合降采樣極限學(xué)習(xí)機(jī)的制作方法

      文檔序號(hào):8259575閱讀:241來(lái)源:國(guó)知局
      組合降采樣極限學(xué)習(xí)機(jī)的制作方法
      【專(zhuān)利說(shuō)明】組合降采樣極限學(xué)習(xí)機(jī) 所屬技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及模式識(shí)別技術(shù),具體涉及針對(duì)不平衡數(shù)據(jù)集的一種分類(lèi)器。
      【背景技術(shù)】
      [0002] 隨著信息智能技術(shù)的飛速發(fā)展,機(jī)器學(xué)習(xí)技術(shù)蓬勃發(fā)展,其應(yīng)用領(lǐng)域方向更加廣 泛,技術(shù)發(fā)展更加深入,分類(lèi)是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中重要的知識(shí)獲取手段之一。目前已有 許多分類(lèi)算法如支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)等在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。但現(xiàn)有的分 類(lèi)算法通常假定用于訓(xùn)練的數(shù)據(jù)集是平衡的,即各類(lèi)所含的樣例數(shù)大致相等。而絕大多的 實(shí)際情況并非如此,特別是在醫(yī)學(xué)領(lǐng)域,臨床病例中,正例(即患病例)遠(yuǎn)遠(yuǎn)少于負(fù)例(即 正常例)。在以下的論述中,我們將默認(rèn)少數(shù)樣本為正樣本,多數(shù)樣本為負(fù)樣本。在數(shù)據(jù)不 平衡時(shí),分類(lèi)器會(huì)過(guò)多的關(guān)注多數(shù)類(lèi),而對(duì)少數(shù)類(lèi)的分類(lèi)靈敏度下降,但少數(shù)類(lèi)的識(shí)別率往 往是我們所主要關(guān)注的。
      [0003] 針對(duì)數(shù)據(jù)不平衡這一實(shí)際問(wèn)題科研人員提出了多種解決方法,根據(jù)操作對(duì)象可分 為兩大類(lèi),即對(duì)樣本的重采樣法,和集成分類(lèi)器法。
      [0004] (1)最常見(jiàn)的樣本重采樣方法是降采樣,通過(guò)對(duì)多數(shù)數(shù)據(jù)進(jìn)行降采樣,使正負(fù)例達(dá) 到平衡。專(zhuān)利"基于欠抽樣面向不平衡數(shù)據(jù)集的交通事件自動(dòng)檢測(cè)方法"(CN103927874A) 就在實(shí)際交通事件自動(dòng)檢測(cè)算法中使用了欠抽樣的方法,以得到新的相對(duì)平衡的訓(xùn)練集來(lái) 訓(xùn)練支持向量機(jī)。但該方法拋棄了一些負(fù)樣本,對(duì)樣本選擇的依賴(lài)性較強(qiáng)。
      [0005] (2)另外一種樣本重采樣方法為過(guò)采樣法,即通過(guò)人工構(gòu)造少數(shù)類(lèi)樣本,是少 數(shù)類(lèi)樣本與多數(shù)類(lèi)樣本數(shù)量達(dá)到平衡。專(zhuān)利"基于粒子群支持向量機(jī)的雷電近鄰預(yù)測(cè)方 法"(CN103679263A)在使用支持向量機(jī)對(duì)雷電臨近預(yù)測(cè)時(shí)針對(duì)有雷電樣本與無(wú)雷電樣本的 不平衡性,就通過(guò)對(duì)正樣本(雷電樣本)內(nèi)部隨機(jī)插值的過(guò)采樣方法,使SVM訓(xùn)練樣本中 的正負(fù)樣本數(shù)量達(dá)到平衡。而文獻(xiàn)[1]也提出了一種樣本過(guò)采樣法,即SMOTE(Synthetic Minority Over-sampling Technique):對(duì)少數(shù)數(shù)據(jù)過(guò)采樣,然后使用支持向量機(jī)分類(lèi)方法 分類(lèi)。通過(guò)過(guò)采樣方法得到的樣本是通過(guò)對(duì)已有的少數(shù)樣本按照一定規(guī)則進(jìn)行內(nèi)部差值得 到的,可能與真實(shí)樣本的分布情況不符,且過(guò)采樣增加了處理數(shù)據(jù)量,學(xué)習(xí)難度增大,耗時(shí) 更長(zhǎng)。
      [0006] (3)集成分類(lèi)器法是一種通過(guò)集成多個(gè)基分類(lèi)器共同決策的機(jī)器學(xué)習(xí)技術(shù),文獻(xiàn) [2]提出了一種組合降采樣支持向量機(jī)EUS-SVM(Ensemble of Under-Sampled SVMs):將多 數(shù)數(shù)據(jù)隨機(jī)分為N組,每組數(shù)據(jù)量與少數(shù)數(shù)據(jù)大致相同,每組均與少數(shù)數(shù)據(jù)組合并成一組 訓(xùn)練樣本,分別送入N個(gè)支持向量機(jī)(SVM :Support Vector Machine)基分類(lèi)器中對(duì)分類(lèi)器 進(jìn)行訓(xùn)練。完成訓(xùn)練后,對(duì)于每個(gè)輸入的測(cè)試樣本,每個(gè)分類(lèi)器都將得出一個(gè)分類(lèi)結(jié)果,隨 后將這N個(gè)分類(lèi)結(jié)果組合,并根據(jù)一定的判別準(zhǔn)則判定樣本最終類(lèi)型。該方法在SVM學(xué)習(xí) 機(jī)的基礎(chǔ)上,采取了組合降采樣結(jié)構(gòu),降低了單分類(lèi)器的錯(cuò)誤率,提高了分類(lèi)功能的穩(wěn)定性 和對(duì)少數(shù)樣本的識(shí)別能力,但由于有多個(gè)SVM并聯(lián),耗時(shí)量大大增加。
      [0007] 從以上分析可以看出,樣本重采樣法較難還原樣本的真實(shí)分布,而集成分類(lèi)器法 由于組合了多個(gè)分類(lèi)器,則需要分類(lèi)器的分類(lèi)效率較高,訓(xùn)練消耗較小。EUS-SVM雖然克服 了單純降采樣的樣本選擇依賴(lài)性和不穩(wěn)定性,在不平衡樣本上能夠取得較好的少數(shù)樣本檢 出率,但SVM作為基分類(lèi)器,其訓(xùn)練耗時(shí)較長(zhǎng),參數(shù)設(shè)置較為復(fù)雜,當(dāng)訓(xùn)練數(shù)據(jù)量較大,或少 數(shù)、多數(shù)樣本比例比較懸殊需要集合多個(gè)基分類(lèi)器時(shí),EUS-SVM需要訓(xùn)練多個(gè)SVM分類(lèi)器, 其分類(lèi)效率則較為堪憂(yōu)。
      [0008] 通過(guò)上述總結(jié)我們可以看出,各種改進(jìn)算法在解決樣本不均衡問(wèn)題的同時(shí)還存在 一些不足之處。
      [0009] 參考文獻(xiàn):
      [0010] [l]Nitesh V. Chawla, Kevin ff. Bowyer, Lawrence 0. Hal 1, ff. Phi 1 ip Kegelmeyer,SMOTE:Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research 16(2002)321-357.
      [0011] [2]Pilsung Kang, Sungzoon Cho,Ensemble of Under-Sampled SVMs for Data Imbalance Problems, International Conference on Neural Information Processing, 2006.

      【發(fā)明內(nèi)容】

      [0012] 本發(fā)明旨在克服現(xiàn)有技術(shù)的上述不足,提供一種針對(duì)不平衡類(lèi)數(shù)據(jù)集的組合學(xué)習(xí) 機(jī),克服樣本重采樣的樣本依賴(lài)性,并具有較高的分類(lèi)效率和簡(jiǎn)便的參數(shù)調(diào)整方法。本發(fā)明 的技術(shù)方案如下:
      [0013] 一種組合降采樣極限學(xué)習(xí)機(jī),包括下面的幾個(gè)方面:
      [0014] (1)對(duì)于一個(gè)類(lèi)數(shù)據(jù)不平衡的訓(xùn)練樣本,首先對(duì)其中的多數(shù)樣本(FP data)進(jìn)行 隨機(jī)降采樣,根據(jù)多數(shù)樣本和少數(shù)樣本的比值N,將其分割成N個(gè)多數(shù)類(lèi)子樣本FPi (i = 1,? ? ?,N);
      [0015] (2)將N個(gè)多數(shù)類(lèi)子樣本分別與少數(shù)樣本組合成N個(gè)訓(xùn)練子集Trainji = 1,? ? ?,N);
      [0016] (3)用⑵得到的N個(gè)訓(xùn)練子集訓(xùn)練N個(gè)極限學(xué)習(xí)機(jī),得到N個(gè)分類(lèi)器;
      [0017] (4)將測(cè)試樣本分別送入(3)得到的N個(gè)分類(lèi)器,每個(gè)分類(lèi)器得出一個(gè)分類(lèi)結(jié)果。
      [0018] (5)每個(gè)分類(lèi)器的投票權(quán)重相同,設(shè)置一個(gè)決策閾值D,將分類(lèi)結(jié)果組合后與決策 閾值D相比較,決定最終分類(lèi)結(jié)果;通過(guò)調(diào)節(jié)決策閾值D,調(diào)整分類(lèi)器對(duì)少數(shù)樣本的關(guān)注程 度,D越小則對(duì)少數(shù)樣本的關(guān)注度越高。
      [0019] 本發(fā)明結(jié)合了組合降采樣支持向量機(jī)(EUS-SVM)的組合結(jié)構(gòu)和ELM算法的優(yōu)點(diǎn), 保證所有樣本均為原始真實(shí)樣本,分類(lèi)器功能更加穩(wěn)定,降低了單個(gè)分類(lèi)器的分類(lèi)偏差,且 可以通過(guò)對(duì)決策閾值D的調(diào)節(jié)來(lái)調(diào)整對(duì)正樣本的關(guān)注度。經(jīng)實(shí)驗(yàn)比較,本發(fā)明在保證高準(zhǔn) 確度的情況下?lián)碛泻臅r(shí)短,效率高的絕對(duì)優(yōu)勢(shì)。
      【附圖說(shuō)明】
      [0020] 圖1是EUS-SVM結(jié)構(gòu)圖。
      [0021] 圖2是EUS-ELM結(jié)構(gòu)圖。
      【具體實(shí)施方式】
      [0022] 本發(fā)明受EUS-SVM方法的啟發(fā),繼承其組合降采樣結(jié)構(gòu),使用極限學(xué)習(xí)機(jī) ELM (Extreme Learning Machine)替代組合結(jié)構(gòu)中的SVM作為基分類(lèi)器,提出了 一種新的針 對(duì)不平衡數(shù)據(jù)集的學(xué)習(xí)機(jī)(EUS-ELM)。
      [0023] 極限學(xué)習(xí)機(jī)(ELM)是一種基于源于BP神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單學(xué)習(xí)算法,在訓(xùn)練前只需 要設(shè)置網(wǎng)絡(luò)隱層節(jié)點(diǎn)個(gè)數(shù),算法執(zhí)行過(guò)程中不需要調(diào)整網(wǎng)絡(luò)的輸入權(quán)值以及隱層單元的偏 置,并且產(chǎn)生唯一的最優(yōu)解,參數(shù)選擇容易、學(xué)習(xí)速度快且泛化性能好。使用ELM作為組合分 類(lèi)器中的基分類(lèi)器,可以大大提升分類(lèi)效率,而且參數(shù)選擇更加簡(jiǎn)便(可參見(jiàn):M. Heath,K. Bowyer, D. Kopans, The Digital Database for Screening Mammography, in Proceedings of the Fifth International Workshop on Digital Mammography,212-218,Medical Physics Publishing, 2001)〇
      [0024] 下面結(jié)合附圖和實(shí)施例對(duì)發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
      [0025] (1)取得測(cè)試和訓(xùn)練數(shù)據(jù):數(shù)字乳腺X線(xiàn)圖像(DDSM:Digital Database for Screening Mammography)[1]中取得的疑似腫瘤樣本。樣本數(shù)為1549,其中有401個(gè)經(jīng)醫(yī)師 確診并標(biāo)記的腫瘤正樣本,正負(fù)樣本比例約為1 :4。對(duì)每個(gè)樣本提取尺寸,形狀和紋理信息 等共34維特征。隨機(jī)選取1/4的正樣本和負(fù)樣本作為測(cè)試樣本,其余3/4作為訓(xùn)練樣本。
      [0026] (2)對(duì)多數(shù)樣本,即負(fù)樣本(FP data)進(jìn)行隨機(jī)降采樣,將其分割成4個(gè)子樣本 FPi (i = 1,. . .,4)。并將這4個(gè)子樣本分別與少數(shù)樣本TP data組合成4個(gè)訓(xùn)練集Trair^ (i =1,…,4) 〇
      [0027] (3)使用這4個(gè)訓(xùn)練樣本分別訓(xùn)練4個(gè)ELM學(xué)習(xí)機(jī),其激勵(lì)函數(shù)選擇Sigmoidal函 數(shù),并在[10, 100]范圍內(nèi)以10為步進(jìn)采用10折交叉驗(yàn)證搜索最佳節(jié)點(diǎn)數(shù)。
      [0028] (4)將4個(gè)學(xué)習(xí)機(jī)并聯(lián),如圖2所示,并設(shè)定決策閾值D。這里我們認(rèn)為這四個(gè)分 類(lèi)器重要性相同,投票的權(quán)重一致。因此,我們?cè)O(shè)計(jì)一種簡(jiǎn)單的決策閾值方法,設(shè)置一個(gè)決 策值D,對(duì)于一個(gè)測(cè)試樣本,第i個(gè)學(xué)習(xí)機(jī)投出的結(jié)果為Sc 〇rei (為正樣時(shí)記為1,負(fù)樣時(shí)為 〇),當(dāng)2 D時(shí),這個(gè)樣本被認(rèn)為是一個(gè)正樣本,否則為一個(gè)負(fù)樣本。通過(guò)調(diào)節(jié)決策 i=l 值D,可以調(diào)整分類(lèi)器對(duì)少數(shù)樣本(正樣)的關(guān)注程度,D越小則對(duì)正樣的關(guān)注度越高。這 里,由于正負(fù)樣本的比例為1:4,并且有4個(gè)學(xué)習(xí)機(jī),D e [1,2, 3, 4]。
      [0029] (5)當(dāng)四個(gè)學(xué)習(xí)機(jī)完成訓(xùn)練后,將測(cè)試樣本分別送入得到的4個(gè)訓(xùn)練器,每個(gè)訓(xùn)練 器都將得出一個(gè)分類(lèi)結(jié)果,根據(jù)(4)中的決策方法得出測(cè)試樣本的最終分類(lèi)結(jié)果。
      [0030] 表1,表2和表3分別列出了直接在不平衡數(shù)據(jù)集上使用SVM分類(lèi),隨機(jī)降采樣SVM 分類(lèi),SM0TE-SVM分類(lèi),EUS-SVM和EUS-ELM在決策值分別為1,2, 3, 4情況下分類(lèi)性能的對(duì) 比結(jié)果。我們采用以下幾個(gè)指標(biāo)來(lái)評(píng)判分類(lèi)效果及分類(lèi)效率。
      【主權(quán)項(xiàng)】
      1. 一種組合降采樣極限學(xué)習(xí)機(jī),包括下面的幾個(gè)方面: (2) 對(duì)于一個(gè)類(lèi)數(shù)據(jù)不平衡的訓(xùn)練樣本,首先對(duì)其中的多數(shù)樣本(FP data)進(jìn)行隨 機(jī)降采樣,根據(jù)多數(shù)樣本和少數(shù)樣本的比值N,將其分割成N個(gè)多數(shù)類(lèi)子樣本FPi(i = 1,...,腳; (3) 將N個(gè)多數(shù)類(lèi)子樣本分別與少數(shù)樣本組合成N個(gè)訓(xùn)練子集Train; (i = 1,...,腳; (4) 用(2)得到的N個(gè)訓(xùn)練子集訓(xùn)練N個(gè)極限學(xué)習(xí)機(jī),得到N個(gè)分類(lèi)器; (5) 將測(cè)試樣本分別送入(3)得到的N個(gè)分類(lèi)器,每個(gè)分類(lèi)器得出一個(gè)分類(lèi)結(jié)果。 (6) 每個(gè)分類(lèi)器的投票權(quán)重相同,設(shè)置一個(gè)決策闊值D,將分類(lèi)結(jié)果組合后與決策闊值 D相比較,決定最終分類(lèi)結(jié)果;通過(guò)調(diào)節(jié)決策闊值D,調(diào)整分類(lèi)器對(duì)少數(shù)樣本的關(guān)注程度,D 越小則對(duì)少數(shù)樣本的關(guān)注度越高。
      【專(zhuān)利摘要】本發(fā)明涉及一種組合降采樣極限學(xué)習(xí)機(jī),包括:對(duì)于一個(gè)類(lèi)數(shù)據(jù)不平衡的訓(xùn)練樣本,首先對(duì)其中的多數(shù)樣本(FP?data)進(jìn)行隨機(jī)降采樣,根據(jù)多數(shù)樣本和少數(shù)樣本的比值N,將其分割成N個(gè)多數(shù)類(lèi)子樣本;將N個(gè)多數(shù)類(lèi)子樣本分別與少數(shù)樣本組合成N個(gè)訓(xùn)練子集;用得到的N個(gè)訓(xùn)練子集訓(xùn)練N個(gè)極限學(xué)習(xí)機(jī),得到N個(gè)分類(lèi)器;將測(cè)試樣本分別N個(gè)分類(lèi)器,每個(gè)分類(lèi)器得出一個(gè)分類(lèi)結(jié)果;每個(gè)分類(lèi)器的投票權(quán)重相同,設(shè)置一個(gè)決策閾值D,將分類(lèi)結(jié)果組合后與決策閾值D相比較,決定最終分類(lèi)結(jié)果。本發(fā)明具有較高的分類(lèi)效率和簡(jiǎn)便的參數(shù)調(diào)整方法。
      【IPC分類(lèi)】G06K9-62, G06K9-66
      【公開(kāi)號(hào)】CN104573708
      【申請(qǐng)?zhí)枴緾N201410802451
      【發(fā)明人】閔行, 褚晶輝, 呂衛(wèi)
      【申請(qǐng)人】天津大學(xué)
      【公開(kāi)日】2015年4月29日
      【申請(qǐng)日】2014年12月19日
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1