国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      非平衡類數(shù)據(jù)的分類的制作方法

      文檔序號(hào):9217194閱讀:524來源:國知局
      非平衡類數(shù)據(jù)的分類的制作方法
      【專利說明】非平衡類數(shù)據(jù)的分類發(fā)明領(lǐng)域
      [0001]本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),特別涉及非平衡類數(shù)據(jù)分類器的訓(xùn)練方法、非平衡類數(shù)據(jù)分類器和非平衡類數(shù)據(jù)分類的方法。
      【背景技術(shù)】
      [0002]分類是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中最常用的技術(shù)之一,其根據(jù)一組已知類別的對象訓(xùn)練得到分類器,然后將未知類別的對象應(yīng)用于該分類器以確定相應(yīng)的類別。在非平衡類數(shù)據(jù)中,某類樣本的數(shù)量遠(yuǎn)遠(yuǎn)大于其它類樣本,其中前者被稱為負(fù)類數(shù)據(jù),后者被稱為正類數(shù)據(jù)。
      [0003]實(shí)際應(yīng)用(例如信用卡交易欺詐檢測、網(wǎng)絡(luò)入侵檢測、醫(yī)學(xué)疾病診斷等)中常會(huì)遇到非平衡類數(shù)據(jù)的分類問題,這類問題的共同點(diǎn)是少數(shù)類信息是用戶關(guān)注的重點(diǎn)。例如在信用卡交易欺詐檢測的應(yīng)用中,更為關(guān)心的是欺詐客戶,但是監(jiān)測到的數(shù)據(jù)集中大部分是信用卡正常交易記錄,非法交易所占比例很小。用于處理分類問題的現(xiàn)有技術(shù)有很多種,如決策樹、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)等,但這些技術(shù)多針對平衡數(shù)據(jù)而設(shè)計(jì),未考慮到正類和負(fù)類數(shù)據(jù)分布的巨大差異性,因此處理效果不佳。
      [0004]目前,非平衡類數(shù)據(jù)的分類主要采用兩種思路:一是改變訓(xùn)練集樣本的分布,降低不平衡度,主要包括改變數(shù)據(jù)集分布的重采樣方法,其缺點(diǎn)是分類效果依賴于重采樣算法,而對于很多應(yīng)用來說,數(shù)據(jù)集的最優(yōu)分布難以確定;二是針對非平衡類數(shù)據(jù)特點(diǎn)構(gòu)造新算法或改造現(xiàn)有算法(例如代價(jià)敏感學(xué)習(xí)方法、特征選擇方法和單類學(xué)習(xí)方法等),代價(jià)敏感學(xué)習(xí)方法的缺點(diǎn)是很難對錯(cuò)誤分類的代價(jià)給出準(zhǔn)確的估計(jì),使得整體性能提升得不到保障,特征選擇方法更多的是適用于文本分類的問題,適用范圍受到較大限制,單類學(xué)習(xí)方法的缺點(diǎn)是僅僅利用少數(shù)正類數(shù)據(jù),完全忽略了負(fù)類數(shù)據(jù)中蘊(yùn)涵的有用信息。
      [0005]由上可見,迫切需要一種性能優(yōu)秀和適用范圍大的非平衡類數(shù)據(jù)處理技術(shù)。

      【發(fā)明內(nèi)容】

      [0006]本發(fā)明的一個(gè)目的是提供一種訓(xùn)練非平衡類數(shù)據(jù)分類器的方法,其具有信息挖掘充分、全面和分類精度高等優(yōu)點(diǎn)。
      [0007]在按照本發(fā)明一個(gè)實(shí)施例的訓(xùn)練非平衡類數(shù)據(jù)分類器的方法中,由所述非平衡類數(shù)據(jù)分類器進(jìn)行分類的數(shù)據(jù)具有多個(gè)屬性,所述方法包含下列步驟:
      [0008]將所述多個(gè)屬性劃分為多個(gè)屬性組,每個(gè)所述屬性組對應(yīng)一個(gè)子分類器,每個(gè)所述子分類器適于基于對應(yīng)的所述屬性組對數(shù)據(jù)進(jìn)行分類,使得能夠根據(jù)預(yù)先設(shè)定的規(guī)則,由各個(gè)所述子分類器的分類結(jié)果得到最終的分類結(jié)果;
      [0009]將訓(xùn)練數(shù)據(jù)樣本劃分為多個(gè)測試集;以及
      [0010]對于每個(gè)所述屬性組,利用不同的所述測試集訓(xùn)練對應(yīng)的子分類器。
      [0011]優(yōu)選地,在上述方法中,將所述多個(gè)屬性劃分為η個(gè)屬性組并且將訓(xùn)練數(shù)據(jù)樣本劃分為(η+1)個(gè)測試集,在子分類器的訓(xùn)練步驟中,按照下列方式訓(xùn)練第i個(gè)子分類器:
      [0012]利用前(1-1)個(gè)子分類器對第i個(gè)測試集的訓(xùn)練數(shù)據(jù)樣本進(jìn)行分類以得到(i_l)組正類數(shù)據(jù);
      [0013]將所述(1-Ι)組正類數(shù)據(jù)的交集作為進(jìn)一步的訓(xùn)練數(shù)據(jù)樣本來訓(xùn)練第i個(gè)子分類器。
      [0014]優(yōu)選地,在上述方法中,按照隨機(jī)方式將訓(xùn)練數(shù)據(jù)樣本劃分為多個(gè)測試集。
      [0015]優(yōu)選地,在上述方法中,利用最大召回率算法來訓(xùn)練第i個(gè)子分類器。
      [0016]優(yōu)選地,在上述方法中,按照屬性之間的相關(guān)性將所述多個(gè)屬性劃分為多個(gè)屬性組,所述相關(guān)性較大的屬性被劃分在不同的屬性組內(nèi)。
      [0017]本發(fā)明的還有一個(gè)目的是提供一種非平衡類數(shù)據(jù)分類器,其具有高分類精度和分類效率等優(yōu)點(diǎn)。
      [0018]按照本發(fā)明一個(gè)實(shí)施例的非平衡類數(shù)據(jù)分類器包括:
      [0019]數(shù)據(jù)接收單元;
      [0020]多個(gè)子分類器,由所述非平衡類數(shù)據(jù)分類器進(jìn)行分類的數(shù)據(jù)具有多個(gè)屬性,所述多個(gè)屬性被劃分為多個(gè)屬性組,每個(gè)所述屬性組對應(yīng)一個(gè)所述子分類器,每個(gè)所述子分類器被配置為并行地從所述數(shù)據(jù)接收單元接收數(shù)據(jù)并且基于對應(yīng)的所述屬性組對接收的數(shù)據(jù)進(jìn)行分類;以及
      [0021]與所述多個(gè)子分類器耦合的決策節(jié)點(diǎn),其配置為根據(jù)預(yù)先設(shè)定的規(guī)則,由各個(gè)所述子分類器輸出的分類結(jié)果得到最終的分類結(jié)果,
      [0022]其中,按照下列方式訓(xùn)練所述非平衡類數(shù)據(jù)分類器:將訓(xùn)練數(shù)據(jù)樣本劃分為多個(gè)測試集,對于每個(gè)所述屬性組,利用不同的所述測試集訓(xùn)練對應(yīng)的子分類器。
      [0023]優(yōu)選地,在上述非平衡類數(shù)據(jù)分類器中,所述多個(gè)子分類器和所述決策節(jié)點(diǎn)在多個(gè)物理上并行的計(jì)算設(shè)備上實(shí)施。
      [0024]優(yōu)選地,在上述非平衡類數(shù)據(jù)分類器中,所述決策節(jié)點(diǎn)取各個(gè)所述子分類器輸出的正類數(shù)據(jù)的交集作為最終的分類結(jié)果。
      [0025]本發(fā)明的還有一個(gè)目的是提供一種非平衡類數(shù)據(jù)分類的方法,其具有高分類精度和分類效率等優(yōu)點(diǎn)。
      [0026]按照本發(fā)明一個(gè)實(shí)施例的非平衡類數(shù)據(jù)分類的方法包括下列步驟:
      [0027]將待分類的數(shù)據(jù)輸入多個(gè)子分類器,所述待分類的數(shù)據(jù)具有多個(gè)屬性,所述多個(gè)屬性被劃分為多個(gè)屬性組,每個(gè)所述屬性組對應(yīng)一個(gè)所述子分類器;
      [0028]每個(gè)所述子分類器并行地基于對應(yīng)的所述屬性組對所述待分類的數(shù)據(jù)進(jìn)行分類;以及
      [0029]根據(jù)預(yù)先設(shè)定的規(guī)則,由各個(gè)所述子分類器輸出的分類結(jié)果得到最終的分類結(jié)果,
      [0030]其中,按照下列方式訓(xùn)練所述非平衡類數(shù)據(jù)分類器:將訓(xùn)練數(shù)據(jù)樣本劃分為多個(gè)測試集,對于每個(gè)所述屬性組,利用不同的所述測試集訓(xùn)練對應(yīng)的子分類器。
      【附圖說明】
      [0031 ] 從結(jié)合附圖的以下詳細(xì)說明中,將會(huì)使本發(fā)明的上述和其它目的及優(yōu)點(diǎn)更加完全清楚。
      [0032]圖1為按照本發(fā)明一個(gè)實(shí)施例的訓(xùn)練非平衡類數(shù)據(jù)分類器的方法的流程圖。
      [0033]圖2為圖1所示實(shí)施例中的子分類器訓(xùn)練例程的示意圖。
      [0034]圖3為按照本發(fā)明一個(gè)實(shí)施例的非平衡類數(shù)據(jù)分類器的示意圖。
      [0035]圖4為按照本發(fā)明一個(gè)實(shí)施例的非平衡類數(shù)據(jù)分類方法的流程圖。
      【具體實(shí)施方式】
      [0036]下面參照其中圖示了本發(fā)明示意性實(shí)施例的附圖更為全面地說明本發(fā)明。但本發(fā)明可以按不同形式來實(shí)現(xiàn),而不應(yīng)解讀為僅限于本文給出的各實(shí)施例。給出的上述各實(shí)施例旨在使本文的披露全面完整,從而使對本發(fā)明保護(hù)范圍的理解更為全面和準(zhǔn)確。
      [0037]諸如“包含”和“包括”之類的用語表示除了具有在說明書和權(quán)利要求書中有直接和明確表述的單元和步驟以外,本發(fā)明的技術(shù)方案也不排除具有未被直接或明確表述的其它單元和步驟的情形。
      [0038]按照本發(fā)明的一個(gè)方面,非平衡類數(shù)據(jù)的分類基于對象屬性的拆分。具體而言,所處理的數(shù)據(jù)對象一般具有多個(gè)屬性,在本發(fā)明的實(shí)施例中,這些屬性被劃分為多個(gè)屬性組,每個(gè)屬性組對應(yīng)于一個(gè)子分類器,不同的子分類器基于相應(yīng)的屬性組對數(shù)據(jù)施行分類操作,子分類器分類操作的結(jié)果按照預(yù)先設(shè)定的規(guī)則匯總后產(chǎn)生最終的分類結(jié)果。由于可以為針對各個(gè)屬性組的子分類器設(shè)定不同的分類規(guī)則,因此屬性中所蘊(yùn)含的信息得以充分利用,從而提升了非平衡數(shù)據(jù)分類的精度。另外,可將多個(gè)子分類器部署到分布式系統(tǒng)中的不同節(jié)點(diǎn)上,使得每個(gè)子分類器能夠基于屬性組并行地對數(shù)據(jù)進(jìn)行分類,這提高了處理效率,從而滿足大數(shù)據(jù)量或大吞吐量的應(yīng)用需求。
      [0039]按照本發(fā)明的另一個(gè)方面,在分類器訓(xùn)練階段采用下列訓(xùn)練方式:將子分類器視為按照順序相連的級聯(lián)結(jié)構(gòu),用于下一級子分類器的訓(xùn)練數(shù)據(jù)樣本取決于前級子分類器輸出的正類數(shù)據(jù),當(dāng)遍歷級聯(lián)結(jié)構(gòu)的所有級后,每個(gè)子分類器都經(jīng)過訓(xùn)練,由此完成整個(gè)分類器的訓(xùn)練。本發(fā)明的發(fā)明人發(fā)現(xiàn),這種基于級聯(lián)結(jié)構(gòu)的訓(xùn)練方式能夠充分提升分類器的整體性能,并且還提高了訓(xùn)練效率。再者,借助于級聯(lián)結(jié)構(gòu),全體訓(xùn)練數(shù)據(jù)樣本中蘊(yùn)含的信息得到充分利用,提高了分類器的整體性能。
      [0040]圖1為按照本發(fā)明一個(gè)實(shí)施例的訓(xùn)練非平衡類數(shù)據(jù)分類器的方法的流程圖。
      [0041]如上所述,所處理的數(shù)據(jù)對象一般具有多個(gè)屬性,因此如圖1所示,在步驟SllO中,首先將這些屬性劃分為η個(gè)屬性組Ap A2……Αη。優(yōu)選地,屬性的劃分可基于屬性之間的相關(guān)性,其中,相關(guān)性較大的屬性盡可能被劃分在不同的屬性組內(nèi),以使同一屬性組內(nèi)的屬性之間具有較小的相關(guān)性。這種劃分方式的優(yōu)點(diǎn)是使各個(gè)子分類器的分類能力均衡化。需要指出的是,在本實(shí)施例中,各個(gè)屬性組內(nèi)屬性的數(shù)量可以不同。
      [0042]隨后進(jìn)入步驟S120,將訓(xùn)練數(shù)據(jù)樣本劃分為m個(gè)測試集I;、T2……Tlrt。為簡化處理,這里可以按照隨機(jī)方式劃分訓(xùn)練數(shù)據(jù)樣本。在本實(shí)施例中,優(yōu)選地,可以使屬性組的數(shù)量η與測試集的數(shù)量m之間具有確定的關(guān)系,例如測試集的數(shù)量m被取值為η+1。
      [0043]接著,在步驟S130中,解析得到每個(gè)測試集中的每個(gè)訓(xùn)練數(shù)據(jù)樣本的η個(gè)屬性的取值,以下將這些取值的集合又稱為屬性值集合。如上所述,屬性被劃分為η個(gè)屬性組,因此每個(gè)訓(xùn)練數(shù)據(jù)樣本的屬性值集合由η個(gè)屬性值子集組成,每個(gè)子集對應(yīng)于η個(gè)屬性組中的一個(gè)。
      [0044]如上所述,每個(gè)屬性組對應(yīng)于一個(gè)子分類器。因此本實(shí)施例的方法流程隨后進(jìn)入步驟S140,執(zhí)行對每個(gè)子分類器進(jìn)行訓(xùn)練的例程。優(yōu)選地,子分類器SpS2……Sn被布置成按照下標(biāo)序號(hào)相連的級聯(lián)結(jié)構(gòu),對于級聯(lián)結(jié)構(gòu)的第i個(gè)子分類器,它的訓(xùn)練數(shù)據(jù)樣本取自前級子分類器對測試集Ti作分類處理得到的正類數(shù)據(jù)。由此,當(dāng)級聯(lián)結(jié)構(gòu)上的所有子分類器都被遍歷后,即完成了整個(gè)分類器的訓(xùn)練。
      [0045]圖2為圖1所示實(shí)施例中的子分類器訓(xùn)練例程的示意圖。這里假設(shè)將屬性被劃分為η個(gè)屬性組Ap A2……K,訓(xùn)練數(shù)據(jù)樣本被劃分為(η+1)個(gè)測試集I;、T2……Τη,并且與屬性組A2……An對應(yīng)的子分類器被記為S1、S2……Sn。
      [0046]圖2所示的例程包括下列過程:
      [0047]步驟I):首先,利用測試集Ttl對基于屬性組A1的子分類器S1進(jìn)行訓(xùn)練。即,利用測試集Ttl中訓(xùn)練數(shù)據(jù)樣本的對應(yīng)于屬性組A1的屬性值子集來訓(xùn)練子分類器S1,使得該子分類器能夠基于屬性組A1對數(shù)據(jù)進(jìn)行準(zhǔn)確分類。優(yōu)選地,在本步驟和下面的步驟中,均采用最大召回率算法對子分類器進(jìn)行訓(xùn)練。
      [0048]步驟2a):利用在上述步驟I)中經(jīng)過訓(xùn)練的子分類器S1,基于屬性組A1對測試集T1的訓(xùn)練數(shù)據(jù)樣本進(jìn)行分類。
      [0049]步驟2b)分離出分類結(jié)果中的正類數(shù)據(jù)Pn。
      [0050]步驟2c):利用上述步驟2b)中得到的正類數(shù)據(jù)P11對基于屬性組A2的子分類器S2進(jìn)行訓(xùn)練,即,利用正類數(shù)據(jù)P11中每個(gè)訓(xùn)練數(shù)據(jù)樣本的對應(yīng)于屬性組A2的屬性值
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1