一種數(shù)據(jù)流決策樹分類中的缺失值處理方法
【專利摘要】本發(fā)明屬于數(shù)據(jù)流挖掘【技術(shù)領(lǐng)域】,具體涉及一種數(shù)據(jù)流決策樹分類中的缺失值處理方法,首先讀取數(shù)據(jù)流中的數(shù)據(jù)樣本,并更新滑動窗口。當(dāng)檢測到當(dāng)前數(shù)據(jù)樣本中的屬性存在缺失值時,若該屬性對應(yīng)的缺失處理器已存在,則對缺失處理器進(jìn)行更新,否則根據(jù)數(shù)據(jù)特點自適應(yīng)選擇并建立缺失處理器。然后,使用缺失處理器補(bǔ)充數(shù)據(jù)樣本中的缺失值,得到完整的數(shù)據(jù)樣本,并依據(jù)Hoeffding決策樹分類方法訓(xùn)練完整的數(shù)據(jù)樣本,最后返回數(shù)據(jù)流決策樹分類結(jié)果。與現(xiàn)有方法相比,本發(fā)明方法具有更優(yōu)的時間性能,并充分保證決策樹模型的分類準(zhǔn)確率,從而降低時間開銷,提升時間性能,提高數(shù)據(jù)流的分類處理速度,從而滿足實際數(shù)據(jù)流處理的應(yīng)用。
【專利說明】一種數(shù)據(jù)流決策樹分類中的缺失值處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)流挖掘【技術(shù)領(lǐng)域】,具體涉及一種數(shù)據(jù)流決策樹分類中的缺失值處
理方法。
【背景技術(shù)】
[0002]隨著大數(shù)據(jù)時代的到來,應(yīng)用系統(tǒng)高速且連續(xù)不斷地產(chǎn)生數(shù)據(jù)流,如何從數(shù)據(jù)流中挖掘出有用信息,已成為技術(shù)人員關(guān)心的熱點。數(shù)據(jù)流決策樹分類技術(shù)是數(shù)據(jù)流挖掘中的重要研究方向,該技術(shù)能夠應(yīng)用到網(wǎng)絡(luò)入侵檢測和信用卡欺詐等很多方面。實際中的數(shù)據(jù)流會因網(wǎng)絡(luò)傳輸故障、傳感器失靈或人工操作失誤等原因出現(xiàn)缺失值。在數(shù)據(jù)流決策樹分類中,數(shù)據(jù)流中的缺失值會對分類準(zhǔn)確率造成嚴(yán)重影響。然而,數(shù)據(jù)流在挖掘過程中只能被掃描一次,無法在挖掘過程前預(yù)先采取處理缺失值的措施。
[0003]文獻(xiàn)[I](參考Domingos P, Hulten G.Mining high-speed data streams [C] //Proceedings of the Sixth ACM SIGKDD Internat1nal Conference on Knowledge Discoveryand Data Mining.2000:71-80.)提出 了 Hoeffding 決策樹分類方法,利用 Hoeffding 界定理增量學(xué)習(xí)數(shù)據(jù)流中的數(shù)據(jù)樣本。Hoeffding決策樹分類方法依據(jù)當(dāng)前構(gòu)造的決策樹將數(shù)據(jù)樣本分配到葉子節(jié)點,葉子節(jié)點依據(jù)存儲的樣本信息和Hoeffding界定理確定最優(yōu)分裂屬性,繼而分裂成為內(nèi)部節(jié)點。通過不斷重復(fù)上述過程來動態(tài)地構(gòu)造決策樹,直至決策樹達(dá)到穩(wěn)定。
[0004]文獻(xiàn)[2](參考 Yang H, Fong S.Aerial root classifiers for predicting missingvalues in data stream decis1n tree classificat1n[C]//201ISIAM Internat1nalConference on Data Mining(SDM2011).2011:28-30.)提出 了 ARC(Aerial RootClassifiers)方法,在Hoeffding決策樹分類方法的基礎(chǔ)上增加了缺失值處理機(jī)制。ARC方法利用滑動窗口保存最新的數(shù)據(jù)樣本,當(dāng)檢測到缺失屬性值時,利用滑動窗口中的樣本為該屬性建立子分類器并預(yù)測缺失的屬性值,然后再依據(jù)HoefTding決策樹分類方法來構(gòu)造決策樹。ARC方法同時設(shè)計了更新機(jī)制,用于解決子分類器過時的問題。依據(jù)決策樹分裂節(jié)點時的屬性度量值為每個屬性分配權(quán)重,按權(quán)重相加每個屬性對應(yīng)子分類器的錯誤率,從而得到總體錯誤率。當(dāng)總體錯誤率超過預(yù)設(shè)的閾值時,依次選擇權(quán)重最大的屬性來更新其對應(yīng)的子分類器,直到總體錯誤率滿足要求。
[0005]但是,ARC方法的時間性能在數(shù)據(jù)樣本的特征屬性較多時顯著下降,而時間性能是數(shù)據(jù)流挖掘中的重要衡量指標(biāo),因此嚴(yán)重影響了 ARC方法的時間性能,使傳輸效率降低,影響了實際中的應(yīng)用價值。
【發(fā)明內(nèi)容】
[0006]本發(fā)明技術(shù)解決問題:克服現(xiàn)有技術(shù)的不足,提供一種數(shù)據(jù)流決策樹分類中的缺失值處理方法,根據(jù)數(shù)據(jù)特點自適應(yīng)選擇缺失值處理方法,采用改進(jìn)的貝葉斯分類模型,同時優(yōu)化更新機(jī)制,從而降低時間開銷,提升時間性能,提高數(shù)據(jù)流的分類處理速度,從而滿足實際數(shù)據(jù)流處理的應(yīng)用。
[0007]本發(fā)明的技術(shù)方案為:一種數(shù)據(jù)流決策樹分類中的缺失值處理方法,其步驟為:
[0008]步驟1:讀取數(shù)據(jù)流中的數(shù)據(jù)樣本,并使用固定容量的滑動窗口 W保存最新到達(dá)的數(shù)據(jù)樣本;
[0009]步驟2:當(dāng)前數(shù)據(jù)樣本中的屬性Xi存在缺失值時,建立或更新屬性Xi對應(yīng)的缺失處理器。若屬性Xi的缺失處理器已存在,則跳至步驟4更新缺失處理器,否則進(jìn)入步驟3建立缺失處理器;
[0010]步驟3:計算滑動窗口 W中同類樣本關(guān)于屬性Xi的標(biāo)準(zhǔn)差σ (Xi),若σ (Xi)不超過閾值σπ,則選擇使用眾數(shù)或平均值代替缺失值,否則建立子分類器來預(yù)測缺失值。根據(jù)此方法建立缺失處理器并跳至步驟5 ;
[0011]步驟4:計算缺失處理器的加權(quán)總錯誤率Ε,若E超過閾值β,則選擇權(quán)重最大且錯誤率ei> β*的缺失處理器進(jìn)行更新,直到E低于閾值β ;
[0012]步驟5:利用缺失處理器補(bǔ)充屬性Xi的缺失值,得到完整的數(shù)據(jù)樣本;
[0013]步驟6:依據(jù)Hoeffding決策樹分類方法訓(xùn)練完整的數(shù)據(jù)樣本,動態(tài)地構(gòu)造決策樹模型,并根據(jù)決策樹分裂葉子節(jié)點時的屬性度量值為每個屬性Xi更新權(quán)重;
[0014]步驟7:返回數(shù)據(jù)流決策樹分類結(jié)果。
[0015]所述步驟3通過計算數(shù)據(jù)樣本的標(biāo)準(zhǔn)差,自適應(yīng)選擇不同的缺失值處理方法,補(bǔ)充數(shù)據(jù)樣本中屬性的缺失值。
[0016]進(jìn)一步,對于s個數(shù)據(jù)樣本,數(shù)據(jù)屬性X = (X1, X2,...,XJ,令Xu表示屬性Xi在第j個樣本中的屬性值。當(dāng)屬性Xi為離散屬性時,樣本標(biāo)準(zhǔn)差σ (Xi)為:
【權(quán)利要求】
1.一種數(shù)據(jù)流決策樹分類中的缺失值處理方法,其特征在實現(xiàn)步驟如下: 步驟1:讀取數(shù)據(jù)流中的數(shù)據(jù)樣本,并使用固定容量的滑動窗口 W保存最新到達(dá)的數(shù)據(jù)樣本; 步驟2:當(dāng)前數(shù)據(jù)樣本中的屬性Xi存在缺失值時,建立或更新屬性Xi對應(yīng)的缺失處理器,若屬性Xi的缺失處理器已存在,則跳至步驟4更新缺失處理器,否則進(jìn)入步驟3建立缺失處理器; 步驟3:計算滑動窗口 W中同類樣本關(guān)于屬性Xi的標(biāo)準(zhǔn)差ο (Xi),若ο (Xi)不超過閾值σ m,則選擇使用眾數(shù)或平均值代替缺失值,否則建立子分類器來預(yù)測缺失值,根據(jù)此方法建立缺失處理器并跳至步驟5 ; 步驟4:計算缺失處理器的加權(quán)總錯誤率E,若E超過閾值β,則選擇權(quán)重最大且錯誤率ei> β*的缺失處理器進(jìn)行更新,直到E低于閾值β ; 步驟5:利用缺失處理器補(bǔ)充屬性Xi的缺失值,得到完整的數(shù)據(jù)樣本; 步驟6:依據(jù)Hoeffding決策樹分類方法訓(xùn)練完整的數(shù)據(jù)樣本,動態(tài)地構(gòu)造決策樹模型,并根據(jù)決策樹分裂葉子節(jié)點時的屬性度量值為每個屬性Xi更新權(quán)重; 步驟7:返回數(shù)據(jù)流 決策樹分類結(jié)果。
2.根據(jù)權(quán)利要求1所述一種數(shù)據(jù)流決策樹分類中的缺失值處理方法,其特征在于:所述步驟3中計算滑動窗口 W中同類樣本關(guān)于屬性Xi的標(biāo)準(zhǔn)差σ (Xi)的方法為: 對于s個數(shù)據(jù)樣本,數(shù)據(jù)屬性X = (X1, X2,, XJ,令表示屬性Xi在第j個樣本中的屬性值,當(dāng)屬性Xi為離散屬性時,樣本標(biāo)準(zhǔn)差σ (Xi)為:
3.根據(jù)權(quán)利要求1所述一種數(shù)據(jù)流決策樹分類中的缺失值處理方法,其特征在于:所述步驟3中建立缺失值處理器的方法為:預(yù)先設(shè)定σ m為可接受的最大樣本標(biāo)準(zhǔn)差,當(dāng)σ (Xi) ( 01]1時,選擇屬性\在同類樣本中的屬性值的眾數(shù)%或平均值μi來代替缺失值;當(dāng)σ (Xi) >。_?時,利用滑動窗口 W中的所有樣本建立子分類器來預(yù)測缺失值,且當(dāng)Xi為離散屬性時建立改進(jìn)的貝葉斯分類模型作為子分類器,當(dāng)Xi為連續(xù)屬性時建立回歸預(yù)測模型作為子分類器。
4.根據(jù)權(quán)利要求3所述一種數(shù)據(jù)流決策樹分類中的缺失值處理方法,其特征在于:所述建立改進(jìn)的貝葉斯分類模型作為子分類器的方法為:建立離散屬性的子分類器時,采用一種改進(jìn)的貝葉斯分類方法作為預(yù)測模型,當(dāng)數(shù)據(jù)樣本的屬性Xi缺失時,根據(jù)貝葉斯分類方法得到屬性Xi的每個屬性值的后驗條件概率,改進(jìn)的貝葉斯分類方法依據(jù)此概率大小來選擇不同的屬性值作為缺失屬性Xi的預(yù)測值,而不是選擇后驗條件概率最大的屬性值。
5.根據(jù)權(quán)利要求1所述一種數(shù)據(jù)流決策樹分類中的缺失值處理方法,其特征在于:所述步驟4中具體實現(xiàn)過程為: 根據(jù)決策樹分裂節(jié)點時的屬性度量值為每個屬性Xi的缺失處理器分配權(quán)重ω?:
【文檔編號】G06F9/44GK104035779SQ201410295212
【公開日】2014年9月10日 申請日期:2014年6月25日 優(yōu)先權(quán)日:2014年6月25日
【發(fā)明者】呂品, 侯旭珊 申請人:中國科學(xué)院軟件研究所