本發(fā)明實施例涉及數(shù)據(jù)清洗技術(shù)領(lǐng)域,尤其涉及一種差異數(shù)據(jù)的清洗方法及裝置。
背景技術(shù):
目前在對多年歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)計算、統(tǒng)計分析的時候,通常需要處理多個年份的數(shù)據(jù),而多個年份的數(shù)據(jù)在歷年采集的過程中或多或少都存在著統(tǒng)計口徑和統(tǒng)計標(biāo)準(zhǔn)不同等問題,這些問題在給統(tǒng)計分析帶來諸多不便的同時,還降低了統(tǒng)計分析的準(zhǔn)確性。因此,急需一種差異數(shù)據(jù)的清洗方法,以統(tǒng)一差異數(shù)據(jù)的統(tǒng)計口徑,提升統(tǒng)計分析的準(zhǔn)確性。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種差異數(shù)據(jù)的清洗方法及裝置,用以消除差異數(shù)據(jù)間的差異,統(tǒng)一差異數(shù)據(jù)的統(tǒng)計口徑,提升統(tǒng)計分析結(jié)果的準(zhǔn)確性。
本發(fā)明實施例第一方面提供一種差異數(shù)據(jù)的清洗方法,該方法包括:
獲取參考數(shù)據(jù)集中每個第一子數(shù)據(jù)集的分類屬性;
從每個待清洗的數(shù)據(jù)集中獲取與所述分類屬性相關(guān)的數(shù)據(jù),生成第一數(shù)據(jù)集;
根據(jù)所述第一數(shù)據(jù)集和所述參考數(shù)據(jù)集生成第二數(shù)據(jù)集。
本發(fā)明實施例第二方面提供一種差異數(shù)據(jù)的清洗裝置,該裝置包括:
第一獲取模塊,用于獲取參考數(shù)據(jù)集中每個第一子數(shù)據(jù)集的分類屬性;
第二獲取模塊,用于從每個待清洗的數(shù)據(jù)集中獲取與所述分類屬性相關(guān)的數(shù)據(jù);
生成模塊,用于根據(jù)所述第二獲取模塊獲得的數(shù)據(jù)生成第一數(shù)據(jù)集,并根據(jù)所述第一數(shù)據(jù)集和所述參考數(shù)據(jù)集生成第二數(shù)據(jù)集。
本發(fā)明實施例提供的差異數(shù)據(jù)的清洗方法及裝置,通過獲取參考數(shù)據(jù)集中每個子數(shù)據(jù)集的分類屬性,并從每個待清洗的數(shù)據(jù)集中獲取與所述分類屬 性相關(guān)的數(shù)據(jù),生成第一數(shù)據(jù)集,從而通過根據(jù)所述第一數(shù)據(jù)集和所述參考數(shù)據(jù)集生成統(tǒng)計口徑統(tǒng)一的第二數(shù)據(jù)集,消除了差異數(shù)據(jù)間的差異,統(tǒng)一了差異數(shù)據(jù)的統(tǒng)計口徑,提升了統(tǒng)計分析結(jié)果的準(zhǔn)確性。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明一實施例提供的差異數(shù)據(jù)的清洗方法的流程示意圖;
圖2為本發(fā)明另一實施例提供的差異數(shù)據(jù)的清洗方法的流程示意圖;
圖3為本發(fā)明一實施例提供的差異數(shù)據(jù)的清洗裝置的結(jié)構(gòu)示意圖;
圖4為本發(fā)明另一實施例提供的差異數(shù)據(jù)的清洗裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明的說明書和權(quán)利要求書的術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟的過程或結(jié)構(gòu)的裝置不必限于清楚地列出的那些結(jié)構(gòu)或步驟而是可包括沒有清楚地列出的或?qū)τ谶@些過程或裝置固有的其它步驟或結(jié)構(gòu)。
圖1為本發(fā)明一實施例提供的差異數(shù)據(jù)的清洗方法的流程示意圖,如圖1所示,本實施例提供的方法包括如下步驟:
步驟101、獲取參考數(shù)據(jù)集中每個第一子數(shù)據(jù)集的分類屬性。
本實施例中,參考數(shù)據(jù)集為預(yù)先采集獲得的具有某些屬性特點的數(shù)據(jù)的集合。參考數(shù)據(jù)集中可以包括一個或多個子數(shù)據(jù)集(即第一子數(shù)據(jù)集),每 個子數(shù)據(jù)集對應(yīng)一個分類屬性。
每個分類屬性既可以包括分類類別,又可以包括指標(biāo)類別,也可以同時包括分類類別和指標(biāo)類別。舉例來說,假設(shè)一數(shù)據(jù)集包括分類類別,且該分類類別包括“區(qū)域”,則分類屬性“區(qū)域”對應(yīng)的子數(shù)據(jù)集為通過對所述區(qū)域下,不同子區(qū)域的數(shù)據(jù)進(jìn)行采集,并將采集獲得的數(shù)據(jù)和對應(yīng)的子區(qū)域的標(biāo)識關(guān)聯(lián)存儲在所述“區(qū)域”對應(yīng)的存儲空間中獲得的。
再假設(shè),一數(shù)據(jù)集中包括指標(biāo)類別,且該指標(biāo)類別包括“支出金額”,則分類屬性“支出金額”對應(yīng)的子數(shù)據(jù)集為通過對各項支出項對應(yīng)的支出金額進(jìn)行采集,并將采集獲得的支出金額與對應(yīng)的支出項關(guān)聯(lián)存儲在“支出金額”對應(yīng)的存儲空間中獲得的。
步驟102、從每個待清洗的數(shù)據(jù)集中獲取與所述分類屬性相關(guān)的數(shù)據(jù),生成第一數(shù)據(jù)集。
與參考數(shù)據(jù)集類似的,待清洗的數(shù)據(jù)集也是預(yù)先采集獲得的數(shù)據(jù)集,但是由于各數(shù)據(jù)在采集過程中數(shù)據(jù)采集的口徑或標(biāo)準(zhǔn)可能存在不同,因此各數(shù)據(jù)集之間可能存在差異。這里的差異是指各數(shù)據(jù)集中數(shù)據(jù)對應(yīng)的分類屬性的差異。但是有些時候各數(shù)據(jù)集之間又不完全不同,其可能存在某些分類屬性相關(guān)性較強的數(shù)據(jù),這些數(shù)據(jù)在數(shù)據(jù)分析處理時可以采用統(tǒng)一口徑或標(biāo)準(zhǔn)進(jìn)行處理。針對這一點本實施例中在數(shù)據(jù)清洗時,主要是將各待清洗數(shù)據(jù)集中分類屬性與參考數(shù)據(jù)集中分類屬性相關(guān)性較小的數(shù)據(jù)清洗掉,保留與參考數(shù)據(jù)集中分類屬性相關(guān)性較大的數(shù)據(jù)。
進(jìn)一步的,通過將從各待清洗的數(shù)據(jù)集中清洗獲得的數(shù)據(jù)合并在一起,形成一個統(tǒng)計口徑或標(biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù)集(即第一數(shù)據(jù)集)。
步驟103、根據(jù)所述第一數(shù)據(jù)集和所述參考數(shù)據(jù)集生成第二數(shù)據(jù)集。
由于參考數(shù)據(jù)集和各待清洗的數(shù)據(jù)集均是待統(tǒng)計分析的對象,因此,需要將清洗獲得的第一數(shù)據(jù)集與參考數(shù)據(jù)集進(jìn)行合并生成一個統(tǒng)計口徑或標(biāo)準(zhǔn)統(tǒng)一的總數(shù)據(jù)集(即第二數(shù)據(jù)集),基于該總數(shù)據(jù)集的統(tǒng)計口徑或標(biāo)準(zhǔn)對該總數(shù)據(jù)集進(jìn)行統(tǒng)計分析即可獲得準(zhǔn)確性較高的分析結(jié)果。
本實施例提供的差異數(shù)據(jù)的清洗方法,通過獲取參考數(shù)據(jù)集中每個子數(shù)據(jù)集的分類屬性,并從每個待清洗的數(shù)據(jù)集中獲取與所述分類屬性相關(guān)的數(shù)據(jù),生成第一數(shù)據(jù)集,從而通過根據(jù)所述第一數(shù)據(jù)集和所述參考數(shù)據(jù)集生成 統(tǒng)計口徑統(tǒng)一的第二數(shù)據(jù)集,消除了差異數(shù)據(jù)間的差異,統(tǒng)一了差異數(shù)據(jù)的統(tǒng)計口徑,提升了統(tǒng)計分析結(jié)果的準(zhǔn)確性。
圖2為本發(fā)明另一實施例提供的差異數(shù)據(jù)的清洗方法的流程示意圖,如圖2所示,本實施例在圖1所示實施例的基礎(chǔ)上包括以下步驟:
步驟201、獲取參考數(shù)據(jù)集中每個第一子數(shù)據(jù)集的分類屬性。
步驟202、確定每個待清洗數(shù)據(jù)集中各第二子數(shù)據(jù)集的分類屬性。
具體的,各待清洗數(shù)據(jù)集中數(shù)據(jù)的存儲方式應(yīng)為預(yù)先約定好的,在對數(shù)據(jù)清洗前根據(jù)預(yù)先約定好的存儲方式從各待清洗數(shù)據(jù)集中獲取各子數(shù)據(jù)集(即第二數(shù)據(jù)集)對應(yīng)的分類屬性。
步驟203、以各個所述第一子數(shù)據(jù)集的分類屬性為目標(biāo)屬性,計算所述目標(biāo)屬性分別與各個所述第二子數(shù)據(jù)集的分類屬性的相關(guān)性,若所述第二子數(shù)據(jù)集的分類屬性與所述第一子數(shù)據(jù)集的分類屬性的相關(guān)性大于預(yù)設(shè)閾值,則將所述第二子數(shù)據(jù)集中的數(shù)據(jù)與所述第一子數(shù)據(jù)集的分類屬性對應(yīng)存儲,生成中間數(shù)據(jù)。
具體的,本實施例中每個第二子數(shù)據(jù)集的分類屬性與每個第一數(shù)據(jù)集的分類屬性的相關(guān)性,可以根據(jù)現(xiàn)有的任一一種相關(guān)性算法或幾種相關(guān)性算法結(jié)合的方式進(jìn)行計算,在這里不做贅述。
進(jìn)一步的在計算獲得每個第二子數(shù)據(jù)集的分類屬性與每個第一子數(shù)據(jù)集的分類屬性的相關(guān)性后,將各計算結(jié)果與預(yù)先設(shè)定的閾值進(jìn)行對比,若計算結(jié)果大于預(yù)設(shè)閾值,則獲取該計算結(jié)果對應(yīng)的第二子數(shù)據(jù)集的數(shù)據(jù),并將獲得的數(shù)據(jù)與該計算結(jié)果對應(yīng)的第一子數(shù)據(jù)集的分類屬性關(guān)聯(lián)存儲,生成中間數(shù)據(jù)。若計算結(jié)果小于預(yù)設(shè)閾值,則對該結(jié)算結(jié)果對應(yīng)的第二子數(shù)據(jù)集的數(shù)據(jù)進(jìn)行清洗。
步驟204、根據(jù)各中間數(shù)據(jù)生成第一數(shù)據(jù)集。
具體的,由于各中間數(shù)據(jù)均是根據(jù)參考數(shù)據(jù)集中各分類屬性清洗獲得的,因此,通過將各中間數(shù)據(jù)中對應(yīng)分類屬性相同的中間數(shù)據(jù)進(jìn)行合并,即可生成與參考數(shù)據(jù)集統(tǒng)一統(tǒng)計口徑或標(biāo)準(zhǔn)的第一數(shù)據(jù)集。
步驟205、將所述第一數(shù)據(jù)集和所述參考數(shù)據(jù)集中分類屬性相同的數(shù)據(jù)進(jìn)行合并,生成所述第二數(shù)據(jù)集。
由于參考數(shù)據(jù)集和各待清洗的數(shù)據(jù)集均是待統(tǒng)計分析的對象,因此,需 要將清洗獲得的第一數(shù)據(jù)集與參考數(shù)據(jù)集進(jìn)行合并生成一個統(tǒng)計口徑或標(biāo)準(zhǔn)統(tǒng)一的總數(shù)據(jù)集(即第二數(shù)據(jù)集),基于該總數(shù)據(jù)集的統(tǒng)計口徑或標(biāo)準(zhǔn)對該總數(shù)據(jù)集進(jìn)行統(tǒng)計分析即可獲得準(zhǔn)確性較高的分析結(jié)果。
本實施例提供的差異數(shù)據(jù)的清洗方法,通過獲取參考數(shù)據(jù)集中每個子數(shù)據(jù)集的分類屬性,并從每個待清洗的數(shù)據(jù)集中獲取與所述分類屬性相關(guān)的數(shù)據(jù),生成第一數(shù)據(jù)集,從而通過根據(jù)所述第一數(shù)據(jù)集和所述參考數(shù)據(jù)集生成統(tǒng)計口徑統(tǒng)一的第二數(shù)據(jù)集,消除了差異數(shù)據(jù)間的差異,統(tǒng)一了差異數(shù)據(jù)的統(tǒng)計口徑,提升了統(tǒng)計分析結(jié)果的準(zhǔn)確性。
圖3為本發(fā)明一實施例提供的差異數(shù)據(jù)的清洗裝置的結(jié)構(gòu)示意圖,如圖3所示,本實施例提供的差異數(shù)據(jù)的清洗裝置,包括:
第一獲取模塊10于獲取參考數(shù)據(jù)集中每個第一子數(shù)據(jù)集的分類屬性;
第二獲取模塊20于從每個待清洗的數(shù)據(jù)集中獲取與所述分類屬性相關(guān)的數(shù)據(jù);
生成模塊30于根據(jù)所述第二獲取模塊獲得的數(shù)據(jù)生成第一數(shù)據(jù)集,并根據(jù)所述第一數(shù)據(jù)集和所述參考數(shù)據(jù)集生成第二數(shù)據(jù)集。
其中,分類屬性包括分類類別和/或指標(biāo)類別。
本實施例提供的差異數(shù)據(jù)的清洗裝置,能夠用于執(zhí)行如圖1所示的方法,其具體的執(zhí)行方式和有益效果與圖1所示實施例類似,在這里不再贅述。
圖4為本發(fā)明另一實施例提供的差異數(shù)據(jù)的清洗裝置的結(jié)構(gòu)示意圖,如圖4所示,在圖3所示結(jié)構(gòu)裝置的基礎(chǔ)上,本實施例中,所述第二獲取模塊20:
確定子模塊201確定每個待清洗數(shù)據(jù)集中各第二子數(shù)據(jù)集的分類屬性;
處理子模塊202以各個所述第一子數(shù)據(jù)集的分類屬性為目標(biāo)屬性,計算所述目標(biāo)屬性分別與各個所述第二子數(shù)據(jù)集的分類屬性的相關(guān)性,若所述第二子數(shù)據(jù)集的分類屬性與所述第一子數(shù)據(jù)集的分類屬性的相關(guān)性大于預(yù)設(shè)閾值,則將所述第二子數(shù)據(jù)集中的數(shù)據(jù)與所述第一子數(shù)據(jù)集的分類屬性對應(yīng)存儲,生成中間數(shù)據(jù);
所述生成模塊30具體用于根據(jù)各中間數(shù)據(jù)生成第一數(shù)據(jù)集。
所述生成模塊30具體還用于:
將所述第一數(shù)據(jù)集和所述參考數(shù)據(jù)集中分類屬性相同的數(shù)據(jù)進(jìn)行合并, 生成所述第二數(shù)據(jù)集。
本實施例提供的差異數(shù)據(jù)的清洗裝置,能夠用于執(zhí)行如圖2所示的方法,其具體的執(zhí)行方式和有益效果與圖2所示實施例類似,在這里不再贅述。
最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。