專利名稱:一種垃圾數(shù)據(jù)的清理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)領(lǐng)域的信息維護(hù)技木,尤其涉及ー種垃圾數(shù)據(jù)的清理方法。
背景技術(shù):
計算機(jī)在運(yùn)行過程中,需要調(diào)用、執(zhí)行大量的應(yīng)用數(shù)據(jù),有些應(yīng)用數(shù)據(jù)在被執(zhí)行后,或被儲存、或被刪除。隨著計算機(jī)技術(shù)的發(fā)展,應(yīng)用信息的種類越來越多,存儲在數(shù)據(jù)庫中的數(shù)據(jù)也越來越多,但是由于容量的限制,數(shù)據(jù)庫存儲數(shù)據(jù)不能無限制,而且當(dāng)數(shù)據(jù)庫的數(shù)據(jù)量達(dá)到一定量吋,很可能導(dǎo)致計算機(jī)工作效率下降,影響工作進(jìn)程。一般通過手工進(jìn)行數(shù)據(jù)刪除,操作者對ー些不需要的或者錯誤的數(shù)據(jù)進(jìn)行手動刪除;還有的方法是通過老化機(jī)制,對ー些不需要的或者使用頻率較低的數(shù)據(jù)定期進(jìn)行老化刪除,從而對數(shù)據(jù)庫進(jìn)行清理預(yù)留出存儲空間。但是手工進(jìn)行數(shù)據(jù)刪除往往要求操作者對數(shù)據(jù)庫有較高的認(rèn)識,能夠分辨出哪些是垃圾數(shù)據(jù),哪些是正常數(shù)據(jù),操作者需要時常對數(shù)據(jù)庫數(shù)據(jù)進(jìn)行檢查校對,工作繁瑣且效率較低;而通過老化機(jī)制對ー些不需要的或者使用頻率較低的數(shù)據(jù)定期進(jìn)行老化刪除,則不能及時、完全地識別出哪些是因輸入錯誤、惡意錄入、重復(fù)存儲導(dǎo)致的垃圾數(shù)據(jù),數(shù)據(jù)庫垃圾數(shù)據(jù)的排查工作效率低。
發(fā)明內(nèi)容
本發(fā)明為克服上述的不足之處,目的在于提供ー種垃圾數(shù)據(jù)的清理方法,通過建立垃圾數(shù)據(jù)清理規(guī)則體系,能夠快速從數(shù)據(jù)源中檢測錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù),從而高效、準(zhǔn)確刪除錯誤的數(shù)據(jù)與重復(fù)數(shù)據(jù)。本發(fā)明是通過以下技術(shù)方案達(dá)到上述目的ー種垃圾數(shù)據(jù)的清理方法,包括以下步驟I)在數(shù)據(jù)處理中心的存儲區(qū)中按照用戶需求大小劃分?jǐn)?shù)據(jù)存儲區(qū)和人工干預(yù)數(shù)據(jù)存儲區(qū);2)根據(jù)數(shù)據(jù)存儲區(qū)的大小讀取數(shù)據(jù)庫中的數(shù)據(jù),并通過JDBC接ロ調(diào)入到數(shù)據(jù)處理中心,數(shù)據(jù)以數(shù)據(jù)庫表的形式存儲在數(shù)據(jù)存儲區(qū);3)數(shù)據(jù)庫表中的數(shù)據(jù)根據(jù)內(nèi)容設(shè)定字段ID,字段ID形成數(shù)據(jù)源數(shù)據(jù)庫;4)以字段ID為主體定義數(shù)據(jù)處理規(guī)則,將數(shù)據(jù)處理規(guī)則保存到規(guī)則配置庫中(41)定義字段ID為非法數(shù)據(jù),執(zhí)行錯誤數(shù)據(jù)處理;(42)定義字段ID為重復(fù)數(shù)據(jù),執(zhí)行人工數(shù)據(jù)處理;5)規(guī)則配置庫中的數(shù)據(jù)處理規(guī)則生成規(guī)則XML文件6)定義規(guī)則配置庫中各數(shù)據(jù)處理規(guī)則的調(diào)用順序、自動掃描循環(huán)時間,完成自動掃描調(diào)度配置;7)根據(jù)自動掃描調(diào)度任務(wù),對數(shù)據(jù)進(jìn)行過濾處理,依據(jù)數(shù)據(jù)處理規(guī)則執(zhí)行數(shù)據(jù)處理,并記錄數(shù)據(jù)執(zhí)行過程與執(zhí)行結(jié)果(71)判斷數(shù)據(jù)為非法數(shù)據(jù),按照相應(yīng)的數(shù)據(jù)處理規(guī)則執(zhí)行數(shù)據(jù)處理;(72)判斷數(shù)據(jù)為重復(fù)數(shù)據(jù),將重復(fù)數(shù)據(jù)發(fā)送至人工干預(yù)數(shù)據(jù)存儲區(qū)中,對數(shù)據(jù)進(jìn)行人エ處理;8)當(dāng)數(shù)據(jù)存儲區(qū)中的數(shù)據(jù)全部完成數(shù)據(jù)過濾后,將步驟7)中的數(shù)據(jù)執(zhí)行過程與執(zhí)行結(jié)果發(fā)送至日志管理中,刪除存儲區(qū)中的數(shù)據(jù),執(zhí)行步驟2)-步驟7),完成數(shù)據(jù)庫中所有數(shù)據(jù)的清理;9)當(dāng)完成數(shù)據(jù)庫中所有數(shù)據(jù)的清理,定時器開始工作,定時一段時間后重新對數(shù)據(jù)庫進(jìn)行垃圾數(shù)據(jù)清理。所述的數(shù)據(jù)處理規(guī)則包括規(guī)則類型、規(guī)則與數(shù)據(jù)源數(shù)據(jù)庫中字段ID的映射關(guān)系、數(shù)據(jù)處理方式。所述的規(guī)則與數(shù)據(jù)源數(shù)據(jù)庫中字段ID的映射關(guān)系為多對多映射關(guān)系。所述的數(shù)據(jù)處理方式包括刪除、跳過、人工干預(yù)。本發(fā)明的有益效果在于1.規(guī)則的可擴(kuò)展性,隨時補(bǔ)充新的規(guī)則;2.規(guī)則與數(shù)據(jù)的多對多映射,允許對數(shù)據(jù)項(xiàng)對應(yīng)多條規(guī)則,同時也允許一條規(guī)則對應(yīng)多個數(shù)據(jù)項(xiàng);3.規(guī)則語義化,制定的規(guī)則以通俗易懂的形式展現(xiàn),以計算機(jī)語言方式存儲;4.垃圾數(shù)據(jù)處理方案的靈活配置,允許自定義包括刪除、跳過、人工處理等多種方式處理垃圾數(shù)據(jù);5.多數(shù)據(jù)庫支持,允許處理包括oracle、mysql、db2等主流數(shù)據(jù)庫的支持。
圖I是本發(fā)明的步驟流程圖。
具體實(shí)施例方式下面結(jié)合具體實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步描述,但本發(fā)明的保護(hù)范圍并不僅限于此實(shí)施例I :如圖I所示,數(shù)據(jù)的處理是在數(shù)據(jù)處理中心進(jìn)行的,數(shù)據(jù)處理中心與數(shù)據(jù)庫連接,用于存放從數(shù)據(jù)庫中提取的數(shù)據(jù),并完成垃圾數(shù)據(jù)的清理。表I、表2分別為人員信息表的一小段數(shù)據(jù),信息表中的姆一列為相同類型的數(shù)據(jù),每一行設(shè)置字段ID,字段ID包括人員標(biāo)識(FID_)、人名(FUSERNAME_FID_)、身份證號(IDCARD_FID_)、性別(SEX_FID_)、出生日期(BIRTHDATE_FID_)、戶ロ所在地(H0ME_FID_),并以字段ID集合建立數(shù)據(jù)源數(shù)據(jù)庫,
權(quán)利要求
1.ー種垃圾數(shù)據(jù)的清理方法,其特征在于包括以下步驟 1)在數(shù)據(jù)處理中心的存儲區(qū)中按照用戶需求大小劃分?jǐn)?shù)據(jù)存儲區(qū)和人工干預(yù)數(shù)據(jù)存儲區(qū); 2)根據(jù)數(shù)據(jù)存儲區(qū)的大小讀取數(shù)據(jù)庫中的數(shù)據(jù),并通過JDBC接ロ調(diào)入到數(shù)據(jù)處理中心,數(shù)據(jù)以數(shù)據(jù)庫表的形式存儲在數(shù)據(jù)存儲區(qū); 3)數(shù)據(jù)庫表中的數(shù)據(jù)根據(jù)內(nèi)容設(shè)定字段ID,字段ID形成數(shù)據(jù)源數(shù)據(jù)庫; 4)以字段ID為主體定義數(shù)據(jù)處理規(guī)則,將數(shù)據(jù)處理規(guī)則保存到規(guī)則配置庫中 (41)定義字段ID為非法數(shù)據(jù),執(zhí)行錯誤數(shù)據(jù)處理; (42)定義字段ID為重復(fù)數(shù)據(jù),執(zhí)行人工數(shù)據(jù)處理; 5)規(guī)則配置庫中的數(shù)據(jù)處理規(guī)則生成規(guī)則XML文件 6)定義規(guī)則配置庫中各數(shù)據(jù)處理規(guī)則的調(diào)用順序、自動掃描循環(huán)時間,完成自動掃描調(diào)度配置; 7)根據(jù)自動掃描調(diào)度任務(wù),對數(shù)據(jù)進(jìn)行過濾處理,依據(jù)數(shù)據(jù)處理規(guī)則執(zhí)行數(shù)據(jù)處理,并記錄數(shù)據(jù)執(zhí)行過程與執(zhí)行結(jié)果 (71)判斷數(shù)據(jù)為非法數(shù)據(jù),按照相應(yīng)的數(shù)據(jù)處理規(guī)則執(zhí)行數(shù)據(jù)處理; (72)判斷數(shù)據(jù)為重復(fù)數(shù)據(jù),將重復(fù)數(shù)據(jù)發(fā)送至人工干預(yù)數(shù)據(jù)存儲區(qū)中,對數(shù)據(jù)進(jìn)行人エ處理; 8)當(dāng)數(shù)據(jù)存儲區(qū)中的數(shù)據(jù)全部完成數(shù)據(jù)過濾后,將步驟7)中的數(shù)據(jù)執(zhí)行過程與執(zhí)行結(jié)果發(fā)送至日志管理中,刪除存儲區(qū)中的數(shù)據(jù),執(zhí)行步驟2)-步驟7),完成數(shù)據(jù)庫中所有數(shù)據(jù)的清理; 9)當(dāng)完成數(shù)據(jù)庫中所有數(shù)據(jù)的清理,定時器開始工作,定時一段時間后重新對數(shù)據(jù)庫進(jìn)行垃圾數(shù)據(jù)清理。
2.根據(jù)權(quán)利要求I所述的ー種垃圾數(shù)據(jù)的清理方法,其特征在于所述的數(shù)據(jù)處理規(guī)則包括規(guī)則類型、規(guī)則與數(shù)據(jù)源數(shù)據(jù)庫中的字段ID的映射關(guān)系、數(shù)據(jù)處理方式。
3.根據(jù)權(quán)利要求2所述的ー種垃圾數(shù)據(jù)的清理方法,其特征在于所述的規(guī)則與數(shù)據(jù)源數(shù)據(jù)庫中的字段ID的映射關(guān)系為多對多映射關(guān)系。
4.根據(jù)權(quán)利要求2所述的ー種垃圾數(shù)據(jù)的清理方法,其特征在于所述的數(shù)據(jù)處理方式包括刪除、跳過、人工干預(yù)。
全文摘要
本發(fā)明涉及計算機(jī)領(lǐng)域的信息維護(hù)技術(shù),尤其涉及一種垃圾數(shù)據(jù)的清理方法,包括通過建立垃圾數(shù)據(jù)清理規(guī)則體系,快速從數(shù)據(jù)源中檢測錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù)從而完成對數(shù)據(jù)庫信息的過濾。本發(fā)明的有益效果在于1.規(guī)則的可擴(kuò)展性,隨時補(bǔ)充新的規(guī)則;2.規(guī)則與數(shù)據(jù)的多對多映射,允許對數(shù)據(jù)項(xiàng)對應(yīng)多條規(guī)則,同時也允許一條規(guī)則對應(yīng)多個數(shù)據(jù)項(xiàng);3.規(guī)則語義化,制定的規(guī)則以通俗易懂的形式展現(xiàn),以計算機(jī)語言方式存儲;4.垃圾數(shù)據(jù)處理方案的靈活配置,允許自定義包括刪除、跳過、人工處理等多種方式處理垃圾數(shù)據(jù);5.多數(shù)據(jù)庫支持,允許處理包括oracle、mysql、db2等主流數(shù)據(jù)庫的支持。
文檔編號G06F17/30GK102915353SQ201210377840
公開日2013年2月6日 申請日期2012年9月28日 優(yōu)先權(quán)日2012年9月28日
發(fā)明者方緒群, 張峰生, 王斌 申請人:浙江圖訊科技有限公司