一種垃圾數(shù)據(jù)的清理方法

文檔序號：6378310閱讀：2004來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種垃圾數(shù)據(jù)的清理方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機(jī)領(lǐng)域的信息維護(hù)技木，尤其涉及ー種垃圾數(shù)據(jù)的清理方法。
背景技術(shù)：
計算機(jī)在運(yùn)行過程中，需要調(diào)用、執(zhí)行大量的應(yīng)用數(shù)據(jù)，有些應(yīng)用數(shù)據(jù)在被執(zhí)行后，或被儲存、或被刪除。隨著計算機(jī)技術(shù)的發(fā)展，應(yīng)用信息的種類越來越多，存儲在數(shù)據(jù)庫中的數(shù)據(jù)也越來越多，但是由于容量的限制，數(shù)據(jù)庫存儲數(shù)據(jù)不能無限制，而且當(dāng)數(shù)據(jù)庫的數(shù)據(jù)量達(dá)到一定量吋，很可能導(dǎo)致計算機(jī)工作效率下降，影響工作進(jìn)程。一般通過手工進(jìn)行數(shù)據(jù)刪除，操作者對ー些不需要的或者錯誤的數(shù)據(jù)進(jìn)行手動刪除；還有的方法是通過老化機(jī)制，對ー些不需要的或者使用頻率較低的數(shù)據(jù)定期進(jìn)行老化刪除，從而對數(shù)據(jù)庫進(jìn)行清理預(yù)留出存儲空間。但是手工進(jìn)行數(shù)據(jù)刪除往往要求操作者對數(shù)據(jù)庫有較高的認(rèn)識，能夠分辨出哪些是垃圾數(shù)據(jù)，哪些是正常數(shù)據(jù)，操作者需要時常對數(shù)據(jù)庫數(shù)據(jù)進(jìn)行檢查校對，工作繁瑣且效率較低；而通過老化機(jī)制對ー些不需要的或者使用頻率較低的數(shù)據(jù)定期進(jìn)行老化刪除，則不能及時、完全地識別出哪些是因輸入錯誤、惡意錄入、重復(fù)存儲導(dǎo)致的垃圾數(shù)據(jù)，數(shù)據(jù)庫垃圾數(shù)據(jù)的排查工作效率低。

發(fā)明內(nèi)容
本發(fā)明為克服上述的不足之處，目的在于提供ー種垃圾數(shù)據(jù)的清理方法，通過建立垃圾數(shù)據(jù)清理規(guī)則體系，能夠快速從數(shù)據(jù)源中檢測錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù)，從而高效、準(zhǔn)確刪除錯誤的數(shù)據(jù)與重復(fù)數(shù)據(jù)。本發(fā)明是通過以下技術(shù)方案達(dá)到上述目的ー種垃圾數(shù)據(jù)的清理方法，包括以下步驟I)在數(shù)據(jù)處理中心的存儲區(qū)中按照用戶需求大小劃分?jǐn)?shù)據(jù)存儲區(qū)和人工干預(yù)數(shù)據(jù)存儲區(qū)；2)根據(jù)數(shù)據(jù)存儲區(qū)的大小讀取數(shù)據(jù)庫中的數(shù)據(jù)，并通過JDBC接ロ調(diào)入到數(shù)據(jù)處理中心，數(shù)據(jù)以數(shù)據(jù)庫表的形式存儲在數(shù)據(jù)存儲區(qū)；3)數(shù)據(jù)庫表中的數(shù)據(jù)根據(jù)內(nèi)容設(shè)定字段ID，字段ID形成數(shù)據(jù)源數(shù)據(jù)庫；4)以字段ID為主體定義數(shù)據(jù)處理規(guī)則，將數(shù)據(jù)處理規(guī)則保存到規(guī)則配置庫中(41)定義字段ID為非法數(shù)據(jù)，執(zhí)行錯誤數(shù)據(jù)處理；(42)定義字段ID為重復(fù)數(shù)據(jù)，執(zhí)行人工數(shù)據(jù)處理；5)規(guī)則配置庫中的數(shù)據(jù)處理規(guī)則生成規(guī)則XML文件6)定義規(guī)則配置庫中各數(shù)據(jù)處理規(guī)則的調(diào)用順序、自動掃描循環(huán)時間，完成自動掃描調(diào)度配置；7)根據(jù)自動掃描調(diào)度任務(wù)，對數(shù)據(jù)進(jìn)行過濾處理，依據(jù)數(shù)據(jù)處理規(guī)則執(zhí)行數(shù)據(jù)處理，并記錄數(shù)據(jù)執(zhí)行過程與執(zhí)行結(jié)果(71)判斷數(shù)據(jù)為非法數(shù)據(jù)，按照相應(yīng)的數(shù)據(jù)處理規(guī)則執(zhí)行數(shù)據(jù)處理；(72)判斷數(shù)據(jù)為重復(fù)數(shù)據(jù)，將重復(fù)數(shù)據(jù)發(fā)送至人工干預(yù)數(shù)據(jù)存儲區(qū)中，對數(shù)據(jù)進(jìn)行人エ處理；8)當(dāng)數(shù)據(jù)存儲區(qū)中的數(shù)據(jù)全部完成數(shù)據(jù)過濾后，將步驟7)中的數(shù)據(jù)執(zhí)行過程與執(zhí)行結(jié)果發(fā)送至日志管理中，刪除存儲區(qū)中的數(shù)據(jù)，執(zhí)行步驟2)-步驟7)，完成數(shù)據(jù)庫中所有數(shù)據(jù)的清理；9)當(dāng)完成數(shù)據(jù)庫中所有數(shù)據(jù)的清理，定時器開始工作，定時一段時間后重新對數(shù)據(jù)庫進(jìn)行垃圾數(shù)據(jù)清理。所述的數(shù)據(jù)處理規(guī)則包括規(guī)則類型、規(guī)則與數(shù)據(jù)源數(shù)據(jù)庫中字段ID的映射關(guān)系、數(shù)據(jù)處理方式。所述的規(guī)則與數(shù)據(jù)源數(shù)據(jù)庫中字段ID的映射關(guān)系為多對多映射關(guān)系。所述的數(shù)據(jù)處理方式包括刪除、跳過、人工干預(yù)。本發(fā)明的有益效果在于1.規(guī)則的可擴(kuò)展性，隨時補(bǔ)充新的規(guī)則；2.規(guī)則與數(shù)據(jù)的多對多映射，允許對數(shù)據(jù)項(xiàng)對應(yīng)多條規(guī)則，同時也允許一條規(guī)則對應(yīng)多個數(shù)據(jù)項(xiàng)；3.規(guī)則語義化，制定的規(guī)則以通俗易懂的形式展現(xiàn)，以計算機(jī)語言方式存儲；4.垃圾數(shù)據(jù)處理方案的靈活配置，允許自定義包括刪除、跳過、人工處理等多種方式處理垃圾數(shù)據(jù)；5.多數(shù)據(jù)庫支持，允許處理包括oracle、mysql、db2等主流數(shù)據(jù)庫的支持。

圖I是本發(fā)明的步驟流程圖。
具體實(shí)施例方式下面結(jié)合具體實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步描述，但本發(fā)明的保護(hù)范圍并不僅限于此實(shí)施例I :如圖I所示，數(shù)據(jù)的處理是在數(shù)據(jù)處理中心進(jìn)行的，數(shù)據(jù)處理中心與數(shù)據(jù)庫連接，用于存放從數(shù)據(jù)庫中提取的數(shù)據(jù)，并完成垃圾數(shù)據(jù)的清理。表I、表2分別為人員信息表的一小段數(shù)據(jù),信息表中的姆一列為相同類型的數(shù)據(jù)，每一行設(shè)置字段ID，字段ID包括人員標(biāo)識(FID_)、人名(FUSERNAME_FID_)、身份證號(IDCARD_FID_)、性別(SEX_FID_)、出生日期(BIRTHDATE_FID_)、戶ロ所在地(H0ME_FID_)，并以字段ID集合建立數(shù)據(jù)源數(shù)據(jù)庫，
權(quán)利要求
1.ー種垃圾數(shù)據(jù)的清理方法，其特征在于包括以下步驟 1)在數(shù)據(jù)處理中心的存儲區(qū)中按照用戶需求大小劃分?jǐn)?shù)據(jù)存儲區(qū)和人工干預(yù)數(shù)據(jù)存儲區(qū)； 2)根據(jù)數(shù)據(jù)存儲區(qū)的大小讀取數(shù)據(jù)庫中的數(shù)據(jù)，并通過JDBC接ロ調(diào)入到數(shù)據(jù)處理中心，數(shù)據(jù)以數(shù)據(jù)庫表的形式存儲在數(shù)據(jù)存儲區(qū)； 3)數(shù)據(jù)庫表中的數(shù)據(jù)根據(jù)內(nèi)容設(shè)定字段ID，字段ID形成數(shù)據(jù)源數(shù)據(jù)庫； 4)以字段ID為主體定義數(shù)據(jù)處理規(guī)則，將數(shù)據(jù)處理規(guī)則保存到規(guī)則配置庫中 (41)定義字段ID為非法數(shù)據(jù)，執(zhí)行錯誤數(shù)據(jù)處理； (42)定義字段ID為重復(fù)數(shù)據(jù)，執(zhí)行人工數(shù)據(jù)處理； 5)規(guī)則配置庫中的數(shù)據(jù)處理規(guī)則生成規(guī)則XML文件 6)定義規(guī)則配置庫中各數(shù)據(jù)處理規(guī)則的調(diào)用順序、自動掃描循環(huán)時間，完成自動掃描調(diào)度配置； 7)根據(jù)自動掃描調(diào)度任務(wù)，對數(shù)據(jù)進(jìn)行過濾處理，依據(jù)數(shù)據(jù)處理規(guī)則執(zhí)行數(shù)據(jù)處理，并記錄數(shù)據(jù)執(zhí)行過程與執(zhí)行結(jié)果 (71)判斷數(shù)據(jù)為非法數(shù)據(jù)，按照相應(yīng)的數(shù)據(jù)處理規(guī)則執(zhí)行數(shù)據(jù)處理； (72)判斷數(shù)據(jù)為重復(fù)數(shù)據(jù)，將重復(fù)數(shù)據(jù)發(fā)送至人工干預(yù)數(shù)據(jù)存儲區(qū)中，對數(shù)據(jù)進(jìn)行人エ處理； 8)當(dāng)數(shù)據(jù)存儲區(qū)中的數(shù)據(jù)全部完成數(shù)據(jù)過濾后，將步驟7)中的數(shù)據(jù)執(zhí)行過程與執(zhí)行結(jié)果發(fā)送至日志管理中，刪除存儲區(qū)中的數(shù)據(jù)，執(zhí)行步驟2)-步驟7)，完成數(shù)據(jù)庫中所有數(shù)據(jù)的清理； 9)當(dāng)完成數(shù)據(jù)庫中所有數(shù)據(jù)的清理，定時器開始工作，定時一段時間后重新對數(shù)據(jù)庫進(jìn)行垃圾數(shù)據(jù)清理。
2.根據(jù)權(quán)利要求I所述的ー種垃圾數(shù)據(jù)的清理方法，其特征在于所述的數(shù)據(jù)處理規(guī)則包括規(guī)則類型、規(guī)則與數(shù)據(jù)源數(shù)據(jù)庫中的字段ID的映射關(guān)系、數(shù)據(jù)處理方式。
3.根據(jù)權(quán)利要求2所述的ー種垃圾數(shù)據(jù)的清理方法，其特征在于所述的規(guī)則與數(shù)據(jù)源數(shù)據(jù)庫中的字段ID的映射關(guān)系為多對多映射關(guān)系。
4.根據(jù)權(quán)利要求2所述的ー種垃圾數(shù)據(jù)的清理方法，其特征在于所述的數(shù)據(jù)處理方式包括刪除、跳過、人工干預(yù)。
全文摘要
本發(fā)明涉及計算機(jī)領(lǐng)域的信息維護(hù)技術(shù)，尤其涉及一種垃圾數(shù)據(jù)的清理方法，包括通過建立垃圾數(shù)據(jù)清理規(guī)則體系，快速從數(shù)據(jù)源中檢測錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù)從而完成對數(shù)據(jù)庫信息的過濾。本發(fā)明的有益效果在于1.規(guī)則的可擴(kuò)展性，隨時補(bǔ)充新的規(guī)則；2.規(guī)則與數(shù)據(jù)的多對多映射，允許對數(shù)據(jù)項(xiàng)對應(yīng)多條規(guī)則，同時也允許一條規(guī)則對應(yīng)多個數(shù)據(jù)項(xiàng)；3.規(guī)則語義化，制定的規(guī)則以通俗易懂的形式展現(xiàn)，以計算機(jī)語言方式存儲；4.垃圾數(shù)據(jù)處理方案的靈活配置，允許自定義包括刪除、跳過、人工處理等多種方式處理垃圾數(shù)據(jù)；5.多數(shù)據(jù)庫支持，允許處理包括oracle、mysql、db2等主流數(shù)據(jù)庫的支持。
文檔編號G06F17/30GK102915353SQ201210377840
公開日2013年2月6日申請日期2012年9月28日優(yōu)先權(quán)日2012年9月28日
發(fā)明者方緒群, 張峰生, 王斌申請人:浙江圖訊科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：方緒群;張峰生;王斌
技術(shù)所有人：浙江圖訊科技有限公司
我是此專利的發(fā)明人

上一篇：一種基于sql的數(shù)據(jù)庫腳本執(zhí)行方法及系統(tǒng)的制作方法
上一篇：網(wǎng)頁圖片顯示裝置和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

數(shù)據(jù)清理方法相關(guān)技術(shù)

數(shù)據(jù)清理的方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種垃圾數(shù)據(jù)的清理方法