本發(fā)明屬于數(shù)據(jù)管理,涉及一種用于數(shù)倉(cāng)數(shù)據(jù)生命周期管理的方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、在當(dāng)前企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(data?warehouse)環(huán)境中,隨著業(yè)務(wù)規(guī)模的不斷擴(kuò)大和數(shù)據(jù)量的急劇增加,數(shù)據(jù)生命周期管理成為了一個(gè)亟待解決的問(wèn)題。數(shù)倉(cāng)中累積的冗余數(shù)據(jù)和失效數(shù)據(jù),由于缺乏有效的管理機(jī)制,不僅占據(jù)了大量寶貴的存儲(chǔ)資源,降低了it資源的整體利用率,還嚴(yán)重影響了數(shù)據(jù)的準(zhǔn)確性和可靠性,進(jìn)而企業(yè)的對(duì)決策效率和業(yè)務(wù)發(fā)展構(gòu)成威脅。
2、現(xiàn)有的數(shù)倉(cāng)數(shù)據(jù)生命周期管理方法主要包括以下幾種,但每種方法均存在其固有的局限性和挑戰(zhàn):
3、定期清理方式:該方式依賴于預(yù)設(shè)的時(shí)間規(guī)則進(jìn)行數(shù)據(jù)清理,如“刪除一年前的數(shù)據(jù)”。然而,這種方法忽視了數(shù)據(jù)的實(shí)際使用價(jià)值和業(yè)務(wù)需求,容易導(dǎo)致重要?dú)v史數(shù)據(jù)或需長(zhǎng)期保存的數(shù)據(jù)被誤刪除,影響業(yè)務(wù)的連續(xù)性和數(shù)據(jù)的完整性。
4、基于數(shù)據(jù)訪問(wèn)頻率的方式:此方法依據(jù)數(shù)據(jù)的訪問(wèn)頻率來(lái)決定其生命周期,但現(xiàn)實(shí)中的數(shù)據(jù)訪問(wèn)模式往往復(fù)雜多變,且存在訪問(wèn)不規(guī)律的情況。這可能導(dǎo)致高價(jià)值但訪問(wèn)頻率低的數(shù)據(jù)被錯(cuò)誤地刪除,或低價(jià)值但頻繁訪問(wèn)的數(shù)據(jù)占用過(guò)多資源,無(wú)法有效優(yōu)化存儲(chǔ)結(jié)構(gòu)。
5、基于數(shù)據(jù)價(jià)值的方式:該策略試圖通過(guò)評(píng)估數(shù)據(jù)的價(jià)值和重要性來(lái)制定清理策略。然而,數(shù)據(jù)價(jià)值的評(píng)估往往受到主觀判斷的影響,難以做到客觀公正。同時(shí),全面的價(jià)值評(píng)估過(guò)程需要耗費(fèi)大量的人力、物力和時(shí)間成本,增加了管理的復(fù)雜性和難度。
6、基于元數(shù)據(jù)管理的方式:通過(guò)維護(hù)和管理元數(shù)據(jù)來(lái)識(shí)別數(shù)據(jù)的生命周期,是一種更為精細(xì)化的管理手段。但元數(shù)據(jù)的管理本身就是一個(gè)復(fù)雜的過(guò)程,需要投入大量的資源和精力來(lái)確保元數(shù)據(jù)的準(zhǔn)確性和完整性。此外,元數(shù)據(jù)的不完整或丟失也可能導(dǎo)致數(shù)據(jù)生命周期管理策略的失效。
7、鑒于上述問(wèn)題,開(kāi)發(fā)一種高效、智能的數(shù)倉(cāng)數(shù)據(jù)生命周期管理方法顯得尤為重要。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于解決現(xiàn)有技術(shù)中缺乏有效的數(shù)據(jù)生命周期管理策略的問(wèn)題,提供一種用于數(shù)倉(cāng)數(shù)據(jù)生命周期管理的方法、系統(tǒng)、設(shè)備及介質(zhì)。
2、為達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案予以實(shí)現(xiàn):
3、一種用于數(shù)倉(cāng)數(shù)據(jù)生命周期管理的方法,包括以下步驟:
4、定時(shí)獲取hdfs鏡像文件,將hdfs鏡像文件解析為csv格式文件,并上傳到hdfs中;
5、分析并提取表級(jí)信息,對(duì)上傳的csv格式文件進(jìn)行解析,獲取每張表的表級(jí)信息,并將表級(jí)信息下發(fā)到數(shù)據(jù)生命周期管理系統(tǒng);
6、查詢hive元數(shù)據(jù)庫(kù),通過(guò)查詢hive元數(shù)據(jù)庫(kù),獲取數(shù)倉(cāng)中所有表的名稱、所屬庫(kù)、描述、創(chuàng)建時(shí)間、創(chuàng)建人信息;
7、擴(kuò)展表信息,為數(shù)倉(cāng)中的每張表添加維護(hù)人信息及標(biāo)簽;
8、數(shù)據(jù)庫(kù)分類與生命周期策略配置,根據(jù)存儲(chǔ)數(shù)據(jù)的重要性,對(duì)數(shù)倉(cāng)中的數(shù)據(jù)庫(kù)進(jìn)行分類,并為每類數(shù)據(jù)庫(kù)配置不同的生命周期策略;
9、定時(shí)檢查與提醒,定時(shí)檢查各數(shù)據(jù)庫(kù)中的表是否到達(dá)其生命周期策略中設(shè)定的保留期限,在表到期前向相應(yīng)的維護(hù)人員發(fā)送提醒信息,判斷是否延期;對(duì)于到期的表,執(zhí)行預(yù)定的到期處理操作;
10、延期處理,若收到延期請(qǐng)求,根據(jù)延期時(shí)間和原策略計(jì)算的到期時(shí)間中的較大值,重新計(jì)算表的到期時(shí)間,并更新系統(tǒng)記錄,同時(shí)發(fā)送新的提醒信息。
11、所述分析并提取表級(jí)信息,具體為:
12、對(duì)存儲(chǔ)在hdfs中的csv文件進(jìn)行解析,通過(guò)執(zhí)行sql查詢,獲取每張數(shù)據(jù)表的最近訪問(wèn)時(shí)間、數(shù)據(jù)量大小、塊數(shù)量的表級(jí)信息;
13、其中,解析后的原始數(shù)據(jù)包含表中每個(gè)文件的文件大小、最近修改/訪問(wèn)時(shí)間的文件級(jí)信息,通過(guò)sql查詢或數(shù)據(jù)處理邏輯,將這些文件級(jí)信息聚合為表級(jí)信息進(jìn)行統(tǒng)計(jì)和分析,將數(shù)據(jù)粒度由文件級(jí)變?yōu)楸砑?jí)。
14、所述數(shù)據(jù)庫(kù)分類具體為根據(jù)存儲(chǔ)數(shù)據(jù)的重要性,對(duì)數(shù)倉(cāng)中的數(shù)據(jù)庫(kù)進(jìn)行分類分級(jí),區(qū)分正式表與臨時(shí)表、核心庫(kù)與非核心庫(kù)。
15、所述生命周期策略配置具體為根據(jù)業(yè)務(wù)需求,為不同分類分級(jí)的數(shù)據(jù)庫(kù)配置相應(yīng)的生命周期策略,包括數(shù)據(jù)保留周期、到期處理方式,其中核心庫(kù)表的數(shù)據(jù)保留周期設(shè)為3年,臨時(shí)表的數(shù)據(jù)保留周期設(shè)為180天。
16、所述定時(shí)檢查與提醒具體為:系統(tǒng)每天定時(shí)檢查各數(shù)據(jù)庫(kù)中的表是否到達(dá)其生命周期策略中設(shè)定的保留期限,通過(guò)比較表的最后訪問(wèn)時(shí)間與配置的有效期,判斷是否小于當(dāng)前日期來(lái)確定表是否到期;對(duì)于到期的表,系統(tǒng)執(zhí)行預(yù)定的到期處理操作。
17、所述對(duì)于到期的表,執(zhí)行預(yù)定的到期處理操作,具體為:
18、系統(tǒng)發(fā)起刪除數(shù)據(jù)的審批流程,審批流程中的審批信息包括表的名稱、所屬數(shù)據(jù)庫(kù)、到期時(shí)間、數(shù)據(jù)量,并指定數(shù)倉(cāng)維護(hù)人員及數(shù)據(jù)維護(hù)人為審批人;
19、審批與確認(rèn),數(shù)倉(cāng)維護(hù)人員及數(shù)據(jù)維護(hù)人收到審批請(qǐng)求后,對(duì)審批信息進(jìn)行審核,并根據(jù)實(shí)際情況決定是否同意刪除數(shù)據(jù);若雙方均同意,則審批通過(guò);若有一方不同意或,則審批流程暫?;蚓芙^;
20、數(shù)據(jù)刪除,在審批通過(guò)后,系統(tǒng)執(zhí)行數(shù)據(jù)刪除操作,或者根據(jù)審批結(jié)果中的指示進(jìn)行相應(yīng)處理。
21、一種用于數(shù)倉(cāng)數(shù)據(jù)生命周期管理的系統(tǒng),包括以下模塊:
22、數(shù)據(jù)獲取與解析模塊,用于定時(shí)從hdfs獲取鏡像文件,將其解析為csv格式,并上傳到hdfs的指定位置;
23、表級(jí)信息提取模塊,用于解析csv文件,提取并下發(fā)每張表的表級(jí)信息到數(shù)據(jù)生命周期管理系統(tǒng);
24、元數(shù)據(jù)庫(kù)查詢模塊,用于查詢hive元數(shù)據(jù)庫(kù),獲取數(shù)倉(cāng)中所有表的基礎(chǔ)信息;
25、表信息擴(kuò)展模塊,用于在基礎(chǔ)信息基礎(chǔ)上,為數(shù)倉(cāng)中的表添加維護(hù)人信息及標(biāo)簽;
26、數(shù)據(jù)庫(kù)分類與策略配置模塊,用于根據(jù)數(shù)據(jù)重要性等因素對(duì)數(shù)據(jù)庫(kù)進(jìn)行分類,并為每類數(shù)據(jù)庫(kù)配置生命周期策略;
27、定時(shí)檢查與到期處理模塊,用于定時(shí)檢查表的保留期限,發(fā)送提醒信息,并執(zhí)行到期處理操作;
28、延期處理模塊,用于處理延期請(qǐng)求,重新計(jì)算并更新表的到期時(shí)間,并發(fā)送新的提醒信息。
29、還包括權(quán)限管理模塊,所述權(quán)限管理模塊負(fù)責(zé)系統(tǒng)用戶的權(quán)限分配和管理,確保不同用戶只能訪問(wèn)和操作其被授權(quán)的數(shù)據(jù)和功能。
30、一種設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如前項(xiàng)任一項(xiàng)所述方法的步驟。
31、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前項(xiàng)任一項(xiàng)所述方法的步驟。
32、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
33、本發(fā)明中的用于數(shù)倉(cāng)數(shù)據(jù)生命周期管理的方法,通過(guò)自動(dòng)化的定時(shí)任務(wù),從hdfs鏡像文件的獲取、解析到表級(jí)信息的提取和上傳,再到hive元數(shù)據(jù)庫(kù)的查詢、表信息的擴(kuò)展、數(shù)據(jù)庫(kù)的分類與生命周期策略配置,整個(gè)過(guò)程實(shí)現(xiàn)了高度的自動(dòng)化,大幅提升了數(shù)據(jù)管理的效率。同時(shí)該方法通過(guò)為每張表添加維護(hù)人信息和標(biāo)簽,增強(qiáng)了數(shù)據(jù)的可見(jiàn)性和管理透明度,有助于業(yè)務(wù)團(tuán)隊(duì)更好地理解數(shù)據(jù)結(jié)構(gòu)和用途。此外根據(jù)數(shù)據(jù)重要性進(jìn)行分類并配置不同的生命周期策略,優(yōu)化了資源利用,降低了運(yùn)營(yíng)成本。自動(dòng)化的到期檢查和提醒、延期處理等功能,不僅確保了數(shù)據(jù)的及時(shí)清理和更新,提高了數(shù)據(jù)安全性,還提升了業(yè)務(wù)團(tuán)隊(duì)對(duì)數(shù)據(jù)的響應(yīng)速度和決策效率。本發(fā)明的方法在提升管理效率、增強(qiáng)數(shù)據(jù)可見(jiàn)性、優(yōu)化資源利用、提高數(shù)據(jù)安全性及降低運(yùn)營(yíng)成本等方面均展現(xiàn)出顯著的優(yōu)勢(shì)。