專利名稱:一種數(shù)據(jù)管理方法及系統(tǒng)、數(shù)據(jù)分析裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)管理技術(shù),尤其涉及一種數(shù)據(jù)管理方法及系統(tǒng)、數(shù)據(jù)分析裝置。
背景技術(shù):
隨著我國電信行業(yè)的高速發(fā)展,特別是移動通信用戶和寬帶用戶的不斷增長,各家電信運營商存儲和管理著各種各樣的海量的數(shù)據(jù)。數(shù)據(jù)生命周期管理是解決海量數(shù)據(jù)管理的有效途徑。由于傳統(tǒng)的數(shù)據(jù)生命周期管理在定義數(shù)據(jù)生命時僅僅依據(jù)時間維度,具體的,就是將數(shù)據(jù)的生命周期管理簡單的按照時間先后來進行,諸如賬單、詳單、交易記錄等具有時間標(biāo)簽的對象,按照時間先后分別進行備份、歸檔、歷史數(shù)據(jù)遷移等具體操作?,F(xiàn)有的按照時間維度實現(xiàn)數(shù)據(jù)生命周期管理的方法存在以下缺陷:1、適用性差按照時間維度對數(shù)據(jù)進行管理的前提是數(shù)據(jù)具備如賬單、交易紀(jì)律等有時間標(biāo)簽,對于那些本身無時間標(biāo)簽的數(shù)據(jù),就無法按照傳統(tǒng)方法進行生命周期管理。對于這些自身無時間標(biāo)簽的數(shù)據(jù)目前沒有辦法進行處理,只能像堆柴火一樣存儲在線存儲中,日積月累的簡單堆放,即占用了寶貴的在線高端存儲資源,同時對于數(shù)據(jù)管理軟件,如數(shù)據(jù)庫等的日常運行造成很大的壓力。這些隨意存放的數(shù)據(jù)沒有人能說清楚到底是否在用、到底能不能進行備份、歸檔和刪除的維護操作。2、系統(tǒng)處理響應(yīng)時間長,速度慢按照時間維度進行了生命周期管理的數(shù)據(jù)何時要被再次使用到或者何時需要在線訪問都是不可知的。系統(tǒng)所需調(diào)用的數(shù)據(jù)可能存儲在不同級別的存儲資源上,系統(tǒng)調(diào)用數(shù)據(jù)速度慢,花費的響應(yīng)時間較長。3、需要大量高端存儲設(shè)備,成本高為了降低系統(tǒng)的處理響應(yīng)時間,需要將大量的數(shù)據(jù)存儲到在線高端存儲設(shè)備上,對在線高端存儲設(shè)備的存儲空間要求較大,使得管理海量數(shù)據(jù)的成本大大增加。
發(fā)明內(nèi)容
本發(fā)明的目的在于,提供一種數(shù)據(jù)管理方法及系統(tǒng)、數(shù)據(jù)分析裝置,準(zhǔn)確發(fā)現(xiàn)系統(tǒng)中使用頻率較高的熱點數(shù)據(jù)。為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供一種數(shù)據(jù)管理方法,包括:采集應(yīng)用程序執(zhí)行過的SQL語句,并進行持久化存儲;分解所述SQL語句,得到所述SQL語句的訪問對象;記錄在預(yù)設(shè)時間內(nèi)各個訪問對象的被訪問次數(shù);根據(jù)被訪問次數(shù)閾值提取相應(yīng)的訪問對象作為熱點數(shù)據(jù)。另外,所述分解所述SQL語句后還包括:存儲分解得到的所述SQL語句的各要素,包括:Dbname、快照序號、語句類型和訪問對象。優(yōu)選地,該方法還包括:根據(jù)預(yù)設(shè)的多個訪問次數(shù)閾值將所述訪問對象劃分為五檔:很熱、熱、溫、涼、冷。更優(yōu)地,該方法還包括:根據(jù)訪問對象的被訪問次數(shù)形成數(shù)據(jù)使用溫度圖譜,數(shù)據(jù)使用溫度圖譜中利用不同顏色或顏色的深淺體現(xiàn)訪問對象的被訪問次數(shù)的區(qū)別。更優(yōu)地,該方法還包括:記錄所述訪問對象的被訪問時間、被訪問次數(shù)及對象名稱;計算每個周期內(nèi)所述訪問對象的平均被訪問次數(shù);根據(jù)所述每個周期內(nèi)訪問對象的平均被訪問次數(shù),預(yù)測未來周期內(nèi)熱點數(shù)據(jù)出現(xiàn)的位置。該方法還包括分別對不同檔的訪問對象進行相應(yīng)的處理,包括:對于很熱的訪問對象,存儲到固態(tài)硬盤或者cache在內(nèi)存中;對于熱的訪問對象,進行在線高端存儲;對于溫的訪問對象,進行在線中低端存儲;對于涼的訪問對象,進行數(shù)據(jù)歸檔;對于冷的訪問對象,遷移歷史庫或離線存放。在所述分解存儲的SQL語句的操作之前還包括:對所述SQL語句進行錯誤語句過濾。為實現(xiàn)上述目的,根據(jù)本發(fā)明的另一個方面,提供一種數(shù)據(jù)分析裝置,包括:分解模塊,用于分解SQL語句,得到所述SQL語句的訪問對象;記錄模塊,用于記錄在預(yù)設(shè)時間內(nèi)各個訪問對象的被訪問次數(shù);提取模塊,用于根據(jù)被訪問次數(shù)閾值提取相應(yīng)的訪問對象作為熱點數(shù)據(jù)。另外,該裝置還包括:劃分模塊,用于根據(jù)預(yù)設(shè)的多個訪問次數(shù)閾值將所述訪問對象劃分為五檔:很熱、熱、溫、涼、冷。優(yōu)選地,該裝置還包括:圖譜生成模塊,用于根據(jù)訪問對象的被訪問次數(shù)形成數(shù)據(jù)使用溫度圖譜,數(shù)據(jù)使用溫度圖譜中利用不同顏色或顏色的深淺體現(xiàn)訪問對象的被訪問次數(shù)的區(qū)別。更優(yōu)地,該裝置還包括:計算模塊和預(yù)測模塊,其中,所述記錄模塊,記錄各個訪問對象的被訪問時間、被訪問次數(shù)及對象名稱;所述計算模塊,用于計算每個周期內(nèi)所述訪問對象的平均被訪問次數(shù);所述預(yù)測模塊,用于根據(jù)所述每個周期內(nèi)訪問對象的平均被訪問次數(shù),預(yù)測未來周期內(nèi)熱點數(shù)據(jù)出現(xiàn)的位置。更優(yōu)地,該裝置還包括:過濾模塊,用于在分解SQL語句之前,對所述SQL語句進行錯誤語句過濾。為實現(xiàn)上述目的,根據(jù)本發(fā)明的另一個方面,提供一種數(shù)據(jù)管理系統(tǒng),包括:采集裝置,用于采集應(yīng)用程序執(zhí)行過的SQL語句;持久化存儲裝置,用于對所述SQL語句進行持久化存儲;數(shù)據(jù)分析裝置,用于分解所述SQL語句,得到所述SQL語句的訪問對象;記錄在預(yù)設(shè)時間內(nèi)各個訪問對象的被訪問次數(shù);根據(jù)被訪問次數(shù)閾值提取相應(yīng)的訪問對象作為熱點數(shù)據(jù)。該系統(tǒng)還包括:數(shù)據(jù)處理裝置,其中,數(shù)據(jù)分析裝置,進一步根據(jù)預(yù)設(shè)的多個訪問次數(shù)閾值將所述訪問對象劃分為五檔:很熱、熱、溫、涼、冷;數(shù)據(jù)處理裝置,分別對不同檔的訪問對象進行相應(yīng)的處理:對于很熱的訪問對象,存儲到固態(tài)硬盤或者cache在內(nèi)存中;對于熱的訪問對象,進行在線高端存儲;對于溫的訪問對象,進行在線中低端存儲;對于涼的訪問對象,進行數(shù)據(jù)歸檔;對于冷的訪問對象,遷移歷史庫或離線存放。
本發(fā)明的數(shù)據(jù)管理方法及系統(tǒng)、數(shù)據(jù)分析裝置,通過對應(yīng)用程序執(zhí)行過的SQL語句進行分析,獲得SQL語句訪問對象的被訪問次數(shù),從而獲得熱點數(shù)據(jù)。通過在數(shù)據(jù)應(yīng)用層面發(fā)現(xiàn)熱點數(shù)據(jù),準(zhǔn)確地體現(xiàn)邏輯層面的對象(如表、索引等)的使用情況,進而可以準(zhǔn)確地對熱點數(shù)據(jù)進行管理,減少系統(tǒng)處理響應(yīng)時間,提高系統(tǒng)處理相應(yīng)速度,減少高端存儲設(shè)備的需求,降低海量數(shù)據(jù)管理成本。
圖1是本發(fā)明數(shù)據(jù)管理方法實施例的流程圖;圖2是本發(fā)明“數(shù)據(jù)使用溫度圖譜”的示意圖;圖3是本發(fā)明熱點數(shù)據(jù)預(yù)測實施例的流程圖;圖4是本發(fā)明數(shù)據(jù)分析裝置實施例的結(jié)構(gòu)圖;圖5是本發(fā)明數(shù)據(jù)管理系統(tǒng)實施例的結(jié)構(gòu)圖。
具體實施例方式熱點數(shù)據(jù)是經(jīng)常被用到的數(shù)據(jù)。數(shù)據(jù)只有被使用的時候才能體現(xiàn)其價值。在一定時間內(nèi)數(shù)據(jù)被使用的次數(shù)能直接體現(xiàn)數(shù)據(jù)“冷” “熱”程度。一定時間范圍內(nèi)的熱點數(shù)據(jù)是系統(tǒng)中最有價值的數(shù)據(jù),是系統(tǒng)中生命力最旺盛的數(shù)據(jù)。在存儲硬件設(shè)備層面,目前已經(jīng)有成熟的熱點數(shù)據(jù)發(fā)現(xiàn)技術(shù),但是這種技術(shù)是基于存儲設(shè)備的磁盤層面的,無法體現(xiàn)邏輯層面的對象(如表、索引等)的“冷熱”程度,具有一定的局限性。數(shù)據(jù)最終是被應(yīng)用程序使用的,應(yīng)用程序使用SQL語言來進行數(shù)據(jù)的訪問,為此,可以通過記錄分析一定時間內(nèi)數(shù)據(jù)庫層 執(zhí)行的應(yīng)用SQL中訪問到的數(shù)據(jù)對象來間接找到數(shù)據(jù)庫中的熱點對象。以下結(jié)合附圖對本發(fā)明進行詳細說明。方法實施例如圖1所示,本發(fā)明數(shù)據(jù)管理方法實施例的具體流程如下:S102,采集應(yīng)用程序執(zhí)行過的SQL語句;S104,對采集的SQL語句進行持久化存儲;數(shù)據(jù)庫對于應(yīng)用程序執(zhí)行的SQL是記錄在內(nèi)存中的,每次數(shù)據(jù)庫重啟后所有重啟前的SQL都是無法查到的。為了能全面分析執(zhí)行過的SQL語句,需要實時將這些內(nèi)存中記錄的SQL語句進行持久化存儲,如寫入磁盤中,保存到現(xiàn)有的數(shù)據(jù)庫中。S106,分解SQL語句,得到SQL語句的訪問對象;分解SQL語句得到的各要素至少包括:Dbname、快照序號、語句類型和訪問對象。還可以包括Where條件、索引名稱、執(zhí)行計劃等信息。將SQL語句的各要素作為一個字段保存,存儲SQL的表結(jié)構(gòu)如下:
權(quán)利要求
1.一種數(shù)據(jù)管理方法,其特征在于,包括: 采集應(yīng)用程序執(zhí)行過的SQL語句,并進行持久化存儲; 分解所述SQL語句,得到所述SQL語句的訪問對象; 記錄在預(yù)設(shè)時間內(nèi)各個訪問對象的被訪問次數(shù); 根據(jù)被訪問次數(shù)閾值提取相應(yīng)的訪問對象作為熱點數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)管理方法,其特征在于,所述分解所述SQL語句后還包括: 存儲分解得到的所述SQL語句的各要素,至少包括:Dbname、快照序號、語句類型和訪問對象。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)管理方法,其特征在于,還包括: 根據(jù)預(yù)設(shè)的多個訪問次數(shù)閾值將所述訪問對象劃分為五檔:很熱、熱、溫、涼、冷。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)管理方法,其特征在于,還包括: 根據(jù)訪問對象的被訪問次數(shù)形成數(shù)據(jù)使用溫度圖譜,數(shù)據(jù)使用溫度圖譜中利用不同顏色或顏色的深淺體現(xiàn)訪問對象的被訪問次數(shù)的區(qū)別。
5.根據(jù)權(quán)利要求1至4中任意一項所述的數(shù)據(jù)管理方法,其特征在于,還包括: 記錄所述訪問對象的被訪問時間、被訪問次數(shù)及對象名稱; 計算每個周期內(nèi)所述訪問對象的平均被訪問次數(shù); 根據(jù)所述每個周期內(nèi)訪問對象的平均被訪問次數(shù),預(yù)測未來周期內(nèi)熱點數(shù)據(jù)出現(xiàn)的位置。
6.根據(jù)權(quán)利要求3所述的數(shù)據(jù)管理方法,其特征在于,還包括:分別對不同檔的訪問對象進行相應(yīng)的處理,包括: 對于很熱的訪問對象,存儲到固態(tài)硬盤或者cache在內(nèi)存中; 對于熱的訪問對象,進行在線高端存儲; 對于溫的訪問對象,進行在線中低端存儲; 對于涼的訪問對象,進行數(shù)據(jù)歸檔; 對于冷的訪問對象,遷移歷史庫或離線存放。
7.根據(jù)權(quán)利要求3所述的數(shù)據(jù)管理方法,其特征在于,所述分解存儲的SQL語句的操作之前還包括: 對所述SQL語句進行錯誤語句過濾。
8.一種數(shù)據(jù)分析裝置,其特征在于,包括: 分解模塊,用于分解SQL語句,得到所述SQL語句的訪問對象; 記錄模塊,用于記錄在預(yù)設(shè)時間內(nèi)各個訪問對象的被訪問次數(shù); 提取模塊,用于根據(jù)被訪問次數(shù)閾值提取相應(yīng)的訪問對象作為熱點數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)分析裝置,其特征在于,還包括: 劃分模塊,用于根據(jù)預(yù)設(shè)的多個訪問次數(shù)閾值將所述訪問對象劃分為五檔:很熱、熱、溫、涼、冷。
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)分析裝置,其特征在于,還包括:圖譜生成模塊,用于根據(jù)訪問對象的被訪問次數(shù)形成數(shù)據(jù)使用溫度圖譜,數(shù)據(jù)使用溫度圖譜中利用不同顏色或顏色的深淺體現(xiàn)訪問對象的被訪問次數(shù)的區(qū)別。
11.根據(jù)權(quán)利要求8至10中任意一項所述的數(shù)據(jù)分析裝置,其特征在于,還包括:計算模塊和預(yù)測模塊,其中, 所述記錄模塊,記錄各個訪問對象的被訪問時間、被訪問次數(shù)及對象名稱; 所述計算模塊,用于計算每個周期內(nèi)所述訪問對象的平均被訪問次數(shù); 所述預(yù)測模塊,用于根據(jù)所述每個周期內(nèi)訪問對象的平均被訪問次數(shù),預(yù)測未來周期內(nèi)熱點數(shù)據(jù)出現(xiàn)的位置。
12.根據(jù)權(quán)利要求8至10中任意一項所述的數(shù)據(jù)分析裝置,其特征在于,還包括:過濾模塊,用于在分解SQL語句之前,對所述SQL語句進行錯誤語句過濾。
13.一種數(shù)據(jù)管理系統(tǒng),其特征在于,包括: 采集裝置,用于采集應(yīng)用程序執(zhí)行過的SQL語句; 持久化存儲裝置,用于對所述SQL語句進行持久化存儲; 數(shù)據(jù)分析裝置,用于分解所述SQL語句,得到所述SQL語句的訪問對象;記錄在預(yù)設(shè)時間內(nèi)各個訪問對象的被訪問次數(shù);根據(jù)被訪問次數(shù)閾值提取相應(yīng)的訪問對象作為熱點數(shù)據(jù)。
14.根據(jù)權(quán)利要求13所述的數(shù)據(jù)管理系統(tǒng),其特征在于,還包括:數(shù)據(jù)處理裝置, 所述數(shù)據(jù)分析裝置,進一步根據(jù)預(yù)設(shè)的多個訪問次數(shù)閾值將所述訪問對象劃分為五檔:很熱、熱、溫、涼、冷; 所述數(shù)據(jù)處理裝置,分別對不同檔的訪問對象進行相應(yīng)的處理:對于很熱的訪問對象,存儲到固態(tài)硬盤或者cache在內(nèi)存中;對于熱的訪問對象,進行在線高端存儲;對于溫的訪問對象,進行在線中低端存儲;對于涼的訪問對象,進行數(shù)據(jù)歸檔;對于冷的訪問對象,遷移歷史庫或離線存放。
全文摘要
本發(fā)明公開了一種數(shù)據(jù)管理方法及系統(tǒng)、數(shù)據(jù)分析裝置。其中該方法包括采集應(yīng)用程序執(zhí)行過的SQL語句,并進行持久化存儲;分解所述SQL語句,得到所述SQL語句的訪問對象;記錄在預(yù)設(shè)時間內(nèi)各個訪問對象的被訪問次數(shù);根據(jù)被訪問次數(shù)閾值提取相應(yīng)的訪問對象作為熱點數(shù)據(jù)。本發(fā)明通過對應(yīng)用程序執(zhí)行過的SQL語句進行分析,獲得SQL語句訪問對象的被訪問次數(shù),從而獲得熱點數(shù)據(jù)。通過在數(shù)據(jù)應(yīng)用層面發(fā)現(xiàn)熱點數(shù)據(jù),準(zhǔn)確地體現(xiàn)邏輯層面的對象(如表、索引等)的使用情況,進而可以準(zhǔn)確地對熱點數(shù)據(jù)進行管理,減少系統(tǒng)處理響應(yīng)時間,提高系統(tǒng)處理相應(yīng)速度,減少高端存儲設(shè)備的需求,降低海量數(shù)據(jù)管理成本。
文檔編號G06F17/30GK103092867SQ201110344089
公開日2013年5月8日 申請日期2011年11月3日 優(yōu)先權(quán)日2011年11月3日
發(fā)明者李吉元 申請人:中國移動通信集團甘肅有限公司