專利名稱:一種減小財政數(shù)據(jù)庫儲存量的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)庫儲存量壓縮技術(shù)領(lǐng)域,具體涉及一種基于小波變換的財政數(shù)據(jù)庫壓縮方法。特別是適用處理財政和稅務(wù)的大容量的實時數(shù)據(jù)。
背景技術(shù):
許多應(yīng)用場合的數(shù)據(jù)都以連續(xù)的流的形式出現(xiàn),被稱為數(shù)據(jù)流,如證券交易、信用卡交易、商場購物交易、網(wǎng)站點擊流、電話呼叫記錄等應(yīng)用中所產(chǎn)生的連續(xù)不斷的數(shù)據(jù)。其主要特點為1)數(shù)據(jù)流動態(tài)增長,長度可能無限;2)對流中的數(shù)據(jù)只能一次掃描,利用一次掃描建立數(shù)據(jù)流的近似概要結(jié)構(gòu),其后的處理只能依賴該概要結(jié)構(gòu)。財政方面的實時數(shù)據(jù)通常具有數(shù)量大、數(shù)據(jù)流量突發(fā)性高等特點,如何保存如此龐大的實時數(shù)據(jù)以及如何訪問這些保存的歷史數(shù)據(jù)一直是個難題。因為這些實時數(shù)據(jù)過于巨大,如果簡單的將所有的數(shù)據(jù)保存下來,不但占用很大的物理空間,而且使得以后再查詢特定歷史時間的數(shù)據(jù)時效率會大大折扣。因為我們是對財政數(shù)據(jù)進(jìn)行實時采集,所以得到的都是基于時間序列的數(shù)據(jù),這些數(shù)據(jù)具有時間屬性,但是它的時態(tài)關(guān)系和時態(tài)數(shù)據(jù)庫系統(tǒng)相比要簡單一些,主要是說其時間是序列化的。用戶可能對那些在較小范圍變化的數(shù)據(jù)興趣不大,僅較為關(guān)注默寫變化劇烈的拐點數(shù)據(jù)。其實,只要這些被丟棄的數(shù)據(jù)在一定的誤差范圍內(nèi)不影響過程歷史數(shù)據(jù)的重構(gòu),數(shù)據(jù)壓縮完全可以通過采用丟棄一些數(shù)據(jù)的方法來減少對存儲資源的需求。數(shù)據(jù)壓縮完全可以通過采用丟棄一些數(shù)據(jù)的方法減少存儲資源,同時丟棄的這些數(shù)據(jù)必須保證在一定的誤差控制中不影響對歷史數(shù)據(jù)的重構(gòu),方便之后對歷史數(shù)據(jù)的查詢處理。目前,數(shù)據(jù)壓縮的方法有很多,但是本質(zhì)上不外乎完全可逆的冗余度壓縮和實際上不可逆的熵壓縮兩類。冗余度壓縮常用于磁盤文件、數(shù)據(jù)通信和氣象衛(wèi)星云圖等不允許在壓縮過程中有絲毫損失的場合中。但它的壓縮比通常只有幾倍,遠(yuǎn)遠(yuǎn)不能滿足數(shù)字視聽?wèi)?yīng)用的要求。在實踐的數(shù)字視聽設(shè)備中,差不多都采用壓縮比更高、但實際有損的熵壓縮技術(shù)。 只要作為最終用戶的人覺察不出或者能夠容忍這些失真,就允許對數(shù)字音像信號進(jìn)一步壓縮以換取更高的編碼效率。但是這些方法的壓縮比不高,存儲數(shù)據(jù)的空間有限,常常導(dǎo)致數(shù)據(jù)失真。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足之處,提出一種壓縮比高、數(shù)據(jù)失真少的減小財政數(shù)據(jù)庫儲存量的方法。本發(fā)明所述的減小財政數(shù)據(jù)庫儲存量的方法,包括以下步驟1)壓縮數(shù)據(jù)節(jié)點閾值過濾假設(shè)數(shù)據(jù)流是穩(wěn)定的,將數(shù)據(jù)流中不斷到來的數(shù)據(jù)作為第1層,在相同的時間內(nèi)到來的數(shù)據(jù)序列中平均由η個數(shù)據(jù)組成,則這η個數(shù)據(jù)組成一個
數(shù)據(jù)節(jié)點,第1層的數(shù)據(jù)節(jié)點數(shù)有一,其中M為數(shù)據(jù)流的總數(shù)據(jù)個數(shù);
2)數(shù)據(jù)預(yù)處理對實時數(shù)據(jù)流進(jìn)行噪聲處理,主要是對數(shù)據(jù)序列進(jìn)行空缺值處
γγγ
理。假設(shè)數(shù)據(jù)序列的屬性個數(shù)為m,如果空缺屬性個數(shù) ^ γ,則認(rèn)為該條數(shù)據(jù)流是噪聲,直接過濾;反之,將空缺屬性補充為所有該屬性所有取值的平均值;3)壓縮處理將第1層每η個數(shù)據(jù)組成的子序列進(jìn)行濃縮,提煉成第2層中的一個數(shù)據(jù)節(jié)點,記該子序列為屯,該數(shù)據(jù)節(jié)點為PiJU Pi中保存了 Cli的概要信息。隨著新數(shù)據(jù)
的不斷到來,第2層上的數(shù)據(jù)節(jié)點不斷增加,當(dāng)?shù)?層上的數(shù)據(jù)節(jié)點個數(shù)> f時,將最老的η
個數(shù)據(jù)節(jié)點進(jìn)行歸并,合并成第3層上的1個數(shù)據(jù)節(jié)點,并計算數(shù)據(jù)節(jié)點的概要信息,以此逐層向上,從而使得該數(shù)據(jù)流總是被壓縮成一組分層次的數(shù)據(jù)節(jié)點,最后構(gòu)造一棵能夠存儲小波系數(shù)的誤差樹;誤差樹中,節(jié)點Ci對應(yīng)小波系數(shù),葉節(jié)Axu對應(yīng)原始數(shù)據(jù)。對一給定的誤差樹T和 T中的內(nèi)節(jié)點ck,令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點集合,Ieftleavesk表示Ck的左子樹的葉節(jié)點集合,rightleave、表示ck的右子樹的葉節(jié)點集合,pathk為T中從ck (或Xij) 到根的路徑上全體非零系數(shù)的集合。設(shè)%是IeftleaVe%中數(shù)據(jù)的均值,bk是rightleave、 中數(shù)據(jù)的均值,則ck = (4_\)/2,而C1是全部數(shù)據(jù)的均值;包括以下步驟首先數(shù)據(jù)流Xi = {xn, xi2, A,xi(1},將Xi = {xn, xi2, A,XiJ中的數(shù)據(jù)兩兩分對求其均值和均值與第二個數(shù)據(jù)的差值,則差值就是第2層的數(shù)據(jù)節(jié)點,也是相應(yīng)的小波系 ^c2k ;其次計算誤差樹中第3層的小波系數(shù)。令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點集合,leftleave、表示ck的左子樹的葉節(jié)點集合,rightleave、表示Ck的右子樹的葉節(jié)點集合。設(shè)%是Ieftleavesk中數(shù)據(jù)的均值,bk是rightleave、中數(shù)據(jù)的均值,則c3k = (ak-bk)/2 ;最后依次繼續(xù)計算,直至誤差樹的最高層的小波系數(shù),它也等于全部數(shù)據(jù)的平均值;4)小波系數(shù)的篩選其遵循的原則一是絕對值大的系數(shù)的缺失會對相關(guān)的數(shù)據(jù)值的重構(gòu)有更大的影響;二是從誤差樹上易知,越接近根的系數(shù)用于重構(gòu)時影響的數(shù)據(jù)越多,具有更高的重要性。本發(fā)明運用誤差平方和(sum of squared error) sse
SSe(DM)=Yj^ - A )2來進(jìn)行小波系數(shù)的蹄選,其中D表示壓縮之前的數(shù)據(jù)序列,D'表示
i=\
壓縮之后的數(shù)據(jù)序列,Xi是數(shù)據(jù)序列D的第i個數(shù)據(jù),χ' i是數(shù)據(jù)序列D'的第i個數(shù);設(shè)對子序列Xi = {xn, xi2, A,xi(1},提取得到的數(shù)據(jù)節(jié)點Pi概要信息表示成四元
組(/,“Γ),其中t = t (xn), η = \])\,X = -t^,t為該數(shù)據(jù)節(jié)點的時間戳,表示d中最后一
個數(shù)據(jù)的到達(dá)時刻,η為d中數(shù)據(jù)個數(shù),文為d中數(shù)據(jù)的均值。對d進(jìn)行DWT變換,Γ分量
中保存變換得到的r < η個最重要的小波系數(shù),r取使現(xiàn)(Α ’) = Σ(Χ;-x/f最小的前r個。
/=1
對子序列Xi進(jìn)行小波變換,對小波系數(shù)進(jìn)行規(guī)范化,Γ分量中保存得到的η個系數(shù)中最重要的r個系數(shù),因為系數(shù)重要性的衡量基于sse最小化,所以Γ中應(yīng)保留r個絕對值最大的系數(shù)。
本發(fā)明方法只需要對數(shù)據(jù)流進(jìn)行一次掃描就可得到小波系數(shù),最后僅存儲少量的小波系數(shù)來表征數(shù)據(jù)流。它能夠在保證數(shù)據(jù)壓縮高效率的前提下盡可能正確無誤的恢復(fù)歷史的數(shù)據(jù)。小波變換方法利用變換后生成的少量小波系數(shù)近似模擬原始數(shù)據(jù),在數(shù)據(jù)庫和數(shù)據(jù)處理領(lǐng)域,通過對原始數(shù)據(jù)集進(jìn)行小波變換,保存部分重要的小波系數(shù),把這些小波系數(shù)作為原始數(shù)據(jù)的壓縮表示,進(jìn)而能夠近似地還原出原始數(shù)據(jù)集合。本發(fā)明的有益效果在于能夠在保留數(shù)據(jù)主要信息的前提下大大減少數(shù)據(jù)存儲空間,壓縮比高、數(shù)據(jù)失真小,具有良好的實際應(yīng)用價值。
圖1是本發(fā)明方法的具體實現(xiàn)流程圖。
具體實施例方式下面結(jié)合
和具體實施方式
對本發(fā)明做進(jìn)一步詳細(xì)說明。本發(fā)明提出的減小財政數(shù)據(jù)庫儲存量的方法,包括以下步驟1)壓縮數(shù)據(jù)節(jié)點閾值過濾假設(shè)數(shù)據(jù)流是穩(wěn)定的,將數(shù)據(jù)流中不斷到來的數(shù)據(jù)作為第1層,在相同的時間內(nèi)到來的數(shù)據(jù)序列中平均由η個數(shù)據(jù)組成,則這η個數(shù)據(jù)組成一個
廠μ
數(shù)據(jù)節(jié)點,第1層的數(shù)據(jù)節(jié)點數(shù)有一,其中M為數(shù)據(jù)流的總數(shù)據(jù)個數(shù)。
η2)數(shù)據(jù)預(yù)處理對實時數(shù)據(jù)流進(jìn)行噪聲處理,主要是對數(shù)據(jù)序列進(jìn)行空缺值處
γγγ
理。假設(shè)數(shù)據(jù)序列的屬性個數(shù)為m,如果空缺屬性個數(shù) ^ γ,則認(rèn)為該條數(shù)據(jù)流是噪聲,直接過濾。反之,將空缺屬性補充為所有該屬性所有取值的平均值。3)壓縮處理將第1層每η個數(shù)據(jù)組成的子序列進(jìn)行濃縮,提煉成第2層中的一個數(shù)據(jù)節(jié)點,記該子序列為屯,該數(shù)據(jù)節(jié)點為PiJU Pi中保存了 Cli的概要信息。隨著新數(shù)據(jù)
的不斷到來,第2層上的數(shù)據(jù)節(jié)點不斷增加,當(dāng)?shù)?層上的數(shù)據(jù)節(jié)點個數(shù)> f時,將最老的η
個數(shù)據(jù)節(jié)點進(jìn)行歸并,合并成第3層上的1個數(shù)據(jù)節(jié)點,并計算數(shù)據(jù)節(jié)點的概要信息,以此逐層向上,從而使得該數(shù)據(jù)流總是被壓縮成一組分層次的數(shù)據(jù)節(jié)點,最后構(gòu)造一棵能夠存儲小波系數(shù)的誤差樹。誤差樹中,節(jié)點Ci對應(yīng)小波系數(shù),葉節(jié)點Xu對應(yīng)原始數(shù)據(jù)。對一給定的誤差樹T和 T中的內(nèi)節(jié)點ck,令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點集合,Ieftleavesk表示Ck的左子樹的葉節(jié)點集合,rightleave、表示ck的右子樹的葉節(jié)點集合,pathk為T中從ck (或Xij) 到根的路徑上全體非零系數(shù)的集合。設(shè)%是IeftleaVe%中數(shù)據(jù)的均值,bk是rightleave、 中數(shù)據(jù)的均值,則ck = (4_\)/2,而C1是全部數(shù)據(jù)的均值。包括以下步驟首先數(shù)據(jù)流Xi = {xn, xi2, A,xi(1},將Xi = {xn, xi2, A,XiJ中的數(shù)據(jù)兩兩分對求其均值和均值與第二個數(shù)據(jù)的差值,則差值就是第2層的數(shù)據(jù)節(jié)點,也是相應(yīng)的小波系數(shù) c2ko
其次計算誤差樹中第3層的小波系數(shù)。令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點集合,leftleave、表示ck的左子樹的葉節(jié)點集合,rightleave、表示Ck的右子樹的葉節(jié)點集合。設(shè)%是Ieftleavesk中數(shù)據(jù)的均值,bk是rightleave、中數(shù)據(jù)的均值,則c3k = (ak-bk) / 2 ο最后依次繼續(xù)計算,直至誤差樹的最高層的小波系數(shù),它也等于全部數(shù)據(jù)的平均值。4)小波系數(shù)的篩選其遵循的原則一是絕對值大的系數(shù)的缺失會對相關(guān)的數(shù)據(jù)值的重構(gòu)有更大的影響;二是從誤差樹上易知,越接近根的系數(shù)用于重構(gòu)時影響的數(shù)據(jù)越多,具有更高的重要性。本發(fā)明運用誤差平方和(sum of squared error) sse
權(quán)利要求
1.減小財政數(shù)據(jù)庫儲存量的方法,包括以下步驟1)壓縮數(shù)據(jù)節(jié)點閾值過濾假設(shè)數(shù)據(jù)流是穩(wěn)定的,將數(shù)據(jù)流中不斷到來的數(shù)據(jù)作為第 1層,在相同的時間內(nèi)到來的數(shù)據(jù)序列中平均由η個數(shù)據(jù)組成,則這η個數(shù)據(jù)組成一個數(shù)據(jù)
全文摘要
本發(fā)明涉及減小財政數(shù)據(jù)庫存儲量的方法,首先將從財政和稅務(wù)處提取的實時數(shù)據(jù)進(jìn)行預(yù)處理,然后對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行基于小波變換的數(shù)據(jù)壓縮,得到能夠反應(yīng)數(shù)據(jù)重要特征的小波概要,最后將小波概要中的小波系數(shù)進(jìn)行存儲,進(jìn)而可以重構(gòu)實時數(shù)據(jù)。本發(fā)明有效地降低了現(xiàn)行地方財政和稅務(wù)在數(shù)據(jù)預(yù)處理方面的巨額成本,應(yīng)用這種方法能夠?qū)崿F(xiàn)在保存財政和稅務(wù)數(shù)據(jù)完整信息的前提下,大大減少了數(shù)據(jù)存儲和傳輸?shù)拇笮?,具有良好的實用價值。
文檔編號G06F17/30GK102354319SQ20111028566
公開日2012年2月15日 申請日期2011年9月23日 優(yōu)先權(quán)日2011年9月23日
發(fā)明者劉東升, 琚春華, 許翀寰, 陳庭貴 申請人:浙江工商大學(xué)