一種減小財政數(shù)據(jù)庫儲存量的方法

文檔序號：6433995閱讀：247來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種減小財政數(shù)據(jù)庫儲存量的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)庫儲存量壓縮技術(shù)領(lǐng)域，具體涉及一種基于小波變換的財政數(shù)據(jù)庫壓縮方法。特別是適用處理財政和稅務(wù)的大容量的實時數(shù)據(jù)。
背景技術(shù)：
許多應(yīng)用場合的數(shù)據(jù)都以連續(xù)的流的形式出現(xiàn)，被稱為數(shù)據(jù)流，如證券交易、信用卡交易、商場購物交易、網(wǎng)站點擊流、電話呼叫記錄等應(yīng)用中所產(chǎn)生的連續(xù)不斷的數(shù)據(jù)。其主要特點為1)數(shù)據(jù)流動態(tài)增長，長度可能無限；2)對流中的數(shù)據(jù)只能一次掃描，利用一次掃描建立數(shù)據(jù)流的近似概要結(jié)構(gòu)，其后的處理只能依賴該概要結(jié)構(gòu)。財政方面的實時數(shù)據(jù)通常具有數(shù)量大、數(shù)據(jù)流量突發(fā)性高等特點，如何保存如此龐大的實時數(shù)據(jù)以及如何訪問這些保存的歷史數(shù)據(jù)一直是個難題。因為這些實時數(shù)據(jù)過于巨大，如果簡單的將所有的數(shù)據(jù)保存下來，不但占用很大的物理空間，而且使得以后再查詢特定歷史時間的數(shù)據(jù)時效率會大大折扣。因為我們是對財政數(shù)據(jù)進(jìn)行實時采集，所以得到的都是基于時間序列的數(shù)據(jù)，這些數(shù)據(jù)具有時間屬性，但是它的時態(tài)關(guān)系和時態(tài)數(shù)據(jù)庫系統(tǒng)相比要簡單一些，主要是說其時間是序列化的。用戶可能對那些在較小范圍變化的數(shù)據(jù)興趣不大，僅較為關(guān)注默寫變化劇烈的拐點數(shù)據(jù)。其實，只要這些被丟棄的數(shù)據(jù)在一定的誤差范圍內(nèi)不影響過程歷史數(shù)據(jù)的重構(gòu)，數(shù)據(jù)壓縮完全可以通過采用丟棄一些數(shù)據(jù)的方法來減少對存儲資源的需求。數(shù)據(jù)壓縮完全可以通過采用丟棄一些數(shù)據(jù)的方法減少存儲資源，同時丟棄的這些數(shù)據(jù)必須保證在一定的誤差控制中不影響對歷史數(shù)據(jù)的重構(gòu)，方便之后對歷史數(shù)據(jù)的查詢處理。目前，數(shù)據(jù)壓縮的方法有很多，但是本質(zhì)上不外乎完全可逆的冗余度壓縮和實際上不可逆的熵壓縮兩類。冗余度壓縮常用于磁盤文件、數(shù)據(jù)通信和氣象衛(wèi)星云圖等不允許在壓縮過程中有絲毫損失的場合中。但它的壓縮比通常只有幾倍，遠(yuǎn)遠(yuǎn)不能滿足數(shù)字視聽?wèi)?yīng)用的要求。在實踐的數(shù)字視聽設(shè)備中，差不多都采用壓縮比更高、但實際有損的熵壓縮技術(shù)。只要作為最終用戶的人覺察不出或者能夠容忍這些失真，就允許對數(shù)字音像信號進(jìn)一步壓縮以換取更高的編碼效率。但是這些方法的壓縮比不高，存儲數(shù)據(jù)的空間有限，常常導(dǎo)致數(shù)據(jù)失真。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足之處，提出一種壓縮比高、數(shù)據(jù)失真少的減小財政數(shù)據(jù)庫儲存量的方法。本發(fā)明所述的減小財政數(shù)據(jù)庫儲存量的方法，包括以下步驟1)壓縮數(shù)據(jù)節(jié)點閾值過濾假設(shè)數(shù)據(jù)流是穩(wěn)定的，將數(shù)據(jù)流中不斷到來的數(shù)據(jù)作為第1層，在相同的時間內(nèi)到來的數(shù)據(jù)序列中平均由η個數(shù)據(jù)組成，則這η個數(shù)據(jù)組成一個
數(shù)據(jù)節(jié)點，第1層的數(shù)據(jù)節(jié)點數(shù)有一，其中M為數(shù)據(jù)流的總數(shù)據(jù)個數(shù)；
2)數(shù)據(jù)預(yù)處理對實時數(shù)據(jù)流進(jìn)行噪聲處理，主要是對數(shù)據(jù)序列進(jìn)行空缺值處
γγγ
理。假設(shè)數(shù)據(jù)序列的屬性個數(shù)為m，如果空缺屬性個數(shù) ^ γ，則認(rèn)為該條數(shù)據(jù)流是噪聲，直接過濾；反之，將空缺屬性補充為所有該屬性所有取值的平均值；3)壓縮處理將第1層每η個數(shù)據(jù)組成的子序列進(jìn)行濃縮，提煉成第2層中的一個數(shù)據(jù)節(jié)點，記該子序列為屯，該數(shù)據(jù)節(jié)點為PiJU Pi中保存了 Cli的概要信息。隨著新數(shù)據(jù)
的不斷到來，第2層上的數(shù)據(jù)節(jié)點不斷增加，當(dāng)?shù)?層上的數(shù)據(jù)節(jié)點個數(shù)> f時，將最老的η
個數(shù)據(jù)節(jié)點進(jìn)行歸并，合并成第3層上的1個數(shù)據(jù)節(jié)點，并計算數(shù)據(jù)節(jié)點的概要信息，以此逐層向上，從而使得該數(shù)據(jù)流總是被壓縮成一組分層次的數(shù)據(jù)節(jié)點，最后構(gòu)造一棵能夠存儲小波系數(shù)的誤差樹；誤差樹中，節(jié)點Ci對應(yīng)小波系數(shù)，葉節(jié)Axu對應(yīng)原始數(shù)據(jù)。對一給定的誤差樹T和 T中的內(nèi)節(jié)點ck，令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點集合，Ieftleavesk表示Ck的左子樹的葉節(jié)點集合，rightleave、表示ck的右子樹的葉節(jié)點集合，pathk為T中從ck (或Xij) 到根的路徑上全體非零系數(shù)的集合。設(shè)％是IeftleaVe%中數(shù)據(jù)的均值，bk是rightleave、中數(shù)據(jù)的均值，則ck = (4_\)/2，而C1是全部數(shù)據(jù)的均值；包括以下步驟首先數(shù)據(jù)流Xi = {xn, xi2, A，xi(1}，將Xi = {xn, xi2, A，XiJ中的數(shù)據(jù)兩兩分對求其均值和均值與第二個數(shù)據(jù)的差值，則差值就是第2層的數(shù)據(jù)節(jié)點，也是相應(yīng)的小波系 ^c2k ；其次計算誤差樹中第3層的小波系數(shù)。令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點集合，leftleave、表示ck的左子樹的葉節(jié)點集合，rightleave、表示Ck的右子樹的葉節(jié)點集合。設(shè)％是Ieftleavesk中數(shù)據(jù)的均值，bk是rightleave、中數(shù)據(jù)的均值，則c3k = (ak-bk)/2 ；最后依次繼續(xù)計算，直至誤差樹的最高層的小波系數(shù)，它也等于全部數(shù)據(jù)的平均值；4)小波系數(shù)的篩選其遵循的原則一是絕對值大的系數(shù)的缺失會對相關(guān)的數(shù)據(jù)值的重構(gòu)有更大的影響；二是從誤差樹上易知，越接近根的系數(shù)用于重構(gòu)時影響的數(shù)據(jù)越多，具有更高的重要性。本發(fā)明運用誤差平方和(sum of squared error) sse
SSe(DM)=Yj^ - A )2來進(jìn)行小波系數(shù)的蹄選，其中D表示壓縮之前的數(shù)據(jù)序列，D'表示
i=\
壓縮之后的數(shù)據(jù)序列，Xi是數(shù)據(jù)序列D的第i個數(shù)據(jù)，χ' i是數(shù)據(jù)序列D'的第i個數(shù)；設(shè)對子序列Xi = {xn, xi2, A，xi(1}，提取得到的數(shù)據(jù)節(jié)點Pi概要信息表示成四元
組(/,“Γ)，其中t = t (xn), η = \])\,X = -t^，t為該數(shù)據(jù)節(jié)點的時間戳，表示d中最后一
個數(shù)據(jù)的到達(dá)時刻，η為d中數(shù)據(jù)個數(shù)，文為d中數(shù)據(jù)的均值。對d進(jìn)行DWT變換，Γ分量
中保存變換得到的r < η個最重要的小波系數(shù)，r取使現(xiàn)(Α ’) = Σ(Χ;-x/f最小的前r個。
/=1
對子序列Xi進(jìn)行小波變換，對小波系數(shù)進(jìn)行規(guī)范化，Γ分量中保存得到的η個系數(shù)中最重要的r個系數(shù)，因為系數(shù)重要性的衡量基于sse最小化，所以Γ中應(yīng)保留r個絕對值最大的系數(shù)。
本發(fā)明方法只需要對數(shù)據(jù)流進(jìn)行一次掃描就可得到小波系數(shù)，最后僅存儲少量的小波系數(shù)來表征數(shù)據(jù)流。它能夠在保證數(shù)據(jù)壓縮高效率的前提下盡可能正確無誤的恢復(fù)歷史的數(shù)據(jù)。小波變換方法利用變換后生成的少量小波系數(shù)近似模擬原始數(shù)據(jù)，在數(shù)據(jù)庫和數(shù)據(jù)處理領(lǐng)域，通過對原始數(shù)據(jù)集進(jìn)行小波變換，保存部分重要的小波系數(shù)，把這些小波系數(shù)作為原始數(shù)據(jù)的壓縮表示，進(jìn)而能夠近似地還原出原始數(shù)據(jù)集合。本發(fā)明的有益效果在于能夠在保留數(shù)據(jù)主要信息的前提下大大減少數(shù)據(jù)存儲空間，壓縮比高、數(shù)據(jù)失真小，具有良好的實際應(yīng)用價值。

圖1是本發(fā)明方法的具體實現(xiàn)流程圖。
具體實施例方式下面結(jié)合

和具體實施方式
對本發(fā)明做進(jìn)一步詳細(xì)說明。本發(fā)明提出的減小財政數(shù)據(jù)庫儲存量的方法，包括以下步驟1)壓縮數(shù)據(jù)節(jié)點閾值過濾假設(shè)數(shù)據(jù)流是穩(wěn)定的，將數(shù)據(jù)流中不斷到來的數(shù)據(jù)作為第1層，在相同的時間內(nèi)到來的數(shù)據(jù)序列中平均由η個數(shù)據(jù)組成，則這η個數(shù)據(jù)組成一個
廠μ
數(shù)據(jù)節(jié)點，第1層的數(shù)據(jù)節(jié)點數(shù)有一，其中M為數(shù)據(jù)流的總數(shù)據(jù)個數(shù)。
η2)數(shù)據(jù)預(yù)處理對實時數(shù)據(jù)流進(jìn)行噪聲處理，主要是對數(shù)據(jù)序列進(jìn)行空缺值處
γγγ
理。假設(shè)數(shù)據(jù)序列的屬性個數(shù)為m，如果空缺屬性個數(shù) ^ γ，則認(rèn)為該條數(shù)據(jù)流是噪聲，直接過濾。反之，將空缺屬性補充為所有該屬性所有取值的平均值。3)壓縮處理將第1層每η個數(shù)據(jù)組成的子序列進(jìn)行濃縮，提煉成第2層中的一個數(shù)據(jù)節(jié)點，記該子序列為屯，該數(shù)據(jù)節(jié)點為PiJU Pi中保存了 Cli的概要信息。隨著新數(shù)據(jù)
的不斷到來，第2層上的數(shù)據(jù)節(jié)點不斷增加，當(dāng)?shù)?層上的數(shù)據(jù)節(jié)點個數(shù)> f時，將最老的η
個數(shù)據(jù)節(jié)點進(jìn)行歸并，合并成第3層上的1個數(shù)據(jù)節(jié)點，并計算數(shù)據(jù)節(jié)點的概要信息，以此逐層向上，從而使得該數(shù)據(jù)流總是被壓縮成一組分層次的數(shù)據(jù)節(jié)點，最后構(gòu)造一棵能夠存儲小波系數(shù)的誤差樹。誤差樹中，節(jié)點Ci對應(yīng)小波系數(shù)，葉節(jié)點Xu對應(yīng)原始數(shù)據(jù)。對一給定的誤差樹T和 T中的內(nèi)節(jié)點ck，令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點集合，Ieftleavesk表示Ck的左子樹的葉節(jié)點集合，rightleave、表示ck的右子樹的葉節(jié)點集合，pathk為T中從ck (或Xij) 到根的路徑上全體非零系數(shù)的集合。設(shè)％是IeftleaVe%中數(shù)據(jù)的均值，bk是rightleave、中數(shù)據(jù)的均值，則ck = (4_\)/2，而C1是全部數(shù)據(jù)的均值。包括以下步驟首先數(shù)據(jù)流Xi = {xn, xi2, A，xi(1}，將Xi = {xn, xi2, A，XiJ中的數(shù)據(jù)兩兩分對求其均值和均值與第二個數(shù)據(jù)的差值，則差值就是第2層的數(shù)據(jù)節(jié)點，也是相應(yīng)的小波系數(shù) c2ko
其次計算誤差樹中第3層的小波系數(shù)。令I(lǐng)eavesk表示以Ck為根的子樹的葉節(jié)點集合，leftleave、表示ck的左子樹的葉節(jié)點集合，rightleave、表示Ck的右子樹的葉節(jié)點集合。設(shè)％是Ieftleavesk中數(shù)據(jù)的均值，bk是rightleave、中數(shù)據(jù)的均值，則c3k = (ak-bk) / 2 ο最后依次繼續(xù)計算，直至誤差樹的最高層的小波系數(shù)，它也等于全部數(shù)據(jù)的平均值。4)小波系數(shù)的篩選其遵循的原則一是絕對值大的系數(shù)的缺失會對相關(guān)的數(shù)據(jù)值的重構(gòu)有更大的影響；二是從誤差樹上易知，越接近根的系數(shù)用于重構(gòu)時影響的數(shù)據(jù)越多，具有更高的重要性。本發(fā)明運用誤差平方和(sum of squared error) sse
權(quán)利要求
1.減小財政數(shù)據(jù)庫儲存量的方法，包括以下步驟1)壓縮數(shù)據(jù)節(jié)點閾值過濾假設(shè)數(shù)據(jù)流是穩(wěn)定的，將數(shù)據(jù)流中不斷到來的數(shù)據(jù)作為第 1層，在相同的時間內(nèi)到來的數(shù)據(jù)序列中平均由η個數(shù)據(jù)組成，則這η個數(shù)據(jù)組成一個數(shù)據(jù)
全文摘要
本發(fā)明涉及減小財政數(shù)據(jù)庫存儲量的方法，首先將從財政和稅務(wù)處提取的實時數(shù)據(jù)進(jìn)行預(yù)處理，然后對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行基于小波變換的數(shù)據(jù)壓縮，得到能夠反應(yīng)數(shù)據(jù)重要特征的小波概要，最后將小波概要中的小波系數(shù)進(jìn)行存儲，進(jìn)而可以重構(gòu)實時數(shù)據(jù)。本發(fā)明有效地降低了現(xiàn)行地方財政和稅務(wù)在數(shù)據(jù)預(yù)處理方面的巨額成本，應(yīng)用這種方法能夠?qū)崿F(xiàn)在保存財政和稅務(wù)數(shù)據(jù)完整信息的前提下，大大減少了數(shù)據(jù)存儲和傳輸?shù)拇笮?，具有良好的實用價值。
文檔編號G06F17/30GK102354319SQ20111028566
公開日2012年2月15日申請日期2011年9月23日優(yōu)先權(quán)日2011年9月23日
發(fā)明者劉東升, 琚春華, 許翀寰, 陳庭貴申請人:浙江工商大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉東升;琚春華;許翀寰;陳庭貴
技術(shù)所有人：浙江工商大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)庫儲存圖片相關(guān)技術(shù)

數(shù)據(jù)庫儲存過程相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種減小財政數(shù)據(jù)庫儲存量的方法