對(duì)一些 特殊處理對(duì)象進(jìn)行特殊處理;
[0041] 在性能優(yōu)化方面,第一,為了提高存取的效率,進(jìn)銷項(xiàng)發(fā)票數(shù)據(jù)以及清單數(shù)據(jù)分別 以認(rèn)證時(shí)間和報(bào)稅時(shí)間為分區(qū)鍵,每月一個(gè)分區(qū)進(jìn)行分區(qū)優(yōu)化存儲(chǔ),并且在相關(guān)字段上建 立索引;第二,為了提高用戶體驗(yàn),本系統(tǒng)采用相關(guān)聚合表技術(shù),在考慮報(bào)表設(shè)計(jì)時(shí),通過預(yù) 處理事先將計(jì)算好的匯總數(shù)據(jù)保存到數(shù)據(jù)表中,直接提供給用戶查詢,大量縮短查詢響應(yīng) 時(shí)間。
[0042] 步驟S3 :對(duì)源數(shù)據(jù)進(jìn)行清洗和存儲(chǔ)。
[0043] 本步驟是清洗掉無關(guān)的、冗余的、雜亂的數(shù)據(jù),處理特殊含義的數(shù)據(jù),將最終結(jié)果 按步驟S2的數(shù)據(jù)庫設(shè)計(jì)存儲(chǔ)起來。對(duì)于ETL過程,是需要從源數(shù)據(jù)庫中提取所需要的數(shù)據(jù), 并且規(guī)范數(shù)據(jù)格式,存儲(chǔ)在ETL數(shù)據(jù)模型中。進(jìn)項(xiàng)發(fā)票數(shù)據(jù)主要來源于網(wǎng)絡(luò)版認(rèn)證發(fā)票抵 扣聯(lián)明細(xì)數(shù)據(jù)和企業(yè)端抵扣聯(lián)明細(xì)數(shù)據(jù)(以發(fā)票代碼和發(fā)票號(hào)碼字段相關(guān)聯(lián));進(jìn)項(xiàng)發(fā)票清 單數(shù)據(jù)主要來源于企業(yè)端抵扣聯(lián)明細(xì)清單數(shù)據(jù),并關(guān)聯(lián)進(jìn)項(xiàng)發(fā)票數(shù)據(jù);銷項(xiàng)發(fā)票數(shù)據(jù)主要 來源于網(wǎng)絡(luò)版抄報(bào)發(fā)票存根聯(lián)明細(xì)數(shù)據(jù)和企業(yè)端存根聯(lián)明細(xì)數(shù)據(jù)(以發(fā)票代碼和發(fā)票號(hào)碼 字段相關(guān)聯(lián));銷項(xiàng)發(fā)票清單數(shù)據(jù)主要來源于企業(yè)端存根聯(lián)明細(xì)清單數(shù)據(jù),并關(guān)聯(lián)銷項(xiàng)發(fā)票 數(shù)據(jù);進(jìn)銷項(xiàng)關(guān)聯(lián)數(shù)據(jù)可以利用ETL模型中已有的進(jìn)銷項(xiàng)發(fā)票數(shù)據(jù)構(gòu)建;稅務(wù)機(jī)關(guān)數(shù)據(jù)主 要從CTAIS稅務(wù)機(jī)關(guān)代碼表提??;操作人員數(shù)據(jù)主要從CTAIS操作人員代碼表提??;納稅 人數(shù)據(jù)主要從CTAIS所登記或認(rèn)定的納稅人信息和擴(kuò)展信息中獲?。ㄒ约{稅人電子檔案號(hào) 字段關(guān)聯(lián));在ETL過程中,是對(duì)數(shù)據(jù)的準(zhǔn)確性、處理的性能和業(yè)務(wù)擴(kuò)展上進(jìn)行關(guān)注:在數(shù)據(jù) 準(zhǔn)確性方面,原始數(shù)據(jù)在諸如名稱、簡稱等中文字段中,由于錄入的失誤常常出現(xiàn)一些異常 字符,如空格等等。
[0044] 本發(fā)明在提取原始數(shù)據(jù)時(shí),根據(jù)異常處理表去掉或替換異常字符,在提取過來以 后可能會(huì)發(fā)現(xiàn)個(gè)別數(shù)據(jù)填寫的內(nèi)容不正確。其是通過后臺(tái)管理程序更正這些數(shù)據(jù)后,標(biāo)注 它們不再被同步更新,以規(guī)范原始數(shù)據(jù),保證數(shù)據(jù)分析的質(zhì)量;在處理效率方面,對(duì)于大量 數(shù)據(jù),是采用臨時(shí)表機(jī)制做增量處理,只對(duì)某段時(shí)間有變化的納稅人或稅務(wù)機(jī)關(guān)信息進(jìn)行 加載;為了保證業(yè)務(wù)上能保留歷史處理數(shù)據(jù),對(duì)于關(guān)鍵數(shù)據(jù)表,增設(shè)置有效位標(biāo)識(shí),防止歷 史數(shù)據(jù)被覆蓋。
[0045] 下面對(duì)上述步驟的具體實(shí)施進(jìn)行詳細(xì)的描述:
[0046] 步驟Sl :針對(duì)陰陽票檢測所需稅務(wù)數(shù)據(jù)項(xiàng)進(jìn)行業(yè)務(wù)分析,其包括對(duì)原始數(shù)據(jù)項(xiàng)及 陰陽票檢測所需數(shù)據(jù)項(xiàng)進(jìn)行業(yè)務(wù)分析,其中:
[0047] 1. 1、原始數(shù)據(jù)項(xiàng):針對(duì)陰陽票檢測的業(yè)務(wù),所需要的原始數(shù)據(jù)表如下:
[0048] (1)進(jìn)項(xiàng)發(fā)票七要素表
[0049]
【主權(quán)項(xiàng)】
1. 一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征在于,其包括w下步驟: 針對(duì)陰陽票檢測所需稅務(wù)數(shù)據(jù)項(xiàng)進(jìn)行業(yè)務(wù)分析; 針對(duì)業(yè)務(wù)分析結(jié)果進(jìn)行數(shù)據(jù)庫表結(jié)構(gòu)的設(shè)計(jì); 進(jìn)行數(shù)據(jù)清洗,并處理特殊含義的數(shù)據(jù),將最終結(jié)果按所述數(shù)據(jù)庫結(jié)構(gòu)的設(shè)計(jì)進(jìn)行存 儲(chǔ)。
2. 根據(jù)權(quán)利要求1所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征在 于,針對(duì)陰陽票檢測所需稅務(wù)數(shù)據(jù)項(xiàng)進(jìn)行業(yè)務(wù)分析的步驟是W面向?qū)ο蟮姆治黾夹g(shù)分析所 需的數(shù)據(jù)項(xiàng)和數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系,是對(duì)增值稅陰陽票檢測,包括增值稅進(jìn)銷項(xiàng)發(fā)票數(shù) 據(jù)及稅收征管數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征在 于,針對(duì)業(yè)務(wù)分析結(jié)果進(jìn)行數(shù)據(jù)庫表結(jié)構(gòu)的設(shè)計(jì)是W面向?qū)ο蟮脑O(shè)計(jì)思想對(duì)從數(shù)據(jù)源提供 的數(shù)據(jù)進(jìn)行建模處理,產(chǎn)生ETL數(shù)據(jù)庫結(jié)構(gòu)模型,包括進(jìn)項(xiàng)發(fā)票數(shù)據(jù)表、進(jìn)項(xiàng)發(fā)票清單數(shù)據(jù) 表、銷項(xiàng)發(fā)票表、銷項(xiàng)發(fā)票清單數(shù)據(jù)表、進(jìn)銷項(xiàng)關(guān)聯(lián)表、稅務(wù)機(jī)關(guān)數(shù)據(jù)表、操作人員數(shù)據(jù)表及 納稅人數(shù)據(jù)表。
4. 根據(jù)權(quán)利要求3所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征在 于,E化過程需要進(jìn)行異常處理,并且形成了一系列的異常處理表,并對(duì)一些特殊處理對(duì)象 進(jìn)行特殊處理。
5. 根據(jù)權(quán)利要求3所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征在 于,進(jìn)銷項(xiàng)發(fā)票數(shù)據(jù)W及清單數(shù)據(jù)分別W認(rèn)證時(shí)間和報(bào)稅時(shí)間為分區(qū)鍵,每月一個(gè)分區(qū)進(jìn) 行分區(qū)優(yōu)化存儲(chǔ),并且在相關(guān)字段上建立索引。
6. 根據(jù)權(quán)利要求3所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征在 于,針對(duì)業(yè)務(wù)分析結(jié)果進(jìn)行數(shù)據(jù)庫表結(jié)構(gòu)的設(shè)計(jì)采用相關(guān)聚合表技術(shù),在考慮報(bào)表設(shè)計(jì)時(shí), 通過預(yù)處理事先將計(jì)算好的匯總數(shù)據(jù)保存到數(shù)據(jù)表中,直接提供給用戶查詢。
7. 根據(jù)權(quán)利要求1所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征在 于,在進(jìn)行數(shù)據(jù)清洗,并處理特殊含義的數(shù)據(jù),將最終結(jié)果按所述數(shù)據(jù)庫結(jié)構(gòu)的設(shè)計(jì)進(jìn)行存 儲(chǔ)的步驟中,是清洗掉無關(guān)的、兀余的、雜亂的數(shù)據(jù),處理特殊含義的數(shù)據(jù),將最終結(jié)果按數(shù) 據(jù)庫設(shè)計(jì)存儲(chǔ)起來。
8. 根據(jù)權(quán)利要求4所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征在 于,對(duì)于rni過程,需要從源數(shù)據(jù)庫中提取所需要的數(shù)據(jù),并且規(guī)范數(shù)據(jù)格式,存儲(chǔ)在Ell數(shù) 據(jù)模型中,并對(duì)數(shù)據(jù)的準(zhǔn)確性、處理的性能和業(yè)務(wù)擴(kuò)展上進(jìn)行關(guān)注。
9. 根據(jù)權(quán)利要求8所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征在 于,在進(jìn)行數(shù)據(jù)清洗,并處理特殊含義的數(shù)據(jù),將最終結(jié)果按所述數(shù)據(jù)庫結(jié)構(gòu)的設(shè)計(jì)進(jìn)行存 儲(chǔ)的步驟中,在提取原始數(shù)據(jù)時(shí),根據(jù)異常處理表去掉或替換異常字符,在提取過來W后可 能會(huì)發(fā)現(xiàn)個(gè)別數(shù)據(jù)填寫的內(nèi)容不正確,是通過后臺(tái)管理程序更正該些數(shù)據(jù)后,標(biāo)注該些數(shù) 據(jù)不再被同步更新,W規(guī)范原始數(shù)據(jù)。
10. 根據(jù)權(quán)利要求8所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征 在于,在進(jìn)行數(shù)據(jù)清洗,并處理特殊含義的數(shù)據(jù),將最終結(jié)果按所述數(shù)據(jù)庫結(jié)構(gòu)的設(shè)計(jì)進(jìn)行 存儲(chǔ)的步驟中,源數(shù)據(jù)的6化過程具體包括:進(jìn)項(xiàng)發(fā)票數(shù)據(jù)提取、轉(zhuǎn)換、加載過程;進(jìn)項(xiàng)發(fā)票 清單數(shù)據(jù)提取、轉(zhuǎn)換、加載過程;銷項(xiàng)發(fā)票數(shù)據(jù)提取、轉(zhuǎn)換、加載過程;銷項(xiàng)發(fā)票清單數(shù)據(jù)提 取、轉(zhuǎn)換、加載過程;稅務(wù)機(jī)關(guān)數(shù)據(jù)提取、轉(zhuǎn)換、加載過程;操作人員數(shù)據(jù)提取、轉(zhuǎn)換、加載過 程;納稅人數(shù)據(jù)提取、轉(zhuǎn)換、加載過程;進(jìn)銷項(xiàng)關(guān)聯(lián)數(shù)據(jù)的提取、轉(zhuǎn)換、加載過程;陰陽票數(shù) 據(jù)的運(yùn)算過程。
11. 根據(jù)權(quán)利要求10所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征 在于,進(jìn)銷項(xiàng)關(guān)聯(lián)數(shù)據(jù)的提取、轉(zhuǎn)換、加載過程包括W下步驟: 掃描當(dāng)日的增值稅銷項(xiàng)發(fā)票表,將數(shù)據(jù)插入到進(jìn)銷項(xiàng)關(guān)聯(lián)表中,排除代開發(fā)票、信息不 完整的情況; 然后掃描當(dāng)日的增值稅進(jìn)項(xiàng)發(fā)票表,用發(fā)票代碼與發(fā)票號(hào)碼關(guān)聯(lián),將進(jìn)項(xiàng)發(fā)票主鍵填 入到進(jìn)銷項(xiàng)關(guān)聯(lián)表中; 暫存已認(rèn)證未報(bào)稅的進(jìn)項(xiàng)發(fā)票,排除代開發(fā)票、信息不完整的情況; 檢查暫存的已認(rèn)證未報(bào)稅的進(jìn)項(xiàng)發(fā)票,是否已經(jīng)報(bào)稅,如果已報(bào)稅,用發(fā)票代碼與發(fā)票 號(hào)碼關(guān)聯(lián),將進(jìn)項(xiàng)發(fā)票填入到進(jìn)銷項(xiàng)關(guān)聯(lián)表中; 清理進(jìn)項(xiàng)發(fā)票臨時(shí)表中已填入到進(jìn)銷項(xiàng)關(guān)聯(lián)表中的發(fā)票。
12. 根據(jù)權(quán)利要求10所述的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其特征 在于,陰陽票數(shù)據(jù)的運(yùn)算過程包括掃描納稅人進(jìn)銷項(xiàng)關(guān)聯(lián)表中進(jìn)項(xiàng)發(fā)票主鍵不為空、還未 進(jìn)行陰陽票檢查的數(shù)據(jù),并依次進(jìn)行W下檢查: 檢查進(jìn)項(xiàng)發(fā)票與銷項(xiàng)發(fā)票中購方納稅人與銷方納稅人是否一致,如果不一致,按照如 下規(guī)則分別計(jì)算購方納稅人與銷方納稅人的相似度,填充購方和銷方名稱相似度字段; 檢查進(jìn)項(xiàng)發(fā)票與銷項(xiàng)發(fā)票中商品行數(shù)是否一致,填充是否行數(shù)一致字段; 在商品行數(shù)一致的情況下,逐行檢查進(jìn)項(xiàng)發(fā)票與銷項(xiàng)發(fā)票的商品名稱是否一致,如果 不一致,則按照如下規(guī)則計(jì)算商品名稱的相似度,填充商品相似度字段; 填入陰陽票檢查時(shí)間。
【專利摘要】本發(fā)明公開一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲(chǔ)方法,其包括以下步驟:針對(duì)陰陽票檢測所需稅務(wù)數(shù)據(jù)項(xiàng)進(jìn)行業(yè)務(wù)分析;針對(duì)業(yè)務(wù)分析結(jié)果進(jìn)行數(shù)據(jù)庫表結(jié)構(gòu)的設(shè)計(jì);進(jìn)行數(shù)據(jù)清洗,并處理特殊含義的數(shù)據(jù),將最終結(jié)果按所述數(shù)據(jù)庫結(jié)構(gòu)的設(shè)計(jì)進(jìn)行存儲(chǔ)。本發(fā)明能在龐大的數(shù)據(jù)里面快速清洗提取出為了檢測陰陽票所需的數(shù)據(jù),并且能夠巧妙地存儲(chǔ)起來為后續(xù)判斷提供準(zhǔn)備,提高了系統(tǒng)檢測陰陽票的效率。
【IPC分類】G06F17-30, G06Q40-00
【公開號(hào)】CN104636338
【申請?zhí)枴緾N201310547440
【發(fā)明人】范鋼, 陳勇, 謝宇, 潘競旭, 房玉偉, 耿立家
【申請人】航天信息股份有限公司
【公開日】2015年5月20日
【申請日】2013年11月6日