一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲方法
【技術領域】
[0001] 本發(fā)明涉及稅控技術領域,特別涉及一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲 方法。
【背景技術】
[0002] 增值稅防偽稅控系統(tǒng)是國家金稅工程的重要組成部分。通過運用數(shù)字密碼和電子 存儲技術并強化專用發(fā)票的防偽功能,做到了成功遏制利用增值稅專用發(fā)票偷稅、漏稅的 現(xiàn)象。
[0003] 企業(yè)端開票軟件是運用數(shù)字密碼和電子信息存貯技術,強化專用發(fā)票的防偽功 能,實現(xiàn)對增值稅一般納稅人稅源監(jiān)控,用于企業(yè)開具增值稅專用發(fā)票的系統(tǒng)。
[0004] 當前一般納稅人的稅務數(shù)據(jù)主要來自企業(yè)端開票軟件、防偽稅控網(wǎng)絡版和CTAIS (中國稅收征管信息系統(tǒng),China Tex Administration Information System)核心征管三個 系統(tǒng)。
[0005] CTAIS是以國家稅務總局制定的《稅收征管業(yè)務規(guī)程》、《市局級稅收征管業(yè)務需 求》和《國家稅務總局CTAIS開發(fā)要求概要》為基準開發(fā)的,它是面向全國各級稅務機關的、 統(tǒng)一的、大型的應用軟件。
[0006] 以上三個系統(tǒng)記錄了一般納稅人海量的稅務數(shù)據(jù),為各類稅務系統(tǒng)的應用開發(fā)提 供了原始的數(shù)據(jù)來源。
[0007] 因此,如何設計一種方法能夠將這三個系統(tǒng)所記錄的龐大數(shù)據(jù)進行清洗過濾,然 后存儲在事先設計好的數(shù)據(jù)庫表里面,為進行陰陽票的判斷做數(shù)據(jù)準備,即為本領域技術 人員的研究方向所在。
【發(fā)明內容】
[0008] 本發(fā)明的目的是提供一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲方法,能夠將雜 亂冗余的原始數(shù)據(jù)清洗過濾,然后按設計的結構存儲起來,為后續(xù)陰陽票的高效判定做好 數(shù)據(jù)準備。
[0009] 為了達到上述目的,本發(fā)明提供一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲方 法,其包括以下步驟:
[0010] 針對陰陽票檢測所需稅務數(shù)據(jù)項進行業(yè)務分析;
[0011] 針對業(yè)務分析結果進行數(shù)據(jù)庫表結構的設計;
[0012] 進行數(shù)據(jù)清洗,并處理特殊含義的數(shù)據(jù),將最終結果按所述數(shù)據(jù)庫結構的設計進 行存儲。
[0013] 其中,針對陰陽票檢測所需稅務數(shù)據(jù)項進行業(yè)務分析的步驟是以面向對象的分析 技術分析所需的數(shù)據(jù)項和數(shù)據(jù)項之間的關聯(lián)關系,是對增值稅陰陽票檢測,包括增值稅進 銷項發(fā)票數(shù)據(jù)及稅收征管數(shù)據(jù)。
[0014] 其中,針對業(yè)務分析結果進行數(shù)據(jù)庫表結構的設計是以面向對象的設計思想對從 數(shù)據(jù)源提供的數(shù)據(jù)進行建模處理,產生ETL數(shù)據(jù)庫結構模型,包括進項發(fā)票數(shù)據(jù)表、進項發(fā) 票清單數(shù)據(jù)表、銷項發(fā)票表、銷項發(fā)票清單數(shù)據(jù)表、進銷項關聯(lián)表、稅務機關數(shù)據(jù)表、操作人 員數(shù)據(jù)表及納稅人數(shù)據(jù)表。
[0015] 其中,ETL過程需要進行異常處理,并且形成了一系列的異常處理表,并對一些特 殊處理對象進行特殊處理。
[0016] 其中,進銷項發(fā)票數(shù)據(jù)以及清單數(shù)據(jù)分別以認證時間和報稅時間為分區(qū)鍵,每月 一個分區(qū)進行分區(qū)優(yōu)化存儲,并且在相關字段上建立索引。
[0017] 其中,針對業(yè)務分析結果進行數(shù)據(jù)庫表結構的設計采用相關聚合表技術,在考慮 報表設計時,通過預處理事先將計算好的匯總數(shù)據(jù)保存到數(shù)據(jù)表中,直接提供給用戶查詢。
[0018] 其中,在進行數(shù)據(jù)清洗,并處理特殊含義的數(shù)據(jù),將最終結果按所述數(shù)據(jù)庫結構的 設計進行存儲的步驟中,是清洗掉無關的、冗余的、雜亂的數(shù)據(jù),處理特殊含義的數(shù)據(jù),將最 終結果按數(shù)據(jù)庫設計存儲起來。
[0019] 其中,對于ETL過程,需要從源數(shù)據(jù)庫中提取所需要的數(shù)據(jù),并且規(guī)范數(shù)據(jù)格式, 存儲在ETL數(shù)據(jù)模型中,并對數(shù)據(jù)的準確性、處理的性能和業(yè)務擴展上進行關注。
[0020] 其中,在進行數(shù)據(jù)清洗,并處理特殊含義的數(shù)據(jù),將最終結果按所述數(shù)據(jù)庫結構的 設計進行存儲的步驟中,在提取原始數(shù)據(jù)時,根據(jù)異常處理表去掉或替換異常字符,在提取 過來以后可能會發(fā)現(xiàn)個別數(shù)據(jù)填寫的內容不正確,是通過后臺管理程序更正這些數(shù)據(jù)后, 標注這些數(shù)據(jù)不再被同步更新,以規(guī)范原始數(shù)據(jù)。
[0021] 其中,在進行數(shù)據(jù)清洗,并處理特殊含義的數(shù)據(jù),將最終結果按所述數(shù)據(jù)庫結構的 設計進行存儲的步驟中,源數(shù)據(jù)的ETL過程具體包括:進項發(fā)票數(shù)據(jù)提取、轉換、加載過程; 進項發(fā)票清單數(shù)據(jù)提取、轉換、加載過程;銷項發(fā)票數(shù)據(jù)提取、轉換、加載過程;銷項發(fā)票清 單數(shù)據(jù)提取、轉換、加載過程;稅務機關數(shù)據(jù)提取、轉換、加載過程;操作人員數(shù)據(jù)提取、轉 換、加載過程;納稅人數(shù)據(jù)提取、轉換、加載過程;進銷項關聯(lián)數(shù)據(jù)的提取、轉換、加載過程; 陰陽票數(shù)據(jù)的運算過程。
[0022] 其中,進銷項關聯(lián)數(shù)據(jù)的提取、轉換、加載過程包括以下步驟:
[0023] 掃描當日的增值稅銷項發(fā)票表,將數(shù)據(jù)插入到進銷項關聯(lián)表中,排除代開發(fā)票、信 息不完整的情況;
[0024] 然后掃描當日的增值稅進項發(fā)票表,用發(fā)票代碼與發(fā)票號碼關聯(lián),將進項發(fā)票主 鍵填入到進銷項關聯(lián)表中;
[0025] 暫存已認證未報稅的進項發(fā)票,排除代開發(fā)票、信息不完整的情況;
[0026] 檢查暫存的已認證未報稅的進項發(fā)票,是否已經(jīng)報稅,如果已報稅,用發(fā)票代碼與 發(fā)票號碼關聯(lián),將進項發(fā)票填入到進銷項關聯(lián)表中;
[0027] 清理進項發(fā)票臨時表中已填入到進銷項關聯(lián)表中的發(fā)票。
[0028] 其中,陰陽票數(shù)據(jù)的運算過程包括掃描納稅人進銷項關聯(lián)表中進項發(fā)票主鍵不為 空、還未進行陰陽票檢查的數(shù)據(jù),并依次進行以下檢查:
[0029] 檢查進項發(fā)票與銷項發(fā)票中購方納稅人與銷方納稅人是否一致,如果不一致,按 照如下規(guī)則分別計算購方納稅人與銷方納稅人的相似度,填充購方和銷方名稱相似度字 段;
[0030] 檢查進項發(fā)票與銷項發(fā)票中商品行數(shù)是否一致,填充是否行數(shù)一致字段;
[0031] 在商品行數(shù)一致的情況下,逐行檢查進項發(fā)票與銷項發(fā)票的商品名稱是否一致, 如果不一致,則按照如下規(guī)則計算商品名稱的相似度,填充商品相似度字段;
[0032] 填入陰陽票檢查時間。
[0033] 本發(fā)明的有益效果:能在龐大的數(shù)據(jù)里面快速清洗提取出為了檢測陰陽票所需的 數(shù)據(jù),并且能夠巧妙地存儲起來為后續(xù)判斷提供準備,提高了系統(tǒng)檢測陰陽票的效率。
【附圖說明】
[0034] 圖1為本發(fā)明實施例所提供的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲方法 流程圖。
【具體實施方式】
[0035] 以下結合附圖,對本發(fā)明上述的和另外的技術特征和優(yōu)點作更詳細的說明。
[0036] 如圖1所示,為本發(fā)明實施例所提供的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存 儲方法流程圖,本發(fā)明的一種用于增值稅陰陽票監(jiān)控的數(shù)據(jù)清洗存儲方法包括以下步驟:
[0037] 步驟Sl :針對陰陽票檢測所需稅務數(shù)據(jù)項進行業(yè)務分析;
[0038] 在本步驟中,是以面向對象的分析技術(OOA)分析所需的數(shù)據(jù)項和數(shù)據(jù)項之間的 關聯(lián)關系,為數(shù)據(jù)庫的表結構設計提供依據(jù)。在業(yè)務上,是對增值稅陰陽票檢測(檢測出那 些存根聯(lián)和抵扣聯(lián)中商品明細不一致的增值稅發(fā)票)進行分析,發(fā)現(xiàn)所涉及到的主要操作 對象為:增值稅進銷項發(fā)票數(shù)據(jù)(主要來源于防偽稅控網(wǎng)絡版所提供的抄報認證快照數(shù)據(jù), 包括抄報發(fā)票存根聯(lián)明細、抄報非抵扣存根聯(lián)明細、認證發(fā)票抵扣聯(lián)明細等數(shù)據(jù),以及企業(yè) 端遠程抄報認證軟件所采集的進銷項發(fā)票七要素、發(fā)票清單、發(fā)票掃描圖片等數(shù)據(jù))和稅 收征管數(shù)據(jù)(主要來源于中國稅收征管信息系統(tǒng)CTAIS包括稅務機關數(shù)據(jù)、操作人員、納稅 人、行業(yè)等數(shù)據(jù))。
[0039] 步驟S2 :針對步驟Sl的分析結果進行數(shù)據(jù)庫表結構的設計;
[0040] 本步驟是針對步驟Sl的分析結果(主要包括監(jiān)測陰陽票所需的數(shù)據(jù)項以及數(shù)據(jù) 項之間的關系)進行數(shù)據(jù)庫的設計,同時充分考慮查詢效率、數(shù)據(jù)規(guī)模等因素。根據(jù)業(yè)務需 要,是以面向對象的設計思想(OOD)對從數(shù)據(jù)源提供的數(shù)據(jù)進行建模處理,產生ETL數(shù)據(jù)庫 結構模型,主要包括進項發(fā)票數(shù)據(jù)表、進項發(fā)票清單數(shù)據(jù)表、銷項發(fā)票表、銷項發(fā)票清單表、 進銷項關聯(lián)表、稅務機關數(shù)據(jù)表、操作人員數(shù)據(jù)表、納稅人數(shù)據(jù)表等;在異常處理方面,同時 由于其它第三方信息管理系統(tǒng)數(shù)據(jù)不準確,為了避免由于這些不準確數(shù)據(jù)造成本系統(tǒng)數(shù)據(jù) 分析結果的不正確,ETL過程需要進行異常處理,并且形成了一系列的異常處理表,