專利名稱:通過(guò)Excel對(duì)系統(tǒng)之間數(shù)據(jù)治理的方法
通過(guò)Excel對(duì)系統(tǒng)之間數(shù)據(jù)治理的方法技術(shù)領(lǐng)域 本發(fā)明涉及一種通過(guò)Excel對(duì)系統(tǒng)之間數(shù)據(jù)治理的方法。
背景技術(shù):
隨著國(guó)內(nèi)信息化的高速發(fā)展,企業(yè)的應(yīng)用系統(tǒng)越來(lái)越多,各個(gè)系統(tǒng)間的數(shù)據(jù)格 式、編碼都不一致,導(dǎo)致系統(tǒng)之間數(shù)據(jù)的轉(zhuǎn)換變得異常的困難,在轉(zhuǎn)換的過(guò)程中,容易 產(chǎn)生編碼出錯(cuò)、正確率低、工作效率低下。
發(fā)明內(nèi)容
本發(fā)明的目的就是提出一種可以降低大量相似數(shù)據(jù)的整理工作量,并進(jìn)一步高 效、快速提高數(shù)據(jù)質(zhì)量的通過(guò)Excel對(duì)系統(tǒng)之間數(shù)據(jù)治理的方法。本發(fā)明的通過(guò)Excel對(duì)系統(tǒng)之間數(shù)據(jù)治理的方法,以Excel插件的方式提供一個(gè) 自動(dòng)化的轉(zhuǎn)換過(guò)程,來(lái)解決用戶在系統(tǒng)之間數(shù)據(jù)的轉(zhuǎn)換異常困難的問(wèn)題,
具體方法涉及訪問(wèn)Excel表、源系統(tǒng)以及其中待治理的源數(shù)據(jù)、目標(biāo)系統(tǒng)以及符合其 要求的目標(biāo)數(shù)據(jù)。它包括五個(gè)流程導(dǎo)出數(shù)據(jù)、載入模板、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、格式 化,具體步驟如下
步驟a 用戶先從源系統(tǒng)中按照系統(tǒng)規(guī)則格式將待治理的源數(shù)據(jù)導(dǎo)出到Excel文件 中,對(duì)于包含這些源數(shù)據(jù)的Excel文件,以下我們簡(jiǎn)稱為源Excel文件;
步驟b:建立一個(gè)Excel插件,此插件功能是提供一個(gè)模板參數(shù)配置表,在這個(gè)模板 參數(shù)表中配置源Excel文件名、源Excel文件中各個(gè)工作簿的名稱、源文件列字段、目標(biāo) 文件列字段、語(yǔ)義轉(zhuǎn)換規(guī)則、以及校驗(yàn)規(guī)則,將此Excel插件裝載到普通的Excel表中; 對(duì)于包含插件并配置完成模板參數(shù)配置表的Excel文件,以下我們簡(jiǎn)稱為模板Excel文 件;
步驟c:根據(jù)上一步配置的源Excel文件名等規(guī)則,將源數(shù)據(jù)從源Excel文件中載入 到模板Excel文件中;
步驟d:對(duì)于源系統(tǒng)和目標(biāo)系統(tǒng)中各個(gè)列字段的數(shù)據(jù)語(yǔ)義,按照語(yǔ)義轉(zhuǎn)換規(guī)則參數(shù) 表中的語(yǔ)義轉(zhuǎn)化規(guī)則進(jìn)行轉(zhuǎn)換,以適應(yīng)目標(biāo)系統(tǒng)中的語(yǔ)義規(guī)則;
步驟e:按照校驗(yàn)規(guī)則對(duì)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行長(zhǎng)度、類型、字段的精確度、準(zhǔn)確度以及唯 一性進(jìn)行校驗(yàn);
步驟f:將校驗(yàn)產(chǎn)生的數(shù)據(jù)進(jìn)行目標(biāo)系統(tǒng)的格式化,如去掉字體等Excel自帶的文本 屬性,然后將符合目標(biāo)系統(tǒng)的目標(biāo)數(shù)據(jù)導(dǎo)入到目標(biāo)系統(tǒng)中。本發(fā)明的通過(guò)Excel對(duì)系統(tǒng)之間數(shù)據(jù)治理的方法,它具有以下優(yōu)點(diǎn)
1、簡(jiǎn)單易用采用Excel的電子表單的作為操作基本界面,最終用戶可以快速掌握 系統(tǒng)操作,而無(wú)須太多培訓(xùn);
2、普適性最終用戶可以靈活設(shè)置數(shù)據(jù)匹配、語(yǔ)意轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、規(guī)范格式等規(guī) 貝U,針對(duì)不同的應(yīng)用情況,重新設(shè)置相應(yīng)規(guī)則,而不需重新開(kāi)發(fā)代碼;3、高效數(shù)據(jù)整理轉(zhuǎn)換過(guò)程只需配置相應(yīng)的參數(shù)即可,可以大幅提高數(shù)據(jù)整理的準(zhǔn) 確率和工作效率。
具體實(shí)施方式
一種通過(guò)Excel對(duì)系統(tǒng)之間數(shù)據(jù)治理的方法,具體步驟 名稱解釋
VSTO Visual Studio Tools for Office ; Extraction @Source 數(shù)據(jù)抽??; Transformation 數(shù)據(jù)轉(zhuǎn)換; Verify 數(shù)據(jù)校驗(yàn); Loading @Destination 載入源系統(tǒng);
本發(fā)明包含了系統(tǒng)數(shù)據(jù)轉(zhuǎn)換的四個(gè)過(guò)程從源數(shù)據(jù)Excel表中抽取有用的字段;通 過(guò)轉(zhuǎn)換規(guī)則對(duì)數(shù)據(jù)中的編碼進(jìn)行轉(zhuǎn)換;對(duì)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行校驗(yàn);產(chǎn)生新的目標(biāo)數(shù)據(jù)。用 如下形式表示完成的功能和應(yīng)用模塊之間的關(guān)系 在Excel數(shù)據(jù)治理場(chǎng)景轉(zhuǎn)換中定義如下基本操作
F=(Swp,Mer,Split,Sort,Rep,Fact,Dist,Check)轉(zhuǎn)換函數(shù)是這幾類函數(shù)的集合。其中,
Swp是交換函數(shù),屬一元操作;Mer是合并操作,將實(shí)體&和%進(jìn)行合并,并產(chǎn)生; Split是分割操作,是Mer函數(shù)的逆操作;Rep是替代函數(shù),將實(shí)體&替代為& ; Fact是 因式分解操作,將&實(shí)體分解出、Dist是歸并操作,是Fact的逆操作函數(shù);Check是檢 查操作將檢查出不符合規(guī)則的數(shù)據(jù)。第一部分?jǐn)?shù)據(jù)抽取(Extraction@Source)
通過(guò)Mer、Split操作在參數(shù)表中設(shè)定相關(guān)參數(shù),將數(shù)據(jù)從源數(shù)據(jù)表通過(guò)合并和拆分 源數(shù)據(jù)將數(shù)據(jù)抽取到目標(biāo)表格中。第二部分?jǐn)?shù)據(jù)轉(zhuǎn)換(Transformation)
通過(guò)Swap、Rep操作對(duì)抽取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。轉(zhuǎn)換被標(biāo)識(shí)為屬性、輸入?yún)?shù)和輸 出參數(shù)列表以及返回值的集合。一個(gè)函數(shù)轉(zhuǎn)換可看作形如[元素名Fun值]的布爾表達(dá) 式,其中,約束包含對(duì)屬性值及被轉(zhuǎn)換目標(biāo)數(shù)據(jù)源的內(nèi)容等限定,需要映射屬性名、轉(zhuǎn) 換數(shù)據(jù)的值以及轉(zhuǎn)換相應(yīng)的操作。對(duì)一個(gè)實(shí)體的操作語(yǔ)義,可以用表達(dá)式FOutputO InputO ;Expression;Mapping。其中,每一個(gè)函數(shù)作用產(chǎn)生的活動(dòng)實(shí)體的變遷稱為一個(gè)狀態(tài) 轉(zhuǎn)換。第三部分?jǐn)?shù)據(jù)校驗(yàn)(Verify)
按照設(shè)定的Check操作對(duì)數(shù)據(jù)進(jìn)行校驗(yàn)。目前的校驗(yàn)規(guī)則為精確度、準(zhǔn)確度校驗(yàn), 可以根據(jù)需要添加。第四部分載入源系統(tǒng)Loading @Destination
將數(shù)據(jù)清除校驗(yàn)記錄然后將數(shù)據(jù)裝載到目標(biāo)系統(tǒng)當(dāng)中。
權(quán)利要求
1. 一種通過(guò)Excel對(duì)系統(tǒng)之間數(shù)據(jù)治理的方法,其特征在于它包括以下步驟 步驟a:用戶先從源系統(tǒng)中按照系統(tǒng)規(guī)則格式將待治理的源數(shù)據(jù)導(dǎo)出到Excel文件 中,對(duì)于包含這些源數(shù)據(jù)的Excel文件,以下我們簡(jiǎn)稱為源Excel文件;步驟b:建立一個(gè)Excel插件,此插件功能是提供一個(gè)模板參數(shù)配置表,在這個(gè)模板 參數(shù)表中配置源Excel文件名、源Excel文件中各個(gè)工作簿的名稱、源文件列字段、目標(biāo) 文件列字段、語(yǔ)義轉(zhuǎn)換規(guī)則、以及校驗(yàn)規(guī)則,將此Excel插件裝載到普通的Excel表中; 對(duì)于包含插件并配置完成模板參數(shù)配置表的Excel文件,以下我們簡(jiǎn)稱為模板Excel文 件;步驟c:根據(jù)上一步配置的源Excel文件名等規(guī)則,將源數(shù)據(jù)從源Excel文件中載入 到模板Excel文件中;步驟d:對(duì)于源系統(tǒng)和目標(biāo)系統(tǒng)中各個(gè)列字段的數(shù)據(jù)語(yǔ)義,按照語(yǔ)義轉(zhuǎn)換規(guī)則參數(shù) 表中的語(yǔ)義轉(zhuǎn)化規(guī)則進(jìn)行轉(zhuǎn)換,以適應(yīng)目標(biāo)系統(tǒng)中的語(yǔ)義規(guī)則;步驟e:按照校驗(yàn)規(guī)則對(duì)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行長(zhǎng)度、類型、字段的精確度、準(zhǔn)確度以及唯 一性進(jìn)行校驗(yàn);步驟f:將校驗(yàn)產(chǎn)生的數(shù)據(jù)進(jìn)行目標(biāo)系統(tǒng)的格式化,如去掉字體等Excel自帶的文本 屬性,然后將符合目標(biāo)系統(tǒng)的目標(biāo)數(shù)據(jù)導(dǎo)入到目標(biāo)系統(tǒng)中。
全文摘要
一種通過(guò)Excel對(duì)系統(tǒng)之間數(shù)據(jù)治理的方法,它是利用配置參數(shù)表的方法包含對(duì)源系統(tǒng)導(dǎo)出來(lái)的Excel文件按照參數(shù)表規(guī)則進(jìn)行各種可配置的數(shù)據(jù)抓取,并通過(guò)編碼規(guī)則對(duì)數(shù)據(jù)進(jìn)行編碼轉(zhuǎn)換,然后通過(guò)校驗(yàn)規(guī)則對(duì)數(shù)據(jù)進(jìn)行校驗(yàn),從而實(shí)現(xiàn)用戶從源系統(tǒng)數(shù)據(jù)到目標(biāo)系統(tǒng)格式數(shù)據(jù)的治理,它可以降低大量相似數(shù)據(jù)的整理工作量,并進(jìn)一步高效、快速提高數(shù)據(jù)質(zhì)量。
文檔編號(hào)G06F17/30GK102012935SQ20101057460
公開(kāi)日2011年4月13日 申請(qǐng)日期2010年12月6日 優(yōu)先權(quán)日2010年12月6日
發(fā)明者周宇, 梁良, 陶振文, 馬勇 申請(qǐng)人:江西省電力公司信息通信中心